stochastik I Folien - Mathematische Statistik

Stochastik I
Lehrstuhl für Mathematische Statistik
Universität Würzburg
Prof. Dr. Michael Falk
Inhaltsverzeichnis
1 Das Kolmogoroffsche Axiomensystem
1
2
5
Erste Folgerungen aus dem Axiomensystem
3 Grundlagen der Kombinatorik
22
4 Vermischte Aufgaben
33
5 Bedingte Wahrscheinlichkeiten
40
6 Unabhängigkeit
57
7 Zufallsvariablen
86
8 Integrationstheorie
114
9 Verteilungen und ihre Charakterisierungen
160
10 Momente
191
11 Gesetze der großen Zahlen
210
12 Der Zentrale Grenzwertsatz
253
2
1
Das Kolmogoroffsche Axiomensystem
[A. N. Kolmogoroff (1933)] Seit Euklid werden bei einem rein geometrischen Aufbau
der Geometrie die Grundbegriffe Punkt“ und Gerade“ nicht explizit definiert, sondern
”
”
axiomatisch eingeführt.
1. Man vermittelt zunächst bewusst eine vage Vorstellung von dem, was mit den
Grundbegriffen gemeint ist, um die Theorie später anwenden zu können ( Ein Punkt
”
ist, was keinen Teil hat“, Eine Gerade ist eine Linie, die gleich liegt mit den
”
Punkten auf ihr selbst“ (Euklid)). Die vage Vorstellung wird dann im Verlauf der
Beschäftigung mit der Theorie zwangsläufig immer präziser.
2. Man beschreibt mittels Axiomen“, welche Beziehungen zwischen den Grundbegrif”
fen bestehen.
Analog gehen wir nun bei der Axiomatisierung der Stochastik vor. Im ersten Axiom
fordern wir die Existenz von Wahrscheinlichkeiten.
Axiom 1’ Ist Ω die Menge der möglichen Ergebnisse eines Experimentes (d.h. genau
ein ω ∈ Ω tritt bei der Durchführung des Experimentes ein), so ist jeder Teilmenge
A ⊂ Ω eine reelle Zahl P (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die
den Grad der Sicherheit angibt, mit dem A eintritt.
Axiom 2 P (Ω) = 1.
Axiom 3 (σ–AdditivitätS von P ) FürPeine Folge A1, A2, . . . paarweise disjunkter
Teilmengen von Ω gilt: P ( n∈N An) = n∈N P (An).
Das System 1’,2,3 ist zu einschränkend, wie der folgende Satz zeigt.
Satz (G. Vitali 1905) Es existiert kein P zu Ω = [0, 1), welches die Axiome
1’,2 und 3 erfüllt und zusätzlich translationsinvariant ist, d.h. P (Ac) = P (A) für
Ac := {a + c (mod 1) : a ∈ A}, c ≥ 0.
Beweis: Siehe Übungen.
2
2
Axiom 1’ wird nun abgeschwächt, indem P nicht mehr auf der gesamten Potenzmenge P(Ω) = {A : A ⊂ Ω} definiert wird.
Axiom 1 Ist Ω die Menge der möglichen Ergebnisse eines Experimentes, so ist
einigen (nicht notwendig allen) Teilmengen von Ω, Ereignisse genannt, eine reelle Zahl
P (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die den Grad der Sicherheit
angibt, mit dem A eintritt.
Ω ist ein Ereignis.
Das Komplement Ac = Ω\A eines Ereignisses A ist ein Ereignis.
Der Durchschnitt von zwei Ereignissen ist ein Ereignis.
Die Vereinigung von abzählbar vielen disjunkten Ereignissen ist ein Ereignis.
Definition 1.1 Ω sei eine nichtleere Menge. Dann heißt A ⊂ P(Ω) (= Potenzmenge
von Ω) σ–Algebra über Ω:⇔
3
1. Ω ∈ A,
2. A ∈ A ⇒ Ac ∈ A,
3. A, B ∈ A ⇒ A ∩ B ∈ A
4. Ai ∈ A, i ∈ N, Ai ∩ Aj = ∅ für i 6= j ⇒
S
i∈N Ai
∈ A.
Definition 1.2 (Ω, A) heißt messbarer Raum :⇔ A ist σ–Algebra über nichtleerer
Menge Ω.
Definition 1.3 (Ω, A) sei messbarer Raum. Eine Funktion P : A → R+ = [0, ∞),
die die Axiome 2 und 3 erfüllt, heißt Wahrscheinlichkeitsmaß. Das Tripel (Ω, A, P )
heißt in diesem Fall Wahrscheinlichkeitsraum.
4
2
Erste Folgerungen aus dem Axiomensystem
Satz 2.1 (Ω, A) messbarer Raum, An ∈ A, n ∈ N. Dann gilt:
S
(i) n∈N An ∈ A,
T
(ii) n∈N An ∈ A,
(iii)
lim sup An := {ω ∈ Ω : ω liegt in ∞ vielen An}
n∈N
=
∞ [
\
m=1 n≥m
5
An ∈ A,
(iv)
lim inf An := {ω ∈ Ω : ω liegt in fast allen An}
n∈N
=
∞ \
[
An ∈ A,
m=1 n≥m
Beweis:
(i) Setze B1 := A1, Bn := An\(A1 ∪ . S
. . ∪ An−1) =SAn ∩ Ac1 ∩ . . . ∩ Acn−1 ∈ A. Bn,
n ∈ N, sind paarweise disjunkt mit n∈N An = n∈N Bn ∈ A.
(ii)
\
n∈N
An =
\
An
c c
=
[
Acn
c
∈ A.
n∈N
n∈N
(iii) und (iv) folgen unmittelbar aus (i), (ii).
6
2
Korollar 2.2 Ω 6= ∅, A ⊂ P(Ω). Dann: A ist σ–Algebra ⇔
(i) Ω ∈ A,
(ii) A ∈ A ⇒ Ac ∈ A,
(iii) An ∈ A, n ∈ N ⇒
S
n∈N An
∈ A.
Satz 2.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum. Dann gilt:
(i) P (∅) = 0,
(ii) P (A1 ∪ . . . ∪ An) =
Pn
i=1 P (Ai ),
falls A1, . . . , An paarweise disjunkt,
(iii) 0 ≤ P (A) ≤ 1 stets,
(iv) A ⊂ B (∈ A) ⇒ P (A) ≤ P (B) (Monotonie von P ),
(v) P (Ac) = 1 − P (A).
7
Beweis:
(i)
∅ = ∅ ∪ ∅ ∪ ...
⇒ P (∅) = P (∅) + P (∅) + . . .
⇒ P (∅) = 0.
(ii) Wegen P (∅) = 0 gilt:
P (A1 ∪ . . . ∪ An) = P (A1 ∪ . . . ∪ An ∪ ∅ ∪ . . .)
= P (A1) + . . . + P (An) + 0 + . . .
(v)
Ω = A ∪ Ac ⇒ 1 = P (Ω) = P (A) + P (Ac)
⇒ P (Ac) = 1 − P (A).
8
(iii) Folgt unmittelbar aus (v):
0 ≤ P (A) = 1 − P (Ac) ≤ 1.
| {z }
≥0
(iv)
⇒(ii)
B = A ∪ (B\A) = A ∪ (B ∩ Ac)
P (B) = P (A) + P (B\A) ≥ P (A).
2
Im folgenden sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A1, . . . , An ∈ A. |M |
bezeichnet die Anzahl der Elemente einer Menge M (Mächtigkeit von M ).
9
Satz 2.4 (Allgemeiner Additionssatz)
!
X
P (A1 ∪ . . . ∪ An) =
=
(−1)|T |−1P
∅6=T ⊂{1,...,n}
n
X
k−1
(−1)
\
Ai
i∈T
Sk
k=1
mit
Sk :=
X
P A i1 ∩ A i2 ∩ · · · ∩ A ik .
1≤i1 <i2 <...<ik ≤n
Beispiel: Im Fall n = 2 ergibt sich
P (A1 ∪ A2) = P (A1) + P (A2) − P (A1 ∩ A2).
10
Im Fall n = 3 ergibt sich
P (A1 ∪ A2 ∪ A3)
= P (A1) + P (A2) + P (A3)
−P (A1 ∩ A2) − P (A1 ∩ A3) − P (A2 ∩ A3)
+P (A1 ∩ A2 ∩ A3).
Beweis: Mittels vollständiger Induktion; ”+” bedeutet Vereinigung disjunkter Mengen.
11
Der Fall n = 2:
A1 ∪ A2 = A1 + (A2\A1),
A2 = (A2 ∩ A1) + (A2\A1)
⇒ P (A1 ∪ A2) = P (A1) + P (A2\A1),
P (A2) = P (A2 ∩ A1) + P (A2\A1)
⇒ P (A1 ∪ A2) − P (A1) = P (A2) − P (A2 ∩ A1)
⇒ Behauptung für den Fall n = 2.
12
Der Induktionsschritt n → n + 1:
P ((A1 ∪ . . . ∪ An) ∪ An+1)
= P ((A1 ∪ . . . ∪ An)) + P (An+1)
−P ((A1 ∩ An+1) ∪ (A2 ∩ An+1) ∪ . . .
∪(An ∩ An+1))
!
X
\
|T |−1
Ai + P (An+1)
=
(−1)
P
i∈T
∅6=T ⊂{1,...,n}
!
−
X
(−1)
|T |−1
\
P
Ai ∩ An+1
i∈T
∅6=T ⊂{1,...,n}
!
X
=
(−1)
|T |−1
\
P
Ai
+ P (An+1)
i∈T
∅6=T ⊂{1,...,n+1}, n+16∈T
!
X
+
(−1)
13
|T |−1
i∈T
T ⊂{1,...,n+1}, n+1∈T, T ∩{1,...,n}6=∅
!
=
X
(−1)
|T |−1
P
\
P
\
Ai .
Ai
2
Satz 2.5 Sei Bk das Ereignis, dass genau k der Ereignisse A1, . . . , An eintreten, d.h.
ω ∈ Bk ⇔ ω ∈ Ai für genau k der Indizes i = 1, . . . , n. Dann gilt:
!
X
\
|U |
|U |−k
P (Bk ) =
(−1)
P
Ai
k
i∈U
U ⊂{1,...,n}, |U |≥k
n X
m
=
(−1)m−k Sm,
k
m=k
Sm wie in Satz 2.4, S0 := 1.
c
Bemerkung B0 = (A1∪. . .∪An) ⇒ P (B0) = 1−P (∪1≤i≤nAi) =2.4
14
Pn
m
(−1)
Sm .
m=0
Beweis:
!
Bk =
X
\
S⊂{1,...,n}, |S|=k
i∈S
15
Ai
!!
∩
\
i∈S c
Aci
,
(disjunkte Zerlegung von Bk ). Es folgt:
P (Bk )
!
X
\
=
P
Ai ∩
!!
\
i∈S c
!c
i∈S
S⊂{1,...,n}, |S|=k
(
X
=
\
1−P
Ai
∪
(
X
!c!
"
1− P
\
Ai
i∈S
S⊂{1,...,n}, |S|=k
!
+
X
(−1)
|T |−1
∅6=T ⊂S c
P
\
Ai
i∈T
c


[
\
 Aj 16 ∩ Ai
−P 

c


i∈S
j∈S
!!)
[
i∈S c
i∈S
S⊂{1,...,n}, |S|=k
=2.4
Aci
Ai
(
X
=
S⊂{1,...,n}, |S|=k
P
!
\
Ai
i∈S



 X

−
(−1)|T |−1P

c
\ 


 Ai 


i∈T
∅6=T ⊂S
| {z }

 =C



c





\ 
X
\

|T |−1

 Aj  ∩
Ai 
−
(−1)
P 
 ;


 j∈S
i∈T
∅6=T ⊂S c


| {z } | {z }

=Dc
=C
wegen P (C) − P (Dc ∩ C) = P (C ∩ D) folgt
17
(
=
X
P
S⊂{1,...,n}, |S|=k
!
\
Ai
i∈S






!




\
X
\


Ai 
−
(−1)|T |−1P  Aj  ∩


c
i∈T
j∈S
∅6=T ⊂S




|
{z
}

T

= i∈S∪T Ai
!
X
X
\
|T |
=
(−1) P
Ai

S⊂{1,...,n}, |S|=k T ⊂S c
i∈S∪T
!
=
X
X
(−1)
S⊂{1,...,n}, |S|=k U ⊃S, U ⊂{1,...,n}
18
|U |−k
P
\
i∈U
Ai .
|U |−k
T
Der Summand (−1)
P
i tritt hierbei so oft auf, wie es k–elementige
i∈U A
Teilmengen S von U gibt, also |Uk | –mal. Hieraus folgt der erste Teil der Behauptung
sowie
!
n
X
X m
\
m−k
=
(−1)
P
Ai .
k
i∈U
m=k
U ⊂{1,...,n}, |U |=m
|
{z
}
=Sm
2
Satz 2.6 Sei Ck das Ereignis, dass mindestens k der Ereignisse A1, . . . , An eintreten.
Dann gilt:
n X
m−1
P (Ck ) =
(−1)m−k Sm.
k−1
m=k
19
Beweis:
P (Ck ) =
n
X
P (Bj )
j=k
n X
n X
m
(−1)m−j Sm
=2.5
j
j=k m=j


n
m
X
X
m

=
(−1)m−j  Sm.
j
m=k
j=k
20
n
k
n−1
k
n−1
k−1
Für die innere Summe folgt aus der Beziehung
=
+
m
m
m
−
+
− ...
m
m −1 m − 2
m
+(−1)m−k
k
m−1
m−1
m−1
=
+
−
m
m−1
m−1
| {z } |
{z
}
=0
=0
m−1
m−k m − 1
+ . . . + (−1)
−
m−2
k
|
{z
}
=0
m
−
1
+(−1)m−k
1
k −
m−1
.
= (−1)m−k
21
k−1
:
2
Bemerkung Der Allgemeine Additionssatz 2.4 ist in 2.6 enthalten (k = 1).
Bemerkung Zur Geschichte der Stochastik: Briefwechsel (1654) zwischen P. Fermat
und B. Pascal (u.a. wg. Chevalier de Méré); inzwischen stürmische Entwicklung (A.N.
Kolmogoroff (1933)−→ . . .)
3
Grundlagen der Kombinatorik
Definition 3.1 Ein Wahrscheinlichkeitsraum (Ω, A, P ) heißt Laplace–Experiment :⇔
|Ω| < ∞ und alle einelementigen Teilmengen von Ω sind Ereignisse mit der gleichen
Wahrscheinlichkeit.
22
Satz 3.2 (Ω, A, P ) Laplace–Experiment, A ⊂ Ω. Dann gilt:
|A|
P (A) =
|Ω|
Anzahl der für A günstigen Ausgänge
=
.
Anzahl aller möglichen Ausgänge
Satz 3.3 (Additionsprinzip der Kombinatorik) Für disjunkte endliche Mengen A1, A2
gilt:
|A1 + A2| = |A1| + |A2|.
Korollar Für disjunkte endliche Mengen A1, . . . , Ak gilt:
|A1 ∪ . . . ∪ Ak | = |A1| + . . . + |Ak |.
23
Satz 3.4 (Multiplikationssatz der Kombinatorik) A1 sei eine Menge der Mächtigkeit n1 ∈ Z+ = N ∪ {0}, B2 eine beliebige Menge und n2 ∈ Z+. Jedem a1 ∈ A1 sei
genau eine n2–elementige Teilmenge B(a1) ⊂ B2 zugeordnet, und es sei
A2 := {(a1, a2) : a1 ∈ A1, a2 ∈ B(a1)}.
Dann gilt: |A2| = n1n2.
Beweis: Folgt aus 3.3.
2
Korollar 3.5 |A1| = n1 ∈ Z+, B1, . . . , Bn seien beliebige Mengen und n2, . . . , nk ∈
Z+. Für i = 1, . . . , k − 1 sei jedem i–Tupel (a1, . . . , ai) ∈ Ai eine ni+1–elementige
Teilmenge B(a1, . . . , ai) ⊂ Bi+1 zugeordnet, und es sei
Ai+1 := {(a1, . . . , ai, ai+1) : (a1, . . . , ai) ∈ Ai,
ai+1 ∈ B(a1, . . . , ai)},
24
(Definition durch Induktion (Rekursion)). Dann gilt:
|Ak | = n1n2 . . . nk .
Korollar |A1 × A2 × . . . × Ak | = n1n2 · · · nk , falls |Ai| = ni, i = 1, . . . , k.
k
|
=
|A
|=
Obiges Korollar ergibt speziell für Ai = A, i = 1, . . . , k: | A
×
.
.
.
×
A
{z
}
|
k mal
k
|A| .
Die Menge Ak aller k–Tupel von Elementen aus A heißt geordnete Probe zu A vom
Umfang k mit Wiederholung.
Satz 3.6 Es gibt nk geordnete Proben zu einer n–elementigen Menge vom Umfang k
mit Wiederholung.
A
Beispiel
A,
B
endliche
Mengen,
B
:= Menge aller Abbildungen von A nach B.
A
Dann: B = |B||A|.
25
Korollar 3.7 Eine n–elementige Teilmenge besitzt 2n verschiedene Teilmengen.
Beweis: A sei eine n–elementige Menge, dann: |{0, 1}A| = 2|A|; |Menge aller Abbildungen von A → {0, 1}| = |P(A)|.
2
Ein k–Tupel (a1, . . . , ak ) ∈ Ak mit ai 6= aj für j 6= i heißt geordnete Probe aus A
vom Umfang k ohne Wiederholung.
Satz 3.8 Zu einer n–elementigen Menge gibt es (n)k := n(n − 1) · · · (n − k + 1)
geordnete Proben vom Umfang k ≥ 1 ohne Wiederholung.
Beweis: Für eine geordnete Probe (a1, . . . , ak ) vom Umfang k ohne Wiederholung
gilt: a1 ∈ A, a2 ∈ A\{a1}, a3 ∈ A\{a1, a2}, . . . , ak ∈ A\{a1, . . . , ak−1}. Aus dem
Multiplikationsprinzip, genauer 3.5, folgt nun die Behauptung.
2
26
Speziell für k = n erhalten wir
Satz 3.9 n verschiedene Elemente können auf (n)n = n! verschiedene Arten angeordnet werden, d.h. es existieren n! Permutationen einer n–elementigen Menge.
Eine ungeordnete Probe vom Umfang k mit bzw. ohne Wiederholung erhalten wir,
indem wir geordnete Proben, die sich nur in der Reihenfolge unterscheiden, identifizieren. Die ungeordneten Proben vom Umfang k ohne Wiederholung sind demnach
einfach die k–elementigen Teilmengen von A.
Satz 3.10 Eine n–elementige Menge besitzt
n
(n)k
n!
=
=
k
k!
k!(n − k)!
verschiedene k–elementige Teilmengen.
27
Beweis: Eine geordnete Probe vom Umfang k ohne Wiederholung besteht aus einer
k–elementigen Teilmenge und einer Anordnung. Es gibt k! verschiedene Möglichkeiten
der Anordnung (3.9), also (3.8):
(n)k = Anzahl der k–elementigen Teilmengen × k!.
Hieraus folgt die Behauptung.
2
Korollar 3.11 (i) Es gibt nk Möglichkeiten, k unterscheidbare Kugeln auf n unterscheidbare Urnen zu verteilen.
(ii) Es gibt (n)k Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare
Urnen zu verteilen, dass keine Urne mehr als eine Kugel enthält.
n
(iii) Es gibt k Möglichkeiten, k ununterscheidbare Kugeln so auf n unterscheidbare
Urnen zu verteilen, dass keine Urne mehr als eine Kugel enthält.
28
Satz 3.12 Es gibt
k
k!
:=
k1, k2, . . . , kn
k1!k2! · · · kn!
Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen,
dass genau ki Kugeln in die Urne Nummer i kommen (ki ≥ 0, i = 1, . . . , n; k1 + k2 +
. . . + kn = k).
Beweis: Es gibt
k
Möglichkeiten der k1
k1
k − k1
Möglichkeiten der k2
k2
.. ..
29
Kugeln für Urne 1
Kugeln für Urne 2
..
k − k1 − . . . − kn−2
kn−1
Möglichkeiten der kn−1
Kugeln für Urne n − 1.
Ausmultiplikation liefert nun:
Möglichkeiten
insgesamt
k
k − k1
k − k1 − . . . − kn−2
=
···
k1
k2
kn−1
k!
(k − k1)!
=
×
× ...
k1!(k − k1)! k2!(k − k1 − k2)!
(k − k1 − . . . − kn−2)!
×
kn−1!(k − k1 − . . . − kn−1)!
k!
=
.
k1! · · · kn!
2
30
k
k1 ,...,kn
heißen Polynomialkoeffizienten. Wegen
Bemerkung Die Größen
n
n
k,n−k verallgemeinern sie die Binomialkoeffizienten k .
Korollar 3.13
(a1 + . . . + an)k
X
=
k1 ≥0,...,kn ≥0, k1 +...+kn =k
k
ak11 ak22 · · · aknn .
k1, . . . , kn
Korollar 3.14 (i)
n X
n
k=0
k
31
= 2n.
n
k
=
(ii)
r X
n
m
m+n
=
.
k
r−k
r
k=0
(iii)
n 2
X
n
k=0
k
=
2n
.
n
Beweis:
(i) Zerlegung der Potenzmenge einer n–elementigen Menge gemäß Mächtigkeit der
Teilmenge; 3.7 ⇒ Behauptung.
m+n
(ii) r = Anzahl der r–elementigen Teilmengen von {1, . . . , n, n + 1, . . . , m + n}.
Die Anzahl der Möglichkeiten, hierbei k Elemente
aus
{1, . . . , n} und somit r − k
m
aus {n + 1, . . . , n + m} auszuwählen, ist nk r−k
.
32
(iii) Folgt mit m = r = n aus (ii) wegen
n 2
k
=
n
k
n
n−k
.
2
4
Vermischte Aufgaben
Aufgabe 4.1 Aus einer Schulklasse mit 20 Schülern wird eine Woche lang (5 Tage)
jeden Morgen ein Schüler zufällig ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass
mindestens 1 Schüler mehrmals ausgewählt wird?
Lösung: Laplace–Experiment mit Ω = {1, . . . , 20}5, |Ω| = 205; ungünstige Fälle:
alle geordneten Proben vom Umfang 5 ohne Wiederholung, d.h. (20)5. Also:
gesuchte Wahrscheinlichkeit
205 − (20)5
=
205
20 × 19 × . . . × 16
= 1−
= 0, 4186.
5
20
2
Aufgabe 4.2 Sack mit N Nüssen, darunter S schlechte Nüsse. Gezogen wird eine
Stichprobe vom Umfang n. Wie groß ist die Wahrscheinlichkeit p(s), dass in der Stichprobe genau s schlechte Nüsse sind, s = 0, 1, . . . , n?
34
.
Lösung: {1, . . . , S} = Menge der schlechten Nüsse
von {1, . . . , N }. Laplace–Experiment
mit Ω = {A ⊂ {1, . . . , N } : |A| = n}, |Ω| = Nn . Dann:
p(s)
=
=
|A ∈ Ω mit |A ∩ {1, . . . , S}| = s|
N
n
S N −S
s
n−s
N
n
=: HN,S,n(s).
HN,S,n heißt Hypergeometrische Verteilung zu den Parametern N , S, n (Qualitätskontrolle).
2
Aufgabe 4.3 Skatspiel: 32 Karten, 3 Spieler, je 10 Karten; Skat“ mit 2 Karten. Es
”
35
gibt vier Buben.
(i) Spieler A habe 2 Buben. Wie groß ist die Wahrscheinlichkeit, dass die Spieler B
und C jeweils 1 Buben besitzen?
22
Lösung: Es gibt 10,10,2 mögliche Verteilungen der 22 Karten, die A nicht besitzt,
auf B,C und den Skat. Diese
sind gleich
wahrscheinlich. Die Anzahl der günstigen
20
2
Möglichkeiten beträgt 9,9,2
× 1,1,0
. Also beträgt die gesuchte Wahrscheinlichkeit
20
2
100
9,9,2 × 1,1,0
.
=
22
231
10,10,2
2
(ii) Gesucht: Wahrscheinlichkeit, dass einer der beiden Spieler beide Buben besitzt.
36
Lösung:
2×
2
20
×
2,0,0
8,10,2
22
10,10,2
90
=
.
231
(iii) Gesucht: Wahrscheinlichkeit, dass beide Buben im Skat liegen.
Lösung:
2
20
1
10,10,0 × 0,0,2
=
.
22
231
10,10,2
(iv) Gesucht: Wahrscheinlichkeit, dass genau 1 Bube im Skat liegt:
Lösung:
20
2
2 × 9,10,1 × 1,0,1
40
=
.
22
231
10,10,2
37
2
2
2
(v) Bilderschecks in Warenprodukten: k Warenpackungen (Cornflakes). In jeder Packung
ist genau 1 von n möglichen Sammelmarken (etwa n = 11 Fußballspieler).
Annahme: Laplace–Experiment, es gibt nk Möglichkeiten der Verteilung. Gesucht:
Wahrscheinlichkeit pm, dass wenigstens m Sammelmarken fehlen.
Lösung: Ω = Menge aller möglichen Verteilungen von k unterscheidbaren Kugeln
.
.
(= Packungen) auf n unterscheidbare Urnen (= Sammelmarken). |Ω| = nk .
Ai := Menge aller Verteilungen, bei denen die i–te Urne leer ist.
Für 1 ≤ i1 < . . . < ir ≤ n gilt:
(n − r)k
P Ai1 ∩ . . . ∩ Air =
.
k
n
38
Es folgt mit der Bezeichnung von 2.4
X
Sr =
P A i1 ∩ . . . ∩ A ir
1≤i <...<i ≤n
1 r
n (n − r)k
=
r
nk
und damit aus 2.6
pm = P (Cm)
n
X
n (n − r)k
r−m r − 1
.
=
(−1)
k
n
m
−
1
r
r=m
2
39
5
Bedingte Wahrscheinlichkeiten
(Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0.
Es sei bekannt, dass das Ereignis B eingetreten ist.
Neues Experiment: Ergebnismenge Ω0 = B.
Heuristisch: Wahrscheinlichkeit, dass A eintritt, wenn bereits bekannt ist, dass B
eingetreten ist, ist P (A ∩ B)/P (B).
Definition 5.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, A ∈ A und B ∈ A mit
P (B) > 0. Dann heißt
P (A ∩ B)
P (A|B) := PB (A) :=
P (B)
bedingte Wahrscheinlichkeit von A unter (der Bedingung) B.
40
Beispiel 5.2 Für die beiden ersten Kinder einer Familie seien die 4 Geschlechtskombinationen J − J, M − M , J − M und M − J gleich wahrscheinlich. Von einer
Familie sei bekannt, dass wenigstens eines der Kinder ein Junge ist. Wie groß ist die
Wahrscheinlichkeit, dass diese Familie sogar zwei Jungen hat?
41
.
.
Lösung: A1 := 1. Kind ist ein Junge, A2 := 2. Kind ist ein Junge. Damit:
P (A1 ∩ A2|A1 ∪ A
T2)
P ((A1 ∩ A2) (A1 ∪ A2))
=
P (A1 ∪ A2)
P (A1 ∩ A2)
=
P (A1 ∪ A2)
P (A1 ∩ A2)
=
P (A1) + P (A2) − P (A1 ∩ A2)
=
1
2
1
4
1
2
+ − 14
1
= .
3
2
42
Satz 5.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0. Die bedingte
Wahrscheinlichkeit PB : A → R+ ist eine Wahrscheinlichkeit, d.h. PB erfüllt die
Axiome 1,2,3.
Beweis: Trivial, Axiome nachprüfen.
2
Satz 5.4 A1, . . . , An Ereignisse mit P (A1 ∩ . . . ∩ An−1) > 0. Dann:
P (A1 ∩ . . . ∩ An)
= P (A1)P (A2|A1)P (A3|A1 ∩ A2) × . . .
×P (An|A1 ∩ . . . ∩ An−1).
Beweis: n = 2 : P (A1 ∩ A2) = P (A1)P (A2|A1);
43
n→n+1:
P (A1 ∩ . . . ∩ An+1)
=
P (A1 ∩ . . . ∩ An)P (An+1|A1 ∩ . . . ∩ An)
=Ind. V. P (A1)P (A2|A1) × · · ·
×P (An+1|A1 ∩ . . . ∩ An).
2
Beispiel 5.5 16 weiße, 16 schwarze Schachfiguren liegen im Kasten. 3 Figuren werden
zufällig ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass alle 3
Figuren schwarz sind?
44
Lösung: Ai sei das Ereignis, dass die i–te Figur schwarz ist. Dann:
P (A1 ∩ A2 ∩ A3)
= P (A1)P (A2|A1)P (A3|A1 ∩ !
A2 )
16
16 15 14
3
.
× ×
= 32
=
32 31 30
3
2
Satz 5.6 (Totale Wahrscheinlichkeit)
(Ω, A, P ) Wahrscheinlichkeitsraum, B1, . . . , Bn
Pn
seien disjunkte Ereignisse mit i=1 Bi = Ω, P (Bi) > 0, i = 1, . . . , n. Dann:
P (A) =
n
X
P (Bi)P (A|Bi),
i=1
45
A ∈ A.
Beweis:
P (A) = P (Ω ∩ A)
!
n
X
= P
(Bi ∩ A)
i=1
=
=
n
X
i=1
n
X
P (Bi ∩ A)
P (Bi)P (A|Bi)
i=1
2
Beispiel 5.7 (Zweistufiges Experiment) In Urne 1 liegen 2 weiße und 8 schwarze
Kugeln, in Urne 2 liegen 4 weiße und 6 schwarze Kugeln.
46
Zunächst wird gewürfelt. Bei einer 5 oder 6 erfolgt eine Ziehung aus Urne 1, bei
einer 1-4 wird aus Urne 2 gezogen.
Wie groß ist die Wahrscheinlichkeit, eine weiße Kugel zu ziehen?
.
Lösung: A = eine weiße Kugel wird gezogen,
.
B1 = 5 oder 6 beim Würfeln,
.
B2 = 1–4 beim Würfeln. Dann:
P (A) = P (B1)P (A|B1) + P (B2)P (A|B2)
1 1 2 2
1
= × + × = .
3 5 3 5
3
2
Satz 5.8 (Bayessche Formel) Zusätzlich zu den Voraussetzungen von Satz 5.6 gel47
te P (A) > 0. Dann gilt:
P (Bi)P (A|Bi)
P
P (Bi|A) = n
.
P
(B
)P
(A|B
)
j
j
j=1
Beweis:
P (A ∩ Bi)
P (A)
P (Bi)P (A|Bi)
= Pn
.
j=1 P (Bj )P (A|Bj )
P (Bi|A) =
2
.
Beispiel 5.9 (Fortsetzung von Beispiel 5.7) A = Ziehen einer weißen Kugel, P (A) =
1/3.
48
Wie groß ist die Wahrscheinlichkeit von Bi, i = 1, 2, wenn bekannt ist, dass eine
weiße Kugel gezogen wurde, d.h. wie groß ist die Wahrscheinlichkeit, dass eine weisse
Kugel aus Urne i stammt?
Lösung:
P (B1)P (A|B1)
P (B1|A) =
P (B1)P (A|B1) + P (B2)P (A|B2)
1/3 × 1/5
1
=
=
1/3 × 1/5 + 2/3 × 2/5
5
4
⇒ P (B2|A) = .
5
P (Bi|A) heißt a posteriori Wahrscheinlichkeit von Bi, P (Bi) heißt a priori Wahrscheinlichkeit
von Bi.
2
49
.
Beispiel 5.10 (Überprüfung, ob radikal) R := Kandidat ist radikal,
.
B := Kandidat wird für radikal erklärt.
Eine Überprüfung ergebe mit der Wahrscheinlichkeit 0,95 ein richtiges Ergebnis, d.h.
P (B|R) = 0, 95; P (B c|Rc) = 0, 95.
Es sei P (R) = 0, 005.
Wie groß ist die Wahrscheinlichkeit, das ein als radikal erklärter Kandidat tatsächlich
radikal ist?
50
Lösung: Gesucht:
P (R ∩ B)
P (B)
P (R)P (B|R)
=
P (R)P (B|R) + P (Rc)P (B|Rc)
5/1000 × 95/100
=
5/1000 × 95/100 + 995/1000 × 5/100
95
=
(!).
1090
P (R|B) =
2
Beispiel 5.11 (Brustkrebs-Screening durch Mammographie) 1
1
Aus: Christian Hesse (2010). Warum Mathematik glücklich macht. C.H. Beck, München, S. 199ff.
51
Die Wahrscheinlichkeit, dass eine 50jährige Frau Brustkrebs hat, ist bei etwa 0,8%
anzusiedeln.
Die Wahrscheinlichkeit, dass das Mammogramm einer Patientin positiv ist, wenn sie
Brustkrebs hat, liegt bei etwa 90% (sog. Sensitivität des Untersuchungsverfahrens).
Die Wahrscheinlichkeit, dass ein durchgeführtes Mammogramm positiv ist, wenn die
Patientin keinen Brustkrebs hat, liegt bei etwa 7% (sog. Falsch-Positiv-Rate).
Angenommen, eine 50-jährige Frau unterzieht sich einer Mammographie und der
Befund ist positiv. Wie wahrscheinlich ist es, dass die Frau tatsächlich Brustkrebs hat?
.
.
Lösung: B := Brustkrebserkrankung, M := Mammogramm ist positiv. Dann:
8
90
7
P (B) =
, P (M | B) =
, P (M | B c) =
.
1000
100
100
52
Gesucht:
P (B | M ) =
=
P (B)P (M | B)
P (B)P (| B) + P (B c)P (M | B c)
8 90
1000 100
8 90
992 7
+
1000 100
1000 100
720
7664
9
≈
(!).
100
=
2
Beispiel 5.12 (Laplacescher Folgesatz) In einer Urne liegen N Kugeln, W weiße
und N − W schwarze. W sei unbekannt; alle N + 1 möglichen Mischungsverhältnisse
besitzen die gleiche Wahrscheinlichkeit 1/(N + 1).
53
Es werden nacheinander n + 1 Kugeln ohne Zurücklegen gezogen.
Wie groß ist die Wahrscheinlichkeit, dass die n + 1-te Kugel weiß ist, wenn die ersten
n Kugeln weiß gewesen sind?
.
Lösung: Ai := nur weiße Kugeln unter den ersten i Ziehungen.
Offenbar gilt A1 ⊃ A2 ⊃ . . . und gesucht ist
P (An+1 ∩ An) P (An+1)
P (An+1|An) =
=
.
P (An)
P (An)
54
Wir erhalten:
P (An) =
N
X
P {W = w}P (An|{W = w})
w=0
N
X
1
=
N +1
w=0
=
1
(N + 1)
1
×
=
N +1
1
.
=
n+1
w
× Nn n
N X
N
n
w=n
N +1
n+1
N
n
Behauptung:
55
w
n
N X
w
w=n
n
=
N +1
n+1
N +1
.
n+1
Denn:
ist die Anzahl der Möglichkeiten, aus der Menge
{1, 2, . . . , N + 1} eine
n+1–elementige Teilmenge auszuwählen. Dabei gibt es wn Möglichkeiten, die Auswahl
so zu treffen, dass w + 1 das größte der ausgewählten Elemente ist, w = n, . . . , N .
Insgesamt erhalten wir somit:
n+1
P (An+1|An) =
n+2
unabhängig von N !
2
56
6
Unabhängigkeit
Gegeben ist ein Würfel, A := {2, 4, 6}, B := {5, 6}, P (A) = 1/2.
P (A|B) =
P (A ∩ B) 1/6 1
=
= = P (A),
P (B)
2/6 2
d.h. die zusätzliche Information des Eintretens von B hat in diesem speziellen Fall
keinen Einfluss auf die Wahrscheinlichkeit des Eintretens von A.
Definition 6.1 A, B Ereignisse mit P (B) > 0; dann:
A unabhängig von B :⇔ P (A) = P (A|B).
57
Satz 6.2 A, B Ereignisse mit P (A) > 0 und P (B) > 0; dann:
A unabhängig von B
⇔ B unabhängig von A
⇔ P (A ∩ B) = P (A)P (B).
Beweis:
A unabhängig von B
⇔ P (A) = P (A ∩ B)/P (B)
⇔ P (B) = P (A ∩ B)/P (A)
⇔ P (A ∩ B) = P (A)P (B).
2
58
Definition 6.3 A, B beliebige Ereignisse, dann:
A, B unabhängig :⇔ P (A ∩ B) = P (A)P (B).
Satz 6.4 A, B unabhängig, dann gilt:
Ac, B sind unabhängig,
A, B c sind unabhängig,
Ac, B c sind unabhängig.
Beweis:
P (Ac ∩ B) =
=
=
=
P (B) − P (A ∩ B)
P (B) − P (A)P (B)
P (B)(1 − P (A))
P (B)P (Ac).
59
2
Satz 6.5 A, B seien unabhängig; A, C seien unabhängig; B ∩ C = ∅. Dann gilt:
A, B ∪ C sind unabhängig.
Beweis:
P (A ∩ (B ∪ C)) =
=
=
=
P ((A ∩ B) + (A ∩ C))
P (A ∩ B) + P (A ∩ C)
P (A)P (B) + P (A)P (C)
P (A)P (B ∪ C).
2
Bemerkung A, B, C paarweise unabhängig 6⇒ P (A ∩ B ∩ C) = P (A)P (B)P (C).
Gegenbeispiele: Siehe Übungen.
60
Definition 6.6 Ω 6= ∅; A ⊂ P(Ω) ist Algebra über Ω :⇔
(i) Ω ∈ A,
(ii) A ∈ A ⇒ Ac ∈ A,
(iii) A, B ∈ A ⇒ A ∪ B ∈ A.
Definition 6.7 ∅ =
6 S ⊂ P(Ω). Dann:
α(S) :=
\
P(Ω)⊃D⊃S, D
D
Algebra
=: kleinste Algebra, die S enthält,
\
σ(S) :=
D
P(Ω)⊃D⊃S, D σ –Algebra
=: kleinste σ–Algebra, die S enthält.
61
Beachte: Der beliebige Durchschnitt von (σ–) Algebren ist wieder eine (σ–) Algebra;
P(Ω) ist eine (σ–) Algebra mit P(Ω) 6= ∅.
Satz 6.8 ∅ 6= S ⊂ P(Ω). Dann: α(S) = Menge aller endlichen, disjunkten Vereinigungen von endlichen Durchschnitten von Mengen aus S oder deren Komplemente,
d.h.
S1 := {S ⊂ Ω : S ∈ S oder S c ∈ S},
S2 := {S1 ∩ . . . ∩ Sn : n ∈ N, Si ∈ S1, i = 1, . . . , n}
S3 := {T1 ∪ . . . ∪ Tn : Tj ∈ S2, j = 1, . . . , n,
paarweise disjunkt, n ∈ N}
⇒ α(S) = S3.
Beweis:
62
1. S3 ⊂ α(S) (trivial, da eine Algebra ∩–stabil, ∪–stabil und Komplement–stabil ist).
2. S3 6= ∅, da S3 ⊃ S2 ⊃ S1 ⊃ S 6= ∅.
3. T ∈ S2 ⇒ T c ∈ S3.
(Denn: T = S1 ∩ . . . ∩ Sn ∈ S2 mit Si ∈ S1 ⇒
T c = S1c ∪ . . . ∪ Snc
= S1c ∪ (S2c\S1c) ∪ S3c\(S1c ∪ S2c) ∪ . . .
c
∪Snc \(S1c ∪ . . . ∪ Sn−1
)
= S1c + (S2c ∩ S1) + (S3c ∩ S1 ∩ S2) + . . .
+(Snc ∩ S1 ∩ . . . ∩ Sn−1) ∈ S3.
4. T1, T2 ∈ S2 ⇒ T1 ∩ T2 ∈ S2 (trivial).
5. U1, U2 ∈ S3 ⇒ U1 = T11 +. . .+T1n1 mit disjunkten T1j ∈ S2, U2 = T21 +. . .+T2n2
63
mit disjunkten T2j ∈ S2
[
⇒ U1 ∩ U2 =
( T1i ∩ T2j ) ∈ S3.
| {z }
i,j ∈S wegen 4.
2
|
{z
}
disjunkte Vereinigung
6. U ∈ S3 ⇒ U = T1 + . . . + Tn, Ti ∈ S2, i = 1, . . . , n, disjunkt ⇒ U c =
T1c ∩ . . . ∩ Tnc ∈ S3 wegen 3. und 5. (Tjc ∈ S3 wegen 3.).
Wegen 2., 5. und 6. ist S3 eine Algebra. Hieraus und aus 1. folgt, dass S3 = α(S). 2
Definition 6.9 A1, . . . , An seien beliebige Ereignisse, dann:
A1, . . . , An (global) unabhängig
:⇔ Ai, B unabhängig für 1 ≤ i ≤ n
und B ∈ α({Aj : j 6= i}).
64
Satz 6.10 A1, . . . , An sind unabhängig ⇔
P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · · · P (Aik )
(1)
für 2 ≤ k ≤ n, 1 ≤ i1 < . . . < ik ≤ n.
Beweis:
⇒“
”
Ai2 ∩ . . . ∩ Aik ∈ α({Aj : j 6= i1})
⇒ Ai1 , Ai2 ∩ . . . ∩ Aik unabhängig
⇒ P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ∩ . . . ∩ Aik )
u.s.w. (Induktion)
⇐“ Es genügt zu zeigen: A1 ist unabhängig von jedem Ereignis aus α({A2, . . . , An}).
”
65
In (1) beliebige der Aij durch Acij ersetzbar (z.B. P (Ai1 ∩ Aci2 ∩ . . . ∩ Aik ) =
P (Ai1 )P (Aci2 ) · · · P (Aik ), siehe 6.4) ⇒
(c)
(c)
P (A1 ∩ Ai2 ∩ . . . ∩ Aik )
(c)
(c)
= P (A1)P (Ai2 ) · · · P (Aik )
(c)
mit Aij = Aij oder Acij ,
d.h. A1 unabhängig von allen Ereignissen aus S2(A2, . . . , An)
⇒6.5 A1 unabhängig von allen Ereignissen aus S3(A2, . . . , An) =6.8 α({A2, . . . , An}).
2
66
Definition 6.11 Ai, i ∈ I, beliebige Ereignisse, dann:
Ai, i ∈ I, unabhängig
:⇔ Ai, G unabhängig für beliebiges
i ∈ I und G ∈ α({Aj : j ∈ I, j 6= i}).
Bemerkung 6.12 (i)
Ai, i ∈ I, unabhängig
⇔ Ai, i ∈ I0 unabhängig
für alle endlichen Teilmengen I0 von I.
(ii) A1, A2, . . . sei eine Folge von Ereignissen, dann:
A1, A2, . . . unabhängig
⇔ A1, . . . , An unabhängig für alle n ∈ N.
67
Beweis:
(i)
⇒“ trivial.
”
⇐“ Nach Satz 6.8 existiert zu jedem G ∈ α({Aj : j 6= i}) ein I0 ⊂ I mit |I0| < ∞
”
und G ∈ α({Aj : j ∈ I0}).
2
Definition 6.13 (i) Gi, i ∈ I, unabhängige Algebren von Ereignissen
:⇔ Gi ist Ereignis–Algebra,
S
i ∈ I, und für jedes i ∈ I ist jedes G ∈ Gi unabhängig
von allen H ∈ α
j6=i Gj .
(ii) Ai, i ∈ I, unabhängige σ–Algebren von Ereignissen
68
:⇔ Ai ist σ–Algebra von Ereignissen,
i∈ I, und für jedes i ∈ I ist jedes A ∈ Ai
S
unabhängig von allen B ∈ σ
j6=i Aj .
Satz 6.14 Ai, i ∈ I unabhängig ⇒ α({Ai}), i ∈ I, unabhängige Algebren.
Beweis:
α({Ai}) = {Ai, Aci, ∅, Ω},
d.h.

α({Aj : j ∈ I, j 6= i}) = α 

[
α({Aj }) .
j6=i
∅ und Ω sind von allen Ereignissen unabhängig.
69
2
Satz 6.15 (Borel–Cantelli Lemma) A1, A2, . . . seien Ereignisse;
A := {ω ∈ Ω : ω ∈ An für unendlich viele n ∈ N}
\ [
Am .
=
n∈N m≥n
Dann gilt:
(i) P (A) = 0, falls
P
< ∞.
(ii) P (A) = 1, falls
P
= ∞ und A1, A2, . . . unabhängig.
n∈N P (An )
n∈N P (An )
Beweis: Es gilt (siehe Übungen):
70
(i)“
”
P (A) = P
\
[
Am
m≥n
n∈N
| {z }
absteigende Folge
!
[
= lim P
Am ,
n∈N
m≥n
wobei
!
P
[
=
Am
m≥n
≤
s. Üb.
als Rest einer konvergenten Reihe.
71
lim P
k∈N
X
m≥n
k
[
!
Am
m=n
P (Am) →n∈N 0
(ii)“
”
c
P (A ) = P
[
\
Acm
m≥n
n∈N
| {z }
aufsteigende Folge
\
c
= lim P
Am
n∈N
= lim P
n∈N
m≥n
\
\
Acm
N ≥n
|n≤m≤N
{z }
absteigende Folge
\
= lim lim P (
Acm
|{z}
n∈N N ∈N
n≤m≤N unabhängig
Y
= lim lim
( 1 − P (Am) )
,
| {z }
n∈N N ∈N
n≤m≤N ≤exp(−P (Am ))
{z
72| }
≤exp
P
− N
m=n P (Am ) →N ∈N 0
denn 1 − x ≤ exp(−x) wegen Taylor–Entwicklung:
x2
exp(−x) = 1 − x + exp(−ϑx) ≥ 1 − x.
{z 2}
|
≥0
2
Satz 6.16 (Fortsetzungssatz) G sei Algebra über Ω, Q S
ein σ–additiver,
P normierter
Inhalt auf G (d.h. Q : G → [0, ∞)Smit Q(Ω) = 1 und Q( n∈N Gn) = n∈N Q(Gn)
für disjunkte Gn ∈ G, n ∈ N mit n∈N Gn ∈ G).
Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß P auf A := σ(G) mit
P/G = Q/G.
Beweis: Siehe Maßtheorie. (Etwa Satz 4.9 im Maßtheorie-Skript (\ ∼falk\downloads\).
2
73
Satz 6.17 G1, G2 seien unabhängige Ereignis–Algebren. Dann sind A1 := σ(G1),
A2 := σ(G2) unabhängige σ–Algebren.
Beweis: Zu zeigen:
∀A1 ∈ A1, ∀A2 ∈ A2 :
P (A1 ∩ A2) = P (A1)P (A2).
Sei G1 ∈ G1 gegeben.
1. Fall: P (G1) = 0. Dann gilt:
0 = P (G
∩ A}2)
| 1 {z
⊂G1
= P (G1)P (A2) = 0
für alle A ∈ A2.
74
2. Fall: P (G1) > 0. Setze
P (G1 ∩ A2)
Q(A2) :=
für A2 ∈ A2.
P (G1)
Dann gilt
1.
∀G2 ∈ G2 : Q(G2) = P (G2)
wegen der Unabhängigkeit von G1, G2.
2. Q ist Wahrscheinlichkeitsmaß auf A2; denn:
(a) Q(Ω) = 1.
75
(b) A12, A22, . . . sei Folge disjunkter Mengen aus A2, dann:
!
P
n
X
P G1 ∩ n∈N A2
n
Q
A2 =
P (G1)
n∈N
P
n
P
n∈N (G1 ∩ A2 )
=
P (G1)
P
n
n∈N P (G1 ∩ A2 )
=
P (G1)
X
Q (An2 ) .
=
n∈N
Aus 1. und 2. folgt mittels des Fortsetzungssatzes 6.16, dass Q(A2) = P (A2) für alle
A2 ∈ A2, d.h.
P (G1 ∩ A2) = P (G1)P (A2) für alle A2 ∈ A2.
Analog schließt man: G1 ∈ G1 durch A1 ∈ A1 ersetzbar.
2
76
Satz 6.18 Gi, i ∈ I, seien beliebige Algebren von Ereignissen zum Wahrscheinlichkeitsraum (Ω, A, P ). Dann sind äquivalent:
(i) Gi, i ∈ I, sind unabhängig.
(ii) Ai := σ(Gi), i ∈ I, sind unabhängig.
(iii) Für je endlich viele verschiedene i1, . . . , ik ∈ I und Gi1 ∈ Gi1 , . . . , Gik ∈ Gik gilt:
P Gi1 ∩ . . . ∩ Gik = P (Gi1 ) · · · P Gik .
Beweis:
(ii)⇒(i)“ Trivial.
”
S
(i)⇒(iii)“ Gi1 ist unabhängig von allen Ereignissen aus α
j6=i1 Gj , speziell von
”
77
Gi2 ∩ . . . ∩ Gik , d.h.
P Gi1 ∩ Gi2 ∩ . . . ∩ Gik
= . . . = P (Gi1 ) · · · P Gik
mittels Induktion.
(iii)⇒(ii)“ Zu zeigen ist: Ai0 ∈ Ai0 ist unabhängig von allen A ∈ σ
”
78
S
j6=i0
Aj .
Sei Gi0 ∈ Gi0 und H ∈ α
S
j6=i0
Gj
⇒6.8 H ∈ α({Gi1 , . . . , Gir }) für geeignete
Gi1 ∈ Gi1 , . . . , Gir ∈ Gir
⇒6.10 Gi0 und H sind unabhängig, d.h.


[
Gj  sind unabhängig
Gi0 und α 
j6=i
⇒6.17
 0

[
Ai0 = σ(Gi0 ), σ α 
Gj  unabhängig .
j6=i0
79
Die Behauptung folgt nun aus den Gleichungen:



 
[
[
Gj 
Gj  = σ 
σ α 
j6=i0
j6=i0


[

= σ
σ(Gj ) .
| {z }
j6=i0 =Aj
Zum zweiten =“:
”
⊂“: Trivial.
”
80
⊃“: Für i 6= i0 gilt:
”
[
Gj ⊃ Gi
j6=i0

⇒ σ

[
Gj  ⊃ σ(Gi)
j6=i0

⇒ σ

[
Gj  ⊃
j6=i0

⇒ σ
σ(Gi)
i6=i0

[
[
Gj  ⊃ σ 
j6=i0


[
σ(Gi)
| {z }
i6=i0 =Ai
2
81
Gegeben seien zwei Zufallsexperimente, die durchgeführt werden, ohne dass sie sich
gegenseitig beeinflussen. Gesucht ist ein Wahrscheinlichkeitsraum (Ω, A, P ) zur mathematischen Beschreibung des Zufallsexperimentes, welches darin besteht, dass die
beiden Experimente ohne wechselseitige Beeinflussung — also unabhängig — durchgeführt werden.
Die einzelnen Experimente werden durch (Ω1, A1, P1), (Ω2, A2, P2) beschrieben. Nahe liegend:
Ω := Ω1 × Ω2 := {(ω1, ω2) : ω1 ∈ Ω1, ω2 ∈ Ω2}.
Jedes A1 ∈ A1 kann identifiziert werden mit A1 × Ω2,
jedes A2 ∈ A2 kann identifiziert werden mit Ω1 × A2,
d.h. Forderung:
A1 × Ω2, Ω1 × A2 sind Ereignisse
⇒ (A1 × Ω2) ∩ (Ω1 × A2) = A1 × A2 Ereignis.
82
Daher:
A := σ ({A1 × A2 : A1 ∈ A1, A2 ∈ A2}) .
Ferner soll die Forderung
P1(A1) = P (A1 × Ω2), P2(A2) = P (Ω1 × A2)
erfüllt sein.
Zur Unabhängigkeit: A1 × Ω2 und Ω1 × A2 sollen stets unabhängig sein für A1 ∈ A1,
A2 ∈ A2, d.h. es soll gelten
P (A1 × A2) = P ((A1 × Ω2) ∩ (Ω1 × A2))
= P (A1 × Ω2)P (Ω1 × A2)
= P1(A1)P2(A2).
83
Satz 6.19 (Ω1, A1, P1), . . . , (Ωn, An, Pn) seien Wahrscheinlichkeitsräume. Setze
Ω := Ω1 × . . . × Ωn
:= {(ω1, . . . , ωn) : ωi ∈ Ωi, 1 ≤ i ≤ n}
und
A := σ({A1 × . . . × An : Ai ∈ Ai, 1 ≤ i ≤ n}.
Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß auf (Ω, A) mit
P (A1 × . . . × An) = P1(A1) · · · Pn(An).
Beweisskizze: Definiere P auf Mengensystem Z := {A1 × . . . × An : Ai ∈ Ai, 1 ≤
i ≤ n} durch
n
Y
P (A1 × . . . × An) :=
P (Ai).
i=1
84
Dann Fortsetzung von P (zu einem (eindeutig bestimmten) σ–additiven Inhalt) auf
α(Z). Die Behauptung folgt dann aus dem Fortsetzungssatz 6.16.
2
Definition 6.20 (Ω, A, P ) ist unabhängiges Produkt der Wahrscheinlichkeitsräume
(Ω1, A1, P1), . . . , (Ωn, An, Pn) :⇔ (Ω, A, P ) wird definiert gemäß 6.19.
Schreibweise: Ω = Ω1 × . . . × Ωn, A = A1 ⊗ . . . ⊗ An, P = P1 × . . . × Pn. Im Fall
(Ω1, A1, P1) = . . . = (Ωn, An, Pn) = (Ω, A, P ),
d.h. unabhängige n–fache Wiederholung von (Ω, A, P ), schreiben wir kurz (Ωn, An, P n).
85
7
Zufallsvariablen
(Ω, A, P ) zufälliges Experiment, f : Ω → Ω0 eine Abbildung. Es sei ω ein Ergebnis;
häufig interessiert weniger der exakte Ausgang ω sondern nur der Wert f (ω). Beispielsweise interessiert beim Schuss auf eine Zielscheibe weniger die genaue Lage des
Einschusses sondern der Abstand zum Mittelpunkt.
Daher wird man vor allem Ereignisse der Gestalt
f −1(A0) := {ω ∈ Ω : f (ω) ∈ A0}
betrachten, wobei A0 die im Bildraum von f interessierenden Ereignisse durchläuft.
Satz 7.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum und f : Ω → Ω0 eine Abbildung.
Setze
A0 := {A0 ⊂ Ω0 : f −1(A0) ∈ A}
und
P 0(A0) := P (f −1(A0)) für alle A0 ∈ A0.
86
Dann ist (Ω0, A0, P 0) ein Wahrscheinlichkeitsraum.
Beweis:
1. f −1(Ω0) = Ω ∈ A, d.h. Ω0 ∈ A0.
2. Sei A0 ∈ A0
⇒ f −1(A0) =: A ∈ A
⇒ f −1(Ω0\A0) = Ac ∈ A
⇒ A0c = Ω0\A0 ∈ A0.
87
3. Sei A0n ∈ A0, n ∈ N
⇒ f −1(A0n) ∈ A,
!n ∈ N
[
[
0
−1
An =
f −1(A0n) ∈ A
⇒ f
⇒
[
n∈N
A0n ∈ A0.
n∈N
n∈N
Also ist A0 eine σ–Algebra. Ferner ist P 0 ein Wahrscheinlichkeitsmaß auf (Ω0, A0):
1. P 0(Ω0) = P (f −1(Ω0)) = P (Ω) = 1.
88
2. Für paarweise disjunkte A0n, n ∈ N, gilt:
!
X
0
A0n = P
P
!!
f
X
−1
A0n
n∈N
n∈N
!
= P
X
f −1 (A0n)
n∈N
=
=
X
n∈N
X
P f
−1
(A0n)
P 0 (A0n) .
n∈N
2
Bemerkung 7.2 A0 heißt finale σ–Algebra bezüglich f ; P 0 heißt das durch P und f
auf A0 induzierte Wahrscheinlichkeitsmaß oder Bildmaß von P unter f .
89
Definition 7.3 (Ω, A, P ) sei ein Wahrscheinlichkeitsraum, (Ω0, A0) ein messbarer Raum,
dann: f : Ω → Ω0 heißt A, A0–messbar oder Zufallsgröße, falls f −1(A0) ⊂ A, d.h.
falls für alle A0 ∈ A0 gilt:
f −1(A0) ∈ A,
(d.h. A0 ist sub–σ–Algebra der finalen σ–Algebra.) Schreibweise:
f : (Ω, A) → (Ω0, A0).
Satz 7.4 f : (Ω, A) → (Ω0, A0). Dann:
f −1(A0) := {f −1(A0) : A0 ∈ A0} ist sub–σ–Algebra von A.
(= zu f gehörende Vergröberung von A, durch f bestimmte Ereignisse von A).
Beweis:
90
1. Ω = f −1(Ω0).
2. A ∈ f −1(A0)
⇒ ∃A0 ∈ A0 : A = f −1(A0)
⇒ Ac = f −1(A0c) ∈ f −1(A0).
3. An ∈ f −1(A0), n ∈ N
⇒ ∃A0n ∈ A0 : An = f −1(A0n), n ∈ N
[
[
⇒
An =
f −1(A0n)
n∈N
n∈N
!
=f
[
−1
A0n
∈ f −1(A0).
n∈N
2
91
Satz 7.5 (Ω, A), (Ω0, A0) messbare Räume, S ⊂ P(Ω0) mit σ(S) = A0. Dann gilt:
f : Ω → Ω0 ist A, A0–messbar
⇔ f −1(S) ∈ A für alle S ∈ S.
Beweis:
⇒“ Trivial.
”
⇐“ Setze
”
F := {F ∈ P(Ω0) : f −1(F ) ∈ A}.
F ist (die finale) σ–Algebra mit F ⊃ S ⇒
F ⊃ σ(S) = A0.
2
92
Satz 7.6 (Ω, A), (Ω0, A0), (Ω00, A00) messbare Räume, f : (Ω, A) → (Ω0, A0),g :
(Ω0, A0) → (Ω00, A00). Dann gilt:
g ◦ f : Ω → Ω00 ist A, A00–messbar.
Beweis: Sei A00 ∈ A00, dann:
(g ◦ f )−1(A00) = f −1(g −1(A00)) ∈ A.
| {z }
∈A0
2
Definition 7.7 In sei die Menge aller n–dimensionalen Intervalle im Rn.
Bn := σ(In) ⊂ P(Rn)
ist das System der n–dimensionalen Borelmengen bzw. die Borel–σ–Algebra des Rn.
93
Bemerkung 7.8 Setze
In0 := {(a, b] : {x = (x1, . . . , xn) ∈ Rn :
ai < xi ≤ bi, i = 1 . . . , n} für
a = (a1, . . . , an), b = (b1, . . . , bn) ∈ Rn}.
dann gilt:
Bn = σ(In0).
Denn z.B.:
[a, b] =
\
m∈N
1
a − ,b
m
mit a − 1/m = (a1 − 1/m, . . . , an − 1/m);
[
1
(a, b) =
a, b −
m
m∈N
94
u.s.w.
⇒ Bn ⊃ σ(In0) ⊃ In
⇒ Bn ⊃ σ(In0) ⊃ σ(In) = Bn
⇒ σ(In0) = Bn.
Satz 7.9 Bn enthält alle (bezüglich der euklidischen Topologie des Rn) offenen und
abgeschlossenen Mengen des Rn.
Beweis: InQ := Menge aller n–dimensionalen Intervalle in In mit rationalen Endpunk-
95
ten. InQ ist abzählbar (denn Q2n ist abzählbar).
G ⊂ Rn sei offen
[
I ∈ Bn (als abzählb. Vereinigung);
⇒ G=
I⊂G, I∈InQ
F ⊂ Rn abgeschlossen
⇒ F c offen und damit in Bn
⇒ F ∈ Bn.
2
n
Satz 7.10 Bn = B
⊗
·
·
·
⊗
B
=
B
.
{z
}
|
n–mal
Beweis: n = 2; B ⊗ B = σ({B1 × B2 : B1, B2 ∈ B}.
96
1. B2 ⊂ B ⊗ B, da I2 ⊂ B ⊗ B.
2. Zu zeigen: B ⊗ B ⊂ B2.
Es genügt zu zeigen, dass B1 × B2 ∈ B2, falls B1, B2 ∈ B.
(a) Setze für I ∈ I
BI := {B ⊂ R : B × I ∈ B2};
BI ist eine σ–Algebra(!) mit I ⊂ BI , d.h. B ⊂ BI .
Also gilt B1 × I ∈ B2, falls B1 ∈ B, I ∈ I.
(b) Setze für B ∈ B
BB := {A ⊂ R : B × A ∈ B2};
BB ist eine σ–Algebra(!) mit I ⊂ BB nach (a), d.h. B ⊂ BB .
Also gilt B1 × B2 ∈ B2, falls B1, B2 ∈ B.
Analog schließt man damit von n auf n + 1.
97
2
Definition 7.11 (Ω, A, P ) Wahrscheinlichkeitsraum;
f : Ω → R ist Zufallsvariable
:⇔ f ist A, B–messbar.
Satz 7.12 (Ω, A, P ) Wahrscheinlichkeitsraum, f : Ω → R beliebig. Dann sind äquivalent:
1. f ist Zufallsvariable, d.h. f −1(B) ∈ A für alle B ∈ B.
2. {f ≤ y} := {ω ∈ Ω : f (ω) ≤ y} ∈ A für alle y ∈ R.
3. {f < y} := {ω ∈ Ω : f (ω) < y} ∈ A für alle y ∈ R.
4. {f ∈ I} := {ω ∈ Ω : f (ω) ∈ I} ∈ A für alle Intervalle I in R.
98
5. {f ∈ G} := {ω ∈ Ω : f (ω) ∈ G} ∈ A für alle G ∈ G := Menge der offenen
Teilmengen von R.
6. {f ∈ F } := {ω ∈ Ω : f (ω) ∈ F } ∈ A für alle F ∈ F := Menge der
abgeschlossenen Teilmengen von R.
Beweis: Folgt aus 7.5 (s. 7.8 und 7.9), da
{(−∞, y] : y ∈ R}, {(−∞, y) : y ∈ R}, I1, G, F
Erzeuger der σ–Algebra B sind.
2
Beispiel 7.13 Beispiele für Zufallsvariablen:
1.
f ∈ {0, 1}Ω ist Zufallsvariable
⇔ ∀y ∈ R : {ω ∈ Ω : f (ω) ≤ y} ∈ A
99
wobei
{ω ∈Ω : f (ω) ≤ y}
Ω,
falls y ≥ 1,

∅,
falls y < 0,
=
∈A

{ω ∈ Ω : f (ω) = 0}, falls 0 ≤ y < 1.
⇔ f = 1A für ein geeignetes A ∈ A.
Dabei ist
1A(ω) =
1, falls ω ∈ A,
0 sonst,
die Indikatorfunktion der Menge A.
2. Falls A = {∅, Ω}, so sind nur konstante Funktionen Zufallsvariablen.
3. Falls A = P(Ω), so sind alle f : Ω → R Zufallsvariablen.
100
Definition 7.14 (Ω, A, P ) Wahrscheinlichkeitsraum; dann:
f : Ω → Rn ist n–dimensionaler Zufallsvektor
:⇔ f ist A, Bn–messbar.
Satz 7.15
f = (f1, . . . , fn) : Ω → Rn ist n–dim. Zufallsvektor
⇔ fi : Ω → R ist Zufallsvariable, i = 1, . . . , n.
Beweis:
⇒“ Sei B ∈ B, dann:
”
i−te Stelle
fi−1(B)
=f
−1
z}|{
(R
B × · · · × R}) ∈ A.
| × · · · × {z
∈Bn
101
⇐“ 1.
”
f
−1
(B1 × · · · × Bn) =
\
1≤i≤n
fi−1(Bi) ∈ A,
| {z }
∈A
falls Bi ∈ B, i = 1, . . . , n.
2. {B ⊂ Rn : f −1(B) ∈ A} ist (finale) σ–Algebra (7.1).
Aus 1. und 2. folgt, dass
{B ⊂ Rn : f −1(B) ∈ A} ⊃ B ⊗ · · · ⊗ B =7.10 Bn,
d.h. f ist Zufallsvektor.
2
Definition 7.16
g : Rn → R ist Bairesche Funktion
:⇔ g ist Bn, B–messbar.
102
Satz 7.17 fi : Ω → R sei Zufallsvariable, i = 1, . . . , n, g : Rn → R Bairesche
Funktion. Dann ist g ◦ (f1, . . . , fn) Zufallsvariable.
Beweis: Folgt aus 7.15 und 7.6.
2
Satz 7.18 g : Rn → R stetig ⇒ g ist Bairesche Funktion.
Beweis: g stetig ⇒ ∀ offenen Teilmengen O von R: g −1(O) ist offen im Rn, d.h.
g −1(O) ∈ Bn. Nach Satz 7.5 gilt damit g −1(B) ∈ Bn für alle B ∈ B, da die offenen
Mengen B erzeugen (7.9).
2
103
Satz 7.19 f1, f2 seien Zufallsvariablen, a ∈ R. Dann gilt:
af1,
f1 + f2 ,
f1 f2 ,
f1/f2 (falls f2(ω) 6= 0 für alle ω ∈ Ω),
f1 ∨ f2 := max(f1, f2),
f1 ∧ f2 := min(f1, f2)
sind wieder Zufallsvariablen.
Beweis: R 3 x 7→ ax, R2 3 (x1, x2) 7→ x1 + x2 ∈ R u.s.w. sind stetige Abbildungen
von R → R bzw. R → R2, d.h. Satz 7.17 und 7.18 anwendbar.
2
Bemerkung Der Raum der Zufallsvariablen über (Ω, A, P ) ist ein linearer Raum.
104
Satz 7.20 f1, f2, . . . seien Zufallsvariablen.
1. fn(ω), n ∈ N, sei für jedes ω ∈ Ω nach oben beschränkt
⇒ sup fn ist Zufallsvariable.
n∈N
((supn∈N fn)(ω) = supn∈N(fn(ω))).
2. fn(ω), n ∈ N, sei für jedes ω ∈ Ω nach unten beschränkt
⇒ inf fn ist Zufallsvariable.
n∈N
3. fn(ω), n ∈ N, sei für jedes ω ∈ Ω beschränkt
⇒ lim inf fn, lim sup fn sind Zufallsvariablen.
n∈N
n∈N
4. fn(ω), n ∈ N, sei für jedes ω ∈ Ω konvergent
⇒ lim fn ist Zufallsvariable.
n∈N
105
Beweis:
T
1. ∀y ∈ R : {ω ∈ Ω : supn∈N fn(ω) ≤ y} = n∈N{ω ∈ Ω : fn(ω) ≤ y} ∈ A.
S
2. {ω ∈ Ω : inf n∈N fn(ω) < y} = n∈N{ω ∈ Ω : fn(ω) < y} ∈ A.
3. lim supn∈N fn(ω) = inf m∈N supn≥m fn(ω) , lim inf n∈N fn(ω) = supm∈N (inf n≥m fn(ω)),
d.h. die Behauptung folgt aus 1. und 2.
4. limn∈N fn = lim supn∈N fn = lim inf n∈N fn, d.h. 3. anwendbar.
2
Definition 7.21 fi, i ∈ I, sei eine Familie zufälliger Größen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), wobei fi : (Ω, A) → (Ωi, Ai), i ∈ I.
Die Familie fi, i ∈ I, heißt unabhängig :⇔ die Familie A(fi) = fi−1(Ai), i ∈ I, der
zugehörigen Vergröberungen ist unabhängig.
106
Bemerkung 7.22 fi, i ∈ I, unabhängig ⇔ fi, i ∈ I0, unabhängig für alle endlichen
Teilmengen I0 von I (s. 6.18).
Satz 7.23
fi : (Ω, A) → (Ω0i, A0i), i = 1, . . . , n unabhängig
⇔ P ({f1 ∈ A01, . . . , fn ∈ A0n}
= P ({f1 ∈ A01}) · · · P ({fn ∈ A0n})
für beliebige A0i ∈ A0i, i = 1, . . . , n.
107
Beweis:
f1, . . . , fn unabhängig
⇔ A(f1), . . . , A(fn) unabhängig
⇔6.18 für beliebige A0i ∈ A0i, i = 1, . . . , n, sind die
Ereignisse {f1 ∈ A01}, . . . , {fn ∈ A0n}
unabhängig.
2
Satz 7.24 fi : (Ω, A) → (Ω0i, A0i), i ∈ I, unabhängig, gi : (Ω0i, A0i) → (Ω00i , A00i ), i ∈
I.
Dann sind gi ◦ fi : (Ω, A) → (Ω00i , A00i ), i ∈ I, unabhängig.
Beweis:
108
1. Nach Satz 7.6 ist gi ◦ fi A, Ai–messbar, i ∈ I.
2. Für endliches I0 ⊂ I und A00i ∈ A00i , i ∈ I0, gilt:
P {gi ◦ fi ∈ A00i , i ∈ I0}
= P {fi ∈ gi−1(A00i ), i ∈ I0}
| {z }
∈A0i
=
Y
P {fi ∈ gi−1(A00i )} (da fi unabhängig)
i∈I0
=
Y
P {gi ◦ fi ∈ A00i }.
i∈I0
2
Definition 7.25 f1, f2, . . . seien Zufallsgrößen auf (Ω, A, P ). C ∈ A heißt terminales
109
Ereignis bzgl. f1, f2, . . . :⇔
!
C∈σ
[
A(fm)
für alle n ∈ N.
m≥n
T
n∈N σ
S
m≥n A(fm )
heißt die zu f1, f2, . . . gehörende terminale σ–Algebra.
Beispiel 7.26
1. {ω ∈ Ω : fn(ω) > 0 unendlich oft},
2. {ω ∈ Ω : fn(ω), n ∈ N, ist konvergent},
Pn
1
3. ω ∈ Ω : n i=1 fn(ω), n ∈ N, ist konvergent
sind terminale Ereignisse.
110
Satz 7.27 (Kolmogoroffsches 0–1–Gesetz) C sei terminales Ereignis zur Folge
unabhängiger Zufallsvariablen f1, f2, . . . ⇒ P (C) = 0 oder 1;
Bemerkung 7.28 Vergleiche Borel–Cantelli Lemma: A1, A2, . . . unabhängige Ereignisse ⇒ 1A1 , 1A2 , . . . unabhängige Zufallsvariablen;
(
)
X
lim sup An = ω ∈ Ω :
1An (ω) = ∞
n∈N
n∈N
ist terminales Ereignis zu 1A1 , 1A2 , . . . mit
P
0, falls Pn∈N P (An) < ∞,
P lim sup An =
1, falls
n∈N
n∈N P (An ) = ∞.
Beweis: Annahme: P (C) > 0. Wir zeigen: P (C) = 1.
111
Für A ∈ A(fn, n ∈ N) := σ
S
n∈N A(fn )
definieren wir
P (A ∩ C)
P (A) := P (A|C) =
P (C)
∗
⇒ P ∗ ist Wahrscheinlichkeitsmaß mit
∗
P (A) = P (A) für alle A ∈ A0 :=
[
A(fm : m ≤ n),
n∈N
mit
!
A(fm : m ≤ n) := σ
[
A(fm) ,
m≤n
denn für A ∈ A0 gilt: A, C sind unabhängig.
A0 ist eine Algebra(!) mit A(fn, n ∈ N) = σ(A0).
112
Fortsetzungssatz 6.16 ⇒ P ∗ = P auf A(fn, n ∈ N), d.h.
P (A ∩ C)
= P (A)
P (A) =
P (C)
für alle A ∈ A(fn, n ∈ N)
⇒ P (A ∩ C) = P (A)P (C)
insbesondere für A = C (C ∈ A(fn, n ∈ N))
⇒ P (C) = P (C)2
⇒ P (C) = 1.
∗
2
8
Integrationstheorie
Es sei f eine Zufallsvariable, die nur die Werte a1, . . . , am annimmt, pi := P {f = ai},
i = 1, . . . , m.
Bei N –facher unabhängiger Wiederholung des Experimentes seien α1, . . . , αN (∈
{a1, . . . , am}) die beobachteten Werte von f . Die Erfahrung zeigt, dass sich das arithmetische Mittel
N
1 X
αi
N i=1
offenbar gegen einen gewissen Wert stabilisiert. Was ist das für eine Zahl?
Dazu anschaulich: Hi (Häufigkeit) bezeichne die Anzahl des Eintretens von ai unter
den N Durchführungen des Experimentes, i = 1, . . . , m. Nach der Erfahrung wird
gelten:
Hi
≈ pi, d.h. Hi ≈ piN.
N
114
Damit:
H1a1 + · · · + Hmam
α1 + · · · + αN
=
N
N
m
X Hi
=
ai
N
i=1
m
X
≈
ai pi .
i=1
Dies wird der zu erwartende, d.h. der Erwartungswert des arithmetischen Mittels sein.
Den Begriff des Erwartungswertes werden wir in diesem Kapitel untersuchen.
Definition 8.1
115
1. e einfache Funktion :⇔
e=
m
X
αi1Ai
i=1
mit geeignetem m ∈ N, αi ≥ 0, Ai ∈ A, i = 1, . . . , m.
2. E := Menge der einfachen Funktionen.
Bemerkung 8.2
1. E = Menge aller nicht–negativen Zufallsvariablen über (Ω, A, P ), die nur endlich
viele Werte annehmen.
2. e1, e2 ∈ E, α ∈ R+
⇒ αe1, e1 + e2, e1e2, e1 ∨ e2, e1 ∧ e2 ∈ E.
P
3. e ∈ E ⇒ e = 1≤i≤m αi1Ai
116
mit disjunkten Ai ∈ A und
S
1≤i≤m Ai
= Ω.
Satz 8.3 Es gelte
e=
X
αi1Ai =
1≤i≤m
X
βj 1Bj ∈ E
1≤j≤n
mit disjunkten Ai ∈ A, i = 1, . . . , m, und disjunkten Bj ∈ A, j = 1, . . . , n. Dann
folgt:
X
X
αiP (Ai) =
βj P (Bj ).
1≤i≤m
1≤j≤n
117
Beweis: O.B.d.A. annehmbar, dass
1A i =
S
1≤i≤m Ai
X
=
S
1≤j≤m Bj
1Ai∩Bj ; 1Bj =
1≤j≤n
⇒e =
X
X
= Ω.
1Ai∩Bj
1≤i≤n
αi1Ai
1≤i≤m
X
=
αi1Ai∩Bj ;
1≤i≤m;1≤j≤n
X
e =
βj 1Bj ∩Ai
1≤j≤n;1≤i≤m
⇒ ∀i, j mit Ai ∩ Bj 6= ∅ : αi = βj
X
⇒
αiP (Ai)
1≤i≤m
=
X
αiP (Ai ∩ Bj )
1≤i≤m;1≤j≤n
=
X118
βj P (Bj ∩ Ai)
1≤i≤m;1≤j≤n
=
X
βj P (Bj ).
2
Definition 8.4 Für e =
wir
Z
P
1≤i≤m αi 1Ai
∈ E mit disjunkten Ai und αi ≥ 0 definieren
Z
e dP :=
e dP :=
Ω
X
αiP (Ai),
1≤i≤m
das Integral von e über Ω.
Satz 8.5 Für e, e1, e2 ∈ E gilt:
1.
Z
Z
αe dP = α e dP,
2.
Z
Z
e1 + e2 dP =
119
α ≥ 0,
Z
e1 dP +
e2 dP,
P
3. e =
Ai ⇒
1≤i≤m αi 1Ai
mit αi ≥ 0 und beliebigen Ai, d.h. nicht notwendig disjunkten
Z
X
e dP =
αiP (Ai),
1≤i≤m
4.
Z
e1 ≤ e2 ⇒
Z
e1 dP ≤
e2 dP.
Beweis:
1.“ e =
”
tung.
P
2.“ e1 =
”
P
1≤i≤m αi 1Ai
i α i 1A i
mit disjunkten Ai ⇒ αe =
mit disjunkten Ai, e2 =
120
P
j
P
1≤i≤m (ααi )1Ai
⇒ Behaup-
βj 1Bj mit disjunkten Bj . O.b.d.A.
gelte
S
i Ai
=
S
j
Bj = Ω;
e1 =
X
e2 =
X
αi1Ai∩Bj ,
i,j
βj 1Ai∩Bj
i,j
⇒ e1 + e2 =
X
(αi + βj )1Ai∩Bj
i,j
mit Ai ∩ Bj , (i, j), disjunkt
121
Z
⇒
e1 + e2 dP
X
=Def.
(αi + βj )P (Ai ∩ Bj )
i,j
X
X
=
αiP (Ai ∩ Bj ) +
βj P (Ai ∩ Bj )
Zi,j
=
i,j
Z
e1 dP +
3.“ Folgt aus 1. und 2.:
”
Z X
e2 dP.
αi1Ai dP =
X
i
i
122
Z
αi
1Ai dP.
4.“ Nach Beweisteil 2. besitzen e1 und e2 die Darstellungen
”
X
X
e1 =
αi1Ai , e2 =
βi1Ai
1≤i≤m
1≤i≤m
mit disjunkten Ai 6= ∅
⇒ Zαi ≤ βi,
⇒
1 ≤ i ≤ m,
X
e1 dP =
αiP (Ai)
≤
i
X
βiP (Ai)
Zi
=
e2 dP.
2
123
Satz 8.6 Zu jeder Zufallsvariablen f ≥ 0 existieren en ∈ E, n ∈ N, mit
e1 ≤ e2 ≤ . . . und f = lim en.
n∈N
Beweis: Setze
i
en :=
1 ,
n An,i
2
0≤i<n2n
X
mit An,i := {i/2n ≤ f < (i + 1)/2n}.
2
Satz 8.7 e, en ∈ E, n ∈ N, mit e ≤ limn∈N en, e1 ≤ e2 ≤ . . . Dann folgt:
Z
Z
e dP ≤ lim en dP.
n∈N
Beweis: Sei e =
P
1≤i≤m αi 1Ai .
124
Wähle a ∈ [0, 1) und setze Kn := {ae ≤ en}, n ∈ N.
Kn ∈ A,Pda ae − en A, B–messbar,
e1Kn = 1≤i≤m αi1Ai∩Kn ∈ E,
Kn ↑ Ω, also Ai ∩ Kn ↑ Ai und damit
limn∈N P (Ai ∩ Kn) = P (Ai), i = 1, . . . , m, ⇒
Z
X
a e dP = a
αiP (Ai)
1≤i≤m
= a lim
X
n∈N
αiP (Ai ∩ Kn)
Z 1≤i≤m
= lim ae1Kn dP
| {z }
n∈N
Z ≤en
≤ lim en dP.
n∈N
125
Für a ↑ 1 folgt nun die Behauptung.
2
Korollar 8.8 e1 ≤ e2 ≤ . . . , e01 ≤ e02 ≤ . . . ∈ E mit limn∈N en = limn∈N e0n (≤ ∞).
Dann gilt:
Z
Z
lim en dP = lim e0n dP.
n∈N
n∈N
Definition 8.9 Für eine Zufallsvariable f ≥ 0 setzen wir
Z
Z
f dP := lim en dP
n∈N
(Integral von f über (Ω, A, P )), falls
f = lim en,
n∈N
e1 ≤ e2 ≤ . . . ∈ E.
126
Satz 8.10 Für nicht negative Zufallsvariablen f, f1, f2 gilt:
1.
Z
Z
αf dP = α
2.
Z
α ≥ 0,
f dP,
Z
f1 + f2 dP =
3.
Z
f1 dP +
Z
f 1 ≤ f2 ⇒
f2 dP,
Z
f1 dP ≤
f2 dP.
Beweis: Nach Satz 8.6 existieren Folgen einfacher Funktionen e1 ≤ e2 ≤ . . . , e01 ≤
e02 ≤ . . ., ẽ1 ≤ ẽ2 . . . mit limn∈N en = f , limn∈N e0n = f1, limn∈N ẽn = f2.
127
1.“ αen ∈ E, n ∈ N, αe1 ≤ αe2 ≤ . . . , limn∈N αen = αf . Damit:
”
Z
Z
αf dP =Def. lim αen dP
n∈N
Z
=8.5 lim α en dP
n∈N
Z
= α lim en dP
n∈N
Z
=Def. α f dP.
128
2.“ e0n + ẽn ∈ E, n ∈ N, e01 + ẽ1 ≤ e02 + ẽ2 ≤ · · · , limn∈N(e0n + ẽn) = f1 + f2. Damit:
”
Z
Z
f1 + f2 dP =Def. lim e0n + ẽn dP
n∈N
Z
Z
=8.5 lim
e0n dP + ẽn dP
n∈N
Z
Z
=
f1 dP + f2 dP.
129
3.“
”
Z
⇒8.7
e0n
≤
e0n dP
≤
lim ẽn
n∈N Z
(= f2)
lim ẽn dP
Z
=Def.
f2 dP
Z
Z
⇒Def. f1 dP = lim e0n dP
n∈N
Z
f2 dP.
≤
n∈N
2
130
Satz 8.11 f, f1, f2, . . . seien nicht negative Zufallsvariablen mit f1 ≤ f2 ≤ · · · und
limn∈N fn = f . Dann gilt:
Z
Z
f dP = lim fn dP.
n∈N
Beweis: Zu fn existiert eine monoton wachsende Folge en,m, m ∈ N, in E mit
lim en,m = fn,
m∈N
also:
e1,1 ≤ e1,2 ≤ · · ·
e2,1 ≤ e2,2 ≤ · · ·
..
..
en,1 ≤ en,2 ≤ · · ·
..
..
131
↑ f1
↑ f2
..
↑ fn
..
↑ f.
Setze en := max(e1,n, . . . , en,n). Dann gilt:
1.
en ∈ E
(8.2,3.), e1 ≤ e2 ≤ · · ·
2.
en ≤ max(f1, . . . , fn) = fn ≤ f.
132
3.
∀m ≤ n : en
⇒ lim en
≥
≥
em,n
lim em,n = fm
⇒ lim en
≥
f
n∈N
n∈N
n∈N
⇒2. lim en = f
Z n∈N
Z
⇒ f dP =Def. lim en dP
n∈N
Z
≤2. lim fn dP ;
n∈N
Z
Z
f dP ≥8.10
fn dP
Z
Z
⇒ f dP = lim fn dP.
n∈N
133
2
Definition 8.12 f sei beliebige Zufallsvariable.
1. f + := max(f, 0) ist der Positivteil von f ,
f − := max(−f, 0) ist der Negativteil von f ; f = f + − f −.
R +
R −
2. f ist integrierbar :⇔ f dP < ∞ und f dP < ∞.
3. L := Menge aller integrierbaren Funktionen (auf (Ω, A, P )).
R +
R −
4. f ist quasiintegrierbar :⇔ f dP < ∞ oder f dP < ∞.
R
R +
R −
5. f dP := f dP − f dP , falls f quasiintegrierbar ist.
Satz 8.13 f, f1, f2 beliebige Zufallsvariablen. Dann:
R
R
1. f ∈ L, α ∈ R ⇒ αf ∈ L und αf dP = α f dP .
134
R
R
R
2. f1, f2 ∈ L ⇒ f1 + f2 ∈ L und f1 + f2 dP = f1 dP + f2 dP.
R
R
3. f1 ≤ f2, f1, f2 ∈ L ⇒ f1 dP ≤ f2 dP.
R
R
4. f ∈ L ⇔ |f | ∈ L und es gilt in diesem Fall | f dP | ≤ |f | dP.
5. g A, B–messbar mit f1 ≤ g ≤ f2, f1, f2 ∈ L ⇒ g ∈ L.
Beweis: Mittels 8.10.
2
Satz 8.14 (v. d. monotonen Konvergenz)
1. fn ∈ L, n ∈ N, fn ↑ f < ∞ ⇒ f ist quasiintegrierbar und
R
R
fn dP ↑ f dP .
R
R
2. fn ∈ L, n ∈ N, fn ↓ f > −∞ ⇒ f ist quasiintegrierbar und fn dP ↓ f dP .
Beweis: Genügt 1. zu beweisen (Übergang zu −fn, −f ). O.E. sei fn ≥ 0 (sonst
Übergang zu fn0 := fn − f1). Dann folgt die Behauptung aber aus 8.11.
2
135
Satz 8.15 (Lemma von Fatou)
1. fn ∈ L, n ∈ N, fn ≤ h, h ∈ L, lim supn∈N fn > −∞ ⇒ lim supn∈N fn ist
quasiintegrierbar und
Z
Z
lim sup fn dP ≥ lim sup fn dP.
n∈N
n∈N
2. fn ∈ L, n ∈ N, fn ≥ g, g ∈ L, lim inf n∈N fn < ∞ ⇒ lim inf n∈N fn ist quasiintegrierbar und
Z
Z
lim inf fn dP ≤ lim inf fn dP.
n∈N
n∈N
Beweis: Genügt 1. zu beweisen (Übergang zu −fn). Es gilt:
lim sup fn = lim sup fm .
n∈N
n∈N
136
m≥n
supm≥n fm ∈ L, da fn ≤ supm≥n fm ≤ h (8.13);
supm≥n fm ↓ lim supn∈N fn ⇒8.14 lim supn∈N fn ist quasiintegrierbar und
Z
Z
sup fm dP ↓
lim sup fn dP
m≥n
n∈N Z
Z
⇒ lim sup fn dP = lim sup fm dP
n∈N m≥n
n∈N
Z
≤ lim
sup fm dP
n∈N
m≥n
Z
=
lim sup fn dP.
n∈N
2
Satz 8.16 (v. d. dominierten Konvergenz) fn, n ∈ N, Zufallsvariablen mit limn∈N fn
137
f , |fn| ≤ g, g ∈ L. Dann gilt:
Z
fn, f ∈ L und lim
Z
fn dP =
n∈N
f dP.
Beweis: 8.13⇒ fn, f ∈ L. Das Lemma von Fatou liefert:
Z
Z
lim sup fn dP
lim sup fn dP ≤
n∈N
Z n∈N
=
f dP
Z
lim inf fn dP
=
n∈N
Z
≤ lim inf fn dP.
n∈N
2
138
Satz 8.17 (Transformationssatz für Integrale) (Ω, A, P ) Wahrscheinlichkeitsraum,
(Ω0, A0) messbarer Raum, T : (Ω, A) → (Ω0, A0).
P 0 := P ∗ T sei das durch P und T auf A0 induzierte Wahrscheinlichkeitsmaß
(Bildmaß), d.h.
P 0(A0) = P (T −1(A0)), A0 ∈ A0,
s. Satz 7.1.
f 0 : Ω0 → R sei Zufallsvariable. Dann:
f 0 ∈ L(Ω0, A0, P 0) ⇔ f 0 ◦ T ∈ L(Ω, A, P )
und in diesem Fall gilt:
Z
f 0 dP 0 =
Z
Ω0
Ω
Beweis:
139
f 0 ◦ T dP.
0
0
0
0
mit αi ≥ 0, A0i ∈ A0,
X
0
⇒ e := e ◦ T =
αi 1A0i ◦ T
1. Sei e ∈ E(Ω , A ), d.h. e =
P
1≤i≤m αi 1A0i
1≤i≤m
=
X
1≤i≤m
140
αi1Ai ∈ E(Ω, A)
mit Ai := T −1(A0i) und
Z
0
0
e dP =
Ω0
X
αiP 0(A0i)
1≤i≤m
=
X
αiP (T −1(A0i))
1≤i≤m
=
X
αiP (Ai)
1≤i≤m
Z
=
e dP.
Ω
2. Sei f 0 : Ω0 → R+ Zufallsvariable. Dann existieren e0n ∈ E(Ω0, A0) mit e0n ↑ f 0
⇒ en := e0n ◦ T ↑ f 0 ◦ T , en ∈ E(Ω, A).
141
Somit gilt nach 1.:
Z
f 0 dP 0 =Def. lim
n∈N
0
Ω
Z
ZΩ0
e0n dP 0
lim en dP
Ω
Z
=Def.
f 0 ◦ T dP.
=1.
n∈N
Ω
3. Für beliebiges f mittels Zerlegung f = f + − f −.
2
Definition 8.18
1. Es sei A ∈ A, f Zufallsvariable und f 1A quasiintegrierbar. Dann:
Z
Z
Z
f dP :=
f (ω) P (dω) := f 1A dP.
A
A
142
2. f sei quasiintegrierbar. Die Abbildung
Z
A 3 A 7→
f dP
A
heißt unbestimmtes Integral von f .
R Bemerkung
R Es seien RA, B ∈ A, A ∩ B = ∅ und f quasiintegrierbar. Dann gilt
A∪B f dP = A f dP = B f dP .
R
Satz 8.19 f ≥ 0 sei Zufallsvariable mit f dP = 1. Dann:
Z
Q : A → R mit Q(A) :=
f dP
A
ist ein Wahrscheinlichkeitsmaß auf A.
Beweis:
143
1. Q(A) ≥ 0 offensichtlich,
2. Q(Ω) = 1 trivial.
144
145
3. An ∈ A, n ∈ N, seien paarweise disjunkt. Dann:
!
[
Q
An
n∈N
Z
=
f dP
S
n∈N An
Z
=Def.
=
f 1Sn∈N An dP
ZΩ X
f 1An dP
Ω n∈N
Z
=
lim
Ω n∈N
=mon. Konv. lim
n∈N
146
=
lim
n∈N
n
X
!
f 1A i
i=1
Z X
n
Ω i=1
n Z
X
i=1 Ω
n Z
X
f 1Ai dP
f 1Ai dP
dP
2
R
Definition 8.20 f ≥ 0 sei Zufallsvariable mit f dP = 1. Q sei definiert wie in 8.19.
Dann heißt f Dichte (genauer: eine Dichte) von Q bezüglich P . Symbolisch:
dQ
Q = f P, f =
, dQ = f dP.
dP
Satz 8.21 f1 sei P –Dichte von Q, f2 ≥ 0 sei Zufallsvariable. Dann:
f2 ist P –Dichte von Q ⇔ P ({f1 6= f2}) = 0.
Lemma 8.22 f sei Zufallsvariable, A ∈ A mit P (A) = 0 ⇒
147
R
A |f | dP
= 0.
Beweis: Es gilt |f 1A| = |f |1A. Es existieren en ∈ E, n ∈ N, mit en ↑ |f |
⇒ en1A ∈ E mit en1A ↑ |f |1A;
Z
Z
|f |1A dP =Def. lim en1A dP
n∈N
X
= lim
αi P (Ai ∩ A) = 0,
| {z }
n∈N
1≤i≤m
wobei en =
P
=0
1≤i≤m αi 1Ai ,
1Ai 1A = 1Ai∩A,
Z
Z
⇒8.13 | f dP | ≤
|f | dP = 0.
A
A
2
Beweis:[von 8.21]
148
⇐“ Sei A ∈ A;
”
Z
Q(A)
=
f11A dP
Z
=
Z
f11A∩{f1=f2} dP +
f11A∩{f16=f2} dP
Z
=8.22
f11A∩{f1=f2} dP
Z
=
f21A∩{f1=f2} dP
Z
=
Z
f21A∩{f1=f2} dP +
Z
=
f21A dP.
149
f21A∩{f16=f2} dP
⇒“ Aus den Voraussetzungen folgt:
”
Z
Z
∀A ∈ A :
f1 dP =
f2 dP
A
ZA
Z
⇒ ∀A ∈ A :
f1 dP − f2 dP
A
ZA
=
f1 − f2 dP = 0.
A
Speziell für
−
A+
n := {f1 − f2 > 1/n}, An := {f1 − f2 < −1/n}
150
gilt also:
Z
0
=
A+
n
f1 − f2 dP
Z
≥8.13
=
1
dP
n
A+
n
1
P (A+
n ),
n
d.h. P (A+
n ) = 0;
Z
0
=
A−
n
Z
≤8.13
=
f1 − f2 dP
1
− dP
n
A−
n
1
− P (A−
n ),
n
151
d.h. P (A−
n ) = 0. Es folgt:
!
P {f1 6= f2} = P
[
−
(A+
∪
A
n
n)
X n∈N
−
≤
P (A+
n ∪ An ) = 0.
n∈N
2
Satz 8.23 f sei P –Dichte von Q, g sei Zufallsvariable. Dann gilt:
g ist Q–integrierbar ⇔ gf ist P –integrierbar und in diesem Fall gilt:
Z
Z
g dQ = gf dP.
Beweis:
152
1. Es sei e =
P
∈E
Z
m
X
⇒ e dQ =
αiQ(Ai)
1≤i≤m αi 1Ai
=
=
i=1
m
X
i=1
m
X
Z
αi
f dP
Ai
Z
αi
f 1Ai dP
i=1
Z
=
f
m
X
αi1Ai dP
i=1
Z
=
153
f e dP.
2. g ≥ 0 sei Zufallsvariable ⇒ g = limn∈N en mit geeigneten e1 ≤ e2 ≤ . . . ∈ E
Z
Z
⇒ g dQ =Def. lim en dQ
n∈N
Z
=1. lim enf dP
n∈N
Z
=8.14
lim (enf ) dP
n∈N
Z
=
f g dP.
3. Allgemeiner Fall mittels Zerlegung g = g + − g −.
2
Satz 8.24 (Fubini) (Ω, A, P ) sei das Produkt der beiden Wahrscheinlichkeitsräume
(Ωi, Ai, Pi), i = 1, 2, d.h.
154
Ω = Ω1 × Ω2,
A = σ({A1 × A2 : A1 ∈ A1, A2 ∈ A2},
P = P1 × P2 .
f : Ω → R sei integrierbar bzgl. P . Dann gilt:
1.
f (ω1, ·) : Ω2 3 ω2 7→ f (ω1, ω2) ∈ R
ist für P1–fast alle ω1 ∈ Ω1 P2–integrierbar, d.h. es existiert N1 ∈ A1, P1(N1) = 0
und ∀ω1 ∈ N1c ist f (ω1, ·) eine P2–integrierbare Funktion.
2.
f (·, ω2) : Ω1 3 ω1 7→ f (ω1, ω2) ∈ R
ist für P2–fast alle ω2 ∈ Ω2 P1–integrierbar, d.h. es existiert N2 ∈ A2, P2(N2) = 0
und ∀ω2 ∈ N2c ist f (·, ω2) eine P1–integrierbare Funktion.
155
3. Die gemäß 1. bzw. 2. bis auf Nullmengen definierten Funktionen
Z
f (ω1, ·) dP2
ω1 7→
Ω2
und
Z
ω2 7→
f (·, ω2) dP1
Ω1
sind P1– bzw. P2–integrierbar und es gilt:
Z
Z
f dP =
f d(P1 × P2)
Ω
Z2
ZΩ1×Ω
=
f (ω1, ·) dP2 P1(dω1)
ZΩ1 ZΩ2
=
f (·, ω2) dP1 P2(dω2).
Ω2
Ω1
156
Beweis: Siehe Maßtheorie.
2
Bemerkung Die bisher entwickelte Integrationstheorie ist auch für beliebige σ–finite
Maße µ anstelle eines Wahrscheinlichkeitsmaßes P gültig.
µ : A → [0, ∞] ist Maß :⇔
P
S
1. µ n∈N An = n∈N µ(An) für disjunkte An ∈ A,
2. µ(∅) = 0.
µ:A
S → [0, ∞] ist σ–finites Maß :⇔ µ ist Maß und es existieren An ∈ A, n ∈ N,
mit n∈N An = Ω und µ(An) < ∞, n ∈ N.
Definition 8.25 Definiere λ0n : In0 := {(a, b] = ×ni=1(ai, bi] : a, b ∈ Rn} → [0, ∞]
durch
Y
0
λn((a, b]) :=
(bi − ai).
1≤i≤n
157
λ0n ist σ–additiv auf In0 und kann eindeutig zu einem (σ–finiten) Maß auf Bn fortgesetzt
werden. Dieses Maß ist das Lebesgue–Maß, i.Z. λn, vgl. 7.8.
Satz 8.26 Es gilt:
λn = λn1 ,
wobei λn1 das n–fache Produkt von λ1 bezeichnet.
Beweis: Klar, da
λn((a, b]) = λ0n((a, b])
Y
=
(bi − ai)
1≤i≤n
=
=
Y
λ1((ai, bi])
1≤i≤n
λn1 ((a, b]).
158
2
Definition 8.27 Es sei f ∈ L(Rn, Bn, λn). Wir setzen:
Z
Z
Z
f (x) dx := f (x1, . . . , xn) dx1 · · · dxn := f dλn.
Bemerkung 8.28 Setze (Ω, A, P ) := ((0, 1], B ∩ (0, 1], λ1/(0, 1]), fn := n1(0,1/n],
n ∈ N. Dann gilt:
fn(ω) →n→N 0, ω ∈ Ω,
aber
Z
Z
fn dλ1 = nλ1((0, 1/n]) = 1 6= 0 dλ1 = 0.
Die Monotonie– bzw. Beschränktheitsvoraussetzungen in den Integrationssätzen sind
also wesentlich.
159
9
Verteilungen und ihre Charakterisierungen
Definition 9.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, (Ω0, A0) messbarer Raum, f :
(Ω, A, P ) → (Ω0, A0).
Das Wahrscheinlichkeitsmaß P ∗ f : A0 → [0, 1], definiert durch
(P ∗ f )(A) := P (f −1(A)),
A ∈ A0,
heißt Verteilung von f , (s. 7.1).
Bemerkung Jedes Wahrscheinlichkeitsmaß P 0 auf einem beliebigen messbaren Raum
(Ω0, A0) kann als Verteilung einer geeigneten Zufallsgröße aufgefasst werden: Setze
(Ω, A, P ) := (Ω0, A0, P 0), f (ω) := ω, ω ∈ Ω.
160
Definition 9.2 f sei Zufallsvariable über (Ω, A, P ), d.h. f : (Ω, A) → (R, B). Definiere F : R → [0, 1] durch
F (x) := P ({f ≤ x})
= P ({ω ∈ Ω : f (ω) ≤ x})
= (P ∗ f )((−∞, x]),
x ∈ R.
F heißt Verteilungsfunktion von f bzw. von P ∗ f .
Beispiel 9.3
1. f sei das Ergebnis beim Würfeln, d.h. P ({i}) = 1/6, i = 1, . . . , 6. Dann gilt:

 0 für x < 1,
F (x) = i/6 für i ≤ x < i + 1, i = 1, . . . , 5,

1 für x ≥ 6.
161
2. f sei gleichverteilt auf (0, 1), d.h. P ({f ∈ B} = λ1(B) für B ∈ B ∩ (0, 1). Dann
gilt:
F (x) =
=
=
=
P ({f ≤ x})
P ({f ∈ (−∞, x]})
P ({f ∈ (0, x]})
λ1((0, x]) = x
für 0 ≤ x ≤ 1.
Bemerkung 9.4 Die Verteilungsfunktion F (x) = (P ∗ f )((−∞, x]) einer Zufallsvariablen f hängt offenbar nur von der Verteilung P ∗f von f ab, nicht von den konkreten
Werten von f .
Satz 9.5 F sei Verteilungsfunktion der Verteilung Q := P ∗ f . Dann gilt:
1. F ist monoton wachsend.
162
2. F ist rechtsseitig stetig.
3. limx→∞ F (x) = 1, limx→−∞ F (x) = 0.
Beweis:
1.“
”
x<y
⇒ (−∞, x] ⊂ (−∞, y]
⇒ F (x) = Q((−∞, x]) ≤ Q((−∞, y]) = F (y).
163
2.“ (−∞, x] =
”
T
n∈N (−∞, xn ],
falls xn ↓ x. Damit:
F (x) = Q((−∞, x])
!
\
= Q
(−∞, xn]
n∈N
= lim Q((−∞, xn])
n∈N
= lim F (xn).
n∈N
3.“
”
xn ↑ ∞ [
⇒ R=
(−∞, xn]
n∈N
⇒ 1 = Q(R) = lim Q((−∞, xn]) = lim F (xn);
n∈N
n∈N
164
xn ↓ −∞ \
⇒ ∅=
(−∞, xn]
n∈N
⇒ 0 = Q(∅) = lim Q((−∞, xn]) = lim F (xn).
n∈N
n∈N
2
Satz 9.6 Eine Verteilung Q ist durch ihre Verteilungsfunktion F eindeutig bestimmt.
Das bedeutet: Sind Q1, Q2 Wahrscheinlichkeitsmaße auf (R, B) mit Q1 6= Q2, so
existiert x ∈ R mit
FQ1 (x) = Q1((−∞, x]) 6= Q2((−∞, x]) = FQ2 (x).
Beweis:
1. Es gilt:
Q((x, y]) = F (y) − F (x) für x < y.
165
2.
Q((x, y)) = lim Q((x, y − 1/n])
n∈N
= lim (F (y − 1/n) − F (x)),
n∈N
denn (x, y − 1/n] ↑ (x, y).
3. Jede offene Menge in R ist Vereinigung von abzählbar vielen disjunkten offenen
Intervallen
⇒2. Q(G) ist für offene Mengen G durch F bestimmt
⇒ Q(B) ist für beliebiges B ∈ B bestimmt (Maßtheorie, Fortsetzungssatz).
2
Satz 9.7 F : R → [0, 1] sei eine Funktion, die 1.–3. von Satz 9.5 erfülle. Dann
ist F die Verteilungsfunktion einer geeigneten Zufallsvariablen f , d.h. es existiert ein
166
Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable f auf (Ω, A, P ) mit F (x)
= (P ∗ f )((−∞, x]), x ∈ R.
Beweis: Setze Ω := (0, 1), A := B ∩ (0, 1), P := λ1/Ω,
f (ω) := inf{x ∈ R : F (x) ≥ ω}
= min{x ∈ R : F (x) ≥ ω} wegen der rechtsseitigen Stetigkeit von F . Dann gilt:
1. f ist Zufallsvariable, denn: f ist monoton wachsend, d.h. f (ω1) ≤ f (ω2), ω1 ≤ ω2,
und damit ist {f ≤ x} ein Intervall (in Ω), x ∈ R, also in B ∩ Ω.
2.
ω ≤ F (y) ⇔ f (ω) ≤ y,
167
y ∈ R,
⇒ {ω ∈ Ω : ω ≤ F (y)} = {ω ∈ Ω : f (ω) ≤ y}
⇒ P ({f ≤ y}) = λ1({ω ∈ Ω : ω ≤ F (y)})
= λ1((0, F (y)])
= F (y), y ∈ R.
2
Definition 9.8 F : R → [0, 1] ist Verteilungsfunktion :⇔ F erfüllt 1.–3. von Satz
9.5.
Definition 9.9 F sei Verteilungsfunktion; dann heißt
F −1(y) := inf{x ∈ R : F (x) ≥ y},
verallgemeinerte Inverse von F oder Quantilfunktion.
168
y ∈ (0, 1),
Satz 9.10 f sei eine auf (0, 1) gleichverteile Zufallsvariable und F eine beliebige Verteilungsfunktion. Dann besitzt die Zufallsvariable
g := F −1 ◦ f
die Verteilungsfunktion F .
Beweis: Siehe Übungen.
2
Definition 9.11 f = (f1, . . . , fn) sei n–dimensionaler Zufallsvektor, dann: F : Rn →
[0, 1] mit
F (y1, . . . , yn) := P ({f1 ≤ y1, . . . , fn ≤ yn})
ist die (n–dimensionale) Verteilungsfunktion oder gemeinsame Verteilungsfunktion von
f1 , . . . , f n .
Bemerkung
169
n = 1:
P ({f ∈ (x, y]}) = F (y) − F (x), x < y.
n = 2: Es sei x = (x1, x2), y = (y1, y2), xi < yi, i = 1, 2. Dann:
P ({(f1, f2) ∈ (x, y])}
= F (y1, y2) − F (y1, x2) − F (x1, y2) + F (x1, x2).
Diese Gleichungen lassen sich auf beliebige Dimensionen erweitern.
Satz 9.12 Die Zufallsvariablen f1, . . . , fn sind genau dann unabhängig, wenn für ihre
gemeinsame Verteilungsfunktion F gilt:
F (y1, . . . , yn) = F1(y1) · · · Fn(yn)
für (y1, . . . , yn) ∈ Rn, wobei Fi die Verteilungsfunktion zu fi ist, i = 1, . . . , n.
Beweis:
170
⇒“
”
!
F (y1, . . . , yn) = P
\
{fi ≤ yi}
Y 1≤i≤n
=
P ({fi ≤ yi})
1≤i≤n
=
Y
Fi(yi).
1≤i≤n
⇐“ Es gilt für y = (y1, . . . , yn) ∈ Rn:
”
!
\
Y
F (y) = P
{fi ≤ yi} =
P ({fi ≤ yi}),
1≤i≤n
1≤i≤n
171
d.h.
(P ∗ (f1, . . . , fn))((−∞, y])
= ((P ∗ f1) × · · · × (P ∗ fn))((−∞, y])
⇒ (P ∗ (f1, . . . , fn))(B)
= ((P ∗ f1) × · · · × (P ∗ fn))(B)
für B ∈ Bn (s. Maßtheorie)
⇒ (P ∗ (f1, . . . , fn))(B1 × · · · × Bn)
= ((P ∗ f1) × · · · × (P ∗ fn))(B1 × · · · × Bn)
für Bi ∈ B, i = 1 . . . , n,
⇒ P ({fi ∈ Bi, i = 1, . . . , n})
n
Y
=
P ({fi ∈ Bi})
i=1
172
für Bi ∈ B, i = 1, . . . , n, d.h. f1, . . . , fn sind unabhängig (s. 7.23).
2
Definition 9.13 Eine Zufallsvariable f ist diskret verteilt :⇔ Es existiert eine abzählbare Menge B = {b1, b2, . . .} ⊂ R mit P ({f ∈ B}) = 1.
Beispiele 9.14 Im folgenden sei f eine Zufallsvariable.
1. f besitzt Bernoulli–Verteilung mit Parameter p ∈ [0, 1], i.Z. B(1, p),
:⇔ P ({f = 1}) = p, P ({f = 0}) = 1 − p.
2. f besitzt Binomialverteilung mit den Parametern n ∈ N, p ∈ [0, 1], i.Z. B(n, p),
:⇔ P ({f = k}) = B(n,
p)({k})
n k
=
p (1 − p)n−k , k = 0, 1, . . . , n.
k
173
3. f besitzt Poisson–Verteilung mit dem Parameter λ > 0, i.Z. Pλ,
:⇔ P ({f = k}) = Pλ({k})
k
−λ λ
, k = 0, 1, . . .
= e
k!
4. f besitzt geometrische Verteilung zum Parameter p ∈ [0, 1]
:⇔ P ({f = k}) = p(1 − p)k−1, k = 1, 2, . . .
Bemerkung 9.15 f1, f2, . . . seien unabhängige, zum Parameter p ∈ [0, 1] Bernoulli–
verteilte Zufallsvariablen. Dann gilt:
1. f1 + · · · + fn ist B(n, p)–verteilt.
2. f := inf{m ∈ N : fm = 1} ist geometrisch verteilt zum Parameter p.
174
Beweis: Siehe Übungen.
2
Definition 9.16
1. Eine Verteilung Q auf B heißt absolutstetig :⇔ Q besitzt eine Dichte bzgl. λ1, d.h.
es existiert eine Borel–messbare Funktion h : R → [0, ∞) mit
Z
Q(B) =
h dλ1, B ∈ B.
B
2. Eine Zufallsvariable f heißt absolutstetig :⇔ P ∗ f ist absolutstetig.
Satz 9.17 f sei eine absolutstetige Zufallsvariable mit Dichte h und Verteilungsfunktion F . Dann gilt:
∂F (x)
,
h(x) = F 0(x) =
∂x
falls h an der Stelle x stetig ist.
175
Beweis: Es gilt:
F (x + ε) − F (x)
ε
P ({f ∈ (x, x + ε]})
=
ε
R
(x,x+ε] h(y) dy
=
ε
R
R
(x,x+ε] h(y) − h(x) dy
(x,x+ε] h(x) dy
=
+
ε
ε
=: I + II.
Offenbar gilt:
λ1((x, x + ε])
II = h(x)
= h(x),
ε
176
sowie
R
|I| ≤
R
≤
=
(x,x+ε] |h(y)
− h(x)| dy
ε
(x,x+ε] supz∈(x,x+ε] |h(z)
sup
− h(x)| dy
ε
|h(z) − h(x)| →ε→0 0,
z∈(x,x+ε]
wegen der Stetigkeit von h in x. Hieraus folgt die Behauptung.
2
Definition 9.18 Qa,b ist die Gleichverteilung auf (a, b) ⊂ R, −∞ < a < b < ∞ :⇔
Qa,b besitzt die Dichte
1
ha,b(x) :=
1(a,b)(x), x ∈ R.
b−a
177
Beispiel 9.19 f sei die Lebensdauer eines nicht alternden Objektes. Dabei bedeutet
keine Alterung:
P ({f > s + t|f > s}) = P ({f > t}),
t, s ≥ 0.
Es gilt also für t, s, ≥ 0:
P ({f > s + t}) = P ({f > s})P ({f > t}),
⇒ für G(y) := P ({f > y}) gilt:
G(s + t) = G(s)G(t)
⇒ ∃λ ≥ 0 : G(y) = exp(−λy)
(als einzige nicht identisch verschwindende monoton fallende Lösung obiger Funktio-
178
nalgleichung2)
⇒ F (y) := P ({f ≤ y})
= 1 − G(y)
= 1 − exp(−λy),
y ≥ 0.
Definition 9.20 Eine Zufallsvariable f ist exponentialverteilt zum Parameter λ > 0
:⇔ P ∗ f besitzt die Dichte
0,
x < 0,
h(x) :=
λ exp(−λx), x ≥ 0.
Offenbar gilt dann: F (x) = 1 − exp(−λx), x ≥ 0.
2
S. 133 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik, 6. Auflage. Vieweg, Braunschweig.
179
Definition 9.21 Der Zufallvektor f = (f1, . . . , fn) ist absolutstetig mit der Dichte h
:⇔
Z
P ({f ∈ B}) =
h dλn
ZB
h(x1, . . . , xn) dx1 · · · dxn, B ∈ Bn.
=
B
Satz 9.22 h : Rn → [0, ∞) sei integrierbar bzgl. λn und es gelte für den Zufallsvektor
f:
P ({fZ ≤ y})
Z
···
=
(−∞,y1 ]
h(x1, . . . , xn) dx1 · · · dxn
(−∞,yn ]
für y = (y1, . . . , yn) ∈ Rn. Dann ist h eine Dichte von f .
180
Beweisskizze: Aus der Voraussetzung folgt nach dem Satz von Fubini für jedes
y ∈ Rn :
Z
P ({f ∈ (−∞, y]}) =
h dλn
(−∞,y]
und hieraus (Maßtheorie, Fortsetzungssatz) für jedes B ∈ Bn:
Z
P ({f ∈ B}) =
h dλn
B
2
Satz 9.23 f1, . . . , fn seien Zufallsvariablen mit Dichten h1, . . . , hn. Dann gilt:
f1, . . . , fn sind unabhängig ⇔ f = (f1, . . . , fn) besitzt die Dichte
h(x1, . . . , xn) = h1(x1) · · · hn(xn),
Beweis:
181
(x1, . . . , xn) ∈ Rn.
⇒“ Für y = (y1, . . . , yn) ∈ Rn gilt:
”
P ({f ∈ (−∞, y]})
= P ({fi ≤ yi, i = 1, . . . , n})
n
Y
=
P ({fi ≤ yi})
=
i=1
n Z
Y
hi(xi) dxi
(−∞,yi ]
Zi=1
Z
=
···
h1(x1) · · · hn(xn) dxn · · · dx1
Z(−∞,y1]
Z(−∞,yn]
=
···
h(x1, . . . , xn) dxn · · · dx1
(−∞,y1 ]
(−∞,yn ]
⇒ Behauptung aus 9.22.
182
⇐“ Für y = (y1, . . . , yn) ∈ Rn gilt auf Grund des Satzes von Fubini:
”
P ({fZ∈ (−∞, y]})
h dλn
Z(−∞,y]
Z
=
···
h(x1, . . . , xn) dx1 · · · dxn
Z(−∞,y1]
Z(−∞,yn]
=
···
h1(x1) · · · hn(xn) dx1 · · · dxn
=
=
=
(−∞,y1 ]
n Z
Y
i=1
n
Y
(−∞,yn ]
hi(xi) dxi
(−∞,yi ]
P ({fi ≤ yi})
i=1
⇒ Behauptung aus 9.12.
183
2
Beispiel 9.24 (Buffonsches Nadelproblem) Eine Nadel der Länge 1 wird zufällig
auf ein Raster aus Parallelen mit dem einheitlichen Abstand 1 geworfen. Wie groß ist
die Wahrscheinlichkeit, dass die Nadel eine der Geraden schneidet?
Lösung: Annahmen:
1. Der Winkel ϕ zwischen der Geraden und der Nadel ist auf (0, π) gleichverteilt.
2. Der Abstand d des Nadelmittelpunktes zur nächsten Geraden ist auf (0, 1/2) gleichverteilt.
3. ϕ und d sind unabhängig.
Dann gilt nach 9.23
h(x1, x2) =
2
π
für 0 < x1 < π, 0 < x2 < 12 ,
0 sonst
184
ist gemeinsame Dichte des Zufallsvektors (ϕ, d).
Ferner sei A das Ereignis, dass die Nadel eine der Geraden schneidet, d.h.
1
A = ω ∈ Ω : d(ω) ≤ sin ϕ(ω) .
2
Mit
A0 =
(x1, x2) ∈ (0, π) × 0,
185
1
2
: x2 ≤
1
sin(x1)
2
folgt aus dem Satz von Fubini:
0
P (A) = P
({(ϕ,
d)
∈
A
}
Z
=
h dλ2
ZA0
2
=
dx1dx2
1
1
π
{(x1,x2)∈(0,π)×(0, 2 ) :x2≤ 2 sin(x
1 )}
!
Z
Z
2
=
dx2 dx1
1
(0,π)
(0, 2 sin(x1 )) π
Z
1 π
sin(x1) dx1
=
π 0
2
= .
π
2
186
Satz 9.25 f sei eine absolutstetige Zufallsvariable mit stetiger Dichte h, I ⊂ R
Intervall mit P ({f ∈ I}) = 1.
g : I → R sei differenzierbar mit g 0(x) > 0 für alle x ∈ I oder g 0(x) < 0 für alle
x ∈ I. Dann gilt:
g ◦ f ist absolutstetig mit der Dichte
h̃(y) = h(g −1(y))|(g −1)0(y)|
für alle y mit
inf g(x) < y < sup g(x)
x∈I
x∈I
und h̃(y) = 0 sonst.
Beweis: g ist auf I streng monoton und differenzierbar ⇒ g −1 ist definiert (auf g(I))
und differenzierbar (mit (g −1)0(y) = 1/g 0(g −1(y))).
187
1. ∀x ∈ I gelte g 0(x) > 0, d.h. g ist monoton wachsend
⇒ Fg◦f (y) =
=
=
0
⇒ Fg◦f
(y) =
P ({g ◦ f ≤ y})
P ({f ≤ g −1(y)})
Ff (g −1(y))
h(g −1(y))(g −1)0(y).
2. g 0 < 0 analog.
2
Bemerkung 9.26 Im obigen Satz kann die Stetigkeit von h ersatzlos gestrichen werden.3
3
S. 148 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik, 6. Auflage. Vieweg, Braunschweig.
188
Beispiel 9.27 Ein Teilchen trete mit einem Winkel ϕ zur x–Achse aus dem Nullpunkt
aus, wobei ϕ auf (−π/2, π/2) gleichverteilt sei. Im Abstand λ vom Nullpunkt sei ein
Schirm aufgestellt, auf den das Teilchen trifft. Die Koordinaten dieses Punktes seien
(λ, g) wobei g zufällig ist. Man bestimmt eine Dichte der Zufallsvariablen g.
Lösung: ϕ besitzt die Dichte
1
h(y) = 1(− π , π )(y),
2 2
π
da ϕ auf (−π/2, π/2) gleichverteilt ist.
Ferner gilt:
g = λ tan(ϕ),
wobei λ tan(x) streng monoton ist im Intervall (−π/2, π/2).
189
Nach 9.25, 9.26 besitzt g die Dichte
1∂
y hg (y) = arctan
π ∂y
λ 1 1 1
=
π 1 + y22 λ
λ
1
λ
=
,
y ∈ R.
π λ2 + y 2
2
Definition 9.28 Die Verteilung auf R mit der Dichte
hλ(y) :=
1
λ
,
2
2
π λ +y
heißt Cauchy–Verteilung mit Parameter λ > 0.
190
y ∈ R,
Satz 9.29 Ist eine Verteilungsfunktion F auf (R, B) überall differenzierbar, so ist F 0
eine Dichte von F.4
10
Momente
Definition 10.1 Es sei f ∈ L(Ω, A, P ). Dann heißt
Z
E(f ) := f dP
Erwartungswert von f (Mittelwert von P ∗ f ).
Bemerkung 10.2 Es gilt
Z
E(f ) =
Z
Ω
4
x (P ∗ f )(dx),
f dP =8.17
R
Natanson, I.P. (1975). Theorie der Funktionen einer Veränderlichen, 4. Auflage. Deutsch, Zürich.
191
d.h. E(f ) hängt nur von der Verteilung P ∗ f von f ab. Man schreibt daher auch
häufig
Z
x F (dx) := E(f ),
wobei F (x) := P ({f ≤ x}), x ∈ R (s. 9.6 bzw. 9.2).
Bemerkung 10.3 f, g seien Zufallsvariablen, α ∈ R, dann:
1. E(αf ) = αE(f ), E(f + g) = E(f ) + E(g), falls f, g ∈ L(Ω, A, P ).
2. E(f ) existiert ⇔ E(|f |) existiert, und in diesem Fall gilt: |E(f )| ≤ E(|f |).
3. Falls E(f ) existiert und |g| ≤ |f | ⇒ E(g) existiert.
Beweis: 8.13.
2
192
Satz 10.4 f sei eine diskret verteilte Zufallsvariable mit P ({f ∈ B}) = 1 für eine
abzählbare Teilmenge B von R. ϕ : R → R sei beliebig, g := ϕ ◦ f ; dann:
X
ϕ(x)P ({f = x}),
E(g) =
x∈B
falls diese Summe absolut konvergiert.
Beweis: S. Übungen.
2
Satz 10.5 f sei absolutstetige Zufallsvariable mit Dichte h, ϕ : R → R sei Bairesche
Funktion. Dann gilt für g := ϕ ◦ f :
Z
E(g) =
ϕ(x)h(x) dx
R
R
falls |ϕh| dλ1 < ∞.
193
Beweis:
Z
E(g)
ϕ ◦ f dP
=
ZΩ
ϕ d(P ∗ f )
=8.17
ZR
=8.23
ϕ(x)h(x) dx,
R
h = d(P ∗ f )/dλ1.
2
Definition 10.6 f sei Zufallsvariable, n ∈ Z+. Dann heißt, falls existent:
µn := E(f n)
n–tes Moment von f ,
194
speziell
µ := µ1 = E(f );
mn := E((f − µ)n)
n–tes zentriertes Moment von f ,
speziell
m2 := V (f ) := var(f ) =: σ 2(f )
Varianz von f;
E(|f |n) := n–tes absolutes Moment;
195
p
σ(f ) := σ 2(f )
p
=
E((f − µ)2) = E((f − µ)2)1/2
Standardabweichung oder Streuung von f .
Satz 10.7 E(f n) existiere ⇒ E(f m) existiert, 0 ≤ m ≤ n.
Beweis: Es gilt:
m
|f (ω)| ≤
|f (ω)|n, falls |f (ω)| ≥ 1
=: g(ω);
1,
falls |f (ω)| ≤ 1
E(g) ≤ 1 + E(|f |n) < ∞ ⇒8.13 Behauptung.
196
2
Satz 10.8 m1 = 0, σ 2 = µ2 − µ21 (= E(f 2) − E(f )2), m3 = µ3 − 3µµ2 + 2µ3.
Beweis:
m1 = E(f − µ) = E(f ) − E(µ) = µ − µ = 0;
σ2 =
=
=
=
=
E((f − µ)2)
E(f 2 − 2f µ + µ2)
E(f 2) − 2µE(f ) + µ2
µ2 − 2µ2 + µ2
µ2 − µ2;
197
m3 =
=
=
=
E((f − µ)3)
E(f 3) − E(3f 2µ) + E(3f µ2) − µ3
µ3 − 3µµ2 + 3µ3 − µ3
µ3 − 3µµ2 + 2µ3.
2
Satz 10.9 (Markoffsche Ungleichung) f sei Zufallsvariable, ε > 0. Dann gilt:
E(|f |)
.
P ({|f | ≥ ε}) ≤
ε
198
Beweis: Es gilt:
Z
E(|f |) =
|f (ω)| dP
ZΩ
≥
|f (ω)| P (dω)
Z{ω∈Ω: |f (ω)|≥ε}
≥
ε P (dω)
{ω∈Ω: |f (ω)|≥ε}
= εP ({|f | ≥ ε}).
2
Korollar 10.10 (Tschebyscheffsche Ungleichung) Für f ∈ L(Ω, A, P ) und ε >
0 gilt:
σ 2(f )
.
P ({|f − µ| ≥ ε}) ≤
2
ε
199
Beweis: Es gilt:
2
2
P ({|f − µ| ≥ ε}) = P ({(f − µ) ≥ ε }) ≤10.9
σ 2(f )
.
2
ε
2
Satz 10.11 (Schwarzsche Ungleichung) f, g seien Zufallsvariablen mit E(f 2) <
∞, E(g 2) < ∞. Dann ist f g ∈ L(Ω, A, P ) und es gilt:
E(f g)2 ≤ E(f 2)E(g 2).
Beweis:
1.
(f ± g)2 ≥ 0 ⇒ |2f g| ≤ f 2 + g 2 ⇒8.13 f g ∈ L(Ω, A, P )
200
2. Für alle x ∈ R gilt:
ϕ(x) := E((xf − g)2)
= x2E(f 2) − 2xE(f g) + E(g 2) ≥ 0
⇒ die quadratische Gleichung ϕ(x) = 0 besitzt höchstens eine Lösung
⇒ die Diskriminante dieser quadratischen Gleichung kann nicht positiv sein, d.h.
es gilt:
2
E(g 2)
E(f g)
−
≤0
2
2
E(f )
E(f )
⇒ Behauptung.
2
201
Satz 10.12 f1, . . .Q
, fn seien unabhängige Zufallsvariablen, fi ∈ L(Ω, A, P ), i =
1, . . . , n. Dann ist 1≤i≤n fi ∈ L(Ω, A, P ) und es gilt:
!
n
n
Y
Y
E
fi =
E(fi).
i=1
i=1
202
Beweis: O.E. sei n = 2. Dann gilt:
E(|f1f2|) Z
|f1f2| dP
=
ZΩ
|xy| (P ∗ (f1, f2))(d(x, y))
=8.17
ZR2
|xy| ((P ∗ f1) × (P ∗ f2))(d(x, y))
Z Z
=Fubini
|x||y| (P ∗ f1)(dx) (P ∗ f2)(dy)
ZR R
Z
=
|x| (P ∗ f1)(dx) |y| (P ∗ f2)(dy)
=
R2
R
=8.17
E(|f1|)E(|f2|).
R
2
203
Definition 10.13 f, g seien quadratintegrierbare Zufallsvariablen.
cov(f, g) := E ((f − E(f ))(g − E(g)))
= E(f g) − E(f )E(g)
ist die Kovarianz von f und g.
Ist zusätzlich σ 2(f ) > 0, σ 2(g) > 0, so heißt
cov(f, g)
%(f, g) :=
∈ [0, 1]
σ(f )σ(g)
Korrelationskoeffizient von f und g.
f und g heißen positiv bzw. un– bzw. negativ korreliert, falls
%(f, g) > 0 bzw. = 0 bzw. < 0.
Bemerkung %(f, g) > 0 (< 0) bedeutet anschaulich, dass f − E(f ) und g − E(g)
die Tendenz besitzen, das selbe (unterschiedliche) Vorzeichen zu haben.
204
Ferner kann %(f, g) als Maß für den Grad der linearen Abhängigkeit“ zwischen f
”
und g angesehen werden (s. folgenden Satz).
Satz 10.14 f, g seien Zufallsvariablen mit 0 < σ 2(f ), σ 2(g) < ∞. Dann gilt:
1. Falls f, g unabhängig sind ⇒ %(f, g) = 0.
2. Falls %(f, g) ∈ {−1, 1} ⇒ ∃a, b ∈ R :
P ({g = af + b}) = 1.
3. Die mittlere quadratische Abweichung E((f −(af +b))2) der linearen Approximation
von g durch af + b ist genau dann minimal, wenn
cov(f, g)
∗
∗
∗
a =
und
b
=
E(g)
−
a
E(f ).
σ 2(f )
In diesem Fall gilt:
2
∗
∗ 2
2
E((g − (a f + b )) ) = 1 − %(f, g) σ (g).
205
Beweis:
1.“ Folgt aus 10.12.
”
3.“ Es gilt:
”
E((g − af − b)2)
= a2E(f 2) + b2 + 2abE(f )
−2aE(f g) − 2bE(g) + E(g 2)
=: p(a, b),
a, b ∈ R.
p ist ein Polynom zweiten Grades in den Variablen a, b und besitzt genau ein Minimum für
cov(f, g) ∗
∗
a∗ =
,
b
=
E(g)
−
a
E(f )
2
σ (f )
(elementar mittels partieller Ableitungen).
206
2.“ Im Fall %(f, g) ∈ {−1, 1} folgt aus 3. E((g − (a∗f + b∗))2) = 0, d.h.
”
P ({|g − (a∗f + b∗)| =
6 0}) = 0,
d.h.
P ({g = a∗f + b∗}) = 1
(s. Übungen).
2
Bemerkung a∗ = cov(f, g)/σ 2(f ) ist ein geeignetes Mittel zur Vorhersage von g
aus f , sog. Regression von f auf g, da nach 10.14, 3.,
ĝ := E(g) + a∗(f − E(f ))
die beste lineare Approximation von g durch f darstellt.
a∗ heißt (einfacher) Regressionskoeffizient von g auf f und die Gerade
m(t) := a∗(t − E(f )) + E(g)
207
heißt Regressionsgerade von g auf f . Der Fehler
g − ĝ = g − m(f )
bei dieser Approximation heißt Residuum.
Falls E(g) = E(f ) = 0 und var(f ) = var(g) = 1, so folgt a∗ = cov(f, g) =
%(f, g) ∈ [−1, 1] und damit
ĝ = a∗f ⇒ |ĝ| = %(f, g)||f | ≤ |f |,
daher die Bezeichnung Regression“ (Rückschritt).
”
Satz 10.15 f1, . . . , fn seien quadratintegrierbare, unkorrelierte Zufallsvariablen (also
cov(fi, fj ) = 0, i 6= j. Dann gilt:
σ 2(f1 + · · · + fn) = σ 2(f1) + · · · + σ 2(fn).
208
Beweis:
σ 2(f1 + · · · + fn)
= E ((f1 + · · · + fn) − E(f1 + · · · + fn))2
2
= E ((f1 − E(f1)) + · · · + (fn − E(fn)))


X

= E
(fi − E(fi))(fj − E(fj ))
1≤i,j≤n
=
=
=
X
cov(fi, fj )
1≤i,j≤n
n
X
cov(fi, fi)
i=1
n
X
i=1
σ 2(fi).
209
2
Korollar 10.16 f1, . . . , fn seien unabhängige, quadratintegrierbare Zufallsvariablen.
Dann gilt:
σ 2(f1 + · · · + fn) = σ 2(f1) + · · · + σ 2(fn).
11
Gesetze der großen Zahlen
Bemerkung f, f1, f2, . . . seien Zufallsvariablen über (Ω, A, P ), dann gilt {limn∈N fn =
f } ∈ A, denn:
\ [ \
{lim fn = f } =
{|fn − f | < 1/k} ∈ A.
n∈N
k∈N m∈N n≥m
210
Definition 11.1
fn →n∈N
f P –f.s.
:⇔ P
lim fn = f
= 1,
n∈N
(fn konvergiert P –fast sicher gegen f ).
Satz 11.2 (f.s. Eindeutigkeit des Grenzwertes) Es gelte fn →n∈N f P –f.s.,
fn →n∈N f˜ P –f.s. ⇒ P ({f = f˜}) = 1, d.h. f = f˜ P –f.s.
211
Beweis:
{f = f˜} ⊃ lim fn = f ∩ lim fn = f˜
n∈N
n∈N
⇒ P ({f 6= f˜}) ≤ P
lim fn 6= f
n∈N
+P
lim fn 6= f˜
= 0.
n∈N
2
Satz 11.3 fi,n →n∈N fi P –f.s., i = 1, . . . , k, g : Rk → R stetig
⇒ g(f1,n, . . . , fk,n) →n∈N g(f1, . . . , fk ) P –f.s.
212
Beweis: Nach Voraussetzung existieren P –Nullmengen N1, . . . , Nk ∈ A mit fi,n(ω) →n∈N
fi(ω) für alle ω ∈ Nic, i = 1, . . . , k. Für alle ω ∈ (N1 ∪ · · · ∪ Nk )c gilt also
(f1,n(ω), . . . , fk,n(ω)) →n∈N (f1(ω), . . . , fk (ω))
und damit
g (f1,n(ω), . . . , fk,n(ω)) →n∈N g (f1(ω), . . . , fk (ω)) .
Da P ((N1 ∪ · · · ∪ Nk )c) = 1, folgt die Behauptung.
2
Beispiel 11.4 fn →n∈N f P –f.s., gn →n∈N g P –f.s. ⇒ fn + gn →n∈N f + g P –f.s.
Definition 11.5
P
fn → f
:⇔ ∀ε > 0 : lim P ({|fn − f | > ε}) = 0,
n∈N
(fn konvergiert in Wahrscheinlichkeit gegen f ).
213
P
P
Satz 11.6 (f.s. Eindeutigkeit des Grenzwertes) fn → f , fn → f˜ ⇒ f = f˜ P –
f.s.
Beweis: Es gilt für n ∈ N und ε > 0
{|f − f˜| > ε} ⊂ {|fn − f | > ε/2} ∪ {|fn − f˜| > ε/2}
und damit
P ({|f − f˜| > ε})
≤ P ({|fn − f | > ε/2}) + P ({|fn − f˜| > ε/2})
⇒ P ({|f − f˜| > ε}) = 0 für beliebiges ε > 0
!
[
⇒ P ({f 6= f˜}) = P
{|f − f˜| > 1/k}
X k∈N
≤
P ({|f − f˜| > 1/k}) = 0.
k∈N
214
2
P
Satz 11.7 fn →n∈N f P –f.s. ⇒ fn → f.
Beweis: O.b.d.A. sei f ≡ 0 (betrachte sonst f˜n := fn − f ). Mit
\ [
K := lim fn = 0 =
sup |fn| ≤ 1/k ∈ A
n∈N
k∈N m∈N
215
n≥m
gilt:
fn → 0 P –f.s.
c
⇔ P (K
 )=0



[ \ 


⇔ P
sup |fn| > 1/k  = 0


n≥m
k∈N m∈N
{z
}
|
↑ in k



\ 

sup |fn| > 1/k  = 0 für alle k ∈ N
⇔ P


n≥m
m∈N |
{z
}
↓ in m
⇔ lim P
sup |fn| > 1/k
=0
m∈N
n≥m
216
⇒ lim P ({|fm| > 1/k} = 0 für alle k ∈ N
m∈N
⇒ Behauptung.
2
Die Umkehrung von Satz 11.7 ist i.a. nicht richtig, wie folgendes Beispiel zeigt.
Beispiel 11.8 Setze (Ω, A, P ) := ([0, 1), B ∩ [0, 1), λ/B ∩ [0, 1)), f1 := 1[0,1), f2 :=
1[0,1/2), f3 := 1[1/2,1), f4 := 1[0,1/3), f5 := 1[1/3,2/3), . . . Offenbar gilt P ({|fn| > ε}) →n∈N
0, ε > 0, aber fn(ω) konvergiert für kein ω ∈ Ω gegen 0.
Satz 11.9 (Schw. Gesetz der großen Zahlen I) f1, . . . , fn seien identisch verteilte, quadratintegrierbare und unkorrelierte Zufallsvariablen, d.h. cov(fi, fj ) = 0 für
i 6= j. Dann gilt mit µ := E(f1), σ 2 := σ 2(f1) für ε > 0:
)!
( n
1 X
σ2
≤
f i − µ ≥ ε
P
2
n
nε
i=1
→ 0, falls n → ∞.
217
Beweis: Aus der Tschebyscheff–Ungleichung folgt:
( n
)!
1 X
P
fi − µ ≥ ε
n
i=1
( n
)!
X
= P
(fi − µ) ≥ nε
i=1
!
n
X
1
var
(fi − µ)
≤
2
2
nε
i=1
=10.15
nσ 2
.
2
2
nε
2
Korollar 11.10 (Schw. G. d. großen Zahlen II) fn, n ∈ N, sei eine Folge un218
abhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt:
n
1X P
fi → E(f1).
n i=1
Wie wir am Ende dieses Kapitels sehen werden, gilt sogar:
n
1X
fi →n∈N E(f1) P –f.s.
n i=1
Dies ist das Starke Gesetz der großen Zahlen. Die Gesetze der großen Zahlen decken
sich völlig mit unserer Anschauung und unserer Erfahrung. Es wird im mathematischen Modell die Erfahrungstatsache bestätigt, dass bei einer großen Anzahl n von
unabhängigen Wiederholungen des gleichen Experimentes die relative Häufigkeit
n
1X
1A(fi)
hn(A) =
n i=1
219
des Eintretens eines Ereignisses A in der Nähe der Wahrscheinlichkeit p := P ({f1 ∈
A}) liegt:
f1, f2, . . . seien unabhängig und identisch verteilt. Dann sind 1A(f1), 1A(f2), . . . unabhängig und identisch verteilt mit E(1A(f1)) = P ({f1 ∈ A}) = p sowie σ 2(1A(f1)) =
p(1 − p) und es gilt
P ({|hn(A)
(− p|n ≥ ε})
)!
1 X
(1A(fi) − p) ≥ ε
= P
n
i=1
p(1 − p)
≤
nε2
1
→n∈N 0,
≤
2
4nε
unabhängig von p. Beachte, dass p(1 − p) ≤ 1/4 für p ∈ [0, 1].
220
Satz 11.11 (Kolmogoroffsche Ungleichung) Für unabhängige Zufallsvariablen f1, . . . ,
mit E(fi) = 0, i = 1, . . . , k, und ε > 0 gilt:
j
(
)!
k
X 1 X 2
max P
fi ≥ ε
σ (fi).
≤ 2
1≤j≤k ε i=1
i=1
Pj
2
Beweis: O.E. sei σ (fi) < ∞, i = 1, . . . , k. Setze Sj := i=1 fi für j = 1, . . . , k
und
Aj := {|S1| < ε, . . . , |Sj−1| < ε, |Sj | ≥ ε}.
Die Ereignisse A1, . . . , Ak sind disjunkt, und für jedes j sind die Zufallsvariablen 1Aj Sj
und Sk − Sj unabhängig, da die erste nur von f1, . . . , fj und die zweite nur von
221
fj+1, . . . , fk abhängt. Es folgt:
k
X
σ 2(fj )
j=1
=10.16 σ 2(Sk ) = E(Sk2)
k
X
≥
E(1Aj Sk2)
=
j=1
k
X
E(1Aj (Sj + (Sk − Sj ))2)
j=1
≥10.12
=
≥
k
X


E(1A Sj2) + 2E(1A Sj ) E(Sk − Sj )
j
j
| {z }
j=1
=0
k Z
X
Sj2 dP 222
j=1
k
X
j=1
Aj
ε2P (Aj )
2
Satz 11.12
unabhängige, quadratintegrierbare Zufallsvariablen. Falls
Pfn, n ∈ N, seienP
die Reihen n∈N E(fn) und n∈N σ 2(fn) eigentlich konvergent sind, so existiert eine
Zufallsvariable S mit
n
X
Sn :=
fi →n∈N S P –f.s.
i=1
Beweis:
1. O.E.
Pn sei E(fn) = 0, n ∈ N (sonst Übergang zu
i=1 E(fi )).
223
Pn
i=1 fi
=
Pn
i=1 (fi
− E(fi)) +
224
2. Für ε > 0 und m ∈ N gilt;
P
sup |Sn − Sm| > ε
n>m

=
=
≤11.11
=


[ 

P
max |Sn − Sm| > ε 
m<n≤m+k


k∈N |
{z
}
↑ in k
lim P
max |Sn − Sm| > ε
k∈N
m<n≤m+k
m+k
1 X 2
σ (fn)
lim sup 2
ε
k∈N
n=m+1
X
1
2
σ
(fn).
2
ε n>m
225
Nach Voraussetzung gilt limm∈N n>m σ 2(fn) = 0, also
P
inf sup |Sn − Sm| > ε
m∈N n>m
!
\
≤ P
sup |Sn − Sm| > ε
P
m∈N
n>m
≤ lim inf P
m∈N
sup |Sn − Sm| > ε
n>m
= 0.
226
Das Cauchy–Konvergenzkriterium für reelle Zahlenfolgen ergibt nun:
P ({Sn
, n ∈ N, ist eigentlich konvergent})
1
= P
∀r ∈ N ∃m ∈ N : sup |Sn − Sm| <
r
n>m
!
\
1
= P
inf sup |Sn − Sm| <
m∈N n>m
r
r∈N
!
[
1
= 1−P
inf sup |Sn − Sm| ≥
m∈N n>m
r
r∈N
= 1.
2
227
Korollar 11.13 (St. G. d. gr.PZ. v. Kolmogoroff) Für jede Folge fn, n ∈ N, unabhängiger Zufallsvariablen mit n∈N σ 2(fn)/n2 < ∞ gilt:
n
1X
(fi − E(fi)) →n∈N 0 P –f.s.
n i=1
Beweis: O.E. gelte E(fn) = 0, n ∈ N. Nach 11.12 existiert eine Zufallsvariable T
mit
n
X
fi
Tn :=
→n∈N T P –f.s.
i
i=1
228
Beachte: var(fi/i) = var(fi)/i2. Damit folgt (T0 := 0):
n
1X
fi
n i=1
n
=
=
=
→n∈N
1X
i(Ti − Ti−1)
n i=1
1
n
n
X
i=1
iTi −
n
X
!
(i + 1)Ti + (n + 1)Tn
i=1
n
X
1
n+1
Tn −
Ti
n
n i=1
T − T = 0 P –f.s.
2
229
Korollar 11.14 fn, n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen.
Falls dann E(f12) < ∞, so gilt:
n
1X
fi →n∈N E(f1) P –f.s.
n i=1
Beweis: Es gilt
X σ 2(fn)
n∈N
n2
X 1
= σ (f1)
< ∞.
2
n
2
n∈N
Damit folgt die Behauptung aus 11.13. Beachte:
1
n
n
X
(fi − E(fi)) =
i=1
1
n
n
X
!
fi
− E(f1).
i=1
2
230
0
Satz
11.15
f
,
n
∈
N,
und
f
, n ∈ N, seien Folgen von Zufallsvariablen mit
n
n
P
0
P
({f
=
6
f
}) < ∞; f sei eine Zufallsvariable. Dann gilt:
n
n
n∈N
n
1X
fi →n∈N f P –f.s.
n i=1
n
1X 0
fi →n∈N f P –f.s.
⇔
n i=1
Beweis: Nach dem Lemma von Borel–Cantelli gilt mit An := {fn 6= fn0 }:
P (N1) := P ({fn 6= fn0 für unendlich viele n ∈ N})
= P (lim sup An) = 0.
n∈N
231
−1
Gilt nun n
Pn
i=1 fi
→n∈N f P –f.s., so existiert N2 ∈ A mit P (N2) = 0 und
n
1X
fi(ω) →n∈N f (ω) für alle ω ∈ N2c.
n i=1
Damit gilt für alle ω ∈ N1c ∩ N2c:
n
n
1X
1X 0
lim
fi (ω) = lim
fi(ω) = f (ω).
n∈N n
n∈N n
i=1
i=1
Da P (N1c ∩ N2c) = 1, folgt die Behauptung.
2
Satz 11.16 (St. G. d. gr. Z. von Khinchine) fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter Zufallsvariablen.
232
1. Falls f1 integrierbar ist, so ist E(fn) = E(f1) =: µ ∈ R und es gilt:
n
1X
fi →n∈N µ P –f.s.
n i=1
2. Falls es ein c ∈ R gibt mit der Eigenschaft:
n
1X
fi →n∈N c P –f.s.,
n i=1
so ist f1 integrierbar, und es gilt c = E(f1).
Beweis:
1.“ Die durch
”
fn(ω), falls |fn(ω)| ≤ n
0
sonst
= fn(ω)1[−n,n](fn(ω)), n ∈ N,
fn0 (ω) :=
233
definierten Zufallsvariablen sind unabhängig, und es gilt
X σ 2(f 0 )
n
n∈N
=
n2
X E(f 02) − E(f 0 )2
n
n2
n∈N
≤
n
X E(f 02)
n∈N
n
n2
n
X 1 X
2
≤
k
P ({k − 1 < |f1| ≤ k})
n2
n∈N
k=1


X
X 1
,
=
kP ({k − 1 < |f1| ≤ k}) k
2
n
k∈N
n≥k
234
wobei
X 1
X
1
≤ 2
n2
n(n + 1)
n≥k
n≥k
X 1
1
2
= 2
−
= ,
n n+1
k
n≥k
d.h. insgesamt
X σ 2(f 0 )
n
n∈N
n2
≤ 2
X
kP ({k − 1 < |f1| ≤ k})
k∈N
≤ 2(E(|f1|) + 1) < ∞,
s. Übungen.
235
Anwendung von 11.13 liefert:
n
1X 0
(fi − E(fi0)) →n∈N 0 P –f.s.
n i=1
Nach dem Satz von der dominierten Konvergenz gilt ferner:
E(fn0 )
= E(fn1[−n,n](fn))
= E(f11[−n,n](f1))
→n∈N E(f1) = µ,
Pn
Pn 0
−1
0
−1
also auch n
i=1 E(fi ) →n∈N µ und somit n
i=1 fi →n∈N µ P –f.s. Zu-
236
sammen mit
X
P ({fn 6=
fn0 })
=
n∈N
=
X
n∈N
X
P ({|fn| > n})
P ({|f1| > n})
n∈N
< ∞,
(da f1 integrierbar ist, s. Übungen) folgt die Behauptung 1. aus 11.15.
Pn
2.“ Mit Sn := i=1 fi gilt:
”
Sn
→n∈N c P –f.s.
n
fn Sn n − 1 Sn−1
⇒
=
−
→n∈N 0 P –f.s.
n
n n n − 1
fn ⇒ P –f.s.: > 1 für höchstens endl. viele n ∈ N,
n
237
d.h. in diesem Fall existiert n0 ∈ N so, dass |fn/n| ≤ 1 für alle n ≥ n0. Also gilt
mit An := {|fn/n| > 1}:
P lim sup An = 0.
n∈N
Da fn, n ∈ N, eine Folge unabhängiger Zufallsvariablen ist, sind die An, n ∈ N,
unabhängige Ereignisse, und somit folgt aus dem Lemma von Borel–Cantelli:
X
X
P (An) =
P ({|f1| > n})
∞>
n∈N
n∈N
und damit, dass f1 integrierbar ist (s. Übungen).
2
Korollar 11.17 Bei einer Folge unabhängiger Wiederholungen
f1, f2, . . . eines ExperiP
mentes konvergiert die relative Häufigkeit hn(A) = n−1 ni=1 1A(fi) des Eintritts eines
Ereignisses A fast sicher gegen die Wahrscheinlichkeit P ({f1 ∈ A}).
238
Beispiel 11.18 fn, n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen
mit der Verteilungsfunktion F . Dann gilt für die empirische Verteilungsfunktion oder
Stichproben-Verteilungsfunktion zur Stichprobe f1, . . . , fn:
n
1X
Fn(t) :=
1(−∞,t](fi) →n∈N F (t) P –f.s., t ∈ R.
n i=1
Beweis: Setze f˜n := 1(−∞,t](fn), n ∈ N. Dann sind f˜n, n ∈ N, unabhängig und
identisch verteilt mit
˜
E(fn) = E 1(−∞,t](f1) = P ({f1 ≤ t}) = F (t).
Damit folgt aus 11.16:
n
1X ˜
Fn(t) =
fi →n∈N E(f˜1) = F (t) P –f.s.
n i=1
239
2
Es gilt sogar die folgende Verschärfung der vorausgegangenen Aussage, die einen
Hauptsatz der Stochastik darstellt.
Satz 11.19 (Glivenko–Cantelli) fn, n ∈ N, seien unabhängige und identisch verteilte Zufallsvariablen mit Verteilungsfunktion F . Dann gilt:
sup |Fn(t) − F (t)| →n∈N 0 P –f.s.,
t∈R
d.h. die empirische Verteilungsfunktion konvergiert mit Wahrscheinlichkeit 1 gleichmäßig
über R gegen die zugrunde liegende Verteilungsfunktion.
Beweis: Die A–Messbarkeit von supt∈R |Fn(t) − F (t)| folgt aus der rechtsseitigen
Stetigkeit von Verteilungsfunktionen:
sup |Fn(t) − F (t)| = sup |Fn(t) − F (t)|.
t∈R
t∈Q
240
Setze nun tj,k := F −1(j/k), j = 1, . . . , k − 1, k ∈ N. Dann folgt:
Fn(tj,k ) →n∈N F (tj,k ) P –f.s.,
sowie
n
1X
Fn(tj,k − 0) =
1(−∞,tj,k )(fi) →n∈N F (tj,k − 0) P –f.s.,
n i=1
wobei F (tj,k − 0) = limε↓0 F (tj,k − ε) = P ({f1 < tj,k }).
Damit gilt (mit F (tj,k + 0) := F (tj,k )):
sup
|Fn(tj,k ± 0) − F (tj,k ± 0)| →n∈N 0 P –f.s.
j=1,...,k−1
Sei nun tj,k < t < tj+1,k . Dann gilt:
F (tj,k ) ≤ F (t) ≤ F (tj+1,k − 0),
Fn(tj,k ) ≤ Fn(t) ≤ Fn(tj+1,k − 0)
241
sowie
1
0 ≤ F (tj+1,k − 0) − F (tj,k ) ≤ .
|
{z
} | {z } k
≤ j+1
k
≥ kj
Es folgt:
Fn(t) − F (t) ≤ Fn(tj+1,k − 0) − F (tj,k )
≤ Fn(tj+1,k − 0) − F (tj+1,k − 0) +
und
Fn(t) − F (t) ≥ Fn(tj,k ) − F (tj+1,k − 0)
1
≥ Fn(tj,k ) − F (tj,k ) − .
k
242
1
k
Insgesamt erhalten wir:
sup |Fn(t) − F (t)|
t∈R
1
≤ sup |Fn(tj,k ± 0) − F (tj,k ± 0)| +
k
1≤j≤k
+ sup |Fn(t) − F (t)| + sup |Fn(t) − F (t)|.
t<t1,k
t>tk−1,k
Ferner gilt:
lim sup sup |Fn(t) − F (t)|
n∈N
t<t1,k
≤ lim sup(Fn(t1,k − 0) + F (t1,k − 0))
n∈N
2
≤
k
P –f.s.
243
sowie
lim sup sup |Fn(t) − F (t)|
t>tk−1,k
n∈N
!
≤ lim sup
n∈N
sup |Fn(t) − 1| + sup |1 − F (t)|
t>tk−1,k
t>tk−1,k
≤ lim sup (1 − Fn(tk−1,k ) + 1 − F (tk−1,k ))
n∈N




= 2 1 − F (tk−1,k )
| {z }
P –f.s.
≥ k−1
k
|
{z
≤ k1
}
Da k ∈ N beliebig war, folgt insgesamt die Behauptung.
244
2
Beispiel 11.20 fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt für das Stichprobenmittel:
n
1X
fi →n∈N E(f1) P –f.s.
µ̂n :=
n i=1
sowie für die Stichprobenvarianz:
n
σ̂n2
:=
=
1X
(fi − µ̂n)2
n i=1
1
n
n
X
i=1
→n∈N E(f12)
fi2
1
n
−
n
X
!2
fi
i=1
− E(f1)2 = σ 2(f1) P –f.s.
Ist ferner (fn, gn), n ∈ N, eine Folge unabhängiger, identisch verteilter Zufallsvekto245
ren und f1, g1 quadratintegrierbar mit 0 < σ 2(f1), σ 2(g1), so gilt für die Stichprobenkovarianz
!
!
n
n
n
1X
1X
1X
figi −
fi
gi
cov
c n :=
n i=1
n i=1
n i=1
→n∈N E(f1g1) − E(f1)E(g1) P –f.s.
= cov(f1, g1).
246
Damit gilt auch für den Stichprobenkorrelationskoeffizienten
%̂n
:=
=
→n∈N
=
−1
wobei ν̂n := n
Pn
i=1 gi
cov
cn
σ̂n(f )σ̂n(g) 1 Pn
Pn
Pn
1
1
i=1 fi gi − n
i=1 fi
i=1 gi
n
qn P
1 Pn
n
1
2
2
i=1 (fi − µ̂n )
i=1 (gi − ν̂n )
n
n
cov(f1, g1)
P –f.s.
σ(f1)σ(g1)
%(f1, g1)
das Stichprobenmittel von g1, . . . , gn ist.
247
Somit gilt für den (einfachen) Stichprobenregressionskoeffizienten
ân
:=
=
→n∈N
cov
cn
σ̂n2 (f1)
Pn
1
n
i=1 fi gi −
Pn 2
1
i=1 fi
n
1
n
Pn
−
1
n
Pn
i=1 fi
i=1 gi
2
Pn
1
i=1 fi
n
cov(f1, g1)
P –f.s.
σ 2(f1)
Die oben aufgeführten Schätzer konvergieren also mit Wahrscheinlichkeit 1 gegen
den jeweils zu schätzenden Wert, d.h. sie sind sog. (stark) konsistente Schätzerfolgen.
248
Ferner können wir mit obigen Schätzern nahe liegend eine Schätzung der Regressionsgeraden von g1 auf f1 definieren:
m̂n(t)
:= ân(t − µ̂n) + ν̂n
=: ânt + b̂n
→n∈N a∗(t − E(f1)) + E(g1) P –f.s., t ∈ R.
Die Gerade m̂n(t) erhält man auch, wenn eine Gerade at + b so gewählt wird, dass
die Summe der vertikalen Abstände der Datenpunkte (fi, gi), i = 1, . . . , n, von der
Geraden minimal wird, d.h.5
n
n
X
X
(gi − ânfi − b̂n)2 = min
(gi − afi − b)2.
a,b
i=1
i=1
Dies ist die Methode der kleinsten Quadrate, die auf Gauss zurück geht und zunächst
vorwiegend in der (Fehler–) Ausgleichsrechnung Verwendung fand.
5
S. etwa Abschnitt 13.4 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und Statistik, 6. Auflage. Vieweg, Braunschweig.
249
Bemerkung 11.21 Es gilt:

2 
n
n
X
X
1
1


fi −
E(σ̂n2 ) = E 
fj  
n i=1
n j=1

2 
n
1X 

fj 
= E  f1 −
n j=1

n−1 2
σ (f1),
=
n
d.h. σ̂n2 ist kein erwartungstreuer Schätzer, wohl aber

2
n
n
X
X
n
1
1
f i −
σ̃n2 :=
σ̂n2 =
fj  .
n−1
n − 1 i=1
n j=1
250
Beispiel 11.22 (Die Monte–Carlo Methode) Gesetze der großen Zahlen können
auch zur approximativen Berechnung von Integralen eingesetzt werden: R
Problem: g : [0, 1] → R sei eine (λ1–) integrierbare Funktion; bestimme [0,1] g(x) λ1(dx).
Dies ist häufig praktisch kaum möglich. Verschaffen wir uns nun eine Stichprobe
f1, . . . , fn unabhängiger und auf dem Intervall [0, 1] gleichverteilter Zufallsvariablen
(d.h. P ∗ fi = P ∗ f1 = λ1/[0, 1]), so gilt:
n
1X
g(fi) →n∈N E(g(f1)) P –f.s.
n i=1
Z
=8.17
g(x) λ1(dx).
[0,1]
Sind also x1, . . . , xn beobachtete Werte von f1, . . . , fn, d.h. xi = fi(ω), i = 1, . . . , n,
251
so gilt:
g(x1) + · · · + g(xn)
≈
g(x) dx.
n
[0,1]
x1, . . . , xn heißen auch Zufallszahlen. Zufallszahlen werden in der Praxis üblicherweise
vom Computer nach gewissen Algorithmen erzeugt. Da diese somit aber nicht wirklich“
”
zufällig sind, spricht man in diesem Fall von Pseudozufallszahlen. Sie sollten sich wie
echte“ Zufallszahlen verhalten, tun das aber nicht immer. . . 6
” S. Bemerkung (3.43) in Georgii, H.-O. (2002). Stochastik. De Gruyter, Berlin.
Z
6
252
12
Der Zentrale Grenzwertsatz
fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer
Zufallsvariablen. Setze µ := E(f1). Wir hatten in Kapitel 11 gesehen, dass
n
1X
fi →n∈N µ P –f.s.
n i=1
bzw.
P
( n
)!
1 X
fi − µ ≥ ε
→n∈N 0
n
i=1
für alle ε > 0. Wir können nun fragen: Falls wir das feste ε durch eine Folge εn > 0,
n ∈ N, mit εn →n∈N 0 ersetzen, wie schnell darf dann εn gegen 0 konvergieren, so
253
dass
( n
)!
1 X
P
fi − µ ≥ ε n
→n∈N c ∈ (0, 1)?
n
i=1
√
Wir werden sehen, dass dies für εn ∼ 1/ n der Fall ist; genauer wird für t > 0 gelten:
( n
)!
1 X
σt
→n∈N 2(1 − Φ(t)),
P
fi − µ ≥ √
n
n
i=1
wobei
Z
t
2
1
x
Φ(t) := √
exp −
dx
2
2π −∞
und σ 2 := σ 2(f1). Dies wird eine unmittelbare Folgerung aus dem Zentralen Grenzwertsatz sein, den wir in diesem Abschnitt beweisen werden.
254
Satz 12.1 f, g seien unabhängige Zufallsvariablen mit Verteilungsfunktion F bzw. G.
Dann besitzt f + g die Verteilungsfunktion
Z
(F ∗ G)(t) =
G(t − s) (P ∗ f )(ds)
Z
=
G(t − s) F (ds)
Z
=
F (t − s) (P ∗ g)(ds)
Z
=
F (t − s) G(ds)
.
F ∗ G heißt Faltung von F und G.
255
Beweis: Es gilt:
(F ∗ G)(t)
=
P
Z ({f + g ≤ t})
1(−∞,t](f + g) dP
=
ZΩ
=8.17
ZR2
1(−∞,t](r + s) (P ∗ (f, g))(d(r, s))
1(−∞,t](r + s) ((P ∗ f ) × (P ∗ g))(d(r, s))
Z Z
=Fubini
1(−∞,t](r + s)(P ∗ g)(ds)(P ∗ f )(dr)
ZR ZR
=
1(−∞,t−r](s)(P ∗ g)(ds)(P ∗ f )(dr)
ZR R
=
G(t − r) (P ∗ f )(dr).
=
R2
R
256
2
Satz 12.2 f, g seien unabhängige Zufallsvariablen mit Dichte h1 bzw. h2. Dann besitzt
f + g die Dichte
Z
Z
(h1 ∗ h2)(t) :=
h1(t − s)h2(s) ds =
h2(t − s)h1(s) ds.
R
R
257
Beweis: F bzw. G sei die Verteilungsfunktion von f bzw. g. Nach 12.1 besitzt f + g
die Verteilungsfunktion
(F ∗ G)(t)Z
G(t − s) F (ds)
=
Z
G(t − s)h1(s) ds
ZR Z
=
h2(r) dr h1(s) ds
ZR Z(−∞,t−s]
=Subst.
h2(r − s) dr h1(s) ds
Z
ZR (−∞,t]
=Fubini
h2(r − s)h1(s) ds dr
Z(−∞,t] R
=Def.
(h1 ∗ h2)(r) dr.
258
=8.23
(−∞,t]
Nach dem Maßerweiterungssatz 6.16, 6.19, 9.6 folgt hieraus die Behauptung.
2
Definition 12.3 Das Wahrscheinlichkeitsmaß auf B1 mit der Dichte7
2
1
x
ϕ(x) := √ exp −
, x ∈ R,
2
2π
heißt Standardnormalverteilung, i.Z.
R N (0, 1). Die Verteilungsfunktion von N (0, 1) bezeichnen wir mit Φ, d.h. Φ(x) = (−∞,x] ϕ(y) dy.
Bemerkung 12.4 Die Zufallsvariable f sei nach N (0, 1) verteilt. Dann gilt:
1. E(f ) = 0,
2. σ 2(f ) = 1.
7
S. etwa Satz 19.1. in Bandelow, C. (1989). Einführung in die Wahrscheinlichkeitstheorie. BI, Mannheim.
259
Beweis:
1.“ S. Übungen (beachte, dass ϕ(x) = ϕ(−x), x ∈ R.
”
260
2.“ Es gilt:
”
Z
∞
x2ϕ(x) dx
−∞
Z
∞
2
1
x
√
dx
x x exp −
2
2π −∞
2 ∞
x
1
=part. Int. √
x − exp −
2
2π
−∞2 Z ∞ 1
x
dx
−√
1 − exp −
2
2π −∞
Z
=
∞
=
ϕ(x) dx
−∞
=
1.
2
261
Satz 12.5 Die Zufallsvariable f sei N (0, 1)–verteilt; σ > 0, µ ∈ R. Dann besitzt die
Zufallsvariable g := σf + µ die Dichte
1
x−µ
ϕ(µ,σ2)(x) := ϕ
σ
σ
2
(x − µ)
1
, x ∈ R.
= √
exp −
2
2σ
2πσ
Die zugehörige Verteilung heißt Normalverteilung mit Mittelwert µ und Varianz σ 2,
i.Z. N (µ, σ 2),
(denn E(g) = E(σf + µ) = µ, σ 2(g) = E((g − µ)2) = E((σf )2) = σ 2E(f 2) = σ 2).
Beweis: S. Übungen.
2
262
Satz 12.6 (Faltungsth. der Normalverteilung) f1, . . . , fn seien unabhängige Zufallsvariablen mit P ∗ fi = N (µi, σi2), i = 1, . . . , n. Dann gilt:
P ∗ (f1 + · · · + fn) = N (µ1 + · · · + µn, σ12 + · · · + σn2 ).
Beweis: Offenbar genügt es, den Fall n = 2 zu betrachten. Zunächst gilt für x, a, b ∈
R und σ 2, τ 2 > 0:
(x − a)2 (x − b)2
+
σ2
τ2
(x − c)2 (a − b)2
=
+ 2
2
%
σ + τ2
mit
aτ 2 + bσ 2
c := 2
,
2
σ +τ
263
σ 2τ 2
% := 2
.
2
σ +τ
2
(2)
Ferner besitzt f1 + f2 nach 12.2 die Dichte
Z ∞
ϕ(µ1,σ2)(y − x)ϕ(µ2,σ2)(x) dx
h(y) =
1
2
−∞
Z ∞
(y − x − µ1)2
1
exp −
=
2πσ1σ2 −∞
2σ12
2
(x − µ2)
× exp −
dx
2
2σ2
Z ∞
2
1
(x − c)
=(2)
exp −
2πσ1σ2 −∞
2%2
2
(y − µ1 − µ2)
dx
× exp −
2(σ12 + σ22)
2
(y − µ1 − µ2)
= const exp −
2(σ12 + σ22)
= ϕ(µ1+µ2,σ2+σ2)(y).
1
2
264
2
Definition 12.7 f, fn, n ∈ N, seien Zufallsvariablen über (Ω, A, P ) mit Verteilungsfunktionen F, Fn, n ∈ N.
fn, n ∈ N, heißt in Verteilung oder schwach konvergent gegen f , falls
Fn(t) →n∈N F (t)
für alle Stetigkeitsstellen von F , d.h.
P ({fn ≤ t}) →n∈N P ({f ≤ t}),
falls F (t) = P ({f ≤ t}) in t stetig ist, i.Z.
fn →D f
(in distribution).
265
Beispiel 12.8 Es gelte P ∗ fn = δ1/n, n ∈ N, wobei δx0 das Dirac–Maß (Ein–Punkt–
Maß) im Punkt x0 bezeichne, d.h. δx0 (B) = 1B (x0) = 1, falls x0 ∈ B, und 0 sonst,
B ∈ B. Offenbar gilt:
1, t ≥ 1/n
Fn(t) =
0, t < 1/n.
Dann gilt:
fn →D f
mit Verteilungsfunktion
F (t) = 1[0,∞)(t) = Fδ0 ,
denn offenbar gilt
Fn(t) →n∈N F (t), t 6= 0, aber 0 = Fn(0), F (0) = 1.
Die Verteilungskonvergenz einer Folge fn, n ∈ N, ist eine Aussage über die Verteilungen von fn. Sie ist daher von anderem Charakter als die fast sichere Konvergenz
266
oder die Konvergenz in Wahrscheinlichkeit, da sich Zufallsvariablen mit identischer
Verteilung beliebig unterscheiden können.
Tatsächlich ist sie die schwächste der drei Konvergenzarten, was die Bezeichnung
schwache Konvergenz“ rechtfertigt.
”
P
Satz 12.9 fn → f ⇒ fn →D f .
Beweis: ∀ε > 0 ∃n0 ∈ N ∀n ≥ n0 : P ({|f − fn| > ε}) < ε. Wegen
{f ≤ x − ε} ⊂ {fn ≤ x} ∪ {|fn − f | > ε},
{fn ≤ x} ⊂ {f ≤ x + ε} ∪ {|fn − f | > ε}
gilt für alle n ≥ n0
Ff (x − ε) ≤ Ffn (x) + ε, Ffn (x) ≤ Ff (x + ε) + ε,
also
Ff (x − ε) − ε ≤ Ffn (x) ≤ Ff (x + ε) + ε,
267
d.h. Ffn (x) →n∈N Ff (x) für alle Stetigkeitsstellen von Ff .
2
Beispiel 12.10 Setze Ω := {−1, 1}, A := P(Ω), P (A) := |A|/2, A ⊂ Ω, fn(ω) :=
ω(−1)n, n ∈ N, f (ω) := ω. Dann gilt:
1. fn →D f (denn P ∗ fn = P ∗ f für alle n ∈ N),
P
2. fn →
6 f (denn P ({|fn − f | > 1}) = 1 für alle ungeraden n).
Definition 12.11 Setze K∞ := Menge der beliebig oft differenzierbaren Funktionen
ψ : R → R mit ψ(x) = 0 für alle |x| hinreichend groß.
Satz 12.12 Für Zufallsvariablen f, fn, n ∈ N, gilt:
fn →D f
⇔ E(ψ(fn)) →n∈N E(ψ(f )) für alle ψ ∈ K∞.
268
Beweis:
⇒“ Sei ψ ∈ K∞. Wähle a, b so, dass
”
{x ∈ R : ψ(x) 6= 0} ⊂ I := (a, b]
mit
a, b 6∈ U := {x ∈ R : x Unstetigkeitsstelle von Ff }.
U ist abzählbar (s. Übungen), also ist U c dicht in R. Daher und wegen der
gleichmäßigen
Pm Stetigkeit von ψ auf [a, b] existiert zu ε > 0 eine Treppenfunktion e = i=1 aiI(ti−1,ti] mit a = t0 < t1 < · · · < tm = b, ti 6∈ U , i = 0, 1, . . . , m,
so dass
sup |ψ(x) − e(x)| < ε.
x∈I
Somit gilt:
|E(ψ(fn)) − E(e(fn))| ≤ E(|ψ(fn) − e(fn)|) ≤ ε
269
und ebenso
|E(ψ(f )) − E(e(f ))| ≤ E(|ψ(f ) − e(f )|) ≤ ε.
Für e gilt nun:
E(e(fn))
=
=
→n∈N
m
X
i=1
m
X
i=1
m
X
aiP ({fn ∈ (ti−1, ti]})
ai (Ffn (ti) − Ffn (ti−1))
ai (Ff (ti) − Ff (ti−1))
i=1
=
E(e(f )).
270
Wir erhalten also insgesamt:
lim sup |E(ψ(fn)) − E(ψ(f ))|
n∈N
= lim sup |E(ψ(fn)) − E(e(fn))
n∈N
+E(e(fn)) − E(e(f )) + E(e(f )) − E(ψ(f ))|
≤ 2ε.
Hieraus folgt die Behauptung.
⇐“ Ist I ein beschränktes Intervall, dessen Randpunkte a, b Stetigkeitsstellen von Ff
”
sind, so existieren ein abgeschlossenes Intervall A und ein offenes Intervall O mit
A ⊂ (a, b) ⊂ I ⊂ [a, b] ⊂ O
und
(P ∗ f )(O\A) < ε.
271
Ferner existieren8 ψ, ξ ∈ K∞ mit
1 A ≤ ψ ≤ 1I ≤ ξ ≤ 1O .
Damit folgt:
(P ∗ fn)(A) =
≤
≤
≤
≤
8
S. etwa 7.23 (f) in Walter, W. (1991). Analysis 2, 3. Auflage. Springer, Berlin.
272
E(1A(fn))
E(ψ(fn))
(P ∗ fn)(I)
E(ξ(fn))
(P ∗ fn)(O)
sowie
(P ∗ f )(A) =
≤
≤
≤
≤
E(1A(f ))
E(ψ(f ))
(P ∗ f )(I)
E(ξ(f ))
(P ∗ f )(O).
Es folgt aus (P ∗ f )(O) − (P ∗ f )(A) < ε:
lim sup |(P ∗ fn)(I) − (P ∗ f )(I)| < ε.
n∈N
Da ε > 0 beliebig war, folgt:
(P ∗ fn)(I) →n∈N (P ∗ f )(I).
Sei nun x eine Stetigkeitsstelle der Verteilungsfunktion Ff von P ∗ f . Ferner seien
273
x = x1 > x2 > . . . Stetigkeitsstellen von Ff mit
[
(xk+1, xk ].
(−∞, x] =
k∈N
Dann gilt mit Qn := P ∗ f , Q := P ∗ fn und Ik := (xk+1, xk ]:
X
Qn((−∞, x]) =
Qn(Ik )
≥
k∈N
X
Qn(Ik )
k≤K
für ein beliebiges K ∈ N und damit
lim inf Qn((−∞, x]) ≥
n∈N
X
k≤K
274
Q(Ik ),
d.h.
lim inf Qn((−∞, x]) ≥
n∈N
X
Q(Ik ) = Q((−∞, x]).
k∈N
Andererseits folgt mit diesen Argumenten
lim sup Qn((−∞, x])
n∈N
= lim sup Qn(1 − (x, ∞))
n∈N
= 1 − lim inf Qn((x, ∞))
n∈N
≤ 1 − Q((x, ∞))
= Q((−∞, x])
und somit insgesamt
lim Qn((−∞, x]) = Q((−∞, x]).
n∈N
275
2
Lemma 12.13 f1, f2, f3 seien Zufallsvariablen, f3 sei von f1 und von f2 unabhängig.
Dann gilt für alle stetigen und beschränkten Funktionen ψ : R → R:
E (ψ(f1 + f3) − ψ(f2 + f3)) ≤ sup |E(ψ(f1 + q) − ψ(f2 + q))|.
q∈Q
276
Beweis: Es gilt:
E (ψ(f1 + f3) − ψ(f2 + f3)) Z =Fubini E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3)(dx)
Z ≤
E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3)(dx)
≤
sup |E(ψ(f1 + x) − ψ(f2 + x))|
x∈R
=
sup |E(ψ(f1 + q) − ψ(f2 + q))|.
q∈Q
2
Satz 12.14 (Zentraler Grenzwertsatz) fn, n ∈ N, sei eine Folge unabhängiger,
identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt mit µ :=
277
E(f1), σ 2 := σ 2(f1) für t ∈ R:
)!
(
n
1 X fi − µ
√
≤t
P
n i=1 σ
2
Z t
1
x
→n∈N Φ(t) := √
exp −
dx
2
2π −∞
⇔
1
√
n
n
X
i=1
!
fi − µ
→D f, P ∗ f = N (0, 1).
σ
Beweis:
1. O.E. sei µ = 0, σ 2 = 1, sonst Übergang zu f˜n := (fn − µ)/σ, n ∈ N.
2. fn∗, n ∈ N, sei eine Folge unabhängiger, N (0, 1)–verteilter Zufallsvariablen. Für
278
diese Folge gilt bereits nach 12.6
∗
∗
f1 + · · · + fn
√
P∗
= N (0, 1),
n
d.h.
(
)!
n
1 X ∗
√
= Φ(t), t ∈ R, n ∈ N,
P
fi ≤ t
n i=1
und damit
E(ψ(Tn∗)) = E(ψ(f )) für alle ψ ∈ K∞,
wobei
f1∗ + · · · + fn∗
√
:=
n
und f eine nach N (0, 1)–verteilte Zufallsvariable ist.
√
Zu zeigen ist nun nach 12.12 mit Tn := (f1 + · · · + fn)/ n:
E(ψ(Tn)) →n∈N E(ψ(f )) für alle ψ ∈ K∞,
Tn∗
279
d.h.
E(ψ(Tn) − ψ(Tn∗)) →n∈N 0 für alle ψ ∈ K∞.
3. Da die Behauptung lediglich die Verteilung der fi, i ∈ N, betrifft, können wir
annehmen, dass die fi und die fi∗ auf demselben Wahrscheinlichkeitsraum (Ω, A, P )
definiert sind und sämtlich voneinander unabhängig sind.
Taylor–Entwicklung liefert nun für x, u ∈ R und ψ ∈ K∞
ψ(x + u)
x2
0
00
= ψ(u) + ψ (u)x + ψ (u + ϑx,ux)
2
2
x
= ψ(u) + ψ 0(u)x + ψ 00(u) + r(x, u)x2,
2
00
wobei 0 < ϑx,u < 1 und r(x, u) := (ψ (u + ϑx,ux) − ψ 00(u))/2.
Da die Funktion ψ 00 stetig ist und ψ 00(x) = 0 für |x| hinreichend groß (d.h. ψ 00
besitzt einen kompakten Träger), ist ψ 00 beschränkt und gleichmäßig stetig, d.h. es
280
gilt
sup |r(x, u)| < ∞ und sup |r(x, u)| →x→0 0.
x,u
u
4. Es gilt:
ψ(Tn) − ψ(Tn∗)
∗
∗
f1 + · · · + f n
f1 + · · · + fn
√
√
= ψ
−ψ
n
n
n ∗
X
f1 + · · · + fi + fi+1
+ · · · + fn∗
√
=
ψ
n
i=1
∗
∗
f1 + · · · + fi−1 + fi + · · · + fn
√
−ψ
n
n
∗
X
fi
fi
√
√
=
+ Ui − ψ
+ Ui
,
ψ
n
n
i=1
281
wobei
∗
f1 + · · · + fi−1 + fi+1
+ · · · + fn∗
√
Ui :=
n
√
√
von fi/ n und fi∗/ n unabhängig ist, i = 1, . . . , n. Nach 12.13 gilt daher
|E(ψ(Tn) − ψ(Tn∗))|
∗
n X
fi
fi
√
√
≤
+
U
−
ψ
+
U
E
ψ
i
i
n
n
i=1
∗
n
X
f
f
i
i
≤
sup E ψ √ + q − ψ √ + q
n
n
q∈Q
i=1 ∗
f1
f1
.
= n sup E ψ √ + q − ψ √ + q
n
n
q∈Q
282
Nach 3. gilt
f1
ψ √ +q
n
2
2
f
f
f1
f
1
1
1
0
00
= ψ(q) + ψ (q) √ + ψ (q) + r √ , q
,
2n
n
n
n
∗
f
ψ √1 + q
n
∗ ∗2
∗2
∗
f
f1
f
f1
1
1
00
0
= ψ(q) + ψ (q) √ + ψ (q)
+ r √ ,q
.
2n
n
n
n
283
Wegen E(f1) = E(f1∗) = 0 und E(f12) = E(f1∗2) = 1 folgt damit:
∗
|E(ψ(Tn) − ψ(T
))|
n
∗ 2
∗2
f1
f1
f1
f1
r √ ,q −
r √ ,q
≤ n sup E
n
n
n
n
q∈Q
!
f1
2
≤ E f1 sup r √ , q n
q∈Q
∗ !
f1
∗2
+E f1 sup r √ , q n
q∈Q
→n∈N 0
nach 3. und dem Satz von der dominierten Konvergenz.
2
284
Dieselben Argumente wie beim Beweis des Satzes von Glivenko–Cantelli führen zu
der folgenden Verschärfung des obigen Satzes.
Korollar 12.15 Unter den Voraussetzungen von 12.14 gilt:
(
)!
n
1 X fi − µ
√
sup P
≤t
− Φ(t) →n∈N 0.
σ
n
t∈R i=1
Korollar 12.16 (Satz von Moivre–Laplace) Die Zufallsvariablen fi, iP
∈ N, seien
n
unabhängig und B(1, p)–verteilt mit p ∈ (0, 1). Dann gilt mit Sn :=
i=1 fi für
−∞ ≤ t1 ≤ t2 ≤ ∞ :
)!
(
Sn − np
≤ t2
P
t1 ≤ p
np(1 − p)
2
Z t2
1
x
→n∈N √
exp −
dx,
2
2π t1
285
bzw.
max B(n, p)({k1, k1 + 1, . . . , k2})
k1 ,k2 ∈{0,...,n} √k2 −np
np(1−p)
−
1
√
2π
Z
√k1 −np
np(1−p)
2 x
exp −
dx
2
→n∈N 0.
Beweis: Es gilt E(fi) = p, σ 2(fi) = p − p2 = p(1 − p). Die erste Behauptung folgt
nun unmittelbar aus dem Zentralen Grenzwertsatz.
286
p
p
Ferner gilt mit t1 = (k1 − np)/( np(1 − p), t2 = (k2 − np)/( np(1 − p):
(
)!
Sn − np
t1 ≤ p
P
≤ t2
np(1 − p)
= P ({k1 ≤ Sn ≤ k2})
= B(n, p)({k1, k1 + 1, . . . , k2}),
s. Übungen. Die zweite Behauptung folgt damit aus 12.15.
2
Es ist also nach dem Satz von Moivre–Laplace möglich, die Wahrscheinlichkeit
B(n, p)({k1, k1 + 1,
. . . , k2}), deren exakte Berechnung auf die Summation unhandli
cher Ausdrücke nk pk (1 − p)n−k hinausläuft, näherungsweise mittels der Verteilungsfunktion Φ zu berechnen, wenn n groß ist.
Beispiel 12.17 (Macht entschloss. Minderheit) An einer Stichwahl zwischen den
beiden Kandidaten A und B nehmen 1 Million Wähler teil. 2000 Wähler unterwer287
fen sich der Parteidisziplin und stimmen geschlossen für Kandidat A. Die übrigen
998000 Wähler sind mehr oder weniger unentschlossen und treffen ihre Entscheidung
unabhängig voneinander durch Werfen einer (fairen) Münze. Wie groß ist die Wahrscheinlichkeit pA für einen Sieg von A?
Lösung: A siegt genau dann, wenn er mehr als 498000 der Stimmen der 998000 unentschlossenen Wähler erhält. Die Anzahl f der A–Stimmen dieser Wähler ist B(998000, 1/2)
288
verteilt. Es folgt:
pA = P ({f

> 498000})


 f − 998000 1 498000 − 998000 1 

2
2 
q
>
= P q



1
1
1
1
 998000
998000 2 2 
22





 f − 998000 1


2
> −2, 002 
≈ P q



 998000 1 1
22
≈ 1 − Φ(−2, 002)
= Φ(2, 002)
≈ 0, 977.
289
(Zum Vergleich: Abschätzung mittels der Tschebyscheff–Ungleichung ergibt:





 f − 998000 1


2
≤ −2, 002 
1 − pA ≈ P  q



 998000 1 1
22




 f − 998000 1 
 
2
≤ P q
≥ 2, 002 


 998000 1 1 
22
1
≤
2, 0022
1
≈
4
3
≥ .)
⇒ pA ∼
4
290
2
Beispiel 12.18 Es gilt:
lim
n∈N
exp(−n)
n
X
i=0
i
n
i!
!
1
= .
2
Beweis: f1, f2 seien unabhängige, Poisson–verteilte Zufallsvariablen zu den Parametern λ1 bzw. λ2 > 0, d.h. es gilt für i = 1, 2:
λki
P ({fi = k}) = exp(−λi) ,
k!
291
k = 0, 1, . . .
Dann ist f1 + f2 Poisson–verteilt zum Parameter λ1 + λ2:
P ({f1 + f2 = k})
∞
X
=
P ({f1 + f2 = k, f1 = i})
=
=
i=0
k
X
i=0
k
X
P ({f2 = k − i, f1 = i})
P ({f2 = k − i})P ({f1 = i})
i=0
k
X
λi1
λk−i
2
exp(−λ1)
=
exp(−λ2)
(k
−
i)!
i!
i=0
k 1 X k i k−i
= exp(−(λ1 + λ2))
λλ
k! i=0 i 1 2
292
(λ1 + λ2)k
= exp(−(λ1 + λ2))
,
k!
k = 0, 1, . . .
Ferner gilt E(f1) = λ1, σ 2(f1) = λ1.
Es sei nun fi, i ∈ N, eine Folge unabhängiger, identisch zum Parameter 1 Poisson–
verteilter Zufallsvariablen. Dann gilt nach dem Zentralen Grenzwertsatz:
(
)!
n
1
1 X
√
(fi − 1) ≤ 0
→n∈N Φ(0) = .
P
2
n i=1
Andererseits gilt:
(
n
X
1
√
(fi − 1) ≤ 0
P
n i=1
( n
)!
X
= P
fi ≤ n
i=1
= exp(−n)
n
X
ni
i=0
293
i!
,
)!
da
Pn
i=0 fi
Poisson–verteilt ist zum Parameter n.
2
Der folgende Satz macht eine Aussage über die Konvergenzgeschwindigkeit beim
Zentralen Grenzwertsatz.
Satz 12.19 (Berry–Esseen) Es seien f1, f2, . . . unabhängige und identisch verteilte
Zufallsvariablen. Ist 0 < σ 2 :=Var(f1) < ∞, γ := E(|f1 − µ|3) < ∞ mit µ := E(f1),
so gilt:
(
)!
n
1 X fi − µ
√
sup P
≤x
− Φ(x)
n i=1 σ
x∈R γ 1
≤ 0, 8 3 √ .
σ n
Beweis: S. Gänssler, P. und Stute, W. (1977).
294
2
Eine weitere direkte Anwendung des Zentralen Grenzwertsatzes führt zu sog. Konfidenzinte
(Vertrauensintervallen). Der einfachste Fall ist der folgende: Angenommen, fn, n ∈ N,
ist eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen mit bekannter Varianz σ 2, aber unbekanntem Mittelwert µ, der geschätzt werden
soll.
Pn
−1
Mit dem arithmetischen Mittel µ̂n := n
i=1 fi erhalten wir eine Punktschätzung
für µ. Allerdings wird µ̂n um den wahren Wert µ (zufällig) schwanken. Es erscheint
daher vernünftig, zusätzlich zur Punktschätzung µ̂n ein Intervall
In := [µ̂n − c, µ̂n + c]
(mit dem Mittelpunkt µ̂n) anzugeben, von dem man weiß, dass es den unbekannten
Mittelwert µ mit hoher Wahrscheinlichkeit enthält. Dies ist eine Bereichsschätzung von
µ.
Problem: Wie soll c > 0 gewählt werden?
295
Einerseits natürlich möglichst klein, um eine gute (Bereichs–)Schätzung für µ zu
erhalten.
Andererseits darf c nicht zu klein gewählt werden, da In den Wert µ mit hoher
Wahrscheinlichkeit enthalten soll.
Eine Lösung dieses Zielkonfliktes bietet der Zentrale Grenzwertsatz wie folgt: Wir
wissen, dass für t ≥ 0 gilt:
(
)!
n
1 X fi − µ
−t ≤ √
P
≤t
n i=1 σ
→n∈N Φ(t) − Φ(−t)
= 2Φ(t) − 1,
296
wobei
(
)!
n
X
1
fi − µ
−t ≤ √
P
≤t
n i=1 σ
tσ
tσ
µ̂n − √ ≤ µ ≤ µ̂n + √
= P
n
n
tσ
tσ
.
= P
µ ∈ µ̂n − √ , µ̂n + √
n
n
Wählen wir also
tσ
c := cn := √
(→n∈N 0!),
n
so erhalten wir
P ({µ ∈ In}) →n∈N 2Φ(t) − 1.
Dabei wählen wir nun t > 0 so, dass 2Φ(t) − 1 gleich der (hohen) vorgegebenen
Wahrscheinlichkeit sein soll, sagen wir 1 − α, mit der µ in In liegen soll. Ein typischer
297
Wert wäre 1 − α = 0, 95.
Es soll also gelten:
α
2Φ(t) − 1 = 1 − α ⇔ t = Φ
1−
,
2
d.h. t =(1 − α/2)–Quantil der Standardnormalverteilung, i.Z. uα/2. Damit erhalten
wir
uα/2σ
uα/2σ
→n∈N 1 − α
P
µ ∈ µ̂n − √ , µ̂n + √
n
n
und
uα/2σ
uα/2σ
In(α) := µ̂n − √ , µ̂n + √
n
n
heißt Konfidenzintervall (für µ) zum (asymptotischen) Niveau 1 − α.
Beachte, dass, wenn P ∗ fi = N (µ, σ 2), d.h. fi selbst normalverteilt, i = 1, 2, . . . ,
aus dem Faltungstheorem der Normalverteilung 12.6 sofort folgt:
−1
P (µ ∈ In(α)) = 1 − α.
298
Literatur
[1] Georgii, H.–G. (2002). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und
Statistik. De Gruyter, Berlin.
[2] Gänssler, P. und Stute, W. (1977). Wahrscheinlichkeitstheorie. Springer, Heidelberg.
[3] Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und Statistik. 6.
Auflage. Vieweg, Braunschweig.
[4] Walter, W. (1991). Analysis 2. 3. Auflage. Springer, Heidelberg.
299