stochastik I Folien - Mathematische Statistik

Werbung
Stochastik I
Lehrstuhl für Mathematische Statistik
Universität Würzburg
Prof. Dr. Michael Falk
Inhaltsverzeichnis
1 Das Kolmogoroffsche Axiomensystem
1
2
5
Erste Folgerungen aus dem Axiomensystem
3 Grundlagen der Kombinatorik
22
4 Vermischte Aufgaben
33
5 Bedingte Wahrscheinlichkeiten
40
6 Unabhängigkeit
57
7 Zufallsvariablen
86
8 Integrationstheorie
114
9 Verteilungen und ihre Charakterisierungen
160
10 Momente
191
11 Gesetze der großen Zahlen
210
12 Der Zentrale Grenzwertsatz
253
2
1
Das Kolmogoroffsche Axiomensystem
[A. N. Kolmogoroff (1933)] Seit Euklid werden bei einem rein geometrischen Aufbau
der Geometrie die Grundbegriffe Punkt“ und Gerade“ nicht explizit definiert, sondern
”
”
axiomatisch eingeführt.
1. Man vermittelt zunächst bewusst eine vage Vorstellung von dem, was mit den
Grundbegriffen gemeint ist, um die Theorie später anwenden zu können ( Ein Punkt
”
ist, was keinen Teil hat“, Eine Gerade ist eine Linie, die gleich liegt mit den
”
Punkten auf ihr selbst“ (Euklid)). Die vage Vorstellung wird dann im Verlauf der
Beschäftigung mit der Theorie zwangsläufig immer präziser.
2. Man beschreibt mittels Axiomen“, welche Beziehungen zwischen den Grundbegrif”
fen bestehen.
Analog gehen wir nun bei der Axiomatisierung der Stochastik vor. Im ersten Axiom
fordern wir die Existenz von Wahrscheinlichkeiten.
Axiom 1’ Ist Ω die Menge der möglichen Ergebnisse eines Experimentes (d.h. genau
ein ω ∈ Ω tritt bei der Durchführung des Experimentes ein), so ist jeder Teilmenge
A ⊂ Ω eine reelle Zahl P (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die
den Grad der Sicherheit angibt, mit dem A eintritt.
Axiom 2 P (Ω) = 1.
Axiom 3 (σ–AdditivitätS von P ) FürPeine Folge A1, A2, . . . paarweise disjunkter
Teilmengen von Ω gilt: P ( n∈N An) = n∈N P (An).
Das System 1’,2,3 ist zu einschränkend, wie der folgende Satz zeigt.
Satz (G. Vitali 1905) Es existiert kein P zu Ω = [0, 1), welches die Axiome
1’,2 und 3 erfüllt und zusätzlich translationsinvariant ist, d.h. P (Ac) = P (A) für
Ac := {a + c (mod 1) : a ∈ A}, c ≥ 0.
Beweis: Siehe Übungen.
2
2
Axiom 1’ wird nun abgeschwächt, indem P nicht mehr auf der gesamten Potenzmenge P(Ω) = {A : A ⊂ Ω} definiert wird.
Axiom 1 Ist Ω die Menge der möglichen Ergebnisse eines Experimentes, so ist
einigen (nicht notwendig allen) Teilmengen von Ω, Ereignisse genannt, eine reelle Zahl
P (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die den Grad der Sicherheit
angibt, mit dem A eintritt.
ˆ Ω ist ein Ereignis.
ˆ Das Komplement Ac = Ω\A eines Ereignisses A ist ein Ereignis.
ˆ Der Durchschnitt von zwei Ereignissen ist ein Ereignis.
ˆ Die Vereinigung von abzählbar vielen disjunkten Ereignissen ist ein Ereignis.
Definition 1.1 Ω sei eine nichtleere Menge. Dann heißt A ⊂ P(Ω) (= Potenzmenge
von Ω) σ–Algebra über Ω:⇔
3
1. Ω ∈ A,
2. A ∈ A ⇒ Ac ∈ A,
3. A, B ∈ A ⇒ A ∩ B ∈ A
4. Ai ∈ A, i ∈ N, Ai ∩ Aj = ∅ für i 6= j ⇒
S
i∈N Ai
∈ A.
Definition 1.2 (Ω, A) heißt messbarer Raum :⇔ A ist σ–Algebra über nichtleerer
Menge Ω.
Definition 1.3 (Ω, A) sei messbarer Raum. Eine Funktion P : A → R+ = [0, ∞),
die die Axiome 2 und 3 erfüllt, heißt Wahrscheinlichkeitsmaß. Das Tripel (Ω, A, P )
heißt in diesem Fall Wahrscheinlichkeitsraum.
4
2
Erste Folgerungen aus dem Axiomensystem
Satz 2.1 (Ω, A) messbarer Raum, An ∈ A, n ∈ N. Dann gilt:
S
(i) n∈N An ∈ A,
T
(ii) n∈N An ∈ A,
(iii)
lim sup An := {ω ∈ Ω : ω liegt in ∞ vielen An}
n∈N
=
∞ [
\
m=1 n≥m
5
An ∈ A,
(iv)
lim inf An := {ω ∈ Ω : ω liegt in fast allen An}
n∈N
=
∞ \
[
An ∈ A,
m=1 n≥m
Beweis:
(i) Setze B1 := A1, Bn := An\(A1 ∪ . S
. . ∪ An−1) =SAn ∩ Ac1 ∩ . . . ∩ Acn−1 ∈ A. Bn,
n ∈ N, sind paarweise disjunkt mit n∈N An = n∈N Bn ∈ A.
(ii)
\
n∈N
An =
\
An
c c
=
[
Acn
c
∈ A.
n∈N
n∈N
(iii) und (iv) folgen unmittelbar aus (i), (ii).
6
2
Korollar 2.2 Ω 6= ∅, A ⊂ P(Ω). Dann: A ist σ–Algebra ⇔
(i) Ω ∈ A,
(ii) A ∈ A ⇒ Ac ∈ A,
(iii) An ∈ A, n ∈ N ⇒
S
n∈N An
∈ A.
Satz 2.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum. Dann gilt:
(i) P (∅) = 0,
(ii) P (A1 ∪ . . . ∪ An) =
Pn
i=1 P (Ai ),
falls A1, . . . , An paarweise disjunkt,
(iii) 0 ≤ P (A) ≤ 1 stets,
(iv) A ⊂ B (∈ A) ⇒ P (A) ≤ P (B) (Monotonie von P ),
(v) P (Ac) = 1 − P (A).
7
Beweis:
(i)
∅ = ∅ ∪ ∅ ∪ ...
⇒ P (∅) = P (∅) + P (∅) + . . .
⇒ P (∅) = 0.
(ii) Wegen P (∅) = 0 gilt:
P (A1 ∪ . . . ∪ An) = P (A1 ∪ . . . ∪ An ∪ ∅ ∪ . . .)
= P (A1) + . . . + P (An) + 0 + . . .
(v)
Ω = A ∪ Ac ⇒ 1 = P (Ω) = P (A) + P (Ac)
⇒ P (Ac) = 1 − P (A).
8
(iii) Folgt unmittelbar aus (v):
0 ≤ P (A) = 1 − P (Ac) ≤ 1.
| {z }
≥0
(iv)
⇒(ii)
B = A ∪ (B\A) = A ∪ (B ∩ Ac)
P (B) = P (A) + P (B\A) ≥ P (A).
2
Im folgenden sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A1, . . . , An ∈ A. |M |
bezeichnet die Anzahl der Elemente einer Menge M (Mächtigkeit von M ).
9
Satz 2.4 (Allgemeiner Additionssatz)
!
X
P (A1 ∪ . . . ∪ An) =
=
(−1)|T |−1P
∅6=T ⊂{1,...,n}
n
X
k−1
(−1)
\
Ai
i∈T
Sk
k=1
mit
Sk :=
X
P A i1 ∩ A i2 ∩ · · · ∩ A ik .
1≤i1 <i2 <...<ik ≤n
Beispiel: Im Fall n = 2 ergibt sich
P (A1 ∪ A2) = P (A1) + P (A2) − P (A1 ∩ A2).
10
Im Fall n = 3 ergibt sich
P (A1 ∪ A2 ∪ A3)
= P (A1) + P (A2) + P (A3)
−P (A1 ∩ A2) − P (A1 ∩ A3) − P (A2 ∩ A3)
+P (A1 ∩ A2 ∩ A3).
Beweis: Mittels vollständiger Induktion; ”+” bedeutet Vereinigung disjunkter Mengen.
11
Der Fall n = 2:
A1 ∪ A2 = A1 + (A2\A1),
A2 = (A2 ∩ A1) + (A2\A1)
⇒ P (A1 ∪ A2) = P (A1) + P (A2\A1),
P (A2) = P (A2 ∩ A1) + P (A2\A1)
⇒ P (A1 ∪ A2) − P (A1) = P (A2) − P (A2 ∩ A1)
⇒ Behauptung für den Fall n = 2.
12
Der Induktionsschritt n → n + 1:
P ((A1 ∪ . . . ∪ An) ∪ An+1)
= P ((A1 ∪ . . . ∪ An)) + P (An+1)
−P ((A1 ∩ An+1) ∪ (A2 ∩ An+1) ∪ . . .
∪(An ∩ An+1))
!
X
\
|T |−1
Ai + P (An+1)
=
(−1)
P
i∈T
∅6=T ⊂{1,...,n}
!
−
X
(−1)
|T |−1
\
P
Ai ∩ An+1
i∈T
∅6=T ⊂{1,...,n}
!
X
=
(−1)
|T |−1
\
P
Ai
+ P (An+1)
i∈T
∅6=T ⊂{1,...,n+1}, n+16∈T
!
X
+
(−1)
13
|T |−1
i∈T
T ⊂{1,...,n+1}, n+1∈T, T ∩{1,...,n}6=∅
!
=
X
(−1)
|T |−1
P
\
P
\
Ai .
Ai
2
Satz 2.5 Sei Bk das Ereignis, dass genau k der Ereignisse A1, . . . , An eintreten, d.h.
ω ∈ Bk ⇔ ω ∈ Ai für genau k der Indizes i = 1, . . . , n. Dann gilt:
!
X
\
|U |
|U |−k
P (Bk ) =
(−1)
P
Ai
k
i∈U
U ⊂{1,...,n}, |U |≥k
n X
m
=
(−1)m−k Sm,
k
m=k
Sm wie in Satz 2.4, S0 := 1.
c
Bemerkung B0 = (A1∪. . .∪An) ⇒ P (B0) = 1−P (∪1≤i≤nAi) =2.4
14
Pn
m
(−1)
Sm .
m=0
Beweis:
!
Bk =
X
\
S⊂{1,...,n}, |S|=k
i∈S
15
Ai
!!
∩
\
i∈S c
Aci
,
(disjunkte Zerlegung von Bk ). Es folgt:
P (Bk )
!
X
\
=
P
Ai ∩
!!
\
i∈S c
!c
i∈S
S⊂{1,...,n}, |S|=k
(
X
=
\
1−P
Ai
∪
(
X
!c!
"
1− P
\
Ai
i∈S
S⊂{1,...,n}, |S|=k
!
+
X
(−1)
|T |−1
∅6=T ⊂S c
P
\
Ai
i∈T
c


[
\
 Aj 16 ∩ Ai
−P 

c


i∈S
j∈S
!!)
[
i∈S c
i∈S
S⊂{1,...,n}, |S|=k
=2.4
Aci
Ai
(
X
=
S⊂{1,...,n}, |S|=k
P
!
\
Ai
i∈S



 X

−
(−1)|T |−1P

c
\ 


 Ai 


i∈T
∅6=T ⊂S
| {z }

 =C



c





\ 
X
\

|T |−1

 Aj  ∩
Ai 
−
(−1)
P 
 ;


 j∈S
i∈T
∅6=T ⊂S c


| {z } | {z }

=Dc
=C
wegen P (C) − P (Dc ∩ C) = P (C ∩ D) folgt
17
(
=
X
P
S⊂{1,...,n}, |S|=k
!
\
Ai
i∈S






!




\
X
\


Ai 
−
(−1)|T |−1P  Aj  ∩


c
i∈T
j∈S
∅6=T ⊂S




|
{z
}

T

= i∈S∪T Ai
!
X
X
\
|T |
=
(−1) P
Ai

S⊂{1,...,n}, |S|=k T ⊂S c
i∈S∪T
!
=
X
X
(−1)
S⊂{1,...,n}, |S|=k U ⊃S, U ⊂{1,...,n}
18
|U |−k
P
\
i∈U
Ai .
|U |−k
T
Der Summand (−1)
P
i tritt hierbei so oft auf, wie es k–elementige
i∈U A
Teilmengen S von U gibt, also |Uk | –mal. Hieraus folgt der erste Teil der Behauptung
sowie
!
n
X
X m
\
m−k
=
(−1)
P
Ai .
k
i∈U
m=k
U ⊂{1,...,n}, |U |=m
|
{z
}
=Sm
2
Satz 2.6 Sei Ck das Ereignis, dass mindestens k der Ereignisse A1, . . . , An eintreten.
Dann gilt:
n X
m−1
P (Ck ) =
(−1)m−k Sm.
k−1
m=k
19
Beweis:
P (Ck ) =
n
X
P (Bj )
j=k
n X
n X
m
(−1)m−j Sm
=2.5
j
j=k m=j


n
m
X
X
m

=
(−1)m−j  Sm.
j
m=k
j=k
20
n
k
n−1
k
n−1
k−1
Für die innere Summe folgt aus der Beziehung
=
+
m
m
m
−
+
− ...
m
m −1 m − 2
m
+(−1)m−k
k
m−1
m−1
m−1
=
+
−
m
m−1
m−1
| {z } |
{z
}
=0
=0
m−1
m−k m − 1
+ . . . + (−1)
−
m−2
k
|
{z
}
=0
m
−
1
+(−1)m−k
1
k −
m−1
.
= (−1)m−k
21
k−1
:
2
Bemerkung Der Allgemeine Additionssatz 2.4 ist in 2.6 enthalten (k = 1).
Bemerkung Zur Geschichte der Stochastik: Briefwechsel (1654) zwischen P. Fermat
und B. Pascal (u.a. wg. Chevalier de Méré); inzwischen stürmische Entwicklung (A.N.
Kolmogoroff (1933)−→ . . .)
3
Grundlagen der Kombinatorik
Definition 3.1 Ein Wahrscheinlichkeitsraum (Ω, A, P ) heißt Laplace–Experiment :⇔
|Ω| < ∞ und alle einelementigen Teilmengen von Ω sind Ereignisse mit der gleichen
Wahrscheinlichkeit.
22
Satz 3.2 (Ω, A, P ) Laplace–Experiment, A ⊂ Ω. Dann gilt:
|A|
P (A) =
|Ω|
Anzahl der für A günstigen Ausgänge
=
.
Anzahl aller möglichen Ausgänge
Satz 3.3 (Additionsprinzip der Kombinatorik) Für disjunkte endliche Mengen A1, A2
gilt:
|A1 + A2| = |A1| + |A2|.
Korollar Für disjunkte endliche Mengen A1, . . . , Ak gilt:
|A1 ∪ . . . ∪ Ak | = |A1| + . . . + |Ak |.
23
Satz 3.4 (Multiplikationssatz der Kombinatorik) A1 sei eine Menge der Mächtigkeit n1 ∈ Z+ = N ∪ {0}, B2 eine beliebige Menge und n2 ∈ Z+. Jedem a1 ∈ A1 sei
genau eine n2–elementige Teilmenge B(a1) ⊂ B2 zugeordnet, und es sei
A2 := {(a1, a2) : a1 ∈ A1, a2 ∈ B(a1)}.
Dann gilt: |A2| = n1n2.
Beweis: Folgt aus 3.3.
2
Korollar 3.5 |A1| = n1 ∈ Z+, B1, . . . , Bn seien beliebige Mengen und n2, . . . , nk ∈
Z+. Für i = 1, . . . , k − 1 sei jedem i–Tupel (a1, . . . , ai) ∈ Ai eine ni+1–elementige
Teilmenge B(a1, . . . , ai) ⊂ Bi+1 zugeordnet, und es sei
Ai+1 := {(a1, . . . , ai, ai+1) : (a1, . . . , ai) ∈ Ai,
ai+1 ∈ B(a1, . . . , ai)},
24
(Definition durch Induktion (Rekursion)). Dann gilt:
|Ak | = n1n2 . . . nk .
Korollar |A1 × A2 × . . . × Ak | = n1n2 · · · nk , falls |Ai| = ni, i = 1, . . . , k.
k
|
=
|A
|=
Obiges Korollar ergibt speziell für Ai = A, i = 1, . . . , k: | A
×
.
.
.
×
A
{z
}
|
k mal
k
|A| .
Die Menge Ak aller k–Tupel von Elementen aus A heißt geordnete Probe zu A vom
Umfang k mit Wiederholung.
Satz 3.6 Es gibt nk geordnete Proben zu einer n–elementigen Menge vom Umfang k
mit Wiederholung.
A
Beispiel
A,
B
endliche
Mengen,
B
:= Menge aller Abbildungen von A nach B.
A
Dann: B = |B||A|.
25
Korollar 3.7 Eine n–elementige Teilmenge besitzt 2n verschiedene Teilmengen.
Beweis: A sei eine n–elementige Menge, dann: |{0, 1}A| = 2|A|; |Menge aller Abbildungen von A → {0, 1}| = |P(A)|.
2
Ein k–Tupel (a1, . . . , ak ) ∈ Ak mit ai 6= aj für j 6= i heißt geordnete Probe aus A
vom Umfang k ohne Wiederholung.
Satz 3.8 Zu einer n–elementigen Menge gibt es (n)k := n(n − 1) · · · (n − k + 1)
geordnete Proben vom Umfang k ≥ 1 ohne Wiederholung.
Beweis: Für eine geordnete Probe (a1, . . . , ak ) vom Umfang k ohne Wiederholung
gilt: a1 ∈ A, a2 ∈ A\{a1}, a3 ∈ A\{a1, a2}, . . . , ak ∈ A\{a1, . . . , ak−1}. Aus dem
Multiplikationsprinzip, genauer 3.5, folgt nun die Behauptung.
2
26
Speziell für k = n erhalten wir
Satz 3.9 n verschiedene Elemente können auf (n)n = n! verschiedene Arten angeordnet werden, d.h. es existieren n! Permutationen einer n–elementigen Menge.
Eine ungeordnete Probe vom Umfang k mit bzw. ohne Wiederholung erhalten wir,
indem wir geordnete Proben, die sich nur in der Reihenfolge unterscheiden, identifizieren. Die ungeordneten Proben vom Umfang k ohne Wiederholung sind demnach
einfach die k–elementigen Teilmengen von A.
Satz 3.10 Eine n–elementige Menge besitzt
n
(n)k
n!
=
=
k
k!
k!(n − k)!
verschiedene k–elementige Teilmengen.
27
Beweis: Eine geordnete Probe vom Umfang k ohne Wiederholung besteht aus einer
k–elementigen Teilmenge und einer Anordnung. Es gibt k! verschiedene Möglichkeiten
der Anordnung (3.9), also (3.8):
(n)k = Anzahl der k–elementigen Teilmengen × k!.
Hieraus folgt die Behauptung.
2
Korollar 3.11 (i) Es gibt nk Möglichkeiten, k unterscheidbare Kugeln auf n unterscheidbare Urnen zu verteilen.
(ii) Es gibt (n)k Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare
Urnen zu verteilen, dass keine Urne mehr als eine Kugel enthält.
n
(iii) Es gibt k Möglichkeiten, k ununterscheidbare Kugeln so auf n unterscheidbare
Urnen zu verteilen, dass keine Urne mehr als eine Kugel enthält.
28
Satz 3.12 Es gibt
k
k!
:=
k1, k2, . . . , kn
k1!k2! · · · kn!
Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen,
dass genau ki Kugeln in die Urne Nummer i kommen (ki ≥ 0, i = 1, . . . , n; k1 + k2 +
. . . + kn = k).
Beweis: Es gibt
k
Möglichkeiten der k1
k1
k − k1
Möglichkeiten der k2
k2
.. ..
29
Kugeln für Urne 1
Kugeln für Urne 2
..
k − k1 − . . . − kn−2
kn−1
Möglichkeiten der kn−1
Kugeln für Urne n − 1.
Ausmultiplikation liefert nun:
Möglichkeiten
insgesamt
k
k − k1
k − k1 − . . . − kn−2
=
···
k1
k2
kn−1
k!
(k − k1)!
=
×
× ...
k1!(k − k1)! k2!(k − k1 − k2)!
(k − k1 − . . . − kn−2)!
×
kn−1!(k − k1 − . . . − kn−1)!
k!
=
.
k1! · · · kn!
2
30
k
k1 ,...,kn
heißen Polynomialkoeffizienten. Wegen
Bemerkung Die Größen
n
n
k,n−k verallgemeinern sie die Binomialkoeffizienten k .
Korollar 3.13
(a1 + . . . + an)k
X
=
k1 ≥0,...,kn ≥0, k1 +...+kn =k
k
ak11 ak22 · · · aknn .
k1, . . . , kn
Korollar 3.14 (i)
n X
n
k=0
k
31
= 2n.
n
k
=
(ii)
r X
n
m
m+n
=
.
k
r−k
r
k=0
(iii)
n 2
X
n
k=0
k
=
2n
.
n
Beweis:
(i) Zerlegung der Potenzmenge einer n–elementigen Menge gemäß Mächtigkeit der
Teilmenge; 3.7 ⇒ Behauptung.
m+n
(ii) r = Anzahl der r–elementigen Teilmengen von {1, . . . , n, n + 1, . . . , m + n}.
Die Anzahl der Möglichkeiten, hierbei k Elemente
aus
{1, . . . , n} und somit r − k
m
aus {n + 1, . . . , n + m} auszuwählen, ist nk r−k
.
32
(iii) Folgt mit m = r = n aus (ii) wegen
n 2
k
=
n
k
n
n−k
.
2
4
Vermischte Aufgaben
Aufgabe 4.1 Aus einer Schulklasse mit 20 Schülern wird eine Woche lang (5 Tage)
jeden Morgen ein Schüler zufällig ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass
mindestens 1 Schüler mehrmals ausgewählt wird?
Lösung: Laplace–Experiment mit Ω = {1, . . . , 20}5, |Ω| = 205; ungünstige Fälle:
alle geordneten Proben vom Umfang 5 ohne Wiederholung, d.h. (20)5. Also:
gesuchte Wahrscheinlichkeit
205 − (20)5
=
205
20 × 19 × . . . × 16
= 1−
= 0, 4186.
5
20
2
Aufgabe 4.2 Sack mit N Nüssen, darunter S schlechte Nüsse. Gezogen wird eine
Stichprobe vom Umfang n. Wie groß ist die Wahrscheinlichkeit p(s), dass in der Stichprobe genau s schlechte Nüsse sind, s = 0, 1, . . . , n?
34
.
Lösung: {1, . . . , S} = Menge der schlechten Nüsse
von {1, . . . , N }. Laplace–Experiment
mit Ω = {A ⊂ {1, . . . , N } : |A| = n}, |Ω| = Nn . Dann:
p(s)
=
=
|A ∈ Ω mit |A ∩ {1, . . . , S}| = s|
N
n
S N −S
s
n−s
N
n
=: HN,S,n(s).
HN,S,n heißt Hypergeometrische Verteilung zu den Parametern N , S, n (Qualitätskontrolle).
2
Aufgabe 4.3 Skatspiel: 32 Karten, 3 Spieler, je 10 Karten; Skat“ mit 2 Karten. Es
”
35
gibt vier Buben.
(i) Spieler A habe 2 Buben. Wie groß ist die Wahrscheinlichkeit, dass die Spieler B
und C jeweils 1 Buben besitzen?
22
Lösung: Es gibt 10,10,2 mögliche Verteilungen der 22 Karten, die A nicht besitzt,
auf B,C und den Skat. Diese
sind gleich
wahrscheinlich. Die Anzahl der günstigen
20
2
Möglichkeiten beträgt 9,9,2
× 1,1,0
. Also beträgt die gesuchte Wahrscheinlichkeit
20
2
100
9,9,2 × 1,1,0
.
=
22
231
10,10,2
2
(ii) Gesucht: Wahrscheinlichkeit, dass einer der beiden Spieler beide Buben besitzt.
36
Lösung:
2×
2
20
×
2,0,0
8,10,2
22
10,10,2
90
=
.
231
(iii) Gesucht: Wahrscheinlichkeit, dass beide Buben im Skat liegen.
Lösung:
2
20
1
10,10,0 × 0,0,2
=
.
22
231
10,10,2
(iv) Gesucht: Wahrscheinlichkeit, dass genau 1 Bube im Skat liegt:
Lösung:
20
2
2 × 9,10,1 × 1,0,1
40
=
.
22
231
10,10,2
37
2
2
2
(v) Bilderschecks in Warenprodukten: k Warenpackungen (Cornflakes). In jeder Packung
ist genau 1 von n möglichen Sammelmarken (etwa n = 11 Fußballspieler).
Annahme: Laplace–Experiment, es gibt nk Möglichkeiten der Verteilung. Gesucht:
Wahrscheinlichkeit pm, dass wenigstens m Sammelmarken fehlen.
Lösung: Ω = Menge aller möglichen Verteilungen von k unterscheidbaren Kugeln
.
.
(= Packungen) auf n unterscheidbare Urnen (= Sammelmarken). |Ω| = nk .
Ai := Menge aller Verteilungen, bei denen die i–te Urne leer ist.
Für 1 ≤ i1 < . . . < ir ≤ n gilt:
(n − r)k
P Ai1 ∩ . . . ∩ Air =
.
k
n
38
Es folgt mit der Bezeichnung von 2.4
X
Sr =
P A i1 ∩ . . . ∩ A ir
1≤i <...<i ≤n
1 r
n (n − r)k
=
r
nk
und damit aus 2.6
pm = P (Cm)
n
X
n (n − r)k
r−m r − 1
.
=
(−1)
k
n
m
−
1
r
r=m
2
39
5
Bedingte Wahrscheinlichkeiten
(Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0.
Es sei bekannt, dass das Ereignis B eingetreten ist.
Neues Experiment: Ergebnismenge Ω0 = B.
Heuristisch: Wahrscheinlichkeit, dass A eintritt, wenn bereits bekannt ist, dass B
eingetreten ist, ist P (A ∩ B)/P (B).
Definition 5.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, A ∈ A und B ∈ A mit
P (B) > 0. Dann heißt
P (A ∩ B)
P (A|B) := PB (A) :=
P (B)
bedingte Wahrscheinlichkeit von A unter (der Bedingung) B.
40
Beispiel 5.2 Für die beiden ersten Kinder einer Familie seien die 4 Geschlechtskombinationen J − J, M − M , J − M und M − J gleich wahrscheinlich. Von einer
Familie sei bekannt, dass wenigstens eines der Kinder ein Junge ist. Wie groß ist die
Wahrscheinlichkeit, dass diese Familie sogar zwei Jungen hat?
41
.
.
Lösung: A1 := 1. Kind ist ein Junge, A2 := 2. Kind ist ein Junge. Damit:
P (A1 ∩ A2|A1 ∪ A
T2)
P ((A1 ∩ A2) (A1 ∪ A2))
=
P (A1 ∪ A2)
P (A1 ∩ A2)
=
P (A1 ∪ A2)
P (A1 ∩ A2)
=
P (A1) + P (A2) − P (A1 ∩ A2)
=
1
2
1
4
1
2
+ − 14
1
= .
3
2
42
Satz 5.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0. Die bedingte
Wahrscheinlichkeit PB : A → R+ ist eine Wahrscheinlichkeit, d.h. PB erfüllt die
Axiome 1,2,3.
Beweis: Trivial, Axiome nachprüfen.
2
Satz 5.4 A1, . . . , An Ereignisse mit P (A1 ∩ . . . ∩ An−1) > 0. Dann:
P (A1 ∩ . . . ∩ An)
= P (A1)P (A2|A1)P (A3|A1 ∩ A2) × . . .
×P (An|A1 ∩ . . . ∩ An−1).
Beweis: n = 2 : P (A1 ∩ A2) = P (A1)P (A2|A1);
43
n→n+1:
P (A1 ∩ . . . ∩ An+1)
=
P (A1 ∩ . . . ∩ An)P (An+1|A1 ∩ . . . ∩ An)
=Ind. V. P (A1)P (A2|A1) × · · ·
×P (An+1|A1 ∩ . . . ∩ An).
2
Beispiel 5.5 16 weiße, 16 schwarze Schachfiguren liegen im Kasten. 3 Figuren werden
zufällig ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass alle 3
Figuren schwarz sind?
44
Lösung: Ai sei das Ereignis, dass die i–te Figur schwarz ist. Dann:
P (A1 ∩ A2 ∩ A3)
= P (A1)P (A2|A1)P (A3|A1 ∩ !
A2 )
16
16 15 14
3
.
× ×
= 32
=
32 31 30
3
2
Satz 5.6 (Totale Wahrscheinlichkeit)
(Ω, A, P ) Wahrscheinlichkeitsraum, B1, . . . , Bn
Pn
seien disjunkte Ereignisse mit i=1 Bi = Ω, P (Bi) > 0, i = 1, . . . , n. Dann:
P (A) =
n
X
P (Bi)P (A|Bi),
i=1
45
A ∈ A.
Beweis:
P (A) = P (Ω ∩ A)
!
n
X
= P
(Bi ∩ A)
i=1
=
=
n
X
i=1
n
X
P (Bi ∩ A)
P (Bi)P (A|Bi)
i=1
2
Beispiel 5.7 (Zweistufiges Experiment) In Urne 1 liegen 2 weiße und 8 schwarze
Kugeln, in Urne 2 liegen 4 weiße und 6 schwarze Kugeln.
46
Zunächst wird gewürfelt. Bei einer 5 oder 6 erfolgt eine Ziehung aus Urne 1, bei
einer 1-4 wird aus Urne 2 gezogen.
Wie groß ist die Wahrscheinlichkeit, eine weiße Kugel zu ziehen?
.
Lösung: A = eine weiße Kugel wird gezogen,
.
B1 = 5 oder 6 beim Würfeln,
.
B2 = 1–4 beim Würfeln. Dann:
P (A) = P (B1)P (A|B1) + P (B2)P (A|B2)
1 1 2 2
1
= × + × = .
3 5 3 5
3
2
Satz 5.8 (Bayessche Formel) Zusätzlich zu den Voraussetzungen von Satz 5.6 gel47
te P (A) > 0. Dann gilt:
P (Bi)P (A|Bi)
P
P (Bi|A) = n
.
P
(B
)P
(A|B
)
j
j
j=1
Beweis:
P (A ∩ Bi)
P (A)
P (Bi)P (A|Bi)
= Pn
.
j=1 P (Bj )P (A|Bj )
P (Bi|A) =
2
.
Beispiel 5.9 (Fortsetzung von Beispiel 5.7) A = Ziehen einer weißen Kugel, P (A) =
1/3.
48
Wie groß ist die Wahrscheinlichkeit von Bi, i = 1, 2, wenn bekannt ist, dass eine
weiße Kugel gezogen wurde, d.h. wie groß ist die Wahrscheinlichkeit, dass eine weisse
Kugel aus Urne i stammt?
Lösung:
P (B1)P (A|B1)
P (B1|A) =
P (B1)P (A|B1) + P (B2)P (A|B2)
1/3 × 1/5
1
=
=
1/3 × 1/5 + 2/3 × 2/5
5
4
⇒ P (B2|A) = .
5
P (Bi|A) heißt a posteriori Wahrscheinlichkeit von Bi, P (Bi) heißt a priori Wahrscheinlichkeit
von Bi.
2
49
.
Beispiel 5.10 (Überprüfung, ob radikal) R := Kandidat ist radikal,
.
B := Kandidat wird für radikal erklärt.
Eine Überprüfung ergebe mit der Wahrscheinlichkeit 0,95 ein richtiges Ergebnis, d.h.
P (B|R) = 0, 95; P (B c|Rc) = 0, 95.
Es sei P (R) = 0, 005.
Wie groß ist die Wahrscheinlichkeit, das ein als radikal erklärter Kandidat tatsächlich
radikal ist?
50
Lösung: Gesucht:
P (R ∩ B)
P (B)
P (R)P (B|R)
=
P (R)P (B|R) + P (Rc)P (B|Rc)
5/1000 × 95/100
=
5/1000 × 95/100 + 995/1000 × 5/100
95
=
(!).
1090
P (R|B) =
2
Beispiel 5.11 (Brustkrebs-Screening durch Mammographie) 1
1
Aus: Christian Hesse (2010). Warum Mathematik glücklich macht. C.H. Beck, München, S. 199ff.
51
Die Wahrscheinlichkeit, dass eine 50jährige Frau Brustkrebs hat, ist bei etwa 0,8%
anzusiedeln.
Die Wahrscheinlichkeit, dass das Mammogramm einer Patientin positiv ist, wenn sie
Brustkrebs hat, liegt bei etwa 90% (sog. Sensitivität des Untersuchungsverfahrens).
Die Wahrscheinlichkeit, dass ein durchgeführtes Mammogramm positiv ist, wenn die
Patientin keinen Brustkrebs hat, liegt bei etwa 7% (sog. Falsch-Positiv-Rate).
Angenommen, eine 50-jährige Frau unterzieht sich einer Mammographie und der
Befund ist positiv. Wie wahrscheinlich ist es, dass die Frau tatsächlich Brustkrebs hat?
.
.
Lösung: B := Brustkrebserkrankung, M := Mammogramm ist positiv. Dann:
8
90
7
P (B) =
, P (M | B) =
, P (M | B c) =
.
1000
100
100
52
Gesucht:
P (B | M ) =
=
P (B)P (M | B)
P (B)P (| B) + P (B c)P (M | B c)
8 90
1000 100
8 90
992 7
+
1000 100
1000 100
720
7664
9
≈
(!).
100
=
2
Beispiel 5.12 (Laplacescher Folgesatz) In einer Urne liegen N Kugeln, W weiße
und N − W schwarze. W sei unbekannt; alle N + 1 möglichen Mischungsverhältnisse
besitzen die gleiche Wahrscheinlichkeit 1/(N + 1).
53
Es werden nacheinander n + 1 Kugeln ohne Zurücklegen gezogen.
Wie groß ist die Wahrscheinlichkeit, dass die n + 1-te Kugel weiß ist, wenn die ersten
n Kugeln weiß gewesen sind?
.
Lösung: Ai := nur weiße Kugeln unter den ersten i Ziehungen.
Offenbar gilt A1 ⊃ A2 ⊃ . . . und gesucht ist
P (An+1 ∩ An) P (An+1)
P (An+1|An) =
=
.
P (An)
P (An)
54
Wir erhalten:
P (An) =
N
X
P {W = w}P (An|{W = w})
w=0
N
X
1
=
N +1
w=0
=
1
(N + 1)
1
×
=
N +1
1
.
=
n+1
w
× Nn n
N X
N
n
w=n
N +1
n+1
N
n
Behauptung:
55
w
n
N X
w
w=n
n
=
N +1
n+1
N +1
.
n+1
Denn:
ist die Anzahl der Möglichkeiten, aus der Menge
{1, 2, . . . , N + 1} eine
n+1–elementige Teilmenge auszuwählen. Dabei gibt es wn Möglichkeiten, die Auswahl
so zu treffen, dass w + 1 das größte der ausgewählten Elemente ist, w = n, . . . , N .
Insgesamt erhalten wir somit:
n+1
P (An+1|An) =
n+2
unabhängig von N !
2
56
6
Unabhängigkeit
Gegeben ist ein Würfel, A := {2, 4, 6}, B := {5, 6}, P (A) = 1/2.
P (A|B) =
P (A ∩ B) 1/6 1
=
= = P (A),
P (B)
2/6 2
d.h. die zusätzliche Information des Eintretens von B hat in diesem speziellen Fall
keinen Einfluss auf die Wahrscheinlichkeit des Eintretens von A.
Definition 6.1 A, B Ereignisse mit P (B) > 0; dann:
A unabhängig von B :⇔ P (A) = P (A|B).
57
Satz 6.2 A, B Ereignisse mit P (A) > 0 und P (B) > 0; dann:
A unabhängig von B
⇔ B unabhängig von A
⇔ P (A ∩ B) = P (A)P (B).
Beweis:
A unabhängig von B
⇔ P (A) = P (A ∩ B)/P (B)
⇔ P (B) = P (A ∩ B)/P (A)
⇔ P (A ∩ B) = P (A)P (B).
2
58
Definition 6.3 A, B beliebige Ereignisse, dann:
A, B unabhängig :⇔ P (A ∩ B) = P (A)P (B).
Satz 6.4 A, B unabhängig, dann gilt:
ˆ Ac, B sind unabhängig,
ˆ A, B c sind unabhängig,
ˆ Ac, B c sind unabhängig.
Beweis:
P (Ac ∩ B) =
=
=
=
P (B) − P (A ∩ B)
P (B) − P (A)P (B)
P (B)(1 − P (A))
P (B)P (Ac).
59
2
Satz 6.5 A, B seien unabhängig; A, C seien unabhängig; B ∩ C = ∅. Dann gilt:
A, B ∪ C sind unabhängig.
Beweis:
P (A ∩ (B ∪ C)) =
=
=
=
P ((A ∩ B) + (A ∩ C))
P (A ∩ B) + P (A ∩ C)
P (A)P (B) + P (A)P (C)
P (A)P (B ∪ C).
2
Bemerkung A, B, C paarweise unabhängig 6⇒ P (A ∩ B ∩ C) = P (A)P (B)P (C).
Gegenbeispiele: Siehe Übungen.
60
Definition 6.6 Ω 6= ∅; A ⊂ P(Ω) ist Algebra über Ω :⇔
(i) Ω ∈ A,
(ii) A ∈ A ⇒ Ac ∈ A,
(iii) A, B ∈ A ⇒ A ∪ B ∈ A.
Definition 6.7 ∅ =
6 S ⊂ P(Ω). Dann:
α(S) :=
\
P(Ω)⊃D⊃S, D
D
Algebra
=: kleinste Algebra, die S enthält,
\
σ(S) :=
D
P(Ω)⊃D⊃S, D σ –Algebra
=: kleinste σ–Algebra, die S enthält.
61
Beachte: Der beliebige Durchschnitt von (σ–) Algebren ist wieder eine (σ–) Algebra;
P(Ω) ist eine (σ–) Algebra mit P(Ω) 6= ∅.
Satz 6.8 ∅ 6= S ⊂ P(Ω). Dann: α(S) = Menge aller endlichen, disjunkten Vereinigungen von endlichen Durchschnitten von Mengen aus S oder deren Komplemente,
d.h.
S1 := {S ⊂ Ω : S ∈ S oder S c ∈ S},
S2 := {S1 ∩ . . . ∩ Sn : n ∈ N, Si ∈ S1, i = 1, . . . , n}
S3 := {T1 ∪ . . . ∪ Tn : Tj ∈ S2, j = 1, . . . , n,
paarweise disjunkt, n ∈ N}
⇒ α(S) = S3.
Beweis:
62
1. S3 ⊂ α(S) (trivial, da eine Algebra ∩–stabil, ∪–stabil und Komplement–stabil ist).
2. S3 6= ∅, da S3 ⊃ S2 ⊃ S1 ⊃ S 6= ∅.
3. T ∈ S2 ⇒ T c ∈ S3.
(Denn: T = S1 ∩ . . . ∩ Sn ∈ S2 mit Si ∈ S1 ⇒
T c = S1c ∪ . . . ∪ Snc
= S1c ∪ (S2c\S1c) ∪ S3c\(S1c ∪ S2c) ∪ . . .
c
∪Snc \(S1c ∪ . . . ∪ Sn−1
)
= S1c + (S2c ∩ S1) + (S3c ∩ S1 ∩ S2) + . . .
+(Snc ∩ S1 ∩ . . . ∩ Sn−1) ∈ S3.
4. T1, T2 ∈ S2 ⇒ T1 ∩ T2 ∈ S2 (trivial).
5. U1, U2 ∈ S3 ⇒ U1 = T11 +. . .+T1n1 mit disjunkten T1j ∈ S2, U2 = T21 +. . .+T2n2
63
mit disjunkten T2j ∈ S2
[
⇒ U1 ∩ U2 =
( T1i ∩ T2j ) ∈ S3.
| {z }
i,j ∈S wegen 4.
2
|
{z
}
disjunkte Vereinigung
6. U ∈ S3 ⇒ U = T1 + . . . + Tn, Ti ∈ S2, i = 1, . . . , n, disjunkt ⇒ U c =
T1c ∩ . . . ∩ Tnc ∈ S3 wegen 3. und 5. (Tjc ∈ S3 wegen 3.).
Wegen 2., 5. und 6. ist S3 eine Algebra. Hieraus und aus 1. folgt, dass S3 = α(S). 2
Definition 6.9 A1, . . . , An seien beliebige Ereignisse, dann:
A1, . . . , An (global) unabhängig
:⇔ Ai, B unabhängig für 1 ≤ i ≤ n
und B ∈ α({Aj : j 6= i}).
64
Satz 6.10 A1, . . . , An sind unabhängig ⇔
P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · · · P (Aik )
(1)
für 2 ≤ k ≤ n, 1 ≤ i1 < . . . < ik ≤ n.
Beweis:
⇒“
”
Ai2 ∩ . . . ∩ Aik ∈ α({Aj : j 6= i1})
⇒ Ai1 , Ai2 ∩ . . . ∩ Aik unabhängig
⇒ P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ∩ . . . ∩ Aik )
u.s.w. (Induktion)
⇐“ Es genügt zu zeigen: A1 ist unabhängig von jedem Ereignis aus α({A2, . . . , An}).
”
65
In (1) beliebige der Aij durch Acij ersetzbar (z.B. P (Ai1 ∩ Aci2 ∩ . . . ∩ Aik ) =
P (Ai1 )P (Aci2 ) · · · P (Aik ), siehe 6.4) ⇒
(c)
(c)
P (A1 ∩ Ai2 ∩ . . . ∩ Aik )
(c)
(c)
= P (A1)P (Ai2 ) · · · P (Aik )
(c)
mit Aij = Aij oder Acij ,
d.h. A1 unabhängig von allen Ereignissen aus S2(A2, . . . , An)
⇒6.5 A1 unabhängig von allen Ereignissen aus S3(A2, . . . , An) =6.8 α({A2, . . . , An}).
2
66
Definition 6.11 Ai, i ∈ I, beliebige Ereignisse, dann:
Ai, i ∈ I, unabhängig
:⇔ Ai, G unabhängig für beliebiges
i ∈ I und G ∈ α({Aj : j ∈ I, j 6= i}).
Bemerkung 6.12 (i)
Ai, i ∈ I, unabhängig
⇔ Ai, i ∈ I0 unabhängig
für alle endlichen Teilmengen I0 von I.
(ii) A1, A2, . . . sei eine Folge von Ereignissen, dann:
A1, A2, . . . unabhängig
⇔ A1, . . . , An unabhängig für alle n ∈ N.
67
Beweis:
(i)
⇒“ trivial.
”
⇐“ Nach Satz 6.8 existiert zu jedem G ∈ α({Aj : j 6= i}) ein I0 ⊂ I mit |I0| < ∞
”
und G ∈ α({Aj : j ∈ I0}).
2
Definition 6.13 (i) Gi, i ∈ I, unabhängige Algebren von Ereignissen
:⇔ Gi ist Ereignis–Algebra,
S
i ∈ I, und für jedes i ∈ I ist jedes G ∈ Gi unabhängig
von allen H ∈ α
j6=i Gj .
(ii) Ai, i ∈ I, unabhängige σ–Algebren von Ereignissen
68
:⇔ Ai ist σ–Algebra von Ereignissen,
i∈ I, und für jedes i ∈ I ist jedes A ∈ Ai
S
unabhängig von allen B ∈ σ
j6=i Aj .
Satz 6.14 Ai, i ∈ I unabhängig ⇒ α({Ai}), i ∈ I, unabhängige Algebren.
Beweis:
α({Ai}) = {Ai, Aci, ∅, Ω},
d.h.

α({Aj : j ∈ I, j 6= i}) = α 

[
α({Aj }) .
j6=i
∅ und Ω sind von allen Ereignissen unabhängig.
69
2
Satz 6.15 (Borel–Cantelli Lemma) A1, A2, . . . seien Ereignisse;
A := {ω ∈ Ω : ω ∈ An für unendlich viele n ∈ N}
\ [
Am .
=
n∈N m≥n
Dann gilt:
(i) P (A) = 0, falls
P
< ∞.
(ii) P (A) = 1, falls
P
= ∞ und A1, A2, . . . unabhängig.
n∈N P (An )
n∈N P (An )
Beweis: Es gilt (siehe Übungen):
70
(i)“
”
P (A) = P
\
[
Am
m≥n
n∈N
| {z }
absteigende Folge
!
[
= lim P
Am ,
n∈N
m≥n
wobei
!
P
[
=
Am
m≥n
≤
s. Üb.
als Rest einer konvergenten Reihe.
71
lim P
k∈N
X
m≥n
k
[
!
Am
m=n
P (Am) →n∈N 0
(ii)“
”
c
P (A ) = P
[
\
Acm
m≥n
n∈N
| {z }
aufsteigende Folge
\
c
= lim P
Am
n∈N
= lim P
n∈N
m≥n
\
\
Acm
N ≥n
|n≤m≤N
{z }
absteigende Folge
\
= lim lim P (
Acm
|{z}
n∈N N ∈N
n≤m≤N unabhängig
Y
= lim lim
( 1 − P (Am) )
,
| {z }
n∈N N ∈N
n≤m≤N ≤exp(−P (Am ))
{z
72| }
≤exp
P
− N
m=n P (Am ) →N ∈N 0
denn 1 − x ≤ exp(−x) wegen Taylor–Entwicklung:
x2
exp(−x) = 1 − x + exp(−ϑx) ≥ 1 − x.
{z 2}
|
≥0
2
Satz 6.16 (Fortsetzungssatz) G sei Algebra über Ω, Q S
ein σ–additiver,
P normierter
Inhalt auf G (d.h. Q : G → [0, ∞)Smit Q(Ω) = 1 und Q( n∈N Gn) = n∈N Q(Gn)
für disjunkte Gn ∈ G, n ∈ N mit n∈N Gn ∈ G).
Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß P auf A := σ(G) mit
P/G = Q/G.
Beweis: Siehe Maßtheorie. (Etwa Satz 4.9 im Maßtheorie-Skript (\ ∼falk\downloads\).
2
73
Satz 6.17 G1, G2 seien unabhängige Ereignis–Algebren. Dann sind A1 := σ(G1),
A2 := σ(G2) unabhängige σ–Algebren.
Beweis: Zu zeigen:
∀A1 ∈ A1, ∀A2 ∈ A2 :
P (A1 ∩ A2) = P (A1)P (A2).
Sei G1 ∈ G1 gegeben.
1. Fall: P (G1) = 0. Dann gilt:
0 = P (G
∩ A}2)
| 1 {z
⊂G1
= P (G1)P (A2) = 0
für alle A ∈ A2.
74
2. Fall: P (G1) > 0. Setze
P (G1 ∩ A2)
Q(A2) :=
für A2 ∈ A2.
P (G1)
Dann gilt
1.
∀G2 ∈ G2 : Q(G2) = P (G2)
wegen der Unabhängigkeit von G1, G2.
2. Q ist Wahrscheinlichkeitsmaß auf A2; denn:
(a) Q(Ω) = 1.
75
(b) A12, A22, . . . sei Folge disjunkter Mengen aus A2, dann:
!
P
n
X
P G1 ∩ n∈N A2
n
Q
A2 =
P (G1)
n∈N
P
n
P
n∈N (G1 ∩ A2 )
=
P (G1)
P
n
n∈N P (G1 ∩ A2 )
=
P (G1)
X
Q (An2 ) .
=
n∈N
Aus 1. und 2. folgt mittels des Fortsetzungssatzes 6.16, dass Q(A2) = P (A2) für alle
A2 ∈ A2, d.h.
P (G1 ∩ A2) = P (G1)P (A2) für alle A2 ∈ A2.
Analog schließt man: G1 ∈ G1 durch A1 ∈ A1 ersetzbar.
2
76
Satz 6.18 Gi, i ∈ I, seien beliebige Algebren von Ereignissen zum Wahrscheinlichkeitsraum (Ω, A, P ). Dann sind äquivalent:
(i) Gi, i ∈ I, sind unabhängig.
(ii) Ai := σ(Gi), i ∈ I, sind unabhängig.
(iii) Für je endlich viele verschiedene i1, . . . , ik ∈ I und Gi1 ∈ Gi1 , . . . , Gik ∈ Gik gilt:
P Gi1 ∩ . . . ∩ Gik = P (Gi1 ) · · · P Gik .
Beweis:
(ii)⇒(i)“ Trivial.
”
S
(i)⇒(iii)“ Gi1 ist unabhängig von allen Ereignissen aus α
j6=i1 Gj , speziell von
”
77
Gi2 ∩ . . . ∩ Gik , d.h.
P Gi1 ∩ Gi2 ∩ . . . ∩ Gik
= . . . = P (Gi1 ) · · · P Gik
mittels Induktion.
(iii)⇒(ii)“ Zu zeigen ist: Ai0 ∈ Ai0 ist unabhängig von allen A ∈ σ
”
78
S
j6=i0
Aj .
Sei Gi0 ∈ Gi0 und H ∈ α
S
j6=i0
Gj
⇒6.8 H ∈ α({Gi1 , . . . , Gir }) für geeignete
Gi1 ∈ Gi1 , . . . , Gir ∈ Gir
⇒6.10 Gi0 und H sind unabhängig, d.h.


[
Gj  sind unabhängig
Gi0 und α 
j6=i
⇒6.17
 0

[
Ai0 = σ(Gi0 ), σ α 
Gj  unabhängig .
j6=i0
79
Die Behauptung folgt nun aus den Gleichungen:



 
[
[
Gj 
Gj  = σ 
σ α 
j6=i0
j6=i0


[

= σ
σ(Gj ) .
| {z }
j6=i0 =Aj
Zum zweiten =“:
”
⊂“: Trivial.
”
80
⊃“: Für i 6= i0 gilt:
”
[
Gj ⊃ Gi
j6=i0

⇒ σ

[
Gj  ⊃ σ(Gi)
j6=i0

⇒ σ

[
Gj  ⊃
j6=i0

⇒ σ
σ(Gi)
i6=i0

[
[
Gj  ⊃ σ 
j6=i0


[
σ(Gi)
| {z }
i6=i0 =Ai
2
81
Gegeben seien zwei Zufallsexperimente, die durchgeführt werden, ohne dass sie sich
gegenseitig beeinflussen. Gesucht ist ein Wahrscheinlichkeitsraum (Ω, A, P ) zur mathematischen Beschreibung des Zufallsexperimentes, welches darin besteht, dass die
beiden Experimente ohne wechselseitige Beeinflussung — also unabhängig — durchgeführt werden.
Die einzelnen Experimente werden durch (Ω1, A1, P1), (Ω2, A2, P2) beschrieben. Nahe liegend:
Ω := Ω1 × Ω2 := {(ω1, ω2) : ω1 ∈ Ω1, ω2 ∈ Ω2}.
Jedes A1 ∈ A1 kann identifiziert werden mit A1 × Ω2,
jedes A2 ∈ A2 kann identifiziert werden mit Ω1 × A2,
d.h. Forderung:
A1 × Ω2, Ω1 × A2 sind Ereignisse
⇒ (A1 × Ω2) ∩ (Ω1 × A2) = A1 × A2 Ereignis.
82
Daher:
A := σ ({A1 × A2 : A1 ∈ A1, A2 ∈ A2}) .
Ferner soll die Forderung
P1(A1) = P (A1 × Ω2), P2(A2) = P (Ω1 × A2)
erfüllt sein.
Zur Unabhängigkeit: A1 × Ω2 und Ω1 × A2 sollen stets unabhängig sein für A1 ∈ A1,
A2 ∈ A2, d.h. es soll gelten
P (A1 × A2) = P ((A1 × Ω2) ∩ (Ω1 × A2))
= P (A1 × Ω2)P (Ω1 × A2)
= P1(A1)P2(A2).
83
Satz 6.19 (Ω1, A1, P1), . . . , (Ωn, An, Pn) seien Wahrscheinlichkeitsräume. Setze
Ω := Ω1 × . . . × Ωn
:= {(ω1, . . . , ωn) : ωi ∈ Ωi, 1 ≤ i ≤ n}
und
A := σ({A1 × . . . × An : Ai ∈ Ai, 1 ≤ i ≤ n}.
Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß auf (Ω, A) mit
P (A1 × . . . × An) = P1(A1) · · · Pn(An).
Beweisskizze: Definiere P auf Mengensystem Z := {A1 × . . . × An : Ai ∈ Ai, 1 ≤
i ≤ n} durch
n
Y
P (A1 × . . . × An) :=
P (Ai).
i=1
84
Dann Fortsetzung von P (zu einem (eindeutig bestimmten) σ–additiven Inhalt) auf
α(Z). Die Behauptung folgt dann aus dem Fortsetzungssatz 6.16.
2
Definition 6.20 (Ω, A, P ) ist unabhängiges Produkt der Wahrscheinlichkeitsräume
(Ω1, A1, P1), . . . , (Ωn, An, Pn) :⇔ (Ω, A, P ) wird definiert gemäß 6.19.
Schreibweise: Ω = Ω1 × . . . × Ωn, A = A1 ⊗ . . . ⊗ An, P = P1 × . . . × Pn. Im Fall
(Ω1, A1, P1) = . . . = (Ωn, An, Pn) = (Ω, A, P ),
d.h. unabhängige n–fache Wiederholung von (Ω, A, P ), schreiben wir kurz (Ωn, An, P n).
85
7
Zufallsvariablen
(Ω, A, P ) zufälliges Experiment, f : Ω → Ω0 eine Abbildung. Es sei ω ein Ergebnis;
häufig interessiert weniger der exakte Ausgang ω sondern nur der Wert f (ω). Beispielsweise interessiert beim Schuss auf eine Zielscheibe weniger die genaue Lage des
Einschusses sondern der Abstand zum Mittelpunkt.
Daher wird man vor allem Ereignisse der Gestalt
f −1(A0) := {ω ∈ Ω : f (ω) ∈ A0}
betrachten, wobei A0 die im Bildraum von f interessierenden Ereignisse durchläuft.
Satz 7.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum und f : Ω → Ω0 eine Abbildung.
Setze
A0 := {A0 ⊂ Ω0 : f −1(A0) ∈ A}
und
P 0(A0) := P (f −1(A0)) für alle A0 ∈ A0.
86
Dann ist (Ω0, A0, P 0) ein Wahrscheinlichkeitsraum.
Beweis:
1. f −1(Ω0) = Ω ∈ A, d.h. Ω0 ∈ A0.
2. Sei A0 ∈ A0
⇒ f −1(A0) =: A ∈ A
⇒ f −1(Ω0\A0) = Ac ∈ A
⇒ A0c = Ω0\A0 ∈ A0.
87
3. Sei A0n ∈ A0, n ∈ N
⇒ f −1(A0n) ∈ A,
!n ∈ N
[
[
0
−1
An =
f −1(A0n) ∈ A
⇒ f
⇒
[
n∈N
A0n ∈ A0.
n∈N
n∈N
Also ist A0 eine σ–Algebra. Ferner ist P 0 ein Wahrscheinlichkeitsmaß auf (Ω0, A0):
1. P 0(Ω0) = P (f −1(Ω0)) = P (Ω) = 1.
88
2. Für paarweise disjunkte A0n, n ∈ N, gilt:
!
X
0
A0n = P
P
!!
f
X
−1
A0n
n∈N
n∈N
!
= P
X
f −1 (A0n)
n∈N
=
=
X
n∈N
X
P f
−1
(A0n)
P 0 (A0n) .
n∈N
2
Bemerkung 7.2 A0 heißt finale σ–Algebra bezüglich f ; P 0 heißt das durch P und f
auf A0 induzierte Wahrscheinlichkeitsmaß oder Bildmaß von P unter f .
89
Definition 7.3 (Ω, A, P ) sei ein Wahrscheinlichkeitsraum, (Ω0, A0) ein messbarer Raum,
dann: f : Ω → Ω0 heißt A, A0–messbar oder Zufallsgröße, falls f −1(A0) ⊂ A, d.h.
falls für alle A0 ∈ A0 gilt:
f −1(A0) ∈ A,
(d.h. A0 ist sub–σ–Algebra der finalen σ–Algebra.) Schreibweise:
f : (Ω, A) → (Ω0, A0).
Satz 7.4 f : (Ω, A) → (Ω0, A0). Dann:
f −1(A0) := {f −1(A0) : A0 ∈ A0} ist sub–σ–Algebra von A.
(= zu f gehörende Vergröberung von A, durch f bestimmte Ereignisse von A).
Beweis:
90
1. Ω = f −1(Ω0).
2. A ∈ f −1(A0)
⇒ ∃A0 ∈ A0 : A = f −1(A0)
⇒ Ac = f −1(A0c) ∈ f −1(A0).
3. An ∈ f −1(A0), n ∈ N
⇒ ∃A0n ∈ A0 : An = f −1(A0n), n ∈ N
[
[
⇒
An =
f −1(A0n)
n∈N
n∈N
!
=f
[
−1
A0n
∈ f −1(A0).
n∈N
2
91
Satz 7.5 (Ω, A), (Ω0, A0) messbare Räume, S ⊂ P(Ω0) mit σ(S) = A0. Dann gilt:
f : Ω → Ω0 ist A, A0–messbar
⇔ f −1(S) ∈ A für alle S ∈ S.
Beweis:
⇒“ Trivial.
”
⇐“ Setze
”
F := {F ∈ P(Ω0) : f −1(F ) ∈ A}.
F ist (die finale) σ–Algebra mit F ⊃ S ⇒
F ⊃ σ(S) = A0.
2
92
Satz 7.6 (Ω, A), (Ω0, A0), (Ω00, A00) messbare Räume, f : (Ω, A) → (Ω0, A0),g :
(Ω0, A0) → (Ω00, A00). Dann gilt:
g ◦ f : Ω → Ω00 ist A, A00–messbar.
Beweis: Sei A00 ∈ A00, dann:
(g ◦ f )−1(A00) = f −1(g −1(A00)) ∈ A.
| {z }
∈A0
2
Definition 7.7 In sei die Menge aller n–dimensionalen Intervalle im Rn.
Bn := σ(In) ⊂ P(Rn)
ist das System der n–dimensionalen Borelmengen bzw. die Borel–σ–Algebra des Rn.
93
Bemerkung 7.8 Setze
In0 := {(a, b] : {x = (x1, . . . , xn) ∈ Rn :
ai < xi ≤ bi, i = 1 . . . , n} für
a = (a1, . . . , an), b = (b1, . . . , bn) ∈ Rn}.
dann gilt:
Bn = σ(In0).
Denn z.B.:
[a, b] =
\
m∈N
1
a − ,b
m
mit a − 1/m = (a1 − 1/m, . . . , an − 1/m);
[
1
(a, b) =
a, b −
m
m∈N
94
u.s.w.
⇒ Bn ⊃ σ(In0) ⊃ In
⇒ Bn ⊃ σ(In0) ⊃ σ(In) = Bn
⇒ σ(In0) = Bn.
Satz 7.9 Bn enthält alle (bezüglich der euklidischen Topologie des Rn) offenen und
abgeschlossenen Mengen des Rn.
Beweis: InQ := Menge aller n–dimensionalen Intervalle in In mit rationalen Endpunk-
95
ten. InQ ist abzählbar (denn Q2n ist abzählbar).
G ⊂ Rn sei offen
[
I ∈ Bn (als abzählb. Vereinigung);
⇒ G=
I⊂G, I∈InQ
F ⊂ Rn abgeschlossen
⇒ F c offen und damit in Bn
⇒ F ∈ Bn.
2
n
Satz 7.10 Bn = B
⊗
·
·
·
⊗
B
=
B
.
{z
}
|
n–mal
Beweis: n = 2; B ⊗ B = σ({B1 × B2 : B1, B2 ∈ B}.
96
1. B2 ⊂ B ⊗ B, da I2 ⊂ B ⊗ B.
2. Zu zeigen: B ⊗ B ⊂ B2.
Es genügt zu zeigen, dass B1 × B2 ∈ B2, falls B1, B2 ∈ B.
(a) Setze für I ∈ I
BI := {B ⊂ R : B × I ∈ B2};
BI ist eine σ–Algebra(!) mit I ⊂ BI , d.h. B ⊂ BI .
Also gilt B1 × I ∈ B2, falls B1 ∈ B, I ∈ I.
(b) Setze für B ∈ B
BB := {A ⊂ R : B × A ∈ B2};
BB ist eine σ–Algebra(!) mit I ⊂ BB nach (a), d.h. B ⊂ BB .
Also gilt B1 × B2 ∈ B2, falls B1, B2 ∈ B.
Analog schließt man damit von n auf n + 1.
97
2
Definition 7.11 (Ω, A, P ) Wahrscheinlichkeitsraum;
f : Ω → R ist Zufallsvariable
:⇔ f ist A, B–messbar.
Satz 7.12 (Ω, A, P ) Wahrscheinlichkeitsraum, f : Ω → R beliebig. Dann sind äquivalent:
1. f ist Zufallsvariable, d.h. f −1(B) ∈ A für alle B ∈ B.
2. {f ≤ y} := {ω ∈ Ω : f (ω) ≤ y} ∈ A für alle y ∈ R.
3. {f < y} := {ω ∈ Ω : f (ω) < y} ∈ A für alle y ∈ R.
4. {f ∈ I} := {ω ∈ Ω : f (ω) ∈ I} ∈ A für alle Intervalle I in R.
98
5. {f ∈ G} := {ω ∈ Ω : f (ω) ∈ G} ∈ A für alle G ∈ G := Menge der offenen
Teilmengen von R.
6. {f ∈ F } := {ω ∈ Ω : f (ω) ∈ F } ∈ A für alle F ∈ F := Menge der
abgeschlossenen Teilmengen von R.
Beweis: Folgt aus 7.5 (s. 7.8 und 7.9), da
{(−∞, y] : y ∈ R}, {(−∞, y) : y ∈ R}, I1, G, F
Erzeuger der σ–Algebra B sind.
2
Beispiel 7.13 Beispiele für Zufallsvariablen:
1.
f ∈ {0, 1}Ω ist Zufallsvariable
⇔ ∀y ∈ R : {ω ∈ Ω : f (ω) ≤ y} ∈ A
99
wobei
{ω ∈Ω : f (ω) ≤ y}
Ω,
falls y ≥ 1,

∅,
falls y < 0,
=
∈A

{ω ∈ Ω : f (ω) = 0}, falls 0 ≤ y < 1.
⇔ f = 1A für ein geeignetes A ∈ A.
Dabei ist
1A(ω) =
1, falls ω ∈ A,
0 sonst,
die Indikatorfunktion der Menge A.
2. Falls A = {∅, Ω}, so sind nur konstante Funktionen Zufallsvariablen.
3. Falls A = P(Ω), so sind alle f : Ω → R Zufallsvariablen.
100
Definition 7.14 (Ω, A, P ) Wahrscheinlichkeitsraum; dann:
f : Ω → Rn ist n–dimensionaler Zufallsvektor
:⇔ f ist A, Bn–messbar.
Satz 7.15
f = (f1, . . . , fn) : Ω → Rn ist n–dim. Zufallsvektor
⇔ fi : Ω → R ist Zufallsvariable, i = 1, . . . , n.
Beweis:
⇒“ Sei B ∈ B, dann:
”
i−te Stelle
fi−1(B)
=f
−1
z}|{
(R
B × · · · × R}) ∈ A.
| × · · · × {z
∈Bn
101
⇐“ 1.
”
f
−1
(B1 × · · · × Bn) =
\
1≤i≤n
fi−1(Bi) ∈ A,
| {z }
∈A
falls Bi ∈ B, i = 1, . . . , n.
2. {B ⊂ Rn : f −1(B) ∈ A} ist (finale) σ–Algebra (7.1).
Aus 1. und 2. folgt, dass
{B ⊂ Rn : f −1(B) ∈ A} ⊃ B ⊗ · · · ⊗ B =7.10 Bn,
d.h. f ist Zufallsvektor.
2
Definition 7.16
g : Rn → R ist Bairesche Funktion
:⇔ g ist Bn, B–messbar.
102
Satz 7.17 fi : Ω → R sei Zufallsvariable, i = 1, . . . , n, g : Rn → R Bairesche
Funktion. Dann ist g ◦ (f1, . . . , fn) Zufallsvariable.
Beweis: Folgt aus 7.15 und 7.6.
2
Satz 7.18 g : Rn → R stetig ⇒ g ist Bairesche Funktion.
Beweis: g stetig ⇒ ∀ offenen Teilmengen O von R: g −1(O) ist offen im Rn, d.h.
g −1(O) ∈ Bn. Nach Satz 7.5 gilt damit g −1(B) ∈ Bn für alle B ∈ B, da die offenen
Mengen B erzeugen (7.9).
2
103
Satz 7.19 f1, f2 seien Zufallsvariablen, a ∈ R. Dann gilt:
af1,
f1 + f2 ,
f1 f2 ,
f1/f2 (falls f2(ω) 6= 0 für alle ω ∈ Ω),
f1 ∨ f2 := max(f1, f2),
f1 ∧ f2 := min(f1, f2)
sind wieder Zufallsvariablen.
Beweis: R 3 x 7→ ax, R2 3 (x1, x2) 7→ x1 + x2 ∈ R u.s.w. sind stetige Abbildungen
von R → R bzw. R → R2, d.h. Satz 7.17 und 7.18 anwendbar.
2
Bemerkung Der Raum der Zufallsvariablen über (Ω, A, P ) ist ein linearer Raum.
104
Satz 7.20 f1, f2, . . . seien Zufallsvariablen.
1. fn(ω), n ∈ N, sei für jedes ω ∈ Ω nach oben beschränkt
⇒ sup fn ist Zufallsvariable.
n∈N
((supn∈N fn)(ω) = supn∈N(fn(ω))).
2. fn(ω), n ∈ N, sei für jedes ω ∈ Ω nach unten beschränkt
⇒ inf fn ist Zufallsvariable.
n∈N
3. fn(ω), n ∈ N, sei für jedes ω ∈ Ω beschränkt
⇒ lim inf fn, lim sup fn sind Zufallsvariablen.
n∈N
n∈N
4. fn(ω), n ∈ N, sei für jedes ω ∈ Ω konvergent
⇒ lim fn ist Zufallsvariable.
n∈N
105
Beweis:
T
1. ∀y ∈ R : {ω ∈ Ω : supn∈N fn(ω) ≤ y} = n∈N{ω ∈ Ω : fn(ω) ≤ y} ∈ A.
S
2. {ω ∈ Ω : inf n∈N fn(ω) < y} = n∈N{ω ∈ Ω : fn(ω) < y} ∈ A.
3. lim supn∈N fn(ω) = inf m∈N supn≥m fn(ω) , lim inf n∈N fn(ω) = supm∈N (inf n≥m fn(ω)),
d.h. die Behauptung folgt aus 1. und 2.
4. limn∈N fn = lim supn∈N fn = lim inf n∈N fn, d.h. 3. anwendbar.
2
Definition 7.21 fi, i ∈ I, sei eine Familie zufälliger Größen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), wobei fi : (Ω, A) → (Ωi, Ai), i ∈ I.
Die Familie fi, i ∈ I, heißt unabhängig :⇔ die Familie A(fi) = fi−1(Ai), i ∈ I, der
zugehörigen Vergröberungen ist unabhängig.
106
Bemerkung 7.22 fi, i ∈ I, unabhängig ⇔ fi, i ∈ I0, unabhängig für alle endlichen
Teilmengen I0 von I (s. 6.18).
Satz 7.23
fi : (Ω, A) → (Ω0i, A0i), i = 1, . . . , n unabhängig
⇔ P ({f1 ∈ A01, . . . , fn ∈ A0n}
= P ({f1 ∈ A01}) · · · P ({fn ∈ A0n})
für beliebige A0i ∈ A0i, i = 1, . . . , n.
107
Beweis:
f1, . . . , fn unabhängig
⇔ A(f1), . . . , A(fn) unabhängig
⇔6.18 für beliebige A0i ∈ A0i, i = 1, . . . , n, sind die
Ereignisse {f1 ∈ A01}, . . . , {fn ∈ A0n}
unabhängig.
2
Satz 7.24 fi : (Ω, A) → (Ω0i, A0i), i ∈ I, unabhängig, gi : (Ω0i, A0i) → (Ω00i , A00i ), i ∈
I.
Dann sind gi ◦ fi : (Ω, A) → (Ω00i , A00i ), i ∈ I, unabhängig.
Beweis:
108
1. Nach Satz 7.6 ist gi ◦ fi A, Ai–messbar, i ∈ I.
2. Für endliches I0 ⊂ I und A00i ∈ A00i , i ∈ I0, gilt:
P {gi ◦ fi ∈ A00i , i ∈ I0}
= P {fi ∈ gi−1(A00i ), i ∈ I0}
| {z }
∈A0i
=
Y
P {fi ∈ gi−1(A00i )} (da fi unabhängig)
i∈I0
=
Y
P {gi ◦ fi ∈ A00i }.
i∈I0
2
Definition 7.25 f1, f2, . . . seien Zufallsgrößen auf (Ω, A, P ). C ∈ A heißt terminales
109
Ereignis bzgl. f1, f2, . . . :⇔
!
C∈σ
[
A(fm)
für alle n ∈ N.
m≥n
T
n∈N σ
S
m≥n A(fm )
heißt die zu f1, f2, . . . gehörende terminale σ–Algebra.
Beispiel 7.26
1. {ω ∈ Ω : fn(ω) > 0 unendlich oft},
2. {ω ∈ Ω : fn(ω), n ∈ N, ist konvergent},
Pn
1
3. ω ∈ Ω : n i=1 fn(ω), n ∈ N, ist konvergent
sind terminale Ereignisse.
110
Satz 7.27 (Kolmogoroffsches 0–1–Gesetz) C sei terminales Ereignis zur Folge
unabhängiger Zufallsvariablen f1, f2, . . . ⇒ P (C) = 0 oder 1;
Bemerkung 7.28 Vergleiche Borel–Cantelli Lemma: A1, A2, . . . unabhängige Ereignisse ⇒ 1A1 , 1A2 , . . . unabhängige Zufallsvariablen;
(
)
X
lim sup An = ω ∈ Ω :
1An (ω) = ∞
n∈N
n∈N
ist terminales Ereignis zu 1A1 , 1A2 , . . . mit
P
0, falls Pn∈N P (An) < ∞,
P lim sup An =
1, falls
n∈N
n∈N P (An ) = ∞.
Beweis: Annahme: P (C) > 0. Wir zeigen: P (C) = 1.
111
Für A ∈ A(fn, n ∈ N) := σ
S
n∈N A(fn )
definieren wir
P (A ∩ C)
P (A) := P (A|C) =
P (C)
∗
⇒ P ∗ ist Wahrscheinlichkeitsmaß mit
∗
P (A) = P (A) für alle A ∈ A0 :=
[
A(fm : m ≤ n),
n∈N
mit
!
A(fm : m ≤ n) := σ
[
A(fm) ,
m≤n
denn für A ∈ A0 gilt: A, C sind unabhängig.
A0 ist eine Algebra(!) mit A(fn, n ∈ N) = σ(A0).
112
Fortsetzungssatz 6.16 ⇒ P ∗ = P auf A(fn, n ∈ N), d.h.
P (A ∩ C)
= P (A)
P (A) =
P (C)
für alle A ∈ A(fn, n ∈ N)
⇒ P (A ∩ C) = P (A)P (C)
insbesondere für A = C (C ∈ A(fn, n ∈ N))
⇒ P (C) = P (C)2
⇒ P (C) = 1.
∗
2
8
Integrationstheorie
Es sei f eine Zufallsvariable, die nur die Werte a1, . . . , am annimmt, pi := P {f = ai},
i = 1, . . . , m.
Bei N –facher unabhängiger Wiederholung des Experimentes seien α1, . . . , αN (∈
{a1, . . . , am}) die beobachteten Werte von f . Die Erfahrung zeigt, dass sich das arithmetische Mittel
N
1 X
αi
N i=1
offenbar gegen einen gewissen Wert stabilisiert. Was ist das für eine Zahl?
Dazu anschaulich: Hi (Häufigkeit) bezeichne die Anzahl des Eintretens von ai unter
den N Durchführungen des Experimentes, i = 1, . . . , m. Nach der Erfahrung wird
gelten:
Hi
≈ pi, d.h. Hi ≈ piN.
N
114
Damit:
H1a1 + · · · + Hmam
α1 + · · · + αN
=
N
N
m
X Hi
=
ai
N
i=1
m
X
≈
ai pi .
i=1
Dies wird der zu erwartende, d.h. der Erwartungswert des arithmetischen Mittels sein.
Den Begriff des Erwartungswertes werden wir in diesem Kapitel untersuchen.
Definition 8.1
115
1. e einfache Funktion :⇔
e=
m
X
αi1Ai
i=1
mit geeignetem m ∈ N, αi ≥ 0, Ai ∈ A, i = 1, . . . , m.
2. E := Menge der einfachen Funktionen.
Bemerkung 8.2
1. E = Menge aller nicht–negativen Zufallsvariablen über (Ω, A, P ), die nur endlich
viele Werte annehmen.
2. e1, e2 ∈ E, α ∈ R+
⇒ αe1, e1 + e2, e1e2, e1 ∨ e2, e1 ∧ e2 ∈ E.
P
3. e ∈ E ⇒ e = 1≤i≤m αi1Ai
116
mit disjunkten Ai ∈ A und
S
1≤i≤m Ai
= Ω.
Satz 8.3 Es gelte
e=
X
αi1Ai =
1≤i≤m
X
βj 1Bj ∈ E
1≤j≤n
mit disjunkten Ai ∈ A, i = 1, . . . , m, und disjunkten Bj ∈ A, j = 1, . . . , n. Dann
folgt:
X
X
αiP (Ai) =
βj P (Bj ).
1≤i≤m
1≤j≤n
117
Beweis: O.B.d.A. annehmbar, dass
1A i =
S
1≤i≤m Ai
X
=
S
1≤j≤m Bj
1Ai∩Bj ; 1Bj =
1≤j≤n
⇒e =
X
X
= Ω.
1Ai∩Bj
1≤i≤n
αi1Ai
1≤i≤m
X
=
αi1Ai∩Bj ;
1≤i≤m;1≤j≤n
X
e =
βj 1Bj ∩Ai
1≤j≤n;1≤i≤m
⇒ ∀i, j mit Ai ∩ Bj 6= ∅ : αi = βj
X
⇒
αiP (Ai)
1≤i≤m
=
X
αiP (Ai ∩ Bj )
1≤i≤m;1≤j≤n
=
X118
βj P (Bj ∩ Ai)
1≤i≤m;1≤j≤n
=
X
βj P (Bj ).
2
Definition 8.4 Für e =
wir
Z
P
1≤i≤m αi 1Ai
∈ E mit disjunkten Ai und αi ≥ 0 definieren
Z
e dP :=
e dP :=
Ω
X
αiP (Ai),
1≤i≤m
das Integral von e über Ω.
Satz 8.5 Für e, e1, e2 ∈ E gilt:
1.
Z
Z
αe dP = α e dP,
2.
Z
Z
e1 + e2 dP =
119
α ≥ 0,
Z
e1 dP +
e2 dP,
P
3. e =
Ai ⇒
1≤i≤m αi 1Ai
mit αi ≥ 0 und beliebigen Ai, d.h. nicht notwendig disjunkten
Z
X
e dP =
αiP (Ai),
1≤i≤m
4.
Z
e1 ≤ e2 ⇒
Z
e1 dP ≤
e2 dP.
Beweis:
1.“ e =
”
tung.
P
2.“ e1 =
”
P
1≤i≤m αi 1Ai
i α i 1A i
mit disjunkten Ai ⇒ αe =
mit disjunkten Ai, e2 =
120
P
j
P
1≤i≤m (ααi )1Ai
⇒ Behaup-
βj 1Bj mit disjunkten Bj . O.b.d.A.
gelte
S
i Ai
=
S
j
Bj = Ω;
e1 =
X
e2 =
X
αi1Ai∩Bj ,
i,j
βj 1Ai∩Bj
i,j
⇒ e1 + e2 =
X
(αi + βj )1Ai∩Bj
i,j
mit Ai ∩ Bj , (i, j), disjunkt
121
Z
⇒
e1 + e2 dP
X
=Def.
(αi + βj )P (Ai ∩ Bj )
i,j
X
X
=
αiP (Ai ∩ Bj ) +
βj P (Ai ∩ Bj )
Zi,j
=
i,j
Z
e1 dP +
3.“ Folgt aus 1. und 2.:
”
Z X
e2 dP.
αi1Ai dP =
X
i
i
122
Z
αi
1Ai dP.
4.“ Nach Beweisteil 2. besitzen e1 und e2 die Darstellungen
”
X
X
e1 =
αi1Ai , e2 =
βi1Ai
1≤i≤m
1≤i≤m
mit disjunkten Ai 6= ∅
⇒ Zαi ≤ βi,
⇒
1 ≤ i ≤ m,
X
e1 dP =
αiP (Ai)
≤
i
X
βiP (Ai)
Zi
=
e2 dP.
2
123
Satz 8.6 Zu jeder Zufallsvariablen f ≥ 0 existieren en ∈ E, n ∈ N, mit
e1 ≤ e2 ≤ . . . und f = lim en.
n∈N
Beweis: Setze
i
en :=
1 ,
n An,i
2
0≤i<n2n
X
mit An,i := {i/2n ≤ f < (i + 1)/2n}.
2
Satz 8.7 e, en ∈ E, n ∈ N, mit e ≤ limn∈N en, e1 ≤ e2 ≤ . . . Dann folgt:
Z
Z
e dP ≤ lim en dP.
n∈N
Beweis: Sei e =
P
1≤i≤m αi 1Ai .
124
Wähle a ∈ [0, 1) und setze Kn := {ae ≤ en}, n ∈ N.
Kn ∈ A,Pda ae − en A, B–messbar,
e1Kn = 1≤i≤m αi1Ai∩Kn ∈ E,
Kn ↑ Ω, also Ai ∩ Kn ↑ Ai und damit
limn∈N P (Ai ∩ Kn) = P (Ai), i = 1, . . . , m, ⇒
Z
X
a e dP = a
αiP (Ai)
1≤i≤m
= a lim
X
n∈N
αiP (Ai ∩ Kn)
Z 1≤i≤m
= lim ae1Kn dP
| {z }
n∈N
Z ≤en
≤ lim en dP.
n∈N
125
Für a ↑ 1 folgt nun die Behauptung.
2
Korollar 8.8 e1 ≤ e2 ≤ . . . , e01 ≤ e02 ≤ . . . ∈ E mit limn∈N en = limn∈N e0n (≤ ∞).
Dann gilt:
Z
Z
lim en dP = lim e0n dP.
n∈N
n∈N
Definition 8.9 Für eine Zufallsvariable f ≥ 0 setzen wir
Z
Z
f dP := lim en dP
n∈N
(Integral von f über (Ω, A, P )), falls
f = lim en,
n∈N
e1 ≤ e2 ≤ . . . ∈ E.
126
Satz 8.10 Für nicht negative Zufallsvariablen f, f1, f2 gilt:
1.
Z
Z
αf dP = α
2.
Z
α ≥ 0,
f dP,
Z
f1 + f2 dP =
3.
Z
f1 dP +
Z
f 1 ≤ f2 ⇒
f2 dP,
Z
f1 dP ≤
f2 dP.
Beweis: Nach Satz 8.6 existieren Folgen einfacher Funktionen e1 ≤ e2 ≤ . . . , e01 ≤
e02 ≤ . . ., ẽ1 ≤ ẽ2 . . . mit limn∈N en = f , limn∈N e0n = f1, limn∈N ẽn = f2.
127
1.“ αen ∈ E, n ∈ N, αe1 ≤ αe2 ≤ . . . , limn∈N αen = αf . Damit:
”
Z
Z
αf dP =Def. lim αen dP
n∈N
Z
=8.5 lim α en dP
n∈N
Z
= α lim en dP
n∈N
Z
=Def. α f dP.
128
2.“ e0n + ẽn ∈ E, n ∈ N, e01 + ẽ1 ≤ e02 + ẽ2 ≤ · · · , limn∈N(e0n + ẽn) = f1 + f2. Damit:
”
Z
Z
f1 + f2 dP =Def. lim e0n + ẽn dP
n∈N
Z
Z
=8.5 lim
e0n dP + ẽn dP
n∈N
Z
Z
=
f1 dP + f2 dP.
129
3.“
”
Z
⇒8.7
e0n
≤
e0n dP
≤
lim ẽn
n∈N Z
(= f2)
lim ẽn dP
Z
=Def.
f2 dP
Z
Z
⇒Def. f1 dP = lim e0n dP
n∈N
Z
f2 dP.
≤
n∈N
2
130
Satz 8.11 f, f1, f2, . . . seien nicht negative Zufallsvariablen mit f1 ≤ f2 ≤ · · · und
limn∈N fn = f . Dann gilt:
Z
Z
f dP = lim fn dP.
n∈N
Beweis: Zu fn existiert eine monoton wachsende Folge en,m, m ∈ N, in E mit
lim en,m = fn,
m∈N
also:
e1,1 ≤ e1,2 ≤ · · ·
e2,1 ≤ e2,2 ≤ · · ·
..
..
en,1 ≤ en,2 ≤ · · ·
..
..
131
↑ f1
↑ f2
..
↑ fn
..
↑ f.
Setze en := max(e1,n, . . . , en,n). Dann gilt:
1.
en ∈ E
(8.2,3.), e1 ≤ e2 ≤ · · ·
2.
en ≤ max(f1, . . . , fn) = fn ≤ f.
132
3.
∀m ≤ n : en
⇒ lim en
≥
≥
em,n
lim em,n = fm
⇒ lim en
≥
f
n∈N
n∈N
n∈N
⇒2. lim en = f
Z n∈N
Z
⇒ f dP =Def. lim en dP
n∈N
Z
≤2. lim fn dP ;
n∈N
Z
Z
f dP ≥8.10
fn dP
Z
Z
⇒ f dP = lim fn dP.
n∈N
133
2
Definition 8.12 f sei beliebige Zufallsvariable.
1. f + := max(f, 0) ist der Positivteil von f ,
f − := max(−f, 0) ist der Negativteil von f ; f = f + − f −.
R +
R −
2. f ist integrierbar :⇔ f dP < ∞ und f dP < ∞.
3. L := Menge aller integrierbaren Funktionen (auf (Ω, A, P )).
R +
R −
4. f ist quasiintegrierbar :⇔ f dP < ∞ oder f dP < ∞.
R
R +
R −
5. f dP := f dP − f dP , falls f quasiintegrierbar ist.
Satz 8.13 f, f1, f2 beliebige Zufallsvariablen. Dann:
R
R
1. f ∈ L, α ∈ R ⇒ αf ∈ L und αf dP = α f dP .
134
R
R
R
2. f1, f2 ∈ L ⇒ f1 + f2 ∈ L und f1 + f2 dP = f1 dP + f2 dP.
R
R
3. f1 ≤ f2, f1, f2 ∈ L ⇒ f1 dP ≤ f2 dP.
R
R
4. f ∈ L ⇔ |f | ∈ L und es gilt in diesem Fall | f dP | ≤ |f | dP.
5. g A, B–messbar mit f1 ≤ g ≤ f2, f1, f2 ∈ L ⇒ g ∈ L.
Beweis: Mittels 8.10.
2
Satz 8.14 (v. d. monotonen Konvergenz)
1. fn ∈ L, n ∈ N, fn ↑ f < ∞ ⇒ f ist quasiintegrierbar und
R
R
fn dP ↑ f dP .
R
R
2. fn ∈ L, n ∈ N, fn ↓ f > −∞ ⇒ f ist quasiintegrierbar und fn dP ↓ f dP .
Beweis: Genügt 1. zu beweisen (Übergang zu −fn, −f ). O.E. sei fn ≥ 0 (sonst
Übergang zu fn0 := fn − f1). Dann folgt die Behauptung aber aus 8.11.
2
135
Satz 8.15 (Lemma von Fatou)
1. fn ∈ L, n ∈ N, fn ≤ h, h ∈ L, lim supn∈N fn > −∞ ⇒ lim supn∈N fn ist
quasiintegrierbar und
Z
Z
lim sup fn dP ≥ lim sup fn dP.
n∈N
n∈N
2. fn ∈ L, n ∈ N, fn ≥ g, g ∈ L, lim inf n∈N fn < ∞ ⇒ lim inf n∈N fn ist quasiintegrierbar und
Z
Z
lim inf fn dP ≤ lim inf fn dP.
n∈N
n∈N
Beweis: Genügt 1. zu beweisen (Übergang zu −fn). Es gilt:
lim sup fn = lim sup fm .
n∈N
n∈N
136
m≥n
supm≥n fm ∈ L, da fn ≤ supm≥n fm ≤ h (8.13);
supm≥n fm ↓ lim supn∈N fn ⇒8.14 lim supn∈N fn ist quasiintegrierbar und
Z
Z
sup fm dP ↓
lim sup fn dP
m≥n
n∈N Z
Z
⇒ lim sup fn dP = lim sup fm dP
n∈N m≥n
n∈N
Z
≤ lim
sup fm dP
n∈N
m≥n
Z
=
lim sup fn dP.
n∈N
2
Satz 8.16 (v. d. dominierten Konvergenz) fn, n ∈ N, Zufallsvariablen mit limn∈N fn
137
f , |fn| ≤ g, g ∈ L. Dann gilt:
Z
fn, f ∈ L und lim
Z
fn dP =
n∈N
f dP.
Beweis: 8.13⇒ fn, f ∈ L. Das Lemma von Fatou liefert:
Z
Z
lim sup fn dP
lim sup fn dP ≤
n∈N
Z n∈N
=
f dP
Z
lim inf fn dP
=
n∈N
Z
≤ lim inf fn dP.
n∈N
2
138
Satz 8.17 (Transformationssatz für Integrale) (Ω, A, P ) Wahrscheinlichkeitsraum,
(Ω0, A0) messbarer Raum, T : (Ω, A) → (Ω0, A0).
P 0 := P ∗ T sei das durch P und T auf A0 induzierte Wahrscheinlichkeitsmaß
(Bildmaß), d.h.
P 0(A0) = P (T −1(A0)), A0 ∈ A0,
s. Satz 7.1.
f 0 : Ω0 → R sei Zufallsvariable. Dann:
f 0 ∈ L(Ω0, A0, P 0) ⇔ f 0 ◦ T ∈ L(Ω, A, P )
und in diesem Fall gilt:
Z
f 0 dP 0 =
Z
Ω0
Ω
Beweis:
139
f 0 ◦ T dP.
0
0
0
0
mit αi ≥ 0, A0i ∈ A0,
X
0
⇒ e := e ◦ T =
αi 1A0i ◦ T
1. Sei e ∈ E(Ω , A ), d.h. e =
P
1≤i≤m αi 1A0i
1≤i≤m
=
X
1≤i≤m
140
αi1Ai ∈ E(Ω, A)
mit Ai := T −1(A0i) und
Z
0
0
e dP =
Ω0
X
αiP 0(A0i)
1≤i≤m
=
X
αiP (T −1(A0i))
1≤i≤m
=
X
αiP (Ai)
1≤i≤m
Z
=
e dP.
Ω
2. Sei f 0 : Ω0 → R+ Zufallsvariable. Dann existieren e0n ∈ E(Ω0, A0) mit e0n ↑ f 0
⇒ en := e0n ◦ T ↑ f 0 ◦ T , en ∈ E(Ω, A).
141
Somit gilt nach 1.:
Z
f 0 dP 0 =Def. lim
n∈N
0
Ω
Z
ZΩ0
e0n dP 0
lim en dP
Ω
Z
=Def.
f 0 ◦ T dP.
=1.
n∈N
Ω
3. Für beliebiges f mittels Zerlegung f = f + − f −.
2
Definition 8.18
1. Es sei A ∈ A, f Zufallsvariable und f 1A quasiintegrierbar. Dann:
Z
Z
Z
f dP :=
f (ω) P (dω) := f 1A dP.
A
A
142
2. f sei quasiintegrierbar. Die Abbildung
Z
A 3 A 7→
f dP
A
heißt unbestimmtes Integral von f .
R Bemerkung
R Es seien RA, B ∈ A, A ∩ B = ∅ und f quasiintegrierbar. Dann gilt
A∪B f dP = A f dP = B f dP .
R
Satz 8.19 f ≥ 0 sei Zufallsvariable mit f dP = 1. Dann:
Z
Q : A → R mit Q(A) :=
f dP
A
ist ein Wahrscheinlichkeitsmaß auf A.
Beweis:
143
1. Q(A) ≥ 0 offensichtlich,
2. Q(Ω) = 1 trivial.
144
145
3. An ∈ A, n ∈ N, seien paarweise disjunkt. Dann:
!
[
Q
An
n∈N
Z
=
f dP
S
n∈N An
Z
=Def.
=
f 1Sn∈N An dP
ZΩ X
f 1An dP
Ω n∈N
Z
=
lim
Ω n∈N
=mon. Konv. lim
n∈N
146
=
lim
n∈N
n
X
!
f 1A i
i=1
Z X
n
Ω i=1
n Z
X
i=1 Ω
n Z
X
f 1Ai dP
f 1Ai dP
dP
2
R
Definition 8.20 f ≥ 0 sei Zufallsvariable mit f dP = 1. Q sei definiert wie in 8.19.
Dann heißt f Dichte (genauer: eine Dichte) von Q bezüglich P . Symbolisch:
dQ
Q = f P, f =
, dQ = f dP.
dP
Satz 8.21 f1 sei P –Dichte von Q, f2 ≥ 0 sei Zufallsvariable. Dann:
f2 ist P –Dichte von Q ⇔ P ({f1 6= f2}) = 0.
Lemma 8.22 f sei Zufallsvariable, A ∈ A mit P (A) = 0 ⇒
147
R
A |f | dP
= 0.
Beweis: Es gilt |f 1A| = |f |1A. Es existieren en ∈ E, n ∈ N, mit en ↑ |f |
⇒ en1A ∈ E mit en1A ↑ |f |1A;
Z
Z
|f |1A dP =Def. lim en1A dP
n∈N
X
= lim
αi P (Ai ∩ A) = 0,
| {z }
n∈N
1≤i≤m
wobei en =
P
=0
1≤i≤m αi 1Ai ,
1Ai 1A = 1Ai∩A,
Z
Z
⇒8.13 | f dP | ≤
|f | dP = 0.
A
A
2
Beweis:[von 8.21]
148
⇐“ Sei A ∈ A;
”
Z
Q(A)
=
f11A dP
Z
=
Z
f11A∩{f1=f2} dP +
f11A∩{f16=f2} dP
Z
=8.22
f11A∩{f1=f2} dP
Z
=
f21A∩{f1=f2} dP
Z
=
Z
f21A∩{f1=f2} dP +
Z
=
f21A dP.
149
f21A∩{f16=f2} dP
⇒“ Aus den Voraussetzungen folgt:
”
Z
Z
∀A ∈ A :
f1 dP =
f2 dP
A
ZA
Z
⇒ ∀A ∈ A :
f1 dP − f2 dP
A
ZA
=
f1 − f2 dP = 0.
A
Speziell für
−
A+
n := {f1 − f2 > 1/n}, An := {f1 − f2 < −1/n}
150
gilt also:
Z
0
=
A+
n
f1 − f2 dP
Z
≥8.13
=
1
dP
n
A+
n
1
P (A+
n ),
n
d.h. P (A+
n ) = 0;
Z
0
=
A−
n
Z
≤8.13
=
f1 − f2 dP
1
− dP
n
A−
n
1
− P (A−
n ),
n
151
d.h. P (A−
n ) = 0. Es folgt:
!
P {f1 6= f2} = P
[
−
(A+
∪
A
n
n)
X n∈N
−
≤
P (A+
n ∪ An ) = 0.
n∈N
2
Satz 8.23 f sei P –Dichte von Q, g sei Zufallsvariable. Dann gilt:
g ist Q–integrierbar ⇔ gf ist P –integrierbar und in diesem Fall gilt:
Z
Z
g dQ = gf dP.
Beweis:
152
1. Es sei e =
P
∈E
Z
m
X
⇒ e dQ =
αiQ(Ai)
1≤i≤m αi 1Ai
=
=
i=1
m
X
i=1
m
X
Z
αi
f dP
Ai
Z
αi
f 1Ai dP
i=1
Z
=
f
m
X
αi1Ai dP
i=1
Z
=
153
f e dP.
2. g ≥ 0 sei Zufallsvariable ⇒ g = limn∈N en mit geeigneten e1 ≤ e2 ≤ . . . ∈ E
Z
Z
⇒ g dQ =Def. lim en dQ
n∈N
Z
=1. lim enf dP
n∈N
Z
=8.14
lim (enf ) dP
n∈N
Z
=
f g dP.
3. Allgemeiner Fall mittels Zerlegung g = g + − g −.
2
Satz 8.24 (Fubini) (Ω, A, P ) sei das Produkt der beiden Wahrscheinlichkeitsräume
(Ωi, Ai, Pi), i = 1, 2, d.h.
154
ˆ Ω = Ω1 × Ω2,
ˆ A = σ({A1 × A2 : A1 ∈ A1, A2 ∈ A2},
ˆ P = P1 × P2 .
f : Ω → R sei integrierbar bzgl. P . Dann gilt:
1.
f (ω1, ·) : Ω2 3 ω2 7→ f (ω1, ω2) ∈ R
ist für P1–fast alle ω1 ∈ Ω1 P2–integrierbar, d.h. es existiert N1 ∈ A1, P1(N1) = 0
und ∀ω1 ∈ N1c ist f (ω1, ·) eine P2–integrierbare Funktion.
2.
f (·, ω2) : Ω1 3 ω1 7→ f (ω1, ω2) ∈ R
ist für P2–fast alle ω2 ∈ Ω2 P1–integrierbar, d.h. es existiert N2 ∈ A2, P2(N2) = 0
und ∀ω2 ∈ N2c ist f (·, ω2) eine P1–integrierbare Funktion.
155
3. Die gemäß 1. bzw. 2. bis auf Nullmengen definierten Funktionen
Z
f (ω1, ·) dP2
ω1 7→
Ω2
und
Z
ω2 7→
f (·, ω2) dP1
Ω1
sind P1– bzw. P2–integrierbar und es gilt:
Z
Z
f dP =
f d(P1 × P2)
Ω
Z2
ZΩ1×Ω
=
f (ω1, ·) dP2 P1(dω1)
ZΩ1 ZΩ2
=
f (·, ω2) dP1 P2(dω2).
Ω2
Ω1
156
Beweis: Siehe Maßtheorie.
2
Bemerkung Die bisher entwickelte Integrationstheorie ist auch für beliebige σ–finite
Maße µ anstelle eines Wahrscheinlichkeitsmaßes P gültig.
µ : A → [0, ∞] ist Maß :⇔
P
S
1. µ n∈N An = n∈N µ(An) für disjunkte An ∈ A,
2. µ(∅) = 0.
µ:A
S → [0, ∞] ist σ–finites Maß :⇔ µ ist Maß und es existieren An ∈ A, n ∈ N,
mit n∈N An = Ω und µ(An) < ∞, n ∈ N.
Definition 8.25 Definiere λ0n : In0 := {(a, b] = ×ni=1(ai, bi] : a, b ∈ Rn} → [0, ∞]
durch
Y
0
λn((a, b]) :=
(bi − ai).
1≤i≤n
157
λ0n ist σ–additiv auf In0 und kann eindeutig zu einem (σ–finiten) Maß auf Bn fortgesetzt
werden. Dieses Maß ist das Lebesgue–Maß, i.Z. λn, vgl. 7.8.
Satz 8.26 Es gilt:
λn = λn1 ,
wobei λn1 das n–fache Produkt von λ1 bezeichnet.
Beweis: Klar, da
λn((a, b]) = λ0n((a, b])
Y
=
(bi − ai)
1≤i≤n
=
=
Y
λ1((ai, bi])
1≤i≤n
λn1 ((a, b]).
158
2
Definition 8.27 Es sei f ∈ L(Rn, Bn, λn). Wir setzen:
Z
Z
Z
f (x) dx := f (x1, . . . , xn) dx1 · · · dxn := f dλn.
Bemerkung 8.28 Setze (Ω, A, P ) := ((0, 1], B ∩ (0, 1], λ1/(0, 1]), fn := n1(0,1/n],
n ∈ N. Dann gilt:
fn(ω) →n→N 0, ω ∈ Ω,
aber
Z
Z
fn dλ1 = nλ1((0, 1/n]) = 1 6= 0 dλ1 = 0.
Die Monotonie– bzw. Beschränktheitsvoraussetzungen in den Integrationssätzen sind
also wesentlich.
159
9
Verteilungen und ihre Charakterisierungen
Definition 9.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, (Ω0, A0) messbarer Raum, f :
(Ω, A, P ) → (Ω0, A0).
Das Wahrscheinlichkeitsmaß P ∗ f : A0 → [0, 1], definiert durch
(P ∗ f )(A) := P (f −1(A)),
A ∈ A0,
heißt Verteilung von f , (s. 7.1).
Bemerkung Jedes Wahrscheinlichkeitsmaß P 0 auf einem beliebigen messbaren Raum
(Ω0, A0) kann als Verteilung einer geeigneten Zufallsgröße aufgefasst werden: Setze
(Ω, A, P ) := (Ω0, A0, P 0), f (ω) := ω, ω ∈ Ω.
160
Definition 9.2 f sei Zufallsvariable über (Ω, A, P ), d.h. f : (Ω, A) → (R, B). Definiere F : R → [0, 1] durch
F (x) := P ({f ≤ x})
= P ({ω ∈ Ω : f (ω) ≤ x})
= (P ∗ f )((−∞, x]),
x ∈ R.
F heißt Verteilungsfunktion von f bzw. von P ∗ f .
Beispiel 9.3
1. f sei das Ergebnis beim Würfeln, d.h. P ({i}) = 1/6, i = 1, . . . , 6. Dann gilt:

 0 für x < 1,
F (x) = i/6 für i ≤ x < i + 1, i = 1, . . . , 5,

1 für x ≥ 6.
161
2. f sei gleichverteilt auf (0, 1), d.h. P ({f ∈ B} = λ1(B) für B ∈ B ∩ (0, 1). Dann
gilt:
F (x) =
=
=
=
P ({f ≤ x})
P ({f ∈ (−∞, x]})
P ({f ∈ (0, x]})
λ1((0, x]) = x
für 0 ≤ x ≤ 1.
Bemerkung 9.4 Die Verteilungsfunktion F (x) = (P ∗ f )((−∞, x]) einer Zufallsvariablen f hängt offenbar nur von der Verteilung P ∗f von f ab, nicht von den konkreten
Werten von f .
Satz 9.5 F sei Verteilungsfunktion der Verteilung Q := P ∗ f . Dann gilt:
1. F ist monoton wachsend.
162
2. F ist rechtsseitig stetig.
3. limx→∞ F (x) = 1, limx→−∞ F (x) = 0.
Beweis:
1.“
”
x<y
⇒ (−∞, x] ⊂ (−∞, y]
⇒ F (x) = Q((−∞, x]) ≤ Q((−∞, y]) = F (y).
163
2.“ (−∞, x] =
”
T
n∈N (−∞, xn ],
falls xn ↓ x. Damit:
F (x) = Q((−∞, x])
!
\
= Q
(−∞, xn]
n∈N
= lim Q((−∞, xn])
n∈N
= lim F (xn).
n∈N
3.“
”
xn ↑ ∞ [
⇒ R=
(−∞, xn]
n∈N
⇒ 1 = Q(R) = lim Q((−∞, xn]) = lim F (xn);
n∈N
n∈N
164
xn ↓ −∞ \
⇒ ∅=
(−∞, xn]
n∈N
⇒ 0 = Q(∅) = lim Q((−∞, xn]) = lim F (xn).
n∈N
n∈N
2
Satz 9.6 Eine Verteilung Q ist durch ihre Verteilungsfunktion F eindeutig bestimmt.
Das bedeutet: Sind Q1, Q2 Wahrscheinlichkeitsmaße auf (R, B) mit Q1 6= Q2, so
existiert x ∈ R mit
FQ1 (x) = Q1((−∞, x]) 6= Q2((−∞, x]) = FQ2 (x).
Beweis:
1. Es gilt:
Q((x, y]) = F (y) − F (x) für x < y.
165
2.
Q((x, y)) = lim Q((x, y − 1/n])
n∈N
= lim (F (y − 1/n) − F (x)),
n∈N
denn (x, y − 1/n] ↑ (x, y).
3. Jede offene Menge in R ist Vereinigung von abzählbar vielen disjunkten offenen
Intervallen
⇒2. Q(G) ist für offene Mengen G durch F bestimmt
⇒ Q(B) ist für beliebiges B ∈ B bestimmt (Maßtheorie, Fortsetzungssatz).
2
Satz 9.7 F : R → [0, 1] sei eine Funktion, die 1.–3. von Satz 9.5 erfülle. Dann
ist F die Verteilungsfunktion einer geeigneten Zufallsvariablen f , d.h. es existiert ein
166
Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable f auf (Ω, A, P ) mit F (x)
= (P ∗ f )((−∞, x]), x ∈ R.
Beweis: Setze Ω := (0, 1), A := B ∩ (0, 1), P := λ1/Ω,
f (ω) := inf{x ∈ R : F (x) ≥ ω}
= min{x ∈ R : F (x) ≥ ω} wegen der rechtsseitigen Stetigkeit von F . Dann gilt:
1. f ist Zufallsvariable, denn: f ist monoton wachsend, d.h. f (ω1) ≤ f (ω2), ω1 ≤ ω2,
und damit ist {f ≤ x} ein Intervall (in Ω), x ∈ R, also in B ∩ Ω.
2.
ω ≤ F (y) ⇔ f (ω) ≤ y,
167
y ∈ R,
⇒ {ω ∈ Ω : ω ≤ F (y)} = {ω ∈ Ω : f (ω) ≤ y}
⇒ P ({f ≤ y}) = λ1({ω ∈ Ω : ω ≤ F (y)})
= λ1((0, F (y)])
= F (y), y ∈ R.
2
Definition 9.8 F : R → [0, 1] ist Verteilungsfunktion :⇔ F erfüllt 1.–3. von Satz
9.5.
Definition 9.9 F sei Verteilungsfunktion; dann heißt
F −1(y) := inf{x ∈ R : F (x) ≥ y},
verallgemeinerte Inverse von F oder Quantilfunktion.
168
y ∈ (0, 1),
Satz 9.10 f sei eine auf (0, 1) gleichverteile Zufallsvariable und F eine beliebige Verteilungsfunktion. Dann besitzt die Zufallsvariable
g := F −1 ◦ f
die Verteilungsfunktion F .
Beweis: Siehe Übungen.
2
Definition 9.11 f = (f1, . . . , fn) sei n–dimensionaler Zufallsvektor, dann: F : Rn →
[0, 1] mit
F (y1, . . . , yn) := P ({f1 ≤ y1, . . . , fn ≤ yn})
ist die (n–dimensionale) Verteilungsfunktion oder gemeinsame Verteilungsfunktion von
f1 , . . . , f n .
Bemerkung
169
n = 1:
P ({f ∈ (x, y]}) = F (y) − F (x), x < y.
n = 2: Es sei x = (x1, x2), y = (y1, y2), xi < yi, i = 1, 2. Dann:
P ({(f1, f2) ∈ (x, y])}
= F (y1, y2) − F (y1, x2) − F (x1, y2) + F (x1, x2).
Diese Gleichungen lassen sich auf beliebige Dimensionen erweitern.
Satz 9.12 Die Zufallsvariablen f1, . . . , fn sind genau dann unabhängig, wenn für ihre
gemeinsame Verteilungsfunktion F gilt:
F (y1, . . . , yn) = F1(y1) · · · Fn(yn)
für (y1, . . . , yn) ∈ Rn, wobei Fi die Verteilungsfunktion zu fi ist, i = 1, . . . , n.
Beweis:
170
⇒“
”
!
F (y1, . . . , yn) = P
\
{fi ≤ yi}
Y 1≤i≤n
=
P ({fi ≤ yi})
1≤i≤n
=
Y
Fi(yi).
1≤i≤n
⇐“ Es gilt für y = (y1, . . . , yn) ∈ Rn:
”
!
\
Y
F (y) = P
{fi ≤ yi} =
P ({fi ≤ yi}),
1≤i≤n
1≤i≤n
171
d.h.
(P ∗ (f1, . . . , fn))((−∞, y])
= ((P ∗ f1) × · · · × (P ∗ fn))((−∞, y])
⇒ (P ∗ (f1, . . . , fn))(B)
= ((P ∗ f1) × · · · × (P ∗ fn))(B)
für B ∈ Bn (s. Maßtheorie)
⇒ (P ∗ (f1, . . . , fn))(B1 × · · · × Bn)
= ((P ∗ f1) × · · · × (P ∗ fn))(B1 × · · · × Bn)
für Bi ∈ B, i = 1 . . . , n,
⇒ P ({fi ∈ Bi, i = 1, . . . , n})
n
Y
=
P ({fi ∈ Bi})
i=1
172
für Bi ∈ B, i = 1, . . . , n, d.h. f1, . . . , fn sind unabhängig (s. 7.23).
2
Definition 9.13 Eine Zufallsvariable f ist diskret verteilt :⇔ Es existiert eine abzählbare Menge B = {b1, b2, . . .} ⊂ R mit P ({f ∈ B}) = 1.
Beispiele 9.14 Im folgenden sei f eine Zufallsvariable.
1. f besitzt Bernoulli–Verteilung mit Parameter p ∈ [0, 1], i.Z. B(1, p),
:⇔ P ({f = 1}) = p, P ({f = 0}) = 1 − p.
2. f besitzt Binomialverteilung mit den Parametern n ∈ N, p ∈ [0, 1], i.Z. B(n, p),
:⇔ P ({f = k}) = B(n,
p)({k})
n k
=
p (1 − p)n−k , k = 0, 1, . . . , n.
k
173
3. f besitzt Poisson–Verteilung mit dem Parameter λ > 0, i.Z. Pλ,
:⇔ P ({f = k}) = Pλ({k})
k
−λ λ
, k = 0, 1, . . .
= e
k!
4. f besitzt geometrische Verteilung zum Parameter p ∈ [0, 1]
:⇔ P ({f = k}) = p(1 − p)k−1, k = 1, 2, . . .
Bemerkung 9.15 f1, f2, . . . seien unabhängige, zum Parameter p ∈ [0, 1] Bernoulli–
verteilte Zufallsvariablen. Dann gilt:
1. f1 + · · · + fn ist B(n, p)–verteilt.
2. f := inf{m ∈ N : fm = 1} ist geometrisch verteilt zum Parameter p.
174
Beweis: Siehe Übungen.
2
Definition 9.16
1. Eine Verteilung Q auf B heißt absolutstetig :⇔ Q besitzt eine Dichte bzgl. λ1, d.h.
es existiert eine Borel–messbare Funktion h : R → [0, ∞) mit
Z
Q(B) =
h dλ1, B ∈ B.
B
2. Eine Zufallsvariable f heißt absolutstetig :⇔ P ∗ f ist absolutstetig.
Satz 9.17 f sei eine absolutstetige Zufallsvariable mit Dichte h und Verteilungsfunktion F . Dann gilt:
∂F (x)
,
h(x) = F 0(x) =
∂x
falls h an der Stelle x stetig ist.
175
Beweis: Es gilt:
F (x + ε) − F (x)
ε
P ({f ∈ (x, x + ε]})
=
ε
R
(x,x+ε] h(y) dy
=
ε
R
R
(x,x+ε] h(y) − h(x) dy
(x,x+ε] h(x) dy
=
+
ε
ε
=: I + II.
Offenbar gilt:
λ1((x, x + ε])
II = h(x)
= h(x),
ε
176
sowie
R
|I| ≤
R
≤
=
(x,x+ε] |h(y)
− h(x)| dy
ε
(x,x+ε] supz∈(x,x+ε] |h(z)
sup
− h(x)| dy
ε
|h(z) − h(x)| →ε→0 0,
z∈(x,x+ε]
wegen der Stetigkeit von h in x. Hieraus folgt die Behauptung.
2
Definition 9.18 Qa,b ist die Gleichverteilung auf (a, b) ⊂ R, −∞ < a < b < ∞ :⇔
Qa,b besitzt die Dichte
1
ha,b(x) :=
1(a,b)(x), x ∈ R.
b−a
177
Beispiel 9.19 f sei die Lebensdauer eines nicht alternden Objektes. Dabei bedeutet
keine Alterung:
P ({f > s + t|f > s}) = P ({f > t}),
t, s ≥ 0.
Es gilt also für t, s, ≥ 0:
P ({f > s + t}) = P ({f > s})P ({f > t}),
⇒ für G(y) := P ({f > y}) gilt:
G(s + t) = G(s)G(t)
⇒ ∃λ ≥ 0 : G(y) = exp(−λy)
(als einzige nicht identisch verschwindende monoton fallende Lösung obiger Funktio-
178
nalgleichung2)
⇒ F (y) := P ({f ≤ y})
= 1 − G(y)
= 1 − exp(−λy),
y ≥ 0.
Definition 9.20 Eine Zufallsvariable f ist exponentialverteilt zum Parameter λ > 0
:⇔ P ∗ f besitzt die Dichte
0,
x < 0,
h(x) :=
λ exp(−λx), x ≥ 0.
Offenbar gilt dann: F (x) = 1 − exp(−λx), x ≥ 0.
2
S. 133 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik, 6. Auflage. Vieweg, Braunschweig.
179
Definition 9.21 Der Zufallvektor f = (f1, . . . , fn) ist absolutstetig mit der Dichte h
:⇔
Z
P ({f ∈ B}) =
h dλn
ZB
h(x1, . . . , xn) dx1 · · · dxn, B ∈ Bn.
=
B
Satz 9.22 h : Rn → [0, ∞) sei integrierbar bzgl. λn und es gelte für den Zufallsvektor
f:
P ({fZ ≤ y})
Z
···
=
(−∞,y1 ]
h(x1, . . . , xn) dx1 · · · dxn
(−∞,yn ]
für y = (y1, . . . , yn) ∈ Rn. Dann ist h eine Dichte von f .
180
Beweisskizze: Aus der Voraussetzung folgt nach dem Satz von Fubini für jedes
y ∈ Rn :
Z
P ({f ∈ (−∞, y]}) =
h dλn
(−∞,y]
und hieraus (Maßtheorie, Fortsetzungssatz) für jedes B ∈ Bn:
Z
P ({f ∈ B}) =
h dλn
B
2
Satz 9.23 f1, . . . , fn seien Zufallsvariablen mit Dichten h1, . . . , hn. Dann gilt:
f1, . . . , fn sind unabhängig ⇔ f = (f1, . . . , fn) besitzt die Dichte
h(x1, . . . , xn) = h1(x1) · · · hn(xn),
Beweis:
181
(x1, . . . , xn) ∈ Rn.
⇒“ Für y = (y1, . . . , yn) ∈ Rn gilt:
”
P ({f ∈ (−∞, y]})
= P ({fi ≤ yi, i = 1, . . . , n})
n
Y
=
P ({fi ≤ yi})
=
i=1
n Z
Y
hi(xi) dxi
(−∞,yi ]
Zi=1
Z
=
···
h1(x1) · · · hn(xn) dxn · · · dx1
Z(−∞,y1]
Z(−∞,yn]
=
···
h(x1, . . . , xn) dxn · · · dx1
(−∞,y1 ]
(−∞,yn ]
⇒ Behauptung aus 9.22.
182
⇐“ Für y = (y1, . . . , yn) ∈ Rn gilt auf Grund des Satzes von Fubini:
”
P ({fZ∈ (−∞, y]})
h dλn
Z(−∞,y]
Z
=
···
h(x1, . . . , xn) dx1 · · · dxn
Z(−∞,y1]
Z(−∞,yn]
=
···
h1(x1) · · · hn(xn) dx1 · · · dxn
=
=
=
(−∞,y1 ]
n Z
Y
i=1
n
Y
(−∞,yn ]
hi(xi) dxi
(−∞,yi ]
P ({fi ≤ yi})
i=1
⇒ Behauptung aus 9.12.
183
2
Beispiel 9.24 (Buffonsches Nadelproblem) Eine Nadel der Länge 1 wird zufällig
auf ein Raster aus Parallelen mit dem einheitlichen Abstand 1 geworfen. Wie groß ist
die Wahrscheinlichkeit, dass die Nadel eine der Geraden schneidet?
Lösung: Annahmen:
1. Der Winkel ϕ zwischen der Geraden und der Nadel ist auf (0, π) gleichverteilt.
2. Der Abstand d des Nadelmittelpunktes zur nächsten Geraden ist auf (0, 1/2) gleichverteilt.
3. ϕ und d sind unabhängig.
Dann gilt nach 9.23
h(x1, x2) =
2
π
für 0 < x1 < π, 0 < x2 < 12 ,
0 sonst
184
ist gemeinsame Dichte des Zufallsvektors (ϕ, d).
Ferner sei A das Ereignis, dass die Nadel eine der Geraden schneidet, d.h.
1
A = ω ∈ Ω : d(ω) ≤ sin ϕ(ω) .
2
Mit
A0 =
(x1, x2) ∈ (0, π) × 0,
185
1
2
: x2 ≤
1
sin(x1)
2
folgt aus dem Satz von Fubini:
0
P (A) = P
({(ϕ,
d)
∈
A
}
Z
=
h dλ2
ZA0
2
=
dx1dx2
1
1
π
{(x1,x2)∈(0,π)×(0, 2 ) :x2≤ 2 sin(x
1 )}
!
Z
Z
2
=
dx2 dx1
1
(0,π)
(0, 2 sin(x1 )) π
Z
1 π
sin(x1) dx1
=
π 0
2
= .
π
2
186
Satz 9.25 f sei eine absolutstetige Zufallsvariable mit stetiger Dichte h, I ⊂ R
Intervall mit P ({f ∈ I}) = 1.
g : I → R sei differenzierbar mit g 0(x) > 0 für alle x ∈ I oder g 0(x) < 0 für alle
x ∈ I. Dann gilt:
g ◦ f ist absolutstetig mit der Dichte
h̃(y) = h(g −1(y))|(g −1)0(y)|
für alle y mit
inf g(x) < y < sup g(x)
x∈I
x∈I
und h̃(y) = 0 sonst.
Beweis: g ist auf I streng monoton und differenzierbar ⇒ g −1 ist definiert (auf g(I))
und differenzierbar (mit (g −1)0(y) = 1/g 0(g −1(y))).
187
1. ∀x ∈ I gelte g 0(x) > 0, d.h. g ist monoton wachsend
⇒ Fg◦f (y) =
=
=
0
⇒ Fg◦f
(y) =
P ({g ◦ f ≤ y})
P ({f ≤ g −1(y)})
Ff (g −1(y))
h(g −1(y))(g −1)0(y).
2. g 0 < 0 analog.
2
Bemerkung 9.26 Im obigen Satz kann die Stetigkeit von h ersatzlos gestrichen werden.3
3
S. 148 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik, 6. Auflage. Vieweg, Braunschweig.
188
Beispiel 9.27 Ein Teilchen trete mit einem Winkel ϕ zur x–Achse aus dem Nullpunkt
aus, wobei ϕ auf (−π/2, π/2) gleichverteilt sei. Im Abstand λ vom Nullpunkt sei ein
Schirm aufgestellt, auf den das Teilchen trifft. Die Koordinaten dieses Punktes seien
(λ, g) wobei g zufällig ist. Man bestimmt eine Dichte der Zufallsvariablen g.
Lösung: ϕ besitzt die Dichte
1
h(y) = 1(− π , π )(y),
2 2
π
da ϕ auf (−π/2, π/2) gleichverteilt ist.
Ferner gilt:
g = λ tan(ϕ),
wobei λ tan(x) streng monoton ist im Intervall (−π/2, π/2).
189
Nach 9.25, 9.26 besitzt g die Dichte
1∂
y hg (y) = arctan
π ∂y
λ 1 1 1
=
π 1 + y22 λ
λ
1
λ
=
,
y ∈ R.
π λ2 + y 2
2
Definition 9.28 Die Verteilung auf R mit der Dichte
hλ(y) :=
1
λ
,
2
2
π λ +y
heißt Cauchy–Verteilung mit Parameter λ > 0.
190
y ∈ R,
Satz 9.29 Ist eine Verteilungsfunktion F auf (R, B) überall differenzierbar, so ist F 0
eine Dichte von F.4
10
Momente
Definition 10.1 Es sei f ∈ L(Ω, A, P ). Dann heißt
Z
E(f ) := f dP
Erwartungswert von f (Mittelwert von P ∗ f ).
Bemerkung 10.2 Es gilt
Z
E(f ) =
Z
Ω
4
x (P ∗ f )(dx),
f dP =8.17
R
Natanson, I.P. (1975). Theorie der Funktionen einer Veränderlichen, 4. Auflage. Deutsch, Zürich.
191
d.h. E(f ) hängt nur von der Verteilung P ∗ f von f ab. Man schreibt daher auch
häufig
Z
x F (dx) := E(f ),
wobei F (x) := P ({f ≤ x}), x ∈ R (s. 9.6 bzw. 9.2).
Bemerkung 10.3 f, g seien Zufallsvariablen, α ∈ R, dann:
1. E(αf ) = αE(f ), E(f + g) = E(f ) + E(g), falls f, g ∈ L(Ω, A, P ).
2. E(f ) existiert ⇔ E(|f |) existiert, und in diesem Fall gilt: |E(f )| ≤ E(|f |).
3. Falls E(f ) existiert und |g| ≤ |f | ⇒ E(g) existiert.
Beweis: 8.13.
2
192
Satz 10.4 f sei eine diskret verteilte Zufallsvariable mit P ({f ∈ B}) = 1 für eine
abzählbare Teilmenge B von R. ϕ : R → R sei beliebig, g := ϕ ◦ f ; dann:
X
ϕ(x)P ({f = x}),
E(g) =
x∈B
falls diese Summe absolut konvergiert.
Beweis: S. Übungen.
2
Satz 10.5 f sei absolutstetige Zufallsvariable mit Dichte h, ϕ : R → R sei Bairesche
Funktion. Dann gilt für g := ϕ ◦ f :
Z
E(g) =
ϕ(x)h(x) dx
R
R
falls |ϕh| dλ1 < ∞.
193
Beweis:
Z
E(g)
ϕ ◦ f dP
=
ZΩ
ϕ d(P ∗ f )
=8.17
ZR
=8.23
ϕ(x)h(x) dx,
R
h = d(P ∗ f )/dλ1.
2
Definition 10.6 f sei Zufallsvariable, n ∈ Z+. Dann heißt, falls existent:
µn := E(f n)
n–tes Moment von f ,
194
speziell
µ := µ1 = E(f );
mn := E((f − µ)n)
n–tes zentriertes Moment von f ,
speziell
m2 := V (f ) := var(f ) =: σ 2(f )
Varianz von f;
E(|f |n) := n–tes absolutes Moment;
195
p
σ(f ) := σ 2(f )
p
=
E((f − µ)2) = E((f − µ)2)1/2
Standardabweichung oder Streuung von f .
Satz 10.7 E(f n) existiere ⇒ E(f m) existiert, 0 ≤ m ≤ n.
Beweis: Es gilt:
m
|f (ω)| ≤
|f (ω)|n, falls |f (ω)| ≥ 1
=: g(ω);
1,
falls |f (ω)| ≤ 1
E(g) ≤ 1 + E(|f |n) < ∞ ⇒8.13 Behauptung.
196
2
Satz 10.8 m1 = 0, σ 2 = µ2 − µ21 (= E(f 2) − E(f )2), m3 = µ3 − 3µµ2 + 2µ3.
Beweis:
m1 = E(f − µ) = E(f ) − E(µ) = µ − µ = 0;
σ2 =
=
=
=
=
E((f − µ)2)
E(f 2 − 2f µ + µ2)
E(f 2) − 2µE(f ) + µ2
µ2 − 2µ2 + µ2
µ2 − µ2;
197
m3 =
=
=
=
E((f − µ)3)
E(f 3) − E(3f 2µ) + E(3f µ2) − µ3
µ3 − 3µµ2 + 3µ3 − µ3
µ3 − 3µµ2 + 2µ3.
2
Satz 10.9 (Markoffsche Ungleichung) f sei Zufallsvariable, ε > 0. Dann gilt:
E(|f |)
.
P ({|f | ≥ ε}) ≤
ε
198
Beweis: Es gilt:
Z
E(|f |) =
|f (ω)| dP
ZΩ
≥
|f (ω)| P (dω)
Z{ω∈Ω: |f (ω)|≥ε}
≥
ε P (dω)
{ω∈Ω: |f (ω)|≥ε}
= εP ({|f | ≥ ε}).
2
Korollar 10.10 (Tschebyscheffsche Ungleichung) Für f ∈ L(Ω, A, P ) und ε >
0 gilt:
σ 2(f )
.
P ({|f − µ| ≥ ε}) ≤
2
ε
199
Beweis: Es gilt:
2
2
P ({|f − µ| ≥ ε}) = P ({(f − µ) ≥ ε }) ≤10.9
σ 2(f )
.
2
ε
2
Satz 10.11 (Schwarzsche Ungleichung) f, g seien Zufallsvariablen mit E(f 2) <
∞, E(g 2) < ∞. Dann ist f g ∈ L(Ω, A, P ) und es gilt:
E(f g)2 ≤ E(f 2)E(g 2).
Beweis:
1.
(f ± g)2 ≥ 0 ⇒ |2f g| ≤ f 2 + g 2 ⇒8.13 f g ∈ L(Ω, A, P )
200
2. Für alle x ∈ R gilt:
ϕ(x) := E((xf − g)2)
= x2E(f 2) − 2xE(f g) + E(g 2) ≥ 0
⇒ die quadratische Gleichung ϕ(x) = 0 besitzt höchstens eine Lösung
⇒ die Diskriminante dieser quadratischen Gleichung kann nicht positiv sein, d.h.
es gilt:
2
E(g 2)
E(f g)
−
≤0
2
2
E(f )
E(f )
⇒ Behauptung.
2
201
Satz 10.12 f1, . . .Q
, fn seien unabhängige Zufallsvariablen, fi ∈ L(Ω, A, P ), i =
1, . . . , n. Dann ist 1≤i≤n fi ∈ L(Ω, A, P ) und es gilt:
!
n
n
Y
Y
E
fi =
E(fi).
i=1
i=1
202
Beweis: O.E. sei n = 2. Dann gilt:
E(|f1f2|) Z
|f1f2| dP
=
ZΩ
|xy| (P ∗ (f1, f2))(d(x, y))
=8.17
ZR2
|xy| ((P ∗ f1) × (P ∗ f2))(d(x, y))
Z Z
=Fubini
|x||y| (P ∗ f1)(dx) (P ∗ f2)(dy)
ZR R
Z
=
|x| (P ∗ f1)(dx) |y| (P ∗ f2)(dy)
=
R2
R
=8.17
E(|f1|)E(|f2|).
R
2
203
Definition 10.13 f, g seien quadratintegrierbare Zufallsvariablen.
cov(f, g) := E ((f − E(f ))(g − E(g)))
= E(f g) − E(f )E(g)
ist die Kovarianz von f und g.
Ist zusätzlich σ 2(f ) > 0, σ 2(g) > 0, so heißt
cov(f, g)
%(f, g) :=
∈ [0, 1]
σ(f )σ(g)
Korrelationskoeffizient von f und g.
f und g heißen positiv bzw. un– bzw. negativ korreliert, falls
%(f, g) > 0 bzw. = 0 bzw. < 0.
Bemerkung %(f, g) > 0 (< 0) bedeutet anschaulich, dass f − E(f ) und g − E(g)
die Tendenz besitzen, das selbe (unterschiedliche) Vorzeichen zu haben.
204
Ferner kann %(f, g) als Maß für den Grad der linearen Abhängigkeit“ zwischen f
”
und g angesehen werden (s. folgenden Satz).
Satz 10.14 f, g seien Zufallsvariablen mit 0 < σ 2(f ), σ 2(g) < ∞. Dann gilt:
1. Falls f, g unabhängig sind ⇒ %(f, g) = 0.
2. Falls %(f, g) ∈ {−1, 1} ⇒ ∃a, b ∈ R :
P ({g = af + b}) = 1.
3. Die mittlere quadratische Abweichung E((f −(af +b))2) der linearen Approximation
von g durch af + b ist genau dann minimal, wenn
cov(f, g)
∗
∗
∗
a =
und
b
=
E(g)
−
a
E(f ).
σ 2(f )
In diesem Fall gilt:
2
∗
∗ 2
2
E((g − (a f + b )) ) = 1 − %(f, g) σ (g).
205
Beweis:
1.“ Folgt aus 10.12.
”
3.“ Es gilt:
”
E((g − af − b)2)
= a2E(f 2) + b2 + 2abE(f )
−2aE(f g) − 2bE(g) + E(g 2)
=: p(a, b),
a, b ∈ R.
p ist ein Polynom zweiten Grades in den Variablen a, b und besitzt genau ein Minimum für
cov(f, g) ∗
∗
a∗ =
,
b
=
E(g)
−
a
E(f )
2
σ (f )
(elementar mittels partieller Ableitungen).
206
2.“ Im Fall %(f, g) ∈ {−1, 1} folgt aus 3. E((g − (a∗f + b∗))2) = 0, d.h.
”
P ({|g − (a∗f + b∗)| =
6 0}) = 0,
d.h.
P ({g = a∗f + b∗}) = 1
(s. Übungen).
2
Bemerkung a∗ = cov(f, g)/σ 2(f ) ist ein geeignetes Mittel zur Vorhersage von g
aus f , sog. Regression von f auf g, da nach 10.14, 3.,
ĝ := E(g) + a∗(f − E(f ))
die beste lineare Approximation von g durch f darstellt.
a∗ heißt (einfacher) Regressionskoeffizient von g auf f und die Gerade
m(t) := a∗(t − E(f )) + E(g)
207
heißt Regressionsgerade von g auf f . Der Fehler
g − ĝ = g − m(f )
bei dieser Approximation heißt Residuum.
Falls E(g) = E(f ) = 0 und var(f ) = var(g) = 1, so folgt a∗ = cov(f, g) =
%(f, g) ∈ [−1, 1] und damit
ĝ = a∗f ⇒ |ĝ| = %(f, g)||f | ≤ |f |,
daher die Bezeichnung Regression“ (Rückschritt).
”
Satz 10.15 f1, . . . , fn seien quadratintegrierbare, unkorrelierte Zufallsvariablen (also
cov(fi, fj ) = 0, i 6= j. Dann gilt:
σ 2(f1 + · · · + fn) = σ 2(f1) + · · · + σ 2(fn).
208
Beweis:
σ 2(f1 + · · · + fn)
= E ((f1 + · · · + fn) − E(f1 + · · · + fn))2
2
= E ((f1 − E(f1)) + · · · + (fn − E(fn)))


X

= E
(fi − E(fi))(fj − E(fj ))
1≤i,j≤n
=
=
=
X
cov(fi, fj )
1≤i,j≤n
n
X
cov(fi, fi)
i=1
n
X
i=1
σ 2(fi).
209
2
Korollar 10.16 f1, . . . , fn seien unabhängige, quadratintegrierbare Zufallsvariablen.
Dann gilt:
σ 2(f1 + · · · + fn) = σ 2(f1) + · · · + σ 2(fn).
11
Gesetze der großen Zahlen
Bemerkung f, f1, f2, . . . seien Zufallsvariablen über (Ω, A, P ), dann gilt {limn∈N fn =
f } ∈ A, denn:
\ [ \
{lim fn = f } =
{|fn − f | < 1/k} ∈ A.
n∈N
k∈N m∈N n≥m
210
Definition 11.1
fn →n∈N
f P –f.s.
:⇔ P
lim fn = f
= 1,
n∈N
(fn konvergiert P –fast sicher gegen f ).
Satz 11.2 (f.s. Eindeutigkeit des Grenzwertes) Es gelte fn →n∈N f P –f.s.,
fn →n∈N f˜ P –f.s. ⇒ P ({f = f˜}) = 1, d.h. f = f˜ P –f.s.
211
Beweis:
{f = f˜} ⊃ lim fn = f ∩ lim fn = f˜
n∈N
n∈N
⇒ P ({f 6= f˜}) ≤ P
lim fn 6= f
n∈N
+P
lim fn 6= f˜
= 0.
n∈N
2
Satz 11.3 fi,n →n∈N fi P –f.s., i = 1, . . . , k, g : Rk → R stetig
⇒ g(f1,n, . . . , fk,n) →n∈N g(f1, . . . , fk ) P –f.s.
212
Beweis: Nach Voraussetzung existieren P –Nullmengen N1, . . . , Nk ∈ A mit fi,n(ω) →n∈N
fi(ω) für alle ω ∈ Nic, i = 1, . . . , k. Für alle ω ∈ (N1 ∪ · · · ∪ Nk )c gilt also
(f1,n(ω), . . . , fk,n(ω)) →n∈N (f1(ω), . . . , fk (ω))
und damit
g (f1,n(ω), . . . , fk,n(ω)) →n∈N g (f1(ω), . . . , fk (ω)) .
Da P ((N1 ∪ · · · ∪ Nk )c) = 1, folgt die Behauptung.
2
Beispiel 11.4 fn →n∈N f P –f.s., gn →n∈N g P –f.s. ⇒ fn + gn →n∈N f + g P –f.s.
Definition 11.5
P
fn → f
:⇔ ∀ε > 0 : lim P ({|fn − f | > ε}) = 0,
n∈N
(fn konvergiert in Wahrscheinlichkeit gegen f ).
213
P
P
Satz 11.6 (f.s. Eindeutigkeit des Grenzwertes) fn → f , fn → f˜ ⇒ f = f˜ P –
f.s.
Beweis: Es gilt für n ∈ N und ε > 0
{|f − f˜| > ε} ⊂ {|fn − f | > ε/2} ∪ {|fn − f˜| > ε/2}
und damit
P ({|f − f˜| > ε})
≤ P ({|fn − f | > ε/2}) + P ({|fn − f˜| > ε/2})
⇒ P ({|f − f˜| > ε}) = 0 für beliebiges ε > 0
!
[
⇒ P ({f 6= f˜}) = P
{|f − f˜| > 1/k}
X k∈N
≤
P ({|f − f˜| > 1/k}) = 0.
k∈N
214
2
P
Satz 11.7 fn →n∈N f P –f.s. ⇒ fn → f.
Beweis: O.b.d.A. sei f ≡ 0 (betrachte sonst f˜n := fn − f ). Mit
\ [
K := lim fn = 0 =
sup |fn| ≤ 1/k ∈ A
n∈N
k∈N m∈N
215
n≥m
gilt:
fn → 0 P –f.s.
c
⇔ P (K
 )=0



[ \ 


⇔ P
sup |fn| > 1/k  = 0


n≥m
k∈N m∈N
{z
}
|
↑ in k



\ 

sup |fn| > 1/k  = 0 für alle k ∈ N
⇔ P


n≥m
m∈N |
{z
}
↓ in m
⇔ lim P
sup |fn| > 1/k
=0
m∈N
n≥m
216
⇒ lim P ({|fm| > 1/k} = 0 für alle k ∈ N
m∈N
⇒ Behauptung.
2
Die Umkehrung von Satz 11.7 ist i.a. nicht richtig, wie folgendes Beispiel zeigt.
Beispiel 11.8 Setze (Ω, A, P ) := ([0, 1), B ∩ [0, 1), λ/B ∩ [0, 1)), f1 := 1[0,1), f2 :=
1[0,1/2), f3 := 1[1/2,1), f4 := 1[0,1/3), f5 := 1[1/3,2/3), . . . Offenbar gilt P ({|fn| > ε}) →n∈N
0, ε > 0, aber fn(ω) konvergiert für kein ω ∈ Ω gegen 0.
Satz 11.9 (Schw. Gesetz der großen Zahlen I) f1, . . . , fn seien identisch verteilte, quadratintegrierbare und unkorrelierte Zufallsvariablen, d.h. cov(fi, fj ) = 0 für
i 6= j. Dann gilt mit µ := E(f1), σ 2 := σ 2(f1) für ε > 0:
)!
( n
1 X
σ2
≤
f i − µ ≥ ε
P
2
n
nε
i=1
→ 0, falls n → ∞.
217
Beweis: Aus der Tschebyscheff–Ungleichung folgt:
( n
)!
1 X
P
fi − µ ≥ ε
n
i=1
( n
)!
X
= P
(fi − µ) ≥ nε
i=1
!
n
X
1
var
(fi − µ)
≤
2
2
nε
i=1
=10.15
nσ 2
.
2
2
nε
2
Korollar 11.10 (Schw. G. d. großen Zahlen II) fn, n ∈ N, sei eine Folge un218
abhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt:
n
1X P
fi → E(f1).
n i=1
Wie wir am Ende dieses Kapitels sehen werden, gilt sogar:
n
1X
fi →n∈N E(f1) P –f.s.
n i=1
Dies ist das Starke Gesetz der großen Zahlen. Die Gesetze der großen Zahlen decken
sich völlig mit unserer Anschauung und unserer Erfahrung. Es wird im mathematischen Modell die Erfahrungstatsache bestätigt, dass bei einer großen Anzahl n von
unabhängigen Wiederholungen des gleichen Experimentes die relative Häufigkeit
n
1X
1A(fi)
hn(A) =
n i=1
219
des Eintretens eines Ereignisses A in der Nähe der Wahrscheinlichkeit p := P ({f1 ∈
A}) liegt:
f1, f2, . . . seien unabhängig und identisch verteilt. Dann sind 1A(f1), 1A(f2), . . . unabhängig und identisch verteilt mit E(1A(f1)) = P ({f1 ∈ A}) = p sowie σ 2(1A(f1)) =
p(1 − p) und es gilt
P ({|hn(A)
(− p|n ≥ ε})
)!
1 X
(1A(fi) − p) ≥ ε
= P
n
i=1
p(1 − p)
≤
nε2
1
→n∈N 0,
≤
2
4nε
unabhängig von p. Beachte, dass p(1 − p) ≤ 1/4 für p ∈ [0, 1].
220
Satz 11.11 (Kolmogoroffsche Ungleichung) Für unabhängige Zufallsvariablen f1, . . . ,
mit E(fi) = 0, i = 1, . . . , k, und ε > 0 gilt:
j
(
)!
k
X 1 X 2
max P
fi ≥ ε
σ (fi).
≤ 2
1≤j≤k ε i=1
i=1
Pj
2
Beweis: O.E. sei σ (fi) < ∞, i = 1, . . . , k. Setze Sj := i=1 fi für j = 1, . . . , k
und
Aj := {|S1| < ε, . . . , |Sj−1| < ε, |Sj | ≥ ε}.
Die Ereignisse A1, . . . , Ak sind disjunkt, und für jedes j sind die Zufallsvariablen 1Aj Sj
und Sk − Sj unabhängig, da die erste nur von f1, . . . , fj und die zweite nur von
221
fj+1, . . . , fk abhängt. Es folgt:
k
X
σ 2(fj )
j=1
=10.16 σ 2(Sk ) = E(Sk2)
k
X
≥
E(1Aj Sk2)
=
j=1
k
X
E(1Aj (Sj + (Sk − Sj ))2)
j=1
≥10.12
=
≥
k
X


E(1A Sj2) + 2E(1A Sj ) E(Sk − Sj )
j
j
| {z }
j=1
=0
k Z
X
Sj2 dP 222
j=1
k
X
j=1
Aj
ε2P (Aj )
2
Satz 11.12
unabhängige, quadratintegrierbare Zufallsvariablen. Falls
Pfn, n ∈ N, seienP
die Reihen n∈N E(fn) und n∈N σ 2(fn) eigentlich konvergent sind, so existiert eine
Zufallsvariable S mit
n
X
Sn :=
fi →n∈N S P –f.s.
i=1
Beweis:
1. O.E.
Pn sei E(fn) = 0, n ∈ N (sonst Übergang zu
i=1 E(fi )).
223
Pn
i=1 fi
=
Pn
i=1 (fi
− E(fi)) +
224
2. Für ε > 0 und m ∈ N gilt;
P
sup |Sn − Sm| > ε
n>m

=
=
≤11.11
=


[ 

P
max |Sn − Sm| > ε 
m<n≤m+k


k∈N |
{z
}
↑ in k
lim P
max |Sn − Sm| > ε
k∈N
m<n≤m+k
m+k
1 X 2
σ (fn)
lim sup 2
ε
k∈N
n=m+1
X
1
2
σ
(fn).
2
ε n>m
225
Nach Voraussetzung gilt limm∈N n>m σ 2(fn) = 0, also
P
inf sup |Sn − Sm| > ε
m∈N n>m
!
\
≤ P
sup |Sn − Sm| > ε
P
m∈N
n>m
≤ lim inf P
m∈N
sup |Sn − Sm| > ε
n>m
= 0.
226
Das Cauchy–Konvergenzkriterium für reelle Zahlenfolgen ergibt nun:
P ({Sn
, n ∈ N, ist eigentlich konvergent})
1
= P
∀r ∈ N ∃m ∈ N : sup |Sn − Sm| <
r
n>m
!
\
1
= P
inf sup |Sn − Sm| <
m∈N n>m
r
r∈N
!
[
1
= 1−P
inf sup |Sn − Sm| ≥
m∈N n>m
r
r∈N
= 1.
2
227
Korollar 11.13 (St. G. d. gr.PZ. v. Kolmogoroff) Für jede Folge fn, n ∈ N, unabhängiger Zufallsvariablen mit n∈N σ 2(fn)/n2 < ∞ gilt:
n
1X
(fi − E(fi)) →n∈N 0 P –f.s.
n i=1
Beweis: O.E. gelte E(fn) = 0, n ∈ N. Nach 11.12 existiert eine Zufallsvariable T
mit
n
X
fi
Tn :=
→n∈N T P –f.s.
i
i=1
228
Beachte: var(fi/i) = var(fi)/i2. Damit folgt (T0 := 0):
n
1X
fi
n i=1
n
=
=
=
→n∈N
1X
i(Ti − Ti−1)
n i=1
1
n
n
X
i=1
iTi −
n
X
!
(i + 1)Ti + (n + 1)Tn
i=1
n
X
1
n+1
Tn −
Ti
n
n i=1
T − T = 0 P –f.s.
2
229
Korollar 11.14 fn, n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen.
Falls dann E(f12) < ∞, so gilt:
n
1X
fi →n∈N E(f1) P –f.s.
n i=1
Beweis: Es gilt
X σ 2(fn)
n∈N
n2
X 1
= σ (f1)
< ∞.
2
n
2
n∈N
Damit folgt die Behauptung aus 11.13. Beachte:
1
n
n
X
(fi − E(fi)) =
i=1
1
n
n
X
!
fi
− E(f1).
i=1
2
230
0
Satz
11.15
f
,
n
∈
N,
und
f
, n ∈ N, seien Folgen von Zufallsvariablen mit
n
n
P
0
P
({f
=
6
f
}) < ∞; f sei eine Zufallsvariable. Dann gilt:
n
n
n∈N
n
1X
fi →n∈N f P –f.s.
n i=1
n
1X 0
fi →n∈N f P –f.s.
⇔
n i=1
Beweis: Nach dem Lemma von Borel–Cantelli gilt mit An := {fn 6= fn0 }:
P (N1) := P ({fn 6= fn0 für unendlich viele n ∈ N})
= P (lim sup An) = 0.
n∈N
231
−1
Gilt nun n
Pn
i=1 fi
→n∈N f P –f.s., so existiert N2 ∈ A mit P (N2) = 0 und
n
1X
fi(ω) →n∈N f (ω) für alle ω ∈ N2c.
n i=1
Damit gilt für alle ω ∈ N1c ∩ N2c:
n
n
1X
1X 0
lim
fi (ω) = lim
fi(ω) = f (ω).
n∈N n
n∈N n
i=1
i=1
Da P (N1c ∩ N2c) = 1, folgt die Behauptung.
2
Satz 11.16 (St. G. d. gr. Z. von Khinchine) fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter Zufallsvariablen.
232
1. Falls f1 integrierbar ist, so ist E(fn) = E(f1) =: µ ∈ R und es gilt:
n
1X
fi →n∈N µ P –f.s.
n i=1
2. Falls es ein c ∈ R gibt mit der Eigenschaft:
n
1X
fi →n∈N c P –f.s.,
n i=1
so ist f1 integrierbar, und es gilt c = E(f1).
Beweis:
1.“ Die durch
”
fn(ω), falls |fn(ω)| ≤ n
0
sonst
= fn(ω)1[−n,n](fn(ω)), n ∈ N,
fn0 (ω) :=
233
definierten Zufallsvariablen sind unabhängig, und es gilt
X σ 2(f 0 )
n
n∈N
=
n2
X E(f 02) − E(f 0 )2
n
n2
n∈N
≤
n
X E(f 02)
n∈N
n
n2
n
X 1 X
2
≤
k
P ({k − 1 < |f1| ≤ k})
n2
n∈N
k=1


X
X 1
,
=
kP ({k − 1 < |f1| ≤ k}) k
2
n
k∈N
n≥k
234
wobei
X 1
X
1
≤ 2
n2
n(n + 1)
n≥k
n≥k
X 1
1
2
= 2
−
= ,
n n+1
k
n≥k
d.h. insgesamt
X σ 2(f 0 )
n
n∈N
n2
≤ 2
X
kP ({k − 1 < |f1| ≤ k})
k∈N
≤ 2(E(|f1|) + 1) < ∞,
s. Übungen.
235
Anwendung von 11.13 liefert:
n
1X 0
(fi − E(fi0)) →n∈N 0 P –f.s.
n i=1
Nach dem Satz von der dominierten Konvergenz gilt ferner:
E(fn0 )
= E(fn1[−n,n](fn))
= E(f11[−n,n](f1))
→n∈N E(f1) = µ,
Pn
Pn 0
−1
0
−1
also auch n
i=1 E(fi ) →n∈N µ und somit n
i=1 fi →n∈N µ P –f.s. Zu-
236
sammen mit
X
P ({fn 6=
fn0 })
=
n∈N
=
X
n∈N
X
P ({|fn| > n})
P ({|f1| > n})
n∈N
< ∞,
(da f1 integrierbar ist, s. Übungen) folgt die Behauptung 1. aus 11.15.
Pn
2.“ Mit Sn := i=1 fi gilt:
”
Sn
→n∈N c P –f.s.
n
fn Sn n − 1 Sn−1
⇒
=
−
→n∈N 0 P –f.s.
n
n n n − 1
fn ⇒ P –f.s.: > 1 für höchstens endl. viele n ∈ N,
n
237
d.h. in diesem Fall existiert n0 ∈ N so, dass |fn/n| ≤ 1 für alle n ≥ n0. Also gilt
mit An := {|fn/n| > 1}:
P lim sup An = 0.
n∈N
Da fn, n ∈ N, eine Folge unabhängiger Zufallsvariablen ist, sind die An, n ∈ N,
unabhängige Ereignisse, und somit folgt aus dem Lemma von Borel–Cantelli:
X
X
P (An) =
P ({|f1| > n})
∞>
n∈N
n∈N
und damit, dass f1 integrierbar ist (s. Übungen).
2
Korollar 11.17 Bei einer Folge unabhängiger Wiederholungen
f1, f2, . . . eines ExperiP
mentes konvergiert die relative Häufigkeit hn(A) = n−1 ni=1 1A(fi) des Eintritts eines
Ereignisses A fast sicher gegen die Wahrscheinlichkeit P ({f1 ∈ A}).
238
Beispiel 11.18 fn, n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen
mit der Verteilungsfunktion F . Dann gilt für die empirische Verteilungsfunktion oder
Stichproben-Verteilungsfunktion zur Stichprobe f1, . . . , fn:
n
1X
Fn(t) :=
1(−∞,t](fi) →n∈N F (t) P –f.s., t ∈ R.
n i=1
Beweis: Setze f˜n := 1(−∞,t](fn), n ∈ N. Dann sind f˜n, n ∈ N, unabhängig und
identisch verteilt mit
˜
E(fn) = E 1(−∞,t](f1) = P ({f1 ≤ t}) = F (t).
Damit folgt aus 11.16:
n
1X ˜
Fn(t) =
fi →n∈N E(f˜1) = F (t) P –f.s.
n i=1
239
2
Es gilt sogar die folgende Verschärfung der vorausgegangenen Aussage, die einen
Hauptsatz der Stochastik darstellt.
Satz 11.19 (Glivenko–Cantelli) fn, n ∈ N, seien unabhängige und identisch verteilte Zufallsvariablen mit Verteilungsfunktion F . Dann gilt:
sup |Fn(t) − F (t)| →n∈N 0 P –f.s.,
t∈R
d.h. die empirische Verteilungsfunktion konvergiert mit Wahrscheinlichkeit 1 gleichmäßig
über R gegen die zugrunde liegende Verteilungsfunktion.
Beweis: Die A–Messbarkeit von supt∈R |Fn(t) − F (t)| folgt aus der rechtsseitigen
Stetigkeit von Verteilungsfunktionen:
sup |Fn(t) − F (t)| = sup |Fn(t) − F (t)|.
t∈R
t∈Q
240
Setze nun tj,k := F −1(j/k), j = 1, . . . , k − 1, k ∈ N. Dann folgt:
Fn(tj,k ) →n∈N F (tj,k ) P –f.s.,
sowie
n
1X
Fn(tj,k − 0) =
1(−∞,tj,k )(fi) →n∈N F (tj,k − 0) P –f.s.,
n i=1
wobei F (tj,k − 0) = limε↓0 F (tj,k − ε) = P ({f1 < tj,k }).
Damit gilt (mit F (tj,k + 0) := F (tj,k )):
sup
|Fn(tj,k ± 0) − F (tj,k ± 0)| →n∈N 0 P –f.s.
j=1,...,k−1
Sei nun tj,k < t < tj+1,k . Dann gilt:
F (tj,k ) ≤ F (t) ≤ F (tj+1,k − 0),
Fn(tj,k ) ≤ Fn(t) ≤ Fn(tj+1,k − 0)
241
sowie
1
0 ≤ F (tj+1,k − 0) − F (tj,k ) ≤ .
|
{z
} | {z } k
≤ j+1
k
≥ kj
Es folgt:
Fn(t) − F (t) ≤ Fn(tj+1,k − 0) − F (tj,k )
≤ Fn(tj+1,k − 0) − F (tj+1,k − 0) +
und
Fn(t) − F (t) ≥ Fn(tj,k ) − F (tj+1,k − 0)
1
≥ Fn(tj,k ) − F (tj,k ) − .
k
242
1
k
Insgesamt erhalten wir:
sup |Fn(t) − F (t)|
t∈R
1
≤ sup |Fn(tj,k ± 0) − F (tj,k ± 0)| +
k
1≤j≤k
+ sup |Fn(t) − F (t)| + sup |Fn(t) − F (t)|.
t<t1,k
t>tk−1,k
Ferner gilt:
lim sup sup |Fn(t) − F (t)|
n∈N
t<t1,k
≤ lim sup(Fn(t1,k − 0) + F (t1,k − 0))
n∈N
2
≤
k
P –f.s.
243
sowie
lim sup sup |Fn(t) − F (t)|
t>tk−1,k
n∈N
!
≤ lim sup
n∈N
sup |Fn(t) − 1| + sup |1 − F (t)|
t>tk−1,k
t>tk−1,k
≤ lim sup (1 − Fn(tk−1,k ) + 1 − F (tk−1,k ))
n∈N




= 2 1 − F (tk−1,k )
| {z }
P –f.s.
≥ k−1
k
|
{z
≤ k1
}
Da k ∈ N beliebig war, folgt insgesamt die Behauptung.
244
2
Beispiel 11.20 fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt für das Stichprobenmittel:
n
1X
fi →n∈N E(f1) P –f.s.
µ̂n :=
n i=1
sowie für die Stichprobenvarianz:
n
σ̂n2
:=
=
1X
(fi − µ̂n)2
n i=1
1
n
n
X
i=1
→n∈N E(f12)
fi2
1
n
−
n
X
!2
fi
i=1
− E(f1)2 = σ 2(f1) P –f.s.
Ist ferner (fn, gn), n ∈ N, eine Folge unabhängiger, identisch verteilter Zufallsvekto245
ren und f1, g1 quadratintegrierbar mit 0 < σ 2(f1), σ 2(g1), so gilt für die Stichprobenkovarianz
!
!
n
n
n
1X
1X
1X
figi −
fi
gi
cov
c n :=
n i=1
n i=1
n i=1
→n∈N E(f1g1) − E(f1)E(g1) P –f.s.
= cov(f1, g1).
246
Damit gilt auch für den Stichprobenkorrelationskoeffizienten
%̂n
:=
=
→n∈N
=
−1
wobei ν̂n := n
Pn
i=1 gi
cov
cn
σ̂n(f )σ̂n(g) 1 Pn
Pn
Pn
1
1
i=1 fi gi − n
i=1 fi
i=1 gi
n
qn P
1 Pn
n
1
2
2
i=1 (fi − µ̂n )
i=1 (gi − ν̂n )
n
n
cov(f1, g1)
P –f.s.
σ(f1)σ(g1)
%(f1, g1)
das Stichprobenmittel von g1, . . . , gn ist.
247
Somit gilt für den (einfachen) Stichprobenregressionskoeffizienten
ân
:=
=
→n∈N
cov
cn
σ̂n2 (f1)
Pn
1
n
i=1 fi gi −
Pn 2
1
i=1 fi
n
1
n
Pn
−
1
n
Pn
i=1 fi
i=1 gi
2
Pn
1
i=1 fi
n
cov(f1, g1)
P –f.s.
σ 2(f1)
Die oben aufgeführten Schätzer konvergieren also mit Wahrscheinlichkeit 1 gegen
den jeweils zu schätzenden Wert, d.h. sie sind sog. (stark) konsistente Schätzerfolgen.
248
Ferner können wir mit obigen Schätzern nahe liegend eine Schätzung der Regressionsgeraden von g1 auf f1 definieren:
m̂n(t)
:= ân(t − µ̂n) + ν̂n
=: ânt + b̂n
→n∈N a∗(t − E(f1)) + E(g1) P –f.s., t ∈ R.
Die Gerade m̂n(t) erhält man auch, wenn eine Gerade at + b so gewählt wird, dass
die Summe der vertikalen Abstände der Datenpunkte (fi, gi), i = 1, . . . , n, von der
Geraden minimal wird, d.h.5
n
n
X
X
(gi − ânfi − b̂n)2 = min
(gi − afi − b)2.
a,b
i=1
i=1
Dies ist die Methode der kleinsten Quadrate, die auf Gauss zurück geht und zunächst
vorwiegend in der (Fehler–) Ausgleichsrechnung Verwendung fand.
5
S. etwa Abschnitt 13.4 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und Statistik, 6. Auflage. Vieweg, Braunschweig.
249
Bemerkung 11.21 Es gilt:

2 
n
n
X
X
1
1


fi −
E(σ̂n2 ) = E 
fj  
n i=1
n j=1

2 
n
1X 

fj 
= E  f1 −
n j=1

n−1 2
σ (f1),
=
n
d.h. σ̂n2 ist kein erwartungstreuer Schätzer, wohl aber

2
n
n
X
X
n
1
1
f i −
σ̃n2 :=
σ̂n2 =
fj  .
n−1
n − 1 i=1
n j=1
250
Beispiel 11.22 (Die Monte–Carlo Methode) Gesetze der großen Zahlen können
auch zur approximativen Berechnung von Integralen eingesetzt werden: R
Problem: g : [0, 1] → R sei eine (λ1–) integrierbare Funktion; bestimme [0,1] g(x) λ1(dx).
Dies ist häufig praktisch kaum möglich. Verschaffen wir uns nun eine Stichprobe
f1, . . . , fn unabhängiger und auf dem Intervall [0, 1] gleichverteilter Zufallsvariablen
(d.h. P ∗ fi = P ∗ f1 = λ1/[0, 1]), so gilt:
n
1X
g(fi) →n∈N E(g(f1)) P –f.s.
n i=1
Z
=8.17
g(x) λ1(dx).
[0,1]
Sind also x1, . . . , xn beobachtete Werte von f1, . . . , fn, d.h. xi = fi(ω), i = 1, . . . , n,
251
so gilt:
g(x1) + · · · + g(xn)
≈
g(x) dx.
n
[0,1]
x1, . . . , xn heißen auch Zufallszahlen. Zufallszahlen werden in der Praxis üblicherweise
vom Computer nach gewissen Algorithmen erzeugt. Da diese somit aber nicht wirklich“
”
zufällig sind, spricht man in diesem Fall von Pseudozufallszahlen. Sie sollten sich wie
echte“ Zufallszahlen verhalten, tun das aber nicht immer. . . 6
” S. Bemerkung (3.43) in Georgii, H.-O. (2002). Stochastik. De Gruyter, Berlin.
Z
6
252
12
Der Zentrale Grenzwertsatz
fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer
Zufallsvariablen. Setze µ := E(f1). Wir hatten in Kapitel 11 gesehen, dass
n
1X
fi →n∈N µ P –f.s.
n i=1
bzw.
P
( n
)!
1 X
fi − µ ≥ ε
→n∈N 0
n
i=1
für alle ε > 0. Wir können nun fragen: Falls wir das feste ε durch eine Folge εn > 0,
n ∈ N, mit εn →n∈N 0 ersetzen, wie schnell darf dann εn gegen 0 konvergieren, so
253
dass
( n
)!
1 X
P
fi − µ ≥ ε n
→n∈N c ∈ (0, 1)?
n
i=1
√
Wir werden sehen, dass dies für εn ∼ 1/ n der Fall ist; genauer wird für t > 0 gelten:
( n
)!
1 X
σt
→n∈N 2(1 − Φ(t)),
P
fi − µ ≥ √
n
n
i=1
wobei
Z
t
2
1
x
Φ(t) := √
exp −
dx
2
2π −∞
und σ 2 := σ 2(f1). Dies wird eine unmittelbare Folgerung aus dem Zentralen Grenzwertsatz sein, den wir in diesem Abschnitt beweisen werden.
254
Satz 12.1 f, g seien unabhängige Zufallsvariablen mit Verteilungsfunktion F bzw. G.
Dann besitzt f + g die Verteilungsfunktion
Z
(F ∗ G)(t) =
G(t − s) (P ∗ f )(ds)
Z
=
G(t − s) F (ds)
Z
=
F (t − s) (P ∗ g)(ds)
Z
=
F (t − s) G(ds)
.
F ∗ G heißt Faltung von F und G.
255
Beweis: Es gilt:
(F ∗ G)(t)
=
P
Z ({f + g ≤ t})
1(−∞,t](f + g) dP
=
ZΩ
=8.17
ZR2
1(−∞,t](r + s) (P ∗ (f, g))(d(r, s))
1(−∞,t](r + s) ((P ∗ f ) × (P ∗ g))(d(r, s))
Z Z
=Fubini
1(−∞,t](r + s)(P ∗ g)(ds)(P ∗ f )(dr)
ZR ZR
=
1(−∞,t−r](s)(P ∗ g)(ds)(P ∗ f )(dr)
ZR R
=
G(t − r) (P ∗ f )(dr).
=
R2
R
256
2
Satz 12.2 f, g seien unabhängige Zufallsvariablen mit Dichte h1 bzw. h2. Dann besitzt
f + g die Dichte
Z
Z
(h1 ∗ h2)(t) :=
h1(t − s)h2(s) ds =
h2(t − s)h1(s) ds.
R
R
257
Beweis: F bzw. G sei die Verteilungsfunktion von f bzw. g. Nach 12.1 besitzt f + g
die Verteilungsfunktion
(F ∗ G)(t)Z
G(t − s) F (ds)
=
Z
G(t − s)h1(s) ds
ZR Z
=
h2(r) dr h1(s) ds
ZR Z(−∞,t−s]
=Subst.
h2(r − s) dr h1(s) ds
Z
ZR (−∞,t]
=Fubini
h2(r − s)h1(s) ds dr
Z(−∞,t] R
=Def.
(h1 ∗ h2)(r) dr.
258
=8.23
(−∞,t]
Nach dem Maßerweiterungssatz 6.16, 6.19, 9.6 folgt hieraus die Behauptung.
2
Definition 12.3 Das Wahrscheinlichkeitsmaß auf B1 mit der Dichte7
2
1
x
ϕ(x) := √ exp −
, x ∈ R,
2
2π
heißt Standardnormalverteilung, i.Z.
R N (0, 1). Die Verteilungsfunktion von N (0, 1) bezeichnen wir mit Φ, d.h. Φ(x) = (−∞,x] ϕ(y) dy.
Bemerkung 12.4 Die Zufallsvariable f sei nach N (0, 1) verteilt. Dann gilt:
1. E(f ) = 0,
2. σ 2(f ) = 1.
7
S. etwa Satz 19.1. in Bandelow, C. (1989). Einführung in die Wahrscheinlichkeitstheorie. BI, Mannheim.
259
Beweis:
1.“ S. Übungen (beachte, dass ϕ(x) = ϕ(−x), x ∈ R.
”
260
2.“ Es gilt:
”
Z
∞
x2ϕ(x) dx
−∞
Z
∞
2
1
x
√
dx
x x exp −
2
2π −∞
2 ∞
x
1
=part. Int. √
x − exp −
2
2π
−∞2 Z ∞ 1
x
dx
−√
1 − exp −
2
2π −∞
Z
=
∞
=
ϕ(x) dx
−∞
=
1.
2
261
Satz 12.5 Die Zufallsvariable f sei N (0, 1)–verteilt; σ > 0, µ ∈ R. Dann besitzt die
Zufallsvariable g := σf + µ die Dichte
1
x−µ
ϕ(µ,σ2)(x) := ϕ
σ
σ
2
(x − µ)
1
, x ∈ R.
= √
exp −
2
2σ
2πσ
Die zugehörige Verteilung heißt Normalverteilung mit Mittelwert µ und Varianz σ 2,
i.Z. N (µ, σ 2),
(denn E(g) = E(σf + µ) = µ, σ 2(g) = E((g − µ)2) = E((σf )2) = σ 2E(f 2) = σ 2).
Beweis: S. Übungen.
2
262
Satz 12.6 (Faltungsth. der Normalverteilung) f1, . . . , fn seien unabhängige Zufallsvariablen mit P ∗ fi = N (µi, σi2), i = 1, . . . , n. Dann gilt:
P ∗ (f1 + · · · + fn) = N (µ1 + · · · + µn, σ12 + · · · + σn2 ).
Beweis: Offenbar genügt es, den Fall n = 2 zu betrachten. Zunächst gilt für x, a, b ∈
R und σ 2, τ 2 > 0:
(x − a)2 (x − b)2
+
σ2
τ2
(x − c)2 (a − b)2
=
+ 2
2
%
σ + τ2
mit
aτ 2 + bσ 2
c := 2
,
2
σ +τ
263
σ 2τ 2
% := 2
.
2
σ +τ
2
(2)
Ferner besitzt f1 + f2 nach 12.2 die Dichte
Z ∞
ϕ(µ1,σ2)(y − x)ϕ(µ2,σ2)(x) dx
h(y) =
1
2
−∞
Z ∞
(y − x − µ1)2
1
exp −
=
2πσ1σ2 −∞
2σ12
2
(x − µ2)
× exp −
dx
2
2σ2
Z ∞
2
1
(x − c)
=(2)
exp −
2πσ1σ2 −∞
2%2
2
(y − µ1 − µ2)
dx
× exp −
2(σ12 + σ22)
2
(y − µ1 − µ2)
= const exp −
2(σ12 + σ22)
= ϕ(µ1+µ2,σ2+σ2)(y).
1
2
264
2
Definition 12.7 f, fn, n ∈ N, seien Zufallsvariablen über (Ω, A, P ) mit Verteilungsfunktionen F, Fn, n ∈ N.
fn, n ∈ N, heißt in Verteilung oder schwach konvergent gegen f , falls
Fn(t) →n∈N F (t)
für alle Stetigkeitsstellen von F , d.h.
P ({fn ≤ t}) →n∈N P ({f ≤ t}),
falls F (t) = P ({f ≤ t}) in t stetig ist, i.Z.
fn →D f
(in distribution).
265
Beispiel 12.8 Es gelte P ∗ fn = δ1/n, n ∈ N, wobei δx0 das Dirac–Maß (Ein–Punkt–
Maß) im Punkt x0 bezeichne, d.h. δx0 (B) = 1B (x0) = 1, falls x0 ∈ B, und 0 sonst,
B ∈ B. Offenbar gilt:
1, t ≥ 1/n
Fn(t) =
0, t < 1/n.
Dann gilt:
fn →D f
mit Verteilungsfunktion
F (t) = 1[0,∞)(t) = Fδ0 ,
denn offenbar gilt
Fn(t) →n∈N F (t), t 6= 0, aber 0 = Fn(0), F (0) = 1.
Die Verteilungskonvergenz einer Folge fn, n ∈ N, ist eine Aussage über die Verteilungen von fn. Sie ist daher von anderem Charakter als die fast sichere Konvergenz
266
oder die Konvergenz in Wahrscheinlichkeit, da sich Zufallsvariablen mit identischer
Verteilung beliebig unterscheiden können.
Tatsächlich ist sie die schwächste der drei Konvergenzarten, was die Bezeichnung
schwache Konvergenz“ rechtfertigt.
”
P
Satz 12.9 fn → f ⇒ fn →D f .
Beweis: ∀ε > 0 ∃n0 ∈ N ∀n ≥ n0 : P ({|f − fn| > ε}) < ε. Wegen
{f ≤ x − ε} ⊂ {fn ≤ x} ∪ {|fn − f | > ε},
{fn ≤ x} ⊂ {f ≤ x + ε} ∪ {|fn − f | > ε}
gilt für alle n ≥ n0
Ff (x − ε) ≤ Ffn (x) + ε, Ffn (x) ≤ Ff (x + ε) + ε,
also
Ff (x − ε) − ε ≤ Ffn (x) ≤ Ff (x + ε) + ε,
267
d.h. Ffn (x) →n∈N Ff (x) für alle Stetigkeitsstellen von Ff .
2
Beispiel 12.10 Setze Ω := {−1, 1}, A := P(Ω), P (A) := |A|/2, A ⊂ Ω, fn(ω) :=
ω(−1)n, n ∈ N, f (ω) := ω. Dann gilt:
1. fn →D f (denn P ∗ fn = P ∗ f für alle n ∈ N),
P
2. fn →
6 f (denn P ({|fn − f | > 1}) = 1 für alle ungeraden n).
Definition 12.11 Setze K∞ := Menge der beliebig oft differenzierbaren Funktionen
ψ : R → R mit ψ(x) = 0 für alle |x| hinreichend groß.
Satz 12.12 Für Zufallsvariablen f, fn, n ∈ N, gilt:
fn →D f
⇔ E(ψ(fn)) →n∈N E(ψ(f )) für alle ψ ∈ K∞.
268
Beweis:
⇒“ Sei ψ ∈ K∞. Wähle a, b so, dass
”
{x ∈ R : ψ(x) 6= 0} ⊂ I := (a, b]
mit
a, b 6∈ U := {x ∈ R : x Unstetigkeitsstelle von Ff }.
U ist abzählbar (s. Übungen), also ist U c dicht in R. Daher und wegen der
gleichmäßigen
Pm Stetigkeit von ψ auf [a, b] existiert zu ε > 0 eine Treppenfunktion e = i=1 aiI(ti−1,ti] mit a = t0 < t1 < · · · < tm = b, ti 6∈ U , i = 0, 1, . . . , m,
so dass
sup |ψ(x) − e(x)| < ε.
x∈I
Somit gilt:
|E(ψ(fn)) − E(e(fn))| ≤ E(|ψ(fn) − e(fn)|) ≤ ε
269
und ebenso
|E(ψ(f )) − E(e(f ))| ≤ E(|ψ(f ) − e(f )|) ≤ ε.
Für e gilt nun:
E(e(fn))
=
=
→n∈N
m
X
i=1
m
X
i=1
m
X
aiP ({fn ∈ (ti−1, ti]})
ai (Ffn (ti) − Ffn (ti−1))
ai (Ff (ti) − Ff (ti−1))
i=1
=
E(e(f )).
270
Wir erhalten also insgesamt:
lim sup |E(ψ(fn)) − E(ψ(f ))|
n∈N
= lim sup |E(ψ(fn)) − E(e(fn))
n∈N
+E(e(fn)) − E(e(f )) + E(e(f )) − E(ψ(f ))|
≤ 2ε.
Hieraus folgt die Behauptung.
⇐“ Ist I ein beschränktes Intervall, dessen Randpunkte a, b Stetigkeitsstellen von Ff
”
sind, so existieren ein abgeschlossenes Intervall A und ein offenes Intervall O mit
A ⊂ (a, b) ⊂ I ⊂ [a, b] ⊂ O
und
(P ∗ f )(O\A) < ε.
271
Ferner existieren8 ψ, ξ ∈ K∞ mit
1 A ≤ ψ ≤ 1I ≤ ξ ≤ 1O .
Damit folgt:
(P ∗ fn)(A) =
≤
≤
≤
≤
8
S. etwa 7.23 (f) in Walter, W. (1991). Analysis 2, 3. Auflage. Springer, Berlin.
272
E(1A(fn))
E(ψ(fn))
(P ∗ fn)(I)
E(ξ(fn))
(P ∗ fn)(O)
sowie
(P ∗ f )(A) =
≤
≤
≤
≤
E(1A(f ))
E(ψ(f ))
(P ∗ f )(I)
E(ξ(f ))
(P ∗ f )(O).
Es folgt aus (P ∗ f )(O) − (P ∗ f )(A) < ε:
lim sup |(P ∗ fn)(I) − (P ∗ f )(I)| < ε.
n∈N
Da ε > 0 beliebig war, folgt:
(P ∗ fn)(I) →n∈N (P ∗ f )(I).
Sei nun x eine Stetigkeitsstelle der Verteilungsfunktion Ff von P ∗ f . Ferner seien
273
x = x1 > x2 > . . . Stetigkeitsstellen von Ff mit
[
(xk+1, xk ].
(−∞, x] =
k∈N
Dann gilt mit Qn := P ∗ f , Q := P ∗ fn und Ik := (xk+1, xk ]:
X
Qn((−∞, x]) =
Qn(Ik )
≥
k∈N
X
Qn(Ik )
k≤K
für ein beliebiges K ∈ N und damit
lim inf Qn((−∞, x]) ≥
n∈N
X
k≤K
274
Q(Ik ),
d.h.
lim inf Qn((−∞, x]) ≥
n∈N
X
Q(Ik ) = Q((−∞, x]).
k∈N
Andererseits folgt mit diesen Argumenten
lim sup Qn((−∞, x])
n∈N
= lim sup Qn(1 − (x, ∞))
n∈N
= 1 − lim inf Qn((x, ∞))
n∈N
≤ 1 − Q((x, ∞))
= Q((−∞, x])
und somit insgesamt
lim Qn((−∞, x]) = Q((−∞, x]).
n∈N
275
2
Lemma 12.13 f1, f2, f3 seien Zufallsvariablen, f3 sei von f1 und von f2 unabhängig.
Dann gilt für alle stetigen und beschränkten Funktionen ψ : R → R:
E (ψ(f1 + f3) − ψ(f2 + f3)) ≤ sup |E(ψ(f1 + q) − ψ(f2 + q))|.
q∈Q
276
Beweis: Es gilt:
E (ψ(f1 + f3) − ψ(f2 + f3)) Z =Fubini E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3)(dx)
Z ≤
E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3)(dx)
≤
sup |E(ψ(f1 + x) − ψ(f2 + x))|
x∈R
=
sup |E(ψ(f1 + q) − ψ(f2 + q))|.
q∈Q
2
Satz 12.14 (Zentraler Grenzwertsatz) fn, n ∈ N, sei eine Folge unabhängiger,
identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt mit µ :=
277
E(f1), σ 2 := σ 2(f1) für t ∈ R:
)!
(
n
1 X fi − µ
√
≤t
P
n i=1 σ
2
Z t
1
x
→n∈N Φ(t) := √
exp −
dx
2
2π −∞
⇔
1
√
n
n
X
i=1
!
fi − µ
→D f, P ∗ f = N (0, 1).
σ
Beweis:
1. O.E. sei µ = 0, σ 2 = 1, sonst Übergang zu f˜n := (fn − µ)/σ, n ∈ N.
2. fn∗, n ∈ N, sei eine Folge unabhängiger, N (0, 1)–verteilter Zufallsvariablen. Für
278
diese Folge gilt bereits nach 12.6
∗
∗
f1 + · · · + fn
√
P∗
= N (0, 1),
n
d.h.
(
)!
n
1 X ∗
√
= Φ(t), t ∈ R, n ∈ N,
P
fi ≤ t
n i=1
und damit
E(ψ(Tn∗)) = E(ψ(f )) für alle ψ ∈ K∞,
wobei
f1∗ + · · · + fn∗
√
:=
n
und f eine nach N (0, 1)–verteilte Zufallsvariable ist.
√
Zu zeigen ist nun nach 12.12 mit Tn := (f1 + · · · + fn)/ n:
E(ψ(Tn)) →n∈N E(ψ(f )) für alle ψ ∈ K∞,
Tn∗
279
d.h.
E(ψ(Tn) − ψ(Tn∗)) →n∈N 0 für alle ψ ∈ K∞.
3. Da die Behauptung lediglich die Verteilung der fi, i ∈ N, betrifft, können wir
annehmen, dass die fi und die fi∗ auf demselben Wahrscheinlichkeitsraum (Ω, A, P )
definiert sind und sämtlich voneinander unabhängig sind.
Taylor–Entwicklung liefert nun für x, u ∈ R und ψ ∈ K∞
ψ(x + u)
x2
0
00
= ψ(u) + ψ (u)x + ψ (u + ϑx,ux)
2
2
x
= ψ(u) + ψ 0(u)x + ψ 00(u) + r(x, u)x2,
2
00
wobei 0 < ϑx,u < 1 und r(x, u) := (ψ (u + ϑx,ux) − ψ 00(u))/2.
Da die Funktion ψ 00 stetig ist und ψ 00(x) = 0 für |x| hinreichend groß (d.h. ψ 00
besitzt einen kompakten Träger), ist ψ 00 beschränkt und gleichmäßig stetig, d.h. es
280
gilt
sup |r(x, u)| < ∞ und sup |r(x, u)| →x→0 0.
x,u
u
4. Es gilt:
ψ(Tn) − ψ(Tn∗)
∗
∗
f1 + · · · + f n
f1 + · · · + fn
√
√
= ψ
−ψ
n
n
n ∗
X
f1 + · · · + fi + fi+1
+ · · · + fn∗
√
=
ψ
n
i=1
∗
∗
f1 + · · · + fi−1 + fi + · · · + fn
√
−ψ
n
n
∗
X
fi
fi
√
√
=
+ Ui − ψ
+ Ui
,
ψ
n
n
i=1
281
wobei
∗
f1 + · · · + fi−1 + fi+1
+ · · · + fn∗
√
Ui :=
n
√
√
von fi/ n und fi∗/ n unabhängig ist, i = 1, . . . , n. Nach 12.13 gilt daher
|E(ψ(Tn) − ψ(Tn∗))|
∗
n X
fi
fi
√
√
≤
+
U
−
ψ
+
U
E
ψ
i
i
n
n
i=1
∗
n
X
f
f
i
i
≤
sup E ψ √ + q − ψ √ + q
n
n
q∈Q
i=1 ∗
f1
f1
.
= n sup E ψ √ + q − ψ √ + q
n
n
q∈Q
282
Nach 3. gilt
f1
ψ √ +q
n
2
2
f
f
f1
f
1
1
1
0
00
= ψ(q) + ψ (q) √ + ψ (q) + r √ , q
,
2n
n
n
n
∗
f
ψ √1 + q
n
∗ ∗2
∗2
∗
f
f1
f
f1
1
1
00
0
= ψ(q) + ψ (q) √ + ψ (q)
+ r √ ,q
.
2n
n
n
n
283
Wegen E(f1) = E(f1∗) = 0 und E(f12) = E(f1∗2) = 1 folgt damit:
∗
|E(ψ(Tn) − ψ(T
))|
n
∗ 2
∗2
f1
f1
f1
f1
r √ ,q −
r √ ,q
≤ n sup E
n
n
n
n
q∈Q
!
f1
2
≤ E f1 sup r √ , q n
q∈Q
∗ !
f1
∗2
+E f1 sup r √ , q n
q∈Q
→n∈N 0
nach 3. und dem Satz von der dominierten Konvergenz.
2
284
Dieselben Argumente wie beim Beweis des Satzes von Glivenko–Cantelli führen zu
der folgenden Verschärfung des obigen Satzes.
Korollar 12.15 Unter den Voraussetzungen von 12.14 gilt:
(
)!
n
1 X fi − µ
√
sup P
≤t
− Φ(t) →n∈N 0.
σ
n
t∈R i=1
Korollar 12.16 (Satz von Moivre–Laplace) Die Zufallsvariablen fi, iP
∈ N, seien
n
unabhängig und B(1, p)–verteilt mit p ∈ (0, 1). Dann gilt mit Sn :=
i=1 fi für
−∞ ≤ t1 ≤ t2 ≤ ∞ :
)!
(
Sn − np
≤ t2
P
t1 ≤ p
np(1 − p)
2
Z t2
1
x
→n∈N √
exp −
dx,
2
2π t1
285
bzw.
max B(n, p)({k1, k1 + 1, . . . , k2})
k1 ,k2 ∈{0,...,n} √k2 −np
np(1−p)
−
1
√
2π
Z
√k1 −np
np(1−p)
2 x
exp −
dx
2
→n∈N 0.
Beweis: Es gilt E(fi) = p, σ 2(fi) = p − p2 = p(1 − p). Die erste Behauptung folgt
nun unmittelbar aus dem Zentralen Grenzwertsatz.
286
p
p
Ferner gilt mit t1 = (k1 − np)/( np(1 − p), t2 = (k2 − np)/( np(1 − p):
(
)!
Sn − np
t1 ≤ p
P
≤ t2
np(1 − p)
= P ({k1 ≤ Sn ≤ k2})
= B(n, p)({k1, k1 + 1, . . . , k2}),
s. Übungen. Die zweite Behauptung folgt damit aus 12.15.
2
Es ist also nach dem Satz von Moivre–Laplace möglich, die Wahrscheinlichkeit
B(n, p)({k1, k1 + 1,
. . . , k2}), deren exakte Berechnung auf die Summation unhandli
cher Ausdrücke nk pk (1 − p)n−k hinausläuft, näherungsweise mittels der Verteilungsfunktion Φ zu berechnen, wenn n groß ist.
Beispiel 12.17 (Macht entschloss. Minderheit) An einer Stichwahl zwischen den
beiden Kandidaten A und B nehmen 1 Million Wähler teil. 2000 Wähler unterwer287
fen sich der Parteidisziplin und stimmen geschlossen für Kandidat A. Die übrigen
998000 Wähler sind mehr oder weniger unentschlossen und treffen ihre Entscheidung
unabhängig voneinander durch Werfen einer (fairen) Münze. Wie groß ist die Wahrscheinlichkeit pA für einen Sieg von A?
Lösung: A siegt genau dann, wenn er mehr als 498000 der Stimmen der 998000 unentschlossenen Wähler erhält. Die Anzahl f der A–Stimmen dieser Wähler ist B(998000, 1/2)
288
verteilt. Es folgt:
pA = P ({f

> 498000})


 f − 998000 1 498000 − 998000 1 

2
2 
q
>
= P q



1
1
1
1
 998000
998000 2 2 
22





 f − 998000 1


2
> −2, 002 
≈ P q



 998000 1 1
22
≈ 1 − Φ(−2, 002)
= Φ(2, 002)
≈ 0, 977.
289
(Zum Vergleich: Abschätzung mittels der Tschebyscheff–Ungleichung ergibt:





 f − 998000 1


2
≤ −2, 002 
1 − pA ≈ P  q



 998000 1 1
22




 f − 998000 1 
 
2
≤ P q
≥ 2, 002 


 998000 1 1 
22
1
≤
2, 0022
1
≈
4
3
≥ .)
⇒ pA ∼
4
290
2
Beispiel 12.18 Es gilt:
lim
n∈N
exp(−n)
n
X
i=0
i
n
i!
!
1
= .
2
Beweis: f1, f2 seien unabhängige, Poisson–verteilte Zufallsvariablen zu den Parametern λ1 bzw. λ2 > 0, d.h. es gilt für i = 1, 2:
λki
P ({fi = k}) = exp(−λi) ,
k!
291
k = 0, 1, . . .
Dann ist f1 + f2 Poisson–verteilt zum Parameter λ1 + λ2:
P ({f1 + f2 = k})
∞
X
=
P ({f1 + f2 = k, f1 = i})
=
=
i=0
k
X
i=0
k
X
P ({f2 = k − i, f1 = i})
P ({f2 = k − i})P ({f1 = i})
i=0
k
X
λi1
λk−i
2
exp(−λ1)
=
exp(−λ2)
(k
−
i)!
i!
i=0
k 1 X k i k−i
= exp(−(λ1 + λ2))
λλ
k! i=0 i 1 2
292
(λ1 + λ2)k
= exp(−(λ1 + λ2))
,
k!
k = 0, 1, . . .
Ferner gilt E(f1) = λ1, σ 2(f1) = λ1.
Es sei nun fi, i ∈ N, eine Folge unabhängiger, identisch zum Parameter 1 Poisson–
verteilter Zufallsvariablen. Dann gilt nach dem Zentralen Grenzwertsatz:
(
)!
n
1
1 X
√
(fi − 1) ≤ 0
→n∈N Φ(0) = .
P
2
n i=1
Andererseits gilt:
(
n
X
1
√
(fi − 1) ≤ 0
P
n i=1
( n
)!
X
= P
fi ≤ n
i=1
= exp(−n)
n
X
ni
i=0
293
i!
,
)!
da
Pn
i=0 fi
Poisson–verteilt ist zum Parameter n.
2
Der folgende Satz macht eine Aussage über die Konvergenzgeschwindigkeit beim
Zentralen Grenzwertsatz.
Satz 12.19 (Berry–Esseen) Es seien f1, f2, . . . unabhängige und identisch verteilte
Zufallsvariablen. Ist 0 < σ 2 :=Var(f1) < ∞, γ := E(|f1 − µ|3) < ∞ mit µ := E(f1),
so gilt:
(
)!
n
1 X fi − µ
√
sup P
≤x
− Φ(x)
n i=1 σ
x∈R γ 1
≤ 0, 8 3 √ .
σ n
Beweis: S. Gänssler, P. und Stute, W. (1977).
294
2
Eine weitere direkte Anwendung des Zentralen Grenzwertsatzes führt zu sog. Konfidenzinte
(Vertrauensintervallen). Der einfachste Fall ist der folgende: Angenommen, fn, n ∈ N,
ist eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen mit bekannter Varianz σ 2, aber unbekanntem Mittelwert µ, der geschätzt werden
soll.
Pn
−1
Mit dem arithmetischen Mittel µ̂n := n
i=1 fi erhalten wir eine Punktschätzung
für µ. Allerdings wird µ̂n um den wahren Wert µ (zufällig) schwanken. Es erscheint
daher vernünftig, zusätzlich zur Punktschätzung µ̂n ein Intervall
In := [µ̂n − c, µ̂n + c]
(mit dem Mittelpunkt µ̂n) anzugeben, von dem man weiß, dass es den unbekannten
Mittelwert µ mit hoher Wahrscheinlichkeit enthält. Dies ist eine Bereichsschätzung von
µ.
Problem: Wie soll c > 0 gewählt werden?
295
Einerseits natürlich möglichst klein, um eine gute (Bereichs–)Schätzung für µ zu
erhalten.
Andererseits darf c nicht zu klein gewählt werden, da In den Wert µ mit hoher
Wahrscheinlichkeit enthalten soll.
Eine Lösung dieses Zielkonfliktes bietet der Zentrale Grenzwertsatz wie folgt: Wir
wissen, dass für t ≥ 0 gilt:
(
)!
n
1 X fi − µ
−t ≤ √
P
≤t
n i=1 σ
→n∈N Φ(t) − Φ(−t)
= 2Φ(t) − 1,
296
wobei
(
)!
n
X
1
fi − µ
−t ≤ √
P
≤t
n i=1 σ
tσ
tσ
µ̂n − √ ≤ µ ≤ µ̂n + √
= P
n
n
tσ
tσ
.
= P
µ ∈ µ̂n − √ , µ̂n + √
n
n
Wählen wir also
tσ
c := cn := √
(→n∈N 0!),
n
so erhalten wir
P ({µ ∈ In}) →n∈N 2Φ(t) − 1.
Dabei wählen wir nun t > 0 so, dass 2Φ(t) − 1 gleich der (hohen) vorgegebenen
Wahrscheinlichkeit sein soll, sagen wir 1 − α, mit der µ in In liegen soll. Ein typischer
297
Wert wäre 1 − α = 0, 95.
Es soll also gelten:
α
2Φ(t) − 1 = 1 − α ⇔ t = Φ
1−
,
2
d.h. t =(1 − α/2)–Quantil der Standardnormalverteilung, i.Z. uα/2. Damit erhalten
wir
uα/2σ
uα/2σ
→n∈N 1 − α
P
µ ∈ µ̂n − √ , µ̂n + √
n
n
und
uα/2σ
uα/2σ
In(α) := µ̂n − √ , µ̂n + √
n
n
heißt Konfidenzintervall (für µ) zum (asymptotischen) Niveau 1 − α.
Beachte, dass, wenn P ∗ fi = N (µ, σ 2), d.h. fi selbst normalverteilt, i = 1, 2, . . . ,
aus dem Faltungstheorem der Normalverteilung 12.6 sofort folgt:
−1
P (µ ∈ In(α)) = 1 − α.
298
Literatur
[1] Georgii, H.–G. (2002). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und
Statistik. De Gruyter, Berlin.
[2] Gänssler, P. und Stute, W. (1977). Wahrscheinlichkeitstheorie. Springer, Heidelberg.
[3] Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und Statistik. 6.
Auflage. Vieweg, Braunschweig.
[4] Walter, W. (1991). Analysis 2. 3. Auflage. Springer, Heidelberg.
299
Herunterladen