Stochastik I - Lehrstuhl für Mathematik VIII - Statistik

Werbung
Stochastik I
Lehrstuhl für Mathematische Statistik
Universität Würzburg
Prof. Dr. Michael Falk
Inhaltsverzeichnis
1 Das Kolmogoroffsche Axiomensystem
1
2
2
Erste Folgerungen aus dem Axiomensystem
3 Grundlagen der Kombinatorik
8
4 Vermischte Aufgaben
12
5 Bedingte Wahrscheinlichkeiten
14
6 Unabhängigkeit
19
7 Zufallsvariablen
29
8 Integrationstheorie
39
9 Verteilungen und ihre Charakterisierungen
54
10 Momente
65
11 Gesetze der großen Zahlen
72
12 Der Zentrale Grenzwertsatz
85
2
1
Das Kolmogoroffsche Axiomensystem
[A. N. Kolmogoroff (1933)] Seit Euklid werden bei einem rein geometrischen Aufbau der Geometrie die Grundbegriffe Punkt“ und Gerade“ nicht
”
”
explizit definiert, sondern axiomatisch eingeführt.
1. Man vermittelt zunächst bewusst eine vage Vorstellung von dem, was
mit den Grundbegriffen gemeint ist, um die Theorie später anwenden
zu können ( Ein Punkt ist, was keinen Teil hat“, Eine Gerade ist
”
”
eine Linie, die gleich liegt mit den Punkten auf ihr selbst“ (Euklid)).
Die vage Vorstellung wird dann im Verlauf der Beschäftigung mit der
Theorie zwangsläufig immer präziser.
2. Man beschreibt mittels Axiomen“, welche Beziehungen zwischen den
”
Grundbegriffen bestehen.
Analog gehen wir nun bei der Axiomatisierung der Stochastik vor. Im ersten
Axiom fordern wir die Existenz von Wahrscheinlichkeiten.
Axiom 1’ Ist Ω die Menge der möglichen Ergebnisse eines Experimentes (d.h. genau ein ω ∈ Ω tritt bei der Durchführung des Experimentes
ein), so ist jeder Teilmenge A ⊂ Ω eine reelle Zahl P (A) ≥ 0 zugeordnet,
Wahrscheinlichkeit von A genannt, die den Grad der Sicherheit angibt, mit
dem A eintritt.
Axiom 2 P (Ω) = 1.
Axiom 3 (σ–Additivität von P ) S
Für eine Folge
P A1 , A2 , . . . paarweise disjunkter Teilmengen von Ω gilt: P ( n∈N An ) = n∈N P (An ).
Das System 1’,2,3 ist zu einschränkend, wie der folgende Satz zeigt.
Satz (G. Vitali 1905) Es existiert kein P zu Ω = [0, 1), welches die Axiome
1’,2 und 3 erfüllt und zusätzlich translationsinvariant ist, d.h. P (Ac ) = P (A)
für Ac := {a + c (mod 1) : a ∈ A}, c ≥ 0.
Beweis: Siehe Übungen.
2
Axiom 1’ wird nun abgeschwächt, indem P nicht mehr auf der gesamten
Potenzmenge P(Ω) = {A : A ⊂ Ω} definiert wird.
Axiom 1 Ist Ω die Menge der möglichen Ergebnisse eines Experimentes, so
ist einigen (nicht notwendig allen) Teilmengen von Ω, Ereignisse genannt,
eine reelle Zahl P (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die
den Grad der Sicherheit angibt, mit dem A eintritt.
ˆ Ω ist ein Ereignis.
ˆ Das Komplement Ac = Ω\A eines Ereignisses A ist ein Ereignis.
ˆ Der Durchschnitt von zwei Ereignissen ist ein Ereignis.
ˆ Die Vereinigung von abzählbar vielen disjunkten Ereignissen ist ein
Ereignis.
Definition 1.1 Ω sei eine nichtleere Menge. Dann heißt A ⊂ P(Ω) (= Potenzmenge von Ω) σ–Algebra über Ω:⇔
1. Ω ∈ A,
2. A ∈ A ⇒ Ac ∈ A,
3. A, B ∈ A ⇒ A ∩ B ∈ A
4. Ai ∈ A, i ∈ N, Ai ∩ Aj = ∅ für i 6= j ⇒
S
i∈N
Ai ∈ A.
Definition 1.2 (Ω, A) heißt messbarer Raum :⇔ A ist σ–Algebra über
nichtleerer Menge Ω.
Definition 1.3 (Ω, A) sei messbarer Raum. Eine Funktion P : A → R+ =
[0, ∞), die die Axiome 2 und 3 erfüllt, heißt Wahrscheinlichkeitsmaß. Das
Tripel (Ω, A, P ) heißt in diesem Fall Wahrscheinlichkeitsraum.
2
Erste Folgerungen aus dem Axiomensystem
Satz 2.1 (Ω, A) messbarer Raum, An ∈ A, n ∈ N. Dann gilt:
S
(i) n∈N An ∈ A,
T
(ii) n∈N An ∈ A,
(iii)
lim sup An := {ω ∈ Ω : ω liegt in ∞ vielen An }
n∈N
=
∞ [
\
An ∈ A,
m=1 n≥m
(iv)
lim inf An := {ω ∈ Ω : ω liegt in fast allen An }
n∈N
=
∞ \
[
m=1 n≥m
Beweis:
2
An ∈ A,
(i) Setze B1 := A1 , Bn := An \(A1 ∪ . . . ∪ An−1S
) = An ∩ Ac1S∩ . . . ∩ Acn−1 ∈
A. Bn , n ∈ N, sind paarweise disjunkt mit n∈N An = n∈N Bn ∈ A.
(ii)
\
An =
\
n∈N
An
c c
=
n∈N
[
Acn
c
∈ A.
n∈N
(iii) und (iv) folgen unmittelbar aus (i), (ii).
2
Korollar 2.2 Ω 6= ∅, A ⊂ P(Ω). Dann: A ist σ–Algebra ⇔
(i) Ω ∈ A,
(ii) A ∈ A ⇒ Ac ∈ A,
(iii) An ∈ A, n ∈ N ⇒
S
n∈N
An ∈ A.
Satz 2.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum. Dann gilt:
(i) P (∅) = 0,
(ii) P (A1 ∪ . . . ∪ An ) =
Pn
i=1
P (Ai ), falls A1 , . . . , An paarweise disjunkt,
(iii) 0 ≤ P (A) ≤ 1 stets,
(iv) A ⊂ B (∈ A) ⇒ P (A) ≤ P (B) (Monotonie von P ),
(v) P (Ac ) = 1 − P (A).
Beweis:
(i)
∅ = ∅ ∪ ∅ ∪ ...
⇒ P (∅) = P (∅) + P (∅) + . . .
⇒ P (∅) = 0.
(ii) Wegen P (∅) = 0 gilt:
P (A1 ∪ . . . ∪ An ) = P (A1 ∪ . . . ∪ An ∪ ∅ ∪ . . .)
= P (A1 ) + . . . + P (An ) + 0 + . . .
(v)
Ω = A ∪ Ac ⇒ 1 = P (Ω) = P (A) + P (Ac )
⇒ P (Ac ) = 1 − P (A).
3
(iii) Folgt unmittelbar aus (v):
0 ≤ P (A) = 1 − P (Ac ) ≤ 1.
| {z }
≥0
(iv)
⇒(ii)
B = A ∪ (B\A) = A ∪ (B ∩ Ac )
P (B) = P (A) + P (B\A) ≥ P (A).
2
Im folgenden sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A1 , . . . , An ∈ A. |M |
bezeichnet die Anzahl der Elemente einer Menge M (Mächtigkeit von M ).
Satz 2.4 (Allgemeiner Additionssatz)
!
X
P (A1 ∪ . . . ∪ An ) =
=
(−1)
∅6=T ⊂{1,...,n}
n
X
k−1
(−1)
|T |−1
P
\
Ai
i∈T
Sk
k=1
mit
X
Sk :=
P Ai1 ∩ Ai2 ∩ · · · ∩ Aik .
1≤i1 <i2 <...<ik ≤n
Beispiel: Im Fall n = 2 ergibt sich
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ).
Im Fall n = 3 ergibt sich
P (A1 ∪ A2 ∪ A3 )
= P (A1 ) + P (A2 ) + P (A3 )
−P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+P (A1 ∩ A2 ∩ A3 ).
Beweis: Mittels vollständiger Induktion; ”+” bedeutet Vereinigung disjunkter Mengen.
Der Fall n = 2:
A1 ∪ A2 = A1 + (A2 \A1 ),
A2 = (A2 ∩ A1 ) + (A2 \A1 )
⇒ P (A1 ∪ A2 ) = P (A1 ) + P (A2 \A1 ),
P (A2 ) = P (A2 ∩ A1 ) + P (A2 \A1 )
⇒ P (A1 ∪ A2 ) − P (A1 ) = P (A2 ) − P (A2 ∩ A1 )
⇒ Behauptung für den Fall n = 2.
4
Der Induktionsschritt n → n + 1:
P ((A1 ∪ . . . ∪ An ) ∪ An+1 )
= P ((A1 ∪ . . . ∪ An )) + P (An+1 )
−P ((A1 ∩ An+1 ) ∪ (A2 ∩ An+1 ) ∪ . . .
∪(An ∩ An+1 ))
!
X
\
=
(−1)|T |−1 P
Ai + P (An+1 )
i∈T
∅6=T ⊂{1,...,n}
!
X
−
(−1)|T |−1 P
\
Ai ∩ An+1
i∈T
∅6=T ⊂{1,...,n}
!
X
=
\
(−1)|T |−1 P
Ai
+ P (An+1 )
i∈T
∅6=T ⊂{1,...,n+1}, n+16∈T
!
X
+
(−1)|T |−1 P
\
Ai
i∈T
T ⊂{1,...,n+1}, n+1∈T, T ∩{1,...,n}6=∅
!
=
X
(−1)|T |−1 P
\
Ai
.
i∈T
∅6=T ⊂{1,...,n+1}
2
Satz 2.5 Sei Bk das Ereignis, dass genau k der Ereignisse A1 , . . . , An eintreten, d.h. ω ∈ Bk ⇔ ω ∈ Ai für genau k der Indizes i = 1, . . . , n. Dann
gilt:
!
X
\
|U |
P (Bk ) =
(−1)|U |−k P
Ai
k
i∈U
U ⊂{1,...,n}, |U |≥k
n X
m
=
(−1)m−k Sm ,
k
m=k
Sm wie in Satz 2.4, S0 := 1.
Bemerkung
B0 = (A1 ∪ . . . ∪ An )c ⇒ P (B0 ) = 1 − P (∪1≤i≤n Ai ) =2.4
Pn
m
m=0 (−1) Sm .
Beweis:
!
Bk =
X
S⊂{1,...,n}, |S|=k
\
i∈S
5
Ai
!!
∩
\
i∈S c
Aci
,
(disjunkte Zerlegung von Bk ). Es folgt:
P (Bk )
!
X
=
\
P
!!
\
∩
Ai
i∈S c
i∈S
S⊂{1,...,n}, |S|=k
!c
(
X
=
\
1−P
!!)
[
∪
Ai
(
X
Ai
i∈S c
i∈S
S⊂{1,...,n}, |S|=k
=2.4
Aci
!c !
"
\
1− P
Ai
i∈S
S⊂{1,...,n}, |S|=k
!
X
+
\
(−1)|T |−1 P
∅6=T ⊂S c
Ai
i∈T
!c
−P
[
\
i∈S c
j∈S
!!#)
∩ Ai
Aj
(
X
=
!
\
P
Ai
i∈S
S⊂{1,...,n}, |S|=k



\ 


 Ai 
i∈T 
| {z }
 =C
 X

(−1)|T |−1 P
−

c
∅6=T ⊂S
−
X
|T |−1
(−1)
∅6=T ⊂S c


P 


|




!c



\
\ 
 ;
Aj ∩
Ai 


j∈S
i∈T


{z } | {z }

=C
=Dc
c
=
wegen P (C) − P (D ∩ C) = P (C ∩ D) folgt
(
!
X
\
P
Ai
i∈S
S⊂{1,...,n}, |S|=k




−
(−1)|T |−1 P 

∅6=T ⊂S c
|
X




!
!


\
\

Aj ∩
Ai 

j∈S
i∈T



{z
}


T
=
i∈S∪T
Ai
!
=
X
X
(−1)|T | P
S⊂{1,...,n}, |S|=k T ⊂S c
\
Ai
i∈S∪T
!
=
X
X
(−1)|U |−k P
S⊂{1,...,n}, |S|=k U ⊃S, U ⊂{1,...,n}
\
Ai
.
i∈U
T
Der Summand (−1)|U |−k P
i tritt hierbei so oft auf, wie es k–elementige
i∈U A
Teilmengen S von U gibt, also |Uk | –mal. Hieraus folgt der erste Teil der Be6
hauptung sowie
=
n X
m
m=k
k
!
X
m−k
(−1)
P
U ⊂{1,...,n}, |U |=m
|
\
Ai
.
i∈U
{z
=Sm
}
2
Satz 2.6 Sei Ck das Ereignis, dass mindestens k der Ereignisse A1 , . . . , An
eintreten. Dann gilt:
n X
m−1
P (Ck ) =
(−1)m−k Sm .
k
−
1
m=k
Beweis:
P (Ck )
=
=2.5
=
n
X
P (Bj )
j=k
n X
n X
m
(−1)m−j Sm
j
j=k m=j
!
n
m X
X
m
(−1)m−j Sm .
j
m=k
j=k
Für die innere Summe folgt aus der Beziehung nk = n−1
+
k
m
m
m
−
+
− ...
m
m−1
m−2
m−k m
+(−1)
k
m−1
m−1
m−1
=
+
−
m−1
m−1
m
{z
}
| {z } |
=0
=0
m−1
m−k m − 1
−
+ . . . + (−1)
m−2
k
|
{z
}
=0
m−k m − 1
+(−1)
k−1
m−k m − 1
= (−1)
.
k−1
n−1
k−1
:
2
Bemerkung Der Allgemeine Additionssatz 2.4 ist in 2.6 enthalten (k = 1).
Bemerkung Zur Geschichte der Stochastik: Briefwechsel (1654) zwischen P.
Fermat und B. Pascal (u.a. wg. Chevalier de Méré); inzwischen stürmische
Entwicklung (A.N. Kolmogoroff (1933)−→ . . .)
7
3
Grundlagen der Kombinatorik
Definition 3.1 Ein Wahrscheinlichkeitsraum (Ω, A, P ) heißt Laplace–Experiment :⇔ |Ω| < ∞ und alle einelementigen Teilmengen von Ω sind Ereignisse
mit der gleichen Wahrscheinlichkeit.
Satz 3.2 (Ω, A, P ) Laplace–Experiment, A ⊂ Ω. Dann gilt:
|A|
|Ω|
Anzahl der für A günstigen Ausgänge
.
=
Anzahl aller möglichen Ausgänge
P (A) =
Satz 3.3 (Additionsprinzip der Kombinatorik) Für disjunkte endliche
Mengen A1 , A2 gilt:
|A1 + A2 | = |A1 | + |A2 |.
Korollar Für disjunkte endliche Mengen A1 , . . . , Ak gilt:
|A1 ∪ . . . ∪ Ak | = |A1 | + . . . + |Ak |.
Satz 3.4 (Multiplikationssatz der Kombinatorik) A1 sei eine Menge
der Mächtigkeit n1 ∈ Z+ = N ∪ {0}, B2 eine beliebige Menge und n2 ∈
Z+ . Jedem a1 ∈ A1 sei genau eine n2 –elementige Teilmenge B(a1 ) ⊂ B2
zugeordnet, und es sei
A2 := {(a1 , a2 ) : a1 ∈ A1 , a2 ∈ B(a1 )}.
Dann gilt: |A2 | = n1 n2 .
Beweis: Folgt aus 3.3.
2
Korollar 3.5 |A1 | = n1 ∈ Z+ , B1 , . . . , Bn seien beliebige Mengen und n2 , . . . ,
nk ∈ Z+ . Für i = 1, . . . , k − 1 sei jedem i–Tupel (a1 , . . . , ai ) ∈ Ai eine ni+1 –
elementige Teilmenge B(a1 , . . . , ai ) ⊂ Bi+1 zugeordnet, und es sei
Ai+1 := {(a1 , . . . , ai , ai+1 ) : (a1 , . . . , ai ) ∈ Ai ,
ai+1 ∈ B(a1 , . . . , ai )},
(Definition durch Induktion (Rekursion)). Dann gilt:
|Ak | = n1 n2 . . . nk .
8
Korollar |A1 × A2 × . . . × Ak | = n1 n2 · · · nk , falls |Ai | = ni , i = 1, . . . , k.
Obiges Korollar ergibt speziell für Ai = A, i = 1, . . . , k: | A
. . × A} | =
| × .{z
k mal
|Ak | = |A|k .
Die Menge Ak aller k–Tupel von Elementen aus A heißt geordnete Probe zu
A vom Umfang k mit Wiederholung.
Satz 3.6 Es gibt nk geordnete Proben zu einer n–elementigen Menge vom
Umfang k mit Wiederholung.
Beispiel A,
endliche Mengen, B A := Menge aller Abbildungen von A nach
B
B. Dann: B A = |B||A| .
Korollar 3.7 Eine n–elementige Teilmenge besitzt 2n verschiedene Teilmengen.
Beweis: A sei eine n–elementige Menge, dann: |{0, 1}A | = 2|A| ; |Menge aller
Abbildungen von A → {0, 1}| = |P(A)|.
2
Ein k–Tupel (a1 , . . . , ak ) ∈ Ak mit ai 6= aj für j 6= i heißt geordnete Probe
aus A vom Umfang k ohne Wiederholung.
Satz 3.8 Zu einer n–elementigen Menge gibt es (n)k := n(n−1) · · · (n−k+1)
geordnete Proben vom Umfang k ≥ 1 ohne Wiederholung.
Beweis: Für eine geordnete Probe (a1 , . . . , ak ) vom Umfang k ohne Wiederholung gilt: a1 ∈ A, a2 ∈ A\{a1 }, a3 ∈ A\{a1 , a2 }, . . . , ak ∈ A\{a1 , . . . , ak−1 }.
Aus dem Multiplikationsprinzip, genauer 3.5, folgt nun die Behauptung. 2
Speziell für k = n erhalten wir
Satz 3.9 n verschiedene Elemente können auf (n)n = n! verschiedene Arten
angeordnet werden, d.h. es existieren n! Permutationen einer n–elementigen
Menge.
Eine ungeordnete Probe vom Umfang k mit bzw. ohne Wiederholung erhalten wir, indem wir geordnete Proben, die sich nur in der Reihenfolge
unterscheiden, identifizieren. Die ungeordneten Proben vom Umfang k ohne
Wiederholung sind demnach einfach die k–elementigen Teilmengen von A.
9
Satz 3.10 Eine n–elementige Menge besitzt
n!
n
(n)k
=
=
k!
k!(n − k)!
k
verschiedene k–elementige Teilmengen.
Beweis: Eine geordnete Probe vom Umfang k ohne Wiederholung besteht
aus einer k–elementigen Teilmenge und einer Anordnung. Es gibt k! verschiedene Möglichkeiten der Anordnung (3.9), also (3.8):
(n)k = Anzahl der k–elementigen Teilmengen × k!.
Hieraus folgt die Behauptung.
2
Korollar 3.11 (i) Es gibt nk Möglichkeiten, k unterscheidbare Kugeln auf
n unterscheidbare Urnen zu verteilen.
(ii) Es gibt (n)k Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen, dass keine Urne mehr als eine Kugel
enthält.
(iii) Es gibt nk Möglichkeiten, k ununterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen, dass keine Urne mehr als eine Kugel
enthält.
Satz 3.12 Es gibt
k
k1 , k2 , . . . , kn
:=
k!
k1 !k2 ! · · · kn !
Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare Urnen zu
verteilen, dass genau ki Kugeln in die Urne Nummer i kommen (ki ≥ 0,
i = 1, . . . , n; k1 + k2 + . . . + kn = k).
Beweis: Es gibt
k
Möglichkeiten der k1
k1
k − k1
Möglichkeiten der k2
k2
.. ..
. .
k − k1 − . . . − kn−2
kn−1
Kugeln für Urne 1
Kugeln für Urne 2
..
.
Möglichkeiten der kn−1
Kugeln für Urne n − 1.
10
Ausmultiplikation liefert nun:
Möglichkeiten insgesamt
k
k − k1
k − k1 − . . . − kn−2
=
···
k1
k2
kn−1
(k − k1 )!
k!
×
× ...
=
k1 !(k − k1 )! k2 !(k − k1 − k2 )!
(k − k1 − . . . − kn−2 )!
×
kn−1 !(k − k1 − . . . − kn−1 )!
k!
=
.
k1 ! · · · kn !
2
k
Bemerkung Die Größen k1 ,...,k
heißen Polynomialkoeffizienten. Wegen
n
n
n
= k,n−k verallgemeinern sie die Binomialkoeffizienten nk .
k
Korollar 3.13
(a1 + . . . + an )k
X
=
k1 ≥0,...,kn ≥0, k1 +...+kn =k
Korollar 3.14
k
ak1 ak2 · · · aknn .
k1 , . . . , kn 1 2
(i)
n X
n
k
k=0
= 2n .
(ii)
r X
n
m
m+n
=
.
k
r−k
r
k=0
(iii)
n 2
X
n
k=0
k
2n
=
.
n
Beweis:
(i) Zerlegung der Potenzmenge einer n–elementigen Menge gemäß Mächtigkeit der Teilmenge; 3.7 ⇒ Behauptung.
(ii) m+n
= Anzahl der r–elementigen Teilmengen von {1, . . . , n, n+1, . . . ,
r
m+n}. Die Anzahl der Möglichkeiten, hierbei k Elemente aus {1, . .. , n}
m
.
und somit r − k aus {n + 1, . . . , n + m} auszuwählen, ist nk r−k
2
n (iii) Folgt mit m = r = n aus (ii) wegen nk = nk n−k
.
2
4
Vermischte Aufgaben
Aufgabe 4.1 Aus einer Schulklasse mit 20 Schülern wird eine Woche lang
(5 Tage) jeden Morgen ein Schüler zufällig ausgewählt. Wie groß ist die
Wahrscheinlichkeit, dass mindestens 1 Schüler mehrmals ausgewählt wird?
Lösung: Laplace–Experiment mit Ω = {1, . . . , 20}5 , |Ω| = 205 ; ungünstige
Fälle: alle geordneten Proben vom Umfang 5 ohne Wiederholung, d.h. (20)5 .
Also:
gesuchte Wahrscheinlichkeit
=
205 − (20)5
205
= 1−
20 × 19 × . . . × 16
= 0, 4186.
205
2
Aufgabe 4.2 Sack mit N Nüssen, darunter S schlechte Nüsse. Gezogen wird
eine Stichprobe vom Umfang n. Wie groß ist die Wahrscheinlichkeit p(s),
dass in der Stichprobe genau s schlechte Nüsse sind, s = 0, 1, . . . , n?
.
Lösung: {1, . . . , S} = Menge der schlechten Nüsse von {1, .. . , N }. Laplace–
Experiment mit Ω = {A ⊂ {1, . . . , N } : |A| = n}, |Ω| = Nn . Dann:
p(s)
=
|A ∈ Ω mit |A ∩ {1, . . . , S}| = s|
N
n
=
S
s
N −S
n−s
N
n
=: HN,S,n (s).
HN,S,n heißt Hypergeometrische Verteilung zu den Parametern N , S, n (Qualitätskontrolle).
2
Aufgabe 4.3 Skatspiel: 32 Karten, 3 Spieler, je 10 Karten; Skat“ mit 2
”
Karten. Es gibt vier Buben.
(i) Spieler A habe 2 Buben. Wie groß ist die Wahrscheinlichkeit, dass die
Spieler B und C jeweils 1 Buben besitzen?
22
Lösung: Es gibt 10,10,2
mögliche Verteilungen der 22 Karten, die A
nicht besitzt, auf B,C und den Skat. Diese sind gleich wahrscheinlich.
12
Die Anzahl der günstigen Möglichkeiten beträgt
beträgt die gesuchte Wahrscheinlichkeit
20
2
×
100
9,9,2
1,1,0
.
=
22
231
10,10,2
20
9,9,2
×
2
1,1,0
. Also
2
(ii) Gesucht: Wahrscheinlichkeit, dass einer der beiden Spieler beide Buben
besitzt.
Lösung:
2×
20
2
× 2,0,0
8,10,2
22
10,10,2
=
90
.
231
2
(iii) Gesucht: Wahrscheinlichkeit, dass beide Buben im Skat liegen.
Lösung:
20
10,10,0
2
0,0,2
×
=
22
10,10,2
1
.
231
2
(iv) Gesucht: Wahrscheinlichkeit, dass genau 1 Bube im Skat liegt:
Lösung:
2×
20
2
× 1,0,1
9,10,1
22
10,10,2
=
40
.
231
2
(v) Bilderschecks in Warenprodukten: k Warenpackungen (Cornflakes). In
jeder Packung ist genau 1 von n möglichen Sammelmarken (etwa n =
11 Fußballspieler).
Annahme: Laplace–Experiment, es gibt nk Möglichkeiten der Verteilung. Gesucht: Wahrscheinlichkeit pm , dass wenigstens m Sammelmarken fehlen.
Lösung: Ω = Menge aller möglichen Verteilungen von k unterscheid.
.
baren Kugeln (= Packungen) auf n unterscheidbare Urnen (= Sammelmarken). |Ω| = nk .
Ai := Menge aller Verteilungen, bei denen die i–te Urne leer ist.
Für 1 ≤ i1 < . . . < ir ≤ n gilt:
(n − r)k
.
P Ai1 ∩ . . . ∩ Air =
nk
Es folgt mit der Bezeichnung von 2.4
X
Sr =
P Ai1 ∩ . . . ∩ Air
1≤i1 <...<ir ≤n
n (n − r)k
=
nk
r
13
und damit aus 2.6
pm = P (Cm )
n
X
n (n − r)k
r−m r − 1
.
=
(−1)
nk
m−1
r
r=m
2
5
Bedingte Wahrscheinlichkeiten
(Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0.
Es sei bekannt, dass das Ereignis B eingetreten ist.
Neues Experiment: Ergebnismenge Ω0 = B.
Heuristisch: Wahrscheinlichkeit, dass A eintritt, wenn bereits bekannt ist,
dass B eingetreten ist, ist P (A ∩ B)/P (B).
Definition 5.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, A ∈ A und B ∈ A
mit P (B) > 0. Dann heißt
P (A|B) := PB (A) :=
P (A ∩ B)
P (B)
bedingte Wahrscheinlichkeit von A unter (der Bedingung) B.
Beispiel 5.2 Für die beiden ersten Kinder einer Familie seien die 4 Geschlechtskombinationen J − J, M − M , J − M und M − J gleich wahrscheinlich. Von einer Familie sei bekannt, dass wenigstens eines der Kinder
ein Junge ist. Wie groß ist die Wahrscheinlichkeit, dass diese Familie sogar
zwei Jungen hat?
.
.
Lösung: A1 := 1. Kind ist ein Junge, A2 := 2. Kind ist ein Junge. Damit:
P (A1 ∩ A2 |A1 ∪ A2 )
T
P ((A1 ∩ A2 ) (A1 ∪ A2 ))
=
P (A1 ∪ A2 )
P (A1 ∩ A2 )
=
P (A1 ∪ A2 )
P (A1 ∩ A2 )
=
P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
=
=
1
2
1
4
1
2
+ −
1
4
1
.
3
2
14
Satz 5.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0. Die
bedingte Wahrscheinlichkeit PB : A → R+ ist eine Wahrscheinlichkeit, d.h.
PB erfüllt die Axiome 1,2,3.
Beweis: Trivial, Axiome nachprüfen.
2
Satz 5.4 A1 , . . . , An Ereignisse mit P (A1 ∩ . . . ∩ An−1 ) > 0. Dann:
P (A1 ∩ . . . ∩ An )
= P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) × . . .
×P (An |A1 ∩ . . . ∩ An−1 ).
Beweis: n = 2 : P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 );
n→n+1:
P (A1 ∩ . . . ∩ An+1 )
=
P (A1 ∩ . . . ∩ An )P (An+1 |A1 ∩ . . . ∩ An )
=Ind. V. P (A1 )P (A2 |A1 ) × · · ·
×P (An+1 |A1 ∩ . . . ∩ An ).
2
Beispiel 5.5 16 weiße, 16 schwarze Schachfiguren liegen im Kasten. 3 Figuren werden zufällig ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass alle 3 Figuren schwarz sind?
Lösung: Ai sei das Ereignis, dass die i–te Figur schwarz ist. Dann:
P (A1 ∩ A2 ∩ A3 )
= P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 )
!
16
16 15 14
3
.
×
×
= 32
=
32 31 30
3
2
Satz 5.6 (Totale Wahrscheinlichkeit) (Ω,
PnA, P ) Wahrscheinlichkeitsraum,
B1 , . . . , Bn seien disjunkte Ereignisse mit
i=1 Bi = Ω, P (Bi ) > 0, i =
1, . . . , n. Dann:
P (A) =
n
X
P (Bi )P (A|Bi ),
i=1
15
A ∈ A.
Beweis:
P (A) = P (Ω ∩ A)
!
n
X
= P
(Bi ∩ A)
i=1
=
=
n
X
i=1
n
X
P (Bi ∩ A)
P (Bi )P (A|Bi )
i=1
2
Beispiel 5.7 (Zweistufiges Experiment) In Urne 1 liegen 2 weiße und 8
schwarze Kugeln, in Urne 2 liegen 4 weiße und 6 schwarze Kugeln.
Zunächst wird gewürfelt. Bei einer 5 oder 6 erfolgt eine Ziehung aus Urne 1,
bei einer 1-4 wird aus Urne 2 gezogen.
Wie groß ist die Wahrscheinlichkeit, eine weiße Kugel zu ziehen?
.
Lösung: A = eine weiße Kugel wird gezogen,
.
B1 = 5 oder 6 beim Würfeln,
.
B2 = 1–4 beim Würfeln. Dann:
P (A) = P (B1 )P (A|B1 ) + P (B2 )P (A|B2 )
1
1 1 2 2
× + × = .
=
3 5 3 5
3
2
Satz 5.8 (Bayessche Formel) Zusätzlich zu den Voraussetzungen von Satz
5.6 gelte P (A) > 0. Dann gilt:
P (Bi )P (A|Bi )
.
P (Bi |A) = Pn
j=1 P (Bj )P (A|Bj )
Beweis:
P (A ∩ Bi )
P (A)
P (Bi )P (A|Bi )
= Pn
.
j=1 P (Bj )P (A|Bj )
P (Bi |A) =
2
16
.
Beispiel 5.9 (Fortsetzung von Beispiel 5.7) A = Ziehen einer weißen
Kugel, P (A) = 1/3.
Wie groß ist die Wahrscheinlichkeit von Bi , i = 1, 2, wenn bekannt ist, dass
eine weiße Kugel gezogen wurde, d.h. wie groß ist die Wahrscheinlichkeit,
dass eine weisse Kugel aus Urne i stammt?
Lösung:
P (B1 )P (A|B1 )
P (B1 )P (A|B1 ) + P (B2 )P (A|B2 )
1
1/3 × 1/5
=
=
1/3 × 1/5 + 2/3 × 2/5
5
4
⇒ P (B2 |A) = .
5
P (B1 |A) =
P (Bi |A) heißt a posteriori Wahrscheinlichkeit von Bi , P (Bi ) heißt a priori
Wahrscheinlichkeit von Bi .
2
.
Beispiel 5.10 (Überprüfung, ob radikal) R := Kandidat ist radikal,
.
B := Kandidat wird für radikal erklärt.
Eine Überprüfung ergebe mit der Wahrscheinlichkeit 0,95 ein richtiges Ergebnis, d.h.
P (B|R) = 0, 95; P (B c |Rc ) = 0, 95.
Es sei P (R) = 0, 005.
Wie groß ist die Wahrscheinlichkeit, das ein als radikal erklärter Kandidat
tatsächlich radikal ist?
Lösung: Gesucht:
P (R ∩ B)
P (B)
P (R)P (B|R)
=
P (R)P (B|R) + P (Rc )P (B|Rc )
5/1000 × 95/100
=
5/1000 × 95/100 + 995/1000 × 5/100
95
=
(!).
1090
P (R|B) =
2
Beispiel 5.11 (Brustkrebs-Screening durch Mammographie) 1
Die Wahrscheinlichkeit, dass eine 50jährige Frau Brustkrebs hat, ist bei etwa
0,8% anzusiedeln.
1
Aus: Christian Hesse (2010). Warum Mathematik glücklich macht. C.H. Beck,
München, S. 199ff.
17
Die Wahrscheinlichkeit, dass das Mammogramm einer Patientin positiv ist,
wenn sie Brustkrebs hat, liegt bei etwa 90% (sog. Sensitivität des Untersuchungsverfahrens).
Die Wahrscheinlichkeit, dass ein durchgeführtes Mammogramm positiv ist,
wenn die Patientin keinen Brustkrebs hat, liegt bei etwa 7% (sog. Falsch-Positiv-Rate).
Angenommen, eine 50-jährige Frau unterzieht sich einer Mammographie und
der Befund ist positiv. Wie wahrscheinlich ist es, dass die Frau tatsächlich
Brustkrebs hat?
.
.
Lösung: B := Brustkrebserkrankung, M := Mammogramm ist positiv.
Dann:
P (B) =
8
,
1000
P (M | B) =
90
,
100
P (M | B c ) =
7
.
100
Gesucht:
P (B | M ) =
=
P (B)P (M | B)
P (B)P (| B) + P (B c )P (M | B c )
8 90
1000 100
8 90
992 7
+ 1000
1000 100
100
720
7664
9
(!).
≈
100
=
2
Beispiel 5.12 (Laplacescher Folgesatz) In einer Urne liegen N Kugeln,
W weiße und N − W schwarze. W sei unbekannt; alle N + 1 möglichen
Mischungsverhältnisse besitzen die gleiche Wahrscheinlichkeit 1/(N + 1).
Es werden nacheinander n + 1 Kugeln ohne Zurücklegen gezogen.
Wie groß ist die Wahrscheinlichkeit, dass die n + 1-te Kugel weiß ist, wenn
die ersten n Kugeln weiß gewesen sind?
.
Lösung: Ai := nur weiße Kugeln unter den ersten i Ziehungen.
Offenbar gilt A1 ⊃ A2 ⊃ . . . und gesucht ist
P (An+1 |An ) =
P (An+1 )
P (An+1 ∩ An )
=
.
P (An )
P (An )
18
Wir erhalten:
N
X
P (An ) =
P {W = w}P (An |{W = w})
w=0
N
X
1
×
=
N
+
1
w=0
w
n
N
n
N X
w
1
=
(N + 1)
N
n
1
×
N +1
1
=
.
n+1
=
w=n
N +1
n+1
N
n
n
Behauptung:
N X
w
w=n
n
=
N +1
.
n+1
N +1
n+1
Denn:
ist die Anzahl der Möglichkeiten, aus der Menge {1, 2, . . . , N +1}
eine n + 1–elementige Teilmenge auszuwählen. Dabei gibt es wn Möglichkeiten, die Auswahl so zu treffen, dass w + 1 das größte der ausgewählten
Elemente ist, w = n, . . . , N .
Insgesamt erhalten wir somit:
P (An+1 |An ) =
n+1
n+2
unabhängig von N !
6
2
Unabhängigkeit
Gegeben ist ein Würfel, A := {2, 4, 6}, B := {5, 6}, P (A) = 1/2.
P (A|B) =
P (A ∩ B)
1/6
1
=
= = P (A),
P (B)
2/6
2
d.h. die zusätzliche Information des Eintretens von B hat in diesem speziellen
Fall keinen Einfluss auf die Wahrscheinlichkeit des Eintretens von A.
Definition 6.1 A, B Ereignisse mit P (B) > 0; dann:
A unabhängig von B :⇔ P (A) = P (A|B).
19
Satz 6.2 A, B Ereignisse mit P (A) > 0 und P (B) > 0; dann:
A unabhängig von B
⇔ B unabhängig von A
⇔ P (A ∩ B) = P (A)P (B).
Beweis:
A unabhängig von B
⇔ P (A) = P (A ∩ B)/P (B)
⇔ P (B) = P (A ∩ B)/P (A)
⇔ P (A ∩ B) = P (A)P (B).
2
Definition 6.3 A, B beliebige Ereignisse, dann:
A, B unabhängig :⇔ P (A ∩ B) = P (A)P (B).
Satz 6.4 A, B unabhängig, dann gilt:
ˆ Ac , B sind unabhängig,
ˆ A, B c sind unabhängig,
ˆ Ac , B c sind unabhängig.
Beweis:
P (Ac ∩ B) =
=
=
=
P (B) − P (A ∩ B)
P (B) − P (A)P (B)
P (B)(1 − P (A))
P (B)P (Ac ).
2
Satz 6.5 A, B seien unabhängig; A, C seien unabhängig; B ∩ C = ∅. Dann
gilt:
A, B ∪ C sind unabhängig.
20
Beweis:
P (A ∩ (B ∪ C)) =
=
=
=
P ((A ∩ B) + (A ∩ C))
P (A ∩ B) + P (A ∩ C)
P (A)P (B) + P (A)P (C)
P (A)P (B ∪ C).
2
Bemerkung A, B, C paarweise unabhängig 6⇒ P (A∩B∩C) = P (A)P (B)P (C).
Gegenbeispiele: Siehe Übungen.
Definition 6.6 Ω 6= ∅; A ⊂ P(Ω) ist Algebra über Ω :⇔
(i) Ω ∈ A,
(ii) A ∈ A ⇒ Ac ∈ A,
(iii) A, B ∈ A ⇒ A ∪ B ∈ A.
Definition 6.7 ∅ =
6 S ⊂ P(Ω). Dann:
\
D
α(S) :=
P(Ω)⊃D⊃S, D Algebra
=: kleinste Algebra, die S enthält,
\
D
σ(S) :=
P(Ω)⊃D⊃S, D σ –Algebra
=: kleinste σ–Algebra, die S enthält.
Beachte: Der beliebige Durchschnitt von (σ–) Algebren ist wieder eine (σ–)
Algebra; P(Ω) ist eine (σ–) Algebra mit P(Ω) 6= ∅.
Satz 6.8 ∅ 6= S ⊂ P(Ω). Dann: α(S) = Menge aller endlichen, disjunkten
Vereinigungen von endlichen Durchschnitten von Mengen aus S oder deren
Komplemente, d.h.
S1 := {S ⊂ Ω : S ∈ S oder S c ∈ S},
S2 := {S1 ∩ . . . ∩ Sn : n ∈ N, Si ∈ S1 , i = 1, . . . , n}
S3 := {T1 ∪ . . . ∪ Tn : Tj ∈ S2 , j = 1, . . . , n,
paarweise disjunkt, n ∈ N}
⇒ α(S) = S3 .
Beweis:
21
1. S3 ⊂ α(S) (trivial, da eine Algebra ∩–stabil, ∪–stabil und Komplement–
stabil ist).
2. S3 6= ∅, da S3 ⊃ S2 ⊃ S1 ⊃ S 6= ∅.
3. T ∈ S2 ⇒ T c ∈ S3 .
(Denn: T = S1 ∩ . . . ∩ Sn ∈ S2 mit Si ∈ S1 ⇒
T c = S1c ∪ . . . ∪ Snc
= S1c ∪ (S2c \S1c ) ∪ S3c \(S1c ∪ S2c ) ∪ . . .
c
∪Snc \(S1c ∪ . . . ∪ Sn−1
)
c
c
c
= S1 + (S2 ∩ S1 ) + (S3 ∩ S1 ∩ S2 ) + . . .
+(Snc ∩ S1 ∩ . . . ∩ Sn−1 ) ∈ S3 .
4. T1 , T2 ∈ S2 ⇒ T1 ∩ T2 ∈ S2 (trivial).
5. U1 , U2 ∈ S3 ⇒ U1 = T11 + . . . + T1n1 mit disjunkten T1j ∈ S2 , U2 =
T21 + . . . + T2n2 mit disjunkten T2j ∈ S2
[
⇒ U1 ∩ U2 =
( T1i ∩ T2j ) ∈ S3 .
| {z }
i,j
∈S2 wegen 4.
|
{z
}
disjunkte Vereinigung
6. U ∈ S3 ⇒ U = T1 + . . . + Tn , Ti ∈ S2 , i = 1, . . . , n, disjunkt ⇒ U c =
T1c ∩ . . . ∩ Tnc ∈ S3 wegen 3. und 5. (Tjc ∈ S3 wegen 3.).
Wegen 2., 5. und 6. ist S3 eine Algebra. Hieraus und aus 1. folgt, dass S3 =
α(S).
2
Definition 6.9 A1 , . . . , An seien beliebige Ereignisse, dann:
A1 , . . . , An (global) unabhängig
:⇔ Ai , B unabhängig für 1 ≤ i ≤ n
und B ∈ α({Aj : j 6= i}).
Satz 6.10 A1 , . . . , An sind unabhängig ⇔
P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · · · P (Aik )
für 2 ≤ k ≤ n, 1 ≤ i1 < . . . < ik ≤ n.
Beweis:
22
(1)
⇒“
”
Ai2 ∩ . . . ∩ Aik ∈ α({Aj : j 6= i1 })
⇒ Ai1 , Ai2 ∩ . . . ∩ Aik unabhängig
⇒ P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ∩ . . . ∩ Aik )
u.s.w. (Induktion)
⇐“ Es genügt zu zeigen: A1 ist unabhängig von jedem Ereignis aus α({A2 , . . . , An }).
”
In (1) beliebige der Aij durch Acij ersetzbar (z.B. P (Ai1 ∩ Aci2 ∩ . . . ∩
Aik ) = P (Ai1 )P (Aci2 ) · · · P (Aik ), siehe 6.4) ⇒
(c)
(c)
P (A1 ∩ Ai2 ∩ . . . ∩ Aik )
(c)
(c)
= P (A1 )P (Ai2 ) · · · P (Aik )
(c)
mit Aij = Aij oder Acij ,
d.h. A1 unabhängig von allen Ereignissen aus S2 (A2 , . . . , An )
⇒6.5 A1 unabhängig von allen Ereignissen aus S3 (A2 , . . . , An ) =6.8
α({A2 , . . . , An }).
2
Definition 6.11 Ai , i ∈ I, beliebige Ereignisse, dann:
Ai , i ∈ I, unabhängig
:⇔ Ai , G unabhängig für beliebiges
i ∈ I und G ∈ α({Aj : j ∈ I, j 6= i}).
Bemerkung 6.12
(i)
Ai , i ∈ I, unabhängig
⇔ Ai , i ∈ I0 unabhängig
für alle endlichen Teilmengen I0 von I.
(ii) A1 , A2 , . . . sei eine Folge von Ereignissen, dann:
A1 , A2 , . . . unabhängig
⇔ A1 , . . . , An unabhängig für alle n ∈ N.
Beweis:
(i)
⇒“ trivial.
”
23
⇐“ Nach Satz 6.8 existiert zu jedem G ∈ α({Aj : j 6= i}) ein I0 ⊂ I
”
mit |I0 | < ∞ und G ∈ α({Aj : j ∈ I0 }).
2
Definition 6.13
(i) Gi , i ∈ I, unabhängige Algebren von Ereignissen
:⇔ Gi ist Ereignis–Algebra, i∈ I, und für jedes i ∈ I ist jedes G ∈ Gi
S
unabhängig von allen H ∈ α
j6=i Gj .
(ii) Ai , i ∈ I, unabhängige σ–Algebren von Ereignissen
:⇔ Ai ist σ–Algebra von Ereignissen, i ∈ I, und für jedes i ∈ I ist
S
jedes A ∈ Ai unabhängig von allen B ∈ σ
j6=i Aj .
Satz 6.14 Ai , i ∈ I unabhängig ⇒ α({Ai }), i ∈ I, unabhängige Algebren.
Beweis:
α({Ai }) = {Ai , Aci , ∅, Ω},
d.h.
!
α({Aj : j ∈ I, j 6= i}) = α
[
α({Aj }) .
j6=i
∅ und Ω sind von allen Ereignissen unabhängig.
2
Satz 6.15 (Borel–Cantelli Lemma) A1 , A2 , . . . seien Ereignisse;
A := {ω ∈ Ω : ω ∈ An für unendlich viele n ∈ N}
\ [
=
Am .
n∈N m≥n
Dann gilt:
(i) P (A) = 0, falls
P
P (An ) < ∞.
(ii) P (A) = 1, falls
P
P (An ) = ∞ und A1 , A2 , . . . unabhängig.
n∈N
n∈N
Beweis: Es gilt (siehe Übungen):
(i)“
”
P (A) = P
\
[
Am
m≥n
n∈N
| {z }
absteigende Folge
!
[
= lim P
Am ,
n∈N
m≥n
24
wobei
!
P
[
Am
=
lim P
≤
s. Üb.
X
k
[
k∈N
m≥n
!
Am
m=n
P (Am ) →n∈N 0
m≥n
als Rest einer konvergenten Reihe.
(ii)“
”
P (Ac ) = P
[
\
Acm
m≥n
n∈N
| {z }
aufsteigende Folge
\
= lim P
Acm
n∈N
= lim P
n∈N
m≥n
\
\
N ≥n
Acm
n≤m≤N
| {z }
absteigende Folge
\
c
= lim lim P (
Am
|{z}
n∈N N ∈N
n≤m≤N
unabhängig
Y
= lim lim
( 1 − P (Am ) )
,
| {z }
n∈N N ∈N
n≤m≤N
|
≤exp
≤exp(−P (Am ))
{z
}
P
− N
m=n P (Am ) →N ∈N 0
denn 1 − x ≤ exp(−x) wegen Taylor–Entwicklung:
x2
exp(−x) = 1 − x + exp(−ϑx) ≥ 1 − x.
|
{z 2}
≥0
2
Satz 6.16 (Fortsetzungssatz) G sei Algebra über Ω, Q ein σ–additiver,
S
normierter
Inhalt
auf
G
(d.h.
Q
:
G
→
[0,
∞)
mit
Q(Ω)
=
1
und
Q(
n∈N Gn ) =
P
S
Q(G
)
für
disjunkte
G
∈
G,
n
∈
N
mit
G
∈
G).
n
n
n∈N
n∈N n
Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß P auf A := σ(G)
mit P/G = Q/G.
Beweis: Siehe Maßtheorie. (Etwa Satz 4.9 im Maßtheorie-Skript (\ ∼falk\downloads\).
2
25
Satz 6.17 G1 , G2 seien unabhängige Ereignis–Algebren. Dann sind A1 :=
σ(G1 ), A2 := σ(G2 ) unabhängige σ–Algebren.
Beweis: Zu zeigen:
∀A1 ∈ A1 , ∀A2 ∈ A2 :
P (A1 ∩ A2 ) = P (A1 )P (A2 ).
Sei G1 ∈ G1 gegeben.
1. Fall: P (G1 ) = 0. Dann gilt:
0 = P (G1 ∩ A2 )
| {z }
⊂G1
= P (G1 )P (A2 ) = 0
für alle A ∈ A2 .
2. Fall: P (G1 ) > 0. Setze
Q(A2 ) :=
P (G1 ∩ A2 )
für A2 ∈ A2 .
P (G1 )
Dann gilt
1.
∀G2 ∈ G2 : Q(G2 ) = P (G2 )
wegen der Unabhängigkeit von G1 , G2 .
2. Q ist Wahrscheinlichkeitsmaß auf A2 ; denn:
(a) Q(Ω) = 1.
(b) A12 , A22 , . . . sei Folge disjunkter Mengen aus A2 , dann:
!
P
X
P G1 ∩ n∈N An2
n
Q
A2
=
P (G1 )
n∈N
P
n
(G
∩
A
)
P
1
2
n∈N
=
P (G1 )
P
n
n∈N P (G1 ∩ A2 )
=
P (G1 )
X
=
Q (An2 ) .
n∈N
Aus 1. und 2. folgt mittels des Fortsetzungssatzes 6.16, dass Q(A2 ) = P (A2 )
für alle A2 ∈ A2 , d.h.
P (G1 ∩ A2 ) = P (G1 )P (A2 ) für alle A2 ∈ A2 .
Analog schließt man: G1 ∈ G1 durch A1 ∈ A1 ersetzbar.
26
2
Satz 6.18 Gi , i ∈ I, seien beliebige Algebren von Ereignissen zum Wahrscheinlichkeitsraum (Ω, A, P ). Dann sind äquivalent:
(i) Gi , i ∈ I, sind unabhängig.
(ii) Ai := σ(Gi ), i ∈ I, sind unabhängig.
(iii) Für je endlich viele verschiedene i1 , . . . , ik ∈ I und Gi1 ∈ Gi1 , . . . , Gik ∈
Gik gilt:
P (Gi1 ∩ . . . ∩ Gik ) = P (Gi1 ) · · · P (Gik ) .
Beweis:
(ii)⇒(i)“ Trivial.
”
(i)⇒(iii)“ Gi1 ist unabhängig von allen Ereignissen aus α
”
ziell von Gi2 ∩ . . . ∩ Gik , d.h.
S
j6=i1
Gj , spe-
P (Gi1 ∩ (Gi2 ∩ . . . ∩ Gik ))
= . . . = P (Gi1 ) · · · P (Gik )
mittels Induktion.
(iii)⇒(ii)“ Zu zeigen ist: Ai0 ∈ Ai0 ist unabhängig von allen A ∈ σ
”
S
Sei Gi0 ∈ Gi0 und H ∈ α
G
j6=i0 j
⇒6.8
⇒6.10
S
H ∈ α({Gi1 , . . . , Gir }) für geeignete
Gi1 ∈ Gi1 , . . . , Gir ∈ Gir
Gi0 und H sind unabhängig, d.h.
!
[
Gi0 und α
Gj sind unabhängig
j6=i0
!!
⇒6.17 Ai0 = σ(Gi0 ), σ α
[
Gj
unabhängig .
j6=i0
Die Behauptung folgt nun aus den Gleichungen:
!!
!
[
[
σ α
Gj
= σ
Gj
j6=i0
j6=i0



[
= σ
σ(Gj ) .
| {z }
j6=i0
Zum zweiten =“:
”
⊂“: Trivial.
”
27
=Aj
A
j .
j6=i0
⊃“: Für i 6= i0 gilt:
”
[
Gj ⊃ Gi
j6=i0
!
⇒ σ
[
Gj
⊃ σ(Gi )
j6=i0
!
⇒ σ
[
Gj
⊃
j6=i0
⇒ σ
j6=i0
σ(Gi )
i6=i0
!
[
[
Gj


⊃ σ
[
σ(Gi )
| {z }
i6=i0 =A
i
2
Gegeben seien zwei Zufallsexperimente, die durchgeführt werden, ohne dass
sie sich gegenseitig beeinflussen. Gesucht ist ein Wahrscheinlichkeitsraum
(Ω, A, P ) zur mathematischen Beschreibung des Zufallsexperimentes, welches
darin besteht, dass die beiden Experimente ohne wechselseitige Beeinflussung
— also unabhängig — durchgeführt werden.
Die einzelnen Experimente werden durch (Ω1 , A1 , P1 ), (Ω2 , A2 , P2 ) beschrieben. Nahe liegend:
Ω := Ω1 × Ω2 := {(ω1 , ω2 ) : ω1 ∈ Ω1 , ω2 ∈ Ω2 }.
Jedes A1 ∈ A1 kann identifiziert werden mit A1 × Ω2 ,
jedes A2 ∈ A2 kann identifiziert werden mit Ω1 × A2 ,
d.h. Forderung:
A1 × Ω2 , Ω1 × A2 sind Ereignisse
⇒ (A1 × Ω2 ) ∩ (Ω1 × A2 ) = A1 × A2 Ereignis.
Daher:
A := σ ({A1 × A2 : A1 ∈ A1 , A2 ∈ A2 }) .
Ferner soll die Forderung
P1 (A1 ) = P (A1 × Ω2 ), P2 (A2 ) = P (Ω1 × A2 )
erfüllt sein.
Zur Unabhängigkeit: A1 × Ω2 und Ω1 × A2 sollen stets unabhängig sein für
A1 ∈ A1 , A2 ∈ A2 , d.h. es soll gelten
P (A1 × A2 ) = P ((A1 × Ω2 ) ∩ (Ω1 × A2 ))
= P (A1 × Ω2 )P (Ω1 × A2 )
= P1 (A1 )P2 (A2 ).
28
Satz 6.19 (Ω1 , A1 , P1 ), . . . , (Ωn , An , Pn ) seien Wahrscheinlichkeitsräume. Setze
Ω := Ω1 × . . . × Ωn
:= {(ω1 , . . . , ωn ) : ωi ∈ Ωi , 1 ≤ i ≤ n}
und
A := σ({A1 × . . . × An : Ai ∈ Ai , 1 ≤ i ≤ n}.
Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß auf (Ω, A) mit
P (A1 × . . . × An ) = P1 (A1 ) · · · Pn (An ).
Beweisskizze: Definiere P auf Mengensystem Z := {A1 × . . . × An : Ai ∈
Ai , 1 ≤ i ≤ n} durch
P (A1 × . . . × An ) :=
n
Y
P (Ai ).
i=1
Dann Fortsetzung von P (zu einem (eindeutig bestimmten) σ–additiven Inhalt) auf α(Z). Die Behauptung folgt dann aus dem Fortsetzungssatz 6.16.
2
Definition 6.20 (Ω, A, P ) ist unabhängiges Produkt der Wahrscheinlichkeitsräume (Ω1 , A1 , P1 ), . . . , (Ωn , An , Pn ) :⇔ (Ω, A, P ) wird definiert gemäß
6.19.
Schreibweise: Ω = Ω1 × . . . × Ωn , A = A1 ⊗ . . . ⊗ An , P = P1 × . . . × Pn . Im
Fall
(Ω1 , A1 , P1 ) = . . . = (Ωn , An , Pn ) = (Ω, A, P ),
d.h. unabhängige n–fache Wiederholung von (Ω, A, P ), schreiben wir kurz
(Ωn , An , P n ).
7
Zufallsvariablen
(Ω, A, P ) zufälliges Experiment, f : Ω → Ω0 eine Abbildung. Es sei ω ein
Ergebnis; häufig interessiert weniger der exakte Ausgang ω sondern nur der
Wert f (ω). Beispielsweise interessiert beim Schuss auf eine Zielscheibe weniger die genaue Lage des Einschusses sondern der Abstand zum Mittelpunkt.
Daher wird man vor allem Ereignisse der Gestalt
f −1 (A0 ) := {ω ∈ Ω : f (ω) ∈ A0 }
betrachten, wobei A0 die im Bildraum von f interessierenden Ereignisse
durchläuft.
29
Satz 7.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum und f : Ω → Ω0 eine Abbildung. Setze
A0 := {A0 ⊂ Ω0 : f −1 (A0 ) ∈ A}
und
P 0 (A0 ) := P (f −1 (A0 )) für alle A0 ∈ A0 .
Dann ist (Ω0 , A0 , P 0 ) ein Wahrscheinlichkeitsraum.
Beweis:
1. f −1 (Ω0 ) = Ω ∈ A, d.h. Ω0 ∈ A0 .
2. Sei A0 ∈ A0
⇒ f −1 (A0 ) =: A ∈ A
⇒ f −1 (Ω0 \A0 ) = Ac ∈ A
⇒ A0c = Ω0 \A0 ∈ A0 .
3. Sei A0n ∈ A0 , n ∈ N
⇒ f −1 (A0n ) ∈ A, n ∈ N
!
[
[
f −1 (A0n ) ∈ A
⇒ f −1
A0n =
n∈N
n∈N
⇒
[
A0n
0
∈A.
n∈N
Also ist A0 eine σ–Algebra. Ferner ist P 0 ein Wahrscheinlichkeitsmaß auf
(Ω0 , A0 ):
1. P 0 (Ω0 ) = P (f −1 (Ω0 )) = P (Ω) = 1.
2. Für paarweise disjunkte A0n , n ∈ N, gilt:
!
!!
X
X
P0
A0n
= P f −1
A0n
n∈N
n∈N
!
= P
X
f −1 (A0n )
n∈N
=
X
=
X
P f −1 (A0n )
n∈N
P 0 (A0n ) .
n∈N
2
Bemerkung 7.2 A0 heißt finale σ–Algebra bezüglich f ; P 0 heißt das durch
P und f auf A0 induzierte Wahrscheinlichkeitsmaß oder Bildmaß von P unter
f.
30
Definition 7.3 (Ω, A, P ) sei ein Wahrscheinlichkeitsraum, (Ω0 , A0 ) ein messbarer Raum, dann: f : Ω → Ω0 heißt A, A0 –messbar oder Zufallsgröße, falls
f −1 (A0 ) ⊂ A, d.h. falls für alle A0 ∈ A0 gilt:
f −1 (A0 ) ∈ A,
(d.h. A0 ist sub–σ–Algebra der finalen σ–Algebra.) Schreibweise:
f : (Ω, A) → (Ω0 , A0 ).
Satz 7.4 f : (Ω, A) → (Ω0 , A0 ). Dann:
f −1 (A0 ) := {f −1 (A0 ) : A0 ∈ A0 } ist sub–σ–Algebra von A.
(= zu f gehörende Vergröberung von A, durch f bestimmte Ereignisse von
A).
Beweis:
1. Ω = f −1 (Ω0 ).
2. A ∈ f −1 (A0 )
⇒ ∃A0 ∈ A0 : A = f −1 (A0 )
⇒ Ac = f −1 (A0c ) ∈ f −1 (A0 ).
3. An ∈ f −1 (A0 ), n ∈ N
⇒ ∃A0n ∈ A0 : An = f −1 (A0n ), n ∈ N
[
[
⇒
An =
f −1 (A0n )
n∈N
n∈N
!
= f −1
[
A0n
∈ f −1 (A0 ).
n∈N
2
Satz 7.5 (Ω, A), (Ω0 , A0 ) messbare Räume, S ⊂ P(Ω0 ) mit σ(S) = A0 . Dann
gilt:
f : Ω → Ω0 ist A, A0 –messbar
⇔ f −1 (S) ∈ A für alle S ∈ S.
Beweis:
⇒“ Trivial.
”
31
⇐“ Setze
”
F := {F ∈ P(Ω0 ) : f −1 (F ) ∈ A}.
F ist (die finale) σ–Algebra mit F ⊃ S ⇒
F ⊃ σ(S) = A0 .
2
Satz 7.6 (Ω, A), (Ω0 , A0 ), (Ω00 , A00 ) messbare Räume, f : (Ω, A) → (Ω0 , A0 ),g :
(Ω0 , A0 ) → (Ω00 , A00 ). Dann gilt:
g ◦ f : Ω → Ω00 ist A, A00 –messbar.
Beweis: Sei A00 ∈ A00 , dann:
(g ◦ f )−1 (A00 ) = f −1 (g −1 (A00 )) ∈ A.
| {z }
∈A0
2
Definition 7.7 In sei die Menge aller n–dimensionalen Intervalle im Rn .
Bn := σ(In ) ⊂ P(Rn )
ist das System der n–dimensionalen Borelmengen bzw. die Borel–σ–Algebra
des Rn .
Bemerkung 7.8 Setze
In0 := {(a, b] : {x = (x1 , . . . , xn ) ∈ Rn :
ai < xi ≤ bi , i = 1 . . . , n} für
a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈ Rn }.
dann gilt:
Bn = σ(In0 ).
Denn z.B.:
\ 1
[a, b] =
a − ,b
m
m∈N
mit a − 1/m = (a1 − 1/m, . . . , an − 1/m);
[ 1
(a, b) =
a, b −
m
m∈N
u.s.w.
⇒ Bn ⊃ σ(In0 ) ⊃ In
⇒ Bn ⊃ σ(In0 ) ⊃ σ(In ) = Bn
⇒ σ(In0 ) = Bn .
32
Satz 7.9 Bn enthält alle (bezüglich der euklidischen Topologie des Rn ) offenen und abgeschlossenen Mengen des Rn .
Beweis: InQ := Menge aller n–dimensionalen Intervalle in In mit rationalen
Endpunkten. InQ ist abzählbar (denn Q2n ist abzählbar).
G ⊂ Rn sei offen
[
⇒ G=
I ∈ Bn (als abzählb. Vereinigung);
Q
I⊂G, I∈In
n
F ⊂ R abgeschlossen
⇒ F c offen und damit in Bn
⇒ F ∈ Bn .
2
Satz 7.10 Bn = B
· · ⊗ B} = Bn .
| ⊗ ·{z
n–mal
Beweis: n = 2; B ⊗ B = σ({B1 × B2 : B1 , B2 ∈ B}.
1. B2 ⊂ B ⊗ B, da I2 ⊂ B ⊗ B.
2. Zu zeigen: B ⊗ B ⊂ B2 .
Es genügt zu zeigen, dass B1 × B2 ∈ B2 , falls B1 , B2 ∈ B.
(a) Setze für I ∈ I
BI := {B ⊂ R : B × I ∈ B2 };
BI ist eine σ–Algebra(!) mit I ⊂ BI , d.h. B ⊂ BI .
Also gilt B1 × I ∈ B2 , falls B1 ∈ B, I ∈ I.
(b) Setze für B ∈ B
BB := {A ⊂ R : B × A ∈ B2 };
BB ist eine σ–Algebra(!) mit I ⊂ BB nach (a), d.h. B ⊂ BB .
Also gilt B1 × B2 ∈ B2 , falls B1 , B2 ∈ B.
Analog schließt man damit von n auf n + 1.
2
Definition 7.11 (Ω, A, P ) Wahrscheinlichkeitsraum;
f : Ω → R ist Zufallsvariable
:⇔ f ist A, B–messbar.
33
Satz 7.12 (Ω, A, P ) Wahrscheinlichkeitsraum, f : Ω → R beliebig. Dann
sind äquivalent:
1. f ist Zufallsvariable, d.h. f −1 (B) ∈ A für alle B ∈ B.
2. {f ≤ y} := {ω ∈ Ω : f (ω) ≤ y} ∈ A für alle y ∈ R.
3. {f < y} := {ω ∈ Ω : f (ω) < y} ∈ A für alle y ∈ R.
4. {f ∈ I} := {ω ∈ Ω : f (ω) ∈ I} ∈ A für alle Intervalle I in R.
5. {f ∈ G} := {ω ∈ Ω : f (ω) ∈ G} ∈ A für alle G ∈ G := Menge der
offenen Teilmengen von R.
6. {f ∈ F } := {ω ∈ Ω : f (ω) ∈ F } ∈ A für alle F ∈ F := Menge der
abgeschlossenen Teilmengen von R.
Beweis: Folgt aus 7.5 (s. 7.8 und 7.9), da
{(−∞, y] : y ∈ R}, {(−∞, y) : y ∈ R}, I1 , G, F
Erzeuger der σ–Algebra B sind.
2
Beispiel 7.13 Beispiele für Zufallsvariablen:
1.
f ∈ {0, 1}Ω ist Zufallsvariable
⇔ ∀y ∈ R : {ω ∈ Ω : f (ω) ≤ y} ∈ A
wobei
{ω ∈ Ω : f (ω) ≤ y}

Ω,
falls y ≥ 1,

∅,
falls y < 0,
=
∈A

{ω ∈ Ω : f (ω) = 0}, falls 0 ≤ y < 1.
⇔ f = 1A für ein geeignetes A ∈ A.
Dabei ist
1A (ω) =
1, falls ω ∈ A,
0 sonst,
die Indikatorfunktion der Menge A.
2. Falls A = {∅, Ω}, so sind nur konstante Funktionen Zufallsvariablen.
3. Falls A = P(Ω), so sind alle f : Ω → R Zufallsvariablen.
Definition 7.14 (Ω, A, P ) Wahrscheinlichkeitsraum; dann:
f : Ω → Rn ist n–dimensionaler Zufallsvektor
:⇔ f ist A, Bn –messbar.
34
Satz 7.15
f = (f1 , . . . , fn ) : Ω → Rn ist n–dim. Zufallsvektor
⇔ fi : Ω → R ist Zufallsvariable, i = 1, . . . , n.
Beweis:
⇒“ Sei B ∈ B, dann:
”
i−te
fi−1 (B)
⇐“
”
=f
−1
(R
| × ··· ×
Stelle
z}|{
B
{z
∈Bn
× · · · × R}) ∈ A.
1.
f −1 (B1 × · · · × Bn ) =
\
1≤i≤n
fi−1 (Bi ) ∈ A,
| {z }
∈A
falls Bi ∈ B, i = 1, . . . , n.
2. {B ⊂ Rn : f −1 (B) ∈ A} ist (finale) σ–Algebra (7.1).
Aus 1. und 2. folgt, dass
{B ⊂ Rn : f −1 (B) ∈ A} ⊃ B ⊗ · · · ⊗ B =7.10 Bn ,
d.h. f ist Zufallsvektor.
2
Definition 7.16
g : Rn → R ist Bairesche Funktion
:⇔ g ist Bn , B–messbar.
Satz 7.17 fi : Ω → R sei Zufallsvariable, i = 1, . . . , n, g : Rn → R Bairesche Funktion. Dann ist g ◦ (f1 , . . . , fn ) Zufallsvariable.
Beweis: Folgt aus 7.15 und 7.6.
2
Satz 7.18 g : Rn → R stetig ⇒ g ist Bairesche Funktion.
Beweis: g stetig ⇒ ∀ offenen Teilmengen O von R: g −1 (O) ist offen im Rn ,
d.h. g −1 (O) ∈ Bn . Nach Satz 7.5 gilt damit g −1 (B) ∈ Bn für alle B ∈ B, da
die offenen Mengen B erzeugen (7.9).
2
35
Satz 7.19 f1 , f2 seien Zufallsvariablen, a ∈ R. Dann gilt:
af1 ,
f1 + f2 ,
f1 f2 ,
f1 /f2 (falls f2 (ω) 6= 0 für alle ω ∈ Ω),
f1 ∨ f2 := max(f1 , f2 ),
f1 ∧ f2 := min(f1 , f2 )
sind wieder Zufallsvariablen.
Beweis: R 3 x 7→ ax, R2 3 (x1 , x2 ) 7→ x1 + x2 ∈ R u.s.w. sind stetige
Abbildungen von R → R bzw. R → R2 , d.h. Satz 7.17 und 7.18 anwendbar.
2
Bemerkung Der Raum der Zufallsvariablen über (Ω, A, P ) ist ein linearer
Raum.
Satz 7.20 f1 , f2 , . . . seien Zufallsvariablen.
1. fn (ω), n ∈ N, sei für jedes ω ∈ Ω nach oben beschränkt
⇒ sup fn ist Zufallsvariable.
n∈N
((supn∈N fn )(ω) = supn∈N (fn (ω))).
2. fn (ω), n ∈ N, sei für jedes ω ∈ Ω nach unten beschränkt
⇒ inf fn ist Zufallsvariable.
n∈N
3. fn (ω), n ∈ N, sei für jedes ω ∈ Ω beschränkt
⇒ lim inf fn , lim sup fn sind Zufallsvariablen.
n∈N
n∈N
4. fn (ω), n ∈ N, sei für jedes ω ∈ Ω konvergent
⇒ lim fn ist Zufallsvariable.
n∈N
Beweis:
T
1. ∀y ∈ R : {ω ∈ Ω : supn∈N fn (ω) ≤ y} = n∈N {ω ∈ Ω : fn (ω) ≤ y} ∈ A.
S
2. {ω ∈ Ω : inf n∈N fn (ω) < y} = n∈N {ω ∈ Ω : fn (ω) < y} ∈ A.
3. lim supn∈N fn (ω) = inf m∈N supn≥m fn (ω) , lim inf n∈N fn (ω) = supm∈N (inf n≥m fn (ω)),
d.h. die Behauptung folgt aus 1. und 2.
36
4. limn∈N fn = lim supn∈N fn = lim inf n∈N fn , d.h. 3. anwendbar.
2
Definition 7.21 fi , i ∈ I, sei eine Familie zufälliger Größen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), wobei fi : (Ω, A) → (Ωi , Ai ), i ∈ I.
Die Familie fi , i ∈ I, heißt unabhängig :⇔ die Familie A(fi ) = fi−1 (Ai ),
i ∈ I, der zugehörigen Vergröberungen ist unabhängig.
Bemerkung 7.22 fi , i ∈ I, unabhängig ⇔ fi , i ∈ I0 , unabhängig für alle
endlichen Teilmengen I0 von I (s. 6.18).
Satz 7.23
fi : (Ω, A) → (Ω0i , A0i ), i = 1, . . . , n unabhängig
⇔ P ({f1 ∈ A01 , . . . , fn ∈ A0n }
= P ({f1 ∈ A01 }) · · · P ({fn ∈ A0n })
für beliebige A0i ∈ A0i , i = 1, . . . , n.
Beweis:
f1 , . . . , fn unabhängig
⇔ A(f1 ), . . . , A(fn ) unabhängig
⇔6.18 für beliebige A0i ∈ A0i , i = 1, . . . , n, sind die
Ereignisse {f1 ∈ A01 }, . . . , {fn ∈ A0n }
unabhängig.
2
Satz 7.24 fi : (Ω, A) → (Ω0i , A0i ), i ∈ I, unabhängig, gi : (Ω0i , A0i ) →
(Ω00i , A00i ), i ∈ I.
Dann sind gi ◦ fi : (Ω, A) → (Ω00i , A00i ), i ∈ I, unabhängig.
Beweis:
1. Nach Satz 7.6 ist gi ◦ fi A, Ai –messbar, i ∈ I.
2. Für endliches I0 ⊂ I und A00i ∈ A00i , i ∈ I0 , gilt:
P {gi ◦ fi ∈ A00i , i ∈ I0 }
= P {fi ∈ gi−1 (A00i ), i ∈ I0 }
| {z }
∈A0i
=
Y
P {fi ∈ gi−1 (A00i )} (da fi unabhängig)
i∈I0
=
Y
P {gi ◦ fi ∈ A00i }.
i∈I0
37
2
Definition 7.25 f1 , f2 , . . . seien Zufallsgrößen auf (Ω, A, P ). C ∈ A heißt
terminales Ereignis bzgl. f1 , f2 , . . . :⇔
!
[
C∈σ
A(fm ) für alle n ∈ N.
m≥n
T
n∈N
σ
S
m≥n
A(fm ) heißt die zu f1 , f2 , . . . gehörende terminale σ–Algebra.
Beispiel 7.26
1. {ω ∈ Ω : fn (ω) > 0 unendlich oft},
2. {ω ∈ Ω : fn (ω), n ∈ N, ist konvergent},
P
3. ω ∈ Ω : n1 ni=1 fn (ω), n ∈ N, ist konvergent
sind terminale Ereignisse.
Satz 7.27 (Kolmogoroffsches 0–1–Gesetz) C sei terminales Ereignis zur
Folge unabhängiger Zufallsvariablen f1 , f2 , . . . ⇒ P (C) = 0 oder 1;
Bemerkung 7.28 Vergleiche Borel–Cantelli Lemma: A1 , A2 , . . . unabhängige Ereignisse ⇒ 1A1 , 1A2 , . . . unabhängige Zufallsvariablen;
(
)
X
lim sup An = ω ∈ Ω :
1An (ω) = ∞
n∈N
n∈N
ist terminales Ereignis zu 1A1 , 1A2 , . . . mit
P
0, falls Pn∈N P (An ) < ∞,
P lim sup An =
1, falls
n∈N
n∈N P (An ) = ∞.
Beweis: Annahme: P (C) >S
0. Wir zeigen:
P (C) = 1.
Für A ∈ A(fn , n ∈ N) := σ n∈N A(fn ) definieren wir
P ∗ (A) := P (A|C) =
P (A ∩ C)
P (C)
⇒ P ∗ ist Wahrscheinlichkeitsmaß mit
P ∗ (A) = P (A) für alle A ∈ A0 :=
[
n∈N
38
A(fm : m ≤ n),
mit
!
A(fm : m ≤ n) := σ
[
A(fm ) ,
m≤n
denn für A ∈ A0 gilt: A, C sind unabhängig.
A0 ist eine Algebra(!) mit A(fn , n ∈ N) = σ(A0 ).
Fortsetzungssatz 6.16 ⇒ P ∗ = P auf A(fn , n ∈ N), d.h.
P (A ∩ C)
= P (A)
P (C)
für alle A ∈ A(fn , n ∈ N)
⇒ P (A ∩ C) = P (A)P (C)
insbesondere für A = C (C ∈ A(fn , n ∈ N))
⇒ P (C) = P (C)2
⇒ P (C) = 1.
P ∗ (A) =
2
8
Integrationstheorie
Es sei f eine Zufallsvariable, die nur die Werte a1 , . . . , am annimmt, pi :=
P {f = ai }, i = 1, . . . , m.
Bei N –facher unabhängiger Wiederholung des Experimentes seien α1 , . . . , αN
(∈ {a1 , . . . , am }) die beobachteten Werte von f . Die Erfahrung zeigt, dass
sich das arithmetische Mittel
N
1 X
αi
N i=1
offenbar gegen einen gewissen Wert stabilisiert. Was ist das für eine Zahl?
Dazu anschaulich: Hi (Häufigkeit) bezeichne die Anzahl des Eintretens von
ai unter den N Durchführungen des Experimentes, i = 1, . . . , m. Nach der
Erfahrung wird gelten:
Hi
≈ pi , d.h. Hi ≈ pi N.
N
Damit:
α1 + · · · + αN
N
H1 a1 + · · · + Hm am
N
m
X
Hi
=
ai
N
i=1
=
≈
m
X
ai p i .
i=1
Dies wird der zu erwartende, d.h. der Erwartungswert des arithmetischen
Mittels sein. Den Begriff des Erwartungswertes werden wir in diesem Kapitel
untersuchen.
Definition 8.1
1. e einfache Funktion :⇔
e=
m
X
αi 1Ai
i=1
mit geeignetem m ∈ N, αi ≥ 0, Ai ∈ A, i = 1, . . . , m.
2. E := Menge der einfachen Funktionen.
Bemerkung 8.2
1. E = Menge aller nicht–negativen Zufallsvariablen über (Ω, A, P ), die
nur endlich viele Werte annehmen.
2. e1 , e2 ∈ E, α ∈ R+
⇒ αe1 , e1 + e2 , e1 e2 , e1 ∨ e2 , e1 ∧ e2 ∈ E.
P
3. e ∈ E ⇒ e = 1≤i≤m αi 1Ai
S
mit disjunkten Ai ∈ A und 1≤i≤m Ai = Ω.
Satz 8.3 Es gelte
e=
X
αi 1Ai =
1≤i≤m
X
βj 1Bj ∈ E
1≤j≤n
mit disjunkten Ai ∈ A, i = 1, . . . , m, und disjunkten Bj ∈ A, j = 1, . . . , n.
Dann folgt:
X
X
αi P (Ai ) =
βj P (Bj ).
1≤i≤m
1≤j≤n
S
S
Beweis: O.B.d.A. annehmbar, dass 1≤i≤m Ai = 1≤j≤m Bj = Ω.
X
X
1Ai =
1Ai ∩Bj ; 1Bj =
1Ai ∩Bj
1≤j≤n
⇒e =
X
1≤i≤n
αi 1Ai
1≤i≤m
=
X
αi 1Ai ∩Bj ;
1≤i≤m;1≤j≤n
e =
X
βj 1Bj ∩Ai
1≤j≤n;1≤i≤m
⇒ ∀i, j mit Ai ∩ Bj 6= ∅ : αi = βj
X
⇒
αi P (Ai )
1≤i≤m
=
X
αi P (Ai ∩ Bj )
1≤i≤m;1≤j≤n
=
X
βj P (Bj ∩ Ai )
1≤i≤m;1≤j≤n
=
X
βj P (Bj ).
1≤j≤n
40
2
P
Definition 8.4 Für e = 1≤i≤m αi 1Ai ∈ E mit disjunkten Ai und αi ≥ 0
definieren wir
Z
Z
X
e dP :=
αi P (Ai ),
e dP :=
Ω
1≤i≤m
das Integral von e über Ω.
Satz 8.5 Für e, e1 , e2 ∈ E gilt:
1.
Z
Z
αe dP = α
2.
α ≥ 0,
e dP,
Z
Z
e1 + e2 dP =
Z
e1 dP +
e2 dP,
P
3. e = 1≤i≤m αi 1Ai mit αi ≥ 0 und beliebigen Ai , d.h. nicht notwendig
disjunkten Ai ⇒
Z
X
e dP =
αi P (Ai ),
1≤i≤m
4.
Z
e1 ≤ e2 ⇒
Z
e1 dP ≤
e2 dP.
Beweis:
P
P
αi 1Ai mit disjunkten Ai ⇒ αe =
1.“ e =
1≤i≤m (ααi )1Ai ⇒
1≤i≤m
”
Behauptung.
P
P
mit disjunkten
A
,
e
=
2.“ e1 = i αi 1Ai S
i
2
j βj 1Bj mit disjunkten Bj .
S
”
O.b.d.A. gelte i Ai = j Bj = Ω;
X
e1 =
αi 1Ai ∩Bj ,
i,j
e2 =
X
βj 1Ai ∩Bj
i,j
⇒ e1 + e2
X
=
(αi + βj )1Ai ∩Bj
i,j
mit Ai ∩ Bj , (i, j), disjunkt
Z
⇒
e1 + e2 dP
X
=Def.
(αi + βj )P (Ai ∩ Bj )
i,j
X
X
=
αi P (Ai ∩ Bj ) +
βj P (Ai ∩ Bj )
i,j
i,j
Z
=
Z
e1 dP +
41
e2 dP.
3.“ Folgt aus 1. und 2.:
”
Z X
αi 1Ai dP =
i
X
Z
αi
1Ai dP.
i
4.“ Nach Beweisteil 2. besitzen e1 und e2 die Darstellungen
”
X
X
e1 =
αi 1Ai , e2 =
βi 1Ai
1≤i≤m
1≤i≤m
mit disjunkten Ai 6= ∅
⇒ α i ≤ βi ,
1 ≤ i ≤ m,
Z
X
⇒ e1 dP =
αi P (Ai )
i
≤
X
βi P (Ai )
Zi
=
e2 dP.
2
Satz 8.6 Zu jeder Zufallsvariablen f ≥ 0 existieren en ∈ E, n ∈ N, mit
e1 ≤ e2 ≤ . . . und f = lim en .
n∈N
Beweis: Setze
en :=
X
0≤i<n2n
i
1A ,
2n n,i
mit An,i := {i/2n ≤ f < (i + 1)/2n }.
2
Satz 8.7 e, en ∈ E, n ∈ N, mit e ≤ limn∈N en , e1 ≤ e2 ≤ . . . Dann folgt:
Z
Z
e dP ≤ lim en dP.
n∈N
P
Beweis: Sei e = 1≤i≤m αi 1Ai .
Wähle a ∈ [0, 1) und setze Kn := {ae ≤ en }, n ∈ N.
Kn ∈ A,Pda ae − en A, B–messbar,
e1Kn = 1≤i≤m αi 1Ai ∩Kn ∈ E,
Kn ↑ Ω, also Ai ∩ Kn ↑ Ai und damit
42
limn∈N P (Ai ∩ Kn ) = P (Ai ), i = 1, . . . , m, ⇒
Z
X
a e dP = a
αi P (Ai )
1≤i≤m
X
= a lim
n∈N
αi P (Ai ∩ Kn )
1≤i≤m
Z
ae1Kn dP
| {z }
= lim
n∈N
≤en
Z
≤ lim
en dP.
n∈N
Für a ↑ 1 folgt nun die Behauptung.
2
Korollar 8.8 e1 ≤ e2 ≤ . . . , e01 ≤ e02 ≤ . . . ∈ E mit limn∈N en = limn∈N e0n
(≤ ∞). Dann gilt:
Z
Z
lim en dP = lim e0n dP.
n∈N
n∈N
Definition 8.9 Für eine Zufallsvariable f ≥ 0 setzen wir
Z
Z
f dP := lim en dP
n∈N
(Integral von f über (Ω, A, P )), falls
f = lim en ,
n∈N
e1 ≤ e2 ≤ . . . ∈ E.
Satz 8.10 Für nicht negative Zufallsvariablen f, f1 , f2 gilt:
1.
Z
Z
αf dP = α
2.
α ≥ 0,
f dP,
Z
Z
f1 + f2 dP =
3.
Z
f1 dP +
Z
f1 ≤ f2 ⇒
f2 dP,
Z
f1 dP ≤
f2 dP.
Beweis: Nach Satz 8.6 existieren Folgen einfacher Funktionen e1 ≤ e2 ≤ . . . ,
e01 ≤ e02 ≤ . . ., ẽ1 ≤ ẽ2 . . . mit limn∈N en = f , limn∈N e0n = f1 , limn∈N ẽn = f2 .
43
1.“ αen ∈ E, n ∈ N, αe1 ≤ αe2 ≤ . . . , limn∈N αen = αf . Damit:
”
Z
Z
αf dP =Def. lim αen dP
n∈N
Z
=8.5 lim α en dP
n∈N
Z
=
α lim en dP
n∈N
Z
=Def. α f dP.
2.“ e0n + ẽn ∈ E, n ∈ N, e01 + ẽ1 ≤ e02 + ẽ2 ≤ · · · , limn∈N (e0n + ẽn ) = f1 + f2 .
”
Damit:
Z
Z
f1 + f2 dP =Def. lim e0n + ẽn dP
n∈N
Z
Z
0
en dP + ẽn dP
=8.5 lim
n∈N
Z
Z
=
f1 dP + f2 dP.
3.“
”
e0n
≤
lim ẽn (= f2 )
Z
0
⇒8.7 en dP
≤
lim ẽn dP
n∈N
Z
=Def.
f2 dP
Z
Z
⇒Def. f1 dP
=
lim e0n dP
n∈N
Z
≤
f2 dP.
n∈N
Z
2
Satz 8.11 f, f1 , f2 , . . . seien nicht negative Zufallsvariablen mit f1 ≤ f2 ≤
· · · und limn∈N fn = f . Dann gilt:
Z
Z
f dP = lim fn dP.
n∈N
Beweis: Zu fn existiert eine monoton wachsende Folge en,m , m ∈ N, in E
mit
lim en,m = fn ,
m∈N
44
also:
e1,1 ≤ e1,2 ≤ · · · ↑ f1
e2,1 ≤ e2,2 ≤ · · · ↑ f2
..
..
..
.
.
.
en,1 ≤ en,2 ≤ · · · ↑ fn
..
..
..
.
.
.
↑ f.
Setze en := max(e1,n , . . . , en,n ). Dann gilt:
1.
en ∈ E
(8.2,3.), e1 ≤ e2 ≤ · · ·
2.
en ≤ max(f1 , . . . , fn ) = fn ≤ f.
3.
∀m ≤ n : en
⇒ lim en
≥
≥
em,n
lim em,n = fm
⇒ lim en
≥
f
n∈N
n∈N
n∈N
⇒2. lim en
=
f
Z n∈N
Z
⇒ f dP =Def. lim en dP
n∈N
Z
≤2. lim fn dP ;
n∈N
Z
Z
f dP ≥8.10
fn dP
Z
Z
⇒ f dP
=
lim fn dP.
n∈N
2
Definition 8.12 f sei beliebige Zufallsvariable.
1. f + := max(f, 0) ist der Positivteil von f ,
f − := max(−f, 0) ist der Negativteil von f ; f = f + − f − .
R
R
2. f ist integrierbar :⇔ f + dP < ∞ und f − dP < ∞.
3. L := Menge aller integrierbaren Funktionen (auf (Ω, A, P )).
R
R
4. f ist quasiintegrierbar :⇔ f + dP < ∞ oder f − dP < ∞.
R
R
R
5. f dP := f + dP − f − dP , falls f quasiintegrierbar ist.
Satz 8.13 f, f1 , f2 beliebige Zufallsvariablen. Dann:
45
1. f ∈ L, α ∈ R ⇒ αf ∈ L und
R
αf dP = α
R
f dP .
R
R
2. f1 , f2 ∈ L ⇒ f1 + f2 ∈ L und f1 + f2 dP = f1 dP + f2 dP.
R
R
3. f1 ≤ f2 , f1 , f2 ∈ L ⇒ f1 dP ≤ f2 dP.
R
R
4. f ∈ L ⇔ |f | ∈ L und es gilt in diesem Fall | f dP | ≤ |f | dP.
R
5. g A, B–messbar mit f1 ≤ g ≤ f2 , f1 , f2 ∈ L ⇒ g ∈ L.
Beweis: Mittels 8.10.
2
Satz 8.14 (v. d. monotonen Konvergenz)
1. fRn ∈ L, n ∈ N, fn ↑ f < ∞ ⇒ f ist quasiintegrierbar und
f dP .
R
fn dP ↑
2. fRn ∈ L, n ∈ N, fn ↓ f > −∞ ⇒ f ist quasiintegrierbar und
f dP .
R
fn dP ↓
Beweis: Genügt 1. zu beweisen (Übergang zu −fn , −f ). O.E. sei fn ≥ 0
(sonst Übergang zu fn0 := fn − f1 ). Dann folgt die Behauptung aber aus 8.11.
2
Satz 8.15 (Lemma von Fatou)
1. fn ∈ L, n ∈ N, fn ≤ h, h ∈ L, lim supn∈N fn > −∞ ⇒ lim supn∈N fn
ist quasiintegrierbar und
Z
Z
lim sup fn dP ≥ lim sup fn dP.
n∈N
n∈N
2. fn ∈ L, n ∈ N, fn ≥ g, g ∈ L, lim inf n∈N fn < ∞ ⇒ lim inf n∈N fn ist
quasiintegrierbar und
Z
Z
lim inf fn dP ≤ lim inf fn dP.
n∈N
n∈N
Beweis: Genügt 1. zu beweisen (Übergang zu −fn ). Es gilt:
lim sup fn = lim sup fm .
n∈N
n∈N
m≥n
supm≥n fm ∈ L, da fn ≤ supm≥n fm ≤ h (8.13);
46
supm≥n fm ↓ lim supn∈N fn ⇒8.14 lim supn∈N fn ist quasiintegrierbar und
Z
Z
sup fm dP ↓
lim sup fn dP
m≥n
n∈N
Z
Z
⇒ lim sup fn dP = lim sup fm dP
n∈N m≥n
n∈N
Z
≤ lim
sup fm dP
n∈N
m≥n
Z
=
lim sup fn dP.
n∈N
2
Satz 8.16 (v. d. dominierten Konvergenz) fn , n ∈ N, Zufallsvariablen
mit limn∈N fn = f , |fn | ≤ g, g ∈ L. Dann gilt:
Z
Z
fn , f ∈ L und lim fn dP = f dP.
n∈N
Beweis: 8.13⇒ fn , f ∈ L. Das Lemma von Fatou liefert:
Z
Z
lim sup fn dP ≤
lim sup fn dP
n∈N
Z n∈N
=
f dP
Z
=
lim inf fn dP
n∈N
Z
≤ lim inf fn dP.
n∈N
2
Satz 8.17 (Transformationssatz für Integrale) (Ω, A, P ) Wahrscheinlichkeitsraum, (Ω0 , A0 ) messbarer Raum, T : (Ω, A) → (Ω0 , A0 ).
P 0 := P ∗T sei das durch P und T auf A0 induzierte Wahrscheinlichkeitsmaß
(Bildmaß), d.h.
P 0 (A0 ) = P (T −1 (A0 )), A0 ∈ A0 ,
s. Satz 7.1.
f 0 : Ω0 → R sei Zufallsvariable. Dann:
f 0 ∈ L(Ω0 , A0 , P 0 ) ⇔ f 0 ◦ T ∈ L(Ω, A, P )
und in diesem Fall gilt:
Z
0
0
Z
f dP =
Ω0
Ω
47
f 0 ◦ T dP.
Beweis:
1. Sei e0 ∈ E(Ω0 , A0 ), d.h. e0 =
P
1≤i≤m
αi 1A0i mit αi ≥ 0, A0i ∈ A0 ,
X
⇒ e := e0 ◦ T =
αi 1A0i ◦ T
1≤i≤m
X
=
αi 1Ai ∈ E(Ω, A)
1≤i≤m
mit Ai := T −1 (A0i ) und
Z
e0 dP 0 =
Ω0
X
αi P 0 (A0i )
1≤i≤m
X
=
αi P (T −1 (A0i ))
1≤i≤m
X
=
αi P (Ai )
1≤i≤m
Z
e dP.
=
Ω
2. Sei f 0 : Ω0 → R+ Zufallsvariable. Dann existieren e0n ∈ E(Ω0 , A0 ) mit
e0n ↑ f 0 ⇒ en := e0n ◦ T ↑ f 0 ◦ T , en ∈ E(Ω, A).
Somit gilt nach 1.:
Z
0
f dP
0
Ω0
Z
=Def. lim
n∈N
Ω0
e0n dP 0
Z
lim en dP
Ω
Z
=Def.
f 0 ◦ T dP.
=1.
n∈N
Ω
3. Für beliebiges f mittels Zerlegung f = f + − f − .
2
Definition 8.18
1. Es sei A ∈ A, f Zufallsvariable und f 1A quasiintegrierbar. Dann:
Z
Z
Z
f dP :=
f (ω) P (dω) := f 1A dP.
A
A
2. f sei quasiintegrierbar. Die Abbildung
Z
A 3 A 7→
f dP
A
heißt unbestimmtes Integral von f .
48
Bemerkung
Es Rseien A, BR∈ A, A ∩ B = ∅ und f quasiintegrierbar. Dann
R
gilt A∪B f dP = A f dP = B f dP .
Satz 8.19 f ≥ 0 sei Zufallsvariable mit
R
f dP = 1. Dann:
Z
Q : A → R mit Q(A) :=
f dP
A
ist ein Wahrscheinlichkeitsmaß auf A.
Beweis:
1. Q(A) ≥ 0 offensichtlich,
2. Q(Ω) = 1 trivial.
3. An ∈ A, n ∈ N, seien paarweise disjunkt. Dann:
!
[
Q
An
n∈N
Z
=
f dP
S
n∈N
An
Z
=Def.
=
f 1Sn∈N An dP
ZΩ X
f 1An dP
Ω n∈N
Z
=
lim
Ω n∈N
=mon. Konv. lim
n∈N
=
=Def.
=
=
lim
n∈N
lim
n∈N
lim
n∈N
X
n
X
Ω i=1
n
XZ
dP
f 1Ai dP
f 1Ai dP
i=1 Ω
n Z
X
i=1
f 1Ai
i=1
Z X
n
n
X
!
f dP
Ai
Q(Ai )
i=1
Q(An ).
n∈N
2
R
Definition 8.20 f ≥ 0 sei Zufallsvariable mit f dP = 1. Q sei definiert
wie in 8.19. Dann heißt f Dichte (genauer: eine Dichte) von Q bezüglich P .
Symbolisch:
dQ
Q = f P, f =
, dQ = f dP.
dP
49
Satz 8.21 f1 sei P –Dichte von Q, f2 ≥ 0 sei Zufallsvariable. Dann:
f2 ist P –Dichte von Q ⇔ P ({f1 6= f2 }) = 0.
Lemma 8.22 f sei Zufallsvariable, A ∈ A mit P (A) = 0 ⇒
R
A
|f | dP = 0.
Beweis: Es gilt |f 1A | = |f |1A . Es existieren en ∈ E, n ∈ N, mit en ↑ |f |
⇒ en 1A ∈ E mit en 1A ↑ |f |1A ;
Z
Z
|f |1A dP =Def. lim
n∈N
en 1A dP
X
αi P (Ai ∩ A) = 0,
lim
| {z }
n∈N
=
1≤i≤m
wobei en =
P
1≤i≤m
=0
αi 1Ai , 1Ai 1A = 1Ai ∩A ,
Z
Z
⇒8.13 | f dP | ≤
|f | dP = 0.
A
A
2
Beweis:[von 8.21]
⇐“ Sei A ∈ A;
”
Z
Q(A)
=
f1 1A dP
Z
=
Z
f1 1A∩{f1 =f2 } dP +
f1 1A∩{f1 6=f2 } dP
Z
=8.22
f1 1A∩{f1 =f2 } dP
Z
=
f2 1A∩{f1 =f2 } dP
Z
=
Z
f2 1A∩{f1 =f2 } dP +
f2 1A∩{f1 6=f2 } dP
Z
=
f2 1A dP.
⇒“ Aus den Voraussetzungen folgt:
”
Z
Z
∀A ∈ A :
f1 dP =
f2 dP
A
A
Z
Z
⇒ ∀A ∈ A :
f1 dP −
f2 dP
A
ZA
f1 − f2 dP = 0.
=
A
50
Speziell für
−
A+
n := {f1 − f2 > 1/n}, An := {f1 − f2 < −1/n}
gilt also:
Z
0
=
A+
n
Z
≥8.13
A+
n
f1 − f2 dP
1
dP
n
1
P (A+
n ),
n
=
d.h. P (A+
n ) = 0;
Z
0
=
A−
n
f1 − f2 dP
Z
1
− dP
n
A−
n
1
− P (A−
n ),
n
≤8.13
=
d.h. P (A−
n ) = 0. Es folgt:
!
[
P {f1 6= f2 } = P
−
(A+
n ∪ An )
n∈N
≤
X
−
P (A+
n ∪ An ) = 0.
n∈N
2
Satz 8.23 f sei P –Dichte von Q, g sei Zufallsvariable. Dann gilt:
g ist Q–integrierbar ⇔ gf ist P –integrierbar und in diesem Fall gilt:
Z
Z
g dQ = gf dP.
Beweis:
1. Es sei e =
P
1≤i≤m
αi 1Ai ∈ E
Z
m
X
⇒ e dQ =
αi Q(Ai )
i=1
=
=
m
X
i=1
m
X
Z
αi
f dP
Ai
Z
αi
f 1Ai dP
i=1
Z
=
f
m
X
αi 1Ai dP
i=1
Z
=
51
f e dP.
2. g ≥ 0 sei Zufallsvariable ⇒ g = limn∈N en mit geeigneten e1 ≤ e2 ≤
... ∈ E
Z
Z
⇒ g dQ =Def. lim en dQ
n∈N
Z
=1. lim en f dP
n∈N
Z
=8.14
lim(en f ) dP
n∈N
Z
=
f g dP.
3. Allgemeiner Fall mittels Zerlegung g = g + − g − .
2
Satz 8.24 (Fubini) (Ω, A, P ) sei das Produkt der beiden Wahrscheinlichkeitsräume (Ωi , Ai , Pi ), i = 1, 2, d.h.
ˆ Ω = Ω1 × Ω2 ,
ˆ A = σ({A1 × A2 : A1 ∈ A1 , A2 ∈ A2 },
ˆ P = P 1 × P2 .
f : Ω → R sei integrierbar bzgl. P . Dann gilt:
1.
f (ω1 , ·) : Ω2 3 ω2 7→ f (ω1 , ω2 ) ∈ R
ist für P1 –fast alle ω1 ∈ Ω1 P2 –integrierbar, d.h. es existiert N1 ∈
A1 , P1 (N1 ) = 0 und ∀ω1 ∈ N1c ist f (ω1 , ·) eine P2 –integrierbare Funktion.
2.
f (·, ω2 ) : Ω1 3 ω1 7→ f (ω1 , ω2 ) ∈ R
ist für P2 –fast alle ω2 ∈ Ω2 P1 –integrierbar, d.h. es existiert N2 ∈
A2 , P2 (N2 ) = 0 und ∀ω2 ∈ N2c ist f (·, ω2 ) eine P1 –integrierbare Funktion.
3. Die gemäß 1. bzw. 2. bis auf Nullmengen definierten Funktionen
Z
ω1 7→
f (ω1 , ·) dP2
Ω2
und
Z
ω2 7→
f (·, ω2 ) dP1
Ω1
52
sind P1 – bzw. P2 –integrierbar und es gilt:
Z
Z
f dP =
f d(P1 × P2 )
Ω
Ω1 ×Ω2
Z Z
=
f (ω1 , ·) dP2 P1 (dω1 )
Ω1
Ω2
Z Z
=
f (·, ω2 ) dP1 P2 (dω2 ).
Ω2
Ω1
Beweis: Siehe Maßtheorie.
2
Bemerkung Die bisher entwickelte Integrationstheorie ist auch für beliebige
σ–finite Maße µ anstelle eines Wahrscheinlichkeitsmaßes P gültig.
µ : A → [0, ∞] ist Maß :⇔
P
S
1. µ n∈N An = n∈N µ(An ) für disjunkte An ∈ A,
2. µ(∅) = 0.
µ : A → [0,S∞] ist σ–finites Maß :⇔ µ ist Maß und es existieren An ∈ A,
n ∈ N, mit n∈N An = Ω und µ(An ) < ∞, n ∈ N.
Definition 8.25 Definiere λ0n : In0 := {(a, b] = ×ni=1 (ai , bi ] : a, b ∈ Rn } →
[0, ∞] durch
Y
λ0n ((a, b]) :=
(bi − ai ).
1≤i≤n
λ0n
In0
ist σ–additiv auf
und kann eindeutig zu einem (σ–finiten) Maß auf Bn
fortgesetzt werden. Dieses Maß ist das Lebesgue–Maß, i.Z. λn , vgl. 7.8.
Satz 8.26 Es gilt:
λn = λn1 ,
wobei λn1 das n–fache Produkt von λ1 bezeichnet.
Beweis: Klar, da
λn ((a, b]) = λ0n ((a, b])
Y
=
(bi − ai )
1≤i≤n
=
=
Y
λ1 ((ai , bi ])
1≤i≤n
λn1 ((a, b]).
2
53
Definition 8.27 Es sei f ∈ L(Rn , Bn , λn ). Wir setzen:
Z
Z
Z
f (x) dx := f (x1 , . . . , xn ) dx1 · · · dxn := f dλn .
Bemerkung 8.28 Setze (Ω, A, P ) := ((0, 1], B∩(0, 1], λ1 /(0, 1]), fn := n1(0,1/n] ,
n ∈ N. Dann gilt:
fn (ω) →n→N 0, ω ∈ Ω,
aber
Z
Z
fn dλ1 = nλ1 ((0, 1/n]) = 1 6=
0 dλ1 = 0.
Die Monotonie– bzw. Beschränktheitsvoraussetzungen in den Integrationssätzen
sind also wesentlich.
9
Verteilungen und ihre Charakterisierungen
Definition 9.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, (Ω0 , A0 ) messbarer
Raum, f : (Ω, A, P ) → (Ω0 , A0 ).
Das Wahrscheinlichkeitsmaß P ∗ f : A0 → [0, 1], definiert durch
(P ∗ f )(A) := P (f −1 (A)),
A ∈ A0 ,
heißt Verteilung von f , (s. 7.1).
Bemerkung Jedes Wahrscheinlichkeitsmaß P 0 auf einem beliebigen messbaren Raum (Ω0 , A0 ) kann als Verteilung einer geeigneten Zufallsgröße aufgefasst werden: Setze
(Ω, A, P ) := (Ω0 , A0 , P 0 ), f (ω) := ω, ω ∈ Ω.
Definition 9.2 f sei Zufallsvariable über (Ω, A, P ), d.h. f : (Ω, A) → (R, B).
Definiere F : R → [0, 1] durch
F (x) := P ({f ≤ x})
= P ({ω ∈ Ω : f (ω) ≤ x})
= (P ∗ f )((−∞, x]),
x ∈ R.
F heißt Verteilungsfunktion von f bzw. von P ∗ f .
Beispiel 9.3
1. f sei das Ergebnis beim Würfeln, d.h. P ({i}) = 1/6, i = 1, . . . , 6. Dann
gilt:

für x < 1,
 0
i/6 für i ≤ x < i + 1, i = 1, . . . , 5,
F (x) =

1
für x ≥ 6.
54
2. f sei gleichverteilt auf (0, 1), d.h. P ({f ∈ B} = λ1 (B) für B ∈ B∩(0, 1).
Dann gilt:
P ({f ≤ x})
P ({f ∈ (−∞, x]})
P ({f ∈ (0, x]})
λ1 ((0, x]) = x
für 0 ≤ x ≤ 1.
F (x) =
=
=
=
Bemerkung 9.4 Die Verteilungsfunktion F (x) = (P ∗ f )((−∞, x]) einer
Zufallsvariablen f hängt offenbar nur von der Verteilung P ∗ f von f ab,
nicht von den konkreten Werten von f .
Satz 9.5 F sei Verteilungsfunktion der Verteilung Q := P ∗ f . Dann gilt:
1. F ist monoton wachsend.
2. F ist rechtsseitig stetig.
3. limx→∞ F (x) = 1, limx→−∞ F (x) = 0.
Beweis:
1.“
”
x<y
⇒ (−∞, x] ⊂ (−∞, y]
⇒ F (x) = Q((−∞, x]) ≤ Q((−∞, y]) = F (y).
T
2.“ (−∞, x] = n∈N (−∞, xn ], falls xn ↓ x. Damit:
”
F (x) = Q((−∞, x])
!
\
= Q
(−∞, xn ]
n∈N
= lim Q((−∞, xn ])
n∈N
= lim F (xn ).
n∈N
3.“
”
xn ↑ ∞
⇒ R=
[
(−∞, xn ]
n∈N
⇒ 1 = Q(R) = lim Q((−∞, xn ]) = lim F (xn );
n∈N
n∈N
xn ↓ −∞
⇒ ∅=
\
(−∞, xn ]
n∈N
⇒ 0 = Q(∅) = lim Q((−∞, xn ]) = lim F (xn ).
n∈N
55
n∈N
2
Satz 9.6 Eine Verteilung Q ist durch ihre Verteilungsfunktion F eindeutig
bestimmt.
Das bedeutet: Sind Q1 , Q2 Wahrscheinlichkeitsmaße auf (R, B) mit Q1 6= Q2 ,
so existiert x ∈ R mit
FQ1 (x) = Q1 ((−∞, x]) 6= Q2 ((−∞, x]) = FQ2 (x).
Beweis:
1. Es gilt:
Q((x, y]) = F (y) − F (x) für x < y.
2.
Q((x, y)) = lim Q((x, y − 1/n])
n∈N
= lim(F (y − 1/n) − F (x)),
n∈N
denn (x, y − 1/n] ↑ (x, y).
3. Jede offene Menge in R ist Vereinigung von abzählbar vielen disjunkten
offenen Intervallen
⇒2. Q(G) ist für offene Mengen G durch F bestimmt
⇒ Q(B) ist für beliebiges B ∈ B bestimmt (Maßtheorie, Fortsetzungssatz).
2
Satz 9.7 F : R → [0, 1] sei eine Funktion, die 1.–3. von Satz 9.5 erfülle.
Dann ist F die Verteilungsfunktion einer geeigneten Zufallsvariablen f , d.h.
es existiert ein Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable
f auf (Ω, A, P ) mit F (x) = (P ∗ f )((−∞, x]), x ∈ R.
Beweis: Setze Ω := (0, 1), A := B ∩ (0, 1), P := λ1 /Ω,
f (ω) := inf{x ∈ R : F (x) ≥ ω}
= min{x ∈ R : F (x) ≥ ω} wegen der rechtsseitigen Stetigkeit von F . Dann
gilt:
1. f ist Zufallsvariable, denn: f ist monoton wachsend, d.h. f (ω1 ) ≤ f (ω2 ),
ω1 ≤ ω2 , und damit ist {f ≤ x} ein Intervall (in Ω), x ∈ R, also in
B ∩ Ω.
56
2.
ω ≤ F (y) ⇔ f (ω) ≤ y,
y ∈ R,
⇒ {ω ∈ Ω : ω ≤ F (y)} = {ω ∈ Ω : f (ω) ≤ y}
⇒ P ({f ≤ y}) = λ1 ({ω ∈ Ω : ω ≤ F (y)})
= λ1 ((0, F (y)])
= F (y), y ∈ R.
2
Definition 9.8 F : R → [0, 1] ist Verteilungsfunktion :⇔ F erfüllt 1.–3. von
Satz 9.5.
Definition 9.9 F sei Verteilungsfunktion; dann heißt
F −1 (y) := inf{x ∈ R : F (x) ≥ y},
y ∈ (0, 1),
verallgemeinerte Inverse von F oder Quantilfunktion.
Satz 9.10 f sei eine auf (0, 1) gleichverteile Zufallsvariable und F eine beliebige Verteilungsfunktion. Dann besitzt die Zufallsvariable
g := F −1 ◦ f
die Verteilungsfunktion F .
Beweis: Siehe Übungen.
2
Definition 9.11 f = (f1 , . . . , fn ) sei n–dimensionaler Zufallsvektor, dann:
F : Rn → [0, 1] mit
F (y1 , . . . , yn ) := P ({f1 ≤ y1 , . . . , fn ≤ yn })
ist die (n–dimensionale) Verteilungsfunktion oder gemeinsame Verteilungsfunktion von f1 , . . . , fn .
Bemerkung
n = 1:
P ({f ∈ (x, y]}) = F (y) − F (x), x < y.
57
n = 2: Es sei x = (x1 , x2 ), y = (y1 , y2 ), xi < yi , i = 1, 2. Dann:
P ({(f1 , f2 ) ∈ (x, y])}
= F (y1 , y2 ) − F (y1 , x2 ) − F (x1 , y2 ) + F (x1 , x2 ).
Diese Gleichungen lassen sich auf beliebige Dimensionen erweitern.
Satz 9.12 Die Zufallsvariablen f1 , . . . , fn sind genau dann unabhängig, wenn
für ihre gemeinsame Verteilungsfunktion F gilt:
F (y1 , . . . , yn ) = F1 (y1 ) · · · Fn (yn )
für (y1 , . . . , yn ) ∈ Rn , wobei Fi die Verteilungsfunktion zu fi ist, i = 1, . . . , n.
Beweis:
⇒“
”
!
\
F (y1 , . . . , yn ) = P
{fi ≤ yi }
1≤i≤n
=
Y
P ({fi ≤ yi })
1≤i≤n
=
Y
Fi (yi ).
1≤i≤n
⇐“ Es gilt für y = (y1 , . . . , yn ) ∈ Rn :
”
!
F (y) = P
\
{fi ≤ yi }
1≤i≤n
=
Y
P ({fi ≤ yi }),
1≤i≤n
d.h.
(P ∗ (f1 , . . . , fn ))((−∞, y])
= ((P ∗ f1 ) × · · · × (P ∗ fn ))((−∞, y])
⇒ (P ∗ (f1 , . . . , fn ))(B)
= ((P ∗ f1 ) × · · · × (P ∗ fn ))(B)
für B ∈ Bn (s. Maßtheorie)
⇒ (P ∗ (f1 , . . . , fn ))(B1 × · · · × Bn )
= ((P ∗ f1 ) × · · · × (P ∗ fn ))(B1 × · · · × Bn )
für Bi ∈ B, i = 1 . . . , n,
⇒ P ({fi ∈ Bi , i = 1, . . . , n})
n
Y
=
P ({fi ∈ Bi })
i=1
für Bi ∈ B, i = 1, . . . , n, d.h. f1 , . . . , fn sind unabhängig (s. 7.23).
58
2
Definition 9.13 Eine Zufallsvariable f ist diskret verteilt :⇔ Es existiert
eine abzählbare Menge B = {b1 , b2 , . . .} ⊂ R mit P ({f ∈ B}) = 1.
Beispiele 9.14 Im folgenden sei f eine Zufallsvariable.
1. f besitzt Bernoulli–Verteilung mit Parameter p ∈ [0, 1], i.Z. B(1, p),
:⇔ P ({f = 1}) = p, P ({f = 0}) = 1 − p.
2. f besitzt Binomialverteilung mit den Parametern n ∈ N, p ∈ [0, 1], i.Z.
B(n, p),
:⇔ P ({f = k}) = B(n, p)({k})
n k
=
p (1 − p)n−k , k = 0, 1, . . . , n.
k
3. f besitzt Poisson–Verteilung mit dem Parameter λ > 0, i.Z. Pλ ,
:⇔ P ({f = k}) = Pλ ({k})
λk
= e−λ , k = 0, 1, . . .
k!
4. f besitzt geometrische Verteilung zum Parameter p ∈ [0, 1]
:⇔ P ({f = k}) = p(1 − p)k−1 , k = 1, 2, . . .
Bemerkung 9.15 f1 , f2 , . . . seien unabhängige, zum Parameter p ∈ [0, 1]
Bernoulli–verteilte Zufallsvariablen. Dann gilt:
1. f1 + · · · + fn ist B(n, p)–verteilt.
2. f := inf{m ∈ N : fm = 1} ist geometrisch verteilt zum Parameter p.
Beweis: Siehe Übungen.
2
Definition 9.16
1. Eine Verteilung Q auf B heißt absolutstetig :⇔ Q besitzt eine Dichte
bzgl. λ1 , d.h. es existiert eine Borel–messbare Funktion h : R → [0, ∞)
mit
Z
Q(B) =
h dλ1 , B ∈ B.
B
59
2. Eine Zufallsvariable f heißt absolutstetig :⇔ P ∗ f ist absolutstetig.
Satz 9.17 f sei eine absolutstetige Zufallsvariable mit Dichte h und Verteilungsfunktion F . Dann gilt:
h(x) = F 0 (x) =
∂F (x)
,
∂x
falls h an der Stelle x stetig ist.
Beweis: Es gilt:
F (x + ε) − F (x)
ε
P ({f ∈ (x, x + ε]})
=
ε
R
h(y)
dy
(x,x+ε]
=
ε
R
R
h(y)
−
h(x)
dy
h(x) dy
(x,x+ε]
(x,x+ε]
=
+
ε
ε
=: I + II.
Offenbar gilt:
λ1 ((x, x + ε])
= h(x),
ε
II = h(x)
sowie
R
|I| ≤
(x,x+ε]
ε
R
≤
=
|h(y) − h(x)| dy
(x,x+ε]
supz∈(x,x+ε] |h(z) − h(x)| dy
ε
|h(z) − h(x)| →ε→0 0,
sup
z∈(x,x+ε]
wegen der Stetigkeit von h in x. Hieraus folgt die Behauptung.
2
Definition 9.18 Qa,b ist die Gleichverteilung auf (a, b) ⊂ R, −∞ < a < b <
∞ :⇔ Qa,b besitzt die Dichte
ha,b (x) :=
1
1(a,b) (x),
b−a
60
x ∈ R.
Beispiel 9.19 f sei die Lebensdauer eines nicht alternden Objektes. Dabei
bedeutet keine Alterung:
P ({f > s + t|f > s}) = P ({f > t}),
t, s ≥ 0.
Es gilt also für t, s, ≥ 0:
P ({f > s + t}) = P ({f > s})P ({f > t}),
⇒ für G(y) := P ({f > y}) gilt:
G(s + t) = G(s)G(t)
⇒ ∃λ ≥ 0 : G(y) = exp(−λy)
(als einzige nicht identisch verschwindende monoton fallende Lösung obiger
Funktionalgleichung2 )
⇒ F (y) := P ({f ≤ y})
= 1 − G(y)
= 1 − exp(−λy),
y ≥ 0.
Definition 9.20 Eine Zufallsvariable f ist exponentialverteilt zum Parameter λ > 0 :⇔ P ∗ f besitzt die Dichte
0,
x < 0,
h(x) :=
λ exp(−λx), x ≥ 0.
Offenbar gilt dann: F (x) = 1 − exp(−λx), x ≥ 0.
Definition 9.21 Der Zufallvektor f = (f1 , . . . , fn ) ist absolutstetig mit der
Dichte h :⇔
Z
P ({f ∈ B}) =
h dλn
ZB
=
h(x1 , . . . , xn ) dx1 · · · dxn , B ∈ Bn .
B
Satz 9.22 h : Rn → [0, ∞) sei integrierbar bzgl. λn und es gelte für den
Zufallsvektor f :
P ({f ≤ y})
Z
Z
=
···
(−∞,y1 ]
h(x1 , . . . , xn ) dx1 · · · dxn
(−∞,yn ]
für y = (y1 , . . . , yn ) ∈ Rn . Dann ist h eine Dichte von f .
2
S. 133 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik,
6. Auflage. Vieweg, Braunschweig.
61
Beweisskizze: Aus der Voraussetzung folgt nach dem Satz von Fubini für
jedes y ∈ Rn :
Z
P ({f ∈ (−∞, y]}) =
h dλn
(−∞,y]
und hieraus (Maßtheorie, Fortsetzungssatz) für jedes B ∈ Bn :
Z
P ({f ∈ B}) =
h dλn
B
2
Satz 9.23 f1 , . . . , fn seien Zufallsvariablen mit Dichten h1 , . . . , hn . Dann
gilt:
f1 , . . . , fn sind unabhängig ⇔ f = (f1 , . . . , fn ) besitzt die Dichte
h(x1 , . . . , xn ) = h1 (x1 ) · · · hn (xn ),
(x1 , . . . , xn ) ∈ Rn .
Beweis:
⇒“ Für y = (y1 , . . . , yn ) ∈ Rn gilt:
”
P ({f ∈ (−∞, y]})
= P ({fi ≤ yi , i = 1, . . . , n})
n
Y
=
P ({fi ≤ yi })
i=1
=
n Z
Y
i=1
hi (xi ) dxi
(−∞,yi ]
Z
Z
···
=
(−∞,y1 ]
h1 (x1 ) · · · hn (xn ) dxn · · · dx1
(−∞,yn ]
Z
Z
···
=
(−∞,y1 ]
h(x1 , . . . , xn ) dxn · · · dx1
(−∞,yn ]
⇒ Behauptung aus 9.22.
⇐“ Für y = (y1 , . . . , yn ) ∈ Rn gilt auf Grund des Satzes von Fubini:
”
P ({f ∈ (−∞, y]})
Z
=
h dλn
(−∞,y]
Z
Z
=
···
h(x1 , . . . , xn ) dx1 · · · dxn
(−∞,y1 ]
(−∞,yn ]
Z
Z
=
···
h1 (x1 ) · · · hn (xn ) dx1 · · · dxn
=
=
(−∞,y1 ]
n
YZ
i=1
n
Y
(−∞,yn ]
hi (xi ) dxi
(−∞,yi ]
P ({fi ≤ yi })
i=1
⇒ Behauptung aus 9.12.
62
2
Beispiel 9.24 (Buffonsches Nadelproblem) Eine Nadel der Länge 1 wird
zufällig auf ein Raster aus Parallelen mit dem einheitlichen Abstand 1 geworfen. Wie groß ist die Wahrscheinlichkeit, dass die Nadel eine der Geraden
schneidet?
Lösung: Annahmen:
1. Der Winkel ϕ zwischen der Geraden und der Nadel ist auf (0, π) gleichverteilt.
2. Der Abstand d des Nadelmittelpunktes zur nächsten Geraden ist auf
(0, 1/2) gleichverteilt.
3. ϕ und d sind unabhängig.
Dann gilt nach 9.23
h(x1 , x2 ) =
2
π
für 0 < x1 < π, 0 < x2 < 12 ,
0 sonst
ist gemeinsame Dichte des Zufallsvektors (ϕ, d).
Ferner sei A das Ereignis, dass die Nadel eine der Geraden schneidet, d.h.
1
A = ω ∈ Ω : d(ω) ≤ sin ϕ(ω) .
2
Mit
1
1
A = (x1 , x2 ) ∈ (0, π) × 0,
: x2 ≤ sin(x1 )
2
2
0
folgt aus dem Satz von Fubini:
P (A) = P ({(ϕ, d) ∈ A0 }
Z
=
h dλ2
0
ZA
2
=
dx1 dx2
{(x1 ,x2 )∈(0,π)×(0, 21 ) :x2 ≤ 12 sin(x1 )} π
!
Z
Z
2
=
dx2 dx1
(0,π)
(0, 12 sin(x1 )) π
Z
1 π
=
sin(x1 ) dx1
π 0
2
=
.
π
2
63
Satz 9.25 f sei eine absolutstetige Zufallsvariable mit stetiger Dichte h, I ⊂
R Intervall mit P ({f ∈ I}) = 1.
g : I → R sei differenzierbar mit g 0 (x) > 0 für alle x ∈ I oder g 0 (x) < 0 für
alle x ∈ I. Dann gilt:
g ◦ f ist absolutstetig mit der Dichte
h̃(y) = h(g −1 (y))|(g −1 )0 (y)|
für alle y mit
inf g(x) < y < sup g(x)
x∈I
x∈I
und h̃(y) = 0 sonst.
Beweis: g ist auf I streng monoton und differenzierbar ⇒ g −1 ist definiert
(auf g(I)) und differenzierbar (mit (g −1 )0 (y) = 1/g 0 (g −1 (y))).
1. ∀x ∈ I gelte g 0 (x) > 0, d.h. g ist monoton wachsend
⇒ Fg◦f (y) =
=
=
0
⇒ Fg◦f (y) =
P ({g ◦ f ≤ y})
P ({f ≤ g −1 (y)})
Ff (g −1 (y))
h(g −1 (y))(g −1 )0 (y).
2. g 0 < 0 analog.
2
Bemerkung 9.26 Im obigen Satz kann die Stetigkeit von h ersatzlos gestrichen werden.3
Beispiel 9.27 Ein Teilchen trete mit einem Winkel ϕ zur x–Achse aus dem
Nullpunkt aus, wobei ϕ auf (−π/2, π/2) gleichverteilt sei. Im Abstand λ
vom Nullpunkt sei ein Schirm aufgestellt, auf den das Teilchen trifft. Die
Koordinaten dieses Punktes seien (λ, g) wobei g zufällig ist. Man bestimmt
eine Dichte der Zufallsvariablen g.
Lösung: ϕ besitzt die Dichte
h(y) =
1
1 π π (y),
π (− 2 , 2 )
da ϕ auf (−π/2, π/2) gleichverteilt ist.
Ferner gilt:
g = λ tan(ϕ),
3
S. 148 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik,
6. Auflage. Vieweg, Braunschweig.
64
wobei λ tan(x) streng monoton ist im Intervall (−π/2, π/2).
Nach 9.25, 9.26 besitzt g die Dichte
y 1 ∂ arctan
hg (y) =
π ∂y
λ 1
1 1
=
π 1 + y22 λ
λ
λ
1
,
=
π λ2 + y 2
y ∈ R.
2
Definition 9.28 Die Verteilung auf R mit der Dichte
hλ (y) :=
λ
1
,
2
π λ + y2
y ∈ R,
heißt Cauchy–Verteilung mit Parameter λ > 0.
Satz 9.29 Ist eine Verteilungsfunktion F auf (R, B) überall differenzierbar,
so ist F 0 eine Dichte von F.4
10
Momente
Definition 10.1 Es sei f ∈ L(Ω, A, P ). Dann heißt
Z
E(f ) := f dP
Erwartungswert von f (Mittelwert von P ∗ f ).
Bemerkung 10.2 Es gilt
Z
E(f ) =
Z
x (P ∗ f )(dx),
f dP =8.17
Ω
R
d.h. E(f ) hängt nur von der Verteilung P ∗ f von f ab. Man schreibt daher
auch häufig
Z
x F (dx) := E(f ),
wobei F (x) := P ({f ≤ x}), x ∈ R (s. 9.6 bzw. 9.2).
Bemerkung 10.3 f, g seien Zufallsvariablen, α ∈ R, dann:
4
Natanson, I.P. (1975). Theorie der Funktionen einer Veränderlichen, 4. Auflage.
Deutsch, Zürich.
65
1. E(αf ) = αE(f ), E(f + g) = E(f ) + E(g), falls f, g ∈ L(Ω, A, P ).
2. E(f ) existiert ⇔ E(|f |) existiert, und in diesem Fall gilt: |E(f )| ≤
E(|f |).
3. Falls E(f ) existiert und |g| ≤ |f | ⇒ E(g) existiert.
Beweis: 8.13.
2
Satz 10.4 f sei eine diskret verteilte Zufallsvariable mit P ({f ∈ B}) = 1
für eine abzählbare Teilmenge B von R. ϕ : R → R sei beliebig, g := ϕ ◦ f ;
dann:
X
E(g) =
ϕ(x)P ({f = x}),
x∈B
falls diese Summe absolut konvergiert.
Beweis: S. Übungen.
2
Satz 10.5 f sei absolutstetige Zufallsvariable mit Dichte h, ϕ : R → R sei
Bairesche Funktion. Dann gilt für g := ϕ ◦ f :
Z
ϕ(x)h(x) dx
E(g) =
R
falls
R
|ϕh| dλ1 < ∞.
Beweis:
Z
E(g)
ϕ ◦ f dP
=
ZΩ
ϕ d(P ∗ f )
=8.17
ZR
=8.23
ϕ(x)h(x) dx,
R
h = d(P ∗ f )/dλ1 .
2
Definition 10.6 f sei Zufallsvariable, n ∈ Z+ . Dann heißt, falls existent:
µn := E(f n )
n–tes Moment von f ,
speziell
µ := µ1 = E(f );
66
mn := E((f − µ)n )
n–tes zentriertes Moment von f ,
speziell
m2 := V (f ) := var(f ) =: σ 2 (f )
Varianz von f;
E(|f |n ) := n–tes absolutes Moment;
p
σ 2 (f )
p
=
E((f − µ)2 ) = E((f − µ)2 )1/2
σ(f ) :=
Standardabweichung oder Streuung von f .
Satz 10.7 E(f n ) existiere ⇒ E(f m ) existiert, 0 ≤ m ≤ n.
Beweis: Es gilt:
m
|f (ω)| ≤
|f (ω)|n , falls |f (ω)| ≥ 1
=: g(ω);
1,
falls |f (ω)| ≤ 1
E(g) ≤ 1 + E(|f |n ) < ∞ ⇒8.13 Behauptung.
2
Satz 10.8 m1 = 0, σ 2 = µ2 − µ21 (= E(f 2 ) − E(f )2 ), m3 = µ3 − 3µµ2 + 2µ3 .
Beweis:
m1 = E(f − µ) = E(f ) − E(µ) = µ − µ = 0;
σ2 =
=
=
=
=
m3 =
=
=
=
E((f − µ)2 )
E(f 2 − 2f µ + µ2 )
E(f 2 ) − 2µE(f ) + µ2
µ2 − 2µ2 + µ2
µ2 − µ2 ;
E((f − µ)3 )
E(f 3 ) − E(3f 2 µ) + E(3f µ2 ) − µ3
µ3 − 3µµ2 + 3µ3 − µ3
µ3 − 3µµ2 + 2µ3 .
67
2
Satz 10.9 (Markoffsche Ungleichung) f sei Zufallsvariable, ε > 0. Dann
gilt:
E(|f |)
P ({|f | ≥ ε}) ≤
.
ε
Beweis: Es gilt:
Z
|f (ω)| dP
E(|f |) =
ZΩ
≥
|f (ω)| P (dω)
{ω∈Ω: |f (ω)|≥ε}
Z
≥
ε P (dω)
{ω∈Ω: |f (ω)|≥ε}
= εP ({|f | ≥ ε}).
2
Korollar 10.10 (Tschebyscheffsche Ungleichung) Für f ∈ L(Ω, A, P )
und ε > 0 gilt:
σ 2 (f )
.
P ({|f − µ| ≥ ε}) ≤
ε2
Beweis: Es gilt:
P ({|f − µ| ≥ ε}) = P ({(f − µ)2 ≥ ε2 }) ≤10.9
σ 2 (f )
.
ε2
2
Satz 10.11 (Schwarzsche Ungleichung) f, g seien Zufallsvariablen mit
E(f 2 ) < ∞, E(g 2 ) < ∞. Dann ist f g ∈ L(Ω, A, P ) und es gilt:
E(f g)2 ≤ E(f 2 )E(g 2 ).
Beweis:
1.
(f ± g)2 ≥ 0 ⇒ |2f g| ≤ f 2 + g 2 ⇒8.13 f g ∈ L(Ω, A, P )
68
2. Für alle x ∈ R gilt:
ϕ(x) := E((xf − g)2 )
= x2 E(f 2 ) − 2xE(f g) + E(g 2 ) ≥ 0
⇒ die quadratische Gleichung ϕ(x) = 0 besitzt höchstens eine Lösung
⇒ die Diskriminante dieser quadratischen Gleichung kann nicht positiv
sein, d.h. es gilt:
2
E(f g)
E(g 2 )
≤0
−
E(f 2 )
E(f 2 )
⇒ Behauptung.
2
Satz 10.12 f1 , . . . , fn Q
seien unabhängige Zufallsvariablen, fi ∈ L(Ω, A, P ),
i = 1, . . . , n. Dann ist 1≤i≤n fi ∈ L(Ω, A, P ) und es gilt:
E
n
Y
!
fi
=
i=1
n
Y
E(fi ).
i=1
Beweis: O.E. sei n = 2. Dann gilt:
E(|f1 f2 |)
Z
|f1 f2 | dP
=
ZΩ
|xy| (P ∗ (f1 , f2 ))(d(x, y))
=8.17
2
ZR
|xy| ((P ∗ f1 ) × (P ∗ f2 ))(d(x, y))
Z Z
=Fubini
|x||y| (P ∗ f1 )(dx) (P ∗ f2 )(dy)
R
R
Z
Z
=
|x| (P ∗ f1 )(dx) |y| (P ∗ f2 )(dy)
=
R2
R
=8.17
R
E(|f1 |)E(|f2 |).
2
Definition 10.13 f, g seien quadratintegrierbare Zufallsvariablen.
cov(f, g) := E ((f − E(f ))(g − E(g)))
= E(f g) − E(f )E(g)
ist die Kovarianz von f und g.
69
Ist zusätzlich σ 2 (f ) > 0, σ 2 (g) > 0, so heißt
%(f, g) :=
cov(f, g)
σ(f )σ(g)
∈ [0, 1]
Korrelationskoeffizient von f und g.
f und g heißen positiv bzw. un– bzw. negativ korreliert, falls
%(f, g) > 0 bzw. = 0 bzw. < 0.
Bemerkung %(f, g) > 0 (< 0) bedeutet anschaulich, dass f − E(f ) und
g − E(g) die Tendenz besitzen, das selbe (unterschiedliche) Vorzeichen zu
haben.
Ferner kann %(f, g) als Maß für den Grad der linearen Abhängigkeit“ zwi”
schen f und g angesehen werden (s. folgenden Satz).
Satz 10.14 f, g seien Zufallsvariablen mit 0 < σ 2 (f ), σ 2 (g) < ∞. Dann gilt:
1. Falls f, g unabhängig sind ⇒ %(f, g) = 0.
2. Falls %(f, g) ∈ {−1, 1} ⇒ ∃a, b ∈ R :
P ({g = af + b}) = 1.
3. Die mittlere quadratische Abweichung E((f − (af + b))2 ) der linearen
Approximation von g durch af + b ist genau dann minimal, wenn
a∗ =
cov(f, g)
und b∗ = E(g) − a∗ E(f ).
2
σ (f )
In diesem Fall gilt:
E((g − (a∗ f + b∗ ))2 ) = 1 − %(f, g)2 σ 2 (g).
Beweis:
1.“ Folgt aus 10.12.
”
3.“ Es gilt:
”
E((g − af − b)2 )
= a2 E(f 2 ) + b2 + 2abE(f )
−2aE(f g) − 2bE(g) + E(g 2 )
=: p(a, b),
a, b ∈ R.
p ist ein Polynom zweiten Grades in den Variablen a, b und besitzt
genau ein Minimum für
a∗ =
cov(f, g) ∗
, b = E(g) − a∗ E(f )
σ 2 (f )
(elementar mittels partieller Ableitungen).
70
2.“ Im Fall %(f, g) ∈ {−1, 1} folgt aus 3. E((g − (a∗ f + b∗ ))2 ) = 0, d.h.
”
P ({|g − (a∗ f + b∗ )| =
6 0}) = 0,
d.h.
P ({g = a∗ f + b∗ }) = 1
(s. Übungen).
2
Bemerkung a∗ = cov(f, g)/σ 2 (f ) ist ein geeignetes Mittel zur Vorhersage
von g aus f , sog. Regression von f auf g, da nach 10.14, 3.,
ĝ := E(g) + a∗ (f − E(f ))
die beste lineare Approximation von g durch f darstellt.
a∗ heißt (einfacher) Regressionskoeffizient von g auf f und die Gerade
m(t) := a∗ (t − E(f )) + E(g)
heißt Regressionsgerade von g auf f . Der Fehler
g − ĝ = g − m(f )
bei dieser Approximation heißt Residuum.
Falls E(g) = E(f ) = 0 und var(f ) = var(g) = 1, so folgt a∗ = cov(f, g) =
%(f, g) ∈ [−1, 1] und damit
ĝ = a∗ f ⇒ |ĝ| = %(f, g)||f | ≤ |f |,
daher die Bezeichnung Regression“ (Rückschritt).
”
Satz 10.15 f1 , . . . , fn seien quadratintegrierbare, unkorrelierte Zufallsvariablen (also cov(fi , fj ) = 0, i 6= j. Dann gilt:
σ 2 (f1 + · · · + fn ) = σ 2 (f1 ) + · · · + σ 2 (fn ).
Beweis:
σ 2 (f1 + · · · + fn )
= E ((f1 + · · · + fn ) − E(f1 + · · · + fn ))2
= E ((f1 − E(f1 )) + · · · + (fn − E(fn )))2
!
X
= E
(fi − E(fi ))(fj − E(fj ))
1≤i,j≤n
=
=
=
X
cov(fi , fj )
1≤i,j≤n
n
X
cov(fi , fi )
i=1
n
X
σ 2 (fi ).
i=1
2
71
Korollar 10.16 f1 , . . . , fn seien unabhängige, quadratintegrierbare Zufallsvariablen. Dann gilt:
σ 2 (f1 + · · · + fn ) = σ 2 (f1 ) + · · · + σ 2 (fn ).
11
Gesetze der großen Zahlen
Bemerkung f, f1 , f2 , . . . seien Zufallsvariablen über (Ω, A, P ), dann gilt
{limn∈N fn = f } ∈ A, denn:
\ [ \
{lim fn = f } =
{|fn − f | < 1/k} ∈ A.
n∈N
k∈N m∈N n≥m
Definition 11.1
fn →n∈N f P –f.s.
:⇔ P
lim fn = f
= 1,
n∈N
(fn konvergiert P –fast sicher gegen f ).
Satz 11.2 (f.s. Eindeutigkeit des Grenzwertes) Es gelte fn →n∈N f P –
f.s., fn →n∈N f˜ P –f.s. ⇒ P ({f = f˜}) = 1, d.h. f = f˜ P –f.s.
Beweis:
˜
lim fn = f ∩ lim fn = f
n∈N
n∈N
⇒ P ({f =
6 f˜}) ≤ P
lim fn 6= f
n∈N
+P
lim fn 6= f˜
= 0.
{f = f˜} ⊃
n∈N
2
Satz 11.3 fi,n →n∈N fi P –f.s., i = 1, . . . , k, g : Rk → R stetig
⇒ g(f1,n , . . . , fk,n ) →n∈N g(f1 , . . . , fk ) P –f.s.
Beweis: Nach Voraussetzung existieren P –Nullmengen N1 , . . . , Nk ∈ A mit
fi,n (ω) →n∈N fi (ω) für alle ω ∈ Nic , i = 1, . . . , k. Für alle ω ∈ (N1 ∪ · · · ∪ Nk )c
gilt also
(f1,n (ω), . . . , fk,n (ω)) →n∈N (f1 (ω), . . . , fk (ω))
und damit
g (f1,n (ω), . . . , fk,n (ω)) →n∈N g (f1 (ω), . . . , fk (ω)) .
Da P ((N1 ∪ · · · ∪ Nk )c ) = 1, folgt die Behauptung.
72
2
Beispiel 11.4 fn →n∈N f P –f.s., gn →n∈N g P –f.s. ⇒ fn +gn →n∈N f +g P –
f.s.
Definition 11.5
P
fn → f
:⇔ ∀ε > 0 : lim P ({|fn − f | > ε}) = 0,
n∈N
(fn konvergiert in Wahrscheinlichkeit gegen f ).
P
P
Satz 11.6 (f.s. Eindeutigkeit des Grenzwertes) fn → f , fn → f˜ ⇒
f = f˜ P –f.s.
Beweis: Es gilt für n ∈ N und ε > 0
{|f − f˜| > ε} ⊂ {|fn − f | > ε/2} ∪ {|fn − f˜| > ε/2}
und damit
P ({|f − f˜| > ε})
≤ P ({|fn − f | > ε/2}) + P ({|fn − f˜| > ε/2})
⇒ P ({|f − f˜| > ε}) = 0 für beliebiges ε > 0
!
[
⇒ P ({f 6= f˜}) = P
{|f − f˜| > 1/k}
k∈N
≤
X
P ({|f − f˜| > 1/k}) = 0.
k∈N
2
P
Satz 11.7 fn →n∈N f P –f.s. ⇒ fn → f.
Beweis: O.b.d.A. sei f ≡ 0 (betrachte sonst f˜n := fn − f ). Mit
\ [ K := lim fn = 0 =
sup |fn | ≤ 1/k ∈ A
n∈N
k∈N m∈N
73
n≥m
gilt:
fn → 0 P –f.s.
⇔ P (K c ) = 0




[ \ 


⇔ P
sup |fn | > 1/k  = 0


n≥m
k∈N m∈N
{z
}
|
↑ in k




\

 = 0 für alle k ∈ N
⇔ P
sup
|f
|
>
1/k
n


n≥m
m∈N |
{z
}
↓ in m
⇔ lim P
m∈N
sup |fn | > 1/k
=0
n≥m
⇒ lim P ({|fm | > 1/k} = 0 für alle k ∈ N
m∈N
⇒
Behauptung.
2
Die Umkehrung von Satz 11.7 ist i.a. nicht richtig, wie folgendes Beispiel
zeigt.
Beispiel 11.8 Setze (Ω, A, P ) := ([0, 1), B ∩ [0, 1), λ/B ∩ [0, 1)), f1 := 1[0,1) ,
f2 := 1[0,1/2) , f3 := 1[1/2,1) , f4 := 1[0,1/3) , f5 := 1[1/3,2/3) , . . . Offenbar gilt
P ({|fn | > ε}) →n∈N 0, ε > 0, aber fn (ω) konvergiert für kein ω ∈ Ω gegen 0.
Satz 11.9 (Schw. Gesetz der großen Zahlen I) f1 , . . . , fn seien identisch
verteilte, quadratintegrierbare und unkorrelierte Zufallsvariablen, d.h. cov(fi , fj )
= 0 für i 6= j. Dann gilt mit µ := E(f1 ), σ 2 := σ 2 (f1 ) für ε > 0:
( n
)!
1 X
σ2
P
f i − µ ≥ ε
≤
n
nε2
i=1
→ 0, falls n → ∞.
74
Beweis: Aus der Tschebyscheff–Ungleichung folgt:
( n
)!
1 X
P
f i − µ ≥ ε
n
i=1
( n
)!
X
=
P
(fi − µ) ≥ nε
i=1
!
n
X
1
var
(fi − µ)
≤
n 2 ε2
i=1
nσ 2
.
n 2 ε2
=10.15
2
Korollar 11.10 (Schw. G. d. großen Zahlen II) fn , n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt:
n
1X P
fi → E(f1 ).
n i=1
Wie wir am Ende dieses Kapitels sehen werden, gilt sogar:
n
1X
fi →n∈N E(f1 ) P –f.s.
n i=1
Dies ist das Starke Gesetz der großen Zahlen. Die Gesetze der großen Zahlen
decken sich völlig mit unserer Anschauung und unserer Erfahrung. Es wird
im mathematischen Modell die Erfahrungstatsache bestätigt, dass bei einer
großen Anzahl n von unabhängigen Wiederholungen des gleichen Experimentes die relative Häufigkeit
n
hn (A) =
1X
1A (fi )
n i=1
des Eintretens eines Ereignisses A in der Nähe der Wahrscheinlichkeit p :=
P ({f1 ∈ A}) liegt:
f1 , f2 , . . . seien unabhängig und identisch verteilt. Dann sind 1A (f1 ), 1A (f2 ), . . .
unabhängig und identisch verteilt mit E(1A (f1 )) = P ({f1 ∈ A}) = p sowie
σ 2 (1A (f1 )) = p(1 − p) und es gilt
P ({|hn (A) − p| ≥ ε})
( n
)!
1 X
= P
(1A (fi ) − p) ≥ ε
n
i=1
p(1 − p)
≤
nε2
1
→n∈N 0,
≤
4nε2
unabhängig von p. Beachte, dass p(1 − p) ≤ 1/4 für p ∈ [0, 1].
75
Satz 11.11 (Kolmogoroffsche Ungleichung) Für unabhängige Zufallsvariablen f1 , . . . , fk mit E(fi ) = 0, i = 1, . . . , k, und ε > 0 gilt:
j
(
)!
k
X 1 X 2
P
max σ (fi ).
fi ≥ ε
≤ 2
1≤j≤k ε
i=1
i=1
Beweis: O.E. sei σ 2 (fi ) < ∞, i = 1, . . . , k. Setze Sj :=
1, . . . , k und
Aj := {|S1 | < ε, . . . , |Sj−1 | < ε, |Sj | ≥ ε}.
Pj
i=1
fi für j =
Die Ereignisse A1 , . . . , Ak sind disjunkt, und für jedes j sind die Zufallsvariablen 1Aj Sj und Sk − Sj unabhängig, da die erste nur von f1 , . . . , fj und die
zweite nur von fj+1 , . . . , fk abhängt. Es folgt:
k
X
σ 2 (fj )
j=1
=10.16 σ 2 (Sk ) = E(Sk2 )
k
X
≥
E(1Aj Sk2 )
j=1
=
k
X
E(1Aj (Sj + (Sk − Sj ))2 )
j=1


≥10.12
=
k
X


2
E(1Aj Sj ) + 2E(1Aj Sj ) E(Sk − Sj )
| {z }
j=1
=0
Z
k
X
Sj2 dP
j=1
≥
k
X
Aj
ε2 P (Aj )
j=1
=
ε2 P
k
[
!
Aj
j=1
j
)!
X max fi ≥ ε
.
1≤j≤k (
=
ε2 P
i=1
2
Satz 11.12 fn , n ∈ N, P
seien unabhängige,
ZufallsvaP quadratintegrierbare
2
riablen. Falls die Reihen n∈N E(fn ) und n∈N σ (fn ) eigentlich konvergent
sind, so existiert eine Zufallsvariable S mit
Sn :=
n
X
fi →n∈N S
i=1
76
P –f.s.
Beweis:
1. O.E. sei E(f
P n ) = 0, n ∈ N (sonst Übergang zu
E(fi )) + ni=1 E(fi )).
Pn
i=1
fi =
2. Für ε > 0 und m ∈ N gilt;
P
sup |Sn − Sm | > ε
n>m

=
=
Pn
i=1 (fi
−

[ 



P
max |Sn − Sm | > ε 

k∈N | m<n≤m+k {z
}
↑ in k
lim P
max |Sn − Sm | > ε
k∈N
m<n≤m+k
m+k
≤11.11
=
1 X 2
lim sup 2
σ (fn )
ε n=m+1
k∈N
1 X 2
σ (fn ).
ε2 n>m
P
Nach Voraussetzung gilt limm∈N n>m σ 2 (fn ) = 0, also
P
inf sup |Sn − Sm | > ε
m∈N n>m
!
\ ≤ P
sup |Sn − Sm | > ε
m∈N
n>m
sup |Sn − Sm | > ε
≤ lim inf P
m∈N
n>m
= 0.
Das Cauchy–Konvergenzkriterium für reelle Zahlenfolgen ergibt nun:
P ({Sn , n ∈ N, ist eigentlich konvergent})
1
= P
∀r ∈ N ∃m ∈ N : sup |Sn − Sm | <
r
n>m
!
\
1
= P
inf sup |Sn − Sm | <
m∈N n>m
r
r∈N
!
[
1
= 1−P
inf sup |Sn − Sm | ≥
m∈N n>m
r
r∈N
= 1.
2
77
Korollar 11.13 (St. G. d. gr. Z. v.PKolmogoroff ) Für jede Folge fn , n ∈
N, unabhängiger Zufallsvariablen mit n∈N σ 2 (fn )/n2 < ∞ gilt:
n
1X
(fi − E(fi )) →n∈N 0
n i=1
P –f.s.
Beweis: O.E. gelte E(fn ) = 0, n ∈ N. Nach 11.12 existiert eine Zufallsvariable T mit
n
X
fi
Tn :=
→n∈N T P –f.s.
i
i=1
Beachte: var(fi /i) = var(fi )/i2 . Damit folgt (T0 := 0):
n
1X
fi
n i=1
n
=
1X
i(Ti − Ti−1 )
n i=1
=
1
n
=
n
X
iTi −
i=1
1
n+1
Tn −
n
n
n
X
i=1
n
X
!
(i + 1)Ti + (n + 1)Tn
Ti
i=1
→n∈N T − T = 0 P –f.s.
2
Korollar 11.14 fn , n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen. Falls dann E(f12 ) < ∞, so gilt:
n
1X
fi →n∈N E(f1 )
n i=1
Beweis: Es gilt
X σ 2 (fn )
n∈N
n2
= σ 2 (f1 )
P –f.s.
X 1
< ∞.
n2
n∈N
Damit folgt die Behauptung aus 11.13. Beachte:
!
n
n
1X
1X
(fi − E(fi )) =
fi − E(f1 ).
n i=1
n i=1
2
78
Satz 11.15 fn , n ∈ N, und fn0 , n ∈ N, seien Folgen von Zufallsvariablen mit
P
0
n∈N P ({fn 6= fn }) < ∞; f sei eine Zufallsvariable. Dann gilt:
n
1X
fi →n∈N f
n i=1
P –f.s.
n
1X 0
⇔
f →n∈N f
n i=1 i
P –f.s.
Beweis: Nach dem Lemma von Borel–Cantelli gilt mit An := {fn 6= fn0 }:
P (N1 ) := P ({fn 6= fn0 für unendlich viele n ∈ N})
= P (lim sup An ) = 0.
n∈N
Gilt nun n−1
Pn
i=1
fi →n∈N f P –f.s., so existiert N2 ∈ A mit P (N2 ) = 0 und
n
1X
fi (ω) →n∈N f (ω) für alle ω ∈ N2c .
n i=1
Damit gilt für alle ω ∈ N1c ∩ N2c :
n
n
1X
1X 0
fi (ω) = lim
fi (ω) = f (ω).
lim
n∈N n
n∈N n
i=1
i=1
Da P (N1c ∩ N2c ) = 1, folgt die Behauptung.
2
Satz 11.16 (St. G. d. gr. Z. von Khinchine) fn , n ∈ N, sei eine Folge
unabhängiger, identisch verteilter Zufallsvariablen.
1. Falls f1 integrierbar ist, so ist E(fn ) = E(f1 ) =: µ ∈ R und es gilt:
n
1X
fi →n∈N µ
n i=1
P –f.s.
2. Falls es ein c ∈ R gibt mit der Eigenschaft:
n
1X
fi →n∈N c
n i=1
P –f.s.,
so ist f1 integrierbar, und es gilt c = E(f1 ).
Beweis:
79
1.“ Die durch
”
fn (ω), falls |fn (ω)| ≤ n
0
sonst
= fn (ω)1[−n,n] (fn (ω)), n ∈ N,
fn0 (ω)
:=
definierten Zufallsvariablen sind unabhängig, und es gilt
X σ 2 (f 0 )
n
n∈N
=
n2
X E(f 02 ) − E(f 0 )2
n2
n∈N
≤
X E(f 02 )
n∈N
≤
n
n
n
2
n
n
X 1 X
k 2 P ({k − 1 < |f1 | ≤ k})
2
n
n∈N
k=1
X 1
=
kP ({k − 1 < |f1 | ≤ k}) k
n2
k∈N
n≥k
X
!
,
wobei
X 1
X
1
≤
2
2
n
n(n + 1)
n≥k
n≥k
X 1
1
2
−
= 2
= ,
n n+1
k
n≥k
d.h. insgesamt
X σ 2 (f 0 )
n
n∈N
n2
≤ 2
X
kP ({k − 1 < |f1 | ≤ k})
k∈N
≤ 2(E(|f1 |) + 1) < ∞,
s. Übungen.
Anwendung von 11.13 liefert:
n
1X 0
(f − E(fi0 )) →n∈N 0 P –f.s.
n i=1 i
Nach dem Satz von der dominierten Konvergenz gilt ferner:
E(fn0 )
=
E(fn 1[−n,n] (fn ))
=
E(f1 1[−n,n] (f1 ))
→n∈N E(f1 ) = µ,
P
P
also auch n−1 ni=1 E(fi0 ) →n∈N µ und somit n−1 ni=1 fi0 →n∈N µ P –f.s.
Zusammen mit
X
X
P ({|fn | > n})
P ({fn 6= fn0 }) =
n∈N
n∈N
=
X
n∈N
< ∞,
80
P ({|f1 | > n})
(da f1 integrierbar ist, s. Übungen) folgt die Behauptung 1. aus 11.15.
P
2.“ Mit Sn := ni=1 fi gilt:
”
Sn
→n∈N c P –f.s.
n
fn
Sn n − 1 Sn−1
⇒
=
−
→n∈N 0 P –f.s.
n
n n n − 1
fn ⇒ P –f.s.: > 1 für höchstens endl. viele n ∈ N,
n
d.h. in diesem Fall existiert n0 ∈ N so, dass |fn /n| ≤ 1 für alle n ≥ n0 .
Also gilt mit An := {|fn /n| > 1}:
P lim sup An = 0.
n∈N
Da fn , n ∈ N, eine Folge unabhängiger Zufallsvariablen ist, sind die
An , n ∈ N, unabhängige Ereignisse, und somit folgt aus dem Lemma
von Borel–Cantelli:
X
X
P ({|f1 | > n})
P (An ) =
∞>
n∈N
n∈N
und damit, dass f1 integrierbar ist (s. Übungen).
2
Korollar 11.17 Bei einer Folge unabhängiger Wiederholungen fP
1 , f2 , . . . ein
−1
nes Experimentes konvergiert die relative Häufigkeit hn (A) = n
i=1 1A (fi )
des Eintritts eines Ereignisses A fast sicher gegen die Wahrscheinlichkeit
P ({f1 ∈ A}).
Beispiel 11.18 fn , n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen mit der Verteilungsfunktion F . Dann gilt für die empirische Verteilungsfunktion oder Stichproben-Verteilungsfunktion zur Stichprobe f1 , . . . , fn :
n
1X
Fn (t) :=
1(−∞,t] (fi ) →n∈N F (t) P –f.s., t ∈ R.
n i=1
Beweis: Setze f˜n := 1(−∞,t] (fn ), n ∈ N. Dann sind f˜n , n ∈ N, unabhängig
und identisch verteilt mit
E(f˜n ) = E 1(−∞,t] (f1 ) = P ({f1 ≤ t}) = F (t).
Damit folgt aus 11.16:
n
Fn (t) =
1X˜
fi →n∈N E(f˜1 ) = F (t) P –f.s.
n i=1
81
2
Es gilt sogar die folgende Verschärfung der vorausgegangenen Aussage, die
einen Hauptsatz der Stochastik darstellt.
Satz 11.19 (Glivenko–Cantelli) fn , n ∈ N, seien unabhängige und identisch verteilte Zufallsvariablen mit Verteilungsfunktion F . Dann gilt:
sup |Fn (t) − F (t)| →n∈N 0 P –f.s.,
t∈R
d.h. die empirische Verteilungsfunktion konvergiert mit Wahrscheinlichkeit 1
gleichmäßig über R gegen die zugrunde liegende Verteilungsfunktion.
Beweis: Die A–Messbarkeit von supt∈R |Fn (t) − F (t)| folgt aus der rechtsseitigen Stetigkeit von Verteilungsfunktionen:
sup |Fn (t) − F (t)| = sup |Fn (t) − F (t)|.
t∈R
t∈Q
Setze nun tj,k := F −1 (j/k), j = 1, . . . , k − 1, k ∈ N. Dann folgt:
Fn (tj,k ) →n∈N F (tj,k ) P –f.s.,
sowie
n
1X
1(−∞,tj,k ) (fi ) →n∈N F (tj,k − 0) P –f.s.,
Fn (tj,k − 0) =
n i=1
wobei F (tj,k − 0) = limε↓0 F (tj,k − ε) = P ({f1 < tj,k }).
Damit gilt (mit F (tj,k + 0) := F (tj,k )):
|Fn (tj,k ± 0) − F (tj,k ± 0)| →n∈N 0 P –f.s.
sup
j=1,...,k−1
Sei nun tj,k < t < tj+1,k . Dann gilt:
F (tj,k ) ≤ F (t) ≤ F (tj+1,k − 0),
Fn (tj,k ) ≤ Fn (t) ≤ Fn (tj+1,k − 0)
sowie
1
0 ≤ F (tj+1,k − 0) − F (tj,k ) ≤ .
{z
} | {z } k
|
≤ j+1
k
≥ kj
Es folgt:
Fn (t) − F (t) ≤ Fn (tj+1,k − 0) − F (tj,k )
≤ Fn (tj+1,k − 0) − F (tj+1,k − 0) +
und
Fn (t) − F (t) ≥ Fn (tj,k ) − F (tj+1,k − 0)
1
≥ Fn (tj,k ) − F (tj,k ) − .
k
82
1
k
Insgesamt erhalten wir:
sup |Fn (t) − F (t)|
t∈R
≤
1
k
1≤j≤k
+ sup |Fn (t) − F (t)| + sup |Fn (t) − F (t)|.
sup |Fn (tj,k ± 0) − F (tj,k ± 0)| +
t>tk−1,k
t<t1,k
Ferner gilt:
lim sup sup |Fn (t) − F (t)|
n∈N
t<t1,k
≤ lim sup(Fn (t1,k − 0) + F (t1,k − 0))
n∈N
2
≤
k
P –f.s.
sowie
lim sup sup |Fn (t) − F (t)|
n∈N
t>tk−1,k
!
≤ lim sup
n∈N
sup |Fn (t) − 1| + sup |1 − F (t)|
t>tk−1,k
t>tk−1,k
≤ lim sup (1 − Fn (tk−1,k ) + 1 − F (tk−1,k ))
n∈N




= 2 1 − F (tk−1,k )
| {z }
P –f.s.
≥ k−1
k
|
{z
}
≤ k1
Da k ∈ N beliebig war, folgt insgesamt die Behauptung.
2
Beispiel 11.20 fn , n ∈ N, sei eine Folge unabhängiger, identisch verteilter
und quadratintegrierbarer Zufallsvariablen. Dann gilt für das Stichprobenmittel:
n
1X
µ̂n :=
fi →n∈N E(f1 ) P –f.s.
n i=1
sowie für die Stichprobenvarianz:
n
σ̂n2
:=
1X
(fi − µ̂n )2
n i=1
=
1X 2
f −
n i=1 i
n
n
1X
fi
n i=1
!2
→n∈N E(f12 ) − E(f1 )2 = σ 2 (f1 ) P –f.s.
83
Ist ferner (fn , gn ), n ∈ N, eine Folge unabhängiger, identisch verteilter Zufallsvektoren und f1 , g1 quadratintegrierbar mit 0 < σ 2 (f1 ), σ 2 (g1 ), so gilt für
die Stichprobenkovarianz
!
!
n
n
n
1X
1X
1X
cov
cn
:=
f i gi −
fi
gi
n i=1
n i=1
n i=1
→n∈N E(f1 g1 ) − E(f1 )E(g1 ) P –f.s.
=
cov(f1 , g1 ).
Damit gilt auch für den Stichprobenkorrelationskoeffizienten
%̂n
:=
=
→n∈N
=
P
n
−1
cov
cn
σ̂n (f )σ̂n (g)
1 Pn
Pn
Pn
1
1
i=1 fi gi − n
i=1 fi
i=1 gi
n
n
q P
1 Pn
n
1
2
2
(f
−
µ̂
)
(g
−
ν̂
)
i
n
i
n
i=1
i=1
n
n
cov(f1 , g1 )
σ(f1 )σ(g1 )
%(f1 , g1 )
P –f.s.
wobei ν̂n := n
i=1 gi das Stichprobenmittel von g1 , . . . , gn ist.
Somit gilt für den (einfachen) Stichprobenregressionskoeffizienten
ân
:=
=
→n∈N
cov
cn
σ̂n2 (f1 )
Pn
1
1 Pn
Pn
1
f
g
f
g
−
i
i
i
i
i=1
i=1
i=1
n
n
n
2
Pn
Pn
1
1
2
i=1 fi − n
i=1 fi
n
cov(f1 , g1 )
P –f.s.
σ 2 (f1 )
Die oben aufgeführten Schätzer konvergieren also mit Wahrscheinlichkeit 1
gegen den jeweils zu schätzenden Wert, d.h. sie sind sog. (stark) konsistente
Schätzerfolgen.
Ferner können wir mit obigen Schätzern nahe liegend eine Schätzung der
Regressionsgeraden von g1 auf f1 definieren:
m̂n (t)
:=
ân (t − µ̂n ) + ν̂n
=:
ân t + b̂n
→n∈N a∗ (t − E(f1 )) + E(g1 ) P –f.s., t ∈ R.
Die Gerade m̂n (t) erhält man auch, wenn eine Gerade at + b so gewählt
wird, dass die Summe der vertikalen Abstände der Datenpunkte (fi , gi ), i =
1, . . . , n, von der Geraden minimal wird, d.h.5
n
X
i=1
n
X
(gi − ân fi − b̂n ) = min
(gi − afi − b)2 .
2
a,b
i=1
Dies ist die Methode der kleinsten Quadrate, die auf Gauss zurück geht und
zunächst vorwiegend in der (Fehler–) Ausgleichsrechnung Verwendung fand.
5
S. etwa Abschnitt 13.4 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und Statistik, 6. Auflage. Vieweg, Braunschweig.
84
Bemerkung 11.21 Es gilt:

n
n
X
X
1
1
2
E(σ̂n ) = E 
fi −
fj
n i=1
n j=1

!2 
n
X
1
fj 
= E  f1 −
n j=1
!2 

n−1 2
σ (f1 ),
n
d.h. σ̂n2 ist kein erwartungstreuer Schätzer, wohl aber
=
n
n
n
1 X
1X
σ̃n2 :=
σ̂n2 =
fi −
fj
n−1
n − 1 i=1
n j=1
!2
.
Beispiel 11.22 (Die Monte–Carlo Methode) Gesetze der großen Zahlen können auch zur approximativen Berechnung von Integralen eingesetzt
werden:
Problem:
g : [0, 1] → R sei eine (λ1 –) integrierbare Funktion; bestimme
R
g(x)
λ
1 (dx).
[0,1]
Dies ist häufig praktisch kaum möglich. Verschaffen wir uns nun eine Stichprobe f1 , . . . , fn unabhängiger und auf dem Intervall [0, 1] gleichverteilter
Zufallsvariablen (d.h. P ∗ fi = P ∗ f1 = λ1 /[0, 1]), so gilt:
n
1X
g(fi ) →n∈N E(g(f1 )) P –f.s.
n i=1
Z
=8.17
g(x) λ1 (dx).
[0,1]
Sind also x1 , . . . , xn beobachtete Werte von f1 , . . . , fn , d.h. xi = fi (ω), i =
1, . . . , n, so gilt:
Z
g(x1 ) + · · · + g(xn )
≈
g(x) dx.
n
[0,1]
x1 , . . . , xn heißen auch Zufallszahlen. Zufallszahlen werden in der Praxis üblicherweise vom Computer nach gewissen Algorithmen erzeugt. Da diese somit
aber nicht wirklich“ zufällig sind, spricht man in diesem Fall von Pseudo”
zufallszahlen. Sie sollten sich wie echte“ Zufallszahlen verhalten, tun das
”
aber nicht immer. . . 6
12
Der Zentrale Grenzwertsatz
fn , n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Setze µ := E(f1 ). Wir hatten in Kapitel 11
gesehen, dass
n
1X
fi →n∈N µ P –f.s.
n i=1
6
S. Bemerkung (3.43) in Georgii, H.-O. (2002). Stochastik. De Gruyter, Berlin.
85
bzw.
P
)!
( n
1 X
f i − µ ≥ ε
→n∈N 0
n
i=1
für alle ε > 0. Wir können nun fragen: Falls wir das feste ε durch eine Folge
εn > 0, n ∈ N, mit εn →n∈N 0 ersetzen, wie schnell darf dann εn gegen 0
konvergieren, so dass
( n
)!
1 X
P
f i − µ ≥ εn
→n∈N c ∈ (0, 1)?
n
i=1
√
Wir werden sehen, dass dies für εn ∼ 1/ n der Fall ist; genauer wird für
t > 0 gelten:
)!
( n
1 X
σt
→n∈N 2(1 − Φ(t)),
P
f i − µ ≥ √
n
n
i=1
wobei
1
Φ(t) := √
2π
t
2
x
exp −
dx
2
−∞
Z
und σ 2 := σ 2 (f1 ). Dies wird eine unmittelbare Folgerung aus dem Zentralen
Grenzwertsatz sein, den wir in diesem Abschnitt beweisen werden.
Satz 12.1 f, g seien unabhängige Zufallsvariablen mit Verteilungsfunktion
F bzw. G. Dann besitzt f + g die Verteilungsfunktion
Z
(F ∗ G)(t) =
G(t − s) (P ∗ f )(ds)
Z
=
G(t − s) F (ds)
Z
=
F (t − s) (P ∗ g)(ds)
Z
=
F (t − s) G(ds)
.
F ∗ G heißt Faltung von F und G.
86
Beweis: Es gilt:
(F ∗ G)(t)
=
P ({f + g ≤ t})
Z
1(−∞,t] (f + g) dP
=
Ω
Z
=8.17
1(−∞,t] (r + s) (P ∗ (f, g))(d(r, s))
2
R
Z
1(−∞,t] (r + s) ((P ∗ f ) × (P ∗ g))(d(r, s))
=
2
R
Z Z
=Fubini
1(−∞,t] (r + s)(P ∗ g)(ds)(P ∗ f )(dr)
ZR ZR
1(−∞,t−r] (s)(P ∗ g)(ds)(P ∗ f )(dr)
=
R
R
Z
=
G(t − r) (P ∗ f )(dr).
R
2
Satz 12.2 f, g seien unabhängige Zufallsvariablen mit Dichte h1 bzw. h2 .
Dann besitzt f + g die Dichte
Z
Z
h2 (t − s)h1 (s) ds.
h1 (t − s)h2 (s) ds =
(h1 ∗ h2 )(t) :=
R
R
Beweis: F bzw. G sei die Verteilungsfunktion von f bzw. g. Nach 12.1
besitzt f + g die Verteilungsfunktion
(F ∗ G)(t)
Z
G(t − s) F (ds)
=
Z
G(t − s)h1 (s) ds
Z Z
=
h2 (r) dr h1 (s) ds
R
(−∞,t−s]
Z Z
=Subst.
h2 (r − s) dr h1 (s) ds
R
(−∞,t]
Z
Z
=Fubini
h2 (r − s)h1 (s) ds dr
(−∞,t]
R
Z
=Def.
(h1 ∗ h2 )(r) dr.
=8.23
R
(−∞,t]
Nach dem Maßerweiterungssatz 6.16, 6.19, 9.6 folgt hieraus die Behauptung.
2
87
Definition 12.3 Das Wahrscheinlichkeitsmaß auf B1 mit der Dichte7
2
1
x
, x ∈ R,
ϕ(x) := √ exp −
2
2π
heißt Standardnormalverteilung, i.Z. N (0,R1). Die Verteilungsfunktion von
N (0, 1) bezeichnen wir mit Φ, d.h. Φ(x) = (−∞,x] ϕ(y) dy.
Bemerkung 12.4 Die Zufallsvariable f sei nach N (0, 1) verteilt. Dann gilt:
1. E(f ) = 0,
2. σ 2 (f ) = 1.
Beweis:
1.“ S. Übungen (beachte, dass ϕ(x) = ϕ(−x), x ∈ R.
”
2.“ Es gilt:
”
Z ∞
x2 ϕ(x) dx
−∞
2 Z ∞ x
1
√
x x exp −
=
dx
2
2π −∞
2 ∞
1
x
=part. Int. √
x − exp −
2
2π
−∞
Z ∞ x2
1
1 − exp −
dx
−√
2
2π −∞
Z ∞
ϕ(x) dx
=
−∞
=
1.
2
Satz 12.5 Die Zufallsvariable f sei N (0, 1)–verteilt; σ > 0, µ ∈ R. Dann
besitzt die Zufallsvariable g := σf + µ die Dichte
1
x−µ
ϕ(µ,σ2 ) (x) :=
ϕ
σ
σ
1
(x − µ)2
= √
, x ∈ R.
exp −
2σ 2
2πσ
Die zugehörige Verteilung heißt Normalverteilung mit Mittelwert µ und Varianz
σ 2 , i.Z. N (µ, σ 2 ),
(denn E(g) = E(σf + µ) = µ, σ 2 (g) = E((g − µ)2 ) = E((σf )2 ) = σ 2 E(f 2 ) =
σ 2 ).
7
S. etwa Satz 19.1. in Bandelow, C. (1989). Einführung in die Wahrscheinlichkeitstheorie. BI, Mannheim.
88
Beweis: S. Übungen.
2
Satz 12.6 (Faltungsth. der Normalverteilung) f1 , . . . , fn seien unabhängige Zufallsvariablen mit P ∗ fi = N (µi , σi2 ), i = 1, . . . , n. Dann gilt:
P ∗ (f1 + · · · + fn ) = N (µ1 + · · · + µn , σ12 + · · · + σn2 ).
Beweis: Offenbar genügt es, den Fall n = 2 zu betrachten. Zunächst gilt für
x, a, b ∈ R und σ 2 , τ 2 > 0:
(x − a)2 (x − b)2
+
σ2
τ2
2
(a − b)2
(x − c)
+
=
%2
σ2 + τ 2
(2)
mit
aτ 2 + bσ 2
σ2τ 2
2
,
%
:=
.
σ2 + τ 2
σ2 + τ 2
Ferner besitzt f1 + f2 nach 12.2 die Dichte
Z ∞
ϕ(µ1 ,σ12 ) (y − x)ϕ(µ2 ,σ22 ) (x) dx
h(y) =
−∞
Z ∞
(y − x − µ1 )2
1
exp −
=
2πσ1 σ2 −∞
2σ12
(x − µ2 )2
× exp −
dx
2σ22
Z ∞
1
(x − c)2
=(2)
exp −
2πσ1 σ2 −∞
2%2
(y − µ1 − µ2 )2
dx
× exp −
2(σ12 + σ22 )
(y − µ1 − µ2 )2
= const exp −
2(σ12 + σ22 )
= ϕ(µ1 +µ2 ,σ12 +σ22 ) (y).
c :=
2
Definition 12.7 f, fn , n ∈ N, seien Zufallsvariablen über (Ω, A, P ) mit Verteilungsfunktionen F, Fn , n ∈ N.
fn , n ∈ N, heißt in Verteilung oder schwach konvergent gegen f , falls
Fn (t) →n∈N F (t)
für alle Stetigkeitsstellen von F , d.h.
P ({fn ≤ t}) →n∈N P ({f ≤ t}),
falls F (t) = P ({f ≤ t}) in t stetig ist, i.Z.
fn →D f
(in distribution).
89
Beispiel 12.8 Es gelte P ∗ fn = δ1/n , n ∈ N, wobei δx0 das Dirac–Maß (Ein–
Punkt–Maß) im Punkt x0 bezeichne, d.h. δx0 (B) = 1B (x0 ) = 1, falls x0 ∈ B,
und 0 sonst, B ∈ B. Offenbar gilt:
1, t ≥ 1/n
Fn (t) =
0, t < 1/n.
Dann gilt:
fn →D f
mit Verteilungsfunktion
F (t) = 1[0,∞) (t) = Fδ0 ,
denn offenbar gilt
Fn (t) →n∈N F (t), t 6= 0, aber 0 = Fn (0), F (0) = 1.
Die Verteilungskonvergenz einer Folge fn , n ∈ N, ist eine Aussage über die
Verteilungen von fn . Sie ist daher von anderem Charakter als die fast sichere
Konvergenz oder die Konvergenz in Wahrscheinlichkeit, da sich Zufallsvariablen mit identischer Verteilung beliebig unterscheiden können.
Tatsächlich ist sie die schwächste der drei Konvergenzarten, was die Bezeichnung schwache Konvergenz“ rechtfertigt.
”
P
Satz 12.9 fn → f ⇒ fn →D f .
Beweis: ∀ε > 0 ∃n0 ∈ N ∀n ≥ n0 : P ({|f − fn | > ε}) < ε. Wegen
{f ≤ x − ε} ⊂ {fn ≤ x} ∪ {|fn − f | > ε},
{fn ≤ x} ⊂ {f ≤ x + ε} ∪ {|fn − f | > ε}
gilt für alle n ≥ n0
Ff (x − ε) ≤ Ffn (x) + ε, Ffn (x) ≤ Ff (x + ε) + ε,
also
Ff (x − ε) − ε ≤ Ffn (x) ≤ Ff (x + ε) + ε,
d.h. Ffn (x) →n∈N Ff (x) für alle Stetigkeitsstellen von Ff .
2
Beispiel 12.10 Setze Ω := {−1, 1}, A := P(Ω), P (A) := |A|/2, A ⊂ Ω,
fn (ω) := ω(−1)n , n ∈ N, f (ω) := ω. Dann gilt:
1. fn →D f (denn P ∗ fn = P ∗ f für alle n ∈ N),
P
2. fn →
6 f (denn P ({|fn − f | > 1}) = 1 für alle ungeraden n).
90
Definition 12.11 Setze K∞ := Menge der beliebig oft differenzierbaren
Funktionen ψ : R → R mit ψ(x) = 0 für alle |x| hinreichend groß.
Satz 12.12 Für Zufallsvariablen f, fn , n ∈ N, gilt:
fn →D f
⇔ E(ψ(fn )) →n∈N E(ψ(f )) für alle ψ ∈ K∞ .
Beweis:
⇒“ Sei ψ ∈ K∞ . Wähle a, b so, dass
”
{x ∈ R : ψ(x) 6= 0} ⊂ I := (a, b]
mit
a, b 6∈ U := {x ∈ R : x Unstetigkeitsstelle von Ff }.
U ist abzählbar (s. Übungen), also ist U c dicht in R. Daher und wegen
der gleichmäßigen Stetigkeit
von ψ auf [a, b] existiert zu ε > 0 eine
P
a
I
Treppenfunktion e = m
i=1 i (ti−1 ,ti ] mit a = t0 < t1 < · · · < tm = b,
ti 6∈ U , i = 0, 1, . . . , m, so dass
sup |ψ(x) − e(x)| < ε.
x∈I
Somit gilt:
|E(ψ(fn )) − E(e(fn ))| ≤ E(|ψ(fn ) − e(fn )|) ≤ ε
und ebenso
|E(ψ(f )) − E(e(f ))| ≤ E(|ψ(f ) − e(f )|) ≤ ε.
Für e gilt nun:
E(e(fn ))
=
=
m
X
i=1
m
X
ai P ({fn ∈ (ti−1 , ti ]})
ai (Ffn (ti ) − Ffn (ti−1 ))
i=1
→n∈N
m
X
ai (Ff (ti ) − Ff (ti−1 ))
i=1
=
E(e(f )).
Wir erhalten also insgesamt:
lim sup |E(ψ(fn )) − E(ψ(f ))|
n∈N
= lim sup |E(ψ(fn )) − E(e(fn ))
n∈N
+E(e(fn )) − E(e(f )) + E(e(f )) − E(ψ(f ))|
≤ 2ε.
Hieraus folgt die Behauptung.
91
⇐“ Ist I ein beschränktes Intervall, dessen Randpunkte a, b Stetigkeitsstel”
len von Ff sind, so existieren ein abgeschlossenes Intervall A und ein
offenes Intervall O mit
A ⊂ (a, b) ⊂ I ⊂ [a, b] ⊂ O
und
(P ∗ f )(O\A) < ε.
Ferner existieren8 ψ, ξ ∈ K∞ mit
1A ≤ ψ ≤ 1I ≤ ξ ≤ 1O .
Damit folgt:
(P ∗ fn )(A) =
≤
≤
≤
≤
E(1A (fn ))
E(ψ(fn ))
(P ∗ fn )(I)
E(ξ(fn ))
(P ∗ fn )(O)
(P ∗ f )(A) =
≤
≤
≤
≤
E(1A (f ))
E(ψ(f ))
(P ∗ f )(I)
E(ξ(f ))
(P ∗ f )(O).
sowie
Es folgt aus (P ∗ f )(O) − (P ∗ f )(A) < ε:
lim sup |(P ∗ fn )(I) − (P ∗ f )(I)| < ε.
n∈N
Da ε > 0 beliebig war, folgt:
(P ∗ fn )(I) →n∈N (P ∗ f )(I).
Sei nun x eine Stetigkeitsstelle der Verteilungsfunktion Ff von P ∗ f .
Ferner seien x = x1 > x2 > . . . Stetigkeitsstellen von Ff mit
[
(−∞, x] =
(xk+1 , xk ].
k∈N
Dann gilt mit Qn := P ∗ f , Q := P ∗ fn und Ik := (xk+1 , xk ]:
X
Qn ((−∞, x]) =
Qn (Ik )
k∈N
≥
X
Qn (Ik )
k≤K
8
S. etwa 7.23 (f) in Walter, W. (1991). Analysis 2, 3. Auflage. Springer, Berlin.
92
für ein beliebiges K ∈ N und damit
lim inf Qn ((−∞, x]) ≥
n∈N
X
Q(Ik ),
k≤K
d.h.
lim inf Qn ((−∞, x]) ≥
n∈N
X
Q(Ik ) = Q((−∞, x]).
k∈N
Andererseits folgt mit diesen Argumenten
lim sup Qn ((−∞, x])
n∈N
= lim sup Qn (1 − (x, ∞))
n∈N
= 1 − lim inf Qn ((x, ∞))
n∈N
≤ 1 − Q((x, ∞))
= Q((−∞, x])
und somit insgesamt
lim Qn ((−∞, x]) = Q((−∞, x]).
n∈N
2
Lemma 12.13 f1 , f2 , f3 seien Zufallsvariablen, f3 sei von f1 und von f2
unabhängig. Dann gilt für alle stetigen und beschränkten Funktionen ψ :
R → R:
E (ψ(f1 + f3 ) − ψ(f2 + f3 )) ≤ sup |E(ψ(f1 + q) − ψ(f2 + q))|.
q∈Q
Beweis: Es gilt:
E (ψ(f1 + f3 ) − ψ(f2 + f3 )) Z =Fubini E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3 )(dx)
Z ≤
E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3 )(dx)
≤
sup |E(ψ(f1 + x) − ψ(f2 + x))|
=
sup |E(ψ(f1 + q) − ψ(f2 + q))|.
x∈R
q∈Q
2
93
Satz 12.14 (Zentraler Grenzwertsatz) fn , n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen.
Dann gilt mit µ := E(f1 ), σ 2 := σ 2 (f1 ) für t ∈ R:
(
)!
n
1 X fi − µ
√
P
≤t
n i=1 σ
2
Z t
x
1
exp −
dx
→n∈N Φ(t) := √
2
2π −∞
!
n
1 X fi − µ
√
→D f, P ∗ f = N (0, 1).
n i=1 σ
⇔
Beweis:
1. O.E. sei µ = 0, σ 2 = 1, sonst Übergang zu f˜n := (fn − µ)/σ, n ∈ N.
2. fn∗ , n ∈ N, sei eine Folge unabhängiger, N (0, 1)–verteilter Zufallsvariablen. Für diese Folge gilt bereits nach 12.6
∗
f1 + · · · + fn∗
√
P∗
= N (0, 1),
n
d.h.
(
P
)!
n
1 X ∗
√
f ≤t
= Φ(t),
n i=1 i
t ∈ R, n ∈ N,
und damit
E(ψ(Tn∗ )) = E(ψ(f )) für alle ψ ∈ K∞ ,
wobei
Tn∗ :=
f1∗ + · · · + fn∗
√
n
und f eine nach N (0, 1)–verteilte Zufallsvariable ist.
√
Zu zeigen ist nun nach 12.12 mit Tn := (f1 + · · · + fn )/ n:
E(ψ(Tn )) →n∈N E(ψ(f )) für alle ψ ∈ K∞ ,
d.h.
E(ψ(Tn ) − ψ(Tn∗ )) →n∈N 0 für alle ψ ∈ K∞ .
3. Da die Behauptung lediglich die Verteilung der fi , i ∈ N, betrifft,
können wir annehmen, dass die fi und die fi∗ auf demselben Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind und sämtlich voneinander
unabhängig sind.
Taylor–Entwicklung liefert nun für x, u ∈ R und ψ ∈ K∞
ψ(x + u)
= ψ(u) + ψ 0 (u)x + ψ 00 (u + ϑx,u x)
= ψ(u) + ψ 0 (u)x + ψ 00 (u)
94
x2
2
x2
+ r(x, u)x2 ,
2
wobei 0 < ϑx,u < 1 und r(x, u) := (ψ 00 (u + ϑx,u x) − ψ 00 (u))/2.
Da die Funktion ψ 00 stetig ist und ψ 00 (x) = 0 für |x| hinreichend groß
(d.h. ψ 00 besitzt einen kompakten Träger), ist ψ 00 beschränkt und gleichmäßig
stetig, d.h. es gilt
sup |r(x, u)| < ∞ und sup |r(x, u)| →x→0 0.
x,u
u
4. Es gilt:
ψ(Tn ) − ψ(Tn∗ )
∗
f1 + · · · + fn∗
f1 + · · · + fn
√
√
−ψ
= ψ
n
n
n ∗
X
f1 + · · · + fi + fi+1 + · · · + fn∗
√
=
ψ
n
i=1
f1 + · · · + fi−1 + fi∗ + · · · + fn∗
√
−ψ
n
n
X
fi
fi∗
=
ψ √ + Ui − ψ √ + Ui
,
n
n
i=1
wobei
∗
f1 + · · · + fi−1 + fi+1
+ · · · + fn∗
√
Ui :=
n
√
√
∗
von fi / n und fi / n unabhängig ist, i = 1, . . . , n. Nach 12.13 gilt
daher
|E(ψ(Tn ) − ψ(Tn∗ ))|
∗
n X
f
f
i
i
E ψ √ + Ui − ψ √ + Ui
≤
n
n
i=1
∗
n
X
fi
fi
≤
sup E ψ √ + q − ψ √ + q
n
n
q∈Q
i=1
∗
f1
f1
.
= n sup E ψ √ + q − ψ √ + q
n
n
q∈Q
Nach 3. gilt
f1
ψ √ +q
n
2
f1
f12
f1
f1
00
= ψ(q) + ψ (q) √ + ψ (q) + r √ , q
,
2n
n
n
n
∗
f1
ψ √ +q
n
∗ ∗2
f1∗
f1∗2
f
f1
0
00
= ψ(q) + ψ (q) √ + ψ (q)
+ r √1 , q
.
2n
n
n
n
0
95
Wegen E(f1 ) = E(f1∗ ) = 0 und E(f12 ) = E(f1∗2 ) = 1 folgt damit:
|E(ψ(Tn ) − ψ(Tn∗ ))|
2 ∗ f1
f1
f
f1∗2
≤
n sup E
r √ ,q −
r √1 , q
n
n
n
n
q∈Q
f1
2
≤
E f1 sup r √ , q n
q∈Q
∗ f
∗2
+E f1 sup r √1 , q n
q∈Q
→n∈N 0
nach 3. und dem Satz von der dominierten Konvergenz.
2
Dieselben Argumente wie beim Beweis des Satzes von Glivenko–Cantelli
führen zu der folgenden Verschärfung des obigen Satzes.
Korollar 12.15 Unter den Voraussetzungen von 12.14 gilt:
)!
(
n
1 X fi − µ
√
≤t
− Φ(t) →n∈N 0.
sup P
n i=1 σ
t∈R Korollar 12.16 (Satz von Moivre–Laplace) Die Zufallsvariablen fi , i ∈
N, seien unabhängig und B(1, p)–verteilt mit p ∈ (0, 1). Dann gilt mit Sn :=
P
n
i=1 fi für −∞ ≤ t1 ≤ t2 ≤ ∞ :
(
)!
Sn − np
P
t1 ≤ p
≤ t2
np(1 − p)
2
Z t2
1
x
→n∈N √
exp −
dx,
2
2π t1
bzw.
max
B(n, p)({k1 , k1 + 1, . . . , k2 })
k1 ,k2 ∈{0,...,n} np(1−p)
2 Z
1
x
− √
exp −
dx
2
2π
√k1 −np
np(1−p)
√k2 −np
→n∈N 0.
96
Beweis: Es gilt E(fi ) = p, σ 2 (fi ) = p − p2 = p(1 − p). Die erste Behauptung
folgt nun unmittelbar aus dem Zentralen
Grenzwertsatz.
p
p
Ferner gilt mit t1 = (k1 − np)/( np(1 − p), t2 = (k2 − np)/( np(1 − p):
(
)!
Sn − np
P
t1 ≤ p
≤ t2
np(1 − p)
= P ({k1 ≤ Sn ≤ k2 })
= B(n, p)({k1 , k1 + 1, . . . , k2 }),
s. Übungen. Die zweite Behauptung folgt damit aus 12.15.
2
Es ist also nach dem Satz von Moivre–Laplace möglich, die Wahrscheinlichkeit B(n, p)({k1 , k1 +1, . . . , k2 }), deren exakte Berechnung auf die Summation
unhandlicher Ausdrücke nk pk (1 − p)n−k hinausläuft, näherungsweise mittels
der Verteilungsfunktion Φ zu berechnen, wenn n groß ist.
Beispiel 12.17 (Macht entschloss. Minderheit) An einer Stichwahl zwischen den beiden Kandidaten A und B nehmen 1 Million Wähler teil. 2000
Wähler unterwerfen sich der Parteidisziplin und stimmen geschlossen für
Kandidat A. Die übrigen 998000 Wähler sind mehr oder weniger unentschlossen und treffen ihre Entscheidung unabhängig voneinander durch Werfen einer (fairen) Münze. Wie groß ist die Wahrscheinlichkeit pA für einen Sieg von
A?
Lösung: A siegt genau dann, wenn er mehr als 498000 der Stimmen der
998000 unentschlossenen Wähler erhält. Die Anzahl f der A–Stimmen dieser
Wähler ist B(998000, 1/2)–verteilt. Es folgt:
pA = P ({f > 498000})


 f − 998000 1
1
498000 − 998000 2
2

q
>
= P q

 998000 1 1
11
998000 2 2
22


 f − 998000 1

2

q
≈ P
> −2, 002 
 998000 1 1

22
≈ 1 − Φ(−2, 002)
= Φ(2, 002)
≈ 0, 977.
97
(Zum Vergleich: Abschätzung mittels der Tschebyscheff–Ungleichung ergibt:


 f − 998000 1

2
1 − pA ≈ P  q
≤ −2, 002 
 998000 1 1

22



 f − 998000 1 2

q
≥ 2, 002 
≤ P

 998000 1 1 22
1
2, 0022
1
≈
4
3
≥
⇒ pA ∼
.)
4
≤
2
Beispiel 12.18 Es gilt:
lim exp(−n)
n∈N
n
X
ni
i=0
!
i!
1
= .
2
Beweis: f1 , f2 seien unabhängige, Poisson–verteilte Zufallsvariablen zu den
Parametern λ1 bzw. λ2 > 0, d.h. es gilt für i = 1, 2:
λki
P ({fi = k}) = exp(−λi ) ,
k!
k = 0, 1, . . .
Dann ist f1 + f2 Poisson–verteilt zum Parameter λ1 + λ2 :
P ({f1 + f2 = k})
∞
X
=
P ({f1 + f2 = k, f1 = i})
=
=
i=0
k
X
i=0
k
X
i=0
k
X
P ({f2 = k − i, f1 = i})
P ({f2 = k − i})P ({f1 = i})
λk−i
λi
2
exp(−λ1 ) 1
(k − i)!
i!
i=0
k 1 X k i k−i
= exp(−(λ1 + λ2 ))
λλ
k! i=0 i 1 2
=
exp(−λ2 )
= exp(−(λ1 + λ2 ))
(λ1 + λ2 )k
,
k!
Ferner gilt E(f1 ) = λ1 , σ 2 (f1 ) = λ1 .
98
k = 0, 1, . . .
Es sei nun fi , i ∈ N, eine Folge unabhängiger, identisch zum Parameter
1 Poisson–verteilter Zufallsvariablen. Dann gilt nach dem Zentralen Grenzwertsatz:
)!
(
n
1
1 X
√
(fi − 1) ≤ 0
→n∈N Φ(0) = .
P
2
n i=1
Andererseits gilt:
)!
n
1 X
√
(fi − 1) ≤ 0
P
n i=1
( n
)!
X
= P
fi ≤ n
(
i=1
= exp(−n)
n
X
ni
i=0
da
Pn
i=0
i!
,
fi Poisson–verteilt ist zum Parameter n.
2
Der folgende Satz macht eine Aussage über die Konvergenzgeschwindigkeit
beim Zentralen Grenzwertsatz.
Satz 12.19 (Berry–Esseen) Es seien f1 , f2 , . . . unabhängige und identisch
verteilte Zufallsvariablen. Ist 0 < σ 2 :=Var(f1 ) < ∞, γ := E(|f1 − µ|3 ) < ∞
mit µ := E(f1 ), so gilt:
(
)!
n
X
1
f
−
µ
i
√
sup P
≤x
− Φ(x)
σ
n
x∈R
i=1
γ 1
≤ 0, 8 3 √ .
σ n
Beweis: S. Gänssler, P. und Stute, W. (1977).
2
Eine weitere direkte Anwendung des Zentralen Grenzwertsatzes führt zu sog.
Konfidenzintervallen (Vertrauensintervallen). Der einfachste Fall ist der folgende: Angenommen, fn , n ∈ N, ist eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen mit bekannter Varianz σ 2 ,
aber unbekanntem Mittelwert µ, der geschätzt
Pn werden soll.
−1
Mit dem arithmetischen Mittel µ̂n := n
i=1 fi erhalten wir eine Punktschätzung für µ. Allerdings wird µ̂n um den wahren Wert µ (zufällig) schwanken. Es erscheint daher vernünftig, zusätzlich zur Punktschätzung µ̂n ein
Intervall
In := [µ̂n − c, µ̂n + c]
(mit dem Mittelpunkt µ̂n ) anzugeben, von dem man weiß, dass es den unbekannten Mittelwert µ mit hoher Wahrscheinlichkeit enthält. Dies ist eine
Bereichsschätzung von µ.
Problem: Wie soll c > 0 gewählt werden?
99
Einerseits natürlich möglichst klein, um eine gute (Bereichs–)Schätzung für
µ zu erhalten.
Andererseits darf c nicht zu klein gewählt werden, da In den Wert µ mit
hoher Wahrscheinlichkeit enthalten soll.
Eine Lösung dieses Zielkonfliktes bietet der Zentrale Grenzwertsatz wie folgt:
Wir wissen, dass für t ≥ 0 gilt:
)!
(
n
1 X fi − µ
≤t
P
−t ≤ √
n i=1 σ
→n∈N Φ(t) − Φ(−t)
=
2Φ(t) − 1,
wobei
(
)!
n
1 X fi − µ
P
−t ≤ √
≤t
n i=1 σ
tσ
tσ
= P
µ̂n − √ ≤ µ ≤ µ̂n + √
n
n
tσ
tσ
= P
µ ∈ µ̂n − √ , µ̂n + √
.
n
n
Wählen wir also
tσ
c := cn := √
n
(→n∈N 0!),
so erhalten wir
P ({µ ∈ In }) →n∈N 2Φ(t) − 1.
Dabei wählen wir nun t > 0 so, dass 2Φ(t)−1 gleich der (hohen) vorgegebenen
Wahrscheinlichkeit sein soll, sagen wir 1 − α, mit der µ in In liegen soll. Ein
typischer Wert wäre 1 − α = 0, 95.
Es soll also gelten:
α
−1
,
2Φ(t) − 1 = 1 − α ⇔ t = Φ
1−
2
d.h. t =(1 − α/2)–Quantil der Standardnormalverteilung, i.Z. uα/2 . Damit
erhalten wir
uα/2 σ
uα/2 σ
P
µ ∈ µ̂n − √ , µ̂n + √
→n∈N 1 − α
n
n
und
uα/2 σ
uα/2 σ
In (α) := µ̂n − √ , µ̂n + √
n
n
heißt Konfidenzintervall (für µ) zum (asymptotischen) Niveau 1 − α.
Beachte, dass, wenn P ∗ fi = N (µ, σ 2 ), d.h. fi selbst normalverteilt, i =
1, 2, . . . , aus dem Faltungstheorem der Normalverteilung 12.6 sofort folgt:
P (µ ∈ In (α)) = 1 − α.
100
Literatur
[1] Georgii, H.–G. (2002). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. De Gruyter, Berlin.
[2] Gänssler, P. und Stute, W. (1977). Wahrscheinlichkeitstheorie. Springer,
Heidelberg.
[3] Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und
Statistik. 6. Auflage. Vieweg, Braunschweig.
[4] Walter, W. (1991). Analysis 2. 3. Auflage. Springer, Heidelberg.
101
Herunterladen