Einführung in die Wahrscheinlichkeitstheorie

Werbung
WS 2014/15
Einführung in die
Wahrscheinlichkeitstheorie
Prof. Dr. Nina Gantert
7. Februar 2015
Inhaltsverzeichnis
0 Einleitung
3
1 Diskrete Wahrscheinlichkeitsräume
4
1.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Urnenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Weitere Beispiele von Verteilungen . . . . . . . . . . . . . . . . . . . . . . 10
2 Bedingte Wahrscheinlichkeit und Unabhängigkeit
2.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Produkträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
16
19
3 Zufallsvariablen, Erwartungswerte und Varianzen
3.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . .
3.2 Unabhängigkeit von Zufallsvariablen . . . . . . . . .
3.3 Erwartungswerte . . . . . . . . . . . . . . . . . . . .
3.4 Varianzen . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Kovarianzen . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
23
25
30
33
4 Summen unabhängiger Zufallsvariablen
4.1 Faltungen . . . . . . . . . . . . . . . . .
4.2 Erzeugende Funktion . . . . . . . . . . .
4.3 Verzweigungsprozesse . . . . . . . . . .
4.4 Die eindimensionale Irrfahrt . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
38
41
41
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Wahrscheinlichkeit mit Dichten
46
5.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2 Übertragung der bisherigen Ergebnisse . . . . . . . . . . . . . . . . . . . . 47
5.3 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6 Grenzwertsätze
55
6.1 Das Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.3 Das Lemma von Borel-Cantelli und das starke Gesetz der großen Zahlen . 62
0 Einleitung
Stochastik ist die Lehre von den Gesetzmäßigkeiten des Zufalls. Es geht um die Modellierung und Berechnung zufälliger Vorgänge. »Zufall« kann dabei auch »subjektive
Ungewissheit« sein.
Anwendungen
• Historisch: Glücksspiel
• Finanzmathematik (z. B. Beschreibungen von Aktienkursen)
• Medizin, Biologie (Datenanalyse, Ausbreitung von Epidemien)
• Versicherungsmathematik
• Meinungsforschung
Beziehungen zu anderen Gebieten der Mathematik
• Mathematische Physik (statistische Mechanik, interagierende Teilchensysteme)
• Analysis (z. B. probabilistische Lösung partieller Differentialgleichungen)
• Graphentheorie und Kombinatorik
Literatur
H.-O. Georgii, Stochastik. de Gruyter, 4. Auflage.
1 Diskrete Wahrscheinlichkeitsräume
In diesem Kapitel führen wir Wahrscheinlichkeiten auf endlichen oder abzählbar unendlichen Mengen ein.
1.1 Grundbegriffe
Wir beginnen mit einem Beispiel.
Beispiel 1.1.1. Wir würfeln mit zwei fairen Würfeln (»fairer Würfel« heißt, dass die
Zahlen 1, . . . , 6 alle mit Wahrscheinlichkeit 16 gewürfelt werden). Wie groß ist die Wahrscheinlichkeit, dass die Augensumme mindestens 10 ist?
Lösung 1. Ω = {1, . . . , 6}2 = Menge aller Paare von Zahlen aus {1, . . . , 6}.
Interpretation: ω = (ω1 , ω2 ) ∈ Ω, wobei
• ω1 = Ergebnis des 1. Würfels,
• ω2 = Ergebnis des 2. Würfels.
1
. Wir zählen die »günstigen
Jedes ω ∈ Ω hat dieselbe Wahrscheinlichkeit, nämlich 36
Elementarereignisse«, d. h. diejenigen Paare, bei denen die Augensumme mindestens 10 ist:
(4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6).
Es gibt 6 solcher Paare. Also: gesuchte Wahrscheinlichkeit ist
6
36
= 16 .
Lösung 2. Ω = {2, 3, 4, . . . , 11, 12} ist die Menge der möglichen Augensummen. Diese elf Elementarereignisse haben nicht dieselbe Wahrscheinlichkeit, z. B. hat 2 die
1
1
Wahrscheinlichkeit 36
und 3 hat die Wahrscheinlichkeit 18
((1, 2), (2, 1)). Nun addiert man die Wahrscheinlichkeiten von 10, 11 und 12:
• 10 hat Wahrscheinlichkeit
• 11 hat Wahrscheinlichkeit
• 12 hat Wahrscheinlichkeit
3
36
2
36
1
36
(3 Möglichkeiten),
(2 Möglichkeiten),
(1 Möglichkeit).
Also: gesuchte Wahrscheinlichkeit ist
3
36
+
2
36
+
1
36
=
1
6
wie oben.
Wir sehen:
• Es empfiehlt sich, eine Grundmenge von Elementarereignissen zu definieren, deren
Wahrscheinlichkeiten einzeln bestimmt werden können (besonders einfach ist der
Fall, wo alle dieselbe Wahrscheinlichkeit haben).
1.1 Grundbegriffe
5
• Das Ereignis, dessen Wahrscheinlichkeit gesucht ist, identifiziert man mit einer
Teilmenge der Grundmenge.
• Im Allgemeinen gibt es mehrere Möglichkeiten für die Wahl der Grundmenge.
Im Folgenden sei P(Ω) die Potenzmenge von Ω, d. h. die Menge aller Teilmengen von Ω.
Definition 1.1.2. Ein diskreter Wahrscheinlichkeitsraum ist ein Tupel (Ω, p), bestehend
aus einer höchstens abzählbar unendlichen Menge Ω und einer Abbildung p : Ω → [0, 1]
P
mit der Eigenschaft ω∈Ω p(ω) = 1.
Wir nennen Ω den Grundraum, die Elemente von Ω Elementarereignisse, die Teilmengen von Ω Ereignisse und die p(ω) Gewichte oder Einzelwahrscheinlichkeiten. Die
Abbildung
X
p(ω),
P : P(Ω) → [0, 1], A 7→
ω∈A
heißt das von den Einzelwahrscheinlichkeiten induzierte Wahrscheinlichkeitsmaß. Da alle
P
Gewichte nicht-negativ sind, spielt die Reihenfolge der Summanden in ω∈A p(ω) keine
Rolle.
1
In Beispiel 1.1.1 war bei der ersten Lösung Ω = {1, . . . , 6}2 , p(ω) = 36
für alle ω ∈ Ω,
bei der zweiten Lösung Ω = {2, 3, . . . , 12}. Definition 1.1.2 ist Spezialfall eines allgemeineren Konzeptes.
Definition 1.1.3. Sei Ω nicht-leere Menge, F ⊆ P(Ω) und P : F → [0, 1]. (Ω, F, P)
heißt Wahrscheinlichkeitsraum, falls F eine σ-Algebra ist, d. h.
(i) Ω ∈ F,
(ii) A ∈ F
⇒
Ac ∈ F,
(iii) A1 , A2 , . . . ∈ F
⇒
S
i∈N Ai
∈ F,
und P Wahrscheinlichkeitsmaß, d. h.
(i) P[Ω] = 1 (Normierung),
(ii) Für alle Folgen (Ai )i∈N von paarweise disjunkten Ereignissen gilt:


P
[
Ai  =
i∈N
X
P[Ai ].
i∈N
(σ-Additivität).
Jeder diskrete Wahrscheinlichkeitsraum (Ω, p) ist ein Wahrscheinlichkeitsraum (Ω, F, P)
im Sinne von Definition 1.1.3 mit F = P(Ω) und
P : F → [0, 1],
A 7→
X
p(ω).
ω∈A
Klar, dass P(Ω) eine σ-Algebra ist und das Wahrscheinlichkeitsmaß P folgendes erfüllt.
1.1 Grundbegriffe
6
Definition 1.1.4 (Kolmogorov-Axiome).
(i) P[Ω] = 1,
(ii) Für alle Folgen (Ai )i∈N von paarweise disjunkten Ereignissen gilt:


P
[
Ai  =
X
P[Ai ].
i∈N
i∈N
Das heißt, (Ω, P(Ω), P) genügt Definition 1.1.3. Teilmengen von Ω werden als Ereignisse interpretiert. Wir listen einige Entsprechungen auf:
Mengenschreibweise
A, B, C ⊆ Ω
A∩B
A∪B
Ac
A∩B =∅
A⊆B
Sprache der Ereignisse
A, B, C sind Ereignisse
A und B
A oder B
nicht A
A und B schließen sich aus
A impliziert B
Wahrscheinlichkeiten genügen einigen einfachen Rechenregeln.
Lemma 1.1.5. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. Dann hat das zugehörige Wahrscheinlichkeitsmaß P die folgenden Eigenschaften:
(a) P[∅] = 0,
(b) A ⊆ B
⇒
P[A] ≤ P[B] für alle Ereignisse A, B,
(c) P[A ∪ B] = P[A] + P[B] − P[A ∩ B] für alle Ereignisse A, B,
(d) P[
S
i∈N Ai ]
≤
P
i∈N P[Ai ]
für jede Folge (Ai )i∈N von Ereignissen,
(e) Falls für eine Folge (Ai )i∈N und ein Ereignis A gilt:
Ai & A :⇔ Ai+1 ⊆ Ai für alle i ∈ N und
\
=A
i∈N
oder
Ai % A :⇔ Ai ⊆ Ai+1 für alle i ∈ N und
[
= A,
i∈N
so gilt:
P[A] = lim P[Ai ].
i→∞
Beweis. (a) bis (d) folgen direkt aus der Definition P[A] =
P
ω∈A p(ω).
(e) Falls Ai % A, setzen Bi = Ai \ Ai−1 , A0 = ∅, dann sind B1 , B2 , . . . paarweise
disjunkt. Wegen der σ-Additivität in 1.1.4 gilt also:


P[A] = P 
[
Bi  =
i∈N
Der Fall Ai & A geht analog.
X
i∈N
P[Bi ] = lim
n→∞
n
X
i=1
P[Bi ] = lim P[An ].
n→∞
1.1 Grundbegriffe
7
Bemerkung zu (c).
Für drei Ereignisse A, B, C gilt:
P[A ∪ B ∪ C] = P[A] + P[B] + P[C]
− P[A ∩ B] − P[B ∩ C] − P[A ∩ C]
+ P[A ∩ B ∩ C].
Beispiel 1.1.6. Wir betrachten ein Kartenspiel mit 2n Karten, darunter 2 Joker (wobei
n ≥ 2.) Wir bilden zwei gleich große Stapel. Wie groß ist die Wahrscheinlichkeit, dass
beide Joker im selben Stapel liegen? Wir wählen (Ω, p) mit
Ω = {(i, j) ∈ {1, 2, . . . , 2n}2 | i 6= j}
und
p ((i, j)) =
1
1
=
.
|Ω|
2n(2n − 1)
Interpretation: i und j sind die Plätze der beiden Joker im Kartenspiel.
A = {(i, j) ∈ Ω | i, j ≤ n} ∪ {(i, j) ∈ Ω | i, j ≥ n + 1}
(die Plätze 1, . . . , n gehören zum ersten Stapel, die Plätze n + 1, . . . , 2n zum zweiten).
A hat 2n(n − 1) Elemente. Also gilt:
P[A] =
n−1
.
2n − 1
Beispiel 1.1.7 (Teilungsproblem von Luca de Pacioli, 1494). Spieler a und Spieler b
werfen wiederholt eine Münze: in jeder Runde gewinnt a bei Zahl, b andernfalls. Derjenige
Spieler bekommt den Gesamteinsatz, der als erster insgesamt 6 Runden gewonnen hat.
Nach 8 Runden hat a 5-mal und b 3-mal gewonnen hat, und das Spiel muss abgebrochen
werden. Wie ist der Gesamtgewinn gerecht aufzuteilen?
1. Lösung. Spätestens nach drei weiteren Runden wäre alles entschieden.
Ω = Menge der Resultate in den nächsten drei Runden
= {(a, a, a), (a, a, b), . . . , (b, b, b)},
1
p(ω) =
für alle ω ∈ Ω.
8
b gewinnt nur falls ω = (b, b, b). Also: a bekommt 78 , b bekommt 18 .
2. Lösung.
Ω = Menge der Resultate der weiteren Runden bis zur Entscheidung
= {a, ba, bba, bbb},
1
1
p(a) = , p(ba) = ,
2
4
1
p(bba) = p(bbb) = .
8
Also: a bekommt 87 , b bekommt 18 .
1.2 Urnenmodelle
8
1.2 Urnenmodelle
Eine der einfachsten Verteilungen ist die Gleichverteilung (auch Laplace-Verteilung) auf
1
einer endlichen Menge Ω, definiert durch p(ω) = |Ω|
für alle ω ∈ Ω. Wir geben nun eine
Liste von wichtigen Beispielen, die von Urnenmodellen kommen.
Beispiel 1.2.1. In einer Urne liegen N Kugeln mit den Nummern 1, 2, . . . , N . Wir
ziehen n Kugeln aus der Urne. Ein Ergebnis ist ein Tupel (k1 , . . . , kn ) ∈ {1, . . . , N }n ,
wobei ki heißt, dass in der i-ten Ziehung die Kugel mit der Nummer ki gezogen wird.
Frage: wie viele Ergebnisse können auftreten? Sei M = {1, . . . , N }.
1. Mit Zurücklegen, mit Reihenfolge. Wir legen also nach jeder Ziehung die Kugel in
die Urne zurück, und wir betrachten Tupel, die sich nur in Reihenfolge unterscheiden, als verschieden.
Ω1 = M n = {(k1 , . . . , kn ) | k1 , . . . , kn ∈ M }.
Ω1 ist die Menge aller n-Tupel mit Koeffizienten aus M . Es gilt:
|Ω1 | = N n .
2. Ohne Zurücklegen, mit Reihenfolge. Wir legen keine gezogene Kugel zurück, und
setzen insbesondere n ≤ N voraus.
Ω2 = {(k1 , . . . , kn ) | k1 , . . . , kn ∈ M, k1 , . . . , kn paarweise verschieden}.
Es gilt:
|Ω2 | = N (N − 1)(N − 2) · · · (N − n + 1) =
N!
,
(N − n)!
dabei ist N ! = N (N − 1) · · · 2 · 1.
3. Ohne Zurücklegen, ohne Reihenfolge. Wir legen keine Kugel zurück und sehen zwei
Tupel, die sich nur in der Reihenfolge unterscheiden, als gleich an.
Ω3 = {A ⊆ M | |A| = n} = Menge der n-elementigen Teilmengen von M.
Ω2 listet jedes Tupel in Ω3 genau n!-mal auf, nämlich in allen möglichen Reihenfolgen. Also gilt:
!
|Ω2 |
N!
N
|Ω3 | =
=
=
.
n!
n!(N − n)!
n
4. Mit Zurücklegen, ohne Reihenfolge.
Ω4 = {(k1 , . . . , kn ) ∈ M n | k1 ≤ k2 ≤ · · · ≤ kn }.
Ω4 ist die Menge der n-Tupel in nicht-absteigender Reihenfolge (da wir die Reihenfolge nicht berücksichtigen, können wir die Tupel ordnen). Es gilt:
|Ω4 | =
N +n−1
.
n
1.2 Urnenmodelle
9
Denn: betrachten Abbildung (k1 , . . . , kn ) 7→ (k1 , . . . , kn ) mit ki = ki + i − 1.
Beispiel mit n = 8: (1, 1, 2, 2, 2, 2, 3, 4) 7→ (1, 2, 4, 5, 6, 7, 9, 11). Diese Abbildung ist
eine Bijektion zwischen Ω4 und
n
Ω = {(k1 , . . . , kn ) ∈ M | k1 , . . . , kn paarweise verschieden},
wobei M = {1, 2, . . . , N + n − 1}. Also: |Ω4 | = Ω3 , d. h. Ω3 wird nicht mit M ,
sondern mit M gebildet. Also
wir N durch N + n − 1 in der obigen Formel
ersetzen
N +n−1
.
für Ω3 und erhalten |Ω4 | = Ω3 =
n
Beispiel 1.2.2. Wir würfeln mit 4 Würfeln. Wie groß ist die Wahrscheinlichkeit, 4
verschiedene Augenzahlen zu erhalten? (siehe Übungen)
Beispiel 1.2.3. Wie groß ist die Wahrscheinlichkeit pn , dass unter n Personen keine
zwei am selben Tag Geburtstag haben? Setzen voraus, dass das Jahr 365 Tage hat, dass
n ≤ 365 und dass alle Geburtstage dieselbe Wahrscheinlichkeit haben.
Menge aller Geburtstagstupel von n Personen ist Ω1 mit N = 365 aus Beispiel 1.2.1.
Die Menge von Tupeln, die das gesuchte Ereignis realisieren, ist Ω2 (mit N = 365). Also:
|Ω2 |
N (N − 1) · · · (N − n + 1)
=
|Ω1 |
Nn
1
2
n−1
=1· 1−
1−
··· 1 −
N
N
N
pn =
n−1
X
i
= exp
log 1 −
N
i=1
!
Für N = 365 und n = 25 ist dies ungefähr 0.432.
Bemerkung. Für allgemeines n und N können wir approximieren, falls n sehr klein im
Verhältnis zu N ist, in dem
wir die Näherung
P
log(1 + x)
≈ x (für |x| klein) benutzen,
n(n−1)
n−1
i
und wir erhalten pn ≈ exp
.
i=1 − N = exp − 2N
Beispiel 1.2.4. Wie viele Möglichkeiten gibt es, n nicht unterscheidbare Murmeln auf
N Zellen zu verteilen?
1. Lösung. Dies ist die Frage
nach |Ω4 | aus Beispiel 1.2.1 (wir ziehen Zellen für die
Murmeln!), also N +n−1
Möglichkeiten.
n
2. Lösung. n Murmeln in einer Reihe. Die Einteilung in N Zellen entspricht dem Setzen
von N − 1 Trennwänden. Damit haben wir eine Reihe von N + n − 1 Objekten,
nämlich n Murmeln und N − 1 Trennwänden. Jede der N +n−1
Anordnungen
n
(hier benutzen wir die Formel für Ω2 aus Beispiel 1.2.1) entspricht
genau einer
N +n−1
Möglichkeit, die n Murmeln in N Zellen einzuteilen. Damit:
Möglichkeiten.
n
1.3 Weitere Beispiele von Verteilungen
10
1.3 Weitere Beispiele von Verteilungen
Beispiel 1.3.1. In einem Teich befinden sich N Fische, von denen K markiert sind.
Dem Teich werden n Fische (ohne Zurücklegen) entnommen. Wie groß ist die Wahrscheinlichkeit, dass k markierte Fische entnommen wurden? (k ≤ n ≤ K ≤ N )
p(k) = HypN,K,n (k) =
K
k
·
N −K n−k
N
n
(1.3.1)
Das von diesen Gewichten induzierte Wahrscheinlichkeitsmaß auf {0, 1, . . . , n} heißt hypergeometrische Verteilung auf den Parametern N,
K, n. (1.3.1) ergibt sich aus der ForN
mel für Ω2 in Beispiel 1.2.1: Im Nenner steht n für die Anzahl aller Möglichkeiten, n
Fische aus N auszuwählen. Im Zähler steht die Anzahl der günstigen Fälle, bei denen
jeweils k Fische aus den K markierten und n − k Fische aus den N − K unmarkierten
ausgewählt werden. Mit Ω = {0, . . . , n} ist (Ω, HypN,K,n ) ein diskreter Wahrscheinlichkeitsraum. Insbesondere gilt:
n
X
K
N −K n
X
k · n−k
HypN,K,n =
=1
N
k=0
k=0
n
und damit gilt (Vandermondsche Identität):
n
X
k=0
K
k
!
N −K
n−k
!
!
N
.
n
=
Beispiel 1.3.2. Sei p ∈ [0, 1]. Wir spielen n-mal dasselbe Spiel, in dem wir mit Wahrscheinlichkeit p Erfolg haben und mit Wahrscheinlichkeit 1 − p keinen Erfolg haben.
Die verschiedenen Spielausgänge beeinflussen sich nicht. Ω = {0, 1}n sei die Menge der
möglichen Spielverläufe. ω = (ω1 , . . . , ωn ) ∈ Ω hat das Gewicht
Pn
q(ω) = p
i=1
ωi
Pn
(1 − p)n−
i=1
ωi
.
(1.3.3)
(Ω, q) ist ein diskreter Wahrscheinlichkeitsraum und das von q induzierte Wahrscheinlichkeitsmaß heißt Bernoulli-Verteilung der Länge n mit dem Parameter p. Insbesondere
gilt:
Pn
X Pn
p i=1 ωi (1 − p)n− i=1 ωi = 1
ω∈Ω
Bemerkung. Falls p = 12 gilt, so ist die Bernoulli-Verteilung zum Parameter p die
Gleichverteilung auf Ω mit
q(ω) =
Pn ωi n−Pn ωi
i=1
i=1
1
1
2
2
=
n
1
2
1.3 Weitere Beispiele von Verteilungen
11
Beispiel 1.3.3. Sei p ∈ [0, 1]. Wie in Beispiel 1.3.2 führen wir ein Bernoulli-Experiment
der Länge n zum Parameter p durch. Wie groß ist die Wahrscheinlichkeit, dass wir
insgesamt k Erfolge haben? (k ∈ {0, . . . , n}). In der Situation von Beispiel 1.3.2 fragen
wir also nach der Wahrscheinlichkeit des Ereignisses
(
ω∈Ω|
Ak =
n
X
)
ωi = k
i=1
Es gilt P[Ak ] = nk pk (1 − p)n−k . Dabei ist nk die Anzahl der Elemente in der Menge Ak
und jedes Element ω ∈ Ak hat unter P dasselbe Gewicht
q(ω) = p
Pn
i=1
ωi
· (1 − p)n−
Pn
i=1
ωi
= pk (1 − p)n−k
Also definieren wir
!
n k
p (1 − p)n−k
k
p̃(k) = Binn,p (k) =
für alle k ∈ {0, . . . , n}.
(1.3.4)
Das von diesen Gewichten induzierte Wahrscheinlichkeitsmaß auf Ω̃ = {0, . . . , n} heißt
Binomialverteilung mit den Parametern n und p. Insbesondere gilt:
n
X
k=0
!
n k
p (1 − p)n−k = 1.
k
Das folgt bereits aus dem binomischen Lehrsatz:
n
(x + y) =
n
X
k=0
!
n k n−k
x y
k
für alle x, y ∈ R.
In den beiden folgenden Beispielen führen wir Verteilungen auf abzählbar unendlichen
Grundräumen ein.
Beispiel 1.3.4. Wir spielen dasselbe Spiel wie in Beispiel 1.3.2, allerdings solange, bis
wir zum ersten Mal Erfolg haben. Mit welcher Wahrscheinlichkeit passiert das beim
k-ten Spiel? (k ∈ N).
p̃(k) = Geop k = p(1 − p)k−1
(1.3.5)
p̃(k) ist die Wahrscheinlichkeit k − 1 Misserfolge gefolgt von einem Erfolg zu haben. Das
von diesen Gewichten induzierte Wahrscheinlichkeitsmaß auf Ω = N heißt geometrische
Verteilung mit Parameter p. (Ω, p̃) modelliert die Wartezeit auf den ersten Erfolg, die
prinzipiell nach oben unbeschränkt ist. Insbesondere gilt:
∞
X
k=1
p(1 − p)k−1 = 1.
1.3 Weitere Beispiele von Verteilungen
12
Beispiel 1.3.5. Seien λ > 0 und Ω = N0 . Die Gewichte p(k) seien gegeben durch
p(k) = Poiλ (k) = e−λ
λk
k!
Das von diesen Gewichten induzierte Wahrscheinlichkeitsmaß auf Ω heißt Poisson-Verteilung mit Parameter λ. Die Poisson-Verteilung ist immer dann eine gute Näherung,
wenn ein Bernoulli-Experiment sehr oft und mit sehr kleiner Erfolgswahrscheinlichkeit
durchgeführt wird. Das lässt sich übertragen auf eine Beobachtungsphase, während der
fast immer nichts passiert und hin und wieder etwas passiert. Werden zum Beispiel die
Anzahl der Anrufe in einer Telefonzentrale im Zeitraum [0, T ] untersucht, so lässt sich
das Intervall in n Teilintervalle der Länge Tn aufteilen. Unter der Annahme, dass in
jedem Teilintervall höchstens eine Person anruft, sei die Wahrscheinlichkeit dafür, dass
dies passiert, mit pn bezeichnet. Dabei soll n · pn ∼ λ gelten. Die Anzahl der Anrufe im
Intervall [0, T ] ist damit ein Bernoulli-Experiment der Länge n mit Erfolgsparameter pn .
Der folgende Satz fasst die obige Interpretation in einen formalen Kontext.
Satz 1.3.6. Für die Folge (pn )n∈N gelte pn ∈ [0, 1] für alle n ∈ N und
lim n · pn = λ > 0.
n→∞
Dann gilt:
lim Binn,pn (k) = Poiλ (k)
n→∞
Beweis. Siehe Übungen.
für alle k ∈ N0 .
(1.3.7)
2 Bedingte Wahrscheinlichkeit und
Unabhängigkeit
In vielen Situationen liegt schon Information vor, wenn man die Wahrscheinlichkeit eines
Ereignisses bestimmen möchte.
Beispiel. Beim Kartenspielen kennt man die eigenen Karten, beim Abschluss einer
Lebensversicherung schon das Alter des Antragstellers, etc. Das heißt, man ist über das
Eintreten eines Ereignisses B schon informiert, wenn man die Wahrscheinlichkeit eines
Ereignisses A bestimmen will.
2.1 Bedingte Wahrscheinlichkeiten
Einführendes Beispiel.
Beispiel 2.1.1. In einer Umfrage soll der Anteil der Raucher an der Bevölkerung ermittelt werden. Gesucht ist also die Wahrscheinlichkeit A, dass eine zufällige gewählte
Person Raucherin ist. Man unterscheidet mehrere Bevölkerungsgruppen. Sei B das Ereignis, dass eine zufällig gewählte Person eine Frau zwischen 20 und 30 ist. Was ist die
bedingte Wahrscheinlichkeit von A, gegeben B?
Dazu wird man die Anzahl der rauchenden 20-30 jährigen Frauen durch die Anzahl der
20-30 jährigen Frauen teilen, d. h. den Anteil der Raucherinnen unter den 20-30 jährigen
Frauen bestimmen. Also
P[Raucherin | 20-30 jährige Frau] =
=
|{20-30 jährigen Raucherinnen}|
|{20-30 jährigen Frauen}|
|{20-30 jährigen Raucherinnen}|
|{Gesamtbevölkerung}|
|{20-30 jährigen Frauen}|
|{Gesamtbevölkerung}|
Definition 2.1.2. Seien A und B Ereignisse und P[B] > 0. Dann ist
P[A | B] =
P[A ∩ B]
P[B]
die bedingte Wahrscheinlichkeit von A, gegeben B.
=
P[A ∩ B]
.
P[B]
2.1 Bedingte Wahrscheinlichkeiten
14
Beispiel 2.1.3. (i) Beim Würfeln zweier Würfel beträgt die Augensumme 10. Wie
groß ist die bedingte Wahrscheinlichkeit, dass der erste Würfel 6 zeigt?
o
n
Ω = (ω1 , ω2 ) ∈ {1, . . . , 6}2 ,
A = {(ω1 , ω2 ) ∈ Ω | ω1 = 6} ,
B = {(ω1 , ω2 ) ∈ Ω | ω1 + ω2 = 10} = {(6, 4), (5, 5), (4, 6)},
A ∩ B = {(6, 4)},
P[A | B] =
P[A ∩ B]
=
P[B]
1
36
3
36
1
= .
3
(ii) Wir betrachten die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge
n mit Erfolgsparameter p. Wie groß ist die bedingte Wahrscheinlichkeit, dass der
erste Versuch ein Erfolg war, gegeben, dass wir insgesamt k Erfolge haben?
Ω = {(ω1 , . . . , ωn ) ∈ {0, 1}n } ,
A = {(ω1 , . . . , ωn ) ∈ Ω | ω1 = 1} ,
(
B=
(ω1 , . . . , ωn ) ∈ Ω |
n
X
)
ωi = k ,
i=1
(
A∩B =
(ω1 , . . . , ωn ) | ω1 = 1 und
n
X
)
ωi = k − 1 ,
i=2
!
P[B] =
n k
p (1 − p)n−k ,
k
!
P[A ∩ B] =
n−1 k
p (1 − p)n−k ,
k−1
n−1
k−1
n
k
P[A ∩ B]
=
P[A | B] =
P[B]
=
k
.
n
Für bedingte Wahrscheinlichkeiten gelten folgende Rechenregeln.
Lemma 2.1.4. Sei B ein Ereignis mit P[B] > 0. Dann gilt:
(i) P [ · | B] erfüllt Kolmogorov-Axiome aus Definition 1.1.4, d. h. es gilt
P[Ω | B] = 1,
und für alle Folgen von paarweise disjunkten Ereignissen (Ai )i∈N gilt:

P

[
Ai | B  =
i∈N
X
P[Ai | B].
i∈N
(ii) Für jedes Ereignis A und jede Folge (Bi )i∈N von paarweise disjunkten Ereignissen
S
mit B = · i∈N Bi und P[Bi ] > 0 für alle i ∈ N gilt:
P[A ∩ B] =
X
P[A | Bi ]P[Bi ].
i∈N
(Formel von der totalen Wahrscheinlichkeit)
2.1 Bedingte Wahrscheinlichkeiten
15
(iii) Für jedes Ereignis A mit P[A] > 0 und jede Folge (Bi )i∈N von paarweise disjunkten
S
Ereignissen mit Ω = · i∈N Bi und P[Bi ] > 0 für alle i ∈ N gilt:
P[Bi | A] = P
P[A | Bi ]P[Bi ]
.
j∈N P[A|Bj ]P[Bj ]
(Bayes-Formel)
Beweis. Nachrechnen mit der Definition der bedingten Wahrscheinlichkeit.
1
Beispiel. Sei Ω endlich und P die Gleichverteilung auf Ω, d. h. p(ω) = |Ω|
für alle
ω ∈ Ω. Sei B ⊆ Ω, B 6= ∅. Dann ist P[ · | B] die Gleichverteilung auf B, d. h. P[ · | B]
hat Gewichte

 1 , falls ω ∈ B,
pB (ω) = |B|
0,
falls ω ∈
/ B.
Denn: für ω ∈ B gilt
P[{ω}]
P[{ω} | B] =
=
P[B]
1
|Ω|
|B|
|Ω|
=
1
,
|B|
für ω ∈
/ B gilt P[{ω} ∩ B] = 0. Beispiel 2.1.3 war von dieser Form.
Beispiel 2.1.5. Eine seltene Krankheit liegt bei 0.5% der Bevölkerung vor. Es gibt
einen Test, der bei 99% der Kranken anschlägt, aber auch bei 2% der Gesunden. Mit
welcher bedingten Wahrscheinlichkeit ist eine getestete Person krank, gegeben, dass der
Test anschlägt?
Ω = {alle getesteten Personen},
B1 = {alle kranken getesteten Personen},
B2 = {alle gesunden getesteten Personen},
A = {alle getesteten Personen, bei denen der Test anspricht}.
Gesucht ist P[B1 | A]. Bekannt sind
P[B1 ] = 0.005,
P[A | B1 ] = 0.99,
P[A | B2 ] = 0.02.
.
und damit auch P[B2 ] = 0.995 (Ω = B1 ∪ B2 ). Nun benutzen wir die Bayes-Formel:
P[A | B1 ]P[B1 ]
P[A | B1 ]P[B1 ] + P[A | B2 ]P[B2 ]
0.99 · 0.005
495
=
=
0.99 · 0.005 + 0.02 · 0.995
2485
P[B1 | A] =
∼
= 0.2
Also: »erstmal kein Grund zur Panik«.
Lemma 2.1.6. Für jedes n ∈ N und alle A1 , . . . , An ⊆ Ω mit P[A1 ∩ · · · ∩ An−1 ] 6= 0
gilt:
P[A1 ∩ · · · ∩ An ] = P[A1 ] · P[A2 | A1 ] · P[A3 | A1 ∩ A2 ] · · · P[An | A1 ∩ · · · ∩ An−1 ].
2.2 Unabhängigkeit von Ereignissen
16
Beweis. Einfach.
Beispiel 2.1.7. Mit welcher Wahrscheinlichkeit hat jeder Spieler beim Skat genau ein
Ass? Verteilen von 32 Karten mit 4 Assen, je zehn an drei Spieler.
Ai = {Spieler i hat genau ein Ass},
P[A1 ∩ A2 ∩ A3 ] = P[A1 ] · P[A2 | A1 ] · P[A3 | A1 ∩ A2 ]
| {z } |
4
1
3
1
28
9
32
10
{z
} |
19
9
22
10
2
1
{z
10
9
12
10
( )( )
( )( )
( )( )
( )
( )
( )
2
·
4!28!
≈ 0.0556.
= 103 ·
32!
}
2.2 Unabhängigkeit von Ereignissen
Definition 2.2.1.
(i) Zwei Ereignisse A und B heißen unabhängig, falls gilt:
P[A ∩ B] = P[A] · P[B].
(ii) Eine Familie (Ai )i∈I von Ereignissen mit Indexmenge I heißt unabhängig, falls für
jede endliche Teilmenge J ⊆ I gilt:
"
P
#
\
Ai =
i∈J
Y
P[Ai ]
(2.2.1)
i∈J
Bemerkung. (a) Beachte: Unabhängigkeit ist keine Eigenschaft der Ereignisse per se,
sondern es kommt auf das Wahrscheinlichkeitsmaß P an!
(b) Falls A und B unabhängige Ereignisse sind und P[B] > 0, so gilt:
P[A | B] =
P[A] · P[B]
P[A ∩ B]
=
= P[A].
P[B]
P[B]
Beispiel 2.2.2. Wir werfen einen Würfel n mal.
Ω = {1, . . . , 6}n ,
Ai = »i-ter Würfel zeigt xi «.
P Gleichverteilung,
Dann sind (für jede Wahl von xi ) die Ereignisse (Ai )i∈{1,...,n} unabhängig, denn für
J ⊆ {1, . . . , n} gilt:
"
P
#
\
i∈J
Ai
6n−|J|
=
=
6n
|J|
1
6
=
Y
P[Ai ].
i∈J
Beispiel 2.2.3. Bernoulli Experiment (Beispiel 1.3.2).
Ω = {0, 1}n ,
Dann sind A1 , . . . , An unabhängig.
Ai = {ω ∈ Ω | ωi = 1}.
2.2 Unabhängigkeit von Ereignissen
17
Beispiel 2.2.4. In einer Urne sind s schwarze und w weiße Kugeln. Man zieht zweimal
eine Kugel. Die Ereignisse A = »1. Kugel ist weiß« und B = »2. Kugel ist weiß« sind
unabhängig, falls wir mit Zurücklegen ziehen, aber nicht unabhängig, falls nicht.
Beweis. Für den zweiten Fall:
w
w−1
P[A ∩ B] =
·
6=
s+w s+w−1
2
w
s+w
= P[A] · P[B].
Bemerkung 2.2.5. (a) Jede Teilfamilie einer Familie unabhängiger Ereignisse ist wieder unabhängig.
(b) Es ist wichtig, dass (2.2.1) für jedes J ⊆ I gilt. Falls (2.2.1) nur für J mit |J| = 2
gilt, so heißen die (Ai )i∈I paarweise unabhängig. Dies ist schwächer als die Unabhängigkeit.
Beispiel.
1
p : Ω → [0, 1], p(ω) = , ∀ω
4
Ω = {1, 2, 3, 4},
Die Mengen
A1 = {1, 2},
A2 = {2, 3},
A3 = {1, 3}
sind paarweise unabhängig, aber nicht unabhängig.
(c) Falls A unabhängig von sich selbst ist, d. h. A, A unabhängige Ereignisse, so gilt
P[A] ∈ {0, 1}.
Beweis.
P[A] = P[A ∩ A] = P[A]2
⇒
P[A] ∈ {0, 1}.
(d) Beim Werfen zweier Würfel sind die Ereignisse
A = »Augensumme ist 7«
und
B = »1. Würfel zeigt 6«
unabhängig, denn
P[A ∩ B] = P [(6, 1)] =
1
1 1
= · = P[A] · P[B].
36
6 6
Es stimmt also nicht, dass unabhängige Ereignisse »nichts miteinander zu tun haben«.
Lemma 2.2.6. Ereignisse A1 , . . . , An sind genau dann unabhängig, wenn für alle
k1 , . . . , kn ∈ {1, c} gilt:
"
#
P
n
\
i=1
Aki i
=
n
Y
i=1
h
i
P Aki i .
(2.2.2)
2.2 Unabhängigkeit von Ereignissen
18
Beweis. »⇒« Seien A1 , . . . , An unabhängig, wir zeigen (2.2.2) mit Induktion über n.
n = 2.
P[A1 ∩ A2 ] = P[A1 ] · P[A2 ]
P [A1 ∩ Ac2 ] = P[A1 ] − P[A1 ∩ A2 ]
= P[A1 ] (1 − P[A2 ])
= P[A1 ] · P [Ac2 ]
P [Ac1 ∩ Ac2 ] = 1 − (P[A1 ] + P[A2 ] − P[A1 ∩ A2 ])
= 1 − P[A1 ] − P[A2 ] + P[A1 ] · P[A2 ]
= (1 − P[A1 ]) (1 − P[A2 ])
= P [Ac1 ] · P [Ac2 ] .
n 7→ n + 1. Induktion über die Anzahl m der »c« unter k1 , . . . , kn .
m = 0. Folgt aus der Unabhängigkeit
m 7→ m + 1. Wir können annehmen, dass kn+1 = c.
P
"n+1
\
#
Aki i
=P
i=1
=P
" n
\
i=1
" n
\
#
Aki i
∩
Acn+1
#
Aki i − P
" n
\
P
" n
\
Aki i ∩ An+1 .
i=1
i=1
Es ist
#
#
Aki i
=
i=1
n
Y
h
P Aki i
i
i=1
nach Induktionsvoraussetzung (über n) und
P
" n
\
n
Y
#
Aki i
∩ An+1 =
i=1
h
P
Aki i
!
i
· P [An+1 ]
i=1
nach Induktionsvoraussetzung (über m). Also:
P
"n+1
\
#
Aki i
= (1 − P [An+1 ]) ·
|
i=1
{z
P[Acn+1 ]
}
n
Y
h
P
Aki i
!
i
.
i=1
»⇐« Es gelte (2.2.2) für alle k1 , . . . , kn ∈ {1, c}. Wir zeigen die Unabhängigkeit. Sei
{i1 , . . . , ik } ⊆ {1, . . . , n} und sei {j1 , . . . , jm } das Komplement von {i1 , . . . , ik } in
T
{1, . . . , n}. Dann lässt sich k`=1 Ai` als disjunkte Vereinigung schreiben:
k
\
`=1
Ai` =
[
k
\
k1 ,...,km ∈{1,c}
`=1
·
Ai` ∩
m
\
s=1
!
Akjss
2.3 Produkträume
19
Die Wahrscheinlichkeit der rechten Seite ist nach Voraussetzung und wegen der
Additivität von P
X
k
Y
P [Ai` ]
m
Y
h
i
P Akjss =
s=1
k1 ,...,km ∈{1,c} `=1
k
Y
P [Ai` ]
`=1
m
Y
h
i
P Akjss =
X
s=1 k1 ,...,km ∈{1,c}
|
{z
1
k
Y
P [Ai` ]
`=1
}
Bemerkung. Es reicht nicht den Fall {i1 , . . . , ik } = {1, . . . , n} bzw. {k1 , . . . , kn } = {1}
zu betrachten.
Beispiel. Seien A1 , A2 , A3 Ereignisse mit A1 = ∅, A2 = A3 , P[A2 ] = 12 , dann gilt
P[A1 ∩ A2 ∩ A3 ] = 0 = P[A1 ] · P[A2 ] · P[A3 ],
aber
P[A2 ∩ A3 ] = P[A2 ] =
1
1
6= = P[A2 ] · P[A3 ],
2
4
d. h. A1 , A2 , A3 sind nicht unabhängig.
Korollar 2.2.7. Ereignisse A1 , . . . , An sind genau dann unabhängig, wenn ihre Komplemente Ac1 , . . . , Acn unabhängig sind.
2.3 Produkträume
Wir betrachten n nacheinander und unabhängig voneinander ausgeführte Zufallsexperimente. Dann wird die Gesamtmenge der Experimente durch einen Produktraum beschrieben.
Definition 2.3.1. Es seien (Ω1 , p1 ), . . . , (Ωn , pn ) diskrete Wahrscheinlichkeitsräume.
Auf der Produktmenge
Ω = Ω1 × · · · × Ωn = {(ω1 , . . . , ωn ) | ωi ∈ Ωi }
definieren wir Gewichte
p : Ω → [0, 1],
(ω1 , . . . , ωn ) 7→
n
Y
pi (ωi ).
i=1
Dann ist (Ω, p) ein diskreter Wahrscheinlichkeitsraum und heißt Produktraum der Räume
N
(Ω1 , p1 ), . . . , (Ωn , pn ). Wir schreiben auch (Ω1 , p1 )⊗· · ·⊗(Ωn , pn ) oder ni=1 (Ωi , pi ). Falls
(Ω1 , p1 ) = · · · = (Ωn , pn ), so schreiben wir auch (Ω, p) = (Ω1 , p1 )⊗n .
Satz 2.3.2. Seien (Ω1 , p1 ), . . . , (Ωn , pn ) diskrete Wahrscheinlichkeitsräume und seien
A1 ⊆ Ω1 , . . . , An ⊆ Ωn Ereignisse in den jeweiligen Räumen. Dann sind die Ereignisse
(1)
(n)
A1 , . . . , An , definiert durch
(i)
Ai = {(ω1 , . . . , ωn ) | ωi ∈ Ai },
unabhängig im Produktraum (Ω, p) =
Nn
i=1 (Ωi , pi ).
2.3 Produkträume
20
Beispiel. Seien (Ω1 , p1 ) = . . . = (Ωn , pn ), wobei
Ω1 = {1, . . . , 6} und
pi (ωi ) =
1
für alle i ∈ {1, . . . , n} und alle ωi ∈ {1, . . . 6}.
6
Dann beschreibt (Ω, p) n Würfe eines fairen Würfels.
(1)
A1 = {2, 6} ⊆ Ω1 , A1 = {ω ∈ Ω | w1 ∈ {2, 6}} ,
(2)
A2 = {3} ⊆ Ω2 ,
A2 = {ω ∈ Ω | ω2 = 3}.
(1)
(2)
Dann sind A1 , A2 unabhängig bezüglich P, wobei P das von den Gewichten
p(ω) =
1
6n
für ω ∈ Ω
induzierte Wahrscheinlichkeitsmaß ist.
Beweis. Sei P das von den Gewichten p induzierte Wahrscheinlichkeitsmaß auf Ω. Zu
zeigen ist, dass für alle J = {j1 , . . . , jk } ⊆ {1, . . . , n} gilt:

P

\
(j)
Aj  =
Y
j∈J
h
(j)
P Aj
i
j∈J
Wir definieren:
(
Bi :=
i∈J
sonst
Ai
Ω
Dann gilt:


P
\
(j)
Aj  = P [{ω ∈ Ω|ωj ∈ Aj für alle j ∈ J}]
j∈J
X
=
p(ω)
ω:ωj ∈Aj für alle j∈J
X
=
p1 (ω1 ) · · · pn (ωn )
ω1 ,...,ωn :ωj ∈Aj für alle j∈J

=

X

p1 (ω1 ) · · · 
ω1 ∈B1
=
j∈J ωj ∈Aj
pj (ωj ) =
{z
=1 falls Bi =Ωi
Y

pi (ωi ) · · · 
ωi ∈Bi
|
Y X

X

X
pn (ωn )
ωn ∈B1
}
Pj [Aj ]
j∈J
wobei Pj die von den Gewichten pj induzierten Wahrscheinlichkeitsmaße auf Ωj sind.
Beachte, dass gilt:
(j)
Aj = Ω1 × · · · × Ωj−1 × Aj × Ωj+1 × · · · × Ωn
2.3 Produkträume
21
also
h
(j)
Pj [Aj ] = P Aj
Damit

P
i
.

\
j∈J
(j)
Aj  =
Y
j∈J
Pj [Aj ] =
Y
j∈J
h
(j)
P Aj
i
.
3 Zufallsvariablen, Erwartungswerte und
Varianzen
In diesem Kapitel erklären wir, was eine Zufallsvariable (Zufallsgröße) ist, definieren
Erwartungswert und Varianz und erläutern, was Unabhängigkeit von Zufallsvariablen
ist. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum.
3.1 Zufallsvariablen
Definition 3.1.1. Eine Abbildung X : Ω → R heißt (reellwertige) Zufallsvariable (Zufallsgröße).
Beispiel 3.1.2. Die Augensumme bei n Würfen eines fairen Würfels ist die auf Ω =
{1, 2, . . . , 6}n definierte Zufallsvariable
X : Ω → R,
(ω1 , . . . ωn ) 7→ ω1 + . . . ωn .
Beispiel 3.1.3. Die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge n:
Ω = {0, 1}n ,
X(ω) = |{i ∈ {1, . . . , n} | ωi = 1}| =
n
X
ωi
i=1
Definition 3.1.4. Sei X eine Zufallsvariable. Wir schreiben X(Ω) für die (höchstens
abzählbare) Menge
{X(ω) | ω ∈ Ω}.
Das Paar (X(Ω), µX ) mit µX (y) = P[X = y] ist ein diskreter Wahrscheinlichkeitsraum.
Das induzierte Wahrscheinlichkeitsmaß P ◦ X −1 , definiert durch:
P ◦ X −1 [A] =
X
µX (y)
y∈A
erfüllt
P ◦ X −1 [A] = P[X ∈ A] für alle A ⊆ X(Ω)
und heißt Verteilung von X. Wir können P ◦ X −1 [A] = P[X ∈ A] für jede Teilmenge von
R betrachten und meinen damit P ◦ X −1 [A ∩ X(Ω)].
Falls P ◦ X −1 die Binomialverteilung ist, sagen wir »X ist binomialverteilt«, falls
P ◦ X −1 die geometrische Verteiliung ist, sagen wir »X ist geometrisch verteilt«, etc.
3.2 Unabhängigkeit von Zufallsvariablen
23
Insbesondere ist also die Anzahl der Erfolge in einem Bernoulli-Experiment binomialverteilt, und die Wartezeit auf den ersten Erfolg in einem Bernoulli-Experiment ist
geometrisch verteilt, d. h.
P[T = k] = p(1 − p)k−1 .
»X ist Poisson-verteilt mit Parameter λ« heißt also
P[X = k] = e−λ
λk
k!
für alle k ∈ N0 ,
vergleiche Beispiel 1.3.5.
Beispiel 3.1.5. Für ein Ereignis A ⊆ Ω sei IA die durch
(
IA (ω) =
1,
0,
falls ω ∈ A,
falls ω ∈
/ A.
definierte Indikatorvariable (oder Indikatorfunktion) von A. Es ist IA Zufallsvariable mit
Werten in {0, 1} und P[IA = 1] = P[A].
Beispiel 3.1.6. Ω = {0, 1}n , ω = (ω1 , . . . , ωn ), Xi (ω) = ωi für alle i ∈ {1, . . . , n}. Also
gilt
Xi (ωi ) = IAi , Ai = {ωi = 1},
d. h. X1 , . . . , Xn sind Indikatorvariablen von unabhängigen Ereignissen.
3.2 Unabhängigkeit von Zufallsvariablen
Definition 3.2.1. Sei (Xi )i∈I eine Familie von Zufallsvariablen, wobei I beliebige Indexmenge ist. Wir sagen, die Familie (Xi )i∈I ist unabhängig, falls für jede Familie (Bi )i∈I
von reellen Mengen (Bi ⊆ R für alle i ∈ I) die Familie ({Xi ∈ Bi })i∈I unabhängig ist.
Lemma 3.2.2. Zufallsvariablen X1 , . . . , Xn sind genau dann unabhängig, wenn für alle
x1 ∈ X1 (Ω), . . . , xn ∈ Xn (Ω) gilt
P[X1 = x1 , . . . , Xn = xn ] =
n
Y
P[Xi = xi ].
i=1
Beweis. »⇒« folgt aus Definition 3.2.1 Bi = {xi }.
»⇐« Seien B1 , . . . , Bn ⊆ R, J = {1, . . . , n}, J 6= ∅. Wir zeigen (2.2.1) für die Ereignisse
{Xi ∈ Bi }, i ∈ J. Nehmen an Bi ∈ Xi (Ω). Sei
(
Ci =
Bi ,
falls i ∈ J,
Xi (Ω), falls i ∈
/ J.
3.2 Unabhängigkeit von Zufallsvariablen
24
Also
"
P
#
\
"
#
\
{Xi ∈ Bi } = P
i∈J
{Xi ∈ Ci }
i∈J


 [
\
= P


xi ∈Ci , i∈J
i∈J
{Xi = xi }

"
=
X
#
\
P
xi ∈Ci ,
i∈J
{Xi = xi }
i∈J
Korollar. Ereignisse A1 , . . . , An sind genau dann unabhängig, wenn ihre Indikatorvariablen IA1 , . . . , IAn unabhängig sind.
Wir sehen nun, dass die Bernoulli-Zufallsvariablen in Beispiel 3.1.6 unabhängig sind.
Für unabhängige Zufallsvariablen lassen sich viele Wahrscheinlichkeiten explizit ausrechnen.
Beispiel 3.2.3. X und Y seien unabhängig und beide geometrisch verteilt mit Parameter p, d.h. wir haben
P[X = k] = P[Y = k] = p(1 − p)k−1 ,
für alle k ∈ N.
und
P[X = k, Y = `] = P[X = k]P[Y = `],
k, ` ∈ N.
Wir wollen P[X > Y ] berechnen. {X > Y } ist die disjunkte Vereinigung der Ereignisse
{Y = k, X > k} mit k ∈ N. Also gilt wegen Unabhängigkeit:
P[X > Y ] =
X
k∈N
=
X
k∈N
=
P[Y = k, X > k] =
X
P[Y = k]P[X > k]
k∈N
p(1 − p)k−1 (1 − p)k =
k
p X
(1 − p)2
1 − p k∈N
p
(1 − p)2
p(1 − p)
1−p
·
=
=
2
2
1 − p 1 − (1 − p)
2p − p
2−p
Entsprechend gilt
P[X = Y ] = 1 − 2P[X > Y ] =
p
.
2−p
(3.1)
Wie bei Unabhängigkeit von Ereignissen gibt einen Zusammenhang zwischen Unabhängigkeit von Zufallsvariablen und Produkträumen. Die Unabhängigkeit von Zufallsvariablen lässt sich mit der gemeinsamen Verteilung charakterisieren.
3.3 Erwartungswerte
25
Definition 3.2.4. X1 , . . . , Xn seien Zufallsvariablen. Die gemeinsame Verteilung ist die
Verteilung des Zufallsvektors X = (X1 , . . . , Xn ). Diese ist, analog zu Definition 3.1.4,
das Wahrscheinlichkeitsmaß P ◦ X −1 , das durch die Gewichte µX induziert wird, wobei
µX auf der Bildmenge X(Ω) = {(X1 (ω), . . . , Xn (ω)) | ω ∈ Ω} definiert durch
µX (x1 , . . . , xn ) = P[X = (x1 , . . . , xn )] = P[X1 = x1 , . . . , Xn = xn ].
Die Verteilung der einzelnen Zufallsvariablen Xi erhält man, indem man die i-te Randverteilung (oder Marginalverteilung) von µX bildet, die gegeben ist durch
X
µXi (xi ) = P[Xi = xi ] =
µX (x1 , . . . , xn )
x1 ,...,xi−1 ,
xi+1 ,...,xn
Lemma 3.2.5. Seien X1 , . . . , Xn Zufallsvariablen. Dann sind X1 , . . . , Xn genau dann
unabhängig, wenn die Verteilung von X gleich dem Produkt der Verteilungen von X1 ,
. . . , Xn ist, d. h.
(Ω, µX ) =
n
O
(Ωi , µXi )
i=1
Beweis. Folgt aus Lemma 3.2.2.
In der Situation von Lemma 3.2.5 sagt man auch, der Zufallsvektor X hat unabhängige
Komponenten X1 , . . . , Xn .
Beispiel 3.2.6. Polyas Urne
In einer Urne liegen zunächst eine weisse und eine schwarze Kugel. Bei jedem Zug wird
eine Kugel zufällig gezogen und zwei Kugeln der gezogenene Farbe werden in die Urne
zurückgelegt. Ai = {i − te gezogene Kugel ist weiss}, Xi = IAi , i = 1, 2, . . . n. Dann
gilt P[Xi = 1] = P[Xi = 0] = 21 , ∀i, wegen Symmetrie. X1 , . . . , Xn sind jedoch nicht
unabhängig, denn
n
Y
123
n
1
P[Xi = 1] =
P[X1 = 1, X2 = 1, . . . , Xn = 1] =
···
=
6
=
234
n+1
n + 1 i=1
n
1
2
.
(3.2)
Es gilt
P[X1 = x1 , . . . , Xn = xn ] =
sn !(n − sn )!
(n + 1)!
(3.3)
wobei sn = ni=1 xi . Die Wahrscheinlichkeit des Tupels (x1 , . . . , xn ) hängt also nur von
der Summe sn ab! Man beweist (3.3) mit Induktion über n.
P
3.3 Erwartungswerte
Eine zentrale Kenngröße von Zufallsvariablen ist der Erwartungswert.
3.3 Erwartungswerte
26
Definition 3.3.1. Eine Zufallsvariable
X:Ω→R
besitzt einen endlichen Erwartungswert, falls
X
|X(ω)| p(ω) < ∞
ω∈Ω
gilt. In diesem Fall schreiben wir X ∈ L1 (P) (oder kurz X ∈ L1 ) und definieren den
Erwartungswert von X als die reelle Zahl
X
E[X] :=
X(ω)p(ω)
ω∈Ω
Falls X ≥ 0 gilt (oder, allgemeiner, X nach unten beschränkt ist) so können wir E[X]
in jedem Fall definieren durch
(P
E[X] :=
ω∈Ω X(ω)p(ω),
+∞,
falls diese Summe endlich ist,
sonst.
P
Die Forderung der absoluten Konvergenz der Reihe ω∈Ω X(ω)p(ω) sichert, dass der
Wert dieser Reihe nicht von der Summationsreihenfolge abhängt.
Lemma 3.3.2. a) Für eine Zufallsvariable X gilt X ∈ L1 genau dann, wenn
X
|x| P[X = x] < ∞.
x∈X(Ω)
In diesem Fall gilt:
E[X] =
X
x · P[X = x]
x∈X(Ω)
b) Für zwei Zufallsvariablen X, Y ∈ L1 mit X ≤ Y gilt:
E[X] ≤ E[Y ]
(Monotonie des Erwartungswertes).
c) Für zwei Zufallsvariablen X, Y ∈ L1 und a, b ∈ R gilt auch
aX + bY ∈ L1
und ferner
E[aX + bY ] = aE[X] + bE[Y ]
(Linearität des Erwartungswertes).
3.3 Erwartungswerte
27
d) Für zwei unabhängige Zufallsvariablen X, Y ∈ L1 gilt auch
X · Y ∈ L1
und ferner
E[X · Y ] = E[X] · E[Y ]
(Produktregel bei Unabhängigkeit).
Beweis. a) Es gilt:
X
X
|x| P[X = x] =
x∈X(Ω)
X
|x|
x∈X(Ω)
X
=
p(ω)
ω∈{ω∈Ω|X(ω)=x}
X
p(ω) |X(ω)|
x∈X(Ω) ω∈{ω∈Ω|X(ω)=x}
=
X
p(ω) |X(ω)| .
ω∈Ω
Ebenso gilt:
X
x · P[X = x] =
X
p(ω)X(ω) = E[X].
ω∈Ω
x∈X(Ω)
b) und c) folgen unmittelbar aus der Definition des Erwartungswertes.
d) Wir zerlegen gemäß den Werten von X:
X
|z| · P[X · Y = z] =
z∈X·Y (Ω)
z6=0
X
X
|z| P[X · Y = z, X = x]
z∈X·Y (Ω) x∈X(Ω)
z6=0
z
=
|z| P X = x, Y =
|{z}
x
z∈X·Y (Ω),z6=0
X
x∈X(Ω),x6=0
=
X
:=x·y
|x| · |y| P[X = x, Y = y]
|
x∈X(Ω)
y∈Y (Ω)
X,Y unabh.
=
X
{z
=P[X=x]·P[Y =y]
|x| P[X = x] ·
x∈X(Ω)
}
X
|y| P[Y = y].
y∈Y (Ω)
Damit folgt, dass X ·Y ∈ L1 genau dann, wenn X ∈ L1 , Y ∈ L1 gilt und die Gleichung
E[X · Y ] = E[X] · E[Y ]
folgt aus derselben Rechnung ohne Betragsstriche.
Beispiel 3.3.3. Die Zufallsvariable X habe Werte in Z \ {0} mit P[X = k] = k14 ,
k ∈ Z \ {0}. Dann gilt E[X] = 0 wegen Symmetrie. Die Zufallsvariable Y habe Werte in
N mit P[X = k] = k12 , k ∈ N. Dann gilt E[Y ] = +∞.
3.3 Erwartungswerte
28
Zur Berechnung des Erwartungswertes ist folgendes Lemma sehr nützlich.
Lemma 3.3.4. Seien X1 , . . . , Xn Zufallsvariablen und sei
g : X1 (Ω) × · · · × Xn (Ω) → R
eine Abbildung. Dann ist die Zufallsvariable
Y := g(X1 , . . . , Xn ) = g ◦ (X1 , . . . , Xn )
in L1 genau dann, wenn
X
X
···
x1 ∈X1 (Ω)
|g(x1 , . . . , xn )| P[X1 = x1 , . . . , Xn = xn ] < ∞
xn ∈Xn (Ω)
und in diesem Fall gilt:
E[Y ] =
X
X
···
x1 ∈X1 (Ω)
g(x1 , . . . , xn ) · P[X1 = x1 , . . . , Xn = xn ].
xn ∈Xn (Ω)
Beweis. Wir betrachten den diskreten Wahrscheinlichkeitsraum (Ω0 , p0 ) mit
Ω0 := X1 (Ω) × · · · × Xn (Ω)
und
p(x1 , . . . , xn ) := P[X1 = x1 , . . . , Xn = xn ]
Dann ist die Verteilung der Zufallsvariablen g : Ω0 → R identisch mit der Verteilung der
Zufallsvariablen Y : Ω → R. Also folgt die Aussage aus Lemma 3.3.2 a).
Beispiel 3.3.5. Sei A ein Ereignis. Dann gilt E[IA ] = P[A] denn per Definition gilt:
E[IA ] =
X
X
p(ω)IA (ω) =
p(ω) = P[A]
ω∈A
ω∈Ω
Beispiel 3.3.6. Sei X binomialverteilt mit Parametern n und p, d. h.
!
n k
p (1 − p)n−k
k
P[X = k] =
für alle k ∈ {0, . . . , n}.
Dann gilt:
n
X
n
X
!
n k
E[X] =
k · P[X = k] =
k
p (1 − p)n−k .
k
k=0
k=0
Für eine einfachere Berechnung definieren wir Ω := {0, 1}n , P := Bernoulli-Verteilung
der Länge n mit Parameter p.
Xk := IAk
mit Ak := {ω ∈ Ω | ωk = 1}, k ∈ {1, . . . , n}.
3.3 Erwartungswerte
Dann ist X =
Pn
29
k=1 Xk
binomialverteilt mit Parametern n und p. Wir haben
für alle k ∈ {1, . . . , n}.
E[Xk ] = P[Ak ] = p
Mit der Linearität des Erwartungswertes folgt dann
E[X] = E
" n
X
#
Xk =
k=1
Beispielsweise gilt E[X] =
n
2
n
X
E[Xk ] = np.
k=1
für p = 12 .
Beispiel 3.3.7. X sei hypergeometrisch verteilt mit Parametern N, K, n, d.h. X ist die
Anzahl der markierten Fische in der Stichprobe, wenn man aus N Fischen, von denen
K markiert sind, n ohne Zurücklegen zieht (wir nehmen n ≤ K ≤ N an). Dann gilt

E[X] = E 
n
X

I{j−ter Fisch ist markiert}  =
j=1
n
X
P[j−ter Fisch ist markiert] =
j=1
n
X
K
N
j=1
=n
K
.
N
Beispiel 3.3.8. X sei geometrisch verteilt mit Parameter p ∈ (0, 1), d. h.
P[X = k] = p(1 − p)k−1
für alle k ∈ N.
Dann gilt
E[X] =
∞
X
k · P[X = k] =
k=1
∞
X
=p
∞
X
kp(1 − p)k−1
k=1
−
k=1
∂ h
∂p
i (∗)
(1 − p)k = −p
∞
∂ X
(1 − p)k
∂p k=1
∂ 1
1
= −p
− 1 = (−p) · − 2
∂p p
p
=
1
,
p
wobei (*) gilt, da sich Potenzreihen im Inneren des Konvergenzbereichs gliedweise differenzieren lassen.
Beispiel 3.3.9. X sei Poisson-verteilt mit Parameter λ > 0, d. h.
P[X = k] = e−λ
Dann gilt:
E[X] =
∞
X
k=0
ke−λ
λk
k!
für alle k ∈ N0 .
∞
X
λk−1
λk
= λe−λ
= λ.
k!
(k − 1)!
k=1
|
{z
eλ
}
3.4 Varianzen
30
Beispiel 3.3.10. Petersburger Paradoxon (Daniel Bernoulli 1738) Zu einem festem Eintrittspreis c wird eine faire Münze solange geworfen, bis zum ersten Mal Zahl kommt.
Danach wird ein Gewinn von G := 2T −1 ausgezahlt, wobei T die Wartezeit auf die erste Zahl ist. Welchen Geldbetrag würde man für die Teilnahme bezahlen wollen? T ist
geometrisch verteilt mit Parameter 12 , d. h.
P[T = k] =
Es gilt also:
E[G] =
∞
X
2k−1
k
1
k
k=1
1
2
.
2
=
∞
X
1
k=1
2
= ∞.
Dies widerspricht der Anschauung. Dieser Widerspruch lässt sich auflösen, wenn man
von einem Maximalgewinn ausgeht. Wir betrachten also
GK := min{G, K}
Das führt auf eine maximale Spiellänge von N = 1 + blog2 (K)c Damit gilt
E[GK ] =
N
X
2
k−1
k
1
k=1
2
+K
k
∞
X
1
k=N +1
2
1
= N + K · 2−N
2
Das liefert folgende Tabelle:
K
100 ¤
100 Millionen ¤
54 Billionen ¤
N
7
27
46
E[GK ]
≈ 4.28 ¤
≈ 14.25 ¤
≈ 23.76 ¤
Lemma 3.3.11. Sei X eine Zufallsvariable mit Werten in N0 . Dann gilt:
E[X] =
∞
X
P[X > k] =
k=0
∞
X
P[X ≥ k].
k=1
Beweis. siehe Übungen
3.4 Varianzen
Eine weiter Kenngröße der Verteilung einer Zufallsvariablen ist die Varianz. Sie gibt an,
wie stark die Zufallsvariable im Mittel von ihrem Erwartungswert abweicht.
Definition 3.4.1. Sei X eine Zufallsvariable und E[X] existiere. Dann ist die Varianz
von X definiert durch
h
i
Var(X) := E (X − E[X])2 ∈ [0, ∞].
3.4 Varianzen
31
Wir sagen, X hat endliche Varianz, falls Var(X) < ∞. Aus Lemma 3.3.4 folgt:
Var(X) =
X
(x − E[X])2 P[X = x].
(3.4.1)
x
Beispiel 3.4.2. Sei X gleichverteilt auf {x1 , . . . , xn }, d. h.
P[X = xi ] =
Dann gilt:
E[X] =
n
1X
xi = x
n i=1
1
n
für alle i ∈ {1, . . . , n}.
und
Var(X) =
n
1X
(xi − x)2 ,
n i=1
d. h. E[X] = x ist das arithmetische Mittel und Var(X) ist die mittlere quadratische
Abweichung davon.
Beispiel 3.4.3. Sei A ein Ereignis und p = P[A]. Dann ist X = IA eine BernoulliVariable mit Parameter p, d. h.
P[X = 1] = p = 1 − P[X = 0].
Also ist E[X] = p und
Var[X] = (0 − p)2 P[X = 0] + (1 − p)2 P[X = 1]
= (0 − p)2 (1 − p) + (1 − p)2 p = p(1 − p).
Lemma 3.4.4. Seien X, Y ∈ L1 Zufallsvariablen.
a) Die Varianz von X ist endlich genau wenn E[X 2 ] < ∞. In diesem Fall schreiben wir
X ∈ L2 und es gilt:
Var(X) = E[X 2 ] − E[X]2 .
b) Seien a, b ∈ R. Falls die Varianz von X endlich ist, dann ist die Varianz von aX + b
endlich, und es gilt:
Var(aX + b) = a2 Var(X).
c) Falls X und Y unabhängig sind mit endlichen Varianzen, so hat auch X +Y endliche
Varianz, und es gilt:
Var(X + Y ) = Var(X) + Var(Y ).
d) Falls Var(X) = 0, so gibt es ein c ∈ R mit P[X = c] = 1.
Beweis. a) Die erste Aussage folgt wegen
(x − E[X])2 P[X = x] = x2 P[X = x] − 2xE[X]P[X = x] + E[X]2 P[X = x]
(denn wir haben vorausgesetzt, dass
X
x
P
x xP[X
(x − E[X])2 P[X = x] < ∞
= x] absolut konvergiert), also
⇔
X
x
x2 P[X = x] < ∞.
3.4 Varianzen
32
Falls E[X 2 ] < ∞, gilt:
i
h
h
Var(X) = E (X − E[X])2 = E X 2 − 2XE[X] + E[X]2
i
= E[X 2 ] − 2E[X]2 + E[X 2 ] = E[X 2 ] − E[X]2 .
Insbesondere gilt E[X 2 ] ≥ E[X]2 .
b) Es gilt:
i
h
Var(aX + b) = E (aX + b)2 − E[aX + b]2
|
{z
}
(aE[X]+b)2
h
i
= E a2 X 2 + 2abX + b2 − a2 E[X]2 − 2abE[X] − b2
= a2 Var(X)
c) Es gilt:
h
i
Var(X + Y ) = E (X + Y )2 − E[X + Y ]2
h
i
= E X 2 + 2XY + Y 2 − (E[X] + E[Y ])2
= E[X 2 ] + 2
+E[Y 2 ] − E[X]2 − 2E[X]E[Y ] − E[Y ]2
E[XY ]
| {z }
=E[X]E[Y ] Lemma 3.3.2
= Var(X) + Var(Y ).
d) Folgt aus (3.4.1):
Var(X) =
X
(x − E[X])2 P[X = x].
x
Falls Var(X) = 0, so gilt für jedes x ∈ R entweder
x = E[X] = c oder P[X = x] = 0,
also P[X = c] = 1 mit c = E[X].
Beispiel 3.4.5. Sei T geometrisch verteilt mit p. Dann gilt E[T ] = p1 , siehe früher.
E[T (T − 1)] =
∞
X
k(k − 1) p(1 − p)k−1
|
k=1
= p(1 − p)
∞
X
{z
P [T =k]
}
k(k − 1)(1 − p)k−2 =
k=1
|
{z
∂2 1
= 23
∂p2 p
p
}
2(1 − p)
.
p2
3.5 Kovarianzen
33
Also
E[T 2 ] = E[T (T − 1)] + E[T ] =
2(1 − p) 1
2−p
+ .=
.
p2
p
p2
Damit
Var(T ) = E[T 2 ] − E[T ]2 =
1−p
.
p2
Lemma 3.4.6. Für jede Zufallsvariable X ∈ L2 gilt die Abschätzung
h
i
E (X − a)2 ≥ Var(X)
für alle a ∈ R,
wobei Gleichheit genau dann vorliegt, wenn a = E[X].
Beweis. Übung.
Definition 3.4.7. Sei X Zufallsvariable mit endlicher Varianz. Die Standardabweichung
σ(X) ist definiert als
q
σ(x) =
Var(X).
Bemerkung. Sei X Zufallsvariable mit endlicher Varianz und
X ∗ :=
X − E[X]
.
σ(x)
Dann gilt E[X ∗ ] = 0, Var(X ∗ ) = 1.
Beweis. Einfach.
3.5 Kovarianzen
Die Kovarianz ist eine Kenngröße der gemeinsamen Verteilung zweier Zufallsvariablen.
Definition 3.5.1. Seien X, Y Zufallsvariablen mit endlichen Varianzen. Die Kovarianz
von X und Y ist die Zahl
Cov(X, Y ) = E[XY ] − E[X]E[Y ].
X und Y heißen unkorreliert, falls Cov(X, Y ) = 0.
Die Kovarianz ist wohldefiniert, denn der Erwartungswert von XY existiert wegen
2 |XY | ≤ X 2 + Y 2 und Lemma 3.4.4 a).
Lemma 3.5.2. a) Seien X, Y Zufallsvariablen mit endlichen Varianzen. Dann gelten
die folgenden Beziehungen:
(i) Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])],
(ii) Cov(X, X) = Var(X),
(iii) Cov(X, Y ) = Cov(Y, X),
3.5 Kovarianzen
34
(iv) Cov(aX, bY ) = ab Cov(X, Y ) für alle a, b ∈ R,
(v) Cov(X + c, Y ) = Cov(X, Y ) für alle c ∈ R.
b) Für n Zufallsvariablen X1 , . . . , Xn gilt:
Var
n
X
!
Xi
=
i=1
n
X
Var(Xi ) +
i=1
n
X
Cov(Xi , Xj )
i,j=1
i6=j
c) Falls X, Y unabhängig mit endlichen Varianzen, so sind X und Y unkorreliert.
Beweis. a) Nachrechnen.
b) Es gilt:
Var(X1 + X2 ) = E[(X1 + X2 )2 ] − E[X1 + X2 ]2
= E[X12 ] + 2E[X1 X2 ] + E[X22 ] − E[X12 ] − 2E[X1 ]E[X2 ] − E[X2 ]2
= Var(X1 ) + Var(X2 ) + 2 Cov(X1 , X2 ).
Dann: Induktion über n.
c) folgt aus Lemma 3.3.2 (d) (E[XY ] = E[X]E[Y ], falls X, Y ∈ L2 , X, Y unabhängig.)
Bemerkung. Die Umkehrung von c) gilt im Allgemeinen nicht, unkorrelierte Zufallsvariablen sind nicht immer unabhängig.
Beispiel. Sei X gleichverteilt auf {−1, 0, 1}, d. h.
1
P[X = −1] = P[X = 0] = P[X = 1] = ,
3
Y = |X|. Dann sind X und Y unkorreliert:
E[XY ] = E[X |X|] =
1
1
1
· (−1) + · 0 + · 1 = 0.
3
3
3
Aber:
P[X = −1, Y = 0] = 0 6=
1
= P[X = −1]P[Y = 0],
9
d. h. X und Y sind nicht unabhängig.
Korollar 3.5.3. Seien X1 , . . . , Xn ∈ L2 paarweise unkorreliert (d. h. Cov(Xi , Xj ) = 0
für i 6= j). Dann gilt:
!
n
n
Var
X
i=1
Xi
=
X
Var(Xi ).
i=1
Beweis. Folgt direkt aus Lemma 3.5.2 b) wegen Cov(Xi , Xj ) = 0 für unkorrelierte
Xi , Xj .
3.5 Kovarianzen
35
Beispiel 3.5.4. X sei binomialverteilt mit Parametern n, p. Dann gilt
X=
n
X
X1 , . . . , Xn unabhängig mit P[Xi = 0] = 1 − p = 1 − P[Xi = 1],
Xi , wobei
i=1
also
Var(X) =
n
X
Var(Xi ) = np(1 − p).
i=1
Damit folgt:
E[X 2 ] = Var(X) + E[X]2 = np(1 − p) + n2 p2 = np + n(n − 1)p2 .
Beispiel 3.5.5. X sei hypergeometrisch verteilt mit Parametern N, K, n,
X=
n
X
I{i-ter Fisch ist markiert} =
i=1
{z
|
}
Ai
n
X
Xi ,
Xi = IAi .
i=1
Also
Var(X) =
n
X
Var(Xi ) + 2
i=1
=
n
X
X
Cov(Xi , Xj )
i,j=1
i6=j
P[Ai ](1 − P[Ai ]) + 2
X
P[Ai ∩ Aj ] − P[Ai ]P[Aj ],
i,j=1
i6=j
i=1
aber
P[Ai ] =
K
,
N
P[Ai ∩ Aj ] =
K(K − 1)
N (N − 1)
(überprüfen!).
Also
K N −K
K K −1
Var(X) = n
+ n(n − 1)
−
N N
N N −1
K
K
n−1
= ··· = n
1−
1−
.
N
N
N −1
K
N
2 !
Die folgende Minimaleigenschaft der Kovarianz wird benutzt, wenn man eine (schwer
zugängliche) Zufallsvariable mithilfe einer linearen Funktion einer (einfacher zugänglichen) Zufallsvariablen annähern möchte.
Lemma 3.5.6. Seien X, Y ∈ L2 mit Var(X) = 1. Dann wird die quadratische Abweichung
E[(Y − a − bX)2 ]
zwischen Y und der linearen Funktion a + bX minimiert für
b = Cov(X, Y )
und
a = E[Y − bX].
Falls insbesondere X und Y unkorreliert sind, so hängt die Lösung b = 0 und a = E[Y ]
nicht von X ab.
3.5 Kovarianzen
36
Beweis. Wir setzen
g(a, b) = E[(Y − a − bX)2 ]
= E[Y 2 ] + a2 + b2 E[X 2 ] − 2aE[Y ] − 2bE[XY ] + 2abE[X].
Dann ist g Polynom zweiter Ordnung in a, b und g(a, b) → ∞, also nimmt g sein Minimum an der Nullstelle seines Gradienten an, was auf obige Gleichungen führt.
Satz 3.5.7 (Cauchy-Schwarz-Ungleichung). Seien X, Y ∈ L2 Zufallsvariablen. Dann
gilt:
q
E[XY ] ≤ E[X 2 ]E[Y 2 ].
Dabei gilt Gleichheit genau dann, wenn es a, b ∈ R gibt mit (a, b) 6= (0, 0), sodass
P [aX + bY = 0] = 1,
d. h. wenn X und Y konstante Vielfache voneinander sind.
Beweis. Wir setzen α = E[Y 2 ] und β = E[XY ]. Können α > 0 annehmen, denn sonst
wäre P [Y = 0] = 1, also E[XY ] = 0 und die Ungleichung stimmt. Dann gilt
0 ≤ E[(αX − βY )2 ]
= α2 E[X 2 ] − 2αβE[XY ] + β 2 E[Y 2 ]
= α(E[X 2 ]E[Y 2 ] − E[XY ]2 ).
Da α > 0, folgt die behauptete Ungleichung.
Falls Gleichheit gilt, so ist E[(αX − βY )2 ] = 0, also folgt P [αX − βY = 0] = 1.
Falls α > 0, so können wir a = α und b = β wählen.
Falls α = 0, so können wir a = 0 und b = 1 nehmen.
Definition 3.5.8. X und Y heißen positiv korreliert, falls Cov(X, Y ) > 0 und negativ
korreliert, falls Cov(X, Y ) < 0.
4 Summen unabhängiger
Zufallsvariablen
Wir untersuchen die Verteilung von Summen unabhängiger Zufallsvariablen. Ein wichtiges Hilfsmittel sind erzeugende Funktionen. Außerdem stellen wir eines der grundlegenden Modelle der Stochastik vor, die sogenannte eindimensionale Irrfahrt.
4.1 Faltungen
Wenn X und Y unabhängige Zufallsvariablen sind, was ist dann die Verteilung der
Summe X + Y ? In diesem Abschnitt betrachten wir nur Zufallsvariablen mit Werten in
Z.
Definition 4.1.1. Die Faltung zweier absolut summierbarer Folgen a = (ax )x∈Z und
b = (by )y∈Z ist die Folge c = (cz )z∈Z , die gegeben ist durch
cz =
X
ax bz−x .
x∈Z
Wir schreiben c = a ∗ b. Man sieht leicht, dass a ∗ b = b ∗ a und dass (a ∗ b)z∈Z eine
absolut summierbare Folge ist, falls a und b dies sind.
Satz 4.1.2. Seien X und Y unabhängige Zufallsvariablen mit Verteilungen gegeben
durch die Gewichte pX und pY , d. h.
pX (x) = P[X = x] und pY (x) = P[Y = x]
für alle x, y ∈ Z
Dann ist die Verteilung von X + Y gegeben durch die Gewichte pX ∗ pY , d. h.
P[X + Y = z] = (pX ∗ pY )(z)
für alle z ∈ Z
Beweis. Siehe Übungen.
Beispiel 4.1.3. Sei X binomialverteilt mit Parametern n1 und p und sei Y binomialverteilt mit Parametern n2 und p, X und Y unabhängig. Dann ist X +Y binomialverteilt mit
Parametern n1 + n2 und p. Man sagt auch, für festes p bilden die Binomialverteilungen
mit Parametern n und p, n ∈ N eine Faltungshalbgruppe d. h.
Binn1 ,p ∗ Binn2 ,p = Binn1 +n2 ,p .
4.2 Erzeugende Funktion
38
Beweis. Wir definieren Binn,p (z) = 0 für z ∈
/ {0, 1, . . . , n}. Sei ` ∈ {0, 1, . . . , n1 + n2 },
dann gilt:
(Binn1 ,p ∗ Binn2 ,p )(`) =
X
Binn1 ,p (k) · Binn2 ,p (` − k)
k∈Z
min{n1 ,`}
=
!
!
n1 k
n2
p (1 − p)n1 −k
p`−k (1 − p)n2 −`+k
k
`−k
X
k=max{0,`−n2 }
min{n1 ,`}
=
n1 n2 k `−k
Binn1 +n2 ,p (`)
n1 +n2 `
k=max{0,`−n2 }
X
|
{z
=1 (Übung)
.
}
Beispiel 4.1.4. Die Poisson-Verteilungen bilden ebenfalls deine Faltungshalbgruppe:
Poiλ1 ∗ Poiλ2 = Poiλ1 +λ2 .
Beweis. Siehe Übungen.
4.2 Erzeugende Funktion
Definition 4.2.1. Sei X eine Zufallsvariable mit Werten in N0 . Dann heißt die durch
ϕX (t) =
∞
X
P[X = k]tk
k=0
definierte Potenzreihe die erzeugende Funktion von X.
Bemerkung 4.2.2. (a) Allgemein heißt für eine Folge (ak )k∈N0 die Potenzreihe
ϕ(t) =
∞
X
ak tk
k=0
die erzeugende Funktion von a. In unserem Fall, mit ak = P[X = k] ist wegen
P
ϕX (1) = ∞
k=0 ak = 1 gesichert, dass der Konvergenzradius von ϕX nicht verschwindet.
(b) Die erzeugende Funktion ϕX hängt nur von der Verteilung von X ab und legt diese
eindeutig fest:
ϕX (0) = P[X = 0]
∂`
∞
X
ϕX (t)
=
k · (k − 1) · . . . · (k − ` + 1) · P[X = k] · tk−` ∂t`
t=0
t=0
k=`
= `! · P[X = `]
für alle ` ∈ N,
4.2 Erzeugende Funktion
39
d. h. man kann die Verteilung von X aus ϕX rekonstruieren. Insbesondere
µX = µY ⇔ ϕX = ϕY
für N0 -wertige Zufallsvariablen X und Y .
(c) ϕX (t) = E[tX ] für |t| ≤ 1.
Beispiel 4.2.3. Sei X binomialverteilt mit Parametern n und p. Dann ist
ϕX (t) =
n
X
!
k=0 |
n k
p (1 − p)n−k tk = (1 − p + pt)n
k
{z
}
P[X=k]
Beispiel 4.2.4. Sei X Poisson-verteilt mit Parameter λ. Dann gilt:
ϕX (t) =
∞
X
e−λ
k=0
λk k
t = e−λ eλt = eλ(t−1)
k!
Satz 4.2.5. Seien X und Y unabhängige Zufallsvariablen mit Werten in N0 . Dann gilt
ϕX+Y (t) = ϕX (t) · ϕY (t)
für |t| ≤ 1.
Beweis. Sei t mit |t| < 1. Dann gilt:
ϕX+Y (t) = E[tX+Y ]
tX ,tY unabh.
=
E[tX ]E[tY ] = ϕX (t) · ϕY (t).
Bemerkung. Satz 4.2.5 folgt auch aus dem Faltungssatz, da ϕX (t) · ϕY (t) wieder eine
Potenzreihen ist, deren Koeffizientenfolge die Faltung der Koeffizienten von ϕX (t) und
ϕY (t) ist. Genauer:
ϕX (t)ϕY (t) =
=
=
∞
X
pX (k) · tk ·
k=0
∞
X
∞
X
pY (k) · tk
k=0
(pX + pY )(k) · tk
k=0
∞
X
pX+Y (k)tk = ϕX+Y (t)
k=0
Beispiel 4.2.6 (vergleiche Beispiel 4.1.3). Seien X und Y unabhängig, sei X binomialverteilt mit n1 , p und sei Y binomialverteilt mit n2 , p. Dann gilt:
ϕX+Y (t) = (1 − p + pt)n1 · (1 − p + pt)n2 = (1 − p + pt)n1 +n2 .
Also ist X + Y binomialverteilt mit Parametern n1 + n2 , p.
4.2 Erzeugende Funktion
40
Da die erzeugende Funktion die Verteilung festlegt, ist es klar, dass beispielsweise
Erwartungswert und Varianz mit der erzeugenden Funktion ausgedrückt werden können.
Satz 4.2.7. Sei X Zufallsvariable mit Werten in N0 und erzeugender Funktion ϕ(t).
Dann sind äquivalent:
(i) E[X(X − 1) · . . . · (X − m + 1)] existiert und ist endlich.
∂m
m ϕ(t)
t%1 ∂t
(ii) ϕ(m) (1− ) := lim
existiert und ist endlich. In diesem Fall gilt:
E[X(X − 1) · . . . · (X − m + 1)] = ϕ(m) (1− ).
|
{z
m-tes faktorielles Moment
}
Insbesondere E[X] = ϕ0X (1− ).
Beweis. Es gilt:
(i)
∞
X
⇔
⇔
k(k − 1) . . . (k − m + 1)P[X = k] < ∞
k=0
∞
X
∂m
ϕ(t) =
k(k − 1) . . . (k − m + 1)P[X = k]tk−m
∂tm
k=0
konvergiert im Randpunkt t = 1
⇔
(ii) nach Satz von Abel.
Mit Satz 4.2.7 können wir aus der erzeugenden Funktion von X die Momente von X
berechnen:
E[X] = ϕ0 (1− ),
E[X 2 ] = E[X(X − 1)] + E[X] = ϕ00 (1− ) + ϕ0 (1− ),
usw.
Insbesondere Var(X) = ϕ00 (1− ) + ϕ0 (1− ) − ϕ0 (1− )2 .
Beispiel 4.2.8. Eine randomisierte Summe ist eine Summe von Zufallsvariablen mit
einer zufälligen Anzahl von Summanden. Die Zufallsvariablen N, X1 , X2 , . . . seien unabhängig mit Werte in N0 . Seien X1 , X2 , . . . unabhängig und identisch verteilt mit
erzeugender Funktion ϕ(t) = E[tX1 ] (|t| ≤ 1). Die erzeugende Funktion von N sei
g(t) = E[tN ] (|t| ≤ 1). Wir setzen
S0 := 0,
Sk :=
k
X
Xj
j=1
und die randomisierte Summe SN ist gegeben durch
N (ω)
SN (ω) =
X
j=1
Xj (ω)
für alle ω ∈ Ω.
4.3 Verzweigungsprozesse
41
Es gilt:
P[SN = m] =
∞
X
P[N = k, Sk = m]
N,X1 ,X2 ,...unabh.
=
k=0
∞
X
P[N = k]P[Sk = m].
k=0
Satz 4.2.9. In dieser Situation gilt:
ϕSN (t) = g(ϕ(t)).
Insbesondere gilt
E[SN ] = E[X1 ]E[N ].
Beweis. Siehe Übungen.
Beispiel 4.2.10. Die Wahrscheinlichkeit, dass ein ankommendes radioaktives Teilchen
von einem Messgerät erfasst wird, sei gleich p. Eine Quelle sendet Teilchen aus, die
Anzahl der im Zeitraum [0, T ] emittierten Teilchen sei Poisson-verteilt mit Parameter λ.
(
1, falls das j-te Teilchen gemessen wird,
0, sonst.
Xj =
Falls N, X1 , X2 , . . . unabhängig sind, so gilt für SN =
ϕSN (t)
Satz 4.2.3
=
PN
j=1 Xj .
eλ(ϕ(t)−1) = eλ(1−p+pt−1) = eλp(t−1) .
Also ist SN Poisson-verteilt mit Parameter λ · p.
4.3 Verzweigungsprozesse
Siehe handschriftliche Notizen.
4.4 Die eindimensionale Irrfahrt
Wir betrachten ein Teilchen, das sich auf dem eindimensionalem Gitter Z bewegt. Zum
Zeitpunkt 0 startet das Teilchen im Ursprung, zu den Zeitpunkten 1, 2, 3 . . . springt das
Teilchen jeweils zu einem der beiden Nachbarn x−1,x+1 des aktuellen Aufenthaltsortes x.
Die Entscheidungen, ob man zu x + 1 oder x − 1 geht, werden unabhängig voneinander
mit den Würfen einer fairen Münze getroffen.
Definition 4.4.1. Seien X1 , X2 , . . . XN unabhängig und identisch verteilt mit P [X1 =
1] = P [X1 = −1] = 12 . Wir setzen
S0 := 0,
Sn := X1 + X2 + · · · + Xn .
(S0 , S1 , . . . , Sn ) heißt Pfad der eindimensionalen symmetrischen Irrfahrt. Wir setzen
Ωn := {(s0 , . . . , sn ) ∈ Zn+1 | s0 = 0, |si−1 − si | = 1 für alle 1 ≤ i ≤ n}
Sei Pn die Gleichverteilung auf Ωn , d. h. jeder Pfad (s0 , . . . , sn ) ∈ Ωn hat Gewicht
1
2n .
4.4 Die eindimensionale Irrfahrt
42
Interpretation:
1. Sn ist die Position des Teilchens zur Zeit k.
2. Eine faire Münze wird n-mal geworfen. Bei jedem Wurf gilt: falls Zahl kommt,
muss Spieler A einen Euro an Spieler B zahlen, andernfalls zahlt Spieler B einen
Euro an Spieler A. Dann ist Sk die Bilanz von Spieler A zur Zeit k.
Uns interessieren die folgenden Fragen:
(i) Mit welcher Wahrscheinlichkeit ist das Teilchen zur Zeit n im Ursprung?
(ii) Mit welcher Wahrscheinlichkeit hat das Teilchen bis zum Zeitpunkt n ein bestimmtes Maximum erreicht?
(iii) Mit welcher Wahrscheinlichkeit war das Teilchen nie in −N bis zum Zeitpunkt n?
(iv) Mit welcher Wahrscheinlichkeit verbringt das Teilchen einen bestimmten Anteil der
Zeit in N?
(i) wird beantwortet im folgendem Lemma.
Lemma 4.4.2. Für alle n ∈ N und i ∈ Z gilt:
Pn [Sn = i] =

0,
 1n
2
n
n+i
2
,
Insbesondere gilt u2n = P2n [S2n = 0] =
falls |i| > n oder n + i ungerade,
sonst.
1 2n
22n n
Beweis. Es ist klar, dass das Ereignis {Si = i} nicht eintreten kann, falls |i| > n. Weiter
Pn [Sn = i] = 0, falls n + i ungerade. Falls n + i gerade, so muss das Teilchen, um zum
n+i
Zeitpunkt n in i zu sein, genau n+i
2 »aufwärts« springen (d. h. 2 der Zufallsvariablen
n n−i
X1 , . . . , Xn müssen den Wert 1 haben) und 2 »abwärts«. Es gibt genau n+1
Pfade,
2
die dies tun.
Das asymptotische Verhalten von u2n = P[S2n = 0] ist gegeben durch folgendes Korollar.
Korollar 4.4.3. Es gilt:
u2n = 2−2n
(dabei an ∼ bn falls
an
bn
→ 1).
2n
n
!
1
∼√
πn
für n → ∞.
4.4 Die eindimensionale Irrfahrt
43
Beweis. Folgt aus Lemma 4.4.2 mit der Stirlingformel
√
n! ∼ 2πnnn e−n .
Damit gilt:
2n
n
!
√
22n
2n!
2π2n22n n2n e−2n
=
∼ √
2 = √ .
n!n!
πn
2πnnn e−n
Insbesondere also
1 2n
22n n
!
1
∼√ .
πn
Frage (ii) ist die Frage nach der Verteilung des Maximums des Pfades, d. h. der Zufallsvariable
Mn := max(S0 , . . . , Sn ).
Eines der wichtigsten Hilfsmittel dazu ist das Spiegelungsprinzip. Wir bestimmen die
Wahrscheinlichkeit der Menge der Pfade, die den Ort j ∈ N0 erreichen und nach insgesamt n Schritten in i ≤ j enden.
Lemma 4.4.4. Für alle n ∈ N0 und i, j ∈ Z mit j ≥ 0 und i ≤ j gilt:
Pn [Mn ≥ j, Sn = i] = Pn [Sn = 2j − i].
Beweis. Wir können annehmen, dass n + i gerade ist. Für einen Pfad (s0 , . . . , sn ) ∈
{M ≥ j, Sn = i} betrachten wir das kleinste k ∈ {0, . . . , n} mit sk = j, also den ersten
Zeitpunkt, an dem das Teilchen den Ort j erreicht. Nun »spiegeln« wir das Pfadstück
(sk , . . . , sn ) und erhalten einen Pfad s̃ = (s̃0 , . . . , s̃n ) ∈ Ωn mit s˜n = j + (j − i) = 2j − i.
Dieser Pfad liegt also in {Sn = 2j − i}. Spiegeln heißt formal
X̃1 = X1 , . . . , X̃k = Xk , X̃k+1 = −Xk+1 , X̃k+2 = −Xk+2 , . . . X̃n = −Xn .
Das Spiegeln ab dem Zeitpunkt k, (s0 , . . . , sn ) 7→ (s̃0 , . . . s̃n ) ist eine bijektive Abbildung
zwischen den Mengen {Mn ≥ j, Sn = i} und {Sn = 2j − i}. Die Umkehrabbildung erhält
man, indem man einen Pfad aus der Menge {Sn = 2j − i} ab dem ersten Zeitpunkt,
an dem j erreicht wird, spiegelt. Dieser Zeitpunkt ist ≤ n, da 2j − i ≥ j ≥ i ≥ 0.
Also enthalten die Mengen {Mn ≥ j, Sn = i} und {Sn = 2j − i} dieselbe Anzahl an
Pfaden.
Satz 4.4.5. Für alle n ∈ N und alle i, j ∈ Z mit j ≥ 0 und i ≤ j gelten:
(a) Pn [Mn = j, Sn = i] = Pn [Sn = 2j − i] − Pn [Sn = 2j − i + 2],
(b) Pn [Mn = j] = Pn [Sn ∈ {j, j + 1}].
4.4 Die eindimensionale Irrfahrt
44
Beweis. (a)
Pn [Mn = j, Sn = i] = Pn [Mn ≥ j, Sn = i] − Pn [Mn ≥ j + 1, Sn = i]
= Pn [Sn = 2j − i] − Pn [Sn = 2j + 2 − i]
nach Lemma 4.3.4
(b)
Pn [Mn = j] =
j
X
Pn [Mn = j, Sn = i]
i=2j−n
a
=
=
j
X
Pn [Sn = 2j − i] − P _n[Sn = 2j + 2 − i]
i=2j−n
n
X
Pn [Sn = k] − Pn [Sn = k + 2]
k=j
= Pn [Sn ∈ {j, j + 1}]
Nun betrachten wir die folgenden Ereignisse:
A2n = {S1 6= 0, . . . , Sn−1 6= 0, S2n = 0},
B2n = {Si 6= 0 | i ∈ {1, 2, . . . , 2n}},
C2n = {Si ≥ 0 | i ∈ {1, 2, . . . , 2n}}.
Mit u2n = P2n [S2n = 0] wie früher, haben wir also P2n [A2n ] ≤ u2n . Falls A2n oder B2n
eintritt, kann sich das Teilchen im Zeitintervall {1, . . . , 2n − 1} entweder in N oder in
−N aufhalten.
Lemma 4.4.6. Für jedes n ∈ N gelten die Beziehungen:
1
u2n−2 = u2n−2 − u2n ,
2n
P2n [B2n ] = u2n ,
P2n [A2n ] =
P2n [C2n ] = u2n .
(4.3.1)
(4.3.2)
(4.3.3)
Beweis.
(4.3.1) Wir zählen die Anzahl der Pfade, die in der negativen Halbachse bleiben, und
multiplizieren die Anzahl mit 2. Ein solcher Pfad ist zu den Zeitpunkten 1 und
2n − 1 in −1 und geht zwischendurch nie nach 0. Also
P2n [A2n ] = 2P2n [S1 < 0, . . . , S2n−1 < 0, S2n = 0]
1
= 2 · 2n (|{S2n−2 = 0}| − |{S2n−2 = 0, M2n−2 ≥ 1}|)
|
{z
}
2
=|{S2n−2 =2}|
4.4 Die eindimensionale Irrfahrt
45
Also
!
!!
2n − 2
2n − 2
−
n−1
n
P2n [A2n ] = 2−(2n+1)
= ...
!
1
1 2n − 2 −2n+2
u2n−2 ,
2
=
=
2n n − 1
2n
dies zeigt die erste Gleichung in (4.3.1), die zweite rechnet man leicht nach.
(4.3.2) Das Komplement von B2n ist das Ereignis, dass das Teilchen zu einem der Zeitpunkte 2j mit j ∈ {1, 2, . . . , n} zum ersten Mal zurück nach 0 kommt, also
c
B2n
=
n
[
{S1 6= 0, . . . , S2j−1 6= 0, S2j = 0}
j=0
(wobei die Vereinigung disjunkt ist). Also
c
P2n [B2n
]=
n
X
(4.3.1)
P2j [A2j ] =
j=1
n X
u2(j−1) − u2j = 1 − u2n ,
j=1
folglich P2n [B2n ] = u2n .
(4.3.3) Übung.
Bemerkung 4.4.7. Später: X1 , X2 , . . . unabhängig und identisch verteilt, definieren
(Sn )n∈N0 , d. h. setzen Pn fort zu P auf
Ω := {(s0 , s1 , . . . ) ∈ ZN | s0 = 0, |si−1 − si | = 1 für alle i ≥ 1} .
Dann ist
T := inf{k ∈ N | Sk = 0} ∈ N0 ∪ {∞}
der Zeitpunkt der ersten Rückkehr zum Ursprung. Es gilt P[T > 2n] = P2n [B2n ], also P[T > 2n] → 0. Daraus schließt man P[T = ∞] = 0, d. h. das Teilchen kehrt
n→∞
(mit Wahrscheinlichkeit 1) irgendwann zum Ursprung zurück. Andererseits gilt E[T ] =
P∞
k=1 kP[T = k], aber {T = 2n} = A2n , also
E[T ] =
∞
X
n=1
2nP2n [A2n ] =
∞
X
n=1
2n
∞
X
1
u2n−2 =
u2n−2
2n
n=1
und wegen Korollar 4.3.3 divergiert diese Reihe, also E[T ] = ∞, d. h. das Teilchen kehrt
mit Wahrscheinlichkeit 1 zum Ursprung zurück, braucht aber – im Durchschnitt – unendlich viel Zeit dafür!
5 Wahrscheinlichkeit mit Dichten
Wir werden zum Beispiel Zufallsvariablen betrachten, die gleichverteilt auf [0, 1] sind,
also überabzählbar viele Werte annehmen können.
5.1 Grundbegriffe
R
Definition 5.1.1. (a) Eine Abbildung f : R → [0, ∞) für die f (x)dx existiert und
den Wert 1 besitzt, heißt Wahrscheinlichkeitsdichte oder auch Dichte.
(b) Eine Abbildung F : R → [0, 1] heißt Verteilungsfunktion, falls die folgenden Bedingungen gelten:
(i) F ist monoton wachsend,
(ii) limt→∞ F (t) = 1 und limt→−∞ F (t) = 0,
(iii) F ist rechtsseitig stetig (d. h. lims&t F (s) = F (t) für alle t ∈ R)
Bemerkung 5.1.2. (a) Falls f eine Dichte
ist, so gibt es eine zugehörige VerteilungsRt
funktion F , definiert durch F (t) = −∞ f (x)dx (t ∈ R) und F ist stetig, f heißt
Dichte von F . Nicht jede stetige Verteilungsfunktion F hat eine Dichte.
(b) Falls eine Dichte f in endlich vielen Punkten abgeändert
wird,R so erhält man eine
R
neue Dichte f˜. Für jedes Intervall I ⊆ R gilt dann I f (x)dx = I f˜(x)dx.
(c) Falls F die Dichte f hat und f stetig in a ist, so gilt F 0 (a) = f (a).
Definition 5.1.3. Für eine reellwertige Zufallsvariable X heißt die Abbildung
FX : R → [0, 1],
t 7→ P[X ≤ t]
die Verteilungsfunktion von X. Wir sagen, X hat eine Dichte, falls FX eine Dichte hat.
Definition 5.1.4. Sei (Ω, F, P) Wahrscheinlichkeitsraum (vergleiche Def 1.1.3) Die Abbildung X : Ω → R heißt Zufallsvariable, falls {X ≤ c} = {ω ∈ Ω | X(ω) ≤ c} ∈ F für
alle c ∈ R.
Bemerkung 5.1.5. (a) Falls X eine diskrete Zufallsvariable ist (d. h. X nimmt nur
abzählbar viele Werte an), so ist FX die rechtsseitige Treppenfunktion, die jeweils an
den Orten x mit P[X = x] > 0 einen Sprung der Höhe P[X = x] macht. Insbesondere
hat X keine Dichte.
5.2 Übertragung der bisherigen Ergebnisse
47
Beispiel.
1
P[X = 0] = P[X = 1] = .
2
(b) Falls eine Zufallsvariable X eine Dichte f hat, so gilt
P[X ∈ A] =
Z
f (x)dx
(5.1.1)
A
für alle A, für die die Abbildung f · IA integrierbar ist (z. B. für alle endlichen
Vereinigungen A von Intervallen). Insbesondere gilt P[X = x] = 0 für alle x ∈ R,
R
n→∞
denn 0 ≤ P[X = x] ≤ P[x ≤ X ≤ x + 1/n] = xx+1/n f (y)dy −−−→ 0
Beispiel 5.1.6. Sei f definiert durch
(
f (x) =
1,
0,
falls 0 ≤ x ≤ 1,
sonst.
f ist Dichte zu F , definiert durch
F (t) =



0,
falls t < 0,
t, falls 0 ≤ t ≤ 1,


1, falls t ≥ 1.
Eine Zufallsvariable X mit Verteilungsfunktion F heißt gleichverteilt auf [0, 1].
Wir sagen: ein Wahrscheinlichkeitsmaß µ auf Ω = R hat eine Dichte f , falls die
Zufallsvariable X(ω) = ω eine Dichte f hat. In diesem Fall gilt
Z
µ(A) =
f (x)dx,
A
falls A ⊆ R, f · IA integrierbar, also insbesondere falls A endliche Vereinigung von
Intervallen.
5.2 Übertragung der bisherigen Ergebnisse
Erwartungswerte, Varianzen und Kovarianzen werden analog zu den jeweiligen Größen
für diskrete Zufallsvariablen definiert.
Definition 5.2.1. Sei X eine Zufallsvariable mit Dichte f . Der Erwartungswert von X
existiert und ist endlich genau dann, wenn
Z
|x| f (x)dx < ∞.
In diesem Fall sagen wir X ∈ L1 , und der Erwartungswert ist gegeben durch
Z
xf (x)dx
E[X] =
R
(vergleiche Def 3.3.1).
5.2 Übertragung der bisherigen Ergebnisse
48
Monotonie, Linearität gelten auch für diese Definition des Erwartungswertes, vergleiche Lemma 3.3.2. Falls X nach unten beschränkt ist, können wir E[X] definieren durch
E[X] =
R
 xf (x)dx,
falls
R

R
xf (x) < ∞,
R
+∞,
sonst,
und falls X nach oben beschränkt ist, können wir E[X] definieren durch
E[X] =
R
 xf (x)dx,
falls
R

R
xf (x) > −∞,
R
−∞,
sonst.
Definition 5.2.2. Sei X eine Zufallsvariable mit Dichte f und E[X] existiere. Die Varianz von X ist definiert durch
Var(X) = E[(X − E[X])2 ] ∈ [0, ∞]
und es gilt (analog zu (3.4.1)):
Z
Var(X) =
(x − E[X]2 )f (x)dx.
Die Standardabweichung σ(X) ist definiert durch
σ(X) =
q
Var(X).
(
Beispiel 5.2.3. Sei X gleichverteilt auf [0, 1], d. h. X hat Dichte f , f (x) =
1, 0 ≤ x ≤ 1
0, sonst.
Dann gilt
Z 1
Z
xdx =
xf (x)dx =
E[X] =
0
R
und
Z 1
1
2
1
12
R
0
Definition 5.2.4. Seien X und Y Zufallsvariablen. Wir nehmen an, dass X, Y und X ·Y
eine Dichte haben, und dass X und Y endliche Varianzen haben. Die Kovarianz von X
und Y ist dann definiert durch
Z
Var(X) =
(x − 1/2)2 f (x)dx =
(x − 1/2)2 dx = · · · =
Cov(X, Y ) = E[XY ] − E[X]E[Y ].
X und Y heißen unkorreliert, falls Cov(X, Y ) = 0. Lemma 3.5.2, Korollar 3.5.3 und Satz
3.5.7 gelten weiterhin.
Definition 5.2.5. Wir sagen X1 , . . . , Xn haben die gemeinsame Dichte f : Rn → [0, ∞),
falls mit X := (X1 , . . . , Xn ) gilt:
P [X ∈ A] =
Z
f (x1 , . . . , xn )dx1 . . . dxn
A
für alle A ⊆ Rn , für die f · IA integrierbar ist.
5.2 Übertragung der bisherigen Ergebnisse
49
Bemerkung. Falls X1 , . . . , Xn eine gemeinsame Dichte f haben, so gilt:
Z
P [X1 ≤ t1 , . . . , Xn ≤ tn ] = Qn
f (x1 , . . . , xn )dx1 . . . dxn
i=1
(−∞,ti )
Z tn
Z t1
...
=
−∞
−∞
f (x1 , . . . , xn )dx1 . . . dxn .
Insbesondere besitzen dann die einzelnen Zufallsvariablen X1 , . . . , Xn jeweils eine Dichte. Man erhält die Dichte fi von Xi , indem man f über alle Werte, die die anderen
Zufallsvariablen annehmen können, integriert:
P [Xi ≤ ti ] =
Z
f (x1 , . . . , xn )dx1 . . . dxn
R×···×R×(−∞,ti ]×R×···×R
Z ti Z
=
−∞
Rn−1
f (x1 , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn dxi
(fi (xi ) ist die i-te Randdichte von f ).
Beispiel 5.2.6. Sei (X1 , X2 ) gleichverteilt auf A = {(x1 , x2 ) | 0 ≤ x2 ≤ x1 ≤ 1}, d. h.
die gemeinsame Dichte f sei gegeben durch
(
f (x1 , x2 ) =
2, falls (x1 , x2 ) ∈ A,
0, sonst.
Dann hat X1 die Dichte f1 ,
Z ∞
f1 (x1 ) =
−∞
f (x1 , x2 )dx2
Z x1
=
2dx2 = 2x1
(0 ≤ x1 ≤ 1)
0
Also hat X1 die Verteilungsfunktion FX1 ,
FX1 (t) =

2

t ,

0,


1,
falls 0 ≤ t ≤ 1,
falls t < 0,
falls t > 1.
Beachte: X1 ist nicht gleichverteilt auf [0,1].
Unabhängigkeit
Definition 5.2.7. Seien X1 , . . . , Xn Zufallsvariablen. X1 , . . . , Xn heißen unabhängig,
falls für alle t1 , . . . , tn ∈ R gilt:
P[X1 ≤ t1 , . . . , Xn ≤ tn ] =
n
Y
i=1
P[Xi ≤ ti ].
5.2 Übertragung der bisherigen Ergebnisse
50
Bemerkung. Für diskrete Zufallsvariablen ist Definition 5.2.7 äquivalent zu Definition
3.2.1 bzw. Lemma 3.2.2.
Beweis. Übung.
Lemma 5.2.8. Seien X1 , . . . , Xn Zufallsvariablen mit Dichten f1 , . . . , fn : R → [0, ∞).
X1 , . . . , Xn sind genau dann unabhängig, falls eine gemeinsame Dichte f (x1 , . . . , xn )
existiert und gegeben ist durch
f (x1 , . . . , xn ) =
n
Y
für alle x1 , . . . , xn ∈ R.
fi (xi )
i=1
Beweis. Übung.
Beispiel 5.2.9. Sei X1 gleichverteilt auf [0, 1] und X2 = X1 . Dann sind X1 , X2 nicht
unabhängig, denn für 0 < t < 1 gilt:
P[X1 ≤ t, X2 ≤ t] = P[X1 ≤ t] 6= P[X1 ≤ t]2 .
(X1 , X2 ) hat keine gemeinsame Dichte, d. h. es gibt keine Funktion f , sodass
P[(X1 , X2 ) ∈ A] =
Z
f (x1 , x2 )dx1 dx2 .
A
Transformation von Zufallsvariablen
Lemma 5.2.10. Seien U, V ⊆ R und sei X Zufallsvariable mit Dichte f , f (x) = 0 für
alle x ∈
/ U . Sei g : U → V bijektiv,differenzierbar und g −1 monoton wachsend. Dann ist
Y = g(x) eine Zufallsvariable mit Dichte
fY (y) =
f (g −1 (y))
.
g 0 (g −1 (y))
Insbesondere gilt: falls E[Y ] existiert, so ist
f (g −1 (y))
E[Y ] =
y 0 −1
dy
R g (g (y))
Z
z=g −1 (y)
Z
g(z)f (z)dz.
=
(5.2.1)
R
Beweis. Es gilt:
P[Y ≤ t] = P[g(x) ≤ t] = P[X ≤ g −1 (t)] = F (g −1 )(t),
also FY (t) = F (g −1 (t)). Da F differenzierbar, ist auch FY differenzierbar und es gilt:
fY (y) =
f (g −1 (y))
,
g 0 (g −1 (y))
y ∈V.
5.2 Übertragung der bisherigen Ergebnisse
51
Bemerkung. (a) (5.2.1) gilt auch allgemeiner, falls g nur stetig ist.
(b) Allgemein gilt, falls Y = g(X), X = (X1 , . . . , Xn ) mit Dichte f (x1 , . . . , xn ), g stetig:
Z
g(x1 , . . . , xn )f (x1 , . . . , xn )dx1 . . . dxn .
E[g(X)] =
R
Beispiel 5.2.11. Sei X gleichverteilt auf [0, 1], Y = cX, d. h. g(x) = cx, g −1 (x) = 1c x.
Also hat Y die Dichte
f
fY (x) =
1
cy
(
=
c
1
c
0
falls 0 ≤ y ≤ c,
sonst.
Wir sagen: Y ist gleichverteilt auf [0, c].
Faltung
Die Faltung zweier integrierbarer Funktionen f, g : R → R ist definiert als die Funktion
(f ∗ g)(y) =
Z
f (x)g(y − x)dx,
y ∈ R.
R
In Analogie zum Faltungssatz 4.1.2 gilt folgender Satz.
Satz 5.2.12. Seien X, Y unabhängige Zufallsvariablen mit Dichten f, g . Dann hat die
Zufallsvariable X + Y die Dichte f ∗ g.
Beweis. Nach Lemma 5.2.9 hat (X, Y ) die Dichte (x, y) 7→ f (x)g(y). Es sei z ∈ R und
Az = {(x, y) ∈ R2 | x + y ≤ z}. Dann gilt:
P[X + Y ≤ z] = P[(X, Y ) ∈ Az ]
Z
f (x)g(y)dxdy
=
Az
Z ∞
Z z−x
f (x)
=
−∞
−∞
Z ∞
Z z
−∞
−∞
Z ∞ Z
=
−∞
Z z
=
−∞
g(y − x)dy dx
f (x)
=
g(y)dy dx
f (x)g(y − x)dx dy
R
(f ∗ g)(y)dy.
5.3 Beispiele
52
5.3 Beispiele
Beispiel 5.3.1. Seien a, b ∈ R mit a < b. Die Dichte f sei gegeben durch:
(
f (x) =
1
b−a ,
falls a ≤ x ≤ b,
sonst.
0,
Die zugehörige Verteilungsfunktion F ist gegeben durch
F (x) =


0,

falls x < a,
falls a ≤ x ≤ b,
falls b ≤ x.
x−a
,
 b−a

1,
Eine Zufallsvariable X mit dieser Verteilungsfunktion F heißt gleichverteilt auf [a, b].
Beispiel 5.3.2. Sei α ∈ (0, ∞) ein reeller Parameter. Die Dichte
(
f (t) =
αe−αt ,
0,
falls t ≥ 0,
falls t < 0
heißt Dichte der Exponentialverteilung. Die zugehörige Verteilungsfunktion ist gegeben
durch
(
1 − e−αt , falls t ≥ 0,
F (t) =
0,
falls t < 0.
Sei X exponentialverteilt mit Parameter α. Dann gilt:
Z ∞
Z
xf (x)dx =
E[X] =
xαe−αx dx = · · · =
0
R
1
.
α
Ebenso berechnet man die Varianz
1
x−
α
Z Var(X) =
R
2
f (x)dx = · · · =
1
.
α2
Beweis. Übung.
Die Exponentialverteilung ist das stetige Gegenstück zur geometrischen Verteilung.
Sie hat die Eigenschaft der Gedächtnislosigkeit
Lemma 5.3.3. Sei X exponentialverteilt mit Parameter α. Dann gilt für alle s, t > 0:
P[X > t + s | X > s] = P[X > t].
Beweis. siehe Übungen.
5.3 Beispiele
53
Beispiel 5.3.4. Die Dichte der Normalverteilung mit Parameter µ ∈ R und σ ∈ (0, ∞)
ist gegeben durch:
(t−µ)2
1
e− 2σ2
ϕµ,σ (t) = √
für alle t ∈ R.
2πσ 2
ϕµ,σ (·) ist eine Dichte. Dafür genügt es zu zeigen:
Z ∞
√
t2
e− 2 dt =
2π.
−∞
Es gilt:
Z ∞
2
2
− t2
e
dt
Z ∞
e
=
Z ∞
2
− x2
dx
−∞
Z 2π Z ∞
−∞
=
e−
y2
2
dy
−∞
r2
re− 2 dr dϕ = 2π.
0
0
Die zugehörige Verteilungsfunktion ist
Z x
Φµ,σ (x) =
√
−∞
1
2πσ 2
e−
(t−µ)2
2σ 2
dt
(siehe Tabellen). Sei X Zufallsvariable mit Dichte ϕµ,σ . Dann gilt:
E[X] = µ
Var(X) = σ 2 .
und
Denn:
Z
tϕµ,σ (t)dt
E[X] =
R
Z ∞
√
=
−∞
=µ+ √
1
e−
2πσ 2
Z
1
2πσ 2
(t−µ)2
2σ 2
∞
dt
t2
e− 2σ2 dt = µ
−∞
und
Var(X) = √
1
Z ∞
(t − µ)2 e−
(t−µ)2
2σ 2
dt
2πσ 2 −∞
Z ∞
s= t−µ
s2
σ2
σ
= √
s2 e− 2 ds
2π −∞
Z ∞
2
s2
σ2
− s2
=√
−se− 2 |∞
+
e
ds
= σ2.
−∞
2π
−∞
Man bezeichnet die Normalverteilung mit Erwartungswert µ und Varianz σ 2 als N (µ, σ 2 ).
Im Fall λ = 0 und σ 2 = 1 spricht man von der Standardnormalverteilung N (0, 1). Falls
X die Verteilung N (µ, σ 2 ) hat, so gilt
X = σ X̃ + µ
und X̃ hat Verteilung N (0, 1).
(5.3.2)
5.3 Beispiele
54
Beweis. Mit Lemma 5.2.11.
Lemma 5.3.5. Für alle µ1 , µ2 ∈ R und σ1 , σ2 ∈ (0, ∞) gilt:
ϕµ1 ,σ1 ∗ ϕµ2 ,σ2 = ϕµ1 +µ2 ,σ ,
wobei σ =
q
σ12 + σ22 .
Beweis. Übung.
Beispiel 5.3.6. Die Dichte der Cauchy-Verteilung mit Parameter c ∈ (0, ∞) ist gegeben
durch
c
1
f (x) =
für alle x ∈ R.
2
π x + c2
Die zugehörige Verteilungsfunktion ist
Z t
−∞
1
t
arctan
π
c
f (x)dx =
F (t) =
1
+ .
2
Der Erwartungswert der Cauchy-Verteilung existiert nicht, da x 7→
bar ist.
x
x2 +c2
nicht integrier-
6 Grenzwertsätze
In diesem Kapitel betrachten wir das Gesetz der großen Zahlen und den zentralen Grenzwertsatz. Beide Sätze machen Aussagen über das asymptotische Verhalten (für n → ∞)
von n unabhängig und identisch verteilten Zufallsexperimenten.
6.1 Das Gesetz der großen Zahlen
Wir beginnen mit einer wichtigen Ungleichung für die Wahrscheinlichkeit einer Abweichung einer Zufallsvariable von ihrem Erwartungswert.
Satz 6.1.1 (Markov-Ungleichung). Sei X eine Zufallsvariable und ϕ : (0, ∞) → (0, ∞)
eine monoton wachsende Funktion. Dann gilt für jedes
c>0:
P[|X| ≥ c] ≤
E[ϕ(|X|)]
ϕ(c)
(6.1.1)
Beweis. Auf der Menge {|X| ≥ c} = {ω ∈ Ω : |X(ω)| ≥ c} gilt, wegen der Monotonie
von ϕ : ϕ(c) ≤ ϕ(|X(ω)|). Also gilt: I{|X|≥c} ≤ ϕ(|X|)
ϕ(c) . Wir nehmen auf beiden Seiten
den Erwartungswert und erhalten (6.1.1).
Korollar 6.1.2 (Chebyshev-Ungleichung). Sei X ∈ L2 und c > 0. Dann gilt
P[|X − E[X]| ≥ c] ≤
Var(X)
c2
(6.1.2)
Beweis. Wir setzen in Satz 6.1.1 ϕ(x) = x2 und ersetzen X durch X − E[X].
Bemerkung. Man kann “=” in haben, z. B. für
X=



c
1
2c2
0
1−


−c
1
2c2
(diese Schreibweise bedeutet: P[X = c] =
1
2c2
P[|X − 0| ≥ c] =
1
c2
usw.) Dann ist E[X] = 0, Var(X) = 1 und
1
Var(X)
=
.
c2
c2
6.1 Das Gesetz der großen Zahlen
56
Wir betrachten nun n unabhängige Zufallsexperimente mit Resultaten X1 , . . . , Xn ,
d. h. X1 , . . . , Xn seien unabhängige Zufallsvariablen. Wir nehmen an, dass X1 , . . . , Xn ∈
L1 und m = E[X1 ] = · · · = E[Xn ]. Wie verhält sich n1 Sn = n1 (X1 +· · ·+Xn ) für n → ∞?!
Definition 6.1.3. Eine Folge (Yn )n∈N von Zufallsverteilungen konvergiert in Wahrscheinlichkeit (oder: konvergiert stochastisch) gegen eine Zufallsverteilung Y , falls für
jedes ε > 0 gilt:
P[|Yn − Y | ≥ ε] → 0.
n→∞
p
p
In diesem Fall schreiben wir Yn → Y . Es ist klar, dass Yn → Y genau dann, wenn
p
|Yn − Y | → 0.
Zur Erinnerung: X und Y heißen unkorreliert, falls Cov(X, Y ) = 0, also falls
E[XY ] = E[X]E[Y ].
Satz 6.1.4. Für jedes n ∈ N seien paarweise unkorrelierte Zufallsvariablen X1 , . . . , Xn
gegeben, die alle denselben Erwartungswert m ∈ R und dieselbe Varianz V ∈ R haben.
Dann gilt:
Sn
P − m ≥ ε → 0,
n
d. h.
Sn
n
konvergiert stochastisch gegen m.
Beweis. Wir haben E[ Snn ] = m und, da X1 , . . . , Xn paarweise unkorreliert sind,
Var
Sn
n
=
1
1
1
Var(X1 + · · · + Xn ) = 2 (Var(X1 ) + . . . + Var(Xn )) = V.
n2
n
n
Also gibt die Chebyshev-Ungleichung
Var( Snn )
Sn
V
P |
− m| ≥ ε ≤
= 2 → 0.
n
ε2
nε n→∞
Korollar 6.1.5. Für jedes n ∈ N seien X1 , . . . , Xn unabhängig und identisch verteilt
p
mit Var(X1 ) = V < ∞. Dann gilt Snn → m = E[X1 ] (Sn = X1 + . . . + Xn ).
Beispiel 6.1.6. Anwendung des schwachen Gesetz der großen Zahlen auf BernsteinPolynome. Sei f ∈ C([0, 1]). Dann heißt
Bn (x) =
n
X
k=0
das n-te Bernstein-Polynom.
k
n
f
!
n k
x (1 − x)n−k
k
(0 ≤ x ≤ 1)
6.2 Der zentrale Grenzwertsatz
57
Interpretation: Sn = Anzahl der Erfolge bei n unabhängigen Münzwürfen mit Parameter x. Dann ist
Sn
Bn (x) = E f
n
(X1 , . . . , Xn unabhängig und identisch verteilt mit P[Xi = 0] = 1 − x = 1 − P [Xi = 1]).
p
Da Snn → x und f stetig, erwarten wir Bn → f . Genauer:
sup |Bn (x) − f (x)| → 0,
n→∞
x∈[0,1]
d. h. die Bernstein-Polynome konvergieren gleichmäßig gegen f .
Beweis.
Sn
Sn
|Bn (x) − f (x)| = E f
− f (x) ≤ E f
− f (x)
n
n
Sn
Sn
≤ 2 sup |f (y)| P − x ≥ δ + sup |f (y) − f (z)|P − x < δ ,
n
n
y
y,z:|y−z|<δ
denn: sei A = {| Snn − x| ≥ δ}, dann gilt:
Sn
E f
n
Sn
− f (x) = E f
n
≤ 2 sup |f (y)|P [A] +
y
≤ 2 sup |f (y)|
y
Sn
− f (x) IA + E f
sup
− f (x) IAC
n
|f (y) − f (z)|P[AC ]
y,z:|y−z|<δ
x(1 − x)
+ sup |f (y) − f (z)|.
nδ 2
y,z:|y−z|≤δ
Sei ε > 0. Wähle δ ≤ δ0 (ε), dann gilt
ε
|f (y) − f (z)| ≤ ,
2
y,z:|y−z|<δ
sup
(f gleichmäßig stetig auf [0, 1]!) und n ≥ n0 (δ, ε), dann gilt
sup |f (y)|
y
ε
x(1 − x)
≤ ,
2
nδ
2
also supx |Bn (x) − f (x)| ≤ ε. Da ε > 0 beliebig war, folgt die Behauptung.
6.2 Der zentrale Grenzwertsatz
Haben gesehen: falls X1 , . . . , Xn unabhängig und identisch verteilt mit Var(X1 ) < ∞,
p
so gilt ( Snn − m) → 0, wobei m = E[X1 ].
Frage: Von welcher Größenordnung ist ( Snn − m)?
6.2 Der zentrale Grenzwertsatz
58
Sei α > 0. Dann
1
P n − m ≥ ε ≤ 2 n2α
n
ε
α Sn
Var
Sn
−m
n
{z
|
1
n2
=
1 2α−1
n
Var(X1 ).
ε2
}
1
Var(X1 )
Var(Sn )= n
p
Also nα | Snn − m| → 0, falls α < 12 .
Antwort: ( Snn − m) ist von der Größenordnung
in Verteilung konvergiert.
√1 :
n
wir werden sehen, dass
√
n( Snn − m)
Definition 6.2.1. Die Zufallsvariablen X1 , X2 , . . . haben die Verteilungsfunktionen
F1 , F2 , . . . und die Zufallsvariable X habe die Verteilungsfunktion F . Wir sagen: Xn
konvergiert in Verteilung gegen X, falls für alle t ∈ R, für die F in t stetig ist, gilt:
lim Fn (t) = F (t).
n→∞
d
In diesem Fall schreiben wir Xn → X.
Wir formulieren nun den zentralen Grenzwertsatz.
Satz 6.2.2. Für jedes n seien X1 , . . . , Xn unabhängig und identisch verteilt mit Erwartungswert E[X1 ] = m und Varianz Var(X1 ) = V < ∞. Sei Sn = X1 + · · · + Xn . Dann
gilt für jedes t ∈ R:
P
Sn − nm
√
≤t =P
nV
Das heißt,
Sn
√−nm
nV
r
n
V
1
Sn − m ≤ t
n
1
→ Φ(t) = √
n→∞
2π
Z t
z2
e− 2 dz.
(6.1)
−∞
konvergiert in Verteilung gegen Y , wobei Y Verteilung N (0, 1) hat.
Bemerkung. Wir können Satz 6.2.2. in einem Spezialfall sofort verifizieren, nämlich in
dem Fall X1 , . . . , Xn unabhängig und identisch verteilt mit Verteilung N (m, σ 2 ). Dann
Sn
hat Sn die Verteilung N (0, n), also hat Sn√−nm
=√
die Verteilung N (0, 1), und es gilt
n
nV
P
Sn − 0
√
≤ t = Φ(t) für alle t ∈ R, n ∈ N.
n1
Sei µ die Verteilung von X1 − m. Wir ordnen µ die Verteilung von
1
Sn − 2m
= √ ((X1 − m) + (X2 − m))
2V
2V
zu. Dann ist N (0, 1) ein Fixpunkt unter dieser Abbildung. In diesem Sinne lässt sich der
zentrale Grenzwertsatz als Fixpunktsatz interpretieren: µ 7→ g(µ). Die Abbildung g hat
den Fixpunkt N (0, 1). Es gilt: g n (µ) → N (0, 1), wobei g n die n-fache Hintereinanderausführung von g bezeichnet.
6.2 Der zentrale Grenzwertsatz
59
Bemerkung. (6.1) impliziert, dass auch
Sn − nm
√
<t
P
nV
→ Φ(t) .
(6.2)
n→∞
Denn, für alle k ∈ N,
P
hence
Sn − nm
Sn − nm
1
√
√
<t ≥P
≤t−
k
nV
nV
Sn − nm
1
√
lim inf P
<t ≥Φ t−
n→∞
k
nV
→ Φ(t) .
k→∞
Beweisskizze für Satz 6.2.2. Wir geben eine Beweiskizze unter der stärkeren Voraussetzung E[eλX1 ] < ∞ für alle λ ∈ R.
Lemma 6.2.3. Seien Z, Z1 , Z2 , . . . Zufallsvariablen mit E[eλZi ] < ∞ für alle λ ∈ R,i ∈ N,
E[eλZ ] < ∞ für alle λ ∈ R, und es gelte E[eλZn ] → E[eλZ ] für alle λ ∈ R. Dann gilt
d
Zn → Z.
Beweis. Siehe später, d.h. Vorlesung “Probability Theory”.
d
→ Y , wobei Y Verteilung N (0, 1) hat. Sei Xi∗ =
Zu zeigen: Sn√−nm
nV
E[Xi∗ ] = 0, Var(Xi∗ ) = 1. Nach Lemma 6.2.3 genügt es zu zeigen, dass
"
E e
λ
∗ +···+X ∗
X1
n
√
n
#
1
→ e2λ
2
Übung
n→∞
=
X√
i −m
.
V
Dann
E[eλY ].
Aber, da X1∗ , . . . , Xn∗ unabhängig und identisch verteilt:
"
λ
E e
∗ +···+X ∗
X1
n
√
n
#
"
X∗
λ √1n
=E e
#
X∗
λ √n
n
...E e
"
=E e
"
X∗
λ √1n
#n
!#n
X∗
λ 2
1 (X ∗ )2
√
= E 1 + λ √ 1 + λ2 1 + o
n 2
n
n
n
1 2
1 1
1
→ e2λ .
= 1 + 0 + λ2 + o
n→∞
2 n
n
Typische Anwendungen des zentralen Grenzwertsatzes sind die folgenden:
Beispiel 6.2.4 (Irrfahrt). Sei Sn der Endpunkt der Irrfahrt mit n Schritten aus Kapitel
4, d. h. Sn = X1 + · · · + Xn , wobei X1 , X2 , . . . , Xn unabhängig und identisch verteilt mit
1
P[Xi = +1] = P[Xi = −1] = .
2
6.2 Der zentrale Grenzwertsatz
60
Mit dem zentralen Grenzwertsatz gilt
Sn
P √ ≤t
n
→ Φ(t).
n→∞
Insbesondere gilt für jedes c ∈ R
P [Sn ∈ [−c, c]] → 0.
n→∞
Beweis. Sei ε > 0. Wähle δ > 0 so, dass 2Φ(δ) − 1 ≤ ε. Für n ≥ n0 (δ) gilt
Sn
c
c
P [Sn ∈ [−c, c]] = P √ ∈ − √ , √
n
n n
Sn
Sn
Sn
≤ P √ ∈ [−δ, δ] = P √ ≤ δ] − P √ < −δ
n
n
n
→ Φ(δ) − Φ(−δ) = 2Φ(δ) − 1 ≤ ε.
n→∞
(6.1),(6.2)
Beispiel 6.2.5 (Normalapproximation). Ein Würfel wird 1200 Mal geworfen. Wie groß
ist die Wahrscheinlichkeit, dass dabei die Anzahl der geworfenen Sechsen zwischen 190
und 200 liegt? Sei Xi = I{der i-te Wurf zeigt 6} . Dann sind X1 , X2 , . . . , X1200 unabhängig
und identisch verteilt mit
1
P[Xi = 1] = = 1 − P[Xi = 0].
6
S1200 = X1 + · · · + X1200 . Also sind wir in der Situation von Satz 6.2.2 mit n = 1200.
Damit gilt
"
190 − np
Sn − np
200 − np
P[190 ≤ Sn ≤ 200] = P p
≤p
≤p
np(1 − p)
np(1 − p)
np(1 − p)
"
#
#
10
Sn − np
= P −p
≤p
≤0
np(1 − p)
np(1 − p)
n=1200
"
#
√ 500
√
np(1−p)=
10
Sn − np
3 ≈13
≈
P − ≤p
≤0
13
np(1 − p)
10
ZGS
≈ Φ(0) − Φ −
| {z }
13
np=200
1
2
|
{z
≈0.2206
}
Also gilt P[190 ≤ Sn ≤ 200] ≈ 0.5 − 0.2206 = 0.2794.
Beispiel 6.2.6. Wievielmal muss man einen Würfel werfen, damit die Wahrscheinlichkeit, mindestens 10 Sechsen zu haben, mindestens 0.9 beträgt?
Xi = I{i-ter Wurf zeigt 6} ,
Sn =
n
X
i=1
Xi ,
!
P[Sn ≥ 10] ≥ 0.9.
6.2 Der zentrale Grenzwertsatz
61
Mit zentralem Grenzwertsatz (p = 61 ):
"
#
10 − np
Sn − np
10 − np
≥p
P p
≈1−Φ p
np(1 − p)
np(1 − p)
np(1 − p)
!
!
≥ 0.9
Tabelle: Φ(−1.28) ≈ 0.1. Also: wähle n so groß, dass
10 − np
≤ −1.28
np(1 − p)
p
q
⇔
10 − np ≤ −1.28 np(1 − p)
√
5
n √
10 ≤ − n
1.28
6
6
⇔
n = 87 genügt (n = 86 genügt nicht).
Beispiel 6.2.7 (Wahlprognose). Bei einer Wahl erhält Kandidat A einen unbekannten
Anteil p ∈ (0, 1) der Stimmen (Annahmen: die Entscheidungen der Wähler sind unabhängig und identisch verteilt). Um p abzuschätzen, befragen wir n Wähler. Wie groß
sollte n sein, damit die Wahrscheinlichkeit eines Irrtums von mehr als einem Prozent
nicht größer als 0.05 ist?
Xi = I{i-te Person wählt A} ,
Sn =
n
X
Xi .
i=1
Sn ist binomialverteilt mit Parametern n und p. Wir wollen n so groß wählen, dass
Sn
P − p > 0.01 ≤ 0.05.
n
Aber, für alle Werte von p:
"
0.01n
Sn − np
0.01n
P −p
≤p
≤p
np(1 − p)
np(1 − p)
np(1 − p)
1
≈ Φ 0.01n p
np(1 − p)
!
n
= 2Φ 0.01 p
np(1 − p)
!
#
1
− Φ −0.01n p
np(1 − p)
!
− 1.
Also: finde das kleinste n so, dass
n
2Φ 0.01 p
np(1 − p)
⇔
!
− 1 ≥ 0.95
n
Φ 0.01 p
np(1 − p)
!
≥ 0.975.
6.3 Das Lemma von Borel-Cantelli und das starke Gesetz der großen Zahlen
62
Aus der Tabelle: Φ(1.96) ≈ 0.975, also
(0.01)2
⇔
n
≥ (1.96)2
p(1 − p)
n ≥ (1.96)2 p(1 − p) · 104 .
Da wir p nicht kennen, nehmen wir den größtmöglichen Wert von p(1 − p), nämlich
und verlangen
1
4
1
n ≥ (1.96)2 104 = 9604.
4
Also: n ≥ 9604 ist okay.
6.3 Das Lemma von Borel-Cantelli und das starke Gesetz
der großen Zahlen
Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und (Ak )k∈N eine Folge von Ereignissen.
T
S∞
Dann ist A := ∞
m=1 k=m Ak das Ereignis, das unendlich viele der Ak eintreten, d. h.
A = {ω ∈ Ω | ω ∈ Ak für unendlich viele k}. Man schreibt auch A = lim supk→∞ Ak .
Beachte: IA = lim supk→∞ IAk .
Lemma 6.3.1 (Lemma von Borel-Cantelli). Sei A =
gilt
(i) Falls
P∞
k=1 P[Ak ]
(i) A =
m=1
S∞
k=m Ak
T∞
m=1
⊆
S∞
P[A] ≤
X
S∞
k=m Ak
k=m Ak
P∞
k=1 P[Ak ]
= ∞, so gilt P[A] = 1.
für alle m ∈ N, also
P[Ak ] für alle m ∈ N.
k≥m
Aber
→
k≥m P[Ak ] m→∞
P
(ii) Haben Ac =
S∞
wie oben. Dann
< ∞, so ist P[A] = 0.
(ii) Falls (Ak )k∈N unabhängige Ereignisse sind und
Beweis.
T∞
m=1
T
c
k≥m Ak ,
c
P∞
0, da
P[A ] ≤
k=1 P[Ak ]
also
∞
X
P
" ∞
\
m=1
unabh.
< ∞.
#
Ack
m=1
k=m
∞
X
=
∞
X
lim P
n→∞
k=m
n
Y
lim
(1 − P[Ak ])
n→∞
m=1
k=m
∞
Pn
1−x≤e−x X
≤
lim e− k=m P[Ak ]
n→∞
{z
}
m=1 |
0 für alle m ∈ N
=
" n
\
= 0.
#
Ack
6.3 Das Lemma von Borel-Cantelli und das starke Gesetz der großen Zahlen
63
Satz 6.3.2 (Starkes Gesetz der großen Zahlen). Seien X1 , X2 , . . . unabhängig und idenP
tisch verteilt und Xi ∈ L1 , d. h. E[|Xi |] < ∞, Sn = ni=1 Sn . Dann gilt:
Sn
→ E[X1 ] = 1
P
n n→∞
(P[. . . ] = P[{ω | limn→∞
Sn (ω)
n
= E[X1 ]}]).
Beweis. Unter der stärkeren Voraussetzung E[X14 ] < ∞.
1. E[X14 ]
Übung (*)
≥
E[|X1 |4 ], d. h. E[X14 ] < ∞ ⇒ X1 ∈ L1 .
2. O. B. d. A: E[X1 ] = 0 (andernfalls X̃i = Xi − E[Xi ]).
" #
Markov-Ungleichung mit ϕ(x) = x4
Sn 1
Sn 4
1 1
≤
E
= 4 4 E[(X1 + · · · + Xn )4 ]
P ≥ ε
n
ε4
n
ε n
=
1 1
(nE[X14 ] + 4n(n − 1)E[X13 ]E[X1 ]
ε4 n 4
+ 3n(n − 1)E[X12 ]E[X22 ]
+ 6n(n − 1)(n − 2)E[X12 ]E[X2 ]E[X3 ]
+ n(n − 1)(n − 2)(n − 3)E[X1 ]E[X2 ]E[X3 ]E[X4 ])
E[Xi ]=0
1 1
(nE[X14 ] + 3n(n − 1)E[X12 ]2 )
ε4 n 4
(∗) 1 1
≤ 4 4 (nE[X14 ] + 3n(n − 1)E[X14 ])
ε n
1
≤ c(ε) 2 .
n
≤
Also:
P∞
h
i
Sn
n=1 P n ≥ ε < ∞. Nach Borel-Cantelli:
Sn
P ≥ ε für unendlich viele n = 0.
n
Da ε > 0 beliebig war, folgt P
h
Sn
→
n n→∞
i
0 = 1.
Definition 6.3.3. Eine Folge (Zn )n∈N von Zufallsvariablen konvergiert P -fast-sicher
gegen eine Zufallsvariable Z, falls P[Zn → Z] = 1 (d. h. P[{ω : Zn (ω) → Z(ω)}] = 1.)
Lemma 6.3.4. Zn → Z P -fast-sicher ⇒ Zn → Z in Wahrscheinlichkeit.
Beweis. Zn → Z P -fast-sicher heißt: Es gibt eine Teilmenge A ⊆ Ω mit P[A] = 1, sodass
für ω ∈ A gilt:
∀ε > 0 ∃N0 (ω) < ∞ : |Zn (ω) − Z(ω)| ≤ ε für alle n ≥ N0 (ω).
6.3 Das Lemma von Borel-Cantelli und das starke Gesetz der großen Zahlen
Wir setzen N0 (ω) = ∞ für alle ω ∈
/ A. Betrachten nun P[|Zn − Z| ≥ ε]:
P[|Zn − Z| ≥ ε] = P[n < N0 (ω)].
Aber
"
lim P[N0 (ω) > n] = P
n→∞
also P[|Zn − Z| ≥ ε] → 0.
#
\
{N0 (ω) > n} = P[N0 (ω) = ∞] = 0,
n
64
Herunterladen