Stochastik 1 (SS 2008) Prof. Dr. A. Steland RWTH Aachen

Werbung
Stochastik 1 (SS 2008)
Prof. Dr. A. Steland
RWTH Aachen
Institut für Statistik und Wirtschaftsmathematik
1
Stochastik 1
Dieses ist ein vorläufiges Skript, damit Sie Ihre Mitschrift abgleichen können.
Es erhebt keinen Anspruch auf Korrektheit und ist auch ständigen Änderungen
unterworfen. Bitte teilen Sie uns (Tipp-) Fehler und Inkonsistenzen mit.
A. Steland
KAPITEL 1
Der Wahrscheinlichkeitsbegriff
1. Die Kolmogorov-Axiome
Definition 1.1.
Sei Ω 6= ∅ eine Menge und F ⊂ Pot(Ω). F heißt σ-Algebra oder Ereignisalgebra (über Ω), falls
(i) Ω ∈ F,
(ii) F ist komplementstabil, d.h.
A∈F
⇒
Ac ∈ F
∀A ∈ F,
(iii) F ist σ -stabil, d.h.
{An : n ∈ N} ⊂ F
⇒
[
An ∈ F.
n∈N
Die Elemente von F heißen Ereignisse. (Ω, F) heißt Messraum.
Also: Eine σ-Algebra ist ein System von Teilmengen von Ω, das abgeschlossen
ist bezüglich der Bildung von Komplementen und abzählbaren Vereinigungen und
zudem Ω enthält.
Sprechweise: A ∈ F ist eingetreten, wenn der wahre Versuchsausgang w ∈ Ω ein
Element von A ist.
Lemma 1.2.
F sei eine σ-Algebra (über Ω). Dann gilt:
(i) ∅ ∈ F,
3
4
1. DER WAHRSCHEINLICHKEITSBEGRIFF
(ii) Fist ∩-stabil, d.h.
A, B ∈ F
⇒
A∩B ∈F
(iii) F ist σ - ∩ -stabil d.h.
{An : n ∈ N} ⊂ F
∞
\
⇒
An ∈ F.
n=1
Beispiele 1.3.
(i) F = {∅, Ω} ist die triviale σ-Algebra (gröbste σ-Algebra).
(ii) F = Pot (Ω) ist die feinste σ-Algebra.
⊂
(iii) F = {∅, A, Ac , Ω} mit ∅ =
6 A 6= Ω.
(iv) F = {A ⊂ Ω : A höchstens abzählbar oder Ac höchstens abzählbar.}
(v) Der Schnitt von σ-Algebren ist wieder eine σ-Algebra.
Definition und Lemma 1.4.
Sei ∅ =
6 B ⊂ Ω und F eine σ-Algebra über Ω. Dann ist
B ∩ F = {B ∩ A : A ∈ F}
eine σ-Algebra über B, die Spur-σ-Algebra. Ist E ⊂ Pot(Ω) ein beliebiges Mengensystem, dann ist
σ(E) = {A ⊂ Ω : A ∈ F
\
=
F
gilt für alle σ − Algebren
F
mit
E⊂F
F σ−Algebra
die von E erzeugte σ-Algebra.
Beispiel und Definition 1.5. (Erzeugte σ-Algebra)
(i) σ({∅}) = {∅, Ω}
(ii) σ({A}) = {∅, A, Ac , Ω}
(iii) Wähle als Erzeuger die Menge aller halboffenen Intervalle
E = {(a,b] :
−∞ < a ≤ b < ∞,
Dann heißt
B := B(R) := σ(E)
a,b ∈ R}.
E ⊂ F}
1. DIE KOLMOGOROV-AXIOME
5
Borel’sche σ-Algebra über R. Man kann zeigen: B $ Pot(R). Alternative Erzeuger: offene Mengen, abgeschlossene Mengen.
(iv) Für Ω = Rn wählt man als Erzeuger das System der halboffenen ndimensionalen Intervalle,
En =
{(a,b] :
a, b ∈ Rn ,
a ≤ b},
wobei
(a, b] = {x ∈ Rn :
ai < x i ≤ b i ,
i = 1, · · · , n}
für Vektoren a = (a1 , · · · , an ), b = (b1 , · · · , bn ) ∈ Rn . B = σ(En ) heißt
Borel’sche σ-Algebra über Rn .
Definition 1.6. (Kolmogorov-Axiome)
Sei Ω 6= ∅ und F eine σ−Algebra über Ω. Eine Abbildung P : F → [0,1] heißt
Wahrscheinlichkeitsmaß (kurz: W-Maß) oder Wahrscheinlichkeitsverteilung (kurz: (W-Verteilung)) auf (Ω,F), falls
(i) P (A) ≥ 0 ∀A ∈ F
(ii) P (Ω) = 1
(Nicht-Negativität)
(Normierung)
(iii) {An }n∈N ⊆ F, An
paarweise disjunkt
!
∞
∞
[
X
⇒P
An
=
P (An )
n=1
n=1
(σ-Additivität)
Das Tripel (Ω, F, P ) heißt Wahrscheinlichkeitsraum (kurz: W-Raum).
Definition 1.7.
Ein W-Raum (Ω, F, P ) heißt Laplace’scher W-Raum, wenn Ω = {w1 , . . . , wK }
endlich ist, F = Pot (Ω), und P jedem Elementarereignis {w}, w ∈ Ω, dieselbe
Wahrscheinlichkeit zuordnet, d.h.
1
, w ∈ Ω.
K
P heißt dann auch diskrete Gleichverteilung auf Ω.
P ({w}) =
6
1. DER WAHRSCHEINLICHKEITSBEGRIFF
Bemerkung 1.8.
Mitunter kann man eine Partition A1 , . . . , Ak von Ω finden, d.h.
A1 ∪ · · · ∪ AK = Ω,
Ai ∩ Aj = ∅,
i 6= j,
mit
1
, i = 1, . . . , K.
K
Dann ist ({A1 , · · · , AK }, Pot ({A1 , · · · , AK }), P ) ein Laplace’scher W-Raum.
P (Ai ) =
Proposition 1.9.
Es sei (Ω, F, P ) ein W-Raum und seien A, B ∈ F.
(i) P (∅) = 0
(ii) P (A ∪ B) = P (A) + P (B),
(iii) P (B\A) = P (B) − P (A),
falls A ∩ B = ∅
sofern A ⊂ B.
c
(iv) P (A ) = 1 − P (A)
(v) Aus A ⊂ B folgt P (A) ≤ P (B)
(vi) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P
S
(vii) P ( ni=1 Ai ) ≤ ni=1 P (Ai ) für alle A1 , . . . , An ∈ F (Subadditivität)
Satz 1.10. (Siebformel von Sylvester-Poincaré)
Sei (Ω, F, P ) ein W-Raum und {An : n ≥ 1} ⊂ F. Dann gilt
!
n
n
X
[
X
P
Ak =
P (Ak ) −
P (Ai1 ∩ Ai2 )
k=1
1≤i1 <i2 ≤n
k=1
+
X
P (Ai1 ∩ Ai2 ∩ Ai3 ) ∓ · · ·
1≤i1 <i2 <i3 ≤n
+ (−1)n+1
P
n
\
k=1
!
Ak
KAPITEL 2
Diskrete Wahrscheinlichkeitsräume und Urnenmodelle
1. Diskrete Wahrscheinlichkeitsräume
Definition und Lemma 2.1.
Ω 6= ∅ sei eine höchstens abzählbare Menge. Ist P ein Wahrscheinlichkeitsmaß
auf F = Pot(Ω), dann heißt (Ω, P ) diskreter Wahrscheinlichkeitsraum. P
kann dann vermöge
P (A) =
X
A ∈ F,
p(w),
w∈A
durch eine Abbildung p : Ω → [0,1] mit
X
p(w) = 1
w∈Ω
definiert werden. p heißt Zähldichte oder Wahrscheinlichkeitsfunktion.
Lemma 2.2.
Ist (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, dann gibt es genau eine Funktion p : Ω → [0,1] mit
(∗)
P (A) =
X
p(w),
∀A ⊂ Ω.
w∈A
Es gilt: p(w) = P ({w}), w ∈ Ω. Somit ist P die Zähldichte.
Charakterisierung der σ-Additivität für Wahrscheinlichkeitsmaße auf ∞-lichen
diskreten Wahrscheinlichkeitsräumen (wird wirklich benötigt!).
Lemma 2.3.
Ω sei eine abzählbare unendliche Menge und P : Pot(Ω) → R eine Abbildung mit
(i) 0 ≤ P (A) ≤ 1 ∀A ∈ Pot(Ω)
(ii) P (Ω) = 1
7
8
2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE
(iii) P (A1 ∪ A2 ) = P (A1 ) + P (A2 ),
falls A1 ∩ A2 = ∅, A1 , B2 ∈ Pot(Ω)
(endliche Additivität).
Dann gilt
X
P ({w}) ≤ 1.
w∈Ω
Folgende Aussagen sind äquivalent
(1)
X
P ({w}) = 1
w∈Ω
(2)
P (A) =
X
P ({w}) ∀A ∈ Pot(Ω)
w∈A
(3)
P
∞
[
i=1
!
Ai
=
∞
X
P (Ai ), ∀{Ai } ⊂ Pot(Ω), Ai
i=1
paarweise disjunkt (σ-Additivität).
Definition 2.4.
Sei Ω 6= ∅ abzählbar und w ∈ Ω fest, dann heißt die durch
(
1, w ∈ A,
εw (A) = 1A (w) =
0, w 6∈ A,
definierte Wahrscheinlichkeits-Verteilung εw : Pot(Ω) → [0,1] Dirac-Verteilung
oder Dirac-Maß (Einpunktverteilung) im Punkt w ∈ Ω.
Definition 2.5.
Sei (Ω, F, P ) ein diskreter Wahrscheinlichkeitsraum. Dann heißt
T : supp(P ) = {w ∈ Ω : P ({w}) > 0}
Träger von P.
Lemma 2.6.
(Ω, F, P ) sei ein diskreter Wahrscheinlichkeitsraum. Dann gilt
X
P (A) =
P ({w}) · εw (A), A ⊂ Ω
w∈supp(P )
(P ist die gewichtete Summe von Dirac-Maßen).
1. DISKRETE WAHRSCHEINLICHKEITSRÄUME
9
Beispiel 2.7. (Problem des Chevalier de Méré, 1607-1685)
Man würfelt mit 3 Würfeln. Was ist wahrscheinlicher: Augensumme 11 oder 12?
Modell
Ω = {w = (w1 , w2 , w3 ) : wi ∈ {1, . . . , 6}, i = 1,2,3},
(∗)
1
1
, ∀w ∈ Ω.
=
3
6
216
p(w) = P ({w}) =
Wahrscheinlichkeitsraum: (Ω, F, P ),
wi : i-ter Wurf.
F = Pot(Ω) und P das durch (∗) festge-
legte Wahrscheinlichkeitsmaß (Laplace-Raum).
Relevante Ereignisse
|A|
,
|Ω|
|B|
B = {w ∈ Ω : w1 + w2 + w3 = 12}, P (B) =
.
|Ω|
A = {w ∈ Ω : w1 + w2 + w3 = 11}, P (A) =
Bestimme |A| und |B|.
A : 6, 4, 1 B : 6, 5, 1
6, 3, 2
6, 4, 2
5, 5, 1
6, 3, 3
5, 4, 2
5, 5, 2
5, 3, 3
5, 4, 3
4, 4, 3
4, 4, 4
Also:
A =
{alle 3! P ermutationen von (6, 4, 1)}
6
∪{alle 3! P ermutationen von (6, 3, 2)}
6
∪{(5, 5, 1), (5, 1, 5), (1, 5, 5)}
3
∪{alle 3! P ermutationen von (5, 4, 2)}
6
∪{(5, 3, 3), (3, 5, 3), (3, 3, 5)}
3
∪{(4, 4, 3), (4, 3, 4), (3, 4, 4)}
3
→ |A| = 27
10
2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE
B =
{alle 3! P ermutationen von (6, 5, 1)}
∪{alle 3! P ermutationen von (6, 4, 2)}
∪{(6, 3, 3), (3, 6, 3), (3, 3, 6)}
∪{(5, 5, 2), (5, 2, 5), (2, 5, 5)}
∪{alle 3! P ermutationen von (5, 4, 3)}
∪{(4, 4, 4)}
→ |B| = 25
27
25
>
= P (B).
216
216
De Méré bemerkte diesen Unterschied, konnte ihn aber nicht beweisen.
⇒
P (A) =
Beispiel 2.8. (Spielabbruch)
Zwei Spieler spielen eine Folge von Spielen. Gewinnwahrscheinlichkeit: jedes Mal
für jeden
1
2
Spieler unabhängig. Beide Spieler bringen den gleichen Einsatz ein.
Es gewinnt derjenige, der als erster 10 Spiele gewonnen hat.
Spielstand nach 15 Spielen:
A 8 Spiele gewonnen
B 7 Spiele gewonnen
Durch ein unvorhergesehenes Ereignis werden beide gezwungen, ihre Spielfolge
abzubrechen. Man einigt sich, das Geld entsprechend der Gewinnchancen aufzuteilen.
Ansatz 1 Spätestens nach vier weiteren Spielen wäre alles entschieden.
16 mögliche Spielverläufe
AAAA
AABB
ABBB
AAAB
ABAB
BABB
AABA
ABBA
BBAB
ABAA
BAAB
BBBA
BAAA
BABA
BBBB
BBAA
|{z}
| {z }
| {z }
A gewinnt ≥ 3× A gewinnt 2× B Sieger
(5)
|
(6)
{z
A Sieger (11)
(5)
}






A gewinnt 1 ×





← B gewinnt 4 ×
2. KOMBINATORIK UND URNENMODELLE
11
Aus Symmetriegründen sind alle Spielverläufe gleichwahrscheinlich. A ist bei 11
Spielverläufen Sieger, B bei 5
⇒ A müsste
11
16
des Geldes bekommen, B
5
.
16
So argumentierte Pascal 1654 in einem Brief an Fermat.
Ansatz 2 Einwand: Die meisten Spielverläufe treten nicht wirklich ein, da meist
vorher der Sieger schon feststeht. Tatsächlich mögliche Spielverläufe
W ahrscheinlichkeit
1
4
1
8
1
16
1
8
1
16
AA
ABA
ABBA
BAA
BBAA
BABA
| {z }
1
16
1
8
1
16
1
16
ABBB
BBB
BABB
BBAB
1
16
|{z}
|{z }
11
16
A Sieger
W ahrscheinlichkeit
|{z}
5
16
B Sieger
A gewinnt bei 6 Spielverläufen, B bei 4. Also
6
10
zu
4
10
?
Nein! Denn: Spielverläufe sind nicht gleichwahrscheinlich. (s.o.)
Berücksichtigt man die unterschiedlichen Wahrscheinlichkeiten, erhält man dasselbe Ergebnis wie beim Ansatz 1.
2. Kombinatorik und Urnenmodelle
Erinnerung: Laplace-Raum
Ω = {w1 , . . . , wn } , |Ω| = n
F = Pot(Ω),
P (A) =
P ({w}) =
1
, ∀w ∈ Ω,
n
|A|
, A ∈ F.
|Ω|
Berechnung von P (A) erfordert das Abzählen von A und Ω. Dies erfordert kombinatorische Überlegungen.
Abstraktion: |◦ ◦ ◦| Urne mit Kugeln
12
2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE
Oft ist eine Rückführung auf die Urnenmodelle möglich.
Man kann vier Situationen unterscheiden
mit Zurücklegen (Wiederholung)
Ziehen
ohne Zurücklegen (ohne Wiederholung)
in Reihenfolge (→ Tupel)
Ziehen
ohne Reihenfolge (→ Mengen, oder geordneter Tupel)
Urnenmodell I
Ziehen mit Zurücklegen, in Reihenfolge
ΩI = {w = (w1 , . . . , wk ) : wi ∈ {1, . . . , n},
= {1, . . . , n}k
i = 1, . . . , k}
(kartesischesP rodukt)
Es gilt : |ΩI | = nk
Urnenmodell II
Ohne Zurücklegen, in Reihenfolge
ΩII = {w = (w1 , . . . , wn ) : wi 6= wj
|ΩII | = n(n − 1) · . . . · (n − k + 1) =
für i 6= j,
n!
(n − k)!
1 ≤ i, j ≤ n}
= : nk
= : (n)k
2. KOMBINATORIK UND URNENMODELLE
13
Für k = n ist |ΩII | = n!, nk = 0 für k > n. ΩII ist die Menge der Permutationen
der Zahlen 1, . . . , n : Jede Permuation π : {1, . . . ,n} → {1, . . . , n} kann durch
den Vektor
(π(1), π(2), . . . , π(n)) ∈ ΩII
angegeben werden.
Urnenmodell III
Ziehen ohne Zurücklegen, ohne Reihenfolge.
Man kann sortierte Tupel
ΩIII = {(w1 , . . . , wk ) ∈ {1, . . . , n} k : w1 < · · · < wk }
Relevant ist nur welche Kugel gezogen wurde, nicht wann Sie gezogen wurde.
(Vergleiche: Lotto), oder Teilmengen verwenden:
0
ΩIII = {A ⊂ {1, . . . , n} :
Bijektion: π : ΩIII
→
|A| = k}
0
ΩIII
Für w = (w1 , . . . , wk ) ∈ ΩIII definiere
π(w) = {w1 , . . . , wk }.
0
Da w1 < · · · < wk gilt |π(w)| = |{w1 , . . . , wk | = k, also
π(w) ∈ ΩIII .
Injektivität:
Seien
0
0
0
w = (w1 , . . . , wk ), w = (w1 , . . . , wk ) ∈ ΩIII
0
mit w 6= w . Dann existiert ein i ∈ {1, . . . , k} mit
0
wi 6= wi
⇒ {(w1 , . . . , wk }
k
π(w)
=
6
0
0
{w1 , . . . , wk }
k
0
π(w )
14
2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE
Surjektivität:
Sei A = {a1 , . . . , ak } mit a1 , . . . , ak ∈ {1, . . . , n} und |A| = k vorgegeben. Dann
existiert eine Permutation p, so dass
ap(1) < · · · < ap(k)
Also gilt(ā) = (ap(1) , . . . , ap(k) ) ∈ ΩIII
und wir erhalten
π(ā) = {ap(1) , . . . , ap(k) } = {a1 , . . . , ak } = A.
0
Abzählen von ΩIII = {A ⊂ {1, . . . , n} : |A| = k}.
Definiere die surjektive Abbildung
0
π̄ : ΩII → ΩIII
durch (w1 , . . . , wk )
π̄
7→
{w1 , . . . , wk } (π̄ ist wie π definiert, jedoch auf ΩII ).
Urbilder von {w1 , . . . , wk } sind alle k! Permutationen der Elemente w1 , . . . , wk .
0
⇒ ΩII hat (k!) mal so viele Elemente wie ΩIII
0
⇒ |ΩIII | =
|ΩII |
nk
=
k!
k!
Definition 2.9.
Für r ∈ R und n ∈ N definiert man den Binomialkoeffizient nr durch
r
r(r − 1) · . . . · (r − n + 1)
.
=
n
n!
Man setzt noch 0r = 1.
Für n ∈ N und k ∈ {0, . . . , n} gibt nk die Anzahl der Möglichkeiten an, aus einer
n-elementigen Teilmenge eine k-elementige auszuwählen.
Alternativ:
Man hat die Äquivalenzrelation
0
0
(w1 , . . . , wk ) ∼ (w1 , . . . , wk ) : ⇔
∃ P ermutation p = (p(1), . . . , p(n))
von 1, . . . , n mit
0
wp(i) = wi ,
Zeige:
i = 1, . . . , k.
2. KOMBINATORIK UND URNENMODELLE
15
(i) ∼ ist Äquivalenzrelation
(ii) ΩIII = ΩII / ∼ Menge der Äquivalenzklassen.
Jede Äquivalenzklasse kann durch den Repräsentanten (w1 , . . . , wk ) mit w1 <
· · · < wk beschrieben werden. Jede Äquivalenzklasse hat genau k! Elemente. Man
hat
n
n!
n
=
=
,
k
(n − k)! k!
n−k
Für k > n setze nk = 0.
Mit 0! = 1 gilt dann
n
n
=
,
k
k−k
∀ n ≥ 0,
1 ≤ k ≤ n.
k = 0, . . . , n
(Anzahl der k-elementigen Teilmengen, 0-elementige Teilmenge ist ∅).
Urnenmodell IV
Ziehen mit Zurücklegen, ohne Reihenfolge
ΩIV = {(w1 , . . . , wk ) ∈ {1, . . . , n}k : w1 ≤ · · · ≤ wk }
↑
wegen Zurücklegen.
ΩIV entspricht der Menge der Äquivalenzklassen von ΩI unter der Äquivalenzrelation ∼ wie oben. Repräsentanten (w1 , . . . , wn ) mit w1 ≤ . . . ≤ wk .
Ordne jedem (w1 , . . . , wk ) ∈ ΩIV das Tupel
0
0
0
(w1 , . . . , wk ) mit w1 = wi + i − 1
0
zu. Dann sind die wi strikt geordnet,
0
0
w1 < · · · < wn
0
e III gegeben,
und wi ∈ {1, . . . , n+k−1}. Hierdurch ist eine Bijektion δ : ΩIV → Ω
wobei
e III = {(w0 , . . . , w0 ) ∈ {1, . . . , n + k − 1}k : w0 < · · · < w0 }
Ω
1
k
1
k
16
2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE
(Dies ist gerade ΩIII , wenn man n durch n + k − 1 ersetzt.)
e III | =
⇒ |Ω
n+k−1
= |ΩIV |
k
d Injektivität von δ:
w, w
e ∈ ΩIV mit w 6= w
e
⇒wi 6= wei für ein i
⇒(δ(w))i = wi + i − 1 6= wei + i − 1 = (δ(w))
e i
⇒δ(w) 6= δ(w).
e
Surjektivität von δ:
0
e III ⇒ w10 < · · · < w0 .
Sei w ∈ Ω
k
Wähle
0
w = (w1 , . . . , wn ) mit wi = wi − i + 1
0
0
⇒(δ(w))i = wi − i + 1 + (i − 1) = wi ,
i = 1, . . . , k
0
⇒δ(w) = w .
b
Alternative Herleitung (wie erklärt man’s Nichtmathematikern?)
Buchführung über die Ziehung in der Praxis:
∧
Strichliste mit n Feldern = n Kugeln. Vermerke durch Striche, wie oft die jeweilige Kugel gezogen wurde
1 2
3
... n
II I III
⇒ Jede Strichprobe im Modell ΩIII ist durch die Anordnung der n − 1 großen
Striche und k kleinen Striche bestimmt.
Man hat insgesamt n − 1 + k Striche (Objekte). Wählt man von den n − 1 + k
Strichen k aus und macht aus ihnen kleine und aus den anderen große Striche,
dann erhält man eine zulässige Stichprobe. Offensichtlich erhält man hierdurch
2. KOMBINATORIK UND URNENMODELLE
17
auch alle Stichproben. Hierfür gibt es genau n−1+k
Möglichkeiten. Es folgt also:
k
n−1+k
ΩIV =
k
Lemma 2.10. Newton’sche Binomialformel
n X
n
n
(x + y) =
xk y n−k
k
k=u
Übersicht:
Ziehen mit Zurücklegen Ziehen ohne Zurücklegen
in Reihenfolge
|ΩI | = nk
ohne Reihenfolge |ΩIV | =
n+k−1
k
|ΩII | = (n)k
|ΩIII | = nk
Definition und Lemma 2.11. (Multinomialkoeffizient)
Die Anzahl der Möglichkeiten, eine Menge A der Mächtigkeit k in n Teilmengen
A1 , . . . ,An der Mächtigkeit k1 , . . . ,kn , k1 + · · · + kn = k, aufzuteilen, ist durch den
Multinominalkoeffizienten
k
k!
:=
k 1 ! · . . . · kn !
k1 , . . . , k n
k
gegeben. (Man setzt k1 ,...,k
: = 0, falls die Bedingung nicht erfüllt ist.)
n
Beispiel 2.12.
k = 6 Fotos sollen auf n = 3 Seiten eines Fotoalbums verteilt werden, so dass
• auf Seite 1 ein Foto,
• auf Seite 2 drei Fotos und
• auf Seite 3 zwei Fotos sind.
18
2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE
Wieviele Möglichkeiten hierfür gibt es?
Lösung:
6
6!
6·5·4·3·2·1
=
=
1 3 2
1! 3! 2!
1·3·2·2
= 20.
Beispiel 2.13. (Geburtstagsproblem)
Gegeben:
Wahrscheinlichkeit pk , mit der von k ausgewählten Personen mindestens zwei an
demselben Tag Geburtstag haben.
Modell:
∧
Urne mit 365 Kugeln = Geburtstag. Ziehe k Mal mit Zurücklegen in Reihenfolge
ΩI = {(w1 , . . . , wk ) : wi ∈ {1, . . . , 365}, i = 1, . . . , k}
wi : Geburtstag der i-ten ausgewählten Person, i = 1, . . . , k.
Laplace’scher Wahrscheinlichkeitsraum: |ΩI | = 365k
Ereignis Ek , dass kein Geburtstag doppelt vorkommt, ist:
Ek = {(w1 , . . . , wk ) ∈ Ω : wi 6= wj ,
∀ i 6= j, i,j = 1, . . . , k}
Also: Ek = ΩII ⊂ ΩI , so dass |Ek | = Card(Ek ) = 365k
⇒ pk = P (Ēk ) = 1 − P (Ek ) = 1 −
k
10
23
(365)k
365k
50
pk 0.12 0.51 0.97
Beispiel 2.14. (Hashing)
Speichere k Objekte in einem Array der Länge n, k ≤ n. Wähle den Speicherplatz
zufällig aus. Ist ein Platz schon vergeben, dann spricht man von einer Kollision.
Bezeichne Ank das Ereignis einer Kollision.
Modell: Ω = ΩI , Laplace’scher Wahrscheinlichkeitsraum.
nk
qnk = P (Acnk ) = P (Ek ) = k
(analog zu Beispiel 2.13.)
n
2. KOMBINATORIK UND URNENMODELLE
19
Analog: Zuordnung von Aufgaben an Prozessoren/Personen.
Wir wollen eine obere Schranke für qnk bestimmen.
Lemma 2.15.
Es gilt im Modell von Beispiel 2.14.
qnk ≤ exp −
(k − 1)k
2n
= : q̃k
Beispiel 2.16. (Lotto)
Lotto: n = 49 Kugeln, k = 6 Ziehungen ohne Zurücklegen. Ziehungsergebnis wird
durch die Mengen {x1 , . . . , x6 }, xi ∈ {1, . . . , 49}, i = 1, . . . , 6 dargestellt.
⇒ Modell: ΩIII als Laplace-Raum.
P ( 6 Richtige“) =
”
1
49
6
=
1
13.983.816
Gesucht: P ( 4 Richtige “) = ?
”
Heuristik: Von den sechs Richtigen müssen genau vier ausgewählt werden ( 64
Möglichkeiten) , von den 43 übrigen Kugeln genau zwei ( 43
Möglichkeiten).
2
⇒ Insgesamt gibt es also 64 · 43
Möglichkeiten.
2
Ein allgemeines Modell hierfür ist eine Urne mit S = 6 schwarzen und W = 43
weissen Kugeln.
Definition 2.17.
In einer Urne befinden sich n Kugeln, von denen S schwarz und W weiß sind,
so dass also n = S + W gilt. Es werden nun k Kugeln ohne Zurücklegen
gezogen. Wir wählen als Ergebnisraum ΩIII versehen mit der Laplace-Verteilung.
Die schwarzen Kugeln werden mit den Nummern 1, . . . , S identifiziert, die weißen
mit den übrigen. Das Ereignis Es = genau s Kugeln sind schwarz“ ist dann
”
gegeben durch
Es = {A ⊂ {1, . . . , n} | |A| = k,
| A ∩ {1, . . . , S} | = s}
S
n−S
⇒ |Es | =
·
s
k−s
20
2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE
Die Wahrscheinlichkeit, dass die Stichprobe genau s schwarze Kugeln enthält ist:
S
n−S
·
s
k−s
, s = 0, . . . , k
(∗)
h(s; k, n, S) = P (Es ) =
S+W
k
Da {E0 , . . . , Ek } eine disjunkte Zerlegung von Ω ist, definiert (∗) eine Wahrscheinlichkeitsfunktion auf {0, . . . , k}, die sogenannte hypergeometrische Verteilung.
Wir betrachten nun die Gut-Schlecht-Prüfung in der Qualitätskontrolle: Von der
Tagesproduktion von N Teilen seien S von schlechter und N − S von guter
Qualität. Es werden nun n ausgewählt und geprüft, wobei wir der Einfachheit
halber unterstellen, dass die Stichprobe durch Ziehen mit Zurücklegen gezogen
wird.
Definition 2.18.
In einer Urne befinden sich S schwarze und W weiße Kugeln, N = S + W .
Ziehe Stichprobe vom Umfang n mit Zurücklegen. N n mögliche Stichproben.
Bei jedem Zug hat man
sk Möglichkeiten, genau k schwarze Kugeln aus insgesamt S auszuwählen,
(N −S)n−k Möglichkeiten, n−k weiße Kugeln aus insgesamt N −S auszuwählen.
Es gibt nk Möglichkeiten, die schwarzen Kugeln auf k Plätze zu verteilen:
1 2 3 4
n
◦ • • ◦ ··· ◦
(k-mal und •, (n − k) -mal und ◦)
Die Wahrscheinlichkeit für genau k schwarze Kugeln, 0 ≤ k ≤ n, ist dann gegeben
durch
S
=
b n,k,
N
n
k
· S k (N − S)n−k
=
Nn
k n−k
n
S
N −S
n k
=
p (1−p)n−k
k
N
N
k
S
(Anteil der schwarzen Kugeln). Diese Verteilung heißt BinomialverN
teilung B(n,p), n ist der Stichprobenumfang, p heißt Erfolgswahrscheinlichkeit.
mit p =
2. KOMBINATORIK UND URNENMODELLE
Die Newton’sche Binomialformel liefert:
n X
n k
p (1 − p)n−k = (p + (1 − p))n = 1.
k
i=0
21
KAPITEL 3
Stetigkeit von Wahrscheinlichkeitsmaßen und ein
0-1-Gesetz
In Beispiel c) von Abschnitt 1.1 hatten wir die Folge
1
In = x, x +
, n ∈ N,
n
von Intervallen betrachtet, die anschaulich gegen
I = {x}
konvergiert, und gesehen, dass die Stetigkeitseigenschaft
P (I) = P lim In = lim P (In ) = 0
n→∞
n→∞
gelten sollte. Wir wollen uns daher mit der Konvergenz von Mengen beschäftigen
und die Stetigkeitseigenschaft von Wahrscheinlichkeitsmaßen studieren.
Für festes A ⊂ Ω sei
(
1A (w) = 1(w ∈ A) =
1, w ∈ A
0, w 6∈ A
die Indikatorfunktion von A. (Unterscheide 1A : Ω → [0,1] vom Dirac-Maß
εw : F → [0,1]). Man hat
1A∪B
= max(1A , 1B )
1A∩B
= min(1A , 1B ) = 1A · 1B
1Ac
= 1 − 1A
1A4B = |1A − 1B | (A 4 B = A\B + B\A)
Ferner A ⊆ B ⇒
1A ≤ 1B .
23
24
3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ
Definition 3.1. (Limes von monotonen Folgen von Ereignissen)
(i) Sei F eine σ-Algebra über Ω 6= ∅ und {An } ⊆ F.
{An } heißt isoton,
falls An ⊂ An+1
∀n ∈ N
{An } heißt antiton, falls An ⊃ An+1
∀n ∈ N.
Schreibweisen: {An } %
bzw. {An } &.
(ii) Gilt {An } %, dann heißt
∞
[
lim An =
n→∞
An = {w ∈ Ω | w ∈ An für ein n ∈ N}
n=1
Limes von {An }.
(iii) Gilt {An } &, dann heißt
lim An =
n→∞
∞
\
An = {w ∈ Ω | w ∈ An ,
∀ n ∈ N}
n=1
Limes von {An }.
Erinnerung: Ist {αn } ⊂ R, dann definiert man in der reellen Analysis:
lim inf αn
n
= sup inf αi
i≥n
n
| {z }
monoton wachsend in n
lim sup αn = inf
n
Definition 3.2.
n
sup αi
i≥n
| {z }
monoton f allend in n
3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ
25
(i) Sei {An : n ∈ N} ⊂ F beliebig. dann heißt
∞
[
lim sup An = lim
n→∞
n→∞
Ak =
∞ [
∞
\
Ak
n=1 k=n
k=n
| {z }
fallend in n
Limes superior von {An } und
lim inf An = lim
n→∞
n→∞
∞
\
Ak =
∞ \
∞
[
Ak
n=1 k=n
k=n
Limes inferior von {An }.
(ii) {An } ⊂ F heißt konvergent gegen A ⊂ Ω, wenn
A = lim sup An = lim inf An
n→∞
n→∞
An → A , n → ∞.
Notation:
Interpretation :
{“∞ -viele An treten ein“}
= {w : ∀ n ∈ N : ∃ k ≥ n : w ∈ Ak }
S
T
= ∞
n=1
k≥n Ak = lim supn→∞ An
{“alle bis auf endliche viele der An treten ein“} = {w : ∃ n ∈ N : ∀ k ≥ n : w ∈ Ak }
S
T
= ∞
n=1
k≥n Ak = lim inf n→∞ An
Frage: Sind lim sup An , lim inf An stets Ereignisse?
n
n
(Für F = P ot(Ω) ist das trivial).
Lemma 3.3.
(i) Es sei F eine σ-Algebra und {An : n ∈ N} ⊂ F eine Folge von messbaren
Mengen. Dann gilt:
lim sup An , lim inf An ∈ F
n→∞
n→∞
(ii) Stets gilt:
lim inf An ⊂ lim sup An
n→∞
n→∞
26
3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ
(iii) Man hat die Darstellungen
∞
\
lim inf An = lim
n→∞
n→∞
lim sup An = lim
n→∞
n→∞
k=n
∞
[
Ak
Ak
k=n
Lemma 3.4.
(Ω, F, P ) sei ein Wahrscheinlichkeitsraum, {An } ≤ A. Dann gilt:
(i) Ist {An } %, dann folgt
!
∞
[
P
An = P lim An = lim P (An )
n→∞
n=1
n→∞
(Stetigkeit von unten.)
(ii) Ist {An } &, dann folgt
!
∞
\
P
An = P lim An = lim P (An )
n→∞
n=1
n→∞
(Stetigkeit von P von oben.)
(iii) Stets gilt:
P
lim sup An
= lim P
n→∞
n
P lim inf An
n
= lim P
n→∞
∞
[
P
n=1
(Sub-σ-Additivität)
!
An
≤
∞
X
n=1
Ak
k=n
∞
\
k=n
(iv)
∞
[
!
P (An )
!
Ak
3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ
27
(v)
P lim inf An ≤ lim inf P (An )
n
n
≤ lim sup P (An ) ≤ P
lim sup An
n
n
Basierend auf der allgemeinen Definition
An konvergent ⇔ lim inf An = lim sup An
n→∞
n→∞
überzeugen wir uns noch, dass die Definitionen für isotone und antitone Folgen
sinnvoll sind.
Lemma 3.5.
Seien An ⊂ Ω, n ∈ N
(i) Ist {An : n ∈ N} isoton, dann gilt
lim An = : A =
n→∞
∞
[
An
n=1
(ii) Ist {An : n ∈ N} antiton, dann gilt
lim An = : A =
n→∞
∞
\
An
n=1
Lemma 3.6. (Borel-Cantelli)
Gilt
∞
X
P (An ) < ∞,
n=1
dann folgt
P (An , ∞ − oft) = P
lim sup An
= 0.
n→∞
Beispiel 3.7.
Eine Münze wird ∞-oft geworfen, wobei mit Wahrscheinlichkeit p ∈ (0,1) Kopf
erscheint. (Ein Computer erzeugt eine zufällige Binärfolge, wobei mit Wahrscheinlichkeit p eine 1 generiert wird). Es sei Ak das Ereignis, dass unter den
Würfen mit den Nummern 2K , 2k + 1, . . . , 2k+1 − 1, k mal hintereinander Kopf
28
3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ
erscheint. Letzteres habe stets Wahrscheinlichkeit pk .
Behauptung: P (“Ak tritt ∞-oft ein “) = 0, falls p <
1
2
KAPITEL 4
Bedingte Wahrscheinlichkeiten
Sei A ∈ F ein Ereignis mit Eintrittswahrscheinlichkeit P (A).
Frage: Wie ändert eine (Vor-)Information/Bedingung B ∈ A ( B ist (schon)
”
eingetreten“) die Eintrittswahrscheinlichkeit für A?
Gesucht: Bedingte Wahrscheinlichkeit von A gegeben B → P (A|B)
Beispiel 4.1.
(i) Intuition: P ( Stau“) < P ( Stau“ | Ostermontag“)
”
”
”
A = Download dauert ≤ 20 sec “, B = Vormittag“
”
”
P (A) > P (A|B)
(ii) Würfelwurf:
Person 1: würfelt mit einem Würfel und kennt das Ergebnis
(→ keine nichttrivialen Wahrscheinlichkeiten)
Person 2: erfährt von Person 1 nichts!
→ Ω = {1, . . . , 6}, Laplace-Experiment
P ( 2“) = P ({2}) = 16
”
Person 3: erfährt von Person 1, dass eine gerade Zahl gewürfelt wurde.
→ Ω = {2,4,6}, Laplace-Experiment
P ( 2“) = 13 .
”
Ereignis A = {2}, Information: B = {2,4,6}.
Bedingte Wahrscheinlichkeit sollte liefern P (A|B) = 13 ,
wenn man mit dem Wahrscheinlichkeitsraum von Person 2 arbeitet.
(iii) Ziehe aus einer Urne mit 2 weißen und 3 schwarzen Kugeln ohne Zurücklegen.
29
30
4. BEDINGTE WAHRSCHEINLICHKEITEN
Intuition:
P (“2-te Kugel schwarz“| “1. Kugel weiß“) = 43
Ω = {(w1 , w2 ) | w1 , w2 ∈ {1, . . . , 5}, w1 6= w2 }, |Ω| = 5 · 4 = 20
weiße Kugeln: 1,2
schwarze Kugeln: 3,4,5
A = “2. Kugel schwarz“ = {(i, j) | i ∈ {1, . . . , 6} , j ∈ {3,4,5}}
= {(1, 2) , . . . , (1,5), (2,1), . . . , (2,5)}
B = “1. Kugel weiß“
A ∩ B = {(1,3), (1,4), (1,5), (2,3), (2,4), (2,5)}
Unter der Bedingung B können nur noch Ausgänge ω ∈ B eintreten, B
bildet die Menge der
”
möglichen Fälle“, Teilmengen von B bilden die
”
günstigen Fälle“. Man hat |A ∩ B| = 6 und |B| = 8, so dass
“P (A|B)“ =
|A ∩ B|
6
=
=
|B|
8
6
20
8
20
=
P (A ∩ B)
.
P (B)
Definition und Lemma 4.2.
Es sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Für jedes feste B ∈ F mit P (B) >
0 wird durch
P (A ∩ B)
, A ∈ F,
P (B)
ein Wahrscheinlichkeitsmaß auf (Ω, F) definiert. P (·|B) heißt bedingte WahrP (A|B) :=
scheinlichkeit (bedingte Verteilung) unter der Bedingung B.
Bemerkung 4.3.
Man kann P (·|B) auch als Wahrscheinlichkeitsmaß auf dem Teilraum B ⊂ Ω
versehen mit der Spur-σ-Algebra B ∩ F betrachten. D.h.: (B, B ∩ F, P (·|B)) ist
ein Wahrscheinlichkeitsraum. Man hat für A ∈ B ∩ F :
A = B ∩ F für ein F ∈ F
4. BEDINGTE WAHRSCHEINLICHKEITEN
Daher folgt: P (A|B) = P (B ∩ F |B) =
0
0
P (F ∩B)
P (B)
31
= P (F |B)
0
Gilt A = B ∩ F für F ∈ F mit F 6= F , dann erhält man ebenfalls
P (A|B) = P (F 0 |B) =
P (F 0 ∩ B)
P (F ∩ B)
=
= P (F |B).
P (B)
P (B)
Also ist P (·|B) auf B ∩ F wohldefiniert.
Lemma 4.4.
T
Seien A, B, A1 , . . . , An ∈ A , P (A) > 0, P (B > 0) und P ( ni=1 Ai ) > 0.
Dann gilt:
(i)
P (A|B) =
P (A)
P (B|A)
P (B)
(ii)
P (A ∩ B) = P (A|B)P (B) = P (B|A) · P (A)
(iii)
P
n
\
!
Ai
i=1
!
!
n−1
n−2
\
\
= P An Ai P An−1 Ai · · · P (A3 |A1 ∩ A2 )P (A2 |A1 )P (A1 )
i=1
i=1
!
n
i−1
Y
\
=
P Ai Aj
i=1
j=1
Beispiel 4.5.
Wir wollen die Wahrscheinlichkeit berechnen, dass bei einem Skatspiel drei Spieler genau ein As haben. Sei Ai = Spieler i hat genau ein As“, i = 1,2,3.
”
Gesucht: P (A1 ∩ A2 ∩ A3 ) = P (A1 ) P (A2 |A1 ) P (A3 |A1 ∩ A2 )
Modell:
32
4. BEDINGTE WAHRSCHEINLICHKEITEN
Wir können annehmen, dass die 32 gewünschten Karten in der folgenden Reihenfolge ausgeteilt werden:
10 Karten an Spieler 1 


10 Karten an Spieler 2  in dieser Reihenfolge
y
10 Karten an Spieler 3
2 → Skat
Dann gilt:
P (A1 ) =
P (A2 |A1 ) =
P (A3 |A1 ∩ A2 ) =
4
1
28
9
32
10
3 19
1
9
22
10
2 10
1
9
12
10
(hypergeometrisch!)
Somit erhalten wir:
P (A1 ∩ A2 ∩ A3 ) ≈ 0,0556
Satz 4.6. (totale Wahrscheinlichkeit, Satz von Bayes)
Seien A, Bn ∈ F, n ∈ N, Bn paarweise disjunkt,
A ⊂
∞
[
Bn .
(= Ω meist)
n=1
Dann gilt
(i)
P (A) =
∞
X
P (A|Bn ) P (Bn )
n=1
(wobei man P (A|Bn ) P (Bn ) = 0 setzt, wenn P (Bn ) = 0)
4. BEDINGTE WAHRSCHEINLICHKEITEN
33
(ii) Baye’sche Formel. Falls P (A) > 0, dann gilt:
P (A|Bk ) P (Bk )
P (Bk |A) = P∞
.
n=1 P (A|Bn ) P (Bn )
Beispiel 4.7.
Serienartikel werden auf drei Fertigungsanlagen parallel gefertigt. Die Anteile an
der Produktion seien gegeben durch
Anlage i
P (Ai )
1
2
3
0.3 0.2 0.5
mit Ai : Artikel wird auf Anlage i produziert“, i = 1,2,3. Die Ausschussraten der
”
Anlagen seien bekannt:
i
1
2
3
P (B|Ai ) 0.05 0.03 0.09
(a) Die Wahrscheinlichkeit P (B) für das Ereignis B = zufällig ausgewähltes
”
Stück ist fehlerhaft“ berechnet sich zu
P3
P (B) =
i=1 P (B|Ai ) P (Ai ) = 0,066 = 6,6%
(b) Für die Wahrscheinlichkeit, dass ein einwandfreies Stück auf Anlage 3
produziert wurde, ergibt sich
P (B c |A3 )P (A3 )
P (A3 |B c ) = = P
= 0,487
c
i P (B |Ai )P (Ai )
(P (B c |Ai ) = 1 − P (B|Ai ) , da P (·|Ai ) Wahrscheinlichkeitsverteilung).
Beispiel 4.8.
Von einer Millionen Münzen sei eine falsch und die übrigen fair. Ziehe zufällig
eine Münze und werfe diese 20 Mal. Wie wahrscheinlich ist es, dass die Münze
34
4. BEDINGTE WAHRSCHEINLICHKEITEN
fair ist, wenn 20 Mal Zahl beobachtet wurde? Mit den Ereignissen
A: faire Münze wird gezogen“
”
B: 20 Mal Zahl“
”
erhalten wir
1M io − 1
= 1 − 10−6 , P (Ac ) = 10−6
1M io.
P (B) = P (B|A)P (A) + P (B|Ac )P (Ac )
20
1
=
· (1 − 10−6 ) + 1 · 10−6 ≈ 0,2 · 10−5
2
P (A) =
und hieraus die gesuchte bedingte Wahrscheinlichkeit
P (A)
= 0,4881
P (A|B) = P (B|A) ·
| {z } P (B)
20
( 12 )
Beispiel 4.9.
Ein Diagnoseverfahren für eine Krankheit habe folgende Eigenschaften:
- mit Wahrscheinlichkeit 0,9 wird ein Kranker als krank erkannt
- mit Wahrscheinlichkeit 0,05 wird ein Gesunder als krank eingestuft. (FalschPositiv-Rate).
B = Diagnoseverfahren liefert den Befund: krank“, G = Person gesund.“
”
”
Die Krankheit sei selten: 1 % der Bevölkerung krank.
Gesucht: Wahrscheinlichkeit, dass eine zufällig ausgewählte Testperson gesund
ist, falls die Diagnose einen Befund liefert, also die Fehlerrate P (G|B).
Dies ist eine relevante Wahrscheinlichkeit für die Beurteilung von Screenings.
Lösung: Gegeben sind die folgenden (bedingten) Wahrscheinlichkeiten.
P (B|Gc ) = 0,9
P (B|G) = 0,05
P (Gc ) = 0,01
4. BEDINGTE WAHRSCHEINLICHKEITEN
35
Daraus folgt:
P (B) = P (B|Gc )P (Gc ) + P (B|G)P (G)
= 0,0585
und somit
P (B|G) =
P (B|G)P (G)
= 0,846
P (B)
Das Ergebnis hängt stark von P (B|G) ab:
P (B|G) P (G|B)
0,01
0,52
0,001
0,1
Nur für sehr kleine Werte von P (B|G) erhält man bei seltenen Krankheiten akzeptable Falsch-Positiv-Raten.
KAPITEL 5
Stochastische Unabhängigkeit
Heuristik:
Sind A, B unabhängig“, dann sollte gelten:
”
P (A|B) = P (A)
und
P (B|A) = P (B),
sofern P (A) > 0, P (B) > 0.
Die Kenntnis (Information) von B ändert nicht die Wahrscheinlichkeit für A.
Beispiel 5.1.
Aus einer Urne mit zwei weißen und drei schwarzen Kugeln werden zwei Kugeln
mit Zurücklegen gezogen.
Ω = {(i,j) | 1 ≤ i,j ≤ 5} , |Ω| = 52 = 25
weiße Kugeln: 1,2
schwarze Kugeln: 3,4,5
A = zweite Kugel schwarz“ = {(i,j) | j ∈ {3,4,5} , i ∈ {1, . . . ,5}}
”
|A| = 5 · 3
B = erste Kugel weiß“ = {(i,j) | i ∈ {1,2} , j ∈ {1, . . . ,5}}
”
|B| = 2 · 5 = 10
15
3
10
2
=
, P (B) =
=
25
5
25
5
6
P (A ∩ B) =
25
6
3
P (A|B) = 25
= P (A)
2 =
5
5
P (A) =
37
38
5. STOCHASTISCHE UNABHÄNGIGKEIT
Dies ist im Einklang mit unserer Intuition: Die Ziehungen beeinflussen sich nicht,
da die gezogenen Kugeln zurückgelegt werden. Da
P (A|B) = P (A)
folgt
P (A ∩ B) = P (A|B)P (B) = P (A) · P (B)
Definition 5.2.
Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ F heißen
unabhängig, wenn P (A ∩ B) = P (A) · P (B).
Lemma 5.3.
(i) A,B stochastisch unabhängig ⇒ A,B c sowie Ac ,B c stochastisch unabhängig
(ii) Gilt P (B) > 0, dann folgt
A, B stochastisch unabhängig ⇔ P (A|B) = P (A)
(iii) Ist A Nullmenge, d.h. P (A) = 0, dann gilt:
A, B stochastisch unabhängig ∀B ∈ F.
Bemerkung 5.4.
Ob Ereignisse A, B unabhängig sind, hängt von dem verwendeten Wahrscheinlichkeitsmaß ab! Illustration: Sei Ω = {1,2,3}, A = {1}, B = {1,2}
P = ε1 (Dirac-Verteilung in 1)
Q = Laplace-Verteilung
⇒ P (A ∩ B) = ε1 ({1}) = 1 = P (A) · P (B)
5. STOCHASTISCHE UNABHÄNGIGKEIT
⇒ A, B unabhängig unter P .
Aber:
Q(A ∩ B) = Q({1}) =
1
3
Q(A) · Q(B) = Q({1}) · Q({1,2}) =
1
1 2
· =
6
3 3
3
⇒ A, B stochastisch abhängig unter Q !
Beispiel 5.5.
Eine gefälschte Münze, (K: Kopf, Z: Zahl) werde zweimal geworfen. Es gelte:
P (Z) = p ∈ (0,1),
P (K) = 1 − p.
Wähle Ω = {K,Z}2 und betrachte die Ereignisse
A = Z im 1. Wurf“= {(Z, Z), (Z,K)}
”
B = einmal Zahl“= {(Z, K), (K,Z)}
”
Man erhält
P (A) = p2 + p (1 − p) = p
P (B) = 2p (1 − p)
A ∩ B = {(Z, K)}
P (A ∩ B) = p (1 − p)
A, B stochastisch unabhängig ⇔ P (A ∩ B) = P (A) · P (B)
⇔ p (1 − p) = p · 2p (1 − p)
⇔ 2p = 1
1
⇔p= .
2
39
40
5. STOCHASTISCHE UNABHÄNGIGKEIT
Definition 5.6.
Eine Familie {Ai : i ∈ I} ⊂ F, I 6= ∅, heißt paarweise stochastisch unabhängig, wenn
P (Ai ∩ Aj ) = P (Ai ) P (Aj ) ∀i, j ∈ I, i 6= j.
Beispiel 5.7.
2-facher Würfelwurf: Ω = {1, . . . , 6}2 , |Ω| = 36. Betrachte Ω als Laplace’schen
Wahrscheinlichkeitsraum. Sei Ai = Gerade Augenzahl bei Wurf i“, i = 1,2.
”
A1 = {(i,j) : i ∈ {2,4,6}, j ∈ {1, . . . , 6}, |A1 | = 3 · 6 = 18
A2 analog P (A1 ) = P (A2 ) =
18
36
= 12 .
A1 ∩ A2 = {(i,j) : i,j ∈ {2,4,6}}, |A1 ∩ A2 | = 3 · 3 = 9
⇒ P (A1 ∩ A2 ) =
9
36
=
1
4
= P (A1 )P (A2 )
Also: A1 , A2 sind stochastisch unabhängig.
A3 = Summe der Augenzahlen gerade“.
”
A1 ∩ A3 = {(i,j) : i ∈ {2,4,6}, j ∈ {2,4,6}} = A1 ∩ A2
⇒ P (A1 ∩ A3 ) = P (A1 ∩ A2 ) = 21 , d. h. A1 , A3 unabhängig.
Analog: A2 , A3 unabhängig ⇒ {A1 ,A2 ,A3 } ist Familie paarweise stochastisch unabhängiger Ereignisse.
Frage: Gilt auch P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ) = 81 ?
A1 ∩ A2 ∩ A3 = Beide Würfe gerade und Summe gerade“= A1 ∩ A2
”
⇒ P (A1 ∩ A2 ∩ A3 ) = 21 6= 81
Aus der paarweisen stochastischen Unabhängigkeit folgt also nicht die Gültigkeit
einer allgemeinen Produktformel.
Definition 5.8.
Eine Familie {Ai · i i ∈ I} ⊆ F, I 6= ∅,
heißt (vollständig) stochastisch
unabhängig, falls für jede endliche Teilmenge ∅ =
6 J ⊂ I gilt:
!
\
Y
P
Aj =
P (Aj )
j∈J
j∈J
5. STOCHASTISCHE UNABHÄNGIGKEIT
41
Bemerkung 5.9.
(i) {Ai } stochastisch unabhängig ⇒ {Ai } paarweise unabhängig
(ii) Jede Teilfamilie einer stochastisch unabhängigen Familie ist wieder stochastisch unabhängig.
(iii) Für 3 Mengen liefert die Bedingung der vollständigen stochastischen Unabhängigkeit ein System von Gleichungen
P (A ∩ B)
= P (A) · P (B)
P (A ∩ C)
= P (A) · P (C)
→ stochastisch
P (B ∩ C)
= P (B) · P (C)
unabhängig
paarweise
P (A ∩ B ∩ C) = P (A)P (B)P (C) ← zusätzlich!!
Satz 5.10.
(i) Ist {Ai : i ∈ I} stochastisch unabhängig, k 6∈ I und Ak ein Ereignis mit
P (Ak ) ∈ {0,1}, dann ist {Ai : i ∈ I ∪ {k}} stochastisch unabhängig.
(ii) Jede Teilfamilie einer unabhängigen Familie ist unabhängig. Eine Familie
ist genau dann unabhängig, wenn jede endliche Teilfamilie unabhängig
ist.
(iii) {Ai : i ∈ I} sei stochastisch unabhängig, Bi ∈ {Ai , Aci , ∅, Ω} ∀i
⇒ {Bi : i ∈ I} stochastisch unabhängig
(iv) Sei I = {1, . . . , n}, n ∈ N, endlich. {Ai : i ∈ I} ist stochastisch unabhängig genau dann, wenn
!
P
\
i∈I
Bi
=
n
Y
P (Bi )
i=1
für jede Wahl Bi ∈ {Ai , Aci }, i = 1, . . . , n
42
5. STOCHASTISCHE UNABHÄNGIGKEIT
Bemerkung 5.11.
{Ai : i ∈ I} sei eine Familie stochastisch unabhängiger Ereignisse. Dann gilt:
!
!
n
n
[
\
P
Ai = 1 − P
Aci
i=1
i=1
=1−
n
Y
(1 − P (Ai ))
i=1
Beispiel 5.12.
n Forschergruppen testen, ob die sinnlose Substanz S Krebs heilt. Jeder Test
liefere unter P mit Wahrscheinlichkeit p = 0,05 eine Fehlentscheidung. Man hat
pn = P ( Mindestens ein Test liefert Fehlentscheidung“) = 1 − (1 − p)n
”
Für p = 0,05 erhält man:
n
10
20
pn 0,401... 0,642...
Bemerkung 5.13.
Für x ∈ [0,1] gilt: 1 − x ≤ e−x
denn:
−x
e
∞
X
xk
x2 x3 x4
=
=1−x+
−
+
∓ ...
k!
2
3!
4!
|
{z
}
|
{z
}
k=0
Es gilt
xk
xk+1
x
>
⇔ 1>
⇔ x<k+1
k!
(k + 1)!
k+1
Also e−x ≥ 1 − x für x ∈ [0,1].
5. STOCHASTISCHE UNABHÄNGIGKEIT
43
Lemma 5.14. (Borel-Cantelli, II)
Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und {An } ⊂ F.
(i)
∞
X
P (An ) < ∞ ⇒ P
lim sup An
= 0
n→∞
n=1
(ii) Sei {An } eine unabhängige Familie, dann gilt
∞
X
P (An ) = ∞ ⇒ P lim sup An = 1
n→∞
n=1
Umformulierung: (de Morgan!)
(i) Für Folgen {An } ⊂ F von Ereignissen gilt:
∞
X
P (Acn ) < ∞ ⇒ P lim inf An = 1
n→∞
n=1
(ii) {An } ⊂ F stochastisch unabhängig ⇒
∞
X
P (Acn )
= ∞ ⇒ P lim inf An
n→∞
n=1
= 0
Merke: Für stochastisch unabhängige An , n ∈ N, sind lim supn An und lim inf n An
entweder sichere oder unmögliche Ereignisse!
Folgerung 5.15.
Existiert eine stochastisch unabhängige Teilfolge {Ank } von {An } mit
∞
X
P (Ank ) = ∞,
k=1
dann folgt
P (lim sup An ) = 1.
n
44
5. STOCHASTISCHE UNABHÄNGIGKEIT
Beispiel 5.16.
(i) Würfeln (s.o.), Ω = {(wn )n∈N : wn ∈ {0,1}, n ∈ N}
P
An = Im n-ten Wurf eine 6“, P (An ) = 61
n P (An ) = + ∞
”
P (lim supn An ) = 1
⇒
Mit Wahrscheinlichkeit 1 würfelt man ∞-viele Sechsen!
(ii) ∞-liche Folge von Urnen. Ziehe jeweils eine Kugel (unabhängig). Urne
n enthält n − 1 schwarze und 1 weiße Kugel. An = Ziehe weiße Kugeln
”
aus Urne n“ ⇒ P (An ) = n1
P
Klar n P (An ) = ∞ ⇒ P (lim supn An ) = 1.
Mit Wahrscheinlichkeit 1 werden unendlich viele weiße Kugeln gezogen!
(iii) Wie (ii), wobei Urne n nun n2 − 1 schwarze und 1 weiße Kugel enthalte.
⇒ P (An ) = n12 .
P
⇒ n P (An ) < ∞ ⇒ P (lim supn An ) = 0. Mit Wahrscheinlichkeit 1
werden nur endlich viele Kugeln gezogen.
(iv) wie (i)
Wie wahrscheinlich ist es, ∞-oft zwei Sechsen hintereinander zu würfeln?
Bn,n+1 = {w ∈ Ω : wn = 1 und wn+1 = 1, für ein n ∈ N}
⇒ {Bn,n+1 : n ∈ N} nicht stochastisch unabhängig, aber die Teilfolge
{B2n ,2n+1 : n ∈ N}!
Da P (Bn,n+1 ) =
1
36
⇒ P (lim supn Bn,n+1 ) = 1
KAPITEL 6
Produktexperimente
Ziel: Mathematisches Modell für Zufallsexperimente, die aus der unabhängigen
Hintereinanderausführung von Teilexperimenten bestehen. Das i-te Teilexperiment sei durch den diskreten Wahrscheinlichkeitsraum (Ωi , Fi , Pi ) beschrieben,
i = 1, . . . , n, Fi = P ot(Ωi ).
Definition 6.1.
Der Produktraum (Ω, F, P ) ist der diskrete Wahrscheinlichkeitsraum
Ω : = Ω1 × . . . × Ωn = {(ω1 , . . . , ωn ) : ωi ∈ Ωi , i = 1, . . . , n}
versehen mit der σ-Algebra F = P ot(Ω) und der Wahrscheinlichkeitsfunktion
p(ω1 , . . . , ωn ) : =
n
Y
p(ωi ),
i=1
d.h.
P ({(ω1 , . . . , ωn )}) =
n
Y
P ({ωi })).
i=1
Das Wahrscheinlichkeitsmaß P auf F heißt Produktmaß (anders: ProduktverN
teilung) und wird mit P = ni=1 Pi bezeichnet.
Beispiel 6.2. (Binomialmodell)
n-fache unabhängige Wiederholung eines binären Experimentes mit Erfolgswahrscheinlichkeit p ∈ [0,1].
Wir setzen
Ωi = {0,1},
pi (0) = 1 − p
45
pi (1) = p,
i = 1, . . . , n.
46
6. PRODUKTEXPERIMENTE
Dann ist Ω = Ω1 × . . . × Ωn = {0,1}n mit
Pn
Pn
P ({ω}) = p(ω1 , . . . , ωn ) = p i=1 ωi (1 − p) i=1 (1−ωi ) = pk (1 − p)n−k ,
P
P
wobei k = ni=1 ωi . Für das Ereignis An = {ω ∈ Ω | ni=1 ωi = k} gilt P (Ak ) =
k
n
p (1 − p)n−k . Man erhält also die Binomialverteilung.
k
Betrachte die i-te Koordinatenabbildung
π i : Ω → Ωi ,
ω ∈ Ω 7→ ωi ,
i = 1, . . . , n.
Für Ereignisse A ⊂ Ω der Form
A = A1 × . . . × An , mit Ai ⊂ Ωi ,
∧
(A = im i-ten Teilexperiment ereignet sich Ai , i = 1, . . . , n“)
”
gilt
n
\
A=
{πi ∈ Ai } = {ω ∈ Ω | ωi = πi (ω) ∈ Ai , i = 1, . . . , n}
| {z }
i=1
= {ω ∈ Ω | π(ω) = ωi ∈ Ai }
X
X
X
⇒ P (A) =
p(ω) =
···
p1 (ω1 ) · . . . · pn (ωn )
ω∈A1 ×...×An
ω1 ∈A1
ωn ∈An
(∗)
!
=
X
p1 (ω1 )
!
· ... ·
ω1 ∈A1
X
pn (ωn )
=
ωn ∈An
n
Y
Pi (Ai )
i=1
Ferner gilt (k fest)
(∗∗)
P (πk ∈ Ak ) = P ({ω ∈ Ω | πk (ω) = ωk ∈ Ak }) = Pk (Ak )
|
{z
}
im k-ten Teilexperiment ereignet sich An
= Ω × . . . × Ω × Ak × Ω × . . . × Ω
Die Wahrscheinlichkeit, dass im k-ten Teilexperiment Ak eintritt, stimmt mit der
vorgegebenen Wahrscheinlichkeit tatsächlich überein!
(∗) und (∗∗) liefern (da alles für beliebige Ai gilt):
!
\
Y
P
{πj ∈ Aj } =
Pj ({πj ∈ Aj })
I∈J
j∈J
∀J ⊂ {1, . . . , n}
6. PRODUKTEXPERIMENTE
47
⇒ Ereignisse, die etwas über verschiedene Teilexperimente aussagen, sind unabhängig. Produktmodelle genügen aber nicht!
Beispiel 6.3.
Die wirtschaftliche Entwicklung im II. Quartal hänge ab von der Entwicklung im
I. Quartal.
Modell für I. Quartal:
1
1
Ω1 = {−1, +1}, p (−1) = , p (+1) =
2
2
Ergebnisraum für II. Quartal
Ω2 = {−1, 0, +1}
Darstellung als Wahrscheinlichkeitsbaum
Wenn eine gute Entwicklung im I. Quartal eintritt, dann trete eine gute Entwicklung im II. Quartal mit Wahrscheinlichkeit
1
4
ein. Bei einer schlechten Ent-
wicklung im I. Quartal trete dies nur mit der Wahrscheinlichkeit
1
8
ein. Man stelle
dies durch einen Wahrscheinlichkeitsbaum dar!
Allgemeiner Rahmen: Teilexperimente (Stufen) i = 1, . . . , n mit ni möglichen
Ausgängen (Zuständen). Relevant sind die Übergangswahrscheinlichkeiten, mit
denen man vom Zustand k in den Zustand e wechselt.
Diese können durch eine Matrix (Tabelle) angegeben werdem:
Pi = (Pi (k,l))h,l
Am Beispiel:
p(ω1 ,ω2 ) −1 0 1
−1
+1
1
4
1
4
5
8
1
2
1
8
1
4
1
1
48
6. PRODUKTEXPERIMENTE
In den Zeilen stehen Wahrscheinlichkeitsverteilungen!
Für festes ω1 ∈ Ω1 definiert die Zuordnung
P (A2 | {ω1 }) =
X
p (ω1 , ω2 ), A2 ⊂ Ω2 ,
ω2 ∈A2
ein Wahrscheinlichkeitsmaß auf (Ω2 , F2 ), F2 = P ot(Ω2 ). Wir betrachten nun
diese Zuordnung als Abbildung K : Ω1 × P ot(Ω2 ) → R :
K (ω, A) : = P (A | {ω}), ω ∈ Ω1 , A2 ⊂ Ω2 .
Definition 6.4.
(Ω, P ot(Ω)) und (Ω0 , P ot(Ω0 )) seien diskrete Wahrscheinlichkeitsräume. Eine Abbildung
K : Ω × P ot(Ω0 ) → R
(ω, A) 7→ K (ω, A)
heißt Übergangskern (Wahrscheinlichkeitskern) von Ω nach Ω0 , falls für
jedes feste ω ∈ Ω die Abbildung
K (ω, ·) : P ot(Ω0 ) → R
eine Wahrscheinlichkeitsverteilung auf dem Messraum (Ω0 , P ot(Ω0 )) definiert.
Definition und Satz 6.5.
Sei (Ω1 , P ot(Ω1 ), P1 ) ein Wahrscheinlichkeitsraum und (Ω1 , P ot(Ω1 )), 2 ≤ i ≤ n,
seien diskrete Messräume. Für i = 1, . . . , n − 1 seien
Ki : (Ω1 × · · · × Ωi , P ot(Ωi+1 )) → [0,1]
6. PRODUKTEXPERIMENTE
Übergangskerne. Dann ist der Produktraum Ω :=
Q
49
i=1
Ωi versehen mit P ot(Ω)
und dem W-Maß P gegeben durch
P ({ω1 , . . . , ωn })
= P ({ω1 }) · K1 (ω1 , {ω2 }) · K2 ((ω1 , ω2 ), {ω3 }) · . . . · Kn−1 ((ω1 , . . . , ωn−1 ), {ωn })
ein Wahrscheinlichkeitsraum. Diese Konstruktion heißt auch Kopplung von Wahrscheinlichkeitsräumen.
Eine Verallgemeinerung des Ziehens mit bzw. ohne Zurücklegen.
Beispiel 6.6. (Polya’s Urnenmodell für die Ausbreitung von Krankheiten)
Gegeben: Urne mit W weißen und S schwarzen Kugeln. Sei c ∈ Z.
c ≥ 0 : Lege c Kugeln der gezogenen Farbe zusätzlich in die Urne.
c < 0 : Entnehme |c| Kugeln der gezogenen Farbe.
c = 0 entspricht dem Ziehen mit Zurücklegen
c = −1: Ziehen ohne Zurücklegen
c > 0: Schon gezogene Farben werden wahrscheinlicher.
Modell: Ω = {(ω1 , . . . , ωn ) : ωi ∈ {0,1}, i = 1, . . . , n}
ωi = 0 : weiß in der i-ten Ziehung.
ωi = 1 : schwarz in der i-ten Ziehung.
Betrachte
A = {(0,1,0,0)} = A1 ∩ A2 ∩ A3 ∩ A4
mit
A1 = {ω1 = 0}, A2 = {ω2 = 1}, A3 = {ω3 = 0}, A4 = {ω4 = 0}
S
W
P (A1 ) =
, P (A2 | A1 ) =
W +S
(W + c) + S
W +c
W + 2c
P (A3 | A1 ∩A2 ) =
, P (A4 | A1 ∩A2 ∩A3 ) =
(W + c) + (S + c)
(W + 2c) + (S + c)
Übergangskerne:
K1 (ω1 , {ω2 }) =











W
,
W +c+S
W +c
,
W +c+S
S+c
,
W +c+S
S
,
W +c+S
ω1 = 1, ω2 = 0
ω1 = 0, ω2 = 0
ω1 = 1, ω2 = 1
ω1 = 0, ω2 = 1
50
etc.
6. PRODUKTEXPERIMENTE
KAPITEL 7
Zufallsvariablen
(Ω, F, P ) sei ein Wahrscheinlichkeitsraum. Oft interessiert nicht die vollständige
Beschreibung ω ∈ Ω eines Ausgangs, sondern nur ein Aspekt“ V (ω). Man ver”
dichtet daher die Information durch eine Abbildung X : Ω → S.
Für allgemeine Wahrscheinlichkeitsräume sind hier nicht alle Abbildungen zugelassen. Daher betrachten wir gleich den allgemeinen Rahmen. Zur Illustration
dient uns die überschaubare Welt der diskreten Zufallsvariablen, bei denen der
Wertebereich höchstens abzählbar ist.
1. Abbildungen und Wahrscheinlichkeiten
Definition 7.1.
(Ω, F, P ) sei ein Wahrscheinlichkeitsraum. Eine Abbildung X : (Ω, F, P ) →
(S, S), ω 7→ X(ω) ∈ S, ω ∈ Ω, heißt (S-wertiges) Zufallselement oder F − S
messbar, falls für alle B ∈ S gilt:
X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} = {X ∈ B} ∈ F.
Das heißt: X −1 (B) ⊂ F.
Für (S, S) = (R, B) spricht man von einer Zufallsvariablen.
Für (S, S) = (Rn , B n ), n ∈ N, spricht man von einem Zufallsvektor.
Bemerkung 7.2.
(i) Die inverse Abbildung X −1 bildet Teilmengen von S auf Teilmengen von
Ω ab. Messbarkeit heißt: Urbilder von Ereignissen sind wieder Ereignisse.
51
52
7. ZUFALLSVARIABLEN
(ii) Nimmt man in der Definition für S
- den Folgenraum S = {(xt )t∈Z : xt ∈ R}, dann heißt X stochastischer
Prozess in diskreter Zeit. (→ Zeitreihen)
- den Funktionenraum S = C[0, T ] aller stetigen Funktionen f : [0, T ] → R,
dann heißt X stochastischer Prozess mit stetigen Trajektorien.
Die inverse Abbildung ist vertauschbar mit diversen Mengenoperationen:
Lemma 7.3.
Sei T : Ω → S eine Abbildung. Die Urbildfunktion T −1 : P ot(S) → P ot(Ω) hat
die folgenden Eigenschaften:
(i) T −1 (∅) = ∅, T −1 (S) = Ω
(ii) T −1 (A\B) = T −1 (A) \ T −1 (B)
T
T
A
(iii) T −1
= i∈I T −1 (Ai )
i
i∈I
S
S
−1
(Ai )
(iv) T −1
i∈I Ai =
i∈I T
für alle A, B, Ai ∈ P ot(S), i ∈ I.
Definition 7.4.
Ist X : (Ω, A, P ) → [R, B] eine Zufallsvariable, dann definiert
PX (B) = P (X ∈ B) = P ({ω | X(ω) ∈ B}), B ∈ B
eine Wahrscheinlichkeitsverteilung auf (R, B). PX heißt Verteilung von X.
Zwei Zufallsvariablen X und Y heißen identisch verteilt, wenn gilt:
PX = PY ⇔ PX (A) = PY (A) ∀A ∈ B.
d
Notation: X = Y .
1. ABBILDUNGEN UND WAHRSCHEINLICHKEITEN
53
Bemerkung 7.5.
d
Unterscheide X = Y und X = Y !
Beispiel: Werfe zehn Mal eine Euromünze bzw. einen Franken.
X: Anzahl Kopf beim Euro, Y : Anzahl Kopf beim Franken. Also X 6= Y . Aber:
d
X = Y , falls beide Münzen fair.
Lemma 7.6.
Ist X : (Ω, F, P ) → (R, B) eine Zufallsvariable, dann heißt σ(X) = {X −1 (B) :
B ∈ B} die von X erzeugte σ- Algebra.
Beispiel 7.7.
(i) A ∈ F ⇒ σ(1A ) = {A, Ac , ∅, Ω}.
(ii) X Zufallsvariable mit endlich vielen Werten,
X=
n
X
ai 1Ai
i=1
mit a1 , . . . , an ∈ R und A1 , . . . , An ⊂ R
messbar.
o
nS
c
e
e
Dann ist σ(X) = σ({A1 , . . . , An }) =
i∈I Ai : Ai ∈ {Ai , Ai }
Ziel: Einfache Kriterien für Messbarkeit. Ist zum Beispiel X + Y automatisch
eine Zufallsvariable, wenn X, Y Zufallsvariablen sind?
Lemma 7.8.
X : Ω → R ist eine Zufallsvariable (also F − B messbar)
⇔
{X ≤ t} = {X ∈ (−∞, t]} ∈ F, ∀t
⇔
{X < t} ∈ F, ∀t
54
7. ZUFALLSVARIABLEN
Algebraische Operationen
Lemma 7.9.
X, Y seien Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P )
(i) aX + bY ist Zufallsvariable ∀a,b ∈ R
(ii) max(X,Y ) und min(X,Y ) sind Zufallsvariablen
(iii) X · Y ist Zufallsvariable
(iv) Gilt Y (ω) 6= 0 ∀ω ∈ Ω ⇒ X/Y ist Zufallsvariable.
Konvention: Wir schreiben Vektoren meist als Zeilenvektoren (und nicht als
Spaltenvektoren), wenn es der Kontext erlaubt.
Sind X1 , . . . , Xn : (Ω, F, P ) → (R, B) Zufallsvariablen, dann ist es naheliegend,
den Vektor
(X1 , . . . , Xn ) : Ω → Rn
zu betrachten, dessen Bild in Rn liegt. Ein Erzeuger der Borel’schen σ-Algebra
B n auf Rn sind die Mengen der Form
B1 × · · · × Bn , B1 , . . . , Bn ∈ B.
Lemma 7.10.
Die Abbildung (X1 , . . . , Xn ) : Ω → Rn , ω 7→ (X1 (ω), . . . , Xn (ω)), ω ∈ Ω, ist
genau dann messbar, also ein Zufallsvektor, wenn alle Xi , i = 1, . . . , n, Zufallsvariablen sind.
Definition 7.11.
X1 , . . . , Xn seien Zufallsvariablen, d. h.
Xi : (Ω, F, P ) → (R, B), i = 1, . . . , n
1. ABBILDUNGEN UND WAHRSCHEINLICHKEITEN
55
Die Verteilung von Xi1 , . . . , Xim , 1 ≤ i1 < · · · < im ≤ n heißt m-dimensionale
Randverteilung (Marginalverteilung) zu den Koordinaten i1 , . . . , im . Die
Verteilung PX i von Xi heißt i-te Randverteilung (Marginalverteilung),
i = 1, . . . , n.
Relevant : Verteilung von (X1 , . . . , Xn ).
P(X1 ,...,Xn ) (A) = P ((X1 , . . . , Xn ) ∈ A)
(∗)
für Ereignisse A ∈ B n .
Bemerkung 7.12.
(i) Es gilt (Beweis erst später): Die Verteilung P(X1 ,...,Xn ) ist durch die Angabe
aller Wahrscheinlichkeiten
P (X1 ∈ A1 , . . . , Xn ∈ An ), A1 , . . . , An ∈ B
(auf dem oben erwähnten Erzeuger) bestimmt. Randverteilungen genügen
nicht.
Gegenbeispiel: gleiche Ränder, aber unterschiedliche Verteilung!
x0 \ y 0 0 1
x\y 0 1
0
0
1
2
1
1
2
1
2
0
1
2
1
2
1
2
0
1
2
0
1
0
1
2
1
2
1
2
(ii) Ausrechnen von P(Xi1 ,...,Xim ) aus P(X1 ,...,Xn )
P(Xi1 ,...,Xim ) (B) = P ((Xi1 , . . . , Xim ) ∈ B)
= P (Xi1 , . . . , Xim ∈ B, Xj ∈ R, j 6∈ {i1 , . . . , im })
56
7. ZUFALLSVARIABLEN
Einfachster Fall: Endlicher Träger:
X : Ω → X = {x1 , x2 , . . . , xK }
Y : Ω → Y = {y1 , y2 , . . . , yL }
⇒ (X, Y ) : Ω → X × Y
Die Verteilung ist durch Angabe der Wahrscheinlichkeiten
Pkl = P ((X, Y ) = (xk , xl ))
= P (X = xk , Y = yl ), k = 1, . . . , K, l = 1, . . . , L
gegeben (Matrix bzw. Tabelle!)
X \Y
y1
···
yL
Σ
x1
..
.
p11
..
.
· · · p1L
..
.
p1·
..
.
xK
pK1 · · · pKL pK·
p ·1
···
p ·L
1
Die Randverteilungen ergeben sich als Zeilen- bzw. Spaltensummen:
!
L
[
P (X = xk ) = P
{X = xk , Y = yl }
l=1
=
L
X
P (X = xk , Y = yl ) =
L
X
l=1
pkl = pk·
l=1
Für k = 1, . . . , L. Analog
P (Y = yl ) = p·l , l = 1, . . . , L.
Verallgemeinerung auf abzählbar unendliche Mengen X , Y geht analog (∞-dimensionale
Matrizen)
P (X = xk ) =
∞
X
l=1
pkl , P (Y = yl ) =
∞
X
k=1
pkl .
1. ABBILDUNGEN UND WAHRSCHEINLICHKEITEN
57
Beispiel 7.13. (Multinomialverteilung)
Ein Zufallsexperiment liefere eines von m ≥ 2 paarweise disjunkten Ereignissen
Aj ∈ F, j = 1, · · · , m. (Man kann ohne Einschränkung Ω = {1, . . . , m} und
Aj = {j}, j = 1, . . . , m, annehmen.) Setze
pj = P (Aj ), j = 1, · · · , m.
Es gilt:
Pm
j=1
pj = 1. Typische Anwendung: Eine zufällige Beobachtung wird
anhand eines Kriteriums einer von m Kategorien zugeordnet. Wiederhole das
Experiment n Mal und setze
Xj (ω) : =
n
X
1Aj (ω), ω ∈ Ω = {1, . . . ,m}n , j = 1, . . . , m.
i=1
Xj ist die Anzahl der Beobachtungen der Kategorie j.
Gesucht: Verteilung von (X1 , . . . , Xm ) (Kontingenztafel).
für k1 , . . . , km
P (X1 = k1 , . . . , Xm = km ) = ?
P
∈ {0, . . . , m} mit m
j=1 kj = n. Jedes n-Tupel (ω1 , . . . , ωn ) mit
genau k1 Einsen, . . . , km Mal m, hat die Wahrscheinlichkeit
pk11 · . . . · pkmm
Jede Zerlegung der Menge {1, . . . , n} in m Teilmengen der Mächtigkeiten k1 , . . . , km
entspricht einem Ausgang ω = (ω1 , . . . , ωn ) mit (X1 , . . . , Xm )(ω) = (k1 , . . . , km ).
n
Hierfür gibt es genau k1 ···k
Möglichkeiten, so dass wir
m
P(X1 ,...,Xm ) ({(k1 , . . . , km )}) = P (X1 = k1 , . . . , Xm = km )
n
n − k1
n − k1 − . . . − km−1
=
·
· ... ·
× pk11 · · · pkmm
k1
k2
km
erhalten. Diese Verteilung heißt Multinomialverteilung (auch: Polynomialverteilung.
Notation: (X1 , . . . , Xm ) ∼ M (n, (p1 , . . . , pm ))
Man zeige: X1 ∼ B(n, p1 ).
58
7. ZUFALLSVARIABLEN
2. Bedingte Verteilungen und Unabhängigkeit
Wir können nun das Konzept der bedingten Wahrscheinlichkeit auf diskrete Zuo.E.
fallsvektoren übertragen: Erinnerung: X : Ω → X ⊂ Rn diskret, falls X =
o.E.
supp(Px ) = {x1 , x2 , . . .} höchstens abzählbar unendlich ist.
Sei (X,Y ) : (Ω, F, P ) → (R2 , B 2 ) diskreter Zufallsvektor. Für y ∈ Y = supp(Py )
und A ∈ B ist
(∗)
P ({X ∈ A} | {Y = y}) =
P (X ∈ A, Y = y)
P (Y = y)
wohldefiniert.
Definition und Lemma 7.14.
In der obigen Situation definiert (∗) ein Wahrscheinlichkeitsmaß, die bedingte
Verteilung von X gegeben Y = y, mit zugehöriger Zähldichte.
p(x|y) = PX | Y =y =
P (X = x, Y = y)
, x ∈ Rn .
P (Y = y)
Für x ∈ X = supp(PX ) ist P (Y ∈ A | X = x) analog definiert.
Bemerkung 7.15.
Es ist üblich, durch die Festlegung
P (X ∈ A | Y = y) = P (X ∈ A), A ⊂ R,
für alle y ∈ R mit P (Y = y) = 0, die durch (∗) gegebene Abbildung von B × Y
auf ganz B × R fortzusetzen. Man spricht dann von einer regulären bedingten
Verteilung.
Man mache sich klar, wie man P (X ∈ A | Y = y) beziehungsweise P (Y ∈
A | X = x) im Fall X , Y endlich“ berechnet!
”
2. BEDINGTE VERTEILUNGEN UND UNABHÄNGIGKEIT
59
Definition 7.16.
Zwei Mengensysteme Y, X ⊂ F einer σ-Algebra F heißen stochastisch unabhängig, wenn für alle A ∈ Y und B ∈ X gilt: A, B stochastisch unabhängig.
Definition 7.17.
Eine Familie {Xi : i ∈ I}, I 6= ∅, von Zufallsvariablen Xi : (Ω, F, P ) →
(R, B), i ∈ I, heißt paarweise stochastisch unabhängig, wenn für alle
i, j ∈ I mit i 6= j die Mengensysteme
Y = Xi−1 (B) und X = Xj−1 (B)
stochastisch unabhängig sind.
Also:
{X, Y } stochastisch unabhängig ⇔ X −1 (B) und Y −1 (B) stochastisch unabhängig
⇔ {X ∈ A} und {Y ∈ B} stochastisch unabhänig ∀A, B ∈ B
⇔ P (X ∈ A, Y ∈ B) = P (X ∈ A) P (Y ∈ B), ∀A, B ∈ B.
Definition 7.18.
Eine Familie {Yi : i ∈ I} von Mengensystemen von F heißt (total) stochastisch unabhängig, wenn für jede endliche Auswahl Yi1 , . . . , Yik , i1 , . . . , ik ∈ I,
gilt:
P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) · . . . · P (Aik )
für alle Ai1 ∈ Yi1 , . . . , Ai2 ∈ Yi2 .
Häufiger Fall: Yi = Fi ⊂ F Unter-σ-Algebren
Unabhängig heißt:
Ai1 , . . . , Aik
↑
↑
Fi1
Fik
stets unabhängig
60
7. ZUFALLSVARIABLEN
(im Sinne der Gültigkeit des Produktsatzes).
Anwenden auf Zufallsvariablen:
Definition 7.19.
Eine Familie {Xi : i ∈ I} heißt stochastisch unabhängig, wenn die induzierten σ-Algebren
Fi = σ(Xi ) = Xi−1 (B), i ∈ I
stochastisch unabhängig sind.
Bemerkung 7.20.
Die Definition 7.19 gilt für beliebige Zufallsvariablen und kann auf Zufallselemente verallgemeinert werden.
Das heißt:
Xi , i ∈ I, unabhängig ⇔ σ(Xi ), i ∈ I, unabhängig
⇔ Xi−1 (B) = {{X2 ∈ A} : A ∈ B}, i ∈ I, unabhängig
⇔ {Xi1 ∈ Ai1 }, . . . , {Xik ∈ Aik } unabhängig
in dem Sinne, dass
P (Xi1 ∈ Ai1 , . . . , Xik ∈ Aik ) = P (Xi1 ∈ Ai1 ) · . . . · P (Xik ∈ Aik )
für alle i1 , . . . , ik ∈ I, k ∈ N. Mit anderen Worten: Immer, wenn man endlich
viele Zufallsvariablen Xi1 , . . . , Xik herausgreift, sind die zufälligen Ereignisse der
Form {Xij ∈ Aij }, Aij ∈ B beliebig, unabhängig.
2. BEDINGTE VERTEILUNGEN UND UNABHÄNGIGKEIT
61
Betrachte die Situtation für |I| = 2 (siehe oben): X, Y unabhängig
P (X ∈ A, Y ∈ B) = P (X ∈ A) P (X ∈ B)
k
k
P(X,Y ) (A × B)
PX ⊗ PY (A × B)
für alle A, B ∈ B. Wir erhalten die
Folgerung 7.21.
X, Y stochastisch unabhängig ⇔ P(X,Y ) = PX ⊗ PY
Lemma 7.22.
X, Y seien diskrete Zufallsvariablen. Dann gilt:
X, Y unabhängig
⇔ P (X ∈ A | Y = y) hängt nicht von y ∈ Y ab, für alle
A ⊂ R.
Bemerkung 7.23.
d
d
Es gelte X = X 0 und Y = Y 0
Sind X, Y stochastisch unabhängig und X 0 , Y 0 stochastisch unabhängig, dann folgt
d
X + Y = X0 + Y 0
denn mit Y = Y (Ω) gilt:
X
P (X + Y ∈ A) =
P (X ∈ A − y | Y = y) P (Y = y)
y∈Y
=
X
=
X
P (X ∈ A − y) P (Y = y)
y∈Y
y∈Y
für alle A ∈ B.
P (X 0 ∈ A − y)P (Y 0 = y) = P (X 0 + Y 0 ∈ A)
62
7. ZUFALLSVARIABLEN
Beispiel 7.24.
X, Y seien stochastisch unabhängige Zufallsvariablen auf einem gemeinsamen
Wahrscheinlichkeitsraum mit
X ∼ Bin(n, p), Y ∼ Bin(m, p)
⇒
d
X=
d
Y =
n
X
i=1
m
X
ξi mit ξ1 , . . . , ξn ∼ Ber(p)
ηi mit η1 , . . . , ηm ∼ Ber(p)
i=1
und ξ1 , . . . , ξn , η1 , . . . , ηm i.i.d. Es folgt:
d
X +Y =
n
X
ξi +
i=1
m
X
ηi ∼ Bin (n + m, p).
j=1
Wir berechnen die bedingte Verteilung von X gegeben X + Y = k.
P (X = j, Y = k − j)
P (X + Y = k)
k−j
n
m
j
n−j
p
(1
−
p)
·
p (1 − p)m−(k−j)
k
k−j
=
n+m
pk (1 − p)n+m−k
k
m
n
P (X = j | X + Y = k) =
=
j
k−j
n+m
k
⇒ X | X + Y = k ist hypergeometrisch verteilt!
i.i.d.
Anmerkung: Konstruktion von Zufallsvariablen ξ1 , . . . , ξn ∼ Ber(p) später.
2. BEDINGTE VERTEILUNGEN UND UNABHÄNGIGKEIT
63
Satz 7.25.
Gegeben seien Zufallselemente
Xi : (Ω, F, P ) → (Si , Si ), i ∈ I,
und messbare Abbildungen
fi : (Si , Si ) → (Si0 , Si0 ), i ∈ I,
(dass heißt fi−1 (Si0 ) ⊂ Si , ∀i, Si0 σ-Algebra auf Si0 ). Dann sind die transformierten
Zufallsvariablen
Yi = fi (Xi ), i ∈ I,
ebenfalls stochastisch unabhängig.
Beispiel 7.26.
Xi = (Xi0 , . . . , XiT ) Kursverlauf Aktie i. Xi , . . . , Xn seien unabhängig. Können
dann die Renditen abhängig sein?
Rit =
Xit − Xi,t−1 t = 1, . . . , T
,
Xi,t−1
i = 1, . . . , n
Ri = (Ri1 , . . . , RiT ) = fi (Xi ), i = 1, . . . , n
⇒ R1 , . . . , Rn unabhängig.
Daher: R1 , . . . , Rn nicht stochastisch unabhängig ⇒ Aktienkurse nicht stochastisch unabhängig.
Lemma 7.27.
Sind Ij ⊂ I, j ∈ J, disjunkte Teilmengen, und
gj : ×j∈J Sj → S
64
7. ZUFALLSVARIABLEN
messbar.
Dann sind
XI j = (Xi )i∈Ij , j ∈ J,
stochastisch unabhängig und auch
Yj = gj (XI j ), j ∈ J.
Beispiel 7.28.
(i)
X1
↓ g1
Y1
X2 X3 X4 X5 . . . Xn−2 Xn−1 Xn
| {z } |
{z
} |
{z
}
↓ g2
↓ g3
↓ g|J|−1
↓ g|J|
Y2
Y3
Y|J|−1
Y|J| .
(ii) (X1 , X2 , X3 ) stochastisch unabhängig.
⇒ X2 , (X1 , X3 ) stochastisch unabhängig
⇒ X23 , | X1 − X3 | stochastisch unabhängig
hier: I1 = {2}, I2 = {1, 3}, J = {1, 2}
g(x) = x2 ,
g2 (x, y) = x + y
Lemma 7.29.
R-wertige Zufallsvariable X und Y sind genau dann stochastisch unabhängig,
wenn f (X) und g(X) stochastisch unabhängig sind für alle f, g :
messbar.
R → R
2. BEDINGTE VERTEILUNGEN UND UNABHÄNGIGKEIT
65
Oftmals ist man an der Verteilung der Summe von Zufallsvariablen X, Y interessiert. Im besonders wichtigen Fall, dass X und Y unabhängig mit Zähldichten f
bzw. g sind, hängt die Verteilung von Z = X + Y nur von f und g ab.
Definition und Satz 7.30.
X und Y seien stochastisch unabhängige Zufallsvariablen auf Z mit Zähldichten
f bzw. g, das heißt
f (k) = P (X = k), g(k) = P (Y = k),
X
X
f (k) =
g(k) = 1.
k∈Z
k ∈ Z,
k∈Z
Die Zähldichte von Z = X + Y ist dann gegeben durch
h(k) = P (X + Y = k) =
X
f (k − j) g(j),
k ∈ Z.
j∈Z
h heißt (diskrete) Faltung von f und g, Notation: h = f ∗ g.
Bemerkung 7.31.
Sind X und Y nicht unabhängig, dann gilt:
h(z) =
X
p(z − j, j),
z ∈ Z,
j∈Z
wobei p(x, y) = P (X = x, Y = y), x, y ∈ Z die gemeinsame Zähldichte von
(X, Y ) ist.
Beispiel 7.32.
X, Y unabhängig identisch verteilt mit Zähldichte
f (k) = pk (1 − p)1−k 1{0,1} (k),
k ∈ Z.
66
7. ZUFALLSVARIABLEN
Für k = 0,1,2:
P (X + Y = k) =
X
f (j) f (k − j) 1{0,1} (j) 1{0,1} (k − j)
j∈Z
=
X
j=0,1
pj (1 − p)1−j pk−j (1 − p)1−(k−j) 1{0,1} (k − j)
{z
}
|
j = k oder j = k − 1
=
X
pk (1 − p)1−k 1{0,1} (k − j)
j=0,1

k
2−k

 p (1 − p) , k = 0
=
2pk (1 − p)2−k , k = 1

 k
p (1 − p)2−k , k = 2
2
=
pk (1 − p)2−k
k
Also
X + Y ∼ Bin(2, p)
KAPITEL 8
Die Verteilungsfunktion
Definition 8.1.
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable mit Wahrscheinlichkeitsverteilung PX . Die Funktion
FX : R → R,
x 7→ PX ((−∞, x])
heißt Verteilungsfunktion zu PX (bzw. X). Notation: FPX oder FX , oder kurz
F . Die Funktion
S(x) = 1 − F (x), x ∈ R,
heißt Überlebensfunktion (survivor function).
Bemerkung 8.2.
(i) Ist pX die Zähldichte von PX , dann ist
X
FX (x) = PX ((−∞, x]) =
pX (z),
x∈R
z≤x
(ii) Schreibweisen:
FX (x) = PX ((−∞, x]) = P (X −1 (−∞, x])
= P ({ω ∈ Ω | X(ω) ∈ (−∞, x]) = P (X ≤ x).
67
68
8. DIE VERTEILUNGSFUNKTION
Lemma 8.3.
(i) FX ist monton wachsend.
(ii) FX ist rechtsseitig stetig.
(iii) limx→−∞ FX (x) = 0,
limx→∞ FX (x) = 1.
(iv) Ist PX diskrete Wahrscheinlichkeitsverteilung ⇒ PX ist durch FX eindeutig bestimmt.
Folgerung 8.4.
(i) FX (x−) = limz↑x FX (x) = P (X < x).
(ii) P (X = x) = FX (x) − FX (x−), x ∈ R.
(iii) Ist FX stetig in x, dann folgt P (X = x) = 0. Ist FX stetig, dann besitzt
die Verteilung von X keine Atome.
(iv) Hat X den Träger X = {x1 , x2 , . . .} mit Wahrscheinlichkeiten P (X =
xk ) = pK , k ∈ N, dann ist FX eine Treppenfunktion mit Sprungstellen
x1 , x2 , . . . und zugehörigen Sprunghöhen p1 , p2 , . . . (siehe unten).
Beispiel 8.5.
(i) Verteilungsfunktion des Punktmaßes in a ∈ R:
F (x) = 1(a ≤ x) = 1[a,∞) (x),
x ∈ R.
(ii) Verteilungsfunktion einer diskreten Verteilung P mit Träger
T = {x1 , . . . , xn } ⊂ R, x1 < · · · < xn
und Zähldichte gegeben durch
pi = P ({xi }), i = 1, . . . , n.
8. DIE VERTEILUNGSFUNKTION
ist
n
X
F (x) =
1(xi ≤ x) pk ,
69
x ∈ R.
i=1
(iii) Verteilungsfunktion einer diskreten Verteilung P auf Z mit Zähldichte
gegeben durch
pi = P ({i}), i ∈ Z,
ist
X
F (x) =
pi 1(i ≤ x),
x ∈ R.
i∈Z
Erinnerung: Riemann-Integral
Z b
n
X
g(x)dx = lim
g(ξni ) (xni − xn,i−1 ),
n→∞
a
i=1
wobei
a = xn0 < · · · < xnn = b,
n ∈ N,
eine Folge von Partitionen von [a, b] mit Feinheit
rn = max (xni − xn,i−1 ) → 0,
1≤i≤n
n → ∞.
Definition 8.6.
Sei F eine Verteilungsfunktion.
Das Riemann-Stieltjes-Integral von g : [a,b] → R bezüglich F ist definiert
durch
Z
n
X
b
g(x) dF (x) = lim
a
n→∞
g(ξni ) (F (xni ) − F (xn,i−1 )),
i=1
wobei a = xn0 < · · · < xnn = b eine beliebige Folge von Partitionen mit rn →
0, n → ∞, ist.
Spezialfälle:
Sei
1)
F (x) =
m
X
i=1
pi 1(−∞,xi ] (x)
70
8. DIE VERTEILUNGSFUNKTION
Treppenfunktion mit Sprungstellen x1 , x2 , . . . und Sprunghöhen 0 ≤ p1 , p2 , . . .
(Verteilungsfunktion eines diskreten Wahrscheinlichkeitsmaßes). Dann gilt
Z b
X
g(x) dF (x) =
pi g(xi )
a
i:xi ∈[a,b]
insbesonders
Z
+∞
g(x) dF (x) =
∞
X
−∞
pi g(xi )
i=1
2) F (x) sei differenzierbar mit Ableitung f (x) := F 0 (x). Dann gilt
Z b
Z b
g(x) dF (x) =
g(x) f (x) dx.
a
a
Beispiel 8.7.
Seien X ∼ f und Y ∼ g unabhängig mit Zähldichten f, g auf Z. Dann ist
X
X + Y ∼ f ∗ g, f ∗ g(k) =
f (k − j) g(j).
j∈Z
Sei G(y) die Verteilungsfunktion von Y , das heißt
X
g(j) 1(j ≤ y).
G(y) =
j∈Z
Dann kann man die Faltung f ∗ g als Riemann-Stieltjes-Integral darstellen:
Z
X
f ∗ g(k) =
f (k − j) g(j) =
f (k − x) g(x) dG(x).
j∈Z
Definition 8.8.
Sei X = (X1 , . . . , Xn ) Zufallsvariable mit Wahrscheinlichkeitsverteilung PX . Die
Funktion
FX : Rn → [0,1],
FX (x) := PX ((−∞, x1 ] ×. . .× (−∞, xn ]),
heißt multivariate Verteilungsfunktion.
x = (x1 , . . . , xn ) ∈ Rn ,
8. DIE VERTEILUNGSFUNKTION
71
Lemma 8.9.
X = (X1 , . . . , Xn ) sei Zufallsvektor mit Verteilungsfunktion F (x) = FX (x), x =
(x1 , . . . , xn ) ∈ Rn . Dann gilt:
(i)
lim F (x1 , . . . , xn ) = F(X1 ,...,Xi−1 ,Xi+1 ,...,Xn ) (x1 , . . . , xi−1 , xi+1 , . . . , xn )
xi →∞
für (x1 , . . . , xi−1 , xi+1 , . . . , xn ) ∈ Rn−1 .
(ii) F ist monoton wachsend in jedem Argument.
(iii) limxi →−∞ F (x1 , . . . , xn ) = 0
(iv) Sind X1 , . . . , Xn unabhängig, dann gilt
F(X1 ,...,Xn ) (x1 , . . . , xn ) =
n
Y
FXi (xi )
i=1
= FX1 (x1 ) · . . . · FXn (xn )
für alle (x1 , . . . , xn ) ∈ Rn .
KAPITEL 9
Ausgewählte diskrete Verteilungen
9.1 Binomialverteilung x ∼ B(u,p)
n
Px (k) =
pk (1 − p)n−k ,
k
k = 0, . . . , n
9.2 Geometrische Verteilung (Modellierung von Wartezeiten, Überlebenswahrscheinlichkeiten...)
Unabhängige Folge von Bernoulli-Experimenten X1 , X2 , . . .
P (Xi = 1) = p ∈ (0,1).
Sei
T = inf{k ∈ N : Xk = 1}
Zeitpunkt des ersten Erfolges. W = T − 1 ist die Wartezeit“ auf den ersten
”
Erfolg beziehungsweise die Anzahl der Misserfolge vor dem ersten Erfolg.
T hat den Wertebereich N und die Zähldichte
pT (k) = P (T = k) = P (x1 = 0, . . . , xk−1 = 0, xk = 1)
= (1 − p)k−1 p,
k = 1,2, . . .
Ferner:
pW (k) = (1 − p)k p, k = 0,1,2, . . .
Man spricht von der geometrischen Verteilung zum Parameter p ∈ [0,1].
73
74
9. AUSGEWÄHLTE DISKRETE VERTEILUNGEN
Bemerkung 9.1.
∞
X
(1 − p)k p =
k=0
p
= 1.
1 − (1 − p)
Zunächst ist P (T ≥ 1) = 1 und mit q = 1 − p
P (T ≥ k) = P (X1 = 0, . . . , Xk−1 = 0) = q k−2 , k = 2,3, . . .
Definiere
T1 = inf {k ∈ N : Xk = 1}
T2 = inf {k > T1 : Xk = 1}
Lemma 9.2.
T1 und T2 − T1 sind unabhängig und identisch verteilt.
Lemma 9.3. Gedächnislosigkeit (Übung)
P (W ≥ k + j | W ≥ k) = P (W ≥ j)
Keine Alterung: In jedem Zeitabschnitt wird ohne Beachtung der Vergangenheit
neu ausgewürfelt, ob ein Ausfall stattfindet.
9.3 Negativ-binomiale Verteilung
Betrachte unendliche Folge unabhängiger und identisch verteilter Bernoulli-Experimente.
Mit X bezeichnen wir die zufällige Anzahl der Misserfolge vor dem r-ten Erfolg.
Es gilt:
9. AUSGEWÄHLTE DISKRETE VERTEILUNGEN
X=k
75
⇔ bei den ersten r + k − 1 Experimenten gab es keine Misserfolge und das
(r +
war ein Erfolg.
k) te Experiment
r+k−1
P (X = k) =
pr−1 q k p
k
|
{z
}
Anzahl der Möglichkeiten, k der
(r + k − 1) Experimente als erfolgreich“
”
auszuwählen.
9.4 Poissonverteilung (Simon-Denis Poisson (1781-1840), französischer Physiker)
Approximation der B(n,p)-Verteilung für große Werte von n und sehr kleine Werte von p. Die Poissonverteilung wird oft zur Modellierung von seltenen (punktförmigen) Ereignissen in einem räumlichen oder zeitlichen Kontinuum verwendet.
Satz 9.4. (Poisson-Grenzwertsatz)
Sei {Xn } eine Folge B(n,pn )-verteilter Zufallsvariablen. Falls ein λ ∈ (0,∞) existiert mit
n pn → λ, n → ∞,
dann gilt für alle k ∈ N0
lim P (Xn = k) = e−λ
n→∞
λk
=: pλ (k).
k!
pλ (k), k ∈ N0 , definiert eine Zähldichte auf N0 .
Eine Zufallsvariable X heißt poissonverteilt zum Parameter λ > 0, wenn X
die Zähldichte pλ besitzt. Notation: X ∼ Poi(λ).
Faltungseigenschaft:
76
9. AUSGEWÄHLTE DISKRETE VERTEILUNGEN
Beispiel 9.5.
Seien X ∼ Poi(λ), Y ∼ Poi(µ) unabhängig, λ, µ > 0.
⇒ Für k ∈ N0 :
X
P (X + Y = k) =
j∈N0
P (X = k − j) P (Y = j)
|
{z
}
= 0, falls k − j < 0 ⇔ j > k
=
k
X
e−λ
j=0
λk−j
µj
e−µ
(k − j)!
j!
k
e−(λ+µ) X
k!
λk−j µj
k!
(k
−
j)!
j!
j=0
|
{z
}
= (λ + µ)k
= e−(λ+µ)
(λ + µ)k
k!
das heißt X + Y ∼ P oi(λ + µ)
allgemein Xi ∼ P oi(λ), i = 1, . . . , n, unabhängig ⇒
Bedingte Verteilung von X gegeben X + Y = n:
X | X + Y = n ∼ Bin n,
Pn
λ
λ+µ
i=1
P
Xi ∼ P oi ( ni=1 λi )
KAPITEL 10
Erwartungswert, Varianz und Momente
Definition 10.1.
X sei eine X -wertige Zufallsvariable mit Zähldichte p. Der Erwartungswert von
X existiert, falls
X
(∗)
|x| p(x) < ∞.
x∈X
Dann heißt die reelle Zahl
E(X) =
X
xp(x)
x∈X
Erwartungswert von X.
Bemerkung 10.2.
(i) Die absolute Konvergenz (∗) stellt sicher, dass der Wert der Reihe
P
x
xp(x)
nicht von der Anordnung der Summanden abhängt.
(ii) Ist Ω = {ω1 , ω2 , . . .} abzählbar und T = {x1 , x2 , . . .} der Träger von X,
dann gilt:
E(X) =
=
X
x
∞
X
xp(x) =
∞
X
xi p(xi )
i=1
xi P ({ω ∈ Ω : X(ω) = xi })
i=1
77
78
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
Hierbei ist
X
xi P ({ω : X(ω) = xi }) =
X(ω)P ({ω}).
ω∈{X=xi }
Man erhält daher
E(X) =
X
X(ω)P ({ω}).
ω∈Ω
(iii) Es gilt für Ereignisse A ∈ F : E1A =
P
ω:1A (ω)=1
d
1 · P ({ω}) = P (A) und
analog E1(X ∈ B) = P (X ∈ B), B ∈ B .
Definition 10.3.
Sei X + = max(0,X) und X − = −min(0,X), so dass X = X + + X − . Falls
EX + = ∞ und EX − < ∞, dann setzt man
E(X) = ∞.
Falls EX − = ∞ und EX + < ∞ dann setzt man
E(X) = −∞.
Beispiel 10.4.
(i) Sei X ∼ Poi(λ), p(k) = e−λ
E(X) =
∞
X
k·e
k=0
= λe
−λ
−λ
λk
,
k!
k ∈ N0 . Man hat
∞
X
λk
λk−1
−λ
= e λ·
k!
(k − 1)!
k=1
∞
X
λk
=λ
k!
k=0
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
(ii) Sei X verteilt nach der Zähldichte
p(k) =
δ
π2k2
, k ∈ N.
Man hat
∞
X
p(k) =
k=1
∞
δ X 1
= 1.
π 2 k=1 k 2
| {z }
=
π2
δ
Da
∞
X
k=1
∞
δ
δ X 1
|k · 2 2 | = 2
= +∞,
π k
π k=1 k
existiert der Erwartungswert nicht!
Lemma 10.5.
Sei {an : n ∈ N} ⊂ R+ und bn =
P∞
j=n
aj , n ∈ N.
Dann gilt
∞
X
bn =
n=1
∞
X
nan
n=1
Satz 10.6.
Sei X eine N0 -wertige Zufallsvariable mit Zähldichte p.
Dann gilt:
E(X) =
∞
X
n=1
np(n) =
∞
X
P (X ≥ n) =
n=1
Beispiel 10.7.
Sei X ∼ Geo(p), p(X = k) = (1 − p)k−1 p, k ∈ N.
∞
X
n=1
(1 − FX (n))
79
80
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
Dann gilt
E(X) =
=
∞
X
n=1
∞
X
P (X ≥ n) =
∞
X
k−1
(1 − p)
p =p·
∞ X
∞
X
(1 − p)n−1 (1 − p)k
n=1 k=0
∞
X
(1 − p)n−1
=p
n=1
=
p(k)
n=1 k=n
n=1 k=n
∞
X
∞
X
∞ X
∞
X
(1 − p)k
|k=0 {z
1
=
p
(1 − p)n−1 =
n=1
}
1
p
Satz 10.8. (Transformationsformel für Erwartungswert)
X sei eine Zufallsvariable mit Werten in X und Zähldichte p. Ist f : X → R eine
Funktion mit
X
| f (x) | p(x) < ∞,
x∈X
dann gilt:
E(f (X)) =
X
f (x)p(x).
x∈X
Beispiel 10.9.
Sei X ∼ P oi(λ) und t ∈ R. Wir können E(etX ) berechnen, ohne die Verteilung
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
81
von etX zu bestimmen:
tX
E(e ) =
∞
X
k=0
tk
−λ
e ·e
∞
X
(λet )k
λk
−λ
=e
k!
k!
|k=0 {z }
t
= eλe
t
eλ(e −1)
Definition 10.10.
X sei eine N0 -wertige Zufallsvariable. Gibt es ein t0 > 0 so dass,
gX (t) = E(tX ), |t| ≤ t0 ,
existiert, dann heißt gX erzeugende Funktion von X.
Gibt es ein t0 > 0, so dass
mX (t) = E(etX ), |t| ≤ t0 ,
existiert, dann heißt mX momenterzeugende Funktion von X.
Satz 10.11. (Transformation für Erwartungswerte, n-dimensional)
X1 , . . . , Xn seien diskrete Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion
p(x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )
und f : Rn → R eine Funktion. Dann gilt
X
E(f (X1 , . . . , Xn )) =
f (x1 , . . . , xn ) p(x1 , . . . , xn ),
(x1 ,...,xn )∈X(Ω)
sofern die Reihe auf der rechten Seite absolut konvergiert.
82
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
Satz 10.12. (Dreiecksungleichung für Erwartungswerte)
Sei X eine Zufallsvariable mit existierendem Erwartungswert. Dann gilt
|E(X)| ≤ E |X|.
Satz 10.13.
X, Y seien Zufallsvariablen, deren Erwartungswerte existieren.
Dann gilt für a, b ∈ R:
(i) E(aX) = aE(X)
(ii) E(X + Y ) = E(X) + E(Y )
(iii) E(b) = b.
(iv) X ≤ Y ⇒ E(X) ≤ E(Y )
(v) E |X + Y | ≤ E |X| + E |Y |
(vi) E |X| = 0 ⇔ P (X 6= 0) = 0.
Satz 10.14.
X, Y seien unabhängige Zufallsvariablen existierendem Erwartungswert.
Dann gilt
E(X · Y ) = E(X) · E(Y )
Lemma 10.15.
Sei gX (t) = E(tX ) und mX (t) = E(etX ). Sind X,Y unabhängig, dann gilt:
gX+Y (t) = gX (t) · gY (t)
mX+Y (t) = mX (t) · mY (t)
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
83
für alle t ∈ R, so dass gX (t) und gY (t) beziehungsweise mX (t) und mY (t) definiert
sind.
Beispiel 10.16.
(i) Gelte X ∼ Ber(p). Dann folgt
E(X) = 0 · P (X = 0) + 1 · P (x = 1) = 1 · p = p
E(X 2 ) =?
(E(X 2 ) 6= EX · EX, da Unabhängigkeit nicht erfüllt!)
Setze Y = X 2 . Dann gilt:
P (Y = 0) = 1 − p, P (Y = 1) = p
⇒ E(X 2 ) = E(Y ) = p
erzeugende Funktion:
gX (t) = E(tX ) = t0 · P (X = 0) + t · P (X = 1)
= 1 − p + t · p,
t ∈ R.
0
gX
(t) = p
monenterzeugende Funktion:
mX (t) = E(etX ) = et·0 · P (X = 0) + et·1 P (X = 1)
= 1 − p + et · p
m0X (t) = pet ,
m0X (0) = p
(= EX).
(ii) X1 , X2 ∼ Ber(p). Dann gilt für Y = X1 + X2
E(X1 + X2 ) = E(X1 ) + E(X2 ) = 2p
84
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
Definition 10.17.
X, Y seien Zufallsvariablen, c ∈ R, k ∈ N.
(i) E((X − c)k ) heißt k-tes Moment von X um c.
c 6= 0: nicht-zentrales Moment
c = 0: zentrales Moment
(ii) Var(X) = E(X − EX)2 heißt Varianz von X.
(iii) Cov(X, Y ) = E(X − EX)(Y − EY ) heißt Kovarianz von X und Y .
(iv) Cor(X,Y ) = √ Cov(X,Y )
heißt Korelationskoeffizient von X und
Var(X)·Var(Y )
Y.
Bemerkung 10.18.
Es gilt der Verschiebungssatz
Cov(X,Y ) = E(X · Y ) − (EX) · (EY )
und somit
Var(X) = E(X 2 ) − (EX)2
denn
(X − EX)(Y − EY ) = X · Y − (EX) · Y − X · (EY ) + (EX) · (EY )
⇒ Cov(X,Y ) = E(X · Y ) − (EX) · (EY ) − E(X)(EY ) + (EX)(EY )
= E(X · Y ) − (EX)(EY )
Beispiel 10.19.
X ∼ Ber(p).
Var(X) = E(X 2 ) − (EX)2 = p − p2 = p(1 − p)
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
Satz 10.20.
Für unabhängige Zufallsvariablen X1 , . . . , Xn gilt:
Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn )
Beispiel 10.21.
(i) Seien X1 , X2 ∼ Ber(p) unabhängig. Dann gilt
Var(X1 + X2 ) = Var(X1 ) + Var(X2 )
= 2 · p(1 − p)
(ii) Seien X1 , . . . , Xn i.i.d. mit σ 2 = Var(X1 ) ∈ [0, ∞). Dann gilt:
!
n
X
Var
Xi = n · Var(X1 ) = n · σ 2
(→ ∞, n → ∞)
i=1
und
Var
n
1 X
Xi
n i=1
!
n
X
1
= 2 · Var
Xi
n
i=1
!
=
1
σ2
2
·
nσ
=
n2
n
(→ 0, n → ∞)
sowie
Var
n
1 X
√
Xi
n i=1
!
=
1
· n · σ2 = σ2
n
(→ σ 2 , n → ∞).
Ungleichungen:
Satz 10.22. (Markov- und Chebychev- (Tschebyschev-) Ungleichung)
Sei X eine Zufallsvariable und ε > 0.
85
86
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
(i)
P ( |X| ≥ ε) ≤
E |X|
ε2
(ii)
P ( |X − EX| ≥ ε) ≤
V ar(X)
ε2
Prognoseintervalle
µ = EX, σ 2 = Var(X) seien bekannt. Setze ε = kσ
⇒ P (|X − µ| ≥ kσ) ≤
σ2
1
= 2
2
2
k σ
k
zum Beispiel k = 3
1
= 0,11 · · ·
9
8
P (|X − µ| ≥ 3σ) ≥
≈ 0,889
9
⇒P (|X − µ| ≥ 3σ) ≤
Für eine beliebige Zufallsvariable X, deren Varianz existiert, gilt:
Mit Wahrscheinlichkeit ≥ 0,889 realisiert sich X in dem Prognoseintervall [µ −
3σ, µ + 3σ].
Lemma 10.23.
X, Y seien Zufallsvariablen.
(i) Aus 0 ≤ |X| ≤ |Y | und E|Y | < ∞ folgt:
EX, E |X| < ∞
(ii) Gilt E|X|k < ∞ für ein k ∈ N, dann existieren auch die Momente niederer Ordnung, das heißt E|X|l < ∞,
2
2
, ∀ 0 ≤ l ≤ k.
(iii) Existiert EX , das heißt EX < ∞, dann existiert Var(X) sowie E(X +
a)2 < ∞
∀a ∈ R.
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
87
Also sichert die Annahme EX 2 < ∞ die Existenz von Varianz und Erwartungswert.
Lemma 10.24.
Gelte Var(X) < ∞.
(i) Var(a X + b) = a2 Var(X) für a, b ∈ R.
(ii) Var(X) = E(X 2 ) − (EX)2
(iii) Var(X) = 0 ⇔ P (X 6= E(X)) = 0
(iv) Var(X) = mina∈R E(X − a)2
(v) E(X − a)2 = Var(X) + (EX − a)2 ,
∀a ∈ R.
Satz 10.25. (Cauchy-Schwarz-Ungleichung)
X, Y seien Zufallsvariablen mit EX 2 , EY 2 < ∞. Dann gilt
p
|E(X · Y )| ≤ E(X 2 ) · E(Y 2 )
mit Gleichheit genau dann, wenn ein b ∈ R existiert mit
P (b · X = Y ) = 1.
Bedingte Verteilung von Y gegeben X = x
X
(∗)
P (Y ∈ A | X = x) =
P (Y = y | X = x), A ⊂ R,
y∈A
wobei
(
P (Y = y | X = x) =
P (Y =y, X=x)
,
P (X=x)
P (X = x) > 0
P (Y = y),
P (X = x) = 0.
Definition 10.26.
Der Erwartungswert der bedingten Verteilung von Y gegeben X = x,
X
E(Y | X = x) =
y · P (Y = y | X = x),
y
88
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
heißt bedingter Erwartungswert von Y gegeben X = x, x ∈ X . Die zugehörige Varianz
Var(Y | X = x) = E([Y − E(Y | X = x)]2 | X = x), x ∈ X
heißt bedingte Varianz von Y gegeben X = x.
g(x) = E(Y | X = x) ist eine Funktion von x ∈ X . Die Zufallsvariable
E(Y | X) = g(X)
heißt bedingte Erwartung von Y gegeben X. Analog ist die bedingte Varianz Var(Y | X) definiert.
Proposition 10.27.
Man hat
(i) E(1 (Y ∈ A) | X = x) = P (Y ∈ A | X = x), für A ⊂ R messbar.
(ii) Satz von der totalen Wahrscheinlichkeit
E(Y ) = E(E(Y | X))
(iii) Var(Y ) = E(Var(Y | X)) + Var(E(Y | X))
(iv) Sind X und Y Zufallsvariablen und f : R2 → R eine messbare Funktion,
dann gilt für x0 :
E(f (X,Y ) | X = x0 ) = E(f (x0 , Y ) | X = x0 ).
Sind X und Y unabhängig, so gilt für x0 ∈ R:
E(f (X,Y ) | X = x0 ) = E(f (x0 , Y )).
Satz 10.28. (Schwaches Gesetz der großen Zahlen, GGZ)
Sei X1 , X2 , . . . eine Folge von unabhängigen identisch verteilten Zufallsvariablen
mit endlicher Varianz. Dann gilt für alle ε > 0:
P ( |X n − EX1 | > ε) → 0, n → ∞,
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
89
wobei
n
1 X
Xn =
Xi , n ∈ N.
n i=1
Das GGZ motiviert den folgenden Konvergenzbegriff.
Definition 10.29.
Eine Folge {Xn : n ≥ 1} von Zufallsvariablen heißt konvergent in Wahrscheinlichkeit (konvergiert stochastisch) gegen eine Zufallsvariable X, wenn
für jedes ε > 0 gilt:
lim P ( | Xn − X | > ε) = 0.
n→∞
P
Notation: Xn → X
Bemerkung 10.30.
Statistische Interpretation des GGZ:
X1 , . . . , Xn i.i.d.: Modell für eine Zufallsstichprobe, µ = E(X1 ) ist unbekannt.
Schätzung aus der Stichprobe
µ
bn = X n
Nach dem GGZ gilt:
P
µ
bn = X n → µ, n → ∞.
Dies stellt eine erste Rechtfertigung des statistischen Vorgehens dar.
Wir betrachten eine Anwendung in der Analysis.
90
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
Definition 10.31.
f : [0,1] → R sei eine stetige Funktion. Dann heißt
n X
n
k
(Bn f )(x) =
f
xk (1 − x)n−k , x ∈ [0,1],
k
n
k=0
n-tes Bernsteinpolynom.
Satz 10.32.
Für jede stetige Funktion f : [0,1] → R gilt:
sup | Bn f (x) − f (x) | → 0, n → ∞.
0≤x≤1
Was kann man über die Abweichungen X − µ sagen?
Satz 10.33. (Large Deviations)
X1 , . . . , Xn seien i.i.d. mit existierender monenterzeugender Funktion mX (t) =
E etX , t ∈ [0,T ]. Dann gilt für alle n ∈ N, x ≥ 0 und t ∈ [0,T ]
!
n
X
P
Xi ≥ n · x ≤ exp(−n[tx − ln mX (t)])
i=1
Die beste Schranke erhält man für
t ∈ arg max (sx − mX (s))
s∈[0,T ]
Lemma 10.34.
Sei I = (a,b) ⊂ R ein Intervall. Sind x1 , . . . , xn ∈ I und λ1 , . . . , λn ∈ [0,1]
P
P
Gewichte mit ni=1 λi = 1, dann folgt ni=1 λi xi ∈ I.
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
91
Satz 10.35. (Jensen-Ungleichung)
Sei f : I → R eine konkave Funktion und I = (a,b) ⊂ R ein Intervall. Ist
X : Ω → X = {x1 , . . . , xn } eine Zufallsvariable, dann gilt:
f (EX) ≥ Ef (X).
Ist f : I → R konvex, dann gilt
f (EX) ≤ Ef (X).
Ersetzt man im Beweis der Jensen-Ungleichung E(X) durch E(X | Y = y), dann
erhält man:
Satz 10.36. (Bedingte Jensen-Ungleichung)
Sei I ⊂ R ein Intervall und F : I → R konkav. Dann gilt für alle y ∈ R
f (E(X | Y = y)) ≥ E(f (X) | Y = y)
und somit auch
f (E(X | Y )) ≥ E(f (X) | Y ).
Für eine konvexe Funktion kehren sich die Ungleichungen um.
Eine interessante Anwendung ist
Proposition 10.37.
Y sei eine Zufallsvariable mit E(Y 2 ) < ∞. Dann gilt
V ar(E(Y | X)) ≤ Var(Y )
Für Zufallsvariablen Y mit EY 2 < ∞ ist die bedingte Erwartung E(Y | X) also
eine Zufallsvariable, deren Erwartungswert und Varianz existiert.
92
10. ERWARTUNGSWERT, VARIANZ UND MOMENTE
Satz 10.38. (Ungleichung von Liapounov)
X sei R-wertige Zufallsvariable mit E |X|r < ∞ für ein r ∈ (0,∞). Dann folgt
E |X|s < ∞
∀0<s≤r
und es gilt
1
1
(E |X|s ) s ≤ (E |X|r ) r ,
1
das heißt s 7→ (E |X|s ) s ist monton wachsend.
Zum Abschluss beweisen wir noch ein starkes Gesetz der großen Zahlen.
Satz 10.39. (SGGZ, SLLN (strong law of large numbers))
X1 ,X2 , . . . sei eine Folge von i.i.d.-Zufallsvariablen definiert auf einen gemeinsamen Wahrscheinlichkeitsraum (Ω, F, P ). Es gelte
E X14 < ∞.
Dann gilt mit µ = E(X1 )
P
n
1 X
lim
Xi = µ
n→∞ n
i=1
!
= 1.
Herunterladen