Stochastik für (Bio-)Informatiker

Werbung
Mitschrieb der Vorlesung
Stochastik für Informatiker und
Bioinformatiker
Prof. Dr. Manfred Wolff
Sommersemseter 2008∗
Mitschrieb in LATEXvon
Rouven Walter
∗
Letzte Änderung: 8. März 2011
Stochastik für (Bio-)Informatiker
Lizenz
Lizenz
Das Werk „Stochastik für (Bio-)Informatiker“ von Rouven Walter steht unter einer Creative Commons Namensnennung-Nicht-kommerziell-Weitergabe unter gleichen Bedingungen 3.0 Deutschland Lizenz. Eine Zusammenfassung der Lizenz
ist unter http://creativecommons.org/licenses/by-nc-sa/3.0/de/ einsehbar.
Der vollständige rechtsverbindliche Lizenzvertrag kann eingesehen werden unter
http://creativecommons.org/licenses/by-nc-sa/3.0/de/legalcode. Alternativ kann ein Brief an folgende Adresse geschrieben werden: Creative Commons, 171
Second Street, Suite 300, San Francisco, California 94105, USA.
Mitschrieb von Rouven Walter
ii
Stochastik für (Bio-)Informatiker
Vorwort
Vorwort
Dieser Mitschrieb entstand während meiner Nachbearbeitung zur Stochastik Vorlesung
im Sommersemester 2008 bei Prof. Dr. Manfred Wolff an der Eberhard-Karls-Universität
Tübingen.
Ich erhebe keinen Anspruch auf Vollständigkeit oder Richtigkeit. Bei Verständnisschwierigkeiten zum Inhalt empfehle ich daher ausdrücklich, sich an die jeweiligen Dozenten/Tutoren zu wenden.
Wer Fehler findet, Verbesserungsvorschläge hat oder sonstige Anregungen mitteilen
möchte, kann mir gerne eine E-Mail an folgende Adresse schicken:
[email protected] oder
[email protected]
Mitschrieb von Rouven Walter
iii
Stochastik für (Bio-)Informatiker
Danksagung
Danksagung
Ich möchte mich ganz herzlich bei Prof. Dr. Manfred Wolff bedanken. Er reichte viele
aufwendige Beweise nach und machte Ergänzungen, so dass das Skript durch ihn erst
vollständig wurde.
Mein Dank geht auch an Steffen Just, der half einige Fehler im Skript ausfindig zu
machen.
Mitschrieb von Rouven Walter
iv
Stochastik für (Bio-)Informatiker
Inhaltsverzeichnis
Inhaltsverzeichnis
Lizenz
ii
Vorwort
iii
Danksagung
iv
I.
1
Diskrete Warscheinlichkeitsräume
1. Beispiele und Grundlegende Definitionen
1.1. Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5. Definition . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6. Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7. Laplac’escher Warscheinlichkeits-Raum . . . . . . . . . .
1.8. Wiederholung von Experimenten . . . . . . . . . . . . .
1.9. Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.10. Anwendung des Erfolgs-Misserfolgs-Experiement auf den
1.11. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Vorzeichentest
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
2
2
2
2
3
3
4
5
5
5
6
7
2. Zufallsvariable
2.1. Beispiele . . . . . . . . . . . . . . . . . . . . . .
2.2. Definition . . . . . . . . . . . . . . . . . . . . .
2.3. Definition . . . . . . . . . . . . . . . . . . . . .
2.4. Beispiel . . . . . . . . . . . . . . . . . . . . . .
2.5. Definition (Erwartungswert, Varianz, Streuung)
2.6. Beispiele . . . . . . . . . . . . . . . . . . . . . .
2.7. Erzeugendenfunktion . . . . . . . . . . . . . . .
2.8. Beispiele . . . . . . . . . . . . . . . . . . . . . .
2.9. Satz . . . . . . . . . . . . . . . . . . . . . . . .
2.10. Satz (Eigenschaften des Erwartungswertes) . .
2.11. Weitere Parameter von reellen Zufallsvariablen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
8
9
9
11
11
12
12
13
14
16
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3. Bedingte Warscheinlichkeiten, stoch. Unabhängig.
18
3.1. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Mitschrieb von Rouven Walter
v
Stochastik für (Bio-)Informatiker
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
3.9.
Inhaltsverzeichnis
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Theorem (Satz von Bayes über a posteriori Warscheinlichkeiten)
Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Beispiel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das Gesetz der seltenen Ereignisse . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
II. Markoff-Ketten auf endlichen Zustandsräumen
4. Definition und einfache Eigenschaften
4.1. Beispiele . . . . . . . . . . . . . . . .
4.2. Präzisierung und Verallgemeinerung
4.3. Definition . . . . . . . . . . . . . . .
4.4. Theorem . . . . . . . . . . . . . . . .
4.5. Korollar . . . . . . . . . . . . . . . .
4.6. Jukes-Cantor Modell . . . . . . . . .
4.7. Beispiel . . . . . . . . . . . . . . . .
5. Stochastische Matrizen
5.1. Definition . . . . .
5.2. Satz . . . . . . . .
5.3. Definition . . . . .
5.4. Satz . . . . . . . .
5.5. Satz . . . . . . . .
5.6. Definition . . . . .
5.7. Theorem . . . . . .
5.8. Korollar . . . . . .
5.9. Theorem . . . . . .
18
19
19
21
21
22
22
23
24
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
26
27
28
29
29
30
und Konvergenzsätze
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
31
31
31
32
32
33
34
36
38
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6. Anwendung auf Markoff-Ketten
40
6.1. Irreduzibel und primitiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.2. Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.3. Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
III. Allgemeine Warscheinlichkeits-Theorie
43
7. Einführung
44
7.1. Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7.2. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.3. Theorem (de Moivre-Laplace) . . . . . . . . . . . . . . . . . . . . . . . . . 47
Mitschrieb von Rouven Walter
vi
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
8.1. Definition . . . . . . . . . . . . . . . . . . .
8.2. Bemerkung . . . . . . . . . . . . . . . . . .
8.3. Konkret . . . . . . . . . . . . . . . . . . . .
8.4. ??? . . . . . . . . . . . . . . . . . . . . . . .
8.5. Definition . . . . . . . . . . . . . . . . . . .
8.6. Satz (Einfache Eigenschaften) . . . . . . . .
8.7. Beispiel . . . . . . . . . . . . . . . . . . . .
8.8. Definition . . . . . . . . . . . . . . . . . . .
8.9. Satz . . . . . . . . . . . . . . . . . . . . . .
8.10. Definition . . . . . . . . . . . . . . . . . . .
8.11. Bemerkung . . . . . . . . . . . . . . . . . .
8.12. Satz . . . . . . . . . . . . . . . . . . . . . .
8.13. Definition (Erwartungswert) . . . . . . . . .
8.14. Beispiel . . . . . . . . . . . . . . . . . . . .
8.15. Satz (Eigenschaften des Erwartungswertes)
8.16. Theorem . . . . . . . . . . . . . . . . . . . .
8.17. Satz und Definition . . . . . . . . . . . . . .
8.18. Definition und Satz . . . . . . . . . . . . . .
8.19. Satz . . . . . . . . . . . . . . . . . . . . . .
8.20. Satz . . . . . . . . . . . . . . . . . . . . . .
Inhaltsverzeichnis
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9. Grenzwertsätze
9.1. Einführung . . . . . . . . . . . . . . . . . . .
9.2. Hilfssätze . . . . . . . . . . . . . . . . . . . .
9.3. Lemma von Borel-Cantelli . . . . . . . . . . .
9.4. Beispiel . . . . . . . . . . . . . . . . . . . . .
9.5. Satz (Ungleichung von Kolmogorow) . . . . .
9.6. (Ursprünglich 9.9) Lemma . . . . . . . . . . .
9.7. Theorem (Starkes Gesetz der großen Zahlen)
9.8. Beispiel . . . . . . . . . . . . . . . . . . . . .
9.9. Theorem . . . . . . . . . . . . . . . . . . . . .
9.10. Satz . . . . . . . . . . . . . . . . . . . . . . .
9.11. Satz (Schwaches Gesetz der großen Zahlen) .
Mitschrieb von Rouven Walter
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
48
48
49
50
50
51
52
53
53
54
54
54
56
57
57
58
58
59
59
61
.
.
.
.
.
.
.
.
.
.
.
62
62
63
63
65
65
66
68
69
70
71
71
vii
Teil I.
Diskrete Warscheinlichkeitsräume
1
Stochastik für (Bio-)Informatiker
1. Beispiele und Grundlegende Definitionen
1. Beispiele und Grundlegende Definitionen
1.1. Beispiele
Münzwurf : {Z, W } = Ω, P (Z) = P (W ) = 21 , (Ω, P ).
Allgemeiner:
Erfolgs-Misserfolgs-Experiment:
Erfolg wird durch 1 kodiert, Misserfolg durch 0.
Ω = {0, 1}, P (1) = 61 =: p, P (0) = 65 = 1 − p =: q
1.2. Beispiel
Würfeln: Ω = {1, 2, 3, 4, 5, 6} , P (ω) =
1
6
Frage: Was ist die Wahrscheinlichkeit für einen Wurf mit der Augenzahl ≥ 5 ?
A = {5, 6}
1
3
= P (5) + P (6)
P (A) =
=
X
P (ω)
ω∈A
=
|A|
|Ω|
in unserem Fall (wird es ein Laplac’escher Wahrscheinlichtkeits-Raum).
1.3. Beispiel
Zahlen-Lotto: Ω = {ω : ω ⊂ {1, . . . , 49} , |ω| = 6}
P (ω) =
1
!
49
6
A = {ω : ω enthält 5 Richtige und die Zusatzzahl}
Special Leading Case
Mitschrieb von Rouven Walter
2
Stochastik für (Bio-)Informatiker
1. Beispiele und Grundlegende Definitionen
Ergebnis: (1, 2, 3, 4, 5, 6), Zusatzzahl = 7
|A| = 6
|A|
|Ω|
P (A) =
!
6
5
=
49
6
!
1.4. Beispiel
Ω = N = {0, 1, 2, . . .} , λ > 0, λ ∈ R
∞
X
k=0
λk
k!
P (k) = e−λ ·
P (k) = e−λ ·
∞
X
λk
k=0
λ
k!
= e−λ · e
= 1
Dies ist die sogenannte Poisson-Verteilung auf N0 .
λ=1:
P ({0, 1, 2, 3}) = e−1 · 1 + 1 +
= 0, 981
1 1
+
2 6
1.5. Definition
Sei ∅ =
6 Ω eine endliche oder abzählbare Menge. Sei P : Ω → [0, 1], ω ∈ Ω 7→ P (ω) und
P
es gelte ω∈Ω P (ω) = 1.
Wir setzen für A ⊂ Ω
P (A) :=
X
P (ω)
ω∈A
also P : P (Ω) → [0, 1]. Insbesondere P ({ω}) := P (ω).
(Ω, P ) heißt diskreter Wahrscheinlichkeitsraum.
ω ∈ Ω heißt Elementarereignis, A ⊂ Ω heißt Ereignis.
∅ heißt unmögliches Ereignis, Ω sicheres Ereignis.
P : P (Ω) → [0, 1] heißt Wahrscheinlichkeitsmaß.
Mitschrieb von Rouven Walter
3
Stochastik für (Bio-)Informatiker
1. Beispiele und Grundlegende Definitionen
1.6. Satz
Sei (Ω, P ) ein diskreter Warscheinlichkeits-Raum. Dann gilt
a) 0 ≤ P (A) ≤ 1 für alle A ⊂ Ω
b) P (∅) = 0, P (Ω) = 1 (Beweis s. Definiton 1.5)
c) (A ⊂ B) ⇒ P (A) ≤ P (B) (Beweis s. Definiton 1.5)
d) Sei (Ak ) eine Folge von Ereignissen mit Ai ∩ Ak = ∅ für i 6= k. Dann gilt
P
[
k
Ak
!
=
X
P (Ak )
k
Wenn Ai ∩ Ak = ∅, so sagt man Ai und Ak schließen sich gegenseitig aus.
Beweis:
Zu d):
(i) Seien A, B mit A ∩ B = ∅, A ∪ B =: C.
P (C) =
X
P (ω)
ω∈C
=
X
P (A) +
w∈A
X
P (B)
ω∈B
= P (A) + P (B)
(ii) A1 , . . . , An+1 mit Ai ∩ Ak = ∅ für i 6= k,
S
A = nk=1 Ak , B = An+1 , A ∩ B = ∅.
Also
P
n+1
[
k=1
Ak
!
= P (A ∪ B)
= P (A) + P (B)
(i)
=
IV
=
n
X
k=1
n+1
X
P (Ak ) + P (An+1 )
P (Ak )
k=1
Alternativer Beweis zu d):
Man hat also die endliche Additivität. Sei nun (An )n eine abzählbare Folge von sich
S
S
paarweise ausschließenden Ereignissen und A = n∈N An . Dann gilt nk=1 Ak ⊆ A, also
Mitschrieb von Rouven Walter
4
Stochastik für (Bio-)Informatiker
nach c)
P (A).
Pn
k=1 P (Ak )
1. Beispiele und Grundlegende Definitionen
Sn
k=1 Ak )
= P(
≤ P (A). Da n beliebig war, folgt
P∞
k=1 P (Ak )
≤
Sei nun ε > 0 beliebig. Dann gibt es eine endliche Teilmenge M ⊆ A mit P (A) − ε <
ω∈M P (ω) = P (M ) ≤SP (A)., aber dann ist Aj ∩ M 6= ∅ nur für endlich viele j wahr
und für diese ist M = Aj ∩M 6=∅ Aj ∩ M , also erhält man in der nächsten Ungleichung
nach dem Gleichheitszeichen in Wahrheit nur eine endliche Summe
P
P (A) − ε < P (M ) =
∞
X
k=1
P (Ak ∩ M ) ≤
∞
X
k=1
P (Ak ) ≤ P (A)
und die Behauptung folgt, weil ε > 0 beliebig war.
1.7. Laplac’escher Warscheinlichkeits-Raum
Sei Ω endlich, P (ω) =
1
|Ω| ,
A ⊆ Ω,
P (A) =
X 1
ω∈A
=
=
|Ω|
|A|
|Ω|
Anzahl günstiger Ereignisse
Anzahl möglicher Ereignisse
1.8. Wiederholung von Experimenten
Sei (Ω0 , P0 ) ein diskreter Warscheinlichkeits-Raum.
Die r-malige Wiederholung dieses „Experiments“ wird modelliert durch
Ω = Ωr0
= {(ω1 , . . . , ωr ) : ωk ∈ Ω0 }
→
P ( ω) = P ((ω1 , . . . , ωr ))
= P0 (ω1 ) · P0 (ω2 ) · . . . · P0 (ωr )
=
r
Y
P0 (ωi )
i=1
1.9. Beispiele
a) Ω0 = {1, . . . , 6}, r = 2.
Ω = {1, . . . , 6}2
= {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)}
Mitschrieb von Rouven Walter
5
Stochastik für (Bio-)Informatiker
1. Beispiele und Grundlegende Definitionen
1
6
P ((i, k)) = P0 (i) · P0 (k)
1 1
=
·
6 6
1
=
36
P0 (k) =
b) r = 5, Ω0 = {0, 1}
P0 (1) = p
P0 (0) = q
= 1−p
Ω = Ω50
Beispiel:
P ((0, 1, 1, 0, 0)) = p2 · q 3
1.10. Anwendung des Erfolgs-Misserfolgs-Experiement auf den
Vorzeichentest
(Bartz-Lienert-Boehnke: Verteilungsfreie Methoden in der Biostatistik, S.256 ff)
Ergebnis:
1 2 3 4 5 6 7 8 9 10
Roh
61 60 56 63 56 63 59 56 44 61
geröstet
55 54 47 59 51 61 57 54 62 58
6 6 9 4 5 2 2 2 18 3
Differenz
Vorzeichen + + + + + + + + − +
H0 reiner Zufall,
10
1
10
+ 10
2
2
11
=
1024
≈ 0, 0107
P10 (Anzahl+ ≥ 9) =
Signifikanzniveau α = 0, 05. Ist P (H0 ) ≤ 0, 05, dann H0 abgelehnt.
Mitschrieb von Rouven Walter
6
Stochastik für (Bio-)Informatiker
1. Beispiele und Grundlegende Definitionen
1.11. Beispiel
{A, C, G, T } Sequenz der Länge 10.
1
4
P (Übereinstimmung) =
In einer Sequenz von Paaren der Länge 10 haben wir 8 Übereinstimmungen.
Paare: (A, A), (A, C), (C, A), . . .
P (acht und mehr Übereinstimmungen) =
!
!
1 3
1 32
10
10
· 9·
· 8· 2+
9
8
4 4
4 4
!
1
10
+
· 10
10
4
1
=
· (45 · 9 + 10 · 3 + 1)
220
Mitschrieb von Rouven Walter
7
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
2. Zufallsvariable
2.1. Beispiele
a) Würfel.
Ω = {Augenzahl 1, Augenzahl 2, Augenzahl 3,
Augenzahl 4, Augenzahl 5, Augenzahl 6}
X:Ω→R
wobei
X(Augenzahl 1) 7→ 1
X(Augenzahl 2) 7→ 2
X(Augenzahl 3) 7→ 3
X(Augenzahl 4) 7→ 4
X(Augenzahl 5) 7→ 5
X(Augenzahl 6) 7→ 6
b)
Ω0 = {0, 1}
P (0) = q
= 1−p
P (1) = p
Ω = Ωn0
P ((ω1 , . . . , ωn )) = pErfolgsanzahl · (1 − p)Misserfolgsanzahl
= p(ω1 ) · . . . · p(ωn )
X((ω1 , . . . , ωn )) = ω1 + . . . + ωn
2.2. Definition
Gegeben (Ω, P ). Eine Funktion
X:Ω→
(
R
C
heißt Zufallsvariable (ZV).
Mitschrieb von Rouven Walter
8
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
2.3. Definition
a) Sei X : Ω → C eine Zufallsvariable und
Ω′ = X(Ω)
= {X(ω) : ω ∈ Ω}
z ∈ Ω′
PX (z) = P ({ω : X(ω) = z})
(Ω′ , PX ) heißt Verteilung von X.
b) X : Ω → R, FX : R → R
FX (t) = P ({ω : X(ω) ≤ t})
heißt Verteilungsfunktion.
2.4. Beispiel
a) Ω wie in Beispiel 2.1 a),
X : Ω → R, X(Augenzahl x) = Augenzahl,
X(Ω) = Ω′
= {1, 2, 3, 4, 5, 6}
1
P (X = i) =
für i ∈ Ω′
6
FX (t) =
b) Binomialverteilung.
Mitschrieb von Rouven Walter


0




1


6



1

3
1
2



2

3



5



6


1
t<1
1≤t<2
2≤t<3
3≤t<4
4≤t<5
5≤t<6
6≤t
9
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
Ω siehe 2.1 b).
X((ω1 , . . . , ωn )) =
n
X
ωj
j=1
′
X(Ω) = Ω
= {0, 1, 2, . . . , n}
PX (0) = (1 − p)n
= qn
!
PX (1) =
n
· p · q n−1
1
PX (k) =
n
· pk · q n−k
k
!
{0, 1, . . . , n} Binomialverteilung B(n, p)
c) Ω ⊂ R, X : Ω → R, X(ω) = ω, PX = P .
Z.B. Ω = N0 , P (k) = e−λ ·
λk
k!
d) Ω = {ω ∈ {0, 1}N : ∃k[ωl = 0 ∀l ≥ k]}
L(ω) = min{k : ωl = 0 für alle l ≥ k + 1}
∞
X
S(ω) =
ωj
j=1
L(ω)
X
=
ωj
j=1
P (ω) = pS(ω) · q L(ω)−S(ω)
Wobei 0 < p < 1 und q = 1 − p.
Y (ω) = min{k : ωk = 0}
Y ((0, 0, 0, . . . , 0)) = 1
Y ((1, 1, 0, 1, 1, 1, 0, . . . , 0)) = 3
P (Y (ω) = k) = PY (k)
= q · pk−1
∞
X
k=1
q · pk−1 =
q
1−p
= 1
Ω′ = {1, 2, . . . , } = N, PY heißt Geometrische Verteilung.
Mitschrieb von Rouven Walter
10
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
2.5. Definition (Erwartungswert, Varianz, Streuung)
a) (Ω, P ) endlich und X : Ω → C Zufallsvariable.
Dann heißt
E(X) =
X
ω∈Ω
X(ω) · P (ω)
Erwartungswert von X.
b) Sei Ω abzählbar und nicht endlich.
Es konvergiere
X
ω∈Ω
|X(ω)| · P (ω)
E(X) =
X
ω∈Ω
(< ∞)
X(ω) · P (ω)
c) Wir setzen
X = X − E(X) · 1Ω
= X − E(X)
V (X) = E(|X|2 )
heißt Varianz.
σ(X) =
heißt Streuung.
q
V (X)
2.6. Beispiele
a) Ω ⊂ R, Ω = |n|, Laplace’scher Warscheinlichkeitsraum, also P (ω) =
1
|Ω|
X(ω) = ω
E(X) =
X
ω∈Ω
=
X
ω∈Ω
=
=
Mitschrieb von Rouven Walter
X(ω) · P (ω)
ω·
1
|Ω|
1 X
ω
·
|Ω| ω∈Ω
1 X
ω
·
n ω∈Ω
11
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
arithmetisches Mittel
1
· ((ω − E(X))2 )
n
V (X) =
mittlere quadratische Abweichung
b) Ω = {0, 1, . . . , n}
!
n
· pk · q n−k
k
P (k) =
X(k) = k
E(X) = ?
2.7. Erzeugendenfunktion
Sei Ω ⊂ N0
X
g(z) =
k∈Ω
X
z k · P (k)
P (k) = 1
k∈Ω
X
g ′ (z) =
k∈Ω
k · z k−1 · P (k)
g ′ (1) = E(X)
X
g ′′ (z) =
k∈Ω
′′
X(k) = k
k · (k − 1) · z k−2 · P (k)
g (1) = E(X 2 ) − E(X)
2.8. Beispiele
a) B(n, p)
g(z) =
n
X
z
k
k=0
!
n
· pk · (1 − p)n−k
k
= (z · p + (1 − p))n
b) Poisson-Verteilung
g(z) =
∞
X
k=0
−λ
= e
Mitschrieb von Rouven Walter
zk ·
λk −λ
·e
k!
· ez·λ
12
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
c) Geometrische Verteilung
∞
X
g(z) =
k=1
q · z k · pk−1
= q·z·
Bemerkung:
P
E(X) = ω∈Ω X(ω) · P (ω),
1
1−z·p
|z| ≤ 1
X(Ω) = Ω′ ⊂ C
PX (t)
=
P (X = t)
=
P ({ω : X(ω) = t})
{ω : X(ω) = t} =: X −1 ({t})
X −1 (t)
=
X
t · PX (t)
PX (t) = P X −1 (t)
2.9. Satz
Es gilt
E(X) =
t∈Ω′
Beweis:
Ω′ = {t1 , . . . , tr }
= X(Ω)
Daraus folgt:
Ω =
r
]
X −1 (tj )
j=1
Mitschrieb von Rouven Walter
13
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
Weil tj 6= tk ist X −1 (tj ) ∩ X −1 (tk ) = ∅ für j 6= k.
E(X) =
X
ω∈Ω
=
X(ω) · P (ω)
X
ω∈X −1 (t1 )
= t1 ·
=
r
X
j=1
=
X
X(ω) · P (ω) + . . . +
X
ω∈X −1 (t1 )
|
P (ω) + . . . + tr ·
{z
=PX (t1 )
tj · PX (tj )
t∈Ω′
}
X
ω∈X −1 (tr )
X
X(ω) · P (ω)
P (ω)
ω∈X −1 (tr )
|
{z
=PX (tr )
}
t · PX (t)
2.10. Satz (Eigenschaften des Erwartungswertes)
a) E(X + Y ) = E(X) + E(Y )
E(α · X) = α · E(X)
Linearität des Erwartungswertes
b) X ≤ Y ⇒ E(X) ≤ E(Y )
Monotonie des Erwartungswertes
c) |E(X)| ≤ E(|X|)
d) V (X) = E(X 2 ) − E(X)2
e) σ(X + Y ) ≤ σ(X) + σ(Y )
Beweis:
a) Klar.
b) Klar.
c) Für z ∈ C, z 6= 0, gibt es α mit z = ei·α · |z|
Also (O.B.d.A. E = z 6= 0)
E(X) = ei·α · |z|
= ei·α · |E(X)|
Daraus folgt:
|E(X)| = ei·α · E(X)
=
X
ω∈Ω
Mitschrieb von Rouven Walter
e−i·α · X(ω) · P (ω)
14
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
Daraus folgt:
|E(X)| = ||E(X)||
X −i·α
e
· X(ω) · P (ω)
= ω∈Ω
X ≤
e−i·α · X(ω) · P (ω)
ω∈Ω
=
X
ω∈Ω
|X(ω)| · P (ω)
= E(|X|)
d)
1A (ω)
=
(
V (X)
=
E((X − E(X) · 1Ω )2 )
1
0
ω∈A
ω∈
/A
E(X 2 − 2 · E(X) · X + E(X)2 · 1Ω )
=
=
E(X 2 ) + E(−2 · E(X) · X) + E(E(X)2 · 1Ω )
=
E(X 2 ) − 2 · E(X) · E(X) + E(X)2 · E(1Ω )
2.10 a)
2.10 a)
| {z }
=1
=
E(X 2 ) − E(X)2
e) Vorbemerkungen:
E(X) = E(Y )
= 0
V (X) = E(X 2 )
= σ(X)2
σ(X) =
E(X 2 ) =
q
V (X)
X
ω∈Ω
kXk22
=
kXk2 =
X
X(ω)2 · P (ω)
Xj2
ω∈Ω
sX
Xj2
ω∈Ω
kX + Y k2 ≤ kXk2 + kY k2
Mitschrieb von Rouven Walter
15
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
Start des Beweises:
(I) Cauchy-Schwarzsche-Ungleichung (CSU):
E(X · Y )2 ≤ E(X 2 ) · E(Y 2 )
α = E(Y 2 )
6= 0
Dann
0 ≤ E
1
X− Y
α
2 !
ausrechnen.
(II)
X = X − E(X)
= Y − E(Y )
Y
V (X + Y ) = E ((X + Y ) − E(X + Y ))2
= E((X + Y )2 )
2
2
2
2
= E(X ) + E(Y ) + 2 · E(X) · E(Y )
≤ E(X ) + E(Y ) + 2 ·
2
2
q
E(X) · E(Y )
= σ(X) + σ(Y ) + 2 · σ(X) · σ(Y )
= (σ(X) + σ(Y ))2
⇒ Behauptung wegen
V (X + Y ) = σ(X + Y )2
2.11. Weitere Parameter von reellen Zufallsvariablen
1
für unendliche W-räume
M (X) := inf t : P ({ω : X(ω) ≤ t}) ≥
2
1
:= min t : P ({ω : X(ω) ≤ t}) ≥
für endliche W-räume
2
heißt Median von X.
Q(X)min
1
:= inf t : P ({ω : X(ω) ≤ t}) ≥
4
Mitschrieb von Rouven Walter
16
Stochastik für (Bio-)Informatiker
2. Zufallsvariable
heißt unteres Quartil von X.
Q(X)max
3
:= inf t : P ({ω : X(ω) ≤ t}) ≥
4
heißt oberes Quartil von X.
Mitschrieb von Rouven Walter
17
Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig.
3. Bedingte Warscheinlichkeiten,
Stochastische Unabhängigkeit
3.1. Beispiel
Urnen U1 und U2 .
U1 enthält 30 rote und 70 schwarze Kugeln,
U2 enthält 70 rote und 30 schwarze Kugeln.
In U1 wird mit 80% Warscheinlichkeit gegriffen, in U2 mit 20% Warscheinlichkeit.
Rote Kugel wird gezogen, P (U1 |rot) =?
3.2. Definition
Seien A, B Ereignisse eines Warscheinlichkeitsraums (Ω, P ).
Dann heißt die Zahl
P (A|B) :=

0
 P (A∩B)
P (B)
P (B) = 0
sonst
die bedingte Warscheinlichkeit von A unter der Bedigung B.
Gleichwertig:
P (A ∩ B) = P (A|B) · P (B)
Folgerung:
P (A|B) · P (B) = P (A ∩ B)
= P (B ∩ A)
= P (B|A) · P (A)
Beispiel 3.1 aufgreifen:
P (rot|U1 ) = 0, 3
P (rot|U2 ) = 0, 7
P (U1 ) = 0, 8
P (U2 ) = 0, 2
Mitschrieb von Rouven Walter
18
Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig.
3.3. Satz
Seien A1 , . . . , An Ereignisse. Dann gilt
P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 )
·P (A4 |A1 ∩ A2 ∩ A3 ) · . . . · P (An |A1 ∩ . . . ∩ An−1 )
Beweis:
Induktion über n.
IA: n = 2
P (A1 ∩ A2 )
=
Def.
P (A1 ) · P (A2 |A1 )
IS: n → n + 1
P (A1 ∩ . . . ∩ An+1 ) = P ((A1 ∩ . . . ∩ An ) ∩ An+1 )
|
{z
=:A
= P (A) · P (B|A)
}
| {z }
=:B
= P (A1 ∩ . . . ∩ An ) · P (An+1 |A1 ∩ . . . ∩ An )
= P (A1 ) · P (A2 |A1 ) · . . . · P (An+1 |A1 ∩ . . . ∩ An )
IV
3.4. Theorem (Satz von Bayes über a posteriori
Warscheinlichkeiten)
Seien A1 , . . . , An paarweise disjunkte Ereignisse mit
(i) P (Ak ) 6= 0
(ii)
Un
k=1 Ak
(wobei
=Ω
U
die disjunkte Vereinigung kennzeichnet)
Sei B ein beliebigens Ereignis. Dann gilt für jedes k, 1 ≤ k ≤ n,
P (Ak |B) =
P (Ak ) · P (B|Ak )
P (A1 ) · P (B|A1 ) + P (A2 ) · P (B|A2 ) + . . . + P (An ) · P (B|An )
Beispiel 3.1 aufgreifen:
P (U1 ) = 0, 8
P (U2 ) = 0, 2
Mitschrieb von Rouven Walter
19
Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig.
B: Ereignis rote Kugel.
P (B|U1 ) = 0, 3
P (B|U2 ) = 0, 7
Nach dem Satz von Bayes gilt
P (U1 ) · P (B|U1 )
P (U1 ) · P (B|U1 ) + P (U2 ) · P (B|U2 )
0, 8 · 0, 3
=
0, 8 · 0, 3 + 0, 2 · 0, 7
0, 24
=
0, 38
≈ 0, 632
P (U1 |B) =
Beweis (Satz von Bayes):
P (Ak ) · P (B|Ak )
P (A1 ) · P (B|A1 ) + . . . + P (An ) · P (B|An )
P (Ak |B) =
Zähler:
P (Ak ) · P (B|Ak )
=
3.2
P (Ak ∩ B)
Nenner:
P (A1 ) · P (B|A1 ) + . . . + P (An ) · P (B|An )
|
{z
}
= P (A1 ∩B)
3.2
Wir hatten an Voraussetzungen:
|
{z
= P (An ∩B)
3.2
}
(i) Ak ∩ Al = ∅ für k 6= l
⇒ (Ak ∩ B) ∩ (Al ∩ B) = ∅ für k 6= l
S
⇒ Nenner = P ( nl=1 (Al ∩ B)) = P (B)
(ii)
(ii)
n
[
Al = Ω
l=1
⇒
n
[
(Al ∩ B) = B ∩
l=1
n
[
Al
l=1
= B∩Ω
= B
Mitschrieb von Rouven Walter
20
Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig.
Also
P (Ak |B) =
=
P (Ak ) · P (B|Ak )
P (A1 ) · P (B|A1 ) + . . . + P (An ) · P (B|An )
P (Ak ∩ B)
P (B)
Nach 3.3 folgt die Behauptung.
3.5. Beispiel
Ω0 = {1, . . . , 6}, Ω = Ω20 ,
1
1
P ((ω1 , ω2 )) = 36
,
= |Ω|
A = {ω : ω1 = 6}, B = {ω : ω2 = 6}
P (B|A) =
=
=
=
=
P (A ∩ B)
P (A)
P ((6, 6))
P (A)
1·6
36
1
6
P (B)
⇒
P (A ∩ B) = P (A) · P (B)
3.6. Definition
a) Die Ereignisse A1 , . . . , An heißen (stochastisch) unabhängig, wenn für 2 ≤ k ≤ n
und jede Indexfolge 1 ≤ i1 < . . . < ik ≤ n stets gilt
P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · . . . · P (Aik )
Es gibt endliche Warscheinlichkeitsräume Ω und A1 , A2 , A3 , so dass Ai und Aj unabhängig für i < j (paarweise unabhängig), aber A1 , A2 , A3 stoachstisch abhängig.
b) Die abzählbaren vielen Ereignisse A1 , A2 , . . . heißen (stochastisch) unabhängig,
wenn jede endliche Teilmenge {Ak1 , . . . , Akr } ⊂ {A1 , . . .} (stochastisch)
unabhängig gemäß a) ist.
c) Die Zufallsvariablen X1 , . . . , Xn heißen stochastisch unabhängig, wenn die Urbilder
X1−1 (]s1 , t1 ]), X2−1 (]s2 , t2 ]), . . . , Xn−1 (]sn , tn ]) stochastisch unabhängig sind für alle
si < ti , i = 1, . . . , n .
Mitschrieb von Rouven Walter
21
Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig.
3.7. Satz
Es sei (Ω, P ) ein diskreter Warscheinlichkeitsraum und Xk (Ω) seien endlich.
X1 , . . . , Xn sind unabhängig genau dann, wenn
P ([X1 = s1 ] ∩ . . . ∩ [Xn = sn ]) = P ([X1 = s1 ]) · . . . · P ([Xn = sn ])
für sj ∈ Xj (Ω).
Bezeichnung:
[X = t] = {ω : X(w) = t}
Analog
[s < X ≤ t] = {ω : s < X(ω) ≤ t}
usw.
Beispiel:
Ω0 = {1, . . . , 6}, Ω = Ω30 ,
1
63
1
=
216
= P (ω1 ) · P (ω2 ) · P (ω3 )
P ((ω1 , ω2 , ω3 )) =
X1 (ω) = ω1 , X2 (ω) = ω2 , X3 (ω) = ω3 sind unabhängig, denn z.B.
P ([X1 = 6] ∩ [X2 = 3] ∩ [X3 = 5]) = P ((6, 3, 5))
1
=
63
= P ([X1 = 6]) · P ([X2 = 3]) · P ([X3 = 5])
Beweis:
Offensichtlich.
3.8. Beispiel:
Ω0 = {0, 1}, 0 < p < 1, q = 1 − p,
P
P
Ω = Ωn0 , Xj (ω) = ωj , Sn (ω) = nj=1 ωj = nj=1 Xj (ω)
P (ω) = P (ω1 ) · . . . · P (ωn )
= pSn (ω) · q n−Sn (ω)
Mitschrieb von Rouven Walter
22
Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig.
⇒ X1 , . . . , Xn sind stochastisch unabhängig.
Denn
P ([X1 = ω1 ] ∩ . . . ∩ [Xn = ωn ]) = P ((ω1 , . . . , ωn ))
|
{z
={(ω1 ,...,ωn )}
}
= P (ω1 ) · . . . · P (ωn )
= P ([X1 = ω1 ]) · . . . · P ([Xn = ωn ])
3.9. Das Gesetz der seltenen Ereignisse
Ω0 = {0, 1}, Ω = Ωn0 ,
P
Sn (ω) = nj=1 ωj ,
Verteilung Sn : B(n, pn ):
P ([Sn = k]) =
!
n
· pkn · (1 − pn )n−k
k
pn so gewählt, dass
lim n · pn =
n→∞
lim E(Sn )
n→∞
= λ
wobei n · pn = S⋉ .
Satz
lim P ([Sn = k]) = e−λ ·
n→∞
λk
k!
= PP oission(λ) (k)
Beweis:
Buch WHK, S.491.
Mitschrieb von Rouven Walter
23
Teil II.
Markoff-Ketten auf endlichen
Zustandsräumen
24
Stochastik für (Bio-)Informatiker
4. Definition und einfache Eigenschaften
4. Definition und einfache Eigenschaften
4.1. Beispiele
a) System mit zwei Zuständen: + und −
+
−
1/3
2/3
2/3
2
3
1
3
1
3
2
3
P (X1 = +|X0 = +) =
P (X1 = −|X0 = +) =
P (X1 = +|X0 = −) =
P (X1 = −|X0 = −) =
P
2
3
1
3
=
1
3
2
3
!
b) Baum mit 3 Ecken:
1
2
3
Mitschrieb von Rouven Walter
25
Stochastik für (Bio-)Informatiker
4. Definition und einfache Eigenschaften
Zustände: Die Knoten 1, 2, 3
P (X1 = 1|X0 = 1) = 0
P (X1 = 2|X0 = 1) = 0
P (X1 = 3|X0 = 1) = 0
P (X1 = 1|X0 = 2) = 1
P (X1 = 2|X0 = 2) = 0
P (X1 = 3|X0 = 2) = 1
1
P (X1 = 1|X0 = 3) =
2
1
P (X1 = 2|X0 = 3) =
2
P (X1 = 3|X0 = 3) = 0
P


0 0 21


= 0 0 12 
1 1 0
4.2. Präzisierung und Verallgemeinerung
Gegeben:
(i) Z = {z1 , . . . , zr }
(ii) X0 , X1 , X2 , . . . : Ω → Z mit:
für jedes n ist
Ω =
r
]
Xn−1 (zk )
k=1
Dann folgt
r
X
P ([Xn = zk ]) = 1
k=1
Für jedes n hat man dann eine Warscheinlichkeitsverteilung PXn auf Z, gegeben durch
PXn (zk ) = P ([Xn = zk ])
= P ({ω : Xn (ω) = zk })
Zwei Anforderungen:
Mitschrieb von Rouven Walter
26
Stochastik für (Bio-)Informatiker
4. Definition und einfache Eigenschaften
(I)
P (Xn+1 = zk |X0 = zk0 , X1 = zk1 , . . . , Xn = zkn ) = P (Xn+1 = zk |Xn = zkn )
(Abhängigkeit von der Gegenwart allein)
(II)
P (Xn+1 = zk |Xn = zj ) = P (X1 = zk |X0 = zj )
(Zeitliche Konstistenz der Übergangswarscheinlichkeiten)
4.3. Definition
Eine Folge (Xn )n≥0 von Zufallsvariablen Xn mit Werten im Zustandsraum
Z = {z1 , . . . , zr } mit den Eigenschaften (I) und (II) heißt Markoff-Kette auf Z.
Die Matrix P der Übergangswarscheinlichkeiten
pij
heißt Übergangsmatrix.
:= P (X1 = zi |X0 = zj )
Zu untersuchende Probleme:
Problem 1:
Gibt es eine Anfangsverteilung
p(0)

(0)

p
 1. 

=  .. 

(0)
pr




P (X0 = z1 )


..
= 

.
P (X0 = zr )
so dass für alle n
PXn
P (Xn = z1 )


..
= 

.
P (Xn = zr )
= p(0)
Dann heißt die Markoff-Kette stationär.
Problem 2:
Gibt es eine Warscheinlichkeitsverteilung p(∞) auf Z mit
lim PXn
n→∞


P (Xn = z1 )


..
= lim 

.
n→∞
P (Xn = zr )
= p(∞)
Mitschrieb von Rouven Walter
27
Stochastik für (Bio-)Informatiker
4. Definition und einfache Eigenschaften
4.4. Theorem
Sei p(0) eine Anfangsverteilung und P Übergangsmatrix. Dann ist
= P n · p(0)
PXn
= P
. . · P} ·p(0)
| · .{z
n-mal
Beweis:
Beweis durch Induktion über n:
n = 1 : Es ist
r
X
P ([X1 = zj ]) =
k=1
r
X
=
P ([X1 = zj ] ∩ [X0 = zk ])
P ([X1 = zj |X0 = zk ]) · P ([X0 = zk ])
k=1
(0)
= Pp
Angenommen es gilt P ([Xn = zj ]) = (P n p(0) )j . Dann ist
P ([Xn+1 = zj ])
r
X
=
k=1
r
X
=
=
Eigenschaft (II)
k=1
r
X
k=1
P ([Xn+1 = zj ] ∩ [Xn = zk ])
P ([Xn+1 = zj |Xn = zk ]) · P ([Xn = zk ])
P ([X1 = zj ]|[X0 = zk ]) · P ([Xn = zk ])
IV
=
(P · P n p(0) )j
=
(P n+1 p(0) )j
Damit ist das Theorem bewiesen.
Beispiel:
=
P
p
(0)
=
=
=
Mitschrieb von Rouven Walter
2
3
1
3
1
2
1
2
1
3
2
3
!
!
!
1
1
·
1
2
P (X0 = 1)
P (X0 = 2)
!
28
Stochastik für (Bio-)Informatiker
4. Definition und einfache Eigenschaften
P ·p
(0)
2
3
1
3
=
!
·
1
2
1
2
!
!
=
= p
⇒
1
3
2
3
1
2
1
2
(0)
P n · p(0) = p(0)
⇒
= p(0)
PXn
4.5. Korollar
Es mögen die Potenzen P n konvergieren
lim P n = Q
n→∞
Dann gilt für jede Anfangsverteilung p(0) stets
lim P n · p(0) = lim PXn
n→∞
= Q · p(0)
4.6. Jukes-Cantor Modell
P
0<α≤
1
3


1−3·α
α
α
α

α
1−3·α
α
α 


= 


α
α
1−3·α
α 
α
α
α
1−3·α
1
 41 
 
P ·  41 
4
 
1
=
1
4
1
·P
4
1
 
· 
1
1
=
1
 41 
4
1
4
1
4
Mitschrieb von Rouven Walter
29
Stochastik für (Bio-)Informatiker
4. Definition und einfache Eigenschaften
!
⇒
lim P n =
n→∞

1
1
1

4 1
1
1
1
1
1
1
1
1
1

1
1


1
1
4.7. Beispiel
Graph mit 4 Ecken.
1
2
3
4

0
0

P 2n+1 =  1
1
2
1
2
2
1
2
P 2n =
1
 12
2

0
0
1
2
1
2
0
0
1
2
1
2
0
0
0
0
0
0
1
2
1
2

1
2
1
2

0
0

0
0

1
2
1
2
Dies ist ein Beispiel, bei dem die Potenzen (P n )n nicht konvergieren.
Mitschrieb von Rouven Walter
30
Stochastik für (Bio-)Informatiker
5. Stochastische Matrizen und Konvergenzsätze
5. Stochastische Matrizen und
Konvergenzsätze
5.1. Definition
Seien
A = (aij )i=1,...,r j=1,...,s
B = (bij )i=1,...,r j=1,...,s
zwei r × s Matrizen reeller Zahlen. Wir schreiben A ≤ B, falls für alle Indizes aij ≤ bij
gilt.
5.2. Satz
Seien A, B, C r × s-Matrizen. Es gilt
a) Ist A ≤ B, so gilt
A+C ≤ B+C
für alle r × s-Matrizen C.
b) Ist D eine s × t-Matrix mit D ≥ 0 und ist A ≤ B, so gilt
A·D ≤ B·D
5.3. Definition
A heißt positiv (nicht negativ), falls alle aij ≥ 0. Schreibweise: A ≥ 0.
A heißt strikt positiv, falls alle aij > 0. Schreibweise: A ≫ 0.
Beispiel:
Matrix
A =


1 ... 1
1 .
.. 
·  ..
.
r
1 ... 1
ist strikt positiv für alle r ∈ R+ .
Mitschrieb von Rouven Walter
31
Stochastik für (Bio-)Informatiker
5. Stochastische Matrizen und Konvergenzsätze
Matrix
B =
ist strikt positiv.
1 ... 1
5.4. Satz
a) Sei A strikt positive r × s-Matrix und B ≥ 0 s × t-Matrix, in der alle Spalten
ungleich Nullvektor sind, so ist AB strikt positiv.
b) Sei A strikt positiv und B ≥ C.
Ist
AB = AC
so ist
B = C
Beweis:
P
a) Durch einfaches Ausrechnen. Ist nämlich AB = (cij ) so ist cij = sk=1 aik bkj > 0
weil mindestens ein Summand > 0 ist.
b) Es ist D := B − C ≥ 0 Wäre D 6= 0, so gäbe es eine Spalte d↓j 6= 0, also wäre
nach a) Ad↓j ≫ 0 und damit AD = A(B − C) 6= 0 im Gegensatz zur Voraussetzung
AB = AC, also AB − AC = A(B − C) = 0.
5.5. Satz
Sei P = (pij )i,j=1,...,r Übergangsmatrix.
Es gilt
p1k + p2k + . . . + prk = 1
für alle k = 1, . . . , r
Beweis:
Zunächst ist pjk = P ([X1 = j]|[X0 = k]). Nach Voraussetzung über Markoffsche Ketten
U
ist Ω = rj=1 [X1 = j]. Also ist
[X0 = k] =
r
]
j=1
Mitschrieb von Rouven Walter
[X0 = k] ∩ [X1 = j]
32
Stochastik für (Bio-)Informatiker
5. Stochastische Matrizen und Konvergenzsätze
Damit ist
P ([X0 = k]) =
r
X
k=1
P ([X1 = j] ∩ [X0 = k])
Division durch P ([X0 = k]) liefert
1 =
=
=
r
X
P ([X1 = j] ∩ [X0 = k])
j=1
r
X
j=1
r
X
P ([X0 = k])
P ([X1 = j]|[X0 = k])
pjk
j=1
Definition:
Eine quadratische Matrix P ≥ 0 in der alle Spaltensumen gleich 1 sind, heißt stochastisch.
⇒
 
 
1
1
 .. 
t  .. 
P · . = .
1
1
⇒
1 ist Eigenwert für jede stochastische Matrix.
5.6. Definition
a) Eine stochastische Matrix P heißt primitiv, wenn es n gibt, so dass
Pn
strikt positiv ist.
b) Sie heißt irreduzibel, wenn es ein n gibt, so dass
n
X
Pj
j=1
stritkt positiv ist.
Es gilt: primitiv ⇒ irreduzibel
Mitschrieb von Rouven Walter
33
Stochastik für (Bio-)Informatiker
5. Stochastische Matrizen und Konvergenzsätze
5.7. Theorem
Sei S eine stochastische irreduzible r × r-Matrix. Dann gilt
a) 1 ist Eigenwert von S und der zugehörige Eigenraum F (S) = {x : Sx = x} ist
eindimensional und enthält genau eine Warscheinlichkeitsverteilung


p1
 .. 
p = .
pr
F (S) = R · p
= {α · p : α ∈ R}
b)
Q = (p, . . . , p)
|
{z
r Spalten
ist eine Projektion auf den Eigenraum F (S) mit
}
SQ = QS
= Q
Q ist stochastisch.
c) Es gilt
Rr = F (S) ⊕ (I − S)Rr
wobei
(I − S)Rr = {(I − S)y : y ∈ Rr }
und es gilt
S(I − S)Rr ⊂ (I − S)Rr
Beweis:
Bezeichnungen:




|x1 |
x1
 .. 
 .. 
Für einen Vektor x =  .  sei xj die j. Koordinate und |x| =  . .
|xr |
xr
Mitschrieb von Rouven Walter
34
Stochastik für (Bio-)Informatiker
a)
5. Stochastische Matrizen und Konvergenzsätze
(I) Behauptung: Sei 0 < p ≤ Sp. Dann gilt p = Sp und p ist strikt positiv.
Beweis: Der Zeilenvektor ~1 = (1, 1, . . . , 1) ist strikt positiv und es gilt ~1S = ~1,
das bedeutet ja gerade, dass S stochastisch ist. Damit folgt
~1(Sp) = (~1S)p
= ~1p
also Sp = p nach 5.4 b). Da S irreduzibel ist, gibt es ein n, so dass T :=
P
k
k=1 S strikt positiv ist. Wegen 0 < p ist dann
n
X
Tp =
Skp
|{z}
k=1 =p
= np
strikt positiv nach 5.4 a).
(II) Behauptung: Es gilt stets |Sx| ≤ S|x|.
Beweis: Wir betrachten die j. Koordinate. Es ist
|Sx|j
=
|
≤
Dreiecksugl.
=
sjk ≥0
r
X
k=1
r
X
k=1
r
X
k=1
sjk xk |
|sjk xk |
sjk |xk | = (S|x|)j
(III) Behauptung: Ist Sx = x, so ist S|x| = |x|, insbesondere gibt es zu 1 einen
strikt positiven Eigenvektor.
Beweis: Aus Sx = x folgt nach (II) |x| = |Sx| ≤ S|x| und damit nach (I)
die Behauptung S|x| = |x|. Nach Voraussetzung ist S stochastisch also 1 ein
Eigenwert (~1S = ~1), also gibt es ein x 6= 0 mit Sx = x, also S|x| = |x| und
dies |x| muss nach (I) strikt positiv sein.
(IV) Behautpung: Seien p, q > 0 mit Sp = p, Sq = q. Dann gibt es ein λ > 0 mit
q = λp.
q
Beweis: p ist (wie q) strikt positiv nach (I). Also ist die Größe λ := max{ pjj :
1 ≤ j ≤ r} wohl definiert (im Nenner steht niemals 0), und es gibt (mindesq
q p
tens) einen Index j0 mit λ = pjj0 . Die j. Koordinate von λp ist λpj ≥ jpj j = qj ,
0
als ist λp ≥ q, und für j0 gilt λpj0 = qj0 . Damit ist 0 ≤ v := λp − q nicht
strikt positiv, aber es gilt
v = λSp − Sq
= λp − q = v
Aus (I) folgt v = 0.
Mitschrieb von Rouven Walter
35
Stochastik für (Bio-)Informatiker
5. Stochastische Matrizen und Konvergenzsätze
(V) Sei q ein nach (III) existierender strikt positiver Eigenvektor. Wir setzen
P
p = Pr q q und erhalten rj=1 pj = 1, p ist also eine strikt positive Wahrj=1 j
scheinlichkeitsverteilung mit Sp = p.
Sei Sv = v 6= 0 ein beliebiger Eigenvektor von S zum Eigenwert 1.
Behauptung: Es gibt µ 6= 0 mit v = µp.
Beweis: Nach (III) ist S|v| = |v|, also gilt nach (IV) |v| = λp für ein λ > 0.
Sei w = λ−1 v. Dann ist Sw = w und |w| = p. Wegen |w| ≥ w ist p − w ≥
p − |w| = 0. Wir unterscheiden zwei Fälle:
a) Ist p = ±w so ist v = ±λp, die Behauptung also bewiesen.
b) Liegt a) nicht vor, so gibt es einen Index j mit wj = pj und einen Index
k mit wk = −pk . Dann gilt (p − w)j = 0 und (p − w)k = 2pk 6= 0. Also ist
0 < S(p − w) = Sp − Sw = p − w. Dann wäre aber p − w nach (I) strikt
positiv, im Widerspruch zu (p − w)j = 0. Als kann b) nicht gelten, das
heißt, es gilt a) und Teil a) des Theorems ist bewiesen.
b) Es ist
Qx =
r
X
xk p
k=1
= ~1x · p ∈ F (S)
Daraus folgt insbesondere Qp = ~1p · p = p, weil p eine Wahrscheinlichkeitsverteilung ist. Also erhält man Q2 = Q(p, . . . p) = (Qp, . . . , Qp) = Q, Q ist also eine
Projektion.
Es ist SQ = (Sp, . . . , Sp) = (p, . . . , p) = Q und QSx = ~1Sx = ~1x = Qx, wegen
~1S = ~1, also QS = Q. Damit ist b) bewiesen.
c) Es ist (I − Q)Rr = ker(Q). Da Q eine Projektion auf den Raum F (S) ist, erhält
man Rr = F (S) ⊕ (I − Q)Rr . Aus QS = Q folgt Q(I − S) = 0, also (I − S)Rr ⊆
ker(Q). Andererseits ist F (S) = ker(I − S), also folgt aus der Dimensionsformel
r − dim(F (S)) = dim(I − S)Rr und ebenso r − dim(F (S)) = dim(ker(Q)). Damit
ist dim(ker(Q)) = dim((I − S)Rr ) und damit folgt (I − S)Rr = ker(Q) und c) ist
bewiesen.
5.8. Korollar
Sei S irreduzibel stochastisch und
Mn =
X
1 n−1
Sk
n k=0
Es gilt
lim Mn = Q
n→∞
Mitschrieb von Rouven Walter
36
Stochastik für (Bio-)Informatiker
5. Stochastische Matrizen und Konvergenzsätze
D.h. ist q = p(0) eine Startwarscheinlichkeit, dann ist
1
Mn · q → p
n
Es ist S k · q = PXk , also
Mn · q = arithmetisches Mittel der Verteilungen PXk (PX0 = q)
Beweis:
(I) Wir benutzen für die Konvergenz die 1-Norm:
kxk = |x1 | + · · · + |xr |
= ~1|x|
(Zeile mal Spalte)
Für sie gilt:
|y|
kyk
≤
|x|
≤
kxk
⇒
insbesondere gilt wegen |Sx| ≤ S|x|
kSxk
≤
kS|x|k
~1S|x|
=
~1|x|
=
kxk
=
S stochastisch
also auch
kS n xk ≤ kxk
(II) Wegen SQ = Q ist Mn Q = Q, also
Qx = Mn Qx
=
lim Mk Qx
k→∞
(III) Nach 5.7c) gibt es zu (I − Q)x ein y mit (I − Q)x = (I − S)y. Nun ist Mn (I − S) =
1
n
n (I − S ) (einfaches Ausrechnen), also ist
Mn (I − Q)x = Mn (I − S)y
1
(y − S n y)
=
n
Mitschrieb von Rouven Walter
37
Stochastik für (Bio-)Informatiker
5. Stochastische Matrizen und Konvergenzsätze
und damit
kMn (I − Q)xk
=
≤
1
ky − S n yk
n
1
(kyk + kS n yk)
| {z }
n
≤kyk
2
kyk
≤
n
→ 0
für n → ∞
(IV) Es ist x = Qx + (I − Q)x. Aus (II) und (III) folgt
lim Mn x = Qx + 0
n→∞
= Qx
5.9. Theorem
Sei S eine primitive stochastische Matrix mit stationärer Verteilung p, d.h. es gilt
S·p = p
Sei Q : x → (1|x) · p die Projetkion auf R · p = F (S). Dann gilt für alle x
lim S n · x = Q · x
n→∞
Beweis:
(I) Wir haben S n Q = Q, weil S als primitive Matrix ja irreduzibel ist. Also müssen
wir nur limn→∞ S n (I − Q)x = 0 zeigen.
(II) Zu x existiert nach 5.7c) ein y mit (I − Q)x = (I − S)y =: u.
Sei nun zunächst einmal z := (I − S)v ∈ (I − S)Rr beliebig. Aus Ungleichung (I)
folgt
kS n+1 zk = kS(S n z)k
≤ kS n zk
die Folge (kS n zk)n ist also monoton fallend und durch 0 nach unten beschränkt,
also konvergent. Wir müssen nur zeigen, dass sie gegen 0 konvergiert.
(III) Wir behandeln erst den Spezialfall, dass S strikt positiv ist. Dann ist
1
>
min{sij : i, j = 1 . . . r}
=: a
>
Mitschrieb von Rouven Walter
0
38
Stochastik für (Bio-)Informatiker
5. Stochastische Matrizen und Konvergenzsätze
Sei T = (1↓ , . . . , 1↓ ). Dann ist T ≫ Q, und nach Definition von a ist S − aT ≥ 0,
1
U ist stochastisch (leichte Rechnung) und
also U := S −aQ ≫ S −aT ≥ 0. G = 1−a
es gilt S = (1 − a)G + aQ. Daraus ergibt sich wegen Q(I − S) = 0 und z = (I − S)v
S(z) = (1 − a)Gz + aQz
= (1 − a)Gz
G ist stochastisch, also ist nach (I) kGzk ≤ kzk und damit
kSzk = (1 − a)kGzk
≤ (1 − a)kzk
Durch einfache Induktion folgt hieraus
kS n+1 zk = kS(S n z)k
≤ (1 − a)kS n zk
≤
···
Induktion
n+1
≤ (1 − a)
kzk
also ist wegen 0 < 1 − a < 1 limn→∞ kS n zk = 0. Insbesondere gilt dies für z =
(I − S)y = (I − Q)x.
(IV) Sei nun S eine beliebige primitive Matrix. Dann gibt es ein k, so dass S k ≫ 0.
Nach (III), angewandt auf S k , ist dann limn→∞ kS kn (I − Q)xk = 0, eine Teilfolge
der monoton fallenden Folge (kS n (I − Q)xk)n konvergiert also gegen 0. Damit
konvergiert die Folge selbst gegen 0 und das Theorem ist bewiesen.
Mitschrieb von Rouven Walter
39
Stochastik für (Bio-)Informatiker
6. Anwendung auf Markoff-Ketten
6. Anwendung auf Markoff-Ketten
Sei P = (pij ) und pij = P (X1 = i|X0 = j) die Übergangsmatrix einer Markoffkette mit
Zustandsraum Z = {1, . . . , r}.


p1
 .. 
= .
pr
PX0
= p(0)
Dann
= P n · p(0)
PXn
Für
 
1
p(0)
 
0

= 
 .. 
.
0
ist
P n · p(0)

(n)

p

 11
p(n) 
 21 
=  . 
 .. 


(n)
pr1


P (Xn = 1)


..
= 

.
P (Xn = r)


P (Xn = 1|X0 = 1)


..
= 

.
P (Xn = r|X0 = 1)
Allgemein
Pn


P (Xn = 1|X0 = 1) . . . P (Xn = 1|X0 = r)


..
..
= 

.
.
P (Xn = r|X0 = 1) . . . P (Xn = r|X0 = r)
Mitschrieb von Rouven Walter
40
Stochastik für (Bio-)Informatiker
6. Anwendung auf Markoff-Ketten
6.1. Irreduzibel und primitiv
Irreduzibel:
Zu je zwei Zuständen (i, j) gibt es ein n mit
(n)
P (Xn = i|X0 = j) = pij
> 0
Primitiv:
Es gibt ein (gemeinsames) n, so dass für alle i, j gilt
(n)
P (Xn = i|X0 = j) = pij
> 0
6.2. Satz
Es ist
P (X0 = i0 , X1 = i1 , X2 = i2 , . . . , Xn = in ) = P (X0 = i0 ) · pi1 i0 · pi2 i1 · . . . · pin in−1
Insbesondere:
Ist P (X0 = i0 ) = 1, so
P (X0 = i0 , X1 = i1 , X2 = i2 , . . . , Xn = in ) = pi1 i0 · pi2 i1 · . . . · pin in−1
Beweis:
Nach Satz 3.3 erhalten wir
=
(1)
P (X0 = i0 , · · · , Xn = in )
P (X0 = i0 )P (X1 = i1 |X0 = i0 )P (X2 = i2 |X1 = i1 , X0 = i0 )
· · · P (Xn = in |Xn−1 = in−1 , . . . , X0 = i0 )
Aufgrund der beiden Eigenschaften (I) und (II) für Markoffketten gilt nun aber
P (Xk = ik |Xk−1 = ik−1 , . . . , X0 = i0 ) = P (Xk = ik |Xk−1 = ik−1 )
= P (X1 = ik |X0 = ik−1 )
= pik ik−1
Einsetzen in (1) liefert die Behauptung.
Mitschrieb von Rouven Walter
41
Stochastik für (Bio-)Informatiker
6. Anwendung auf Markoff-Ketten
6.3. Satz
Eine Markoffkette ist genau dann irreduzibel, wenn es zu jedem Paar (i, j) von Zuständen
ein n gibt und eine Kette (k0 , k1 , . . . , kn ) von Zuständen mit k0 = j, kn = i und
pkl+1 kl
6= 0
für l = 0, . . . , n − 1
Beweis:
Durch Induktion zeigt man
(n)
pij
=
r
r X
X
l1 =1 l2 =1
···
r
X
ln−1 =1
pil1 pl1 l2 · · · pln−1 j
Da alle pmn ≥ 0, ist diese Riesensumme genau dann 6= 0, wenn mindestens ein Summand
6= 0 ist. Nach 6.1 folgt der Satz.
Mitschrieb von Rouven Walter
42
Teil III.
Allgemeine
Warscheinlichkeits-Theorie
43
Stochastik für (Bio-)Informatiker
7. Einführung
7. Einführung
7.1. Definition
Ω = ha, bi, Ereignisse: Endliche Vereinigungen von Teilintervallen.
Sei f : Ω → R+ eine stetige Funktion mit
Z
b
Z
f (x) dx =
a
= 1
f (x) dx
Ω
Dann wird durch
P : hu, vi → [0, 1]
P (hu, vi)
Z
=
v
f (x) dx
u
und allgemein
Z
P (A) =
f (x) dx
A
ein Warscheinlichkeits-Maß der Menge der endlichen Vereinigungen von Teilintervallen
erklärt.
f heißt die Dichte zu P .
Beispiele:
a) Ω = R,
P (|x| > 1) = P (] − ∞, −1[∪]1, ∞[)
=
Z
−1
−∞
f (t) dt +
Z
∞
f (t) dt
1
b) Ω = [0, 1], f (t) = 1
P ([u, v]) = v − u
c) Ω = [a, b], b > a
f (t) =
Mitschrieb von Rouven Walter
1
b−a
44
Stochastik für (Bio-)Informatiker
7. Einführung
7.2. Beispiel
1
, P (hu, vi) =
a) Ω = [a, b] und f (x) = b−a
(Stetige) Gleichverteilung auf [a, b].
v−u
b−a .
P ({u}) = 0
Allgemein:
P ([x, x + dx]) = f (x) dx
als Vorstellung.
b) Standard-Normalverteilung, Ω = R.
Gauß’sche Glockenkurve :
f (x) =
√
Verteilungsfunktion:
φ(u) =
Z
u
−∞
x2
1
· e− 2
2·π
f (x) dx
= P (] − ∞, u])
Z u
x2
1
e− 2 dx
= √ ·
2π −∞
Es gilt
f (x) = f (−x)
ferner
1
2
φ(u) = 1 − φ(−u)
φ(0) =
u<0:
φ(u) =
1
2
Z
u
−∞
f (x) dx
= φ(0)
= φ(u) +
= φ(u) +
Z
0
f (x) dx
u
Z −u
0
1
= φ(u) − +
2
Mitschrieb von Rouven Walter
f (x) dx
Z
|
0
−u
1
f (x) dx +
2
{z
=φ(−u)
}
45
Stochastik für (Bio-)Informatiker
7. Einführung
Standard-Normalverteilung N (0, 1) :
Z
∞ −x2
1
√
·
e 2 dx =
2 · π −∞
Z ∞
−x2
1
√
·
x · e 2 dx =
2 · π −∞
=
Z ∞
2
−x
1
√
·
x2 · e 2 dx =
2 · π −∞
=
1
0
E(X)
1
V (X)
Allgemeine Normalverteilung N (µ, σ) :
−(x−µ)2
1
√
· e 2·σ2
σ· 2·π
E(X) = µ
f (x) =
V (X) = σ 2
E(X) =
V (X) =
Z
ZΩ
Ω
x · f (x) dx
(x − E(X))2 · f (x) dx
c) Ω = [0, ∞] = R+ ,
f (x) = λ · e−λ·x
P ([T ≤ t]) = λ ·
Z
t
e−λ·s ds
0
Fragen nach
P ([T < t + dt]|[T ≥ t])
=
Def. bed. Warscheinlichkeit
P ([T < t + dt] ∩ [T ≥ t])
P ([T ≥ t])
R t+dt
f (s) ds
P ([T ≥ t])
f (t + Θtdt) · dt
P ([T ≥ t])
t
=
=
0≤Θ≤1
Dann Division durch dt :
P ([T < t + dt]|[T ≥ t])
dt
=
=
Mitschrieb von Rouven Walter
f (t + Θtdt)
P ([T ≥ t])
f (t)
P ([T ≥ t])
46
Stochastik für (Bio-)Informatiker
7. Einführung
7.3. Theorem (de Moivre-Laplace)
Sei Ω0 = {0, 1}, P (1) = p, 0 < p < 1, P (0) = 1 − p, n ∈ N, Ωn = {0, 1}n .
Sn (ω) =
n
X
ωk
k=1
Sn (ω)
P (ω) = p
E(Sn ) = n · p
V (Sn ) = n · p · (1 − p)
Sn (ω) − n · p
Sn∗ (ω) = p
n · p · (1 − p)
Es gilt
lim P ({ω : a ≤
n→∞
Beispiel:
n = 36, p =
· (1 − p)n−Sn (ω)
1
2
Sn∗ (ω)
Z
b −x2
1
e 2 dx
≤ b}) = √ ·
2π a
= φ(b) − φ(a)
= q,
√
n · p = 18
n·p·q = 3
P (S36 ≤ 15) = ?
Sn ≤ 15 ⇔ Sn − n · p ≤ 15 − n · p
⇔ Sn − n · p ≤ −3
−3
Sn − n · p
≤√
⇔ Sn∗ = √
n·p·q
n·p·q
Sn − n · p
≤ −1
⇔ Sn∗ = √
n·p·q
P (S36 ≤ 15)
=
≈
7.3
φ(−1) − φ(−∞)
=
φ(−1)
=
1 − φ(1)
7.2 b
≈
Tabelle
=
Mitschrieb von Rouven Walter
∗
P (S36
≤ −1)
1 − 0, 84134
0, 15866
47
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
8. Allgemeine Warscheinlichkeits-Räume
Einführung:
Ω = R,
ε0 = {A ⊂ Ω : A ist endliche Vereinigung von Intervallen}
P (A) =
{0} =
Z
f (x) dx
A
∞
\
n=1
1 1
− ,
n n
8.1. Definition
a) A ⊂ P(Ω) heißt Boolsche Unteralgebra, falls gilt
(i) A ∈ A
(ii) A, B ∈ A
⇒
(iii) A, B ∈ A
⇒
Ac = Ω \ A ∈ A
A∩B ∈A
⇒
A∪B ∈A
b) ε ⊂ P(Ω) heißt σ-Algebra, falls gilt
(i) Ω ∈ ε
(ii) A ∈ ε
⇒
Ac = Ω \ A ∈ ε
(iii) (An ) ⊂ ε
⇒
(An ) ⊂ ε
(
T∞
(
n=1 An )
∈ε
Daraus folgt unmittelbar mit De Morgan:
⇒
S∞
n=1 An )
∈ε
8.2. Bemerkung
(a) Sei A ⊂ P(Ω) eine Boolsche Algebra, so gilt
∅∈A
Ω∈A
Mitschrieb von Rouven Walter
48
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
Beweis:
A ∈ A ⇒ Ac ∈ A
(i)
⇒ ∅ = A ∩ Ac ∈ A
(ii)
⇒ ∅c = Ω ∈ A
(i)
(b) Sei (Aα )α Familie von σ-Algebren. Dann ist
\
Aα
α
wieder eine σ-Algebra.
(c) Anwendung von (2) :
Sei F ⊂ P(Ω),
A := {A : A ist σ-Algebra und F ∈ A}
Die Menge
ε(F) =
\
A
A∈A
heißt die von F erzeugte σ-Algebra.
8.3. Konkret
a) Ω = R, F = Menge aller Intervalle,
die Menge
ε(F) = B
heißt σ-Algebra der Borelmengen.
Jede abgeschlossene und jede offene Menge ist Borelmenge.
Bemerkung:
Z
f (x) dx
B
erklärbar für alle Dichtefunktionen f und alle Borelmengen.
Mitschrieb von Rouven Walter
49
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
b) Ω = Rr , F = Menge aller r-dimensionalen Quader
ε(F) = B(Rr )
heißt σ-Algebra der Borelmengen in Rr .
Jede abgeschlossene, jede offene Menge ist Borelmenge.
Z.B. in R2 ist G = {(x, x) : x ∈ R} auch eine Borelmenge.
c) Ω = {1, . . . , r}N , Z ⊂ Ω heißt Zylindermenge, wenn es ein n gibt und A ⊂
{1, . . . , r}n = Ωn0 , so dass
Z = A × {1, . . . , r}N\{1,...,n}
Z.B.:
Z = {(1, 1, x3 , x4 , x5 , . . .) : xk ∈ Ω0 }
A = {(1, 1)}
⊂ {1, . . . , r}2
Z = die von Zylindermengen erzeugte σ-Algebra
8.4. ???
8.5. Definition
Sei ∅ =
6 Ω, ε ⊂ P(Ω) eine σ-Algebra und P : ε → [0, 1] eine Funktion mit
(i) P (Ω) = 1
(ii) Ist (An ) ⊂ ε eine Folge paarweise disjunkter Mengen, so ist
P
∞
[
n=1
An
!
=
∞
X
P (An )
n=1
Dann heißt (Ω, ε, P ) Warscheinlichkeits-Raum.
ε heißt Ereignisalgebra.
P heißt Warscheinlichkeits-Maß/-Verteilung.
Beispiel:
(1) Ω endlich oder abzählbar, ε = P(Ω), P wie bisher.
(2) Ω = [a, b], ε Menge der Borelmengen in Ω
P (B) =
Mitschrieb von Rouven Walter
1
·
b−a
Z
1 dx
B
50
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
(3) Ω = R, ε: Borelmengenalgebra B.
P (B) =
√
1
2·π
Z
e−
x2
2
dx
B
(4) Ω = Rr , ε = B(Rr ),
r
f (x) = (2π)− 2 · e−
P (B) =
Z
2
(x2
1 +...+xr )
2
f (x) dx
B
(5) Ω = {0, 1}N , Z von Zylindermengen erzeugte σ-Algebra.
P auf den Zylindern
Z = A × ΩN\{1,...,n}
P (Z) = Pn (A)
8.6. Satz (Einfache Eigenschaften)
a) P (∅) = 0
b) A ⊆ B
⇒
P (A) ≤ P (B)
c) P (Ac ) = 1 − P (A)
d)
(i) (An )n≥1 Folge mit An ⊆ An+1 .
Dann gilt
∞
[
P
An
n=1
!
=
!
=
lim P (An )
n→∞
(ii) (An )n≥1 Folge mit An ⊇ An+1 .
Dann gilt
∞
\
P
n=1
An
lim P (An )
n→∞
Beweis:
a) Ω = Ω ∪ ∅ ergibt nach 8.5 sofort
1 = P (Ω ∪ ∅)
= P (Ω) + P (∅)
= 1 + P (∅)
woraus die Behauptung folgt.
Mitschrieb von Rouven Walter
51
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
b) A ⊆ B impliziert B = A ⊎ B \ A, also
P (B) = P (A) + P (B \ A)
≥ P (A)
c) Folgt wegen Ω = A ⊎ Ac , also 1 = P (Ω) = P (A) + P (Ac ).
d)
(i) Sei B1 = A1 , B2 = A2 \ A1 , . . . Bn = An \ An−1 . Dann ist An =
S
U
A = An = ∞
k=1 Bk . Nach 8.5 (ii) ist also
n
X
P (An ) =
Un
k=1 Bk
und
P (Bk )
k=1
und
P (A) =
∞
X
P (Bk )
k=1
=
=
lim
n→∞
n
X
P (Bk )
k=1
lim P (An )
n→∞
T
c
c
c
c
(ii) Sei A = ∞
n=1 An . Es ist An ⊆ An+1 , also nach (i) P (A ) = limn→∞ P (An ).
Mit c) folgt die Behauptung.
8.7. Beispiel
(i) Ω = R, f : Ω → R+ stetig mit
Z
∞
−∞
f (t) dt = 1
P (ha, bi) =
Z
b
f (t) dt
a
Es gilt
P ({t}) = 0
Denn
{t} =
A1 ⊃ A2 ⊃ . . .
Mitschrieb von Rouven Walter
∞
\
1
]
{z n}
[t, t +
n=1 |
=An
52
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
Dann gilt nach 8.6:
P ({t}) =
lim P (An )
n→∞
=
lim
Z
1
t+ n
n→∞ t
f (s) ds
1
· f (Sn )
n→∞ n
=
lim
Sei
γ = sup{f (s) : t ≤ s ≤ t + 1}
⇒
P (t) ≤
1
·γ
n
lim
n→∞
= 0
(ii) Ω = Rn ,
f (t1 , . . . , tn ) =
P ([a1 , b1 ] × . . . × [an , bn ]) =
t2 +...+t2
1
− 1 2 n
√
·e
( 2π)n
1
√
·
( 2π)n
Z
b1
a1
...
Z
bn
an
−
e
2
t2
1 +...+tn
2
dt1 . . . dtn
8.8. Definition
Sei (Ω, ε, P ) ein Warscheinlichkeits-Raum.
X : Ω → R heißt (reelle) Zufallsvariable, falls
X −1 (]a, b]) ∈ ε
für alle Intervalle ]a, b].
X −1 (]a, b]) = {ω : a < X(ω) ≤ b}
= [a < X ≤ b]
8.9. Satz
a) X ist genau dann eine Zufallsvariable, wenn für jede Borelmenge B ⊆ R das Urbild
X −1 (B) ∈ ε.
b) Summe, Produkt und Absolutbetrag von Zufallsvariablen, sowie max(X, Y ) und
min(X, Y ) sind wieder Zufallsvariablen.
Mitschrieb von Rouven Walter
53
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
c) Sei (Xn ) eine Folge von Zufallsvariablen und
X(ω) =
lim Xn (ω)
n→∞
für alle ω, so ist X Zufallsvariable.
8.10. Definition
Sei (Ω, ε, P ) ein Warscheinlichkeits-Raum und X : Ω → R eine Zufallsvariable.
Dann ist durch
PX (B) := P ({ω : X(ω) ∈ B})
auf der σ-Algebra B(R) der Borelmengen ein Warscheinlichkeits-Maß gegeben, die Verteilung von X auf R.
8.11. Bemerkung
a) Oft ist (Ω, ε, P ) gar nicht wichtig, sondern nur PX auf R (Normalverteilung, Exponentialverteilung usw.).
b) Sei f : Rr → R+ eine stetige Dichte und
P (B) =
Z
f (x) dx
B
Dann ist
(Rr , B(Rr ), P )
ein Warscheinlichkeits-Raum und
Xj (x) = xj
sind Zufallsvariablen.
X(t) = t ist Zufallvariable.
8.12. Satz
Wesentliche Ergebnisse aus Teil 1 und 2 gelten auch im allgemeinen
Warscheinlichkeits-Raum.
Bedingte Warscheinlichkeit:
P (A|B) =
Mitschrieb von Rouven Walter

0
 P (A∩B)
P (B)
P (B) = 0
P (B) 6= 0
54
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
Es gilt
P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · . . . · P (An |A1 ∩ . . . ∩ An )
Es gilt auch das Theorem von Bayes:
A1 , . . . , An paarweise disjunkte Ereignisse und
so gilt für alle k = 1, . . . , n :
P (Ak |B) =
Sn
k=1 Ak
= Ω. Sei B ein Ereignis,
P (Ak ) · P (B|Ak )
P (A1 ) · P (B|A1 ) + . . . + P (An ) · P (B|An )
Unabhängigkeit:
A2 , A2 ∈ ε heißen stochastisch unabhängig, wenn
P (A1 ∩ A2 ) = P (A1 ) · P (A2 )
A1 , . . . , An heißen stochastisch unabhängig, wenn für alle k ≤ n und Indizes i1 <
i2 < . . . < ik ≤ n stets

P
k
\
j=1

Aij  =
k
Y
P (Aij )
j=1
Zufallsvariablen X1 , . . . , Xn heißen stochastisch unabhängig, wenn für alle Intervalle J1 , . . . , Jn die Urbilder X1−1 (J1 ), . . . , Xn−1 (Jn ) stochastisch unabhängig sind.
(An )n≥1 heißt stochastisch unabhängig, wenn jede endliche Teilfolge stochastisch
unabhängig ist.
Nicht übertragbar auf den allgemeinen Fall:
X, Y : Ω → R stochastisch unabhängig, wenn [X = a], [Y = b] (a, b ∈ R).
Beispiel
1) Ω = [0, 1]2 , Dichte f (x, y) = 1, Xj ((x1 , x2 )) = xj
2) Ω = R2 , f (x, y) = g(x) · h(y), g, h stetige Dichten auf R.
Xj (x1 , x2 ) = xj
J1 = [0, 1]
X1−1 (J1 )
Mitschrieb von Rouven Walter
∩
J2
−1
X1 (J1 )
X2−1 (J2 )
X2−1 (J2 )
= [4, 5]
= [0, 1] × R
= R × [4, 5]
= [0, 1] × [4, 5]
55
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
P ([0, 1] × [4, 5]) =
=
Z
0
Z
0
=
Z
1Z 5
5
4
1
0
f (x, y) dx dy
4
1Z
g(x) · h(y) dx dy
g(x) dx ·
Z
5
4
h(y) dy
= P X1−1 (J1 ) · P X2−1 (J2 )
8.13. Definition (Erwartungswert)
(Ω, ε, P ) Warscheinlichkeits-Raum.
a)
X =
n
X
j=1
αj · 1Aj
mit αj ∈ R und Aj ∈ ε heißt elementare Zufallsvariable.
E(X) =
n
X
j=1
αj · P (Aj )
heißt Erwartungswert von X.
b) X : Ω → R+ sei Zufallsvariable.
Erwartungswert
E(X) = sup{E(Y ) : 0 ≤ Y ≤ X und Y ist elementar}
Wenn E(X) < ∞, dann heißt X integrierbar.
c) Sei X : Ω → R,
X + (ω) = max{X(ω), 0}
X − (ω) = max{−X(ω), 0}
X+ − X− = X
X + − X − = |X|
X heißt integrierbar, wenn X + und X − integrierbar sind,
E(X) = E(X + ) − E(X − )
Mitschrieb von Rouven Walter
56
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
8.14. Beispiel
1) Ω endlich, dann nichts neues.
2) Ω abzählbar, dann alt = neu, siehe Übungsaufgabe 36.
3) Ω = ha, bi, f : Ω → R stetige Dichte, P üblich
X(t) = t
X integrierbar ⇔
Z
b
E(X) =
Z
b
a
|t| · f (t) dt existiert
und dann
a
t · f (t) dt
8.15. Satz (Eigenschaften des Erwartungswertes)
a) X und Y integrierbar, α, β ∈ R
⇒
α · X + β · Y integrierbar und
E(αX + βY ) = α · E(X) + β · E(X)
b) X, Y integrierbar und X ≤ Y
⇒
E(X) ≤ E(Y )
Insbesondere
|E(X)| ≤ E(|X|)
c) X integrierbar, Y Zufallsvariable mit
|Y | ≤ |X|
⇒
Y integrierbar und
|E(Y )| ≤ E(|X|)
Mitschrieb von Rouven Walter
57
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
8.16. Theorem
a) Konvergenzsatz von Levi:
Sei (Xn ) eine monotone Folge integrierbarer Funktionen und die Folge (E(Xn )) sei
beschränkt.
Sei
X(ω) =
lim Xn (ω)
n→∞
∈ R ∀ω
Dann ist X integrierbar und
E(X) =
lim E(Xn )
n→∞
b) Konvergenzsatz von Lebesgue:
Sei (Xn ) eine monotone Folge integrierbarer Funktionen und
|Xn | ≤ Y
wo Y integrierbar. Ferner sei
X(ω) =
lim Xn (ω)
n→∞
Dann ist X integrierbar und es gilt
E(X) =
lim E(Xn )
n→∞
Regel:
E(lim) = lim E
8.17. Satz und Definition
Sei X : (Ω, ε, P ) → R eine Zufallsvariable.
X heißt quadratisch integrierbar, wenn X 2 integrierbar ist.
Dann ist auch X integrierbar. Das Integral
E((X − E(X))2 ) =: V (X)
heißt Varianz von X.
σ(X) :=
heißt Streuung.
Mitschrieb von Rouven Walter
q
V (X)
58
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
Es gilt
V (X) = E(X 2 ) − (E(X))2
(Übung von diskreten zu allgemeinen Warscheinlichkeits-Räumen: Statt Summe Integral)
Beweis:
|t| ≤ 1 + t2
also
|X| ≤ 1Ω + X 2
8.18. Definition und Satz
Seien X und Y quadratisch integrierbar.
Dann ist X · Y integrierbar.
Die Größe
E((X − E(X)) · (Y − E(Y ))) = E(X · Y ) − E(X) · E(Y )
heißt Covarianz C(X, Y ) und
C(X, Y )
σ(X) · σ(Y )
heißt Korrelationskoeffizient.
Ist dieser gleich 0, so heißen X und Y unkorreliert.
Beweis:
Es ist für 2 reelle Zahlen a, b stets
a2 − 2ab + b2 = (a − b)2
≥ 0
also |ab| ≤ 2|ab| ≤ a2 + b2 . Damit ist |XY | ≤ X 2 + Y 2 . Da X 2 und Y 2 integrierbar sind,
ist XY nach 8.15 c) integrierbar. Der Rest ist reine Rechnerei.
8.19. Satz
Sei X : (Ω, ε, P ) → R eine Zufallsvariable und PX : B(R) → [0, 1] die Verteilung von X
gegeben durch
PX (B) = P (X −1 (B))
Mitschrieb von Rouven Walter
59
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
insbesondere
PX (]a, b]) = P ([a < X ≤ b])
Dann gilt
E(X) =
Z
R
=
t · PX dt
2n
2
X
lim
n→∞
k=22n
2n
=
2
X
lim
n→∞
k=22n
k
PX
2n
k
P
2n
Z
E(X 2 ) =
Z
=
k
k+1
<X≤
2n
2n
t2 PX dt
R
PX (]a, b])
k k+1
,
2n 2n
b
f (t) dt
a
⇒ Z
E(X) =
t · f (t) dt
E(X 2 )
=
f (t) =
(
Z
t2 · f (t) dt
Beispiel:
Glechverteilung
1 0≤t≤1
0 sonst
E(X) =
Z
1
Z
1
0
=
2
E(X ) =
1
2
0
=
Mitschrieb von Rouven Walter
t · f (t) dt
t2 · f (t) dt
1
3
60
Stochastik für (Bio-)Informatiker
8. Allgemeine Warscheinlichkeits-Räume
8.20. Satz
Seien X und Y Zufallsvariablen. Dann wird durch
PX,Y (]a, b]×]c, d]) = P ([a < X ≤ b] ∩ [c < Y ≤ d])
ein Warscheinlichkeitsmaß auf R2 definiert, die gemeinsame Verteilung von X und Y .
Mit ihm ist
Co(X, Y ) =
Z Z
(X − E(X))(Y − E(Y ))PX,Y dx dy
PX,Y gegeben durch h(x, y) damit
Co(X, Y ) =
Z Z
Mitschrieb von Rouven Walter
(X − E(X))(Y − E(Y ))h(x, y) dx dy
61
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
9. Grenzwertsätze
9.1. Einführung
(Ω, ε, P ) Warscheinlichkeits-Raum.
(I) Erinnerung: (An ) Folge von Ereignissen.
Ist An ⊆ An+1 für alle n, so gilt
∞
[
P
An
!
=
An
!
=
n=1
Ist An+1 ⊆ An für alle n, so gilt
∞
\
P
n=1
lim P (An )
n→∞
lim P (An )
n→∞
(II) (An )n Folge von Ereignissen.
a)
∞
\
n=1
∞
[
Ak
k=n
!
=: C
ω ∈ C ⇔ ∀n∃k ≥ n : ω ∈ Ak
b)
∞
[
n=1
∞
\
k=n
Ak
!
=: D
ω ∈ D ⇔ ∃n∀k ≥ n : ω ∈ Ak
Einschub:
Tastatur mit 50 Tasten. Ω0 = {a1 , . . . , a50 }, Ω = ΩN
0,
P0 (ak ) =
P (ω1 , . . . , ωn ) × ΩN\{1,...,n}
Mitschrieb von Rouven Walter
=
1
50
1
50n
62
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
k ∈ N,
ωk = b, ωk+1 = a, ωk+2 = n, ωk+3 = a, ωk+4 = n, ωk+5 = e.
Bk = {ω : (ωk , . . . , ωk+5 ) = (b, a, n, a, n, e)}
An = B6n+1
C =
∞ [
\
Ak
n=1 k≥n
9.2. Hilfssätze
a)

P
n
[
j=1
b) 0 ≤ x ≤ 1, so 1 − x ≤ e−x

Cj  ≤
n
X
P (Cj )
j=1
Beweis:
a) Induktion über n.
Es ist
C1 ∪ C2 = C1 ⊎ (C2 \ C1 ∩ C2 )
also
P (C1 ∪ C2 ) = P (C1 ) + P ((C2 \ C1 ∩ C2 ))
|
≤ P (C1 ) + P (C2 )
Sn
Wende diesen Schluss nun an auf
k=1 Ck
{z
≤P (C2 )
}
∪ Cn+1 .
b) Die Funktion f (x) = e−x −(1−x) erfüllt f (0) = 0 und f ′ (x) = −e−x +1 = 1− e1x ≥ 0
auf [0, 1]. f ist dort also monoton wachsend, also wegen f (0) = 0 immer ≥ 0.
9.3. Lemma von Borel-Cantelli
Sei (An ) eine beliebige Folge aus ε.
a) Ist
∞
X
n=1
dann ist

P
P (An ) < ∞
∞ [
\
n=1 k≥n
Mitschrieb von Rouven Walter

Ak  = 0
63
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
b) Ist
∞
X
n=1
P (An ) = ∞
und die An unabhängig, dann ist

P
∞ [
\
n=1 k≥n

Ak  = 1
Beweis:
T
S
a) Wir setzen Bn := k≥n Ak und erhalten B := ∞
n=1 Bn , sowie Bn+1 ⊆ Bn . Also
gilt nach 8.6 d) (ii)
P (B) =
lim P (Bn )
n→∞
Aber
P (Bn ) ≤
∞
X
P (Ak )
k=n
P
nach dem Hilfssatz, Teil a). Da die Summe ∞
k=1 P (Ak ) konvergiert, ist die Folge
P∞
( k=n P (Ak ))n eine Nullfolge, und die Behauptung folgt.
b) Wir zeigen (mit den Bezeichnungen von Teil a) des Beweises) P (B c ) = 0. Wec
gen Bn+1
⊇ Bnc ist P (B c ) = limn→∞ P (Bnc ) (s. 8.6.d) (i)). Wieder mit 8.6 d)
erhalten wir (unter Anwendung der deMorganschen Regeln für das Berechnen des
Komplements der Vereinigung und des Durchschnitts)
P (Bnc ) = P (
∞
\
Ack )
k=n
=
lim P (
l→∞
n+l
\
Ack )
k=n
Nun sind die Ak stochastisch unabhängig, also auch die Ack . Damit gilt
P(
n+l
\
Ack ) =
k=n
=
≤
l+n
Y
k=n
n+l
Y
(1 − P (Ak ))
k=n
n+l
Y
e−P (Ak )
k=n
= e−
Mitschrieb von Rouven Walter
P (Ack )
Pn+l
k=n
P (Ak )
64
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
P∞
divergiert, gilt auch
für alle n stets
Pl+n
− k=n P (Ak )
liml→∞ k=n P (Ak ) = ∞, also liml→∞ e
= 0. Damit ist P (Bnc ) = 0,
und daraus folgt die Behauptung.
Da die Reihe
Pl+n
k=1 P (Ak )
9.4. Beispiel
Aufgriff des vorherigen Beispiels mit der Tastatur.
An = B6n+1
1
P (An ) =
506
∞
∞
X
X
1
P (An ) =
506
n=1
n=1
= ∞
Nach dem Satz 9.3 b) ist also P (C) = 1, das bedeutet: Mit Wahrscheinlichkeit 1 tritt
das Wort Banane unendlich oft auf. Analog behandelt man das Beispiel, dass die Bibel
mit Wahrscheinlichkeit 1 unendlich oft auftritt, wenn man zufällig auf der Tastatur eines
PC umhertippt.
9.5. Satz (Ungleichung von Kolmogorow)
Seien Z1 , . . . , Zn unabhängige Zufallsvariablen mit E(Zk ) = 0, V (Zk ) < ∞.
Sei
Sk (ω) =
k
X
Zj (ω)
j=1
Yn (ω) = max{|Sk (ω)| : 1 ≤ k ≤ n}
η > 0 beliebig.
P ({ω : Y (ω) ≥ η}) ≤
=
Pn
j=1 V
η2
(Zj )
1
V (Sn )
η2
Beweis:
Sei
A1 = {ω : |S1 (ω)| ≥ η}
und für k > 1 sei
Ak = {ω : |Sl (ω)| < η, für l < k, |Sk (ω)| ≥ η}
Mitschrieb von Rouven Walter
65
Stochastik für (Bio-)Informatiker
Sei A = [Y ≥ η]. Dann gilt A =
Pn
k=1 P (Ak ).
9. Grenzwertsätze
Sn
k=1 Ak
und Ak ∩ Al = ∅ für k 6= l. Also ist P (A) =
Nun ist P (Ak ) = E(1Ak ) und ist ω ∈ Ak , so ist 1 ≤
Sk2
η2
|Sk (ω)|
η
· 1Ak und damit
≤
Sk (ω)2
.
η2
Also gilt 1Ak ≤
P (Ak ) = E(1Ak )
1
≤
E(Sk2 · 1Ak )
η2
1
E(Sn2 · 1Ak )
≤
η2
Hieraus folgt nun wegen 1A =
Pn
k=1 1Ak
P (A)
=
(1)
=
≤
=
≤
P
n
X
k=1
n
X
P (Ak )
E(1Ak )
k=1
n
X
1
E(Sn2 · 1Ak )
2
η
k=1
1
E(Sn2 1A )
η2
1
E(Sn2 )
η2
P
Nun ist Sn2 = nk=1 Zk2 + 2 j<k Zj Zk . Da die Zj unabhängig sind und den Mittelwert
0 haben, ist E(Zj Zk ) = 0 (siehe die Definition der Kovarianz) und E(Zk2 ) = V (Zk ), also
wegen E(Sn ) = 0 schließlich
V (Sn ) = E(Sn2 )
=
n
X
V (Zk )
k=1
Einsetzen in Ungleichung (1) liefert die Behauptung.
9.6. (Ursprünglich 9.9) Lemma
Sei (Xn ) eine Folge von unabhängiger, quadratische integrierbarer Zufallsvariablen und
es gelte
(i) E(Xn ) = µ für alle n
(ii) ∀n : V (Xn ) ≤ β für ein β > 0
Mitschrieb von Rouven Walter
66
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
Xn =
n
1X
Xk
n k=1
Sei η > 0 beliebig und N ∈ N.
Behauptung:
P ({ω : sup |X n − µ| > η}) = P
n≥N
)!
n
1 X
ω : sup Xk (ω) − µ > η
n≥N n
(
k=1
4·β
N · η2
≤
Beweis:
(I) Damit wir die Ungleichung von Kolmogoroff anwenden können, setzen wir Zn =
P
Xn − µ, ferner Sn = nk=1 Zk und erhalten, dass die Zn stochastisch unabhängig
sind, den Mittelwert 0 und die Varianz V (Zn ) = V (Xn ) haben.
Es ist
=
X̄n − µ
=
=
n
1X
Xk − µ
n k=1
1
n
n
X
k=1
n
X
!
(Xk − µ)
1
Zk
n k=1
1
Sn
n
=: Z̄n
=
(II) Für beliebiges l ≥ 0 gilt
max
N 2l ≤n<N 2l+1
|Z̄n | ≥ η
=
(1)
⊆
⊆
max
N 2l ≤n<N 2l+1
max
N 2l ≤n<N 2l+1
|Sn | ≥ ηn
l
|Sn | ≥ ηN 2
l
max |Sn | ≥ ηN 2 .
n<N 2l+1
Ferner gilt
"
sup |Z̄n | > η
n≥N
Mitschrieb von Rouven Walter
#
⊆
∞ ]
l=0
max
N 2l ≤n<N 2l+1
|Z̄n | ≥ η
67
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
Daraus folgt
P
"
sup |Z̄n | > η
n≥N
#!
≤
(2)
le
(2)
∞
X
l=0
∞
X
P
P
l=0
max
N 2l ≤n<N 2l+1
|Z̄n | ≥ η
l
max |Sn | ≥ ηN 2
n<N 2l+1
Die einzelnen Summanden schätzen wir mit der Kolmogoroffschen Ungleichung ab.
Dabei beachten wir die Voraussetzung V (Xk ) = V (Zk ) ≤ β und erhalten
P
max |Sn | ≥ ηN 2l
n<N 2l+1
1
≤
η 2 N 2 22l
· N 2l+1 β
Einsetzen in (2) liefert wegen Z̄n = X̄n − µ
P
"
sup |X̄n − µ| > η
n≥N
#!
≤
∞
2β X
4β
2−l = 2
2
η N l=0
η ·N
9.7. Theorem (Starkes Gesetz der großen Zahlen)
Seien (Xn ) unabhängige Zufallsvariablen mit E(Xn ) = µ, V (Xn ) ≤ β für alle n.
Dann gilt
P
)!
(
n
1X
Xk (ω) = µ
ω : lim
n→∞ n
k=1
= 1
Beweis:
(I) Wir setzen wieder X̄n − µ = Z̄n mit Zk = Xk − µ (vergl. den Beweis von 9.6, Teil
(II)) und müssen zeigen:
P
h
i
lim Z̄n = 0
n→∞
Äquivalent dazu ist die Aussage
= 1
P {ω : (|Z̄n (ω)| 9 0}
Wir setzen der Bequemlichkeit halber
= 0
Un = |Z̄n |
(II) Sei A = {ω : (Un (ω)| 9 0} und für r, n ∈ N sei An,r = [supk≥n Uk > 1/r]. Dann
ist
A =
∞ \
∞
[
An,r
r=1 n=1
Mitschrieb von Rouven Walter
68
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
Dies ergibt sich aus Folgendem:
Es gilt
limn→∞ Un (ω) = 0
⇔
∀r∃n∀k ≥ n(Uk (ω) ≤ 1/r)
⇔
∀r∃n supk≥n Uk (ω) ≤ 1/r
Damit gilt
ω∈A
⇔
(Un (ω)) 9 0
⇔
∃r∀n supk≥n Uk (ω) > 1/r
ω∈
⇔
S∞ T∞
r=1
n=1 An,r
(III) Für jedes feste n ∈ N und r ∈ N ist nun aber nach dem Lemma
P
"
1
sup |Z̄k | >
r
k≥n
Also ist wegen An+1,r ⊆ An,r
P(
∞
\
#!
An,r ) =
n=1
= P (An,r ) ≤
4βr2
n
lim P (An,r )
n→∞
4βr2
n→∞ n
= 0
≤
lim
Daraus folgt
P (A) ≤
∞
X
r=1
= 0
P(
∞
\
An,r )
n=1
9.8. Beispiel
Bernoulli-Experiment,
Ω = {0, 1}N , Xn (ω) = ωn , E(Xn ) = p, V (Xn ) = p(1 − p)
n
1X
ωk = p]) = 1
P ([ lim (
n→∞ n
k=1
Mitschrieb von Rouven Walter
69
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
9.9. Theorem
Sei (Xn ) eine Folge von unabhängigen Zufallsvariablen mit der gleichen Verteilung,
d.h. es ist PXn = PXm für alle n, m und es möge die Varianz existieren.
Sei
n
1 X
√
(Xk (ω) − µ)
σ · n k=1
Sn∗ (ω) =
Dann gilt
lim P ([a ≤ Sn∗ < b]) = φ(b) − φ(a)
n→∞
=
1
√
2π
Z
b
e−
X2
2
dx
a
Außerdem
PSn∗
≈ N (0, 1)
Beispiel zum zentralen Grenzwertsatz:
(Yn ) Folge von Zufallsvariablen, unabhängig.
Poissonverteilung mit λ.
Yn =
Sn∗
=
n
1X
Yk
n k=1
n
1 X
√
(Yk − λ)
λn k=1
Es gilt
P (a < Sn∗ ≤ b) ≈
1
√
2π
Z
b
e−
x2
2
dx
a
Gefragt ist

P k <
Es gilt
k<
n
X
j=1
n
X
j=1
Yj ≤ l ≈ ?
Yj ≤ l ⇔ k − n · λ <
⇔
Mitschrieb von Rouven Walter

n
X
(Yj − λ) ≤ l − n · λ
j=1
k−n·λ
l−n·λ
√
< Sn∗ ≤ √
n·λ
n·λ
70
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
Daraus folgt

P k <
n
X
j=1

P
= φ
Yj ≤ l =
Sei λ = 1, n = 36, k = 30, l = 40.
l−n·λ
√
n·λ
k−n·λ
√
n·λ

P 30 <
n
X
j=1
k−n·λ
l−n·λ
√
< Sn∗ ≤ √
n·λ
n·λ
l−n·λ
√
n·λ
−φ
k−n·λ
√
n·λ
40 − 36 · 1
√
36 · 1
≈ 0, 67
30 − 36 · 1
√
=
36 · 1
= −1
=

Yj ≤ 40 = φ(0, 67) − φ(−1)
= 0, 786 − 1 + 0, 84
= 0, 786 − 0, 16
= 0, 726
9.10. Satz
Sei E(Zj ) = 0, so gilt

k
X P max Zk ≥ η 
k≤n j=1

<
n·β
η2
Kolmogorow’sche Ungleichung.
Ist n = 1, so erhält man die Tschebyscheff’sche Ungleichung:
P ([|X − E(X)| ≥ η]) <
σ2
η2
9.11. Satz (Schwaches Gesetz der großen Zahlen)
Seien (Xn )n paarweise unkorreliert mit E(Xn ) = µ ∀n und V (Xn ) = σ 2 ∀n.
Dann gilt:
Zu jedem η > 0 und ǫ > 0 gibt es ein n(η, ǫ), so dass für alle n ≥ n(η, ǫ) gilt
P
n
ω : X n − µ ≥ η
Mitschrieb von Rouven Walter
o
≤ ǫ
71
Stochastik für (Bio-)Informatiker
9. Grenzwertsätze
Äquivalenz dazu ist folgende Aussage
lim P
n→∞
Beweis:
TODO
Mitschrieb von Rouven Walter
i
h
X n − µ ≥ η
= 0
72
Herunterladen