Mitschrieb der Vorlesung Stochastik für Informatiker und Bioinformatiker Prof. Dr. Manfred Wolff Sommersemseter 2008∗ Mitschrieb in LATEXvon Rouven Walter ∗ Letzte Änderung: 8. März 2011 Stochastik für (Bio-)Informatiker Lizenz Lizenz Das Werk „Stochastik für (Bio-)Informatiker“ von Rouven Walter steht unter einer Creative Commons Namensnennung-Nicht-kommerziell-Weitergabe unter gleichen Bedingungen 3.0 Deutschland Lizenz. Eine Zusammenfassung der Lizenz ist unter http://creativecommons.org/licenses/by-nc-sa/3.0/de/ einsehbar. Der vollständige rechtsverbindliche Lizenzvertrag kann eingesehen werden unter http://creativecommons.org/licenses/by-nc-sa/3.0/de/legalcode. Alternativ kann ein Brief an folgende Adresse geschrieben werden: Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA. Mitschrieb von Rouven Walter ii Stochastik für (Bio-)Informatiker Vorwort Vorwort Dieser Mitschrieb entstand während meiner Nachbearbeitung zur Stochastik Vorlesung im Sommersemester 2008 bei Prof. Dr. Manfred Wolff an der Eberhard-Karls-Universität Tübingen. Ich erhebe keinen Anspruch auf Vollständigkeit oder Richtigkeit. Bei Verständnisschwierigkeiten zum Inhalt empfehle ich daher ausdrücklich, sich an die jeweiligen Dozenten/Tutoren zu wenden. Wer Fehler findet, Verbesserungsvorschläge hat oder sonstige Anregungen mitteilen möchte, kann mir gerne eine E-Mail an folgende Adresse schicken: [email protected] oder [email protected] Mitschrieb von Rouven Walter iii Stochastik für (Bio-)Informatiker Danksagung Danksagung Ich möchte mich ganz herzlich bei Prof. Dr. Manfred Wolff bedanken. Er reichte viele aufwendige Beweise nach und machte Ergänzungen, so dass das Skript durch ihn erst vollständig wurde. Mein Dank geht auch an Steffen Just, der half einige Fehler im Skript ausfindig zu machen. Mitschrieb von Rouven Walter iv Stochastik für (Bio-)Informatiker Inhaltsverzeichnis Inhaltsverzeichnis Lizenz ii Vorwort iii Danksagung iv I. 1 Diskrete Warscheinlichkeitsräume 1. Beispiele und Grundlegende Definitionen 1.1. Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. Definition . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6. Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7. Laplac’escher Warscheinlichkeits-Raum . . . . . . . . . . 1.8. Wiederholung von Experimenten . . . . . . . . . . . . . 1.9. Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.10. Anwendung des Erfolgs-Misserfolgs-Experiement auf den 1.11. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vorzeichentest . . . . . . . . . . . . . . . . . . . . 2 2 2 2 3 3 4 5 5 5 6 7 2. Zufallsvariable 2.1. Beispiele . . . . . . . . . . . . . . . . . . . . . . 2.2. Definition . . . . . . . . . . . . . . . . . . . . . 2.3. Definition . . . . . . . . . . . . . . . . . . . . . 2.4. Beispiel . . . . . . . . . . . . . . . . . . . . . . 2.5. Definition (Erwartungswert, Varianz, Streuung) 2.6. Beispiele . . . . . . . . . . . . . . . . . . . . . . 2.7. Erzeugendenfunktion . . . . . . . . . . . . . . . 2.8. Beispiele . . . . . . . . . . . . . . . . . . . . . . 2.9. Satz . . . . . . . . . . . . . . . . . . . . . . . . 2.10. Satz (Eigenschaften des Erwartungswertes) . . 2.11. Weitere Parameter von reellen Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 8 8 8 9 9 11 11 12 12 13 14 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig. 18 3.1. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Mitschrieb von Rouven Walter v Stochastik für (Bio-)Informatiker 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. Inhaltsverzeichnis Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Theorem (Satz von Bayes über a posteriori Warscheinlichkeiten) Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beispiel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Gesetz der seltenen Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II. Markoff-Ketten auf endlichen Zustandsräumen 4. Definition und einfache Eigenschaften 4.1. Beispiele . . . . . . . . . . . . . . . . 4.2. Präzisierung und Verallgemeinerung 4.3. Definition . . . . . . . . . . . . . . . 4.4. Theorem . . . . . . . . . . . . . . . . 4.5. Korollar . . . . . . . . . . . . . . . . 4.6. Jukes-Cantor Modell . . . . . . . . . 4.7. Beispiel . . . . . . . . . . . . . . . . 5. Stochastische Matrizen 5.1. Definition . . . . . 5.2. Satz . . . . . . . . 5.3. Definition . . . . . 5.4. Satz . . . . . . . . 5.5. Satz . . . . . . . . 5.6. Definition . . . . . 5.7. Theorem . . . . . . 5.8. Korollar . . . . . . 5.9. Theorem . . . . . . 18 19 19 21 21 22 22 23 24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 26 27 28 29 29 30 und Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 31 31 32 32 33 34 36 38 . . . . . . . . . . . . . . 6. Anwendung auf Markoff-Ketten 40 6.1. Irreduzibel und primitiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.2. Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.3. Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 III. Allgemeine Warscheinlichkeits-Theorie 43 7. Einführung 44 7.1. Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 7.2. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 7.3. Theorem (de Moivre-Laplace) . . . . . . . . . . . . . . . . . . . . . . . . . 47 Mitschrieb von Rouven Walter vi Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume 8.1. Definition . . . . . . . . . . . . . . . . . . . 8.2. Bemerkung . . . . . . . . . . . . . . . . . . 8.3. Konkret . . . . . . . . . . . . . . . . . . . . 8.4. ??? . . . . . . . . . . . . . . . . . . . . . . . 8.5. Definition . . . . . . . . . . . . . . . . . . . 8.6. Satz (Einfache Eigenschaften) . . . . . . . . 8.7. Beispiel . . . . . . . . . . . . . . . . . . . . 8.8. Definition . . . . . . . . . . . . . . . . . . . 8.9. Satz . . . . . . . . . . . . . . . . . . . . . . 8.10. Definition . . . . . . . . . . . . . . . . . . . 8.11. Bemerkung . . . . . . . . . . . . . . . . . . 8.12. Satz . . . . . . . . . . . . . . . . . . . . . . 8.13. Definition (Erwartungswert) . . . . . . . . . 8.14. Beispiel . . . . . . . . . . . . . . . . . . . . 8.15. Satz (Eigenschaften des Erwartungswertes) 8.16. Theorem . . . . . . . . . . . . . . . . . . . . 8.17. Satz und Definition . . . . . . . . . . . . . . 8.18. Definition und Satz . . . . . . . . . . . . . . 8.19. Satz . . . . . . . . . . . . . . . . . . . . . . 8.20. Satz . . . . . . . . . . . . . . . . . . . . . . Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . 9. Grenzwertsätze 9.1. Einführung . . . . . . . . . . . . . . . . . . . 9.2. Hilfssätze . . . . . . . . . . . . . . . . . . . . 9.3. Lemma von Borel-Cantelli . . . . . . . . . . . 9.4. Beispiel . . . . . . . . . . . . . . . . . . . . . 9.5. Satz (Ungleichung von Kolmogorow) . . . . . 9.6. (Ursprünglich 9.9) Lemma . . . . . . . . . . . 9.7. Theorem (Starkes Gesetz der großen Zahlen) 9.8. Beispiel . . . . . . . . . . . . . . . . . . . . . 9.9. Theorem . . . . . . . . . . . . . . . . . . . . . 9.10. Satz . . . . . . . . . . . . . . . . . . . . . . . 9.11. Satz (Schwaches Gesetz der großen Zahlen) . Mitschrieb von Rouven Walter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 48 48 49 50 50 51 52 53 53 54 54 54 56 57 57 58 58 59 59 61 . . . . . . . . . . . 62 62 63 63 65 65 66 68 69 70 71 71 vii Teil I. Diskrete Warscheinlichkeitsräume 1 Stochastik für (Bio-)Informatiker 1. Beispiele und Grundlegende Definitionen 1. Beispiele und Grundlegende Definitionen 1.1. Beispiele Münzwurf : {Z, W } = Ω, P (Z) = P (W ) = 21 , (Ω, P ). Allgemeiner: Erfolgs-Misserfolgs-Experiment: Erfolg wird durch 1 kodiert, Misserfolg durch 0. Ω = {0, 1}, P (1) = 61 =: p, P (0) = 65 = 1 − p =: q 1.2. Beispiel Würfeln: Ω = {1, 2, 3, 4, 5, 6} , P (ω) = 1 6 Frage: Was ist die Wahrscheinlichkeit für einen Wurf mit der Augenzahl ≥ 5 ? A = {5, 6} 1 3 = P (5) + P (6) P (A) = = X P (ω) ω∈A = |A| |Ω| in unserem Fall (wird es ein Laplac’escher Wahrscheinlichtkeits-Raum). 1.3. Beispiel Zahlen-Lotto: Ω = {ω : ω ⊂ {1, . . . , 49} , |ω| = 6} P (ω) = 1 ! 49 6 A = {ω : ω enthält 5 Richtige und die Zusatzzahl} Special Leading Case Mitschrieb von Rouven Walter 2 Stochastik für (Bio-)Informatiker 1. Beispiele und Grundlegende Definitionen Ergebnis: (1, 2, 3, 4, 5, 6), Zusatzzahl = 7 |A| = 6 |A| |Ω| P (A) = ! 6 5 = 49 6 ! 1.4. Beispiel Ω = N = {0, 1, 2, . . .} , λ > 0, λ ∈ R ∞ X k=0 λk k! P (k) = e−λ · P (k) = e−λ · ∞ X λk k=0 λ k! = e−λ · e = 1 Dies ist die sogenannte Poisson-Verteilung auf N0 . λ=1: P ({0, 1, 2, 3}) = e−1 · 1 + 1 + = 0, 981 1 1 + 2 6 1.5. Definition Sei ∅ = 6 Ω eine endliche oder abzählbare Menge. Sei P : Ω → [0, 1], ω ∈ Ω 7→ P (ω) und P es gelte ω∈Ω P (ω) = 1. Wir setzen für A ⊂ Ω P (A) := X P (ω) ω∈A also P : P (Ω) → [0, 1]. Insbesondere P ({ω}) := P (ω). (Ω, P ) heißt diskreter Wahrscheinlichkeitsraum. ω ∈ Ω heißt Elementarereignis, A ⊂ Ω heißt Ereignis. ∅ heißt unmögliches Ereignis, Ω sicheres Ereignis. P : P (Ω) → [0, 1] heißt Wahrscheinlichkeitsmaß. Mitschrieb von Rouven Walter 3 Stochastik für (Bio-)Informatiker 1. Beispiele und Grundlegende Definitionen 1.6. Satz Sei (Ω, P ) ein diskreter Warscheinlichkeits-Raum. Dann gilt a) 0 ≤ P (A) ≤ 1 für alle A ⊂ Ω b) P (∅) = 0, P (Ω) = 1 (Beweis s. Definiton 1.5) c) (A ⊂ B) ⇒ P (A) ≤ P (B) (Beweis s. Definiton 1.5) d) Sei (Ak ) eine Folge von Ereignissen mit Ai ∩ Ak = ∅ für i 6= k. Dann gilt P [ k Ak ! = X P (Ak ) k Wenn Ai ∩ Ak = ∅, so sagt man Ai und Ak schließen sich gegenseitig aus. Beweis: Zu d): (i) Seien A, B mit A ∩ B = ∅, A ∪ B =: C. P (C) = X P (ω) ω∈C = X P (A) + w∈A X P (B) ω∈B = P (A) + P (B) (ii) A1 , . . . , An+1 mit Ai ∩ Ak = ∅ für i 6= k, S A = nk=1 Ak , B = An+1 , A ∩ B = ∅. Also P n+1 [ k=1 Ak ! = P (A ∪ B) = P (A) + P (B) (i) = IV = n X k=1 n+1 X P (Ak ) + P (An+1 ) P (Ak ) k=1 Alternativer Beweis zu d): Man hat also die endliche Additivität. Sei nun (An )n eine abzählbare Folge von sich S S paarweise ausschließenden Ereignissen und A = n∈N An . Dann gilt nk=1 Ak ⊆ A, also Mitschrieb von Rouven Walter 4 Stochastik für (Bio-)Informatiker nach c) P (A). Pn k=1 P (Ak ) 1. Beispiele und Grundlegende Definitionen Sn k=1 Ak ) = P( ≤ P (A). Da n beliebig war, folgt P∞ k=1 P (Ak ) ≤ Sei nun ε > 0 beliebig. Dann gibt es eine endliche Teilmenge M ⊆ A mit P (A) − ε < ω∈M P (ω) = P (M ) ≤SP (A)., aber dann ist Aj ∩ M 6= ∅ nur für endlich viele j wahr und für diese ist M = Aj ∩M 6=∅ Aj ∩ M , also erhält man in der nächsten Ungleichung nach dem Gleichheitszeichen in Wahrheit nur eine endliche Summe P P (A) − ε < P (M ) = ∞ X k=1 P (Ak ∩ M ) ≤ ∞ X k=1 P (Ak ) ≤ P (A) und die Behauptung folgt, weil ε > 0 beliebig war. 1.7. Laplac’escher Warscheinlichkeits-Raum Sei Ω endlich, P (ω) = 1 |Ω| , A ⊆ Ω, P (A) = X 1 ω∈A = = |Ω| |A| |Ω| Anzahl günstiger Ereignisse Anzahl möglicher Ereignisse 1.8. Wiederholung von Experimenten Sei (Ω0 , P0 ) ein diskreter Warscheinlichkeits-Raum. Die r-malige Wiederholung dieses „Experiments“ wird modelliert durch Ω = Ωr0 = {(ω1 , . . . , ωr ) : ωk ∈ Ω0 } → P ( ω) = P ((ω1 , . . . , ωr )) = P0 (ω1 ) · P0 (ω2 ) · . . . · P0 (ωr ) = r Y P0 (ωi ) i=1 1.9. Beispiele a) Ω0 = {1, . . . , 6}, r = 2. Ω = {1, . . . , 6}2 = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} Mitschrieb von Rouven Walter 5 Stochastik für (Bio-)Informatiker 1. Beispiele und Grundlegende Definitionen 1 6 P ((i, k)) = P0 (i) · P0 (k) 1 1 = · 6 6 1 = 36 P0 (k) = b) r = 5, Ω0 = {0, 1} P0 (1) = p P0 (0) = q = 1−p Ω = Ω50 Beispiel: P ((0, 1, 1, 0, 0)) = p2 · q 3 1.10. Anwendung des Erfolgs-Misserfolgs-Experiement auf den Vorzeichentest (Bartz-Lienert-Boehnke: Verteilungsfreie Methoden in der Biostatistik, S.256 ff) Ergebnis: 1 2 3 4 5 6 7 8 9 10 Roh 61 60 56 63 56 63 59 56 44 61 geröstet 55 54 47 59 51 61 57 54 62 58 6 6 9 4 5 2 2 2 18 3 Differenz Vorzeichen + + + + + + + + − + H0 reiner Zufall, 10 1 10 + 10 2 2 11 = 1024 ≈ 0, 0107 P10 (Anzahl+ ≥ 9) = Signifikanzniveau α = 0, 05. Ist P (H0 ) ≤ 0, 05, dann H0 abgelehnt. Mitschrieb von Rouven Walter 6 Stochastik für (Bio-)Informatiker 1. Beispiele und Grundlegende Definitionen 1.11. Beispiel {A, C, G, T } Sequenz der Länge 10. 1 4 P (Übereinstimmung) = In einer Sequenz von Paaren der Länge 10 haben wir 8 Übereinstimmungen. Paare: (A, A), (A, C), (C, A), . . . P (acht und mehr Übereinstimmungen) = ! ! 1 3 1 32 10 10 · 9· · 8· 2+ 9 8 4 4 4 4 ! 1 10 + · 10 10 4 1 = · (45 · 9 + 10 · 3 + 1) 220 Mitschrieb von Rouven Walter 7 Stochastik für (Bio-)Informatiker 2. Zufallsvariable 2. Zufallsvariable 2.1. Beispiele a) Würfel. Ω = {Augenzahl 1, Augenzahl 2, Augenzahl 3, Augenzahl 4, Augenzahl 5, Augenzahl 6} X:Ω→R wobei X(Augenzahl 1) 7→ 1 X(Augenzahl 2) 7→ 2 X(Augenzahl 3) 7→ 3 X(Augenzahl 4) 7→ 4 X(Augenzahl 5) 7→ 5 X(Augenzahl 6) 7→ 6 b) Ω0 = {0, 1} P (0) = q = 1−p P (1) = p Ω = Ωn0 P ((ω1 , . . . , ωn )) = pErfolgsanzahl · (1 − p)Misserfolgsanzahl = p(ω1 ) · . . . · p(ωn ) X((ω1 , . . . , ωn )) = ω1 + . . . + ωn 2.2. Definition Gegeben (Ω, P ). Eine Funktion X:Ω→ ( R C heißt Zufallsvariable (ZV). Mitschrieb von Rouven Walter 8 Stochastik für (Bio-)Informatiker 2. Zufallsvariable 2.3. Definition a) Sei X : Ω → C eine Zufallsvariable und Ω′ = X(Ω) = {X(ω) : ω ∈ Ω} z ∈ Ω′ PX (z) = P ({ω : X(ω) = z}) (Ω′ , PX ) heißt Verteilung von X. b) X : Ω → R, FX : R → R FX (t) = P ({ω : X(ω) ≤ t}) heißt Verteilungsfunktion. 2.4. Beispiel a) Ω wie in Beispiel 2.1 a), X : Ω → R, X(Augenzahl x) = Augenzahl, X(Ω) = Ω′ = {1, 2, 3, 4, 5, 6} 1 P (X = i) = für i ∈ Ω′ 6 FX (t) = b) Binomialverteilung. Mitschrieb von Rouven Walter 0 1 6 1 3 1 2 2 3 5 6 1 t<1 1≤t<2 2≤t<3 3≤t<4 4≤t<5 5≤t<6 6≤t 9 Stochastik für (Bio-)Informatiker 2. Zufallsvariable Ω siehe 2.1 b). X((ω1 , . . . , ωn )) = n X ωj j=1 ′ X(Ω) = Ω = {0, 1, 2, . . . , n} PX (0) = (1 − p)n = qn ! PX (1) = n · p · q n−1 1 PX (k) = n · pk · q n−k k ! {0, 1, . . . , n} Binomialverteilung B(n, p) c) Ω ⊂ R, X : Ω → R, X(ω) = ω, PX = P . Z.B. Ω = N0 , P (k) = e−λ · λk k! d) Ω = {ω ∈ {0, 1}N : ∃k[ωl = 0 ∀l ≥ k]} L(ω) = min{k : ωl = 0 für alle l ≥ k + 1} ∞ X S(ω) = ωj j=1 L(ω) X = ωj j=1 P (ω) = pS(ω) · q L(ω)−S(ω) Wobei 0 < p < 1 und q = 1 − p. Y (ω) = min{k : ωk = 0} Y ((0, 0, 0, . . . , 0)) = 1 Y ((1, 1, 0, 1, 1, 1, 0, . . . , 0)) = 3 P (Y (ω) = k) = PY (k) = q · pk−1 ∞ X k=1 q · pk−1 = q 1−p = 1 Ω′ = {1, 2, . . . , } = N, PY heißt Geometrische Verteilung. Mitschrieb von Rouven Walter 10 Stochastik für (Bio-)Informatiker 2. Zufallsvariable 2.5. Definition (Erwartungswert, Varianz, Streuung) a) (Ω, P ) endlich und X : Ω → C Zufallsvariable. Dann heißt E(X) = X ω∈Ω X(ω) · P (ω) Erwartungswert von X. b) Sei Ω abzählbar und nicht endlich. Es konvergiere X ω∈Ω |X(ω)| · P (ω) E(X) = X ω∈Ω (< ∞) X(ω) · P (ω) c) Wir setzen X = X − E(X) · 1Ω = X − E(X) V (X) = E(|X|2 ) heißt Varianz. σ(X) = heißt Streuung. q V (X) 2.6. Beispiele a) Ω ⊂ R, Ω = |n|, Laplace’scher Warscheinlichkeitsraum, also P (ω) = 1 |Ω| X(ω) = ω E(X) = X ω∈Ω = X ω∈Ω = = Mitschrieb von Rouven Walter X(ω) · P (ω) ω· 1 |Ω| 1 X ω · |Ω| ω∈Ω 1 X ω · n ω∈Ω 11 Stochastik für (Bio-)Informatiker 2. Zufallsvariable arithmetisches Mittel 1 · ((ω − E(X))2 ) n V (X) = mittlere quadratische Abweichung b) Ω = {0, 1, . . . , n} ! n · pk · q n−k k P (k) = X(k) = k E(X) = ? 2.7. Erzeugendenfunktion Sei Ω ⊂ N0 X g(z) = k∈Ω X z k · P (k) P (k) = 1 k∈Ω X g ′ (z) = k∈Ω k · z k−1 · P (k) g ′ (1) = E(X) X g ′′ (z) = k∈Ω ′′ X(k) = k k · (k − 1) · z k−2 · P (k) g (1) = E(X 2 ) − E(X) 2.8. Beispiele a) B(n, p) g(z) = n X z k k=0 ! n · pk · (1 − p)n−k k = (z · p + (1 − p))n b) Poisson-Verteilung g(z) = ∞ X k=0 −λ = e Mitschrieb von Rouven Walter zk · λk −λ ·e k! · ez·λ 12 Stochastik für (Bio-)Informatiker 2. Zufallsvariable c) Geometrische Verteilung ∞ X g(z) = k=1 q · z k · pk−1 = q·z· Bemerkung: P E(X) = ω∈Ω X(ω) · P (ω), 1 1−z·p |z| ≤ 1 X(Ω) = Ω′ ⊂ C PX (t) = P (X = t) = P ({ω : X(ω) = t}) {ω : X(ω) = t} =: X −1 ({t}) X −1 (t) = X t · PX (t) PX (t) = P X −1 (t) 2.9. Satz Es gilt E(X) = t∈Ω′ Beweis: Ω′ = {t1 , . . . , tr } = X(Ω) Daraus folgt: Ω = r ] X −1 (tj ) j=1 Mitschrieb von Rouven Walter 13 Stochastik für (Bio-)Informatiker 2. Zufallsvariable Weil tj 6= tk ist X −1 (tj ) ∩ X −1 (tk ) = ∅ für j 6= k. E(X) = X ω∈Ω = X(ω) · P (ω) X ω∈X −1 (t1 ) = t1 · = r X j=1 = X X(ω) · P (ω) + . . . + X ω∈X −1 (t1 ) | P (ω) + . . . + tr · {z =PX (t1 ) tj · PX (tj ) t∈Ω′ } X ω∈X −1 (tr ) X X(ω) · P (ω) P (ω) ω∈X −1 (tr ) | {z =PX (tr ) } t · PX (t) 2.10. Satz (Eigenschaften des Erwartungswertes) a) E(X + Y ) = E(X) + E(Y ) E(α · X) = α · E(X) Linearität des Erwartungswertes b) X ≤ Y ⇒ E(X) ≤ E(Y ) Monotonie des Erwartungswertes c) |E(X)| ≤ E(|X|) d) V (X) = E(X 2 ) − E(X)2 e) σ(X + Y ) ≤ σ(X) + σ(Y ) Beweis: a) Klar. b) Klar. c) Für z ∈ C, z 6= 0, gibt es α mit z = ei·α · |z| Also (O.B.d.A. E = z 6= 0) E(X) = ei·α · |z| = ei·α · |E(X)| Daraus folgt: |E(X)| = ei·α · E(X) = X ω∈Ω Mitschrieb von Rouven Walter e−i·α · X(ω) · P (ω) 14 Stochastik für (Bio-)Informatiker 2. Zufallsvariable Daraus folgt: |E(X)| = ||E(X)|| X −i·α e · X(ω) · P (ω) = ω∈Ω X ≤ e−i·α · X(ω) · P (ω) ω∈Ω = X ω∈Ω |X(ω)| · P (ω) = E(|X|) d) 1A (ω) = ( V (X) = E((X − E(X) · 1Ω )2 ) 1 0 ω∈A ω∈ /A E(X 2 − 2 · E(X) · X + E(X)2 · 1Ω ) = = E(X 2 ) + E(−2 · E(X) · X) + E(E(X)2 · 1Ω ) = E(X 2 ) − 2 · E(X) · E(X) + E(X)2 · E(1Ω ) 2.10 a) 2.10 a) | {z } =1 = E(X 2 ) − E(X)2 e) Vorbemerkungen: E(X) = E(Y ) = 0 V (X) = E(X 2 ) = σ(X)2 σ(X) = E(X 2 ) = q V (X) X ω∈Ω kXk22 = kXk2 = X X(ω)2 · P (ω) Xj2 ω∈Ω sX Xj2 ω∈Ω kX + Y k2 ≤ kXk2 + kY k2 Mitschrieb von Rouven Walter 15 Stochastik für (Bio-)Informatiker 2. Zufallsvariable Start des Beweises: (I) Cauchy-Schwarzsche-Ungleichung (CSU): E(X · Y )2 ≤ E(X 2 ) · E(Y 2 ) α = E(Y 2 ) 6= 0 Dann 0 ≤ E 1 X− Y α 2 ! ausrechnen. (II) X = X − E(X) = Y − E(Y ) Y V (X + Y ) = E ((X + Y ) − E(X + Y ))2 = E((X + Y )2 ) 2 2 2 2 = E(X ) + E(Y ) + 2 · E(X) · E(Y ) ≤ E(X ) + E(Y ) + 2 · 2 2 q E(X) · E(Y ) = σ(X) + σ(Y ) + 2 · σ(X) · σ(Y ) = (σ(X) + σ(Y ))2 ⇒ Behauptung wegen V (X + Y ) = σ(X + Y )2 2.11. Weitere Parameter von reellen Zufallsvariablen 1 für unendliche W-räume M (X) := inf t : P ({ω : X(ω) ≤ t}) ≥ 2 1 := min t : P ({ω : X(ω) ≤ t}) ≥ für endliche W-räume 2 heißt Median von X. Q(X)min 1 := inf t : P ({ω : X(ω) ≤ t}) ≥ 4 Mitschrieb von Rouven Walter 16 Stochastik für (Bio-)Informatiker 2. Zufallsvariable heißt unteres Quartil von X. Q(X)max 3 := inf t : P ({ω : X(ω) ≤ t}) ≥ 4 heißt oberes Quartil von X. Mitschrieb von Rouven Walter 17 Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig. 3. Bedingte Warscheinlichkeiten, Stochastische Unabhängigkeit 3.1. Beispiel Urnen U1 und U2 . U1 enthält 30 rote und 70 schwarze Kugeln, U2 enthält 70 rote und 30 schwarze Kugeln. In U1 wird mit 80% Warscheinlichkeit gegriffen, in U2 mit 20% Warscheinlichkeit. Rote Kugel wird gezogen, P (U1 |rot) =? 3.2. Definition Seien A, B Ereignisse eines Warscheinlichkeitsraums (Ω, P ). Dann heißt die Zahl P (A|B) := 0 P (A∩B) P (B) P (B) = 0 sonst die bedingte Warscheinlichkeit von A unter der Bedigung B. Gleichwertig: P (A ∩ B) = P (A|B) · P (B) Folgerung: P (A|B) · P (B) = P (A ∩ B) = P (B ∩ A) = P (B|A) · P (A) Beispiel 3.1 aufgreifen: P (rot|U1 ) = 0, 3 P (rot|U2 ) = 0, 7 P (U1 ) = 0, 8 P (U2 ) = 0, 2 Mitschrieb von Rouven Walter 18 Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig. 3.3. Satz Seien A1 , . . . , An Ereignisse. Dann gilt P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) ·P (A4 |A1 ∩ A2 ∩ A3 ) · . . . · P (An |A1 ∩ . . . ∩ An−1 ) Beweis: Induktion über n. IA: n = 2 P (A1 ∩ A2 ) = Def. P (A1 ) · P (A2 |A1 ) IS: n → n + 1 P (A1 ∩ . . . ∩ An+1 ) = P ((A1 ∩ . . . ∩ An ) ∩ An+1 ) | {z =:A = P (A) · P (B|A) } | {z } =:B = P (A1 ∩ . . . ∩ An ) · P (An+1 |A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · . . . · P (An+1 |A1 ∩ . . . ∩ An ) IV 3.4. Theorem (Satz von Bayes über a posteriori Warscheinlichkeiten) Seien A1 , . . . , An paarweise disjunkte Ereignisse mit (i) P (Ak ) 6= 0 (ii) Un k=1 Ak (wobei =Ω U die disjunkte Vereinigung kennzeichnet) Sei B ein beliebigens Ereignis. Dann gilt für jedes k, 1 ≤ k ≤ n, P (Ak |B) = P (Ak ) · P (B|Ak ) P (A1 ) · P (B|A1 ) + P (A2 ) · P (B|A2 ) + . . . + P (An ) · P (B|An ) Beispiel 3.1 aufgreifen: P (U1 ) = 0, 8 P (U2 ) = 0, 2 Mitschrieb von Rouven Walter 19 Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig. B: Ereignis rote Kugel. P (B|U1 ) = 0, 3 P (B|U2 ) = 0, 7 Nach dem Satz von Bayes gilt P (U1 ) · P (B|U1 ) P (U1 ) · P (B|U1 ) + P (U2 ) · P (B|U2 ) 0, 8 · 0, 3 = 0, 8 · 0, 3 + 0, 2 · 0, 7 0, 24 = 0, 38 ≈ 0, 632 P (U1 |B) = Beweis (Satz von Bayes): P (Ak ) · P (B|Ak ) P (A1 ) · P (B|A1 ) + . . . + P (An ) · P (B|An ) P (Ak |B) = Zähler: P (Ak ) · P (B|Ak ) = 3.2 P (Ak ∩ B) Nenner: P (A1 ) · P (B|A1 ) + . . . + P (An ) · P (B|An ) | {z } = P (A1 ∩B) 3.2 Wir hatten an Voraussetzungen: | {z = P (An ∩B) 3.2 } (i) Ak ∩ Al = ∅ für k 6= l ⇒ (Ak ∩ B) ∩ (Al ∩ B) = ∅ für k 6= l S ⇒ Nenner = P ( nl=1 (Al ∩ B)) = P (B) (ii) (ii) n [ Al = Ω l=1 ⇒ n [ (Al ∩ B) = B ∩ l=1 n [ Al l=1 = B∩Ω = B Mitschrieb von Rouven Walter 20 Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig. Also P (Ak |B) = = P (Ak ) · P (B|Ak ) P (A1 ) · P (B|A1 ) + . . . + P (An ) · P (B|An ) P (Ak ∩ B) P (B) Nach 3.3 folgt die Behauptung. 3.5. Beispiel Ω0 = {1, . . . , 6}, Ω = Ω20 , 1 1 P ((ω1 , ω2 )) = 36 , = |Ω| A = {ω : ω1 = 6}, B = {ω : ω2 = 6} P (B|A) = = = = = P (A ∩ B) P (A) P ((6, 6)) P (A) 1·6 36 1 6 P (B) ⇒ P (A ∩ B) = P (A) · P (B) 3.6. Definition a) Die Ereignisse A1 , . . . , An heißen (stochastisch) unabhängig, wenn für 2 ≤ k ≤ n und jede Indexfolge 1 ≤ i1 < . . . < ik ≤ n stets gilt P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · . . . · P (Aik ) Es gibt endliche Warscheinlichkeitsräume Ω und A1 , A2 , A3 , so dass Ai und Aj unabhängig für i < j (paarweise unabhängig), aber A1 , A2 , A3 stoachstisch abhängig. b) Die abzählbaren vielen Ereignisse A1 , A2 , . . . heißen (stochastisch) unabhängig, wenn jede endliche Teilmenge {Ak1 , . . . , Akr } ⊂ {A1 , . . .} (stochastisch) unabhängig gemäß a) ist. c) Die Zufallsvariablen X1 , . . . , Xn heißen stochastisch unabhängig, wenn die Urbilder X1−1 (]s1 , t1 ]), X2−1 (]s2 , t2 ]), . . . , Xn−1 (]sn , tn ]) stochastisch unabhängig sind für alle si < ti , i = 1, . . . , n . Mitschrieb von Rouven Walter 21 Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig. 3.7. Satz Es sei (Ω, P ) ein diskreter Warscheinlichkeitsraum und Xk (Ω) seien endlich. X1 , . . . , Xn sind unabhängig genau dann, wenn P ([X1 = s1 ] ∩ . . . ∩ [Xn = sn ]) = P ([X1 = s1 ]) · . . . · P ([Xn = sn ]) für sj ∈ Xj (Ω). Bezeichnung: [X = t] = {ω : X(w) = t} Analog [s < X ≤ t] = {ω : s < X(ω) ≤ t} usw. Beispiel: Ω0 = {1, . . . , 6}, Ω = Ω30 , 1 63 1 = 216 = P (ω1 ) · P (ω2 ) · P (ω3 ) P ((ω1 , ω2 , ω3 )) = X1 (ω) = ω1 , X2 (ω) = ω2 , X3 (ω) = ω3 sind unabhängig, denn z.B. P ([X1 = 6] ∩ [X2 = 3] ∩ [X3 = 5]) = P ((6, 3, 5)) 1 = 63 = P ([X1 = 6]) · P ([X2 = 3]) · P ([X3 = 5]) Beweis: Offensichtlich. 3.8. Beispiel: Ω0 = {0, 1}, 0 < p < 1, q = 1 − p, P P Ω = Ωn0 , Xj (ω) = ωj , Sn (ω) = nj=1 ωj = nj=1 Xj (ω) P (ω) = P (ω1 ) · . . . · P (ωn ) = pSn (ω) · q n−Sn (ω) Mitschrieb von Rouven Walter 22 Stochastik für (Bio-)Informatiker 3. Bedingte Warscheinlichkeiten, stoch. Unabhängig. ⇒ X1 , . . . , Xn sind stochastisch unabhängig. Denn P ([X1 = ω1 ] ∩ . . . ∩ [Xn = ωn ]) = P ((ω1 , . . . , ωn )) | {z ={(ω1 ,...,ωn )} } = P (ω1 ) · . . . · P (ωn ) = P ([X1 = ω1 ]) · . . . · P ([Xn = ωn ]) 3.9. Das Gesetz der seltenen Ereignisse Ω0 = {0, 1}, Ω = Ωn0 , P Sn (ω) = nj=1 ωj , Verteilung Sn : B(n, pn ): P ([Sn = k]) = ! n · pkn · (1 − pn )n−k k pn so gewählt, dass lim n · pn = n→∞ lim E(Sn ) n→∞ = λ wobei n · pn = S⋉ . Satz lim P ([Sn = k]) = e−λ · n→∞ λk k! = PP oission(λ) (k) Beweis: Buch WHK, S.491. Mitschrieb von Rouven Walter 23 Teil II. Markoff-Ketten auf endlichen Zustandsräumen 24 Stochastik für (Bio-)Informatiker 4. Definition und einfache Eigenschaften 4. Definition und einfache Eigenschaften 4.1. Beispiele a) System mit zwei Zuständen: + und − + − 1/3 2/3 2/3 2 3 1 3 1 3 2 3 P (X1 = +|X0 = +) = P (X1 = −|X0 = +) = P (X1 = +|X0 = −) = P (X1 = −|X0 = −) = P 2 3 1 3 = 1 3 2 3 ! b) Baum mit 3 Ecken: 1 2 3 Mitschrieb von Rouven Walter 25 Stochastik für (Bio-)Informatiker 4. Definition und einfache Eigenschaften Zustände: Die Knoten 1, 2, 3 P (X1 = 1|X0 = 1) = 0 P (X1 = 2|X0 = 1) = 0 P (X1 = 3|X0 = 1) = 0 P (X1 = 1|X0 = 2) = 1 P (X1 = 2|X0 = 2) = 0 P (X1 = 3|X0 = 2) = 1 1 P (X1 = 1|X0 = 3) = 2 1 P (X1 = 2|X0 = 3) = 2 P (X1 = 3|X0 = 3) = 0 P 0 0 21 = 0 0 12 1 1 0 4.2. Präzisierung und Verallgemeinerung Gegeben: (i) Z = {z1 , . . . , zr } (ii) X0 , X1 , X2 , . . . : Ω → Z mit: für jedes n ist Ω = r ] Xn−1 (zk ) k=1 Dann folgt r X P ([Xn = zk ]) = 1 k=1 Für jedes n hat man dann eine Warscheinlichkeitsverteilung PXn auf Z, gegeben durch PXn (zk ) = P ([Xn = zk ]) = P ({ω : Xn (ω) = zk }) Zwei Anforderungen: Mitschrieb von Rouven Walter 26 Stochastik für (Bio-)Informatiker 4. Definition und einfache Eigenschaften (I) P (Xn+1 = zk |X0 = zk0 , X1 = zk1 , . . . , Xn = zkn ) = P (Xn+1 = zk |Xn = zkn ) (Abhängigkeit von der Gegenwart allein) (II) P (Xn+1 = zk |Xn = zj ) = P (X1 = zk |X0 = zj ) (Zeitliche Konstistenz der Übergangswarscheinlichkeiten) 4.3. Definition Eine Folge (Xn )n≥0 von Zufallsvariablen Xn mit Werten im Zustandsraum Z = {z1 , . . . , zr } mit den Eigenschaften (I) und (II) heißt Markoff-Kette auf Z. Die Matrix P der Übergangswarscheinlichkeiten pij heißt Übergangsmatrix. := P (X1 = zi |X0 = zj ) Zu untersuchende Probleme: Problem 1: Gibt es eine Anfangsverteilung p(0) (0) p 1. = .. (0) pr P (X0 = z1 ) .. = . P (X0 = zr ) so dass für alle n PXn P (Xn = z1 ) .. = . P (Xn = zr ) = p(0) Dann heißt die Markoff-Kette stationär. Problem 2: Gibt es eine Warscheinlichkeitsverteilung p(∞) auf Z mit lim PXn n→∞ P (Xn = z1 ) .. = lim . n→∞ P (Xn = zr ) = p(∞) Mitschrieb von Rouven Walter 27 Stochastik für (Bio-)Informatiker 4. Definition und einfache Eigenschaften 4.4. Theorem Sei p(0) eine Anfangsverteilung und P Übergangsmatrix. Dann ist = P n · p(0) PXn = P . . · P} ·p(0) | · .{z n-mal Beweis: Beweis durch Induktion über n: n = 1 : Es ist r X P ([X1 = zj ]) = k=1 r X = P ([X1 = zj ] ∩ [X0 = zk ]) P ([X1 = zj |X0 = zk ]) · P ([X0 = zk ]) k=1 (0) = Pp Angenommen es gilt P ([Xn = zj ]) = (P n p(0) )j . Dann ist P ([Xn+1 = zj ]) r X = k=1 r X = = Eigenschaft (II) k=1 r X k=1 P ([Xn+1 = zj ] ∩ [Xn = zk ]) P ([Xn+1 = zj |Xn = zk ]) · P ([Xn = zk ]) P ([X1 = zj ]|[X0 = zk ]) · P ([Xn = zk ]) IV = (P · P n p(0) )j = (P n+1 p(0) )j Damit ist das Theorem bewiesen. Beispiel: = P p (0) = = = Mitschrieb von Rouven Walter 2 3 1 3 1 2 1 2 1 3 2 3 ! ! ! 1 1 · 1 2 P (X0 = 1) P (X0 = 2) ! 28 Stochastik für (Bio-)Informatiker 4. Definition und einfache Eigenschaften P ·p (0) 2 3 1 3 = ! · 1 2 1 2 ! ! = = p ⇒ 1 3 2 3 1 2 1 2 (0) P n · p(0) = p(0) ⇒ = p(0) PXn 4.5. Korollar Es mögen die Potenzen P n konvergieren lim P n = Q n→∞ Dann gilt für jede Anfangsverteilung p(0) stets lim P n · p(0) = lim PXn n→∞ = Q · p(0) 4.6. Jukes-Cantor Modell P 0<α≤ 1 3 1−3·α α α α α 1−3·α α α = α α 1−3·α α α α α 1−3·α 1 41 P · 41 4 1 = 1 4 1 ·P 4 1 · 1 1 = 1 41 4 1 4 1 4 Mitschrieb von Rouven Walter 29 Stochastik für (Bio-)Informatiker 4. Definition und einfache Eigenschaften ! ⇒ lim P n = n→∞ 1 1 1 4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4.7. Beispiel Graph mit 4 Ecken. 1 2 3 4 0 0 P 2n+1 = 1 1 2 1 2 2 1 2 P 2n = 1 12 2 0 0 1 2 1 2 0 0 1 2 1 2 0 0 0 0 0 0 1 2 1 2 1 2 1 2 0 0 0 0 1 2 1 2 Dies ist ein Beispiel, bei dem die Potenzen (P n )n nicht konvergieren. Mitschrieb von Rouven Walter 30 Stochastik für (Bio-)Informatiker 5. Stochastische Matrizen und Konvergenzsätze 5. Stochastische Matrizen und Konvergenzsätze 5.1. Definition Seien A = (aij )i=1,...,r j=1,...,s B = (bij )i=1,...,r j=1,...,s zwei r × s Matrizen reeller Zahlen. Wir schreiben A ≤ B, falls für alle Indizes aij ≤ bij gilt. 5.2. Satz Seien A, B, C r × s-Matrizen. Es gilt a) Ist A ≤ B, so gilt A+C ≤ B+C für alle r × s-Matrizen C. b) Ist D eine s × t-Matrix mit D ≥ 0 und ist A ≤ B, so gilt A·D ≤ B·D 5.3. Definition A heißt positiv (nicht negativ), falls alle aij ≥ 0. Schreibweise: A ≥ 0. A heißt strikt positiv, falls alle aij > 0. Schreibweise: A ≫ 0. Beispiel: Matrix A = 1 ... 1 1 . .. · .. . r 1 ... 1 ist strikt positiv für alle r ∈ R+ . Mitschrieb von Rouven Walter 31 Stochastik für (Bio-)Informatiker 5. Stochastische Matrizen und Konvergenzsätze Matrix B = ist strikt positiv. 1 ... 1 5.4. Satz a) Sei A strikt positive r × s-Matrix und B ≥ 0 s × t-Matrix, in der alle Spalten ungleich Nullvektor sind, so ist AB strikt positiv. b) Sei A strikt positiv und B ≥ C. Ist AB = AC so ist B = C Beweis: P a) Durch einfaches Ausrechnen. Ist nämlich AB = (cij ) so ist cij = sk=1 aik bkj > 0 weil mindestens ein Summand > 0 ist. b) Es ist D := B − C ≥ 0 Wäre D 6= 0, so gäbe es eine Spalte d↓j 6= 0, also wäre nach a) Ad↓j ≫ 0 und damit AD = A(B − C) 6= 0 im Gegensatz zur Voraussetzung AB = AC, also AB − AC = A(B − C) = 0. 5.5. Satz Sei P = (pij )i,j=1,...,r Übergangsmatrix. Es gilt p1k + p2k + . . . + prk = 1 für alle k = 1, . . . , r Beweis: Zunächst ist pjk = P ([X1 = j]|[X0 = k]). Nach Voraussetzung über Markoffsche Ketten U ist Ω = rj=1 [X1 = j]. Also ist [X0 = k] = r ] j=1 Mitschrieb von Rouven Walter [X0 = k] ∩ [X1 = j] 32 Stochastik für (Bio-)Informatiker 5. Stochastische Matrizen und Konvergenzsätze Damit ist P ([X0 = k]) = r X k=1 P ([X1 = j] ∩ [X0 = k]) Division durch P ([X0 = k]) liefert 1 = = = r X P ([X1 = j] ∩ [X0 = k]) j=1 r X j=1 r X P ([X0 = k]) P ([X1 = j]|[X0 = k]) pjk j=1 Definition: Eine quadratische Matrix P ≥ 0 in der alle Spaltensumen gleich 1 sind, heißt stochastisch. ⇒ 1 1 .. t .. P · . = . 1 1 ⇒ 1 ist Eigenwert für jede stochastische Matrix. 5.6. Definition a) Eine stochastische Matrix P heißt primitiv, wenn es n gibt, so dass Pn strikt positiv ist. b) Sie heißt irreduzibel, wenn es ein n gibt, so dass n X Pj j=1 stritkt positiv ist. Es gilt: primitiv ⇒ irreduzibel Mitschrieb von Rouven Walter 33 Stochastik für (Bio-)Informatiker 5. Stochastische Matrizen und Konvergenzsätze 5.7. Theorem Sei S eine stochastische irreduzible r × r-Matrix. Dann gilt a) 1 ist Eigenwert von S und der zugehörige Eigenraum F (S) = {x : Sx = x} ist eindimensional und enthält genau eine Warscheinlichkeitsverteilung p1 .. p = . pr F (S) = R · p = {α · p : α ∈ R} b) Q = (p, . . . , p) | {z r Spalten ist eine Projektion auf den Eigenraum F (S) mit } SQ = QS = Q Q ist stochastisch. c) Es gilt Rr = F (S) ⊕ (I − S)Rr wobei (I − S)Rr = {(I − S)y : y ∈ Rr } und es gilt S(I − S)Rr ⊂ (I − S)Rr Beweis: Bezeichnungen: |x1 | x1 .. .. Für einen Vektor x = . sei xj die j. Koordinate und |x| = . . |xr | xr Mitschrieb von Rouven Walter 34 Stochastik für (Bio-)Informatiker a) 5. Stochastische Matrizen und Konvergenzsätze (I) Behauptung: Sei 0 < p ≤ Sp. Dann gilt p = Sp und p ist strikt positiv. Beweis: Der Zeilenvektor ~1 = (1, 1, . . . , 1) ist strikt positiv und es gilt ~1S = ~1, das bedeutet ja gerade, dass S stochastisch ist. Damit folgt ~1(Sp) = (~1S)p = ~1p also Sp = p nach 5.4 b). Da S irreduzibel ist, gibt es ein n, so dass T := P k k=1 S strikt positiv ist. Wegen 0 < p ist dann n X Tp = Skp |{z} k=1 =p = np strikt positiv nach 5.4 a). (II) Behauptung: Es gilt stets |Sx| ≤ S|x|. Beweis: Wir betrachten die j. Koordinate. Es ist |Sx|j = | ≤ Dreiecksugl. = sjk ≥0 r X k=1 r X k=1 r X k=1 sjk xk | |sjk xk | sjk |xk | = (S|x|)j (III) Behauptung: Ist Sx = x, so ist S|x| = |x|, insbesondere gibt es zu 1 einen strikt positiven Eigenvektor. Beweis: Aus Sx = x folgt nach (II) |x| = |Sx| ≤ S|x| und damit nach (I) die Behauptung S|x| = |x|. Nach Voraussetzung ist S stochastisch also 1 ein Eigenwert (~1S = ~1), also gibt es ein x 6= 0 mit Sx = x, also S|x| = |x| und dies |x| muss nach (I) strikt positiv sein. (IV) Behautpung: Seien p, q > 0 mit Sp = p, Sq = q. Dann gibt es ein λ > 0 mit q = λp. q Beweis: p ist (wie q) strikt positiv nach (I). Also ist die Größe λ := max{ pjj : 1 ≤ j ≤ r} wohl definiert (im Nenner steht niemals 0), und es gibt (mindesq q p tens) einen Index j0 mit λ = pjj0 . Die j. Koordinate von λp ist λpj ≥ jpj j = qj , 0 als ist λp ≥ q, und für j0 gilt λpj0 = qj0 . Damit ist 0 ≤ v := λp − q nicht strikt positiv, aber es gilt v = λSp − Sq = λp − q = v Aus (I) folgt v = 0. Mitschrieb von Rouven Walter 35 Stochastik für (Bio-)Informatiker 5. Stochastische Matrizen und Konvergenzsätze (V) Sei q ein nach (III) existierender strikt positiver Eigenvektor. Wir setzen P p = Pr q q und erhalten rj=1 pj = 1, p ist also eine strikt positive Wahrj=1 j scheinlichkeitsverteilung mit Sp = p. Sei Sv = v 6= 0 ein beliebiger Eigenvektor von S zum Eigenwert 1. Behauptung: Es gibt µ 6= 0 mit v = µp. Beweis: Nach (III) ist S|v| = |v|, also gilt nach (IV) |v| = λp für ein λ > 0. Sei w = λ−1 v. Dann ist Sw = w und |w| = p. Wegen |w| ≥ w ist p − w ≥ p − |w| = 0. Wir unterscheiden zwei Fälle: a) Ist p = ±w so ist v = ±λp, die Behauptung also bewiesen. b) Liegt a) nicht vor, so gibt es einen Index j mit wj = pj und einen Index k mit wk = −pk . Dann gilt (p − w)j = 0 und (p − w)k = 2pk 6= 0. Also ist 0 < S(p − w) = Sp − Sw = p − w. Dann wäre aber p − w nach (I) strikt positiv, im Widerspruch zu (p − w)j = 0. Als kann b) nicht gelten, das heißt, es gilt a) und Teil a) des Theorems ist bewiesen. b) Es ist Qx = r X xk p k=1 = ~1x · p ∈ F (S) Daraus folgt insbesondere Qp = ~1p · p = p, weil p eine Wahrscheinlichkeitsverteilung ist. Also erhält man Q2 = Q(p, . . . p) = (Qp, . . . , Qp) = Q, Q ist also eine Projektion. Es ist SQ = (Sp, . . . , Sp) = (p, . . . , p) = Q und QSx = ~1Sx = ~1x = Qx, wegen ~1S = ~1, also QS = Q. Damit ist b) bewiesen. c) Es ist (I − Q)Rr = ker(Q). Da Q eine Projektion auf den Raum F (S) ist, erhält man Rr = F (S) ⊕ (I − Q)Rr . Aus QS = Q folgt Q(I − S) = 0, also (I − S)Rr ⊆ ker(Q). Andererseits ist F (S) = ker(I − S), also folgt aus der Dimensionsformel r − dim(F (S)) = dim(I − S)Rr und ebenso r − dim(F (S)) = dim(ker(Q)). Damit ist dim(ker(Q)) = dim((I − S)Rr ) und damit folgt (I − S)Rr = ker(Q) und c) ist bewiesen. 5.8. Korollar Sei S irreduzibel stochastisch und Mn = X 1 n−1 Sk n k=0 Es gilt lim Mn = Q n→∞ Mitschrieb von Rouven Walter 36 Stochastik für (Bio-)Informatiker 5. Stochastische Matrizen und Konvergenzsätze D.h. ist q = p(0) eine Startwarscheinlichkeit, dann ist 1 Mn · q → p n Es ist S k · q = PXk , also Mn · q = arithmetisches Mittel der Verteilungen PXk (PX0 = q) Beweis: (I) Wir benutzen für die Konvergenz die 1-Norm: kxk = |x1 | + · · · + |xr | = ~1|x| (Zeile mal Spalte) Für sie gilt: |y| kyk ≤ |x| ≤ kxk ⇒ insbesondere gilt wegen |Sx| ≤ S|x| kSxk ≤ kS|x|k ~1S|x| = ~1|x| = kxk = S stochastisch also auch kS n xk ≤ kxk (II) Wegen SQ = Q ist Mn Q = Q, also Qx = Mn Qx = lim Mk Qx k→∞ (III) Nach 5.7c) gibt es zu (I − Q)x ein y mit (I − Q)x = (I − S)y. Nun ist Mn (I − S) = 1 n n (I − S ) (einfaches Ausrechnen), also ist Mn (I − Q)x = Mn (I − S)y 1 (y − S n y) = n Mitschrieb von Rouven Walter 37 Stochastik für (Bio-)Informatiker 5. Stochastische Matrizen und Konvergenzsätze und damit kMn (I − Q)xk = ≤ 1 ky − S n yk n 1 (kyk + kS n yk) | {z } n ≤kyk 2 kyk ≤ n → 0 für n → ∞ (IV) Es ist x = Qx + (I − Q)x. Aus (II) und (III) folgt lim Mn x = Qx + 0 n→∞ = Qx 5.9. Theorem Sei S eine primitive stochastische Matrix mit stationärer Verteilung p, d.h. es gilt S·p = p Sei Q : x → (1|x) · p die Projetkion auf R · p = F (S). Dann gilt für alle x lim S n · x = Q · x n→∞ Beweis: (I) Wir haben S n Q = Q, weil S als primitive Matrix ja irreduzibel ist. Also müssen wir nur limn→∞ S n (I − Q)x = 0 zeigen. (II) Zu x existiert nach 5.7c) ein y mit (I − Q)x = (I − S)y =: u. Sei nun zunächst einmal z := (I − S)v ∈ (I − S)Rr beliebig. Aus Ungleichung (I) folgt kS n+1 zk = kS(S n z)k ≤ kS n zk die Folge (kS n zk)n ist also monoton fallend und durch 0 nach unten beschränkt, also konvergent. Wir müssen nur zeigen, dass sie gegen 0 konvergiert. (III) Wir behandeln erst den Spezialfall, dass S strikt positiv ist. Dann ist 1 > min{sij : i, j = 1 . . . r} =: a > Mitschrieb von Rouven Walter 0 38 Stochastik für (Bio-)Informatiker 5. Stochastische Matrizen und Konvergenzsätze Sei T = (1↓ , . . . , 1↓ ). Dann ist T ≫ Q, und nach Definition von a ist S − aT ≥ 0, 1 U ist stochastisch (leichte Rechnung) und also U := S −aQ ≫ S −aT ≥ 0. G = 1−a es gilt S = (1 − a)G + aQ. Daraus ergibt sich wegen Q(I − S) = 0 und z = (I − S)v S(z) = (1 − a)Gz + aQz = (1 − a)Gz G ist stochastisch, also ist nach (I) kGzk ≤ kzk und damit kSzk = (1 − a)kGzk ≤ (1 − a)kzk Durch einfache Induktion folgt hieraus kS n+1 zk = kS(S n z)k ≤ (1 − a)kS n zk ≤ ··· Induktion n+1 ≤ (1 − a) kzk also ist wegen 0 < 1 − a < 1 limn→∞ kS n zk = 0. Insbesondere gilt dies für z = (I − S)y = (I − Q)x. (IV) Sei nun S eine beliebige primitive Matrix. Dann gibt es ein k, so dass S k ≫ 0. Nach (III), angewandt auf S k , ist dann limn→∞ kS kn (I − Q)xk = 0, eine Teilfolge der monoton fallenden Folge (kS n (I − Q)xk)n konvergiert also gegen 0. Damit konvergiert die Folge selbst gegen 0 und das Theorem ist bewiesen. Mitschrieb von Rouven Walter 39 Stochastik für (Bio-)Informatiker 6. Anwendung auf Markoff-Ketten 6. Anwendung auf Markoff-Ketten Sei P = (pij ) und pij = P (X1 = i|X0 = j) die Übergangsmatrix einer Markoffkette mit Zustandsraum Z = {1, . . . , r}. p1 .. = . pr PX0 = p(0) Dann = P n · p(0) PXn Für 1 p(0) 0 = .. . 0 ist P n · p(0) (n) p 11 p(n) 21 = . .. (n) pr1 P (Xn = 1) .. = . P (Xn = r) P (Xn = 1|X0 = 1) .. = . P (Xn = r|X0 = 1) Allgemein Pn P (Xn = 1|X0 = 1) . . . P (Xn = 1|X0 = r) .. .. = . . P (Xn = r|X0 = 1) . . . P (Xn = r|X0 = r) Mitschrieb von Rouven Walter 40 Stochastik für (Bio-)Informatiker 6. Anwendung auf Markoff-Ketten 6.1. Irreduzibel und primitiv Irreduzibel: Zu je zwei Zuständen (i, j) gibt es ein n mit (n) P (Xn = i|X0 = j) = pij > 0 Primitiv: Es gibt ein (gemeinsames) n, so dass für alle i, j gilt (n) P (Xn = i|X0 = j) = pij > 0 6.2. Satz Es ist P (X0 = i0 , X1 = i1 , X2 = i2 , . . . , Xn = in ) = P (X0 = i0 ) · pi1 i0 · pi2 i1 · . . . · pin in−1 Insbesondere: Ist P (X0 = i0 ) = 1, so P (X0 = i0 , X1 = i1 , X2 = i2 , . . . , Xn = in ) = pi1 i0 · pi2 i1 · . . . · pin in−1 Beweis: Nach Satz 3.3 erhalten wir = (1) P (X0 = i0 , · · · , Xn = in ) P (X0 = i0 )P (X1 = i1 |X0 = i0 )P (X2 = i2 |X1 = i1 , X0 = i0 ) · · · P (Xn = in |Xn−1 = in−1 , . . . , X0 = i0 ) Aufgrund der beiden Eigenschaften (I) und (II) für Markoffketten gilt nun aber P (Xk = ik |Xk−1 = ik−1 , . . . , X0 = i0 ) = P (Xk = ik |Xk−1 = ik−1 ) = P (X1 = ik |X0 = ik−1 ) = pik ik−1 Einsetzen in (1) liefert die Behauptung. Mitschrieb von Rouven Walter 41 Stochastik für (Bio-)Informatiker 6. Anwendung auf Markoff-Ketten 6.3. Satz Eine Markoffkette ist genau dann irreduzibel, wenn es zu jedem Paar (i, j) von Zuständen ein n gibt und eine Kette (k0 , k1 , . . . , kn ) von Zuständen mit k0 = j, kn = i und pkl+1 kl 6= 0 für l = 0, . . . , n − 1 Beweis: Durch Induktion zeigt man (n) pij = r r X X l1 =1 l2 =1 ··· r X ln−1 =1 pil1 pl1 l2 · · · pln−1 j Da alle pmn ≥ 0, ist diese Riesensumme genau dann 6= 0, wenn mindestens ein Summand 6= 0 ist. Nach 6.1 folgt der Satz. Mitschrieb von Rouven Walter 42 Teil III. Allgemeine Warscheinlichkeits-Theorie 43 Stochastik für (Bio-)Informatiker 7. Einführung 7. Einführung 7.1. Definition Ω = ha, bi, Ereignisse: Endliche Vereinigungen von Teilintervallen. Sei f : Ω → R+ eine stetige Funktion mit Z b Z f (x) dx = a = 1 f (x) dx Ω Dann wird durch P : hu, vi → [0, 1] P (hu, vi) Z = v f (x) dx u und allgemein Z P (A) = f (x) dx A ein Warscheinlichkeits-Maß der Menge der endlichen Vereinigungen von Teilintervallen erklärt. f heißt die Dichte zu P . Beispiele: a) Ω = R, P (|x| > 1) = P (] − ∞, −1[∪]1, ∞[) = Z −1 −∞ f (t) dt + Z ∞ f (t) dt 1 b) Ω = [0, 1], f (t) = 1 P ([u, v]) = v − u c) Ω = [a, b], b > a f (t) = Mitschrieb von Rouven Walter 1 b−a 44 Stochastik für (Bio-)Informatiker 7. Einführung 7.2. Beispiel 1 , P (hu, vi) = a) Ω = [a, b] und f (x) = b−a (Stetige) Gleichverteilung auf [a, b]. v−u b−a . P ({u}) = 0 Allgemein: P ([x, x + dx]) = f (x) dx als Vorstellung. b) Standard-Normalverteilung, Ω = R. Gauß’sche Glockenkurve : f (x) = √ Verteilungsfunktion: φ(u) = Z u −∞ x2 1 · e− 2 2·π f (x) dx = P (] − ∞, u]) Z u x2 1 e− 2 dx = √ · 2π −∞ Es gilt f (x) = f (−x) ferner 1 2 φ(u) = 1 − φ(−u) φ(0) = u<0: φ(u) = 1 2 Z u −∞ f (x) dx = φ(0) = φ(u) + = φ(u) + Z 0 f (x) dx u Z −u 0 1 = φ(u) − + 2 Mitschrieb von Rouven Walter f (x) dx Z | 0 −u 1 f (x) dx + 2 {z =φ(−u) } 45 Stochastik für (Bio-)Informatiker 7. Einführung Standard-Normalverteilung N (0, 1) : Z ∞ −x2 1 √ · e 2 dx = 2 · π −∞ Z ∞ −x2 1 √ · x · e 2 dx = 2 · π −∞ = Z ∞ 2 −x 1 √ · x2 · e 2 dx = 2 · π −∞ = 1 0 E(X) 1 V (X) Allgemeine Normalverteilung N (µ, σ) : −(x−µ)2 1 √ · e 2·σ2 σ· 2·π E(X) = µ f (x) = V (X) = σ 2 E(X) = V (X) = Z ZΩ Ω x · f (x) dx (x − E(X))2 · f (x) dx c) Ω = [0, ∞] = R+ , f (x) = λ · e−λ·x P ([T ≤ t]) = λ · Z t e−λ·s ds 0 Fragen nach P ([T < t + dt]|[T ≥ t]) = Def. bed. Warscheinlichkeit P ([T < t + dt] ∩ [T ≥ t]) P ([T ≥ t]) R t+dt f (s) ds P ([T ≥ t]) f (t + Θtdt) · dt P ([T ≥ t]) t = = 0≤Θ≤1 Dann Division durch dt : P ([T < t + dt]|[T ≥ t]) dt = = Mitschrieb von Rouven Walter f (t + Θtdt) P ([T ≥ t]) f (t) P ([T ≥ t]) 46 Stochastik für (Bio-)Informatiker 7. Einführung 7.3. Theorem (de Moivre-Laplace) Sei Ω0 = {0, 1}, P (1) = p, 0 < p < 1, P (0) = 1 − p, n ∈ N, Ωn = {0, 1}n . Sn (ω) = n X ωk k=1 Sn (ω) P (ω) = p E(Sn ) = n · p V (Sn ) = n · p · (1 − p) Sn (ω) − n · p Sn∗ (ω) = p n · p · (1 − p) Es gilt lim P ({ω : a ≤ n→∞ Beispiel: n = 36, p = · (1 − p)n−Sn (ω) 1 2 Sn∗ (ω) Z b −x2 1 e 2 dx ≤ b}) = √ · 2π a = φ(b) − φ(a) = q, √ n · p = 18 n·p·q = 3 P (S36 ≤ 15) = ? Sn ≤ 15 ⇔ Sn − n · p ≤ 15 − n · p ⇔ Sn − n · p ≤ −3 −3 Sn − n · p ≤√ ⇔ Sn∗ = √ n·p·q n·p·q Sn − n · p ≤ −1 ⇔ Sn∗ = √ n·p·q P (S36 ≤ 15) = ≈ 7.3 φ(−1) − φ(−∞) = φ(−1) = 1 − φ(1) 7.2 b ≈ Tabelle = Mitschrieb von Rouven Walter ∗ P (S36 ≤ −1) 1 − 0, 84134 0, 15866 47 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume 8. Allgemeine Warscheinlichkeits-Räume Einführung: Ω = R, ε0 = {A ⊂ Ω : A ist endliche Vereinigung von Intervallen} P (A) = {0} = Z f (x) dx A ∞ \ n=1 1 1 − , n n 8.1. Definition a) A ⊂ P(Ω) heißt Boolsche Unteralgebra, falls gilt (i) A ∈ A (ii) A, B ∈ A ⇒ (iii) A, B ∈ A ⇒ Ac = Ω \ A ∈ A A∩B ∈A ⇒ A∪B ∈A b) ε ⊂ P(Ω) heißt σ-Algebra, falls gilt (i) Ω ∈ ε (ii) A ∈ ε ⇒ Ac = Ω \ A ∈ ε (iii) (An ) ⊂ ε ⇒ (An ) ⊂ ε ( T∞ ( n=1 An ) ∈ε Daraus folgt unmittelbar mit De Morgan: ⇒ S∞ n=1 An ) ∈ε 8.2. Bemerkung (a) Sei A ⊂ P(Ω) eine Boolsche Algebra, so gilt ∅∈A Ω∈A Mitschrieb von Rouven Walter 48 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume Beweis: A ∈ A ⇒ Ac ∈ A (i) ⇒ ∅ = A ∩ Ac ∈ A (ii) ⇒ ∅c = Ω ∈ A (i) (b) Sei (Aα )α Familie von σ-Algebren. Dann ist \ Aα α wieder eine σ-Algebra. (c) Anwendung von (2) : Sei F ⊂ P(Ω), A := {A : A ist σ-Algebra und F ∈ A} Die Menge ε(F) = \ A A∈A heißt die von F erzeugte σ-Algebra. 8.3. Konkret a) Ω = R, F = Menge aller Intervalle, die Menge ε(F) = B heißt σ-Algebra der Borelmengen. Jede abgeschlossene und jede offene Menge ist Borelmenge. Bemerkung: Z f (x) dx B erklärbar für alle Dichtefunktionen f und alle Borelmengen. Mitschrieb von Rouven Walter 49 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume b) Ω = Rr , F = Menge aller r-dimensionalen Quader ε(F) = B(Rr ) heißt σ-Algebra der Borelmengen in Rr . Jede abgeschlossene, jede offene Menge ist Borelmenge. Z.B. in R2 ist G = {(x, x) : x ∈ R} auch eine Borelmenge. c) Ω = {1, . . . , r}N , Z ⊂ Ω heißt Zylindermenge, wenn es ein n gibt und A ⊂ {1, . . . , r}n = Ωn0 , so dass Z = A × {1, . . . , r}N\{1,...,n} Z.B.: Z = {(1, 1, x3 , x4 , x5 , . . .) : xk ∈ Ω0 } A = {(1, 1)} ⊂ {1, . . . , r}2 Z = die von Zylindermengen erzeugte σ-Algebra 8.4. ??? 8.5. Definition Sei ∅ = 6 Ω, ε ⊂ P(Ω) eine σ-Algebra und P : ε → [0, 1] eine Funktion mit (i) P (Ω) = 1 (ii) Ist (An ) ⊂ ε eine Folge paarweise disjunkter Mengen, so ist P ∞ [ n=1 An ! = ∞ X P (An ) n=1 Dann heißt (Ω, ε, P ) Warscheinlichkeits-Raum. ε heißt Ereignisalgebra. P heißt Warscheinlichkeits-Maß/-Verteilung. Beispiel: (1) Ω endlich oder abzählbar, ε = P(Ω), P wie bisher. (2) Ω = [a, b], ε Menge der Borelmengen in Ω P (B) = Mitschrieb von Rouven Walter 1 · b−a Z 1 dx B 50 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume (3) Ω = R, ε: Borelmengenalgebra B. P (B) = √ 1 2·π Z e− x2 2 dx B (4) Ω = Rr , ε = B(Rr ), r f (x) = (2π)− 2 · e− P (B) = Z 2 (x2 1 +...+xr ) 2 f (x) dx B (5) Ω = {0, 1}N , Z von Zylindermengen erzeugte σ-Algebra. P auf den Zylindern Z = A × ΩN\{1,...,n} P (Z) = Pn (A) 8.6. Satz (Einfache Eigenschaften) a) P (∅) = 0 b) A ⊆ B ⇒ P (A) ≤ P (B) c) P (Ac ) = 1 − P (A) d) (i) (An )n≥1 Folge mit An ⊆ An+1 . Dann gilt ∞ [ P An n=1 ! = ! = lim P (An ) n→∞ (ii) (An )n≥1 Folge mit An ⊇ An+1 . Dann gilt ∞ \ P n=1 An lim P (An ) n→∞ Beweis: a) Ω = Ω ∪ ∅ ergibt nach 8.5 sofort 1 = P (Ω ∪ ∅) = P (Ω) + P (∅) = 1 + P (∅) woraus die Behauptung folgt. Mitschrieb von Rouven Walter 51 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume b) A ⊆ B impliziert B = A ⊎ B \ A, also P (B) = P (A) + P (B \ A) ≥ P (A) c) Folgt wegen Ω = A ⊎ Ac , also 1 = P (Ω) = P (A) + P (Ac ). d) (i) Sei B1 = A1 , B2 = A2 \ A1 , . . . Bn = An \ An−1 . Dann ist An = S U A = An = ∞ k=1 Bk . Nach 8.5 (ii) ist also n X P (An ) = Un k=1 Bk und P (Bk ) k=1 und P (A) = ∞ X P (Bk ) k=1 = = lim n→∞ n X P (Bk ) k=1 lim P (An ) n→∞ T c c c c (ii) Sei A = ∞ n=1 An . Es ist An ⊆ An+1 , also nach (i) P (A ) = limn→∞ P (An ). Mit c) folgt die Behauptung. 8.7. Beispiel (i) Ω = R, f : Ω → R+ stetig mit Z ∞ −∞ f (t) dt = 1 P (ha, bi) = Z b f (t) dt a Es gilt P ({t}) = 0 Denn {t} = A1 ⊃ A2 ⊃ . . . Mitschrieb von Rouven Walter ∞ \ 1 ] {z n} [t, t + n=1 | =An 52 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume Dann gilt nach 8.6: P ({t}) = lim P (An ) n→∞ = lim Z 1 t+ n n→∞ t f (s) ds 1 · f (Sn ) n→∞ n = lim Sei γ = sup{f (s) : t ≤ s ≤ t + 1} ⇒ P (t) ≤ 1 ·γ n lim n→∞ = 0 (ii) Ω = Rn , f (t1 , . . . , tn ) = P ([a1 , b1 ] × . . . × [an , bn ]) = t2 +...+t2 1 − 1 2 n √ ·e ( 2π)n 1 √ · ( 2π)n Z b1 a1 ... Z bn an − e 2 t2 1 +...+tn 2 dt1 . . . dtn 8.8. Definition Sei (Ω, ε, P ) ein Warscheinlichkeits-Raum. X : Ω → R heißt (reelle) Zufallsvariable, falls X −1 (]a, b]) ∈ ε für alle Intervalle ]a, b]. X −1 (]a, b]) = {ω : a < X(ω) ≤ b} = [a < X ≤ b] 8.9. Satz a) X ist genau dann eine Zufallsvariable, wenn für jede Borelmenge B ⊆ R das Urbild X −1 (B) ∈ ε. b) Summe, Produkt und Absolutbetrag von Zufallsvariablen, sowie max(X, Y ) und min(X, Y ) sind wieder Zufallsvariablen. Mitschrieb von Rouven Walter 53 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume c) Sei (Xn ) eine Folge von Zufallsvariablen und X(ω) = lim Xn (ω) n→∞ für alle ω, so ist X Zufallsvariable. 8.10. Definition Sei (Ω, ε, P ) ein Warscheinlichkeits-Raum und X : Ω → R eine Zufallsvariable. Dann ist durch PX (B) := P ({ω : X(ω) ∈ B}) auf der σ-Algebra B(R) der Borelmengen ein Warscheinlichkeits-Maß gegeben, die Verteilung von X auf R. 8.11. Bemerkung a) Oft ist (Ω, ε, P ) gar nicht wichtig, sondern nur PX auf R (Normalverteilung, Exponentialverteilung usw.). b) Sei f : Rr → R+ eine stetige Dichte und P (B) = Z f (x) dx B Dann ist (Rr , B(Rr ), P ) ein Warscheinlichkeits-Raum und Xj (x) = xj sind Zufallsvariablen. X(t) = t ist Zufallvariable. 8.12. Satz Wesentliche Ergebnisse aus Teil 1 und 2 gelten auch im allgemeinen Warscheinlichkeits-Raum. Bedingte Warscheinlichkeit: P (A|B) = Mitschrieb von Rouven Walter 0 P (A∩B) P (B) P (B) = 0 P (B) 6= 0 54 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume Es gilt P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · . . . · P (An |A1 ∩ . . . ∩ An ) Es gilt auch das Theorem von Bayes: A1 , . . . , An paarweise disjunkte Ereignisse und so gilt für alle k = 1, . . . , n : P (Ak |B) = Sn k=1 Ak = Ω. Sei B ein Ereignis, P (Ak ) · P (B|Ak ) P (A1 ) · P (B|A1 ) + . . . + P (An ) · P (B|An ) Unabhängigkeit: A2 , A2 ∈ ε heißen stochastisch unabhängig, wenn P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) A1 , . . . , An heißen stochastisch unabhängig, wenn für alle k ≤ n und Indizes i1 < i2 < . . . < ik ≤ n stets P k \ j=1 Aij = k Y P (Aij ) j=1 Zufallsvariablen X1 , . . . , Xn heißen stochastisch unabhängig, wenn für alle Intervalle J1 , . . . , Jn die Urbilder X1−1 (J1 ), . . . , Xn−1 (Jn ) stochastisch unabhängig sind. (An )n≥1 heißt stochastisch unabhängig, wenn jede endliche Teilfolge stochastisch unabhängig ist. Nicht übertragbar auf den allgemeinen Fall: X, Y : Ω → R stochastisch unabhängig, wenn [X = a], [Y = b] (a, b ∈ R). Beispiel 1) Ω = [0, 1]2 , Dichte f (x, y) = 1, Xj ((x1 , x2 )) = xj 2) Ω = R2 , f (x, y) = g(x) · h(y), g, h stetige Dichten auf R. Xj (x1 , x2 ) = xj J1 = [0, 1] X1−1 (J1 ) Mitschrieb von Rouven Walter ∩ J2 −1 X1 (J1 ) X2−1 (J2 ) X2−1 (J2 ) = [4, 5] = [0, 1] × R = R × [4, 5] = [0, 1] × [4, 5] 55 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume P ([0, 1] × [4, 5]) = = Z 0 Z 0 = Z 1Z 5 5 4 1 0 f (x, y) dx dy 4 1Z g(x) · h(y) dx dy g(x) dx · Z 5 4 h(y) dy = P X1−1 (J1 ) · P X2−1 (J2 ) 8.13. Definition (Erwartungswert) (Ω, ε, P ) Warscheinlichkeits-Raum. a) X = n X j=1 αj · 1Aj mit αj ∈ R und Aj ∈ ε heißt elementare Zufallsvariable. E(X) = n X j=1 αj · P (Aj ) heißt Erwartungswert von X. b) X : Ω → R+ sei Zufallsvariable. Erwartungswert E(X) = sup{E(Y ) : 0 ≤ Y ≤ X und Y ist elementar} Wenn E(X) < ∞, dann heißt X integrierbar. c) Sei X : Ω → R, X + (ω) = max{X(ω), 0} X − (ω) = max{−X(ω), 0} X+ − X− = X X + − X − = |X| X heißt integrierbar, wenn X + und X − integrierbar sind, E(X) = E(X + ) − E(X − ) Mitschrieb von Rouven Walter 56 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume 8.14. Beispiel 1) Ω endlich, dann nichts neues. 2) Ω abzählbar, dann alt = neu, siehe Übungsaufgabe 36. 3) Ω = ha, bi, f : Ω → R stetige Dichte, P üblich X(t) = t X integrierbar ⇔ Z b E(X) = Z b a |t| · f (t) dt existiert und dann a t · f (t) dt 8.15. Satz (Eigenschaften des Erwartungswertes) a) X und Y integrierbar, α, β ∈ R ⇒ α · X + β · Y integrierbar und E(αX + βY ) = α · E(X) + β · E(X) b) X, Y integrierbar und X ≤ Y ⇒ E(X) ≤ E(Y ) Insbesondere |E(X)| ≤ E(|X|) c) X integrierbar, Y Zufallsvariable mit |Y | ≤ |X| ⇒ Y integrierbar und |E(Y )| ≤ E(|X|) Mitschrieb von Rouven Walter 57 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume 8.16. Theorem a) Konvergenzsatz von Levi: Sei (Xn ) eine monotone Folge integrierbarer Funktionen und die Folge (E(Xn )) sei beschränkt. Sei X(ω) = lim Xn (ω) n→∞ ∈ R ∀ω Dann ist X integrierbar und E(X) = lim E(Xn ) n→∞ b) Konvergenzsatz von Lebesgue: Sei (Xn ) eine monotone Folge integrierbarer Funktionen und |Xn | ≤ Y wo Y integrierbar. Ferner sei X(ω) = lim Xn (ω) n→∞ Dann ist X integrierbar und es gilt E(X) = lim E(Xn ) n→∞ Regel: E(lim) = lim E 8.17. Satz und Definition Sei X : (Ω, ε, P ) → R eine Zufallsvariable. X heißt quadratisch integrierbar, wenn X 2 integrierbar ist. Dann ist auch X integrierbar. Das Integral E((X − E(X))2 ) =: V (X) heißt Varianz von X. σ(X) := heißt Streuung. Mitschrieb von Rouven Walter q V (X) 58 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume Es gilt V (X) = E(X 2 ) − (E(X))2 (Übung von diskreten zu allgemeinen Warscheinlichkeits-Räumen: Statt Summe Integral) Beweis: |t| ≤ 1 + t2 also |X| ≤ 1Ω + X 2 8.18. Definition und Satz Seien X und Y quadratisch integrierbar. Dann ist X · Y integrierbar. Die Größe E((X − E(X)) · (Y − E(Y ))) = E(X · Y ) − E(X) · E(Y ) heißt Covarianz C(X, Y ) und C(X, Y ) σ(X) · σ(Y ) heißt Korrelationskoeffizient. Ist dieser gleich 0, so heißen X und Y unkorreliert. Beweis: Es ist für 2 reelle Zahlen a, b stets a2 − 2ab + b2 = (a − b)2 ≥ 0 also |ab| ≤ 2|ab| ≤ a2 + b2 . Damit ist |XY | ≤ X 2 + Y 2 . Da X 2 und Y 2 integrierbar sind, ist XY nach 8.15 c) integrierbar. Der Rest ist reine Rechnerei. 8.19. Satz Sei X : (Ω, ε, P ) → R eine Zufallsvariable und PX : B(R) → [0, 1] die Verteilung von X gegeben durch PX (B) = P (X −1 (B)) Mitschrieb von Rouven Walter 59 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume insbesondere PX (]a, b]) = P ([a < X ≤ b]) Dann gilt E(X) = Z R = t · PX dt 2n 2 X lim n→∞ k=22n 2n = 2 X lim n→∞ k=22n k PX 2n k P 2n Z E(X 2 ) = Z = k k+1 <X≤ 2n 2n t2 PX dt R PX (]a, b]) k k+1 , 2n 2n b f (t) dt a ⇒ Z E(X) = t · f (t) dt E(X 2 ) = f (t) = ( Z t2 · f (t) dt Beispiel: Glechverteilung 1 0≤t≤1 0 sonst E(X) = Z 1 Z 1 0 = 2 E(X ) = 1 2 0 = Mitschrieb von Rouven Walter t · f (t) dt t2 · f (t) dt 1 3 60 Stochastik für (Bio-)Informatiker 8. Allgemeine Warscheinlichkeits-Räume 8.20. Satz Seien X und Y Zufallsvariablen. Dann wird durch PX,Y (]a, b]×]c, d]) = P ([a < X ≤ b] ∩ [c < Y ≤ d]) ein Warscheinlichkeitsmaß auf R2 definiert, die gemeinsame Verteilung von X und Y . Mit ihm ist Co(X, Y ) = Z Z (X − E(X))(Y − E(Y ))PX,Y dx dy PX,Y gegeben durch h(x, y) damit Co(X, Y ) = Z Z Mitschrieb von Rouven Walter (X − E(X))(Y − E(Y ))h(x, y) dx dy 61 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze 9. Grenzwertsätze 9.1. Einführung (Ω, ε, P ) Warscheinlichkeits-Raum. (I) Erinnerung: (An ) Folge von Ereignissen. Ist An ⊆ An+1 für alle n, so gilt ∞ [ P An ! = An ! = n=1 Ist An+1 ⊆ An für alle n, so gilt ∞ \ P n=1 lim P (An ) n→∞ lim P (An ) n→∞ (II) (An )n Folge von Ereignissen. a) ∞ \ n=1 ∞ [ Ak k=n ! =: C ω ∈ C ⇔ ∀n∃k ≥ n : ω ∈ Ak b) ∞ [ n=1 ∞ \ k=n Ak ! =: D ω ∈ D ⇔ ∃n∀k ≥ n : ω ∈ Ak Einschub: Tastatur mit 50 Tasten. Ω0 = {a1 , . . . , a50 }, Ω = ΩN 0, P0 (ak ) = P (ω1 , . . . , ωn ) × ΩN\{1,...,n} Mitschrieb von Rouven Walter = 1 50 1 50n 62 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze k ∈ N, ωk = b, ωk+1 = a, ωk+2 = n, ωk+3 = a, ωk+4 = n, ωk+5 = e. Bk = {ω : (ωk , . . . , ωk+5 ) = (b, a, n, a, n, e)} An = B6n+1 C = ∞ [ \ Ak n=1 k≥n 9.2. Hilfssätze a) P n [ j=1 b) 0 ≤ x ≤ 1, so 1 − x ≤ e−x Cj ≤ n X P (Cj ) j=1 Beweis: a) Induktion über n. Es ist C1 ∪ C2 = C1 ⊎ (C2 \ C1 ∩ C2 ) also P (C1 ∪ C2 ) = P (C1 ) + P ((C2 \ C1 ∩ C2 )) | ≤ P (C1 ) + P (C2 ) Sn Wende diesen Schluss nun an auf k=1 Ck {z ≤P (C2 ) } ∪ Cn+1 . b) Die Funktion f (x) = e−x −(1−x) erfüllt f (0) = 0 und f ′ (x) = −e−x +1 = 1− e1x ≥ 0 auf [0, 1]. f ist dort also monoton wachsend, also wegen f (0) = 0 immer ≥ 0. 9.3. Lemma von Borel-Cantelli Sei (An ) eine beliebige Folge aus ε. a) Ist ∞ X n=1 dann ist P P (An ) < ∞ ∞ [ \ n=1 k≥n Mitschrieb von Rouven Walter Ak = 0 63 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze b) Ist ∞ X n=1 P (An ) = ∞ und die An unabhängig, dann ist P ∞ [ \ n=1 k≥n Ak = 1 Beweis: T S a) Wir setzen Bn := k≥n Ak und erhalten B := ∞ n=1 Bn , sowie Bn+1 ⊆ Bn . Also gilt nach 8.6 d) (ii) P (B) = lim P (Bn ) n→∞ Aber P (Bn ) ≤ ∞ X P (Ak ) k=n P nach dem Hilfssatz, Teil a). Da die Summe ∞ k=1 P (Ak ) konvergiert, ist die Folge P∞ ( k=n P (Ak ))n eine Nullfolge, und die Behauptung folgt. b) Wir zeigen (mit den Bezeichnungen von Teil a) des Beweises) P (B c ) = 0. Wec gen Bn+1 ⊇ Bnc ist P (B c ) = limn→∞ P (Bnc ) (s. 8.6.d) (i)). Wieder mit 8.6 d) erhalten wir (unter Anwendung der deMorganschen Regeln für das Berechnen des Komplements der Vereinigung und des Durchschnitts) P (Bnc ) = P ( ∞ \ Ack ) k=n = lim P ( l→∞ n+l \ Ack ) k=n Nun sind die Ak stochastisch unabhängig, also auch die Ack . Damit gilt P( n+l \ Ack ) = k=n = ≤ l+n Y k=n n+l Y (1 − P (Ak )) k=n n+l Y e−P (Ak ) k=n = e− Mitschrieb von Rouven Walter P (Ack ) Pn+l k=n P (Ak ) 64 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze P∞ divergiert, gilt auch für alle n stets Pl+n − k=n P (Ak ) liml→∞ k=n P (Ak ) = ∞, also liml→∞ e = 0. Damit ist P (Bnc ) = 0, und daraus folgt die Behauptung. Da die Reihe Pl+n k=1 P (Ak ) 9.4. Beispiel Aufgriff des vorherigen Beispiels mit der Tastatur. An = B6n+1 1 P (An ) = 506 ∞ ∞ X X 1 P (An ) = 506 n=1 n=1 = ∞ Nach dem Satz 9.3 b) ist also P (C) = 1, das bedeutet: Mit Wahrscheinlichkeit 1 tritt das Wort Banane unendlich oft auf. Analog behandelt man das Beispiel, dass die Bibel mit Wahrscheinlichkeit 1 unendlich oft auftritt, wenn man zufällig auf der Tastatur eines PC umhertippt. 9.5. Satz (Ungleichung von Kolmogorow) Seien Z1 , . . . , Zn unabhängige Zufallsvariablen mit E(Zk ) = 0, V (Zk ) < ∞. Sei Sk (ω) = k X Zj (ω) j=1 Yn (ω) = max{|Sk (ω)| : 1 ≤ k ≤ n} η > 0 beliebig. P ({ω : Y (ω) ≥ η}) ≤ = Pn j=1 V η2 (Zj ) 1 V (Sn ) η2 Beweis: Sei A1 = {ω : |S1 (ω)| ≥ η} und für k > 1 sei Ak = {ω : |Sl (ω)| < η, für l < k, |Sk (ω)| ≥ η} Mitschrieb von Rouven Walter 65 Stochastik für (Bio-)Informatiker Sei A = [Y ≥ η]. Dann gilt A = Pn k=1 P (Ak ). 9. Grenzwertsätze Sn k=1 Ak und Ak ∩ Al = ∅ für k 6= l. Also ist P (A) = Nun ist P (Ak ) = E(1Ak ) und ist ω ∈ Ak , so ist 1 ≤ Sk2 η2 |Sk (ω)| η · 1Ak und damit ≤ Sk (ω)2 . η2 Also gilt 1Ak ≤ P (Ak ) = E(1Ak ) 1 ≤ E(Sk2 · 1Ak ) η2 1 E(Sn2 · 1Ak ) ≤ η2 Hieraus folgt nun wegen 1A = Pn k=1 1Ak P (A) = (1) = ≤ = ≤ P n X k=1 n X P (Ak ) E(1Ak ) k=1 n X 1 E(Sn2 · 1Ak ) 2 η k=1 1 E(Sn2 1A ) η2 1 E(Sn2 ) η2 P Nun ist Sn2 = nk=1 Zk2 + 2 j<k Zj Zk . Da die Zj unabhängig sind und den Mittelwert 0 haben, ist E(Zj Zk ) = 0 (siehe die Definition der Kovarianz) und E(Zk2 ) = V (Zk ), also wegen E(Sn ) = 0 schließlich V (Sn ) = E(Sn2 ) = n X V (Zk ) k=1 Einsetzen in Ungleichung (1) liefert die Behauptung. 9.6. (Ursprünglich 9.9) Lemma Sei (Xn ) eine Folge von unabhängiger, quadratische integrierbarer Zufallsvariablen und es gelte (i) E(Xn ) = µ für alle n (ii) ∀n : V (Xn ) ≤ β für ein β > 0 Mitschrieb von Rouven Walter 66 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze Xn = n 1X Xk n k=1 Sei η > 0 beliebig und N ∈ N. Behauptung: P ({ω : sup |X n − µ| > η}) = P n≥N )! n 1 X ω : sup Xk (ω) − µ > η n≥N n ( k=1 4·β N · η2 ≤ Beweis: (I) Damit wir die Ungleichung von Kolmogoroff anwenden können, setzen wir Zn = P Xn − µ, ferner Sn = nk=1 Zk und erhalten, dass die Zn stochastisch unabhängig sind, den Mittelwert 0 und die Varianz V (Zn ) = V (Xn ) haben. Es ist = X̄n − µ = = n 1X Xk − µ n k=1 1 n n X k=1 n X ! (Xk − µ) 1 Zk n k=1 1 Sn n =: Z̄n = (II) Für beliebiges l ≥ 0 gilt max N 2l ≤n<N 2l+1 |Z̄n | ≥ η = (1) ⊆ ⊆ max N 2l ≤n<N 2l+1 max N 2l ≤n<N 2l+1 |Sn | ≥ ηn l |Sn | ≥ ηN 2 l max |Sn | ≥ ηN 2 . n<N 2l+1 Ferner gilt " sup |Z̄n | > η n≥N Mitschrieb von Rouven Walter # ⊆ ∞ ] l=0 max N 2l ≤n<N 2l+1 |Z̄n | ≥ η 67 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze Daraus folgt P " sup |Z̄n | > η n≥N #! ≤ (2) le (2) ∞ X l=0 ∞ X P P l=0 max N 2l ≤n<N 2l+1 |Z̄n | ≥ η l max |Sn | ≥ ηN 2 n<N 2l+1 Die einzelnen Summanden schätzen wir mit der Kolmogoroffschen Ungleichung ab. Dabei beachten wir die Voraussetzung V (Xk ) = V (Zk ) ≤ β und erhalten P max |Sn | ≥ ηN 2l n<N 2l+1 1 ≤ η 2 N 2 22l · N 2l+1 β Einsetzen in (2) liefert wegen Z̄n = X̄n − µ P " sup |X̄n − µ| > η n≥N #! ≤ ∞ 2β X 4β 2−l = 2 2 η N l=0 η ·N 9.7. Theorem (Starkes Gesetz der großen Zahlen) Seien (Xn ) unabhängige Zufallsvariablen mit E(Xn ) = µ, V (Xn ) ≤ β für alle n. Dann gilt P )! ( n 1X Xk (ω) = µ ω : lim n→∞ n k=1 = 1 Beweis: (I) Wir setzen wieder X̄n − µ = Z̄n mit Zk = Xk − µ (vergl. den Beweis von 9.6, Teil (II)) und müssen zeigen: P h i lim Z̄n = 0 n→∞ Äquivalent dazu ist die Aussage = 1 P {ω : (|Z̄n (ω)| 9 0} Wir setzen der Bequemlichkeit halber = 0 Un = |Z̄n | (II) Sei A = {ω : (Un (ω)| 9 0} und für r, n ∈ N sei An,r = [supk≥n Uk > 1/r]. Dann ist A = ∞ \ ∞ [ An,r r=1 n=1 Mitschrieb von Rouven Walter 68 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze Dies ergibt sich aus Folgendem: Es gilt limn→∞ Un (ω) = 0 ⇔ ∀r∃n∀k ≥ n(Uk (ω) ≤ 1/r) ⇔ ∀r∃n supk≥n Uk (ω) ≤ 1/r Damit gilt ω∈A ⇔ (Un (ω)) 9 0 ⇔ ∃r∀n supk≥n Uk (ω) > 1/r ω∈ ⇔ S∞ T∞ r=1 n=1 An,r (III) Für jedes feste n ∈ N und r ∈ N ist nun aber nach dem Lemma P " 1 sup |Z̄k | > r k≥n Also ist wegen An+1,r ⊆ An,r P( ∞ \ #! An,r ) = n=1 = P (An,r ) ≤ 4βr2 n lim P (An,r ) n→∞ 4βr2 n→∞ n = 0 ≤ lim Daraus folgt P (A) ≤ ∞ X r=1 = 0 P( ∞ \ An,r ) n=1 9.8. Beispiel Bernoulli-Experiment, Ω = {0, 1}N , Xn (ω) = ωn , E(Xn ) = p, V (Xn ) = p(1 − p) n 1X ωk = p]) = 1 P ([ lim ( n→∞ n k=1 Mitschrieb von Rouven Walter 69 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze 9.9. Theorem Sei (Xn ) eine Folge von unabhängigen Zufallsvariablen mit der gleichen Verteilung, d.h. es ist PXn = PXm für alle n, m und es möge die Varianz existieren. Sei n 1 X √ (Xk (ω) − µ) σ · n k=1 Sn∗ (ω) = Dann gilt lim P ([a ≤ Sn∗ < b]) = φ(b) − φ(a) n→∞ = 1 √ 2π Z b e− X2 2 dx a Außerdem PSn∗ ≈ N (0, 1) Beispiel zum zentralen Grenzwertsatz: (Yn ) Folge von Zufallsvariablen, unabhängig. Poissonverteilung mit λ. Yn = Sn∗ = n 1X Yk n k=1 n 1 X √ (Yk − λ) λn k=1 Es gilt P (a < Sn∗ ≤ b) ≈ 1 √ 2π Z b e− x2 2 dx a Gefragt ist P k < Es gilt k< n X j=1 n X j=1 Yj ≤ l ≈ ? Yj ≤ l ⇔ k − n · λ < ⇔ Mitschrieb von Rouven Walter n X (Yj − λ) ≤ l − n · λ j=1 k−n·λ l−n·λ √ < Sn∗ ≤ √ n·λ n·λ 70 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze Daraus folgt P k < n X j=1 P = φ Yj ≤ l = Sei λ = 1, n = 36, k = 30, l = 40. l−n·λ √ n·λ k−n·λ √ n·λ P 30 < n X j=1 k−n·λ l−n·λ √ < Sn∗ ≤ √ n·λ n·λ l−n·λ √ n·λ −φ k−n·λ √ n·λ 40 − 36 · 1 √ 36 · 1 ≈ 0, 67 30 − 36 · 1 √ = 36 · 1 = −1 = Yj ≤ 40 = φ(0, 67) − φ(−1) = 0, 786 − 1 + 0, 84 = 0, 786 − 0, 16 = 0, 726 9.10. Satz Sei E(Zj ) = 0, so gilt k X P max Zk ≥ η k≤n j=1 < n·β η2 Kolmogorow’sche Ungleichung. Ist n = 1, so erhält man die Tschebyscheff’sche Ungleichung: P ([|X − E(X)| ≥ η]) < σ2 η2 9.11. Satz (Schwaches Gesetz der großen Zahlen) Seien (Xn )n paarweise unkorreliert mit E(Xn ) = µ ∀n und V (Xn ) = σ 2 ∀n. Dann gilt: Zu jedem η > 0 und ǫ > 0 gibt es ein n(η, ǫ), so dass für alle n ≥ n(η, ǫ) gilt P n ω : X n − µ ≥ η Mitschrieb von Rouven Walter o ≤ ǫ 71 Stochastik für (Bio-)Informatiker 9. Grenzwertsätze Äquivalenz dazu ist folgende Aussage lim P n→∞ Beweis: TODO Mitschrieb von Rouven Walter i h X n − µ ≥ η = 0 72