Grundlagen der Stochastik In Anlehnung an die Vorlesung ’Grundlagen der Stochastik’ an der Georg-August-Universität Göttingen von PD Dr. Fiebig im Wintersemester 2007/2008 Kirsten Bolze Göttingen, [email protected] Frank Werner Göttingen, [email protected] 2 Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis 2 Literatur 4 Vorwort 5 1 Grundbegriffe 1.1 Einführung . . . . . . . . . . . . . . . . . . . 1.1.1 Mengentheoretische Verknüpfungen . . 1.1.2 Relative Häufigkeiten . . . . . . . . . 1.1.3 Axiomatik nach Kolmogoroff (1939) . 1.2 Laplace Experimente . . . . . . . . . . . . . . 1.3 Allgemeine diskrete Wahrscheinlichkeitsräume 1.4 Siebformeln . . . . . . . . . . . . . . . . . . . 1.4.1 Allgemeine Siebformeln . . . . . . . . 1.4.2 Die Bonferroni-Ungleichungen . . . . . 1.4.3 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 7 7 8 8 11 13 15 15 17 20 2 Kombinatorik 2.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . . 2.1.1 Ziehen mit Zurücklegen (Binomialverteilung) . . . . . . . 2.1.2 Ziehen ohne Zurücklegen (Hypergeometrische Verteilung) 2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 26 26 27 28 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 3.1 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Mehrstufige Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen . . 3.4 Produkt-Experimente und spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . 3.4.1 Mit Produktexperimenten zusammenhängende Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 33 38 40 43 45 4 Zufallsvariablen, Verteilungen 4.1 Zufallsvariablen . . . . . . . . . . . . . . . . 4.1.1 Unabhängigkeit von Zufallsvariablen 4.2 Verteilungen . . . . . . . . . . . . . . . . . . 4.2.1 Eigenschaften der Possionverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . und -funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 48 51 56 59 5 Kenngrößen von Verteilungen 5.1 Der Erwartungswert . . . . . . . . . . . . . . . 5.1.1 Erwartungswerte einiger Verteilungen . 5.1.2 Eigenschaften des Erwartungswertes . . 5.1.3 Produktformel . . . . . . . . . . . . . . 5.2 Varianzen . . . . . . . . . . . . . . . . . . . . . 5.2.1 Varianzen einiger diskreter Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 60 60 62 64 65 69 6 Wahrscheinlichkeitsungleichungen und das SGGZ 6.1 Das schwache Gesetz großer Zahlen (SGGZ) . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Spezialfall - Das SGGZ von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Exponential-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 72 73 74 7 Faltung, bedingte Verteilungen und Korrelation 7.1 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Spezialfall . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Faltungen einiger wichtiger Verteilungen . . . . . 7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . 7.2.1 Der bedingte Erwartungswert . . . . . . . . . . . 7.2.2 Die bedingte Erwartung . . . . . . . . . . . . . . 7.2.3 Anwendung der iterierten Erwartung . . . . . . . 7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23) 7.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . 77 77 78 78 80 82 82 83 84 85 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inhaltsverzeichnis 3 8 Erzeugende Funktion und Verzweigungsprozesse 8.1 Verzweigungsprozesse . . . . . . . . . . . . . . . . 8.1.1 Modellbildung . . . . . . . . . . . . . . . . 8.1.2 Motivation . . . . . . . . . . . . . . . . . . 8.1.3 Aussterbewahrscheinlichkeit . . . . . . . . . . . . . 87 92 92 92 92 9 Grenzwertsatz von de Moivre-Laplace 9.1 Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Anwendung I: Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . 9.3 Anwendung II: Bestimmung eines Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . 95 95 98 99 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Allgemeine Modelle und stetige Verteilungen 10.1 Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen . . . . . . . . . . . . . . . 10.2 Wahrscheinlichkeitsverteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen 10.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4 Zufallsvariablen mit stetiger Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.4 Die Pareto-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.5 Die Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.6 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5 Berechnung und Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . 10.6 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.7 Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 10.8 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.9 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 10.9.1 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz . . . . . . . . . . . . 10.10.1 Die Jensen’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10.2 Der zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 100 102 104 105 105 106 106 107 108 108 108 111 114 117 122 125 125 126 127 11 Markov-Ketten mit endlichem Zustandsraum 11.1 Steuerung der Sprünge: Übergangsmatrizen und -graphen . . . . 11.1.1 Potenzen der Matrix P . . . . . . . . . . . . . . . . . . . . 11.1.2 Die Periode einer Übergangsmatrix . . . . . . . . . . . . . 11.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten 11.3 Invariante Maße und Konvergenzsätze . . . . . . . . . . . . . . . 11.4 Rückkehrzeiten und starkes Gesetz . . . . . . . . . . . . . . . . . 11.4.1 Der Rückkehrzeitensatz . . . . . . . . . . . . . . . . . . . 11.5 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5.1 Irrfahrt auf ungerichtetem Graphen . . . . . . . . . . . . 11.5.2 Ehrenfeld-Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 133 135 136 139 140 141 146 147 150 150 152 12 Schätzer und statistische Tests 12.1 Punktschätzer . . . . . . . . . . . 12.1.1 ML-Schätzer . . . . . . . 12.1.2 Erwartungstreue Schätzer 12.2 Statistische Tests . . . . . . . . . 12.2.1 Der einseitige Gaußtest . 12.2.2 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 154 155 156 159 161 162 . . . . . . . . . . . . . . . . . . A Tabelle der Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 B Kenngrößen der wichtigsten Verteilungen 164 B.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 B.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 Stichwortverzeichnis 166 4 Literatur Literatur [Dehling/Haupt] Herold Dehling, Beate Haupt : Einführung in die Wahrscheinlichkeitstheorie und Statistik Springerverlag Berlin, 1. Auflage 2007, 306 Seiten, ISBN: 3-540-20380-X [Krengel] Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik Viewegverlag, 8. Auflage 2005, 257 Seiten, ISBN: 3-834-80063-5 Vorwort 5 Vorwort Dieses Skript ist unter einigem Arbeitsaufwand während der Vorlesung Grundlagen der Stochastik“ von ” PD Dr. Fiebig im Wintersemester 2007/2008 an der Georg-August-Universität Göttingen entstanden. Der Begriff der Stochastik umfasst heutzutage die Unterbegriffe der Wahrscheinlichkeitstheorie und der Statistik. Die Wahrscheinlichkeitstheorie umfasst dabei die Wahrscheinlichkeitsgesetze und das Studium wahrscheinlichkeitstheoretischer Modelle mit mathematischen Methoden, während die Statistik sich mit der Analyse und Modellierung von Datenstrukturen befasst. Die Ursprünge der Stochastik als Wissenschaft gehen auf das Glücksspiel (Würfeln, Kartenspiel etc.) zurück und liegen etwa um 1630. Als erste stellten Menschen wie Pascal oder Fermat Fragen wie Was ist wahrscheinlicher? Bei vier Würfen mit ” einem Würfel eine 6 oder bei 24 Würfen mit zwei Würfeln eine Doppel-6 zu haben?“ Der Begriff der Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) geprägt. Die axiomatische Einführung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogoroff. Heutzutage findet die Stochastik in vielen Gebieten Anwendung. Zum Beispiel in der Informatik bei Datenkompression, Spracherkennung, maschinellem Lernen oder Netzwerken, in der Technik bei der Qualitätskontrolle oder der Signalerkennung, in der Finanzmathematik bei der Berechnung von Prämien oder in der Biologie und Medizin bei der Bilderkennung oder der DNA-Analyse. In sich ist die Stochastik ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen aus Prognosen für die Daten getätigt werden und gleichzeitig mittels Daten bereits bestehende Modelle geprüft und neue Modelle geschaffen werden. Es handelt sich hierbei ausdrücklich nur um eine studentische Mitschrift, nicht um ein offiziell vom Dozenten herausgegebenes Skript. Trotz großer Anstrengungen sind sicherlich einige Fehler mathematischer wie auch sprachlicher Natur im Skript verblieben, was hoffentlich nicht allzu große Schwierigkeiten für das Verständnis aufwerfen wird. Göttingen, 23. Januar 2009 Kirsten Bolze, Frank Werner 6 1 Grundbegriffe Motivation Zur Motivation wollen wir zwei Beispiele für stochastische Modelle angeben. • Europäische Call-Option Dieses Beispiel kommt aus der Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeitpunkt t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufen zu können. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht? Eine mögliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung eines stochastischen Modells zur Entwicklung der Preisentwicklung gegeben: √ C = S(0) · Φ (ω) − k · exp (−r) · Φ ω − σ t1 Dabei ist S(0) der heutige Preis der Aktie, r ein festgesetzter Zinssatz und σ die Voluntarität (Schwankung) des Marktes. ω ist gegeben als k rt1 + σ 2 t21 − log S(0) √ ω= σ t1 und Φ ist die Verteilungsfunktion der Standard-Normalverteilung, d.h. Φ (ω) = Zω −∞ 2 x 1 √ exp − dx 2 2π Für dieses Modell wurde 1997 der Nobelpreis für Ökonomie verliehen. • Spracherkennung Sei A die Mikrofonaufnahme eines gesprochenen Wortes. Für jedes Wort wi in der deutschen Sprache sei Wi das Ereignis w wurde gesprochen“ ” i Gesucht ist nun das Wort wi , das der Sprecher tatsächlich gesagt hat, d.h. mit unserem Modell das Wort wi , für welches P (wi | A) am größten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1, ..., 100.000 o.Ä. durchlaufen, um alle Wörter der deutschen Sprache abzudecken. Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet für jedes (!) i mit Hilfe stochastischer Aussprachemodelle die Wahrscheinlichkeit P (A | wi ). Aus Tabellen entnimmt sie zusätzlich die relative Häufigkeit P (Wi ) mit der das Wort wi in der deutschen Sprache auftritt. Dann nutzen wir die Bayes-Formel P (A | wi ) · P (Wi ) P (wi | A) = 100.000 P P (A | wk ) · P (Wk ) k=1 Der Nenner dieses Ausdrucks hängt nicht von i ab, daher ist P (wi | A) maximal genau dann, wenn P (A | wi ) · P (Wi ) maximal ist. 1 Grundbegriffe 1.1 Definition: Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Versuchsbedingungen bestimmt ist. Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren. 1 Grundbegriffe 1.1 7 Einführung 1.2 Definition: Ein diskreter Grundraum Ω = {ω1 , ω2 , ...} ist eine nicht leere, abzählbare (oder endliche) Menge. Ein Element ω ∈ Ω nennen wir Ergebnis, eine Teilmenge A ⊆ Ω ein Ereignis. Beispiel 1.3: Für einen Würfelwurf mit einem Würfel wäre Ω = {1, 2, 3, 4, 5, 6}. 5 ∈ Ω entspricht dann dem Ergebnis 5 wurde geworfen“ und {2, 4, 6} dem Ereignis eine gerade Zahl wurde gewürfelt“. ” ” 1.4 Definition: Sei Ω ein diskreter Grundraum. Wir nennen • Ω ⊆ Ω das sichere Ereignis und • ∅ ⊆ Ω das unmögliche Ereignis. 1.1.1 Mengentheoretische Verknüpfungen Beispiel 1.5: Wir betrachten einen zweifachen Würfelwurf. Ein geeigneter Grundraum hier ist 2 Ω = {1, 2, 3, 4, 5, 6) × {1, 2, 3, 4, 5, 6) = {1, 2, 3, 4, 5, 6} = {(i, j) | i, j ∈ N, 1 ≤ i, j ≤ 6} Wir betrachten die Ereignisse A = Beim ersten Wurf wird eine 6 gewürfelt“ ” A = Beim zweiten Wurf wird eine 3 gewürfelt“ ” Diese Ereignisse entsprechen dann den Teilmengen A = {(6, i) | i ∈ N, 1 ≤ i ≤ 6} ⊂ Ω und B = {(j, 3) | j ∈ N, 1 ≤ j ≤ 6} Dann ist A ∩ B = {(6, 3)} und das entspricht dem Ereignis, dass sowohl A als auch B eintreten, d.h. dass im ersten Wurf eine 6 und im zweiten Wurf eine 3 kommt. 1.6 Definition: Sei Ω ein diskreter Grundraum und seien Ai , i ∈ N sowie A, B Ereignisse. Dann entsprechen • ” A und B treten ein“ dem Ereignis A ∩ B • ” A oder B treten ein“ dem Ereignis A ∪ B • ” Jedes der Ai , i ∈ N ist eingetreten“ dem Ereignis • ” Mindestens eins der Ai , i ∈ N ist eingetreten“ dem Ereignis • ” A ist nicht eingetreten“ dem Ereignis Ac := Ω \ A. T Ai i∈N S Ai i∈N Man kann sich mittels Venn-Diagrammen gut Verknüpfungen von Ereignissen verdeutlichen. 1.7 Definition: Sei Ω ein diskreter Grundraum und seien Ai ⊆ Ω, i ∈ N paarweise disjunkte Ereignisse, d.h. i 6= j ⇒ Ai ∩ Aj = ∅ Dann schreiben wir auch [ i∈N Ai =: X i∈N Ai 8 1 Grundbegriffe 1.1.2 Relative Häufigkeiten Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation dafür sind sogenannte relative Häufigkeiten: 1.8 Definition: Sei Ω0 ein diskreter Grundraum. Die relative Häufigkeit eines Ereignisses A ⊆ Ω0 in einer Folge von Relationen ω1 , ω2 , ..., ωn aus gleichwertigen Experimenten ist definiert als rn (A) := 1 # {j = 1, ..., n | ωj ∈ A} n Beispiel 1.9: Bei 300 Würfen einer Reißzwecke landet 124 mal die Spitze oben, sonst landet der Kopf oben. Sei 1“ ” das Ergebnis Spitze nach oben“ und 0“ das Ergebnis Kopf nach oben“. Dann ist ” ” ” Ω := {0, 1} 300 = {(ω1 , ..., ω300 ) | ωi ∈ {0, 1} ∀ 1 ≤ i ≤ 300} ein geeigneter Grundraum für dieses Experiment. Außerdem setzt man Ω0 := {0, 1} als den Grundraum für einen einfachen Wurf der Reißzwecke fest. Entsprechend ist für n = 300 also Ω = Ωn0 und es gilt rn ({1}) = 1 300 · 124. Wir wollen nun einige offensichtliche Eigenschaften relativer Häufigkeiten in einem Lemma festhalten: 1.10 Lemma: Es gelten die folgenden Relationen: • 0 ≤ rn (A) ≤ 1 ∀ A ⊆ Ω0 . • rn (Ω0 ) = 1. • rn (A + B) = rn (A) + rn (B) für A, B ⊆ Ω mit A ∩ B = ∅. / ∞ gegen die Wahrscheinlichkeit P (A) Die Idee ist nun, dass die relativen Häufigkeiten rn (A) für n eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich die relativen Häufigkeiten für immer größer werdendes n stabilsieren. Um diese Aussage auch beweisen zu können, brauchen wir nun eine geeignete Axiomatik. 1.1.3 Axiomatik nach Kolmogoroff (1939) 1.11 Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, P ), wobei Ω ein diskreter Grundraum und P eine auf den Teilmengen P (Ω) definierte reellwertige Funktion ist, welche die folgenden Axiome erfüllt: (A1) Positivität Es gilt P (A) ≥ 0 für alle A ⊆ Ω. (A2) Normiertheit Es gilt P (Ω) = 1. (A3) σ-Additivität Für jede Folge paarweise disjunkter Teilmengen A1 , A2 , ... ⊆ Ω gilt ! ∞ ∞ X X P (Ai ) P Ai = i=1 i=1 P heißt Wahrscheinlichkeitsmaß oder auch (Wahrscheinlichkeits-)Verteilung auf Ω. P (A) ist die Wahrscheinlichkeit des Ereignisses A ⊂ Ω. 1 Grundbegriffe 9 Folgerung 1.12 (Rechenregeln): (R1) Es ist P (∅) = 0. (R2) Es gilt Additivität, d.h. n X P Ai i=1 ! = n X P (Ai ) i=1 für endlich viele paarweise disjunkte Mengen A1 , ..., An . Beweis: (R1) Setze Ai = ∅ für i = 1, 2, 3, .... Dann gilt R ∋ P (∅) = P ∞ [ Ai i=1 ! (A3) = ∞ X P (Ai ) = ∞ X P (∅) i=1 i=1 Aus der Konvergenz der Summe folgt P (∅) = 0. (R2) Setze in (A3) Ai = ∅ für i > n und benutze (R1). In der Stochastik sollten die Ergebnisse, die man aus der Modellierung erhält, empirisch verifiziert werden. Beim Wurf der Reißzwecke setzt man z.B. Ω = {0, 1}, P (1) = 0.4 und P (0) = 0.6 (wobei 1 Spitze oben“ ” bedeutet) und bestätigt sich dies so in unserem Versuch mit 300 Würfen, denn r300 (1) = 124 176 ≈ 0.4 und r300 (0) = ≈ 0.6 300 300 1.13 Definition: Sei Ω eine Menge und A ⊆ Ω eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit Ac := Ω \ A Wir erinnern uns an die de Morgan’schen Regeln: 1.14 Hilfssatz: Für zwei Mengen M und N gelten: Mc ∪ Nc Mc ∩ Nc = = (M ∩ N ) c (1.1) c (M ∪ N ) (1.2) Beweis: Sei x ∈ M c ∪ N c . Dann gilt sicherlich entweder x ∈ M c oder x ∈ N c (oder beides), d.h. x ∈ / M oder x∈ / N (oder beides). Daher ist x ∈ / M ∩ N und daher x ∈ (M ∩ N ) c c Ist andersherum x ∈ (M ∩ N ) , so ist x ∈ / M ∩ N und daher entweder x ∈ / N oder x ∈ / M (oder beides). Entsprechend gilt sicherlich x ∈ M c oder x ∈ N c was (1.1) zeigt. Sei x ∈ M c ∩ N c . Dann ist x ∈ M c und x ∈ N c , d.h. x ∈ / M und x ∈ / N . Daher gilt auch x ∈ / M ∪ N und entsprechend c x ∈ (M ∪ N ) c Ist andersherum x ∈ (M ∪ N ) , so ist x ∈ / M ∪ N , also x ∈ / M und x ∈ / N . Das hat aber x ∈ M c und x ∈ N c zur Folge und daher gilt x ∈ Mc ∩ Nc Das zeigt (1.2). Bemerkung 1.15: Natürlich verallgemeinern die de Morgan’schen Regeln sich direkt auf unendliche Vereinigungen und Schnitte. Sind Ai , i ∈ N Mengen, so gilt: !c ∞ ∞ [ \ c Ai = (1.3) Ai i=1 ∞ \ i=1 i=1 Aci = ∞ [ i=1 Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14. Ai !c (1.4) 10 1 Grundbegriffe 1.16 Lemma (weitere Rechenregeln): Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum. A, B und Ai seien Ereignisse für i ∈ N. Dann gilt: (R3) P (A) = 1 − P (Ac ) (R4) P (A) ≤ 1 für alle A ⊂ Ω (R5) P (A \ B) = P (A) − P (B) falls B ⊂ A (R6) P (B) ≤ P (A), wenn B ⊂ A (Monotonie) (R7) Für beliebige endliche oder unendliche Folgen A1 , A2 , A3 , ... gilt ! X [ P P (Ai ) Ai ≤ (Boole’sche Ungleichung) i i (R8) Falls A1 ⊂ A2 ⊂ A3 ⊂ ..., so gilt (Stetigkeit von unten) P ∞ [ Ai ! Ai ! i=1 (R9) Falls A1 ⊃ A2 ⊃ A3 ⊃ ..., so gilt = lim P (Ai ) i→∞ (Stetigkeit von oben) P ∞ \ i=1 = lim P (Ai ) i→∞ Beweis: Zum Beweis werden nur die Kolmogoroff-Axiome sowie die Folgerungen (R1) und (R2) benutzt: (A2) (R2) (R3) Es gilt Ω = A ∪ Ac mit A, Ac disjunkt und damit 1 = P (Ω) = P (A ∪ Ac ) = P (A) + P (Ac ). Durch Umstellen erhält man P (A) = 1 − P (Ac ). (A1) (R4) Da P (Ac ) ≥ 0 folgt mit (R3) P (A) = 1 − P (Ac ) ≤ 1. (R5) Da A = (A \ B) ∪ B eine disjunkte Vereinigung ist, gilt laut (R2) P (A) = P (A \ B) + P (B). (A1) (R6) Nach Rechenregel (R3) ist P (B) = P (A) − P (A \ B). Außerdem ist P (A \ B) ≥ 0 und es folgt die Behauptung. (R7) Setze B1 := A1 , B2 := A2 \ A1 , B3 := A3 \ (A1 ∪ A2 ), ... d.h. Bn := An \ (A1 ∪ A2 ∪ ... ∪ An−1 ) für n ∈ N Die Bi sind paarweise disjunkt und Bi ⊂ Ai für alle i ∈ N. Es gilt also [ X Ai Bi = i∈N i∈N und damit P [ i∈N Ai ! X =P i∈N Bi ! (A3) = X i∈N (R4) P (Bi ) ≤ X i∈N (R8) Setze die Bi wie eben. Dann gilt: P ∞ [ i=1 Ai ! = ∞ X P Bi i=1 (A3) = ∞ X ! P (Bi ) i=1 = (R2) = = lim n→∞ n X lim P n→∞ P (Bi ) i=1 n X i=1 lim P (An ) n→∞ Bi ! P (Ai ) 1 Grundbegriffe 11 (R9) Gilt A1 ⊃ A2 ⊃ ..., so ist offenbar Ac1 ⊂ Ac2 ⊂ ... Wir berechnen daher P ∞ \ i=1 Ai ! (1.4) = ∞ [ P Aci i=1 (R3) = (R8) = (R3) = = 1−P ∞ [ !c ! Aci i=1 ! 1 − lim P (Aci ) i→∞ 1 − 1 − lim P (A1 ) i→∞ lim P (Ai ) i→∞ was die Behauptung zeigt. 1.2 Laplace Experimente 1.17 Definition: Ein Paar (Ω, P ) heißt Laplace-Raum, wenn • Ω = {ω1 , ..., ωn } endlich ist und • für alle A ⊆ Ω P (A) = #A # günstige Fälle“ = ” #Ω # mögliche Fälle“ ” gilt. P heißt Laplace-Verteilung oder diskrete Gleichverteilung auf Ω = {ω1 , ..., ωn }. Bemerkung 1.18: Sei (Ω, P ) ein Laplace-Raum. Dann ist P ({ω}) = 1 1 = ∀ω∈Ω #Ω n Beispiel 1.19: (1) Gegeben sei ein Würfel. Wir setzen als Grundraum Ω = {1, 2, ..., 6} mit P als der Laplace-Verteilung. Uns interessiert das Ereignis A =“gerade Zahl“ = {2, 4, 6}. Dann gilt: P (A) = #A #{2, 4, 6} 1 = = #Ω 6 2 (2) Beim Wurf der Reißzwecke liegt kein Laplace-Raum vor, da P (1) = 0.4 6= 0.6 = P (0) (3) Man muss darauf achten den richtigen“ Laplace-Raum zu wählen. Beim (gleichzeitigen) Wurf ” zweier fairer Münzen ist die Wahrscheinlichkeit des Ereignisses B = “einmal Kopf und einmal Zahl wird geworfen“ gesucht. Modell 1: Wir setzen Ω := {KK, KZ, ZK, ZZ} als Laplace-Raum. Das liefert P (B) = P ({KZ, ZK}) = #{ZK, KZ} 2 1 = = #Ω 4 2 12 1 Grundbegriffe Modell 2: Wir setzen Ω := {KK, KZ, ZZ} ohne Beachtung der Ordnung - das liefert P ({KZ}) = 1 3 Dieses Ergebnis ist empirisch wiederlegbar. (4) Summe von Augenzahlen Es werde zwei Mal gewürfelt. Sei Am =“Die Augensumme ist m“ für m = 2, 3, ..., 12. Unser Modell ist Ω = {1, 2, ..., 6}2 = {(i, j) | 1 ≤ i, j ≤ 6} als Laplace-Raum, d.h. P (Am ) = #Am #Ω Offenbar ist #Ω = 36. Nun ergibt sich #A2 #A3 #A4 #A5 #A6 #A7 #A8 #A12 = #{(1, 1)} = #{(1, 2), (2, 1)} = #{(1, 3), (2, 2), (3, 1)} = #{(1, 4), (2, 3), (3, 2), (4, 1)} = #{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} = #{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} = #{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)} .. . = #{(6, 6)} = = = = = = = .. . = 1 2 3 4 5 6 5 P (A2 ) P (A3 ) P (A4 ) P (A5 ) P (A6 ) P (A7 ) P (A8 ) 1 P (A12 ) = = = = = = = .. . = 1 36 2 36 3 36 4 36 5 36 6 36 5 36 1 36 (5) Teilungsproblem des Luca Paccioli (1494) Zwei Spieler A und B wiederholen ein faires Spiel (z.B. Münzwurf). Wer zuerst sechs Spiele gewonnen hat, bekommt den gesamten Einsatz. Das Spiel muss beim Stand 5:3 abgebrochen werden. Wie ist der Einsatz gerecht aufzuteilen? Um diese Frage zu beantworten, betrachten wir Verläufe, die zu einer Entscheidung führen. Es ergeben sich die folgenden Modelle: Modell 1: A, BA, BBA, BBB. Bei dieser Betrachtung gewinnt A in 3 von 4 Fällen. Damit gehen Einsatzes an Spieler A und 14 an Spieler B. 3 4 des Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach der Definition des Laplace-Raums gehen 87 des Einsatzes an Spieler A und 81 an Spieler B. (6) Wir werfen 10 mal eine Münze. Gesucht ist die Wahrscheinlichkeit des Ereignisses C = “mindestens 1 mal tritt Kopf auf“ Unser Modell ist Ω := {K, Z}10 = {(a1 , ..., a10 ) | ai ∈ {K, Z}} als Laplace-Raum. Es folgt #Ω = 1024 und wir berechnen P (C) = #C #Ω mit Hilfe des Komplements von C, denn dieses ist einfacher zu bestimmen! P (C) = 1 − P (C c ) = 1 − # { Es tritt kein mal Kopf auf“} 1 1023 #C c ” =1− =1− = #Ω #Ω 1024 1024 (7) Maxima von Augenzahlen Es wird k mal gewürfelt. Sei m ∈ {1, 2, ..., 6} und das Ereignis Bm =“höchste Augenzahl ist m“. Wir verwenden als Modell den Laplace-Raum Ω := {1, ..., 6}k = {(a1 , ..., ak ) | ai ∈ {1, ..., 6}} Für 1 ≤ m ≤ 6 setze Am als das Ereignis Am =“alle Augenzahlen sind ≤ m“ fest und erhalte so P (Am ) = mk #Am = k. #Ω 6 Dann gilt Bm = Am \ Am−1 und Am−1 ⊂ Am . Die Rechenregel (R5) liefert nun P (Bm ) = P (Am ) − P (Am−1 ) = (m − 1)k mk − (m − 1)k mk − = . k k 6 6 6k 1 Grundbegriffe 1.3 13 Allgemeine diskrete Wahrscheinlichkeitsräume und -funktionen 1.20 Lemma: Ist (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte P ({ω}) , ω ∈ Ω Beweis: Sei A ⊆ Ω beliebig. Dann gilt A= [ ω∈A {ω} = X ω∈A {ω} und diese Vereinigung ist abzählbar, da der Grundraum Ω selbst schon abzählbar ist. Es folgt aus (A3): ! X X P (A) = P {ω} = P ({ω}) . ω∈A ω∈Ω Daher ist P durch die Werte in der Voraussetzung bereits festgelegt. Bemerkung 1.21: Wegen (A1) und (R4) ist bereits klar, dass 0 ≤ P ({ω}) ≤ 1 für alle ω ∈ Ω gilt. Genauso muss nach (A2) und (A3) auch ! X X (A3) P ({ω}) = P {ω} = P (Ω) ω∈Ω (A2) = 1 ω∈Ω gelten. Das veranlasst uns zu folgender 1.22 Definition: / [0, 1] mit der Eigenschaft Sei Ω ein diskreter Grundraum. Eine Abbildung p : Ω X p (ω) = 1 ω∈Ω heißt Wahrscheinlichkeitsfunktion auf Ω. Bemerkung 1.23: Ist P eine Wahrscheinlichkeitsverteilung auf Ω, so ist p (ω) := P ({ω}) wie oben gesehen eine Wahrscheinlichkeitsfunktion. Beispiel 1.24: Wir betrachten den zu einmaligem Würfeln gehörigen Laplace-Raum. Dann ist die entsprechende Wahrscheinlichkeitsfunktion p gegeben durch p (1) = p (2) = ... = p (6) = 1 . 6 Beispiel 1.25: Wir betrachten wieder unser Beispiel der Reißzwecke. Die hier entstehende Wahrscheinlichkeitsfunktion p ist gegeben durch p (1) = 0.4, p (0) = 0.6. 1.26 Satz: Sei Ω ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf Ω. Dann definieren wir durch X P (A) := p (ω) , A ⊆ Ω ω∈A eine Wahrscheinlichkeitsverteilung P auf Ω. 14 1 Grundbegriffe Beweis: Wir müssen lediglich die Axiome (A1), (A2) und (A3) prüfen. (A1) Sei A ⊆ Ω beliebig. Da p ≥ 0 gilt, folgt sofort X P (A) = ω∈A (A2) Offenbar ist P (Ω) = X p (ω) ≥ 0. | {z } ≥0 p (ω) = 1. ω∈Ω (A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann ist P ∞ X i=1 Ai ! = X ω∈ ∞ P p (ω) . Ai i=1 Per Definition ist p ≥ 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen der Disjunktheit der Ai : ! ∞ ∞ X ∞ X X X P (Ai ) . p (ω) = P Ai = i=1 i=1 ω∈Ai i=1 Das zeigt die Behauptung. Bemerkung 1.27: Für diskrete Grundräume Ω haben wir also folgendes: Die Menge M aller Wahrscheinlichkeitsverteilungen P auf Ω und die Menge aller Wahrscheinlichkeitsfunktionen p auf Ω lassen sich bijektiv durch P 7→ p, p (ω) := P ({ω}) , ω ∈ Ω ineinander abbilden. Die Frage, die man sich also stellt ist, warum man nicht gleich nur mit Wahrscheinlichkeitsfunktionen arbeitet. Eine Antwort darauf ist leicht zu geben, denn im Fall eines nicht-diskreten Grundraumes wie Ω = [0, 1] oder Ω = R macht eine Frage nach P ({a}), a ∈ Ω - also nach der Wahrscheinlichkeit eines einzelnen Ergebnisses - keinen Sinn! Diese Wahrscheinlichkeit wäre stets 0. Man stelle sich Beispielsweise einen Zufallsgenerator vor, der gleichverteilt“ Zahlen aus [0, 1] zieht. Die ” Wahrscheinlichkeit, dass eine 0 gezogen wird, müsste dann 0 sein, aber die Summe über alle Zahlen der Wahrscheinlichkeiten wäre weiterhin 1. Das macht schlicht und ergreifend keinen Sinn! Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abzählbare) Grundräume Ω verallgemeinern und liefern so eine einheitliche Theorie für alle Wahrscheinlichkeitsräume. Beispiel 1.28: Wir können einen gefälschten Würfel modellieren durch p (1) := 0.1, p (2) = ... = p (5) = 0.175, p (6) = 0.2. Das definiert eine Wahrscheinlichkeitsfunktion auf Ω = {1, 2, ..., 6}. Die zugehörige Wahrscheinlichkeitsverteilung nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung. Beispiel 1.29: Auf Ω = {2, 3, ..., 12} definiere die Wahrscheinlichkeitsfunktion p durch den Vektor 5 6 5 1 1 2 . , , ..., , , , ..., 36 36 36 36 36 36 1 2 Damit ist natürlich gemeint, dass p (2) = 36 , p (3) = 36 etc. ist. Diese Wahrscheinlichkeitsfunktion definiert als Wahrscheinlichkeitsverteilugn genau die Verteilung der Augensumme bei zweimaligem Würfeln. 1 Grundbegriffe 1.4 15 Siebformeln In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen oder abschätzen, wenn wir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (Ω, P ) ein Wahrscheinlichkeitsraum. 1.30 Lemma: Sind A1 , A2 ⊆ Ω Ereignisse, so gilt P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) . Beweis: Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 ∩ A2 ). Dann ist A1 ∪ A2 = B1 ∪ B2 und B1 ∩ B2 = ∅. Daher gilt: P (A1 ∪ A2 ) = (R2) P (B1 ∪ B2 ) = P (B1 ) + P (B2 ) = P (A1 ) + P (A1 \ (A1 ∩ A2 )) (R5) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) . Das zeigt die Behauptung. Beispiel 1.31: Wir definieren das Ereignis A als A:= Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 oder durch 5 teilbar“ ” Um P (A) zu berechnen definieren wir A2 := Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 teilbar“ ” A5 := Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 5 teilbar“ ” Dann gilt A = A2 ∪ A5 , offenbar ist P (A2 ) = P (A2 ∩ A5 ) 50 100 = 21 , P (A5 ) = 20 100 = 1 5 und = P ( Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 und durch 5 teilbar“) ” 1 10 = . = P ( Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 10 teilbar“) = ” 100 10 Nach Lemma 1.30 ist also P (A) = P (A2 ) + P (A5 ) − P (A2 ∩ A5 ) = 1 1 1 3 + − = . 2 5 10 5 Sind A1 , A2 , A3 ⊆ Ω nun drei Ereignisse, so ergibt sich als Siebregel P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) , wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch aus den folgenden allgemeinen Siebformeln. 1.4.1 Allgemeine Siebformeln Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω Ereignisse, n ≥ 2. Setze X Sk := P (Ai1 ∩ ... ∩ Aik ) 1≤i1 <i2 <...<ik ≤n für 1 ≤ k ≤ n. 1.32 Satz (Siebformel von Poincare-Sylvester): Unter obigen Voraussetzungen gilt ! n n X [ k−1 (−1) Sk P Ai = i=1 k=1 16 1 Grundbegriffe Beweis: Wir zeigen die Aussage durch Induktion über n. • Induktionsanfang (I.A.): Lemma 1.30 liefert P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) = {z } | {z } | =S1 =S2 n X (−1) k−1 Sk k=1 • Induktionsvoraussetzung (I.V.): Gelte n [ P Ai i=1 für alle Ereignisse A1 , ..., Am ⊆ Ω. ! n X = (−1) k−1 Sk k=1 / n + 1): • Induktionsschritt (n Wir setzen B := A1 ∪ ... ∪ An Dann gilt: P n+1 [ i=1 Ai ! = I.A. = = P (B ∪ An+1 ) P (B) + P (An+1 ) − P (B ∩ An+1 ) ! ! ! n n [ [ P Ai ∩ An+1 Ai + P (An+1 ) − P i=1 i=1 I.V. = n X (−1) k−1 k=1 I.V. = n X (−1) = 1≤i1 <i2 <...<ik ≤n n X 1≤i1 <i2 <...<ik ≤n (−1) 1≤i1 <i2 <...<ik ≤n k=1 = n X 1≤i1 <i2 <...<ik ≤n P (Ai ) + 1≤i≤n − n X = − k=1 n−1 X k−1 k (−1) k=1 (−1) P (Ai1 ∩ ... ∩ Aik ∩ An+1 ) 1≤i1 <i2 <...<ik ≤n 1≤i1 <i2 <...<ik ≤n P (Ai ) + P ((Ai1 ∩ An+1 ) ∩ ... ∩ (Aik ∩ An+1 )) X k−1 X k−1 (−1) 1≤i≤n+1 n X (−1) k=2 k=1 X n X (Ai ∩ An+1 ) P (Ai1 ∩ ... ∩ Aik ) + P (An+1 ) X k−1 (−1) k=1 X X k−1 i=1 X ! P (Ai1 ∩ ... ∩ Aik ) + P (An+1 ) X k−1 (−1) k=1 n X − X k−1 k=1 − Sk + P (An+1 ) − P n [ P (Ai1 ∩ ... ∩ Aik ) + P (An+1 ) P (Ai1 ∩ ... ∩ Aik ∩ An+1 ) X 1≤i1 <i2 <...<ik+1 ≤n 1≤i1 <i2 <...<ik ≤n P Ai1 ∩ ... ∩ Aik+1 P (Ai1 ∩ ... ∩ Aik ∩ An+1 ) 1 Grundbegriffe 17 = n+1 X i=1 P (Ai ) − n−1 X (−1) k=1 X + 1≤i1 <i2 <...<ik ≤n = n+1 X i=1 P (Ai ) − − (−1) k−1 n−1 X X 1≤i1 <i2 <...<ik+1 ≤n (−1) k−1 k=1 X 1≤i1 <i2 <...<ik+1 ≤n+1 P (A1 ∩ ... ∩ An ) n n+1 X X k−1 (−1) P (Ai ) + = X 1≤i1 <i2 <...<ik ≤n+1 k=2 n + (−1) P (A1 ∩ ... ∩ An ) = n+1 X (−1) k−1 n−1 P (A1 ∩ ... ∩ An ) P (Ai1 ∩ ... ∩ Aik ∩ An+1 ) − (−1) n−1 i=1 P Ai1 ∩ ... ∩ Aik+1 P Ai1 ∩ ... ∩ Aik+1 P (Ai1 ∩ ... ∩ Aik ) Sk k=1 Es folgt die Behauptung. 1.4.2 Die Bonferroni-Ungleichungen Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω Ereignisse. Wir beweisen hier zunächst die folgende Variante der Siebformel: 1.33 Lemma: Es gilt P n [ i=1 Ai ! = n X i=1 P (Ai ) − Beweis: Wir setzen B1 := A1 und für 2 ≤ k ≤ n: Bk := Ak \ Dann gilt k−1 [ Ai i=1 n [ i=1 ! n X i=1 P j=1 = Ak \ Ai = i−1 [ n [ k−1 [ i=1 (Ai ∩ Aj ) (Ai ∩ Ak ) Bi i=1 und die Mengen Bi sind disjunkt. Außerdem gilt wegen k−1 [ i=1 (Ai ∩ Ak ) ⊂ Ak auch P (Bk ) = P (Ak ) − P k−1 [ i=1 (Ai ∩ Ak ) ! ! (1.5) 18 1 Grundbegriffe Damit folgt dann: P n [ i=1 Ai ! n [ = P i=1 = n X i=1 = n X i=1 = n X i=1 Bi ! P (Bi ) P (Ai ) − P j=1 P (Ai ) − n X was die Behauptung zeigt. Mit den Bezeichnungen Sk := i−1 [ X 1≤i1 <i2 <...<ik ≤n i=1 P (Aj ∩ Ai ) i−1 [ j=1 (Aj ∩ Ai ) P (Ai1 ∩ ... ∩ Aik ) für 1 ≤ k ≤ n kann man jetzt folgern: Folgerung 1.34: Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω Ereignisse. Dann gilt für jedes m ∈ {1, ..., n} die Formel ! i1[ −1 m n X X [ i−1 m (1.6) (Ai1 ∩ ... ∩ Aim ∩ Aj ) (−1) Si + (−1) P P Ai = i=1 i=1 1≤i1 <...<im ≤n j=1 Beweis: Der Beweis erfolgt durch Induktion nach m ≤ n. • Induktionsanfang (I.A.): Das ist genau die bereits gezeigte Gleichung (1.5). • Induktionsvoraussetzung (I.V.): Gelte (1.6). • Induktionsschritt (m < n, m / m + 1): Wir wollen Gleichung (1.5) auf den Term i1[ −1 (Ai1 ∩ ... ∩ Aim ∩ Aj ) P j=1 aus der Induktionsvoraussetzung anwenden. Setze dazu für gegebene 1 ≤ j < i1 < ... < im ≤ n Bj := Ai1 ∩ ... ∩ Aim ∩ Aj Dann gilt: i1[ −1 P j=1 (Ai1 ∩ ... ∩ Aim ∩ Aj ) = (1.5) = i1[ −1 P iX 1 −1 j=1 j=1 Bj P (Bj ) − iX 1 −1 j=1 P j−1 [ k=1 (Bj ∩ Bk ) ! 1 Grundbegriffe 19 iX 1 −1 = P (Ai1 ∩ ... ∩ Aim ∩ Aj ) j=1 − iX 1 −1 k=1 (Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ai1 ∩ ... ∩ Aim ∩ Ak ) iX 1 −1 j−1 [ P j=1 k=1 ! (Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ak ) Setzen wir das nun in die Induktionsvoraussetzung ein, so erhalten wir ! n [ P Ai i=1 I.V. = = m X (−1) i−1 Si + (−1) m 1≤i1 <...<im ≤n m X X i−1 Si + (−1) m 1≤i1 <...<im ≤n i=1 − = X i=1 (−1) iX 1 −1 j−1 [ P j=1 m X k=1 (−1) i−1 (Ai1 ∩ ... ∩ Aim Si + (−1) m X iX 1 −1 X m+1 (−1) i−1 Si + (−1) j−1 [ P + (−1) X m+1 (−1) i−1 Si + + (−1) j=1 j=1 i1[ −1 P j=1 m+1 P (Ai1 ∩ ... ∩ Aim ∩ Aj ) P (Ai1 ∩ ... ∩ Aim ∩ Aj ) ! (Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ak ) P Ai1 ∩ ... ∩ Aim+1 {z X was die Behauptung zeigt. } P Als einfache Folgerung erhalten wir nun 1.35 Satz (Bonferroni-Ungleichungen): Unter den Voraussetzungen wie oben gelten: (1) Für ungerades m ∈ {1, ..., n} gilt P n [ Ai i=1 (2) Für gerades m ∈ {1, ..., n} gilt P n [ i=1 Ai Ai1 ∩ ... ∩ Aim+1 ∩ Aj 1≤i1 <...<im+1 ≤n i=1 (Ai1 ∩ ... ∩ Aim ∩ Aj ) =Sm+1 1≤i1 <...<im+1 ≤n m+1 X k=1 1≤i1 <...<im+1 ≤n | i1[ −1 iX 1 −1 iX 1 −1 X m i=1 = P 1≤i1 <...<im ≤n j=1 1≤i1 <...<im ≤n j=1 = ! ∩ Aj ∩ Ak ) X m i=1 + (−1) ! P (Ai1 ∩ ... ∩ Aim ∩ Aj ) j=1 − P j=1 iX 1 −1 = j−1 [ ! ≤ m X ! ≥ m X i−1 Si i−1 Si (−1) i=1 i=1 (−1) i1[ −1 j=1 Ai1 ∩ ... ∩ Aim+1 ∩ Aj 20 1 Grundbegriffe Beweis: Nach Definition eines Wahrscheinlichkeitsraums ist für jede Auswahl 1 ≤ i1 < ... < im ≤ n i1[ −1 (Ai1 ∩ ... ∩ Aim ∩ Aj ) ≥ 0 P j=1 Ist nun m ∈ {1, ..., n} ungerade, so folgt P n [ Ai i=1 ! (1.6) = m X (−1) i−1 Si + (−1) m 1≤i1 <...<im ≤n i=1 = m X (−1) i−1 i=1 ≤ m X X (−1) i−1 Si − X 1≤i1 <...<im ≤n P P i1[ −1 j=1 P i=1 Ai ! (1.6) = m X (−1) i−1 Si + (−1) m X m X X m 1≤i1 <...<im ≤n (−1) i−1 Si + X 1≤i1 <...<im ≤n i=1 ≥ (Ai1 ∩ ... ∩ Aim ∩ Aj ) (Ai1 ∩ ... ∩ Aim ∩ Aj ) Si i=1 = j=1 i=1 Ganz analog gilt für jedes gerade m ∈ {1, ..., n}, dass n [ i1[ −1 (−1) i−1 P P i1[ −1 j=1 i1[ −1 j=1 (Ai1 ∩ ... ∩ Aim ∩ Aj ) (Ai1 ∩ ... ∩ Aim ∩ Aj ) Si i=1 womit die Behauptung gezeigt ist. Bemerkung 1.36: Für m = 1 liefert das genau die in (R7) unabhängig schon gezeigte Boole’sche Ungleichung ! n n X [ P (Ai ) P Ai ≤ i=1 1.4.3 (1.7) i=1 Anwendung Wir wollen hier eine Anwendung aus der Zuverlässigkeitstheorie diskutieren: Korollar 1.37: Mögen die Voraussetzungen von oben gelten. Sind A1 , ..., An Ereignisse mit P (Ai ) ≥ 1 − εi für Zahlen 0 ≤ εi ≤ 1, i = 1, ..., n, so gilt ! n n X \ εi P Ai ≥ 1 − i=1 i=1 1 Grundbegriffe 21 Beweis: Es gilt P n \ i=1 Ai ! (R3) = (1.3) = (1.7) ≥ (R3) = ≥ 1−P 1−P 1− 1− 1− n X n \ Ai i=1 n [ i=1 Aci !c ! ! P (Aci ) i=1 n X i=1 n X i=1 (1 − P (Ai )) (1 − 1 − εi ) = 1 − n X εi i=1 Das zeigt die Behauptung. In der Anwendung sieht das so aus: Man betrachtet etwa ein System mit n Komponenten, welches nur funktioniert, wenn alle Komponenten funktionieren. Dann ist Ai = Die i-te Komponente ist intakt“ ” und n T i=1 Ai = Das System ist intakt“ ” Man erhält so eine Abschätzung für die Sicherheit des Systems, wenn man Abschätzungen für die Sicherheit der Komponenten hat. Beispiel 1.38: Ist etwa P (Ai ) ≥ 0.99 für alle i = 1, ..., n, also εi = 0.01 für alle i = 1, ..., n, so ist das System immerhin noch mit Wahrscheinlichkeit ! n \ n P Ai ≥ 1 − 100 i=1 intakt. 22 2 2 Kombinatorik Kombinatorik Hier wollen wir das sogenannte Urnen- und Fächermodell einführen. Dazu betrachten wir vier verschiedene Grundräume ΩI , ΩII , ΩIII , ΩIV die aus Urnen- bzw. Fächermodellen entstehen und bestimmen ihre Kardinalitäten. In der Praxis werden ΩI , ΩII und ΩIII oft als Grundräume für Laplace-Räume benutzt, ΩIV ist spezieller. Beispiel 2.1: Wir wollen Würfeln als Urnenmodell realisieren. Dabei entspricht dann der erste Wurf dem Ziehen einer Kugel aus einer Urne mit sechs Kugeln, welche mit den Zahlen 1,2,3,4,5,6 beschriftet sind, und dem Zurücklegen der Kugel nach dem Ziehen. Der zweite Wurf ist dann wieder das Ziehen einer Kugel aus der selben Urne mit zurücklegen etc.. Das realisiert genau Würfeln als Laplace-Raum wie bereits bekannt. Urnenmodell I: k-faches Ziehen mit Zurücklegen unter Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln, welche die Nummern 1 bis n tragen. Der Grundraum ist hier ΩI = {(a1 , ..., ak ) | 1 ≤ ai ≤ n, i = 1, ..., n} wobei ai der Nummer der im i−ten Experiment gezogenen Kugel entspricht. Es ist #ΩI = nk Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert werden und verteilt diese Kugeln in n Fächer. Dabei sind mehrere Kugeln pro Fach erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i“ gelandet ist. Der Grundraum ” der Ergebnisse ist dann genau wie oben schon eingeführt ΩI = {(a1 , ..., ak ) | 1 ≤ ai ≤ n, i = 1, ..., n} Beispiel 2.2: Das Fächermodell findet etwa dann Verwendung, wenn sich k Kunden an n verfügbaren Schaltern anstellen oder in der Informatik k Jobs auf n Prozessoren verteilt werden. Urnenmodell II: k-faches Ziehen ohne Zurücklegen unter Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln, welche die Nummern 1 bis n tragen. Das ist offenbar nur für k ≤ n möglich. Der Grundraum ist hier ΩII = {(a1 , ..., ak ) | ai 6= aj für i 6= j und ai ∈ {1, ..., n} für i = 1, ..., k} wobei ai der Nummer der im i−ten Experiment gezogenen Kugel entspricht. Die Kardinalität von ΩII berechnet sich wie folgt: Beim Ziehen der ersten Kugel gibt es n Möglichkeiten, beim Ziehen der zweiten Kugel n−1 Möglichkeiten usw, daher ist n! =: (n)k #ΩII = n · (n − 1) · ... · (n − k + 1) = (n − k)! Wir sprechen diese Zahl als n unten k“. ” Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert werden und verteilt diese Kugeln in n Fächer. Diesmal ist aber jeweils maximal eine Kugel pro Fach erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i“ gelandet ” ist. 2 Kombinatorik 23 Bemerkung 2.3 (Spezialfall): Wir betrachten nun den Fall n = k, d.h. alle Kugeln werden gezogen. Dann erhalten wir hier als ΩII genau die Menge aller Permutationen der Zahlen {1, ..., n}, da in den Tupeln (a1 , ..., an ) jede Zahl aus {1, ..., n} genau einmal auftaucht. Man sieht mit obiger Formel sofort #ΩII = (n)n = n! Beispiel 2.4: (1) Wir wollen die Wahrscheinlichkeit für Fixpunkte von Permutationen berechnen. Dazu sei k = n und ΩII mit der Laplace-Verteilung versehen. Entsprechend gilt dann für jede Permutation (a1 , ..., an ) ∈ ΩII der Menge {1, ..., n}, dass P ({(a1 , ..., an )}) = 1 1 = #ΩII n! Sei nun Ai := {(a1 , ..., an ) ∈ ΩII | ai = i} das Ereignis Die Permutation hat an der Stelle i einen ” Fixpunkt“. Dann gilt #Ai (n − 1)! 1 P (Ai ) = = = ∀ i = 1, ..., n #ΩII n! n da Ai genau die Menge aller Permutationen von {1, ..., n} ist, welche i festhält, also nur n−1-Zahlen aus {1, ..., n} \ {i} permutiert. Das entspricht genau einer Permutation der Zahlen {1, ..., n} \ {i} ∼ = {1, ..., n − 1} und deren Anzahl ist wie oben gesehen genau (n − 1)!. (2) Eine Person probiert ihre n Schlüssel zufällig an einem Schloss durch. Nur einer der Schlüssel passt. Sei Bi das Ereignis der i-te Schlüssel passt“. Wir bezeichnen die Schlüssel mit 1, ..., n und nehmen ” durch Umnummerieren stets an, dass 1 der passende Schlüssel ist. Als Modell verwenden wir wieder ΩII als Laplace-Raum. Dann ist Bi {(a1 , ..., an ) ∈ ΩII | ai = 1} und entsprechend P (Bi ) = #Bi 1 = #ΩII n wie oben. Urnenmodell III: k-faches Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln, welche die Nummern 1 bis n tragen. Das ist offenbar wieder nur für k ≤ n möglich. Der Grundraum ist hier ΩIII = {T ⊂ {1, ..., n} | #T = k} Einer Teilmenge T ∈ ΩIII entspricht dann das Experiment, dass genau die Kugeln mit den Zahlen i ∈ T gezogen wurden (Reihenfolge egal!). Die Kardinalität von ΩII berechnet sich mit dem Prinzip des Schäfers:1 Will man #ΩIII durch abzählen berechnen, so erscheint dies sehr schwer. Man definiert also f : ΩII 1 Prinzip / ΩIII durch f ((a1 , ..., ak )) := {a1 , ..., ak } des Schäfers: Will man wissen, wie viele Schafe auf der Wiese stehen, so muss man nicht zwingend die Schafe selbst zählen. Man kann auch die Anzahl der Beine auf der Wiese zählen und durch die Anzahl der Beine pro Schaf teilen, das liefert das selbe Ergebnis: # Beine = # Schafe 4 Dieses Prinzip klingt zunächst sehr abstrus, aber oben wird die enorme Mächtigkeit des Prinzips klar. 24 2 Kombinatorik Diese Abbildung ist wohldefiniert, da wir für jedes (a1 , ..., ak ) ∈ ΩII gefordert hatten, dass die ai paarweise verschieden sind. Man erhält als Bild unter f also tatsächlich eine k-elementige Teilmenge von {1, ..., n}. Ganz offenbar ist f surjektiv und jede Menge {a1 , ..., ak } ∈ ΩIII (∼Schaf) hat genau k! Urbilder (∼Beine) unter f , da es wie oben gesehen k! Permutationen einer k-elementigen Menge gibt. Daher gilt: (n)k 1 n! n #ΩIII = #ΩII · = = =: k! k! k! (n − k)! k Die Zahl nk wird auch Binomialkoeffizient“ oder n über k“ genannt. ” ” Bemerkung 2.5 (Eigenschaften der Binomialkoeffizenten): (1) Es gilt n n = k n−k (2) Der Binomische Lehrsatz besagt n (x + y) = n X n k=0 k xk y n−k (3) Die Anzahl der möglichen Auswahlen 1 ≤ i1 < ... < ik ≤ n (2.1) - wie sie etwa in Abschnitt 1.4.1 vorkommen - entspricht genau der Anzahl der k-elementigen Teilmengen von {1, ..., n} (einfach die Ordnung vergessen). Daher gibt es genau n k Möglichkeiten, Zahlen i1 , ..., ik wie in (2.1) auszuwählen. Beispiel 2.6: Ein klassisches Beispiel für das Urnenmodell III ist das gewöhnliche Lotto. Hier werden 6 Kugeln aus 49 möglichen Kugel ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen, d.h. es ist n = 49 und k = 6. Man sieht an diesem Beispiel sehr deutlich, dass auch wirklich nur die Teilmenge T der gezogenen Kugeln entscheidend ist. Um die Wahrscheinlichkeit für 6 Richtige zu berechnen, betrachten wir ΩIII als Laplace-Raum und erhalten so für einen beliebigen festen Tip T = {a1 , ..., a6 } ⊂ {1, ..., 49} die Wahrscheinlichkeit P (T ) = #T = #ΩIII 1 49 6 = 1 13.983.816 6 Richtige im Lotto erscheinen also als sehr unwahrscheinlich! Jetzt wollen wir noch das zugehörige Fächermodell entwickeln. Man betrachtet dazu die verschiedenen Möglichkeiten k nicht zu unterscheidende Kugeln auf n Fächer zu verteilen. Dabei ist jeweils wieder maximal eine Kugel pro Fach erlaubt. Notiert wird als Ergebnis nur die Teilmenge der besetzten Fächer. Urnenmodell IV: k-faches Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln, welche die Nummern 1 bis n tragen. Als Ergebnis notieren wir nur das Tupel (k1 , ..., kn ), wobei die Zahl ki angibt, wie oft die Kugel mit der Nummer i gezogen wurde. Zwangsläufig gilt dann n X i=1 ki = k 2 Kombinatorik 25 Der Grundraum ist also ΩIV := Beispiel 2.7: ( n X (k1 , ..., kn ) 0 ≤ ki ≤ k ∀ i = 1, ...n und ki = k i=1 ) Wir haben n = 6 Kugeln und ziehen k = 10 mal. Dann ist das Ergebnis ein Vektor (3, 0, 2, 4, 0, 1) welcher symbolisiert, dass 3 mal Kugel Nummer 1 gezogen wurde, 0 mal Kugel Nummer 2, 2 mal Kugel Nummer 3 usw.. Bevor wir die Kardinalität von ΩIV bestimmen wollen wir kurz das zugehörige Fächermodell vorstellen. Man betrachte k Kugeln, die auf n Fächer verteilt werden - mit erlaubter Mehrfachbesetzung der Fächer - und zähle als Ergebnis nur, wie viele Kugeln im i-ten Fach sind für i = 1, ..., n. Beispiel 2.8: In der Praxis findet dieses Modell etwa Verwendung, wenn k Kunden sich an n Schaltern anstellen und man nachher die Auslastung der einzelnen Schalter betrachten will. Jetzt wollen wir #ΩIV bestimmen. Auch dazu konstruieren wir wieder eine geeignete Abbildung in einen Raum, dessen Kardinalität wir bereits kennen. Wir betrachten die Menge aller Folgen der Zahlen 0 und 1 der Länge n + k − 1. Wir betrachten jetzt 0 als eine Kugel und 1 als die Markierung für nächstes Fach“. Unter dieser Identifikation wird etwa das ” Ergebnis (3, 0, 2, 4, 0, 1) aus Beispiel 2.7 zur Folge 000110010000110 Wollen wir eine Bijektion zwischen ΩIV und einer Teilmenge von {(ai , ..., an ) | ai ∈ {0, 1} für i = 1, ..., n} erhalten, so muss jede der Folgen genau n − 1 1en und k 0en enthalten. Unter dieser Bedingung erhalten wir offenbar eine Bijektion! Eine Folge der Länge n + k − 1 mit genau n − 1 1en und k 0en ist aber bereits eindeutig durch die Auswahl der Positionen der k 0en (also Kugeln) eindeutig bestimmt - die anderen Positionen müssen 1en sein. Daher ist n+k−1 #ΩIV = # {T ⊂ {1, ..., n + k − 1} | #T = k} = k wie oben berechnet. In Beispiel 2.7 ergibt sich also 15! 10 + 6 − 1 #ΩIV = = = 3003 10 10!(15 − 10)! Wenn wir die Laplace-Verteilung annehmen, dann hat entsprechend jede Konfiguration die Wahrscheinlichkeit 1 P (k1 , k2 , ..., kn ) = ≈ 0, 00033 #ΩIV 2.9 Definition: Wir definieren den Multinomialkoeffizient als n P k! k ki = k falls k ≥ 0 ∀ 1 ≤ i ≤ n, i k1 !·k2 !·...·kn ! := i=1 k1 , k2 , ..., kn 0 sonst Bemerkung 2.10: Für den Fall k = 2 kennen wir dies bereits als den Binomialkoeffizienten. Sei k = k1 + k2 , dann gilt: k k! k! = = k1 , k2 k1 ! · k2 ! k1 !(k − k1 )! 2.11 Lemma: Die Anzahl der Möglichkeiten eine Menge A der Kardinalität k in n Teilmengen A1 , ..., An mit #Ai = ki n P ki = k zu zerlegen ist gegeben durch und i=1 k k1 , k2 , ..., kn = k! k1 ! · k2 ! · ... · kn ! 26 2 Kombinatorik Beweis: Für A1 gibt es kk1 Möglichkeiten, Elemente auszuwählen. Dann ist #(A \ A1 ) = k − k1 und es gibt für 1 Möglichkeiten, Elemente auszuwählen. Für A3 bleiben k−kk13−k2 Möglichkeiten usw.. A2 nur noch k−k k2 Die Gesamtzahl der Möglichkeiten A in Teilmengen der Größe k1 , ..., kn zu zerlegen beträgt also k k − k1 − k2 − ... − kn−1 k − k1 − k2 k − k1 · ... · · · kn k3 k2 k1 k! (k − k1 )! (k − k1 − k2 )! kn = · · · ... · k1 !(k − k1 )! k2 !((k − k1 − k2 )! k3 !(k − k1 − k2 − k3 )! kn = k! k1 ! · k2 ! · ... · kn ! Das zeigt die Behauptung. Beispiel 2.12 (zum Vergleich zu Beispiel 2.7): Wir wollen nun das obige Beispiel noch einmal bzgl. des Grundraums ΩI = {(a1 , ..., ak ) | ai ∈ 1, ..., n für 1 ≤ i ≤ k} und der Laplace-Verteilung betrachten. Es werden 10 von 1 bis 10 nummerierte Kugeln auf 6 Fächer verteilt. ai ist das Fach der i-ten Kugel. Sei Ak1 ,k2 ,...,k6 = {(a1 , ..., a6 ) | genau k1 der ai ’s sind 1, k2 der ai ’s sind 2, ..., kn der ai ’s sind 6} Laut Lemma 2.11 ist #Ak1 ,...,k6 = und daher gilt P (Ak1 ,k2 ,...,kn ) = k k1 , ..., k6 1 k! · nk k1 ! · ... · kn ! (2.2) Einsetzen in (2.2) liefert nun P (A3,0,2,4,0,1 ) = P (A10,0,0,0,0,0 ) = P (A2,2,2,2,1,1 ) = 10! 1 · ≈ 0, 0002 61 0 4! · 0! · 2! · 3! · 0! · 1! 1 10! · ≈ 0, 000000017 610 10! 1 10! · ≈ 0, 0037 10 6 2! · 2! · 2! · 2! · 1! · 1! Trotzdem: Gewisse Elementarteilchen (Bosonen) verteilen sich auf verschiedene Energiezustände gemäß der Laplace-Verteilung auf ΩIV . 2.1 Binomial- und Hypergeometrische Verteilung Wir betrachten eine Urne mit N Kugeln, wobei R rote Kugeln und N − R weiße Kugeln enthalten sind. Daraus wird eine Stichprobe im Umfang von n Kugeln auf 2 Arten (mit und ohne Zurücklegen) gezogen. Gesucht ist die Wahrscheinlichkeit genau r rote Kugeln zu ziehen. 2.1.1 Ziehen mit Zurücklegen (Binomialverteilung) Gegeben sei ΩI = {(a1 , a2 , ..., an ) | 1 ≤ ai ≤ N } mit der Laplace-Verteilung. Es seien die Kugeln 1, 2, ..., R die roten Kugeln. Gesucht ist P (Er ), wobei Er = {(a1 , a2 , ...an ) | #{i | ai ∈ {1, 2, ..., R}} = r} Er entspricht den r roten Kugeln, anders gesagt den r Erfolgen“. ” Wir wollen nun #Er bestimmen: Sie I ⊂ {1, 2, ..., n} die Indexmenge der Ziehungen, bei denen eine rote Kugel gezogen wurde. Dann ist Er die disjunkte Vereinigung aller Ereignisse EI = {(a1 , a2 , ..., an ) | ai ∈ {1, 2, ..., R} ⇔ i ∈ I} 2 Kombinatorik 27 über alle r-elementigen Teilmengen I ⊂ {1, 2, ..., n}. Für festes I ist und es gibt n r #EI = Rr · (N − R)n−r Teilmengen I ⊂ {1, 2, ..., n} mit #I = r. Damit ist n−r #Er R 1 n n R · 1− = n· · Rr · (N − R)n−r = · #ΩI N N N r r P (Er ) = 2.13 Definition (Binomialverteilung): Für p ∈ [0, 1] und n ∈ N heißt n j binn,p (j) = b(n, p, j) = p (1 − p)n−j , j 0≤j≤n die Binomialverteilung mit Erfolgswahrscheinlichkeit p und Stichprobenumfang n. Beispiel 2.14 (Münzwurf ): n-maliges Werfen einer Münze ist wie Ziehen mit Zurücklegen aus einer Urne mit 2 Kugeln. Wir modellieren mit Hilfe der Binomialverteilung: k n−k n 1 n 1 n 1 · = P ( k mal Kopf“) = · ” 2 2 2 k k 2.1.2 Ziehen ohne Zurücklegen (Hypergeometrische Verteilung) Man zieht eine Teilmenge T von n ≤ N Kugeln. Wir betrachten den Grundraum und damit ist #ΩIII = Er N n ΩIII = {T ⊂ {1, 2, ..., N } | #T = n} . Die Kugeln 1, 2, ..., R seien rot. Hier ist = {T ⊂ {1, 2, ..., N } | # (T ∩ {1, ..., R}) = r, #T = n} = {T ⊂ {1, 2, ..., N } | #(T ∩ {1, 2, ..., R}) = r, #(T ∩ {R + 1, ..., N }) = n − r} −R Dabei gibt es genau Rr Teilmengen von {1,2,...,R} der Kardinalität r und Nn−r Teilmengen der Kardinalität n − r von {R + 1, ..., N }. Damit folgt R N −R #Er = · r n−r 2.15 Definition: Wir nennen #Er = hyp(r, n, R, N ) := P (Er ) = #ΩIII R r · N −R n−r N n die hypergeometrische Verteilung zu den Parametern n, N und R. Beispiel 2.16 (Skat): Beim Skatspiel gibt es 32 Karten, darunter 4 Asse. 3 Spieler bekommen je 10 Karten. Es ist die Wahrscheinlichkeit für das Ereignis Spieler 1 bekommt 3 Asse“ gesucht. ” Modell: 32 Kugeln, davon R=4 rote Kugeln und n= 10 Ziehungen. Gesucht: P (3 Erfolge) = P (E3 ) Wir oben gesehen berechnet man mit der hypergeometrischen Verteilung: 28 4 66 3 · 7 = P (E3 ) = hyp(3, 10, 4, 32) ≈ 0, 073 32 899 10 28 2.2 2 Kombinatorik Das Stimmzettelproblem Die Auszählung der Stimmen einer Wahl hat ergeben: Kandidat A gewinnt mit a Stimmen gegenüber Kandidat B mit b Stimmen, a > b. Gesucht ist die Wahrscheinlichkeit des Ereignisses 2.17 Satz: Wenn a > b, so ist E:= A liegt während der gesamten Auszählung in Führung“. ” P (E) = und hängt damit nur vom Quotienten b a 1− 1+ b a b a ab. Beweis: Wir stellen die Auszählung der Stimmzettel als Pfad da. Der Pfad “B,B,A,A,A,B,A,A,B“ entspräche dann also der Auszählung Stimmen für A erste Stimme für B, zweite Stimme für B, dritte Stimme für A usw. “ ” Graphisch kann man sich diesen beispielhaften Pfad wie folgt verdeutlichen: 5 4 3 2 1 0 0 1 2 3 4 5 Stimmen für B Abbildung 1: Der Auszählungspfad B,B,A,A,A,B,A,A,B“ ” Wir betrachten dazu also Ω = {Pfade von (0, 0) nach (b, a)} als Laplace-Raum. Ein Pfad aus Ω wird offenbar schon durch die Zeitpunkte der A-Stimmen eindeutig festgelegt und hat logischerweise Länge a + b, daher gilt a+b #Ω = b Wir wollen Ω jetzt disjunkt zerlegen. Sei dazu E1 = {Pfade oberhalb der Diagonalen} E2 = {Pfade durch (0, 1) , die nicht oberhalb der Diagonalen liegen} E3 = {Pfade, die durch (1, 0) verlaufen} Da jeder Pfad, welcher oberhalb der Diagonalen verläuft, automatisch durch (0, 1) verlaufen muss, gilt dann 3 X Ei Ω= i=1 2 Kombinatorik 29 A A A 2 2 2 1 1 1 0 0 1 0 B 2 0 1 0 B 2 0 1 2 B Abbildung 2: Von links nach rechts: Beispiel eines Pfades aus E1 , aus E2 und aus E3 Gesucht ist in diesem Zusammenhang natürlich P (E) = P (E1 ) = #E1 #Ω und wir können #E1 über #E1 = #Ω − #E2 − #E3 berechnen. Die Kardinalität #E3 von E3 ist offenbar a+b−1 #E3 = = Anzahl der Pfade der Länge a + b − 1 von (1, 0) nach (b, a) a da jeder Pfad aus E1 genau eins kürzer ist als ein Pfad aus Ω. Jetzt verwenden wir folgendes 2.18 Lemma (Spiegelungsprinzip): Falls a > b, so gilt #E2 = #E3 Beweis: Da a > b ist, muss jeder Pfad aus E3 mindestens einmal die Diagonale schneiden (er beginnt ja schließlich bei (1, 0)!). Sei (c, d) der erste Schnittpunkt des Pfades mit der Diagonalen. Jetzt spiegeln wir den Teilpfad von (0, 0) nach (c, d) an der Diagonalen und erhalten insgesamt einen Pfad aus E2 . A A 2 2 1 =⇒ 1 0 0 1 2 0 B 0 1 2 B Abbildung 3: Verdeutlichung des Spiegelungsprinzips Diese Abbildung ist offenbar bijektiv. Damit folgt dann sofort #E1 = #Ω − 2#E3 = Daraus folgt #E P (E) = #Ω a+b a+b−1 −2 b a 2 = 1− = 1−2 = 1−2 = = und das zeigt die Behauptung. a+b−1 a a+b a (a + b − 1)!a!b! a! (b − 1)! (a + b)! b a+b a + b − 2b a+b 1− a−b = a+b 1+ b a b a 30 2 Kombinatorik Beispiel 2.19: Wir betrachten die Wahlergebnisse a = 100 und b = 50 (2.3) a = 200 und b = 100. (2.4) In beiden Fällen ist b 1 = a 2 und damit sagt uns obiger Satz, dass die Wahrscheinlichkeit, dass der siegende Kandidat A während der gesamten Auszählung in Führung lag, in beiden Fällen (2.3) und (2.4) bei P (E) = liegt. 1− 1+ 1 2 1 2 = 1 3 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 3 3.1 31 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente Unabhängigkeit Wir beginnen mit einem motivierenden Beispiel. Beispiel 3.1: Man betrachtet das Werfen zweier Würfel und die Ereignisse A = Augensumme ist gerade“ ” B = Mindestens eine 6“ ” Wir fragen uns hier, ob das Eintreten von B die Wahrscheinlichkeit des Eintretens von A beeinflusst. Dazu simulieren wir n = 10.000 Würfe mit zwei Würfeln und erhalten in unserer Simulation, dass das Ereignis A hA = 5069 mal, das Ereignis B hb = 3061 mal und das Ereignis A ∩ B (also A und B gleichzeitig) genau hA∩B = 1386 mal eintritt. Wenn B keinen Einfluss“ auf das Eintreten von A hat, so sollte ” hA hA∩B ≈ n hB gelten. Wir können diese Aussage auf relative Häufigkeiten umformen: hA∩B hA hB ≈ · . n n n Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert nun die folgende 3.2 Definition: Sei (Ω, P ) eine Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ⊂ Ω heißen unabhängig, falls P (A ∩ B) = P (A) · P (B) gilt. Beispiel 3.3: Im Beispiel 3.1 oben vermutet man dann nach der Simulation, dass A und B nicht unabhängig sind, denn hA hB hA∩B = 0.1386 6= 0.155 ≈ · . n n n 2 Um diese Aussage anhand der Definition nachzuprüfen betrachtet man Ω = {1, 2, 3, 4, 5, 6} als LaplaceRaum und hat damit A = {(1, 1) , (1, 3) , (1, 5) , (2, 2) , ..., (6, 6)} , B = {(1, 6) , ..., (6, 6) , (6, 1) , ..., (6, 5)} . Also gilt #A = 18 und #B = 11. Das liefert P (A) = 11 1 und P (B) = . 2 36 Jetzt berechnet man noch A ∩ B = {(2, 6) , (4, 6) , (6, 6) , (6, 2) , (6, 4)} und hat damit #A ∩ B 5 11 1 11 = 6= = · = P (A) · P (B) . #Ω 36 78 2 36 Die angegebenen Ereignisse A und B sind also in der Tat abhängig. P (A ∩ B) = Beispiel 3.4: Betrachte wieder das Setting aus Beispiel 3.1 und das zusätzliche Ereignis C = Der erste Wurf ist eine 6“ ” Wir wollen zeigen, dass A und C unabhängig sind. Dazu berechnen wir P (A ∩ C) = P ({(6, 2), (6, 4), (6, 6)}) = was diese Aussage zeigt. 1 1 1 3 = = · = P (A) · P (C) , 36 12 2 6 32 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente Beispiel 3.5: Wir betrachten eine Urne mit drei von 1 bis 3 nummerierten Kugeln, davon seien die Kugeln 1 und 2 rot und Kugel 3 weiß. Wir wollen zwei Ziehungen durchführen und betrachten die Ereignisse A = B erster Zug rot“ ” = zweiter Zug weiß“ ” Ziehen wir mit Zurücklegen, so ist offenbar Ω = {(i, j) | 1 ≤ i, j ≤ 3} und daher #Ω = 9. Das liefert P (A) = 1 2 2 2 , P (B) = , P (A ∩ B) = P ({(1, 3) , (2, 3)}) = = = P (A) · P (B) . 3 3 #Ω 9 Mit Zurücklegen sind A und B also unabhängig. Ziehen wir ohne Zurücklegen, so ist offenbar Ω = {(i, j) | 1 ≤ i, j ≤ 3, i 6= j} und daher #Ω = 6. Das liefert P (A) = 2 , 3 P (B) = P ({(1, 3) , (2, 3)}) = P (A ∩ B) = P ({(1, 3) , (2, 3)}) = 2 1 = , #Ω 3 2 2 = 6= P (A) · P (B) . #Ω 6 Ohne Zurücklegen sind A und B also abhängig! Bemerkung 3.6: Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A, B ⊂ Ω zwei Ereignisse mit A ∩ B = ∅. Dann können A und B offenbar nur dann unabhängig sein, wenn 0 = P (A ∩ B) = P (A) · P (B) , d.h. wenn entweder P (A) = 0 oder P (B) = 0 gilt. Jetzt wollen wir unsere Definition auf n Ereignisse A1 , ..., An ⊂ Ω des Wahrscheinlichkeitsraumes (Ω, P ) verallgemeinern. Wir definieren dazu wie folgt: 3.7 Definition: Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω Ereignisse. Wir nennen A1 , ..., An unabhängig, falls für jede Auswahl von k Indizes i ≤ i1 < ... < ik ≤ n, 1 ≤ k ≤ n beliebig, die Gleichung k k Y \ P Aij Aij = P j=1 j=1 gilt. Diese Definition mag zunächst etwas unintuitiv erscheinen, sie ermöglicht aber folgendes 3.8 Lemma: Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω unabhängige Ereignisse. (1) Für jede Auswahl 1 ≤ k ≤ n und 1 ≤ i1 < ... < ik ≤ n beliebig ist dann auch die entstehende Teilfamilie Ai1 , ..., Aik unabhängig. (2) Sei Bi = Ai oder Bi = Aci für jedes 1 ≤ i ≤ n. Dann sind auch die Ereignisse B1 , ..., Bn unabhängig. Beweis: (1) Diese Aussage ist mit der Definition sofort klar. (2) Offenbar genügt es zu zeigen, dass die Ereignisse Ac1 , A2 , ..., An ebenfalls unabhängig sind. Den allgemeinen Fall erhalten wir daraus durch iteriertes Anwenden und Umbennenen (das genaue Vorgehen dafür kann man etwa bei [Dehling/Haupt] nachlesen.). Wir wollen die offenbar gültige Gleichung P (Ac ∩ B) = P (B) − P (A ∩ B) (3.1) 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 33 nutzen. Seien nun 1 ≤ i1 < ... < ik ≤ n vorgegeben. Ist i1 > 1, so ist in unserem Setting nichts zu zeigen. Ist i1 = 1, so gilt (3.1) P (Ac1 ∩ ... ∩ Aik ) P (Ai2 ∩ ... ∩ Aik ) − P (A1 ∩ Ai2 ∩ ... ∩ Aik ) = Unabhängigkeit von A1 ,Ai2 ,...,Aik = P (Ai2 ) · ... · P (Aik ) − P (A1 ) · ... · P (Aik ) = (1 − P (A1 )) P (Ac1 ) · = k Y k Y P Aij j=2 P Aij j=2 was die Behauptung zeigt. Im Beweis des Lemmas haben wir schon gesehen, wieso wir in unserer Definition nicht nur die Unabhängigkeit aller Teilfamilien gefordert haben. Folgendes Beispiel zeigt, wie gravierend der Unterschied ist: Beispiel 3.9 (Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit): 3 Wir betrachten de dreifachen Münzwurf, also Ω = {K, Z} mit der Laplace-Verteilung. Wir betrachten die Ereignisse A1 A2 A3 Scheinbar ist dann P (A1 ) = = erster Wurf = zweiter Wurf“ ” = zweiter Wurf = dritter Wurf“ ” = erster Wurf = dritter Wurf“ ” 4 1 # {KKK, KKZ, ZZZ, ZZK} = = #Ω 8 2 und ganz analog P (A2 ) = P (A3 ) = 21 . Jetzt berechnen wir die Wahrscheinlichkeiten der Schnitte: P (A1 ∩ A2 ) = Wegen 1 2 · 1 2 = 1 4 # {KKK, ZZZ} 1 = = P (A1 ∩ A3 ) = P (A2 ∩ A3 ) . #Ω 4 sind also A1 , A2 und A3 paarweise unabhängig. Da aber P (A1 ∩ A2 ∩ A3 ) = P ({KKK, ZZZ}) = P (A1 ∩ A2 ) = P (A1 ∩ A3 ) = P (A2 ∩ A3 ) = 1 1 1 1 6= · · 4 2 2 2 sind die Ereignisse A1 , A2 und A3 insgesamt nicht unabhängig. Das ergibt anschaulich auch Sinn, schließlich erzwingt das Eintreten von A1 und A2 bereits das Eintreten von A3 und umgekehrt. 3.2 Bedingte Wahrscheinlichkeiten Bei n Versuchen trete das Ereignis A ∩ B mit Häufigkeit hA∩B und das Ereignis B mit Häufigkeit hB 6= 0 auf. Anschaulich ist dann die relative Häufigkeit des Auftretens von A, gegeben B tritt auf“ ” gegeben als hA∩B = hB hA∩B n hB n in relativen Häufigkeiten. Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert uns jetzt folgende 3.10 Definition: Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A, B ⊂ Ω Ereignisse. Ist P (B) > 0, so ist P (A | B) := P (A ∩ B) P (B) die bedingte Wahrscheinlichkeit des Auftretens von A gegeben B. 34 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente Beispiel 3.11: Wir Würfeln einfach mit einem fairen Würfel. Dazu verwenden wir Ω = {1, 2, 3, 4, 5, 6} mit der LaplaceVerteilung. Sei A = {4, 5, 6} und B = {2, 4, 6}. Dann ist P (A) = P (B) = 1 2 und 1 . 3 P (A ∩ B) = P ({4, 6}) = Das liefert P (A | B) = 2 3 mit der Definition. Anschaulich ergibt diese Aussage auch Sinn: Wenn man schon weiß, dass eine gerade Zahl gewürfelt wurde, so ist die Wahrscheinlichkeit, dass der Wurf ≥ 4 ist, genau 23 . Beispiel 3.12: Wir betrachten eine Familie mit zwei Kindern. Als Grundraum verwenden wir Ω = {JJ, JM, M J, M M } mit der Laplace-Verteilung. Wir wollen nun die Wahrscheinlichkeit dafür ausrechnen, dass die Familie zwei Jungen hat, wenn schon gegeben ist, dass sie mindestens einen Jungen hat. Seien also A := {JJ} B := {JJ, JM, M J} . Dann ist A ∩ B = {JJ} und daher gilt P ( 2 Jungen“ | mindestens 1 Junge“) = P (A | B) = ” ” 1 P (A ∩ B) = . P (B) 3 3.13 Satz (Multiplikationsformel): Sei (Ω, P ) ein Wahrscheinlichkeitsraum. (1) Sind zwei Ereignisse A, B ⊂ Ω gegeben, so gilt P (A ∩ B) = P (A | B) · P (B) . (2) Sind n Ereignisse A1 , ..., An ⊂ Ω gegeben, so gilt P (A1 ∩ ... ∩ An ) = P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) · ... · P Beweis: (1) Es gilt per Definition P (A | B) · P (B) = n−1 \ Ai An i=1 ! P (A ∩ B) · P (B) = P (A ∩ B) . P (B) (2) Einsetzen der Definition liefert P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) · ... · P = P (A1 ) · = P (A1 ) · n Y k=2 n Y k=2 k−1 \ Aj P Ak j=1 k T P = P (A1 ) · k=2 ! Aj j=1 P k−1 T j=1 n Y P k \ j=1 Aj ! Aj · n Y k=2 1 P k−1 T j=1 Aj ! n−1 \ Ai An i=1 ! . 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente = P (A1 ) · n Y k=2 P = P (A1 ) · P = P Das zeigt die Behauptung. n \ j=1 k \ j=1 n \ j=1 Aj · n−1 Y k=1 35 1 P k T Aj j=1 ! 1 P (A1 ) Aj · Aj . Beispiel 3.14: Wir wollen die Wahrscheinlichkeit berechnen, dass bei Skat jeder der drei Spieler genau ein Ass erhält. Sei dazu Ai := der i-te Spieler hat genau ein Ass“ für i = 1, 2, 3 ” Mit der hypergeometrischen Verteilung sieht man schnell 3 19 2 10 4 28 P (A1 ) = 1 32 10 9 , P (A2 | A1 ) = 1 22 10 9 , P (A3 | A1 ∩ A2 ) = 1 12 10 Mittels der Multiplikationsformel erhalten wir so die gesuchte Wahrscheinlichkeit: P (A1 ∩ A2 ∩ A3 ) = P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) = 385 3 10 50 · · = . 899 7 33 899 3.15 Satz: Sei (Ω, P ) ein Wahrscheinlichkeitsraum und P (B) > 0. Dann definieren wir durch PB (A) := P (A | B) , A ⊂ Ω eine Wahrscheinlichkeitsverteilung auf Ω. Beweis: Wir müssen die Axiome (A1) bis (A3) nachprüfen: (A1) Sei A ⊆ Ω beliebig. Da P eine Wahrscheinlichkeitsverteilung auf Ω ist, gilt PB (A) = P (A | B) = P (A ∩ B) ≥ 0. P (B) (A2) Offenbar ist PB (Ω) = P (Ω | B) = P (Ω ∩ B) P (B) = = 1. P (B) P (B) (A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann gilt PB ∞ X i=1 Ai ! = P ∞ X i=1 P = Ai P (B) P (A3) für P ∞ P i=1 = = Ai | B ∞ P i=1 ! ∩B 9 . (Ai ∩ B) P (B) ∞ ∞ X P (Ai ∩ B) X PB (Ai ) . = P (B) i=1 i=1 36 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente Das zeigt die Behauptung. Bemerkung 3.16: Damit gelten die Rechenregeln (R1) bis (R9) auch für PB , d.h. zum Beispiel P (Ac | B) = PB (Ac ) = 1 − PB (A) = 1 − P (A | B) für zwei Ereignisse A, B ⊂ Ω, P (B) > 0 usw.. Bemerkung 3.17: Die Wahrscheinlichkeitsfunktion pB zu PB ist offenbar gegeben als ( P ({ω}) P ({ω} ∩ B) falls ω ∈ B P (B) , = pB (ω) = PB ({ω}) = P (B) 0 falls ω ∈ /B ω ∈ A. Beispiel 3.18: 2 Wir würfeln zweifach mit einem fairen Würfel. Dazu nutzen wir wieder Ω = {1, 2, 3, 4, 5, 6} als Grundraum mit der Laplace-Verteilung. Betrachte das Ereignis B = Augensumme ist ≥ 10 ” ” Dann ist P (B) = durch den Vektor 6 36 = 1 36 und die Wahrscheinlichkeitsfunktion pB auf der Menge der Augensummen ist 3 2 1 (pB (2) , pB (3) , ..., pB (12)) = 0, 0, 0, 0, 0, 0, 0, 0, , , 6 6 6 gegeben. 3.19 Satz: Sei (Ω, P ) ein Wahrscheinlichkeitsraum. (1) (Formel von der totalen Wahrscheinlichkeit) Sei Bi , i ∈ I eine abzählbar unendliche oder endliche disjunkte Zerlegung von Ω. Dann gilt für alle A ⊂ Ω die Formel X P (A) = P (Bi ) · P (A | Bi ) (3.2) i∈I (2) (Formel von Bayes) Seien die Voraussetzungen wie in (1). Ist P (A) > 0, so gilt für jedes k ∈ I: P (A | Bk ) · P (Bk ) P (Bk | A) = P P (A | Bi ) · P (Bi ) (3.3) i∈I Beweis: (1) Mit der Mulitplikationsformel gilt P (A) P i∈I Bi =Ω = = P P A∩ X i∈I Bi ∩Bj =∅ für i6=j = X i∈I Multiplikationsformel = X i∈I was die Aussage zeigt. X !! Bi i∈I ! (A ∩ Bi ) P (A ∩ Bi ) P (A | Bi ) · P (Bi ) 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 37 (2) Hier folgt unter Benutzung von (1): P (Bk | A) = P (Bk ∩ A) P (A) = P (A ∩ Bk ) P (A) Multiplikationsformel = P (A | Bk ) · P (Bk ) P (A) P (A | Bk ) · P (Bk ) P . P (A | Bi ) · P (Bi ) (3.2) = i∈I Das zeigt ebenfalls die Behauptung. Beispiel 3.20: Eine Krankheit tritt bei 0.5% der Bevölkerung auf. Ein Test ist bei 99% der Kranken positiv, aber auch bei 2% der Gesunden. Gesucht ist die Wahrscheinlichkeit bei positivem Testergebnis die Krankheit zu haben. Betrachte nun folgendes Modell: Sei Ω die Bevölkerung und P die Laplace-Verteilung. Sei weiterhin B1 die Menge der gesunden Menschen, B2 die der kranken Menschen und A die Menge der Menschen mit positivem Testergebnis . Dann ist Ω = B1 ∪ B2 mit B1 ∩ B2 = ∅. P (B1 ) = 0.995 P (B2 ) = 0.005 P (A|B1 ) = 0.02 P (A|B2 ) = 0.99 Mit der Formel von Bayes berechnet man P (B2 |A) = P (A|B2 ) · P (B2 ) 2 P P (A|Bi ) · P (Bi ) i=1 = P (A|B2 ) · P (B2 ) P (A|B1) · P (B1 ) + P (A|B2 ) · P (B2 ) 0.99 · 0.005 0.02 · 0.995 + 0.99 · 0.005 ≈ 0.2 = Das bedeutet, im Fall eines postitiven Test ist man nur mit einer Wahrscheinlichkeit von 20% wirklich erkrankt. Beispiel 3.21 (Simpson-Paradoxon): Im Folgenden werden wir ein Beispiel aus dem Bereich How to lie with statistics“ geben, d.h. es wird eine ” Aussage mit Daten belegt (wir werden hier vereinfachte Werte verwenden) die offensichtlich zu stimmen scheint. Bei genauerer Betrachtung und unter Berücksichtigung aller Werte im Detail ergibt sich jedoch genau die gegenteilige Aussage: University of Berkeley: In einem Jahr haben sich 1200 Männer und 900 Frauen um einen Studienplatz beworben. Zugelassen wurden 55% der Männer und nur 48, 9% der Frauen. Offensichtlich wurden die Männer bevorzugt, oder nicht? Eine genauere Betrachtung der Daten zeigt, dass es Bewerbungen in zwei Fächern A und B gab. Fach A Fach B Summe Männer beworben zugelassen 900 540=60% 300 120=40% 1200 660=55% Frauen beworben zugelassen 100 80=80% 800 360=45% 900 440=48,8% Die Frauen wurden also in jedem Fach bevorzugt! Dies können wir auch mit bedingten Wahrscheinlichkeiten nachrechnen: Seien Zm =“zugelassene Männer“, Am =“Bewerber Fach A“ und Bm =“Bewerber Fach B“. Dann gilt 38 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente nach dem Satz der totalen Wahrscheinlichkeit: P (Zm ) = P (Zm |Am ) · P (Am ) + P (Zm |Bm ) · P (Bm ) = 0.6 · 0.75 + 0.4 · 0.25 = 0.55 Seien nun entsprechend Zf =“zugelassene Frauen“, Af =“Bewerberinnen Fach A“ und Bf =“Bewerberinnen Fach B“. P (Zf ) = P (Zf |Af ) · P (Af ) + P (Zf |Bf ) · P (Bf ) = = 1 8 + 0.45 · 9 9 0.488 0.8 · Das Ergebnis kommt zustande, da sich anteilig viel mehr Männer als Frauen in Fach A beworben haben, wobei dort die Zulassung einfacher zu erringen war. Andererseits haben sich wesentlich mehr Frauen für Fach B entschieden, wo die Zulassung nur schwer zu erringen ist. 3.3 Mehrstufige Experimente Wir betrachten aufeinanderfolgende Experimente, bei denen die Ergebnisse der ausgeführten Experimente die Wahrscheinlichkeiten für den Ausgang des nächsten Experiments bestimmen. Sei p1 der Wahrscheinlichkeitsvektor für die Ausgänge des ersten Experiments. Beim Ausgang a1 ∈ Ω1 ist jeweils p2 ( · |a1 ) ein Wahrscheinlichkeitsvektor für die Ausgänge des zweiten Experiments. Beispiel 3.22 (zweistufiges Zufallsexperiment): In einer Urne befinden sich 3 Kugeln, davon sind zwei rot und eine ist weiß. Wir ziehen zwei Mal ohne Zurücklegen. In der ersten Ziehung erhält man mit einer Wahrscheinlichkeit von 23 eine rote Kugel und mit einer Wahrscheinlichkeit von 13 eine weiße Kugel, d.h. p1 (R) = 2 , 3 p1 (W ) = 1 . 3 In der zweiten Ziehung kann, wenn zuerst rot gezogen wurde, entweder rot oder weiß jeweils mit der Wahrscheinlichkeit 12 gezogen werden oder wenn zu Beginn die weiße Kugel gezogen wurde, mit Sicherheit nun eine rote Kugel gezogen werden. Das heißt p2 (R, R) = 1 , 2 p2 (R, W ) = 1 2 bzw. p2 (R, W ) = 1, p2 (W, W ) = 0. Der Grundraum des 2-stufigen Modells ist Ω = Ω1 × Ω2 = {(a1 , a2 ) | ai ∈ Ωi } mit der Wahrscheinlichkeitsfunktion p(a1 , a2 ) := p(a1 ) · p2 (a2 |a1 ). Das heißt p(a1 , a2 ) ist das Produkt der Wahrscheinlichkeiten im Baumdiagramm entlang des Pfades: START → a1 → a2 . Im Bsp.: p(R|W ) = p1 (R) · p2 (W |R) = 2 1 1 · = . 3 2 3 Bemerkung 3.23: Für Teilmengen A ⊆ Ω, welche einer Menge von Pfaden entspricht, ist X P (A) = p1 (a1 ) · p2 (a2 |a1 ) (a1 ,a2 )∈A die Summe aller Pfadwahrscheinlichkeiten. 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 39 Beispiel 3.24: Es stehe Xi für das Ergebnis des i-ten Teilexperiments, i = 1, 2, dann gilt: 2 1 1 2 P (X2 = R) = P ( zweite Kugel ist rot“) = P (R, R) + P (W, R) = · + · 1 = ” 3 2 3 3 3.25 Definition (n-stufiges Experiment): Seien Ω1 , Ω2 , ..., Ωn diskrete Grundräume. Sei p1 eine Wahrscheinlichkeitsfunktion auf Ω1 (Startwahrscheinlichkeit). Für jedes a1 ∈ Ω1 sei eine Wahrscheinlichkeitsfunktion p2 (a2 |a1 ) auf den Ausgang des zweiten Teilexperiments gegeben. Allgemein: Für jede Folge von Ausgängen a1 , a2 , ..., aj−1 mit ai ∈ Ωi , 1 ≤ i ≤ j − 1 der ersten j-1 Teilexperimente ist eine Wahrscheinlichkeitsfunktion pj (aj |a1 , ...aj−1 ) auf den Ausgängen aj ∈ Ωj gegeben. Für einen Pfad (a1 , ..., an ) ∈ Ω1 × ... × Ωn setzt man p(a1 , ..., an ) = p1 (a1 ) · p2 (a2 |a1 ) · . . . · pn (an |a1 , ..., an−1 ). Dann ist p eine Wahrscheinlichkeitsfunktion auf Ω = Ω1 × ... × Ωn und definiert eine Wahrscheinlichkeitsverteilung P über X P (A) := p(a1 , ..., an ), A ⊆ Ω. (a1 ,...,an )∈A P ist dann die Verteilung des mehrstufigen Experiments. Beispiel 3.26 (Polya’sches Urnenmodell): In diesem Modell, das ursprünglich dazu gedacht war, die Ausbreitung von Krankheiten zu simulieren, enthält eine Urne r rote und s schwarze Kugeln. Eine Kugel wird gezogen, dann wird zurückgelegt mit c ∈ Z zusätzlichen Kugeln der gleichen Farbe. Das heißt für c = −1 entspricht dies dem Ziehen ohne Zurücklegen und für c = 0 dem Ziehen mit Zurücklegen. Ein graphisches Beispiel: }}} + }2 3 } }}} }3 4 } } }}} A 1 A4 } A A AU }} }}} Q Q Q 1 3 Q Q } Q QQ s } }}} }1 2 }} }}} A 1 A2 } A A AU }} }}} Abbildung 4: Polya’sches Urnenmodell mit c = 1, r = 2, s = 1. Dann ist 2 3 1 1 2 · + · = = P (X1 = R) 3 4 3 2 3 Wir wollen nun zeigen, dass unabhängig vom gewählten c immer gilt: Die Wahrscheinlichkeit für 2.Kugel ” ist rot“ ist immer gleich der Wahrscheinlichkeit für 1.Kugel ist rot“: ” Beweis: Es sind s r , p1 (S) = p1 (R) = r+s r+s r+c s p2 (R|R) = , p2 (S|R) = r+s+c r+s+c P (X2 = R) = 40 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente Damit ist P (X2 = R) = P (R, R) + P (S, R) r r+c s r · + · r+s r+s+c r+s r+s+c s r+c r · + r+s r+s+c r+s+c r r+s = = = = P (X1 = R). Man berechnet p(R, S, R, R) = p1 (R) · p2 (S|R) · p3 (R|RS) · p4 (R|RSR) = s r+c r + 2c r · · · r + s r + s + c r + s + 2c r + s + 3c Bemerkung 3.27: Man beobachtet also: Ist (a1 , ..., an ) eine Ergebnis-Folge mit k roten Ziehungen (# {i | ai = R} = k) so ist p(a1 , ..., an ) = n−1 Y i=0 1 r + s + ic k−1 n−k−1 Y Y (s + ic) . (k + ic) · · i=0 i=0 Das heißt die Wahrscheinlichkeit von (a1 , ..., an ) hängt nur von der Anzahl gezogener Kugeln ab, nicht von der Reihenfolge. Daher gilt p(aτ (1) , ..., aτ (n) ) = p(a1 , ..., an ) für jede Permutation τ von {1, ..., n}. Solche Verteilungen nennt man auch austauschbar. Aufgabe 3.28: Zeige damit P (Xj = R) = 3.3.1 r für alle j = 1, 2, ... r+s Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen (1) Ist Ω1 × ... × Ωn ein mehrstufiges Modell mit Übergangswahrscheinlichkeiten pj (aj | a1 , ..., aj−1 ) , 1≤j≤n so setzen wir (b1 , ..., bk ) := {(a1 , ..., an ) | ai = bi für 1 ≤ i ≤ k} als die Menge aller Pfade, die mit b1 , ..., bk beginnen fest. Dann gilt: P (b1 , ..., bk ) = p1 (b1 ) · p2 (b2 | b1 ) · ... · pk (bk | b1 , ..., bk ) Beweis: Wir zeigen nur den Fall n = 2, k = 1, die anderen Fälle überlegt man sich analog (wobei der Beweis dann sehr Index-lastig wird). Es gilt P (b1 ) = P ({b1 } × Ω) X p (b1 , a2 ) = a2 ∈Ω2 = X a2 ∈Ω2 p1 (b1 ) · p2 (a2 | b1 ) = p1 (b1 ) · X a2 ∈Ω2 | p2 (a2 | b1 ) {z =1 } da p2 eine Wahrscheinlichkeitsfunktion ist. Das zeigt schon die Behauptung. 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 41 (2) Ganz analog gilt P (bk+1 , ..., bn | b1 , ..., bk ) = pk+1 (bk+1 | b1 , ..., bk ) · pk+2 (bk+2 | b1 , ..., bk+1 ) · ... · pn (bn | b1 , ..., bn−1 ) Beweis: Wir zeigen wieder nur den Fall n = 2, k = 1. Dort gilt P (b2 | b1 ) = p (b1 , b2 ) p (b1 ) = p1 (b1 ) p2 (b2 | b1 ) p1 (b1 ) = p2 (b2 | b1 ) . Teil (1) Das zeigt die Behauptung. Beispiel 3.29 (Ziehen aus zufälliger Urne): Wir betrachten vier Urnen U1 , U2 , U3 , U4 . Jede der Urnen enthalte drei Kugeln, wobei Ui genau i − 1 rote und 3 − (i − 1) schwarze Kugeln enthalte. Unser mehrstufiges Experiment sieht jetzt wie folgt aus: Schritt 1 Wähle rein zufällig eine Urne. Schritt 2 Ziehe eine Kugel und notiere die Farbe. Dieses Experiment gestaltet sich etwa so: START P J PPP 1 PP 4 J 1 1 P PP 4 J4 PP PP J q ) J J ^ A } } } A } } } A A A } } } A } } } U1 - Urne 1 U4 - Urne 4 A A A A U2 - Urne 2 U3 - Urne 3 A A A A 1 0 A1 A0 A A 2 2 1 1 A A 3 3 A3 A3 A A A A U A AU A A } } } } AU AU } }} } 1 4 Abbildung 5: Ziehen aus zufälliger Urne“ ” Es ist also Ω1 = {1, 2, 3, 4}, wobei die Zahl i ∈ Ω1 dann einfach der Nummer der Urne im ersten Schritt entspricht. Wir sehen sofort, dass 1 p1 (1) = ... = p1 (4) = . 4 Weiter verwenden wir Ω2 = {R, S} was der Farbe der im zweiten Schritt gezogenen Kugel entsprechen soll. Da die Urne U1 keine roten Kugeln enthält, ist also p2 (R | 1) = 0 und p2 (S | 1) = 1. Ganz analog enthält die Urne U2 eine rote und zwei schwarze Kugeln, es ist also p2 (R | 2) = 2 1 und p2 (S | 2) = . 3 3 Ganz analog berechnet man die anderen Werte für p2 . Wir wollen nun folgende Frage beantworten: Was kann man über die im ersten Schritt gewählte Urne aussagen, gegeben es wurde im zweiten Schritt eine rote Kugel gezogen? 42 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente Zur Beantwortung setzen wir Bi A := Urne i im ersten Schritt gewählt“, i = 1, 2, 3, 4, ” := rote Kugel im zweiten Schritt gezogen“. ” Wie oben sieht man sofort, dass P (A | B1 ) = 0, P (A | B2 ) = 1 2 , P (A | B2 ) = , P (A | B3 ) = 1. 3 3 Mit der Formel von der totalen Wahrscheinlichkeit (3.2) folgt P (A) = 4 X i=1 P (A | Bi ) · P (Bi ) = 4 X i=1 p2 (R | i) · p1 (i) = 1 . 2 Mit der Formel von Bayes (3.3) ergibt sich nun für die gesuchte Wahrscheinlichkeit P (Bk | A) (3.3) = P (Bk | A) P (A | Bk ) · P (Bk ) = 4 X i=1 P (A | Bi ) · P (Bi ) {z | =P (A) 2P (A | Bk ) · P (Bk ) | {z } = } = 14 1 P (A | Bk ) , 2 = Als Vektor gilt also (P (Bk | A))k=1,2,3,4 = k = 1, 2, 3, 4. 1 2 3 0, , , 6 6 6 Das ist die sogenannte a-posteriori-Verteilung auf den Urnennummern 1,2,3,4 zur a-priori-Verteilung 14 , 41 , 41 , 41 . Der MAP-Schätzer (MAP steht für maximum a-posteriori“) der Urnennummer k wählt das k mit maxi” malem P (Bk | A) aus - hier also k = 4. Das beantwortet“ die obige Frage. ” Beispiel 3.30: Wir betrachten eine leicht geänderte Variante von Beispiel 3.29: Die Urne im ersten Schritt wird nicht ein zufällig gewählt, sondern per Münzwurf bestimmt. Wir werfen dazu drei faire Münzen und wähle die Urne, die so viele rote Kugeln enthält, wie oft Kopf“ geworfen wurde. Wegen ” 3 1 P ({ZZZ}) = , P ({KZZ, ZKZ, ZZK}) = 8 8 usw. erhalten wir also die a-priori-Verteilung 81 , 83 , 38 , 81 . Wir definieren A und Bi , i = 1, 2, 3, 4 wie im Beispiel 3.29 oben und stellen uns die selbe Frage. Offenbar ist hier P (A) = 0 · 1 1 3 2 3 1 1 + · + · +1· = 8 3 8 3 8 8 2 und wie oben gilt (P (Bk | A))k=1,2,3,4 = P (A | Bk ) · P (Bk ) 1 2 = k=1,2,3,4 1 1 1 0, , , 4 2 4 Hier würde der MAP-Schätzer also die Urne mit der Nummer k = 3 auswählen. 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 3.4 43 Produkt-Experimente und spezielle Verteilungen Für i = 1, ..., n seien (Ωi , Pi ) diskrete Wahrscheinlichkeitsräume. Die stochastisch unabhängige Ausführung mehrerer Experimente aus (Ωi , Pi ), i = 1, ..., n, wird modelliert durch Ω := Ω1 × ... × Ωn = n Y n Ωi , P := ⊗P , (3.4) i i=1 i=1 wobei die Produktverteilung P durch die Wahrscheinlichkeitsfunktion p (a1 , ..., an ) = n Y i=1 Pi ({ai }) , (a1 , ..., an ) ∈ Ω = {(b1 , ..., bn ) | bi ∈ Ωi , i = 1, ..., n} (3.5) gegeben ist. 3.31 Definition: Der Raum (Ω, P ) wie in (3.4) definiert heißt Produkt der Wahrscheinlichkeitsräume (Ωi , Pi ) , i = 1, ..., n. Bemerkung 3.32: (Ω, P ) ist selbst wieder ein Wahrscheinlichkeitsraum. Beweis: Es genügt zu zeigen, dass p wie in (3.5) eine Wahrscheinlichkeitsfunktion ist, denn offenbar ist Ω als endliches Produkt abzählbarer Mengen selbst wieder abzählbar. Das p positiv und σ-additiv ist, also die Axiome (A1) und (A3) erfüllt, ist klar, denn jedes der Pi erfüllt diese Axiome. Außerdem gilt ! n X Y X X P (Ω) = p (a1 , ..., an ) = Pk ({ak }) = 1 P1 ({a1 }) · ... · Pn ({an }) = (a1 ,...,an )∈Ω k=1 (a1 ,...,an )∈Ω und das zeigt die Behauptung. | ak ∈Ωk {z (A3) für Pk = 1 } Beispiel 3.33: Wir wollen das Produkt der Experimente Würfeln“ und Münzwurf“ bilden. Sei dazu Ω1 := {K, Z} ” ” ebenso mit der Laplace-Verteilung versehen wie Ω2 := {1, 2, 3, 4, 5, 6}. Dann ist Ω = Ω1 × Ω2 = {(a1 , a2 ) | a1 ∈ {K, Z} , a2 ∈ {1, 2, 3, 4, 5, 6}} und es gilt 1 p (a1 , a2 ) = P1 ({a1 }) · P2 ({a2 }) = | {z } | {z } 12 = 12 = 61 für alle Tupel (a1 , a2 ) ∈ Ω. Dieses Ergebnis ist natürlich ziemlich eintönig, würde man etwa eine gefälschte Münze verwenden, so wäre das Ergebnis interessanter. Bemerkung 3.34: Man kann den Produktraum (Ω, P ) auch als mehrstufiges Modell mit den Übergangswahrscheinlichkeiten pi (ai | a1 , ..., ai−1 ) = Pi ({ai }) , 1 ≤ i ≤ n, ak ∈ Ωk auffassen. Man beachte, dass diese Übergangswahrscheinlichkeiten nicht von den vorangehenden Stufen abhängen. 3.35 Definition: Für Ereignisse Ai ⊆ Ωi , 1 ≤ i ≤ n definieren wir das Produktereignis in (Ω, P ) als A := A1 × A2 × ... × An = {(a1 , ..., an ) | ai ∈ Ai , 1 ≤ i ≤ n} 44 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente Bemerkung 3.36: Dann gilt P (A) = n Y Pk (Ak ) k=1 Beweis: Es ist P (A) = Definition = P (A1 × ... × An ) X p (a1 , ..., an ) (a1 ,...,an )∈A X = n Y (a1 ,...,an )∈A k=1 = n Y k=1 = n Y X ak ∈Ak Pk ({ak }) Pk ({ak }) ! Pk (Ak ) , k=1 was die Behauptung zeigt. 3.37 Satz: Seien Ai ⊆ Ωi Ereignisse. Setze A∗k := {(a1 , ..., an ) ∈ Ω | ak ∈ Ak } für 1 ≤ k ≤ n. Für das Produktexperiment (Ω, P ) wie in (3.4) gelten: (1) P (A∗k ) = Pk (Ak ) für jedes 1 ≤ k ≤ n. (2) Die Ereignisse A∗1 , ..., A∗n sind in jedem Fall unabhängig. Beweis: (1) Es ist P (A∗i ) P (Ω1 × ... × Ωi−1 × Ai × Ωi+1 × ... × Ωn ) = Bemerkung 3.36 = P1 (Ω1 ) · ... · Pi−1 (Ωi−1 ) · Pi (Ai ) · Pi+1 (Ωi+1 ) · ... · Pn (Ωn ) = Pi (Ai ) , was die Behauptung zeigt. (2) Für jede Teilfamilie gilt P A∗i1 , ..., A∗ik mit 1 ≤ ii < ... < ik ≤ n k \ j=1 A∗ij = Bemerkung 3.36 = P (Ω1 × ... × Ωi1 −1 × Ai1 × Ωi1 +1 × ...) Pi1 (Ai1 ) · ... · Pik (Aik ) · P1 (Ω1 ) ·... | {z } =1 (1) = Das zeigt auch hier die Behauptung. P A∗i1 · ... · P A∗ik . Bemerkung 3.38: Mit Hilfe dieses Satzes können wir sehr leicht einen Wahrscheinlichkeitsraum (Ω, P ) konstruieren, der n unabhängige Ereignisse enthält, die vorgegebene Wahrscheinlichkeiten p1 , ..., pn haben: Setze Ω1 = ... = Ωn = {0, 1}, A1 = ... = An = {1} und definieren für jedes i = 1, ..., n Pi ({0}) := 1 − pi , Pi ({1}) := pi | {z } Pi (Ai ) Nach dem Satz sind dann ten. A∗1 , ..., A∗n unabhängige Experimente mit den vorgegebenen Wahrscheinlichkei- 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 3.4.1 45 Mit Produktexperimenten zusammenhängende Verteilungen (1) Binomialverteilung ( Zählen von Erfolgen“) ” Ein Bernoulli-Experiment ist ein Experiment mit Ω = {0, 1} und Erfolgswahrscheinlichkeit p (1) = p ∈ [0, 1], p (0) = 1 − p. Setze p1 := p und p0 := 1 − p. Das Produkt von n Bernoulli-Experimenten mit gleicher Erfolgswahrscheinlichkeit ist dann n Ω = {0, 1} , p (a1 , ..., an ) = pa1 · ... · pan für (a1 , ..., an ) ∈ Ω Sei jetzt n X aj = k Ak := (a1 , ..., an ) j=1 das Ereignis k Erfolge“ für 0 ≤ k ≤ n. Dann ist #Ak = ” n k , für jedes (a1 , ..., an ) ∈ Ak gilt P ({(a1 , ..., an )}) = pk (1 − p) und daher folgt P (Ak ) = n−k n k n−k p (1 − p) , 0 ≤ k ≤ n. k Wir erhalten also genau die Binomialverteilung. (2) Multinomialverteilung ( Zählen von Ausgängen“) ” Man führt n identische, stochastisch unabhängige Experimente durch. Jedes Experiment hat r Ausgänge 1, ..., r, die mit Wahrscheinlichkeiten p1 , ..., pr auftreten. Modell: Seien Ωi = {1, ..., r} und die Wahrscheinlichkeitsverteilungen Pi durch den Wahrscheinlichkeitsvektor (p1 , ..., pr ) gegeben (1 ≤ i ≤ n). Im Produktexperiment ist n Ω = Ω1 × ... × Ωn = {1, ..., r}n und P = ⊗P i i=1 und somit p(a1 , .., an ) = pa1 · ... · pan . Sei Ak1 ,...,kr das Ereignis in n Versuchen k1 mal den Ausgang 1“, ..., kr mal den Ausgang r“ zu ” ” n P ki = n und 0 ≤ ki für i ≤ i ≤ n gelten). Dann ist erhalten (dabei muss natürlich i=1 P (Ak1 ,...,kr ) = die auf ( n k1 , ..., kr · pk11 · ... · pkr r n X (k1 , ..., kr ) ki = n, 0 ≤ ki i=1 ) gegebene Multinomialverteilung mit Parametern n und p1 , .., pr . Dabei muss natürlich r X pi = 1 i=1 gelten. Beispiel 3.39: Auf einem Glücksrad sind 3 Bereiche markiert. Beim zufälligen Drehen stoppt das Rad mit Wahrscheinlichkeit p1 = 12 im Bereich 1“, mit p2 = 83 im Bereich 2“ und mit p3 = 18 im Bereich 3“. ” ” ” Dann ist 5 3 2 3 1 10 1 · · . P (5 mal 1“, 3 mal 2“, 2 mal 3“) = P (A5,3,2 ) = · ” ” ” 2 8 8 5, 3, 2 46 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente (3) Geometrische Verteilung ( Warten auf den ersten Erfolg“) ” Gegeben sei ein n-faches Bernoulli-Experiment Ω = {0, 1}n mit Erfolgswahrscheinlichkeit p ∈ [0, 1]. Sei für 1 ≤ k ≤ n Ak das Ereignis erster Erfolg im k-ten Versuch (1 ≤ k ≤ n). Dann ist ” ” P (Ak ) = (1 − p)k−1 · p Beweis: Im Produktexperiment ist natürlich Pi = P für jedes 1 ≤ i ≤ n, wobei P ({0}) = 1−p, P ({1}) = p. Offenbar entspricht für 1 ≤ k ≤ n das Ereignis Ak genau der Menge {0} × ... × {0} × {1} , {z } | (k−1)-mal da ja vor dem Erfolg im k-ten Versuch nur Misserfolge auftreten dürfen. Gemäß Bemerkung 3.36 gilt dann P (Ak ) = P ({0} × ... × {0} × {1}) = k−1 Y i=1 k−1 Pi ({0}) · Pk ({1}) = (1 − p) · p, was die Behauptung zeigt. / ∞, also Intuitiv richtig erscheint die Aussage auch für n k−1 pk := Pk (Ak ) = (1 − p) · p, k = 1, 2, .... Für den formalen Beweis benötigt man Maßtheorie. Diese Gleichung definiert die geometrische Verteilung auf N mit P (1) = p, P (2) = (1 − p) · p, .... Dies ist tatsächlich eine Wahrscheinlichkeitsverteilung auf N, da es sich um eine Wahrscheinlichkeitsfunktion handelt: ∞ X pk = k=1 = geometrische Reihe p· p· = p· = p p = 1. ∞ X (1 − p)k−1 k=1 ∞ X (1 − p)k k=0 1 1 − (1 − p) (4) Negative Binomialverteilung ( k Misserfolge vor dem r-ten Erfolg“) ” Wir betrachten ein n-faches Bernoulli-Experiment, n ∈ N, mit Erfolgswahrscheinlichkeit p ∈ [0, 1]. Seien r, k ∈ N mit k + r ≤ n. Setze A := genau k Misserfolge vor dem r-ten Erfolg“. ” 3.40 Lemma: Es gilt P (A) = k+r−1 r k p (1 − p) k Beweis: k+r Sei Ω = {0, 1} der Produktraum mit der Verteilung, welche durch pi (1) = p, pi (0) = 1 − p, 1 ≤ i ≤ k + r gegeben ist. Natürlich soll dabei 1“ für Erfolg“ und 0“ für Misserfolg“ stehen. ” ” ” ” Nach der Binomialverteilung ist die Wahrscheinlichkeit, genau r − 1 Erfolge und k Misserfolge vor dem r-ten Erfolg zu erhalten genau k + r − 1 r−1 k+r−1−(r−1) p (1 − p) r−1 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente und daher folgt P (A) = k + r − 1 r−1 k p (1 − p) · r−1 p |{z} r−ter Erfolg k+r−1 k pr (1 − p) k + r − 1 − (r − 1) k+r−1 r = p (1 − p)k , k = was die Behauptung zeigt. Diese Verteilung nennt man auch die negative Binomialverteilung. 47 48 4 4.1 4 Zufallsvariablen, Verteilungen Zufallsvariablen, Verteilungen Zufallsvariablen Das Ziel der Einführung von Zufallsvariablen ist eine unkomplizierte Beschreibung von Ereignissen. Sie bilden ein wichtiges Handwerkszeug zur Formulierung und Lösung von stochastischen Problemen. 4.1 Definition: Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und Ω′ 6= ∅ eine beliebige Menge. Eine Abbildung X:Ω / Ω′ heißt Zufallsvariable (abgekürzt auch ZV) mit Werten in Ω′ . Falls Ω′ ⊂ Rd so heißt X ein d-dimensionaler Zufallsvektor, falls d = 1 ist, so nennen wir X reellwertige Zufallsvariable. Beispiel 4.2: Beim zweimaligen Würfeln ist Ω = {1, ..., 6}2 und ω = (a1 , a2 ) ∈ Ω mit 1 ≤ ai ≤ 6. Wir betrachten die Summe der Augenzahlen X(ω) := a1 + a2 , das Maximum der Würfelergebnisse X(ω) := max {a1 , a2 } , oder das Produkt der Augenzahlen X(ω) := a1 · a2 . Dann ist etwa X(ω) = a1 + a2 ist reellwertige Zufallsvariable mit Werten in Ω′ = {2, ..., 12}. Bemerkung 4.3: X muss nicht injektiv und auch nicht surjektiv sein. X transportiert“ Wahrscheinlichkeitsmasse, z.B. wenn X(ω) = a1 + a2 ist ” P (X = 4) = P ({(a1 , a2 ) | a1 + a2 = 4}) = P ({(1, 3), (2, 2), (3, 1)}) = P ({(1, 3)}) + P ({(2, 2)}) + P ({(3, 1)}) = 1 1 1 1 + + = 36 36 36 12 Das heißt, man bestimmt die Verteilung von X auf Ω′ über Mengen wie X −1 ({4}). X −1 ist eine Abbildung von Mengen, d.h X : P(Ω′ ) → P(Ω) A′ 7−→ X −1 (A′ ) = {ω ∈ Ω | X(ω) ∈ A′ }. Die allgemeinen Regeln für Urbilder gelten natürlich auch für Zufallsvariablen, wir wollen sie ohne Beweis in folgendem Lemma festhalten: 4.4 Lemma (Eigenschaften): Es gilt: (U1) X −1 (X(Ω)) = Ω und X −1 (∅) = ∅ S ′ S −1 ′ −1 (U2) X Ai = X (Ai ) i∈I (U3) X −1 T i∈I i∈I A′i = T i∈I X −1 (A′i ) (U4) X −1 (Ω′ \ A′ ) = Ω \ X −1 (A′ ) 4.5 Definition: Sei ohne Einschränkung Ω′ = X(Ω). Für einen diskreten Wahrscheinlichkeitsraum (Ω, P ) wird durch P X : P (Ω′ ) / R, A′ 7→ P X (A′ ) := P (X −1 (A′ )) eine Wahrscheinlichkeitsverteilung P X auf der diskreten Menge Ω′ definiert. P X heißt Verteilung von X auf Ω′ (unter P ). 4 Zufallsvariablen, Verteilungen 49 Beweis: Wir müssen die Axiome (A1), (A2) und (A3) eines Wahrscheinlichkeitsraumes nachweisen: (A1) P X (A′ ) ≥ 0 gilt. (A2) P X (Ω′ ) Definition = P X −1 (Ω′ ) = P (Ω) = 1 (A3) Seien A′1 , A′2 , ... disjunkte Teilmengen von Ω′ . Dann gilt PX ∞ [ A′i i=1 ! Definition = X −1 P ∞ [ A′i i=1 = P X −1 ∞ X A′i i=1 (U3) = P ∞ X σ-Additivität = !! ! (A′i ) i=1 ∞ X !! P (X −1 (A′i )) i=1 Definition = ∞ X P X (A′i ). i=1 Das zeigt, dass P X in der Tat ein Wahrscheinlichkeitsmaß auf Ω′ ist. Bemerkung 4.6: Mittels Transport von P durch X“ entsteht also ein neuer Wahrscheinlichkeitsraum (Ω′ , P X ). ” Notation 1: Sei (Ω, P ) diskreter Wahrscheinlichkeitsraum, X : Ω → Ω′ eine Zufallsvariable. Man schreibt/meint (X = x) := {ω ∈ Ω | X(ω) = x} , x ∈ Ω′ und (X ∈ A) := {X ∈ A} = {ω ∈ Ω | X(ω) ∈ A} , A ⊂ Ω′ . Damit schreibt man P X (A) = P (X ∈ A) sowie P X ({x}) = P (X = x). Falls X reellwertig ist (d.h. Ω′ ⊂ R) so benutzt man auch (X ≤ x) = {X ≤ x} = {ω ∈ Ω | X(ω) ≤ x}. Beispiel 4.7: Sei Ω = {1, ..., 6}2 , P (a1 , a2 ) = 1 36 ∀ (a1 , a2 ) ∈ Ω. • X(a1 , a2 ) = a1 + a2 mit Ω′ = {2, 3, ..., 12}. Für x ∈ Ω′ gilt: P X =P X −1 ({x}) = ( x−1 36 13−x 36 falls x = 2, ..., 7, . falls x = 8, ..., 12 • X(a1 , a2 ) = max {a1 , a2 } mit Ω′ = {1, ..., 6} Für x ∈ Ω′ gilt: P X (x) = P (X = x) = P ({a1 , a2 ) | max {a1 , a2 } = x}) = 2x − 1 . 36 Dadurch ist eine Wahrscheinlichkeitsmaß auf Ω′ gegeben. Man spricht oft einfach von einer Ω′ -wertigen Zufallsvariablen X, mit Verteilung P X und erwähnt weder (Ω, P ) noch die spezielle Abbildung X. 50 4 Zufallsvariablen, Verteilungen 4.8 Definition (Indikatorvariable): Für A ⊂ Ω definieren wir durch / {0, 1}, 1A (ω) = 1A : Ω ( 1 0 falls ω ∈ A falls w ∈ /A die Indikatorvariable zu A. Die Verteilung von X = 1A sieht wie folgt aus: • P X ({1}) = P X −1 ({1}) = P ({ω ∈ Ω | X(ω) = 1}) = P (A) • P X ({0}) = P X −1 ({1}) = P ({ω ∈ Ω | X(ω) = 0}) = P (AC ) Beispiel 4.9: Sei Ω = {1, ..., 6} und A = {2, 4, 6}. Dann ordnet 1A wie folgt zu: 2, 4, 6 7→ 1, 1, 3, 5 7→ 0. Bemerkung 4.10: Falls Ω′ ⊂ Rd , d ≥ 2 und damit X(ω) = (X1 (ω), ..., Xd (ω)) so ist für A = A1 × ... × Ad : d \ P (X ∈ A) = P {Xj ∈ Aj } . j=1 Insbesondere gilt also P (X = x) = P (X1 = x1 , ..., Xd = xd ) = P d \ j=1 Xi−1 ({xi }) . 4.11 Definition (Gemeinsame Verteilung): / Ω′ , j = 1, ..., n seien Zufallsvariablen. Wir definieren Sei (Ω, P ) gegeben, Xj : Ω j X:Ω / Ω′1 × ... × Ω′n durch ω 7→ (X1 (ω), ..., Xn (ω)). Dann heißt P X = P (X1 ,...Xn ) die gemeinsame Verteilung von X1 , ...Xn . Die zugehörige Wahrscheinlichkeitsfunktion ist p(x1 , ...xn ) = P (X1 = x1 , ...Xn = xn ) für alle Tupel (x1 , ..., xn ) ∈ Ω′ . Beispiel 4.12: Wir wollen wieder zweifach mit einem fairen Würfel werfen. Betrachte also Ω = {1, 2, 3, 4, 5, 6} mit der / Ω (also Ω′ = Ω), Lapace-Verteilung P . Definiere für (a1 , a2 ) = ω ∈ Ω die Zufallsvariablen X1 , X2 : Ω X1 (ω) := min {a1 , a2 } , X2 (ω) := max {a1 , a2 } . Die gemeinsame Verteilung von X1 und X2 können wir dann als Matrix schreiben. Setze dazu c := und erhalte x1 / x2 1 2 3 4 5 6 P (X1 ) ({x1 }) 1 c 2c 2c 2c 2c 2c 11c 2 0 c 2c 2c 2c 2c 9c 3 0 0 c 2c 2c 2c 7c 4 0 0 0 c 2c 2c 5c 5 0 0 0 0 c 2c 3c 0 0 0 0 0 c c c 3c 5c 7c 9c 11c 6 P (X2 ) ({x2 }) 1 36 4 Zufallsvariablen, Verteilungen 51 Dabei steht in der Zelle (i, j) natürlich P (X1 ,X2 ) ({i} × {j}) = P (X1 = i, X2 = j) und wir haben in der letzten Zeile / Spalte gleich noch die Werte der Einzel-Verteilungen P X1 und P X2 eingetragen, da diese sich einfach als Summe der Zeilen- / Spalteneinträge berechnen. 4.13 Definition: Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xj : Ω Für eine Indexauswahl 1 ≤ i1 < ... < ik ≤ n / Ω′ für 1 ≤ j ≤ n Zufallsvariablen. j nennen wir die gemeinsame Verteilung von Xi1 , ..., Xik eine k-dimensionale Randverteilung oder auch Marginalverteilung. Beispiel 4.14: Sei X = (X1 , X2 ). Dann sind P Xi für i = 1, 2 1-dimensionale Randverteilungen und es gilt zum Beispiel X P X1 (x1 ) = P (X1 = x1 ) = P (X1 = x1 , X2 = x2 ) , x1 ∈ Ω′1 . x2 ∈X2 (Ω) 4.1.1 Unabhängigkeit von Zufallsvariablen Die Idee ist, dass zwei Zufallsvariablen X1 , X2 unabhängig sind, wenn P (X1 = x1 , X2 = x2 ) = P (X1 = x1 ) · P (X2 = x2 ) ∀ (x1 , x2 ) ∈ Ω′1 × Ω′2 gilt. Beispiel 4.15: In obigem Beispiel 4.12 kann man aus der Tabelle leicht ablesen, dass P (X1 = 1, X2 = 1) = 1 36 gilt, aber 11 1 1 · 6= 36 36 36 ist. Daher sollten X1 und X2 wie dort definiert nicht unabhängig sein. P (X1 = 1) · P (X2 = 1) = 4.16 Definition: Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω Wir nennen X1 , ..., Xn unabhängig, wenn / Ω′ für 1 ≤ i ≤ n Zufallsvariablen. i n P (X1 ,...,Xn ) = ⊗P Xi i=1 n gilt. Dabei meint ⊗ PX i einfach das Produkt der Verteilungen, also i=1 n ⊗P i=1 Xi (A1 × ... × An ) = n Y P Xi (Ai ) , i=1 Ai ∈ Ω′i für i = 1, ...n. Beispiel 4.17: / {0, 1} durch folgende Tabelle gegeben, in welche wir auch gleich die Sei n = 2 und seien X1 , X2 : Ω X2 X1 wie im obigen Beispiel eintragen: und P Einzelverteilungen P x1 /x2 0 1 P X2 ({x2 }) P X1 ({x1 }) 0 1 0.12 0.28 0.4 0.18 0.42 0.6 0.3 0.7 Man stellt fest, dass 2 ⊗P i=1 Xi (x1 , x2 ) Definition = P X1 (x1 ) · P X2 (x2 ) = P (X1 = x1 ) · P (X2 = x2 ) 52 4 Zufallsvariablen, Verteilungen gilt. In jeder Zelle gilt P (X1 = x1 ) · P (X2 = x2 ) = P (X1 = x1 , X2 = x2 ) und daher sind X1 und X2 hier unabhängig. 4.18 Satz: Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω Dann sind die folgenden Aussagen äquivalent: / Ω′ für 1 ≤ i ≤ n Zufallsvariablen. i (1) X1 , ..., Xn sind unabhängig. (2) Für alle Ai ⊆ Ω′i , 1 ≤ i ≤ n gilt P (X1 ∈ A1 , ..., Xn ∈ An ) = n Y i=1 P (Xi ∈ Ai ) . (3) Für alle xi ∈ Ω′i , 1 ≤ i 6= n gilt P (X1 = x1 , ..., Xn = xn ) = n Y P (Xi = xi ) . i=1 Beweis: (1)⇒(2)“ Für beliebige Ai ⊆ Ω′i , 1 ≤ i ≤ n, gilt ” P (X1 ∈ A1 , ..., Xn ∈ An ) P ((X1 , ..., Xn ) ∈ A1 × ... × An ) = = X1 ,...,Xn unabhängig = P (X1 ,...,Xn ) (A1 × ... × An ) ! n ⊗P Xi (A1 × ... × An ) i=1 n Y = P Xi (Ai ) i=1 n Y = i=1 P (Xi ∈ Ai ) (2)⇒(3)“ Für gegebene xi ∈ Ω′i , 1 ≤ i ≤ n setze Ai := {xi }. ” (3)⇒(1)“ Hier gilt für alle xi ∈ Ω′i , 1 ≤ i ≤ n: ” P (X1 ,...,Xn ) (x1 , ..., xn ) (3) = n Y P (Xi = xi ) i=1 Definition = ! n ⊗P Xi i=1 Daher stimmen die zu den Verteilungen P (X1 ,...,Xn ) und (x1 , ..., xn ) n ⊗ PX i gehörigen Wahrscheinlichkeits- i=1 funktionen auf allen Tupeln (x1 , ..., xn ) ∈ Ω1 × ... × Ωn überein und aus diesem Grund müssen die beiden Verteilungen gleich sein. Unabhängige Zufallsvariablen verwendet man üblicherweise zur Modellierung von Ausgängen von Experimenten, die völlig getrennt ablaufen. Betrachte etwa das folgende Problem, welches allgemein als Ziegenproblem oder auch 3-Türen-Problem bekannt ist: Beispiel 4.19: Wir betrachten drei Türen mit den Nummern 1 bis 3, wobei hinter einer rein zufälligen Tür ein Gewinn (etwa ein Auto) und hinter den anderen beiden Türen je eine Ziege ist. Die Türen sind natürlich verschlossen. Das Spiel läuft nun wie folgt ab: (1) Der Kandidat wählt eine Tür. 4 Zufallsvariablen, Verteilungen 53 (2) Der Moderator öffnet eine der beiden anderen Türen, aber nicht die, hinter welcher sich der Gewinn befindet. (3) Der Kandidat darf wechseln. Die Frage ist nun, ob es sich für den Kandidaten lohnt, zu wechseln. Wir modellieren das Problem durch folgende Zufallsvariablen: • X1 := Nummer der Tür, hinter welcher sich der Gewinn befindet (∈ {1, 2, 3}). • X2 := Nummer der Tür, die der Kandidat in Schritt (1) auswählt (∈ {1, 2, 3}). Nach unseren Annahmen ist dann P (X1 = 1) = P (X1 = 2) = P (X1 = 3) = 1 3 (der Gewinn ist rein zufällig verteilt) und die Zufallsvariablen X1 und X2 sind unabhängig (der Kandidat hat keine Informationen über die Gewinntür. Verfolgt der Kandidat die Strategie nicht wechseln“, so gewinnt er genau dann, wenn X1 = X2 gilt. Also ” P ( Gewinn“) ” = P (X1 = X2 ) 3 X = P (X1 = i, X2 = i) i=1 X1 ,X2 unabhängig = 3 X i=1 P (X1 = i) ·P (X2 = i) | {z } = 13 3 1X P (X2 = i) 3 i=1 {z } | = =1 1 . 3 = Man beachte, dass es für dieses Ergebnis völlig egal ist, wie X2 verteilt ist, d.h. z.B. davon, ob der Kandidat mit Vorliebe eine der Türen auswählt. Verfolgt der Kandidat dagegen die Strategie wechseln“, so gewinnt er genau dann, wenn X1 6= X2 gilt ” (weil der Moderator dann nur genau eine Tür öffnen kann, hinter der natürlich eine Ziege steht, und der Kandidat in Schritt (3) dann zwangsläufig auf die Gewinn-Tür wechselt). Es folgt also 1 2 P ( Gewinn“) = P (X1 6= X2 ) = 1 − P (X1 = X2 ) = 1 − = . ” 3 3 Die Strategie wechseln“ ist also deutlich besser! ” 4.20 Definition (Funktionen von Zufallsvariablen): Sei Ω ein diskreter Grundraum und seien Ω′ , Ω′′ beliebige Mengen. Sei X : Ω / Ω′′ eine beliebige Abbildung. Dann wird durch und g : Ω′ / Ω′′ g(X) := g ◦ X : Ω eine Ω′′ -wertige Zufallsvariable g ◦ X durch ω 7→ g(X(ω)) auf Ω definiert. Beispiel 4.21: Sei g : Rn / R gegeben durch x = (x1 , ..., xn ) 7→ X:Ω n P xi . Ist i=1 / Rn , ω 7→ (X1 (ω), ..., Xn (ω)) eine Zufallsvariable, so ist g(X) gegeben durch ω 7→ n X i=1 Xi (ω), ω ∈ Ω. / Ω′ eine Zufallsvariable 54 4 Zufallsvariablen, Verteilungen Beispiel 4.22: Sei X : Ω / R eine Zufallsvariable und g : R / R gegeben durch x 7→ xk k für ein k ∈ N. Dann ist (g(X)) (ω) = (X(ω)) , ω ∈ Ω und wir schreiben auch X k := g(X) 4.23 Lemma: / Ωi , 1 ≤ i ≤ n unabhängige ZufallsvaSei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω riablen. Sei 1 ≤ i1 < ... < ik ≤ n eine Indexauswahl. Dann sind auch die Zufallsvariablen Xi1 , ..., Xik unabhängig. Beweis: Laut Satz 4.18 genügt es zu zeigen, dass für alle Aij ⊂ Ω′ij , 1 ≤ j ≤ k, gilt: P (Xi1 ,...,Xik ) (Ai1 × ... × Aik ) = k Y j=1 P Xij ∈ Aij . Es gilt P (Xi1 ,...,Xik ) (Ai1 × ... × Aik ) P (Xi1 ∈ Ai1 , ..., Xik ∈ Aik ) = P X1 ∈ Ω′1 , ..., Xi1 −1 ∈ Ω′i1 −1 , Xi1 ∈ Ai1 , Xi1 +1 ∈ Ω′i1 +1 , ... | {z } | {z } {z } | = trivial! trivial! Ω′ik −1 , Xik ..., Xik −1 ∈ {z | trivial! X1 ,...,Xn unabh. } trivial! ∈ Aik , Xik +1 ∈ {z | Ω′ik +1 , ..., Xn trivial! } | ∈ Ω′ {z n} trivial! P (X1 ∈ Ω′1 ) · ... · P Xi1 −1 ∈ Ω′i1 −1 · P (Xi1 ∈ Ai1 ) · · P Xi1 +1 ∈ Ω′i1 +1 · ... · P Xik −1 ∈ Ω′ik −1 · P (Xik ∈ Aik ) · · P Xik +1 ∈ Ω′ik +1 · ... · P (Xn ∈ Ω′n ) = n Y = i=1 i6=ij ∀j∈{1,...,k} k Y = j=1 P (Xi ∈ Ω′i ) · | {z } =1 k Y j=1 P Xij ∈ Aij P Xij ∈ Aij . Damit ist die Behauptung gezeigt. 4.24 Satz (Blockungslemma): / Ωi , 1 ≤ i ≤ n unabhängige ZufallsvaSei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω riablen. Sei I1 , ..., Ik eine disjunkte Zerlegung der Menge {1, ..., n} und setze cj := #Ij . Seien zuletzt gj : ×Ω ′ i / Ω′′j , j = 1, ..., k i∈Ij n o beliebige Abbildungen. Ist Ij = ij1 , ..., ijcj , so sind auch die Zufallsvariablen Yj := gj Xij , ..., Xijc , j = 1, ..., k 1 unabhängig. j 4 Zufallsvariablen, Verteilungen 55 Beweis: Es genügt offenbar zu zeigen, dass für eine Abbildung g : Ω′1 × ... × Ω′m / Ω′′ , 1 ≤ m < n, und X := g (X1 , ..., Xm ) die Zufallsvariablen X, Xm+1 , ..., Xn ebenfalls unabhängig sind. Laut Satz 4.18 haben wir also ∀ xi ∈ Ω′i , m + 1 ≤ i ≤ n, ∀ y ∈ Ω′′ zu zeigen: n Y i=m+1 P (Xi = xi ) · P (X = y) = P (X = y, Xm+1 = xm+1 , ..., Xn = xn ) (4.1) Für y ∈ Ω′′ berechnen wir dazu zunächst P (X = y) = P X −1 ({y}) = P a ∈ Ω | X1 (a) ∈ g −1 ({y}) , ..., Xm (a) ∈ g −1 ({y}) = P (X1 ,...,Xm ) g −1 ({y}) X p(X1 ,...,Xm ) (a) = a∈g −1 ({y}) = X P (X1 = a, ..., Xm = a) a∈g −1 ({y}) Damit folgt = P (X = y) · P (Xm+1 = xm+1 , ..., Xn = xn ) X P (X1 = a, ..., Xn = a) · P (Xm+1 = xm+1 , ..., Xn = xn ) a∈g −1 ({y}) Unabhängigkeit, Lemma 4.23 = X P (X1 = a, ..., Xm = a, Xm+1 = xm+1 , ..., Xn = xn ) a∈g −1 ({y}) = P X1 ∈ g −1 ({y}) , ..., Xm ∈ g −1 ({y}) , Xm+1 = xm+1 , ..., Xn = xn = P (X = y, Xm+1 = xm+1 , ..., Xn = xn ) Damit ist 4.1 und daher die Behauptung gezeigt. Beispiel 4.25: Sind X1 , ..., Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit Werten in R, so sind auch die Zufallsvariablen X12 , ..., Xn2 unabhängig. Um das zu zeigen, wende einfach das Blockungslemma mit Ii = {i} , 1 ≤ i ≤ n und g1 (x) = g2 (x) = ... = gn (x) = x2 an. Genauso folgt dann die Unabhängigkeit von |X1 |, ..., |Xn | oder X12 , |X2 |, |X3 |5 , ... usw.. Beispiel 4.26: Seien X1 , ..., X5 unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit Werten in R. Dann sind auch die Zufallsvariablen X1 sin(X4 ), X2 · exp(X3 · X5 ) unabhängig. Um das zu sehen wende das Blockungslemma auf I1 = {1, 4} und I2 = {2, 3, 5} mit g1 (x, y) = x · sin(y), g2 (x, y, z) = x · exp (y · z) an. 56 4.2 4 Zufallsvariablen, Verteilungen Verteilungen Sei stets (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und X : Ω / Ω′ eine Zufallsvariable. 4.27 Definition: Ist Ω′ = {x1 , ..., xn }, so nennen wir X Laplace-verteilt (oder auch gleichverteilt), falls 1 ∀ k = 1, ..., n. n P (x = xk ) = 4.28 Definition: Ist Ω′ = {0, 1}, so nennen wir X Bernoulli-verteilt mit Parameter p ∈ [0, 1], falls P (X = 1) = p, P (x = 0) = 1 − p. Wir schreiben dann auch X ∼ B (1, p). 4.29 Definition: Ist Ω′ = {1, ..., n}, so nennen wir X Binomial-verteilt mit Parametern p ∈ [0, 1] , n ∈ N, falls n k n−k P (X = k) = p (1 − p) , k = 0, ..., n. k Wir schreiben dann auch X ∼ B (n, p). Abbildung 6: Binomialverteilungen B(n, p) mit p = 0.1, 0.2, 0.5, 0.8 4.30 Satz: Seien X1 , ..., Xn unabhängige Zufallsvariablen auf (Ω, P ) und es gelte Xi ∼ B(1, p) für jedes i ∈ {1, ..., n} mit festem p ∈ [0, 1]. Dann gilt X1 + ... + Xn ∼ B(n, p). Beweis: Es ist X P (X1 + ... + Xn = k) = n Für jedes (a1 , ..., an ) ∈ {0, 1} mit P (X1 = a1 , ..., Xn = an ) Außerdem ist ( # (a1 , ..., an ) ∈ {0, 1} n | n X n P P (X1 = a1 , ..., Xn = an ) (a1 ,...,an )∈{0,1}n n P ai =k i=1 ai = k gilt i=1 X1 ,...,Xn unabhängig ai = k i=1 Damit folgt schon die Behauptung. = ) n−k P (X1 = a1 ) · ... · P (Xn = an ) = pk (1 − p) = #k − elementige Teilmengen einer n − elementigen Menge = n . k 4 Zufallsvariablen, Verteilungen 57 4.31 Definition: Ist Ω′ = N, so nennen wir X geometrisch verteilt mit Parameter p ∈ [0, 1], falls P (X = k) = p · (1 − p) k−1 , k ∈ N. Wir schreiben dann auch X ∼ Geo(p). Abbildung 7: Geometrische Verteilungen Geo(p) mit p = 0.5, 0.25, 0.1 4.32 Lemma: Ist X ∼ Geo(p), so gilt k−1 P (X ≥ k) = (1 − p) für jedes k ∈ N. Beweis: Es ist P (X ≥ k) = ∞ X P (X = j) j=k = ∞ X j=k (1 − p) j−1 k−1 = p · (1 − p) = k−1 (1 − p) p ∞ X j=0 | j (1 − p) {z 1 =p } für jedes k ∈ N. Das zeigt die Behauptung. Bemerkung 4.33: In diesem Zusammenhang spricht man bei der geometrisch verteilten Zufallsvariablen auch von der Überlebenswahrscheinlichkeit“. ” Will man etwa modellieren, wie groß die Wahrscheinlichkeit ist, dass ein bestimmtes Bauteil mehr als k Arbeitsgänge hält, so verwendet man X ∼ Geo(p) mit der Wahrscheinlichkeit p, dass das Bauteil einen festen Arbeitsgang überlebt. 4.34 Lemma: Ist X ∼ Geo(p) eine Zufallsvariable, so gilt die Gedächtnislosigkeit, nämlich P (X ≥ k + j | X > j) = P (x ≥ k) ∀ j, k ∈ N. 58 4 Zufallsvariablen, Verteilungen Beweis: Seien k, j ∈ N. Da k ≥ 1 ist stets {X ≥ k + j} ∩ {X > j} = {ω ∈ Ω | X(ω) ≥ k + j} ∩ {ω ∈ Ω | X(ω) ≥ j + 1} = {X ≥ k + j} (4.2) Damit folgt P (X ≥ k + j | X > j) (4.2) = P (X ≥ k + j) P (X ≥ j + 1) k+j−1 = (1 − p) = (1 − p) Lemma 4.32 Lemma 4.32 = j (1 − p) k−1 P (X ≥ k) . Damit ist die Behauptung gezeigt. Bemerkung 4.35: Die Umkehrung dieser Aussage gilt ebenfalls. Vergleiche dazu Übungsblatt 5. Bemerkung 4.36: Betrachtet man X ∼ Geo(p) als Überlebenswahrscheinlichkeit“, so sagt die Gedächtnislosigkeit genau, ” dass gebrauchte Bauteile ebenso gut wie neue Bauteile sind. 4.37 Definition: Ist Ω′ = N0 , so nennen wir X Poisson-verteilt mit Parameter λ ∈ (0, ∞), falls λk , k ∈ N0 . P (X = k) = exp (−λ) · {z k!} | =poiλ (k) Wir schreiben dann auch X ∼ Poi(λ). Abbildung 8: Poisson-Verteilungen Poi(λ) mit λ = 2, 4, 10, 16 Bemerkung 4.38: Poisson-verteilte Zufallsvariablen werden empirisch beobachtet bei z.B. • Anrufen pro Minute in einem Call-Center, • der Anzahl radioaktiver Zerfälle pro Zeitintervall und • der Anzahl von Meteoriteneinschlägen in einem Gebiet pro Zeitintervall. Allgemein tritt die Poisson-Verteilung dann auf, wenn Realisationen vieler möglicher, aber nur mit kleiner Wahrscheinlichkeit eintretender Ereignisse gewählt werden. 4 Zufallsvariablen, Verteilungen 4.2.1 59 Eigenschaften der Possionverteilung 4.39 Satz (Poisson-Grenzwertsatz): Ist (Xn )n≥1 eine Folge von B(n, pn ) verteilten Zufallsvariablen mit n · pn lim P (Xn = k) = poiλ (k) n /∞ / λ ∈ (0, ∞), so gilt für k = 0, 1, ... n→∞ Beweis: Zunächst gilt P (Xn = k) n = · pkn · (1 − p)n−k k = = npn n n · (n − 1) · ... · (n − k + 1) 1 · (1 − pn )−k · k · (n · pn )k · 1 − k! n n n n−1 n − k + 1 (n · pn )k n · p n n · · ... · · · 1− · (1 − pn )−k n n n k! n Berechnen wir nun die Grenzwerte einzeln, so haben wir n n−1 n−k+1 · · ... · n n n (n · pn )k k! n · p n n 1− n (1 − pn )−k Das liefert P (Xn = k) n /∞ n /∞ / 1, n /∞ / λk , k! n /∞ / exp(−λ), n /∞ / 1. k / exp(−λ) · λ k! mit der obigen Darstellung und zeigt die Behauptung. Die folgende Fehlerabschätzung wollen wir nur ohne Beweis angeben: 4.40 Satz (Fehlerabschätzung für die Poisson-Approximation der Binomialverteilung): Sei X ∼ B(n, p) und λ := n · p. Dann gilt für jede Teilmenge A ⊂ {0, 1, 2, ...}: X poiλ (k) ≤ (1 − exp(−np)) · p P (x ∈ A) − k∈A ≤ p. Insbesondere ist Beispiel 4.41: k P (X = k) − exp(−λ) · λ ≤ (1 − exp(−np)) · p k! ∀k = 0, 1, 2, ... Sei n = 1000 und p = 10−3 . Dann ist der Fehler der Approximation: X poiλ (k) ≤ (1 − exp(1)) · 10−3 ≈ 0.64 · 10−3 = 0.00064 P (x ∈ A) − k∈A 60 5 5.1 5 Kenngrößen von Verteilungen Kenngrößen von Verteilungen Der Erwartungswert 5.1 Lemma: Sei X : Ω → Ω′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf Ω. Dann gilt X X |X(ω)| · P (ω) < ∞ ⇔ |x| · P X (x) < ∞ x∈Ω′ ω∈Ω und in diesem Falle X ω∈Ω X X(ω) · P (ω) = x∈Ω′ x · P (X = x). Beweis: Wir berechnen X ω∈Ω X(ω) · P (ω) = X X x∈Ω′ ω∈Ω X(ω)=x X X = x∈Ω′ X = x∈Ω′ = X x∈Ω′ ω∈Ω X(ω)=x x· X(ω) · P (ω) x · P (ω) X P (ω) ω∈Ω X(ω)=x x · P (X = x). Die gleiche Rechnung mit |X(ω)| bzw. |x| zeigt, dass die < ∞“-Bedingungen äquivalent sind. ” 5.2 Definition: Sei X : Ω → Ω′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf Ω. Wir definieren den Erwartungswert E(X) von X durch X X E(X) := X(ω) · P (ω), falls |X(ω)| · P (ω) < ∞ (5.1) ω∈Ω = X x∈Ω′ ω∈Ω x · P (X = x), falls X x∈Ω′ |x| · P X (x) < ∞. (5.2) Bemerkung 5.3: (5.2) zeigt, dass E(X) nur von der Verteilung P X von X abhängt. E(X) ist in diesem Sinne also eine Kenngröße“ der Verteilung von X. ” Bemerkung 5.4: Die geforderte (absolute) Konvergenz stellt sicher, dass E(X) wohldefiniert ist. Bemerkung 5.5: Ist X ≥ 0 (d.h. X nimmt nur nicht-negative Werte an), dann kann man in (5.1) und (5.2) auf die < ∞“-Forderung verzichten und lässt auch E(X) = ∞ zu. ” 5.1.1 Erwartungswerte einiger Verteilungen Beispiel 5.6: Sei X Laplace-verteilt auf Ω′ = {x1 , ..., xN } ⊂ R. Dann gilt E(X) = N X i=1 xi · P (X = xi ) = N 1 X xi , · N i=1 da P (X = xi ) = Ein Spezialfall ist {x1 , ..., xN } = {1, ..., N }. Dann ist E(X) = N N +1 1 N (N + 1) 1 X · = . i= N i=1 N 2 2 Bei einem herkömmlichen Würfel ist demnach E(X) = 3.5. 1 . N 5 Kenngrößen von Verteilungen 61 Beispiel 5.7: Sei X ∼ B(1, p) eine Bernoulli-verteilte Zufallsvariable mit Ω′ = {0, 1} und P (X = 1) = p. Dann ist E(X) = 0 · (1 − p) + p = p. Insbesondere liefert das für die Indikatorvariable X = 1A einer Teilmenge A ⊂ Ω und eine Wahrscheinlichkeitsverteilung P auf Ω, dass X ∼ B(1, p) mit p = P (A), also E(X) = P (A). Damit ist für das Würfeln einer geraden Zahl (also A = {2, 4, 6} ⊂ {1, ..., 6}) der Erwartungswert E(1A ) = P (A) = 1 , 2 was der Intuition entspricht. Beispiel 5.8: Sei X ∼ B(n, p) eine Binomial-verteilte Zufallsvariable. Dann bereitet uns die Berechnung von E(X) = n X k=0 n k n−k k· · p · (1 − p) k einige Schwierigkeiten. Wir werden weiter unten im Beispiel 5.15 eine bessere Methode kennenlernen. Beispiel 5.9: Sei X ∼ Poi(λ) eine Poisson-verteilte Zufallsvariable. Dann ist E(X) = ∞ X k=0 = k · exp(−λ) · λk k! ∞ X λk−1 exp(−λ) · λ · (k − 1)! k=1 = = exp(−λ) · λ · ∞ X λk k=0 k! exp(−λ) · λ · exp(λ) = λ. 5.10 Hilfssatz: Sei X eine diskrete Zufallsvariable auf (Ω, P ) mit Werten in N0 . Dann gilt E (X) = ∞ X n=1 Beweis: Nach 5.1 gilt E (X) = ∞ X n=0 P (X ≥ n) . n · P (X = n) = ∞ X n=1 (5.3) n · P (X = n) , und diese Summe konvergiert absolut. Daher können wir Umordnen und erhalten so E (X) = ∞ ∞ X X n=1 k=n P (X = k) = ∞ X n=1 P (X ≥ n) , was die Behauptung zeigt. Beispiel 5.11: Sei X ∼ Geo(p) eine geometrisch verteilte Zufallsvariable. Dann ist E(X) = p1 . 62 5 Kenngrößen von Verteilungen Beweis: Anwenden von Hilfssatz 5.10 liefert ∞ X (5.3) E (X) = n=1 ∞ X Lemma 4.32 = n=1 ∞ X = n=0 P (X ≥ n) n−1 (1 − p) n (1 − p) 1 1 − (1 − p) = 1 , p = womit die Behauptung schon gezeigt ist. Das heißt beim Würfeln mit X =“Warten auf die erste 6“: 1 E(X) = 1 = 6. 6 5.1.2 Eigenschaften des Erwartungswertes 5.12 Satz (Transformationsformel): Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, X eine diskrete Zufallsvariable mit Werten in Ω′ und g := Ω′ → R eine Abbildung mit X |g(x)| · P (X = x) < ∞. x∈Ω′ Dann ist E(g(X)) = X x∈Ω′ g(x) · P (X = x). Beweis: Für die Verteilung von Y = g ◦ X gilt: P (Y = y) = P (g ◦ X = y) = P ({ω | g ◦ X(ω) = y}) X {ω | X(ω) = x} = P x∈Ω g(x)=y X = P (X = x) x∈Ω g(x)=y Damit erhalten wir E(g(X)) = E(Y ) X = y · P (Y = y) y∈Y (Ω) = X y∈Y (Ω) = X y· X X y∈Y (Ω) x∈g −1 ({y}) = X X y∈Y (Ω) x∈g −1 ({y}) = X x∈Ω′ P (X = x) x∈g −1 ({y}) y · P (X = x) g(x) · P (X = x) g(x) · P (X = x) Die selbe Rechnung mit Beträgen zeigt, dass der Erwartungswert E (g(X)) im definierten Sinne existiert. 5 Kenngrößen von Verteilungen 63 Beispiel 5.13: Sei g(x) = xk . Dann heißt E(X k ) = X xk P (X = x) k = 1, 2, ... x∈Ω′ das k-te Moment von X, sofern dieser Ausdruck existiert. Insbesondere ist das 1.Moment von X“ ” gleich dem Erwartungswert von X. 5.14 Satz (Linearität und Monotonie des Erwartungswertes): Seinen X, Y Zufallsvariablen auf (Ω, P ), s.d. E(X) und E(Y ) existieren. Sei außerdem a ∈ R. Dann gelten die folgenden Rechenregeln: (1) E(X + Y ) = E(X) + E(Y ) (2) E(aX) = a · E(X) (3) X ≥ Y ⇒ E(X) ≥ E(Y ) (d.h.X(ω) ≥ Y (ω)∀ω) Beweis: (1) Per Definition gilt E(X + Y ) = X (X + Y )(ω) · P (ω) ω∈Ω = X ω∈Ω = X ω∈Ω (X(ω) + Y (ω)) · P (ω) X(ω) · P (ω) + X ω∈Ω Y (ω) · P (ω) = E(X) + E(Y ). Die gleiche Rechnung mit Beträgen zeigt, dass E(X + Y ) existiert. (2) Hier ist E(aX) = X ω∈Ω a · X(ω) · P (ω) = a · X ω∈Ω X(ω) · P (ω) = a · E(X). (3) Zuletzt berechnet man E(X) = X ω∈Ω X(ω) · P (ω) ≥ X ω∈Ω Y (ω) · P (ω) = E(Y ). Damit ist der Satz bewiesen. Beispiel 5.15: Sei X ∼ B(n, p) eine Binomial-verteilte Zufallsvariable und seien X1 , X2 , ..., Xn unabhängig nach B(1, p) verteilt. Nach Satz 4.30 ist dann X1 + X2 + ... + Xn ∼ B(n, p), das heißt X und X1 + X2 + ... + Xn haben die gleiche Verteilung. Folglich gilt E(X) = E(X1 + X2 + ... + Xn ) Linearität = E(X1 ) + E(X2 ) + ... + E(Xn ) = n · p, da E(X1 ) = ... = E(Xn ) = p für Bernoulli-verteilte X1 , ..., Xn . Beispiel 5.16: Sei X(a1 , a2 , ..., an ) gleich der Anzahl der Fixpunkte der Permutation a1 , a2 , ..., an von 1, 2, ..., n. Für n = 4 gilt dann z.B. X(1, 4, 3, 2) = 2. Allgemein schreiben wir: X(a1 , a2 , ..., an ) = #{i | ai = i} Sei P die Laplace-Verteilung auf dem Raum aller Permutationen. Für Ai = {(a1 , ..., an ) | ai = i} gilt dann n X 1Ai . X= i=1 Mit Hilfe der Linearität können wir zeigen: ! n n n n X X X X 1 P (Ai ) = E(X) = E E(1Ai ) = 1Ai = = 1. n i=1 i=1 i=1 i=1 64 5 Kenngrößen von Verteilungen Beispiel 5.17 (Sammlerproblem): Wir ziehen aus einer Urne mit n Kugeln, welche mit 1, ..., n nummeriert sind, mit Zurücklegen bis jede Kugel mindestens einmal gezogen wurde. Wir wollen nun die benötigte Anzahl X von Ziehungen modellieren und den Erwartungswert E(X) bestimmen. n Sei X = X0 + X1 + X2 + ... + Xn−1 wobei Xi ∼ Geo( n−i n ) und E(Xi ) = n−i nach Beispiel 5.11. (Dabei beschreibt Xi das Warten auf den Erfolg eine neue Kugel wird gezogen“ nachdem bereits i ver” schiedene Kugeln gezogen wurden, insbesondere X0 ≡ 1) Wird z.B. Die Folge 2,2,3,2,3,4,2,1 aus einer Urne mit 4 Kugeln gezogen, so ist X = 8 und X0 = 1, X1 = 2, X2 = 3, X4 = 2. Man berechnet E(X) = E(X0 ) + E(X1 ) + ... + E(Xn − 1) n n n n = + + + ... + n n−1 n−2 1 n X1 = n· i i=1 ≈ n · ln(n). Damit können wir den Erwartungswert für n = 3, 10, 100 und 10000 berechnen: n 5.1.3 E(X) 3 5.5 10 29.3 100 518.7 10000 97876.1 Produktformel Seien X und Y zwei reelle, diskrete Zufallsvariablen. Man kann sich fragen, ob stets E (X · Y ) = E (X) · E (Y ) (5.4) gilt. Beispiel 5.18: Sei X ∼ B(1, p) und Y = X. Dann haben wir E (X · Y ) = E X 2 = E (X) = p, da X 2 = X, denn schließlich nimmt X nur Werte in {0, 1} an. Andererseits ist aber 2 E (X) · E (Y ) = (E (X)) = p2 . Für p ∈ (0, 1) gilt aber p2 6= p, womit (5.4) im Allgemeinen also falsch ist. 5.19 Satz (Produktformel für unabhängige Zufallsvariablen): Seien X, Y unabhängige Zufallsvariablen auf (Ω, P ) mit existenten Erwartungswerten E(X), E(Y ). Dann gilt E (X · Y ) = E(X) · E(Y ). 5 Kenngrößen von Verteilungen 65 Beweis: Mittels der ersten Definition des Erwartungswerts (5.1) berechnet man X E (X · Y ) = (X · Y ) (ω)P ({ω}) ω∈Ω = X ω∈Ω = X(ω) · Y (ω) · P ({ω}) X X x∈X(Ω) y∈Y (Ω) = X X x∈X(Ω) y∈Y (Ω) = X X X ω∈Ω X(ω)=x,Y (ω)=y x·y X (ω) · Y (ω) ·P ({ω}) | {z } =x·y X P ({ω}) ω∈Ω X(ω)=x,Y (ω)=y P (X = x, Y = y) x∈X(Ω) y∈Y (Ω) X,Y unabhängig = X X x∈X(Ω) y∈Y (Ω) = X x∈X(Ω) P (X = x) · P (Y = y) xP (X = x) · X y∈Y (Ω) yP (Y = y) , was nach der zweiten Definition (5.2) des Erwartungswertes genau E(X) · E(Y ) entspricht. Um die Existenz des Erwartungswertes E(X · Y ) zu zeigen, führt man zunächst die selbe Rechnung mit Beträgen durch. Beispiel 5.20: Wir betrachten zwei faire Würfel und die Zufallsvariablen X1 :=“erster Wurf“, X2 :=“zweiter Wurf“. Mit obigem Satz gilt dann 2 7 E (X · Y ) = E (X) · E (Y ) = . 2 5.2 Varianzen 5.21 Definition: Sei X eine reelle Zufallsvariable mit E X 2 < ∞. Dann wird die Varianz von X definiert durch 2 V (X) := E (X − E (X)) . Ebenso definiert man die Standardabweichung σX von X als σX := p V (X). Bemerkung 5.22: (1) Da E X 2 < ∞ ist und für jede reelle Zahl x ∈ R auch |x|≤ 1 + x2 gilt, ist auch E (|X|) < ∞ und daher existiert E (X) unter der Voraussetzung E X 2 < ∞. Insbesondere ist V (X) also wohldefiniert. 2 (2) Da (X − E(X)) ≥ gilt, muss auch V (X) ≥ 0 sein und σX ist wohldefiniert. (3) X − E(X) geht aus X durch Zentrieren“ hervor, d.h. ” E (X − E(X)) = E(X) − E(E(X)) = E(X) − E(X) = 0, da der Erwartungswert E(E(X)) der festen Zahl E(X) (d.h. der konstanten Zufallsvariable ω 7→ E(X)) natürlich wieder E(X) selbst ist. Bemerkung 5.23: Die Varianz ist die mittlere quadratische Abweichung von X zu E(X). 66 5 Kenngrößen von Verteilungen Bemerkung 5.24: Nach der Transformationsformel für den Erwartungswert (Satz 5.12) gilt mit der Funktion g(x) := 2 (x − E(X)) , x ∈ R: X Transformationsformel 2 V (X) = E(g(X)) = (x − E(X)) · P (X = x) . (5.5) x∈X(Ω) Beispiel 5.25: Wir betrachten das einmalige Würfeln mit einem fairen Würfen und definieren die Zufallsvariable X als die Augenzahl. Dann haben wir schon berechnet, dass E(X) = 27 , und daher ist die Varianz von X nach obiger Bemerkung gegeben als 2 6 X 7 1 35 x− V (X) = = . 2 6 12 x=1 5.26 Definition: Sei k ∈ N und X eine reelle Zufallsvariable auf (Ω, P ). Falls k E (X − E(X)) existiert, so nennen wir diese Zahl das k-te zentrale Moment von X. Bemerkung 5.27: Die Darstellung der Varianz mittels der Transformationsformel (5.5) zeigt, dass V (X) allein durch die Verteilung von X festgelegt ist. Es handelt sich also wie beim Erwartungswert auch um eine Kenngröße“ ” der Verteilung. 5.28 Definition: Seien X, Y reelle Zufallsvariablen mit E X 2 < ∞, E Y 2 < ∞. Dann wird die Kovarianz von X und Y definiert durch CoV (X, Y ) = E ((X − E(X)) · (Y − E(Y ))) . Bemerkung 5.29: Für eine reelle Zufallsvariable gilt dann CoV(X, X) = V (X). 5.30 Satz (Rechenregeln für die Varianz): Seien X, Y und Xi für 1 ≤ i ≤ n reelle Zufallsvariablen mit E X 2 < ∞, E Y 2 < ∞ und E Xi2 < ∞, 1 ≤ i ≤ n. Seien außerdem a, b ∈ R. Dann gelten die folgenden Rechenregeln 2 (V1) V (X) = E X 2 − (E (X)) , insbesondere ist V (X) < ∞. (V2) V (aX + b) = a2 · V (X). (V3) CoV (X, Y ) = E (X · Y ) − E (X) · E (Y ). (V4) Für Summen gilt V n X i=1 Xi ! = n X i=1 V (Xi ) − (V5) Sind X1 , ..., Xn unabhängig, so gilt sogar V n X i=1 Xi ! = n X CoV (Xi , Xj ) . i,j=1 i6=j n X V (Xi ) . i=1 Beweis: (V1) Mittels der Linearität des Erwartungswerts hat man 2 V (X) = E (X − E (X)) 2 = E X 2 − 2E (X) · X + (E (X)) 2 = E X 2 − 2E (X) · E (E (X)) + E (E (X)) 2 2 = E X 2 − 2 (E (X)) + (E (X)) 2 = E X 2 − (E (X)) . 5 Kenngrößen von Verteilungen 67 Dabei haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen natürlich der Wert der Zufallsvariablen selbst ist. (V2) Es ist 2 V (aX + b) = E ((aX + b) − E (aX + b)) 2 = E (aX + b − aE (X) − E (b)) 2 = E a2 (X − E(X)) 2 = a2 E (X − E(X)) = a2 V (X). (V3) Man berechnet CoV (X, Y ) = E ((X − E(X)) · (Y − E(Y ))) = E (X · Y − X · E(Y ) − Y · E(X) + E (X) · E (Y )) = E (X · Y ) − E (X) · E(E(Y )) − E(Y ) · E(E(X)) + E(E(X)) · E(E(Y )) = E (X · Y ) − E (X) · E (Y ) − E (Y ) · E (X) + E (X) · E (Y ) = E (X · Y ) − E (X) · E (Y ) . Auch hier haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen natürlich der Wert der Zufallsvariablen selbst ist. (V4) Wir setzen Zi := Xi − E (Xi ) für 1 ≤ i ≤ n. Dann ist ! n n n n X X X X Zi , (Xi − E (Xi )) = Xi − E Xi = i=1 womit V n X i=1 Xi ! = (5.6) = = = = n X E i=1 = Xi − E i=1 n X E E n X n X n X i=1 !!2 Xi i=1 i=1 Zi =Xi −E(Xi ) n X !2 n X E Zi i=1 n X i,j=1 i,j=1 = (5.6) i=1 i=1 i=1 ! n X Zj Zi · j=1 Zi · Zj E (Zi · Zj ) n X E (Zi · Zj ) E Zi2 + i,j=1 i6=j V (Xi ) + n X CoV (Xi , Xj ) i,j=1 i6=j folgt. (V5) Nach Satz 5.19 gilt wegen der Unabhängigkeit von X1 , ..., Xn für alle Paare 1 ≤ i, j ≤ n, i 6= j: E (Xi · Xj ) = E (Xi ) · E (Xj ) . Mit Regel (V3) ist also CoV (Xi , Xj ) = 0 falls i 6= j. Damit folgt (V5) aus (V4). 68 5 Kenngrößen von Verteilungen Bemerkung 5.31: Im Beweis von (V5) haben wir gezeigt, dass für unabhängige, reelle Zufallsvariablen X, Y stets CoV (X, Y ) = 0 gilt. Die Umkehrung dagegen ist im allgemeinen falsch, wie das folgende Beispiel zeigt: Beispiel 5.32: Betrachte eine Zufallsvariable X mit Werten in {−N, ..., N } auf einem diskreten Wahrscheinlichkeitsraum (Ω, P ). Wir nehmen an, dass P (X = n) = P (X = −n) ∀ n ∈ {−N, ..., N } und 0 < P (X = 0) < 1 gilt. Dann gilt CoV X, X 2 = 0, aber X und X 2 sind nicht unabhängig. Beweis: Zunächst ist E (X) N X (5.1) = k=−N k · P (X = k) 0 · P (X = 0) + = N X = k=1 = 0. N X k=1 k · P (X = k) − N X k=1 k · P (X = −k) k · (P (X = k) − P (X = −k)) | {z } =0 nach Voraussetzung (5.7) Genauso folgt mit der Transformationsformel (Satz 5.12) für g(x) = x3 , dass E X3 N X (5.1) = k=−N k 3 · P (X = k) 03 · P (X = 0) + = N X = k=1 = 0. N X k=1 k 3 · P (X = k) − N X k=1 k 3 · P (X = −k) k 3 · (P (X = k) − P (X = −k)) | {z } =0 nach Voraussetzung (5.8) Damit folgt nach Definition der Kovarianz CoV X, X 2 = = = (5.7) & (5.8) = E X− E(X) | {z } =0 nach (5.7) X2 − E X2 E X3 − X · E X2 E X 3 − E (X) · E X 2 0. Bleibt zu zeigen, dass X und X 2 nicht unabhängig sind. Dazu nehmen wir an, X und X 2 wären unabhängig. Dann gilt insbesondere 2 2 P (X,X ) (0, 0) = P X (0) · P X (0) 5 Kenngrößen von Verteilungen 69 Beachten wir nun, dass X 2 = 0 ⇔ X = 0, so folgt P (X = 0) = P (X = 0, X = 0) = P X = 0, X 2 = 0 2 = P (X,X ) (0, 0) 2 = P X (0) · P X (0) = P (X = 0) · P X 2 = 0 = 2 (P (X = 0)) , was ein Widerspruch zu P (X = 0) ∈ (0, 1) ist. Es folgt die Behauptung. 5.33 Definition: Seien X, Y reelle Zufallsvariablen. Wir nennen X und Y unkorreliert, falls CoV (X, Y ) = 0 gilt. Es gilt also: unabhängig 5.2.1 ⇒ unkorreliert 6 ⇐ Varianzen einiger diskreter Verteilungen Beispiel 5.34: Sei X ∼ B (1, p) für p ∈ [0, 1] eine reelle Zufallsvariable. Dann ist E(X) = p wie schon berechnet und daher gilt wegen X 2 = X (X hat wieder nur Werte in {0, 1}): 2 V (X) = E X 2 − (E (X)) 2 = E (X) − (E (X)) = p − p2 = p · (1 − p) . V (X) 0 1 p Abbildung 9: Die Varianz einer Bernoulli-verteilten Zufallsvariablen X ∼ B(1, p) in Abhängigkeit von p ∈ [0, 1] Beispiel 5.35: Sei X ∼ B(n, p) mit n ∈ N und p ∈ [0, 1]. Seien außerdem X1 , ..., Xn ∼ B (1, p) unabhängig. Nach Satz 4.30 gilt dann X1 + ... + Xn ∼ B (n, p) , weshalb X und X1 + ... + Xn die gleiche Verteilung besitzen. Da die Varianz nur von der Verteilung abhängt, gilt also ! n X V (X) = V Xi i=1 (V5) n X V (Xi ) i=1 Beispiel 5.34 = np (1 − p) 70 5 Kenngrößen von Verteilungen Beispiel 5.36: Sei X ∼ Poi (λ) für ein 0 < λ < ∞. Dann ist P (X = k) = exp (−λ) · λk für k ∈ N k! und es gilt E (X) = λ wie schon berechnet. Um die Varianz von X zu bestimmen nutzen wir (V1) und haben so 2 V (X) = E X 2 − (E(X)) = E X 2 − λ2 . Zur Berechnung von E X 2 nutzen wir den folgenden Trick: E X 2 = E X 2 − X + E (X) . Dann wende die Transformationsformel (Satz 5.12) mit g(k) := k 2 − k auf E(X 2 − X) = E(g(X)) an und erhalte so E X2 − X = E (g(X)) Transformationsformel = ∞ X k=0 = ∞ X k=0 = ∞ X k=2 = k 2 − k P (X = k) k (k − 1) exp (−λ) λk k! k (k − 1) exp (−λ) λk k! exp (−λ) ∞ X k=2 = λ2 exp (−λ) λk (k − 2)! ∞ X λk k=0 k! = λ2 exp (−λ) exp (λ) = λ2 . Das ergibt zusammen Beispiel 5.37: 2 V (X) = E X 2 − X + E (X) − (E (X)) = λ2 + λ − λ2 = λ Sei X ∼ Geo(p) für ein p ∈ [0, 1]. Wir haben schon gesehen, dass dann E(X) = zu berechnen, nutzen wir das folgende 5.38 Lemma: Ist X eine Zufallsvariable mit Werten in N, so gilt ∞ X (2n − 1) P (X ≥ n) . E X2 = n=1 Beweis: Mit der Transformationsformel (Satz 5.12) für g(k) := k 2 folgt direkt E (X) = ∞ X n=0 n2 P (X = n) = ∞ X n=1 n2 P (X = n) . 1 p gilt. Um die Varianz 5 Kenngrößen von Verteilungen 71 Diese Reihe ist absolut konvergent, daher kann sie in der folgenden Form umgeordnet werden: ∞ X n2 P (X = n) = 1 · P (X = 1) + 4 · P (X = 2) + 9 · P (X = 3) + 16 · P (X = 4) + ... = (P (X = 1) + P (X = 2) + ...) + 3P (X = 2) + 8P (X = 3) + 15P (X = 4) + ... = (P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...) n=1 +5P (X = 3) + 12P (X = 4) + ... = (P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...) +5 (P (X = 3) + P (X = 4) + ...) + 7P (X = 4) + ... = ∞ X n=1 (2n − 1) · P (X ≥ n) . Es folgt die Behauptung. Außerdem gilt laut Lemma 4.32 P (X ≥ k) = (1 − p) E X2 k−1 , womit dann ∞ 1X n−1 p (2n − 1) (1 − p) p n=1 = ∞ 1X (2n − 1) P (X = n) p n=1 = gilt. Jetzt wenden wir die Transformationsformel (Satz 5.12) mit g(k) = 2k − 1 rückwärts an und erhalten so E X2 = 1 E ((2X − 1)) p = 1 1 2E(X) − p p = 1 2 − p2 p = 2−p . p2 Für die Varianz gilt damit V (X) (V1) = 2−p 1 1−p 2 E X 2 − (E (X)) = − 2 = . p2 p p2 72 6 6.1 6 Wahrscheinlichkeitsungleichungen und das SGGZ Wahrscheinlichkeitsungleichungen und das SGGZ Das schwache Gesetz großer Zahlen (SGGZ) 6.1 Satz (Markov-Ungleichung): Sei X ≥ 0 eine diskrete Zufallsvariable (d.h. X nimmt nur nicht-negative reelle Werte an) auf (Ω, P ). Dann gilt für jedes reelle a > 0: P (X ≥ a) ≤ E(X) a (6.1) Beweis: Es gilt P (X ≥ a) X = P (X = x) x∈X(Ω),x≥a ≤ ≤ = X x∈X(Ω),x≥a X x∈X(Ω) x P (X = x) a x P (X = x) a 1 E(X), a was die Behauptung zeigt. 6.2 Satz (Tschebyschow-Ungleichung): Sei X eine reelle, diskrete Zufallsvariable mit E X 2 < ∞. Dann gilt für jedes reelle a > 0: P (|X − E(X)| ≥ a) ≤ V (X) a2 (6.2) Beweis: Da sowohl |X − E(X)| als auch a positive Zahlen sind, ist |X − E(X)| ≥ a ⇔ (X − E(X)) ≥ a2 . (6.3) Damit gilt P (|X − E(X)| ≥ a) (6.3) = (6.1) ≤ = 2 P (X − E(X)) ≥ a2 2 E (X − E(X)) a2 V (X) , a2 womit die Behauptung gezeigt ist. Folgerung 6.3: Sei X eine reelle, diskrete Zufallsvariable mit E X 2 < ∞. Dann gilt für jedes reelle c > 0: P (|X − E(X)| ≥ cσX ) ≤ 1 c2 Beweis: p Wende (6.2) mit a = cσX an und nutze σX = V (X). Bemerkung 6.4: Für jede reelle, diskrete Zufallsvariable X mit E X 2 < ∞ gilt also usw. P (|X − E(X)| ≥ 2σX ) ≤ P (|X − E(X)| ≥ 3σX ) ≤ 1 4 1 9 (6.4) 6 Wahrscheinlichkeitsungleichungen und das SGGZ 73 Beispiel 6.5: Wir betrachten 100 faire Münzwürfe und definieren die Zufallsvariable X als die Anzahl der ”Kopf“Ergebnisse. Dann ist X ∼ B 100, 21 , E(X) = 50 und nach Beispiel 5.35 gilt V (X) = 100 · 41 = 25. Also ist σX = 5 und daher haben wir nach (6.4): P (|X − 50| ≥ 10) ≤ P (|X − 50| ≥ 15) ≤ 1 4 1 9 Bemerkung 6.6: Die Abschätzungen, die man mit der Tschebyschow-Ungleichung erreichen kann, können oft verbessert werden. Siehe dazu etwa später die Exponentialungleichungen oder den zentralen Grenzwertsatz. 6.7 Satz (Schwaches Gesetz großer Zahlen (SGGZ)): Seien X1 , ..., Xn unabhängige diskrete Zufallsvariablen mit gleicher Verteilung auf (Ω, P ) und es gelte E Xi2 < ∞ für jedes 1 ≤ i ≤ n. Dann gilt für jedes ε > 0: n ! 1 X /∞ V (X1 ) n / 0. Xi − E (X1 ) ≥ ε ≤ (6.5) P n nε2 i=1 Beweis: Zunächst halten wir fest, dass ! n 1X E (Xi ) . n i=1 E (X1 ) = E Außerdem gilt E (X1 ) = E (Xi ) für jedes 1 ≤ i ≤ n, da alle Zufallsvariablen nach Voraussetzung die gleiche Verteilung besitzen. Daher folgt mit der Tschebyschow-Ungleichung: n P 1 n ! V X i 1 X n (6.2) i=1 ≤ Xi − E (Xi ) ≥ ε P n ε2 i=1 n P Xi V (V2) i=1 = n2 ε2 n P V (Xi ) X1 ,...,Xn unabhängig i=1 = n2 ε2 V (X1 ) = . nε2 Das zeigt die Behauptung. Bemerkung 6.8: Damit liegt für große n der empirische Mittelwert n 1X Xi n i=1 mit hoher Wahrscheinlichkeit in der ε-Nähe des Erwartungswertes E(X1 ). 6.1.1 Spezialfall - Das SGGZ von Bernoulli 6.9 Satz: Seien Xi ∼ B(1, p) für ein p ∈ [0, 1] und 1 ≤ i ≤ n, außerdem seien X1 , ..., Xn unabhängig. Dann gilt ! n 1 X 1 . (6.6) X i − p ≥ ε ≤ P n 4nε2 i=1 74 6 Wahrscheinlichkeitsungleichungen und das SGGZ Beweis: Wir wissen schon, dass E (X1 ) = p und V (X1 ) = p · (1 − p) gilt. Nach dem SGGZ gilt also ! n 1 X p · (1 − p) . X i − p ≥ ε ≤ P n nε2 i=1 Offenbar ist aber p · (1 − p) ≤ 1 4 ∀ p ∈ R, womit die Behauptung folgt. Beispiel 6.10: Wir betrachten 1000 faire Münzwürfe und setzen ( 1 Kopf im i-ten Wurf Xi := . 0 Zahl im i-ten Wurf Dann gilt Xi ∼ B 1, 12 für alle 1 ≤ i ≤ 1000 und die Zufallsvariablen X1 , ..., X1000 sind unabhängig. Nun setzen wir 1000 X Xi , X := i=1 was der Anzahl an Kopf-Würfen in 1000 Würfen entspricht. Es ist E (X) = 1000 X E (Xi ) = 1000 X i=1 i=1 1 = 500 2 und entsprechend berechnet man mit dem SGGZ von Bernoulli: P (X ≤ 400 oder X ≥ 600) = = (6.6) ≤ = P (|X − 500| ≥ 100) ! 1 1000 X 1 1 Xi − ≥ P 1000 2 10 i=1 1 4 · 1000 · 1 100 1 = 0.025. 40 Damit ist auch P (400 < X < 600) = 1 − P (X ≤ 400 oder X ≥ 600) ≥ 1 − 0.025 = 0.975. 6.2 Exponential-Ungleichungen Notation 2: Sind X1 , ..., Xn unabhängige und gleichverteilte diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) gegeben, so schreiben wir auch Xi i.i.d. ∼ B (1, p) , falls die Verteilung die Bernoulli-Verteilung ist usw.. i.i.d. steht dabei für independent identically distributed“. ” 6.11 Satz (Bernstein-Ungleichung): i.i.d. Seien Xi ∼ B (1, p) für ein p ∈ [0, 1]. Dann gilt für alle ε > 0: ! n 1 1X Xi − p ≥ ε ≤ exp − nε2 , P n i=1 4 ! n 1 1X Xi − p ≤ −ε ≤ exp − nε2 , P n i=1 4 ! n 1 X 1 2 P X i − p ≥ ε ≤ 2 exp − nε . n 4 i=1 (6.7) 6 Wahrscheinlichkeitsungleichungen und das SGGZ 75 Beweis: Offenbar folgt die dritte Ungleichung mittels der Boole’schen Ungleichung (1.7) bereits aus den ersten beiden Ungleichungen: ! ! ! n n n 1 X (1.7) 1X 1X P X i − p ≥ ε Xi − p ≥ ε + P Xi − p ≤ −ε . ≤ P n n i=1 n i=1 i=1 Wir zeigen nur die erste Ungleichung, die zweite lässt sich absolut analog beweisen. ! ! n n 1X 1X Xi − p ≥ ε = P Xi ≥ p + ε P n i=1 n i=1 ! n X = P Xi ≥ np + nε . (6.8) i=1 Nach Satz 4.30 ist n P i=1 n P Xi ∼ B (n, p), daher folgt also für m := ⌈n (p + ε)⌉: 1X Xi − p ≥ ε n i=1 ! (6.8) = n X n k n−k p (1 − p) | {z } k k=m λ>0 beliebig ≤ = n X k=m =:q exp (λ (k − n (p + ε))) exp (−λnε) n k n−k p q k n X n exp (λk − λnp) pk q n−k k k=m = n X n k n−k exp (−λnε) (p exp (λq)) (q exp (−λp)) k = exp (−λnε) (p exp (λq) + q exp (−λp)) . k=m n (6.9) Allgemein ist exp (x) ≤ x + exp x2 für x ∈ R2 , daher folgt ! n (6.9) 1X n Xi − p ≥ ε P ≤ exp (−λnε) (p exp (λq) + q exp (−λp)) n i=1 n = exp (−λnε) p λq + exp λ2 q 2 + q −λp + exp λ2 p2 n = exp (−λnε) p exp λ2 q 2 + q exp λ2 p2 n ≤ exp (−λnε) p exp λ2 + q exp λ2 = exp (−λnε) exp nλ2 = exp n λ2 − λε (6.10) für jedes λ > 0. Nun wählen wir λ = 2ε , was genau dem Minimum von λ 7→ λ2 − λε entspricht. Es folgt damit ! n (6.10) 1X ε 1 2 ε 2 P n − εn = exp − ε n , Xi − p ≥ ε ≤ exp n i=1 2 2 4 was die Behauptung zeigt. Beispiel 6.12: Wir betrachten wieder die Münzwürfe aus Beispiel 6.10. Die Bernstein-Ungleichung liefert ! 1 1000 X (6.7) 10 1 1 1 P = 2 exp − ≈ 0.164, Xi − ≥ 0.1 ≤ 2 exp − 1000 · 1000 2 4 100 4 i=1 was offenbar deutlich schlechter ist, als das Ergebnis mit dem SGGZ! Der Grund dafür ist, dass n = 1000 einfach noch zu klein ist! Wir werden aber gleich sehen, dass man mit noch besseren Exponential-Ungleichungen noch deutlich bessere Ergebnisse erzielen kann. 2 Für x < 0 ist diese Ungleichung offensichtlich. Für x = 0 gilt Gleichheit und für x ≥ 1 ist x2 ≥ x, womit die Ungleichung aus der strengen Monotonie der exp-Funktion folgt. 0 < x < 1? 76 6 Wahrscheinlichkeitsungleichungen und das SGGZ Die folgende Exponential-Ungleichung wollen wir nur angeben, nicht beweisen: 6.13 Satz (Chernov-Ungleichung): i.i.d. Seien Xi ∼ B (1, p) für ein p ∈ [0, 1]. Dann gilt für ! n 1X P Xi − p ≥ ε n i=1 ! n 1X P Xi − p ≤ −ε n i=1 ! n 1 X X i − p ≥ ε P n i=1 alle ε > 0: ≤ exp −2nε2 , ≤ exp −2nε2 , ≤ 2 exp −2nε2 . (6.11) Noch allgemeiner sogar ist die folgende Ungleichung, die wir ebenfalls nicht beweisen wollen: 6.14 Satz (Hoeffding-Ungleichung): Seien X1 , ..., Xn i.i.d. Zufallsvariablen. Es gebe reelle Zahlen a < b s.d. a ≤ Xi ≤ b für alle 1 ≤ i ≤ n. Mit c := b − a gilt dann für alle ε > 0: ! n 1 X n Xi − E (X1 ) ≥ ε ≤ 2 exp −2ε2 2 . P n c i=1 Bemerkung 6.15: Offenbar folgt die Chernov-Ungleichung aus der Hoeffding-Ungleichung mit a = 0 und b = 1. Beispiel 6.16: Wir betrachten wieder die Münzwürfe aus Beispiel 6.10. Die Chernov-Ungleichung liefert hier ! 1 1000 X (6.11) 1 1 = 2 exp (−20) ≈ 0.00000000412 Xi − ≥ 0.1 P ≤ 2 exp −2 · 1000 · 1000 2 100 i=1 - besser gehts nicht! 7 Faltung, bedingte Verteilungen und Korrelation 7 7.1 77 Faltung, bedingte Verteilungen und Korrelation Die Faltung Wir betrachten oft Summen unabhängiger Zufallsvariablen. Was kann man über die Verteilung dieser Summe aussagen? 7.1 Satz: Es seien X1 , ..., Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ). (1) Dann ist die Verteilung P X1 +...+Xn der Summe X1 + ... + Xn durch die Verteilungen P X1 , ..., P Xn der Zufallsvariablen X1 , ..., Xn festgelegt. (2) Für x ∈ (X1 + ... + Xn ) (Ω) (also x im Wertebereich der Summe) gilt X P (X1 = x1 ) · ... · P (Xn = xn ) . P (X1 + ... + Xn = x) = (7.1) x1 ∈X1 (Ω),...,xn ∈Xn (Ω) x1 +...+xn =x Beweis: Offenbar folgt (2) aus (1). Für (1) sehen wir zunächst, dass X {X1 = x1 , ..., Xn = xn } . {X1 + ... + Xn = x} = x1 ∈X1 (Ω),...,xn ∈Xn (Ω) x1 +...+xn =x Damit folgt P (X1 + ... + Xn = x) = X P (X1 = x1 , ..., Xn = xn ) X P (X1 = x1 ) · ... · P (Xn = xn ) x1 ∈X1 (Ω),...,xn ∈Xn (Ω) x1 +...+xn =x X1 ,...,Xn unabhängig = x1 ∈X1 (Ω),...,xn ∈Xn (Ω) x1 +...+xn =x und die Behauptung ist gezeigt. 7.2 Definition: Seien X1 , ..., Xn unabhängige Zufallsvariablen. Wir definieren die Faltung von P X1 , ..., P Xn als P X1 ⋆ ... ⋆ P Xn := P X1 +...+Xn . Obiger Satz, Teil (2), rechtfertigt diese Bezeichnung. 7.3 Definition: Für Wahrscheinlichkeitsverteilungen P1 , ..., Pn auf Ω definiert man allgemeiner die Faltung P1 ⋆ ... ⋆ Pn als die Verteilung von X1 + ... + Xn , wobei Xi , 1 ≤ i ≤ n, unabhängige Zufallsvariablen mit P Xi = Pi sind. Bemerkung 7.4: Im Allgemeinen (d.h. ohne Unabhängigkeit), ist die Verteilung der Summe X + Y zweier Zufallsvariablen X und Y nicht durch die Verteilungen von X und Y festgelegt. Beispiel 7.5: i.i.d. Seien X, Y ∼ B (1, p). In Satz 4.30 haben wir gesehen, dass dann X + Y ∼ B(2, p) gilt, d.h. die Verteilung von X + Y entspricht dem Wahrscheinlichkeitsvektor 1 1 1 . , , 4 2 4 In diesem Sinne ist die Bernoulli-Verteilung eine schöne“ Verteilung, ihre Faltung gibt wieder eine uns ” bekannte und leicht zu berechnende Verteilung - die Binomialverteilung! Beispiel 7.6: Sei X ∼ B 1, 12 und Y = X. Insbesondere sind X und Y dann nicht unabhängig und es gilt auch Y ∼ B 1, 21 . Damit gilt 1 2 falls x = 0 0 falls x = 1 . P (X + Y = x) = P (2X = x) = 1 falls x = 2 2 78 7.1.1 7 Faltung, bedingte Verteilungen und Korrelation Spezialfall Seien X, Y unabhängige, diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit X (Ω) ⊂ N0 , Y (Ω) ⊂ N0 . Dann ist (X + Y ) (Ω) ⊂ N0 und es gilt für k ∈ N0 : P (X + Y = k) (7.1) = X x,y∈N0 x+y=k = k X P (X = x) P (Y = k − x) k X pX (x) · pY (k − x) x=0 = P (X = x) · P (Y = y) x=0 (7.2) Beispiel 7.7: Wir betrachten die Augensumme beim zweifachen Würfeln. Setze dazu X1 := erster Wurf und X2 := zweiter Wurf. Wir haben in einem früheren Beispiel schon gesehen, dass die Verteilung der Summe P (X + Y = k) für k = 2, ..., 12 den Wahrscheinlichkeitsvektor 1 2 3 4 5 6 5 4 3 2 1 , , , , , , , , , , 36 36 36 36 36 36 36 36 36 36 36 liefert. Das kann man mit der obigen Darstellung leicht nachrechnen. 7.1.2 Faltungen einiger wichtiger Verteilungen 7.8 Satz: Seien X, Y zwei unabhängige, diskrete Zufallsvariablen mit X ∼ Poi (λ) , Y ∼ Poi (µ) für zwei Parameter 0 < λ, µ < ∞. Dann gilt X + Y ∼ Poi (λ + µ) . Beweis: Da die Poisson-Verteilung für Zufallsvariablen mit Werten in N0 definiert ist, können wir obigen Spezialfall anwenden: P (X + Y = k) (7.2) = k X x=0 = k X x=0 = = = P (X = x) · P (Y = k − x) exp (−λ) λx µk−x exp (−µ) x! (k − x)! k X k! 1 exp (− (λ + µ)) λx µk−x k! x! (k − x)! x=0 1 k exp (− (λ + µ)) (λ + µ) k! poiλ+µ (k) . Das zeigt die Behauptung. Damit ist also die Faltung zweier Poisson-Verteilungen einfach die Poisson-Verteilung zur Summe der Parameter. Praktisch braucht man dieses Ergebnis etwa bei den Anrufen pro Minute in einem Call-Center, die aus zwei Zentralen zusammenlaufen. Die Anzahl der Anrufe pro Minute ist bei der ersten Zentrale dabei Poi (λ) verteilt, bei der zweiten Zentrale Poi (µ) verteilt. Der Satz oben sagt uns nun, dass die Gesamtzahl der Anrufe pro Minute im Call-Center dann Poi (λ + µ) verteilt ist. 7.9 Hilfssatz: Es gilt k X n m n+m = . x k−x k x=0 7 Faltung, bedingte Verteilungen und Korrelation 79 Beweis: Wir wir im Kapitel über Kombinatorik gesehen haben, ist ab genau die Anzahl der Möglichkeiten, b genau die Anzahl der Möglichkeiten, Elemente aus einer a-elementigen Menge auszuwählen. Also ist n+m k aus der Menge {1, ..., n + m} genau k Elemente auszuwählen. Eine solche Auswahl kann zerlegt werden in die Elemente, die aus {1, ..., n} ausgewählt werden, und die Elemente, die aus {n + 1, ..., n + m} ausgewählt werden. Die Summe dieser beiden Auswahlen muss entsprechend k ergeben. Jetzt klassifizieren wir dies nach der Kardinalität x der ersten Auswahl, die genau die Summe all dieser Klassifikationen, d.h. zwischen 0 und k liegen muss. Offenbar ist dann n+m k X k n+m n m = , k x k−x x=0 was die Behauptung zeigt. 7.10 Satz: Seien X ∼ B (n, p) und Y ∼ B (m, p) unabhängige Zufallsvariablen mit Parametern p ∈ [0, 1] und n, m ∈ N. Dann gilt X + Y ∼ B (m + n, p) . Beweis: Für 0 ≤ k ≤ m + n gilt P X+Y (k) = (7.2) = P (X + Y = k) k X x=0 = P (X = x) P (Y = k − x) k X n x=0 x px (1 − p) n−x m m−(k−x) pk−x (1 − p) k−x = k X n m n−x+m−k+x pk (1 − p) x k − x x=0 = pk (1 − p) Hilfssatz 7.9 = n+m−k k X n m x k−x x=0 n+m k n+m−k p (1 − p) . k Das das Ende dieser Gleichung der Binomialverteilung mit Parametern n + m und p ist, folgt die Behauptung. 80 7.2 7 Faltung, bedingte Verteilungen und Korrelation Bedingte Verteilungen 7.11 Definition: / Ω′ , Y : Ω Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω Zufallsvariablen auf diesem Raum. Sei weiter x ∈ X (Ω) mit P (X = x) > 0. Die bedingte Verteilung von Y gegeben X = x ist / Ω′′ diskrete P (Y ∈ A | X = x) für A ⊂ Ω′′ . Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist pY |X (y|x) := P (Y = y | X = x) = p(X,Y ) (x, y) P (Y = y, X = x) = , P (X = x) pX (x) (x, y) ∈ Ω′ , Ω′′ . D.h. für jedes x wie in der Annahme ist pY |X (·|x) eine Wahrscheinlichkeitsfunktion auf Ω′′ bzw. Y (Ω). Beispiel 7.12: Wir würfeln zweimal mit einem fairen Würfel und definieren unsere Zufallsvariablen X1 , X2 als die Ergebnisse des i-ten Wurfes, i = 1, 2 entsprechend. Natürlich sind X1 und X2 unabhängig. Setze nun Y := X1 + X2 , X := X1 . Dann ist Y die Augensumme des Experiments. Zunächst berechnen wir formal P (Y = y | X = x) P (X1 + X2 = y | X1 = x) = P (X1 + X2 = y, X1 = x) P (X1 = x) = = X1 ,X2 unabhängig = P (X2 = y − x, X1 = x) P (X1 = x) ( 1 6 P (X2 = y − x) = 0 falls 1 ≤ y − x ≤ 6 . sonst Zur Verdeutlichung wollen wir noch die Tabelle der bedingten Wahrscheinlichkeitsfunktion pY |X (y|x) angeben. In der x-ten Zeile steht dabei pY |X (·|x): x/y 2 3 4 5 6 7 8 9 10 11 12 1 1 6 1 6 1 6 1 6 1 6 1 6 0 0 0 0 0 2 0 1 6 1 6 1 6 1 6 1 6 1 6 0 0 0 0 1 6 1 6 1 6 1 6 1 6 0 0 0 1 6 1 6 1 6 1 6 1 6 1 6 0 0 1 6 1 6 1 6 1 6 1 6 0 1 6 1 6 1 6 1 6 1 6 1 6 3 0 0 1 6 4 0 0 0 5 0 0 0 0 1 6 6 0 0 0 0 0 Beispiel 7.13: Seien X ∼ B (n, p) und Y ∼ B (m, p) unabhängige Zufallsvariablen. Die bedingte Verteilung von X gegeben X + Y = k entspricht dann (nach Satz 7.10 ist X + Y ∼ B (n + m, r)) der Frage Wie viele Erfolge treten in den ersten n Experimenten auf, wenn k Erfolge in n + m Experimenten ” auftreten?“ 7 Faltung, bedingte Verteilungen und Korrelation 81 Man berechnet pX|X+Y (j|k) = P (X = j | X + Y = k) = P (X = j, Y = k − j) P (X + Y = k) P (X = j) P (Y = k − j) P (X + Y = k) k−j n−j m−(k−j) n j m (1 − p) j p (1 − p) k−j p m+n−k n+m k p (1 − p) k m n X,Y unabhängig = = j = k−j n+m k , und sieht so, dass die bedingte Verteilung genau der hypergeometrischen Verteilung für das Experiment n + m Kugeln gegeben, davon n rote. ” Ziehe k Kugeln und bestimme die Wahrscheinlichkeit, dass genau j rote Kugeln darunter sind!“ entspricht. Beispiel 7.14: Seien X ∼ Poi (λ) , Y ∼ Poi (µ) unabhängige Zufallsvariablen. Wir modellieren damit etwa Anfragen an einen Server, die über zwei Zwischenstellen eingehen. Dabei wird die Anzahl der Anfragen pro Minute an der ersten Zwischenstelle mittels X1 und die Anzahl der Anfragen pro Minute an der zweiten Zwischenstelle mittels X2 simuliert. Die bedingte Verteilung von X gegeben X +Y = k ist dann die Frage, wie viele der Anfragen am Server von der ersten Zwischenstelle kommen. Nach Satz 7.8 ist X + Y ∼ Poi (λ + µ) und damit berechnet man pX|X+Y (j|k) = P (X = j | X + Y = k) = P (X = j, Y = k − j) P (X + Y = k) X,Y unabhängig = P (X = j) P (Y = k − j) P (X + Y = k) k−j j µ exp (−λ) λj! exp (−µ) (k−j)! = k exp (−λ − µ) (λ+µ) k! 1 k j k−j λ µ j k−j j (λ + µ) (λ + µ) j k−j µ k λ . · λ+µ λ+µ j | {z } = = λ =1− λ+µ λ Damit ist die bedingte Verteilung von X gegeben X + Y = k genau durch B k, λ+µ gegeben. Nach obigen Beispielen kann man schon vermuten: Bemerkung 7.15: Die Zufallsvariablen X und Y sind genau dann unabhängig, wenn pY |X (y|x) = pY (y) ∀ (x, y) ∈ Ω′ × Ω′′ gilt. Beweis: Nach Definition der bedingten Wahrscheinlichkeit ist pY |X (y, x) = pY (y) Wir sehen also ⇔ p(X,Y ) (x, y) = pY (y) pX (x) ⇔ P (X,Y ) (x, y) = P Y (y) · P X (x). pY |X (y|x) = pY (y) ∀ (x, y) ∈ Ω′ × Ω′′ ⇔ P (X,Y ) = P X ⊗ P Y . Nach Satz 4.18 ist die hintere Bedingung aber äquivalent zur Unabhängigkeit von X und Y . 82 7.2.1 7 Faltung, bedingte Verteilungen und Korrelation Der bedingte Erwartungswert 7.16 Definition: / Ω′ , Y : Ω / Ω′′ diskrete Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω Zufallsvariablen auf diesem Raum. Für x ∈ Ω′ mit P (X = x) > 0 ist der bedingte Erwartungswert von Y gegeben X = x definiert durch X E (Y | X = x) = y · pY |X (y|x) . y∈Y (Ω) Beispiel 7.17: Wir betrachten zweifaches Würfeln wie oben mit den Zufallsvariablen Y =Augensumme und X =erster Wurf. Dann schließen wir aus obiger Tabelle, dass 12 X E (Y | X = x) = y=2 y · pY |X (y|x) = x+6 X y = x + 3.5. 6 y=x+1 Beispiel 7.18: Seien X ∼ Poi (λ) und Y ∼ Poi (µ) unabhängig. Dann ist die bedingte Verteilung von X gegeben λ X +Y = x genau durch B x, λ+µ gegeben, womit nach dem Erwartungswert für Binomial-Experimente sofort λ E X X +Y =x =x· λ+µ folgt. 7.2.2 Die bedingte Erwartung Der eben definierte bedingte Erwartungswert E (Y | X = x) ist eine Funktion von x. Setze daher g (x) := E (Y | X = x) , 7.19 Definition: Die Abbildung g (X) : Ω x ∈ X (Ω) . / R, also Ω X / X(Ω) g /R ist eine Zufallsvariable auf Ω und heißt die bedingte Erwartung von Y gegeben X. Wir schreiben auch E (Y | X) := g (X) . Beispiel 7.20: Wir würfeln wieder wie in Beispiel 7.17. Dort haben wir schon berechnet, dass E (Y | X = x) = x + 3.5 gilt. Daher ist die bedingte Erwartung hier die Zufallsvariable E (Y | X) = X + 3.5. Beispiel 7.21: Wir betrachten wieder Poisson-verteilte Zufallsvariablen X und Y wie in Beispiel 7.18. Mit der Rechnung aus diesem Beispiel folgt λ . E (X | X + Y ) = (Y + X) λ+µ Wir wollen nun zeigen, dass man manchmal den Erwartungswert E (Y ) sehr gut mit Hilfe der bedingten Erwartung berechnen kann. Dazu nutzen wir den folgenden Satz: 7.22 Satz (iterierte Erwartung): Es gilt E (Y ) = E (E (Y | X)) . Beweis: Wende Satz 7.23 mit f ≡ 1 an. (7.3) 7 Faltung, bedingte Verteilungen und Korrelation 83 Der folgende Satz ist allgemeiner und beinhaltet den Satz über die iterierte Erwartung bereits: 7.23 Satz: Für eine beliebige Abbildung f : X (Ω) / R gilt E (f (X) · Y ) = E (f (X) · E (Y | X)) . Beweis: Betrachte Ω (X,Y ) h / X(Ω) × Y (Ω) {z } | /R ⊂R2 für h (x, y) := f (x) · y. Dann folgt mit doppelter Anwendung der Transformationsformel (Satz 5.12) E (f (X) · Y ) = E (h(X, Y )) X h(x, y)P (X = x, Y = y) = x∈X(Ω) y∈Y (Ω) = X X x∈X(Ω) y∈Y (Ω) = X x∈X(Ω) = X x∈X(Ω) = X x∈X(Ω) f (x) · ypY |X (y|x) · pX (x) f (x) · pX (x) X y∈Y (Ω) | ypY |X (y|x) {z =E(Y | X=x) f (x) · pX (x) E (Y | X = x) {z } | } =g(x) f (x)g(x) · pX (x) = E (f (X) · g(X)) = E (f (X) · E (Y | X)) , was die Behauptung zeigt. Beispiel 7.24: Wieder zweifaches Würfeln wie in Beispiel 7.17 (also Y =Augensumme, X =erster Wurf). Wir haben oben schon gesehen, dass E (Y | X) = X + 3.5 gilt. Damit folgt aus dem Satz oben: E (Y ) 7.2.3 (7.3) = E (E (Y | X)) = E (X + 3.5) = E (X) + 3.5 = 7. Anwendung der iterierten Erwartung 7.25 Definition: Sei I eine beliebige Indexmenge und seien Xi , i ∈ I Zufallsvariablen. Wir nennen Xi , i ∈ I unabhängig, falls jede endliche Teilfamilie Xij , j ∈ J, #J < ∞, unabhängig ist. Der folgende Satz behandelt den Erwartungswert zufälliger Summen: 7.26 Satz (Wald’sche Identität): Sei N eine Zufallsvariable mit Werten in N0 . Seien X1 , X2 , ... Zufallsvariablen mit gleichem Erwartungswert und N, X1 , X2 , ... im obigen Sinne unabhängig. Setze N (ω) SN (ω) := X Xi (ω) . i=1 Dann gilt E (SN ) = E (N ) · E (X1 ) . 84 7 Faltung, bedingte Verteilungen und Korrelation Beweis: Es gilt pSN |N (j|n) = P (SN = j, N = n) = P (N = n) Nach Dem Blockungslemma (Satz 4.24) sind auch n P P n P i=1 Xi = j, N = n P (N = n) . Xi und N unabhängig, das liefert i=1 pSN |N (j|n) = P n X Xi = j i=1 ! . Damit ist aber per Definition E (SN | N = n) = ∞ X j=0 j·P = E n X i=1 Xi n X Xi = j i=1 ! ! = n · E (X1 ) , da nach Voraussetzung alle Xi ’s den gleichen Erwartungswert haben. Das zeigt E (SN | N ) = N · E (X1 ) und mit dem Satz über die iterierte Erwartung folgt E (SN ) (7.3) = E (E (SN | N )) = E (N · E (X1 )) = E (N ) · E (X1 ) . Das zeigt die Behauptung. Beispiel 7.27: Wir betrachten N als die Anzahl Schadensfälle in einem Jahr bei einer Versicherung und X1 , X2 , ... als die entsprechenden Schadenshöhen. Dann liefert uns die Wald’sche Identität eine Formel für die zu erwartenden Leistungen, die die Versicherung zu zahlen hat. Beispiel 7.28: Wir betrachten N als Anzahl von Münzwürfen, bis das Ergebnis Kopf“ zum ersten Mal auftritt und Xi ” als die Augenzahl eines Würfelwurfs. Dann entspricht die Summe N (ω) SN (ω) := X Xi (ω) i=1 genau der Summe der Augenzahlen der Würfelwürfe, bis bei parallelen Münzwürfen erstmalig Kopf“ ” kommt. Da N ∼ Geo 12 gilt, liefert die Wald’sche Identität E (SN ) = E (N ) · E (X1 ) = 2 · 3.5 = 7. 7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23) Wir wollen hier E (Y | X) als bester Vorhersager von Y gegeben die Information X“ betrachten ” (bezüglich des erwarteten quadratischen Fehlers). Wir beobachten zunächst: Bemerkung 7.29: Sei Y eine reelle Zufallsvariable. Die reelle Zahl a = a∗ ∈ R, so dass der erwartete quadratische Fehler (E(Y − a)2 ) minimal wird, ist a∗ = E(Y ). Beweis: Per Definition ist für unser a∗ genau E (Y − a∗ )2 = V (Y ). 7 Faltung, bedingte Verteilungen und Korrelation 85 Kleiner kann dieser Wert nicht werden, denn V (Y ) ist minimal, denn setzt man f (a) = E (Y − a)2 = E(Y 2 ) − 2aE(Y ) + a2 , so ist f ′ (a) = −2E(Y ) + 2a = 0 ⇔ a = E(Y ). Da es sich bei f um eine nach oben geöffnete Parabel handelt, ist a∗ = E (Y ) somit das eindeutige globale Minimum. 7.30 Satz: / R ist Seien X und Y reelle Zufallsvariablen. Für jede Funktion ϕ : X(Ω) 2 E (Y − ϕ(X)) ≥ E (Y − E(Y | X))2 und Gleichheit gilt genau für ϕ(x) = E(Y | X). Beweis: Sei ϕ : X(Ω) / R eine beliebige Funktion. Dann gilt 2 2 E (Y − E(Y | X)) + E (ϕ(X) − E( Y | X)) 2 = E Y 2 − 2E (Y · E (Y | X)) + E (E (Y | X)) 2 2 +E (ϕ(X)) − 2E (ϕ(X) · E(Y |X)) + E (E(Y |X)) . (7.4) (7.5) Nach Satz 7.23 sind E (ϕ(X) · E (Y | X)) = E (ϕ(X) · Y ) (7.6) 2 E(Y · E(Y | X)) = E (E(Y | X) · E(Y | X)) = E (E(Y |X)) | {z } =:f (X) Daher folgt (7.6) &(7.7) = = . (7.7) −2E (Y · E(Y | X)) + E (E(Y | X))2 − 2E (ϕ(X) · E(Y | X)) + E (E(Y | X))2 −2E (E(Y |X))2 + 2E (E(Y |X))2 − 2E (ϕ(X) · Y ) −2E(ϕ(X) · Y ) und damit haben wir (7.5) = = 2 2 E (Y − E(Y |X)) + E (ϕ(X) − E(Y |X)) E(Y 2 ) − 2E(ϕ(X) · Y ) + E (ϕ(X))2 2 E (Y − ϕ(X)) 2 2 Da (ϕ(X) − E(Y |X)) ≥ 0 ist auch E (ϕ(X) − E(Y |X)) ≥ 0 und es folgt die Behauptung. Bemerkung 7.31: In diesem Sinn ist E(Y | X) der beste Vorhersager von Y gegeben X, denn er minimiert den erwarteten quadratischen Fehler. 7.3 Korrelation Wir wollen nun den besten Vorhersager der Form aX + b (a, b ∈ R) finden. Das heißt, wir betrachten im Folgenden nur lineare ϕ. 7.32 Definition: Seien X, Y reelle Zufallsvariablen mit V (X) > 0, V (Y ) > 0. Ihr Korrelationskoeffizient ist ρX,Y := p CoV(X, Y ) CoV(X, Y ) p . = σX · σY V (X) · V (Y ) 86 7 Faltung, bedingte Verteilungen und Korrelation Bemerkung 7.33: X und Y sind unkorreliert genau dann, wenn ρX,Y = 0 ist. 7.34 Satz (Bester linearer Vorhersager): Y Die Zahl E (Y − aX − b)2 wird minimal für a∗ = σσX · ρX,Y und b∗ = E(Y ) − den minimalen Wert gilt: 2 E (Y − a∗ X − b∗ ) = 1 − ρ2X,Y · V (Y ), σY σX · ρX,Y · E(X). Für wobei (1 − ρ2X,Y ) die Verbesserung gegenüber dem konstanten Vorhersager V (Y ) ist. Beweis: Für festes a wird laut Bemerkung 7.29 E (Y − aX − b)2 minimiert (wobei wir Y −aX als Zufallsvariable Z betrachten und b finden wollen, s.d. der Ausdruck minimiert wird) durch b∗ = E(Y − aX) = E(Y ) − aE(X) und es ist 2 E (Y − aX − b∗ ) = V (Y − aX). Nun müssen wir ein a finden, sodass V (Y − aX) minimal wird. Wenn wir f (a) := V (Y −aX) = V (Y )+CoV(Y, −aX)+CoV(−aX, Y )+V (−aX) = V (Y )−2a CoV(X, Y )+a2 V (X) setzen, so ist f ′ (a) = −2 CoV(X, Y ) + 2aV (X) = 0 genau dann, wenn a = a∗ = CoV(X, Y ) σY · ρX,Y = V (X) σX ist und es folgt durch Einsetzen in die Gleichung oben ∗ V (Y − a X) CoV(X, Y ) · CoV(X, Y ) + = V (Y ) − 2 V (X) CoV(X, Y ) V (X) 2 · V (X) CoV(X, Y )2 CoV(X, Y )2 + V (X) V (X) CoV(X, Y )2 = V (Y ) · 1 − V (X) 2 = V (Y ) · 1 − ρX,Y = V (Y ) − 2 Das zeigt die Behauptung. Bemerkung 7.35: Mit a = 0 und b = E(Y ) folgt: 2 2 0 ≤ E (Y − a∗ X − b∗ ) ≤ E (Y − 0X − E(Y )) = V (Y ) {z } | =(1−ρ2X,Y )·V (Y ) und damit 0 ≤ ρ2X,Y ≤ 1 bzw. − 1 ≤ ρX,Y ≤ 1. 7.36 Definition: Ist ρX,Y > 0, so nennen wir X und Y positiv korreliert. Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten auch größere Y -Werte voraussagen. 7.37 Definition: Ist ρX,Y < 0, so nennen wir X und Y negativ korreliert. Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten kleinere Y -Werte voraussagen. 8 Erzeugende Funktion und Verzweigungsprozesse 8 87 Erzeugende Funktion und Verzweigungsprozesse In diesem Abschnitt werden wir sehen, dass man Wahrscheinlichkeitsverteilungen Funktionen3 zuordnen kann, sodass kompliziertes Rechnen mit Wahrscheinlichkeitsverteilungen (z.B. Faltungen) zum einfachen Rechnen mit den zugehörigen Funktionen wird (z.B. Produkt der Funktionen). In der Wahrscheinlichkeits- und Maßtheorie wird dies bei Momenterzeugenden Funktionen und bei Fourier-Transformationen genutzt. Wir betrachten hier nun als einfacheres Beispiel für analytische Methoden: 8.1 Definition (Erzeugende Funktion): Sei X eine diskrete Zufallsvariable auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit Werten in N0 . Sei pk = P (X = k) für k ∈ N0 . Die erzeugende Funktion (der Verteilung) von X ist die Funktion gX (t) := ∞ X k=0 pk · t k . Bemerkung 8.2: ∞ P pk = 1 und pk ≥ 0 folgt, dass gX (t) für alle t ∈ [−1, 1] konvergiert (sogar absolut). Wegen gX (1) = k=0 Insbesondere gilt gX (1) = 1. Folglich können wir den Differenzierbarkeitssatz für Potenzreihen anwenden, das liefert das folgende 8.3 Lemma: Für t ∈ (−1, 1) ist die j-te Ableitung gegeben durch (j) gX (t) = ∞ X k=j k · (k − 1) · ... · (k − j + 1) · pk · t(k−j) . 8.4 Satz: Die Verteilung von X ist durch gX festgelegt. Beweis: (j) Es gilt P (X = 0) = p0 = gx (0) und mit obigem Lemma gx (0) = j! · pj , das heißt P (X = j) = 1 (j) · g (0). j! X Es folgt die Behauptung. Beispiel 8.5: Sei X ∼ Poi(λ). Dann gilt gX (t) = ∞ X (λt)k λk k = exp(−λ) · exp(λ · t) ·t = exp(−λ) exp(−λ) · k! {z k!} k=0 k=0 | ∞ X pk Diese Funktion sieht für λ = 2 wie folgt aus: 2 1 −1 0 1 t Abbildung 10: Die erzeugende Funktion gX für X ∼ Poi (2). 3 Das meint entweder R / R oder C / C! 88 8 Erzeugende Funktion und Verzweigungsprozesse Beispiel 8.6: Sei X ∼ B(n, p). Dann gilt gX (t) = n X n k k=0 = Diese Funktion sieht für n = 2 und p = 1 2 pk · (1 − p)n−k · tk (p · t + (1 − p))n wie folgt aus: 2 1 −1 1 t 0 Abbildung 11: Die erzeugende Funktion gX für X ∼ B 2, 12 . 8.7 Satz (Eigenschaften): Sei g = gX eine erzeugende Funktion. • Für 0 ≤ t ≤ 1 ist g stetig, monoton wachsend und konvex. • Es gilt lim g (1) (t) = E(X) tր1 und allgemeiner lim g (j) (t) = E (X · (X − 1) · (X − 2) · ... · (X − j + 1)) . tր1 Man nennt dies j-tes faktorielles Moment von X. Beweis: • Als absolut konvergente Potenzreihe ist g in [−1, 1] stetig. Da mit dem Lemma g ′ (t) = ∞ X k=1 k · pk tk−1 gilt und k · pk ≥ 0 ist, ist g ′ ≥ 0 in [0, 1] und daher g monoton wachsend in [0, 1]. g ist konvex, da es eine positive (pk ≥ 0!) Linearkombination der konvexen Funktion t 7→ tk mit k ≥ 0 ist. • Der Abel’sche Grenzwertsatz besagt: Wenn ak ≥ 0 und ak ∈ R so gilt lim tր1 ∞ X ak tk = ∞ X ak k=0 k=0 wobei beide Seiten ∞ sein können. Mit der Transformationsformel für den Erwartungswert (Satz 5.12) gilt für die Funktion h(k) := k · (k − 1) · ... · (k − j + 1) lim g (j) (t) tր1 = ∞ X k=j Transformationsformel k · (k − 1) · ... · (k − j + 1) · pk = E(h(X)) = E(X(X − 1)(X − 2) · ... · (X − j + 1)). 8 Erzeugende Funktion und Verzweigungsprozesse 89 Beispiel 8.8: Sei X ∼ Poi(λ). Wir wollen nun E(X) und V (X) analytisch bestimmen (obwohl wir das Ergebnis ja schon kennen). Die erzeugende Funktion ist nach Beispiel 8.5 gX (t) = exp(−λ) · exp(λt). Man berechnet die Ableitungen (1) = exp(−λ) · λ · exp(λt) (2) = exp(−λ) · λ2 · exp(λt). gX (t) gX (t) Mit dem Satz ist (1) E(X) = lim gX = exp(−λ) · exp(λ) · λ = λ tր1 und (2) E(X(X − 1)) = E X 2 − E(X) = lim gX (t) = λ2 . tր1 Wir erhalten durch Umstellen 2 V (X) = E X 2 − (E(X)) = λ2 + λ − λ2 = λ. 8.9 Satz: Seien X, Y unabhängige Zufallsvariablen mit Werten in N0 . Dann gilt gX+Y (t) = gX (t) · gY (t), t ∈ [−1, 1] . Beweis: Sei t ∈ [−1, 1] fest. Wir sehen mit der Transformationsformel (Satz 5.12) für die Funktion h(x) := tx , x ≥ 0: ∞ X tk · P (X = k) = gX (t) . E tX = E (h(X)) = k=0 Nach dem Blockungslemma sind auch die Zufallsvariablen tX und tY unabhängig und mit der Produktformel für den Erwartungswert unabhängiger Zufallsvariablen (Satz 5.19) folgt gX+Y (t) = E tX+Y = E tX · tY = E(tX ) · E(tY ) = gX (t) · gY (t). Das zeigt schon die Behauptung. Beispiel 8.10: Wir wollen nun mit dieser Formel zeigen, dass Poi(λ) ⋆ Poi(µ) = Poi(λ + µ) gilt. Beweis: Seien X ∼ Poi(λ) und Y ∼ Poi(µ) unabhängig. Dann gilt gX+Y (t) Satz 8.9 = gX (t) · gY (t) = exp(λ) exp(λt) exp(−µ) exp(µt) = exp(−(λ + µ)) exp((λ + µ)t) und da nach Satz 8.4 die Verteilung von X + Y bereits durch gX+Y festgelegt ist folgt die Behauptung. Wir wollen an dieser Stelle noch einen zweiten, elementaren Beweis ohne Benutzung des Erwartungswertes bzw. des Blockungslemmas für die oben schon gezeigte Formel gX+Y (t) = gX (t) · gY (t), t ∈ [−1, 1] für unabhängige Zufallsvariablen X, Y mit Werten N0 geben: (8.1) 90 8 Erzeugende Funktion und Verzweigungsprozesse Beweis: Per Definition ist gX+Y (t) ∞ X = k=0 ∞ X (7.2) = k=0 P (X + Y = k) tk k X j=0 tk P (X = j) · P (Y = k − j) |{z} ∞ X P (X = j) tj · Cauchy-Reihenprodukt = ∞ X j=0 =tj ·tk−j P (Y = k) t k=0 k ! gX (t) · gY (t), = was die Behauptung schon zeigt. Folgerung 8.11: Für endlich viele unabhängige, N0 -wertige Zufallsvariablen X1 , ..., Xn gilt gX1 +...+Xn = gX1 · ... · gXn als Funktion. Beweis: Einfach induktiv (8.1) anwenden. 8.12 Satz (Erzeugende Funktion für zufällige Summe): Seien N, X1 , X2 , ... unabhängige, N0 -wertige diskrete Zufallsvariablen auf (Ω, P ), s.d. die Zufallsvariablen X1 , X2 , ... alle die gleiche Verteilung haben. Setze N (ω) SN (ω) := X ω ∈ Ω. Xi (ω) , j=1 Dann ist gSN (t) = (gN ◦ gX1 ) (t) = gN (gX1 (t)) ∀ t ∈ [−1, 1] . Beweis: n P Xi für jedes n ∈ N0 unabhängig sind, stellen wir zunächst Da nach dem Blockungslemma auch N und i=1 fest, dass P (Sn = k) = ∞ X P (N = n, Sn = k) n=0 = ∞ X n=0 P (N = n) · (Sn = k) (8.2) Damit folgt direkt aus der Definition der erzeugenden Funktion für t ∈ [−1, 1], dass gSN (t) = ∞ X k=0 (8.2) = P (SN = k) · tk ∞ ∞ X X k=0 n=0 absolute Konvergenz = ∞ X P (N = n) · P (Sn = k) · tk ∞ X P (N = n) n=0 k=0 =gSn (t) = ∞ X n=0 X1 ,X2 ,... gleich verteilt = ∞ X {z Folgerung 8.11 = P (N = n) gX1 (t) · ... · gXn (t) P (N = n) (gX1 (t)) n=0 = | P (Sn = k) · tk gN (gX1 (t)) . n } gX1 (t)·...·gXn (t) 8 Erzeugende Funktion und Verzweigungsprozesse 91 Das zeigt die Behauptung. Als Korollar erhalten wir hier einen Spezialfall (N0 -wertige Zufallsvariablen) der Wald’schen Identität: Korollar 8.13: Unter den Voraussetzungen von Satz 8.12 gilt E (SN ) = E (N ) · E (X1 ) . Beweis: ′ Für jede Zufallsvariable X ist nach Satz 8.7 E (X) = lim gX (t). Daher folgt: tր1 E (SN ) lim gS′ N (t) = tր1 Satz 8.12 = ′ lim (gN ◦ gX1 ) (t) tր1 ′ lim g (X1 ) (t) · gN (gX1 (t)) = tր1 ′ lim g (X1 ) (t) · lim gN (gX1 (t)) = tր1 tր1 Da nach Bemerkung 8.2 gX1 (1) = 1 gilt und gX1 nach Satz 8.7 monoton wachsend ist, gilt gX1 (t) ր 1 für t ր 1. ′ (t) = E(N ) existiert, folgt Da lim gN tր1 E (SN ) = = ′ lim g (X1 ) (t) · lim gN (gX1 (t)) tր1 ′ lim g (X1 ) (t) · lim gN (t) tր1 = E(X1 ) · E(N ), was die Behauptung zeigt. tր1 tր1 92 8.1 8 Erzeugende Funktion und Verzweigungsprozesse Verzweigungsprozesse Wir nehmen an, dass es in der 0-ten Generation Z0 = 1 Teilchen gibt. Dieses erzeugt eine zufällige Anzahl k ∈ N0 von Nachkommen gemäß einer Wahrscheinlichkeitsfunktion, die durch p0 , p1 , p2 , ... gegeben ist. Dabei bezeichnet pi die Wahrscheinlichkeit, dass i Nachkommen erzeugt werden etc.. Diese Nachkommen bilden die erste Generation. Die Teilchen der ersten Generation erzeugen dann unabhängig voneinander wieder Nachkommen nach dem gleichen Zufallsgesetz p0 , p1 , p2 , .... Diese Nachkommen bilden dann die zweite Generation usw.. 8.1.1 Modellbildung Diesen Prozess wollen wir nun modellieren: Sei (pk )k∈N0 die vorgegebene Wahrscheinlichkeitsfunktion. Seien außerdem Xn,j für n, j ∈ N unabhängige Zufallsvariablen mit Werten in N0 und P (Xn,j = k) = pk für alle n, j ∈ N und k ∈ N0 . Sei zuletzt Z0 = 1. Die Anzahl der Teilchen in der ersten Generation sei durch Z1 := X1,1 gegeben. Wir definieren nun induktiv die Anzahl der Teilchen in der n-ten Generation: Ist Zn−1 (also die Anzahl Teilchen in der n-ten Generation) schon definiert, so setze Zn−1 Zn := X Xn,j . j=1 Die Xn,j entspricht also der Anzahl an Nachkommen, die das j-te Element aus der n − 1-ten Generation zur n-ten Generation beisteuert. Die Folge von Zufallsvariablen (Zn )n∈N heißt dann Galton-Watson-Prozess. 8.1.2 Motivation Verzweigungsprozesse werden aus den verschiedensten Motivationen heraus betrachtet: So interessierten sich um 1870 einige Forscher für die Wahrscheinlichkeit des Aussterbens von Familiennamen, welche mittels eines Verzweigungprozesses wie oben berechnet werden kann. Heutzutage werden Verzweigungsprozesse vor allem in der Kernphysik und beim Studium von Netzwerken gebraucht. 8.1.3 Aussterbewahrscheinlichkeit Sei qn := P (Zn = 0) die Wahrscheinlichkeit, dass die n-te Generation leer ist (d.h. zur Generation n oder früher ausgestorben“), n ∈ N. Dann ist q1 die Wahrscheinlichkeit, dass der Prozess in der ersten ” Generation ausstirbt usw.. Offenbar ist das Ereignis, dass der ganze Prozess irgendwann ausstirbt, gegeben als J := ∞ [ n=1 {Zn = 0} . Auch klar ist, dass {Zn = 0} ⊂ {Zn+1 = 0} für alle n ∈ N gilt, da der Prozess natürlich ausgestorben bleibt, wenn er einmal ausgestorben ist. Mit (R9) aus §1 folgt q = P (J ) = lim P (Zn = 0) = lim qn . n→∞ n→∞ Wir nennen q auch die Aussterbewahrscheinlichkeit des Prozesses. Zur Bestimmung von q können wir also die Zahlen qn berechnen. Dazu wollen wir die erzeugenden Funktionen gZn (0) = P (Zn = 0) = qn nutzen. Da nach Konstruktion alle Zufallsvariablen Xn,j die gleiche Verteilung, ergo auch die gleiche erzeugende Funktion ∞ X pk t k g (t) := gXn,j (t) = k=0 mit den am Anfang vorgegebenen Zahlen pk haben, gilt gZ1 Z1 =X1,1 = gX1,1 = g. 8 Erzeugende Funktion und Verzweigungsprozesse 93 Genauso folgt Z2 = Z1 X X2,j Z2 X X3,j j=1 Z3 = j=1 (8.12) ⇒ (8.12) ⇒ gZ2 = gZ1 ◦ gX1,1 = g ◦ g gZ3 = gZ2 ◦ gX2,1 = g ◦ g ◦ g und induktiv gZn = g ◦ ... ◦ g . | {z } n−mal Daher ist q = lim qn = lim gZn (0) = lim g ◦ ... ◦ g (0). n→∞ | {z } n→∞ n→∞ n−mal 8.14 Lemma: Die Zahl q = lim g ◦ ... ◦ g (0) n→∞ | {z } n−mal ist die kleinste Lösung der Gleichung g(t) = t im Intervall [0, 1]. Beweis: Da g monoton steigend ist und g(1) = 1 gilt, ist g eine Selbstabbildung auf [0, 1]. Daher ist g(0) ≥ 0 und entsprechend g(g(0)) ≥ g(0) mit der Monotonie. Induktiv folgt, dass die Folge qn = g ◦ ... ◦ g(0) monoton wachsend und durch 1 beschränkt ist. Daher existiert die Zahl q. Jetzt zeigen wir zunächst, dass q eine Lösung von g(t) = t ist: g stetig g(q) = g lim g ◦ ... ◦ g (0) = lim g ◦ ... ◦ g (0) = q. n→∞ | {z } n→∞ | {z } n−mal (n+1)−mal Bleibt zu zeigen, dass q die kleinste Zahl aus [0, 1] mit dieser Eigenschaft ist. Sei x ∈ [0, 1] mit g(x) = x. Insbesondere gilt dann auch für alle n ∈ N g ◦ ... ◦ g (x) = x. | {z } n−mal Aus der Monotonie von g folgt 0 ≤ x ⇒ g(0) ≤ g(x) = x ⇒ g(g(0)) ≤ g(g(x)) = x ⇒ g ◦ ... ◦ g (0) ≤ x ∀ n ∈ N. | {z } n−mal Durch Bilden des Grenzwertes n 8.15 Definition: Wir nennen g : [0, 1] mischen Systems. / ∞ erhält man die Behauptung. / [0, 1] ein dynamisches System und die Zahl q heißt Grenzwert des dyna- 94 8 Erzeugende Funktion und Verzweigungsprozesse Beispiel 8.16: k Sei pk := exp (−λ) λk! mit λ = 12 , so kann man am Graphen der erzeugenden Funktion g(t) = exp (−λ) exp (λt) leicht sehen, dass t = 1 die kleinste Lösung der Gleichung g(t) = t ist: b g(t) t Abbildung 12: Die Funktion g(t) = exp − 21 exp 1 2t . Daher ist hier q = 1, was bedeutet, dass der Prozess mit Sicherheit ausstirbt! Verwendet man dagegen λ = 2, so kann man am Graphen von g(t) = exp (−λ) exp (λt) leicht sehen, das der kleinste Wert t mit g(t) = t kleiner als 1 (nämlich t ≈ 0.2032) ist: b g(t) b t Abbildung 13: Die Funktion g(t) = exp (−2) exp (2t). Wir wollen nun noch einige Aussagen über q allein mittels der Zahlen p0 = P (Xn,j = 0) und E (Xn,j ) ohne Beweis angeben. Den Beweis lassen wir allein deshalb weg, weil er elementare Analysis ist und sonst nichts mit Stochastik zu tun hat. 8.17 Satz (ohne Beweis): (1) Ist p0 = 0, so gilt q = 0. (2) Ist p0 > 0 und E (Xn,j ) > 1, so ist q ∈ ]0, 1[. (3) Ist p0 > 0 und E (Xn,j ) = 1, so gilt trotzdem q = 1. k Auf den Übungsblättern wird für die Zahlen pk := p · (1 − p) explizit gezeigt, dass q < 1 ⇔ E (Xn,j ) > 1. 9 Grenzwertsatz von de Moivre-Laplace 9 95 Grenzwertsatz von de Moivre-Laplace 9.1 Normalapproximation der Binomialverteilung Diese Approximation liefert ein Ergebnis für Summen unabhängiger Bernoulli-Variablen. Später wird sie als Spezialfall eines allgemeinen zentralen Grenzwertsatzes“ bewiesen. ” Seien X1 , X2 , ...Xn unabhängig und nach B(1, p) verteilt. Sei Sn = X1 + X2 + ... + Xn . Man stellt sich 0 < p < 1 fest vor und n als variabel. Sei p = 21 . Betrachte zum Beispiel Stabdiagramme für • n = 1 und S1 = X1 , • n = 2 und S2 = X1 + X2 ∼ B 2, 12 , • n = 50 und Sn = 50 P i=1 Xi ∼ B 50, 21 . Lässt man nun n gegen unendlich laufen, so ist Sn ∼ B(n, p), d.h. der Erwartungswert E(Sn ) = n · p sowie die Varianz V (Sn ) = n · p · (1 − p) gehen gegen unendlich - die Verteilung streut immer mehr. Genau das sehen wir auch bei Betrachtung der Stabdiagramme. Beide Effekte kann man stabilisieren“ indem man zu standardisierten Zufallsvariablen übergeht: ” Setze Sn − E(Sn ) Sn∗ = p . V (Sn ) Dann gilt für alle n ∈ N: E (Sn∗ ) = E = = V (Sn∗ ) p Sn − E(Sn ) p V (Sn ) 1 V (Sn ) ! · E (Sn − E(Sn )) 0, = V Sn − E(Sn ) p V (Sn ) ! = 1 · V (Sn − E(Sn )) V (Sn ) = V (Sn ) V (Sn ) = 1. Die Werte, die die Zufallsvariable Sn∗ annimmt, sind k − np x0 , x1 , ...xn ∈ R wobei xk = √ , npq 0 ≤ k ≤ n, q = 1 − p. Beispiel 9.1: = k5 − 10, 0 ≤ k ≤ 100. • Für n = 100, p = 21 ist zum Beispiel xk = k−50 5 Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 5 Werte an. k • Für n = 10.000, p = 21 ist zum Beispiel xk = k−5000 = 50 − 100, 0 ≤ k ≤ 100. 50 Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 50 Werte an. Wir möchten nun die Wahrscheinlichkeit bestimmen, dass Sn∗ in einem Intervall [a, b] liegt. Dazu formulieren wir den folgenden Satz. 96 9 Grenzwertsatz von de Moivre-Laplace 9.2 Satz (Grenzwertsatz von de Moivre-Laplace): Sei 2 1 x ϕ(x) := √ exp − , 2 2π x ∈ R. i.i.d Sei 0 < p < 1 fest und seien für jedes n X1 , ...Xn ∼ B(1, p). Dann gilt für jedes Paar a < b mit a, b ∈ R: lim P (a ≤ n→∞ Sn∗ ≤ b) = Zb ϕ(x) dx bzw. einseitig lim P n→∞ (Sn∗ ≤ b) = a Zb ϕ(x) dx. −∞ Mit der Stammfunktion Φ(t) := Zt ϕ(τ ) dτ, −∞ kann man schreiben: t∈R lim P (a ≤ Sn∗ ≤ b) = Φ(b) − Φ(a). n→∞ Der Beweis folgt später aus dem zentralen Grenzwertsatz (Satz 10.100). Bemerkung 9.3: Die Aussagen gelten auch für <“ statt ≤. ” 9.4 Definition: Die Funktion ϕ gegeben durch 2 t 1 √ exp − ϕ(t) := 2 2π nennt man auch Gaußsche Glockenkurve oder Dichte der Standard-Normalverteilung. Bemerkung 9.5 (Eigenschaften): Es gilt Z∞ ϕ(t) dt = 1. −∞ Außerdem ist ϕ beliebig oft stetig differenzierbar. Der Graph stellt sich wie folgt dar: −3 −2 −1 1 2 Abbildung 14: Die Dichte der Standardnormalverteilung ϕ(t) := √1 2π t 2 exp − t2 . 9.6 Definition: Wir nennen Φ die Verteilungsfunktion der Standardnormalverteilung. Bemerkung 9.7: Φ berechnet sich entsprechend wie folgt: Φ(1) −3 −2 −1 1 Abbildung 15: Die angegebene Fläche entspricht Φ(1) = 2 R1 −∞ √1 2π t 2 exp − t2 dt. 9 Grenzwertsatz von de Moivre-Laplace 97 Oder direkt als Funktion: bbb bbb bbb bbb bbb 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbbb bbbb bbbb bbbb bbbb bbbb bbbb bbbb bbbbb bbbbb bbbbb bbbbbb bbbbbb bbbbbb bbbbbbb bbbbbbbb bbbbbbbbb bbbbbbbbbb bbbbbbbbbbbb bbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb −4.0 −3.6 −3.2 −2.8 −2.4 −2.0 −1.6 −1.2 −0.8 −0.4 0 bbb bb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bbb bb bb bbb bbb bbb bbbb bbbb bbbb bbbb bbbb bbbb bbbb bbbb bbbbb bbbbb b bbbbb bbbbb bbbbbb bbbbbb bbbbbbb bbbbbbbb bbbbbbbbb bbbbbbbbbb bbbbbbbbbbbb bbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0 Abbildung 16: Die Verteilungsfunktion Φ der Standardnormalverteilung. Für Φ(t) gibt es keinen geschlossenen Ausdruck, daher ist es für Werte t ≥ 0 tabelliert: Beispiel 9.8: • Φ(1) ≈ 0.8413, • Φ(1.645) ≈ 0.95, • Φ(1.96) ≈ 0.975, d.h. zum Beispiel lim P (Sn∗ ≤ 1) /∞ n n→∞ / Φ(1) = 0.8413. Für weitere Werte siehe Anhang A. Bemerkung 9.9: Um Φ an negativen Stellen auszuwerten, betrachtet man für t > 0: Φ(−t) = Z−t ϕ(τ ) dτ −∞ Symmetrie von ϕ = Z∞ ϕ(τ ) dτ t = Z∞ −∞ = ϕ(τ ) dτ − Zt ϕ(τ ) dτ −∞ 1 − Φ(t) Beispiel 9.10: i.i.d Seien X1 , ..., Xn ∼ B(1, p), Sn := Dann bestimmt man n X Sn − np . Xi und Sn∗ := √ npq i=1 lim P (−1 ≤ Sn∗ ≤ 1) n→∞ = Φ(1) − Φ(−1) = Φ(1) − (1 − Φ(1)) = 2Φ(1) − 1 Tabelle = 2 · 0.8413 − 1 ≈ 0.68 98 9 Grenzwertsatz von de Moivre-Laplace 9.2 Anwendung I: Normalapproximation der Binomialverteilung Wir erinnern uns: Die Poissonapproximation mit λ = n · p für B(n, p) ist eine gute Approximation, wenn p sehr klein ist. Die Normalapproximation die wir nun vorstellen wollen ist gut, wenn p nicht zu nahe bei 0 oder 1 ist. Als Faustregel für gut“ gilt hier: npq ≥ 9. ” Für Sn ∼ B(n, p) und ganzzahlige Werte 0 ≤ i ≤ j ≤ n gilt P (i ≤ Sn ≤ j) = P i − np j − np Sn − np ≤ √ ≤ √ √ npq npq npq | {z } | {z } | {z } ∗ =Sn =:a de Moivre ≈ Φ j − np √ npq −Φ =:b i − np √ npq Bemerkung 9.11: • Dies sieht eigentlich verboten aus, da a und b von n abhängen. Es ist jedoch kein Problem, denn man kann zeigen: /∞ n / 0. sup | P (a ≤ Sn∗ ≤ b) − (Φ(b) − Φ(a)) | a<b • Fehlerabschätzungen (nach Berry-Esseen): | P (a ≤ Sn∗ ≤ b) − (Φ(b) − Φ(a)) | ≤ wobei cp konstant ist und nur von p abhängt. Für p = 21 ist zum Beispiel cp = 1 und der Fehler ist ≤ 1.6 √ , n 1.6 · cp √ n d.h. etwa ≤ 0.016 für n = 10.000. Bemerkung 9.12: Man kann die Approximation verbessern, indem man j durch j + turterme ± 12 “), dies verliert aber für n → ∞ an Bedeutung. 1 2 und i durch i − 1 2 ersetzt ( Korrek” Beispiel 9.13: Es wird n = 600-mal gewürfelt. Sei Sn die Anzahl der Sechsen. Dann ist 1 S600 ∼ B 600, . 6 Man berechnet mit q = 1 − p: • E (Sn ) = np = 600 · 1 6 • V (Sn ) = npq = 600 · = 100, 1 6 · 5 6 = 83 13 , • σ ≈ 9.13.... Damit berechnet man: P (90 ≤ Sn ≤ 110) ≈ 90 − 100 110 − 100 Sn − 100 P 9.13 ≤ 9.13 ≤ 9.13 | {z } ∗ =Sn de Moivre ≈ = ≈ Tabelle −10 10 −Φ Φ 9.13 9.13 10 2·Φ −1 9.13 2 · Φ(1.095) − 1 = 2 · 0.863 − 1 = 0.726. 9 Grenzwertsatz von de Moivre-Laplace 99 Bei der Rechnung mit Korrekturtermen ergibt sich: 10 + 12 −10 − 21 P (90 ≤ Sn ≤ 110) ≈ Φ −Φ 9.13 9.13 10.5 −1 = 2·Φ 9.13 ≈ 2 · Φ(1.15) − 1 ≈ 2 · 0.8749 − 1 = 0.7498. Der wahre Wert liegt bei P (90 ≤ Sn ≤ 110) = 0.7501 - für n = 600 kann man diesen rechnergestützt noch leicht exakt berechnen. Mit Tschebyschow erhält man: P (90 ≤ Sn ≤ 110) = 1 − P (|Sn − 100| ≥ 11) ≥ 0.31 | {z } ≤ - keine große Erkenntnis! 9.3 V (Sn ) = 83.3 121 ≈0.69 112 Anwendung II: Bestimmung eines Stichprobenumfangs Konkret wollen wir dies für Wahlvorhersagen durchführen. Die Aufgabe ist, den Anteil an einer Partei A aus einer Umfrage von n zufällig ausgewählten Befragten heraus zu schätzen. von A Seien X1 , ...Xn ∼ B(1, p) unabhängig und p = alle Wähler Wahlberechtigten , womit p unbekannt ist! Aufgabe: Schätze p durch p̂ = n1 Sn . Wie groß ist n zu wählen, damit für jedes p ∈ [0, 1] mit Wahrscheinlichkeit ≥ 0.95 der wahre Wert p im (zufälligen) Intervall [p̂ − ε, p̂ + ε] liegt? Sei ε = 0.01, das heißt 1% Abweichung ist erlaubt. Dann ist Pp (p ∈ [p̂ − ε, p̂ + ε]) Pp (−0.01 ≤ p̂ − p ≤ 0.01) np̂ − np 0.01 · n −0.01 · n ≤ √ ≤ √ Pp √ npq npq npq 0.01 · n −0.01 · n Φ √ −Φ √ npq npq 0.01 · n 2·Φ √ −1 npq | {z } = = de Moivre ≈ = ! ≥0.95 Es folgt Φ 0.01 · n √ npq ! ≥ 1.95 = 0.975. 2 Aus der Tabelle entnimmt man Φ(t) ≥ 0.975 für t ≥ 1.96 und somit folgt 0.01·n √ npq ⇔ ⇔ ⇐ √ n n n ≥ 1.96 √ ≥ 196 pq ≥ (196)2 · pq |{z} ≥ 9604. ≤ 14 Ist die Vorinformation p ≤ 0.1 gegeben, dann genügt es n ≥ (196)2 · max p(1 − p) = (196)2 · 0.1 · 0.9 = 3458 p∈[0,0.1] Menschen zu befragen. 100 10 10 Allgemeine Modelle und stetige Verteilungen Allgemeine Modelle und stetige Verteilungen Von diesem Abschnitt an wollen wir uns nicht mehr länger auf diskrete Wahrscheinlichkeitsräume beschränken. Motiviert durch den Grenzwertsatz von de Moivre (Satz 9.2) kann man sich vorstellen, eine Zufallsgröße X“ zu betrachten, die jede reelle Zahl als Wert annehmen kann, s.d. ” Zb (10.1) P (a ≤ X ≤ b) = ϕ(t) dt = Φ(b) − Φ(a) a für a < b und die oben schon betrachtete Funktion 2 t 1 ϕ(t) = √ exp − . 2 2π In diesem Fall würde man sagen, dass X Standard-Normalverteilt ist und X ∼ N (0, 1) schreiben. Außerdem definiert (10.1) eine Funktion, die jedem reellen Intervall [a, b] eine Wahrscheinlichkeit“ zu” ordnet. Für Anwendungen, wie wir sie ab Abschnitt 10.3 behandeln wollen, genügt diese Vorstellung voll und ganz. Wir wollen hier aber vorher etwas Hintergrund behandeln, der vorwiegend aus Maßtheorie besteht. 10.1 Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen 10.1 Definition: Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, A, P ), s.d. Ω eine beliebige Menge und A eine σ-Algebra auf Ω ist, d.h. ein System von Teilmengen von Ω mit den folgenden Eigenschaften: (σ1) Ω ∈ A (σ2) A ∈ A ⇒ Ac ∈ A (σ3) A1 , A2 , ... ∈ A ⇒ ∞ S i=1 Ai ∈ A Außerdem ist P eine auf A definierte reelle Funktion mit (A1) P (A) ≥ 0 ∀ A ∈ A (A2) P (Ω) = 1 (A3) Sind A1 , A2 , ... ∈ A paarweise disjunkt, so gilt P ∞ [ i=1 Ai ! = ∞ X P (Ai ) . i=1 P heißt dann (Wahrscheinlichkeits-)Verteilung auf (Ω, A). Bemerkung 10.2: Das Axiom (σ3) sorgt dafür, dass Axiom (A3) Sinn macht. Beispiel 10.3: Ist Ω eine diskrete (d.h. abzählbare) Menge, so kann man A = P (Ω) (d.h. die Potenzmenge von Ω) verwenden und erhält so genau die diskreten Wahrscheinlichkeitsräume, wie wir sie bisher betrachtet haben. Beispiel 10.4: Für jede Menge Ω kann man A = {∅, Ω} betrachten. Dieser Fall ist aber nicht sehr interessant, man spricht dann auch von der trivialen σ-Algebra. Bemerkung 10.5: Aus den Axiomen (σ1) bis (σ3) folgt, dass eine σ-Algebra A gegen abzählbare mengentheoretische Operationen wie Schnitte, Komplementbildung, Differenz, Vereinigung etc. abgeschlossen ist. So gilt zum Beispiel !c !c !c ∞ ∞ ∞ [ [ [ (1.3) c Ai = A1 , A2 , ... ∈ A ⇒ = Ai Ai , i=1 i=1 und die rechte Menge ist wegen (σ2) und (σ3) wieder in A. i=1 10 Allgemeine Modelle und stetige Verteilungen 101 Bemerkung 10.6: Für eine Wahrscheinlichkeitsverteilung P wie in der Definition oben gelten ebenfalls alle Rechenregeln, die wir am Anfang für den diskreten Fall hergeleitet haben (d.h. Siebformel, (R1) bis (R9) usw.), da diese ja nur aus den Axiomen (A1) bis (A3) gefolgert wurden. 10.7 Definition: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Ω′ , A′ eine beliebige Menge Ω′ mit σ-Algebra A′ auf Ω′ . / Ω′ s.d. Eine Zufallsvariable X auf (Ω, A, P ) ist eine Abbildung X : Ω X −1 (A) = {x ∈ Ω | X(x) ∈ A′ } ∈ A ∀ A′ ∈ A′ (10.2) gilt. Bemerkung 10.8: Allgemeine Abbildungen X : (Ω, A) / Ω′ , A′ mit der Eigenschaft (10.2) nennt man auch meßbar. 10.9 Definition: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Ω′ , A′ eine beliebige Menge Ω′ mit σ-Algebra A′ auf Ω′ . Eine Zufallsvariable X auf (Ω, A, P ) definiert durch P X (A′ ) := P X −1 (A′ ) , A′ ∈ A′ eine Wahrscheinlichkeitsverteilung P X auf Ω′ , A′ , d.h. wir erhalten einen weiteren Wahrscheinlich keitsraum Ω′ , A′ , P X . Wir nennen P X auch Verteilung von X. Formal müssten wir hier jetzt die Axiome (A1) bis (A3) für P X nachrechen. Das gleicht aber wörtlich dem diskreten Fall, der nach Definition 4.5 gezeigt wurde. Bemerkung 10.10: Wie im diskreten Fall auch schreibt man auch P (X ∈ A′ ) := P X −1 (A′ ) , A′ ∈ A′ . Man kann sich nun fragen, wozu das Mengensystem A eigentlich notwendig ist. Warum kann man nicht immer einfach mit A = P (Ω) - also der Potenzmenge - wie im diskreten Fall arbeiten? Das folgende Beispiel liefert eine Begründung: Beispiel 10.11: Es gibt keine Wahrscheinlichkeitsverteilung auf allen Teilmengen von Ω = [0, 1[ mit folgender Eigenschaft: Ist A ⊂ [0, 1[ und x ∈ [0, 1[ so, dass A + x := {a + x | a ∈ A} ⊂ [0, 1[ ist, so gilt stets P (A) = P (A + x). Wir wollen also zeigen, dass es keine verschiebungsinvariante Wahrscheinlichkeitsverteilung auf P ([0, 1[) geben kann, wie es z.B. von einer Normalverteilung“ zu erwarten wäre. ” Dazu betrachten wir eine spezielle Menge A0 ⊂ 0, 12 (auch Vitali-Menge genannt), die wir wie folgt konstruieren: Betrachte die Äquivalenzrelaztion x ∼ y :⇔ |x − y| ∈ Q auf [0, 1[. Diese zerlegt [0, 1[ in Äquivalenzklassen [x] := {y | |x − y| ∈ Q} , x ∈ [0, 1[ . Gemäß dem Auswahlaxiom wähle aus jeder Klasse [x] einen Vertreter z[x] ∈ 0, 12 und definiere A0 als die Vereinigung all dieser Punkte. Man kann nun zeigen, dass eine Verteilung P auf P ([0, 1[) sowohl P (A0 ) = 0 als auch P (A0 ) > 0 erfüllen müsste - ein Widerspruch! Der einzige Ausweg ist also, P nur für bestimmte Teilmengen zu definieren, was uns zum obigen Begriff der σ-Algebra führt. Ohne Beweis wollen wir folgendes Resultat angeben: Bemerkung 10.12 (Satz von Banach-Kuratowski): Auf (R, P (R)) gibt es nur diskrete Wahrscheinlichkeitsverteilungen. 102 10.2 10 Allgemeine Modelle und stetige Verteilungen W-Verteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen Um Wahrscheinlichkeitsverteilungen auf R“ zu betrachten, benötigen wir zunächst eine σ-Algebra. Wir ” betrachten die folgende 10.13 Definition: Die Borel’sche σ-Algebra B auf R ist die kleinste σ-Algebra, die alle offenen Mengen enthält. Man beachte folgenden Satz aus der Maßtheorie: 10.14 Satz (ohne Beweis): Die folgenden Forderungen an eine σ-Algebra auf R sind äquivalent: (1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält. (2) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form [a, b] mit a < b enthält. (3) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form [a, b[ mit a < b enthält. (4) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form (−∞, b] mit b ∈ R enthält. Bemerkung 10.15: Die Borel’sche σ-Algebra B enthält im Wesentlichen alle Teilmengen von R, die einem in der Praxis begegnen. Allerdings enthält sie nicht alle Teilmengen von R, die Vitali-Menge A0 von oben ist nicht in B enthalten. 10.16 Definition: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine reelle Zufallsvariable X auf (Ω, A, P ) ist eine meßbare Abbildung X / (Ω, A, P ) (R, B) . Beispiel 10.17: Ein bekannter Satz aus der Maßtheorie sagt zum Beispiel, dass jede stetige Abbildung X : R eine reelle Zufallsvariable / (R, B) X : (R, B, P ) / R auch ist. Wie oben schon gesehen, liefert X als reelle Zufallsvariable dann eine Wahrscheinlichkeitsverteilung auf R. Das meint hier dann natürlich auf (R, B). Solche Verteilungen kann man mittels Funktionen beschreiben: 10.18 Definition: Eine Funktion F : R / [0, 1] heißt Verteilungsfunktion, wenn (1) F monoton wachsend ist (nicht notwendiger Weise streng monoton wachsend), (2) es gilt lim F (x) = 0 und lim F (x) = 1 und x→−∞ x→∞ (3) F ist rechtsstetig, d.h. für alle x ∈ R gilt F (x) = lim F (y). yցx Beispiel 10.19: Der folgende Graph definiert eine Verteilungsfunktion: 1 −1 0 1 t Abbildung 17: Beispiel einer Verteilungsfunktion. 10 Allgemeine Modelle und stetige Verteilungen 103 10.20 Satz: Sei P eine Verteilung auf R. Dann ist F (x) := P ((−∞, x]) eine Verteilungsfunktion. Beweis: Nutze aus §1 die Rechenregeln (R8) und (R9): A1 ⊃ A2 ⊃ ... ⇒ A1 ⊂ A2 ⊂ ... P ∞ \ Ai ! = lim P (Ai ) (10.3) Ai ! ⇒ = lim P (Ai ) (10.4) i=1 P ∞ [ i=1 i→∞ i→∞ Da P als Wahrscheinlichkeitsverteilung monoton ist (A ⊂ B wachsend. Außerdem folgt für An := (−∞, n] lim F (x) = lim F (n) = lim P (An ) x→−∞ n→−∞ lim F (x) x→∞ (10.3) = n→−∞ und genauso (10.4) = P −∞ \ n=−1 ∞ [ P ⇒ P (A) ≤ P (B)), ist auch F monoton (−∞, n] n=1 ! An ! = P (∅) = 0 = P (R) = 1. Bleibt die Rechtsstetigkeit von F zu zeigen. Sei dazu (xn )n∈N eine Folge aus R, die gegen x ∈ R konvergiert und xn ≥ x ∀ n ∈ N erfüllt. Ohne Einschränkung können wir xn+1 ≤ xn für alle n ∈ N annehmen, denn andernfalls wählen wir eine Teilfolge mit dieser Eigenschaft aus. Dann gilt ∞ \ (−∞, xn ] = (−∞, x] n=1 und daher folgt (10.3) lim F (xn ) = lim P ((−∞, xn ]) n→∞ = n→∞ P ((−∞, x]) = F (x). Das zeigt die Behauptung. Bemerkung 10.21: Insbesondere gilt also: Ist X eine reelle Zufallsvariable, so ist FX (x) := P (X ≤ x) = P X ((−∞, x]) die Verteilungsfunktion der Verteilung von X. Für diskrete Zufallsvariablen, die nur die Werte x1 , x2 , ... annehmen, ist FX (x) = ∞ X i=1 xi ≤x P (X = xi ) = P (X ≤ x) . Im Folgenden sehen wir etwa den Graphen von FX für eine Zufallsvariable X ∼ B 2, 12 , denn es gilt P (X = 0) = 41 , P (X = 1) = 12 , P (X = 2) = 14 : 1 b b b 0 1 2 3 Abbildung 18: Der Graph der Verteilungsfunktion FX für X ∼ B 2, 12 . Wir zitieren nun folgenden Satz aus der Maßtheorie: 104 10 Allgemeine Modelle und stetige Verteilungen 10.22 Satz (Umkehrung): Ist F eine Verteilungsfunktion, so gibt es genau eine Verteilung P auf R (d.h. auf (R, B)), s.d. P ((−∞, x]) = F (x) ∀ x ∈ R gilt. Damit gilt dann auch P ((−∞, b]) − P ((−∞, a]) = ((a, b]) = F (b) − F (a) für alle a < b ∈ R. Bemerkung 10.23: Die Sätze 10.20 und 10.22 zeigen, dass es eine Bijektion zwischen der Menge aller Verteilungsfunktionen und der Menge aller Verteilungen auf R gibt. Die Abbildung F 7→ P wird dabei durch Satz 10.22 geliefert. Sie ist nach Satz 10.20 surjektiv, und wie wir nun sehen werden auch injektiv: Sind F1 , F2 zwei Verteilungsfunktionen mit F1 6= F2 , so gibt es ein x ∈ R mit F1 (x) 6= F2 (x). Entsprechend erfüllen dann die zugehörigen Verteilungen P1 und P2 P1 ((−∞, x]) = F1 (x) 6= F2 (x) = P2 ((−∞, x]) , womit die Verteilungen nicht gleich sein können. 10.3 Stetige Verteilungen 10.24 Definition: Eine Dichte ist eine integrierbare Funktion f : R dass Z∞ / R mit f (t) ≥ 0 für alle t ∈ R und der Eigenschaft, f (t) dt = 1. (10.5) −∞ Beachte, das integrierbar“ hier Riemann-integrierbar“ heißt. ” ” Wir wollen in dieser Vorlesung nur Dichten betrachten, die stetig bis auf höchstens endlich viele Sprungstellen sind!! 10.25 Satz: Zu jeder Dichte f gibt es genau eine Verteilung P auf R mit P (]a, b]) = Zb f (t) dt a für a < b ∈ R. Beweis: Setze F (x) := Zx f (t) dt. −∞ Da f nur endlich viele Sprungstellen hat, wissen wir bereits aus der Analysis I, dass F stetig ist. Außerdem folgt wegen der Positivität von f , dass F monoton wachsend ist. Wegen (10.5) ist lim F (x) = 1. Das x→∞ lim F (x) = 0 gilt ist klar. x→−∞ Nach Satz 10.22 gibt es genau eine Verteilung P auf R (das meint natürlich wieder auf (R, B)) mit der Eigenschaft wie in der Behauptung. 10.26 Definition: Wahrscheinlichkeitsverteilungen auf R, für die es eine Dichte f mit P (]a, b]) = Zb a für alle a < b gibt, nennt man stetige Verteilungen. f (t) dt 10 Allgemeine Modelle und stetige Verteilungen 105 10.27 Definition: Eine reelle Zufallsvariable X heißt stetig verteilt, wenn die Verteilung P X von X eine Dichte hat, d.h. wenn Zb P (a ≤ X ≤ b) = f (t) dt a für eine geeignete Dichte f gilt. Bemerkung 10.28: Ist P eine stetige Verteilung, so gilt P ({x}) = 0 für alle x ∈ R. Beweis: Es gilt P ({x}) (10.3) = Zx 1 f (t) dt = 0 = lim lim P x − ,x n→∞ n→∞ n 1 x− n nach unserer Annahme, dass f stetig bis auf höchstens endlich viele Sprungstellen ist. Folgerung 10.29: Insbesondere gilt für stetige Verteilungen also P ([a, b]) = P (]a, b]) usw.. Ab jetzt betrachten wir nur noch Zufallsvariablen mit stetigen Verteilungen, d.h. solche, für die es eine Dichte f mit Zb P (a ≤ X ≤ b) = f (t) dt a gibt. 10.4 Zufallsvariablen mit stetiger Verteilung In diesem Abschnitt wollen wir einige stetige Verteilungen vorstellen und einen Überblick der Eigenschaften geben: 10.4.1 Die Gleichverteilung Die Dichte der Gleichverteilung auf dem Einheitsintervall [0, 1] ist gegeben durch ( 1 falls t ∈ [0, 1] f (t) = 1[0,1] (t) = , t ∈ R. 0 falls t ∈ / [0, 1] Ist eine Zufallsvariable X gleichverteilt auf [0, 1], so schreiben wir auch X ∼ U (0, 1) . Die zugehörige Verteilungsfunktion ist 0 falls x ≤ 0 x falls 0 ≤ x ≤ 1 . F (x) = P (X ≤ x) = 1 falls x ≥ 1 Den Graph dieser Funktion haben wir schon als Abbildung 17 gesehen. Allgemeiner: Die Gleichverteilung auf einem reellen Intervall [r, s] ist gegeben durch die Dichte f (t) = 1 1[r,s] (t). s−r Ist X eine gleichverteilte Zufallsvariable auf [r, s], so schreiben wir auch X ∼ U (r, s) . 106 10 Allgemeine Modelle und stetige Verteilungen 10.4.2 Die Normalverteilung Die Dichte der Normalverteilung N µ, σ 2 mit µ ∈ R, σ 2 ∈ (0, ∞) ist gegeben als ! 2 1 (x − µ) ϕµ,σ2 (t) = f (t) := √ . exp − 2σ 2 2πσ 2 Wir kennen schon den Spezialfall µ = 0, σ 2 = 1 der Standard-Normalverteilung. Wir werden später noch sehen, dass für eine Zufallsvariable X ∼ N µ, σ 2 die Zahl µ der Erwartungswert und σ 2 die Varianz ist. Solche Zufallsvariablen X ∼ N µ, σ 2 verwendet man etwa dann, wenn X eine ungenaue Messung mit Erwartungswert (bekannt z.B. aus der Theorie) µ ist. Insbesondere simuliert man damit eine Verteilung natürlicher Messgrößen. Die Verteilungsfunktion Zx ϕ0,1 (t) dt Φ(x) = −∞ der Standard-Normalverteilung ist tabelliert. Mit Hilfe dieser Tabelle kann man aber auch Zx ϕµ,σ2 (t) dt, −∞ also die Verteilungsfunktion einer beliebigen Normalverteilung, berechnen, wie wir in Bemerkung 10.36 sehen werden. Außerdem zeigen wir in Beispiel 10.35, dass X ∼ N (0, 1) , µ ∈ R, σ ∈ (0, ∞) ⇒ Y = σX + µ ∼ N (µ, σ) gilt. 10.4.3 Die Exponentialverteilung Setze für einen reellen Parameter λ > 0 die Dichte der Exponentialverteilung als ( λ exp (−λt) falls t ≥ 0 f (t) := 0 falls t < 0 fest. Diese Funktion sieht für λ = 2 wie folgt aus: 1 −1 0 1 t Abbildung 19: Die Funktion f (t) für λ = 2. Wir nennen f die Dichte der Exponentialverteilung Exp(λ) auf R. Die zugehörige Verteilungsfunktion ist ( 1 − exp (−λx) falls x > 0 F (x) = . 0 falls x ≤ 0 Insbesondere gilt für eine Zufallsvariable X ∼ Exp(λ) und 0 ≤ a < b: P (a ≤ X ≤ b) = F (b) − F (a) = (1 − exp (−λb)) − (1 − exp (−λa)) = exp (−λb) − exp (−λa) . Man verwendet Zufallsvariablen X ∼ Exp(λ) z.B. • zur Simulation der Lebensdauer von Geräten / technischen Bauteilen, falls sie gebraucht wie neu“ ” sind (wir sehen gleich, welche Bedeutung das hat). • zur Simulation von Längen von Zeitintervallen bei Serveranfragen, Anrufen in einem Call-Center oder radiaoktiven Zerfallsprozessen. 10 Allgemeine Modelle und stetige Verteilungen 107 • zur Simulation von Bedienzeiten an Schaltern. Für X ∼ Exp (λ) ist ein Leichtes, mit Hilfe der Verteilungsfunktion die Überlebensdauer“ zu berechnen: ” P (X > x) = 1 − P (X ≤ x) = 1 − F (x) = exp (−λx) . Wir sehen sofort, dass die Überlebensdauer also exponentiell schnell fällt! Jetzt wollen wir uns dem Ausspruch gebraucht wie neu“ bzw. der Gedächtnislosigkeit dieser Verteilung ” widmen. Für x, t ≥ 0 gilt P (X > t + x | X > t) = P (X > t + x und X > t) P (X > t) = P (X > t + x) P (X > t) = exp (−λ (t + x)) exp (−λt) = exp (−λx) = P (X > x) . Simuliert man also die Lebensdauer eines Geräts mit der Exponentialverteilung, so hat ein gebraucht gekauftes Gerät die selbe Qualität wie ein Neues! 10.4.4 Die Pareto-Verteilung Man betrachtet für einen Parameter α > 0 die Dichte ( α (t+1)α+1 f (t) = 0 falls t ≥ 0 . falls t < 0 Der Graph von f stellt sich wie folgt dar: 3 2 1 −1 0 1 t Abbildung 20: Die Funktion f (t) für α = 4. Zunächst ähnelt diese Funktion der Dichte der Exponentialverteilung, aber wir sehen im Gegensatz, dass hier nur polynomielles Abfallverhalten vorliegt! Diese Dichte f definiert uns die Pareto-Verteilung. Für eine paretoverteilte Zufallsvariable X mit Parameter α > 0 schreiben wir auch X ∼ Pareto(α). Man modelliert mit der Pareto-Verteilung etwa Dateigrößen in Byte in Datenbanken oder auf Servern. Allgemeiner modelliert man mit Ihr Verteilungen, bei denen große Werte selten, aber nicht so selten wie bei Exp (λ) sind. Heutzutage wird die Pareto-Verteilung auch oft verwendet, wo früher die Exponentialverteilung verwendet wurde. 108 10.4.5 10 Allgemeine Modelle und stetige Verteilungen Die Cauchy-Verteilung Betrachte die Dichte f (t) := 1 . π (1 + t2 ) Diese hat den Graphen −2 −1 0 1 t Abbildung 21: Die Funktion f (t) für λ = 2. und definiert uns die Cauchy-Verteilung. Wir werden in Beispiel 10.41 noch sehen, dass diese Verteilung keinen Erwartungswert besitzt. 10.4.6 Die Gamma-Verteilung Zunächst benötigen wir die 10.30 Definition (Gamma-Funktion): Sei x ∈ (0, ∞). Dann definiert man die Gamma-Funktion Γ durch Γ (x) = Z∞ tx−1 exp (−t) dt. 0 Wir wissen bereits aus der Analysis I, dass dieses Integal konvergiert und eine beliebig oft differenzierbare Funktion definiert. Außerdem erfüllt sie bekanntlich die Funktionalgleichung Γ (x + 1) = xΓ(x) ∀ x ∈ (0, ∞) , was auch Γ (n) = (n − 1)! mit n ∈ N zeigt. Zuletzt sollte noch erwähnt werden, dass Z∞ √ 1 1 Γ = exp x2 dx = π. 2 2 0 Nun definieren wir die Gamma-Verteilung Gamma (r, λ) für reelle Parameter r, λ > 0 durch die Dichte ( r λ r−1 exp (−λt) falls t > 0 Γ(r) t . f (t) = 0 falls t ≤ 0 Zunächst betrachten wir einige Spezialfälle: (1) (a) Sei r = 1. Dann erhalten wir offenbar genau die Exponentialverteilung mit Parameter λ, da die Dichten übereinstimmen. (b) Sei r ∈ N. Man kann zeigen, dass dann Gamma (r, λ) genau die Verteilung von X1 + ... + Xr i.i.d. für Zufallsvariablen X1 , ..., Xr ∼ Exp (λ) ist (vergleiche eines der Übungsblätter). (2) (a) Gamma 12 , 21 ist genau die Verteilung von X 2 für X ∼ N (0, 1), wie wir in Beispiel 10.32 sehen werden. i.i.d. (b) Gamma n2 , 21 für n ∈ N ist genau die Verteilung von X12 +...+Xn2 , falls X1 , ..., Xn ∼ N (0, 1) gilt. Diese Verteilung ist in der Statistik wichtig, sie wird auch Chi-Quadrat-Verteilung mit n Freiheitsgraden genannt und als χ2n bezeichnet. 10.5 Berechnung und Transformation von Dichten 10.31 Satz: Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte c1 , ..., ck stetig differenzierbar ist. Sei C = {c1 , ..., ck }. Dann definiert ( F ′ (t) falls t ∈ C f (t) := 0 falls t ∈ /C eine Dichte für die durch F definierte Verteilung auf R. 10 Allgemeine Modelle und stetige Verteilungen 109 Beweis: Mit Satz 10.25 genügt es offenbar zu zeigen, dass f eine Dichte ist (denn das f dann die Verteilungsfunktion F erzeugt, ist mit etwas Analysis I und der Stetigkeit von F klar). Da F eine Verteilungsfunktion ist, ist F monoton wachsend und daher F ′ ≥ 0, wo F ′ existiert. Daher ist auch f ≥ 0. Setze nun c0 := −∞ und ck+1 := +∞. Nach Umnummerierung nehmen wir ohne Einschränkung c0 < c1 < ... < ck < ck+1 an. Dann gilt (mit F (−∞) = 0 und F (∞) = 1) für i = 0, ..., k die Relation cZi+1 f (t) dt = lim aցci ,bրci+1 ci Zb f (t) dt = lim aցci ,bրci+1 (F (b) − F (a)) = F (ci+1 ) − F (ci ), (10.6) a da F stetig ist. Das zeigt Z∞ −∞ c k Zi+1 X f (t) dt = f (t) dt (10.6) i=0 c i = k X i=0 (F (ci+1 ) − F (ci )) = F (∞) − F (−∞) = 1. Also ist f eine Dichte und es folgt die Behauptung. Beispiel 10.32 (Anwendung): Sei X ∼ N (0, 1) und Y := X 2 . Dann ist Y ∼ χ21 = Gamma 1 1 2, 2 . Beweis: Sei FY die Verteilungsfunktion der Verteilung von Y . Da Y ≥ 0 ist, muss auch FY (x) = P (Y ≤ x) = 0 für x < 0 gelten. Falls x ≥ 0, so haben wir FY (x) = P (Y ≤ x) = P 0 ≤ X2 ≤ x √ √ = P − x≤X≤ x √ √ = Φ x −Φ − x √ = 2Φ x − 1, wobei Φ die Verteilungsfunktion der Standard-Normalverteilung ist. √ √ ′ Wegen (Φ ( x)) = ϕ( x) 2√1 x ist FY an allen Punkten x 6= 0 stetig differenzierbar und mit Satz 10.31 folgt, dass die Dichte von Y gegeben ist durch ( ( ( √ ′ x √1 FY′ (x) falls x > 0 exp − falls x 6= 0 2 (Φ ( x)) falls x > 0 2 2πx fY (x) = = . = 0 falls x ≤ 0 0 falls x = 0 0 falls x ≤ 0 Wegen Γ 1 2 = √ π ist der Faktor und es folgt die Behauptung. 1 1 2 1 2 √ = Γ 21 2π Für die folgende Transformation brauchen wir erst folgende 10.33 Definition: Seien I, J ⊂ R zwei Intervalle. Ein Diffeomorphismus u : I und u−1 stetig differenzierbar sind. / J ist eine bijektive Abbildung, s.d. u Dann gilt der folgende 10.34 Satz (Transformationsformel für Dichten): Sei X eine stetig verteilte Zufallsvariable mit Dichte fX und Werten in einem offenen Intervall I ⊂ R. / J ein Diffeomorphismus. Dann hat Y := u (X) auf J die Dichte Sei außerdem u : I ′ fY (y) = fX u−1 (y) · u−1 (y) . 110 10 Allgemeine Modelle und stetige Verteilungen Beweis: Zunächst können wir ohne Einschränkung annehmen, dass u streng monoton steigend ist (da u ein Diffeomorphismus ist, muss u streng monoton sein). Dann wollen wir die Substitutionsregel Zb (f ◦ g) (y) · g ′ (y) dy f (x) dx = a g −1 Z (b) g −1 (a) für den Diffeomorphismus g = u−1 anwenden. Damit folgt P (a ≤ Y ≤ b) = P u−1 (a) ≤ X ≤ u−1 (b) = u−1 Z (b) fX (x) dx u−1 (a) = Zb a da u nach Annahme streng monoton steigend ist. ′ fX u−1 (y) u−1 (y) dy | {z } =|(u−1 )′ (y)| Beispiel 10.35 (Anwendung): Sei X ∼ N (0, 1) und Y := σX + µ mit µ, σ ∈ R und σ > 0. Dann ist Y ∼ N µ, σ 2 . Beweis: Wir setzen u (x) := σx + µ. Bei dieser Abbildung handelt es sich offenbar um einen Diffeomorphismus mit u−1 (y) = ′ y−µ 1 und u−1 (y) = . σ σ Mit Satz 10.34 folgt für die Dichte fY von Y und fX von X, dass ! ! 2 2 y−µ 1 1 (y − µ) 1 1 (y − µ) fY (y) = fX · = √ exp − · =√ , exp − σ σ 2σ 2 σ 2σ 2 2π 2πσ 2 was genau der Dichte zu N µ, σ 2 entspricht. Alternativ kann man diese Aussage auch mit Hilfe von Satz 10.31 beweisen: Beweis (alternativ): Es ist FY (y) = P (Y ≤ y) = P (σX + µ ≤ y) = P X≤ y−µ σ =Φ y−µ σ für die Verteilungsfunktion Φ der Standard-Normalverteilung. Mit Satz 10.31 ist dann ′ y−µ 1 1 y−µ y−µ fY (y) = Φ = ϕ = Φ′ σ σ σ σ σ für die Dichte ϕ der Standard-Normalverteilung - und das ist genau die Dichte zu N µ, σ 2 . Bemerkung 10.36: Ganz analog können wir nun zeigen, wie man die Verteilungsfunktion zu N µ, σ 2 aus den Tabellen für Φ (der Verteilungsfunktion von N (0, 1)) berechnet: Ist Y ∼ N µ, σ 2 für µ, σ ∈ R, σ > 0, so folgt wie in Beispiel 10.35, dass X := 1 (Y − µ) ∼ N (0, 1) σ gilt. Damit ist dann aber P (Y ≤ y) = P (σX + µ ≤ y) = P - und das ist tabelliert! y−µ X≤ σ =Φ y−µ σ 10 Allgemeine Modelle und stetige Verteilungen 10.6 111 Erwartungswert und Varianz 10.37 Definition: Sei X eine stetig verteilte Zufallsvariable mit Dichte f . Der Erwartungswert von X existiert, falls Z∞ −∞ |x|f (x) dx < ∞. In diesem Fall definiert man E (X) := Z∞ xf (x) dx. −∞ Wir sehen hier schon die Analogie zum diskreten Fall: Die Summe in (5.2) wird durch ein Integral ersetzt, und die Einzelwahrscheinlichkeiten P werden durch die Dichte f ersetzt. Bemerkung 10.38: Ist X wie in der Definition und X ≥ 0, so kann man stets E (X) := Z∞ xf (x) dx −∞ setzen und entsprechend einfach ∞ als Wert zulassen. Beispiel 10.39: Sei X ∼ U (r, s). Dann ist E (X) = Zs r Beispiel 10.40: x 1 1 s2 − r2 1 1 2 s s+r dx = x r= = . s−r s−r2 2 s−r 2 Sei X ∼ N (0, 1). Dann ist E (X) = Z∞ −∞ 1 xϕ(x) dx = √ 2π Z∞ −∞ 2 2 1 x ∞ x dx = √ exp − = 0. x exp − −∞ 2 2 2π Beispiel 10.41: Sei X eine Cauchy-verteilte Zufallsvariable. Für die zugehörige Dichte f ist dann Z∞ −∞ |x|f (x) dx = Z∞ −∞ 1 |x| dx = π (1 + x2 ) π Daher hat X keinen Erwartungswert! Z∞ 0 1 2x 2 R ln 1 + x = ∞. dx = lim 0 1 + x2 π R→∞ 112 10 Allgemeine Modelle und stetige Verteilungen Beispiel 10.42: Sei X ∼ Exp (λ). Dann ist E (X) Z∞ = tλ exp (−λt) dt 0 = λ Z∞ t exp (−λt) dt 0 ∞ t 1 λ exp (−λt) 0 − −λ −λ partielle Integration = Z∞ = Z∞ 0 exp (−λt) dt exp (−λt) dt 0 ∞ 1 − exp (−λt) 0 λ 1 . λ = = Beispiel 10.43: Sei X ∼ Pareto (α). Zunächst untersuchen wir, für welche α > 0 der Erwartungswert existiert. Bekanntlich existiert das Integral Z∞ 1 dt tβ c mit beliebigem c > 0 genau dann, wenn β > 1. Daher ist der Erwartungswert für α ≤ 1 zwangsläufig nicht existent. Für α > 1 gilt: Z∞ 0 αt (t + 1) α+1 dt = Z∞ α Z∞ α α dt − 1 (t + 1) 0 = 0 t+1 (t + 1) α+1 dt − Z∞ 0 α (t + 1) α+1 dt ∞ α (t + 1)1−α 0 − 1 1−α α = − −1 1−α α−1 α − = α−1 α−1 1 . = α−1 = Da X ∼ Pareto(α) nach Definition der Dichte als nicht-negativ angenommen werden kann, haben wir also ( ∞ falls α ≤ 1 E (X) = . 1 falls α > 1 α−1 Aus der Maßtheorie zitieren wir ohne Beweis den folgenden 10.44 Satz (Transformationsformel für den Erwartungswert - ohne Beweis): / R eine meßbare Funktion (also z.B. stetig). Sei X eine reelle Zufallsvariable mit Dichte f und g : R Dann gilt E (g(X)) = Z∞ −∞ g(x) · f (x) dx, (10.7) 10 Allgemeine Modelle und stetige Verteilungen falls Z∞ −∞ 113 |g(x)|f (x) dx < ∞ ist. Bemerkung 10.45: Damit folgt im Falle der Existenz zum Beispiel mit g(x) := ax + b: E (aX + b) (10.7) = Z∞ (ax + b) f (x) dx −∞ = a Z∞ xf (x) dx + b f (x) dx −∞ −∞ = Z∞ aE (X) + b | {z =1 } Beispiel 10.46: Sei X ∼ N (0, 1). In Beispiel 10.35 haben wir schon gezeigt, dass dann σX + µ ∼ N µ, σ 2 gilt. Ebenso haben wir in Beispiel 10.40 schon gesehen, dass E (X) = 0 gilt. Nach obiger Rechnung folgt E (σX + µ) = σE(X) + µ = µ. Daher ist µ wie schon weiter oben bemerkt der Erwartungswert einer N µ, σ 2 -verteilten Zufallsvariablen. 10.47 Definition: k Sei X eine stetig verteilte reelle Zufallsvariable. Falls E |X| < ∞ gilt (in dem Sinne, dass der Erwartungswert für nicht-negative Zufallsvariablen in [0, ∞] stets existiert), so nennen wir E Xk das k-te Moment von X. 10.48 Definition: Sei X eine stetig verteilte reelle Zufallsvariable, s.d. E (X) existiert. Dann definieren wir die Varianz von X durch 2 2 V (X) := E (X − E(X)) = E X 2 − (E (X)) . Bemerkung 10.49: Sei X eine reelle Zufallsvariable mit Dichte f . Mit der Transformationsformel (Satz 10.44) ist V (X) = Z∞ −∞ falls existent. x2 f (x) dx − Z∞ −∞ 2 xf (x) dx Beispiel 10.50: Sei X ∼ U (0, 1). Wir haben in Beispiel 10.39 schon gesehen, dass dann E (X) = 10.49 haben wir also Z1 1 1 1 1 V (X) = x2 dx − = − = . 4 3 4 12 0 1 2 gilt. Nach Bemerkung 114 10 Allgemeine Modelle und stetige Verteilungen Allgemein folgt ganz genauso X ∼ U (r, s) ⇒ V (X) 1 s−r = Zs 2 x dx − r (s + r) s3 − r3 − 3(s − r) 4 = s+r 2 2 2 4s2 + 4rs + 4r2 3s2 + 6rs + 3r2 − 12 12 2 2 s − 2rs + r 12 = = 2 (s − r) . 12 = Bemerkung 10.51: Man zeigt ganz genau wie im diskreten Fall, dass V (aX + b) = a2 V (X) gilt. Beispiel 10.52: Sei X ∼ N (0, 1). In Beispiel 10.40 haben wir gesehen, dass E(X) = 0 gilt. Bemerkung 10.49 liefert also V (X) Z∞ = −∞ 1 √ 2π = partielle Integration = 2 x 1 x2 √ exp − dx 2 2π Z∞ −∞ 2 x x · x exp − dx 2 | {z } ′ 2 = exp − x2 2 2 Z∞ ∞ x 1 x √ −x exp − exp − dx + −∞ 2 2 2π −∞ = = 1 √ 2π Z∞ −∞ x2 exp − dx 2 1 Mit der Regel aus Bemerkung 10.51 zeigt das Y ∼ N µ, σ 2 ⇒ V (Y ) = σ 2 , da für X ∼ N (0, 1) mit Beispiel 10.35 σX + µ ∼ N µ, σ 2 gilt. 10.7 Mehrdimensionale stetige Verteilungen Zunächst müssen wir festlegen, welche Teilmengen des Rn eine Wahrscheinlichkeit erhalten können und welche nicht. Dazu gehen wir genau wie auf R vor und wählen eine geeignete σ-Algebra. 10.53 Definition: Die Borel’sche σ-Algebra Bn des Rn ist die kleinste σ-Algebra auf dem Rn , die alle offenen Mengen enthält. Auch im Rn behält Satz 10.14 seine Gültigkeit! Allerdings ändert sich hier die Formulierung etwas: 10.54 Satz (ohne Beweis): Die folgenden Forderungen an eine σ-Algebra auf Rn sind äquivalent: (1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält. 10 Allgemeine Modelle und stetige Verteilungen 115 (2) Es handelt sich um die kleinste σ-Algebra, die alle Rechtecke (a, b] := (a1 , b1 ] × ... × (an , bn ] mit a = (a1 , ..., an ) , b = (b1 , ..., bn ) ∈ Rn enthält. 10.55 Definition: Eine Dichte auf Rn ist eine integrierbare Funktion f : Rn Z f (x) dx = 1. / R mit f ≥ 0 und Rn Ebenso zitieren wir den folgenden Satz aus der Maßtheorie: 10.56 Satz (ohne Beweis): / R eine Dichte auf dem Rn , so gibt es zu f genau eine Wahrscheinlichkeitsverteilung P Ist f : Rn n auf (R , Bn ) mit der Eigenschaft, dass P ((a, b]) = Zb1 a1 ... Zbn f (x1 , ..., xn ) dxn ... dx1 =: an Z f (x) dx (a,b] für alle Rechtecke (a, b]. 10.57 Definition: Die reellen Zufallsvariablen X1 , ..., Xn haben die gemeinsame Dichte f , wenn f eine Dichte auf dem Rn ist und für alle a, b ∈ Rn gilt: Z P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) = f (x) dx. (a,b] Beispiel 10.58: 2 Für n = 2 ist f := 1[0,1]2 die Dichte der Gleichverteilung auf [0, 1] . Beispiel 10.59: Durch 1 1{(x,y)∈R2 | x2 +y2 ≤1} π definieren wir die Dichte der Gleichverteilung auf dem Einheitskreis im R2 . f := Bemerkung 10.60: Diese Beispiele lassen sich durchaus verallgemeinern: Ist A ⊂ R2 ein glattes Gebiet (d.h., dass der topologische Rand von A in jedem Punkt lokal Graph einer beliebig oft differenzierbaren Funktion ist), so ist 1A Riemann-Integrierbar und die Funktion f := 1 1A Vol(A) ist die Dichte der Gleichverteilung auf A. 10.61 Definition (Produktdichten): Sind f1 , ..., fn Dichten auf R, so ist f (x1 , ..., xn ) := f1 (x1 ) · ... · fn (xn ) eine Dichte auf dem Rn . f heißt Produktdichte der Dichten f1 , ..., fn . Die gemäß Satz 10.56 zu f gehörende Wahrscheinlichkeitsverteilung P auf (Rn , Bn ) heißt Produktverteilung der zu f1 , ..., fn gehörenden Verteilungen P1 , ..., Pn auf R gemäß Satz 10.25. Maßtheoretisch schreibt man auch P = P1 × ... × Pn . Beispiel 10.62: Die Funktion 1[0,1]2 ist die Dichte zu P1 × P2 , wenn P1 , P2 Gleichverteilungen auf [0, 1] sind. 116 10 Allgemeine Modelle und stetige Verteilungen Beispiel 10.63: Sei n ∈ N≥2 und sei fi (xi ) := gegeben durch √1 2π 2 x exp − 2i für i = 1, ..., n. Dann ist die zugehörige Produktdichte f (x1 , ..., xn ) = f1 (x1 ) · ... · fn (xn ) = beziehungsweise f (x) = (2π) −n 2 1 √ 2π n 1 exp − x21 + ... + x2n 2 kxk22 , exp − 2 x ∈ Rn für die gewöhnliche euklidische Norm auf dem Rn . Für n = 3 sieht die Produktdichte wie folgt aus: z y x Abbildung 22: Die Produktdichte der Standard-Normalverteilung im R3 . An dieser Stelle zitieren wir folgende Sätze aus der Maßtheorie: 10.64 Satz (ohne Beweis): Sind X, Y zwei reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem R2 , so gilt für jedes glatte Gebiet A ⊂ R2 , dass Z P ((X, Y ) ∈ A) = f (x, y) d(x, y). A Außerdem benötigen wir die Transformationsformel für den Erwartungswert von Funktionen von Zufallsvektoren: 10.65 Satz (ohne Beweis): /R Sind X1 , ..., Xn reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem Rn und ist g : Rn meßbar (z.B. stetig), so gilt Z E (g (X1 , ..., Xn )) = g(x)f (x) dx (10.8) Rn falls Z Rn |g(x)|f (x) dx < ∞ ist. 10.66 Hilfssatz: Sind X1 , X2 zwei reelle Zufallsvariablen mit gemeinsamer Dichte f , so ist f1 (x1 ) := Z∞ f (x1 , x2 ) dx2 Z∞ f (x1 , x2 ) dx1 −∞ die Dichte zu X1 und f2 (x2 ) := −∞ die Dichte zu X2 . 10 Allgemeine Modelle und stetige Verteilungen 117 Beweis: Es gilt P (a1 ≤ X1 ≤ b1 ) P (a1 ≤ X1 ≤ b1 , −∞ < X2 < ∞) = Satz 10.64 = Zb1 Z∞ f (x1 , x2 ) dx2 dx1 . a1 −∞ | {z } =f1 (x1 ) Ganz analog kann man für f2 vorgehen. Das zeigt schon die Behauptung. Bemerkung 10.67: Jetzt können wir endlich zeigen, dass der Erwartungswert linear ist: E (X1 + X2 ) = E (X1 ) + E (X2 ) . Beweis: Wir wenden den Satz 10.65 im Fall n = 2 auf die Funktion g(x1 , x2 ) = x1 + x2 an. Das liefert Z (x1 + x2 ) f (x1 , x2 ) d(x1 , x2 ) E (X1 + X2 ) = R2 = Z x1 f (x1 , x2 ) d(x1 , x2 ) + = R Hilfssatz 10.66 = x2 f (x1 , x2 ) d(x1 , x2 ) R2 R2 Z Z x1 Z R f (x1 , x2 ) dx2 dx1 + Z R E (X1 ) + E (X2 ) x2 Z R f (x1 , x2 ) dx1 dx2 Damit ist die Behauptung gezeigt. 10.8 Unabhängigkeit 10.68 Definition: Reelle Zufallsvariablen X1 , ..., Xn heißen unabhängig, wenn P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) = für alle a = (a1 , ..., an ) , b = (b1 , ..., bn ) ∈ Rn gilt. n Y i=1 P (ai ≤ Xi ≤ bi ) 10.69 Satz (Unabhängigkeit bei stetigen Verteilungen): (1) Sind X1 , ..., Xn unabhängige Zufallsvariablen mit Dichten f1 , ..., fn entsprechend, so ist die gemeinsame Dichte f durch die Produktdichte f (x1 , ..., xn ) := f1 (x1 ) · ... · fn (xn ) (10.9) gegeben. (2) Sind X1 , ..., Xn reelle Zufallsvariablen und hat die gemeinsame Dichte die Gestalt (10.9), so sind X1 , ..., Xn unabhängig und fi ist die Dichte zu Xi , i = 1, ..., n. Beweis: (1) Wegen der Unabhängigkeit und der Definition der Dichten fi gilt P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) = n Y i=1 P (ai ≤ Xi ≤ bi ) bi = n Z Y fi (xi ) dxi i=1 a = Z (a,b] i f (x) dx 118 10 Allgemeine Modelle und stetige Verteilungen für alle Rechtecke (a, b], weshalb f aus (10.9) die gemeinsame Dichte zu X1 , ..., Xn ist. (2) Da X1 , ..., Xn eine gemeinsame Dichte der Form (10.9) haben, ist P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) = Zb1 ... Zbn f1 (x1 ) · ... · fn (xn ) dxn ... dx1 an a1 bi = n Z Y fi (xi ) dxi (10.10) i=1 a i für jedes Rechteck (a, b]. / − ∞, bj / ∞ für alle j 6= i Für festes i ∈ {1, ..., n} lassen wir jetzt in dieser Gleichung aj gehen. Dann geht die linke Seite gegen P (ai ≤ Xi ≤ bi ) und die rechte Seite gegen Zbi fi (xi ) dxi , ai da jedes fj eine Dichte ist und somit R∞ fj (xj ) dxj = 1 erfüllt. Das zeigt, dass fi die Dichte zu Xi −∞ ist, also P (ai ≤ Xi ≤ bi ) = Zbi fi (xi ) dxi . ai Damit ist aber wegen (10.10) P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) = n Y i=1 P (ai ≤ Xi ≤ bi ) , womit X1 , ..., Xn per Definition unabhängig sind. Beispiel 10.70: Wir betrachten einen Schalter mit Bedienzeiten, die nach Exp (λ) verteilt sind. Nehmen wir an, wir stehen an zweiter Stelle, d.h. noch eine Kunde ist vor uns. Wir wollen die Wahrscheinlichkeit bestimmen, dass wir mindestens doppelt so lange zur Abfertigung brauchen, wir die Person vor uns. Dazu modellieren wir den Kunden vor uns als Zufallsvariable X ∼ Exp (λ) sowie uns als Y ∼ Exp (λ) und nehmen an, dass X und Y unabhängig sind. Gefragt ist dann nach P (Y ≥ 2X) . (10.11) Mit obigem Satz 10.69 folgt, dass X und Y eine gemeinsame Dichte f in Produktform haben, d.h. f (x, y) = (λ exp (−λx)) (λ exp (−λy)) 1[0,∞)2 . Um (10.11) zu bestimmen betrachten wir A = {(x, y) | x, y ≥ 0, y ≥ 2x} . 10 Allgemeine Modelle und stetige Verteilungen 119 Mit Satz 10.64 folgt P (A) = Z f (x, y) dx dy A 2 Z∞ Z∞ exp (−λ(x + y)) dy dx = λ2 Z∞ Z∞ exp (−λ(x + y)) dy dx = λ 0 2x 0 2x = Z∞ 0 = Z∞ λ exp (−λx) Z∞ 2x exp (−λy) dy dx λ exp (−λx) exp (−2λx) dx 0 = 1 3 Z∞ 3λ exp (−3λx) dx 0 = = ∞ 1 (− exp (−3λx)) 0 3 1 . 3 Zuletzt sei noch der folgende Satz aus der Maßtheorie erwähnt: 10.71 Satz (ohne Beweis): Das Blockungslemma gilt in der selben Form wie in Satz 4.24 auch für Zufallsvariablen mit stetigen Verteilungen. Wir zeigen nun, dass der Produktsatz für unabhängige Zufallsvariablen auch im stetigen Fall gilt: 10.72 Satz: Sind X und Y unabhängige Zufallsvariablen mit Dichten fX und fY , so gilt E(X · Y ) = E(X) · E(Y ). Beweis: / R. Die Dichte zu (X, Y ) hat gemäß Satz 10.69 Produktform f (x, y) = Setze g(x, y) = x · y, g : R2 fX (x) · fY (y), da X und Y unabhängig sind. Damit gilt E(X · Y ) = Transformationsformel = E(g(X, Y )) Z∞ Z∞ g(x, y) · f (x, y) dx dy Z∞ Z∞ x · y · fX (x) · fY (y) dx dy −∞ −∞ = −∞ −∞ = Z∞ −∞ x · fX (x) dx · Z∞ −∞ y · fY (y) dy. Das zeigt die Behauptung. Korollar 10.73: Sind X und Y stetige unabhängige Zufallsvariablen, so gilt CoV(X, Y ) = E(X · Y ) − E(X)E(Y ) = 0, das heißt, X und Y sind unkorreliert. 120 10 Allgemeine Modelle und stetige Verteilungen 10.74 Definition (Faltung): Seien f1 und f2 Dichten auf R. Die Dichte f1 ⋆ f2 (z) = Z∞ −∞ f1 (x)f2 (z − x) dx nennen wir Faltung f1 ⋆ f2 von f1 und f2 . 10.75 Satz (Dichten für Summen von unabhängigen Zufallsvariablen mit Dichten): Seien X und Y unabhängige Zufallsvariablen mit Dichten fX und fY . Dann hat X +Y die Dichte fX ⋆ fY . Beweis: X und Y haben die gemeinsame Dichte f (x, y) = fX (x) · fY (y), da X und Y unabhängig sind. Sei A die Menge A := {(x, y) | x + y ≤ b} . Dann gilt P (X + Y ≤ b) Z = f (x, y) dx dy A Z∞ = −∞ = b−x Z fX (x)fY (y) dy dx −∞ Z∞ Zb fX (x)fY (z − x) dz dx −∞ −∞ Zb = −∞ Zb = Z∞ −∞ fx (x)fy (z − x) dx dz fX ⋆ fY (z) dz. −∞ Damit ist die Behauptung gezeigt. Beispiel 10.76 (Gleichverteilung U(0, 1)): Seien X und Y unabhängig und gleichverteilt auf [0, 1]. Dann ist die Dichte von X + Y gegeben als falls 0 ≤ t ≤ 1 t 2 − t falls 1 ≤ t ≤ 2 . fX+Y (t) = 0 sonst 1 −2 −1 0 1 2 3 Abbildung 23: Die Dichte von X + Y für X, Y i.i.d. ∼ U (0, 1). 10 Allgemeine Modelle und stetige Verteilungen 121 Beweis: Offenbar ist fX (t) = 1[0,1] (t) = fY (t). Mit obigem Satz ist die Dichte fX+Y von X + Y gegeben als (fX ⋆ fY ) (z) = Z∞ −∞ = Z1 0 fX (x) · fY (z − x) dx 1[0,1] (z − x) dx z−1 Z = − 1[0,1] (y) dy z = Zz 1[0,1] (y) dy. z−1 Nun unterscheiden wir vier Fälle: • Ist z < 0, so ist offenbar • Ist z > 2, so ist offenbar Rz 1[0,1] (y) dy = 0. z−1 Rz 1[0,1] (y) dy = 0. z−1 • Ist 0 ≤ z ≤ 1, so berechnet man Zz 1[0,1] (y) dy = Zz 1 dy = z. 0 z−1 • Ist 1 ≤ z ≤ 2, so berechnet man Zz 1[0,1] (y) dy = z−1 Z1 1 dy = 2 − z. z−1 Das zeigt die Behauptung. 10.77 Satz: Seien Xi ∼ N (µi , σi2 ), für i = 1, 2 unabhängig. Dann ist X1 + X2 normalverteilt mit Parametern µ1 + µ2 und σ12 + σ22 , d.h. X1 + X2 ∼ N µ1 + µ2 , σ12 + σ22 . Beweis: Es genügt zu zeigen, dass (X1 − µ1 ) + (X2 − µ2 ) ∼ N 0, σ12 + σ22 gilt, wobei (X1 − µ1 ) ∼ N 0, σ12 und (X2 − µ2 ) ∼ N 0, σ22 verteilt sind. Nach Definition der Faltung zweier Dichten ergibt sich für festes z ∈ R: f0,σ12 ⋆ f0,σ22 (z) = Z∞ −∞ = Wir setzen nun σ := √ 1 1 1 x2 (z − x)2 dx exp − 2 · √ exp − 2 σ1 2σ22 2πσ1 2πσ2 1 2πσ1 σ2 Z∞ −∞ 1 x2 (z − x)2 + exp − dx. σ22 2 σ12 {z } | q σ12 + σ22 und w = w(x) = =:(∗) σ σ1 ·x− z. σ1 σ2 σσ2 (10.12) 122 10 Allgemeine Modelle und stetige Verteilungen Dann ist w2 + z2 σ2 = σ2 z2 σ12 + σ22 2 2xz x − 2 + 2 1 2 z2 + 2 2 2 σ1 σ2 σ2 σ σ σ | 2 {z } 2 = z2 σ 2 Da dw = σ σ1 σ2 dx ist, folgt dx = = x2 2xz z2 x2 + 2− 2 + 2 2 σ1 σ2 σ2 σ2 = x2 (z − x)2 + σ12 σ22 = (∗). σ1 σ2 σ dw. f0,σ12 ⋆ f0,σ22 (z) = = Wir substituieren also in (10.12) und erhalten so 1 2πσ1 σ2 Z∞ −∞ 1 exp − 2 z2 w + 2 σ 2 σ1 σ2 dw σ Z∞ 1 z2 1 1 √ exp − w2 dw exp − 2 − 2πσ 2σ 2 2π −∞ {z } | =1 (Std.normalverteilung) = f0,σ2 (z) = f0,σ12 +σ22 (z). Damit ist der Satz bewiesen. 10.9 Die mehrdimensionale Normalverteilung 10.78 Definition: Wir haben in Beispiel 10.63 schon gesehen, dass für unabhängige Zufallsvariablen Z1 , ..., Zn ∼ N (0, 1) T die Zufallsgröße Z = (Z1 , ..., Zn ) die Dichte ! n 1X 2 1 f (z1 , ..., zn ) = √ n exp − z 2 ν=1 i 2π besitzt. Diese Verteilung wollen wir von nun an die n-dimensionale Standard-Normalverteilung nennen. Wir schreiben dann auch T (Z1 , ..., Zn ) ∼ N (0, In ) , wobei wir mit die n × n-Einheitsmatrix bezeichnen. In = 1 0 .. . 0 1 10.79 Definition: T Sei Z = (Z1 , ..., Zn ) ∼ N (0, In ), A eine reelle n × n-Matrix und µ ∈ R. Dann nennen wir die Verteilung von A·Z +µ eine n-dimensionale Normalverteilung zu A und µ. 10.80 Definition: T Sei Z = (Z1 , ..., Zn ) ein Zufallsvektor. Der Erwartungswert von Z ist der Vektor T E (Z) = (E (Z1 ) , ..., E (Zn )) . Beispiel 10.81: Sei Z ∼ N (0, In ). Dann ist offenbar E (Z) = 0 ∈ Rn . Außerdem folgt für jede n × n-Matrix A und jedes µ ∈ Rn , dass E (AZ + µ) = AE (Z) + µ = µ. 10 Allgemeine Modelle und stetige Verteilungen 123 10.82 Definition: T Sei Z = (Z1 , ..., Zn ) ein allgemeiner Zufallsvektor. Die Kovarianzmatrix von Z ist ΣZ := (CoV (Zi , Zj ))1≤i,j≤n . Beispiel 10.83: T Sei Z = (Z1 , ..., Zn ) ∼ N (0, In ). Wegen CoV (Zi , Zj ) = ( 0 falls i 6= j 1 falls i = j ist ΣZ = In . 10.84 Lemma: Sei Z ein beliebiger Zufallsvektor, A = (ai,j )1≤i,j≤n eine beliebige reelle n × n-Matrix und µ ∈ Rn . Dann gilt für X := A · Z + µ, dass ΣX = A · ΣZ · AT . Beweis: Es ist CoV (Xi , Xj ) = E ((Xi − E (Xi )) (Xj − E (Xj ))) !! ! n n X X · = E ai,k Zk + µi ai,k Zk + µi − E k=1 n X aj,k Zk + µj k=1 = E n X k=1 = n X ! k=1 E n X aj,k Zk + µj k=1 ! ai,k (Zk − E (Zk )) · n X l=1 !!! aj,l (Zl − E (Zl )) !! ai,k CoV (Zk , Zl ) aj,l k,l=1 = n X ai,k CoV (Zk , Zl ) aTl,j k,l=1 A · Σz · AT i,j Das zeigt die Behauptung. Beispiel 10.85: Sei Z ∼ N (0, In ) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ Rn . Nach Lemma 10.84 gilt dann ΣX = A · ΣZ ·AT = A · AT . |{z} =In Damit sind Erwartungswert und Kovarianzmatrix der n-dimensionalen Normalverteilung zu A und µ gegeben durch µ und ΣX = A · AT . Bemerkung 10.86: Sei Z ∼ N (0, In ) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ Rn . Dann ist die Matrix ΣX = A · AT stets symmetrisch und positiv semi-definit, d.h. für jedes x ∈ Rn gilt xT ΣX x ≥ 0. Die Umkehrung ist ebenfalls richtig: Jede Matrix Σ, die symmetrisch und positiv semi-definit ist, ist Kovarianzmatrix einer n-dimensionalen Normalverteilung. Das folgt einfach aus der Hauptachsentransformation, denn demnach ist Σ = V · D · V T für eine orthogonale Matrix V und eine Diagonalmatrix d1 0 .. . D= . 0 dn 124 10 Allgemeine Modelle und stetige Verteilungen Da Σ positiv semi-definit ist, sind alle Zahlen di ≥ 0. Wir setzen √ d1 0 T .. ·V , A := V · . √ dn 0 {z } | √ =: D und haben dann A · AT = V · √ √ T T T D·V | {z· V} · D · V = V · D · V = Σ. =In 10.87 Definition: Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) = 0, so sprechen wir von einer ausgearteten Normalverteilung. 10.88 Definition: Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) 6= 0, so sprechen wir von einer nicht ausgearteten Normalverteilung. 10.89 Satz: Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung mit Erwartungswert µ ∈ Rn und det(Σ) 6= 0. Dann ist die zugehörige Dichte gegeben als 1 1 T −1 exp − (x − µ) · Σ · (x − µ) , x ∈ Rn . (10.13) f (x) = √ n p 2 2π det(Σ) Beweis: T Wir wollen den Transformationssatz für Dichten im Rn benutzen: Hat Z = (Z1 , ..., Zn ) auf offenem / N für N ⊂ Rn ebenfalls offen ein Diffeomorphismus, so hat M ⊂ Rn die Dichte fZ und ist u : M X := u (Z) die Dichte (10.14) fX (x) = fZ u−1 (x) · det D(u−1 )(x) . Dabei bezeichnet D(u−1 ) das totale Differential von u−1 . Dieser Satz folgt direkt aus der Transformationsformel im Rn , der explizite Beweis findet sich bei [Dehling/Haupt], Seite 181. Hier ist Z ∼ N (0, In ), M = N = Rn und u (x) = Ax + µ mit A wie in Bemerkung 10.86 zu Σ definitiert. Da det (Σ) 6= 0 ist, ist auch det (A) 6= 0, d.h. u−1 (x) = A−1 (y − µ) existiert. Damit ist dann det D u−1 (x) = det(A−1 ) = 1 1 . =p |det (A)| det(Σ) Beachte dabei, dass det (Σ) > 0 wegen der positiven Semi-Definitheit von Σ. n P T zi2 = (z1 , ..., zn ) · (z1 , ..., zn ) ist, gilt Da i=1 fZ (z) = √ 1 n exp − z T · z . 2 2π 1 Mit der angegebenen Transformationsformel für Dichten (10.14) folgt T 1 1 −1 1 ·p A (x − µ) A−1 (x − µ) fX (x) = √ n exp − 2 det(Σ) 2π 1 1 T −1 = (x − µ) Σ (x − µ) exp − √ n p 2 2π · det(Σ) und somit die Behauptung. 10 Allgemeine Modelle und stetige Verteilungen 125 Bemerkung 10.90: Ist det (Σ) = 0, so gibt es keine Dichte auf dem Rn für die zugehörige Verteilung. Bemerkung 10.91: Man beachte, dass die n-dimensionale Normalverteilung bereits durch Σ und µ festgelegt ist! Bemerkung 10.92: Der Fall det (Σ) 6= 0 entspricht genau dem Fall, dass Σ symmetrisch und strikt positiv definit ist, d.h. xT Σx > 0 ∀ x ∈ Rn \ {0} . Für jede solche Matrix existiert also eine n-dimensionale Normalverteilung mit Dichte wie im Satz. Die Matrix A dieser Verteilung ist dann wie in Bemerkung 10.86 gegeben. 10.9.1 Folgerungen 10.93 Satz: T Sei X = (X1 , ..., Xn ) nach N (µ, Σ) verteilt, d.h. es ist µ = E (X) und Σ = CoV (X). Sei außerdem det (Σ) 6= 0. Dann gilt Xi ∼ N (µi , Σi,i ) . Allgemeiner: Ist c ∈ Rn \ {0}, so ist n X i=1 ci Xi ∼ N n X ci µi , n X c2i Σi,i i=1 i=1 ! . Sind die Xi ’s paarweise unkorreliert, so sind sie unabhängig. Beweis: Da alles nur von der Verteilung abhängt, können wir wie folgt vorgehen: Finde eine n × n-Matrix A, s.d. A · AT = Σ gilt. Dann ist X = A · Z + µ für Z ∼ N (0, In ). Damit folgt aber Xi = n X Ai,k Zk + µi , k=1 womit mehrfaches anwenden des Faltungssatzes für die Normalverteilung (Satz 10.77) sofort ! ! n n X X 2 T Ai,k = N µi , Xi ∼ N µi , Ai,k Ak,i = N (µi , Σi,i ) k=1 k=1 n liefert. Ganz analog geht man für beliebiges c ∈ R \ {0} vor. Kommen wir zur Unabhängigkeit. Sind die Xi ’s unkorreliert, so ist CoV(X) = Σ eine Diagonalmatrix. Die Dichte fX von X ist gemäß 10.13 gegeben, und da Σ−1 ebenso wie Σ Diagonalform hat, ist sie in Produktform. Satz 10.69 liefert, dass die Xi ’s unabhängig sind. 10.10 Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz Bemerkung 10.94: Wir haben schon gesehen, dass für stetige Zufallsvariablen X und Y ebenso wie für diskrete die Linearität des Erwartungswertes gilt: E (aX + Y ) = aE (X) + E (Y ) , a ∈ R. (10.15) Außerdem ist der Erwartungswert monoton, d.h. X≤Y ⇒ E (X) ≤ E (Y ) . Man kann ebenso (maßtheoretisch) zeigen, dass alle Rechenregeln, die im diskreten Fall für die Varianz gelten, sich auf den stetigen Fall übertragen, also V (aX + b) = a2 V (X) (10.16) für a, b ∈ R und X stetig verteilte Zufallsvariable usw.. Ebenso gelten die Markov-, Tschebyschow- und Hoeffding Ungleichung sowie das SGGZ genau wie im stetigen Fall. Wir werden die Regeln (10.15) und (10.16) nun einfach mitbenutzen. 126 10.10.1 10 Allgemeine Modelle und stetige Verteilungen Die Jensen’sche Ungleichung Bevor wir zum zentralen Grenzwertsatz schreiten brauchen wir noch folgendes 10.95 Lemma (Jensen’sche Ungleichung): Ist X eine reelle Zufallsvariable (diskret oder stetig, das Lemma gilt in beiden Fällen) und g : R eine konvexe Funktion, so gilt im Falle der Existenz von E (X) und E (g(X)) die Ungleichung /R g (E (X)) ≤ E (g (X)) . Beweis: Für eine konvexe Funktion g können wir an den Punkt (E (X) , g (E (X))) eine (ohne weitere Voraussetzungen nicht zwingend eindeutige) lineare Approximation an g legen. Diese hat die Form L (x) = c · (x − E (X)) + g (E (X)) , wobei c = g ′ (E (X)), falls g an E (X) ∈ I differenzierbar ist. Insbesondere gilt dann E (L (X)) = E (c · (X − E (X)) + g (E (X))) = c · (E (X) − E (X)) + g (E (X)) = g (E (X)) Da g konvex und L linear ist, gilt L ≤ g und mit der Monotonie des Erwartungswerts folgt so g (E (X)) = E (L (X)) ≤ E (g (X)) , was die Behauptung zeigt. Beispiel 10.96: Sei X eine reelle Zufallsvariable. Ist etwa g(x) = x2 , so folgt 2 (E (X)) ≤ E X 2 . 2 Dieses Ergebnis folgt auch schon daraus, dass 0 ≤ V (X) = E X 2 − (E (X)) ist. Bemerkung 10.97: Sei X eine reelle Zufallsvariable. Insbesondere kann man das Lemma auch für Intervalle I ⊂ R, etwa I = [0, ∞) anwenden, wenn X Werte in I hat. 10 Allgemeine Modelle und stetige Verteilungen 10.10.2 127 Der zentrale Grenzwertsatz (ZGWS) 10.98 Definition (drittes zentrales Moment): Sei X eine reelle Zufallsvariable. Wir definieren 3 γ (X) := E |X − E (X)| als das dritte zentrale Moment von X. Bemerkung 10.99: Sei X eine reelle Zufallsvariable. Offenbar hängt γ (X) nur von der Verteilung von X ab. 10.100 Satz (Zentraler Grenzwertsatz): Sei P X eine feste Verteilung einer reellen Zufallsvariablen X s.d. E (X), V (X)und γ := γ(X) existieren und V (X) > 0 ist (das ist zum Beispiel für B (n, p) , Geo(p), Exp (λ) , N µ, σ 2 usw. der Fall). Für jedes n ∈ N seien X1 , ..., Xn unabhängige reelle Zufallsvariablen, die alle nach P X verteilt sind. Sei nun n X Xi Sn := i=1 und Φ die Verteilungsfunktion von N (0, 1). Dann gilt ! Sn − E (Sn ) p ≤ x − Φ (x) sup P V (Sn ) x∈R n /∞ / 0. (10.17) Wir beweisen diese Version des zentralen Grenzwertsatzes ein wenig weiter unten. Bemerkung 10.101: Natürlich gilt unter den gemachten Voraussetzungen die Formel (10.17) genauso mit < anstelle von ≤. Bemerkung 10.102: Natürlich folgt mit dem zentralen Grenzwertsatz auch ! Sn − E (Sn ) sup P a ≤ p ≤ b − (Φ(b) − Φ(a)) V (Sn ) a≤b n /∞ / 0. 10.103 Satz (Zentraler Grenzwertsatz - alternative Formulierung): Sei X1 , X2 , ... eine Folge unabhängiger reeller Zufallsvariablen mit gleicher Verteilung, s.d. E (X1 ), V (X1 ) und γ (X1 ) existieren und V (X1 ) > 0 gilt. Sei außerdem Φ die Verteilungsfunktion zu N (0, 1). Dann gilt n n P P Xi Xi − E /∞ n i=1 i=1 / 0. s sup P ≤ x − Φ (x) n x∈R P V Xi i=1 Folgerung 10.104 (Grenzwertsatz von de Moivre-Laplace): Satz 9.2 folgt sofort durch Anwenden des zentralen Grenzwertsatzes (alternative Formulierung) mit 0 < p < 1 fest und X1 , X2 , ... ∼ B (1, p) unabhängig verteilt. Nun zeigen wir zunächst folgenden 10.105 Hilfssatz: Sei Y ∼ N 0, σ 2 verteilt. Dann gilt 3 E |Y | = r 8 3 σ . π Beweis: Gemäß der Transformationsformel für den Erwartungswert (Satz 10.44) ist 3 E |Y | = Z∞ −∞ = √ 1 1 exp − 2 t2 dt |t|3 √ 2σ 2πσ 2 2 2πσ 2 · Z∞ 0 1 t3 exp − 2 t2 dt. 2σ 128 10 Allgemeine Modelle und stetige Verteilungen √ Nun substituiert man t = σ 2x, womit dt = 3 E |Y | √σ 2x dx ist und 2 √ · 2πσ 2 Z∞ = 2σ 4 √ · 2πσ 2 Z∞ √ = Z∞ = = 4σ 3 √ · 2π 0 √ 3 σ 1 σ 3 2x exp − 2 σ 2 2x √ dx 2σ 2x 2 2x exp (−x) dx 0 x exp (−x) dx 0 4σ 3 √ · Γ (2) 2π 4σ 3 √ · (2 − 1)! 2π r 16 3 σ = 2π r 8 3 σ . = π = Das zeigt die Behauptung. Bevor wir nun zum Beweis des zentralen Grenzwertsatzes schreiten stellen wir noch fest: Bemerkung 10.106: Sind die Zufallsvariablen Xi unabhängig, so gilt V n X Xi i=1 ! = n X V (Xi ) , i=1 was wir im diskreten Fall auch bewiesen haben. Beweis (von Satz 10.100): Setze Fn (x) := P für x ∈ R und σ := p ! Sn − E (Sn ) p ≤x V (Sn ) V (x1 ). Wir müssen also zeigen, dass sup |Fn (x) − Φ(x)| /∞ n /. (10.18) x∈R Für (10.18) genügt es zu zeigen, dass es für jedes ε > 0 ein δ > 0 gibt, s.d. √ γ ≤ δ ⇒ sup |Fn (x) − Φ(x)| ≤ ε, nσ 3 x∈R denn falls dieses gilt, finden wir immer ein hinreichend großes n ∈ N s.d. sup |Fn (x) − Φ(x)| ≤ ε x∈R ist. Wir beginnen dazu mit einigen Vorbereitungen. Setze Xi − E (Xi ) Zi := p nV (Xi ) für i = 1, ..., n. Dann ist nach der Bemerkung 10.106 n Sn − E (Sn ) X p Zi = V (Sn ) i=1 √γ 3 nσ ≤ δ und somit 10 Allgemeine Modelle und stetige Verteilungen 129 und entsprechend auch n X Fn (x) = P i=1 ! Zi ≤ x , x ∈ R. Offenbar ist E (Zi ) = 0 für i = 1, ..., n und man berechnet mit den Regeln für die Varianz 1 1 2 E Zi2 = V (Zi ) + (E (Zi )) = · V (Xi − E (Xi )) = | {z } nV (Xi ) n =0 für jedes i = 1, ..., n. Zuletzt ist 3 E |Zi | 3 |Xi − E (Xi )| p 3 nV (Xi ) =E ! γ = √ 3 . ( n) σ 3 Seien ferner Y1 , ..., Yn unabhängig (auch von den Zi ’s) mit Yi ∼ N 0, n1 . Nach dem Faltungssatz für die Normalverteilung (Satz 10.77) ist dann n X Yi ∼ N (0, 1) Yi2 verteilt. Außerdem ist E (Yi ) = 0, E i=1 = V (Yi ) = n1 und mit Hilfssatz 10.105 auch r 8 1 3 E |Yi | = √ . π n3 Wähle zu beliebigem ε > 0 eine mindestens dreifach stetig differenzierbare Funktion f mit 0 ≤ f ≤ 1 und ( 1 falls t ≤ 0 f (t) = . 0 falls t ≥ ε Setze dann zu x ∈ R fx (t) := f (t − x), t ∈ R und M := sup |f ′′′ (t)|. Nach dem Satz von Taylor gilt dann t∈R für alle t, h ∈ R fx (t + h) = fx (t) + fx′ (t) · h + fx′′ (t) · |h|3 |h|3 h2 + v(t, h) mit |v(t, h)| ≤ sup |fx′′′ (t)| · ≤M· . (10.19) 2 6 6 t∈R Jetzt definieren wir δ := δ(ε) = und wählen n ∈ N so groß, dass √γ 3 nσ ≤ δ gilt. 3.6 · ε q M 1 + π8 Schritt I Wir zeigen nun, dass !! n X −E Zi E fx i=1 für alle x ∈ R gilt. Setze SjZ := j P i=1 fx !! M Yi ≤ 6 i=1 n X n X 3 3 E |Zi | + E |Yi | i=1 ! (10.20) Z und h = Zn in der Taylorentwicklung (10.19): Zi für j = 1, ..., n. Betrachte nun t = Sn−1 Zn2 Z Z Z Z Z · · Zn + fx′′ Sn−1 + fx′ Sn−1 + v Sn−1 , Zn . fx Sn−1 + Zn = fx Sn−1 2 | {z } Z =Sn Z Z und und Zn sowie fx′′ Sn−1 Nach dem Blockungslemma sind fx′ Sn−1 unseren Vorüberlegungen E fx SnZ Z = E fx Sn−1 Z + E fx′ Sn−1 Z · E (Zn ) +E fx′′ Sn−1 | {z } =0 2 Zn 2 unabhängig, d.h. es folgt mit 2 Zn Z ·E +E v Sn−1 , Zn . 2 | {z } 1 = 2n 130 10 Allgemeine Modelle und stetige Verteilungen Genauso folgt mit h = Yn , dass E Z fx Sn−1 + Yn =E Z fx Sn−1 Subtrahieren der Gleichungen liefert Z E fx SnZ − E fx Sn−1 + Yn +E fx′′ Z Sn−1 = ≤ Yn2 Z ·E +E v Sn−1 , Yn . 2 | {z } 1 = 2n Z Z E v Sn−1 , Zn − E v Sn−1 , Yn Z Z E v Sn−1 , Yn , Zn + E v Sn−1 Z E v SnZ , Zn + E v Sn−1 , Yn (10.19), Monotonie M 3 3 . ≤ E |Zn | + E |Yn | 6 n P haben wollen, betrachten wir Yi Da wir ja eigentlich eine Abschätzung für E fx SnZ − E fx i=1 Z nun die Taylor-Entwicklung (10.19) mit t = Sn−2 + Yn und h = Zn−1 bzw. h = Yn−1 . Dort erhalten wir ganz analog zur obigen Rechnung durch Subtrahieren die Abschätzung M 3 3 Z Z E fx Sn−1 + Yn − E fx Sn−2 + Yn−1 + Yn ≤ . E |Zn−1 | + E |Yn−1 | 6 Z Nutze dann die Taylor-Entwicklung (10.19) mit t = Sn−3 + Yn−1 Yn und h = Zn−2 bzw. h = Yn−2 usw.. Das liefert dann allgemein M 3 3 Z E fx SkZ + Yk+1 + ... + Yn − E fx Sk−1 + Yk + ... + Yn ≤ E |Zk | + E |Yk | 6 Jensen’sche Ungleichung ≤ für alle k ∈ {1, ..., n}. Mit der Dreiecksungleichung folgt so die behauptete Gleichung (10.20). Schritt II Wir wollen nun zeigen, dass die rechte Seite aus Schritt I (10.20) ≤ 0.6ε ist. Nach unseren Vorüberlegungen ist die rechte Seite ! ! r n γ M M X 8 1 3 3 √ 3+ √ . (10.21) E |Zi | + E |Yi | = 6 i=1 6 π n nσ 3 Da g (x) := x 2 konvex ist, folgt mit der Jensen’schen Ungleichung 10.95, dass 3 p 3 3 V (X) = E |X − E (X) |2 2 ≤ E |X − E(X)|2 2 = E |X − E(X)|3 = γ σ3 = ist. Daher ist γ ≥1 σ3 und es folgt, dass die rechte Seite 10.21 ! r M 8 1 γ √ 3+ √ ≤ 6 π n nσ = ! r 8 1 γ γ √ 3+ 3 √ σ π n nσ r ! 8 M γ √ 3 1+ 6 π nσ | {z } M 6 ≤δ ≤ = = = erfüllt - also genau die Behauptung. M δ 1+ 6 r ! 8 π M 3.6ε q 6 M 1+ 8 π 3.6 ε 6 0.6ε r ! 8 1+ π 10 Allgemeine Modelle und stetige Verteilungen 131 Schritt III Nach Definition der Zi haben wir nun für alle x ∈ R n X Fn (x) = P i=1 = E ! Zi ≤ x n X 1(−∞,x] Zi i=1 da 1(−∞,x] n P i=1 Zi ∼ B 1, P n P i=1 !! , Zi ≤ x gilt. Nach Wahl von f ist 1(−∞,x] ≤ fx und daher folgt mit der Monotonie des Erwartungswerts Fn (x) ≤ E n X fx Zi i=1 !! , was mit Schritt I und II wiederum Fn (x) ≤ E fx n X Yi i=1 !! + 0.6ε zeigt. Nun ist 1(−∞,x+ε] ≥ fx nach Wahl von f und daher folgt wieder mit der Monotonie !! ! n n X X + 0.6ε = P Fn (x) ≤ E 1(−∞,x+ε] Yi ≤ x + ε + 0.6ε. Yi i=1 i=1 Da wie schon bemerkt laut Faltungssatz (Satz 10.77) n P i=1 P n X i=1 Yi ≤ x + ε ! Yi ∼ N (0, 1) gilt, ist = Φ (x + ε) , d.h. wir haben Fn (x) ≤ Φ(x + ε) + 0.6ε. Der Mittelwertsatz der Differentialrechnung liefert Φ(x + ε) ≤ Φ(x) + εΦ′ (ξ) für ein ξ ∈ R. Wegen Φ′ (ξ) = ϕ(ξ) ≤ √12π ≤ 0.4 für die Dichte ϕ der Standard-Normalverteilung folgt somit Fn (x) ≤ Φ(x) + 0.4ε + 0.6ε = Φ(x) + ε. Ganz analog erhält man Φ(x − ε) ≤ Fn (x) + 0.6ε und mit dem Mittelwertsatz zusätzlich Φ(x) ≤ Φ(x − ε) + 0.4ε. Zusammen zeigt das |Fn (x) − Φ(x)| ≤ ε für alle x ∈ R und daher über (10.18) die Behauptung. 10.107 Satz (Fehlerabschätzung nach Berry-Esseen): Im obigen zentralen Grenzwertsatz (Satz 10.100) gilt für jedes n ∈ N ! 0.8γ Sn − E (Sn ) p ≤ x − Φ(x) ≤ √ 3 P nσ V (Sn ) für jedes x ∈ R. Diese Relation gilt auch mit einem < anstelle von ≤. Außerdem gilt damit ! Sn − E (Sn ) 1.6γ ≤ b − (Φ(b) − Φ(a)) ≤ √ 3 . P a ≤ p nσ V (Sn ) 132 10 Allgemeine Modelle und stetige Verteilungen Beweis: Diese Abschätzungen folgen schon aus unserem Beweis des zentralen Grenzwertsatzes. Es ist nur etwas Arbeitsaufwand, sie herauszulesen. Beispiel 10.108: Wir wollen Fehlerabschätzungen für den Grenzwertsatz von de Moivre-Laplace (Satz 9.2) im Fall p = 21 herleiten. Seien also X1 , X2 , ... ∼ B 1, 12 unabhängige Zufallsvariablen. Dann ist V (Xi ) = 14 , d.h. mit den Bezeichnungen des zentralen Grenzversatzes ist 3 σ 3 = V (X) 2 = Außerdem ist |Xi − E(Xi )| = 21 , da E (Xi ) = Daher ist γ σ3 1 2 1 . 8 ist, d.h. 1 3 γ = E |X1 − E(X1 )| = . 8 = 1 und die Fehlerabschätzungen werden zu 0.8 1.6 √ bzw. √ . n n 11 Markov-Ketten mit endlichem Zustandsraum 11 133 Markov-Ketten mit endlichem Zustandsraum Die Idee Wir wollen ein stochastisches Modell für die Bewegung eines Teilchens auf endlich vielen Zuständen geben, wobei die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen Zustand und nicht von der weiteren Vergangenheit abhängt. Diese Eigenschaft wird auch Markov-Eigenschaft“ genannt und ist ” oftmals nur eine Approximation der Wirklichkeit. Die Lösung für ein solches Modell sind Markov-Ketten, die wir in Abschnitt 11.2 kennen lernen werden. Beispiel 11.1: Wir betrachten einen Springer, der sich allein auf dem Schachbrett bewegt. Er wählt aus allen ihm erlaubten Zügen jeweils rein zufällig (also gleichverteilt) den nächsten Raus. In diesem Beispiel entsprechen die Zustände den 64 Feldern des Schachbretts und das Teilchen dem Springer. Man kann sich jetzt etwa Fragen, wie lang die erwartete Zeit ist, bis der Springer wieder in seiner Startposition ankommt. Beispiel 11.2: Ein weiteres Beispiel ist ein sogenannter Netbot“, der zufällig gemäß Ausgangslinks von Seite zu Seite ” wandert. Beispiel 11.3 (Markov): Markov betrachtete ursprünglich folgendes Problem: Wenn die Folge von Vokalen / Konsonanten in Puschkin’s Roman Eugene Onegin“ die Markov-Eigenschaft hätte, dann wäre die Übergangsmatrix“ ” ” (definieren wir weiter unten) gegeben durch * V j 0.128 0.337 0.872 K 0.663 [ . Heutzutage werden Markov-Ketten vor allem als Modell für DNA-Folgen genutzt, wobei das Alphabet dann {A, C, G, T} ist. Eine andere Interpretation von Markov-Ketten ist, dass ein System (= b Teilchen) sich in einem von endlich vielen Zuständen befindet. Zu bestimmten Event-Zeitpunkten springt es dann in einen neuen Zustand. Diese Interpretation wird heutzutage etwas bei der Pufferauslastung von Servern verwendet. 11.1 Steuerung der Sprünge: Übergangsmatrizen und -graphen 11.4 Definition: Eine Zustandsmenge S ist eine endliche Menge. Sei von jetzt an stets S eine Zustandsmenge. Oftmals ist S = {1, ..., N }, allerdings verwenden wir oft das Symbol 1 für den Zustand 1“, um nicht durcheinander zu kommen. ” 11.5 Definition: Sei #S = N ∈ N. Eine N × N -Matrix P = (pi,j )i,j∈S mit den Eigenschaften • pi,j ≥ 0 ∀ i, j ∈ S P • pi,j = 1 ∀ i ∈ S j∈S heißt stochastische Matrix oder Übergangsmatrix auf S. In diesem Fall sind alle Zeilen von P stochastische Vektoren. Notation 3: Sei P eine Übergangsmatrix auf S. Für den Eintrag von P in der i-ten Zeile und j-ten Spalte schreiben wir P (i, j) = pi,j bei i, j ∈ S. 134 11 Markov-Ketten mit endlichem Zustandsraum Beispiel 11.6: Wir wollen die tägliche Wetterentwicklung modellieren. Dazu sei S := {Regen, Sonne, bewölkt} . Wir nummerieren die Zustände in dieser Reihe durch (also Als Übergangsmatrix definieren wir 0 1 0 1 P := 3 0 23 1 3 1 3 Regen = b 1, Sonne = b 2, bewölkt = b 3). . 1 3 Das soll etwa bedeuten, dass 2 . 3 P (morgen bewölkt | heute Sonne) = p2,3 = 11.7 Definition: Zu einer Übergangsmatrix P auf S gehört stets ein Übergangsgraph GP , welcher wie folgt zu konstruieren ist: Die Menge E der Ecken von GP ist S. Eine Kante von i ∈ S nach j ∈ S mit Gewicht pi,j wird gehört genau dann zur Kantenmenge V von GP , wenn pi,j > 0 gilt. Beispiel 11.8: In unserem Wettermodell aus Beispiel 11.6 wäre der zugehörige Graph 6 2 V 2 3 1 1 3 1 3 1 3 v 1 o 1 3 3 V Beispiel 11.9 (Lieblingsbeispiel des Dozenten): Betrachte die Übergangsmatrix P= 0 1 1 2 1 2 ! . Dann ist der zugehörige Übergangsgraph GP gegeben als 1 2 1 * 1 j 1 2 2 . [ 11.10 Definition: Sei G = (V, E) ein Graph und i, j ∈ V . Ein Pfad oder Weg von i nach j in G ist eine Folge von Ecken vi,i1 , vi1 ,i2 , ..., vin−1 ,in , vin ,j zwischen den Punkten i und i1 , i1 und i2 ,... entsprechend mit i1 , ..., in ∈ V . Im allgemeinen existiert kein Pfad zwischen beliebigen i, j ∈ V . Für einen Pfad w gegeben durch i = i0 , i1 , ..., in = j von i nach j sei |w| = n seine Länge. Wir schreiben für w auch i Man kann Wege auch verknüpfen: Ist i |w1 w2 | = |w1 | + |w2 |. w1 w / j. / j und j w2 / k, so ist i w1 w2 / k ebenfalls ein Weg mit 11 Markov-Ketten mit endlichem Zustandsraum 135 11.11 Definition: Sei P eine Übergangsmatrix auf S. P beziehungsweise der zugehörige Übergangsgraph GP heißen irreduzibel, wenn es für jedes Paar i, j ∈ S ein Pfad von i nach j von GP gibt. Beispiel 11.12: Die Übergangsmatrize bzw.- graphen aus obigen Beispielen 11.6 und 11.9 sind beide irreduzibel. Betrachtet man dagegen die Übergangsmatrix ! 1 0 P= , 1 1 2 2 so sieht man am zugehörigen Graphen 1 2 1 j 2 1 2 1 [ leicht, dass dieses Beispiel nicht irreduzibel ist - es gibt keinen Pfad von 1 nach 2 ! Bemerkung 11.13: Man beobachtet nun Folgendes: Ist P eine Übergangsmatrix auf S, so beschreibt eine Folge von Zuständen i = i0 , i1 , ..., in−1 , in = j aus S genau dann einen Pfad von i nach j, wenn pi0 ,i1 > 0 und pi1 ,i2 > 0 und ... und pin−1 ,in > 0 ist, d.h. falls die Zahl n−1 Y piν ,iν+1 ν=0 strikt positiv ist. Wir definieren diese Zahl als das Gewicht des Pfades und die Zahl n als seine Länge. 11.1.1 Potenzen der Matrix P Im Weiteren benötigen wir ständig n-te Potenzen der Matrix P. Sei n ∈ N und N = #S. Man beachte: • Die N × N -Matrix P2 = P · P ist gegeben durch X X P2 (i, j) = pi,k · pk,j = P (i, k) · P (k, j) , k∈S k∈S • Allgemein folgt induktiv für Pn = P · Pn−1 , dass X Pn (i, j) = pi,i1 · ... · pin−1 ,j , i1 ,...,in−1 ∈S i, j ∈ S. i, j ∈ S, (11.1) d.h. dass die Zahl Pn (i, j) genau die Summe aller Gewichte von Pfaden der Länge n von i nach j ist. Damit haben wir sofort folgenden 11.14 Satz: Sei P eine Übergangsmatrix auf S. Dann gilt: P ist genau dann irreduzibel, wenn es für jedes Paar i, j ∈ S ein n = n (i, j) ∈ N mit Pn (i, j) > 0 gibt. 136 11 Markov-Ketten mit endlichem Zustandsraum Beweis: Ist P irreduzibel, so gibt es zu i, j ∈ S ein n = n (i, j) und einen Pfad der Länge n von i nach j mit Gewicht λ ∈ (0, 1]. Wie wir oben schon beobachtet haben, ist Pn (i, j) die Summe aller Gewichte von Pfaden der Länge n von i nach j, und da Gwichte von Pfaden stets positiv sind folgt Pn (i, j) ≥ λ > 0. Gibt es zu i, j ∈ S ein n = n (i, j) mit Pn (i, j) > 0, so bedeutet das aus dem gleichen Grund, dass ein Pfad von i nach j in GP der Länge n existiert. Beispiel 11.15: Sei 0 1 P= Dann ist 1 0 0 1 ! 2 1 0 ! . ! 0 1 1 0 4 = P = P = ... und = P = P3 = P5 = .... Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugehörigen Graphen GP leicht erkennen: 1 * 1 j 2 . 1 Beispiel 11.16: Wir betrachten wieder die Übergangsmatrix 0 1 1 2 1 2 ! 1 2 1 4 1 2 3 4 ! 1, 2 o P= aus Beispiel 11.9. Dann ist 2 P = womit offenbar n = 2 für jedes Paar i, j ∈ S = zu zeigen. n , ausreicht, um die Irreduzibilität mit dem Satz Wir werden meist nur irreduzible Übergangsmatrizen P betrachten! 11.1.2 Die Periode einer Übergangsmatrix 11.17 Definition: Sei P eine irreduzible Übergangsmatrix auf S. Die Periode eines Zustands i ∈ S ist der größte gemeinsame Teiler der Menge {n ∈ N | es gibt einen Pfad der Länge n von i nach i} = {n ∈ N | Pn (i, i) > 0} . Beispiel 11.18: Wir betrachten wieder die Übergangsmatrix P= 0 1 1 0 ! aus Beispiel 11.15. Für den Zustand i = 1 existieren offenbar Pfade mit Längen 2,4,6,8,... von i nach i, daher ist d 1 = 2. Das kann man mit der zweiten Charakterisierung der Menge aus der Definition auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen. Genauso ist d 2 = 2. 11 Markov-Ketten mit endlichem Zustandsraum 137 Beispiel 11.19: Wir kommen wieder zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist ! 0 1 P= . 1 1 2 2 • Für i = 1 finden wir offenbar Pfade von i nach i mit den Längen 2,3,4,5,6 usw., schließlich können wir im Zustand ” 2 “ immer rotieren. Das größte gemeinsame Teiler dieser Menge ist 1, d.h. wir haben d 1 = 1. einen • Für i = 2 gibt es sogar Pfad von i nach i mit Länge 1, weshalb es keinen größeren Teiler als 1 geben kann. Es folgt d 2 = 1. Nach diesen beiden Beispielen kann man schon vermuten: Für jedes i ∈ S ist d(i) gleich. In der Tat ist diese Aussage stets richtig: 11.20 Satz: Sei P eine irreduzible Übergangsmatrix auf S. Dann ist die Periode d(i) für jedes i ∈ S gleich. Beweis: Seien i, j ∈ S. Es genügt zu zeigen, dass d(i) die Zahl d(j) teilt, also d(i)d(j). Da P irreduzibel ist finden wir einen Weg i ist dann w1 / j mit |w1 | = r und j w1 w2 i mit |w1 w2 | = r + s. Das zeigt zunächst Ist nun j w w2 / i mit |w2 | = r. Insbesondere /i d(i)r + s. (11.2) / j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i)n. Da dann w1 ww2 i /i ein Pfad mit |w1 ww2 | = r + s + n ist, folgt daraus d(i)r + s + n. Mit (11.2) und (11.3) folgt aber d(i)n, was zu zeigen war. (11.3) Bemerkung 11.21: Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zuständen auch für nicht irreduzible Übergangsmatrizen P definieren, allerdings kann dann d(i) 6= d(j) für i 6= j, i, j ∈ S gelten. 11.22 Definition: Sei P eine irreduzible Übergangsmatrix auf S. Wir nennen die Zahl d := d(i), i ∈ S beliebig die Periode von P. Nach obigem Satz ist d wohldefiniert. 11.23 Definition: Sei P eine irreduzible Übergangsmatrix auf S. Ist d = 1, so nennen wir P aperiodisch. Bemerkung 11.24: Zur Bestimmung der Periode d kann man sich also ein i ∈ S aussuchen. Gibt es im Übergangsgraphen GP zum Beispiel eine Schleife der Form p3 >0 p1 )i ... j p2 so wählt man als Zustand i und hat sofort d = 1. Z , 138 11 Markov-Ketten mit endlichem Zustandsraum Beispiel 11.25: Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen 1 2 1 2 * 1 j 1 2 * 2 j 1 2 * 3 j 1 2 4 1 2 gegeben ist. Da es offenbar nur Wege gerader Längen von i nach i für jedes i ∈ S = geben kann, ist d = 2. n 1, 2, 3, 4 o Beispiel 11.26: Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen 6 1 V 1 2 1 2 1 2 2 1 2 1 2 3 3 sv 1 2 gegeben ist. Dann finden wir für jedes i ∈ S = folgt. n 1, 2, 3 o Wege der Länge 2 und 3, weshalb d = 1 11.27 Satz: Seine Übergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n ∈ N mit Pn (i, j) > 0 ∀ i, j ∈ S gibt. Beweis: Wir wollen die folgende zahlentheoretische Tatsache verwenden: Ist der größte gemeinsame Teiler ggT (n1 , n2 , ...) unendlich vieler natürlicher Zahlen = 1, so gibt es ein k ∈ N mit ggT (n1 , ..., nk ) = 1. Dann existiert ein M ∈ N s.d. jedes m ≥ M geschrieben werden kann als m = a1 · n1 + ... + ak nk mit Koeffizienten ai ∈ N, i = 1, .., k. Dies sieht man leicht über die Theorie der Hauptideale ein. ⇒“ Sei 1 ∈ S. Da P aperiodisch ist, ist d 1 = 1 und es gibt nach unserer zahlentheoretischen ” Tatsache ein M ∈ N, s.d. für alle m ≥ M ein Weg 1 w / 1 , |w| = m existiert. Für #S = N setze nun n := M + 2N . Da P irreduzibel ist, finden wir zu i, j ∈ S beliebig einen Weg w1 /j i mit |w1 | ≤ N , indem wir keine Zustände unnötigerweise doppelt besuchen. Genauso existiert auch ein Weg w2 /j 1 mit |w2 | ≤ N . Gemäß der Wahl von M finden wir einen Pfad 1 w / 1 11 Markov-Ketten mit endlichem Zustandsraum 139 mit |w| = 2N − |w1 | − |w2 | + M ≥ M . Damit ist i w1 ww2 /j mit |w1 ww2 | = 2N + M , also Pn (i, j) > 0. ⇐“ Ist Pn (i, j) > 0 für alle i, j ∈ S, so folgt aus der Darstellungsformel ” X Pn+1 (i, j) = P (i, k) · Pn (k, j) k∈S und der Tatsache, dass jede Zeile von P ein stochastischer Vektor der Länge N ist , auch sofort Pn+1 (i, j) > 0 ∀ i, j ∈ S. Daher gibt es Wege der Länge n und n + 1 von 1 nach 1 . Es folgt d(1)(n + 1) − n = 1 und somit d(1) = 1. Daher ist P aperiodisch. Die Irreduzibilität von P folgt bereits aus Satz 11.14. 11.2 Markov-Ketten Von jetzt an werden wir stets ohne Einschränkung S = {1, ..., N } annehmen. Bisher haben wir in diesem Zusammenhang unsere Zustände stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen. Es ist aus dem Kontext klar, ob ein Zustand oder eine Zahl gemeint ist. 11.28 Definition: Eine Startverteilung auf S = {1, ..., N } ist eine Wahrscheinlichkeitsverteilung π0 := (π0 (1) , ..., π0 (N )) . 11.29 Definition: Sei P eine Übergangsmatrix und π0 eine Startverteilung auf S. Eine Markov-Kette zu P mit Startverteilung π0 ist eine Folge X0 , X1 , X2 , X3 , ... von (diskreten) Zufallsvariablen mit Werten in S, s.d. (1) P (X0 = i) = π0 (i) (2) Für alle Wahlen n ≥ 0, 0 ≤ k ≤ n, in+1 , ..., in−k (Startverteilung) (Markov-Eigenschaft) ∈ S mit P (Xn = in , ..., Xn−k = in−k ) 6= 0 gilt P (Xn+1 = in+1 | Xn = in , ..., Xn−k = in−k ) = P (Xn+1 = in+1 | Xn = in ) = P (in , in+1 ) . Bemerkung 11.30: (1) Xn gibt in diesem Modell den zufälligen Zustand zur Zeit n ∈ N an. (2) Die Markov-Eigenschaft (oder auch kurz ME) modelliert die Eigenschaft des stochastischen Prozesses X0 , X1 , X2 , ..., dass die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen ” Zustand und nicht von der weiteren Vergangenheit abhängt“, wie wir es in der Idee zu Beginn gefordert haben. Die Forderung P (Xn = in , ..., Xn−k = in−k ) 6= 0 ist mathematisch unerlässlich, wir werden sie aber stets stillschweigend annehmen. Man kann sich nun Fragen, ob es überhaupt Markov-Ketten gibt (d.h. ob für jede Übergangsmatrix und jede Startbedingung Zufallsvariablen X0 , X1 , ... mit obigen Eigenschaften existieren). Die Maßtheorie beantwortet diese Frage mit ja. Man kann nun einige Eigenschaften von X0 , X1 , X2 berechnen und zeigen, dass es sich um das richtige“ ” Modell für das zufällige, durch P gesteuerte Wandern auf GP bei zufälligem, durch π0 gesteuertem Start handelt. 140 11.2.1 11 Markov-Ketten mit endlichem Zustandsraum Drei elementare Wahrscheinlichkeiten von Markov-Ketten Wir betrachten hier stets einen Markov-Prozess aus Definition 11.29. Bemerkung 11.31 (Pfadwahrscheinlichkeiten): Für m ∈ N und i0 , i1 , ..., im ∈ S haben wir P Xn+m = im , Xn+m−1 = im−1 , ..., Xn = i0 = | {z } P (Xn+m = im | B) =:B Markov-Eigenschaft = P (im−1 , im ) · P (B) . Daher folgt induktiv P (Xn+m = im , Xn+m−1 = im−1 , ..., Xn = i0 ) = m Y ν=1 P (iν−1 , iν ) · P (Xn = i0 ) . Die Wahrscheinlichkeit P (Xn = i0 ) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist P (X0 = ii ) = π0 (i0 ) durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit also genau unseren Wünschen! Bemerkung 11.32 (m-Schritt Übergangswahrscheinlichkeiten): Sind i, j ∈ S, so erhält man durch disjunkte Zerlegung von S in seine Elemente sofort P (Xn+m = j, Xn = i) X P (Xn+m = j, Xn+m−1 = im−1 , ..., Xn+1 = i1 , Xn = i) = im−1 ,...,i1 ∈S Bemerkung 11.31 P (Xn = i) · = (11.1) X im−1 ,...,i1 ∈S P (i, i1 ) · P (i1 , i2 ) · ... · P (im−1 , j) P (Xn = i) · P (i, j) . = Insbesondere folgt durch Division des Terms P (Xn = i), dass P (Xn+m = j | Xn = i) = Pm (i, j) . Beispiel 11.33: Ist P= 0 1 1 2 1 2 ! die Übergangsmatrix aus Beispiel 11.9, so berechnet man ! ! P2 = 1 2 1 4 1 2 3 4 , P4 = 3 8 5 16 5 8 11 16 , P10 ≈ 0.33398 0.33301 5 16 = 0.3125. Daher ist zum Beispiel P (Xn+4 = 1 | Xn = 2) = P4 (2, 1) = 0.66602 0.66699 Bemerkung 11.34 (Verteilung zur Zeit n): Sei πn (j) := P (Xn = j) , j ∈ S ! . die Verteilung von Xn . Dann ist πn ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit der Formel von der totalen Wahrscheinlichkeit für jedes j ∈ S πn (j) = (3.2) = P (Xn = j) X P (Xn = j | X0 = i) · P (X0 = i) i∈S Bemerkung 11.32 = X i∈S = Pn (i, j) · π0 (i) (π0 Pn ) (j) , 11 Markov-Ketten mit endlichem Zustandsraum 141 wobei π0 Pn das Matrix-Produkt aus dem Zeilenvektor (also der 1 × N -Matrix) π0 und der N × N -Matrix Pn bezeichnet. Das liefert die Formel π n = π 0 Pn . (11.4) Beispiel 11.35: Wir betrachten wieder das Setting aus Beispiel 11.33. Ist etwa π0 = (0, 1), d.h. starten wir mit Sicherheit im Zustand 2, so ist 5 11 π4 = π0 P4 = zweite Zeile von P4 = . , 16 16 Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet. Ist dagegen π0 = 12 , 21 , was etwa einem Münzwurf für den Startzustand entspricht, so ist 1 1 11 21 π4 = π0 P4 = · erste Zeile von P4 + · zweite Zeile von P4 = . , 2 2 32 32 Wir werden im nächsten Abschnitt allgemein sehen, dass /∞ 1 2 n / πn , 3 3 für jede beliebige Startverteilung π0 gilt! 11.3 Invariante Maße und Konvergenzsätze 11.36 Definition: Ist P eine Übergangsmatrix und π eine Wahrscheinlichkeitsverteilung auf S mit der Eigenschaft, dass πP = π ist, so nennt man π eine invariante Verteilung. Bemerkung 11.37: Der Begriff invariant“ macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt ” πPn = πP Pn−1 = πPn−1 = ... = π. D.h. wenn X0 , X1 , X2 , ... eine Markov-Kette zu P mit der speziellen Startverteilung π0 = π ist, so gilt πn = π ∀ n ∈ N nach (11.4). 11.38 Satz (Konvergenzsatz): Sei P eine irreduzible und aperiodische Übergangsmatrix. (1) Dann gibt es genau eine invariante Verteilung π zu P. Außerdem konvergieren alle Zeilen von Pn (exponentiell schnell) gegen π, d.h. Pn (i, j) /∞ n / π (j) ∀ i ∈ S. (2) Ist X0 , X1 , X2 , ... eine Markov-Kette zu P und einer beliebigen Startverteilung π0 , so gilt πn d.h. P (Xn = j) n /∞ n / π (j) für alle j ∈ S. /∞ / π, 142 11 Markov-Ketten mit endlichem Zustandsraum Beweis: (1) Wir unterteilen den Beweis in zwei Schritte: Schritt I Sei j ∈ S beliebig aber fest. Wir setzen (n) mj (n) Mj Wegen := := min Pn (i, j) = b Minimum der Werte der j − en Spalte von Pn , i∈S max Pn (i, j) = b Maximum der Werte der j − en Spalte von Pn . i∈S (n+1) mj = min Pn+1 (i, j) = min i∈S i∈S ≥ min i∈S X P (i, k) Pn (k, j) k∈S X (n) P (i, k) mj k∈S (n) = mj und (n+1) Mj = max Pn+1 (i, j) = max i∈S i∈S ≤ min i∈S = X P (i, k) Pn (k, j) k∈S X (n) P (i, k) Mj k∈S (n) Mj (n) (n) ist die Folge mj monoton wachsend in n (nicht zwingend streng) und die Folge Mj fallend in n. Unser Ziel ist es nun zu zeigen, dass (n) Mj (n) − mj n /∞ /0 monoton (11.5) gilt. Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L ∈ N und ein δ > 0 gibt, s.d. PL (i, j) ≥ δ ∀ i, j ∈ S ist. Sei n ∈ N zunächst fest. Wähle • ein i0 ∈ S mit (n+L) Pn+L (i0 , j) = mj und • ein i1 ∈ S mit Sei nun (n+L) Pn+L (i1 , j) = Mj I+ := k ∈ S | PL (i1 , k) ≥ PL (i0 , k) und I− := S \ I+ . Mit dieser Einteilung folgt X X L P (i1 , k) − PL (i0 , k) PL (i1 , k) − PL (i0 , k) + k∈I+ . = X k∈S k∈I− = PL (i1 , k) − 1 − 1 = 0. X PL (i0 , k) k∈S (11.6) 11 Markov-Ketten mit endlichem Zustandsraum 143 Damit gilt dann (n+L) Mj (n+L) − mj = Pn+L (i1 , j) − Pn+L (i0 , j) X X = Pn (i1 , k) PL (k, j) − Pn (i0 , k) PL (k, j) k∈S X = | k∈S PL (i1 , k) − PL (i0 , k) Pn (k, j) {z } k∈I+ k∈I− X = k∈S =:dk X dk Pn (k, j) + dk Pn (k, j) , und da für k ∈ I+ offenbar dk ≥ 0 und für k ∈ I− offenbar dk < 0 gilt folgt so X X (n+L) (n+L) (n) (n) Mj − mj ≤ d k Mj + d k mj k∈I+ X (11.6) = k∈I− k∈I+ ≤ ≤ (n) Mj (m·L) Mj (m·L) − mj (n) Da wir schon wissen, dass mj Aussage (11.5). (n) − mj (n) − mj m ≤ (1 − δ) | (0) Mj X PL (i1 , k) − δ · k∈I+ (n) (1 − δ) · Mj Induktiv folgt also für jedes m ∈ N, dass (n) d k Mj (n) − mj (0) − mj {z } . m /∞ / 0. ≤1 (n) monoton wächst und Mj monoton fällt folgt so die behauptete Schritt II Setze nun (n) π (j) := lim mj n→∞ (n) Da die Folgen mj werte. Wegen (n) und Mj (n) = lim Mj . n→∞ beschränkt (durch [0, 1]) und monoton sind, existieren diese Grenz(n) mj (n) ≤ Pn (i, j) ≤ Mj ∀i∈S folgt sofort Pn (i, j) n /∞ / π (j) für alle j ∈ S. Nun weisen wir die noch fehlenden Eigenschaften nach: • Wir müssen zeigen, dass π ein Wahrscheinlichkeitsvektor ist. Da aber (Pn (1, j))j∈S für jedes n ∈ N ein Wahrscheinlichkeitsvektor ist und diese Folge für n vergiert, ist diese Aussage klar. / ∞ gegen π kon- • Wir müssen zeigen, dass π eine invariante Verteilung für P ist. Das folgt aus πP(j) = X k∈S π(k)P (k, j) ←−n für jedes j ∈ S. /∞ X k∈S Pn (i, k) π(k)P (k, j) = Pn+1 (i, j) n /∞ / π(j) 144 11 Markov-Ketten mit endlichem Zustandsraum • Wir müssen zeigen, dass π eindeutig bestimmt ist. Sei dazu π ′ eine Wahrscheinlichkeitsverteilung mit π ′ = π ′ P. Insbesondere ist dann π ′ = π ′ Pn für alle n ∈ N und daher gilt für alle j∈S X π ′ (j) = π ′ (k)Pn (k, j) . k∈S Im Grenzübergang n / ∞ ist Pn (k, j) / π (j), d.h. es folgt X π ′ (j) = π ′ (k) π(j) = π(j) k∈S | {z } =1 für alle j ∈ S, was gleichbedeutend mit π = π ′ ist. (2) Mit Teil (1) folgt leicht für jede beliebige Startverteilung π0 und jedes j ∈ S P (Xn = j) = πn (j) Bemerkung 11.34 (π0 Pn ) (j) X π0 (k) = = k∈S /∞ n / π (j) X k∈S = n Das zeigt πn /∞ π(j). | Pn (k, j) | {z } /∞ n / π(j) π0 (k) {z =1 } / π. Beispiel 11.39: Wir haben schon gesehen, dass die Übergangsmatrix P= 0 1 1 2 1 2 ! aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zunächst eine invariante Verteilung π, d.h. ein π = (π(1), π(2)) mit πP = π. Das liefert das Gleichungssystem 1 π(2) 2 1 π(1) + π(2) 2 = π(1) = π(2), woraus nur π = (a, 2a) mit einem beliebigen a ∈ R folgt. Da allerdings π ein Wahrscheinlichkeitsvektor sein soll, muss a + 2a = 1 gelten, d.h. a = 31 . Es folgt, dass 1 2 π= , 3 3 die einzige invariante Verteilung zu P ist, was eine Probe leicht bestätigt: ! 0 1 1 2 1 2 = π. , , = πP = 1 1 3 3 3 3 2 2 Mit Satz 11.38 folgt also n P und P (Xn = 1) n /∞ /∞ n / 1 , P (Xn = 2) 3 n / 1 3 1 3 /∞ / 2 3 2 3 2 3 ! für jede beliebige Startverteilung π0 . 11 Markov-Ketten mit endlichem Zustandsraum 145 11.40 Hilfssatz: Sei P eine irreduzible Übergangsmatrix auf S = {1, ..., N }. Dann ist die Matrix 1 1 Pk := 1 − P + IN k k für die N × N -Einheitsmatrix IN für jedes k ∈ N≥2 aperiodisch und irreduzibel. Beweis: Laut Satz 11.27 müssen wir zeigen, dass es ein M ∈ N gibt, s.d. PM k (i, j) > 0 ∀ i, j ∈ S. Da P irreduzibel ist, gibt es gemäß Satz 11.14 zu jedem Paar i, j ∈ S ein n (i, j) mit Pn(i,j) (i, j) > 0. Setze nun M := max n (i, j) . i,j∈S Sei nun i, j ∈ S beliebig. Mit dem binomischen Lehrsatz gilt offenbar PM k = M X M ν=0 ν 1 1− k ν 1 k M −ν Pν , j da IN = IN und P · IN = IN · P = P. Also ist PM k ν n(i,j) M X 1 1 1 M 1 M ν P (i, j) ≥ 1− (i, j) = 1− Pn(i,j) (i, j) > 0. M −ν M −n(i,j) | {z } k k k n (i, j) ν k ν=0 | {z } ≥0 >0 Das zeigt die Behauptung. 11.41 Satz (Invariante Verteilung): Ist P eine irreduzible Übergangsmatrix, so gibt es genau eine invariante Verteilung π zu P. Beweis: Sei wieder ohne Einschränkung S = {1, ..., N }. • Existenz: Sei IN die N × N -Einheitsmatrix. Für k ∈ N≥2 setze 1 1 P + IN . Pk := 1 − k k (11.7) Diese Matrix ist gemäß Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zu jedem k ∈ N≥2 genau eine invariante Verteilung π (k) zu Pk . Da π (k) Koordinatenweise durch [0, 1] beschränkt ist, existiert eine Teilfolge ki s.d. i π ki /∞ /π für eine Wahrscheinlichkeitsverteilung π gilt. Diese erfüllt dann π ki = π ki · Pki . Mit i / ∞ in dieser Gleichung folgt π = π · P. • Eindeutigkeit: Ist π = πP und π ′ = π ′ P für zwei Wahrscheinlichkeitsverteilungen π, π ′ , so folgt insbesondere nach (11.7), dass π π ′ = πP2 = π ′ P2 , was nach Satz 11.38 π = π ′ zur Folge hat. Der Konvergenzsatz lässt sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen dieses Ergebnis allerdings nur ohne Beweis angeben: 146 11 Markov-Ketten mit endlichem Zustandsraum Bemerkung 11.42 (Konvergenzsatz für periodische Matrizen): Sei d > 1 die Periode der irreduziblen Übergangsmatrix P. Setze Si (n) := {j ∈ S | es gibt einen Pfad der Länge n von i nach j in S} . Für j ∈ / Si (n) ist dann P (Xn = j) = 0 und es gilt /∞ n max |P (Xn = j) − d · π(j)| j∈Si (n) /0 exponentiell schnell. 11.4 Rückkehrzeiten und starkes Gesetz 11.43 Definition: Sei P eine irreduzible Übergangsmatrix auf S = {1, ..., N } und i ∈ S. Sei Ti die zufällige Zeit (∈ N), die vergeht, bis die in i gestartete“ Markov-Kette X0 , X1 , X2 , ... zu P wieder in i ankommt. Dabei bedeutet ” in i gestartet, dass π0 = ei für den i-ten karthesischen Einheitsvektor ei gilt. Dann ist Ti = inf {n ≥ 1 | Xn = i} und wir nennen Ti die Rückkehrzeit von i. Bemerkung 11.44: Beachte, dass {Ti = n} = {Xn = i, .Xn−1 6= i, ..., X1 6= i, X0 = i} . Beispiel 11.45: Betrachte wieder die Übergangsmatrix P zum Übergangsgraphen GP aus Beispiel 11.9: 1 2 1 * 1 j 1 2 2 . [ Identifiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert der zufälligen Größe T1 bestimmen. n Offenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) = 12 für n ≥ 1. Damit folgt E (T1 ) ∞ X = n=0 n · P (T1 = n) n−1 ∞ X 1 n 2 n=2 = ∞ X = (n + 1) n=1 n 1 2 n X ∞ n ∞ X 1 1 + . n 2 2 n=1 n=1 | {z } = =1 Da die erste Summe dem Erwartungswert einer Zufallsvariablen X ∼ Geo d.h. wir haben E (T1 ) = 3. 1 2 entspricht ist ihr Wert = 2, Für Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) = E (T2 ) = 1 · 1 1 3 +2· = . 2 2 2 Insbesondere sehen wir in diesem Beispiel schon, dass E (Ti ) = für die zu P invariante Verteilung π = 1 2 3, 3 gilt. 1 π(i) 1 2 ist 11 Markov-Ketten mit endlichem Zustandsraum 147 11.46 Satz (Positive Rekurrenz - ohne Beweis): Sei P eine irreduzible Übergangsmatrix und X0 , X1 , ... die zugehörige in i ∈ S gestartete Markov-Kette. Dann gilt: (1) Man kehrt sicher zu i zurück, d.h. ∞ X P (Ti = n) = 1. n=1 (2) Es ist E (Ti ) = ∞ X n=1 P (Ti = n) < ∞. Ein Teil des Beweises ist Aufgabe 5 des Übungsblatts 12. Bemerkung 11.47: Ist #S = ∞, so ist der Satz von der positiven Rekurrenz im allgemeinen falsch. 11.4.1 Der Rückkehrzeitensatz 11.48 Lemma: Sei X0 , X1 , X2 , ... eine Markov-Kette und E ⊂ S n . Dann gilt für jedes in+1 , in ∈ S P Xn+1 = in+1 | Xn = in , (X0 , ..., Xn−1 ) ∈ E = P (Xn+1 = in+1 | Xn = in ) . | {z } | {z } | {z } =:A =:B (11.8) =:C Beweis: Wir zerlegen das Ereignis C disjunkt als C= X Ck k∈I mit Ck ’s von der Form {X0 = i0 , ..., Xn−1 = in−1 } für ein Tupel (i0 , ..., in−1 ) ∈ E. Nach der MarkovEigenschaft gilt P (A | B ∩ Ck ) = P (A | B) ∀ k ∈ I, d.h. es folgt P (A ∩ B ∩ Ck ) = P (A | B) · P (B ∩ Ck ) ∀ k ∈ I nach Definition der bedingten Wahrscheinlichkeit. Bilden der Summe über k ∈ I liefert P (A ∩ B ∩ C) = P (A | B) · P (B ∩ C) , was per Definition gleichbedeutend mit P (A | B ∩ C) = P (A | B) ist - das ist genau die Behauptung. 11.49 Satz (Rückkehrzeitensatz): Sei P eine irreduzible Übergangsmatrix und π die zugehörige invariante Verteilung. Dann gilt E (Ti ) = 1 π(i) für jedes i ∈ S. Beweis: Wir betrachten bei Start im Zustand i ∈ S die Hilfsfunktion µ (k) := ∞ X n=0 P (Xn = k, Ti > n) , k ∈ S. Dabei ist X0 , X1 , X2 , ... die in i gestartete Markov-Kette mit Übergangsmatrix P und die Zahlen P (Xn = k, Ti > n) entsprechen der Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aber bis zur Zeit n noch nicht wieder in i war. 148 11 Markov-Ketten mit endlichem Zustandsraum Ohne Einschränkung nehmen wir wieder S = {1, ..., N } an. Setze dann µ := (µ (1) , ..., µ (N )) . Dann gilt N X µ (k) N ∞ X X = P (Xn = k, Ti > n) n=0 k=1 k=1 ∞ X = P (Ti > n) n=0 ∞ X = n=1 (5.3) = P (Ti ≥ n) E (Ti ) und diese Zahl ist nach dem Satz über die positive Rekurrenz oben < ∞. Daher ist 1 µ(N ) µ(1) ·µ= , ..., E (Ti ) E (Ti ) E (Ti ) ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Verteilung von P handelt. Zur Vorbereitung berechnen wir für k ∈ S, k 6= i und j ∈ S, dass P (Xn+1 = j, Xn = k, Ti > n) = P (Xn+1 = j | Xn = k, Ti > n) · P (Xn = k, Ti > n) . Verwenden wir nun das Lemma oben für E = {(i, j1 , ..., jn−1 ) ∈ S n | j1 , ..., jn−1 6= i}, so folgt wegen {Ti > n} = {Xn−1 6= i, ..., X1 6= i, X0 = i} = ˆ (X0 , ..., Xn−1 ) ∈ E, dass (11.8) P (Xn+1 = j, Xn = k, Ti > n) = P (Xn+1 = j | Xn = k) · P (Xn = k, Ti > n) = P (k, j) · P (Xn = k, Ti > n) . Man beobachtet schnell, dass diese Gleichung auch für k = i richtig bleibt:Ist n > 0, so sind zwingend beide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P (i, j). 1 Es genügt nun zu zeigen, dass µP = µ ist, der Faktor E(T braucht nicht beachtet zu werden (da er auf i) beiden Seiten auftaucht). Mit obiger Rechnung gilt für j ∈ S: X (µP) (j) = µ(k) · P (k, j) k∈S = ∞ X X P (Xn = k, Ti > n) P (k, j) n=0 k∈S = ∞ X X P (Xn+1 = j, Xn = k, Ti > n) n=0 k∈S = ∞ X P (Xn+1 = j, Ti > n) . n=0 Jetzt unterscheiden wir: Für j 6= i erhält man damit (µP) (j) = ∞ X P (Xn+1 = j, Ti > n) n=0 = ∞ X P (Xn+1 = j, Ti > n + 1) n=0 = µ(j) − P (X0 = j, Ti > 0) = µ(j), 11 Markov-Ketten mit endlichem Zustandsraum 149 und für i = j erhält man (µP) (j) ∞ X = P (Xn+1 = j, Ti > n) n=0 ∞ X = P (Ti = n + 1) n=0 Satz 11.46 = 1. Beachte nun noch, dass µ(i) = ∞ X P (Xn = i, Ti > n) = ∞ X n=1 n=0 P (Xn = i, Ti > n) + P (X0 = i, Ti > 0) = 1. | {z } | {z } =0 =1 1 ·µ eine invariante Verteilung für P ist. Gemäß Satz 11.41 ist die invariante Verteilung Das zeigt, dass E(T i) eindeutig, d.h. wir haben 1 · µ(i) = π(i). E (Ti ) Wegen µ(i) = 1 wie oben berechnet folgt daraus die Behauptung. 11.50 Satz (Starkes Gesetz - ohne Beweis): / R eine Funktion. Für jede Startverteilung π0 gilt Sei P irreduzible Übergangsmatrix und sei f : S 4 dann mit Wahrscheinlichkeit 1: Ist x0 , x1 , x2 , ... ein zufälliger Pfad der Markov-Kette X0 , X1 , ... zu P und π0 (d.h. eine Realisierung“ ” dieser Markov-Kette), so konvergiert das Zeitmittel von f gegen das Raummittel Eπ (f ): n−1 1X f (xk ) n n /∞ / X f (j)π(j). j∈S k=0 Dabei bezeichnet π die invariante Verteilung zu P. Insbesondere gilt für A ⊆ S und f := 1A , dass 1 # {0 ≤ k ≤ n − 1 | xk ∈ A} n n /∞ / X π(j) = π(A). j∈A D.h. die Anzahl der Besuche“ in A konvergiert mit Wahrscheinlichkeit 1 für n ” scheinlichkeit von A unter der invarianten Verteilung π. Speziell für A = {i} gilt also 1 # {0 ≤ k ≤ n − 1 | xk = i} n 4 Eine n Konvergenz dieser Art nennt man fast sichere Konvergenz. /∞ / π(i). / ∞ gegen die Wahr- 150 11.5 11.5.1 11 Markov-Ketten mit endlichem Zustandsraum Beispiele Irrfahrt auf ungerichtetem Graphen In diesem Abschnitt bezeichnen wir Elemente aus S wieder mit i usw. um Zahlen von Ecken zu unterscheiden. Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S. 11.51 Definition: Für jede Ecke i ∈ S sei d(i) := # {j ∈ S | es gibt eine Kante zwischen i und j} . Beispiel 11.52: Sei G gegeben als 1 3 Dann ist d 2 n o 2 ) = # 1 , 2 , 3 = 3, d 1 = 2, d 3 4 = 3, d 4 = 1. Wir wandern nun rein zufällig auf diesem Graphen, in dem wir jeweils gleichverteilt die nächste Ecke unter den mit i verbunden Ecken wählen. D.h. 11.53 Definition: Sei P die N × N -Matrix mit P (i, j) = ( 0 1 d(i) falls keine Kante zwischen i und j existiert, falls eine Kante zwischen i und j existiert. Offenbar ist P tatsächlich eine stochastische Matrix: X j∈S P (i, j) = X j∈{k | es gibt eine Kante zwischen i und k} 11.54 Definition: Wir setzen D := X d(i). i∈S 11.55 Satz: Damit ist π(i) := eine invariante Verteilung von P. d(i) , i∈S D d(i) 1 = = 1 ∀ i ∈ S. d(i) d(i) 11 Markov-Ketten mit endlichem Zustandsraum 151 Beweis: Man berechnet (πP) (j) = X π(i)P (i, j) i∈S X = i∈{k | es gibt eine Kante zwischen i und j} 1 d(i) · D d(i) 1 · # {k | es gibt eine Kante zwischen i und j} D d(j) = D = π(j) = für j ∈ S. Bemerkung 11.56: Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher π nicht zwingend eindeutig bestimmt ist. Beispiel 11.57: Wir wollen einen Springer auf einem 4 × 4-Schachbrett betrachten. Sei dazu S = {(i, j) | 1 ≤ i, j ≤ 4}. Der zugehörige Graph stellt sich wie folgt dar: (1,4) (2,4) (3,4) (4,4) OOO o o // OOOOO / / o o O o o // // OOOooo OOO oo // // // OOO ooOOOO ooo o o // o o OOO OOO / ooo / ooo // OOOOoOoooo/// OOOOOooooo/// // oO oO // ooooo OOOOO/// ooooo OOOOO/// O O o o // / / O O o o o //OOoOoOoo //OOOO /o/ oooo // OOOO o//o OOOO o o / o o O O // oo // oo // / / / / / (1,3) (2,3) (3,3) (4,3) // OOO /// oo /// oo // OOOOO // / / O o o // // O O o/o o/o // OOOO/// // // ooOoOoOO//O/ oooo /// OO/ O // o o //ooo //ooo // OOO /O/ OOO // // // OOOoOoooo// // OOOOooooo// / // / oooo OOOO // / oooo OOOO // // / / O / O / ooo// o/ // // // OO/O/ OO ooo oo /// OO/O/ OO // ooooo // O O // oooOO // OOO // / /o // OOO / ooooo// ooooo// OOOO / // // // // // / (1,2) (2,2) (3,2) (4,2) OOO // OOO // oo /// oo OO O / OO O o/oo o o/o OOO // ooOoOoOO//O/ oooo /// OO/ O o o // OOO /O/ OOO // ooo ooo // OOOoOoooo // OOOOooooo // // oooo OOOO // oooo OOOO // // OOOO OOOO ooo// ooo// o o O O o o OoOoOo OOO // // / oo o O O o o OOO OOO // o / / o o ooooo O O oo (1,1) (2,1) (3,1) (4,1) Aus diesem Graphen lesen wir nun die Gradzahlen d folgenden Tabelle bezeichnet d (i,j) : (i,j) 2 3 3 2 3 4 4 3 3 4 4 3 2 3 3 2 ab. Der Eintrag in der Zelle (i, j) der 152 11 Markov-Ketten mit endlichem Zustandsraum Damit berechnet man leicht D = 4 · (2 + 3 + 3 + 4) = 48 und hat so gemäß dem Satz die invariante Verteilung π:5 1 24 1 16 1 16 1 24 1 16 1 12 1 12 1 16 1 16 1 12 1 12 1 16 1 24 1 16 1 16 1 24 Daraus erhalten wir nun: (1) Nach dem Rückkehrzeitensatz ist dann zum Beispiel E T(1,1) = 1 = 24. π((1, 1)) (2) Das starke Gesetz sagt etwa, dass für einen Springerpfad die relative Häufigkeit der Besuche in den mittleren Feldern fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen π ({(i, j) | 2 ≤ i, j ≤ 3}) = 4 · 1 1 = 12 3 konvergiert. (3) Sei P die zugehörige Übergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist. Allerdings kann P nicht aperiodisch sein, da der Springer bei jedem Zug ein Feld anderer Farbe (Schwarz / Weiß) erreicht. P hat daher mindestens Periode 2, und da hin- und wieder zurückziehen möglich ist, genau Periode d = 2. (4) Mit Bemerkung 11.42 ist für großes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegeben als 1 0 81 0 12 0 61 0 18 1 0 61 0 8 1 0 81 0 12 Dabei gibt der Eintrag in Position (i, j) die approximative Wahrscheinlichkeit an, dass der Springer sich zur Zeit n in der Position (i, j) aufhält. 11.5.2 Ehrenfeld-Diffusion Wir nehmen an, in einem Hörsaal befinden sich N Gasmoleküle. Wir zerteilen den Hörsaal in die rechte Hälfte H1 und die linke Hälfte H2 . Als Modell nehmen wir an, dass jeweils ein Molekül zufällig ausgewählt wird und dieses dann in die andere Hörsaalhälfte wechselt. Sei dazu S = {0, ..., N } , was der Anzahl der Gasmoleküle in H1 entsprechen soll. Offenbar muss dann für die Übergangsmatrix P P (i, i + 1) = P (i, i − 1) = N −i , N i , N i<N i>1 gelten. Alle übrigen Einträge der Matrix sind 0. Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung π zu P gegeben ist durch N −N π(i) = 2 , i ∈ S. i D.h. wir haben π ∼ B N, 12 . Nach dem Rückkehrzeitensatz ist dann zum Beispiel E (T0 ) = 1 = 2N . π(0) 5 Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da der Springer jedes Feld erreichen kann - die Matrix ist also irreduzibel! 11 Markov-Ketten mit endlichem Zustandsraum 153 D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmoleküle sind, so ist zu erwarten, dass dieser Zustand erst zur Zeit 2N wieder eintritt. Das ist für eine Anzahl N von Molekülen reichlich groß! Außerdem bemerkt man, dass der aktuelle Zustand oft nahe am Gleichgewicht ist: Sei N = 10.000. Wegen π ∼ B 10.000, 12 liefert die Chernov-Ungleichung π ({4801, ..., 5199}) ≥ 0.9993. Das starke Gesetz sagt uns also, dass in 99.93% der Zeit in H1 zwischen 4801 und 5199 Gasmoleküle sind. 154 12 12 Schätzer und statistische Tests Schätzer und statistische Tests Wir beginnen mit einen motivierenden Beispiel. Beispiel 12.1: Wir wollen eine Lebensmittelkontrolle durchführen. Dazu messen wir die Füllungen von 1-Liter-Flaschen nach. In Millilitern erhalten wir bei sechs Messungen die Messwerte 999, 990, 995, 1003, 1001, 991. Diese Messwerte wollen wir im folgenden mit x1 , ..., x6 bezeichnen. Wir können uns nun die folgenden Fragen stellen: (1) Wenn man annimmt, dass die Füllmenge eine N µ, σ 2 -verteilte Zufallsvariable ist, wie schätzt man dann mittels dieser Messungen den Erwartungswert? Wie schätzt man die Varianz? Um solche Fragen zu beantworten wollen wir hier kurz ML-Schätzer und erwartungstreue Schätzer behandeln. (2) Soll die Kontrolle wegen zu geringer Befüllung nach dieser Messung einschreiten? Um diese Frage zu beantworten werden wir kurz statistische Tests betrachten. 12.1 Punktschätzer Sei X eine Zufallsvariable (oder ein Zufallsvektor) X:Ω / X. Im Zusammenhang dieses Kapitels nennen wir X auch den Stichprobenraum. Wir nehmen natürlicher Weise an, dass wir die Verteilung P von X auf X nicht kennen. Beachte, dass wir hier P anstelle von P X schreiben. Stattdessen nehmen wir an, dass P in einer Familie P = {Pθ | θ ∈ Θ} von Verteilungen Pθ auf X liegt. Diese Familie bezeichnen wir auch als statistisches Modell für die möglichen Verteilungen von X. Beispiel 12.2: Sei X die Anzahl der Erfolge in einem n-fach wiederholten Bernoulli-Experiment mit unbekannter Erfolgswahrscheinlichkeit. Dann ist X = {0, ..., n} und das statistische Modell ist gegeben als P = B (n, θ) | θ ∈ [0, 1] . | {z } | {z } =Pθ =Θ Zu jeder der Verteilungen Pθ gehört in diesem Fall eine Wahrscheinlichkeitsfunktion n x n−x pθ (x) = θ (1 − θ) , x = 0, ..., n. x Wir wollen nun aufgrund einer Stichprobe x ∈ X (d.h. einer Realisation von X) den Parameter θ oder allgemeiner eine Funktion g in Abhängigkeit von θ geschätzt werden. 12.3 Definition: Ein Schätzer für θ ∈ Θ ist eine Abbildung t:X / Θ. Für ein konkretes x ∈ X heißt t(x) dann eine Schätzung für θ. Die Zufallsvariable T := t (X) wird ebenfalls Schätzer für θ genannt. Beispiel 12.4: Betrachte wieder das Setting aus Beispiel 12.2. Ist x ∈ {0, ..., n} die Stichprobe, so ist t(x) := x n 12 Schätzer und statistische Tests 155 ein Schätzer für die Erfolgswahrscheinlichkeit θ des Bernoulli-Experiments. Nun sollte man sich fragen, ob dieser Schätzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen. Ebenso ist dann 1 T = X n ein Schätzer für θ und konkret für n = 20 und x = 14 ist t(14) = 7 = 0.7 10 eine Schätzung von θ. 12.5 Definition: Sei g eine beliebige Funktion auf Θ. Jede Abbildung t:X / g (Θ) heißt Schätzer für g(θ). Beispiel 12.6: Wieder im Setting von Beispiel 12.2 können wir versuchen, die Varianz von B (nθ) zu schätzen, d.h. g(θ) = n · θ · (1 − θ) . Ein möglicher Schätzer wäre x x x 1− =x· 1− . n n n Weiter unten werden wir uns mit der Frage beschäftigen, ob dieser Schätzer sinnvoll bzw. gut ist. t(x) := n · Man sollte beachten, dass es im Allgemeinen nicht den Besten“ Schätzer gibt. Es gibt verschiedene ” Verfahren zur Herleitung und verschiedene Güte-Kriterien für Schätzer. Wir besprechen hier die MLSchätzer und die erwartungstreuen Schätzer, es gibt außerdem noch Risiko-Schätzer, Konsistenz-Schätzer und viele mehr. 12.1.1 ML-Schätzer 12.7 Definition: Wir sagen, ein Schätzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt: Für jedes x ∈ X ist t(x) = θML ∈ Θ mit pθML (x) ≥ pθ (x) ∀ θ ∈ Θ. Falls wir mit einer diskreten Verteilung Pθ arbeiten, so ist das zugehörige pθ die entsprechende Wahrscheinlichkeitsfunktion, ist Pθ eine stetige Verteilung, so ist pθ die entsprechende Dichte. D.h. für festes x ∈ X maximiert t(x) = θML die sogenannte Likelihood-Funktion Lx (θ) = pθ (x) über θ ∈ Θ. Beispiel 12.8: Betrachte wieder das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als n x n−x Lx (θ) = θ (1 − θ) . x Um einen ML-Schätzer für θ zu bestimmen ist diese Funktion jetzt für gegebenes x ∈ {0, ..., n} über θ ∈ [0, 1] zu minimieren. Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfachung kann man die log-Likelihood-Funktion log Lx betrachten. Da der Logarithmus log streng monoton steigend ist6 , nehmen Lx und log Lx im selben θ ihr Maximum. 6 Wir betrachten hier stets nur den natürlichen Logarithmus ln = log. 156 12 Schätzer und statistische Tests Beispiel 12.9: Im obigen Beispiel 12.2 ist dann log Lx (θ) = log n + x log θ + (n − x) log (1 − θ) . x Um das Maximum dieser Funktion zu bestimmen, differenzieren wir nach θ und erhalten so ! 0 = 0+ x n−x − , θ 1−θ womit θ = nx folgt. Also ist unser Schätzer n x von oben sogar ein ML-Schätzer für die Erfolgswahrscheinlichkeit θ. t(x) = 12.1.2 Erwartungstreue Schätzer 12.10 Definition: Ein Schätzer t für θ ist erwartungstreu, wenn Eθ (t(X)) = θ für alle θ ∈ Θ gilt, d.h.: Ist θ der wahre Parameter, so ist die (zufällige) Schätzung t(x) zumindest im Erwartungswert gleich θ. Ganz analog definiert man für Schätzer von Funktionen: 12.11 Definition: Ein Schätzer t für eine Funktion g in Abhängigkeit von θ ist erwartungstreu, wenn Eθ (t(X)) = g (θ) für alle θ ∈ Θ gilt. Beispiel 12.12: Betrachte wieder Beispiel 12.2. Wir behaupten, dass unser Schätzer t(x) = x n von dort erwartungstreu ist. Beweis: Mit der Linearität des Erwartungswertes gilt 1 1 X = E (X) = θn = θ. E (t (X)) = E n n n Es folgt die Behauptung. Beispiel 12.13: Im selben Beispiel 12.2 sei nun n ≥ 2. Dann ist x t(x) = x 1 − n ein ML-Schätzer für die Varianz, denn schließlich haben wir dort einfach den ML-Schätzer für θ in die 12 Schätzer und statistische Tests 157 Varianz-Formel θ 7→ nθ (1 − θ) eingesetzt. Allerdings ist er nicht erwartungstreu: X Eθ (t(X)) = Eθ X 1 − n 1 = Eθ (X) − Eθ X 2 n 1 2 = nθ − Vθ (X) + (Eθ (X)) n 1 = nθ − nθ (1 − θ) + n2 θ2 n = (n − 1) θ (1 − θ) n−1 nθ (1 − θ) . n } | {z } | {z = 6=1 =g(θ)=Vθ (X) Allerdings sehen wir an dieser Berechnung schon, dass n x n t(x) = x 1− n−1 n−1 n ein erwartungstreuer Schätzer für die Varianz ist. Z.B. für n = 2 ist die Abweichung zwischen diesen beiden Schätzern deutlich: Ist der wahre Parameter θ = 21 , so ist 1 n−1 (1 − θ) = , Eθ (t(X)) = θ 4 obwohl die tatsächliche Varianz 1 2 beträgt. Wir wollen nun eine allgemeinere Situation betrachten: Seien X1 , ..., Xn unabhängige, identisch verteilte Zufallsvariablen. Sei X1 der Wertebereich dieser Variablen. Definiere als Stichprobenraum n X= ×X ν=1 Betrachte dazu das statistische Modell P= 1 = X1 ×... × X1 . {z } | n−mal P̃θ × ... × P̃θ | θ ∈ Θ , {z } | =:Pθ wobei jedes P̃θ eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist. Beispiel 12.14: Sei etwa P̃θ ∈ {B (1, θ) | 0 ≤ θ ≤ 1} oder P̃θ ∈ N µ, σ 2 | µ ∈ R, σ 2 > 0 . Wir wollen im zweiten Fall θ := µ, σ 2 setzen. (1) Wir wollen zuerst einen Schätzer für den Erwartungswert Eθ (X1 ) von P̃θ herleiten. 12.15 Lemma: Der Schätzer n t (x1 , ..., xn ) := ist erwartungstreu für Eθ (X1 ). 1X xi = x̄ n i=1 158 12 Schätzer und statistische Tests Beweis: Man berechnet n Eθ (t (X1 , ..., Xn )) = Eθ n = 1X Xi n i=1 ! 1X Eθ (Xi ) n i=1 = Eθ (X1 ) . Das zeigt die Behauptung. Beispiel 12.16: In Beispiel 12.1 wäre also 6 1X xi = 996.5 6 i=1 eine erwartungstreue Schätzung für µ. (2) Jetzt wollen wir einen Schätzer für die Varianz Vθ (X1 ) von P̃θ herleiten. Sei dazu wieder n x̄ := 1X xi . n i=1 Berechne nun n X i=1 2 (xi − x̄) = n X i=1 = n X i=1 = n X i=1 x2i − 2 n X xi x̄ + n X x̄2 i=1 i=1 x2i − 2nx̄2 + nx̄2 2 x2i − n (x̄) (12.1) und Eθ x̄2 = = n X 1 Eθ Xi · Xj n2 i,j=1 n n 1 X 1 X Eθ (Xi · Xj ) Eθ (Xi · Xi ) + 2 n2 i=1 n i,j=1 i6=j Unabhängigkeit = 1 nEθ n2 n 1 X X12 + 2 Eθ (Xi ) · Eθ (Xj ) n i,j=1 i6=j = 2 n−1 1 2 Eθ X 1 + (Eθ (X1 )) . n n Jetzt können wir zeigen: 12.17 Lemma: Der Schätzer (12.2) n S 2 (x1 , ..., xn ) = 1 X 2 (xi − x̄) n − 1 i=1 ist ein erwartungstreuer Schätzer für die Varianz. Er wird auch Stichprobenvarianz genannt. 12 Schätzer und statistische Tests 159 Beweis: Es gilt Eθ n X i=1 2 (Xi − x̄) ! (12.1) = Eθ n X Xi2 i=1 (12.2) = = 2 − nx̄ ! 2 nEθ X12 − Eθ X12 + (n − 1) (Eθ (X1 )) 2 (n − 1) Eθ X12 − (Eθ (X1 )) (n − 1) Vθ (X1 ) . = Das zeigt die Behauptung. Beachte den Unterschied zur empirischen Varianz n 1X 2 σ̂ (x1 , ..., xn ) = (xi − x̄) . n i=1 2 / ∞. Sie ist nicht erwartungstreu, aber der Unterschied verschwindet mit n √ 2 2 In der Praxis wird S als Schätzer für die Varianz und S als Schätzer für die Standardabweichung verwendet. Beispiel 12.18: In Beispiel 12.1 wäre also 6 S 2 (x1 , ..., x6 ) = 6 1X 1X 2 2 (xi − x̄) = (xi − 996.5) = 28.7 5 i=1 5 i=1 √ eine erwartungstreue Schätzung für σ 2 . Entsprechend schätzen wir σ als 28.7 ≈ 5.357. Die Schätzung der Parameter µ, σ 2 von N µ, σ 2 würde in unserem Fall also µ = 996.5 und σ 2 = 28.7 liefern. 12.2 Statistische Tests Wir wollen uns nun mit der Frage aus Beispiel 12.1 beschäftigen, ob aufgrund dieser Stichproben die Kontrolle eingeschaltet werden sollte. Dazu beschäftigen wir uns allgemein mit statistischen Tests: Sei X ein Stichprobenraum und P = {Pθ | θ ∈ Θ} ein statistisches Modell für die möglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors X mit Werten in X. Seien nun Θ0 ⊂ Θ und Θ1 ⊂ Θ zwei disjunkte Teilmengen. 12.19 Definition: Die Aussage H0 : θ ∈ Θ0 nennen wir Hypothese und die Aussage H1 : θ ∈ Θ1 nennen wir Alternative. Beispiel 12.20: In Beispiel 12.1 wäre P= N µ, σ 2 | µ ≥ 0, σ 2 > 0 | {z } =θ 160 12 Schätzer und statistische Tests das statistische Modell für die möglichen Verteilungen der Befüllung. Die Aussage kein Betrug“ ent” spräche dann der Hypothese H0 : θ ∈ Θ0 := µ, σ 2 | µ = 1000, σ 2 > 0 und die Aussage Betrug“ entspräche der Alternative ” H1 : θ ∈ Θ1 := µ, σ 2 | µ < 1000, σ 2 > 0 . 12.21 Definition: Das Entscheidungsproblem H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 heißt Testproblem. 12.22 Definition: Ein Test ist eine Abbildung ϕ:X / {0, 1} , wobei ϕ(x) = 1 bedeutet, dass die Hypothese verworfen wird und ϕ(x) = 0 bedeutet, dass die Hypothese nicht verworfen wird. Die Menge {x ∈ X | ϕ(x) = 1} heißt Verwerfungsbereich. Bemerkung 12.23: Als Hypothese sollte man stets die Annahme wählen, deren Verwerfung die größeren Konsequenzen hat - wie vor Gericht die Unschuldsvermutung. Der Grund dafür ist, dass durch (statistische) Tests stets nur der Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird. Beim Test eines neuen Prototypen würde man als Hypothese also das bisherige Produkt ist besser“ ” verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss. 12.24 Definition: Sei ϕ ein Test. Wir definieren die Gütefunktion βϕ : Θ / [0, 1] von ϕ durch βϕ (θ) := Pθ (ϕ(x) = 1) , d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen. Für θ ∈ Θ0 ist βϕ (θ) dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung 12.23). Das primäre Ziel bei statistischen Tests ist es nun, den Fehler erster Art für alle θ ∈ Θ0 zu kontrollieren! 12.25 Definition: Sei ϕ ein Test. Wir nennen ϕ einen Test zum Niveau α ∈ [0, 1], wenn sup βϕ (θ) ≤ α θ∈Θ0 ist, d.h. wenn für alle θ ∈ Θ0 die Wahrscheinlichkeit eines Fehlers erster Art durch α beschränkt ist. 12.26 Definition: 1 = 0.05 und x ∈ X eine Stichprobe mit ϕ(x) = 1 (d.h. wenn wir aufgrund Ist ϕ ein Test zum Niveau α = 20 dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signifikanten Ergebnis. Bei α = 1 100 = 0.01 sprechen wir von einem hoch-signifikanten Ergebnis. Wir wollen im folgenden zwei Arten von Tests für Normalverteilungen besprechen. 12 Schätzer und statistische Tests 12.2.1 161 Der einseitige Gaußtest Dieser Test wird durchgeführt, wenn die Varianz bekannt ist. Beispiel 12.27: Wissen wir also etwa in Beispiel 12.1, dass die Füllmaschine eine Standard-Abweichung von σ0 = 5 hat, so können wir den nun folgenden Gaußtest verwenden. Beachte, dass dann Θ = {(µ, 25) | µ ≥ 0} ist und unsere Hypothese ( kein Betrug“) genau µ = µ0 = 1000 entspricht. Die Alternative ( Betrug“) ist dann ” ” µ < µ0 = 1000. Wir wollen nun in Abhängigkeit von n x̄ = 1X xi n i=1 entscheiden. Als Verwerfungsbereich wollen wir beim Gaußtest ein Intervall (−∞, z) mit einem noch zu bestimmenden z wählen, d.h. es soll ϕ(x) = 1 sein genau dann, wenn x̄ < z gilt. Wir werden hier jetzt beispielhaft an unserem Füllmengenbeispiel z so bestimmen, dass der zugehörige Test das Niveau 0.05 hat. Seien X1 , ..., Xn die zufälligen Meßwerte und sei wie immer n X̄ = 1X Xi . n i=1 Es ist z so zu bestimmen, dass unter der Hypothese µ = µ0 gilt: Pµ0 X̄ < z ≤ 0.05. Unter der Hypothese µ = µ0 gilt Xi ∼ N µ0 , σ02 , d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass X̄ − µ0 σ0 √ n ∼ N (0, 1) . Damit haben wir Pµ0 X̄ < z = Pµ0 Wir müssen also ein y finden, s.d. X̄ − µ0 σ0 √ n < | {z } ∼N (0,1) z − µ0 σ0 √ n | {z } ! ! ≤ 0.05. =:y Φ(y) = 0.05 für die Verteilungsfunktion Φ der Standardnormalverteilung N (0, 1) ist. Das ist genau dann der Fall, wenn Φ(−y) = 0.95 gilt. Unter Verwendung der Tabelle (Anhang A) interpolieren wir so −y = 1.645, womit σ0 z = µ0 + √ · (−1.645) n ist. Beispiel 12.28: In Beispiel 12.1 wäre dementsprechend σ0 5 z = µ0 + √ · (−1.645) = 1000 − 1.645 √ ≈ 996.64. n 6 Wegen x̄ = 996.5 würden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnung machen! 162 12.2.2 12 Schätzer und statistische Tests Der t-Test Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen. In unserem Beispiel 12.1 wollen wir hier also H0 : θ ∈ Θ0 = µ, σ 2 | µ = µ0 = 1000, σ 2 > 0 gegen H1 : θ ∈ Θ1 = testen. Als Testgröße“ kann man jetzt nicht ” µ, σ 2 | µ < µ0 = 1000, σ 2 > 0 X̄ − µ0 σ0 √ n nutzen, da man σ0 nicht kennt. Die Lösung für dieses Problem ist denkbar einfach: Man schätzt σ0 über v u n √ u 1 X 2 2 t Xi − X̄ , S= S = n − 1 i=1 wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S 2 wie dort gezeigt ein erwartungstreuer Schätzer für σ0 ist! Nach dieser Schätzung nutzt man dann ! X̄ − µ0 z − µ0 P X̄ < z = P < , S S √ n | {z } √ n =Y und man kann zeigen, dass Y ∼ tn−1 gilt. Die Verteilung tn−1 ist dabei unabhängig von σ 2 , d.h. von der wahren Varianz. Die Dichte zu tn−1 sieht der Dichte von N (0, 1) sehr ähnlich und in gewissem Sinne gilt /∞ n / N (0, 1). Die Verteilungsfunktion Ft der Verteilung tn−1 ist ebenso wie Φ tabelliert. tn−1 n−1 Jetzt kann man genauso wie beim Gaußtest vorgehen und entsprechend ein y mit Ftn−1 (−y) = 0.95 suchen. Beispiel 12.29: In Beispiel 12.1 betrachten wir n = 6, also t5 . Es folgt aus der Tabelle y = −2.015 und damit 5.3572 S ≈ 995.593. z = µ0 + √ · (−2.015) = 1000 − 2.015 · √ n 6 In diesem Fall würden wir die Hypothese also nicht verwerfen, um ein Niveau von 0.05 zu halten! A Tabelle der Standardnormalverteilung A 163 Tabelle der Standardnormalverteilung Wir wollen hier eine Tabelle zum Nachschlagen der Verteilungsfunktion 2 1 t √ exp − dt 2 2π Zx Φ(x) = −∞ der Standard-Normalverteilung geben. Da Φ (−x) = 1 − Φ (x) , x ≥ 0, sind nur positive Werte angegeben: 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1.10 1.20 1.30 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 2.20 2.30 2.40 2.50 2.60 2.70 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90 0.00 0.500000 0.539828 0.579260 0.617911 0.655422 0.691462 0.725747 0.758036 0.788145 0.815940 0.841345 0.864334 0.884930 0.903199 0.919243 0.933193 0.945201 0.955435 0.964070 0.971284 0.977250 0.982136 0.986097 0.989276 0.991802 0.993790 0.995339 0.996533 0.997445 0.998134 0.998650 0.999032 0.999313 0.999517 0.999663 0.999767 0.999841 0.999802 0.999928 0.999952 0.01 0.503989 0.543795 0.583166 0.621719 0.659097 0.694974 0.729069 0.761148 0.791030 0.818589 0.844752 0.866500 0.886860 0.904902 0.920730 0.934478 0.946301 0.956367 0.964852 0.971933 0.977784 0.982571 0.986447 0.989556 0.992024 0.993963 0.995473 0.996636 0.997523 0.998193 0.998694 0.999064 0.999336 0.999533 0.999675 0.999776 0.999847 0.999896 0.999930 0.999954 0.02 0.507978 0.547758 0.587064 0.625516 0.662757 0.698468 0.732371 0.764238 0.793892 0.821214 0.846136 0.868643 0.888767 0.906582 0.922196 0.935744 0.947384 0.957284 0.965621 0.972571 0.978308 0.982997 0.986791 0.989830 0.992240 0.994132 0.995603 0.996736 0.997599 0.998250 0.998736 0.999096 0.999359 0.999550 0.999687 0.999784 0.999853 0.999900 0.999933 0.999956 0.03 0.511967 0.551717 0.590954 0.629300 0.666402 0.701944 0.735653 0.767305 0.796731 0.823814 0.848495 0.870762 0.890651 0.908241 0.923641 0.936992 0.948449 0.958185 0.966375 0.973197 0.978822 0.983414 0.987126 0.990097 0.992451 0.994297 0.995731 0.996833 0.997673 0.998305 0.998777 0.999126 0.999381 0.999566 0.999698 0.999792 0.999858 0.999904 0.999936 0.999958 0.04 0.515953 0.555670 0.594835 0.633072 0.670031 0.705402 0.738914 0.770350 0.799546 0.826391 0.850830 0.872857 0.892512 0.909877 0.925066 0.938220 0.949497 0.959071 0.967116 0.973810 0.979325 0.983823 0.987455 0.990358 0.992656 0.994457 0.995855 0.996928 0.997744 0.998359 0.998817 0.999155 0.999402 0.999581 0.999709 0.999800 0.999864 0.999908 0.999938 0.999959 0.05 0.519939 0.559618 0.598706 0.636831 0.673645 0.708840 0.742154 0.773373 0.802338 0.828944 0.853141 0.874928 0.894350 0.911492 0.926471 0.939429 0.950529 0.959941 0.967843 0.974412 0.979818 0.984222 0.987776 0.990613 0.992857 0.994614 0.995975 0.997020 0.997814 0.998411 0.998856 0.999184 0.999423 0.999596 0.999720 0.999807 0.999869 0.999912 0.999941 0.999961 0.06 0.523922 0.563559 0.602568 0.640576 0.677242 0.712260 0.745373 0.776373 0.805106 0.831472 0.855428 0.876976 0.896165 0.913085 0.927855 0.940620 0.951543 0.960796 0.968557 0.975002 0.980301 0.984614 0.988089 0.990863 0.993053 0.994766 0.996093 0.997110 0.997882 0.998462 0.998893 0.999211 0.999443 0.999610 0.999730 0.999815 0.999874 0.999915 0.999943 0.999963 0.07 0.527903 0.567495 0.606420 0.644309 0.680822 0.715661 0.748571 0.779350 0.807850 0.833977 0.857690 0.878999 0.897958 0.914656 0.929219 0.941792 0.952540 0.961636 0.969258 0.975581 0.980774 0.984997 0.988396 0.991106 0.993244 0.994915 0.996207 0.997197 0.997948 0.998511 0.998930 0.999238 0.999462 0.999624 0.999740 0.999821 0.999879 0.999918 0.999946 0.999964 0.08 0.531881 0.571424 0.610261 0.648027 0.684386 0.719043 0.751748 0.782305 0.810570 0.836457 0.859929 0.881000 0.899727 0.916207 0.930563 0.942947 0.953521 0.962463 0.969946 0.976148 0.981237 0.985371 0.988696 0.991344 0.993431 0.995060 0.996319 0.997282 0.998012 0.998559 0.998965 0.999264 0.999481 0.999638 0.999749 0.999828 0.999883 0.999922 0.999948 0.999966 0.09 0.535856 0.575345 0.614092 0.651732 0.687933 0.722405 0.754903 0.785236 0.813267 0.838913 0.862143 0.882977 0.901475 0.917736 0.931888 0.944083 0.954486 0.963273 0.970621 0.976705 0.981691 0.985738 0.988989 0.991567 0.993613 0.995201 0.996427 0.997365 0.998074 0.998605 0.998999 0.999289 0.999499 0.999650 0.999758 0.999835 0.999888 0.999925 0.999950 0.999967 Dabei ist der Eintrag in der Zelle (i, j) genau Φ (i + j). Hier nochmal der Graph: bbbbb bbbbb bbbbb 0.8 0.6 0.4 0.2 bbbbb bbbbb bbbbb bbbbb bbbbb bbbbb bbbbb bbbbb bbbbbb bbbbbb bbbbbb bbbbbb bbbbbb bbbbbbb bbbbbbb bbbbbbb bbbbbbbbb bbbbbbbbb bbbbbbbbbb bbbbbbbbbbb bbbbbbbbbbbbb bbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb −4.0 −3.6 −3.2 −2.8 −2.4 −2.0 −1.6 −1.2 −0.8 −0.4 0 bbbbb bbbbb bbbbb bbbbb bbbbb bbbbb bbbbb bbbbb bbbbb bbbbbb bbbbbb bbb bbbbb bbbbbb bbbbbbb bbbbbbb bbbbbbb bbbbbbbb bbbbbbbbb bbbbbbbbb bbbbbbbbbbb bbbbbbbbbbbb bbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbb 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0 Abbildung 24: Die Verteilungsfunktion Φ der Standardnormalverteilung. B.1 Kenngrößen der wichtigsten Verteilungen 164 B Diskrete Verteilungen P (X = k) für k ∈ X (Ω) Erwartungswert Varianz {1, ..., N } 1 N N +1 2 N 2 −1 12 p p (1 − p) n·p n · p · (1 − p) R nN R (N −R) N −n nN N N −1 Parameter Laplace N ∈N Benoulli p ∈ [0, 1] B (1, p) {0, 1} Binomial p ∈ [0, 1], n ∈ N B (n, p) {1, ..., n} Hypergeometrisch N, R ∈ N, N ≥ R, n ∈ N Poisson λ>0 Geometrisch p ∈ [0, 1] Negativ-Binomial p ∈ [0, 1], r ∈ N Bezeichnung X (Ω) Verteilung {0, ..., n} Poi (λ) Geo (p) N0 N N0 1−k pk (1 − p) n−k n k k p (1 − p) R k N −R n−k N n ( )( ) ( ) k exp (−λ) λk! k−1 p · (1 − p) k r+k−1 r p (1 − p) k r· λ λ 1 p 1−p p2 1−p p r 1−p p2 B Kenngrößen der wichtigsten Verteilungen Stetige Verteilungen Verteilung Parameter Bezeichnung Gleichverteilung a<b U (a, b) Normalverteilung µ ∈ R, σ > 0 N µ, σ 2 Exponentialverteilung λ>0 Exp (λ) Gammaverteilung r, λ ∈ (0, ∞) Gamma (r, λ) Chi-Quadrat-Verteilung n∈N Paretoverteilung Cauchyverteilung α ∈ (0, ∞) Wahrscheinlichkeitsdichte f (t) = χ2n = Gamma Pareto(α) f (t) = Erwartungswert Varianz b+a 2 (b−a)2 12 µ σ 1 λ 1 λ2 r λ r λ2 1 b−a 1[a,b] (t) √ 1 2πσ 2 2 exp − (t−µ) 2 2σ f (t) = λ exp (−λt) 1(0,∞) (t) n 1 2, 2 f (t) = λr r−1 Γ(r) t n f (t) = 2− 2 Γ( n 2) exp (−λt) 1(0,∞) (t) n t 2 −1 exp − 2t 1(0,∞) (t) f (t) = α 1 (t) (t+1)α+1 (0,∞) f (t) := 1 π(1+t2 ) n ( ∞ 1 α−1 falls α ≤ 1 falls α > 1 existiert nicht 2n ( α α−2 ∞ − α2 (α−1)2 falls α > 2 falls α ≤ 2 B Kenngrößen der wichtigsten Verteilungen B.2 existiert nicht 165 166 Stichwortverzeichnis Stichwortverzeichnis σ-Algebra, 100, 102, 114 Borel’sche, 102, 114 triviale, 100 3-Türen-Problem, 52 Abbildung meßbare, 101 Bayes Formel von, 36 bedingte Erwartung, 82 Bernoulli -Experiment, 45 Bernstein Ungleichung, 74 Binomialkoeffizient, 24 Binomialverteilung, siehe Verteilung Blockungslemma, 54, 119 Borel’sche σ-Algebra, 102, 114 Cauchyverteilung, siehe Verteilung Chernov Ungleichung, 76 Chi-Quadrat-Verteilung, siehe Verteilung de Moivre-Laplace Grenzwertsatz von, 96 de Morgan’sche Regeln, 9 Dichte, 104, 115 der Standardnormalverteilung, 96 gemeinsame, 115 Produktdichte, 115 Transformationsformel, 109 Ereignis, 7 bedingte Wahrscheinlichkeit, 33 sicheres, 7 Unabhängigkeit, 31, 32 unmögliches, 7 Verknüpfungen, 7 Ergebnis, 7 Erwartungswert, 60 bedingter, 82 eines Zufallsvektors, 122 Jensen’sche Ungleichung, 126 Linearität, 63, 117 Produktformel, 64 Trafoformel, siehe Transformationsformel Experiment n-stufiges, 39 Exponentialverteilung, siehe Verteilung Fächermodell, 22 Faltung, 120 Formel Mulitplikationsformel, 34 von Bayes, 36 von der totalen Wahrscheinlichkeit, 36 Funktion erzeugende, 87 Gamma-, 108 rechtstetig, 102 Galton-Watson-Prozess, 92 Gammaverteilung, siehe Verteilung Gaußsche Glockenkurve, 96 geometrische Verteilung, siehe Verteilung Gleichverteilung, siehe Verteilung diskrete, 11 Graph Pfad, 134 Gewicht, 135 Länge, 135 Weg, 134 Grundraum diskreter, 7 Hoeffding Ungleichung, 76 Indikatorvariable, 50 Korellationskoeffizient, 85 Korrelation negative, 86 positive, 86 Kovarianz eines Zufallsvektors, 123 Laplace-Raum, 11 Laplace-Verteilung, 11 Markov-Kette, 139 Übergangsgraph, 134 irreduzibel, 135 Übergangsmatrix, 133 aperiodisch, 137 irreduzibel, 135 Periode, 137 in i gestartete, 146 Konvergenzssatz, 141 Markov-Eigenschaft, 139 Rückkehrzeit, 146 Rückkehrzeitensatz, 147 Satz von der invarianten Verteilung, 145 Satz von der positiven Rekurrenz, 147 starkes Gesetz, 149 Startverteilung, 139 stochastische Matrix, 133 Verteilung invariante, 141 Zustand Periode, 136 Zustandsmenge, 133 Markov-Ungleichung, 72 Menge Komplement, 9 Multinomialkoeffizient, 25 Multinomialverteilung, siehe Verteilung negative Binomialverteilung, siehe Verteilung Stichwortverzeichnis Normalapproximation, 98 Normalverteilung, siehe Verteilung Paretoverteilung, siehe Verteilung Polya’sches Urnenmodell, 39 relative Häufigkeit, 8 Satz Abel’scher Grenzwertsatz, 88 Binomischer Lehrsatz, 24 Grenzwertsatz von de Moivre-Laplace, 96 Konvergenzsatz für Markov-Ketten, 141 Poisson-Grenzwert, 59 Rückkehrzeitensatz, 147 von der invarianten Verteilung, 145 von der iterierten Erwartung, 82 von der positiven Rekurrenz, 147 Zentraler Grenzwertsatz, 127 Fehlerabschätzung nach Berry-Esseen, 131 Schätzer, 154 erwartungstreuer, 156 ML-, 155 Schätzung, 154 Schwaches Gesetz großer Zahlen, 73 Siebformel, 15 Bonferroni-Ungleichungen, 19 von Poincare-Sylvester, 15 Simpson-Paradoxon, 37 Spiegelungsprinzip, 29 Stichprobe Stichprobenvarianz, 158 Stichprobenraum, 154 Stimmzettelproblem, 28 System dynamisches, 93 Grenzwert, 93 Test, 160 t-, 162 Alternative, 159 Fehler erster Art, 160 Gütefunktion, 160 Gauß-, 161 hoch-signifikantes Ergebnis, 160 Hypothese, 159 signifikantes Ergebnis, 160 Testproblem, 160 Verwerfungsbereich, 160 zum Niveau α, 160 Transformationsformel, 62, 112, 116 Tschebyschow-Ungleichung, 72 Ungleichung Bernstein-, 74 Bonferroni, 19 Boole’sche, 10, 20 Chernov-, 76 Hoeffding-, 76 Markov, 72 SGGZ, siehe Schwaches Gesetz großer Zahlen Tschebyschow, 72 Urnenmodell, 22 167 Varianz, 65, 113 empirische, 159 Rechenregeln, 66 Stichprobenvarianz, 158 Verteilung, 100 k-dimensionale Randverteilung, 51 n-dimensionale Normalverteilung, 122 n-dimensionale Std.-Normalverteilung, 122 a-posteriori, 42 a-priori, 42 austauschbare, 40 bedingte, 80 Binomialverteilung, 27 Cauchy-, 108 Chi-Quadrat, 108 einer Zufallsvariable, 48 Exponential-, 106 Gedächtnislosigkeit, 107 Faltung, 77 Gamma-, 108 gemeinsame, 50 geometrische, 46 Gleichverteilung, 105 hypergeometrische, 27 Marginalverteilung, 51 Multinomialverteilung, 45 negative Binomialverteilung, 47 Normalverteilung, 106 ausgeartete, 124 nicht ausgeartete, 124 Pareto-, 107 Produktverteilung, 115 Standard-Normalverteilung, 96, 106 stetige, 104 Verteilungsfunktion, 102 Standardnormalverteilung, 96 Verzweigungsprozess, 92 Aussterbewahrscheinlichkeit, 92 Vitali-Menge, 101 Vorhersager linearer, 86 Wahrscheinlichkeit bedingte, 33 Multiplikationsformel, 34 Wahrscheinlichkeitsfunktion, 13 bedingte, 80 Wahrscheinlichkeitsraum, 100 diskreter, 8 Laplace-Raum, 11 Produkt, 43 Wahrscheinlichkeitsverteilung, 100 Wald’sche Identität, 83, 91 Ziegenproblem, 52 zufällige Summe erzeugende Funktion, 90 Zufallsexperiment, 6 Zufallsvariabel standardisierte, 95 Zufallsvariable, 48, 101 j-tes faktorielles Moment, 88 168 Stichwortverzeichnis k-tes Moment, 113 k-tes zentrales Moment, 66 bedingte Erwartung, siehe bedingte Erwartung Bernoulli-verteilte, 56 Binomial-verteilte, 56 Poisson-Approximation, 59 drittes zentrales Moment, 127 Erwartungswert, siehe Erwartungswert Funktion von Zufallsvariablen, 53 gemeinsame Dichte, 115 geometrisch verteilte, 57 Gedächtnislosigkeit, 57 gleichverteilte, 56 Kovarianz, 66 Laplace-verteilte, 56 Poisson-verteilte, 58 reelle, 102 Standardabweichung, 65 stetig verteilte, 105 Erwartungswert, 111 Unabhängigkeit, 51, 83, 117 unkorreliert, 69, 119 Varianz, siehe Varianz Verteilung, 48, 101 bedingte, 80 Faltung, 77 Wahrscheinlichkeitsfunktion bedingte, 80