Statistik Doz. Dr. Norbert Kusolitsch Institut für Statistik und Wahrscheinlichkeitstheorie Abt: Wahrscheinlichkeitstheorie und Theorie stochastischer Prozesse1 25. Oktober 2013 1 c Alle Rechte, auch die der Übersetzung, des auszugsweisen Nachdrucks und der foto mechanischen Wiedergabe vorbehalten. 2 Inhaltsverzeichnis 1 Einführung – grundlegende Begriffe 5 2 Die bedingte Wahrscheinlichkeit 21 3 Zufallsvariable und Verteilungsfunktionen 3.1 Eindimensionale Verteilungsfunktionen . . . 3.2 Mehrdimensionale Zufallsvariable . . . . . . 3.3 Transformation von Zufallsvariablen . . . . 3.4 Die Faltung . . . . . . . . . . . . . . . . . . . . . . 29 29 38 53 56 . . . . 61 61 65 70 78 . . . . . . . . 4 Erwartungswert und andere Lageparameter 4.1 Erwartungswert einer diskreten Zufallsvariablen 4.2 Allgemeine Definition des Erwartungswertes . . 4.3 Weitere Eigenschaften des Erwartungswertes . 4.4 Andere Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Streuungsparameter 83 6 Das schwache Gesetz der großen Zahlen 91 7 Das 7.1 7.2 7.3 7.4 starke Gesetz der großen Zahlen Die Lemmata von Borel-Cantelli . . Fast sichere Konvergenz . . . . . . . Andere Konvergenzarten . . . . . . . Der Satz von Glivenko-Cantelli . . . 8 Der 8.1 8.2 8.3 zentrale Grenzverteilungssatz 115 Der Satz von de Moivre-Laplace . . . . . . . . . . . . . . . . . . . . 115 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Der zentrale Grenzverteilungssatz . . . . . . . . . . . . . . . . . . . . 122 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 . 99 . 106 . 110 . 111 4 INHALTSVERZEICHNIS Kapitel 1 Einführung – grundlegende Begriffe Anstatt philosophische Betrachtungen über die Begriffe Wahrscheinlichkeit und Zufall anzustellen, wollen wir zunächst einige Beispiele anführen, bei denen statistische Fragestellungen auftreten. 1. Volkszählungen: Bereits in der Bibel werden Volkszählungen erwähnt; sie dienten der Steuereintreibung und Aushebung von Heeren.Volkszählungen werden heutzutage alle 10 Jahre durchgeführt. 2. Stichprobenerhebungen: (Mikrozensus) zur Analyse des Konsumverhaltens; weiters werden Stichprobenerhebungen bei der Erstellung von Wahlprognosen verwendet. 3. Schätzung des Gesamtbestandes einer Population: etwa eine vom Aussterben bedrohte Tierart. Da genaue Zählungen unmöglich sind, muß auf statistische Schätzverfahren zurückgegriffen werden. 4. statistische Untersuchung über Wirkungen und Nebenwirkungen von Medikamenten: 1953 wurde der Polio–Impfstoff an 5 Mio. Testpersonen erprobt. Es handelte sich um einen doppelten Blindversuch, d.h. um subjektive Verfälschungen auszuschalten, wußten weder Arzt noch Patient, ob das Medikament oder eine wirkungslose Substanz verabreicht wurde. 5. telegraphische Datenübermittlung: Das Telegraphenalphabet besteht aus den Zeichen ., –, “kurzer Zwischenraum”, “langer Zwischenraum”. Jeder Buchstabe muß durch eine Zeichenfolge codiert werden. Damit die verschlüsselten Nachrichten möglichst kurz werden, müssen häufige Buchstaben mit kurzen Zeichenfolgen, seltene mit langen Folgen verschlüsselt werden. Die Erstellung optimaler Codes ist ein statistisches Problem. Der optimale Code hängt im wesentlichen von den Buchstabenhäufigkeiten ab. 5 6 KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE 6. Suchprobleme: Um Kosten zu sparen wurde während des II. Weltkrieges der Wassermann-Test zur Erkennung von Syphilis-Erkrankungen nicht auf einzelne Personen, sondern auf ganze Personengruppen angewendet, indem man die Blutproben aller Personen einer Gruppe zusammenmischte. War der Test negativ, so waren alle Personen dieser Gruppe gesund, und eine Untersuchung der einzelnen Personen erübrigte sich. Natürlich hängt die optimale Gruppengröße bei dieser Vorgangsweise eng mit der Häufigkeit der Erkrankung zusammen. 7. Spiel: 2 Spieler A und B nehmen jeder 1 oder 2 Kugeln; bei gerader Anzahl gewinnt A – sonst B. Ist das Spiel fair? 8. Black Jack – Roulette: Gücksspiele bilden den historischen Ausgangspunkt von wahrscheinlichkeitstheoretischen Überlegungen. Grundlegende Begriffe: Wir betrachten folgende 3 Versuche: Beispiel 1.1 Werfen einer Münze Beispiel 1.2 Würfeln Beispiel 1.3 Roulette Allen 3 Versuchen ist gemeinsam, daß sie auf eine genaue Anzahl von möglichen – einander ausschließenden – Versuchsausgängen ausgehen können. Diese Ausgänge sind zufällig, d.h. es kann nicht vorhergesagt werden, welcher Ausgang tatsächlich eintritt. Für die Beschreibung eines Versuchs ist zunächst die Menge der möglichen Versuchsausgänge von Bedeutung– auch Raum der möglichen Versuchsausgänge genannt, und im folgenden meist mit Ω bezeichnet. Die einzelnen Ausgänge werden oft auch Elementarereignisse genannt (z.B.: Elementarereignisse beim Würfeln: 1, 2, 3, 4, 5, 6). Weiters muß der im Versuch wirkende “Zufallsmechanismus” beschrieben werden. In den obigen drei Beispielen erscheint es sinnvoll, jedes Elementarereignis als “gleichwahrscheinlich” anzugeben, also : in Beispiel 1.1: P (“A”) = P (“K”) = 21 (“A” . . . Adler wird geworfen; “K” . . . Kopf wird geworfen) in Beispiel 1.2: P (“i”) = 1 6 in Beispiel 1.3: P (“i”) = 1 37 (i = 1, . . . , 6) (i = 0, . . . , 36) Aber bereits bei folgendem Versuch sind nicht alle Ausgänge gleichwahrscheinlich: 7 Beispiel 1.4 Man werfe 2 Würfel; Gesucht ist die Summe der Augenzahlen. Ω = {2, 3 . . . , 12} P (“2”) = 1 36 aber: P (“3”) = 2 1 = 36 18 Nicht nur den Elementarereignissen wird durch einen Zufallsmechanismus eine Wahrscheinlichkeit zugeordnet: Betrachten wir etwa Beispiel 1.2. – Klarerweise wird man dort dem Ereignis “eine gerade Augenzahl wird geworfen” die Wahrscheinlichkeit 21 zuordnen, dem Ereignis “Augenzahl größer als 4” die Wahrscheinlichkeit 13 . Wir wollen im folgenden stets Ereignisse durch Teilmengen A(⊆ Ω) des Raums der möglichen Versuchsausgänge charakterisieren. Dabei bedeutet A das Ereignis: “ein Ausgang ω ∈ A ist eingetreten.” Dieser Zugang erlaubt, verschiedene Operationen für Ereignisse durch mengentheoretische Operationen zu definieren – so bedeutet etwa: A∪B A∩B A\B A △ B = (A \ B) ∪ (B \ A) A⊆B “ein Ausgang aus A oder ein Ausgang aus B tritt ein” “ein Ausgang ω tritt ein, der sowohl in A als auch in B liegt” “der Ausgang liegt in A, aber nicht in B” “der Ausgang liegt nur in A oder nur in B” “ist ω ∈ A eingetreten, dann ist auch B eingetreten” – man kann auch sagen: “A hat B zur Folge.” Ist A ⊂ Ω, so nennt man Ac = Ω \ A das zu A komplementäre Ereignis. In den vorhin betrachteten Versuchen ist es sinnvoll, durch Angabe der Wahrscheinlichkeiten der Elementarereignisse die Wahrscheinlichkeiten sämtlicher Ereignisse A ⊆ Ω zu definieren – und zwar durch: X P (A) := P (ω) ω∈A etwa in Beispiel 1.2: P (“gerade Augenzahl”) = P (“2”) + P (“4”) + P (“6”). Mit dieser Festlegung haben die Wahrscheinlichkeiten aller Ereignisse A folgende Eigenschaften: 0 ≤ P (A) A ⊆ B ⇒ P (A) ≤ P (B) A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B) 8 KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE Man denkt sich die Wahrscheinlichkeiten als idealisierte relative Häufigkeiten der einzelnen Ausgänge – man nimmt also z.B. an, daß in einer langen Folge von Würfen mit einem Würfel ungefähr 1/6 aller Ausgänge die Augenzahl “3” hat. Da sich die relativen Häufigkeiten aller möglichen Ausgänge zu 1 summieren, werden wir stets P (Ω) = 1 setzen. Im allgemeinen genügt es nicht, die Wahrscheinlichkeit der Elementarereignisse alleine anzugeben. Betrachten wir etwa folgende Situation: Beispiel 1.5 Ein Kreisel mit Umfang 1 rotiere um seinen Mittelpunkt. Auf dem Kreisel sei eine Markierung angebracht, und außerhalb des Kreisels befinde sich eine Skala (siehe Abb. 1.1). Man wird natürlich annehmen, daß gilt: 1.0 0.1 0.9 ✬✩ b ★✥ ✛✘ ✗✔ ✓✏ ✎☞ ❡ ❥ ❣ ✍✌ ✒✑ ✖✕ ✚✙ ✧✦ ✫✪ a 0.5 Abbildung 1.1: rotierender Kreisel P (“Markierung zwischen i/N und (i + 1)/N ”) = 1/N i = 0, . . . , N − 1. Daraus ersieht man : N −→ ∞ ⇒ P (ω) = 0 ∀ω ∈ [0, 1]. Aber trotzdem ist es sinnvoll, die Wahrscheinlichkeit etwa des Ereignisses “die Markierung zeigt auf einen Punkt zwischen a und b” durch: P ([a, b]) = b − a anzugeben 1 . Aber auch in diesem Fall gilt für die Wahrscheinlichkeiten von Ereignissen: 1. 0 ≤ P (A) ≤ 1 2. A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B) 3. A ⊂ B ⇒ P (A) ≤ P (B) 1 Man beachte: Der Ausdruck P ω∈[a,b] Terme nicht aufsummiert werden kann. P (ω) = 0 ergibt keinen Sinn, da über überabzählbar viele 9 Statt Eigenschaft 2 wird meist eine etwas strengere Anforderung gestellt. Dazu ein Beispiel: Beispiel 1.6 Man werfe eine Münze, bis erstmals ein “Adler” geworfen wird. Ω=N P (i) = 1 2i U = “erster Adler erscheint bei ungerader Wurfzahl” P (U ) = ∞ X i=1 P (2i − 1) = ∞ X i=1 1 22i−1 = 1 1 1 2 + + + ··· = 2 8 32 3 Hier wird statt 2 die folgende Eigenschaft verwendet. 2’. (σ-Additivität) [ X (An ) Ereignisse: Ai ∩ Aj = ∅ ∀i 6= j ⇒ P ( An ) = P (An ) N N Definition 1.1 Im folgenden wollen wir unter einer Wahrscheinlichkeitsverteilung stets eine Funktion auf einem “gewissen System” von Ereignissen verstehen, welche den Bedingungen 1 und 2’ genügt. Diese beiden Bedingungen werden Kolmogoroffsches Axiomensystem genannt. In Beispiel 1.5 haben wir sehr leicht für bestimmte “einfache” Ereignisse – nämlich für die Intervalle [a, b] – die Wahrscheinlichkeiten angeben können. Es erhebt sich nun die Frage, ob aus der Kenntnis dieser Wahrscheinlichkeiten die Wahrscheinlichkeiten anderer Ereignisse – zumindest theoretisch – bestimmt werden können. So kann etwa aus P ([a, b]) = b − a und der Monotonie der Wahrscheinlichkeit auf P (ω) = 0 ∀ω ∈ [0, 1) geschlossen werden. Umgekehrt kann man mit Hilfe der Kenntnis von P (ω) ∀ω ∈ [0, 1) P ([a, b]) nicht bestimmen. Im allgemeinen kann auch aus der Wahrscheinlichkeit P ([a, b]) nicht für jede Teilmenge A von [0, 1] eine Wahrscheinlichkeit berechnet werden, ja man kann sogar zeigen, daß es auf P([0, 1]) 2 keine Wahrscheinlichkeit geben kann, die die Bedingung P ([a, b]) = b − a erfüllt. Man muß deshalb auf ein spezielles Mengensystem einschränken. Hat jedoch das System T der “einfachen” Ereignisse die Eigenschaft, daß mit je 2 Mengen A, B aus diesem System auch deren Durchschnitt im System liegt, und daß aus A ⊆ B und A, B ∈ T folgt: ∃C1 . . . Cn ∈ T : B \ A = 2 n [ Ci i=1 P([0, 1]) ist die Potenzmenge von [0, 1] 10 KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE (Ein derartiges System ist z.B. das System der halboffenen Intervalle. Falls a ≤ c < d ≤ b, so gilt [a, b] \ [c, d) = [a, c) ∪ [d, b).), dann sind durch die Wahrscheinlichkeiten dieser “einfachen” Mengen auch die Wahrscheinlichkeiten aller Teilmengen eines Systems S festgelegt, das mit T folgendermaßen zusammenhängt: S ist das kleinste Mengensystem, das T enthält und für das gilt: A ∈ S ⇒ Ac ∈ S An ∈ S ∀n ⇒ [ N An ∈ S, \ N An ∈ S (Da P (Ω) = 1 stets festgelegt ist, kann auch Ω ∈ T ⊆ S angenommen werden.) Ein derartiges System S heißt σ-Algebra oder Ereignisfeld. Wir definieren nun: Definition 1.2 Unter einem Wahrscheinlichkeitsraum versteht man ein Tripel (Ω, S, P ), wobei Ω der Raum der möglichen Versuchsausgänge, S eine σ-Algebra auf Ω und P eine Wahrscheinlichkeit auf S ist. Wir wollen uns jedoch mit der Problematik der geeigneten σ-Algebra nicht weiter befassen, sondern im folgenden stets annehmen, daß wir bei höchstens abzählbar vielen Versuchsausgängen die Wahrscheinlichkeitsverteilung durch die Wahrscheinlichkeiten der Elementarereignisse festlegen können (S stimmt in diesem Fall mit P(Ω) überein), und daß dann, wenn als Ausgänge alle Elemente eines Intervalls der Zahlengerade in Betracht kommen (etwa bei einer Messung), die Wahrscheinlichkeitsverteilung durch die Angabe der Wahrscheinlichkeiten der Intervalle [a, b] := “der Ausgang liegt zwischen a und b” festgelegt wird.(S ist in diesem Fall ein von P(Ω) verschiedenes System – das System der Borelmengen, das jedoch alle Mengen enthält, die von praktischer Bedeutung sind.) Bevor wir auf die grundlegenden Eigenschaften der Wahrscheinlichkeiten eingehen, noch ein paar Bemerkungen über den Zusammenhang von Modell und Wirklichkeit: Ein und dasselbe Modell kann viele verschiedene Versuche beschreiben: Beispiel 1.7 Sei Ω = {1, 2, 3, 4, 5, 6}, S = P(Ω), P (i) = Zu (Ω, S, P ) passen folgende Versuche: 1 6 1. Würfeln 2. Eine Urne enthält 6 Lose mit den Nummern 1–6. Ein Los wird gezogen. 3. Eine Urne hat 3 Lose. Die 3 Lose werden ohne Zurücklegen gezogen. Die möglichen Ausgänge werden durchnumeriert: “1” = (1, 2, 3) 11 “2” = (1, 3, 2) “3” = (2, 1, 3) “4” = (2, 3, 1) “5” = (3, 1, 2) “6” = (3, 2, 1) Umgekehrt kann ein Versuch durch mehrere Modelle adäquat beschrieben werden. Beispiel 1.8 Man werfe eine Münze 2-mal. Gefragt ist die Anzahl der “Köpfe” bei den beiden Würfen. 2 verschiedene Modelle: 1. Ω = {0, 1, 2} 2. Ω = {(K, K), (K, A), (A, K), (A, A)} S = P(Ω) “0” = {(A, A)} P (0) = P (2) = 1 4 P (1) = P ((x, y)) = “1” = {(K, A), (A, K)} 1 2 1 4 “2” = {(K, K)} Beispiel 1.9 Man würfle bis zur ersten Sechs. Gefragt ist die Anzahl der Würfe. 2 verschiedene Modelle: 1. Ω = N S = P(Ω) P (n) = 5n−1 /6n 2. Ω = {(x1 , . . . , xn ) : x1 = . . . = xn−1 = 0, xn = 1} P ((x1 , . . . , xn )) = 5n−1 6n Welches Modell verwendet wird, hängt von den näheren Umständen, persönlichen Vorlieben und ähnlichem ab; für die Mathematik ist es bedeutungslos. Als nächstes wollen wir einige grundlegende Eigenschaften von Wahrscheinlichkeitsverteilungen zusammenstellen. Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum (Ω eine beliebige Menge), S eine σAlgebra und P eine Wahrscheinlichkeitsverteilung auf S. Satz 1.1 Bezeichnet man das unmögliche Ereignis mit ∅ , so gilt P (∅) = 0. Beweis. 2′ ⇒ P (∅) = P (∅ ∪ ∅ ∪ . . .) = X N P (∅) ≤ 1 ⇒ P (∅) = 0 12 KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE Satz 1.2 Ai ∩ Aj = ∅ ∀i 6= j 1 ≤ i, j ≤ n ⇒ P ( n [ Ai ) = n X P (Ai ) i=1 i=1 Beweis. Sei An+1 := An+2 := · · · = ∅ ⇒ P( n [ i=1 [ X Ai ) = P ( Ai ) = P (Ai ) N n X = i=1 N P (Ai ) + 0 + 0 + · · · = n X P (Ai ) i=1 Satz 1.3 A ⊆ B ⇒ P (B \ A) = P (B) − P (A), P (B) ≥ P (A) Beweis. B = A ∪ (B \ A) ⇒ P (B) = P (A) + P (B \ A) ⇒ P (B) ≥ P (A) Satz 1.4 P (Ac ) = 1 − P (A) Beweis. Der Beweis folgt aus Satz 1.3 mit B = Ω. Satz 1.5 P( n [ i=1 Ai ) ≤ n X P (Ai ) i=1 ∀n ∈ N Beweis. Bi := Ai \ i−1 [ Aj j=1 Somit P( n [ i=1 Ai ) = P ( n [ i=1 ∀i = 1, . . . , n Bi ⊆ Ai ⇒ B ∩ Bj = ∅ ∀i = 6 j Sn Sin A = B i=1 i i=1 i Bi ) = n X i=1 P (Bi ) ≤ n X i=1 P (Ai ) 13 Beispiel 1.10 Man würfle 5-mal. Gesucht ist die Wahrscheinlichkeitsverteilung der größten gewürfelten Augenzahl unter den 5 Würfen. Ω = {(x1 , . . . , x5 ); xi ∈ {1, . . . , 6}}, S = P(Ω), P ((x1 , . . . , x5 )) = 1 65 Ai := {(x1 , . . . , x5 ); xj ≤ i, ∃j : xj = i} . . . “größte Augenzahl = i” Bi := {(x1 , . . . , x5 ); xj ≤ i ∀j} . . . “größte Augenzahl ≤ i” A1 = B1 ⊆ B2 ⊆ . . . ⊆ B6 = Ω 5 1 P (B1 ) = 6 5 2 P (B2 ) = 6 .. . 5 i P (Bi ) = 6 P (A1 ) = P (B1 ) = 1 65 P (A2 ) = P (B2 ) − P (B1 ) = 25 − 1 65 .. . P (Ai ) = P (Bi ) − P (Bi−1 ) = i5 − (i − 1)5 65 Den obigen Versuch könnte man daher auch durch folgendes Modell beschreiben: Ω′ = {1, . . . , 6} S = P(Ω′ ) i5 − (i − 1)5 P (“i”) = 65 Definition 1.3 Sei Ω eine endliche Menge (Ω = {ω1 , . . . , ωn }, S = P(Ω)). Wenn P (ωi ) = const = 1 n ∀i = 1, . . . , n, dann nennt man P eine diskrete Gleichverteilung auf Ω. 14 KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE Satz 1.6 (klassische Wahrscheinlichkeitsdefinition nach Laplace) Ist (Ω, S, P ) ein diskreter Wahrscheinlichkeitsraum mit Gleichverteilung, so gilt: ∀A ⊆ Ω : P (A) = X 1 |A| |A| = = n n |Ω| ω∈A Wenn A ∩ B = ∅, dann wissen wir: P (A ∪ B) = P (A) + P (B). Wir wollen nun P (A ∪ B) für den Fall A ∩ B 6= ∅ bestimmen. Satz 1.7 (Additionstheorem) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Beweis. A ∪ B = (A ∩ B) ∪ (B \ A) ∪ (A \ B) = (A ∩ B) ∪ (B \ (A ∩ B)) ∪ (A \ (A ∩ B)) ⇒ P (A ∪ B) = P (A ∩ B) + P (B) − P (A ∩ B) + P (A) − P (A ∩ B) ⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Beispiel 1.11 (Montmortsches Problem) Ein Wählerverzeichnis enthalte n Wahlberechtigte; jeder Wähler hat eine Nummer im Wählerverzeichnis und bekommt eine fortlaufende Nummer bei der Wahl. Ai bezeichne das Ereignis, daß der Wähler i im Wählerverzeichnis als i-ter Wähler zur Wahl kommt und daher die fortlaufende Nummer i erhält. Man bestimme die Wahrscheinlichkeit P (Ai ) von Ai . Ω = {(x1 , . . . , xn ); xi ∈ {1, . . . , n}; xi 6= xj ∀i 6= j} = {Menge der Permutationen} ⇒ |Ω| = n! P (x1 , . . . , xn ) = 1 n! Ai = {(x1 , . . . , xi−1 , i, xi+1 , . . . , xn ); xj ∈ {1, . . . , n}; xj 6= xk ∀j 6= k; xj 6= i ∀j 6= i} ⇒ P (Ai ) = 1 n |Ai | = (n − 1)! Als nächstes wollen wir die Wahrscheinlichkeit P (Ai ∪ Aj ) berechnen. P (Ai ∩ Aj ) = (n − 2)! 1 = ⇒ n! n(n − 1) P (Ai ∪ Aj ) = P (Ai ) + P (Aj ) − P (Ai ∩ Aj ) = 1 2 − n n(n − 1) 15 Bevor wir uns mit der Frage beschäftigen, mit welcher Wahrscheinlichkeit bei mindestens einem Wähler die fortlaufende Nummer mit der Nummer im Wählerverzeichnis übereinstimmt, wollen wir kurz die wichtigsten Eigenschaften der Binomialkoeffizienten wiederholen und das Additionstheorem verallgemeinern. Sei Ckn die Anzahl der Möglichkeiten, aus n Elementen k Elemente auszuwählen. Klarerweise gilt: Def.: C00 := 1 C01 = C11 = 1 Man kann Ckn leicht rekursiv berechnen. Angenommen Ckn ist bekannt, sei ohne Einschränkung der Allgemeinheit M = {1, . . . , n + 1}. Man kann eine Teilmenge mit k Elementen auswählen, indem man n + 1 auswählt und k − 1 Elemente aus {1, . . . , n} hinzugibt, oder indem man k Elemente aus {1, . . . , n} wählt und n + 1 nicht nimmt. Daraus folgt n Ckn+1 = Ckn + Ck−1 Damit erhält man folgendes Rekursionsschema, das als Pascalsches Dreieck bekannt ist. 1 C00 11 /\ 121 C01 C11 1331 /\/\ 14641 C02 C12 C22 1 5 10 10 5 1 / \ / \ / \ Ein zweiter Weg, der zur obigen Rekursionsformel führt, ist folgender: Sei Kkn der Koeffizient von ak bn−k in der Binomialentwicklung von (a + b)n – also: (a + b)n = n X Kkn ak bn−k k=0 es gilt: (a + b)n+1 = (a + b)n (a + b) ! n X n k n−k (a + b) Kk a b = k=0 = n X Kkn ak+1 bn−k + = = k=1 n+1 X k=0 Kkn ak bn+1−k k=0 k=0 n X n X n n + Kk ak bn+1−k + Knn an+1 + K0n bn+1 Kk−1 Kkn+1 ak bn+1−k 16 KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE n+1 wegen K0n = K0n+1 = Knn = Kn+1 = 1 ∀n ∈ N ⇒ n Kkn+1 = Kkn + Kk−1 Die Kkn heißen Binomialkoeffizienten. Wegen K01 = C01 = 1 und K11 = C11 = 1 muß allgemein gelten: Kkn = Ckn Die explizite Gestalt von Ckn : Man betrachte die Permutationen von {1, . . . , n}; die Anzahl der Permutationen ist n! Sei {x1 , . . . , xn } eine Permutation, setze xi := 0, wenn xi ∈ {1, . . . , k}. Dadurch erhält man ein n-Tupel (y1 , . . . , yn ) yi1 = · · · = yik = 0, yj ∈ {k + 1, . . . , n} wenn j 6∈ {i1 , . . . , ik }. Zu jedem derartigen n-Tupel gehören genau k! Permutationen, aus denen (y1 , . . . , yn ) gebildet werden kann. Somit gibt es n!/k! Tupel (y1 , . . . , yn ) obiger Gestalt. Setzt man yj = 1 wenn yj 6= 0, so erhält man ein n-Tupel (z1 , . . . , zn ) mit zi ∈ {0, 1}. Klarerweise gehören zu jedem n-Tupel (z1 , . . . , zn ) (n − k)! Tupel (y1 , . . . , yn ), aus denen (z1 , . . . , zn ) gebildet werden kann n n! = ⇒ Anzahl der Tupel (z1 , . . . , zn ) = k!(n − k)! k Interpretiert man zi = 1 in dem Sinn, daß ein Element i ∈ {1, . . . , n} für eine Teilmenge ausgewählt wird, so entspricht jeder Teilmenge von {1, . . . , n} genau ein n-Tupel (z1 , . . . , zn ) mit zi ∈ {0, 1}. ⇒ | (z1 , . . . , zn ); zi ∈ {0, 1}; ∃zi1 = · · · = zik = 1; zj = 0 sonst | = Ckn ⇒ Ckn = nk Tatsächlich läßt sich leicht nachrechnen: n+1 n n = + k k k−1 Seien nun 3 Mengen A, B, C gegeben. Dann gilt P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) (der Beweis bleibt dem Leser überlassen) 17 Satz 1.8 (Allgemeines Additionstheorem) Gegeben seien die Ereignisse A1 , . . . , An , dann gilt: P( n [ Ai ) = i=1 n X X (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) k=1 1≤i1 <i2 <···<ik ≤n Beweis.Durch vollständige Induktion: für n = 2 bereits bewiesen. Angenommen das Theorem sei für n richtig, dann betrachten wir n + 1: n+1 [ P( Ai ) = P ( n [ i=1 i=1 = P (An+1 ) + + Ai ) + P (An+1 ) − P ( i=1 n X X k=1 1≤i1 <i2 <···<ik ≤n n X X = P (An+1 ) + + k=1 1≤i1 <i2 <···<ik ≤n X = P (An+1 ) + + Ci (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) (−1)k+2 P (Ai1 ∩ · · · ∩ Aik ∩ An+1 ) k=1 1≤i1 <i2 <···<ik ≤n n X X n+1 X (A ∩ A )) | i {z n+1} (−1)k P (Ci1 ∩ · · · ∩ Cik ) k=1 1≤i1 <i2 <···<ik ≤n n X X n X n [ k=1 1≤i1 <i2 <···<ik ≤n X (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) (−1)(k+1)+1 P (Ai1 ∩ · · · ∩ Aik+1 ) k+1=2 1≤i1 <···<ik <ik+1 =n+1 = n+1 X X (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) k=1 1≤i1 <i2 <···<ik ≤n+1 Satz 1.9 (Ungleichungen von Bonferroni) Gegeben seien die Ereignisse A1 , . . . , An , dann gilt 2r X X k=1 1≤i1 <···<ik ≤n k+1 (−1) P (Ai1 ∩ · · · ∩ Aik ) ≤ P ( n [ i=1 Ai ) n r = 1, . . . , ⌊ ⌋ 2 und 3 ⌊x⌋ = die größte ganze Zahl ≤ x (vgl. die FORTRAN-Funktion INT(x)) 3 18 KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE P( n [ i=1 Ai ) ≤ 2r−1 X X k=1 1≤i1 <···<ik ≤n (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) n r = 1, . . . , ⌈ ⌉ 4 . 2 Beweis.Wir zeigen zunächst mit vollständiger Induktion nach n, daß gilt (−1)h+1 n X X k=h 1≤i1 <···<ik ≤n (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) ≥ 0 ∀h = 1, . . . , n. Sei n = 1: P (A1 ) ≥ 0 Sei n = 2: Für h = 1 gilt P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) = P (A1 ∪ A2 ) ≥ 0. Für h = 2 erhält man −(−P (A1 ∩ A2 )) ≥ 0. Sei Bi := Ai ∩ An+1 n+1 X ∀i = 1, . . . , n, dann gilt X (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) k=h 1≤i1 <···<ik ≤n+1 n X X = k=h 1≤i1 <···<ik ≤n | − (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) {z } S1 n X X k=h−1 1≤i1 <···<ik ≤n | (−1)k+1 P (Bi1 ∩ · · · ∩ Bik ) . {z } S2 Für h = 2r − 1 gilt nach Induktionsvoraussetzung S1 ≥ 0 und S2 ≤ 0. Somit S1 − S2 ≥ 0. Für h = 2r gilt dagegen S1 ≤ 0 und S2 ≥ 0. Somit S1 − S2 ≤ 0. Nun gilt aber P( n [ i=1 Ai ) = h X X (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) k=1 1≤i1 <···<ik ≤n n X X + (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ). k=h+1 1≤i1 <···<ik ≤n Die zweite Summe auf der rechten Seite der obigen Gleichung ist wegen der zuvor bewiesenen Ungleichung ≤ 0 für ungerades h und ≥ 0 für gerades h. Daraus folgt die Aussage des Satzes unmittelbar. 4 ⌈x⌉ = min{x ∈ Z : z ≥ x} 19 Beispiel 1.12 (Montmortsches Problem – Fortsetzung) A := {(x1 , . . . , xn ) : ∃i | xi = i} . . . bei mindestens einem Wähler stimmt die Nummer im Wählerverzeichnis mit der fortlaufenden Nummer überein. Man berechne P (A). A= n S i=1 Ai P (Ai1 ∩ · · · ∩ Aik ) = (n−k)! n! Es gibt nk verschiedene Möglichkeiten, k von insgesamt n Indizes auszuwählen und damit Durchschnitte zu bilden. P 1 P (Ai1 ∩ · · · ∩ Aik ) = nk (n−k)! = k! ⇒ n! 1≤i1 <i2 <···<ik ≤n P (A) = P ( n S i=1 Ai ) = n P n→∞ 1 (−1)k+1 k! −→ 1 − k=1 1 e Satz 1.10 (Stetigkeitseigenschaft der Wahrscheinlichkeit) 1. Ist (An ) eine gegen A monoton wachsende (genauer monoton nicht fallende) Folge (im Zeichen: An ր A), so gilt: lim P (An ) = P (A) n→∞ 2. Ist (An ) eine gegen A monoton fallende (genauer monoton nicht wachsende) Folge (im Zeichen: An ց A), so gilt: lim P (An ) = P (A) n→∞ Beweis. A0 := ∅, An ր A ⇒ A = [ N An = [ N (An \ An−1 ) Die An \ An−1 sind paarweise disjunkt ⇒ X P (A) = P (An \ An−1 ) N = lim N N X n=1 P (An ) − P (An−1 ) = lim P (AN ) N An ց A ⇒ Acn ր Ac ⇒ P (Ac ) = lim P (Acn ) n→∞ d.h.: 1 − P (A) = lim(1 − P (An )) ⇒ P (A) = lim P (An ). 20 KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE Beispiel 1.13 Ein Versuch habe m Ausgänge {ω1 , . . . , ωm } mit Wahrscheinlichkeiten p1 , . . . , pm mit (p1 > p2 ≥ · · · ≥ pm ) p2 > 0. (sei etwa P (0) = P (2) = 1/4 und P (1) = 1/2) Ein Spieler setze immer sein gesamtes Kapital auf ω1 . Das Spiel sei zu Ende, wenn unser Spieler kein Kapital mehr hat. Gn . . . “Spieler hat n Runden siegreich überstanden” P (Gn ) = pn1 Vn = Gcn “Spieler verliert spätestens in Runde n” V . . . “Spieler verliert irgendwann” S V = Vn Vn ր V P (V ) = lim P (Vn ) = lim(1 − pn1 ) = 1 ⇒ Die Hasardstrategie ist sinnlos. Kapitel 2 Die bedingte Wahrscheinlichkeit Wir wollen diesen Abschnitt mit einem Beispiel beginnen: Beispiel 2.1 Bei einer Untersuchung über die Vererblichkeit der Haarfarbe von Vätern auf Söhne wurden bei 1000 Testpaaren die unten aufgelisteten Ergebnisse beobachtet. Tabelle 2.1: 471 151 Vater dunkelhaarig 148 230 619 381 622 378 1000 blond Sohn blond dunkelhaarig Σ Σ VB . . . Vater ist blond VD . . . Vater ist dunkelhaarig SB . . . Sohn ist blond SD . . . Sohn ist dunkelhaarig Die relative Häufigkeit von VB und SB ist daher: hr (VB ) = 0.622 hr (SB ) = 0.619 Wie groß ist die relative Häufigkeit von SB , wenn man weiß, daß VB eingetreten ist (d.h., daß der Vater blond ist)? Man betrachtet nun nur Testpaare mit blonden Vätern – das sind insgesamt 622 – 21 22 KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT darunter sind 471 mit blonden Söhnen. Bezeichnet man die relative Häufigkeit für SB unter der Voraussetzung VB mit hr (SB | VB ), so gilt: hr (SB | VB ) = 471 hr (SB ∩ VB ) = = 0.757 > hr (SB ) hr (VB ) 622 Da die Wahrscheinlichkeit eines Ereignisses als idealisierte relative Häufigkeit interpretiert werden kann, gibt Beispiel 2.1 Anlaß zu folgender Definition: Definition 2.1 Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum, A und B 2 Ereignisse und sei P (A) > 0, dann heißt P (B | A) = P (A ∩ B) P (A) die durch A bedingte Wahrscheinlichkeit von B. Die Definition stimmt mit unserer Intuition überein. Man sagt: A begünstigt B, wenn P (B | A) > P (B) A behindert B, wenn P (B | A) < P (B) A und B sind unabhängig, wenn P (B | A) = P (B) Um den Begriff der Unabhängigkeit nicht auf Ereignisse mit positiver Wahrscheinlichkeit einschränken zu müssen, definiert man: Definition 2.2 Zwei Ereignisse A, B heißen unabhängig, wenn P (A ∩ B) = P (A)P (B) (im Zeichen A, B ua). Falls P (A) > 0, so ist dies natürlich äquivalent zu P (B | A) = P (B). Aus der obigen Definition ist auch sofort zu ersehen, daß der Begriff der Unabhängigkeit symmetrisch in A und B ist. Deshalb sagt man nicht “B ist von A unabhängig”. Satz 2.1 A, B unabhängig ⇒ Ac , B; A, B c ; Ac , B c sind auch unabhängig. Beweis. P (Ac ∩ B) = P (B) − P (A ∩ B) = P (B) − P (A)P (B) = P (B)(1 − P (A)) = P (Ac )P (B) Wendet man die obige Folgerung auf B, Ac an, so sieht man, daß auch Ac , B c ua sind. 23 Beispiel 2.2 Jemand würfelt. Ein zweiter Spieler soll erraten, ob eine gerade oder ungerade Augenzahl gewürfelt wurde. G . . . gerade Augenzahl U . . . ungerade Augenzahl P (G) = P (U ) = 1 2 Nun wird dem zweiten Spieler vor seinem Rateversuch gesagt, ob die Augenzahl ≤ 3 oder > 3 war. N = {1, 2, 3} H = {4, 5, 6} Man sieht sofort, daß P (G | N ) = 1 3 P (U | N ) = 2 3 P (G | H) = 2 3 1 P (U | H) = . 3 Der zweite Spieler wird seine Erfolgsquote erhöhen, wenn er auf G tippt, falls H eingetreten ist, und auf U , falls N eingetreten ist. Nun möge der zweite Spieler erfahren, ob N ′ , M ′ , H ′ eingetreten ist mit: N ′ = {1, 2}, M ′ = {3, 4}, H ′ = {5, 6} Man sieht: 1 = P (G) 2 1 P (U | N ′ ) = P (U | M ′ ) = P (U | H ′ ) = = P (U ) 2 P (G | N ′ ) = P (G | M ′ ) = P (G | H ′ ) = Die Ereignisse sind ua. Der Spieler kann in diesem Fall seine Position nicht verbessern. Aus der Definition der bedingten Wahrscheinlichkeit folgt unmittelbar: Satz 2.2 (Multiplikationsregel) P (A ∩ B) = P (A)P (B | A) = P (B)P (A | B) (P (A) > 0, P (B) > 0) Eine 2-malige Anwendung ergibt: P (A ∩ B ∩ C) = P ((A ∩ B) ∩ C) = P (A ∩ B)P (C | A ∩ B) = P (A)P (B | A)P (C | A ∩ B) Vollständige Induktion führt auf folgenden Satz: 24 KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT Satz 2.3 (allgemeine Multiplikationsregel) n Y P (Ai | A1 ∩ · · · ∩ Ai−1 ) P (A1 ∩ · · · ∩ An ) = P (A1 ) · i=2 Beispiel 2.3 Man würfle bis zur ersten “6”. Gesucht ist die Wahrscheinlichkeitsverteilung für die dazu notwendige Anzahl von Würfen. Bi . . . beim i-ten Wurf wird eine “6” geworfen Ai . . . die erste “6” wird beim i-ten Wurf geworfen P (B1 ) = P (A1 ) = 61 , P (A2 ) = P (B1c ∩ B2 ) = P (B1c )P (B2 | B1c ) = P (B1c )P (B2 ) = 5 62 .. . c ∩ Bn ) = P (B1c )P (B2c | B1c ) . . . P (An ) = P (B1c ∩ · · · ∩ Bn−1 n−1 c c c ) = 5 6n )P (Bn | B1c ∩ · · · ∩ Bn−1 | B1c ∩ · · · ∩ Bn−2 . . . P (Bn−1 Man kann die Problemstellung in obigem Beispiel allgemeiner formulieren: Führt man unabhängige Versuche durch, bei denen jedesmal ein Ereignis A mit einer Wahrscheinlichkeit p eintreten kann, so gilt für die Wahrscheinlichkeit des Ereignisses Ai , daß A beim i-ten Versuch erstmals eintritt: P (Ai ) = (1 − p)i−1 p Mögliche Versuchsausgänge für das erstmalige Eintreten von A sind alle natürlichen Zahlen N. Definition 2.3 Die auf N durch P ({i}) = (1 − p)i−1 p ∀i ∈ N 0 < p < 1 definierte Wahrscheinlichkeitsverteilung wird geometrische Verteilung genannt. Manchmal ist die Wahrscheinlichkeit eines Ereignisses nicht unmittelbar zu erkennen, obwohl sie unter bestimmten Bedingungen leicht berechnet werden kann. – Dazu ein Beispiel: Beispiel 2.4 Man würfle zunächst, und werfe danach eine Münze sooft, wie es der 25 Augenzahl des Würfels entspricht. Wi . . . Würfel fällt auf i A . . . Es wird genau 2-mal “Kopf” geworfen P (A | W1 ) = 0 P (A | W2 ) = 1 4 P (A | W3 ) = P ((K, K, A), (K, A, K), (A, K, K)) = P (A | Wi ) = 2i 2−i 3 8 Hilft uns dieses Wissen bei der Berechnung weiter? Wie wir gleich sehen werden – ja, es gilt nämlich: Satz 2.4 (Satz von der vollständigen Wahrscheinlichkeit) S Seien H1 , . . . , Hn paarweise disjunkte Ereignisse mit ni=1 Hi = Ω (man nennt {H1 , . . . , Hn } ein vollständiges System von Ereignissen), so gilt für jedes Ereignis A: P (A) = n X i=1 P (Hi ) · P (A | Hi ) (Def.: P (Hi ) · P (A | Hi ) = 0, wenn P (Hi ) = 0) Beweis. P (A) = P (A ∩ Ω) = P (A ∩ = n X i=1 P (A ∩ Hi ) = n [ Hi ) i=1 n X i=1 P (Hi ) · P (A | Hi ) Fortsetzung von Beispiel 2.4: Aus P (Wi ) = 1/6 und P (A | Wi ) = demnach: 1 1 3 5 15 33 99 P (A) = +2· + + = ≈ 0.257 = 6 4 8 16 64 6 · 64 128 i −i 2 2 folgt Wir wollen wissen, wie groß P (W3 | A) ist. Die Antwort kann mit Hilfe des folgenden Satzes gegeben werden. Satz 2.5 (Bayessches Theorem) Mit den Voraussetzungen und Bezeichnungen des vorigen Satzes gilt: P (Hi | A) = P (Hi ) · P (A | Hi ) n P P (Hj ) · P (A | Hj ) j=1 26 KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT Beweis.Aus der Definition der bedingten Wahrscheinlichkeit und der Multiplikationsregel folgt P (A | Hi )P (Hi ) P (A ∩ Hi ) = P (A) P (A) P (A | Hi )P (Hi ) Pn j=1 P (Hj ) · P (A | Hj ) P (Hi | A) = = Fortsetzung von Beispiel 2.4: P (W3 | A) = 1 6 1 4 +2 1 3 6 · 8 5 · 38 + 16 + 15 64 = 8 ≈ 0.242 33 Beispiel 2.5 Der Ruin eines Spielers: Spieler I habe ein Kapital von x Schilling und Spieler II eines von C − x Schilling. Eine Münze wird geworfen – bei “Kopf” bekommt Spieler I von II einen Schilling – bei “Adler” umgekehrt II von I. Das Spiel endet bei Bankrott eines Spielers. A . . . Spieler I geht bankrott – Man berechne P (A). Sei S1 das Ereignis, daß Spieler I das erste Spiel gewinnt, und bezeichne px := Px (A) die Wahrscheinlichkeit, daß Spieler I verliert, wenn er mit x Schilling zu spielen begonnen hat (siehe Abb. 2.1). Dann gilt: S x 0 C −x Abbildung 2.1: Kapitalstand der Spieler Px (A) = Px (S1 )Px (A | S1 ) + Px (A | S1c )Px (S1c ) Klarerweise ist Px (S1 ) vom Anfangskapital x unabhängig, und es gilt: Px (S1 ) = 1 2 Gewinnt I das erste Spiel, so liegt dem weiteren Spielverlauf dieselbe Situation zugrunde, wie wenn I mit x + 1 Schilling und II mit C − x − 1 Schilling zu spielen 27 begonnen hätte. Daraus folgt: Px (A) = 1 2 Px+1 (A) + Px−1 (A) ⇒ px+1 − px = px − px−1 ⇒ △ := px − px−1 p0 = 1, ist von x unabhängig pC = 0 px = p0 + (p1 − p0 ) + · · · + (px − px−1 ) = p0 + x△ = 1 + x△ ⇒ pC = 1 + C△ = 0 ⇒ △ = − C1 ⇒ px = 1 − x C. Beispiel 2.6 An einem Tennisturnier nehmen 2n Spieler teil. Es wird im k.o.System gespielt (siehe Abb. 2.2). Die Spieler sind entsprechend ihrer Spielstärke gereiht. Wie groß ist die Wahrscheinlichkeit, daß der zweitstärkste Spieler auch bei diesem Turnier den zweiten Platz belegt unter der Voraussetzung, daß in jedem Spiel der gemäß Liste stärkere Spieler siegt? 28 KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT A Sieger B Abbildung 2.2: SA . . . der stärkste Spieler ist unter den Spielern der Gruppe A ZA . . . der zweitstärkste Spieler ist unter den Spielern der Gruppe A SB . . . der stärkste Spieler ist unter den Spielern der Gruppe B ZB . . . der zweitstärkste Spieler ist unter den Spielern der Gruppe B ZW . . . der zweitstärkste wird Turnierzweiter P (ZW ) = P (ZW | SA ∩ ZA )P (SA ∩ ZA ) + P (ZW | SB ∩ ZA )P (SB ∩ ZA ) + P (ZW | SA ∩ ZB )P (SA ∩ ZB ) + P (ZW | SB ∩ ZB )P (SB ∩ ZB ) = P (ZW | SA ∩ ZA )P (SA )P (ZA | SA ) + P (ZW | SB ∩ ZA )P (SB )P (ZA | SB ) + P (ZW | SA ∩ ZB )P (SA )P (ZB | SA ) + P (ZW | SB ∩ ZB )P (SB )|P (ZB | SB ) 1 (2n−1 − 1) 1 2n−1 = 0· · + 1 · · 2 2n − 1 2 2n − 1 1 2n−1 1 (2n−1 − 1) +1 · · n +0· · 2 2 −1 2 2n − 1 n−1 2 = 2n − 1 Kapitel 3 Zufallsvariable und Verteilungsfunktionen 3.1 Eindimensionale Verteilungsfunktionen Bei der Durchführung eines Versuches interessieren oft nicht alle Charakteristika des Versuchsausganges, sondern nur ein bestimmtes Merkmal. Die Abhängigkeit eines Merkmals vom Versuchsausgang kann durch eine Funktion X auf Ω beschrieben werden. Beispiel 3.1 Man würfle 5-mal. Das uns interessierende Merkmal ist die größte Augenzahl unter den 5 Würfen. Wir wissen bereits, daß (Ω, S, P ) mit Ω = {(x1 , . . . , x5 ) xi ∈ {1, . . . , 6}} , S = P(Ω), P (x1 , . . . , x5 ) = 615 ein diesem Versuch adäquates Wahrscheinlichkeitsmodell darstellt. Die größte Augenzahl unter den 5 Würfen wird durch X ((x1 , . . . , x5 )) := max xi beschrieben. i=1,...,5 Betrachtet man anstelle des ursprünglichen Wahrscheinlichkeitsraums (Ω, S, P ) die Menge der möglichen Werte des uns interessierenden Merkmals Ω′ = {X(ω) : ω ∈ Ω}, und definiert man auf S′ := A ⊆ Ω′ : X −1 (A) := {ω : X(ω) ∈ A} ∈ S eine Wahr scheinlichkeit PX durch: PX (A) = P X −1 (A) , so erhält man einen Wahrscheinlichkeitsraum (Ω′ , S′ , PX ), der den Versuch in bezug auf das Merkmal genauso adäquat beschreibt wie der ursprüngliche Wahrscheinlichkeitsraum, wobei aber der neue Raum weniger komplex als der ursprüngliche ist. Definition 3.1 Der Bildraum (Ω′ , S′ , PX ) heißt der durch X induzierte Wahrscheinlichkeitsraum, PX heißt die durch X induzierte Wahrscheinlichkeitsverteilung. Beim Übergang vom ursprünglichen Raum zum induzierten Raum reduziert man das bei einem Versuch anfallende – oft äußerst vielschichtige – Datenmaterial auf die für eine bestimmte Untersuchung wesentlichen Inhalte und betrachtet in der Folge nur 29 30 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN mehr diese. Meistens können die von einem Versuchsausgang abhängigen Merkmale zahlenmäßig erfaßt werden; wir werden daher im folgenden stets annehmen, daß Ω′ ⊆ R (Ω′ ⊆ Rn ) ist. Natürlich kann Ω′ überabzählbar viele Werte annehmen, etwa wenn man als relevantes Merkmal die Lebensdauer einer Maschine betrachtet. Wir haben in Kapitel 1 erwähnt, daß in diesem Fall eine Wahrscheinlichkeitsverteilung durch Angabe der Wahrscheinlichkeiten der Intervalle (a, b] a, b ∈ R festgelegt wird. PX ((a, b]) kann aber nur dann sinnvoll definiert werden, wenn X −1 ((a, b]) = {ω : X(ω) ∈ (a, b]} ∈ S gilt, das heißt, wenn das Urbild eines jeden halboffenen Intervalls ein Ereignis ist. Statt X −1 (A) werden wir oft auch die Schreibweise [X ∈ A] verwenden, d.h. X −1 (A) = [X ∈ A] = {ω : X(ω) ∈ A}. Weiters werden wir auch oft statt P ([X ∈ A]) kürzer P (X ∈ A) schreiben. Wir definieren: Definition 3.2 Unter einer Zufallsvariablen versteht man eine Funktion X : Ω → R, für welche gilt: X −1 ((a, b]) ∈ S ∀a, b ∈ R. Bemerkung.Wenn S = P(Ω) ist, so ist jede Funktion X : Ω → R eine Zufallsvariable. Im allgemeinen gilt dies nicht, wie das folgende Beispiel zeigt. Beispiel 3.2 Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum mit: Ω = {(0, 0), (0, 1), (1, 0), (1, 1)} S = {∅, Ω, {(0, 0)} , {(0, 1), (1, 0)} , {(1, 1)} , {(0, 0), (1, 1)} , {(0, 0), (0, 1), (1, 0)} , {(0, 1), (1, 0), (1, 1)}} d.h. als Ereignisse mögen nur Mengen gelten, die folgendermaßen dargestellt werden können: (=) A = {(x1 , x2 ) : x1 + x2 ≤ c} (≥) (6=) P (A) = |A| 4 X(x1 , x2 ) := x1 ist dann keine Zufallsvariable, denn: 1 −1 = {(1, 0), (1, 1)} 6∈ S X 1 − ,1 n 31 3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN Wir werden uns jedoch im weiteren nicht mehr mit der Frage auseinandersetzen, wann eine Funktion bei gegebenem Wahrscheinlichkeitsraum eine Zufallsvariable ist, da dies eine umfassende Kenntnis der Maß- und Integrationstheorie voraussetzen würde. Wir werden stattdessen von nun an stets voraussetzen, daß die von uns betrachteten Funktionen auf Ω tatsächlich Zufallsvariable sind. Als nächstes wollen wir einige wichtige Arten von Zufallsvariablen vorstellen: Beispiel 3.3 (alternativverteilte Zufallsvariable) Wird auch Bernoulli-verteilte Zufallsvariable genannt. Münzwurf. (Ω, S, P ) = {“K”, “A”}, P ({K, A}) , P (K) = P (A) = 1 2 X(K) = 0, X(A) = 1, PX (0) = P ([X = 0]) = PX (1) = P ([X = 1]) = Allgemein: sei A irgendein Ereignis, das mit der Wahrscheinlichkeit p eintrete, sei 0, wenn ω 6∈ A X(ω) := 1, wenn ω ∈ A 1 2 (0 < p < 1) Dann gilt: PX (1) = P ([X = 1]) = P (A) = p, PX (0) = P ([X = 0]) = P (Ac ) = 1 − p oder PX (x) = px (1 − p)1−x mit x ∈ {0, 1} eine derartige Zufallsvariable heißt alternativ- oder bernoulliverteilt (im Zeichen: X ∼ Bp ) Beispiel 3.4 (binomialverteilte Zufallsvariable) Verteilung bei Ziehungen mit Zurücklegen. Eine Produktion enthalte p · 100% an fehlerhaften Stücken; es mögen n Stücke mit Zurücklegen gezogen werden. Gesucht sei die Wahrscheinlichkeit, daß genau k Stücke fehlerhaft sind. Als möglicher Wahrscheinlichkeitsraum kommt in Betracht: Ω = {(x1 , . . . , xn ); xi ∈ {0, 1}; xi = 0 . . . “gut”; xi = 1 . . . “fehlerhaft”} P ((x1 , . . . , xn )) = pk (1 − p)n−k , wenn ∃{i1 , . . . , ik } : xij = 1, xj = 0 ∀j 6∈ {i1 , . . . , ik } Dann gilt aber k= n X i=1 xi . 32 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Somit ist P ((x1 , . . . , xn )) = p X(x1 , . . . , xn ) = Pn i=1 n P i=1 xi (1 − p)n− Pn i=1 xi xi [X = k] := {ω : X(ω) = k} = {ω = (x1 , . . . , xn ) : o ∃{i1 , . . . , ik } ⊆ {1, . . . , n} : xij = 1, xj = 0 ∀j 6∈ {i1 , . . . , ik } Man sieht sofort: |[X = k]| = nk ⇒ PX (k) = P (X = k) = nk pk (1 − p)n−k Die Zufallsvariable heißt binomialverteilt Bn,p , wenn X : Ω → {0, . . . , n} und n k PX (k) = P ([X = k]) = p (1 − p)n−k k 0 ≤ p ≤ 1 (im Zeichen: X ∼ Bn,p ) Bemerkung.Bezeichnet man das Ergebnis der i-ten Ziehung mit Xi , so gilt: X = Pn i=1 Xi . Da die Xi vt Bp ∀i = 1, . . . , n sind, kann jede binomialverteilte Zufallsvariable als Summe von alternativverteilten Zufallsvariablen angeschrieben werden. Beispiel 3.5 (hypergeometrischverteilte Zufallsvariable) Verteilung bei Ziehungen ohne Zurücklegen. Eine Population von N Elementen enthalte A “ausgezeichnete” Stücke. Es werde eine Stichprobe vom Umfang n gezogen, wobei jede Teilmenge der N Elemente, die n Elemente enthält, mit gleicher Wahrscheinlichkeit ausgewählt werden kann. Gesucht ist die Wahrscheinlichkeit, daß die Stichprobe genau a “ausgezeichnete” Elemente enthalte. Sei o.E.d.A. angenommen, daß die Zahlen 1, . . . , A die “ausgezeichneten” Elemente bezeichnen und A + 1, . . . , N die restlichen Stücke der Population. Ein möglicher Wahrscheinlichkeitsraum ist dann etwa Ω := {{i1 , . . . , in } ⊆ {1, . . . , A, A + 1, . . . , N }} N P ({i1 , . . . , in }) = 1/ n X ({i1 , . . . , in }) := ij : ij ∈ {1, . . . , A}; 1 ≤ j ≤ n Klarerweise gilt: 0 ≤ X(ω) ≤ A ∀ω ∈ Ω X(ω) ≤ n ∀ω ∈ Ω n − X(ω) ≤ N − A ⇒ n − (N − A) ≤ X(ω) ∀ω ∈ Ω. 33 3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN Damit erhält man: Ω′ = {X(ω) : ω ∈ Ω} = {max{0, n − (N − A)}, . . . , min{n, A}} [X = a] = {i1 , . . . , in } : ∃{j1 , . . . , ja } : ijk ∈ {1, . . . , A} ∀k ∈ {1, . . . , a} und il ∈ {A + 1, . . . , N } ∀l 6∈ {j1 , . . . , ja }} N −A ⇒ |[X = a]| = A a n−a ⇒ (klassische Wahrscheinlichkeitsdefinition) ⇒ PX (a) = P ([X = a]) = (i.Z.: X ∼ HN,A,n ) A N−A ( a )( n−a ) (Nn ) 0 für max{0, n − (N − A)} ≤ a ≤ min{n, A} sonst Beispiel 3.6 (geometrische Verteilung) In Kapitel 2 haben wir bereits die geometrische Verteilung kennengelernt. Wir nennen eine Zufallsvariable X geometrisch verteilt, wenn gilt: X : Ω → N, PX (k) = P ([X = k]) = (1 − p)k−1 p (0 ≤ p ≤ 1) (i.Z.: X ∼ Gp ) k∈N Beispiel 3.7 (stetig gleichverteilte Zufallsvariable auf [a, b]) Wir kennen auch schon die stetige Gleichverteilung auf [0, 1]; eine Zufallsvariable X : Ω → [a, b] heißt stetig gleichverteilt auf [a, b], wenn für jedes Intervall [c, d] ⊆ [a, b] gilt (c ≤ d): PX ([c, d]) = P ([X ∈ [c, d]]) = d−c b−a (i.Z.: X ∼ Ua,b ) Beispiel 3.8 (exponentialverteilte Zufallsvariable mit Parameter λ) Auch die im folgenden besprochene Zufallsvariable kann überabzählbar viele Werte annehmen. Gegeben sei eine Maschine, und sei T die Lebensdauer dieser Maschine. T kann jeden Wert aus [0, ∞) annehmen. Weiters möge T der folgenden Bedingung genügen: P ([T > t + s] | [T > s]) = P ([T > t]) ∀s, t ∈ [0, ∞), d.h. die Wahrscheinlichkeit, daß die Maschine mindestens bis zum Zeitpunkt t + s funktioniert, wenn man bereits weiß, daß sie bis zum Zeitpunkt s funktioniert hat, ist gleich der Wahrscheinlichkeit, daß sie mindestens bis zum Zeitpunkt t funktioniert – oder anders ausgedrückt: die zukünftige Lebensdauer der Maschine hängt nicht von 34 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN der bisherigen Lebensdauer ab. Obwohl eine derartige Annahme für die Lebensdauer biologischer Systeme sehr unrealistisch ist, ist das Modell sehr brauchbar bei der Beschreibung gewisser physikalischer Phänomene, wie etwa der Zeitspanne bis zum Zerfall eines radioaktiven Teilchens. Aus der obigen Voraussetzung folgt: P ([T > 2t]) = P ([T > t]) · P ([T > 2t] | [T > t]) = P ([T > t])2 und allgemeiner: P ([T > nt]) = P ([T > t])n ∀n ∈ N. Umgekehrt gilt auch: P ([T > t]) = P P t n t [T > n ] = P [T > ] n n 1 t [T > ] = P ([T > t]) n n ∀n ∈ N ⇒ ∀n ∈ N Aus den obigen beiden Gleichungen folgt aber unmittelbar, daß für alle rationalen Zahlen q ∈ Q (q ≥ 0) gilt: P ([T > qt]) = P ([T > t])q Da P ([T > rt]) mit steigendem r monoton fallen muß, gilt dann aber auch für r ∈ [0, ∞): P ([T > rt]) = P ([T > t])r = er ln P ([T >t]) . Mit der Bezeichnung λ := − ln P ([T > 1]) ergibt das: P ([T > t]) = e−λt ∀t ∈ [0, ∞). Daraus folgt für s, t ∈ [0, ∞), s ≤ t wegen [T > s] ⊇ [T > t]: P ([T ∈ (s, t]]) = P ([T ≤ t] \ [T ≤ s]) = P ([T ≤ t]) − P ([T ≤ s]) = 1 − e−λt − (1 − e−λs ) = e−λs − e−λt Die dadurch auf [0, ∞) festgelegte Wahrscheinlichkeitsverteilung PT heißt Exponentialverteilung mit dem Parameter λ und T ist eine exponentialverteilte Zufallsvariable (im Zeichen: T ∼ Exλ ). Zum Abschluß wollen wir noch eine kurze Bemerkung über die physikalische Interpretation von λ machen: Sei t0 jene Zeitspanne, für die die Wahrscheinlichkeit, daß die Lebensdauer sie übersteigt, genau 1/2 ist, d.h. PT (t0 ) = P ([T > t0 ]) = 1 2 35 3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN (t0 wird Halbwertszeit genannt.) Wegen P ([T > t0 ]) = e−λt0 = 1 2 besteht zwischen der Halbwertszeit und λ folgender Zusammenhang: λ= ln 2 . t0 Wir haben schon in Kapitel 1 erwähnt, daß die Wahrscheinlichkeitsverteilungen entweder durch Angabe der Wahrscheinlichkeiten der Elementarereignisse festgelegt werden können, wenn |Ω| ≤ ℵ0 1 , oder aber durch die Wahrscheinlichkeiten der Intervalle (c, d], wenn Ω = [a, b] ⊆ R. Haben wir nun eine Zufallsvariable X auf einem Raum (Ω, S, P ) gegeben, so können wir sowohl für |Ω′ | ≤ ℵ0 als auch für Ω′ = [a, b] ⊆ R die folgenden Wahrscheinlichkeiten bestimmen: F (x) := PX ((−∞, x]) = P (X ∈ (−∞, x]) = P P (X = y) y≤x im 1-tenFall lim P ([X ∈ (y, x]]) im 2-tenFall y→−∞ Umgekehrt legen aber auch die Werte F (x), lung in eindeutiger Weise fest. Falls |Ω| ≤ ℵ0 , so gilt: x ∈ R die Wahrscheinlichkeitsvertei- PX (x) = P ([X = x]) = F (x) − lim F (y) = F (x) − F− (x) y↑x mit F− (x) := lim F (y) y↑x Beweis.Für y ր x gilt (y, x] ↓ {x}. Aus der Stetigkeit von PX folgt: PX ((y, x]) → PX ({x}). Weiters gilt wegen PX ((a, b]) = PX ((−∞, b] \ (−∞, a]) = F (b) − F (a) stets PX ((a, b]) = F (b) − F (a) ∀a, b ∈ R. Damit ist die Wahrscheinlichkeit PX auch im Fall eines überabzählbaren Bildraums festgelegt. 1 Die Bezeichnung |Ω| ≤ ℵ0 bedeutet, daß Ω höchstens abzählbar ist. 36 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Definition 3.3 Ist X : Ω → R eine Zufallsvariable mit dem induzierten Bildraum (Ω′ , S′ , PX ), so nennt man die durch F (x) := PX ((−∞, x]) definierte Funktion F : R → R die zu X (zu PX ) gehörige Verteilungsfunktion. (Wenn der Bezug zur Zufallsvariablen X betont werden soll, schreibt man manchmal auch FX .) Bemerkung. 1. Der ursprüngliche Raum kann selbst als Bildraum, und zwar induziert durch die identische Abbildung, aufgefaßt werden. 2. Umgekehrt können aber auch die Werte einer Zufallsvariablen selbst wieder als Ausgänge eines Versuchs angesehen werden. Wir werden daher oft auch die induzierte Verteilung PX kurz mit P bezeichnen, insbesondere, wenn nicht ausdrücklich auf die zugrundeliegende Zufallsvariable X hingewiesen werden muß. Definition 3.4 Die Zufallsvariable X heißt diskret, wenn |Ω′ | ≤ ℵ0 . In den beiden von uns betrachteten Beispielen von Zufallsvariablen mit überabzählbar vielen möglichen Werten kann man PX ((c, d]) als Integral darstellen: 1. 2. X vt Sa,b d−c : PX ((c, d]) = = b−a −λc X vt Eλ : PT ((c, d]) = e Zd c −λd −e 1 dt b−a = Zd c a≤c≤d≤b λe−λt dt 0≤c≤d<∞ Definition 3.5 Die Zufallsvariable X heißt stetig, wenn es eine integrierbare Funktion f (t) auf R in R gibt, sodaß PX ((c, d]) = Zd c f (t)dt ∀c, d ∈ R gilt. f heißt dann die zu X (zu PX ) gehörige Dichtefunktion. (Manchmal schreibt man auch fX .) Bemerkung.Es gibt Zufallsvariable, die weder stetig noch diskret sind, wie z.B.: X mit P (X = 0) = 21 , P (X ∈ (c, d)) = d−c ∀ 0 ≤ c ≤ d ≤ 1. Wir werden uns aber in 2 diesem Skriptum nur mit stetigen und diskreten Zufallsvariablen beschäftigen. 3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN 37 Satz 3.1 (Eigenschaften der Verteilungsfunktionen) 1. F (−∞) = lim F (x) = 0 x→−∞ 2. F (∞) = lim F (x) = 1 x→∞ 3. aus x ≤ y folgt F (x) ≤ F (y) d.h.: F ist monoton 4. aus xn ↓ x folgt F (xn ) ↓ F (x) d.h.: F ist rechtsstetig Beweis.Aus (−∞, x] ↓ ∅ mit x → −∞ und der Stetigkeit der Wahrscheinlichkeitsverteilung folgt: F (−∞) = lim F (x) = 0 x→−∞ Aus (−∞, x] ↑ R mit x → ∞ folgt: F (∞) := lim F (x) = 1 x→∞ Wegen (−∞, x] ⊆ (−∞, y] für x ≤ y gilt: F (x) ≤ F (y) ∀x ≤ y Aus hn ≥ 0, hn ↓ 0 und (−∞, x + hn ] ↓ (−∞, x] folgt: F (x + 0) = lim F (x + hn ) = F (x) hn ↓0 Bemerkung.F ist im allgemeinen nicht linksstetig, da (−∞, x − hn ] ↑ (−∞, x) konvergiert und nicht (−∞, x − hn ] ↑ (−∞, x]. Ist aber F die Verteilungsfunktion einer stetigen Zufallsvariablen X , so ist wegen: 0 = P (X = x) = F (x) − F− (x) die Verteilungsfunktion auch linksstetig. Beispiel 3.9 Sei F die Verteilungsfunktion einer diskreten Zufallsvariablen X. X : Ω → Ω′ = {xn , n ∈ N} ⊆ R PX (xn ) = P (X = xn ) = pn ∀n ∈ N dann gilt: F (x) = X pn xn ≤x d.h.: F ist eine Treppenfunktion mit Sprüngen der Höhe pn in den Punkten xn . 38 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Satz 3.2 Ist X eine stetige Zufallsvariable mit der Dichtefunktion f , so gilt: 1. Z∞ f (t)dt = 1 −∞ 2. f (x) = F ′ (x) Beweis.ad 1) F (x) = Zx f (t)dt −∞ F (∞) = 1 ⇒ Z∞ f (t)dt = 1 −∞ ad 2) F (x + h) − F (x) = h R x+h x f (t)dt f (x0 )h = = f (x0 ) mit x0 ∈ (x, x + h) h h ⇒ F ′ (x) = f (x) d.h.: die Dichtefunktion ist eine Ableitung der Verteilungsfunktion. Bemerkung.Im obigen Beweis haben wir stillschweigend vorausgesetzt, daß f stetig ist und deshalb der Mittelwertsatz der Integralrechnung angewendet werden kann. Die Beziehung F ′ (x) = f (x) gilt aber für jede Verteilungsfunktion F , die als unbeRx stimmtes Integral F (x) = −∞ f (t)dt dargestellt werden kann – auch dann, wenn f nicht stetig ist. Allerdings ist der Beweis dann wesentlich schwieriger. (Theorie der absolut stetigen Funktionen) 3.2 Mehrdimensionale Zufallsvariable Es kann vorkommen, daß – mit einem Versuch zusammenhängend – zwei oder mehrere Merkmale interessieren. Man betrachtet dann nicht eine einzelne Zufallsvariable X, sondern ein Tupel von Zufallsvariablen (X, Y ) oder einen Zufallsvektor (X1 , X2 , . . . , Xk ). Man nennt (X1 , . . . , Xk ) auch eine k-dimensionale Zufallsvariable. Der Bildraum Ω′ ist dann eine Teilmenge in R2 oder in Rk . So könnte etwa in Beispiel 3.1 nicht nur die größte Augenzahl unter den 5 Würfen, sondern z.B. die größte und kleinste Augenzahl von Bedeutung sein. Ähnlich, wie im eindimensionalen Fall, ist die Wahrscheinlichkeitsverteilung PX1 ,...,Xk auf Ω′ durch die Wahrscheinlichkeiten der Elementarereignisse festgelegt: PX1 ,...,Xk ((x1 , . . . , xk )) = P ([X1 = x1 , . . . , Xk = xk ]), wenn Ω′ nur abzählbar viele Elemente enthält, oder durch die Wahrscheinlichkeiten der Ereignisse: PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = P ([a1 < X1 ≤ b1 , . . . , ak < Xk ≤ bk ]) 39 3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE mit ai , bi ∈ R ∀i = 1, . . . , k. Die Wahrscheinlichkeitsverteilung PX1 ,...,Xk nennt man die gemeinsame Verteilung von X1 , . . . , Xk . Definition 3.6 Wenn es eine mehrdimensionale Dichtefunktion f : Rk → R gibt mit: Zb1 Zbk PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = · · · f (t1 , . . . , tk ) dt1 . . . dtk a1 ak so nennt man (X1 , . . . , Xk ) stetig verteilt. Wenn Ω′ überabzählbar ist, wollen wir wieder nur den stetigen Fall betrachten. Beispiel 3.10 1. Werfe eine S 1-Münze 3-mal und eine S 10-Münze 3-mal. X. . . Anzahl der “Köpfe” bei der S 1-Münze Y . . . Anzahl der “Adler” bei der S 10-Münze Die gemeinsame Verteilung von (X, Y ) ergibt sich, wie man leicht sieht, aus Tabelle 3.1: Tabelle 3.1: Y 0 1 2 3 X 0 1 2 3 1 64 3 64 3 64 1 64 3 64 9 64 9 64 3 64 3 64 9 64 9 64 3 64 1 64 3 64 3 64 1 64 2. Werfe eine Münze 3-mal. X. . . Anzahl der “Köpfe” Y . . . Anzahl der “Adler” Es interessiert uns die Anzahl der “Adler” bei den 3 Würfen. Klarerweise gilt nun Y = 3 − X, d.h. P (X = i, Y = j) = 0, wenn j 6= 3 − i und 3 −3 P (X = i, Y = 3 − i) = P (X = i) = 2 i (siehe Tabelle 3.2) i = 0, . . . , 3 40 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Tabelle 3.2: Y X 0 1 2 3 0 1 2 3 0 0 0 0 0 0 1 8 1 8 3 8 0 0 0 3 8 0 0 0 3. Werfe eine S 1-Münze 2-mal, eine S 5-Münze 1-mal und eine S 10-Münze 2mal. X. . . Anzahl der “Köpfe” bei den 3 Würfen mit der S 1- und der S 5-Münze Y . . . Anzahl der “Adler” bei den Würfen mit der S 10- und der S 5-Münze. Sei Xi (Yi ) die Anzahl der “Köpfe” (“Adler”) bei den Würfen mit der S iMünze. Die gemeinsame Verteilung ergibt sich folgendermaßen: [X = 0, Y = 0] = [X1 = 0, X5 = 0, Y5 = 0, Y10 = 0] = ∅ ⇒ P (X = 0, Y = 0) = 0 [X = 0, Y = 1] = [X1 = 0, X5 = 0, Y10 = 0] ⇒ P (X = 0, Y = 1) = 1 4 · 1 2 · 1 4 [X = 0, Y = 2] = [X1 = 0, X5 = 0, Y10 = 1] ⇒ P (X = 0, Y = 2) = 1 4 · 1 2 · 1 2 [X = 0, Y = 3] = [X1 = 0, Y5 = 1, Y10 = 2] ⇒ P (X = 0, Y = 3) = 1 4 · 1 2 · 1 4 [X = 1, Y = 1] = [X1 = 0, X5 = 1, Y10 = 1] ∪ [X1 = 1, X5 = 0, Y10 = 0] ⇒ P (X = 1, Y = 1) = 1 4 · 1 2 · 1 2 + 1 2 · 1 2 · 1 4 = 1 8 [X = 1, Y = 2] = [X1 = 1, X5 = 0, Y10 = 1] ∪ [X1 = 0, X5 = 1, Y10 = 2] ⇒ P (X = 1, Y = 2) = 1 2 · 1 2 · 1 2 + 1 4 · 1 2 · 1 4 = 5 32 und die übrigen Wahrscheinlichkeiten ergeben sich aus Symmetrieüberlegungen (siehe Tabelle 3.3). 41 3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE Tabelle 3.3: Y 0 1 2 3 X 0 1 2 3 0 1 32 1 8 5 32 1 16 1 16 5 32 1 8 1 32 1 32 1 16 1 32 1 32 1 16 1 32 0 Hat man im Verlauf eines Versuches 2 oder mehrere Merkmale beobachtet, interessiert aber in späteren Untersuchungen nur das Verhalten einer Zufallsvariablen, so kann die Verteilung dieser Zufallsvariablen aus der gemeinsamen Verteilung leicht bestimmt werden. So gilt im diskreten Fall: PXi (x̂i ) := P (Xi = x̂i ) = P (X1 ∈ R, . . . , Xi−1 ∈ R, Xi = x̂i , Xi+1 ∈ R, . . . , Xk ∈ R) X = PX1 ,...,Xk (x1 , . . . , xi−1 , x̂i , xi+1 , . . . , xk ) (x1 ,...,xi−1 ,xi+1 ,...,xk ) (x̂i wird festgehalten, während alle anderen xj j 6= i variabel sind) ansonsten: PXi ((ai , bi ]) = P X1 ∈ R, . . . , Xi−1 ∈ R, Xi ∈ (ai , bi ], Xi+1 ∈ R, . . . , Xk ∈ R Satz 3.3 Wenn (X1 , . . . , Xk ) stetig verteilt ist, so sind auch die einzelnen Zufallsvariablen Xi stetig. Beweis. PXi ((ai , bi ]) = P X1 ∈ R, . . . , Xi−1 ∈ R, Xi ∈ (ai , bi ], Xi+1 ∈ R, . . . , Xk ∈ R Z ZbiZ = · · · f (t1 , . . . , ti−1 , ti , ti+1 , . . . , tk ) dt1 · · · dti−1 dti+1 · · · dtk dti . R R | {z } a i =fXi (ti ) Definition 3.7 fXi (ti ) im obigen Satz heißt die Randdichte von Xi . Die Verteilung PXi wird Randverteilung der Zufallsvariablen Xi genannt. 42 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Beispiel 3.11 Man sieht leicht, daß die Randverteilung von X bzw. Y in Beispiel 3.10 stets bestimmt ist durch: 3 −3 P (X = i) = 2 i 3 −3 P (Y = i) = 2 i Das bedeutet, daß aus der Kenntnis der Randverteilungen im allgemeinen die gemeinsame Verteilung nicht bestimmt werden kann. Bemerkung.Das Beispiel 3.10.1 nimmt insoferne eine Sonderstellung ein, als bei diesem Versuch X und Y einander nicht beeinflussen. Es gilt bei dieser Versuchsanordnung: P (X = i, Y = j) = P (X = i)P (Y = j) ∀i, j ∈ {0, . . . , 3} Wir sagen daher: X und Y sind unabhängig. Definition 3.8 Die Zufallsvariablen X1 , . . . , Xk heißen unabhängig voneinander, wenn gilt: P (X1 ∈ (a1 , b1 ], . . . Xk ∈ (ak , bk ]) = k Y i=1 P (Xi ∈ (ai , bi ]) ∀ai , bi ∈ R Im diskreten Fall kann man das durch die einfachere Bedingung P (X1 = x1 , . . . , Xk = xk ) = k Y P (Xi = xi ) i=1 = P (X1 = x1 ) · · · P (Xk = xk ) ∀(x1 , . . . , xk ) ersetzen. Beispiel 3.12 (Shannons Ratespiel) 1. Man lese aus dem untenstehenden Text bis zum Strich vor und lasse die folgenden Buchstaben durch eine Versuchsperson erraten. "A.N.KOLMOGOROV_LEGTE_SC|HLIESSLICH_1933_IN_EINER_ENTSCHEID ENDEN_ARBEIT_DEN_GRUNDSTEIN_FUER_DIE_HEUTIGE_MODERNE_WAHR SCHEINLICHKEITSRECHNUNG." (aus Storm [10] Seite 15) 2. Man nehme nun nur jeden 10. Buchstaben aus dem folgenden Text und lasse diese Buchstaben erraten. Basistext: 43 3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE ‘‘ZAHLREICHE_BEI_GLUECKSSPIELEN_INTERESSIERENDE_FRAGEN_WAREN_ DER_ANLASS_DAFUER_DASS_SICH_BEDEUTENDE_FORSCHER_WIE_Z_B_P_ FERMAT_B_PASCAL_UND_JAKOB_BERNOULLI_IN_DER_MITTE_DES_SIEB ZEHNTEN_JAHRHUNDERTS_MIT_BEGRIFFEN_WIE_ZUFALLSERSCHEINUNG_ EREIGNIS_WAHRSCHEINLICHKEIT_UND_MATHEMATISCHE_ERWARTUNG_ AUSEINANDERSETZTEN_UND_DIE_AUFGABEN_MIT_HILFE_ELEMENTARER_ METHODEN_DER_KOMBINATORIK_ZU_LOESEN_VERSUCHTEN’’ Das ergibt folgende Buchstabenfolge: E,C,_,E,G,D,_,S,D,O,E,R,C,K,L,_,_,E,D,B,W,S,N,S,I,_,M,R,U,S, D,A,I,N,H,K,I,E,T Die Buchstabenhäufigkeit der deutschen Sprache: (siehe Tabelle 3.4 in % aus [3]) Tabelle 3.4: A 5 B 2.5 C 1.5 D 5 E 18.5 F 1.5 G 4 H 4 I 8 J 0 K 1 L 3 M 2.5 N 11.5 O 3.5 P 0.5 Q 0 R 7 S 7 T 5 U 5 V 1 W 1.5 X 0 Y 0 Z 1.5 Ist es z.B. sinnvoll, in Aufgabe 1 nach SC auf H zu tippen (oder nach Q auf U)? Was ist vernünftiger: nach S auf T oder auf E zu raten? Die relative Häufigkeit von ST in einem sinnvollen deutschen Text ist ≈ 0.012. Die relative Häufigkeit von ST in Aufgabe 2 ist das Produkt aus der relativen Häufigkeit von S und der relativen Häufigkeit von T, das ist 0.07 · 0.05 = 0.0035 ≪ 0.012. Man sieht sofort, daß sich im 1. Fall die relativen Häufigkeiten von Buchstabentupeln nicht als Produkt der relativen Häufigkeiten der einzelnen Buchstaben ergeben, im 2. Fall jedoch sehr wohl, d.h. im ersten Fall betrachtet man eine abhängige Folge X1 , X2 , . . . von Zufallsvariablen – im 2. Fall aber eine unabhängige Folge. Beispiel 3.13 Zwei Personen A und B kommen zufällig zwischen 17h und 18h an einen bestimmten Ort. Sie verweilen dort jeweils 10 Minuten. Wie groß ist die Wahrscheinlichkeit, daß sie einander treffen? X. . . Ankunftszeit von A 44 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Y . . . Ankunftszeit von B X, Y vt S17,18 , und unabhängig 2 11 5 = ≈ 0.306 P (A trifft B) = P (|X − Y | ≤ 10min.) = 1 − 6 36 (siehe Abb. 3.1). Y ✻ 5 6 1 6 ✲ 1 6 5 6 X Abbildung 3.1: Definition 3.9 Sei (X1 , . . . , Xk ) eine k-dimensionale Zufallsvariable, dann ist die gemeinsame Verteilungsfunktion von (X1 , . . . , Xk ) definiert durch: F (x1 , . . . , xk ) = P (X1 ∈ (−∞, x1 ], . . . , Xk ∈ (−∞, xk ]) Auch im mehrdimensionalen Fall ist die Wahrscheinlichkeitsverteilung eindeutig durch die Verteilungsfunktion bestimmt. Wir betrachten zunächst k = 2: Satz 3.4 Ist (X1 , X2 ) eine 2-dimensionale Zufallsvariable mit der Verteilungsfunktion FX1 ,X2 , so gilt: P (X1 ∈ (a1 , b1 ], X2 ∈ (a2 , b2 ]) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ) ∀ai , bi ∈ R. Beweis. Sei Ai := [Xi ≤ ai ] ∩ ([X1 ≤ b1 , X2 ≤ b2 ]) i = 1, 2 [a1 < X1 ≤ b1 , a2 < X2 ≤ b2 ] = [X1 ≤ b1 , X2 ≤ b2 ] \ (A1 ∪ A2 ) ⇒ P (a1 < X1 ≤ b1 , a2 < X2 ≤ b2 ) = P (X1 ≤ b1 , X2 ≤ b2 ) − P (A1 ∪ A2 ) = F (b1 , b2 ) − P (A1 ) − P (A2 ) + P (A1 ∩ A2 ). 45 3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE y ✻ b2 (a1 , b2 ) (b1 , b2 ) (a1 , a2 ) (b1 , a2 ) A1 a2 ✲ a1 A2 b1 x Abbildung 3.2: Nun gilt P (A1 ) = P (X1 ≤ a1 , X2 ≤ b2 ) = F (a1 , b2 ) P (A2 ) = P (X1 ≤ b1 , X2 ≤ a2 ) = F (b1 , a2 ) P (A1 ∩ A2 ) = P (X1 ≤ a1 , X2 ≤ a2 ) = F (a1 , a2 ) Setzt man ein, so erhält man die Behauptung PX1 ,X2 ((a1 , b1 ] × (a2 , b2 ]) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ) Allgemein gilt: Satz 3.5 Ist (X1 , . . . , Xk ) eine k-dimensionale Zufallsvariable mit Verteilungsfunktion F , so gilt PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = 1 X ǫ1 =0 ··· Beweis.Sei B := 1 X ǫk =0 Tk Pk (−1) i=1 [Xi Ai := [Xi ≤ ai ] ∩ B i=1 ǫi F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) . ≤ bi ], und weiters sei i = 1, . . . , k. Dann gilt: P (B) = P (X1 ≤ b1 , . . . , Xk ≤ bk ) = F (b1 , . . . , bk ) P (Ai ) = P (X1 ≤ b1 , . . . , Xi−1 ≤ bi−1 , Xi ≤ ai , Xi+1 ≤ bi+1 , . . . , Xk ≤ bk ) = F (b1 , . . . , bi−1 , ai , bi+1 , . . . , bk ). 46 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Sei 1 ≤ i1 < i2 < · · · < ih ≤ k und sei 1 l ∈ {i1 , . . . , ih } ǫl := 0 l ∈ {1, . . . , k} \ {i1 , . . . , ih } Dann gilt: P (Ai1 ∩ · · · ∩ Aih ) = P (Xij ≤ aij j = 1, . . . , h, Xl ≤ bl l 6∈ {i1 , . . . , ih }) = F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) . Aus [ai < Xi ≤ bi = B\ = B\ ∀i = 1, . . . , k] = B ∩ k [ ! i=1 [Xi ≤ ai ]c i=1 [Xi ≤ ai ] i=1 k [ k \ ([Xi ≤ ai ] ∩ B) = B \ k [ Ai i=1 folgt P (a1 < X1 ≤ b1 , . . . , ak < Xk ≤ bk ) = F (b1 , . . . , bk ) − P k [ i=1 Ai ! . Eine Anwendung des verallgemeinerten Additionstheorems ergibt ! k k X X [ Ai = (−1)h+1 P P (Ai1 ∩ · · · ∩ Aih ). i=1 h=1 1≤i1 <···<ih ≤k Daraus folgt PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = F (b1 , . . . , bk ) + k X (−1)h h=1 = X X 1≤i1 <···<ih ≤k Pk i=1 ǫi (−1) (ǫ1 ,...,ǫk )∈{0,1}k P (Ai1 ∩ · · · ∩ Aih ) F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) . Mehrdimensionale Verteilungsfunktionen haben folgende Eigenschaften: Satz 3.6 Ist F eine k-dimensionale Verteilungsfunktion, so gilt 1. 2. 0 ≤ F (x1 , . . . , xk ) ≤ 1 ∀(x1 , . . . , xk ) ∈ Rk lim F (x1 , . . . , xi , xi+1 , . . . , xk ) = 0 xi →−∞ 47 3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE 3. lim min1≤i≤k xi →∞ F (x1 , . . . , xk ) = 1 4. F ist in jeder Argumentvariablen monoton, d.h. xi ≤ yi ⇒ F (x1 , . . . , xi , . . . , xk ) ≤ F (x1 , . . . , xi−1 , yi , xi+1 , . . . , xk ) 5. F ist in jeder Argumentvariablen rechtsstetig, d.h. lim F (x1 , . . . , xi + hn , . . . , xk ) = F (x1 , . . . , xi , . . . , xk ) hn ↓0 6. X Pk (−1) (ǫ1 ,...,ǫk )∈{0,1}k ∀ai ≤ bi i=1 ǫi F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) ≥ 0 i = 1, . . . , k Beweis.Die Beweise für 1)–5) gehen genauso wie im eindimensionalen Fall. 6) folgt unmittelbar aus dem vorigen Satz. Wenn die (X1 , . . . , Xk ) ua sind, so gilt: FX1 ,...,Xk (x1 , . . . , xk ) = P (X1 ∈ (−∞, x1 ], . . . , Xk ∈ (−∞, xk ]) = k Y FXi (xi ) i=1 d.h. die gemeinsame Verteilungsfunktion ist das Produkt der Verteilungsfunktionen der einzelnen Zufallsvariablen. Aber es gilt auch die Umkehrung. Satz 3.7 Die Zufallsvariablen (X1 , . . . , Xk ) sind genau dann unabhängig, wenn gilt: FX1 ,...,Xk (x1 , . . . , xk ) = k Y FXi (xi ). i=1 Beweis.Die eine Richtung ist klar. Die andere beweisen wir durch vollständige Induktion. Sei k = 2: P (X1 ∈ (a1 , b1 ], X2 ∈ (a2 , b2 ]) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ) = F1 (b1 )F2 (b2 ) − F1 (a1 )F2 (b2 ) − F1 (b1 )F2 (a2 ) + F1 (a1 )F2 (a2 ) = [F1 (b1 ) − F1 (a1 )] [F2 (b2 ) − F2 (a2 )] = P (X1 ∈ (a1 , b1 ]) P (X2 ∈ (a2 , b2 ]) ∀ai ≤ bi 48 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Angenommen für h = 1, . . . , k − 1 sei gezeigt, daß aus h Y FX1 ,...,Xh (x1 , . . . , xh ) = FXi (xi ) i=1 folgt PX1 ,...,Xh ((a1 , b1 ] × · · · × (ah , bh ]) = 1 X ǫ1 =0 = h Y ··· 1 X h Y Ph i=1 ǫi (−1) ǫh =0 FXi (ǫi ai + (1 − ǫi )bi ) i=1 PXi ((ai , bi ]) , i=1 dann gilt: PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = 1 X ǫ1 =0 = 1 X ǫ1 =0 ··· ··· 1 1 X X ǫk−1 =0 ǫk =0 1 1 X X = F (bk ) 1 X ǫ1 =0 − F (ak ) ··· 1 X ǫ1 =0 F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) Pk k−1 Y (−1) ǫk−1 =0 ǫk =0 Pk (−1) 1 X i=1 ǫi i=1 ǫi Pk−1 (−1) ǫk−1 =0 ··· i=1 1 X i=1 k−1 Y i=1 Pk−1 (−1) ǫk−1 =0 ǫi FXi (ǫi ai + (1 − ǫi )bi ) · F (ǫk ak + (1 − ǫk )bk ) i=1 ǫi FXi (ǫi ai + (1 − ǫi )bi ) k−1 Y i=1 FXi (ǫi ai + (1 − ǫi )bi ) = F (bk )PX1 ,...,Xk−1 (a1 , b1 ] × · · · × (ak−1 , bk−1 ] − F (ak )PX1 ,...,Xk−1 (a1 , b1 ] × · · · × (ak−1 , bk−1 ] = P (Xk ∈ (ak , bk ]) · k−1 Y i=1 P (ai < Xi ≤ bi ). Satz 3.8 Hat (X1 , . . . , Xk ) eine stetige gemeinsame Verteilung mit der Dichte fX1 ,...,Xk (x1 , . . . , xk ), und bezeichnet man die Randdichten von Xi mit fXi , so gilt: (X1 , . . . , Xk ) sind genau dann unabhängig, wenn fX1 ,...,Xk (x1 , . . . , xk ) = k Y i=1 fXi (xi ) ∀(x1 , . . . , xk ) ∈ Rk 49 3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE Beweis.Sei f (x1 , . . . , xk ) = fX1 ,...,Xk (x1 , . . . , xk ) = k Y i=1 FX1 ,...,Xk (x1 , . . . , xk ) = Zx1 −∞ = Zx1 −∞ ··· ··· Zxk −∞ fX1 (t1 ) · · · fXk (tk ) dt1 · · · dtk x Zk fXk (tk ) dtk fX1 (t1 ) · · · fXk−1 (tk−1 ) dt1 · · · dtk−1 −∞ | {z } xZk−1 −∞ fXi (xi ) ⇒ FXk (xk ) = FXk (xk ) Zx1 −∞ ··· xZk−1 −∞ fX1 (t1 ) · · · fXk−1 (tk−1 ) dt1 · · · dtk−1 = · · · = FXk (xk ) · · · FX1 (x1 ). Daraus folgt aber, daß die (X1 , . . . , Xk ) unabhängig sind. Aus der Unabhängigkeit von (X1 , . . . , Xk ) folgt umgekehrt: F (x1 , . . . , xk ) = k Y FXi (xi ) i=1 = = k Zxi Y i=1−∞ Zx1 −∞ ··· fXi (ti ) dti = Zxk Y k −∞ i=1 Zx1 −∞ fX1 (t1 ) dt1 · · · Zxk fXk (tk ) dtk −∞ fXi (ti ) dt1 · · · dtk . Daraus folgt: P (a1 < X1 ≤ b1 , . . . , ak < Xk ≤ bk ) = Daher ist die Funktion lung von (X1 , . . . , Xk ). Qk i=1 fXi (ti ) Zb1 a1 ··· Zbk Y k ak i=1 fXi (ti ) dt1 · · · dtk . eine Dichtefunktion für die gemeinsame Vertei- Den Zusammenhang zwischen verschiedenen Zufallsvariablen kann man mit Hilfe der bedingten Wahrscheinlichkeitsverteilung charakterisieren. Sind die Zufallsvariablen X, Y diskret, so gilt: P (X = x | Y = y) = P (X = x, Y = y) P (Y = y) (wenn P (Y = y) > 0) 50 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Wir nennen dann P (X = x | Y = y) die durch Y = y bedingte Wahrscheinlichkeitsverteilung von X. 51 3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE Beispiel 3.14 (Fortsetzung von Bsp. 3.10) ad 1: P (X = x | Y = y) = P (X = x)P (Y = y) = P (X = x) P (Y = y) P (X = x | Y = y) = ad 2: 0 für x 6= 3 − y 1 für x = 3 − y ad 3: die bedingte Wahrscheinlichkeitsverteilung von X ändert sich für jeden Wert von Y beispielsweise: P (X = x | Y = 0) ergibt sich zu: P (X = x | Y = 1) ergibt sich zu: (0, 321 , 161 , 321 ) P (Y =0)= 18 ( 321 , 81 , 325 , 161 ) P (Y =1)= 38 .. . = 0, 14 , 12 , 14 = 1 1 5 1 12 , 3 , 12 , 6 2 2 Komplizierter ist die Definition einer bedingten Wahrscheinlichkeit im stetigen Fall, da ja die Ereignisse [Y = y] dann die Wahrscheinlichkeit 0 haben. Wir können jedoch folgende bedingte Wahrscheinlichkeiten betrachten: R x R y+∆y f (u, v) du dv −∞ y P (X ≤ x | y ≤ Y ≤ y + ∆y) = R y+∆y fY (v) dv y Sei angenommen, daß der lim P (X ≤ x | y ≤ Y ≤ y + ∆y) existiere, und daß ∆y→0 der Limes und die Integralzeichen vertauschbar seien. (Dies ist etwa der Fall, wenn (X, Y ) nur Werte aus einem abgeschlossenen Rechteck [a, b] × [c, d] annehmen kann.) Dann gilt: R y+∆y f (u, v) dv y F (u, ∆y) := R y+∆y fY (v) dv y ist als stetige Funktion gleichmäßig stetig und konvergiert mit ∆y → 0 gegen ff(u,y) . Y (y) (Dies gilt wegen des Mittelwertsatzes der Integralrechnung, wenn f stetig ist.) Dann erhält man: Zx R y+∆y f (u, v) dv y lim P (X ≤ x | y ≤ Y ≤ y + ∆y) = lim du R y+∆y ∆y→0 ∆y→0 f (v) dv Y y −∞ 2 Man beachte, daß die Summen der einzelnen Wahrscheinlichkeiten (wie z.B.: natürlich gleich 1 sein müssen. 0, 41 , 21 , 1 4 ) 52 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN = = = Zx −∞ Zx −∞ Zx −∞ R y+∆y y lim R y+∆y ∆y→0 f (u, v) dv y fY (v) dv ! du f (u, ỹ)∆y du ˜ ∆y→0 f (ỹ)∆y Y lim f (u, y) du fY (y) (ỹ, ỹ˜ ∈ [y, y + ∆y]) Definition 3.10 fX,Y (x, y) fY (y) fX|Y (x | y) := heißt die durch Y = y bedingte Dichte von X. Klarerweise gilt: f (x, y) = fY (y) · fX|Y (x | y). Beispiel 3.15 Sei (X, Y ) gleichverteilt auf dem Kreis mit dem Radius 1 f (x, y) = 1 π 0 sonst √ 2 Z1−y 1 fY (y) = π √ − für x2 + y 2 ≤ 1 1−y 2 √ 2 1 − x2 fX (x) = π p 2 1 − y2 du = π für − 1 ≤ y ≤ 1 für − 1 ≤ x ≤ 1 f (x, y) 6= fX (x) · fY (y) ⇒ (X, Y ) sind voneinander abhängig. fX|Y (x | y) = 1 2√1−y2 0 für − sonst p 1 − y2 ≤ x ≤ p 1 − y2 i h p p d.h. fX|Y beschreibt eine Gleichverteilung auf − 1 − y 2 , 1 − y 2 . 3.3. TRANSFORMATION VON ZUFALLSVARIABLEN 3.3 53 Transformation von Zufallsvariablen Sei X eine Zufallsvariable mit dem induzierten Raum (Ω′ , S′ , PX ), und sei ϕ eine zweite Abbildung von Ω′ in einen Raum Ω′′ (∈ R) mit ϕ−1 ((a, b]) ∈ S′ (ϕ ist also auch eine Zufallsvariable, die den Bildraum in einen weiteren Bildraum abbildet), so bildet die Zusammensetzung der beiden Funktionen ϕ ◦ X den ursprünglichen Raum Ω in Ω′′ ab. (Auch hier kümmern wir uns nicht um das Problem, welche Funktionen Zufallsvariable sind, da alle für uns wichtigen Funktionen, etwa stetige Funktionen oder monotone Funktionen, Zufallsvariable sind.) Es erhebt sich nun die Frage, welche Verteilung durch ϕ ◦ X induziert wird. Wenn ϕ und X einige verhältnismäßig schwache Bedingungen erfüllen, kann die Frage ziemlich einfach beantwortet werden. Satz 3.9 (Transformationssatz) Sei X eine stetige Zufallsvariable mit der Dichtefunktion f und sei ϕ eine strikt monotone Funktion, die auf dem Wertebereich von X eine stetige, nichtverschwindende Ableitung besitzen möge, dann gibt es zu y = ϕ(x) eine Umkehrabbildung x = Ψ(y) = ϕ−1 (y), und Y = ϕ ◦ X hat dann die folgende Dichte: dΨ(y) fY (y) = f (Ψ(y)) dy Beweis.Falls ϕ monoton nichtfallend ist, gilt FY (y) = P (ϕ ◦ X ≤ y) = P X ≤ ϕ−1 (y) = Für ϕ ց erhält man FY (y) = P (ϕ ◦ X ≤ y) −1 = P X>ϕ = (y) = −1 (y) ϕZ f (u) du = −∞ −∞ +∞ Z Zy ′ f ϕ−1 (v) ϕ−1 (v) dv. f (u) du ϕ−1 (y) −∞ Zy Z −1′ ′ −1 f ϕ−1 (v) ϕ−1 (v) dv. f ϕ (v) ϕ (v) dv = y −∞ ′ (Die letzte Gleichung folgt aus der Substitutionsregel mit v = ϕ(u), du dv = Ψ (v)). Bemerkung.Der obige Transformationssatz gilt auch dann, wenn R in disjunkte Intervalle Ij mit j = 1, . . . , k zerlegt werden kann, auf welchen ϕ strikt monoton ist. Y hat dann die folgende Dichte: k dϕ−1 (v) X j f ϕ−1 fY (v) = j (v) dv j=1 54 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN wobei ϕ−1 j die Umkehrabbildung von ϕ : Ij → R ist. Beispiel 3.16 Sei X vt S−1/2,1/2 , y = ϕ(x) = x2 , I1 = [0, ∞), I2 = (−∞, 0) x = Ψ1 (y) = √ y √ x = Ψ2 (y) = − y fY (y) = dΨ1 dy = dΨ2 dy 1 = − 2√ y 1 √ 2 y √ √ 1 1 − + 2 y 2 y = 0 √1 y ⇒ für 0 ≤ y ≤ 1 4 sonst Bemerkung.Der Transformationssatz kann auch auf mehrdimensionale Zufallsvariable ausgedehnt werden. Wir führen diese Erweiterung ohne Beweis an. Satz 3.10 (k-dimensionaler Transformationssatz) ~ = (X1 , . . . , Xk ) ein k-dimensionaler stetiger Zufallsvektor mit der Dichte Sei X f (x1 , . . . , xk ) und A eine offene Teilmenge von Rk , in der die yi = ϕi (x1 , . . . , xk ) eindeutig bestimmte Umkehrfunktionen xi = ϕ−1 i (y1 , . . . , yk ) mit i = 1, . . . , k besitzen mögen. Weiters seien die ϕi auf A stetig differenzierbar und die Jacobische Determinante −1 ∂ϕ |J| := i ∂yj ~ = möge überall in A von 0 verschieden sein, dann ist Y Zufallsvektor mit der Dichte y ) |J| y ), . . . , ϕ−1 fY~ (y1 , . . . , yk ) = f ϕ−1 1 (~ k (~ ~ . . . , ϕ (X) ~ ϕ1 (X), ein k ∀~y = (y1 , . . . , yk ) : ∃~x = (x1 , . . . , xk ) : ~y = (ϕ1 (~x), . . . , ϕk (~x)) , ~x ∈ A Beispiel 3.17 (Faltung) Seien X1 , X2 unabhängige Zufallsvariable mit den Dichten fX1 und fX2 . Man bestimme die Verteilung der Summe Y1 = X1 + X2 . y1 = ϕ1 (x1 , x2 ) = x1 + x2 y2 = ϕ2 (x1 , x2 ) = x2 1 −1 =1 |J| = 0 1 x = Ψ1 (y1 , y2 ) = y1 − y2 ⇒ 1 x2 = Ψ2 (y2 ) = y2 ⇒ 3.3. TRANSFORMATION VON ZUFALLSVARIABLEN Y = (ϕ1 (X1 , X2 ), ϕ2 (X1 , X2 )) ; 55 Y1 = ϕ1 (X1 , X2 ) = X1 + X2 , Y2 = ϕ2 (X1 , X2 ) = X2 fY (y1 , y2 ) = fX1 (y1 − y2 ) · fX2 (y2 ) · 1 ⇒ R R fY1 (y1 ) = fY (y1 , y2 ) dy2 = fX1 (y1 − y2 ) · fX2 (y2 ) dy2 . Man nennt fY1 die Faltung der Dichten fX1 und fX2 und schreibt dafür oft auch f X1 ∗ f X2 . Im folgenden Beispiel wird ein für die Praxis wichtiges Problem behandelt, nämlich die Erzeugung von Zufallszahlen, die einer bestimmten Verteilung genügen, durch geeignete Transformation von gleichverteilten Zufallszahlen. Beispiel 3.18 Auf einem Computer sei eine Prozedur RANDOM implementiert, die auf [0, 1] gleichverteilte Zufallszahlen erzeugt. Um die Lebensdauer einer Maschine zu simulieren, benötigt man aber Zufallszahlen, die Eλ -verteilt sind. Kann man sich mit Hilfe der gleichverteilten Zufallszahlen auch exponentialverteilte Zufallszahlen generieren? Sei X die durch RANDOM erzeugte Zufallszahl. Da X vt S[0,1] und F (x) := 1 − e−λx ∈ [0, 1) ∀x ≥ 0, gilt: P (X ≤ F (x)) = F (x) Nun ist die Aussage X ≤ F (x) äquivalent zu F −1 (X) ≤ x (da F streng monoton wächst, gibt es eine Umkehrabbildung F −1 : [0, 1) → [0, ∞)). Somit gilt: P (F −1 ◦ X ≤ x) = F (x) d.h.: F −1 ◦ X ist vt Eλ . Wegen y = F (x) = 1 − e−λx gilt: x = F −1 (y) = − ln(1 − y) . λ Somit ist ln(1 − X) λ vt Eλ , wenn X vt S[0,1) . Dies bedeutet F −1 ◦ X ist eine Transformation von X, die Eλ verteilt ist. Y := − Umgekehrt können aus Zufallszahlen, welche gemäß einer Verteilung mit Verteilungsfunktion F gebildet wurden, gleichverteilte Zufallszahlen erzeugt werden. 56 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Beispiel 3.19 Sei X eine Zufallsvariable mit Verteilungsfunktion F , und sei F stetig und streng monoton, sodaß die Umkehrabbildung F −1 existiere. Dann ist F ◦ X eine Transformation von X, welche wegen 0 ≤ F ≤ 1 in [0, 1] abbildet. FF ◦X (x) = P (F ◦ X ≤ x) = P (X ≤ F −1 (x)). Da X vt mit Verteilungfunktion F ist, gilt P (X ≤ a) = F (a). Mit a = F −1 (x) erhält man daraus P (X ≤ F −1 (x)) = F (F −1 (x)) = x. Somit P (a ≤ F ◦ X ≤ b) = b − a ∀0 ≤ a, b ≤ 1. Also ist F ◦ X vt S[0,1] . 3.4 Die Faltung Bereits im vorigen Kapitel wurde die Dichte der Summe von zwei ua stetigen Zufallsvariablen bestimmt. Diese Dichte kann auch durch die folgenden Überlegungen hergeleitet werden: Seien X, Y stetig: sei fϕ,Y die Dichte von (ϕ, Y ) mit ϕ := X + Y – dann gilt: Z fϕ (z) = fϕ|Y (z | v)fY (v)dv. Da ϕ = z unter der Bedingung, daß Y = v, genau dann gilt, wenn X = z − v, muß ϕ unter der Bedingung Y = v verteilt sein wie X + v. Daher müssen die bedingten Dichten von ϕ und X + v unter der Bedingung Y = v übereinstimmen, also fϕ|Y (z | v) = fX+v|Y (z | v) Nun sind aber X und Y und damit auch X + v und Y unabhängig voneinander. Somit gilt: fX+v|Y (z | v) = fX+v (z) Wegen P (X + v ≤ z) = P (X ≤ z − v) muß auch gelten fX+v (z) = fX (z − v) ∀z ∈ R 57 3.4. DIE FALTUNG Setzt man in die Gleichung für fϕ (z) ein, so erhält man: Z fϕ (z) = fX (z − v)fY (v) dv Seien (X, Y ) nun zwei unabhängige, diskrete Zufallsvariable. In diesem Fall ist die Verteilung von ϕ leicht zu bestimmen: Sei Ω′X ∪ Ω′Y := {z1 , . . . , zk }. Aus dem Satz über die vollständige Wahrscheinlichkeit folgt: P (ϕ = z) = = k X i=1 k X i=1 P (Y = zi )P (X = z − zi | Y = zi ) P (X = z − zi )P (Y = zi ) (def.: P (X = x | Y = z) · P (Y = z) = 0, wenn P (Y = z) = 0) Beispiel 3.20 X sei Bn,p -verteilt und Y sei Ap -verteilt; X und Y seien unabhängig. Gesucht ist die Verteilung von ϕ = X +Y . Da X als Anzahl der “Erfolge” im Verlauf von n unabhängigen Versuchen und Y als “Erfolg” oder “Mißerfolg” im n + 1-ten Versuch gedeutet werden kann, so kann ϕ als die Anzahl der “Erfolge” in n + 1 unabhängigen Versuchen angesehen werden. Man wird daher erwarten, daß ϕ vt Bn+1,p . Tatsächlich gilt: P (ϕ = k) = P (Y = 0)P (X = k) + P (Y = 1)P (X = k − 1) n k n n+1−k = p (1 − p) + pk (1 − p)n−(k−1) k k−1 n+1 k = p (1 − p)n+1−k k Beispiel 3.21 Sei X vt Bm,p , Y vt Bn,p . Gesucht ist die Verteilung von ϕ = X + Y , wenn X und Y unabhängig sind. Auf Grund des obigen Beispiels wird man erwarten, daß ϕ Bm+n,p -verteilt ist. Tatsächlich gilt: X m i n m−i P (X + Y = k) = p (1 − p) pk−i (1 − p)n−k+i i k−i 0≤i≤min{k,m} X m n k n+m−k = p (1 − p) . i k−i 0≤i≤min{k,m} Wegen (1 + x)m (1 + x)n = (1 + x)m+n 58 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN und unter Zuhilfenahme des Binomischen Lehrsatzes erhält man: ! n m+n m X m i X n j X m + n k x x = x i j k i=0 j=0 k=0 Die linke Seite stimmt überein mit: min{k,m} m+n X X m n xk i k−i k=0 i=0 ein Koeffizientenvergleich ergibt: min{k,m} X m n m+n = . i k−i k i=0 Damit erhält man: P (X + Y = k) = m+n k p (1 − p)m+n−k k Einfacher läßt sich die Verteilung von X + Y jedoch durch folgende Überlegung bestimmen: Jede binomialverteilte Zufallsvariable ist – wie schon früher erwähnt – die Summe P von ua alternativverteilten Zufallsvariablen, d.h. Y = m i=1 Yi mit Yi vt Ap ∀i und Pm−1 die Yi sind ua, somit ist Ỹ := i=1 Yi vt Bm−1,p . Angenommen wir wissen bereits, daß für X vt Bn,p , Y vt Bk,p mit k ≤ m − 1, X, Y ua gilt X + Y vt Bn+k,p , dann kann mit vollständiger Induktion gezeigt werden, daß stets gilt X + Y vt Bn+m,p ∀n, m ∈ N. Es gilt nämlich X +Y =X + m−1 X Yi + Ym = (X + Ỹ ) + Ym . i=1 Nun gilt nach Induktionsannahme X + Ỹ vt Bn+m−1,p , Ym vt Ap , X + Ỹ und Ym sind ua. Daraus folgt (X + Ỹ ) + Ym vt Bm+n,p . Beispiel 3.22 X, Y seien S(0,1) -verteilt und unabhängig. Wie ist ϕ = X + Y verteilt? (siehe Abb. 3.3). Klarerweise gilt: fϕ (z) = 0 für z 6∈ (0, 2). 1 für 0 ≤ z − y ≤ 1 fX (z − y) = 0 sonst ⇒ 1 für 0 ≤ y ≤ 1 fY (y) = 0 sonst 59 3.4. DIE FALTUNG f (ϕ) 1 0 1 2 z Abbildung 3.3: fX (z − y)fY (y) = fϕ (z) = Rz 1dy 0 1 für max{0, z − 1} ≤ y ≤ min{1, z} 0 sonst für 0 ≤ z ≤ 1 R1 1dy für 1 ≤ z ≤ 2 z−1 0 z fϕ (z) = 2 −z 0 für für für für z≤0 0<z≤1 1<z≤2 z>2 ⇒ ⇒ 60 KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN Kapitel 4 Erwartungswert und andere Lageparameter 4.1 Erwartungswert einer diskreten Zufallsvariablen Wir beginnen mit einem Beispiel. Beispiel 4.1 Eine Urne enthalte 30 Lose, davon seien 20 leer, auf 4 Losen stehe die Zahl 2, auf 3 Losen die Zahl 3, auf 2 Losen die Zahl 4 und auf einem Los stehe 5. Für einen bestimmten Einsatz darf ein Spieler ein Los ziehen. Die Zahl, die auf dem gezogenen Los steht, wird als Gewinn ausbezahlt. Nach jeder Ziehung wird das ausgewählte Los durch ein gleichartiges ersetzt und die Urne neu gemischt. Eine Computersimulation mit 100 Ziehungen ergab die in der folgenden Tabelle stehenden Häufigkeiten. Tabelle 4.1: Losnummer: Häufigkeit: 5 5 4 7 3 12 2 16 0 60 Die Bank hätte daher bei diesen 100 Ziehungen im Schnitt pro Spiel folgenden Betrag ausbezahlen müssen. 5 7 12 16 5· +4· +3· +2· = 1.21 S 100 100 100 100 Konnte mit einem derartigen Ergebnis gerechnet werden? – Man wird intuitiv annehmen, daß sich bei vielen Versuchsdurchführungen die relativen Häufigkeiten der einzelnen Versuchsausgänge an die theoretischen Wahrscheinlichkeiten annähern. Diese Wahrscheinlichkeiten sind in unserem Beispiel gegeben durch: 61 62 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER Tabelle 4.2: Losnummer: Häufigkeit: 5· 5 4 3 2 0 1 30 1 15 1 10 2 15 2 3 1 1 1 2 +4· +3· +2· =1S 30 15 10 15 Daher wird man “erwarten”, daß ein Gewinn von S 1 im Durchschnitt pro Spiel auszubezahlen sein wird. Eine Computersimulation mit 1000 Ziehungen hat beispielsweise folgendes Ergebnis erbracht (siehe Tabelle 4.3): Tabelle 4.3: Losnummer: Häufigkeit: 5 30 4 75 3 98 2 140 0 657 Dies ergibt einen durchschnittlichen Gewinn von S 1,024 pro Spiel. Wir definieren daher: Definition 4.1 Ist X eine nichtnegative diskrete Zufallsvariable mit den möglichen Werten Ω′ = {xn , n ∈ N}, und ist die Wahrscheinlichkeit PX von X festgelegt durch: PX (xn ) = pn , P so bezeichnet man die Summe ∞ n=1 xn pn als den Erwartungswert (Mittelwert) von P∞ X (im Zeichen EX := n=1 xn pn ). Diese Summe kann auch ∞ sein. Ist X eine beliebige diskrete Zufallsvariable, so betrachtet man die Summen: X S+ = xn p n xn ≥0 und S− = X (−xn )pn xn <0 und man definiert den Erwartungswert von X als EX = S+ − S− , wenn zumindest eine dieser Summen endlich ist. Man sagt der Erwartungswert von X existiert nicht, wenn sowohl S+ als auch S− unendlich ist. 4.1. ERWARTUNGSWERT EINER DISKRETEN ZUFALLSVARIABLEN 63 Beispiel 4.2 Sei X vt Ap : Dann gilt PX (1) = 1 − PX (0) = p. Daher: EX = 1 · p + 0 · (1 − p) = p Beispiel 4.3 Sei X vt Gp mit 0 < p < 1; q := 1 − p EX = ∞ X ipq i−1 =p· i=1 = p· ∞ X q i=0 i !′ ∞ X iq i−1 i=1 =p· 1 1−q ′ =p· 1 1 = (1 − q)2 p Für p = 1/2 gilt also EX = 2. Die folgenden bekannten Beispiele zeigen, daß man die Rahmenbedingungen eines Versuchs (etwa eines Gücksspiels) sehr kritisch betrachten sollte, bevor Entscheidungen auf der Grundlage des Erwartungswertes getroffen werden. Beispiel 4.4 (Petersburger Paradoxon) Eine Münze wird sooft geworfen, bis sie erstmals auf “Kopf” fällt. Der Spieler bekommt 2n S , wenn dies beim n-ten Wurf der Fall ist. Wie groß ist der durchschnittliche Gewinn pro Spiel? Sei X der Gewinn des Spielers, dann gilt: EX = ∞ X 2n n=1 2n =∞ Ist dieses Spiel tatsächlich jeden beliebig hohen Einsatz wert? Wie groß ist der durchschnittliche Gewinn pro Spiel, wenn pro Spiel höchstens 2N S ausbezahlt werden? In diesem Fall gilt: EX = N X 2n n=1 2n N +2 1 2N +1 + 1 2N +2 + ··· =N +1 Das bedeutet z.B., daß das Spiel nur 33 S wert ist, wenn die “Bank” maximal 4.294.967.296 Schilling ausbezahlen würde. Beispiel 4.5 (Verdoppelungsstrategie) Eine Münze wird geworfen – fällt sie auf “Kopf”, so bekommt der Spieler das Doppelte seines Einsatzes, fällt sie auf “Adler”, so geht der Einsatz verloren. Ein Spieler beschließt nun solange zu spielen, bis er das erste Mal gewinnt, und dabei von Spiel zu Spiel seinen Einsatz jeweils zu verdoppeln. Ist diese Strategie zweckmäßig? Sei X der Nettogewinn unseres Spielers. Beginnt er mit einem Einsatz von 1 S 64 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER beim ersten Spiel, und gewinnt er erstmals beim n-ten Spiel, so hat er insgesamt 1 + 2 + 4 + .... + 2n−1 = 2n − 1 Schilling eingesetzt und bekommt 2n ausbezahlt. Der Nettogewinn ist daher stets 2n − (2n − 1) = 1. Daher gilt: EX = ∞ X 1 =1 2n n=1 Es scheint also sinnvoll zu sein, der obigen Strategie zu folgen, wenngleich der Nettogewinn bescheiden ist. Wie aber sieht die Situation aus, wenn der Spieler maximal 2N S verspielen kann? Dann gilt ! N −1 ∞ X X 1 1 EX = + · −1 − 2 · · · − 2N −1 n N +i 2 2 n=1 i=0 1 − 2N = −1 2N −1 2N −1 Unter der realistischen Annahme beschränkter Mittel kann man also auf Dauer nur verlieren. = 1− 1 + Häufig interessiert man sich nicht für den Erwartungswert einer Zufallsvariablen, sondern für den Erwartungswert einer Transformation dieser Zufallsvariablen. Bezeichnet etwa X die Losnummer in Beispiel 4.1, und bekommt der Spieler das 10-fache dieser Nummer bei einem Einsatz von 15 S pro Spiel, so wird ihn der Erwartungswert seines Nettogewinns (-verlustes) Y = ϕ(X) = 10X − 15 interessieren. ~ = (X , . . . , X ) ein diskreter Zufallsvektor und ϕ : Rk → R eine FunkIst etwa X 1 k tion, die höchstens abzählbar viele Werte {yn ; n ∈ N} annehmen kann, so ist ϕ(X1 , . . . , Xk ) eine diskrete Zufallsvariable. Aufgrund der Definition für den Erwartungswert gilt daher: X Eϕ(X1 , . . . , Xk ) = yn · P (ϕ(X1 , . . . , Xk ) = yn ) N = = X yn X PX1 ,...,Xk (x1 , . . . , xk ) n x1 ,...,xk :ϕ(x1 ,...,xk )=yn X ϕ(x1 , . . . , xk ) · P ((X1 , . . . , Xk ) = (x1 , . . . , xk )) , x1 ,...,xk sofern diese Summe wohldefiniert ist. In Beispiel 4.1 erhält man dann: EY = 35 1 1 2 2 + 25 · + 15 · +5· − 15 · = −5 S 30 15 10 15 3 ~ oder Der Erwartungswert kann also entweder mit Hilfe der Verteilung von ϕ ◦ X ~ selbst berechnet werden. Damit können einige wichtige Eigenschaften des von X Erwartungswertes hergeleitet werden. 4.2. ALLGEMEINE DEFINITION DES ERWARTUNGSWERTES 65 1. Falls ϕ ◦ X = c konstant ist, so gilt Eϕ ◦ X = Ec = cP ({ω : ϕ ◦ X(ω) = c}) = cP (Ω) = c 2. Homogenität: EαX = X αxn pn = α X xn pn = αEX 3. Additivität: Von besonderem Interesse ist der Fall ϕ(X1 , X2 ) = X1 + X2 . Sei X1 eine Zufallsvariable mit den möglichen Werten {xn : n ∈ N} und X2 die Zufallsvariable mit dem Wertebereich {ym : m ∈ N}. E(X1 + X2 ) = X n,m = X n + (xn + ym ) · P (X1 = xn , X2 = ym ) xn · X m = X n X P (X1 = xn , X2 = ym ) m ym · X P (X1 = xn , X2 = ym ) n xn · P (X1 = xn ) + = EX1 + EX2 X m ym · P (X2 = ym ) Man beachte, daß diese Gleichung sowohl für unabhängige als auch für abhängige Zufallsvariable gilt. So ist etwa leicht zu sehen, daß im Beispiel 3.10 des Kapitels 3 stets gilt: E(X + Y ) = 3, obwohl die gemeinsame Verteilung von X und Y in allen 3 Modifikationen anders aussieht. 4. Monotonie: X1 ≤ X2 ⇒ EX1 ≤ EX2 (X1 , X2 . . . diskret) (der Beweis hierzu ist trivial) Daraus folgt wegen −|X| ≤ X ≤ |X| auch −E|X| ≤ EX ≤ E|X| und damit |EX| ≤ E|X| 4.2 Allgemeine Definition des Erwartungswertes Es erhebt sich als nächstes die Frage, ob der Begriff des Erwartungswerts auch für beliebige Zufallsvariable sinnvoll definiert werden kann – dazu ein Beispiel: 66 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER Beispiel 4.6 Ein Zufallszahlengenerator X erzeuge auf [0, 1] stetig gleichverteilte Zufallszahlen. Sei weiters angenommen, daß nur Zahlen x, y unterschieden werden können mit |x − y| ≥ n1 , und sei weiters angenommen, daß X durch ni approximiert wird, wenn ni ≤ X < i+1 n . Dann erhält man anstelle von X eine diskrete Zufallsvariable Xn mit: EXn = n−1 n−1 X i 1 n2 − n 1 X 1 1 i= · = 2 = − 2 n n n 2n 2 2n i=0 i=0 Mit zunehmender Genauigkeit (d.h. n → ∞) konvergieren diese Erwartungswerte gegen 21 . Es wird daher sinnvoll sein, 21 als Erwartungswert von X anzusehen. Allgemein kann man so vorgehen: Ist X eine nichtnegative Zufallsvariable, so bildet man eine Folge diskreter Zufallsvariabler Xn durch i−1 i i−1 , für ≤X< . n n n Xn := Xn kann auch folgendermaßen angeschrieben werden: Xn = Xi−1 i∈N n 1[X∈ [ i−1 , i ) ] n 1 n Klarerweise gilt |Xn − X| < 1/n. Diese diskreten Zufallsvariablen Xn sind klarerweise nichtnegativ und besitzen daher einen Erwartungswert EXn . Wenn EXn = ∞ ∀n ∈ N, so wird man EX durch EX = ∞ festsetzen. Gilt hingegen für ein n ∈ N EXn < ∞, so folgt aus |Xm − Xn | ≤ |Xm − X| + |X − Xn | ≤ 1 1 + n m und wegen EXm = E|Xm − Xn + Xn | ≤ E(|Xm − Xn | + |Xn |) = E|Xm − Xn | + E|Xn |, daß auch gilt: EXm < ∞ ∀m ∈ N. Weiters gilt: |EXm − EXn | ≤ E|Xm − Xn | ≤ 1 1A ist die Indikatorfunktion von A, d.h. 0 für ω 6∈ A 1A (ω) = 1 für ω ∈ A 1 1 + n m 4.2. ALLGEMEINE DEFINITION DES ERWARTUNGSWERTES 67 Die EXn bilden also eine Cauchyfolge, und deshalb existiert der Grenzwert EX := lim EXn , den man Erwartungswert von X nennt. n Ist X eine beliebige Zufallsvariable, so bildet man X + := max{X, 0} und X − := − min{X, 0}. Man nennt X + den Positivteil von X, X − heißt Negativteil. X + und X − sind nichtnegative Zufallsvariable, deren Erwartungswerte gebildet werden können. Wenn EX + = EX − = ∞ ist, so sagt man: der Erwartungswert von X existiert nicht – ansonsten bezeichnet man EX = EX + − EX − als den Erwartungswert von X. Wir fassen die obige Diskussion zusammen und definieren: Definition 4.2 Ist X eine nichtnegative Zufallsvariable und ist der Erwartungswert aller Diskretisierungen Xn von X unendlich, so definiert man EX = ∞. Falls aber mindestens eine Diskretisierung Xn einen endlichen Erwartungswert hat, so existiert der Grenzwert limn EXn und man definiert EX := lim EXn . n Ist X eine beliebige Zufallsvariable, so definiert man EX := EX + − EX − , wenn min{EX + , EX − } < ∞. Ansonsten sagt man: der Erwartungswert von X existiert nicht. Da die Eigenschaften 1)–4) bei der Limesbildung erhalten bleiben, können wir folgenden Satz formulieren: Satz 4.1 (Eigenschaften des Erwartungswerts) 1. Homogenität: Ist X eine Zufallsvariable und α ∈ R, so gilt EαX = αEX. 2. Additivität: Sind X, Y Zufallsvariable, so gilt E(X + Y ) = EX + EY . 3. Monotonie: X ≤ Y ⇒ EX ≤ EY 4. |EX| ≤ E|X| Bemerkung.Bei den Gleichungen und Ungleichungen des obigen Satzes wird immer vorausgesetzt, daß die entsprechenden Erwartungswerte existieren und die Summen wohldefiniert sind. Der obige Grenzübergang wird in der Praxis im allgemeinen nur schwer nachzuvollziehen sein. Ist X aber stetig, so kann man EX durch eine einfache Formel berechnen: 68 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER Sei f die Dichte von X, dann gilt: EX + = lim EXn+ n = lim n ∞ X i−1 n i=2 = lim n P i Zn ∞ X i−1 f (u) du n i=2 i−1 i ≤X< n n i−1 n Aufgrund des Mittelwertsatzes der Integralrechnung gilt: i Zn f (ũi ) f (u) du = n i−1 i mit ũi ∈ , n n i−1 n Wir erhalten daher: EX + = lim n ∞ X i − 1 f (ũi ) n n mit ũi ∈ i=2 i−1 i , n n Obiger Grenzwert ist aber nichts anderes als das Integral Z∞ xf (x) dx. 0 Analog zeigt man EX − = Z0 (−x)f (x) dx. −∞ Wenn eines der beiden Integrale endlich ist, dann gilt: + − EX = EX − EX = Z∞ xf (x) dx. −∞ Beispiel 4.7 Sei X vt S(a,b) . Dann gilt EX = EX = Zb a x dx = b−a b+a 2 b2 − a 2 b+a = 2(b − a) 2 69 4.2. ALLGEMEINE DEFINITION DES ERWARTUNGSWERTES Beispiel 4.8 Sei X vt Eλ . Dann gilt 1 λ EX = EX = Z∞ 1 λ λxe−λx dx = Z∞ ye−y dy = 0 0 1 −ye−y |∞ 0 + λ Z∞ 0 e−y dy = 1 λ ~ = (X , . . . , X ) ein stetiger Zufallsvektor mit der Dichte f ~ (x , . . . , x ), so Ist X k 1 k X 1 kann man analog zur obigen Formel zeigen, daß gilt Eϕ(X1 , . . . , Xk ) = Z∞ −∞ ··· Z∞ −∞ ϕ(x1 , . . . , xk )fX~ (x1 , . . . , xk ) dx1 · · · dxk Für k = 1 ergibt das Eϕ ◦ X = Z∞ ϕ(x)f (x) dx −∞ Wenn ϕ strikt monoton mit nichtverschwindender Ableitung ist, so kann man y = ϕ(x) substituieren, und man erhält: Eϕ ◦ X = Z∞ −1 yf ϕ −∞ Z∞ dϕ−1 (y) (y) yfϕ◦X (y) dy dy = dy −∞ Beispiel 4.9 X sei Eλ -verteilt mit λ > 1; y = ϕ(x) = ex ; Eϕ ◦ X =? R∞ Eϕ ◦ X = ex λe−λx dx = 0 R∞ λe−(λ−1)x dx = 0 λ λ−1 R∞ (λ − 1)e−(λ−1)x dx = 0 Eϕ ◦ X kann aber auch so berechnet werden: fϕ◦X (y) = Eϕ ◦ X = λe−λ ln y = λy −λ−1 y Z∞ 1 λyy −λ−1 dy = Z∞ 1 ∀1 ≤ y < ∞ λy −λ ∞ λ λy −λ+1 = dy = −λ + 1 1 λ−1 λ λ−1 70 4.3 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER Weitere Eigenschaften des Erwartungswertes Durch vollständige Induktion kann die Additivität des Erwartungswertes auf n Summanden ausgedehnt werden. Satz 4.2 Falls alle Erwartungswerte der Zufallsvariablen X1 , . . . , Xn und P existieren und falls die Summe ni=1 EXi wohldefiniert ist, so gilt Pn i=1 Xi E(X1 + · · · + Xn ) = EX1 + EX2 + · · · + EXn Damit kann auf sehr einfache Weise der Erwartungswert einer binomialverteilten Zufallsvariablen bestimmt werden. Beispiel 4.10 Sind X1 , . . . , Xn unabhängige identisch nach Ap verteilte Zufallsvarian P ble, so wissen wir bereits, daß X := Xi nach Bn,p verteilt ist. i=1 EX = E n X i=1 Xi = n X EXi = np i=1 Aus der Additivität des Erwartungswertes folgt auch die nächste Aussage: Satz 4.3 Ist X eine Zufallsvariable mit endlichem Erwartungswert µ = EX, so gilt: E|X − µ|1[X≤µ] = E|X − µ|1[X≥µ] Beweis. X = X1[X<µ] + X1[X≥µ] ⇒ µ = EX = EX1[X<µ] + EX1[X≥µ] ⇒ µ [P (X < µ) + P (X ≥ µ)] = EX1[X<µ] + EX1[X≥µ] ⇒ µP (X < µ) − EX1[X<µ] = EX1[X≥µ] − µP (X ≥ µ) ⇒ E(µ − X)1[X<µ] = E(X − µ)1[X≥µ] ⇒ E|X − µ|1[X<µ] = E|X − µ|1[X≥µ] ⇒ E|X − µ|1[X≤µ] = E|X − µ|1[X≥µ] Bemerkung.Ist X stetig mit der Dichte f , so reduziert sich obige Gleichung auf: Zµ −∞ |x − µ|f (x) dx = Z∞ µ |x − µ|f (x) dx. 71 4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES Ist X diskret und nimmt es die Werte {xn , n ∈ N} mit den Wahrscheinlichkeiten P (X = xn ) = pn an, so erhält man: X X |xn − µ| pn = |xn − µ| pn xn ≤µ xn ≥µ Das heißt: die gewichtete Summe der Abstände der Werte, die links von µ liegen, ist gleich der Summe der Abstände rechts von µ. Dazu ein Beispiel: Beispiel 4.11 An einer Straße stehen 9 Häuser. Die Anzahl der Bewohner und die Lage der Häuser ist der Skizze 4.1 zu entnehmen. In der Straße soll eine Bushal1 0 2 10 20 3 3 2 40 50 60 2 110 5 1 2 130 140 150 ✲ m Abbildung 4.1: testelle so errichtet werden, daß die Bewohner, die links der Haltestelle wohnen, in Summe eine genauso lange Wegstrecke zur Haltestelle haben, wie die Bewohner rechts der Haltestelle. Alle Bewohner benutzen den Bus etwa gleich häufig. Wo ist die Haltestelle zu errichten? Lösung: Bezeichnet X den Ausgangspunkt eines Straßenanrainers, so nimmt X die Werte Xi = 10, 20, 40, 50, 60, 110, 130, 140 und 150 mit den Wahrscheinlichkeiten pi = 1/21, 2/21, 3/21, 3/21, 2/21, 2/21, 5/21, 1/21, 2/21 an. Die Haltestelle soll an einer Stelle µ errichtet werden, für welche gilt: X X |xi − µ|pi = |xi − µ|pi xi ≤µ xi ≥µ Bildet man den Erwartungswert von X, so erhält man: µ = EX 10 + 2 · 20 + 3 · 40 + 3 · 50 + 2 · 60 + 2 · 110 + 5 · 130 + 140 + 2 · 150 = 21 1750 = 83.3̇ = 21 Manchmal kann die Linearität des Erwartungswertes dazu verwendet werden, das Mittel einer Zufallsvariablen zu bestimmen, ohne deren Verteilung zu kennen. Dazu ein Beispiel: Beispiel 4.12 Eine Urne enthält 8 schwarze und 2 weiße Kugeln. Ein Spieler A zieht solange ohne Zurücklegen, bis er eine weiße Kugel erwischt. Danach zieht Spieler B ebenfalls, bis er eine weiße Kugel erhält. Jeder Spieler hat seinem Gegner für jede 72 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER Ziehung, die er benötigt, 1 S zu bezahlen. Ist das Spiel fair? Sei X1 (X2 ) die Anzahl der von Spieler A (B) benötigten Ziehungen. Y sei die Anzahl der in der Urne verbleibenden Kugeln. Dann gilt mit X3 := Y + 1: X1 + X2 + Y = 10 ⇒ E(X1 + X2 + X3 ) = EX1 + EX2 + EX3 = 11 Die Zufallsvariablen X1 , X2 , X3 haben alle die gleiche Verteilung. Das sieht man so: Man ordne die Kugeln in der Reihenfolge der Ziehungen kreisförmig im Uhrzeigersinn an (siehe Abb. 4.2). Um den Beginn der Ziehungen zu kennzeichnen, setze man eine besonders gekennzeichnete zusätzliche Kugel – etwa eine durch ein Kreuz gekennzeichnete Kugel – zwischen die erste und die letzte Kugel. Man sieht sofort, daß X1 zu X3 wird, wenn man die markierte und die im Uhrzeigersinn erste weiße Kugel vertauscht. X2 wird dann zu X1 und X3 zu X2 . Da alle Anordnungen der Kugeln am Kreis gleichwahrscheinlich sind, ändert eine derartige Vertauschung nichts an den Verteilungen der Xi . Daher muß X3 wie X1 und X1 wie X2 verteilt sein. ⑤ ⑤ ⑤ ❧ ⑤ ✎☞ ✍✌⑦ ❩ ⑦ ❩ ⑤ ⑤ ❧ ⑤ ❧ Abbildung 4.2: Daraus folgt: 11 = X1 + X2 + X3 = E(X1 + X2 + X3 ) = EX1 + EX2 + EX3 = 3EX1 ⇒ 11 EX1 = EX2 = 3 Beispiel 4.13 Sei X1 , X2 , . . . eine Folge unabhängiger identisch nach Ap verteilter Zufallsvariabler mit P (Xi = 1) = 1 − P (Xi = 0) = p. Q Sei λk := max{i : ij=0 Xk+j = 1}, d.h. λk ist die Länge einer Serie von Versuchen, die von k beginnend alle auf 1 enden. Gesucht ist Eλk . Sei ϕ1 = Xk ϕ2 = Xk Xk+1 4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES 73 .. . ϕi = Xk Xk+1 · · · Xk+i−1 Somit gilt ϕi = 1 ⇔ Xk = Xk+1 = · · · = Xk+i−1 = 1 und λk = ϕ1 + ϕ2 + · · · = P Eϕn Eλk = P N ϕn ⇒ N Aus P (ϕn = 1) = P (Xk = Xk+1 = · · · = Xk+n−1 = 1) = pn folgt: Eϕn = pn Dies wiederum impliziert: X p pn = Eλk = 1−p N Sei nun λ die Länge einer ununterbrochenen Serie von Einsen. Gesucht ist Eλ. Eine Serie beginnt irgendwo mit einem Versuch, der auf 1 endet. Sei daher ϕ̄0 = 1. Setze nun ϕ̄1 = 1 genau dann, wenn auch der folgende Versuch auf 1 endet, ϕ̄2 = 1, wenn die beiden folgenden Versuche auf 1 enden, usw. Daraus folgt sofort: P (ϕ̄n = 1) = pn ⇒ Eϕ̄n = pn Wegen λ = ϕ̄0 + ϕ̄1 + ϕ̄2 + · · · = 1 + X ϕ̄n N gilt: Eλ = 1 + X pn = 1 1−p Das folgende Beispiel ist eine stetige Version von Beispiel 4.12: Beispiel 4.14 Seien X1 , . . . , Xn n unabhängige nach S0,1 identisch verteilte Zufallsvariable. Ordnet man die X1 , . . . , Xn nach wachsender Größe, so erhält man eine Permutation X(1) , . . . , X(n) der ursprünglichen Folge. (X(1) = min Xi , X(2) 1≤i≤n das 2-kleinste Xi , etc. ) X(i) nennt man die i-te Ordnungsstatistik. Gesucht sei: 74 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER EX(i) mit i = 1, . . . , n. Wir betrachten zunächst die Differenzen: Y1 := X(1) − 0; Y2 := X(2) − X(1) ; . . . ; Yn := X(n) − X(n−1) ; Yn+1 := 1 − X(n) Offensichtlich gilt also: n+1 X Yi = 1 i=1 Daraus folgt: 1=E n+1 X Yi = n+1 X EYi i=1 i=1 Kann man nun zeigen, daß alle Yi der gleichen Verteilung genügen, so folgt daraus: EY1 = EYi = 1 n+1 ∀i = 1, . . . , n + 1 Dann müßte aber auch gelten: EX(i) = E i X Yj = i X j=1 j=1 EYj = i n+1 Um zu zeigen, daß alle Yi identisch verteilt sind, denke man sich das Intervall zu einem Kreis vom Umfang 1 gebogen. Auf dem Kreis wählen wir zufällig einen Punkt x0 als Ausgangspunkt aus. Danach wählen wir n Punkte x1 , x2 , . . . , xn . Ordnet man nun die Punkte von x0 weg im Uhrzeigersinn, so erhält man die Folge x(0) , x(1) , . . . , x(n) . Da die Punkte x0 , x1 , . . . , xn voneinander unabhängig und identisch verteilt sind, müssen auch die Längen der Kreisbögen zwischen benachbarten Punkten x(i) −x(i−1) identisch verteilt sein. Diese Differenzen entsprechen aber genau den Yi . Damit ist der Beweis fertig. Man beachte aber, daß folgendes gilt: EXi = Z1 0 x dx = 1 2 ∀i = 1, . . . , n Definition 4.3 Eine Zufallsvariable heißt symmetrisch um das Zentrum a verteilt, wenn gilt: P (X ≤ a − x) = P (X ≥ a + x) ∀x ∈ R 4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES 75 Äquivalent zu obiger Definition ist die Bedingung: F (a − x) = 1 − F (a + x − 0) ∀x ∈ R Dies kann durch: f (a − x) = −F ′ (a − x) = f (a + x) = (F (a + x) − 1)′ ∀x ∈ R ersetzt werden, wenn X stetig mit der Dichte f verteilt ist. Eine diskrete Zufallsvariable ist klarerweise genau dann symmetrisch um a verteilt, wenn P (X = a − x) = P (X = a + x) ∀x ∈ R gilt. Für symmetrische Zufallsvariable gilt folgender Satz: Satz 4.4 Ist X eine um a ∈ R symmetrisch verteilte Zufallsvariable, deren Erwartungswert endlich ist, so gilt: EX = a Beweis.Wir beweisen den Satz nur für stetige Zufallsvariable (für diskrete Zufallsvariable ist der Beweis trivial). EX = Za xf (x) dx + Z∞ xf (x) dx a −∞ (substituiere: x = a − y bzw. x = a + y) Z∞ Z∞ = (a − y)f (a − y) dy + (a + y)f (a + y) dy 0 = a = a 0 Z∞ 0 Za −∞ Z∞ = a f (a − y) dy + f (x) dx + a Z∞ Z∞ 0 f (a + y) dy f (x) dx a f (x) dx = a −∞ Bemerkung.Der Beweis für beliebige Zufallsvariable kann aus der Gültigkeit der Aussage für diskrete Zufallsvariable unter Zuhilfenahme der Definition des Erwartungswertes einer beliebigen Zufallsvariablen hergeleitet werden und wird dem Leser überlassen. 76 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER R 1 Beispiel 4.15 Aus der Analysis ist bekannt, daß 1+x 2 dx = arctan x + c gilt, 1 eine Dichte. Zufallsvariable mit dieser Dichte nennt man daher ist f (x) = π(1+x 2) cauchyverteilt. Offensichtlich ist f symmetrisch um 0 verteilt. Aber aus ZM 0 folgt: Z∞ M x 1 2 dx = ln(1 + x ) 2 π(1 + x ) 2π 0 x dx = π(1 + x2 ) 0 Z0 −∞ −x dx = ∞ π(1 + x2 ) Daher hat eine cauchyverteilte Zufallsvariable keinen Erwartungswert, und der obige Satz ist nicht anwendbar. Sind X und Y zwei unabhängige diskrete Zufallsvariable mit den Werten {xn : n ∈ N} bzw. {ym : m ∈ N}, so gilt: X EXY = xn ym P (X = xn , Y = ym ) n,m = X xn ym P (X = xn )P (Y = ym ) n,m = X xn P (X = xn ) n X ym P (Y = ym ) m = EXEY Für beliebige unabhängige Zufallsvariable X, Y kann man die Formel wieder durch Diskretisierung und Grenzübergang beweisen. Aber für stetige Zufallsvariable X, Y mit der Dichte f (x, y) ist die Herleitung genauso einfach, wie im diskreten Fall: Da (X, Y ) unabhängig sind, gilt: f (x, y) = fX (x)fY (y) Daraus folgt: EXY = = = ZZ xyf (x, y) dx dy ZZ Z xfX (x)yfY (y) dx dy Z xfX (x) dx yfY (y) dy = EXEY Wir können daher folgenden Satz formulieren: 77 4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES Satz 4.5 Sind X, Y zwei unabhängige Zufallsvariable, deren Erwartungswerte endlich sind, so gilt EXY = EXEY. Auch bei manchen spieltheoretischen Problemen ist es nützlich, die entsprechenden Erwartungswerte zu betrachten. Beispiel 4.16 Ist das folgende Spiel fair? 2 Spieler A und B haben je 2 Lose, eines, das mit “1”, und eines, das mit “2” numeriert ist. Jeder Spieler wählt ein Los ohne zu wissen, was der andere zieht. Ist die Gesamtsumme der Zahlen auf den ausgewählten Losen gerade, so gewinnt A einen Betrag in der Höhe dieser Summe von B; ist die Gesamtsumme jedoch ungerade, so hat er diese Summe an B zu zahlen. Die obengestellte Frage ist nicht unmittelbar zu beantworten, denn es kommt auf die Spielstrategie von A und B an – oder mit anderen Worten auf die Wahrscheinlichkeiten, mit der die Spieler ihre Lose wählen. Sei X die Wahl von A und Y die Wahl von B. Sei weiters angenommen, daß P (X = 1) = α, P (X = 2) = 1 − α und P (Y = 1) = β, P (Y = 2) = 1 − β. Da kein Spieler weiß, welches Los der Gegner wählt, wird man X und Y als unabhängig annehmen. Bezeichnen wir den Gewinn von A mit ϕ, so ist ϕ zweifellos eine Funktion von X und Y , die sich aus Tabelle 4.4 ergibt. Für Eϕ erhält man daher: Tabelle 4.4: Y 1 2 X 1 2 2 -3 -3 4 Eα,β ϕ = 2P (X = 1, Y = 1) + 4P (X = 2, Y = 2) − 3(P (X = 1, Y = 2) + P (X = 2, Y = 1)) = 2αβ + 4(1 − α)(1 − β) − 3α(1 − β) − 3(1 − α)β = β(12α − 7) − 7α + 4 = α(12β − 7) − 7β + 4 1 7 , so gilt stets: Eα,β ϕ = − 12 , egal welche Wahrscheinlichkeit Wählt nun B sein β = 12 1 α A wählt. Das heißt: max Eα, 7 ϕ = − 12 . Daher gilt erst recht: min max Eα,β ϕ ≤ α 12 β α 1 . Das bedeutet, daß bei optimaler Spielweise beider Spieler die Gewinnerwartung − 12 von A negativ ist. Das Spiel bevorzugt also B. 78 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER Beispiel 4.17 Eine Urne enthalte 1 Los mit der Zahl 5, 2 Lose mit 4, 3 Lose mit 3 und 4 Lose mit der Nummer 2. Der Spieler muß vor jeder Ziehung die Losnummer raten. Tippt er richtig, so erhält er die Losnummer als Gewinn ausbezahlt – ansonsten geht er leer aus. Ähnlich wie in Beispiel 4.16 benötigen wir eine Zufallsvariable Y , welche die Entscheidung des Spielers beschreibt. Bezeichnet X die Nummer des gezogenen Loses, so gilt für den Gewinn: i wenn X = Y = i i = 2, 3, 4, 5 ϕ= 0 sonst und: EY ϕ = 5 X i=2 iP (X = i, Y = i) = 5 X iP (X = i)P (Y = i) i=2 Sei qi := P (Y = i) i = 2, 3, 4, 5. Wählt der Spieler jede der Nummern 2 bis 5 mit der gleichen Wahrscheinlichkeit aus – also qi = 14 i = 2, 3, 4, 5, so erhält man: 5 4·2 3·3 2·4 3 1 EY ϕ = + + + · = 10 10 10 10 4 4 Allgemein gilt: EY ϕ = 1 [5q5 + 8q4 + 9q3 + 8q2 ] 10 q5 + q4 + q3 + q2 = 1 Dieser Ausdruck wird maximal für q3 = 1, qi = 0 sonst – d.h.: max Eq ϕ = q 9 10 . Aber ein Spieler, der sein gesamtes Kapital stets auf ’3’ setzt, wird nach n Runden mit 3 n verloren haben. (Das ist nach 2 Runden bereits der Wahrscheinlichkeit 1 − 10 eine Wahrscheinlichkeit von 0.91 – nach 3 Runden eine von 0.97.) 4.4 Andere Lageparameter Aber nicht immer ist es sinnvoll, den Erwartungswert als Entscheidungsgrundlage zu nehmen, wie die folgenden Beispiele zeigen werden: Beispiel 4.18 Ein Würfel wird sooft geworfen, bis er das erste Mal auf “6” fällt. Ein Spieler erhält einen Gewinn von K Schilling, wenn er die notwendige Anzahl von Würfen errät – ansonsten geht er leer aus. Worauf soll er tippen? Ist X die Anzahl der Würfe bis zur ersten “6”, so wissen wir, daß X nach G 1 verteilt 5 6 ist und daher EX = 6 gilt (siehe Beispiel 4.3). Aber P (X = 6) = 656 = 0.067 ≪ P (X = 1) = 16 = 0.167. Der sinnvollste Tip n wird also der sein, für den gilt: P (X = n) = max P (X = i) = P (X = 1). i Wir definieren: 4.4. ANDERE LAGEPARAMETER 79 Definition 4.4 Ist X eine diskrete Zufallsvariable mit den Werten {xn : n ∈ N}, so nennt man jenen Wert xm den Modus (im Zeichen: mod(X)), für den gilt: P (X = xm ) = max P (xn ) n Gibt es mehrere derartige Werte, so wird jeder davon Modus genannt. Ist X stetig mit der Dichte f , so nennt man einen Wert x0 den Modus, wenn f (x0 ) = max f (x) x (im stetigen Fall muß der Modus nicht existieren). Erwartungswert und Modus werden Lageparameter genannt, da sie dazu dienen, die Lage der möglichen Werte einer Zufallsvariablen (der möglichen Versuchsausgänge) auf der Zahlengeraden zu charakterisieren. Ein weiterer wichtiger Lageparameter ist der Median: Definition 4.5 Ist X eine Zufallsvariable mit der Verteilungsfunktion F , so nennt man jenen Wert m den Median (im Zeichen: med(X)), für den gilt: 1 ≤ F (m) 2 Allgemeiner heißt ein Wert xp ein p-Fraktile der Verteilung F , wenn: F (m − 0) ≤ F (xp − 0) ≤ p ≤ F (xp ) 0 ≤ p ≤ 1 (Statt p-Fraktile sagt man oft auch p-Quantile.) Ein Vorteil, der den Median gegenüber dem Modus und Erwartungswert auszeichnet, ist die Tatsache, daß er für jede Verteilung existiert; er muß aber nicht immer eindeutig bestimmt sein. So ist etwa jeder Wert aus [0, 1] Median der Verteilung mit der Verteilungsfunktion 1 1 + 1[1,∞) (siehe Abb 4.3). 2 [0,1) Der Median hat folgende wichtige Eigenschaft: F (x) = Satz 4.6 Ist X eine Zufallsvariable mit dem Median m, so gilt: E|X − m| = min E|X − a| a∈R Beweis.Wenn E|X| = ∞ gilt, so folgt aus |X| ≤ |X − a| + |a| auch: E|X − a| = ∞ ∀a ∈ R und die obige Gleichung gilt. Sei nun E|X| < ∞. Aus |X − a| ≤ |X| + |a| folgt auch: E|X − a| < ∞ ∀a ∈ R 80 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER 1 F (x) 0.5 0 -1 0 1 x 2 Abbildung 4.3: Es gelte ohne Einschränkung der Allgemeinheit: m<a Wegen gilt: für X > a m−a |X − a| − |X − m| = a + m − 2X für m < X ≤ a a−m für X ≤ m |X − a| − |X − m| ≥ m − a für X > m a − m für X ≤ m Daraus folgt: E|X − a| − E|X − m| = E (|X − a| − |X − m|) ≥ E(a − m) 1[X≤m] − 1[X>m] = (a − m) (P (X ≤ m) − P (X > m)) = (a − m) (2F (m) − 1) 1 ≥ (a − m) 2 − 1 ≥ 0 2 Analog dazu zeigt man, daß auch für a < m gilt: E|X − m| ≤ E|X − a| Wir kehren nun zurück zu Beispiel 4.11: 3 81 4.4. ANDERE LAGEPARAMETER Beispiel 4.19 (Fortsetzung von Beispiel 4.11) Wo muß die Bushaltestelle in Beispiel 4.11 errichtet werden, wenn die Summe der Wegstrecken aller Bewohner minimiert werden soll? Nach dem oben Gesagten ist klar, daß der gesuchte Punkt gleich dem Median der durch pi gebildeten WahrP 9 < 12 ≤ F (60) = scheinlichkeitsverteilung ist. Man sieht sofort, daß pi = 21 xi <60 P gilt. Daher ist m = 60 der Median und somit der optimale Punkt für pi = 11 21 xi ≤60 die Bushaltestelle. Man beachte, daß dies auch dann der optimale Ort ist, wenn die Häuser wie in Abb. 4.4 liegen. Eine Verschiebung der rechts liegenden Häuser um z.B. 800 m nach rechts ändert somit nichts an der Lage der Haltestelle! Kann man angesichts dieser Tatsache das obige Optimalitätskriterium bedenkenlos übernehmen? 1 0 2 10 20 3 3 2 40 50 60 2 910 5 1 2 930 940 950 ✲ m Abbildung 4.4: Aus obigem Beispiel ist unschwer zu erkennen, daß der Median unempfindlich gegenüber Änderungen in der Größenordnung der Werte einer Zufallsvariablen ist. Für seine Ermittlung haben nur die relative Lage der Werte zueinander und ihre Wahrscheinlichkeiten eine Bedeutung. Es wird demnach bei allen Problemen, bei denen die Größe der Werte einer Zufallsvariablen eine wesentliche Rolle spielt, wenig angebracht sein, dem Median eine allzu große Aussagekraft beizumessen. Aufgabe: Auf welchen Ausgang sollte ein Spieler setzen, wenn man das Spiel in Beispiel 4.18 dahingehend modifiziert, daß der Spieler zwar stets einen gewissen Gewinn K erhält – aber bei jedem Spiel einen Einsatz zu zahlen hat, der dem Abstand seines Tips vom richtigen Ergebnis entspricht? (Lösung: m = 4, P (X ≤ 3) = 0.423 P (X ≤ 4) = 0.518) Wir wissen bereits, daß eine lineare Transformation einer Zufallsvariablen auch zu einer linearen Transformation des Erwartungswertes führt – d.h. E(αX + β) = αEX + β ∀α, β ∈ R Diese Eigenschaft trifft auch auf die beiden anderen Lageparameter zu. Es gilt: mod(αX + β) = αmod(X) + β med(αX + β) = αmed(X) + β 82 KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER Der Beweis für diese Behauptung ergibt sich unmittelbar aus den Definitionen von Modus und Median. Kapitel 5 Streuungsparameter So wichtig die Kenntnis der Lageparameter einer Zufallsvariablen auch sein mag, im allgemeinen wird sie nicht ausreichen um das Verhalten der Zufallsvariablen angemessen zu beschreiben, wie das folgende Beispiel zeigt: Beispiel 5.1 1. Ein Spieler soll vorhersagen, auf welche Augenzahl ein Würfel fällt. Bei richtigem Tip bekommt er eine fixe Summe K ausbezahlt. 2. Nun soll der Spieler vorhersagen, wie oft eine Münze im Verlauf von 7 Würfen auf “Adler” fällt. Wieder wird nur der richtige Tip honoriert. 3. In einer Urne befinden sich gleichviele mit “3” bzw. mit “4” gekennzeichnete Lose. Der Spieler soll die Nummer des gezogenen Loses erraten. Auch diesmal wird nur der richtige Tip honoriert. Man sieht leicht, daß in allen 3 Fällen der Erwartungswert 3.5 und der Median jeder Wert zwischen 3 und 4 ist. 3 und 4 sind überdies in allen 3 Fällen Modalwerte. In Beispiel 1 ist jeder Wert Modus. Dennoch ist klar, daß der Spieler am ehesten bei der Variante 3 gewinnt und am schwierigsten bei Variante 1, da die möglichen Ausgänge in diesem Fall wesentlich stärker “streuen”, als bei den beiden anderen Spielvarianten. Wir wollen daher versuchen, dieses Streuverhalten der Zufallsvariablen durch eine Kennzahl – den Streuungsparameter – zu charakterisieren. Die einfachste Möglichkeit besteht darin, die Differenz zwischen dem größten und dem kleinsten möglichen Wert – die sogenannte Spannweite – anzugeben. Dies ist jedoch dann problematisch, wenn die Extremwerte der Zufallsvariablen nur mit sehr geringen Wahrscheinlichkeiten auftreten und weit entfernt vom Zentrum der Verteilung sind, während der Großteil der anderen Werte sehr wenig streut. In diesem Fall täuscht die große Spannweite eine große Streuung vor, die in Wahrheit gar nicht vorhanden ist. Gänzlich unbrauchbar ist die Spannweite, wenn die Zufallsvariable Werte aus einem unendlichen Intervall der Zahlengeraden annehmen kann, etwa bei exponentialverteilten Zufallsvariablen oder bei geometrisch verteilten Zufallsvariablen. 83 84 KAPITEL 5. STREUUNGSPARAMETER Diese Schwierigkeiten lassen sich vermeiden, indem man anstelle der Spannweiten den Fraktil-(Quartil-) abstand Q = x0.75 − x0.25 verwendet. In Beispiel 5.1 erhält man folgende Quartilabstände: 1. Q = 5 − 2 = 3 2. Q = 4 − 3 = 1 3. Q = 4 − 3 = 1 Man sieht, daß zwischen 2 und 3 trotz des unterschiedlichen Streuverhaltens mit dem Quartilabstand nicht unterschieden werden kann. Eine andere Art von Streuungsparameter erhält man, wenn man die Abstände der Werte der Zufallsvariablen um einen Punkt a mittelt. Definition 5.1 Ist X eine Zufallsvariable, so nennt man Da := E|X − a| die mittlere absolute Abweichung von a. Wir wissen bereits, daß für den Median m gilt: E|X − m| = min E|X − a| a∈R Daher wird die mittlere absolute Abweichung von m von besonderem Interesse sein. (Manchesmal betrachtet man auch die mittlere absolute Abweichung vom Erwartungswert.) In Beispiel 5.1 erhält man folgende Absolutabweichungen vom Median: 1. 1 6 2. 1 128 3. 1 2 · (2 + 1 + 0 + 1 + 2 + 3) = 3 2 · (3 + 2 · 7 + 1 · 21 + 0 + 1 · 35 + 2 · 21 + 3 · 7 + 4) = · (0 + 1) = 35 32 1 2 Der wichtigste Streuungsparameter ist jedoch die Varianz. Definition 5.2 Unter Varianz versteht man das Mittel der quadratischen Abweichungen vom Erwartungswert – also var X = σ 2 := E(X − EX)2 Anstelle der Varianz kann auch die mittlere quadratische Abweichung von einem beliebigen Punkt a ∈ R betrachtet werden, doch gilt: 85 Satz 5.1 Ist X eine Zufallsvariable mit dem Erwartungswert µ = EX ∈ R, so gilt: 1. E(X − a)2 = E(X − µ)2 + (µ − a)2 2. E(X − µ)2 := min E(X − a)2 a∈R Beweis. 1. E(X − a)2 = E ((X − µ) + (µ − a))2 = E(X − µ)2 + E(µ − a)2 + 2E(µ − a)(X − µ) = E(X − µ)2 + (µ − a)2 + 2(µ − a)(EX − µ) = E(X − µ)2 + (µ − a)2 2. Der obige Ausdruck wird offensichtlich minimal für a = µ. Bemerkung.Für a = 0 erhält man: σ 2 = EX 2 − µ2 Diese Formel wird Steinerscher Verschiebungssatz genannt. Wir wollen wieder für Beispiel 5.1 die Werte der Varianzen bestimmen. Man erhält in Bsp. 5.1 (1) 6 σ2 = 1X 2 i − 3.52 = 2.916̇ 6 i=1 in Bsp. 5.1 (2) σ2 = 7 4 in Bsp. 5.1 (3) σ2 = 1 4 Da die mittlere quadratische Abweichung in der Größenordnung der Quadrate der Abstände liegt, die mittlere absolute Abweichung jedoch in der Größenordnung der Abstände selbst, ist es schwer die beiden Streuungsparameter p zu vergleichen. Statt der Varianz betrachtet man daher oft die Wurzel σ = E(X − µ)2 . Diese wird Streuung genannt. 86 KAPITEL 5. STREUUNGSPARAMETER Satz 5.2 (Ungleichung von Schwarz) Seien X und Y zwei Zufallsvariable mit EX 2 , EY 2 < ∞, dann gilt √ √ E|XY | ≤ EX 2 · EY 2 Beweis.Sei EX 2 = EY 2 = 1; X ≥ 0, Y ≥ 0. Dann erhält man: X Y 2 EX 2 EY 2 0≤E √ −√ + − EXY ⇒ EXY ≤ 1 = 2 2 2 2 Sind nun X und Y beliebig, so bildet man: |Y | |X| X̃ := √ , Ỹ := √ X2 Y2 Wegen X̃ ≥ 0, Ỹ ≥ 0 und EX̃ 2 = EỸ 2 = 1 muß folgendes gelten: √ E|XY | √ ≤1 EX 2 EY 2 Bemerkung.Eine unmittelbare Folgerung der Schwarzschen Ungleichung ist die folgende Aussage: Korollar 5.3 Sei X eine Zufallsvariable mit EX 2 < ∞, dann gilt auch E|X| < ∞ und somit EX ∈ R. Korollar 5.4 Ist X eine Zufallsvariable mit dem Mittelwert µ und dem Median m, so gilt: p Dm ≤ Dµ ≤ σ ≤ E(X − m)2 Beweis.Die erste und die dritte Ungleichung ergeben sich aus den Minimalitätseigenschaften von Median und Erwartungswert. Es bleibt also nur die mittlere Ungleichung zu zeigen. Aus der Schwarzschen Ungleichung folgt nun: √ p p E|X − µ||1| ≤ E(X − µ)2 E12 = E(X − µ)2 Weitere Eigenschaften der Varianz sind: Satz 5.5 Sind X, Y Zufallsvariable und a, b ∈ R, so gilt: 1. var(aX + b) = a2 var(X) 2. var(X + Y ) = var(X) + var(Y ) + 2E(X − EX)(Y − EY ) 3. X, Y seien unabhängig ⇒ var(X + Y ) = var(X) + var(Y ) allgemein: X1 , . . . , Xn seien unabhängig ⇒ var(X1 + · · · + Xn ) = n X i=1 var(Xi ) 87 Bemerkung.E(X − EX)(Y − EY ) heißt Kovarianz von X und Y . (im Zeichen: cov(X, Y ) = E(X − EX).(Y − EY )) Beweis. 1. 2 E [aX + b − E(aX + b)]2 = Ea2 (X − EX)2 = a2 σX 2. E(X + Y − EX − EY )2 = E [(X − EX) + (Y − EY )]2 2 = σX + σY2 + 2E(X + EX)(Y − EY ) 3. Falls X, Y unabhängig sind, so gilt: E(X − EX)(Y − EY ) = E(X − EX)E(Y − EY ) = 0 d.h.: die Kovarianz unabhängiger Zufallsvariabler ist 0. Die Verallgemeinerung ergibt sich durch vollständige Induktion. Wir wollen als nächstes die Varianz für einige spezielle Zufallsvariable bestimmen: 1. X sei vt Ap σ 2 = EX 2 − p2 = p · 12 + (1 − p) · 0 − p2 = p(1 − p) 2. X sei vt Bn,p . Wir wissen, daß die Summe von n unabhängigen alternativverteilten Zufallsvariablen Y1 , . . . , Yn nach Bn,p verteilt ist. Daraus folgt: 2 σX 2 =σ = n X i=1 σY2 i = np(1 − p) 3. X sei vt Gp EX(X − 1) ∞ X i(i − 1)(1 − p)i−1 p = = i=2 ∞ X i=0 = i (1 − p) !′′ p(1 − p) = p(1 − p)(p−1 )′′ 2(1 − p) 2(1 − p) 1 1 1−p 2p(1 − p) 2 = ⇒ σX = + − 2 = 3 2 2 p p p p p p2 88 KAPITEL 5. STREUUNGSPARAMETER 4. X sei vt HN,A,n X kann wieder als Summe von n Zufallsvariablen Yi , die nach AA/N verteilt sind, dargestellt werden. Diese Zufallsvariablen sind aber nicht unabhängig. A EX = EY1 + · · · + EYn = n N n 2 n 2 P P 2 =E Yi − E σX Yi i=1 E n P i=1 Yi 2 = nEY12 + i=1 P i6=j EYi Yj Nun gilt: EY12 = 1 A +0 N EYi Yj = A A−1 ⇒ N N −1 und 2 σX = = = = = = A n N A n N A n N A n N A n N A n N A A−1 A 2 + n(n − 1) − n N N −1 N nA n−1 (A − 1) − 1+ N −1 N 2 N − AN − nN + nA N (N − 1) N −A N N −A n − N N −1 N N −1 N −n A 1− N N −1 A n−1 1− 1− N N −1 5. X sei gleichverteilt auf {1, . . . , n} n 1 X 2 n(n + 1)(2n + 1) i = EX = n 6n 2 i=1 ⇒ σ2 = (n + 1)(2n + 1) (n + 1)2 n2 − 1 − = 6 4 12 89 6. X sei vt Sa,b σ 2 = Zb a = = x2 dx − b−a a+b 2 2 b3 − a 3 a2 + b2 + 2ab b3 − a3 + 3a2 b − 3ab2 − = 3(b − a) 4 12(b − a) 2 2 (b + ab + a )(b − a) − 3ab(b − a) (b − a)2 = 12(b − a) 12 7. X sei vt Eλ EX = Z∞ xλe−λx dx = 1 λ 0 EX 2 = Z∞ 2 x λe 0 = 2 λ −λx Z∞ dx = −x e xλe−λx dx = 0 var(X) = 1 1 2 − = 2 λ2 λ2 λ Z∞ ∞ + 2 xe−λx dx 2 −λx 2 ⇒ λ2 0 0 90 KAPITEL 5. STREUUNGSPARAMETER Kapitel 6 Das schwache Gesetz der großen Zahlen Für den Median m gilt per definitionem P (X < m) ≤ 1/2. Für den Erwartungswert kann jedoch keine derartige Abschätzung gefunden werden, wie das folgende Beispiel zeigt: Beispiel 6.1 Sei Ω = {0, 1}, PX (0) = 1 − ǫ, EX = ǫ P (X < ǫ) = 1 − ǫ PX (1) = ǫ Umgekehrt gilt für X̃ mit PX̃ (0) = ǫ, PX̃ (1) = 1 − ǫ ⇒ P (X̃ < 1 − ǫ) = ǫ Ist jedoch X ≥ 0 und C > µ := EX eine Konstante, so gilt der folgende Satz. Satz 6.1 (Markoffsche Ungleichung) Sei X ≥ 0 und C > EX = µ, dann gilt P (X ≥ C) ≤ µ . C Beweis.Aus C1[X≥C] ≤ X1[X≥C] ≤ X folgt: CP (X ≥ C) = EC1[X≥C] ≤ EX ⇒ P (X ≥ C) ≤ 91 EX . C 92 KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN Ist nun X eine beliebige Zufallsvariable mit EX = µ und E(X − µ)2 = σ 2 , so gilt: Y := (X − µ)2 ≥ 0 und daher folgt aus der Markoffschen Ungleichung mit C = λσ 2 und λ > 1: E(X − µ)2 1 EY = = P (Y ≥ C) = P (X − µ)2 ≥ λσ 2 ≤ 2 2 λσ λσ λ √ Da (X − µ)2 ≥ λσ 2 äquivalent zu |X − µ| ≥ λσ ist, erhält man: √ 1 P (|X − µ| ≥ λσ) ≤ λ Daher gilt folgender Satz: Satz 6.2 (Tschebyscheffsche Ungleichung) Sei X eine Zufallsvariable mit σ 2 = var(X) < ∞ und µ = E(X), dann gilt √ 1 ∀λ > 1. λ √ Bemerkung.Ersetzt man λσ durch ǫ, so erhält die Tschebyscheffsche Ungleichung untenstehende Form: P (|X − µ| ≥ λσ) ≤ σ2 ǫ2 Die Wichtigkeit der Varianz erklärt sich vor allem aus dieser Ungleichung – so folgt daraus etwa, daß die Werte einer Zufallsvariablen mit einer Wahrscheinlichkeit von mindestens 8/9 im Intervall (µ − 3σ, µ + 3σ) liegen. Ähnlich wie die Tschebyscheffsche Ungleichung läßt sich folgende Aussage beweisen: P (|X − µ| ≥ ǫ) ≤ P [|X − m| ≥ λDm ] ≤ 1/λ Wir haben in der Einleitung Wahrscheinlichkeiten als idealisierte relative Häufigkeiten bezeichnet. Dem liegt die Vorstellung zugrunde, daß in einer langen Reihe von Versuchen die relative Häufigkeit eines Ausgangs gegen einen Grenzwert konvergiert, den man dann die Wahrscheinlichkeit des jeweiligen Ausgangs nennt. Mit Hilfe der Tschebyscheffschen Ungleichung läßt sich diese vage Vorstellung präzisieren: Definition 6.1 Seien X1 , . . . , Xn Zufallsvariable, das arithmetische Mittel der Xi P X̄n = n1 ni=1 Xi wird Stichprobenmittel genannt. (Dieses Stichprobenmittel ist als Transformation der Zufallsvariablen X1 , . . . , Xn natürlich auch eine Zufallsvariable.) Sei X1 , . . . , Xn eine Folge unabhängiger identisch verteilter Zufallsvariablen mit: σ 2 = E(Xi − µ)2 µ := EXi ; und sei n X̄n := 1X Xi , n i=1 93 dann gilt: EX̄n = µ, n X 1 Xi var X̄n = 2 var n i=1 ! = n 1 X nσ 2 σ2 var X = = i n2 n2 n i=1 Somit folgt aus der Tschebyscheffschen Ungleichung: √ σ 1 ≤ P X̄n − µ ≥ λ √ n λ √ Mit λ = n ergibt das: σ 1 √ P X̄n − µ ≥ 4 ≤ √ ⇒ lim P X̄n − µ ≥ ǫ = 0 n n n ∀ǫ > 0 Wir formulieren die obige Aussage als Satz. Satz 6.3 (schwaches Gesetz der großen Zahlen – kurz GGZ) Ist (Xn ) eine Folge unabhängiger Zufallsvariabler mit endlicher Varianz, so gilt lim P X̄n − µ ≥ ǫ = 0 n ∀ǫ > 0. Macht man nun n unabhängige Durchführungen eines Versuchs, und setzt man ϕi = 1, wenn bei der i-ten Durchführung ein bestimmtes Ereignis A mit p = P (A) eintritt, und ϕi = 0 sonst, so erhält man eine Folge unabhängiger nach Ap identisch verteilter P Zufallsvariabler. ϕ̄n = 1/n ni=1 ϕi ist dann die relative Häufigkeit des Ereignisses A im Verlauf von n Versuchen. Aufgrund des schwachen Gesetzes der großen Zahlen gilt aber: " # p p(1 − p) 1 √ P |ϕ̄n − p| ≥ ≤√ 4 n n Dies bedeutet, daß sich die relative Häufigkeit ϕ̄n mit wachsender Versuchsanzahl mit immer größerer Wahrscheinlichkeit immer weniger von der Wahrscheinlichkeit p unterscheiden wird. Ist p unbekannt, so kann es demnach durch das aus den konkreten Versuchsdurchführungen gewonnene ϕ̄n ersetzt werden. Die Tschebyscheffsche Ungleichung liefert auch eine Abschätzung für die Zuverlässigkeit dieser Ersetzung. Dazu ein Beispiel: Beispiel 6.2 Bei einer Wahl kandidieren 2 Parteien A und B. Ein Meinungsforschungsinstitut möchte wissen, wie groß der Bevölkerungsanteil p mit einer Präferenz für Partei A ist. Wie viele Personen müssen befragt werden, damit p mit einer Genauigkeit von ±0.01 vorhergesagt werden kann und das Ergebnis der Untersuchung nur mit einer Wahrscheinlichkeit von höchstens 0.01 fehlerhaft ist? Sei ǫ = 0.01 die 94 KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN obere Schranke für die Wahrscheinlichkeit, daß der in der Umfrage ermittelte Wert um mehr als δ := 0.01 von p abweicht. Es gilt: # " √ p λ p(1 − p) 1 √ ≤ ≤ǫ P |ϕ̄n − p| ≥ n λ √ p √ Dabei soll λ p(1 − p)/ n ≤ δ gelten. Wegen λp(1 − p) λ 1 1 λ ≤ · 1− = n n 2 2 4n gilt dies auf jeden Fall für λ 1 1 106 ≥ = = = 250, 000. 4δ2 4ǫδ2 4 · 10−6 4 Ersetzt man den unbekannten Erwartungswert µ einer Zufallsvariablen durch das aus Versuchsdurchführungen gewonnene ϕ̄n , so sagt man µ wird durch ϕ̄n geschätzt. h √ √ √ √ i Das Intervall ϕ̄n − λσ/ n, ϕ̄n + λσ/ n wird Vertrauensbereich oder Konfi h √ √ √ √ i denzintervall genannt. P µ 6∈ ϕ̄n − λσ/ n, ϕ̄n + λσ/ n nennt man die Fehlerwahrscheinlichkeit des Konfidenzintervalls. Vergleicht man das Konfidenzintervall √ √ [X − λσ, X + λσ] mit dem Intervall [X − λDµ , X + λDµ ], so sieht man, daß das zweite Intervall nur für 1 < λ ≤ σ 2 /Dµ2 kürzer als das erste ist. (Für λ ≤ 1 ergibt die Tschebyscheffsche Ungleichung die triviale Beziehung: P (|X − µ| ≥ λσ) ≤ 1.) Da zwar Dµ ≤ σ gilt, √ sich Dµ√aber von σ meist nicht allzu sehr unterscheidet, wird das Intervall [X − λσ, X + λσ] zumeist kürzer sein und daher für Vorhersagezwecke bevorzugt werden. Dies ist mit eine Erklärung für die Wichtigkeit der Varianz. Aus der Tschebyscheffschen Ungleichung folgt auch sofort die untenstehende Aussage: Wenn var(X) = 0 ist, so gilt P (|X − EX| > ǫ) = 0 ∀ǫ > 0. Das ist aber äquivalent zu P (X = µ) = 1. Daher ist jede Zufallsvariable, deren Varianz verschwindet, konstant. Im folgenden Beispiel wollen wir das Gesetz der großen Zahlen zur numerischen Berechnung eines Integrals verwenden: n≥ Beispiel 6.3 Gesucht ist der Wert des Integrals I(x) := Zx t2 e− 2 dt. 0 Lösung: 1/xI(x) kann aufgefaßt werden als Erwartungswert Eϕ(X) mit ϕ(X) = Xi2 X2 e− 2 und X gleichverteilt auf [0, x]. Sei Yi = ϕ(Xi ) = e− 2 ∀i ∈ N und seien die X1 , X2 , . . . , Xn unabhängig identisch nach S0,x verteilt, dann gilt: ! n 1 X σ2 1 Yi − I(x) ≥ ǫ ≤ Y21 P n x nǫ i=1 95 Da 2 X2 Rx −v2 2 − 21 = Ee−X1 = e x dv ≤ ≤E e σY2 1 ≤ 0 1 x 1 R 0 1 dv + Rx 1 e−v dv ≤ 1+e−1 x < ∞, muß die obige Wahrscheinlichkeit mit wachsendem n gegen 0 gehen. Daher kann P I(x) durch nx ni=1 Yi approximiert werden. Man beachte, daß die Y1 , . . . , Yn aus den Zufallszahlen X1 , . . . , Xn gebildet werden. Derartige Verfahren, bei denen Probleme mit Hilfe von Zufallszahlen gelöst werden, nennt man Monte Carlo-Methoden. Die Tschebyscheffsche Ungleichung erlaubt aber auch eine Aussage über die Güte der Approximation: Sei x = 2 und sei weiters angenommen, daß unser Näherungswert mit der Wahrscheinlichkeit δ = 0.9 um höchstens ǫ̂ = 0.1 vom wahren Wert I(2) abweichen soll, dann gilt: I(x) ≥ ǫ̂ P xȲn − I(x) ≥ ǫ̂ = P Ȳn − x x σY2 1 x2 x2 (1 + e−1 ) < ≤1−δ ≤ nǫ̂2 xnǫ̂2 somit n≥ (1 + e−1 )x 2(1 + e−1 ) = ≈ 2736 (1 − δ)ǫ̂2 0.1 · 0.12 das bedeutet: bei 2736 Beobachtungswerten stimmt das experimentell gewonnene Ergebnis bis auf ±0.1 mit der Wahrscheinlichkeit 0.9 mit dem wahren Wert überein. Man beachte, daß aufgrund des Gesetzes der großen Zahlen wohl die StichprobenmitP tel konvergieren, nicht jedoch die Summen Sn := ni=1 Xi , wie das folgende Beispiel zeigt: Beispiel 6.4 Eine Münze wird n-mal geworfen 1 der i-te Wurf endet auf “Zahl” Xi := 0 der i-te Wurf endet auf “Wappen” Wir wissen bereits, daß: 1 P X̄n − ≥ ǫ → 0 ∀ǫ > 0 2 P P Was aber kann über δn := | ni=1 Xi − ni=1 (1 − Xi )| = die absolute Differenz der Anzahl der Würfe, die auf “Zahl”, und der Anzahl der Würfe, die auf “Wappen” 96 KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN enden, gesagt werden? Gilt Eδn = 0? für n = 2 gilt: P (δ2 = 0) = P (δ2 = 2) = 1 ⇒ Eδ2 = 1 6= 0 2 für n = 4 gilt: δ4 = 0 ⇔ 4 X i=1 Xi = 2 ⇒ P (δ4 = 0) = P (S4 = 2) = δ4 = 2 ⇔ |n − 2S4 | = 2 ⇔ S4 = 1 ∨ S4 = 3 ⇒ P (δ4 = 2) = P (S4 = 1) + P (S4 = 3) = 4 2 24 4 1 23 δ4 = 4 ⇔ |n − 2S4 | = 4 ⇔ S4 = 0 ∨ S4 = 4 ⇒ P (δ4 = 4) = P (S4 = 0) + P (S4 = 4) = P (δ4 = 2k − 1) = 0 ∀k ⇒ Eδ4 = 3 2 (40) 23 ⇒ für n = 6 gilt: δ6 = 0 ⇔ S6 = 3, δ6 = 2 ⇔ S6 = 2 ∨ S6 = 4, δ6 = 4 ⇔ S6 = 1 ∨ S6 = 5, δ6 = 6 ⇔ S6 = 0 ∨ S6 = 6, und somit gilt: P (δ6 = 0) = P (δ6 = 2) = P (δ6 = 4) = P (δ6 = 6) = 6 −6 2 , 3 6 −5 2 , 2 6 −5 2 , 1 6 −5 15 2 ⇒ Eδ6 = 0 8 Allgemein gilt bei m = 2n Würfen: δ2n = 2k ⇔ |2n − 2S2n | = 2k ⇒ P (δ2n ⇔ S2n = n + k ∨ S2n = n − k für k = 0, 1, . . . , n 2n 2 · n−k · 2−2n für k = 1, 2, . . . , n −2n = 2k) = 2n für k = 0 n ·2 97 P (δ2n = 2k − 1) = 0 ∀k Daher gilt Eδ2n n X 2n 2 · 2k · · 2−2n = n−k k=1 n X 2n = 2−2n+2 · k· n−k k=1 n 2n 4 X · k· . = 22n n−k k=1 n X k=1 2n k· n−k n−1 X 2n = (n − k) · k k=0 n−1 n−1 X 2n X 2n = n· − k· k k k=0 k=0 ! n−1 X 2n 22n − 2n n k· − = n· k 2 k=0 Wegen n−1 X k=0 2n k· k n−1 X 2n(2n − 1)! (k − 1)!(2n − 1 − k + 1)! k=1 n−2 X 2n − 1 = 2n · k k=0 ! 22n−1 − 2 · 2n−1 n−1 = 2n · 2 = erhält man: Eδ2n − 22n + 4 2n−1 n−1 = 2n · 2n 2 2n 2n − 1 2n − 1 2n − +2· + = 22n n n−1 n 2n 2n 2n = − +2· 2n 2 n n 22n − 2n n 98 KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN = 2n 2n 22n n Unter Zuhilfenahme der Stirling’schen Formel √ Θn n! = nn e−n 2πne 12n mit 0 < Θn < 1 ergibt sich daraus: 2n 2n −2n √ √ Θ̂n 2π 2n 12n e = Eδ2n = 2n2 22nnn2ne e−2n 2πn √ √ ⇒ n ≤ Eδ2n ≤ 2n − 1 √ 2√ n Θ̂n e 12n π mit 0 < Θ̂n < 3 Bemerkung.Diese Beziehung kann auch mittels vollständiger Induktion gezeigt √ √ √ 1 ≤1≤ 1 = 2·1−1 werden: n = 1 : Eδ2(n+1) = Eδ2n · 2n+1 2n ⇒ √ √ = n = 2n+1 Eδ2(n+1) ≥ 2n+1 2n 2 n n+(n+1) √2 n ≥ √ n(n+1) √ n = √ n+1 Die vorletzte Ungleichung in obiger Zeile ist eine Folgerung aus der Mittelunglei√ chung: ab ≤ (a + b)/2. 2n + 1 √ 2n − 1 2n r √ (2n + 1)(2n − 1) = 2n + 1 4n2 r √ 4n2 − 1 √ 2n + 1 = ≤ 2n + 1. 4n2 Eδ2(n+1) ≤ Kapitel 7 Das starke Gesetz der großen Zahlen 7.1 Die Lemmata von Borel-Cantelli Manchmal will man wissen, mit welcher Wahrscheinlichkeit ein Ereignis in einer unendlichen Versuchsfolge immer und immer wieder auftritt, oder aber man möchte die Wahrscheinlichkeit bestimmen, daß das Ereignis in der Versuchsserie fast immer, d.h. immer bis auf endlich viele Ausnahmen, auftritt. Es könnte etwa folgende Frage gestellt werden: Beispiel 7.1 Wie groß ist die Wahrscheinlichkeit, daß die “6” unendlich oft wiederkehrt, wenn man unaufhörlich würfelt. Intuitiv wird man annehmen, daß dies mit Wahrscheinlichkeit 1 passiert. Wie aber kann man dieses Ergebnis herleiten? Wir betrachten die Menge Ω aller unendlichen Folgen von Würfen: Ω = {ω = (xn )n∈N : xn ∈ {1, . . . , 6} ∀n ∈ N} Die “6” tritt bei einer konkreten Folge ω von Würfen genau dann unendlich oft auf, wenn es eine Teilfolge (ik (ω)) von Versuchen gibt, für die gilt: xik = 6 ∀k ∈ N. (Diese Teilfolge wird natürlich von ω zu ω variieren.) Damit existiert aber zu jedem n ∈ N ein in ≥ n mit xin = 6. Sei nun A die Menge aller Folgen ω, bei denen die “6” unendlich oft auftritt und An das Ereignis, daß beim n-ten Wurf eine “6” geworfen wird, so kann die obige Argumentation folgendermaßen angeschrieben werden: ω ∈ A ⇒ ∀n ∈ N ∃in ≥ n : ω ∈ Ain Dies ist gleichbedeutend mit: \ [ ω∈A⇒ω∈ Ai n∈N i≥n 99 100 KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN Somit A⊆ \ [ Ai . n∈N i≥n T S Sei umgekehrt ω ∈ n∈N i≥n Ai . Dann gibt es zu n1 = 1 ein i1 ≥ 1 : ω ∈ Ai1 , zu n2 = max{2, i1 + 1} existiert ein i2 ≥ n2 : ω ∈ Ai2 , usw. Allgemein: zu nk = max{k, ik−1 + 1} existiert ein ik ≥ nk : ω ∈ Aik . Wir haben also eine Teilfolge (ik ) = (ik (ω)) konstruiert, für die gilt xik = 6. Damit tritt aber auch in dieser Folge ω die 6 unendlich oft auf. Somit gilt \ [ ω∈ Ai ⇒ ω ∈ A. n∈N i≥n d.h.: \ [ n∈N i≥n Ai ⊆ A. Zusammenfassend gilt somit \ [ A= Ai . n∈N i≥n Wegen der de Morgan’schen Regeln folgt daraus [ \ Ac = Aci . n∈N i≥n T Sei nun m ≥ n und Bn,m := n≤i≤m Aci das Ereignis, daß zwischen dem n-ten und m-ten Versuch keine “6” gewürfelt wird. Klarerweise gilt: m−n+1 5 P (Bn,m ) = 6 Für festes n ∈ N und m → ∞ bilden die Bn,m eine monoton fallende Folge mit T Bn,m ց i≥n Aci . Daraus folgt wegen der Stetigkeitseigenschaft der Wahrscheinlichkeitsverteilung \ P( Aci ) = lim P (Bn,m ) = 0 ∀n ∈ N. i≥n m→∞ Damit gilt aber auch T P P ( i≥n Aci ) = 0 ⇒ 0 ≤ P (Ac ) ≤ n∈N P (A) = 1. Würfelt man also fortwährend, so tritt mit Wahrscheinlichkeit 1 immer wieder eine “6” auf. 7.1. DIE LEMMATA VON BOREL-CANTELLI 101 Wir haben im obigen Beispiel die Menge A aller ω betrachtet, die in unendlich vielen der Ereignisse An liegen. Wir definieren: Definition 7.1 Ist Ω eine beliebige Menge von möglichen Versuchsausgängen und ist (An ) eine Folge von Ereignissen aus Ω, so nennt man die Menge Ā mit Ā = {ω ∈ Ω : ω ∈ An für unendlich viele n ∈ N} den Limes superior der Mengenfolge (An ) (im Zeichen: Ā = lim sup An ). Wir haben im vorigen Beispiel schon die folgende Aussage bewiesen. Satz 7.1 Sei (An ) eine beliebige Mengenfolge aus Ω, dann gilt: \ [ lim sup An = Ai . n∈N i≥n Ein Versuchsausgang ω liegt genau dann in Āc , wenn ω ∈ An höchstens für endlich viele n ∈ N. Dies ist gleichbedeutend damit, daß ω ∈ Acn für fast alle n ∈ N. Definition 7.2 Ist (An ) eine Folge von Ereignissen, so nennt man die Menge A = {ω ∈ Ω : ω ∈ An für fast alle n} den Limes inferior der Mengenfolge (im Zeichen: A = lim inf An ). Das Komplement des Limes superiors ist also der Limes inferior der Folge (Acn ) und umgekehrt. Aus Satz 7.1 und den de Morgan’schen Regeln folgt sofort Satz 7.2 Ist (An ) eine beliebige Ereignisfolge, so gilt [ \ lim inf An = Ai . n∈N i≥n Mit Hilfe der beiden folgenden Sätze kann die Wahrscheinlichkeit von lim sup An unter gewissen Voraussetzungen bestimmt werden. Satz 7.3 (1-tes Lemma von BOREL-CANTELLI) Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und (An ) eine Folge von Mengen aus S, dann gilt: X P (An ) < ∞ ⇒ P (lim sup An ) = 0 N 102 KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN Beweis. P (lim sup An ) = P ( \ [ Ak ) n∈N k≥n Sei T S S T Bn = Ak ⇒ Bn := Ak ⇒ n∈N k≥n n∈N T k≥n S P S P( Ak ) = lim P (Bn ) = lim P ( Ak ) ≤ lim k≥n P (Ak ) = 0 n n∈N k≥n wegen X N n k≥n n P (An ) < ∞ Falls die Ereignisse An unabhängig sind, so gibt es eine Umkehrung des 1. Lemmas von Borel-Cantelli. Satz 7.4 (2-tes Lemma von BOREL-CANTELLI) Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und (An ) eine Folge von unabhängigen Mengen aus S, dann gilt: X P (An ) = ∞ ⇒ P (lim sup An ) = 1 N Beweis. P ((lim sup An )c ) = P ( [ \ Ack ) n∈N k≥n Wegen der Stetigkeit der Wahrscheinlichkeit gilt: [ \ \ P( Ack ) = lim P ( Ack ) n n∈N k≥n = lim n Nun gilt: Y k≥n k≥n P (Ack ) k≥n = lim n Y Y (1 − P (Ak )) k≥n (1 − P (Ak )) = elog( P = e Q ) k≥n (1−P (Ak )) k≥n log(1−P (Ak )) 7.1. DIE LEMMATA VON BOREL-CANTELLI 103 wegen log(1 + x) ≤ x ∀x > −1 erhält man: Y (1 − P (Ak )) k≥n ≤ e− P k≥n P (Ak ) = e−∞ = 0 ∀n ⇒ P ((lim sup An )c ) = 0 ⇒ P (lim sup An ) = 1. Man sieht, daß Beispiel 7.1 ein Spezialfall des 2-ten Lemmas von Borel-Cantelli ist. Auch die folgenden Beispiele dienen der Illustration der beiden Lemmata. Beispiel 7.2 Sei X1 , X2 , . . . eine Folge ua, identisch verteilter Zufallsvariabler mit Xn vt A1/2 ∀n ∈ N, und sei νn := max{k : Xn = Xn−1 = · · · = Xn−k+1 = 1} die Länge der längsten Serie aufeinanderfolgender Einsen, endend beim n-ten Versuch. Wir werden zeigen, daß mit Wahrscheinlichkeit 1 und beliebiges ǫ > 0 gilt: νn < (1 + ǫ) log2 n für fast alle n. Sei An := [Xn = Xn−1 = · · · = Xn−⌈(1+ ǫ ) log2 n⌉ = 1]. Wegen P (An ) < 1/(n1+ǫ/2 ) 2 P gilt natürlich P (An ) < ∞ und damit P (lim sup An ) = 0. Somit gilt: P (lim inf Acn ) = 1, was unsere Behauptung beweist. Sei nun λn := max νi . 1≤i≤n λn ist die Länge der längsten Serie aufeinanderfolgender Einsen im Verlauf der ersten n Versuche. Eine derartige Serie wird “Lauf” genannt. Sei ω ∈ lim inf Acn . Dann gibt es ein l m ǫ n0 (ω) : ∀n ≥ n0 (ω) : νn < 1 + log2 n < (1 + ǫ) log2 n. 2 Sei n ≥ 2n0 , dann gilt: für 1 ≤ i ≤ n0 : νi ≤ i ≤ n0 ≤ log2 n ≤ (1 + ǫ) log2 n, für n0 ≤ i ≤ n : νi ≤ (1 + ǫ) log2 i ≤ (1 + ǫ) log2 n. Daher folgt λn = max1≤i≤n νi ≤ (1 + ǫ) log2 n ∀n ≥ 2n0 und ω ∈ lim inf Acn . Mit Wahrscheinlichkeit 1 gilt demnach für fast alle n λn < (1 + ǫ) log2 n, oder anders ausgedrückt: λn <1+ǫ =1 P lim sup log2 n Aber es gilt auch die Umkehrung. ∀ǫ > 0. 104 KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN Beispiel 7.3 Mit den Voraussetzungen und Bezeichnungen des vorigen Beispiels gilt λn >1−ǫ = 1 ∀ǫ > 0. P lim inf log2 n Sei Aki := [Xi+1 = · · · = Xi+k = 1] ⇒ P (Aki ) = 2−k [λn < k] = n−k T i=0 c Aki ≤ ] [ n−k k T j=0 c Akjk Da die Ereignisse Ak0 , Akk , Ak2k , . . . voneinander unabhängig sind, gilt P ([λn < k]) ≤ (1 − 2−k ) n−k k Für k = ⌊(1 − ǫ) log2 n⌋ ergibt das: P ([λn < k]) ≤ e−nǫ/2 ⇒ X λn <1−ǫ < ∞⇒ P log2 n n λn <1−ǫ = 0 P lim sup log2 n Dies bedeutet, daß mit Wahrscheinlichkeit 1 nur höchstens endlich viele λn / log2 n < 1 − ǫ sind, und somit gilt mit Wahrscheinlichkeit 1 auch lim inf λn ≥ 1 − ǫ. log2 n Beispiel 7.4 Sei (Xn ) eine Folge unabhängiger identisch verteilter Zufallsvariabler mit P (X1 = +1) = P (X1 = −1) = 1 2 sei S0 := 0, Sn := n X i=1 Xi ∀n ∈ N. Sn beschreibt die Irrfahrt eines Punktes auf der Zahlengeraden, wenn man im Nullpunkt startet und im n-ten Schritt eine Position nach rechts wandert, wenn Xn = 1 und um eine Position nach links bei Xn = −1. Wir wollen nun wissen, ob unser Punkt auf seiner Irrfahrt unendlich oft durch den Ursprung wandert, oder anders 7.1. DIE LEMMATA VON BOREL-CANTELLI 105 gesagt: wir wollen P (lim sup[Sn = 0]) berechnen. Wir haben im vorigen Kapitel gezeigt (siehe Kapitel 6, Beispiel 6.4), daß gilt: P (S2n−1 = 0) = 0 2n 1 P (S2n = 0) = · 2−2n ≈ √ n πn (Die Näherung läßt sich leicht mit Hilfe der Stirlingschen Formel herleiten). Daraus P folgt, daß N P (S2n = 0) = ∞. Da aber die Ereignisse [S2n = 0] nicht unabhängig sind, kann man das 2-te Lemma von Borel-Cantelli nicht unmittelbar anwenden. Dies läßt sich folgendermaßen umgehen: Aus n · 2−n für j + n ≡ 0 mod 2 j+n 2 P ([Sn = j]) = sonst 0 folgt: P (S2n = j) → 0 ∀j Daher gilt für jedes feste k: lim P (|Sn | < k) = 0 Daraus folgt aber für jedes k die Existenz eines n(k), sodaß P (|Sn(k) | < k) ≤ p (0 < p < 1, p ist fix). Wir bilden nun eine Teilfolge i1 , i2 , . . . folgendermaßen: i1 := 1 i2 := i1 + n(i1 ) i3 := i2 + n(i2 ) .. . ik := ik−1 + n(ik−1 ) Dafür gilt: P (Xik−1 +1 + · + Xik < −ik−1 ) = P (X1 + · + Xn(ik−1 ) < −ik−1 ) ≥ und: 1 P (Xik +1 + · + Xik+1 > ik ) = P (X1 + · + Xn(ik ) > ik ) ≥ (1 − p) 2 1 (1 − p) 2 106 KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN Daher gilt für die Ereignisse: Bk = [Xi2k−1 +1 + · + Xi2k < −i2k−1 ] ∩ [Xi2k +1 + · + Xi2k+1 > i2k ] P (Bk ) ≥ 14 (1 − p)2 ∀k P ⇒ P (Bk ) = ∞ ⇒ P (lim sup Bk ) = 1 Aus ω ∈ Bk folgt aber: Xi2k−1 +1 + · + Xi2k < −i2k−1 Andererseits gilt stets: X1 + · + Xi2k−1 ≤ i2k−1 ⇒ Si2k (ω) < 0 Weiters folgt aber auch Xi2k +1 + · + Xi2k+1 > i2k . Zusammen mit X1 + · + Xi2k > −i2k ergibt das Si2k+1 (ω) > 0. Somit gibt es ein n ∈ {i2k + 1, . . . , i2k+1 } mit Sn = 0, das heißt: Bk ⊆ i2k+1 S [Sn = 0] ⇒ n=i2k +1 lim sup Bk ⊆ lim sup[Sn = 0] ⇒ P (lim sup[Sn = 0]) = 1 7.2 Fast sichere Konvergenz Aus der Analysis ist die folgende Definition bekannt. Definition 7.3 Sind fn , n ∈ N und f Funktionen auf einer beliebigen Menge Ω, so sagt man die Funktionenfolge (fn )n∈N konvergiert punktweise gegen f , wenn für alle ω ∈ Ω und für alle ǫ > 0 ein n0 = n0 (ǫ, ω) existiert, sodaß ∀n ≥ n0 gilt |fn (ω) − f (ω)| < ǫ. Man kann die obige Definition auch so ausdrücken: lim inf{ω : |fn (ω) − f (ω)| < ǫ} = Ω ∀ǫ > 0 oder lim sup{ω : |fn (ω) − f (ω)| > ǫ} = ∅ ∀ǫ > 0. 107 7.2. FAST SICHERE KONVERGENZ Ist nun (Ω, S, P ) ein Wahrscheinlichkeitsraum und sind Xn , n ∈ N sowie X Zufallsvariable auf Ω, so wird diese Art der Konvergenz oft insoferne abgeschwächt, als die Konvergenz nicht mehr für alle Punkte ω ∈ Ω gelten muß, sondern daß nur mehr verlangt wird, daß die Wahrscheinlichkeit aller Versuchsausgänge ω, für die gilt lim Xn (ω) = X(ω), gleich 1 ist. Wir definieren: Definition 7.4 Eine Folge von Zufallsvariablen (Xn ) konvergiert fast sicher gegen eine Zufallsvariable X, wenn: P ({ω : lim Xn (ω) = X(ω)}) = 1 (i.Z.: Xn → X fs, lim Xn = X fs) Die obige Definition ist äquivalent zu folgenden Aussagen: P (lim inf[|Xn − X| < ǫ]) = 1 ∀ǫ > 0 bzw. P (lim sup[|Xn − X| > ǫ]) = 0 ∀ǫ > 0. Damit ist klar, daß man die fast sichere Konvergenz häufig mit Hilfe der Lemmata von Borel-Cantelli nachweisen kann, etwa indem man zeigt, daß gilt P n P (|Xn − X| > ǫ) < ∞ ∀ǫ > 0. Häufig benötigt man für Folgen von Zufallsvariablen auch folgende Konvergenzdefinition. Definition 7.5 Eine Folge von Zufallsvariablen (Xn ) konvergiert in WahrscheinP lichkeit gegen eine Zufallsvariable X (Xn → X), wenn: lim P (|Xn − X| > ǫ) = 0 ∀ǫ > 0 Wir haben im vorigen Kapitel das schwache Gesetz der großen Zahlen bewiesen, P d.h.: für X̄n := n1 ni=1 Xi gilt: lim P |X̄n − EX1 | > ǫ = 0 ∀ǫ > 0, n wenn X1 , X2 , . . . eine unabhängige identisch verteilte Folge von Zufallsvariablen mit endlichem Erwartungswert ist. Das bedeutet, daß in jedem Zeitpunkt n die Wahrscheinlichkeit, daß X̄n um mehr als ǫ von EX1 abweicht, mit wachsendem n immer kleiner wird. Mit der obigen Definition lautet die Aussage des schwachen Gesetzes der großen Zahlen: P X̄n → EX1 . Nun wollen wir die Frage untersuchen, ob die Zeitreihe (X̄n ) in unendlich vielen Zeitpunkten um mehr als ±ǫ von EX1 abweicht, d.h. wir suchen die Wahrscheinlichkeit von lim sup[|X¯n − EX1 | > ǫ]. Wir werden zeigen, daß gilt: P (lim sup[|X̄n − EX1 | > ǫ]) = 0 ∀ǫ > 0 108 KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN oder anders ausgedrückt: lim X̄n = EX1 fs. Die Tschebyscheffsche Ungleichung liefert: σ2 P |X̄n − EX1 | > ǫ ≤ 2 nǫ P 1 Daraus kann wegen N n = ∞ nicht auf P (lim sup[|X̄n −EX1 | > ǫ]) = 0 geschlossen werden. Aber es gilt: X X σ2 <∞⇒ P |X̄n2 − EX1 | > ǫ ≤ n 2 ǫ2 n N P lim sup[|X̄n2 − EX1 | > ǫ] = 0 ∀ǫ > 0 Wir nehmen nun ohne Einschränkung der Allgemeinheit an, daß EX1 = 0. Sei m ∈ N ⇒ ∃n : n2 < m ≤ (n + 1)2 ⇒ X1 + · · · + Xn2 + Xn2 +1 + · · · + Xm |X̄m | = m X1 + · · · + Xn2 Xn2 +1 + · · · + Xm + ≤ n2 n2 Pm X1 + · · · + Xn2 i=n2 +1 Xi . ≤ max + n2 <m<(n+1) 2 n2 n2 Wir betrachten nun die Ereignisse Pm i=n2 +1 Xi > ǫ] An := [ max n2 n2 <m<(n+1)2 (n+1)2 −1 Pm [ i=n2 +1 Xi = >ǫ . n2 2 m=n +1 Aus der Tschebyscheffschen Ungleichung folgt: Pm i=n2 +1 Xi (m − n2 )σ 2 (2n + 1)σ 2 >ǫ ≤ ≤ ⇒ P n2 n 4 ǫ2 n 4 ǫ2 (2n + 1)2 σ 2 C P (An ) ≤ ≤ 2, 4 2 n ǫ n wobei C ∈ R eine Konstante ist. Somit folgt aus dem 1-ten Lemma von Borel-Cantelli P (lim sup An ) = 0 Mit Wahrscheinlichkeit 1 gilt also für fast alle n: P 2 n X i=1 i <ǫ n2 109 7.2. FAST SICHERE KONVERGENZ aber auch Pm i=n2 +1 Xi < ǫ. max n2 n2 <m<(n+1)2 Damit muß aber auch mit Wahrscheinlichkeit 1 für fast alle n ∈ N gelten |X̄m | < 2ǫ ∀ǫ > 0. Wir haben somit gezeigt, daß lim X̄n = EX1 fast sicher gilt. P Wir haben also im vorigen Abschnitt bewiesen, daß X¯n → EX1 gilt, und in diesem Abschnitt wurde gezeigt, daß auch lim X̄n = EX1 fast sicher gilt. Diese Aussage gilt auch dann, wenn die Varianz von X1 unendlich ist – der Beweis ist in diesem Fall jedoch komplizierter. Wir formulieren daher: Satz 7.5 (Starkes Gesetz der großen Zahlen) Ist (Xn ) eine Folge unabhängig identisch verteilter Zufallsvariabler mit endlichem P Erwartungswert, so gilt mit X̄n := n1 ni=1 Xi : P {ω : lim X̄n (ω) = EX1 (ω)} = 1 Die Bezeichnung “starkes Gesetz” bzw. “schwaches Gesetz der großen Zahlen” rührt daher, daß aus der fast sicheren Konvergenz die Konvergenz in Wahrscheinlichkeit folgt – nicht jedoch umgekehrt, sodaß das schwache Gesetz der großen Zahlen eine Folgerung des starken Gesetzes ist. P Satz 7.6 aus lim Xn = X fast sicher folgt Xn → X. Beweis.Aus lim Xn (ω) = X(ω) folgt: ∀ǫ > 0 ∃n0 := n0 (ǫ, ω) : ∀n ≥ n0 : |Xn (ω) − X(ω)| < ǫ Das impliziert: lim Xn (ω) 6= X(ω) genau dann, wenn es ein ǫ > 0 gibt, sodaß für alle n0 ein n ≥ n0 existiert mit: |Xn (ω) − X(ω)| > ǫ ⇒ [\ [ [|Xn (ω) − X(ω)| > ǫ] [lim Xn 6= X] = ǫ>0 n0 n≥n0 1 = |Xn (ω) − X(ω)| > k k∈N n0 n≥n0 [ 1 0 = P ([lim Xn 6= X]) ≥ lim P |Xn (ω) − X(ω)| > n0 k n≥n0 1 ≥ lim P |Xn0 − X| > ≥ 0 ∀k ∈ N n0 k [\ [ Daher gilt auch: lim P [|Xn0 − X| > ǫ] = 0 n0 ∀ǫ > 0 Daß die Umkehrung nicht gilt, zeigt das folgende Gegenbeispiel: 110 KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN Beispiel 7.5 Sei (Ω, S, P ) = [0, 1), B, S(0,1) . X1 := 1[0,1) X2 := 1[0,1/2) X3 := 1[1/2,1) X4 := 1[0,1/4) X5 := 1[1/4,1/2) X6 := 1[1/2,3/4) X7 := 1[3/4,1) X8 := 1[0,1/8) .. . X2n := 1[0,1/2n ) .. . X2n +i := 1[i/2n ,(i+1)/2n ) .. . X2n +2n −1 := 1[(2n −1)/2n ,1) .. . Zweifellos gilt für diese Folge: P (|Xn | > ǫ) = 1 2⌊log n⌋ → 0 ∀ǫ ∈ (0, 1) Aber für jedes ω ∈ [0, 1) gibt es eine Teilfolge: (nk ) = (nk (ω)) mit Xnk (ω) = 1 ⇒ [lim Xn 6= 0] = [0, 1) ⇒ P (lim Xn = 0) = 0 7.3 Andere Konvergenzarten Neben der Konvergenz in Wahrscheinlichkeit und der fast sicheren Konvergenz gibt es noch andere Konvergenzarten – etwa die Konvergenz im Mittel oder die Konvergenz im quadratischen Mittel: Definition 7.6 Eine Folge von Zufallsvariablen (Xn ) mit E|Xn | < ∞ konvergiert im Mittel gegen die Zufallsvariable X (E|X| < ∞), wenn lim E|Xn − X| = 0 n 7.4. DER SATZ VON GLIVENKO-CANTELLI 111 Definition 7.7 Eine Folge von Zufallsvariablen (Xn ) mit E(Xn )2 < ∞ konvergiert im quadratischen Mittel gegen die Zufallsvariable X (EX 2 < ∞), wenn lim E(Xn − X)2 = 0 n Diese beiden Konvergenzarten spielen eine bedeutende Rolle in der Theorie stochastischer Prozesse. Wir werden nicht näher auf sie eingehen, sondern werden zum Abschluß dieses Kapitels nur einige Bemerkungen über den Zusammenhang zwischen den verschiedenen Konvergenzarten machen. Aus der Schwarzschen Ungleichung folgt: √ p p E|(Xn − X) · 1| ≤ E(Xn − X)2 · E12 = E(Xn − X)2 D.h. die Konvergenz im quadratischen Mittel impliziert die Konvergenz im Mittel. Wegen der Tschebyscheffschen Ungleichung impliziert sie auch die Konvergenz in Wahrscheinlichkeit: P (|Xn − X| > ǫ) ≤ var(Xn − X)2 E(Xn − X)2 ≤ ǫ2 ǫ2 Hingegen gibt es Folgen von Zufallsvariablen, die zwar im quadratischen Mittel – nicht aber fast sicher konvergieren (siehe Beispiel 7.5), und umgekehrt Folgen, die fast sicher – jedoch nicht im quadratischen Mittel konvergieren – wie etwa die Folge: Xn := n1[0,1/n] auf ([0, 1], B, S(0,1) ) 7.4 Der Satz von Glivenko-Cantelli Zum Abschluß wollen wir den Satz von Glivenko-Cantelli formulieren und beweisen. Dazu eine Definition: Definition 7.8 Ist X1 , X2 , . . . eine Folge von unabhängigen identisch verteilten Zufallsvariablen, so nennt man die Funktionen n Fn (x) := Fn (x, ω) := 1X 1(−∞,x] (Xi (ω)) mit n ∈ N n i=1 empirische Verteilungsfunktionen der Verteilung F (x) := P (X1 ≤ x). Bemerkung.Führt man einen Versuch n-mal unabhängig voneinander durch, so gibt Fn (x, ω) die relative Häufigkeit jener Versuchsausgänge Xi (ω) an, die kleiner oder gleich x sind. Sei etwa X1 (ω) = 2.5, X2 (ω) = 0, X3 (ω) = 4, X4 (ω) = 1, dann sieht F4 (·, ω) so aus: Die Funktionen Fn haben offensichtlich alle Eigenschaften einer Verteilungsfunktion. Der Name wird jedoch vor allem durch den folgenden Satz gerechtfertigt: 112 KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN ✻ 1 3 4 1 2 1 4 0 ✲ 1 2.5 4 Abbildung 7.1: Satz 7.7 (Glivenko–Cantelli) Ist X1 , X2 , . . . eine Folge von unabhängig verteilten Zufallsvariablen mit der Verteilungsfunktion F , und ist Fn die Folge der zugehörigen empirischen Verteilungsfunktionen, so gilt: P lim sup |Fn (x) − F (x)| = 0 = 1 n→∞ x∈R D.h. die empirischen Verteilungsfunktionen konvergieren fast sicher gleichmäßig gegen die Verteilungsfunktion F . Beweis.Sei N ∈ N beliebig, und sei xp , für k = 0, . . . , N : k F xk −0 ≤ ≤F xk N N N und für x ∈ x k−1 , x k gilt: N N F x k−1 ≤ F (x − 0) ≤ F (x) ≤ F x k − 0 ≤ F x k N N bzw.: p ∈ [0, 1] das p-Fraktile von F . Dann gilt N Fn x k−1 ≤ Fn (x − 0) ≤ Fn (x) ≤ Fn x k − 0 ≤ Fn x k N N N Daraus folgt für x ∈ x k−1 , x k und F (x) ≥ Fn (x): N N F (x) − Fn (x) ≤ F x k − 0 − Fn x k−1 N N ≤ F x k − 0 − F x k−1 + F x k−1 − Fn x k−1 N N N N 113 7.4. DER SATZ VON GLIVENKO-CANTELLI k − 1 k − + F x k−1 − Fn x k−1 N N N N 1 ≤ + max F x k − Fn x k N N N 0≤k≤N Für x ∈ x k−1 , x k und F (x) < Fn (x) gilt: ≤ N N Fn (x) − F (x) ≤ Fn x k − 0 − F x k−1 N N ≤ Fn x k − 0 − F x k − 0 + F x k − 0 − F x k−1 N N N N 1 ≤ max F x k − 0 − Fn x k − 0 + N N 0≤k≤N N Aus den obigen beiden Ungleichungen folgt unmittelbar: |F (x) − Fn (x)| ≤ max max F x k − Fn x k , 0≤k≤N N N 1 max F x k − 0 − Fn x k − 0 + N N 0≤k≤N N ∀x ∈ x k−1 , x k N N Diese Ungleichung gilt aber auch für x = x k . Somit gilt: N sup |F (x) − Fn (x)| x∈R ≤ max max F x k − Fn x k , 0≤k≤N N N 1 max F x k − 0 − Fn x k − 0 + N N 0≤k≤N N Nun sind aber die Zufallsvariablen 1(−∞,x] (Xi ) i = 1, . . . , n unabhängig nach Ap P verteilt mit p = P (Xi ≤ x) = P (X1 ≤ x). Da Fn (x) = n1 ni=1 1(−∞,x] (Xi ) das Stichprobenmittel der unabhängigen Zufallsvariablen 1(−∞,x] (Xi ) ist, impliziert das Gesetz der großen Zahlen: lim Fn (x) = E1(−∞,x] (Xi ) = P (X1 ≤ x) = F (x) n Ähnlich zeigt man: lim Fn (x − 0) n n 1X 1(−∞,x) (Xi ) = E1(−∞,x) (X1 ) = lim n i=1 = P (X1 < x) = F− (x) fast sicher fast sicher 114 KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN Damit gilt aber auch: 1 = 1 ∀N ∈ N P lim sup |F (x) − Fn (x)| ≤ n N x Daraus folgt: P lim sup |F (x) − Fn (x)| = 0 = 1. n x Der Satz von Glivenko-Cantelli besagt also, daß die Verteilungsfunktion durch die empirischen Verteilungsfunktionen approximiert werden kann, welche mit den empirisch gewonnenen Beobachtungsdaten gebildet werden. Man nennt ihn deshalb auch oft den Fundamentalsatz der Statistik. Kapitel 8 Der zentrale Grenzverteilungssatz 8.1 Der Satz von de Moivre-Laplace Wir haben im Kapitel 6 Beispiel 6.4 gezeigt, daß bei n Münzwürfen die Anzahl der √ Würfe, welche auf “Kopf” enden, etwa in der Größenordnung n von n/2 abweicht. Wir wollen daher etwas allgemeiner versuchen, für unabhängige nach Ap verteilte Zufallsvariable Xi die Wahrscheinlichkeit auszurechnen, daß sich die Anzahl der “1” √ im Verlauf von n Versuchen um höchstens ǫ n(ǫ > 0) von np unterscheidet. Die Tschebyscheffsche Ungleichung liefert: n ! X √ np(1 − p) p(1 − p) Xi − np > ǫ n ≤ P = nǫ2 ǫ2 i=1 Ist ǫ hinreichend klein, so reduziert sich das auf die triviale Ungleichung: ! n X √ P Xi − np > ǫ n ≤ 1 i=1 Wir müssen daher versuchen, ! n X √ P Xi − np > ǫ n = i=1 X √ √ np−ǫ n≤k≤np+ǫ n n k p (1 − p)n−k k genauer abzuschätzen. Dazu betrachten wir: ! P | ni=1 Xi − np| P a≤ p ≤b np(1 − p) X n k p (1 − p)n−k = k √ √ np+a np(1−p)≤k≤np+b np(1−p) 115 a, b ∈ R 116 KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ Aus der Stirlingschen Formel folgt: √ √ n nn e−n n 2π n! √ √ √ eΘn,k = = √ k!(n − k)! k kk e−k k 2π(n − k)n−k e−(n−k) n − k 2π wobei gilt: limn,k→0 Θn,k = 0, das heißt: s 1 n n2 nn √ eΘn,k = k n−k k (n − k) k(n − k) 2πn k √ √ Sei q := 1 − p. Da k zwischen np + a npq und np + b npq liegt, strebt mit n auch k gegen Unendlich und weiters gelten die folgenden Beziehungen: k n n−k lim n n lim = p n = q Daraus folgt: s lim n 1 n2 =√ k(n − k) pq Überdies gilt: np k nq n−k k nn −(n−k) ln n−k −k ln np k n−k nq e =e p q = k n−k k (n − k) k n−k √ √ Die Substitution xk = (k − np)/ npq führt auf n − k = nq − xk npq. Approximiert man dann noch ln(1 + x) durch x − x2 /2, so erhält man: q x2 √ q −(np+xk npq) xk np − 2k np k =e n−k k bzw.: nq n−k q np · (1 + o(1)) q x2 √ p − 2k −(nq−xk npq) −xk nq =e p nq · (1 + o(1)) daraus ergibt sich: np k nq n−k k n−k 2 √ √ x3 q q x3 p p x2 x (1 + o(1)) = exp − − k q + x2k q − k √ − k p + x2k p + k √ 2 2 np 2 2 nq − = e x2 k 2 x2 − 2k = e − e Cx3 √k n (1 + o(1)) (1 + o(1)) 8.1. DER SATZ VON DE MOIVRE-LAPLACE Daraus folgt dann: X √ √ np+a npq≤k≤np+b npq 117 n k p (1 − p)n−k k 1 1 2 √ √ e−xk /2 (1 + o(1)) 2π npq a≤xk ≤b X 1 2 √ e−xk /2 (xk − xk−1 )(1 + o(1)) = 2π a≤xk ≤b √ Mit ∆xk := xk − xx−1 = 1/ npq → 0 strebt obige Summe gegen X = Zb a x2 1 √ e− 2 dx. 2π Wir können daher den folgenden Satz formulieren: Satz 8.1 (Grenzverteilungssatz von de Moivre-Laplace) Ist (Xn ) eine Folge unabhängiger nach Ap , (0 < p < 1) verteilter Zufallsvariabler, so gilt für jedes a, b ∈ R: lim P a≤ Pn − np ≤b √ npq i=1 Xi = Zb a x2 1 √ e− 2 dx 2π Das folgende Beispiel illustriert die praktische Bedeutung der soeben hergeleiteten Approximation. Beispiel 8.1 Bei der Fertigung elektronischer Bauteile falle ein Ausschußanteil von p = 0.1 an. Wie groß ist die Wahrscheinlichkeit, daß in einer aus 1000 Einheiten bestehenden Lieferung höchstens 80 fehlerhafte Stücke sind? Sei n = 1000, x = 80 und sei Zx u2 1 √ e− 2 du Φ(x) = 2π −∞ P n X i=1 ! Xi ≤ 80 Pn − np x − np ≤ √ √ npq npq x − np ≈ Φ √ npq ≈ Φ(−1.054) ≈ 0.1459 = P i=1 Xi (Tabellen für die Werte der Funktion Φ finden sich in fast jedem Statistik-Buch.) 118 8.2 KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ Die Normalverteilung Satz 8.2 Z∞ e− u2 2 du = √ 2π −∞ Beweis. ∞ 2 Z 2 u e− 2 du −∞ = Z∞ Z∞ e− −∞ −∞ u2 +v 2 2 du dv = ∂u ∂r ∂u ∂ϕ ∂v ∂r ∂v ∂ϕ Z2π Z∞ e− = Z2π Z∞ e− 2 r dr dϕ 0 0 = Z2π 1 dϕ = 2π = r2 2 0 0 r2 u = r cos ϕ v = r sin ϕ dr dϕ 0 Wegen des obigen Satzes kann durch Φ(x) = Zx −∞ t2 1 √ e− 2 dt 2π eine Verteilungsfunktion definiert werden. Definition 8.1 Die zu der Verteilungsfunktion Φ gehörige Verteilung heißt Normalverteilung (genauer Standardnormalverteilung). Ist eine Zufallsvariable X gemäß dieser Verteilung verteilt, so schreibt man: X vt N (0, 1). Transformiert man auf (0, 1) stetig gleichverteilte Zufallsvariable in geeigneter Weise, so erhält man normalverteilte Zufallsvariable, wie der folgende Satz zeigt. Satz 8.3 Seien X1 , X2 vt S(0,1) und unabhängig, dann sind die transformierten Zufallsvariablen Y1 , Y2 mit p p Y1 := −2 ln X1 cos 2πX2 , Y2 := −2 ln X1 sin 2πX2 standardnormalverteilt und ebenfalls unabhängig. 119 8.2. DIE NORMALVERTEILUNG Beweis.Wir wenden den 2-dimensionalen Transformationssatz auf die Transformation p y1 = G1 (x1 , x2 ) = −2 ln x1 cos 2πx2 p y2 = G2 (x1 , x2 ) = −2 ln x1 sin 2πx2 −1 ∂G an. Dazu müssen wir die Jacobi-Determinante ∂yij berechnen. Wegen i,j ∂G−1 1 i = ∂G , i ∂yj ∂x j erhält man √ 2πx2 −1 − cos ∂Gi x1 −2 ln x1 ∂y = − sin √ 2πx2 j x1 −2 ln x1 Weiters gilt p −2π −2 ln x1 sin 2πx2 p 2π −2 ln x1 cos 2πx2 −1 2π −1 x = − = 1 . x1 2π y12 + y22 = 2 ln x1 (cos2 2πx2 + sin2 2πx2 ) = 2 ln x1 ⇒ x1 = e− 2 +y 2 y1 2 2 . Somit y 2 +y 2 −1 ∂Gi e− 1 2 2 . ∂y = 2π j Damit erhält man für (Y1 , Y2 ) folgende Dichte: y 2 +y 2 −1 ∂Gi e− 1 2 2 1 − y12 1 − y22 2 2 √ √ fY1 ,Y2 (y1 , y2 ) = 1 · = e e = . ∂yj 2π 2π 2π Daraus ergibt sich sofort die Behauptung des Satzes. Bemerkung.Mit Hilfe des obigen Satzes lassen sich sehr leicht normalverteilte Zufallszahlen erzeugen: Man generiere zunächst eine Folge von auf (0, 1) stetig gleichverteilten Zufallszahlen x1 , x2 , . . . , x2n−1 , x2n . Dann transformiere man (x2i−1 , x2i ) ∀i = 1, . . . , n durch q q y2i−1 = −2 ln x2i−1 cos 2πx2i , y2i = −2 ln x2i−1 sin 2πx2i . Die so entstandenen Zufallszahlen y1 , y2 , . . . , y2n−1 , y2n sind unabhängig und normalverteilt. Als nächstes wollen wir uns mit den Eigenschaften normalverteilter Zufallsvariablen beschäftigen: 120 KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ Satz 8.4 Sei X vt N (0, 1); dann gilt: EX = 0 var X = 1 Beweis.Wegen 1 √ 2π Z∞ 2 ∞ 1 − t2 =0 dt = √ e 2π −∞ 2 − t2 te −∞ gilt: EX = 0. Aus: 1 √ 2π Z∞ 2 2 − t2 t e −∞ t dt = √ 2π folgt: 2 − t2 −e ∞ Z∞ 2 1 − t2 √ e dt = 0 + 1 + 2π −∞ −∞ var X = 1. Transformiert man X durch eine lineare Abbildung, etwa in der Form Y := σX + µ, so erhält man eine Zufallsvariable Y , deren Dichte aufgrund des Transformationssatzes folgendermaßen aussieht: fY (y) = √ (y−µ)2 1 e− 2σ2 2πσ und für welche klarerweise gilt: EY = µ, σY2 = σ 2 (y−µ)2 √ Definition 8.2 Eine Zufallsvariable Y mit der Dichte fY (y) = 1/( 2πσ)e− 2σ2 wird normalverteilt mit dem Mittel µ und der Varianz σ 2 (Y ist N (µ, σ 2 )-verteilt) genannt. Bemerkung.Die Verteilungsfunktion einer N (µ, σ 2 )-verteilten Zufallsvariablen Y kann leicht aus der Verteilungsfunktion Φ der Standardnormalverteilung bestimmt werden. Es ist nämlich X = (Y − µ)/σ nach N (0, 1) verteilt und daher: Y −µ y−µ y−µ FY (y) = P (Y ≤ y) = P ≤ =Φ σ σ σ Weiters gilt: 121 8.2. DIE NORMALVERTEILUNG Satz 8.5 Sind X1 , . . . , Xn unabhängige nach N (µi , σi2 )-verteilte Zufallsvariable, so P P P ist Sn = ni=1 Xi nach N ( ni=1 µi , ni=1 σi2 )-verteilt. Beweis.Wir beweisen zunächst, daß gilt X1 vt N (0, 1) ⇒ X1 + X2 vt N (0, 1 + σ 2 ) X2 vt N (0, σ 2 ) X1 , X2 ua Es gilt fX1 +X2 (z) = Z∞ −∞ 1 − (z−t)2 − t22 2 e e 2σ dt. 2πσ (z − t)2 + t2 /σ 2 kann folgendermaßen umgeformt werden: 2 t2 2 2 σ +1 (z − t) + 2 = t − 2zt + z 2 σ σ2 !2 √ σ σ2 + 1 σ2 t− √ z2 + z2 = z − 2 2 σ σ + 1 σ +1 Somit gilt fY (z) = √ 2 − z2 1 e 2πσ 1 σ 2 +1 Z∞ −∞ − 21 1 √ e 2π √ σ 2 +1 t− √ σ2 z σ σ +1 2 dt √ √ Mit der Substitution v = σ 2 + 1t/σ − σz/ σ 2 + 1 erhält man daraus: fY (z) = = Daraus folgt 2 1 σ − z √ √ e 2(σ2 +1) 2πσ σ 2 + 1 1 p 2π(σ 2 + 1) 2 − z2 2(σ +1) e Z∞ −∞ v2 1 √ e− 2 dv 2π . X1 + X2 vt N (0, 1 + σ 2 ). Sei nun X1 vt N (µ1 , σ12 ), X2 vt N (µ2 , σ22 ), X1 , X2 ua, so gilt Y1 = (X1 − µ1 )/σ1 vt N (0, 1), Y2 = (X2 −µ2 )/σ1 vt N (0, σ22 /σ12 ). Daraus folgt Y1 +Y2 vt N (0, 1+σ22 /σ12 ) = N (0, (σ12 + σ22 )/σ12 ). Damit erhält man aber sofort: X1 + X2 − µ1 − µ2 vt N (0, σ12 + σ22 ) ⇒ X1 + X2 vt N (µ1 + µ2 , σ12 + σ22 ). Der Rest des Beweises ergibt sich durch vollständige Induktion. Bemerkung.Sind Y1 , Y2 , . . . , Yn ua vt N (0, 1), so ist auf Grund obigen Satzes auch √ (Y1 + · · · + Yn )/ n vt N (0, 1). 122 8.3 KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ Der zentrale Grenzverteilungssatz Wir haben gesehen, daß bei unabhängig durchgeführten alternativverteilten VersuP √ chen ( ni=1 Xi − np)/ npq näherungsweise N (0, 1)-verteilt ist. Es erhebt sich die Frage, ob ähnliche Aussagen auch für unabhängige Zufallsvariable mit beliebiger Verteilung getroffen werden können. Tatsächlich gilt: Satz 8.6 (zentraler Grenzwertsatz für u.a. identisch verteilte Zufallsvariable) Ist (Xn ) eine Folge von unabhängig identisch verteilten Zufallsvariablen mit EXi := µ und var(Xi ) = E(Xi − µ)2 = σ 2 < ∞, so gilt: Pn i=1√Xi − nµ lim P a ≤ ≤ b = Φ(b) − Φ(a) n→∞ nσ Beweis.Wir beweisen diesen Satz unter der zusätzlichen Voraussetzung, daß E|Xi |3 < ∞ ist (Ljapunows Form des zentralen Grenzverteilungssatzes) und folgen der von LeCam in [5] vorgestellten Beweisidee. Sei ϕ eine 3-fach stetig differenzierbare, beschränkte Funktion auf R, deren Ableitungen 1-ter, 2-ter und 3-ter Ordnung ebenfalls beschränkt sind. Sei weiters ohne Einschränkung der Allgemeinheit angenommen, daß EXi = 0, σ 2 = 1, und seien Y1 , Y2 , . . . unabhängige, nach N (0, 1) identisch verteilte Zufallsvariable. Dann gilt: Eϕ(X1 + · · · + Xn ) − Eϕ(Y1 + · · · + Yn ) = E ϕ(X1 + · · · + Xn ) − ϕ(X1 + · · · + Xn−1 + Yn ) + ϕ(X1 + · · · + Xn−1 + Yn ) − ϕ(X1 + · · · + Xn−2 + Yn−1 + Yn ) + ϕ(X1 + · · · + Xn−2 + Yn−1 + Yn ) − · · · − ϕ(X1 + Y2 · · · + Yn ) + ϕ(X1 + Y2 · · · + Yn ) − ϕ(Y1 + · · · + Yn )) n X Eϕ(X1 + · · · + Xk−1 + Yk+1 + · · · + Yn + Xk ) = k=1 − Eϕ(X1 + · · · + Xk−1 + Yk+1 + · · · + Yn + Yk ) Sei ϑk := X1 + · · · + Xk−1 + Yk+1 + · · · + Yn , dann gilt: · · · + Xn Y1 + · · · + Yn Eϕ X1 + √ √ − Eϕ n n n X ϑk + Yk + Xk Eϕ ϑk √ √ − Eϕ ≤ n n k=1 Da ϕ 3-fach differenzierbar ist, gilt: ϕ(x + y) = ϕ(x) + yϕ′ (x) + y3 y 2 ′′ ϕ (x) + ϕ′′′ (ỹ) mit ỹ ∈ [x, x + y] 2 6 8.3. DER ZENTRALE GRENZVERTEILUNGSSATZ 123 Wendet man dies auf ϕ(ϑk + Xk ) bzw. auf ϕ(ϑk + Yk ) an, und berücksichtigt man ferner, daß Xk und ϑk bzw. Yk und ϑk voneinander unabhängig sind, so erhält man: Eϕ(ϑk + Xk ) = Eϕ(ϑk ) + EXk Eϕ′ (ϑk ) + = Eϕ(ϑk ) + EXk3 ′′′ EXk2 ′′ Eϕ (ϑk ) + Eϕ (ϑ̃k ) 2 6 Eϕ′′ (ϑk ) EXk3 ′′′ + Eϕ (ϑ̃k ) 2 6 Einen analogen Ausdruck erhält man für Eϕ(ϑk + Yk ). Daraus ergibt sich dann: · · · + Xn Y1 + · · · + Yn Eϕ X1 + √ √ − Eϕ n n ! ! n ˜ X ϑ̃k E|Xk |3 + E|Yk |3 ′′′ ϑ̃k ′′′ √ √ +ϕ ≤ E ϕ n n 6n3/2 k=1 ≤ nC C̃ 3 3 E|X | + E|Y | ≤√ , 1 1 n n3/2 wobei C, C̃, geeignete Konstante sind. Kann man diese Aussage auch für Sprungfunktionen Ψx (y) = 1(−∞,x] (y) beweisen, so ist der Beweis fertig, denn es gilt: X1 + · · · + Xn X1 + · · · + Xn √ √ EΨx ≤x =P n n und Y1 + · · · + Yn Y1 + · · · + Yn √ √ ≤ x = Φ(x) =P n n √ (da (Y1 + · · · + Yn )/ n nach N (0, 1) verteilt ist). Sei also ǫ > 0 und definiere: 1 für y ≤ x h i 4 4 für x ≤ y ≤ x + ǫ 1 − y−x Ψx,ǫ (y) := ǫ 0 sonst EΨx dann ist Ψx,ǫ 3-fach differenzierbar und beschränkt, und alle 3 Ableitungen sind beschränkt. Außerdem gilt: Ψx−ǫ ≤ Ψx−ǫ,ǫ ≤ Ψx ≤ Ψx,ǫ ≤ Ψx+ǫ Daraus folgt: Φ(x + ǫ) = EΨx+ǫ Y1 + · · · + Yn √ n 124 KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ Y1 + · · · + Yn √ ≥ EΨx,ǫ n Y1 + · · · + Yn √ = Φ(x) ≥ EΨx n Y1 + · · · + Yn √ ≥ EΨx−ǫ,ǫ = Φ(x − ǫ) n und P X1 + · · · + Xn √ ≤x+ǫ n X1 + · · · + Xn X1 + · · · + Xn √ √ ≥ EΨx,ǫ ≤x ≥P n n X1 + · · · + Xn X1 + · · · + Xn √ √ ≥ EΨx−ǫ,ǫ ≤x−ǫ ≥P n n Das impliziert aber: X1 + · · · + Xn X1 + · · · + Xn √ √ ≤ x ≤ lim sup EΨx,ǫ lim sup P n n Y1 + · · · + Yn √ = lim sup EΨx,ǫ ≤ Φ(x + ǫ) n und lim inf P X1 + · · · + Xn √ ≤x n ≥ lim inf EΨx−ǫ,ǫ Y1 + · · · + Yn √ n ≥ Φ(x − ǫ) Somit erhält man letztlich ∀ǫ > 0: X1 + · · · + Xn √ ≤x Φ(x − ǫ) ≤ lim inf P n X1 + · · · + Xn √ ≤ lim sup P ≤ x ≤ Φ(x + ǫ) n und es gilt daher: X1 + · · · + Xn √ ≤ x = Φ(x). lim P n n Falls der zentrale Grenzwertsatz Gültigkeit besitzt, liefert er im allgemeinen wesentlich bessere Abschätzungen, als die Tschebyscheffsche Ungleichung. Beispiel 8.2 Wir kehren zurück zu Beispiel 6.2 aus Kapitel 6. In diesem Beispiel sollte der Wähleranteil einer Partei mit einer Wahrscheinlichkeit von 0.99 auf ǫ = ±0.01 genau vorhergesagt werden. Mit Hilfe der Tschebyscheffschen Ungleichung 8.3. DER ZENTRALE GRENZVERTEILUNGSSATZ 125 konnten wir zeigen, daß dafür ein Stichprobenumfang von n ≈ 250000 ausreicht. √ √ Unter Verwendung des Zentralen Grenzwertsatzes bekommt man mit ǫ̃ := ǫ n/ pq: # " n # " n 1 X X X − np ǫ√n i P Xi − p ≤ ǫ = P ≤ √ √ n npq pq i=1 i=1 ≈ Φ(ǫ̃) − Φ(−ǫ̃) = 2Φ(ǫ̃) − 1 ≥ 0.99 n= pq ǫ2 √ ǫ n √ pq = Φ−1 (0.995) ⇒ 4 2 Φ−1 (0.995) ≥ 104 · 2.57582 ≈ 16587 Φ(ǫ̃) = 0.995 ⇒ Man benötigt also nur knapp 7% des ursprünglichen Stichprobenumfangs. Zum Abschluß sei noch darauf hingewiesen, daß der Zentrale Grenzwertsatz unter gewissen Voraussetzungen auch bei nicht identisch verteilten Zufallsvariablen gültig ist, und daß auch die Unabhängigkeitsannahme gemildert und durch bestimmte Formen von Abhängigkeiten zwischen den Zufallsvariablen ersetzt werden kann. Über diese Verallgemeinerungen existiert eine umfangreiche Literatur. 126 KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ Literaturverzeichnis [1] Feller, W. (1966). An Introduction to Probability Theory and Its Applications. Wiley, New York. [2] Fisz, M. (1989). Wahrscheinlichkeitsrechnung und mathematische Statistik. VEB Deutscher Verlag d. Wissenschaften, Berlin. [3] Fouché, H. (1956). Gaines Cryptoanalysis. Dover, New York. [4] Gnedenko, B. (1976). The Theory of Probability. MIR-Publishers, Moskau. [5] LeCam, L. (1986). The Central Limit Theorem around 1935. Statistical Science, 1986, Vol. 1, No. 1, pp 78–96 (article). [6] Mosteller, F. (1965). Challenging Problems in Probability. Dover, New York. [7] Renyi, A. (1969). Briefe über Wahrscheinlichkeit. Akadémiai Kiadó, Budapest. [8] Renyi, A. (1970). Probability Theory. Akadémiai Kiadó, Budapest. [9] Rosanow, J. (1975). Stochastische Prozesse. Akademie, Berlin. [10] Storm, R. (1979). Wahrscheinlichkeitsrechnung, Mathematische Statistik, Statistische Qualitätskontrolle. VEB Fachbuchverlag, Leipzig. [11] Székely G. (1986). Paradoxes in Probability Theory and Mathematical Statistics. Akadémiai Kiadó, Budapest. [12] Weaver, W. (1963). Lady Luck – The Theory of Probability. Dover, New York. 127