Elementare Stochastik Prof. Dr. Anton Wakolbinger August 2000∗ Mein Dank gilt Frau Jelena Ryvkina und Herrn Michael Messer für die aufmerksame Durchsicht des Skriptums und die Korrektur von Tippfehlern. April 2007, A. W. ∗ Inhaltsverzeichnis 1 Zufallsvariablen und Verteilungen, Ereignisse und Wahrscheinlichkeiten 1 2 Vom gerechten Aufteilen eines Spieleinsatzes 5 3 Vom Stichprobenziehen zum Münzwurf 8 4 Vom Stichprobenziehen zum Würfeln 11 5 Vom Münzwurf zur Binomialverteilung 12 6 Vom Würfeln zur Multinomialverteilung 13 7 Hilfen fürs Abzählen 15 8 Ziehen ohne Zurücklegen. Die hypergeometrische Verteilung 19 9 Der Erwartungswert: naive Definition 22 10 Die Additivität des Erwartungswertes 24 11 Zum Rechnen mit Ereignissen 25 12 Zusammengesetzte Zufallsvariablen 26 13 Unabhängigkeit 27 14 Bedingte Verteilung 30 15 Bedingte Wahrscheinlichkeit 33 16 Markoffketten: Grundbegriffe und Beispiele 37 17 Gleichgewichtsverteilungen 41 18 Der allgemeine Rahmen 44 19 Integral und Erwartungswert 47 20 Übergangswahrscheinlichkeiten 51 21 Fortgesetzter Münzwurf und Gleichverteilung 53 22 Maße mit Dichten und Verteilungsfunktionen 55 23 Varianz und Kovarianz 64 24 Gemeinsame Dichten (bzgl. λ ⊗ λ) 69 i 25 Vom Münzwurf zum Poissonprozeß 71 26 Das schwache Gesetz der großen Zahlen 78 27 Vom Münzwurf zur Glockenkurve: Die Normalapproximation der Binomialverteilung 80 28 Der klassische Zentrale Grenzwertsatz 88 29 Die Normalverteilung 92 30 Große Abweichungen beim Münzwurf 95 31 Große Abweichungen beim Würfeln 99 32 Das Starke Gesetz der Großen Zahlen 104 33 Markoffketten: Auftreffverteilung und Dirichletproblem 106 ii 1 Zufallsvariablen und Verteilungen, Ereignisse und Wahrscheinlichkeiten Eine Zufallsvariable X mit Wertebereich S modelliert die zufällige Auswahl eines Elementes aus der Menge S. X S S kann höchst einfach sein - man denke ans Würfeln, aber auch beliebig kompliziert (statistische Mechanik, Finanzmathematik . . . ). Der mathematischen Frage welche Struktur S tragen muß, werden wir uns später stellen. Erst einmal betrachten wir den Fall S diskret (d.h. endlich oder abzählbar) Sei B ⊆ S. Für das Ereignis X fällt in B“ schreibt man {X ∈ B} ” X B S Ereignissen A kann man unter bestimmten Hypothesen Wahrscheinlichkeiten W s(A) zuordnen. 1 Als Rechenregeln fordern wir P Ws({X ∈ B}) = Ws({X = x}) mit Ws({X = x}) ≥ 0, x∈B P Ws({X = x}) = 1 x∈S Daraus ergibt sich sofort: i Ws ({X ∈ B1 ∪ B2 }) = Ws ({X ∈ B1 }) + Ws({X ∈ B2 }) falls B1 ∩ B2 = ∅ X S P allgemeiner Ws ({X ∈ Bi }) = Ws ({X ∈ Bi }) falls die Bi paarw. disj. ii Ws ({X ∈ B c }) = 1 − Ws ({X ∈ B}) X. Die Zahlen µ(x) := Ws ({X = x}), x ∈ S, nennen wir die Verteilungsgewichte von Die Funktion B 7→ µ(B) := Ws ({X ∈ B}) heißt die Verteilung von X. 1.1 Beispiel S endlich. Rein zufällige Auswahl“ ”1 Ws ({X = x}) = |S| Ws ({X ∈ B}) = |B| |S| X heißt dann gleichverteilt oder Laplaceverteilt auf S. 1.2 Beispiel Die Zufallsvariable Z:= Augensumme beim 2-maligen Würfeln hat Wertebereich {2, . . . 12} D’Alembert (1754, in seiner Encyclopédie) argumentiert, daß alle Ausgänge gleich wahrscheinlich sein sollen. Daß das nicht so ist, hatte allerdings schon Cardano um 1550 in seinem Buch “Liber de Ludo Aleae“ richtig durchschaut. Formal: Z = X1 + X2 , wobei Xi :=zuf. Augenzahl des Würfels i. Aha! Mit Zufallsvariablen kann man also rechnen. Naive Sicht: man verarbeitet die zufälligen Ausgänge gemäß einer Rechenvorschrift (hier: Addition). genauer: man definiert die Ereignisse {Z = i}: {Z = 2} := {(X1 , X2 ) = (1, 1)} {Z = 3} := {(X1 , X2 ) ∈ {(1, 2), (2, 1)} 1 2 Also ergibt sich Ws ({Z = 2}) = 36 , Ws ({Z = 3}) = 36 2 Und allgemeiner: X2 6 5 4 Z = X1 + X2 3 2 X1 1 8 6 5 4 3 2 36 1 36 36 7 5 9 12 1 W s({Z = z}) 11 2 36 10 3 36 5 6 36 36 4 36 36 4 36 36 3 2 1.3 Beispiel Wie wahrscheinlich ist es, beim viermaligen Würfeln mindestens eine 6 zu werfen? S = {1, 2, . . . , 6}4 Wir betrachten das Gegenereignis“: keine 6 zu werfen. ” B = {1, 2, . . . , 5}4 4 Ws ({X ∈ B}) = 654 = ( 65 )4 Damit ergibt sich die gesuchte Wahrscheinlichkeit zu 5 Ws ({X ∈ B c }) = 1 − ( )4 > 12 | {z6 } =0,518 Wie wahrscheinlich ist es beim 24-maligen Doppelwürfeln mindestens einmal eine Doppelsechs zu werfen? Die Ausgänge eines Doppelwürfelns kann man durch {(1, 1), (1, 2), . . . (6, 6)} ={1, ˆ 2, 3, . . . , 36} beschreiben. Sei S = {1, 2, . . . , 36}24 B = {1, 2, . . . , 35}24 35 24 ) Ws ({X ∈ B}) = ( 36 3 35 Ws ({X ∈ B }) = 1 − 36 {z | c 24 =0,4914 < 1 2 } Nach einer gängigen Faustregel war man um 1600 geneigt zu sagen: Weil ein Erfolg im Einzelexperiment der 2. Serie nur 16 der Wahrscheinlichkeit eines Einzelexperimentes der 1. Serie hat, muß man in der 2. Serie 6-mal so viele Versuche machen, bis die Wahrscheinlichkeit für mindestens einen Erfolg“ 12 übersteigt. ” Das brachte Chevalier de Méré aus der Fassung. Die landläufige Geschichte ist die, daß er erst einmal das zweite Spiel eingeführt hat, um neue Partner zu interessieren (weil das erste schon fad wurde) und dann gemerkt hatte, daß er mit 24 verlor, worauf er 24 durch 25 ersetzte - und tatsächlich wurde das Spiel dann für ihn günstig: 35 25 ) = 0, 5055 1 − ( 36 Der Punkt ist allerdings, daß er recht lange hätte spielen müssen, um dies aus dem beobachteten Spielergebnis einigermaßen vertrauenswürdig schließen zu können - wir werden darauf später noch einmal zu sprechen kommen. 4 2 Vom gerechten Aufteilen eines Spieleinsatzes Zwei Spieler vereinbaren folgendes Spiel. Am Anfang setzt jeder eine Mark. In jeder Runde werfen sie eine faire Münze. Kommt Kopf, gewinnt A die Runde. Kommt Zahl, gewinnt B die Runde. Derjenige Spieler soll den gesamten Einsatz bekommen, der als erster insgesamt 4 Runden gewonnen hat. Nach drei Runden hat A zweimal gewonnen und B einmal. Wie ist der Einsatz gerecht aufzuteilen, wenn die beiden das Spiel zu diesem Zeitpunkt abbrechen? (Fra Luca Paccioli im Buch Summa de Arithmetica, Geometria, Proportioni et Pro” portionalita, 1494, Venedig“ In diesem Fall habe ich gefunden, daß die Meinungen un” terschiedlich sind, alle scheinen mir unzureichend in ihren Argumenten, aber ich werde die Wahrheit feststellen und den wahren Weg angeben“) Bis zu Pascal und Fermat gab es keine korrekte Lösung dieses sogenannten Problems ” der Punkte“. Fermats Lösung mit gleich wahrscheinlichen Pfaden: Nach mindestens 4 weiteren Runden ist das Spiel entschieden. Er läßt die Spieler in Gedanken weiterspielen, um gleichwahrscheinliche Ausgänge zu bekommen. Spieler A gewinnt, wenn in den 4 Runden mindestens zwei Gewinne sind. KKKK KKKZ KKZK KKZZ KZKK KZKZ KZZK KZZZ Ws (A gewinnt) = ZKKK ZKKZ ZKZK ZKZZ ZZKK ZZKZ ZZZK ZZZZ 11 16 5 Geometrische Deutung: Anzahl Gewinne von B relative Anzahl der möglichen Spielverläufe, die hierher führen = Ws (A gewinnt) (2, 1) Anzahl Gewinne von A Schritt nach rechts bedeutet Gewinn von A, Schritt nach oben bedeutet Gewinn von B. Pascal schrieb an Fermat in Toulouse um 1654: Werter Herr, ” wie Sie bin ich gleichermaßen ungeduldig, und obwohl ich wieder krank im Bett liege, muß ich Ihnen einfach mitteilen, daß ich gestern abend Ihren Brief [. . . ] mit der Lösung des Problems der Punkte“ bekommen habe, die ich mehr bewundere als ich sagen kann. ” Ihre Methode ist sehr sicher und ist die erste, die mir in dieser Forschung in den Sinn kam; aber weil die Mühe der Berechnung exzessiv ist, habe ich eine Abkürzung gefunden und in der Tat eine Methode, die viel schneller und klarer ist, als ich Ihnen hier in ein paar Worten sagen will, denn fürderhin will ich Ihnen mein Herz öffnen, wenn ich darf, weil ich so über die Maße froh bin über unsere Übereinstimmung. Ich sehe, daß die Wahrheit diesselbe ist in Toulouse wie in Paris. . .“ Im Original klingt’s noch schöner: Monsieur, ” L’impatience me prend aussi qu’à vous et, quoique je sois encore au lit, je ne puis m’empêcher de vous dire que je reçus hier au soir [. . . ] votre lettre sur les partis, que j’admire si fort que je ne puis vous le dire. [. . . ] Votre méthode est très sûre et est celle qui m’est la première venue à la pensée dans cette recherche; mais parce que la peine des combinaisons est excessive, j’en ai trouvé un abrégé et proprement une autre méthode bien plus courte et plus nette, que je voudrais pouvoir vous dire ici en peu de mots: car je voudrais désormais vous ouvrir mon cœur, 6 s’il se pouvait, tant j’ai de joie de voir notre rencontre. Je vois bien que la vérité est la même à Toulouse et à Paris. [. . . ]“ Pascals Lösung mit Rückwärtsinduktion“: ” Schreibe die Gewinnwahrscheinlichkeiten von A zu den möglichen Spielständen, beginne am Rand“, rechne sukzessive zurück. ” 0 0 0 1 4 1 2 1 1 2 3 4 1 Startend von hier aus, führt die Hälfte aller Pfade zu Gewinn von A 11 16 7 8 1 1 2 7 · 1 + 12 · 1 2 = 3 4 3 Vom Stichprobenziehen zum Münzwurf Aus einer Urne mit 5 schwarzen und 15 weißen Kugeln wird 8 mal rein zufällig mit Zurücklegen gezogen. Aufgabe: Wie wahrscheinlich ist die Zugfolge (s,w,w,s,w,w,w,w) ? Feinmodellierung“: Kugeln durchnumeriert mit 1,. . . ,20. ” X . . . zufällige Zugfolge X ist Laplaceverteilt auf SX := {1, . . . , 20}8 (man beachte die Analogie zum mehrfachen Würfeln) X = (X1 , . . . , X8 ) Xi gibt an, welche Nummer beim i-ten Zug gezogen wird. Wir geben den 5 schwarzen Kugeln die Nummern 1, . . . ,5, den 15 weißen die Nummern 6,. . . ,20. An der Zugfolge x = (x1 , . . . , x8 ) beobachten wir die Farbe beim i-ten Zug: ( 1 falls xi ∈ {1, . . . , 5} fi (x) := 0 sonst kurz: fi (x) := 1{1,...,5} (xi ) Wir setzen Yi := fi (X) := 1{1,...,5} (Xi ). Y X f f −1 (B ′ ) B′ Y = f (X) ist definiert durch {Y ∈ B ′ } := {X ∈ f −1 (B ′ )} Die Aufgabe läß sich umformulieren zu Ws ({(Y1, . . . , Y8 ) = (1, 0, 0, 1, 0, 0, 0, 0)}) =? {z } | =:A 8 Damit ist die Aufgabe auf ein Problem des Abzählens reduziert. Wieviele x gibt es insgesamt? Antwort: 208 Wieviele davon führen auf f (x) = (1, 0, 0, 1, 0, 0, 0, 0) ? Das sind 5 · 15 · 15 · 5 · 15 · 15 · 15 · 15 = 52 · 156 Damit ergibt sich als Lösung der Aufgabe: 52 · 156 = Ws(A) = 208 2 6 1 3 · 4 4 3.1 Definition Sei p ∈ [0, 1], n ∈ N. Eine {0, 1}n -wertige Zufallsvariable Y = (Y1 , . . . , Yn ) heißt münzwurfverteilt zum Parameter p :⇐⇒ Ws ({Y = (y1 , . . . yn )}) = pk (1 − p)n−k falls die Folge (y1 , . . . , yn ) k Einsen und (n − k) Nullen besitzt. (Man nennt Y auch zufällige Münzwurffolge zum Parameter p“.) ” (Fingerübung: Beweise, daß die Summe dieser Verteilungsgewichte in der Tat eins ist.) Aus dem Münzwurf gewinnt man andere interessante Modelle: 1) Vi := 2(Yi − 21 ) V = (V1 , . . . , Vn ) ist {−1, 1}n -wertig, Ws ({V = (v1 , . . . , vn )}) = pk (1 − p)n−k falls (v1 , , . . . , vn ) k Plus-Einsen und (n − k) Minus-Einsen hat. Wi := V1 + V2 + . . . + Vi (W1 , W2 , . . .) heißt Irrfahrt auf Z zum Parameter p (mit Start in 0) 2) (Multiplikative Variante von 1)): Sei 0 < d < u ( u falls Yi = 1 Fi := d falls Yi = 0 Si := s0 i Q Fj wurde von Cox, Ross und Rubinstein (1979) verwendet zur Beschrei- j=1 bung der Preise eines Wertpapiers (und ist bis heute ein gängiges Modell). 9 Wie gewinnt man eine zufällige Münzwurfrealisierung? p rational, p = M N M schwarze Kugeln, N − M weiße Kugeln Ziehe n-mal mit Zurücklegen, beobachte die Farbfolge In der Realität: unsere Urne ist der Computer N = 232 M := [pN] Generierung einer Folge von Pseudozufallszahlen“ Xi ∈ {0, 1, . . . , N − 1} ” Übung: Simulieren Sie (im Gedenken an Chevalier de Méré) 10 Münzwurfrealisierungen jeweils mit n =10 a) für p = 1 2 b) für p = 0, 518 c) für p = 0, 4914 10 4 Vom Stichprobenziehen zum Würfeln Denken wir uns einen Würfel mit r Seiten, der so gezinkt ist, daß die Seite j mit Wahrscheinlichkeit pj kommt (p1 + . . . + pr = 1). Als Modell für das n-malige Werfen betrachten wir die {1, . . . , r}n -wertige Zufallsvariable Y = (Y1 , . . . , Yn ) mit Verteilungsgewichten Ws ({Y = (y1 , . . . , yn )}) := pk11 . . . pkr r falls in y = (y1 , . . . , yr ) genau k1 mal die 1 .. . genau kr mal die r vorkommt. Wie können wir diese Verteilung durch Ziehen von Kugeln aus einer Urne darstellen? M Für rationale pj sei pj = Nj , j = 1, . . . , r Beispiel: r =3 In einer Urne sind insgesamt N =20 Kugeln. Davon sind 5 gelb, 11 weiß und 4 blau. Wir ziehen rein zufällig mit Zurücklegen. Wie wahrscheinlich ist die Zugfolge (g,w,b,g,b,b,g,b)? Lösung: Wir beschriften die Kugeln mit 1,. . . ,20 und zwar so, daß die gelben Kugeln die Nummern 1,. . . ,5 erhalten, die weißen die Nummern 6,. . . ,16 und die blauen die Nummern 17,. . . ,20. Sei G := {1, . . . , 5}, W := {6, . . . , 16}, B := {17, . . . , 20}, X = (X1 , . . . , X8 ) sei Laplace-verteilt auf {1, . . . , 20}8 1 Yi := 2 3 falls Xi ∈ G falls Xi ∈ W falls Xi ∈ B 5 · 11 · 4 · 5 · 4 · 4 · 5 · 4 Ausgänge der insgesamt 208 möglichen Ausgänge für X führen auf das Ereignis A := {Y = (1, 2, 3, 1, 3, 3, 1, 3)}. Also: 3 1 4 11 4 5 · · Ws (A) = 20 20 20 11 5 Vom Münzwurf zur Binomialverteilung Y = (Y1 , . . . , Yn ) sei ein Münzwurf zum Parameter p (das Ereignis {Yi = 1} interpretieren wir als Erfolg beim i-ten Versuch“). ” g(y) := y1 + . . . + yn , Z := Y1 + . . . + Yn . . . Gesamtzahl der Erfolge g Y {0, 1, . . . , n} Sy = {0, 1}n Ws({Z = k}) =? P Wieviele y ∈ Sy mit yi = k gibt es? Auf wieviele Arten kann man k Einsen auf n Plätze verteilen? n! Antwort: Auf nk := k!(n−k)! Arten. Jedes derartige y hat Gewicht pk (1 − p)n−k Also: Ws({Z = k}) = nk pk (1 − p)n−k 5.1 Definition Die Verteilung auf {0, . . . , n} mit den Gewichten n k p (1 − p)n−k µ(k) := k heißt Binomialverteilung zu den Parametern n und p. 12 6 Vom Würfeln zur Multinomialverteilung Y = (Y1 , . . . , Yn ) sei ein Würfelexperiment“, wie in Abschnitt 4 beschrieben. ” Wie wahrscheinlich ist es, dabei k1 -mal das Ergebnis 1, .. . kr -mal das Ergebnis r, (mit k1 + . . . + kr = n) zu erhalten? Jeder einzelne dieser Ausgänge hat die Wahrscheinlichkeit pk11 . . . pkr r Wieviele derartige Ausgänge gibt es? So viele, wie es Möglichkeiten gibt auf n Plätze k1 -mal die 1, .. . k -mal die r zu setzen. k1 r k n n := Anzahl der Also ist die gesuchte Wahrscheinlichkeit k1 ...kr p1 . . . pr r , mit k1 ...k r Möglichkeiten, n Plätze in r Klassen der Größe k1 , . . . kr einzuteilen. Vom Würfeln zur Multinomialverteilung kommt man durch eine Verarbeitung der Folge y = (y1 , . . . , yn ) zu den Häufigkeiten gj (y) := #{i | yi = j} Bn,r := {(k1 , . . . , kr ) | kj ∈ N0 , k1 + . . . + kr = n} heißt Menge der Besetzungszahlen von r Plätzen mit n Objekten. Y g Bn,r Sy = {1, 2, . . . , r}n Z := g(Y ) hat die Verteilungsgewichte Ws({Z = (k1 , . . . , kr )}) = n pk1 . . . pkr r k1 . . . kr 1 6.1 Definition Die dadurch festgelegte Verteilung auf Bn,r heißt Multinomialverteilung mit Parametern n, p1 , . . . , pr . 13 Zur Wiederholung (Vom Stichprobenziehen übers Würfeln zur Multinomialverteilung): Z Y X g f Sx = {1, . . . , N}n Sy = {1, . . . , r}n |C | Sz = Bn,r {C1 , . . . , Cr } sei Partition von {1, . . . , N} mit pj := Nj fi (x) := j falls xi ∈ Cj Y := f (X) gj (y) := #{i | yi = j} Z = g(Y ) Ist X Laplace-verteilt, so ist Z multinomial-(n; p1 , . . . , pr )-verteilt. 14 7 Hilfen fürs Abzählen a) Auswahl mit Reihung Bilden eines k-köpfigen Komitees mit Reihung aus n Leuten.“ ” # Möglichkeiten = n(n − 1) . . . (n − k + 1) =: [n]k (n Möglichkeiten für den ersten Platz, n−1 Möglichkeiten für den zweiten Platz, . . . ) n=4 k=2 [4]2 = 4 · 3 speziell: k = n [n]n =: n! = 1 · 2 · . . . · n (Anzahl der Permutationen von {1, . . . , n}) b) Auswahl ohne Reihung Bilden eines k-köpfigen Komitees ohne Reihung aus n Leuten.“ ” n k # Möglichkeiten = [n] =: Binomialkoeffizient“ k! k ” (wie in a), mit Zusammenfassen der k! möglichen Anordnungen des Komitees zu einem Ausgang) Pascal’sches Dreieck 1 1 1 1 1 1 2 3 4 5 1 1 3 6 10 1 4 10 1 5 1 · · · 15 n n Rekursion: n+1 = + . Interpretation: Anzahl der Möglichkeiten, aus n k+1 k+1 k Männern und einer Frau ein k + 1 köpfiges Komitee auszuwählen. Entweder die Frau ist nicht dabei. . . oder sie ist dabei. . . Beispiel: Binomischer Lehrsatz: (a + b)n = (a + b)(a + b) . . . (a + b) = n P k=0 Die Potenz k gibt an, wie oft der Faktor a zum Zug kommt. n k ak bn−k c) Einteilen von n Leuten in r Klassen der Größe k1 , . . . , kr Bsp.: 40 Studenten in 4 Übungsgruppen à 10 Studenten: 30 20 10 40 · 10 · 10 · 10 = 10! 10!40!10! 10! 10 (Hier stellt man sich für S die Blätter eines Baumes vor. 40 Kanten in der ersten Generation; von jedem gehen 10 30 Kanten in die zweite Generation, . . . ) 10 Allgemein: n − k1 − . . . − kr−1 n − k1 n = ... · kr k2 k1 [n]k1 [n − k1 ]k2 . . . [n − k1 − . . . − kr−1 ]kr k1 ! . . . kr ! n! = k1 ! . . . kr ! = n! =: Fazit: Es gibt k1 !...k r! k1 , . . . , kr einzuteilen. n k1 ,...,kr Möglichkeiten, n Leute in r Klassen der Größe Dem entspricht der multinomische Lehrsatz: n (a1 + . . . + ar ) = X k1 +...+kr =n 16 n ak1 . . . akr r k1 , . . . , kr 1 d) Besetzen von r (durchnumerierten) Schachteln mit n nichtunterscheidbaren Kuglen, so, daß keine Schachtel leer bleibt: wieviele Möglichkeiten gibt es? z.B.: r = 2, n = 4 3 Möglichkeiten Vorstellung: Lege n Kugeln hin. Trenne sie durch r − 1 Trennwände in r Blöcke“ ” | | | r = 4, n = 7 Die r − 1 Trennwände können an r − 1 von n − 1 möglichen Plätzen angebracht werden. Also n−1 Möglichkeiten. r−1 e) Besetzen von r (durchnumerierten) Schachteln mit n nichtunterscheidbaren Kugeln: wieviele Möglichkeiten gibt es? z.B.: r = 2, n = 4 5 Möglichkeiten Vorstellung: Sehe n + (r − 1) mögliche Plätze in Reihe vor. Beliebige r − 1 davon werden zu Trennwänden, der Rest zu Kugeln erklärt. Z.B.: r=3, n=5: Der Ausgang | | 17 steht dann für k1 = 0, k2 = 0, k3 = 5“ ” n+r−1 n+r−1 Es gibt r−1 = Möglichkeiten. n 7.1 Definition a) Die Laplaceverteilung auf Bn,r heißt auch Bose-Einstein-Verteilung 1 ). auf Bn,r . (Jeder Ausgang z ∈ Bn,r hat dann Gewicht n+r−1 ( n ) 1 1 b) Die Multinomialverteilung zu den Parametern (n, , . . . , ) heißt auch Maxwell|r {z r} r−mal Boltzmann-Verteilung auf Bn,r . 7.2 Beispiel n = 40, r = 6 Die Besetzungszahlen der Ausgänge 1, . . . , 6 beim klassischen 40-maligen Würfeln sind Maxwell-Boltzmann verteilt. Wie wir zeigen werden, führt folgendes Zufallsexperiment auf die Bose-EinsteinVerteilung: 46 Studierende sind im Hörsaal, 6 sitzen in der 1. Reihe. Der 7. wählt rein zufällig einen der 6, der 8. wählt rein zufällig einen der 7, . . . Auf diese Art bilden sich 6 Menschentrauben. Die sich ergebenden Besetzungszahlen der Zugänge“ sind Bose-Einstein verteilt auf B40,6 . ” 18 8 Ziehen ohne Zurücklegen. Die hypergeometrische Verteilung In einer Urne befinden sich N Kugeln, davon M schwarze und N −M weiße. Wir ziehen ohne Zurücklegen n-mal. Wie groß ist die Wahrscheinlichkeit, dabei k schwarze und n − k weiße zu ziehen? Die Kugeln seien durchnumeriert mit 1, . . . , N, die ersten M davon sind schwarz. •| •{z• •} ◦| ◦ ◦{z◦ ◦ ◦} N −M M Die Möglichkeiten, aus N Kugeln n herauszugreifen, werden modelliert durch die Menge S der n-elementigen Teilmengen von {1, . . . , N}. Sei G eine reinzufällige Wahl aus S. Die Anzahl der schwarzen Kugeln in der durch G dargestellten Stichprobe ist Z := #(G ∩ {1, . . . , M}). Wieviele g ∈ S gibt es insgesamt? Antwort: Nn Wieviele g ∈ S sind günstig für {Z = k}? −M Antwort: Mk Nn−k Also: Ws({Z = k}) = 19 M k N −M n−k N n Wir können G und Z auch in einem feineren Modell darstellen: Z Y X SY = {0, 1}n SX := Menge der SZ = {0, . . . , n} Permutationen von {1, . . . , N} X := rein zufällige Permutation von {1, . . . , N}, G := {X1 , . . . , Xn } Yi := 1{1,...,M } (Xi ), i = 1, . . . , n n P Z := Yi i=1 Diese Darstellung wird uns im nächsten Abschnitt hilfreich sein. 8.1 Definition Die durch die Gewichte µN,M,n (k) := M k N −M n−k N n , k = 0, 1, . . . , n festgelegte Verteilung auf {0, . . . , n} heißt hypergeometrische Verteilung zu den Parametern N, M, n. 20 8.2 Bemerkung Für N → ∞, M → ∞ und M N → p ∈ [0, 1] gilt (für n, k fest): n k p (1 − p)n−k µN,M,n (k) → k ( Binomialapproximation der hypergeometrischen Verteilung“) ” n P yi ). Im feineren Modell entspricht dem ( mit tk := i=1 WsM,N ({(Y1 , . . . , Yn ) = (y1 , . . . , yn )}) = = M (M − 1) . . . (M − k + 1) (N − M) . . . (N − M − n − k + 1) N(N − 1) . . . (N − n + 1) −→ →p N →∞, M N pk (1 − p)n−k (die Züge kommen sich für große N und M nur mit einer kleineren Wahrscheinlichkeit in die Quere.) 21 9 Der Erwartungswert: naive Definition Sei Z eine Zufallsvariable mit Verteilung µ auf dem endlichen Wertebereich S ⊆ R. Wir definieren: X X E Z := zWs({Z = z}) = zµ(z) z∈S z∈S (Erwartungswert von Z, 1. Moment von Z) Beachte: E Z ist eine Zahl, die sich durch die Verteilung µ ausdrücken läßt. Sie ist das mit µ(z) gewichtete Mittel der Werte z ∈ S. Man spricht auch vom Erwartungswert der Verteilung µ. 9.1 Beispiel 1) Erwartungswert der Binomialverteilung mit Parametern n, p. n P k nk pk (1 − p)n−k = k=1 n P k=1 n n−1 k−1 p pk−1 (1 − p)(n−1)−(k−1) n−1 X n−1 pk (1 − p)n−1−k =n ·p · k {z } |k=0 =1 2) Erwartungswert der hypergeometrischen Verteilung mit Parametern N, M, n n −M P k Mk Nn−k =? k=0 −M Nun ist k Mk Nn−k die Anzahl der Möglichkeiten, aus M Frauen k und aus N − M Männern n − k auszuwählen und dann eine Frau zur Vorsitzenden zu machen. Die Summe von k = 0 bis n ist daher die Anzahl, aus M Frauen und N − M Männern ein n-köpfiges Komitee mit einer Frau als Vorsitzenden auszuwählen. −1 Diese Zahl ist andererseits gleich M Nn−1 (wähle erst die Vorsitzende . . . ) n −M P Insgesamt somit: k Mk Nn−k =M k=0 N −1 n−1 Also ergibt sich EZ = n 22 M N =M N n n N Geht das auch ohne listige Kombinatorik oder stures Rechnen? In der Tat! Sowohl in Beispiel 1) wie in Beispiel 2) hat Z eine Darstellung Z = Y1 + . . . + Yn (in 1) mit in 2) mit Yi := i-ter Ausgang beim Münzwurf, Yi := 1{1,...,M }(Xi ), X rein zufällige Permutation von {1, . . . , N}. In 1) gilt: EYi = p · 1 + (1 − p) · 0 = p · 1 + N −M ·0= M In 2) gilt EYi = M N N N Wenn wir wüßten, daß der Erwartungswert additiv ist (also daß E(Y1 + . . . + Yn ) = EY1 + . . . + EYn gilt), hätten wir’s! 23 10 Die Additivität des Erwartungswertes 10.1 Satz Sind U, V zwei reellwertige Zufallsvariable mit endlichen Wertebereichen, die in einem gemeinsamen Zufallsexperiment auftreten, so gilt: E(U + V ) = EU + EV Vorbemerkung: i) {U = u} = {(U, V ) ∈ {u} × SV } und dementsprechend X Ws ({(U, V ) = (u, v)}) Ws ({U = u}) = v∈SV ii) {U + V = s} = {(U, V ) ∈ {(u, v)|u + v = s}} und dementsprechend Ws ({U + V = s}) = X Ws ({(U, V ) = (u, v)}) (u,v) u+v=s Beweis des Satzes: X E(U + V ) = sWs ({U + V = s}) s = ii) = X s s X X Ws ({(U, V ) = (u, v)}) {(u,v):u+v=s} (u + v) Ws ({(U, V ) = (u, v)}) (u,v) = X u Ws ({(U, V ) = (u, v)}) + (u,v) = X u Ws ({U = u}) + u = EU + EV. X X v Ws ({(U, V ) = (u, v)}) (u,v) v Ws ({V = v}) v i) 2 24 11 Zum Rechnen mit Ereignissen X S endlich oder abzählbar Wir betrachten die Familie von Ereignissen {X ∈ B}, B ⊆ S Mit diesen Ereignissen kann man im Sinn der Aussagenlogik rechnen: {X ∈ B1 } ∩ {X ∈ B2 } := {X ∈ B1 ∩ B2 } {z } | lies: X fällt in B1 und X fällt in B2 {X ∈ B1 } ∪ {X ∈ B2 } := {X ∈ B1 ∪ B2 } | {z } lies: X fällt in B1 oder X fällt in B2 \ i W [ i {X ∈ Bi } := {X ∈ {X ∈ Bi } := {X ∈ \ [ Bi } für B1 , B2 , . . . ⊆ S Bi } für B1 , B2 , . . . ⊆ S V := {X ∈ S} nennen wir auch das sichere Ereignis, := {X ∈ ∅} das unmögliche Ereignis. {X ∈ B}c := {X ∈ B c } das Komplementärereignis von {X ∈ B}. Mit jedem Ereignis A assoziieren wir seine Indikatorvariable IA . Dies ist eine {0, 1}wertige Zufallsvariable mit {IA = 1} := A, {IA = 0} := Ac . 25 12 Zusammengesetzte Zufallsvariablen Wird eine Reihe von Zufallsexperimenten beschriebendurch die Zufallsvariablen X1 , . . . , Xn mit Wertebereichen S1 , . . . , Sn , so läßt sich das zusammengesetzte Experiment beschreiben durch die Zufallsvariable X = (X1 , . . . , Xn ) mit Wertebereich S := S1 × S2 × . . . × Sn . Jedes zu Xi gehörige Ereignis ist auch ein zu X gehöriges Ereignis: {Xi ∈ Bi } = {X ∈ S1 × S2 × . . . × Bi × . . . × Sn } Durch die Verteilung µ von X sind also insbesondere die Verteilungen µi der Xi festgelegt. µi (xi ) = Ws ({Xi = xi }) = Ws ({X ∈ S1 × . . . × Si−1 × {xi } × . . . × Sn }) X µ((x1 , x2 , . . . , xi , . . . , xn )) = x1 ,...,xi−1 ,xi+1 ,...,xn Umgekehrt legen die Verteilungen der Xi aber noch lange nicht die Verteilung von X fest. e := rein zufällige Permutation von 12.1 Beispiel X := rein zufällige Wahl aus {1, . . . , n}n , X ei sind Laplaceverteilt auf {1, . . . , n}. {1, . . . , n}. Sowohl Xi als auch X 26 13 Unabhängigkeit Zwei Zufallsvariablen X1 , X2 nennt man unabhängig, wenn der Ausgang der einen die bedingte Verteilung der anderen nicht beeinflußt, d.h. wenn sich die Gewichte µ((x1 , x2 )), x2 ∈ S2 , auf µ1 (x1 ) in einem Verhältnis aufteilen, das nicht von x1 abhängt. S2 X S1 Mit anderen Worten: ∃c : S2 → R+ mit µ((x1 , x2 )) = µ1 (x1 )c(x2 ) Summation über x1 ergibt dann sofort: µ2 (x2 ) = c(x2 ) Also: µ((x1 , x2 )) = µ1 (x1 )µ2 (x2 ), und damit auch: µ(B1 × B2 ) = µ1 (B1 ) · µ2 (B2 ). 13.1 Definition Zwei Zufallsvariablen X1 , X2 heißen unabhängig :⇔ Ws ({X1 ∈ B1 } ∩ {X2 ∈ B2 }) = Ws ({X1 ∈ B1 }) · Ws ({X2 ∈ B2 }) (⇔ µ((x1 , x2 )) = µ1 (x1 )µ2 (x2 ) ∀x1 ∈ S1 , x2 ∈ S2 ) 13.2 Definition Zwei Ereignisse A1 , A2 heißen unabhängig :⇔ ihre Indikatorvariablen IA1 , IA2 sind unabhängig. Hier ist also S1 = S2 = {0, 1} 1 0 1 p11 p10 0 p01 p00 S1 27 S2 Ws (A1 ∩ A2 ) = Ws (A1 ) · Ws (A2 ) ⇔ p11 = (p11 + p10 )(p11 + p01 ) = p211 + p11 p01 + p11 p10 + p10 p01 = p11 (1 − p00 ) + p10 p01 ⇔ p11 p00 = p10 p01 ⇔ detp = 0 ⇔ IA1 und IA2 sind unabhängig. 13.3 Beispiel S := Menge der Studentinnen und Studenten am Freitag, den 8.5.98 um 11.15 Uhr im Hörsaal 14 der Johann-Wolfgang-Goethe-Universität. Z := daraus rein zufällig ausgewähltes Subjekt A1 := {Z ist männlich} A2 := {Z ist Raucher} MR MN WR WN In unserem Hörsaal ergab sich: R N M 6 13 W 1 11 Die Ereignisse A1 und A2 sind also bei weitem nicht unabhängig. 28 13.4 Definition a) Die Zufallsvariablen X1 , . . . , Xn heißen unabhängig :⇔ Ws ( n \ {Xi ∈ Bi }) = i=1 n Y i=1 Ws ({Xi ∈ Bi }), Bi ⊆ Si ( ⇔ µ((x1 , . . . , xn )) = µ1 (x1 ) . . . µn (xn ), ∀ x1 ∈ S1 , . . . , xn ∈ Sn ) Übung b) Ereignisse A1 , . . . , An heißen unabhängig :⇔ die Indikatorvariablen IA1 , . . . , IAn sind unabhängig ⇔ für jede Teilfamilie Ai1 , . . . , Aik gilt: Übung Ws (Ai1 ∩ . . . ∩ Aik ) = k Y j=1 Ws (Aij ) Anschaulich gesprochen sind 2 Ereignisse unabhängig, wenn das Eintreten des einen das Eintreten des anderen weder wahrscheinlicher noch unwahrscheinlicher macht. Aus der paarweisen Unabhängigkeit folgt nicht die Unabhängigkeit. 13.5 Beispiel X = (X1 , X2 , X3 ) fairer Münzwurf A1 = {X1 = X2 }, A2 = {X2 = X3 }, A3 = {X3 = X1 } Ws (Ai ∩ Aj ) = Ws (Ai ) · Ws (Aj ) = 14 für i = j, aber: das Eintreten von A1 ∩ A2 zieht das Eintreten von A3 nach sich und patsch ist auch Ws (A1 ∩ A2 ∩ A3 ) = 1 1 6= Ws (A1 )Ws (A2 )Ws (A3 ) = 4 8 29 14 Bedingte Verteilung X = (X1 , X2 ) habe Verteilung µ. Wie ist X2 verteilt, gegeben {X1 = x1 }? Wie teilen sich die Gewichte µ((x1 , x2 )), x2 ∈ S2 , auf µ1 (x1 ) auf? 14.1 Definition µ((x1 , x2 )) , x2 ∈ S2 µ1 (x1 ) nennt man die Gewichte der bedingten Verteilung von X2 , gegeben {X1 = x1 }. P (x1 , x2 ) := Oft geht man den umgekehrten Weg: nicht von µ zu µ1 und P , sondern von µ1 und P zu µ. Man denkt sich eine stochastische Dynamik“ P gegeben, die besagt, wie X2 verteilt ” ist, gegeben X1 . Bemerkung und Definition: µ1 sei eine Verteilung auf S1 ; für alle x1 sei P (x1 , .) eine Verteilung auf S2 . Dann wird durch µ((x1 , x2 )) := µ1 (x1 )P (x1 , x2 ) eine Verteilung µ auf S1 × S2 definiert. Man sagt: µ hat Startverteilung µ1 und Übergangswahrscheilichkeit P . Hat X = (X1 , X2 ) diese Verteilung µ, so ergibt sich für die Verteilung µ2 von X2 : X µ1 (x1 )P (x1 , x2 ) µ2 (x2 ) = x1 ∈S1 14.2 Beispiel Wir betrachten 2 Urnen mit weißen und schwarzen Kugeln. Urne 1 hat 100 Kugeln, davon 99 schwarz, 1 weiß. Urne 2 hat 1000 Kugeln, davon 50 schwarz, 950 weiß. 1 10 Erst wählt man mit Wahrscheinlichkeit 11 Urne 1 und mit Wahrscheinlichkeit 11 Urne 2 und zieht dann gleichverteilt aus der gewählten Urne eine Kugel. Urne 1 s Urne 2 w P (1, w) = 0, 01 P (1, s) = 0, 99 P (2, w) = 0, 95 P (2, s) = 0, 05 30 X1 bezeichne die Nummer der gewählten Urne , X2 die Farbe der gezogenen Kugel. Mit welcher Wahrscheinlichkeit zieht man eine schwarze Kugel? µ2 (s) = Ws ({X2 = s}) = µ1 (1)P (1, s) + µ2 (2)P (2, s) 10 1 · 0, 99 + · 0, 05 = 11 11 = 0, 090 + 0, 045 = 0, 135 Die bedingte Verteilung von X1 , gegeben X2 , ist dann von der Form P̂ (x2 , x1 ) := µ((x1 , x2 )) µ1 (x1 )P (x1 , x2 ) = µ2 (x2 ) µ2 (x2 ) Zurück zu unserem Beispiel: Angenommen, die gezogene Kugel ist schwarz. Mit welcher Wahrscheinlichkeit stammt sie aus der 1. Urne ? P̂ (s, 1) = 0, 090 µ((1, s)) = = 0, 66 µ2 (s) 0, 135 Das Beispiel hat eine einprägsame Interpretation in der Welt der Gesundenuntersu1 chung. Angenommen, in einer Bevölkerung sind 11 der Individuen krank und 10 = 90, 9% 11 gesund. Ein krankes Individuum wird mit Wahrscheinlichkeit 0, 99 als krank erkannt, ein gesundes Individuum wird mit Wahrscheinlichkeit 0, 05 (irrtümlich) als krank eingestuft. Dann ist die Wahrscheinlichkeit, daß ein zufällig aus der Bevölkerung herausgegriffenes Individuum gesund ist, gegeben, daß es als krank eingestuft wurde, immer noch ca. 31 ! 14.3 Beispiel X1 Laplaceverteilt auf {1, 2, 3} a) gegeben {X1 = x1 } sei X2 Laplaceverteilt auf {2, 3}\{x1} 1 2 1 2 1 1 31 0 12 21 P := P (i, j)i,j=1,2,3 = 0 0 1 0 1 0 P (1, 2) = P (1, 3) = 12 , P (2, 3) = P (3, 2) = 1 P̂ (2, 1) = µ1 (1)P (1,2) µ2 (2) = P̂ (2, 3) = µ1 (3)P (3,2) µ2 (2) = 1 1 · 3 2 1 2 1 ·1 3 1 2 = 1 3 = 32 . b) gegeben {X1 = x1 } sei X2 = min({1, 2, 3}\{x1}) 1 1 1 0 1 0 P = 1 0 0 1 0 0 P (1, 2) = P (2, 1) = P (3, 1) = 1 P̂ (1, 2) = P̂ (1, 3) = 12 , P̂ (2, 1) = 1 c) gegeben {X1 = x1 } sei X2 Laplaceverteilt auf {1, 2, 3} P̂ = P P = 1 3 1 3 1 3 1 3 1 3 1 3 ... ... ... 32 15 Bedingte Wahrscheinlichkeit A1 , A2 seien zwei Ereignisse mit Ws(A1 ) > 0. Wie verteilen sich die beiden Zahlen Ws (A2 ∩ A1 ) und Ws (Ac2 ∩ A1 ) auf Ws(A1 )? 15.1 Definition Die Zahl Ws (A2 ∩ A1 ) Ws (A1 ) heißt bedingte Wahrscheinlichkeit des Ereignisses A2 , gegeben das (Eintreten des) Ereignis(ses) A1 . Ws (A2 |A1 ) := 15.2 Bemerkung Sei Ws (A1 ) > 0. Dann gilt: A1 und A2 sind unabhängig ⇔ Ws (A2 |A1 ) = Ws (A2 ). 15.3 Beispiel Z := zufällige Anzahl der Asse in einem Blatt von 13 Karten aus 52. Sind die Ereignisse im Blatt ist genau ein As“ und im Blatt ist mindestens ein As“ unabhängig? ” ” Oder begünstigt ein Ereignis das andere? Ws ({Z = 1}|{Z ≥ 1}) = = Ws ({Z = 1}) Ws ({Z ≥ 1}) Ws ({Z = 1} ∩ {Z ≥ 1}) Ws ({Z ≥ 1}) > ↑ W s({Z = 1}) W s({Z=1})>0 und 0<W s({Z≥1})<1 (Ganz allgemein gilt: A2 ⊆ A1 ⇒ Ws (A2 |A1 ) > Ws (A2 ) falls 0 < Ws (A2 ) ≤ Ws (A1 ) < 1. 15.4 Beispiel Sie bekommen 13 aus 52 Karten. Sind die Ereignisse darunter ist das Herz As“ ” und darunter ist genau ein As“ unabhängig? Die beiden Ereignisse seien mit H und A1 ” bezeichnet. Macht das Eintreten von A1 das von H wahrscheinlicher? Offenbar nicht: Ws (H) = 41 (denn die Wahrscheinlichkeit, daß eine feste Karte unter den 13 ist, ist 13 = 41 ) 52 und gegeben, daß man genau ein As hat, ist die Wahrscheinlichkeit, daß es genau das Herz As ist, 41 . 4(48 (51 (48) 12) 12) = 14 . Man kann auch nachrechnen: Ws (A1 ∩H) = 12 52 , Ws (A1 ) = 52 , Ws (H) = ) (13) (13) (52 13 Also: Ws (A1 ∩ H) = Ws (A1 ) · Ws (H). 33 15.5 Beispiel Was ist wahrscheinlicher in einem Spiel mit 13 aus 52 Karten: daß man genau ein As hat, gegeben man hat das Herz As, oder daß man genau ein As hat, gegeben man hat mindestens ein As? Letzteres, denn: Sei H das Ereignis man hat das Herz As“ ” Ws ({Z = 1}|H) = Ws ({Z = 1}) Andererseits: Ws ({Z = 1}|{Z ≥ 1}) > Ws ({Z = 1}) 15.6 Beispiel Was ist wahrscheinlicher in einem Spiel mit 13 aus 52 Karten: daß man mehr als ein As hat, gegeben man hat das Herz As, oder, daß man mehr als ein As hat, gegeben man hat mindestens ein As? Ersteres, denn: Ws ({Z > 1}|H) = 1 − Ws ({Z = 1}|H) Ws ({Z > 1}|{Z ≥ 1}) = 1 − Ws ({Z = 1}|{Z ≥ 1}) Dabei verwendeten wir die Tatsachen 1) Ws (A1 |A2 ) + Ws (Ac1 |A2 ) = 1 und 2) Ws (A1 |A2 ) = Ws (A1 ∩ A2 |A2 ) Beweis: 1) Ws (A2 ) Ws (A1 ∩ A2 ) + Ws (Ac1 ∩ A2 ) = =1 Ws (A2 ) Ws (A2 ) 2) klar 34 Hier sind einige einfache, nützliche Formeln rund um die bedingte Wahrscheinlichkeit: 15.7 Bemerkung Seien E1 , E2 , . . . Ek Ereignisse V W mitEi ∩ Ej = (i 6= j) und E1 ∪ . . . ∪ Ek = . Man sagt dafür auch : E1 , . . . Ek ist ein vollständiges Ereignissystem Sei A ein weiteres Ereignis. Dann gilt: Ws (A) = k X Ws (Ej )Ws (A|Ej ) j=1 W s(Ej )>0 (Formel von der totalen Wahrscheinlichkeit) Beweis: Ws (A) = k X j=1 Ws (A ∩ Ej ) = k X Ws (Ej ) j=1 Ws (Ej )>0 Ws (A ∩ Ej ) Ws (Ej ) 15.8 Bemerkung Seien E und A Ereignisse mit Ws (E) > 0, Ws (A) > 0 Dann ist Ws (E)Ws (A|E) Ws (E|A) = Ws (A) Die Kombination von Bemerkung 15.7 und 15.8 liefert die Formel von Bayes: Ws (E1 |A) = Ws (E1 )Ws (A|E1 ) k P Ws (Ej )Ws (A|Ej ) j=1 15.9 Bemerkung Seien A1 , . . . , An Ereignisse mit Ws (A1 ∩ . . . ∩ An−1 ) > 0 Dann gilt die Multiplikationsformel: Ws (A1 ∩ . . . ∩ An ) = Ws (A1 ) · Ws (A2 |A1 ) · Ws (A3 |A1 ∩ A2 ) . . . Ws (An |A1 ∩ . . . ∩ An−1 ) (Denn die rechte Seite ist ein Teleskopprodukt, bei dem sich fast alles wegkürzt) Die richtige Sicht auf diese Formeln ist die der mehrstufigen Zufallsexperimente: Zu Bemerkung 15.7 und 15.8: X1 und X2 seien zwei Zufallsvariable. X1 habe die möglichen Ausgänge 1, . . . , k Ej := {X1 = j}, A := {X2 = x} 35 Ws (A|Ej ) =: P (j, x), Ws (Ej |A) =: P̂ (x, j) Dann ergeben sich die uns schon bekannten Formeln X µ2 (x) = µ1 (j)P (j, x) j P̂ (x, j) = µ1 (j)P (j, x) µ2 (x) Zu Bemerkung 15.9 gehört das Bild einer diskreten stochastischen Dynamik: X1 , X2 , . . . , Xn seien Zufallsvariablen mit Wertebereichen S1 , . . . , Sn . Die bedingte Verteilung von Xi , gegeben X1 , . . . , Xi−1 sei gegeben durch die Gewichte P ((x1 , . . . , xi−1 ), xi ). Dann ergibt sich für die gemeinsame Verteilung von X1 , . . . , Xn induktiv µ((x1 , . . . , xn )) = µ1 (x1 )P (x1 , x2 )P ((x1 , x2 ), x3 ) . . . P ((x1 , . . . , xn−1 ), xn ) 36 16 Markoffketten: Grundbegriffe und Beispiele S0 sei endlich oder abzählbar {0,...,N } S := S0 P = P (x, y)x,y∈S0 sei Übergangsmatrix auf S0 , d.h. X P (x, y) = 1, ∀ x ∈ S0 P (x, y) ≥ 0, y∈S0 Eine S-wertige Zufallsvariable X = (X0 , . . . , XN ) heißt Markoffkette mit Übergangswahrscheinlichkeit P ( mit stochastischer Dynamik P“) : ⇔ ” Ws ({X0 = x0 , . . . , Xn = xn }) = Ws ({X0 = x0 })P (x0 , x1 ) . . . P (xn−1 , xn ) (1) 16.1 Bemerkung Aus (1) folgt sofort: Ws ({Xn = xn }|{X0 = x0 , . . . , Xn−1 = xn−1 }) = P (xn−1 , xn ) falls Ws ({X0 = x0 , . . . , Xn−1 = xn−1 }) > 0 (2) Umgekehrt folgt (1) aus (2) über die Multiplikationsformel. Beispiele für stochastische Dynamiken: 1) Irrfahrt auf Z ζ sei beliebige Verteilung auf Z. Z sei gemäß ζ verteilt. P (x, y) := Ws ({x + Z = y}) (= Ws ({Z = y − x}) = ζ(y − x)) Eine Markoffkette mit diese Übergangsdynamik heißt Irrfahrt auf Z mit Zuwachsverteilung ζ. (Übung: Sind Z1 , . . . , ZN unabhängige Kopien von Z und ist X0 eine von den Zi unabängige Z-wertige Zufallsvariable, so ist (X0 , X0 + Z1 , X0 + Z1 + Z2 , . . . , X0 + Z1 + . . . + ZN ) eine Irrfahrt auf Z mit Zuwachsverteilung ζ. Ist umgekehrt (X1 , . . . , XN ) eine Irrfahrt auf Z mit Zuwachsverteilung ζ, dann sind die Zi := Xi − Xi−1 , i = 1, . . . , N, unabhängig mit Verteilung ζ.) 37 Speziell: ζ(1) = p, ζ(−1) = 1 − p =: q q p x x−1 x+1 Eine Irrfahrt mit dieser Zuwachsverteilung heißt gewöhnliche Irrfahrt zum Parameter p. Ist p = 21 , so spricht man von der gewöhnlichen symmetrischen Irrfahrt. 2) Erneuerungskette px 1 − px 1 0 x x+1 Ein Gerät eines Alters x ∈ N0 stirbt mit Wahrscheinlichkeit px . Ein eben gestorbenes Gerät wird sofort ersetzt. 3) Ehrenfestsches Urnenmodell S0 = {0, . . . , L} 1 0 x L 1− x x L 1 2 1 2 L 2 1 L In einer (durch eine Membran in zwei Hälften getrennten) Urne befinden sich L Teilchen. In jedem Zeitschritt wird rein zufällig eines der L Teilchen ausgewählt und in die andere Hälfte verfrachtet. 38 4) Polyasches Urnenmodell: Eine Gruppe von Menschen, die aus 2 Parteien besteht, wächst pro Zeitschritt um einen Menschen an. Der Neuankömmling wählt zufällig einen der schon vorhandenen Menschen und tritt dessen Partei bei. S0 = N20 l k+l l k k+l k Wie wahrscheinlich ist - bei einer Anfangskonstellation k : l und n Hinzukommenden - eine Aufteilung s : (n − s)? Das hatten wir schon in einer Übungsaufgabe! Insgesamt ergibt sich die Bose-Einstein-Verteilung auf den Besetzungszahlen. #Bk,s r+n−1 l + (n − s) − 1 k+s−1 , #Br,n = , #Bl,(n−s) = n n−s s mit r := k + l. Die gesuchte Wahrscheinlichkeit ist also k+s−1 l+(n−s)−1 s n−s r+n−1 n Alternative Überlegung: Man kann sich über die Formel (1) zu Beginn des Abschnitts auch leicht überlegen, daß jeder einzelne Weg von (k, l) nach (k + s, l + (n − s)) die Wahrscheinlichkeit k(k + 1) . . . (k + s)l(l + 1) . . . (l + (n − s) + 1) (k + l)(k + l + 1) . . . (k + l + n − 1) 39 hat. Es gibt davon ns Stück (denn aus den n Schritten sind s herauszugreifen, bei denen es nach rechts geht). Das Produkt der beiden Terme gibt wieder die gesuchte Wahrscheinlichkeit. 5) Fisher-Wright-Modell Wir betrachten eine Population der Größe M, die Individuen seien durchnumeriert mit 1, . . . , M. Jedes Individuum i hat einen Zustand ξ(i) ∈ T , wobei T ein beliebiger Typenraum“ ist (man denke etwa an T = {0, 1}). ” Der aktuelle Zustand der Population ist ξ = (ξ(1), . . . , ξ(M)) ∈ T {1,...,M } =: S0 Der zufällige Zustand in der nächsten Generation kommt nun folgendermaßen zustande: Jedes Individuum wählt rein zufällig eine Mutter und übernimmt deren Zustand, alle Individuen tun das unabhängig. dadurch ergibt sich eine stochastische Dynamik P auf S0 . Frage: Wie sieht der Zustand nach vielen Generationen aus? Antwort: Mit hoher Wahrscheinlichkeit ist Fixierung eines Typs“ eingetreten. ” Es gilt sogar: Die Wahrscheinlichkeit für Fixierung konvergiert exponentiell schnell gegen Eins. Beweis: Ws ({Xn nicht fixiert }) ≤ ≤ Ws ({in keiner Generation i = 1, . . . , n wählen alle Individuen dieselbe Mutter}) n T = Ws ( {in Generation i wählen nicht alle Individuen dieselbe Mutter}) {z } i=1 | =:Ai n Q = Ws (Ai ) = αn i=1 | {z } =:α<1 40 17 Gleichgewichtsverteilungen 17.1 Definition Sei P eine Übergangsmatrix auf S0 . Eine W-Verteilung π auf S0 heißt Gleichgewichtsverteilung zu P : ⇔ (G) π(y) = X π(x)P (x, y) x∈S0 (⇔ falls (X0 , X1 ) Startverteilung π und Übergangswahrscheinlichkeit P hat, dann hat auch X1 Verteilung π) 17.2 Übung Zeigen Sie: a) Die symmetrische Irrfahrt auf Z besitzt keine Gleichgewichtsverteilung. b) Die Gleichgewichtsverteilungen im Fisher-Wright-Modell sind genau die auf {(t, . . . , t)|t ∈ T } (also der Diagonalen“ von T {1,...,M } ) konzentrierten Verteilungen. ” c) Berechnen Sie die Gleichgewichtsverteilung der Erneuerungskette für px ≡ p. 17.3 Beispiel Ehrenfest-Modell: Die Gleichgewichtsbedingung lautet: π(0) = π(1) · L1 π(L) = π(L − 1) · L1 π(x) = π(x − 1) L−(x−1) + π(x + 1) x+1 , x = 1, . . . , L − 1 L L Wir geben zwei Ansätze zur Lösung von (G). (G) 1) Über eine Feinmodellierung“ der Zustände und der Dynamik: Wir denken uns die ” Kugeln durchnumeriert mit 1, . . . , L. Für jede Kugel i notieren wir, ob sie in der linken Hälfte (zi = 0) oder in der rechten Hälfte (zi = 1) ist. W := {(z1 , . . . , zL )|zi ∈ {0, 1}} Wir betrachten folgende stochastische Dynamik Q auf W : 41 Wähle gleichverteilt einen Index J aus {1, . . . , L} und flippe zJ (von 0 auf 1 bzw. von 1 auf 0). Also: Q(z, z ′ ) := ( 1 L 0 falls sich z und z ′ in einer Komponente unterscheiden sonst Q beschreibt übrigens eine Irrfahrt auf dem Würfel W ; schon deshalb leuchtet es ein, daß die Laplacverteilung auf W eine Gleichgewichtsverteilung für Q ist. (In der Tat: ein festes z ′ kann in einem Schritt aus L verschiedenen z entstehen, all die entsprechenden Q(z, z ′ ) sind gleich L1 ). Das Ehrenfest-Modell entsteht aus dem Feinmodell über die Abbildung f : W → {0, . . . , L} z 7→ L X zi i=1 Diese führt die Laplaceverteilung auf W in die Binomialverteilung mit Parametern L, 21 über. In der Tat löst 1 L , x = 0, . . . , L π(x) := L 2 x das System (G). 2) Einen zweiten Ansatz zum Auffinden eines Gleichgewichts im Ehrenfest-Modell liefert die sogenannte Reversibilitätsbedingung (R). Dahinter steckt folgende einfache Beobachtung: Zwei Zufallsvariablen X1 , X2 haben sicher dann dieselbe Verteilung, wenn (X2 , X1 ) genau so verteilt ist wie (X1 , X2 ), d.h. wenn für die gemeinsame Verteilung µ von (X1 , X2 ) gilt: µ(x, y) = µ(y, x) ∀ x, y Ist µ(x, y) = π(x)P (x, y), dann schreibt sich diese Bedingung als (R) π(x)P (x, y) = π(y)P (y, x) 42 Durch Summieren über x sieht man auch sofort, daß (G) aus (R) folgt.) Im Ehrenfest-Modell lautet (R): L − (x − 1) L L−x+1 = π(x − 1) x x Y L−j+1 L = π(0) = π(0) x j j=1 π(x) Lx = π(x − 1) ⇔ π(x) ⇔ π(x) 43 18 Der allgemeine Rahmen S sei eine beliebige nichtleere Menge. Die Quintessenz des folgenden ist: Falls S überabzählbar ist, reicht es nicht mehr, einzelne Punkte x ∈ S und deren Gewicht µ(x) zu betrachten, sondern man muß von vorneherein eine gewisse (genügend reichhaltige) Klasse von Teilmengen B von S ins Auge fassen und für diese die Zahlen µ(B) ≡ Ws ({X ∈ B}) spezifizieren. 18.1 Definition a) Ein System S von Teilmengen von S heißt σ-Algebra auf S :⇔ S ∈ S B ∈ S ⇒ Bc ∈ S [ B1 , B2 , . . . ∈ S ⇒ Bi ∈ S Man nennt dann (S, S) einen meßbaren Raum. b) Ist E ein System von Teilmengen von S, so nennt man die kleinste σ-Algebra auf S, welche E enthält, die von E erzeugte σ-Algebra. c) Mit einer S-wertigen (genauer (S, S)-wertigen) Zufallsvariablen“ assoziieren wir ” das System von Ereignissen“ ” {X ∈ B}, B ∈ S Mit diesen Ereignissen kann man in genau demselben Sinn rechnen, wie wir das im diskreten Fall kennengelernt haben. X B S 44 d) Ist S eine σ-Algebra auf S, und S′ eine auf S ′ , so heißt f : S → S ′ meßbar, falls f −1 (B ′ ) ∈ S ∀ B ′ ∈ S′ f X f −1 (B ′ ) B′ S' S Ist X eine S-wertige Zufallsvariable, und f : S → S ′ meßbar, so können wir die Zufallsvariable Y := f (X) definieren: zu ihr gehören die Ereignisse {Y ∈ B ′ } := {X ∈ f −1 (B ′ )}, B ′ ∈ B′ 18.2 Übung (ein Kriterium für die Meßbarkeit) Ist S′ von E′ erzeugt, so gilt: f : S → S ′ ist meßbar ⇔ f −1 (B ′ ) ∈ S ∀ B ′ ∈ E′ Hinweis: Betrachte das System {B ′ ⊆ S ′ |f −1 (B ′ ) ∈ S}) 18.3 Definition Sei S eine σ-Algebra auf S.Eine Abbildung µ : S → R+ heißt Maß auf S [ X :⇔ µ( Bk ) = µ(Bk ) k k falls B1 , B2 , . . . ∈ S paarweise disjunkt. (Insbesondere folgt: µ(∅) = 0.) Ist überdies µ(S) = 1, so heißt µ Wahrscheinlichkeitsmaß (Wahrscheinlichkeitsverteilung) auf S. 45 Unser Logo können wir also ergänzen um die Verteilung der Zufallsvariablen X“: ” X Ws ({X ∈ B}) ≡ µ(B) B S Maße lassen sich durch meßbare Abbildungen transportieren f S′ S Sei µ Maß auf S, f : S → S ′ meßbar. Das durch ν(B ′ ) := µ(f −1(B ′ )), B ′ ∈ S′ definierte Maß heißt das durch Transport von µ mit f entstandene Maß ( Bildmaß“ von µ unter f , Symbol µ ◦ f −1 ). ” 18.4 Bemerkung Hat X die Verteilung µ, so entsteht die Verteilung von f (X) durch Transport von µ mit f . In der Tat: Ws ({f (X) ∈ B ′ }) = Ws ({X ∈ f −1 (B ′ )}) = µ(f −1 (B ′ )) f X S' S 46 19 Integral und Erwartungswert Das folgende (im wesentlichen auf H. Lebesgue [um 1900] zurückgehende) Theorem beweisen wir in der elementaren Stochastik nicht, verwenden es aber als Eckpfeiler. 19.1 Theorem 1 Ist (S, S) ein meßbarer Raum, µ ein Maß auf S, und bezeichnet F+ := {f : S → [0, ∞], f meßbar bzgl. der von den Intervallen auf [0, ∞] erzeugten σ-Algebra}, dann existiert genau eine Abbildung F+ ∋ f 7→ Z f (x)µ(dx) ∈ [0, ∞] mit den folgenden Eigenschaften: (1) R 1B (x) µ(dx) = µ(B) R R (αf1 + βf2 )(x) µ(dx) = α f1 (x) µ(dx) + β f2 (x) µ(dx), R R (3) fn (x) ↑ f (x) ∀x ⇒ fn (x) µ(dx) ↑ f (x)µ(dx) (2) R 19.2 Korollar 0 ≤ g ≤ f ∈ F+ ⇒ R g(x) µ(dx) ≤ R (α, β ≥ 0) f (x) µ(dx) R 19.3 Definition Ist f : S → R meßbar und |f |(x) µ(dx) < ∞, dann nennen wir f µintegrierbar und setzen Z Z Z f (x) µ(dx) := f+ (x) µ(dx) − f− (x) µ(dx) (mit f+ := max(f, 0), f− := max(−f, 0)) f− f+ S S f f 1 Ein unterstrichenes Theorem“ oder Satz“ bedeutet, daß die Aussage in dieser Vorlesung nicht ” ” bewiesen wird. 47 19.4 Lemma (Ungleichung von Markoff) Für f ∈ F+ und c > 0 ist Z 1 f (x)µ(dx) µ({x|f (x) ≥ c}) ≤ c Beweis: Sei B := {x|f (x) ≥ c}. Wegen des obigen Korollars gilt Z Z Z f (x) µ(dx) ≥ 1B (x) f (x) µ(dx) ≥ 1B (x) · c µ(dx) = c · µ(B). 2 19.5 Satz Für f ∈ F+ gilt: f = 0 µ-fast überall (in dem Sinn, daß µ({x|f (x) 6= 0}) = 0) Z ⇔ f (x) µ(dx) = 0 Beweis: Sei Bn := {x|f (x) ≥ n1 }. Dann ist Theorem (beachte 1Bn ↑ 1B ) folgt sofort S Bn = B := {x|f (x) > 0}. Wegen (3) im µ(B) = lim µ(Bn ) n Gelte nun R f (x)µ(dx) = 0. Dann gilt für alle n wegen der Ungleichung von Markoff Z µ(Bn ) ≤ n f (x) µ(dx) = 0 also auch µ(B) = 0 Gelte umgekehrt µ(B) = 0. Dann ist Z Z min(n, f (x)) µ(dx) ≤ n 1B (x) µ(dx) = n µ(B) = 0 ⇒ Thm,(3) Z f (x) µ(dx) = 0 2 48 19.6 Übung Man zeige: a) Gelte 0 ≤ fn ↑ f µ-fast überall (in dem Sinn, daß µ({x|fn (x) ↑ f (x)}c ) = 0). Dann gilt Z Z fn (x) µ(dx) ↑ f (x) µ(dx) b) Ist µ diskret (d.h. gibt es eine höchstens abzählbare Menge B mit µ(B c ) = 0 und ist {x} ∈ S ∀ x ∈ B), so ist Z X |f |(x) µ(dx) = |f (x)| µ({x}). x∈B X sei eine S-wertige Zufallsvariable mit Verteilung µ. Wir sagen: X ∈ B fast sicher :⇔ Ws ({X ∈ B}) = 1 (⇔ B hat volles µ-Maß) Sei f : S → [0, ∞] meßbar, bzw f : S → R̄ µ-integrierbar. Wir setzen Z E f (X) := f (x) µ(dx) Speziell: Sei Y eine R-wertige Zufallsvariable mit Verteilung ν. Dann ist Z E |Y | = |y| ν(dy) Falls E |Y | < ∞ (in diesem Fall nennen wir Y integrierbar), ist Z E Y = y ν(dy). 19.7 Satz i) Für jedes Ereignis A ist E 1A = Ws (A). ii) Seien X1 , X2 R-wertig und integrierbar. Dann gilt: E (αX1 + βX2 ) = αE X1 + βE X2 (α, β ∈ R) iii) Seien X1 , X2 , . . . R-wertig mit 0 ≤ Xn ↑ X∞ fast sicher. Dann gilt: E Xn ↑ E X∞ . 49 Beweisskizze: Zu i) 1A hat diskrete Verteilung Ws(A)δ1 + Ws(Ac ) δ0 Zu ii) Betrachte X = (X1 , X2 ), f1 (X) := X1 , f2 (X) := X2 Zu iii) Betrachte X = (X1 , X2 , . . . , X∞ ), fn (X) := Xn , f (X) := X∞ 19.8 Korollar A1 , A2 , . . . seien einander paarweise ausschließende Ereignisse. Dann gilt: Ws ( [ Ai ) = i X Ws (Ai ) Beweis: Nach Voraussetzung gilt 1 S Ai = X 1 Ai Die Behauptung folgt dann aus dem obigen Satz. Die Linearität des Erwartungswertes läßt sich auch elegant einsetzen zum Beweis der sogenannten Ein-Ausschaltregel: Seien A1 , . . . , An beliebige Ereignisse. Dann gilt: Ws n [ Ai = i=1 X i Ws (Ai ) − X i<j Ws (Ai ∩ Aj ) + . . . + (−1)n+1 Ws (A1 ∩ . . . ∩ An ) Beweis: Es gilt die Identität (∗) 1 Sn i=1 Ai = X i 1 Ai − X i<j 1Ai ∩Aj + . . . + (−1)n+1 1A1 ∩...∩An (denn der Indikator des Gegenereignisses hat die Darstellung 1 − 1 Sn i=1 Ai = n Y i=1 (1 − 1Ai ) = 1 − X 1 Ai + i X i<j 1Ai 1Aj − . . . + (−1)n 1A1 1A2 . . . 1An ) Die Behauptung folgt nun unmittelbar durch Bilden des Erwartungswertes über (∗). 2 50 20 Übergangswahrscheinlichkeiten Wir erinnern an die Beziehung zwischen Startverteilung, Übergangswahrscheinlichkeit und gemeinsamer Verteilung im diskreten Fall: µ1 (x1 )P (x1 , x2 ) = µ(x1 , x2 ) 20.1 Definition (S1 , S1 ) und (S2 , S2 ) seien meßbare Räume. P (x1 , B2 ), x1 ∈ S1 , B2 ∈ S2 heißt Übergangswahrscheinlichkeit von S1 nach S2 :⇔ P (x1 , ·) ist ein Wahrscheinlichkeitsmaß auf S2 ∀ x1 ∈ S1 und x1 7→ P (x1 , B2 ) ist meßbar ∀ B2 ∈ S2 20.2 Definition S1 ⊗ S2 := die von {B1 × B2 | B1 ∈ S1 , B2 ∈ S2 } erzeugte σ-Algebra auf S1 × S2 20.3 Satz Sei µ1 ein Wahrscheinlichkeitsmaß auf S1 und P eine Übergangswahrscheinlichkeit von S1 nach S2 . Dann existiert genau ein Wahrscheinlichkeitsmaß µ auf (S1 ×S2 , S1 ⊗S2 ) mit Z µ(B1 × B2 ) = 1B1 (x1 )P (x1 , B2 )µ1 (dx1 ), B1 ∈ S1 , B2 ∈ S2 Für alle meßbaren, nichtnegativen (bzw. µ-integrierbaren) f gilt dann der Satz von Fu” bini“: Z Z Z Z f (x1 , x2 )µ(dx1 , dx2 ) := f (x1 , x2 )µ(d(x1 , x2 )) = f (x1 , x2 )P (x1 , dx2 ) µ1 (dx1 ) (Merkregel: µ(dx1 , dx2 ) = µ(dx1 )P (x1 , dx2 )) Spezialfall: P (x1 , ·) ≡ µ2 (·) (d.h. P (x1 , ·) hängt nicht von x1 ab): Das durch µ(B1 × B2 ) := µ1 (B1 ) · µ2 (B2 ), Bi ∈ Si festgelegte Wahrscheinlichkeitsmaß auf S1 ⊗ S2 heißt Produktmaß von µ1 und µ2 . Wir übertragen die Definition der Unabhängigkeit von zwei Zufallsvariablen aus dem Diskreten: X1 , X2 heißen unabhängig :⇔ Ws ({X1 ∈ B1 } ∩ {X2 ∈ B2 }) = Ws ({X1 ∈ B1 }) · Ws ({X2 ∈ B2 }) 51 Wegen {X1 ∈ B1 } ∩ {X2 ∈ B2 } = {(X1 , X2 ) ∈ B1 × B2 } folgt sofort: X1 , X2 sind unabhängig ⇔ die Verteilung von (X1 , X2 ) ist das Produkt der Verteilungen von X1 und X2 . 20.4 Bemerkung Sind X1 , X2 reellwertig, integrierbar und unabhängig, dann ist auch X1 · X2 integrierbar, und E(X1 X2 ) = EX1 · EX2 Beweis: Mit Fubini folgt die Integrierbarkeit von X1 · X2 : Z Z Z E (|X1 · X2 |) = |x1 ||x2 |µ(dx1 , dx2 ) = |x1 |µ1 (dx1 ) |x2 |µ2 (dx2 ) < ∞ R×R R R Und noch einmal mit Fubini folgt: Z Z Z E (X1 · X2 ) = x1 x2 µ(dx1 , dx2 ) = x1 µ1 (dx1 ) x2 µ2 (dx2 ) = E X1 E X2 2 Wir betrachten jetzt eine Folge von meßbaren Räumen (Si , Si ), i ≥ 1. S := S1 × S2 × . . ., S := die von {B1 × . . . Bn × Sn+1 × Sn+2 × . . . | n ∈ N, Bi ∈ Si } erzeugte σ-Algebra auf S 20.5 Satz von Ionesco-Tulcea Für alle n sei Pn eine Übergangswahrscheinlichkkeit von S1 × . . . × Sn nach Sn+1 , und sei µ1 ein Wahrscheinlichkeitsverteilung auf S1 . Dann existiert genau ein Wahrscheinlichkeitsmaß µ auf S mit µ(B1 × . . . × Bn × Sn+1 × Sn+2 × . . .) Z = 1B1 (x1 ) . . . 1Bn (xn )µ1 (dx1 )P1 (x1 , dx2 )P2 ((x1 , x2 ), dx3 ) . . . Pn−1 ((x1 , . . . xn−1 ), dxn ) Korollare: - Existenz der Münzwurfverteilung auf {0, 1}N zum Parameter p. - Existenz (der Verteilung) einer Markoffkette (X0 , X1 , . . .) zu einer Übergangsmatrix P . 52 21 Fortgesetzter Münzwurf und Gleichverteilung Auf dem Raum {0, 1}N verwenden wir die von den Mengen (∗) B = {(x1 , . . . xn )} × {0, 1}{n+1,n+2,...} , n ∈ N, x1 , . . . , xn ∈ {0, 1} erzeugte σ-Algebra S. Sei p ∈ [0, 1] Der Satz von Ionesco-Tulcea garantiert die Existenz eines Wahrscheinlichkeitsmaßes µp auf S mit µp (B) = pk (1 − p)n−k falls B von der Form (∗) und genau k der xi gleich 1 sind. Eine {0, 1}N -wertige Zufallsvariable X = (X1 , X2 , . . .) mit Verteilung µp nennen wir (fortgesetzten) Münzwurf mit Erfolgsparameter p. Später werden wir dafür das Gesetz der großen Zahlen“ beweisen: ” n 1X Xi → p fast sicher n i=1 Mit anderen Worten: X fällt sicher in die Menge n 1X xi → p} Bp := {x = (x1 , x2 , . . .) n i=1 Für den Moment überlegen wir uns nur, daß Bp zu S gehört. In der Tat ist ( ) n \ [ \ 1 X 1 x Bp = xi − p < n m i=1 m∈N n ∈N n≥n 0 0 Betrachten wir folgende (auf E. Borel, um 1900, zurückgehende) Aussage: In der dyadischen Entwicklung einer aus [0, 1] gleichverteilt herausgegriffenen Zahl ” kommen Nullen und Einsen mit Wahrscheinlichkeit 1 gleich häufig vor.“ 53 Dazu müssen wir erst einmal das folgende Logo mathematisch präzisieren. 1 X 0 21.1 Definition Sei B[0,1] die von den Intervallen auf [0, 1] erzeugte σ-Algebra. Wie kommt es zur Gleichverteilung auf [0, 1]? Hier hilft der 21.2 Satz Es existiert genau eine Abbildung λ[0,1] : B[0,1] → [0, 1] mit den Eigenschaften (1) λ[0,1] ([a, b]) = b − a falls 0 ≤ a ≤ b ≤ 1 S P (2) λ[0,1] ( k Bk ) = λ[0,1] (Bk ) falls die Bk ∈ B[0,1] paarweise disjunkt. λ[0,1] heißt Gleichverteilung auf [0, 1]. 21.3 Übung Geben Sie Abbildungen f : {0, 1}N → [0, 1] und g : [0, 1] → {0, 1}N an, so daß gilt: X fairer Münzwurf ⇒ f (X) gleichverteilt auf [0, 1] Z gleichverteilt auf [0, 1] ⇒ g(Z) fairer Münzwurf Die Gleichverteilung ist engstens verwandt mit dem Lebesguemaß“: ” 21.4 Definition Sei B die von den Intervallen auf R erzeugte σ-Algebra. Der große Bruder“ des vorigen Satzes (und leicht aus diesem herleitbar) ist der ” 21.5 Satz (H. Lebesgue, um 1900) Es existiert genau eine Abbildung λ : B → R+ mit den Eigenschaften (1) λ([a, b]) = b − a S P (2) λ( Bk ) = λ(Bk ) falls die Bk ∈ B paarweise disjunkt. 54 22 Maße mit Dichten und Verteilungsfunktionen Wir betrachten: (S, S) meßbarer Raum µ Maß auf (S, S) g ∈ F+ =: {f : S → [0, ∞], f meßbar } Dann definiert Z Z ν(B) := g(x)µ(dx) = 1B (x)g(x)µ(dx) B ein Maß ν auf (S, S). Wir nennen g die Dichte von ν bzgl. µ. 22.1 Bemerkung Nachzuprüfen bleibt die σ-Additivität von ν, d.h. ∀B1 , B2 , . . . ∈ S paarweise disjunkt gilt: ∞ ∞ [ X ν( Bk ) = ν(Bk ) k=1 k=1 In der Tat gilt ν( ∞ [ Bk ) Z X ∞ = 1Bk (x)g(x)µ(dx) k=1 k=1 n P k=1 = 1Bk (x)g(x) ↑ = ∞ P k=1 lim 1Bk (x)g(x) n→∞ lim n→∞ Z X n 1Bk (x)g(x)µ(dx) k=1 n Z X 1Bk (x)g(x)µ(dx) = k=1 ∞ X ν(Bk ) k=1 2 22.2 Lemma ν habe die Dichte g bzgl. µ. Dann gilt für alle f ∈ F+ Z Z f (x)ν(dx) = f (x)g(x)µ(dx) Beweis: Wir zeigen, daß die Abbildung I : F+ → [0, ∞], I(f ) := Z f (x)g(x)µ(dx) die Eigenschaften (1) - (3) aus dem Theorem über das Integral“ erfüllt. ” (1), (2) klar (3) mit fn (x) ↑ f (x) gilt auch fn (x)g(x) ↑ f (x)g(x) und somit I(fn ) ↑ I(f ). 55 2 22.3 Lemma g1 und g2 seien Dichten von ν bzgl. µ. Es sei ν(S) < ∞. Dann gilt g1 = g2 µ-f.ü. (d.h. Dichten sind µ-f.ü. eindeutig bestimmt). Beweis: ∀B ∈ S gilt: ν(B) = Z 1B (x)g1 (x)µ(dx) = Z 1B (x)g2 (x)µ(dx) also auch für B := {g1 (x) > g2 (x)}. Z ⇒ 1B (x)(g1 (x) − g2 (x))µ(dx) = 0 Satz 19.5 ⇒ 1B (g1 − g2 ) = 0 µ-f.ü. ⇒ 1B = 0 µ-f.ü. Analog folgt: ⇒ g1 ≤ g2 g2 ≤ g1 µ-f.ü. µ-f.ü. 2 Uns interessieren speziell Dichten von Wahrscheinlichkeitsmaßen ν (sog. Wahrscheinlichkeitsdichten) bzgl. des Lebesguemaßes λ auf (R, B). 22.4 Beispiel i) Uniforme Verteilung auf [0, 1] (kurz: U[0,1] ) g[0,1] (x) = 1[0,1] (x) R1 g[0,1] (x)λ(dx) = 1 klar. 0 1 1 0 56 ii) Exponentialverteilung (kurz: Exp(1)) g1 (x) = e−x 1R+ (x) 1 0 R∞ 0 −x ∞ −x e λ(dx) = −e 0 = 0 − (−1) = 1 iii) Standard-Normalverteilung (kurz: N (0, 1)) ϕ0,1 (x) = 2 x √1 e− 2 2π 0, 5 0, 4 0, 3 0, 2 0, 1 −2 −4 R∞ 0 2 4 ϕ0,1 (x)λ(dx) = 1 ist nicht so einfach zu berechnen, da man die Stammfunktion −∞ nicht hinschreiben kann. Trick: Berechne Z ϕ0,1 (x)ϕ0,1 (y)λ(dx)λ(dy) R2 durch Übergang zu Polarkoordinaten (Übung!). 57 22.5 Lemma (1. Hauptsatz der Differential- und Integralrechnung) g : [a, b] → R+ sei stetig. Dann ist G(x) := Zx g(t)λ(dt) a differenzierbar mit G′ (x) = g(x) (m.a.W.: G ist Stammfunktion von g). Offensichtlich gilt: Zd g(x)λ(dx) = G(d) − G(c). c Beweis: Es ist x+h Z G(x + h) − G(x) = g(t)λ(dt) x und 1 g(x) = h x+h Z g(x)λ(dt) x x+h Z 1 G(x + h) − G(x) h→0 |g(t) − g(x)| λ(dt) −→ 0 − g(x) ≤ ⇒ {z } | h h x <ǫ für h<δ 2 22.6 Bemerkung Ist ν ein Wahrscheinlichkeitsmaß auf (R, B) mit stückweise stetiger Dichte g bzgl. λ, dann ist b 7→ G(b) := ν(] − ∞, b[) eine Stammfunktion von g (G′ (x) = g(x) gilt natürlich nur in den Stetigkeitspunkten von g). Allgemeiner treffen wir folgende 22.7 Definition Sei µ ein Wahrscheinlichkeitsmaß auf (R, B). Die Funktion x 7→ G(x) := µ(] − ∞, x[) heißt Verteilungsfunktion von µ. 58 22.8 Lemma (Eigenschaften der Verteilungsfunktion): 1) lim G(x) = 0, lim G(x) = 1. x→−∞ x→∞ 2) G ist monoton wachsend. 3) G ist linksseitig stetig. 4) rechte Limiten existieren und es gilt µ({x}) = G(x+ ) − G(x). Beweis: 1) und 2) sind klar. 3): Sei (xn ) Folge mit xn ↑ x. Setze Bn :=] − ∞, xn [ und B :=] − ∞, x[. Es gilt 1Bn (y) ↑ 1B (y) Z Z ⇒ G(xn ) = 1Bn (y)µ(dy) ↑ 1B (y)µ(dy) = G(x) 4): µ({x}) = µ(] − ∞, x]) − µ(] − ∞, x[) sowie (wegen 2)) die Existenz rechter Limiten {z } | =G(x) ist klar. Bleibt zu zeigen µ(] − ∞, x]) = G(x+ ). Sei dazu xn ↓ x und setze C :=] − ∞, x] und Cn :=] − ∞, xn [ (damit ist Z ∞ T Cn = C). n=1 lim G(xn ) = lim 1Cn (y)µ(dy) n→∞ Z = 1 − lim (1 − 1Cn (y)) µ(dy) n→∞ | {z } G(x+ ) = n→∞ = 1− Z ↑(1−1C (x)) (1 − 1C (y))µ(dy) = Z 1C (y)µ(dy) = µ(] − ∞, x]) 2 22.9 Bemerkung (zum letzten Beweisteil) Wir wissen aus dem Satz übers Integral, daß wir bei aufsteigenden Folgen von Funktionen Integral und Limes vertauschen können. Allgemein gilt nur: 22.10 Satz (von der dominierten Konvergenz) (S, S) meßbarer Raum mit Maß µ. fn und f meßbare Funktionen von S → R mit fn (x) → f (x) µ-f.ü.. 59 R Außerdem sei g eine µ-integrierbare Funktion ( g(x)µ(dx) < ∞) mit |fn (x)| ≤ g(x) µ-f.ü. Dann gilt: Z Z fn (x)µ(dx) = f (x)µ(dx). lim n→∞ Warnbeispiel: (R, B) mit Lebesguemaß λ. fn (x) := 1[n,∞)(x) Offensichtlich gilt fn (x) ↓ f (x) ≡ 0 ∀x R R Aber fn (x)λ(dx) = ∞ = 6 0 = f (x)λ(dx). Sprechweise: Zu jedem Wahrscheinlichkeitsmaß µ auf (R, B) gehört eine reellwertige Zufallsvariable X. Da wir in erster Linie an Zufallsvariablen interessiert sind, sprechen wir auch von der Verteilung µ von X, der Verteilungsfunktion G von X, bzw., falls existent, der Dichte g von X. Hat X die Verteilung µ, so schreiben wir dafür kurz X ∼ µ. 22.11 Lemma Sei G eine Funktion mit den Eigenschaften 1) - 3) aus dem vorigen Lemma. Dann existiert genau ein Wahrscheinlichkeitsmaß µ mit Verteilungsfunktion G. Beweis: i) Existenz: Definiere T (y) := inf{a ∈ R|G(a) > y}, dann gilt T (y) < x ⇔ y < G(x), denn ⇒: inf{a ∈ R|G(a) > y} < x ⇒ ∃ a < x : G(a) > y ⇒ G(x) > y, da G monoton wächst. ⇐: G(x) > y ⇒ G(x − ǫ) > y für ein kleines ε > 0, da G linksstetig ⇒ T (y) < x. Sei nun Y eine auf [0, 1] uniform verteilte Zufallsvariable und µ die Verteilung von T (Y ). Dann gilt: µ(] − ∞, x[) = Ws (T (Y ) < x)) = Ws (Y < G(x)) = G(x) ii) Eindeutigkeit: folgt aus dem in 22.12 angegebenen Eindeutigkeitssatz und der Feststellung, daß E = {] − ∞, x[|x ∈ R} ein ∩-stabiler Erzeuger von B ist. 2 60 22.12 Satz Sei (S, S) ein meßbarer Raum und E ein ∩-stabiler Erzeuger von S (d.h. mit E1 , E2 ∈ E ist auch E1 ∩ E2 ∈ E, und E erzeugt S). Dann stimmen zwei auf E gleiche Wahrscheinlichkeitsmaße auch auf S überein. 22.13 Beispiel i) U[0,1] 1 1 0 ii) Exp(1): G1 (x) = Rx 0 x −t e λ(dt) = −e = 1 − e−x −t 0 2 1,5 1 0,5 0 1 2 3 61 4 5 iii) N (0, 1): Φ(x) = Rx ϕ0,1 (t)λ(dt) −∞ 1 0 1 δ 2 a + 12 U[a,b] 1 a 0 b 22.14 Satz Sei X eine (a, b)-wertige Zufallsvariable mit Verteilungsdichte g und t : (a, b) → (α, β) eine (stückweise) stetig differenzierbare, streng monoton wachsende Transformation mit Umkehrfunktion s = t−1 . Die Dichte h von Y := t(X) ist dann gegeben durch h(y) = g(s(y))s′(y) Beweis: Für y ∈ (α, β) gilt: Ws (Y < y) = Ws (t(X) < y) = Ws (X < s(y)) d d h(y) = Ws (Y < y) = Ws (X < s(y)) = g(s(y))s′(y) dy dy 2 62 22.15 Beispiel Wir wenden die affin-lineare Transformation t(x) = m + τ x auf unsere Beispiele an: 1 y−m s′ (y) = s(y) = τ τ i) Uniforme Verteilung auf [a, b] (kurz: U[a,b] ): X ∼ U[0,1] ⇒ a + (b − a)X ∼ U[a,b] Dichte: g[a,b] (x) = g[0,1] ( x−a )· b−a 1 b−a = 1 1 (x) b−a [a,b] ii) Exponentialverteilung zum Parameter λ (kurz: Exp(λ)): X ∼ Exp (1) ⇒ α1 X ∼ Exp (α) Dichte: gα (x) = g1 (αx) · α = αe−αx 1R+ (x) iii) Normalverteilung zu den Parametern (µ, τ 2 ) (kurz: N (µ, τ 2 )): X ∼ N (0, 1) ⇒ µ + τ X ∼ N (µ, τ 2 ) Dichte: ϕµ,τ 2 (x) = τ1 ϕ0,1 ( x−µ )= τ (x−µ) √1 e− 2τ 2 τ 2π 63 2 23 Varianz und Kovarianz 23.1 Definition X sei eine reellwertige Zufallsvariable mit E|X| < ∞. Dann heißt Var (X) := E (X − E X)2 p Varianz von X. Die Größe Var (X) nennen wir Streuung oder Standardabweichung von X. Eigenschaften: i) Var (X) = E X 2 − ( E X)2 ii) Var (X) = 0 ⇒ X = E X f.s. iii) Für m, β ∈ R gilt: Var (m + βX) = β 2 Var (X) Beweis: i) E (X − E X)2 = E (X 2 − 2X · E X + ( E X)2 ) = E X 2 − ( E X)2 ii) Sei ν die Verteilung von X. R 0 = E (X − E X)2 = (x − E X)2 ν(dx) ⇒ (x − E X)2 = 0 ν-f.ü. ⇒ X = E X f.s. iii) E [(m + βX − E [m + βX])2 ] = E [β 2 (X − E X)2 ] = β 2 Var X 2 23.2 Bemerkung i) Die Varianz ist die erwartete quadratische Abweichung einer Zufallsvariablen von ihrem Erwartungswert. Sie ist das wichtigste Maß für die Schwankung einer Zufallsvariablen. Wer sich fragt, wieso genau die quadratische Abweichung genommen wird (und nicht z.B. die absolute Abweichung, d.h. E (|X − E X|), der frage sich zunächst, wieso er die euklidische Norm so attraktiv findet. ii) Für die Zufallsvariable X mit endlicher Varianz gilt: ! X Var p =1 Var (X) 64 23.3 Beispiel i) Münzwurf: X= ( 1 mit Wahrscheinlichkeit p 0 mit Wahrscheinlichkeit 1 − p E X = E X 2 = p ⇒ Var (X) = p − p2 = p(1 − p) ii) Uniforme Verteilung U[0,1] : X ∼ U[0,1] R1 R1 E X = xλ(dx) = 21 , E X 2 = x2 λ(dx) = 0 0 1 ⇒ Var (X) = 13 − 41 = 12 Y := a + (b − a)X ∼ U[a,b] ⇒ E Y = a+b , 2 1 3 Var (Y ) = (b−a)2 12 iii) Exponentialverteilung X ∼ Exp(1): mit partieller Integration bezeichnet man : R∞ E X = xe−x λ(dx) = 1 und 0 2 EX = R∞ x2 e−x λ(dx) = 2. 0 ⇒ Var (X) = 2 − 1 = 1 Y := α1 X ∼ Exp(α) ⇒ E Y = α1 , Var (Y ) = iv) Normalverteilung X ∼ N (0, 1): R∞ x2 E X = √12π xe 2 λ(dx) = 0, −∞ mit partieller Integration: E X 2 = √1 2π R∞ 1 . α2 x2 x2 e 2 λ(dx) = 1 −∞ ⇒ Var (X) = 1 Für Y := µ + σX ist E Y = µ, Var (Y ) = σ 2 . Was ist mit der Varianz der Summe mehrerer Zufallsvariablen? Dazu benötigen wir folgende 23.4 Definition X und Y seien reellwertige Zufallsvariablenmit E |X| < ∞ und E |Y | < ∞. i) Cov (X, Y ) := E [(X − E X)(Y − E Y )] heißt Kovarianz von X und Y . ii) Falls Cov (X, Y ) = 0 ist, so nennen wir X und Y unkorreliert. Rechenregeln: i) Cov (X, Y ) = E (X · Y ) − E X · E Y 65 ii) Cov (X, Y ) = Cov (Y, X) iii) Cov (aX + bY, Z) = aCov (X, Z) + bCov (Y, Z) iv) Cov (X, X) = Var (X) ≥ 0 v) Var (α1 X1 + . . . + αn Xn ) = n P αi αj Cov (Xi , Xj ) i,j=1 Speziell: Var (X + Y ) = Var (X) + Var (Y ) + 2Cov (X, Y ) Beweis: Nachrechnen! 23.5 Korollar Für paarweise unkorrelierte Zufallsvariablen X1 , . . . Xn gilt: Var (X1 + . . . + Xn ) = Var (X1 ) + . . . + Var (Xn ) 23.6 Bemerkung Cov (X, Y ) > 0 ist anschaulich auch so zu interpretieren, daß X und Y die Tendenz haben, geneinsam über bzw. unter ihrem Erwartungswert zu liegen. Im Fall Cov (X, Y ) < 0 tendiert Y eher dazu, unter seinem Erwartungswert zu liegen, falls X über seinem Erwartungswert liegt und umgekehrt. 23.7 Beispiel (Tanzpartner) N Ehepaare nehmen an einem Tanzkurs teil. Die N Damen wählen nacheinander zufällig einen der Herren aus. Sei Y die Anzahl der Damen, die dabei ihren Gatten bekommen. Bestimme Erwartungswert und Varianz von Y . Lösung: Setzen wir Xi := 1{Dame i tanzt mit ihrem Gatten} , so ergibt sich Y = N P i=1 Xi Die Xi sind zwar nicht unabhängig, aber aus Symmetriegründen austauschbar, d.h. für jede Permutation π von {1, . . . N} ist (Xπ(1) , . . . , Xπ(N ) ) genauso verteilt, wie (X1 , . . . , XN ). 66 Damit: E Xi = ⇒ EY E X1 = 1 ∀i N 1 =1 N 1 ∀i E X12 = N 1 1 N −1 − 2 = N N N2 Cov (X1 , X2 ) = E X1 X2 − E X1 E X2 1 1 1 − 2 = 2 N(N − 1) N N (N − 1) N · Var (X1 ) + N(N − 1)Cov (X1 , X2 ) 1 N −1 + N(N − 1) · 2 N· 2 N N (N − 1) N −1 1 + =1 N N = N· E Xi2 = ⇒ Var (Xi ) = Cov (Xi , Xj ) = = ⇒ Var (Y ) = = = 2 23.8 Lemma (Cauchy-Schwarz-Ungleichung) Für zwei Zufallsvariablen U, V gilt: √ √ | E U · V | ≤ E U2 E V 2 Gilt die Gleichheit, so ist U = 0 fast sicher, oder ∃ a ∈ R : V = aU fast sicher. Beweis: Interessant ist nur E U 2 < ∞ und E V 2 < ∞. Zunächst ist 2|U · V | ≤ U 2 + V 2 ⇒ 2 E |UV | ≤ E U 2 + E V 2 < ∞ und damit auch UV integrierbar. Die Ungleichung folgt aus: 2 E UV 0 ≤ E V − U E U2 2 E UV ( E UV )2 2 + = E V −2 E U2 2 2 EU EU 2 ( E UV ) = E V2− E U2 Im Fall der Gleichheit ist (falls E U 2 > 0) V = E U ·V · U fast sicher. E U2 2 67 23.9 Definition X, Y seien Zufallsvariablen mit positiver Varianz. κ(X, Y ) := p Cov (X, Y ) p Var (X) Var (Y ) heißt Korrelationskoeffizient von X und Y . 23.10 Korollar Es gilt: −1 ≤ κ(X, Y ) ≤ 1 Beweis: Wende Cauchy-Schwarz-Ungleichung an auf U := X− E X und V := Y − E Y 2 23.11 Lemma |κ(X, Y )| = 1 ⇔ ∃ a, b mit Y = aX + b f.s. Beweis: |κ(X, Y )| = 1 ⇔ in der Cauchy-Schwarz-Ungleichung für U, V gilt die Gleichheit ⇔ ⇔ ∃ a ∈ R : Y − E Y = a(X − E X) f.s. ∃ a, b : Y = aX + b f.s. 2 68 24 Gemeinsame Dichten (bzgl. λ ⊗ λ) λ ⊗ λ bezeichnet das Lebesguemaß auf (R 2 , B ⊗ B) (das ist dasjenige Maß, welches den Intervallen [a1 , b1 ] × [a2 , b2 ] ihren natürlichen Flächeninhalt (b1 − a1 )(b2 − a2 ) zuordnet.) 24.1 Definition (X1 , X2 ) heißt (R 2 , B⊗B)-wertige Zufallsvariable mit Dichte g bzgl. λ⊗λ, wenn ∀ B ∈ B ⊗ B : Z Ws ({(X1 , X2 ) ∈ B}) = 1B (x1 , x2 )g(x1 , x2 )(λ ⊗ λ)(dx1 , dx2 ) Aus dem Satz von Fubini (der auch für λ ⊗ λ gilt) folgt: Z Z Z 1B (x1 , x2 )g(x1 , x2 )λ(dx1 ) λ(dx2 ). 1B (x1 , x2 )g(x1 , x2 )(λ ⊗ λ)(dx1 , dx2 ) = R R 24.2 Satz (X1 , X2 ) habe die Dichte g bzgl. λ ⊗ λ. i) X1 hat dann die Dichte g1 : x1 7→ Z g(x1 , z)λ(dz) bzgl. λ R ii) Die Übergangswahrscheinlichkeit von X2 , gegeben X1 = x1 hat die Dichte x2 7→ g(x1 , x2 ) bzgl. g1 (x1 ) λ Beweis: i) Ws ({X1 ∈ B1 }) = Ws ({(X1 , X2 ) ∈ B1 × R }) Z Z = 1B1 (x1 ) g(x1 , z)λ(dz) λ(dx1 ) ⇒ Beh. R | 69 R {z =g1 (x1 ) } ii) Erinnerung an den Zusammenhang zwischen gemeinsamer Verteilung und Übergangswahrscheinlichkeit: Z µ(B1 × B2 ) = 1B1 (x1 )P (x1 , B2 )µ1 (dx1 ) R Jetzt: µ(B1 × B2 ) = = Z Z 1B1 (x1 )1B2 (x2 )g(x1 , x2 )λ(dx2 )λ(dx1 ) R R Z 1B1 (x1 ) R Z |R 1B2 (x2 ) g(x1 , x2 ) λ(dx2 ) [g1 (x1 )] λ(dx1 ) {z } | g1 (x1 ) µ1 (dx1 ) {z } P (x1 ,B2 ) 2 24.3 Korollar (X1 , X2 ) habe Dichte g bzgl. λ ⊗ λ. Dann gilt: X1 und X2 unabhängig ⇔ g(x1 , x2 ) = g1 (x1 ) · g2 (x2 ) λ ⊗ λ − fast überall Beweis: Nach dem bisherigen sind äquivalent (die Existenz einer Dichte vorausgesetzt): i) X1 und X2 unabhängig. ii) die Verteilung von (X1 , X2 ) ist das Produkt der Verteilungen von X1 und X2 . iii) Z g(x1 , x2 )(λ ⊗ λ)(dx1 , dx2 ) Z = B1 ×B2 g1 (x1 )λ(dx1 ) · B1 = Fubini Z Z g2 (x2 )λ(dx2 ) B2 g1 (x1 )g2 (x2 )(λ ⊗ λ)(dx1 , dx2 ), B1 , B2 ∈ B B1 ×B2 iv) g(x1 , x2 ) = g1 (x1 ) · g2 (x2 ) (λ ⊗ λ) f.ü. 2 70 25 Vom Münzwurf zum Poissonprozeß Erinnerung an bekannte Tatsachen: (X1 , X2 , . . .) sei Münzwurffolge zum Parameter p, d.h. die xi sind unabhängig mit ( 1 mit Wahrscheinlichkeit p Xi = 0 mit Wahrscheinlichkeit 1 − p =: q Sn := X1 +. . .+Xn (Anzahl der Erfolge bis zum n-ten Versuch) ist binomial (n, p)-verteilt, also n k p (1 − p)n−k Wsp (Sn = k) = k Ep Sn = np, Varp (Sn ) = np(1 − p) T := min{k|Xk = 1} Zeitpunkt des ersten Erfolges ist geometrisch verteilt zum Parameter p also Wsp (T = k) = q k−1 · p Nach Aufgabe 23 ist Ep (T ) = 1p . Außerdem gilt Varp (T ) = Anschaulich klar sind die folgenden zwei Sachverhalte: q . p2 (Übung) (1) Wenn wir bei festem p die Anzahl der Würfe immer größer werden lassen, so bekommen wir auch mehr Erfolge: lim Wsp (Sn ≥ k) = 1 für alle k ∈ N. n→∞ (2) Wenn wir bei festem n die Erfolgswahrscheinlichkeit p immer kleiner werden lassen, so bekommen wir immer weniger Erfolge: lim Wsp (Sn ≤ k) = 1 für alle p→0 k ∈ {0, 1, . . . , n}. Gibt es einen Mittelweg? Sei dazu (pn ) eine Nullfolge mit n · pn → α > 0 Dann gilt: n(n − 1) · . . . · (n − k + 1) k pn (1 − pn )n−k k! n · pn n n(n − 1) · . . . · (n − k + 1) 1 · (n · pn )k · (1 − ) (1 − pn )−k = k {z } {z } | n k! n {z } {z } | −→ | | k 1 Wspn (Sn = k) = −→ α −→ 1 n→∞ n→∞ −→ e−α n→∞ n→∞ 25.1 Definition Die durch die Gewichte αk k! festgelegte Wahrscheinlichkeitsverteilung auf N0 heißt Poissonverteilung zum Parameter α. πα (k) := e−α 71 Wir haben bewiesen: 25.2 Satz Falls n · pn −→ α erfüllt ist, so folgt n→∞ b(n, pn ; k) −→ πα (k) Anschaulich: Wir werfen die Münze mit immer höherer Frequenz (n mal pro Zeiteinheit) aber immer kleinerer Erfolgswahrscheinlichkeit pn (so, daß lim n · pn = α). Im n→∞ Grenzübergang n → ∞ ist die Anzahl der Erfolge pro Zeiteinheit Poisson(α)-verteilt. 25.3 Bemerkung Dies nennt man die Poissonapproximation der Binomialverteilung. Wirft man eine Münze sehr oft mit sehr kleiner Erfolgswahrscheinlichkeit, so ist die Anzahl der Erfolge approximativ Poisson(n · p)-verteilt. Standardbeispiel: Anzahl der Personen in einer großen Population, die vom Blitz getroffen werden (es gibt viele, aber jeden trifft es nur mit verschwindend geringer Wahrscheinlichkeit). Wie sieht es dann (beim Werfen mit immer höherer Frequenz) mit der Zeit bis zum ersten Erfolg aus? T >x = Wspn (T > nx) = (1 − pn )[nx] Wspn n [nx] n · pn n· n = 1− −→ e−αx n Sie ist also Exp(α)-verteilt. 25.4 Definition X1 , X2 , . . . seien unabhängige Exp(α)-verteilte Zufallsvariablen. Setze τk := X1 + . . . + Xk . Die Folge (τ1 , τ2 , . . .) heißt Poisson’scher Punktprozeß auf R+ zum Parameter α. 25.5 Satz Sei (τ1 , τ2 , . . .) Poisson’scher Punktprozeß zum Parameter α. Dann ist die Anzahl N[0,1) der Punkte im Intervall [0, 1), d.h. N[0,1) := max{k|τk < 1}, Poisson(α)-verteilt. Beweis: Jedenfalls giltWsα ({N[0,1) = k}) = Wsα ({τk < 1, τk+1 ≥ 1}). Dafür, daß die rechte Seite gleich πα (k) ist, präsentieren wir sogar zwei Argumente. Das erste ist eine Skizze, die darauf beruht, daß nicht nur - wie schon bewiesen - für die Wartezeiten auf den ersten Erfolg T1 Ws αn <x −→ Ws({τ1 < x}) n→∞ n 72 gilt, sondern Entsprechendes auch für die Wartezeiten auf die späteren Erfolge gilt. Genauer: dass für pn −→ α auch die Verteilung von (T 1 , T 2 , . . .) unter Wspn gegen die Verteilung n n von (τ1 , τ2 , . . .) unter Wsα konvergiert. Ws ({N[0,1) = k}) = Ws ({τk < 1, τk+1 ≥ 1}) Tk Tk+1 ≥ 1}) = lim Ws αn ({ < 1, n n n = lim Ws αn ({k Erfolge in n − 1 Versuchen}) n→∞ α = lim b(n − 1; ; k) n→∞ n = πα (k) Das zweite Argument läuft über eine klassische Berechnung von Integralen: Ws ({τk < 1, τk+1 ≥ 1}) = Ws ({ αX1 + . . . + αXk < α, αX1 + . . . + αXk+1 ≥ α}) |{z} ∼Exp(1) = Z e−(x1 +...+xk+1 ) dx1 . . . dxn+1 {(x1 ,...,xk ,xk+1 )|x1 +...+xk <α,x1 +...+xk+1 ≥α} Z = Transformation ti =x1 +...+xi = Fubini {(t1 ,...,tk ,xk+1 )|0≤t1 ≤...≤tk <α,tk +xk+1 ≥α} Zα 0 = Z 0 = e−(tk +xk+1 ) dt1 . . . dtk dxk+1 1 tkk−1 e−tk (k − 1)! α Z∞ e−xk+1 dxk+1 dtk α−tk 1 tk−1 e−tk e−(α−tk ) dtk (k − 1)! k 1 k −α α e k! 2 25.6 Korollar Lα (N[0,t) ) = Poisson (αt) 73 Beweis: Wsα ({τk ≤ t, τk+1 > t}) = Wsα ({ τk t |{z} ≤ 1, τk+1 > 1}) t ist Summe v. unabh. Exp(αt) = Lαt (N[0,1) ) = Poisson (αt). 2 Das folgende Lemma, das man im Lichte des Münzwurfes betrachten sollte, ist auch zentral beim Beweis des nächsten Satzes: 25.7 Lemma Sei L(X) = Exp(α). Dann ist, gegeben X > s, X − s wieder Exp(α)-verteilt. Beweis: Ws ({X > t + s|X > s}) Ws ({X > t + s}) Ws ({X > t + s, X > s}) = Ws ({X > s}) Ws ({X > s}) −α(t+s) e = = e−αt −αs e = 2 25.8 Satz Sei {τ1 , τ2 , . . .} Poisson’scher Punktprozeß zum Parameter α, t > 0, N := N[0,t) := max{k|X1 + . . . + Xk < t}. Gegeben N und τ1 , . . . , τN , ist {τN +1 − t, τN +2 − t, . . .} wieder ein Poisson’scher Punktprozeß zum Parameter α. Beweis: Weil X1 , X2 , . . . unabhängig sind, gilt: L(Xk+1|N = k; τ1 = t1 , . . . , τk = tk ) = L(Xk+1|X1 = t1 , . . . , X1 + . . . + Xk = t1 + . . . + tk , Xk+1 ≥ t − tk ⇒ L(Xk+1 − (t − tk )|N = k; τ1 = t1 , . . . , τk = tk ) = L(Xk+1 − (t − tk )|Xk+1 ≥ t − tk ) (= Exp (α) wegen des vorigen Lemmas) Die darauffolgenden Pausen Xk+2 , Xk+3 , . . . sind unabhängig und Exp(α)-verteilt. 2 25.9 Korollar N[t,t+h) ist Poisson(αh)-verteilt und unabhängig von N[0,t) . 74 Xk+1 tk t 25.10 Korollar | ) L(N) = Poisson (t), L(N ′ ) = Poisson (h) N, N ′ unabhängig {z Xk+1 −(t−tk ) } ⇒ L(N + N ′ ) = Poisson (t + h) Beweis: Setze α = 1 t+h t N[0,t) und N[t,t+h) sind unabhängig und Poisson(t)- bzw. Poisson(h)-verteilt, N[0,t) + N[t,t+h) = N[0,t+h) ist Poisson(t + h)-verteilt. 2 Wie ist die Wartezeit bis zum k-ten Punkt verteilt? Wir betrachten (nicht nur aus Schreibfaulheit) erst einmal den Fall α = 1. Es gilt für t > 0: {X1 + . . . + Xk < t} = {N[0,t) ≥ k}, −t also Ws ({X1 + . . . + Xk < t}) = 1 − e X2 X1 Xk ... 0 t Verteilungsdichte von X1 + . . . + Xk : k−1 k−1 tk−1 (k − 1)! (t > 0) X tj X jtj−1 d G(t) = e−t − e−t dt j! j! j=0 j=1 = e−t En passant ist herausgekommen: 75 k−1 j X t j=0 j! =: G(t) 25.11 Korollar Z∞ tk−1 e−t dt = (k − 1)! (k ∈ N) 0 Mit Γ(k) := R∞ 0 tk−1 e−t dt können wir sogar für alle k ∈ R+ definieren: Y heißt Gamma(k)-verteilt : ⇔ :⇔ Y besitzt Dichte ( gk (t) = 0 tk−1 e−t Γ(k) t≤0 t>0 für für Für k, l ∈ N haben wir schon in der Tasche: (∗) L(Y ) = Gamma (k), L(Y ′ ) = Gamma (l) Y und Y ′ unabhängig ) ⇒ L(Y + Y ′ ) = Gamma (k + l) In der Tat gilt (∗) sogar für k, l ∈ R+ , denn man prüft nach (Übung) Z Z Z ′ ′ gk (y)gl (y )dydy = gk+l (z)dz {y+y ′ ≤t} {z≤t} Daß auch dies noch eine wunderschöne stochastische Erklärung besitzt, bei der wiederum Poisson’sche Prozesse eine zentrale Rolle spielen, geht über den Rahmen dieser Vorlesung hinaus. Stichworte sind Faltungshalbgruppe, unbegrenzte Teilbarkeit, LévyKhintchin-Darstellung. Und wo ist α geblieben? Es spielt die Rolle eines Skalenparameters. 25.12 Bemerkung Y Gamma(k)-verteilt. ⇒ tk−1 e−αt Y hat Dichte t 7→ αgk (αt) = αk (t > 0) α Γ(k) 76 0, 6 0, 5 0, 4 0, 3 Dichte der Gamma(k)-Funktion-Verteilung mit Skalenparameter α = 12 (k = 1, 2, 3). k=1 k=2 0, 2 k=3 0, 1 0 2 4 6 8 10 12 14 (Eine Zufallsvariable mit dieser Dichte heißt Gamma(k, α)-verteilt) 77 26 Das schwache Gesetz der großen Zahlen Das n-fache einer reellwertigen Zufallsvariablen X streut n-mal so stark wie X: p Var (nX) = √ n2 Var X = n · √ Var X Aber die Summe aus n unkorrelierten Zufallsvariablen X1 , . . . , Xn mit ein und derselben √ Varianz streut nur n-mal so stark wie X1 : p Var (X1 + . . . + Xn ) = p Var X1 + . . . + Var Xn = p n · Var X1 (d.h. unkorrelierte Schwankungen löschen sich gegenseitig einigermaßen aus!) Also geht die Varianz des arithmetischen Mittels von n identisch verteilten unkorrelierten Zufallsvariablen mit n → ∞ gegen Null. 26.1 Bemerkung X1 , X2 , . . . seien unkorreliert, mit ein und derselben Varianz σ 2 < ∞. Dann gilt: 1 σ2 1 −→ 0. Var (X1 + . . . + Xn ) = 2 nVar X1 = n n n n→∞ Das ist schon die halbe Miete! Das 2. Ingredient fürs schwache Gesetz der großen Zahlen ist die Ungleichung von Tschebyscheff: Z sei reellwertige integrierbare Zufallsvariable mit Erwartungswert µ. Dann gilt für alle ε > 0: 1 Ws ({|Z − µ| ≥ ε}) ≤ 2 Var (Z). ε Beweis: Ws ({|Z − µ| ≥ ε}) = ≤ Ungl. v. Markoff (Abschnitt 19) Ws ({(Z − µ)2 ≥ ε2 }) 1 1 E (Z − µ)2 = 2 Var (Z) 2 ε ε 2 26.2 Korollar (Schwaches Gesetz der großen Zahlen) X1 , X2 , . . . seien unkorreliert, alle mit demselben Erwartungswert µ und derselben Varianz σ 2 < ∞. Dann gilt mit Sn := X1 + . . . + Xn für alle ε > 0: 1 1 1 1 1 Sn − µ ≥ ε ≤ 2 Var Sn = 2 σ 2 −→ 0. Ws n ε n ε n 78 Man sagt dafür auch: Die Folge der Zufallsvariablen scheinlichkeit) gegen µ. 1 n n P Xi konvergiert stochastisch (bzw. in Wahr- i=1 Spezialfall (schwaches Gesetz der großen Zahlen für den Münzwurf von Jakob Bernoulli) (aus der ars conjectandi, 1713) n P Yi in Wahrschein(Yn ) sei Münzwurffolge zum Parameter p. Dann konvergiert n1 i=1 lichkeit gegen p. Da wir uns die Folge der Beobachtungen des Eintretens bzw. Nichteintretens eines bestimmten Ereignisses in einem mehrmals unabhängig wiederholten Zufallsexperiment als Münzwurffolge mit Parameter p = Ws (A) denken können, bietet Bernoullis Satz einen prinzipiellen Zugang zum empirischen Ermitteln von Wahrscheinlichkeiten“ (vgl. dazu ” die Diskussion in Dinges/Rost, Seite 77/78). Definition und Beispiel: Z1 , Z2 , . . . seien unabhängige, identisch verteilte reellwertige Zufallsvariablen; G sei die Verteilungsfunktion von Z1 . Die zufällige Funktion 1 #{i|i ≤ n, Zi < x} n heißt empirische Verteilungsfunktion zu (Z1 , . . . , Zn ). x 7→ Gn (x) := Z1 Z3 Z2 Aus dem Schwachen Gesetz der großen Zahlen für den Münzwurf folgt ∀ x ∈ R : Gn (x) −→ G(x) n→∞ in Wahrscheinlichkeit. 79 27 Vom Münzwurf zur Glockenkurve: Die Normalapproximation der Binomialverteilung Wir wollen zuerst ein heuristisches Argument dafür geben, warum aus den Binomialgewichten n k n−k p q w(k) := k für n → ∞ (und festes p) unter einer geeigneten Skalierung die Gaußsche Glockenkurve x2 1 ϕ(x) = √ e− 2 2π entsteht. Die sukzessiven Verhältnisse R(k) := n−k +1p w(k) = w(k − 1) k q sind ≥ 1 genau für k ≤ (n + 1)p. Also wächst w(k) monoton für k ≤ (n + 1)p, und w nimmt sein Maximum bei l := [(n + 1)p] an. Wir betrachten die durch w(l) auf Maximalhöhe 1 normierten Gewichte H(k) := w(k) . w(l) Für k > l ist H(k) = w(l + 1) w(l + 2) w(k) w(k) = ··· w(l) w(l) w(l + 1) w(k − 1) = R(l + 1) R(l + 2) . . . R(k) Betrachten wir den Logarithmus der sukzessiven Verhältnisse: log R(l + j) = = = = für ≈ j≪n (n − l − j + 1)p (n − np − j + 1)p ≈ log (l + j)q (np + j)q (nq − j + 1)p log (np + j)q log(npq − p(j − 1)) − log(npq + qj) j−1 j log 1 − − log 1 + nq np 1 1 j − (pj + qj) = − npq pq n log 80 Zumindest für j ≪ n ist also der Logarithmus der sukzessiven Verhältnisse log R(l + j) annähernd linear in j. Für k − np ≪ n folgt somit 1 1 (1 + 2 + . . . + (k − l)) pq n 1 11 ≈ − (k − l)2 pq n 2 1 (k − np)2 ≈ − 2 npq log H(k) ≈ − 1 k−µ 2 ) σ H(k) ≈ e− 2 ( mit µ := np, σ 2 = npq 1 k−µ 2 ) σ w(k) = H(k)const ≈ const e− 2 ( 1 k−µ 2 1 k−µ 2 e− 2 ( σ ) e− 2 ( σ ) ≈ w(k) ≈ P = n R∞ − 1 ( x−µ )2 2 ) − 12 ( i−µ σ e e 2 σ dx i=0 = √ −∞ 1 2πσ 2 )2 − 12 ( k−µ σ e Analoges gilt für k ≤ l. Für binomial-(n, p) verteiltes Sn ist somit (für n groß und |k − np| ≪ n): Ws ({Sn = k}) ≈ √ Ws d.h. Sn −µ σ 2 1 (k−np) 1 e− 2 npq 2πnpq Sn − µ 1 = Ws ({Sn ∈ [µ + σx, µ + σx + 1]) ∈ x, x + σ σ 1 1 − x2 √ e 2, ≈ σ 2π hat annähernd die Verteilungsdichte ϕ(x) = 81 2 x √1 e− 2 2π . Für großes n und nicht allzu extremes k stehen also die Binomialgewichte b(n, p; k) in x2 engstem Zusammenhang mit der Glockenkurve“ e− 2 . ” Eckpfeiler bei der mathematischen Absicherung davon ist die Stirling’sche Formel (in dieser Form bewiesen von de Moivre um 1730): 27.1 Satz √ 1 n! ∼ nn+ 2 e−n 2π lim an n→∞ bn (Dabei bedeute an ∼ bn (n → ∞) : (n → ∞) = 1) Beweis: n! Z∞ = Z∞ t e dt = = Z∞ e−ns+n log s+n log n n ds = Z∞ e−n(s−log s) ds = Z∞ e−n(s−1−log s) ds n −t 0 0 t=ns e−t+n log t dt 0 ⇒ n! n−n−1 ⇒ n! n−n−1 en 0 0 Die Idee ist, das Integral zu zerlegen in einen Beitrag um s = 1 √ (dort ist s − 1 − log s ≈ 21 (s − 1)2 , und das wird mit der Substitution r = n(s − 1) R∞ − r2 e 2 dr geben) asymptotisch den Beitrag √1n −∞ und in einem Beitrag weg von s = 1“ ” (dort wird der Exponent −n(s−1−log s) so stark negativ, daß der Beitrag zum Integral asymptotisch verschwindet.) Um eine Kontrolle darüber zu haben, wie gut sich s−1−log s in der Nähe von s = 1 an 1 (s − 1)2 anschmiegt, und wie stark positiv s − 1 − log s weg von s = 1 ist, rekapitulieren 2 wir einige einfache Eigenschaften der Funktion s − 1 − log s. 82 3 s−1 2 log s 1 0 6 4 2 8 10 −1 −2 −3 Aus der Taylorentwicklung folgt: (1) (d.h. lim sup s→1 1 s − 1 − log s − (s − 1)2 = O|s − 1|3 2 |s−1−log s− 21 (s−1)2 | |s−1|3 für s → 1 < ∞). Aus (1) folgt: 1 s − 1 − log s ≥ (s − 1)2 4 Aus der Konkavität von log folgt: (2) (3) für s hinreichend nahe bei 1 log s ≤ log s0 + 1 (s − s0 ) s0 und damit: 1 s − 1 − log s ≥ s0 − 1 − log s0 +(s − s0 )(1 − ) {z } | s0 (4) ≥0 ≥ (s − s0 )(1 − 1+n Z −γ e−n (s−1)2 +O(n−3γ ) 2 1−n−γ 1 n 2 −γ = √↑ r= n(s−1) Z ds r2 1 e− 2 √ dr n 1 −n 2 −γ 83 ∼ ↑ 1 für γ> 3 ∼ ↑ für γ< 1 2 1 ) s0 1+n Z −γ e−n 1−n−γ √ 1 2π √ n (s−1)2 2 ds Soweit also bestens! Wir müssen nur noch der Beitrag der Regionen weg von 1 kleinkriegen. Weil s − 1 − log s auf ]0, 1] monoton fällt, erhalten wir aus (2) für hinreichend großes n: cn := 1−n Z −γ 0 e−n(s−1−log s) ds ≤ 1−n Z −γ 1 e−n 4 n −2γ 0 1 ds ≤ e− 4 n 1 1+n−γ Mit der Wahl s0 := 1 + n−γ erhalten wir aus (4) wegen dn := Z∞ −n(s−1−log s) e ds ≤ 1+n−γ Also : Z∞ −n(s−s0 ) 21 n−γ e ds = s ≤ 1 − 21 n−γ : e− 2 n 1−γ ds = 2 n1−γ 0 1+n−γ √ Z∞ 1−2γ ncn −→ 0 und n→∞ √ ndn −→ 0. n→∞ 2 27.2 Korollar (Lokaler Grenzwertsatz) Für die Binomialgewichte n k n−k p q b(n, p; k) = k gilt: 1 b(n, p; kn ) ∼ q n knn (1 − kn 1 √ e−nh( n ) kn ) 2π n für n → ∞, kn → ∞, n − kn → ∞ mit h(α) := α log αp + (1 − α) log 1−α 1−p − log p − log(1 − p) h(α) 0 p 1 84 α Beweis: n! pk q n−k k!(n − k)! 1 nn+ 2 ∼ Stirling k k+ 21 q = q = q = (n − k) 1 1 n−k+ 2 1 √ en log n−k log k−(n−k) log(n−k)+k log p+(n−k) log q k k 2π n n (1 − n ) 1 np nq 1 √ ek log k +(n−k) log n−k n nk (1 − nk ) 2π n−k n−k k k 1 √ e−n( n log np + n log nq ) . n nk (1 − nk ) 2π 1 2 2 27.3 Korollar Sei |kn − np| = o(n 3 ) Dann gilt: (d.h. lim n→∞ b(n, p; kn ) ∼ √ Beweis: Erst einmal folgt: 1 √ ek log p+(n−k) log q 2π kn −np 2 n3 Wegen h(p) = h′ (p) = 0, h′′ (p) = |kn −np| 2 n3 = 0). (kn −np)2 1 1 √ e− 2npq npq 2π 1 = n 3 ( knn − p) → 0, also 1 pq kn n → p, 1 − kn n → q. folgt (beachte: h′′′ ist beschränkt in der Nähe von p): h(α) = 1 (α − p)2 + O(|α − p|3 ) 2pq ⇒ nh kn n kn − np 3 1 2 = (kn − np) + n O n 2pqn | {z } 1 | 27.4 Bemerkung Mit ϕ(x) := 2 x √1 e− 2 2π , zn,k := k−np √ npq | =o(n− 3 ) {z =o(n−1 ) {z =o(1) } } folgt aus Korollar 27.3 b(n, p; k) = (zn,k − zn,k−1 )ϕ(zn,k )er(n,k) , √ √ wobei für jedes c > 0 gilt: lim rn,k = 0 gleichmäßig für alle k ∈ [np − c n, np + c n]. n→∞ 85 2 Daraus läßt sich in Summe “ etwas machen! ” 27.5 Satz (Globaler Grenzwertsatz, von de Moivre (1733, für p = 21 ) und Laplace (1810, für p allgemein)) Für n = 1, 2, . . . sei Kn eine binomial(n, p)-verteilte Zufallsvariable, und Zn die durch Standardisierung (d.h. Verschiebung um den Erwartungswert und Division durch die −np . Streuung) aus Kn hervorgehende Zufallsvariable: Zn := K√nnpq Dann gilt für alle a < b ∈ R : lim Ws ({Zn ∈ [a, b]}) = n→∞ Zb 1 z2 mit ϕ(z) = √ e− 2 2π ϕ(z)dz, a Beweis: Wir definieren r(n, k) durch b(n, p; k) = √ Mit zn,k := k−np √ npq 2 1 +r(n,k) − (k−np) 2npq . e 2πnpq ergibt sich: Ws ({a ≤ Zn ≤ b}) = Ws X = Kn − np a≤ √ ≤b npq b(n, p; k) √ a≤ k−np ≤b npq = X √ ≤b a≤ k−np npq (zn,k − zn,k−1 )ϕ(zn,k ) er(n,k) √ √ Nun geht aber r(n, k) für n → ∞ gleichmäßig für k ∈ [np + a npq, np + b npq] gegen Null. Die behauptete Konvergenz folgt damit leicht aus den Eigenschaften des Integrals zusammen mit der gleichmäßigen Stetigkeit von ϕ auf [a, b] : | X k−np a≤ √ ≤b npq Zzn,k (ϕ(z) − ϕ(zn,k ))dz| ≤ |b − a| zn,k−1 sup |y−x|< √ 1 npq a≤x≤b |ϕ(y) − ϕ(x)| −→n→∞ 0 Betrachten wir noch den Spezialfall p = 21 , und stellen wir den fairen Münzwurf und n P die gewöhnliche Irrfahrt gegenüber. Es ist Kn = Yi mit (Yi ) fairer Münzwurf, d.h. i=1 (Yi ) unabhängig mit Ws (Yi = 1) = Ws (Yi = 0) = 86 1 2 Es ist Kn − n2 2Kn − n q = √ = n 1 n4 n P i=1 ist±1mitWert 12 z }| { (2Yi − 1) √ n Also haben wir bewiesen: Grenzwertsatz für die gewöhnliche Irrfahrt: n P Sei Wn = Vi eine gewöhnliche Irrfahrt auf Z (mit Vi unabhängig, Ws ({Vi = ±1}) = 12 ). i=1 Dann gilt: lim Ws n→∞ Zb 1 √ Wn ∈ [a, b] = ϕ(z)dz, n a mit ϕ:= Gauß’sche Glockenkurve. 87 28 Der klassische Zentrale Grenzwertsatz Es ist eine tolle Sache, daß das vorige Korollar sogar dann noch gilt, wenn man die speziellen Vi durch irgendwelche unabhängigen, identisch verteilten Xi mit Erwartungswert 0 und Varianz 1 ersetzt. 28.1 Satz (Tschebyscheff) Seien X1 , X2 , . . . unabhängig, identisch verteilt, mit Erwartungswert 0 und Varianz 1. Dann gilt: )! ( Zb n 1 X √ Xi ∈ [a, b] −→ ϕ(z)dz Ws n i=1 a Vorbereitende Bemerkungen zum Beweis: Wir folgen nicht der üblichen (schon von Tschebyscheff verwendeten) Route über die sogenannten charakteristischen Funktionen, sondern einem intuitiveren (in gewissem Sinn sogar moderneren) Weg. Die Idee n n P P Xi mit einer Irrfahrt √1n ist, √1n Vi zu vergleichen“, und zwar sozusagen entlang ” ” i=1 i=1 des Weges“: 1 √ (X1 + . . . + Xi−1 + Xi + Vi+1 + . . . + Vn ) n sollte nahe sein bei 1 √ (X1 + . . . + Xi−1 + Vi + Vi+1 + . . . + Vn ) n Um diese Summen überhaupt hinschreiben zu können, muß man erst die gemeinsame Verteilung der Xi und Vi spezifizieren. Naheliegend (und wie wir sehen werden, zielführend) ist es, diese als unabhängig anzusetzen. 88 Die zweite Idee im Beweis wird sein, die Indikatorfunktion 1[a,b] durch eine 2-mal stetig differenzierbare Funktion f anzunähern, die auf dem Intervall [a, b] den Wert 1 und außerhalb des Intervalls [a − ε, b + ε] den Wert 0 annimmt 1 a−ε a b b+ε 28.2 Lemma Die (Xi ) seien wie im Satz, V1 , V2 , . . . seien untereinander und von Xi unabhängig mit Ws ({Vi = ±1}) = 12 . f : R → R sei 2-mal stetig differenzierbar und verschwinde außerhalb eines beschränkten Intervalls. Dann gilt: 1 1 E f √ (X1 + . . . + Xn ) − f √ (V1 + . . . + Vn ) −→ 0 n→∞ n n Beweis: Wir schreiben den Ausdruck als Teleskopsumme. Sei dazu 1 Zi := √ (X1 + . . . + Xi−1 + Vi+1 + . . . + Vn ) n Wir wollen Xi Vi E f Zi + √ √ − f Z + i n n abschätzen. Wegen Xi Xi2 Xi ′ Xi Xi2 ′′ ′′ ′′ f Zi + h √ f (Zi ) + − f (Zi ) = √ f (Zi ) + − f (Zi ) f Zi + √ n n 2n 2n n (mit geeignetem h ∈ [0, 1]) ist (beachte E Xi = 0, E Xi2 = 1) 2 Xi Xi 1 Xi ′′ ′′ ′′ f Zi + h √ E f (Zi ) = E − E f (Zi ) − − f (Zi ) . E f Zi + √ 2n 2n n n Die analoge Formel gilt für Vi statt Xi . Bei der Differenzbildung fallen die Terme 1 E f ′′ (Zi ) weg: E f (Zi ) und 2n 89 Xi Vi (∗) E f Zi + √ − E f Zi + √ = n n 2 2 Xi Vi Vi Xi ′′ ′′ ′′ ′′ f Zi + h √ f Zi + h̃ √ − f (Zi ) − E − f (Zi ) E 2n 2n n n Also bleibt abzuschätzen: 2 Xi ′′ E Xi f ′′ Zi + h √ − f (Z ) i 2n n ≤ ≤ ≤ M :=max |f ′′ (z)| z E [|. . .|] n o o n E |. . .| 1 |X |≥n 14 + E |. . .| 1 |X |<n 41 i i 2 Xi n 1o 1 + 2M E 2n |Xi |≥n 4 2 Xi E 2n sup |f (z ) − f (z)| 1 |z ′ −z|≤n− 4 | {z } =:δn 1 1 2 n o M E Xi 1 |X |≥n 41 + δn i n 2 + = ′′ ′ ′′ Analoges gilt für Vi statt Xi . Durch Aufsummieren von (∗) über i = 1, . . . , n folgt: Ef n 1 X √ Xi n i=1 Wegen X12 1n|X ! n − Ef 1 X √ Vi n i=1 ! ≤M E X12 1n|X 1o 1 |≥n 4 + E V12 1n|V |≥n 14 o + δn 1 | {z } =0 für n>1 ↑ X12 f.s. folgt aus dem Satz über die Eigenschaften des Er” wartungswertes“ (Satz 19.7, iii)): 1o 1 |<n 4 E X12 1n|X 1o 1 |≥n 4 −→ 0. 2 90 Beweis des Satzes Sei f wie im obigen Bild, E f √1 (X1 + . . . + Xn ) − E f √1 (V1 + . . . + Vn ) =: γn n n Dann folgt: )! ( n 1 X √ Xi ∈ [a, b] Ws n i=1 = E I{ √1 n P = ≤ 1[a,b]≤f ≤ ≤ f ≤1[a−ε,b+ε] ⇒ Xi ∈[a,b]} 1 X √ Xi n E 1[a,b] 1 E f √ (X1 + . . . + Xn ) n 1 E f √ (V1 + . . . + Vn ) + γn n )! ( n 1 X √ Vi ∈ [a − ε, b + ε] + γn Ws n i=1 ( )! Zb+ε n 1 X √ lim sup Ws Xi ∈ [a, b] ≤ ϕ(z)dz n→∞ n i=1 a−ε ⇒ mit ε→0 lim sup Ws n→∞ ( )! n 1 X √ Xi ∈ [a, b] n i=1 ≤ Zb ϕ(z)dz a Analog folgt mit 1[a,b] ≥ f˜ ≥ 1[a+ε,b−ε]: )! ( n 1 1 X ˜ √ Xi ∈ [a, b] ≥ E f √ (X1 + . . . + Xn ) Ws n i=1 n 1 ˜ ≥ E f √ (V1 + . . . + Vn ) − γ̃n n )! ( n 1 X √ Vi ∈ [a + ε, b − ε] − γ̃n ≥ Ws n i=1 ( )! Zb−ε n 1 X √ ⇒ lim inf Ws Xi ∈ [a, b] ≥ ϕ(z)dz n→∞ n i=1 a+ε ⇒ lim inf Ws n→∞ ( n )! 1 X √ Xi ∈ [a, b] n i=1 ≥ Zb ϕ(z)dz a 2 91 29 Die Normalverteilung Z heißt standard-normalverteilt (N (0, 1)-verteilt) z2 1 :⇔ Z hat Dichte ϕ(z) := √ e− 2 2π Zz Φ(z) := ϕ(y)dy −∞ heißt auch Gauß’sche Fehlerfunktion. Einige häufig benutzte Werte sind: z Φ(z) 0 1 1,28 1,65 1,96 2,33 0,5 0,84 0,9 0,95 0,975 0,99 Für negative z mache man den Gebrauch von Φ(z) = 1 − Φ(−z) 0, 5 0, 4 0, 3 0, 2 0, 1 −4 −2 0 2 Ws ({|Z| > 1}) ≈ 31 Ws ({|Z| > 2}) ≈ 0, 05 Sei σ > 0, µ ∈ R . Man überzeugt sich leicht (Übung!): x2 1 x 1 X = σZ hat Dichte ϕ = √ e− 2σ2 σ σ σ 2π 92 4 (x−µ)2 1 X = σZ + µ hat Dichte f (x) := √ e− 2σ2 σ 2π (siehe 10 DM-Schein!!) Außerdem gilt (vgl. Abschnitt 24): Z1 , Z2 unabhängig und N (0, 1)verteilt ⇒ ZT = (Z1 , Z2 ) hat Dichte g(z1 , z2 ) = ϕ(z1 ) · ϕ(z2 ) = 1 − ||z||2 1 − z12 +z22 e 2 = e 2 . 2π 2π Wie ist in diesem Fall Y1 := a1 Z1 + a2 Z2 verteilt? Spezialfall: a21 + a22 = 1, d.h. ~a = (a1 , a2 ) ist ein Einheitsvektor. Deute Y1 als Länge der Projektion auf ~a. Ergänze ~a zu einer ON-Basis. ~b := (−a2 , a1 ) ! a1 a2 M := −a2 a1 Z ~b ~a Wie ist Y := M · Z = a1 Z1 + a2 Z2 −a2 Z1 + a1 Z1 ! verteilt? Y T hat Dichte | det1 M | g(M −1 y) Nun gilt aber ||M −1 y|| = ||y||, denn M beschreibt eine orthogonale Transformation. 93 (In der Tat: ||M −1 y T ||2 = hy T , (M −1 )T M −1 y T i = hy T , (MM T )−1 y T i = ||y||2, denn a1 a2 −a2 a1 ! a1 −a2 a2 a1 ! = 1 0 0 1 ! .) Also L(Y) = L(Z), und insbesondere: L(a1 Z1 +a2 Z2 ) = N (0, 1). Für allgemeines a1 , a2 folgt: ! q a a 2 1 Z1 + p 2 Z2 a21 + a22 p 2 a1 + a22 a1 + a22 ist N (0, a21 + a22 )-verteilt. 29.1 Korollar X1 sei N (µ1 , σ12 )-verteilt, X2 sei N (µ2, σ22 )-verteilt, X1 , X2 seien unabhängig ⇒ X1 + X2 ist N (µ1 + µ2 , σ12 + σ22 )-verteilt. 94 30 Große Abweichungen beim Münzwurf Für p ∈]0, 1[ seien Y1 , Y2 , . . . unabhängig und identisch verteilt, mit Wsp ({Yi = 1}) = p, Wsp ({Yi = 0}) = 1 − p. Kn := Y1 + . . . + Yn sei die Anzahl der Erfolge“ bis n. Wir betrachten ein festes ” Intervall [c, d] rechts von p (d.h. p < c < d). p 0 c d 1 Wir wissen aus dem schwachen Gesetz der Großen Zahlen Kn Wsp ∈ [c, d] −→ 0 n→∞ n Läßt sich etwas über die Asymptotik dieser Nullfolge sagen? 30.1 Satz (Boltzmann) 1 log Wsp n mit Kn ∈ [c, d] −→ −h(c, p) n→∞ n h(α, p) := α log (Zum Merken: (∗) wobei wir definieren Wsp 1−α α + (1 − α) log p 1−p Kn ∈ [c, d] ≃ e−nh(c,p) n an ≃ bn :⇔ log an ∼ log bn ) Weil (∗) für alle d = c + ε (mit noch so kleinem ε > 0) gilt, formulieren wir (im Geiste Boltzmanns) diese Aussagen salopp als: Kn log Wsp ≈ c ∼ −nh(c, p) n Kn Wsp ≈ c ≃ e−nh(c,p) n 95 Boltzmanns Interpretation am idealen Gas“: ” V 1 V n Teilchen sind rein zufällig und unabhägig voneinander im Volumen Λ verteilt; Kn bezeichne die Zahl der Teilchen in Λ1 . Vol V1 V Typischerweise findet man: Knn ≈ p, mit p = Vol Boltzmanns Frage: Wie wahrscheinlich sind untypische Besetzungszahlen? Seine Antwort: Kn ≈ c ≃ e−nh(c,p) Wsp n Beweis des Satzes: Untere Abschätzung: Idee: Vergleich von Wsp Knn ∈ [c, d] mit Wsc+ε Knn ∈ [c, d] : Wsp Kn ∈ [c, d] = n X Wsp ({Kn = k}) k∈[nc,nd] X Wsp ({Kn = k}) Wsc+ε ({Kn = k}) Wsc+ε ({Kn = k}) k∈[nc,nd] X p k 1 − p n−k Wsc+ε ({Kn = k}) = c+ε 1 − (c + ε) k∈[nc,nd] k n−k X 1−p p ≥ Wsc+ε ({Kn = k}) c+ε 1 − (c + ε) k∈[nc,n(c+2ε)] n(c+2ε) n−n(c+2ε) X p 1−p ≥ c+ε 1 − (c + ε) = k∈[nc,n(c+2ε)] Wsc+ε ({Kn = k}) n(c+2ε) p Kn ∈ [c, c + 2ε] · = Wsc+ε n c+ε n−n(c+2ε) 1−p 1 − (c + ε) 96 ⇒ log Wsp Kn ∈ [c, d] n 1 ⇒ log Wsp n Kn ∈ [c, d] n Kn ≥ log Wsc+ε ∈ [c, c + 2ε] n p 1−p +n (c + 2ε) log + (1 − (c + 2ε)) log c+ε 1 − (c + ε) 1 ≥ log Wsc+ε n | →1 +(c + 2ε) log 1 ⇒ lim inf log Wsp n 1 ⇒ lim inf log Wsp ε→0 n Kn ∈ [c, d] n ≥ (c + 2ε) log Kn ∈ [c, d] n Kn ∈ [c, c + 2ε] n {z } 1−p p + (1 − (c + 2ε)) log c+ε 1 − (c + ε) 1−p p + (1 − (c + 2ε)) log c+ε 1 − (c + ε) ≥ −h(c, p) Obere Abschätzung: Idee: Exponentielle Tschebyscheff-Ungleichung“ ” Wsp Kn ∈ [c, d] n ≤ = für alle Wsp ({Kn ≥ nc}) t>0 = ≤ Markoff-Ungl. Wsp ({t(Kn − nc) ≥ 0}) Ws p et(Kn −nc) ≥ 1 n Ep et(Kn −nc) = e−tnc Ep et·Y1 Für welches t wird diese Ungleichung am schärfsten? Wir logarithmieren und teilen durch n: 97 1 log Wsp n Kn ∈ [c, d] n −tc + log Ep etY1 ≤ −tc + log pet·1 + (1 − p)et·0 = −tc + f (t), =: mit f (t) := log pet + (1 − p) 5 t 7→ f (t) 4 t 7→ ct 3 2 1 0 f ′ (t) = pet pet +(1−p) 1 2 4 3 5 7 6 also: f ′ (0) = p, f ′ (t) ↑ 1. t→∞ d pet (−tc + f (t)) = −c + t =0 dt pe + (1 − p) c(1 − p) c(1 − p) , t∗ = log ⇔ et = p(1 − c) p(1 − c) Einsetzen von t∗ ergibt die obere Schranke c(1 − p) c(1 − p) + log + 1 − p −t c + f (t ) = −c log p(1 − c) |(1 − c){z } ∗ ∗ = 1−p 1−c 1−c c = − c log + (1 − c) log p 1−p = −h(c, p) Also: 1 lim sup log Wsp n→∞ n Kn ∈ [c, d] ≤ −h(c, p). n 98 2 31 Große Abweichungen beim Würfeln Betrachten wir jetzt nicht wie im vorigen Abschnitt nur zwei Ausgänge ( Erfolg“ oder ” Mißerfolg“), sondern allgemeiner r mögliche Ausgänge. ” O.B.d.A. sei die Menge der möglichen Ausgänge (oder Zustande“) gleich ” M = {1, 2, . . . , r}. Wie in Abschnitt 4 betrachten wir einen festen Wahrscheinlichkeitsvektor µ := P (µ1 , . . . , µr ), mit µj > 0 ∀ j, µj = 1. Die Menge aller Wahrscheinlichkeitsvektoren auf M bezeichnen wir mit ) ( r X πj = 1 ∆ := π = (π1 , . . . , πr )|πj ≥ 0, j=1 Veranschaulichung für r = 3: π3 (0, 0, 1) ·µ (0, 1, 0) π2 (1, 0, 0) π1 Y1 , Y2 , . . . seien unabhängig und identisch verteilt mit Verteilung µ (n) Kj := # {i ∈ 1, . . . , n}|Yi = j} , (n) K (n) := (K1 , . . . , Kr(n) ) ist der Vektor der zufälligen Besetzungszahlen. K (n) ist multinomial (n; µ)-verteilt (siehe Abschnitt 6). 1 · K (n) ist eine ∆-wertige Zufallsvariable. n Aus dem Gesetz der großen Zahlen folgt: 99 j = 1, . . . , r Für jede ε-Umgebung Uε von µ gilt: 1 (n) Wsµ · K ∈ Uε −→ 1 n→∞ n Wieder fragen wir uns nach der Wahrscheinlichkeit großer Abweichungen. 31.1 Satz (Boltzmann, Sanov) Sei Π ⊆ ∆ konvex, mit nichtleerem Inneren in ∆ (d.h. es existiert eine offene Menge O ⊆ Rr mit ∅ = 6 ∆ ∩ O ⊆ Π). Dann gilt: 1 lim log Wsµ n→∞ n mit 1 (n) K ∈Π = inf h(π, µ) π∈Π n h(π, µ) := X πj log j∈M Saloppe Formulierung: Wsµ 1 (n) K ≈π n πj µj ≃ e−nh(π,µ) 31.2 Bemerkung Die oben definierte Größe h(π, µ) heißt relative Entropie von π bzgl. µ. Im Fall M = {1, 0}, µ = (p, 1 − p), π = (α, 1 − α) stimmt h(π, µ) mit der im vorigen Abschnitt definierten Funktion h(α, p) überein, und wir erhalten den dortigen Satz als Spezialfall. µ = (p, 1 − p) π p c d 100 Wir bringen jetzt noch eine Funktion U : S → R ins Spiel. Wir nennen U(j) die EnerP gie des Zustandes j und U(π) := U(j)π(j) die mittlere Energie in der Verteilung j∈M π. Nach dem Gesetz der großen Zahlen gilt (beachte: U 1 K (n) n 1 (n) −→ 0 − U(µ) > ε Wsµ U n K n→∞ = 1 n n P U(Yi )): i=1 ∀ε>0 Sei nun E ∈ R , E 6= U(µ). Wir fragen mit Boltzmann: Welche Verteilung π mit mittlerer Energie U(π) = E wird durch die zufälligen Besetzungszahlen n1 K (n) noch am ehesten realisiert? Satz 31.1 legt nahe, daß dies diejenige Verteilung π = π E sein wird, welche das Minimierungsproblem (∗) min h(π, µ) unter der Nebenbedingung U(π) = E π∈∆ löst. 31.3 Satz π E hat die Gestalt πjE = γ · µj eβU (j) , wobei γ und β so zu bestimmen sind, daß die Nebenbedingungen X X πjE = 1, U(j)πjE = E j j erfüllt sind. Beweis: Die Lagrangefunktion des Problems (∗) ist X X h(π, µ) − λ πj − β U(j)πj j j Nullsetzen von deren Gradienten ergibt: ∂ ∂πl X j πj log πj −λ µj X j πj − β X U(j)πj j ! = log πl µl 1 + πl −λ − βU(l) ≡ 0 µl π µ | {zl }l =1 (λ−1) ⇔ πl = e µl eβU (l) . 2 Bezeichnung: π E aus Satz 31.3 heißt Boltzmann-Gibbs-Verteilung zur mittleren Energie E (und zur Referenzverteilung µ). Wie reagiert die relative Entropie der Boltzmann-Gibbs-Verteilung πE bzgl. der Referenzverteilung µ auf eine Veränderung von E? 101 31.4 Satz dh(π E , µ) =β dE Beweis: d dE X j πjE πjE log µj ! = X dπjE j = dE X dπjE j dE · log πjE X E 1 dπjE + πj E µj πj dE j (log γ + βU(j)) + X dπjE = (log γ + 1) d X E π dE j j | {z } +β X | d 1=0 = dE = 0+β dE j d = dE j P j dπjE dE {z } U(j) dE U (j)πjE = dE =1 2 Schreiben wir W := W (E) := Wsµ h := h(E) := h π E , µ Dann gilt nach Satz 31.1: 1 (n) K ≈ πE n log W ∼ −nh ⇒ d log W ∼ −ndh = ↑ Satz 31.4 Mit T := − −nβdE = ndE − β1 1 kβ (T . . . Temperatur des Systems“, k . . . Boltzmann-Konstante [= 1, 38 · 10−23 Joule/grad ” Kelvin]) folgt: dQ ndE =: =: dS kd log W ∼ T T Dabei ist dQ := ndE die Wärmezufuhr ohne Arbeitsleistung“ und S die von Clausius ” (1865) eingeführte thermodynamische Entropie des Systems. Die auf Boltzmanns Grabstein eingemeißelte Formel ist k log W = S. 1 Wie paßt T := − kβ zur Physik? 102 Erklärung am idealen Gas: m > 0 . . . Teilchenmasse ~vi ∈ R 3 . . . Geschwindigkeitsvektor des i-ten Teilchens yi = m~vi . . . Impuls des i-ten Teilchens 1 1 m~vi2 = 2m ||yi||2 . . . kinetischer Energie des i-ten Teilchens. 2 M := R 3 =: Raum der möglichen Impulse (ist zwar nicht endlich . . . ) µ(dy) := dy (Lebesguemaß auf R 3 , Gleichverteilung“) ” R dπ dπ h(π, µ) := π(dy) log dµ (y) gibt immer noch Sinn, mit dµ (y) := Dichte von π bzgl. µ. 1 2 Wir setzen U(y) := 2m ||y|| und fragen mit Boltzmann: Welche Verteilung π auf M minimiert h(π, µ) bei vorgegebenen Mittelwert Eπ (U) = E? In Analogie zu Satz 31.3 ergibt sich Es ist dies die Verteilung πE mit Dichte 1 γeβU (y) = γeβ 2m ||y|| 2 3 (also eine rotationssymmetrische Normalverteilung auf M = R , πE = L Z. . . standardnormalverteilt auf R 3 ) Wie hängen β und T mit E zusammen? Zum einen bemerken wir: 1 2 E=− · β 3 denn: Z U(y)πE (dy) = m −β Z , mit Z 1 ||y||2πE (dy) 2m R 3 "r # m 2 1 = E Z 2m −β 1 1 1 3 = E ||Z||2 = −β 2 −β 2 E = Eπ (U) = q Andererseits wird in der statistischen Physik die Temperatur T als proportional zur mittleren Energie eines Teilchens (genauer eines Freiheitsgrades“, mit einem Proportio” nalitätsfaktor k2 pro Freiheitsgrad) definiert: (vgl. Feynman, Lectures on Physics, I, 39 9/10) In unserem Fall ergibt sich somit: 3 E = kT. 2 1 Also insgesamt: β = − kT . 103 32 Das Starke Gesetz der Großen Zahlen 32.1 Satz (Kolmogoroff) X1 , X2 , . . . seien paarweise unabhängige, identisch verteilte reellwertige Zufallsvariablen mit E |X1 | < ∞. Dann gilt: 1 (X1 + . . . Xn ) −→ E X1 f.s. n Wir werden den Satz nur für den Spezialfall X1 , X2 , . . . unabhängig; E X14 < ∞ beweisen; für den allgemeinen Fall siehe z.B. G. Kersting, Skript zur Elementaren Stochastik, SS 97, Satz 2.10. Der Beweis beruht auf dem 32.2 Lemma von Borel-Cantelli P Seien A1 , A2 , . . . Ereignisse mit Ws (An ) < ∞. Dann ist n ∞ ∞ [ \ Ws An i=1 n=i ! =0 (d.h. die Wahrscheinlichkeit, daß unendlich viele der An eintreten, ist Null) Beweis: Ws ∞ ∞ [ \ i=1 n=i An ! ≤ ∞ [ Ws ↑ für jedes ℓ n=ℓ An ! ≤ ∞ X n=l Ws (An ) −→ 0. l→∞ 2 Beweis des Satzes (im angegebenen Spezialfall) Sei o.B.d.A. m := E X1 = 0 (ansonsten betrachte X1 − m). Wir setzen Sn := X1 + . . . + Xn 1) E Sn4 = n E X14 + n(n − 1) E X13 X2 | {z } =0 + n(n − 1) E X12 X22 + n(n − 1)(n − 2) E X12 X2 X3 {z } | =0 ≤ + n(n − 1)(n − 2)(n − 3) E X1 X2 X3 X4 {z } | = n2 E X14 =0 Cauchy-Schwarz nE X14 + n(n − 1)( E 104 1 X14 ) 2 1 ( E X24 ) 2 2) Sn n 6→ 0 = ∞ n S |Sn | k=1 n ≥ 1 k o für unendlich viele n Wegen des Lemmas von Borelli-Cantelli reicht es also zu zeigen: X |Sn | 1 ∀k∈N : Ws <∞ ≥ n k n In der Tat ist aber 4 n4 Sn 1 1 |Sn | 4 = Ws = Ws Sn ≥ 4 ≥ ≥ 4 Ws n k n4 k k 4 k 1 ≤ E Sn4 ≤ k 4 2 E X14 , und das ist summierbar über n. 4 n n 1) 2 105 33 Markoffketten: Auftreffverteilung und Dirichletproblem Sei S0 endlich oder abzählbar. Wie in Abschnitt 16 sei P = P (x, y)x,y∈S0 eine Übergangsmatrix auf S0 . Für jede Verteilung µ auf S0 wird durch Wsµ ({X0 = x0 , . . . , Xn = xn }) := µ(x0 )P (x0 , x1 ) . . . P (xn−1 , xn ), n ∈ N; x1 , . . . , xn ∈ S0 eine Wahrscheinlichkeitsverteilung auf dem Pfadraum S = S0 × S0 × . . . definiert (siehe Satz von Ionesco-Tulcea, Abschnitt 20) Wsµ hat folgende Eigenschaft: Wsµ ({X0 = x0 , . . . , Xn = xn , Xn+1 = xn+1 , . . . , Xn+m = xn+m }) = µ(x0 ) . . . P (xn−1 , xn )P (xn , xn+1 ) . . . P (xn+m−1 , xm ) = Wsµ ({X0 = x0 , . . . , Xn = xn }) Wsδxn ({X0 = x0 , . . . , Xm = xm }) ⇒ Wsµ ({Xn+1 = xn+1 , . . . , Xn+m = xn+m } | {X0 = x0 , . . . , Xn = xn }) = Wsδxn ({X0 = x0 , . . . , Xm = xm }) Unter Rückgriff auf den Eindeutigkeitssatz aus Abschnitt 22 folgt daraus (mit Wsδxn =: Wsxn ) Wsµ ({Xn+· ∈ ·} | {(X0 , . . . , Xn ) = (x0 , . . . , xn )}) = Wsxn ({X ∈ ·}) (Markoffeigenschaft) Mit der Formel von der totalen Wahrscheinlichkeit ergibt sich daraus: X Wsµ ({Xn = xn }) Wsxn ({X ∈ ·}) Wsµ ({Xn+· ∈ ·}) = xn ∈S0 Für µ := δx , n = 1 ergibt sich daraus die Zerlegung nach dem 1. Schritt“: ” X P (x, y)Wsy ({X ∈ ·}) Wsx ({X1+· ∈ ·}) = y∈S0 Wenden wir dies an, um ein Gleichungssystem für die Auftreffgewichte der Kette auf einer Menge aufzustellen. Sei R ⊆ S0 , z ∈ R vorgegeben. Frage: Mit welcher Wahrscheinlichkeit trifft ein in x startendes, gemäß der Dynamik P wanderndes Teichen erstmals in z auf die Menge R? 106 R z x Sei T = T (X) := min{n ≥ 0|Xn ∈ R} der Zeitpunkt, in dem der Pfad erstmals die Menge R trifft (wenn x nie die Menge R trifft, ist T (X) = ∞). Falls T < ∞, sei Z := Z(X) := XT der Ort des ersten Auftreffens auf R. Sei h(x) := Wsx ({T < ∞, Z = z}). Falls X0 6∈ R, ist T (X) = 1 + T (X1+· ), und Z(X) = Z(X1+· ). Für x 6∈ R ist also h(x) = Wsx ({T (X1+· ) < ∞, Z(X1+· ) = z}) Zerlegung nach dem ersten Schritt ergibt: h(x) = X y = X P (x, y)Wsy ({T (X) < ∞, Z(X) = z}) P (x, y)h(y) y Für x ∈ R ergibt sich die Randbedingung h(x) = δxz := ( 1 0 für x = z für x = 6 z hz := h löst also das Randwertproblem“ ” ( P hz (x) = y P (x, y)hz (y) hz (x) = δxz x 6∈ R x∈R Betrachten wir noch das folgende Problem: Sei v : R → R vorgegeben. Unser Wanderer bekommt die Auszahlung v(z), wenn er erstmals in z auf die Menge R trifft. Welche Auszahlung hat er bei Start in x zu erwarten? 107 Die Lösung ist E x [v(Z); T < ∞] X = v(z)Wsx ({Z = z; T < ∞}) g(x) := z∈R = X v(z)hz (x) z∈R Offenbar löst g das Randwertproblem ( P g(x) = y P (x, y)g(y) g(x) = v(x) x 6∈ R x∈R Die erste Gleichung läßt sich auch schreiben als (I − P )g = 0 Man sagt daher auch: g ist die Lösung des Dirichletproblems zum Operator I − P mit Randbedingung v auf R. (Im Fall der gewöhnlichen Irrfahrt auf Zd ist I − P ein diskretes Analogon zum ∂2 ∂2 Laplaceoperator ∂x 2 + . . . + ∂x2 ) 1 d Betrachten wir noch das klassische Ruinproblem: X sei eine gewöhnliche Irrfahrt auf Z mit Start in x, 0 ≤ x ≤ k. Mit welcher Wahrscheinlichkeit trifft X k vor der 0? Sei R := {0, k}. Man überlegt sich leicht, daß T < ∞ f.s. Dann ist h(x) := Wsx ({Z = k}) Lösung des Problems (H) (RB) 1 (h(x − 1) + h(x + 1)) , 2 h(k) = 1, h(0) = 0 h(x) = h ist also wegen (H) affin linear; aus (RB) folgt: h(x) = 108 x k 0 < x < k,