Stochastik I und Masstheorie Universität Zürich FS 2012 Erwin Bolthausen Inhaltsverzeichnis 1 Diskrete Wahrscheinlichkeitsräume 2 1.A Anhang: Was sind Wahrscheinlichkeiten “wirklich”? . . . . . . . . . . . . 9 1.B Anhang: Einige historische Anmerkungen . . . . . . . . . . . . . . . . . . 10 2 Bedingte Wahrscheinlichkeiten, Unabhängigkeit 3 Masstheoretische Grundlagen und Ergänzungen 3.1 Masse und Erweiterungen . . . . . . . . . . . . . . . 3.2 Beispiele von messbaren Räumen . . . . . . . . . . . 3.3 Beispiele von Mass- und Wahrscheinlichkeitsräumen 3.4 Messbare Abbildungen . . . . . . . . . . . . . . . . . 3.5 Integration . . . . . . . . . . . . . . . . . . . . . . . 3.6 Der Satz von Radon-Nikodym . . . . . . . . . . . . . 3.7 Produktmasse . . . . . . . . . . . . . . . . . . . . . . 13 . . . . . . . 4 Zufallsvariablen, Erwartungswerte, charakteristische abhängigkeit 4.1 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . 4.2 Charakteristische Funktionen . . . . . . . . . . . . . . 4.3 Konvergenz von Folgen von Zufallsgrössen . . . . . . . 4.4 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 34 37 40 43 51 58 Funktionen, Un. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 66 74 78 80 5 Gesetze der grossen Zahlen 89 6 Verteilungskonvergenz und der Zentrale Grenzwertsatz 98 Literatur: Die Literatur über Wahrscheinlichkeitsrechnung ist immens. Hier nur eine kleine Auswahl: W. Feller: An Introduction to Probability Theory and Its Applications 1 Das ist der Klassiker. Die Paperback-Version ist leider vergri¤en, sodass das Buch ziemlich teuer ist. D. Williams: Probability with Martingales G. Grimmett, D. Stirzaker: Probability and Random Processes H.O. Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik 1 Diskrete Wahrscheinlichkeitsräume In diesem Kapitel wird der Begri¤ “Wahrscheinlichkeit”mathematisch präzisiert. Zufallsereignissen werden dabei Wahrscheinlichkeiten zugeordnet. (Man spricht dann von der “Wahrscheinlichkeit eines Ereignisses”). Auf die naheliegende Frage, was Wahrscheinlichkeiten “wirklich” sind, werden wir jedoch nur sehr rudimentär eingehen, weil wir dann zuerst erklären müssten, was “Zufall” ist. Bekanntlich gibt es philosophische und religiöse Systeme, die dem Zufall keinen Platz einräumen. Um Auseinandersetzungen zu diesen Fragen zu vermeiden, legt die Mathematik nur Regeln fest, nach denen mit Wahrscheinlichkeiten umgegangen wird. Was diesen in der Wirklichkeit entspricht und ob überhaupt irgend etwas, bleibt dem Einzelnen überlassen zu entscheiden. Natürlich wird in diesem Text dieser Standpunkt nicht konsequent durchgehalten, und wir werden des öfteren Interpretationen von Wahrscheinlichkeiten “vorschlagen”. In einem Anhang 1.A zu diesem Kapitel werden einige Erläuterungen zu verschiedenen Ansätzen gegeben. Zunächst muss der Begri¤ “Ereignis” präzisiert werden. Am besten zerlegt man die Ereignisse gewissermassen in Atome, in die sogenannten Elementarereignisse: die kleinsten Ereignisse, die in einer bestimmten Situation interessant oder von Bedeutung sind. Die Festlegung, was in einer Situation die Elementarereignisse sind, ist weitgehend willkürlich. Formal sind die Elementarereignisse einfach die Elemente einer (zunächst) endlichen oder abzählbaren Menge, die meist mit bezeichnet wird. Die Wahrscheinlichkeitender Elementarereignisse ! 2 sind Zahlen p(!) zwischen 0 und 1, die sich auf 1 aufsummieren. De…nition 1.1 Ein diskreter Wahrscheinlichkeitsraum ( ; p) besteht aus einer endlichen oder abP zählbar unendlichen Menge und einer Abbildung p : ! [0; 1], für die !2 p(!) = 1 gilt. Da alle p(!) P 0 sind, spielt selbst im Fall, wenn unendlich ist, die Reihenfolge der Summation in !2 p(!) keine Rolle. Genau genommen handelt es sich um einen Grenzwert. Man wählt zunächst P Pn eine Abzählung ! 1 ; ! 2 ; : : : der Elemente von . Dann ist !2 p(!) = limn!1 i=1 p(! i ), wobei der Grenzwert nicht von der gewählten Abzählung abhängt, da die p(!) 0 sind. Soweit ist mathematisch alles sehr einfach. Falls mit Wahrscheinlichkeitsräumen konkrete Zufallssituationen modelliert werden sollen, so gibt es in der Regel mehr als eine 2 “vernünftige” Wahl für einen Wahrscheinlichkeitsraum. Man wählt oft so, dass die einzelnen Elementarereignisse ! 2 als gleich wahrscheinlich erscheinen, was natürlich nur möglich ist, wenn endlich ist. In diesem Fall erhalten alle Elementarereignisse ! den Wert p (!) = 1= j j : Einige Beispiele dazu: Beispiele 1.2 a) Beim Würfeln mit einem Würfel wählt man = f1; 2; 3; 4; 5; 6g. Dabei ist i 2 das Elementarereignis, dass die Zahl i geworfen wird. Ist der Würfel nicht gezinkt, so wird man p(i) = 1=6 für alle i 2 setzen. b) Als Elementarereignisse beim Würfeln mit 2 Würfeln fassen wir alle möglichen Kombinationen von Augenzahlen auf. besteht in diesem Fall aus 36 Elementarereignissen: = f(1; 1); (1; 2); : : : ; (6; 6)g = f1; 2; 3; 4; 5; 6g2 . Wir setzen p((i; j)) = 1=36 für jedes Elementarereignis. c) Ein Stapel mit n Karten wird gut gemischt. Wir denken uns die Karten von 1 bis n durchnumeriert. Die Elementarereignisse sind die möglichen Reihenfolgen dieser n Karten, etwa bei n = 3: = f(1; 2; 3); (1; 3; 2); (2; 1; 3); (2; 3; 1); (3; 1; 2); (3; 2; 1)g: Bei guter Mischung wird man jede Reihenfolge als gleich wahrscheinlich betrachten können. Jedes Elementarereignis hat dann Wahrscheinlichkeit 1=n!. Für einen Stapel Jasskarten mit 36 Karten ist 36! = 3:719 9 1041 : Nach guter 1 Mischung sollte also jede Reihenfolge die Wahrscheinlichkeit 3:719 9 1041 = 42 2:688 2 10 haben. Natürlich sollen nicht nur den Elementarereignissen Wahrscheinlichkeiten zugeordnet werden, sondern auch zusammengesetzten Ereignissen, etwa in Beispiel 1.2.1.2 oben dem Ereignis, dass die beiden Augenzahlen gleich sind. Ereignisse sind einfach Zusammensetzungen von Elementarereignissen. In mathematischer Formulierung: De…nition 1.3 ( ; p) sei ein diskreter Wahrscheinlichkeitsraum. Die Teilmengen von heiß en Ereignisse. Für ist die Wahrscheinlichkeit von A de…niert durch P ein Ereignis A P (A) = !2A p(!). Die leere Menge ; ist das sogenannte unmögliche Ereignis. Per Konvention legen wir fest, dass die Summation über die leere Menge gleich Null ist. Das unmögliche Ereignis hat als Wahrscheinlichkeit P (;) = 0. Die Grundmenge ist das sichere Ereignis. Dieses hat die Wahrscheinlichkeit P ( ) = 1: Es hat sich eingebürgert, Ereignisse mit grossen lateinischen Buchstaben vom Anfang des Alphabets zu bezeichnen: A; B; C; : : : . Die Wahrscheinlichkeit wird meist mit einem grossen P (englisch “probability”) bezeichnet. Es mag etwas verwirren, dass Ereignisse Teilmengen sind. Am anschaulichsten ist vielleicht die folgende Vorstellung: Das zufällige Geschehen besteht in der zufälligen Auswahl eines Elementarereignisses. Eine Teilmenge 3 A von entspricht dann dem Ereignis, dass dieses zufällig gewählte Elementarereignis in A liegt. Mengenoperationen entsprechen mithin aussagenlogischen Operationen gemäßder folgenden Übersetzungstabelle: Sprache der Ereignisse A; B; C sind Ereignisse A und B A oder B nicht A A und B schließ en sich aus A impliziert B Mengenschreib- bzw. Sprechweise A; B; C sind Teilmengen von A\B A[B Ac = n A A\B =; A B Für jedes Elementarereignis ! ist die Menge f!g o¤enbar ein Ereignis, das sich formal mathematisch von ! unterscheidet. Elementarereignisse sind formal nach unserer De…nition keine Ereignisse. Sowohl p(!) als auch P (f!g) bezeichnen die Wahrscheinlichkeit von ! 2 . Diese Unterscheidung ist natürlich spitz…ndig, und wir werden darauf nicht herumreiten. Wahrscheinlichkeiten genügen einigen einfachen Regeln, die im nächsten Satz aufgelistet sind. Satz 1.4 Es sei ( ; p) ein diskreter Wahrscheinlichkeitsraum. a) Für jedes Ereignis A gilt 0 P (A) 1: b) P (;) = 0, P ( ) = 1. c) Sind Ereignisse Ai für i 2 N paarweise disjunkt (d.h. Ai \ Aj = ; für i 6= j), so gilt P [ i2N Ai = 1 X P (Ai ): (1.1) i=1 d) In 1.4. ohne die Voraussetzung, dass die Ai paarweise disjunkt sind, gilt P [ i2N Ai 1 X P (Ai ): i=1 e) A B ) P (B) = P (A) + P (B n A): f) A B ) P (A) 4 P (B): (1.2) g) P (A [ B) = P (A) + P (B) P (A \ B): Die Eigenschaft (1.1) nennt man auch -Additivität und die Eigenschaft (1.2) nennt man -Subadditivität. Bemerkung 1.5 Gilt An+1 = An+2 = P [n i=1 = ; für ein n Ai = n X P (Ai ) 1, so besagen c) und d) bzw: i=1 P [n i=1 Ai n X P (Ai ): i=1 Dies nennt man auch die endliche Additivität bzw. endliche Subadditivität. Beweis von Satz 1.4.S1.4. und 1.4. folgen sofort aus der De…nition. 1.4., 1.4.: Jedes ! 2 1 i=1 Ai gehört zu mindestens einem der Ai und zu genau einem, wenn die Ai paarweise disjunkt sind. Demzufolge gilt P [ i2N Ai = !2 X S i2N p(!) = 1 X X p(!) = i=1 !2Ai Ai 1 X P (Ai ); i=1 wenn die Ai paarweise disjunkt sind. Im Fall 1.4. ist das mittlere Gleichheitszeichen durch „ “ zu ersetzen, denn die p(!)’s werden in der Summe auf der rechten Seite eventuell mehrfach gezählt, nämlich einmal für jede Menge Ai , die das entsprechende ! enthält. 1.4. Es gelten B = A [ (B n A) und A \ (B n A) = ;. Somit ist nach 1.4. P (B) = P (A) + P (B n A). 1.4. folgt aus 1.4. und P (B n A) 0. 1.4. Wir haben die folgenden Zerlegungen in disjunkte Teilmengen: A [ B = (A n B) [ B und A = (A n B) [ (A \ B): Nach 1.4. gelten: P (A [ B) = P (A n B) + P (B); P (A) = P (A n B) + P (A \ B): Subtrahiert man die zweite Gleichung von der ersten, so folgt 1.4. Beispiele 1.6 a) In Beispiel 1.2.1.2 wird man jedem Elementarereignis die Wahrscheinlichkeit 1=36 zuordnen. Für jedes Ereignis A ist P (A) = jAj=36, wobei jAj die Anzahl der Elemente in A ist. Sei z.B. A = f(1; 1); (2; 2); : : : ; (6; 6)g das Ereignis, dass die Augenzahlen gleich sind. Dann ist P (A) = 6=36 = 1=6. 5 b) In einem Kartenspiel mit einer geraden Anzahl (= 2n) von Karten be…nden sich 2 Joker. Nach guter Mischung werden die Karten in zwei gleich grosse Haufen aufgeteilt. Wie großist die Wahrscheinlichkeit, dass beide Joker im gleichen Haufen sind? Wir wählen = f (i; j) 2 f1; 2; : : : ; 2ng2 : i 6= jg als Menge der Elementarereignisse. Hierbei ist (i; j) 2 das Elementarereignis, dass sich der erste Joker am Platz i und der zweite am Platz j be…ndet. Nach guter Mischung hat jedes dieser Elementarereignisse die Wahrscheinlichkeit p((i; j)) = 1=j j = 1=2n(2n 1). Das uns interessierende Ereignis ist A = f (i; j) 2 f1; 2; : : : ; ng2 : i 6= jg [ f(i; j) 2 fn + 1; : : : ; 2ng2 : i 6= jg: Dieses enthält 2 n(n 1) Elementarereignisse. Somit ist P (A) = 2n(n 1) 2n(2n 1) = n 1 2n 1 : c) Eine Münze wird n-mal geworfen. sei die Menge der n-Tupel, bestehend aus “Zahl” und “Kopf”. Somit ist j j = 2n . Haben alle n-Tupel gleiche Wahrscheinlichkeiten, so hat jedes Elementarereignis Wahrscheinlichkeit 2 n . Es sei Ak das Ereignis, dass k-mal „Zahl“ fällt. Ak enthält nk Elementarereignisse. Es gilt also P (Ak ) = nk 2 n : d) Urnenmodell: In einer Schachtel (Urne) be…nden sich r rote und s schwarze Kugeln. Eine Kugel wird zufällig herausgenommen. Mit welcher Wahrscheinlichkeit ist sie rot? Wir denken uns die Kugeln von 1 bis r + s durchnumeriert. Die Kugeln mit den Nummern 1 bis r sind rot; die anderen schwarz. Für nehmen wir die Menge f1; 2; : : : ; r + sg. Dann ist i 2 das Elementarereignis, dass die Kugel i gezogen wird. Diese Elementarereignisse sind nach guter Mischung gleich wahrscheinlich. Unser Ereignis enthält r Elementarereignisse. Seine Wahrscheinlichkeit ist also r=(r + s). Hier noch eine Verallgemeinerung von Satz 1.4.1.4: A1 ; : : : ; An seien n Ereignisse. A1 [ [ An ist das Ereignis, dass mindestens eines der Ai eintritt. Satz 1.7 (Ein- und Ausschlussprinzip) Sei n 2 und A1 ; : : : ; An . Dann gilt P (A1 [ [ An ) = n X P (Ai ) i=1 X P (Ai1 \ Ai2 ) + i1 <i2 n 1 + ( 1) P (A1 \ A2 \ X i1 <i2 <i3 P (Ai1 \ Ai2 \ Ai3 ) \ An ): Beweis. Induktion nach n: Für n = 2 ist dies Satz 1.4.1.4. Induktionsschluss: P (A1 [ [ An+1 ) = P (A1 [ [ An ) + P (An+1 ) 6 P ((A1 [ [ An ) \ An+1 ) und nochmals nach Satz 1.4.1.4. folgt P (A1 [ [ An+1 ) = n+1 X P (Ai ) i=1 X + X 1 i1 <i2 n 1 i1 <i2 <i3 n P (Ai1 \ Ai2 ) P (Ai1 \ Ai2 \ Ai3 ) P ((A1 \ An+1 ) [ (A2 \ An+1 ) [ ::: [ (An \ An+1 )) nach Induktionsvoraussetzung und dem Distributivgesetz für Mengenoperationen. Wendet man auf den letzten Summanden nochmals die Induktionsvoraussetzung an, so folgt die Behauptung. Beispiel 1.8 Als Anwendung des Ein- und Ausschlussprinzips lösen wir das folgende Problem: Ein Briefschreiber verfasst n Briefe und beschreibt auch schon n Umschläge mit Anschriften. In einem Akt der Zerstreutheit steckt er jedoch die Briefe ganz zufällig in die Umschläge und sendet sie ab. Mit welcher Wahrscheinlichkeit kommt kein Brief richtig an? Wir numerieren sowohl Briefe wie Umschläge von 1 bis n durch. Der Brief i gehört zum Umschlag i. sei die Menge aller Permutationen (das heiß t der bijektiven Selbstabbildungen) von f1; : : : ; ng. Mit (i) bezeichnen wir die Nummer des Umschlages, in den Brief i gesteckt wird. Die Zerstreutheit des Abpackers kommt darin zum Ausdruck, dass wir jeder möglichen Permutation die gleiche Wahrscheinlichkeiten 1=n! zuweisen. Wir interessieren uns dann für P (A), A=f 2 : (i) 6= i 8 i g: Es erweist sich als zweckmäß ig, das Gegenereignis Ac zu untersuchen: Ac = n [ Bi ; i=1 wobei Bi das Ereignis ist, dass der Brief i richtig eingesteckt ist: Bi = f Nun verwenden wir den vorherigen Satz 1.7: ! n n [ X X P Bi = P (Bi ) P (Bi1 \ Bi2 ) + + ( 1)n+1 P (B1 \ i=1 i=1 i1 <i2 : (i) = i g. \ Bn ): Das sieht sehr kompliziert aus, ist es aber nicht: Für 1 k n und i1 < < ik ist Bi1 \ \ Bik das Ereignis, dass die Briefe i1 ; : : : ; ik im richtigen Umschlag sind. Das lässt die Zuordnung der n k restlichen völlig o¤en. Bi1 \ \ Bik enthält also (n k)! Elementarereignisse, hat also Wahrscheinlichkeit (n k)!=n!. Demzufolge ist X i1 < <ik P (Bi1 \ \ Bik ) = 7 n (n k)! 1 = : k n! k! Daher ist P (A) = 1 P (Ac ) = 1 = Für groß es n ist das ' 1 e 1 2! 1 1 1 + + + ( 1)n+1 2! 3! n! 1 1 1 + + + ( 1)n : 3! 4! n! 1 1. Die Festlegung der Wahrscheinlichkeiten der Elementarereignisse ist ein Problem, das in Anwendung nicht mathematisch gelöst werden kann. In den bisherigen Beispielen hatten die Elementarereignisse jeweils alle die gleichen Wahrscheinlichkeiten. Dies ist vernünftig, wenn alle Elementarereignisse als “gleich möglich” erscheinen, oder wenn kein Grund für eine Ungleichbehandlung der Elementarereignisse vorliegt. Tatsächlich wählt man die Zerlegung in Elementarereignisse oft unter diesem Gesichtspunkt. Ein Beispiel dazu: Jemand wirft zwei Würfel. Interessiert er sich nur für die Augensumme, so kann er als Elementarereignisse die möglichen Ergebnisse dafür nehmen: = f2; 3; 4; : : : ; 12g. Es ist o¤ensichtlich, dass diese Elementarereignisse nicht gleichwertig sind. Deshalb nimmt man besser die Elementarereignisse aus Beispiel 1.2.1.2. In vielen Fällen wäre die Festlegung, dass alle Elementarereignisse gleich wahrscheinlich sind, aber ganz unsinnig. Als Beispiel betrachten wir das Problem festzulegen, wie großdie Wahrscheinlichkeit ist, mit der etwa ein produziertes Werkstück in einem Fertigungsprozess defekt ist. In Fällen, wo man auf lange Produktionsreihen zurückgreifen kann, setzt man die Wahrscheinlichkeit als die relative Häu…gkeit des Defekts an. Eine theoretische Begründung für diesen Ansatz gibt das Gesetz der grossen Zahlen (siehe Kapitel 3). Sind etwa bei der Produktion von 10 000 Werkstücken 200 defekt gewesen, so wird man die Wahrscheinlichkeit als 0,02 annehmen. Dabei handelt es sich nicht um eine „Naturkonstante“, sondern lediglich um eine Arbeitshypothese, die gegebenenfalls wieder revidiert werden muss. Das Vertrauen, das man zu einem über relative Häu…gkeiten ermittelten Wert für eine Wahrscheinlichkeit hat, hängt natürlich auch von der Anzahl der Versuche ab. Es ist z.B. klar, dass 200 Defekte auf 10 000 aussagekräftiger ist, als 2 auf 100. Eine genauere Diskussion derartiger Probleme gehört in die Statistik. (siehe auch die Diskussion im Anhang 1.A). Nun ein Beispiel eines unendlichen Wahrscheinlichkeitsraums: Beispiel 1.9 Eine Münze wird so lange geworfen, bis zum erstenmal “Kopf” fällt. Wir wählen als die natürlichen Zahlen N. Das Elementarereignis i 2 N bedeutet, dass zum erstenmal beim i-ten Wurf “Kopf” fällt. Wie großist p(i)? Dass i eintritt, ist auch ein Elementarereignis in unserem Beispiel 1.6, 1.6., nämlich, dass zunächst (i 1)-mal “Zahl” fällt und dann “Kopf”. Somit ist p(i) = 2 i . Die p(i) erfüllen die Bedingung in De…nition 1.1: P i2N p(i) = 1. Also ist ( ; p) ein Wahrscheinlichkeitsraum. In unserem Modell ist das Ereignis, dass “Kopf” nie fällt, das unmögliche Ereignis. Die Wahl von in diesem Beispiel erscheint etwas künstlich. In der Tat wählt man meist 8 für die Menge der unendlich fortgesetzten Münzwürfe, d.h. fK; ZgN : Da diese Menge nicht mehr abzählbar ist, ist es aber nicht mehr möglich, im Rahmen der De…nition 1.1 zu arbeiten. 1.A Anhang: Was sind Wahrscheinlichkeiten “wirklich”? Obwohl wir hier nicht ausführlich darauf eingehen wollen, was Zufall und Wahrscheinlichkeiten “wirklich” sind, sollen hier die wichtigsten Konzepte kurz dargestellt werden. 1. Laplace Konzept: Das ist einfach das hier schon vorgestellte Verfahren: Wahrscheinlichkeit gleich Anzahl günstiger Fälle dividiert durch Anzahl möglicher Fälle. Die Reichweite dieser Methode, Wahrscheinlichkeiten festzulegen, ist o¤ensichtlich ziemlich beschränkt. 2. Frequentistische Wahrscheinlichkeiten: Wir gehen davon aus, dass ein Zufallsexperiment unter gleichbleibenden Bedingungen oft wiederholt werden kann. Wahrscheinlichkeiten werden dann als die relativen Häu…gkeiten de…niert, mit der ein Ereignis auftritt. Wenn Sie einen Würfel 1000 mal werfen und er fällt 400 mal auf die Drei, so setzen sie mit diesem Ansatz die Wahrscheinlichkeit für “Drei” gleich 0:4; in Abweichung vom Laplaceschen Ansatz. Dieser frequentistische Ansatz ist in den Naturwissenschaften und der Technik sehr beliebt. Die Problematik besteht natürlich darin, dass meist nicht genau präzisiert ist, was “unter gleichbleibenden Bedingungen” genau bedeutet. 3. Subjektivistische Wahrscheinlichkeiten: Es ist o¤ensichtlich, dass man manchmal von Wahrscheinlichkeiten sprechen möchte, wenn man auf keine langen Versuchsreihen zurückblicken kann und schon gar nicht auf solche, bei denen die Einzelversuche “unter gleichbleibenden Bedingungen” stattgefunden haben. Ein Kriminalkommissar hat in einem Mordfall einen Verdächtigen X im Auge und sagt, dieser sei mit 60% Wahrscheinlichkeit der Täter. Der Kommissar hat vielleicht viel Erfahrung und will damit zum Ausdruck bringen, dass “unter vergleichbaren Umständen” ein entsprechend Verdächtiger in 60% der Täter war. In vielen Fälle ist jedoch eine solche Auszählung der Fälle nicht wirklich möglich und sinnvoll. Die Aussage des Kommissars ist daher eher eine subjektive Einschätzung, die (ho¤entlich) auf einer gewissen Erfahrung basiert. Nachdem während langer Zeit solche “subjektiven Wahrscheinlichkeiten” als unwissenschaftlich galten, wurden sie vor allem von de Finetti propagiert, der die Existenz von “objektiven” Wahrscheinlichkeiten abstritt: Hier der Beginn seines Buches Theory of Probability (1974): My thesis [...] is simply this: PROBABILITY DOES NOT EXIST. The abandonment of superstitious beliefs about the existence of the Phlogiston, the Cosmic Ether, Absolute Space and Time, or Fairies and Witches, was an essential step along the road to scienti…c thinking. Probability, too, if regarded as something endowed with some kind of objective existence, is no less a misleading misconception, an illusory attempt to exteriorize or materialize our true probabilistic beliefs. 9 Die Thesen de Finettis haben hitzige Debatten ausgelöst1 . Natürlich wollte auch de Finetti nicht auf Wahrscheinlichkeiten verzichten. Die “Wissenschaftlichkeit” seiner Wahrscheinlichkeiten bestand allerdings darin, dass ein Subjekt die Wahrscheinlichkeiten auf rationale Weise aufgrund der Erfahrung modi…ziert. Für diese Modi…kation spielt die Bayes-Formel, die wir im nächsten Kapitel diskutieren, eine bedeutende Rolle. Wir wollen im Moment darauf nicht näher eingehen; klar ist jedoch, dass wenn unser Kommissar mit seinen Prognosen über Täter stets zu optimistisch liegt, er seine “subjektiven Wahrscheinlichkeiten” modi…zieren sollte. Allerdings hat man in Experimenten festgestellt, dass die meisten Menschen nicht nach den de Finetti-Regeln verfahren. Die de Finetti Konzepte hatten groß e Auswirkungen auf die Entwicklung der Statistik. Auch wenn man den philosophischen Standpunkt von ihm nicht teilt, kann man feststellen, dass die von ihm propagierten statistischen Verfahren (die Bayes-Statistik) sich aus praktischen Gründen sehr weit durchgesetzt haben. 1.B Anhang: Einige historische Anmerkungen Obwohl nicht zweifelhaft sein kann, dass Überlegungen zu Wahrscheinlichkeiten gemacht wurden, seit es Glücksspiele gibt, steht die erste wissenschaftliche Erwähnung von Wahrscheinlichkeiten erst in einem Werk von Girolamo Cardano (1501-1576) Liber de Ludo Aleae (1565), der in der Mathematik vor allem mit der Publikation der cardanischen Formel für die Lösung der kubische Gleichung berühmt wurde, welche er Nicolo Tartaglia abgekupfert hatte. Das Werk Cardanos über Glücksspiele wurde erst 1665 publiziert. Cardano hatte in jungen Jahren das Vermögen, das ihm sein Vater hinterlassen hatte, verschleudert und bestritt darauf während einer gewissen Zeit seinen Lebensunterhalt mit Glücksspielen. Sein Verständnis von Wahrscheinlichkeiten ermöglichte ihm, beim Spiel mehr zu gewinnen als zu verlieren. Allerdings geriet er auf diese Weise auch in Messerstechereien, was Cardano in gewisse Schwierigkeiten brachte. Oft datiert man den Beginn der wissenschaftlichen Beschäftigung mit Wahrscheinlichkeiten jedoch auf einen Briefwechsel zwischen Blaise Pascal (1623-1662) und Pierre de Fermat (1601-1665) im Jahre 1654. Fermat analysiert darin ein Problem, das ihm von einem professionellen Glücksspieler, dem Herrn de Méré gestellt wurde, wobei sich Fermat über das mangelnde Verständnis über Wahrscheinlichkeiten dieses Spielers mokiert. Nicht viel später (1656) verfasste Christiaan Huygens (1629-1675) eine Schrift über Wahrscheinlichkeitsrechnung, die sich im wesentlichen ebenfalls mit Glücksspielen beschäftigt und die Diskussionen von Fermat und Pascal weiterführt. Dass Wahrscheinlichkeiten zur damaligen Zeit fast ausschließ lich im Zusammenhang mit Glücksspielen gesehen wurden, braucht angesichts eines verbreiteten mechanistischen Weltbildes nicht zu verwundern. Naturgesetze, die probabilistische Aussagen machten, wie etwa heute die Quantenmechanik oder die Statistische Physik, waren damals undenkbar. 1 allerdings kaum unter Mathematikern, die sich üblicherweise erst nach der Pensionierung mit solchen “weltanschaulichen” Themen auseinandersetzen. de Finetti war allerdings ein Mathematiker. 10 Hier eine Galerie der wichtigsten Akteure dieser frühen Periode der Wahrscheinlichkeitstheorie: Girolamo Cardano Pierre de Fermat Christiaan Huygens Blaise Pascal 11 Die weitere Entwicklung ist mit Namen wie Bernoulli, de Moivre, Laplace, Gauss und vielen anderen verbunden. Sie wurde jedoch lange Zeit durch das Fehlen eines befriedigenden mathematischen Rahmens behindert. Die moderne Einbettung in die Masstheorie wurde von Andrey Kolmogoro¤ 1933 gegeben, welche sich in der Mathematik vollständig durchgesetzt hat. Andrey Kolomogoro¤ 1903-1987 12 2 Bedingte Wahrscheinlichkeiten, Unabhängigkeit Ein wichtiges Werkzeug in der Wahrscheinlichkeitstheorie ist die sogenannte “bedingte Wahrscheinlichkeit”. Dazu ein Beispiel: Wir betrachten das Beispiel 1.2.1.6 aus Kapitel 1, wobei die Kugeln der Schachtel nun aber mehrere Merkmale tragen können, z.B. die Farbe “rot”oder “schwarz”und das Material aus dem sie bestehen: die Kugeln seien entweder aus Metall oder aus Holz. A sei das Ereignis, dass die gezogene Kugel rot ist, und B sei das Ereignis, dass sie aus Holz ist. Jemand greift zufällig in die Schachtel, spürt, dass die Kugel aus Holz ist. Mit welcher Wahrscheinlichkeit ist “gegeben dieses Vorwissen”, die gezogene Kugel rot. Man nennt das die bedingte Wahrscheinlichkeit für A gegeben B: Sei r die Anzahl der roten, s die Anzahl der schwarzen Kugeln. Die Gesamtzahl der Kugeln sei n = r + s: Ferner sei h die Anzahl der hölzernen Kugeln und m die Anzahl der metallenen Kugeln, wobei wieder n = m+h gilt. Dann ist P (A) = r=n und P (B) = h=n: Die bedingte Wahrscheinlichkeit können wir aufgrund dieser Angaben jedoch nicht bestimmen; es könnte ja z.B. sein, dass die Kugeln exakt gemäßdem Material angemalt sind. O¤ensichtlich müssen wir die Anzahl nr;h der Kugeln, die sowohl rot wie aus Holz sind durch die Anzahl der Holzkugeln dividieren. Die gesuchte bedingte Wahrscheinlichkeit ist also nr;h nr;h =n P (A \ B) = = : r r=n P (B) Dies führt auf die folgende allgemeine De…nition: De…nition 2.1 Sei B ein Ereignis mit P (B) > 0. Für jedes Ereignis A P (A \ B)=P (B) die bedingte Wahrscheinlichkeit für A gegeben B . Der nachfolgende Satz gibt einige einfache Eigenschaften an: Satz 2.2 Es seien A; B a) A mit P (B) > 0. Dann gilt: B ) P (AjB) = 1. b) B \ A = ; ) P (AjB) = 0. c) Sind die Ereignisse Ai , i 2 N, paarweise disjunkt, so gilt P d) P (Ac jB) = 1 [1 i=1 Ai B = 1 X i=1 P (Ai jB): P (AjB). Beweis. 2.2. und 2.2. folgen sofort aus der De…nition. 13 heiß t P (AjB) := 2.2.: P S S P (( 1 P( 1 i=1 Ai ) \ B) i=1 (Ai \ B)) Ai B = = i=1 P (B) P (B) 1 1 X P (Ai \ B) X = = P (Ai jB): P (B) [1 i=1 i=1 2.2.: Wegen A \ Ac = ; gilt nach 2.2 P (AjB) + P (Ac jB) = P (A [ Ac jB) = P ( jB) = 1: Die bedingten Wahrscheinlichkeiten lassen sich auch als normale Wahrscheinlichkeiten darstellen, indem man die Wahrscheinlichkeiten der Elementarereignisse abändert: Bei vorgegebenem Ereignis B setzen wir für ! 2 einfach pB (!) := p (!) =P (B) f u •r ! 2 B : 0 fu •r ! 2 =B Dann ist ( ; pB ) ein Wahrscheinlichkeitsraum im Sinne von De…nition 1.1 und für A gilt PB (A) = P (AjB): Ist ( ; p) ein endlicher Wahrscheinlichkeitsraum und sind alle Elementarereignisse gleich wahrscheinlich, p (!) = 1= j j, so gilt für A; B und B 6= ; P (AjB) = jA \ Bj ; jBj d.h., die bedingten Wahrscheinlichkeiten lassen sich in diesem Fall über die Mächtigkeiten der Ereignisse bestimmen. Beispiel 2.3 Wie großist die Wahrscheinlichkeit, dass beim Werfen mit zwei Würfeln einer der beiden eine 2 zeigt, gegeben die Augensumme ist 6? Sei B das Ereignis “Die Augensumme ist 6”, also B = f(1; 5); (2; 4); (3; 3); (4; 2); (5; 1)g; und A das Ereignis “Mindestens einer der Würfel zeigt 2.”: A = f(2; 1); (2; 2); (2; 3); (2; 4); (2; 5); (2; 6); (1; 2); (3; 2); (4; 2); (5; 2); (6; 2)g: Dann gilt A \ B = f(2; 4); (4; 2)g und P (AjB) = 2=5. Zum Vergleich: Die unbedingte Wahrscheinlichkeit ist P (A) = 11=36 < P (AjB). In der bisherigen Diskussion haben wir die bedingten Wahrscheinlichkeiten auf die unbedingten zurückgeführt. Es ist jedoch oft wichtiger, umgekehrt Wahrscheinlichkeiten aus gewissen bedingten Wahrscheinlichkeiten zu berechnen. Ein Beispiel dazu: 14 Beispiel 2.4 Eine Leitung überträgt die zwei Signale “0 und “1”. Dabei können Übertragungsfehler auftreten, wobei die Wahrscheinlichkeit dafür davon abhängt, welches Signal gesendet wird. Unser mathematisches Modell für die Übertragung eines Zeichens ist ein Wahrscheinlichkeitsraum mit den vier Elementen (0; 0), (0; 1), (1; 0), (1; 1), wobei an der ersten Stelle des Paares das gesendete und an der zweiten Stelle das empfangene Zeichen steht. Si := f(i; 0); (i; 1)g ist das Ereignis, dass i gesendet wird, und Ei := f(0; i); (1; i)g, dass i empfangen wird. F := f(0; 1); (1; 0)g ist das Ereignis, dass ein Übertragungsfehler auftritt. Oft kennt man die Wahrscheinlichkeit für einen Übertragungsfehler in Abhängigkeit von den gesendeten Zeichen (d.h. unter der entsprechenden Bedingung). Sei fi = P (F jSi ), also f0 = P (f(0; 1); (1; 0)gjS0 ) = P (f(0; 1)gjS0 ) und f1 = P (f(0; 1); (1; 0)gjS1 ) = P (f(1; 0)gjS1 ): Die Angabe dieser Größ en statt der totalen (d.h. unbedingten) Fehlerwahrscheinlichkeit ist deshalb angebracht, weil die fi im allgemeinen nur vom Übertragungssystem und nicht von der relativen Häu…gkeit der Nullen und Einsen in der gesendeten Nachricht, d.h. von P (Si ) abhängen. Es ist einleuchtend, dass die totale Fehlerwahrscheinlichkeit sich aus den fi und P (Si ) mittels P (F ) = f0 P (S0 ) + f1 P (S1 ) berechnen lässt. Dem liegt der folgende allgemeine Satz zugrunde: Satz 2.5 (Formel von der totalen Wahrscheinlichkeit) Es seien B1 ; : : : ; Bn paarweise disjunkte Ereignisse. Dann gilt für alle A P (A) = n X P (AjBj )P (Bj ): Sn j=1 Bj j=1 (Sollte P (Bj ) = 0 sein, so wird der entsprechende Summand P (AjBj )P (Bj ) als Null de…niert.) S Beweis. Wegen A = nj=1 (A \ Bj ) und der Disjunktheit der A \ Bj gilt: P (A) = P [n j=1 (A \ Bj ) = n X j=1 P (A \ Bj ) = n X P (AjBj )P (Bj ): j=1 Eine weitere einfache Folgerung aus der De…nition ist die folgende Verallgemeinerung von P (A \ B) = P (AjB) P (B) : Satz 2.6 Seien A1 ; : : : ; An Ereignisse mit P (A1 ) > 0; P (A1 \ A2 ) > 0; : : : ; P (A1 \ : : : \ An 0: Dann gilt Yn P (A1 \ : : : \ An ) = P (Aj jA1 \ : : : \ Aj 1 ) P (A1 ) : j=2 15 1) > Beweis. 0 1 n Y P (A \ A \ : : : \ A ) 1 2 j A P (A1 \ : : : \ An ) = @ P (A1 ) P (A1 \ : : : \ Aj 1 ) j=2 Yn P (Aj jA1 \ : : : \ Aj 1 ) P (A1 ) : = j=2 Die Formel besagt, dass für eine Kaskade A1 ; : : : ; An von Ereignissen, die Wahrscheinlichkeit dafür, dass alle eintreten aus P (A1 ) und den oben angegebenen bedingten Wahrscheinlichkeiten durch Produktbildung gewonnen werden kann. Ein Beispiel. Wir interessieren dafür, wie eine bestimmte Person ihren Sonntag verbringt und wollen die Wahrscheinlichkeiten dafür untersuchen. Ihr Verhalten wird sicher vom Wetter abhängen. Sei A1 das Ereignis, dass schönes Wetter herrscht. Bekanntlich ist die Wahrscheinlichkeit dafür in der Schweiz (in normalen Sommern) nicht eben groß . Nehmen wir etwa P (A1 ) = 0:3 an. Tritt A1 ein, so habe die Person 4 Handlungsmöglichkeiten: Sie geht wandern, sie legt sich ins Schwimmbad, sie besucht die Tante, oder sie schaut sich das Formel 1 Rennen in Monza am Fernsehen an. Sei A2 das Ereignis, dass sie wandern geht, und wir nehmen an, dass - bedingt auf schönes Wetter - jede der Möglichkeiten die gleiche Wahrscheinlichkeit hat, d.h. P (A2 jA1 ) = 0:25: Natürlich besteht auch die Möglichkeit, dass die Person bei schlechten Wetter wandern geht, die Wahrscheinlichkeit dafür ist jedoch sehr klein: P (A2 jAc1 ) = 0:05: Nun interessieren wir uns dafür, mit welcher Wahrscheinlichkeit die Person den Napf besteigt. Sei A3 dieses Ereignis. Wenn wir P (A3 jA1 \ A2 ) kennen - sei sie etwa gleich 0:1 - so können wir daraus nun P (A1 \ A2 \ A3 ) berechnen: 0:3 0:25 0:1: Vielleicht interessieren wir uns jedoch gar nicht für diese Wahrscheinlichkeit, sondern nur dafür, die Person schliesslich auf dem Napf zu …nden. Diese Möglichkeit besteht jedoch auch bei schlechtem Wetter. Hingegen schliessen wir die Möglichkeit nicht wandernd auf den Napf zu gelangen aus. Somit erhalten wir P (A3 ) = P (A1 \ A2 \ A3 ) + P (Ac1 \ A2 \ A3 ) = P (A1 ) P (A2 jA1 ) P (A3 jA1 \ A2 ) + P (Ac1 ) P (A2 jAc1 ) P (A3 jAc1 \ A2 ) : Zur Berechnung dieser Grösse fehlt uns jedoch noch P (A3 jAc1 \ A2 ) : Hier stellt sich eine interessante Frage. Es kann ja sein, dass unsere Person die Entscheidung über den zu erklimmenden Berggipfel nicht vom Wetter abhängig macht, dass also P (A3 jAc1 \ A2 ) = P (A3 jA2 ) = P (A3 jA1 \ A2 ) (2.1) gilt. In diesem Fall können wir die gewünschte Grösse nun berechnen: P (A3 ) = 0:3 0:25 0:1 + 0:7 0:05 0:1: Eine Eigenschaft von Typus (2.1) nennt man auch Markov-Eigenschaft. Wir verfolgen das im Moment nicht weiter; Eigenschaften von diesem Typus spielen in der Wahrscheinlichkeitstheorie aber eine grosse Rolle. In unserem Fall ist (2.1) natürlich sehr wenig plausibel. 16 In Lehrbüchern für die Gymnasien wird oft mit sogenannten Wahrscheinlichkeitsbäumen gearbeitet, wobei man die möglichen Verzweigungen der Ereignisse graphisch als Baum darstellte. Dabei wird jedoch automatisch davon ausgegangen, dass diese MarkovStruktur der Wahrscheinlichkeitsbewertungen vorliegt, was in der Tat oft wenig plausibel ist. Überlegungen wie die obige werden benutzt, um die Sicherheit von technischen Anlagen - z.B. Atomkraftwerken - zu berechnen. Problematisch an solchen Berechnungen ist oft, dass darin unveri…zierte “plausible” Annahmen ein‡iessen, wie z.B. Eigenschaften vom Typ (2.1). Nehmen wir einmal (sehr vereinfachend) an, dass es in einem Atomkraftwerk zu einer Katastrophe kommt, falls ein bestimmter Anfangsstörfall A eintritt, ein erstes Sicherheitssystem S1 nicht anspringt und dann noch ein zweites S2 : Wir interessieren uns für die Wahrscheinlichkeit P (A \ S1c \ S2c ) ; was nach Satz 2.6 gleich P (A) P (S1c j A) P (S2c j A \ S1c ) ist. In Wirklichkeit sind die Verhältnisse natürlich sehr viel komplexer. Ein grundlegendes Problem ist oft, dass man solche Wahrscheinlichkeiten nicht wirklich im Zusammenwirken aller Komponenten zuverlässig schätzen kann, d.h. dass man etwa P (S1c j A) und P (S2c j A) vielleicht einigermassen zuverlässig kennt, jedoch nicht wirklich P (S2c j A \ S1c ) : Dieser Aspekt wirkt jedoch in den Rechnungen oft nur ungenügend berücksichtigt und man tut so, als ob sich P (A \ S1c \ S2c ) einfach als P (A) P (S1c j A) P (S2c j A) berechnen lässt.2 Wird die Wahrscheinlichkeit eines Ereignisses A durch ein anderes Ereignis B mit P (B) > 0 nicht beein‡usst, im Sinne, dass P (AjB) = P (A) gilt, so heissen A und B unabhängig. Es ist bequemer, dies symmetrisch in A und B zu de…nieren und auf die Voraussetzung P (B) > 0 zu verzichten: De…nition 2.7 Zwei Ereignisse A und B heissen unabhängig, wenn P (A \ B) = P (A)P (B) gilt. Diese De…nition spiegelt genau unsere intuitive Vorstellung von Unabhängigkeit wider. Es gilt o¤ensichtlich P (AjB) = P (A) dann und nur dann, wenn A und B unabhängig sind (vorausgesetzt, dass P (B) > 0 ist). Unabhängigkeit von endlichen vielen Ereignissen wird wie folgt de…niert: De…nition 2.8 Die Ereignisse A1 ; : : : ; An heissen unabhängig, wenn für jede Auswahl von Indizes fi1 ; : : : ; ik g f1; : : : ; ng gilt: P (Ai1 \ Ai2 \ \ Aik ) = P (Ai1 )P (Ai2 ) P (Aik ): Bemerkung 2.9 a) Sind A1 ; : : : ; An unabhängige Ereignisse und ist fi1 ; : : : ; im g eine Teilmenge von f1; : : : ; ng, so sind o¤ensichtlich Ai1 ; Ai2 ; : : : ; Aim unabhängig. 2 Ein nuklearer Störfall mit glimp‡ichem Ausgang bei dem die Schwächen probabilistischer Sicherheitsanalysen deutlich zum Vorschein kam, war der in Forsmark (Schweden) 2006. Siehe dazu den Wikipedia Artikel http://de.wikipedia.org/wiki/Kernkraftwerk_Forsmark#cite_note-4 und insbesondere Punkt 5.6 in der Referenz 6. 17 b) Die Forderung P (A1 \ \ An ) = P (A1 ) P (An ) allein ist keine befriedigende De…nition der Unabhängigkeit (für n 3), denn damit wäre die Eigenschaft 2.9. nicht erfüllt. Dazu ein Beispiel: Es seien = f1; 2g und p(1) = p(2) = 1=2 sowie A1 = f1g, A2 = f2g und A3 = ;. Dann gilt P (A1 \ A2 \ A3 ) = P (;) = 0 = P (A1 )P (A2 )P (A3 ), aber natürlich ist P (A1 \ A2 ) 6= P (A1 )P (A2 ). c) Paarweise Unabhängigkeit, d.h. P (Ai \ Aj ) = P (Ai )P (Aj ) für i 6= j, impliziert nicht Unabhängigkeit. Wieder ein künstliches Beispiel dazu: Es seien = f1; 2; 3; 4g und p(i) = 1=4 für jedes i 2 sowie A1 = f1; 2g, A2 = f2; 3g und A3 = f3; 1g. Dann ist P (A1 \ A2 \ A3 ) = 0 6= P (A1 )P (A2 )P (A3 ); jedoch sind A1 ; A2 ; A3 paarweise unabhängig. Man muss allerdings bemerken, dass für viele wichtige Eigenschaften, z.B. das Gesetz der grossen Zahlen, das wir später diskutieren werden, eigentlich nur die paarweise Unabhängigkeit benötigt wird. d) Die Ausdrucksweise “Die Ereignisse A1 ; : : : ; An sind unabhängig”, die auch hier verwendet wird, ist nicht ganz genau und führt in gewissen Situation zu Missverständnissen. Unabhängigkeit ist keine Eigenschaft von Mengen von Ereignissen, sondern eine Eigenschaft von n-Tupeln von Ereignissen, die allerdings nicht von der Reihenfolge dieser Ereignisse im Tupel abhängt. Für ein Ereignis A ist das 1Tupel (A) nach unserer De…nition stets unabhängig, das Paar (A; A) jedoch nicht. (A; A) ist genau dann unabhängig, wenn P (A) = P (A \ A) = P (A)P (A), d.h. P (A) 2 f0; 1g gilt. Zur bequemen Formulierung des nachfolgenden Ergebnisses führen wir die Bezeichnung A1 := A für A ein, Ac ist wie üblich das Komplement. Lemma 2.10 Die Ereignisse A1 ; : : : ; An sind genau dann unabhängig, wenn für alle (k1 ; : : : ; kn ) 2 f1; cgn n \n Y k k P Aj j = P (Aj j ) (2.2) j=1 j=1 gilt. Hierbei ist f1; cgn die Menge der n-Tupel mit den Komponenten 1 und c. Beweis. (I) Unter der Voraussetzung der Unabhängigkeit zeigen wir die obige Gleichung mit Induktion nach n: n = 1 ist trivial. Induktionsschluss n ! n + 1: Die Ereignisse A1 ; : : : ; An+1 seien unabhängig. Wir beweisen die obige Gleichung (für n + 1) mit Induktion nach der Anzahl m der Komplementzeichen in (k1 ; : : : ; kn+1 ). Für m = 0 folgt sie aus der Unabhängigkeit. Induktionsschluss m ! m + 1 für 0 m < n + 1: Es seien m + 1 1 Komplementzeichen in (k1 ; : : : ; kn+1 ). Durch Permutation der Ereignisse können wir annehmen, dass kn+1 = c ist. \n+1 kj \n \n \n k k k P Aj = P Aj j \ Acn+1 = P Aj j P Aj j \ An+1 : j=1 j=1 j=1 18 j=1 Q k Der erste Summand ist nach der Induktionsvoraussetzung an n gleich nj=1 P (Aj j ), der Qn kj zweite nach der Induktionsvoraussetzung an m gleich j=1 P (Aj ) P (An+1 ). Damit folgt, wie gewünscht, n+1 \n+1 kj Y k Aj = P P (Aj j ): j=1 j=1 (II) Wir zeigen die Umkehrung: (2.2) gelte für alle (k1 ; : : : ; kn ) 2 f1; cgn . Wir zeigen die Unabhängigkeit von A1 ; : : : ; An . Sei fi1 ; : : : ; ik g f1; : : : ; ng und fj1 ; : : : ; jm g sei das Komplement dieser Menge in \ Aik als Vereinigung paarweise disjunkter Mengen f1; : : : ; ng. Dann lässt sich Ai1 \ wie folgt schreiben: [ m : \ Akjm \ Aik \ Akj11 \ Ai1 \ (k1 ;:::;km )2f1;cgm Die Wahrscheinlichkeit davon ist nach unserer Voraussetzung gleich X m P (Ai1 ) P (Aik )P (Akj11 ) P (Akjm ) = P (Ai1 ) (k1 ;:::;km P (Aik ): )2f1;cgm Die Notationen mögen etwas verwirren. Schreiben Sie die Argumente für n = 2 und n = 3 aus; dann wird der Beweisgang klar. Der Vorteil in der Formulierung des Lemmas besteht darin, dass man immer mit allen Ereignissen arbeitet, dass man also nicht Eigenschaften von Teilsätzen der Ereignisse betrachten muss wie in der ursprünglichen De…nition. Ein unmittelbare Folgerung des Lemmas ist das folgende Ergebnis: Korollar 2.11 Sind die Ereignisse A1 ; : : : ; An unabhängig, so sind für jede Wahl von (k1 ; : : : ; kn ) 2 f1; cgn die Ereignisse Ak11 ; : : : ; Aknn unabhängig. Als Beispiel betrachten wir das übliche Modell für das n-malige Werfen einer Münze (Beispiel 1.6.1.6)Wir bezeichnen mit Bk das Ereignis, dass der k-te Wurf “Kopf” ist. Satz 2.12 Die Ereignisse B1 ; : : : ; Bn sind unabhängig. Beweis. Es gilt P (Bj ) = P (Bjc ) = 1=2 für alle j 2 f1; : : : ; ng. Für jedes n-Tupel Q k (k1 ; : : : ; kn ) 2 f1; cgn gilt P (B1k1 \ \ Bnkn ) = 2 n = nj=1 P (Bj j ). Nach Lemma 2.10 sind B1 ; : : : ; Bn unabhängig. Unabhängigkeit hängt eng mit sogenannten Produkträumenzusammen. Es seien ( 1 ; p1 ); : : : ; ( n ; pn ) diskrete Wahrscheinlichkeitsräume. Wir konstruieren daraus einen neuen Wahrscheinlichkeitsraum ( ; p) mit = 1 n . Für jedes ! P= (! 1 ; : : : ; ! n ) 2 de…nieren wir p(!) = p1 (! 1 )p2 (! 2 ) pn (! n ). O¤ensichtlich gilt !2 p(!) = 1. 19 De…nition 2.13 ( ; p) heisst der ProduktraumNder Wahrscheinlichkeitsräume ( i ; pi ), 1 i n. Wir n schreiben dafür auch ( ; p) = i=1 ( i ; pi ): (Das hat nichts mit Tensorprodukten zu tun). Zu A i de…nieren wir das Ereignis A(i) = f(! 1 ; : : : ; ! n ) 2 : ! i 2 Ag . Satz 2.14 (1) (n) Sind Ai i n, so sind die Ereignisse A1 ; : : : ; An im Wahrscheinlichkeitsi für 1 raum ( ; p) unabhängig. c(i) (i)c : ! i 2 Aci g = Ai . Die 2n Gleichungen in Lemma 2.10 Beweis. Es gilt Ai = f! 2 sind also nachgewiesen, wenn (1) P A1 \ für alle möglichen Ai X (1) (n) !2A1 \ \An i, (1) \ A(n) = P (A1 ) n P (A(n) n ) 1 i n, gilt. Die linke Seite dieser Gleichung ist gleich X X p1 (! 1 ) pn (! n ) p(!) = = ! 1 2A1 ! n 2An n X Y pj (! j ) = n Y X j=1 !2A(j) j=1 ! j 2Aj j p(!) = n Y (j) P (Aj ): j=1 Der Produktraum liefert somit ein Modell für eine unabhängige Hintereinanderreihung von n einzelnen Zufallsexperimenten. O¤enbar ist unser Modell für einen nfachen Münzwurf das n-fache Produkt des Wahrscheinlichkeitsraumes für einen Münzwurf. Wir können das gleich etwas verallgemeinern: Zunächst betrachten wir ein Zufallsexperiment mit zwei möglichen Ausgängen, die wir mit E (für “Erfolg”) und M (für “Misserfolg”) bezeichnen. Man denke etwa an ein Spiel, das darin besteht, eine Münze zu werfen, und bei dem der eine Spieler eine Einheit gewinnt, wenn “Kopf” fällt. Wir wollen nicht voraussetzen, dass E und M gleich wahrscheinlich sind. Der Wahrscheinlichkeitsraum ist also die zweielementige Menge fE; M g mit den entsprechenden Wahrscheinlichkeiten. Wir setzen p := p (E) ; sodass p (M ) = 1 p ist. Der n-fache Produktraum, das Modell für die unabhängige, n-malige Repetition des Spiels, ist also der Wahrscheinlichkeitsraum = fE; M gn , d.h. die Menge der E-M Folgen der Länge n. Die Wahrscheinlichkeiten der Elementarereignisse ! = (! 1 ; : : : ; ! n ) 2 sind gegeben durch p(!) = pk (1 p)n k , wobei k die Anzahl der E’s in der Folge ! 1 ; : : : ; ! n bezeichnet. De…nition 2.15 Das durch diesen Wahrscheinlichkeitsraum beschriebene Zufallsexperiment heisst BernoulliExperiment der Länge n mit “Erfolgswahrscheinlichkeit” p. 20 Wir wollen die Wahrscheinlichkeit von einigen besonders wichtigen Ereignissen im Bernoulli-Experiment berechnen. Für k 2 f0; 1; : : : ; ng sei Ak das Ereignis, dass insgesamt k Erfolge eintreten. In unserer Beschreibung des Bernoulli-Experiments enthält Ak diejenigen Elementarereignisse, in denen k mal E vorkommt. Davon gibt es so viele, wie es Möglichkeiten gibt, die k erfolgreich ausgegangenen Experimente auszuwählen, also n k p)n k . Somit ist P (Ak ) = nk pk (1 p)n k . k . Jedes hat Wahrscheinlichkeit p (1 Diese Wahrscheinlichkeit kürzt man meist mit b(k; n; p) ab. Die b(k; n; p) sind erwartungsgemäss am grössten, wenn k in der Nähe von np liegt. Für grosses n sind sie jedoch p klein (höchstens von der Grössenordnung 1= n). Eine ausführliche Analyse der Grössen b(k; n; p) wird später gegeben werden. Beispiel 2.16 Ein Würfel wird n-mal geworfen. Die Wahrscheinlichkeit dafür, dass k-mal die Sechs erscheint, ist b(k; n; 1=6). Eine grosse Klasse von Beispielen nennt man Urnenmodelle: Beispiele 2.17 1. Ziehung mit Zurücklegen Eine Schachtel (Urne) enthält r rote und s schwarze Kugeln. Es werden n Kugeln nacheinander zufällig entnommen. Dabei wird jede sofort wieder zurückgelegt und die Schachtel neu gemischt. Die Elementarereignisse seien die Rot-Schwarz-Folgen der Länge n. Es scheint klar, dass unter idealen Bedingungen die einzelnen Ziehungen unabhängig sind, dass dies also ein Bernoulli-Experiment der Länge n mit r Erfolgswahrscheinlichkeit p = r+s ist. Man kann sich das auch wie folgt überlegen: Wir denken uns die einzelnen Kugeln wieder von 1 bis r + s durchnumeriert; 1 bis r sind rot, r + 1 bis r + s schwarz. In der Beschreibung des Wahrscheinlichkeitsraums unterscheiden wir nun zwischen den einzelnen Kugeln, d.h. = f1; : : : ; r + sgn . Die Elementarereignisse sind also die Folgen ! = (! 1 ; : : : ; ! n ) mit ! k 2 f1; : : : ; r + sg. Unter idealen Bedingungen sind diese Elementarereignisse alle gleich wahrscheinlich, haben also die Wahrscheinlichkeit (r + s) n . Das Ereignis einer speziellen Rot-Schwarz-Folge ist hier kein Elementarereignis; man kann die Anzahl der Elementarereignisse darin jedoch leicht abzählen: Eine spezielle Rot-Schwarz-Folge mit k-mal Rot und (n k)-mal Schwarz wird durch rk sn k Elementarereignisse repräsentiert, hat also die Wahrk n k r s scheinlichkeit r+s . Die Wahrscheinlichkeit des Ereignisses Ak , genau r+s k-mal Rot zu ziehen, ist somit P (Ak ) = n k r r+s 2. Ziehung ohne Zurücklegen 21 k s r+s n k : Wir betrachten dieselbe Situation mit dem Unterschied, dass die gezogenen Kugeln nicht wieder zurückgelegt werden. Es muss nun natürlich n r + s sein. Die einzelnen Ziehungen sind nicht mehr unabhängig, da ihr Ausgang die Zusammensetzung der Schachtel und damit die nachfolgenden Ziehungen beein‡usst. Sei Ak wieder das Ereignis, dass k rote Kugeln gezogen werden. Wir setzen voraus, dass 0 k r und 0 n k s gilt, sonst ist Ak das unmögliche Ereignis. Um P (Ak ) zu bestimmen, muss ein geeigneter Wahrscheinlichkeitsraum festgelegt werden. Als Elementarereignis betrachten wir die Menge der n-elementigen Teilmengen der r + s Kugeln. Wie viele darunter gehören zu Ak ? Es gibt kr Möglichkeiten, die k Kugeln aus den roten auszuwählen, und n s k Möglichkeiten für die schwarzen Kugeln, also enthält Ak genau kr n s k Elementarereignisse. Es gilt also P (Ak ) = r k s n k r+s n ; o¤ensichtlich ein anderer Wert als im Modell mit Zurücklegen. Man nennt dies auch die hypergeometrische Wahrscheinlichkeitsverteilung. In unserem Wahrscheinlichkeitsraum können wir jedoch das Ereignis, dass die erste Kugel rot ist, nicht betrachten, denn wir unterscheiden die Reihenfolge der Ziehungen nicht. Um dieses Ereignis zu untersuchen, brauchen wir einen anderen, grösseren Wahrscheinlichkeitsraum. Wir betrachten dazu analog wie beim Modell mit Zurücklegen die Menge 0 der Folgen ! = (! 1 ; ! 2 ; : : : ; ! n ) mit 1 ! i r + s aber mit der Einschränkung ! i 6= ! j für i 6= j. Dann bedeutet 1 ! i r, dass 0 die i-te Kugel rot ist, r + 1 ! i r + s, dass sie schwarz ist. enthält o¤enbar (r + s)(r + s 1) (r + s n + 1) Elemente. Betrachtet man diese Elementarereignisse als gleich wahrscheinlich, so hat unser obiges Ereignis Ak (entsprechend als Teilmenge von 0 formuliert) dieselbe Wahrscheinlichkeit wie oben (nachprüfen!). Im Gegensatz zu der Situation in können wir nun jedoch die einzelnen Ziehungen unterscheiden. Sei Ri das Ereignis, dass die i-te Kugel rot ist. Jedes der Ri enthält gleich viele Elementarereignisse, nämlich r(r + s 1)(r + s 2) (r + s n + 1). Somit ist P (Ri ) = r=(r + s) der gleiche Wert wie beim Modell mit Zurücklegen. Dennoch sind die Wahrscheinlichkeiten für Ak in beiden Modellen verschieden. Dies liegt daran, dass hier R1 ; : : : ; Rn abhängig sind: Das Ereignis R1 \ R2 enthält r(r 1)(r + s 2) (r + s n + 1) Elementarereignisse und somit ist P (R1 \ R2 ) = r(r 1) (r + s)(r + s 1) 6= P (R1 )P (R2 ); der Unterschied ist aber klein, sofern r und s gross sind. Dies ist plausibel, denn wenn die Gesamtzahl r + s der Kugeln sehr gross ist, so beein‡ussen sich die einzelnen Ziehungen wenig. P (Ak ) kann in der Tat durch die Wahrscheinlichkeit der Binominalverteilung b(k; n; p) mit p = r=(r + s) angenähert werden, sofern 22 n = r + s gross ist. Genauer: lim r k r;s!1 r=(r+s)!p s n k r+s n = n k p (1 k p)n k : (2.3) Der Beweis ist sehr einfach: Die Grössen auf der linken Seite sind gleich n! r(r 1) (r k + 1)s(s 1) (s n + k + 1) k!(n k)! (r + s)(r + s 1) (r + s n + 1) n k r ! p (1 p)n k f u •r r; s ! 1, ! p: r+s k Als Anwendung von Satz 2.5 betrachten wir im Beispiel 2.4 das in der Praxis wichtige Problem, die bedingte Wahrscheinlichkeit für eine richtige Übertragung, gegeben das empfangene Zeichen, etwa P (S1 jE1 ) zu berechnen. Das lässt sich zunächst mittels P (S1 jE1 ) = P (S1 \ E1 )=P (E1 ) umschreiben. Per De…nition gilt P (S1 \ E1 ) = P (E1 jS1 )P (S1 ) = (1 f1 )P (S1 ): Nach Satz 2.5 gilt P (E1 ) = P (E1 jS1 )P (S1 ) + P (E1 jS0 )P (S0 ) = (1 also P (S1 jE1 ) = (1 f1 )P (S1 ) + f0 P (S0 ); (1 f1 )P (S1 ) : f1 )P (S1 ) + f0 P (S0 ) Das obige Beispiel ist ein Spezialfall der sogenannten Bayes-Formel: Satz 2.18 Unter den Voraussetzungen von Satz 2.5 und P (A) > 0 gilt P (AjBi )P (Bi ) P (Bi jA) = Pn : j=1 P (AjBj )P (Bj ) Beweis. P (Bi jA) = P (Bi \ A) P (AjBi )P (Bi ) P (AjBi )P (Bi ) = = Pn P (A) P (A) j=1 P (AjBj )P (Bj ) nach Satz 2.5. Die Formel ist nach Thomas Bayes (1702-1761) benannt, einem englischen Pastor mit mathematischen Neigungen. Die P (Bi ) nennt man oft die “a priori” Wahrscheinlichkeiten und P (A) die “a posteriori” Wahrscheinlichkeit. Die Formel beschreibt, wie man die “a priori” Wahrscheinlichkeiten aufgrund des eingetretenen “a posteriori” Ereignisses modi…zieren muss. Die Formel ist natürlich völlig trivial; ihre Interpretation hat jedoch schon zu Zeiten von Bayes Kontroversen ausgelöst, zum Teil die immer noch 23 andauern. Sie spielt vor allem in der Theorie “subjektiver Wahrscheinlichkeiten” eine grosse Rolle (siehe Appendix 1.A). Die P (Bi ) sind dann die subjektiven Wahrscheinlichkeiten, die eine Person bestimmten Ereignissen zuordnet. Wir nehmen weiter an, dass die bedingten Wahrscheinlichkeiten P (AjBi ) mit der das “a posteriori” Ereignis A eintritt, bekannt sind. Tritt dann das Ereignis tatsächlich ein, so soll unsere Person ihre subjektiven Wahrscheinlichkeiten gemäss der Bayes-Formel ändern.3 Thomas Bayes Unabhängig von den mehr philosophischen Interpretationen spielt die Bayes-Formel in vielen Bereichen eine grosse Rolle. Wir betrachten eine typische Anwendung: Wir nehmen an, eine Person werde mit einem Bluttest auf eine seltene Krankheit untersucht. Der Test sei nicht absolut zuverlässig: Kranke Personen werden mit Wahrscheinlichkeit 0.8 entdeckt; der Test falle jedoch bei Gesunden mit Wahrscheinlichkeit 0.1 positiv aus. Das Problem ist genau das gleiche wie bei den in einer Leitung übertragenen Signalen: Wir deklarieren 0 als “gesund” und 1 als “krank”. Dann ist also f0 = 0:1, f1 = 0:2. Mit welcher Wahrscheinlichkeit ist nun jemand mit “positivem” Testausgang krank? Das hängt von der relativen Häu…gkeit der Krankheit ab, das heisst von p := P (S1 ). Die Bayes-Formel ergibt P ( krank j Test positiv ) = 0:8 p 0:8 p + 0:1 (1 p) : Für p = 0:01 ist das 0; 075. Derartige Betrachtungen spielen in automatisierten Expertensystemen (natürlich in viel komplizierteren Situationen) eine grosse Rolle. 3 In Experimenten hat man jedoch gesehen, dass sie das in der Regel nicht machen. 24 3 Masstheoretische Grundlagen und Ergänzungen Nachfolgend wird eine Zusammenstellung der für die Wahrscheinlichkeitstheorie wichtigsten Begri¤e und Sätze aus der Mass- und Integrationstheorie gegeben. Für ausführliche Darstellungen sind die folgenden Bücher empfehlenswert: H. Bauer: Mass- und Integrationstheorie, de Gruyter 1990 D. L. Cohn: Measure Theory, Birkhäuser 1980 Verweise in diesem Kapitel beziehen sich auf das Buch von Bauer. 3.1 Masse und Erweiterungen De…nition 3.1 Sei eine Menge. Eine nichtleere Familie F von Teilmengen von , falls (i) heisst Algebra auf 2 F; (ii) A 2 F =) Ac 2 F; (iii) A; B 2 F =) A [ B 2 F: F heisst -Algebra, wenn (i) und (ii) gelten und anstelle von (iii): (iii’) Ist fAn gn2N eine abzählbare Folge, An 2 F, so gilt S1 n=1 An 2 F. c . Per Induktion folgt sofort, A ; : : : ; A 2 F =) 1 n T Sn Jede Algebra enthält ; = Ai 2 F; wenn F eine Algebra ist. Ferner gilt A1 ; : : : ; An 2 F =) ni=1 Ai = Si=1 n ( i=1 Aci )c 2 F: Jede -Algebra ist o¤ensichtlich auch eine Algebra. Eine -Algebra ist auch abgeschlossen gegenüber abzählbaren Durschnitten. Wir verwenden unten die folgende Notation. Ist eine Menge, deren Elemente selbst T Mengen sind, so schreiben wir für den Durchschnitt der Mengen in : \ := fx : x 2 A; 8A 2 g ; und analog Also z.B. [ [ := fx : 9A 2 mit x 2 Ag : fA1 ; A2 ; : : : ; An g = Lemma 3.2 a) Ist eine beliebige Menge von Algebren in 25 n [ Ai : i=1 ; so ist T eine Algebra. b) Ist eine beliebige Menge von -Algebren in ; so ist T eine -Algebra. Beweis. Wir zeigen a). b) wird analog bewiesen. Die Elemente T von sind Algebren in und somit gilt 2 A für alle A 2 : Somit folgt 2 : Dies beweist (i) der T De…nition. (ii):Ist A 2 T ; so ist A 2 A für T alle A 2 : Damit folgt Ac 2 A für alle c A 2 und mithin A 2 : (iii) Sind A; B 2 ; so T sind A; B 2 A für alle A 2 und somit A [ B 2 A für alle A 2 ; woraus sich A [ B 2 ergibt. Beispiele 3.3 a) f;; g ist eine -Algebra. Das ist quasi die einfachste -Algebra. Die „zweiteinfachste“ besteht aus 4 Mengen f;; A; Ac ; g, wobei A eine beliebige nicht leere echte Teilmenge von ist. (Wir setzen hier voraus, dass mehr als ein Element enthält.) Endliche -Algebren haben stets die folgende Struktur: Sei eine beliebige Menge (mit 2 oder mehr Elementen, kann auch unendlich sein) und S fZ1 ; : : : ; Zn g sei eine Zerlegung von ; d.h. Zi ; Zi \ Zj = ;; für i 6= j und ni=1 Zi = : ; zusammen mit den Vereinigungen von Z-Mengen bilden eine -Algebra auf : Der Leser möge sich als Übungsaufgabe überlegen, dass jede endliche -Algebra auf diese Weise zustande kommt. b) Die Potenzmenge von ; die wir mit P ( ) bezeichnen, ist eine -Algebra: c) Sei = R: Wir betrachten die Menge J der links o¤enen, rechts abgeschlossenen Intervalle (inklusive R und der leeren Menge): J := f;; Rg [ f(a; b] : 1 < a < b < 1g [ f( 1; b] : b 2 Rg [ f(a; 1) : a 2 Rg : (3.1) A sei die Menge aller endlichen Vereinigungen paarweise disjunkter dieser Intervalle. Man überlegt sich leicht, dass A eine Algebra aber keine -Algebra ist. d) Sei = R und F die Menge der Teilmengen von R; welche entweder abzählbar oder deren Komplement abzählbar ist. Dieses Mengensystem ist eine -Algebra. Bemerkung 3.4 Im Gegensatz zu Durchsnitten brauchen Vereinigungen von -Algebren (oder Algebren) keine -Algebren (bzw. Algebren) zu sein. Hier ein einfaches Beispiel: F = f;; A; Ac ; g, G = f;; B; B c ; g mit ; $ A; B $ ; A 6= B; A 6= B c sind -Algebren (und Algebren), aber F [ G ist keine Algebra. Proposition 3.5 Zu jedem Mengensystem C in gibt es eine kleinste Algebra a(C) und eine kleinste -Algebra (C), die C enthalten, d.h. a(C) hat die folgenden Eigenschaften: a) a(C) ist eine Algebra, b) a(C) C, c) Ist A eine Algebra mit A C so gilt A 26 a (C) : Entsprechende Aussagen gelten für (C) : Beweis. Wir diskutieren den Fall von a (C) : Es gibt mindestens eine Algebra, die C enthält, nämlich die Potenzmenge P ( ) : \ a (C) := fA : A Algebra; A Cg ist nach Lemma 3.2 eine Algebra und erfüllt o¤ensichtlich a) und b). Analog konstruiert man (C) : Ist F eine -Algebra, so nennt man ein Mengensystem C mit F = (C) ein Erzeugendensystem von F: In der Regel haben die uns interessierenden -Algebren viele Erzeugendensysteme. T Ist fAi gi2I eine beliebige Familie von -Algebren auf derselben S Menge , so ist A nach Lemma 3.2 wieder eine -Algebra. Die Vereinigung i i2I W S i2I Ai ist jedoch im allgemeinen keine -Algebra. Mit i2I Ai wird die -Algebra ( i2I Ai ) bezeichnet. Im Fall I = f1; : : : ; ng ist auch die Schreibweise A1 _ _ An gebräuchlich. Es ist häu…g wichtig, Erzeugendensysteme mit speziellen Eigenschaften zu verwenden. Von besonderer Bedeutung in der Wahrscheinlichkeitstheorie sind durchschnittstabile Erzeugendensysteme. (Eine Familie A von Teilmengen von heisst durchschnittstabil, falls A; B 2 A ) A \ B 2 A.). In diesem Zusammenhang sind Mengensysteme wichtig, die etwas allgemeiner als die -Algebren sind: De…nition 3.6 Eine Familie D von Teilmengen von dingungen erfüllt sind: D1 heisst Dynkin-System, falls die folgenden Be- 2D D2 D 2 D ) Dc 2 D D3 Für jede Folge fDn gn2N von paarweise disjunkten Mengen aus D, ist ebenfalls in D. S1 n=1 Dn Aus D1 und D2 folgt, dass auch ; 2 D gilt. Aus D3 folgt daher auch, dass D abgeschlossen gegenüber Vereinigungsbildung von endlich vielen paarweise disjunkten Mengen ist. Ist C P( ), so gibt es analog wie bei den Algebren und -Algebren ein kleinstes Dynkin-System d(C), das C enthält. Der springende Punkt ist, dass für Dynkin-Systeme nur die Abgeschlossenheit des Systems gegenüber Vereinigungen paarweise disjunkter Folgen von Mengen verlangt wird. Dies gestattet es oft, von gewissen Mengensystemen nachzuweisen, dass sie Dynkin sind, wohingegen ein (direkter) Nachweis, dass es sich um eine -Algebra handelt, schwierig ist. Wir werden bald Beispiele dazu kennenlernen. Jede -Algebra ist natürlich ein Dynkin-System, die Umkehrung gilt jedoch nicht: Man kann leicht Dynkin-Systeme angeben, die keine -Algebren sind (siehe Übungen). Es gilt jedoch: 27 Lemma 3.7 Ist ein Dynkin-System durchschnittsstabil, so ist es eine -Algebra. Beweis. Sei D ein durchschnittstabiles Dynkin-System. Wir müssen nur zeigen, dass D abgeschlossen gegenüber abzählbaren Vereinigungen ist. Sei fAi gi2N eine Folge von Elementen in D. Wir de…nieren die Folge fBn gn2N durch B1 := A1 ; Bn := An n (A1 [ [ An 1 ); Wir zeigen mit Induktion nach n, dass Bn und A1 [ ist nichts zu zeigen. Sei n 2. Bn lässt sich wie folgt darstellen: Bn = An \ ((A1 [ [ An n 2: [ An zu D gehören. Für n = 1 c 1) ) : Per Induktionsvorraussetzung ist A1 [ [ An 1 in D und somit auch das Komplement. Da D als durchschnittstabil vorausgesetzt ist, folgt Bn 2 D. A1 [ [ An 1 und Bn sind disjunkt, und es gilt A1 [ [ An = (A1 [ [ An 1 ) [ Bn . Nach der Dynkin-Eigenschaft gilt dann A1 [ [ An 2 D. Wir haben somit gezeigt, dass alle Bn in D liegen. Die Bn sind jedoch paarweise disjunkt, und es gilt [ [ An = Bn : n2N Somit folgt S n2N An n2N 2 D. Satz 3.8 Ist C ein durchschnittstabiles Mengensystem, so gilt d(C) = (C). Beweis. Da jede -Algebra auch ein Dynkin-System ist, folgt d(C) (C). Um Gleichheit nachzuweisen, müssen wir daher nur noch zeigen, dass d(C) eine -Algebra ist. Gemäss Lemma 3.7 genügt es zu zeigen, dass d(C) durchschnittstabil ist. Wir de…nieren A := f A : A \ C 2 d(C) 8C 2 C g: Da C als durchschnittstabil vorausgesetzt war, folgt A C. Wir zeigen nun, dass A die Dynkin-Eigenschaften hat, indem wir die drei Eigenschaften in der De…nition 3.6 nachweisen: D1 klar. D2 A 2 A ) A \ C 2 d(C) 8C 2 C ) Ac \ C = (C c [ (A \ C))c 2 d(C) 8 C 2 C ) Ac 2 A. (Beachte: C c und A \ C sind disjunkt!) D3 AS Wegen An \ C 2 d(C) 8 C 2 C folgt n 2 A, n 2 N, seien paarweise disjunkt. S A \ C 2 d(C) 8 C 2 C, d.h. A n2N n 2 A. n2N n 28 Somit ist gezeigt, dass A ein Dynkin-System ist, also gilt A d(C). Wir de…nieren nun A := f A : A \ A0 2 d(C) für alle A0 2 d(C) g: Nach dem vorangegangenen Schritt gilt A C. Man zeigt nun genau gleich wie oben für A, dass A Dynkin ist. Somit folgt A d(C). Dies besagt jedoch nichts anderes, als dass d(C) durchschnittstabil ist. De…nition 3.9 Ein Inhalt auf einer Algebra A ist eine Abbildung von A ! [0; 1] mit den Eigenschaften (;) = 0 und (A [ B) = (A) + (B) für alle A; B 2 A mit A \ B = ;. Ein InhaltS heisst -endlich, falls eine Folge fAn gn2N von Mengen aus A existiert, für die = 1 heisst endlich falls n=1 An und (An ) < 1 für alle n 2 N gelten. ( ) < 1 gilt. Ein Inhalt heisst S-additiv, falls für jede Folge fAn gn2N von paarweise disjunkten Mengen aus A, für die 1 n=1 An 2 A gilt, [1 n=1 An = 1 X (An ) n=1 erfüllt ist. (Ein -additiver Inhalt heisst auch Prämass.) Ein -additiver Inhalt, der auf einer -Algebra de…niert ist, heisst Mass. Ein Mass mit ( ) = 1 heisst ein Wahrscheinlichkeitsmass. Konvention: Es werden im folgenden nur -endliche Inhalte und Masse betrachtet; dies wird stets stillschweigend vorausgesetzt. Es sind hier einige Bemerkungen angebracht: Der entscheidende Aufgabe ist die Konstruktion von Massen auf geeigneten -Algebren. Eine der Schwierigkeiten dabei ist es, dass man die Mengen in -Algebren in der Regel nicht direkt beschreiben kann. Eine direkte konkrete Beschreibung dieser Masse ist daher in der Regel nicht möglich. Die von uns anvisierten -Algebren besitzen jedoch konkrete Erzeugendensysteme, die Algebren sind. Man versucht daher, die gewünschten Masse auf diesen Erzeugendensysteme zu konstruieren und zwar in der Form von Prämassen. Nur mit den Prämassen zu arbeiten ist jedoch nicht ausreichend, denn Algebren sind nicht abgeschlossen gegenüber abzählbaren Mengenoperationen. Wir benötigen deshalb einen Satz, der es uns erlaubt, Prämasse auf Algebren zu Massen auf den erzeugten -Algebren hochzuziehen. Dies ist der Erweiterungsatz von Caratheodory. Lemma 3.10 Sei ein Inhalt auf einer Algebra A. Dann gelten die folgenden Eigenschaften: a) ist monoton, das heisst für A B gilt (A) b) ist endlich additiv, d.h. sind A1 ; : : : ; An 2 A paarweise disjunkt, so gilt [n i=1 Ai = n X i=1 29 (B). (Ai ) : c) ist endlich subadditiv, d.h. sind A1 ; : : : ; An 2 A, so gilt [n i=1 n X Ai (Ai ) : i=1 Beweis. a) folgt aus (A) = (B) + (AnB) : b) folgt sofort mit Induktion nach n: c): folgt ebenfalls mit Induktion nach n und mit a): h[n 1 i h [n 1 i [n Ai Ai [ An Ai = i=1 i=1 i=1 und die beiden Mengen in eckigen Klammern sind disjunkt. Also folgt [n i=1 Ai [n = 1 i=1 [n 1 i=1 Ai + An Ai + (An ) ; [n 1 i=1 Ai die Ungleichung nach a). Nun einfach Induktion nach n: Satz 3.11 Es seien ein Mass auf der -Algebra F. Dann gelten die folgenden Eigenschaften: T a) Sei An ; n 2 N eine fallende Folge von Mengen in F; und A := n An : (Wir schreiben dafür auch An # A): Falls ein n existiert mit (An ) < 1 so gilt (A) = limn!1 (An ). S b) Sei An ; n 2 N eine ansteigende Folge von Mengen in F; und A := n An : (Wir schreiben dafür auch An " A): Dann gilt (A) = limn!1 (An ). c) Für eine beliebige Folge An 2 F; n 2 N gilt [1 n=1 1 X An (An ): n=1 Beweis. Wir zeigen b) und c) und überlassen a) dem Leser als Übungsaufgabe. Gilt An " A; so de…nieren wir B1 := A1 ; und Bn := An nAn 1 für n 2: Dann sind die Bn paarweise disjunkt und [1 A= Bn : n=1 Wegen der -Additivität folgt (A) = 1 X (Bn ) = lim N !1 n=1 = lim N !1 [N n=1 30 Bn N X (Bn ) n=1 = lim N !1 (AN ) : c): Nach b) folgt [1 n=1 Nach Lemma 3.10 ist [N n=1 [N An = lim n=1 N !1 N X An (An ) n=1 An : 1 X (An ) n=1 für jedes N: Daraus ergibt sich die Behauptung. Lemma 3.12 sei ein endlicher Inhalt auf einer Algebra A. Dann sind die folgenden zwei Bedingungen äquivalent: a) ist -additiv (d.h. ist ein Prämass). b) An 2 A; n 2 N, An # ; =) (An ) # 0: Beweis. I) Sei ein -additiver endlicher Inhalt, und sei An eine Folge wie in b). Wir de…nieren Bn := An n An+1 für n 2 N. Die Bn sind paarweise disjunkt, und wegen T A = ; gilt n n 1 [ An = Bm m=n für alle n 2 N. Somit gilt (An ) = 1 X (Bm ): m=n Die Summe auf der rechten Seite ist konvergent und somit folgt limn!1 (An ) = 0. II) erfülle S1 b) und fBn gn2N sei eine Folge paarweise disjunkter Mengen 2 A, mit B := 2 A. Dann sind für jedes n die Mengen B1 ; : : : ; Bn ; An+1 := n=1 Bn S S1 m m=n+1 Bm = B n ( j=1 Bj ) paarweise disjunkt und in A. Wegen der endlichen Additivität von gilt n X (B) = (Bj ) + (An+1 ): j=1 Es gilt aber An+1 # ; für n ! 1 und demzufolge (An+1 ) # 0. Somit folgt (B) = 1 X (Bj ): j=1 Bemerkung: Für Inhalte, die nicht endlich aber noch -endlich sind, ist die -Additivität äquivalent mit der Eigenschaft An 2 A; n 2 N, An # ;; 9m mit (Am ) < 1 =) Der Leser möge sich das als Übungsaufgabe überlegen. 31 (An ) # 0: Satz 3.13 (Caratheodory) Es sei 0 ein Prämass (stets -endlich!) auf einer Algebra A. Dann gibt es genau ein Mass auf (A), das 0 erweitert, das heisst, das auf A mit 0 übereinstimmt. Beweisskizze. Wir beweisen den Satz nicht. Hier nur kurz die wesentlichen Schritte. 1. Man konstruiert ein sogenanntes äusseres Mass P ( ) durch ( X (A) := inf (An ) : A n2N auf der gesamten Potenzmenge [ n ) An ; An 2 A : Das In…mum wird über alle abzählbaren Überdeckungen von A durch Mengen in A genommen. Man weist nach, dass monoton und -subadditiv ist. Es ist jedoch in der Regel kein Mass auf der Postenzmenge. Es ist o¤ensichtlich, dass für A 2 A die Gleichung können A mit A überdecken. (A) = (A) gilt, denn wir 2. Man de…niert A := fB : (A) = (A \ B) + (AnB) ; 8B g; und man weist die folgenden Punkte nach: A A; A ist eine -Algebra. Insbesondere gilt ist auf A ein Mass. (A) A: Die Einschränkung von auf (A) ist damit ein Mass, welches erweitert. Die Eindeutigkeit im Satz von Caratheodory folgt aus dem folgenden Ergebnis. Satz 3.14 Stimmen zwei Masse und , die auf einer -Algebra F de…niert sind, auf einem durchschnittstabilen Erzeugendensystem D von F überein, und existiert eine Folge und ( n ) = ( n ) < 1, so gilt = auf F. Insbesonder n 2 D; n 2 N mit n " stimmen zwei endliche Masse, die auf einem durchschnittstabilen Erzeugendensystem übereinstimmen und für die ( ) = ( ) gilt, auf der erzeugten -Algebra überein. Beweis. Wir beweisen zunächst den Spezialfall, wo ( ) = ( ) < 1 gilt. Sei F 0 = f A 2 F : (A) = (A) g. Dann ist D F 0 , und F 0 ist ein Dynkin-System. Wir zeigen die drei Bedingungen in der De…nition 3.6): D1 2 F 0. 32 D2 D 2 F 0 ) (Dc ) = ( n D) = ( ) (D) = (Dc ) ) Dc 2 F 0 . (D) = ( ) D3 Für jede Folge fDn gn2N von paarweise disjunkten Mengen aus F 0 gilt [1 n=1 woraus S1 n=1 Dn Dn = 1 X (Dn ) = n=1 1 X [1 (Dn ) = n=1 n=1 Dn ; 2 F 0 folgt. Somit folgt F 0 d(D) = (D) = F aus Satz 3.8. Für den allgemeinen Fall betrachten wir die endlichen Masse n (A) = (A \ n ); n (A) A 2 F. Nach der vorangegangenen Überlegung gilt (A) = lim n!1 für alle A 2 F, das heisst (A \ n) = lim n!1 = (A \ n = (A \ n n, n de…niert durch n ); für alle n 2 N. Somit folgt n) = (A) = . De…nition 3.15 a) Ist F eine -Algebra auf einer Menge die Mengen in F heissen messbar. , so heisst ( ; F) messbarer Raum und b) Ist ( ; F) ein messbarer Raum und ein Mass auf F; so heisst ( ; F; ) ein Massraum. Ist ( ) < 1, so heisst der Massraum endlich. Gilt ( ) = 1, so spricht man von einem Wahrscheinlichkeitsraum, und heisst Wahrscheinlichkeitsmass. Die Mengen in F nennt man in der Wahrscheinlichkeitstheorie Ereignisse. De…nition 3.16 Sei ( ; F; ) ein Massraum. Eine Menge A heisst eine -Nullmenge, wenn eine Menge F 2 F existiert mit A F und (F ) = 0: (Man beachte, dass wir nicht verlangen, dass A 2 F gilt). Ein Massraum heisst vollständig, wenn F alle -Nullmengen enthält. Lemma 3.17 S Sind Ai ; i 2 N; -Nullmengen, so ist auch i Ai eine -Nullmenge. Beweis. Seien Bi 2 F mit Ai und Bi ; [ i (Bi ) = 0: Dann gilt natürlich Bi X i 33 (Bi ) = 0: S i Ai S i Bi 2F Bemerkung 3.18 Jeder Massraum lässt sich sehr einfach vervollständigen. Ist nämlich ( ; F; ) ein beliebiger Massraum, so betrachten wir F := fA : 9B 2 F; A B ist -Nullmengeg F: Man weist sehr einfach nach, dass F eine -Algebra ist. Ferner lässt sich auf F erweitern: Ist B 2 F; so existiert nach De…nition eine Menge A 2 F mit der Eigenschaft, dass A B eine Nullmenge ist. Wir setzen (B) := (A) : Natürlich muss man nachweisen, dass die Festlegung nicht von der gewählten Menge A abhängt. Es stellt sich heraus, dass ; F ; ein vollständiger Massraum ist. Man nennt ihn die Vervollständigung von ( ; F; ) : Die obigen Eigenschaften sind alle sehr einfach nachzuprüfen. Mit vollständigen Massräumen zu arbeiten hat gewisse Vorteile. Von daher ist man versucht, Massräume immer automatisch zu vervollständigen. Anderseits muss man bedenken, dass die vervollständigte -Algebra von dem vorliegenden Mass abhängt, was manchmal nachteilig ist. 3.2 Beispiele von messbaren Räumen De…nition 3.19 a) Es seien = R und sei J die Menge der rechts abgeschlossenen und links o¤enen Intervalle (3.1). B = (J ) heisst Borel- -Algebra in R: Die Mengen in B heissen Borelmengen. b) Es sei = Rd und Jd sei die Menge aller “Hyperkuben” der Form I1 Id , d Ij 2 J : Dann heisst Bd := (Jd ) die Borel- -Algebra in R : Die Mengen in Bd heissen (n-dimensionale) Borelmengen. Es sollte hier bemerkt werden, dass Borel-Mengen nicht durch irgendwelche “Eigenschaften”charakterisiert werden. Eine o¤ene Menge etwa ist durch die Eigenschaft, dass jeder Punkt der Menge eine Umgebung in der Menge besitzt, charakterisiert. Etwas Ähnliches ist bei Borel-Mengen nicht möglich. Die Borel- -Algebra hat viele Erzeugendensysteme. Das obige hat den Vorteil, dass die Menge der endlichen Vereinigungen von Mengen in J eine Algebra bilden und sämtliche Masse auf (R; B) sehr einfach durch die Einschränkungen auf diese Algebra charakterisiert werden können.4 Hier eine Reihe von anderen Erzeugendensystemen der Borel- -Algebra. Lemma 3.20 Die folgenden Mengensysteme sind Erzeugendensysteme der Borel- -Algebra B in R : a) f ( 1; t] : t 2 Rg: 4 Dass die Borel- -Algebra in R (oder Rd ) nicht die Potenzmenge ist, ist leider nicht ganz einfach zu sehen. Tatsächlich hat B die Mächtigkeit des Kontinuums, d.h. B lässt sich bijektiv auf R abbilden, während P (R) eine grössere Mächtigkeit hat, was aus der Mengenlehre bekannt sein sollte. Es gibt also gewissermassen „sehr viel mehr“ Teilmengen von R als es Borel-Mengen gibt. Jedoch konkret eine zu konstruieren ist nicht ganz einfach, was immer „konkret“ bedeutet. 34 b) Die Menge aller Intervalle in R: Rd : Die folgenden Mengensysteme sind Erzeugendensysteme der Borel- -Algebra Bd in c) Die Menge der o¤enen Teilmengen von Rd . d) Die Menge der abgeschlossenen Teilmengen von Rd . e) Die Menge der kompakten Teilmengen von Rd . Beweis. Wir führen den Beweis im Falle c). Der Nachweis, dass (C) = (C 0 ) ist, wird stets auf die folgende Weise gemacht. Man beweist C (C 0 ) und C 0 (C) : Daraus 0 0 ergeben sich sofort (C) (C ) und (C ) (C) also (C) = (C 0 ) : Sei Od die Menge der o¤enen Teilmengen von Rd : Beweis von Od (Jd ): Mit kxk bezeichnen wir die Euklidsche Länge eines Vektors qP d d 2 x = (x1 ; : : : ; xd ) 2 R : kxk = i=1 xi : Die folgenden Fakten sollten aus der Analysis bekannt sein: Ist A eine abgeschlossene Teilmenge von Rd und x 2 = A; so ist d (x; A) := inf fkx yk : y 2 Ag > 0: Ferner ist d (x; A) stetig als Funktion von x: Ist nun U 2 Od ; so bezeichnen wir mit QU die Menge der Punkte in U mit rationen Koordinaten. QU ist eine abzählbare dichte Teilmenge von U: Für q 2 QU sei " (q; U ) := und V (q; U ) := Yd i=1 (qi d (q; U c ) p 2 d " (q; U ) ; qi + " (q; U )] 2 Jd : Jeder Punkt x 2 V (q; U ) erfüllt jxi qi j " (q; U ) ; also r Xd p kx qk = d" (q; U ) < d (q; U c ) ; (qi xi )2 i=1 d.h. x 2 U: Somit gilt V (q; U ) U: Wir zeigen nun [ U= V (q; U ) : q2QU (3.2) Sei x 2 U beliebig. Da := d (x; U c ) > 0 ist und y ! d (y; U c ) stetig als Funktion von y ist, so existiert q 2 QU mit kx qk d (q; U c ) > 35 p 4 d =2: Daraus ergibt sich, dass für alle Koordinaten jxi qi j p < 4 d d (q; U c ) p = " (q; U ) 2 d gilt, dass also x 2 V (q; U ) ist. Somit ist (3.2) gezeigt und mithin Od (Jd ) : Beweis von Jn (On ): Jedes Intervall in Jn kann o¤ensichtlich als Durchschnitt von abzählbar vielen o¤enen Mengen dargestellt werden. Z.B. (a1 ; b1 ] (an ; bn ] = \ m a1 ; b1 + 1 m an ; bn + 1 m : Damit ergibt sich die Behauptung. Sind (Si ; Si ) ; i 2 I; beliebige messbare Räume, wobei I eine beliebige Indexmenge Q ist, so kann man stets die Produktmenge := i2I Si mit einer Produkt- -Algebra auf die folgende Weise versehen: Für k 2 I; A 2Sk ; sei A(k) := x = (xi )i2I : xk 2 A : o n Z := A(k) : k 2 I; A 2 Sk : (3.3) (3.4) De…nition 3.21 N (Z) nennt man Ndie Produkt- -Algebra, und bezeichnet sie mit i2I Si : Den messbaren Raum ; i2I Si bezeichnet man als den Produktraum der (Si ; Si ) : Sind alle (Si ; Si ) gleich: (Si ; Si ) = (S; S) ; so schreiben wir auch einfach S I ; S I für den Produktraum. Z ist nicht durchschnittstabil. Deshalb arbeitet man oft mit dem Erzeugendensystem D; das aus den endlichen Durchschnitten von Mengen in Z besteht. O¤ensichtlicht gilt O (D) = (Z) = Si : i2I N Nach Satz 3.14 stimmen zwei Wahrscheinlichkeitsmasse auf i2I Si überein, wenn sie auf D übereinstimmen. Diese Aussage ist für das Erzeugendensystem in der De…nition 3.21 nicht richtig: Zwei Masse, die auf Z übereinstimmen müssen nicht gleich sein. Dieser Punkt ist in der Wahrscheinlichkeitstheorie enorm wichtig. Ein einfaches Beispiel ist der unendliche Produktraum für den Münzwurf. Wir setzen S := fK; Zg ; i 2 N: Für S nehmen wir natürlich die Potenzmenge auf fK; Zg : S = P (fK; Zg) = f;; fK; Zg ; fKg ; fZgg : Der unendliche Produktraum ist dann (fK; ZgN ; (P (fK; Zg)) N ): Man beachte, dass (P (fK; Zg)) N 6= P fK; ZgN ist, was jedoch nicht ganz einfach einzusehen ist. 36 3.3 Beispiele von Mass- und Wahrscheinlichkeitsräumen Die einfachsten Massräume sind diejenigen mit einer endlichen Grundmenge S; S = P (S) : Masse sind dann einfach durch X (A) := m (x) (3.5) x2A gegeben, wobei m : S ! R+ P eine beliebige Abbildung ist. Dieser Massraum ist ein Wahrscheinlichkeitsraum, falls x m (x) = 1 ist. Nicht viel komplizierter sind abzählbare Massräume. Ist S abzählbar, S = P (S) ; so ist wieder jedes Mass durch (3.5) gegeben. Das ist genau die Situation, die wir im ersten Kapitel angetro¤en haben. Die -Algebren sind in diesem Fall belanglos. Wir können solche diskreten Masse auch in einem beliebigen messbaren Raum de…nieren: Beispiel 3.22 (Diskrete Masse) Es seien eine beliebige Menge, fxi gi2I eine höchstens abzählbare Menge von verschiedenen und ai 2 [0; 1) für alle i 2 I. Für jede -Algebra F auf sei PPunkten in = i2I ai xi de…niert durch (A) = X ai 1A (xi ); i2I A 2 F: Dies de…niert ein Mass , jedoch nicht in jedem Fall ein -endliches, wie das Beispiel ai = 1 für alle i 2 I := N und F = f;; g mit := R zeigt. Falls jedoch fxi g 2 F für jedes i 2 I gilt, so ist o¤enbar -endlich. Ein Mass dieser Gestalt heisst diskret. Die ai heissen Gewichteauf den Punkten xi . Im Fall eines Wahrscheinlichkeitsmasses gilt P i2I ai = 1. Wir schreiben dieses Mass auch als = X ai xi i2I Ein einfacher Spezialfall ist Anzahl der Punkte in A: = N mit dem Zählmass P n n: (A) zählt einfach die Nun zu Massen auf (R; B) : Wir betrachten Funktionen F : R ! R mit den folgenden Eigenschaften: s t =) F (s) F (t) (3.6) F ist rechtsseitig stetig: Wir de…nieren F ( 1) := limt! 1F (t) ; F (1) := limt!1 F (t) : 37 (3.7) Ist F nach unten unbeschränkt, so setzen wir F ( 1) := 1 und analog, wenn F nach oben unbeschränkt ist, de…nieren wir F (1) = 1 J sei die Menge der rechts abgeschlossenen, links o¤enen Intervalle gemäss (3.1). Sei a (J ) die davon erzeugte Algebra. Nach Beispiel 3.3 c) besteht diese Algebra einfach aus den endlichen disjunkten Vereinigungen von Intervallen in J : Für ein endliches Intervall (s; t], 1 s < t < 1 setzen wir ((s; t]) := F (t) (was 1 ist, wenn s = 1 und F ( 1) = F (s) ; (3.8) 1 ist). Ferner setzen wir ((s; 1)) := F (1) F (s) : (3.9) Wir können natürlich sofort auf die erzeugte Algebra a (J ) ausdehnen: Eine disjunkte Vereinigung von Intervallen erhält als -Wert einfach die Summe der -Werte der Intervalle. Es ist S evident, dass ein Inhalt auf a (J ) ist. O¤ensichtlich ist ein -endlicher Inhalt: R = n ( n; n]; und (( n; n]) = F (n) F ( n) < 1: Ein Spezialfall ist F (t) = t: In diesem Fall ist einfach die übliche Länge. Lemma 3.23 ist ein Prämass auf a (J ) : Beweis. Wir beweisen die Aussage zunächst im Spezialfall 1 < F ( 1) ; F (1) < 1: Zunächst eine Vorüberlegung. Ist I 2 J und " > 0; so existiert I^ 2 J ; I^ mit kompaktem Abschluss cl I^ I und (I) I^ +": Für I = (s; t] existiert wegen der Rechtsstegikeit von F ein s0 mit s < s0 < t und F (s0 ) F (s) + ": Wir setzen I^ := (s0 ; t] der Abschluss dieses Intervalls ist cl I^ = [s0 ; t] (s; t] und (I) = F (t) F (s) I^ + ": Im Fall I = (s; 1) wählen wir s0 ; t0 mit s < s0 < t0 < 1 so, dass F (s0 ) F (s) + "=2; F (1) F (t0 ) + "=2 gelten und setzen I^ := (s0 ; t0 ]: Dieses Intervall hat ebenfalls kompakten Abschluss und erfüllt (I) I^ + ": Im Fall I = ( 1; t] und I = R ist die Konstruktion analog. Sei fAn g eine Folge An 2 a (J ) mit An # ;: Wir wollen zeigen, dass limn!1 (An ) = 0 ist. Jedes An ist eine endliche Vereinigung von halbo¤enen paarweise disjunkten Intervallen: (n) (n) (n) An = I1 [ I2 [ [ Ik(n) : F (t) F (s0 ) + " = (n) mit Ij 2 J : Nach der Vorüberlegung existieren für jedes " > 0 und jedes n Intervalle (n) (n) (n) (n) (n) I^j 2 J mit kompakten Abschlüssen cl I^j Ij ; sodass mit A^n := I^1 [ I^2 [ (n) [ I^k(n) die Ungleichung (An ) gilt. Ferner gilt natürlich cl A^n A^n + "2 n An und cl A^n ist kompakt. 38 Aus An # ; folgt daher T n2N cl A^n = ; und wegen der Kompaktheit folgt, dass TN ^ ^ n=1 An = ;: Wegen n=1 cl An = ; und demzufolge TN eine Zahl N 2 N existiert mit T AN = N n=1 An (da die A’s monoton fallen) und \N n=1 folgt (AN ) [N n=1 An n \N n=1 A^n [N n=1 N X An nA^n n=1 An nA^n An nA^n N X "2 n ": n=1 Wir haben also nachgewiesen, dass zu " > 0 ein N 2 N existiert mit (AN ) ": Damit ist gezeigt, dass limn!1 (An ) = 0 ist. Nach Lemma 3.12 folgt, dass -additiv ist, also ein Prämass. Der Fall mit F ( 1) = 1 oder F (1) = 1 erfordert nur geringe Modi…kationen. Wir verwenden dazu die Bemerkung im Anschluss von Lemma 3.12. Ist F ( 1) = 1 und F (1) = 1; und ist Am 2 a (J ) mit (Am ) < 1; so sind alle Intervalle, aus denen Am zusammgesetzt ist, endlich. Damit können wir dasselbe Argument wie oben wiederholen. Die anderen Fälle folgen mit einer analogen Modi…kation des Argumentes. Aus dem Satz von Caratheodory folgt, dass sich eindeutig zu einem Mass auf der von J erzeugten -Algebra, d.h. der Borel- -Algebra erweitern lässt. In Falle F (t) = t ist dies das Lebesgue-Mass auf B:5 Wenn man zu Wahrscheinlichkeitsmassen gelangen will. muss o¤ensichtlich F (1) F ( 1) = 1 sein. Da nur die Zuwächse von F für das Mass wichtig sind, können wir annehmen, dass lim F (t) = 1; lim F (t) = 0 t!1 t! 1 (3.10) De…nition 3.24 Eine Funktion F : R ! R; die (3.6), (3.7), und (3.10) erfüllt, heisst Verteilungsfunktion. Satz 3.25 Zu jeder Verteilungsfunktion F existiert genau ein Wahrscheinlichkeitsmass mit (( 1; t]) = F (t) ; t 2 R: Ist umgekehrt ein beliebiges Wahrscheinlichkeitsmass Funktion t ! (( 1; t]) eine Verteilungsfunktion. 5 auf (R; B) auf (R; B) gegeben, so ist die Ist das Lebesgue-Mass auf (R; B) ; so ist die Vervollständigung von B bezüglich dieses Masses die -Algebra der Lebesgue-messbaren Mengen. In der Vorlesung Analysis III im HS 2011 waren messbare Mengen die Lebesgue-messbaren Mengen. Für die Wahrscheinlichkeitstheorie ist jedoch die Borel- Algebra wichtiger, denn sie hängt nicht von einem speziellen Mass ab. 39 Beweis. Wegen limt! 1 F (t) = 0 impliziert (( 1; t]) = F (t) ; t 2 R; auch (3.8) und (3.9), wenn ein Mass sein soll. Nach Lemma 3.23 und dem Satz von Caratheodory folgt die Existenz des Masses auf (R; B) : Die Eindeutigkeit folgt aus der Tatsache, dass f( 1; t] : t 2 Rg ein durchschnittstabiles Erzeugendensystem von B ist. Ist umgekehrt ein Wahrscheinlichkeitsmass auf (R; B) ; so hat die Funktion t ! F (t) := (( 1; t]) die verlangten Eigenschaften: Die Monotonie ist klar. Wir zeigen die Rechtsstetigkeit. Wegen der Monotonie genügt es zu zeigen, dass limn!1 F (t + 1=n) = F (t) ist. Nun ist die Folge T ( 1; t + 1=n] eine monoton fallende Folge von Teilmengen von R mit ( 1; t] = n2N ( 1; t + 1=n]: Nach Satz 3.11 folgt (( 1; t]) = limn!1 (( 1; t + 1=n]) : Die Eigenschaften (3.10) können in gleicher Weise veri…ziert werden. Zum Schluss noch das Beispiel eines unendlich oft repetieren Münzwurfes. In diesem Fall nehmen wir := fK; ZgN und F die Produkt- -Algebra. A := ! = (! n )n2N 2 : (! 1 ; : : : ; ! m ) 2 A : m 2 N; A ist o¤ensichtlich eine Algebra, die F erzeugt, und wir de…nieren (f! 2 : (! 1 ; : : : ; ! m ) 2 Ag) := 2 m fK; Zgm auf A durch jAj : Proposition 3.26 ist ein Prämass. Ein Beweis dafür ist nicht sehr schwer. Da wir aber im Kapitel 3.7 einen allgemeineren Satz beweisen werden, wollen wir im Moment nicht darauf eingehen. Aus der obigen Proposition und dem Satz von Caratheodory folgt also, dass sich auf A zu einem eindeutigen Wahrscheinlichkeitsmass auf der Produkt- -Algebra erweitern lässt. 3.4 Messbare Abbildungen De…nition 3.27 a) Es seien ( ; F) und ( 0 ; F 0 ) zwei messbare Räume. Eine Abbildung f von nach 0 heisst F-F 0 -messbar, falls f 1 (F 0 ) := f f 1 (A) : A 2 F 0 g F gilt. Ist aus dem Zusammenhang klar, welche -Algebren gemeint sind, so spricht man auch einfach von einer messbaren Abbildung. b) Ist ( ; F) ein messbarer Raum, so ist eine F-messbare Funktion eine Abbildung f : ! R, die F B-messbar ist. Manchmal ist es bequem, Funktionen zuzulassen, die Werte in R := R [ f1g [ f 1g annehmen. Eine solche Funktion nennt man manchmal eine numerische Funktion. Obwohl dies eine ziemliche unsinnige Bezeichnung ist, wollen wir sie hier (mangels einer besseren) ebenfalls verwenden. Auf R betrachten wir die -Algebra B, die von allen Borelmengen in R; und f1g und f 1g erzeugt wird. Eine F-B messbare numerische Funktion nennen wir dann einfach messbare numerische Funktion. 40 Lemma 3.28 Ist C ein Erzeugendensystem der -Algebra F 0 , so ist f genau dann F-F 0 -messbar, wenn f 1 (C) F gilt. Beweis. Ist f messbar, so muss selbstverständlich f H := A 2 F 0 : f 1 1 (C) F gelten. Umgekehrt: (A) 2 F ist eine -Algebra. Wir zeigen dazu die Eigenschaften der De…nition 3.1: (i) gilt wegen c f 1 ( 0 ) = 2 F: (ii): Ist A 2 H; so folgt f 1 (Ac )S = f 1 (A) 2 F und S somit Ac 2 H. S 1 1 (iii’): Sind A1 ; A2 ; : : : 2 H so folgt f ( n An ) = n f (An ) 2 F; also n An 2 H: Wir sehen also, dass H eine -Algebra ist. Da nach Voraussetzung C H gilt, so folgt (C) H: Somit folgt, dass f 1 (A) 2 F für alle A 2 F 0 gilt, womit die Messbarkeit von f gezeigt ist. Eine Funktion f : ! R ist genau dann F-B-messbar, wenn f! : f (!) tg 2 F für alle t 2 R gilt. Dies folgt sofort aus der Tatsache, dass f( 1; t] : t 2 Rg ein Erzeugendensystem von B ist. Wie man leicht nachweisen kann, ist f[ 1; t] : t 2 Rg ein Erzeugendensystem von B: Eine numerische Funktion ist daher genau dann F-B-messbar ist, wenn f! : f (!) tg 2 F für alle t 2 R gilt. Lemma 3.29 Sind ( 1 ; F1 ), ( 2 ; F2 ), ( 3 ; F3 ) drei messbare Räume und f1 : zwei messbare Abbildungen, so ist f2 f1 : 1 ! 3 messbar. 1 ! 2, f2 : 2 ! 3 Beweis. Für A 2 F3 gilt (f2 f1 ) 1 (A) = f1 1 (f2 1 (A)) 2 F1 : Satz 3.30 Es sei ( ; F) ein messbarer Raum. Ist ffn gn2N eine Folge messbarer numerischer Funktionen, so sind inf n fn ; supn fn ; lim inf n!1 fn und lim supn!1 fn messbare numerische Funktionen. Sind die fn reellwertig und existiert lim inf n!1 fn (!) für alle ! in R; so ist diese Funktion messbar. Gleiches gilt für lim supn!1 fn : Insbesonder gilt für eine Folge von Funktionen, dass wenn f (!) := limn!1 fn (!) für alle ! 2 existiert, diese Grenzfunktion messbar ist. Beweis. Zunächst das Supremum: fsupn fn tg = \ n ffn tg : Daraus ergibt sich die Messbarkeit. Für das In…mum folgt die Behauptung analog. lim inf n!1 fn = supn inf m:m n fm : Damit folgt hier die Messbarkeit durch Anwendung von sup und inf : Für lim supn!1 fn folgt die Sache analog. Satz 3.31 a) Sind f , g messbare Funktionen, so sind auch f + g (punktweise de…niert durch (f + g)(!) = f (!) + g(!) für alle ! 2 ) und f g sowie af für a 2 R messbar. 41 b) Sind f , g messbare Funktionen und gilt g(!) 6= 0 für alle ! 2 , so ist f =g messbar. c) Jede konstante Funktion ist messbar. d) Ist A 2 F, so ist die Indikatorfunktion 1A : ! R messbar. Beweis. Wir beweisen bloss a) mit der Addition, und überlassen den Rest als Übungsaufgabe. Sind a; b; t 2 R so gilt a+b > t genau dann, wenn rationale Zahlen p; q existieren mit a > p; b > q; p + q > t: Somit ist 2 3c [ f! : f (!) + g (!) tg = 4 [f! : f (!) > pg \ f! : g (!) > qg]5 2 F: p;q2Q:p+q>t Satz 3.32 Jede stetige Abbildung f : Rn ! Rm ist Bn -Bm -messbar. Beweis. Wir benutzen die Tatsache, dass Bn von den o¤enen Mengen erzeugt wird (Lemma 3.20 c)). Da das inverse Bild einer o¤enen Mengen unter einer stetigen Abbildung wieder o¤en ist, folgt die Behauptung aus Lemma 3.28. Aus Satz 3.31 , Lemma 3.29 und Satz 3.32 folgt: Satz 3.33 Ist f eine messbare Funktion, so sind f + := max(f; 0), f messbar. := max( f; 0) und jf j De…nition 3.34 P Sei ( ; F) ein messbarer Raum. Funktionen der Form ni=1 ai 1Ai mit n 2 N, ai 2 R und Ai 2 F für i 2 f1; : : : ; ng bezeichnet man als einfache Funktionen. Die Menge der einfachen Funktionen ist o¤ensichtlich abgeschlossen gegenüber den üblichen Operationen: Sind f; g einfache Funktionen, so sind f für 2 R; f + g; f g; max (f; g) ; min (f; g) einfache Funktionen. Satz 3.35 Jede nichtnegative, messbare numerische Funktion f ist punktweiser Limes einer monoton ansteigenden Folge ffn gn2N nichtnegativer, einfacher Funktionen. (Im Fall f (!) = 1 bedeutet limn!1 fn (!) = 1 dass für alle K > 0 ein n0 2 N existiert mit fn (!) K für alle n n0 .) Beweis. Wähle n fn := n2 X k=1 (k 1)2 n 1f(k 1)2 n f <k2 ng + n1ff ng : Dann gilt fn (!) " f (!) : (Im Falle f (!) = 1 ist fn (!) = n für alle n). Aus diesem Satz folgt sofort die folgende Charakterisierung der nichtnegativen, messbaren Funktionen: 42 Satz 3.36 Es sei ( ; F) ein messbarer Raum, und sei eine Menge nichtnegativer, messbarer numerischer Funktionen, für die folgende Bedingungen erfüllt sind: (i) f; g 2 und a; b 2 R+ ) af + bg 2 (ii) fn 2 für alle n 2 N, fn (!) " f (!) für alle ! 2 (iii) 1A 2 für alle A 2 F. Dann ist )f 2 die Menge aller nichtnegativen, messbaren numerischen Funktionen. Beweis. Aus (i) und (iii) folgt, dass alle nichtnegativen einfachen Funktionen enthält. Aus (ii) und Satz 3.35 folgt, dass jede nichtnegative messbare numerische Funktion in ist. Notation: Ist f : ! 0 eine Abbildung und F 0 eine -Algebra auf 0 , so bezeichnet (f ) := f 1 (F 0 ) die von f auf erzeugte -Algebra. Sind fi : ! i Abbildungen und Fi -Algebren auf für alle i aus einer beliebigen Indexmenge I, so bezeichnet i W 1 (fi : i 2 I) := i2I fi (Fi ) die von den ffi gi2I auf erzeugte -Algebra. Bemerkung: Ist die -Algebra auf die Potenzmenge P ( ) ; so ist jede Abbildung ! 0 messbar, gleichgültig, welche -Algebra F 0 auf 0 vorliegt. Mit der Potenzmenge arbeitet man in der Regel jedoch nur, wenn abzählbar ist. Ist z.B. = N; versehen mit der Potenzmenge, so ist eine messbare (reellwertige) Funktion f : N ! R einfach eine reelle Zahlenfolge. 3.5 Integration Für den ganzen Abschnitt sei ein fester Massraum ( ; F; ) vorgegeben (stets -endlich) De…nition 3.37 Pn (das Rheisst ai 0), messbare, einfache a) Sei f = i=1 ai 1Ai eine nichtnegative R Funktion. Dann wird das Integral f d = f (!) (d!) von f de…niert durch R Pn f d = i=1 ai (Ai ). b) Sei f : ! [0; 1] nichtnegativ und messbar. Nach Satz 3.35 existiert eine R Folge von nichtnegativen, einfachen Funktionen ff g mit f " f . Dann ist fd = nR n2N n R f (!) (d!) 2 [0; 1] de…niert durch limn!1 fn d . Bemerkung 3.38 Für detaillierte Beweise der nachfolgenden Bemerkungen, siehe Analysis III, wo das für das Lebesgue-Mass gemacht wurde. Die Beweise für den allgemeinen Fall unterscheiden sich jedoch nur marginal vom Lebesgue-Fall, sodass das hier nicht detailliert ausgeführt werden soll. Pn a) In a) der obigen De…nition muss man natürlich i=1 ai (Ai ) nicht Pnnachweisen, dass P von der speziellen Darstellung von f als i=1 ai 1Ai ; d.h. gilt ni=1 ai 1Ai (!) = Pn0 0 Pn Pn0 0 0 i=1 ai (Ai ) = i=1 ai 1A0i (!) für alle ! 2 ; so gilt i=1 ai (Ai ): 43 b) In b) der obigen De…nition hat man ein ähnliches Problem, das allerdings etwas schwieriger ist: Man muss nachweisen, dass das Integral nicht von der speziell gewählten Folge von einfachen Funktionen ffn g abhängt. R c) Ist (ff = 1g) > 0, so ist f d = 1. d) Sind f und g zwei nicht negative, einfache Funktionen und sind a; b 2 R; a; b so ist af + bg wieder eine nicht negative, einfache Funktion und es gilt Z Z Z (af + bg) d = a f d + b g d : 0; R Gilt für zwei nichtnegative einfache Funktionen f (!) g (!) 8!; so gilt fd R g d : Dies sieht man einfach daraus, dass g f unter dieser Voraussetzung eine nichtnegative einfache Funktion ist. e) Durch Limesbildung übertragen sich diese Eigenschaften sofort auf nichtnegative messbare numerische Funktionen. f) Für nichtnegative, messbare numerische Funktionen ist das Integral stets de…niert; es kann aber unendlich sein. De…nition 3.39 R a) Eine messbare reellwertige Funktion f heisst -integrierbar, falls jf jd < 1 + ist. Wegen jf j = f + + f mit R +f := max(f; R0) und f := max( f; 0) ist das gleichbedeutend damit, dass f d < 1 und f d < 1 gelten. R R b) Ist f -integrierbar, so ist das Integral f d = f (!) (d!) de…niert durch R + R f d f d . R R c) Ist A 2 F, so ist A f d := (1A f ) d das Integral von f über A. Notation: Wir schreiben f 2 L1 ( ; F; ) beziehungsweise kurz f 2 L1 ( ) oder f 2 L1 , wenn f -integrierbar ist. Beispiel 3.40 Sei = N versehen mit der Potenzmenge als -Algebra und dem Zählmass : (A) := Anzahl der Zahlen in A: Eine messbare Funktion f : N ! R+ ist einfach eine Folge nicht-negativer reeller Zahlen. Ein Approximation durch einfache Funktion fn ist z.B. fn (k) = f (k) f u •r k n : 0 fu •r k > n O¤ensichtlich gilt fn " f: Ferner gilt Z fn d = n X fn (k) = k=1 n X k=1 44 f (k) ; und somit Z f d = lim n!1 n X f (k) = k=1 1 X f (k) : k=1 Eine Folge f : N ! R ist daher genau dann integrierbar bezüglich ; wenn 1 gilt, d.h. wenn die Reihe absolut konvergiert, und es gilt dann Z 1 X f d = f (k) : P1 k=1 jf (k)j < k=1 Eine Reihe, die konvergiert, aber nicht absolut konvergiert (z.B. f (n) = ( 1)n n1 ) ist nicht -integrierbar. Satz 3.41 Seien f; g 2 L1 . Dann gelten: a) g) Z fd a; b 2 R =)af + bg 2 L1 und Z (af + bg) d = a Z Z fd + f b) c) A; B 2 F mit A \ B = ; =) d) Ist f eine messbare Funktion, g 2 L1 ; g ist f 2 L1 : Z gd : fd = A[B Z fd +b A 0 und gilt jf (!)j Z Z gd : fd B g (!) für alle !; so Beweis. Die Aussagen sind ganz einfache Folgerungen aus der De…nition. Für die Formulierung der nachfolgenden Konvergenzsätze benötigt man folgende Begri¤sbildung: Sei ( ; F; ) ein Massraum. Eine Eigenschaft in Bezug auf die Elemente von gilt -fast überall (Abkürzung -f.ü.) falls die Menge A der ! 2 , für die die Eigenschaft nicht gilt, in einer messbaren Menge vom -Mass null enthalten ist. Ist A selbst messbar, so bedeutet das einfach (A) = 0: Wir setzen jedoch im allgemeinen nicht voraus, dass A 2 F ist, obwohl das in den meisten betrachteten Fällen zutri¤t. Im Spezialfall, wo ein Wahrscheinlichkeitsmass ist, sagt man meist -fast sicher (Abkürzung -f.s.). Beispiel: Sind f und g zwei messbare Funktionen, so bedeutet f = g -f.ü.: (f! 2 : f (!) 6= g (!)g) = 0: Lemma 3.42 ( ; F; ) sei ein Massraum und f; g seien Funktionen. R R a) f = g -f.ü ) f d = g d , falls die Integrale de…niert sind, d.h. falls f; g nicht negative messbare numerische Funktionen sind, oder f; g 2 L1 . 45 b) f g f.ü., f; g 2 L1 und R fd = R g d ) f = g -f.ü. Beweis. Für Lebesgue-Integration in Analysis III. Die Beweise hier sind völlig analog. Wir kommen nun zu den wichtigen Konvergenzsätzen, die ohne Beweis vorgestellt werden. Die Beweise sind alle parallel zu den in Analysis III vorgestellten für das Lebesgue-Integral. Satz 3.43 (Beppo-Levi) Sei fn ; n 2 N; eine Folge nicht negativer, messbarer, numerischer Funktionen mit fn " f f.ü. Dann gilt Z Z lim fn d = f d : n!1 Korollar 3.44 Sei f eine nicht negative, messbare, numerische Funktion und seien Ai 2 F; i 2 N; paarweise disjunkte Mengen. Dann gilt Z XZ fd = fd : S i2N Ai i2N Ai Satz 3.45 (Lemma von Fatou) Sei fn ; n 2 N; eine Folge nicht negativer, messbarer, numerischer Funktionen. Dann gilt Z Z lim inf fn d lim inf fn d : n!1 n!1 Satz 3.46 (Satz von Lebesgue) Sei fn ; n 2 N; eine Folge von -integrierbaren Funktionen, und es existiere g 0; g 2 L1 mit jfn (!)j g (!) für alle ! 2 : Falls f (!) = limn!1 fn (!) für fast alle ! existiert, so gilt Z Z lim n!1 fn d = fd : Im Spezialfall = N; F = P (N) und das Zählmass ergeben sich die bekannten Sätze über reelle Zahlenfolgen. Wie wir oben gesehen haben, bedeutet für eine reelle P Zahlenfolge fan gn2N die Integrierbarkeit, dass die Reihe i ai absolut konvergiert. Der Satz von Lebesgue besagt, dass wenn eine Doppelfolge (ai;n )i;n2N die folgenden zwei Bedingungen erfüllt: Erstens: ai = lim ai;n existiert f u •r alle i; n!1 P und zweitens: Es existiert eine Folge (bi )i2N ; bi 0; i bi < 1; mit jai;n j bi ; 8i; n 46 Dann ist die Reihe vertauschbar: P i ai absolut konvergent und die Summation ist mit dem Limes lim n!1 X ai;n = i X ai : i Das Lemma von Fatou besagt, dass für ai;n 0 und ai;n ! ai für n ! 1; die Ungleichung X X ai lim inf ai;n n!1 i i gilt. Für den Bereich der Wahrscheinlichkeitstheorie werden meist etwas andere Begri¤e verwendet: De…nition 3.47 Es sei ( ; F; P ) ein Wahrscheinlichkeitsraum a) Eine messbare Abbildung ( ; F) ! (R; B) nennt man eine Zufallsvariable, oder Zufallsgrösse. Für Zufallsvariablen verwendet man meist grosse Buchstaben vom Schluss des Alphabeths, wie X; Y; Z: b) Ist X : ! R eine Zufallsvariable, so sagt man, dass der Erwartungswert existiert, falls X 2 L1 ( ; F; P ) ist. Der Erwartungswert ist dann durch Z EX := X dP de…niert. (Wir schreiben manchmal den Raum, in dem integriert wird, unter das Integralzeichen) c) Eine messbare Abbildung X : ( ; F) ! Rd ; Bd nennt man eine d-dimensionale Zufallsvariable, oder einen d-dimensionalen Zufallsvektor. Bemerkung 3.48 Sind X1 ; : : : ; Xd d Zufallsvariablen, so ist die Abbildung 3 ! ! (X1 (!) ; : : : ; Xd (!)) ein Zufallsvektor. Umgekehrt sind für jeden Zufallsvektor X die d Komponenten des Vektors (eindimensionale) Zufallsvariablen. Ein Zufallsvektor ist also nichts anderes als eine Kollektion von Zufallsvariablen. Beweis. Seien i : Rd ! R, i = 1; : : : ; d die Projektionen. Da diese stetig sind, sind sie Bd B m.b. Ist X ein Zufallsvektor, so sind also Xi = i X gemäss Lemma 3.29 F B m.b., also Zufallsvariablen. Sind umgekehrt X1 ; : : : ; Xd d Zufallsvariablen, so de…niert ! ! X (!) := (X1 (!) ; : : : ; Xd (!)) eine Abbildung ! Rd : Wir müssen noch zeigen, dass diese F Bd m.b. ist. Dazu verwenden wir das Erzeugendensystem Jd der De…nition 3.19. Die Mengen in Jd haben die Form I1 Id mit Ij 2 J : (X1 (!) ; : : : ; Xd (!)) 1 (I1 Id ) = 47 \d j=1 Xj 1 (Ij ) 2 F; da die Xj als F B m.b. vorausgesetzt werden. Nach Lemma 3.28 folgt die Messbarkeit der Abbildung X : ! Rd : Für einen diskreten Wahrscheinlichkeitsraum ( ; p) im Sinne von De…nition 1.1 ist eine Zufallsvariable einfach eine beliebige Abbildung ! R; da wir in Pdiesem Fall stets F = P ( ) wählen. Der Erwartungswert existiert genau dann, wenn ! jX (!)j p (!) < 1 gilt und EX ist de…niert durch X EX := X (!) p (!) : ! Beispiel 3.49 Ein Würfel werde zweimal geworfen und X bezeichne die Augensumme. In diesem Fall wählen wir als Wahrscheinlichkeitsraum die Menge = f(i; j) : 1 i; j 6g ; versehen mit p (!) = 1=36: Formal ist X de…niert durch X ((i; j)) = i + j: Der Erwartungswert von X ist mithin EX = X (i;j)2 6 6 6 i=1 j=1 i=1 X 1 X 1 1X 21 1 (i + j) =6 = i= = 7: i +6 j 36 36 36 3 3 Wir werden oft einen einfachen Transformationssatz für Integrale verwenden. Dazu zunächst eine allgemeine Begri¤sbildung: Es sei ( ; F; ) ein Massraum, ( 0 ; F 0 ) ein zweiter messbarer Raum und f : ! 0 eine messbare Abbildung. Mit und f de…nierten wir nun ein Mass auf ( 0 ; F 0 ) ; das wir mit f 1 bezeichnen: f 1 (A) := 1 f Da f als messbar vorausgesetzt ist, ist f de…niert. (A) ; A 2 F 0 : 1 (A) 2 F für A 2 F 0 : f 1 (A) ist somit Lemma 3.50 f 1 ist ein Mass auf ( 0 ; F 0 ) : Beweis. f 1 (;) = f 1 (;) = (;) = 0: Sind An 2 F 0 ; n 2 N; paarweise disjunkt, so sind auch die Mengen f 1 (An ) paarweise disjunkt und es gilt [ [ [ f 1 An = f 1 An = f 1 (An ) n n n X X = f 1 (An ) = f 1 (An ) : n Proposition 3.51 In der obigen Situation sei g : numerisch), so gilt Z 0 n ! R eine messbare Funktion. Ist g nicht negativ (und gd f 1 = 0 Z (g f ) d : Ist g reellwertig, so ist es genau dann integrierbar bezüglich f 1 ; wenn g f integrierbar bezüglich ist, und es gilt in diesem Fall ebenfalls die obige Gleichung. 48 R Beweis. Sie die Menge der nicht-negativen m.b. numerischen Funktionen g mit gd f R 0 (g f ) d : enthält die Indikatiorfunktionen von A 2 F wegen 1A f = 1f 1 (A) und Z Z Z 1A d f 1 = f 1 (A) = f 1 (A) = 1f 1 (A) d = (1A f ) d : Sind g1 ; g2 2 ; a1 ; a2 0; so folgt Z Z Z (a1 g1 + a2 g2 ) d f 1 = a1 g1 d f 1 + a2 g2 d f 1 Z Z = a1 (g1 f ) d + a2 (g2 f ) d Z = ((a1 g1 + a2 g2 ) f ) d ; also a1 g1 + a2 g2 2 : Sind gn 2 ; n 2 N; gn " g; so folgt mit Beppo-Levi auf dieselbe Weise g 2 : Nach Satz 3.36 folgt also, dass die Menge der nicht negativen messbaren numerischen Funktionen auf ( 0 ; F 0 ) ist. 0 ! R; so gilt (g f )+ = g + Ist nun g eine messbare f; (g f ) = R R Funktion + gR f und daherRgelten (g f ) d < 1R und (g f ) Rd < 1 genau dann, wenn (g + f ) d = g + d f 1 < 1 und (g f ) d = g d f 1 < 1 gelten. 1 Daher ist g genau dann in L1 f ; wenn g f in L1 ( ) ist und es folgt in diesem Fall Z Z Z Z Z 1 + 1 1 + gd f = g d f g d f = g f d g f d Z Z Z = (g f )+ d (g f ) d = (g f ) d : Bemerkung: Ist ein Wahrscheinlichkeitsmass, so ist f 1 o¤ensichtlich ebenfalls ein Wahrscheinlichkeitsmass. Wir kommen nun nochmals zurück zu Zufallsgrössen. Da eine Zufallsgrösse eine messbare Abbildung ! R ist (( ; F; P ) hier wieder ein Wahrscheinlichkeitsraum), so ist P X 1 ein Wahrscheinlichkeitsmass auf (R; B) : Dieses Wahrscheinlichkeitsmass nennt man die Verteilung von X: Wahrscheinlichkeitsmasse auf (R; B) werden gemäss Kapitel 3.3 durch ihre Verteilungsfunktion beschrieben, in unserem Fall also durch FX (t) := P X 1 (( 1; t]) = P (f! : X (!) tg) ; gemäss De…nition 3.24. FX nennt man die Verteilungsfunktion von X: Wir können mit der obigen Transformationsformel eine Formel für Erwartungswerte herleiten. Dazu betrachten wir die identische Abbildung id : R ! R; id (x) := x: Wegen X = id X ergibt sich dann Z Z EX = X dP = id d P X 1 : (3.11) R 49 1 = Die rechte Seite schreibt man meist als Z x PX 1 (dx) : R Als Beispiel berechnen wir die Verteilung und die Verteilungsfunktion der Augensumme von zwei Würfen eines Würfels, gemäss Beispiel 3.49. Die Augensumme kann nur die Werte 2; 3; : : : ; 12 annehmen. Wie man einfach ausrechnet ergibt sich 8 1=36 für i = 2; 12 > > > > > > 1=18 für i = 3; 11 < 1=12 für i = 4; 10 P (X = i) = : 1=9 für i = 5; 9 > > > > > 5=36 für i = 6; 8 > : 1=6 für i = 7 Die Verteilung ist also PX 1 = 1 1 1 2+ 3+ 36 18 12 1 5 1 + 7+ 8+ 6 36 9 1 5 5+ 6 9 36 1 1 1 9+ 10 + 11 + 12 18 36 4 + 12 ; wobei x das Einpunktmass im Punkt x bezeichnet. Die Verteilungsfunktion F (t) ist 0 für t < 2 und 1 für t 12; und macht jeweilen Sprünge gemäss der obigen Liste in den Punkten 2; : : : ; 12: Für solche diskreten Verteilungen ist die Verteilungsfunktion im allgemeinen wenig nützlich. Wir können die Diskussion im obigen Beipiel gleich verallgemeinern: Sei ( ; p) ein disreter Wahrscheinlichkeitsraum und X eine Zufallsvariable. Der Wertebereich von X ist die höchstens abzählbare Teilmenge X ( ) = fX (!) : ! 2 g von R: Die Verteilung der Zufallsvariable ist X PX 1 = P (X = z) z : z2X( ) P (X = z) ist hier eine Kurzschreibweise für P (f! : X (!) = zg) : Der Erwrtungswert gemäss der ursprünglichen De…nition ist durch X EX = X (!) p (!) ! de…niert, was gemäss (3.11) gleich Z X x P X 1 (dx) = z P (X = z) z2X( ) ist. In Lehrbüchern wird das oft als De…nition genommen. Dass X X X (!) p (!) = z P (X = z) ; ! z2X( ) 50 kann man in diesem Fall leicht durch eine Umsummation einsehen, was dem Leser als Übungsaufgabe überlassen sei. Dazu wird die ganze Integrationstheorie nicht benötigt. Interessanter sind Zufallsvariablen, welche keine diskrete Verteilung haben. Wir werden gleich etwas später darauf zurückkommen. Bei der Berechnung von Erwartungswerten lässt sich oft nutzbringend die Linearität aus Satz 3.41 b) verwenden. Hier ein ho¤entlich überzeugendes Beispiel: Beispiel 3.52 Wir betrachten unser altes Beispiel 1.8. Hier war die Menge der Permutation der Zahlen 1; : : : ; n mit p (!) = 1=n!: Als Zufallsvariable X betrachten wir die Anzahl der richtig verpackten Briefe. Wir hatten schon P (X = 0) berechnet. Der Wertebereich X ( ) ist o¤ensichtlich f0; 1; : : : ; n 2; ng ; (n 1 kann nicht vorkommen). Der Erwartungswert von X ergibt sich als EX = n X2 k P (X = k) + nP (X = n) : k=0 P (X = n) ist einfach 1=n! und P (X = 0) hatten wir schon berechnet, was uns jedoch ohnehin nicht interessiert, da dies nun mit 0 multipliziert wird. Die P (X = k) für die anderen k sind jedoch ziemlich umständlich zu berechnen. Wir verwenden deshalb einen Trick und schreiben X = X1 + X2 + + Xn ; wobei Xi die folgende Zufallsvariable bezeichnet: Xi = 1; falls der i-te Brief in den richtigen Umschlag gelangt. Andernfalls setzen wir Xi = 0: Formal ist Xi (!) = 1 falls die Permutation ! die Eigenschaft ! (i) = i erfüllt und andernfalls Xi (!) = 0: Aus der Linearität des Erwartungswerts ergibt sich EX = n X EXi : i=1 Nun ist aber EXi = 0 P (Xi = 0) + 1 P (Xi = 1) = P (Xi = 1) : Es ist o¤ensichtlich, dass jf! : ! (i) = igj = (n 1)! gilt und demzufolge P (Xi = 1) = 1=n: Mithin ergibt sich n X 1 EX = = 1: n i=1 3.6 Der Satz von Radon-Nikodym Nachfolgend sei ( ; F; ) ein -endlicher Massraum. Proposition 3.53 R Sei f : ! [0; 1) messbar. Dann wird durch F 3 A 7! (A) := A f d ein (stets -endliches!) Mass auf F de…niert. Für jede Menge A 2 F mit (A) = 0 gilt (A) = 0: 51 Beweis. O¤ensichtlich gilt S1 (;) = 0. Ist fAn gn2N eine Folge paarweise disjunkter Mengen aus S, und ist A = n=1 An , so gilt (A) = Z f d = lim n!1 Sn A = 1 X Z f d = lim k=1 Ak n!1 n Z X k=1 fd Ak (Ak ): k=1 Es bleibt zu zeigen, dass -endlich ist. Sei f n gn2N eine Folge von messbaren Teilmengen von mit n " und ( n ) < 1. Sei ferner An := ff ng. Dann gilt n \ An " und (An \ n ) n ( n ) < 1 für alle n. Ist A 2 S eine -Nullmenge, so ist 1A f fast überall 0: Daraus folgt (A) = 0: Eine wichtige Frage ist, ob sich ein Mass aus einem Mass auf diese Weise mit Hilfe einer Funktion f darstellen lässt. In diesem Fall nennt man f eine Dichte von bezüglich : Es ist nicht schwer zu sehen, dass f; wenn es überhaupt existiert, eindeutig bis auf -f.s.-Gleichheit ist: Sind f; g 0 zwei Dichten von bezüglich ; so gilt Z Z f d = gd A A für alle A 2 S: Sei n 2 F eine Folge mit n " und An := n \ ff < g ng : Dann ist Z (g f ) d = 0: ( n) < 1 für alle n: Sei An Wegen g > f auf An folgt (An ) = 0: Wegen n \ ff < g ng " ff < gg folgt (f < g) = 0; d.h. f g -f.s.. Analog folgt g f -f.s.. Damit ist gezeigt, dass eine Dichte, falls sie überhaupt existiert, eindeutig ist bis auf -f.s.-Gleichheit. R Bemerkung: Ist f 2 L1 ( ; F; ), f 0; mit f d = 1; so ist ein Wahrscheinlichkeitsmass. Wann existiert eine derartige Dichte? Nach der obigen Proposition ist eine notwendige Bedingung, dass alle -Nullmengen auch -Nullmengen sind. Eine erstaunliche Tatsache ist, dass dies auch eine hinreichende Bedingung ist. De…nition 3.54 Es seien ( ; F) ein messbarer Raum und , zwei Masse auf F. heisst absolutstetig bezüglich (Notation: ), falls folgende Bedingung erfüllt ist: 8A 2 F : (A) = 0 ) (A) = 0: Satz 3.55 (Satz von Radon-Nikodym) ; seien zwei -endliche Masse auf ( ; F) : Es gilt genauRdann, wenn eine nicht+ negative, messbare Funktion f : ! R existiert mit (A) = A f d für alle A 2 F. Diese Funktion ist eindeutig bis auf -f.ü.-Gleichheit. 52 Beweis. Wir müssen nur noch zeigen, dass die Existenz von f impliziert. Wir führen den Beweis nur für den Fall, dass ; endliche Masse sind. Wir können natürlich annehmen, dass ( ) 6= 0 ist, sonst ist nichts zu zeigen. Wir betrachten die Menge der nicht-negativen numerischen messbaren Funktion g auf für die Z gd (A) ; 8A 2 F (3.12) A gilt. Da die Funktion identisch 0 sicher dieseR Eigenschaft hat, so ist diese Menge nicht leer wir de…nieren als das Supremum von gd über diese Menge. Wegen ( ) < 1 gilt < 1: Wir zeigen nun, dass es eine aufsteigende Folge fgn g ; gn 2 ; gibt mit Z lim gn d = : (3.13) n!1 Das ist sehr einfach: Sicher existiert eine Folge fhn g Z = sup hn d : mit n Wir de…nieren gn := max (h1 ; : : : ; hn ) : Wir zeigen zunächst per Induktion nach n; dass gn 2 gilt. Für n = 1 ist das klar. Nun ist gn = max (gn 1 ; hn ) : Sei B := f! : hn (!) gn 1 (!)g : Dann gilt für jedes A 2 F Z Z Z gn d = gn d + gn d c A A\B A\B Z Z = hn d + gn 1 d A\B c A\B (A \ B) + (A \ B c ) = (A) : Damit ist gezeigt, dass die gn 2 sind und natürlich gilt nun (3.13). Da die Folge monoton ansteigend ist, können wir f := lim gn n!1 de…nieren. Nach dem montonen Konvergenzsatz gilt f 2 Z fd = : Wir zeigen nun, dass (A) = Z A und fd R für alle A 2 F gilt. Jedenfalls wissen wir schon, dass RA f d (A) für alle A 2 F gilt. Wir de…nieren daher das Mass A 7! (A) := (A) A f d und müssen nun nur noch zeigen, dass ( ) = 0 ist. 53 Wir nehmen an, dass ( ) > 0 ist und führen das zu einem Widerspruch. Wir hatten vorausgesetzt, dass ( ) > 0 ist. Wir de…nieren nun 0 (A) := (A) ( ) (A) ; A 2 F: 2 ( ) 0 ist nicht notwendigermassen ein Mass, da durchaus 0 (A) < 0 für gewisse A 2 F gelten kann. Jedenfalls ist aber 0 ( ) = ( ) =2 > 0: Wir behaupten nun, dass eine Menge H 2 F existiert mit 0 (H) > 0; 0 (A) 0; 8A 2 F; A H: (3.14) Wir verschieben den Beweis dieser Aussage für den Moment und zeigen, dass damit der Satz bewiesen ist. Wir setzen einfach f 0 := f + ( ) 1H : 2 ( ) R R Dann prüft man sehr einfach nach, dass f 0 2 gilt mit f 0 d > f d = im Widerspruch zur De…nition von : Es bleibt also (3.14) zu zeigen. Wir konstruieren dazu für jedes n 2 N eine Folge 0 ( ) > 0 und Hn 2 F mit Hn #; 0 (Hn ) 0 1=n; 8A 2 F; A Hn : T Damit sind wir o¤enbar fertig, denn wir können H := n Hn setzen. Nun zur Konstruktion der Hn : Wir setzen H0 := . Wir nehmen an, Hn 1 sei bereits konstruiert und wir konstruieren nun Hn : Falls kein A1 2 F, A1 Hn 1 ; existiert mit 0 (A1 ) < 1=n; so können wir einfach Hn := Hn 1 wählen, und anderfalls wählen wir ein derartiges A1 und setzen 0 (A ) 0 (H 0( ) B1 := Hn 1 nA1 : Man beachte, dass 0 (B1 ) = 0 (Hn 1 ) 1 n 1) 0 gilt. Falls nun kein A2 B1 existiert, A2 2 F; mit (A2 ) < 1=n; so setzen wir Hn := B1 und wir sind fertig. Anderfalls wählen wir ein derartiges A2 und setzen B2 := B1 nA2 und fahren in dieser Weise weiter. 0 (A1 ) ; 0 (A2 ) ; : : : sind alle 1=n und die A1 ; A2 ; : : : sind paarweise disjunkt. Daher gilt ( ) 2 (A) 0 [k i=1 Ai = k X i=1 0 (Ai ) k ; n und somit bricht die Konstruktion spätestens nach k = n ( ) =2 Schritten ab. Man beachte, dass Hn Hn 1 gilt. Damit ist die Existenz von Hn bewiesen und somit auch der Satz von Radon-Nikodym (im Falle ( ) ; ( ) < 1). Wir schreiben d f= ; d wenn eine derartige Dichte existiert. Es ist naheliegend, dass in einem derartigen Fall Integrale bezüglich in Integrale bezüglich umgeschrieben werden können: 54 Proposition 3.56 Sei absolut stetig bezüglich a) Ist : mit Dichte f: ! [0; 1] eine messbare numerische Funktion, so gilt Z Z d = ( f) d : b) Ist : ! R messbar, so gilt 2 L1 ( ) genau dann, wenn diesem Fall gilt ebenfalls die obige Gleichung. (3.15) f 2 L1 ( ) ist. In Beweis. Für = 1A ; A 2 F; ist (3.15) einfach die De…nition von : Der allgemeine Fall in a) folgt einfach mit 3.36. In b) folgt 2 L1 ( ) () f 2 L1 ( ) aus a) angewandt auf j j : Die Gleichung (3.15) folgt wie üblich aus einer Zerlegung in Positiv- und Negativteil. Von besonderer Bedeutung für uns sind Wahrscheinlichkeitsmasse auf (R; B), welche absolut stetig bezüglich des Lebesgue Masses sind. Sei X eine Zufallsvariable, de…niert auf einem beliebigen Wahrscheinlichkeitsraum ( ; F; P ) : Dann ist P X 1 ; die Verteilung von X; ein Wahrscheinlichkeitsmass auf (R; B) : De…nition 3.57 Falls P X 1 absolut stetig bezüglich des Lebesgue-Masses ist, so sagt man, dass X eine d(P X 1 ) Dichte f = besitzt (die dann eindeutig bis auf -f.ü.-Gleichheit ist). d Lemma 3.58 BesitztR die Zufallsvariable X die Dichte f; so existiert der Erwartungswert genau dann, wenn jxj f (x) (dx) < 1 ist, und in diesem Fall ist Z EX = xf (x) (dx) : Beweis. Nach Proposition 3.51 bzw. (3.11) existiert der Erwartungswert genau dann, wenn Z jxj P X 1 (dx) < 1 ist und in diesem Fall ist EX = Z x PX 1 (dx) : Die Behauptung folgt nun sofort aus der obigen Proposition 3.56, angewandt auf und (x) = x: Beispiele 3.59 Hier ein paar Beispiele von Dichten von Wahrscheinlichkeitsmassen auf R : 55 = a) 1 f (x) = p e 2 x2 =2 : Dies ist die sogenannte Dichte der Standardnormalverteilung. Hat eine Zu2 fallsvariable X diese Dichte, so nennt man sie standardnormalverteilt. Da xe x =2 o¤ensichtlich integrierbar bezüglich Lebesgue ist, existiert der Erwartungswert für eine derartige Zufallsvariable und es gilt Z 1 2 p xe x =2 dx = 0; EX = 2 b) Sind a 2 R; 2 > 0; so ist fa; 1 2 (x) = p 2 exp " a)2 (x 2 2 # R ebenfalls eine Dichte mit fa; 2 d = 1: Man nennt dies die Dichte der Normalverteilung mit Mittel a und Varianz 2 : Hat X diese Verteilung so ist " # Z 1 (x a)2 p EX = x exp dx 2 2 2 Z 1 2 p ( y + a) e y =2 dy = a: = 2 c) Exponentialverteilung: Diese hat die Dichtefunktion f (x) = x e 0 fu •r x 0 : fu •r x < 0 Hat eine Zufallsvariable diese Dichte, so nennt man sie exponentialverteilt. Der Erwartungswert einer derarigen Zufallsvariable ist Z 1 Z 1 x x 1 EX = xe dx = xe x=0 + e x dx = 1: 0 0 d) Cauchy-Verteilung zum Parameter c > 0: Sie hat die Dichte f (x) = c ; (c2 + x2 ) x 2 R: Eine Zufallsvariable mit dieser Dichte nennt man Cauchy-verteilt mit Parameter c: Da xf (x) nicht Lebesgue-integrierbar ist, so existiert der Erwartungswert einer derartigen Zufallsvariablen nicht. 56 e) Gleichförmige Verteilung auf einem Intervall: Sei 1 < a < b < 1: Die Dichte der gleichförmigen Verteilung auf dem Intervall [a; b] ist 1 b a f (x) := fu •r x 2 [a; b] : fu •r x 2 = [a; b] 0 Der Erwartungswert einer Zufallsvariablen mit dieser Dichte ist natürlich (a + b) =2: Analoge Begri¤sbidlungen verwendet man für d-dimensionale Zufallsvektoren X : ! Rd : Die Verteilung eines solchen Zufallsvektors ist P X 1 ; d.h. ein Wahrscheinlichkeitsmass auf Rd ; Bd : Ist P X 1 absolut stetig bezüglich des d-dimensionanel LebesgueMasses d ; so sagt man, dass X eine d-dimensionale Dichte f= d PX d d 1 besitzt. De…nition 3.60 a) Das Wahrscheinlichkeitsmass auf (Rd ; Bd ), das durch die Dichte f (x1 ; : : : ; xd ) := (2 ) d=2 1 Xd x2 ; i=1 i 2 exp (x1 ; : : : ; xd ) 2 Rd ; de…niert wird, heisst Standardnormalverteilung auf Rd . b) Ein Wahrscheinlichkeitsmass auf Rd ; Bd heisst Normalverteilung, wenn eine reelle d d-Matrix A und b 2 Rd existieren, sodass = st 1 ist, wobei die a¢ ne Abbildung Rd 3 x 7! (x) = Ax + b 2 Rd und st die Standardnormalverteilung sind. Ein Zufallsvektor X mit P X 1 = heisst normalverteilt, oder Gaussverteilt. c) Hat ein Zufallsvektor X eine Verteilung gemäss b) oder a), so heisst er normalverteilt, bzw. standard normalverteilt. Wir wollen noch kurz diskutieren, wann die Normalverteilung eine Dichte besitzt. Proposition 3.61 Das Wahrscheinlichkeitsmass der obigen De…nition besitzt genau dann eine Dichte, wenn die Matrix A invertierbar ist. In diesem Fall ist die Dichte gegeben durch 1 '(x; b; ) := p (2 )d det mit exp 1 (x 2 = AAT (AT die Transponierte von A): 57 b)T 1 (x b) ; x 2 Rd ; Beweis. Sei die Matrix A regulär. Dann ist für B 2 Bd Z 1 (B) = st ( (B)) = 1 Z eine invertierbare Abbildung, und es gilt 1 e (2 )d=2 (B) jxj2 =2 d (dx) 1 1 exp j 1 (x)j2 d=2 2 (2 ) Z 1 1 exp = 1B (y) j 1 (y) j2 d d=2 2 (2 ) = Nun benützen wir, dass 1B ( (x)) d 1 d 1 (dy): die Dichte det A bezüglich sich d (dx) 1 = 1 1 =p jdet (A)j jdet ( )j hat, was aus der Analysis bekannt sein sollte. Mit Proposition 3.56 ergibt (B) = = Z Z 1B (y) 1 (2 ) 1 B (2 ) d=2 p d=2 det 1 j 2 exp exp 1 1 (y 2 1 (y)j2 p jdet ( )j b)T 1 (y b) d (dy) d (dx): Damit ist die behauptete Form der Dichte nachgewiesen. Wenn A nicht invertierbar ist, so hat im ( ) := (x) : x 2 Rd Lebesgue Mass Null. Somit gilt (im ( )) = 1 und d (im ( )) = 0: In diesem Fall kann natürlich keine Dichte besitzen. 3.7 Produktmasse Es seien (S1 ; S1 ) und (S2 ; S2 ) zwei messbare Räume. De…nition 3.62 Sei S = S1 S2 die Produktmenge. Die Produkt- -Algebra S1 S2 ist die -Algebra, die vom Mengensystem C = f A1 A2 : Ai 2 Si g erzeugt wird. (Das Mengensystem C ist selbst keine -Algebra, es ist aber wegen ( A1 A2 )\( A01 A02 ) = (A1 \ A01 ) (A2 \ A02 ) o¤ensichtlich durchschnittstabil.) Lemma 3.63 Ist f : S1 S2 ! R eine S1 S2 -messbare numerische Funktion. Dann ist für jedes x 2 S1 die Abbildung y 2 S2 7! f (x; y) 2 R messbar bezüglich S2 : Analog für die andere Komponente. Beweis. Wir betrachten zunächst den Spezialfall f = 1A ; A 2 S1 S2 : Für x 2 S1 , A S1 S2 sei Ax := fy 2 S2 : (x; y) 2 Ag : Die Behauptung des Satzes für den Spezialfall f = 1A besagt dann, dass Ax 2 S2 für alle x 2 S1 ; A 2 S1 S2 ist. Wir de…nieren X := fA 2 S1 S2 : Ax 2 S2 f u •r 8x 2 S1 g : 58 X enthält o¤ensichtlich die Mengen der Form A1 A2 ; Ai 2 Si ; i = 1; 2:; denn (A = A2 für x 2 A1 ; und (A1 A2 )x = ; für x 2 = A1 : Wegen (Ac )x = (Ax )c und S1 A2 )x S ( i Ai )x = i (Ai )x folgt sofort, dass X eine -Algebra ist. Somit folgt X = S1 S2 : Als nächstes betrachten wir die Menge der nicht-negativen S1 S2 -m.b. numerischen Funktionen f für die f (x; ) als Funktion des zweiten Argumentes S2 -m.b. ist für alle x: Nach der vorangegangenen Überlegung enthält alle Indikatorfunktionen von Mengen A 2 S1 S2 : O¤ensichtlich erfüllt die Eigenschaften (i), (ii) und (iii) von Satz 3.36. Somit ist die Menge aller nicht-negativen S1 S2 -m.b. numerischen Funktionen. Für beliebige numerische Funktionen folgt die Behauptung mit einer Zerlegung in Positiv- und Negativteil. Für die Wahrscheinlichkeitstheorie besonders wichtig ist die Existenz von unendlichen Produktmassen. Da diese ohnehin für unendliche Masse wie dem Lebesgue Mass nicht existieren, so beschränken wir uns für den Rest des Kapitels stets auf Wahrscheinlichkeitsmasse, auch da, wo es nicht erforderlich wäre. Das vereinfacht die Beweise etwas. Ist A 2 S1 S2 und 2 ein Wahrscheinlichkeitsmass auf (S2 ; S2 ) ; so ist nach dem obigen Lemma 2 (Ax ) für jedes x 2 S1 de…niert. Lemma 3.64 Die Funktion x ! 2 (Ax ) ist eine S1 -m.b. nicht-negative Funktion. Beweis. Die Aussage ist o¤ensichtlich richtig für Mengen der Form A = A1 A2 ; Ai 2 Si ; denn in diesem Fall ist 2 (Ax ) = 1A1 (x) 2 (A1 ) : Wir betrachten D := fA 2 S1 S2 : x ! 2 (Ax ) ist S1 m:b:g : D ist ein Dynkin-System. Wir prüfen die 3 benötigten Eigenschaften nach: D1 ist of(Ax ) : Daraus folgt, fensichtlich. D2: Ist A 2 D; so ist 2 ((Ac )x ) = 2 ((Ax )c ) = 1 dass x ! 2 ((Ac )x ) S1 -m.b. ist und somit ist Ac 2 D: D3 geht analog: Sind A1 ; A2 ; : : : paarweise disjunkt und in D; so ist [ [ X An = 2 (An )x = 2 2 ((An )x ) ; n x n n S woraus die Messbarkeit von x ! 2 ( n An )x folgt. Sind nun 1 ; 2 zwei Wahrscheinlichkeitsmasse, i auf (Si ; Si ) ; so de…nieren wir das Produktmass 1 S2 durch 2 auf S1 Z ( 1 2 ) (A) := 2 (Ax ) 1 (dx) : Satz 3.65 1 2 ist ein Wahrscheinlichkeitsmass auf S1 Beweis. ( 1 2 ) (S1 S2 : S2 ) = 1 ist o¤ensichtlich. 59 Sind A1 ; A2 ; : : : 2 S1 S2 paarweise disjunkt, so folgt Z X Z [ [ (An )x 1 (dx) = An = ( 1 2 2) n n XZ = 2 ((An )x ) 1 (dx) = 2 ((An )x ) 1 (dx) n X ( 2 ) (An ) ; 1 n n die Vertauschung von Integral mit Summation nach Beppo-Levi. Bemerkung 3.66 a) In der obigen Konstruktion von 1 2 kann man die Rolle der Faktoren vertauschen: Für A 2 S1 S2 können wir für y 2 S2 erst die Menge A0y := fx : (x; y) 2 Ag 0 de…nieren und das Mass ( 1 2 ) durch Z 0 0 ( 1 2 ) (A) := 1 Ay 2 (dy) de…nieren. Für Mengen aus dem Erzeugendensystem C von De…nition 3.62, d.h. Mengen der Form A1 A2 ; Ai 2 Si gilt sowohl ( 1 A2 ) = 1 (A1 ) 2 (A2 ) 2 ) (A1 0 wie ( 1 ) (A A ) = (A ) (A ) : Da die Masse somit auf einem durch1 2 1 2 2 1 2 0 schnittstabilen Erzeugendensystem übereinstimmen gilt 1 2 = ( 1 2 ) auf ganz S1 S2 : b) Die Konstruktion der Produktmasse lässt sich nun sofort auf endlich viele Faktoren verallgemeinern. Sind (Si ; Si ; i ) Wahrscheinlichkeitsräume für i = 1; : : : ; n; so de…nieren wir rekursiv S1 Sn := (S1 Sn 1) Sn : Die Mengen der Form A1 An mit Ai 2 Si bilden o¤ensichtlich ein durchschnittstabiles Erzeugendensystem dieser -Algebra. Das Produktmass durch n 1 auf dieser n 1 = -Algebra ist dann ebenfalls rekursiv n 1 1 n de…niert und man sieht sofort, dass ( n ) (A1 1 An ) = 1 (A1 ) für Ai 2 Si gilt. Für ein beliebiges k 2 f1; : : : ; n 1g ist (S1 S1 Sn ; wenn wir S1 Sn mit (S1 identi…zieren, und analog für das Produktmass ( 1 k) k+1 n n (An ) Sk ) (Sk+1 Sk ) (Sk+1 = 1 n was sich einfach daraus ergibt, dass beide Seiten auf Mengen der Form A1 übereinstimmen. 60 Sn ) = Sn ) An Wir beweisen nun die Sätze von Tonelli und Fubini. Wie wir oben in Satz 3.63 gesehen haben, sind für jede S1 S2 -m.b., nicht negative numerische Funktion f : S1 S2 ! [0; 1] und x 2 S1 die Funktionen y ! f (x; y) messbar bezüglich S2 ; wir können daher die R Funktionen x ! f (x; y) 2 (dy) de…nieren. Satz 3.67 (Satz von Tonelli) R Die numerische Funktion x ! f (x; y) 2 (dy) ist S1 -m.b. und es gilt Z Z Z f d( 1 f (x; y) 2 (dy) f (x; y) 1 (dx) 2) = 1 (dx) = 2 (dy) : Beweis. Wie wir oben gesehen haben, gilt die Aussage für Funktionen f = 1A ; A 2 S1 S2 : Die Behauptung folgt nun sofort mit einer Anwendung von Satz 3.36 (Man de…niert als die Menge der Funktionen, für welche die Aussage richtig ist und beweist die Eigenschaften (i), (ii) und (iii) des Satzes). Satz 3.68 (Satz von Fubini) Sei f 2 L1 (S1 S2 ; S1 S2 ; 1 R2 ) : Dann ist für 1 -fast alle x 2 S1 die Funktion y ! f (x; y) in L1 (S2 ; S2 ; 2 ) und f (x; y) 2 (dy) ist als Funktion von x integrierbar bezüglich 1 : Ferner gilt Z Z f d( 1 f (x; y) 2 (dy) 2) = 1 (dx) ; was nach Vertauschen der Faktoren gleich Z f (x; y) 1 (dx) 2 (dy) ist. Beweis. Nach dem Satz von Tonelli gilt Z 1 > f+ d ( 1 2) = Somit ist Z Z f + (x; y) f + (x; y) 2 (dy) 2 (dy) 1 (dx) : <1 für 1 -fast alle x 2 S1 : Analog für den Negativteil. (Hier ist eine kleine R Schikane zu bewältigen: Wir müssen in unserem Rahmen nachweisen, dass x 2 S1 : f (x; y) 2 (dy) < 1 in S1 sind. Das sei dem Leser als einfache Übungsaufgabe überlassen.) Somit ergibt sich Z Z Z Z + + f d( 1 f f d( 1 f d( 1 f d( 1 2) = 2) = 2) 2) Z Z = f + (x; y) 2 (dy) (dx) f (x; y) 2 (dy) 1 (dx) 1 Z = f (x; y) 2 (dy) 1 (dx) : 61 Wir kommen nun zu unendlichen Produkten von Wahrscheinlichkeitsräumen: Seien also (Si ; Si ; i ) ; i 2 N; Wahrscheinlichkeitsräume. Wir de…nieren als die Produktmenge, d.h. ist die Menge der Folgen (s1 ; s2 ; : : :) mit si 2 Si : Wir de…nieren ebenfalls die endlichen Produktmengen n Mit n;m : Faktoren: n ! m; für m := f(s1 ; : : : ; sn ) : si 2 Si g : n; bezeichnen wir die Projektionen auf die ersten m n;m ((s1 ; : : : ; sn )) := (s1 ; : : : ; sm ) ; und analog 1;m : ! m : Wir können n+1 als n Sn+1 interpretieren. Nach den vorangegangen Diskussionen können wir -Algebren Fn := S1 auf n und die Produktmasse Qn = 1 n auf Fn rekursiv de…nieren: F1 := S1 ; Fn+1 := Fn Q1 := 1; Qn+1 = Qn de…nieren. Die -Algebren Fn können wir auf ganz -Algebra F^n auf der Produktmenge durch F^n := 1 1;n (A) Sn Sn+1 ; n+1 : „hochziehen“: Wir de…nieren die : A 2 Fn : F^n enthält also genau die Mengen der Form A^ = A Sn+1 Sn+2 ; ^ ^ mit A n ; A 2 Fn : Liegt n fest, so ist die Darstellung von A 2 Fn in dieser Form ^ n A^ := Qn (A) für Mengen dieser Form. Q ^ n ist nichts anderes eindeutig. Wir setzen Q als Qn ; mit der kleinen Schikane, dass wir die Mengen A 2 Fn als Teilmengen von interpretieren. Man beachte, dass A^ 2 F^n+1 ist, denn A^ = (A und A Sn+1 ) Sn+2 Sn+1 2 Fn+1 : Das bedeutet, dass die -Algebren ineinander geschachtelt sind: F^n F^n+1 ; 8n: ^ n führt das auf keine Mehrdeutigkeiten: Wenn wir A^ in dieser Für die De…nition der Q Weise interpretieren, so ergibt sich ^ n+1 A^ Q = Qn+1 (A = Qn (A) Sn+1 ) = Qn n+1 (Sn+1 ) n+1 (A Sn+1 ) ^ n A^ : = Qn (A) = Q ^ n+1 auf die -Algebra F^n gleich Q ^ n ist. Das Das bedeutet, dass die Einschränkung von Q lässt sich sofort zur folgenden Aussage verallgemeinern: 62 Lemma 3.69 ^ n auf die -Algebra F^m Für m < n ist die Einschränkung von Q n o ^ n verträglich ist. Man sagt auch, dass die Folge Q Wir setzen A := [ n ^ m: F^n gleich Q F^n : Man beachte, dass das in der Regel keine -Algebra ist; es ist jedoch eine Algebra: Sind etwa A; B 2 A; so existieren m; n mit A 2 F^n ; B 2 F^m : Ist m n; so sind beide in F^n und ist n m, so sind beide in F^m : Dies impliziert A [ B 2 F^max(n;m) A: Die Abgeschlossenheit gegenüber Komplementsbildung folgt analog. ^ n zu einer Abbildung Q ^ : A ! [0; 1] hochzuEs macht nun auch kein Problem, die Q ^ ziehen: Für A 2 A existiert n mit A 2 Fn und wir de…nieren ^ (A) := Q ^ n (A) : Q ^ wohlde…niert. Wegen der Veträglichkeitseigenschaft des vorangegangenen Lemmas ist Q ^ Es ist auch sofort ersichtlich, dass Q auf A ein Inhalt ist, d.h. endlich additiv. Satz 3.70 ^ ist auf A -additiv. Q Beweis. Wir zeigen die -Additivität in der folgenden Version. Sei fAn g eine fallende Folge An 2 A mit An+1 An , 8n; und ^ (An ) 6= 0: lim Q n!1 T Dann ist n An 6= ;: Gemäss Lemma 3.12 folgt daraus die -Additivität. Zunächst ein paar kosmetische Manipulationen. Zu n wählen wir k (n) 2 N so dass An 2 F^k(n) ist. Da für An 2 F^k die Menge auch in jedem F^m mit m k liegt, so können wir annehmen, dass die k (n) monoton ansteigen: k (1) < k (2) < k (3) < .Durch “Au¤üllen”der Folge fAn g mit repetierten Mengen, können wir annehmen, dass k (n) = n ist. Ist z.B. k (1) = 4; k (2) = 6; k (3) = 9; : : : so ersetzen wir die Folge durch ; ; ; A1 ; A1 ; A2 ; A2 ; A2 ; A3 ; : : : Nach einer derartigen Modi…kation erhalten wir An 2 F^n für alle n: (Diese kosmetische Operation ist ohne grössere Bedeutung und erleichtert bloss die Notation im nachfolgenden Argument). Wir können An als Bn Sn+1 Sn+2 schreiben, Bn n ; Bn 2 Fn : Wir konstruieren nun eine T Folge fxn g ; xn 2 Sn mit (x1 ; : : : ; xn ) 2 Bn für alle n: Damit ist x := (x1 ; x2 ; : : :) 2 n An und wir haben gezeigt, dass der Durchschnitt nicht leer ist. Bevor wir das Argument vorstellen, zunächst ein Hinweis, worin die Schwierigkeit liegt. Natürlich können wir stets ein x1 2 B1 …nden, denn B1 ist nicht leer. Anschliessend möchten wir zu diesem x1 ein x2 2 S2 …nden mit (x1 ; x2 ) 2 B2 ; und dann möchten wir in dieser Weise weiterfahren. Bei einer beliebigen Wahl von x1 ist jedoch nicht garantiert, dass wir dazu ein entsprechendes x2 …nden können. Zwar können wir stets ein (x01 ; x02 ) 2 63 B2 …nden, was dann automatisch x01 2 B1 erfüllt. Entsprechend können wir für jedes m ein Element (y1 ; : : : ; ym ) 2 Bm …nden und dann gilt automatisch (y1 ; : : : ; yk ) 2 Bk für k m: Es ist jedoch in keinster Weise klar, dass wir auf diese Weise eine unendliche Folge mit der gewünschten Eigenschaft konstruieren können. Im Allgemeinen ist das auch gar nicht möglich. Das Problem besteht darin, dass wir x1 schon so konstruieren müssen, dass wir in die „unendliche Zukunft“ vorausblickend, die Konstruktion später weiterführen, damit wir anschliessend x2 ; x3 ; : : : …nden können. Hier ist die Idee: Wir konstruieren zunächst nicht die Folge der fxn g sondern eine Folge fm ; m 2 N; von messbaren Funktionen m ! [0; 1] mit den folgenden drei Eigenschaften. fm (y) = Z Z f1 d fm+1 (y; z) > 0; 1 m+1 (dz) ; fm (3.16) m 1; y 2 m: (3.17) 1B m : (3.18) Bevor wir diese Aussagen beweisen, zeigen wir, dass wir damit den Satz bewiesen haben. Wir konstruieren rekursiv eine Folge x1 ; x2 ; : : : mit der Eigenschaft, dass fm x(m) > 0 für alle m gilt. Hier ist x(m) := (x1 ; : : : ; xm ) : Wegen (3.18) folgt daraus x(m) 2 Am : Wir wählen zunächst x1 so, dass f1 (x1 ) > 0 ist, was nach (3.16) möglich ist. Ist x(m) mit fm x(m) > 0 konstruiert, so wählen wir xm+1 so dass fm+1 x(m) ; xm+1 > 0 gilt, was wegen (3.17) möglich ist. Wie wir also sehen, implizieren (3.16)-(3.18) die Existenz einer Folge fxi g mit den postulierten Eigenschaften. Nun zur Konstruktion der Folge fm : Für n 0 de…nieren wir Funktionen fm;n auf m durch Z fm;n (y) := 1Bm+n (y; ym+1 : : : ; ym+n ) m+1 (dym+1 ) m+n (dyn+m ) : Dann gilt für y 2 fm;n+1 (y) = Z Z = Z m 1Bm+n+1 (y; ym+1 : : : ; ym+n+1 ) 1Bm+n Sn+m+1 m+1 (dym+1 ) (y; ym+1 : : : ; ym+n+1 ) 1Bm+n (y; ym+1 : : : ; ym+n+1 ) m+n+1 (dyn+m+1 ) m+1 (dym+1 ) m+1 (dym+1 ) m+n+1 (dyn+m+1 ) m+n (dyn+m ) = fm;n (y) ; die Ungleichung wegen Bm+n+1 Bm+n Sn+m+1 und die Gleichung danach nach Tonelli. Die Folge von Funktionen ist also monoton fallend in n und wir schreiben 64 fm (y) = limn!1 fm;n (y) : (3.18) ergibt sich wegen fm;0 = 1Bm : Wir zeigen nun die anderen gewünschten Eigenschaften. Zunächst (3.16: Z f1;n d 1 = 1 n+1 (Bn+1 ) = Qn+1 (An+1 ) : Damit folgt nach dem Satz von Lebesgue und (3.17) Z f1 d 1 = lim Qn (An ) > 0; n!1 d.h. (3.16). Als Letztes bleibt (3.17). Für y 2 m gilt nach Tonelli Z fm+1;n (y; ym+1 ) n+1 (dyn+1 ) Z Z = 1Bm+n+1 (y; ym+1 ; ym+2 ; : : : ; ym+n+1 ) m+2 (dym+2 ) m+n+1 (dym+n+1 ) m+1 (dym+1 ) = fm;n+1 (y) : Mit n ! 1 und dem Satz von Lebesgue folgt (3.17). De…nition 3.71 N Die unendliche Produkt- -Algebra i2N Si ist de…niert als die erzeugt wird. -Algebra, die von A Korollar 3.72 ^ hat eine eindeutige Erweiterung zu einem Wahrscheinlichkeitsmass auf ( ; F) := Q Q N N i2N Si ; i2N Si : Dieses Wahrscheinlichkeitsmass nennt man das Produktmass i2N der Wahrscheinlichkeitsmasse i : Im häu…g vorkommenden Fall, dass die Wahrscheinlichkeitsräume alle gleich sind: N (Si ; Si ; i ) = (S; S; ) schreiben wir für ; F; i2N i einfach S N ; S N ; N : Mit der Konstruktion von unendlichen Produkten von Wahrscheinlichkeitsmassen können wir unendliche Folgen von unabhängigen Zufallsvariablen erzeugen. Wir diskutieren das genauer im nächsten Kapitel. Hier nur schon ein Beispiel: Beispiel 3.73 (S; S; ) sei der Wahrscheinlichkeitsraum für einen einzigen Münzwurf, d.h. Si = S = fK; Zg ; Si = P (S) und i = ; (fKg) = (fZg) = 1=2: des obigen Korollars ist dann die Menge der unendlich langen K-Z-Folgen. Wir de…nieren Xi : ! N ist ein Wahrscheinlichkeitsmass auf ( ; F) := fK; Zg als die i-te Projektion. P := fK; ZgN ; P (fK; Zg) N : Unter P ist die Verteilung von (X1 ; : : : ; Xn ) für jedes n die Gleichverteilung auf den K-Z-Folgen der Länge n: Der Wahrscheinlichkeitsraum ; F; N ergibt somit ein Modell für einen unendlich lang fortgesetzten Münzwurf. In diesem Modell lässt sich das Gesetz der grossen Zahlen formulieren: 1 Xn 1 P lim 1fXi =Kg = = 1; i=1 n 2 was wir ebenfalls im nächsten Kapitel beweisen werden. 65 i 4 Zufallsvariablen, Erwartungswerte, charakteristische Funktionen, Unabhängigkeit Es sei ( ; F) ein messbarer Raum. Wahrscheinlichkeitsmasse auf F werden oft (aber nicht immer) mit P , Q usw. statt mit , usw. bezeichnet (P für “probability”). Die Elemente von F bezeichnet man in der Wahrscheinlichkeitstheorie meist als Ereignisse. Die einzelnen Elemente ! von nennt man die Elementarereignisse. Da für ein Wahrscheinlichkeitsmass P ( ) = 1 gilt, folgt 0 P (A) 1 für jedes A 2 F. Ferner gilt P (Ac ) = 1 P (A). Statt P -fast überall sagt man meist P -fast sicher (Abkürzung: P -f. s.). Ist fAn gn2N eine Folge von Ereignissen, so verwenden wir die folgenden Bezeichnungen: [ \ Am 2 F; lim inf An := n!1 n m:m n lim sup An := n!1 \ [ n m:m n Am 2 F: Die Vereinigung im ersten Ausdruck ist o¤enbar eine ansteigende, d.h. es gilt \ Am " lim inf An : n!1 m:m n Analog gilt [ m:m n Am # lim sup An : n!1 Ein Element ! 2 ist genau dann in lim inf n!1 An ; wenn es in allen An bis auf endlich vielen liegt. Man sagt dann auch, dass ! in “fast allen” An ist. ! 2 lim supn!1 An gilt genau dann, wenn ! in unendlich vielen der An ist. Statt P (lim supn!1 An ) schreibt man dann auch P (An unendlich oft) ; bzw für P (lim inf n!1 An ): P (An ; fast alle n) : 4.1 Erwartungswerte De…nition 4.1 Sei X eine reelle Zufallsvariable, die auf einem Wahrscheinlichkeitsraum ( ; F; P ) de…R niert ist. Ist X 0 oder X 2 L1 ( ; F; P ), so heisst EX = X dP der Erwartungswert von X. Der Erwartungswert ist also für positive Zufallsgrössen stets de…niert, kann in diesem Fall jedoch gleich unendlich sein. Ist X eine Zufallsvariable und : R ! R eine messbare Abbildung (in solchen Fällen ist stets Borel-messbar gemeint), so ist die Abbildung ! R de…niert durch ! ! (X (!)) ; also die Komposition X; ebenfalls eine Zufallsvariable. Man schreibt dafür meist (X) Das folgende Lemma ergibt sich aus den Eigenschaften des Integrals aus Kapitel 1. 66 Lemma 4.2 a) Sind X; Y 2 L1 ( ; F; P ) und a; b 2 R, so gelten aX + bY 2 L1 und E(aX + bY ) = aE(X) + bE(Y ) (Linearität des Erwartungswertes). b) Ist X 0 mit E(X) = 0, so folgt X = 0 P -fast sicher. Beweis. a) ist einfach die Linearität des Integrals, b) folgt aus Lemma 3.42 b) De…nition 4.3 Ist X eine Zufallsgrösse und p > 0, so ist jXjp eine nichtnegative Zufallsgrösse. Es bezeichne Lp ( ; F; P ) die Menge der auf ( ; F; P ) de…nierten Zufallsgrössen mit E(jXjp ) < 1. Lemma 4.4 Für p p0 > 0 gilt Lp ( ; F; P ) Lp0 ( ; F; P ). Beweis. Sei X 2 Lp und A = fjXj 1g. Dann gilt Z Z Z p0 p0 p0 E(jXj ) = jXj dP + jXj dP P (A) + Ac A Ac jXjp dP 1 + E(jXjp ) < 1: Wie wir schon aus dem letzten Kapitel wissen, kann der Erwartungswert einer Zufallsvariablen X statt aus einer Integration in über P auch durch eine Integration über die Verteilung gewonnen werden (3.11): Z EX = x P X 1 (dx) : Wenden wir das auf die Zufallsvariable jXjp ; oder allgemeiner an, so ergibt sich Z E (X) = x P (X) 1 (dx) : (X) ; : R ! R m.b., Wir können jedoch den Transformationssatz für Integrale (Proposition 3.51 auf g = und f = X anwenden und erhalten Z E (X) = (x) P X 1 (dx) : Ist X diskret, so ergibt sich E (X) = X (z) P (X = z) ; z2X( ) und ist P X 1 absolut stetig bezüglich des Lebesgue Masses, mit Dichte f; so folgt Z E (X) = (x) f (x) dx 67 Für die sogenannten Momente E (X p ) ; p > 0; folgt also X z p P (X = z) E (X p ) = z2X( ) im diskreten Fall, und p E (X ) = Z xp f (x) dx R im Fall, dass P X 1 eine Dichte f bezüglich des Lebesgue-Masses besitzt. Satz 4.5 a) Marko¤-Ungleichung: Sei X 2 Lp mit p > 0. Dann gilt für alle a > 0 die Abschätzung P (jXj a) a p E(jXjp ). b) Schwarzsche Ungleichung: Sind X; Y 2 L2 , so gelten XY 2 L1 und EjXY j (E(X 2 )E(Y 2 ))1=2 . c) Höldersche Ungleichung: Seien p; q gelten XY 2 L1 und EjXY j 1 mit 1 p + 1 q = 1. Für X 2 Lp , Y 2 Lq (E(jXjp ))1=p (E(jY jq ))1=q : Beweis. Wir beweisen nur a). Die Beweise für b) und c) sind analog zu den aus der Analysis bekannten. Z Z jXjp P (jXj a) = 1fjXj ag dP 1 dP ap fjXj ag Z jXjp dP = a p E(jXjp ): ap De…nition 4.6 Sei X 2 L1 . Die Varianz von X ist de…niert durch EX)2 ) 2 [0; 1]: var(X) = E((X Bemerkung 4.7 Die folgenden Eigenschaften sind einfache Folgerungen aus der De…nition: Sei X 2 L1 . a) var(X) = E(X 2 2XEX + (EX)2 ) = E(X 2 ) (EX)2 . b) Es gilt o¤enbar var(X) < 1 () X 2 L2 . c) var(X) = 0 () X = EX fast sicher. d) Die Marko¤-Ungleichung angewandt auf X EX mit p = 2 ergibt P (jX a) a12 var(X): (Tschebysche¤-Ungleichung) 68 EXj Beispiele 4.8 a) Sei X standard normalverteilt. Dann ist EX = 0, wie wir schon gesehen hatten. Z 1 2 2 var (X) = EX = x2 p e x =2 dx 2 Z Z 1 1 2 2 2 x =2 = x p e dx = x p xe x =2 dx 2 2 Z 1 1 1 2 2 = x p e x =2 + p e x =2 dx = 0 + 1 = 1: 2 2 1 b) Ist X normalverteilt gemäss Beispiel 3.59 b), so ist der Parameter 2 tatsächlich die Varianz von X; was sich sofort aus einer Variablentransformation des Integrals ergibt. c) Sei X exponentiell verteilt, gemäss 3.59 c), so ist EX = 1: Z 1 Z 1 2 2 x EX = x e dx = 2xe x dx = 2: 0 0 Also ist (EX)2 = 1: p Die positive Quadratwurzel aus der Varianz, var (X) nennt man auch die Standardabweichung von X und bezeichnet sie als X : var (X) = EX 2 Lemma 4.9 a) Ist X eine Zufallsvariable mit existierender Varianz, und sind a; b 2 R; so gilt var (aX + b) = a2 var (X) : b) Ist X eine Zufallsvariable mit existierender Varianz, so hat X EX X Erwartungswert 0 und Varianz 1: Beweis. a): var (aX + b) = E [aX + b = E [aX + b = a2 E (X E (aX + b)]2 aEX b]2 = E a2 (X EX)2 EX)2 = a2 var (X) : b) folgt sofort aus a). In diesem Zusammenhang ist die folgende Beobachtung interessant: 69 Lemma 4.10 Ist X normalverteilt mit Parametern normalverteilt. und Varianz 2; so ist (X )= standard Beweis. Aus dem vorangegangenen Lemma wissen wir, dass (X ) = Erwartungswert 0 und Varianz 1 hat. Dies reicht für die Behauptung jedoch nicht aus. Wir berechnen die Verteilungsfunktion: " # Z t+ X (x )2 1 p P exp t = P (X t+ )= dx 2 2 2 1 Z t 1 y2 p exp dy; = 2 2 1 die letzte Gleichung mit der Variablentransformation y = (x )= : Die Standardabweichung gibt an, in welchem Abstand man die Zufallsvariable etwa vom Erwartungswert erwartet. Diese sehr vage Aussage wird etwas durch die Tschebysche¤Ungleichung präzisiert: Für a > 0 gilt P (jX EXj a X) 1 var (X) 2 a2 = a2 : X Nach dieser Ungleichung hat also eine Abweichung vom mehr als dem Dreifachen der Standardabweichung eine Wahrscheinlichkeit von weniger als 1=9: Der Vorteil dieser Abschätzung ist, dass sie für alle Zufallsvariablen, welche eine endliche Varianz besitzen, gütlig ist. Der Nachteil ist jedoch, dass sie für die meisten „in der Praxis“ vorkommenden Zufallsvariablen eine sehr schlechte Abschätzung ist. Beispiel 4.11 Wir betrachten das Beispiel einer normalverteilten Zufallsvariablen X (mit Parameter und Varianz 2 und schätzen P (jX j a) ab. Wie wir von vorangegangen Lemma 0 her wissen, ist X := (X ) = standard normalverteilt, und es gilt P (jX j a) = P Z = a = P X0 a + P (X a) Z 1 Z 1 1 1 1 x2 =2 x2 =2 p e p e p e dx + dx = 2 2 2 2 a a X0 a 1 x2 =2 dx: Da die Stammfunktion der Glockkurve nicht explizit berechenbar ist, verwenden wir eine Abschätzung Z 1 Z 1 Z 1 1 x x2 =2 1 1 1 2 x2 =2 p e p p xe x =2 dx dx e dx = a a 2 2 a 2 a a 1 1 1 1 2 2 p e x =2 = = p e a =2 : a 2 a 2 a Für a = 3 etwa ergibt sich P (jX j 3 ) 2 p e 3 2 70 9=2 2:9546 10 3 und für a = 5 P (jX j 5 ) 2 p e 5 2 25=2 5:9469 10 7 : Das ist phantasitsch viel besser als die Abschätzung durch die Tschebysche¤-Ungleichung. Eine naheliegende Frage ist, wieso man nicht viel eher E (jX EXj) anstelle der Standardabweichung betrachtet. Die Antwort ist einfach, dass sich Varianzen typischerweise viel einfacher als Erwartungswerte von Absolutbeträgen berechnen lassen. Für die Normalverteiltung lässt sich jedoch der obige Ausdruck sehr einfach berechnen: Für die Standardnormalverteilung ergibt sich Z 1 Z 1 1 2 x2 =2 x p e x =2 dx dx = 2 E (jXj) = jxj p e 2 2 r0 1 1 2 2 p e x =2 = 2 = 0:79788: 2 0 Somit gilt für eine allgemeine Normalverteilung r 2 E (jX EXj) = 0:79788 : Eine wichtige disrkete Verteilung ist die Poisson-Verteilung: De…nition 4.12 Eine Zufallsvariable heisst Poisson-verteilt mit Parameter reich X ( ) = N0 ist und > 0; wenn der Wertebe- k P (X = k) = k! e ist. Proposition 4.13 Ist X Poisson-verteilt mit Parameter ; so gilt EX = var (X) = : Beweis. EX = = 1 X k=0 1 X k=0 kP (X = k) = k+1 k! e = 1 X k k k! k=1 1 k X k=0 71 k! e e = 1 X k=1 = : k (k 1)! e EX 2 = 1 X k 2 P (X = k) = k=0 = = 1 X 1 X k k k=1 k+1 (k + 1) k=0 2 k! e (k 1)! 1 X = k k k=0 + : e k! e + 1 X k=0 k k! e Daraus folgt var X = EX 2 (EX)2 = 2 + 2 = : Wir kommen nun noch zu den analogen Begri¤sbildungen für mehrdimensionale Zufallsgrössen De…nition 4.14 Ist X = (X1 ; : : : ; Xn ) ein Zufallsvektor, so de…niert man seinen Erwartungswert EX 2 Rn komponentenweise durch EX = (EX1 ; : : : ; EXn ) (falls dies existiert). An die Stelle der Varianz treten die Kovarianzen: De…nition 4.15 a) Sind X und Y zwei Zufallsgrössen aus L1 mit XY 2 L1 , so ist ihre Kovarianz cov(X; Y ) de…niert durch cov(X; Y ) = E(XY ) E(X)E(Y ) = E((X EX)(Y EY )): b) Ist X = (X1 ; : : : ; Xn ) ein Zufallsvektor mit Xi 2 L1 und Xi Xj 2 L1 für alle i; j 2 f1; : : : ; ng, so ist die Kovarianzmatrix (X) = ( ij (X)) de…niert durch ij (X) = cov(Xi ; Xj ). c) Zwei integrierbare Zufallsvariablen X; Y mit cov (X; Y ) = 0 heissen unkorreliert. Lemma 4.16 Sind X; Y 2 L2 , so ist die Kovarianz cov(X; Y ) de…niert. Beweis. Dies folgt aus der Schwarzschen Ungleichung. Aus der Schwarzschen Ungleichung folgt sofort p p jcov (X; Y )j var (X) var (Y ) = X Y: Manchmal betrachtet man die normierte Kovarianz, den sogenannten Korrelationskoe¢ zienten: def cov (X; Y ) ; X;Y = X Y welcher nach der obigen Überlegung stets zwischen 1 und 1 liegt. Zufallsvariablen, für die cov (X; Y ) positiv ist, nennt man positiv korreliert, und für cov (X; Y ) < 0 negativ korreliert. O¤enbar ist für eine eindimensionale Zufallsgrösse X : var (X) = cov (X; X) : Ist X ein Zufallsvektor, als Spaltenvektor geschrieben, so ist (X) = E((X EX)(X EX)T ): 72 Lemma 4.17 Die Kovarianzmatrix eines Zufallsvektors ist symmetrisch und positiv semide…nit. Beweis. Die Symmetrie ist o¤ensichtlich. Ferner gilt alle 0 Xn E i=1 i (Xi E(Xi )) 2 = n X n X 1; : : : ; i j n 2R cov(Xi ; Xj ): i=1 j=1 Daraus folgt die De…nitheit. Beispiel 4.18 a) Sei X standardnormalverteilt. Dann gilt für i 2 f1; : : : ; ng E(Xi ) = (2 ) n=2 Z xi exp Rn 1 Xn x2 k=1 k 2 Für alle i; j 2 f1; : : : ; ng mit i 6= j gelten Z n=2 xi xj exp E(Xi Xj ) = (2 ) Rn n (dx) = 0: 1 Xn x2 k=1 k 2 n (dx) 1 Xn x2 k=1 k 2 n (dx) =0 und E(Xi2 ) n=2 = (2 ) 1=2 = (2 ) Z Z Rn R das heisst, x2i exp x2i e x2i =2 (dxi ) = 1; (X) ist die Einheitsmatrix. b) Sei X ein n-dimensionaler Zufallsvektor mit Kovarianzmatrix (X) und Erwartungswert a 2 Rn : Sei ferner A eine m n-Matrix und b 2 Rm . Wir de…nieren den m-dimensionalen Zufallsvektor Y durch Y = AX + b: Dann gelten EY = Aa + b (Y ) = E((Y EY )(Y EY )T ) = E(A (X a) (X a)T AT ) = A (X) AT : Speziell sehen wir für die in De…nition 3.60 b) eingeführte allgemeine Normalverteilung, dass die Kovarianzmatrix gleich AAT und der Vektor der Erwartungswerte gleich b ist. Lemma 4.19 a) Sind X1 ; : : : ; Xn Zufallsvariablen 2 L2 ; so gilt var Xn i=1 Xi = Xn i=1 var (Xi ) + 2 X 1 i<j n 73 cov (Xi ; Xj ) : b) Sind die Xi unkorreliert, so gilt var Beweis. b) folgt sofort aus a). a): var Xn i=1 Xi Xn i=1 Xi = Xn = E i=1 Xn = E Xn i=1 Xn Xi (Xi i=1 E var (Xi ) : Xn i=1 EXi ) Xi 2 2 (Xi EXi ) (Xj EXj ) = E i;j=1 Xn E ((Xi EXi ) (Xj EXj )) = i;j=1 X Xn cov (Xi ; Xj ) : var (Xi ) + 2 = i 4.2 1 i<j n Charakteristische Funktionen De…nition 4.20 Sei ein Wahrscheinlichkeitsmass auf (Rn ; Bn ). Die charakteristische Funktion ^ von ist die Abbildung von Rn nach C, die durch Z Z Z ^ (t) = eiht;xi (dx) = cos(ht; xi) (dx) + i sin(ht; xi) (dx); t 2 Rn ; Pn de…niert wird. Dabei bezeichnet i die imaginäre Einheit und ht; xi = j=1 tj xj ist das Skalarprodukt von t und x. Die charakteristische Funktion eines Zufallsvektors X ist die charakteristische Funktion der Verteilung von X; sie kann nach Lemma ?? als E(exp(iht; Xi)) geschrieben werden. Die charakteristische Funktion eines Zufallsvektors X (oder einer reellen Zufallsgrösse X) bezeichnen wir oft mit X : Die charakteristische Funktion ist o¤enbar für alle t 2 Rn de…niert, da Sinus und Cosinus beschränkt sind. Lemma 4.21 ^ ist stetig und erfüllt ^ (0) = 1: Ferner gilt j^ (t)j 1: Beweis. ^ (0) = 1 ergibt sich aus der De…nition. Stetigkeit folgt aus dem Satz von Lebesgue. j^ (t)j 1 folgt aus Z Z Z iht;xi iht;xi e (dx) e (dx) = (dx) = 1: 74 Bemerkung 4.22 Ist invariant unter Spiegelung am 0-Punkt, d.h. gilt Abbildung (x) = x ist, so gilt Z ^ (t) = cos(ht; xi) (dx): 1 = ; wobei : Rn ! Rn die Daraus folgt, dass ^ (t) in diesem Fall reellwertig ist. Beweis. Z sin(ht; xi) (dx) = = Somit ist R Z 1 sin(ht; xi) (dx) = Z sin(ht; xi) (dx): Z sin(ht; xi) (dx) sin(ht; xi) (dx) = 0: Satz 4.23 Es seien ; zwei Wahrscheinlichkeitsmasse auf (Rn ; Bn ). Gilt ^ (t) = ^(t) für alle t 2 Rn , so gilt = . Beweis. Da die Familie der kompakten Mengen in Rn ein durchschnittstabiles Erzeugendensystem von Bn ist (Lemma 3.20 e)), genügt es nach Satz 3.14 nachzuweisen, dass (K) = (K) für alle kompakten Mengen K gilt. Für eine derartige Menge K und m 2 N sei 8 > falls x 2 K; <1 fm (x) = 0 falls d(x; K) := inff jx yj : y 2 K g 1=m; > : 1 m d(x; K) sonst. Dann hat fm die folgenden Eigenschaften: 1. 0 fm (x) 1 für alle x 2 Rn , 2. fm ist stetig, 3. fm hat kompakten Träger, 4. fm (x) # 1K (x) für m ! 1. R R Falls fm d = fm d für alle m 2 N gilt, Rso folgt R(K) = (K) mit dem Satz von Lebesgue. Es genügt also nachzuweisen, dass f d = f d für alle f gilt, die die obigen Bedingungen 1.-3. erfüllen. Sei also f eine derartige Funktion. Für " > 0 sei N > 0 so gross gewählt, dass BN := [ N; N ]n f x : f (x) 6= 0 g c ); (B c )g und maxf (BN " gelten. Nach dem Weierstrassschen Approximationssatz N P gibt es eine Funktion g : Rn ! C der Form g(x) = m c exp(ih j j=1 N tj ; xi) mit cj 2 C 75 und tj 2 Zn , die periodisch in jeder Komponente ist und f in BN bis auf " approximiert, das heisst, supf jf (x) g(x)j : x 2 BN g ". Es folgen supx2Rn jg(x)j 1 + " und Z Z Z Z Z Z Z Z fd fd fd gd + gd gd + gd fd : Der zweite Summand ist nach der Voraussetzung ^ = ^ gleich null. Der erste Summand kann wegen jg(x)j 1 + " und jf (x)j 1 für alle x 2 R folgendermassen abgeschätzt werden: Z Z Z Z Z Z fd gd fd jgj d gd + jf j d + Z BN BN jf BN c BN c BN c gj d + (1 + ") (BN ) c " (BN ) + (1 + ") (BN ) "(2 + "): Der dritte Summand wird analog abgeschätzt. Da " > 0 beliebig war, folgt R fd . R fd = Beispiel 4.24 a) Sei die Standardnormalverteilung. Dann gilt Z 1 Z 1 1 1 2 itx x2 =2 t2 =2 e (x it) =2 dx; t 2 R: ^ (t) = p e e dx = p e 2 2 1 1 p Das Integral ergibt 2 (einfache Übungsaufgabe aus der Funktionentheorie). So2 mit gilt ^ (t) = e t =2 . Man kann das Argument via die Funktionentheorie umgehen: Zunächst bemerkt man, dass Z 1 Z 1 1 1 2 2 cos (x) e x =2 dx + i p sin (x) e x =2 dx: ^ (t) = p 2 2 1 1 Da der Sinus eine ungerade Funktion ist, folgt, dass das zweite Integral 0 ist. ^ (t) ist somit reellwertig und erfüllt natürlich ^ (0) = 1: Wir betrachten die Ableitung d^ (t)=dt: Es ist einfach zu sehen, dass die Di¤erentiation mit dem Integral vertauscht: Z 1 d^ (t) 1 2 =p ixeitx e x =2 dx: dt 2 1 2 2 Wegen de x =2 =dx = xe x =2 können wir partiell integrieren. Dass die Randterme verschwinden folgt aus dem raschen Abfall der Glockenfunktion: Z 1 Z 1 itx Z 1 de 2 2 2 ixeitx e x =2 dx = i e x =2 dx = t eitx e x =2 dx dx 1 1 1 = t^ (t): 76 Wir erhalten also, dass ^ (t) die Di¤erentialgleichung ^ 0 (t) = t^ (t) : Diese Di¤erentialgleichung lässt sich durch Separation der Variablen lösen und mit ^ (0) = 1 2 folgt ^ (t) = e t =2 : b) Sei die Cauchy-Verteilung zum Parameter c > 0. Dann gilt Z c 1 itx dx ^ (t) = e ; t 2 R: c2 + x2 1 Die Funktion C 3 z 7! ergibt ^ (t) = e cjtj .6 c) Sei 1 c2 +z 2 hat Pole in ic. Eine Anwendung des Residuensatzes die Standardnormalverteilung in (Rn ; Bn ). Dann folgt ^ (t) = exp 1 Xn 2 t =e j=1 j 2 ht;ti=2 für alle t = (t1 ; : : : ; tn ) 2 Rn : 1 d) Die allgemeine Normalverteilung ist das Bildmass = der Standardnormaln verteilung unter einer a¢ nen Transformation R 3 x 7! (x) = Ax + b 2 Rn . Bezeichnet AT die Transponierte von A, so gilt Z Z Z T iht;xi iht; (x)i iht;bi ^(t) = e (dx) = e (dx) = e eihA t;xi (dx) = eiht;bi ^ (AT t) = eiht;bi e mit hAT t;AT ti=2 = AAT als der Kovarianzmatrix von = exp iht; bi 1 ht; ti ; 2 (siehe Beispiel 4.18 b)). Satz 4.25 Für jedes b 2 Rn und jede positiv semide…nite, symmetrische n n-Matrix gibt es genau eine Normalverteilung auf Rn mit b als Erwartungswert und als Kovarianzmatrix. Beweis. Die Eindeutigkeit folgt aus Satz 4.23 und der Rechnung im obigen Beispiel. Die Existenz folgt daraus, dass mindestens eine n n-Matrix A existiert mit AAT = , wenn eine nicht negative symmetrische Matrix ist. Korollar 4.26 Sei die Normalverteilung auf Rn mit Kovarianzmatrix und a 2 Rn als Vektor der Erwartungswerte, und sei : Rn ! Rm eine a¢ ne Abbildung, d.h. eine Abbildung der 1 Form x ! (x) := Ax + b; A eine m n-Matrix und b 2 Rm : Dann ist die m Normalverteilung auf R mit Erwartungswert Aa + b und der Kovarianzmatrix A AT : 6 In diesem Beispiel kenne ich keinen Beweis, der komplexe Funktionentheorie vermeidet. 77 Beweis. [ ' 1 (t) = Z e iht;xi = eiht;bi Z 1 ' (dx) = T t;xi eihA Z eiht;Ax+bi (dx) (dx) = eiht;bi exp ihAT t; ai 1 T hA t; AT ti 2 1 ht; A AT ti : 2 = exp iht; Aa + bi Nun folgt die Aussage aus dem vorangegangen Satz und Beispiel 4.24 d). 4.3 Konvergenz von Folgen von Zufallsgrössen Im folgenden sei fXn gn2N eine Folge von Zufallsgrössen, die auf demselben Wahrscheinlichkeitsraum ( ; F; P ) de…niert sind. In der Wahrscheinlichkeitstheorie sind drei Konvergenzbegri¤e besonders wichtig. De…nition 4.27 a) Die Folge fXn gn2N konvergiert fast sicher gegen eine Zufallsgrösse X, falls P (f ! 2 : lim Xn (!) = X(!) g) = 1 n!1 gilt (Notation: Xn ! X P -fast sicher). b) Die Folge fXn gn2N Lp ( ; F; P ) konvergiert im p-ten Mittel (p > 0) gegen eine Zufallsgrösse X, falls X 2Lp ( ; F; P ) und lim E(jXn n!1 Xjp ) = 0 gilt. c) Die Folge fXn gn2N konvergiert in Wahrscheinlichkeit gegen eine Zufallsgrösse X, falls P (jXn Xj ") ! 0 für n ! 1 für alle " > 0 gilt. Satz 4.28 a) Fast sichere Konvergenz impliziert Konvergenz in Wahrscheinlichkeit. b) Konvergenz im p-ten Mittel impliziert Konvergenz in Wahrscheinlichkeit. Beweis. Der Beweis von b) folgt sofort aus der Marko¤-Ungleichung. a): Sei Yn = 1fjXn Xj "g für " > 0. Gilt Xn ! X fast sicher, so gilt Yn ! 0 fast sicher. Wegen jYn j 1 folgt aus dem Satz von Lebesgue P (jXn Xj ") = E(Yn ) ! 0: Die anderen denkbaren Implikationen sind nicht richtig, wie die folgenden zwei Beispiele belegen: 78 Beispiel 4.29 Sei ( ; F; P ) = ([0; 1]; B[0;1] ; ). a) Wähle Xn = n1=p 1[0;1=n] für p > 0. Dann gilt Xn ! 0 fast sicher und in Wahrscheinlichkeit, aber E(jXn jp ) = 1 für alle n 2 N, das heisst, fXn gn2N konvergiert nicht im p-ten Mittel gegen null. b) Ist n = 2m + k für m 2 N0 und 0 k < 2m , so setzt man Xn = 1[k2 m ;(k+1)2 m ] . O¤enbar konvergiert die Folge fXn (!)gn2N für kein ! 2 [0; 1]. Andererseits gelten P (jXn j ") 2 m für alle " > 0 und E(jXn jp ) = 2 m für p > 0, das heisst fXn gn2N konvergiert gegen null in Wahrscheinlichkeit und im p-ten Mittel. Unter Zusatzbedingungen impliziert die fast sichere Konvergenz die Konvergenz im p-ten Mittel: Satz 4.30 Sei fXn gn2N eine Folge von Zufallsgrössen, die fast sicher gegen X konvergiert. Gilt jXn j Y fast sicher für eine Zufallsgrösse Y 2 Lp (für p > 0), so gilt Xn ! X im p-ten Mittel. Beweis. Es gelten jXn Xjp (jXn j + jXj)p (2Y )p 2p Y p 2 L1 und jXn Xjp ! 0 fast sicher. Daher folgt aus dem Satz von Lebesgue E(jXn Xjp ) ! 0. Wie aus Beispiel 4.29 b) hervorgeht, folgt aus der Konvergenz in Wahrscheinlichkeit nicht die fast sichere Konvergenz. Es gilt aber der folgende Satz: Satz 4.31 Sei fXn gn2N eine Folge von Zufallsgrössen, die in Wahrscheinlichkeit gegen X konvergiert. Dann existiert eine Teilfolge fXnk gk2N mit limk!1 Xnk = X fast sicher. Zum Beweis benötigt man das folgende sehr einfache, aber wichtige Lemma. Lemma 4.32 (1. Borel-Cantelli-Lemma) P Sei fAn gn2N eine Folge von Ereignissen mit 1 n=1 P (An ) < 1. Dann gilt P (lim supn!1 An ) = 0. S Beweis. Aus Bk := 1 n=k An # lim supn!1 An und Satz 3.11 a) und c) folgt P (lim sup An ) = lim P (Bk ) n!1 k!1 lim k!1 1 X P (An ) = 0: n=k Beweis von Satz 4.31. Zu jedem k 2 N existiert nach Voraussetzung ein nk 2 N 2 mit P1 P (jXn2k Xj 1=k) 1=k . Wir können nk+1 > nk für alle k 2 N annehmen. Da Xj 1=k g) = 0 aus Lemma 4.32. Für k=1 1=k < 1 gilt, folgt P (lim supk!1 f jXnk !2 = lim supk!1 f jXnk Xj 1=k g gilt jXnk (!) X(!)j < 1=k für genügend grosse k, das heisst limk!1 Xnk (!) = X(!). 79 Bemerkung 4.33 Alle drei Konvergenztypen sind vollständig, das heisst, dass jede Cauchy-Folge konvergiert. Für die fast sichere Konvergenz ist das klar, denn wenn Xn Xm ! 0 fast sicher für n; m ! 1 gilt, dann folgt aufgrund der Vollständigkeit von R, dass fXn (!)gn2N für fast alle ! 2 konvergiert. Mit Hilfe von Lemma 4.32 folgt das Entsprechende für die Konvergenz in Wahrscheinlichkeit: Satz 4.34 Sei fXn gn2N eine Folge von Zufallsgrössen mit lim P (jXn Xm j n;m!1 ") = 0 für alle " > 0. Dann existiert eine Zufallsgrösse X mit Xn ! X in Wahrscheinlichkeit. Beweis. Wähle wie im Beweis des vorangegangenen Satzes eine Teilfolge fnk gk2N nun aber mit P (f jXnk Xnk+1 j 1=k 2 g) 1=k 2 : Aus dem Borel-Cantelli-Lemma folgt P lim supf jXnk Xnk+1 j k!1 1=k 2 g = 0: Für ! 2 = lim supk!1 f jXnk Xnk+1 j 1=k 2 g ist fXnk (!)gk2N o¤enbar eine CauchyFolge in R, das heisst, Xnk konvergiert für k ! 1 fast sicher gegen eine Zufallsgrösse X, also nach Satz 4.28 auch in Wahrscheinlichkeit. Für " > 0 gilt P (jXm Xj ") P (jXm Xnk j "=2) + P (jXnk für alle m und k. Wählt man k als die kleinste Zahl mit nk lim P (jXm Xj m!1 Xj "=2) m, dann folgt ") = 0: Für die Konvergenz im p-ten Mittel gilt die Vollständigkeit auch, soll aber hier nicht bewiesen werden. (Dies sollte aus der Analysis bekannt sein, zumindest für das Lebesgue Mass.) 4.4 Unabhängigkeit Es sei ( ; F; P ) ein Wahrscheinlichkeitsraum. Im folgenden wird von Familien von Teilmengen von stets stillschweigend vorausgesetzt, dass sie enthalten. De…nition 4.35 a) Teilmengen E1 ; : : : ; En von F (mit 2 Ei !) heissen unabhängig, wenn für Ai 2 Ei , 1 i n, die folgende Gleichung gilt: P (A1 \ \ An ) = P (A1 ) 80 P (An ): (4.1) b) Seien eine Indexmenge I und Ei für i 2 I Teilmengen von F. Sie heissen unabhängig, wenn je endlich viele unabhängig sind. c) Ereignisse Ai für i 2 I heissen unabhängig, wenn die Mengensysteme fAi ; g, i 2 I, unabhängig sind. Notation: Für zwei unabhängige Teilmengen E1 , E2 von F schreiben wir E1 ? E2 . Die Voraussetzung, dass die Mengensysteme stets enthalten, dient nur der bequemen Notation. Dies hat nämlich zur Folge, dass für unabhängige Mengensysteme E1 ; : : : ; En auch stets k Y \ Aik ) = P (Aij ) (4.2) P (Ai1 \ j=1 für fi1 ; : : : ; ik g f1; : : : ; ng und Aij 2 Eij ist. Setzt man 2 Ei nicht voraus, so muss man (4.2) als De…nition verwenden, was o¤ensichtlich stets einen grösseren Schreibaufwand erfordert. Lemma 4.36 a) Sind die Ei für i 2 I unabhängig und gilt Di unabhängig. S b) Gilt D ? Ei für i 2 I, so gilt D ? i2I Ei . Ei für i 2 I, so sind die Di für i 2 I Beweis. a) ist klar. S b) Für A 2 D und B 2 i2I Ei existiert ein i 2 I mit B 2 Ei , das heisst, dass P (A \ B) = P (A)P (B) gilt. Wir diskutieren nun einige Möglichkeiten, Unabhängigkeitsaussagen von Mengensystemen auf grössere Mengensysteme hochzuziehen. Satz 4.37 Es seien Di für i 2 I unabhängige Teilmengen von F (stets durchschnittstabil, so sind die (Di ) für i 2 I unabhängig. 2 Di ). Sind die Di Beweis. Es genügt den Satz zu zeigen, wenn I endlich ist. Sei etwa I = f1; : : : ; ng. Wir müssen (4.1) für Ai 2 (Di ) nachweisen. Für 0 k n sei Lk die folgende Aussage: P (A1 \ \ An ) = P (A1 ) P (An ); 8Ai 2 (Di ) f u •r i k; 8Ai 2 Di f u •r i > k: Die Aussage L0 gilt wegen der Unabhängigkeit der Di . Wir zeigen Lk ) Lk+1 für 0 k n 1. Wir betrachten dazu das Mengensystem Ak+1 bestehend aus den Mengen Ak+1 2 (Dk+1 ); die die Eigenschaft haben, dass die Gleichung (4.1) für 8A1 2 (D1 ); : : : ; 8Ak 2 (Dk ); 8Ak+2 2 Dk+2 ; : : : ; 8An 2 Dn gilt Aus Lk folgt Ak+1 Dk+1 . Wir zeigen, dass Ak+1 ein Dynkin-System ist. (i) 2 Ak+1 gilt wegen 2 Dk+1 . 81 (ii) Für D 2 Ak+1 gilt 0 1 0 1 k n k n \ \ \ \ P@ Aj \ D c \ Aj A = P @ Aj \ Aj A j=1 j=k+2 = Y j=1 P (Aj ) j=k+2 P (D) j:j6=k = Y Y 0 P@ k \ j=1 Aj \ D \ P (Aj ) n \ j=k+2 Aj A j:j6=k P (Aj ) P (Dc ): j:j6=k für alle Ai gemäss den obigen Bedingungen, das heisst Dc 2 Ak+1 . S (iii) Für paarweise disjunkte Di 2 Ak+1 , i 2 N, folgt analog 1 i=1 Di 2 Ak+1 . Nach Satz 3.8 folgt Ak+1 = (Dk+1 ), das heisst, dass Lk+1 gilt. Bemerkung 4.38 Da das Mengensystem fA; g durchschnittstabil ist, folgt, wenn die Ereignisse Ai für i 2 I unabhängig sind, dass auch die -Algebren f;; Ai ; Aci ; g unabhängig sind; insbesondere dann auch die Komplemente Aci . Korollar 4.39 Es seien Di F für i 2 I unabhängig und durchschnittstabil. Es sei S(Ik )k2K eine Familie von paarweise disjunkten Teilmengen von I. Dann sind die ( j2Ik Dj ) für k 2 K unabhängig. ^ k die Familie der endlichen Durchschnitte von Elementen aus Beweis. Für k 2 K sei D ^ k ist o¤enbar durchschnittstabil, und da die Dj Dj für j 2 Ik . Das Mengensystem D ^ k die Gestalt Aj \ durchschnittstabil sind, hat jedes Element aus D \ Ajn mit n 2 N, 1 ^ k für k 2 K Aj 2 Dj und verschiedenen j1 ; : : : ; jn 2 Ik . Daraus folgt sofort, dass die D S ^ ^ unabhängig sind. Da Dk Dj für alle j 2 Ik ist, gilt ( j2Ik Dj ) = (Dk ). Das Lemma folgt nun aus Satz 4.37. Als Folgerung ergibt sich das folgende verblü¤ende Resultat mit einem ebenso verblüffenden Beweis: Satz 4.40 (Kolmogoro¤s 0-1-Gesetz) Sei fFn gn2N eine Folge von unabhängigen Teil- -Algebren Fn von F. Seien Fn := W1 T1 k=n Fk und T1 = n=1 Fn . Für A 2 T1 gilt P (A) 2 f0; 1g. T1 heisst die -Algebra der terminalen Ereignisse der Folge fFn gn2N oder auch terminale -Algebra der Fn . W Beweis. Nach Korollar 4.39 gilt Fn+1 ? nk=1 Fk , also nach Lemma 4.36 W S1 a): WnT1 ? n F für alle n 2 N. Somit gilt nach Teil b) desselben Lemmas T ? 1 k=1 k n=1 k=1 Fk . 82 1 Da die rechte Seite als Vereinigung einer aufsteigenden Folge von schnittstabil ist, folgt nach Satz 4.37 ! 1 _ n 1 [ _ T1 ? Fk = Fn : n=1 k=1 -Algebren durch- n=1 W1 W1 Nun ist aber Fn k=1 Fk für alle n 2 N, also auch T1 n=1 Fn . Nach Lemma 4.36 folgt also T1 ? T1 , das heisst, für A 2 T1 gilt P (A) = P (A \ A) = P (A)2 , das heisst P (A) 2 f0; 1g. Teil- -Algebren T F in einem Wahrscheinlichkeitsraum ( ; F; P ), die die Eigenschaft haben, dass P (A) 2 f0; 1g für alle A 2 T ist, spielen in der Wahrscheinlichkeitstheorie eine grosse Rolle. Die einfachste derartige Teil- -Algebra ist natürlich f;; g. T1 aus dem obigen Satz ist jedoch im allgemeinen sehr viel grösser als f;; g. Dennoch ist P eingeschränkt auf T1 gewissermassen trivial. Ereignisse, die in T1 liegen, sind gewissermassen „nicht mehr zufällig“. Dieser Aspekt spiegelt sich auch in dem nachfolgenden Lemma über Zufallsgrössen wieder: Lemma 4.41 Es sei T F eine -Algebra mit P (A) 2 f0; 1g für alle A 2 T . Ist Z eine (R; B)-wertige, T -messbare Zufallsgrösse, so existiert ein c 2 R mit P (Z = c) = 1. Beweis. Sei F (t) = P (Z t), so ist F (t) 2 f0; 1g für t 2 R. Die Funktion F ist nichtfallend. Demzufolge sind drei Fälle möglich: 1. F (t) = 0 für alle t 2 R ) P (Z > n) = 1 für alle n ) P (Z = 1) = 1. 2. F (t) = 1 für alle t 2 R ) P (Z n) = 1 für alle n ) P (Z = 1) = 1. 3. F springt an einer Stelle t0 2 R von 0 nach 1. Dann gilt F t0 + 1 n F t0 1 n =P Z2 t0 1 1 ; t0 + n n Somit ist dann P (Z = t0 ) = limn!1 P (Z 2 (t0 1 n; = 1 für alle n 2 N: t0 + n1 ]) = 1. Wir werden Anwendungen von Satz 4.40 weiter unten diskutieren. Wir diskutieren nun Unabhängigkeit im Zusammenhang mit Zufallsvariablen. Wir fassen den Begri¤ „Zufallsvariable“ etwas weiter als bisher. Ist (S; S) ein messbarer Raum, so nennen wir eine messbare Abbildung X : ! S eine (S; S)-wertige Zufallsgrösse. Konvention: Wir sprechen von Zufallsvariablen im Falle (S; S) = (R; B) : De…nition 4.42 Seien Xi , i 2 I, auf dem Wahrscheinlichkeitsraum ( ; F; P ) de…nierte (Si ; Si )-wertige Zufallsgrössen. Die Xi heissen unabhängig, wenn die Teil- -Algebren Xi 1 (Si ) unabhängig sind. (Die Xi müssen auf demselben Wahrscheinlichkeitsraum de…niert sein, damit die Aussage einen Sinn hat. Hingegen können die (Si ; Si ) verschieden sein.) 83 Notation: Sind zwei Zufallsgrössen unabhängig, so schreiben wir X ? Y . Lemma 4.43 Xi ; i 2 I seien auf einem Wahrscheinlichkeitsraum ( ; F; P ) de…nierte Zufallsgrössen mit Werten in (Si ; Si ): a) Sind Di F für i 2 I unabhängig und sind die Xi Di -Si -messbar, so sind diese unabhängig. b) Sind die Xi unabhängig und sind 'i : Si ! Si0 Si -Si0 -messbare Abbildungen (Si0 -Algebren auf Si ); so sind die 'i Xi ebenfalls unabhängig. c) Etwas allgemeiner: Die Xi seien wieder unabhängig und Ik ; k 2 K; seien paarweise disjunkte Teilmengen von I: Ferner sei für jedes k 2 K eine messbare Abbildung Q 0 0 0 : sind. Die Messbarkeit k i2K Si ! Sk gegeben, wobei (Sk ; Sk ) messbare Räume Q von k bezieht sich auf die Produkt- -Algebra auf i2K Si : Wir de…nieren die Abbildung Yk := k (Xi )i2IK ; Q wobei (X ) die Abbildung ! i i2K Si de…niert durch ! ! (Xi (!))i2Ik 2 i2I K Q i2K Si ist. Dann sind die Zufallsgrössen Yk ; k 2 K unabhängig. d) Die Xi sind genau dann unabhängig, wenn für jede endliche Teilmente fi1 ; : : : ; in g I sowie A1 2 Si1 ; : : : ; An 2 Sin die Gleichung P (Xi1 2 A1 ; : : : ; Xin 2 An ) = n Y j=1 P (Xij 2 Aj ) (4.3) gilt. Beweis. Die Aussagen folgen alle unmittelbar aus den De…nitionen, c) unter Verwendung von Korollar 4.39. Bemerkung 4.44 Im Falle einer endlichen Familie X1 ; : : : ; Xn von Zufallsgrössen ist die Bedingung (4.3) äquivalent damit, dass für Aj 2 Sj ; j = 1; : : : ; n; die Gleichung P (X1 2 A1 ; : : : ; Xn 2 An ) = n Y j=1 P (Xj 2 Aj ) (4.4) gilt. Aus (4.3) folgt o¤ensichtlich (4.4). Umgekehrt, können wir in (4.4) auch einzelne der Aj gleich Sj wählen, sodass wir (4.3) erhalten. Im Spezialfall reeller Zufallsvariablen Xi ergibt sich das folgende Kriterium für die Unabhängigkeit: 84 Lemma 4.45 Zufallsvariablen Xi , i 2 I, sind genau dann unabhängig, wenn für alle n 2 N, i1 ; : : : ; in 2 I und t1 ; : : : ; tn 2 R P (Xi1 t1 ; : : : ; Xin tn ) = n Y P (Xij tj ) j=1 gilt. Beweis. f Xi 1 (( 1; t]) : t 2 R g [ f g ist ein durchschnittstabiles Erzeugendensystem von Xi 1 (B). Die Behauptung folgt aus Satz 4.37. Eine andere Folgerung aus der Unabhängigkeit ist Satz 4.46 Es seien X, Y zwei unabhängige reelle Zufallsgrössen. a) Falls X und Y nichtnegativ sind, so gilt E(XY ) = E(X)E(Y ). b) Sind X; Y 2 L1 , so gilt XY 2 L1 und E(XY ) = E(X)E(Y ), d.h. es gilt cov (X; Y ) = 0: Beweis. a): Es seien F1 := X 1 (B) und F2 := Y 1 (B). Dann gilt F1 ? F2 . Für A 2 F1 erfüllt die Menge der nichtnegativen F2 -messbaren Zufallsgrössen Y 0 mit E(1A Y 0 ) = P (A)E(Y 0 ) die Eigenschaften (i)-(iii) von Satz 3.36. Demzufolge gilt diese Gleichung für alle nichtnegativen F2 -messbaren Y 0 , also insbesondere für Y selbst. Die Menge der nichtnegativen F1 -messbaren Zufallsgrössen X 0 mit E(X 0 Y ) = E(X 0 )E(Y ) erfüllt ebenfalls die Bedingungen von Satz 3.36. Das gleiche Argument wie oben belegt, dass diese Gleichung für X 0 = X gilt. b): Aus X ? Y folgt jXj ? jY j. Somit folgt aus Teil a), dass gilt: E(jXY j) = E(jXj)E(jY j) < 1, wenn X; Y 2 L1 sind, das heisst XY 2 L1 . Die Gleichung E(XY ) = E(X)E(Y ) folgt, indem X und Y in Positiv- und Negativteil zerlegt werden. Besonders nützlich für die Untersuchung von unabhängigen Zufallsgrössen sind charakteristischen Funktionen. Satz 4.47 Es seien X, Y zwei unabhängige Zufallsgrössen mit charakteristischen Funktionen XX beziehungsweise XY . Dann ist XX XY die charakteristische Funktion von X + Y . Beweis. Für alle t 2 R gilt E(eit(X+Y ) ) = E(eitX eitY ) = E(eitX )E(eitY ); da eitX ? eitY gilt. Der Beweis ist insofern unvollständig, als Satz 4.46 nur für reellwertige Zufallsgrössen bewiesen wurde. Eine Zerlegung in Real- und Imaginärteil liefert jedoch sofort die entsprechende Aussage für komplexwertige Zufallsgrössen. Konstruktion von unabhängigen Zufallsgrössen 85 Seien Xi Zufallsgrössen, die auf demselben Wahrscheinlichkeitsraum ( ; F; P ) de…niert sind, wobei Xi Werte in (Si ; Si ) annimmt. Typischerweise wird (Si ; Si ) = (R; B) sein, aber wir müssen das nicht voraussetzen. Der Index i ist entweder aus der endlichen Mengen f1; : : : ; ng oder in N: Q Die Xi de…nieren einen „Zufallsvektor“ X = fXi gi ; den wir als Abbildung X : ! i Si au¤assen können. Wie wir schon früher gesehen N hatten, ist X eine F- i Si -m.b. Abbildung. Wir können die Verteilungen i = P Xi 1 ; d.h. die Verteilung der Q einzelnen N Grössen auf (Si ; Si ) betrachten, sowie die gemeinsame Verteilung P X 1 auf ( i Si ; i Si ) : Proposition 4.48 Die Xi sind genau dann unabhängig, wenn PX 1 = gilt. O i i Beweis. Wir betrachten zunächst den Fall einer endlichen Indexmenge: i = 1; : : : ; n: Da die Mengen der Form A1 An ; Ai 2 Si ein durchschnittstabiles Erzeugendensystem N von i Si bilden, gilt die obige Gleichung genau dann, wenn O P X 1 (A1 An ) = An ) : i (A1 i Die linke Seite ist P (X1 2 A1 ; : : : ; Xn 2 An ) und die rechte Seite Yn Yn (A ) = P (Xi 2 Ai ) : i i i=1 i=1 Die Behauptung folgt nun aus Bemerkung 4.44. Im Falle einer unendlichen Folge müssen wir einfach die De…nition des unendlichen Produktmasses verwenden: Einerseits sind die Xi ; i 2 N; genau dann unabhängig, wenn für jedes n die Grössen X 1 ; : : : ; Xn unabhängig sind. Anderseits ist ein WahrscheinlichQ N 1 = keitsmass Q auf ( i Si ; i Si ) genau dann das Produktmasse der i ; wenn Q 1;n n für jedes n gilt, wobei 1;n die in Kapitel 3.7 eingeführten Projektionen Q Q1 n S ! i2N i i=1 Si sind. Zusammen mit der Konstruktion von unendlichen Produktmassen aus Kapitel 3.7 ergibt die obige Proposition die Konstruktion von Folgen von unabhängigen Zufallsgrössen mit beliebig vorgegebenen Verteilungen: (Si ; Si ; i ) ; i 2 N; beliebige Q EsNseien N Wahrscheinlichkeitsräume. Sei ( ; F; P ) = ( i Si ; i Si ; i i ) der Produktraum gemäss Korollar 3.72. Ferner seien die Xi die Projektionen ! Si : Dann sind diese 1 Zufallsgrössen unabhängig und P Xi = i gilt für alle i 2 N: Entsprechend erfolgt die Konstruktion von endlich vielen unabhängigen Zufallsgrössen. Ein triviales Beispiel (welches die ganze Masstheorie nicht erfordert) ist die Konstruktion des sogenannten Bernoulli-Experiments. Hier konstruieren wir eine endliche Folge von unabhängigen Kopf-Zahl-Folgen, wobei wir auch gezinkte Münzen zulassen. Ausgangspunkt ist der Wahrscheinlichkeitsraum fK; Zg versehen mit der diskreten Verteilung p (K) = p; p (Z) = 1 p; wobei p 2 [0; 1] ein Parameter ist. Mit = fK; Zgn ; F 86 der Potenzmenge, und P dem Produktmass sind die Projektionen von auf die einzelnen Faktoren unabhängige Zufallsgrössen. P ist natürlich einfach gegeben durch p)n P ((x1 ; : : : ; xn )) = pk (1 k ; wobei k die Anzahl der „Köpfe“ in der Folge (x1 ; : : : ; xn ) 2 fK; Zgn ist. Eine wichtige Zufallsvariable, die auf dem Bernoulli-Experiment de…niert ist, ist die „Anzahl der Erfolge“, wobei wir „Kopf“ als Erfolg deklarieren. Wir setzen also Sn := n X i=1 1fXi =Kg : Die Verteilung von Sn ist natürlich P (Sn = k) = n k p (1 k p)n k : Man nennt diese Verteilung die Binomialverteilung mit Parametern p; n; und schreibt sie als n k b (k; n; p) = p (1 p)n k : k Hier noch der Erwartungswert und die Varianz der Binomialverteilung: Proposition 4.49 Ist Sn binomialverteilt mit Parametern n; p; so gilt ESn = np und var (Sn ) = np (1 Beweis. ESn = n X i=1 p) : E1fXi =Kg = np; und wegen der Unabhängigkeit der 1fXi =Kg : var Sn = n X i=1 var 1fXi =Kg var 1fXi =Kg = n var 1fXi =Kg ; = E 1fXi =Kg = p 2 p2 = p (1 E1fXi =Kg 2 p) : Wir können auch das unendlich lange Bernoulli-Experiment de…nieren, indem wir = fK; ZgN setzen, versehen mit der Produkt- -Algebra und dem Produktmass. Dann sind die Xi : ! fK; Zg ; i 2 N; unabhängig. Wir können die Sache jedoch weiter verallgemeinern, indem die Wahrscheinlichkeit für „Kopf“ für jeden Indes i verschieden ist. 87 Noch allgemeiner: Seien i beliebige N Wahrscheinlichkeitsmasse auf (R; B) ; i 2 N: Wir N N de…nieren ( ; F; P ) := R ; B ; i2N i und Xi : ! R als die Projektionen auf die einzelnen Faktoren. Dann sind die Xi unabhängige Zufallsvariable mit P Xi 1 = i : Summen von unabhängigen Zufallsvariablen Aus Satz 4.47 und Satz 4.23 folgt , dass die Verteilung von X + Y für unabhängige Zufallsgrössen X, Y nur von den Verteilungen von X und Y abhängt. Man nennt diese Verteilung auch die Faltung der einzelnen Verteilungen. Die Verteilungsfunktion von X + Y kann auch wie folgt berechnet werden: Seien = P X 1 , = P Y 1 . Dann ist nach der obigen Proposition die Verteilung von (X; Y ) gleich und es gilt: Z ft (x; y)( )(d(x; y)) P (X + Y t) = R2 mit ft (x; y) = 1fx+y tg = 1( 1;t y] (x). Nach dem Satz von Fubini ist die rechte Seite gleich Z Z Z FX (t y) (dy); 1( 1;t y] (x) (dx) (dy) = = R R R wobei FX die Verteilungsfunktion von X ist. Hat die Verteilung von X die Dichte f und diejenige von Y die Dichte g bezüglich des Lebesgue Masses, so ergibt sich ! Z Z f (x) (dx) g(y) (dy) P (X + Y t) = R = Z R = Z ( 1;t y] Z ! f (x y) (dx) g(y) (dy) f (x y)g(y) (dy) (dx) : ( 1;t] ( 1;t] Z R Demzufolge hat dann auch die Verteilung von X + Y eine Dichte bezüglich , nämlich die Abbildung Z Z x 7! f (x y)g(y) (dy) = f (y)g(x y) (dy) : R R Charakteristische Funktionen sind für die Berechnung jedoch oft einfacher. Beispiel 4.50 a) Cauchy-Verteilung: Behauptung: Sind X, Y unabhängig und Cauchy-verteilt zum Parameter c > 0, so ist für 2 (0; 1) die Zufallsgrösse X + (1 )Y auch Cauchy-verteilt zum Parameter c > 0. Beweis: Für 2 (0; 1) und t 2 R gilt: X+(1 )Y (t) = E(exp(it( X + (1 = exp( cj tj) exp( cj(1 88 )Y ))) = X( )tj) = e t) cjtj : Y ((1 )t) b) Normalverteilung: Behauptung: Ist X normalverteilt mit Mittelwert a und Varianz 2 , Y normalverteilt mit Parametern a0 , 02 , und gilt X ? Y , so ist X + Y normalverteilt mit Parametern a + a0 und 2 + 02 . Beweis: Für t 2 R gilt: 2 X+Y (t) = X (t) Y (t) = exp iat 1 ( 2 = exp i(a + a0 )t 2 2 02 + t2 exp ia0 t 02 2 t2 )t2 Zum Schluss des Kapitels beweisen wir noch eine partielle Umkehrung des BorelCantelli-Lemmas: Lemma 4.51 (2. Borel-Cantelli-Lemma) P1 Es seien An für n 2 N unabhängige Ereignisse mit n=1 P (An ) = 1. Dann gilt P (lim supn!1 An ) = 1. Beweis. Für n 2 N gilt P [1 m=n Am = 1 =1 1 P \1 lim k!1 lim k!1 = 1: m=n k Y m=n k Y Acm = 1 P (Acm ) =1 m=n k!1 lim k!1 exp [ P (Am )] = 1 m=n \k lim P k Y (1 Acm P (Am )) m=n lim exp k!1 Xk m=n P (Am ) Somit folgt: P (lim sup An ) = P n!1 \ 1 [1 n=1 m=n Am = lim P n!1 [1 m=n Am = 1: Bemerkung 4.52 Man kann auf die Voraussetzung der Unabhängigkeit im obigen Lemma nicht vollständig verzichten. Zum Beispiel gilt mit An = A für alle n 2 N und 0 < P (A) < 1 natürlich P n P (An ) = 1, aber P (lim supn!1 An ) = P (A) < 1. Es gibt jedoch Verallgemeinerungen, die mit stark abgeschwächten Voraussetzungen auskommen. 5 Gesetze der grossen Zahlen Das einfachste Gesetz der grossen Zahlen ist das sogenannte schwache Gesetz, das Aussagen über Konvergenz in Wahrscheinlichkeit macht. 89 Satz 5.1 Xn ; n 2 N; sei eine Folge von Zufallsvariablen in L2 , die alle die gleiche Verteilung haben, und die unkorreliert sind. Dann gilt für jedes " > 0 lim P n!1 wobei = EXi ist. Beweis. Wegen E 1 Xn Xi i=1 n 1 Xn Xi i=1 n = folgt aus der Tschebysche¤-Ungleichung P 1 Xn Xi i=1 n " = = " = 0; 1 Xn EXi = i=1 n 1 1 Xn Xi var 2 i=1 " n Xn 1 1 Xn X = var (Xi ) var i i=1 i=1 " 2 n2 " 2 n2 1 var (X1 ) ; 2 " n was für n ! 1 gegen 0 konvergiert. Bemerkung 5.2 a) Die erste Version des Gesetztes stammt von Jacob P Bernoulli, der das Gesetz für die Binomialverteilung gezeigt hatte, also wenn ni=1 Xi die Anzahl der Erfolge in einem Bernoulli-Experiment ist, d.h. wenn die Xi unabhängig sind mit Werten in f0; 1g und P (Xi = 1) = p: In diesem Fall ist = p und das Gesetz besagt, dass für grosse n die relative Anzahl der Erfolge mit grosser Wahrscheinlichkeit in der Nähe von p ist. Bernoulli kannte die Tschebysche¤-Ungleichung noch nicht und er hat eine detaillierte Analyse der Binomialkoe¢ zienten verwendet. Die Abschätzung der Wahrscheinlichkeiten, die er beweist, ist für diesen Fall wesentlich besser als die Abschätung über die Tschebysche¤-Ungleichung. b) Das Gesetz gilt für unkorreliert Zufallsvariablen unter der schwächeren Voraussetzung Xi 2 L1 ; ist dann jedoch schwieriger zu beweisen. Wir wollen das hier nicht weiter verfolgen. Wir wenden uns nun dem wesentlich schwierigeren starken Gesetz der grossen Zahlen zu. Es gilt nicht mehr nur unter der Voraussetzung der Unkorreliertheit, sondern benötigt die Unabhängikeiten der Zufallsvariablen.7 Zunächst einige einfache Folgerungen aus dem Kolmogoro¤sche 0-1-Gesetz (Satz 4.40). Dies soll nun auf unabhängige Zufallsvariablen angewandt werden. Sei fXn gn2N eine 1 Folge unabhängiger Zufallsvariablen, und FP n := Xn (B). Es sei T1 die terminale n Algebra der Fn wie in Satz 4.40. Mit Sn sei j=1 Xj bezeichnet. 7 Allerdings gibt es weitgehende Verallgemeinerungen, welche unter wesentlich schwächeren Annahmen gilt. 90 Lemma 5.3 Sei fan gn2N eine Folge positiver Zahlen mit an ! 1. Dann sind Y := lim supn!1 und Y := lim inf n!1 Sann T1 -messbare (R; B)-wertige Zufallsgrössen. Sn an Beweis. Für jedes m 2 N gilt Y = lim sup n!1 n Xn 1 X 1 Xm Sn Xj = lim sup Xj + = lim sup Xj ; j=m+1 j=1 an n!1 an n!1 an j=m+1 was o¤enbar Fm -messbar ist. Daher ist Y T1 -messbar. Für Y geht der Beweis gleich. Als Folgerung aus Lemma , dem Kolmogoro¤ 0-1-Gesetz und Lemma 5.3 ergibt sich: Satz 5.4 Es sei fXn gn2N eine Folge von unabhängigen Zufallsgrössen und fan gn2N eine positive Zahlenfolge mit limn!1 an = 1. Dann sind Y = lim supn!1 Sann und Y = lim inf n!1 Sann fast sicher konstant in [ 1; 1]. Beispiel 5.5 a) Die Xn seien unabhängig und Cauchy-verteilt zu c = 1 und sei an = n. Aus Beispiel 4.50a) folgt sofort, dass Sn =n auch Cauchy-verteilt ist zu c = 1. Somit ist für a 2 R: ! Z 1 1 1 Sn Sk 0< dx = P a P sup a 1 + x2 n k n k a !P lim sup n!1 Sn n a = P (Y a): Daraus folgt P (Y a) = lim P n!1 Sk sup k n k ! a >0 Nach Satz 5.4 folgt P (Y a) = 1 für alle a 2 R, das heisst P (Y = 1) = 1. Analog zeigt man P (Y = 1) = 1. b) Die Zufallsgrössen Xn seien unabhängig und standard-normalverteilt. Nach Beip spiel 4.50 b) ist auch Sn = n standard-normalverteilt. Wie oben folgt dann, dass p p lim supn!1 Sn = n = 1 fast sicher und lim inf n!1 Sn = n = 1 fast sicher gilt. Aus diesem Beispiel ist ersichtlich, dass Sn =n im Cauchy-verteilten Fall nicht fast sicher konvergiert. Dies widerspricht nicht dem Gesetz der grossen Zahlen, weil Cauchyverteilte Zufallsgrössen keinen Erwartungswert besitzen. Satz 5.6 (Starkes Gesetz der grossen Zahlen) Sei fXn gn2N eine Folge von unabhängigen Zufallsgrössen, Pn die alle dieselbe Verteilung haben. Es gelte Xi 2 L1 für alle i 2 N, und es sei Sn = i=1 Xi . Dann gilt limn!1 Sn =n = EX1 fast sicher. 91 Bemerkung 5.7 Unter der Zusatzbedingung Xi 2 L4 kann ein einfacher Beweis wie folgt geführt werden: Sei a = EXn (unabhängig von Xn0 := Xn a. Es gilt EXn0 = 0, und Sn =n ! a fast Pn), n 0 sicher gilt genau dann, wenn i=1 Xi =n n o ! 0 fast sicher gilt. Man kann also annehmen, dass a = 0 ist. Sei An = der Marko¤-Ungleichung: Sn n 1 n1=8 ; A = lim supn!1 An . Wir schätzen P (An ) mit P (An ) n1=2 E(Sn4 ): n4 Nun ist E(Sn4 ) = E = Xn i=1 n X Xi 4 0 =E@ n X i1 ;i2 ;i3 ;i4 =1 E(Xi1 Xi2 Xi3 Xi4 ) = n X 1 Xi1 Xi2 Xi3 Xi4 A E(Xi4 ) + 3 i=1 i1 ;i2 ;i3 ;i4 =1 X E(Xi2 Xj2 ): i6=j Um die letzte Gleichung einzusehen beachte man, dass die Terme der Summe mit einem Index, der verschieden von den anderen ist, wegen EX = 0 und der Unabhängigkeit 4 4 2 2 alle P1verschwinden. Somit folgt E(Sn ) = nE(X1 ) + 3n(n 1)(E(X1 )) . Daraus folgt folgt n=1 P (An ) < 1, und aus dem 1. Borel-Cantelli-Lemma (Lemma 4.32) folgt P (A) = 0. Für ! 2 = A konvergiert Sn (!)=n o¤enbar gegen null. Der eigentliche Beweis (unter der Bedingung Xi 2 L1 ) verwendet eine Reihe von subtilen Tricks.8 Zunächst bemerken wir, dass es ausreicht, das Gesetz für nicht-negative Zufallsvariablen zu beweisen. Sind nämlich Xi unabhängige und integrierbare Zufallsvariablen, so sind Xi+ und Xi nicht negative, unabhängige, und integrierbare Zufallsvariablen. Gilt für diese das Gesetz der grossen Zahlen, so folgt Sn = lim n!1 n n!1 lim 1 Xn X+ i=1 i n 1 Xn X i=1 i n = EX1+ EX1 = EX: Wir nehmen deshalb nun an, dass Xi 0 gilt. Dieses ist der erste Trick, doch der zweite folgt sogleich: Er besteht darin, dass man das Gesetz erst für Limiten entlang geeigneter Teilfolgen beweist. Für > 0, k 2 N; de…nieren wir h i n ( ; k) := (1 + )k : Wir benötigen unten einige einfache Eigenschaften dieser Folge: 8 Der Beweis stammt von N. Etemadi: An elementary proof of the strong law of large numbers. Prob. Theory and Rel. Fields, Vol 55, 119-122 (1981) 92 Lemma 5.8 a) n ( ; k + 1) = (1 + ) ; n ( ; k) limk!1 und daher existiert K ( ) 2 N; sodass 1+ für k n ( ; k + 1) n ( ; k) 2 1+2 (5.1) K ( ) gilt. b) Für jede Zahl a 2 gilt X k:(1+ ) und X 1+ n (k; ) k a (5.2) a n (k; ) 2 (1 + ) 1 a 1 : (5.3) k k:(1+ ) >a Beweis. a) sei dem Leser als einfach Übungsaufgabe überlassen Beweis von (5.2): Sei K die grösste natürliche Zahl mit (1 + )K X X n (k; ) k:(1+ )k a k (1 + ) = = (1 + ) (1 + )k k=1 k:(1+ )k a K K X K X1 j (1 + ) K (1 + ) j=0 1+ = a: Dann gilt 1 X (1 + ) j j=0 1+ (1 + )K a (5.3): Sei K wie oben. X n (k; ) 1 = k=K+1 k k:(1+ ) >a Für k > K ist (1 + )k a h Somit folgt 1 X k=K+1 h k (1 + ) i 1 1 X h (1 + )k i 1 : 2 und daraus folgt (1 + )k 2 i 1 X (1 + )k (1 + ) k k=K+1 93 1 = (1 + )k : 2 2 (1 + ) (1 + ) K 1 2 (1 + ) a: Lemma 5.9 Für jedes ; " > 0 gilt X Sn( ;k) n ( ; k) P k2N EX1 " < 1: Bevor wir das Lemma nachweisen, zeigen wir zunächst, dass daraus das Gesetz der grossen Zahlen folgt: Beweis von Satz 5.6 unter Verwendung von Lemma 5.9. Nach dem BorelCantelli-Lemma (Lemma 4.32) haben die Ereignisse A ( ; ") := lim sup k!1 Sn( ;k) n ( ; k) EX1 " Mass 0: Somit auch die Vereinigung A ( ) := Ein ! 2 = A ( ) ist in keinem der A [ m2N A ; 1 m : 1 ;m und demzufolge gelten Sn( ;k) (!) n ( ; k) k!1 Sn( ;k) (!) lim inf k!1 n ( ; k) lim sup EX1 + EX1 1 ; m 1 m für jedes m; d.h. Sn( ;k) (!) = EX1 : k!1 n ( ; k) lim Da dies für jedes ! 2 = A ( ) gilt es auch für jedes [ !2 = A^ := A( ); >0; 2Q und A^ ist immer noch eine Nullmenge. Nun der verwenden wir den Trick, uns auf nicht-negative Zufallsvariablen beschränkt zu haben: Gilt n ( ; k) n < n ( ; k + 1) ; so folgt Sn n Sn(k+1; ) n (k + 1; ) n (k + 1; ) n Sn(k+1; ) (1 + 2 ) n (k + 1; ) Sn(k+1; ) n (k + 1; ) n (k + 1; ) n (k; ) gemäss (5.1), falls k gross genug ist, und analog Sn n Sn(k; ) 1 : n (k; ) 1 + =2 94 Für ! 2 = A ( ) folgt Sn (!) n n!1 Sn (!) lim inf n!1 n lim sup Sn( ;k+1) (!) (1 + 2 ) = EX1 (1 + 2 ) ; n ( ; k + 1) k!1 Sn( ;k) (!) 1 lim inf EX1 : k!1 n ( ; k) 1 + =2 lim sup Für ! 2 = A^ gilt das für jedes rationale > 0 und somit folgt Sn (!) = EX1 : n!1 n lim Beweis von Lemma 5.9. Wir möchten die Tschebysche¤-Ungleichung einsetzen: Wegen Sn( ;k) EX1 = E n ( ; k) ergibt sich P Sn( ;k) n ( ; k) EX1 Sn( ;k) 1 var 2 " n ( ; k) Xn( ;k) 1 var Xj 2 j=1 "2 n ( ; k) 1 var (X1 ) : 2 " n ( ; k) " = = Dies ist aber nur nützlich, wenn die Variablen eine endliche Varianz haben, was wir hier nicht voraussetzen. Wir verwenden daher einen weiteren Trick und umgehen diese Schwierigkeit mit einem Abschneideargument. Dazu schreibenn wir Xi = Xi 1fXi <(1+ = : Yi + Zi )k g + Xi 1fXi (1+ )k g wobei wir beachten, dass die Yi ; Zi noch von k und abhängen. Wir interessieren uns für die Yi ; Zi nur für i n ( ; k) : Die Yi sind beschränkte Zufallsvariablen und besitzen deshalb eine endliche Varianz. Auf sie können wir daher gleich die Tschebysche¤Ungleichung anwenden. Die Zi haben zwar eventuell keine endliche Varianz, dafür sind sie jedoch fast immer gleich 0; was genauso wertvoll ist. Wir verwenden die Darstellung Sn( ;k) n ( ; k) n( ;k) X 1 EX1 = (Yi n ( ; k) EYi ) + EY1 i=1 i=1 wobei wir verwendet haben, dass alle Yi ; i denselben Erwartungswert besitzen. jEY1 EX1 j = E X1 1fXi n( ;k) X 1 EX1 + Zi ; n ( ; k) (1+ )k g 95 n ( ; k) dieselbe Verteilung und daher EX1 = E X1 1fXi >(1+ )k g : Für k ! 1 geht auch n ( ; k) ! 1: Daher folgt aus dem Satz von Lebesgue lim jEY1 EX1 j = 0: k!1 (Man erinnere sich daran, dass die Yi von k abhängen). Insbesondere folgt, dass jEY1 EX1 j "=2 gilt, sofern k gross genug ist. Für die Konvergenz der Reihe im Lemma spielt es natürlich keine Rolle, wenn wir nur solche k betrachten, für welche diese Ungleichung gilt. In diesem Fall gilt 9 8 9 8 n( ;k) n( ;k) < = < = X X Sn( ;k) 1 1 " (Yi EYi ) [ Zi 6= 0 ; EX1 " ; : n ( ; k) n ( ; k) 2 ; : n ( ; k) i=1 i=1 also P Sn( ;k) n ( ; k) EX1 0 n( ;k) X 1 (Yi EYi ) n ( ; k) i=1 1 0 n( ;k) X 1 Zi 6= 0A : +P @ n ( ; k) P@ " 1 "A 2 i=1 Wir zeigen nun, dass die k-Summation der beiden Summanden endlich ist. Für den ersten verwenden wir die Tschebysche¤-Ungleichung 0 1 n( ;k) X 1 " A P@ (Yi EYi ) n ( ; k) 2 i=1 4 "2 n ( = = ; k) 4 "2 n ( ; k) var (Y1 ) 4 "2 n ( E X12 1fX1 <(1+ ; k) EY12 )k g n 4 E X12 1fX1 2g 1fX1 <(1+ )k g + E X12 1fX1 <2g 1fX1 <(1+ "2 n ( ; k) 4 16 E X12 1fX1 2g 1fX1 <(1+ )k g + 2 : "2 n ( ; k) " n ( ; k) 96 ) k g o Die k-Summation für den zweiten Summanden ist o¤ensichtlich endlich. Für den ersten Summander erhalten wir unter Verwendung von (5.3): X k = 4 "2 n ( ; k) 0 E X12 1fX1 4 @ 2 E X1 1fX1 "2 2g 1fX1 <(1+ )k g X 2g n ( ; k) k:(1+ )k >X1 1 8 (1 + ) E X12 1fX1 2g 2 " X1 8 (1 + ) E (X1 ) < 1: "2 Somit ist X k für beliebige ; " > 0: X k X 0 P@ 1 n ( ; k) k X (Yi EYi ) i=1 1A 1 "A <1 2 1 n( ;k) X 1 Zi 6= 0A P@ n ( ; k) 0 i=1 P (9i k X n( ;k) 1 n ( ; k) mit Zi 6= 0) n ( ; k) P (Z1 6= 0) = 0 = E@ X k:X1 (1+ ) k 1 X n ( ; k)A wobei wir hier (5.2) verwendet haben. 97 n ( ; k) P X1 (1 + )k k 1+ E (X1 ) < 1; 6 Verteilungskonvergenz und der Zentrale Grenzwertsatz Wir zeigen in diesem Kapitel, dass Summen von unabhängigen Zufallsvariablen nach geeigneter Normierung genähert normalverteilt sind, d.h. dass ihre Verteilungsfunktion durch die der Normalverteilung approximiert wird. Letztere ist durch Z t ' (x) dx (t) := 1 mit 1 2 ' (x) := p e x =2 2 gegeben. Wie wir schon wissen, gilt für diese sogenannte „Gausssche Glockenkurve“ Z 1 ' (x) dx = 1: 1 Wir betrachten zunächst einige numerische Beispiele und untersuchen die Binomialwahrscheinlichkeiten n k b (k; n; p) = p (1 p)n k : k Wie schon früher diskutiert, ist b (k; n; p) = P (Sn = k) ; wobei Sn die Anzahl der „Erfolgte“ in einem Bernoulli-Experiment ist, d.h. Sn = n X Xi ; i=1 die Xi unabhängig, mit Werten in f0; 1g ; P (Xi = 1) = p: Der Einfachheit halber nehmen wir zunächst p = 1=2: Dann ist b (k; n; 1=2) = nk 2 n : Es ist nicht schwer zu sehen, dass für festes n die grösste dieser Wahrscheinlichkeiten bei k = n=2 ist (exakt k = n=2; wenn n gerade ist und sonst für k = (n + 1) =2 und k = (n 1) =2): Die nachfolgende Tabelle gibt die Wahrscheinlichkeiten b (k; 500; 1=2) als Funktion von k dar, wobei der Massstab auf der y-Achse von 0 bis 1 geht. b(k;500,1/2) 1.0 0.8 0.6 0.4 0.2 0.0 0 100 98 200 300 400 500 k Natürlich sieht man gar nicht viel. Der maximale Wert ist sehr klein, nämlich (wie wir weiter unten sehen) b (500; 1000; 1=2) 0:03568: Versuchen wir einfach die y-Achse zu strecken, so erhalten wir einfach folgendes Bild: b(k;500,1/2) 0.03 0.02 0.01 0.00 0 100 200 300 400 500 k Das ist auch noch nicht vielsagend, denn, wie wir aus dem Gesetz der grossen Zahlen schon wissen, konzentriert sich die Verteilung ziemlich stark um den Wert bei k = 250: Um ein “schönes”Bild zu erhalten, müssen wir den im ersten Bild gerade noch sichtbaren Knubbel sowohl in der x-Achse, wie in der y-Achse strecken. Damit ergibt sich das folgende Bild: b(k;500,1/2) 0.03 0.02 0.01 0.00 220 240 260 280 k Hier sieht man deutlich die Glockenkurve. Die richtige Skalierung ist nicht schwer zu erraten. Wir betrachten gleich den allgemeineren Fall mit einer beliebigen Erfolgswahrscheinlichkeit p 2 (0; 1) : Sie Sn die Anzahl der Erfolge in einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p und Länge n. Wie wir schon wissen, ist der Erwartungswert ESnp= np und die Varianz var (Sn ) = np (1 p) ; d.h. die Standardabweichung (Sn ) = np (1 p): Wenn wir daher die normierte Zufallsgrösse Sn np S^n := p np (1 p) 99 betrachten, so gilt E S^n = 0 und var S^n = 1: Es stellt sich nun raus, dass in einem noch zu präzisierenden Sinn die Verteilung von S^n asymptotisch (für n ! 1) durch die Gaussche Glockenkurve beschrieben wird. Es gibt verschiedene Möglickeiten dies zu beschreiben. Die “robusteste”besteht darin, dass man nicht die Einzelwahrscheinlichkeiten untersucht, die ohnehin ziemlich klein sind, sondern grössere Ereignisse, z.B. Ereignisse der Form P S^n x : In der Tat gilt der folgende Satz 6.1 Für jedes x 2 R gilt lim P S^n Z x = n!1 x ' (y) dy = (x) : 1 Wir werden gleich einen viel allgemeineren Satz formulieren und beweisen. Kommen wir jedoch für einen Moment auf unser vorheriges Problem zurück, nämlich die b (k; n; p) selbst asymptotisch auszuwerten. Wenn man das obige Theorem akzeptiert, so ist leicht zu erraten, wie das aussehen muss. Es ist nämlich b (k; n; p) = P (Sn = k) = P (Sn = P S^n p k np np (1 p) k) ! P (Sn k S^n P 1) p k np np (1 p) Der Satz 6.1 macht es plausibel, dass dies ungefähr gleich ! ! k np k np 1 1 p p p p np (1 p) np (1 p) np (1 p) np (1 sein sollte, d.h. p np (1 p)b (k; n; p) p k ' np np (1 p) p ! np (1 p) : 1 ' p k p) ! : np np (1 p) ! (6.1) Das folgt jedoch nicht direkt aus Satz 6.1. Dennoch ist die Aussage “im Wesentlichen” korrekt. Die genaue Formulierung als Limesaussage erfordert jedoch noch etwas Nachdenken. Wir führen die Abkürzung k xk;n := p np np (1 p) (6.2) ein. Man bemerkt zunächst, dass es o¤ensichtlich keinen Sinn macht, für festes k einen Grenzwertsatz für n ! 1 zu formulieren, denn es gilt limn!1 xk;n ! 1 für jedes p k 2 N; sodass (6.1) nur limn!1 np (1 p)b (k; n; p) = 0 nahelegt, was zwar stimmt aber nicht weiter interessant ist. Wir sollen o¤ensichtlich nur solche k betrachten, für die xk;n von der Grössenordnung 1 bleibt, dann sonst sehen wir die Glockenkurve gar nicht in der Asymptotik. Eine naheliegende Formulierung ist daher der folgende Satz: 100 Satz 6.2 Sie A > 0 beliebig. Dann gilt lim n!1 sup k:jxk;n j A p np (1 p)b (k; n; p) ' (xk;n ) 1 = 0: Einen Satz von diesem Typus bezeichnet man lokalen Grenzwertsatz, während man einen Satz, wie Satz 6.1 ein globalen Grenzwertsatz nennt. Wie schon oben bemerkt, folgt Satz 6.2 nicht aus Satz 6.1 Umgekehrt folgt jedoch Satz 6.1 aus Satz 6.2 ziemlich leicht durch eine Aufsummation der entsprechenden Wahrscheinlichkeiten, wobei für grosse n die Summe eine Riemann-Approximation des Integrals ist, welches die Verteilungsfunktion de…niert. Zum Beweis des Satzes 6.2 verwenden wir die Sterlingsche Formel: Satz 6.3 (Stirlingsche Formel) p lim n!=( 2 nn+1=2 e n n!1 ) = 1: Der Satz sollte aus der Analysis-Vorlesung bekannt sein. Falls nicht, siehe etwa: O. Forster: Analysis 1 §20 Satz 6. Beweis von Satz 6.2. Wir führen zunächst einige Notationen ein: Sei A > 0 eine beliebige Zahl. Wir erhalten diese Zahl für den Rest des Beweises fest. Wir verwenden ebenfalls die Abkürzung xk;n ; die wir in (6.2) eingeführt haben. Seien a (k; n) ; b (k; n) > 0 für k; n 2 N de…niert. Wir schreiben kurz a (k; n) b (k; n) falls für alle A > 0 lim sup n!1 k: A x k;n A gilt. O¤ensichtlich gilt p k = np + np (1 a (k; n) b (k; n) 1 =0 p) xk;n ; n k = n (1 p) k k p) : also mit der obigen Notation np; n n (1 Mit Hilfe der Stirlingschen Formel folgt: p (n=e)n 2 npk (1 p)n k b(k; n; p) p p (k=e)k 2 k ((n k) =e)n k 2 (n 1 p '(n; k); 2 np (1 p) wobei wir '(n; k) := ( np k n (1 p) n ) ( ) k n k 101 p np (1 p) xk;n ; (6.3) (6.4) k) k = r n 2 k(n k) '(n; k) gesetzt haben.Nach der Taylorformel gilt für x > 1 x2 1 x3 mit + 2 3 (1 + x)3 log(1 + x) = x = (x) 2 [0; 1]: Nach (6.3) ergibt sich daraus np log k k = k log 1 p = log n (1 p) n k p n k np (1 = (n = p np (1 k ! p) x2k;n np (1 p)xk;n (np (1 2k p k) log 1 + np (1 p) xk;n p) xk;n np (1 n p) xk;n k np (1 p) x2k;n 2(n k) np(1 p)xk;n 3 ) k 3k 2 (1 ! p))3=2 x3k;n p (np (1 + 3(n k)2 (1 + p))3=2 x3k;n p 0 np(1 p)xk;n 3 ) n k mit ; 0 2 [0; 1]. Wir addieren die beiden obigen Gleichungen, wobei die jeweils ersten Summanden auf der rechten Seite sich freundlicherweise gegenseitig aufheben. Die Summe der beiden zweiten Summanden ist np (1 p) x2k;n p) x2k;n np (1 2k 2(n k) n2 p (1 = 2k(n p) x2k;n k) : Abhängig von A, p gibt es eine positive Konstante C derart, dass die jeweils dritten Summanden in den geschweiften Klammern auf der rechten Seite der obigen Gleichung für genügend grosse n vom Betrag kleiner als Cn 3=2 sind. Dies entnimmt man sofort (6.4). Demzufolge gilt: lim sup n!1 k:jx Aus (6.4) folgt n2 p(1 p) 2k(n k) k;n j n2 p (1 log '(n; k) p) x2k;n 2k(n A k) = 0: 1 und somit lim sup n!1 k:jx j A k log '(n; k) x2k;n 2 = 0: Daraus folgt '(n; k) e x2k;n =2 : Damit ist der Satz bewiesen. (Wir sind etwas locker mit der Relation Der Leser möge sich die einzelnen Schritte selbst genau überlegen.) Rechenbeispiel zu Satz 6.2: 102 ; umgegangen. Jemand wirft 1200-mal einen Würfel. Mit welcher Wahrscheinlichkeit hat er genau 200-mal eine 6? Mit welcher Wahrscheinlichkeit 250-mal? Wir berechnen xk für k = 200; 250, n = 1200, p = 1=6. p 5 6 x200 = 0; x250 = p = 3:873 10 b(200; 1200; 1=6) = 0:0309019 b(250; 1200; 1=6) = 0:0000170913: Wie üblich muss hier bemerkt werden, dass ein reines Limesresultat für die Güte einer Approximation wie in obigem Rechenbeispiel zunächst natürlich gar nichts aussagt. Gefragt sind konkrete Abschätzungen des Fehlers. Dies ist ein technisch aufwendiges Feld, in das wir in dieser Vorlesung nicht eintreten können. Nachfolgend ist eine numerische Illustration von Satz 6.2 für n = 30 für angegeben, auf der linken Seite mit p = 0:5 und auf der rechten Seite mit p = 0:3 : y 0.4 0.3 0.2 0.1 0.0 6 8 10 12 14 16 18 20 22 24 n = 30; p = 0:5 y 0.4 0.3 0.2 0.1 0.0 0 5 10 n = 30; p = 0:3 103 15 20 Das Balkendiagramm ist die Funktion p fn;p (k) = np(1 p)b(k; n; p): Darüber ist die Gausssche Glockenkurve in der richtigen Skalierung eingetragen: " # (k np)2 1 k ! p exp 2np (1 p) 2 Auf dem rechten Bild sieht man noch deutlich die Asymmetrie in der Treppenfunktion, die natürlich für n ! 1 verschwinden muss. Der Satz wurde erstmals von Abraham de Moivre (1667-1754) (im Bernoulli-Fall) gezeigt. De Moivres Beweis für binomialverteilte Zufallsgrössen basiert auf einer Anwendung der Stirlingschen Formel. De Moivre gebührt o¤ensichtlich auch die Priorität für die Entdeckung der nach Stirling benannten Formel. (De Moivre scheint an der fehlerhaften Namensgebung selbt nicht ganz unschuldig zu sein. Stirling hatte nämlich de Moivres erste Version etwas verschärft; auf dieses Faktum wies de Moivre in seinen späteren Publikationen hin. Die Leserschaft scheint daraus den Schluss gezogen zu haben, dass die Formel auf Stirling zurückgeht). De Moivres Werk wurde lange Zeit nicht beachtet, bis Pierre-Simon Laplace es wieder aufgenommen hat. Pierre-Simon Laplace Abraham de Moivre Wir diskutieren nun Aussagen vom Typus des Satzes 6.1 in sehr viel allgemeinerem Rahmen. Die grundlegende De…nition soll ganz allgemein für Wahrscheinlichkeitsmasse auf einem metrischen Raum (S; d) gegeben werden. Später werden wir uns auf S = R oder S = Rd konzentrieren. 104 Die Borel- -AlgebraBS sei die kleinste -Algebra auf S, die die o¤enen Mengen enthält. BS wird auch von der Menge der abgeschlossenen Mengen erzeugt. Mit M+ 1 (S) sei die Menge der Wahrscheinlichkeitsmasse auf (S; BS ) bezeichnet. Das Symbol Cb (S) bezeichne die Menge der beschränkten stetigen Funktionen S ! R. Lemma 6.4 R R Es seien ; 2 M+ f d = f d für alle f 2 Cb (S), so gilt 1 (S). Gilt Beweis. Sei F fn (x) = maxf(1 Lebesgue folgt = . C abgeschlossen, und für n 2 N sei fn 2 Cb (S) de…niert durch n d(x; F )); 0g. O¤enbar gilt fn # 1F für n ! 1. Aus dem Satz von (F ) = lim n!1 Z fn d = lim n!1 Z fn d = (F ): Da die abgeschlossenen Mengen ein durchschnittstabiles Erzeugendensystem von BS bilden, folgt die Behauptung = . De…nition 6.5 a) Seien n ; 2 M+ Folge f n gn2N konvergiert schwachgegen 1 (S) für n 2 N. Die R R w (Notation: n ! ), wenn limn!1 f d n = f d für alle f 2 Cb (S) gilt. b) Es seien Xn und X (S; BS )-wertige Zufallsgrössen, die auf einem Wahrscheinlichw keitsraum ( ; F; P ) de…niert sind. Falls gilt P Xn 1 ! P X 1 , so sagt man, die w Folge fXn g konvergiert in Verteilunggegen X, und schreibt oft L(Xn ) ! L(X), w w bzw. L(Xn ) ! ; wenn P Xn 1 ! gilt. Man muss sich klar darüber sein, dass die Verteilungskonvergenz in der Regel gar nichts über das Konvergenzverhalten der Zufallsvariablen selbst besagt. Haben z.B. alle Xn dieselbe Verteilung, so konvergieren trivialerweise die Verteilungen, aber die Folge fXn g braucht natürlich in keiner der früher diskutierten Arten zu konvergieren. Die De…nition 6.5 ist formal sehr bequem; oft möchte man jedoch lieber wissen, für welche A 2 BS gilt: (A) = limn!1 n (A). Satz 6.6 (Portmenteau) Es seien n ; 2 M+ 1 (S) für n 2 N. Die folgenden Aussagen sind äquivalent: a) w n ! . b) lim supn!1 c) lim inf n!1 n (F ) n (U ) (F ) für jede abgeschlossene Menge F (U ) für jede o¤ene Menge U S. S. d) limn!1 n (A) = (A) für alle A 2 BS mit (@A) = 0. (@A bezeichnet hier den Rand der Menge A). Beweis. a) ) b):. Seien F abgeschlossen, " > 0, und sei f" (x) := maxf0; 1 d(x; F )="g. Die Funktion f" ist beschränkt und stetig mit 1F f" . Somit gilt lim supn!1 n (F ) 105 R R lim f d = f" d . Es gilt f" # 1F für " # 0. Aus dem Satz von Lebesgue folgt n!1 " n R f" d # (F ) für " # 0. Demzufolge gilt lim supn!1 n (F ) (F ). b) , c) folgt sofort aus der Tatsache, dassdie o¤enen Mengen genau die Komplemente der abgeschlossenen sind. (b) und c)) ) d). Sei A 2 BS mit (@A) = 0; es sei int (A) sei das Innere, A der Abschlussvon A. Dann gelten lim sup n!1 lim inf n!1 n (A) lim sup n (A) lim inf n!1 n (A) (A); n (int (A)) n!1 (int (A)): Aus (@A) = 0 folgt (A) = (int (A)) = (A). Somit folgt d). d) ) b). Sei F S abgeschlossen. Eine einfache Überlegung zeigt, dass @(F ) fx : d(x; F ) = g für alle 0 gilt, wobei F := fx 2 S : d(x; F ) g sei. Die Mengen @(F ) mit > 0 sind also paarweise disjunkt. Die Menge > 0 : (@(F )) > 0 = S 1 f > 0 : (@(F )) 1=m g ist als abzählbare Vereinigung endlicher Mengen m=1 höchstens abzählbar. Es gibt somit eine fallende Nullfolge ( k )k mit (@(F k )) = 0 für alle k 2 N. Somit gilt lim supn!1 n (F ) lim supn!1 n (F k ) = (F k ) für alle k. k k Wegen F # F haben wir (F ) # (F ) für k ! 1, also folgt b). b) ) a). Sei f 2 Cb (S). Wir zeigen zunächst Z Z fd : (6.5) lim sup f d n n!1 Haben wir diese Ungleichung für alle f 2 Cb (S) gezeigt, so können wir sie auch auf anwenden und erhalten Z Z lim inf f d n fd ; f n!1 was die Behauptung impliziert. Um (6.5) zu beweisen, können wir annehmen, dass 0 f < 1 gilt. Falls nicht, so führen wir eine einfach Transformation f (x) := af (x) + b, a; b 2 R, a > 0 durch, die (k) dies erzwingt. Die Menge Fi := f x : f (x) i=k g ist abgeschlossen für k 2 N und + 0 i k. Für 2 M1 (S) und alle k 2 N gilt k X i i=1 das heisst wandt auf 1 k 1 k (k) (Fi 1 ) (k) (Fi ) Z fd k X i k (k) 1) (Fi (k) (Fi ) ; i=1 R (k) (k) (k) 1 Pk 1 (Fi ) fd = ;). Angei=0 (Fi ) (man beachte Fk k und an Stelle von gibt das zusammen mit b) die Abschätzung Z Z lim sup f d n f d + 1=k: Pk 1 i=1 n n!1 Da k beliebig war, folgt (6.5). Als Anwendung können wir das folgende Kriterium für schwache Konvergenz in R herleiten. 106 Satz 6.7 Es seien n ; 2 M+ 1 (R) für n 2 N mit Verteilungsfunktionen Fn von n beziehungsweise w F von . Es gilt genau dann n ! , wenn für jedes t 2 R, in dem F stetig ist, limn!1 Fn (t) = F (t) ist. w Beweis. „)“. Es gelte n ! . Ist F stetig in t 2 R, so gilt (@( 1; t]) = (ftg) = 0. Somit folgt limn!1 Fn (t) = F (t) nach Kriterium d) aus Satz 6.6. „(“. Es gelte limn!1 Fn (t) = F (t) für alle t 2 D := f x 2 R: F ist stetig in x g. S1 c 1=n g ist abzählbar. Das Komplement D = ft : (ftg) > 0 g = n=1 ft : (ftg) Demzufolge ist D dicht in R. Das System U := f(a; b] : a b; a; b 2 D g ist durchschnittstabil und es gilt limn!1 n ((a; b]) = ((a; b]) : Jedes o¤ene Intervall lässt sich als abzählbare Vereinigung von Elementen aus U schreiben, und da jede o¤ene Menge sich als abzählbare Vereinigung von o¤enen Intervallen schreiben lässt, lässt sich jede o¤ene Menge O in R als abzählbare Vereinigung von Mengen in U darstellen: [ Uk ; Uk 2 U: O= k2N Zu " > 0 existiert N mit [N (O) k=1 Uk + ": Mit Inklusion-Exklusion erhält man für jedes n n [N k=1 Uk = N X ( 1)r+1 r=1 X n (Uj1 j1 <j2 < <jr \ Uj2 \ Da U durchschnittstabil ist, sind die Mengen Uj1 \ Uj2 \ konvergiert die rechte Seite für n ! 1 gegen N X ( 1)r+1 r=1 X (Uj1 \ Uj2 \ j1 <j2 < <jr \ Ujr ): \ Ujr in U und demzufolge, [N \ Ujr ) = k=1 Uk : Somit folgt (O) [N k=1 lim inf n!1 Uk n (O) + " = lim n!1 n + ": [N k=1 Uk +" Da " > 0 beliebig ist, folgt (O) lim inf n!1 n (O) : Dies gilt für jede o¤ene Teilmenge O R und somit folgt nach Satz 6.6 die schwache Konvergenz. Wir untersuchen nun das Verhalten induzierter Wahrscheinlichkeitsmasse untersuchen, wenn die Ursprungsmasse schwach konvergieren. Es sei also f gn eine Folge von 107 w Wahrscheinlichkeitsmassen auf (S; BS ) mit n ! 2 M+ 1 (S). Ist h eine messbare Abw bildung von S in einen zweiten metrischen Raum, so braucht nicht n h 1 ! h 1 zu gelten. Beispiel 6.8 Sei fxn gn eine Folge in S n fxg, die gegen ein x 2 S konvergiert. Dann gilt h : S ! R durch h(y) = 1fxg (y) de…niert, so gelten xn h 1 = 0 und x h konvergiert xn h 1 nicht schwach gegen x h 1 . w xn ! 1 = x. 1, Ist also Ist h jedoch stetig, so überträgt sich die schwache Konvergenz auf die induzierten Masse: Lemma 6.9 Seien (S; d) und (S 0 ; d0 ) zwei metrische Räume, und h : S ! S 0 sei stetig. Es seien n w w und Wahrscheinlichkeitsmasse auf (S; BS ) mit n ! . Dann gilt n h 1 ! h 1 (auf (S 0 ; BS )). Beweis. Ist f 2 Cb (S 0 ), so ist f h 2 Cb (S). Somit gilt Z Z Z Z 1 = (f h) d n ! (f h) d = f d f d nh h 1 : Eine der sehr nützlichen Eigenschaften der schwachen Konvergenz ist die, dass es „verhältnismässig grosse“ kompakte beziehungsweise relativ kompakte Mengen gibt. De…nition 6.10 a) Eine Teilmenge M+ 1 (S) heisst (sequentiell) relativ kompakt, wenn jede Folge f n gn2N in eine schwach konvergente Teilfolge hat. (Der Grenzwert muss nicht in liegen.)9 b) Eine Teilmenge M+ 1 (S) heisst stra¤,wenn für jedes " > 0 eine kompakte Menge K" S existiert, so dass (K" ) 1 " für jedes 2 ist. Bemerkung 6.11 a) Ist S kompakt, so ist M+ 1 (S) o¤enbar stra¤. b) M+ 1 (R) ist nicht stra¤, weil nämlich schon die Familie f ist. x : x 2 R g nicht stra¤ c) Ein einzelnes Wahrscheinlichkeitsmass 2 M+ 1 (S) heisst stra¤, wenn f g stra¤ ist, das heisst, wenn für jedes " > 0 eine kompakte Menge K" existiert mit (K" ) 1 ". Ist S -kompakt, das heisst existiert eine Folge (Kn )n von kompakten Mengen in S mit Kn " S, so ist jedes Wahrscheinlichkeitsmass stra¤. (Es gilt ja (Kn ) " 9 In allgemeinen topologischen Räumen impliziert sequentiell relativ kompakt nicht relativ kompakt im üblichen Sinn. Dies ist jedoch in metrischen Räumen richtig. Die Topologie auf M+ 1 (S) ist metrisierbar, was wir hier jedoch nicht beweisen wollen. 108 (S) = 1.) Dies ist für S = R oder S = Rd der Fall. Erstaunlicherweise gibt es jedoch eine grosse Klasse von metrischen Räumen, die nicht -kompakt sind und in denen jedes Wahrscheinlichkeitsmass stra¤ ist: nämlich vollständige separable Räume. Diese Klasse umfasst separable Hilbert- und Banachräume, wie etwa den Folgenraum l2 versehen mit der üblichen Norm, oder den Raum C[0; 1] der stetigen Funktionen [0; 1] ! R, versehen mit der Supremummetrik. Unendlichdimensionale Banachräume sind jedoch nie -kompakt. Die Aussage, dass jedes Wahrscheinlichkeitsmassauf einem vollständigen, separablen metrischen Raum stra¤ ist, ist ein Spezialfall des folgenden Satzes von Prohorov: Satz 6.12 (Satz von Prohorov) Es sei S vollständig und separabel und sei eine Teilmenge von M+ 1 (S): dann relativ kompakt, wenn sie stra¤ ist. ist genau Für den Fall S = R nennt man diesen Satz den Satz von Helly-Bray. Beweis des Satzes von Helly-Bray. Dass Relativkompaktheit die Stra¤heit nach sich zieht, ist einfach und sei dem Leser überlassen. Wir beweisen die wichtigere und schwierigere Richtung. Sei also f n g eine Folge von Wahrscheinlichkeitsmassen auf (R; B) ; die stra¤ ist. Wir bezeichnen mit Fn die zugehörigen Verteilungsfunktionen. Stra¤heit bedeutet, dass für jedes " > 0 ein N (") > 0 existiert mit Fn ( N (")) "; Fn (N (")) 1 " für alle n: Wir wählen eine abzählbare dichte Teilmenge von R; z.B. Q; Q = fq1 ; q2 ; : : :g : Da die reelle Folge fFn (q1 )gn beschränkt ist, existiert eine Teilfolge von fn1;k gk2N von N def sodass G (q1 ) = limk!1 Fn1;k (q1 ) existiert. Anschliessend wählen wir eine Teilfolge fn2;k gk2N von fn1;k gk2N ; sodass G (q2 ) = limk!1 Fn2;k (q2 ) existiert. In dieser Weise fahren wir weiter. Wir erhalten Teilfolgen fn1;k gk2N fn2;k gk2N fn3;k gk2N mit der Eigenschaft, dass G (qm ) = limk!1 Fnm;k (qm ) für jedes m existiert. Dann gilt G (qm ) = lim Fnk;k (qm ) k!1 für jedes m; denn die Folge fnk;k gk2N ist bis auf endlich viele Glieder für jedes m eine Teilfolge von fnm;k gk2N : Diese Folge ist die gesuchte Teilfolge. Wir schreiben nk := nk;k : Die Funktion G ist nur auf Q de…niert. O¤ensichtlich erfüllt sie 0 G (q) 1 für alle q 2 Q und G (q) G (q 0 ) für q q 0 : Ferner folgt G (q) " für q N (") ; G (q) 1 " für q N (") : Somit folgt limq! 1 G (q) = 0; limq!1 G (q) = 1: Mit G de…nieren wir nun die Funktion F : R ! [0; 1] durch F (t) := lim G (q) : q#t; q>t Man beachte, dass selbst wenn t 2 Q ist, F (t) nicht unbedingt mit G (t) übereinstimmen muss. F ist per Konstruktion rechtsstetig. Ferner bleibt die Monotonie natürlich erhalten, sowie limt!1 F (t) = 1; limt! 1 F (t) = 0: F ist also eine Verteilungsfunktion. Es existiert daher ein Wahrscheinlichkeitsmass auf (R; B) ; dessen Verteilungsfunktion F ist. 109 w Wir zeigen nun, dass nk ! gilt. Nach Satz 6.7 müssen wir dafür zeigen, dass limk!1 Fnk (t) = F (t) für jeden Stetigkeitspunkt t von F gilt. Zunächst gilt für jedes q > t; q 2 Q; lim Fnk (q) = Q (q) ; lim sup Fnk (t) k!1 k!1 also mit q # t lim sup Fnk (t) F (t) : k!1 Dafür wurde nicht verwendet, dass t ein Stetigkeitspunkt von F ist. Sei " > 0 beliebig. Wir wählen t0 < t; sodass F (s) F (t) " für alle s wählen s < t und eine rationale Zahl q mit s < q < t: Dann gilt lim Fnk (q) = G (q) F (s) k!1 Wegen Fnk (q) F (t) t0 ist. Wir ": Fnk (t) folgt lim inf Fnk (t) F (t) k!1 ": Da " > 0 beliebig ist, folgt lim inf k!1 Fnk (t) F (t) : Wir werden weiter unten den Satz von Prohorov für den Fall S = Rd verwenden. Der Beweis ist im Wesentlichen derselbe wie für den eindimensionalen Fall mit einigen Modi…kationen. Wir wollen das nicht weiter verfolgen, werden den Satz von Prohorov jedoch für Rd verwenden. Um den Satz anzuwenden, benötigt man eine Eigenschaft der schwachen Konvergenz, die jeder „vernünftige“ Konvergenzbegri¤ hat: Lemma 6.13 Seien n ; 2 M+ 1 (S) für n 2 N. Dann gilt nk k2N von f n gn ihrerseits eine Teilfolge w n n ! o nkl genau dann, wenn jede Teilfolge l2N besitzt mit w nkl ! für l ! 1: Beweis. Das Lemma folgt unmittelbar aus der De…nition und der Tatsache, dass reelle Zahlenfolgen die entsprechende Eigenschaft haben. Als Anwendung davon kann ein sehr nützliches Kriterium für schwache Konvergenz auf Rd bewiesen werden. Für x 2 Rd sei x : Rd ! R de…niert durch x (y) = hx; yi (Hier sei h ; i das Euklidsche Skalarprodukt). Satz 6.14 (Cramèr-Wold) Es seien n und Wahrscheinlichkeitsmasse auf (Rd ; Bd ) für n 2 N. Dann gilt w genau dann, wenn n x 1 ! x 1 in (R; B) für alle x 2 Rd gilt. w n w Beweis. Da x stetig ist, folgt aus n ! und Lemma 6.9 die Behauptung 1 x . Zum Beweis der Umkehrung betrachten wir zunächst die Projektionen 1 i d, auf die d Einheitsvektoren ei 2 Rd . 110 i ! n x w 1 ! := ei , Da n i 1 schwach konvergiert, also insbesondere f n i 1 : n 2 N g relativ kompakt ist, existiert für jedes " > 0 eine kompakte Menge Ki R mit n ( i 1 (Ki )) 1 d" für T alle n 2 N und alle i 2 f1; : : : ; dg. Die Menge K := di=1 i 1 (Ki ) Rd ist abgeschlossen und beschränkt in Rd , also kompakt. Für alle n 2 N gilt: c n (K ) = [d n i=1 ( 1 i d X (Ki ))c n( i 1 (Kic )) ": i=1 Aus Satz 6.12 folgt, dassf n : n 2 N g relativ kompakt ist. Sei f 0n g eine beliebige w Teilfolge von f n g. Diese hat ihrerseits eine konvergente Teilfolge f 00n g mit 00n ! 00 w d d 00 1 00 1 1 w für ein 00 2 M+ x . Wegen n x ! 1 (R ). Für alle x 2 R folgt dann n x ! 1 1 00 1 d x folgt x = x für alle x 2 R . Damit stimmen auch die charakteristischen 1 00 1 Funktionen von x und x überein, insbesondere im Punkt 1 (wegen Lemma 6.9). Somit gilt Z Z Z ihx;yi it 1 b(x) = e (dy) = e ( x )(dt) = eit ( 00 x 1 )(dt) = c00 (x): w Aus Satz 4.23 folgt = 00 , und mit Lemma 6.13 folgt n ! folgen. Der Zusammenhang von schwacher Konvergenz mit der Konvergenz der charakteristischen Funktionen wird durch den folgenden Stetigkeitssatz kompletiert: Satz 6.15 Sei f n g eine Folge von Wahrscheinlichkeitsmassen auf (R; B) mit charakteristischen Funktionen ^ n : Falls f (t) = limn!1 ^ n (t) für jedes t 2 R existiert und f stetig in 0 ist, so ist f die charakteristische Funktion eines Wahrscheinlichkeitsmasses und es gilt w n ! : Beweis. Wir zeigen zunächst, dass aus der Stetigkeit von f im Nullpunkt die Stra¤heit der Folge f n g folgt. Wir leiten zunächst eine einfache Abschätzung ganz allgemein für Wahrscheinlichkeitsmasse auf (R; B) her. Sei c > 0: Z c Z Z c (1 ^ (t)) dt = (dx) 1 eitx dt c c Z sin cx = 2c 1 (dx) cx Z Z sin cx sin cx = 2c 1 (dx) + 2c 1 (dx) cx cx jxj<2=c jxj 2=c c ([ 2=c; 2=c]c ) ; die letzte Ungleichung wegen c = 2=r erhält man für r > 0 sin y y ([ r; r]c ) 1 für alle y 2 R und r 2 Z sin y y 2=r (1 2=r 111 ^ (t)) dt: 1=2 für jyj 2: Mit Da die charakteristischen Funktion beschränkt durch 1 sind, folgt lim sup n!1 c n ([ r; r] ) lim sup n!1 r 2 = Z r 2 2=r Z (1 2=r (1 2=r ^ n (t)) dt f (t)) dt; 2=r die Gleichung nach dem Satz von Lebesgue. Da f stetig in 0 ist, und f (0) = 1 ist, folgt, dass für jedes " > 0 ein r (") > 0 existiert mit lim sup n ([ n!1 r (") ; r (")]c ) "=2: Es existiert also eine Zahl n0 2 N; sodass n ([ r (") ; r (")]c ) " für alle n > n0 gilt. Für k = 1; : : : ; n0 exisitieren rk (") mit k ([ rk (") ; rk (")]c ) ": Setzen wir N (") := max fr (") ; r1 (") ; : : : ; rn0 (")g ; so gilt n ([ N (") ; N (")]c ) " für alle n: Damit ist gezeigt, dass die Folge f n g stra¤ ist. Ist nun nk k2N eine schwach konvergente Teilfolge mit Limes Lemma 6.9 ^ (t) = lim ^ nk (t) = f (t) ; 8t: ; so folgt nach k!1 Damit ist gezeigt, dass f die charakteristische Funktion eines Wahrscheinlichkeitsmasses ist. Ferner hat jede Teilfolge von f n g eine Teilfolge, die gegen konvergiert, und somit gilt w n ! : Korollar 6.16 seien Wahrscheinlichkeitsmasse auf Rd ; Bd ; n 2 N: Dann gilt n; dann, wenn limn!1 ^ n (t) = ^ (t) für alle t 2 Rd gilt. w n ! genau Beweis. Die eine Richtung ist wegen Lemma 6.9 trivial. Die andere Richtung: Nach w w 1 d Cramèr-Wold müssen wir für n ! nur zeigen, dass n x 1 ! x für alle x 2 R \1 [1 (t) ; 8t 2 1 gilt. Für t 2 R gilt \ x n x (t) = ^ n (tx) : Somit folgt limn!1 n x (t) = w R; 8x 2 Rd : Nach dem vorangegangenen Satz folgt n x 1 ! x 1 ; 8x: Zunächst zeigen wir nun den klassischen eindimensionalen Zentralen Grenzwertsatz (n) von Lindeberg. Ausgangspunkt ist eine sogenannte „Dreiecksfolge“ Xj ; 1 j n; 112 von reellen Zufallsvariablen. Wir setzen voraus, dass für jedes n die Zufallsvariablen (n) Xj ; 1 j n; unabhängig sind. Ferner wird vorausgesetzt, dass sie alle endliche und positive Varianzen haben: (n)2 (n) := var Xj : j (n) Mit aj bezeichnen wir die Erwartungswerte. Sei s2n := n X (n)2 : j j=1 Wir sagen, dass die Dreiecksfolge der Lindeberg-Bedingung genügt, falls n 1 X E lim n!1 s2 n (n) Xj (n) 2 aj (n) (n) ; Xj aj "sn j=1 = 0; 8" > 0: Im Spezialfall, wo die Variablen alle die gleiche Verteilung haben, ist die Lindeberg(n)2 Bedingung erfüllt: In diesem Falle sind die j alle gleich. s2n = n 2 : n 1 X E s2n (n) Xj (n) 2 aj (n) ; Xj (n) aj "sn j=1 = = p 1 2 nE (X a) ; jX aj " n 1 1 n 2 p 1 E (X1 a)2 ; jX1 aj " n ! 0 2 für n ! 1; nach dem Satz von Lebesgue. Aus der Lindeberg-Bedingung folgt sehr einfach, dass keine der Einzelvarianzen im n ! 1 Limes gegenüber den Gesamtvarianz einen makroskopischen Ein‡uss behält, d.h. es gilt (n)2 max1 j n j lim = 0: (6.6) n!1 s2n Der sehr einfache Beweis sei dem Leser überlassen. Satz 6.17 (Satz von Lindeberg-Feller) Erfüllt die Dreiecksfolge die Lindeberg-Bedingung so gilt 1 0P (n) (n) n aj j=1 Xj w A! Standardnormalverteilung: L@ sn Beweis. Nach Satz 6.15 müssen wir nur die Konvergenz der charakteristischen Funktionen zeigen. Die charakteristische Funktion der Standardnormalverteilung ist " # 2 t2 Yn 2 j e t =2 = exp ; j=1 2 113 mit 2 j := (n)2 2 =sn : j (Wir lassen den Index n bei den ’s weg). Ohne Einschränkung der (n) Allgemeinheit können wir annehmen, dass die aj = 0 sind. Es bezeichne ^ n die chaP (n) rakteristische Funktion von sn 1 nj=1 Xj : Wegen der angenommenen Unabhängigkeit gilt h i Yn (n) E exp itsn 1 Xj : ^ n (t) = j=1 Wir verwenden, dass für komplexe Zahlen yk ; zk ; die Betrag maximal 1 haben, die Ungleichung n X Yn Yn zj yj jyj zj j ; j=1 j=1 j=1 deren Beweis dem Leser überlassen sei. Mit dieser Ungleichung erhalten wir " # n 2 t2 h i X 2 j (n) ^ n (t) e t =2 E exp itsn 1 Xj exp : 2 j=1 Für eine beliebige reelle Zufallsgrösse Y; deren Erwartungswert gleich 0 ist, und die eine endliche Varianz 2 besitzt gilt Y2 i e 2 eiY = 1 + iY eiY Y = 1 + iY Y2 Y2 + 1 2 2 ei Y ; wobe eine Zufallsvariable mit Werten in [0; 1] ist. Da die Erwartungswerte der Zufallsgrössen auf der rechten Seite alle existieren, folgt EeiY = 1 2 2 +E Y2 1 2 Nun gilt für jede reelle Zahl x die Ungleichung eix E Y2 1 2 ei Y Y2 1 2 Y2 1 2 E = E 2 " (n) Wir wenden das auf Y = tsn 1 Xj mit (n) j " Y ei Y ; jY j 1 Y : jxj : Somit gilt für jedes " > 0 " +E Y2 1 2 + E Y 2 ; jY j > " : 2 E exp ei ei h und erhalten (n) itsn Xj 2 t2 j 2 1 + i =1 2 t2 j 2 + (n) j t2 " (n)2 (n) E Xj ; Xj > sn : 2 sn t 114 ei Y ; jY j > " P Aus der Lindeberg-Bedingung folgt, dass nj=1 des zweiten Summanden für n ! 1 P gegen 0 konvergiert. Wegen nj=1 2j = 1 folgt ! " # n 2 t2 2 t2 X "t2 j j t2 =2 lim sup lim sup ^ n (t) e 1 exp + : 2 2 2 n!1 n!1 j=1 Für festes t ist exp " 2 t2 j 2 # 2 t2 j =1 2 + O t4 4 j O t4 0 n X = O@ O t4 und somit n X j=1 1 2 t2 j 2 ! exp " 2 t2 j 2 # = n X 4 j j=1 = t4 O j=1 e t2 =2 2 j max 1 j n für n ! 1; nach (6.6). Somit folgt lim supn!1 ^ n (t) ist, folgt limn!1 ^ n (t) ; e !0 t2 =2 2 j 1 A "t2 =2: Da " beliebig = 0: Korollar 6.18 Es sei fXn g eine Folge von unabhängigen identisch verteilten Zufallsgrössen mit endlicher Varianz 2 > 0 und Erwartungswert a: Dann gilt ! Pn X na j w j=1 p L ! Standardnormalverteilung: n Natürlich folgt dann auch, dass Pn L j=1 Xj p n na ! w ! N 0; 2 gilt, wobei N 0; 2 die Normalverteilung mit Mittel 0 und Varianz 2 bezeichnet. In dieser Formulierung bleibt die Aussage auch für 2 = 0 korrekt. Ist die Varianz der Xj gleich 0; so sind die Zufallsgrössen fast sicher gleich ihrem Erwartungswert a: Damit ist die linke Seite das Einpunktmass im 0-Punkt, genau wie die rechte Seite. Zusammen mit Satz 6.14 ergibt der eindimensionale Zentrale Grenzwertsatz sofort eine mehrdimensionale Version. Wir formulieren das nur für den Fall von identisch verteilten Zufallsgrössen. Satz 6.19 Es sei fXn gn eine Folge unabhängiger, identisch verteilter, d-dimensionaler Zufallsvektoren.PEs gelte EjXi j2 < 1. Seien a = EX1 und die Kovarianzmatrix der Xi . Dann gilt p w L ( ni=1 (Xi a)/ n) ! , wobei die d-dimensionale Normalverteilung mit Mittel 0 und Kovarianzmatrix ist. 115 P p Beweis. Sei Tn := ni=1 (Xi a)= n. Nach Satz 6.14 genügt es zu zeigen, dassfür jedes P p w x 2 Rd gilt: L(hx; Tn i) ! x 1 . Es ist hx; Tn i = ni=1 (hx; Xi i hx; ai)= n. Die hx; Xi i, i 2 N, sind unabhängige, identisch verteilte eindimensionale Zufallsgrössen mit Erwartungswert hx; ai und Varianz 2x = E(hx; Xi ai2 ) = xt x, wenn x als Spaltenvektor geschrieben wird. L(hx; Tn = x i) nach dem eindimensionalen zentralen Grenzwertsatz (Korollar 6.18) und der anschliessenden Bemerkung gegen die Normalverteilung mit Mittel 0 und Vari1 2 anz 2x . Nun ist aber x die Normalverteilung mit Mittel 0 und Varianz x . Damit ist der Satz bewiesen. Als Anwendung beweisen wir einen Satz über die Multinomialverteilung. Wir betrachten ein wiederholt unabhängig durchgeführtes Zufallsexperiment mit m möglichen Aussgängen (z.B. m = 6 P beim Würfel). Die einzelnen Ausgänge sollen Wahrscheinlichkeiten p1 ; : : : ; pm > 0 mit i pi = 1 haben. Das Experiment wird n Mal durch(n) geführt. Ni bezeichne die Anzahl der Experimente mit Ausgang i: Man interessiert (n) (n) sich für die Verteilung von N1 ; : : : ; Nm alverteilung P : Das ist einfach die sogenannte Multinomin! (n) (n) N1 ; : : : ; N m = (n1 ; : : : ; nm ) = n1 ! nm ! pn1 1 pn2 2 pnmm ; P sofern i ni = n ist, und 0 sonst. Wir verwenden die Formel nicht weiter; sie ist jedoch sehr einfach einzusehen: Jede Folge (i1 ; : : : ; in ) ; ik 2 f1; : : : ; mg ; von Ausgängen des Experiments hat Wahrscheinlichkeit pn1 1 pn2 2 pnmm ; wobei nj = n X k=1 (n) 1fik =jg (n) ist. Um P N1 ; : : : ; Nm = (n1 ; : : : ; nm ) zu bestimmen, müssen wir diese Wahrscheinlichkeit mit der Anzahl der Folgen (i1 ; : : : ; in ) ; welche n1 ; : : : ; nm realisieren, multiplizieren. Diese Anzahl ist jedoch n1 ! n! nm ! ; was aus dem Gymnasium bekannt sein sollte. Um den Zentralen Grenzwertsatz anwenden zu können, de…nieren wir unabhängige Rm -wertige Zufallsvektoren Xi = (Xi1 ; : : : ; Xim ), deren mögliche Werte nur die m Vektoren e1 ; : : : ; em der Standardbasis von Rm sind, mit P (Xi = ej ) = pj : O¤ensichtlich gilt EXi = p = (p1 ; : : : ; pm ) : Die Kovarianzmatrix ist ebenso einfach zu 2 berechnen. Für j 6= k gilt E (Xij Xik ) = 0 und E Xij = pj : Somit ist die Kovarianzmatrix pj (1 pj ) f u •r j = k (X)j;k = : pj pk fu •r j 6= k Da o¤ensichtlich (n) (n) N1 ; : : : ; N m = n X i=1 116 Xi ist, folgt aus Satz 6.19 0 L@ (n) (n) N1 np1 ; : : : ; Nm p n npm 1 w A! N (0; (X)) ; wobei N (0; ) die m-dimensionale Normalverteilung mit Mittel 0 und Kovarianzmatrix bezeichnet. Für Anwendungen ist es bequemer, die Komponenten etwas anders zu normieren. Wir betrachten den Zufallsvektor ! (n) (n) N1 np1 Nm npm ;:::; p : p np1 npm Dieser ensteht aus dem vorher betrachteten unter der stetigen Abbildung (x1 ; : : : ; xm ) ! p p x1 = p1 ; : : : ; xm = pm : Somit folgt !! (n) (n) N1 np1 Nm npm w L ;:::; p ! N 0; 0 p np1 npm mit 0 jk := 1 pj f u •r j = k : p p j pk f u •r j = 6 k Als Anwendung leitet wir einen wichtigen Satz her, der in der Statistik eine grosse Rolle spielt. Dazu zunächst eine De…nition: De…nition 6.20 Sei die Standardnormalverteilung auf Rd : Die Verteilung des Quadrates der Euklidschen Norm unter heisst 2 -Verteilung mit d Freiheitsgraden. Etwas formaler: Ist f : Rd ! R+ de…niert durch d X f (x) = x2i : i=1 2 -Verteilung Die mit d Freiheitsgraden auf R+ ist de…niert durch Verteilung schreiben wir auch 2m : f 1: Für diese Es ist nicht sehr schwer, die Dichte der 2 -Verteilung zu berechnen: Die Verteilungsfunktion ist per De…nition gegeben durch Z 1 1 Xd t! exp x2 dx: d=2 i=1 i 2 (2 ) P fx: di=1 x2i tg Das Integral geht hier über Rd ; wir können es jedoch sehr leicht via d-dimensionale Polarkoordinaten in ein 1-dimensionales verwandeln fx: Pd Z i=1 1 d=2 x2i tg (2 ) exp p 1 Xd 2 x2 i=1 i 117 dx = !d d=2 (2 ) Z 0 t rd 1 exp r2 =2 dr; wobei ! d die Ober‡äche der Kugel vom Radius 1 in Rd ist, was bekanntlich 2 d=2 (d=2) !d = ist mit der Gammafunktion. Di¤erentiation nach t ergibt: Proposition 6.21 Die 2 -Verteilung mit d Freiheitsgraden hat die Dichtefunktion t! 2d=2 d t2 (d=2) 1 exp [ t=2] : m mit Wir betrachten nun die Euklidsche Norm unter der Normalverteilung auf 0 R 1 p p1 B C Kovarianzmatrix 0 . Diese Kovarianzmatrix ist singular: Für den Vektor v = @ ... A p pm P gilt wegen j pj = 1 die Gleichung X p p X 0 pj ) pj pj pk = 0; jk vk = (1 k:k6=j k d.h. 0 v = 0: Ist w ein beliebiger Vektor der Länge 1 in Rm ; der senkrecht auf v steht, so folgt X Xp Xp wT 0 w = wi2 (1 pi ) pi wi pj wj i = X i wi2 (1 pi ) + i X j:j6=i pi wi2 = i X wi2 = 1: i Ergänzen wir also v1 = v mit v2 ; : : : ; vm zu einer orthonormierten Basis, so gilt viT Ist also ein nach N (0; 0) 0 1 fu •r i = j 0 sonst vj = 2 verteilter Zufallsvektor, so schreiben wir ihn als = m X i=1 h ; vi i vi : h ; v1 i hat Varianz 0 und ist demzufolge 0 f.s.. h ; vi i für i standard normalverteilt. Demzufolge ist j j2 = 2 -verteilt mit m m X i=2 2 sind unabhängig und h ; vi i2 1 Freiheitsgraden. Unter Anwendung von Lemma 6.9 erhalten wir also 118 Satz 6.22 (n) wobei 2 m 1 die 2 -Verteilung m Ni X npi 2 w ! 2 m 1 i=1 npi mit m 1 Freiheitsgraden bezeichnet. Die Zum Schluss des Kapitels diskutieren wir noch den Zusammenhang von Verteilungskonvergenz mit der Konvergenz in Wahrscheinlichkeit. Wie bisher sei (S; d) ein metrischer Raum. Es soll nun de…niert werden, was es heisst, dass eine Folge fXn gn von (S; BS )-wertigen Zufallsgrössen in Wahrscheinlichkeit gegen eine Zufallsgrösse X konvergiert. Naheliegend ist es, die reellwertige Zufallsgrösse d(Xn ; X) zu betrachten. Ist das stets eine Zufallsgrösse? Leider nicht in jedem Fall! Man mussdazu voraussetzen, dass S separabel ist. Ist (S; d) ein metrischer Raum, so betrachten wir den Produktraum (S S; d0 ), wobei d0 ((x1 ; x2 ); (y1 ; y2 )) = (d(x1 ; y1 )2 + d(x2 ; y2 )2 )1=2 sei. Lemma 6.23 Ist S separabel, so ist BS S = BS BS . Beweis. Jede Produktmenge A B, wobei A S und B S o¤en sind, ist o¤en in S S, das heisst sie liegt in BS S . Da diese Mengen BS BS erzeugen, folgt BS BS BS S . Ist S separabel, so existiert eine abzählbare Basis f Ui : i 2 N g der Topologie von S, und fUi Uj : i; j 2 Ng ist dann eine abzählbare Basis der Topologie von S S. Somit ist jede o¤ene Teilmenge von S S in BS BS enthalten, das heisst: BS S BS BS . Sind nun X und Y zwei (S; BS )-wertige Zufallsgrössen, so ist (X; Y ) eine (S S; BS BS )-wertige Zufallsgrösse. Die Abbildung d : S S ! R ist d0 -stetig, also BS S -Bmessbar. Somit ist die folgende De…nition sinnvoll: De…nition 6.24 Es sei S separabel und X sowie Xn für n 2 N Zufallsgrössen mit Werten in (S; BS ). Wir sagen, die Folge fXn gn konvergiere in Wahrscheinlichkeit gegen X, falls d(Xn ; X) in Wahrscheinlichkeit gegen 0 konvergiert, das heisst wenn für alle " > 0 gilt: limn!1 P (d(Xn ; X) ") = 0. Proposition 6.25 w Konvergiert Xn in Wahrscheinlichkeit gegen X, so gilt L(Xn ) ! L(X). Beweis. Die Proposition ist ein Korollar das nachfolgenden Lemmas. Die Umkehrung dieses Satzes ist nicht richtig (Übungsaufgabe). Lemma 6.26 Es sei S separabel, und fXn gn und fXn0 gn seien zwei Folgen von (S; BS )-wertigen Zuw fallsgrössen. Gelten L(Xn ) ! und d(Xn ; Xn0 ) ! 0 in Wahrscheinlichkeit, so gilt w 0 L(Xn ) ! . 119 Beweis. Sei F S abgeschlossen. Für " > 0 sei F " := fx 2 S : d (x; F ) ebenfalls abgeschlossen und es gilt F " # F für " # 0: Somit gilt "g : F " ist P (Xn 2 F " ) + P d Xn ; Xn0 > " : P Xn0 2 F Der zweite Summand geht nach Voraussetzung für jedes " > 0 gegen 0 für n ! 1: Somit folgt lim sup P Xn0 2 F lim sup P (Xn 2 F " ) (F " ) ; n!1 und wegen (F " ) # n!1 (F ) folgt lim sup P Xn0 2 F n!1 120 (F ) :