Einführung in die Stochastik Universität Zürich Wintersemester 2003/2004 Erwin Bolthausen Literatur: Die Literatur über Wahrscheinlichkeitsrechnung ist immens. Hier nur eine kleine Auswahl: W. Feller: An Introduction to Probability Theory and Its Applications Das ist der Klassiker. Die Paperback-Version ist leider vergri¤en, sodass das Buch ziemlich teuer ist. D. Williams: Probability with Martingales G. Grimmett, D. Stirzaker: Probability and Random Processes H.O. Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik 1 Diskrete Wahrscheinlichkeitsräume In diesem Kapitel wird der Begri¤ “Wahrscheinlichkeit”mathematisch präzisiert. Zufallsereignissen werden dabei Wahrscheinlichkeiten zugeordnet. (Man spricht dann von der “Wahrscheinlichkeit eines Ereignisses”). Auf die naheliegende Frage, was Wahrscheinlichkeiten “wirklich” sind, werden wir jedoch nur sehr rudimentär eingehen, weil wir dann zuerst erklären müssten, was “Zufall” ist. Bekanntlich gibt es philosophische und religiöse Systeme, die dem Zufall keinen Platz einräumen. Um Auseinandersetzungen zu diesen Fragen zu vermeiden, legt die Mathematik nur Regeln fest, nach denen mit Wahrscheinlichkeiten umgegangen wird. Was diesen in der Wirklichkeit entspricht und ob überhaupt irgend etwas, bleibt dem Einzelnen überlassen zu entscheiden. Natürlich wird in diesem Text dieser Standpunkt nicht konsequent durchgehalten, und wir werden des öfteren Interpretationen von Wahrscheinlichkeiten “vorschlagen”. In einem Anhang 1.A zu diesem Kapitel werden einige Erläuterungen zu verschiedenen Ansätzen gegeben. Zunächst muss der Begri¤ “Ereignis” präzisiert werden. Am besten zerlegt man die Ereignisse gewissermassen in Atome, in die sogenannten Elementarereignisse: die kleinsten Ereignisse, die in einer bestimmten Situation interessant oder von Bedeutung 1 sind. Die Festlegung, was in einer Situation die Elementarereignisse sind, ist teilweise willkürlich. Formal sind die Elementarereignisse einfach die Elemente einer (zunächst) endlichen oder abzählbaren Menge, die meist mit bezeichnet wird. Die Wahrscheinlichkeitender Elementarereignisse ! 2 sind Zahlen p(!) zwischen 0 und 1, die sich auf 1 aufsummieren. De…nition 1.1 Ein diskreter Wahrscheinlichkeitsraum ( ; p) besteht aus einer endlichen oder abP zählbar unendlichen Menge und einer Abbildung p : ! [0; 1], für die !2 p(!) = 1 gilt. Da alle p(!) P 0 sind, spielt selbst im Fall, wenn unendlich ist, die Reihenfolge der Summation in !2 p(!) keine Rolle. Genau genommen handelt es sich um einen Grenzwert. Man wählt zunächst P Pn eine Abzählung ! 1 ; ! 2 ; : : : der Elemente von . Dann ist p(!) = lim n!1 !2 i=1 p(! i ), wobei der Grenzwert nicht von der gewählten Abzählung abhängt, da die p(!) 0 sind. Soweit ist mathematisch alles sehr einfach. Falls mit Wahrscheinlichkeitsräumen konkrete Zufallssituationen modelliert werden sollen, so gibt es in der Regel mehr als eine “vernünftige” Wahl für einen Wahrscheinlichkeitsraum. Man wählt oft so, dass die einzelnen Elementarereignisse ! 2 als gleich wahrscheinlich erscheinen, was natürlich nur möglich ist, wenn endlich ist. In diesem Fall erhalten alle Elementarereignisse ! den Wert p (!) = 1= j j : Einige Beispiele dazu: Beispiele 1.2 1. Beim Würfeln mit einem Würfel wählt man = f1; 2; 3; 4; 5; 6g. Dabei ist i 2 das Elementarereignis, dass die Zahl i geworfen wird. Ist der Würfel nicht gezinkt, so wird man p(i) = 1=6 für alle i 2 setzen. 2. Als Elementarereignisse beim Würfeln mit 2 Würfeln fassen wir alle möglichen Kombinationen von Augenzahlen auf. besteht in diesem Fall aus 36 Elementarereignissen: = f(1; 1); (1; 2); : : : ; (6; 6)g = f1; 2; 3; 4; 5; 6g2 . Wir setzen p((i; j)) = 1=36 für jedes Elementarereignis. 3. Ein Stapel mit n Karten wird gut gemischt. Wir denken uns die Karten von 1 bis n durchnumeriert. Die Elementarereignisse sind die möglichen Reihenfolgen dieser n Karten, etwa bei n = 3: = f(1; 2; 3); (1; 3; 2); (2; 1; 3); (2; 3; 1); (3; 1; 2); (3; 2; 1)g: Bei guter Mischung wird man jede Reihenfolge als gleich wahrscheinlich betrachten können. Jedes Elementarereignis hat dann Wahrscheinlichkeit 1=n!. Natürlich sollen nicht nur den Elementarereignissen Wahrscheinlichkeiten zugeordnet werden, sondern auch zusammengesetzten Ereignissen, etwa in Beispiel 1.2.2 oben dem Ereignis, dass die beiden Augenzahlen gleich sind. Ereignisse sind einfach Zusammensetzungen von Elementarereignissen. In mathematischer Formulierung: 2 De…nition 1.3 ( ; p) sei ein Wahrscheinlichkeitsraum. Die Teilmengen von heissen Ereignisse. Für P ein Ereignis A ist die Wahrscheinlichkeit von A de…niert durch P (A) = !2A p(!). Die leere Menge ; ist das sogenannte unmögliche Ereignis, es hat Wahrscheinlichkeit P (;) = 0. Die Grundmenge ist das sichere Ereignis. Dieses hat die Wahrscheinlichkeit P ( ) = 1: Es hat sich eingebürgert, Ereignisse mit grossen lateinischen Buchstaben vom Anfang des Alphabets zu bezeichnen: A; B; C; : : : . Die Wahrscheinlichkeit wird meist mit einem grossen P (englisch “probability”) bezeichnet. Es mag etwas verwirren, dass Ereignisse Teilmengen sind. Am anschaulichsten ist vielleicht die folgende Vorstellung: Das zufällige Geschehen besteht in der zufälligen Auswahl eines Elementarereignisses. Eine Teilmenge A von entspricht dann dem Ereignis, dass dieses zufällig gewählte Elementarereignis in A liegt. Mengenoperationen entsprechen mithin aussagenlogischen Operationen gemäss der folgenden Übersetzungstabelle: Sprache der Ereignisse A; B; C sind Ereignisse A und B A oder B nicht A A und B schliessen sich aus A impliziert B Mengenschreib- bzw. Sprechweise A; B; C sind Teilmengen von A\B A[B Ac = n A A\B =; A B Für jedes Elementarereignis ! ist die Menge f!g o¤enbar ein Ereignis, das sich formal mathematisch von ! unterscheidet. Elementarereignisse sind formal nach unserer De…nition keine Ereignisse. Sowohl p(!) als auch P (f!g) bezeichnen die Wahrscheinlichkeit von ! 2 . Diese Unterscheidung ist natürlich etwas spitz…ndig, und wir werden darauf nicht herumreiten. Wahrscheinlichkeiten genügen einigen einfachen Regeln, die im nächsten Satz aufgelistet sind. Satz 1.4 Es sei ( ; p) ein Wahrscheinlichkeitsraum. 1. Für jedes Ereignis A gilt 0 P (A) 1: 2. P (;) = 0, P ( ) = 1. 3. Sind Ereignisse Ai für i 2 N paarweise disjunkt (d.h. Ai \ Aj = ; für i 6= j), so gilt P [ i2N Ai = 1 X i=1 3 P (Ai ): (1.1) 4. In 3. ohne die Voraussetzung, dass die Ai paarweise disjunkt sind, gilt P [ i2N 1 X Ai P (Ai ): (1.2) i=1 5. A B ) P (B) = P (A) + P (B n A): 6. A B ) P (A) P (B): 7. P (A [ B) = P (A) + P (B) P (A \ B): Die Eigenschaft (1.1) nennt man auch -Additivität und die Eigenschaft (1.2) nennt man -Subadditivität. Bemerkung 1.5 Gilt An+1 = An+2 = P [n i=1 = ; für ein n Ai = n X P (Ai ) 1, so besagen c) und d) bzw: i=1 P [n i=1 Ai n X P (Ai ): i=1 Dies nennt man auch die endliche Additivität bzw. endliche Subadditivität. Beweis von Satz 1.4. S 1. und 2. folgen sofort aus der De…nition. 3., 4.: Jedes ! 2 1 i=1 Ai gehört zu mindestens einem der Ai und zu genau einem, wenn die Ai paarweise disjunkt sind. Demzufolge gilt P [ i2N Ai = !2 X S p(!) = 1 X X i=1 !2Ai i2N Ai p(!) = 1 X P (Ai ); i=1 wenn die Ai paarweise disjunkt sind. Im Fall 4. ist das mittlere Gleichheitszeichen durch „ “ zu ersetzen, denn die p(!)’s werden in der Summe auf der rechten Seite eventuell mehrfach gezählt, nämlich einmal für jede Menge Ai , die das entsprechende ! enthält. 5. Es gelten B = A [ (B n A) und A \ (B n A) = ;. Somit ist nach 3. P (B) = P (A) + P (B n A). 6. folgt aus 5. und P (B n A) 0. 7. Wir haben die folgenden Zerlegungen in disjunkte Teilmengen: A [ B = (A n B) [ B und A = (A n B) [ (A \ B): 4 Nach 5. gelten: P (A [ B) = P (A n B) + P (B); P (A) = P (A n B) + P (A \ B): Subtrahiert man die zweite Gleichung von der ersten, so folgt 7. Beispiele 1.6 1. In Beispiel 1.2.2 wird man jedem Elementarereignis die Wahrscheinlichkeit 1=36 zuordnen. Für jedes Ereignis A ist P (A) = jAj=36, wobei jAj die Anzahl der Elemente in A ist. Sei z.B. A = f(1; 1); (2; 2); : : : ; (6; 6)g das Ereignis, dass die Augenzahlen gleich sind. Dann ist P (A) = 6=36 = 1=6. 2. In einem Kartenspiel mit einer geraden Anzahl (= 2n) von Karten be…nden sich 2 Joker. Nach guter Mischung werden die Karten in zwei gleich grosse Haufen aufgeteilt. Wie gross ist die Wahrscheinlichkeit, dass beide Joker im gleichen Haufen sind? Wir wählen = f (i; j) 2 f1; 2; : : : ; 2ng2 : i 6= jg als Menge der Elementarereignisse. Hierbei ist (i; j) 2 das Elementarereignis, dass sich der erste Joker am Platz i und der zweite am Platz j be…ndet. Nach guter Mischung hat jedes dieser Elementarereignisse die Wahrscheinlichkeit p((i; j)) = 1=j j = 1=2n(2n 1). Das uns interessierende Ereignis ist A = f (i; j) 2 f1; 2; : : : ; ng2 : i 6= jg [ f(i; j) 2 fn + 1; : : : ; 2ng2 : i 6= jg: Dieses enthält 2 n(n 1) Elementarereignisse. Somit ist P (A) = 2n(n 1) 2n(2n 1) = n 1 2n 1 : 3. Eine Münze wird n-mal geworfen. sei die Menge der n-Tupel, bestehend aus “Zah” und “Kopf”. Somit ist j j = 2n . Haben alle n-Tupel gleiche Wahrscheinlichkeiten, so hat jedes Elementarereignis Wahrscheinlichkeit 2 n . Es sei Ak das Ereignis, dass k-mal „Zahl“ fällt. Ak enthält nk Elementarereignisse. Es gilt also P (Ak ) = nk 2 n : 4. Urnenmodell: In einer Schachtel (Urne) be…nden sich r rote und s schwarze Kugeln. Eine Kugel wird zufällig herausgenommen. Mit welcher Wahrscheinlichkeit ist sie rot? Wir denken uns die Kugeln von 1 bis r + s durchnumeriert. Die Kugeln mit den Nummern 1 bis r sind rot; die anderen schwarz. Für nehmen wir die Menge f1; 2; : : : ; r + sg. Dann ist i 2 das Elementarereignis, dass die Kugel i gezogen wird. Diese Elementarereignisse sind nach guter Mischung gleich wahrscheinlich. Unser Ereignis enhält r Elementarereignisse. Seine Wahrscheinlichkeit ist also r=(r + s). Die Festlegung der Wahrscheinlichkeiten der Elementarereignisse ist ein aussermathematisches Problem. In den bisherigen Beispielen hatten die Elementarereignisse jeweils alle die gleichen Wahrscheinlichkeiten. Dies ist vernünftig, wenn alle Elementarereignisse als “gleich möglich”erscheinen, oder wenn kein Grund für eine Ungleichbehandlung der 5 Elementarereignisse vorliegt. Tatsächlich wählt man die Zerlegung in Elementarereignisse oft unter diesem Gesichtspunkt. Ein Beispiel dazu: Jemand wirft zwei Würfel. Interessiert er sich nur für die Augensumme, so kann er als Elementarereignisse die möglichen Ergebnisse dafür nehmen: = f2; 3; 4; : : : ; 12g. Es ist o¤ensichtlich, dass diese Elementarereignisse nicht gleichwertig sind. Deshalb nimmt man besser die Elementarereignisse aus Beispiel 1.2.2. In vielen Fällen wäre die Festlegung, dass alle Elementarereignisse gleich wahrscheinlich sind, aber ganz unsinnig. Als Beispiel betrachten wir das Problem festzulegen, wie gross die Wahrscheinlichkeit ist, mit der etwa ein produziertes Werkstück in einem Fertigungsprozess defekt ist. In Fällen, wo man auf lange Produktionsreihen zurückgreifen kann, setzt man die Wahrscheinlichkeit als die relative Häu…gkeit des Defekts an. Eine gewisse theoretische Begründung für diesen Ansatz gibt das Gesetz der grossen Zahlen (siehe Kapitel 3). Sind etwa bei der Produktion von 10 000 Werkstücken 200 defekt gewesen, so wird man die Wahrscheinlichkeit als 0,02 annehmen. Dabei handelt es sich nicht um eine „Naturkonstante“, sondern lediglich um eine Arbeitshypothese, die gegebenenfalls wieder revidiert werden muss. Das Vertrauen, das man zu einem über relative Häu…gkeiten ermittelten Wert für eine Wahrscheinlichkeit hat, hängt natürlich auch von der Anzahl der Versuche ab. Es ist z.B. klar, dass 200 Defekte auf 10 000 aussagekräftiger ist, als 2 auf 100. Eine genauere Diskussion derartiger Probleme gehört in die Statistik. (siehe auch die Diskussion im Anhang 1.A). Nun ein Beispiel mit einem unendlichen Wahrscheinlichkeitsraum: Beispiel 1.7 Eine Münze wird so lange geworfen, bis zum erstenmal “Kopf”fällt. Wir wählen als die natürlichen Zahlen N. Das Elementarereignis i 2 N bedeutet, dass zum erstenmal beim iten Wurf “Kopf”fällt. Wie gross ist p(i)? Dass i eintritt, ist auch ein Elementarereignis in unserem Beispiel 1.6, 3., nämlich, dass zunächst (i 1)-mal “Zahl”fällt undPdann “Kopf”. Somit ist p(i) = 2 i . Die p(i) erfüllen die Bedingung in De…nition 1.1: i2N p(i) = 1. Also ist ( ; p) ein Wahrscheinlichkeitsraum. In unserem Modell ist das Ereignis, dass “Kopf” nie fällt, das unmögliche Ereignis. Die Wahl von in diesem Beispiel erscheint etwas künstlich. In der Tat wählt man meist für die Menge der unendlich fortgesetzten Münzwürfe, d.h. fK; ZgN : Da diese Menge nicht mehr abzählbar ist, ist es aber nicht mehr möglich, im Rahmen der De…nition 1.1 zu arbeiten. Siehe dazu Satz 2.19 und die dazugehörige Diskussion im nächsten Kapitel. Zum Schluss noch eine Verallgemeinerung von Satz 1.4.7: A1 ; : : : ; An seien n Ereignisse. A1 [ [ An ist das Ereignis, dass mindestens eines der Ai eintritt. 6 Satz 1.8 (Ein- und Ausschlussprinzip) Sei n 2 und A1 ; : : : ; An . Dann gilt P (A1 [ [ An ) = n X X P (Ai ) i=1 P (Ai1 \ Ai2 ) + i1 <i2 n 1 + ( 1) X i1 <i2 <i3 P (A1 \ A2 \ P (Ai1 \ Ai2 \ Ai3 ) \ An ): Beweis. Induktion nach n: Für n = 2 ist dies Satz 1.4.7. Induktionsschluss: P (A1 [ [ An+1 ) = P (A1 [ [ An ) + P (An+1 ) P ((A1 [ [ An ) \ An+1 ) und nochmals nach Satz 1.4.7. folgt P (A1 [ [ An+1 ) = n+1 X P (Ai ) i=1 + X X 1 i1 <i2 n 1 i1 <i2 <i3 n P (Ai1 \ Ai2 ) P (Ai1 \ Ai2 \ Ai3 ) P ((A1 \ An+1 ) [ (A2 \ An+1 ) [ ::: [ (An \ An+1 )) nach Induktionsvoraussetzung und dem Distributivgesetz für Mengenoperationen. Wendet man auf den letzten Summanden nochmals die Induktionsvoraussetzung an, so folgt die Behauptung. Beispiel 1.9 Als Anwendung des Ein- und Ausschlussprinzips lösen wir das folgende Problem: Ein Briefschreiber verfasst n Briefe und beschreibt auch schon n Umschläge mit Anschriften. In einem Akt der Zerstreutheit steckt er jedoch die Briefe ganz zufällig in die Umschläge und sendet sie ab. Mit welcher Wahrscheinlichkeit kommt kein Brief richtig an? Wir numerieren sowohl Briefe wie Umschläge von 1 bis n durch. Der Brief i gehört zum Umschlag i. sei die Menge aller Permutationen (das heisst der bijektiven Selbstabbildungen) von f1; : : : ; ng. Mit (i) bezeichnen wir die Nummer des Umschlages, in den Brief i gesteckt wird. Die Zerstreutheit des Abpackers kommt darin zum Ausdruck, dass wir jeder möglichen Permutation die gleiche Wahrscheinlichkeiten 1=n! zuweisen. Wir interessieren uns dann für P (A), A=f 2 : (i) 6= i 8 i g: Es erweist sich als zweckmässig, das Gegenereignis Ac zu untersuchen: Ac = n [ i=1 7 Bi ; wobei Bi das Ereignis ist, dass der Brief i richtig eingesteckt ist: Bi = f Nun verwenden wir den vorherigen Satz 1.8: ! n n [ X X P Bi = P (Bi ) P (Bi1 \ Bi2 ) + + ( 1)n+1 P (B1 \ i=1 i=1 i1 <i2 : (i) = i g. \ Bn ): Das sieht nun sehr kompliziert aus, ist es aber nicht: Für 1 k n und i1 < < ik ist Bi1 \ \ Bik das Ereignis, dass die Briefe i1 ; : : : ; ik im richtigen Umschlag sind. Das lässt die Zuordnung der n k restlichen völlig o¤en. Bi1 \ \ Bik enthält also (n k)! Elementarereignisse, hat also Wahrscheinlichkeit (n k)!=n!. Demzufolge ist X i1 < <ik P (Bi1 \ \ Bik ) = 1 n (n k)! = : n! k! k Daher ist P (A) = 1 P (Ac ) = 1 = Für grosse n ist das ' 1 e 1 2! 1 1 1 + + + ( 1)n+1 2! 3! n! 1 1 1 + + + ( 1)n : 3! 4! n! 1 1. Zum Abschluss des Kapitels noch einige (im Moment mehr abstrakte) Erläuterungen zum Begri¤ des Wahrscheinlichkeitsraums. Es bezeichne P( ) die Potenzmenge von . Dann ist P eine Abbildung von P( ) nach [0; 1], die gemäss Satz 1.4 den folgenden Kolmogoro¤schen Axiomen genügt. Axiom 1.10 P ( ) = 1: Axiom 1.11 Ist I eine höchstens abzählbare Indexmenge und (Ai )i2I eine Familie von paarweise disjunkten Teilmengen von so gilt [ X P ( Ai ) = P (Ai ): i2I i2I Ist eine abzählbare Menge, so legt eine Abbildung P : P( ) ! [0; 1], die die Axiome 1.10 und 1.11 erfüllt, legt einen Wahrscheinlichkeitsraum im Sinne von De…nition 1.1 eindeutig fest, wie die folgende Überlegung zeigt: Wegen P ( ) = P ( [;) = P ( )+P (;) (nach 1.11) folgtPP (;) = 0. Für ! 2 sei p(!) de…niert durch P (f!g). Wegen 1.11 gilt . Mit A = folgt somit aus Axiom 1.10 dann P (A) = !2A p(!) für alle A P p(!) = 1. Also ist ( ; p) ein Wahrscheinlichkeitsraum im Sinne von De…nition !2 1.1 und P (A) berechnet sich gemäss der De…nition 1.3. Unsere De…nition 1.3 ist also gleichbedeutend damit, dass P : P( ) ! [0; 1] mit 1.10 und 1.11 gegeben ist. 8 Die Bedeutung des Kolmogoro¤schen Aufbaus liegt darin, dass er sich auf überabzählbare Mengen verallgemeinern lässt. Überabzählbare Wahrscheinlichkeitsräume sind für die weiterführende Theorie unerlässlich. Obwohl wir sie in dieser Vorlesung nur am Rande benötigen werden, sollen einige Erklärungen dazu schon hier vorgestellt werden. Die naheliegenste Idee ist die folgende: Sei eine beliebige Menge. Dann bezeichnen wir einfach eine Abbildung P : P( ) ! [0; 1] mit den Axiomen 1.10 und 1.11 als eine Wahrscheinlichkeit auf P( ) und zwar ganz unabhängig davon, ob wir diese wie in De…nition 1.3 durch Summation über Elementarereignisse gewinnen können. Man nennt P dann meist ein Wahrscheinlichkeitsmass. Soweit ist das ganz einfach. Die Tücke ist jedoch, dass für die meisten Situationen eine derartiges Wahrscheinlichkeitsmass gar nicht existiert. Der Ausweg besteht dann darin, dass man P nicht auf ganz P( ) de…niert sondern nur auf einem kleineren Mengensystem, das jedoch alle Teilmengen von enthält, die einem “vernünftigerweise” interessieren. Dies führt auf die folgenden abstrakten De…nitionen: De…nition 1.12 Sei eine beliebige (nicht leere) Menge. 1. Eine Teilmenge F P ( ) nennt man eine -Algebra, wenn die folgenden Bedingungen erfüllt sind: (a) ?; 2 F (b) Ist A 2 F so ist auch das Komplement Ac 2 F: (c) Sind Mengen Ai 2 F; i 2 I; wobe I eine abzählbare Indexmenge ist, so ist S auch i2I Ai 2 F: Die Elemente von F; d.h. die Teilmengen von Ereignisse. ; die zu F gehören, nennt man die 2. Sei versehen mit einer -Algebra F: Eine Abbildung P : F ! [0; 1] heisst ein Wahrscheinlichkeitsmass auf F; wenn die Axiome 1.10 und 1.11 erfüllt sind, wobei in Axiom 1.11 die Ai in F sind. Das Trippel ( ; F; P ) nennt man dann eine Wahrscheinlichkeitsraum. Diese allgemeine und abstrakte De…nition hat für uns im Moment keine grosse Bedeutung und wir kommen für die nächsten Kapitel weitgehend mit der elementaren De…nition 1.1 aus. Es wird sich jedoch zeigen, dass die elementare De…nition eines Wahrscheinlichkeitsraumes auf die Dauer nicht ausreichen wird. Es sollte betont werden, dass die Einschränkung auf Ereignisse, die in F liegen aus rein mathematischen Gründen erfolgt, wie wir später sehen werden. Mit den Beispielen, die wir im Moment haben, können wir dies nicht motivieren. Noch eine Bemerkung zu -Algebren: Diese sind natürlich nicht nur abgeschlossen gegenüber abzählbaren Vereinigungen sondern auch gegenüber abzählbaren Durschnitten: Sind Ai 2 F; i 2 I; wobe I abzählbar ist, so gilt [ \ c (1.3) Aci 2 F Ai = i2I i2I nach den obigen Eigenschaften einer -Algebra. 9 1.A Anhang: Was sind Wahrscheinlichkeiten “wirklich”? Obwohl wir hier nicht ausführlich darauf eingehen wollen, was Zufall und Wahrscheinlichkeiten “wirklich” sind, sollen hier die wichtigsten Konzepte kurz dargestellt werden. 1. Laplace Konzept: Das ist einfach das hier schon vorgestellte Verfahren: Wahrscheinlichkeit gleich Anzahl günstiger Fälle dividiert durch Anzahl möglicher Fälle. Die Reichweite dieser Methode, Wahrscheinlichkeiten festzulegen, ist o¤ensichtlich ziemlich beschränkt. 2. Frequentistische Wahrscheinlichkeiten: Wir gehen davon aus, dass ein Zufallsexperiment unter gleichbleibenden Bedingungen oft wiederholt werden kann. Wahrscheinlichkeiten werden dann als die relativen Häu…gkeiten de…niert, mit der ein Ereignis auftritt. Wenn Sie einen Würfel 1000 mal werfen und er fällt 400 mal auf die Drei, so setzen sie mit diesem Ansatz die Wahrscheinlichkeit für “Drei” gleich 0:4; in Abweichung vom Laplaceschen Ansatz. Dieser frequentistische Ansatz ist in den Naturwissenschaften sehr beliebt. Die Problematik besteht natürlich darin, dass meist nicht genau präzisiert ist, was “unter gleichbleibenden Bedingungen” genau bedeutet. 3. Subjektivistische Wahrscheinlichkeiten: Es ist o¤ensichtlich, dass man manchmal von Wahrscheinlichkeiten sprechen möchte, wenn man auf keine langen Versuchsreihen zurückblicken kann und schon gar nicht auf solche, bei denen die Einzelversuche “unter gleichbleibenden Bedingungen” stattgefunden haben. Ein Kriminalkommissar hat in einem Mordfall einen Verdächtigen X im Auge und sagt, dieser sei mit 60% Wahrscheinlichkeit der Täter. Der Kommissar hat vielleicht viel Erfahrung und will damit zum Ausdruck bringen, dass “unter vergleichbaren Umständen” ein entsprechend Verdächtiger in 60% der Täter war. In vielen Fälle ist jedoch eine solche Auszählung der Fälle nicht wirklich möglich und sinnvoll. Die Aussage des Kommissars ist daher eher eine subjektive Einschätzung, die (ho¤entlich) auf einer gewissen Erfahrung basiert. Nachdem während langer Zeit solche “subjektiven Wahrscheinlichkeiten” als unwissenschaftlich galten, wurden sie vor allem von de Finetti propagiert, der die Existenz von “objektiven” Wahrscheinlichkeiten abstritt: Hier der Beginn seines Buches Theory of Probability (1974): My thesis [...] is simply this: PROBABILITY DOES NOT EXIST. The abandonment of superstitious beliefs about the existence of the Phlogiston, the Cosmic Ether, Absolute Space and Time, or Fairies and Witches, was an essential step along the road to scienti…c thinking. Probability, too, if regarded as something endowed with some kind of objective existence, is no less a misleading misconception, an illusory attempt to exteriorize or materialize our true probabilistic beliefs. Die Thesen de Finettis haben hitzige Debatten ausgelöst1 . Natürlich wollte auch de Finetti nicht auf Wahrscheinlichkeiten verzichten. Die “Wissenschaftlichkeit” 1 allerdings kaum unter Mathematikern, die sich üblicherweise erst nach der Pensionierung mit solchen “weltanschaulichen” Themen auseinandersetzen. de Finetti war allerdings ein Mathematiker. 10 seiner Wahrscheinlichkeiten bestand allerdings darin, dass ein Subjekt die Wahrscheinlichkeiten auf rationale Weise aufgrund der Erfahrung modifziert. Für diese Modi…kation spielt die Bayes-Formel, die wir im nächsten Kapitel diskutieren, eine bedeutende Rolle. Wir wollen im Moment darauf nicht nächer eingehen; klar ist jedoch, dass wenn unser Kommissar mit seinen Prognosen über Täter stets zu optimistisch liegt, er seine “subjektiven Wahrscheinlichkeiten” modi…zieren sollte. Allerdings hat man in Experimenten festgestellt, dass die meisten Menschen nicht nach den de Finetti-Regeln verfahren. Die de Finetti Konzepte hatten grosse Auswirkungen auf die Entwicklung der Statistik. Auch wenn man den philosophischen Standpunkt von ihm nicht teilt, kann man feststellen, dass die von ihm propagierten statistischen Verfahren (die Bayes-Statistik) sich aus praktischen Gründen sehr weit durchgesetzt haben. 1.B Anhang: Einige historische Anmerkungen Obwohl eigentlich kaum zweifelhaft ist, dass Überlegungen zu Wahrscheinlichkeiten gemacht wurden, seit es Glücksspiele gibt, steht die erste wissenschaftliche Erwähnung von Wahrscheinlichkeiten erst in einem Werk von Girolamo Cardano (1501-1576) Liber de Ludo Aleae (1565), der in der Mathematik vor allem mit seinen Untersuchungen über die kubische Gleichung Ruhm erlangt hat. Das Werk über Glücksspiele wurde jedoch erst 1665 publiziert. Cardano hatte in jungen Jahren das Vermögen, das ihm sein Vater hinterlassen hatte, verschleudert und bestritt daraufhin während einer gewissen Zeit seinen Lebensunterhalt mit Glücksspielen. Sein Verständnis von Wahrscheinlichkeiten ermöglichte ihm, beim Spiel mehr zu gewinnen als zu verlieren. Da heutzutage Kenntnisse über Wahrscheinlichkeiten weiter verbreitet sind als zu Cardanos Zeiten, ist das leider nun kaum mehr möglich. Im allgemeinen datiert man den Beginn der wissenschaftlichen Beschäftigung mit Wahrscheinlichkeiten jedoch auf einen Briefwechsel zwischen Blaise Pascal (1623-1662) und Pierre de Fermat (1601-1665) im Jahre 1654. Fermat analysiert darin ein Problem, das ihm von einem professionellen Glücksspieler, dem Herrn von de Méré gestellt wurde, wobei sich Fermat über das mangelnde Verständnis über Wahrscheinlichkeiten dieses Spielers mokiert. Nicht viel später (1656) verfasste Christiaan Huygens (1629-1675) eine Schrift über Wahrscheinlichkeitsrechnung, die sich im wesentlichen ebenfalls mit Glücksspielen beschäftigt und die Diskussionen von Fermat und Pascal weiterführt. Dass Wahrscheinlichkeiten zur damaligen Zeit fast ausschliesslich im Zusammenhang mit Glücksspielen gesehen wurden, braucht angesichts eines verbreiteten mechanistischen Weltbildes nicht zu verwundern. Naturgesetze, die probabilistische Aussagen machten, wie etwa heute die Quantenmechanik oder die Statistische Physik, waren damals undenkbar. Hier eine Galerie der wichtigsten Akteure dieser frühen Periode der Wahrscheinlichkeitstheorie: 11 Girolamo Cardano Pierre de Fermat Christiaan Huygens Blaise Pascal 12 2 Bedingte Wahrscheinlichkeiten, Unabhängigkeit Ein wichtiges Werkzeug in der Wahrscheinlichkeitstheorie ist die sogenannte “bedingte Wahrscheinlichkeit”. Dazu ein Beispiel: Wir betrachten das Beispiel 1.2.4 aus Kapitel 1, wobei die Kugeln der Schachtel nun aber mehrere Merkmale tragen können, z.B. die Farbe “rot” oder “schwarz” und das Material aus dem sie bestehen: die Kugeln seien entweder aus Metall oder aus Holz. A sei das Ereignis, dass die gezogene Kugel rot ist, und B sei das Ereignis, dass sie aus Holz ist. Jemand greift zufällig in die Schachtel, spürt, dass die Kugel aus Holz ist. Mit welcher Wahrscheinlichkeit ist “gegeben dieses Vorwissen”, die gezogene Kugel rot. Man nennt das die bedingte Wahrscheinlichkeit für A gegeben B: Sei r die Anzahl der roten, s die Anzahl der schwarzen Kugeln. Die Gesamtzahl der Kugeln sei n = r + s: Ferner sei h die Anzahl der hölzernen Kugeln und m die Anzahl der metallenen Kugeln, wobei wieder n = m+h gilt. Dann ist P (A) = r=n und P (B) = h=n: Die bedingte Wahrscheinlichkeit können wir aufgrund dieser Angaben jedoch nicht bestimmen; es könnte ja z.B. sein, dass die Kugeln exakt gemäss dem Material angemalt sind. O¤ensichtlich müssen wir die Anzahl nr;h der Kugeln, die sowohl rot wie aus Holz sind durch die Anzahl der Holzkugeln dividieren. Die gesuchte bedingte Wahrscheinlichkeit ist also nr;h nr;h =n P (A \ B) = = : r r=n P (B) Dies führt auf die folgende allgemeine De…nition: De…nition 2.1 Sei B ein Ereignis mit P (B) > 0. Für jedes Ereignis A heisst P (AjB) := P (A \ B)=P (B) die bedingte Wahrscheinlichkeit für A gegeben B . Der nachfolgende Satz gibt einige einfache Eigenschaften an: Satz 2.2 Es seien A; B 1. A mit P (B) > 0. Dann gilt: B ) P (AjB) = 1. 2. B \ A = ; ) P (AjB) = 0. 3. Sind die Ereignisse Ai , i 2 N, paarweise disjunkt, so gilt P 4. P (Ac jB) = 1 [1 i=1 Ai B = 1 X i=1 P (AjB). Beweis. 1. und 2. folgen sofort aus der De…nition. 13 P (Ai jB): 3.: P S S P (( 1 P( 1 i=1 Ai ) \ B) i=1 (Ai \ B)) Ai B = = i=1 P (B) P (B) 1 1 X P (Ai \ B) X = P (Ai jB): = P (B) [1 i=1 i=1 4.: Wegen A \ Ac = ; gilt nach 3 P (AjB) + P (Ac jB) = P (A [ Ac jB) = P ( jB) = 1: Die bedingten Wahrscheinlichkeiten lassen sich auch als normale Wahrscheinlichkeiten darstellen, indem man die Wahrscheinlichkeiten der Elementarereignisse abändert: Bei vorgegebenem Ereignis B setzen wir für ! 2 einfach pB (!) := p (!) =P (B) f u •r ! 2 B : 0 fu •r ! 2 =B Dann ist ( ; pB ) ein Wahrscheinlichkeitsraum im Sinne von De…nition 1.1 und für A gilt PB (A) = P (AjB): Ist ( ; p) ein endlicher Wahrscheinlichkeitsraum und sind alle Elementarereignisse gleich wahrscheinlich, p (!) = 1= j j, so gilt für A; B und B 6= ; P (AjB) = jA \ Bj ; jBj d.h., die bedingten Wahrscheinlichkeiten lassen sich in diesem Fall über die Mächtigkeiten der Ereignisse bestimmen. Beispiel 2.3 Wie gross ist die Wahrscheinlichkeit, dass beim Werfen mit zwei Würfeln einer der beiden eine 2 zeigt, gegeben die Augensumme ist 6? Sei B das Ereignis “Die Augensumme ist 6”, also B = f(1; 5); (2; 4); (3; 3); (4; 2); (5; 1)g; und A das Ereignis “Mindestens einer der Würfel zeigt 2.”: A = f(2; 1); (2; 2); (2; 3); (2; 4); (2; 5); (2; 6); (1; 2); (3; 2); (4; 2); (5; 2); (6; 2)g: Dann gilt A \ B = f(2; 4); (4; 2)g und P (AjB) = 2=5. Zum Vergleich: Die unbedingte Wahrscheinlichkeit ist P (A) = 11=36 < P (AjB). In der bisherigen Diskussion haben wir die bedingten Wahrscheinlichkeiten auf die unbedingten zurückgeführt. Es ist jedoch oft wichtiger, umgekehrt Wahrscheinlichkeiten aus gewissen bedingten Wahrscheinlichkeiten zu berechnen. Ein Beispiel dazu: 14 Beispiel 2.4 Eine Leitung überträgt die zwei Signale “0 und “1”. Dabei können Übertragungsfehler auftreten, wobei die Wahrscheinlichkeit dafür davon abhängt, welches Signal gesendet wird. Unser mathematisches Modell für die Übertragung eines Zeichens ist ein Wahrscheinlichkeitsraum mit den vier Elementen (0; 0), (0; 1), (1; 0), (1; 1), wobei an der ersten Stelle des Paares das gesendete und an der zweiten Stelle das empfangene Zeichen steht. Si := f(i; 0); (i; 1)g ist das Ereignis, dass i gesendet wird, und Ei := f(0; i); (1; i)g, dass i empfangen wird. F := f(0; 1); (1; 0)g ist das Ereignis, dass ein Übertragungsfehler auftritt. Oft kennt man die Wahrscheinlichkeit für einen Übertragungsfehler in Abhängigkeit von den gesendeten Zeichen (d.h. unter der entsprechenden Bedingung). Sei fi = P (F jSi ), also f0 = P (f(0; 1); (1; 0)gjS0 ) = P (f(0; 1)gjS0 ) und f1 = P (f(0; 1); (1; 0)gjS1 ) = P (f(1; 0)gjS1 ): Die Angabe dieser Grössen statt der totalen (d.h. unbedingten) Fehlerwahrscheinlichkeit ist deshalb angebracht, weil die fi im allgemeinen nur vom Übertragungssystem und nicht von der relativen Häu…gkeit der Nullen und Einsen in der gesendeten Nachricht, d.h. von P (Si ) abhängen. Es ist einleuchtend, dass die totale Fehlerwahrscheinlichkeit sich aus den fi und P (Si ) mittels P (F ) = f0 P (S0 ) + f1 P (S1 ) berechnen lässt. Dem liegt der folgende allgemeine Satz zugrunde: Satz 2.5 (Formel von der totalen Wahrscheinlichkeit) Es seien B1 ; : : : ; Bn paarweise disjunkte Ereignisse. Dann gilt für alle A P (A) = n X P (AjBj )P (Bj ): Sn j=1 Bj j=1 (Sollte P (Bj ) = 0 sein, so wird der entsprechende Summand P (AjBj )P (Bj ) als Null de…niert.) S Beweis. Wegen A = nj=1 (A \ Bj ) und der Disjunktheit der A \ Bj gilt: P (A) = P [n j=1 (A \ Bj ) = n X j=1 P (A \ Bj ) = n X P (AjBj )P (Bj ): j=1 Eine weitere einfache Folgerung aus der De…nition ist die folgende Verallgemeinerung von P (A \ B) = P (AjB) P (B) : Satz 2.6 Seien A1 ; : : : ; An Ereignisse mit P (A1 ) > 0; P (A1 \ A2 ) > 0; : : : ; P (A1 \ : : : \ An 0: Dann gilt Yn P (A1 \ : : : \ An ) = P (Aj jA1 \ : : : \ Aj 1 ) P (A1 ) : j=2 15 1) > Beweis. 1 n Y P (A \ A \ : : : \ A ) 1 2 j A P (A1 ) P (A1 \ : : : \ An ) = @ P (A1 \ : : : \ Aj 1 ) j=2 Yn = P (Aj jA1 \ : : : \ Aj 1 ) P (A1 ) : 0 j=2 Die Formel besagt, dass für eine Kaskade A1 ; : : : ; An von Ereignissen, die Wahrscheinlichkeit dafür, dass alle eintreten aus P (A1 ) und den oben angegebenen bedingten Wahrscheinlichkeiten durch Produktbildung gewonnen werden kann. Ein Beispiel. Wir interessieren dafür, wie eine bestimmte Person ihren Sonntag verbringt und wollen die Wahrscheinlichkeiten dafür untersuchen. Ihr Verhalten wird sicher vom Wetter abhängen. Sei A1 das Ereignis, dass schönes Wetter herrscht. Bekanntlich ist die Wahrscheinlichkeit dafür in der Schweiz (in normalen Sommern) nicht eben gross. Nehmen wir etwa P (A1 ) = 0:3 an. Tritt A1 ein, so habe die Person 4 Handlungsmöglichkeiten: Sie geht wandern, sie legt sich ins Schwimmbad, sie besucht die Tante, oder sie schaut sich das Formel 1 Rennen in Monza am Fernsehen an. Sei A2 das Ereignis, dass sie wandern geht, und wir nehmen an, dass - bedingt auf schönes Wetter - jede der Möglichkeiten die gleiche Wahrscheinlichkeit hat, d.h. P (A2 jA1 ) = 0:25: Natürlich besteht auch die Möglichkeit, dass die Person bei schlechten Wetter wandern geht, die Wahrscheinlichkeit dafür ist jedoch sehr klein: P (A2 jAc1 ) = 0:05: Nun interessieren wir uns dafür, mit welcher Wahrscheinlichkeit die Person den Napf besteigt. Sei A3 dieses Ereignis. Wenn wir P (A3 jA1 \ A2 ) kennen - sei sie etwa gleich 0:1 - so können wir daraus nun P (A1 \ A2 \ A3 ) berechnen: 0:3 0:25 0:1: Vielleicht interessieren wir uns jedoch gar nicht für diese Wahrscheinlichkeit, sondern nur dafür, die Person schliesslich auf dem Napf zu …nden. Diese Möglichkeit besteht jedoch auch bei schlechtem Wetter. Hingegen schliessen wir die Möglichkeit nicht wandernd auf den Napf zu gelangen aus. Somit erhalten wir P (A3 ) = P (A1 \ A2 \ A3 ) + P (Ac1 \ A2 \ A3 ) = P (A1 ) P (A2 jA1 ) P (A3 jA1 \ A2 ) + P (Ac1 ) P (A2 jAc1 ) P (A3 jAc1 \ A2 ) : Zur Berechnung dieser Grösse fehlt uns jedoch noch P (A3 jAc1 \ A2 ) : Hier stellt sich eine interessante Frage. Es kann ja sein, dass unsere Person die Entscheidung über den zu erklimmenden Berggipfel nicht vom Wetter abhängig macht, dass also P (A3 jAc1 \ A2 ) = P (A3 jA2 ) = P (A3 jA1 \ A2 ) (2.1) gilt. In diesem Fall können wir die gewünschte Grösse nun berechnen: P (A3 ) = 0:3 0:25 0:1 + 0:7 0:05 0:1: Eine Eigenschaft von Typus (2.1) nennt man auch Markov-Eigenschaft. Wir verfolgen das im Moment nicht weiter; Eigenschaften von diesem Typus spielen in der Wahrscheinlichkeitstheorie aber eine grosse Rolle. In unserem Fall ist (2.1) natürlich sehr wenig plausibel. 16 Überlegungen wie die obige werden benutzt, um die Sicherheit von technischen Anlagen - z.B. Atomkraftwerken - zu berechnen. Problematisch an solchen Berechnungen ist oft, dass darin unveri…zierte “plausible” Annahmen ein‡iessen, wie z.B. Eigenschaften vom Typ (2.1). Nehmen wir einmal (sehr vereinfachend) an, dass es in einem Atomkraftwerk zu einer Katastrophe kommt, falls ein bestimmter Anfangsstörfall A eintritt, ein erstes Sicherheitssystem S1 nicht anspringt und dann noch ein zweites S2 : Wir interessieren uns für die Wahrscheinlichkeit P (A \ S1c \ S2c ) ; was nach Satz 2.6 gleich P (A) P (S1c j A) P (S2c j A \ S1c ) ist. In Wirklichkeit sind die Verhältnisse natürlich sehr viel komplexer. Ein grundlegendes Problem ist oft, dass man solche Wahrscheinlichkeiten nicht wirklich im Zusammenwirken aller Komponenten zuverlässig schätzen kann, d.h. dass man etwa P (S1c j A) und P (S2c j A) vielleicht einigermassen zuverlässig kennt, jedoch nicht wirklich P (S2c j A \ S1c ) : Wird die Wahrscheinlichkeit eines Ereignisses A durch ein anderes Ereignis B mit P (B) > 0 nicht beein‡usst, im Sinne, dass P (AjB) = P (A) gilt, so heissen A und B unabhängig. Es ist bequemer, dies symmetrisch in A und B zu de…nieren und auf die Voraussetzung P (B) > 0 zu verzichten: De…nition 2.7 Zwei Ereignisse A und B heissen unabhängig, wenn P (A \ B) = P (A)P (B) gilt. Diese De…nition spiegelt genau unsere intuitive Vorstellung von Unabhängigkeit wider. Es gilt o¤ensichtlich P (AjB) = P (A) dann und nur dann, wenn A und B unabhängig sind (vorausgesetzt, dass P (B) > 0 ist). Unabhängigkeit von endlichen vielen Ereignissen wird wie folgt de…niert: De…nition 2.8 Die Ereignisse A1 ; : : : ; An heissen unabhängig, wenn für jede Auswahl von Indizes fi1 ; : : : ; ik g f1; : : : ; ng gilt: P (Ai1 \ Ai2 \ \ Aik ) = P (Ai1 )P (Ai2 ) P (Aik ): Bemerkung 2.9 1. Sind A1 ; : : : ; An unabhängige Ereignisse und ist fi1 ; : : : ; im g eine Teilmenge von f1; : : : ; ng, so sind o¤ensichtlich Ai1 ; Ai2 ; : : : ; Aim unabhängig. 2. Die Forderung P (A1 \ \ An ) = P (A1 ) P (An ) allein ist keine befriedigende De…nition der Unabhängigkeit (für n 3), denn damit wäre die Eigenschaft 1. nicht erfüllt. Dazu ein Beispiel: Es seien = f1; 2g und p(1) = p(2) = 1=2 sowie A1 = f1g, A2 = f2g und A3 = ;. Dann gilt P (A1 \ A2 \ A3 ) = P (;) = 0 = P (A1 )P (A2 )P (A3 ), aber natürlich ist P (A1 \ A2 ) 6= P (A1 )P (A2 ). 3. Paarweise Unabhängigkeit, d.h. P (Ai \ Aj ) = P (Ai )P (Aj ) für i 6= j, impliziert nicht Unabhängigkeit. Wieder ein künstliches Beispiel dazu: Es seien = f1; 2; 3; 4g und p(i) = 1=4 für jedes i 2 sowie A1 = f1; 2g, A2 = f2; 3g und A3 = f3; 1g. Dann ist P (A1 \ A2 \ A3 ) = 0 6= P (A1 )P (A2 )P (A3 ); jedoch sind A1 ; A2 ; A3 paarweise unabhängig. Man muss allerdings bemerken, dass für viele 17 wichtige Eigenschaften, z.B. das Gesetz der grossen Zahlen, das wir später diskutieren werden, eigentlich nur die paarweise Unabhängigkeit benötigt wird. 4. Die Ausdrucksweise “Die Ereignisse A1 ; : : : ; An sind unabhängig”, die auch hier verwendet wird, ist nicht ganz genau und führt in gewissen Situation zu Missverständnissen. Unabhängigkeit ist keine Eigenschaft von Mengen von Ereignissen, sondern eine Eigenschaft von n-Tupeln von Ereignissen, die allerdings nicht von der Reihenfolge dieser Ereignisse im Tupel abhängt. Für ein Ereignis A ist das 1Tupel (A) nach unserer De…nition stets unabhängig, das Paar (A; A) jedoch nicht. (A; A) ist genau dann unabhängig, wenn P (A) = P (A \ A) = P (A)P (A), d.h. P (A) 2 f0; 1g gilt. Zur bequemen Formulierung des nachfolgenden Ergebnisses führen wir die Bezeichnung A1 := A für A ein, Ac ist wie üblich das Komplement. Lemma 2.10 Die Ereignisse A1 ; : : : ; An sind genau dann unabhängig, wenn für alle (k1 ; : : : ; kn ) 2 f1; cgn n \n Y kj k P Aj = P (Aj j ) (2.2) j=1 j=1 gilt. Hierbei ist f1; cgn die Menge der n-Tupel mit den Komponenten 1 und c. Beweis. (I) Unter der Voraussetzung der Unabhängigkeit zeigen wir die obige Gleichung mit Induktion nach n: n = 1 ist trivial. Induktionsschluss n ! n + 1: Die Ereignisse A1 ; : : : ; An+1 seien unabhängig. Wir beweisen die obige Gleichung (für n + 1) mit Induktion nach der Anzahl m der Komplementzeichen in (k1 ; : : : ; kn+1 ). Für m = 0 folgt sie aus der Unabhängigkeit. Induktionsschluss m ! m + 1 für 0 m < n + 1: Es seien m + 1 1 Komplementzeichen in (k1 ; : : : ; kn+1 ). Durch Permutation der Ereignisse können wir annehmen, dass kn+1 = c ist. \n+1 kj \n \n \n k k k P Aj = P Aj j \ Acn+1 = P Aj j P Aj j \ An+1 : j=1 j=1 j=1 j=1 Q k Der erste Summand ist nach der Induktionsvoraussetzung an n gleich nj=1 P (Aj j ), der Qn kj zweite nach der Induktionsvoraussetzung an m gleich j=1 P (Aj ) P (An+1 ). Damit folgt, wie gewünscht, n+1 \n+1 kj Y k P Aj = P (Aj j ): j=1 j=1 (II) Wir zeigen die Umkehrung: (2.2) gelte für alle (k1 ; : : : ; kn ) 2 f1; cgn . Wir zeigen die Unabhängigkeit von A1 ; : : : ; An . 18 Sei fi1 ; : : : ; ik g f1; : : : ; ng und fj1 ; : : : ; jm g sei das Komplement dieser Menge in \ Aik als Vereinigung paarweise disjunkter Mengen f1; : : : ; ng. Dann lässt sich Ai1 \ wie folgt schreiben: [ m Ai1 \ \ Aik \ Akj11 \ \ Akjm : (k1 ;:::;km )2f1;cgm Die Wahrscheinlichkeit davon ist nach unserer Voraussetzung gleich X m ) = P (Ai1 ) P (Ai1 ) P (Aik )P (Akj11 ) P (Akjm P (Aik ): (k1 ;:::;km )2f1;cgm Die Notationen mögen etwas verwirren. Schreiben Sie die Argumente für n = 2 und n = 3 aus; dann wird der Beweisgang klar. Der Vorteil in der Formulierung des Lemmas besteht darin, dass man immer mit allen Ereignissen arbeitet, dass man also nicht Eigenschaften von Teilsätzen der Ereignisse betrachten muss wie in der ursprünglichen De…nition. Ein unmittelbare Folgerung des Lemmas ist das folgende Ergebnis: Korollar 2.11 Sind die Ereignisse A1 ; : : : ; An unabhängig, so sind für jede Wahl von (k1 ; : : : ; kn ) 2 f1; cgn die Ereignisse Ak11 ; : : : ; Aknn unabhängig. Als Beispiel betrachten wir das übliche Modell für das n-malige Werfen einer Münze (Beispiel 1.6.3)Wir bezeichnen mit Bk das Ereignis, dass der k-te Wurf “Kopf” ist. Satz 2.12 Die Ereignisse B1 ; : : : ; Bn sind unabhängig. Beweis. Es gilt P (Bj ) = P (Bjc ) = 1=2 für alle j 2 f1; : : : ; ng. Für jedes n-Tupel Q k (k1 ; : : : ; kn ) 2 f1; cgn gilt P (B1k1 \ \ Bnkn ) = 2 n = nj=1 P (Bj j ). Nach Lemma 2.10 sind B1 ; : : : ; Bn unabhängig. Unabhängigkeit hängt eng mit sogenannten Produkträumenzusammen. Es seien ( 1 ; p1 ); : : : ; ( n ; pn ) diskrete Wahrscheinlichkeitsräume. Wir konstruieren daraus einen neuen Wahrscheinlichkeitsraum ( ; p) mit = 1 n . Für jedes ! P= (! 1 ; : : : ; ! n ) 2 de…nieren wir p(!) = p1 (! 1 )p2 (! 2 ) pn (! n ). O¤ensichtlich gilt !2 p(!) = 1. De…nition 2.13 ( ; p) heisst der ProduktraumNder Wahrscheinlichkeitsräume ( i ; pi ), 1 i n. Wir n schreiben dafür auch ( ; p) = i=1 ( i ; pi ): (Das hat nichts mit Tensorprodukten zu tun). Zu A i de…nieren wir das Ereignis A(i) = f(! 1 ; : : : ; ! n ) 2 : ! i 2 Ag . Satz 2.14 (1) (n) Sind Ai i n, so sind die Ereignisse A1 ; : : : ; An im Wahrscheinlichkeitsi für 1 raum ( ; p) unabhängig. 19 c(i) (i)c : ! i 2 Aci g = Ai . Die 2n Gleichungen in Lemma 2.10 Beweis. Es gilt Ai = f! 2 sind also nachgewiesen, wenn (1) P A1 \ für alle möglichen Ai X (1) (n) !2A1 \ \An i, (1) \ A(n) = P (A1 ) n P (A(n) n ) 1 i n, gilt. Die linke Seite dieser Gleichung ist gleich X X p(!) = p1 (! 1 ) pn (! n ) = ! 1 2A1 ! n 2An n X Y pj (! j ) = j=1 ! j 2Aj n X Y j=1 !2A(j) j p(!) = n Y (j) P (Aj ): j=1 Der Produktraum liefert somit ein Modell für eine unabhängige Hintereinanderreihung von n einzelnen Zufallsexperimenten. O¤enbar ist unser Modell für einen nfachen Münzwurf das n-fache Produkt des Wahrscheinlichkeitsraumes für einen Münzwurf. Wir können das gleich etwas verallgemeinern: Zunächst betrachten wir ein Zufallsexperiment mit zwei möglichen Ausgängen, die wir mit E (für “Erfolg”) und M (für “Misserfolg”) bezeichnen. Man denke etwa an ein Spiel, das darin besteht, eine Münze zu werfen, und bei dem der eine Spieler eine Einheit gewinnt, wenn “Kopf” fällt. Wir wollen nicht voraussetzen, dass E und M gleich wahrscheinlich sind. Der Wahrscheinlichkeitsraum ist also die zweielementige Menge fE; M g mit den entsprechenden Wahrscheinlichkeiten. Wir setzen p := p (E) ; sodass p (M ) = 1 p ist. Der n-fache Produktraum, das Modell für die unabhängige, n-malige Repetition des Spiels, ist also der Wahrscheinlichkeitsraum = fE; M gn , d.h. die Menge der E-M Folgen der Länge n. Die Wahrscheinlichkeiten der Elementarereignisse ! = (! 1 ; : : : ; ! n ) 2 sind gegeben durch p(!) = pk (1 p)n k , wobei k die Anzahl der E’s in der Folge ! 1 ; : : : ; ! n bezeichnet. De…nition 2.15 Das durch diesen Wahrscheinlichkeitsraum beschriebene Zufallsexperiment heisst BernoulliExperiment der Länge n mit “Erfolgswahrscheinlichkeit” p. Wir wollen die Wahrscheinlichkeit von einigen besonders wichtigen Ereignissen im Bernoulli-Experiment berechnen. Für k 2 f0; 1; : : : ; ng sei Ak das Ereignis, dass insgesamt k Erfolge eintreten. In unserer Beschreibung des Bernoulli-Experiments enthält Ak diejenigen Elementarereignisse, in denen k mal E vorkommt. Davon gibt es so viele, wie es Möglichkeiten gibt, die k erfolgreich ausgegangenen Experimente auszuwählen, also n k p)n k . Somit ist P (Ak ) = nk pk (1 p)n k . k . Jedes hat Wahrscheinlichkeit p (1 Diese Wahrscheinlichkeit kürzt man meist mit b(k; n; p) ab. Die b(k; n; p) sind erwartungsgemäss am grössten, wenn k in der Nähe von np liegt. Für grosses n sind sie jedoch p klein (höchstens von der Grössenordnung 1= n). Eine ausführliche Analyse der Grössen b(k; n; p) wird später gegeben werden. 20 Beispiel 2.16 Ein Würfel wird n-mal geworfen. Die Wahrscheinlichkeit dafür, dass k-mal die Sechs erscheint, ist b(k; n; 1=6). Eine grosse Klasse von Beispielen nennt man Urnenmodelle: Beispiele 2.17 1. Ziehung mit Zurücklegen Eine Schachtel (Urne) enthält r rote und s schwarze Kugeln. Es werden n Kugeln nacheinander zufällig entnommen. Dabei wird jede sofort wieder zurückgelegt und die Schachtel neu gemischt. Die Elementarereignisse seien die Rot-Schwarz-Folgen der Länge n. Es scheint klar, dass unter idealen Bedingungen die einzelnen Ziehungen unabhängig sind, dass dies also ein Bernoulli-Experiment der Länge n mit r Erfolgswahrscheinlichkeit p = r+s ist. Man kann sich das auch wie folgt überlegen: Wir denken uns die einzelnen Kugeln wieder von 1 bis r + s durchnumeriert; 1 bis r sind rot, r + 1 bis r + s schwarz. In der Beschreibung des Wahrscheinlichkeitsraums unterscheiden wir nun zwischen den einzelnen Kugeln, d.h. = f1; : : : ; r + sgn . Die Elementarereignisse sind also die Folgen ! = (! 1 ; : : : ; ! n ) mit ! k 2 f1; : : : ; r + sg. Unter idealen Bedingungen sind diese Elementarereignisse alle gleich wahrscheinlich, haben also die Wahrscheinlichkeit (r + s) n . Das Ereignis einer speziellen Rot-Schwarz-Folge ist hier kein Elementarereignis; man kann die Anzahl der Elementarereignisse darin jedoch leicht abzählen: Eine spezielle Rot-Schwarz-Folge mit k-mal Rot und (n k)-mal Schwarz wird durch rk sn k Elementarereignisse repräsentiert, hat also die Wahrk n k r s scheinlichkeit r+s . Die Wahrscheinlichkeit des Ereignisses Ak , genau r+s k-mal Rot zu ziehen, ist somit P (Ak ) = n k r r+s k s r+s n k : 2. Ziehung ohne Zurücklegen Wir betrachten dieselbe Situation mit dem Unterschied, dass die gezogenen Kugeln nicht wieder zurückgelegt werden. Es muss nun natürlich n r + s sein. Die einzelnen Ziehungen sind nicht mehr unabhängig, da ihr Ausgang die Zusammensetzung der Schachtel und damit die nachfolgenden Ziehungen beein‡usst. Sei Ak wieder das Ereignis, dass k rote Kugeln gezogen werden. Wir setzen voraus, dass 0 k r und 0 n k s gilt, sonst ist Ak das unmögliche Ereignis. Um P (Ak ) zu bestimmen, muss ein geeigneter Wahrscheinlichkeitsraum festgelegt werden. Als Elementarereignis betrachten wir die Menge der n-elementigen Teilmengen der r + s Kugeln. Wie viele darunter gehören zu Ak ? Es gibt kr Möglichkeiten, die k Kugeln aus den roten auszuwählen, und n s k Möglichkeiten für die schwarzen 21 Kugeln, also enthält Ak genau r k s n k Elementarereignisse. Es gilt also r k P (Ak ) = s n k r+s n ; o¤ensichtlich ein anderer Wert als im Modell mit Zurücklegen. Man nennt dies auch die hypergeometrische Wahrscheinlichkeitsverteilung. In unserem Wahrscheinlichkeitsraum können wir jedoch das Ereignis, dass die erste Kugel rot ist, nicht betrachten, denn wir unterscheiden die Reihenfolge der Ziehungen nicht. Um dieses Ereignis zu untersuchen, brauchen wir einen anderen, grösseren Wahrscheinlichkeitsraum. Wir betrachten dazu analog wie beim Modell mit Zurücklegen die Menge 0 der Folgen ! = (! 1 ; ! 2 ; : : : ; ! n ) mit 1 ! i r + s aber mit der Einschränkung ! i 6= ! j für i 6= j. Dann bedeutet 1 ! i r, dass die i-te Kugel rot ist, r + 1 ! i r + s, dass sie schwarz ist. 0 enthält o¤enbar (r + s)(r + s 1) (r + s n + 1) Elemente. Betrachtet man diese Elementarereignisse als gleich wahrscheinlich, so hat unser obiges Ereignis Ak (entsprechend als Teilmenge von 0 formuliert) dieselbe Wahrscheinlichkeit wie oben (nachprüfen!). Im Gegensatz zu der Situation in können wir nun jedoch die einzelnen Ziehungen unterscheiden. Sei Ri das Ereignis, dass die i-te Kugel rot ist. Jedes der Ri enthält gleich viele Elementarereignisse, nämlich r(r + s 1)(r + s 2) (r + s n + 1). Somit ist P (Ri ) = r=(r + s) der gleiche Wert wie beim Modell mit Zurücklegen. Dennoch sind die Wahrscheinlichkeiten für Ak in beiden Modellen verschieden. Dies liegt daran, dass hier R1 ; : : : ; Rn abhängig sind: Das Ereignis R1 \ R2 enthält r(r 1)(r + s 2) (r + s n + 1) Elementarereignisse und somit ist P (R1 \ R2 ) = r(r 1) (r + s)(r + s 1) 6= P (R1 )P (R2 ); der Unterschied ist aber klein, sofern r und s gross sind. Dies ist plausibel, denn wenn die Gesamtzahl r + s der Kugeln sehr gross ist, so beein‡ussen sich die einzelnen Ziehungen wenig. P (Ak ) kann in der Tat durch die Wahrscheinlichkeit der Binominalverteilung b(k; n; p) mit p = r=(r + s) angenähert werden, sofern n = r + s gross ist. Genauer: lim r;s!1 r=(r+s)!p r k s n k r+s n = n k p (1 k p)n k : Der Beweis ist sehr einfach: Die Grössen auf der linken Seite sind gleich r(r 1) (r k + 1)s(s 1) (s n + k + 1) n! k!(n k)! (r + s)(r + s 1) (r + s n + 1) n k r ! p (1 p)n k f u •r r; s ! 1, ! p: k r+s 22 (2.3) Als Anwendung von Satz 2.5 betrachten wir im Beispiel 2.4 das in der Praxis wichtige Problem, die bedingte Wahrscheinlichkeit für eine richtige Übertragung, gegeben das empfangene Zeichen, etwa P (S1 jE1 ) zu berechnen. Das lässt sich zunächst mittels P (S1 jE1 ) = P (S1 \ E1 )=P (E1 ) umschreiben. Per De…nition gilt P (S1 \ E1 ) = P (E1 jS1 )P (S1 ) = (1 f1 )P (S1 ): Nach Satz 2.5 gilt P (E1 ) = P (E1 jS1 )P (S1 ) + P (E1 jS0 )P (S0 ) = (1 also P (S1 jE1 ) = (1 f1 )P (S1 ) + f0 P (S0 ); (1 f1 )P (S1 ) : f1 )P (S1 ) + f0 P (S0 ) Das obige Beispiel ist ein Spezialfall der sogenannten Bayes-Formel: Satz 2.18 Unter den Voraussetzungen von Satz 2.5 und P (A) > 0 gilt P (AjBi )P (Bi ) P (Bi jA) = Pn : j=1 P (AjBj )P (Bj ) Beweis. P (Bi jA) = P (Bi \ A) P (AjBi )P (Bi ) P (AjBi )P (Bi ) = = Pn P (A) P (A) j=1 P (AjBj )P (Bj ) nach Satz 2.5. Die Formel ist nach Thomas Bayes (1702-1761) benannt, einem englischen Pastor mit mathematischen Neigungen. Die P (Bi ) nennt man oft die “a priori” Wahrscheinlichkeiten und P (A) die “a posteriori” Wahrscheinlichkeit. Die Formel beschreibt, wie man die “a priori” Wahrscheinlichkeiten aufgrund des eingetretenen “a posteriori” Ereignisses modifzieren muss. Die Formel ist natürlich völlig trivial; ihre Interpretation hat jedoch schon zu Zeiten von Bayes Kontroversen ausgelöst, zum Teil die immer noch andauern. Sie spielt vor allem in der Theorie “subjektiver Wahrscheinlichkeiten” eine grosse Rolle (siehe Appendix 1.A). Die P (Bi ) sind dann die subjektiven Wahrscheinlichkeiten, die eine Person bestimmten Ereignissen zuordnet. Wir nehmen weiter an, dass die bedingten Wahrscheinlichkeiten P (AjBi ) mit der das “a posteriori” Ereignis A eintritt, bekannt sind. Tritt dann das Ereignis tatsächlich ein, so soll unsere Person ihre subjektiven Wahrscheinlichkeiten gemäss der Bayes-Formel ändern.2 2 In Experimenten hat man jedoch gesehen, dass sie das in der Regel nicht machen. 23 Thomas Bayes Unabhängig von den mehr philosophischen Interpretationen spielt die Bayes-Formel in vielen Bereichen eine grosse Rolle.Wir betrachten eine typische Anwendung: Wir nehmen an, eine Person werde mit einem Bluttest auf eine seltene Krankheit untersucht. Der Test sei nicht absolut zuverlässig: Kranke Personen werden mit Wahrscheinlichkeit 0.8 entdeckt; der Test falle jedoch bei Gesunden mit Wahrscheinlichkeit 0.1 positiv aus. Das Problem ist genau das gleiche wie bei den in einer Leitung übertragenen Signalen: Wir deklarieren 0 als “gesund” und 1 als “krank”. Dann ist also f0 = 0:1, f1 = 0:2. Mit welcher Wahrscheinlichkeit ist nun jemand mit “positivem” Testausgang krank? Das hängt von der relativen Häu…gkeit der Krankheit ab, das heisst von p := P (S1 ). Die Bayes-Formel ergibt P ( krank j Test positiv ) = 0:8 p 0:8 p + 0:1 (1 p) : Für p = 0:01 ist das 0; 075. Derartige Betrachtungen spielen in automatisierten Expertensystemen (natürlich in viel komplizierteren Situationen) eine grosse Rolle. Wir wollen noch ein Beispiel diskutiert, das wir an einigen Stellen mathematisch noch nicht ganz exakt durchführen können, zu dessen Lösung uns jedoch die inzwischen gewonnene Intuition im Umgang mit Wahrscheinlichkeiten befähigt: A schlägt B das folgende Spiel vor: Sie werfen solange eine symmetrische Münze, bis zum erstenmal eine von zwei Dreiersequenzen auftaucht. A gwinnt, wenn zuerst die Sequenz “Zahl-Kopf-Zahl” (abgekürzt ZKZ) auftritt; B gewinnt, wenn zuerst die Sequenz KKK vorkommt. Wie gross sind die Erfolgswahrscheinlichkeiten? Es ist nicht ganz einfach, einen geeigneten Wahrscheinlichkeitsraum zur Beschreibung des Experimentes zu …nden. Wir werden das unten kurz diskutieren. Hier eine inutitive Methode, um die gesuchte Wahrscheinlichkeit zu …nden. 24 Zunächst bemerkt man, dass von einer Folge von Münzwürfen nur der Teil am Ende wichtig ist, der als Anfangsstück einer der Gewinnsequenzen vorkommt, etwa bei der Folge KKZZKKZK die letzten zwei. Wir schreiben alle diese relevanten Sequenzen (Anfänge der Gewinnsequenzen und die Gewinnsequenzen selbst) auf: Die Pfeile geben an, wie diese Sequenzen nach einem weiteren Wurf verändert werden können; z.B·wenn in der obigen Folge als nächstes Z geworfen wird, so hat B gewonnen, und sonst ist man bei KK. Mit q(K); q(KK); : : : bezeichnen wir die bedingte Wahrscheinlichkeit, dass A gewinnt, gegeben das Spiel ist in dem entsprechenden Zustand. Sei q die unbedingte Wahrscheinlichkeit, dass A gewinnt. Zunächst gilt natürlich q(KKK) = 0 und q(ZKZ) = 1. Ist das Spiel in KK, so gelangt es mit Wahrscheinlichkeit 1=2 nach KKK und mit Wahrscheinlichkeit 1=2 nach Z. Eine ungenierte Anwendung der Formel über die totale Wahrscheinlichkeit liefert: 1 1 1 q(KK) = q(KKK) + q(Z) = q(Z): 2 2 2 Analog 1 1 q(ZK) = q(KK) + ; 2 2 1 1 q(K) = q(KK) + q(Z); 2 2 1 1 q(Z) = q(Z) + q(ZK) 2 2 und schliesslich 1 1 q = q(Z) + q(K): 2 2 Die 4. Gleichung ergibt q(Z) = q(ZK), also nach der zweiten q(KK) = 2q(Z) 1. In die erste eingesetzt folgt 2q(Z) 1 = q(Z)=2 oder q(Z) = 2=3, also q(KK) = 1=3. Nach der dritten gilt q(K) = 1=2 und nach der letzten Gleichung schliesslich q = 7=12, also um 1=12 mehr als 1=2! (Wer es nicht glaubt, soll es ausprobieren!) Man kann versuchen, eine optimale Dreiersequenz zu …nden, d.h. eine, die gegenüber jeder anderen eine Erfolgswahrscheinlichkeit 1=2 hat. Es stellt sich jedoch heraus, dass es eine solche Sequenz nicht gibt: Zu jeder Sequenz gibt es mindestens eine, die sie schlägt! 25 Die Schwierigkeit, dieses Beispiel mathematisch präzise beschreiben zu können, liegt o¤enbar darin, dass wir uns nicht vor Beginn darauf festlegen können, wie lange die Münzfolge ist, die wir betrachten müssen. Es gibt verschiedene Auswege; der brutalste besteht einfach darin, einen Wahrscheinlichkeitsraum mit unendlichen langen Folgen von Münzwürfen zu konstruieren. Wir wählen also = fK; ZgN : Die Elemente ! 2 sind die unendlich langen Folgen ! = (! 1 ; ! 2 ; ! 3 ; : : :) von Elementen ! k 2 fK; Zg : ist nun allerdings keine abzählbare Menge mehr. Es ist daher klar, dass wir die Wahrscheinlichkeit von Ereignissen nicht mehr gemäss De…nition 1.3 festlegen können. In können wir natürlich alle Ereignisse einbetten, die nur von endlich vielen Münzwürfen abhängen: Sind etwa i1 ; : : : ; in 2 fK; Zg ; so de…nieren wir die Teilmenge Ai1 ;:::;in := f! 2 : ! 1 = i1 ; : : : ; ! n = in g : (2.4) Wir stellen uns also (geistig) den Münzwurf bis in unendlich ferne Zukunft fortgesetzt. Wenn wir uns nur für die erste Million Würfe interessieren, so betrachten wir einfach die oben beschriebenen Ereignisse mit n = 10 0000 000: Wir suchen dann ein Wahrscheinlichkeitsmass P auf ; dessen Einschränkung auf die obigen Ereignisse (2.4) mit den entsprechend schon früher angegebenen Wahrscheinlichkeiten übereinstimmt. Formal ausgedrückt: Im symmetrischen Münzwurf soll P (Ai1 ;:::;in ) = 2 n gelten. Für einen Münzwurf mit einer gezinkten Münze wie im Bernoulli Experiment (De…nition 2.15) gilt dann P (Ai1 ;:::;in ) = pk (1 p)n k ; (2.5) wobei k die Anzahl der K’s in i1 ; : : : ; in ist. (Wir identi…zieren hier “Kopf” mit “Erfolg”). Die Frage ist, ob ein derartiges P existiert. Tatsächlich weiss man, dass es auf der Potenzmenge P ( ) kein Wahrscheinlichkeitsmass P gibt, das die Kolmogoro¤schen Axiome 1.10 und 1.11 erfüllt. Es gilt jedoch der folgendes: Satz 2.19 Auf existiert eine -Algebra F P ( ), die alle Menge der Form (2.4) enthält, und für jedes p 2 [0; 1] gibt es auf F ein Wahrscheinlichkeitsmass P : F ! [0; 1] im Sinne von De…nition 1.12.2 sodass (2.5) gilt. Wir können den Satz hier nicht beweisen. Sätze von diesem Typus sind für die weitere Entwicklung der Wahrscheinlichkeitstheorie sehr wichtig; im Rahmen dieser Vorlesung spielen sie jedoch keine sehr grosse Rolle. Die -Algebra F in diesem Satz ist nicht eindeutig; es gibt jedoch eine kleinste -Algebra, die alle Mengen der Form Ai1 ;:::;in enthält. Diese -Algebra bezeichnet man meist als die Produkt- -Algebra auf und wir setzen in Zukunft stillschweigend voraus, dass F diese Produkt- -Algebra ist. Sie ist durch die folgende Eigenschaft eindeutig charakterisiert: Ist G eine beliebige -Algebra, die alle Mengen der Form (2.4), so gilt F G: F enthält jedoch noch sehr viel mehr Mengen als nur diese speziellen Ai1 ;:::;in . Eine (eher psychologische) Schwierigkeit mit 26 diesem Satz ist, dass man die Elemente von F nicht konkret beschreiben kann. Dies ist jedoch nicht weiter schlimm, denn wichtig ist einzig, dass eigentlich alle Ereignisse, die “interessant” sind, in dieser -Algebra sind. Dies beweist man, indem man sie mit Hilfe von abzählbaren Mengenoperationen aus den Mengen der Form (2.4) gewinnen kann. Wir geben einige Beispiele dieses Sachverhaltes unten an. Innerhalb dieses Formalismus können wir nun das obige Beispiel präzise formulieren. Wir de…nieren die folgende Abbildung ZKZ : ! N[ f1g ZKZ (!) := inf fn 3 : !n 2 = Z; ! n 1 = K; ! n = Zg : Für ein ! 2 kann es natürlich durchaus zutre¤en, dass die Bedingung in der Klammer für kein n erfüllt ist. In diesem Falle setzen wir einfach ZKZ (!) = 1: Analog de…nieren wir KKK : Dann gilt das folgende Ergebnis: Proposition 2.20 1. Die Mengen f! 2 : f! 2 : ZKZ (!) < Algebra F: (!) < 1g ; f! 2 : KKK (!) < 1g ; KKK (!)g sind alle in der oben eingeführten Produkt- ZKZ 2. Es gelten P (f! 2 P (f! 2 : : ZKZ ZKZ (!) < (!) < 1g) = P (f! 2 KKK : KKK (!)g) = 7=12: (!) < 1g) = 1; Soweit haben wir wenigstens den mathematischen Rahmen für das Beispiel genau präzisiert. Eine mathematisch präzise Formulierung des Beweises insbesondere vom 2. Teil erfordert jedoch immer noch einiges an Arbeit. Wir wollen das im Moment nicht weiterverfolgen; wir zeigen jedoch, dass die in Proposition 2.20, 1. beschriebenen Mengen in F sind. Wir beschränken uns auf f! 2 : ZKZ (!) < 1g ; die anderen Fälle beweist man analog. Zunächst ist o¤ensichtlich, dass [1 f! 2 : ZKZ (!) < 1g = f! 2 : ZKZ (!) ng n=3 gilt. Das Ereignis f! 2 : ZKZ (!) ng lässt sich jedoch als endliche Vereinigung von Mengen der Form (2.4) darstellen, nämlich als Vereinigung derjenigen Ai1 ;:::;in ; für die ein m mit 3 m n existiert mit im 2 = Z; im 1 = K; im = Z: Demzufolge ist f! 2 : ZKZ (!) < 1g eine abzählbare Vereinigung von Mengen der Form (2.4), und nach der De…nition 1.12.1 ist f! 2 : ZKZ (!) < 1g 2 F: Wir untersuchen noch ein etwas komplizierteres Beispiel, das im nächsten Kapitel eine Rolle spielt. Wir betrachten die Menge der ! 2 ; für die die relative Häu…gkeit der Kopfwürfe in der unendlichen Folge exakt gleich 1=2 ist. Wir präzisieren das wie folgt: Für n 2 N sei Kn (!) die Anzahl der K’s in ! 1 ; : : : ; ! n : Dann de…nieren wir A := !2 Kn (!) 1 existiert und ist = n!1 n 2 : lim 27 : Wir zeigen nun, dass A 2 F ist. Dazu die folgende Überlegung: Sei (an )n2N eine beliebige reelle Zahlenfolge. Dann gilt limn!1 an = 1=2 genau dann, wenn für jedes m 2 N ein N 2 N existiert mit 1=2 1=m < an < 1=2 + 1=m für alle n N: Setzen wir An;m := !2 so gilt also A= \ : 1 2 m2N 1 Kn (!) 1 1 < < + m n 2 m [ N 2N \ n:n N ; An;m : Nun ist jedoch o¤ensichtlich, dass die Mengen An;m sich als endliche Vereinigungen von Mengen der Form (2.4) darstellen lassen, denn ob ein ! zu dieser Menge gehört, hängt nur von ! 1 ; : : : ; ! n ab. Demzufolge gilt Am;n 2 F: Wegen der Eigenschaft (1.3) gilt dann für jedes N 2 N \ Am;n 2 F: n:n N Demzufolge ist nach der De…nition 1.12 [ \ N 2N n:n N Am;n 2 F: Nochmaliges Anwenden von (1.3) ergibt A 2 F: Unter Anwendung des hier nicht bewiesenen Satzes 2.19 folgt (für jedes p 2 [0; 1]); dass P (A) de…niert ist. Wir werden im nächsten Kapitel sehen, dass P (A) = 1 ist falls p = 1=2 ist und P (A) = 0 falls p 6= 1=2: Noch eine Bemerkung über die Rolle von Existenzsätzen vom Typus des Satzes 2.19 in der Wahrscheinlichkeitstheorie: Obschon ein Mathematiker, der sich intensiver mit Wahrscheinlichkeitstheorie beschäftigt, einen Beweis dieses und ähnlicher Sätze kennen sollte, lässt sich feststellen, dass die Kenntnis dieser Beweise für die Arbeit in der Wahrscheinlichkeitstheorie praktisch ohne jede Bedeutung ist. Wichtig ist einzig die Existenz dieser Wahrscheinlichkeitsmasse und die Fertigkeit im Umgang mit ihnen. Für diese Fertigkeit spielen die Existenzbeweise keine Rolle. 28 3 Zufallsgrössen, Gesetz der Grossen Zahlen Wir sind schon einige Male auf die Situation gestossen, dass den Elementarereignissen reelle Zahlen zugeordnet werden. Unter Umständen sind die Elementarereignisse selbst schon Zahlen. Wir wollen dies nun systematisch diskutieren. De…nition 3.1 Sei ( ; p) ein diskreter Wahrscheinlichkeitsraum. Dann heisst eine Abbildung X : eine (diskrete) Zufallsgrösse. !R Statt Zufallsgrösse wird oft auch der Begri¤ Zufallsvariable benutzt. Für die formale De…nition ist p zunächst völlig belanglos. Eine Zufallsgrösse ist einfach eine Abbildung und keine “zufällige”Abbildung. Natürlich werden wir jedoch nun die Eigenschaften von X im Zusammenhang mit p untersuchen. Es bezeichne X( ) das Bild von unter X, d.h. die abzählbare Menge reeller Zahlen f X(!) : ! 2 g. Für A R ist X 1 (A) := f ! 2 : X(!) 2 A g eine Teilmenge von , d.h. ein Ereignis. Wir nennen dies das Ereignis, “dass X einen Wert in A annimmt”. X 1 (A) ist nur eine bequeme Schreibweise. Wir setzen in keiner Weise voraus, dass die Abbildung X invertierbar ist, d.h. dass eine Umkehrabbildung von X existiert. Wir benutzen die folgenden Kurzschreibweisen: fX 2 Ag := f ! 2 fX = zg := f ! 2 fX zg := f ! 2 : X(!) 2 A g = X 1 (A); 1 (fzg); : X(!) 1 (( 1; z]); : X(!) = z g = X zg = X etc. Statt P (fX 2 Ag), P (fX = zg) schreiben wir einfach P (X 2 A), P (X = z), etc. Wir schreiben meistens ein Komma anstelle von “und”bzw. des mengentheoretischen Durchschnitts innerhalb der Klammer in P ( ). Sind etwa X; Y Zufallsgrössen und A; B R, so schreiben wir P (X 2 A; Y 2 B) für P (fX 2 Ag \ fY 2 Bg) oder noch ausführlicher P (f ! : X(!) 2 A und Y (!) 2 B g). Beispiele 3.2 1. Es sei X die Augensumme beim zweimaligen Werfen eines Würfels. Zur formalen Beschreibung dieses Versuchs betrachten wir den Wahrscheinlichkeitsraum ( ; p) mit = f1; 2; 3; 4; 5; 6g2 und der Gleichverteilung p, also p((i; j)) = 1=36 für alle (i; j) 2 . Die Zufallsgrösse X : ! R mit X((i; j)) = i + j für alle (i; j) 2 beschreibt dann die Augensumme, und es gilt z.B. P (X = 3) = P (f(1; 2); (2; 1)g) = 1=18 und P (X 4) = P (f(1; 1); (1; 2); (2; 1); (1; 3); (2; 2); (3; 1)g) = 1=6: 2. Es bezeichne X die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge n und Erfolgswahrscheinlichkeit p. In diesem Fall ist = fM; Egn und X (!) := 29 Pn i=1 1E (! i ) für ! = (! 1 ; : : : ; ! n ) : Dabei ist 1E die Indikatorfunktion: 1E (x) := 1 falls x = E : 0 falls x = M Beispiel 3.3 Wir wollen ein etwas komplizierteres Beispiel aus der Informatik diskutieren, nämlich den Sortieralgorithmus Quicksort: Der Algorithmus sortiert eine Liste von n Zahlen der Grösse nach. Der Bequemlichkeit halber nehmen wir an, dass alle Elemente der Liste verschieden sind. Es gibt verschiedene Versionen dieses Algorithmus; wir betrachten hier die folgende, die für die Praxis nicht ganz optimal ist.3 Im 1. Schritt wird das erste Element der Liste mit den n 1 anderen verglichen und dann an die richtige Stelle gebracht. Das heisst, die Elemente, die kleiner sind, werden vor dieses erste Elemente der ursprünglichen Liste gebracht, und die grösseren werden hinter ihm gelassen. Dabei wird jedoch zunächst die interne Reihenfolge der grösseren und der kleineren Elemente nicht angetastet. Zum Beispiel wird aus 6 8 3 5 1 7 nach dem ersten Schritt 3 5 1 6 8 7. Die kleineren Elemente (im Bsp. oben 3 5 1) und die grösseren (im Bsp. 8 7) bilden nun zwei kürzere Teillisten. Die Prozedur ruft sich nun rekursiv auf, um diese zu ordnen. Listen der Länge 0 und 1 brauchen nicht mehr geordnet zu werden. Dies ist das Abbruchkriterium für den Algorithmus. Wir de…nieren den Aufwand für diesen Algorithmus als die Anzahl der Vergleiche zweier Zahlen, die bis zum Schluss benötigt werden. Natürlich ist dies eine Vereinfachung der realen Situation. Der tatsächliche Aufwand hängt auch von der verwendeten Programmiersprache ab. (Der Algorithmus ist am einfachsten in einer Sprache zu programmieren, in der man Prozeduren rekursiv aufrufen kann, er benötigt dann aber eher etwas mehr Rechenzeit. Auf programmiertechnische Fragen soll natürlich hier nicht eingegangen werden.) Im 1. Schritt werden stets n 1 Vergleiche durchgeführt. Wie viele jedoch nachher gebraucht werden, hängt davon ab, wie die Einteilung in die Teillisten erfolgt. Im obigen numerischen Beispiel: 1 Schritt 5 Vergleiche. Ordnen von 3 5 1 1 3 5 2 Vergleiche. Ordnen von 8 7 7 8 1 Vergleich. Zusammen also 8 Vergleiche. Man kann sich leicht überlegen, dass der Algorithmus im ungünstigsten Fall insgesamt (n 1) + (n 2) + + 1 = n(n 1)=2 Vergleiche benötigt (z.B. wenn die Liste schon geordnet ist!). In der Regel braucht man jedoch bedeutend weniger, was die Beliebtheit des Algorithmus erklärt. Was heisst “in der Regel”? Wir machen dazu ein wahrscheinlichkeitstheoretisches Modell: Als gleich wahrscheinliche Elementarereignisse nehmen wir die möglichen Reihenfolgen einer Menge von n verschiedenen Elementen. Wir haben also n! Elementarereignisse. Xn sei die Anzahl der benötigten Vergleiche bei Quicksort, etwa X1 = 0 für 3 Quicksort ist der am weitesten verbreitete Sortieralgorithmus. Wenn Ihr Computer eine Liste sortiert, so tut er das wahrscheinlich mit Quicksort. 30 jede einelementige Liste. Dann ist z.B. X6 ((6; 8; 3; 5; 1; 7)) = 8, wie oben berechnet, oder X6 ((1; 3; 5; 6; 7; 8)) = 15. Wir werden einige stochastische Aspekte dieses Beispiels weiter unten eingehender diskutieren.4 Sei X : ! R eine Zufallsgrösse. Für z 2 X( ) sei f (z) := P (X = z). Da die Ereignisse fX = zg für verschiedene z 2 X( ) sich gegenseitig ausschliessen und [ = fX = zg z2X( ) gilt, folgt X f (z) = 1: z2X( ) (X( ); f ) ist somit ein Wahrscheinlichkeitsraum im Sinne von De…nition 1.1. De…nition 3.4 f heisst die Verteilung der Zufallsgrösse X. Aus der Verteilung einer Zufallsgrösse lässt sich P (X 2 A) für jede Teilmenge A von R berechnen: X P (X 2 A) = f (z): z2A\X( ) Verteilungen sind jedoch oft kompliziert und in vielen praktisch wichtigen Beispielen nicht explizit berechenbar (z.B. beim Quicksort-Beispiel oben). Zunächst einige Beispiele, bei denen die Verteilung einfach angegeben werden kann: Beispiele 3.5 1. Sei X die Augensummen bei einem Wurf mit zwei Würfeln. X( ) = f2; 3; 4; : : : ; 12g. 1 1 Die Verteilung ist gegeben durch f (2) = f (12) = 36 ; f (3) = f (11) = 18 ; 1 1 5 1 f (4) = f (10) = 12 ; f (5) = f (9) = 9 ; f (6) = f (8) = 36 ; f (7) = 9 : 2. Sei X die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge n und Erfolgswahrscheinlichkeit p. Dann ist, wie wir schon in Kapitel 2 berechnet haben: P (X = k) = n k p (1 k p)n k = b(k; n; p) für k 2 f0; 1; : : : ; ng: Eine Zufallsgrösse mit dieser Verteilung heisst binomialverteilt mit Parametern p und n. 4 Die in der Praxis verwendeten Versionen von Quicksort vermeiden die unangenehme Eigenheit unserer Version, dass der Aufwand für (teilweise) geordnete Listen besonders hoch ist. Eine Möglichkeit dazu ist, die Listen vor der Anwendung von Quicksort gut zu mischen. Der zusätzliche Aufwand dafür ist minimal. 31 3. Geometrisch verteilte Zufallsgrössen: In einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p führen wir das Experiment so lange fort, bis zum erstenmal “Erfolg” eintritt. X sei der Zeitpunkt des ersten Erfolges. Wir wählen = N, wobei n 2 N das Elementarereignis ist, dass der erste Erfolg zum Zeitpunkt n vorkommt. Dieses Ereignis ist auch ein Elementarereignis im BernoulliExperiment der festen Länge n, nämlich das Ereignis, dass nach n 1P Misserfolgen n 1 ein vorkommt. Somit gilt p(n) = (1 p) p. Tatsächlich ist 1 n=1 p(n) = PErfolg 1 n p n=0 (1 p) = 1, womit wir nachgeprüft haben, dass ( ; p) ein Wahrscheinlichkeitsraum ist. Wir setzen dann einfach X(n) = n für alle n 2 . Eine Zufallsgrösse, die diese Verteilung hat, heisst geometrisch verteilt. Geometrisch verteilte Zufallsgrössen haben die folgende interessante Eigenschaft: Satz 3.6 Sei X geometrisch verteilt. Für k 2 N ist die bedingte Wahrscheinlichkeit P ( X = n 1 + k j X n ) gleich P (X = k), also insbesondere unabhängig von n 2 N. Beweis. Für alle k; n 2 N gilt P(X = n und 1 X m=n p(m) = 1+k jX 1 X (1 m=n p)m n) = 1 p(n 1 + k) 1 + k) = P1 n) m=n p(m) P (X = n P (X p = p(1 p)n 1 1 X (1 p)m = (1 p)n 1 : m=0 P1 p)k 1 p. Somit folgt p(n 1 + k)= m=n p(m) = (1 Der Satz hat die folgende intuitive Interpretation: Die Tatsache, dass bis zu einem Zeitpunkt kein Erfolg eingetreten ist, verändert nicht die bedingte Verteilung des Moments des ersten Erfolges, gerechnet von diesem Zeitpunkt an. (Viele Menschen sind anderer Ansicht, da sie, geleitet von der Beobachtung, dass sich Erfolge und Misserfolge zum Beispiel bei einem symmetrischen Bernoulli-Experiment ungefähr ausgleichen, dem Trugschluss erliegen, dass nach einer langen Pechsträhne die Wahrscheinlichkeit für einen Erfolg steigt.) Da sich die exakte Verteilung in vielen Beispielen nur schwer oder gar nicht explizit berechnen lässt, ist es wichtig, dass es gewisse Kenngrössen von Zufallsgrössen gibt, die oft einfacher zu berechnen oder abzuschätzen sind, und die wichtige Informationen über die Zufallsgrösse enthalten. Die wichtigste dieser Grössen ist der Erwartungswert, der angibt, wo die Zufallsgrösse “im Mittel” liegt. De…nition 3.7 Sei P X eine Zufallsgrösse. Man sagt, dass der Erwartungswert von X existiert, falls z2X( ) jzjP (X = z) < 1 ist. Der Erwartungswert von X ist dann de…niert durch E(X) = X z2X( ) 32 zP (X = z): Wir de…nieren also E(X) nur, wenn die Reihe absolut konvergiert. Der Wert der Reihe X zP (X = z) z2X( ) hängt dann nicht von der Reihenfolge der Summanden ab. Es muss hervorgehoben werden, dass der Erwartungswert einer Zufallsgrösse nur von deren Verteilungen abhängt. Zwei verschiedene Zufallsgrössen mit derselben Verteilung haben also denselben Erwartungswert. Wir lassen die Klammern oft weg und schreiben EX statt E(X). Physikalische Interpretation: Die Punkte in X( ) seien Massepunkte auf der reellen Achse. z 2 X( ) habe die Masse P (X = z). Dann ist EX der Schwerpunkt dieser Masseverteilung. Man kann statt über X( ) auch über summieren: Lemma 3.8 P Der Erwartungswert von X existiert genau dann, wenn die Reihe !2 p(!)X(!) abP solut konvergiert. In diesem Falle gilt EX = !2 p(!)X(!). Beweis. X z2X( ) jzjP (X = z) = = X z2X( ) jzj X X p(!) !:X(!)=z (z;!):X(!)=z jzjp(!) = X !2 jX(!)jp(!): Somit folgt der erste Teil der Behauptung; der zweite ergibt sich mit einer Wiederholung der obigen Rechnung ohne Absolutzeichen. Satz 3.9 a) Ist c 2 R und ist X die konstante Abbildung nach c (d.h. X(!) = c für alle ! 2 so gilt EX = c. ), b) X1 ; : : : ; Xn seien (auf einem gemeinsamen Wahrscheinlichkeitsraum de…nierte) Zufallsgrössen, deren Erwartungswerte existieren, und a1 ; : : : ; an seien reelle Zahlen. Ferner sei a1 X1 +a2 X2 + +an Xn die Zufallsgrösse, deren Wert an der Stelle ! 2 gleich a1 X1 (!) + a2 X2 (!) + + an Xn (!) ist. Dann existiert E(a1 X1 + + an Xn ) und ist gleich a1 EX1 + + an EXn . (Man sagt, der Erwartungswert sei linear.) Beweis. a) ist nach der De…nition von EX evident. b) Wir benutzen Lemma 3.8: X p(!)ja1 X1 (!) + + an Xn (!)j ! ja1 j X p(!)jX1 (!)j + + jan j ! 33 X ! p(!)jXn (!)j < 1: Somit existiert der Erwartungswert und es gilt X E(a1 X1 + + an Xn ) = p(!)(a1 X1 (!) + ! = a1 X p(!)X1 (!) + + an Xn (!)) + an ! X p(!)Xn (!) ! = a1 EX1 + + an EXn : Die Menge aller Zufallsgrössen, die auf de…niert sind, ist einfach R und ist in natürlicher Weise ein R-Vektorraum. Die Menge der Zufallsgrössen, deren Erwartungswert existiert, ist nach dem obigen Satz ein Unterraum von R . Man bezeichnet ihn oft als L1 ( ; p). Der Erwartungswert ist eine lineare Abbildung von L1 ( ; p) nach R, also ein Element des Dualraumes von L1 ( ; p). Beispiele 3.10 1. X binomialverteilt mit Parametern p; n: Wir schreiben X als X1 + + Xn , wobei Xi = 1 ist, wenn der i-te Versuch von Erfolg gekrönt war, und andernfalls Xi = 0. Es gilt E(Xi ) = P (Xi = 1) = p und somit EX = np. P k 1 p. 2. X sei geometrisch verteilt mit Parameter p > 0: Es gilt E(X) = 1 k=1 k(1 p) Eine Anwendung des Quotientenkriteriums zeigt, dass die Reihe Zur P konvergiert. k = s=(1 Berechnung verwenden wir den folgenden Trick: Sei f (s) := 1 s s) k=1 für alle jsj < 1 (geometrische Reihe). Dann gilt 0 f (s) = 1 X ksk 1 = (1 k=1 s) s( 1) 1 = : (1 s)2 (1 s)2 (Frage an den Leser: Warum darf gliedweise di¤erenziert werden?) Setzt man s = 1 p ein, so ergibt sich 1 X k=1 k(1 p)k 1 = 1 ; p2 1 also E(X) = : p 3. In unserem Modell einer zufälligen Reihenfolge einer Liste mit n verschiedenen Elementen (Beispiel 3.3) sei Y die Anzahl der Elemente, die schon auf dem richtigen Platz der geordneten Liste sind. P (Y = n) ist leicht zu berechnen, denn das Ereignis fY = ng enthält genau ein Elementarereignis, nämlich die geordnete Liste. Somit gilt P (Y = n) = 1=n!. Für k < n ist die Berechnung von P (Y = k)Pein nicht ganz triviales Problem. Mit einem Trick kann man jedoch n E(Y ) = k=0 kP (Y = k) berechnen, ohne die Verteilung von Y zu kennen. Man schreibt Y = Y1 + Y2 + + Yn , wobei Yi = 1 ist, wenn das i-te Element auf dem richtigen Platz steht, und Yi = 0 sonst. Dann gilt E(Yi ) = 1 P (Yi = 1) + 0 P (Yi = 0) = P (Yi = 1). fYi = 1g enthält genau die (n 1)! Elementarereignisse, die das i-t grösste Element der Liste auf dem i-ten Platz haben. Somit folgt 34 E(Yi ) = (n 1)!=n! = 1=n. Nun nutzt man aus, dass E(Y ) = folgt E(Y ) = 1. Pn i=1 E(Yi ) ist; also Wir wollen die Analyse von Quicksort (Beispiel 3.3) etwas fortsetzen: Der Erwar1 P tungswert EXn ist gleich n! !2 Xn (!), da n! gleich wahrscheinliche Elementarereignisse enthält. Dieser mittlere Aufwand soll nun berechnet werden. O¤enbar können wir ohne Einschränkung der Allgemeinheit annehmen, dass die zu ordnende Liste genau die Zahlen 1 bis n enthält. Die Elementarereignisse sind die Permutationen von 1 bis n, d.h. die bijektiven Abbildungen ! : f1; : : : ; ng ! f1; : : : ; ng. Ist !(1) = k, so hat nach dem ersten Durchgang des Algorithmus die Liste die Gestalt ( (1); : : : ; (k 1); k; 0 (k + 1); : : : ; 0 (n)) (3.1) Dabei sind und 0 Permutationen der Zahlen 1 bis k 1 bzw. k + 1 bis n. Die vordere Liste entfällt für k = 1 und die hintere für k = n. Es gibt im allgemeinen mehrere Elementarereignisse, die nach dem ersten Durchgang gleich aussehen, z.B. (3; 2; 4; 1); (3; 2; 1; 4); (3; 4; 2; 1). Wir bezeichnen mit k; ; 0 die Menge der Elementarereignisse, die nach dem ersten Durchgang die obige Liste (3.1) ergeben. Der erste Durchgang des Algorithmus benötigt n 1 Vergleiche. Ist !(1) = k, so ist demzufolge die gesamte Anzahl Xn (!) der benötigten Vergleiche Xn (!) = (n 1) + Xk 1( ) + Xn0 k( 0 ); wobei Xk 1 ( ) und Xn0 k ( 0 ) die Anzahl der benötigten Vergleiche für das Ordnen der Listen ( (1); : : : ; (k 1)) bzw. ( 0 (k + 1); : : : ; 0 (n)) bezeichnen. Somit gilt EXn = n 1 X 1 X Xn (!) = n! n! !2 X n = (n Xn (!) k=1 !:!(1)=k 1 XXX 1) + n! 0 k=1 X !2 (Xk 1( ) + Xn0 k( 0 )): k; ; 0 Die Summation über geht über alle Permutationen der Zahlen 1 bis k 1, und diejenige über 0 geht über alle Permutationen der Zahlen k + 1 bis n. Zunächst müssen wir abzählen, wie viele Elemente k; ; 0 enthält, d.h. wieviele Möglichkeiten es gibt, die Elemente (1); : : : ; (k 1) unter Erhaltung ihrer Ordnung in den n 1 Elementen auf den Plätzen 2 bis n der ursprünglichen Liste einzuordnen. Dies ist einfach die Anzahl der Möglichkeiten, k 1 Elemente aus f2; : : : ; ng auszuwählen, also 35 n 1 k 1 . Somit gilt n EXn = (n = (n = (n = (n 1 XXX n 1) + n! k 0 1 1) + n 1) + 1 n k=1 n X k=1 n X 1 1 X (k 1)! (EXk 1 + EXn 1 Xk Xk 1( 1( )+ ) + Xn0 X 0 0 k( 1 (n k)! ) ! Xn0 k ( 0 ) k) k=1 n 2X 1) + EXk n 1: k=1 Da EX0 und EX1 gleich 0 sind, können wir die obige Gleichung wie folgt umschreiben: nEXn = n(n 1) + 2 n X1 EXk : k=2 Dasselbe mit n 1 anstelle von n: (n 1)EXn 1 = (n 1)(n 2) + n X2 EXk : k=2 Subtrahieren wir die zweite Gleichung von der ersten, so ergibt sich nE(Xn ) (n 1)E(Xn 1) = 2(n 1) + 2E(Xn 1) d.h. nE(Xn ) (n + 1)E(Xn 1) = 2(n 1): Dividiert man durch n(n + 1), so ergibt sich: EXn n+1 EXn n 1 = 2 2(n 1) =2 n(n + 1) n+1 1 ; n also, da E(X1 ) = 0 ist, n n X X EXj EXj 1 1 EXn 2 = =2 n+1 j+1 j j+1 j j=2 j=2 0 1 n n X X1 1 2 A = 2@ j+1 j+1 j=2 j=1 0 1 0 n n X X1 1 2 1A 1 1 @ @ =2 + =2 + j+1 n+1 2 j+1 n+1 j=2 j=1 36 (3.2) 1 1A : P 1 Damit haben wir EXn berechnet, allerdings etwas unhandlich, da wir nj=1 j+1 nicht explizit hinschreiben können. Es gelten aber die folgenden Abschätzungen, bei denen log den Logarithmus zur Basis e bezeichnet: Z n+2 n Z n dx X j+2 dx X 1 = ; log(n + 1) 1 log(n + 2) log(2) = x j+1 j+1 x 2 j=1 1 x die letzte Ungleichung gilt, da x 2 [j; j + 1], also ist n X 1 j+1 1 j+1 für x 2 [j + 1; j + 2] ist. Ferner ist Z n+1 1 j=1 j=1 1 j+1 1 x für dx = log(n + 1): x Für den hergeleiteten Ausdruck für E(Xn ) bedeutet das Wegen limn!1 2(n + 1)(log(n + 1) 2) n n+1 log n log(n+1) = 1 und limn!1 E(Xn ) 2(n + 1) log(n + 1): = 1 folgt Satz 3.11 EXn = 2: n!1 n log n lim Der Aufwand für Quicksort ist also im Mittel etwa 2n log n. Man weiss, dass es keinen Sortieralgorithmus geben kann mit einem Aufwand, dessen Grössenordnung unter n log n ist. Es gibt allerdings Algorithmen, die jede vorgegebene Liste in weniger als const n log n Schritten ordnen (z.B. Mergesort), während Quicksort in ungünstigen Fällen wesentlich mehr braucht. Der mittlere Aufwand ist jedoch bei Quicksort günstiger als bei Mergesort. Der obige Satz ist ein Beispiel für eine in der Algorithmik sehr wichtige Analyse. Viele Algorithmen (z.B. bei Optimierungsproblemen) haben ein sehr schlechtes Verhalten in ungünstigsten Fällen, jedoch eine gute mittlere Laufzeit. Die alleinige Kenntnis von Erwartungswerten ist im allgemeinen wenig nützlich, wenn nicht gleichzeitig bekannt ist, dass die Zufallsgrösse mit hoher Wahrscheinlichkeit “nahe” beim Erwartungswert liegt. Dazu ein Beispiel: Ist P (X = 0) = P (X = 1) = 1=2, so ist EX = 1=2, aber dies gibt im Grunde wenig Information über X. Anderseits: Sei X die mittlere Anzahl der Kopfwürfe bei einem Münzwurf-Experiment der Länge 1000, d.h. die Anzahl der Kopfwürfe dividiert durch 1000. Aus Beispiel 3.10.1 wissen wir, dass ebenfalls EX = 1=2 gilt. Jedermann “ist bekannt”, dass X mit grosser Wahrscheinlichkeit nahe bei 1=2 liegt. Dies ist der Inhalt des Gesetzes der grossen Zahlen, das wir weiter unten gleich diskutieren und beweisen werden. Die Verteilung von X ist hier ziemlich scharf um EX konzentriert. Ohne solche “Massekonzentrationsphänomene”gäbe es keine Anwendungen der Wahrscheinlichkeitstheorie. Ein Mass für die Abweichung, die eine Zufallsgrösse von ihrem Erwartungswert hat, ist die sogenannte Varianz: 37 De…nition 3.12 Es sei X eine Zufallsgrösse mit existierendem Erwartungswert EX. Dann heisst X var(X) := (z EX)2 P (X = z) (3.3) z2X( ) p die Varianz von X und (X) := + var(X) die Standardabweichungvon X, falls die (möglicherweise unendliche) Reihe konvergiert. Man sagt oft auch, die Varianz sei unendlich, wenn die Reihe divergiert. Da die Varianz den mittleren quadratischen Abstand die Zufallsgrösse von EX misst, ist es naheliegend, dass die Standardabweichung angibt, wie weit entfernt man typischerweise die Zufallsgrösse von ihrem Erwartungswert …nden wird. Diese Interpretation soll man jedoch nur mit Vorsicht anwenden. P Eine naheliegende Frage ist, wieso man die Standardabweichung nicht einfach durch z2X( ) jz EXj P (X = z) de…niert. Die Antwort ist, dass man mit Summen von Quadraten (mathematisch) besser umgehen kann als mit Summen von Absolutbeträgen. Lemma 3.13 Es gilt var (X) 0 und var (X) = 0 gilt genau dann, wenn P (X = EX) = 1 ist. Beweis. Die Aussagen folgen unmittelbar aus der De…nition. Es ist naheliegend (und richtig, wie wir gleich sehen werden), dass var (X) einfach der Erwartungswert der Zufallsgrösse ! ! (X (!) EX)2 ist. Wir fomulieren das gleich etwas allgemeiner als unbedingt nötig. Sei X eine Zufallsgrösse und f : R ! R: Dann ist die Zusammensetzung f (X) : ! R natürlich ebenfalls eine Zufallsgrösse. Lemma 3.14 P Ef (X) existiert genau dann, wenn z2X( ) jf (z)j P (X = z) < 1 ist, und es gilt in diesem Fall X Ef (X) = f (z) P (X = z) : (3.4) z2X( ) Beweis. Das ist eine einfache Umsummierung wie in Lemma 3.8. Nach diesem Lemma P existiert Ef (X) genau dann, wenn !2 jf (X (!))j p (!) < 1 gilt. Wir spalten das nach den Werten von X auf: X X X jf (X (!))j p (!) = jf (X (!))j p (!) !2 z2X( ) !:X(!)=z = X z2X( ) jf (z)j X !:X(!)=z p (!) = X z2X( ) jf (z)j P (X = z) : Im Falle der Konvergenz dieser Reihe, folgt (3.4) mit derselben Rechnung ohne Absolutzeichen. Eine Anwendung dieses Lemmas auf die Funktion f (z) := (z EX)2 ergibt, dass var (X) der Erwartungswert der Zufallsgrösse (X EX)2 ist. Nachfolgend einige weitere einfache Eigenschaften: 38 Lemma 3.15 1. var(X) existiert genau dann, wenn E(X 2 ) existiert. 2. Existiert var(X), so gilt var(X) = E(X 2 ) 3. Für a; b 2 R gilt (EX)2 : var(a + bX) = b2 var(X): 4. Sind X und Y Zufallsgrössen, deren Varianzen existieren, so existiert die Varianz von X + Y . Beweis. 1.: Falls var(X) existiert, so existiert EX (per De…nition). Wegen z 2 2(EX)2 + 2(z EX)2 für z 2 R folgt X X z 2 P (X = z) 2(EX)2 + 2 (z EX)2 P (X = z) < 1: z2X( ) z2X( ) Nach Lemma 3.14 existiert dann E(X 2 ). Falls E(X 2 ) existiert, so folgt X X X jzjP (X = z) = jzjP (X = z) + jzjP (X = z) z2X( ) z2X( ) jzj 1 z2X( ) jzj>1 X 1+ z2X( ) Somit existiert EX. Wegen (z wie oben. 2.: var(X) = E((X = E(X 2 ) EX)2 z 2 P (X = z) < 1: 2(EX)2 + 2z 2 folgt die Existenz von var(X) EX)2 ) = E(X 2 2EX 2(EX)X + (EX)2 ) EX + (EX)2 = E(X 2 ) (EX)2 : In der dritten Gleichung haben wir die Linearität des Erwartungswertes benutzt. 3. folgt ebenfalls sofort aus der Linearität des Erwartungswerts. 4.: Es gilt (X(!) + Y (!))2 2X(!)2 + 2Y (!)2 für alle ! 2 . Nach 1 folgt die Existenz von var(X + Y ). Beispiel 3.16 Wir berechnen die Varianz einer geometrisch verteilten Zufallsgrösse X und verwenden dazu Trick wie bei der Berechnung des Erwartungswertes. Sei also f (s) := P1 denselben k = s=(1 s s) für alle jsj < 1. Dann gilt k=1 00 f (s) = 1 X k(k 1)sk 2 k=1 39 = 2 (1 s)3 ; jsj < 1: Da E(X 2 ) = E(X + X(X 1)) = E(X) + E(X(X der obigen Formel mit s = 1 p E(X(X 1)) = 1 X k(k 1)p(1 k 1 p) = p(1 k=1 p) 1)) ist, folgt mit Lemma 3.14 und 1 X k(k 1)(1 p)k 2 =2 k=1 1 p p2 ; also E(X 2 ) = 1=p + 2(1 p)=p2 = (2 p)=p2 , wobei wir E(X) = 1=p gemäss Beispiel 3.10.2 benützt haben. Aus var(X) = E(X 2 ) (EX)2 nach Lemma 3.15.2 folgt var(X) = (1 p)=p2 . Im allgemeinen gilt var(X + Y ) 6= var(X) + var(Y ). Eine einfache Rechnung ergibt nämlich var(X + Y ) = E((X + Y ) = E(X E(X + Y ))2 EX)2 + E(Y EY )2 + 2E [(X = var(X) + var(Y ) + 2E [(X EX)(Y EX)(Y EY )] (3.5) EY )] ; und der letzte Summand ist in vielen Fällen ungleich Null, z.B. für X = Y , var(X) 6= 0. Dennoch ist der Fall, wo für zwei Zufallsgrössen X und Y die Gleichung var(X + Y ) = var(X)+var(Y ) gilt, von besonderem Interesse, was wir weiter unten diskutieren werden. De…nition 3.17 Sind X und Y zwei Zufallsgrössen, so ist die Kovarianz zwischen X und Y de…niert durch cov(X; Y ) = E [(X EX)(Y EY )], falls alle in diesem Ausdruck vorkommenden Erwartungswerte existieren. Bemerkung 3.18 Eine analoge Überlegung wie im Beweis von Lemma 3.15 zeigt, dass cov(X; Y ) genau dann existiert, wenn E(X), E(Y ) und E(XY ) existieren. In diesem Fall gilt cov(X; Y ) = E(XY ) E(X)E(Y ): Lemma 3.19 Seien X und Y Zufallsgrössen, für die cov(X; Y ) existiert. 1. cov(X; Y ) = cov(Y; X): 2. Die Kovarianz ist bilinear in ihren Argumente: Sind ; cov( X; Y ) = 2 R so gilt cov(X; Y ): Sind X; X 0 ; Y Zufallsgrössen für die cov (X; Y ) und cov (X 0 ; Y ) existieren, so existiert auch cov (X + X 0 ; Y ) und es gilt cov X + X 0 ; Y = cov (X; Y ) + cov X 0 ; Y : 40 Beweis. Die Eigenschaften folgen sofort aus der De…nition der Kovarianz und der Linearität des Erwartungswertes. Die Gleichung (3.5) kann wie folgt verallgemeinert werden: Satz 3.20 Seien X1 ; : : : ; Xn Zufallsgrössen mit existierenden Varianzen und Kovarianzen. Dann gilt ! n n n X X X var Xi = var(Xi ) + cov(Xi ; Xj ) i=1 i=1 = n X i;j=1 i6=j X var(Xi ) + 2 i=1 cov(Xi ; Xj ) 1 i<j n Beweis. var n X i=1 Xi ! =E n X Xi i=1 = n X E n X i=1 (E(Xi Xi !2 EXi )(Xj =E n X !2 (Xi EXi ) n X var(Xi ) + i=1 EXj )) = i;j=1 i=1 n X cov(Xi ; Xj ): i;j=1 i6=j (Um Klammern zu sparen, verstehen wir unter EY 2 stets E Y 2 ): Die zweite Gleichung folgt aus der ersten wegen cov (X; Y ) = cov (Y; X) : Beispiel 3.21 Als Anwendung dieser Formel berechnen wir die Varianz einer hypergeometrisch verteilten Zufallsgrösse. Sei eine Schachtel mit r roten und s schwarzen Kugeln gegeben. Es werden k r + s Kugeln (ohne Zurücklegen) gezogen. X bezeichne die Anzahl gezogener P roten Kugeln. Wir schreiben X = ki=1 Xi ; wobei Xi = 1 ist, wenn die i-te gezogene Kugel rot ist, andernfalls Xi = 0: Eine einfache Rechnung ergibt r EXi = P (Xi = 1) = r+s s r var (Xi ) = E Xi2 (EXi )2 = : r+sr+s Um die Kovarianzen auszurechnen, bestimmen wir E (Xi Xj ) = P (Xi = 1; Xj = 1) = P (Xj = 1jXi = 1) P (Xi = 1) r = P (Xj = 1jXi = 1) : r+s Wir argumentieren nun wie folgt: Bedingt darauf, dass die i-te gezogene Kugel rot ist, entspricht der Ziehung der anderen Kugeln eine Ziehung aus einer um eine rote Kugel verminderten Schachtel, d..h. P (Xj = 1jXi = 1) = 41 r 1 : r+s 1 Es sei dem Leser überlassen, dieses Plausibilitätsargument mathematisch präzise zu formulieren. Aus der obigen Gleichung erhalten wir nun für i 6= j : 2 r r 1 r cov (Xi ; Xj ) = E (Xi Xj ) EXi EXj = r+sr+s 1 r+s r r 1 r rs = = : 2 r+s r+s 1 r+s (r + s) (r + s 1) Damit erhalten wir var (X) = k var (X1 ) + k (k 1) cov (X1 ; X2 ) rs rs k (k 1) = k 2 2 (r + s) (r + s) (r + s 1) rs k (r + s 1) k (k 1) krs r + s = = 2 (r + s 1) (r + s) (r + s)2 r + s k : 1 Satz 3.22 Existieren var(X) und var(Y ), so existiert cov(X; Y ) und es gilt ( (X) := j cov(X; Y )j p var(X)): (X) (Y ): (3.6) Beweis. Für alle ! 2 gilt jX(!)Y (!)j 12 X 2 (!) + 12 Y 2 (!). Daraus und aus Lemma 3.15 folgt die Existenz von E(XY ) und nach der Bemerkung 3.18 auch die von cov(X; Y ). Für ; 2 R folgt aus Lemma 3.19.2 und Satz 3.20: 0 var( X + Y ) = 2 var(X) + 2 cov(X; Y ) + 2 var(Y ): Als Funktion von ( ; ) 2 R2 de…niert dies also eine positiv semide…nite quadratische Form. Demzufolge ist det var(X) cov(X; Y ) cov(X; Y ) var(Y ) 0: (3.7) Dies impliziert die Aussage. Bemerkung 3.23 1. Der Vollständigkeit halber sei auf den folgenden Sachverhalt hingewiesen. Die Existenz von cov(X; Y ) setzt die Existenz von EX, EY und E(XY ) voraus und folgt nach dem obigen Satz aus der Existenz von var(X) und var(Y ). Letzteres ist jedoch dafür nicht notwendig: Es gibt Zufallsgrössen mit existierender Kovarianz, deren Varianzen nicht existieren. 2. Gleichheit in (3.6) gilt o¤enbar genau dann, wenn die Determinante in (3.7) gleich 0 ist. Dies ist genau dann der Fall, wenn die quadratische Form nicht postiv de…nit ist, d.h. wenn es ; 2 R gibt, nicht beide = 0; mit var( X + Y ) = 0: Wie wir schon 42 wissen, gilt diese Gleichung genau dann, wenn P ( X + Y = EX + EY ) = 1 gilt. Mit anderen Worten: Gleichheit in (3.6) gilt genau dann, wenn es reelle Zahlen ; ; c gibt, sodass mit Wahrscheinlichkeit 1 die Gleichung X + Y = c gilt. (Dass c in diesem Fall = EX + EY sein muss, ist o¤ensichtlich). Manchmal ist es praktisch, die Kovarianz noch zu normieren: Sind (X); so setzen wir cov (X; Y ) X;Y := (X) (Y ) X;Y (Y ) > 0, bezeichnet man als den Korrelationskoe¢ zienten von X und Y: Nach Satz 3.22 gilt 1 Nach der Bemerkung 3.23.2 gilt P ( X + Y = c) = 1: X;Y 1: X;Y = 1 genau dann, wenn ; ; c 2 R existieren, mit De…nition 3.24 Die Zufallsgrössen X und Y heissen unkorreliert, wenn cov(X; Y ) existiert und gleich 0 ist. Satz 3.25 Sind die Zufallsgrössen X1 ; : : : ; Xn unkorreliert und existieren die Varianzen, so gilt ! n n X X var Xi = var(Xi ): i=1 i=1 Beweis. Satz 3.20 und die De…nition von unkorreliert. Die für uns zunächst wichtigste Klasse von unkorrelierten Zufallsgrössen sind unabhängige: De…nition 3.26 n Zufallsgrössen X1 ; : : : ; Xn heissen unabhängig, wenn P (X1 = z1 ; : : : ; Xn = zn ) = P (X1 = z1 ) P (Xn = zn ) für alle zi 2 Xi ( ), i 2 f1; : : : ; ng gilt. Satz 3.27 Die folgenden vier Aussagen über die Zufallsgrössen X1 ; X2 ; : : : ; Xn sind äquivalent a) X1 ; : : : ; Xn sind unabhängig. b) Für alle A1 ; : : : ; An R gilt P (X1 2 A1 ; X2 2 A2 ; : : : ; Xn 2 An ) = P (X1 2 A1 ) c) Für alle A1 ; : : : ; An P (Xn 2 An ): R sind die Ereignisse fX1 2 A1 g; : : : ; fXn 2 An g unabhängig. 43 d) Für z1 2 X1 ( ); : : : ; zn 2 Xn ( ) sind die Ereignisse fX1 = z1 g; : : : ; fXn = zn g unabhängig. Beweis. a) ) b): Summation der Gleichung in De…nition 3.26 über (z1 ; : : : ; zn ) 2 A1 A2 An . b) ) c): Nach Lemma 2.10, dass für (i1 ; : : : ; in ) 2 f1; cgn die Gleichung 0 1 n n \ Y P @ fXj 2 Aj gij A = P (fXj 2 Aj gij ) j=1 j=1 gilt, wobei fXj 2 Aj g1 := fXj 2 Aj g ist. Nun ist jedoch fXj 2 Aj gc = fXj 2 Acj g. Wir können deshalb einfach b) mit Aj oder Acj anstelle von Aj anwenden. c) ) d) ist trivial und d) ) a) ergibt sich aus der De…nition. Korollar 3.28 Sind X1 ; X2 ; : : : ; Xn unabhängige Zufallsgrössen und sind f1 ; f2 ; : : : ; fn Funktionen R ! R; so sind f (X1 ) ; f (X2 ) ; : : : ; f (Xn ) unabhängige Zufallsgrössen. Beweis. Für Ai R gilt f! 2 : f (Xi (!)) 2 Ai g = ! 2 : Xi (!) 2 fi 1 (Ai ) ; wobei fi 1 (Ai ) := fx 2 R : fi (x) 2 Ai g ist. Aus der Äquivalenz von c) und a) im obigen Satz folgt die Behauptung. Satz 3.29 Zwei unabhängige Zufallsgrössen, deren Erwartungswerte existieren, sind unkorreliert. Beweis. Seien X und Y unabhängig. Der Erwartungswert von XY existiert nach Lemma 3.8 genau dann, wenn X jX (!) Y (!)j p (!) < 1 !2 gilt. Nun gilt X X jX (!) Y (!)j p (!) = !2 X x2X( ) y2Y ( ) = X X x2X( ) y2Y ( ) = X x jxyj X p (!) !:X(!)=x;Y (!)=y jxyjP (X = x; Y = y) = ! jxjP (X = x) X y XX x ! jyjP (Y = y) y jxj jyjP (X = x)P (Y = y) < 1: Daraus folgt die Existenz von E(XY ). Eine Repetition der obigen Rechnung ohne Absolutzeichen ergibt E(XY ) = E(X)E(Y ). Nach Bemerkung 3.18 folgt daraus die Unkorreliertheit von X und Y . 44 Bemerkung 3.30 Derselbe Beweis ergibt für n Zufallsgrösen X1 ; : : : ; Xn , die Q unabhängig sind und deren n Erwartungswerte existieren, dass der Erwartungswert von i=1 Xi existiert und gleich Qn i=1 EXi ist. Beispiele 3.31 a) Wir betrachten ein Bernoulli-Experiment mit Parametern n; p und setzen Xi = 1, falls der i-te Versuch ein Erfolg ist, und Xi = 0 sonst (1 i n). Dann gilt var(Xi ) = E(Xi2 ) (EXi )2 = p p2 = p(1 p). Die Unabhängigkeit von X1 ; : : : ; Xn folgt aus der De…nition des Bernoulli-Experimentes 2.15. P Nach Satz 3.29 sind die Xi unkorreliert. Nach Satz 3.20 folgt für die Anzahl X = ni=1 Xi der Erfolge var(X) = n X var(Xi ) = np(1 p) i=1 und somit (X) = p np(1 p). b) Um an einem Beispiel zu zeigen, dass die Umkehrung von Satz 3.29 nicht gilt, wählen wir = f 1; 0; 1g mit der Gleichverteilung und de…nieren die Zufallsgrösse X durch X(!) = ! für alle ! 2 . Dann gelten E(X) = 0, E(jXj) = 2=3 und E(XjXj) = 0, also sind X und jXj nach Bemerkung 3.18 unkorreliert. O¤ensichtlich sind X und jXj aber abhängig, denn zum Beispiel ist fX = 1; jXj = 0g das unmögliche Ereignis, aber P (X = 1)P (jXj = 0) ist gleich 1/9. Die Standardabweichung ist ein Mass dafür, wie weit X von EX mit nicht zu kleiner Wahrscheinlichkeit abweichen kann. Diese sehr vage Aussage wird durch die sogenannte Tschebysche¤ -Ungleichung präzisiert. Wir beweisen zunächst eine andere Ungleichung, die später noch nützlich sein wird, die man auch die Markov-Ungleichung nennt: Lemma 3.32 (Marko¤ Ungleichung) Es sei X eine Zufallsgrösse, deren Erwartungswert existiert. Dann gilt für jedes a > 0 P (jXj a) EjXj : a Beweis. P (jXj a) = X P (X = x) x2X( ) jxj a X jxj P (X = x) a x2X( ) jxj a X jxj EjXj P (X = x) = : a a x2X( ) 45 Satz 3.33 (Tschebysche¤-Ungleichung) Sei X eine Zufallsgrösse, deren Erwartungswert EX und Varianz var(X) existieren. Dann gilt für jedes a > 0 var(X) P (jX EXj a) : a2 Beweis. Mit Lemma 3.32 folgt P (jX EXj a) = P ((X EX)2 a2 ) 1 E((X a2 EX)2 ) = var(X) : a2 Die Tschebysche¤-Ungleichung ist nach dem russischen Mathematiker Pafnuty Lvovich Tschebysche¤ (1821-1894) benannt. In Tat und Wahrheit stammt sie jedoch vom franzözischen Mathematiker Irénée-Jules Bienaymé (1796-1878). Historische Puristen nennen die Ungleichung daher “Bienaymé-Tschebyche¤ Ungleichung”. Irénée-Jules Bienaymé P. L. Tschebysche¤ Die Tschebysche¤-Ungleichung ist in gewisser Weise optimal: Man kann leicht ein Beispiel angeben, bei dem die Abschätzung scharf ist: Beispiel 3.34 Sei a > 0 und X eine Zufallsgrösse, die als Werte a, +a und 0 annimmt und deren Verteilung gegeben ist durch P (X = a) = P (X = +a) = 1=(2a2 ) und P (X = 0) = 1 1=a2 . Wir erhalten E(X) = 0 und var(X) = 1 und damit P (jX E(X)j a) = P (jXj a) = P (X = a) + P (X = +a) = 1 : a2 Trotz dieses Beispiels ist die Tschebysche¤ Ungleichung in vielen Fällen keine sehr gute Abschätzung. Wir werden das später noch ausführlicher diskutieren. Die Tschebysche¤Ungleichung ist gut genug, um das nachfolgende Gesetz der grossen Zahlen zu beweisen. 46 Satz 3.35 (Schwaches Gesetz der grossen Zahlen) Es seien für jedes n 2 N auf einem Wahrscheinlichkeitsraum unkorrelierte Zufallsgrössen X1 ; X2 ; : : : ; Xn gegeben, die von n abhängen dürfen, die aber P alle den gleichen Erwartungswert und die gleiche Varianz 2 besitzen. Sei Sn := ni=1 Xi : Dann gilt für jedes ">0 Sn lim P " = 0: (3.8) n!1 n Beweis. Aus Satz 3.33, Lemma 3.15.3 und Satz 3.25 folgt P Sn n " = 1 Sn var 2 " n 1 1 var (Sn ) = 2 2 n n2 " 2 n " 2 2 = n"2 ! 0 fu •r n ! 1: Falls wir also ein Zufallsexperiment beliebig oft wiederholen und annehmen, dass die Ergebnisse (Zufallsgrössen) paarweise unabhängig oder mindestens unkorreliert sind, so ist die Wahrscheinlichkeit für ein Abweichen der Mittelwerte der ersten n Experimente vom Erwartungswert schliesslich (d.h. für hinreichend grosse n) beliebig klein. Das Gesetz geht für Bernoulli-Variablen auf Jacob Bernoulli zurück (1654-1705). Es wurde jedoch erst nach seinem Tode 1713 publiziert. Die Schweizer Mathematiker betrachten das Gesetz o¤enbar als das bedeutendste mathematische Schweizer Produkt. Jedenfalls wurde es auf einer Sondermarke der Post anlässlich des Mathematischen Weltkongresses 1994 in Zürich dargestellt: Jacob Bernoulli Die Graphik auf der Marke soll o¤enbar einen “typischen”Verlauf von Sn =n wiedergeben. Allerdings ist ein Verlauf wie der dargestellte extrem unwahrscheinlich, da das Vorzeichen in der Darstellung praktisch bei jedem Schritt wechselt.5 5 Die Überschrift “Mathematica”war nicht als Werbung für das gleichnamige Software-Paket gedacht. Jedenfalls trat Wolfram-Research nicht als Sponsor des Kongresses in Erscheinung. Dass es sich bei der dargestellten Person um Jacob Bernoulli handelt, wurde dem Publikum vorenthalten. 47 Die Abschätzung Bernoullis für P (jSn =n j ") ist übrigens viel besser als die oben hergeleitete. Er beweist in der Tat (allerdings nur für binomialverteilte Zufallsgrössen), dass eine positive Zahl C ("; p) > 0 existiert (p die Erfolgswahrscheinlichkeit im Bernoulli-Experiment), sodass für alle n P Sn n " 2 exp [ C ("; p) n] (3.9) gilt. Seine Konstante C ("; p) ist jedoch nicht ganz optimal. Wir werden gleich unten (Satz 3.39) eine solche Abschätzung herleiten. Man muss dabei bedenken, dass Bernoulli die sogenannte Sterling-Approximation, die wir später diskutieren werden, nicht kannte, mit der eine Abschätzung vom Typ (3.9) für Bernoulli-Variablen leicht hergeleitet werden kann. Die Voraussetzungen des Satzes 3.35 muten etwas umständlich an. Wieso setzen wir nicht einfach voraus, dass (Xi )i2N eine Folge von unkorrelierten Zufallsgrössen ist? Die Antwort ist einfach, dass eine derartige unendliche Folge auf einem abzählbaren Wahrscheinlichkeitsraum nicht de…niert werden kann (ausser im ganz trivialen Fall, wo die Xi alle konstant sind). Im Satz 3.35 setzen wir jedoch nur voraus, dass für jedes n ein Wahrscheinlichkeitsraum (n) existiert, auf dem die X1 ; : : : ; Xn existieren. Wenn (n) (n) wir ganz pedantisch wären, sollten wir deshalb X1 ; : : : ; Xn schreiben. Es macht keine Schwierigkeiten, eine solche Folge von (diskreten) Wahrscheinlichkeitsräumen und die dazugehörenden Zufallsgrössen als mathematisch präzis de…nierte Objekte zu konstruieren. Dazu die folgende Proposition 3.36 Es sei n 2 N und f1 ; : : : ; fn seien P (diskrete) Wahrscheinlichkeitsverteilungen auf R; d.h. Abbildungen fi : Ai ! [0; 1] mit x2Ai fi (x) = 1; wobei die Ai abzählbare Teilmengen von R sind. Dann existiert ein Wahrscheinlichkeitsraum ( ; p) und darauf de…nierte unabhängige Zufallsgrössen X1 ; : : : ; Xn ; die die fi als Verteilungen haben. (sie De…nition 3.4). Beweis. Sei = A1 An . Für ! = (! 1 ; : : : ; ! n ) 2 setzen wir Xi (!) = ! i für alle i in f1; : : : ; ng und p(!) = f1 (! 1 )f2 (! 2 ) fn (! n ). Per Konstruktion sind X1 ; : : : ; Xn unabhängig. Ferner hat Xi o¤ensichtlich die Verteilung fi : Haben die fi alle denselben Erwartungswert und dieselbe Varianz (z.B. wenn sie alle gleich sind), so haben die Xi alle denselben Erwartungswert und dieselbe Varianz. Diese Konstruktion können wir für jedes n durchführen. Wir haben somit gezeigt, dass endliche Folgen von unabhängigen (und mithin unkorrelierten) Zufallsgrössen für jede diskrete Verteilung existieren. Für die Konstruktion unendlicher Folgen benötigt man jedoch mehr Masstheorie. Wir diskutieren das in dieser Vorlesung nur andeutungsweise. (Siehe Satz 2.19). 48 Noch eine Bemerkung zum Spezialfall des Bernoulli-Experimentes: Ist Sn binomialverteilt mit Erfolgswahrscheinlichkeit p, so besagt Satz 3.35, dass für jedes " > 0 P Sn n p " = P (jSn = npj X n") X P (Sn = k) = k:jk npj n" k:jk npj n" n k p (1 k p)n k mit n ! 1 gegen 0 konvergiert. Man muss sich jedoch darüber im klaren sein, dass keineswegs etwa P (Sn 6= np) gegen null konvergiert. In der Tat konvergiert P (jSn npj r) gegen 1 für jede Zahl r > 0, wie wir später noch sehen werden. Nicht Sn liegt mit grosser Wahrscheinlichkeit (für grosse n) in der Nähe von np, sondern Sn =n in der Nähe von p. Auch für unser Beispiel mit Quicksort kann ein “Gesetz der grossen Zahlen” bewiesen werden. Dazu muss die Varianz der Zufallsgrösse Xn , der Anzahl der benötigten Vergleiche, abgeschätzt werden. Ohne Beweis zitieren wir das folgende Ergebnis: Lemma 3.37 Sei Xn die Anzahl der benötigten Vergleiche beiQuicksort für eine Liste der Länge n. Dann existiert c = limn!1 var(Xn )=n2 und ist grösser als 0. Das Lemma besagt insbesondere, dass sup n var(Xn ) <1 n2 gilt. Die wichtige Tatsache ist, dass die Standardabweichung (Xn ) n klein gegenüber dem Erwartungswert ist, d.h. dass sich die Verteilung im relativen Massstab mehr und mehr um den Erwartungswert konzentriert (siehe den Satz 3.38 gleich unten). Die Situation ist jedoch wesentlich schlechter als etwa beim Gesetz der grossen Zahlen für das Bernoulli-Experiment. Dort war der Erwartungswert von der Ordnung n; die Standardp abweichung jedoch nur von der Grössenordnung n: Bei Quicksort ist also die Standardabweichung nur um einen logarithmischen Faktor kleiner als der Erwartungswert. Wir können das Lemma hier nicht beweisen.6 Man kann das Lemma “zu Fuss” veri…zieren, was jedoch nicht ohne Tücken ist. Wer gerne harte Nüsse knackt, soll das versuchen. Als Konsequenz aus dem obigen Resultat über die Varianz bei Quicksort erhält man das folgende Gesetz der grossen Zahlen: Satz 3.38 Für jedes " > 0 gilt lim P n!1 Xn n log n 2 " = 0: 6 siehe U. Rösler: A limit theorem for Quicksort, Theoretical Informatics and Applications, Vol 25 (1991), 85-100. Die Konstante c im Lemma ist übrigens 7 2= 3 2 : Röslers Beweis benutzt eine aufwendige Theorie (Kontraktionseigenschaften in gewissen unendlichdimensionalen metrischen Räumen). 49 Beweis. Nach Satz 3.11 existiert N" 2 N, so dass EXn n log n für alle n 2 "=2 N" gilt. Für jedes derartige n gilt Xn n log n 2 Xn n log n " EXn n log n " 2 und mittels mit der Tschebysche¤-Ungleichung folgt P Xn n log n 2 " P Xn n log n EXn n log n " 2 4 var(Xn ) : "2 n2 log2 n Nach Lemma 3.37 konvergiert dies gegen 0 für n ! 1. Obwohl das Resultat “aus mathematischer Sicht”befriedigt, ist die Abschätzung für praktische Zwecke nicht allzu nützlich. Wählt man etwa " = 1; so erhält man etwa P Xn n log n 4 7 4 var(Xn ) n2 log2 n 3 2 2= 3 2 log n 28 : log2 n Das ist erst ab etwa n = 1700 kleiner als 0:5: Da Quicksort hauptsächlich wegen der besseren Konstante anderen Algorithmen vorgezogen wird, ist das ganz unbefriedigend. Tatsächlich sind jedoch die Wahrscheinlichkeiten wesentlich kleiner. Das liegt nicht an “falschen” Aussagen über die Varianz, sondern daran, dass die Tschebysche¤Ungleichung für Quicksort keine gute Abschätzung ist. Wir können das hier nicht weiterverfolgen. Für Quicksort ist die Situation ziemlich kompliziert. Wir diskutieren diese Aspekte jedoch etwas weiter für das Bernoulli-Experiment, wo die Tschebysche¤Ungleichtung ebenfalls nur ganz schlechte Abschätzungen liefert. Sei Sn die Anzahl der “Erfolge” in einem Bernoulli-Experiment der Länge n und mit Erfolgswahrscheinlichkeit p 2 (0; 1). Wie wir schon wissen, gilt ESn = np und var(Sn ) = np (1 p). Das Gesetz der grossen Zahlen besagt also in diesem Fall lim P n!1 Sn n p " =0 für jedes " > 0: Die Tschebysche¤-Ungleichung gibt die Abschätzung P Sn n p " p (1 p) : "2 n Wir leiten nun eine wesentlich bessere Abschätzung her, was jedoch ein gutes Stück aufwendiger ist. Es erweist sich als zweickmässig, die Abweichungen noch oben und nach unten getrennt abzuschätzen. Wir untersuchen erst P Sn n p+ ; 0< 50 1 p: (Für > 1 p ist P (Sn =n p + ) = 0:) Für jede Zahl > 0 ist die Funktion x R 3 x 7! e monoton wachsend. Zusammen mit Lemma 3.32 folgt P Sn n p =P e (Sn pn) n e n e E e (Sn pn) ; wobei der Erwartungswert existiert, da Sn nur endlich viele Werte P annimmt. Um diesen Erwartungswert auszuwerten, schreiben wir (Sn pn) = ni=1 (Xi p), wobei X1 ; : : : ; Xn die unabhängigen Zufallsgrössen mit P (Xi = 1) = p, P (Xi = 0) = 1 p: Wir de…nieren die Zufallsgrössen Zi := e (Xi p) für i 2 f1; : : : ; ng. Man beachte (1i p) EZi = pe + (1 p p) e : Da die Xi unabhängig sind, folgt aus Korollar 3.28, dass auch die Z1 ; : : : ; Zn unabhängig sind. Demnach folgt ! n n Y Y n (Sn n=2) E e =E Zi = EZi = pe (1i p) + (1 p) e p : i=1 Insgesamt erhalten wir für jedes P Sn n p e wobei M ( ) := pe folgt (1i p) n + (1 Sn n P (1i p) p p) e + (1 n p p) e = exp [n ( + log M ( ))] : ist. Da diese Abschätzung für jedes exp n inf ( > 0 gilt, + log M ( )) : >0 + log M ( ) und berechnen nun das In…mum über diese + = >0 p Wir schreiben f ( ) := Funktion. f0 ( ) = pe i=1 M0 ( ) = M( ) + p (1 " e f 00 ( ) = p (1 p) pe + (1 h p (1 p) = 2 e (pe + (1 p)) p) + p (1 (1i p) (1 p) pe p) + (1 p) e p p e 1 pe + (1 p) e p) p) e pe (1i 1 (pe + (1 pe + (1 2 pe p)) p) e # 1 pe i Demzufolge ist f 0 ( ) streng monoton steigend. Anderseits gelten lim f 0 ( ) = < 0; lim f 0 ( ) = +1 !0 !1 51 p 0: = p (1 p) e (pe + (1 2 p)) > 0: Für = 1 p ist inf >0 ( + log M ( )) = lim !1 ( + log M ( )) = log p und für 2 (0; 1 p) existiert eine eindeutige Nullstelle 0 der Funktion ! f 0 ( ) auf R+ ; an der f ihr Minimum annimmt. Einsetzen in f 0 ( 0 ) = 0 ergibt mit der Abkürzungen x := + p p (1 p) e 0 e pe (p (1 0 1 0 + (1 p) p) >0 = 0) x log = ; p) = 0 inf f ( ) = f ( = (1 p) + p (1 p) ; (1 p) x = h (p) h (x) : = log p (1 x) ( (1 p) x (1 p) x log + log p p (1 x) p (1 x) (1 p) x 1 + log p (1 x) 1 p = (1 x x) log 1 1 1 p + (1 (1 p) x p) p (1 x) p p p + x log x x Wir haben also den folgenden Satz gezeigt: Satz 3.39 Sei Sn die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge n mit Erfolgswahrscheinlichkeit p 2 (0; 1). Dann gilt für p x 1:Dann gilt P Sn n x e Ip (x) := (1 x) log 1 1 mit nIp (x)) p x wobei wir für x = 1; Ip (1) := log p de…nieren. Für 0 P Sn n x e ; p x log ; x x nIp (x)) (3.10) p gilt : Es gilt Ip (x) 0 und Ip (x) ist genau dann = 0 wenn x = p ist. Insbesondere ist Ip (x) > 0 für x 6= p: Beweis. Für p < x 1 haben wir den Satz eben gezeigt. Für x = p ist Ip (x) = 0 und die Abschätzung trivial. Für x p folgt die Abschätzung mit einem analogen Argument. Die angegebenen Eigenschaften der Funktion Ip folgen sofort aus der (3.10) (Übungsaufgabe zu Di¤-Int I). Ip (x) ist eine Art Entropie. Überlegungen von dieser Art spielen in der Statistischen Mechanik eine grosse Rolle. Der Graph von Ip für den Fall p = 3=4 ist: 52 ) Die Kurve hat übrigens Tangente 1 für x = 0 und 1; was man auf der Gra…k nicht so recht sieht. Der Vorteil einer Abschätzung wie der im obigen Satz gegeben besteht darin, dass sie für jedes n gelten. Im Zentralen Grenzwertsatz, den wir später diskutieren werden, werden asymptotische Aussagen für n ! 1 gemacht, was natürlich weitaus weniger “nütztlich” ist. Hier ein Rechenbeispiel. Sie werfen einen Würfel 1000 mal. Mit welcher Wahrscheinlichkeit werfen Sie weniger als 100 mal eine Sechs. Die obige Abschätzung ergibt: P (Sn 99) P Sn n 0:099 exp 1000I1=6 (0:099) = 7:0095 10 9 : Die Abschätzung ist schon recht gut. Der wahre Wert ist jedoch nochmals um etwa eine Zehnerpotenz kleiner. Zum Abschluss des Kapitels noch eine Diskussion des sogenannten starken Gesetzes der grossen Zahlen Der Satz 3.35 heisst schwaches Gesetz der grossen Zahlen, um es vom sogenannten starken Gesetz der grossen Zahlen zu unterscheiden. Dieses besagt P lim n!1 Sn existiert und ist = n = 1: (3.11) (3.11) macht jedoch nur Sinn, wenn alle Xi , i 2 N, auf einemWahrscheinlichkeitsraum de…niert sind. Wir diskutieren das starke Gesetz der grossen Zahlen im Fall von Bernoulli Variablen, d.h. wenn die Xi unabhängig sind und Werte in f0; 1g annehmen mit P (Xi = 1) = p; p 2 (0; 1) : In diesem Fall ist = p: Wir verwenden dabei den (nicht bewiesenen) Satz 2.19. Zunächst eine Vorbereitung. Im untenstehenden Lemma ist ( ; F; P ) ein beliebiger Wahrscheinlichkeitsraum (gemäss der De…nition 1.12.2. 53 Lemma 3.40 1. Sei fAn gn2N eine Folge von Ereignissen in F; die monoton ansteigend oder absteigend ist, d.h. An An+1 für alle n (bzw. An An+1 für alle n). Dann gilt [ P An = lim P (An ) n n!1 im ansteigenden Fall, bzw. P im absteigenden. \ n An = lim P (An ) n!1 2. Sei fAn gn2N eine beliebige Folge von Ereignissen in F: Dann gilt [ X P An P (An ) : n n Beweis. 1.: Wir zeigen die Aussage im ansteigenden Fall. Im absteigenden Fall folgt die Aussage analog. Wir setzen B1 : = A1 ; Bn : = An nAn 2: S S Die Bn sind in F und paarweise disjunkt. Ferner gilt n An = n Bn : Somit folgt [ [ X P An = P Bn = P (Bn ) n n = = lim N !1 N X 1; n n2N [N P (Bn ) = lim P Bn n=1 N !1 n=1 lim P (AN ) : N !1 Die zweite Gleichung nach der -Additivität (Axiom 1.11). 2.: Wir modi…zieren die De…nition der Bn etwas: B1 : = A1 ; /[ n Bn : = An 1 i=1 Ai ; n Die Bn sind in F und paarweise disjunkt, und es gilt Bn An für alle n: Somit folgt [ [ X P An = P Bn = P (Bn ) n n = lim N !1 N X 2: S n An = S n Bn . Ferner gilt n2N P (Bn ) n=1 54 lim N !1 N X n=1 P (An ) = X n P (An ) : Satz 3.41 (Starkes Gesetz der grossen Zahlen) Es seien Xi unabhängige Zufallsgrössen mit Werten in f0; 1g mit P (Xi = 1) = p; p 2 (0; 1) ; P de…niert auf dem Wahrscheinlichkeitsraum ( ; F; P ) gemäss Satz 2.19. Sei ferner Sn := ni=1 Xi : Dann gilt P lim n!1 Sn existiert und ist = p n = 1: Beweis. Wie wir am Schluss vom 2. Kapitel gesehen haben, ist Sn existiert und ist = p n!1 n lim wobei An;m := d.h. !2 = \ m2N [ \ N 2N n:n N 1 Sn (!) 1 < <p+ m n m :p c Sn existiert und ist = p n!1 n lim = [ m2N \ N 2N [ An;m ; ; n:n N Acn;m : c Um den Satz zu zeigen, müssen wir daher P limn!1 Snn existiert und ist = p = T S c 0 nachweisen. Die Folge der Ereignisse N 2N n:n N An;m ist ansteigend in m: Nach Lemma 3.40.1 gilt daher Sn existiert und ist = p n!1 n P c lim = lim P m!1 T S \ N 2N [ n:n N Acn;m ; c N 2N n:n N An;m = 0 ist. Dabei können wir 1 1 einschränken, für die S 0 p cm < p + m 1 ist. (Wir hatten 0 < p < 1 Nun ist die Folge n:n N An;m monoton fallend in N und daher gilt und es genügt daher zu zeigen, dass P uns auf m 2 N angenommen). (wieder nach Lemma 3.40.1) P \ N 2N [ Ac n:n N n;m = lim P N !1 [ Ac n:n N n;m lim sup 1 X N !1 n=N P Acn;m ; die letzte Ungleichung nach der -Subadditivität (Lemma 3.40.2) P Acn;m = P e Sn n p+ nIp (p+1=m)) 1 m +e Sn n +P p nIp (p 1=m)) 1 m : Demzufolge ist nach Satz 3.39 unter Ausnützung von Ip (p+1=m)) > 0; Ip (p 1=m)) > 0 und der Summation geometrischer Reihen 1 X n=N P Acn;m e 1 N Ip (p+1=m)) e Ip (p+1=m)) 55 + e 1 N Ip (p 1=m)) e Ip (p 1=m)) und es gilt lim N !1 " e 1 N Ip (p+1=m)) e Ip (p+1=m)) + N Ip (p 1=m)) e 1 e Ip (p 1=m)) # = 0: Damit ist der Satz gezeigt. Bemerkung 3.42 1. Der obige Satz gilt sehr viel allgemeiner, wie Sie später sehen werden. Für unabhängige Zufallsgrössen Xn ; die alle die gleiche Verteilung besitzen, genügt es, die Existenz des Erwartungswertes vorauszusetzen. (p muss dann durch den Erwartungswert der Xi ersetzt werden). Allerdings gilt unter einer solchen Voraussetzung eine Abschätzung von Typus von Satz 3.39 nicht mehr, sodass man sehr viel subtiler argumentieren muss. 2. Wieso heisst der Satz “Starkes Gesetz der grossen Zahlen”. Sei MN := sup n:n N Sn n p : Eine genaue Analyse des Beweises des obigen Satzes zeigt (Übungsaufgabe), dass man für die Aussage des Satzes nachweisen muss, dass für jedes " > 0 lim P (MN ") = 0 N !1 gilt. Wegen MN SN N p ist dies o¤ensichtlich eine stärkere Aussage als (3.8). 3. Ob die Aussage des starken Gesetzes der grossen Zahlen oder die des schwachen Gesetzes relevanter ist, ist weitgehend eine “Glaubensfrage”. Für die Praxis relevant sind einzig konkrete Abschätzungen von P Sn n p " für n; "; wie etwa die Abschätzungen in Satz 3.39. Allerdings sind Beweise von Limesaussagen wie in den Gesetzen der grossen Zahlen typischerweise sehr viel einfacher zu beweisen als gute konkrete Abschätzungen für endliches n: 56 4 Die Poisson-Verteilung und der Poissonsche Punktprozess 4.1 Der Poissonsche Grenzwertsatz Es sei daran erinnert, dass eine Zufallsgrösse X mit der Verteilung n k p (1 k P (X = k) = b(k; n; p) = p)n k ; k = 0; 1; : : : ; n binomialverteiltheisst (mit Erfolgswahrscheinlichkeit p und Länge n). Wir wollen diese Verteilung durch eine neue approximieren, die jeder nicht negativen ganzen Zahl ein positives Gewicht gibt, der sogenannten Poissonverteilung. Für eine reelle Zahl > 0 betrachte man die Wahrscheinlichkeitsverteilung auf N0 := N[ f0g, die durch e k (k) := ; k 2 N0 ; k! de…niert ist. Zunächst überzeugt man sich davon, dass 1 X (k) = e k=0 ist. 1 X k=0 k =e k! e =1 ist also tatsächlich eine Wahrscheinlichkeitsverteilung. De…nition 4.1 Sei > 0: Eine Zufallsgrösse X mit X( ) = N0 und der Verteilung verteilt mit Parameter heisst Poisson- Der Erwartungswert dieser Verteilung ist leicht auszurechnen: 1 X k (k) = e k=0 1 X k=0 1 X k k k! =e k=1 k 1 (k 1)! =e 1 X k=0 k k! e+ = : =e Eine Poisson-verteilte Zufallsgrösse hat also Erwartungswert . Als nächstes die Varianz: E(X 2 ) = 1 X k2 (k) = e k=0 = e 1 X k2 k=1 1 X (k(k 1) + k) k=1 k k! 1 X k k! =e k=0 k+2 k! + = 2 + : Somit gilt var(X) = E(X 2 ) (EX)2 = 2 + 2 = : Lemma 4.2 Erwartungswert und Varianz einer Poisson-verteilten Zufallsgrösse sind gleich dem Parameter . 57 Die Poissonverteilung wurde von Siméon Poisson (1781-1840) in die Wahrscheinlichkeitstheorie eingeführt. Poisson war ein sehr vielseitiger Mathematiker. Es gibt sehr bedeutende andere Leistungen von ihm, z.B. die Analyse der sogenannte Poisson-Gleichung in der Theorie der Partiellen Di¤erentialgleichungen. Siméon Poisson Wir zeigen nun, dass die Poissonverteilung eine Approximation der Binomialverteilung ist, wenn n gross und p klein sind. Zunächst überlegt man sich, in welcher Beziehung zu den Parametern n, p der Binomialverteilung stehen soll. Wir wählen so, dass die Erwartungswerte übereinstimmen, dass also = np ist. b(k; n; p) liegt nahe bei (k) für = np. Um das zu präzisieren, leiten wir eine konkrete Schranke für (n; p) := 1 X k=0 jb(k; n; p) np (k)j her. Wir werden nachweisen, dass unter zu präzisierenden Bedingungen die Grösse (n; p) klein ist. Wir formulieren und beweisen jedoch ein etwas allgemeineres Resultat. Dazu erinnern wir uns, dass sich eine binomialverteilte Zufallsgrösse S als S = X1 +: : :+Xn schreiben lässt, wobei die Xi unabhängige Zufallsgrössen mit P (Xi = 1) = p und P (Xi = 0) = 1 p ist. Wir verallgemeinern das nun: Die Xi sollen weiter unabhängig sein und nur die Werte 0 oder 1 annehmen; wir setzten jedoch nicht mehr voraus, dass alle dieselbe Verteilung haben, d.h. wir lassen zu, dass die Wahrscheinlichkeiten pi := P (Xi = 1) verschieden sind, d.h. dass die “Erfolgswahrscheinlichkeit” sich im Zeitverlauf verändert. In einem solchen Fall ist es für grosse n praktisch unmöglich, die Verteilung von S auszurechnen. 58 Satz 4.3 Es seien X1 ; : : : ; Xn unabhängige Zufallsvariablen, de…niert auf einem gemeinsamen Wahrscheinlichkeitsraum, mit P (Xi = 1) = pi und P (Xi = 0) = 1 pi (0 < pi < 1) für i = 1; : : : ; n. Sei S := X1 + + Xn und := p1 + + pn , dann gilt: 1 X k=0 jP (S = k) Es folgt also im Fall p = p1 = Korollar 4.4 Für alle n 2 N und p 2 (0; 1) gilt (k)j 2 p2i : i=1 = pn : (n; p) n X 2np2 . Bevor wir den Satz beweisen, einige Kommentare: Die Schranke ist nur für kleine p interessant. Man kann daraus Grenzwertaussagen ableiten. Wir lassen dabei p von n abhängen (p := pn ) und n nach unendlich streben. Falls limn!1 np2n = 0 gilt, so folgt aus Korollar 4.4, dass limn!1 (n; pn ) = 0 gilt. Insbesondere folgt der sogenannte Poissonsche Grenzwertsatz: Korollar 4.5 (Poissonscher Grenzwertsatz) Ist > 0 und gilt npn ! > 0 für n ! 1, so gilt für jedes k 2 N0 : lim b(k; n; pn ) = n!1 (k): Korollar 4.5 folgt sofort aus Korollar 4.4: Aus npn ! folgt pn ! 0 für n ! 1 und damit np2n ! 0. Ferner ist jb(k; n; p) (n; p) für jedes k 2 N0 . Demzufolge np (k)j gilt lim jb(k; n; pn ) npn (k)j = 0: n!1 Wegen npn (k) ! (k) folgt Korollar 4.5. Die Aussage von Korollar 4.4 ist auch im Fall, wo np2n ! 0, npn ! 1 gelten, von Interesse (z.B. pn = 1=n2=3 ). Aus der De…nition der (k) ergibt sich zwar, dass lim !1 (k) = 0 für jedes k gilt, und somit ergibt sich für die einzelnen b(k; n; pn ) nur limn!1 b(k; n; pn ) = 0, was ohnehin nicht schwer P zu sehen ist. Korollar 4.4 besagt jedoch wesentlich mehr, denn natürlich gilt stets k b(k; n; pn ) = 1 für alle n, so dass die Aussage keinesfalls trivial ist. Der wichtigste Vorzug von Korollar 4.4 und Satz 4.3 im Vergleich zu Korollar 4.5 ist jedoch, dass eine ganz konkrete Approximationsschranke vorliegt. Satz 4.3 ist viel schwieriger zu beweisen als Korollar 4.5, dessen Beweis ziemlich trivial ist. Hier der Standardbeweis des Letzteren: Beweis von Korollar 4.5. . Setze n = npn . Nach Voraussetzung gilt n ! . n n k 1 n k n n(n 1) (n k + 1) kn (1 k! nk (1 k 1 1 n 1 1 k k! (1 n n =n) b(k; n; pn ) = b k; n; = = n = 59 n n k n n n =n) k n =n) 2 n 1 k 1 n 1 n n n : Wegen n ! , also n =n ! 0 folgt k lim b(k; n; pn ) = n!1 k! lim n!1 n n 1 n =e : Die untenstehende Tabelle gibt einige numerisch ermittelte Anhaltspunkte für den Vergleich zwischen Binomial- und Poissonverteilung (p := 0:1; n = 20). k 0 1 2 3 4 b (k; 0:1; 20) 0:12158 0:27017 0:28518 0:19012 0:089779 2 (k) 0:13534 0:27067 0:27067 0:18045 0:090224 Wir kommen nun zum Beweis des Satzes 4.3, der einige Vorbereitungen benötigt. Wichtige ist, dass Summen von unabhängigen Poisson-verteilten Zufallsgrössen wieder Poisson-verteilt sind: Proposition 4.6 X und Y seien unabhängig und Poisson-verteilt mit Parametern 0. Dann ist X + Y Poisson-verteilt mit Parameter + . beziehungsweise > Beweis. Für n 2 N0 gilt: P (X + Y = n) = = = n X k=0 n X k=0 n X k=0 = P (X = k; Y = n k) P (X = k)P (Y = n k k! (n n k k)! 1 ( + )n e n! e e ( + ) = k) 1 = n! + (Unabh•angigkeit) n X n k k=0 k n k ! e ( + ) (n): Bemerkung 4.7 Mit Induktion folgt sofort, dass die Summe von endlich vielen unabhängigen Poissonverteilten Zufallsgrössen wieder Poisson-verteilt ist, wobei der Parameter sich als Summe der Einzelparameter ergibt. Der Beweis des Satzes 4.3 verwendet eine Technik, die man Kopplung nennt. Nehmen wir auf N0 : f; g : N0 ! [0; 1], P an, f und P g seien zwei Wahrscheinlichkeitsverteilungen P1 f (k) = g(k) = 1. Wir wollen zeigen, dass jf (k) g(k)j klein ist. Die Idee der k k k=0 60 Kopplungsmethode besteht darin, Zufallsgrössen X, Y auf einem gemeinsamen Wahrscheinlichkeitsraum zu konstruieren, die die Verteilung f beziehungsweise g haben, und die möglichst weitgehend übereinstimmen. Es soll also die folgende Situation vorliegen: f (k) = P (X = k); g(k) = P (Y = k); und P (X 6= Y ) “so klein wie möglich”. Wir werden gleich nach dem nächsten Lemma sehen, wie man das für den uns hier interessierenden Fall macht. Wir beweisen zunächst ein Lemma, das uns angibt, was wir nach einer solchen Kopplung gewonnen hat.7 Sie A := f ! : X(!) = Y (!) g. Man sagt, X und Y seien auf A “gekoppelt”. Lemma 4.8 Unter den obigen Bedingungen gilt 1 X k=0 jf (k) g(k)j 2P (Ac ): Beweis. Sei M := f k 2 N0 : f (k) > g(k) g. Dann ist 1 X k=0 jf (k) g(k)j = X (f (k) g(k)) k2M = 2 X (f (k) g(k)) k2M X (f (k) k2M = 1 X g(k)) (f (k) g(k)) k=0 = 2(P (X 2 M ) P (Y 2 M )) (1 c = 2(P (X 2 M; A) + P (X 2 M; A ) c = 2(P (Y 2 M; A) + P (X 2 M; A ) c 2(P (Y 2 M; A) + P (A ) 1) P (Y 2 M )) P (Y 2 M )) P (Y 2 M )) 2P (Ac ): Wir wenden nun dieses Kopplungsargument an, um unseren Satz zu beweisen. Beweis von Satz 4.3. Der Hauptteil des Beweises besteht in einer geeigneten Wahl des zugrundeliegenen Wahrscheinlichkeitsraumes. Da wir nur die Verteilung von S berechnen müssen, ist es egal, auf welchem Wahrscheinlichkeitsraum die Zufallsgrössen Xi de…niert werden. Es ist für uns nur wichtig, dass die Zufallsgrössen unabhängig sind und P (Xi = 1) = pi sowie P (Xi = 0) = 1 pi gilt. Diese Freiheit nutzen wir für unsere Wahl so, dass eine Poisson-verteilte Zufallsgrösse zum Parameter möglichst weitgehend mit p S übereinstimmt. Dazu sei i = f 1; 0; 1 pi und Pi (k) = e k! i pki P1; 2; : : : g, Pi (0) p= i für k 1 sowie Pi ( 1) = 1 Pi (0) (1 pi ) 0. (Wieso gilt k 1 Pi (k) = e das letzte Ungleichheitszeichen?) Nach Konstruktion sind somit ( i ; Pi ) W.-Räume. Wir 7 Die Wahrscheinlichkeitstheoretiker schätzen den Rahmen mit ganz allgemeinen Wahrscheinlichkeitsräumen vor allem wegen der Freiheit, Manipulationen wie diese Kopplungstricke durchführen zu können. 61 betrachten den Produktraum ( ; P ) der ( für ! 2 Xi (!) := i ; Pi ) im Sinne der De…nition 2.13. Wir setzen 0 falls ! i = 0 1 sonst und Yi (!) := k falls ! i = k; k 0 sonst 1 Dann haben nach De…nition die Zufallsgrössen Xi die geforderte Verteilung: P (Xi = 1) = pi und P (Xi = 0) = 1 pi . Sie sind weiter nach Satz 2.14 unabhängig (siehe auch Proposition 3.36). Die Yi sind nach De…nition Poisson-verteilt zum Parameter pi und ebenfalls unabhängig. Also folgt mit Proposition 4.6, dass Y = Y1 + + Yn Poissonverteilt ist zum Parameter . Nun stimmen die Zufallsgrössen in den Werten 0 und 1 überein, und es ist P (Xi = Yi ) = Pi (0) + Pi (1) = (1 pi ) + e pi pi , und somit P (Xi 6= Yi ) = pi (1 denn für x > 0 gilt 1 1 X k=0 e x jP (X = k) e pi ) p2i ; x. Nach Lemma 4.8 folgt dann (k)j 2P (X 6= Y ) 2 n X i=1 P (Xi 6= Yi ) 2 n X p2i : i=1 Damit ist Satz 4.3 bewiesen. Erstaunlich ist, dass viele verschiedene, natürliche oder künstlich erzeugte Zufallserscheinungen recht gut zum Poisson-Schema passen. Das wohl “berühmteste”Beispiel ist das folgende: Beispiel 4.9 Über einen Zeitraum von 20 Jahren wurde im alten Preussen die Zahl der Toten durch Hufschlag in 10 Kavallerieregimenten beobachtet. Insgesamt hatte man also 200 “Regimentsjahre” beobachtet. Es ergab sich das folgende Bild: k Anzahl Regimentsjahre mit k Toten 200 (k) ( = 061) (gerundet) 0 109 109 1 65 66 2 22 20 3 3 4 4 1 1 5 0 0 ( wurde so bestimmt, dass sich die beste Übereinstimmung ergibt.) Die theoretische Begründung für die gute Übereinstimmung ist etwa die: Für den einzelnen Kavalleristen ist die Wahrscheinlichkeit p, in einem Jahr vom Pferd erschlagen zu werden, sehr klein. Hat das Regiment n Kavalleristen, so ist die Verteilung der Anzahl der Toten pro Regiment und Jahr b(k; n; p) (k). Nach dem Gesetz der grossen Zahlen ist dann bei 200 Repetitionen des “Versuchs” die Anzahl der Regimentsjahre mit k Toten 200 (k). Die obige Übereinstimmung ist jedoch eher ungewöhnlich, was wohl der Disziplin Preussischer Kavallieriepferde zuzuschreiben ist. 62 Das obige Beispiel stammt aus L. Bortkiewicz: Das Gesetz der kleinen Zahlen. Leipzig 1898. Ladislaus J. Bortkiewicz (1868-1931) ist heute fast ausschliesslich wegen “der Toten durch Hufschlag” in einem weiteren Kreis bekannt, jedoch völlig zu unrecht: In der Tat war er der Erste, der festgestellt hatte, dass die Anzahl der Erfolge in einem Bernoulli-Experiment bei kleinem p genähert Poisson-verteilt ist (sogar, wenn die Erfolgswahrscheinlichkeiten nicht alle die gleichen sind). Der Poisson-Grenzwertsatz sollte daher eigentlich nach ihm benannt werden. LadislausJosephowitschBortkiewicz Die Poisson-Verteilung tritt in sehr vielen Situationen auf, auch solchen, die nicht direkt mit dem Bernoulli-Experiment zusammenhängen. Sie ist klarerweise die “zweitwichtigste”Verteilung der Wahrscheinlichkeittheorie. (Die wichtigste diskutieren wir im nächsten Kapitel). 4.2 Der Poissonsche Punktprozess Wir konstruieren ein mathematisches Modell für auf einer Zeitachse zufällig eintretende Vorkommnisse. Beispiele sind etwa: Ankommende Anrufe in einer Telefonzentrale, Registrierung radioaktiver Teilchen in einem Geigerzähler, Impulse in einer Nervenfaser etc. Die Zeitachse sei (0; 1), und die “Vorkommnisse”seien einfach zufällige Punkte auf dieser Achse. In einem Anhang zu diesem Kapitel diskutieren wir den abstrakten Rahmen, in dem man solche “Punktprozesse”, wie man sie nennt, de…niert werden können. Ist I = (t; t + s] ein halbo¤enes Intervall, so bezeichnen wir mit NI die zufällige Anzahl der Punkte in I. NI ist also eine Zufallsgrösse mit Werten in N0 . Statt N(0;t] schreiben wir auch einfach Nt . 63 An unser Modell stellen wir eine Anzahl von Bedingungen (P1) bis (P5), die für Anwendungen oft nur teilweise realistisch sind. (P1) Die Verteilung von NI hängt nur von der Länge des Intervalls I ab. Anders ausgedrückt: Haben die beiden Intervalle I, I 0 dieselbe Länge, so haben die Zufallsgrössen NI und NI 0 dieselbe Verteilung. Man bezeichnet das auch als (zeitliche) Homogenität des Punktprozesses. (P2) Sind I1 ; I2 ; : : : ; Ik paarweise disjunkte Intervalle, so sind NI1 ; NI2 ; : : : ; NIk unabhängige Zufallsgrössen. (P3) Für alle I (stets mit endlicher Länge) existiert ENI . Um Trivialitäten zu vermeiden, fordern wir: (P4) Es existiert ein Intervall I mit P (NI > 0) > 0. Aus (P1), (P3), (P4) lassen sich schon einige Schlüsse ziehen: Sei (t) = ENt 0: O¤ensichtlich gilt (0) = 0, denn N0 ist natürlich 0. Die Anzahl der Punkte in einer Vereinigung disjunkter Intervalle ist natürlich die Summe für die Einzelintervalle. Insbesondere gilt: Nt+s = Nt + N(t;t+s] : Demzufolge: (t + s) = (t) + EN(t;t+s] ; was wegen (P1) (t + s) = (t) + (s) ist. Nach einem Satz aus der Analysis, der hier nicht bewiesen werden soll, muss eine derartige Funktion linear sein, das heisst, es existiert 0 mit (s) = s. = 0 können wir wegen (P4) sofort ausschliessen. In diesem Fall müsste nach (P1) ENI = 0 für jedes Intervall gelten. Dies widerspricht o¤ensichtlich (P4). Für kleine Intervalle ist die Wahrscheinlichkeit dafür, dass überhaupt ein Punkt in diesem Intervall liegt, klein. Es gilt nämlich: P (NI 1) = 1 X P (NI = k) k=1 1 X kP (NI = k) = ENI k=1 und demzufolge P (N(t;t+"] 1) " fu •r alle t; " 0: Unsere letzte Forderung ist, dass die Wahrscheinlichkeit für zwei oder mehr Punkte in einem kleinen Intervall noch etwas kleiner ist, genauer: 64 (P5) 1 lim " "!0 P (N" 2) = 0: Man kann nachweisen, dass (P5) nur die Möglichkeit von Mehrfachpunkten ausschliesst; wir wollen das jedoch nicht weiter ausführen. Wir können jedoch nachweisen, dass für einen Punktprozess, der (P1) bis (P5) erfüllt, die NI alle Poisson-verteilt sein müssen: Satz 4.10 Sind (P1) bis (P5) erfüllt, so sind für alle t; s verteilt mit Parameter s. 0 die Zufallsgrössen N(t;t+s] Poisson- Beweis. Wegen (P1) genügt es, Ns = N(0;s] zu betrachten. Wir halten s > 0 fest. Für k 2 N, 1 j k, de…nieren wir (k) Xj := N(s(j ( (k) Xj : = 1)=k;sj=k] (k) =0 (k) falls Xj 0 0 falls Xj 1 (k) (k) Für jedes feste k sind die Xj nach (P2) unabhängig und die X j damit ebenfalls. Wir stellen einige einfach zu veri…zierende Eigenschaften dieser Zufallsgrössen zusammen. Zunächst gilt o¤ensichtlich Ns = k X (k) Xj : j=1 (k) Sei N s := Pk (k) j=1 X j . Dann gilt für jede mögliche Kon…guration der Punkte: (k) Ns Ns : Demzufolge gilt für jedes m 2 N: (k) P (N s (k) Sei pk = P (X i (k) = 1) = P (Xi (k) Ns m) P (Ns 1) = P (Ns=k m): 1). ist binomialverteilt mit Parameter k; pk . Wir verwenden nun (P5), um nachzuweisen, dass sich für grosse k die Zufallsgrössen (k) N s nur wenig von Ns unterscheidet: P (k) Ns 6= Ns = P [k (k) fXi i=1 = kP (Ns=k 2g k X i=1 2) ! 0 für k ! 1: 65 (k) P (Xi 2) (4.1) Für m 2 N und k 2 N gilt: (k) P (Ns = m) (k) P (N s = m; N s = Ns ) (k) P (N s = m) (k) P (Ns = m) (k) P (N s (4.2) 6= Ns ) (k) (k) P (N s = m; N s = Ns ) + P (N s 6= Ns ) (k) P (N s = m) + (k) P (N s (4.3) 6= Ns ): Unter Benutzung von (4.1) - (4.3) folgt: (k) P (Ns = m) = lim P (N s = m) = lim b(m; k; pk ) k!1 k!1 (4.4) und analog (k) P (Ns m): m) = lim P (N s k!1 (4.5) Wir zeigen nun: lim kpk = s: (4.6) k!1 Um dies nachzuweisen, drücken wir kpk etwas anders aus: (k) kpk = EN s = 1 X (k) jP (N s = j) = j=1 = 1 X 1 X j 1 X X (k) P (N s = j) j=1 l=1 (k) P (N s = j) = l=1 j=1 1 X (k) P (N s l): l=1 (k) l) P (Ns l) und (4.5) folgt nach einem Satz über reelle Zahlenfolgen Wegen P (N s (falls nicht vergessen: Übungsaufgabe): lim kpk = lim k!1 k!1 1 X (k) P (N s l) = l=1 1 X P (Ns l) = ENs = s: l=1 Damit ist (4.6) gezeigt. Unser Satz folgt nun aus (4.6), (4.4) und Korollar 4.5. Der Poissonsche Punktprozess wird oft verwendet um etwa eintre¤ende Anrufe in einer Telefonzentrale, ankommende Jobs in einem Computernetzwerk etc. zu modellieren. Die Annahmen (P1)–(P5) sind natürlich nicht immer realistisch oder nur näherungsweise richtig. Problematisch in Anwendungen sind oft (P1) und (P2). Es gibt viele Möglichkeiten, den Poissonschen Punktprozess zu verallgemeinern, um dem Rechnung zu tragen. Es ist ziemlich einfach, einen Punktprozess zu konstruieren, der nicht mehr (P1) erfüllt, wohl aber noch die anderen Voraussetzungen. Es sei f : (0; 1) ! R+ eine lokal (Lebesgue-)integrierbare Funktion. Lokale R Integrierbarkeit bedeutet, dass für jedes kompakte Intervall J (0; 1) das Integral J f (x) dx endlich ist. 66 De…nition 4.11 Ein Punktprozess heisst Poissonscher Punktprozess mit Intensität Rf; wenn für jedes Intervall I = (s; t] die Zufallsgrösse NI Poissonverteilt mit Parameter I f (x) dx ist, und wenn (P2) gilt. Wir können hier die Existenz solcher nicht-homogener Punktprozesse nicht beweisen. Für eine genaue Formulierung eines entsprechenden Satzes, siehe den Anhang dieses Kapitels 4.A. Punktprozesse lassen sich auch leicht auf höherdimensionale Räume verallgemeinern. Die Zeitachse (0; 1) wird dabei durch Rd (oder eine Teilmenge davon) ersetzt. Man konstruiert auf diese Weise ein wahrscheinlichkeitstheoretisches Modell für zufällig im Raum Rd liegende Punkte. Für beschränkte (Borel-)Mengen A Rd bezeichne NA die Anzahl der Punkte, die in A liegen. Unter Bedingungen, die analog zu (P1)–(P5) sind, lässt sich nachweisen, dass NA Poisson-verteilt mit Parameter jAj sein muss, wobei jAj das d-dimensionale Volumen von A ist und > 0 ein fester Parameter, und dass ferner NA1 ; NA2 ; : : : ; NAk unabhängig sind, sofern die Mengen A1 ; : : : ; Ak paarweise disjunkt sind. Das Modell hat ausserordentlich breite Anwendungen, z.B. in der Biologie, der Astronomie, bis hin zu militärischen Anwendungen. Die Graphik unten gibt eine Realisierung eines derartigen Punktprozesses in der Ebene (mit 25 Punkten im Einheitsquadrat): (Falls der Zufallszahlengenerator von Maple zuverlässig ist, ist die Klumpung in der Gegend der rechten unteren Ecke rein zufällig). Untenstehend sind zwei Beispiele für dieses Flächenschema. Beispiele 4.12 a) Es wird eine Probe einer Flüssigkeit auf mikroskopisch kleine Partikel untersucht, z.B. Blut auf Bakterien, Leukozyten, Trinkwasser auf Salmonellen oder ähnliches. In der Praxis wird das oft so gemacht, dass ein kleiner Teil der Probe unter dem Mikroskop untersucht und zusammen mit einem Gitternetz angeschaut wird. 67 Eine Zählung aller Punkte ist oft zu aufwendig und deshalb begnügt man sich damit, nur einige Gitterquadrate auszuzählen und daraus die Gesamtzahl zu schätzen. Als Basis dieser Schätzung dient meist die Modellannahme, dass die Punkte gemäss einem Poissonschen Punktprozess verteilt sind, so dass insbesondere die Anzahl der Punkte NA , die in einem Quadrätchen A des Gitters liegen, Poissonverteilt mit Parameter jAj ist. Mit Hilfe einer Auszählung von wenigen Quadrätchen soll dann eine Schätzung des unbekannten Parameters vorgenommen werden. Nehmen wir einmal an, ein Laborant zählt m Quadrätchen A1 ; : : : ; Am aus. Aufgrund dieser Auszählung soll er den Parameter schätzen. Pm Er kann zum Sm Beispiel alles zusammenzählen, NA := j=1 NAj , wobei A die Vereinigung j=1 Aj ist. NA ist ebenfalls Poisson-verteilt mit Parameter jAj. Eine natürliche Schätzung von ist daher ^ := NA =jAj: (Schätzungen eines unbekannten Parameters werden in der Statistik meist mit einem Dach geschrieben.) Wir wollen nicht weiter darauf eingehen, ob ^ eine gute Schätzung ist, sondern kurz begründen, wieso die NA Poisson-verteilt sein sollten, mit einem Argument, das (P1)–(P5) nicht explizit voraussetzt: Wir stellen uns vor, dass die gesamte Probe auf einer grossen Fläche liegt, die in n kleine aber gleich grosse Quadrate aufgeteilt ist. Auf der gesamten Fläche sollen M Bakterien liegen, so dass im Mittel auf jedes der Quadrätchen := M=n kommen. Betrachten wir nun ein festes Quadrat A und nehmen an, dass jedes der Bakterien unabhängig von jedem anderen mit Wahrscheinlichkeit 1=n auf A fällt, so ist o¤enbar P (NA = k) = b(k; M; 1=n) ' falls M; n sehr gross sind. Natürlich ist Bakterien pro Einheits‡äche ist. (k); = jAj, wobei die mittlere Anzahl der Wir können auch begründen, wieso die NA für verschiedene Quadrätchen (mit paarweise leerem Schnitt) im Limes unabhängig sind. Wir beschränken uns auf zwei: A1 , A2 . Um P (NA1 = k1 ; NA2 = k2 ) zu berechnen, stellen wir uns die Bakterien von 1 bis M durchnumeriert vor. Das Bakterium i fällt mit Wahrscheinlichkeit 1=n auf A1 , mit derselben Wahrscheinlichkeit auf A2 und mit Wahrscheinlichkeit 1 2=n auf keines der beiden (A1 , A2 sind disjunkt). Eine einfache Abzählung ergibt, dass es k1 ! k2 ! (MM ! k1 k2 )! Bakterienfolgen gibt mit k1 Tre¤ern in A1 und k2 Tre¤ern in A2 . Ist der Aufenthaltsort der einzelnen Bakterien unabhängig, so ergibt sich also: P (NA1 = k1 ; NA2 = k2 ) = M! k1 !k2 !(M k1 k2 )! 1 n k1 1 n k2 1 2 n M k1 k2 : Dies konvergiert gegen (k1 ) (k2 ) für M; n ! 1 und M > 0, was man n ! sofort mit demselben Argument wie im Beweis von Korollar 4.5 sieht. Obgleich wir 68 in diesem Argument (P1)–(P5) nicht vorausgesetzt haben, sie sich also von selbst ergeben, so steckt die wesentliche Unabhängigkeitsannahme natürlich darin, dass die einzelnen Bakterien unabhängig von den anderen auf die einzelnen Quadrätchen fallen. Das ist eine oft etwas fragwürdige Annahme, wenn man nicht weiss, ob die Probe gut durchmischt ist. b) Ein konkretes, oft zitiertes Beispiel für das Flächen-Schema lieferte die Zählung der V-Raketen, die während des 2. Weltkriegs auf den Süden Londons …elen. Die Fläche war in N = 576 Planquadrate von je 1=4 Quadratmeile unterteilt und wurde statistisch zu etwa 0; 930 bestimmt. Die folgende Tabelle zeigt die Anzahlen Nk der k-mal getro¤enen Quadrate und die Poissonschen Näherungen (k) mit = 0; 93. 4.A k 0 1 2 3 4 5 Nk N (k) 229 226,74 211 211,39 93 98,54 35 30,62 7 7,14 1 1,59 Anhang: Der abstrakte mathematische Rahmen für Punktprozesse. Ich gehe davon aus, dass die Borel- -Algebra Bd in Rd bekannt ist. Bd ist die kleinste -Algebra, die die o¤enen Menge enthält, d.h. der Durchschnitt aller -Algebren, welche die Menge der o¤enen Teilmengen enthalten. Die Mengen in Bd heissen Borel-Mengen. bBd bezeichne die Menge der beschränkten Borel-Mengen B; d.h. der Borelmengen, für die ein R > 0 existiert mit B x 2 Rd : jxj R Wir betrachten Punktprozesse in Rd : Die Theorie lässt sich mühelos auf allgemeinere lokalkompakte Räume verallgemeinern, was wir jedoch nicht weiter verfolgen wollen. Wir nennen eine endliche oder abzählbare Menge A Rd lokal endlich, wenn A \ fx : jxj Rg für jedes R > 0 endlich ist. Die Menge der lokal endlichen Teilmengen von Rd bezeichnen wir mit X: X ist die Menge aller unserer “Elementarereignisse”. Für jede beschränkte Borel-Menge B 2 bBd sie die Abbildung NB : X !N0 wie folgt de…niert: NB (A) := jA \ Bj : Wir wollen nun eine -Algebra FX auf X de…nieren und dann auf FX ein Wahrscheinlichkeitsmass P: Es ist nicht schwer zu erraten, wie wir vorgehen müssen: Die minimale Forderung an unseren Wahrscheinlichkeitsraum (X;FX ; P ) ist, dass für jede Borelmenge B und jedes k 2 N0 die Wahrscheinlichkeiten P (NB = k) de…niert sind. Somit müssen Mengen der Form fA 2 X : NB (A) = kg in unserer -Algebra liegen. Wir betrachten daher die Familie F0 der Teilmengen von X dieser Form: F0 := ffA 2 X : NB (A) = kg : B 2 bBd ; k 2 N0 g FX bezeichne die von F0 erzeugte -Algebra, d.h. die kleinste -Algebra, die F0 umfasst. Wie die Mengen in FX aussehen, braucht uns nicht im geringsten zu interessieren. 69 Hauptsache ist, dass dies erstens eine -Algebra ist, und zweitens, dass die Mengen fA 2 X : NB (A) = kg in FX sind. Die “Konstruktion” von FX ist völlig trivial: Es ist einfach der Durchschnitt aller -Algebren, die F0 umfassen. Ein Punktprozess wird nun einfach durch ein Wahrscheinlichkeitsmass P auf FX beschrieben. Genau genommen bezeichnet man das als einen einfachen Punkprozess. (Gelegentlich lässt man auch Mehrfachpunkte zu. In diesem Fall muss die De…nition des Grundraumes X etwas modi…ziert werden, was wir jedoch nicht weiter verfolgen). Unsere Eigenschaften (P1)-(P5) können nun mühelos als Eigenschaften unseres Wahrscheinlichkeitsmasses P interpretiert werden. Der Satz 4.10 besagt dann (in einem Spezialfall), dass ein derartiger Punktprozess ein Poisson-Punktprozess sein muss. Wir haben jedoch die Existenz derartiger Punktprozesse nicht gezeigt. Wir zitieren den entsprechenden Satz ohne Beweis. Satz 4.13 Sei f : Rd ! R+ eine lokal integrierbare Funktion. Dann existiert genau ein Wahrscheinlichkeitsmass P auf FX mit den folgenden Eigenschaften: 1. Für jedes B 2 bBd ist NB Poisson-verteilt mit Parameter es gilt P (NB = k) = k B k! e B B := R B f (x) dx; d.h. ; k 2 N0 : 2. Sind B1 ; : : : ; Bn paarweise diskjunkte beschränkte Borel-Mengen, so sind die Zufallsgrössen NB1 ; : : : ; NBn unabhängig. Mit diesem Satz ist der Punktprozess präzise de…niert: Wir haben einen Wahrscheinlichkeitsraum, auf dem die NB für alle beschränkten Borel-Mengen de…niert sind und zwar so, dass die Verteilungen die von uns gewünschten Eigenschaften haben. 70 5 Der Zentrale Grenzwertsatz Die Glockenkurve hält Einzug! Es ist der Graph der Funktion: 1 ' (x) = p e 2 x2 =2 : Die Funktion hat ihren Namen von Carl Friedrich Gauss (1777-1855), einem der bedeutendsten Mathematiker überhaupt. Die Bedeutung der Funktion in der Wahrscheinlichkeitstheorie war jedoch lange vor Gauss bekannt. Gauss hat sich mit wahrscheinlichkeitstheoretischen Fragen hauptsächlich im Rahmen der statistischen Schätztheorie befasst. Carl Friedrich Gauss Die Glockenkurve war auf der dem alten Zehnmarkschein in Deutschland mit einem Porträt von Gauss in reiferen Jahren abgebildet: Die Funktion ist symmetrisch in x und fällt sehr rasch ab für x ! benötigen wir das folgende Resultat: 71 1: Zunächst Lemma 5.1 Z 1 ' (x) dx = 1: 1 Beweis. Die Existenz des uneigentlichen Riemann-Integrals folgt sofort aus dem raschen Abfall der Funktion bei 1: Der Trick besteht darin, das Quadrat des gewünschten Integrals mit Fubini als Doppelintegral zu schreiben: Z 1 Z 1 Z 1 Z 1Z 1 2 ' (x) dx = ' (x) dx ' (y) dy = ' (x) ' (y) dx dy 1 1 1 1 1 Z 1Z 1 1 2 1 x + y 2 dx dy = exp 2 2 1 1 Z 1Z 2 Z 1 1 2 = exp r =2 d rdr = r exp r2 =2 dr 2 0 0 0 1 = exp r2 =2 0 = 1: Die vierte Gleichung kommt von einer Umrechnung in Polarkoordinaten. (Der etwas saloppe Umgang mit uneigentlichen Integralen ist leicht zu rechtfertigen. Dies sei dem Leser als Übungsaufgabe überlassen). Bemerkung 5.2 Die Stammfunktion von ' : (x) := Z x ' (y) dy 1 nennt man die Verteilungsfunktion der Normalverteilung. Man kann sie nicht durch einfacher Funktionen, wie eine Kombination von Polynomen, trigonometrischen Funktion etc ausdrücken. (Versuchen Sie es nicht: Das ist Zeitverschwendung, denn es ist bewiesen, dass es nicht geht.) Die Gausssche Glockenkurve ' dient uns nun dazu, gewisse Wahrscheinlichkeiten durch Integrale zu approximieren. Wir betrachten zunächst einige numerische Beispiele und untersuchen die Binomialwahrscheinlichkeiten b (k; n; p) ; nun jedoch bei festem p und grossem n: (Für festes p und n ! 1 ist die Poisson-Approximation des letzten Kapitels nicht anwendbar: Die Schranke 2np2 ist in diesem Fall o¤enbar völlig wertlos). Der Einfachheit halber nehmen wir zunächst p = 1=2: Dann ist b (k; n; 1=2) = nk 2 n : Es ist nicht schwer zu sehen, dass für festes n der grösste dieser Wahrscheinlichkeiten bei k = n=2 ist (exakt k = n=2; wenn n gerade ist und sonst für k = (n + 1) =2 und k = (n 1) =2): Die nachfolgende Tabelle gibt die Wahrscheinlichkeiten b (k; 500; 1=2) als Funktion von k dar, wobei der Massstab auf der y-Achse von 0 bis 1 geht. Natürlich sieht man gar nicht viel. Der maximale Wert ist sehr klein, nämlich (wie wir weiter unten sehen) b (500; 1000; 1=2) 0:03568: Versuchen wir einfach die y-Achse zu strecken, so erhalten wir einfach folgendes Bild: 72 Das ist auch noch nicht sehr vielsagend, denn, wie wir aus dem Gesetz der grossen Zahlen schon wissen, konzentriert sich die Verteilung ziemlich stark um den Wert bei k = 250: Um ein “schönes” Bild zu erhalten, müssen wir den im Bild 1 gerade noch sichtbaren Knubbel sowohl in der x-Achse, wie in der y-Achse strecken. Damit ergibt sich das folgende Bild: Hier sieht man deutlich die Glockenkurve. Die richtige Skalierung ist nicht schwer zu erraten. Wir betrachten gleich den allgemeineren Fall mit einer beliebigen Erfolgswahrscheinlichkeit p 2 (0; 1) : Sie Sn die Anzahl der Erfolge in einem Bernoulli-Experiment. Wie wir schon wissen, ist der Erwartungswert ESn p = np und die Varianz var (Sn ) = np (1 p) ; d.h. die Standardabweichung (Sn ) = np (1 p): Wenn wir daher die normierte Zufallsgrösse Sn np S^n := p np (1 p) betrachten, so gilt E S^n = 0 und var S^n = 1: Es stellt sich nun raus, dass in einem noch zu präzisierenden Sinn die Verteilung von S^n asymptotisch (für n ! 1) durch die Gaussche Glockenkurve beschrieben wird. Es gibt verschiedene Möglickeiten dies zu beschreiben. Die “robusteste”besteht darin, dass man nicht die Einzelwahrscheinlichkeiten untersucht, die ohnehin ziemlich klein sind, sondern grössere Ereignisse, z.B. Ereignisse der Form P S^n x : In der Tat gilt der folgende Satz 5.3 Für jedes x 2 R gilt lim P S^n x = n!1 Z x ' (y) dy = (x) : 1 Wir werden gleich einen viel allgemeineren Satz formulieren und beweisen. Kommen wir jedoch für einen Moment auf unser vorheriges Problem zurück, nämlich die b (k; n; p) selbst asymptotisch auszuwerten. Wenn man das obige Theorem akzeptiert, so ist leicht zu erraten, wie die Sache aussehen muss. Es ist nämlich b (k; n; p) = P (Sn = k) = P (Sn = P S^n p k np np (1 p) k) ! P (Sn k S^n P 1) p k np np (1 p) p Der Satz 5.3 macht es ziemlich plausibel, dass dies ungefähr gleich ! ! k np k np 1 1 p p p p ' np (1 p) np (1 p) np (1 p) np (1 p) sein sollte, d.h. p np (1 p)b (k; n; p) 73 ' p k np np (1 p) ! : 1 np (1 p k p) ! : np np (1 p) ! (5.1) Das folgt jedoch natürlich nicht direkt aus Satz 5.3. Dennoch ist die Aussage “im Wesentlichen” korrekt. Die genaue Formulierung als Limesaussage erfordert jedoch noch etwas Nachdenken. Wir führen die Abkürzung k xk;n := p np np (1 (5.2) p) ein. Nun stehen wir vor dem Problem, dass es o¤ensichtlich keinen Sinn macht, für fest k einen Grenzwertsatz für n ! 1 zu formulieren, denn es gilt limn!1 xk;n ! 1 p für jedes k 2 N; sodass (5.1) nur limn!1 np (1 p)b (k; n; p) = 0 nahelegt, was zwar stimmt aber nicht weiter interessant ist. Wir sollen o¤ensichtlich nur solche k betrachten, für die xk;n von der Grössenordnung 1 bleibt, dann sonst sehen wir die Glockenkurve gar nicht in der Asymptotik. Eine naheliegende Formulierung ist daher der folgende Satz: Satz 5.4 Sie A > 0 beliebig. Dann gilt lim n!1 sup k:jxk;n j A p np (1 p)b (k; n; p) ' (xk;n ) 1 = 0: Einen Satz von diesem Typus bezeichnet man lokalen Grenzwertsatz, während man einen Satz, wie Satz 5.3 ein globalen Grenzwertsatz nennt. Trotz des obigen Plausibilitätsarguments, kann man Satz 5.4 nicht aus Satz 5.3 herleiten. Umgekehrt folgt jedoch Satz 5.3 aus Satz 5.4 ziemlich leicht durch eine Aufsummation der entsprechenden Wahrscheinlichkeiten, wobei für grosse n die Summe eine Riemann-Approximation des Integrals ist, welches die Verteilungsfunktion de…niert. Wir wollen das jedoch nicht weiter verfolgen, da wir die beiden Sätze getrennt beweisen und zwar Satz 5.3 in einer sehr viel allgemeineren Version und nicht nur für Bernoulli-Variablen. Satz 5.5 Es sei X1 ; X2 ; : : : eine Folge von unabhängigen Zufallsgrössen, die alle dieselbe Verteilung haben (man sagt, sie seien identisch verteilt). Wir nehmen ferner an, dass der Erwartungswert := EXi und die Varianz 2 := var (Xi ) existiert. (Da wir annehmen, dass die Zufallsgrössen alle dieselbe Verteilung haben, haben auch alle denselben Erwartungswert und dieselbe Varianz). Dann gilt für jedes x 2 R lim P n!1 wobei Sn := Pn i=1 Xi Sn n p n 2 x = (x) ; ist. Bemerkung 5.6 Es ist in der obigen Aussage gleichgültig, ob lim P n!1 x oder < x seht, d.h. es gilt auch Sn n p <x n 2 74 = (x) : Dies sieht man wie folgt: Für jedes " > 0 gilt Sn n p n 2 P x " Sn n p <x n 2 P P Sn n p n 2 x : Gilt Satz 5.5, so ergibt sich (x Da ") = Sn n p x " n!1 n 2 Sn n p <x lim sup P n!1 n 2 lim P stetig ist, so folgt lim""0 (x lim P n!1 ") = Sn n p <x n 2 Sn n p x = n 2 lim inf P n!1 lim P n!1 (x) : (x) : Somit folgt Sn n p <x n 2 = (x) : Korollar 5.7 Für a < b gilt Sn n a< p b = n!1 n 2 und nach der obigen Bemerkung kann man < durch lim P (b) (a) ersetzen, oder umgekehrt. Beweis. P Sn n a< p n 2 b =P Sn n p n 2 b P Sn n p n 2 a : Die Aussage folgt nun sofort aus Satz p 5.5. Man beachte, dass (Sn n ) = n 2 Erwartungswert 0 und Varianz 1 hat. Der Satz 5.5 heisst Zentraler Grenzwertsatz. Der eigentliche Clou an dem Satz ist, dass die genaue Verteilung der Xi für die Grenzverteilung gar keine Rolle spielt; nur der Erwartungswert und die Varianz sind relevant. Die asymptotische Verteilung vergisst quasi alle weiteren Details der Verteilung. Dies erklärt das universelle Auftreten dieser Grenzverteilung: Man stellt sich oft vor, dass in der “Natur” vorkommende Zufallsgrössen (z.B. Messfehler) durch Summierung von vielen unabhängigen Zufallsgrössen zustande kommen und nach dem obigen Satz dann asymptotisch normalverteilt sind, wie man sagt. (Es gibt viele Verallgemeinerungen des obigen Satzes, bei denen auch nicht mehr vorausgesetzt wird, dass alle Xi die gleiche Verteilung haben. Sogar auf die Unabhängigkeiten kann man bis zu einem gewissen Grad verzichten). Der Satz wurde erstmals von Abraham de Moivre (1667-1754) (im Bernoulli-Fall) gezeigt. De Moivres Beweis für binomialverteilte Zufallsgrössen basiert auf einer Anwendung der Stirlingschen Formel. De Moivre gebührt o¤ensichtlich auch die Priorität für die Entdeckung der nach Stirling benannten Formel. (De Moivre scheint an der fehlerhaften Namensgebung selbt nicht ganz unschuldig zu sein. Stirling hatte nämlich de 75 Moivres erste Version etwas verschärft; auf dieses Faktum wies de Moivre in seinen späteren Publikationen hin. Die Leserschaft scheint daraus den Schluss gezogen zu haben, dass die Formel auf Stirling zurückgeht). In der obigen Formulierung geht der Satz 5.5 im Wesentlichen auf Pierre-Simon Laplace zurück (1749-1824). Der Satz heisst auch Satz von de Moivre-Laplace, ausnahmsweise eine korrekte Namensgebung. Pierre-Simon Laplace Abraham de Moivre Wieso tritt überhaupt die Gausssche Glockenkurve auf? Es gibt eine Vielzahl von Charakterisierung der Funktion '; und fast jede dieser Charakterisierungen kann verwendet werden, um den obigen Satz zu beweisen. Der Beweis, den wir hier vorstellen, benützt eine Charakterisierung von ' durch eine einfache Di¤erentialgleichung. Leitet man ' ab, so erhält man o¤ensichtlich '0 (x) = x' (x) : Es istR nicht schwer zu zeigen, dass ' die einzige Lösung dieser Gleichung mit ' (x) > 0 1 und 1 ' (x) dx = 1 ist. (Wir benützen diese Tatsache nicht explizit). Diese Di¤erentialgleichung schlachten wir nun aus, um den Satz zu beweisen. Zunächst benötigen wir eine Umformulierung der Aussage des Satzes. Proposition 5.8 Es sei Yn ; n 2 N eine Folge von Zufallsgrössen. Dann gilt lim P (Yn n!1 x) = (x) ; 8x 2 R (5.3) genau dann, wenn für jede stetige beschränkte Funktion f : R ! R die Beziehung Z 1 lim Ef (Yn ) = f (y) ' (y) dy (5.4) n!1 1 76 gilt. Beweis. Wir beweisen nur die Richtung, die wir zum Beweis unseres Satzes benötigen, nämlich dass (5.4) die Aussage (5.3) impliziert. Wir setzen also (5.4) voraus. Sei x 2 R und " > 0. Wir de…nieren die stetige Funktion fx;" : R ! R durch 8 1 fu •r y x < fx;" (y) := 1 y " x fu •r x y x + " : : 0 fu •r y x + " O¤ensichtlich gilt 1( 1;x] (y) fx;" (y) 1( 1;x+"] (y) : Somit folgt E 1( 1;x] (Yn ) E (fx;" (Yn )) E 1( 1;x+"] (Yn ) ; d.h. P (Yn x) E (fx;" (Yn )) P (Yn x + ") : (5.5) Somit gilt lim sup P (Yn n!1 x) lim sup E (fx;" (Yn )) = n!1 Z 1 1( 1 Da Z 1 1;x+"] (y) ' (y) dy eine stetige Funktion ist, gilt lim"!0 fx;" (y) ' (y) dy 1 = (x + ") = lim sup P (Yn x) Z x+" ' (y) dy = (x + ") : 1 (x) : Somit folgt (x) : n!1 Unter Verwendung der zweiten Ungleichung in (5.5) folgt analog lim inf P (Yn x) lim P (Yn x) = n!1 (x) und daher n!1 (x) : Wir benötigen die Umkehrung, nämlich dass (5.3) die Aussage (5.4) impliziert, für den Beweis des Satzes 5.5 nicht. Wir überlassen den (eher etwas mühsamen aber nicht sehr schwierigen) Beweis daher dem Leser. R1 Die Idee zu unserem Beweis des Satzes 5.5 besteht darin, Ef S^n 1 f (y) ' (y) dy; p S^n := (Sn n ) = n in anderer Weise auszudrücken. Wir versuchen nämlich, eine Funktion h : R ! R zu …nden, die die Di¤erentialgleichung Z 1 f (y) ' (y) dy = h0 (x) xh (x) (5.6) f (x) 1 löst. Wir benötigen zunächst die folgenden Aussagen über 77 (x) : Lemma 5.9 a) ist stetig di¤erenzierbar, monoton wachsend, und es gilt limx! limx!1 (x) = 1: 1 (x) = 0; b) ( x) = 1 (x) : (5.7) c) Für x > 0 gilt 1 1 ' (x) ; x (x) für x < 0 gilt (x) 1 ' (x) : jxj Beweis. Dass stetig di¤erenzierbar ist, folgt sofort aus der Darstellung als Integral über eine stetige Funktion. Monotonie folgt aus ' > 0: limx! 1 (x) = 0 folgt sofort aus der De…nition‘. limx!1 (x) = 1 folgt aus Lemma 5.1. (5.7) folgt aus ' (x) = ' ( x) : Wir kommen zu den Abschätzungen in c). Die zweite Ungleichung folgt mit b) aus der ersten. Wir beweisen daher nur die erste: Für x > 0 gilt Z 1 Z 1 y 1 (x) = ' (y) dy ' (y) dy x x x Z 1 1 1 ' (x) = y' (y) dy = ( ' (y)) j1 : y=x = x x x x Lemma 5.10 Sei f : R ! R eine stetige und beschränkte Funktion. Wir schreiben Sei h : R ! R de…niert durch Z x 1 h (x) := (f (y) (f )) ' (y) dy: ' (x) 1 (f ) für R1 1f (y) ' (y) dy: (5.8) Dann gelten: a) Die Di¤erentialgleichung (5.6) ist erfüllt. b) h ist eine stetig di¤ernzierbare Funktion. Ferner sind h, h0 und die Funktion x ! xh (x) beschränkt. Beweis. h ist o¤ensichtlich stetig di¤erenzierbar. Anwendung von '0 (x) = x' (x) liefert Z x f (x) ' (x) 1 0 h (x) = f (y) ' (y) dy (f ) '0 (x) 2 ' (x) ' (x) 1 Z x x' (x) = f (x) (f ) + (f (y) (f )) ' (y) dy = f (x) (f ) + xh (x) ; '2 (x) 1 78 d.h. (5.6) gilt. Es bleibt zu zeigen, dass sup jh (x)j < 1; sup jxh (x)j < 1 x (5.9) x gelten. Die Beschränktheit von h0 folgt dann aus (5.6). Man beachte zunächst, dass wegen Z 1 (f (y) (f )) ' (y) dy = 0 1 die Gleichung h (x) = 1 ' (x) gilt. Wir erhalten daher für x > 0 Z 1 1 jh (x)j jf (y) ' (x) x 2 kf k1 : x Z 1 (f (y) (f )) ' (y) dy x (f )j ' (y) dy kf (f )k1 1 (x) ' (x) (5.10) (Für eine beschränkte Funktion g : R ! R ist die 1-Norm durch kgk1 := supx jg (x)j de…niert.) Analog zeigt man für x < 0 : jh (x)j 2 kf k1 : jxj (5.11) Diese Ungleichungen sind natürlich nur für grosse jxj interessant, z.B. für jxj jxj 1 gilt 1 jh (x)j kf (f )k1 : inf y2[ 1;1] ' (y) 1: Für (5.12) Aus (5.10)-(5.12) folgt (5.9) sofort. Beweis von Satz 5.5. Wir bemerken zunächst, dass n 1 X ^ Sn n Xi S^n = p =p n n i=1 ^ i := (Xi ^ i = 0; var X ^ i = 1 und die X ^ i sind mit X ) = ist. O¤ensichtlich gilt E X unabhängig. Wir können daher ohne Einschränkung der Allgemeinheit annehmen, dass die Xi Erwartungswert 0 und Varianz 1 haben, was wir von nun an tun werden. Ist f eine beschränkte stetige Funktion und h durch (5.8) de…niert, so gilt Ef S pn n (f ) = Eh0 S pn n = Eh0 S pn n = Eh0 S pn n 79 S S pn h pn n n n 1 X p E Xi h n E i=1 p nE Xn h S pn n S pn n : Die erste Gleichung folgt aus (5.6), die zweite aus der Linearität des Erwartungswertes. Die dritte Gleichung folgt aus der folgenden Tatsache: Da die Xi nach Voraussetzung alle p die gleiche Verteilung haben, so haben auch die Zufallsgrössen Xi h (Sn = n) alle dieselbe Verteilung (überlegen Sie sich das bitte genau). Demzufolge sind die Erwartungswerte p E (Xi h (Sn = n)) alle gleich. p p p Wir schreiben nun Sn = n als Sn 1 = n + Xn = n und entwickeln nach der TaylorFormel: Z Sn 1 X n 1 0 Sn 1 X Sn p + s p n ds = h p +p h h p n n n 0 n n X n 0 Sn 1 Xn Sn 1 p +p h + p Rn : = h p n n n n mit Rn := Z 1 Sn p h0 0 Xn + sp n n 1 Sn p h0 1 n ds: Wir argumentieren nun wie folgt: Da die Xi alle unabhängig sind, sind Xn und p p p Sn 1 = n unabhängig und damit sind auch Xn und h (Sn 1 = n) bzw. Xn und h0 (Sn 1 = n) unabhängig. Der Leser möge sich dies selbst überlegen. Damit ergibt sich p nE Xn h S pn n = p nE Xn h Sn p = p nEXn Eh Sn p Sn p = E h0 1 + E Xn2 h0 Sn p + E Xn2 E h0 Sn p 1 n 1 n 1 n 1 n + E Xn2 Rn + E Xn2 Rn + E Xn2 Rn ; n die letzte Gleichung wegen EXn = 0; EXn2 = 1: Um den Beweis zu beenden, müssen wir nur noch die zwei folgenden Aussagen nachweisen: lim E Xn2 Rn = 0: (5.13) n!1 lim E h0 n!1 S pn n h0 Sn p 1 = 0: n (5.14) Sind diese beiden Aussagen gezeigt, so folgt lim Ef n!1 S pn n (f ) = lim n!1 Eh0 p S pn n nE Xn h S pn n = 0: Die Beweise von (5.13) und (5.14) gehen völlig analog; die zweite Gleichung ist o¤ensichtlich einfacher. Wir beweisen daher die erste. Sei " > 0: Nach der Tschebysche¤-Ungleichung gilt P Sn p 1 n a 1 var a2 80 Sn p 1 n = n 1 a2 n 1 : a2 Wir können daher a (") > 0 so wählen, dass Sn p P 1 a n " p gilt. Die Tschebysche¤-Ungleichung nochmals angewandt liefert auch P (jXn = nj 1=n: Wir setzen nun N1 (") := [1="] + 1; sodass für n N1 (") die Ungleichung P X pn n 1 gilt. De…nieren wir das Ereignis An (") := dass für n N1 (") die Ungleichung n Sp n P (An (")c ) 1) " 1 a (") ; n o 1 ; so sehen wir, Xn p n 2" p p gilt. Man beachte nun, dass für ! 2 An (") sowohl Sn 1 (!) = n wie Sn 1 (!) = n + p sXn (!) = n für jedes s 2 [0; 1] im Intervall [ a (") 1; a (") + 1] liegen, sofern n N1 (") ist. Da die Funktion h0 stetig ist, ist sie gleichmässig stetig auf diesem Intervall. Damit existiert (") > 0; sodass h0 (x) h0 (y) für x; y 2 [ a (") 1; a (") + 1] ; jx yj an, so …nden wir ein N2 ( ) ; sodass für n P " (") : Wenden wir nochmals Tschebysche¤ N2 ( ) X pn n ": N2 hängt via natürlich einfach von " ab, und wir schreiben daher N2 ("). Wir können voraussetzen, dass 1 ist und dass demzufolge N2 N1 ist. Für ! 2 An (") und n N2 (") gilt jRn (!)j = Z Z 1 0 1 h0 h0 0 Sn (!) Xn (!) p1 +s p n n Sn 1 (!) Xn (!) p +s p n n h0 h0 Sn (!) p1 ds n Sn 1 (!) p ds ": n Demzufolge gilt E Xn2 Rn E Xn2 jRn j = E Xn2 jRn j ; An + E Xn2 jRn j ; Acn "E Xn2 +2 h 0 1 E Xn2 ; Acn ="+2 h 0 1 E (5.15) Xn2 ; Acn : Wir verwenden hier die bequeme Notation E (X; A) := E (X1A ) ; wenn X eine Zufallsgrösse und A ein Ereignis ist. Wir müssen nun noch den letzten Summanden in (5.15) untersuchen. Sei D R der (abzählbare) Wertebereich der Xi und f die Verteilung: 81 Für x 2 D ist f (x) = P (Xi = x) : Da wir voraussetzen, dass die Xi alle die gleiche Verteilung haben, hängen weder D noch f von n ab. O¤ensichtlich gilt X lim E Xn2 ; jXn j K = lim z 2 f (z) = 0: K!1 K!1 z2D:jzj K Zu jedem > 0 existiert somit K ( ) 2 N mit E Xn2 ; jXn j nur von ; aber nicht von n abhängt. Demzufolge ist E Xn2 ; Acn = E Xn2 ; Acn \ fjXn j und es folgt für n , wobei K ( ) K ( )g + E Xn2 ; Acn \ fjXn j < K ( )g K ( ) + K ( )2 P (Acn ) E Xn2 ; jXn j K( ) + 2K ( )2 "; N2 (") : " + 2 h0 E Xn2 Rn + 2K ( )2 " ; 1 d.h. auch " + 2 h0 lim sup E Xn2 Rn n!1 1 + 2K ( )2 " : Da " > 0 beliebig ist, folgt lim sup E Xn2 Rn n!1 Da auch 2 h0 1 : beliebig ist, folgt lim E Xn2 Rn n!1 = 0: Damit ist (5.13) gezeigt. (5.14) folgt völlig analog und ist sogar etwas einfacher. Die Idee zu obigem Beweis stammt von Charles Stein8 , Professor emeritus an der Stanford-Universität. Charles Stein 8 Der Beweis ist nicht der transparenteste und auch nicht der einfachste. Der übliche Beweis verwendet charakteristische Funktionen. Dies benötigt jedoch einige Vorbereitungen zur Fourieranalyse. Der Vorteil der Steinschen Methode ist, dass man den Satz “aus dem Stand”beweisen kann. Ein anderer klassischer Beweis stammt von Lindeberg und nützt die Tatsache aus, dass Summen von unabhängigen Zufallsgrössen, die gemäss der Gaussschen Glockenkurve verteilt sind - sogenannte normalverteilte Zufallsgrössen wieder normalverteilt sind. Wir werden das im nächsten Kapitel diskutieren. 82 Wir wenden uns nun wieder dem lokalen Grenzwertsatz 5.4 zu, den wir nur für den Bernoulli-Fall beweisen. Man beweist solche Sätze am einfachsten mit den Methoden der Fourier-Analyse, die uns jedoch nicht zur Vefügung stehen. Hier der Beweis von de Moivre mit Hilfe der Stirling-Formel, der allerdings nicht sehr transparent ist. Satz 5.11 (Stirlingsche Formel) p lim n!=( 2 nn+1=2 e n n!1 ) = 1: Der Satz sollte aus der Vorlesung “Di¤erential- und Integralrechnung”bekannt sein. Falls nicht, siehe etwa: O. Forster: Analysis 1 §20 Satz 6. Beweis von Satz 5.4. Wir führen zunächst einige Notationen ein: Sei A > 0 eine beliebige Zahl. Wir erhalten diese Zahl für den Rest des Beweises fest. Wir verwenden ebenfalls die Abkürzung xk;n ; die wir in (5.2) eingeführt haben. Seien a (k; n) ; b (k; n) > 0 für k; n 2 N de…niert. Wir schreiben kurz a (k; n) b (k; n) falls lim sup n!1 k: A x k;n A gilt. O¤ensichtlich gilt p k = np + np (1 p) xk;n ; n a (k; n) b (k; n) k = n (1 1 =0 p p) np (1 also mit der obigen Notation k d.h. lim sup n!1 k: A x k;n A k np np; n k 1 = 0; lim n (1 p) xk;n ; p) ; (5.17) n k n (1 p) sup n!1 k: A x k;n A Mit Hilfe der Stirlingschen Formel folgt: p (n=e)n 2 npk (1 p)n k b(k; n; p) p p (k=e)k 2 k ((n k) =e)n k 2 (n 1 p '(n; k); 2 np (1 p) k) = r 1 = 0: n 2 k(n wobei wir np k n (1 p) n ) ( ) k n k gesetzt haben.Nach der Taylorformel gilt für x > 1 '(n; k) := ( log(1 + x) = x x3 x2 1 + mit 2 3 (1 + x)3 83 (5.16) k = (x) 2 [0; 1]: k) '(n; k) Nach (5.16) ergibt sich daraus np log k k log np (1 = k log 1 p = n (1 p) n k p n k np (1 = (n p = p) xk;n k ! p) x2k;n np (1 p)xk;n 2k p np (1 k) log 1 + n p) xk;n k np (1 p) x2k;n np (1 (np (1 p) xk;n 2(n k) np(1 p)xk;n 3 ) k 3k 2 (1 ! p))3=2 x3k;n p (np (1 + 3(n k)2 (1 + p))3=2 x3k;n p 0 np(1 p)xk;n 3 ) n k mit ; 0 2 [0; 1]. Wir addieren die beiden obigen Gleichungen, wobei die jeweils ersten Summanden auf der rechten Seite sich freundlicherweise gegenseitig aufheben. Die Summe der beiden zweiten Summanden ist p) x2k;n np (1 np (1 2k p) x2k;n 2(n k) n2 p (1 = 2k(n p) x2k;n k) : Abhängig von A, p gibt es eine positive Konstante C derart, dass die jeweils dritten Summanden in den geschweiften Klammern auf der rechten Seite der obigen Gleichung für genügend grosse n vom Betrag kleiner als Cn 3=2 sind. Dies entnimmt man sofort (5.17). Demzufolge gilt: lim sup n!1 k:jx Aus (5.17) folgt n2 p(1 p) 2k(n k) k;n j n2 p (1 log '(n; k) p) x2k;n 2k(n A k) = 0: 1 und somit lim sup n!1 k:jx j A k log '(n; k) x2k;n 2 = 0: Daraus folgt '(n; k) e x2k;n =2 : Damit ist der Satz bewiesen. (Wir sind etwas locker mit der Relation umgegangen. Der Leser möge sich die einzelnen Schritte ganz genau selbst überlegen.) Rechenbeispiel zu Satz 5.4: Jemand wirft 1200-mal einen Würfel. Mit welcher Wahrscheinlichkeit hat er genau 200-mal eine 6? Mit welcher Wahrscheinlichkeit 250-mal? 84 ; Wir berechnen xk für k = 200; 250, n = 1200, p = 1=6. p 5 6 x200 = 0; x250 = p = 3:873 10 b(200; 1200; 1=6) = 0:0309019 b(250; 1200; 1=6) = 0:0000170913: Wie üblich muss hier bemerkt werden, dass ein reines Limesresultat für die Güte einer Approximation wie in obigem Rechenbeispiel zunächst natürlich gar nichts aussagt. Gefragt sind konkrete Abschätzungen des Fehlers. Dies ist ein technisch aufwendiges Feld, in das wir in dieser Vorlesung nicht eintreten können. Nachfolgend ist eine numerische Illustration von Satz 5.4 für n = 30 für angegeben, auf der linken Seite mit p = 0:5 und auf der rechten Seite mit p = 0:3 : Das Balkendiagramm ist die Funktion p fn;p (k) = np(1 p)b(k; n; p): Darüber ist die Gausssche Glockenkurve in der richtigen Skalierung eingetragen: " # 1 (k np)2 k ! p exp 2np (1 p) 2 Auf dem rechten Bild sieht man noch deutlich die Asymmetrie in der Treppenfunktion, die natürlich für n ! 1 verschwinden muss. Anwendungsbeispiel zu Satz 5.3: Eine Fabrik stellt ein Werkstück her mit einer Ausschussrate von 10%. Mit welcher Wahrscheinlichkeit sind unter 400 p produzierten mehr als 50 defekt? n = 400, p = 0; 1, np = 40, np(1 p) = 6 ! 5 Sn np 5 5 P (Sn > 50) = P p > = =1 = 0; 05: 3 3 3 np(1 p) Mit welcher Wahrscheinlichkeit sind zwischen 35 und 45 defekt? ! 5 Sn np 5 p P (35 Sn 45) = P 6 6 np(1 p) = 5 6 5 6 85 =1 2 5 6 = 0; 6: Da wir keine Fehlerabschätzungen hergeleitet haben, wissen wir natürlich nicht, wie genau solche Näherungen sind. Die Genauigkeit ist etwas besser, wenn man die Mitte der möglichen Grenzpunkte nimmt; das heisst, im obigen Beispiel schreibt man besser: P (Sn > 50) = P (Sn P (35 Sn 50; 5) = 1 45) = P (34; 5 Sn 21 12 45; 5) = 1 2 11 12 : Für n ! 1 ist die Korrektur natürlich belanglos; sie ist jedoch immerhin von der p Grössenordnung 1= n. 86 6 Zufallsgrössen mit Dichten Im Kapitel 5 sind wir auf Wahrscheinlichkeiten gestossen, die sich durch Integrale approximieren lassen. Wir hatten gesehen, dass für Sn , die Anzahl der Erfolge in einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p, ! Z b 1 Sn np 2 p e x =2 dx b = lim P a < p n!1 2 np(1 p) a gilt. Es ist daher naheliegend, Zufallsgrössen einzuführen, für die sich P (a < X b) durch ein Integral ausdrücken lässt. Gibt es so etwas? Zunächst sei bemerkt, dass diese Frage für die Ergebnisse von Kapitel 5 irrelevant ist, denn dort ist nur von (diskreten) Zufallsgrössen die Rede, für die sich die entsprechenden Wahrscheinlichkeiten durch Integrale approximieren lassen. Für die Formulierung des zentralen Grenzwertsatzes besteht keine Notwendigkeit, Zufallsgrössen einzuführen, für die sich Wahrscheinlichkeiten als Integrale schreiben lassen. Dennoch ist es eine bequeme mathematische Idealisierung, etwa von normalverteilten Zufallsgrössen zu sprechen, d.h. von Zufallsgrössen X mit P (a < X b) = Z a b 1 '(x) dx; '(x) := p e 2 x2 =2 : Eine derartige Zufallsgrösse hat eine erstaunliche Eigenschaft: Ist a 2 R beliebig, so gilt Z a 1 P (X = a) P a <X a = '(x) dx n a 1 n für alle n 2 N, und die rechte Seite konvergiert gegen null für n ! 1. Somit gilt P (X = a) = 0 für jedes a 2 R. Es ist evident, dass die in Kapitel 3, De…nition 3.1 de…nierte Zufallsgrössen diese Eigenschaft nicht haben können. Ist nämlich p(!) > 0 für ein ! 2 , so gilt P (X = a) p(!) > 0 für a = X(!). Die Konstruktion von normalverteilten Zufallsgrössen setzt den allgemeineren Rahmen der Wahrscheinlichkeitstheorie voraus, den wir in De…nition 1.12 eingeführt hatten. De…nition 6.1 Sei ( ; F; P ) ein Wahrscheinlichkeitsraum gemäss De…nition 1.12. Eine Zufallsgrösse X ist eine Abbildung X : ! R; die die Eigenschaft hat, dass für jede Borel-Menge 1 B 2 B; die Menge X (B) := f! 2 : X (!) 2 Bg in F ist. Man sagt, dass X eine messbare Abbildung ! R ist. Das ist eine Verallgemeinerung der De…nition 3.1. Ist nämlich eine abzählbare Menge, so nehmen wir für F stets einfach die Potenzmenge von : In diesem Fall ist natürlich jede Abbildung X : ! R messbar. 87 De…nition 6.2 1. Sei X eine Zufallsgrösse gemäss der obigen De…nition 6.1. Dann heisst die Funktion FX : R ! R; die de…niert ist durch FX (t) := P (X 1 t) = P X (( 1; t]) die Verteilungsfunktion von X: 2. Eine Lebesgue-integrierbare R1 RFunktion f : R ! [0; 1) heisst Dichtefunktion, wenn 1 f (x) dx = 1 gilt. ( : : : dx bezeichne das Lebesgue-Integral.) 3. Eine Zufallsgrösse hat Dichte f; wenn für jedes t 2 R Z t FX (t) = f (x) dx (6.1) 1 gilt. Verteilungsfunktionen haben eine Reihe von einfachen Eigenschaften: Proposition 6.3 Sei F die Verteilungsfunktion einer Zufallsgrösse X: F hat die folgenden Eigenschaften: 1. F ist nicht fallend, d.h. für s t gilt F (s) F (t) : 2. F ist rechtsseitig stetig. 3. limt!1 F (t) = 1; limt! 1F (t) = 0: Beweis. Die Monotonie ist klar wegen X 1 (( 1; s]) X 1 (( 1; t]) für s die Rechtsstetigkeit zu zeigen genügt es nachzuweisen, dass für jedes t 2 R lim F n!1 gilt. Man beachte nun für n Ferner ist \ n2N t+ 1 n m die Inklusion X X 1 ( 1; t + 1 ] n t: Um = F (t) 1 ( 1; t + =X 1 1 m] X 1 ( 1; t + n1 ] . (( 1; t]) : Unter Verwendung von Lemma 3.40.1 folgt daher lim F n!1 t+ 1 n = lim P n!1 X 1 ( 1; t + 1 ] n =P X Um 3. zu zeigen, genügt es lim F ( n) = 0; lim F (n) = 1 n!1 n!1 88 1 (( 1; t]) = F (t) : nachzuweisen. Nun gelten \ [ X 1 (( 1; n]) = ?; n2N n2N X 1 (( 1; n]) = : Unter nochmaliger Verwendung von Lemma 3.40.1 Besitzt eine Zufallsgrösse eine Dichte, so ist ihre Verteilungsfunktion natürlich stetig. Verteilungsfunktionen von Zufallsgrössen, die auf einem abzählbaren Wahrscheinlichkeitsraum de…niert sind, sind jedoch unstetig. Es gilt nämlich in einem solchen Fall X X P (X t) = p (!) = P (X = z) : !:X(!) t z2X( ):z t Diese Funktion hat Sprünge der Höhe P (X = z) in allen Punkten z 2 X ( ) : Ohne Beweis sei die Tatsache erwähnt, dass nicht alle stetigen Verteilungsfunktionen eine Dichte besitzen. Beispiele 6.4 1. Die Dichte der Standard-Normalverteilung(oder Standard-Gauss-Verteilung) ist de…niert durch 1 2 '(x) = p e x =2 ; x 2 R: 2 R1 Wir hatten schon im letzten Kapitel gesehen, dass 1 '(x) dx = 1 ist. 2. Die Dichte der Normalverteilung mit Mittel de…niert durch '(x; ; 2 ) := p 1 2 e (x )2 =(2 2 R und Varianz 2) ; 2 > 0 ist x 2 R: Die Namensgebung für die Parameter 2 R und > 0 wird weiter unten klar werden wird. (Beispiel 6.10 b). Durch die Transformation y = (x )= geht die Dichte '( ; ; 2 ) in die Dichte '( ; 0; 1) der Standard-Normalverteilung aus Beispiel a) über, und es gilt Z 1 Z 1 1 2 p e y =2 dy = 1: '(x; ; 2 ) dx = 2 1 1 3. Für a < b ist die Dichte der gleichförmigen Verteilung auf [a; b] de…niert durch f (x) = 1 b a 0 falls x 2 [a; b] : sonst 4. Die Dichte der Exponentialverteilung zum Parameter durch e x falls x 0 f (x) = : 0 falls x < 0 89 > 0 ist de…niert 5. Die Dichte der Cauchy-Verteilung zum Parameter c > 0 ist de…niert durch f (x) = c x2 1 ; + c2 x 2 R: Wir nennen eine Zufallsgrösse X standard-normalverteilt, wenn sie die Dichte gemäss Beispiel 6.4.1 hat. Ähnliche Bezeichnungen gelten für die anderen Dichten. Obwohl die Dichte der Cauchy-Verteilung einen “glockenförmigen” Graphen wie die Gausssche Glockenkurve hat, gibt es sehr wesentliche Unterschiede zwischen den beiden Dichten, die damit zusammenängen, dass die Gausssche Glockenkurve sehr viel schneller gegen 0 abfällt als die Cauchy-Dichte. In der untenstehenden Gra…k ist die durchgezogenen Kurve die Cauchy-Dichte und die gestrichelte die Gausssche Glockenkurve. Eine Dichte ist nicht ganz eindeutig durch die Zufallsgrösse bzw. deren Verteilungsfunktion bestimmt, denn eine Änderung der Dichtefunktion auf einer Lebesgue-Nullmenge ändert an der Darstellung (6.1) natürlich gar nichts. Für die weitere Diskussion sind einige masstheoretische Überlegungen wichtig. Wir formulieren sie etwas allgemeiner als hier unbedingt nötig wäre. Ist eine Menge und F eine -Algebra, so bezeichnen wir ein Mengensystem F0 F ein Erzeugendensystem von F; wenn F die kleinste -Algebra ist, die F0 enthält, d.h. wenn für jede -Algebra G F 0 ; die Inklusion F G gilt. Ein Erzeugendesystem F0 von F heisst durchschnittstabil, wenn A; B 2 F0 =) A \ B 2 F0 gilt. Ohne Beweis zitieren wir die folgenden zwei Ergebnisse aus der Masstheorie (sie die Vorlesung Di¤.-Int. III): Proposition 6.5 Sind Q1 ; Q2 zwei Wahrscheinlichkeitsmasse auf der -Algebra F, die auf einem durchschnittstabilen Erzeugendensystem F0 von F übereinstimmen, so stimmen Q1 und Q2 auf F überein. Proposition 6.6 f( 1; t] : t 2 Rg ist ein durchsnittstabiles Erzeugendensystem der Borel- -Algebra B auf R: Als Folgerung ergibt sich das folgende Korollar 6.7 Hat die Zufallsgrösse X die Dichte f; so gilt für jede Borel-Menge B 2 B Z P (X 2 B) = f (x) dx: B R Beweis. Die Abbildung B 3B ! B f (x) dx ist R ein Mass auf (R; B) ; was aus der Vorlesung Di¤.-Int. III bekannt sein sollte. Wegen R f (x) dx = 1 ist es ein Wahrscheinlichkeitsmass. Ebenso ist die Abbildung B 3B ! P (X 2 B) ein Wahrscheinlichkeitsmass, was man wie folgt einsieht: 90 Es gilt trivialerweise P (X 2 R) = 1; Sind Bn ; n 2 N; paarweise disjunkte Borelmengen, so sind auch die Mengen An := f! 2 : X (!) 2 Bn g paarweise disjunkt. Ferner gilt n o [ [ An = ! : X (!) 2 Bn : n n Somit folgt P X2 [ n Bn = P [ n An = X P (An ) = n X n P (X 2 Bn ) : Damit haben wir die Kolmogoro¤schen Axiome für die Abbildung B 3B ! P (X 2 B) nachgewiesen. Nach Voraussetzung stimmen unsere beiden Wahrscheinlichkeitsmasse auf dem Mengensystem f( 1; t] : t 2 Rg überein. Nach den Propositionen 6.5 und 6.6 stimmen die Masse daher auf der ganzen Borel- -Algebra überein. Eine Verteilungsfunktion F , die eine Dichte hat, braucht natürlich keine stetige Dichte zu besitzen. Ist jedoch eine Dichte f in einem Punkt a stetig, so gilt nach dem Fundamentalsatz der Di¤erential- und Integralrechnung f (a) = dF (x) dx : x=a Somit hat eine Verteilungsfunktion F genau dann eine stetige Dichte, wenn sie stetig di¤erenzierbar ist. Diese stetige Dichte ist, wenn sie existiert, eindeutig durch F bestimmt. Wir kommen nun zur De…nition des Erwartungswertes und der Varianz für Zufallsgrössen, die eine Dichte besitzen. De…nition 6.8 Die Zufallsgrösse X habe eine Dichte f . a) Ist die Funktion R 3 x 7! xf (x) Lebesgue-integrierbar, so sagen wir, dass der Erwartungswert von X existiert. Er ist dann de…niert durch Z 1 EX = xf (x) dx: 1 b) Falls EX existiert und R 3 x 7! (x EX)2 f (x) Lebesgue-integrierbar ist, so ist die Varianz von X de…niert durch Z 1 var(X) = (x E(X))2 f (x) dx: 1 Die De…nition ist natürlich völlig analog zu den entsprechenden De…nitionen von Erwartungswert und Varianz für Zufallsgrössen, die auf diskreten Wahrscheinlichkeitsräumen de…niert sind. 91 Bemerkung 6.9 Eine Cauchy-verteilte Zufallsgrösse hat keinen Erwartungswert, denn die Funktion R 3 x 7! c x2 x + c2 ist nicht Lebesgue-integrierbar. Beispiele 6.10 a) Sei X standard normalverteilt. Dann ist Z 1 Z 1 1 2 x2 =2 p p jxj e dx = xe 2 2 0 1 x2 =2 2 = lim p N !1 2 e dx x2 =2 N 0 = r 2 < 1; also existiert der Erwartungswert von X, und es gilt Z 1 1 2 EX = x p e x =2 dx = 0; 2 1 da der Integrand eine ungerade Funktion ist. Die Varianz berechnet sich wie folgt: Es gilt Z 1 Z N 1 1 2 2 x2 =2 var(X) = p x e dx = lim p x(xe x =2 ) dx; N !1 2 2 1 N und mittels partieller Integration folgt var(X) = lim N !1 1 p 2 xe x2 =2 N N 1 +p 2 Z N e x2 =2 dx = 0 + 1 = 1: N b) Sei X normalverteilt mit den Parametern 2 R und > 0. Mit der Transformation y = (x )= folgt unter Verwendung von a) Z 1 Z 1 1 1 2 (x )2 =2 2 jxj p e dx = j + yj p e y =2 dy 2 2 1 1 Z 1 1 2 j j+ jyj p e y =2 dy < 1; 2 1 also existiert der Erwartungswert, und es gilt Z 1 Z 1 1 (x )2 =2 2 EX = xp e dx = p 2 2 1 1 (y + )e y 2 =2 dy = : 1 Mit der gleichen Transformation und dem Ergebnis aus Beispiel a) folgt Z 1 2 Z 1 1 2 2 2 var(X) = (x )2 p e (x ) =2 dx = p y 2 e y =2 dy = 2 2 1 1 92 2 : Bemerkung 6.11 Eine Zufallsgrösse X ist genau dann normalverteilt mit Erwartungswert und Varianz 2 , wenn (X )= standardnormalverteilt ist. Etwas allgemeiner: Ist X normalverteilt mit Erwartungswert und Varianz 2 , und sind a; b 2 R, a 6= 0, so ist aX + b normalverteilt mit Erwartungswert a + b und Varianz a2 2 . Dies ergibt sich im Fall a > 0 aus der Tatsache, dass sowohl P (X t) = P (aX + b at + b) als auch (mittels der Transformation y = ax + b) Z t 1 p 2 1 e (x )2 =2 2 dx = für alle t 2 R gelten, also '( ; a + b; a2 a < 0 ist analog. Z Z 1 xe x dx = xe x 1 0 0 1 2) Beispiel 6.12 Sei X exponentialverteilt mit Parameter EX = at+b p 1 e 2 a b)2 =2a2 (y a var(X) = 1 x 1 > 0. Partielle Integration ergibt + Z 1 e x 1 dx = 0 + e e 1 x 0 2 x dy eine Dichte von aX + b ist. Der Beweis für dx = 0 Z 1 1 = ; 0 insbesondere existiert der Erwartungswert. Ausmultiplizieren von (x von E(X) = 1= und zweimalige partielle Integration liefern Z 2 x2 e x dx 2 1= )2 , verwenden E(X) + 0 1 2 = 1 2: Als nächstes wollen wir gemeinsame Eigenschaften von mehreren Zufallsgrössen X1 ; : : : ; Xn betrachten. Wir nennen das n Tupel X = (X1 ; : : : ; Xn ) auch einen n-dimensionalen Zufallsvektor. De…nition 6.13 a) Eine Lebesgue-integrierbare Funktion f : Rn ! [0; 1) heisst n-dimensionale Dichtefunktion (oder kurz Dichte),wenn Z f (x) dx = 1 Rn ist, wobei x das n-Tupel (x1 ; : : : ; xn ) 2 Rn bezeichnet. b) f sei eine n-dimensionale Dichtefunktion, und X = (X1 ; : : : ; Xn ) ein Zufallsvektor. f heisst Dichte von X; wenn Z P (X1 a1 ; X2 a2 ; : : : ; Xn an ) = f (x) dx (6.2) ( 1;a1 ] ( 1;an ] für alle a1 ; : : : ; an 2 R gilt. Wir sagen dann auch, f sei eine gemeinsame Dichte der Zufallsgrössen X1 ; : : : ; Xn : 93 Die linke Seite der Gleichung (6.2) ist die Wahrscheinlichkeit der Menge f! : X (!) 2 A (a)g ; wobei A (a) := ( 1; a1 ] ( 1; an ] Rn ist. Die Teilmengen von Rn dieser Form bilden ein durchschnittstabiles Erzeugendensystem der n-dimensionalen Borel- -Algebra Bn : Aus Proposition 6.5 folgt daher wie oben im eindimensionalen Fall: Satz 6.14 Ist f eine Dichte des Zufallsvektors X; so gilt für jede Borel-Menge C Z P (X 2 C) = f (x) dx: Rn : C Setzt man im obigen Satz speziell C = Rk 1 ( 1; a] Rn k , so ergibt sich aus dem Satz von Fubini: Z a Z 1 Z 1 P (Xk a) = ::: f (x1 ; : : : ; xn ) dx1 : : : dxk 1 dxk+1 : : : dxn dxk 1 1 1 Z a = fk (x) dx; 1 mit fk (x) := Z 1 ::: 1 Z 1 f (x1 ; : : : ; xk 1 ; x; xk+1 ; : : : ; xn ) dx1 : : : dxk 1 dxk+1 : : : dxn : (6.3) 1 Daraus folgt, dass die Funktion fk eine Dichte für die Zufallsgrösse Xk ist. fk heisst die k-te Randdichte von f . Wir haben somit den folgenden Satz gezeigt: Satz 6.15 Hat der Zufallsvektor X = (X1 ; : : : ; Xn ) eine Dichte f , so hat für jedes k 2 f1; : : : ; ng die Zufallsgrösse Xk die Dichte fk , die de…niert ist durch (6.3). Bemerkung 6.16 a) Eine präzise Ausformulierung der obigen Überlegungen erfordert etwas Sorgfalt. Tatsächlich garantiert der Satz von Fubini nicht, dass für alle x 2 R die Funktion Rn 1 3 (x1 ; : : : ; xk 1 ; xk+1 ; : : : ; xn ) ! f (x1 ; : : : ; xk 1 ; x; xk+1 ; : : : ; xn ) Lebesgue-integrierbar auf Rn 1 ist, sondern nur für alle x 2 R n N , wobei N eine Nullmenge ist. Die Funktion fk ist somit im allgemeinen nur auf RnN de…niert. Für Ra die weitere Integration von fk , zum Beispiel für 1 fk (x) dx, ist diese Nullmenge jedoch belanglos. Wir können fk (x) für x 2 R n N durch (6.3) de…nieren, und für x 2 N können wir fk (x) := 0 (oder irgend eine andere Zahl) setzen. Dann ist fk auf ganz R de…niert. Die Festlegung auf der Nullmenge spielt keine Rolle. (Tatsächlich ist es formal besser, Dichten als Äquivalenzklassen von Funktionen aufzufassen, wobei die Äquivalenzrelation durch die Gleichheit fast überall de…niert ist). 94 b) Satz 6.15 besagt, dass die Existenz einer gemeinsamen Dichte die Existenz der Dichten für die einzelnen Komponenten des Zufallsvektors impliziert. Die Umkehrung gilt jedoch nicht. Dazu das folgende Beispiele: Habe die Zufallsgrösse X eine Dichte. Wir setzen Y := X: Dann hat natürlich auch Y eine Dichte (dieselbe wie X): Der Zufallsvektor (X; Y ) hat jedoch keine Dichte. Ist nämlich A := (x; y) 2 R2 : x = y ; so gilt P ((X; Y ) 2 A) = 1: Anderseits ist A eine Lebesgue-Nullmenge. Demzufolge gilt für jede Lebesgue-integrierbare Funktion f : R2 ! R+ ZZ A f (x; y) dxdy = 0 6= 1 = P ((X; Y ) 2 A) : Als Anwendung von Satz 6.14 können wir die Dichte von X + Y berechnen, wenn X und Y eine gemeinsame Dichte f : R2 ! [0; 1) besitzen. Dazu berechnen wir zunächst P (X + Y a) für alle a 2 R. Mit Ca := f(x; y) 2 R2 : x + y ag können wir dies als P ((X; Y ) 2 Ca ) schreiben. Nach Satz 6.14 und dem Satz von Fubini ergibt sich Z 1Z a y P (X + Y a) = f (x; y) dx dy 1 1 Z 1Z a Z a Z 1 = f (x y; y) dx dy = f (x y; y) dy dx: 1 1 1 1 Somit gilt Satz 6.17 Haben X und Y eine gemeinsame Dichte f , so ist die durch Z 1 f (x y; y) dy g(x) = 1 für (fast alle) x 2 R de…nierte Funktion eine Dichte von X + Y . Korollar 6.18 Haben X und Y eine gemeinsame Dichte f; und existieren EX, EY; so existiert auch E(X + Y ) und es gilt E(X + Y ) = EX + EY: Beweis. Nach dem Satz von Fubini-Tonelli gilt Z 1 Z 1 Z 1 f (x y; y) dy dx jxj g(x) dx = jxj 1 1 Z 1Z 1 Z 1 1 Z 1 (jxj + jyj) f (x; y) dy dx jx + yj f (x; y) dy dx = 1 1 1 1 Z 1 Z 1 jyj f2 (y) dy < 1; jxj f1 (x) dx + = 1 1 95 wobei f1 ; f2 die beiden Randdichten sind. Somit existiert der Erwartungswert von X + Y im Sinne der De…nition 6.8 gezeigt. Mit Fubini folgt nun auch Z 1 Z 1 Z 1 xg(x) dx = x f (x y; y) dy dx 1 1 1 Z 1Z 1 = (x + y) f (x; y) dy dx 1 1 Z 1 Z 1 = xf1 (x) dx + yf2 (y) dy = EX + EY: 1 1 De…nition 6.19 X1 ; : : : ; Xn seien n Zufallsgrössen. Sie heissen unabhängig, wenn für alle a1 ; : : : ; an 2 R P (X1 a1 ; : : : ; Xn an ) = P (X1 a1 ) P (Xn an ) gilt. Bemerkung 6.20 Man prüft leicht nach, dass diese De…nition für diskrete Zufallsgrössen äquivalent zu der in Kapitel 3 gegebenen ist. Satz 6.21 X1 ; : : : ; Xn seien n Zufallsgrössen. Jedes der Xj habe eine Dichte fj . (Wir setzen nicht voraus, dass eine gemeinsame Dichte existiert.) Dann sind die Zufallsgrössen X1 ; : : : ; Xn genau dann unabhängig, wenn die Funktion f de…niert durch Rn 3 x ! f (x) := f1 (x1 )f2 (x2 ) : : : fn (xn ) eine Dichte von X = (X1 ; : : : ; Xn ) ist. Beweis. Ist f eine Dichte von X, so ergibt sich für alle a1 ; : : : ; an 2 R Z a1 Z an P (X1 a1 ; : : : ; Xn an ) = ::: f1 (x1 ) : : : fn (xn ) dxn : : : dx1 1 = n Z Y j=1 1 aj fj (xj ) dxj = 1 n Y P (Xj aj ): j=1 Somit sind X1 ; : : : ; Xn unabhängig. Umkehrung: Aus der Unabhängigkeit gemäss De…nition 6.19 folgt P (X1 a1 ; : : : ; Xn an ) = = = n Y P (Xj j=1 n Z aj Y j=1 Z a1 1 ::: 1 96 aj ) fj (xj ) dxj Z an f1 (x1 ) : : : fn (xn ) dxn : : : dx1 ; 1 und somit ist f eine Dichte von X: Wir wollen nun den Satz 6.17 auf den Fall, dass X; Y unabhängig sind, spezialisieren: Satz 6.22 Es seien X und Y unabhängige Zufallsgrössen; X habe die Dichte f und Y die Dichte g. Dann hat X + Y die Dichte Z 1 h(x) = f (x y)g(y) dy; x 2 R: (6.4) 1 Beweis. Der Satz folgt unmittelbar aus Satz 6.17 und Satz 6.21. Sind f und g zwei Dichten, so de…niert (6.4) eine neue Dichte h, die man als die Faltung von f und g bezeichnet und meist als f g schreibt. Dass f g wieder eine Dichte in unserem Sinne ist, folgt sofort aus dem Satz von Fubini. Die Faltung ist eine kommutative und assoziative Verknüpfung auf der Menge der Dichten. Als Anwendung von Satz 6.17 können wir die wichtigste Eigenschaft von normalverteilten Zufallsgrössen zeigen: Satz 6.23 Es seien Xi , 1 i n, unabhängige undPnormalverteilte Zufallsgrössen mit Erwarn 2 . Dann ist tungswerten und Varianzen i i i=1 Xi normalverteilt mit Erwartungswert Pn Pn 2 und Varianz . i=1 i i=1 i Beweis. Sind X1 ; : : : ; Xn unabhängig, so sind X1 + + Xn 1 und Xn ebenfalls unabhängig, was sich der Leser als Übungsaufgabe überlegen soll. Der Satz folgt somit mit Induktion nach n aus dem Fall n = 2. Die Zufallsgrössen Y1 = X1 1 und Y2 = X2 2 sind Nach Bemerkung 6.11 normalverteilt mit Erwartungswert 0. Nach (6.4) ist die Dichte h von Y1 + Y2 gegeben durch Z 1 y2 1 1 (x y)2 + dy h(x) = exp 2 2 2 1 2 1 2 1 2 für alle x 2 R. Schreibt man den Term in der Klammer in der Form !2 p 2+ 2 (x y)2 y2 x2 2 1 2 p + = y x + 2 2 2+ 2+ 2 1 2 1 1 2 1 1 2 2: 2 und benutzt die Transformation z(y) = p 2 1 + 2 2 y 1 2 1 so ergibt sich h(x) = p 1 2 ( 2 1 + 2) 2 exp 1 2 x2 2+ 1 2 2 97 Z p 1 1 2 2+ 1 1 p e 2 2 2 x; z 2 =2 dz = '(x; 0; 2 1 + 2 2 ): Also ist Y1 + Y2 normalverteilt mit Erwartungswert 0 und Varianz 21 + 22 . Demzufolge ist X1 + X2 normalverteilt mit Erwartungswert 1 + 2 und Varianz 21 + 22 . Die Normalverteilung ist die weitaus wichtigste Verteilung. Für viele statistische Anwendungen wird vorausgesetzt, dass die diskutierten Grössen normalverteilt sind (z.B. Messfehler bei astronomischen Beobachtungen, Intelligenzquotienten in einer Population etc., siehe die Vorlesungen über Statistik). Viele Grössen, die oft und unter identischen Bedingungen gemessen werden können, sind tatsächlich wenigstens genähert normalverteilt. Eine gewisse theoretische Rechtfertigung gibt der zentrale Grenzwertsatz aus Kapitel 5. Man stellt sich etwa vor, dass Messfehler zustande kommen, indem sich kleine Fehler unabhängig überlagern. Ist dies der Fall, so ist nach dem zentralen Grenzwertsatz der gesamte Messfehler genähert normalverteilt. Zufallsgrössen mit Dichten sind noch zu Ende des 19. Jahrhunderts zum Teil nicht richtig verstanden worden. 1888 publizierte Joseph Bertrand sein Buch Calcul des probabilités, worin des folgende sogenannte Bertrandsche Paradoxon erwähnt wird. Gegeben sei ein Kreis mit Radius 1: In diesen Kreis wird eine zufällige Sehne gezogen. Mit welcher Wahrscheinlichkeit ist diese Sehne kürzer als die Seitenlänge eines in den Kreis eingeschriebenen gleichseitigen Dreiecks? Die Frage ist, was hier “zufällig”bedeutet. Dafür gibt es mehrere mögliche Ansätze. Ein naheliegender ist es, zwei zufällige Punkte (X; Y ) auf dem Einheitskreis zu wählen. Wir können X und Y mit zufälligen Winkeln 2 [0; 2 ) identi…zieren und vorauszusetzen, dass (X; Y ) als gemeinsame Dichte die Gleichverteilung auf dem Einheitsquadrat [0; 2 )2 hat, d.h. die Dichtefunktion, die auf diesem Quadrat gleich 1= (2 )2 ist, und 0 ausserhalb. In diesem Modell lässt sich die gesuchte Wahrscheinlichkeit leicht ermitteln: Sie ist einfach gegeben durch die Wahrscheinlichkeit, dass X und Y sich um weniger als 2 =3 unterscheiden. Die gesuchte Wahrscheinlichkeit ist daher o¤ensichtlich 2=3: Wir können jedoch auch auf andere Weise festlegen, was “zufällig” hier heissen soll, z.B. indem wir den Mittelpunkt der Sehne gemäss der Gleichverteilung auf der Kreisscheibe wählen. Bezeichnen wir die Koordinaten dieses Mittelpunktes der Sehne mit (U; V ) ; so legen wir also fest, dass dieser zweidimensionale Vektor eine Dichte hat, die 1= auf der Kreisscheibe ist und 0 ausserhalb. Die Länge der Sehne ist genau dann kürzer als die Seiten des eingeschriebenen Dreiecks, wenn der Abstand von (U; V ) vom 0-Punkt grösser als der Radius des dem Dreieck eingeschriebenen Inkreises ist, der Radius 1=2 p hat, d.h. wenn U 2 + V 2 > 1=2 ist, was unter dem obigen Modell Wahrscheinlichkeit 3=4 6= 2=3 hat. Bertrand scheint über dieses Resultat verwundert gewesen zu sein, aber es gibt eigentlich nicht den geringsten Grund, weshalb die Gleichverteilung von (X; Y ) auf [0; 2 )2 der Gleichverteilung von (U; V ) auf der Kreisscheibe entsprechen sollte.9 9 Natürlich ist es billig, sich über die Ignoranz der Alten zu mokkieren; dass zu Ende des 19. Jh. jemand mit diesem Beispiel Schwierigkeiten gehabt hat, verwundert jedoch schon etwas. Es ist kaum anzunehmen, dass z.B. Gauss oder Laplace über das Ergebnis erstaunt gewesen wären. Bertrands Buch enthält übrigens viele Fehler und Ungenauigkeiten, ist jedoch in glänzendem sprachlichen Stil geschrieben. Seine meisterhafte Beherrschung der französischen Sprache haben ihm einen Sitz in der Académie Française eingetragen. 98 Joseph Louis François Bertrand 6.A Anhang: Masstheoretische Ergänzungen Die Diskussion von allgemeinen Zufallsgrössen und ihren Erwartungswerten wird wesentlich durch den abstrakten masstheoretischen Rahmen erleichtert. Wir beginnen mit einer neuen De…nition des Erwartungswertes und zeigen nachher, dass damit sowohl der diskrete Fall wie der Fall von Zufallsgrössen mit Dichten erfasst werden. De…nition 6.24 Sei X eine Zufallsgrösse gemäss De…nition 6.1. Dann besitzt X einen Erwartungswert, wenn die Abbildung X integrierbar bezüglich des Masses P ist, und der Erwartungswert ist dann de…niert als Z EX := X dP: (Ich setzte hier voraus, dass die Integrationstheorie auf allgemeinen Massräumen bekannt ist.) R P Ist abzählbar und F die Potenzmenge von ; so gilt X dP = ! X (!) P (f!g) : Wir fallen also in diesem Fall zurück auf die De…nition 3.7 (mit Lemma 3.8). Wir diskutieren nun, dass auch die De…nition des Erwartungswertes einer Zufallsgrösse X; die eine Dichte besitzt (De…nition 6.8 a)) in diesen allgemeinen Rahmen eingebettet werden kann. Die Zufallsgrösse X de…niert ein Wahrscheinlichkeitsmass auf der Borel- -Algebra B druch B 3 B ! P (X 2 B) = P X 1 (B) ; wobei X 1 (B) := f! 2 : X (!) 2 Bg ist. 99 Dieses Wahrscheinlichkeitsmass bezeichnen wir mit P X 1 : Wichtig ist hier der nachfolgende Transformationssatz, der aus der Vorlesung Di¤.-Int.III bekannt sein sollte: Proposition 6.25 Sei f : R ! R eine Borel-messbare Funktion und X eine Zufallsgrösse (de…niert auf einem Wahrscheinlichkeitsraum ( ; F; P )): Dann ist f X genau dann P -integrierbar, wenn f integrierbar bezüglich P X 1 ist, und es gilt in diesem Fall Z Z (f X) dP = f d P X 1 : Wenden wir dies auf die Funktion f = idR an, so sehen wir, dass X genau dann einen Erwartungswert (gemäss der obigen De…nition) besitzt, wenn idR integrierbar bezüglich P X 1 ist, und es gilt dann Z EX = idR d P X 1 : R Die rechte Seite schreibt man üblicherweise als x P X 1 (dx) : Im Spezialfall, wo abzählbar ist, ist das nichts anderes als unser altes Umsummierungslemma 3.8. Um den Fall von Zufallsgrössen mit Dichten in den abstrakten Rahmen einzubetten, brauchen wir etwas weiterführende Theorie, die hier kurz skizziert werden soll. De…nition 6.26 Es seien ; zwei Masse auf F: heisst absolut stetig bezüglich ; wenn jedes A 2 F mit (A) = 0 gilt. Notation: : (A) = 0 für Sie eine Menge und F eine -Algebra auf F: Ein Mass S auf F heisst -endlich, wenn eine aufsteigende Folge An 2 F; n 2 N; existiert mit = n An und (An ) < 1 für alle n: Ohne Beweis zitieren wir den folgenden wichtigen Satz: Satz 6.27 (Radon-Nikodym) Es seien ; zwei -endliche Masse auf F: Dann ist genau dann absolut stetig bezüglich ; wenn eine messbare Abbildung f : ! R+ existiert mit Z (A) = f d : (6.5) A Die Abbildung f ist eindeutig bis auf Gleichheit -fast überall. f im obigen Satz bezeichnet man auch als die (Radon-Nikodym-) Dichte von züglich und schreibt dafür d f= : d be- Hier nur ein paar Kommentare: Die eine Richtung ist trivial: Wenn ein derartiges f existiert, so ist (A) natürlich 0 für jede -Nullmenge A: Die andere Richtung ist schwieriger 100 zu zeigen. Der Beweis ist übrigens “nicht konstruktiv”, was einer der Nachteile des Satzes ist. Es ist naheliegend, f über einen Limes zu konstruieren: f (!) := lim A#f!g (A) ; (A) wobei die A’s sich mehr und mehr um ! konzentrieren. Das geht leider nur in Spezielfällen. In dieser Situation gilt der folgende Transformationssatz, der nicht schwierig zu beweisen ist: Proposition 6.28 Sei eine Menge und G eine -Algebra. Seien ferner ; zwei -endliche Masse auf G mit und f = dd : Ferner sei h : ! R eine messbare Funktion (d.h. h 1 (B) 2 G gilt für alle B 2 B). Dann ist h genau dann -integrierbar, wenn f h integrierbar bezüglich ist und es gilt in diesem Fall Z Z h d = fh d : Der Beweis ist nicht schwierig. Hier eine Skizze: Für h = 1A ; A 2 G; ist die Gleichung einfach (6.5). Linearität des Integrals und das übliche Monotone-Klasse-Argument (das aus Di¤.-Int.III bekannt sein sollte) erledigen den Rest. Wir wenden das nun auf Zufallsvektor X : ! Rd und = Rd an. Wir sagen, dass X eine Dichte bezüglich des d-dimensionalen Lebesgue Masses d besitzt, wenn PX 1 d gilt. Die Radon-Nikodym-Dichte f= d PX d d 1 bezeichnet man dann kurz als die Dichte von X: Nach der obigen Proposition ist eine messbare Funktion h : Rd ! R genau dann integrierbar bezüglich P X 1 ; wenn f h integrierbar bezüglich d ist und es gilt in diesem Fall Z Z 1 h d PX = f h d d: Spezialisieren wir das weiter auf d = 1 und h = idR ; so sehen wir, dass eine Zufallsgrösse X, die eine Dichte f besitzt, genau dann einen Erwartungswert besitzt, wenn die Funktion x ! xf (x) Lebesgue-integrierbar ist, und es gilt dann Z EX = xf (x) (dx) : Damit haben wir den Erwartungswert gemäss De…nition 6.8 einer Zufallsgrösse X, die eine Dichte besitzt, als Spezialfall des Erwartungswertes gemäss De…nition 6.24 erkannt. Es sollte jedoch betont werden, dass die De…nition 6.24 allgemeiner ist und auf Zufallsgrössen angewandt werden kann, die weder eine Dichte besitzen, noch auf einem diskreten Wahrscheinlichkeitsraum de…niert sind. 101 Der hier kurz vorgestellte abstrakte Rahmen hat den Vorteil, dass alle Integrationskonzepte, die man in der Wahrscheinlichkeitstheorie braucht, in einem einheitlichen Rahmen diskutiert werden können und man die lästige Unterscheidung zwischen diskreten Zufallsgrössen und Zufallsgrössen mit Dichten nicht weiter braucht. 102 7 Einführung in die Informations- und Kodierungstheorie Wir diskutieren in diesem Kapitel zwei Kodierungsprobleme. In Unterkapitel 7.1 wird das Problem diskutiert, eine Informationsquelle möglichst knapp zu “verpacken”. In der Informationstheorie nennt man das ein Quellenkodierungs-Problem. Im Unterkapitel ?? wird die Unterdrückung von Übertragungsfehlern behandelt. 7.1 Optimale Quellenkodierung nach Hu¤man, Entropie Zunächst eine Einkleidung des Problems, die an das bekannte Kinderspiel anknüpft, mit möglichst wenig Fragen, die mit “Ja” oder “Nein” beantwortet werden, ein Element aus einer vorgegebenen Menge von Objekten (z.B. Tiere, Personen etc) herauszu…nden. Wir bezeichnen die Menge mit = f! 1 ; : : : ; ! n g: Wir nehmen weiter an, dass den Elementen ! i eine Wahrscheinlichkeit p (! i ) zugeordnet wird. Dies ist nichts anderes als unser altbekannter Wahrscheinlichkeitsraum, nur dass wir hier voraussetzen, dass endlich ist. Die Wahrscheinlichkeiten p(! i ) kürzen wir mit pi ab, und p sei der Wahrscheinlichkeitsvektor (p1 ; : : : ; pn ). Wir nehmen an, dass diese Wahrscheinlichkeiten dem Frager bekannt sind. Es ist intuitiv plausibel, dass der Frager seine Fragestrategie von diesen Wahrscheinlichkeiten abhängig macht, und dass er z.B. nach denjenigen ! i fragt, die kleine Wahrscheinlichkeiten haben. Wir werden im Laufe der Diskussion dieses Problems auf einen wichtigen Begri¤ stossen, nämlich auf die sogenannte Entropie H (p). Diese misst, wieviel “Unsicherheit” in dem Zufallsexperiment steckt. Diese Unsicherheit steht naheliegenderweise in einem engen Zusammenhang mit der Anzahl der benötigten Fragen, wenn wir wie oben das Problem als Fragespiel einkleiden. Die Entropie wird eher gross sein, wenn n gross ist. Anderseits erhält ein Zufallsexperiment mit n = 100; wobei jedoch alle ! i bis auf eines nur Wahrscheinlichkeit 10 6 haben natürlich eine kleine Entropie. Der Begri¤ “Entropie” wurde 1865 von Rudolf Clausius in die Thermodynamik eingeführt. 103 Rudolf Clausius (1822-1888) Hier seine eigenen Worte: Da ich es aber für besser halte, die Namen derartiger für die Wissenschaft wichtiger Größ en aus den alten Sprachen zu entnehmen, damit sie unverändert in allen neuen Sprachen angewandt werden können, so schlage ich vor, die Größ e S nach dem griechischen Worte “tropae”, die Verwandlung, die Entropie des Körpers zu nennen. Das Wort Entropie habe ich absichtlich dem Wort Energie möglichst ähnlich nachgebildet, denn die beiden Größ en, welche durch diese Worte benannt werden sollen, sind ihren physikalischen Bedeutungen nach einander so nahe verwandt, daßeine gewisse Gleichartigkeit in der Benennung mir zweckmäß ig zu seyn scheint. Clausius war übrigens von 1855-1867 Professor an der Universität Zürich. Auf die Beziehungen zwischen Informationstheorie und statistischer Mechanik kann hier nicht eingegangen werden. Im Gegensatz zu Clausius, der die Entropie mit S bezeichnet hat, hat es sich eingebürgert, sie mit H zu bezeichnen (wobei allerdings H für den grossen griechischen Buchstaben “Eta” steht). Hier ist die De…nition: H(p) := n X pi log2 pi (7.1) i=1 wobie log2 der Logarithmus zur Basis 2 ist. (Man kann natürlich jeden Logarithmus nehmen; das ist nur eine Skalierung). Wir versuchen zu einer Herleitung der Entropie zu kommen, die deren Interpretation als “Mass der Unbestimmtheit” Rechnung trägt und gehen daher zurück zu unserem Fragespiel. Die Anzahl der benötigten Fragen hängt natürlich vom Geschick des Fragestellers ab, ferner im allgemeinen vom Ausgang des Zufallsexperimentes. Wir wollen deshalb die mittlere Anzahl der benötigten Fragen betrachten, wenn der Fragesteller 104 optimal fragt. Leider ist auch dies, auch wenn genau präzisiert, noch nicht die übliche De…nition von H, d.h. der Ausdruck in (7.1). Wir werden diesen Punkt später diskutieren. Die Grösse, zu der wir nach einigen Präzisierungen gelangen werden, nennen wir die wahre Entropie und bezeichnen sie mit H0 . Zur Unterscheidung nennen wir H aus (7.1) die ideelle Entropie. Die beiden Grössen sind jedoch eng miteinander verwandt, wie wir später sehen werden. Wir fassen die bisherige Diskussion in der nachfolgenden De…nition zusammen; wir werden sie später durch die De…nition 7.6 präzisieren. De…nition 7.1 Für ein Zufallsexperiment ( ; p) ist die wahre Entropie H0 (p) de…niert als der Erwartungswert der Anzahl benötigter Fragen um den Ausgang des Zufallsexperimentes zu identi…zieren bei Verwendung einer optimaler Fragestrategie. Was eine Fragestrategie ist, werden wir weiter unten gleich präzisieren. Beispiele 7.2 a) Beim Münzwurf, also bei p = (1=2; 1=2), fragt man etwa: “Ist es ! 1 ?”. Aus der Antwort weiss man in jedem Fall das Ergebnis. Das ist o¤ensichtlich optimal. Somit ist H0 (1=2; 1=2) = 1. b) Auch für p = (1=2; 1=4; 1=4) kann man die optimale Fragestrategie leicht erraten: Man fragt natürlich: „Ist es ! 1 ?“ Falls die Antwort “nein“ ist, so fragt man nach ! 2 . Die mittlere Anzahl der Fragen ist 1 1 1 3 1+ 2+ 2= : 2 4 4 2 Fragt man zuerst nach ! 2 und dann, falls nötig, nach ! 1 , so beträgt die mittlere Anzahl der benötigten Fragen 1 1 1 7 1+ 2+ 2= ; 4 2 4 4 was o¤enbar schlechter ist. c) Bei p = (1=4; 1=4; 1=4; 1=4) fragt man am besten zunächst: “Ist es ! 1 oder ! 2 “? und dann nach ! 1 bzw. ! 3 . Man braucht also bei jedem Versuchsausgang zwei Fragen. Fragt man jedoch der Reihe nach “Ist es ! 1 ?“, “Ist es ! 2 ?“ und “Ist es ! 3 ?“, so benötigt man zwar nur eine Frage, wenn ! 1 der Ausgang ist, im Mittel aber mehr, nämlich 1 1 1 9 1 1+ 2+ 3+ 3= : 4 4 4 4 4 Um zu präzisieren, was eine Fragestrategie ist, führen wir den Begri¤ Codeein. Statt “ja” und “nein” verwenden wir die Zeichen 1 und 0. Ein Wort sei eine endliche Folge von Nullen und Einsen. Ist ein Wort, so bezeichnen wir mit j j die Länge von , zum Beispiel hat = 001101 die Länge j j = 6. Die leere Folge nennen wir das leere Wort. Es hat die Länge 0: Die Menge aller Wörter bezeichnen wir mit W: 105 Ein Wort 1 heisst Prä…x eines Wortes 2 , wenn j 1 j < j 2 j ist und die ersten j 1 j Stellen von 2 mit 1 identisch sind. Zum Beispiel ist 01 ein Prä…x von 010010 aber nicht von 000. Das leere Wort ist natürlich Prä…x von jedem anderen Wort. De…nition 7.3 Ein Code für ( ; p) ist eine injektive Abbildung die jedem Element ! i in ein Codewort (! i ) zuordnet. Dabei darf keines der Wörter (! i ) Prä…x eines anderen Wortes (! j ) sein. Von den vier Abbildung als Codes brauchbar, denn i 1 : ! W in der nachfolgenden Tabelle sind nur 3 un 4 ist nicht injektiv und 2 hat nicht die Prä…xeigenschaft. Beispiel 7.4 1 !1 !2 !3 !4 01 1111 01 000 2 0 01 011 0111 3 1 01 001 0001 4 00 01 : 10 11 Es ist nun nicht schwer, den Zusammenhang zwischen Fragestrategien für ( ; p) und Codes zu erörtern. Nehmen wir zunächst an, wir hätten eine Fragestrategie für ( ; p). Wenn wir zum Beispiel fünf Fragen brauchen, falls ! 1 das zu erratende Objekt ist, wobei die Antworten auf die fünf Fragen “ja”, “ja”, “nein”, “ja”, “nein”, so ist das zu ! 1 gehörende Wort einfach 11010: Wir haben einfach “ja” in 1 und “nein” in 0 übersetzt. Wir konstruieren den zu einer Fragestrategie gehörenden Code also einfach folgendermassen: Die erste Zi¤er von (! i ) setzen wir gleich 1 bzw. 0, je nachdem ob die Antwort auf die erste Frage “ja” bzw. “nein” ist, falls das Ereignis ! i ist. Falls für ! i nur eine Frage benötigt wird, so haben wir das Codewort (! i ) bereits gefunden. Benötigt man dagegen mehrere Fragen, so setzen wir die zweite Zi¤er in (! i ) gleich 1 bzw. 0, je nachdem ob die Antwort auf die zweite Frage “ja” bzw. “nein” lautet, falls ! i eintritt. Auf diese Weise fahren wir fort, bis der ganze Code steht. O¤ensichtlich ist injektiv. Die Prä…xeigenschaft ergibt sich einfach daraus, dass bei einer vernünftigen Fragestrategie natürlich dem Frager jederzeit klar sein muss, ob er das Element in identi…ziert hat, oder ob er noch weiterfragen muss. Wenn umgekehrt ein Code gegeben ist, so ergibt sich die Fragestrategie wie folgt. Die erste Frage ist: “Ist die erste Zi¤er des Codeworts für das eingetretene Ereignis gleich 1?”Als nächstes die Frage: “Ist die zweite Zi¤er des Codewortes des eingetretenen Ereignisses eine 1?”, etc. Da der Code die Prä…xeigenschaft hat, ist jederzeit klar, ob man mit den Fragen aufhören kann. Beispiele 7.5 a) Die erste Strategie in Beispiel 7.2 b) ergibt den untenstehenden Code führt auf 2 : 106 1; die zweite 1 !1 !2 !3 1 01 00 2 01 : 1 00 b) Für das Beispiel 7.2 c) ergeben sich die beiden folgenden Codes: 1 !1 !2 !3 !4 11 10 01 00 2 1 01 : 001 000 Unsere Codes haben eine zusätzliche angenehme Eigenschaft. Wir stellen uns vor, dass das Experiment mehrfach hintereinander ausgeführt wird und dass wir laufend eine Mitteilung über den Ausgang jedes einzelnen in Codeform erhalten vermöge eines bestimmten Codes . Wir können dann einfach die Codewörter hintereinander schreiben. Da kein Codewort Prä…x eines anderen ist, sind wir nie im Zweifel darüber, wo ein Codewort aufhört und das nächste anfängt. Jede mit Hilfe des Codes gegebene Mitteilung kann daher auf eindeutige Weise decodiert oder entzi¤ert werden. Wenn wir z.B. den Code 1 aus Beispiel 7.5 a) benutzen und die Folge 11100101100 empfangen, so entspricht dies eindeutig den Versuchsausgängen ! 1 , ! 1 , ! 1 , ! 3 , ! 1 , ! 2 , ! 1 , ! 3 . Der bekannte Morsecode hat die Prä…xeigenschaft nicht. Dafür wird jedoch ein Pausenzeichen benötigt, das die Codewörter eindeutig trennt. Der Morsecode arbeitet daher in Wirklichkeit mit einem Alphabeth von 3 Zeichen. Welcher Code, das heisst welche Fragestrategie, optimal ist, hängt natürlich vom Wahrscheinlichkeitsvektor p = (p1 ; : : : ; pn ) ab. Der Erwartungswert der Länge eines Codes ist wie folgt de…niert: E(j j) = n X i=1 pi j (! i )j: Dies ist gleichzeitig der Erwartungswert der Anzahl der Fragen bei Verwendung der zu gehörigen Fragestrategie. Wir können also unsere De…nition 7.1präzisieren: De…nition 7.6 Für ein Zufallsexperiment ( ; p) ist die wahre Entropie H0 (p) de…niert durch H0 (p) = minfE(j j) : ist Code für ( ; p)g: Man müsste vorsichtigerweise das In…mum statt des Minimums verwenden. Wir werden jedoch gleich sehen, dass stets ein optimaler Code existiert, das heisst ein Code E(j 0 j) für jeden anderen Code für ( ; p). Natürlich ist die obige 0 mit E(j j) De…nition von H0 unhandlich, denn wir haben noch kein praktikables Verfahren für die 107 Bestimmung eines optimalen Codes angegeben und haben damit noch keine Möglichkeit, H0 (p) e¤ektiv zu berechnen. Manchmal ist es nützlich, Codes als binäre Bäume zu veranschaulichen. Bäume sind spezielle Graphen. Dabei ist die Knotenmenge K ( ) des Baumes die Menge aller Codewörter und ihrer Prä…xe. Wir ziehen eine Verbindung zwischen und a, a 2 f0; 1g, sofern und a zu K( ) gehören. Die Menge dieser Verbindungen bezeichnen wir mit V ( ). (K( ); V ( )) ist dann ein Graph, der o¤ensichtlich zusammenhängend ist und keine Kreise aufweist. (Ein Kreis in einem Graphen (K; V ) ist eine Folge (e1 ; : : : ; en ) von verschiedenen Knoten mit n 3, fei ; ei+1 g, fen ; e1 g 2 V für 1 i n 1.) Wir ordnen die Elemente von K( ) aufsteigend der Länge nach. Auf der untersten Ebene ist das leere Wort, sozusagen die “Wurzel”des Baumes, und dann aufsteigend die Wörter der Länge 1; 2; : : : Dabei zeichnen wir eine Verbindung nach rechts oben von nach 1 und nach links oben von nach 0, sofern 1 beziehungsweise 0 2 K( ) sind. Beispiel 7.7 = f! 1 ; ! 2 ; ! 3 ; ! 4 ; ! 5 g. (! 1 ) = 00; (! 4 ) = 110; (! 2 ) = 010; (! 5 ) = 1111: (! 3 ) = 10 Dann ist K( ) = f;; 0; 1; 00; 01; 10; 11; 010; 110; 111; 1111g; und hier der zugehörige Baum: 108 Aus dem Baum eines Codes läß t sich die zugehörige Fragestrategie sofort ablesen. Im obigen Beispiel fragt man zuerst: “Ist es ! 3 , ! 4 oder ! 5 .”Falls “ja”so be…ndet man sich im Knoten 1 und falls “nein” im Knoten 0, und dann fährt man entsprechend weiter. Wir nennen einen derartigen binären Baum vollständig, falls für jedes Wort 2 K( ), das kein Blatt ist, das heisst, das nicht zu den Codewörtern des Codes gehört, sowohl 0 wie 1 zu K( ) gehören. Es ist evident, dass man sich bei der Suche nach einem optimalen Code auf solche beschränken kann, die zu vollständigen Bäumen gehören. Fragestrategien mit unvollständigen Bäumen enthalten über‡üssige Fragen. Wir nennen einen Code vollständig, falls der zugehörige Baum es ist. Unvollständige Bäume lassen sich durch Weglassen der über‡üssigen Knoten zu vollständigen verkürzen und entsprechend lassen sich unvollständige Codes verbessern. Beispiel 7.8 Wir betrachten den Code mit den Codewörtern 01, 1101, 1110, 1111. Er ist o¤ensichtlich unvollständig. Durch Weglassung von über‡üssigen Fragen erhalten wir den besseren Code mit den Codewörtern 0, 10, 110, 111. Ein Verfahren für einen optimalen Code ist von Hu¤man 1950 angegeben worden. Man bezeichnet diesen Code als Hu¤ man-Code. David Hu¤man (1925-1999) Hu¤man hat übrigens seinen Code im Alter von 25 Jahren, als Student am MIT gefunden. Der Code ist praktisch allgegenwärtig und wird z.B. für die Kompression von Bilddateien im jpeg-Format verwendet. Die Konstruktion des Codes erfolgt rekursiv nach der Anzahl n der möglichen Versuchsausgänge. Wir setzen dabei stets pi > 0 für alle i 2 f1; : : : ; ng voraus, denn gilt pi = 0 für ein i, so lassen wir ! i aus der Betrachtung weg. Für n = 2 ist (1) = 0 und (2) = 1 o¤ensichtlich eine optimale Codierung von (p1 ; p2 ). 109 Sei also n > 2. Wir nehmen an, dass wir den Hu¤man-Code für alle Wahrscheinlichkeitsvektoren der Länge n 1 schon konstruiert haben und geben nun den Code für (p1 ; : : : ; pn ) an. Zunächst bemerkt man, dass die Reihenfolge der pi für die Codierung keine Rolle spielt, denn wenn : f1; : : : ; ng ! f1; : : : ; ng eine Permutation und ein Code für (p1 ; : : : ; pn ) mit den Codewörtern (1); : : : ; (n) ist, so ist ( (1)); : : : ; ( (n)) natürlich ein Code für (p (1) ; : : : ; p (n) ) mit derselben mittleren Länge. Wir können daher voraussetzen, dass p1 p2 pn gilt. Nun fasst man die beiden kleinsten Wahrscheinlichkeiten zusammen und betrachtet den Wahrscheinlichkeitsvektor (p1 ; p2 ; : : : ; pn 2 ; pn 1 + pn ) mit n 1 Komponenten. Natürlich braucht pn 1 + pn nicht mehr die kleinste Komponente dieses Vektors zu sein. Bezeichnet gemäss Rekursion (1); : : : ; (n 1) den Hu¤man-Code für diesen Vektor, so ist (1); (2); : : : ; (n 2); (n 1)0; (n 1)1 der Hu¤man-Code für (p1 ; : : : ; pn ). Es ist o¤ensichtlich, dass der Hu¤man-Code stets zu einem vollständigen Baum führt. Das beweist natürlich noch lange nicht, dass er optimal ist. Bevor wir das zeigen, machen wir ein Beispiel: Beispiel: In der untenstehenden Tabelle ist der zu codierende Wahrscheinlichkeitsvektor (p1 ; : : : ; p8 ) die erste Spalte: Die Spalten sind die Wahrscheinlichkeitsvektoren. Die erste ist der ursprüngliche, der codiert werden soll. Den nächsten gewinnt man, indem man die beiden kleinsten Wahrscheinlichkeiten zusammenzählt und gleich richtig einordnet. Auf diese Weise fährt man fort. Diese Summe ist im neuen Wahrscheinlichkeitsvektor jeweils unterstrichen. 0:34 0:25 0:11 0:10 0:07 0:06 0:05 0:02 0:34 0:25 0:11 0:10 0:07 0:07 0:06 0:34 0:25 0:13 0:11 0:10 0:07 0:34 0:25 0:17 0:13 0:11 0:34 0:41 0:59 0:25 0:34 0:41 0:24 0:25 0:17 Den Hu¤man-Code gewinnt man rückwärts. Für den Vektor der Länge zwei besteht der zugehörige Code aus den Wörtern 0 und 1. Danach wird jeweils das Codewort, das zur unterstrichenen Wahrscheinlichkeit gehört, durch Anhängen der Zi¤er 0 bzw. 1 aufgespaltet, um die beiden neuen Codewörter für die beiden letzten Wahrscheinlichkeiten in der vorangegangenen Spalte zu erhalten. In der folgenden Tabelle sind die aufgespaltenen Codewörter jeweils unterstrichen: 110 11 11 10 10 010 010 001 001 000 000 0110 0111 01111 0110 01110 11 11 10 10 011 00 010 011 001 010 000 11 0 1 10 11 0 01 10 00 Hier noch der zugehörige Baum mit den Codewörtern des Codes als Blätter: Die mittlere Länge des Codes ist: 0:02 5 + 0:05 5 + 0:06 4 + 0:07 3 + 0:1 3 + 0:11 3 + 0:25 2 + 0:34 2 = 2:61: In einem Experiment mit 8 möglichen Ausgängen kann man natürlich auch einfach einen Code benützen, der für jedes Elementarereignis 3 Fragen benötigt. Der Hu¤man-Code verbessert diesen Wert also um 13%: Der Hu¤man-Code ist o¤enbar nicht immer eindeutig de…niert. Es kann nämlich vorkommen (wie auch im Beispiel oben), dass die Summe der beiden kleinsten Wahrscheinlichkeiten gleich einer der anderen ist, so dass die Einordnung nicht eindeutig ist. Dies ist jedoch ohne Belang, denn offensichtlich haben die entstehenden Hu¤man-Codes alle dieselbe mittlere Länge. Satz 7.9 Jeder Hu¤man-Code ist optimal. 111 Beweis. Der Beweis verläuft mit Induktion nach n, der Länge des Wahrscheinlichkeitsvektors. Der Fall n = 2 ist trivial. Induktionsschluss von n 1 auf n: Wir nehmen an, dass der Satz für Vektoren der Länge n 1 2 gezeigt ist. Sei (p1 ; : : : ; pn ) ein beliebiger Wahrscheinlichkeitsvektor der Länge n mit pi > 0 für alle i 2 f1; : : : ; ng. Wir können annehmen, dass p1 p2 pn > 0 gilt, denn dies lässt sich durch Vertauschen stets erreichen. (n) Sei Hu ein Hu¤man-Code für diesen Vektor. Sei ein beliebiger anderer Code mit den Codewörtern 1 ; : : : ; n . Wir zeigen nun E(j j) E(j (n) Hu j): (7.2) Zunächst ordnen wir die Codewörter von nach aufsteigender Länge. Den geordneten Code nennen wir 0 = ( 01 ; : : : ; 0n ); für die Codewörter gilt j 01 j j 02 j j 0n j. Die Menge der Codewörter ist dieselbe geblieben. Es ist ziemlich o¤ensichtlich, dass E(j j) E(j 0 j) ist (Nachprüfen!). Falls j 0n j > j 0n 1 j ist, so stutzen wir das Wort 0n , indem wir von 0n die letzten 0 j n j j 0n 1 j Binärzeichen weglassen. Dieses Wort sei 00n . Wegen der Prä…x-Eigenschaft unterscheidet sich dieses Wort von 01 ; : : : ; 0n 1 . Das neue Wort 00n kann aber auch nicht Prä…x eines der anderen Wörter sein, denn seine Länge ist zumindest die der anderen. Also ist 00 = ( 01 ; : : : ; 0n 1 ; 00n ) ein Code. Gilt j 0n 1 j = j 0n j, so setzen wir 00 = 0 . In jedem Fall gilt E(j 0 j) E(j 00 j). Mindestens zwei Wörter von 00 haben die Länge m := j 00n j. Sei das aus den ersten m 1 Zeichen von 00n bestehende Wort. Dann gilt 00n = 0 oder 00n = 1. Wir nehmen das letztere an, der andere Fall geht genau gleich. Wir betrachten nun zwei Fälle: (i) Eines der anderen Wörter von 00 der Länge m ist das Wort 0. Falls 0 nicht bereits das zweitletzte Wort ist, so vertauschen wir 0 mit dem zweitletzten Wort. Diesen (eventuell neuen) Code nennen wir 000 . (ii) Keines der anderen Wörter der Länge m ist 0. Dann ersetzen wir 0n 1 durch 0 und nennen den neuen Code 000 . Die Prä…xeigenschaft wird dadurch nicht zerstört, denn 1 war ja schon Codewort. Es gilt o¤enbar E(j 00 j) = E(j 000 j), denn die Längen sind gleichgeblieben. Wir schreiben 000 = ( 1 ; : : : ; n ) mit n 1 = 0 und n = 1. Dann ist ( 1 ; : : : ; n 2 ; ) ein Code für (p1 ; : : : ; pn 2 ; pn 1 + pn ). Um dies einzusehen, müssen wir nur die Prä…xeigenschaft nachprüfen. Das Wort kann aber kein Prä…x von 1 ; : : : ; n 2 sein, denn die Längen dieser Codewörter sind kleiner oder gleich j j + 1, und 0, 1 waren verschieden von 1; : : : ; n 2. Nach Induktionsvoraussetzung ist die mittlere Länge des Codes ( 1 ; : : : ; n 2 ; ) grösser oder gleich der mittleren Länge des zugehörigen Hu¤man-Codes, also n X2 i=1 pi j i j + (pn 1 + pn )j j 112 E(j (n 1) j); Hu (n 1) wobei Hu ein Hu¤man-Code für (p1 ; : : : ; pn 2 ; pn (n) (n 1) Konstruktion des Hu¤man-Codes Hu aus Hu ist Ej (n) Hu j = Ej (n 1) j Hu + pn 1 1 + pn ) ist. Nach der rekursiven + pn : Somit gilt Ej 000 j= n X i=1 pi j i j = n X2 i=1 Ej pi j i j + (pn 1 + pn )j j + (pn (n 1) j Hu 1 + pn = Ej + pn (n) Hu 1 + pn ) j: Damit ist (7.2) gezeigt. Wegen der Optimalität des Hu¤man-Codes haben wir natürlich auch ein e¤ektives Berechnungsverfahren für H0 (p) gewonnen. Wir wollen nun noch die Beziehung zwischen H0 (p) und dem bereits in (7.1) angegebenen Ausdruck für die ideelle Entropie H(p) diskutieren. Im allgemeinen stimmen H0 (p) und H(p) nicht überein. Das sieht man schon bei n = 2, wo stets H0 (p) = 1 ist. Der folgende Satz zeigt, dass die wahre Entropie H0 (p) nur wenig über der ideellen Entropie Pn H(p) liegt. Man beachte, dass wegen pi 1 stets log2 pi 0 und somit H(p) = 0 ist. i=1 pi log2 pi Satz 7.10 Für jeden Wahrscheinlichkeitsvektor p = (p1 ; : : : ; pn ) gilt H(p) H0 (p) < H(p) + 1: Da ein Versuchsausgang ! i 2 mit pi = p(! i ) = 0 bei den De…nitionen der ideellen und der wahren Entropie in (7.1) bzw. De…nition 7.6 keinen Beitrag liefert, können wir für den Beweis des Satzes pi > 0 für alle i 2 f1; : : : ; ng voraussetzen. Wir benötigen einige einfache Aussagen über die Längen der Codewörter eines Codes. Proposition 7.11 P a) l1 ; : : : ; ln seien die Längen der Codewörter eines Codes. Dann gilt ni=1 2 li 1 und Gleichheit gilt genau dann, wenn der Code vollständig ist. P b) Seien l1 ; : : : ; ln 2 N mit ni=1 2 li 1. Dann existiert ein Code mit den Wortlängen l1 ; : : : ; l n . Beweis. a) Wir zeigen zunächst mit Induktion nach n, dass für einen vollständigen Code P n li = 1 gilt. i=1 2 Für n = 2 ist die Aussage trivial, denn dann muss l1 = l2 = 1 gelten. Sei n 3. O.E.d.A. können wir annehmen, dass l1 l2 ln gilt. Aus der Vollständigkeit folgt, dass ln 1 = ln 2 gilt. Die letzten beiden Codewörter sind dann von der Form 0 und 1. Ersetzen wir diese beiden Codewörter durch das eine , so erhalten wir einen 113 vollständigen Code mit n 1 Codewörtern, wobei das Länge ln 1 hat. Wenden Pnletzteli die P wir nun die Induktionsvoraussetzung an, so folgt i=1 2 = ni=12 2 li + 2 ln +1 = 1. EinPunvollständiger Code lässt sich zu einem vollständigen verkürzen. Damit folgt sofort ni=1 2 li 1 für jeden Code, wobei das Gleichheitszeichen nur für vollständige gilt. b) Wir wenden wieder Induktion nach n an. Für n = 2 ist die Sache Sei Pntrivial. l i n 3.PWir können wieder annehmen, dass l1 l2 ln gilt. Wegen i=1 2 1 folgt ni=11 2 li < 1. Per Induktionsvoraussetzung existiert ein Code mit Wortlängen l1 ; : : : ; ln 1 , der jedoch nach a) nicht vollständig ist. Der zugehörige Baum hat also einen Knoten , der kein Codewort ist, sodass entweder 0 oder 1 keine Knoten sind. Da ln mindestens so gross wie die anderen Längen sind, ergibt sich, dass wir den Baum mit einem neuen Blatt ergänzen können, das als Prä…x hat und das die Länge ln hat. Wir benötigen noch das folgende elementare analytische Ergebnis: Lemma 7.12 P Für P alle i 2 f1; : : : ; ng seien si und ri positive reelle Zahlen mit ni=1 si gilt ni=1 si log2 (si =ri ) 0. Pn i=1 ri . Dann Beweis. Es gilt log x x 1 für alle x > 0, wobei log den Logarithmus zur Basis e bezeichnet. Somit folgt n n n n X X X ri X ri si log si 1 = ri si 0; si si i=1 i=1 i=1 114 i=1 P also ni=1 si log(si =ri ) 0. Die log2 -Funktion ist proportional zur log-Funktion. Damit ist Lemma gezeigt. Beweis von Satz 7.10. H(p) H0 (p): Es seien l1 ; : : : ; ln die Wortlängen des Hu¤man-Codes für p = Pn li = 1 = (p ; : : : ; p ). Da dieser vollständig ist, folgt nach Proposition 7.11 2 1 n i=1 P Pn Pn Pn n li ) = i=1 pi . Nach Lemma 7.12 ist dann i=1 pi log2 (pi =2 i=1 pi log2 pi + i=1 li pi 0. Das bedeutet, dass E(j j) H(p) gilt. H0 (p) < H(p) + 1: Zu vorgegebenen pi können wir natürliche liPwählen mit Pn Zahlen n l i log2 pi li < log2 pi + 1. Aus der ersten Ungleichung folgt i=1 2 i=1 pi = 1. Nach Proposition 7.11 existiert ein Code mit diesen l als Wortlängen. Wegen der zweiten i P Pn Ungleichung für die li folgt ni=1 pi lP < p log p + 1. Der optimale Code hat i 2 i i=1 i n jedoch höchstens die mittlere Länge i=1 pi li . Bemerkung 7.13 Der letzte Beweisteil 7.10 deutet darauf hin, dass bei einem optimalen Code die Länge des i-ten Codewortes ungefähr gleich log2 pi sein wird. Es ist klar, dass die wahre Entropie H0 in einigen Situation etwas unbefriedigend ist. Am deutlichsten sieht man das bei einem Experiment mit zwei möglichen Ausgängen, die mit den Wahrscheinlichkeiten p1 und p2 = 1 p1 auftreten, denn dann gilt H0 (p1 ; 1 p1 ) = 1 für jedes p1 2 (0; 1). Diese Sachlage ändert sich jedoch, wenn wir unabhängige Repetitionen des gleichen Zufallsexperimentes ( ; p) betrachten. Nach Kapitel 2 ist der geeignete W.-Raum für eine k-fache Repetition der Produktraum ( k ; pk ), mit pk (! 1 ; : : : ; ! k ) = p(! 1 ) : : : p(! k ) für (! 1 ; : : : ; ! k ) 2 k . Es ist klar, wie aus einer Fragestrategie (d.h. einem Code) für p eine für pk gewonnen werden kann: Man fragt zunächst nach dem Ausgang des ersten Experimentes, dann nach dem zweiten etc. bis nach dem k-ten. Die gesamte Anzahl der benötigten Fragen ergibt sich als Summe der benötigten Fragen für die einzelnen Experimente; somit summieren sich auch die Erwartungswerte. Ist ein optimaler Code für p, so ist der optimale Code für pk natürlich mindestens so gut wie dieser “Repetitionscode”, der die mittlere Länge kE(j j) hat. Somit folgt: H0 (pk ) kH0 (p): Es zeigt sich jedoch, dass die oben beschriebene k-fache Repetition der optimalen Fragestrategie für p im allgemeinen nicht die optimale Fragestrategie für pk ist. Dazu ein Beispiel: Beispiel 7.14 Sei (p1 ; p2 ) = (3=4; 1=4). Dann ist H0 (p) = 1. Der Hu¤man-Algorithmus für p2 wird durch das folgende Schema gegeben: 9 9 9 3 4 7 ; 3 3 1 115 wobei die einzelnen Zahlen mit 1=16 zu multiplizieren sind. Die mittlere Länge des zugehörigen Hu¤man-Codes ist also 27=16, was deutlich kleiner als 2 ist. Satz 7.15 Sei p = (p1 ; : : : ; pn ) ein Wahrscheinlichkeitsvektor. Dann gilt 1 H0 (pk ) = H(p): k!1 k lim Beweis. Einsetzen in die De…nition (7.1) ergibt H(pk ) = kH(p). Aus Satz 7.10 folgt dann H(p) H0 (pk )=k < H(p) + 1=k, woraus sich der Satz ergibt. Die ideelle Entropie H(p) ist also die pro Versuch benötigte mittlere Anzahl von Fragen bei vielen unabhängigen Repetitionen des Versuchs. In der Regel liegt H0 (pk )=k bereits für kleine k sehr nahe an der ideellen Entropie H(p). Die ideelle Entropie H hat einige interessante Eigenschaften. Zu vorgegebenem n 2 N ist sie de…niert auf der Menge von Wahrscheinlichkeitsvektoren 4n = (p1 ; : : : ; pn ) 2 Rn p1 0; : : : ; pn 0; Xn j=1 pj = 1 : Als Durchschnitt von n Halbräumen und einer Hyperebene ist 4n eine konvexe Teilmenge des Rn . Benutzt man die Konvention 0 log2 0 = 0, so wird durch (7.1) eine stetige Funktion H : 4n ! [0; 1) de…niert. Der Beweis des folgenden Satzes sei dem Leser überlassen, für Teil (b) ist Lemma 7.12 hilfreich: Satz 7.16 1. Die Funktion H ist streng konkav auf 4n , das heisst für 2 (0; 1) und p; p0 2 4n mit p 6= p0 , gilt H( p + (1 )p0 ) > H(p) + (1 )H(p0 ). 2. Für alle p 2 4n gilt H(p) 7.2 H(1=n; : : : ; 1=n). Kanalcodierung, der Satz von Shannon Ein Übertragungssystem (ein sogenannter Kanal) übertrage Binärzeichen, die in grossen Mengen anfallen. Das Übertragungssystem kann auch ein Speicher sein, in den die Zeichen erst eingegeben und später wieder abgerufen werden, wie eine CD oder ein Speicherchip eines Computers.. Wir haben somit ein System, das schematisch wie folgt aussieht: Quelle ! Kanal ! Empfänger Kein derartiges Übertragungssystem arbeitet absolut zuverlässig. Man sagt, der Kanal sei verrauscht. Das bedeutet, dass ein eingegebenes Binärzeichen ab und zu falsch aus dem Kanal herauskommt. Bei der Nachrichtenübermittlung verursachen z.B. die thermischen Bewegungen in den Sender-, Empfangs- und Verstärkeranlagen solche Fehler. Auch im Computerbau treten diese Probleme auf: Es ist z.B. technisch nicht zu vermeiden, dass die Bauteile geringe Spuren radioaktiver Substanzen enthalten, z.B. Uran. Derartige Atomkerne 116 zerfallen rein zufällig und strahlen gewisse Partikel aus. Einer der Zerfallstypen ist der sogennante -Zerfall, bei dem ein Heliumkern entsteht. Durchquert dieser Kern einen Speicherplatz, so kann dieser gelöscht werden. Dies geschieht zwar für einen einzigen Platz im Durchschnitt erst nach Millionen von Jahren; in hochintegrierten Speicherchips verursachen diese Zerfälle jedoch Probleme. Eine CD, zumindest wenn sie mit niedrigen Kosten hergestellt wird, ist auch niemals zu 100 Prozent zuverlässig. Falls Sie eine CD gegen das Licht halten, so erkennen Sie typischerweise kleine Löcher in der Schicht. Ausserdem entstehen schon nach kurzer Zeit Kratzer. Natürlich gibt es technische Möglichkeiten, solche Fehlerquellen auf ein erträgliches Mass zu drücken: Sendeanlagen können mit mehr Leistung arbeiten, es können Zwischenverstärker eingebaut werden, Speicherplätze können so gross dimensioniert werden, dass der Durchgang eines -Teilchens den Platz nicht mehr löscht etc. Oft erweist es sich jedoch als günstiger, auf “mathematischem Wege”das Rauschen zu unterdrücken. Dies geschieht einfach dadurch, dass mehr Zeichen durch den Kanal geschickt werden, als für die Nachricht notwendig wären. Die zusätzlichen Zeichen dienen zur Absicherung gegen Fehler. Man kann das jedoch mehr oder weniger geschickt machen. Wir wollen zunächst das wahrscheinlichkeitstheoretische Modell für den Kanal beschreiben. Dabei begnügen wir uns mit der Diskussion eines Spezialfalles. Unser Kanal soll nur die Zeichen 0 und 1 übertragen. Man sagt, der Kanal sei binär. Bei der Übertragung von 0 soll mit Wahrscheinlichkeit p(0) ein Fehler auftreten, das heisst, statt der 0 erscheint am Ausgang eine 1. Ferner sei p(1) die Wahrscheinlichkeit für einen Übertragungsfehler beim Eingangssignal 1. Die Übertragung der einzelnen Zeichen geschehe unabhängig. Wird z.B. 001101 eingegeben, so erscheint mit Wahrscheinlichkeit (1 p(0))p(0)(1 p(1))(1 p(1))(1 p(0))p(1) die Folge 011100 am Ausgang. Wir setzen nun weiter voraus, dass p(0) = p(1) = p < 1=2 gilt. In diesem Fall spricht man von einem binären symmetrischen Kanal mit Fehlerwahrscheinlichkeit p, wofür wir die englische Abkürzung BSC(p) verwenden werden. Symmetrische Kanäle sind mathematisch einfacher zu diskutieren als asymmetrische. Es gibt ein sehr simples Verfahren der Rauschunterdrückung: Man sendet einfach jedes Zeichen mehrmals; z.B. dreimal. Statt 0 sendet man 000 und statt 1 einfach 111. Die Nachricht wird dadurch dreimal so lang, und wenn der Kanal eine feste Anzahl von Bits pro Zeiteinheit übertragen kann, so sinkt die Rate der Zeichen, die eigentlich interessieren und die auf diese Weise übertragen werden können, auf ein Drittel. Für einen Computerspeicher bedeutet diese Repetition, dass für jedes Zeichen drei Plätze vorzusehen sind oder für eine CD, dass sie statt 70 Minuten Musik nur noch 23 abspeichert. Am Ausgang des Kanals erscheint dann eine Zeichenfolge, bei der die Dreierblöcke wegen der möglichen Fehler nicht mehr aus dem gleichen Zeichen bestehen müssen. Man muss einen derartigen Dreierblock, wie man sagt, dekodieren. Da die Fehlerwahrscheinlichkeit p < 1=2 ist, wird man vernünftigerweise eine “Mehrheitsentscheidung” herbeiführen, das heisst 000; 001; 010; 100 werden als 0 und 111, 110; 101; 011 als 1 decodiert. Was leistet das nun? Welche Fehlerrate hat das gesamte Übertragungssystem? Wird 0 gesendet, so ist die Wahrscheinlichkeit für eine 1 am Schluss gleich der Wahr- 117 scheinlichkeit, dass 110; 101; 011 oder 111 aus dem Kanal kommt, das heisst 3p2 (1 p) + p3 = 3p2 2p3 . Dies ist kleiner als p für alle p < 1=2 und sehr viel kleiner, wenn p sehr klein ist. Ist etwa p = 10 2 , so ist 3p2 2p3 = 2; 98 10 4 . Hier der Graph dieser Funktion für 0 p 0:1 : Die Zuverlässigkeit ist also wesentlich verbessert worden. Wir können das natürlich noch weiter treiben und jedes Zeichen statt dreimal fünfmal repetieren oder siebenmal etc. Die Zuverlässigkeit steigt damit weiter. Der Preis, den man für die erhöhte Zuverlässigkeit bezahlt, ist jedoch sehr gross. Niemand ist bereit, für ein abzuspeicherndes Binärzeichen drei Speicherplätze zu reservieren. Derartige Repetitionscodes werden in der Praxis nicht verwendet, vor allem weil es wesentlich cleverere Methoden gibt, die die gleiche Qualitätsverbesserung erzielen. Es ist jedoch klar, dass man nicht anders vorgehen kann, wenn man alle Binärzeichen getrennt kodiert. Die Idee ist, nicht die Zeichen getrennt zu kodieren, sondern ganze Blöcke. Es mag auf den ersten Blick etwas erstaunen, dass man damit wesentlich besser fährt. Wir bezeichnen mit Bk := f0; 1gk die Menge der Binärblöcke der Länge k. De…nition 7.17 Es seien k; n 2 N mit n > k. 1. Ein (n; k)-Code ist eine injektive Abbildung von Bk nach Bn . Die Bilder (x) für x 2 Bk bezeichnen wir als die Codewörter. 2. Eine Decodierung zu einem (n; k)-Code nach Bk mit ( (x)) = x für alle x 2 Bk . ist eine surjektive Abbildung von Bn Im Gegensatz zu Kapitel ?? haben hier alle Codewörter dieselbe Länge. Das ganze Übertragungsschema sieht wie folgt aus: Quelle:Bk Kodierung ! Bn Kanal Bn Dekodierung ! Bk Zum Unterteilen der Binärfolge in Blöcke der Länge k muss die Länge der ursprünglichen Folge ein Vielfaches von k sein. In der Praxis ist dies keine Einschränkung, denn in der Regel werden sehr viele Binärzeichen übertragen; daher ist es belanglos, wenn die Sequenz - etwa mit Nullen - noch verlängert wird, damit sie dieser Forderung genügt. Den Quotienten k=n bezeichnet man auch als die Übertragungsrate. Es ist klar, dass bei unzuverlässiger Übertragung n sehr viel grösser als k sein wird. Die Mariner Mars-Sonden der NASA zum Beispiel haben bis 1977 einen (32; 6)-Code verwendet. (Später, bis vor ein paar Jahren, sogenannte Konvolutionscodes, die nicht ganz in das obige System passen.) Speicherplätze sind sehr zuverlässig. In Rechnern werden häu…g (64; 57)-Codes verwendet, Modi…kationen des sogenannten Hamming-Codes. CD’s verwenden Codes, die besonders gut ganze Cluster von Fehlern korrigieren können (sogenannte Reed-Solomon-Codes). Es wird sich herausstellen, dass man umso besser fährt, je länger die Blöcke sind, die man kodiert. Anderseits wird die Länge jedoch dadurch beschränkt, dass die Dekodierung für lange Blockcodes typischerweise aufwendig wird. In der Praxis verwendet man selten Blockcodes mit k 100: 118 Für die Diskussion der Eigenschaften der Codes ist die Abbildung besonders relevant; wichtig ist nur, wie die Menge C der Codewörter, C := f (x) : x 2 Bk g eigentlich nicht Bn in Bn liegt. Eine Dekodierung können wir dann einfach als eine Abbildung Bn ! C au¤assen, die die Elemente von C fest lässt. Eine in der Praxis wichtige spezielle Klasse von Codes sind die sogenannten linearen Codes. Hier betrachten man f0; 1g als den Körper Z2 := Z=2Z und ist einfach eine injektive lineare Abbildung Bk := Zk2 ! Bn := Zn2 : Die Menge C der Codewörter in Bn ist somit ein linearer Unterraum von Bn : Bekanntlich lässt sich ein linearer Unterraum auch als Lösungsmenge eines homogenen Gleichungssystems beschreiben, d.h. es gibt eine reguläre n (n k)-Matrix P mit C = fy 2 Bn : P y = 0g : Wir geben ein einfaches aber wichtiges Beispiel für einen derartigen linearen Code: Beispiele 7.18 1. Als Beispiel betrachten wir den (7; 4)-Hamming eine 7 3-Matrix. Ihre Spalten sind genau die von B3 : 0 1 1 1 0 1 0 @ 1 1 0 1 0 1 P = 1 0 1 1 0 0 Code. Die Matrix P ist dann Null verschiedenen Vektoren in 1 0 0 A: 1 Die Matrix ist o¤ensichtlich regulär und beschreibt somit die Codewörter eines (7; 4)-Codes. Die Eigenschaften dieses Codes lassen sich leicht bestimmen. Ist nämlich y 2 B7 kein Codewort, so ist s := P y 6= 0: In diesem Fall ist jedoch s gleich einem der Spalten von P; sagen wir die r-te Spalte. Ändert man in y die r-te Komponente, so erhält man eine Vektor y 0 2 B7 ; der o¤enbar die Eigenschaft hat, dass P y 0 = 0 gilt und somit ein Codewort ist. Unser Code hat somit die folgende Eigenschaft: Zu jedem Vektor y 2 B7 , das kein Codewort ist, gibt es genau ein Codewort y 0 ; das sich von y an genau einer Stelle unterscheidet. Eine naheliegende Dekordierung besteht dann einfach darin, einem y 2 B7 das kein Codewort ist, dieses Codewort y 0 zuzuordnen. Man überlegt sich dann ganz einfach, dass dieser Code genau die 1-Bit-Fehler bei der Übertragung der Siebenerblöcke korrigiert. 2. Das obige Beispiel lässt sich leicht verallgemeinern. Wir wählen für P eine Matrix mit k Zeilen, wobei die Spalten genau die von 0 verschiedenen Vektoren in Bk sind. Davon gibt es o¤ensichtlich 2k 1: P ist also eine 2k 1 k-Matrix. Der k zugehörige Unterraum von B2k 1 hat o¤enbar Dimension 2 1 k: Durch P wird also ein 2k 1; 2k 1 k -Code beschrieben. Diese Codes nennt man Hamming Codes. Sie korrigieren o¤enbar genau die 1-Bit-Fehler in den 2k 1 -Blöcken. Für k = 6 erhält man z.B. einen (63; 57)-Code. (In Computern verwendet man oft einen (64; 57)-Code, der eine leichte Modi…kation dieses Hamming-Codes ist. Dieser Code 119 korrigiert nicht nur die 1-Bit-Fehler, sondern er entdeckt das Vorhandensein von 2-Bit-Fehlern, ohne sie allerdings zuverlässig korrigieren zu können.) Die Theorie linearer Codes ist ein sehr weites Feld. Die auf den CDs und DVDs verwendet Codes, die sogenannten Reed-Solomon-Codes, sind ebenfalls lineare Codes. Wir gehen jedoch nicht weiter auf diese Theorie ein, sondern wollen ein theoretisches Resultat in einem Spezialfall herleiten, den berühmten Satz von Shannon. Er besagt, dass sich bei Verwendung sehr langer Blockcodes die Fehlerwahrscheinlichkeit unter jeden Wert drücken lässt (das geht natürlich auch mit den primitiven Repetitionscodes), wobei aber n=k eine Obergrenze, die von p abhängt, nicht überschreiten muss! Etwas salopp und ungenau ausgedrückt besagt der Satz, dass sich Rauschen in einem Kanal mit einer nur von p abhängigen Übertragungsrate vollständig eliminieren lässt. Das ist auf den ersten Blick verblü¤end. Shannon hat die grundlegende Arbeit zu diesem Thema im Jahre 1948 publiziert. Claude Shannon (1916-2001) Um den Satz zu formulieren, legen wir zunächst zu jedem Code eine Dekodierung fest. Wir tun das Naheliegendste: Zu y 2 Bn wählen wir (y) 2 Bk so, dass ( (y)) (dies ist ein Element aus Bn ) sich von y an möglichst wenigen Stellen unterscheidet. Gibt es mehrere derartige Möglichkeiten zur Wahl von (y), so legen wir uns auf eine beliebige fest. Man nennt diese Dekodierung die Maximum-Likelihood-Dekodierung oder auch die ML-Dekodierung.10 10 Es ist jedoch klar, dass die ML-Dekodierung in der Praxis nicht durchgeführt werden kann, jedenfalls nicht ohne Ausnützung eventueller zusätzlicher Strukturen des Codes: Man müsste für jeden empfangen Block der Länge n alle 2k Codewörter durchprobieren um dasjenige zu …nden, das dem empfangenen Block am nächsten liegt. Eines der Hauptprobleme der Kodierungstheorie, auf das wir hier nicht eingehen können, ist die e¢ ziente Dekodierung. Aus diesem Grund kann der Satz von Shannon nicht direkt zur Konstrukition von praktikablen Codes verwendet werden. 120 Nun zur genauen Formulierung des Satzes von Shannon. Es seien x1 ; : : : ; x2k die 2k Elemente von Bk , und sei ein (n; k)-Code. Für jedes i 2 f1; 2; : : : ; 2k g bezeichnen wir mit i ( ; p) die Wahrscheinlichkeit, dass beim Senden des Codeworts (xi ) über einen BSC(p) und dem anschliessenden Decodieren (mit der gewählten ML-Decodierung) sich nicht wieder xi ergibt, also ein Fehler beim Übertragen des Wortes xi passiert. Treten alle 2k Elemente von Bk mit gleicher Wahrscheinlichkeit auf, was wir annehmen wollen, so ist die Wahrscheinlichkeit für einen Fehler nach dem Satz über die totale Wahrscheinlichkeit gegeben durch 2k X k p( ) = 2 i ( ; p): i=1 Bemerkung. Die oben angegebene Regel legt die ML-Dekodierung dann nicht eindeutig fest, wenn Wörter y in Bn existieren, für die es mehrere Codewörter gibt, die sich von y an einer minimalen Anzahl von Stellen unterscheiden. Aufgrund der Symmetrie des Kanals hat p ( ) jedoch für alle möglichen Festlegungen der ML-Dekodierung denselben Wert. Der Leser möge sich das selbst überlegen. Für die nachfolgende Diskussion spielt dieses Problem ohnehin keine Rolle. Für k; n 2 N mit n k sei P (n; k; p) := minf p ( ) j ist ein (n; k)-Code g die Fehlerwahrscheinlichkeit des besten (n; k)-Codes bei Verwendung eines BSC(p). Für einen BSC(p) heisst c(p) := 1 + p log2 p + (1 p) log2 (1 p) die Kapazität des Kanals. Die Bedeutung dieser Kenngrösse ergibt sich aus dem nachfolgenden Satz von Shannon. Man beachte, dass 0 < c(p) < 1 für alle p 2 (0; 1=2) gilt. Satz 7.19 (Shannon 1948) Sei a < c(p). Dann gilt inf P (n; k; p) = 0: k;n2N k=n a Bemerkung 7.20 a) Anders ausgedrückt besagt der Satz von Shannon, dass es zu jedem " > 0 und jedem a 0, das kleiner als die Kapazität des verwendeten binären symmetrischen Kanals ist, einen (n; k)-Code gibt, dessen Übertragungsrate k=n grösser oder gleich der vorgegebenen Rate a und dessen Fehlerwahrscheinlichkeit p ( ) kleiner als " ist. b) Das In…mum im obigen Satz ist ein Limes für k; n ! 1. Der Satz wird meist in dieser Weise formuliert. Die Codes, die das leisten, was der Satz verspricht, müssen also sehr lang gewählt werden. Tatsächlich gilt für jedes feste n und jedes p 2 (0; 1=2) min P (n; k; p) > 0; 1 k n denn für jedes feste k 2 f1; : : : ; ng gibt es nur endlich viele (n; k)-Codes, und jeder feste Code hat für p 2 (0; 1=2) selbstverständlich eine positive Fehlerwahrscheinlichkeit p ( ). Das In…mum im Satz ist also kein Minimum, denn es gibt natürlich keinen Code mit der Fehlerwahrscheinlichkeit Null. 121 c) Die Kapazität kann auch für nichtsymmetrische Kanäle de…niert werden. Ihre Berechnung ist jedoch schwieriger. d) Die Kapazität eines binären symmetrischen Kanals ist auch wirklich die grösstmögliche Übertragungsrate, mit der eine fehlerfreie Übertragung (im obigen asymptotischen Sinn) möglich ist. Genauer: Ist a > c(p), so gilt inf P (n; k; p) > 0: k;n2N k=n a Dieser Teil des Shannonschen Satzes wird hier nicht bewiesen. Die Tatsache, dass gute Codes lange Codes sein müssen, deutet natürlich auf die Schwierigkeit bei der Dekodierung hin. In der Praxis ist die Verwendung von Codes mit k = 30 oder 40 keine Seltenheit. Um in einem solchen Fall die ML-Dekodierung naiv zu implementieren, müsste man für jeden empfangenen Block die 230 oder 240 Codewörter durchprobieren und nach demjenigen suchen, das den kleinsten Abstand zum empfangenen Block hat. Es ist klar, dass das in der Praxis nicht machbar ist. Ein Rechenbeispiel zum Satz von Shannon: Sei p = 0:01. Dann ist c(p) 0:92; das Inverse davon ungefähr gleich 1:09. Durch Verlängerung der Länge der Nachricht um etwas mehr als 9 % kann man die Fehlerwahrscheinlichkeit also unter jede Grenze drücken. Beweis von Satz 7.19. Für x, y 2 Bn bezeichnen wir mit d(x; y) den sogenannten Hamming-Abstand zwischen x = ( 1 ; : : : ; n ) und y = ( 1 ; : : : ; n ), also d(x; y) = n X i=1 j i j; i was gleich der Anzahl der Komponenten ist, in denen sich x und y unterscheiden. Für r 2 N und x 2 Bn sei Br (x) die “Kugel” vom Radius r um x, also Br (x) = f y 2 Bn j d(x; y) r g: Ist M = 2k und sind x1 ; : : : ; xM 2 Bn die Codewörter eines (n; k)-Codes, so hat für jedes r 2 N jede ML-Dekodierung die folgende Eigenschaft: Liegt y 2 Bn in genau einem Br (xi ), so gilt (y) = xi . (7.3) Da sich Bk und die Menge der Codewörter bijektiv entsprechen, haben wir hierbei als eine Abbildung in die Menge der Codewörter aufgefasst. Wir wollen die simple Tatsache (7.3) kompliziert ausdrücken. Sei f : Bn Bn ! f0; 1g für r 2 N de…niert durch ( 1 falls d(x; y) r f (x; y) = 0 falls d(x; y) > r: Für jedes i 2 f1; : : : ; M g sei gi : Bn ! N0 de…niert durch gi (y) = 1 f (xi ; y) + M X j=1 j6=i 122 f (xj ; y): Also ist gi (y) = 0 genau dann, wenn d(xi ; y) r und d(xj ; y) > r für alle j 6= i gelten. Demzufolge lässt sich (7.21) wie folgt ausdrücken: gi (y) = 0 ) (y) = xi : (7.4) Wir betrachten ein beliebiges Codewort xi und übertragen es über einen BSC(p). Dies ist nichts anderes als ein Bernoulli-Experiment, denn für jedes l 2 f1; : : : ; ng wird die l-te Komponente von xi mit Wahrscheinlichkeit p falsch übertragen und mit Wahrscheinlichkeit q = 1 p richtig. Die Wahrscheinlichkeit p(xi ; y) dafür, dass das Wort y 2 Bn aus dem Kanal kommt, ist gleich ph q n h , wenn h der Hamming-Abstand zwischen xi und y ist. Sei i die Wahrscheinlichkeit dafür, dass, wenn xi gesendet wird, ein anderes Codewort aus der Dekodierung kommt. Nach (7.4) gilt i X p(xi ; y)gi (y) = y2Bn X p(xi ; y)(1 f (xi ; y)) + M X X p(xi ; y)f (xj ; y): y2Bn j=1 j6=i y2Bn Somit folgt für die Fehlerwahrscheinlichkeit eines beliebigen (n; k)-Codes 0 1 M M X X X X 1 @ p(xi ; y)(1 f (xi ; y)) + p(xi ; y)f (xj ; y)A : p( ) M i=1 y2Bn (7.5) y2Bn j=1; j6=i Nach diesen Vorbemerkungen kommen wir nun zum Kern des Arguments. Die Funktion f hängt von Radius r ab, den wir noch wählen können. Je grösser r ist, desto kleiner ist der erste Summand auf der rechten Seite von (7.5), aber desto grösser der zweite. Wir wählen zunächst r gerade gross genug, um den ersten Summanden zu kontrollieren, das heisst, zu beliebig vorgegebenem " > 0 wählen wir p r = b pn + 2np(1 p)="c; wobei bzc den ganzzahligen Anteil einer reellen Zahl z bezeichnet. Für jedes xi ist P f (xi ; y)) gleich der Wahrscheinlichkeit, dass mehr als r Komponeny2Bn p(xi ; y)(1 ten von xi fehlerhaft übertragen werden. Da die Anzahl der Fehler binomialverteilt mit Parametern n; p ist, folgt aus der Tschebysche¤-Ungleichung und der obigen Wahl von r, dass diese Wahrscheinlichkeit höchstens gleich "=2 ist. Demzufolge gilt nach dieser Festlegung von r M " 1 X X ( ) + p(xi ; y)f (xj ; y); (7.6) p 2 M y2Bn i;j=1 i6=j wobei die x1 ; : : : ; xM die Codewörter eines (n; k)-Codes sind. Wir haben bisher in keiner Weise die Wahl des Codes eingeschränkt. Die Abschätzung (7.6) gilt für jeden (n; k)-Code, wie ungeschickt er auch konstruiert sein mag. Wir wollen nun nachweisen, dass es (n; k)-Codes mit k=n a gibt, für die der zweite 123 Summand auf der rechten Seite von (7.5) kleiner als "=2 wird. Damit wäre dann der Satz von Shannon bewiesen. Es ist jedoch nicht leicht, solche Codes explizit zu konstruieren, für die diese Abschätzung gilt. Das Verfahren, mit dem man die Existenz guter Codes nachweist, ist indirekt und etwas eigenartig: Man mittelt über alle möglichen (n; k)Codes und zeigt, dass das arithmetische Mittel der p ( ) klein ist. Demzufolge muss es gute Codes geben. Die Menge der (n; k)-Codes ist die Menge der injektiven Abbildungen von Bk nach Bn . Für 2 bezeichnen wir mit C die Menge der Codewörter in Bn , also das Bild von Bk unter . Das arithmetische Mittel der p ( ) kann nach (7.6) wie folgt abgeschätzt werden: " 1 X X X 1 X + p(x; y)f (x0 ; y) p( ) j j 2 j jM 0 2 y2Bn x;x 2C x6=x0 2 = " 1 X + 2 j jM X X p(x; y)f (x0 ; y): y2Bn x;x0 2Bn 2 x6=x0 x;x0 2C Für beliebige feste x 6= x0 aus Bn enthält die Menge des Codes, die x und x0 als Codewörter enthalten M (M 1)(2n 2)(2n 3) (2n M +1) Elemente. Die gesamte Menge enthält j j = 2n (2n 1) (2n M + 1) Elemente. Eingesetzt in die obige Ungleichung erhalten wir 1 X " M 1 X X + n n p(x; y)f (x0 ; y) p( ) j j 2 2 (2 1) 0 y2Bn x;x 2Bn x6=x0 2 " M 1 + n n 2 2 (2 1) X y2Bn X x2Bn !0 p(x; y) @ X x0 2Bn 1 f (x0 ; y)A : (7.7) An dieser Stelle nutzen wir nun symmetrisch ist und demzufolge Paus, dass der Kanal P p(x; y) = p(y; x) gilt. Somit ist x2Bn p(x; y) = x2Bn p(y; x) = 1 für alle y 2 Bn . Der allerletzte Term in (7.7) zählt die Anzahl der x0 2 Bn , die sich von y in höchstens r Komponenten unterscheiden, also gilt X f (x0 ; y) = x0 2Bn r X n l l=0 für alle y 2 Bn ; was einfach 2n P (Sn r) ist, wobei Sn die Anzahl der Erfolge in einem gewöhnlichen Münzwurfexperiment der Länge n ist. Aus (7.7) erhalten wir also (M = Z k ): 1 X j j 2 p( ) " 2k + 2 2n 1 n 2 P (Sn 1 r) " + 2k P (Sn 2 r); (7.8) p wobei r = bpn + 2np(1 p)="c war. Der Wurzelausdruck braucht uns nun jedoch nicht weiter zu beschäftigen: Für jedes > 0 ist er n, sofern n gross genug ist, 124 n n0 ("; ; p). Nach der Abschätzung ganz am Schluss von Kapitel 3 ist für p + < 1=2 P (Sn n(p + )) exp( nI(p + )); wobei I(x) = x log x + (1 x) log(1 x) + log 2 war, der Logarithmus hier zur Basis e. Damit ist jedoch exp( nI(p + )) = 2 nc(p+ ) , einfach durch Umrechnung der Logarithmen zu unterschiedlichen Basen. Wir setzen k = dane an + 1, womit k=n a erfüllt ist. Damit ergibt sich für n n0 ("; ; p): 1 X j j p( " + 2 2n[a 2 ) 2 c(p+ )] : (7.9) Nach Voraussetzung ist a < c(p). Wegen der Stetigkeit von c( ) existiert also > 0 so dass a < c(p + ), das heisst a c(p + ) < 0. Somit können wir n …nden, so dass die rechte Seite von (7.9) " ist. Zusammenfassend: Wir haben also gezeigt, dass für jedes a < c(p) und jedes a > 0 natürliche Zahlen k, n existieren mit k=n a und 1 X j j p( ) "; 2 wobei die Menge der (n; k)-Codes ist. Somit muss auch mindestens ein (n; k)-Code existieren, für den p ( ) " gilt. Der Satz von Shannon ist damit bewiesen. Weiterführende Literatur: Ein sehr gutes Buch, sowohl zur Shannon-Theorie, wie über algebraische Kodierungstheorie ist: R. J. McEliece, The Theory of Information and Coding. Addison-Wesley 1977. Allerdings wird darin natürlich auf die neuesten Entwicklung nicht eingegangen. Die ersten wirklich (halbwegs) guten Codes mit schnellen Dekodierungsalgorithmen entstammten Ideen der Algebraischen Geometrie (die sogenannten Goppa-Codes). Ein guter einführender Text dazu ist: J. H. van Lint & G. van der Geer: Introduction to Coding Theory and Algebraic Geometry. Birkhäuser Verlag 1988. In der Praxis werden oft Codes verwendet, die spezielle Eigenschaften haben. So werden Codes, die sogenannten Reed-Solomon-Codes, die auf CDs und DVDs implementiert sind, besonders gut mit Clustern von Fehlern fertig, die etwa durch Kratzer auf den Scheiben sehr häu…g sind. Die Codes aus der Algebraischen Geometrie sind durch die vor etwa 5-10 Jahren gefundenen Tubo-Codes und LDPC (“low density parity check”)- (oder Gallagher-) Codes weitgehend überholt worden.11 Mit ihnen sind erstmals praktisch fehlerfreie Übertragungen mit eine Kapazität nahe an der Shannon-Grenze möglich, und zwar mit Codes, die rasche Dekodierungsalgorithmen haben. Die Entdeckung der Tubo- und der LDPCCodes ist sicher die spektakulärste Entwicklung der Kodierungstheorie seit Shannon. Einschränkend muss man allerdings sagen, dass diese Eigenschaften “nur”experimentell nachgewiesen wurden, d.h. die Codes und die Dekodierungsalgorithmen funktionieren 11 Die LDPC-Codes wurden schon 1963 von Gallagher entdeckt; waren jedoch lange Zeit vergessen. Erst Ende der 90er-Jahre wurden sie durch Luby wiederentdeckt und ihre hervorragenden Eigenschaften gefunden. 125 zwar in der Praxis hervorragend; ein mathematischer Beweis dafür ist jedoch nicht bekannt. Einige (mathematisch nicht rigorose) theoretische Überlegungen dazu sind mit Hilfe von Methoden aus der Theoretischen Physik durchgeführt worden.12 12 Siehe H. Nishimori: Statistical Physics of Spin Glasses and Information Processing. Oxford Science Publications 2001. 126 8 Statistische Probleme Grundlage aller statistischen Probleme sind probabilistische Modelle mit Parametern, die dem “Statistiker” nicht oder nicht vollständig bekannt sind. Aus Beobachtungsdaten sollen dann Rückschlüsse auf diese Parameter gezogen werden, die den Grad der Unsicherheit einschränken. Das Grundproblem ist daher sehr ähnlich zum Problem der “Fragestrategien” des letzten Kapitels, obwohl die Gesichtspunkte etwas anders liegen. Ein einfaches Beispiel ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p; wobei p nicht zum vornherein bekannt ist. Jedermann ist schon solchen Problemen begegnet, z.B. ist sicher schon jeder beim Würfelspielen nach eine Pechsträhne auf den Gedanken gekommen, ob denn die Wahrscheinlichkeiten für die einzelnen Augenzahlen wirklich dieselben seien. Es ist naheliegend, solche Zweifel anhand von (langen) Versuchsreihen zu testen. Man unterscheidet zwei Typen von statistischen Problemen, die miteinander zusammenhängen: Einerseits gibt es die Testprobleme. Hier geht es darum, eine Hypothese anhand von Daten zu überprüfen. Eine typische Hypothese wäre etwa, dass der Würfel o.k. ist, die der sogenannten Alternative gegenüber gestellt wird, die besagen würde, dass der Würfel gezinkt ist. Ein anderes Beispiel: Man interessiert sich dafür, ob ein neues Medikament gegenüber älteren wie man sagt signi…kant besser ist. Man formuliert dann eine sogenannte 0-Hypothese, die besagt, dass kein Unterschied besteht, bzw. das neue Medikament höchstens so gut wie das alte ist. Die Hypothese wird dann einem statistischen Test aufgrund von Daten unterworfen. Je nach Ausgang des Tests wird man die 0-Hypothese verwerfen und die Alternative akzeptieren, nämlich dass das neue Medikament besser ist. Man sagt dann auch, dass die Daten signi…kant nicht mit der 0-Hypothese in Einklang zu bringen sind. Der zweite Typus von Problemen (die wir jedoch zuerst behandeln) sind Schätzprobleme. Hier geht es darum, Parameter in einem Modell zu schätzen. Ein typisches Beispiel ist die Schätzung des Parameters p in einem Bernoulliexperiment. Das Kapitel gliedert sich in drei Unterabschnitte. In einem ersten diskutieren wir Schätzprobleme, in einem zweiten Testprobleme, und in einem dritten kommen wir auf Schätzprobleme zurück, nämlich auf sogenannte Kon…denzschätzungen. Noch etwas zur Notation: In Abweichung von früheren Gep‡ogenheiten bezeichnen wir die Wahrscheinlichkeiten der Elementarereignisse mit P (!) ; hauptsächlich um P von Parametern, wie p des Bernoulli-Experiments, abzugrenzen. Die meisten Wahrscheinlichkeiten in diesem Kapitel werden noch von Parametern abhängen. wir schreiben dann den Parameter als Index, z.B. Pp für das Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p. n, die Länge des Experiments, ist natürlich auch ein Parameter. Wenn wir ihn betonen (n) wollen schreiben wir Pp : 8.1 Einfache Schätzprobleme Schätzprobleme bestehen einfach darin, dass gewisse Parameter eines Modells aufgrund von erhobenen Daten geschätzt werden sollen. 127 Betrachten wir etwa ein Bernoulli-Experiment mit (unbekanntem) Parameter p: Wir gehen davon aus, dass wir das Zufallsexperiment, wie im Bernoulli-Experiment beschrieben, n-mal unabhängig wiederholen. Bezeichnet Xn die Anzahl der Erfolge, so wissen wir, dass Xn binomialverteilt mit Parametern p und n ist. Wir setzen voraus, dass wir n kennen. Eine naheliegende Schätzung von p ist Xn =n: Es ist üblich, eine derartige Schätzung eines Parameters mit einem “Dach” über dem zu schätzenden Parameter zu bezeichnen; wir schreiben also Xn p^n := : (8.1) n Dies ist natürlich eine Zufallsgrösse. Nach der erfolgten “Messung”, d.h. der Realisierung des Zufallsexperimentes, ist p^n natürlich einfach eine Zahl. Manchmal macht man die Unterscheidung nicht sehr sorgfältig. Es ist jedoch klar, dass wir uns hauptsächlich für die probabilistischen Aspekte interessieren, d.h. dass wir Eigenschaften von p^n als Zufallsgrösse diskutieren. Allerdings haben wir uns mit der Schwierigkeit auseinanderzusetzen, dass die Verteilung dieser Zufallsgrösse vom Parameter p abhängt, den wir nicht kennen. Es ist wichtig, einige grundlegende Annahmen festzuhalten, über deren Berechtigung viel Tinte verspritzt worden ist: Wir nehmen in diesem Beispiel (und hier fast durchgehend) keinesfalls an, dass p selbst zufällig ist. Im Gegenteil betrachten wir p als eine feste Zahl, die bloss dem Statistiker (zunächst) unbekannt ist. Es hat daher keinen Sinn, nach der Wahrscheinlichkeit zu fragen, mit der p = 1=6 ist. Es ist jedoch sinnvoll zu fragen, mit welcher Wahrscheinlichkeit p^n sich um weniger als 0:1 von p unterscheidet.13 Zunächst einige theoretische Konzepte. Wir betrachten einen Wahrscheinlichkeitsraum ( ; F; P ) : Dabei sind die P Wahrscheinlichkeitsmasse auf F, die noch von einem Parameter abhängen, der “unbekannt”ist. Für die meisten Beispiele, die wir diskutieren, nehmen wir an, dass abzählbar ist, sodass wir den allgemeinen masstheoretischen Rahmen nicht brauchen. Der Parameter kann im Prinzip ziemlich beliebig sein; wir nehmen jedoch an, dass = ( 1 ; : : : ; m ) 2 Rm gilt, meist sogar einfach 2 R: In letzterem Fall nennt man den Parameter eindimensional. Oft tritt jedoch die Situation ein, dass nicht jeder mögliche Vektor in Rm (oder im eindimensionalen Fall jede reelle Zahl) tatsächlich ein Parameter ist. Auch im Bernoulli-Experiment ist ja der Parameter p auf das Intervall [0; 1] eingeschränkt. Die Menge aller Parameterwerte, die vorkommen können, bezeichnen wir mit Rm : Für jeden möglichen Parameter 2 ist also ein Wahrscheinlichkeitsmass P auf ( ; F) de…niert. Erwartungswerte bezüglich P schreiben wir als E : Es werden in der statistischen Literatur oft auch unendlichdimensionale Parametermengen diskutiert. Im Jargon der Statistik nennt man solche Situationen etwas 13 Die “philosphische” Schwierigkeit mit diesem Ansatz ist, dass p als eine Grösse betrachtet wird, die dem Würfel quasi als physikalische Konstante angeheftet ist, wie etwa die Masse oder die chemische Zusammensetzung und wir p nur noch messen müssen. Bei einem Würfel mag diese Vorstellung noch gut angehen; in anderen (wichtigeren) Fällen ist dieser Ansatz natürlich fragwürdig und ist unter Beschuss gekommen (z.B. von de Finetti). Im Gegensatz dazu geht die sogenannte Bayessche Statistik von einer Zufallsverteilung der Parameter aus, die durch “subjektive” Einschätzungen des Statistikers zustande kommt. Wir können auf diese Auseinandersetzungen hier jedoch nicht eingehen und lassen die Bayessche Statistik hier ausser Betracht. 128 missverständlich nichtparametrisch. Wir gehen jedoch hier nicht auf solche Situationen ein. De…nition 8.1 Ein Schätzer ist eine Zufallsvektor ^ = ^1 ; : : : ; ^m : ! Rm : Der Schätzer heisst erwartungstreu (engl.: unbiased), wenn E ^i = i für i = 1; : : : ; m und für alle 2 gilt. Bemerkung 8.2 Manchmal interessiert man sich auch nur für eine Funktion des Parameters, d.h. es ist eine Abbildung g : ! R gegeben, und man möchte einen Schätzer für g ( ) gewinnen. Wir gehen darauf hier jedoch nicht ein. O¤ensichtlich ist unser oben de…nierter Schätzer (8.1) für den Parameter p des Bernoulli-Experimentes erwartungstreu, denn es gilt Ep p^n = Ep X n np = = p: n n Erwartungstreue ist o¤ensichtlich eine “wünschbare”Eigenschaft eines Schätzers, es ist aber klar, dass sie nicht das einzige Kriterium eines guten Schätzers sein kann. Viele gute Schätzer sind übrigens auch gar nicht erwartungstreu. (Man kann leicht Beispiele angeben, bei denen die Einschränkung auf erwartungstreue Schätzer nur zu ziemlich unsinnigen Schätzern führt). Ein wichtiges Konzept ist die sogenannte Konsistenz. Man kann davon jedoch nur sprechen, wenn eine Folge von Schätzern betrachtet wird. In den meisten Situationen hängt der Wahrscheinlichkeitsraum von einem Parameter n 2 N ab, der die “Stichprobengrösse” beschreibt, genau wie etwa im Bernoulli-Experiment. Es (n) liegen deshalb Wahrscheinlichkeitsräume vor, wobei die Parametermenge n; P 2 sich jedoch nicht mit n ändert. Wir betrachten dann Folgen von Schätzern ^n = ^n;1 ; : : : ; ^n;m : Natürlich wird man von vernünftigen Schätzverfahren erwarten, dass bei “genügend langen Messreihen”der gesuchte Parameter durch den Schätzer bestimmt ist. De…nition 8.3 Eine Folge von Schätzern heisst (schwach) konsistent, wenn für jedes " > 0; für jedes i 2 f1; : : : ; mg und für jeden Parameter 2 lim P n!1 ^n;i i " =0 gilt. Manchmal sagt man auch einfach, der Schätzer sei konsistent. Konsistenz ist aber immer eine Eigenschaft von Folgen von Schätzern. Der Zusatz “schwach” in der obigen De…nition, den wir jedoch nicht weiter verwenden werden, bezieht sich auf die Form der Limesaussage. Für einen stark konsistenten Schätzer müsste limn!1 ^n;i = i ; mit P Wahrscheinlichkeit 1 gelten. Wir werden nicht weiter auf die Unterscheidung eingehen. 129 Schwache Konsistenz ist o¤ensichtlich das für die “Praxis”relevante Konzept, denn eine unendliche lange Versuchsreihe kommt “in der Praxis” ohnehin nicht vor. Satz 8.4 In einem Bernoulli-Experiment ist (^ pn )n2N , de…niert durch (8.1) ein konsistenter Schätzer für p. Beweis. Dies ist das (schwache) Gesetz der grossen Zahlen. (Satz 3.35) Es gibt viele Methoden Schätzer zu konstruieren, die alle ihre Vor- und Nachteile haben. Eine beliebte Klasse sind die sogenannten Maximum-Likelihood-Schätzer. Der Einfachheit halber nehmen wir an, dass die Wahrscheinlichkeiten P auf einer abzählbaren Menge de…niert sind, und dass wir ferner den Parameter aufgrund des Wertes einer Zufallsgrösse X : ! R schätzen wollen (oder eines Zufallsvektors k X : ! R ). Jedes der Wahrscheinlichkeitsmasse P de…niert dann eine Verteilung auf X ( ): l (x) := P (X = x) : Wenn eine abzählbare Menge ist, so ist natürlich auch X ( ) abzählbar. Zu x 2 X ( ) de…nieren wir ^ (x) so, dass l^(x) (x) maximal ist: l^(x) (x) = max l (x) : 2 Wir gehen davon aus, dass ein solcher Wert ^ (x) existiert und eindeutig ist, was natürlich nicht immer der Fall zu sein braucht. ^ de…niert dann eine Abbildung X ( ) ! : Setzen wir diese Abbildung mit der Zufallsgrösse X zusammen, so erhalten wir die Abbildung ^ (X) : ! : Dies nennt man den Maximum-Likelihood-Schätzer. Bemerkung 8.5 Es mag etwas eigenartig erscheinen, dass wir den Schätzer oben über den Umweg einer Zufallsgrösse X de…nieren wollen. Tatsächlich können wir natürlich auch einfach versuchen, P (!) zu maximieren. In vielen Fällen liegen die Wahrscheinlichkeitsmasse jedoch nur über die Verteilungen von Zufallsgrössen vor, die uns auch eigentlich nur interessieren. Es ist jedoch klar, dass der Maximum-Likelihood-Schätzer dann von X abhängen kann. In einigen wichtigen Fällen lässt sich jedoch nachweisen, dass es keine Einschränkung ist, wenn man sich von vornherein auf Schätzer, die über eine (einfache) Zufallsgrösse X de…niert sind, beschränkt. Ein Beispiel ist das Bernoulli-Experiment. Hier kann man nachweisen, dass man keine Information über p erhalten kann, die man nicht via die Anzahl der Erfolge Xn gewinnen kann. Man nennt eine Zufallsgrösse, die alle Information über einen Parameter enthält, eine su¢ ziente Statistik. Die genaue mathematische De…nition erfordert etwas Sorgfalt; wir wollen das hier nicht weiter ausführen. Man kann das Konzept auch auf Zufallsgrössen mit Dichten erweitern: Sei X eine mdimensionaler RZufallsvektor mit Dichten f ; 2 ; d.h. für jede Borelmenge A Rm gilt P (X 2 A) = A f (x) dx: Für x 2 Rm de…nieren wir analog wie oben ^ (x) so, dass f (x) maximal ist. ^ (X) ist dann wieder eine Zufallsgrösse, die man in diesem Fall ebenfalls als den Maximum-Likelihood-Schätzer bezeichnet. Wie oben muss natürlich betont werden, dass dieser Schätzer nicht in jeder Situation existiert. Es ist übrigens auch keinesfalls 130 klar, dass die Maximum-Likelihood-Schätzer erwartungstreu sind (ausser in Spezialfällen sind sie es auch nicht). Unter ziemlich allgemeinen Bedingungen kann man jedoch nachweisen, dass sie konsistent sind. Über die Berechtigung des Maximum-LikelihoodAnsatzes ist viel geschrieben und gestritten worden. Die stärkste theoretische Stütze für die Maximum-Likelihood-Methode ist ein Satz der besagt, dass (unter gewissen Bedingungen), diese Schätzer in einem asymptotischen Sinne (der natürlich noch zu präzisieren ist) optimal sind. Für eine ausführliche Diskussion von Maximum-Likelihood-Schätzern muss auf die Spezialvorlesungen über Statistik verwiesen werden. Wir betrachten hier nur einige einfach Beispiele. Beispiele 8.6 a) Bernoulli-Experiment Der unbekannte Parameter sei p: X sei die Anzahl der Erfolge. Ist n die Anzahl der Versuche (die wir als bekannt voraussetzen), so ist X ( ) = f0; : : : ; ng : Für x 2 X ( ) ist n x Pp (X = x) = p (1 p)n x : x Um den Maximum-Liklihood-Schätzer zu …nden, müssen wir diesen Ausdruck als Funktion in p nun maximieren. Wir können genauso gut natürlich den Logarithmus maximieren: log Pp (X = x) = log n + x log p + (n x x) log (1 p) : Der erste Summand hängt nicht von p ab und kann daher aus der Betrachtung weggelassen werden. Wir …nden das Maximum, indem wir nach p di¤erentieren: d (x log p + (n dp x) log (1 p)) = x p n 1 x : p Diese Ableitung ist genau dann 0; wenn p = x=n ist. Unser Maximum-LikelihoodSchätzer ist daher nichts anderes als (8.1). b) Hypergeometrische Verteilung Wir betrachten das folgende Problem: Ein Teich enthalte eine Anzahl n von Fischen, wobei wir n nicht kennen. n ist der unbekannte Parameter in unserem Modell. Um n zu schätzen, entnimmt jemand dem Teich m Fische, markiert sie und setzt sie wieder aus. Anschliessend wartet er, bis sich die Fische gut durchmischt (aber nicht vermehrt) haben. Dann entnimmt er wieder m Fische, von denen er feststellt, dass k m markiert sind. Wir nehmen an, dass k 1 ist. Wir wollen nun die Maximum-Likelihood-Schätzung für n herleiten. m ist bekannt, nicht aber n: Die beobachtete Zufallsgrösse X ist die Anzahl der markierten Fische beim zweiten Fang. Abhängig von n; n ist X hypergeometrisch verteilt: Pn (X = k) = 131 m k n m m k n m : Für den Maximum-Likelihood-Schätzer müssen wir dies als Funktion von n maximieren. Nun gilt (n + 1 m)2 : 2m + k + 1) (n + 1) Pn+1 (X = k) = Pn (X = k) (n Dieser Quotient ist genau dann (n + 1 1; wenn m)2 m2 (n + 1 2m + k) (n + 1) k (n + 1) ; d.h. wenn n+1 m2 =k gilt. Mit anderen Worten: Pn (X = k) ist maximal als Funktion von n für n = m2 =k 1 : Dies ist somit der Maximum-Likelihood Schätzer für n: Man beachte, dass der Schätzer nicht für alle möglichen Realisierungen von X de…niert ist. Pn (X = 0) ist natürlich positiv. Anderseits ist in diesem Fall der Schätzer nicht de…niert (oder wenn man will = 1): Nach welchen Kriterien soll man zwischen guten und weniger guten Schätzern unterscheiden? Ein naheliegendes Kriterium ist die Varianz var ^ des Schätzers und man wird einen Schätzer mit kleinerer Varianz vorziehen. Das Problem ist allerdings, dass diese Varianz von abhängt. Wir können ho¤en, dass wir einen Schätzer …nden, der erstens erwartungstreu ist und zweitens minimale Varianz unter allen möglichen Schätzern und für jeden möglichen Parameter hat. Leider gibt es derartige Schätzer nur in wenigen sehr einfachen Fällen. Wir können jedoch nachweisen, dass unser Schätzer (8.1) diese Eigenschaft hat. Dazu leiten wir in einem Spezialfall eine wichtige Ungleichung her, nämlich die sogenannte Cramer-Rao-Schranke. Der Einfachheit halber betrachten wir eine endliche Menge : Für 2 seien Wahrscheinlichkeiten P auf gegeben. Wir nehmen an, dass der Parameter eindimensional ist, und dass ferner für jedes ! 2 die Abbildung 3 ! P (!) di¤erenzierbar in ^ und überall postive ist. Ferner sei ein Schätzer : ! gegeben. Wir nehmen im Moment nicht an, dass der Schätzer erwartungstreu ist. Der Fehler zum Erwartungswert ist dann b ( ) := E ^ : (8.2) Diese Abweichung bezeichnet man auch als den “Bias”. Proposition 8.7 (Cramer-Rao Schranke) Unter den obigen Bedingungen gilt für die Varianz var chung: var ^ db( ) d +1 ^ des Schätzers die Unglei- 2 ; I( ) wobei I ( ) die sogenannte Fisher-Information ist: I ( ) := E d log p d 132 2 ! : Für einen unverfälschten Schätzer (d.h. b ( ) = 0) gilt insbesondere 1 : I( ) ^ var Beweis. Di¤erenzieren der Gleichung (8.2) nach dE ^ db ( ) = d d 1= ergibt X dp (!) ^ (!) d 1 !2 X d log p (!) ^ (!) p (!) = d 1=E !2 wobei d log p d d log p ^ d als Zufallsgrösse aufgefasst wird. Anderseits gilt wegen 1 = 0= X dp (!) =E d d log p d !2 : 1; P ! p (!) auch Aus den beiden Gleichungen erhalten wir db ( ) d log p ^ +1=E d d v u u d log p tE d b( ) 2 ! var ^ = r I ( ) var ^ : Von besonderem Interesse sind natürlich unverfälschte Schätzer, für die var ^ = 1=I ( ) gilt. Diese haben minimale Varianz unter allen möglichen unverfälschten Schätzern. Beispiel 8.8 Wir nehmen unser Standardbeispiel: Den Parameter p bei der Binomialverteilung. Ist ! 2 := f0; 1gn ; so ist Pp (!) = pXn (!) (1 p)n Xn (!) ; wobei Xn (!) wieder die Anzahl der Erfolge bezeichnet. Es gilt dann d log Pp (!) Xn (!) = dp p n Xn (!) Xn (!) np = : 1 p p (1 p) Demzufolge ist die Fisher-Information E (Xn (!) I (p) = p2 (1 np)2 2 p) = var (Xn ) n : 2 = p (1 2 p) p (1 p) 1=I (p) = p (1 p) =n ist aber gerade die Varianz von p^n = Xn =n: Demzufolge ist p^n ein unverfälschter Schätzer mit minimaler Varianz. 133 Es muss betont werden, dass in komplizierteren Situation solche unverfälschten Schätzer mit minimaler Varianz nur selten existieren. Unter relative schwachen Regularitätsannahmen kann man jedoch nachweisen, dass die Maximum-Likelihood-Schätzer diese Eigenschaft in einem gewissen asymptotischen Sinn (für n ! 1) haben. Ein wichtiges Beispiel ist die Familie der Normalverteilung mit Mittel 2 R und Varianz 2 > 0: Der Parameter ist dann zweidimensional: ; 2 2 := R R+ R2 : Wir betrachten n unabhängige Zufallsgrössen X1 ; : : : ; Xn mit dieser Verteilung. Die Dichte des Zufallsvektors (X1 ; : : : ; Xn ) ist f ; 2 (x) = 2 n=2 2 exp 2 1 Xn 2 i=1 (xi )2 (8.3) Die Aufgabe ist nun, die Parameter aus diesen Zufallsgrössen zu schätzen. Eine naheliegende Schätzung von ist Pn Xi ^ n := i=1 : (8.4) n Wie wir schon wissen, ist ^ n selbst wieder normalverteilt mit Erwartungswert Pn E( ; 2 ) X i n E( ; 2 ) ^ n = i=1 = = n n und Varianz var( 2) ; ^n = 2 n 2 = : n2 n Daraus folgt sehr leicht, dass für jedes " > 0 lim P( n!1 ; 2) (j^ n j ") = 0 gilt. ^ n ist also ein erwartungstreuer und konsistenter Schätzer für : Was tun mit Ein naheliegender Schätzer für 2 wäre 2? n 1X (Xi n )2 : i=1 Aus der Linearität des Erwartungswertes folgt sofort: E( ; 2) 1 Xn (Xi i=1 n n )2 = 1X E( n ; 2) (Xi )2 i=1 = 2 : Das Problem dabei ist nur, dass wir ja nicht kennen und deshalb nicht im Schätzer verwenden können. Es ist naheliegend, den unbekannten Parameter einfach durch seinen Schätzer ^ n zu ersetzen und deshalb den Schätzer !2 Pn n n X X j 1X 1 j=1 (Xi ^ n )2 = Xi n n n i=1 i=1 134 zu versuchen. Hier ergibt sich jedoch eine kleine Überraschung bei der Berechnung des Erwartungswertes: 0 !2 1 ! Pn 2 Xn Xn Xn X j 1 1 1 j=1 2 A=E Xi X Xi E@ i=1 i=1 i i=1 n n n n ! 2 1 Xn 2 = E X1 E Xi i=1 n P E X12 = 2 + 2 : Ferner ist n1 ni=1 Xi normalverteilt mit Mittel und Varianz Demzufolge gilt 0 !2 1 Pn n 2 X X j 1 (n 1) 2 j=1 A= 2+ 2 E@ Xi + 2 = ; n n n n 2 =n: i=1 und unser ins Auge gefasster Schätzer ist nicht erwartungstreu. Man kann das jedoch beheben, indem man den Schätzer leicht modi…ziert und einfach ^ 2n := n X 1 n 1 ^ n )2 (Xi (8.5) i=1 setzt. Dieser Schätzer ist dann evidenterweise erwartungstreu. Er ist auch konsistent. Der Beweis dafür sei dem Leser als Übungsaufgabe überlassen. Was ist der Maximum-Likelihood-Schätzer für ; 2 ? Dazu müssen wir (8.3) als Funktion von ; 2 maximieren. Es ist oft günstiger, den Logarithmus zu maximieren, was auf dasselbe hinausläuft. log f ; 2 n log (2 ) 2 (x) = n log 2 2 2 n 1 X 2 (xi )2 : i=1 Die partiellen Ableitungen ergeben: @ log f @ @ log f @( ; 2 (x) = n 1 X 2 (xi ); i=1 2 ; 2) (x) = n n 1 X + (xi 2 2 2 4 )2 : i=1 Man überzeugt sich leicht davon, dass die Lösung von r log f ; 2 (x) = 0 ein eindeutiges Maximum ist. Daraus folgt, dass der Maximum-Likelihood-Schätzer von ; 2 durch n ^ n;M L = ^ n = 1X xi ; n i=1 ^ 2n;M L n 1X := xi n i=1 135 ^ n;M L 2 : Will man den Schätzer als Zufallsgrösse interpretieren, so muss man die xi natürlich wieder durch die Zufallsgrössen Xi ersetzen. Wie man sieht, ist das für derselbe Schätzer wie oben; für 2 erhält man aber den mit dem falschen Erwartungswert. Für n ! 1 verschwinder der Fehler natürlich. Es muss betont werden, dass es andere Schätzer von und 2 gibt, die gegenüber ^ n und ^ 2n gewichtige Vorteile haben. Das Hauptproblem z.B. mit ^ n ist, dass der Schätzer sehr emp…ndlich auf auch nur geringfügige Verletzungen der grundlegenden Normalverteilheitsannahme ist. Ist diese nicht richtig, so kann die Varianz des Schätzers massiv ansteigen. Der Schätzer ist, wie man sagt, nicht robust. Eine alte Bauernregel verwendet das folgende Verfahren: Wenn der mittlere Jahresertrag (z.B. von Getreide) aus einer Messreihe von 10 Jahren bestimmt werden soll, so lässt man das beste und das schlechteste Ergebnis weg und mittelt die acht verbleibenden Werte. Solche Schätzer nennt man abgeschnittene Mittel (“trimmed means” auf Englisch). Hier die formale De…nition: Sei 2 (0; 1=2) : Sind X1 ; : : : ; Xn die n Zufallsgrössen, so ordnet man sie erst der Grösse nach an. Die entsprechend der Grösse nach geordneten Grössen bezeichnen wir mit Xn;1 Xn;2 ::: Xn;n : (Falls der Vektor (X1 ; : : : ; Xn ) eine Dichte besitzt, so folgt übrigens sofort, dass alle Xi verschieden sind, mit Wahrscheinlichkeit 1): Anschliessend bildet man ^ n; := n 1 2 [ n] n [ n] X Xn;i : i=[ n]+1 Man kann leicht nachweisen, dass diese Schätzer ebenfalls erwartungstreu sind. Sind die Xi exakt normalverteilt, so ist die Varianz von ^ n; grösser als die von ^ n ; wenn jedoch nicht zu gross ist ( = 0:1 oder darunter sind typische Werte), so ist der Unterschied jedoch nicht sehr gross. (Die Berechnung der Varianz von ^ n; ist allerdings nicht ganz einfach). Auf der anderen Seite hat ^ n; wesentlich bessere Robustheitseigenschaften. Ein ganz primitives aber praktisch stets präsentes Problem ist etwa, dass vielleicht einige der erhobenen Daten gänzlich schlecht sind, weil etwa das Messgerät gerade ausgefallen ist, der Laborant gerade die Messung verpatzt, oder beim Eintrag der Daten ein Kommafehler passiert. Auf das arithmetische Mittel hat das dann einen enormen Ein‡uss; das abgeschnittene Mittel ^ n; spürt das jedoch kaum, falls nicht zuviele der Messwerte verdorben sind. Diese Gesichtspunkte sind in den vergangenen 20-30 Jahren intensiv untersucht worden und für fast alle Schätzer sind “robuste” Versionen entwickelt worden.14 Für spätere Zwecke wollen wir noch die gemeinsame Verteilung unserer beiden Schätzer (8.4) und (8.5) berechnen. Wir können dabei = 0 und 2 = 1 annehmen; die anderen Fälle ergeben sich sofort durch eine Skalierung. 14 Zürich war übrigens ein Zentrum der Forschung in robuster Statistik, vor allem mit Peter Huber und Frank Hampel von der ETH. 136 Wir betrachten zunächst eine etwas einfachere Situation: Seien 1 ; : : : ; n n unabhängige standard-normalverteilte Zufallsgrössen. Wir betrachten die Zufallsgrösse 2 n := n X 2 i: i=1 De…nition 8.9 Die Verteilung von 2 n nennt man die 2 -Verteilung mit n Freiheitsgraden. Die Dichte der Chi-Quadrat-Verteilung können wir sehr einfach berechnen: " # Z Z n 1X 2 n=2 2 P n x = (2 ) exp xi dx1 dxn 2 P = Z n i=1 p i=1 x2i x x (2 ) n=2 sn rn 1 e r 2 =2 dr 0 wobei sn die Ober‡äche der Einheitskugel mit Radius 1 ist, die bekanntlich durch 2 n=2 (n=2) sn = gegeben ist, mit als der Gamma-Funktion: Z 1 ( ) := e x 1 x dx; 0 ( (n) = (n Verteilung: 1)! für ganzzahliges n:) Di¤erentiation liefert uns die Dichte der d dx Z p x (2 ) n=2 sn rn 1 e r2 =2 dr = (2 ) n=2 sn x n 1 2 0 e x=2 2- 1 p : 2 x Proposition 8.10 Die 2 -Verteilung mit n Freiheitsgraden hat die Dichte cn (x) = 1 xn=2 (n=2) 2n=2 1 e x=2 ; x 0: (8.6) Für x < 0 ist die Dichte gleich 0: Es ist plausibel, dass die Verteilung von ^ 2n etwas mit der 2 -Verteilung zu tun hat. Ein Problem besteht o¤enbar darin, dass wir die normalverteilten Zufallsgrössen erst nach einer Zentrierung durch die Zufallsgrösse ^ n quadrieren. Diese zufällige Zentrierung führt jedoch nur zu P einerpReduktion der Zahl der Freiheitsgrade, wie wir gleich zeigen p werden. n^ n = ni Xi = n ist o¤enbar standard normalverteilt, wenn die Xi es sind. Damit haben wir schon Teil a) des folgenden Satzes eingesehen (wir beweisen es jedoch gleich nochmals). 137 Satz 8.11 Seien X1 ; : : : ; Xn unabhängige und standard-normalverteilte Zufallsgrössen. Dann gilt a) p n 1 X n^ n = p Xi n i=1 ist standard normalverteilt. b) (n 1) ^ 2n = n X ^ n )2 (Xi i=1 ist 2 -verteilt mit n 1 Freiheitsgraden. c) ^ n und ^ 2n sind unabhängig. Beweis. Wir beweisen a), b) und c) zusammen. Sie e1 := p1n ; : : : ; p1n : Dieser Vektor hat Euklidsche Länge 1: Wir können diesen Vektor zu einer orthonormierten Basis e2 ; : : : ; en in Rn ergänzen, und zwar so, dass die orthogonale Matrix der Basistransformation Determinante 1 hat. Wir betrachten die Variablentransformation Pn y (x)p= (y1 (x) ; : : : ; yn (x)) P ; die durch yi (x)p:= hx; ei i gegeben ist. Wegen y1 (x) = i=1 xi / n folgt mit x := ni=1 xi / n = y1 (x) = n : n X (xi x)2 = i=1 n X x2i nx2 i=1 = n X 2 yi (x) 2 y1 (x) = i=1 n X yi (x)2 : i=2 p Daraus folgt für die gemeinsame Verteilung von n^ n und (n 1) ^ 2n : p P n^ n a; (n 1) ^ 2n r Z Z 1 1 Xn = exp x2i dx1 P p n=2 n 2 i=1 2 nx a; i=1 (xi x) r (2 ) Z Z 1 1 Xn = exp yi2 dy1 dyn Pn n=2 i=1 2 2 y1 a; i=2 y2 r (2 ) Z a Z Z 1 1 Xn y12 =2 p e = dy1 exp y 2 dy2 Pn i=2 i 2 r 2 2 1 y i=2 2 dxn dyn : p Daraus ergibt sich, dass n^ n und (n 1) ^ 2n unabhängig sind, dass die Verteilung p von n^ n die Standard-Normalverteilung ist (was wir schon wussten), und dass die Verteilung von (n 1) ^ 2n die 2 -Verteilung mit n 1 Freiheitsgraden ist. 138 8.2 Testprobleme Die Testtheorie ist eine konzeptionell etwas verwirrende Angelegenheit, weniger in mathematischen Hinsicht, sondern von den (ho¤entlich existierenden) Beziehungen zur “realen Welt”. Die sich heutezutage weitgehend durchgesetzten Konzepte stammen aus dem Anfang des 20. Jahrhunderts und basieren auf den Ideen zweier englischen Wissenschaftlern, Pearson und Fisher, die sich allerdings spinnefeind waren und sich bekämpften. Auf den (mehr philosophischen) Hintergrund der Auseinandersetzungen können wir hier nicht eingehen. Karl Pearson 1857-1936 Sir Ronald A. Fisher 1890-1962 Ein Standarproblem ist zu entscheiden, ob z.B. ein neues Medikament eine positive Wirkung hat, oder keine bzw. eine negative. Nehmen wir an, dass sich die möglicherweise existierende Wirkung auf eine einfach zu messende eindimensionale Grösse bezieht, z.B. den systolischen Blutdruck. In der Praxis sind die Probleme natürlich meist weitaus komplexer. Um die E¢ zienz des Medikaments zu testen wird eine Gruppe von n Personen untersucht. Deren Bludruck wird vor der Behandlung gemessen. Die Ergebnisse seien n reelle Zahlen, die als Zufallsgrössen interpretiert werden: U1 ; : : : ; Un : Nun wird das Medikament verabreicht und dann wird wieder gemessen. Die Ergebnisse seien nun V1 ; : : : ; Vn : Dann bildet man die Di¤erenzen Xi = Ui Vi und möchte aufgrund dieser Di¤erenzen nun Rückschlüsse ziehen. Ohne weiter Annahmen ist das so gut wie unmöglich. Wir setzen daher voraus (was allerdings in vielen Situationen schon ziemlich fragwürdig ist), dass die Paare (Ui ; Vi ) alle 139 unabhängig sind und dieselbe Verteilung besitzen. Dann sind auch die Xi alle unabhängig und haben dieselbe Verteilung. Wir sind dann daran interessiert, ob := EXi = 0 oder nicht ist. Falls man eine Blutdrucksenkung im Auge hat ist die sinnvolle Alternative, an der man interessiert ist, > 0: Man nennt = 0 die 0-Hypothese. Dass exakt gleich 0 ist, ist natürlich wenig plausibel; es interessiert eigentlich nur, ob 0 oder > 0 ist. Wir formulieren die 0-Hypothese entsprechend, also 0-Hypothese 0 Alternative >0 Das Problem ist, dass man ohne weitere Voraussetzungen immer noch so gut wie keine vernünftigen statistischen Aussagen machen kann. Wir setzen daher weiter voraus, dass wir die Verteilung der Xi bis auf den Parameter kennen. Eine beliebte Annahme ist die der Normalverteiltheit der Xi . Die Normalverteilung hat zwei Parameter: Den Mittelwert und die Varianz 2 : Wenn wir voraussetzen, dass nur der Parameter unbekannt ist, müssen wir also voraussetzen, dass 2 bekannt ist. Das ist natürlich sehr fragwürdig und tatsächlich werden wir gleich auf diese Annahme verzichten. Im Moment wollen wir sie jedoch gelten lassen um das Prinzip eines statistischen Tests zu erläutern. Es ist plausibel, dass wir unsere Entscheidung anhand des Mittelwertes der Messwerte, d.h. anhand von n 1X Xi ^ n := n i=1 tre¤en wollen. Weiter ist plausibel, dass ein “zu grosser”^ n -Wert und zum Schluss führen wird, dass die Alternative zutri¤t. Wir werden daher einen Wert d > 0 festlegen und uns für die Alternative entscheiden, wenn ^ n d ist. Nun gibt es o¤ensichtlich zwei Möglichkeiten, wie wir zu einer fehlerhaften Entscheidung kommen kann. Ist die 0-Hypothese richtig, hat das Medikament also keine Wirkung, so können wir augrund eines Ausgangs ^ n d zu dem falschen Schluss kommen, dass die Alternative richtig ist. Dies nennt man einen Fehler 1. Art. Anderseits könnte die Alternative richtig sein und wir verwerfen die 0-Hypothese aufgrund eines Ausgangs ^ n < d nicht. Dies nennt man einen Fehler 2. Art. Die Vorgehensweise ist nun die, dass wir d so wählen, dass die Wahrscheinlichkeit für einen Fehler 1. Art einen bestimmten vorgegebenen Wert 2 (0; 1) nicht überschreitet. nennt man das Signi…kanzniveau. Es ist üblich entweder = 0:05 oder = 0:01 zu wählen. Eine Festlegung von führt nun ohne Schwierigkeiten zu der Bestimmung von d : Wir wissen ja (oder besser, wir nehmen an, dass wir wissen), dass die Xi unabhängig und normalverteilt sind, mit Mittel und Varianz 2 ; wobei wir 2 ebenfalls kennen. Dann ist ^ n normalverteilt mit Mittel und Varianz 2 =n: Es ist leicht zu sehen, dass P (^ n d) eine ansteigende Funktion von ist. (Mit P bezeichnen wir die Wahrscheinlichkeit unter den Parametern ; 2 : Da wir 2 im Moment als bekannt voraussetzen, lassen wir es in der Notation weg.) Wenn wir erzwingen wollen, dass P (^ n d) für alle 0 ist, so reicht es deshalb aus, 140 den Fall = 0 zu betrachten. Demzufolge ist die Wahrscheinlichkeit für einen Fehler 1. Art höchstens p Z 1 Z 1 h n i n 1 1 2 2 P0 (^ n d) = p x dx = p exp x dx exp p 2 2 2 2 2 d n= 2 d p =1 d n= ; wobei die Verteilungsfunktion der Standardnormalverteilung ist. Sie z 2 R die eindeutig de…nierte Zahl mit (z ) = 1 : (8.7) Ist < 1=2; was wir stets annehmen wollen, so ist z > 0: Hier die nummerischen Werte für = 0:05; = 0:01; = 0:001 : z0:05 = 1:6449; z0:01 = 2:3263; z0:001 = 3:0902: Man nennt z das obere -Quantil der Nomralverteilung. Wählen wir z d = d ( ; ; n) := p ; n so erhalten wir P0 (^ n d) = : (8.8) Wir erhalten somit das folgende Entscheidungsverfahren: z p : Verwerfung der 0 Hypothese n z ^ n < p : keine Verwerfung der 0 Hypothese n ^n (8.9) Ein solches Entscheidungsverfahren nennt man einen Test. Die Wahrscheinlichkeit für einen Fehler 1. Art ist dabei : Man nennt den Test einen Niveau- -Test. Im Falle ^ n < pzn kann man jedoch natürlich immer noch den Verdacht haben, dass die 0-Hypothese nicht richtig ist, und dass z.B. eine grössere Stichprobe zum entsprechenden Schluss geführt hätte. Man sagt dann auch einfach, der Ausgang sei nicht signi…kant (zum vorgegebenen Niveau ): Ursprünglich hatten wir eigentlich nur verlangt, dass wir in (8.8) haben. Es ist jedoch klar, dass wir für > 0 die Wahrscheinlichkeit P (^ n d) möglichst gross haben wollen. Von daher wird man d so wählen, dass (8.8) gilt. Es ist ziemlich üblich = 0:01 zu nehmen. In der Praxis wird man natürlich ausrechnen, zu welchem das Resultat noch signi…kant ist. Im statistischen Jargon nennt man ein Niveau = 0:05 “schwach signi…kant” und = 0:001 “hoch signi…kant”. Es ist wichtig zu bemerken, dass die 0-Hypothese und die Alternative nicht ganz symmetrisch behandelt werden. In der Tat “klebt” der Statistiker gewissermassen an der 0-Hypothese und will diese nur verwerfen, wenn dafür gute Gründe vorliegen. Das ist für viele Situationen in der Praxis vernünftig. Eine bewährte Behandlungsmethode 141 in der Medizin aufzugeben und zu einer neuen zu wechseln hat nur dann Sinn, wenn die neue Methode wirklich “signi…kant” besser ist.15 Hier noch eine ganz abstrakte allgemeine De…nition, was ein Niveau- -Test ist. Sei (P ) 2 eine Familie von Wahrscheinlichkeitsmassen auf : Seien 0 ; A zwei disjunkte Teilmengen von : De…nition 8.12 Sei 2 (0; 1) : Ein Niveau- -Test für die 0-Hypothese f 2 f 2 A g ist ein Entscheidungsverfahren der Form Entscheidung für die Alternative, falls X 0g gegen die Alternative z ist Keine Ablehnung der 0-Hypothese, falls X < z ist. Dabei ist X : ! R ein Zufallsgrösse (die sogenannte Teststatistik), und z 2 R ist so gewählt, dass sup P (X z) 2 0 gilt. Ein Niveau- -Test garantiert somit, dass die Wahrscheinlichkeit für einen Fehler 1. Art stets kleiner als ist, d.h. die Wahrscheinlichkeit für eine fehlerhafte Annahme der Alternative ist durch beschränkt. Dies ist jedoch o¤ensichtlich nur eine Seite der Sache: Man möchte natürlich, dass die Wahrscheinlichkeit für eine Verwerfung der 0-Hypothese gross ist, sofern die Alternative auch zutri¤t. Ausser in ganz einfachen und arti…ziellen Fällen besteht die Alternative aus einer Vielzahl von Wahrscheinlichkeitsmassen, und man wird davon ausgehen müssen, dass die Wahrscheinlichkeit für einen Fehler 2. Art vom Parameter abhängt (und natürlich von der gewählten Teststatistik). Wir untersuchen den obigen sehr einfachen gelagerten Fall der Normalverteilung (8.9). Der Fehler 2. Art, bei Vorliegen der Alternative > 0 ist natürlich einfach gegeben durch z P ^n < p : n Nun ist ^ n unter P einfach normalverteilt mit Mittel ! pz z ^n n p P ^n < p =P < p =P 2 =n 2 =n n p = z n = ; ^n die letzte Gleichung weil p 2 =n und Varianz ^ pn 2 =n <z 2 =n; p d.h. n = ! unter P standard-normalverteilt ist. Nun muss man sich daran erinnern, dass z so gewählt war, dass (z ) = 1 p [0; 1) 3 ! z n = 2 [0; 1] 15 ist. Die Funktion Eine di¤erenziertere Betrachtungsweise würde jedoch genauer gewichten, welche Schäden durch die beiden Typen von Fehlern potentiell angerichtet werden. 142 ist eine monoton fallende Funktion in : Es ist klar, dass für “sehr nahe” bei 0; diese Wahrscheinlichkeit für einen Fehler 2. Art immer noch nahe bei 1 ist. Wie schnell die Funktion abfällt hängt natürlich von n ab: Je grösser n ist, desto schneller fällt sie p ab. Meist wird übrigens die Funktion 1 (z n = ) aufgezeichnet, also die Wahrscheinlichkeit für Ablehnung der 0-Hypothese. Diese Wahrscheinlichkeit sollte natürlich möglichst gross auf den Alternativen sein. Auf Englisch heisst das die “power function” in Deutsch meist mit Gütefunktion übersetzt. Unten ist die Gütefunktion in unserem Beispiel für = 0:01; n = 10 und n = 100 (bei 2 = 1) aufgezeichnet. Gütefunktion bei n = 10 Gütefunktion bei n = 100 Wie man den Graphiken entnimmt, vermag der Test -Werte über etwa 1:5 bei n = 10 sicher zu erkennen und bei n = 100 schon -Werte ab etwa 0:5: Diese Sachverhalte sollten dem Anwender bekannt sein. Man wird natürlich nach möglichst “guten”Tests Ausschau halten. De…nition 8.13 Ein Niveau- -Test für die Hypothese f 2 0 g gegen die Alternative f 2 A g heist UMP-Test (uniformly most powerfull), falls seine Wahrscheinlichkeit für einen Fehler 2. Art höchstens die jedes anderen Niveau- -Tests ist, und zwar gleichmässig in 2 A : 143 Es vesteht sich fast von selbst, dass UMP-Tests für die meisten Testprobleme nicht existieren. Das Problem besteht darin, dass die Optimalität gleichmässig in allen Alternativen gelten soll. Allerdings ist gerade das bisher diskutierte einfache Beispiel eine Ausnahme von dieser Regel: Für den Test von f 0g gegen f > 0g ist der oben diskutierte Test tatsächliche UMP. Ein UMP-Test existiert stets, wenn die 0-Hypothese und die Alternative wie man sagt einfach sind, d.h. jeweils nur ein Wahrscheinlichkeitsmass enthalten. Das ist der Inhalt des Neyman-Pearson Lemmas. Wir formulieren und beweisen es in einer ganz einfachen Situation: Seien P1 und P0 zwei Wahrscheinlichkeiten auf der abzählbaren Menge : Der Einfachheit halben nehmen wir an, dass P0 (!) > 0; P1 (!) > 0 für alle ! 2 gelten. Wir wählen als Teststatistik den sogenannten Likelihoodquotienten: P1 (!) 2 R: P0 (!) L (!) := Der Likelihood-Quotienten-Test für die Hypothese P0 gegen die Alternative P1 ist nun einfach der Test mit Teststatistik L : Für z > 0 sei X (z) := P0 (!) : !:L(!) z Satz 8.14 (Neyman-Pearson Lemma) Der Test fL zg ist UMP zum Niveau (z) für die 0-Hypothese P0 gegen die Alternative P1 : Beweis. Wir betrachten den Ablehnungsbereich A := fL (!) zg für unseren LikelihoodQuotienten-Test und den Ablehungsbereich B für einen beliebigen anderen Test P zum Niveau (z) : Dann ist die Güte dieses anderen Tests einfach !2B P1 (!) und wir erhalten die Ungleichung X X X X X P1 (!) = P1 (!) + P1 (!) P1 (!) + z P0 (!) !2B !2B\Ac !2B\A X P1 (!) + z !2B\A = X X !2B\Ac !2B\A P0 (!) !2B c \A X !2B\A P1 (!) + X P1 (!) !2B c \A P1 (!) : !2A P P Die zweite Ungleichung folgt wegen (z) = !2A P0 (!) !2B P0 (!) ; was einfach die Eigenschaft ist, dass der zweite Test auch ein Niveau -Test ist. Hier die allgemeine Formulierung des Neyman-Pearson Lemmas. Der Beweis ist im wesentlichen eine Kopie dies obigen und sei dem Leser überlassen: P0 und P1 seien zwei Wahrscheinlichkeitsmasse auf dem messbaren Raum ( ; F) : Wir betrachten das Wahrscheinlichkeitsmass Q := (P0 + P1 ) =2: O¤enbar sind P0 und P1 absolut stetig bezüglich Q und wir setzen f0 := dP0 dP1 ; f1 := ; dQ dQ 144 und den Liklihood-Quotienten l : ! [0; 1] durch l (!) := f1 (!) ; f0 (!) wobei wir a=0 = 1 setzen für a > 0: Die Festlegung von 0=0 spielt im untenstehenden Satz keine Rolle; Sie können 0=0 = 1 setzen. Satz 8.15 Für z 0 ist der Test fl P0 (l z) : zg ein UMP-Test für P0 gegen P1 zum Niveau (z) := Mit Hilfe des Neyman-Pearson-Lemmas können wir nun leicht nachweisen, dass unser Test 0 gegen > 0 UMP ist. Wir betrachten dazu die einfache Hypothese f = 0g gegen die einfache Alternative f = 0 g mit einem beliebigen 0 > 0: Nach dem NeymanPearson-Lemma 8.15 ist dafür der Likelihood-Quotienten-Test der UMP-Test. Nun hat der Zufallsvektor (X1 ; : : : ; Xn ) die gemeinsame Dichte (8.3). Der Quotient ist f 0 ; 2 (x) = exp f0; 2 (x) 0 2 Xn i=1 xi n 2 0 2 : (Wir setzen 2 als P bekannt voraus). Als Funktion der xi ist das einfach eine monon tone Funktion von i=1 xi : Demzufolge lehnt der Likelihood-Quotienten-Test die 0Hypothese ab, wenn diese Summe zu gross wird, wobei die Schranke einfach durch das Niveau festgelegt wird. Somit ist Likelihood-Quotienten-Test einfach der Test, den wir schon betrachtet haben. Da unser Test somit exakt gleich dem Likelihood-QuotientenTest für f = 0g gegen f = 0 g für ein belibiges 0 > 0 ist, und demzufolge UMP für diese Situation, so folgt dass er UMP für f = 0g gegen f > 0g ist. Es folgt dann auch sofort, dass er UMP für f 0g gegen f > 0g ist. Es kommt natürlich auch vor, dass man daran interessiert ist, ob ein Medikament überhaupt eine Wirkung hat, die sich von Placebos unterscheidet, gleichgültig ob diese Wirkung positiv oder negativ ist. In einem solchen Fall möchte man die 0-Hypothese f = 0g gegen die Alternative f 6= 0g testen. Ein natürlicher Test ist einfach der folgende zweiseitige Test: Man lehnt die 0-Hypothese ab, wenn j^ n j zu gross ist. Um das Niveau zu gewährleisten, muss der Test dann wie folgt aussehen: z =2 p : Verwerfung der 0 Hypothese n z =2 j^ n j < p : keine Verwerfung der 0 Hypothese: n j^ n j (8.10) Dieser Test ist evidenterweise nicht mehr UMP. Dies liegt einfach daran, dass unser vorheriger einseitiger Test auch für unsere Situation ein Niveau- -Test ist, der für > 0 natürlich eine bessere Güte hat. Allerdings ist die Ablehnungswahrscheinlichkeit für < 0 kleiner als ; was sicher nicht wünschbar oder sinnvoll ist. Jedenfalls ist klar, dass (8.10) 145 nicht mehr UMP ist. Es ist jedoch sinnvoll, das UMP-Konzept etwas einzuschränken. Generell wird man natürlich keine Tests in Betracht ziehen wollen, die für irgendeine Alternative eine Ablehnungswahrscheinlichkeit < haben. De…nition 8.16 Ein Test für die 0-Hypothese 0 gegen die Alternative A heisst unverfälscht (englisch “unbiased”), wenn P (Ablehnung) für alle 2 A ist. Ein Test heisst gleichmässig bester unverfälschter Test, wenn für jedes 2 A die Ablehnungswahrscheinlichkeit maximal unter allen unverfälschten Tests ist. (Auf Englisch: UMP unbiased). Man kann nachweisen, dass unser Test (8.10) UMP unbiased ist, worauf wir jedoch hier nicht weiter eingehen wollen. Wir kommen nun noch zu einer wichtigen Modi…kation des Tests von f 0g gegen f > 0g im Falle der Normalverteilung. Wir hatten ja bisher angenommen, dass die Varianz 2 bekannt ist. Das ist in der Praxis natürlich völlig unsinnig, und wir lassen diese Voraussetzung nun fallen. Unsere Parametermenge ist daher := 2 ; : 2 R; 2 >0 : Für 2 interessieren wir uns eigentlich nicht. (Das nennt man einen “nuisance parameter”). Die 0-Hypothese ist daher nach wie vor 0 := ; 2 : 0; 2 >0 ; A := ; 2 : > 0; 2 >0 : und die Alternative Es ist dann klar, dass wir den Test (8.9) nicht benützen können, da wir 2 nicht kennen. Ein naheliegendes Verfahren besteht darin, 2 einfach aus den Daten selbst zu schätzen. Wie wir in Abschnitt ?? ausgeführt haben, ist ^ 2n := 1 n 1 n X (Xi ^ n )2 i=1 P p p Wir ersetzen die Teststatistik n^ n = = (1= n ) ni=1 Xi p n^ n Tn := : (8.11) ^n In der englischsprachigen Literatur nennt man das die “studentized statistics”. Die Bezeichnung geht auf den Statistiker William Gosset zurück, der seine Arbeiten unter dem Pseudonym “Student” publiziert hat. Der berühmte t-Test besteht dann einfach darin, dass die 0-Hypothese verworfen wird, wenn Tn zu gross ist. ein vernünftiger Schätzer für durch 2: Student’s t-Test: Tn t ;n 1 : Annahme der Alternative Tn < t ;n 1 : keine Verwerfung der 0 146 (8.12) Hypothese: (Der Grund für die Schreibweise t ;n 1 wird gleich ersichtlich werden.) t ;n 1 muss so bestimmt werden, dass unter der 0-Hypothese P( ; 2 ) (Tn t ;n 1 ) ist. Natürlich ist wieder der Fall = 0 der Extremfall und wir wollen daher t ;n 1 so bestimmen, dass P(0; 2 ) (Tn t ;n 1 ) = ist. Etwas lästig erscheint die Anwesenheit von 2 ; aber es stellt sich zum Glück heraus, dass die Verteilung von Tn gar nicht von 2 abhängt: Ist nämlich Xi normalverteilt mit Mittel 0 und Varianz 2 ; so ist Xi = standard-normalverteilt. Die Substitution von Xi durch Xi = ändert jedoch im Ausdruck (8.11) gar nichts. Demzufolge ist die Verteilung von Tn von 2 unabhängig. Es ist jedoch klar, dass die Verteilung von n abhängt. De…nition 8.17 Sind X1 ; : : : ; Xn unabhängige und standard-normalverteilte Zufallsgrössen, so heisst die Verteilung von Tn die t-Verteilung mit n 1 Freiheitsgraden. p p Gemäss Satz 8.10 sind n^ n und ^ 2n unabhängig, wobei n^ n standard normalverteilt und (n 1) ^ 2n 2 -verteilt mit n 1 Freiheitsgraden sind. Proposition 8.18 Ist Y standard normalverteilt, ist Z 2 -verteilt mit n Freiheitsgraden und sind Y und Z unabängig, so hat die Zufallsgrösse Y =Z die Dichtefunktion ((n + 1) =2) fn (t) = p n (n=2) t2 +1 n (n+1)=2 : Beweis. Übungsaufgabe. Der kritische Wert t ;n 1 ist einfach das obere -Quantil der t-Verteilung mit n Freiheitsgraden, also die eindeutig bestimmte Zahl mit Z 1 fn 1 (t) dt = : t 1 ;n 1 Für n ! 1 konvergiert die t-Veteilung gegen die Standard-Normalverteilung. Insbesondere gilt lim t ;n 1 = z ; n!1 wobei z durch (8.7) de…niert ist. Wir wollen dies hier nicht beweisen. Die Unterschiede sind jedoch nicht ganz zu vernachlässigen. Die folgende Tabelle gibt einige Werte für die t-Quantile t ;n bei = 0:05 und = 0:01 : n 10 20 50 100 1 = 0:05 1:8125 1:7247 1:6759 1:6602 1:6449 147 = 0:01 2:7638 2:5280 2:4033 2:3642 2:3263 Der t-Test ist übrigens auch im einseitigen Fall nicht mehr UMP, jedoch UMP unbiased. Wir können jedoch auf den Beweis nicht eingehen, der etwas aufwendig ist. Wir diskutieren noch zwei wichtige Varianten des t-Test. Unter Umstände möchte man auch auf zweiseitige Alternativen testen: Nämlich die 0-Hypothese f = 0g gegen die Alternative f 6= 0g : In diesem Fall verwirft man die Hypothese, wenn der Absolutbetrag von Tn zu gross, ist, d.h. wenn Tn t =2;n oder Tn t =2;n ist. Da die Verteilung von Tn unter der 0-Hypothese symmetrisch ist, ist das o¤ensichtlich ein Niveau- -Test. Eine weitere Modi…kation ist der sogenannte Zweistrichprobentest: Wir sind ja ursprünglich beim motivierenden Beispiel davon ausgegangen, dass die Xi als Di¤erenzen von zwei Zufallsgrössen Ui und Vi zustande kommen. Es kommt jedoch oft vor, dass nicht einfach dieselbe Person zweimal - einmal vor und einmal nach einer Behandlung - gemessen wird, sondern dass zwei Gruppen von Personen untersucht werden. Typischerweise wird in der klinischen Forschung einer Gruppe das Medikament und einer zweite Gruppe ein Placebo gegeben (natürlich ohne dass die Versuchspersonen wissen, zu welcher Gruppe sie gehören16 ). Es liegen dann zwei Gruppen von Messungen vor unter Umständen auch mit unterschiedlicher Stichprobengrösse: Etwa Ui ; i = 1; : : : ; n und Vi ; i = 1; : : : ; m: Eine der Standardannahmen ist, dass die Ui unabhängig und normalverteilt mit Mittel 1 , Varianz 2 und die Vi normalverteilt mit Mittel 2 und Varianz 2 : Die 0-Hypothese lautet im einseitigen Fall dann etwas f 1 2 g gegen die Alternative f 1 > 2 g oder im zweiseitigen Fall f 1 = 2 g gegen f 1 6= 2 g : Als Teststatistik wird dann Tn := q 1 m + 1 n r U 1 m+n 2 mit U= Pn i=1 V Ui U 2 + n m i=1 i=1 Pm i=1 ; Vi V 1X 1X Ui ; V = Vi n n verwendet. Unter der 0-Hypothese 1 = 2 ist Tn t-verteilt mit n + m den.17 Der t-Test ist also im einseitigen Fall: Tn t ;n+m 2 : Annahme der Alternative Tn < t ;n+m 2 : keine Verwerfung der 0 2 2 Freiheitsgra- Hypothese; und im zweiseitigen Fall 16 Der “Goldstandard” in der klinischen Forschung ist der sogenannte Doppelblindversuch, wo weder der Patient noch der behandelnde Arzt weiss, wer das Medikament und wer das Placebo erhält. Es versteht sich von selbst, dass es viele Situationen gibt, wo das nicht gemacht werden kann. 17 Es wird dabei vorausgesetzt, dass die Varianzen der beiden Stichproben gleich (aber nicht bekannt) sind. Das ist natürlich etwas fragwürdig. Das Problem mit zwei normalverteilten Stichproben unterschiedlicher (und unbekannter) Varianzen ist das sogenannte “Behrens-Fisher-Problem”. Leider brechen dafür die UMP-Konzepte zusammen. 148 jTn j t =2;n+m 2 : Annahme der Alternative jTn j < t =2;n+m 2 : keine Verwerfung der 0 Hypothese: Der t-Test ist vielleicht der am weitesten verbreitete Test überhaupt. Viele mathematische Statistiker stimmen jedoch darin überein, dass man ihn eigentlich nicht verwenden sollte. Der Haupteinwand gegen ihn besteht darin, dass der Test zwar UMP unverfälscht ist, dass aber diese Eigenschaft sehr schnell verloren geht, wenn die Voraussetzung der Normalverteiltheit verletzt ist. Die Optimalität des t-Test ist sehr wenig robust. Es gibt eine Reihe von Alternativen, die sich in dieser Beziehung besser verhalten.18 Wir kommen nochmals auf das Bernoulli-Experiment zurück. Wir nehmen an, dass jemand testen will, ob die Erfolgswahrscheinlichkeit p = p0 oder p 6= p0 ist. Es ist naheliegend, dafür wieder die Anzahl der Erfolge Xn zu verwenden und die Hypothese zu verwerfen, wenn jXn np0 j zu gross ist. Da es ziemlich lästig ist, für jedes feste n den Schwellenwert für Ablehnung getrennt auszurechnen macht man meist eine Asymptotik für n ! 1: Natürlich p kann man den Test dann nur für grosse n verwenden. Wie wir wissen ist (Xn np0 ) = np0 (1 p0 ) unter der 0-Hypothese asymptotisch standard normalverteilt, d.h. es gilt für jedes x 2 R : ! Z x 1 Xn np0 2 p e y =2 dy: x = (x) := lim Pp0 p n!1 2 np0 (1 p0 ) 1 Wenn z das obere -Quantil von lim Pp0 n!1 ist: (z ) = 1 jX np0 j p n np0 (1 p0 ) z ; so gilt ! =2 = : Der Test mit dem Ablehnungsbereich jXn np0 j z =2 p np0 (1 p0 ) hat daher asymptotisch das korrekte Niveau. Wir wollen noch eine wichtige Verallgemeinerung dieses Test distkutieren, den 2 Test. Man will etwa testen, ob ein Würfel auf alle Seiten mit gleicher Wahrscheinlichkeit fällt. Dazu wirft man den Würfel n mal. Wir bezeichnen mit Ni die Anzahl der Würfe bei denen der Würfel i anzeigt. Es ist plausibel, dass wir die 0-Hypothese verwerfen werden, wenn der Vektor Nn1 ; : : : ; Nn6 zu sehr von 16 ; : : : ; 16 abweicht. Eine naheliegende Teststatistik ist der Euklidsche Abstand. Wir fassen das gleich etwas allgemeiner: Sei p = (p (1) ; : : : ; p (m)) ein Wahrscheinlichkeitsvektor. Wir betrachten ein Zufallsexperiment mit m möglichen Ausgängen, der Einfachheit halber bezeichnen wir sie mit 18 Zur Verteidigung der Verwendung des t-Tests muss man jedoch bemerken, dass es wichtig ist, dass langjährig standardisierte Verfahren benützt werden. Wenn dies nicht gemacht würde, so könnte jeder gerade den Test verwenden, der ihm gerade am besten in den Kram passt und dem Missbrauch wäre Tür und Tor geö¤net. 149 1; : : : ; m: Dabei hat i die Wahrscheinlichkeit p (i) : Dieses Zufallsexperiment wird nun n mal unabhängig wiederholt. Wir bezeichnen mit N1 ; : : : ; Nm die Anzahl von Ausgänge des Zufallsexperiments, bei denen i auftritt. Ein geeigneter Wahrscheinlichkeitsraum ist einfach zu konstruieren: := f! = (! 1 ; : : : ; ! n ) Q : ! i 2 f1; : : : ; mgg : Ein Elementarereignis ! hat dann die Wahrscheinlichkeit Pp (!) = ni=1 p (! i ) : Damit können wir auch die Verteilung des Vektors N := (N1 ; : : : ; Nm ) ausrechnen: Für n1 + : : : + nm = n gilt Pp (N = (n1 ; : : : ; nm )) = A (n1 ; : : : ; nm ) m Y p (i)ni ; i=1 wobei A (n1 ; : : : ; nm ) die Anzahl der Möglichkeiten ist, die n1 Plätze bei denen 1 vorkommt, die n2 Plätze bei denen 2 vorkommt, etc. in den n Ausgängen des Zufallsexperimentes zu verteilen: Demzufolge ergibt sich A (n1 ; : : : ; nm ) = = Somit erhalten wir n n n1 n1 n2 n! Qm : i=1 ni ! n n1 n3 n2 n! Pp (N = (n1 ; : : : ; nm )) = Qm i=1 ni ! n m Y n1 ::: nm nm 1 p (i)ni : i=1 Dies nennt man die Multinomialverteilung. Die Verteilung von N1 alleine ist natürlich einfach die Binomialverteilung mit Erfolgswahrscheinlichkeit p1 ; und analog für N2 ; N3 ; : : : . Daraus ergibt sich, dass Ni p np (i) np (i) (1 p (i)) asymptotisch standard normalverteilt ist. Wir benötigen den folgenden Satz, den wir hier nicht beweisen können: Satz 8.19 m X (Ni np (i))2 np (i) (1 p (i)) i=1 ist asymptotisch 2 -verteilt lim P n!1 wobei cm 1 1 Freiheitsgraden, d.h. für jedes x 2 R+ gilt ! Z m x X (Ni np (i))2 x = cm 1 (y) dy; np (i) (1 p (i)) 0 mit m i=1 die Dichte der 2 -Verteilung mit m 150 1 Freiheitsgraden ist (8.6). Unter Verwendung dieses Satzes können wir nun sofort einen Niveau- -Test für die Multinomialverteilung angeben. Wir wollen die 0-Hypothese p = p0 gegen die Alternative p 6= p0 testen (p und p0 sind Wahrscheinlichkeitsvektoren der Länge m): Wir verwerfen die 0-Hypothese, wenn m X (Ni np (i))2 2 (8.13) m 1; np (i) (1 p (i)) i=1 ist. Dabei ist 2k; das obere -Quantil der 2 -Verteilung mit k Freiheitsgraden, d.h. die eindeutige de…nierte postive Zahl mit Z 1 1 xk=2 1 e x=2 dx = : (k=2) 2k=2 2k; (Falls k gerade ist, lässt sich das Integral natürlich explizit ausrechnen). Der Test (8.13) hat für endliches n natürlich nicht genau das Niveau ; der Unterschied ist für einigermassen grosse n jedoch vernachlässigbar. Für Leser, die ihre Würfel testen wollen: hier die Quantile for m = 6 : 2 5;0:05 = 11:07; 2 5;0:01 = 15:086; 2 5;0:001 = 20:515: Zur Illustration nehmen wir an, sie werfen den Würfel 600 mal und erhalten die folgende Verteilung der Augenzahlen. 120; 123; 81; 85; 111; 80: Dann ist m X (Ni np (i))2 202 + 232 + 192 + 152 + 112 + 202 = 3:3925: = 5 np (i) (1 p (i)) 600 36 i=1 Somit besteht kein Grund zur Beunruhigung. Wären jedoch alle Zahlen 10 mal grösser, so hätte man ebenfalls den 10-fachen Wert der Teststatistik. Dann könnte man getrost davon ausgehen, dass der Würfel gezinkt oder schlecht verarbeitet ist. 8.3 Kon…denzintervalle Wir kommen kurz zurück zu Schätzproblemen wie in Abschnitt ??, aber nun unter einem etwas anderen Gesichtspunkt. Wir nehmen wieder ein parametrisches Modell an, d.h. einen Raum mit einer Familie von Wahrscheinlichkeitsmassen P ; wobei wir für den Moment annehmen, dass eindimensional ist. Wichtiger als eine Schätzung ^; wie in Abschnitt ?? diskutiert, ist meist, dass hman gewisse Fehlergrenzen angibt, die eini ^ ^ schränken. Wir wollen also ein Intervall ; + bestimmen, in dem “mit grosser Wahrscheinlichkeit”liegt. Ein solches Intervall nennt man Kon…denzintervall. Nun muss man den folgenden konzeptionellen Gesichtspunkt festhalten (der nicht von allen Statistikern geteilt wird): Wir haben stets angenommen, dass nicht zufällig ist, sondern nur dem Statistiker unbekannt ist. Somit macht es keinen Sinn, eine Wahrscheinlichkeit zu bestimmen, mit der irgendwo liegt. Zufällig sind jedoch die Grenzen ^ ; ^+ ^ ; ^+ ; die die Eiunseres Kon…denzintervalles. Wir h suchen i also nach Zufallsgrössen genschaft haben, dass P 2 ^ ; ^+ für alle möglichen Parameter gross ist. Der 151 Statistiker muss festlegen, wie gross diese Wahrscheinlichkeit sein soll, bzw. wie klein die Fehlerwahrscheinlichkeit werden soll. De…nition 8.20 Sei 2 (0; 1). Ein Kon…denzintervall zum Kon…denzniveau ist ein Intervall der h i Form ^ ; ; ^ ;+ ; wobei ^ ; und ^ ;+ Zufallsgrössen sind, für die P für alle 2 gilt. h 2 ^ ; ;^ ;+ i 1 Es ergibt sich sofort ein direkter Zusammenhang mit der Testtheorie aus dem letzten Abschnitt 8.2: Nehmen wir einmal an, wir wollen die 0-Hypothese f = 0 g gegen die zweiseitige Alternative f 6= 0 g testen, und wir hätten dazu eine Teststatistik T mit der Eigenschaft, dass die 0-Hypothese verworfen wird, wenn T 2 = A gilt, wobei A eine Teilmenge von R ist. Natürlich hängt A von und natürlich auch von 0 ab. Wir schreiben daher A ( ; 0 ) : Bei einer gegebenen Realisierung von T können wir die Menge aller 0 bestimmen, für die die 0-Hypothese nicht verworfen wird: K (!) := f 0 2 : T (!) 2 A ( ; 0 )g Dies ist natürlich eine zufällige Teilmenge der Parametermenge fallsgrösse. Per De…nition eines Niveau- -Tests gilt dann P 0 (f! 2 : T (!) 2 A ( ; 0 )g) : , denn T ist eine Zu- 1 für alle 0 2 : (Den Index 0 können wir uns in Zukunft natürlich wieder sparen). Wenn K (!) die Form eines Intervalls hat, was in der Regel der Fall ist, so haben wir genau unser Kon…denzintervall gefunden. Wir brauchen daher nur die Tests aus dem letzten Abschnitt unter diesem Gesichtspunkt ausschlachten. Wir beschränken uns auf den allereinfachsten Fall, nämlich den Parameter p der Binomialverteilung. Sei Xn die Anzahl der Erfolge und X n := Xn =n: Wie wir gesehen hatten, wird die 0-Hypothese p = p0 im zweiseitigen Fall nicht abgelehnt, wenn p p z =2 np0 (1 p0 ) < Xn np0 < z =2 np0 (1 p0 ); p p p0 (1 p0 ) p0 (1 p0 ) p p p0 z =2 < X n < p0 + z =2 n n gilt. (Allerdings setzen wir hier voraus, dass n schon so gross ist, dass die Normalapproximation gerechtfertigt ist). Wir müssen nun diese Bedingung nur noch umformen. Da wir n ohnehin als einigermassen gross voraussetzen müssen, ersetzen wir p0 unter den Wurzelausdrücken durch X n ; was zu einem Fehler der Ordnung 1=n führen wird, den wir vernachlässigen. Wir erhalten deshalb das approximative Kon…denzintervall q q 0 1 Xn 1 Xn Xn 1 Xn A; p p Kn := @X n z =2 ; X n + z =2 n n 152 wobei die Fehler in den Grenzen des Intervalls von der Ordnung O (1=n) sind. Tatsächlich lässt sich leicht nachweisen, dass für jedes p 2 (0; 1) lim Pp (p 2 Kn ) = 1 n!1 gilt. Dies sind die üblichen Kon…denzintervalle für den Parameter der Binomialverteilung. Für kleine n sind sie jedoch nicht genau; dann sollte man aber auch nicht die Approximation durch die Normalverteilung verwenden. Ein Rechenbeispiel: n = 1000 und 310 Erfolge. Dann ist das 99%-Kon…denzintervall (z0:005 = 2:5758) ! r r 0:310 0:590 0:310 0:590 0:31 z0:005 ; 0:31 + z0:005 = (0:275; 0:345) : 1000 1000 Oft wird jedoch auch nur ein 95% Kon…denzintervall angegeben, das natürlich enger ist. Meinungsforschungs-Institutionen geben oft noch kleinere Bandbreiten an. Diese werden dadurch erzielt, dass die Stichprobe nicht ganz zufällig ausgewählt wird, sondern nach teilweise systematischen Gesichtspunkten. Dies birgt jedoch immer die Gefahr, dass auch systematische Fehler eingebaut werden. 153 9 9.1 Marko¤-Ketten Grundlegende Begri¤e Marko¤-Ketten kann man anschaulich wie folgt beschreiben: Ein Teilchen bewegt sich in diskreter Zeit auf einer höchstens abzählbaren Menge I. Be…ndet es sich auf einem Platz i 2 I, so wechselt es mit gewissen Wahrscheinlichkeiten (die von i abhängen) zu einem anderen Platz j 2 I. Diese Übergangswahrscheinlichkeiten hängen aber nicht weiter von der Vorgeschichte ab, das heisst vom Weg, auf dem das Teilchen zum Platz i gekommen ist. Die Element in I nennen wir auch die “Zustände”, in denen sich die Kette be…nden kann. De…nition 9.1 Es sei I eine nichtleere, höchstens abzählbare Menge. Eine Matrix P = (pij )i;j2I heisst P stochastische Matrix, wenn pij 2 [0; 1] für alle i; j 2 I und j2I pij = 1 für alle i 2 I gelten. Die Komponenten pij nennt man die Übergangswahrscheinlichkeiten. Eine auf einem Wahrscheinlichkeitsraum ( ; F; P ) de…nierte messbare Abbildung X : ! I nennen wir eine I-wertige Zufallsgrösse. Da wir I als abzählbar voraussetzen, bedeutet Messbarkeit einfach, dass für jedes i 2 I die Menge f! : X (!) = ig in F ist. De…nition 9.2 Sei P ein stochastische Matrix. Eine endlich oder unendlich lange Folge X0 ; X1 ; X2 ; : : : I-wertiger Zufallsgrössen heisst (zeitlich homogene) Marko¤-Kette mit stochastischer Matrix P, wenn für alle n 0 und alle i0 ; i1 ; : : : ; in ; in+1 2 I; die P (X0 = i0 ; : : : ; Xn = in ) > 0 erfüllen, die Gleichung P ( Xn+1 = in+1 j X0 = i0 ; X1 = i1 ; : : : ; Xn = in ) = pin in+1 gilt. Die Startverteilung i 2 I. (9.1) einer Marko¤-Kette ist de…niert durch (i) = P (X0 = i), Man schreibt oft P , um die Startverteilung hervorzuheben. Ist die Startverteilung auf einen Punkt konzentriert, d. h·gilt (i) = 1 für ein i 2 I, so schreiben wir meist Pi anstelle von P . Wenn wir einfach P schreiben, so betrachten wir eine beliebige nicht weiter spezi…zierte Startverteilung. Wir haben die obige De…nition für eine unendlich lange Marko¤-Kette formuliert. Die gleiche De…nition kann jedoch auch für eine Marko¤Kette X0 ; : : : ; XN von endlicher zeitlicher Länge verwendet werden. Ohne Beweis zitieren wir den folgenden Satz über die Existenz von Marko¤-Ketten. Satz 9.3 Sei I eine abzählbare Menge, eine Wahrscheinlichkeitsverteilung auf I und P eine stochastische Matrix. Sei ferner := I N0 , Xn : ! I für n 2 N0 die Projektionen und F die Produkt- -Algebra auf ; d.h. die vom Mengensystem Xn 1 (fig) : n 2 N0 ; i 2 I erzeugte -Algebra. Dann existiert genau ein Wahrscheinlichkeitsmass P auf ( ; F) mit der Eigenschaft, dass die Folge (Xn )n2N0 eine Marko¤-Kette im Sinne der De…nition 9.2 mit Startverteilung ist. 154 Der Satz ist ein Spezialfall des Satzes von Ionescu-Tulcea, mit dem man praktisch alle Existenzprobleme für Wahrscheinlichkeitsmasse mit einem Schlag lösen kann. Ein Beweis wird in der Vorlesung im nächsten Semester gegeben werden. Für s < t; s; t 2 N0 schreiben wir oft X[s;t] für die Folge (Xs ; Xs+1 ; : : : ; Xt ) ; den sogenannten “Pfad”. Dieselbe Notation verwenden wir auch für eine (nicht zufällige) Folge a = (ai )i2N0 : Wir schreiben auch i 2 = X[s;t] ; falls Xu 6= i für u = s; s + 1; : : : ; t ist. Satz 9.4 Sei fXn gn2N0 eine Folge von I-wertigen Zufallsgrössen, und P = (pij ) eine stochastischer Matrix. eine Wahrscheinlichkeit auf I a) fXn gn2N0 ist genau dann eine Marko¤-Kette mit stochastischer Matrix P und Startverteilung ; wenn für alle n 2 N0 und i0 ; i1 ; : : : ; in 2 I die Gleichung P (X[0;n] = i[0;n] ) = (i0 )pi0 i1 pi1 i2 : : : pin (9.2) 1 in gilt. b) Ist fXn gn2N0 eine Marko¤-Kette so gilt die folgende Aussage: Es seien n < m und in 2 I sowie A I n und B I m n . Falls P (X[0;n 1] 2 A; Xn = in ) > 0 ist, so ist P X[n+1;m] 2 B j X[0;n 1] 2 A; Xn = in = P (X[n+1;m] 2 B j Xn = in(9.3) ) = Pin X[1;m n] 2B Beweis. a): Aus (9.1) folgt (9.2) durch Induktion nach n: De…nitionsgemäss gilt die Behauptung für n = 0. Es gelte die Aussage für ein n 2 N0 und seien i0 ; i1 ; : : : ; in+1 2 I. Ist P (X0 = i0 ; : : : ; Xn = in ) = 0, so gilt die behauptete Formel ebenfalls für n + 1: Ist P (X0 = i0 ; : : : ; Xn = in ) > 0, so folgt aus De…nition P X[0;n+1] = i[0;n+1] = P (Xn+1 = in+1 j X[0;n] = i[0;n] )P (X[0;n] = i[0;n] ) = (i0 )pi0 i1 : : : pin 1 in pin in+1 : Umgekehrt folgt aus (9.2) sofort (9.1) durch Einsetzen in die De…nition der bedingten Wahrscheinlichkeit. b) Sei P (X[0;n 1] 2 A; Xn = in ) > 0. Mit der De…nition der bedingten Wahrscheinlichkeit und Teil a) folgt P X[n+1;m] 2 B j X[0;n 1] 2 A; Xn = in P (X[n+1;m] 2 B; Xn = in ; X[0;n 1] 2 A) P (X[0;n 1] 2 A; Xn = in ) P P (in+1 ;:::;im )2B (i0 ;:::;in 1 )2A (i0 )pi0 i1 : : : pim P = (i0 ;:::;in 1 )2A (i0 )pi0 i0 : : : pin 1 in X = pin in+1 pin+1 in+2 : : : pim 1 im : = (in+1 ;:::;im )2B 155 1 im Dieser Ausdruck auf der rechten Seite hängt nicht von A ab. Wir können insbesondere A = I f0;1;:::;n 1g setzen. Dann erhalten wir X P X[n+1;m] 2 B j Xn = in = pin in+1 pin+1 in+2 : : : pim 1 im : (9.4) (in+1 ;:::;im )2B Somit folgt für eine beliebige Teilmenge A I f0;1;:::;n 1g , die P (X[0;n 1] 2 A; Xn = in ) > 0 erfüllt, die erste Formel. Die zweite ergibt sich aus (9.4) und a). Die Aussage von b) heisst Marko¤-Eigenschaft. Es sollte jedoch hervorgehoben werden, dass nicht jede Folge von I-wertigen Zufallsgrössen X0 ; X1 ; : : : , die (9.3) erfüllt, auch eine homogene Marko¤-Kette im Sinne der De…nition 9.2 ist. Es gilt jedoch der folgende Satz, dessen einfacher Beweis dem Leser überlassen sei: Satz 9.5 Sei X0 ; X1 ; : : : eine Folge von I-wertigen Zufallsgrössen, die (9.3) erfüllt. Dann existert eine Wahrscheinlichkeitsverteilung auf I und eine Folge fPn gn2N0 von stochastischen Matrizen Pn = (pn (i; j))i;j2I , sodass für alle n 2 N und alle i0 ; i1 ; : : : ; in 2 I die folgende Gleichung gilt: P (X[0;n] = i[0;n] ) = (i0 )p0 (i0 ; i1 ) : : : pn 1 (in 1 ; in ): Der Unterschied zu (9.2) besteht darin, dass wir dort die zusätzliche Eigenschaft haben, dass die Übergangswahrscheinlichkeiten nicht von der Zeit abhängen. Man nennt die Ketten deshalb zeitlich homogen. Wir schränken uns in diesem Kapitel vollständig auf zeitlich homogene Ketten ein ohne dies jedesmal besonders zu betonen. Eine stochastische Matrix P = (pij )i;j2I kann man stets ohne Probleme potenzieren: (n) (0) Für n 2 N0 de…niert man die n-te Potenz Pn = (pij )i;j2I rekursiv durch pij = ij und (n+1) pij = X (n) pik pkj k2I für alle i; j 2 I, das heisst, Pn ist das n-fache Matrixprodukt von P mit sich selbst. Aus der rekursiven De…nition folgt, dass Pn selbst eine stochastische Matrix ist. Es gelten die aus der linearen Algebra bekannten Rechenregeln für Matrizen, insbesondere gilt Pm Pn = Pm+n , das heisst X (m) (n) (m+n) pik pkj = pij ; i; j 2 I: (9.5) k2I (n) (n) Die Komponenten pij der Matrix Pn = (pij )i;j2I heissen n-stu…ge Übergangswahrscheinlichkeiten. Lemma 9.6 Es sei X0 ; X1 ; X2 ; : : : eine Marko¤-Kette mit Startverteilung Dann gilt X (n) P (Xn = j) = (i)pij i2I 156 und Übergangsmatrix P. für alle n 2 N0 und j 2 I. Ist die Startverteilung (n) Pi (Xn = j) = pij . Beweis. Aus Satz 9.4 a) folgt X P (Xn = j) = i0 ;:::;in = X i0 ;:::;in auf i 2 I konzentriert, so gilt P (X0 = i0 ; : : : ; Xn 1 2I (i0 )pi0 i1 : : : pin 1j = in 1 = X 1; Xn = j) (n) (i)pij : i2I 1 2I Lemma 9.7 Sei X0 ; X1 ; X2 ; : : : eine Marko¤-Kette mit stochastischer Matrix P = (pij )i;j2I . Sind m; n 2 N0 und i; j 2 I mit P (Xm = i) > 0, so gilt (n) P (Xm+n = j j Xm = i) = pij : Beweis. Aus (9.3) folgt: (n) P ( Xm+n = j j Xm = i ) = Pi (Xn = j) = pij ; die letzte Gleichung nach Lemma 9.6. Lemma 9.8 (m+n) Für alle m; n 2 N0 und i; j; k 2 I gilt pij (m) (n) pik pkj . Beweis. Dies ergibt sich sofort aus (9.5). 9.2 Beispiele von Marko¤-Ketten Zunächst einige Beispiele, die wir eigentlich schon kennen. Beispiel 9.9 P a) Sei pij = qj für alle i; j 2 I, wobei j2I qj = 1 ist. Dann gilt P (X0 = i0 ; X1 = i1 ; : : : ; Xn = in ) = (i0 )qi1 : : : qin : Man sieht leicht, dass qj = P (Xm = j) für m 1 ist. Somit gilt P (X0 = i0 ; : : : ; Xn = in ) = P (X0 = i0 )P (X1 = i1 ) : : : P (Xn = in ); d. h,· die X0 ; X1 ; : : : ; Xn sind unabhängig. b) Irrfahrt auf Z: Es sei Y1 ; Y2 ; : : : eine Folge unabhängiger, f1; 1g-wertiger Zufallsgrössen mitP P (Yj = 1) = p und P (Yj = 1) = 1 p, wobei p 2 [0; 1] ist. Sei X0 := 0 und Xn := nj=1 Yj für n 1. Dann ist X0 ; X1 ; : : : eine Marko¤-Kette auf Z. Die Übergangsmatrix P = (pij )i;j2Z ist durch pi;i+1 = p und pi;i 1 = 1 p eindeutig festgelegt, und die Startverteilung ist in 0 konzentriert. Für p = 1=2 nennt man das die (eindimensionale) symmetrische Irrfahrt. 157 c) Symmetrische Irrfahrt auf Zd : Hier ist I = Zd und p(i1 ;:::;id );(j1 ;:::;jd ) = 1=(2d), falls ik = jk für alle bis auf genau ein k 2 f1; 2; : : : ; dg, für das jik jk j = 1 ist. Alle anderen Übergangswahrscheinlichkeiten müssen dann gleich null sein. d) Irrfahrt auf I = f0; : : : ; ng mit Absorption: 0 und n seien absorbierend, also p00 = 1 und pnn = 1. Für i 2 f1; 2; : : : ; n 1g geschehe ein Schritt nach rechts mit Wahrscheinlichkeit p 2 (0; 1) und ein Schritt nach links mit Wahrscheinlichkeit q := 1 p,0also pi;i+1 = p und 1 pi;i 1 = q. Die stochastische Matrix hat somit die 1 0 0 Bq 0 C p B C B .. .. .. C Form P = B C: . . . B C @ q 0 pA 0 0 1 e) Irrfahrt mit Re‡exion: Das gleiche Modell wie in Beispiel d) mit der Änderung, dass p01 = pn;n 1 = 1 sein soll. Einige interessante Beispiele können als sogenannte Urnenmodelle realisiert werden. Beispiel 9.10 a) Polyas Urnenschema: In einer Urne liegen rote und schwarze Kugeln. Eine wird zufällig gezogen und zusammen mit einer neuen Kugel der gleichen Farbe zurückgelegt. Hier ist I = f (r; s) j r; s 2 N g sowie p(r;s);(r+1;s) = r=(r + s) und p(r;s);(r;s+1) = s=(r + s) für alle r; s 2 N. Polya hatte dies als einfaches Modell für Ansteckungen (z.B. von Krankheiten) vorgeschlagen. b) Ehrenfests Urnenmodell: Insgesamt n Kugeln liegen in zwei Urnen. Man wählt eine der Urnen jeweils mit Wahrscheinlichkeit proportional zur Anzahl der Kugeln in dieser Urne. Enthält die Urne 1 als k Kugeln (die Urne 2 also n k); so wählt man die Urne 1 mit Wahrscheinlichkeit k=n und die Urne 2 mit Wahrscheinlichkeit 1 k=n: Anschliessend verschiebt man eine Kugel von der gewählten Urne in die andere. Auf diese Weise fährt man weiter. Wir können für I einfach die Möglichkeiten für die Belegung der Urne 1 nehmen, also I := f0; : : : ; ng : Der obige Zufallsvorgang lässt sich durch die stochastische Matrix pk;k 1 = k=n; pk;k+1 := 1 k=n, pk;j = 0 für j 2 = fk 1; k + 1g beschreiben. Das Beispiel ist von Ehrenfest zur Illustration irreversibler Vorgänge in der Statistischen Mechanik angegeben worden. Beginnen wir mit je gleich vielen Kugeln in beiden Urnen, so ist die Wahrscheinlichkeit 1; dass irgendwann einmal eine der Urnen leer ist. Dies werden wir später nachweisen. Ist n nicht zu klein, so muss man jedoch sehr lange darauf warten. Beginnt man umgekehrt mit allen Kugeln in einer Urne, so gelangt man sehr viel schneller zu einem Ausgleich. Zwei weitere wichtige Klassen von Beispielen sind Irrfahrten auf Graphen und Irrfahrten auf Gruppen. Ein Graph besteht aus “Knoten”und “Kanten”, wobei die Kanten jeweils zwei Knoten verbinden, die jedoch auch gleich sein können. Wir schliessen auch 158 nicht aus, dass zwei verschiedene Kanten dieselben Knoten verbinden; wir wollen jedoch voraussetzen, dass jeder Knoten nur zu endlich vielen Verbindungen gehört. De…nition 9.11 Ein Graph G ist ein Tripel (K; V; '), bestehend aus einer nichtleeren, höchstens abzählbaren Knotenmenge K, einer höchstens abzählbaren Menge von Kanten V und einer Abbildung ' : V ! K10 [ K20 , wobei Ki0 die Menge der i-elementigen Teilmengen von K ist. Für e 2 K sei Ve := f v 2 V j e 2 '(v) g die Menge der zu e führenden Kanten. Wir setzen stets voraus, dass der Graph, wie man sagt, lokal endlich ist, d.h. dass jVe j < 1 für jedes e 2 K gilt. Beispiel 9.12 Sei G = (K; V; ') ein Graph gemäss der obigen De…nition. Wir de…nieren eine Marko¤Kette auf K. Anschaulich soll folgendes passieren: Be…ndet sich das Teilchen im Knoten e 2 K, so wählt es (sofern vorhanden) eine der Verbindung aus Ve mit gleicher Wahrscheinlichkeit aus und springt zum anderen Knoten dieser Verbindung, der aber auch e selbst sein kann. Gibt es keine Verbindung in Ve , so bleibt das Teilchen auf der Ecke e sitzen. Formal de…nieren wir die stochastische Matrix P = (pef )e;f 2K durch ( für Ve = ;; ef (9.6) pef = jf v2V :'(v)=fe;f g gj sonst: jVe j Die anderen pef sind gleich 0: Die so konstruierte Marko¤-Kette heisst symmetrische Irrfahrt auf G. O¤enbar ist die symmetrische Irrfahrt auf Zd ein Spezialfall des Beispiels 9.12 mit K = Zd und V der Menge der Verbindungen nächster Nachbarn. Die Irrfahrt mit Re‡exion auf f0; : : : ; ng ist ebenfalls ein Spezialfall, wenn p = 1=2 ist, nicht aber die Irrfahrt mit Absorption. Eine weitere Verallgemeinerung der symmetrischen Irrfahrt auf Zd sind Irrfahrten auf Gruppen. Beispiel 9.13 Es seien G eine abzählbare Gruppe mit neutralem Element 1 und eine beliebige Wahrscheinlichkeitsverteilung auf G. Wir de…nieren pg;h = (g 1 h) für alle g; h 2 G. Wegen der Gruppeneigenschaft ist für jedes g 2 G die Abbildung h 7! g 1 h bijektiv auf G, und es gilt X X X pg;h = (g 1 h) = (h0 ) = 1: h2G h0 2G h2G Also ist P = (pg;h )g;h2G eine stochastische Matrix. Die zugehörige Marko¤-Kette heisst -Irrfahrt auf G. Die symmetrische Irrfahrt auf Zd ist wieder ein Spezialfall, denn Zd ist bezüglich der Addition eine abelsche Gruppe und die Wahrscheinlichkeitsverteilung ist in diePd sem Fall gegeben durch ((x1 ; : : : ; xd )) = 1=(2d), falls i=1 jxi j = 1 ist, und durch ((x1 ; : : : ; xd )) = 0 für alle anderen (x1 ; : : : ; xd ) 2 Zd . 159 Irrfahrten auf nichtabelschen Gruppen spielen bei der Modellierung von Mischvorgängen eine grosse Rolle. Zur Beschreibung des Mischens eines Kartenstapels wählt man zum Beispiel die Gruppe aller Permutationen der Karten im Stapel. Beispiel 9.14 Zum Schluss diskutieren wir noch kurz ein einfaches Beispiel eines sogenannten Verzweigungsprozesses, den sogenannten Galton-Watson Prozess. Damit wird eine sich verändernde Population von Individuen modelliert. Mit Xn bezeichnen wir die Grösse der Population zum Zeitpunkt n: Der Übergang von Xn nach Xn+1 wir nun wie folgt beschrieben. Jedes Indiviuum der n-Population hinterlässt eine zufällige Anzahl von Nachkommen und stirbt selbst ab, und zwar ist die Anzahl der Nachkommen (die auch 0 sein kann) durch eine Verteilung q auf N0 gegeben. Wir nehmen weiter an, dass die Anzahlen der Nachkommen der Individuen unabhängig sind. Wir bezeichnen mit 1 ; 2 ; : : : diese Anzahlen der Individuen in der Population. Die Annahme ist also, dass diese Zufallsgrössen Werte in N0 annehmen, dass sie unabhängig sind, und dass P ( i = k) = q (k) ist, wobei q ein Wahrscheinlichkeit auf N0 ist. Ist Xn = r; so ist Xn+1 als Xn+1 = r X i i=1 de…niert. Falls r = 0 ist, so setzt man natürlich Xn+1 = 0: Die Verteilung von Xn+1 (bei fester Populationsgrösse r zum Zeitpunkt n) ist dann als das r-fache Konvolutionsprodukt von q gegeben: Xr r P (Xn+1 = s j Xn = r) = P i = s = q (s) ; i=1 wobei die Verteilung q r wie folgt de…niert ist: 0 (s) := (r+1) (s) := q q 0;s ; s X q r (j) q (s j) : j=0 Dies folgt sofort aus der Unabhängigkeit der i : Es ist auch klar, dass gilt. Wir de…nieren daher Übergangswahrscheinlichkeiten durch prs := q r P s2N0 q r (s) = 1 (s) : Es gilt p0;j = 0;j ; p1;j = q (j) : Die anderen Übergangswahrscheinlichkeiten sind in der Regel nicht mehr explizit berechenbar. Eine Marko¤-Kette mit dieser stochastischen Matrix nennt man Galton-Watson Kette. 0 ist, wie man sagt, ein absorbierender Zustand: Wenn die Population einmal ausgestorben ist, bleibt sie ausgestorben. Von besonderem Interesse ist die Diskussion der Aussterbewahrscheinlichkeit Pi (9n mit Xn = 0) : Wir können im Moment jedoch nicht darauf eingehen. 160 9.3 Klasseneigenschaften, Rekurrenz, Transienz De…nition 9.15 Es sei P = (pij )i;j2I eine stochastische Matrix. Man sagt, j 2 I sei von i 2 I aus (n) erreichbar, wenn ein n 2 N0 existiert mit pij > 0. Notation: i j. (0) Die Relation auf I ist re‡exiv und transitiv. Wegen pii = 1 > 0 gilt i i für alle (m) (n) i 2 I. Falls i j und j k gelten, so gibt es m; n 2 N0 mit pij > 0 und pjk > 0, und (m+n) (m) (n) dann ist pik pij pjk > 0 nach Lemma 9.8. Die durch i j , (i j und j i) für i; j 2 I de…nierte Relation ist o¤enbar eine Äquivalenzrelation auf I. Wir werden i j für den Rest dieses Kapitels stets in diesem Sinne verwenden. Sind A; B I zwei Äquivalenzklassen der obigen Äquivalenzrelation, so sagen wir, B ist von A aus erreichbar und schreiben A B, wenn i 2 A und j 2 B existieren mit i j. O¤ensichtlich hängt dies nicht von den gewählten Repräsentanten in A und B ab, ist also “wohlde…niert”. De…nition 9.16 Es sei P eine stochastische Matrix. a) Eine Teilmenge I 0 von I heisst abgeschlossen, wenn keine i 2 I 0 und j 2 I n I 0 existieren mit i j. b) Die Matrix P (und dann auch eine Marko¤-Kette mit stochastischer Matrix P) heisst irreduzibel, wenn je zwei Elemente aus I äquivalent sind. Bemerkung 9.17 Es sei P = (pij )i;j2I eine stochastische Matrix. a) Ist I 0 I abgeschlossen, so ist die zu I 0 gehörige Einschränkung der stochastischen Matrix P0 := (pij )i;j2I 0 eine stochastische Matrix für I 0 . b) Ist P irreduzibel, so existieren keine abgeschlossenen echten Teilmengen von I. Beispiel 9.18 a) Die symmetrische Irrfahrt auf Zd ist irreduzibel. b) Polyas Urnenschema: Keine zwei Elemente von I = f (r; s) j r; s 2 N g sind äquivalent. Es gibt aber sehr viele abgeschlossene Teilmengen von I, zum Beispiel ist für jede Wahl von r0 ; s0 2 N die Menge f (r; s) j r r0 ; s s0 g abgeschlossen. c) Bei der Irrfahrt auf f0; : : : ; ng mit absorbierenden Rändern gibt es drei Äquivalenzklassen, nämlich f0g, f1; : : : ; n 1g und fng. Die Mengen f0g und fng sind abgeschlossen, und es gelten f1; : : : ; n 1g fng und f1; : : : ; n 1g f0g. d) Eine symmetrische Irrfahrt auf einem Graphen G ist o¤enbar genau dann irreduzibel, wenn der Graph zusammenhängend ist. (Ein Graph heisst zusammenhängend, wenn je zwei Knoten über einen endlichen Zug verbunden werden können.) 161 Für die nachfolgenden Überlegungen sei die Startverteilung Um dies zu betonen, schreiben wir Pi statt P . Für n 2 N sei (n) fii := Pi (X1 6= i; : : : ; Xn 1 in i 2 I konzentriert. 6= i; Xn = i): Lemma 9.19 Es gilt die sogenannte Erneuerungsgleichung (n) pii = n X (k) (n k) fii pii ; k=1 n 2 N: (9.7) (n) Beweis. Gemäss Lemma 9.7 gilt pii = Pi (Xn = i). Aufspalten des Ereignisses fXn = ig nach dem ersten Zeitpunkt, an dem die Marko¤-Kette wieder i erreicht, ergibt (n) pii = = n X k=1 n X k=1 Pi (i 2 = X[1;k 1] ; Xk = i; Xn = i) Pi (Xn = i j i 2 = X[1;k 1] ; (k) Xk = i) fii : Anwendung der Marko¤-Eigenschaft (Satz 9.4b)) und Lemma 9.7 ergibt: (n) pii = n X k=1 Pi (Xn = i j Xk = (k) i)fii = n X (k) (n k) fii pii : k=1 Wir führen die erste Rückkehrzeit Ti nach i ein: Ti := inf fn 1 : Xn = ig : (9.8) Wir de…nieren das auch, wenn gar kein n 1 existiert mit Xn = i: In diesem Fall setzen wir einfach Ti := 1: Von o¤ensichtlichem Interesse ist die Frage, ob Ti < 1 gilt oder nicht, ob man also zu irgend einem (endlichen) Zeitpunkt wieder in i ist. O¤ensichtlich (n) gilt fii = Pi (Ti = n) ; und eine Anwendung der -Aditivität (Axiom 1.11) ergibt fii = Pi (Ti < 1) : De…nition 9.20 Sei P eine stochastische Matrix. Ein Element i 2 I heisst rekurrent falls fii = 1 gilt, andernfalls heisst i transient. Satz 9.21 P (n) i 2 I ist genau dann transient, wenn 1 n=0 pii < 1 gilt. 162 (9.9) Beweis. Aus der Erneuerungsgleichung (9.7) erhalten wir 1 X (n) pii =1+ n=0 =1+ 1 X n=1 1 X (n) pii =1+ 1 X n X (k) (n k) fii pii (9.10) n=1 k=1 (n) pii fii : n=0 Da alle Grössen nicht negativ sind, ist diese Gleichung in jedem Fall korrekt, wenn wir für P (n) eine divergente Reihe 1 n=0 pii = 1 setzen. (Dies sollte aus der Analysis bekannt sein). P (n) Wenn also fii = 1 ist, so folgt also 1 n=0 pii = 1: Die Umkehrung geht jedoch nicht ganz so einfach: Aus fii < 1 kann aus der obigen Gleichung nicht auf die Konvergenz P (n) von 1 n=0 pii geschlossen werden. Wir argumentieren wie folgt: Für 0 < s < 1 setzen wir 1 1 X X (n) (n) (s) := pii sn ; (s) := fii sn : n=0 n=0 Wegen s < 1 konvergieren diese Reihen und wir erhalten auf dieselbe Weise wie die Gleichung (9.10): 1 (s) = 1 + (s) (s) ; (s) = : 1 (s) Ist (1) = fii < 1, so folgt nun 1 X 1 (n) pii = lim (s) = s"1 n=0 1 fii < 1: Eine nützliche Eigenschaft ist, dass Rekurrenz und Transienz Klasseneigenschaften sind: Satz 9.22 Es seien i; j 2 I mit i j. Dann ist i genau dann rekurrent, wenn j es ist. (M ) Beweis. Aus i j folgt, dass M 2 N0 mit pij Dann ist gemäss Lemma 9.8 (M +n+N ) pii (M +n+N ) Analog folgt pjj (M ) (n) (N ) pij pjj pji (N ) > 0 und N 2 N0 mit pji (n) = pjj mit (n) pii . Somit gilt 1 X n=0 (n) pii < 1 , 1 X n=0 Die Behauptung folgt nun aus Satz 9.21 163 (n) (M ) (N ) := pij pji pjj < 1: > 0: > 0 existieren. Rekurrenz und Transienz sind also Klasseneigenschaften bezüglich unserer Äquivalenzrelation : Wir sprechen daher auf von rekurrenten bzw. transienten Klassen. (n) Wir verallgemeinern die De…nition von fii und setzen ganz allgemein für i; j 2 I : (n) fij := Pi (j 2 = X[1;n 1] ; Xn = j) = Pi (Tj = n) ; n 1; und fij := Pi (Tj < 1) 1 Lemma 9.23 Sind i und j in derselben rekurrenten Klasse, so gilt fij = fji = 1. (N ) Beweis. Wir müssen nur i 6= j diskutieren. Sei N 2 N0 die kleinste Zahl mit pji Für M > N gilt Pj (Tj M; XN = i) = N X1 n=1 + M X n=N +1 Pj (j 2 = X[1;n Pj (j 2 = X[1;n = N X1 1] ; N (n) (N n) fjj pji + Pj (Tj M X n=N +1 (N n) 1g ist pji Xn = j; XN = i) Xn = j; XN = i) n=1 Für jedes n ist 1] ; Pj (j 2 = X[1;N = 0, und Pj (j 2 = X[1;N (N ) pji M; XN = i) M X 1] ; 1] ; XN = i) (n N ) fij (n N ) XN = i)fij (N ) (N ) pji 1) = limM !1 Pj (Tj = lim Pj (Tj ; M !1 M ) = 1 folgt M; XN = i) (N ) pji fij : (N ) Wegen fij 1 und pji > 0 ergibt sich fij = 1. fji = 1 folgt analog. Eine weitere wichtige Klasseneigenschaft ist die Periodizität: De…nition 9.24 Sei P eine stochastische Matrix und i 2 I: Die Periode di von i ist de…niert durch n o (n) di := ggT n 1 : pii > 0 ; wobei wir ggT (;) := 1 setzen. i heisst aperiodisch, wenn di = 1 ist. Lemma 9.25 a) Für i j gilt di = dj : 164 : pji : Demzufolge n=N +1 und wegen limM !1 Pj (Tj > 0. (ndi ) b) Ist di < 1; so existiert n0 2 N; sodass pii > 0 für alle n n0 gilt. Beweis. a): (N ) (M ) Für i = j ist nichts zu zeigen. Für i 6= j existieren N; M 2 N mit pij ; pji > 0: Aus Lemma 9.8 folgt (n+N +M ) (N ) (n) (M ) pii pij pjj pji ; (n) (n+N +M ) (n) (n+N +M ) und damit: pjj > 0 =) pii > 0 für jedes n: Analog gilt pii > 0 =) pjj > 0: Daraus ergibt sich a). b): n o (n) Die Menge A := n 1 : pii > 0 hat ebenfalls wegen Lemma 9.8 die folgende Halbgruppeneigenschaft: n 2 A; m 2 A =) n + m 2 A: Jede derartige Teilmenge von N hat die Eigenschaft, dass ein n0 2 N existiert mit n ggT (A) 2 A für alle n n0 : Dies sollte aus der Linearen Algebra bekannt sein. (Falls nicht: Übungsaufgabe). Proposition 9.26 Endliche irreduzible Ketten sind rekurrent. P (n) Beweis. I sein endlich. Wegen j pij = 1 folgt, dass für jedes i ein j existiert mit P (n) P (n) n pij = 1: Aus Lemma ?? folgt n pjj = 1: Irreduzible Ketten mit unendlichem I brauchen nicht rekurrent zu sein. Eines der bekanntesten und wichtigsten Beispiele sind Irrfahrten auf Zd : Diese ist natürlich irreduzibel (aber hat Periode 2): Satz 9.27 Die symmetrische Irrfahrt auf Zd (Beispiel 9.9 c)) ist rekurrend für d = 1; 2 und transient für d 3: P (2n) Beweis. Wir müssen einfach die Divergenz von 1 n=0 p00 für d = 1; 2 und die Konvergenz für d 3 nachweisen. Nun haben alle Pfade der Länge 2n dieselbe Wahrscheinlich(2n) keit (2d) 2n : Um p00 = P0 (X2n = 0) zu berechnen, müssen wir dies mit der Anzahl aller Pfade, die nach 2n Schritten in 0 sind, multiplizieren. Für d = 1 ist das ganz einfach. O¤enbar gibt es 2n n derartige Pfade und wir erhalten mit der Sterling-Approximation (für d = 1) : p 2n 4 n 1 (2n) 2n 2n 2n (2n=e) p00 = 2 2 =p : 2n n n (n=e) 2 n (Hier bedeutet für zwei Folgen positiver Zahlen (an ) und (bn ) : limn!1 an =bn = 1:) P (2n) Daraus folgt n p00 = 1: Für d = 2 ist die Sache etwas komplizierter. Um die Pfade zu zählen, die nach 2n Schritten wieder im Nullpunkt sind, unterscheiden wir zunächst danach, wieviele Schritte in “Ost-West-Richtung”und wieviele in “Nord-Süd-Richtung”gemacht werden. Es seien 2k Schritte in “Ost-West-Richtung”und 2n 2k Schritte in “Nord-Süd-Richtung”. Von den 2k Ost-West-Schritten mussen k nach “Ost” und ebensoviele nach “West” gehen und analog müssen sich die Nord-Süd-Schritte aufteilen, damit der Pfad nach den 2n 165 Schritten wieder im 0-Punkt ist. Somit ist die Anzahl der Pfade, die wieder nach 0 gelangen, durch n X 2n 2k k=0 2k k 2n n 2k k = n X (2n)! = (k! (n k)!)2 k=0 2n n 2 (9.11) gegeben. Der erste Faktor auf der linken Seite kommt von der Auswahl der 2k Ost– West-Schritte aus allen 2n Schritten, der zweite von der Auswahl der k Ost-Schritte aus den 2k Ost-West Schritten, und der letzte Faktor analog für die Nord-Süd Schritte. Die zweite Gleichung sei dem Leser als Übungsaufgabe überlassen. Wir erhalten also (2n) p00 =4 2n n n 2 = 2 n 2n n 2 1 n und die Divergenz ist ebenfalls gezeigt. Wir diskutieren nun den Fall d = 3: Der Fall d > 3 kann leicht darauf zurückgeführt werden. Analog wie oben ergibt sich P0 (X2n = 0) = 6 X 2n 0 k1 ;k2 ;k3 k1 +k2 +k3 =n (2n)! =2 (k1 !k2 !k3 !)2 2n 2n n X 0 k1 ;k2 ;k3 k1 +k2 +k3 =n n! k1 !k2 !k3 ! 2 3 2n : Leider gibt es für die rechte Seite keine so einfach Formel mehr wie (9.11), sodass wir etwas mehr arbeiten müssen. X 0 k1 ;k2 ;k3 k1 +k2 +k3 =n n! k1 !k2 !k3 ! 2 max 3 n X n! : k1 + k2 + k3 = n k1 !k2 !k3 ! 0 k1 ;k2 ;k3 k1 +k2 +k3 =n n! 3 k1 !k2 !k3 ! Nun ist die Summe auf der rechten Seite einfach 1; denn k1 !kn!2 !k3 ! 3 n ist die Wahrscheinlichkeit, dass eine Münze, die mit gleicher Wahrscheinlichkeit auf Kopf, Zahl oder Kante fällt, k1 Kopfwürfe, k2 Zahlwürfe und k3 Kantenwürfe in n Würfen hat. Ist n durch 3 teilbar, n = 3m; so ist für k1 + k2 + k3 = 3m : (3m)! k1 !k2 !k3 ! (3m)! ; (m!)3 was man mit einer elementaren Abschätzung nachprüfen kann. Mit Hilfe der StirlingFormel erhalten wir: p 3m 6 m 1 3m (3m)! 3m (3m=e) 3 3 = ; 3 3m 3=2 6 m (m!) (m=e) (6 m) also P0 (X6m = 0) p 1 1 = const m 3 m6 m 166 3=2 : n : Nun ist o¤ensichtlich (6m) p00 1 6 2 (6m 2) p00 (6m) ; p00 4 1 6 (6m 4) p00 und somit folgt 1 X n=0 (n) p00 = 1 X (2n) p00 1 + const n=0 1 X m m=1 3=2 < 1: Der obige Satz stammt von George Pólya, der vom 1920 bis 1940 an der ETH Zürich lehrte. Die Sage geht, dass Pólya den Satz für d = 2 bei ausgedehnten Spaziergängen auf dem Zürichberg fand, bei denen er immer wieder auf die selben Bekannten stiess. George Pólya, 1887-1985 9.4 Gleichgewichtsverteilung De…nition 9.28 Eine Wahrscheinlichkeitsverteilung auf I heisst stationär oder GleichgewichtsverP teilung bezüglich der stochastischen Matrix P = (pij )i;j2I , wenn (j) = i2I (i)pij für alle j 2 I gilt. Wir werden auch Masse auf I betrachten, die keine Wahrscheinlich+ keiten sind, P d.h. einfach Funktionen : I ! R : Ein solches Mass heist invariant, wenn (j) = i2I (i)pij gilt. 167 Bemerkung 9.29 Ist ein invariantes Mass, so gilt natürlich X (n) (j) = (i)pij i2I für alle n 2 N0 : Ist P irreduzibel und ein nichttriviales invariantes Mass (d.h. nicht identisch 0); so folgt daraus sofort, dass (j) > 0 ist für alle j: Ist nämlich i ein Zustand (n) mit (i) > 0 und j beliebig, so existiert n 2 N0 mit pij > 0 und demzufolge gilt (n) (j) (i) pij > 0: Ein wichtiger Spezialfall invarianter Masse liegt vor, wenn die sogenannte “detailed balance” Bedingung erfüllt ist: (i) pij = (j) pji ; i; j 2 I: (9.12) Ein Mass ; das diese Bedingung erfüllt, ist o¤ensichtlich invariant, denn es gilt X X (i) pij = (j) pji = (j) : i i Man muss jedoch betonen, dass in vielen Fällen invariante Masse existieren ohne dass ein Mass existiert, das der detailed balance Bedingung genügt. Ein Beispiel, bei dem die detailed balance Bedingung immer erfüllt ist, sind Irrfahrten auf Graphen. (Beispiel 9.12). Hier erfüllt (e) := jVe j ; e 2 K die Bedingung (9.12), denn es gilt (e) pef = jf v 2 V : '(v) = fe; f g gj; was symmetrisch in e und f ist. (siehe (9.6)). Wir verwenden im folgenden den Ausdruck Gleichgewichtsverteilung für Wahrscheinlichkeiten und “invariantes Mass“ für die allgemeinere Situation. Bemerkung 9.30 a) Betrachten wir eine stationäre Verteilung = ( (i))i2I als Vektor im RI , so erfüllt (als Zeilenvektor aufgefasst) die Gleichung P = . Das heisst, ist ein Linkseigenvektor von P zum Eigenwert 1. In der aus der Linearen Algebra üblichen Notation ist T also ein Eigenvektor von PT zum Eigenwert 1. Man beachte, dass P in jedem Fall den Eigenwert 1 hat, denn es gilt 0 1 0 1 1 1 B .. C B .. C P @.A = @.A : 1 1 Zumindest wenn I endlich ist, folgt daraus, dass auch PT den Eigenwert 1 besitzt. Es ist jedoch im Moment noch nicht klar, ob sich ein Eigenvektor mit nichtnegativen Komponenten …nden lässt. b) Ist stationär, so gilt (j) = X i2I 168 (n) (i)pij ; also P (Xn = j) = (j) für alle j 2 I und n 2 N0 . Das heisst, hat die Marko¤-Kette die Startverteilung , so ist die Verteilung von Xn gleich für alle n 2 N0 . Wir setzen für den Rest des Unterkapitels voraus, dass P irreduzibel ist, d.h. dass ganz I eine Äquivalenzklasse. Wir weisen zunächst nach, dass für rekurrente Ketten stets mindestens ein invariantes Mass exisitiert (jedoch nicht notwendigerweise ein stationäres Wahrscheinlichkeitsmass). Sie k 2 I beliebig. Wir setzen XTk k (i) := Ek n=1 1fXn =ig : Wir zählen also die Anzahl der Besuche in i bis zur ersten Rückkehr nach k und nehmen davon den Erwartungswert unter der Kette, die in i startet. Falls der Erwartungswert nicht existieren sollte, setzen wir k (i) = 1; wir werden jedoch gleich sehen, dass dies nicht eintritt. Proposition 9.31 Sie P irreduzibel und rekurrent und k sei in I: Dann gelten a) k b) k (k) = 1: ist ein invariantes Mass. c) 0 < d) k k (i) < 1 gilt für alle i 2 I: ist das einzige invariante Mass, das a) erfüllt. Beweis. a) ist trivial. Wir beweisen b): Wir bemerken zunächst, dass wir k (i) wie folgt umschreiben können: k (i) = Ek = X1 n=1 1 X X 1fXn =i; n Tk g Pk (Xn = i; Xn 1 = 1 X Pk (Xn = i; n Tk ) n=1 = j; n Tk ) : n=1 j2I Man beachte nun, dass fn Tk g = k 2 = X[1;n 1] ist, d.h. ein Ereignis, das durch die Pfade bis zum Zeitpunkt n 1 beschrieben ist. Anwendung der Marko¤-Eigenschaft (9.3) zum Zietpunkt n 1 ergibt Pk (Xn = i; Xn 1 = j; n Tk ) = Pk (Xn 1 = j; n Tk ) Pj (X1 = i) = Pk (Xn 1 = j; n 1 169 Tk 1) pji : Demzufolge ist k X (i) = pji j2I X = pji X n=1 1 X Pk (Xn X = j; n Pk (Xn = j; n pji Ek j2I = 1 1 Tk Tk 1) 1) n=0 j2I = 1 X k XTk 1 n=0 1fXn =jg = X XTk pji Ek n=1 j2I 1fXn =jg (j) pji : j2I Damit ist b) gezeigt. Wir beweisen c): Aus b) folgt per Induktion sofort X (n) k (i) = k (j) pji j2I für jedes n 2 N0 ; also insbesonder 1 = k (n) (k) k (j) pjk : Wegen der Irreduzibilität (n) existiert für jedes j ein n mit pjk > 0 und somit folgt (n) k (k) pkj folgt auch k (j) Beweis von d): k (n) pkj : (j) < 1 für jedes j: Anderseits = Somit folgt k (j) > 0 für jedes j: sei ein beliebiges invariantes Mass mit (k) = 1: Dann gilt X (j) = (i) pij + pkj i2I:i6=k Nun ersetzen wir (i) auf der rechten Seite durch denselben Ausdruck und erhalten 0 1 X X X X @ (j) = (i1 ) pi1 i + pki A pij + pkj = (i1 ) pi1 i pij + pki pij + pkj i2I:i6=k = X i1 2I:ii 6=k i;i1 2I:i;ii 6=k (i1 ) pi1 i pij + Pk (Tk 2; X2 = j) + Pk (Tk i2I:i6=k 1; X1 = j) : i;i1 2I:i;ii 6=k In dieser Weise fahren wir fort und erhalten schliesslich ! n n+1 X Y X (j) = (in ) pir ;ir 1 pi0 ;j + Pk (Tk i0 ;i1 ;:::;in 6=k n+1 X r=1 r=1 0 r=1 min(Tk ;n+1) Pk (Tk r; Xr = j) = Ek @ 170 X r=1 r; Xr = j) 1 1fXr =1g A : Wegen 0 X lim Ek @ n!1 folgt also 1 min(Tk ;n+1) Tk X 1fXr =1g A = Ek r=1 (j) Wir betrachten nun das Mass := der Vorausssetzung, dass a) erfüllt, 0= k r=1 1fXr =1g ! = k (j) (j) ; 8j: k; das ebenfalls invariant ist. Ferner gilt nach (k) = 0: Somit folgt X (n) (k) = (j) pjk j für alle n: Wegen der Irreduzibilität folgt sofort (j) = 0 fur alle j 2 I: Einer der Hauptsätze über Marko¤-Ketten ist der folgende Satz: Satz 9.32 P sei irreduzibel. Dann sind die folgenden Aussagen a)-c) äquivalent. a) Es existiert eine Gleichgewichtsverteilung (d.h. eine invariante Wahrscheinlichkeitsverteilung) b) Es existiert i 2 I mit Ei (Ti ) = 1 X n=0 (n) nfii < 1: (9.13) c) (9.13) gilt für alle i 2 I: Sind diese Bedingungen erfüllt, so ist die Gleichgewichtsverteilung durch 1 (i) = Ei (Ti ) eindeutig und (9.14) gegeben. Beweis. c)=)b) ist trivial. Wir zeigen b)=)a): Aus Ei (Ti ) < 1 folgt, dass i (und somit die ganze Kette) rekurrent ist. Wir können daher Proposition 9.31 anwenden, die besagt, dass ein invariantes Mass existiert, nämlich k : Nun gilt X j k (j) = X j Ek XTk = Ek (Tk ) = n=1 1 X 1fXn =jg = Ek (n) nfkk = k n=0 Somit ist (j) := k < 1: (j) k 171 XTk X n=1 j 1fXn =jg ein invariantes Wahrscheinlichkeitsmass, d.h. eine Gleichgewichtsverteilung. a)=)c): Sei eine Gleichgewichtsverteilung und k 2 I beliebig. Dann ist ^ (j) := (j) = (k) ein invariantes Mass mit ^ (k) = 1: Nach Proposition 9.31 gilt ^ = k : Nach der vorangegangen Überlegung gilt dann 1 X n=0 (n) nfkk = X k (j) = j X ^ (j) = j 1 < 1: (k) Damit ist c) gezeigt. Die Zusatzaussage des Satzes, dass die Gleichgewichtsverteilung eindeutig ist, folgt sofort aus der vorangegangenen Diskussion, ebenso wie (9.14). De…nition 9.33 P (n) i 2 I heisst positiv rekurrent, wenn Ei (Ti ) = 1 n=0 nfii < 1 gilt. Ist i rekurrent aber nicht positiv rekurrent, so heisst i nullrekurrent. Bemerkung 9.34 Ist P irreduzibel, so folgt aus Satz 9.32 sofort, dass alle Zustände positive rekurrent sind, wenn einer es ist. Es muss betont werden, dass die Gleichgewichtsverteilung, selbst wenn man weiss, dass sie existiert, in der Regel nicht explizit berechnet werden kann. In wichtigen Fällen, vor allem wenn die detailed balance Bedinung (9.12) efüllbar ist, kann man die Gleichgewichtsverteilung “erraten”, wie zum Beispiel bei Irrfahrten auf Graphen, wie wir gesehen haben. Wie wir in diesem Abschnitt gesehen haben, gibt es für eine irreduzible, rekurrente Kette bis auf Multiplikation mit einer Konstanten genau ein invariantes Mass. Für transiente Ketten ist die Situation komplizierter. Es gibt transiente Ketten ohne (nichttriviales) invariantes Mass und solche, die mehrere besitzen. Natürlich kann eine irreduzible transiente Kette kein endliches invariantes Mass besitzen, denn aus Satz 9.32 folgt automatisch die Positivrekurrenz, wenn ein solches existiert. Beispiel 9.35 Wir betrachten die asymmetrische Irrfahrt auf Z: Sie hat die Übergangswahrscheinlichkeiten pi;i 1 = q < p = pi;i+1 ; mit q = 1 p: Die Bedingung für ein invariantes Mass ist (i) = (i 1) p + (i + 1) q: Die allgemeine Lösung dieser Gleichung ist (i) = A + B (p=q)i : Es gilt (i) > 0 für alle i; sofern A und B positiv sind. Es existieren also mehrere invariante Masse. Daraus folgt, dass die Kette transient ist, was man natürlich auch direkt zeigen kann. 172 Ist p = q = 1=2; so ist die Kette, wie wir wissen, rekurrent. Die allgemeine Lösung der obigen Gleichung ist in diesem Fall (i) = A + Bi: Dies erfüllt jedoch nur dann (i) 0; 8i; wenn B = 0 ist, in Übereinstimmung mit dem Satz, dass im rekurrenten Fall ein invariantes Mass eindeutig ist (bis auf skalare Multiplikation). Proposition 9.36 Die symmetrische Irrfahrt für d = 1 und 2 ist nullrekurrent. Beweis. Wir hatten schon gesehen, dass die Irrfahrt rekurrent ist. Es gibt also ein bis auf Multiplikation mit einem Skalar eindeutiges invariantes Mass. Dieses Mass lässt sich einfach erraten: (i) = 1 für alle i: Da dies kein Wahrscheinlichkeitsmass ist, kann die Irrfahrt nicht positiv rekurrent sein, d.h. die Rückkehrzeiten haben keinen endlichen Erwartungswert. Proposition 9.37 Endliche irreduzible Marko¤-Ketten sind positiv rekurrent. Beweis. Wir betrachten einen festen Punkt i 2 I und T := Ti : Wir müssen nur zeigen, (n ) (n ) dass Ei (T ) < 1 gilt. Für jedes j 2 I existiert nj mit pji j > 0: Sie " := minj pji j > 0 und N := max fnj : j 2 Ig : Dann gilt Pj (T N ) " für alle j 2 I: Wir zeigen mit Induktion nach k 2 N; dass Pi (T > kN ) (1 ")k (9.15) ist. Für k = 1 ist das schon gezeigt. Für k > 1 gilt X Pi (T > kN ) = Pi T > (k 1) N; X(k 1)N = j; T > kn 1)N = j Pj (T > n) j:j6=i X = Pi T > (k 1) N; X(k j:j6=i Pi (T > (k 1) N ) max Pj (T > n) j:j6=i (1 ")k 1 (1 ") : Die zweite Gleichung folgt aus der Marko¤-Eigenschaft (9.3) und die letzte Ungleichung benützt die Induktionsvoraussetzung. Damit ist (9.15) gezeigt. Aus dieser Ungleichung folgt sofort Ei (T ) = 1 X Ei T 1fkN <T k=0 1 X N k=0 (1 (k+1)N g ")k (k + 1) < 1: 173 1 X k=0 Pi (T > kN ) (k + 1) N 9.5 Konvergenz gegen die Gleichgewichtsverteilung Wir zeigen in diesem Abschnitt, dass die n-stu…gen Übergangswahrscheinlichkeiten einer irreduziblen, aperiodischen und rekurrenten Marko¤-Kette konvergieren: Satz 9.38 Sei P irreduzibel, aperiodisch und positiv rekurrent mit Gleichgewichtsverteilung : Dann gilt a) Für alle i; j 2 I gilt (n) lim p n!1 ij b) Für eine beliebige Startverteilung = (j) : gilt: lim P (Xn = j) = n!1 (j) ; j 2 I: b) folgt sofort aus a): lim P (Xn = j) = lim n!1 n!1 = X X (n) (i) pij = i (i) (j) = X i (n) (i) lim pij n!1 (j) ; i P P (n) wobei die Vertauschung des Limes mit der Summe wegen i (i) pij i (i) = 1 < 1 gerechtfertigt ist. Der Beweis von a) braucht etwas Vorbereitung. ^ auf I I ein: p^(i;j);(k;l) = pik pjl : Hat P die Wir führen eine stochastische Matrix P ^ die Gleichgewichtsverteilung ^ (i; j) = Gleichgewichtsverteilung ; so hat o¤ensichtlich P (i) (j) : Ferner gilt (n) (n) (n) p^(i;j);(k;l) = pik pjl : ^ Diese Eigenschaften prüft man sehr einfach nach. Es ist allerding nicht richtig, dass P automatisch irreduzibel ist, wenn P es ist. Lemma 9.39 ^ irreduzibel und aperiodisch. Ist P irreduzibel und aperiodisch, so ist P Beweis. Seien i; j; k; l 2 I: Nach Lemma Lemma 9.40 ^ positiv rekurrent. Erfüllt P die Voraussetzungen unseres Satzes, so ist P ^ ist irreduzibel und besitzt eine Gleichgewichtsverteilung. Nach Satz 9.32 folgt Beweis. P damit die Positivrekurrenz. Sei i 2 I beliebig, aber fest gewählt. Wir betrachten nun eine Markovkette mit ^ und Startverteilung = i stochastischer Matrix P ; d.h. (k; l) = ik (l) : ( hängt 174 natürlich von i ab). Die Marko¤-Kette schreiben wir als (Xn ; Yn )n2N0 : (Xn ) und (Yn ) sind einfach zwei unabhängige Marko¤-Ketten, die eine mit Start in i und die andere mit Startverteilung : Sind i0 ; ; : : : ; in und j0 ; : : : ; jn zwei Folgen von Elementen in I; so gilt o¤ensichtlich P X[0;n] = i[0;n] ; Y[0;n] = j[0;n] = Pi X[0;n] = i[0;n] P Y[0;n] = j[0;n] : (9.16) Sei T := inf fn 2 N0 : Xn = Yn g : Lemma 9.41 lim P (T > N ) = 0; N !1 d.h. es gilt P (T < 1) = 1: Wir de…nieren nun eine neue Folge (Zn )n2N0 von I-wertigen Zufallsgrössen: Zn := Xn f u •r n T : Yn f u •r n > T Lemma 9.42 Z0 ; Z1 ; : : : ist eine Marko¤-Kette mit Start in i und stochastischer Matrix P: Beweis. Wir müssen einfach die Gleichung (9.2) für die Z-Folge (für Start in i) nachweisen. Seien i0 ; : : : ; in 2 I: P Z[0;n] = i[0;n] = n X P Z[0;n] = i[0;n] ; T = k + P Z[0;n] = i[0;n] ; T > n P X[0;k] = i[0;k] ; Y[k+1;n] = i[k+1;n] ; Y0 6= i0 ; : : : ; Yk k=0 = n X k=0 +P 1 6= ik X[0;n] = i[0;n] ; Y0 6= i0 ; : : : ; Yn 6= in : Mit (9.16) folgt P X[0;k] = i[0;k] ; Y[k+1;n] = i[k+1;n] ; Y0 6= i0 ; : : : ; Yk = Pi X[0;k] = i[0;k] P = Pi X[0;k] = i[0;k] P 1 6= ik Y[k+1;n] = i[k+1;n] ; Y0 6= i0 ; : : : ; Yk Y[k+1;n] = i[k+1;n] j Y0 6= i0 ; : : : ; Yk P (Y0 6= i0 ; : : : ; Yk 1 6= ik 1 ; Yk = ik ) n Y = i;i0 pij 1 ;ij P (Y0 6= i0 ; : : : ; Yk 1 6= ik j=1 175 1 ; Yk = ik ) ; 1 ; Yk 1 1 = ik 6= ik 6= ik 1 ; Yk 1 ; Yk = ik = ik 1 ; Yk = ik und P X[0;n] = i[0;n] ; Y0 6= i0 ; : : : ; Yn 6= in = i;i0 n Y pij P (Y0 6= i0 ; : : : ; Yn 6= in ) : 1 ;ij j=1 Nun ist n X k=0 P (Y0 6= i0 ; : : : ; Yk 1 6= ik 1 ; Yk = ik ) + P (Y0 6= i0 ; : : : ; Yn 6= in ) = 1: Kombinieren wir diese Gleichungen, so erhalten wir P Z[0;n] = i[0;n] = i;i0 n Y pij 1 ;ij : j=1 Beweis von Satz 9.38 a). (n) pij = P (Zn = j) = P (Zn = j; T = P (Zn = j; T n) + P (Zn = j; T > n) ; (j) = P (Yn = j) = P (Yn = j; T = P (Zn = j; T n) + P (Zn = j; T > n) n) + P (Yn = j; T > n) n) + P (Yn = j; T > n) Somit folgt (n) pij (j) 2P (T > n) ! 0 für n ! 1; nach Lemma 9.41. Bemerkung 9.43 Satz 9.38 muss im periodischen Fall etwas umformuliert werden. Für positiv rekurrente, irreduzible Ketten mit Periode d gilt: d 1 1X P (Xn+k = i) = n!1 d lim (i) k=0 für jede Startverteilung führen. und jedes i 2 I. Wir wollen den Beweis jedoch nicht durch- 176