SS 2014 Diskrete Wahrscheinlichkeitstheorie Susanne Albers Fakultat f ur Informatik TU M unchen http://www14.in.tum.de/lehre/2014SS/dwt/ Sommersemester 2014 DWT c Susanne Albers und Ernst W. Mayr Kapitel 0 Organisatorisches Vorlesungen: Mi 16:00{18:00 und Mi 18:00{19:00 (MI HS1) Pichtvorlesung Bachelor IN, Bioinformatik Modulnr.: IN0018 bung: U 2SWS Tutorubung: siehe Webseite zur Ubung 2SWS (freiwillige) Zentralubung: Do 14:00{15:00 (Physik HS1 Rudolf Mobauer ) Ubungsleitung: Dr. W. Meixner Umfang: 6 ECTS-Punkte 3V+2TU+2Z U, Sprechstunde: nach Vereinbarung DWT c Susanne Albers und Ernst W. Mayr 2/462 bungsleitung: U Dr. Werner Meixner, MI 03.09.040 ([email protected]) Sprechstunde: Donnerstag, 12:00{12:30 nach Vereinbarung Sekretariat: Frau Lissner, MI 03.09.052 ([email protected]) DWT c Susanne Albers und Ernst W. Mayr 3/462 bungsaufgaben: U Ausgabe jeweils am Montag auf der Webseite der Vorlesung, ab 14:00 Uhr Abgabe eine Woche spater, jeweils Mittwoch bis 10:00 Uhr, Briefkasten Westseite Untergeschoss FMI Magistrale Vorbereitung in der Tutorubung vorauss. 12 Ubungsbl atter, das letzte am 07. Juli 2014, jedes 20 Punkte Bonusregelung: Werden mindestens 50% der insgesamt erreichbaren Ubungspunkte erzielt, so verbessert sich die Note einer bestandenen Klausur um 1/3 Notenstufe. Klausur: Klausur am 29. Juli 2014, 11{13 Uhr Wiederholungsklausur am 01. Oktober 2014, 11:30{13:30 Uhr bei den Klausuren sind keine Hilfsmittel auer einem handbeschriebenen DIN-A4-Blatt zugelassen DWT c Susanne Albers und Ernst W. Mayr 4/462 Vorkenntnisse: Einfuhrung in die Informatik I/II Diskrete Strukturen Weiterfuhrende Vorlesungen: Eziente Algorithmen und Datenstrukturen Randomisierte Algorithmen Online- und Approximationsalgorithmen Komplexitatstheorie ... Webseite: http://www14.in.tum.de/lehre/2014SS/dwt/ DWT c Susanne Albers und Ernst W. Mayr 5/462 1. Vorlesungsinhalt Diskrete Wahrscheinlichkeitsraume Wahrscheinlichkeitsraum, Ereignis, Zufallsvariable spezielle Verteilungen Ungleichungen von Markov und Chebyshev Kontinuierliche Wahrscheinlichkeitsraume Normalverteilung, Exponentialverteilung Zentraler Grenzwertsatz Statistik Schatzvariablen Kondenzintervalle Testen von Hypothesen Stochastische Prozesse Markovketten Warteschlangen DWT c Susanne Albers und Ernst W. Mayr 1 Vorlesungsinhalt 6/462 2. Literatur T. Schickinger, A. Steger: Diskrete Strukturen - Band 2, Springer Verlag, 2001 M. Greiner, G. Tinhofer: Stochastik fur Informatiker, Carl Hanser Verlag, 1996 H. Gordon: Discrete Probability, Springer-Verlag, 1997 M. Mitzenmacher, E. Upfal: Probability and Computing: Randomized Algorithms and Probabilistic Analysis, Cambridge University Press, 2005 DWT c Susanne Albers und Ernst W. Mayr 7/462 R. Motwani, P. Raghavan: Randomized Algorithms, Cambridge University Press, 1995 M. Hofri: Probabilistic Analysis of Algorithms, Springer Verlag, 1987 L. Fahrmeir, R. Kunstler, I. Pigeot, G. Tutz: Statistik - Der Weg zur Datenanalyse, Springer-Verlag, 1997 DWT c Susanne Albers und Ernst W. Mayr 2 Literatur 8/462 3. Einleitung Was bedeutet Zufall? Unkenntnis uber den Ausgang eines durchgefuhrten Experiments Ein Experiment wird vielfach mit eventuell sich anderndem Ergebnis ausgefuhrt Ereignisse stehen in keinem kausalen Zusammenhang physikalischer Zufall (Rauschen, Kernzerfall) DWT c Susanne Albers und Ernst W. Mayr 3 Einleitung 9/462 Zufall in der diskreten Informatik Die Eingabe fur einen bestimmten Algorithmus wird aus einer groen Menge moglicher Eingaben zufallig gewahlt: average case Kombination von Worst-Case- und Average-Case-Analyse, in der Eingaben gema einer Verteilung leicht pertubiert werden: smoothed analysis Der Algorithmus verwendet Zufallsbits, um mit groer Wahrscheinlichkeit gewisse Problemsituationen zu vermeiden: Randomisierung DWT c Susanne Albers und Ernst W. Mayr 3 Einleitung 10/462 Kapitel I Diskrete Wahrscheinlichkeitsraume 1. Grundlagen Denition 1 1 2 Ein diskreter Wahrscheinlichkeitsraum ist durch eine Ergebnismenge = f!1 ; !2 ; : : :g von Elementarereignissen gegeben. Jedem Elementarereignis !i ist eine (Elementar-)Wahrscheinlichkeit Pr[!i ] zugeordnet, wobei wir fordern, dass 0 Pr[!i ] 1 und X ! 2 DWT c Susanne Albers und Ernst W. Mayr Pr[!] = 1: 1 Grundlagen 11/462 3 Eine Menge E heit Ereignis. Die Wahrscheinlichkeit Pr[E ] eines Ereignisses ist durch X Pr[E ] := deniert. DWT c Susanne Albers und Ernst W. Mayr ! 2E 1 Grundlagen Pr[!] 12/462 Beispiel 2 Zwei faire Wurfel (einer wei, einer schwarz) werden geworfen. Wir sind an der Gesamtzahl der angezeigten Augen interessiert: = f (1; 1); (1; 2); (1; 3); (1; 4); (1; 5); (1; 6); (2; 1); (2; 2); (2; 3); (2; 4); (2; 5); (2; 6); (3; 1); (3; 2); (3; 3); (3; 4); (3; 5); (3; 6); (4; 1); (4; 2); (4; 3); (4; 4); (4; 5); (4; 6); (5; 1); (5; 2); (5; 3); (5; 4); (5; 5); (5; 6); (6; 1); (6; 2); (6; 3); (6; 4); (6; 5); (6; 6) g DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 13/462 1 Die Wahrscheinlichkeit Pr((i; j )) eines jeden Elementarereignisses (i; j ) ist 361 . 2 Die Wahrscheinlichkeit Pr(E ) des Ereignisses E = fDie Gesamtzahl der Augen ist 10g ist 121 . DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 14/462 Wir hatten aber auch sagen konnen: = f2; 3; 4; : : : ; 10; 11; 12g Die Wahrscheinlichkeiten der Elementarereignisse sind dann aber nicht mehr gleich. Es ist z.B. 1 Pr(2) = 1 ; 36 2 Pr(4) = 1 ; 12 3 Pr(7) = 1 . 6 DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 15/462 Beispiel 3 Eine faire Munze wird so lange geworfen, bis die gleiche Seite zweimal hintereinander fallt. Dann ist = fhh, tt, htt, thh, thtt, hthh, hthtt, ththh, : : :g Frage: Was sind die Wahrscheinlichkeiten der einzelnen Elementarereignisse? DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 16/462 E heit komplementares Ereignis zu E . Allgemein verwenden wir bei der Denition von Ereignissen alle bekannten Operatoren aus der Mengenlehre. Wenn also A und B Ereignisse sind, dann sind auch A [ B , A \ B , A n B etc. Ereignisse. Zwei Ereignisse A und B heien disjunkt oder auch unvereinbar, wenn A \ B = ; gilt. DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 17/462 Denition 4 relative Haugkeit von E absolute Haugkeit von E := Anzahl aller Beobachtungen Anzahl Eintreten von E : = Anzahl aller Beobachtungen DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 18/462 Denition 5 Ein Wahrscheinlichkeitsraum mit = f!1 ; : : : ; !n g heit endlicher Wahrscheinlichkeitsraum. Bei unendlichen Wahrscheinlichkeitsraumen werden wir gewohnlich nur den Fall = N0 betrachten. Dies stellt keine groe Einschrankung dar, da wir statt einer Ergebnismenge = f!1 ; !2 ; : : :g auch N0 als Ergebnismenge verwenden konnen, indem wir !i mit i 1 identizieren. Wir sagen, dass durch die Angabe der Elementarwahrscheinlichkeiten ein Wahrscheinlichkeitsraum auf deniert ist. DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 19/462 Beispiel 6 Wir beobachten die an einer Strae in Bayern vorbeifahrenden Autos. Dabei gelte: 1 Es fahren doppelt so viele Autos von links nach rechts wie von rechts nach links. 2 Von zehn Autos haben zwei die Farbe hellelfenbein, die u brigen eine andere Lackierung. Das Ereignis \Wir beobachten ein von links nach rechts fahrendes Auto" hat die Wahrscheinlichkeit 23 . Das Ereignis \Das nachste Auto ist ein Taxi von rechts" passiert mit Wahrscheinlichkeit 11: 3 5 DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 20/462 Beispiel 7 (Unendlicher Wahrscheinlichkeitsraum) Wir betrachten eine Munze, die mit Wahrscheinlichkeit p Kopf zeigt und mit Wahrscheinlichkeit q := 1 p Zahl. Wir fuhren Versuche aus, indem wir die Munze wiederholt solange werfen, bis Zahl fallt. Das Ergebnis eines solchen Versuchs ist die Anzahl der durchgefuhrten Munzwurfe. Damit ergibt sich hier als Ergebnismenge = N = f1; 2; 3; : : :g : DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 21/462 Beispiel 7 (Forts.) Sei, fur i 2 N, !i das Elementarereignis !i = b Die M unze wird i-mal geworfen : Dann gilt: und Pr[!i ] = pi 1 q ; X ! 2 Pr[!] = 1 X i=1 1 X q pi 1 q = q pi = i=0 1 p =1: (wie es sein soll!) DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 22/462 Lemma 8 Fur Ereignisse A; B; A1 ; A2 ; : : : gilt: 1 Pr[;] = 0, Pr[ ] = 1. 2 3 4 0 Pr[A] 1. Pr[A] = 1 Pr[A]. Wenn A B , so folgt Pr[A] Pr[B ]. DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 23/462 Lemma 8 (Forts.) 5 (Additionssatz) Wenn die Ereignisse A1 ; : : : ; An paarweise disjunkt sind (also wenn fur alle Paare i 6= j gilt, dass Ai \ Aj = ;), so folgt " Pr n [ i=1 # Ai = n X i=1 Pr[Ai ]: Fur disjunkte Ereignisse A, B erhalten wir insbesondere Pr[A [ B ] = Pr[A] + Pr[B ] : Fur eine unendliche Menge von disjunkten Ereignissen A1 ; A2 ; : : : gilt analog " Pr DWT c Susanne Albers und Ernst W. Mayr 1 [ i=1 # Ai = 1 Grundlagen 1 X i=1 Pr[Ai ] : 24/462 Beweis: Die Aussagen folgen unmittelbar aus Denition 1, den Eigenschaften der Addition und der Denition der Summe. DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 25/462 Eigenschaft 5 in Lemma 8 gilt nur fur disjunkte Ereignisse. Fur den allgemeinen Fall erhalten wir folgenden Satz 9 (Siebformel, Prinzip der Inklusion/Exklusion) Fur Ereignisse A1 ; : : : ; An (n 2) gilt: " Pr n [ i=1 # Ai = n X i=1 + ( 1)l + ( DWT c Susanne Albers und Ernst W. Mayr Pr[Ai ] 1 X 1i1 <i2 n X Pr[Ai \ Ai ] + : : : 1 2 Pr[Ai \ : : : \ Ail ] + : : : 1 1i1 <:::<il n n 1 1) Pr[A1 \ : : : \ An ] : 1 Grundlagen 26/462 Satz 9 (Forts.) Insbesondere gilt fur zwei Ereignisse A und B Pr[A [ B ] = Pr[A] + Pr[B ] Pr[A \ B ] : Fur drei Ereignisse A1 , A2 und A3 erhalten wir Pr[A1 [ A2 [ A3 ] = Pr[A1 ] + Pr[A2 ] + Pr[A3 ] Pr[A1 \ A2 ] Pr[A1 \ A3 ] Pr[A2 \ A3 ] +Pr[A1 \ A2 \ A3 ] : DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 27/462 Beweis: Wir betrachten zunachst den Fall n = 2. Dazu setzen wir C := A n B = A n (A \ B ). Gema dieser Denition gilt, dass C und A \ B sowie C und B disjunkt sind. Deshalb konnen wir Eigenschaft 5 von Lemma 8 anwenden: Pr[A] = Pr[C [ (A \ B )] = Pr[C ] + Pr[A \ B ] : Wegen A [ B = C [ B folgt daraus Pr[A [ B ] = Pr[C [ B ] = Pr[C ] + Pr[B ] = Pr[A] Pr[A \ B ] + Pr[B ] und wir haben die Behauptung fur n = 2 gezeigt. DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 28/462 Beweis (Forts.): Der Fall n = 3: A1 A2 A3 Ω Man beachte, dass durch die im Satz angegebene Summe jedes Flachenstuck insgesamt genau einmal gezahlt wird. DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 29/462 Beweis (Forts.): Der allgemeine Fall kann nun durch Induktion uber n gezeigt werden (was wir aber hier nicht ausfuhren!). Satz 9 ndet man manchmal auch unter der Bezeichung Satz von Poincare-Sylvester, nach dem Franzosen Jules Henri Poincare (1854{1912) und dem Englander James Joseph Sylvester (1814{1897) benannt. DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 30/462 Boolesche Ungleichung: Die folgende Abschatzung ist nach George Boole (1815{1864) benannt: Korollar 10 Fur Ereignisse A1 ; : : : ; An gilt " Pr n [ i=1 # Ai n X i=1 Pr[Ai ] : Analog gilt fur eine unendliche Folge von Ereignissen A1 ; A2 ; : : :, dass " Pr DWT c Susanne Albers und Ernst W. Mayr 1 [ i=1 # Ai 1 X i=1 1 Grundlagen Pr[Ai ] : 31/462 Beweis: Zunachst betrachten wir die linke Seite der Ungleichung fur den endlichen Fall und erhalten " # Pr Fur die rechte Seite gilt n [ i=1 n X i=1 Ai = Pr[Ai ] = X S !2 ni=1 Ai n X X i=1 !2Ai Pr[!] : Pr[!] : Jedes Elementarereignis kommt links also genau einmal und rechts mindestens einmal vor. DWT c Susanne Albers und Ernst W. Mayr 1 Grundlagen 32/462 1.1 Wahl der Wahrscheinlichkeiten Frage: Wie konnen Wahrscheinlichkeiten sinnvoll festgelegt werden? Prinzip von Laplace (Pierre Simon Laplace (1749{1827)): Wenn nichts dagegen spricht, gehen wir davon aus, dass alle Elementarereignisse gleich wahrscheinlich sind. Also: Pr[E ] = jjE jj DWT c Susanne Albers und Ernst W. Mayr 1.1 Wahl der Wahrscheinlichkeiten 33/462 1.2 Historische Anfange der Wahrscheinlichkeitstheorie Die ersten Hinweise auf mathematische Untersuchungen zu Problemen der Wahrscheinlichkeitstheorie nden sich in einem Briefwechsel zwischen den franzosischen Mathematikern Pierre Fermat (1601{1665) und Blaise Pascal (1623{1662). Pascal beschaftigte sich neben der Mathematik auch mit Fragestellungen aus dem Bereich der Physik und auch aus der Informatik! Sein Vater hatte als Steuerinspektor in Rouen umfangreiche Rechnungen durchzufuhren und so wurde Pascal zum Bau einer mechanischen Rechenmaschine, der so genannten Pascaline, motiviert. DWT c Susanne Albers und Ernst W. Mayr 1.2 Historische Anfange der Wahrscheinlichkeitstheorie 34/462 In dem Briefwechsel taucht bereits der Ansatz Pr[E ] = jE j=j j zur Berechnung der Wahrscheinlichkeit von E auf. Auch den Begri des Erwartungswerts kann man dort berlegungen zur schon nden. Weder Fermat noch Pascal publizierten ihre U Wahrscheinlichkeitstheorie. Der Niederlander Christiaan Huygens (1629{1695) entwickelte ebenfalls Methoden zum Arbeiten mit Wahrscheinlichkeiten aus. Er publizierte im Jahre 1657 auch eine kleine Arbeit mit dem Titel De ratiociniis in ludo " ber die Gesetzmaigkeiten beim Wurfelspiel). aleae\ (U DWT c Susanne Albers und Ernst W. Mayr 1.2 Historische Anfange der Wahrscheinlichkeitstheorie 35/462 2. Bedingte Wahrscheinlichkeiten Beispiel 11 A und B spielen Poker (52 Karten, 5 Karten pro Spieler, keine getauschten Karten). A halt vier Asse und eine Herz Zwei in der Hand. B kann dieses Blatt nur uberbieten, wenn er einen Straight Flush (funf Karten einer Farbe in aufsteigender Reihenfolge hat. Die Wahrscheinlichkeit fur das Ereignis F := B hat einen Straight Flush\ betragt " 31 = 2;02:: 10 5 : Pr[F ] = jjF jj = 3 528 +57 = 1533939 5 DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 36/462 Beispiel 11 (Forts.) A hat die Karten allerdings gezinkt und wei, dass B nur Kreuz in der Hand halt. Bezeichne nun 0 den Wahrscheinlichkeitsraum aller Moglichkeiten fur B und F 0 das Ereignis, dass B einen Straight Flush der Farbe Kreuz hat: 0 8 0;01 !! Pr[F 0 ] = jjF 0 jj = 128 = 792 5 DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 37/462 Fur Pr[AjB ] erforderliche Eigenschaften: 1 Pr[B jB ] = 1; 2 Pr[Aj ] = Pr[A]; 3 f ur festes B ist Pr[AjB ] proportional zu Pr[A \ B ]. Denition 12 A und B seien Ereignisse mit Pr[B ] > 0. Die bedingte Wahrscheinlichkeit Pr[AjB ] von A gegeben B ist deniert als A \ B] Pr[AjB ] := Pr[Pr[ : B] DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 38/462 Die bedingten Wahrscheinlichkeiten Pr[jB ] bilden fur ein beliebiges Ereignis B mit Pr[B ] > 0 einen neuen Wahrscheinlichkeitsraum uber . Es ist leicht nachzurechnen, dass dadurch die Denition eines diskreten Wahrscheinlichkeitsraums erfullt ist: X ! 2 Pr[!jB ] = Pr[! \ B ] = X Pr[!] = Pr[B ] = 1: Pr[B ] Pr[B ] Pr[B ] ! 2 ! 2B X Damit gelten alle Rechenregeln fur Wahrscheinlichkeiten auch fur bedingte Wahrscheinlichkeiten. Beispielsweise: Pr[;jB ] = 0 sowie Pr[AjB ] = 1 Pr[AjB ] : DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 39/462 Beispiel 13 (Reskalierung bei bedingten Wahrscheinlichkeiten) Betrachte folgenden gezinkten Wurfel: 0,7 Pr[x℄ 0,6 0,5 0,4 0,3 0,2 0,1 0,0 DWT c Susanne Albers und Ernst W. Mayr 0 1 2 3 4 2 Bedingte Wahrscheinlichkeiten 5 6 7 40/462 Beispiel 13 (Forts.) Wir betrachten nun den durch B := f3; 4; 5g gegebenen bedingten Wahrscheinlichkeitsraum: 0,7 0,7 Pr[x℄ 0,6 0,6 0,5 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0,0 0 1 2 DWT c Susanne Albers und Ernst W. Mayr 3 4 5 6 7 0,0 Pr[xjB ℄ 0 1 2 Bedingte Wahrscheinlichkeiten 2 3 4 5 6 7 41/462 Was genau war die Bedingung? Beispiel 14 (Zweikinderproblem) Wir nehmen an, dass bei der Geburt eines Kindes beide Geschlechter gleich wahrscheinlich sind. Wir wissen, dass eine bestimmte Familie zwei Kinder hat und eines davon ein Madchen ist. Wie gro ist die Wahrscheinlichkeit, dass beide Kinder der Familie Madchen sind? Naturlich 12 . Wirklich? DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 42/462 Beispiel 14 (Forts.) Eigentlich gilt: und := fmm; mj; jm; jj g M := fmm; mj; jmg : Wir bedingen auf M , und damit gilt fur A := fmmg: A \ M ] 1=4 1 Pr[AjM ] = Pr[Pr[ = 3=4 = 3 : M] DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 43/462 Beispiel 15 (Ziegenproblem) Sie nehmen an einer Spielshow im Fernsehen teil, bei der Sie eine von drei verschlossenen Turen auswahlen sollen. Hinter einer Tur wartet der Preis, ein Auto, hinter den beiden anderen stehen Ziegen. Sie zeigen auf eine Tur, sagen wir Nummer eins. Sie bleibt vorerst geschlossen. Der Moderator wei, hinter welcher Tur sich das Auto bendet; mit den Worten \Ich gebe Ihnen mal einen kleinen Hinweis" onet er eine andere Tur, zum Beispiel Nummer drei, und eine Ziege schaut heraus und meckert. Er fragt: \Bleiben Sie bei Nummer eins, oder wahlen sie Nummer zwei? " Frage: Welche Strategie ist gunstiger: S1 Der Spieler bleibt immer bei seiner ursprunglichen Wahl. S2 Der Spieler wechselt stets die ausgewahlte Tur. DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 44/462 Beispiel (Forts.) Wir betrachten hier eine Diskussion des Ziegenproblems mit Hilfe von bedingten Wahrscheinlichkeiten. Wir betrachten bei jeder Variante den Fall, dass der Spieler a) die \richtige", b) eine falsche Tur gewahlt hat. Ersteres geschieht mit Wahrscheinlichkeit 31 , Letzteres mit Wahrscheinlichkeit 23 . Mit der vom Moderator gegebenen Information ergeben sich fur die beiden Strategien die folgenden Gewinnwahrscheinlichkeiten: a) b) DWT c Susanne Albers und Ernst W. Mayr S1 ? ? S2 ? ? 2 Bedingte Wahrscheinlichkeiten 45/462 Haug verwendet man die Denition der bedingten Wahrscheinlichkeit in der Form Pr[A \ B ] = Pr[B jA] Pr[A] = Pr[AjB ] Pr[B ] : (1) Damit: Satz 16 (Multiplikationssatz) Seien die Ereignisse A1 ; : : : ; An gegeben. Falls Pr[A1 \ : : : \ An ] > 0 ist, gilt Pr[A1 \ : : : \ An ] = Pr[A1 ] Pr[A2 jA1 ] Pr[A3 jA1 \ A2 ] : : : : : : Pr[An jA1 \ : : : \ An 1 ] : DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 46/462 Beweis: Zunachst halten wir fest, dass alle bedingten Wahrscheinlichkeiten wohldeniert sind, da Pr[A1 ] Pr[A1 \ A2 ] : : : Pr[A1 \ : : : \ An ] > 0. Die rechte Seite der Aussage im Satz konnen wir umschreiben zu Pr[A1 ] Pr[A1 \ A2 ] Pr[A1 \ A2 \ A3 ] : : : Pr[A1 \ : : : \ An ] : 1 Pr[A1 ] Pr[A1 \ A2 ] Pr[A1 \ : : : \ An 1 ] Oensichtlich kurzen sich alle Terme bis auf Pr[A1 \ : : : \ An ]. DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 47/462 Beispiel 17 (Geburtstagsproblem) Wie gro ist die Wahrscheinlichkeit, dass in einer m-kopgen Gruppe zwei Personen am selben Tag Geburtstag haben? Umformulierung: Man werfe m Balle zufallig und gleich wahrscheinlich in n Korbe. Wie gro ist die Wahrscheinlichkeit, dass nach dem Experiment jeder Ball allein in seinem Korb liegt? Fur das Geburtstagsproblem: n = 365 DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 48/462 Oensichtlich muss m n sein, damit uberhaupt jeder Ball allein in einem Korb liegen kann. Wir nehmen an, dass die Balle nacheinander geworfen werden. Ai bezeichne das Ereignis Ball i landet in einem noch leeren Korb\. Das gesuchte Ereignis Alle Balle " " liegen allein in einem Korb\ bezeichnen wir mit A. Nach Satz 16 konnen wir Pr[A] berechnen durch Pr[A] = Pr [\mi=1 Ai ] = Pr[A1 ] Pr[A2 jA1 ] : : : Pr[Am j \mi=11 Ai ]: Unter der Bedingung, dass die ersten j 1 Balle jeweils in einem leeren Korb gelandet sind, bedeutet Aj , dass der j -te Ball in eine der n (j 1) leeren Korbe fallen muss, die aus Symmetriegrunden jeweils mit derselben Wahrscheinlichkeit gewahlt werden. DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 49/462 Daraus folgt Pr[Aj j \ij=11 Ai ] = n (nj 1) = 1 j n 1 : Mit der Abschatzung 1 x e x und wegen Pr[A1 ] = 1 erhalten wir Pr[A] = m Y j =1 m Y 1 j n 1 Pm 1 e (j 1)=n = e (1=n) j=1 j j =2 = e m(m 1)=(2n) DWT c Susanne Albers und Ernst W. Mayr =: f (m) : 2 Bedingte Wahrscheinlichkeiten 50/462 1,0 f (m) 0,8 0,6 0,4 0,2 0,0 0 50 100 DWT c Susanne Albers und Ernst W. Mayr 150 200 250 300 350 2 Bedingte Wahrscheinlichkeiten Verlauf von f (m) fur n = 365 51/462 Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigen wir: Satz 18 (Satz von der totalen Wahrscheinlichkeit) Die Ereignisse A1 ; : : : ; An seien paarweise disjunkt und es gelte B A1 [ : : : [ An . Dann folgt Pr[B ] = n X i=1 Pr[B jAi ] Pr[Ai ] : S Analog gilt fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit B 1 i=1 Ai , dass 1 X Pr[B ] = DWT c Susanne Albers und Ernst W. Mayr i=1 Pr[B jAi ] Pr[Ai ] : 2 Bedingte Wahrscheinlichkeiten 52/462 Beweis: Wir zeigen zunachst den endlichen Fall. Wir halten fest, dass B = (B \ A1 ) [ : : : [ (B \ An ) : Da fur beliebige i; j mit i 6= j gilt, dass Ai \ Aj = ;, sind auch die Ereignisse B \ Ai und B \ Aj disjunkt. Wegen (1) folgt Pr[B \ Ai ] = Pr[B jAi ] Pr[Ai ] (auch fur den Fall, dass Pr[Ai ] = 0!). Wir wenden nun den Additionssatz (Lemma 8, Teil 5) an Pr[B ] = Pr[B \ A1 ] + : : : + Pr[B \ An ] = Pr[B jA1 ] Pr[A1 ] + : : : + Pr[B jAn ] Pr[An ] und haben damit die Behauptung gezeigt. Da der Additionssatz auch fur unendlich viele Ereignisse A1 ; A2 ; : : : gilt, kann dieser Beweis direkt auf den unendlichen Fall ubertragen werden. DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 53/462 Mit Hilfe von Satz 18 erhalten wir leicht einen weiteren nutzlichen Satz: Satz 19 (Satz von Bayes) Die Ereignisse A1 ; : : : ; An seien paarweise disjunkt, mit Pr[Aj ] > 0 fur alle j . Ferner sei B A1 [ : : : [ An ein Ereignis mit Pr[B ] > 0. Dann gilt fur ein beliebiges i = 1; : : : ; n Ai \ B ] P Pr[B jAi ] Pr[Ai ] = n Pr[B jA ] Pr[A ] : Pr[Ai jB ] = Pr[Pr[ B] j j j =1 S Analog gilt fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit B 1 i=1 Ai , dass Ai \ B ] P Pr[B jAi ] Pr[Ai ] Pr[Ai jB ] = Pr[Pr[ = 1 Pr[B jA ] Pr[A ] : B] j j j =1 DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 54/462 Mit dem Satz von Bayes dreht man gewissermaen die Reihenfolge der Bedingung um. Gegeben die Wahrscheinlichkeit von B unter den Bedingungen Ai (sowie die Wahrscheinlichkeiten der Ai selbst), berechnet man die Wahrscheinlichkeit von Ai bedingt auf das Ereignis B . Thomas Bayes (1702{1761) war ein bekannter Theologe und Mitglied der Royal Society. Als sein bedeutendstes Werk gilt sein Beitrag zur Wahrscheinlichkeitstheorie Essay Towards Solving a Problem in the Doctrine of Chances\. Diese Arbeit wurde " erst 1763 publiziert. DWT c Susanne Albers und Ernst W. Mayr 2 Bedingte Wahrscheinlichkeiten 55/462 3. Unabhangigkeit Bei einer bedingten Wahrscheinlichkeit Pr[AjB ] kann der Fall auftreten, dass die Bedingung auf B , also das Vorwissen, dass B eintritt, keinen Einuss auf die Wahrscheinlichkeit hat, mit der wir das Eintreten von A erwarten. Es gilt also Pr[AjB ] = Pr[A], und wir nennen dann die Ereignisse A und B unabhangig. DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 56/462 Beispiel 20 (Zweimaliges Wurfeln) := f(i; j ) j 1 i; j 6g : Alle Elementarereignisse erhalten nach dem Prinzip von Laplace die Wahrscheinlichkeit 361 . Wir denieren die Ereignisse A := Augenzahl im ersten Wurf ist gerade; B := Augenzahl im zweiten Wurf ist gerade; C := Summe der Augenzahlen beider Wurfe betragt 7: Es gilt Pr[A] = Pr[B ] = 12 und Pr[C ] = 16 . Wie gro ist Pr[B jA]? DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 57/462 Beispiel 20 (Forts.) Nach unserer Intuition beeinusst der Ausgang des ersten Wurfs den zweiten Wurf nicht. Daher gewinnen wir durch das Eintreten von A keine Information in Bezug auf das Ereignis B hinzu: B \ A = f(2; 2); (2; 4); (2; 6); (4; 2); (4; 4); (4; 6); (6; 2); (6; 4); (6; 6)g: Daraus folgt 9 36 = 1 = Pr[B ] : 1 2 2 Das Eintreen des Ereignisses B hat mit dem Ereignis A nichts zu tun\. " B \ A] = Pr[B jA] = Pr[Pr[ A] DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 58/462 Denition 21 Die Ereignisse A und B heien unabhangig, wenn gilt Pr[A \ B ] = Pr[A] Pr[B ] : Falls Pr[B ] 6= 0, so konnen wir diese Denition zu A \ B] Pr[A] = Pr[Pr[ = Pr[AjB ] B] umschreiben. DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 59/462 Beispiel 20 (Zweimaliges Wurfeln, Forts.) Zur Erinnerung: A := Augenzahl im ersten Wurf ist gerade; B := Augenzahl im zweiten Wurf ist gerade; C := Summe der Augenzahlen beider Wurfe betragt 7: Bei den Ereignissen A und B ist die Unabhangigkeit klar, da oensichtlich kein kausaler Zusammenhang zwischen den Ereignissen besteht. Wie steht es mit A und C ? A \ C = f(2; 5); (4; 3); (6; 1)g und damit 3 = 1 1 = Pr[A] Pr[C ] bzw. Pr[C jA] = Pr[C ] : Pr[A \ C ] = 36 2 6 DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 60/462 Beispiel 20 (Forts.) Also sind auch A und C (und analog B und C ) unabhangig. Bemerkung: Im Beispiel ist A \ C 6= ;. Es gilt sogar allgemein fur zwei unabhangige Ereignisse A und B mit Pr[A]; Pr[B ] > 0, dass sie gar nicht disjunkt sein konnen, da ansonsten 0 = Pr[;] = Pr[A \ B ] 6= Pr[A] Pr[B ] : DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 61/462 Beispiel 20 (Zweimaliges Wurfeln (Forts.)) Zur Erinnerung: A := Augenzahl im ersten Wurf ist gerade; B := Augenzahl im zweiten Wurf ist gerade; C := Summe der Augenzahlen beider Wurfe betragt 7: Wir betrachten das Ereignis A \ B \ C . Wenn A \ B eintritt, so sind beide gewurfelten Augenzahlen gerade und somit ergibt auch die Summe davon eine gerade Zahl. Daraus folgt Pr[A \ B \ C ] = 0 bzw. Pr[C jA \ B ] = 0 6= Pr[C ]. Das Ereignis A \ B liefert uns also Information uber das Ereignis C . DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 62/462 Denition 22 Die paarweise verschiedenen Ereignisse A1 ; : : : ; An heien unabhangig, wenn fur alle Teilmengen I = fi1 ; : : : ; ik g f1; : : : ; ng mit i1 < i2 < : : : < ik gilt, dass Pr[Ai \ : : : \ Aik ] = Pr[Ai ] : : : Pr[Aik ]: 1 (2) 1 Eine unendliche Familie von paarweise verschiedenen Ereignissen Ai mit i 2 N heit unabhangig, wenn (2) fur jede endliche Teilmenge I N erfullt ist. DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 63/462 Lemma 23 Die (paarweise verschiedenen) Ereignisse A1 ; : : : ; An sind genau dann unabhangig, wenn fur alle (s1 ; : : : ; sn ) 2 f0; 1gn gilt, dass Pr[As1 \ : : : \ Asnn ] = Pr[As1 ] : : : Pr[Asnn ]; 1 1 (3) wobei A0i = Ai und A1i = Ai . DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 64/462 Beweis: Zunachst zeigen wir, dass aus (2) die Bedingung (3) folgt. Wir beweisen dies durch Induktion uber die Anzahl der Nullen in s1 ; : : : ; sn . Wenn s1 = : : : = sn = 1 gilt, so ist nichts zu zeigen. Andernfalls gelte ohne Einschrankung s1 = 0. Aus dem Additionssatz folgt dann Pr[A1 \ As2 \ : : : \ Asnn ] = Pr[As2 \ : : : \ Asnn ] Pr[A1 \ As2 \ : : : \ Asnn ]: 2 2 2 Darauf konnen wir die Induktionsannahme anwenden und erhalten Pr[A1 \ As2 \ : : : \ Asnn ] = Pr[As2 ] : : : Pr[Asnn ] Pr[A1 ] Pr[As2 ] : : : Pr[Asnn ] = (1 Pr[A1 ]) Pr[As2 ] : : : Pr[Asnn ]; woraus die Behauptung wegen 1 Pr[A1 ] = Pr[A1 ] folgt. 2 2 2 2 DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 65/462 Beweis (Forts.): Fur die Gegenrichtung zeigen wir nur, dass aus (3) Pr[A1 \ A2 ] = Pr[A1 ] Pr[A2 ] folgt. Es gilt wegen des Satzes von der totalen Wahrscheinlichkeit, dass Pr[A1 \ A2 ] = = X s3 ;:::;sn 2f0;1g X s3 ;:::;sn 2f0;1g Pr[A1 \ A2 \ As3 \ : : : \ Asnn ] 3 Pr[A1 ] Pr[A2 ] Pr[As3 ] : : : Pr[Asnn ] 3 = Pr[A1 ] Pr[A2 ] = Pr[A1 ] Pr[A2 ]; X s3 =0;1 Pr[As3 ] : : : 3 X sn =0;1 Pr[Asnn ] und es folgt die Behauptung. DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 66/462 Aus der Darstellung in Lemma 23 folgt die wichtige Beobachtung, dass fur zwei unabhangige Ereignisse A und B auch die Ereignisse A und B (und analog auch A und B bzw. A und B ) unabhangig sind! Ebenso folgt: DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 67/462 Lemma 24 Seien A, B und C unabhangige Ereignisse. Dann sind auch A \ B und C bzw. A [ B und C unabhangig. Beweis: Die Unabhangigkeit von A \ B und C folgt unmittelbar aus Denition 22. Aus Pr[(A [ B ) \ C ] = = = = Pr[(A \ C ) [ (B \ C )] Pr[A \ C ] + Pr[B \ C ] Pr[A \ B \ C ] Pr[C ] (Pr[A] + Pr[B ] Pr[A \ B ]) Pr[A [ B ] Pr[C ] folgt die Unabhangigkeit von A [ B und C . DWT c Susanne Albers und Ernst W. Mayr 3 Unabhangigkeit 68/462 4. Zufallsvariablen 4.1 Grundlagen Anstatt der Ereignisse selbst sind wir oft an Auswirkungen\ oder Merkmalen\ der " " (Elementar)Ereignisse interessiert. Denition 25 Sei ein Wahrscheinlichkeitsraum auf der Ergebnismenge gegeben. Eine Abbildung X: !R heit (numerische) Zufallsvariable. Eine Zufallsvariable X uber einer endlichen oder abzahlbar unendlichen Ergebnismenge heit diskret. DWT c Susanne Albers und Ernst W. Mayr 4.1 Grundlagen 69/462 Bei diskreten Zufallsvariablen ist der Wertebereich WX := X ( ) = fx 2 R; 9 ! 2 mit X (!) = xg ebenfalls wieder endlich (bzw. abzahlbar unendlich). DWT c Susanne Albers und Ernst W. Mayr 4.1 Grundlagen 70/462 Beispiel 26 Wir werfen eine ideale Munze drei Mal. Als Ergebnismenge erhalten wir := fH; T g3 . Die Zufallsvariable Y bezeichne die Gesamtanzahl der Wurfe mit Ergebnis Head\. " Beispielsweise gilt also Y (HT H ) = 2 und Y (HHH ) = 3. Y hat den Wertebereich WY = f0; 1; 2; 3g. DWT c Susanne Albers und Ernst W. Mayr 4.1 Grundlagen 71/462 Fur WX = fx1 ; : : : ; xn g bzw. WX = fx1 ; x2 ; : : :g betrachten wir (fur ein beliebiges 1 i n bzw. xi 2 N) das Ereignis Ai := f! 2 ; X (!) = xi g = X 1 (xi ): Bemerkung: Anstelle von Pr[X 1 (xi )] verwendet man haug auch die Schreibweise Pr["X = xi\ ]. Analog setzt man Pr["X xi\ ] = X x2WX : xxi Pr["X = x\ ] = Pr[f! 2 ; X (!) xi g] : Oft lasst man auch die Anfuhrungszeichen weg. DWT c Susanne Albers und Ernst W. Mayr 4.1 Grundlagen 72/462 Denition 27 Die Funktion fX : R 3 x 7! Pr[X = x] 2 [0; 1] (4) nennt man (diskrete) Dichte(funktion) der Zufallsvariablen X . Die Funktion FX : R 3 x 7! Pr[X x] = X x0 2WX : x0 x Pr[X = x0 ] 2 [0; 1] (5) heit Verteilung(sfunktion) der Zufallsvariablen X . DWT c Susanne Albers und Ernst W. Mayr 4.1 Grundlagen 73/462 Beispiel 28 Fur die Zufallsvariable Y erhalten wir Pr[Y = 0] = Pr[T T T ] = 18 ; Pr[Y = 1] = Pr[HT T ] + Pr[T HT ] + Pr[T T H ] = 38 ; Pr[Y = 2] = Pr[HHT ] + Pr[HT H ] + Pr[T HH ] = 38 ; Pr[Y = 3] = Pr[HHH ] = 18 : DWT c Susanne Albers und Ernst W. Mayr 4.1 Grundlagen 74/462 FY fY 1,0 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0,0 0 1 2 3 0,0 0 1 2 3 Dichte und Verteilung von Y Bemerkung: Man kann statt auch den zugrunde liegenden Wahrscheinlichkeitsraum uber WX betrachten. DWT c Susanne Albers und Ernst W. Mayr 4.1 Grundlagen 75/462 4.2 Erwartungswert und Varianz Denition 29 Zu einer Zufallsvariablen X denieren wir den Erwartungswert E[X ] durch E[X ] := sofern P x 2W X Beispiel 30 X x 2W X x Pr[X = x] = X x 2W X x fX (x) ; jxj Pr[X = x] konvergiert. E[Y ] = 3 X i=0 i Pr[Y = i] = 1 Pr[Y = 1] + 2 Pr[Y = 2] + 3 Pr[Y = 3] = 1 83 + 2 83 + 3 18 = 32 : DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 76/462 Beispiel 31 Eine Munze wird so lange geworfen, bis sie zum ersten Mal Head\ zeigt. Sei k die " Anzahl der durchgefuhrten Wurfe. Wenn k ungerade ist, zahlt der Spieler an die Bank k Euro. Andernfalls (k gerade) zahlt die Bank k Euro an den Spieler. ( G := k falls k ungerade; k falls k gerade: Wie schon gesehen, gilt dann Pr["Anzahl Wurfe = k\ ] = (1=2)k : Damit erhalten wir E[G] = DWT c Susanne Albers und Ernst W. Mayr 1 X k=1 ( 1)k 1 k k 4.2 Erwartungswert und Varianz 1 2 : 77/462 Da 1 X k=1 j( 1)k 1 kj k 1 2 1 X k=1 k k 1 2 ; existiert der Erwartungswert E[G]. Es gilt 1 X " 2j # 1 2j 2j 21 E[G] = (2j 1) 12 j =1 1 1 2j 1 X = [(2j 1) j ] 2 j =1 j 1 1 1 X 1 = 2 (j 1) 14 = 12 4 1 2 = 29 : 1 4 j =1 DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 78/462 Wird jedoch, um das Risiko zu steigern, der zu zahlende Betrag von k Euro jeweils auf 2k Euro erhoht, also ( 2k falls k ungerade; G0 := 2k falls k gerade ; dann existiert E[G0 ] nicht, da k 1 X 1 0 k 1 k E[G ] = ( 1) 2 k=1 = DWT c Susanne Albers und Ernst W. Mayr 1 X k=1 2 ( 1)k 1 = +1 1 + 1 1 + : : : : 4.2 Erwartungswert und Varianz 79/462 Berechnung des Erwartungswerts: E[X ] = = = X x 2W X X x Pr[X = x] = x X x2WX !2 :X (!)=x X ! 2 X x 2W X x fX (x) Pr[!] X (!) Pr[!] : Bei unendlichen Wahrscheinlichkeitsr aumen ist dabei analog zur Denition des P Erwartungswerts erforderlich, dass !2 jX (! )j Pr[! ] konvergiert (absolute Konvergenz). DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 80/462 Satz 32 (Monotonie des Erwartungswerts) Seien X und Y Zufallsvariablen uber dem Wahrscheinlichkeitsraum mit X (!) Y (!) fur alle ! 2 . Dann gilt E[X ] E[Y ]. Beweis: E[X ] = DWT c Susanne Albers und Ernst W. Mayr X ! 2 X (!) Pr[!] X ! 2 Y (!) Pr[!] = E[Y ] : 4.2 Erwartungswert und Varianz 81/462 Aus Satz 32 folgt insbesondere, dass a E[X ] b gilt, wenn fur die Zufallsvariable X die Eigenschaft a X (! ) b fur alle ! 2 erfullt ist. DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 82/462 4.2.1 Rechenregeln fur den Erwartungswert Oft betrachtet man eine Zufallsvariable X nicht direkt, sondern wendet noch eine Funktion darauf an: Y := f (X ) = f X ; wobei f : D ! R eine beliebige Funktion sei mit WX D R. Beobachtung: f (X ) ist wieder eine Zufallsvariable. DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 83/462 Aus Pr[Y = y] = Pr[f! j f (X (!)) = yg] = X x : f (x)=y Pr[X = x] folgt E[f (X )] = E[Y ] = = = X y2WY X ! 2 DWT c Susanne Albers und Ernst W. Mayr X y 2W Y y y Pr[Y = y] X x : f (x)=y Pr[X = x] = f (X (!)) Pr[!] : 4.2 Erwartungswert und Varianz X x 2W X f (x) Pr[X = x] 84/462 Satz 33 (Linearitat des Erwartungswerts, einfache Version) Fur eine beliebige Zufallsvariable X und a; b 2 R gilt E[a X + b] = a E[X ] + b : Beweis: E[a X + b] = X x 2W X =a (a x + b) Pr[X = x] X x 2W X x Pr[X = x] + b = a E[X ] + b : DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz X x2WX Pr[X = x] 85/462 Satz 34 Sei X eine Zufallsvariable mit WX N0. Dann gilt E[X ] = 1 X i=1 Pr[X i] : Beweis: E[X ] = = DWT c Susanne Albers und Ernst W. Mayr 1 X i=0 i Pr[X = i] = 1 X 1 X j =1 i=j i 1 X X i=0 j =1 Pr[X = i] = 1 X j =1 4.2 Erwartungswert und Varianz Pr[X = i] Pr[X j ] : 86/462 Denition 35 Sei X eine Zufallsvariable und A ein Ereignis mit Pr[A] > 0. Die bedingte Zufallsvariable X jA besitzt die Dichte fX jA (x) := Pr[X = x j A] = Pr["X = x\ \ A] : Pr[A] Die Denition von fX jA ist zulassig, da X x 2W X fX jA (x) = Pr["X = x\ \ A] = Pr[A] = 1 : Pr[A] Pr[A] x2 W X X Der Erwartungswert E[X jA] der Zufallsvariablen X jA berechnet sich entsprechend: E[X jA] = DWT c Susanne Albers und Ernst W. Mayr X x2 W X x fX jA (x) : 4.2 Erwartungswert und Varianz 87/462 Satz 36 Sei X eine Zufallsvariable. Fur paarweise disjunkte Ereignisse A1 ; : : : ; An mit A1 [ : : : [An = und Pr[A1]; : : : ; Pr[An] > 0 gilt E[X ] = n X i=1 E[X jAi ] Pr[Ai ] : S Fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit 1 i=1 Ak = und Pr[A1 ], Pr[A2 ]; : : : > 0 gilt analog E[X ] = 1 X i=1 E[X jAi ] Pr[Ai ]; sofern die Erwartungswerte auf der rechten Seite alle existieren und die Summe P1 i=1 jE[X jAi ]j Pr[Ai ] konvergiert. DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 88/462 Beweis: E[X ] = = X x2WX n X i=1 x Pr[X = x] = Pr[Ai ] X x2WX X x2 W X x n X i=1 Pr[X = xjAi ] Pr[Ai ] x Pr[X = xjAi ] = n X i=1 Pr[Ai ] E[X jAi ]: Der Beweis fur den unendlichen Fall verlauft analog. DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 89/462 Beispiel 37 Wir werfen eine Munze so lange, bis zum ersten Mal Kopf\ erscheint. Dies geschehe " in jedem Wurf unabhangig mit Wahrscheinlichkeit p. Wir denieren dazu die Zufallsvariable X := Anzahl der Wurfe\. Wir haben bereits gesehen, dass " Pr[X = k] = p(1 p)k 1 und damit E[X ] = DWT c Susanne Albers und Ernst W. Mayr 1 X k=1 k p(1 p)k 1 = p 1 1 (1 (1 p))2 = p : 90/462 Beispiel 37 Andere Berechnungsmethode: (gestutzt auf Satz 36) Deniere das Ereignis K1 := "Im ersten Wurf fallt Kopf\ : Oensichtlich gilt E[X jK1 ] = 1. Nehmen wir nun an, dass im ersten Wurf nicht Kopf\ gefallen ist. Wir starten das " Experiment neu. DWT c Susanne Albers und Ernst W. Mayr 90/462 Beispiel 37 Sei X 0 die Anzahl der Wurfe bis zum ersten Auftreten von Kopf\ im neu gestarteten " Experiment. Wegen der Gleichheit der Experimente gilt E[X 0 ] = E[X ]. Damit schlieen wir E[X jK 1 ] = 1 + E[X 0 ] = 1 + E[X ] und erhalten mit Satz 36: E[X ] = E[X jK1 ] Pr[K1 ] + E[X jK 1 ] Pr[K 1 ] = 1 p + (1 + E[X ]) (1 p) : Daraus ergibt sich wiederum E[X ] = 1=p. DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 90/462 4.2.2 Varianz Wir betrachten die beiden folgenden Zufallsexperimente: 1 Wir w urfeln (mit einem fairen Wurfel), bei gerader Augenzahl erhalten wir 1 Euro, bei ungerader Augenzahl mussen wir 1 Euro bezahlen. 2 Wir w urfeln (mit einem fairen Wurfel), bei 6 Augen erhalten wir 5 Euro, ansonsten mussen wir 1 Euro bezahlen. Beobachtung: In beiden Fallen ist der erwartete Gewinn = 0. Dennoch sind die Schwankungen\ im ersten Fall geringer als im zweiten. " DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 91/462 Eine nahe liegende Losung ware, E[jX j] zu berechnen, wobei = E[X ] sei. Dies scheitert jedoch meist an der unhandlichen\ " Betragsfunktion. Aus diesem Grund betrachtet man stattdessen E[(X )2 ], also die quadratische Abweichung vom Erwartungswert. Denition 38 Fur eine Zufallsvariable X mit = E[X ] denieren wir die Varianz Var[X ] durch Var[X ] := E[(X )2 ] = Die Groe := X x2WX (x )2 Pr[X = x] : p Var[X ] heit Standardabweichung von X . DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 92/462 Satz 39 Fur eine beliebige Zufallsvariable X gilt Var[X ] = E[X 2 ] E[X ]2 : Beweis: Sei := E[X ]. Nach Denition gilt Var[X ] = E[(X )2 ] = E[X 2 2 X + 2 ] X = (x2 2 x + 2 ) Pr[X = x] = x2WX X x2WX x2 Pr[X = x] = E[X 2 ] = E[X 2 ] X x2WX 2 x Pr[X = x] + 2 E[X ] + 2 E[X ]2 : DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz X x 2W X 2 Pr[X = x] 93/462 Beispiel 40 1 Wir wurfeln (mit einem fairen Wurfel), bei gerader Augenzahl erhalten wir 1 Euro, bei ungerader Augenzahl mussen wir 1 Euro bezahlen. Es ist = 0 und Var[X ] = 2 1 12 + 1 ( 1)2 = 1 : 2 2 Wir wurfeln (mit einem fairen Wurfel), bei 6 Augen erhalten wir 5 Euro, ansonsten mussen wir 1 Euro bezahlen. Es ist 1 5 = 0 und Var[X ] = 52 + ( 1)2 = 5 : 6 DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 6 94/462 Satz 41 Fur eine beliebige Zufallsvariable X und a; b 2 R gilt Var[a X + b] = a2 Var[X ] : DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 95/462 Beweis: Aus der in Satz 33 gezeigten Linearitat des Erwartungswerts folgt E[Y Zusammen mit der Denition der Varianz ergibt sich damit sofort Y Var[ + b] = E[(Y + b E[Y + b])2 ] = E[(Y + b] = E[Y ] + b. E[Y ])2 ] = Var[Y ] : Weiter folgt mit Satz 39: a X ] = E[(aX )2 ] Var[ E[aX ]2 = a2 E[X 2 ] aE[X ])2 = a2 Var[X ] ; ( und daraus zusammen die Behauptung. DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 96/462 Der Erwartungswert und die Varianz gehoren zu den so genannten Momenten einer Zufallsvariablen: Denition 42 Fur eine Zufallsvariable X nennen wir E[X k ] das k-te Moment und E[(X das k-te zentrale Moment. E[X ])k ] Der Erwartungswert ist also identisch zum ersten Moment, wahrend die Varianz dem zweiten zentralen Moment entspricht. DWT c Susanne Albers und Ernst W. Mayr 4.2 Erwartungswert und Varianz 97/462 4.3 Mehrere Zufallsvariablen Beispiel 43 Aus einem Skatblatt mit 32 Karten ziehen wir zufallig eine Hand von zehn Karten sowie einen Skat von zwei Karten. Unter den Karten gibt es vier Buben. Die Zufallsvariable X zahlt die Anzahl der Buben in der Hand, wahrend Y die Anzahl der Buben im Skat angibt. Die Werte von X und Y hangen oensichtlich stark voneinander ab. Beispielsweise muss Y = 0 sein, wenn X = 4 gilt. Wie kann man mit mehreren Zufallsvariablen uber demselben Wahrscheinlichkeitsraum rechnen, auch wenn sie, wie im obigen Beispiel, sehr voneinander abhangig sind? Wir untersuchen Wahrscheinlichkeiten der Art Pr[X = x; Y = y] = Pr[f!; X (!) = x; Y (!) = yg] : DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 98/462 Beispiel 44 Wenn wir nur die Zufallsvariable X betrachten, so gilt fur 0 x 4 Pr[X = x] = 4 28 : 32 10 x 10 x Allgemein nennt man Zufallsvariablen mit der Dichte Pr[X = x] = b a x r x a+b r hypergeometrisch verteilt. Durch diese Dichte wird ein Experiment modelliert, bei dem r Elemente ohne Zurucklegen aus einer Grundmenge der Machtigkeit a + b mit b besonders ausgezeichneten Elementen gezogen werden. DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 99/462 Beispiel 44 (Forts.) Die Zufallsvariable Y ist fur sich gesehen ebenfalls hypergeometrisch verteilt mit b = 4, a = 28 und r = 2. Fur X und Y zusammen gilt jedoch z.B. Pr[X = 4; Y = 1] = 0; und allgemein Pr[X = x; Y = y] = 4 28 4 x 28 (10 x) y 2 y : 32 22 10 2 x 10 x Bemerkung: Die Schreibweise Pr[X = x; Y = y] stellt eine Abkurzung von Pr["X = x ^ Y = y\ ] dar. Ein anderes Beispiel ist p Pr[X x; Y y1 ; Y = y2 ] : DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 100/462 Die Funktion fX;Y (x; y) := Pr[X = x; Y = y] heit gemeinsame Dichte der Zufallsvariablen X und Y . Aus der gemeinsamen Dichte fX;Y kann man ableiten fX (x) = X y 2W Y fX;Y (x; y) bzw. fY (y) = X x 2W X fX;Y (x; y) : Die Funktionen fX und fY nennt man Randdichten. DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 101/462 Die Ereignisse Y " es gilt daher = y\ bilden eine Partitionierung des Wahrscheinlichkeitsraumes, und Pr[X = x] = X y2WY Pr[X = x; Y = y] = fX (x) : Die Dichten der einzelnen Zufallsvariablen entsprechen also genau den Randdichten. Fur zwei Zufallsvariablen deniert man die gemeinsame Verteilung FX;Y (x; y) = Pr[X x; Y y] = Pr[f!; X (!) x; Y (!) yg] X X = fX;Y (x0 ; y0 ) : x0 x y0 y DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 102/462 Die Randverteilung ergibt sich gema FX (x) = sowie FY (y) = DWT c Susanne Albers und Ernst W. Mayr X x0 x X y0 y fX (x0 ) = fY (y0 ) = X X x0 x y2WY X X y0 y x2WX 4.3 Mehrere Zufallsvariablen fX;Y (x0 ; y) fX;Y (x; y0 ) : 103/462 4.3.1 Unabhangigkeit von Zufallsvariablen Denition 45 Die Zufallsvariablen X1 ; : : : ; Xn heien unabhangig, wenn fur alle (x1 ; : : : ; xn ) 2 WX1 : : : WXn gilt Pr[X1 = x1 ; : : : ; Xn = xn ] = Pr[X1 = x1 ] : : : Pr[Xn = xn ] : Alternativ: fX1 ;:::;Xn (x1 ; : : : ; xn ) = fX1 (x1 ) : : : fXn (xn ) : Bei unabhangigen Zufallsvariablen ist also die gemeinsame Dichte gleich dem Produkt der Randdichten. Ebenso gilt FX1 ;:::;Xn (x1 ; : : : ; xn ) = FX1 (x1 ) : : : FXn (xn ) : DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 104/462 Satz 46 Seien X1 ; : : : ; Xn unabhangige Zufallsvariablen und S1 ; : : : ; Sn beliebige Mengen mit Si WXi . Dann sind die Ereignisse "X1 2 S1\, . . . , "Xn 2 Sn\ unabhangig. Beweis: Pr[X1 2 S1 ; : : : ; Xn 2 Sn ] X X = ::: Pr[X1 = x1 ; : : : ; Xn = xn ] x1 2S1 = Unabh. 0 =@ X xn 2Sn x 1 2S 1 X x1 2S1 ::: X x n 2S n Pr[X1 = x1 ] : : : Pr[Xn = xn ] 1 Pr[X1 = x1 ]A : : : X xn 2Sn ! Pr[Xn = xn ] = Pr[X1 2 S1 ] : : : Pr[Xn 2 Sn ] : DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 105/462 Satz 47 Seien f1 ; : : : ; fn reellwertige Funktionen (fi : R ! R fur i = 1; : : : ; n). Wenn die Zufallsvariablen X1 ; : : : ; Xn unabhangig sind, dann gilt dies auch fur f1 (X1 ); : : : ; fn (Xn ). Beweis: Sei zi 2 Wfi (Xi ) fur i = 1; : : : ; n und Si = fx; fi (x) = zi g. Pr[f1 (X1 ) = z1 ; : : : ; fn (Xn ) = zn ] = Pr[X1 2 S1 ; : : : ; Xn 2 Sn ] = Pr[X1 2 S1 ] : : : Pr[Xn 2 Sn ] = Pr[f1 (X1 ) = z1 ] : : : Pr[fn (Xn ) = zn ] : Unabh. DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 106/462 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Wurfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewurfelten Augenzahlen. Fur Z gilt z.B.: Pr[Z = 1] = Pr[;] = 0, Pr[Z = 4] = Pr[f(1; 3); (2; 2); (3; 1)g] = 363 . DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 107/462 Fur die Verteilung der Summe zweier unabhangiger Zufallsvariablen gilt der folgende Satz: Satz 49 Fur zwei unabhangige Zufallsvariablen X und Y sei Z fZ (z ) = DWT c Susanne Albers und Ernst W. Mayr X x2 W X := X + Y . Es gilt fX (x) fY (z x) : 4.3 Mehrere Zufallsvariablen 108/462 Beweis: Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass fZ (z ) = Pr[Z = z ] = = = X x 2W X X x 2W X X x 2W X Pr[X + Y = z j X = x] Pr[X = x] Pr[Y = z x] Pr[X = x] fX (x) fY (z x) : P Den Ausdruck x2WX fX (x) fY (z x) aus Satz 49 nennt man in Analogie zu den entsprechenden Begrien bei Potenzreihen auch Faltung oder Konvolution der Dichten fX und fY . DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 109/462 Beispiel (Forts.) Berechne die Dichte von Z =X +Y: Pr[Z = z ] = = X x2WX Pr[X = x] Pr[Y = z x] 6;z 1g 1 Pr[Y = z x] = minfX 1: 6 36 x=1 x=maxf1;z 6g 6 X Fur 2 z 7 erhalten wir Pr[Z = z ] = Und fur 7 < z 12: DWT c Susanne Albers und Ernst W. Mayr z 1 X 1 = z 1: 36 36 i=1 Pr[Z = z ] = 1336 z : 4.3 Mehrere Zufallsvariablen 110/462 4.3.3 Momente zusammengesetzter Zufallsvariablen Satz 50 (Linearitat des Erwartungswerts) Fur Zufallsvariablen X1 ; : : : ; Xn und X := a1 X1 + + an Xn mit a1 ; : : : ; an 2 R gilt E[X ] = a1 E[X1 ] + + an E[Xn ] : Beweis: E[X ] = = = X ! 2 a1 X1 (! ) + : : : + an Xn (! )) Pr[! ] ( a1 X ! 2 X1 (! ) Pr[! ] ! + + an a1 E[X1 ] + : : : + an E[Xn ] : DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen X ! 2 Xn (! ) Pr[! ] ! 111/462 Beispiel 51 n betrunkene Seeleute torkeln nach dem Landgang in ihre Kojen. Sie haben vollig die Orientierung verloren, weshalb wir annehmen, dass jede Zuordnung der Seeleute zu den n Betten gleich wahrscheinlich ist (genau ein Seemann pro Bett). Wie viele Seeleute liegen im Mittel im richtigen Bett? Die Anzahl der Seeleute im richtigen Bett zahlen wir mit der Zufallsvariablen X , die als Summe der Zufallsvariablen X1 ; : : : ; Xn dargestellt wird, wobei ( Xi := Oenbar gilt X 1 falls Seemann i in seinem Bett liegt, 0 sonst. := X1 + + Xn . DWT c Susanne Albers und Ernst W. Mayr 112/462 Beispiel 51 Fur die Variablen Xi erhalten wir Pr[Xi = 1] = n1 , da jedes Bett von Seemann i mit gleicher Wahrscheinlichkeit aufgesucht wird. Daraus folgt 1 und somit E[Xi ] = 0 Pr[Xi = 0] + 1 Pr[Xi = 1] = ; n E[X ] = n X i=1 E[Xi ] = n X i=1 1 = 1: n Im Mittel hat also nur ein Seemann sein eigenes Bett aufgesucht. DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 112/462 Satz 52 (Multiplikativitat des Erwartungswerts) Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn gilt E[X1 Xn ] = E[X1 ] E[Xn ] : Beweis: Wir beweisen den Fall n = 2. Der allgemeine Fall ist analog. E[X Y ] = X X xy Pr[X = x; Y = y] x2WX y2WY Unabh: X X = = x2WX y2WY X x2WX x Pr[X = x] = E[X ] E[Y ] : DWT c Susanne Albers und Ernst W. Mayr xy Pr[X = x] Pr[Y = y] X y 2W Y 4.3 Mehrere Zufallsvariablen y Pr[Y = y] 113/462 Dass fur die Gultigkeit von Satz 52 die Unabhangigkeit der Zufallsvariablen wirklich notwendig ist, sieht man beispielsweise am Fall Y = X fur eine Zufallsvariable mit einer von Null verschiedenen Varianz. Dann gilt E[X Y ] = E[X 2 ] 6= (E[X ])2 = E[X ] E[Y ] : DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 114/462 Denition 53 Zu einem Ereignis A heit die Zufallsvariable ( IA := 1 falls A eintritt; 0 sonst Indikatorvariable des Ereignisses A. Beobachtung: Fur die Indikatorvariable IA gilt nach Denition E[IA ] = 1 Pr[A] + 0 Pr[A] = Pr[A] : Ebenso gilt E[IA : : : IAn ] = Pr[A1 \ : : : \ An ]; 1 da das Produkt von Indikatorvariablen genau dann gleich 1 ist, wenn alle entsprechenden Ereignisse eintreten. DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 115/462 Beispiel (Forts.) Wir betrachten wieder das Beispiel der total betrunkenen Matrosen. Sei Ai das Ereignis, dass der i-te Seemann im richtigen Bett liegt. Mit der Notation der Indikatorvariablen sei Xi = IAi . Dann gilt fur beliebige i; j 2 f1; : : : ; ng, i 6= j : E[Xi Xj ] = E[IAi IAj ] = Pr[Ai \ Aj ] = sowie 1 n(n 1) ; E[Xi2 ] = 02 Pr[Ai ] + 12 Pr[Ai ] = Pr[Ai ] = 1=n: DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 116/462 Beispiel (Forts.) Daraus folgt wegen der Linearitat des Erwartungswerts fur X E[X 2 ] = 2 3 n n X X X E 4 Xi2 + Xi Xj 5 i=1 = X1 + + Xn : i=1 j 6=i = n n1 + n(n 1) n(n1 1) = 2 : Fur die Varianz erhalten wir somit den Wert Var[X ] = E[X 2 ] E[X ]2 = 2 1 = 1: DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 117/462 Einfacher Beweis fur Satz 9 mit Hilfe von Indikatorvariablen: Zur Erinnerung: Satz 9 (Siebformel, Prinzip der Inklusion/Exklusion) Fur Ereignisse A1 ; : : : ; An (n 2) gilt: " Pr n [ i=1 # Ai = n X i=1 + ( 1)l +( DWT c Susanne Albers und Ernst W. Mayr Pr[Ai ] 1 X 1i1 <i2 n X Pr[Ai \ Ai ] + : : : 1 2 Pr[Ai \ : : : \ Ail ] + : : : 1 1i1 <:::<il n n 1 1) Pr[A1 \ : : : \ An ] : 4.3 Mehrere Zufallsvariablen 118/462 Beweis: Zur Erinnerung: Zu Ereignissen A1 ; : : : ; An wollen wir die Wahrscheinlichkeit Pr[B ] des Ereignisses B := A1 [ : : : [ An ermitteln. Wir betrachten die Indikatorvariablen Ii := IAi der Ereignisse A1 ; : : : ; An und die Indikatorvariable I des Ereignisses B . Qn B Das Produkt i=1 (1 Ii ) ist genau dann gleich 1, wenn I1 = : : : = In = 0, d.h. Q wenn B nicht eintritt. Somit gilt IB = ni=1 (1 Ii ) und wir erhalten: IB = 1 X 1in Ii + X 1i1 <i2 n Ii1 Ii2 + : : : + ( 1)n I1 : : : In ; also IB = 1 IB X = Ii 1in DWT c Susanne Albers und Ernst W. Mayr X 1i1 <i2 n Ii1 Ii2 + : : : + ( 1)n 1 I1 : : : In : 119/462 Beweis: Wegen der Eigenschaften von Indikatorvariablen gilt Pr[B ] = 1 Pr[B ] = 1 E[IB ]: Mit Hilfe von Satz 50 verteilen\ wir den Erwartungswert auf die einzelnen Produkte " von Indikatorvariablen. Wenn wir nun E[Ii ] durch Pr[Ai ] und allgemein E[Ii1 : : : Iik ] durch Pr[Ai1 \ : : : \ Aik ] ersetzen, haben wir Satz 9 (dieses Mal vollstandig) bewiesen. DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 119/462 Satz 54 Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn und X := X1 + : : : + Xn gilt Var[X ] = Var[X1 ] + : : : + Var[Xn ] : Beweis: Wir betrachten nur den Fall n = 2 mit den Zufallsvariablen X und Y . E[(X + Y )2 ] = E[X 2 + 2XY + Y 2 ] = E[X 2 ] + 2E[X ]E[Y ] + E[Y 2 ] E[X + Y ]2 = (E[X ] + E[Y ])2 = E[X ]2 + 2E[X ]E[Y ] + E[Y ]2 Wir ziehen die zweite Gleichung von der ersten ab und erhalten E[(X + Y )2 ] E[X + Y ]2 = E[X 2 ] E[X ]2 + E[Y 2 ] Mit Hilfe von Satz 39 folgt die Behauptung. DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen E[Y ]2 : 120/462 Fur abhangige Zufallsvariablen X1 ; : : : ; Xn gilt Satz 54 im Allgemeinen nicht. Als Beispiel funktioniert wiederum der Fall X = Y : Var[X + Y ] = 0 6= 2 Var[X ] = Var[X ] + Var[Y ] : DWT c Susanne Albers und Ernst W. Mayr 4.3 Mehrere Zufallsvariablen 121/462 5. Wichtige diskrete Verteilungen Wir diskutieren nun einige wichtige diskrete Verteilungen. Bei diesen Verteilungen handelt es sich um Funktionen, die von gewissen Parametern abhangen. Eigentlich betrachten wir also immer eine ganze Familie von ahnlichen Verteilungen. DWT c Susanne Albers und Ernst W. Mayr 5.0 Mehrere Zufallsvariablen 122/462 5.1 Bernoulli-Verteilung Eine Zufallsvariable X mit WX = f0; 1g und der Dichte ( fX (x) = p 1 fur x = 1; p fur x = 0: heit Bernoulli-verteilt. Den Parameter p nennen wir Erfolgswahrscheinlichkeit. Eine solche Verteilung erhalt man z.B. bei einer einzelnen Indikatorvariablen. Es gilt mit q := 1 p E[X ] = p und Var[X ] = pq; wegen E[X 2 ] = p und Var[X ] = E[X 2 ] E[X ]2 = p p2 . DWT c Susanne Albers und Ernst W. Mayr 5.1 Bernoulli-Verteilung 123/462 Der Name der Bernoulli-Verteilung geht zuruck auf den Schweizer Mathematiker Jakob Bernoulli (1654{1705). Wie viele andere Mathematiker seiner Zeit hatte auch Bernoulli nach dem Wunsch seines Vaters ursprunglich Theologe werden sollen. Sein Werk ars conjectandi stellt eine der ersten Arbeiten dar, die sich mit dem Teil der Mathematik beschaftigen, den wir heute als Wahrscheinlichkeitstheorie bezeichnen. DWT c Susanne Albers und Ernst W. Mayr 5.1 Bernoulli-Verteilung 124/462 5.2 Binomialverteilung Eine Bernoulli-verteilte Zufallsvariable entspricht der Verteilung einer Indikatorvariablen. Haug betrachtet man jedoch Summen von Indikatorvariablen. Denition 55 Sei X := X1 + : : : + Xn als Summe von n unabhangigen, Bernoulli-verteilten Zufallsvariablen mit gleicher Erfolgswahrscheinlichkeit p deniert. Dann heit X binomialverteilt mit den Parametern n und p. In Zeichen schreiben wir X Bin(n; p) : DWT c Susanne Albers und Ernst W. Mayr 5.2 Binomialverteilung 125/462 Es gilt WX = f0; : : : ; ng. Die Binomialverteilung besitzt die Dichte fX (x) := b(x; n; p) = n x n pq x x mit q := 1 p. Da die Binomialverteilung eine sehr wichtige Rolle spielt, fuhren wir fur die Dichtefunktion die Abkurzung b(x; n; p) ein. Mit den Satzen uber Erwartungswert und Varianz von Summen unabhangiger Zufallsvariablen erhalten wir sofort E[X ] = np und Var[X ] = npq : DWT c Susanne Albers und Ernst W. Mayr 5.2 Binomialverteilung 126/462 0,4 b(x; 0,4 10; 0:1) 0,3 0,3 0,2 0,2 0,1 0,1 0,0 0 1 2 3 4 5 0,4 6 b(x; 7 8 9 10 0,0 0,3 0,2 0,2 0,1 0,1 0 1 2 3 4 5 6 7 8 0 1 0,4 10; 0:7) 0,3 0,0 b(x; 9 10 0,0 2 b(x; 0 1 2 10; 0:4) 3 4 5 6 7 8 9 10 5 6 7 8 9 10 10; 0:9) 3 4 Dichte der Binomialverteilung DWT c Susanne Albers und Ernst W. Mayr 5.2 Binomialverteilung 127/462 Satz 56 Wenn X Bin(nx; p) und Y Bin(ny ; p) unabhangig sind, dann gilt fur Z := X + Y , dass Z Bin(nx + ny ; p). Beweis: Die Aussage folgt sofort, wenn man gema der Denition der Binomialverteilung X und Y als Summen von Indikatorvariablen darstellt. Z ist dann oensichtlich wieder eine Summe von unabhangigen Indikatorvariablen. DWT c Susanne Albers und Ernst W. Mayr 5.2 Binomialverteilung 128/462 5.3 Geometrische Verteilung Man betrachte ein Experiment, das so lange wiederholt wird, bis Erfolg eintritt. Gelingt ein einzelner Versuch mit Wahrscheinlichkeit p, so ist die Anzahl der Versuche bis zum Erfolg geometrisch verteilt. Denition 57 Eine geometrisch verteilte Zufallsvariable X mit Parameter (Erfolgswahrscheinlichkeit) p 2 [0; 1] und q := 1 p hat die Dichte fX (i) = pqi 1 fur i 2 N : Fur Erwartungswert und Varianz geometrisch verteilter Zufallsvariablen gilt E[X ] = DWT c Susanne Albers und Ernst W. Mayr 1 und Var[X ] = q : p2 p 5.3 Geometrische Verteilung 129/462 Es gilt E[X ] = Ferner ist 1 X i=1 i pqi 1 E[X 2 ] = 1 X i=1 =p 1 X i=1 = p p23 DWT c Susanne Albers und Ernst W. Mayr i=1 i qi 1 = p 1 1 (1 q)2 = p : i2 pqi 1 =p und damit 1 X i(i + 1) qi 1 1 = 2 p; p2 p2 1 X i=1 i qi 1 ! Var[X ] = pq2 : 5.3 Geometrische Verteilung 130/462 0,8 p = 0;8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0,0 1 2 3 4 5 6 0,8 7 p 8 9 10 = 0;4 0,0 0,6 0,4 0,4 0,2 0,2 1 2 3 4 5 6 7 8 1 2 3 4 5 6 0,8 0,6 0,0 p 9 10 0,0 7 p 1 2 3 4 5 6 7 = 0;6 8 9 10 9 10 = 0;2 8 Dichte der geometrischen Verteilung DWT c Susanne Albers und Ernst W. Mayr 5.3 Geometrische Verteilung 131/462 Sei X wieder geometrisch verteilt mit Erfolgswahrscheinlichkeit p. Dann ist Pr[X = k] die Wahrscheinlichkeit, dass wir bei einem binaren Experiment mit Erfolgswahrscheinlichkeit p genau in der k-ten unabhangigen Wiederholung das erste Mal erfolgreich sind. Wie gro ist die Wahrscheinlichkeit Pr[X > y + x j X > x]? Da bei den ersten x Versuchen kein Erfolg eintrat, stellen wir uns vor, dass das eigentliche\ Experiment erst ab dem (x + 1)-ten Versuch beginnt. Die Zeit bis zum " ersten Erfolg bei diesem neuen Experiment nennen wir X 0 . Damit X > y + x gilt, muss X 0 > y gelten. Es ist intuitiv, dass X 0 wieder geometrisch verteilt ist mit Erfolgswahrscheinlichkeit p, dass also fur x; y 2 N gilt: Pr[X > y + x j X > x] = Pr[X 0 > y]: DWT c Susanne Albers und Ernst W. Mayr 5.3 Geometrische Verteilung (6) 132/462 Formal gilt Pr[X > x] = 1 X (1 p)i 1 p = (1 p)x p i=x+1 1 X i=0 (1 p)i = (1 p)x p 1 (11 p) = (1 p)x ; sowie > y + x; X > x] Pr[X > y + x j X > x] = Pr[X Pr[ X > x] X > y + x] = Pr[Pr[ X > x] = (1 p)y+x (1 p) x = (1 p)y = Pr[X > y] : DWT c Susanne Albers und Ernst W. Mayr 5.3 Geometrische Verteilung 133/462 Diese Eigenschaft nennt man Gedachtnislosigkeit, da eine geometrisch verteilte Zufallsvariable gewissermaen vergisst, dass sie schon x Misserfolge hinter sich hat und sich deshalb zum Zeitpunkt y + x genauso verhalt wie ursprunglich zur Zeit y . DWT c Susanne Albers und Ernst W. Mayr 5.3 Geometrische Verteilung 134/462 Warten auf den n-ten Erfolg. Wir betrachten n unabhangige Zufallsvariablen X1 ; : : : ; Xn , die jeweils geometrisch verteilt sind mit Parameter p, und bestimmen die Dichte der Zufallsvariablen Z := X1 + + Xn . Damit bezeichnet Z also die Anzahl der Versuche bis zum n-ten erfolgreichen Experiment (einschlielich). Falls Z = z ist, so werden also genau n erfolgreiche und z n nicht erfolgreiche Experimente durchgefuhrt. Dafur gibt es genau nz 11 Moglichkeiten, von denen jede mit Wahrscheinlichkeit pn (1 p)z n eintritt. Es gilt also z 1 fZ (z ) = n 1 pn(1 p)z n : Die Zufallsvariable Z nennt man negativ binomialverteilt mit Ordnung n. DWT c Susanne Albers und Ernst W. Mayr 5.3 Geometrische Verteilung 135/462 Das Coupon-Collector-Problem In manchen Branchen legen Firmen den Verpackungen ihrer Produkte oft kleine Bilder oder andere Gegenstande bei, um den Kaufer zum Sammeln anzuregen. Wenn es insgesamt n verschiedene solche Beilagen gibt, wie viele Packungen muss man im Mittel erwerben, bis man eine vollstandige Sammlung besitzt? Hierbei nehmen wir an, dass bei jedem Kauf jede Beilage mit gleicher Wahrscheinlichkeit auftritt. Bezeichne X die Anzahl der zu tatigenden Kaufe und Phase i die Schritte vom Erwerb der (i 1)-ten Beilage (ausschlielich) bis zum Erwerb der i-ten Beilage (einschlielich). DWT c Susanne Albers und Ernst W. Mayr 5.3 Geometrische Verteilung 136/462 Sei etwa n = 4, und seien die Beilagen mit den Zahlen 1; 2; 3; 4 identiziert. Ein Experiment ist z.B.: 2 ; |{z} 2; 1 ; 2| ;{z2; 3}; 1| ; 3; 2{z; 3; 1; 4} |{z} 1 2 3 4 : Beobachtung: Phase i endet genau dann, wenn wir eine der n i + 1 Beilagen erhalten, die wir noch nicht besitzen. Somit ist Xi geometrisch verteilt mit Parameter p = n ni+1 und es gilt E[Xi ] = n ni+1 . DWT c Susanne Albers und Ernst W. Mayr 5.3 Geometrische Verteilung 137/462 Damit folgt aber sofort E[X ] = = n X i=1 n X E[Xi ] n n i+1 i=1 =n n X i=1 1 =nH ; n i P wobei Hn := ni=1 1i die n-te harmonische Zahl bezeichnet. Da Hn = ln n + O(1), folgt E[X ] = n ln n + O(n). DWT c Susanne Albers und Ernst W. Mayr 5.3 Geometrische Verteilung 138/462 5.4 Poisson-Verteilung Die Poisson-Verteilung kann verwendet werden, um die Anzahl von Ereignissen zu modellieren, welche mit konstanter Rate und unabhangig voneinander in einem Zeitintervall auftreten. Eine Poisson-verteilte Zufallsvariable X mit dem Parameter 0 hat den Wertebereich WX = N0 und besitzt die Dichte fX (i) = e i fur i 2 N0 : i! fX ist eine zulassige Dichte, da 1 X i=0 DWT c Susanne Albers und Ernst W. Mayr 1 X e i i! i=0 = e e = 1 : fX (i) = 5.4 Poisson-Verteilung 139/462 Fur den Erwartungswert erhalten wir E[X ] = 1 X i=0 = e = e = e DWT c Susanne Albers und Ernst W. Mayr i e i i! 1 X i 1 (i 1)! i=1 1 i X i! i=0 e = : 5.4 Poisson-Verteilung 140/462 Da E[X (X 1)] = 1 X i=0 i(i 1) = 2 e = 2 e = 2 e 1 X e i i! i 2 (i 2)! i=2 1 i X i! i=0 e = 2 und E[X (X 1)] + E[X ] E[X ]2 = E[X 2 ] E[X ] + E[X ] E[X ]2 = Var[X ] ; DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 141/462 folgt Var[X ] = E[X (X 1)] + E[X ] E[X ]2 = 2 + 2 = : (7) Dafur, dass eine Zufallsvariable X Poisson-verteilt mit Parameter ist, schreiben wir auch X Po(). DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 142/462 Po(0;5) 0,6 0,5 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0,0 0 1 2 3 4 5 6 7 8 9 10 Po(2) 0,6 0,0 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0 2 4 6 8 0 1 2 3 4 5 6 10 0,0 7 8 9 10 9 10 Po(5) 0,6 0,5 0,0 Po(1) 0,6 0 1 2 3 4 5 6 7 8 Dichte der Poisson-Verteilung DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 143/462 5.4.1 Poisson-Verteilung als Grenzwert der Binomialverteilung Wir betrachten eine Folge von binomialverteilten Zufallsvariablen Xn mit Xn Bin(n; pn ), wobei pn = =n. Fur ein beliebiges k mit 0 k n ist die Wahrscheinlichkeit, dass Xn den Wert k annimmt, gleich n pkn (1 k k k = (n kp!n ) nnk k nk = k! nk 1 b(k; n; pn ) = DWT c Susanne Albers und Ernst W. Mayr pn ) n k (1 pn) k (1 pn)n n k 5.4 Poisson-Verteilung 1 n n : 144/462 Wir betrachten nun n ! 1 und erinnern uns, dass k lim n = 1; n!1 nk lim (1 n ) k = 1; und n!1 n lim (1 ) = e : n!1 n Damit folgt k n k (1 p )n k = e : lim b ( k ; n; p ) = lim p n n n n!1 n!1 k k! DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 145/462 Die Wahrscheinlichkeit b(k; n; pn ) konvergiert also fur n ! 1 gegen die Wahrscheinlichkeit, dass eine Poisson-verteilte Zufallsvariable mit Parameter den Wert k annimmt. Insgesamt folgt somit, dass die Verteilung einer Zufallsvariablen X Bin(n; =n) sich fur n ! 1 der Poisson-Verteilung Po() annahert. DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 146/462 Vergleich von Binomial- und Poisson-Verteilung DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 147/462 Ist also n im Vergleich zu hinreichend gro, so kann man die Poisson-Verteilung als Approximation der Binomialverteilung verwenden. Diese Tatsache wird manchmal auch als Gesetz seltener Ereignisse bezeichnet, da die Wahrscheinlichkeit eines einzelnen Treers pn = =n relativ klein sein muss, wenn die Approximation gute Ergebnisse liefern soll. DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 148/462 Die folgenden Voraussetzungen mussen erfullt sein, damit die Annahme der Poisson-Verteilung gerechtfertigt ist: Die Ereignisse treten nie zur gleichen Zeit auf. Die Wahrscheinlichkeit, dass ein Ereignis in einem (kleinen) Zeitintervall auftritt, ist proportional zur Lange des Intervalls. Die Anzahl der Ereignisse in einem festen Zeitintervall hangt nur von dessen Lange ab, nicht aber von der Lage auf der Zeitachse. Wenn man zwei disjunkte Zeitintervalle betrachtet, so sind die Anzahlen der Ereignisse in diesen Zeitraumen voneinander unabhangig. DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 149/462 Beispiel 58 Wir wollen wissen, wie oft eine bestimmte Gegend im Durchschnitt von einer Naturkatastrophe (z.B. Vulkanausbruch) getroen wird. Aus Statistiken entnehmen wir, dass so ein Ereignis im Mittel 10 4 -mal pro Jahr auftritt. Wir interessieren uns nun fur die Wahrscheinlichkeit, dass die Region in einem Jahr mehr als einmal von einem solchen Ungluck heimgesucht wird. Die Voraussetzungen scheinen erfullt zu sein, die Anzahl X der Katastrophen durch eine Poisson-Verteilung mit Parameter = 10 4 zu modellieren. Damit gilt Pr[X 2] = 1 Pr[X = 0] Pr[X = 1] = 1 e e 1 0;999900005 0;000099990 = 5 10 9: DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 150/462 Summe von Poisson-verteilten Zufallsvariablen Satz 59 Sind X und Y unabhangige Zufallsvariablen mit X Z := X + Y DWT c Susanne Albers und Ernst W. Mayr Po() und Y Po(), dann gilt Po( + ) : 5.4 Poisson-Verteilung 151/462 Beweis: fZ (z ) = 1 X x=0 fX (x) fY (z x) = z (+) ( + ) = e z! = z X z X e x=0 x!(z x=0 z X z! z x x! ez z x ( x)! x x)! + 1 e (+) ( + )z px (1 z ! x=0 x z x + p)z x ; wobei p := + . Da die Summe gleich 1 ist, folgt 1 fZ (z ) = e (+) ( + )z : z! DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 152/462 Erlauterungen und Beispiele zur Poisson-Verteilung In der Wikipedia nden sich ein paar weitere Details und Beispiele. Eine Anwendung der Poisson-Verteilung auf die Fuball-Bundesliga wird in einem Artikel prasentiert, der im Spektrum der Wissenschaft, Heft Juni 2010, erschienen ist. DWT c Susanne Albers und Ernst W. Mayr 5.4 Poisson-Verteilung 153/462 6. Abschatzen von Wahrscheinlichkeiten 6.1 Die Ungleichungen von Markov und Chebyshev Satz 60 (Markov-Ungleichung) Sei X eine Zufallsvariable, die nur nicht-negative Werte annimmt. Dann gilt fur alle t 2 R mit t > 0, dass Aquivalent dazu: DWT c Susanne Albers und Ernst W. Mayr Pr[X t] E[tX ] : Pr[X t E[X ]] 1=t : 6.1 Die Ungleichungen von Markov und Chebyshev 154/462 Beweis: t Pr[X t] = t X x2WX ; xt X x 2W X ; x t X x 2W X Pr[X = x] x Pr[X = x] x Pr[X = x] = E[X ] : DWT c Susanne Albers und Ernst W. Mayr 6.1 Die Ungleichungen von Markov und Chebyshev 155/462 Alternativer Beweis: Es gilt E[X ] = E[X jX < t] Pr[X < t] + E[X jX t] Pr[X t] : Wegen E[X jX < t] Pr[X < t] 0 und E[X jX t] t folgt sofort E[X ] t Pr[X t] : DWT c Susanne Albers und Ernst W. Mayr 6.1 Die Ungleichungen von Markov und Chebyshev 156/462 Die Markov-Ungleichung ist nach Andrey Andreyevich Markov (1856{1922) benannt, der an der Universitat von St. Petersburg bei Chebyshev studierte und spater dort arbeitete. Neben seiner mathematischen Tatigkeit el Markov durch heftige Proteste gegen das Zaren-Regime auf, und nur sein Status als vermeintlich harmloser Akademiker schutzte ihn vor Repressalien durch die Behorden. Im Jahr 1913 organisierte er parallel zum dreihundertjahrigen Geburtstag der Zarenfamilie Romanov eine Feier zum zweihundertjahrigen Geburtstag des Gesetzes der groen Zahlen (s.u.). DWT c Susanne Albers und Ernst W. Mayr 6.1 Die Ungleichungen von Markov und Chebyshev 157/462 Die folgende Abschatzung ist nach Pavnuty Lvovich Chebyshev (1821{1894) benannt, der ebenfalls an der Staatl. Universitat in St. Petersburg wirkte. Satz 61 (Chebyshev-Ungleichung) Sei X eine Zufallsvariable, und sei t 2 R mit t > 0. Dann gilt X] Pr[jX E[X ]j t] Var[ : 2 t Aquivalent dazu: DWT c Susanne Albers und Ernst W. Mayr p Pr[jX E[X ]j t Var[X ]] 1=t2 : 6.1 Die Ungleichungen von Markov und Chebyshev 158/462 Beweis: Wir stellen fest, dass Pr[jX E[X ]j t] = Pr[(X E[X ])2 t2 ] : Setze Y := (X E[X ])2 : Dann gilt E[Y ] = Var[X ], und damit mit der Markov-Ungleichung: X] Pr[jX E[X ]j t] = Pr[Y t2 ] Et[Y2 ] = Var[ : 2 t DWT c Susanne Albers und Ernst W. Mayr 6.1 Die Ungleichungen von Markov und Chebyshev 159/462 Beispiel 62 Wir werfen 1000-mal eine faire Munze und ermitteln die Anzahl X der Wurfe, in denen Kopf\ fallt. " X ist binomialverteilt mit X Bin(1000; p = 12 ), also gilt 1 2 1 4 E[X ] = n = 500 und Var[X ] = n = 250: Wie gro ist die Wahrscheinlichkeit, dass mehr als 550-mal Kopf\ fallt? " DWT c Susanne Albers und Ernst W. Mayr 160/462 Beispiel 62 Chebyshev-Ungleichung: Pr[X 550] Pr[jX 500j 50] 250 502 = 0;1 : Setze nun n = 10000 und betrachte wieder eine maximal 10%-ige Abweichung vom Erwartungswert: E[X ] = 5000 und Var[X ] = 2500, und damit Pr[X 5500] Pr[jX 5000j 500] 2500 5002 = 0;01 : DWT c Susanne Albers und Ernst W. Mayr 6.1 Die Ungleichungen von Markov und Chebyshev 160/462 6.2 Gesetz der groen Zahlen Wir haben diskutiert, wie Wahrscheinlichkeiten als Grenzwerte von relativen Haugkeiten aufgefasst werden konnen. Satz 63 (Gesetz der groen Zahlen) Gegeben sei eine Zufallsvariable X . Ferner seien "; > 0 beliebig aber fest. Dann gilt X] fur alle n Var[ "2 : Sind X1 ; : : : ; Xn unabhangige Zufallsvariablen mit derselben Verteilung wie X und setzt man X + : : : + Xn Z := 1 ; so gilt DWT c Susanne Albers und Ernst W. Mayr n Pr[jZ E[X ]j ] ": 6.2 Gesetz der groen Zahlen 161/462 Beweis: Fur Z gilt 1 1 E[Z ] = (E[X1 ] + : : : + E[Xn ]) = n E[X ] = E[X ]; n n sowie Var[Z ] = n12 (Var[X1 ] + : : : + Var[Xn ]) = n12 n Var[X ] = Var[nX ] : Mit der Chebyshev-Ungleichung erhalten wir Z ] Var[X ] Pr[jZ E[X ]j ] = Pr[jZ E[Z ]j ] Var[ = n2 "; 2 nach Wahl von n. DWT c Susanne Albers und Ernst W. Mayr 6.2 Gesetz der groen Zahlen 162/462 Wahrscheinlichkeit und relative Haugkeit. Sei X eine Indikatorvariable fur ein Ereignis A, Pr[A] = p. Somit ist X Bernoulli-verteilt mit E[X ] = p. Z = n1 (X1 + : : : + Xn ) gibt die relative Haugkeit an, mit der A bei n Wiederholungen des Versuchs eintritt, denn Z= Anzahl der Versuche, bei denen A eingetreten ist : Anzahl aller Versuche Mit Hilfe des obigen Gesetzes der groen Zahlen folgt Pr[jZ pj ] "; fur genugend groes n. Also nahert sich die relative Haugkeit von A bei hinreichend vielen Wiederholungen des Experiments mit beliebiger Sicherheit beliebig nahe an die wahre\ Wahrscheinlichkeit p an. " DWT c Susanne Albers und Ernst W. Mayr 6.2 Gesetz der groen Zahlen 163/462 Die obige Variante eines Gesetzes der groen Zahlen geht auf Jakob Bernoulli zuruck, der den Satz in seinem Werk ars conjectandi zeigte. Es soll betont werden, dass das Gesetz der groen Zahlen die P relative Abweichung j 1 Xi pj i n und nicht die absolute Abweichung j P i Xi npj abschatzt! DWT c Susanne Albers und Ernst W. Mayr 6.2 Gesetz der groen Zahlen 164/462 6.3 Cherno-Schranken 6.3.1 Cherno-Schranken fur Summen von 0{1{Zufallsvariablen Die hier betrachtete Art von Schranken ist nach Herman Cherno ( 1923) benannt. Sie nden in der komplexitatstheoretischen Analyse von Algorithmen eine sehr hauge Verwendung. Satz 64 Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte Zufallsvariablen mit Pr[P Xi = 1] = pi P und Pr[Xi = 0] = 1 pi . Dann gilt fur X := ni=1 Xi und := E[X ] = ni=1 pi , sowie jedes > 0, dass Pr[X (1 + )] DWT c Susanne Albers und Ernst W. Mayr e (1 + )1+ 6.3 Cherno-Schranken : 165/462 Beweis: Fur t > 0 gilt Pr[X (1 + )] = Pr[etX et(1+) ] : Mit der Markov-Ungleichung folgt [etX ] : Pr[X (1 + )] = Pr[etX et(1+) ] Et(1+ ) e Wegen der Unabhangigkeit der Zufallsvariablen X1 ; : : : ; Xn gilt " E[etX ] = E exp n X i=1 Weiter ist fur i 2 f1; : : : ; ng: E[etXi ] = et1 pi + et0 (1 DWT c Susanne Albers und Ernst W. Mayr !# tXi " =E n Y i=1 # etXi = n Y i=1 E[etXi ]: pi ) = et pi + 1 pi = 1 + pi (et 1) ; 166/462 Beweis (Forts.): und damit Pr[X (1 + )] = Qn t i=1 (1 + pi (e et(1+) Qn t i=1 exp(pi (e et(1+) Pn exp( i=1 pi (et et(1+) 1)) 1)) 1)) = e(et 1) et(1+) =: f (t) : Wir wahlen nun t so, dass f (t) minimiert wird, namlich t = ln(1 + ) : Damit wird DWT c Susanne Albers und Ernst W. Mayr e(et 1) e f (t) = t(1+) = : e (1 + )(1+) 6.3 Cherno-Schranken 166/462 Beispiel 65 Wir betrachten wieder das Beispiel, dass wir eine faire Munze n-mal werfen und abschatzen wollen, mit welcher Wahrscheinlichkeit Kopf\ " n 2 (1 + 10%) oder ofter fallt. n 1000 10000 n DWT c Susanne Albers und Ernst W. Mayr Chebyshev 0;1 0;01 1 4 n (0;1 12 n)2 Cherno 0;0889 0;308 10 e0;1 (1+0;1)1+0;1 6.3 Cherno-Schranken 10 1n 2 167/462 Satz 66 Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte Zufallsvariablen mit Pr[P Xi = 1] = pi Pn und Pr[Xi = 0] = 1 pi . Dann gilt fur X := i=1 Xi und := E[X ] = ni=1 pi , sowie jedes 0 < < 1, dass e Pr[X (1 )] (1 )1 : Beweis: Analog zum Beweis von Satz 64. Bemerkung: Abschatzungen, wie sie in Satz 64 und Satz 66 angegeben sind, nennt man auch tail bounds, da sie Schranken fur die tails, also die vom Erwartungswert weit entfernten Bereiche angeben. Man spricht hierbei vom upper tail (vergleiche Satz 64) und vom lower tail (vergleiche Satz 66). Die Cherno-Schranken hangen exponentiell von ab! DWT c Susanne Albers und Ernst W. Mayr 6.3 Cherno-Schranken 168/462 Lemma 67 Fur 0 < 1 gilt (1 )1 e +2 =2 und (1 + )1+ e+ =3 : Beweis: Wir betrachten 2 1 2 f (x) = (1 x) ln(1 x) und g(x) = x + x2 : Es gilt fur 0 x < 1: sowie g0 (x) = x 1 ln(1 x) 1 = f 0 (x) f (0) = 0 = g(0) ; also im angegebenen Intervall f (x) g (x). Die Herleitung der zweiten Ungleichung erfolgt analog. DWT c Susanne Albers und Ernst W. Mayr 6.3 Cherno-Schranken 169/462 Korollar 68 Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte Zufallsvariablen mit Pr[P Xi = 1] = pi und Pr[Xi = P 0] = 1 pi . Dann gelten folgende Ungleichungen fur X := ni=1 Xi und := E[X ] = ni=1 pi : 2 1 Pr[X (1 + )] e =3 fur alle 0 < 1, 2 2 Pr[X (1 )] e =2 fur alle 0 < 1, 3 4 5 Pr[jX j ] 2e =3 fur alle 0 < 1, (1+) Pr[X (1 + )] 1+e und Pr[X t] 2 t fur t 2e. DWT c Susanne Albers und Ernst W. Mayr 2 6.3 Cherno-Schranken 170/462 Beweis: 1 und 2 folgen direkt aus Satz 64 bzw. 66 und Lemma 67. Aus 1 und 2 zusammen folgt 3. Die Abschatzung 4 erhalten wir direkt aus Satz 64, da fur den Zahler gilt e e(1+) : 5 folgt aus 4, indem man t = (1 + ) setzt, t 2e: e 1+ DWT c Susanne Albers und Ernst W. Mayr (1+) e t= t 6.3 Cherno-Schranken t 12 : 171/462 Beispiel 69 Wir betrachten wieder balls into bins und werfen n Balle unabhangig und gleichverteilt in n Korbe. Sei Xi := Anzahl der Balle im i-ten Korb fur i = 1; : : : ; n, sowie X := max1in Xi . Fur die Analyse von Xi (i 2 f1; : : : ; ng beliebig) verwenden wir Aussage 5 von Korollar 68, mit p1 = : : : = pn = n1 , = 1 und t = 2 log n. Es folgt Pr[Xi 2 log n] 1=n2 : Daraus ergibt sich Pr[ X 2 log n] = Pr[X1 2 log n _ : : : _ Xn 2 log n] n 2 n 1 Es gilt also mit Wahrscheinlichkeit 1 DWT c Susanne Albers und Ernst W. Mayr = 1 n : 1=n, dass X < 2 log n ist. 6.3 Cherno-Schranken 172/462 Literatur: Torben Hagerup, Christine Rub: A guided tour of Cherno bounds Inf. Process. Lett. 33, pp. 305{308 (1990) DWT c Susanne Albers und Ernst W. Mayr 6.3 Cherno-Schranken 173/462 7. Erzeugende Funktionen 7.1 Einfuhrung Denition 70 Fur eine Zufallsvariable X mit WX Funktion deniert durch GX (s) := N0 ist die (wahrscheinlichkeits-)erzeugende 1 X k=0 Pr[X = k] sk = E[sX ] : Die obige Denition gilt fur allgemeine s 2 R, wir werden uns aber auf s 2 [ konzentrieren. 1; 1] Eine wahrscheinlichkeitserzeugende Funktion ist also die (gewohnliche) erzeugende Funktion der Folge (fi )i2N0 mit fi := Pr[X = i]. DWT c Susanne Albers und Ernst W. Mayr 7.1 Einfuhrung 174/462 Bei wahrscheinlichkeitserzeugenden Funktionen haben wir kein Problem mit der Konvergenz, da fur jsj < 1 gilt jGX (s)j = DWT c Susanne Albers und Ernst W. Mayr 1 X Pr[X k=0 1 X k=0 = k] sk Pr[X = k] jsk j 7.1 Einfuhrung 1 X k=0 Pr[X = k] = 1 : 175/462 Beobachtung: Sei Y := X + t mit t 2 N0 . Dann gilt GY (s) = E[sY ] = E[sX +t ] = E[st sX ] = st E[sX ] = st GX (s) : Ebenso lasst sich leicht nachrechnen, dass 1 X 0 GX (s) = k Pr[X = k] sk 1 , also k=1 0 GX (0) = Pr[X = 1], sowie G(i) (0) = Pr[X = i] i!, also X G(i) (0)=i! = Pr[X X DWT c Susanne Albers und Ernst W. Mayr = i] : 7.1 Einfuhrung 176/462 Satz 71 (Eindeutigkeit der w.e. Funktion) Die Dichte und die Verteilung einer Zufallsvariablen X mit WX wahrscheinlichkeitserzeugende Funktion eindeutig bestimmt. N sind durch ihre Beweis: Folgt aus der Eindeutigkeit der Potenzreihendarstellung. DWT c Susanne Albers und Ernst W. Mayr 7.1 Einfuhrung 177/462 Bernoulli-Verteilung Sei X eine Bernoulli-verteilte Zufallsvariable mit Pr[X = 0] = 1 p und Pr[X = 1] = p. Dann gilt GX (s) = E[sX ] = (1 p) s0 + p s1 = 1 p + ps : Gleichverteilung auf f0; : : : ; ng Sei X auf f0; : : : ; ng gleichverteilt, d.h. fur 0 k n ist Pr[X = k] = 1=(n + 1). Dann gilt GX (s) = E[sX ] = DWT c Susanne Albers und Ernst W. Mayr n X 1 sk = sn+1 1 : n+1 (n + 1)(s 1) k=0 7.1 Einfuhrung 178/462 Binomialverteilung Fur X Bin(n; p) gilt nach der binomischen Formel GX (s) = E[sX ] = n X n k p (1 p)n k k=0 k sk = (1 p + ps)n : Geometrische Verteilung Sei X eine geometrisch verteilte Zufallsvariable mit Erfolgswahrscheinlichkeit p. Dann gilt GX (s) = E[sX ] = 1 X k=1 = ps DWT c Susanne Albers und Ernst W. Mayr p(1 p)k 1 sk 1 X ((1 p)s)k 1 = 1 (1ps p)s : k=1 7.1 Einfuhrung 179/462 Poisson-Verteilung Fur X Po() gilt GX (s) = E[sX ] = DWT c Susanne Albers und Ernst W. Mayr 1 X k=0 e k k! sk = e 7.1 Einfuhrung +s = e(s 1) : 180/462 Beispiel 72 Sei X binomialverteilt mit X GX (s) = 1 Bin(n; =n), Fur n ! 1 folgt s + n n n = 1 + (sn 1) n ! e(s 1) : Man kann beweisen, dass aus der Konvergenz der wahrscheinlichkeitserzeugenden Funktion die Konvergenz der Verteilung folgt. DWT c Susanne Albers und Ernst W. Mayr 7.1 Einfuhrung 181/462 7.1.1 Zusammenhang zwischen der w.e. Funktion und den Momenten Da gilt GX (s) := 1 X k=0 Pr[X = k] sk = E[sX ] ; 1 X 0 GX (1) = k Pr[X = k] = E[X ] : k=1 DWT c Susanne Albers und Ernst W. Mayr 7.1 Einfuhrung 182/462 Beispiel 73 Sei X binomialverteilt mit X Bin(n; p), also GX (s) = (1 p + ps)n : Dann gilt G0X (s) = n (1 p + ps)n 1 p und somit E[X ] = G0X (1) = np : DWT c Susanne Albers und Ernst W. Mayr 183/462 Beispiel 73 Ebenso ergibt sich E[X (X 1) : : : (X i + 1)] = G(Xi) (1) ; also etwa Var[X ] = E[X (X 1)] + E[X ] E[X ]2 = G00X (1) + G0X (1) (G0X (1))2 : Andere Momente von X kann man auf ahnliche Art und Weise berechnen. DWT c Susanne Albers und Ernst W. Mayr 7.1 Einfuhrung 183/462 Momenterzeugende Funktionen Denition 74 Zu einer Zufallsvariablen X ist die momenterzeugende Funktion gema MX (s) := E[eXs ] deniert. Es gilt MX und (s) = E[eXs ] = E " 1 X # 1 E[X i ] (Xs)i = X si i ! i ! i=0 i=0 MX (s) = E[eXs ] = E[(es )X ] = GX (es ) : DWT c Susanne Albers und Ernst W. Mayr 7.1 Einfuhrung 184/462 7.2 Summen von Zufallsvariablen Satz 75 (Erzeugende Funktion einer Summe) Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn und die Zufallsvariable Z := X1 + : : : + Xn gilt GZ (s) = GX1 (s) : : : GXn (s) : Ebenso gilt MZ (s) = MX1 (s) : : : MXn (s) : Beweis: Wegen der Unabhangigkeit von X1 ; : : : ; Xn gilt GZ (s) = E[sX1 +:::+Xn ] = E[sX1 ] : : : E[sXn ] = GX1 (s) : : : GXn (s): DWT c Susanne Albers und Ernst W. Mayr 7.2 Summen von Zufallsvariablen 185/462 Beispiel 76 Seien X1 ; : : : Xk mit Xi Bin(ni ; p) unabhangige Zufallsvariable und Z := X1 + : : : + Xk . Dann gilt GZ (s) = und somit k Y i=1 (1 p + ps)ni = (1 p + ps) Z Bin( k X i=1 Pk i=1 ni ni ; p) (vgl. Satz 56). Seien X1 ; : : : ; Xk Po() unabhangige Zufallsvariablen. Dann folgt fur Z := X1 + : : : + Xk k Y GZ (s) = e(s 1) = ek(s 1) i=1 und somit Z Po(k) (vgl. Satz 59). DWT c Susanne Albers und Ernst W. Mayr 7.2 Summen von Zufallsvariablen 186/462 7.2.1 Zufallige Summen Wir betrachten die Situation, dass Z := X1 + : : : + XN , wobei N ebenfalls eine Zufallsvariable ist. Satz 77 Seien X1 ; X2 ; : : : unabhangige und identisch verteilte Zufallsvariablen mit der wahrscheinlichkeitserzeugenden Funktion GX (s). N sei ebenfalls eine unabhangige Zufallsvariable mit der wahrscheinlichkeitserzeugenden Funktion GN (s). Dann besitzt die Zufallsvariable Z := X1 + : : : + XN die wahrscheinlichkeitserzeugende Funktion GZ (s) = GN (GX (s)). DWT c Susanne Albers und Ernst W. Mayr 7.2 Summen von Zufallsvariablen 187/462 Beweis: Nach Voraussetzung ist WN N0. Deshalb folgt mit Satz 36 GZ (s) = = = = 1 X n=0 1 X n=0 1 X n=0 1 X n=0 E[sZ j N = n] Pr[N = n] E[sX +:::+Xn ] Pr[N = n] 1 E[sX ] : : : E[sXn ] Pr[N = n] 1 (GX (s))n Pr[N = n] = E[(GX (s))N ] = GN (GX (s)) : DWT c Susanne Albers und Ernst W. Mayr 7.2 Summen von Zufallsvariablen 188/462 8. Formelsammlung 8.1 Gesetze zum Rechnen mit Ereignissen Im Folgenden seien A und B , sowie A1 ; : : : ; An Ereignisse. Die Notation A ] B steht fur A [ B und zugleich A \ B = ; (disjunkte Vereinigung). A1 ] : : : ] An = bedeutet also, dass die Ereignisse A1 ; : : : ; An eine Partition der Ergebnismenge bilden. Pr[;] = 0 0 Pr[A] 1 Pr[A] = 1 Pr[A] A B =) Pr[A] Pr[B ] DWT c Susanne Albers und Ernst W. Mayr 8.1 Gesetze zum Rechnen mit Ereignissen 189/462 8i 6=Sj : Ai \ APj = ; =) Pr [ n A]= i=1 i Additionssatz n Pr[A ] i i=1 Pr[A [ B ] = Pr[A] + Pr[B ] Pr[A \ B ] Inklusion/Exklusion, allgemeine Form: siehe Satz 9 Sn Pr [ i=1 Ai ] Boolesche Ungleichung Pn i=1 Pr[Ai ] Pr[AjB ] = Pr[Pr[AB\B] ] fur Pr[B ] > 0 DWT c Susanne Albers und Ernst W. Mayr Siebformel Def. bedingte Ws. 8.1 Gesetze zum Rechnen mit Ereignissen 190/462 B A1 ]P: : : ] An =) Pr[B ] = ni=1 Pr[B jAi ] Pr[Ai ] Satz von der totalen Wahrscheinlichkeit Pr[B ] > 0, B A1 ] : : : ] An =) B jAi ]Pr[Ai ] Pr[Ai jB ] = PniPr[Pr[ B jAi ]Pr[Ai ] Satz von Bayes =1 Pr[A1 \ : : : \ An ] = Pr[A1 ] Pr[A2 jA1 ] Multiplikationssatz : : : Pr[An jA1 \ : : : \ An 1 ] A und B unabhangig () Pr[A \ B ] = Pr[A] Pr[B ] DWT c Susanne Albers und Ernst W. Mayr Denition Unabhangigkeit 8.1 Gesetze zum Rechnen mit Ereignissen 191/462 8.2 Erwartungswert und Varianz diskreter Zufallsvariablen Sei X eine diskrete Zufallsvariable. Fur Erwartungswert und Varianz gelten die folgenden Formeln (sofern E[X ] und Var[X ] existieren). E[X ] = = Var[X ] = X x 2W X X ! 2 1 X i=1 x Pr[X = x] X (!) Pr[!] Pr[X i]; falls WX N0 Erwartungswert = E[(X E[X ])2 ] = x2WX Pr[X = x] (x E[X ])2 P DWT c Susanne Albers und Ernst W. Mayr Varianz 8.2 Erwartungswert und Varianz diskreter Zufallsvariablen 192/462 8.3 Gesetze zum Rechnen mit Zufallsvariablen Seien a, b, a1 , . . . , an 2 R, f1 ; : : : ; fn : R ! R. X1 ; : : : ; Xn unabhangig () fur alle (a1 ; : : : ; an ): Pr[X1 = a1 ; : : : ; Xn = an ] = Pr[X1 = a1 ] : : : Pr[Xn = an ] X1 ; : : : ; Xn unabhangig =) f1 (X1 ); : : : ; fn (Xn ) unabhangig E[a X + b] = a E[X ] + b DWT c Susanne Albers und Ernst W. Mayr 8.3 Gesetze zum Rechnen mit Zufallsvariablen 193/462 X (!) Y (!) fur alle ! 2 =) E[X ] E[Y ] E[X ] = Monotonie des Erwartungswerts Pn i=1 E[X jAi ] Pr[Ai ] Var[X ] = E[X 2 ] E[X ]2 Var[a X + b] = a2 Var[X ] DWT c Susanne Albers und Ernst W. Mayr 8.3 Gesetze zum Rechnen mit Zufallsvariablen 194/462 E[a1 X1 + : : : + an Xn ] = a1 E[X1 ] + : : : + an E[Xn ] Linearitat des Erwartungswerts X1 ; : : : ; Xn unabhangig =) E[X1 : : : Xn ] = E[X1 ] : : : E[Xn ] Multiplikativitat des Erwartungswerts X1 ; : : : ; Xn unabhangig =) Var[X1 + : : : + Xn ] = Var[X1 ] + : : : + Varianz einer Summe Var[Xn ] DWT c Susanne Albers und Ernst W. Mayr 8.3 Gesetze zum Rechnen mit Zufallsvariablen 195/462 X 0 =) Pr[X t] E[X ]=t fur t > 0 Markov Pr[jX E[X ]j t] Var[X ]=t2 fur t > 0 Chebyshev siehe Satz 63 Gesetz der groen Zahlen DWT c Susanne Albers und Ernst W. Mayr 8.3 Gesetze zum Rechnen mit Zufallsvariablen 196/462 Kapitel II Kontinuierliche Wahrscheinlichkeitsraume 1. Einfuhrung 1.1 Motivation Interpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung. DWT c Susanne Albers und Ernst W. Mayr 1.1 Motivation 197/462 Beispiel 78 Wir betrachten das Szenario: Bei einem Druckerserver kommen Auftrage in einer Warteschlange an, die alle 1=n Zeiteinheiten vom Server abgefragt wird. Der Server nimmt also zu den diskreten Zeitpunkte 1=n; 2=n; 3=n; : : : neue Auftrage entgegen. Durch den Grenzwert n ! 1 verschmelzen\ diese diskreten Zeitpunkte zu einer " kontinuierlichen Zeitachse, und fur die Zufallsvariable T , welche die Zeitspanne bis zum Eintreen des nachsten Auftrags misst, reicht eine diskrete Wertemenge WT nicht mehr aus. DWT c Susanne Albers und Ernst W. Mayr 1.1 Motivation 198/462 1.2 Kontinuierliche Zufallsvariablen Denition 79 Eine kontinuierliche oder auch stetige Zufallsvariable X und ihr zugrunde liegender kontinuierlicher (reeller) Wahrscheinlichkeitsraum sind deniert durch eine integrierbare Dichte(-funktion) fX : R ! R+ 0 mit der Eigenschaft Z +1 fX (x) d x = 1: 1 S Eine Menge A R, die durch Vereinigung A = k Ik abzahlbar vieler paarweise disjunkter Intervalle beliebiger Art (oen, geschlossen, halboen, einseitig unendlich) gebildet werden kann, heit Ereignis. Ein Ereignis A tritt ein, wenn X einen Wert aus A annimmt. Die Wahrscheinlichkeit von A ist bestimmt durch Z Z Pr[A] = DWT c Susanne Albers und Ernst W. Mayr A fX (x) d x = X k Ik 1.2 Kontinuierliche Zufallsvariablen fX (x) d x: 199/462 Beispiel 80 (Gleichverteilung) Eine besonders einfache kontinuierliche Dichte stellt die Gleichverteilung auf dem Intervall [a; b] dar. Sie ist deniert durch ( f (x) = 1 b a 0 fur x 2 [a; b], sonst. Analog zum diskreten Fall ordnen wir jeder Dichte fX eine Verteilung oder Verteilungsfunktion FX zu: FX (x) := Pr[X x] = Pr[ft 2 R j t xg] = DWT c Susanne Albers und Ernst W. Mayr 1.2 Kontinuierliche Zufallsvariablen Z x 1 fX (t) d t: 200/462 Beispiel 81 Die Verteilungsfunktion der Gleichverteilung: F (x) = DWT c Susanne Albers und Ernst W. Mayr 8 > <0 Z x 1 f (t) d t = xb aa > : 1 fur x < a; fur a x b; fur x > b: 1.2 Kontinuierliche Zufallsvariablen 201/462 f (x) 1,4 1,2 1,0 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0,0 -0,2 -0,5 F (x) 1,4 1,2 0,0 0,0 0,5 1,0 -0,2 1,5 -0,5 0,0 0,5 1,0 1,5 Gleichverteilung uber dem Intervall [0; 1] DWT c Susanne Albers und Ernst W. Mayr 1.2 Kontinuierliche Zufallsvariablen 202/462 Beobachtungen:(Eigenschaften der Verteilungsfunktion) FX ist monoton steigend. FX ist stetig. Man spricht daher auch von einer "stetigen Zufallsvariablen\. Es gilt: limx! 1 FX (x) = 0 und limx!1 FX (x) = 1. Jeder (auer an endlich vielen Punkten) dierenzierbaren Funktion F , welche die zuvor genannten Eigenschaften erfullt, konnen wir eine Dichte f durch f (x) = F 0 (x) zuordnen. Es gilt DWT c Susanne Albers und Ernst W. Mayr Pr[a < X b] = FX (b) FX (a) : 1.2 Kontinuierliche Zufallsvariablen 203/462 Bei den von uns betrachteten Dichten besteht zwischen den Ereignissen a < X " a X b \, a X < b\ und a < X < b\ kein wesentlicher Unterschied, da " " " Z [a;b] f (t) d t = DWT c Susanne Albers und Ernst W. Mayr Z ]a;b] f (t) d t = Z [a;b[ f (t) d t = 1.2 Kontinuierliche Zufallsvariablen Z ]a;b[ b\, f (t) d t: 204/462 1.3 Kolmogorov-Axiome und -Algebren 1.3.1 -Algebren Denition 82 Sei eine Menge. Eine Menge A P ( ) heit -Algebra uber , wenn folgende Eigenschaften erfullt sind: (E1) 2 A. (E2) Wenn A 2 A, dann folgt A 2 A. S (E3) Fur n 2 N sei An 2 A. Dann gilt auch 1 n=1 An 2 A. DWT c Susanne Albers und Ernst W. Mayr 1.3 Kolmogorov-Axiome und -Algebren 205/462 Fur jede (endliche) Menge stellt die Menge P ( ) eine -Algebra dar. Fur = R ist die Klasse der Borel'schen Mengen, die aus allen Mengen A R besteht, welche sich durch abzahlbare Vereinigungen und Schnitte von Intervallen (oen, halboen oder geschlossen) darstellen lassen, eine -Algebra. DWT c Susanne Albers und Ernst W. Mayr 1.3 Kolmogorov-Axiome und -Algebren 206/462 1.3.2 Kolmogorov-Axiome Denition 83 (Wahrscheinlichkeitsraum, Kolmogorov-Axiome) Sei eine beliebige Menge und A eine -Algebra uber . Eine Abbildung Pr[:] : A ! [0; 1] heit Wahrscheinlichkeitsma auf A, wenn sie folgende Eigenschaften besitzt: 1 (W1) Pr[ ] = 1. 2 (W2) A1 ; A2 ; : : : seien paarweise Ereignisse. Dann gilt " disjunkte # 1 1 [ X Pr i=1 Ai = i=1 Pr[Ai ]: Fur ein Ereignis A 2 A heit Pr[A] Wahrscheinlichkeit von A. Ein Wahrscheinlichkeitsraum ist deniert durch das Tupel ( ; A; Pr). DWT c Susanne Albers und Ernst W. Mayr 1.3 Kolmogorov-Axiome und -Algebren 207/462 Die in obiger Denition aufgelisteten Eigenschaften eines Wahrscheinlichkeitsmaes wurden von dem russischen Mathematiker Andrei Nikolaevich Kolmogorov (1903{1987) formuliert. Kolmogorov gilt als einer der Pioniere der modernen Wahrscheinlichkeitstheorie, leistete jedoch auch bedeutende Beitrage zu zahlreichen anderen Teilgebieten der Mathematik. Informatikern begegnet sein Name auch im Zusammenhang mit der so genannten Kolmogorov-Komplexitat, einem relativ jungen Zweig der Komplexitatstheorie. Die Eigenschaften in obiger Denition nennt man auch Kolmogorov-Axiome. DWT c Susanne Albers und Ernst W. Mayr 1.3 Kolmogorov-Axiome und -Algebren 208/462 Lemma 84 Sei ( ; A; Pr) ein Wahrscheinlichkeitsraum. Fur Ereignisse A, B , A1 , A2 , : : : gilt 1 2 3 4 Pr[;] = 0, Pr[ ] = 1. 0 Pr[A] 1. Pr[A] = 1 Pr[A]. Wenn A B , so folgt Pr[A] Pr[B ]. DWT c Susanne Albers und Ernst W. Mayr 209/462 Lemma 84 5 (Additionssatz) Wenn die Ereignisse A1 ; : : : ; An paarweise disjunkt sind, so folgt " Pr n [ i=1 # Ai = n X i=1 Pr[Ai ]: Fur disjunkte Ereignisse A, B erhalten wir insbesondere Pr[A [ B ] = Pr[A] + Pr[B ]: Fur eine unendliche Menge von paarweise disjunkten Ereignissen A1 ; A2 ; : : : gilt S P1 analog Pr [ 1 A ] = i=1 i i=1 Pr[Ai ]. DWT c Susanne Albers und Ernst W. Mayr 1.3 Kolmogorov-Axiome und -Algebren 209/462 Beweis: Wenn wir in Eigenschaft (W2) A = und A2 ; A3 ; : : : = ; setzen, so ergibt die P1 1 Eigenschaft, dass Pr[ ] + i=2 Pr[;] = Pr[ ]. Daraus folgt Pr[;] = 0. Regel 2 und Regel 5 gelten direkt nach Denition der Kolmogorov-Axiome und Regel 1. Regel 3 erhalten wir mit Regel 5 wegen 1 = Pr[ ] = Pr[A] + Pr[A]. Fur Regel 4 betrachten wir die disjunkten Ereignisse A und C := B n A, fur die gilt, dass A [ B = A [ C . Mit Regel 5 folgt die Behauptung. DWT c Susanne Albers und Ernst W. Mayr 1.3 Kolmogorov-Axiome und -Algebren 210/462 1.3.3 Lebesgue-Integrale Eine Funktion f : R ! R heit messbar, falls das Urbild jeder Borel'schen Menge ebenfalls eine Borel'sche Menge ist. Z.B. ist fur jede Borel'sche Menge A die Indikatorfunktion IA : x 7! ( 1 falls x 2 A, 0 sonst messbar. Jede stetige Funktion ist messbar. Auch Summen und Produkte von messbaren Funktionen sind wiederum messbar. Jeder messbaren Funktion kann man ein Integral, das so genannte Lebesgue-Integral, R geschrieben f d , zuordnen. DWT c Susanne Albers und Ernst W. Mayr 1.3 Kolmogorov-Axiome und -Algebren 211/462 Ist f : R ! R+ 0 eine messbare Funktion, so deniert R Pr : A 7! f IA d eine Abbildung auf den Borel'schen Mengen, die die Eigenschaft (W2) der Kolmogorov-Axiome erfullt. Gilt daher zusatzlich noch Pr[R] = 1, so deniert f auf naturliche Weise einen Wahrscheinlichkeitsraum ( ; A; Pr), wobei = R und A die Menge der Borel'schen Mengen ist. DWT c Susanne Albers und Ernst W. Mayr 1.3 Kolmogorov-Axiome und -Algebren 212/462 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 1.4.1 Funktionen kontinuierlicher Zufallsvariablen Sei Y := g (X ) mit einer Funktion g : R ! R. Die Verteilung von Y erhalten wir durch FY (y) = Pr[Y y] = Pr[g(X ) y] = Z C fX (t) d t: Hierbei bezeichnet C := ft 2 R j g (t) y g alle reellen Zahlen t 2 R, fur welche die Bedingung Y y\ zutrit. Das Integral uber C ist nur dann sinnvoll deniert, " wenn C ein zulassiges Ereignis darstellt. Aus der Verteilung FY konnen wir durch Dierenzieren die Dichte fY ermitteln. DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 213/462 Beispiel 85 Sei X gleichverteilt auf dem Intervall ]0; 1[. Fur eine Konstante > 0 denieren wir die Zufallsvariable Y := (1=) ln X . FY (y) = Pr[ (1=) ln X y] = Pr[ln X y] = Pr[X e y ] = 1 FX (e y ) ( y f ur y 0; = 1 e 0 sonst: DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 214/462 Beispiel (Forts.) Damit folgt mit fY (y ) = FY0 (y ) sofort ( fY (y) = e 0 y fur y 0; sonst: Eine Zufallsvariable mit einer solchen Dichte fY nennt man exponentialverteilt. DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 215/462 Beispiel 86 Sei X eine beliebige Zufallsvariable. Fur a; b 2 R mit a > 0 denieren wir die Zufallsvariable Y := a X + b. Es gilt FY (y ) = Pr[aX + b y ] = Pr X yab = und somit fY (y) = DWT c Susanne Albers und Ernst W. Mayr d FY (y ) dy FX y a b ; = d FX ((dy y b)=a) = fX y a b a1 : 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 216/462 Simulation von Zufallsvariablen Unter der Simulation einer Zufallsvariablen X mit Dichte fX versteht man die algorithmische Erzeugung von Zufallswerten, deren Verteilung der Verteilung von X entspricht. Dazu nehmen wir an, dass die zu simulierende Zufallsvariable X eine stetige, im Bildbereich ]0; 1[ streng monoton wachsende Verteilungsfunktion FX besitzt. Weiter nehmen wir an, dass U eine auf ]0; 1[ gleichverteilte Zufallsvariable ist, die wir simulieren konnen. Aus unserer Annahme uber FX folgt, dass es zu FX eine (eindeutige) inverse Funktion F 1 gibt mit FX (F 1 (x)) = x fur alle x 2]0; 1[. X X DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 217/462 Sei nun X~ := FX 1 (U ) ; dann gilt Pr[X~ t] = Pr[FX 1 (U ) t] = Pr[U FX (t)] = FU (FX (t)) = FX (t) : DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 218/462 Beispiel 87 Im obigen Beispiel der Exponentialverteilung gilt FX (t) = 1 e t fur t 0, und wir erhalten auf ]0; 1[ die Umkehrfunktion FX 1 (t) = ln(1 t). Also gilt X~ = FX 1 (U ) = ln(1 U ). Statt X~ haben wir im Beispiel die Zufallsvariable oensichtlich dieselbe Verteilung besitzt. DWT c Susanne Albers und Ernst W. Mayr ln U betrachtet, die aber 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 219/462 1.4.2 Kontinuierliche Zufallsvariablen als Grenzwerte diskreter Zufallsvariablen Sei X eine kontinuierliche Zufallsvariable. Wir konnen aus X leicht eine diskrete Zufallsvariable konstruieren, indem wir fur ein festes > 0 denieren X = n Fur X gilt () X 2 [n; (n + 1)[ fur n 2 Z: Pr[X = n] = FX ((n + 1)) FX (n) : DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 220/462 1,0 FX (x) FXÆ (x) 0,8 0,6 0,4 0,2 0,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 Fur ! 0 nahert sich die Verteilung von X der Verteilung von X immer mehr an. DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 221/462 1.4.3 Erwartungswert und Varianz Denition 88 Fur eine kontinuierliche Zufallsvariable X ist der Erwartungswert deniert durch E[X ] = Z 1 1 t fX (t) d t; R sofern das Integral 11 jtj fX (t) d t endlich ist. Fur die Varianz gilt entsprechend Z 1 2 Var[X ] = E[(X E[X ]) ] = (t 1 wenn E[(X E[X ])2 ] existiert. DWT c Susanne Albers und Ernst W. Mayr E[X ])2 fX (t) d t; 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 222/462 Lemma 89 Sei X eine kontinuierliche Zufallsvariable, und sei Y := g(X ) : Dann gilt DWT c Susanne Albers und Ernst W. Mayr E[Y ] = Z 1 1 g(t) fX (t) d t : 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 223/462 Beweis: Wir zeigen die Behauptung nur fur den einfachen Fall, dass g eine lineare Funktion ist, also Y := a X + b fur a; b 2 R und a > 0. Es gilt (siehe obiges Beispiel) E[a X + b] = Z 1 1 Durch die Substitution u := (t t fY (t) d t = 1 1 t fX t b a a1 d t: b)=a mit d u = (1=a) d t erhalten wir E[a X + b] = DWT c Susanne Albers und Ernst W. Mayr Z Z 1 1 (au + b)fX (u) d u: 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 224/462 Beispiel 90 Fur Erwartungswert und Varianz der Gleichverteilung ergibt sich Z b Z b 1 1 E[X ] = t dt = b a t dt b a a a 1 2 b = 2(b a) [t ]a 2 2 = 2(b b aa) = a +2 b ; 1 Z b t2 d t = b2 + ba + a2 ; b a a 3 2 Var[X ] = E[X 2 ] E[X ]2 = : : : = (a 12b) : E[X 2 ] = DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 225/462 1.4.4 Laplace-Prinzip in kontinuierlichen Wahrscheinlichkeitsraumen Das folgende Beispiel zeigt, dass im kontinuierlichen Fall die Bedeutung von gleichwahrscheinlich\ nicht immer ganz klar sein muss. " Bertrand'sches Paradoxon Wir betrachten einen Kreis mit einem eingeschriebenen gleichseitigen Dreieck. Was ist die Wahrscheinlichkeit, mit der die Lange einer zufallig gewahlten Sehne die Seitenlange dieses Dreiecks ubersteigt (Ereignis A)? DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 226/462 r 2 S 120Æ M DWT c Susanne Albers und Ernst W. Mayr d S M 1.4 Rechnen mit kontinuierlichen Zufallsvariablen ' 227/462 Beobachtungen: Die Seiten des Dreiecks haben Abstand 2r vom Mittelpunkt M . Die Lage jeder Sehne ist (bis auf Rotation um M ) durch einen der folgenden Parameter festgelegt: Abstand d zum Kreismittelpunkt, Winkel ' mit dem Kreismittelpunkt. Wir nehmen fur jeden dieser Parameter Gleichverteilung an und ermitteln Pr[A]. 1 Sei d 2 [0; r ] gleichverteilt. A tritt ein, wenn d < r , und es folgt Pr[A] = 1 . 2 2 2 Sei ' 2 [0 ; 180 ] gleichverteilt. F ur A muss gelten ' 2]120 ; 180 ], und es folgt somit Pr[A] = 31 . Siehe auch diese graphischen Darstellungen! DWT c Susanne Albers und Ernst W. Mayr 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 228/462 2. Wichtige stetige Verteilungen 2.1 Gleichverteilung ( f (x) = F (x) = 0 8 > <0 Z x 1 E[X ] = DWT c Susanne Albers und Ernst W. Mayr fur x 2 [a; b]; sonst: 1 b a f (t) d t = xb aa > : 1 a+b 2 fur x < a; fur a x b; fur x > b: und Var[X ] = 2.1 Gleichverteilung (a b)2 : 12 229/462 2.2 Normalverteilung Die Normalverteilung nimmt unter den stetigen Verteilungen eine besonders prominente Position ein. Denition 91 Eine Zufallsvariable X mit Wertebereich WX = R heit normalverteilt mit den Parametern 2 R und 2 R+ , wenn sie die Dichte 1 exp f (x) = p 2 (x )2 =: '(x; ; ) 2 2 besitzt. In Zeichen schreiben wir X N (; 2 ). N (0; 1) heit Standardnormalverteilung. Die zugehorige Dichte '(x; 0; 1) kurzen wir durch '(x) ab. DWT c Susanne Albers und Ernst W. Mayr 2.2 Normalverteilung 230/462 Die Verteilungsfunktion zu N (; 2 ) ist 1 F (x) = p 2 Z x 1 exp (t )2 d t =: (x; ; ) : 2 2 Diese Funktion heit Gau'sche -Funktion (' ist nicht geschlossen integrierbar). DWT c Susanne Albers und Ernst W. Mayr 2.2 Normalverteilung 231/462 Lemma 92 I := Beweis: Wir berechnen zunachst I 2 : I2 = = Z 1 Z 1Z 1 Z 1 1 e 1 e x2 =2 d x = p2: Z x2 =2 d x 1 1 e y2 =2 d y 2 2 e (x +y )=2 d x d y : 1 1 Wir gehen nun zu Polarkoordinaten uber und setzen x := r cos und y := r sin . Dann ist @x @r @x @ @y @r @y @ DWT c Susanne Albers und Ernst W. Mayr sin = r(cos2 + sin2 ) = r = cos r sin r cos 2.2 Normalverteilung 232/462 Beweis (Forts.): und wir erhalten I2 = = Z 2 Z 0 Z 0 DWT c Susanne Albers und Ernst W. Mayr 2 0 1 e r2 =2 r d r d = Z 2 h 0 e r2 =2 i1 0 d 1 d = 2: 2.2 Normalverteilung 233/462 = 0;5 =1 =2 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0,0 -3,0 -2,0 -1,0 DWT c Susanne Albers und Ernst W. Mayr = 0;5 =1 =2 1,0 0,0 1,0 2,0 3,0 0,0 -3,0 -2,0 -1,0 0,0 Dichte und Verteilung von N (0; 2 ) 2.2 Normalverteilung 1,0 2,0 3,0 234/462 Satz 93 (Lineare Transformation der Normalverteilung) Sei X eine normalverteilte Zufallsvariable mit X N (; 2 ). Dann gilt fur beliebiges a 2 R n f0g und b 2 R, dass Y = aX + b normalverteilt ist mit Y N (a + b; a2 2 ). Beweis: Wir betrachten zunachst den Fall a > 0\: " Pr[Y y] = Pr[aX + b y] = Pr X y a b Z (y b)=a 1 ( u )2 p = exp 22 d u: 2 1 Nach der Substitution u = (v DWT c Susanne Albers und Ernst W. Mayr b)=a und d u = (1=a) d v erhalten wir 2.2 Normalverteilung 235/462 Beweis (Forts.): Z y 2 1 Pr[Y y] = p exp (v 2aa2 2 b) d v : 2a 1 Also Y N (a + b; a2 2 ). Fur a < 0 verlauft der Beweis analog. DWT c Susanne Albers und Ernst W. Mayr 2.2 Normalverteilung 236/462 Sei also X eine beliebige N (; 2 )-verteilte Zufallsvariable X und Y Dann ist nach Satz 93 Y N (0; 1)-verteilt. Y := X . heit auch normiert. Ferner gilt Pr[a < X b] = Pr a < Y b b a = : DWT c Susanne Albers und Ernst W. Mayr 2.2 Normalverteilung 237/462 Satz 94 X sei N (0; 1)-verteilt. Dann gilt E[X ] = 0 und Var[X ] = 1: Beweis: Z 1 1 x2 E[X ] = p x exp 2 d x: 2 1 Da der Integrand punktsymmetrisch zu (0; 0) ist, folgt E[X ] = 0. DWT c Susanne Albers und Ernst W. Mayr 2.2 Normalverteilung 238/462 Beweis (Forts.): Mittels Lemma 92 und durch partielle Integration erhalten wir p 2 = Z 1 1 exp = x exp | x2 2 {z =0 x2 2 dx 1 1} + Z 1 1 x2 exp Daraus folgt, dass E[X 2 ] = 1 ist und somit Var[X ] = E[X 2 ] DWT c Susanne Albers und Ernst W. Mayr 2.2 Normalverteilung x2 2 dx E[X ]2 = 1. 239/462 Satz 95 X sei N (; 2 )-verteilt. Dann gilt E[X ] = und Var[X ] = 2 : Beweis: Y := X ist standardnormalverteilt. Ferner gilt gema der Rechenregeln f ur Erwartungswert und Varianz E[X ] = E[Y + ] = E[Y ] + = und Var[X ] = Var[Y + ] = 2 Var[Y ] = 2 : DWT c Susanne Albers und Ernst W. Mayr 2.2 Normalverteilung 240/462 2.3 Exponentialverteilung Die Exponentialverteilung ist in gewisser Weise das kontinuierliche Analogon zur geometrischen Verteilung. Wie die geometrische Verteilung ist sie gedachtnislos\. Sie " spielt daher vor allem bei der Modellierung von Wartezeiten eine groe Rolle. DWT c Susanne Albers und Ernst W. Mayr 2.3 Exponentialverteilung 241/462 Denition 96 Eine Zufallsvariable X heit exponentialverteilt mit dem Parameter , > 0, wenn sie die Dichte ( e x falls x 0; f (x) = 0 sonst besitzt. Fur die entsprechende Verteilungsfunktion gilt (fur x 0) F (x) = Z x 0 e t d t = h e i t x 0 =1 e x : Fur x < 0 gilt selbstverstandlich F (x) = 0. DWT c Susanne Albers und Ernst W. Mayr 2.3 Exponentialverteilung 242/462 E[X ] = Z h 0 1 te t d t Z i1 1 e t d t = t ( e t ) 0 + 1 0 1 =0+ e t = 1 : DWT c Susanne Albers und Ernst W. Mayr 0 2.3 Exponentialverteilung 243/462 Analog erhalten wir E[X 2 ] = = Z h 1 t2 e t d t 0 i1 Z 1 2 t 2t e t d t t ( e ) + 0 0 = 0 + 2 E[X ] = 22 und somit DWT c Susanne Albers und Ernst W. Mayr Var[X ] = E[X 2 ] E[X ]2 = 12 : 2.3 Exponentialverteilung 244/462 2,0 1,0 = 0;5 =1 =2 1,6 0,8 1,2 0,6 0,8 0,4 0,4 0,2 0,0 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 0,0 0,0 = 0;5 =1 =2 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 Dichte und Verteilung der Exponentialverteilung DWT c Susanne Albers und Ernst W. Mayr 2.3 Exponentialverteilung 245/462 2.3.1 Eigenschaften der Exponentialverteilung Satz 97 (Skalierung exponentialverteilter Variablen) Sei X eine exponentialverteilte Zufallsvariable mit dem Parameter . Fur a > 0 ist die Zufallsvariable Y := aX wieder exponentialverteilt mit dem Parameter =a. Beweis: FY (x) = Pr[Y x] = Pr[aX x] h i = Pr X xa = FX xa = 1 e xa : DWT c Susanne Albers und Ernst W. Mayr 2.3 Exponentialverteilung 246/462 Gedachtnislosigkeit Satz 98 (Gedachtnislosigkeit) Eine (positive) kontinuierliche Zufallsvariable X mit Wertebereich R+ ist genau dann exponentialverteilt, wenn fur alle x; y > 0 gilt, dass Pr[X > x + y j X > y] = Pr[X > x] : (*) Beweis: Sei X exponentialverteilt mit Parameter . Dann gilt > x + y; X > y] Pr[X > x + y j X > y] = Pr[X Pr[ X > y] X > x + y] = Pr[Pr[ X > y] (x+y) y =ee DWT c Susanne Albers und Ernst W. Mayr 2.3 Exponentialverteilung =e x = Pr[X > x] : 247/462 Beweis (Forts.): Sei umgekehrt X eine kontinuierliche Zufallsvariable, die die Gleichung () erfullt. Wir denieren g (x) := Pr[X > x]. Fur x; y > 0 gilt g(x + y) = Pr[X > x + y] = Pr[X > x + y j X > y] Pr[X > y] = Pr[X > x] Pr[X > y] = g(x)g(y) : Daraus folgt durch wiederholte Anwendung 1 1 = g 1 g(1) = g + + n} n |n {z n fur alle n 2 N n-mal und somit insbesondere auch g (1=n) = (g (1))1=n . DWT c Susanne Albers und Ernst W. Mayr 2.3 Exponentialverteilung 248/462 Beweis (Forts.): Da X nur positive Werte annimmt, muss es ein n 2 N geben mit g (1=n) > 0. Wegen 0 < g(1) 1 muss es daher auch ein 0 geben mit g(1) = e . Nun gilt fur beliebige p; q 2 N g(p=q) = g(1=q)p = g(1)p=q ; und somit g (r) = e r fur alle r 2 Q+ . Aufgrund der Stetigkeit folgt daraus g(x) = e DWT c Susanne Albers und Ernst W. Mayr x : 2.3 Exponentialverteilung 249/462 Beispiel 99 ber das Casium-Isotop 134 U 55 Cs ist bekannt, dass es eine mittlere Lebensdauer von ungefahr 3,03 Jahren oder 1;55 106 Minuten besitzt. Die Zufallsvariable X messe die Lebenszeit eines bestimmten 134 55 Cs-Atoms. X ist exponentialverteilt mit dem Parameter 1 = 1 0;645 10 = E[X ] 1;55 106 6 1 min Da den Kehrwert einer Zeit als Einheit besitzt, spricht man von der Zerfallsrate. Auch bei anderen Anwendungen ist es ublich, als Rate einzufuhren. DWT c Susanne Albers und Ernst W. Mayr 2.3 Exponentialverteilung 250/462 2.3.2 Exponentialverteilung als Grenzwert der geometrischen Verteilung Erinnerung: Die Poisson-Verteilung lasst sich als Grenzwert der Binomialverteilung darstellen. Wir betrachten eine Folge geometrisch verteilter Zufallsvariablen Xn mit Parameter pn = =n. Fur ein beliebiges k 2 N ist die Wahrscheinlichkeit, dass Xn k n, gleich Pr[Xn kn] = kn X i=1 (1 pn )i 1 pn = pn = pn 1 (1p pn )kn n DWT c Susanne Albers und Ernst W. Mayr 2.3 Exponentialverteilung =1 kn X1 i=0 1 (1 pn )i n kn : 251/462 Wegen limn!1 (1 n n) = e gilt daher fur die Zufallsvariablen Yn := n1 Xn , dass lim Pr[Yn t] = nlim !1 Pr[Xn t n] n!1 " = nlim !1 1 =1 e 1 n tn # t : Die Folge Yn der (skalierten) geometrisch verteilten Zufallsvariablen geht also fur n ! 1 in eine exponentialverteilte Zufallsvariable mit Parameter uber. DWT c Susanne Albers und Ernst W. Mayr 2.3 Exponentialverteilung 252/462 3. Mehrere kontinuierliche Zufallsvariablen 3.1 Mehrdimensionale Dichten Beobachtung Zu zwei kontinuierlichen Zufallsvariablen X , Y wird der zugrunde liegende gemeinsame Wahrscheinlichkeitsraum uber R2 durch eine integrierbare (gemeinsame) Dichtefunktion fX;Y : R2 ! R+ 0 mit Z 1 Z 1 1 1 fX;Y (x; y) d x d y = 1 beschrieben. Fur ein Ereignis A R2 (das aus abzahlbar vielen geschlossenen oder oenen Bereichen gebildet sein muss) gilt Pr[A] = DWT c Susanne Albers und Ernst W. Mayr Z A fX;Y (x; y) d x d y: 3.1 Mehrdimensionale Dichten 253/462 Unter einem Bereich B verstehen wir dabei Mengen der Art B = f(x; y) 2 R2 j a x b; c y dg mit a; b; c; d 2 R: Dabei konnen die einzelnen Intervallgrenzen auch oen\ bzw. 1 sein. " DWT c Susanne Albers und Ernst W. Mayr 3.1 Mehrdimensionale Dichten 254/462 Analog zum eindimensionalen Fall ordnen wir der Dichte fX;Y eine (gemeinsame) Verteilung FX;Y : R2 ! [0; 1] zu: FX;Y (x; y) = Pr[X x; Y DWT c Susanne Albers und Ernst W. Mayr y] = Z y Z x 1 3.1 Mehrdimensionale Dichten 1 fX;Y (u; v) d u d v: 255/462 3.2 Randverteilungen und Unabhangigkeit Denition 100 Sei fX;Y die gemeinsame Dichte der Zufallsvariablen X und Y . Die Randverteilung der Variablen X ist gegeben durch FX (x) = Pr[X x] = Analog nennen wir fX (x) = Z x Z 1 1 1 Z 1 fX;Y (u; v) d v d u: fX;Y (x; v) d v 1 die Randdichte von X . Entsprechende Denitionen gelten symmetrisch fur Y . DWT c Susanne Albers und Ernst W. Mayr 3.2 Randverteilungen und Unabhangigkeit 256/462 Denition 101 Zwei kontinuierliche Zufallsvariablen X und Y heien unabhangig, wenn Pr[X x; Y y] = Pr[X x] Pr[Y y] fur alle x; y 2 R gilt. Dies ist gleichbedeutend mit FX;Y (x; y) = FX (x) FY (y) : Dierentiation ergibt DWT c Susanne Albers und Ernst W. Mayr fX;Y (x; y) = fX (x) fY (y) : 3.2 Randverteilungen und Unabhangigkeit 257/462 Fur mehrere Zufallsvariablen X1 ; : : : ; Xn gilt analog: X1 ; : : : ; Xn sind genau dann unabhangig, wenn FX1 ;:::;Xn (x1 ; : : : ; xn ) = FX1 (x1 ) : : : FXn (xn ) bzw. fX1 ;:::;Xn (x1 ; : : : ; xn ) = fX1 (x1 ) : : : fXn (xn ) fur alle x1 ; : : : ; xn 2 R. DWT c Susanne Albers und Ernst W. Mayr 3.2 Randverteilungen und Unabhangigkeit 258/462 3.3 Warteprobleme mit der Exponentialverteilung Warten auf mehrere Ereignisse Satz 102 Die Zufallsvariablen X1 ; : : : ; Xn seien unabhangig und exponentialverteilt mit den Parametern 1 ; : : : ; n . Dann ist auch X := minfX1 ; : : : ; Xn g exponentialverteilt mit dem Parameter 1 + : : : + n . Beweis: Der allgemeine Fall folgt mittels Induktion aus dem fur n = 2. Fur die Verteilungsfunktion FX gilt: 1 FX (t) = Pr[X > t] = Pr[minfX1 ; X2 g > t] = Pr[X1 > t; X2 > t] = Pr[X1 > t] Pr[X2 > t] = e 1 t e 2 t = e (1 +2 )t : DWT c Susanne Albers und Ernst W. Mayr 3.3 Warteprobleme mit der Exponentialverteilung 259/462 Anschaulich besagt Satz 102, dass sich die Raten addieren, wenn man auf das erste Eintreten eines Ereignisses aus mehreren unabhangigen Ereignissen wartet. Wenn beispielsweise ein Atom die Zerfallsrate besitzt, so erhalten wir bei n Atomen die Zerfallsrate n (wie uns auch die Intuition sagt). DWT c Susanne Albers und Ernst W. Mayr 3.3 Warteprobleme mit der Exponentialverteilung 260/462 Poisson-Prozess Wir hatten bei der Diskussion der geometrischen und der Poisson-Verteilung festgestellt: Wenn der zeitliche Abstand der Treer geometrisch verteilt ist, so ist ihre Anzahl in einer festen Zeitspanne binomialverteilt. Im Grenzwert n ! 1, wobei wir die Treerwahrscheinlichkeit mit pn = =n ansetzen, konvergiert die geometrische Verteilung gegen die Exponentialverteilung und die Binomialverteilung gegen die Poisson-Verteilung. Im Grenzwert n ! 1 erwarten wir deshalb die folgende Aussage: Wenn man Ereignisse zahlt, deren zeitlicher Abstand exponentialverteilt ist, so ist die Anzahl dieser Ereignisse in einer festen Zeitspanne Poisson-verteilt. DWT c Susanne Albers und Ernst W. Mayr 3.3 Warteprobleme mit der Exponentialverteilung 261/462 Seien T1 ; T2 : : : unabhangige exponentialverteilte Zufallsvariablen mit Parameter . Die Zufallsvariable Ti modelliert die Zeit, die zwischen Treer i 1 und i vergeht. Fur den Zeitpunkt t > 0 denieren wir X (t) := maxfn 2 N j T1 + : : : + Tn tg: X (t) gibt also an, wie viele Treer sich bis zur Zeit t (von Zeit Null ab) ereignet haben. Es gilt: DWT c Susanne Albers und Ernst W. Mayr 3.3 Warteprobleme mit der Exponentialverteilung 262/462 Fakt 103 Seien T1 ; T2 ; : : : unabhangige Zufallsvariablen und sei X (t) fur t > 0 wie oben deniert. Dann gilt: X (t) ist genau dann Poisson-verteilt mit Parameter t, wenn es sich bei T1 ; T2 ; : : : um exponentialverteilte Zufallsvariablen mit Parameter handelt. Zum Zufallsexperiment, das durch T1 ; T2 ; : : : deniert ist, erhalten wir fur jeden Wert t > 0 eine Zufallsvariable X (t). Hierbei konnen wir t als Zeit interpretieren und X (t) als Verhalten des Experiments zur Zeit t. Eine solche Familie (X (t))t>0 von Zufallsvariablen nennt man allgemein einen stochastischen Prozess. Der hier betrachtete Prozess, bei dem T1 ; T2 ; : : : unabhangige, exponentialverteilte Zufallsvariablen sind, heit Poisson-Prozess und stellt ein fundamentales und zugleich praktisch sehr bedeutsames Beispiel fur einen stochastischen Prozess dar. DWT c Susanne Albers und Ernst W. Mayr 3.3 Warteprobleme mit der Exponentialverteilung 263/462 Beispiel 104 Wir betrachten eine Menge von Jobs, die auf einem Prozessor sequentiell abgearbeitet werden. Die Laufzeiten der Jobs seien unabhangig und exponentialverteilt mit Parameter = 1=30[1=s]. Jeder Job benotigt also im Mittel 30s. Gema Fakt 103 ist die Anzahl von Jobs, die in einer Minute vollstandig ausgefuhrt werden, Poisson-verteilt mit Parameter t = 60 (1=30) = 2. Die Wahrscheinlichkeit, dass in einer Minute hochstens ein Job abgearbeitet wird, betragt in diesem Fall (t = 2) e DWT c Susanne Albers und Ernst W. Mayr t + te t 0;406 : 3.3 Warteprobleme mit der Exponentialverteilung 264/462 3.4 Summen von Zufallsvariablen Satz 105 Seien X und Y unabhangige kontinuierliche Zufallsvariablen. Fur die Dichte von Z := X + Y gilt Z fZ (z ) = 1 1 fX (x) fY (z x) d x : Beweis: Nach Denition der Verteilungsfunktion gilt FZ (t) = Pr[Z t] = Pr[X + Y t] = Z A(t) fX;Y (x; y) d xd y wobei A(t) = f(x; y ) 2 R2 j x + y tg. DWT c Susanne Albers und Ernst W. Mayr 3.4 Summen von Zufallsvariablen 265/462 Beweis (Forts.): Aus der Unabhangigkeit von X und Y folgt FZ (t) = = Z A(t) Z 1 1 fX (x) fY (y) d xd y fX (x) Z t x 1 fY (y) d y d x: Mittels der Substitution z := x + y , d z = d y ergibt sich Z t x 1 und somit FZ (t) = DWT c Susanne Albers und Ernst W. Mayr fY (y) d y = Z t Z 1 1 1 Z t 1 fY (z x) d z fX (x)fY (z x) d x d z : 3.4 Summen von Zufallsvariablen 266/462 Satz 106 (Additivitat der Normalverteilung) Die Zufallsvariablen X1 ; : : : ; Xn seien unabhangig und normalverteilt mit den Parametern i ; i (1 i n). Es gilt: Die Zufallsvariable Z := a1 X1 + : : : + an Xn ist normalverteilt mit Erwartungswert = a1 1 + : : : + an n und Varianz 2 = a21 12 + : : : + a2n n2 . Beweis: Wir beweisen zunachst den Fall n = 2 und a1 = a2 = 1. Nach Satz 105 gilt fur Z := X1 + X2 , dass Z1 fZ (z ) = = 1 fX1 (z 1 1 2 2 DWT c Susanne Albers und Ernst W. Mayr Z1 1 y ) fX2 (y ) d y exp 1 2 | z ( y 1 )2 (y 2 )2 + d y: 12 22 {z } =:v 3.4 Summen von Zufallsvariablen 267/462 Beweis (Forts.): Wir setzen := 1 + 2 2 := 12 + 22 v1 := (z )= v22 := v v12 Damit ergibt sich unmittelbar v22 = (z y 1 )2 + (y 2 )2 woraus wir ermitteln. DWT c Susanne Albers und Ernst W. Mayr 12 v2 = 22 y12 2 12 + y22 1 2 (z 1 2 )2 ; 12 + 22 z22 + 1 22 3.4 Summen von Zufallsvariablen 268/462 Beweis (Forts.): Damit folgt fur die gesuchte Dichte fZ (z ) = Wir substituieren noch und erhalten 1 2 1 2 exp v12 Z 2 1 exp t := v2 und d t = 1 2 d y: dy 1 2 Z 1 ( z )2 1 fZ (z ) = 2 exp 22 1 exp Mit Lemma 92 folgt, dass fZ (z ) = '(z ; ; ) ist. DWT c Susanne Albers und Ernst W. Mayr v22 3.4 Summen von Zufallsvariablen t2 2 d t: 269/462 Beweis (Forts.): Daraus erhalten wir die Behauptung fur n = 2, denn den Fall Z := a1 X1 + a2 X2 fur beliebige Werte a1 ; a2 2 R konnen wir leicht mit Hilfe von Satz 93 auf den soeben bewiesenen Fall reduzieren. Durch Induktion kann die Aussage auf beliebige Werte n 2 N verallgemeinert werden. DWT c Susanne Albers und Ernst W. Mayr 3.4 Summen von Zufallsvariablen 270/462 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen Fur diskrete Zufallsvariablen X haben wir die momenterzeugende Funktion MX (s) = E[eXs ] eingefuhrt. Diese Denition kann man unmittelbar auf kontinuierliche Zufallsvariablen ubertragen. Die fur MX (s) gezeigten Eigenschaften bleiben dabei erhalten. DWT 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen c Susanne Albers und Ernst W. Mayr 271/462 Beispiel 107 Fur eine auf [a; b] gleichverteilte Zufallsvariable U gilt MU (t) = E[etX ] = etx = t(b a) etb eta Z b a b etx 1 dx b a a = t(b a) : DWT 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen c Susanne Albers und Ernst W. Mayr 272/462 Beispiel (Forts.) Fur eine standardnormalverteilte Zufallsvariable N N (0; 1) gilt Z +1 1 MN (t) = p et e =2 d 2 1 Z +1 e (t ) =2 d = et =2 p1 2 1 t = 2 =e : 2 2 2 2 DWT 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen c Susanne Albers und Ernst W. Mayr 273/462 Beispiel (Forts.) Daraus ergibt sich fur Y N (; 2) wegen Y N (0; 1) MY (t) = E[etY ] Y = et E[e(t) ] = et MN (t) = et+(t)2 =2 : DWT 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen c Susanne Albers und Ernst W. Mayr 274/462 Weiterer Beweis von Satz 106: Beweis: Gema dem vorhergehenden Beispiel gilt MXi (t) = eti +(ti ) =2 : Wegen der Unabhangigkeit der Xi folgt 2 MZ (t) = E[et(a1 X1 ++an Xn ) ] = = = n Y i=1 n Y n Y i=1 E[e(ai t)Xi ] MXi (ai t) eai ti +(ai ti ) =2 2 i=1 = et+(t)2 =2 ; mit = a1 1 + + an n und 2 = a21 12 + + a2n n2 . DWT 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen c Susanne Albers und Ernst W. Mayr 275/462 4. Zentraler Grenzwertsatz Satz 108 (Zentraler Grenzwertsatz) Die Zufallsvariablen X1 ; : : : ; Xn besitzen jeweils dieselbe Verteilung und seien unabhangig. Erwartungswert und Varianz von Xi existieren fur i = 1; : : : ; n und seien mit bzw. 2 bezeichnet ( 2 > 0). Die Zufallsvariablen Yn seien deniert durch Yn := X1 + : : : + Xn fur n 1. Dann folgt, dass die Zufallsvariablen Yn n p n asymptotisch standardnormalverteilt sind, also Zn N (0; 1) fur n ! 1. Zn := DWT c Susanne Albers und Ernst W. Mayr 4 Zentraler Grenzwertsatz 276/462 Etwas formaler ausgedruckt gilt: Die Folge der zu Zn gehorenden Verteilungsfunktionen Fn hat die Eigenschaft lim F (x) = (x) fur alle n!1 n x 2 R: Wir sagen dazu auch: Die Verteilung von Zn konvergiert gegen die Standardnormalverteilung fur n ! 1. DWT c Susanne Albers und Ernst W. Mayr 4 Zentraler Grenzwertsatz 277/462 Dieser Satz ist von groer Bedeutung fur die Anwendung der Normalverteilung in der Statistik. Der Satz besagt, dass sich die Verteilung einer Summe beliebiger unabhangiger Zufallsvariablen (mit endlichem Erwartungswert und Varianz) der Normalverteilung umso mehr annahert, je mehr Zufallsvariablen an der Summe beteiligt sind. DWT c Susanne Albers und Ernst W. Mayr 4 Zentraler Grenzwertsatz 278/462 Beweis: Wir betrachten Xi := (Xi )= fur i = 1; : : : ; n mit E[Xi ] = 0 und Var[Xi ] = 1. Damit gilt (gema vorhergehendem Beispiel) p MZ (t) = E[etZ ] = E[et(X1 +:::+Xn )= n ] p p = MX1 (t= n) : : : MXn (t= n) : Fur beliebiges i betrachten wir die Taylorentwicklung von MXi (t) =: h(t) an der Stelle t=0 h00 (0) 2 h(t) = h(0) + h0 (0) t + t + O(t3): Aus der Linearitat des Erwartungswerts folgt 2 h0 (t) = E[etXi Xi ] und h00 (t) = E[etXi (Xi )2 ]: DWT c Susanne Albers und Ernst W. Mayr 4 Zentraler Grenzwertsatz 279/462 Beweis (Forts.): Damit gilt h0 (0) = E[Xi ] = 0 und h00 (0) = E[(Xi )2 ] = Var[X ] = 1: Durch Einsetzen in die Taylorreihe folgt h(t) = 1 + t2 =2 + O(t3 ), und wir konnen MZ (t) umschreiben zu t2 t3 MZ (t) = 1 + + O 3=2 2n n n ! et =2 fur n ! 1: 2 Aus der Konvergenz der momenterzeugenden Funktion folgt auch die Konvergenz der Verteilung. Damit ist Z asymptotisch normalverteilt. DWT c Susanne Albers und Ernst W. Mayr 4 Zentraler Grenzwertsatz 280/462 Beweis (Forts.): Die momenterzeugende Funktion existiert leider nicht bei allen Zufallsvariablen und unser Beweis ist deshalb unvollstandig. Man umgeht dieses Problem, indem man statt der momenterzeugenden Funktion die so genannte charakteristische Funktion M~ X (t) = E[eitX ] betrachtet. Fur Details verweisen wir auf die einschlagige Literatur. DWT c Susanne Albers und Ernst W. Mayr 4 Zentraler Grenzwertsatz 281/462 Der Zentrale Grenzwertsatz hat die folgende intuitive Konsequenz: Wenn eine Zufallsgroe durch lineare Kombination vieler unabhangiger, identisch verteilter Zufallsgroen entsteht, so erhalt man naherungsweise eine Normalverteilung. DWT c Susanne Albers und Ernst W. Mayr 4 Zentraler Grenzwertsatz 282/462 Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die auftretenden Zufallsgroen Bernoulli-verteilt sind. Korollar 109 (Grenzwertsatz von de Moivre) X1 ; : : : ; Xn seien unabhangige Bernoulli-verteilte Zufallsvariablen mit gleicher Erfolgswahrscheinlichkeit p. Dann gilt fur die Zufallsvariable Hn mit Hn := X1 + : : : + Xn fur n 1, dass die Verteilung der Zufallsvariablen Hn := Hn np np(1 p) p fur n ! 1 gegen die Standardnormalverteilung konvergiert. DWT c Susanne Albers und Ernst W. Mayr 4 Zentraler Grenzwertsatz 283/462 Beweis: Die Behauptung folgt unmittelbar aus dem Zentralen Grenzwertsatz, da = n1 E[Hn ] = p und 2 = n1 Var[Hn ] = p(1 p). Bemerkung Wenn man X1 ; : : : ; Xn als Indikatorvariablen fur das Eintreten eines Ereignisses A bei n unabhangigen Wiederholungen eines Experimentes interpretiert, dann gibt Hn die absolute Haugkeit von A an. DWT c Susanne Albers und Ernst W. Mayr 4 Zentraler Grenzwertsatz 284/462 4.1 Normalverteilung als Grenzwert der Binomialverteilung Korollar 109 ermoglicht, die Normalverteilung als Grenzwert der Binomialverteilung aufzufassen. Die folgende Aussage ist eine Konsequenz von Korollar 109: Korollar 110 Sei Hn Bin(n; p) eine binomialverteilte Zufallsvariable. Die Verteilung von Hn =n konvergiert gegen N (p; p(1 p)=n) fur n ! 1. DWT c Susanne Albers und Ernst W. Mayr 4.1 Normalverteilung als Grenzwert der Binomialverteilung 285/462 0.4 0.4 Bin(10, 0.3) ϕ(x) 0.3 0.3 0.2 0.2 0.1 0.1 0.0 -4.0 -3.0 -2.0 -1.0 0.0 0.4 1.0 2.0 3.0 4.0 0.0 -4.0 0.3 0.2 0.2 0.1 0.1 -3.0 -2.0 -1.0 0.0 1.0 2.0 -3.0 -2.0 -1.0 0.0 0.4 Bin(50, 0.3) ϕ(x) 0.3 0.0 -4.0 Bin(20, 0.3) ϕ(x) 3.0 4.0 0.0 -4.0 1.0 2.0 3.0 4.0 3.0 4.0 Bin(100, 0.3) ϕ(x) -3.0 -2.0 -1.0 0.0 1.0 2.0 Vergleich von Binomial- und Normalverteilung n; 0:3) bei 0:3n zentriert, mit Bin( DWT c Susanne Albers und Ernst W. Mayr p0:3 0:7n horizontal gestaucht und vertikal gestreckt 4.1 Normalverteilung als Grenzwert der Binomialverteilung 286/462 Historisch gesehen entstand Korollar 109 vor Satz 108. Fur den Fall p = 1=2 wurde Korollar 109 bereits von Abraham de Moivre (1667{1754) bewiesen. De Moivre war geburtiger Franzose, musste jedoch aufgrund seines protestantischen Glaubens nach England iehen. Dort wurde er unter anderem Mitglied der Royal Society, erhielt jedoch niemals eine eigene Professur. Die allgemeine Formulierung von Korollar 109 geht auf Pierre Simon Laplace (1749{1827) zuruck. Allerdings vermutet man, dass die Losung des allgemeinen Falls p 6= 1=2 bereits de Moivre bekannt war. DWT c Susanne Albers und Ernst W. Mayr 4.1 Normalverteilung als Grenzwert der Binomialverteilung 287/462 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 Wir betrachten die Wahrscheinlichkeit Pr[a H2n b] fur p = 1=2 und a; b 2 R mit a b. Wenn die Verteilung von H2n , wieRin Korollar 109 angegeben, gegen N (0; 1) konvergiert, so sollte Pr[a H2n b] ab '(t) d t fur genugend groe n gelten. Wir schreiben f (n) 1 g (n) fur limn!1 f (n)=g (n) = 1, wollen also zeigen: Pr[a H 2n b] 1 Z b a '(t) d t: Da fur H2n Bin(2n; 1=2) gilt, dass E[H2n ] = n und Var[H2n ] = n=2 ist, erhalten wir H2n n ; H2n = p n=2 DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 c Susanne Albers und Ernst W. Mayr 288/462 und es folgt p p Pr[a H2n b] = Pr[n + a n=2 H2n n + b n=2] X = Pr[H2n = n + i] i2In p p fur In := fz 2 Z j a n=2 z b n=2g. Damit ist 2n 2n 1 2n b] = n + i {z 2 i2In | Pr[a H X =:pn;i : } DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 c Susanne Albers und Ernst W. Mayr 289/462 Es gilt 2n max pn;i pn := 2n i 21 n und mit der Stirling'schen Approximation fur n! p 2n n)! 1 = (2 (n!)2 2 ; (2n)2n e 2n p 2 2n 1 2n = p1 : pn 1 2 n (nn e n 2n)2 Ersetzen wir nun die pn;i durch pn , so entsteht dabei ein Fehler, den wir mit qn;i := ppn;i n bezeichnen. DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 c Susanne Albers und Ernst W. Mayr 290/462 Fur i > 0 gilt qn;i = = 2n 1 2n n+i 2 2n 1 2n 2 n Qi 1 j =0 (n j ) Qi j =1 (n + j ) = (n + i(2)!n )!(n n! i)!n! (2n)! i i Y Y 2 j 1 n j+1 = 1 n+j : = n+j j =1 j =1 Wegen der Symmetrie der Binomialkoezienten gilt qn; i = qn;i , womit auch der Fall i < 0 abgehandelt ist. DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 c Susanne Albers und Ernst W. Mayr 291/462 Man macht sich leicht klar, dass 1 schlieen wir, dass 0 ln @ i Y j =1 p 1 1 A 1 2nj + j 1=x ln x x 1 fur x > 0 gilt. Damit = i X ln 1 2nj + j1 j =1 i X i X 2 j 1 2j 1 n+j n+i j =1 j =1 2 3 = i(i n++1)i i = in + n(ni + i) 2 = in + O p1n ; da i = O( n) fur i 2 In . DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 c Susanne Albers und Ernst W. Mayr 292/462 Ebenso erhalten wir 0 ln @ i Y j =1 1 1 A 1 2nj + j = i X 1 j =1 i X 1 2nj + j1 2j + 1 n j+1 j =1 i2 = n i = Zusammen haben wir e i2 n i =e i2 n O p1n qn;i e p Wegen eO(1= n) = 1 o(1) folgt daraus qn;i 1 e i2 n i X 1! 2j 1 j =1 n i O p1n : i2 +O p1 n n i2 =n . DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 c Susanne Albers und Ernst W. Mayr 293/462 Damit schatzen wir nun Pr[a H2n b] weiter ab: X Pr[a H2n b] = pn qn;i 1 i2In Mit := p1n | X i 2I n {z =:Sn e i2 =n : } p 2=n konnen wir die Summe Sn umschreiben zu 1 X e (i) : Sn = p 2 i2In 2 1 2 R R 2 Diese Summe entspricht einer Naherung fur ab '(t) d t = p12 ab e t =2 d t durch Aufteilung der integrierten Flache in Balken der Breite ur n ! 1 konvergiert die R . F Flache der Balken gegen das Integral, d. h. Sn 1 ab '(t) d t. q. e. d. DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 c Susanne Albers und Ernst W. Mayr 294/462 4.3 Verschiedene Approximationen der Binomialverteilung Sei Hn Bin(n; p) eine binomialverteilte Zufallsvariable mit der Verteilungsfunktion Fn . Fur n ! 1 gilt Fn (t) = Pr[Hn =n t=n] ! t=n p ! p = p(1 p)=n ! t np p : p(1 p)n Wir konnen Fn somit fur groe n durch approximieren. Diese Approximation ist in der Praxis deshalb von Bedeutung, da die Auswertung der Verteilungsfunktion der Binomialverteilung fur groe n sehr aufwandig ist, wahrend fur die Berechnung der Normalverteilung eziente numerische Methoden vorliegen. DWT c Susanne Albers und Ernst W. Mayr 4.3 Verschiedene Approximationen der Binomialverteilung 295/462 Beispiel 111 Wenn man die Wahrscheinlichkeit berechnen mochte, mit der bei 106 Wurfen mit einem idealen Wurfel mehr als 500500-mal eine gerade Augenzahl fallt, so muss man eigentlich folgenden Term auswerten: T := 10 X 106 6 i=5;00510 5 i 106 1 2 : Dies ist numerisch kaum ezient moglich. Die numerische Integration der Dichte ' der Normalverteilung ist hingegen relativ einfach. Auch andere Approximationen der Verteilung , beispielsweise durch Polynome, sind bekannt. Entsprechende Funktionen werden in zahlreichen Softwarebibliotheken als black box\ angeboten. " DWT c Susanne Albers und Ernst W. Mayr 4.3 Verschiedene Approximationen der Binomialverteilung 296/462 Beispiel Mit der Approximation durch die Normalverteilung erhalten wir 5;005p 105 5 105 T 1 2;5 105 102 = 1 55 10 2 = 1 (1) 0;1573 : DWT c Susanne Albers und Ernst W. Mayr ! 4.3 Verschiedene Approximationen der Binomialverteilung 297/462 Bei der Approximation der Binomialverteilung mit Hilfe von Korollar 109 fuhrt man oft noch eine so genannte Stetigkeitskorrektur durch. Zur Berechnung von Pr[X x] fur X Bin(n; p) setzt man Pr[X x] xp+ 0;5 np np(1 p) statt an. DWT c Susanne Albers und Ernst W. Mayr Pr[X x] p x np np(1 p) ! ! 4.3 Verschiedene Approximationen der Binomialverteilung 298/462 Der Korrekturterm lat sich in der Histogramm-Darstellung der Binomialverteilung veranschaulichen. Die Binomialverteilung wird dort durch Balken angegeben, deren Flache in etwa der Flache unterhalb der Dichte ' von N (0; 1) entspricht. Wenn man die Flache der Balken mit X x\ durch das Integral von ' approximieren mochte, so " sollte man bis zum Ende des Balkens fur X = x\ integrieren und nicht nur bis zur " Mitte. Dafur sorgt der Korrekturterm 0;5. DWT c Susanne Albers und Ernst W. Mayr 4.3 Verschiedene Approximationen der Binomialverteilung 299/462 Approximationen fur die Binomialverteilung Approximation durch die Poisson-Verteilung: Bin(n; p) wird approximiert durch Po(np). Diese Approximation funktioniert sehr gut fur seltene Ereignisse, d. h. wenn np sehr klein gegenuber n ist. Als Faustregel fordert man n 30 und p 0;05. Approximation durch die Cherno-Schranken: Bei der Berechnung der tails der Binomialverteilung liefern diese Ungleichungen meist sehr gute Ergebnisse. Ihre Starke liegt darin, dass es sich bei den Schranken nicht um Approximationen, sondern um echte Abschatzungen handelt. Dies ist vor allem dann wichtig, wenn man nicht nur numerische Naherungen erhalten mochte, sondern allgemeine Aussagen uber die Wahrscheinlichkeit von Ereignissen beweisen mochte. DWT c Susanne Albers und Ernst W. Mayr 4.3 Verschiedene Approximationen der Binomialverteilung 300/462 Approximation durch die Normalverteilung: Als Faustregel sagt man, dass die Verteilungsfunktion Fn (t) von Bin(n; p) durch p Fn (t) ((t np)= p(1 p)n) approximiert werden kann, wenn np 5 und n(1 DWT c Susanne Albers und Ernst W. Mayr p) 5 gilt. 4.3 Verschiedene Approximationen der Binomialverteilung 301/462 Kapitel III Induktive Statistik 1. Einfuhrung Das Ziel der induktiven Statistik besteht darin, aus gemessenen Zufallsgroen auf die zugrunde liegenden Gesetzmaigkeiten zu schlieen. Im Gegensatz dazu spricht man von deskriptiver Statistik, wenn man sich damit beschaftigt, groe Datenmengen verstandlich aufzubereiten, beispielsweise durch Berechnung des Mittelwertes oder anderer abgeleiteter Groen. DWT c Susanne Albers und Ernst W. Mayr 1 Einfuhrung 302/462 2. Schatzvariablen Wir betrachten die Anzahl X von Lesezugrien auf eine Festplatte bis zum ersten Lesefehler und nehmen an, dass Pr[X = i] = (1 p)i 1 p, setzen also fur X eine geometrische Verteilung an. Dahinter verbirgt sich die Annahme, dass bei jedem Zugri unabhangig und mit jeweils derselben Wahrscheinlichkeit p ein Lesefehler auftreten kann. Unter diesen Annahmen ist die Verteilung der Zufallsvariablen X eindeutig festgelegt. Allerdings entzieht sich der numerische Wert des Parameters p noch unserer Kenntnis. Dieser soll daher nun empirisch geschatzt werden. Statt p konnen wir ebensogut E[X ] bestimmen, da wir daraus nach den Eigenschaften der geometrischen Verteilung p mittels p = E[1X ] berechnen konnen. DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 303/462 Dazu betrachten wir n baugleiche Platten und die zugehorigen Zufallsvariablen Xi (fur 1 i n), d. h. wir zahlen fur jede Platte die Anzahl von Zugrien bis zum ersten Lesefehler. Die Zufallsvariablen Xi sind dann unabhangig und besitzen jeweils dieselbe Verteilung wie X . Wir fuhren also viele Kopien eines bestimmten Zufallsexperiments aus, um Schlusse auf die Gesetzmaigkeiten des einzelnen Experiments ziehen zu konnen. Dies ist das Grundprinzip der induktiven Statistik. Die n Messungen heien Stichproben, und die Variablen Xi nennt man Stichprobenvariablen. DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 304/462 Grundprinzip statistischer Verfahren Wir erinnern an das Gesetz der groen Zahlen (Satz 63) bzw. den Zentralen Grenzwertsatz (Satz 108). Wenn man ein Experiment genugend oft wiederholt, so nahert sich der Durchschnitt der Versuchsergebnisse immer mehr dem Verhalten an, das man im Mittel\ erwarten wurde. Je mehr Experimente wir also durchfuhren, umso " genauere und zuverlassigere Aussagen konnen wir uber den zugrunde liegenden Wahrscheinlichkeitsraum ableiten. Auf diesem Grundprinzip beruhen alle statistischen Verfahren. DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 305/462 Um E[X ] empirisch zu ermitteln, bietet es sich an, aus den Zufallsvariablen Xi das arithmetische Mittel X zu bilden, das deniert ist durch n X 1 Xi : X := n i=1 Es gilt E[X ] = n n 1X 1X E[X ] = E[X ] = E[X ]: n i=1 i n i=1 X liefert uns also im Mittel den gesuchten Wert E[X ]. Da wir X zur Bestimmung von E[X ] verwenden, nennen wir X einen Schatzer fur den Erwartungswert E[X ]. Wegen der obigen Eigenschaft ist X sogar ein so genannter erwartungstreuer Schatzer. DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 306/462 Denition 112 Gegeben sei eine Zufallsvariable X mit der Dichte f (x; ). Eine Schatzvariable oder kurz Schatzer fur den Parameter der Dichte von X ist eine Zufallsvariable, die aus mehreren (meist unabhangigen und identisch verteilten) Stichprobenvariablen zusammengesetzt ist. Ein Schatzer U heit erwartungstreu, wenn gilt E[U ] = : Bemerkung: Die Groe E[U ] nennt man Bias der Schatzvariablen U . Bei erwartungstreuen Schatzvariablen ist der Bias gleich Null. DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 307/462 Der Schatzer X ist also ein erwartungstreuer Schatzer fur den Erwartungswert von X . Ein wichtiges Ma fur die Gute eines Schatzers ist die mittlere quadratische Abweichung, kurz MSE fur mean squared error genannt. Diese berechnet sich durch MSE := E[(U )2 ]. Wenn U erwartungstreu ist, so folgt MSE = E[(U E[U ])2 ] = Var[U ]. Denition 113 Wenn die Schatzvariable A eine kleinere mittlere quadratische Abweichung besitzt als die Schatzvariable B , so sagt man, dass A ezienter ist als B . Eine Schatzvariable heit konsistent im quadratischen Mittel, wenn MSE ! 0 fur n ! 1 gilt. Hierbei bezeichne n den Umfang der Stichprobe. DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 308/462 Fur X erhalten wir wegen der Unabhangigkeit von X1 ; : : : ; Xn " n 1X MSE = Var[X ] = Var Xi n = n12 DWT c Susanne Albers und Ernst W. Mayr n X i=1 # i=1 Var[Xi ] = n1 Var[X ]: 2 Schatzvariablen 309/462 Bei jeder Verteilung mit endlicher Varianz folgt MSE = O(1=n) und somit MSE ! 0 fur n ! 1. Der Schatzer X ist also konsistent. Aus der Konsistenz von X im quadratischen Mittel konnen wir mit Hilfe des Satzes von Chebyshev (siehe Satz 61) folgende Konsequenz ableiten. Sei " > 0 beliebig, aber fest. Dann gilt X] !0 Pr[jX j "] = Pr[jX E[X ]j "] Var[ 2 " fur n ! 1. Fur genugend groe n liegen also die Werte von X beliebig nahe am gesuchten Wert = E[X ]. Diese Eigenschaft nennt man auch schwache Konsistenz, da sie aus der Konsistenz im quadratischen Mittel folgt. DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 310/462 Als nachstes betrachten wir eine weitere von X abgeleitete Schatzvariable: S := v u u t 1 n X n 1 i=1 (Xi X )2 : Wir zeigen, dass S 2 ein erwartungstreuer Schatzer fur die Varianz von X ist. Sei := E[X ] = E[Xi ] = E[X ]. ( Xi X )2 = (Xi = (Xi + X )2 )2 + ( X )2 + 2(Xi )2 + ( Xi = ( = DWT c Susanne Albers und Ernst W. Mayr n 2 n Xi ( X )2 )2 + ( 2 n X n j =1 X )2 2 Schatzvariablen )( ( Xi 2 )(Xj X n j 6=i X) ( Xi ) )(Xj ): 311/462 Fur je zwei unabhangige Zufallsvariablen Xi , Xj mit i 6= j gilt E[(Xi )(Xj )] = E[Xi ] E[Xj ] = (E[Xi ] ) (E[Xj ] ) = 0 0 = 0: Daraus folgt n 2 E[(Xi )2] + E[( X )2] n = n n 2 Var[Xi ] + Var[X ]: E[(Xi X )2 ] = DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 312/462 Wegen Var[Xi ] = Var[X ] und Var[X ] = n1 Var[X ] folgt nun E[(Xi X )2 ] = n 1 Var[X ]; n und somit gilt fur S 2 E[S 2 ] = 1 n X E[(Xi X )2 ] n 1 i=1 = n 1 1 n n n 1 Var[X ] = Var[X ]: S 2 ist also eine erwartungstreue Schatzvariable fur die Varianz von X . DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 313/462 Die vorangegangene Rechnung erklart, warum man als Schatzer nicht n 1X (X n i=1 i ! X )2 6= S 2 verwendet, wie man vielleicht intuitiv erwarten wurde. DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 314/462 Denition 114 Die Zufallsvariablen X := n n 1X 1 X Xi und S 2 := (Xi X )2 n n 1 i=1 i=1 heien Stichprobenmittel bzw. Stichprobenvarianz der Stichprobe X1 ; : : : ; Xn . X und S 2 sind erwartungstreue Schatzer fur den Erwartungswert bzw. die Varianz. DWT c Susanne Albers und Ernst W. Mayr 2 Schatzvariablen 315/462 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schatzvariablen fur Parameter von Verteilungen. Sei X~ = (X1 ; : : : ; Xn ): Bei X1 ; : : : ; Xn handelt es sich um unabhangige Kopien der Zufallsvariablen X mit der Dichte f (x; ). Hierbei sei der gesuchte Parameter der Verteilung. Wir setzen f (x; ) = Pr[X = x]; wobei ein Parameter der Verteilung ist. Wenn wir den Parameter explizit angeben wollen, so schreiben wir dafur auch f (x; ) = Pr [X = x]. Eine Stichprobe liefert fur jede Variable Xi einen Wert xi . Diese Werte fassen wir ebenfalls zu einem Vektor ~x = (x1 ; : : : ; xn ) zusammen. DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 316/462 Der Ausdruck L(~x; ) := n Y i=1 f (xi ; ) = n Y i=1 Pr [Xi = xi ] = Pr [X1 = x1 ; : : : ; Xn = xn ] unabh. entspricht der Wahrscheinlichkeit, dass wir die Stichprobe ~x erhalten, wenn wir den Parameter mit dem Wert belegen. Wir betrachten nun eine feste Stichprobe ~x und fassen L(~x; ) somit als Funktion von auf. In diesem Fall nennen wir L die Likelihood-Funktion der Stichprobe. DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 317/462 Es erscheint sinnvoll, zu einer gegebenen Stichprobe ~x den Parameter so zu wahlen, dass L(x; ) maximal wird. Denition 115 Ein Schatzwert b fur den Parameter einer Verteilung f (x; ) heit Maximum-Likelihood-Schatzwert (ML-Schatzwert) fur eine Stichprobe ~x, wenn gilt L(~x; ) L(~x; b) fur alle : DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 318/462 Beispiel 116 Wir konstruieren mit der ML-Methode einen Schatzer fur den Parameter p der Bernoulli-Verteilung. Es gilt Prp [Xi = 1] = p und Prp [Xi = 0] = 1 p. Daraus schlieen wir, dass Prp [Xi = xi ] = pxi (1 p)1 xi , und stellen die Likelihood-Funktion n Y L(~x; p) = pxi (1 p)1 xi i=1 auf. Wir suchen als Schatzer fur p den Wert, an dem die Funktion L maximal wird. Wir erhalten n ln L(~x; p) = X i=1 (xi ln p + (1 xi ) ln(1 p)) = nx ln p + (n nx) ln(1 p): P Hierbei bezeichnet x das arithmetische Mittel n1 ni=1 xi . DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 319/462 Beispiel (Forts.) Wir nden das Maximum durch Nullsetzen der Ableitung: d ln L(~x; p) dp = npx n1 npx = 0: Diese Gleichung hat die Losung p = x. DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 320/462 Beispiel 117 Die Zufallsvariable X sei N (; 2 )-verteilt, und wir suchen Schatzvariablen fur die Parameter und . Nach Denition der Likelihood-Funktion gilt L(~x; ; 2 ) = p1 2 n n Y i=1 exp (xi )2 : 2 2 Durch Logarithmieren erhalten wir X p ln L(~x; ; 2 ) = n(ln 2 + ln ) + i=1 n DWT c Susanne Albers und Ernst W. Mayr (xi )2 : 2 2 321/462 Beispiel 117 Fur die Nullstellen der Ableitungen ergibt sich also n @ ln L X = xi2 =! 0; @ i=1 n (xi )2 =! 0; @ ln L n X = + @ i=1 3 = x und 2 = n 1X (x n i=1 i )2 : Wir haben also durch die ML-Methode fast\ das Stichprobenmittel und die " Stichprobenvarianz erhalten. Allerdings besitzt der Schatzer fur die Varianz hier den Vorfaktor n1 statt n 1 1 . Die ML-Schatzvariable fur die Varianz ist somit nicht erwartungstreu. DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 321/462 3. Kondenzintervalle Bei der Verwendung von Schatzvariablen geht man davon aus, dass der erhaltene Schatzwert nahe\ beim gesuchten Parameter liegt. Die Schatzungen werden " besser\, je groer die betrachtete Stichprobe ist. Diese Angaben sind aus " quantitativer Sicht naturlich unbefriedigend, da nicht erkennbar ist, wie gut man sich auf den Schatzwert verlassen kann. Die Losung dieses Problems besteht darin, statt einer Schatzvariablen U zwei Schatzer U1 und U2 zu betrachten. U1 und U2 werden so gewahlt, dass Pr[U1 U2 ] 1 : Die Wahrscheinlichkeit 1 heit Kondenzniveau und kann dem Sicherheitsbedurfnis\ angepasst werden. " DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 322/462 Wenn wir fur eine konkrete Stichprobe die Schatzer U1 und U2 berechnen und davon ausgehen, dass 2 [U1 ; U2 ] ist, so ziehen wir hochstens mit Wahrscheinlichkeit einen falschen Schluss. [U1 ; U2 ] heit Kondenzintervall. In vielen Fallen verwendet man nur eine Schatzvariable U und konstruiert mittels U1 := U und U2 := U + ein symmetrisches Kondenzintervall [U ; U + ]. DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 323/462 Sei X eine N (; 2 )-verteilte Zufallsvariable, und seien X1 ; : : : ; Xn n zugehorige Stichprobenvariablen. Gema der Additivitat der Normalverteilung (siehe Satz 106) ist 2 das Stichprobenmittel X ebenfalls normalverteilt mit X N (; n ). Wir suchen fur X ein symmetrisches Kondenzintervall. Nach Satz 93 ist standardnormalverteilt. p X Z := n DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 324/462 Fur Z betrachten wir das Kondenzintervall [ c; c] fur ein geeignetes c > 0 und setzen Pr[ c Z c] =! 1 : Auosen nach ergibt Pr X pcn X + pcn =! 1 : Das gesuchte Kondenzintervall lautet also K = [X pcn ; X + pcn ] : DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 325/462 Den Parameter c wahlen wir wie folgt: Pr[ c Z c] = (c) ( c) =! 1 : Wegen der Symmetrie von gilt ( x) = 1 (x) und wir erhalten (c) ( c) = 2 (c) 1 =! 1 () (c) = 1 2 ; also c= 1 1 2 : DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 326/462 Denition 118 X sei eine stetige Zufallsvariable mit Verteilung FX . Eine Zahl x mit FX (x ) = heit -Quantil von X bzw. der Verteilung FX . Denition 119 Fur die Standardnormalverteilung bezeichnet z das -Quantil. DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 327/462 Damit konnen wir das gesuchte Kondenzintervall angeben durch K= X z(1 2 ) z(1 2 ) pn ; X + pn : DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen c Susanne Albers und Ernst W. Mayr 328/462 4. Testen von Hypothesen 4.1 Einfuhrung Bislang haben wir versucht, Parameter von Verteilungen zu schatzen. In der Praxis ist man jedoch oft an der eigentlichen Kenntnis dieser Parameter gar nicht interessiert, sondern man mochte gewisse, damit zusammenhangende Behauptungen uberprufen. Im Folgenden stellen wir die Bestandteile eines statistischen Tests anhand eines abstrakten Beispiels vor. Wir betrachten dazu eine Zufallsvariable X mit Pr[X = 1] = p und Pr[X = 0] = 1 p. Durch einen Test soll uberpruft werden, ob p < 1=3 oder p 1=3 gilt. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 329/462 Denition eines Tests Wir betrachten eine Stichprobe von n unabhangigen Stichprobenvariablen X1 ; : : : ; Xn , die dieselbe Verteilung wie die Zufallsvariable X besitzen. Zu einem zugehorigen Stichprobenvektor ~x mussen wir nun die Frage beantworten, ob wir fur diesen Versuchsausgang die Hypothese p 1=3\ annehmen oder ablehnen. " Sei K := f~x 2 Rn ; ~x fuhrt zur Ablehnung der Hypotheseg: K nennen wir den Ablehnungsbereich oder den kritischen Bereich des Tests. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 330/462 Gewohnlich wird K konstruiert, indem man die Zufallsvariablen X1 ; : : : ; Xn zu einer neuen Variablen T , der so genannten Testgroe, zusammenfasst. Dann unterteilt man den Wertebereich R von T in mehrere Bereiche, die entweder zur Ablehnung der Hypothese fuhren sollen oder nicht. Dabei betrachtet man meist ein einzelnes halboenes oder abgeschlossenes Intervall und spricht dann von einem einseitigen bzw. von einem zweiseitigen Test. e R enthalte die Werte von T , die zur Ablehnung der Hypothese f Die Menge K uhren sollen. Da wir Tests immer uber eine Testgroe denieren, werden wir der Einfachheit e als Ablehnungsbereich bezeichnen. K e R entspricht direkt dem halber auch K 1 n e Ablehnungbereich K = T (K ) R , wie wir ihn oben festgelegt haben. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 331/462 Die zu uberprufende Hypothese bezeichnen wir mit H0 und sprechen deshalb auch von der Nullhypothese. Bei manchen Tests formuliert man noch eine zweite Hypothese H1 , die so genannte Alternative. Im Beispiel konnen wir H0 : p 1=3 und H1 : p < 1=3 setzen. Manchmal verzichtet man darauf, H1 anzugeben. Dann besteht die Alternative wie oben einfach darin, dass H0 nicht gilt. In diesem Fall nennen wir H1 triviale Alternative. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 332/462 Ein echter, also nicht-trivialer Alternativtest lage beispielsweise vor, wenn wir ansetzen H00 : p 1=3 und H10 : p 1=6: Beispiel 120 Wir untersuchen eine Festplatte, von der bekannt ist, dass sie zu einer von zwei Baureihen gehort. Die mittleren Zugriszeiten dieser Baureihen betragen 9ms bzw. 12ms. Wir mochten nun herausnden, zu welchem Typ die betrachtete Festplatte gehort, indem wir die Zugriszeit bei n Zugrien bestimmen. Hier wurde man dann ansetzen: H0 : 9 und H1 := 12, wobei die mittlere Zugriszeit bezeichnet. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 333/462 Fehler bei statistischen Tests Bei jedem statistischen Test konnen mit einer gewissen Wahrscheinlichkeit falsche Schlusse gezogen werden. Dieser Fall tritt beispielsweise ein, wenn H0 gilt, aber das Ergebnis ~x der Stichprobe im Ablehnungsbereich K liegt. Dann spricht man von einem Fehler 1. Art. Analog erhalten wir einen Fehler 2. Art, wenn H0 nicht gilt und ~x nicht im Ablehnungsbereich liegt. Fehler 1. Art : H0 gilt, wird aber abgelehnt. Fehler 2. Art : H0 gilt nicht, wird aber angenommen. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 334/462 Fur die Beurteilung eines Tests ist es wesentlich, mit welcher Wahrscheinlichkeit diese beiden Fehler eintreten konnen. Ziel ist es naturlich, diese Wahrscheinlichkeiten moglichst klein zu halten. Allerdings sind die Minimierung des Fehlers 1. Art und des Fehlers 2. Art gegenlauge Ziele, so dass ein vernunftiger Ausgleich zwischen beiden Fehlern gefunden werden muss. Wenn man beispielsweise K = ; setzt, so erhalt man Wahrscheinlichkeit Null fur den Fehler 1. Art, da H0 immer angenommen wird. Allerdings tritt der Fehler 2. Art dann mit Wahrscheinlichkeit Eins ein, wenn H0 nicht gilt. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 335/462 Die Wahrscheinlichkeit fur den Fehler 1. Art wird mit bezeichnet, und man spricht deshalb gelegentlich vom -Fehler. heit auch Signikanzniveau des Tests. In der Praxis ist es ublich, sich ein Signikanzniveau vorzugeben (ubliche Werte hierfur sind 0;05, 0;01 oder 0;001) und dann den Test so auszulegen (also den Ablehnungsbereich K so zu bestimmen), dass die Wahrscheinlichkeit fur den Fehler 1. Art den Wert besitzt. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 336/462 Konstruktion eines einfachen Tests Wir konstruieren einen Test fur den Parameter p einer Bernoulli-verteilten Zufallsvariablen X . Wir setzen H0 : p p0 ; H1 : p < p0 : Als Testgroe verwenden wir T := X1 + : : : + Xn : Fur groere Wahrscheinlichkeiten p erwarten wir auch groere Werte fur T . Deshalb ist es sinnvoll, einen Ablehnungsbereich der Art K := [0; k] fur T zu wahlen, wobei k 2 R geeignet festzulegen ist. Wir konstruieren hier also einen einseitigen Test, wahrend fur eine Nullhypothese H0 : p = p0 sowohl zu kleine als auch zu groe Werte von T zur Ablehnung von H0 fuhren sollten und somit ein zweiseitiger Test vorzuziehen ware. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 337/462 T ist binomialverteilt. Da wir von einem groen Stichprobenumfang n ausgehen, bietet es sich an, die Verteilung von T nach dem Grenzwertsatz von de Moivre (siehe Korollar 109) durch die Normalverteilung zu approximieren. Sei T~ := T~ ist annahernd standardnormalverteilt. DWT c Susanne Albers und Ernst W. Mayr T np : np(1 p) p 4.1 Einfuhrung 338/462 Wir berechnen fur jeden Wert von k das zugehorige Signikanzniveau des Tests. 2 K] Pr [T k] = pmax 2H p Fehlerwahrscheinlichkeit 2. Art = sup Prp [T 62 K ] Fehlerwahrscheinlichkeit 1. Art = max Prp [T p2H0 0 p2H1 = sup Prp [T > k] p2H1 DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 339/462 Fur den Fehler 1. Art erhalten wir = max Prp [T pp0 " k] = Prp=p [T k] 0 # = Prp=p0 T~ p k np np(1 p) " # k np 0 = Pr T~ p np0 (1 p0 ) DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung ! k np0 p : np0 (1 p0 ) 340/462 Unter Verwendung der Quantile der Standardnormalverteilung ergibt sich damit: p Ist k so gewahlt, dass (k np0 )= np0 (1 p0 ) = z , so ist das Signikanzniveau gleich . Ist das gewunschte Signikanzniveau des Tests vorgegeben, so erhalt man den Wert k = k(n) in Abhangigkeit vom Umfang n der Stichprobe durch p k = z np0 (1 p0 ) + np0 : (8) Kleinere Werte fur k verkleinern zwar den Fehler 1. Art, vergroern jedoch den Annahmebereich und damit die Wahrscheinlichkeit fur einen Fehler 2. Art. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 341/462 Verhalten der Testfehler Wie verhalten sich die moglichen Testfehler des konstruierten Verfahrens? Was geschieht beispielsweise, wenn p nur geringfugig kleiner als p0 ist? In diesem Fall betrachten wir beim Fehler 2. Art die Wahrscheinlichkeit Prp=p " [T k] Prp=p [T k] 1 : 0 0 Wenn sich also die wahren\ Verhaltnisse nur minimal von unserer Nullhypothese " unterscheiden, so werden wir diese im Zweifelsfall\ annehmen. " DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 342/462 Bei echten Alternativtests werden fur hinreichend groe Stichproben und einen geeignet eingestellten Ablehnungsbereich beide Testfehler klein. Beispiel 121 Die Abbruchrate p der Transaktionen in einem Online-Datenbanksystem wurde bereits fruher einmal ermittelt. Allerdings sind die entsprechenden Daten verloren gegangen und die Entwickler erinnern sich nur noch, dass das Ergebnis entweder p = 1=3 oder p = 1=6 lautete. Unter dieser Annahme wurde man den Test wie folgt ansetzen: H0 : p 1=3; DWT c Susanne Albers und Ernst W. Mayr H10 : p 1=6: 4.1 Einfuhrung 343/462 Beispiel (Forts.) Fur den Fehler 2. Art erhalt man nun: Fehlerwahrsch. 2. Art = max Prp [T > k] p1=6 ! 1 pk (1=6) n : (1=6) (5=6)n Mit den obigen Werten k = 25 und n = 100 ergibt sich mit p p 100 = ( 5) 0;9871 150 5 10 ein Fehler 2. Art der Groe 0;0129, wahrend sich fur die triviale Alternative H1 : p < 1=3 ein Wert von etwa 0;95 ergibt. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 344/462 Die so genannte Gutefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Fur unser hier entworfenes Testverfahren gilt ! k np : g(n; p) = Prp [T 2 K ] = Prp [T k] p np(1 p) DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 345/462 n = 50 n = 100 n = 200 1,0 0,8 0,6 0,4 0,2 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Gutefunktion g (n; p) fur verschiedene Werte von n DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 346/462 Man erkennt deutlich, dass fur alle n der Wert von k = k(n) genau so gewahlt wurde, dass g (n; 1=3) = 0;05 gilt. Dies wird durch den in Gleichung 8 angegebenen Ausdruck erreicht. Fur Werte von p groer als 1=3 wird H0 : p 1=3 mit hoher Wahrscheinlichkeit angenommen, wahrend fur Werte deutlich unter 1=3 die Hypothese H0 ziemlich sicher abgelehnt wird. Ferner ist auallig, dass g fur groere Werte von n schneller von Eins auf Null fallt. Daran erkennt man, dass durch den Test die Falle H0 gilt\ und H0 gilt nicht\ umso " " besser unterschieden werden konnen, je mehr Stichproben durchgefuhrt werden. Fur Werte von p, bei denen g (n; p) weder nahe bei Eins noch nahe bei Null liegt, kann der Test nicht sicher entscheiden, ob die Nullhypothese abzulehnen ist. DWT c Susanne Albers und Ernst W. Mayr 4.1 Einfuhrung 347/462 4.2 Praktische Anwendung statistischer Tests Das im vorhergehenden Abschnitt konstruierte Testverfahren taucht in der Literatur unter dem Namen approximativer Binomialtest auf. berblick uber die Eckdaten dieses Tests. Die folgende Tabelle 1 gibt einen U DWT c Susanne Albers und Ernst W. Mayr 4.2 Praktische Anwendung statistischer Tests 348/462 Tabelle : Approximativer Binomialtest Annahmen: X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Pr[Xi = 1] = p und Pr[Xi = 0] = 1 p, wobei p unbekannt sei. n sei hinreichend gro, so dass die Approximation aus Korollar 109 brauchbare Ergebnisse liefert. Hypothesen: a) H0 : p = p0 gegen H1 : p 6= p0 , b) H0 : p p0 gegen H1 : p < p0 , c) H0 : p p0 gegen H1 : p > p0 . Testgroe: Z := h np0 ; np0 (1 p0 ) p wobei h := X1 + : : : + Xn die Haugkeit bezeichnet, mit der die Ereignisse Xi = 1 aufgetreten sind. Ablehnungskriterium fur H0 bei Signikanzniveau : a) jZ j > z1 =2 , b) Z < z , c) Z > z1 . DWT c Susanne Albers und Ernst W. Mayr 4.2 Praktische Anwendung statistischer Tests 349/462 4.3 Allgemeines Vorgehen bei statistischen Tests 1. Schritt: Formulierung von Annahmen. Ganz ohne Annahmen kommt man meist nicht bliche Annahmen betreen meist die Verteilung der Stichprobenvariablen aus. U und deren Unabhangigkeit. 2. Schritt: Formulierung der Nullhypothese. 3. Schritt: Auswahl des Testverfahrens. 4. Schritt: Durchfuhrung des Tests und Entscheidung. DWT c Susanne Albers und Ernst W. Mayr 4.3 Allgemeines Vorgehen bei statistischen Tests 350/462 4.4 Ausgewahlte statistische Tests 4.4.1 Wie ndet man das richtige Testverfahren? Statistische Tests kann man nach mehreren Kriterien in Klassen einteilen. Anzahl der beteiligten Zufallsgroen Sollen zwei Zufallsgroen mit potentiell unterschiedlichen Verteilungen verglichen werden, fur die jeweils eine Stichprobe erzeugt wird (Zwei-Stichproben-Test), oder wird nur eine einzelne Zufallsgroe untersucht (Ein-Stichproben-Test)? DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 351/462 Bei der Fragestellung Betragt die mittlere Zugriszeit auf einen Datenbankserver im Mittel hochstens 10ms? hat man es mit einem Ein-Stichproben-Test zu tun, wahrend die Untersuchung der Frage Hat Datenbankserver A eine kurzere mittlere Zugriszeit als Datenbankserver B? auf einen Zwei-Stichproben-Test fuhrt. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 352/462 Bei mehreren beteiligten Zufallsgroen wird zusatzlich unterschieden, ob aus voneinander unabhangigen Grundmengen Stichproben erhoben werden oder nicht. Beim vorigen Beispiel werden unabhangige Messungen vorgenommen, sofern die Server A und B getrennt voneinander arbeiten. Wenn man jedoch die Frage Lauft ein Datenbankserver auf einer Menge festgelegter Testanfragen mit Query-Optimierung schneller als ohne? untersucht, so spricht man von verbundenen Messungen. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 353/462 Gelegentlich betrachtet man auch den Zusammenhang zwischen mehreren Zufallsgroen. Beispielsweise konnte man sich fur die Frage interessieren: Wie stark wachst der Zeitbedarf fur eine Datenbankanfrage im Mittel mit der (syntaktischen) Lange der Anfrage, d. h. fuhren kompliziertere Formulierungen zu proportional langeren Laufzeiten? Mit solchen Fragenstellungen, bei denen ein funktionaler Zusammenhang zwischen Zufallsgroen ermittelt werden soll, beschaftigt sich die Regressionsanalyse. Wenn uberhaupt erst zu klaren ist, ob ein solcher Zusammenhang besteht oder ob die Zufallsgroen vielmehr unabhangig voneinander sind, so spricht man von Zusammenhangsanalyse. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 354/462 Formulierung der Nullhypothese Welche Groe dient zur Denition der Nullhypothese? Hierbei werden in erster Linie Tests unterschieden, die Aussagen uber verschiedene so genannte Lageparameter treen, wie z.B. den Erwartungswert oder die Varianz der zugrunde liegenden Verteilungen. Im Zwei-Stichproben-Fall konnte man beispielsweise untersuchen, ob der Erwartungswert der Zufallsgroe A groer oder kleiner als bei Zufallsgroe B ist. Gelegentlich wird zur Formulierung der Nullhypothese auch der so genannte Median betrachtet: Der Median einer Verteilung entspricht dem (kleinsten) Wert x mit F (x) = 1=2. Neben solchen Tests auf Lageparameter gibt es z.B. auch Tests, die auf eine vorgegebene Verteilung oder auf ein Ma fur die Abhangigkeit verschiedener Zufallsgroen testen. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 355/462 Annahmen uber die Zufallsgroen Was ist uber die Verteilung der untersuchten Groe(n) bekannt? Bei entsprechenden Annahmen konnte es sich z.B. um die Art der Verteilung, den Erwartungswert oder die Varianz handeln. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 356/462 4.4.2 Ein-Stichproben-Tests fur Lageparameter Beim approximativen Binomialtest wird ausgenutzt, dass die Binomialverteilung fur groe n nach dem Grenzwertsatz von de Moivre (Korollar 109) gegen die Normalverteilung konvergiert. Aus diesem Grund kann man diesen Test auch als Spezialfall eines allgemeineren Testverfahrens ansehen, namlich des Gautest, der nun dargestellt wird. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 357/462 Tabelle : Gautest Annahmen: X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Xi N (; 2 ), wobei 2 bekannt ist. Alternativ gelte E[Xi ] = und Var[Xi ] = 2 , und n sei gro genug. Hypothesen: a) H0 : = 0 gegen H1 : 6= 0 , b) H0 : 0 gegen H1 : < 0 , c) H0 : 0 gegen H1 : > 0 . Testgroe: Z := X 0 p n: Ablehnungskriterium fur H0 bei Signikanzniveau : a) jZ j > z1 =2 , b) Z < z , c) Z > z1 . DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 358/462 Der Gautest hat den Nachteil, dass man die Varianz 2 der beteiligten Zufallsgroen kennen muss. Wenn diese unbekannt ist, so liegt es nahe, die Varianz durch die Stichprobenvarianz S 2 (siehe Denition 114) anzunahern. Dies fuhrt auf den so bersicht dargestellt ist. genannten t-Test, der in der folgenden U DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 359/462 Tabelle : t-Test Annahmen: X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Xi N (; 2 ). Alternativ gelte E[Xi ] = und Var[Xi ] = 2 , und n sei gro genug. Hypothesen: a) H0 : = 0 gegen H1 : 6= 0 , b) H0 : 0 gegen H1 : < 0 , c) H0 : 0 gegen H1 : > 0 . Testgroe: T := X S 0 p n: Ablehnungskriterium fur H0 bei Signikanzniveau : a) jT j > tn 1;1 =2 , b) T < tn 1; , c) T > tn 1;1 . DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 360/462 Hierbei gibt tn 1;1 das (1 )-Quantil der t-Verteilung mit n 1 Freiheitsgraden an. Die t-Verteilung taucht manchmal auch unter dem Namen Student-Verteilung auf, da sie ursprunglich unter dem Pseudonym Student\ publiziert wurde. " Wir gehen an dieser Stelle nicht darauf ein, wieso die Testgroe die t-Verteilung besitzt, sondern weisen nur darauf hin, dass die Dichte dieser Verteilung (eigentlich handelt es sich um eine ganze Familie von Verteilungen, da die Anzahl der Freiheitsgrade jeweils noch gewahlt werden kann) der Dichte der Normalverteilung ahnelt. Fur groe n (Faustregel: n 30) liegen die beiden Dichten so genau ubereinander, dass man in der Praxis die t-Verteilung durch die Normalverteilung annahert. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 361/462 0,4 n=1 n=5 n = 20 n !1 0,3 0,2 0,1 0,0 -4,0 -2,0 0,0 2,0 4,0 Dichte der t-Verteilung mit n Freiheitsgraden DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 362/462 Als weitere Beispiele fur gangige Ein-Stichproben-Tests zu Lageparametern seien der Wilcoxon-Test und der 2 -Varianztest genannt. Ersterer dient zum Testen von Hypothesen zum Median, wahrend der zweite Test Hypothesen zur Varianz beinhaltet. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 363/462 4.4.3 Zwei-Stichproben-Tests fur Lageparameter Bei Zwei-Stichproben-Tests wollen wir das Verhaltnis von Lageparametern untersuchen. Besonders wichtig sind hierbei Tests zum Erwartungswert. Fur zwei Zufallsgroen X und Y konnten wir beispielsweise die Frage untersuchen, ob fur die Erwartungswerte X und Y gilt, dass X = Y ist. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 364/462 Tabelle : Zwei-Stichproben-t-Test Annahmen: X1 ; : : : ; Xm und Y1 ; : : : ; Yn seien unabhangig und jeweils identisch verteilt, wobei Xi Yi N (Y ; Y2 ) gelte. Die Varianzen seien identisch, also X2 = Y2 . Hypothesen: a) H0 : X b) H0 : X c) H0 : X Testgroe: T := s = Y gegen H1 : X 6= Y , gegen H1 : X < Y , gegen H1 : X > Y . Y Y n+m 2 1 m + n1 N (X ; X2 ) und q X Y (m 1) SX2 + (n 1) SY2 : Ablehnungskriterium fur H0 bei Signikanzniveau : a) jT j > tm+n 2;1 =2 , b) T < tm+n 2; , c) T > tm+n 2;1 . DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 365/462 Vom Zwei-Stichproben-t-Test ndet man in der Literatur noch zusatzliche Varianten, die auch dann einsetzbar sind, wenn die beteiligten Zufallsgroen nicht dieselbe Varianz besitzen. Der beim Ein-Stichproben-Fall erwahnte Wilcoxon-Test kann ebenfalls auf den Zwei-Stichproben-Fall ubertragen werden. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 366/462 4.4.4 Nicht an Lageparametern orientierte Tests Wir betrachten in diesem Abschnitt exemplarisch den 2 -Anpassungstest. Bei einem Anpassungstest wird nicht nur der Lageparameter einer Verteilung getestet, sondern es wird die Verteilung als Ganzes untersucht. Beim approximativen Binomialtest (siehe Tabelle 1) haben wir streng genommen bereits einen Anpassungstest durchgefuhrt. Bei der Nullhypothese H0 : p = p0 wird untersucht, ob es sich bei der betrachteten Zufallsgroe um eine Bernoulli-verteilte Zufallsvariable mit Parameter p0 handelt. Beim 2 -Test gehen wir nun einen Schritt weiter: Wir nehmen an, dass die Zufallsgroe X genau k verschiedene Werte annimmt. Ohne Beschrankung der Allgemeinheit sei WX = f1; : : : ; kg. Die Nullhypothese lautet nun H0 : Pr[X = i] = pi fur i = 1; : : : ; k: DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 367/462 Tabelle : 2 -Anpassungstest Annahmen: X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit WXi Hypothesen: = f1; : : : ; kg. H0 : Pr[X = i] = pi fur i = 1; : : : ; k; H1 : Pr[X = i] 6= pi fur mindestens ein i 2 f1; : : : ; kg; Testgroe: T= k X i=1 (hi npi )2 ; np i wobei hi die Haugkeit angibt, mit der X1 ; : : : ; Xn den Wert i angenommen haben. Ablehnungskriterium fur H0 bei Signikanzniveau : T > 2k 1;1 ; dabei sollte gelten, dass npi 1 fur alle i und npi 5 fur mindestens 80% der Werte i = 1; : : : ; k. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 368/462 Fur die Testgroe T wird naherungsweise eine 2 -Verteilung mit k 1 Freiheitsgraden angenommen. Die Werte dieser Verteilung nden sich in entsprechenden Tabellen in der Literatur. Damit diese Approximation gerechtfertigt ist, sollte gelten, dass npi 1 fur alle i und npi 5 fur mindestens 80% der Werte i = 1; : : : ; k. Das -Quantil einer 2 -Verteilung mit k Freiheitsgraden bezeichnen wir mit 2k; . DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 369/462 1,0 n=1 n=2 n=3 n=5 0,8 0,6 0,4 0,2 0,0 0,0 1,0 2,0 3,0 4,0 5,0 Dichte der 2 -Verteilung mit n Freiheitsgraden DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 370/462 Beispiel 122 Als Anwendung fur den 2 -Test wollen wir uberprufen, ob der Zufallszahlengenerator von Maple eine gute Approximation der Gleichverteilung liefert. Dazu lassen wir Maple n = 100000 Zufallszahlen aus der Menge f1; : : : ; 10g generieren. Wir erwarten, dass jede dieser Zahlen mit gleicher Wahrscheinlichkeit p1 = : : : = p10 = 1=10 auftritt. Dies sei unsere Nullhypothese, die wir mit einem Signikanzniveau von = 0;05 testen wollen. Beispiel: i hi 1 2 3 4 5 6 7 8 9 10 10102 10070 9972 9803 10002 10065 10133 9943 10009 9901 Fur den Wert der Testgroe gilt T = 8;9946. Ferner erhalten wir 29;0;95 16;919. Der Test liefert also keinen Grund, die Nullhypothese abzulehnen. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 371/462 Das Prinzip des 2 -Anpassungstests kann in leicht abgewandelter Form auch noch zum Testen einiger anderer Hypothesen verwendet werden: Beim 2 -Homogenitatstest wird uberpruft, ob zwei oder mehrere Verteilungen identisch sind, wahrend beim 2 -Unabhangigkeitstest zwei Zufallsgroen auf Unabhangigkeit untersucht werden. Beschreibungen dieser Tests ndet man in der Literatur. DWT c Susanne Albers und Ernst W. Mayr 4.4 Ausgewahlte statistische Tests 372/462 Kapitel IV Stochastische Prozesse 1. Einfuhrung Wir betrachten zeitliche Folgen von Zufallsexperimenten. Mathematisch beschreibt man diese durch einen so genannten stochastischen Prozess. Darunter versteht man eine Folge von Zufallsvariablen (Xt )t2T , die das Verhalten des Systems zu verschiedenen Zeitpunkten t angeben. DWT c Susanne Albers und Ernst W. Mayr 1 Einfuhrung 373/462 Wenn wir T = N0 annehmen, sprechen wir von einem stochastischen Prozess mit diskreter Zeit. Lasst man andererseits T = R+ 0 zu, so spricht man von stochastischen Prozessen mit kontinuierlicher Zeit. Eine besonders einfache Art von stochastischen Prozessen sind so genannte Markov-Ketten. Diese haben die Eigenschaft, dass der nachste Zustand des Prozesses zwar vom aktuellen Zustand abhangen darf, nicht aber von der Historie, d.h. davon, wie der aktuelle Zustand erreicht wurde. DWT c Susanne Albers und Ernst W. Mayr 1 Einfuhrung 374/462 2. Prozesse mit diskreter Zeit 2.1 Einfuhrung Denition 123 Eine (endliche) Markov-Kette (mit diskreter Zeit) uber der Zustandsmenge S = f0; : : : ; n 1g besteht aus einer unendlichen Folge von Zufallsvariablen (Xt )t2N0 mit Wertemenge S sowie einer Startverteilung q0 mit q0T 2 Rn . Die Komponenten von q0 sind hierbei 0 und addieren sich zu 1. Fur jede Indexmenge I f0; : : : ; t 1g und beliebige Zustande i; j; sk (k 2 I ) gilt Pr[Xt+1 = j j Xt = i; 8k 2 I : Xk = sk ] = Pr[Xt+1 = j j Xt = i] : DWT c Susanne Albers und Ernst W. Mayr 2.1 Einfuhrung (9) 375/462 Sind die Werte pij := Pr[Xt+1 = j j Xt = i] von t unabhangig, so nennt man die Markov-Kette (zeit)homogen. In diesem Fall bergangsmatrix durch P = (pij )0i;j<n . Wenn man S = N0 zulasst, deniert man die U so spricht man von einer unendlichen Markov-Kette. Markov-Ketten sind nach Andrey Andreyevich Markov (1856{1922) benannt. DWT c Susanne Albers und Ernst W. Mayr 2.1 Einfuhrung 376/462 Bedingung (9) heit Markov-Bedingung und besagt: Wenn wir den Zustand i zum Zeitpunkt t kennen, so hangt die bergangswahrscheinlichkeit zum Folgezustand j nur von i und j ab. Die U Vergangenheit (Zustande zu Zeitpunkten < t) der Markov-Kette spielt keine Rolle. Das Gedachtnis\ der Markov-Kette besteht also nur aus ihrem aktuellen Zustand und sie " wei\ nicht, wie sie dorthin gekommen ist. " Bei einer zeithomogenen Markov-Kette hat die (absolute) Zeit t keinen Einuss auf die bergangswahrscheinlichkeiten pij , d.h. das Systemverhalten wird nur durch den U aktuellen Zustand bestimmt und nicht durch eine absolute Uhr. DWT c Susanne Albers und Ernst W. Mayr 2.1 Einfuhrung 377/462 Wahrscheinlichkeitsraum einer Markov-Kette Nehmen wir an, dass wir die Kette von der Zeit 0 bis zur Zeit t0 beobachten wollen. Wir bezeichnen die Folge von Zustanden, die von der Kette in dieser Zeit durchlaufen wurde, mit ~x = (x0 ; x1 ; : : : ; xt0 ). S t0 +1 sei die Menge moglicher Zustandsfolgen. Einer beliebigen Folge ! := (x0 ; x1 ; : : : ; xt0 ) 2 ordnen wir die Wahrscheinlichkeit Pr[!] = (q0 )x 0 t0 Y i=1 Pr[Xi = xi j Xi 1 = xi 1 ] zu. Dadurch erhalten wir einen diskreten Wahrscheinlichkeitsraum im Sinne der Denition. DWT c Susanne Albers und Ernst W. Mayr 2.1 Einfuhrung 378/462 Beispiel 124 Pr[Xt+1 = 1 j Xt = 1] = 0;9; Pr[Xt+1 = 1 j Xt = 0] = 0;2 Pr[Xt+1 = 0 j Xt = 1] = 0;1; Pr[Xt+1 = 0 j Xt = 0] = 0;8 0;2 0;8 0 1 0;9 0;1 DWT c Susanne Albers und Ernst W. Mayr 2.1 Einfuhrung 379/462 Einen bestimmten Ablauf des Systems kann man sich als so genannten Random Walk vorstellen. Wenn wir uns beispielsweise zum Zeitpunkt t = 0 im Knoten 1 (also X0 = 1) benden, dann fuhren von dort zwei Kanten weiter, namlich zu den Knoten 0 und 1. Diese Kanten sind mit Wahrscheinlichkeiten beschriftet, die sich zu Eins addieren. Gema dieser Wahrscheinlichkeiten entscheiden wir zufallig, wohin wir uns im nachsten Schritt begeben. DWT c Susanne Albers und Ernst W. Mayr 2.1 Einfuhrung 380/462 Wir konnen auch die Frage beantworten, mit welcher Wahrscheinlichkeit wir uns zum Zeitpunkt t = 2 im Knoten 1 benden. Da wir vereinbarungsgema beim Knoten 1 starten, gibt es zwei mogliche Wege der Lange zwei durch den Graphen mit Endknoten 1, namlich 111\ und 101\. Die Wahrscheinlichkeiten fur diese Wege " " lauten 0;9 0;9 = 0;92 bzw. 0;1 0;2. Insgesamt erhalten wir also eine Wahrscheinlichkeit von 0;81 + 0;02 = 0;83. Auch eine Aussage uber die erwartete Anzahl Schritte, die wir im Knoten 1 bis zum bergang zu Knoten 0 verbleiben, ist schnell getroen. Die Wahrscheinlichkeit, ersten U dass man genau k Schritte verbleibt, ist (0;9)k 0;1. Die Anzahl Schritte ist also geometrisch verteilt mit Erfolgswahrscheinlichkeit 0;1. Der Erwartungswert ist daher 1=0;1 = 10. DWT c Susanne Albers und Ernst W. Mayr 2.1 Einfuhrung 381/462 bergangswahrscheinlichkeiten 2.2 Berechnung von U Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor qt (den wir als Zeilenvektor schreiben). Die i-te Komponente (qt )i bezeichnet dabei die Wahrscheinlichkeit, mit der sich die Kette nach t Schritten im Zustand i aufhalt. Es gilt Pr[Xt+1 = k] = also bzw. in Matrixschreibweise DWT c Susanne Albers und Ernst W. Mayr nX1 i=0 Pr[Xt+1 = k j Xt = i] Pr[Xt = i]; (qt+1 )k = nX1 i=0 pik (qt )i ; qt+1 = qt P: bergangswahrscheinlichkeiten 2.2 Berechnung von U 382/462 Mit der Matrixschreibweise konnen wir qt einfach durch die Startverteilung q0 ausdrucken: qt = q0 P t : Ebenso gilt wegen der Zeithomogenitat allgemein fur alle t; k 2 N: qt+k = qt P k : bergang vom Die Eintrage von P k geben an, mit welcher Wahrscheinlichkeit ein U Zustand i zum Zustand j in genau k Schritten erfolgt. p(ijk) := Pr[Xt+k = j j Xt = i] = (P k )ij : DWT c Susanne Albers und Ernst W. Mayr bergangswahrscheinlichkeiten 2.2 Berechnung von U 383/462 Exponentiation von Matrizen Wenn P diagonalisierbar ist, so existiert eine Diagonalmatrix D und eine invertierbare Matrix B , so dass P = B D B 1 gilt. Diese erhalten wir durch Berechnung der Eigenwerte und Eigenvektoren von P und durch Transformation von P in den Raum der Eigenvektoren. Dann gilt DWT c Susanne Albers und Ernst W. Mayr P k = B Dk B 1 : bergangswahrscheinlichkeiten 2.2 Berechnung von U 384/462 Beispiel 125 P = 00;;81 00;;29 Durch Bestimmung der Nullstellen des charakteristischen Polynoms der Matrix (P I ) erhalten wir die Eigenwerte 0;7 und 1, sowie die zugehorigen (rechten) Eigenvektoren 1 = DWT c Susanne Albers und Ernst W. Mayr 2 und = 1 : 2 1 1 385/462 Beispiel 125 Damit D = 00;7 01 und B = 12 11 und B 1= Damit ergibt sich beispielsweise P3 = 2 1 1 1 DWT c Susanne Albers und Ernst W. Mayr 0;73 0 0 13 1 3 1 3 : 2 3 1 3 1 3 1 3 1 3 0;562 2 0;219 3 bergangswahrscheinlichkeiten 2.2 Berechnung von U 0;438 0;781 385/462 bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf zwei bestimmte Zustande i und j beziehen: Wie wahrscheinlich ist es, von i irgendwann nach j zu kommen? Wie viele Schritte benotigt die Kette im Mittel, um von i nach j zu gelangen? DWT c Susanne Albers und Ernst W. Mayr bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 386/462 Denition 126 Die Zufallsvariable Tij := minfn 0 j Xn = j , wenn X0 = ig zahlt die Anzahl der Schritte, die von der Markov-Kette fur den Weg von i nach j bergangszeit (engl. hitting time) vom Zustand i benotigt werden. Tij nennen wir die U zum Zustand j . Wenn j nie erreicht wird, setzen wir Tij = 1. Ferner denieren wir hij := E[Tij ]. Die Wahrscheinlichkeit, vom Zustand i nach beliebig vielen Schritten in den Zustand j zu gelangen, nennen wir Ankunftswahrscheinlichkeit fij . Formal denieren wir fij := Pr[Tij < 1]: DWT c Susanne Albers und Ernst W. Mayr bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 387/462 Im Fall i = j gilt Tii = 0 und somit auch hii = 0, sowie fii = 1. Anschaulich ist dies bergangszeit gleich klar: Wenn Anfangs- und Zielzustand identisch sind, so ist die U Null. Fur viele Zwecke ist es andererseits auch interessant zu messen, wie lange es dauert, bis Zustand i zu einem spateren Zeitpunkt wieder besucht wird. Wir erganzen Denition 126 fur diesen Fall. Denition 127 Die Zufallsvariable Ti := minfn 1 j Xn = i, wenn X0 = ig zahlt die Anzahl Schritte, die von der Markov-Kette benotigt werden, um von i nach i zuruckzukehren (Ruckkehrzeit, engl. recurrence time). Der Erwartungswert sei hi := E[Ti ]. Die Wahrscheinlichkeit, mit der Ti einen endlichen Wert annimmt, nennt man Ruckkehrwahrscheinlichkeit: fi := Pr[Ti < 1]: DWT c Susanne Albers und Ernst W. Mayr bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 388/462 1,0 Beispiel 128 1,0 0,5 0 0,5 1 2 3 0,5 0,5 Beispiel zur Berechnung von fij und hij Wir betrachten die obige Markov-Kette. Einige Besonderheiten fallen sofort auf: Beginnt man im Zustand 0, so kann man niemals einen der ubrigen Zustande bergangszeiten T01 , T02 und T03 sind daher 1. erreichen. Die U DWT c Susanne Albers und Ernst W. Mayr 389/462 1,0 Beispiel 128 1,0 0,5 0 0,5 2 1 3 0,5 0,5 Beginnt man im Zustand 1, so entscheidet sich im ersten Schritt, ob die Kette sich zukunftig im linken Teil\ (Zustand 0) oder im rechten Teil\ (Zustand 2 " bergangszeit T10 gilt daher " und 3) aufhalt. Fur die U ( T10 = 1 1 falls X1 = 0; falls X1 = 2: Wegen Pr[X1 = 0 j X0 = 1] = 0;5 folgt f10 = 0;5 und E[T10 ] = 1. DWT c Susanne Albers und Ernst W. Mayr 389/462 1,0 Beispiel 128 1,0 0,5 0 0,5 1 2 3 0,5 0,5 Beginnt man im Zustand 2 oder 3, so wird die Kette auch weiterhin zwischen den Zustanden 2 und 3 hin und her pendeln\. Genauer: " Die Anzahl der Schritte, in denen die Kette im Zustand 3 bleibt, ist geometrisch verteilt mit Parameter 0;5. Der Zustand 3 wird daher im Mittel nach 1=0;5 = 2 Schritten verlassen. Da Zustand 2 der einzige Nachbar von 3 ist, folgt h32 = 2 und somit insbesondere auch f32 = 1. DWT c Susanne Albers und Ernst W. Mayr bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 389/462 Lemma 129 Fur die erwarteten Ubergangs-/R uckkehrzeiten gilt hij = 1 + X hj = 1 + X k6=j k6=j pik hkj fur alle i; j 2 S; i 6= j; pjk hkj ; sofern die Erwartungswerte hij und hkj existieren. Fur die Ankunfts-/Ruckkehrwahrscheinlichkeiten gilt analog fij = pij + X fj = pjj + X DWT c Susanne Albers und Ernst W. Mayr k6=j k6=j pik fkj fur alle i; j 2 S; i 6= j ; pjk fkj : bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 390/462 Beweis: Sei i 6= j . Wir bedingen auf das Ergebnis des ersten Schritts der Markov-Kette und erhalten aufgrund der Gedachtnislosigkeit Pr[Tij < 1 j X1 = k] = Pr[Tkj < 1] fur k 6= j sowie Pr[Tij < 1 j X1 = j ] = 1. fij = Pr[Tij < 1] = = pij + X k6=j X k 2S Pr[Tkj < 1 j X1 = k] pik Pr[Tkj < 1] pik = pij + X k6=j pik fkj : Die Ableitung fur fj (also i = j ) ist analog. DWT c Susanne Albers und Ernst W. Mayr 391/462 Beweis: Sei wiederum i 6= j . Wegen der Gedachtnislosigkeit folgt E[Tij j X1 = k] = 1 + E[Tkj ] fur k 6= j . Ferner gilt E[Tij j X1 = j ] = 1. Bedingen wir wieder auf das Ergebnis des ersten Schritts, so folgt (siehe Satz 36): hij= E[Tij ] = = pij + X k6=j X k 2S E[Tij j X1 = k] pik (1 + E[Tkj ]) pik = 1 + X k6=j hkj pik : Wiederum ist die Herleitung fur hj analog. DWT c Susanne Albers und Ernst W. Mayr bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 391/462 1,0 Beispiel 130 1,0 0,5 0 0,5 1 2 3 0,5 0,5 bergangszeiten fur die Zustande 2 und 3 erhalten wir die Fur die Berechnung der U Gleichungen h2 = 1 + h32 ; h3 = 1 + 21 h23 und h23 = 1; h32 = 1 + 12 h32 = 2 : Durch Losen dieses Gleichungssystems erhalten wir die Werte h2 = 3, h3 = 1;5, h23 = 1 und h32 = 2, die man leicht veriziert. Die Ankunftswahrscheinlichkeiten lassen sich analog herleiten. Man erhalt f2 = f3 = f23 = f32 = 1. DWT c Susanne Albers und Ernst W. Mayr bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 392/462 2.4 Das Gambler's Ruin Problem Anna und Bodo spielen Poker, bis einer von ihnen bankrott ist. A verfugt uber Kapital a, und B setzt eine Geldmenge in Hohe von m a aufs Spiel. Insgesamt sind also m Geldeinheiten am Spiel beteiligt. In jeder Pokerrunde setzen A und B jeweils eine Geldeinheit. A gewinnt jedes Spiel mit Wahrscheinlichkeit p. B tragt folglich mit Wahrscheinlichkeit q := 1 p den Sieg davon. Wir nehmen an, dass diese Wahrscheinlichkeiten vom bisherigen Spielverlauf und insbesondere vom Kapitalstand der Spieler unabhangig sind. DWT c Susanne Albers und Ernst W. Mayr 2.4 Das Gambler's Ruin Problem 393/462 Wir modellieren das Spiel durch die Markov-Kette p 1 0 q 1 q p 2 q p q m p 1 1 m A interessiert sich fur die Wahrscheinlichkeit, mit der sie B in den Ruin treibt, also fur die Wahrscheinlichkeit fa;m (wir schreiben hier der Deutlichkeit halber fi;j statt fij ). Wir erhalten: fi;m = p fi+1;m + q fi 1;m fur 1 i < m 1; fm 1;m = p + q fm 2;m ; f0;m = 0: DWT c Susanne Albers und Ernst W. Mayr 2.4 Das Gambler's Ruin Problem (10) 394/462 Wir wollen nun fi;m allgemein als Funktion von m berechnen. Dazu beobachten wir zunachst, dass wir (10) wegen fm;m = 1 umschreiben konnen zu fi+1;m = (1=p) fi;m (q=p) fi 1;m fur 1 i < m: (11) Wir erganzen (11) um die Anfangswerte f0;m = 0 und f1;m = : (Fur den Moment fassen wir als Variable auf. Nach Losung der Rekursion werden wir so wahlen, dass die Bedingung fm;m = 1 erfullt ist.) DWT c Susanne Albers und Ernst W. Mayr 2.4 Das Gambler's Ruin Problem 395/462 Als Losung dieser linearen homogenen Rekursionsgleichung 2. Ordnung (11) ergibt sich fur p 6= 1=2: ! p fi;m = 2p 1 1 1 p p i : Setzen wir nun i = m, so folgt aus fm;m = 1, dass = p 1 2p 1 1 p m p gelten muss. DWT c Susanne Albers und Ernst W. Mayr 2.4 Das Gambler's Ruin Problem 396/462 Insgesamt erhalten wir somit das Ergebnis: 1 fj;m = 1 1 p j p : 1 p m p Fur p = 1=2 verlauft die Rechnung ahnlich. DWT c Susanne Albers und Ernst W. Mayr 2.4 Das Gambler's Ruin Problem 397/462 Beispiel 131 Wir wollen berechnen, wie lange A und B im Mittel spielen konnen, bis einer von ihnen bankrott geht. ha;m eignet sich dazu i.a. nicht (warum?). Wir betrachten stattdessen: Ti0 := "Anzahl der Schritte von Zustand i nach Zustand 0 oder m\ und setzen di := E[Ti0 ]: Oensichtlich gilt d0 = dm = 0 und fur 1 i < m di = qdi 1 + pdi+1 + 1 : DWT c Susanne Albers und Ernst W. Mayr 2.4 Das Gambler's Ruin Problem 398/462 Beispiel (Forts.) Wir betrachten nun nur den Fall p = q = 1=2 und erhalten di = i (m i) fur alle i = 0; : : : ; m: Wegen di mi m2 folgt also, dass das Spiel unabhangig vom Startzustand im Mittel nach hochstens m2 Schritten beendet ist. DWT c Susanne Albers und Ernst W. Mayr 2.4 Das Gambler's Ruin Problem 399/462 2.5 Stationare Verteilung Reale dynamische Systeme laufen oft uber eine lange Zeit. Fur solche Systeme ist es sinnvoll, das Verhalten fur t ! 1 zu berechnen. Wir betrachten wieder die Markov-Kette aus unserem Beispiel. Wir hatten gezeigt, bergangsmatrix P gilt: dass fur die U P =BDB 1 = DWT c Susanne Albers und Ernst W. Mayr 2 1 107 0 1 1 0 1 2.5 Stationare Verteilung 1 3 1 3 1 3 2 : 3 400/462 Daraus folgt Pt = B Dt B 1 und fur t ! 1 erhalten wir lim t!1 Pt = 12 11 0 = 12 11 00 01 DWT c Susanne Albers und Ernst W. Mayr 7 t 10 1 3 2.5 Stationare Verteilung 1 3 0 1t 1 3 = 2 3 1 3 1 3 1 3 1 3 1 3 ; 2 3 2 3 : 2 3 401/462 Fur eine beliebige Startverteilung q0 = (a; 1 lim q t!1 t = tlim q !1 0 Pt a) folgt = (a; 1 a) 1 3 1 3 2 3 2 3 = 13 a + 13 (1 a); 23 a + 32 (1 a) = ( 13 ; 23 ): DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 402/462 Das System konvergiert also unabhangig vom Startzustand in eine feste Verteilung. Der zugehorige Zustandsvektor = ( 13 ; 23 ) hat eine interessante Eigenschaft: 1 2 1 2 P = ( ; ) 00;;81 00;;29 = ( ; ) = : 3 3 3 3 ist also ein Eigenvektor der Matrix P zum Eigenwert 1 bezuglich Multiplikation von links. Dies bedeutet: Wenn die Kette einmal den Zustandsvektor angenommen hat, bergangen erhalten. so bleibt dieser bei allen weiteren U DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 403/462 Denition 132 P sei die U bergangsmatrix einer Markov-Kette. Einen Zustandsvektor mit = P nennen wir stationare Verteilung der Markov-Kette. Besitzen alle Markov-Ketten die Eigenschaft, dass sie unabhangig vom Startzustand in eine bestimmte stationare Verteilung konvergieren? Nein! DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 404/462 1 p 0 1 1 2 q Eine Markov-Kette mit absorbierenden Zustanden Die Abbildung zeigt die Kette aus dem gamblers ruin problem\ fur m = 2. Man sieht " sofort, dass hier sowohl 1 = (1; 0; 0) als auch 2 = (0; 0; 1) stationare Verteilungen sind. Die beiden Zustande 0 und 2 haben jeweils keine ausgehenden Kanten. Solche Zustande heien absorbierend. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 405/462 Denition 133 bergange Wir bezeichnen einen Zustand i als absorbierend, wenn aus ihm keine U herausfuhren, d.h. pij = 0 fur alle j 6= i und folglich pii = 1. Ein Zustand i heit transient, wenn fi < 1, d.h. mit positiver Wahrscheinlichkeit 1 fi > 0 kehrt der Prozess nach einem Besuch von i nie mehr dorthin zuruck. Ein Zustand i mit fi = 1 heit rekurrent. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 406/462 Denition 134 Eine Markov-Kette heit irreduzibel, wenn es fur alle Zustandspaare i; j 2 S eine Zahl n 2 N gibt, so dass p(ijn) > 0. Die Denition besagt anschaulich, dass jeder Zustand von jedem anderen Zustand aus mit positiver Wahrscheinlichkeit erreicht werden kann, wenn man nur genugend viele Schritte durchfuhrt. Dies ist bei endlichen Markov-Ketten genau dann der Fall, wenn bergangsdiagramms stark zusammenhangend ist. der gerichtete Graph des U DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 407/462 Lemma 135 Fur irreduzible endliche Markov-Ketten gilt: fij = Pr[Tij < 1] = 1 fur alle Zustande i; j 2 S . Zusatzlich gilt auch, dass die Erwartungswerte hij = E[Tij ] alle existieren. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 408/462 Beweis: Wir betrachten zunachst den Beweis fur die Existenz von hij . Fur jeden Zustand k gibt es nach Denition der Irreduzibilitat ein nk , so dass p(kjnk ) > 0. Wir halten nk fest und setzen n := maxk nk und p := mink p(kjnk ) . Von einem beliebigen Zustand aus gelangen wir nach hochstens n Schritten mit Wahrscheinlichkeit mindestens p nach j . Wir unterteilen die Zeit in Phasen zu n Schritten und nennen eine Phase erfolgreich, wenn wahrend dieser Phase ein Besuch bei j stattgefunden hat. Die Anzahl von Phasen bis zur ersten erfolgreichen Phase konnen wir durch eine geometrische Verteilung mit Parameter p abschatzen. Die erwartete Anzahl von Phasen ist somit hochstens 1=p, und wir schlieen hij (1=p)n. Daraus folgt sofort, dass auch fij = Pr[Tij < 1] = 1. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 409/462 Satz 136 Eine irreduzible endliche Markov-Kette besitzt eine eindeutige stationare Verteilung , und es gilt j = 1=hjj fur alle j 2 S . Beweis: Wir zeigen zunachst, dass es einen Vektor 6= 0 mit = P gibt. Sei e := (1; : : : ; 1)T bergangsmatrix P gilt P e = e, der All-1-Vektor und I die Einheitsmatrix. Fur jede U da sich die Eintrage der Zeilen von P zu Eins addieren. Daraus folgt 0 = P e e = (P I )e, und die Matrix P I ist somit singular. Damit ist auch die transponierte Matrix (P I )T = P T I singular. Es gibt also einen (Spalten-)Vektor P6= 0 mit (P T I ) = 0 bzw. T P = T . Wir betrachten zunachst den Fall, dass 6= 0. Dann konnen wir o.B.d.A. annehmen, dass normiert ist, also dass Pi i i i = 1 gilt. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 410/462 Beweis (Forts.): Wegen Lemma 135 existieren die Erwartungswerte hij . Fur jeden Zustand j 2 S gelten somit nach Lemma 129 die Gleichungen i hij = i 1 + X k6=j pik hkj fur i 2 S , i 6= j: j hj + X i6=j i hij = 1 + = 1+ XX i2S k6=j X k6=j hkj P i i i pik hkj Wir addieren diese Gleichungen und erhalten wegen X i2S =1 i pik = 1 + X k6=j k hkj : Wegen hj > 0 ist auch j = 1=hj positiv, und stellt somit einen zulassigen Zustandsvektor dar. P Fur den Fall i i = 0 zeigt die entsprechende Rechnung wie zuvor, dass j = 0 fur alle j 2 S gilt. Dies steht im Widerspruch zu 6= 0. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 411/462 Auch wenn eine Markov-Kette irreduzibel ist und somit eine eindeutige stationare Verteilung besitzt, so muss sie nicht zwangslaug in diese Verteilung konvergieren. 1 0 1 1 Eine Markov-Kette mit periodischen Zustanden Als Startverteilung nehmen wir q0 ( = (1; 0) an. Es gilt: (1; 0) falls t gerade, qt = (0; 1) sonst. Die Kette pendelt also zwischen den beiden Zustandsvektoren (1; 0) und (0; 1) hin und her. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 412/462 Denition 137 Die Periode eines Zustands j ist deniert als die grote Zahl 2 N, so dass gilt: fn 2 N0 j p(jjn) > 0g fi j i 2 N0g Ein Zustand mit Periode = 1 heit aperiodisch. Wir nennen eine Markov-Kette aperiodisch, wenn alle Zustande aperiodisch sind. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 413/462 bergangsdiagramm einen Fur ein n 2 N gilt p(iin) > 0 genau dann, wenn es im U geschlossenen Weg von i nach i der Lange n gibt. Damit folgt insbesondere: Ein Zustand i 2 S einer endlichen Markov-Kette ist sicherlich dann aperiodisch, wenn bergangsdiagramm er im U eine Schleife besitzt (also pii > 0) oder auf mindestens zwei geschlossenen Wegen W1 und W2 liegt, deren Langen l1 und l2 teilerfremd sind (fur die also ggT(l1 ; l2 ) = 1 gilt). DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 414/462 Lemma 138 Ein Zustand i 2 S ist genau dann aperiodisch, falls gilt: Es gibt ein n0 2 N, so dass p(iin) > 0 fur alle n 2 N; n n0 . Beweis: Da je zwei aufeinanderfolgende naturliche Zahlen teilerfremd sind, folgt aus der Existenz eines n0 mit der im Lemma angegebenen Eigenschaft sofort die Aperiodizitat des Zustands. Nehmen wir daher umgekehrt an, dass der Zustand i aperiodisch ist. Mit Hilfe des erweiterten euklidischen Algorithmus kann man die folgende Aussage zeigen. Fur je zwei naturliche Zahlen a; b 2 N gibt es ein n0 2 N, so dass gilt: Bezeichnet d := ggT(a; b) den groten gemeinsamen Teiler von a und b, so gibt es fur alle n 2 N; n n0 nichtnegative Zahlen x; y 2 N0 mit nd = xa + yb. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 415/462 Beweis (Forts.): Wegen pii(xa+yb) (p(iia) )x (p(iib) )y folgt daraus unmittelbar: Gilt fur a; b 2 N, dass sowohl p(iia) als auch p(iib) positiv sind, so gilt auch p(iind) > 0 fur alle n 2 N, n n0 . Aus der Aperiodizitat des Zustand i folgt andererseits, dass es Werte a0 ; : : : ; ak geben muss mit p(iiai ) > 0 und der Eigenschaft, dass fur d1 = ggT(a0 ; a1 ) und di := ggT(di 1 ; ai ) fur i = 2; : : : ; k gilt: d1 > d2 > > dk = 1. Aus beiden Beobachtungen zusammen folgt die Behauptung. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 416/462 Korollar 139 Fur irreduzible, aperiodische endliche Markov-Ketten gilt: Es gibt ein t 2 N, so dass unabhangig vom Startzustand (qt )i > 0 fur alle i 2 S . Beweis: Aus der Irreduzibilitat folgt, dass die Markov-Kette jeden Zustand i 2 S irgendwann besuchen wird. Wegen Lemma 138 wissen wir ferner, dass die Kette hinreichend viele Schritte nach dem ersten Besuch in i in jedem folgenden Zeitschritt mit positiver Wahrscheinlichkeit zu i zuruckkehren wird. Da die Kette endlich ist, gibt es daher ein n0 , so dass die Kette sich unabhangig vom Startzustand fur alle n n0 in jedem Zustand i 2 S mit positiver Wahrscheinlichkeit aufhalt. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 417/462 Die Aperiodizitat einer irreduziblen Markov-Kette kann auf einfache Weise sichergestellt werden. Man fugt an alle Zustande so genannte Schleifen an. Diese bergangswahrscheinlichkeit p = 1=2 und halbiert die versieht man mit der U Wahrscheinlichkeiten an allen ubrigen Kanten. 0;5 1;0 0 0;7 2 1 0;3 1;0 ! 0;5 0;5 0 0;5 0;35 2 1 0;15 0;5 Einfuhrung von Schleifen Bei irreduziblen Ketten genugt es, eine einzige Schleife einzufuhren, um die Aperiodizitat der Kette sicherzustellen. Denition 140 Irreduzible, aperiodische Markov-Ketten nennt man ergodisch. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 418/462 Satz 141 (Fundamentalsatz fur ergodische Markov-Ketten) Fur jede ergodische endliche Markov-Kette (Xt )t2N0 gilt unabhangig vom Startzustand lim q n!1 n = ; wobei die eindeutige stationare Verteilung der Kette bezeichnet. Beweis: Gema Satz 136 existiert eine stationare Verteilung . Wir zeigen, dass fur beliebige Zustande i und k gilt p(ikn) ! k fur n ! 1: Daraus folgt die Behauptung, da (qn )k = DWT c Susanne Albers und Ernst W. Mayr X i2S (q0 )i p(ikn) ! k 2.5 Stationare Verteilung X i2S (q0 )i = k : 419/462 Beweis (Forts.): (Yt )t2N0 sei eine unabhangige Kopie der Kette (Xt )t2N0 . Fur den Prozess Zt := (Xt ; Yt ) (t 2 N0 ), bei dem die Ketten Xt und Yt gewissermaen "parallel\ betrieben werden, gilt also Pr[(Xt+1 ; Yt+1 ) = (jx ; jy ) j (Xt ; Yt ) = (ix ; iy )] = Pr[Xt+1 = jx j Xt = ix ] Pr[Yt+1 = jy j Yt = iy ] = pix jx piy jy : (Zt )t2N ist daher ebenfalls eine Markov-Kette. Fur die Wahrscheinlichkeit, in n Schritten von (ix ; iy ) nach (jx ; jy ) zu gelangen, erhalt man analog pi(xnj)x p(iynj)y , was fur genugend groes n gema Lemma 138 positiv ist. (Zt )t 2N ist daher ebenfalls 0 0 ergodisch. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 420/462 Beweis (Forts.): Wir starten nun Zt so, dass die Ketten Xt und Yt in verschiedenen Zustanden ix bzw. iy beginnen, und interessieren uns fur den Zeitpunkt H , bei dem sich Xt und Yt zum ersten Mal im gleichen Zustand benden. Die Menge der Zustande von Zt ist gegeben durch S S . Wir denieren die Menge M := f(x; y) 2 S S j x = yg: von Zustanden der Kette Zt , an denen sich Xt und Yt treen\. Denieren wir nun die " Trezeit H durch H := maxfT(ix ;iy );(jx ;jy ) j (ix ; iy ) 2 S S; (jx ; jy ) 2 M g; so folgt aus Lemma 135 und der Endlichkeit der Markov-Kette sofort, dass Pr[H < 1] = 1 und E[H ] < 1. DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 421/462 Beweis (Forts.): Da die weitere Entwicklung der Ketten Xt und Yt ab dem Zeitpunkt H nur vom bergangsmatrix abhangt, wird jeder Zustand s 2 SZ zu Zustand XH = YH und der U den Zeiten t H von Xt und Yt mit derselben Wahrscheinlichkeit angenommen. Es gilt also Pr[Xt = s j t H ] = Pr[Yt = s j t H ] und somit auch Pr[Xt = s; t H ] = Pr[Yt = s; t H ]: (12) Als Startzustand wahlen wir fur die Kette Xt den Zustand i, wahrend Yt in der stationaren Verteilung beginnt (und naturlich auch bleibt). Damit erhalten wir fur einen beliebigen Zustand k 2 S und n 1 jp(n) j = jPr[X = k] Pr[Y = k]j ik k DWT c Susanne Albers und Ernst W. Mayr n n = jPr[Xn = k; n H ] + Pr[Xn = k; n < H ] Pr[Yn = k; n H ] Pr[Yn = k; n < H ]j: 2.5 Stationare Verteilung 422/462 Beweis (Forts.): Nun konnen wir (12) anwenden und schlieen, dass jp(ikn) k j = jPr[Xn = k; n < H ] Pr[Yn = k; n < H ]j: Zur Abschatzung dieses Ausdrucks benutzen wir die Abschatzung jPr[A \ B ] Pr[A \ C ]j Pr[A]: fur beliebige Ereignisse A, B und C (die oensichtlich ist). Wir erhalten jp(ikn) k j Pr[n < H ]: Da Pr[H < 1] = 1, gilt Pr[n < H ] ! 0 fur n ! 1, d.h. die Wahrscheinlichkeiten p(ikn) konvergieren fur n ! 1 gegen k . DWT c Susanne Albers und Ernst W. Mayr 2.5 Stationare Verteilung 423/462 2.6 Doppeltstochastische Matrizen Wie berechnet man die nach Satz 141 (eindeutig bestimmte) stationare Verteilung, gegen die ergodische endliche Markov-Ketten fur jede Startverteilung konvergieren? Eine Moglichkeit besteht darin, das lineare Gleichungssystem P = aufzustellen und zu losen. Fur groere Matrizen ist dieses Verfahren allerdings im Allgemeinen sehr aufwandig. Wir stellen hier einen anderen Ansatz vor. DWT c Susanne Albers und Ernst W. Mayr 2.6 Doppeltstochastische Matrizen 424/462 Denition 142 Eine n n Matrix P = (pij )0i;j<n heit stochastisch, falls alle Eintrage pij nichtnegativ und alle Zeilensummen gleich Eins sind: nX1 j =0 pij = 1 fur alle i = 0; : : : ; n 1: Sind zusatzlich auch alle Spaltensummen gleich 1, also nX1 i=0 pij = 1 fur alle j = 0; : : : ; n 1; so nennt man P doppeltstochastisch. bergangsmatrix einer Markov-Kette ist immer stochastisch, und umgekehrt. Die U DWT c Susanne Albers und Ernst W. Mayr 2.6 Doppeltstochastische Matrizen 425/462 Lemma 143 Ist P eine doppeltstochastische n n Matrix, so ist = ( n1 ; : : : ; n1 ) ein Eigenvektor zum Eigenwert 1 bezuglich Multiplikation von links: = P: Beweis: Fur alle 0 k < n gilt: nX1 1 ( P )k = i pik = n pik = n1 = k : i=0 i=0 nX1 | {z } =1 DWT c Susanne Albers und Ernst W. Mayr 2.6 Doppeltstochastische Matrizen 426/462 Zusammen mit Satz 141 erhalten wir damit sofort: Satz 144 Fur jede ergodische endliche Markov-Kette (Xt )t2N0 mit doppeltstochastischer Ubergangsmatrix gilt unabhangig vom Startzustand lim q t!1 t = ( n1 ; : : : ; n1 ); wobei n die Kardinalitat der Zustandsmenge bezeichne. Beweis: Klar! DWT c Susanne Albers und Ernst W. Mayr 2.6 Doppeltstochastische Matrizen 427/462 Beispiel 145 Anna und Bodo verabreden sich wieder einmal zu einer Partie Poker. Misstrauisch geworden durch ihre Verluste beim letzten Rendezvous verdachtigt Anna mittlerweile ihren Spielpartner, beim Mischen zu mogeln. Um ganz sicher zu gehen, dass die Karten zukunftig auch wirklich gut gemischt werden, schlagt sie folgendes Verfahren vor: Der Stapel mit Karten wird verdeckt hingelegt; dann werden m-mal jeweils zwei Karten daraus zufallig ausgewahlt und vertauscht. Soll Bodo dieser Prozedur zustimmen? DWT c Susanne Albers und Ernst W. Mayr 428/462 Beispiel 145 Wir modellieren den oben skizzierten Mischvorgang durch eine Markov-Kette. Als Zustandsmenge S wahlen wir alle moglichen Anordnungen der Karten. Identizieren wir die Karten mit den Zahlen [n] = f1; : : : ; ng, so besteht S aus der Menge aller Permutationen der Menge [n]. Betrachten wir nun zwei verschiedene Permutationen ; 2 S . Nach Denition der bergangswahrscheinlichkeit p; genau dann positiv, wenn es Markov-Kette ist die U i; j 2 [n], i 6= j , gibt, so dass 8 > < (j ) falls k = i; (k) = (i) falls k = j; > : (k) sonst. DWT c Susanne Albers und Ernst W. Mayr 428/462 Beispiel 145 Da nach Voraussetzung i und j zufallig gewahlt werden (und es genau n2 solcher Paare i; j gibt), gilt in diesem Fall p; = 1= n2 . Da man jede Vertauschung zweier Karten durch nochmaliges Vertauschen wieder ruckgangig machen kann, sieht man auch sofort ein, dass p; = p; gilt. Die bergangsmatrix P ist also symmetrisch und damit insbesondere auch U doppeltstochastisch. Aus Satz 144 folgt somit, dass die Markov-Kette unabhangig von der Startverteilung zur Gleichverteilung konvergiert. Der von Anna vorgeschlagene Mischvorgang ist also in der Tat sinnvoll: Fur m ! 1 konvergiert die Wahrscheinlichkeitsverteilung fur die sich ergebende Kartenreihenfolge gegen die Gleichverteilung, die Karten sind also bestens gemischt! DWT c Susanne Albers und Ernst W. Mayr 428/462 Beispiel 145 Anmerkung: Man kann zeigen, dass fur n Karten bereits m = O(n log n) Vertauschungen genugen, um einen gut durchmischten Kartenstapel zu erhalten. DWT c Susanne Albers und Ernst W. Mayr 2.6 Doppeltstochastische Matrizen 428/462