SS 2016 Diskrete Wahrscheinlichkeitstheorie Susanne Albers Fakultat f ur Informatik TU M unchen http://wwwalbers.in.tum.de/lehre/2016SS/dwt/index.html.de Sommersemester 2016 DWT c Susanne Albers Kapitel 0 Organisatorisches Vorlesungen: Fr 12:00{14:00 und Fr 14:00{15:00 (Interims Horsaal 1) Pichtvorlesung Bachelor IN, Bioinformatik Modulnr.: IN0018 bung: U 2SWS Tutorubung: siehe Webseite zur Ubung Ubungsleitung: Marinus Gottschau, Dennis Kraft, Sebastian Schraink, Richard Stotz Umfang: 6 ECTS-Punkte 3V+2TU, Sprechstunde: nach Vereinbarung DWT c Susanne Albers 1/460 bungsaufgaben: U Ausgabe jeweils am Freitag auf der Webseite der Vorlesung, ab 18:00 Uhr Abgabe eine Woche spater, jeweils Montag bis 10:00 Uhr, Briefkasten Westseite Untergeschoss FMI Magistrale Vorbereitung in der Tutorubung vorauss. 12 Ubungsbl atter, das letzte am 08. Juli 2016, jedes 20 Punkte Bonusregelung: Werden bei den ersten sechs und zweiten sechs Ubungsbl attern jeweils mindestens 50% der insgesamt erreichbaren Punkte erzielt, so verbessert sich die Note einer bestandenen Klausur um 1/3 Notenstufe. Klausur: Klausur am 03. August 2016, 10:30{12:30 Uhr Wiederholungsklausur am 11. Oktober 2016, 13:30{15:30 Uhr bei den Klausuren sind keine Hilfsmittel auer einem handbeschriebenen DIN-A4-Blatt zugelassen DWT c Susanne Albers 2/460 Vorkenntnisse: Einfuhrung in die Informatik I/II Diskrete Strukturen Weiterfuhrende Vorlesungen: Eziente Algorithmen und Datenstrukturen Randomisierte Algorithmen Online- und Approximationsalgorithmen Komplexitatstheorie ... Webseite: http://wwwalbers.in.tum.de/lehre/2016SS/dwt/index.html.de DWT c Susanne Albers 3/460 1. Vorlesungsinhalt Diskrete Wahrscheinlichkeitsraume Wahrscheinlichkeitsraum, Ereignis, Zufallsvariable spezielle Verteilungen Ungleichungen von Markov und Chebyshev Kontinuierliche Wahrscheinlichkeitsraume Normalverteilung, Exponentialverteilung Zentraler Grenzwertsatz Statistik Schatzvariablen Kondenzintervalle Testen von Hypothesen Stochastische Prozesse Markovketten Warteschlangen DWT c Susanne Albers 4/460 2. Literatur T. Schickinger, A. Steger: Diskrete Strukturen - Band 2, Springer Verlag, 2001 M. Greiner, G. Tinhofer: Stochastik fur Informatiker, Carl Hanser Verlag, 1996 H. Gordon: Discrete Probability, Springer-Verlag, 1997 M. Mitzenmacher, E. Upfal: Probability and Computing: Randomized Algorithms and Probabilistic Analysis, Cambridge University Press, 2005 DWT c Susanne Albers 2 Literatur 5/460 R. Motwani, P. Raghavan: Randomized Algorithms, Cambridge University Press, 1995 M. Hofri: Probabilistic Analysis of Algorithms, Springer Verlag, 1987 L. Fahrmeir, R. Kunstler, I. Pigeot, G. Tutz: Statistik - Der Weg zur Datenanalyse, Springer-Verlag, 1997 DWT c Susanne Albers 6/460 3. Einleitung Was bedeutet Zufall? Unkenntnis uber den Ausgang eines durchgefuhrten Experiments Ein Experiment wird vielfach mit eventuell sich anderndem Ergebnis ausgefuhrt Ereignisse stehen in keinem kausalen Zusammenhang physikalischer Zufall (Rauschen, Kernzerfall) DWT c Susanne Albers 7/460 Zufall in der diskreten Informatik Die Eingabe fur einen bestimmten Algorithmus wird aus einer groen Menge moglicher Eingaben zufallig gewahlt: average case Kombination von Worst-Case- und Average-Case-Analyse, in der Eingaben gema einer Verteilung leicht pertubiert werden: smoothed analysis Der Algorithmus verwendet Zufallsbits, um mit groer Wahrscheinlichkeit gewisse Problemsituationen zu vermeiden: Randomisierung DWT c Susanne Albers 8/460 Kapitel I Diskrete Wahrscheinlichkeitsraume 1. Grundlagen Denition 1 1 2 Ein diskreter Wahrscheinlichkeitsraum ist durch eine Ergebnismenge = f!1 ; !2 ; : : :g von Elementarereignissen gegeben. Jedem Elementarereignis !i ist eine (Elementar-)Wahrscheinlichkeit Pr[!i ] zugeordnet, wobei wir fordern, dass 0 Pr[!i ] 1 und X ! 2 DWT c Susanne Albers Pr[!] = 1: 9/460 3 Eine Menge E heit Ereignis. Die Wahrscheinlichkeit Pr[E ] eines Ereignisses ist durch X Pr[E ] := deniert. DWT c Susanne Albers ! 2E Pr[!] 10/460 Beispiel 2 Zwei faire Wurfel (einer wei, einer schwarz) werden geworfen. Wir sind an der Gesamtzahl der angezeigten Augen interessiert: = f (1; 1); (1; 2); (1; 3); (1; 4); (1; 5); (1; 6); (2; 1); (2; 2); (2; 3); (2; 4); (2; 5); (2; 6); (3; 1); (3; 2); (3; 3); (3; 4); (3; 5); (3; 6); (4; 1); (4; 2); (4; 3); (4; 4); (4; 5); (4; 6); (5; 1); (5; 2); (5; 3); (5; 4); (5; 5); (5; 6); (6; 1); (6; 2); (6; 3); (6; 4); (6; 5); (6; 6) g DWT c Susanne Albers 11/460 1 Die Wahrscheinlichkeit Pr((i; j )) eines jeden Elementarereignisses (i; j ) ist 361 . 2 Die Wahrscheinlichkeit Pr(E ) des Ereignisses E = fDie Gesamtzahl der Augen ist 10g ist 121 . DWT c Susanne Albers 12/460 Wir hatten aber auch sagen konnen: = f2; 3; 4; : : : ; 10; 11; 12g Die Wahrscheinlichkeiten der Elementarereignisse sind dann aber nicht mehr gleich. Es ist z.B. 1 Pr(2) = 1 ; 36 2 Pr(4) = 1 ; 12 3 Pr(7) = 1 . 6 DWT c Susanne Albers 13/460 Beispiel 3 Eine faire Munze wird so lange geworfen, bis die gleiche Seite zweimal hintereinander fallt. Dann ist = fhh, tt, htt, thh, thtt, hthh, hthtt, ththh, : : :g Frage: Was sind die Wahrscheinlichkeiten der einzelnen Elementarereignisse? DWT c Susanne Albers 14/460 E heit komplementares Ereignis zu E . Allgemein verwenden wir bei der Denition von Ereignissen alle bekannten Operatoren aus der Mengenlehre. Wenn also A und B Ereignisse sind, dann sind auch A [ B , A \ B , A n B etc. Ereignisse. Zwei Ereignisse A und B heien disjunkt oder auch unvereinbar, wenn A \ B = ; gilt. DWT c Susanne Albers 1 Grundlagen 15/460 Denition 4 relative Haugkeit von E absolute Haugkeit von E := Anzahl aller Beobachtungen Anzahl Eintreten von E : = Anzahl aller Beobachtungen DWT c Susanne Albers 16/460 Denition 5 Ein Wahrscheinlichkeitsraum mit = f!1 ; : : : ; !n g heit endlicher Wahrscheinlichkeitsraum. Bei unendlichen Wahrscheinlichkeitsraumen werden wir gewohnlich nur den Fall = N0 betrachten. Dies stellt keine groe Einschrankung dar, da wir statt einer Ergebnismenge = f!1 ; !2 ; : : :g auch N0 als Ergebnismenge verwenden konnen, indem wir !i mit i 1 identizieren. Wir sagen, dass durch die Angabe der Elementarwahrscheinlichkeiten ein Wahrscheinlichkeitsraum auf deniert ist. DWT c Susanne Albers 17/460 Beispiel 6 Wir beobachten die an einer Strae in Bayern vorbeifahrenden Autos. Dabei gelte: 1 Es fahren doppelt so viele Autos von links nach rechts wie von rechts nach links. 2 Von zehn Autos haben zwei die Farbe hellelfenbein, die u brigen eine andere Lackierung. Das Ereignis \Wir beobachten ein von links nach rechts fahrendes Auto" hat die Wahrscheinlichkeit 23 . Das Ereignis \Das nachste Auto ist ein Taxi von rechts" passiert mit Wahrscheinlichkeit 11: 3 5 DWT c Susanne Albers 1 Grundlagen 18/460 Beispiel 7 (Unendlicher Wahrscheinlichkeitsraum) Wir betrachten eine Munze, die mit Wahrscheinlichkeit p Kopf zeigt und mit Wahrscheinlichkeit q := 1 p Zahl. Wir fuhren Versuche aus, indem wir die Munze wiederholt solange werfen, bis Zahl fallt. Das Ergebnis eines solchen Versuchs ist die Anzahl der durchgefuhrten Munzwurfe. Damit ergibt sich hier als Ergebnismenge = N = f1; 2; 3; : : :g : DWT c Susanne Albers 19/460 Beispiel 7 (Forts.) Sei, fur i 2 N, !i das Elementarereignis !i = b Die M unze wird i-mal geworfen : Dann gilt: und Pr[!i ] = pi 1 q ; X ! 2 Pr[!] = 1 X i=1 1 X q pi 1 q = q pi = i=0 1 p =1: (wie es sein soll!) DWT c Susanne Albers 20/460 Lemma 8 Fur Ereignisse A; B; A1 ; A2 ; : : : gilt: 1 Pr[;] = 0, Pr[ ] = 1. 2 3 4 0 Pr[A] 1. Pr[A] = 1 Pr[A]. Wenn A B , so folgt Pr[A] Pr[B ]. DWT c Susanne Albers 21/460 Lemma 8 (Forts.) 5 (Additionssatz) Wenn die Ereignisse A1 ; : : : ; An paarweise disjunkt sind (also wenn fur alle Paare i 6= j gilt, dass Ai \ Aj = ;), so folgt " Pr n [ i=1 # Ai = n X i=1 Pr[Ai ]: Fur disjunkte Ereignisse A, B erhalten wir insbesondere Pr[A [ B ] = Pr[A] + Pr[B ] : Fur eine unendliche Menge von disjunkten Ereignissen A1 ; A2 ; : : : gilt analog " Pr DWT c Susanne Albers 1 [ i=1 # Ai = 1 X i=1 Pr[Ai ] : 22/460 Beweis: Die Aussagen folgen unmittelbar aus Denition 1, den Eigenschaften der Addition und der Denition der Summe. DWT c Susanne Albers 23/460 Eigenschaft 5 in Lemma 8 gilt nur fur disjunkte Ereignisse. Fur den allgemeinen Fall erhalten wir folgenden Satz 9 (Siebformel, Prinzip der Inklusion/Exklusion) Fur Ereignisse A1 ; : : : ; An (n 2) gilt: " Pr n [ i=1 # Ai = n X i=1 + ( 1)l + ( DWT c Susanne Albers Pr[Ai ] 1 X 1i1 <i2 n X Pr[Ai \ Ai ] + : : : 1 2 Pr[Ai \ : : : \ Ail ] + : : : 1 1i1 <:::<il n n 1 1) Pr[A1 \ : : : \ An ] : 24/460 Satz 9 (Forts.) Insbesondere gilt fur zwei Ereignisse A und B Pr[A [ B ] = Pr[A] + Pr[B ] Pr[A \ B ] : Fur drei Ereignisse A1 , A2 und A3 erhalten wir Pr[A1 [ A2 [ A3 ] = Pr[A1 ] + Pr[A2 ] + Pr[A3 ] Pr[A1 \ A2 ] Pr[A1 \ A3 ] Pr[A2 \ A3 ] +Pr[A1 \ A2 \ A3 ] : DWT c Susanne Albers 25/460 Beweis: Wir betrachten zunachst den Fall n = 2. Dazu setzen wir C := A n B = A n (A \ B ). Gema dieser Denition gilt, dass C und A \ B sowie C und B disjunkt sind. Deshalb konnen wir Eigenschaft 5 von Lemma 8 anwenden: Pr[A] = Pr[C [ (A \ B )] = Pr[C ] + Pr[A \ B ] : Wegen A [ B = C [ B folgt daraus Pr[A [ B ] = Pr[C [ B ] = Pr[C ] + Pr[B ] = Pr[A] Pr[A \ B ] + Pr[B ] und wir haben die Behauptung fur n = 2 gezeigt. DWT c Susanne Albers 26/460 Beweis (Forts.): Der Fall n = 3: A1 A2 A3 Ω Man beachte, dass durch die im Satz angegebene Summe jedes Flachenstuck insgesamt genau einmal gezahlt wird. DWT c Susanne Albers 27/460 Beweis (Forts.): Der allgemeine Fall kann nun durch Induktion uber n gezeigt werden (was wir aber hier nicht ausfuhren!). Satz 9 ndet man manchmal auch unter der Bezeichung Satz von Poincare-Sylvester, nach dem Franzosen Jules Henri Poincare (1854{1912) und dem Englander James Joseph Sylvester (1814{1897) benannt. DWT c Susanne Albers 28/460 Boolesche Ungleichung: Die folgende Abschatzung ist nach George Boole (1815{1864) benannt: Korollar 10 Fur Ereignisse A1 ; : : : ; An gilt " Pr n [ i=1 # Ai n X i=1 Pr[Ai ] : Analog gilt fur eine unendliche Folge von Ereignissen A1 ; A2 ; : : :, dass " Pr DWT c Susanne Albers 1 [ i=1 # Ai 1 X i=1 Pr[Ai ] : 29/460 Beweis: Zunachst betrachten wir die linke Seite der Ungleichung fur den endlichen Fall und erhalten " # Pr Fur die rechte Seite gilt n [ i=1 n X i=1 Ai = Pr[Ai ] = X S !2 ni=1 Ai n X X i=1 !2Ai Pr[!] : Pr[!] : Jedes Elementarereignis kommt links also genau einmal und rechts mindestens einmal vor. DWT c Susanne Albers 30/460 1.1 Wahl der Wahrscheinlichkeiten Frage: Wie konnen Wahrscheinlichkeiten sinnvoll festgelegt werden? Prinzip von Laplace (Pierre Simon Laplace (1749{1827)): Wenn nichts dagegen spricht, gehen wir davon aus, dass alle Elementarereignisse gleich wahrscheinlich sind. Also: Pr[E ] = jjE jj DWT c Susanne Albers 31/460 1.2 Historische Anfange der Wahrscheinlichkeitstheorie Die ersten Hinweise auf mathematische Untersuchungen zu Problemen der Wahrscheinlichkeitstheorie nden sich in einem Briefwechsel zwischen den franzosischen Mathematikern Pierre Fermat (1601{1665) und Blaise Pascal (1623{1662). Pascal beschaftigte sich neben der Mathematik auch mit Fragestellungen aus dem Bereich der Physik und auch aus der Informatik! Sein Vater hatte als Steuerinspektor in Rouen umfangreiche Rechnungen durchzufuhren und so wurde Pascal zum Bau einer mechanischen Rechenmaschine, der so genannten Pascaline, motiviert. DWT c Susanne Albers 1.2 Historische Anfange der Wahrscheinlichkeitstheorie 32/460 In dem Briefwechsel taucht bereits der Ansatz Pr[E ] = jE j=j j zur Berechnung der Wahrscheinlichkeit von E auf. Auch den Begri des Erwartungswerts kann man dort berlegungen zur schon nden. Weder Fermat noch Pascal publizierten ihre U Wahrscheinlichkeitstheorie. Der Niederlander Christiaan Huygens (1629{1695) entwickelte ebenfalls Methoden zum Arbeiten mit Wahrscheinlichkeiten aus. Er publizierte im Jahre 1657 auch eine kleine Arbeit mit dem Titel De ratiociniis in ludo " ber die Gesetzmaigkeiten beim Wurfelspiel). aleae\ (U DWT c Susanne Albers 33/460 2. Bedingte Wahrscheinlichkeiten Beispiel 11 A und B spielen Poker (52 Karten, 5 Karten pro Spieler, keine getauschten Karten). A halt vier Asse und eine Herz Zwei in der Hand. B kann dieses Blatt nur uberbieten, wenn er einen Straight Flush (funf Karten einer Farbe in aufsteigender Reihenfolge) hat. Die Wahrscheinlichkeit fur das Ereignis F := B hat einen Straight Flush\ betragt " 31 = 2;02:: 10 5 : Pr[F ] = jjF jj = 3 528 +57 = 1533939 5 DWT c Susanne Albers 2 Bedingte Wahrscheinlichkeiten 34/460 Beispiel 11 (Forts.) A hat die Karten allerdings gezinkt und wei, dass B nur Kreuz in der Hand halt. Bezeichne nun 0 den Wahrscheinlichkeitsraum aller Moglichkeiten fur B und F 0 das Ereignis, dass B einen Straight Flush der Farbe Kreuz hat: 0 8 0;01 !! Pr[F 0 ] = jjF 0 jj = 128 = 792 5 DWT c Susanne Albers 35/460 Fur Pr[AjB ] erforderliche Eigenschaften: 1 Pr[B jB ] = 1; 2 Pr[Aj ] = Pr[A]; 3 f ur festes B ist Pr[AjB ] proportional zu Pr[A \ B ]. Denition 12 A und B seien Ereignisse mit Pr[B ] > 0. Die bedingte Wahrscheinlichkeit Pr[AjB ] von A gegeben B ist deniert als A \ B] Pr[AjB ] := Pr[Pr[ : B] DWT c Susanne Albers 36/460 Die bedingten Wahrscheinlichkeiten Pr[jB ] bilden fur ein beliebiges Ereignis B mit Pr[B ] > 0 einen neuen Wahrscheinlichkeitsraum uber . Es ist leicht nachzurechnen, dass dadurch die Denition eines diskreten Wahrscheinlichkeitsraums erfullt ist: X ! 2 Pr[!jB ] = Pr[! \ B ] = X Pr[!] = Pr[B ] = 1: Pr[B ] Pr[B ] Pr[B ] ! 2 ! 2B X Damit gelten alle Rechenregeln fur Wahrscheinlichkeiten auch fur bedingte Wahrscheinlichkeiten. Beispielsweise: Pr[;jB ] = 0 sowie Pr[AjB ] = 1 Pr[AjB ] : DWT c Susanne Albers 37/460 Beispiel 13 (Reskalierung bei bedingten Wahrscheinlichkeiten) Betrachte folgenden gezinkten Wurfel: 0,7 Pr[x℄ 0,6 0,5 0,4 0,3 0,2 0,1 0,0 DWT c Susanne Albers 0 1 2 3 4 5 2 Bedingte Wahrscheinlichkeiten 6 7 38/460 Beispiel 13 (Forts.) Wir betrachten nun den durch B := f3; 4; 5g gegebenen bedingten Wahrscheinlichkeitsraum: 0,7 0,7 Pr[x℄ 0,6 0,6 0,5 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0,0 0 DWT c Susanne Albers 1 2 3 4 5 6 7 0,0 Pr[xjB ℄ 0 1 2 3 4 5 6 7 39/460 Was genau war die Bedingung? Beispiel 14 (Zweikinderproblem) Wir nehmen an, dass bei der Geburt eines Kindes beide Geschlechter gleich wahrscheinlich sind. Wir wissen, dass eine bestimmte Familie zwei Kinder hat und eines davon ein Madchen ist. Wie gro ist die Wahrscheinlichkeit, dass beide Kinder der Familie Madchen sind? Naturlich 12 . Wirklich? DWT c Susanne Albers 40/460 Beispiel 14 (Forts.) Eigentlich gilt: und := fmm; mj; jm; jj g M := fmm; mj; jmg : Wir bedingen auf M , und damit gilt fur A := fmmg: A \ M ] 1=4 1 Pr[AjM ] = Pr[Pr[ = 3=4 = 3 : M] DWT c Susanne Albers 2 Bedingte Wahrscheinlichkeiten 41/460 Beispiel 15 (Ziegenproblem) Sie nehmen an einer Spielshow im Fernsehen teil, bei der Sie eine von drei verschlossenen Turen auswahlen sollen. Hinter einer Tur wartet der Preis, ein Auto, hinter den beiden anderen stehen Ziegen. Sie zeigen auf eine Tur, sagen wir Nummer eins. Sie bleibt vorerst geschlossen. Der Moderator wei, hinter welcher Tur sich das Auto bendet; mit den Worten \Ich gebe Ihnen mal einen kleinen Hinweis" onet er eine andere Tur, zum Beispiel Nummer drei, und eine Ziege schaut heraus und meckert. Er fragt: \Bleiben Sie bei Nummer eins, oder wahlen sie Nummer zwei? " Frage: Welche Strategie ist gunstiger: S1 Der Spieler bleibt immer bei seiner ursprunglichen Wahl. S2 Der Spieler wechselt stets die ausgewahlte Tur. DWT c Susanne Albers 42/460 Beispiel (Forts.) Wir betrachten hier eine Diskussion des Ziegenproblems mit Hilfe von bedingten Wahrscheinlichkeiten. Wir betrachten bei jeder Variante den Fall, dass der Spieler a) die \richtige", b) eine falsche Tur gewahlt hat. Ersteres geschieht mit Wahrscheinlichkeit 31 , Letzteres mit Wahrscheinlichkeit 23 . Mit der vom Moderator gegebenen Information ergeben sich fur die beiden Strategien die folgenden Gewinnwahrscheinlichkeiten: a) b) DWT c Susanne Albers S1 ? ? S2 ? ? 2 Bedingte Wahrscheinlichkeiten 43/460 Haug verwendet man die Denition der bedingten Wahrscheinlichkeit in der Form Pr[A \ B ] = Pr[B jA] Pr[A] = Pr[AjB ] Pr[B ] : (1) Damit: Satz 16 (Multiplikationssatz) Seien die Ereignisse A1 ; : : : ; An gegeben. Falls Pr[A1 \ : : : \ An ] > 0 ist, gilt Pr[A1 \ : : : \ An ] = DWT c Susanne Albers Pr[A1 ] Pr[A2 jA1 ] Pr[A3 jA1 \ A2 ] : : : : : : Pr[An jA1 \ : : : \ An 1 ] : 2 Bedingte Wahrscheinlichkeiten 44/460 Beweis: Zunachst halten wir fest, dass alle bedingten Wahrscheinlichkeiten wohldeniert sind, da Pr[A1 ] Pr[A1 \ A2 ] : : : Pr[A1 \ : : : \ An ] > 0. Die rechte Seite der Aussage im Satz konnen wir umschreiben zu Pr[A1 ] Pr[A1 \ A2 ] Pr[A1 \ A2 \ A3 ] : : : Pr[A1 \ : : : \ An ] : 1 Pr[A1 ] Pr[A1 \ A2 ] Pr[A1 \ : : : \ An 1 ] Oensichtlich kurzen sich alle Terme bis auf Pr[A1 \ : : : \ An ]. DWT c Susanne Albers 2 Bedingte Wahrscheinlichkeiten 45/460 Beispiel 17 (Geburtstagsproblem) Wie gro ist die Wahrscheinlichkeit, dass in einer m-kopgen Gruppe zwei Personen am selben Tag Geburtstag haben? Umformulierung: Man werfe m Balle zufallig und gleich wahrscheinlich in n Korbe. Wie gro ist die Wahrscheinlichkeit, dass nach dem Experiment jeder Ball allein in seinem Korb liegt? Fur das Geburtstagsproblem: n = 365 DWT c Susanne Albers 46/460 Oensichtlich muss m n sein, damit uberhaupt jeder Ball allein in einem Korb liegen kann. Wir nehmen an, dass die Balle nacheinander geworfen werden. Ai bezeichne das Ereignis Ball i landet in einem noch leeren Korb\. Das gesuchte Ereignis Alle Balle " " liegen allein in einem Korb\ bezeichnen wir mit A. Nach Satz 16 konnen wir Pr[A] berechnen durch Pr[A] = Pr [\mi=1 Ai ] = Pr[A1 ] Pr[A2 jA1 ] : : : Pr[Am j \mi=11 Ai ]: Unter der Bedingung, dass die ersten j 1 Balle jeweils in einem leeren Korb gelandet sind, bedeutet Aj , dass der j -te Ball in eine der n (j 1) leeren Korbe fallen muss, die aus Symmetriegrunden jeweils mit derselben Wahrscheinlichkeit gewahlt werden. DWT c Susanne Albers 2 Bedingte Wahrscheinlichkeiten 47/460 Daraus folgt Pr[Aj j \ij=11 Ai ] = n (nj 1) = 1 j n 1 : Mit der Abschatzung 1 x e x und wegen Pr[A1 ] = 1 erhalten wir Pr[A] = m Y j =1 m Y 1 j n 1 Pm 1 e (j 1)=n = e (1=n) j=1 j j =2 = e m(m 1)=(2n) DWT c Susanne Albers =: f (m) : 48/460 1,0 f (m) 0,8 0,6 0,4 0,2 0,0 0 50 DWT c Susanne Albers 100 150 200 250 300 350 Verlauf von f (m) fur n = 365 49/460 Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigen wir: Satz 18 (Satz von der totalen Wahrscheinlichkeit) Die Ereignisse A1 ; : : : ; An seien paarweise disjunkt und es gelte B A1 [ : : : [ An . Dann folgt Pr[B ] = n X i=1 Pr[B jAi ] Pr[Ai ] : S Analog gilt fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit B 1 i=1 Ai , dass 1 X Pr[B ] = DWT c Susanne Albers i=1 Pr[B jAi ] Pr[Ai ] : 50/460 Beweis: Wir zeigen zunachst den endlichen Fall. Wir halten fest, dass B = (B \ A1 ) [ : : : [ (B \ An ) : Da fur beliebige i; j mit i 6= j gilt, dass Ai \ Aj = ;, sind auch die Ereignisse B \ Ai und B \ Aj disjunkt. Wegen (1) folgt Pr[B \ Ai ] = Pr[B jAi ] Pr[Ai ] (auch fur den Fall, dass Pr[Ai ] = 0!). Wir wenden nun den Additionssatz (Lemma 8, Teil 5) an Pr[B ] = Pr[B \ A1 ] + : : : + Pr[B \ An ] = Pr[B jA1 ] Pr[A1 ] + : : : + Pr[B jAn ] Pr[An ] und haben damit die Behauptung gezeigt. Da der Additionssatz auch fur unendlich viele Ereignisse A1 ; A2 ; : : : gilt, kann dieser Beweis direkt auf den unendlichen Fall ubertragen werden. DWT c Susanne Albers 2 Bedingte Wahrscheinlichkeiten 51/460 Mit Hilfe von Satz 18 erhalten wir leicht einen weiteren nutzlichen Satz: Satz 19 (Satz von Bayes) Die Ereignisse A1 ; : : : ; An seien paarweise disjunkt, mit Pr[Aj ] > 0 fur alle j . Ferner sei B A1 [ : : : [ An ein Ereignis mit Pr[B ] > 0. Dann gilt fur ein beliebiges i = 1; : : : ; n Ai \ B ] P Pr[B jAi ] Pr[Ai ] = n Pr[B jA ] Pr[A ] : Pr[Ai jB ] = Pr[Pr[ B] j j j =1 S Analog gilt fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit B 1 i=1 Ai , dass Ai \ B ] P Pr[B jAi ] Pr[Ai ] Pr[Ai jB ] = Pr[Pr[ = 1 Pr[B jA ] Pr[A ] : B] j j j =1 DWT c Susanne Albers 52/460 Mit dem Satz von Bayes dreht man gewissermaen die Reihenfolge der Bedingung um. Gegeben die Wahrscheinlichkeit von B unter den Bedingungen Ai (sowie die Wahrscheinlichkeiten der Ai selbst), berechnet man die Wahrscheinlichkeit von Ai bedingt auf das Ereignis B . Thomas Bayes (1702{1761) war ein bekannter Theologe und Mitglied der Royal Society. Als sein bedeutendstes Werk gilt sein Beitrag zur Wahrscheinlichkeitstheorie Essay Towards Solving a Problem in the Doctrine of Chances\. Diese Arbeit wurde " erst 1763 publiziert. DWT c Susanne Albers 2 Bedingte Wahrscheinlichkeiten 53/460 3. Unabhangigkeit Bei einer bedingten Wahrscheinlichkeit Pr[AjB ] kann der Fall auftreten, dass die Bedingung auf B , also das Vorwissen, dass B eintritt, keinen Einuss auf die Wahrscheinlichkeit hat, mit der wir das Eintreten von A erwarten. Es gilt also Pr[AjB ] = Pr[A], und wir nennen dann die Ereignisse A und B unabhangig. DWT c Susanne Albers 54/460 Beispiel 20 (Zweimaliges Wurfeln) := f(i; j ) j 1 i; j 6g : Alle Elementarereignisse erhalten nach dem Prinzip von Laplace die Wahrscheinlichkeit 361 . Wir denieren die Ereignisse A := Augenzahl im ersten Wurf ist gerade; B := Augenzahl im zweiten Wurf ist gerade; C := Summe der Augenzahlen beider Wurfe betragt 7: Es gilt Pr[A] = Pr[B ] = 12 und Pr[C ] = 16 . Wie gro ist Pr[B jA]? DWT c Susanne Albers 55/460 Beispiel 20 (Forts.) Nach unserer Intuition beeinusst der Ausgang des ersten Wurfs den zweiten Wurf nicht. Daher gewinnen wir durch das Eintreten von A keine Information in Bezug auf das Ereignis B hinzu: B \ A = f(2; 2); (2; 4); (2; 6); (4; 2); (4; 4); (4; 6); (6; 2); (6; 4); (6; 6)g: Daraus folgt 9 36 = 1 = Pr[B ] : 1 2 2 Das Eintreen des Ereignisses B hat mit dem Ereignis A nichts zu tun\. " DWT c Susanne Albers B \ A] = Pr[B jA] = Pr[Pr[ A] 3 Unabhangigkeit 56/460 Denition 21 Die Ereignisse A und B heien unabhangig, wenn gilt Pr[A \ B ] = Pr[A] Pr[B ] : Falls Pr[B ] 6= 0, so konnen wir diese Denition zu A \ B] Pr[A] = Pr[Pr[ = Pr[AjB ] B] umschreiben. DWT c Susanne Albers 3 Unabhangigkeit 57/460 Beispiel 20 (Zweimaliges Wurfeln, Forts.) Zur Erinnerung: A := Augenzahl im ersten Wurf ist gerade; B := Augenzahl im zweiten Wurf ist gerade; C := Summe der Augenzahlen beider Wurfe betragt 7: Bei den Ereignissen A und B ist die Unabhangigkeit klar, da oensichtlich kein kausaler Zusammenhang zwischen den Ereignissen besteht. Wie steht es mit A und C ? A \ C = f(2; 5); (4; 3); (6; 1)g und damit 3 = 1 1 = Pr[A] Pr[C ] bzw. Pr[C jA] = Pr[C ] : Pr[A \ C ] = 36 2 6 DWT c Susanne Albers 58/460 Beispiel 20 (Forts.) Also sind auch A und C (und analog B und C ) unabhangig. Bemerkung: Im Beispiel ist A \ C 6= ;. Es gilt sogar allgemein fur zwei unabhangige Ereignisse A und B mit Pr[A]; Pr[B ] > 0, dass sie gar nicht disjunkt sein konnen, da ansonsten 0 = Pr[;] = Pr[A \ B ] 6= Pr[A] Pr[B ] : DWT c Susanne Albers 3 Unabhangigkeit 59/460 Beispiel 20 (Zweimaliges Wurfeln (Forts.)) Zur Erinnerung: A := Augenzahl im ersten Wurf ist gerade; B := Augenzahl im zweiten Wurf ist gerade; C := Summe der Augenzahlen beider Wurfe betragt 7: Wir betrachten das Ereignis A \ B \ C . Wenn A \ B eintritt, so sind beide gewurfelten Augenzahlen gerade und somit ergibt auch die Summe davon eine gerade Zahl. Daraus folgt Pr[A \ B \ C ] = 0 bzw. Pr[C jA \ B ] = 0 6= Pr[C ]. Das Ereignis A \ B liefert uns also Information uber das Ereignis C . DWT c Susanne Albers 60/460 Denition 22 Die paarweise verschiedenen Ereignisse A1 ; : : : ; An heien unabhangig, wenn fur alle Teilmengen I = fi1 ; : : : ; ik g f1; : : : ; ng mit i1 < i2 < : : : < ik gilt, dass Pr[Ai \ : : : \ Aik ] = Pr[Ai ] : : : Pr[Aik ]: 1 1 (2) Eine unendliche Familie von paarweise verschiedenen Ereignissen Ai mit i 2 N heit unabhangig, wenn (2) fur jede endliche Teilmenge I N erfullt ist. DWT c Susanne Albers 61/460 Lemma 23 Die (paarweise verschiedenen) Ereignisse A1 ; : : : ; An sind genau dann unabhangig, wenn fur alle (s1 ; : : : ; sn ) 2 f0; 1gn gilt, dass Pr[As1 \ : : : \ Asnn ] = Pr[As1 ] : : : Pr[Asnn ]; 1 1 (3) wobei A0i = Ai und A1i = Ai . DWT c Susanne Albers 3 Unabhangigkeit 62/460 Beweis: Zunachst zeigen wir, dass aus (2) die Bedingung (3) folgt. Wir beweisen dies durch Induktion uber die Anzahl der Nullen in s1 ; : : : ; sn . Wenn s1 = : : : = sn = 1 gilt, so ist nichts zu zeigen. Andernfalls gelte ohne Einschrankung s1 = 0. Aus dem Additionssatz folgt dann Pr[A1 \ As2 \ : : : \ Asnn ] = Pr[As2 \ : : : \ Asnn ] Pr[A1 \ As2 \ : : : \ Asnn ]: 2 2 2 Darauf konnen wir die Induktionsannahme anwenden und erhalten Pr[A1 \ As2 \ : : : \ Asnn ] = Pr[As2 ] : : : Pr[Asnn ] Pr[A1 ] Pr[As2 ] : : : Pr[Asnn ] = (1 Pr[A1 ]) Pr[As2 ] : : : Pr[Asnn ]; woraus die Behauptung wegen 1 Pr[A1 ] = Pr[A1 ] folgt. 2 2 2 2 DWT c Susanne Albers 63/460 Beweis (Forts.): Fur die Gegenrichtung zeigen wir nur, dass aus (3) Pr[A1 \ A2 ] = Pr[A1 ] Pr[A2 ] folgt. Es gilt wegen des Satzes von der totalen Wahrscheinlichkeit, dass Pr[A1 \ A2 ] = = X s3 ;:::;sn 2f0;1g X s3 ;:::;sn 2f0;1g Pr[A1 \ A2 \ As3 \ : : : \ Asnn ] 3 Pr[A1 ] Pr[A2 ] Pr[As3 ] : : : Pr[Asnn ] = Pr[A1 ] Pr[A2 ] = Pr[A1 ] Pr[A2 ]; 3 X s3 =0;1 Pr[As3 ] : : : 3 X sn =0;1 Pr[Asnn ] und es folgt die Behauptung. DWT c Susanne Albers 64/460 Aus der Darstellung in Lemma 23 folgt die wichtige Beobachtung, dass fur zwei unabhangige Ereignisse A und B auch die Ereignisse A und B (und analog auch A und B bzw. A und B ) unabhangig sind! Ebenso folgt: DWT c Susanne Albers 3 Unabhangigkeit 65/460 Lemma 24 Seien A, B und C unabhangige Ereignisse. Dann sind auch A \ B und C bzw. A [ B und C unabhangig. Beweis: Die Unabhangigkeit von A \ B und C folgt unmittelbar aus Denition 22. Aus Pr[(A [ B ) \ C ] = = = = Pr[(A \ C ) [ (B \ C )] Pr[A \ C ] + Pr[B \ C ] Pr[A \ B \ C ] Pr[C ] (Pr[A] + Pr[B ] Pr[A \ B ]) Pr[A [ B ] Pr[C ] folgt die Unabhangigkeit von A [ B und C . DWT c Susanne Albers 66/460 4. Zufallsvariablen 4.1 Grundlagen Anstatt der Ereignisse selbst sind wir oft an Auswirkungen\ oder Merkmalen\ der " " (Elementar)Ereignisse interessiert. Denition 25 Sei ein Wahrscheinlichkeitsraum auf der Ergebnismenge gegeben. Eine Abbildung X: !R heit (numerische) Zufallsvariable. Eine Zufallsvariable X uber einer endlichen oder abzahlbar unendlichen Ergebnismenge heit diskret. DWT c Susanne Albers 67/460 Bei diskreten Zufallsvariablen ist der Wertebereich WX := X ( ) = fx 2 R; 9 ! 2 mit X (!) = xg ebenfalls wieder endlich (bzw. abzahlbar unendlich). DWT c Susanne Albers 68/460 Beispiel 26 Wir werfen eine ideale Munze drei Mal. Als Ergebnismenge erhalten wir := fH; T g3 . Die Zufallsvariable Y bezeichne die Gesamtanzahl der Wurfe mit Ergebnis Head\. " Beispielsweise gilt also Y (HT H ) = 2 und Y (HHH ) = 3. Y hat den Wertebereich WY = f0; 1; 2; 3g. DWT c Susanne Albers 4.1 Grundlagen 69/460 Fur WX = fx1 ; : : : ; xn g bzw. WX = fx1 ; x2 ; : : :g betrachten wir (fur ein beliebiges 1 i n bzw. xi 2 N) das Ereignis Ai := f! 2 ; X (!) = xi g = X 1 (xi ): Bemerkung: Anstelle von Pr[X 1 (xi )] verwendet man haug auch die Schreibweise Pr["X = xi\ ]. Analog setzt man Pr["X xi\ ] = X x2WX : xxi Pr["X = x\ ] = Pr[f! 2 ; X (!) xi g] : Oft lasst man auch die Anfuhrungszeichen weg. DWT c Susanne Albers 70/460 Denition 27 Die Funktion fX : R 3 x 7! Pr[X = x] 2 [0; 1] (4) nennt man (diskrete) Dichte(funktion) der Zufallsvariablen X . Die Funktion FX : R 3 x 7! Pr[X x] = X x0 2WX : x0 x Pr[X = x0 ] 2 [0; 1] (5) heit Verteilung(sfunktion) der Zufallsvariablen X . DWT c Susanne Albers 71/460 Beispiel 28 Fur die Zufallsvariable Y erhalten wir Pr[Y = 0] = Pr[T T T ] = 18 ; Pr[Y = 1] = Pr[HT T ] + Pr[T HT ] + Pr[T T H ] = 38 ; Pr[Y = 2] = Pr[HHT ] + Pr[HT H ] + Pr[T HH ] = 38 ; Pr[Y = 3] = Pr[HHH ] = 18 : DWT c Susanne Albers 72/460 FY fY 1,0 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0,0 0 1 2 3 0,0 0 1 2 3 Dichte und Verteilung von Y Bemerkung: Man kann statt auch den zugrunde liegenden Wahrscheinlichkeitsraum uber WX betrachten. DWT c Susanne Albers 4.1 Grundlagen 73/460 4.2 Erwartungswert und Varianz Denition 29 Zu einer Zufallsvariablen X denieren wir den Erwartungswert E[X ] durch E[X ] := sofern P x 2W X Beispiel 30 X x 2W X x Pr[X = x] = X x 2W X x fX (x) ; jxj Pr[X = x] konvergiert. E[Y ] = 3 X i=0 i Pr[Y = i] = 1 Pr[Y = 1] + 2 Pr[Y = 2] + 3 Pr[Y = 3] = 1 83 + 2 83 + 3 18 = 32 : DWT c Susanne Albers 74/460 Beispiel 31 Eine Munze wird so lange geworfen, bis sie zum ersten Mal Head\ zeigt. Sei k die " Anzahl der durchgefuhrten Wurfe. Wenn k ungerade ist, zahlt der Spieler an die Bank k Euro. Andernfalls (k gerade) zahlt die Bank k Euro an den Spieler. ( G := k falls k ungerade; k falls k gerade: Wie schon gesehen, gilt dann Pr["Anzahl Wurfe = k\ ] = (1=2)k : Damit erhalten wir E[G] = DWT c Susanne Albers 1 X k=1 ( 1)k 1 k k 1 2 : 75/460 Da 1 X k=1 j( 1)k 1 kj k 1 2 1 X k=1 k k 1 2 ; existiert der Erwartungswert E[G]. Es gilt 1 X " 2j # 1 2j 2j 21 E[G] = (2j 1) 12 j =1 1 1 2j 1 X = [(2j 1) j ] 2 j =1 j 1 1 1 X 1 = 2 (j 1) 14 = 12 4 1 2 = 29 : 1 4 j =1 DWT c Susanne Albers 4.2 Erwartungswert und Varianz 76/460 Wird jedoch, um das Risiko zu steigern, der zu zahlende Betrag von k Euro jeweils auf 2k Euro erhoht, also ( 2k falls k ungerade; G0 := 2k falls k gerade ; dann existiert E[G0 ] nicht, da k 1 X 1 0 k 1 k E[G ] = ( 1) 2 k=1 = DWT c Susanne Albers 1 X k=1 2 ( 1)k 1 = +1 1 + 1 1 + : : : : 4.2 Erwartungswert und Varianz 77/460 Berechnung des Erwartungswerts: E[X ] = = = X x 2W X X x Pr[X = x] = x X x2WX !2 :X (!)=x X ! 2 X x 2W X x fX (x) Pr[!] X (!) Pr[!] : Bei unendlichen Wahrscheinlichkeitsr aumen ist dabei analog zur Denition des P Erwartungswerts erforderlich, dass !2 jX (! )j Pr[! ] konvergiert (absolute Konvergenz). DWT c Susanne Albers 4.2 Erwartungswert und Varianz 78/460 Satz 32 (Monotonie des Erwartungswerts) Seien X und Y Zufallsvariablen uber dem Wahrscheinlichkeitsraum mit X (!) Y (!) fur alle ! 2 . Dann gilt E[X ] E[Y ]. Beweis: E[X ] = DWT c Susanne Albers X ! 2 X (!) Pr[!] X ! 2 Y (!) Pr[!] = E[Y ] : 4.2 Erwartungswert und Varianz 79/460 Aus Satz 32 folgt insbesondere, dass a E[X ] b gilt, wenn fur die Zufallsvariable X die Eigenschaft a X (! ) b fur alle ! 2 erfullt ist. DWT c Susanne Albers 80/460 4.2.1 Rechenregeln fur den Erwartungswert Oft betrachtet man eine Zufallsvariable X nicht direkt, sondern wendet noch eine Funktion darauf an: Y := f (X ) = f X ; wobei f : D ! R eine beliebige Funktion sei mit WX D R. Beobachtung: f (X ) ist wieder eine Zufallsvariable. DWT c Susanne Albers 4.2 Erwartungswert und Varianz 81/460 Aus Pr[Y = y] = Pr[f! j f (X (!)) = yg] = X x : f (x)=y Pr[X = x] folgt E[f (X )] = E[Y ] = = = DWT c Susanne Albers X y2WY X ! 2 X y 2W Y y y Pr[Y = y] X x : f (x)=y Pr[X = x] = f (X (!)) Pr[!] : X x 2W X 4.2 Erwartungswert und Varianz f (x) Pr[X = x] 82/460 Satz 33 (Linearitat des Erwartungswerts, einfache Version) Fur eine beliebige Zufallsvariable X und a; b 2 R gilt E[a X + b] = a E[X ] + b : Beweis: E[a X + b] = X x 2W X =a (a x + b) Pr[X = x] X x 2W X x Pr[X = x] + b = a E[X ] + b : DWT c Susanne Albers X x2WX Pr[X = x] 83/460 Satz 34 Sei X eine Zufallsvariable mit WX N0. Dann gilt E[X ] = 1 X i=1 Pr[X i] : Beweis: E[X ] = = DWT c Susanne Albers 1 X i=0 i Pr[X = i] = 1 X 1 X j =1 i=j i 1 X X i=0 j =1 Pr[X = i] = 1 X j =1 Pr[X = i] Pr[X j ] : 84/460 Denition 35 Sei X eine Zufallsvariable und A ein Ereignis mit Pr[A] > 0. Die bedingte Zufallsvariable X jA besitzt die Dichte fX jA (x) := Pr[X = x j A] = Pr["X = x\ \ A] : Pr[A] Die Denition von fX jA ist zulassig, da X x 2W X fX jA (x) = Pr["X = x\ \ A] = Pr[A] = 1 : Pr[A] Pr[A] x2 W X X Der Erwartungswert E[X jA] der Zufallsvariablen X jA berechnet sich entsprechend: E[X jA] = DWT c Susanne Albers X x2 W X x fX jA (x) : 4.2 Erwartungswert und Varianz 85/460 Satz 36 Sei X eine Zufallsvariable. Fur paarweise disjunkte Ereignisse A1 ; : : : ; An mit A1 [ : : : [An = und Pr[A1]; : : : ; Pr[An] > 0 gilt E[X ] = n X i=1 E[X jAi ] Pr[Ai ] : S Fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit 1 i=1 Ak = und Pr[A1 ], Pr[A2 ]; : : : > 0 gilt analog E[X ] = 1 X i=1 E[X jAi ] Pr[Ai ]; sofern die Erwartungswerte auf der rechten Seite alle existieren und die Summe P1 i=1 jE[X jAi ]j Pr[Ai ] konvergiert. DWT c Susanne Albers 4.2 Erwartungswert und Varianz 86/460 Beweis: E[X ] = = X x2WX n X i=1 x Pr[X = x] = Pr[Ai ] X x2WX X x2 W X x n X i=1 Pr[X = xjAi ] Pr[Ai ] x Pr[X = xjAi ] = n X i=1 Pr[Ai ] E[X jAi ]: Der Beweis fur den unendlichen Fall verlauft analog. DWT c Susanne Albers 87/460 Beispiel 37 Wir werfen eine Munze so lange, bis zum ersten Mal Kopf\ erscheint. Dies geschehe " in jedem Wurf unabhangig mit Wahrscheinlichkeit p. Wir denieren dazu die Zufallsvariable X := Anzahl der Wurfe\. Wir haben bereits gesehen, dass " Pr[X = k] = p(1 p)k 1 und damit DWT c Susanne Albers E[X ] = 1 X k=1 k p(1 p)k 1 = p 1 1 (1 (1 p))2 = p : 4.2 Erwartungswert und Varianz 88/460 Beispiel 37 Andere Berechnungsmethode: (gestutzt auf Satz 36) Deniere das Ereignis K1 := "Im ersten Wurf fallt Kopf\ : Oensichtlich gilt E[X jK1 ] = 1. Nehmen wir nun an, dass im ersten Wurf nicht Kopf\ gefallen ist. Wir starten das " Experiment neu. DWT c Susanne Albers 88/460 Beispiel 37 Sei X 0 die Anzahl der Wurfe bis zum ersten Auftreten von Kopf\ im neu gestarteten " Experiment. Wegen der Gleichheit der Experimente gilt E[X 0 ] = E[X ]. Damit schlieen wir E[X jK 1 ] = 1 + E[X 0 ] = 1 + E[X ] und erhalten mit Satz 36: E[X ] = E[X jK1 ] Pr[K1 ] + E[X jK 1 ] Pr[K 1 ] = 1 p + (1 + E[X ]) (1 p) : Daraus ergibt sich wiederum E[X ] = 1=p. DWT c Susanne Albers 88/460 4.2.2 Varianz Wir betrachten die beiden folgenden Zufallsexperimente: 1 Wir w urfeln (mit einem fairen Wurfel), bei gerader Augenzahl erhalten wir 1 Euro, bei ungerader Augenzahl mussen wir 1 Euro bezahlen. 2 Wir w urfeln (mit einem fairen Wurfel), bei 6 Augen erhalten wir 5 Euro, ansonsten mussen wir 1 Euro bezahlen. Beobachtung: In beiden Fallen ist der erwartete Gewinn = 0. Dennoch sind die Schwankungen\ im ersten Fall geringer als im zweiten. " DWT c Susanne Albers 4.2 Erwartungswert und Varianz 89/460 Eine nahe liegende Losung ware, E[jX j] zu berechnen, wobei = E[X ] sei. Dies scheitert jedoch meist an der unhandlichen\ " Betragsfunktion. Aus diesem Grund betrachtet man stattdessen E[(X )2 ], also die quadratische Abweichung vom Erwartungswert. Denition 38 Fur eine Zufallsvariable X mit = E[X ] denieren wir die Varianz Var[X ] durch Var[X ] := E[(X )2 ] = Die Groe := DWT c Susanne Albers X x2WX (x )2 Pr[X = x] : p Var[X ] heit Standardabweichung von X . 4.2 Erwartungswert und Varianz 90/460 Satz 39 Fur eine beliebige Zufallsvariable X gilt Var[X ] = E[X 2 ] E[X ]2 : Beweis: Sei := E[X ]. Nach Denition gilt Var[X ] = E[(X )2 ] = E[X 2 2 X + 2 ] X = (x2 2 x + 2 ) Pr[X = x] = x2WX X x2WX x2 Pr[X = x] = E[X 2 ] = E[X 2 ] DWT c Susanne Albers X x2WX 2 x Pr[X = x] + 2 E[X ] + 2 E[X ]2 : 4.2 Erwartungswert und Varianz X x 2W X 2 Pr[X = x] 91/460 Beispiel 40 1 Wir wurfeln (mit einem fairen Wurfel), bei gerader Augenzahl erhalten wir 1 Euro, bei ungerader Augenzahl mussen wir 1 Euro bezahlen. Es ist = 0 und Var[X ] = 2 1 12 + 1 ( 1)2 = 1 : 2 2 Wir wurfeln (mit einem fairen Wurfel), bei 6 Augen erhalten wir 5 Euro, ansonsten mussen wir 1 Euro bezahlen. Es ist 1 5 = 0 und Var[X ] = 52 + ( 1)2 = 5 : 6 DWT c Susanne Albers 6 92/460 Satz 41 Fur eine beliebige Zufallsvariable X und a; b 2 R gilt Var[a X + b] = a2 Var[X ] : DWT c Susanne Albers 93/460 Beweis: Aus der in Satz 33 gezeigten Linearitat des Erwartungswerts folgt E[Y Zusammen mit der Denition der Varianz ergibt sich damit sofort Y Var[ + b] = E[(Y + b E[Y + b])2 ] = E[(Y + b] = E[Y ] + b. E[Y ])2 ] = Var[Y ] : Weiter folgt mit Satz 39: a X ] = E[(aX )2 ] Var[ E[aX ]2 = a2 E[X 2 ] aE[X ])2 = a2 Var[X ] ; ( und daraus zusammen die Behauptung. DWT c Susanne Albers 4.2 Erwartungswert und Varianz 94/460 Der Erwartungswert und die Varianz gehoren zu den so genannten Momenten einer Zufallsvariablen: Denition 42 Fur eine Zufallsvariable X nennen wir E[X k ] das k-te Moment und E[(X das k-te zentrale Moment. E[X ])k ] Der Erwartungswert ist also identisch zum ersten Moment, wahrend die Varianz dem zweiten zentralen Moment entspricht. DWT c Susanne Albers 95/460 4.3 Mehrere Zufallsvariablen Beispiel 43 Aus einem Skatblatt mit 32 Karten ziehen wir zufallig eine Hand von zehn Karten sowie einen Skat von zwei Karten. Unter den Karten gibt es vier Buben. Die Zufallsvariable X zahlt die Anzahl der Buben in der Hand, wahrend Y die Anzahl der Buben im Skat angibt. Die Werte von X und Y hangen oensichtlich stark voneinander ab. Beispielsweise muss Y = 0 sein, wenn X = 4 gilt. Wie kann man mit mehreren Zufallsvariablen uber demselben Wahrscheinlichkeitsraum rechnen, auch wenn sie, wie im obigen Beispiel, sehr voneinander abhangig sind? Wir untersuchen Wahrscheinlichkeiten der Art Pr[X = x; Y = y] = Pr[f!; X (!) = x; Y (!) = yg] : DWT c Susanne Albers 4.3 Mehrere Zufallsvariablen 96/460 Beispiel 44 Wenn wir nur die Zufallsvariable X betrachten, so gilt fur 0 x 4 Pr[X = x] = 4 28 : 32 10 x 10 x Allgemein nennt man Zufallsvariablen mit der Dichte Pr[X = x] = b a x r x a+b r hypergeometrisch verteilt. Durch diese Dichte wird ein Experiment modelliert, bei dem r Elemente ohne Zurucklegen aus einer Grundmenge der Machtigkeit a + b mit b besonders ausgezeichneten Elementen gezogen werden. DWT c Susanne Albers 97/460 Beispiel 44 (Forts.) Die Zufallsvariable Y ist fur sich gesehen ebenfalls hypergeometrisch verteilt mit b = 4, a = 28 und r = 2. Fur X und Y zusammen gilt jedoch z.B. Pr[X = 4; Y = 1] = 0; und allgemein Pr[X = x; Y = y] = 4 28 4 x 28 (10 x) y 2 y : 32 22 10 2 x 10 x Bemerkung: Die Schreibweise Pr[X = x; Y = y] stellt eine Abkurzung von Pr["X = x ^ Y = y\ ] dar. Ein anderes Beispiel ist p Pr[X x; Y y1 ; Y = y2 ] : DWT c Susanne Albers 98/460 Die Funktion fX;Y (x; y) := Pr[X = x; Y = y] heit gemeinsame Dichte der Zufallsvariablen X und Y . Aus der gemeinsamen Dichte fX;Y kann man ableiten fX (x) = X y 2W Y fX;Y (x; y) bzw. fY (y) = X x 2W X fX;Y (x; y) : Die Funktionen fX und fY nennt man Randdichten. DWT c Susanne Albers 99/460 Die Ereignisse Y " es gilt daher = y\ bilden eine Partitionierung des Wahrscheinlichkeitsraumes, und Pr[X = x] = X y2WY Pr[X = x; Y = y] = fX (x) : Die Dichten der einzelnen Zufallsvariablen entsprechen also genau den Randdichten. Fur zwei Zufallsvariablen deniert man die gemeinsame Verteilung FX;Y (x; y) = Pr[X x; Y y] = Pr[f!; X (!) x; Y (!) yg] X X = fX;Y (x0 ; y0 ) : x0 x y0 y DWT c Susanne Albers 4.3 Mehrere Zufallsvariablen 100/460 Die Randverteilung ergibt sich gema FX (x) = sowie DWT c Susanne Albers FY (y) = X x0 x X y0 y fX (x0 ) = fY (y0 ) = X X x0 x y2WY X X y0 y x2WX fX;Y (x0 ; y) fX;Y (x; y0 ) : 101/460 4.3.1 Unabhangigkeit von Zufallsvariablen Denition 45 Die Zufallsvariablen X1 ; : : : ; Xn heien unabhangig, wenn fur alle (x1 ; : : : ; xn ) 2 WX1 : : : WXn gilt Pr[X1 = x1 ; : : : ; Xn = xn ] = Pr[X1 = x1 ] : : : Pr[Xn = xn ] : Alternativ: fX1 ;:::;Xn (x1 ; : : : ; xn ) = fX1 (x1 ) : : : fXn (xn ) : Bei unabhangigen Zufallsvariablen ist also die gemeinsame Dichte gleich dem Produkt der Randdichten. Ebenso gilt FX1 ;:::;Xn (x1 ; : : : ; xn ) = FX1 (x1 ) : : : FXn (xn ) : DWT c Susanne Albers 102/460 Satz 46 Seien X1 ; : : : ; Xn unabhangige Zufallsvariablen und S1 ; : : : ; Sn beliebige Mengen mit Si WXi . Dann sind die Ereignisse "X1 2 S1\, . . . , "Xn 2 Sn\ unabhangig. Beweis: Pr[X1 2 S1 ; : : : ; Xn 2 Sn ] X X = ::: Pr[X1 = x1 ; : : : ; Xn = xn ] x1 2S1 = Unabh. 0 =@ X xn 2Sn x 1 2S 1 X x1 2S1 ::: X x n 2S n Pr[X1 = x1 ] : : : Pr[Xn = xn ] 1 Pr[X1 = x1 ]A : : : X xn 2Sn ! Pr[Xn = xn ] = Pr[X1 2 S1 ] : : : Pr[Xn 2 Sn ] : DWT c Susanne Albers 4.3 Mehrere Zufallsvariablen 103/460 Satz 47 Seien f1 ; : : : ; fn reellwertige Funktionen (fi : R ! R fur i = 1; : : : ; n). Wenn die Zufallsvariablen X1 ; : : : ; Xn unabhangig sind, dann gilt dies auch fur f1 (X1 ); : : : ; fn (Xn ). Beweis: Sei zi 2 Wfi (Xi ) fur i = 1; : : : ; n und Si = fx; fi (x) = zi g. Pr[f1 (X1 ) = z1 ; : : : ; fn (Xn ) = zn ] = Pr[X1 2 S1 ; : : : ; Xn 2 Sn ] = Pr[X1 2 S1 ] : : : Pr[Xn 2 Sn ] = Pr[f1 (X1 ) = z1 ] : : : Pr[fn (Xn ) = zn ] : Unabh. DWT c Susanne Albers 4.3 Mehrere Zufallsvariablen 104/460 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Wurfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewurfelten Augenzahlen. Fur Z gilt z.B.: Pr[Z = 1] = Pr[;] = 0, Pr[Z = 4] = Pr[f(1; 3); (2; 2); (3; 1)g] = 363 . DWT c Susanne Albers 4.3 Mehrere Zufallsvariablen 105/460 Fur die Verteilung der Summe zweier unabhangiger Zufallsvariablen gilt der folgende Satz: Satz 49 Fur zwei unabhangige Zufallsvariablen X und Y sei Z fZ (z ) = DWT c Susanne Albers X x2 W X := X + Y . Es gilt fX (x) fY (z x) : 106/460 Beweis: Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass fZ (z ) = Pr[Z = z ] = = = X x 2W X X x 2W X X x 2W X Pr[X + Y = z j X = x] Pr[X = x] Pr[Y = z x] Pr[X = x] fX (x) fY (z x) : P Den Ausdruck x2WX fX (x) fY (z x) aus Satz 49 nennt man in Analogie zu den entsprechenden Begrien bei Potenzreihen auch Faltung oder Konvolution der Dichten fX und fY . DWT c Susanne Albers 107/460 Beispiel (Forts.) Berechne die Dichte von Z =X +Y: Pr[Z = z ] = = X x2WX Pr[X = x] Pr[Y = z x] 6;z 1g 1 Pr[Y = z x] = minfX 1: 6 36 x=1 x=maxf1;z 6g 6 X Fur 2 z 7 erhalten wir Pr[Z = z ] = Und fur 7 < z 12: DWT c Susanne Albers z 1 X 1 = z 1: 36 36 i=1 Pr[Z = z ] = 1336 z : 4.3 Mehrere Zufallsvariablen 108/460 4.3.3 Momente zusammengesetzter Zufallsvariablen Satz 50 (Linearitat des Erwartungswerts) Fur Zufallsvariablen X1 ; : : : ; Xn und X := a1 X1 + + an Xn mit a1 ; : : : ; an 2 R gilt E[X ] = a1 E[X1 ] + + an E[Xn ] : Beweis: E[X ] = = = DWT c Susanne Albers X ! 2 a1 a1 X1 (! ) + : : : + an Xn (! )) Pr[! ] ( X ! 2 X1 (! ) Pr[! ] ! + a1 E[X1 ] + : : : + an E[Xn ] : + an X ! 2 Xn (! ) Pr[! ] ! 109/460 Beispiel 51 n betrunkene Seeleute torkeln nach dem Landgang in ihre Kojen. Sie haben vollig die Orientierung verloren, weshalb wir annehmen, dass jede Zuordnung der Seeleute zu den n Betten gleich wahrscheinlich ist (genau ein Seemann pro Bett). Wie viele Seeleute liegen im Mittel im richtigen Bett? Die Anzahl der Seeleute im richtigen Bett zahlen wir mit der Zufallsvariablen X , die als Summe der Zufallsvariablen X1 ; : : : ; Xn dargestellt wird, wobei ( Xi := Oenbar gilt X DWT c Susanne Albers 1 falls Seemann i in seinem Bett liegt, 0 sonst. := X1 + + Xn . 4.3 Mehrere Zufallsvariablen 110/460 Beispiel 51 Fur die Variablen Xi erhalten wir Pr[Xi = 1] = n1 , da jedes Bett von Seemann i mit gleicher Wahrscheinlichkeit aufgesucht wird. Daraus folgt 1 und somit E[Xi ] = 0 Pr[Xi = 0] + 1 Pr[Xi = 1] = ; n E[X ] = n X i=1 E[Xi ] = n X i=1 1 = 1: n Im Mittel hat also nur ein Seemann sein eigenes Bett aufgesucht. DWT c Susanne Albers 110/460 Satz 52 (Multiplikativitat des Erwartungswerts) Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn gilt E[X1 Xn ] = E[X1 ] E[Xn ] : Beweis: Wir beweisen den Fall n = 2. Der allgemeine Fall ist analog. E[X Y ] = X X xy Pr[X = x; Y = y] x2WX y2WY Unabh: X X = = x2WX y2WY X x2WX x Pr[X = x] = E[X ] E[Y ] : DWT c Susanne Albers xy Pr[X = x] Pr[Y = y] X y 2W Y 4.3 Mehrere Zufallsvariablen y Pr[Y = y] 111/460 Dass fur die Gultigkeit von Satz 52 die Unabhangigkeit der Zufallsvariablen wirklich notwendig ist, sieht man beispielsweise am Fall Y = X fur eine Zufallsvariable mit einer von Null verschiedenen Varianz. Dann gilt E[X Y ] = E[X 2 ] 6= (E[X ])2 = E[X ] E[Y ] : DWT c Susanne Albers 112/460 Denition 53 Zu einem Ereignis A heit die Zufallsvariable ( IA := 1 falls A eintritt; 0 sonst Indikatorvariable des Ereignisses A. Beobachtung: Fur die Indikatorvariable IA gilt nach Denition E[IA ] = 1 Pr[A] + 0 Pr[A] = Pr[A] : Ebenso gilt E[IA : : : IAn ] = Pr[A1 \ : : : \ An ]; 1 da das Produkt von Indikatorvariablen genau dann gleich 1 ist, wenn alle entsprechenden Ereignisse eintreten. DWT c Susanne Albers 4.3 Mehrere Zufallsvariablen 113/460 Beispiel (Forts.) Wir betrachten wieder das Beispiel der total betrunkenen Matrosen. Sei Ai das Ereignis, dass der i-te Seemann im richtigen Bett liegt. Mit der Notation der Indikatorvariablen sei Xi = IAi . Dann gilt fur beliebige i; j 2 f1; : : : ; ng, i 6= j : E[Xi Xj ] = E[IAi IAj ] = Pr[Ai \ Aj ] = sowie DWT c Susanne Albers 1 n(n 1) ; E[Xi2 ] = 02 Pr[Ai ] + 12 Pr[Ai ] = Pr[Ai ] = 1=n: 114/460 Beispiel (Forts.) Daraus folgt wegen der Linearitat des Erwartungswerts fur X E[X 2 ] = 2 3 n n X X X E 4 Xi2 + Xi Xj 5 i=1 = X1 + + Xn : i=1 j 6=i = n n1 + n(n 1) n(n1 1) = 2 : Fur die Varianz erhalten wir somit den Wert Var[X ] = E[X 2 ] E[X ]2 = 2 1 = 1: DWT c Susanne Albers 4.3 Mehrere Zufallsvariablen 115/460 Einfacher Beweis fur Satz 9 mit Hilfe von Indikatorvariablen: Zur Erinnerung: Satz 9 (Siebformel, Prinzip der Inklusion/Exklusion) Fur Ereignisse A1 ; : : : ; An (n 2) gilt: " Pr n [ i=1 # Ai = n X i=1 + ( 1)l +( DWT c Susanne Albers Pr[Ai ] 1 X 1i1 <i2 n X Pr[Ai \ Ai ] + : : : 1 2 Pr[Ai \ : : : \ Ail ] + : : : 1 1i1 <:::<il n n 1 1) Pr[A1 \ : : : \ An ] : 116/460 Beweis: Zur Erinnerung: Zu Ereignissen A1 ; : : : ; An wollen wir die Wahrscheinlichkeit Pr[B ] des Ereignisses B := A1 [ : : : [ An ermitteln. Wir betrachten die Indikatorvariablen Ii := IAi der Ereignisse A1 ; : : : ; An und die Indikatorvariable I des Ereignisses B . Qn B Das Produkt i=1 (1 Ii ) ist genau dann gleich 1, wenn I1 = : : : = In = 0, d.h. Q wenn B nicht eintritt. Somit gilt IB = ni=1 (1 Ii ) und wir erhalten: IB = 1 X 1in Ii + X 1i1 <i2 n Ii1 Ii2 + : : : + ( 1)n I1 : : : In ; also IB = 1 IB X = Ii 1in DWT c Susanne Albers X 1i1 <i2 n Ii1 Ii2 + : : : + ( 1)n 1 I1 : : : In : 4.3 Mehrere Zufallsvariablen 117/460 Beweis: Wegen der Eigenschaften von Indikatorvariablen gilt Pr[B ] = 1 Pr[B ] = 1 E[IB ]: Mit Hilfe von Satz 50 verteilen\ wir den Erwartungswert auf die einzelnen Produkte " von Indikatorvariablen. Wenn wir nun E[Ii ] durch Pr[Ai ] und allgemein E[Ii1 : : : Iik ] durch Pr[Ai1 \ : : : \ Aik ] ersetzen, haben wir Satz 9 (dieses Mal vollstandig) bewiesen. DWT c Susanne Albers 117/460 Satz 54 Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn und X := X1 + : : : + Xn gilt Var[X ] = Var[X1 ] + : : : + Var[Xn ] : Beweis: Wir betrachten nur den Fall n = 2 mit den Zufallsvariablen X und Y . E[(X + Y )2 ] = E[X 2 + 2XY + Y 2 ] = E[X 2 ] + 2E[X ]E[Y ] + E[Y 2 ] E[X + Y ]2 = (E[X ] + E[Y ])2 = E[X ]2 + 2E[X ]E[Y ] + E[Y ]2 Wir ziehen die zweite Gleichung von der ersten ab und erhalten E[(X + Y )2 ] E[X + Y ]2 = E[X 2 ] E[X ]2 + E[Y 2 ] Mit Hilfe von Satz 39 folgt die Behauptung. DWT c Susanne Albers E[Y ]2 : 118/460 Fur abhangige Zufallsvariablen X1 ; : : : ; Xn gilt Satz 54 im Allgemeinen nicht. Als Beispiel funktioniert wiederum der Fall X = Y : Var[X + Y ] = 0 6= 2 Var[X ] = Var[X ] + Var[Y ] : DWT c Susanne Albers 4.3 Mehrere Zufallsvariablen 119/460 5. Wichtige diskrete Verteilungen Wir diskutieren nun einige wichtige diskrete Verteilungen. Bei diesen Verteilungen handelt es sich um Funktionen, die von gewissen Parametern abhangen. Eigentlich betrachten wir also immer eine ganze Familie von ahnlichen Verteilungen. DWT c Susanne Albers 120/460 5.1 Bernoulli-Verteilung Eine Zufallsvariable X mit WX = f0; 1g und der Dichte ( fX (x) = p 1 fur x = 1; p fur x = 0: heit Bernoulli-verteilt. Den Parameter p nennen wir Erfolgswahrscheinlichkeit. Eine solche Verteilung erhalt man z.B. bei einer einzelnen Indikatorvariablen. Es gilt mit q := 1 p E[X ] = p und Var[X ] = pq; wegen E[X 2 ] = p und Var[X ] = E[X 2 ] E[X ]2 = p p2 . DWT c Susanne Albers 121/460 Der Name der Bernoulli-Verteilung geht zuruck auf den Schweizer Mathematiker Jakob Bernoulli (1654{1705). Wie viele andere Mathematiker seiner Zeit hatte auch Bernoulli nach dem Wunsch seines Vaters ursprunglich Theologe werden sollen. Sein Werk ars conjectandi stellt eine der ersten Arbeiten dar, die sich mit dem Teil der Mathematik beschaftigen, den wir heute als Wahrscheinlichkeitstheorie bezeichnen. DWT c Susanne Albers 5.1 Bernoulli-Verteilung 122/460 5.2 Binomialverteilung Eine Bernoulli-verteilte Zufallsvariable entspricht der Verteilung einer Indikatorvariablen. Haug betrachtet man jedoch Summen von Indikatorvariablen. Denition 55 Sei X := X1 + : : : + Xn als Summe von n unabhangigen, Bernoulli-verteilten Zufallsvariablen mit gleicher Erfolgswahrscheinlichkeit p deniert. Dann heit X binomialverteilt mit den Parametern n und p. In Zeichen schreiben wir X Bin(n; p) : DWT c Susanne Albers 123/460 Es gilt WX = f0; : : : ; ng. Die Binomialverteilung besitzt die Dichte fX (x) := b(x; n; p) = n x n pq x x mit q := 1 p. Da die Binomialverteilung eine sehr wichtige Rolle spielt, fuhren wir fur die Dichtefunktion die Abkurzung b(x; n; p) ein. Mit den Satzen uber Erwartungswert und Varianz von Summen unabhangiger Zufallsvariablen erhalten wir sofort E[X ] = np und Var[X ] = npq : DWT c Susanne Albers 5.2 Binomialverteilung 124/460 0,4 b(x; 0,4 10; 0:1) 0,3 0,3 0,2 0,2 0,1 0,1 0,0 0 1 2 3 4 5 0,4 6 b(x; 7 8 9 10 0,0 0,3 0,2 0,2 0,1 0,1 0 1 2 3 4 5 6 7 8 0 1 0,4 10; 0:7) 0,3 0,0 b(x; 9 10 0,0 2 b(x; 0 1 2 10; 0:4) 3 4 5 6 7 8 9 10 5 6 7 8 9 10 10; 0:9) 3 4 Dichte der Binomialverteilung DWT c Susanne Albers 5.2 Binomialverteilung 125/460 Satz 56 Wenn X Bin(nx; p) und Y Bin(ny ; p) unabhangig sind, dann gilt fur Z := X + Y , dass Z Bin(nx + ny ; p). Beweis: Die Aussage folgt sofort, wenn man gema der Denition der Binomialverteilung X und Y als Summen von Indikatorvariablen darstellt. Z ist dann oensichtlich wieder eine Summe von unabhangigen Indikatorvariablen. DWT c Susanne Albers 126/460 5.3 Geometrische Verteilung Man betrachte ein Experiment, das so lange wiederholt wird, bis Erfolg eintritt. Gelingt ein einzelner Versuch mit Wahrscheinlichkeit p, so ist die Anzahl der Versuche bis zum Erfolg geometrisch verteilt. Denition 57 Eine geometrisch verteilte Zufallsvariable X mit Parameter (Erfolgswahrscheinlichkeit) p 2 (0; 1] und q := 1 p hat die Dichte fX (i) = pqi 1 fur i 2 N : Fur Erwartungswert und Varianz geometrisch verteilter Zufallsvariablen gilt E[X ] = DWT c Susanne Albers 1 und Var[X ] = q : p2 p 5.3 Geometrische Verteilung 127/460 Es gilt E[X ] = Ferner ist 1 X i=1 i pqi 1 E[X 2 ] = 1 X i=1 =p 1 X i=1 = p p23 DWT c Susanne Albers i=1 i qi 1 = p 1 1 (1 q)2 = p : i2 pqi 1 =p und damit 1 X i(i + 1) qi 1 1 = 2 p; p2 p2 1 X i=1 i qi 1 ! Var[X ] = pq2 : 128/460 0,8 p = 0;8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0,0 1 2 3 4 5 6 0,8 7 p 8 9 10 = 0;4 0,0 0,6 0,4 0,4 0,2 0,2 1 2 3 4 5 6 7 8 1 2 3 4 5 6 0,8 0,6 0,0 p 9 10 0,0 7 p 1 2 3 4 5 6 7 = 0;6 8 9 10 9 10 = 0;2 8 Dichte der geometrischen Verteilung DWT c Susanne Albers 5.3 Geometrische Verteilung 129/460 Sei X wieder geometrisch verteilt mit Erfolgswahrscheinlichkeit p. Dann ist Pr[X = k] die Wahrscheinlichkeit, dass wir bei einem binaren Experiment mit Erfolgswahrscheinlichkeit p genau in der k-ten unabhangigen Wiederholung das erste Mal erfolgreich sind. Wie gro ist die Wahrscheinlichkeit Pr[X > y + x j X > x]? Da bei den ersten x Versuchen kein Erfolg eintrat, stellen wir uns vor, dass das eigentliche\ Experiment erst ab dem (x + 1)-ten Versuch beginnt. Die Zeit bis zum " ersten Erfolg bei diesem neuen Experiment nennen wir X 0 . Damit X > y + x gilt, muss X 0 > y gelten. Es ist intuitiv, dass X 0 wieder geometrisch verteilt ist mit Erfolgswahrscheinlichkeit p, dass also fur x; y 2 N gilt: Pr[X > y + x j X > x] = Pr[X 0 > y]: DWT c Susanne Albers (6) 130/460 Formal gilt Pr[X > x] = 1 X (1 p)i 1 p = (1 p)x p i=x+1 1 X i=0 (1 p)i = (1 p)x p 1 (11 p) = (1 p)x ; sowie > y + x; X > x] Pr[X > y + x j X > x] = Pr[X Pr[ X > x] X > y + x] = Pr[Pr[ X > x] = (1 p)y+x (1 p) x = (1 p)y = Pr[X > y] : DWT c Susanne Albers 5.3 Geometrische Verteilung 131/460 Diese Eigenschaft nennt man Gedachtnislosigkeit, da eine geometrisch verteilte Zufallsvariable gewissermaen vergisst, dass sie schon x Misserfolge hinter sich hat und sich deshalb zum Zeitpunkt y + x genauso verhalt wie ursprunglich zur Zeit y . DWT c Susanne Albers 132/460 Warten auf den n-ten Erfolg. Wir betrachten n unabhangige Zufallsvariablen X1 ; : : : ; Xn , die jeweils geometrisch verteilt sind mit Parameter p, und bestimmen die Dichte der Zufallsvariablen Z := X1 + + Xn . Damit bezeichnet Z also die Anzahl der Versuche bis zum n-ten erfolgreichen Experiment (einschlielich). Falls Z = z ist, so werden also genau n erfolgreiche und z n nicht erfolgreiche Experimente durchgefuhrt. Dafur gibt es genau nz 11 Moglichkeiten, von denen jede mit Wahrscheinlichkeit pn (1 p)z n eintritt. Es gilt also z 1 fZ (z ) = n 1 pn(1 p)z n : Die Zufallsvariable Z nennt man negativ binomialverteilt mit Ordnung n. DWT c Susanne Albers 5.3 Geometrische Verteilung 133/460 Das Coupon-Collector-Problem In manchen Branchen legen Firmen den Verpackungen ihrer Produkte oft kleine Bilder oder andere Gegenstande bei, um den Kaufer zum Sammeln anzuregen. Wenn es insgesamt n verschiedene solche Beilagen gibt, wie viele Packungen muss man im Mittel erwerben, bis man eine vollstandige Sammlung besitzt? Hierbei nehmen wir an, dass bei jedem Kauf jede Beilage mit gleicher Wahrscheinlichkeit auftritt. Bezeichne X die Anzahl der zu tatigenden Kaufe und Phase i die Schritte vom Erwerb der (i 1)-ten Beilage (ausschlielich) bis zum Erwerb der i-ten Beilage (einschlielich). DWT c Susanne Albers 5.3 Geometrische Verteilung 134/460 Sei etwa n = 4, und seien die Beilagen mit den Zahlen 1; 2; 3; 4 identiziert. Ein Experiment ist z.B.: 2 ; |{z} 2; 1 ; 2| ;{z2; 3}; 1| ; 3; 2{z; 3; 1; 4} |{z} 1 2 3 4 : Beobachtung: Phase i endet genau dann, wenn wir eine der n i + 1 Beilagen erhalten, die wir noch nicht besitzen. Somit ist Xi geometrisch verteilt mit Parameter p = n ni+1 und es gilt E[Xi ] = n ni+1 . DWT c Susanne Albers 135/460 Damit folgt aber sofort E[X ] = = n X i=1 n X E[Xi ] n n i+1 i=1 =n n X i=1 1 =nH ; n i P wobei Hn := ni=1 1i die n-te harmonische Zahl bezeichnet. Da Hn = ln n + O(1), folgt E[X ] = n ln n + O(n). DWT c Susanne Albers 5.3 Geometrische Verteilung 136/460 5.4 Poisson-Verteilung Die Poisson-Verteilung kann verwendet werden, um die Anzahl von Ereignissen zu modellieren, welche mit konstanter Rate und unabhangig voneinander in einem Zeitintervall auftreten. Eine Poisson-verteilte Zufallsvariable X mit dem Parameter 0 hat den Wertebereich WX = N0 und besitzt die Dichte fX (i) = e i fur i 2 N0 : i! fX ist eine zulassige Dichte, da 1 X i=0 DWT c Susanne Albers 1 X e i i! i=0 = e e = 1 : fX (i) = 137/460 Fur den Erwartungswert erhalten wir E[X ] = 1 X i=0 = e = e = e DWT c Susanne Albers i e i i! 1 X i 1 (i 1)! i=1 1 i X i! i=0 e = : 5.4 Poisson-Verteilung 138/460 Da E[X (X 1)] = 1 X i=0 i(i 1) = 2 e = 2 e = 2 e 1 X e i i! i 2 (i 2)! i=2 1 i X i! i=0 e = 2 und E[X (X 1)] + E[X ] E[X ]2 = E[X 2 ] E[X ] + E[X ] E[X ]2 = Var[X ] ; DWT c Susanne Albers 139/460 folgt Var[X ] = E[X (X 1)] + E[X ] E[X ]2 = 2 + 2 = : (7) Dafur, dass eine Zufallsvariable X Poisson-verteilt mit Parameter ist, schreiben wir auch X Po(). DWT c Susanne Albers 5.4 Poisson-Verteilung 140/460 Po(0;5) 0,6 0,5 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0,0 0 1 2 3 4 5 6 7 8 9 10 Po(2) 0,6 0,0 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0 2 4 6 8 0 1 2 3 4 5 6 10 0,0 7 8 9 10 9 10 Po(5) 0,6 0,5 0,0 Po(1) 0,6 0 1 2 3 4 5 6 7 8 Dichte der Poisson-Verteilung DWT c Susanne Albers 141/460 5.4.1 Poisson-Verteilung als Grenzwert der Binomialverteilung Wir betrachten eine Folge von binomialverteilten Zufallsvariablen Xn mit Xn Bin(n; pn ), wobei pn = =n. Fur ein beliebiges k mit 0 k n ist die Wahrscheinlichkeit, dass Xn den Wert k annimmt, gleich n pkn (1 k k k = (n kp!n ) nnk k nk = k! nk 1 b(k; n; pn ) = DWT c Susanne Albers pn ) n k (1 pn) k (1 pn)n n k 1 n n : 142/460 Wir betrachten nun n ! 1 und erinnern uns, dass k lim n = 1; n!1 nk lim (1 n ) k = 1; und n!1 n lim (1 ) = e : n!1 n Damit folgt k n k (1 p )n k = e : lim b ( k ; n; p ) = lim p n n n n!1 n!1 k k! DWT c Susanne Albers 5.4 Poisson-Verteilung 143/460 Die Wahrscheinlichkeit b(k; n; pn ) konvergiert also fur n ! 1 gegen die Wahrscheinlichkeit, dass eine Poisson-verteilte Zufallsvariable mit Parameter den Wert k annimmt. Insgesamt folgt somit, dass die Verteilung einer Zufallsvariablen X Bin(n; =n) sich fur n ! 1 der Poisson-Verteilung Po() annahert. DWT c Susanne Albers 144/460 Vergleich von Binomial- und Poisson-Verteilung DWT c Susanne Albers 5.4 Poisson-Verteilung 145/460 Ist also n im Vergleich zu hinreichend gro, so kann man die Poisson-Verteilung als Approximation der Binomialverteilung verwenden. Diese Tatsache wird manchmal auch als Gesetz seltener Ereignisse bezeichnet, da die Wahrscheinlichkeit eines einzelnen Treers pn = =n relativ klein sein muss, wenn die Approximation gute Ergebnisse liefern soll. DWT c Susanne Albers 146/460 Die folgenden Voraussetzungen mussen erfullt sein, damit die Annahme der Poisson-Verteilung gerechtfertigt ist: Die Ereignisse treten nie zur gleichen Zeit auf. Die Wahrscheinlichkeit, dass ein Ereignis in einem (kleinen) Zeitintervall auftritt, ist proportional zur Lange des Intervalls. Die Anzahl der Ereignisse in einem festen Zeitintervall hangt nur von dessen Lange ab, nicht aber von der Lage auf der Zeitachse. Wenn man zwei disjunkte Zeitintervalle betrachtet, so sind die Anzahlen der Ereignisse in diesen Zeitraumen voneinander unabhangig. DWT c Susanne Albers 5.4 Poisson-Verteilung 147/460 Beispiel 58 Wir wollen wissen, wie oft eine bestimmte Gegend im Durchschnitt von einer Naturkatastrophe (z.B. Vulkanausbruch) getroen wird. Aus Statistiken entnehmen wir, dass so ein Ereignis im Mittel 10 4 -mal pro Jahr auftritt. Wir interessieren uns nun fur die Wahrscheinlichkeit, dass die Region in einem Jahr mehr als einmal von einem solchen Ungluck heimgesucht wird. Die Voraussetzungen scheinen erfullt zu sein, die Anzahl X der Katastrophen durch eine Poisson-Verteilung mit Parameter = 10 4 zu modellieren. Damit gilt Pr[X 2] = 1 Pr[X = 0] Pr[X = 1] = 1 e e 1 0;999900005 0;000099990 = 5 10 9: DWT c Susanne Albers 5.4 Poisson-Verteilung 148/460 Summe von Poisson-verteilten Zufallsvariablen Satz 59 Sind X und Y unabhangige Zufallsvariablen mit X Z := X + Y DWT c Susanne Albers Po() und Y Po(), dann gilt Po( + ) : 5.4 Poisson-Verteilung 149/460 Beweis: fZ (z ) = 1 X x=0 fX (x) fY (z x) = z (+) ( + ) = e z! = z X z X e x=0 x!(z x=0 z X z! z x x! ez z x ( x)! x x)! + 1 e (+) ( + )z px (1 z ! x=0 x z x + p)z x ; wobei p := + . Da die Summe gleich 1 ist, folgt 1 fZ (z ) = e (+) ( + )z : z! DWT c Susanne Albers 150/460 Erlauterungen und Beispiele zur Poisson-Verteilung In der Wikipedia nden sich ein paar weitere Details und Beispiele. Eine Anwendung der Poisson-Verteilung auf die Fuball-Bundesliga wird in einem Artikel prasentiert, der im Spektrum der Wissenschaft, Heft Juni 2010, erschienen ist. DWT c Susanne Albers 5.4 Poisson-Verteilung 151/460 6. Abschatzen von Wahrscheinlichkeiten 6.1 Die Ungleichungen von Markov und Chebyshev Satz 60 (Markov-Ungleichung) Sei X eine Zufallsvariable, die nur nicht-negative Werte annimmt. Dann gilt fur alle t 2 R mit t > 0, dass Aquivalent dazu: DWT c Susanne Albers Pr[X t] E[tX ] : Pr[X t E[X ]] 1=t : 152/460 Beweis: t Pr[X t] = t X x2WX ; xt X x 2W X ; x t X x 2W X Pr[X = x] x Pr[X = x] x Pr[X = x] = E[X ] : DWT c Susanne Albers 153/460 Alternativer Beweis: Es gilt E[X ] = E[X jX < t] Pr[X < t] + E[X jX t] Pr[X t] : Wegen E[X jX < t] Pr[X < t] 0 und E[X jX t] t folgt sofort E[X ] t Pr[X t] : DWT c Susanne Albers 6.1 Die Ungleichungen von Markov und Chebyshev 154/460 Die Markov-Ungleichung ist nach Andrey Andreyevich Markov (1856{1922) benannt, der an der Universitat von St. Petersburg bei Chebyshev studierte und spater dort arbeitete. Neben seiner mathematischen Tatigkeit el Markov durch heftige Proteste gegen das Zaren-Regime auf, und nur sein Status als vermeintlich harmloser Akademiker schutzte ihn vor Repressalien durch die Behorden. Im Jahr 1913 organisierte er parallel zum dreihundertjahrigen Geburtstag der Zarenfamilie Romanov eine Feier zum zweihundertjahrigen Geburtstag des Gesetzes der groen Zahlen (s.u.). DWT c Susanne Albers 155/460 Die folgende Abschatzung ist nach Pavnuty Lvovich Chebyshev (1821{1894) benannt, der ebenfalls an der Staatl. Universitat in St. Petersburg wirkte. Satz 61 (Chebyshev-Ungleichung) Sei X eine Zufallsvariable, und sei t 2 R mit t > 0. Dann gilt X] Pr[jX E[X ]j t] Var[ : 2 t Aquivalent dazu: DWT c Susanne Albers p Pr[jX E[X ]j t Var[X ]] 1=t2 : 6.1 Die Ungleichungen von Markov und Chebyshev 156/460 Beweis: Wir stellen fest, dass Pr[jX E[X ]j t] = Pr[(X E[X ])2 t2 ] : Setze Y := (X E[X ])2 : Dann gilt E[Y ] = Var[X ], und damit mit der Markov-Ungleichung: X] Pr[jX E[X ]j t] = Pr[Y t2 ] Et[Y2 ] = Var[ : 2 t DWT c Susanne Albers 157/460 Beispiel 62 Wir werfen 1000-mal eine faire Munze und ermitteln die Anzahl X der Wurfe, in denen Kopf\ fallt. " X ist binomialverteilt mit X Bin(1000; p = 12 ), also gilt 1 2 1 4 E[X ] = n = 500 und Var[X ] = n = 250: Wie gro ist die Wahrscheinlichkeit, dass mehr als 550-mal Kopf\ fallt? " DWT c Susanne Albers 158/460 Beispiel 62 Chebyshev-Ungleichung: Pr[X 550] Pr[jX 500j 50] 250 502 = 0;1 : Setze nun n = 10000 und betrachte wieder eine maximal 10%-ige Abweichung vom Erwartungswert: E[X ] = 5000 und Var[X ] = 2500, und damit Pr[X 5500] Pr[jX 5000j 500] 2500 5002 = 0;01 : DWT c Susanne Albers 6.1 Die Ungleichungen von Markov und Chebyshev 158/460 6.2 Gesetz der groen Zahlen Wir haben diskutiert, wie Wahrscheinlichkeiten als Grenzwerte von relativen Haugkeiten aufgefasst werden konnen. Satz 63 (Gesetz der groen Zahlen) Gegeben sei eine Zufallsvariable X . Ferner seien "; > 0 beliebig aber fest. Dann gilt X] fur alle n Var[ "2 : Sind X1 ; : : : ; Xn unabhangige Zufallsvariablen mit derselben Verteilung wie X und setzt man X + : : : + Xn Z := 1 ; so gilt DWT c Susanne Albers n Pr[jZ E[X ]j ] ": 159/460 Beweis: Fur Z gilt 1 1 E[Z ] = (E[X1 ] + : : : + E[Xn ]) = n E[X ] = E[X ]; n n sowie Var[Z ] = n12 (Var[X1 ] + : : : + Var[Xn ]) = n12 n Var[X ] = Var[nX ] : Mit der Chebyshev-Ungleichung erhalten wir Z ] Var[X ] Pr[jZ E[X ]j ] = Pr[jZ E[Z ]j ] Var[ = n2 "; 2 nach Wahl von n. DWT c Susanne Albers 160/460 Wahrscheinlichkeit und relative Haugkeit. Sei X eine Indikatorvariable fur ein Ereignis A, Pr[A] = p. Somit ist X Bernoulli-verteilt mit E[X ] = p. Z = n1 (X1 + : : : + Xn ) gibt die relative Haugkeit an, mit der A bei n Wiederholungen des Versuchs eintritt, denn Z= Anzahl der Versuche, bei denen A eingetreten ist : Anzahl aller Versuche Mit Hilfe des obigen Gesetzes der groen Zahlen folgt Pr[jZ pj ] "; fur genugend groes n. Also nahert sich die relative Haugkeit von A bei hinreichend vielen Wiederholungen des Experiments mit beliebiger Sicherheit beliebig nahe an die wahre\ Wahrscheinlichkeit p an. " DWT c Susanne Albers 6.2 Gesetz der groen Zahlen 161/460 Die obige Variante eines Gesetzes der groen Zahlen geht auf Jakob Bernoulli zuruck, der den Satz in seinem Werk ars conjectandi zeigte. Es soll betont werden, dass das Gesetz der groen Zahlen die P relative Abweichung j 1 Xi pj i n und nicht die absolute Abweichung j P i Xi npj abschatzt! DWT c Susanne Albers 6.2 Gesetz der groen Zahlen 162/460 6.3 Cherno-Schranken 6.3.1 Cherno-Schranken fur Summen von 0{1{Zufallsvariablen Die hier betrachtete Art von Schranken ist nach Herman Cherno ( 1923) benannt. Sie nden in der komplexitatstheoretischen Analyse von Algorithmen eine sehr hauge Verwendung. Satz 64 Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte Zufallsvariablen mit Pr[P Xi = 1] = pi P und Pr[Xi = 0] = 1 pi . Dann gilt fur X := ni=1 Xi und := E[X ] = ni=1 pi , sowie jedes > 0, dass Pr[X (1 + )] DWT c Susanne Albers e (1 + )1+ : 163/460 Beweis: Fur t > 0 gilt Pr[X (1 + )] = Pr[etX et(1+) ] : Mit der Markov-Ungleichung folgt [etX ] : Pr[X (1 + )] = Pr[etX et(1+) ] Et(1+ ) e Wegen der Unabhangigkeit der Zufallsvariablen X1 ; : : : ; Xn gilt " E[etX ] = E exp n X i=1 Weiter ist fur i 2 f1; : : : ; ng: E[etXi ] = et1 pi + et0 (1 DWT c Susanne Albers !# tXi " =E n Y i=1 # etXi = n Y i=1 E[etXi ]: pi ) = et pi + 1 pi = 1 + pi (et 1) ; 6.3 Cherno-Schranken 164/460 Beweis (Forts.): und damit Pr[X (1 + )] = Qn t i=1 (1 + pi (e et(1+) Qn t i=1 exp(pi (e et(1+) Pn exp( i=1 pi (et et(1+) 1)) 1)) 1)) = e(et 1) et(1+) =: f (t) : Wir wahlen nun t so, dass f (t) minimiert wird, namlich t = ln(1 + ) : Damit wird DWT c Susanne Albers e(et 1) e f (t) = t(1+) = : e (1 + )(1+) 164/460 Beispiel 65 Wir betrachten wieder das Beispiel, dass wir eine faire Munze n-mal werfen und abschatzen wollen, mit welcher Wahrscheinlichkeit Kopf\ " n 2 (1 + 10%) oder ofter fallt. n 1000 10000 n DWT c Susanne Albers Chebyshev 0;1 0;01 1 4 n (0;1 12 n)2 Cherno 0;0889 0;308 10 e0;1 (1+0;1)1+0;1 10 1n 2 165/460 Satz 66 Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte Zufallsvariablen mit Pr[P Xi = 1] = pi Pn und Pr[Xi = 0] = 1 pi . Dann gilt fur X := i=1 Xi und := E[X ] = ni=1 pi , sowie jedes 0 < < 1, dass e Pr[X (1 )] (1 )1 : Beweis: Analog zum Beweis von Satz 64. Bemerkung: Abschatzungen, wie sie in Satz 64 und Satz 66 angegeben sind, nennt man auch tail bounds, da sie Schranken fur die tails, also die vom Erwartungswert weit entfernten Bereiche angeben. Man spricht hierbei vom upper tail (vergleiche Satz 64) und vom lower tail (vergleiche Satz 66). Die Cherno-Schranken hangen exponentiell von ab! DWT c Susanne Albers 6.3 Cherno-Schranken 166/460 Lemma 67 Fur 0 < 1 gilt (1 )1 e +2 =2 und (1 + )1+ e+ =3 : Beweis: Wir betrachten 2 1 2 f (x) = (1 x) ln(1 x) und g(x) = x + x2 : Es gilt fur 0 x < 1: sowie g0 (x) = x 1 ln(1 x) 1 = f 0 (x) f (0) = 0 = g(0) ; also im angegebenen Intervall f (x) g (x). Die Herleitung der zweiten Ungleichung erfolgt analog. DWT c Susanne Albers 167/460 Korollar 68 Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte Zufallsvariablen mit Pr[P Xi = 1] = pi und Pr[Xi = P 0] = 1 pi . Dann gelten folgende Ungleichungen fur X := ni=1 Xi und := E[X ] = ni=1 pi : 2 1 Pr[X (1 + )] e =3 fur alle 0 < 1, 2 2 Pr[X (1 )] e =2 fur alle 0 < 1, 3 4 5 Pr[jX j ] 2e =3 fur alle 0 < 1, (1+) Pr[X (1 + )] 1+e und Pr[X t] 2 t fur t 2e. DWT c Susanne Albers 2 168/460 Beweis: 1 und 2 folgen direkt aus Satz 64 bzw. 66 und Lemma 67. Aus 1 und 2 zusammen folgt 3. Die Abschatzung 4 erhalten wir direkt aus Satz 64, da fur den Zahler gilt e e(1+) : 5 folgt aus 4, indem man t = (1 + ) setzt, t 2e: e 1+ DWT c Susanne Albers (1+) e t= t 6.3 Cherno-Schranken t 12 : 169/460 Beispiel 69 Wir betrachten wieder balls into bins und werfen n Balle unabhangig und gleichverteilt in n Korbe. Sei Xi := Anzahl der Balle im i-ten Korb fur i = 1; : : : ; n, sowie X := max1in Xi . Fur die Analyse von Xi (i 2 f1; : : : ; ng beliebig) verwenden wir Aussage 5 von Korollar 68, mit p1 = : : : = pn = n1 , = 1 und t = 2 log n. Es folgt Pr[Xi 2 log n] 1=n2 : Daraus ergibt sich Pr[ X 2 log n] = Pr[X1 2 log n _ : : : _ Xn 2 log n] n 2 n 1 Es gilt also mit Wahrscheinlichkeit 1 DWT c Susanne Albers = 1 n : 1=n, dass X < 2 log n ist. 6.3 Cherno-Schranken 170/460 Literatur: Torben Hagerup, Christine Rub: A guided tour of Cherno bounds Inf. Process. Lett. 33, pp. 305{308 (1990) DWT c Susanne Albers 171/460 7. Erzeugende Funktionen 7.1 Einfuhrung Denition 70 Fur eine Zufallsvariable X mit WX Funktion deniert durch GX (s) := N0 ist die (wahrscheinlichkeits-)erzeugende 1 X k=0 Pr[X = k] sk = E[sX ] : Die obige Denition gilt fur allgemeine s 2 R, wir werden uns aber auf s 2 [ konzentrieren. 1; 1] Eine wahrscheinlichkeitserzeugende Funktion ist also die (gewohnliche) erzeugende Funktion der Folge (fi )i2N0 mit fi := Pr[X = i]. DWT c Susanne Albers 7.1 Einfuhrung 172/460 Bei wahrscheinlichkeitserzeugenden Funktionen haben wir kein Problem mit der Konvergenz, da fur jsj < 1 gilt jGX (s)j = DWT c Susanne Albers 1 X Pr[X k=0 1 X k=0 = k] sk Pr[X = k] jsk j 1 X k=0 Pr[X = k] = 1 : 173/460 Beobachtung: Sei Y := X + t mit t 2 N0 . Dann gilt GY (s) = E[sY ] = E[sX +t ] = E[st sX ] = st E[sX ] = st GX (s) : Ebenso lasst sich leicht nachrechnen, dass 1 X 0 GX (s) = k Pr[X = k] sk 1 , also k=1 0 GX (0) = Pr[X = 1], sowie G(i) (0) = Pr[X = i] i!, also X G(i) (0)=i! = Pr[X X DWT c Susanne Albers = i] : 7.1 Einfuhrung 174/460 Satz 71 (Eindeutigkeit der w.e. Funktion) Die Dichte und die Verteilung einer Zufallsvariablen X mit WX wahrscheinlichkeitserzeugende Funktion eindeutig bestimmt. N sind durch ihre Beweis: Folgt aus der Eindeutigkeit der Potenzreihendarstellung. DWT c Susanne Albers 175/460 Bernoulli-Verteilung Sei X eine Bernoulli-verteilte Zufallsvariable mit Pr[X = 0] = 1 p und Pr[X = 1] = p. Dann gilt GX (s) = E[sX ] = (1 p) s0 + p s1 = 1 p + ps : Gleichverteilung auf f0; : : : ; ng Sei X auf f0; : : : ; ng gleichverteilt, d.h. fur 0 k n ist Pr[X = k] = 1=(n + 1). Dann gilt GX (s) = E[sX ] = DWT c Susanne Albers n X 1 sk = sn+1 1 : n+1 (n + 1)(s 1) k=0 176/460 Binomialverteilung Fur X Bin(n; p) gilt nach der binomischen Formel GX (s) = E[sX ] = n X n k p (1 p)n k k=0 k sk = (1 p + ps)n : Geometrische Verteilung Sei X eine geometrisch verteilte Zufallsvariable mit Erfolgswahrscheinlichkeit p. Dann gilt GX (s) = E[sX ] = 1 X k=1 = ps DWT c Susanne Albers p(1 p)k 1 sk 1 X ((1 p)s)k 1 = 1 (1ps p)s : k=1 7.1 Einfuhrung 177/460 Poisson-Verteilung Fur X Po() gilt GX DWT c Susanne Albers (s) = E[sX ] = 1 X k=0 e k k! sk = e +s = e(s 1) : 178/460 Beispiel 72 Sei X binomialverteilt mit X GX (s) = 1 Bin(n; =n), Fur n ! 1 folgt s + n n n = 1 + (sn 1) n ! e(s 1) : Man kann beweisen, dass aus der Konvergenz der wahrscheinlichkeitserzeugenden Funktion die Konvergenz der Verteilung folgt. DWT c Susanne Albers 7.1 Einfuhrung 179/460 7.1.1 Zusammenhang zwischen der w.e. Funktion und den Momenten Da gilt GX (s) := 1 X k=0 Pr[X = k] sk = E[sX ] ; 1 X 0 GX (1) = k Pr[X = k] = E[X ] : k=1 DWT c Susanne Albers 180/460 Beispiel 73 Sei X binomialverteilt mit X Bin(n; p), also GX (s) = (1 p + ps)n : Dann gilt G0X (s) = n (1 p + ps)n 1 p und somit E[X ] = G0X (1) = np : DWT c Susanne Albers 7.1 Einfuhrung 181/460 Beispiel 73 Ebenso ergibt sich E[X (X 1) : : : (X i + 1)] = G(Xi) (1) ; also etwa Var[X ] = E[X (X 1)] + E[X ] E[X ]2 = G00X (1) + G0X (1) (G0X (1))2 : Andere Momente von X kann man auf ahnliche Art und Weise berechnen. DWT c Susanne Albers 181/460 Momenterzeugende Funktionen Denition 74 Zu einer Zufallsvariablen X ist die momenterzeugende Funktion gema MX (s) := E[eXs ] deniert. Es gilt MX (s) = E[eXs ] = E und fur Zufallsvariablen X mit WX " 1 X # 1 E[X i ] (Xs)i = X si i ! i ! i=0 i=0 N0 MX (s) = E[eXs ] = E[(es )X ] = GX (es ) : DWT c Susanne Albers 7.1 Einfuhrung 182/460 7.2 Summen von Zufallsvariablen Satz 75 (Erzeugende Funktion einer Summe) Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn und die Zufallsvariable Z := X1 + : : : + Xn gilt GZ (s) = GX1 (s) : : : GXn (s) : Ebenso gilt MZ (s) = MX1 (s) : : : MXn (s) : Beweis: Wegen der Unabhangigkeit von X1 ; : : : ; Xn gilt GZ (s) = E[sX1 +:::+Xn ] = E[sX1 ] : : : E[sXn ] = GX1 (s) : : : GXn (s): DWT c Susanne Albers 183/460 Beispiel 76 Seien X1 ; : : : Xk mit Xi Bin(ni ; p) unabhangige Zufallsvariable und Z := X1 + : : : + Xk . Dann gilt GZ (s) = und somit k Y i=1 (1 p + ps)ni = (1 p + ps) Z Bin( k X i=1 Pk i=1 ni ni ; p) (vgl. Satz 56). Seien X1 ; : : : ; Xk Po() unabhangige Zufallsvariablen. Dann folgt fur Z := X1 + : : : + Xk k Y GZ (s) = e(s 1) = ek(s 1) i=1 und somit Z Po(k) (vgl. Satz 59). DWT c Susanne Albers 7.2 Summen von Zufallsvariablen 184/460 7.2.1 Zufallige Summen Wir betrachten die Situation, dass Z := X1 + : : : + XN , wobei N ebenfalls eine Zufallsvariable ist. Satz 77 Seien X1 ; X2 ; : : : unabhangige und identisch verteilte Zufallsvariablen mit der wahrscheinlichkeitserzeugenden Funktion GX (s). N sei ebenfalls eine unabhangige Zufallsvariable mit der wahrscheinlichkeitserzeugenden Funktion GN (s). Dann besitzt die Zufallsvariable Z := X1 + : : : + XN die wahrscheinlichkeitserzeugende Funktion GZ (s) = GN (GX (s)). DWT c Susanne Albers 7.2 Summen von Zufallsvariablen 185/460 Beweis: Nach Voraussetzung ist WN N0. Deshalb folgt mit Satz 36 GZ (s) = = = = 1 X n=0 1 X n=0 1 X n=0 1 X n=0 E[sZ j N = n] Pr[N = n] E[sX +:::+Xn ] Pr[N = n] 1 E[sX ] : : : E[sXn ] Pr[N = n] 1 (GX (s))n Pr[N = n] = E[(GX (s))N ] = GN (GX (s)) : DWT c Susanne Albers 186/460 8. Formelsammlung 8.1 Gesetze zum Rechnen mit Ereignissen Im Folgenden seien A und B , sowie A1 ; : : : ; An Ereignisse. Die Notation A ] B steht fur A [ B und zugleich A \ B = ; (disjunkte Vereinigung). A1 ] : : : ] An = bedeutet also, dass die Ereignisse A1 ; : : : ; An eine Partition der Ergebnismenge bilden. Pr[;] = 0 0 Pr[A] 1 Pr[A] = 1 Pr[A] A B =) Pr[A] Pr[B ] DWT c Susanne Albers 8.1 Gesetze zum Rechnen mit Ereignissen 187/460 8i 6=Sj : Ai \ APj = ; =) Pr [ n A]= i=1 i Additionssatz n Pr[A ] i i=1 Pr[A [ B ] = Pr[A] + Pr[B ] Pr[A \ B ] Inklusion/Exklusion, allgemeine Form: siehe Satz 9 Sn Pr [ i=1 Ai ] Siebformel Boolesche Ungleichung Pn i=1 Pr[Ai ] Pr[AjB ] = Pr[Pr[AB\B] ] fur Pr[B ] > 0 DWT c Susanne Albers Def. bedingte Ws. 8.1 Gesetze zum Rechnen mit Ereignissen 188/460 B A1 ]P: : : ] An =) Pr[B ] = ni=1 Pr[B jAi ] Pr[Ai ] Satz von der totalen Wahrscheinlichkeit Pr[B ] > 0, B A1 ] : : : ] An =) B jAi ]Pr[Ai ] Pr[Ai jB ] = PniPr[Pr[ B jAi ]Pr[Ai ] Satz von Bayes =1 Pr[A1 \ : : : \ An ] = Pr[A1 ] Pr[A2 jA1 ] Multiplikationssatz : : : Pr[An jA1 \ : : : \ An 1 ] A und B unabhangig () Pr[A \ B ] = Pr[A] Pr[B ] DWT c Susanne Albers Denition Unabhangigkeit 189/460 8.2 Erwartungswert und Varianz diskreter Zufallsvariablen Sei X eine diskrete Zufallsvariable. Fur Erwartungswert und Varianz gelten die folgenden Formeln (sofern E[X ] und Var[X ] existieren). E[X ] = = Var[X ] = X x 2W X X ! 2 1 X i=1 x Pr[X = x] X (!) Pr[!] Pr[X i]; falls WX N0 Erwartungswert = E[(X E[X ])2 ] = x2WX Pr[X = x] (x E[X ])2 DWT c Susanne Albers P Varianz 8.2 Erwartungswert und Varianz diskreter Zufallsvariablen 190/460 8.3 Gesetze zum Rechnen mit Zufallsvariablen Seien a, b, a1 , . . . , an 2 R, f1 ; : : : ; fn : R ! R. X1 ; : : : ; Xn unabhangig () fur alle (a1 ; : : : ; an ): Pr[X1 = a1 ; : : : ; Xn = an ] = Pr[X1 = a1 ] : : : Pr[Xn = an ] X1 ; : : : ; Xn unabhangig =) f1 (X1 ); : : : ; fn (Xn ) unabhangig E[a X + b] = a E[X ] + b DWT c Susanne Albers 191/460 X (!) Y (!) fur alle ! 2 =) E[X ] E[Y ] E[X ] = Monotonie des Erwartungswerts Pn i=1 E[X jAi ] Pr[Ai ] Var[X ] = E[X 2 ] E[X ]2 Var[a X + b] = a2 Var[X ] DWT c Susanne Albers 8.3 Gesetze zum Rechnen mit Zufallsvariablen 192/460 E[a1 X1 + : : : + an Xn ] = a1 E[X1 ] + : : : + an E[Xn ] Linearitat des Erwartungswerts X1 ; : : : ; Xn unabhangig =) E[X1 : : : Xn ] = E[X1 ] : : : E[Xn ] Multiplikativitat des Erwartungswerts X1 ; : : : ; Xn unabhangig =) Var[X1 + : : : + Xn ] = Var[X1 ] + : : : + Varianz einer Summe Var[Xn ] DWT c Susanne Albers 193/460 X 0 =) Pr[X t] E[X ]=t fur t > 0 Markov Pr[jX E[X ]j t] Var[X ]=t2 fur t > 0 Chebyshev siehe Satz 63 Gesetz der groen Zahlen DWT c Susanne Albers 194/460 Kapitel II Kontinuierliche Wahrscheinlichkeitsraume 1. Einfuhrung 1.1 Motivation Interpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung. DWT c Susanne Albers 1.1 Motivation 195/460 Beispiel 78 Wir betrachten das Szenario: Bei einem Druckerserver kommen Auftrage in einer Warteschlange an, die alle 1=n Zeiteinheiten vom Server abgefragt wird. Der Server nimmt also zu den diskreten Zeitpunkte 1=n; 2=n; 3=n; : : : neue Auftrage entgegen. Durch den Grenzwert n ! 1 verschmelzen\ diese diskreten Zeitpunkte zu einer " kontinuierlichen Zeitachse, und fur die Zufallsvariable T , welche die Zeitspanne bis zum Eintreen des nachsten Auftrags misst, reicht eine diskrete Wertemenge WT nicht mehr aus. DWT c Susanne Albers 196/460 1.2 Kontinuierliche Zufallsvariablen Denition 79 Eine kontinuierliche oder auch stetige Zufallsvariable X und ihr zugrunde liegender kontinuierlicher (reeller) Wahrscheinlichkeitsraum sind deniert durch eine integrierbare Dichte(-funktion) fX : R ! R+ 0 mit der Eigenschaft Z +1 fX (x) d x = 1: 1 S Eine Menge A R, die durch Vereinigung A = k Ik abzahlbar vieler paarweise disjunkter Intervalle beliebiger Art (oen, geschlossen, halboen, einseitig unendlich) gebildet werden kann, heit Ereignis. Ein Ereignis A tritt ein, wenn X einen Wert aus A annimmt. Die Wahrscheinlichkeit von A ist bestimmt durch Z Z Pr[A] = DWT c Susanne Albers A fX (x) d x = X k Ik fX (x) d x: 1.2 Kontinuierliche Zufallsvariablen 197/460 Beispiel 80 (Gleichverteilung) Eine besonders einfache kontinuierliche Dichte stellt die Gleichverteilung auf dem Intervall [a; b] dar. Sie ist deniert durch ( f (x) = 1 b a 0 fur x 2 [a; b], sonst. Analog zum diskreten Fall ordnen wir jeder Dichte fX eine Verteilung oder Verteilungsfunktion FX zu: FX (x) := Pr[X x] = Pr[ft 2 R j t xg] = DWT c Susanne Albers Z x 1 fX (t) d t: 198/460 Beispiel 81 Die Verteilungsfunktion der Gleichverteilung: F (x) = DWT c Susanne Albers Z x 1 8 > <0 f (t) d t = xb aa > : 1 fur x < a; fur a x b; fur x > b: 1.2 Kontinuierliche Zufallsvariablen 199/460 f (x) 1,4 1,2 1,0 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0,0 -0,2 -0,5 F (x) 1,4 1,2 0,0 0,0 0,5 1,0 -0,2 1,5 -0,5 0,0 0,5 1,0 1,5 Gleichverteilung uber dem Intervall [0; 1] DWT c Susanne Albers 200/460 Beobachtungen:(Eigenschaften der Verteilungsfunktion) FX ist monoton steigend. FX ist stetig. Man spricht daher auch von einer "stetigen Zufallsvariablen\. Es gilt: limx! 1 FX (x) = 0 und limx!1 FX (x) = 1. Jeder (auer an endlich vielen Punkten) dierenzierbaren Funktion F , welche die zuvor genannten Eigenschaften erfullt, konnen wir eine Dichte f durch f (x) = F 0 (x) zuordnen. Es gilt DWT c Susanne Albers Pr[a < X b] = FX (b) FX (a) : 201/460 Bei den von uns betrachteten Dichten besteht zwischen den Ereignissen a < X " a X b \, a X < b\ und a < X < b\ kein wesentlicher Unterschied, da " " " Z [a;b] DWT c Susanne Albers f (t) d t = Z ]a;b] f (t) d t = Z [a;b[ f (t) d t = Z ]a;b[ b\, f (t) d t: 202/460 1.3 Kolmogorov-Axiome und -Algebren 1.3.1 -Algebren Denition 82 Sei eine Menge. Eine Menge A P ( ) heit -Algebra uber , wenn folgende Eigenschaften erfullt sind: (E1) 2 A. (E2) Wenn A 2 A, dann folgt A 2 A. S (E3) Fur n 2 N sei An 2 A. Dann gilt auch 1 n=1 An 2 A. DWT c Susanne Albers 203/460 Fur jede (endliche) Menge stellt die Menge P ( ) eine -Algebra dar. Fur = R ist die Klasse der Borel'schen Mengen, die aus allen Mengen A R besteht, welche sich durch abzahlbare Vereinigungen und Schnitte von Intervallen (oen, halboen oder geschlossen) darstellen lassen, eine -Algebra. DWT c Susanne Albers 204/460 1.3.2 Kolmogorov-Axiome Denition 83 (Wahrscheinlichkeitsraum, Kolmogorov-Axiome) Sei eine beliebige Menge und A eine -Algebra uber . Eine Abbildung Pr[:] : A ! [0; 1] heit Wahrscheinlichkeitsma auf A, wenn sie folgende Eigenschaften besitzt: 1 (W1) Pr[ ] = 1. 2 (W2) A1 ; A2 ; : : : seien paarweise Ereignisse. Dann gilt " disjunkte # 1 1 [ X Pr i=1 Ai = i=1 Pr[Ai ]: Fur ein Ereignis A 2 A heit Pr[A] Wahrscheinlichkeit von A. Ein Wahrscheinlichkeitsraum ist deniert durch das Tupel ( ; A; Pr). DWT c Susanne Albers 205/460 Die in obiger Denition aufgelisteten Eigenschaften eines Wahrscheinlichkeitsmaes wurden von dem russischen Mathematiker Andrei Nikolaevich Kolmogorov (1903{1987) formuliert. Kolmogorov gilt als einer der Pioniere der modernen Wahrscheinlichkeitstheorie, leistete jedoch auch bedeutende Beitrage zu zahlreichen anderen Teilgebieten der Mathematik. Informatikern begegnet sein Name auch im Zusammenhang mit der so genannten Kolmogorov-Komplexitat, einem relativ jungen Zweig der Komplexitatstheorie. Die Eigenschaften in obiger Denition nennt man auch Kolmogorov-Axiome. DWT c Susanne Albers 206/460 Lemma 84 Sei ( ; A; Pr) ein Wahrscheinlichkeitsraum. Fur Ereignisse A, B , A1 , A2 , : : : gilt 1 2 3 4 Pr[;] = 0, Pr[ ] = 1. 0 Pr[A] 1. Pr[A] = 1 Pr[A]. Wenn A B , so folgt Pr[A] Pr[B ]. DWT c Susanne Albers 1.3 Kolmogorov-Axiome und -Algebren 207/460 Lemma 84 5 (Additionssatz) Wenn die Ereignisse A1 ; : : : ; An paarweise disjunkt sind, so folgt " Pr n [ i=1 # Ai = n X i=1 Pr[Ai ]: Fur disjunkte Ereignisse A, B erhalten wir insbesondere Pr[A [ B ] = Pr[A] + Pr[B ]: Fur eine unendliche Menge von paarweise disjunkten Ereignissen A1 ; A2 ; : : : gilt S P1 analog Pr [ 1 A ] = i=1 i i=1 Pr[Ai ]. DWT c Susanne Albers 207/460 Beweis: Wenn wir in Eigenschaft (W2) A = und A2 ; A3 ; : : : = ; setzen, so ergibt die P1 1 Eigenschaft, dass Pr[ ] + i=2 Pr[;] = Pr[ ]. Daraus folgt Pr[;] = 0. Regel 2 und Regel 5 gelten direkt nach Denition der Kolmogorov-Axiome und Regel 1. Regel 3 erhalten wir mit Regel 5 wegen 1 = Pr[ ] = Pr[A] + Pr[A]. Fur Regel 4 betrachten wir die disjunkten Ereignisse A und C := B n A, fur die gilt, dass A [ B = A [ C . Mit Regel 5 folgt die Behauptung. DWT c Susanne Albers 208/460 1.3.3 Lebesgue-Integrale Eine Funktion f : R ! R heit messbar, falls das Urbild jeder Borel'schen Menge ebenfalls eine Borel'sche Menge ist. Z.B. ist fur jede Borel'sche Menge A die Indikatorfunktion IA : x 7! ( 1 falls x 2 A, 0 sonst messbar. Jede stetige Funktion ist messbar. Auch Summen und Produkte von messbaren Funktionen sind wiederum messbar. Jeder messbaren Funktion kann man ein Integral, das so genannte Lebesgue-Integral, R geschrieben f d , zuordnen. DWT c Susanne Albers 209/460 Ist f : R ! R+ 0 eine messbare Funktion, so deniert R Pr : A 7! f IA d eine Abbildung auf den Borel'schen Mengen, die die Eigenschaft (W2) der Kolmogorov-Axiome erfullt. Gilt daher zusatzlich noch Pr[R] = 1, so deniert f auf naturliche Weise einen Wahrscheinlichkeitsraum ( ; A; Pr), wobei = R und A die Menge der Borel'schen Mengen ist. DWT c Susanne Albers 1.3 Kolmogorov-Axiome und -Algebren 210/460 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 1.4.1 Funktionen kontinuierlicher Zufallsvariablen Sei Y := g (X ) mit einer Funktion g : R ! R. Die Verteilung von Y erhalten wir durch FY (y) = Pr[Y y] = Pr[g(X ) y] = Z C fX (t) d t: Hierbei bezeichnet C := ft 2 R j g (t) y g alle reellen Zahlen t 2 R, fur welche die Bedingung Y y\ zutrit. Das Integral uber C ist nur dann sinnvoll deniert, " wenn C ein zulassiges Ereignis darstellt. Aus der Verteilung FY konnen wir durch Dierenzieren die Dichte fY ermitteln. DWT c Susanne Albers 211/460 Beispiel 85 Sei X gleichverteilt auf dem Intervall ]0; 1[. Fur eine Konstante > 0 denieren wir die Zufallsvariable Y := (1=) ln X . FY (y) = Pr[ (1=) ln X y] = Pr[ln X y] = Pr[X e y ] = 1 FX (e y ) ( y f ur y 0; = 1 e 0 sonst: DWT c Susanne Albers 212/460 Beispiel (Forts.) Damit folgt mit fY (y ) = FY0 (y ) sofort ( fY (y) = e 0 y fur y 0; sonst: Eine Zufallsvariable mit einer solchen Dichte fY nennt man exponentialverteilt. DWT c Susanne Albers 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 213/460 Beispiel 86 Sei X eine beliebige Zufallsvariable. Fur a; b 2 R mit a > 0 denieren wir die Zufallsvariable Y := a X + b. Es gilt FY (y ) = Pr[aX + b y ] = Pr X und somit fY (y) = DWT c Susanne Albers d FY (y ) dy yab = FX y a b ; = d FX ((dy y b)=a) = fX y a b a1 : 214/460 Simulation von Zufallsvariablen Unter der Simulation einer Zufallsvariablen X mit Dichte fX versteht man die algorithmische Erzeugung von Zufallswerten, deren Verteilung der Verteilung von X entspricht. Dazu nehmen wir an, dass die zu simulierende Zufallsvariable X eine stetige, im Bildbereich ]0; 1[ streng monoton wachsende Verteilungsfunktion FX besitzt. Weiter nehmen wir an, dass U eine auf ]0; 1[ gleichverteilte Zufallsvariable ist, die wir simulieren konnen. Aus unserer Annahme uber FX folgt, dass es zu FX eine (eindeutige) inverse Funktion F 1 gibt mit FX (F 1 (x)) = x fur alle x 2]0; 1[. X DWT c Susanne Albers X 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 215/460 Sei nun X~ := FX 1 (U ) ; dann gilt Pr[X~ t] = Pr[FX 1 (U ) t] = Pr[U FX (t)] = FU (FX (t)) = FX (t) : DWT c Susanne Albers 216/460 Beispiel 87 Im obigen Beispiel der Exponentialverteilung gilt FX (t) = 1 e t fur t 0, und wir erhalten auf ]0; 1[ die Umkehrfunktion FX 1 (t) = ln(1 t). Also gilt X~ = FX 1 (U ) = ln(1 U ). Statt X~ haben wir im Beispiel die Zufallsvariable oensichtlich dieselbe Verteilung besitzt. DWT c Susanne Albers ln U betrachtet, die aber 217/460 1.4.2 Kontinuierliche Zufallsvariablen als Grenzwerte diskreter Zufallsvariablen Sei X eine kontinuierliche Zufallsvariable. Wir konnen aus X leicht eine diskrete Zufallsvariable konstruieren, indem wir fur ein festes > 0 denieren X = n Fur X gilt DWT c Susanne Albers () X 2 [n; (n + 1)[ fur n 2 Z: Pr[X = n] = FX ((n + 1)) FX (n) : 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 218/460 1,0 FX (x) FXÆ (x) 0,8 0,6 0,4 0,2 0,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 Fur ! 0 nahert sich die Verteilung von X der Verteilung von X immer mehr an. DWT c Susanne Albers 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 219/460 1.4.3 Erwartungswert und Varianz Denition 88 Fur eine kontinuierliche Zufallsvariable X ist der Erwartungswert deniert durch E[X ] = Z 1 1 t fX (t) d t; R sofern das Integral 11 jtj fX (t) d t endlich ist. Fur die Varianz gilt entsprechend Z 1 2 Var[X ] = E[(X E[X ]) ] = (t 1 wenn E[(X E[X ])2 ] existiert. DWT c Susanne Albers E[X ])2 fX (t) d t; 220/460 Lemma 89 Sei X eine kontinuierliche Zufallsvariable, und sei Y := g(X ) : Dann gilt DWT c Susanne Albers E[Y ] = Z 1 1 g(t) fX (t) d t : 221/460 Beweis: Wir zeigen die Behauptung nur fur den einfachen Fall, dass g eine lineare Funktion ist, also Y := a X + b fur a; b 2 R und a > 0. Es gilt (siehe obiges Beispiel) E[a X + b] = Z 1 Durch die Substitution u := (t 1 t fY (t) d t = 1 1 t fX t b a a1 d t: b)=a mit d u = (1=a) d t erhalten wir E[a X + b] = DWT c Susanne Albers Z Z 1 1 (au + b)fX (u) d u: 222/460 Beispiel 90 Fur Erwartungswert und Varianz der Gleichverteilung ergibt sich Z b Z b 1 1 E[X ] = t dt = b a t dt b a a a 1 2 b = 2(b a) [t ]a 2 2 = 2(b b aa) = a +2 b ; 1 Z b t2 d t = b2 + ba + a2 ; b a a 3 2 Var[X ] = E[X 2 ] E[X ]2 = : : : = (a 12b) : E[X 2 ] = DWT c Susanne Albers 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 223/460 1.4.4 Laplace-Prinzip in kontinuierlichen Wahrscheinlichkeitsraumen Das folgende Beispiel zeigt, dass im kontinuierlichen Fall die Bedeutung von gleichwahrscheinlich\ nicht immer ganz klar sein muss. " Bertrand'sches Paradoxon Wir betrachten einen Kreis mit einem eingeschriebenen gleichseitigen Dreieck. Was ist die Wahrscheinlichkeit, mit der die Lange einer zufallig gewahlten Sehne die Seitenlange dieses Dreiecks ubersteigt (Ereignis A)? DWT c Susanne Albers 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 224/460 r 2 S 120Æ M DWT c Susanne Albers d S M ' 225/460 Beobachtungen: Die Seiten des Dreiecks haben Abstand 2r vom Mittelpunkt M . Die Lage jeder Sehne ist (bis auf Rotation um M ) durch einen der folgenden Parameter festgelegt: Abstand d zum Kreismittelpunkt, Winkel ' mit dem Kreismittelpunkt. Wir nehmen fur jeden dieser Parameter Gleichverteilung an und ermitteln Pr[A]. 1 Sei d 2 [0; r ] gleichverteilt. A tritt ein, wenn d < r , und es folgt Pr[A] = 1 . 2 2 2 Sei ' 2 [0 ; 180 ] gleichverteilt. F ur A muss gelten ' 2]120 ; 180 ], und es folgt somit Pr[A] = 31 . Siehe auch diese graphischen Darstellungen! DWT c Susanne Albers 226/460 2. Wichtige stetige Verteilungen 2.1 Gleichverteilung ( f (x) = F (x) = 0 8 > <0 Z x 1 E[X ] = DWT c Susanne Albers fur x 2 [a; b]; sonst: 1 b a f (t) d t = xb aa > : 1 a+b 2 fur x < a; fur a x b; fur x > b: und Var[X ] = 2.1 Gleichverteilung (a b)2 : 12 227/460 2.2 Normalverteilung Die Normalverteilung nimmt unter den stetigen Verteilungen eine besonders prominente Position ein. Denition 91 Eine Zufallsvariable X mit Wertebereich WX = R heit normalverteilt mit den Parametern 2 R und 2 R+ , wenn sie die Dichte 1 exp f (x) = p 2 (x )2 =: '(x; ; ) 2 2 besitzt. In Zeichen schreiben wir X N (; 2 ). N (0; 1) heit Standardnormalverteilung. Die zugehorige Dichte '(x; 0; 1) kurzen wir durch '(x) ab. DWT c Susanne Albers 228/460 Die Verteilungsfunktion zu N (; 2 ) ist 1 F (x) = p 2 Z x 1 exp (t )2 d t =: (x; ; ) : 2 2 Diese Funktion heit Gau'sche -Funktion (' ist nicht geschlossen integrierbar). DWT c Susanne Albers 229/460 Lemma 92 I := Beweis: Wir berechnen zunachst I 2 : I2 = = Z 1 Z 1Z 1 Z 1 1 e 1 e x2 =2 d x = p2: Z x2 =2 d x 1 1 e y2 =2 d y 2 2 e (x +y )=2 d x d y : 1 1 Wir gehen nun zu Polarkoordinaten uber und setzen x := r cos und y := r sin . Dann ist DWT c Susanne Albers @x @r @x @ @y @r @y @ sin = r(cos2 + sin2 ) = r = cos r sin r cos 2.2 Normalverteilung 230/460 Beweis (Forts.): und wir erhalten I2 = = DWT c Susanne Albers Z 2 Z 0 Z 0 2 0 1 e r2 =2 r d r d = Z 2 h 0 e r2 =2 i1 0 d 1 d = 2: 231/460 = 0;5 =1 =2 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0,0 DWT c Susanne Albers -3,0 -2,0 -1,0 = 0;5 =1 =2 1,0 0,0 1,0 2,0 3,0 0,0 -3,0 -2,0 -1,0 0,0 Dichte und Verteilung von N (0; 2 ) 1,0 2,0 3,0 232/460 Satz 93 (Lineare Transformation der Normalverteilung) Sei X eine normalverteilte Zufallsvariable mit X N (; 2 ). Dann gilt fur beliebiges a 2 R n f0g und b 2 R, dass Y = aX + b normalverteilt ist mit Y N (a + b; a2 2 ). Beweis: Wir betrachten zunachst den Fall a > 0\: " Pr[Y y] = Pr[aX + b y] = Pr X y a b Z (y b)=a 1 ( u )2 p = exp 22 d u: 2 1 Nach der Substitution u = (v DWT c Susanne Albers b)=a und d u = (1=a) d v erhalten wir 233/460 Beweis (Forts.): Z y 2 1 Pr[Y y] = p exp (v 2aa2 2 b) d v : 2a 1 Also Y N (a + b; a2 2 ). Fur a < 0 verlauft der Beweis analog. DWT c Susanne Albers 2.2 Normalverteilung 234/460 Sei also X eine beliebige N (; 2 )-verteilte Zufallsvariable X und Y Dann ist nach Satz 93 Y N (0; 1)-verteilt. Y := X . heit auch normiert. Ferner gilt Pr[a < X b] = Pr a < Y b b a = : DWT c Susanne Albers 235/460 Satz 94 X sei N (0; 1)-verteilt. Dann gilt E[X ] = 0 und Var[X ] = 1: Beweis: Z 1 1 x2 E[X ] = p x exp 2 d x: 2 1 Da der Integrand punktsymmetrisch zu (0; 0) ist, folgt E[X ] = 0. DWT c Susanne Albers 236/460 Beweis (Forts.): Mittels Lemma 92 und durch partielle Integration erhalten wir p 2 = Z 1 1 exp = x exp | x2 2 {z =0 x2 2 dx 1 1} + Z 1 1 x2 exp Daraus folgt, dass E[X 2 ] = 1 ist und somit Var[X ] = E[X 2 ] DWT c Susanne Albers 2.2 Normalverteilung x2 2 dx E[X ]2 = 1. 237/460 Satz 95 X sei N (; 2 )-verteilt. Dann gilt E[X ] = und Var[X ] = 2 : Beweis: Y := X ist standardnormalverteilt. Ferner gilt gema der Rechenregeln f ur Erwartungswert und Varianz E[X ] = E[Y + ] = E[Y ] + = und DWT c Susanne Albers Var[X ] = Var[Y + ] = 2 Var[Y ] = 2 : 238/460 2.3 Exponentialverteilung Die Exponentialverteilung ist in gewisser Weise das kontinuierliche Analogon zur geometrischen Verteilung. Wie die geometrische Verteilung ist sie gedachtnislos\. Sie " spielt daher vor allem bei der Modellierung von Wartezeiten eine groe Rolle. DWT c Susanne Albers 2.3 Exponentialverteilung 239/460 Denition 96 Eine Zufallsvariable X heit exponentialverteilt mit dem Parameter , > 0, wenn sie die Dichte ( e x falls x 0; f (x) = 0 sonst besitzt. Fur die entsprechende Verteilungsfunktion gilt (fur x 0) F (x) = Z x 0 e t d t = h e i t x 0 =1 e x : Fur x < 0 gilt selbstverstandlich F (x) = 0. DWT c Susanne Albers 2.3 Exponentialverteilung 240/460 E[X ] = Z h 0 1 te t d t Z i1 1 e t d t = t ( e t ) 0 + 1 0 1 =0+ e t = 1 : DWT c Susanne Albers 0 241/460 Analog erhalten wir E[X 2 ] = = Z h 1 t2 e t d t 0 i1 Z 1 2 t 2t e t d t t ( e ) + 0 0 = 0 + 2 E[X ] = 22 und somit DWT c Susanne Albers Var[X ] = E[X 2 ] E[X ]2 = 12 : 242/460 2,0 1,0 = 0;5 =1 =2 1,6 0,8 1,2 0,6 0,8 0,4 0,4 0,2 0,0 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 0,0 0,0 = 0;5 =1 =2 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 Dichte und Verteilung der Exponentialverteilung DWT c Susanne Albers 2.3 Exponentialverteilung 243/460 2.3.1 Eigenschaften der Exponentialverteilung Satz 97 (Skalierung exponentialverteilter Variablen) Sei X eine exponentialverteilte Zufallsvariable mit dem Parameter . Fur a > 0 ist die Zufallsvariable Y := aX wieder exponentialverteilt mit dem Parameter =a. Beweis: FY (x) = Pr[Y x] = Pr[aX x] h i = Pr X xa = FX xa = 1 e xa : DWT c Susanne Albers 244/460 Gedachtnislosigkeit Satz 98 (Gedachtnislosigkeit) Eine (positive) kontinuierliche Zufallsvariable X mit Wertebereich R+ ist genau dann exponentialverteilt, wenn fur alle x; y > 0 gilt, dass Pr[X > x + y j X > y] = Pr[X > x] : (*) Beweis: Sei X exponentialverteilt mit Parameter . Dann gilt > x + y; X > y] Pr[X > x + y j X > y] = Pr[X Pr[ X > y] X > x + y] = Pr[Pr[ X > y] (x+y) y =ee DWT c Susanne Albers =e 2.3 Exponentialverteilung x = Pr[X > x] : 245/460 Beweis (Forts.): Sei umgekehrt X eine kontinuierliche Zufallsvariable, die die Gleichung () erfullt. Wir denieren g (x) := Pr[X > x]. Fur x; y > 0 gilt g(x + y) = Pr[X > x + y] = Pr[X > x + y j X > y] Pr[X > y] = Pr[X > x] Pr[X > y] = g(x)g(y) : Daraus folgt durch wiederholte Anwendung 1 1 = g 1 g(1) = g + + n} n |n {z n fur alle n 2 N n-mal und somit insbesondere auch g (1=n) = (g (1))1=n . DWT c Susanne Albers 246/460 Beweis (Forts.): Da X nur positive Werte annimmt, muss es ein n 2 N geben mit g (1=n) > 0. Wegen 0 < g(1) 1 muss es daher auch ein 0 geben mit g(1) = e . Nun gilt fur beliebige p; q 2 N g(p=q) = g(1=q)p = g(1)p=q ; und somit g (r) = e r fur alle r 2 Q+ . Aufgrund der Stetigkeit folgt daraus g(x) = e DWT c Susanne Albers x : 247/460 Beispiel 99 ber das Casium-Isotop 134 U 55 Cs ist bekannt, dass es eine mittlere Lebensdauer von ungefahr 3,03 Jahren oder 1;55 106 Minuten besitzt. Die Zufallsvariable X messe die Lebenszeit eines bestimmten 134 55 Cs-Atoms. X ist exponentialverteilt mit dem Parameter 1 = 1 0;645 10 = E[X ] 1;55 106 6 1 min Da den Kehrwert einer Zeit als Einheit besitzt, spricht man von der Zerfallsrate. Auch bei anderen Anwendungen ist es ublich, als Rate einzufuhren. DWT c Susanne Albers 2.3 Exponentialverteilung 248/460 2.3.2 Exponentialverteilung als Grenzwert der geometrischen Verteilung Erinnerung: Die Poisson-Verteilung lasst sich als Grenzwert der Binomialverteilung darstellen. Wir betrachten eine Folge geometrisch verteilter Zufallsvariablen Xn mit Parameter pn = =n. Fur ein beliebiges k 2 N ist die Wahrscheinlichkeit, dass Xn k n, gleich Pr[Xn kn] = kn X i=1 (1 pn )i 1 pn = pn = pn 1 (1p pn n DWT c Susanne Albers )kn =1 kn X1 i=0 1 (1 pn )i n kn : 249/460 Wegen limn!1 (1 n n) = e gilt daher fur die Zufallsvariablen Yn := n1 Xn , dass lim Pr[Yn t] = nlim !1 Pr[Xn t n] n!1 " = nlim !1 1 =1 e 1 n tn # t : Die Folge Yn der (skalierten) geometrisch verteilten Zufallsvariablen geht also fur n ! 1 in eine exponentialverteilte Zufallsvariable mit Parameter uber. DWT c Susanne Albers 2.3 Exponentialverteilung 250/460 3. Mehrere kontinuierliche Zufallsvariablen 3.1 Mehrdimensionale Dichten Beobachtung Zu zwei kontinuierlichen Zufallsvariablen X , Y wird der zugrunde liegende gemeinsame Wahrscheinlichkeitsraum uber R2 durch eine integrierbare (gemeinsame) Dichtefunktion fX;Y : R2 ! R+ 0 mit Z 1 Z 1 1 1 fX;Y (x; y) d x d y = 1 beschrieben. Fur ein Ereignis A R2 (das aus abzahlbar vielen geschlossenen oder oenen Bereichen gebildet sein muss) gilt Pr[A] = DWT c Susanne Albers Z A fX;Y (x; y) d x d y: 3.1 Mehrdimensionale Dichten 251/460 Unter einem Bereich B verstehen wir dabei Mengen der Art B = f(x; y) 2 R2 j a x b; c y dg mit a; b; c; d 2 R: Dabei konnen die einzelnen Intervallgrenzen auch oen\ bzw. 1 sein. " DWT c Susanne Albers 252/460 Analog zum eindimensionalen Fall ordnen wir der Dichte fX;Y eine (gemeinsame) Verteilung FX;Y : R2 ! [0; 1] zu: FX;Y (x; y) = Pr[X x; Y DWT c Susanne Albers y] = Z y Z x 1 3.1 Mehrdimensionale Dichten 1 fX;Y (u; v) d u d v: 253/460 3.2 Randverteilungen und Unabhangigkeit Denition 100 Sei fX;Y die gemeinsame Dichte der Zufallsvariablen X und Y . Die Randverteilung der Variablen X ist gegeben durch FX (x) = Pr[X x] = Analog nennen wir fX (x) = Z x Z 1 1 1 Z 1 fX;Y (u; v) d v d u: fX;Y (x; v) d v 1 die Randdichte von X . Entsprechende Denitionen gelten symmetrisch fur Y . DWT c Susanne Albers 254/460 Denition 101 Zwei kontinuierliche Zufallsvariablen X und Y heien unabhangig, wenn Pr[X x; Y y] = Pr[X x] Pr[Y y] fur alle x; y 2 R gilt. Dies ist gleichbedeutend mit FX;Y (x; y) = FX (x) FY (y) : Dierentiation ergibt DWT c Susanne Albers fX;Y (x; y) = fX (x) fY (y) : 255/460 Fur mehrere Zufallsvariablen X1 ; : : : ; Xn gilt analog: X1 ; : : : ; Xn sind genau dann unabhangig, wenn FX1 ;:::;Xn (x1 ; : : : ; xn ) = FX1 (x1 ) : : : FXn (xn ) bzw. fX1 ;:::;Xn (x1 ; : : : ; xn ) = fX1 (x1 ) : : : fXn (xn ) fur alle x1 ; : : : ; xn 2 R. DWT c Susanne Albers 3.2 Randverteilungen und Unabhangigkeit 256/460 3.3 Warteprobleme mit der Exponentialverteilung Warten auf mehrere Ereignisse Satz 102 Die Zufallsvariablen X1 ; : : : ; Xn seien unabhangig und exponentialverteilt mit den Parametern 1 ; : : : ; n . Dann ist auch X := minfX1 ; : : : ; Xn g exponentialverteilt mit dem Parameter 1 + : : : + n . Beweis: Der allgemeine Fall folgt mittels Induktion aus dem fur n = 2. Fur die Verteilungsfunktion FX gilt: 1 FX (t) = Pr[X > t] = Pr[minfX1 ; X2 g > t] = Pr[X1 > t; X2 > t] = Pr[X1 > t] Pr[X2 > t] = e 1 t e 2 t = e (1 +2 )t : DWT c Susanne Albers 257/460 Anschaulich besagt Satz 102, dass sich die Raten addieren, wenn man auf das erste Eintreten eines Ereignisses aus mehreren unabhangigen Ereignissen wartet. Wenn beispielsweise ein Atom die Zerfallsrate besitzt, so erhalten wir bei n Atomen die Zerfallsrate n (wie uns auch die Intuition sagt). DWT c Susanne Albers 3.3 Warteprobleme mit der Exponentialverteilung 258/460 Poisson-Prozess Wir hatten bei der Diskussion der geometrischen und der Poisson-Verteilung festgestellt: Wenn der zeitliche Abstand der Treer geometrisch verteilt ist, so ist ihre Anzahl in einer festen Zeitspanne binomialverteilt. Im Grenzwert n ! 1, wobei wir die Treerwahrscheinlichkeit mit pn = =n ansetzen, konvergiert die geometrische Verteilung gegen die Exponentialverteilung und die Binomialverteilung gegen die Poisson-Verteilung. Im Grenzwert n ! 1 erwarten wir deshalb die folgende Aussage: Wenn man Ereignisse zahlt, deren zeitlicher Abstand exponentialverteilt ist, so ist die Anzahl dieser Ereignisse in einer festen Zeitspanne Poisson-verteilt. DWT c Susanne Albers 259/460 Seien T1 ; T2 : : : unabhangige exponentialverteilte Zufallsvariablen mit Parameter . Die Zufallsvariable Ti modelliert die Zeit, die zwischen Treer i 1 und i vergeht. Fur den Zeitpunkt t > 0 denieren wir X (t) := maxfn 2 N j T1 + : : : + Tn tg: X (t) gibt also an, wie viele Treer sich bis zur Zeit t (von Zeit Null ab) ereignet haben. Es gilt: DWT c Susanne Albers 260/460 Fakt 103 Seien T1 ; T2 ; : : : unabhangige Zufallsvariablen und sei X (t) fur t > 0 wie oben deniert. Dann gilt: X (t) ist genau dann Poisson-verteilt mit Parameter t, wenn es sich bei T1 ; T2 ; : : : um exponentialverteilte Zufallsvariablen mit Parameter handelt. Zum Zufallsexperiment, das durch T1 ; T2 ; : : : deniert ist, erhalten wir fur jeden Wert t > 0 eine Zufallsvariable X (t). Hierbei konnen wir t als Zeit interpretieren und X (t) als Verhalten des Experiments zur Zeit t. Eine solche Familie (X (t))t>0 von Zufallsvariablen nennt man allgemein einen stochastischen Prozess. Der hier betrachtete Prozess, bei dem T1 ; T2 ; : : : unabhangige, exponentialverteilte Zufallsvariablen sind, heit Poisson-Prozess und stellt ein fundamentales und zugleich praktisch sehr bedeutsames Beispiel fur einen stochastischen Prozess dar. DWT c Susanne Albers 261/460 Beispiel 104 Wir betrachten eine Menge von Jobs, die auf einem Prozessor sequentiell abgearbeitet werden. Die Laufzeiten der Jobs seien unabhangig und exponentialverteilt mit Parameter = 1=30[1=s]. Jeder Job benotigt also im Mittel 30s. Gema Fakt 103 ist die Anzahl von Jobs, die in einer Minute vollstandig ausgefuhrt werden, Poisson-verteilt mit Parameter t = 60 (1=30) = 2. Die Wahrscheinlichkeit, dass in einer Minute hochstens ein Job abgearbeitet wird, betragt in diesem Fall (t = 2) e DWT c Susanne Albers t + te t 0;406 : 262/460 3.4 Summen von Zufallsvariablen Satz 105 Seien X und Y unabhangige kontinuierliche Zufallsvariablen. Fur die Dichte von Z := X + Y gilt Z fZ (z ) = 1 1 fX (x) fY (z x) d x : Beweis: Nach Denition der Verteilungsfunktion gilt FZ (t) = Pr[Z t] = Pr[X + Y t] = Z A(t) fX;Y (x; y) d xd y wobei A(t) = f(x; y ) 2 R2 j x + y tg. DWT c Susanne Albers 3.4 Summen von Zufallsvariablen 263/460 Beweis (Forts.): Aus der Unabhangigkeit von X und Y folgt FZ (t) = = Z A(t) Z 1 1 fX (x) fY (y) d xd y fX (x) Z t x 1 fY (y) d y d x: Mittels der Substitution z := x + y , d z = d y ergibt sich Z t x 1 und somit FZ (t) = DWT c Susanne Albers fY (y) d y = Z t Z 1 1 1 Z t 1 fY (z x) d z fX (x)fY (z x) d x d z : 264/460 Satz 106 (Additivitat der Normalverteilung) Die Zufallsvariablen X1 ; : : : ; Xn seien unabhangig und normalverteilt mit den Parametern i ; i (1 i n). Es gilt: Die Zufallsvariable Z := a1 X1 + : : : + an Xn ist normalverteilt mit Erwartungswert = a1 1 + : : : + an n und Varianz 2 = a21 12 + : : : + a2n n2 . Beweis: Wir beweisen zunachst den Fall n = 2 und a1 = a2 = 1. Nach Satz 105 gilt fur Z := X1 + X2 , dass Z1 fZ (z ) = = DWT c Susanne Albers 1 fX1 (z 1 1 2 2 Z1 1 y ) fX2 (y ) d y exp 1 2 | z ( y 1 )2 (y 2 )2 + d y: 12 22 {z } =:v 3.4 Summen von Zufallsvariablen 265/460 Beweis (Forts.): Wir setzen := 1 + 2 2 := 12 + 22 v1 := (z )= v22 := v v12 Damit ergibt sich unmittelbar v22 = woraus wir ermitteln. DWT c Susanne Albers (z y 1 )2 + (y 2 )2 12 v2 = 22 y12 2 12 + y22 1 2 (z 1 2 )2 ; 12 + 22 z22 + 1 22 3.4 Summen von Zufallsvariablen 266/460 Beweis (Forts.): Damit folgt fur die gesuchte Dichte fZ (z ) = Wir substituieren noch und erhalten 1 2 1 2 exp v12 Z 2 1 exp t := v2 und d t = 1 2 d y: dy 1 2 Z 1 ( z )2 1 fZ (z ) = 2 exp 22 1 exp Mit Lemma 92 folgt, dass fZ (z ) = '(z ; ; ) ist. DWT c Susanne Albers v22 t2 2 d t: 267/460 Beweis (Forts.): Daraus erhalten wir die Behauptung fur n = 2, denn den Fall Z := a1 X1 + a2 X2 fur beliebige Werte a1 ; a2 2 R konnen wir leicht mit Hilfe von Satz 93 auf den soeben bewiesenen Fall reduzieren. Durch Induktion kann die Aussage auf beliebige Werte n 2 N verallgemeinert werden. DWT c Susanne Albers 268/460 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen Fur diskrete Zufallsvariablen X haben wir die momenterzeugende Funktion MX (s) = E[eXs ] eingefuhrt. Diese Denition kann man unmittelbar auf kontinuierliche Zufallsvariablen ubertragen. Die fur MX (s) gezeigten Eigenschaften bleiben dabei erhalten. DWT c Susanne Albers 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen 269/460 Beispiel 107 Fur eine auf [a; b] gleichverteilte Zufallsvariable U gilt MU (t) = E[etX ] = etx = t(b a) etb eta Z b a b etx 1 dx b a a = t(b a) : DWT c Susanne Albers 270/460 Beispiel (Forts.) Fur eine standardnormalverteilte Zufallsvariable N N (0; 1) gilt Z +1 1 MN (t) = p et e =2 d 2 1 Z +1 e (t ) =2 d = et =2 p1 2 1 t = 2 =e : 2 2 2 2 DWT c Susanne Albers 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen 271/460 Beispiel (Forts.) Daraus ergibt sich fur Y N (; 2) wegen Y N (0; 1) MY (t) = E[etY ] Y = et E[e(t) ] = et MN (t) = et+(t)2 =2 : DWT c Susanne Albers 272/460 Weiterer Beweis von Satz 106: Beweis: Gema dem vorhergehenden Beispiel gilt MXi (t) = eti +(ti ) =2 : Wegen der Unabhangigkeit der Xi folgt 2 MZ (t) = E[et(a1 X1 ++an Xn ) ] = = = n Y i=1 n Y n Y i=1 E[e(ai t)Xi ] MXi (ai t) eai ti +(ai ti ) =2 2 i=1 = et+(t)2 =2 ; mit = a1 1 + + an n und 2 = a21 12 + + a2n n2 . DWT c Susanne Albers 3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen 273/460 4. Zentraler Grenzwertsatz Satz 108 (Zentraler Grenzwertsatz) Die Zufallsvariablen X1 ; : : : ; Xn besitzen jeweils dieselbe Verteilung und seien unabhangig. Erwartungswert und Varianz von Xi existieren fur i = 1; : : : ; n und seien mit bzw. 2 bezeichnet ( 2 > 0). Die Zufallsvariablen Yn seien deniert durch Yn := X1 + : : : + Xn fur n 1. Dann folgt, dass die Zufallsvariablen Yn n p n asymptotisch standardnormalverteilt sind, also Zn N (0; 1) fur n ! 1. Zn := DWT c Susanne Albers 4 Zentraler Grenzwertsatz 274/460 Etwas formaler ausgedruckt gilt: Die Folge der zu Zn gehorenden Verteilungsfunktionen Fn hat die Eigenschaft lim F (x) = (x) fur alle n!1 n x 2 R: Wir sagen dazu auch: Die Verteilung von Zn konvergiert gegen die Standardnormalverteilung fur n ! 1. DWT c Susanne Albers 275/460 Dieser Satz ist von groer Bedeutung fur die Anwendung der Normalverteilung in der Statistik. Der Satz besagt, dass sich die Verteilung einer Summe beliebiger unabhangiger Zufallsvariablen (mit endlichem Erwartungswert und Varianz) der Normalverteilung umso mehr annahert, je mehr Zufallsvariablen an der Summe beteiligt sind. DWT c Susanne Albers 276/460 Beweis: Wir betrachten Xi := (Xi )= fur i = 1; : : : ; n mit E[Xi ] = 0 und Var[Xi ] = 1. Damit gilt (gema vorhergehendem Beispiel) p MZ (t) = E[etZ ] = E[et(X1 +:::+Xn )= n ] p p = MX1 (t= n) : : : MXn (t= n) : Fur beliebiges i betrachten wir die Taylorentwicklung von MXi (t) =: h(t) an der Stelle t=0 h00 (0) 2 h(t) = h(0) + h0 (0) t + t + O(t3): Aus der Linearitat des Erwartungswerts folgt 2 h0 (t) = E[etXi Xi ] und h00 (t) = E[etXi (Xi )2 ]: DWT c Susanne Albers 4 Zentraler Grenzwertsatz 277/460 Beweis (Forts.): Damit gilt h0 (0) = E[Xi ] = 0 und h00 (0) = E[(Xi )2 ] = Var[X ] = 1: Durch Einsetzen in die Taylorreihe folgt h(t) = 1 + t2 =2 + O(t3 ), und wir konnen MZ (t) umschreiben zu t2 t3 MZ (t) = 1 + + O 3=2 2n n n ! et =2 fur n ! 1: 2 Aus der Konvergenz der momenterzeugenden Funktion folgt auch die Konvergenz der Verteilung. Damit ist Z asymptotisch normalverteilt. DWT c Susanne Albers 278/460 Beweis (Forts.): Die momenterzeugende Funktion existiert leider nicht bei allen Zufallsvariablen und unser Beweis ist deshalb unvollstandig. Man umgeht dieses Problem, indem man statt der momenterzeugenden Funktion die so genannte charakteristische Funktion M~ X (t) = E[eitX ] betrachtet. Fur Details verweisen wir auf die einschlagige Literatur. DWT c Susanne Albers 279/460 Der Zentrale Grenzwertsatz hat die folgende intuitive Konsequenz: Wenn eine Zufallsgroe durch lineare Kombination vieler unabhangiger, identisch verteilter Zufallsgroen entsteht, so erhalt man naherungsweise eine Normalverteilung. DWT c Susanne Albers 280/460 Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die auftretenden Zufallsgroen Bernoulli-verteilt sind. Korollar 109 (Grenzwertsatz von de Moivre) X1 ; : : : ; Xn seien unabhangige Bernoulli-verteilte Zufallsvariablen mit gleicher Erfolgswahrscheinlichkeit p. Dann gilt fur die Zufallsvariable Hn mit Hn := X1 + : : : + Xn fur n 1, dass die Verteilung der Zufallsvariablen Hn := Hn np np(1 p) p fur n ! 1 gegen die Standardnormalverteilung konvergiert. DWT c Susanne Albers 281/460 Beweis: Die Behauptung folgt unmittelbar aus dem Zentralen Grenzwertsatz, da = n1 E[Hn ] = p und 2 = n1 Var[Hn ] = p(1 p). Bemerkung Wenn man X1 ; : : : ; Xn als Indikatorvariablen fur das Eintreten eines Ereignisses A bei n unabhangigen Wiederholungen eines Experimentes interpretiert, dann gibt Hn die absolute Haugkeit von A an. DWT c Susanne Albers 4 Zentraler Grenzwertsatz 282/460 4.1 Normalverteilung als Grenzwert der Binomialverteilung Korollar 109 ermoglicht, die Normalverteilung als Grenzwert der Binomialverteilung aufzufassen. Die folgende Aussage ist eine Konsequenz von Korollar 109: Korollar 110 Sei Hn Bin(n; p) eine binomialverteilte Zufallsvariable. Die Verteilung von Hn =n konvergiert gegen N (p; p(1 p)=n) fur n ! 1. DWT c Susanne Albers 4.1 Normalverteilung als Grenzwert der Binomialverteilung 283/460 0.4 0.4 Bin(10, 0.3) ϕ(x) 0.3 0.3 0.2 0.2 0.1 0.1 0.0 -4.0 -3.0 -2.0 -1.0 0.0 0.4 1.0 2.0 3.0 4.0 0.0 -4.0 0.3 0.2 0.2 0.1 0.1 -3.0 -2.0 -1.0 0.0 1.0 2.0 -3.0 -2.0 -1.0 0.0 0.4 Bin(50, 0.3) ϕ(x) 0.3 0.0 -4.0 Bin(20, 0.3) ϕ(x) 3.0 4.0 0.0 -4.0 1.0 2.0 3.0 4.0 3.0 4.0 Bin(100, 0.3) ϕ(x) -3.0 -2.0 -1.0 0.0 1.0 2.0 Vergleich von Binomial- und Normalverteilung n; 0:3) bei 0:3n zentriert, mit Bin( DWT c Susanne Albers p0:3 0:7n horizontal gestaucht und vertikal gestreckt 4.1 Normalverteilung als Grenzwert der Binomialverteilung 284/460 Historisch gesehen entstand Korollar 109 vor Satz 108. Fur den Fall p = 1=2 wurde Korollar 109 bereits von Abraham de Moivre (1667{1754) bewiesen. De Moivre war geburtiger Franzose, musste jedoch aufgrund seines protestantischen Glaubens nach England iehen. Dort wurde er unter anderem Mitglied der Royal Society, erhielt jedoch niemals eine eigene Professur. Die allgemeine Formulierung von Korollar 109 geht auf Pierre Simon Laplace (1749{1827) zuruck. Allerdings vermutet man, dass die Losung des allgemeinen Falls p 6= 1=2 bereits de Moivre bekannt war. DWT c Susanne Albers 285/460 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 Wir betrachten die Wahrscheinlichkeit Pr[a H2n b] fur p = 1=2 und a; b 2 R mit a b. Wenn die Verteilung von H2n , wieRin Korollar 109 angegeben, gegen N (0; 1) konvergiert, so sollte Pr[a H2n b] ab '(t) d t fur genugend groe n gelten. Wir schreiben f (n) 1 g (n) fur limn!1 f (n)=g (n) = 1, wollen also zeigen: Pr[a H 2n b] 1 Z b a '(t) d t: Da fur H2n Bin(2n; 1=2) gilt, dass E[H2n ] = n und Var[H2n ] = n=2 ist, erhalten wir H2n n ; H2n = p n=2 DWT c Susanne Albers 286/460 und es folgt p p Pr[a H2n b] = Pr[n + a n=2 H2n n + b n=2] X = Pr[H2n = n + i] i2In p p fur In := fz 2 Z j a n=2 z b n=2g. Damit ist 2n 2n 1 2n b] = n + i {z 2 i2In | Pr[a H X =:pn;i DWT c Susanne Albers : } 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 287/460 Es gilt 2n max pn;i pn := 2n i 21 n und mit der Stirling'schen Approximation fur n! p 2n n)! 1 = (2 (n!)2 2 ; (2n)2n e 2n p 2 2n 1 2n = p1 : pn 1 2 n (nn e n 2n)2 Ersetzen wir nun die pn;i durch pn , so entsteht dabei ein Fehler, den wir mit qn;i := ppn;i n bezeichnen. DWT c Susanne Albers 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 288/460 Fur i > 0 gilt qn;i = = 2n 1 2n n+i 2 2n 1 2n 2 n Qi 1 j =0 (n j ) Qi j =1 (n + j ) = (n + i(2)!n )!(n n! i)!n! (2n)! i i Y Y 2 j 1 n j+1 = 1 n+j : = n+j j =1 j =1 Wegen der Symmetrie der Binomialkoezienten gilt qn; i = qn;i , womit auch der Fall i < 0 abgehandelt ist. DWT c Susanne Albers 289/460 Man macht sich leicht klar, dass 1 schlieen wir, dass 0 ln @ i Y j =1 p 1 1 A 1 2nj + j 1=x ln x x 1 fur x > 0 gilt. Damit = i X ln 1 2nj + j1 j =1 i X i X 2 j 1 2j 1 n+j n+i j =1 j =1 2 3 = i(i n++1)i i = in + n(ni + i) 2 = in + O p1n ; da i = O( n) fur i 2 In . DWT c Susanne Albers 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 290/460 Ebenso erhalten wir 0 ln @ i Y j =1 1 1 A 1 2nj + j = i X 1 j =1 i X 1 2nj + j1 2j + 1 n j+1 j =1 i2 = n i = Zusammen haben wir e i2 n i =e i2 n O p1n qn;i e p Wegen eO(1= n) = 1 o(1) folgt daraus qn;i DWT c Susanne Albers 1 e i2 n i X 1! 2j 1 j =1 n i O p1n : i2 +O p1 n n i2 =n . 291/460 Damit schatzen wir nun Pr[a H2n b] weiter ab: X Pr[a H2n b] = pn qn;i 1 i2In Mit := p1n | X i 2I n e {z =:Sn i2 =n : } p 2=n konnen wir die Summe Sn umschreiben zu 1 X e (i) : Sn = p 2 i2In 2 1 2 R R 2 Diese Summe entspricht einer Naherung fur ab '(t) d t = p12 ab e t =2 d t durch Aufteilung der integrierten Flache in Balken der Breite ur n ! 1 konvergiert die R . F Flache der Balken gegen das Integral, d. h. Sn 1 ab '(t) d t. q. e. d. DWT c Susanne Albers 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2 292/460 4.3 Verschiedene Approximationen der Binomialverteilung Sei Hn Bin(n; p) eine binomialverteilte Zufallsvariable mit der Verteilungsfunktion Fn . Fur n ! 1 gilt Fn (t) = Pr[Hn =n t=n] ! t=n p ! p = p(1 p)=n ! t np p : p(1 p)n Wir konnen Fn somit fur groe n durch approximieren. Diese Approximation ist in der Praxis deshalb von Bedeutung, da die Auswertung der Verteilungsfunktion der Binomialverteilung fur groe n sehr aufwandig ist, wahrend fur die Berechnung der Normalverteilung eziente numerische Methoden vorliegen. DWT c Susanne Albers 4.3 Verschiedene Approximationen der Binomialverteilung 293/460 Beispiel 111 Wenn man die Wahrscheinlichkeit berechnen mochte, mit der bei 106 Wurfen mit einem idealen Wurfel mehr als 500500-mal eine gerade Augenzahl fallt, so muss man eigentlich folgenden Term auswerten: T := 10 X 106 6 i=5;00510 5 i 106 1 2 : Dies ist numerisch kaum ezient moglich. Die numerische Integration der Dichte ' der Normalverteilung ist hingegen relativ einfach. Auch andere Approximationen der Verteilung , beispielsweise durch Polynome, sind bekannt. Entsprechende Funktionen werden in zahlreichen Softwarebibliotheken als black box\ angeboten. " DWT c Susanne Albers 294/460 Beispiel Mit der Approximation durch die Normalverteilung erhalten wir 5;005p 105 5 105 T 1 2;5 105 102 = 1 55 10 2 = 1 (1) 0;1573 : DWT c Susanne Albers ! 4.3 Verschiedene Approximationen der Binomialverteilung 295/460 Bei der Approximation der Binomialverteilung mit Hilfe von Korollar 109 fuhrt man oft noch eine so genannte Stetigkeitskorrektur durch. Zur Berechnung von Pr[X x] fur X Bin(n; p) setzt man Pr[X x] xp+ 0;5 np np(1 p) statt an. DWT c Susanne Albers Pr[X x] p x np np(1 p) ! ! 296/460 Der Korrekturterm lat sich in der Histogramm-Darstellung der Binomialverteilung veranschaulichen. Die Binomialverteilung wird dort durch Balken angegeben, deren Flache in etwa der Flache unterhalb der Dichte ' von N (0; 1) entspricht. Wenn man die Flache der Balken mit X x\ durch das Integral von ' approximieren mochte, so " sollte man bis zum Ende des Balkens fur X = x\ integrieren und nicht nur bis zur " Mitte. Dafur sorgt der Korrekturterm 0;5. DWT c Susanne Albers 4.3 Verschiedene Approximationen der Binomialverteilung 297/460 Approximationen fur die Binomialverteilung Approximation durch die Poisson-Verteilung: Bin(n; p) wird approximiert durch Po(np). Diese Approximation funktioniert sehr gut fur seltene Ereignisse, d. h. wenn np sehr klein gegenuber n ist. Als Faustregel fordert man n 30 und p 0;05. Approximation durch die Cherno-Schranken: Bei der Berechnung der tails der Binomialverteilung liefern diese Ungleichungen meist sehr gute Ergebnisse. Ihre Starke liegt darin, dass es sich bei den Schranken nicht um Approximationen, sondern um echte Abschatzungen handelt. Dies ist vor allem dann wichtig, wenn man nicht nur numerische Naherungen erhalten mochte, sondern allgemeine Aussagen uber die Wahrscheinlichkeit von Ereignissen beweisen mochte. DWT c Susanne Albers 298/460 Approximation durch die Normalverteilung: Als Faustregel sagt man, dass die Verteilungsfunktion Fn (t) von Bin(n; p) durch p Fn (t) ((t np)= p(1 p)n) approximiert werden kann, wenn np 5 und n(1 DWT c Susanne Albers p) 5 gilt. 299/460 Kapitel III Induktive Statistik 1. Einfuhrung Das Ziel der induktiven Statistik besteht darin, aus gemessenen Zufallsgroen auf die zugrunde liegenden Gesetzmaigkeiten zu schlieen. Im Gegensatz dazu spricht man von deskriptiver Statistik, wenn man sich damit beschaftigt, groe Datenmengen verstandlich aufzubereiten, beispielsweise durch Berechnung des Mittelwertes oder anderer abgeleiteter Groen. DWT c Susanne Albers 1 Einfuhrung 300/460 2. Schatzvariablen Wir betrachten die Anzahl X von Lesezugrien auf eine Festplatte bis zum ersten Lesefehler und nehmen an, dass Pr[X = i] = (1 p)i 1 p, setzen also fur X eine geometrische Verteilung an. Dahinter verbirgt sich die Annahme, dass bei jedem Zugri unabhangig und mit jeweils derselben Wahrscheinlichkeit p ein Lesefehler auftreten kann. Unter diesen Annahmen ist die Verteilung der Zufallsvariablen X eindeutig festgelegt. Allerdings entzieht sich der numerische Wert des Parameters p noch unserer Kenntnis. Dieser soll daher nun empirisch geschatzt werden. Statt p konnen wir ebensogut E[X ] bestimmen, da wir daraus nach den Eigenschaften der geometrischen Verteilung p mittels p = E[1X ] berechnen konnen. DWT c Susanne Albers 2 Schatzvariablen 301/460 Dazu betrachten wir n baugleiche Platten und die zugehorigen Zufallsvariablen Xi (fur 1 i n), d. h. wir zahlen fur jede Platte die Anzahl von Zugrien bis zum ersten Lesefehler. Die Zufallsvariablen Xi sind dann unabhangig und besitzen jeweils dieselbe Verteilung wie X . Wir fuhren also viele Kopien eines bestimmten Zufallsexperiments aus, um Schlusse auf die Gesetzmaigkeiten des einzelnen Experiments ziehen zu konnen. Dies ist das Grundprinzip der induktiven Statistik. Die n Messungen heien Stichproben, und die Variablen Xi nennt man Stichprobenvariablen. DWT c Susanne Albers 302/460 Grundprinzip statistischer Verfahren Wir erinnern an das Gesetz der groen Zahlen (Satz 63) bzw. den Zentralen Grenzwertsatz (Satz 108). Wenn man ein Experiment genugend oft wiederholt, so nahert sich der Durchschnitt der Versuchsergebnisse immer mehr dem Verhalten an, das man im Mittel\ erwarten wurde. Je mehr Experimente wir also durchfuhren, umso " genauere und zuverlassigere Aussagen konnen wir uber den zugrunde liegenden Wahrscheinlichkeitsraum ableiten. Auf diesem Grundprinzip beruhen alle statistischen Verfahren. DWT c Susanne Albers 303/460 Um E[X ] empirisch zu ermitteln, bietet es sich an, aus den Zufallsvariablen Xi das arithmetische Mittel X zu bilden, das deniert ist durch n X 1 Xi : X := n i=1 Es gilt E[X ] = n n 1X 1X E[X ] = E[X ] = E[X ]: n i=1 i n i=1 X liefert uns also im Mittel den gesuchten Wert E[X ]. Da wir X zur Bestimmung von E[X ] verwenden, nennen wir X einen Schatzer fur den Erwartungswert E[X ]. Wegen der obigen Eigenschaft ist X sogar ein so genannter erwartungstreuer Schatzer. DWT c Susanne Albers 2 Schatzvariablen 304/460 Denition 112 Gegeben sei eine Zufallsvariable X mit der Dichte f (x; ). Eine Schatzvariable oder kurz Schatzer fur den Parameter der Dichte von X ist eine Zufallsvariable, die aus mehreren (meist unabhangigen und identisch verteilten) Stichprobenvariablen zusammengesetzt ist. Ein Schatzer U heit erwartungstreu, wenn gilt E[U ] = : Bemerkung: Die Groe E[U ] nennt man Bias der Schatzvariablen U . Bei erwartungstreuen Schatzvariablen ist der Bias gleich Null. DWT c Susanne Albers 305/460 Der Schatzer X ist also ein erwartungstreuer Schatzer fur den Erwartungswert von X . Ein wichtiges Ma fur die Gute eines Schatzers ist die mittlere quadratische Abweichung, kurz MSE fur mean squared error genannt. Diese berechnet sich durch MSE := E[(U )2 ]. Wenn U erwartungstreu ist, so folgt MSE = E[(U E[U ])2 ] = Var[U ]. Denition 113 Wenn die Schatzvariable A eine kleinere mittlere quadratische Abweichung besitzt als die Schatzvariable B , so sagt man, dass A ezienter ist als B . Eine Schatzvariable heit konsistent im quadratischen Mittel, wenn MSE ! 0 fur n ! 1 gilt. Hierbei bezeichne n den Umfang der Stichprobe. DWT c Susanne Albers 306/460 Fur X erhalten wir wegen der Unabhangigkeit von X1 ; : : : ; Xn " n 1X MSE = Var[X ] = Var Xi n = n12 DWT c Susanne Albers n X i=1 # i=1 Var[Xi ] = n1 Var[X ]: 307/460 Bei jeder Verteilung mit endlicher Varianz folgt MSE = O(1=n) und somit MSE ! 0 fur n ! 1. Der Schatzer X ist also konsistent. Aus der Konsistenz von X im quadratischen Mittel konnen wir mit Hilfe des Satzes von Chebyshev (siehe Satz 61) folgende Konsequenz ableiten. Sei " > 0 beliebig, aber fest. Dann gilt X] !0 Pr[jX j "] = Pr[jX E[X ]j "] Var[ 2 " fur n ! 1. Fur genugend groe n liegen also die Werte von X beliebig nahe am gesuchten Wert = E[X ]. Diese Eigenschaft nennt man auch schwache Konsistenz, da sie aus der Konsistenz im quadratischen Mittel folgt. DWT c Susanne Albers 2 Schatzvariablen 308/460 Als nachstes betrachten wir eine weitere von X abgeleitete Schatzvariable: S := v u u t 1 n X n 1 i=1 (Xi X )2 : Wir zeigen, dass S 2 ein erwartungstreuer Schatzer fur die Varianz von X ist. Sei := E[X ] = E[Xi ] = E[X ]. ( Xi X )2 = (Xi = (Xi + X )2 )2 + ( X )2 + 2(Xi )2 + ( Xi = ( = DWT c Susanne Albers n 2 n Xi ( X )2 )2 + ( 2 n X n j =1 X )2 2 Schatzvariablen )( ( Xi 2 )(Xj X n j 6=i X) ( Xi ) )(Xj ): 309/460 Fur je zwei unabhangige Zufallsvariablen Xi , Xj mit i 6= j gilt E[(Xi )(Xj )] = E[Xi ] E[Xj ] = (E[Xi ] ) (E[Xj ] ) = 0 0 = 0: Daraus folgt n 2 E[(Xi )2] + E[( X )2] n = n n 2 Var[Xi ] + Var[X ]: E[(Xi X )2 ] = DWT c Susanne Albers 310/460 Wegen Var[Xi ] = Var[X ] und Var[X ] = n1 Var[X ] folgt nun E[(Xi X )2 ] = n 1 Var[X ]; n und somit gilt fur S 2 E[S 2 ] = 1 n X E[(Xi X )2 ] n 1 i=1 = n 1 1 n n n 1 Var[X ] = Var[X ]: S 2 ist also eine erwartungstreue Schatzvariable fur die Varianz von X . DWT c Susanne Albers 311/460 Die vorangegangene Rechnung erklart, warum man als Schatzer nicht n 1X (X n i=1 i ! X )2 6= S 2 verwendet, wie man vielleicht intuitiv erwarten wurde. DWT c Susanne Albers 2 Schatzvariablen 312/460 Denition 114 Die Zufallsvariablen X := n n 1X 1 X Xi und S 2 := (Xi X )2 n n 1 i=1 i=1 heien Stichprobenmittel bzw. Stichprobenvarianz der Stichprobe X1 ; : : : ; Xn . X und S 2 sind erwartungstreue Schatzer fur den Erwartungswert bzw. die Varianz. DWT c Susanne Albers 313/460 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schatzvariablen fur Parameter von Verteilungen. Sei X~ = (X1 ; : : : ; Xn ): Bei X1 ; : : : ; Xn handelt es sich um unabhangige Kopien der Zufallsvariablen X mit der Dichte f (x; ). Hierbei sei der gesuchte Parameter der Verteilung. Wir setzen f (x; ) = Pr[X = x]; wobei ein Parameter der Verteilung ist. Wenn wir den Parameter explizit angeben wollen, so schreiben wir dafur auch f (x; ) = Pr [X = x]. Eine Stichprobe liefert fur jede Variable Xi einen Wert xi . Diese Werte fassen wir ebenfalls zu einem Vektor ~x = (x1 ; : : : ; xn ) zusammen. DWT c Susanne Albers 314/460 Der Ausdruck L(~x; ) := n Y i=1 f (xi ; ) = n Y i=1 Pr [Xi = xi ] = Pr [X1 = x1 ; : : : ; Xn = xn ] unabh. entspricht der Wahrscheinlichkeit, dass wir die Stichprobe ~x erhalten, wenn wir den Parameter mit dem Wert belegen. Wir betrachten nun eine feste Stichprobe ~x und fassen L(~x; ) somit als Funktion von auf. In diesem Fall nennen wir L die Likelihood-Funktion der Stichprobe. DWT c Susanne Albers 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 315/460 Es erscheint sinnvoll, zu einer gegebenen Stichprobe ~x den Parameter so zu wahlen, dass L(x; ) maximal wird. Denition 115 Ein Schatzwert b fur den Parameter einer Verteilung f (x; ) heit Maximum-Likelihood-Schatzwert (ML-Schatzwert) fur eine Stichprobe ~x, wenn gilt L(~x; ) L(~x; b) fur alle : DWT c Susanne Albers 316/460 Beispiel 116 Wir konstruieren mit der ML-Methode einen Schatzer fur den Parameter p der Bernoulli-Verteilung. Es gilt Prp [Xi = 1] = p und Prp [Xi = 0] = 1 p. Daraus schlieen wir, dass Prp [Xi = xi ] = pxi (1 p)1 xi , und stellen die Likelihood-Funktion n Y L(~x; p) = pxi (1 p)1 xi i=1 auf. Wir suchen als Schatzer fur p den Wert, an dem die Funktion L maximal wird. Wir erhalten n ln L(~x; p) = X i=1 (xi ln p + (1 xi ) ln(1 p)) = nx ln p + (n nx) ln(1 p): P Hierbei bezeichnet x das arithmetische Mittel n1 ni=1 xi . DWT c Susanne Albers 317/460 Beispiel (Forts.) Wir nden das Maximum durch Nullsetzen der Ableitung: d ln L(~x; p) dp = npx n1 npx = 0: Diese Gleichung hat die Losung p = x. DWT c Susanne Albers 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 318/460 Beispiel 117 Die Zufallsvariable X sei N (; 2 )-verteilt, und wir suchen Schatzvariablen fur die Parameter und . Nach Denition der Likelihood-Funktion gilt L(~x; ; 2 ) = p1 2 n n Y i=1 exp (xi )2 : 2 2 Durch Logarithmieren erhalten wir X p ln L(~x; ; 2 ) = n(ln 2 + ln ) + i=1 n DWT c Susanne Albers (xi )2 : 2 2 319/460 Beispiel 117 Fur die Nullstellen der Ableitungen ergibt sich also n @ ln L X = xi2 =! 0; @ i=1 n (xi )2 =! 0; @ ln L n X = + @ i=1 3 = x und 2 = n 1X (x n i=1 i )2 : Wir haben also durch die ML-Methode fast\ das Stichprobenmittel und die " Stichprobenvarianz erhalten. Allerdings besitzt der Schatzer fur die Varianz hier den Vorfaktor n1 statt n 1 1 . Die ML-Schatzvariable fur die Varianz ist somit nicht erwartungstreu. DWT c Susanne Albers 319/460 3. Kondenzintervalle Bei der Verwendung von Schatzvariablen geht man davon aus, dass der erhaltene Schatzwert nahe\ beim gesuchten Parameter liegt. Die Schatzungen werden " besser\, je groer die betrachtete Stichprobe ist. Diese Angaben sind aus " quantitativer Sicht naturlich unbefriedigend, da nicht erkennbar ist, wie gut man sich auf den Schatzwert verlassen kann. Die Losung dieses Problems besteht darin, statt einer Schatzvariablen U zwei Schatzer U1 und U2 zu betrachten. U1 und U2 werden so gewahlt, dass Pr[U1 U2 ] 1 : Die Wahrscheinlichkeit 1 heit Kondenzniveau und kann dem Sicherheitsbedurfnis\ angepasst werden. " DWT c Susanne Albers 320/460 Wenn wir fur eine konkrete Stichprobe die Schatzer U1 und U2 berechnen und davon ausgehen, dass 2 [U1 ; U2 ] ist, so ziehen wir hochstens mit Wahrscheinlichkeit einen falschen Schluss. [U1 ; U2 ] heit Kondenzintervall. In vielen Fallen verwendet man nur eine Schatzvariable U und konstruiert mittels U1 := U und U2 := U + ein symmetrisches Kondenzintervall [U ; U + ]. DWT c Susanne Albers 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 321/460 Sei X eine N (; 2 )-verteilte Zufallsvariable, und seien X1 ; : : : ; Xn n zugehorige Stichprobenvariablen. Gema der Additivitat der Normalverteilung (siehe Satz 106) ist 2 das Stichprobenmittel X ebenfalls normalverteilt mit X N (; n ). Wir suchen fur X ein symmetrisches Kondenzintervall. Nach Satz 93 ist standardnormalverteilt. DWT c Susanne Albers p X Z := n 322/460 Fur Z betrachten wir das Kondenzintervall [ c; c] fur ein geeignetes c > 0 und setzen Pr[ c Z c] =! 1 : Auosen nach ergibt Pr X pcn X + pcn =! 1 : Das gesuchte Kondenzintervall lautet also K = [X DWT c Susanne Albers pcn ; X + pcn ] : 323/460 Den Parameter c wahlen wir wie folgt: Pr[ c Z c] = (c) ( c) =! 1 : Wegen der Symmetrie von gilt ( x) = 1 (x) und wir erhalten (c) ( c) = 2 (c) 1 =! 1 () (c) = 1 2 ; also DWT c Susanne Albers c= 1 1 2 : 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 324/460 Denition 118 X sei eine stetige Zufallsvariable mit Verteilung FX . Eine Zahl x mit FX (x ) = heit -Quantil von X bzw. der Verteilung FX . Denition 119 Fur die Standardnormalverteilung bezeichnet z das -Quantil. DWT c Susanne Albers 325/460 Damit konnen wir das gesuchte Kondenzintervall angeben durch K= X DWT c Susanne Albers z(1 2 ) z(1 2 ) pn ; X + pn : 326/460 4. Testen von Hypothesen 4.1 Einfuhrung Bislang haben wir versucht, Parameter von Verteilungen zu schatzen. In der Praxis ist man jedoch oft an der eigentlichen Kenntnis dieser Parameter gar nicht interessiert, sondern man mochte gewisse, damit zusammenhangende Behauptungen uberprufen. Im Folgenden stellen wir die Bestandteile eines statistischen Tests anhand eines abstrakten Beispiels vor. Wir betrachten dazu eine Zufallsvariable X mit Pr[X = 1] = p und Pr[X = 0] = 1 p. Durch einen Test soll uberpruft werden, ob p < 1=3 oder p 1=3 gilt. DWT c Susanne Albers 327/460 Denition eines Tests Wir betrachten eine Stichprobe von n unabhangigen Stichprobenvariablen X1 ; : : : ; Xn , die dieselbe Verteilung wie die Zufallsvariable X besitzen. Zu einem zugehorigen Stichprobenvektor ~x mussen wir nun die Frage beantworten, ob wir fur diesen Versuchsausgang die Hypothese p 1=3\ annehmen oder ablehnen. " Sei K := f~x 2 Rn ; ~x fuhrt zur Ablehnung der Hypotheseg: K nennen wir den Ablehnungsbereich oder den kritischen Bereich des Tests. DWT c Susanne Albers 4.1 Einfuhrung 328/460 Gewohnlich wird K konstruiert, indem man die Zufallsvariablen X1 ; : : : ; Xn zu einer neuen Variablen T , der so genannten Testgroe, zusammenfasst. Dann unterteilt man den Wertebereich R von T in mehrere Bereiche, die entweder zur Ablehnung der Hypothese fuhren sollen oder nicht. Dabei betrachtet man meist ein einzelnes halboenes oder abgeschlossenes Intervall und spricht dann von einem einseitigen bzw. von einem zweiseitigen Test. e R enthalte die Werte von T , die zur Ablehnung der Hypothese f Die Menge K uhren sollen. Da wir Tests immer uber eine Testgroe denieren, werden wir der Einfachheit e als Ablehnungsbereich bezeichnen. K e R entspricht direkt dem halber auch K 1 n e Ablehnungbereich K = T (K ) R , wie wir ihn oben festgelegt haben. DWT c Susanne Albers 329/460 Die zu uberprufende Hypothese bezeichnen wir mit H0 und sprechen deshalb auch von der Nullhypothese. Bei manchen Tests formuliert man noch eine zweite Hypothese H1 , die so genannte Alternative. Im Beispiel konnen wir H0 : p 1=3 und H1 : p < 1=3 setzen. Manchmal verzichtet man darauf, H1 anzugeben. Dann besteht die Alternative wie oben einfach darin, dass H0 nicht gilt. In diesem Fall nennen wir H1 triviale Alternative. DWT c Susanne Albers 330/460 Ein echter, also nicht-trivialer Alternativtest lage beispielsweise vor, wenn wir ansetzen H00 : p 1=3 und H10 : p 1=6: Beispiel 120 Wir untersuchen eine Festplatte, von der bekannt ist, dass sie zu einer von zwei Baureihen gehort. Die mittleren Zugriszeiten dieser Baureihen betragen 9ms bzw. 12ms. Wir mochten nun herausnden, zu welchem Typ die betrachtete Festplatte gehort, indem wir die Zugriszeit bei n Zugrien bestimmen. Hier wurde man dann ansetzen: H0 : 9 und H1 := 12, wobei die mittlere Zugriszeit bezeichnet. DWT c Susanne Albers 331/460 Fehler bei statistischen Tests Bei jedem statistischen Test konnen mit einer gewissen Wahrscheinlichkeit falsche Schlusse gezogen werden. Dieser Fall tritt beispielsweise ein, wenn H0 gilt, aber das Ergebnis ~x der Stichprobe im Ablehnungsbereich K liegt. Dann spricht man von einem Fehler 1. Art. Analog erhalten wir einen Fehler 2. Art, wenn H0 nicht gilt und ~x nicht im Ablehnungsbereich liegt. Fehler 1. Art : H0 gilt, wird aber abgelehnt. Fehler 2. Art : H0 gilt nicht, wird aber angenommen. DWT c Susanne Albers 332/460 Fur die Beurteilung eines Tests ist es wesentlich, mit welcher Wahrscheinlichkeit diese beiden Fehler eintreten konnen. Ziel ist es naturlich, diese Wahrscheinlichkeiten moglichst klein zu halten. Allerdings sind die Minimierung des Fehlers 1. Art und des Fehlers 2. Art gegenlauge Ziele, so dass ein vernunftiger Ausgleich zwischen beiden Fehlern gefunden werden muss. Wenn man beispielsweise K = ; setzt, so erhalt man Wahrscheinlichkeit Null fur den Fehler 1. Art, da H0 immer angenommen wird. Allerdings tritt der Fehler 2. Art dann mit Wahrscheinlichkeit Eins ein, wenn H0 nicht gilt. DWT c Susanne Albers 4.1 Einfuhrung 333/460 Die Wahrscheinlichkeit fur den Fehler 1. Art wird mit bezeichnet, und man spricht deshalb gelegentlich vom -Fehler. heit auch Signikanzniveau des Tests. In der Praxis ist es ublich, sich ein Signikanzniveau vorzugeben (ubliche Werte hierfur sind 0;05, 0;01 oder 0;001) und dann den Test so auszulegen (also den Ablehnungsbereich K so zu bestimmen), dass die Wahrscheinlichkeit fur den Fehler 1. Art den Wert besitzt. DWT c Susanne Albers 334/460 Konstruktion eines einfachen Tests Wir konstruieren einen Test fur den Parameter p einer Bernoulli-verteilten Zufallsvariablen X . Wir setzen H0 : p p0 ; H1 : p < p0 : Als Testgroe verwenden wir T := X1 + : : : + Xn : Fur groere Wahrscheinlichkeiten p erwarten wir auch groere Werte fur T . Deshalb ist es sinnvoll, einen Ablehnungsbereich der Art K := [0; k] fur T zu wahlen, wobei k 2 R geeignet festzulegen ist. Wir konstruieren hier also einen einseitigen Test, wahrend fur eine Nullhypothese H0 : p = p0 sowohl zu kleine als auch zu groe Werte von T zur Ablehnung von H0 fuhren sollten und somit ein zweiseitiger Test vorzuziehen ware. DWT c Susanne Albers 4.1 Einfuhrung 335/460 T ist binomialverteilt. Da wir von einem groen Stichprobenumfang n ausgehen, bietet es sich an, die Verteilung von T nach dem Grenzwertsatz von de Moivre (siehe Korollar 109) durch die Normalverteilung zu approximieren. Sei T~ := T~ ist annahernd standardnormalverteilt. DWT c Susanne Albers T np : np(1 p) p 4.1 Einfuhrung 336/460 Wir berechnen fur jeden Wert von k das zugehorige Signikanzniveau des Tests. 2 K] Pr [T k] = pmax 2H p Fehlerwahrscheinlichkeit 2. Art = sup Prp [T 62 K ] Fehlerwahrscheinlichkeit 1. Art = max Prp [T p2H0 0 p2H1 = sup Prp [T > k] p2H1 DWT c Susanne Albers 337/460 Fur den Fehler 1. Art erhalten wir = max Prp [T pp0 " k] = Prp=p [T k] 0 # = Prp=p0 T~ p k np np(1 p) " # k np 0 = Pr T~ p np0 (1 p0 ) DWT c Susanne Albers ! k np0 p : np0 (1 p0 ) 338/460 Unter Verwendung der Quantile der Standardnormalverteilung ergibt sich damit: p Ist k so gewahlt, dass (k np0 )= np0 (1 p0 ) = z , so ist das Signikanzniveau gleich . Ist das gewunschte Signikanzniveau des Tests vorgegeben, so erhalt man den Wert k = k(n) in Abhangigkeit vom Umfang n der Stichprobe durch p k = z np0 (1 p0 ) + np0 : (8) Kleinere Werte fur k verkleinern zwar den Fehler 1. Art, vergroern jedoch den Annahmebereich und damit die Wahrscheinlichkeit fur einen Fehler 2. Art. DWT c Susanne Albers 4.1 Einfuhrung 339/460 Verhalten der Testfehler Wie verhalten sich die moglichen Testfehler des konstruierten Verfahrens? Was geschieht beispielsweise, wenn p nur geringfugig kleiner als p0 ist? In diesem Fall betrachten wir beim Fehler 2. Art die Wahrscheinlichkeit Prp=p " [T k] Prp=p [T k] 1 : 0 0 Wenn sich also die wahren\ Verhaltnisse nur minimal von unserer Nullhypothese " unterscheiden, so werden wir diese im Zweifelsfall\ annehmen. " DWT c Susanne Albers 340/460 Bei echten Alternativtests werden fur hinreichend groe Stichproben und einen geeignet eingestellten Ablehnungsbereich beide Testfehler klein. Beispiel 121 Die Abbruchrate p der Transaktionen in einem Online-Datenbanksystem wurde bereits fruher einmal ermittelt. Allerdings sind die entsprechenden Daten verloren gegangen und die Entwickler erinnern sich nur noch, dass das Ergebnis entweder p = 1=3 oder p = 1=6 lautete. Unter dieser Annahme wurde man den Test wie folgt ansetzen: H0 : p 1=3; DWT c Susanne Albers H10 : p 1=6: 341/460 Beispiel (Forts.) Fur den Fehler 2. Art erhalt man nun: Fehlerwahrsch. 2. Art = max Prp [T > k] p1=6 ! 1 pk (1=6) n : (1=6) (5=6)n Mit den obigen Werten k = 25 und n = 100 ergibt sich mit p p 100 = ( 5) 0;9871 150 5 10 ein Fehler 2. Art der Groe 0;0129, wahrend sich fur die triviale Alternative H1 : p < 1=3 ein Wert von etwa 0;95 ergibt. DWT c Susanne Albers 342/460 Die so genannte Gutefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Fur unser hier entworfenes Testverfahren gilt ! k np : g(n; p) = Prp [T 2 K ] = Prp [T k] p np(1 p) DWT c Susanne Albers 4.1 Einfuhrung 343/460 n = 50 n = 100 n = 200 1,0 0,8 0,6 0,4 0,2 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Gutefunktion g (n; p) fur verschiedene Werte von n DWT c Susanne Albers 4.1 Einfuhrung 344/460 Man erkennt deutlich, dass fur alle n der Wert von k = k(n) genau so gewahlt wurde, dass g (n; 1=3) = 0;05 gilt. Dies wird durch den in Gleichung 8 angegebenen Ausdruck erreicht. Fur Werte von p groer als 1=3 wird H0 : p 1=3 mit hoher Wahrscheinlichkeit angenommen, wahrend fur Werte deutlich unter 1=3 die Hypothese H0 ziemlich sicher abgelehnt wird. Ferner ist auallig, dass g fur groere Werte von n schneller von Eins auf Null fallt. Daran erkennt man, dass durch den Test die Falle H0 gilt\ und H0 gilt nicht\ umso " " besser unterschieden werden konnen, je mehr Stichproben durchgefuhrt werden. Fur Werte von p, bei denen g (n; p) weder nahe bei Eins noch nahe bei Null liegt, kann der Test nicht sicher entscheiden, ob die Nullhypothese abzulehnen ist. DWT c Susanne Albers 4.1 Einfuhrung 345/460 4.2 Praktische Anwendung statistischer Tests Das im vorhergehenden Abschnitt konstruierte Testverfahren taucht in der Literatur unter dem Namen approximativer Binomialtest auf. berblick uber die Eckdaten dieses Tests. Die folgende Tabelle 1 gibt einen U DWT c Susanne Albers 346/460 Tabelle : Approximativer Binomialtest Annahmen: X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Pr[Xi = 1] = p und Pr[Xi = 0] = 1 p, wobei p unbekannt sei. n sei hinreichend gro, so dass die Approximation aus Korollar 109 brauchbare Ergebnisse liefert. Hypothesen: a) H0 : p = p0 gegen H1 : p 6= p0 , b) H0 : p p0 gegen H1 : p < p0 , c) H0 : p p0 gegen H1 : p > p0 . Testgroe: Z := h np0 ; np0 (1 p0 ) p wobei h := X1 + : : : + Xn die Haugkeit bezeichnet, mit der die Ereignisse Xi = 1 aufgetreten sind. Ablehnungskriterium fur H0 bei Signikanzniveau : a) jZ j > z1 =2 , b) Z < z , c) Z > z1 . DWT c Susanne Albers 4.2 Praktische Anwendung statistischer Tests 347/460 4.3 Allgemeines Vorgehen bei statistischen Tests 1. Schritt: Formulierung von Annahmen. Ganz ohne Annahmen kommt man meist nicht bliche Annahmen betreen meist die Verteilung der Stichprobenvariablen aus. U und deren Unabhangigkeit. 2. Schritt: Formulierung der Nullhypothese. 3. Schritt: Auswahl des Testverfahrens. 4. Schritt: Durchfuhrung des Tests und Entscheidung. DWT c Susanne Albers 348/460 4.4 Ausgewahlte statistische Tests 4.4.1 Wie ndet man das richtige Testverfahren? Statistische Tests kann man nach mehreren Kriterien in Klassen einteilen. Anzahl der beteiligten Zufallsgroen Sollen zwei Zufallsgroen mit potentiell unterschiedlichen Verteilungen verglichen werden, fur die jeweils eine Stichprobe erzeugt wird (Zwei-Stichproben-Test), oder wird nur eine einzelne Zufallsgroe untersucht (Ein-Stichproben-Test)? DWT c Susanne Albers 349/460 Bei der Fragestellung Betragt die mittlere Zugriszeit auf einen Datenbankserver im Mittel hochstens 10ms? hat man es mit einem Ein-Stichproben-Test zu tun, wahrend die Untersuchung der Frage Hat Datenbankserver A eine kurzere mittlere Zugriszeit als Datenbankserver B? auf einen Zwei-Stichproben-Test fuhrt. DWT c Susanne Albers 350/460 Bei mehreren beteiligten Zufallsgroen wird zusatzlich unterschieden, ob aus voneinander unabhangigen Grundmengen Stichproben erhoben werden oder nicht. Beim vorigen Beispiel werden unabhangige Messungen vorgenommen, sofern die Server A und B getrennt voneinander arbeiten. Wenn man jedoch die Frage Lauft ein Datenbankserver auf einer Menge festgelegter Testanfragen mit Query-Optimierung schneller als ohne? untersucht, so spricht man von verbundenen Messungen. DWT c Susanne Albers 351/460 Gelegentlich betrachtet man auch den Zusammenhang zwischen mehreren Zufallsgroen. Beispielsweise konnte man sich fur die Frage interessieren: Wie stark wachst der Zeitbedarf fur eine Datenbankanfrage im Mittel mit der (syntaktischen) Lange der Anfrage, d. h. fuhren kompliziertere Formulierungen zu proportional langeren Laufzeiten? Mit solchen Fragenstellungen, bei denen ein funktionaler Zusammenhang zwischen Zufallsgroen ermittelt werden soll, beschaftigt sich die Regressionsanalyse. Wenn uberhaupt erst zu klaren ist, ob ein solcher Zusammenhang besteht oder ob die Zufallsgroen vielmehr unabhangig voneinander sind, so spricht man von Zusammenhangsanalyse. DWT c Susanne Albers 4.4 Ausgewahlte statistische Tests 352/460 Formulierung der Nullhypothese Welche Groe dient zur Denition der Nullhypothese? Hierbei werden in erster Linie Tests unterschieden, die Aussagen uber verschiedene so genannte Lageparameter treen, wie z.B. den Erwartungswert oder die Varianz der zugrunde liegenden Verteilungen. Im Zwei-Stichproben-Fall konnte man beispielsweise untersuchen, ob der Erwartungswert der Zufallsgroe A groer oder kleiner als bei Zufallsgroe B ist. Gelegentlich wird zur Formulierung der Nullhypothese auch der so genannte Median betrachtet: Der Median einer Verteilung entspricht dem (kleinsten) Wert x mit F (x) = 1=2. Neben solchen Tests auf Lageparameter gibt es z.B. auch Tests, die auf eine vorgegebene Verteilung oder auf ein Ma fur die Abhangigkeit verschiedener Zufallsgroen testen. DWT c Susanne Albers 353/460 Annahmen uber die Zufallsgroen Was ist uber die Verteilung der untersuchten Groe(n) bekannt? Bei entsprechenden Annahmen konnte es sich z.B. um die Art der Verteilung, den Erwartungswert oder die Varianz handeln. DWT c Susanne Albers 354/460 4.4.2 Ein-Stichproben-Tests fur Lageparameter Beim approximativen Binomialtest wird ausgenutzt, dass die Binomialverteilung fur groe n nach dem Grenzwertsatz von de Moivre (Korollar 109) gegen die Normalverteilung konvergiert. Aus diesem Grund kann man diesen Test auch als Spezialfall eines allgemeineren Testverfahrens ansehen, namlich des Gautest, der nun dargestellt wird. DWT c Susanne Albers 355/460 Tabelle : Gautest Annahmen: X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Xi N (; 2 ), wobei 2 bekannt ist. Alternativ gelte E[Xi ] = und Var[Xi ] = 2 , und n sei gro genug. Hypothesen: a) H0 : = 0 gegen H1 : 6= 0 , b) H0 : 0 gegen H1 : < 0 , c) H0 : 0 gegen H1 : > 0 . Testgroe: Z := X 0 p n: Ablehnungskriterium fur H0 bei Signikanzniveau : a) jZ j > z1 =2 , b) Z < z , c) Z > z1 . DWT c Susanne Albers 4.4 Ausgewahlte statistische Tests 356/460 Der Gautest hat den Nachteil, dass man die Varianz 2 der beteiligten Zufallsgroen kennen muss. Wenn diese unbekannt ist, so liegt es nahe, die Varianz durch die Stichprobenvarianz S 2 (siehe Denition 114) anzunahern. Dies fuhrt auf den so bersicht dargestellt ist. genannten t-Test, der in der folgenden U DWT c Susanne Albers 4.4 Ausgewahlte statistische Tests 357/460 Tabelle : t-Test Annahmen: X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Xi N (; 2 ). Alternativ gelte E[Xi ] = und Var[Xi ] = 2 , und n sei gro genug. Hypothesen: a) H0 : = 0 gegen H1 : 6= 0 , b) H0 : 0 gegen H1 : < 0 , c) H0 : 0 gegen H1 : > 0 . Testgroe: T := X S 0 p n: Ablehnungskriterium fur H0 bei Signikanzniveau : a) jT j > tn 1;1 =2 , b) T < tn 1; , c) T > tn 1;1 . DWT c Susanne Albers 358/460 Hierbei gibt tn 1;1 das (1 )-Quantil der t-Verteilung mit n 1 Freiheitsgraden an. Die t-Verteilung taucht manchmal auch unter dem Namen Student-Verteilung auf, da sie ursprunglich unter dem Pseudonym Student\ publiziert wurde. " Wir gehen an dieser Stelle nicht darauf ein, wieso die Testgroe die t-Verteilung besitzt, sondern weisen nur darauf hin, dass die Dichte dieser Verteilung (eigentlich handelt es sich um eine ganze Familie von Verteilungen, da die Anzahl der Freiheitsgrade jeweils noch gewahlt werden kann) der Dichte der Normalverteilung ahnelt. Fur groe n (Faustregel: n 30) liegen die beiden Dichten so genau ubereinander, dass man in der Praxis die t-Verteilung durch die Normalverteilung annahert. DWT c Susanne Albers 359/460 0,4 n=1 n=5 n = 20 n !1 0,3 0,2 0,1 0,0 -4,0 -2,0 0,0 2,0 4,0 Dichte der t-Verteilung mit n Freiheitsgraden DWT c Susanne Albers 360/460 Als weitere Beispiele fur gangige Ein-Stichproben-Tests zu Lageparametern seien der Wilcoxon-Test und der 2 -Varianztest genannt. Ersterer dient zum Testen von Hypothesen zum Median, wahrend der zweite Test Hypothesen zur Varianz beinhaltet. DWT c Susanne Albers 361/460 4.4.3 Zwei-Stichproben-Tests fur Lageparameter Bei Zwei-Stichproben-Tests wollen wir das Verhaltnis von Lageparametern untersuchen. Besonders wichtig sind hierbei Tests zum Erwartungswert. Fur zwei Zufallsgroen X und Y konnten wir beispielsweise die Frage untersuchen, ob fur die Erwartungswerte X und Y gilt, dass X = Y ist. DWT c Susanne Albers 4.4 Ausgewahlte statistische Tests 362/460 Tabelle : Zwei-Stichproben-t-Test Annahmen: X1 ; : : : ; Xm und Y1 ; : : : ; Yn seien unabhangig und jeweils identisch verteilt, wobei Xi Yi N (Y ; Y2 ) gelte. Die Varianzen seien identisch, also X2 = Y2 . Hypothesen: a) H0 : X b) H0 : X c) H0 : X Testgroe: T := s = Y gegen H1 : X 6= Y , gegen H1 : X < Y , gegen H1 : X > Y . Y Y n+m 2 1 m + n1 N (X ; X2 ) und q X Y (m 1) SX2 + (n 1) SY2 : Ablehnungskriterium fur H0 bei Signikanzniveau : a) jT j > tm+n 2;1 =2 , b) T < tm+n 2; , c) T > tm+n 2;1 . DWT c Susanne Albers 4.4 Ausgewahlte statistische Tests 363/460 Vom Zwei-Stichproben-t-Test ndet man in der Literatur noch zusatzliche Varianten, die auch dann einsetzbar sind, wenn die beteiligten Zufallsgroen nicht dieselbe Varianz besitzen. Der beim Ein-Stichproben-Fall erwahnte Wilcoxon-Test kann ebenfalls auf den Zwei-Stichproben-Fall ubertragen werden. DWT c Susanne Albers 364/460 4.4.4 Nicht an Lageparametern orientierte Tests Wir betrachten in diesem Abschnitt exemplarisch den 2 -Anpassungstest. Bei einem Anpassungstest wird nicht nur der Lageparameter einer Verteilung getestet, sondern es wird die Verteilung als Ganzes untersucht. Beim approximativen Binomialtest (siehe Tabelle 1) haben wir streng genommen bereits einen Anpassungstest durchgefuhrt. Bei der Nullhypothese H0 : p = p0 wird untersucht, ob es sich bei der betrachteten Zufallsgroe um eine Bernoulli-verteilte Zufallsvariable mit Parameter p0 handelt. Beim 2 -Test gehen wir nun einen Schritt weiter: Wir nehmen an, dass die Zufallsgroe X genau k verschiedene Werte annimmt. Ohne Beschrankung der Allgemeinheit sei WX = f1; : : : ; kg. Die Nullhypothese lautet nun H0 : Pr[X = i] = pi fur i = 1; : : : ; k: DWT c Susanne Albers 4.4 Ausgewahlte statistische Tests 365/460 Tabelle : 2 -Anpassungstest Annahmen: X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit WXi Hypothesen: = f1; : : : ; kg. H0 : Pr[X = i] = pi fur i = 1; : : : ; k; H1 : Pr[X = i] 6= pi fur mindestens ein i 2 f1; : : : ; kg; Testgroe: T= k X i=1 (hi npi )2 ; np i wobei hi die Haugkeit angibt, mit der X1 ; : : : ; Xn den Wert i angenommen haben. Ablehnungskriterium fur H0 bei Signikanzniveau : T > 2k 1;1 ; dabei sollte gelten, dass npi 1 fur alle i und npi 5 fur mindestens 80% der Werte i = 1; : : : ; k. DWT c Susanne Albers 366/460 Fur die Testgroe T wird naherungsweise eine 2 -Verteilung mit k 1 Freiheitsgraden angenommen. Die Werte dieser Verteilung nden sich in entsprechenden Tabellen in der Literatur. Damit diese Approximation gerechtfertigt ist, sollte gelten, dass npi 1 fur alle i und npi 5 fur mindestens 80% der Werte i = 1; : : : ; k. Das -Quantil einer 2 -Verteilung mit k Freiheitsgraden bezeichnen wir mit 2k; . DWT c Susanne Albers 367/460 1,0 n=1 n=2 n=3 n=5 0,8 0,6 0,4 0,2 0,0 0,0 1,0 2,0 3,0 4,0 5,0 Dichte der 2 -Verteilung mit n Freiheitsgraden DWT c Susanne Albers 368/460 Beispiel 122 Als Anwendung fur den 2 -Test wollen wir uberprufen, ob der Zufallszahlengenerator von Maple eine gute Approximation der Gleichverteilung liefert. Dazu lassen wir Maple n = 100000 Zufallszahlen aus der Menge f1; : : : ; 10g generieren. Wir erwarten, dass jede dieser Zahlen mit gleicher Wahrscheinlichkeit p1 = : : : = p10 = 1=10 auftritt. Dies sei unsere Nullhypothese, die wir mit einem Signikanzniveau von = 0;05 testen wollen. Beispiel: i hi 1 2 3 4 5 6 7 8 9 10 10102 10070 9972 9803 10002 10065 10133 9943 10009 9901 Fur den Wert der Testgroe gilt T = 8;9946. Ferner erhalten wir 29;0;95 16;919. Der Test liefert also keinen Grund, die Nullhypothese abzulehnen. DWT c Susanne Albers 4.4 Ausgewahlte statistische Tests 369/460 Das Prinzip des 2 -Anpassungstests kann in leicht abgewandelter Form auch noch zum Testen einiger anderer Hypothesen verwendet werden: Beim 2 -Homogenitatstest wird uberpruft, ob zwei oder mehrere Verteilungen identisch sind, wahrend beim 2 -Unabhangigkeitstest zwei Zufallsgroen auf Unabhangigkeit untersucht werden. Beschreibungen dieser Tests ndet man in der Literatur. DWT c Susanne Albers 4.4 Ausgewahlte statistische Tests 370/460 Kapitel IV Stochastische Prozesse 1. Einfuhrung Wir betrachten zeitliche Folgen von Zufallsexperimenten. Mathematisch beschreibt man diese durch einen so genannten stochastischen Prozess. Darunter versteht man eine Folge von Zufallsvariablen (Xt )t2T , die das Verhalten des Systems zu verschiedenen Zeitpunkten t angeben. DWT c Susanne Albers 1 Einfuhrung 371/460 Wenn wir T = N0 annehmen, sprechen wir von einem stochastischen Prozess mit diskreter Zeit. Lasst man andererseits T = R+ 0 zu, so spricht man von stochastischen Prozessen mit kontinuierlicher Zeit. Eine besonders einfache Art von stochastischen Prozessen sind so genannte Markov-Ketten. Diese haben die Eigenschaft, dass der nachste Zustand des Prozesses zwar vom aktuellen Zustand abhangen darf, nicht aber von der Historie, d.h. davon, wie der aktuelle Zustand erreicht wurde. DWT c Susanne Albers 372/460 2. Prozesse mit diskreter Zeit 2.1 Einfuhrung Denition 123 Eine (endliche) Markov-Kette (mit diskreter Zeit) uber der Zustandsmenge S = f0; : : : ; n 1g besteht aus einer unendlichen Folge von Zufallsvariablen (Xt )t2N0 mit Wertemenge S sowie einer Startverteilung q0 mit q0T 2 Rn . Die Komponenten von q0 sind hierbei 0 und addieren sich zu 1. Fur jede Indexmenge I f0; : : : ; t 1g und beliebige Zustande i; j; sk (k 2 I ) gilt Pr[Xt+1 = j j Xt = i; 8k 2 I : Xk = sk ] = Pr[Xt+1 = j j Xt = i] : DWT c Susanne Albers 2.1 Einfuhrung (9) 373/460 Sind die Werte pij := Pr[Xt+1 = j j Xt = i] von t unabhangig, so nennt man die Markov-Kette (zeit)homogen. In diesem Fall bergangsmatrix durch P = (pij )0i;j<n . Wenn man S = N0 zulasst, deniert man die U so spricht man von einer unendlichen Markov-Kette. Markov-Ketten sind nach Andrey Andreyevich Markov (1856{1922) benannt. DWT c Susanne Albers 374/460 Bedingung (9) heit Markov-Bedingung und besagt: Wenn wir den Zustand i zum Zeitpunkt t kennen, so hangt die bergangswahrscheinlichkeit zum Folgezustand j nur von i und j ab. Die U Vergangenheit (Zustande zu Zeitpunkten < t) der Markov-Kette spielt keine Rolle. Das Gedachtnis\ der Markov-Kette besteht also nur aus ihrem aktuellen Zustand und sie " wei\ nicht, wie sie dorthin gekommen ist. " Bei einer zeithomogenen Markov-Kette hat die (absolute) Zeit t keinen Einuss auf die bergangswahrscheinlichkeiten pij , d.h. das Systemverhalten wird nur durch den U aktuellen Zustand bestimmt und nicht durch eine absolute Uhr. DWT c Susanne Albers 375/460 Wahrscheinlichkeitsraum einer Markov-Kette Nehmen wir an, dass wir die Kette von der Zeit 0 bis zur Zeit t0 beobachten wollen. Wir bezeichnen die Folge von Zustanden, die von der Kette in dieser Zeit durchlaufen wurde, mit ~x = (x0 ; x1 ; : : : ; xt0 ). S t0 +1 sei die Menge moglicher Zustandsfolgen. Einer beliebigen Folge ! := (x0 ; x1 ; : : : ; xt0 ) 2 ordnen wir die Wahrscheinlichkeit Pr[!] = (q0 )x 0 t0 Y i=1 Pr[Xi = xi j Xi 1 = xi 1 ] zu. Dadurch erhalten wir einen diskreten Wahrscheinlichkeitsraum im Sinne der Denition. DWT c Susanne Albers 2.1 Einfuhrung 376/460 Beispiel 124 Pr[Xt+1 = 1 j Xt = 1] = 0;9; Pr[Xt+1 = 1 j Xt = 0] = 0;2 Pr[Xt+1 = 0 j Xt = 1] = 0;1; Pr[Xt+1 = 0 j Xt = 0] = 0;8 0;2 0;8 0 1 0;9 0;1 DWT c Susanne Albers 377/460 Einen bestimmten Ablauf des Systems kann man sich als so genannten Random Walk vorstellen. Wenn wir uns beispielsweise zum Zeitpunkt t = 0 im Knoten 1 (also X0 = 1) benden, dann fuhren von dort zwei Kanten weiter, namlich zu den Knoten 0 und 1. Diese Kanten sind mit Wahrscheinlichkeiten beschriftet, die sich zu Eins addieren. Gema dieser Wahrscheinlichkeiten entscheiden wir zufallig, wohin wir uns im nachsten Schritt begeben. DWT c Susanne Albers 378/460 Wir konnen auch die Frage beantworten, mit welcher Wahrscheinlichkeit wir uns zum Zeitpunkt t = 2 im Knoten 1 benden. Da wir vereinbarungsgema beim Knoten 1 starten, gibt es zwei mogliche Wege der Lange zwei durch den Graphen mit Endknoten 1, namlich 111\ und 101\. Die Wahrscheinlichkeiten fur diese Wege " " lauten 0;9 0;9 = 0;92 bzw. 0;1 0;2. Insgesamt erhalten wir also eine Wahrscheinlichkeit von 0;81 + 0;02 = 0;83. Auch eine Aussage uber die erwartete Anzahl Schritte, die wir im Knoten 1 bis zum bergang zu Knoten 0 verbleiben, ist schnell getroen. Die Wahrscheinlichkeit, ersten U dass man genau k Schritte verbleibt, ist (0;9)k 0;1. Die Anzahl Schritte ist also geometrisch verteilt mit Erfolgswahrscheinlichkeit 0;1. Der Erwartungswert ist daher 1=0;1 = 10. DWT c Susanne Albers 379/460 bergangswahrscheinlichkeiten 2.2 Berechnung von U Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor qt (den wir als Zeilenvektor schreiben). Die i-te Komponente (qt )i bezeichnet dabei die Wahrscheinlichkeit, mit der sich die Kette nach t Schritten im Zustand i aufhalt. Es gilt Pr[Xt+1 = k] = also bzw. in Matrixschreibweise DWT c Susanne Albers nX1 i=0 Pr[Xt+1 = k j Xt = i] Pr[Xt = i]; (qt+1 )k = nX1 i=0 pik (qt )i ; qt+1 = qt P: 380/460 Mit der Matrixschreibweise konnen wir qt einfach durch die Startverteilung q0 ausdrucken: qt = q0 P t : Ebenso gilt wegen der Zeithomogenitat allgemein fur alle t; k 2 N: qt+k = qt P k : bergang vom Die Eintrage von P k geben an, mit welcher Wahrscheinlichkeit ein U Zustand i zum Zustand j in genau k Schritten erfolgt. p(ijk) := Pr[Xt+k = j j Xt = i] = (P k )ij : DWT c Susanne Albers 381/460 Exponentiation von Matrizen Wenn P diagonalisierbar ist, so existiert eine Diagonalmatrix D und eine invertierbare Matrix B , so dass P = B D B 1 gilt. Diese erhalten wir durch Berechnung der Eigenwerte und Eigenvektoren von P und durch Transformation von P in den Raum der Eigenvektoren. Dann gilt DWT c Susanne Albers P k = B Dk B 1 : bergangswahrscheinlichkeiten 2.2 Berechnung von U 382/460 Beispiel 125 P = 00;;81 00;;29 Durch Bestimmung der Nullstellen des charakteristischen Polynoms der Matrix (P I ) erhalten wir die Eigenwerte 0;7 und 1, sowie die zugehorigen (rechten) Eigenvektoren 1 = DWT c Susanne Albers 2 und = 1 : 2 1 1 383/460 Beispiel 125 Damit und B 1= Damit ergibt sich beispielsweise P3 = DWT c Susanne Albers D = 00;7 01 und B = 12 11 2 1 1 1 0;73 0 0 13 1 3 1 3 : 2 3 1 3 1 3 1 3 1 3 0;562 2 0;219 3 bergangswahrscheinlichkeiten 2.2 Berechnung von U 0;438 0;781 383/460 bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf zwei bestimmte Zustande i und j beziehen: Wie wahrscheinlich ist es, von i irgendwann nach j zu kommen? Wie viele Schritte benotigt die Kette im Mittel, um von i nach j zu gelangen? DWT c Susanne Albers 384/460 Denition 126 Die Zufallsvariable Tij := minfn 0 j Xn = j , wenn X0 = ig zahlt die Anzahl der Schritte, die von der Markov-Kette fur den Weg von i nach j bergangszeit (engl. hitting time) vom Zustand i benotigt werden. Tij nennen wir die U zum Zustand j . Wenn j nie erreicht wird, setzen wir Tij = 1. Ferner denieren wir hij := E[Tij ]. Die Wahrscheinlichkeit, vom Zustand i nach beliebig vielen Schritten in den Zustand j zu gelangen, nennen wir Ankunftswahrscheinlichkeit fij . Formal denieren wir fij := Pr[Tij < 1]: DWT c Susanne Albers 385/460 Im Fall i = j gilt Tii = 0 und somit auch hii = 0, sowie fii = 1. Anschaulich ist dies bergangszeit gleich klar: Wenn Anfangs- und Zielzustand identisch sind, so ist die U Null. Fur viele Zwecke ist es andererseits auch interessant zu messen, wie lange es dauert, bis Zustand i zu einem spateren Zeitpunkt wieder besucht wird. Wir erganzen Denition 126 fur diesen Fall. Denition 127 Die Zufallsvariable Ti := minfn 1 j Xn = i, wenn X0 = ig zahlt die Anzahl Schritte, die von der Markov-Kette benotigt werden, um von i nach i zuruckzukehren (Ruckkehrzeit, engl. recurrence time). Der Erwartungswert sei hi := E[Ti ]. Die Wahrscheinlichkeit, mit der Ti einen endlichen Wert annimmt, nennt man Ruckkehrwahrscheinlichkeit: fi := Pr[Ti < 1]: DWT c Susanne Albers bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 386/460 1,0 Beispiel 128 1,0 0,5 0 0,5 1 2 3 0,5 0,5 Beispiel zur Berechnung von fij und hij Wir betrachten die obige Markov-Kette. Einige Besonderheiten fallen sofort auf: Beginnt man im Zustand 0, so kann man niemals einen der ubrigen Zustande bergangszeiten T01 , T02 und T03 sind daher 1. erreichen. Die U DWT c Susanne Albers 387/460 1,0 Beispiel 128 1,0 0,5 0 0,5 2 1 3 0,5 0,5 Beginnt man im Zustand 1, so entscheidet sich im ersten Schritt, ob die Kette sich zukunftig im linken Teil\ (Zustand 0) oder im rechten Teil\ (Zustand 2 " bergangszeit T10 gilt daher " und 3) aufhalt. Fur die U ( T10 = 1 1 falls X1 = 0; falls X1 = 2: Wegen Pr[X1 = 0 j X0 = 1] = 0;5 folgt f10 = 0;5 und E[T10 ] existiert nicht. DWT c Susanne Albers 387/460 1,0 Beispiel 128 1,0 0,5 0 0,5 1 2 3 0,5 0,5 Beginnt man im Zustand 2 oder 3, so wird die Kette auch weiterhin zwischen den Zustanden 2 und 3 hin und her pendeln\. Genauer: " Die Anzahl der Schritte, in denen die Kette im Zustand 3 bleibt, ist geometrisch verteilt mit Parameter 0;5. Der Zustand 3 wird daher im Mittel nach 1=0;5 = 2 Schritten verlassen. Da Zustand 2 der einzige Nachbar von 3 ist, folgt h32 = 2 und somit insbesondere auch f32 = 1. DWT c Susanne Albers 387/460 Lemma 129 Fur die erwarteten Ubergangs-/R uckkehrzeiten gilt hij = 1 + X hj = 1 + X k6=j k6=j pik hkj fur alle i; j 2 S; i 6= j; pjk hkj ; sofern die Erwartungswerte hij und hkj existieren. Fur die Ankunfts-/Ruckkehrwahrscheinlichkeiten gilt analog DWT c Susanne Albers fij = pij + X fj = pjj + X k6=j k6=j pik fkj fur alle i; j 2 S; i 6= j ; pjk fkj : bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 388/460 Beweis: Sei i 6= j . Wir bedingen auf das Ergebnis des ersten Schritts der Markov-Kette und erhalten aufgrund der Gedachtnislosigkeit Pr[Tij < 1 j X1 = k] = Pr[Tkj < 1] fur k 6= j sowie Pr[Tij < 1 j X1 = j ] = 1. fij = Pr[Tij < 1] = = pij + X k6=j X k 2S Pr[Tkj < 1 j X1 = k] pik Pr[Tkj < 1] pik = pij + X k6=j pik fkj : Die Ableitung fur fj (also i = j ) ist analog. DWT c Susanne Albers 389/460 Beweis: Sei wiederum i 6= j . Wegen der Gedachtnislosigkeit folgt E[Tij j X1 = k] = 1 + E[Tkj ] fur k 6= j . Ferner gilt E[Tij j X1 = j ] = 1. Bedingen wir wieder auf das Ergebnis des ersten Schritts, so folgt (siehe Satz 36): hij= E[Tij ] = = pij + X k6=j X k 2S E[Tij j X1 = k] pik (1 + E[Tkj ]) pik = 1 + X k6=j hkj pik : Wiederum ist die Herleitung fur hj analog. DWT c Susanne Albers bergangszeiten 2.3 Ankunftswahrscheinlichkeiten und U 389/460 1,0 Beispiel 130 1,0 0,5 0 0,5 1 2 3 0,5 0,5 bergangszeiten fur die Zustande 2 und 3 erhalten wir die Fur die Berechnung der U Gleichungen h2 = 1 + h32 ; h3 = 1 + 21 h23 und h23 = 1; h32 = 1 + 12 h32 = 2 : Durch Losen dieses Gleichungssystems erhalten wir die Werte h2 = 3, h3 = 1;5, h23 = 1 und h32 = 2, die man leicht veriziert. Die Ankunftswahrscheinlichkeiten lassen sich analog herleiten. Man erhalt f2 = f3 = f23 = f32 = 1. DWT c Susanne Albers 390/460 2.4 Das Gambler's Ruin Problem Anna und Bodo spielen Poker, bis einer von ihnen bankrott ist. A verfugt uber Kapital a, und B setzt eine Geldmenge in Hohe von m a aufs Spiel. Insgesamt sind also m Geldeinheiten am Spiel beteiligt. In jeder Pokerrunde setzen A und B jeweils eine Geldeinheit. A gewinnt jedes Spiel mit Wahrscheinlichkeit p. B tragt folglich mit Wahrscheinlichkeit q := 1 p den Sieg davon. Wir nehmen an, dass diese Wahrscheinlichkeiten vom bisherigen Spielverlauf und insbesondere vom Kapitalstand der Spieler unabhangig sind. DWT c Susanne Albers 2.4 Das Gambler's Ruin Problem 391/460 Wir modellieren das Spiel durch die Markov-Kette p 1 0 q 1 q p 2 q p q m p 1 1 m A interessiert sich fur die Wahrscheinlichkeit, mit der sie B in den Ruin treibt, also fur die Wahrscheinlichkeit fa;m (wir schreiben hier der Deutlichkeit halber fi;j statt fij ). Wir erhalten: fi;m = p fi+1;m + q fi 1;m fur 1 i < m 1; fm 1;m = p + q fm 2;m ; f0;m = 0: DWT c Susanne Albers (10) 392/460 Wir wollen nun fi;m allgemein als Funktion von m berechnen. Dazu beobachten wir zunachst, dass wir (10) wegen fm;m = 1 umschreiben konnen zu fi+1;m = (1=p) fi;m (q=p) fi 1;m fur 1 i < m: (11) Wir erganzen (11) um die Anfangswerte f0;m = 0 und f1;m = : (Fur den Moment fassen wir als Variable auf. Nach Losung der Rekursion werden wir so wahlen, dass die Bedingung fm;m = 1 erfullt ist.) DWT c Susanne Albers 393/460 Als Losung dieser linearen homogenen Rekursionsgleichung 2. Ordnung (11) ergibt sich fur p 6= 1=2: ! p fi;m = 2p 1 1 1 p p i : Setzen wir nun i = m, so folgt aus fm;m = 1, dass = p 1 2p 1 1 p m p gelten muss. DWT c Susanne Albers 394/460 Insgesamt erhalten wir somit das Ergebnis: 1 fj;m = 1 1 p j p : 1 p m p Fur p = 1=2 verlauft die Rechnung ahnlich. DWT c Susanne Albers 395/460 Beispiel 131 Wir wollen berechnen, wie lange A und B im Mittel spielen konnen, bis einer von ihnen bankrott geht. ha;m eignet sich dazu i.a. nicht (warum?). Wir betrachten stattdessen: Ti0 := "Anzahl der Schritte von Zustand i nach Zustand 0 oder m\ und setzen di := E[Ti0 ]: Oensichtlich gilt d0 = dm = 0 und fur 1 i < m di = qdi 1 + pdi+1 + 1 : DWT c Susanne Albers 396/460 Beispiel (Forts.) Wir betrachten nun nur den Fall p = q = 1=2 und erhalten di = i (m i) fur alle i = 0; : : : ; m: Wegen di mi m2 folgt also, dass das Spiel unabhangig vom Startzustand im Mittel nach hochstens m2 Schritten beendet ist. DWT c Susanne Albers 397/460 2.5 Stationare Verteilung Reale dynamische Systeme laufen oft uber eine lange Zeit. Fur solche Systeme ist es sinnvoll, das Verhalten fur t ! 1 zu berechnen. Wir betrachten wieder die Markov-Kette aus unserem Beispiel. Wir hatten gezeigt, bergangsmatrix P gilt: dass fur die U P =BDB 1 = DWT c Susanne Albers 2 1 107 0 1 1 0 1 2.5 Stationare Verteilung 1 3 1 3 1 3 2 : 3 398/460 Daraus folgt Pt = B Dt B 1 und fur t ! 1 erhalten wir lim t!1 DWT c Susanne Albers Pt = 12 11 7 t 10 0 = 12 11 00 01 1 3 1 3 0 1t 1 3 = 2 3 1 3 1 3 1 3 1 3 1 3 ; 2 3 2 3 : 2 3 399/460 Fur eine beliebige Startverteilung q0 = (a; 1 lim q t!1 t DWT c Susanne Albers = tlim q !1 0 Pt a) folgt = (a; 1 a) 1 3 1 3 2 3 2 3 = 13 a + 13 (1 a); 23 a + 32 (1 a) = ( 13 ; 23 ): 400/460 Das System konvergiert also unabhangig vom Startzustand in eine feste Verteilung. Der zugehorige Zustandsvektor = ( 13 ; 23 ) hat eine interessante Eigenschaft: 1 2 1 2 P = ( ; ) 00;;81 00;;29 = ( ; ) = : 3 3 3 3 ist also ein Eigenvektor der Matrix P zum Eigenwert 1 bezuglich Multiplikation von links. Dies bedeutet: Wenn die Kette einmal den Zustandsvektor angenommen hat, bergangen erhalten. so bleibt dieser bei allen weiteren U DWT c Susanne Albers 2.5 Stationare Verteilung 401/460 Denition 132 P sei die U bergangsmatrix einer Markov-Kette. Einen Zustandsvektor mit = P nennen wir stationare Verteilung der Markov-Kette. Besitzen alle Markov-Ketten die Eigenschaft, dass sie unabhangig vom Startzustand in eine bestimmte stationare Verteilung konvergieren? Nein! DWT c Susanne Albers 402/460 1 p 0 1 1 2 q Eine Markov-Kette mit absorbierenden Zustanden Die Abbildung zeigt die Kette aus dem gamblers ruin problem\ fur m = 2. Man sieht " sofort, dass hier sowohl 1 = (1; 0; 0) als auch 2 = (0; 0; 1) stationare Verteilungen sind. Die beiden Zustande 0 und 2 haben jeweils keine ausgehenden Kanten. Solche Zustande heien absorbierend. DWT c Susanne Albers 403/460 Denition 133 bergange Wir bezeichnen einen Zustand i als absorbierend, wenn aus ihm keine U herausfuhren, d.h. pij = 0 fur alle j 6= i und folglich pii = 1. Ein Zustand i heit transient, wenn fi < 1, d.h. mit positiver Wahrscheinlichkeit 1 fi > 0 kehrt der Prozess nach einem Besuch von i nie mehr dorthin zuruck. Ein Zustand i mit fi = 1 heit rekurrent. DWT c Susanne Albers 2.5 Stationare Verteilung 404/460 Denition 134 Eine Markov-Kette heit irreduzibel, wenn es fur alle Zustandspaare i; j 2 S eine Zahl n 2 N gibt, so dass p(ijn) > 0. Die Denition besagt anschaulich, dass jeder Zustand von jedem anderen Zustand aus mit positiver Wahrscheinlichkeit erreicht werden kann, wenn man nur genugend viele Schritte durchfuhrt. Dies ist bei endlichen Markov-Ketten genau dann der Fall, wenn bergangsdiagramms stark zusammenhangend ist. der gerichtete Graph des U DWT c Susanne Albers 405/460 Lemma 135 Fur irreduzible endliche Markov-Ketten gilt: fij = Pr[Tij < 1] = 1 fur alle Zustande i; j 2 S . Zusatzlich gilt auch, dass die Erwartungswerte hij = E[Tij ] alle existieren. DWT c Susanne Albers 406/460 Beweis: Wir betrachten zunachst den Beweis fur die Existenz von hij . Fur jeden Zustand k gibt es nach Denition der Irreduzibilitat ein nk , so dass p(kjnk ) > 0. Wir halten nk fest und setzen n := maxk nk und p := mink p(kjnk ) . Von einem beliebigen Zustand aus gelangen wir nach hochstens n Schritten mit Wahrscheinlichkeit mindestens p nach j . Wir unterteilen die Zeit in Phasen zu n Schritten und nennen eine Phase erfolgreich, wenn wahrend dieser Phase ein Besuch bei j stattgefunden hat. Die Anzahl von Phasen bis zur ersten erfolgreichen Phase konnen wir durch eine geometrische Verteilung mit Parameter p abschatzen. Die erwartete Anzahl von Phasen ist somit hochstens 1=p, und wir schlieen hij (1=p)n. Daraus folgt sofort, dass auch fij = Pr[Tij < 1] = 1. DWT c Susanne Albers 407/460 Satz 136 Eine irreduzible endliche Markov-Kette besitzt eine eindeutige stationare Verteilung , und es gilt j = 1=hjj fur alle j 2 S . Beweis: Wir zeigen zunachst, dass es einen Vektor 6= 0 mit = P gibt. Sei e := (1; : : : ; 1)T bergangsmatrix P gilt P e = e, der All-1-Vektor und I die Einheitsmatrix. Fur jede U da sich die Eintrage der Zeilen von P zu Eins addieren. Daraus folgt 0 = P e e = (P I )e, und die Matrix P I ist somit singular. Damit ist auch die transponierte Matrix (P I )T = P T I singular. Es gibt also einen (Spalten-)Vektor P6= 0 mit (P T I ) = 0 bzw. T P = T . Wir betrachten zunachst den Fall, dass 6= 0. Dann konnen wir o.B.d.A. annehmen, dass normiert ist, also dass Pi i i i = 1 gilt. DWT c Susanne Albers 408/460 Beweis (Forts.): Wegen Lemma 135 existieren die Erwartungswerte hij . Fur jeden Zustand j 2 S gelten somit nach Lemma 129 die Gleichungen i hij = i 1 + X k6=j pik hkj fur i 2 S , i 6= j: j hj + X i6=j i hij = 1 + = 1+ XX i2S k6=j X k6=j hkj P i i i pik hkj Wir addieren diese Gleichungen und erhalten wegen X i2S =1 i pik = 1 + X k6=j k hkj : Wegen hj > 0 ist auch j = 1=hj positiv, und stellt somit einen zulassigen Zustandsvektor dar. P Fur den Fall i i = 0 zeigt die entsprechende Rechnung wie zuvor, dass j = 0 fur alle j 2 S gilt. Dies steht im Widerspruch zu 6= 0. DWT c Susanne Albers 2.5 Stationare Verteilung 409/460 Auch wenn eine Markov-Kette irreduzibel ist und somit eine eindeutige stationare Verteilung besitzt, so muss sie nicht zwangslaug in diese Verteilung konvergieren. 1 0 1 1 Eine Markov-Kette mit periodischen Zustanden Als Startverteilung nehmen wir q0 ( = (1; 0) an. Es gilt: (1; 0) falls t gerade, qt = (0; 1) sonst. Die Kette pendelt also zwischen den beiden Zustandsvektoren (1; 0) und (0; 1) hin und her. DWT c Susanne Albers 410/460 Denition 137 Die Periode eines Zustands j ist deniert als die grote Zahl 2 N, so dass gilt: fn 2 N0 j p(jjn) > 0g fi j i 2 N0g Ein Zustand mit Periode = 1 heit aperiodisch. Wir nennen eine Markov-Kette aperiodisch, wenn alle Zustande aperiodisch sind. DWT c Susanne Albers 411/460 bergangsdiagramm einen Fur ein n 2 N gilt p(iin) > 0 genau dann, wenn es im U geschlossenen Weg von i nach i der Lange n gibt. Damit folgt insbesondere: Ein Zustand i 2 S einer endlichen Markov-Kette ist sicherlich dann aperiodisch, wenn bergangsdiagramm er im U eine Schleife besitzt (also pii > 0) oder auf mindestens zwei geschlossenen Wegen W1 und W2 liegt, deren Langen l1 und l2 teilerfremd sind (fur die also ggT(l1 ; l2 ) = 1 gilt). DWT c Susanne Albers 412/460 Lemma 138 Ein Zustand i 2 S ist genau dann aperiodisch, falls gilt: Es gibt ein n0 2 N, so dass p(iin) > 0 fur alle n 2 N; n n0 . Beweis: Da je zwei aufeinanderfolgende naturliche Zahlen teilerfremd sind, folgt aus der Existenz eines n0 mit der im Lemma angegebenen Eigenschaft sofort die Aperiodizitat des Zustands. Nehmen wir daher umgekehrt an, dass der Zustand i aperiodisch ist. Mit Hilfe des erweiterten euklidischen Algorithmus kann man die folgende Aussage zeigen. Fur je zwei naturliche Zahlen a; b 2 N gibt es ein n0 2 N, so dass gilt: Bezeichnet d := ggT(a; b) den groten gemeinsamen Teiler von a und b, so gibt es fur alle n 2 N; n n0 nichtnegative Zahlen x; y 2 N0 mit nd = xa + yb. DWT c Susanne Albers 413/460 Beweis (Forts.): Wegen pii(xa+yb) (p(iia) )x (p(iib) )y folgt daraus unmittelbar: Gilt fur a; b 2 N, dass sowohl p(iia) als auch p(iib) positiv sind, so gilt auch p(iind) > 0 fur alle n 2 N, n n0 . Aus der Aperiodizitat des Zustand i folgt andererseits, dass es Werte a0 ; : : : ; ak geben muss mit p(iiai ) > 0 und der Eigenschaft, dass fur d1 = ggT(a0 ; a1 ) und di := ggT(di 1 ; ai ) fur i = 2; : : : ; k gilt: d1 > d2 > > dk = 1. Aus beiden Beobachtungen zusammen folgt die Behauptung. DWT c Susanne Albers 414/460 Korollar 139 Fur irreduzible, aperiodische endliche Markov-Ketten gilt: Es gibt ein t 2 N, so dass unabhangig vom Startzustand (qt )i > 0 fur alle i 2 S . Beweis: Aus der Irreduzibilitat folgt, dass die Markov-Kette jeden Zustand i 2 S irgendwann besuchen wird. Wegen Lemma 138 wissen wir ferner, dass die Kette hinreichend viele Schritte nach dem ersten Besuch in i in jedem folgenden Zeitschritt mit positiver Wahrscheinlichkeit zu i zuruckkehren wird. Da die Kette endlich ist, gibt es daher ein n0 , so dass die Kette sich unabhangig vom Startzustand fur alle n n0 in jedem Zustand i 2 S mit positiver Wahrscheinlichkeit aufhalt. DWT c Susanne Albers 2.5 Stationare Verteilung 415/460 Die Aperiodizitat einer irreduziblen Markov-Kette kann auf einfache Weise sichergestellt werden. Man fugt an alle Zustande so genannte Schleifen an. Diese bergangswahrscheinlichkeit p = 1=2 und halbiert die versieht man mit der U Wahrscheinlichkeiten an allen ubrigen Kanten. 0;5 1;0 0 0;7 2 1 0;3 1;0 ! 0;5 0;5 0 0;5 0;35 2 1 0;15 0;5 Einfuhrung von Schleifen Bei irreduziblen Ketten genugt es, eine einzige Schleife einzufuhren, um die Aperiodizitat der Kette sicherzustellen. Denition 140 Irreduzible, aperiodische Markov-Ketten nennt man ergodisch. DWT c Susanne Albers 416/460 Satz 141 (Fundamentalsatz fur ergodische Markov-Ketten) Fur jede ergodische endliche Markov-Kette (Xt )t2N0 gilt unabhangig vom Startzustand lim q n!1 n = ; wobei die eindeutige stationare Verteilung der Kette bezeichnet. Beweis: Gema Satz 136 existiert eine stationare Verteilung . Wir zeigen, dass fur beliebige Zustande i und k gilt p(ikn) ! k fur n ! 1: Daraus folgt die Behauptung, da (qn )k = DWT c Susanne Albers X i2S (q0 )i p(ikn) ! k X i2S (q0 )i = k : 417/460 Beweis (Forts.): (Yt )t2N0 sei eine unabhangige Kopie der Kette (Xt )t2N0 . Fur den Prozess Zt := (Xt ; Yt ) (t 2 N0 ), bei dem die Ketten Xt und Yt gewissermaen "parallel\ betrieben werden, gilt also Pr[(Xt+1 ; Yt+1 ) = (jx ; jy ) j (Xt ; Yt ) = (ix ; iy )] = Pr[Xt+1 = jx j Xt = ix ] Pr[Yt+1 = jy j Yt = iy ] = pix jx piy jy : (Zt )t2N ist daher ebenfalls eine Markov-Kette. Fur die Wahrscheinlichkeit, in n Schritten von (ix ; iy ) nach (jx ; jy ) zu gelangen, erhalt man analog pi(xnj)x p(iynj)y , was fur genugend groes n gema Lemma 138 positiv ist. (Zt )t 2N ist daher ebenfalls 0 ergodisch. DWT c Susanne Albers 0 418/460 Beweis (Forts.): Wir starten nun Zt so, dass die Ketten Xt und Yt in verschiedenen Zustanden ix bzw. iy beginnen, und interessieren uns fur den Zeitpunkt H , bei dem sich Xt und Yt zum ersten Mal im gleichen Zustand benden. Die Menge der Zustande von Zt ist gegeben durch S S . Wir denieren die Menge M := f(x; y) 2 S S j x = yg: von Zustanden der Kette Zt , an denen sich Xt und Yt treen\. Denieren wir nun die " Trezeit H durch H := maxfT(ix ;iy );(jx ;jy ) j (ix ; iy ) 2 S S; (jx ; jy ) 2 M g; so folgt aus Lemma 135 und der Endlichkeit der Markov-Kette sofort, dass Pr[H < 1] = 1 und E[H ] < 1. DWT c Susanne Albers 2.5 Stationare Verteilung 419/460 Beweis (Forts.): Da die weitere Entwicklung der Ketten Xt und Yt ab dem Zeitpunkt H nur vom bergangsmatrix abhangt, wird jeder Zustand s 2 SZ zu Zustand XH = YH und der U den Zeiten t H von Xt und Yt mit derselben Wahrscheinlichkeit angenommen. Es gilt also Pr[Xt = s j t H ] = Pr[Yt = s j t H ] und somit auch Pr[Xt = s; t H ] = Pr[Yt = s; t H ]: (12) Als Startzustand wahlen wir fur die Kette Xt den Zustand i, wahrend Yt in der stationaren Verteilung beginnt (und naturlich auch bleibt). Damit erhalten wir fur einen beliebigen Zustand k 2 S und n 1 jp(n) j = jPr[X = k] Pr[Y = k]j ik DWT c Susanne Albers k n n = jPr[Xn = k; n H ] + Pr[Xn = k; n < H ] Pr[Yn = k; n H ] Pr[Yn = k; n < H ]j: 420/460 Beweis (Forts.): Nun konnen wir (12) anwenden und schlieen, dass jp(ikn) k j = jPr[Xn = k; n < H ] Pr[Yn = k; n < H ]j: Zur Abschatzung dieses Ausdrucks benutzen wir die Abschatzung jPr[A \ B ] Pr[A \ C ]j Pr[A]: fur beliebige Ereignisse A, B und C (die oensichtlich ist). Wir erhalten jp(ikn) k j Pr[n < H ]: Da Pr[H < 1] = 1, gilt Pr[n < H ] ! 0 fur n ! 1, d.h. die Wahrscheinlichkeiten p(ikn) konvergieren fur n ! 1 gegen k . DWT c Susanne Albers 421/460 2.6 Doppeltstochastische Matrizen Wie berechnet man die nach Satz 141 (eindeutig bestimmte) stationare Verteilung, gegen die ergodische endliche Markov-Ketten fur jede Startverteilung konvergieren? Eine Moglichkeit besteht darin, das lineare Gleichungssystem P = aufzustellen und zu losen. Fur groere Matrizen ist dieses Verfahren allerdings im Allgemeinen sehr aufwandig. Wir stellen hier einen anderen Ansatz vor. DWT c Susanne Albers 2.6 Doppeltstochastische Matrizen 422/460 Denition 142 Eine n n Matrix P = (pij )0i;j<n heit stochastisch, falls alle Eintrage pij nichtnegativ und alle Zeilensummen gleich Eins sind: nX1 j =0 pij = 1 fur alle i = 0; : : : ; n 1: Sind zusatzlich auch alle Spaltensummen gleich 1, also nX1 i=0 pij = 1 fur alle j = 0; : : : ; n 1; so nennt man P doppeltstochastisch. bergangsmatrix einer Markov-Kette ist immer stochastisch, und umgekehrt. Die U DWT c Susanne Albers 2.6 Doppeltstochastische Matrizen 423/460 Lemma 143 Ist P eine doppeltstochastische n n Matrix, so ist = ( n1 ; : : : ; n1 ) ein Eigenvektor zum Eigenwert 1 bezuglich Multiplikation von links: = P: Beweis: Fur alle 0 k < n gilt: nX1 1 ( P )k = i pik = n pik = n1 = k : i=0 i=0 nX1 | {z } =1 DWT c Susanne Albers 424/460 Zusammen mit Satz 141 erhalten wir damit sofort: Satz 144 Fur jede ergodische endliche Markov-Kette (Xt )t2N0 mit doppeltstochastischer Ubergangsmatrix gilt unabhangig vom Startzustand lim q t!1 t = ( n1 ; : : : ; n1 ); wobei n die Kardinalitat der Zustandsmenge bezeichne. Beweis: Klar! DWT c Susanne Albers 2.6 Doppeltstochastische Matrizen 425/460 Beispiel 145 Anna und Bodo verabreden sich wieder einmal zu einer Partie Poker. Misstrauisch geworden durch ihre Verluste beim letzten Rendezvous verdachtigt Anna mittlerweile ihren Spielpartner, beim Mischen zu mogeln. Um ganz sicher zu gehen, dass die Karten zukunftig auch wirklich gut gemischt werden, schlagt sie folgendes Verfahren vor: Der Stapel mit Karten wird verdeckt hingelegt; dann werden m-mal jeweils zwei Karten daraus zufallig ausgewahlt und vertauscht. Soll Bodo dieser Prozedur zustimmen? DWT c Susanne Albers 2.6 Doppeltstochastische Matrizen 426/460 Beispiel 145 Wir modellieren den oben skizzierten Mischvorgang durch eine Markov-Kette. Als Zustandsmenge S wahlen wir alle moglichen Anordnungen der Karten. Identizieren wir die Karten mit den Zahlen [n] = f1; : : : ; ng, so besteht S aus der Menge aller Permutationen der Menge [n]. Betrachten wir nun zwei verschiedene Permutationen ; 2 S . Nach Denition der bergangswahrscheinlichkeit p; genau dann positiv, wenn es Markov-Kette ist die U i; j 2 [n], i 6= j , gibt, so dass 8 > < (j ) falls k = i; (k) = (i) falls k = j; > : (k) sonst. DWT c Susanne Albers 426/460 Beispiel 145 Da nach Voraussetzung i und j zufallig gewahlt werden (und es genau n2 solcher Paare i; j gibt), gilt in diesem Fall p; = 1= n2 . Da man jede Vertauschung zweier Karten durch nochmaliges Vertauschen wieder ruckgangig machen kann, sieht man auch sofort ein, dass p; = p; gilt. Die bergangsmatrix P ist also symmetrisch und damit insbesondere auch U doppeltstochastisch. Aus Satz 144 folgt somit, dass die Markov-Kette unabhangig von der Startverteilung zur Gleichverteilung konvergiert. Der von Anna vorgeschlagene Mischvorgang ist also in der Tat sinnvoll: Fur m ! 1 konvergiert die Wahrscheinlichkeitsverteilung fur die sich ergebende Kartenreihenfolge gegen die Gleichverteilung, die Karten sind also bestens gemischt! DWT c Susanne Albers 426/460 Beispiel 145 Anmerkung: Man kann zeigen, dass fur n Karten bereits m = O(n log n) Vertauschungen genugen, um einen gut durchmischten Kartenstapel zu erhalten. DWT c Susanne Albers 426/460