1 Elementare Wahrscheinlichkeitstheorie 1.1 Zufallsexperiment Definition 1.1. Ein Zufallsexperiment ist ein ”Vorgang”, der im Prinzip beliebig oft unter identischen Randbedingungen wiederholt werden kann. Damit ist natürlich jedes naturwissenschaftliche Experiment auch ein Zufallsexperiment (was ja auch stimmt: Bei jeder Messung werden Fehler gemacht!). Interessant sind für uns insbesondere solche Experimente, deren Ergebnisse aufgrund der Komplexität der Randbedingungen nicht mit Sicherheit vorhergesagt werden können. Das klassische Beispiel ist der Münzwurf oder der Würfelwurf. Definition 1.2. Die Menge der möglichen Ergebnisse eines Zufallsexperimentes heißt der Ereignisraum Ω. Beispiel 1.3. 1. Im Fall des Würfels ist Ω = {1, 2, 3, 4, 5, 6}. 2. Beim Lotto “6 aus 49” ist Ω = {A ⊂ {1, . . . , 49} : |A| = 6}. 3. Beim Münzwurf gilt Ω = {Kopf, Zahl}. 4. Wir können auch eine Reißzwecke werfen und die möglichen Ausgänge sind dann “bleibt auf dem Kopf liegen (Stachel zeigt nach oben)” oder “fällt auf die Seite”. Hier ist von vornherein nicht klar, wie “wahrscheinlich” welcher Ausgang des Zufallsexperimentes ist: Man muß einfach oft genug eine Reißzwecke (oder einmal ganz viele) werfen und die “relativen Häufigkeiten” auszählen. 5. Wenn wir mit zwei Würfeln werfen und als Ausgang des Experimentes die Summe der Augenzahlen nehmen, dann haben wir ein Zufallsexperiment mit Ω = {2, 3, . . . , 12}. Definition 1.4. Teilmengen des Ereignisraums Ω heißen Ereignisse. Sprechweise: Ist A ⊆ Ω und liegt das Ergebnis eines Zufallsexperimentes in A, so sagt man auch, das Ereignis A ist eingetreten. Spezielle Ereignisse A bekommen spezielle Namen: 1. |A| = 1: Elementarereignis. 2. A = Ω: Sicheres Ereignis 3. A = { }: Unmögliches Ereignis. 4. Sind A und B zwei Ereignisse mit A ∩ B = { }, dann heißen die Ereignisse disjunkt oder unvereinbar. 5. Das Ereignis Ω \ A heißt das Gegenereignis von A. Bezeichnung auch A. 1 Beispiel 1.5. Angenommen, wir würfeln mit zwei Würfeln gleichzeitig. Dann ist Ω = {A ⊆ {1, 2, 3, 4, 5, 6} : 1 ≤ |A| ≤ 2}. 6·5 6 6 und |Ω| = 2 + 1 = 2 + 6 = 15 + 6 = 21, wobei die einelementigen Mengen gerade die Situation beschreiben, dass beide Würfel dieselbe Zahl zeigen. Wenn wir aber zweimal nacheinander würfeln, wäre ein angemessener Ereignisraum, um dieses Zufallsexperiment zu beschreiben, Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}. eine Menge mit 36 Elementen. Ein mögliches Ereignis wäre in beiden Fällen das Werfen eines Paschs. Im ersten Fall wären das die einelementigen Teilmengen, im zweiten Fall {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. Da Ereignisse Teilmengen von Ω sind, kann man sie mengentheoretisch verknüpfen (Vereinigung, Schnitt, Komplement). Das Komplement haben wir schon betrachtet (Gegenereignis). Die Vereinigung A ∪ B beschreibt anschaulich das Ereignis “A oder B”, und A ∩ B das Ereignis “A und B”. 1.2 Wahrscheinlichkeitsraum Beachten Sie, dass wir bislang noch gar nicht von Wahrscheinlichkeiten gesprochen haben. Das kommt erst jetzt: Dazu nehmen wir an, dass |Ω| < ∞, also endlich ist, oder aber zumindest abzählbar unendlich, d.f. |Ω| = |N|. Im ersten Fall können wir die Ereignisse einfach als Ω = {ω1 , . . . , ωn } schreiben, im letzteren Fall wenigstens noch abzählen, also Ω = {ωi : i ∈ N}. Definition 1.6. Sei Ω eine endliche oder abzählbar unendliche Menge. und P : 2Ω → R eine Abbildung. Das Paar (Ω, P ) heißt Wahrscheinlichkeitsraum, wenn gilt: (K1) P (A) ≥ 0 für alle A ⊂ Ω. (K2) P (Ω) = 1. (K3) Sind Ai , i = 1, . . . paarweise disjunkte Ereignisse, so gilt P (A1 ∪ A2 ∪ . . .) = P (A1 ) + P (A2 ) + . . . . Die Abbildung P heißt Wahrscheinlichkeitsmaß. Der Wert P (A) heißt die Wahrscheinlichkeit für das Ereignis A. Mit diesem Axiomensystem umgeht man das Problem, was eigentlich eine Wahrscheinlichkeit ist: Wahrscheinlichkeit ist einfach etwas, was (K1), (K2) und (K3) erfüllt. Wir sprechen im Fall der Definition 1.6 von einem diskreten Wahrscheinlichkeitsraum (weil |Ω| höchstens abzaählbar unendlich ist). Im Fall überabzählbarer 2 Ereignisräume kann man nicht mehr sinnvoll jedem Ereignis (also jeder Teilmenge von Ω) eine W.K. zuordnen. Wir wollen dieses Problem hier nicht vertiefen; man sollte sich allerdings merken, dass es für überabzählbare Mengen Ω kein P gibt, das (K1), (K2), (K3) erfüllt und jeder Teilmenge von Ω einen Wert aus R zuordnet. In der Praxis genügt es aber, wenn wir allen mengen A, die wir durch abzählbare Vereinigung und Schnitte und Komplementbildung aus abgeschlossenen Intervallen erhalten so eine W.K. P (A) zurodnen können, dass (K1), (K2) und (K3) gilt. Wir werden aber zunächst nur diskrete Wahrscheinlichkeitsräume behandeln; dort treten die gerade angesprochenen Probleme nicht aus, und wir können jeder Teilmenge des Ereignisraumes eine W.K. zuordnen, insbesondere auch den einelementigen Teilmengen. Es ist klar, dass den Wahrscheinlichkeiten dieser Elementarereignisse eine besondere Bedeutung zukommt. Kennt man nämlich P ({ω}) (meistens ab jetzt P (ω) bezeichnet für alle ω ∈ Ω, dann kennt man bereits das ganze Wahrscheinlichkeitsmaß (im abzählbaren Fall, also in dem Fall, den wir diskret genannt haben). 1.3 Laplace-Experiment Das einfachste Wahrscheinlichkeitsmaß ist das folgende: Ω ist eine endliche 1 . Man sieht rasch, dass in dem Fall gilt: Menge, und P (ω) = |Ω| P (A) = |A| . |Ω| lax gesprochen: Anzahl günstiger Ausgänge geteilt durch die Anzahl möglicher Ausgänge eines Zufallsexperimentes. Um dieses Wahrscheinlichkeitsmaß mit einem Zufallsexperiment in Verbindung zu bringen, müssen wir nun doch von einer naiven Vorstellung von Wahrscheinlichkeit ausgehen: W.K. gibt an, wie oft ein Ereignis ungefähr eintritt, wenn wir das Zufallsexperiment nur oft genug wiederholen. Oder aber, etwas materialistisch: Der Kehrwert der W.K. für das Eintreten eines Ereignisses ist der Geldbetrag (z.B. in e), den ein intelligenter Wetter beim Einsatz eines Euros auf das Ereignis mindestens als Ausschüttung (inkl. Einsatz) erwartet. Wenn ich also 1e auf “gerade Zahl” beim Würfel setze, erwarte ich beim Eintreten dieses Ereignisses mindestens 2e, sonst würde ich (als halbwegs intelligenter Mensch) nicht wetten. Unter einem Laplace-Experiment verstehen wir nun ein Zufallsexperiment, bei dem das Ereignis A mit W.K. |A| |Ω| eintritt. Beispiel 1.7. Die Wahrscheinlichkeit, beim Würfeln mit einem Würfel eine bestimmte Zahl zu würfeln, ist 1/6, es liegt also ein Laplace-Experiment vor und so gilt z.B., dass die Wahrscheinlichkeit, eine gerade Zahl zu würfeln, 1/2 ist. 3 Beispiel 1.8. Mit welcher Wahrscheinlichkeit erhält man beim Würfeln mit zwei nicht unterscheidbaren Würfeln einen Pasch? Unser Ereignisraum hat hier die Mächtigkeit 21, und es gibt 6 Möglichkeiten für einen Pasch. Allerdings 6 6 , sondern 36 . Ähnlich ist die W.K., dass ist die Wahrscheinlichkeit nicht 21 2 1 sondern 36 . Es gibt also ein Würfel eine 1, ein anderer eine 2 zeigt, nicht 21 1 15 Elementarereignisse, die jeweils mit Wahrscheinlichkeit 18 eintreten, und 1 6 Elementarereignisse, die jeweils mit W.K. 36 eintreten (die Paschs), in der Summe gibt das 1. 1.4 Beispiel eines unendlichen Ereignisraumes Hier sei Ω = {0, 1, . . .} Dabei sei λ > 0 und das Eintreten eines Elementarereignisses {i} sei λi P (i) = e−λ i! und somit X P (A) = P (i). i∈A Offenbar gilt (K1) und (K3). Nicht ganz klar ist (K2): Benutze den bekannten Grenzwert ∞ X λi = eλ , i! i=0 also P (Ω) = ∞ X λi i=0 i! e−λ = 1. Wir werden diesem Wahrscheinlichkeitsmaß noch unter dem Stichwort “PoissonVerteilung” begegnen. 1.5 Elementare Eigenschaften eines Wahrscheinlichkeitsmaßes Satz 1.9. Sei (Ω, P ) ein Wahrscheinlichkeitsraum (d.h. bei uns zunächst einmal, dass Ω höchstens abzählbar unendlich ist). Dann gilt: 1. P (Ω \ A) = 1 − P (A). 2. P ({ }) = 0. 3. P (A ∪ B) = P (A) + P (B) − P (A ∩ B). 4. Wenn A ⊆ B, dann gilt P (A) ≤ P (B). Es ist wichtig zu bemerken, dass diese Eigenschaften aus den Axiomen in Definition 1.6 folgen, also beweisbar sind. Sie sind nicht Bestandteil des Axiomensystems. 4 1.6 Geburtstagsparadoxon: Anwendung in der Kryptographie Angenommen, jedes Dokument wird mit einem sogenannten Hashwert, der eine Zahl h mit 1 ≤ h ≤ N ist, “unterschrieben”. Diese Zahl berechnet sich aus dem Dokument (ist also so etwas wie eine Prüfziffer). Wie groß ist die W.K., dass bei n unterzeichneten Dokumenten alle verwendeten Hashwerte verschieden sind? Warum ist das wichtig. Hashwerte werden zur digitalen Signatur benutzt, d.h. eine Person (nennen wir sie Alice) unterzeichnet ein Dokument so, dass sie erst den Hashwert berechnet und dann den Hashwert digital unterschreibt. Der Empfänger, sagen wir Bob, kann überprüfen, ob die Signatur korrekt ist (dazu sagen wir hier nichts), und wenn ja, überprüft er, ob der Hashwert zum Dokument passt (denn sonst hätte unterwegs ja jemand das Dokument austauschen können!). Nun könnte aber ein “bad guy”, sagen wir Eve, in betrügerischer Absicht ganz viele harmlose Varianten des Dokumentes erzeugen, das Alice unterschreiben soll. Gleichzeitig erzeugt Eve viele Varianten eines gefälschten Dokumentes, zusammen mit den Hashwerten. Wenn sie ein Paar (S, T ) mit identischen Hashwerten gefunden hat, wobei S das richtige und T das gefälschte Dokument ist, legt sie S und den Hashwert von S Alice zur Unterschrift vor, und dann tauscht sie beim Senden an Bob den Text S durch T aus. Weil der Hashwert von T mit dem von S übereinstimmt, erkennt Bob die betrügerische Absicht von Eve nicht. Wie groß ist also die W.K. für eine Kollision, wenn man N Hashwerte hat (das ist jetzt nicht ganz das beschriebene Szenario: Bei dem oben beschriebenen Szenario hätten wir zwei Gruppen (die echten und die gefälschten Nachrichten) und fragen nach Kollisionen zwischen der EINEN und der ANDEREN Menge; hier geht es jetzt um Kollisionen innerhalb einer Menge). Es werden n Dokumente zufällig gewählt, und dann ist es vernünftig anzunehmen, dass auch die Hashwerte zufällig ausgewählt werden. Wir können uns das als ein Urnenexperiment vorstellen, wobei in der Urne N verschiedene Kugeln liegen (die Hashwerte) und es werden, mit Zurücklegen, n gezogen. Dann ist die Anzahl “günstiger” Ausgänge ohne Kollision N (N − 1)(N − 2) · · · (N − n + 1) = N! . (N − n)! Die Anzahl aller möglichen Ziehungen ist N n . Das liefert die gesuchte W.K. P = N! N −n+1 N N −1 = · ··· (N − n)!N n N N N = 0 1− N 1 2 n−1 1− 1− ··· 1 − . N N N Ist n/N klein, benutzen wir ex ≈ 1 − x und erhalten P ≈ e[−1−2−...−(n−1)]/N = e− 5 n(n−1) 2N . Wann ist dieser Wert 1/2? Er ist 1/2 wenn − n(n − 1) 1 = ln( ) = − ln(2), 2N 2 also n2 − n = 2N ln(2) gilt, d.h. r p 1 1 + 2N ln(2) ≈ 2 ln(2)N n= + 2 4 für große N . Für N = 365 erhalten wir n ≈ 23, also in einer Gruppe von 23 Menschen gibt es mit W.K. etwa 21 zwei, die am selben Tag Geburtstag feiern (daher der Name Geburtstagsparadoxon). 1.7 Bedingte Wahrscheinlichkeiten Definition 1.10. Zwei Ereignisse A und B heißen unabhängig, wenn P (A ∩ B) = P (A) · P (B) gilt. Beachten Sie den Unterschied zu unvereinbaren Ereignissen A und B (da gilt P (A ∩ B) = 0. Anschaulich soll bedingte Wahrscheinlichkeit folgendes bedeuten: Wir wollen P (B) bestimmen, wenn wir schon wissen, dass A eingetreten ist. Definition 1.11. Es seien A und B Ereignisse eines Ereignisraums Ω, auf dem ein Wahrscheinlichkeitsmaß P definiert ist. Ferner sei P (B) 6= 0. Dann definieren wir P (A ∩ B) P (A|B) := . P (B) Gesprochen: P von A gegeben B. Wir nennen P (A|B) die bedingte Wahrscheinlichkeit. Bemerkung 1.12. Es gilt P (A ∩ B) = P (B) · P (A|B) = P (A) · P (B|A). Satz 1.13 (Satz von Bayes). P (A|B) = P (A) P (B|A) P (B) sofern P (A), P (B) 6= 0. 6 Wenn zwei Ereignisse A und B unabhängig voneinander sind, gilt P (A|B) = P (A) P (B|A) = P (B). Manchmal nennt man P (A) die “a-priori” Wahrscheinlichkeit und P (A|B) die “a-posteriori”-Wahrscheinlichkeit. Das Problem, bedingte Wahrscheinlichkeiten vernünftig zu interpretieren, ist folgendes: Von Wahrscheinlichkeiten reden wir, wenn ein Zufallsexperiment durchgeführt wird, und die W.K. sagt dann etwas aus über das Ergebnis eines Experimentes, das in der Zukunft liegt, also erst ausgeführt wird. Wenn uns jemand nach Durchführung des Zufallsexperimentes ein wenig Informationen gibt (also sagt, das Ereignis B sei eingetreten), haben wir ja gar kein Zufallsexperiment mehr! Man muss vielmehr vor der Durchführung des Experimentes vereinbaren, ob die Information B weitergegeben wird. Wir schauen uns also all die Ausgänge eines Zufallsexperimentes an, die eintreten, wenn auch B eingetreten ist und auch wirklich nur dann! Wir erhalten so einen neuen Wahrscheinlichkeitsraum: Satz 1.14. Sei (Ω, P ) ein Wahrscheinlichkeitsraum und sei B ein Ereignis mit P (B) 6= 0. Dann definiert P (A|B) für A ⊆ Ω ein Wahrscheinlichkeitsmaß auf Ω. Dieses neue Maß wird auch PB (A) bezeichnet. Beispiel 1.15. Angenommen wir würfeln mit einem Würfel und B sei das Ereignis “es wird eine gerade Zahl gewürfelt”. Dann ist P ({1}|A) = 0 P ({2}|A) = 1/3 P ({3}|A) = 0 P ({4}|A) = 1/3 P ({5}|A) = 0 P ({6}|A) = 1/3. Satz 1.16 (Satz von der totalen Wahrscheinlichkeit). (Ω, P ) sei ein Wahrscheinlichkeitsraum, Ai ⊆ Ω mit 1 ≤ i ≤ m paarweise disjunkte Ereignisse mit Sm Ω = i=1 Ai . Ferner sei B ⊆ Ω sowie P (B), P (Ai ) 6= 0 für i = 1, . . . , m. Dann gilt m m X X P (B) = P (Ai ) · P (B|Ai ) = P (Ai ∩ B) i=1 i=1 sowie (Satz von Bayes) P (Ak |B) = P (Ak )P (B|Ak ) P (A) · P (B|Ak ) = Pm . P (B) i=1 P (Ai ) · P (B|Ai ) Beispiel 1.17. Nehmen wir an, wir leben in einem Land, in dem jede Familie genau zwei Kinder hat, jeweils 1/4 der Familien haben zwei Jungen und zwei 7 Mädchen, und bei jeweils 1/4 der Familien ist die Verteilung mj und jm, wobei im ersten Fall das Mädchen das erstgeborene Kind ist, im zweiten Fall der Junge. Es gilt hier also Ω = {mm, jj, mj, jm} und wir haben, wenn eine Familie zufällig ausgewählt wird, ein Laplace-Experiment. Nun nehmen wir an, dass in dem Land einem Besucher stets (falls möglich) zuerst die Tochter vorgestellt wird. Wenn man also eine Familie besucht und es wird eine Tochter vorgestellt, erhält man Teilinformationen, nämlich man weiß, dass das Ereignis B = {mj, jm, mm} eingetreten ist. Das liefert PB (mm) = 1/3 PB (mj) = 1/3 PB (jm) = 1/3 PB (jj) = 0. Das bedeutet, mit Wahrscheinlichkeit 2/3 handelt es sich bei der Familie um eine mit einem Mädchen und einem Jungen. Nun ändern sich die Traditionen in dem Land, und einem Besucher wird stets der/die Erstgeborene vorgestellt. Angenommen, dann wird uns eine Tochter vorgestellt. Das Ereignis C wäre dann C = {mm, mj} und wir erhalten PC (mm) = 1/2 PC (mj) = 1/2 PC (jm) = 0 PC (jj) = 0. Damit ist nun die Wahrscheinlichkeit für eine Familie mit einem Mädchen und einem Jungen genau 1/2. Nun ändern sich die Traditionen noch mehr und die Eltern schnappen sich irgendein Kind, das sie dem Besucher als erstes vorstellen. Angenommen, das ist ein Mädchen. Wie groß ist jetzt die W.K., daß das zweite Kind ein Junge ist? Oft wird hier so argumentiert wie im ersten Fall. Andererseits hat man intuitiv das Gefühl, die W.K. für das Geschlecht des zweiten Kindes sollte unabhängig sein vom Geschlecht eines zufällig beobachteten Kindes. Wie können wir hier vorgehen? Gehen wir zu einem gößeren Ereignisraum über: Ωe := Ω × Ωv , 8 wobei Ωv = {j, m} das Geschlecht des Kindes ist, das vorgestellt wird. Wir erhalten P (mm, m) = 1/4 P (mm, j) = 0 P (mj, m) = 1/8 P (mj, j) = 1/8 P (jm, m) P (jm, j) = = 1/8 1/8 P (jj, m) = 0 P (jj, j) = 1/4. Die Wahrscheinlichkeit, dass uns ein Mädchen vorgestellt wird (Ereignis D) ist 1/2. Wenn A das Ereignis bezeichnet “Ein Kind ist ein Junge”, so ist die Wahrscheinlichkeit P (A ∩ D) = 1/4, somit P (A|D) = 1/2. Dieses Beispiel soll zeige, das es schon wichtig ist zu wissen wie wir an die Teilinformation kommen. Das Zufallsexperiment, das zu einer bedingten Wahrscheinlichkeit PB gehört, ist eines, bei dem wir genau die Ereignisse aus B voraussetzen und keine Teilmenge von B, wie im letzten Fall, wo uns zufällig ein Kind vorgestellt wird. In dem Fall können wir zwar sicher sein, in der Menge {mm, mj, jm} zu liegen, aber wenn uns ein Junge vorgestellt wird, können wir nicht sicher sein, außerhalb von B zu liegen! Beachten Sie dabei: P (A|B) ist in der Regel etwas anderes als P (A|B 0 ) wenn B 0 ⊂ B! Wir können uns den Unterschied zwischen dem ersten und zweiten Szenario auch wie folgt klarmachen: Angenommen wir besuchen 1000 Familien. Dann werden uns im ersten Fall etwa 750 mal Mädchen vorgestellt, das sind genau die Situationen, in denen das Ereignis {mm, mj, jm} eingetreten ist. Von diesen (etwa) 750 Fällen sind etwa 2/3 Fälle, in denen das zweite Kind ein Junge ist. Also kann man sagen, die Wahrscheinlichkeit für einen Jungen in der Familie ist 2/3, wenn uns ein Mädchen vorgestellt wurde. Im dritten Szenario, wo uns zufällig ein Kind vorgestellt wird, sehen wir etwa 500 mal ein Mädchen: In der Situation mm mit Sicherheit, in den (etwa) 250 Fällen mj etwa in der Hälfte der Fälle, und in den Fällen jm ebenfalls etwa in der Hälfte der Fälle. Von diesen 500 Familien hat etwa die Hälfte ein zweites Mädchen und die andere Hälfte einen Jungen als zweites Kind. Bedingte Wahrscheinlichkeiten können wir hier nicht anwenden, weil durch die Information “ein Mädchen wird uns vorgestellt” nicht klar wird, welches Ereignis in {mm, jm, mj, jj} eingetreten ist. Das können wir erst in dem erweiterten Modell sagen, in dem wir die Ereignisse noch gesplittet haben, je nachdem, welches Kind uns vorgestellt wurde. Eine weitere Bemerkung: Stellen Sie sich vor, im ersten Szenario (Mädchen wird vorgestellt, falls möglich) hätten Sie die Zusatzinformation, daß die Mädchen 9 bevorzugt vorgestellt werden, nicht. Sie würden dann fälschlicherweise wohl nach einer gewissen Zeit vermute, in dem Land wären 3/4 der Kinder Mädchen. Beispiel 1.18. In einer Urne liegen je zwei rote, schwarze und blaue Kugeln. Es wird vereinbart, dass eine Person I nacheinander ohne Zurücklegen Kugeln aus der Urne zieht und einer anderen Person mitteilt, wann erstmals eine blaue Kugel gezogen wird. Diese Person II sieht aber nicht, welche Kugeln gezogen wurden. Angenommen die dritte Kugel ist blau (erstmals!). Mit welcher W.K. wurden dann in den ersten beiden Ziehungen die beiden roten Kugeln gezogen? Ohne die Zusatzinformation ist die W.K., in den ersten beiden Ziehungen die beiden roten Kugeln zu ziehen, 1 1 1 · = . 3 5 15 In der Vorlesung zeigen wir, dass die W.K., dass die ersten beiden Kugeln rot sind, 1/6 ist unter der Annahme, dass die 3. Kugel blau ist. p= Beispiel 1.19. In einer Bevölkerungsgruppe seien 0.1% der Bevölkerung mit einem Virus infiziert, der Rest ist nicht infiziert. Ein Test habe eine zuverlässigkeit von 99%, d.h. er liefert in 1% der Fälle ein falsches Ergebnis. Mit welcher W.K. ist ein positiv auf das Virus getesteter Mensch in Wirklichkeit gesund (nicht infiziert). Wir können das mit dem Satz von der totalen W.K. machen: Jemand kann gesund oder krank (infiziert) sein (G, K) und jemand kann positiv (auf Virus) p oder negativ (gesund) n getestet werden. P (·) bezeichne die W.K. für diese Ereignisse. Dann gilt P (G|p) = P (G) · P (p|G) 0.999 · 0.01 = ≈ 0.9098 . . . P (G) · P (p|G) + P (K) · P (p|K) 0.999 · 0.01 + 0.001 · 0.99 Also: Die meisten positiv getesteten Menschen sind gesund! 1.8 Stoppstrategie Sie suchen den besten Partner/in fürs Leben! Oder aber Sie sind Personalchef und suchen unter einer Menge von n Bewerbern den Besten. Nun können Sie sich nicht alle Bewerber/innen anschauen, genauso wenig wie Sie alle möglichen Partner/innen ausprobieren können. Sie können aber alle Kandidaten, die sie sich genauer anschauen, miteinander vergleichen und sagen, wer besser ist. Es gibt aber a priori kein Maß was eigentlich ein guter Bewerber ist (oder was ein guter Lebenspartner ist). Eine mögliche Strategie wäre: Sie schauen sich j Bewerber/innen an, dann haben Sie also Marktanalyse gemacht. Danach nehmen Sie den nächsten Bewerber, der besser ist als der Beste in der Referenzmenge der ersten j. Die Frage ist: Wie sollte man j wählen (sicherlich in Abhängigkeit von n), um die W.K. Pj , den besten Bewerber zu finden, zu maximieren? Dazu betrachten wir folgende Ereignisse: Ak : Bewerber k wird angenommen Bk : Bewerber k ist der beste aller Bewerber. 10 Wir erhalten folgende W.K.: P (Bk ) = P (Ak |Bk ) = P (Ak |Bk ) = 1 n 0 für k ≤ j j für k > j. k−1 Kurz zur letzten Gleichung: Wenn der k-te Bewerber angenommen wird und dieser auch der beste ist, muss der beste Bewerber unter den ersten k − 1 unter den ersten j gewesen sein, denn sonst hätte man ja schon vor dem k-ten Bewerber gestoppt und wäre gar nicht in die Verlegenheit gekommen, sich den k-ten anzuschauen. Wir erhalten Pj = n X k=1 P (Ak ∩ Bk ) = n X k=1 P (Bk )P (Ak |Bk ), also Pj = = Benutze nun n−1 X k=j j j 1 j + + ... + n j j+1 n−1 1 j 1 + ... + . n j n−1 1 ≈ k Z j n 1 dx = ln x n j um Pj ≈ −x ln(x) mit x = j/n zu erhalten. Diese Funktion nimmt ihr Maximum für x = 1/e an, und auch die W.K. Pj ist dann 1/e. 1.9 Mehrstufige Experimente Sehr häufig werden Zufallsexperimente als mehrstufige Experimente durchgeführt, sagen wir m Experimente. Die möglichen Ausgänge der i-ten Stufe seien in dem Ereignisraum Ωi zusammengefasst. Ein Ereignis ist also ein m-Tupel (ω1 , . . . , ωm ) ∈ Ω1 × . . . × Ωm . Wir müssen die Wahrscheinlichkeiten der Elementarereignisse bestimmen. Das ist dann ganz einfach, wenn die Experimente, die zu den Ereignisräumen Ω1 , . . . , Ωm gehören, unabhängig voneinander sind. In dem Fall gilt P (ω1 , . . . , ωm ) = m Y i=1 11 Pi (ωi ), wobei Pi (ωi ) die W.K. angibt, dass in der i-ten Stufe das Ereignis ωi eintritt. Sehr oft ist es aber so, dass die W.K. in der zweiten Stufe davon abhängt, was in der ersten Stufe passiert ist: Beispiel 1.20. In einer Urne liegen eine rote und drei schwarze Kugeln. Nun wird in der ersten Stufe des Experimentes eine Kugel gezogen, die Farbe notiert und die Kugel sowie eine weitere Kugel derselben Farbe zurückgelegt. Wir haben Ω1 = {R, S} = Ω2 . Gesucht ist P (R, R), P (R, S), P (S, R), P (S, S). Es ist P1 (R) = 1/4 und P1 (S) = 43 . Man nennt das oft auch die Startverteilung des mehrstufigen Experimentes. Offenbar gilt P (R, R) = 1 2 2 · = 4 5 20 P (R, S) = 1 3 3 · = 4 5 20 P (S, R) = 3 1 3 · = 4 5 20 P (S, S) = 3 4 12 · = . 4 5 20 Die Wahrscheinlichkeiten beim Übergang von Stufe j − 1 zu Stufe j hängen also davon ab, was “vorher” passiert ist. Wir nennen Pj (ωj |ω1 , . . . , ωj−1 ) die Übergangswahrscheinlichkeit, das ist die W.K. für das Eintreten von ωj unter der Voraussetzung, dass in den vorhergehenden Stufen des mehrstufigen Experimentes die Ereignisse ω1 , . . . , ωj−1 eingetreten sind. Offenbar gilt P (ω1 , . . . , ωm ) = P (ω1 ) · P (ω2 |ω1 ) · P (ω3 |ω1 , ω2 ) · · · P (ωm |ω1 , . . . , ωm−1 ). Man macht sich so etwas oft an einem Baumdiagramm klar. Beispiel 1.21. Wir würfeln mit einem Würfel. Danach nehmen wir eine Münze und werfen diese so oft, wie beim vorhergehenden Würfelwurf Augen angezeigt wurden. Angenommen, jemand teilt uns mit, dass bei all diesen Münzwürfen als Ergebnis Kopf herauskam. Mit welcher Wahrscheinlichkeit war dann das Ergebnis der Würfelwurfs eine 1, 2, 3, 4, 5 oder 6. Es stellt sich heraus, dass diese W.K. 32/63, 16/63, 8/63, 4/63, 2/63 und 1/63 sind. Beispiel 1.22 (Das Ziegenproblem). In einer Fernsehshow wird hinter einer von drei verschlossenen Türen ein Fahrrad, hinter den anderen beiden eine Ziege versteckt. Dann darf die Kandidatin eine der Türen öffnen: Ist dahinter das Rad, darf sie es behalten, andernfalls darf sie nix behalten, nicht mal die Ziege! Nun deutet die Kandidatin erst einmal auf eine Tür. Der Moderator sagt daraufhin, 12 hinter einer der anderen beiden Türen sei ja eh eine Ziege, und das weiß doch jeder, deshalb könne er doch auch gefahrlos eine Tür, hinter der eine Ziege steht, öffnen (wir gehen davon aus, dass der Moderator weiß hinter welcher Tür das Fahrrad steht). Der Moderator gibt der Kandidatin nun die Möglichkeit, sich neu zu entscheiden, welche Tür sie öffnen will. Frage: Lohnt es sich für die Kandidatin, sich neu zu entscheiden? Die Antwort ist ja, wie wir in der Vorlesung zeigen. Die W.K., das Fahrrad zu gewinnen, steigt durch einen Wechsel der Entscheidung auf 2/3! 2 Zufallsvariablen Wir gehen hier zunächst davon aus, dass der Ereignisraum Ω eines Zufallsexperimentes höchstens abzählbar unendlich ist. 2.1 Grundlagen Definition 2.1. Sei Ω der Ereignisraum eines Zufallsexperimentes. Eine Abbildung X:Ω→R heißt Zufallsvariable. Das Bild von X nennen wir die möglichen Realisierungen der Zufallsvariablen. Ist auf Ω eine W.K. definiert, ist also (Ω, P ) ein Wahrscheinlichkeitsraum, dann können wir mit Hilfe einer Zufallsvariable eine Abbildung F : R → [0, 1] wie folgt definieren: F (x) := P ({ω ∈ Ω : X(ω) ≤ x}). Wir nennen F die zugehörige Verteilungsfunktion. Die Verteilungsfunktion ordnet also gewissen Ereignissen eine Wahrscheinlichkeit zu. Statt P ({ω ∈ Ω : X(ω) ≤ x}) schreibt man meistens einfacher P (X(ω) ≤ x) oder P (X ≤ x). Da im Falle endlicher Ereignisräume Ω auch nur endlich viele Realisierungen existieren, können wir eine Abbildung Bild(X) → [0, 1] definieren durch x 7→ P (X(ω) = x) und wir schreiben px := P (X(ω) = x). Wenn die Realisierungen x1 , x2 , . . . mit i indiziert werden, schreibt man auch pi statt pxi . Die Zufallsvariable heißt diskret, wenn es nur abzählbar viele Realisierungen gibt. Bemerkung 2.2. 1. Achtung: Die px sind nicht die Wahrscheinlichkeiten für Elementarereignisse, weil viele Elementarereignisse durch X auf dasselbe Bild abgebildet werden können. 2. Wir schreiben X=x := {ω : X(ω) = x} X < x := {ω : X(ω) < x} x<X≤y := {ω : x < X(ω) ≤ y}. 13 Proposition 2.3. Sei X eine Zufallsvariable auf einem diskreten Wahrscheinlichkeitsraum. Dann gilt P (x < X ≤ y) = F (y) − F (x). Ferner ist X F (x) = P (ω) = ω∈Ω : X(ω)≤x X py . y≤x Beispiel 2.4. In der Vorlesung werden wir die Verteilungsfunktion und die px der Zufallsvariable “Augensumme beim Würfeln mit zwei Würfeln” diskutieren. Satz 2.5. Für eine Verteilungsfunktion F gilt: (1.) F ist monoton wachsend. (2.) Für jedes x∗ ∈ R existieren die Grenzwerte limx%x∗ F (x) sowie limx&x∗ F (x) und es gilt lim∗ F (x) = F (x∗ ), x&x d.h. F ist rechtsseitig stetig. (3.) limx&x∗ F (x) − limx%x∗ F (x) = P (X = x∗ ). (4.) (5.) lim F (x) = 0. x→−∞ lim F (x) = 1. x→+∞ Bemerkung 2.6. Der Punkt (3.) zeigt, dass wir die px unmittelbar aus der Verteilungsfunktion ablesen können und umgekehrt. Definition 2.7. Ist X eine Zufallsvariable mit zugehöriger Verteilungsfunktion F , so sagen wir, die Z.V. ist F -verteilt, geschrieben X ∼ F . Bemerkung 2.8. Beachten Sie, dass die Verteilungsfunktion eine Eigenschaft der Zufallsvariablen ist, nicht eines Wahrscheinlichkeitsraumes. Wir werden später sehen, dass man jeder Zufallsvariablen gewisse Zahlen zuordnen kann, die wichtige Eigenschaften der Z.V. beschreiben. Ein erstes Beispiel sind die Quantile: Definition 2.9. Sei X eine Zufallsvariable und p ∈ (0, 1). Ferner sei F die zugehörige Verteilungsfunktion. Eine Zahl Qp mit lim F (x) ≤ p ≤ F (Qp ) x%Qp heißt p-Quantil der Zufallsvariablen. Im Fall p = 1/2 spricht man vom Median. Actung: Die Zahlen Qp sind nicht eindeutig bestimmt. Wenn F eine Umkehrfunktion hat, gilt Qp = F −1 (p). 14 2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung Die einfachste Verteilung ist die Gleichverteilung, bei der P (X = xi ) = 1/N gilt, wenn N die Anzahl möglicher Realisierungen x1 , . . . , xN von X bezeichnet. Die zugehörige Verteilungsfunktion ist eine Treppenfunktion. Klassisches Beispiel: Münzwurf oder würfeln. Definition 2.10. Ein Bernoulli-Experiment ist ein Zufallsexperiment, bei dem es nur zwei mögliche Ausgänge A und B gibt. Das Ereignis A trete mit W.K. p und das Ereignis B dann mit W.K. 1 − p = q ein. Damit wird {A, B} zu einem Wahrscheinlichkeitsraum. Wir haben kein Laplace-Experiment, es sei denn, p = q = 1/2. Wenn wir ein Bernoulliexperiment n mal wiederholen, ist der Ereignisraum Ω = {A, B}n . Die Elementarereignisse heißen Bernoulliketten. Eine Kette mit k Ereignissen A und n − k Ereignissen B tritt mit W.K. pk q n−k ein. So wird auf Ω ein Wahrscheinlichkeitsmaß definiert. Wir definieren nun eine Zufallsvariable X auf diesem Wahrscheinlichkeitsraum wie folgt: Einer Bernoullikette mit k Einträgen A und n − k Einträgen B wird die Zahl k (manchmal auch “Anzahl Erfolge” genannt) zugeordnet. Offenbar gilt n k P (X = k) = p (1 − p)n−k . k Dies liefert eine Wahrscheinlichkeitsverteilung, die sogenannte Binomialverteilung B(n, p). Sie ist komplett durch Angabe von n und p bestimmt. Wir nennen eine Zufallsvariable binomialverteilt mit Parametern n und p, wenn ihre Wahrscheinlichkeitsverteilung B(n, p) ist. Die folgenden Bilder zeigen die Wahrscheinlichkeitsverteilungen für einige Werte von p und n: B(21, 0.5) : 15 B(20, 0.2) : B(100, 0.8) : 16 Kommen wir nun zur hypergeometrischen Verteilung H(n, M, N ): Wir haben hier eine Urne mit N Kugeln, M davon seien rot. Wir ziehen ohne Zurücklegen n Kugeln. Diesem Zufallsexperiment können wir ein Wahrscheinlichkeitsmaß zuordnen sowie eine Z.V. X definieren, nämlich die Anzahl k roter Kugeln. Es gilt P (X = k) = M k N −M n−k N n . Eine Zufallsvariable mit dieser Wahrscheinlichkeitsverteilung heißt hypergeometrisch verteilt. Abschließend betrachten wir die Poisson-Verteilung. Der Ereignisraum ist hier {0, 1, . . .} die Menge der nicht-negativen ganzen Zahlen. Die Poissonverteilung modelliert recht gut die Anzahl seltener Ereignisse, die in einem fest gewählten Zeitraum auftreten (Tore pro Fußballspiel). Wir nennen eine Zufallsvariable X Poisson-verteilt P (λ) mit Parameter λ, wenn P (X = k) = λk −λ e . k! Hier ist ein Bild für λ = 2.5, was etwa der Anzahl geschossener Tore in einem Bundesligaspiel entspricht: In der Vorlesung zeigen wir auch einige “Animationen” dieser drei wichtigen Verteilungen. Interessant ist, dass die Poissonverteilung als Grenzverteilung der Binomialverteilung interpretiert werden kann: Gilt X ∼ B(n, p) mit großem n und kleinem p, so 17 können wir die Approximation P (X = k) ≈ λk −λ e . k! nutzen. Faustregel: n ≥ 50 und p ≤ 0.1. 2.3 Lagemaße Jeder Zufallsvariablen kann man gewisse Zahlen zuordnen kann, die wichtige Eigenschaften der Z.V. beschreiben. Ein Beispiel haben wir bereits gesehen, die Quantile (Definition 2.9). In diesem Abschnitt folgen Erwartungswert und Varianz. Definition 2.11. Sei X eine Zufallsvariable mit Realisierungen x1 , x2 , . . .. Der Erwartungswert E(X) von X ist definiert als E(X) := ∞ X i=1 xi · P (X = xi ) sofern diese Summe existiert (was im Fall endlicher Wahrscheinlichkeitsräume immer der Fall ist). 18 P Bemerkung 2.12. Es gilt E(X) = ω∈Ω X(ω)P (ω). Beachten Sie, dass auch hier der Erwartungswert mit einer Zufallsvariablen zusammenhängt und keine Größe des Zufallsexperimentes ist: Bei einem Zufallsexperiment kommen ja keine Zahlen heraus. Zahlen, mit denen man dann rechnen kann, entstehen erst durch das Anwenden von Zufallsvariablen! Beispiel 2.13. Wenn wir mit zwei Würfeln werfen und als Zufallsvariable jedem Ausgang den Betrag der Differenz der Augenzahlen zuordnen, so ist der Erwartungswert 35/18, siehe Vorlesung. Definition 2.14. Sei X eine Zufallsvariable mit Realisierungen x1 , x2 , . . . und Erwartungswert µ. Wir definieren die Varianz V (X) := E((X − µ)2 ) sofern dieser Erwartungswert existiert. Bemerkung 2.15. Es gilt V (X) = ∞ X i=1 (xi − µ)2 · P (X = xi ) sowie V (X) = E(X 2 ) − µ2 . Ferner wird die Wurzel aus der Varianz auch Standardabweichung σ genannt. Entsprechend schreibt man für die Varianz manchmal σ 2 . Man kann die Abweichung einer Z.V. vom Mittelwert mit Hilfe der Varianz abschätzen: Satz 2.16 (Tschebyscheff’sche Ungleichung). P (|X − E(X)| ≥ ) ≤ 1 V (X). 2 Diese Abschätzung gilt für beliebige Zufallsvariablen. Wir haben drei wichtige Wahrscheinlichkeitsverteilungen kennengelernt: Binomial, Poisson, hypergeometrisch. In der folgenden Tabelle fassen wir Erwartungswert und Varianz dieser Verteilungen zusammen: B(n, p) H(n, M, N ) P (λ) E(X) V (X) np np(1 − p) M N −n nM nM N N (1 − N ) N −1 λ λ 19 Bemerkung 2.17. Wenn X eine Zufallsvariable ist, dann ist auch g(X) für eine Funktion g : R → R eine Zufallsvariable. Man kann aber nicht unmittelbar Erwartungswert, Varianz und Wahrscheinlichkeitsverteilung aus g ablesen. Es gilt ∞ X E(g(X)) = g(xi )P (X = xi ). i=0 Satz 2.18. Sei X eine Zufallsvariable mit Erwartungswert E(X) = µ und Varianz V (X)σ 2 . Dann gilt E(aX + b) = V (aX + b) = a · E(X) + b a2 · V (X). X −µ eine Zufallsvariable mit Erwartungswert 0 und Varianz σ 1 (sofern σ = 6 0). Insbesondere ist 2.4 Gemeinsame Verteilungen und Lagemaße von Zufallsvariablen Satz 2.19. Seien X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, P ) mit Erwartungswerten E(X) und E(Y ). Dann gilt E(aX + Y ) = aE(X) + E(Y ). Ein entsprechender Satz für die Varianz gilt zunächst einmal nicht. Definition 2.20. Zwei Zufallsvariablen X und Y heißen unabhängig, wenn für alle rellen Zahlen x, y gilt: P (X = x und Y = y) = P (X = x) · P (Y = y). Mit anderen Worten: Die beiden Ereignisse {ω : X(ω) = x} {ω : Y (ω) = y} sind unabhängig. Allgemein nennen wir Z.V. X1 , . . . , Xn auf (Ω, P ) unabhängig, wenn für alle x1 , . . . , xn ∈ R gilt P (Xi = xi für i = 1, . . . , n) = n Y P (X = xi ). i=1 Bemerkung 2.21. Beachten Sie, dass X und Y auf dem selben Wahrscheinlichkeitsraum definiert sind! 20 Bemerkung 2.22. Unabhängigkeit von mehr als zwei Zufallsvariablen ist eine stärkere Bedingung als paarweise Unabhängigkeit! Für unabhängige Zufallsvariablen gilt: Satz 2.23. Seien X und Y unabhängige Zufallsvariablen auf einem W.R. (Ω, P ). Dann gilt E(X · Y ) = E(X) · E(Y ) sofern beide Erwartungswerte existieren, ebenso für das Produkt mehrerer unabhängiger Zufallsvariablen Im Fall unabhängiger Z.V. kann man auch etwas über die Summe der Varianz sagen: Satz 2.24. Seien X und Y unabhängige Zufallsvariablen auf einem W.R. (Ω, P ). Dann gilt V (X + Y ) = V (X) + V (Y ) sofern V (X), V (Y ) existieren. Bemerkung 2.25. Beide Sätze gelten auch für mehr als zwei unabhängige Zufallsvariablen. Definition 2.26. Die Kovarianz zweier Zufallsvariablen X, Y ist definiert als C(X, Y ) = E(X · Y ) − E(X) · E(Y ) sofern die entsprechenden Erwartungswerte existieren. Die Bedeutung der Kovarianz wird im folgenden Satz deutlich: Satz 2.27. Seien X und Y zwei Zufallsvariablen auf dem W.R. (Ω, P ). Dann gilt V (X + Y ) = V (X) + V (Y ) + 2C(X, Y ). Eigenschaften der Kovarianz: Proposition 2.28. X, Y, X1 , . . . , Y1 , . . . seien Z.V. auf W.R. (Ω, P ). Dann gilt (1.) C(X, X) = V (X), C(X, Y ) = C(Y, X). (2.) C(X, Y ) = E (X − E(X)) · (Y − E(Y )) . (3.) C(X + a, Y + b) = C(X, Y ). (4.) Wenn X und Y unabhängig sind, dann gilt C(X, Y ) = 0. Pn P (5.) V (X1 + . . . + Xn ) = i=1 V (Xi ) + 2 · 1≤i<j≤n C(Xi , Xj ) . P P P (6.) C( i ai Xi , j bj Yj ) = i,j ai bj C(Xi , Yj ). 21 (7.) C(X, Y )2 ≤ V (X) · V (Y ). Bemerkung 2.29. Die letzte Eigenschaft zeigt, dass wir die Kovarianz normieren können. Wir nennen den Quotienten C(X, Y ) −1 ≤ p ≤1 V (X) · V (Y ) die Korrelation zwischen X und Y . Liegt die Korrelation nahe bei ±1, so besteht zwischen X und Y eine “große” Abhängigkeit. Unabhängige Z.V. sind unkorreliert (d.h. Korrelation = 0), aber nicht umgekehrt: Man kann sich beispielsweise überlegen, dass Summe und Differenz beim zweimaligen Würfeln unkorrelierte Z.V. sind, die aber nicht unabhängig sind. Beispiel 2.30. Wir würfeln zweimal nacheinander und betrachten die beiden Z.V. X und Y , wobei X die kleinere Augenzahl ist und Y die Summe der beiden Würfe. Die folgende kleine Tabelle zeigt die Ereignisse, die W.K. für die Ereignisse sowie die Werte der Z.V.: Ereignis P X Y 1, 1 2, 2 3, 3 4, 4 5, 5 6, 6 1, 2 1, 3 1, 4 1, 5 1, 6 2, 3 2, 4 2, 5 2, 6 3, 4 3, 5 3, 6 4, 5 4, 6 5, 6 1/36 1/36 1/36 1/36 1/36 1/36 1/18 1/18 1/18 1/18 1/18 1/18 1/18 1/18 1/18 1/18 1/18 1/18 1/18 1/18 1/18 1 2 3 4 5 6 1 1 1 1 1 2 2 2 2 3 3 3 4 4 5 2 4 6 8 10 12 3 4 5 6 7 5 6 7 8 7 8 9 9 10 11 22 X ·Y 2 8 18 32 50 72 3 4 5 6 7 10 12 14 16 21 24 27 36 40 55 Man rechnet nach: 91 ≈ 2.53 36 E(Y ) = 7 2555 ≈ 1.97 V (X) = 1296 35 V (Y ) = ≈ 5.83 6 35 C(X, Y ) = ≈ 2.92. 12 p Normierung der Kovarianz (d.h. Division durch V (X) · V (Y )) ergibt einen Korrelationskoeffizienten von 0.86, die Zufallsvariablen sind also vergleichsweise stark korreliert. E(X) 2.5 = Produkträume Was passiert, wenn wir Z.V. Xi haben, die auf verschiedenen Wahrscheinlichkeitsräumen (Ωi , Pi ) definiert sind. Dazu definieren wir den Produktraum Ω = Ω1 × . . . × Ωn und definieren auf Ω das Produktmaß P (ω1 , . . . , ωm ) = m Y Pi (ωi ). i=1 Zumindest im abzählbar unendlichen Fall ist das kein Problem und wir können so jeder Teilmenge von Ω eine Wahrscheinlichkeit zuordnen. Die Xi kann man als unabhängige Zufallsvariablen auf diesem Produktraum auffassen und wir können damit arbeiten so wie oben für den Fall dass die verschiedenen Z.V. auf einem W.R. definiert sind. Klassishcer Fall: Zufallsexperiment wird nmal wiederholt. Dann bezeichnet (Ωi , Pi ) den Wahrscheinlichkeitsraum, der zur i-ten Durchführung des Zufallsexperimentes gehört. Es gilt das für die Statistik wichtige schwache Gesetz der großen Zahlen: Satz 2.31. Es seien X1 , . . . , Xn unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, P ), die alle dieselbe Verteilungsfunktion haben (i.i.d.: independently identical distribution) mit Erwartungswert µ und Varianz σ 2 . Dann ist auch X̃n = n1 (X1 + . . . + Xn ) eine Zufallsvariable auf Ω mit lim P (|X̃n − µ| < ) = 1 n→∞ für jedes > 0. Bemerkung 2.32. Der klassische Fall ist der, dass ein Zufallsexperiment mit Z.V. X mehrfach (n mal) durchgeführt wird. Formal haben wir dann aber n unabhängige Z.V. X1 , . . . , Xn , die jeweils den Ausgang des i-ten Experimentes beschreiben. Formal sind das dann unabhängige Z.V. auf dem Produktraum. Ferner kann man die Voraussetzungen etwas abschwächen. 23 2.6 Der kontinuierliche Fall Im Fall eines Wahrscheinlichkeitsraumes mit einer überabzählbaren Ereignismenge Ω kann man, wie bereits erwähnt, nicht mehr sinnvoll jedem Ereignis eine Wahrscheinlichkeit zuordnen. Deshalb muss man bei der Definition einer Zufallsvariablen X : Ω → R darauf achten, dass zumindest den Ereignissen {ω : X(ω) ≤ x}. Wahrscheinlichkeiten zugeordnet werden können. Wir wollen diese Annahme ab jetzt stillschweigend machen. Dann können wir wie im diskreten Fall eine Verteilungsfunktion F : R → R definieren: F (x) := P (X ≤ x). Die Definitionen 2.9 und 2.7 übertragen sich, ebenso wie Satz 2.5 und Proposition 2.3. Es sei noch bemerkt: Wenn der Wahrscheinlichkeitsraum Ω unendlich viele Elemente, die Zufallsvariable X aber nur endlich viele Realisierungen hat, sprechen wir immer noch von einer diskreten Zufallsvariable. Wir können im kontinuierlichen Fall in der Regel den einelementigen Ereignissen keine positive Wahrscheinlichkeit zuordnen, ebenso kann man den Ereignissen {ω : X(ω) = x} nicht immer eine positive W.K. zuordnen. Das Analogon zu den Wahrscheinlichkeiten px ist hier die Dichtefunktion: Definition 2.33. Wenn es für eine Verteilungsfunktion F eine Funktion f : R → R gibt mit Z x F (x) = f (t)dt, −∞ so heißt f die zu F gehörende Dichtefunktion. Wir nennen X dann eine stetige Zufallsvariable mit Verteilungsfunktion F und Dichte f . Proposition 2.34. Sei X eine stetige Zufallsvariable mit Dichte f und Verteilungsfunktion F . Dann gilt F 0 (x) = f (x) und P (a ≤ X ≤ b) = Z b f (t)dt. a Insbesondere gilt P (X = x) = 0. Auch die Begriffe Varianz und Erwartungswert lassen sich auf kontinuierliche Zufallsvariable übertragen: Definition 2.35. Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f . Dann heißt Z ∞ E(X) := −∞ 24 x · f (x) dx der Erwartungswert von X, sofern dieses Integral existiert. Entsprechend wird die Varianz V (X) definiert: Z ∞ (x − E(X))2 · f (x) dx. V (X) = −∞ Die Sätze über Erwartungswerte und Varianz in Kapitel 2.3 übertragen sich auf den stetigen Fall, insbesondere gilt auch Satz 2.16. Wir können die Varianz auch wie folgt berechnen: Z ∞ x2 · f (x) dx − [E(X)]2 . V (X) = −∞ Definition 2.36 (Normalverteilung). Die vermutlich bekannteste und wichtigste Verteilungsfunktion ist die Normalverteilung mit Dichte f (x) = 1 x−µ 2 1 √ e− 2 ( σ ) . σ 2π Wir nennen eine Z.V. normalverteilt wenn es µ und σ > 0 so gibt, dass die Verteilungsfunktion der Z.V. diese Dichte hat, geschrieben X ∼ N (µ, σ 2 ). Gilt µ = 0 und σ = 1 nennen wir die Zufallsvariable standardnormalverteilt. Die zugehörige Verteilungsfunktion wird oft mit Φ bezeichnet. Bemerkung 2.37. Die Funktion Φ ist als (im wesentlichen) das Integral der 2 Funktion e−x nicht durch “einfache” Funktionen darstellbar. Beispiel 2.38. Zunächst ist hier ein Bild dreier Normalverteilungen, nämlich einmal der Verteilung N (0, 1) (schwarz), dann N (0, 2) (blau) sowie N (0, 21 ) (rot): 0.8 0.6 0.4 0.2 0 −6 −4 −2 0 25 2 4 6 Hier sind die zugehörigen Verteilungsfunktionen: 1 0.75 0.5 0.25 −3 −2 −1 1 2 3 Beispiel 2.39. Erwartungswert einer N (µ, σ 2 ) verteilten Z.V. ist µ, die Varianz ist σ 2 . In dem Fall ist die Zufallsvariable (X − µ)/σ standardnormalverteilt. Die Verteilungsfunktion einer N (µ, σ 2 ) verteilten Z.V. ist x−µ Φ σ und die Dichtefunktion wobei 1 f (x) = ϕ σ x−µ σ , 1 2 1 ϕ(x) = √ e− 2 x 2π die Dichte der Standardnormalverteilung mit µ = 0 und σ = 1 ist. Proposition 2.40. Sei X ∼ N (µ, σ 2 ). Dann gilt P (a ≤ X ≤ b) = Φ( 2.7 b−µ a−µ ) − Φ( ). σ σ Weitere Eigenschaften der Normalverteilung Satz 2.41. Es seien X1 und X2 zwei unabhängig normalverteilte Zufallsvariablen mit Erwartungswerten µ1 und µ2 sowie Varianzen σ12 und σ22 . Dann ist auch X1 + X2 normalverteilt mit Erwartungswert µ1 + µ2 und Varianz σ12 + σ22 . 26 Man nennt diese Eigenschaft auch die Faltungseigenschaft der Normalverteilung: Haben ganz allgemein zwei unabhängige Z.V. die Dichten f und g, so hat X1 + X2 die Dichte Z ∞ −∞ f (t)g(x − t) dt und das hier auftretende Integral heißt die Faltung von f und g. Beim schwachen Gesetz der großen Zahlen (Satz 2.31) haben wir gesehen, dass man Erwartungswert und Varianz des arithmetischen Mittels von unabhängigen und identisch verteilten Zufallsvariablen berechnen kann. Im Fall normalverteilter Z.V. kennt man sogar die Verteilung. Der Beweis ist im Gegensatz zu den meisten bisher formulierten Sätze nicht trivial: Satz 2.42 (Zentraler Grenzwertsatz). Es seien X1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 auf einem Wahrscheinlichkeitsraum (Ω, P ). Dann gilt für die Folge der Zufallsvariablen X̃n = n1 (X1 + . . . + Xn ): ! X̃n − µ √ ≤ z = Φ(z). lim P n→∞ σ/ n Mit anderen Worten: Das arithmetische Mittel ist asymptotisch N (µ, σ 2 /n)verteilt. Sei FB(n,p) die Verteilungsfunktion einer B(n, p) verteilten Zufallsvariable X. Dann gilt ! x + 21 − np FB(n,p) (x) ≈ Φ p np(1 − p) falls np und n(1−p) beide groß sind (Faustregel: np(1−p) ≥ 9). Man nennt die Addition von +1/2 die Stetigkeitskorrektur. Das wird deutlich, wenn man sich ein Beispiel anschaut, z.B. die Verteilung von B(300, 0.2) und die entsprechende Normalverteilung ohne und mit Stetigkeitskorrektur. Im ersten Bild ohne, im zweiten Bild mit Stetigkeitskorrektur: 27 Man nennt diese Approximation der Binomialverteilung durch die Normalverteilung auch den zentralen Grenzwertsatz von deMoivre-Laplace. Beachten Sie, dass bei der Berechnung der W.K. P (k ≤ Sn ≤ l) die “Stetigkeitskorrektur” an der unteren Schranke mit einem anderen Vorzeichen erfolgt: 28 Proposition 2.43. Sei X ∼ B(n, p) mit np(1 − p) ≥ 9. Dann gilt ! ! l + 21 − np k − 21 − np P (k ≤ X ≤ l) ≈ Φ p −Φ p . np(1 − p) np(1 − p) Da die Poissonverteilung als Grenzverteilung der Binomialverteilung auftritt ist es auch nicht überraschend, dass die Poissonverteilung FP (λ) zum Parameter λ durch die Normalverteilung approximiert werden kann: x + 1/2 − λ √ . FP (λ) (x) ≈ Φ λ 2.8 Gleichverteilung und Exponentialverteilung Eine Zufallsvariable X mit Realisierungen auf einem Intervall [a, b] heißt gleichverteilt, falls für die Wahrscheinlichkeiten gilt P (X ∈ [c, d]) = d−c b−a für a ≤ c ≤ d ≤ b. Die Dichtefunktion f (x) ist dann 1 x ∈ (a, b) b−a f (x) = . 0 sonst Man kann dann daraus leicht Erwartungswert und Varianz einer auf [a, b] gleichverteilten Zufallsvariablen X bestimmen: b+a E(X) = 2 (b − a)2 V (X) = . 12 Definition 2.44. Eine Zufallsvariable X heißt exponentialverteilt zum Parameter λ (geschrieben X ∼ Exp(λ)), wenn die Dichte f (x) = λ · e−λx für x > 0 und 0 sonst ist. Satz 2.45. Die Verteilungsfunktion F (x) einer Exponentialverteilung ist F (x) = 1−e−λx für x ≥ 0 und 0 für x < 0. Der Erwartungswert ist 1/λ und die Varianz 1/λ2 . Bemerkung 2.46. Die Exponentialverteilung ist gedächtnislos im folgenden Sinne: P (X ≥ t + h|X ≥ t) = P (X ≥ h) für alle t, h > 0. Hier sind die Bilder der Dichten von zwei Exponentialverteilungen, einmal zum Parameter λ = 1 (rot) und einmal zum Parameter λ = 1/2 (blau). 29 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 1 2.9 2 3 4 5 6 7 8 9 10 Gammaverteilung Zunächst verallgemeinern wir den Begriff der Fakultät: Z ∞ Γ(z) := xz−1 e−x dx, z > 0. 0 Es gilt Γ(k) = (k − 1)! für k ∈ {1, 2, 3, . . .}. Definition 2.47. Eine Zufallsvariable X heißt gammaverteilt (∼ Γ(α, λ)) mit Parametern α > 0 und λ > 0, wenn ihre Dichte f (x) = λα α−1 −λx x e Γ(α) für x > 0 ist (und 0 für x ≤ 0). Der Parameter λ ist nur ein “Formparameter”, denn wenn X ∼ Γ(α, 1), dann gilt λ1 X ∼ Γ(α, λ). Der Parameter α hingegen hat wesentlichen Einfluß auf die Dichtefunktion. Im Fall α = 1 erhalten wir die Exponentialverteilung. Satz 2.48. Sei X ∼ Γ(α, λ), dann E(X) = α λ V (X) = α . λ2 Das folgende Bild zeigt die Dichte der Gammaverteilung jeweils für λ = 1 und α = 0.5 (rot), α = 1 (blau) und α = 2 (grün): 30 3.0 2.5 2.0 1.5 1.0 0.5 0 0 1 2 3 4 31 5 6 7 8 9