Vorlesung Einführung in die Wahrscheinlichkeit Prof. C. Mazza Wintersemester 2007/2008 Literatur W. Feller, An introduction to probability theory and some of its applications I (Wiley 1968). K.L. Chung, Elementary probability theory with stochastic processes (Springer 1974). J-Y. Ouvrard, Probabilités 1, Capes et Agrégation (Cassini 1998) Contents 1 Der Begriff der Wahrscheinlichkeit, Wahrscheinlichkeitsräume, Beispiele 3 1.1 Verschiedene Wahrscheinlichkeitsbegriffe . . . . . . . . . . . . . . . . . . . . 3 1.2 Zufallsexperimente, Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . 4 1.3 Abzählbare Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Allgemeine Wahrscheinlichkeitsräume 7 . . . . . . . . . . . . . . . . . . . . . . 2 Bedingte Wahrscheinlichkeiten, unabhängige Ereignisse 8 2.1 Die bedingte relative Häufigkeit: . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 Bedingte Wahrscheinlichkeit: . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 Unabhängigkeit: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3 Diskrete Zufallsgrössen 12 3.1 Die Verteilung einer Zufallsgrösse . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2 Einige Eigenschaften der Erwartung . . . . . . . . . . . . . . . . . . . . . . . 13 3.3 Unabhängige reelle Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.4 Moment, Varianz aund Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.5 Die Faltung von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . 17 1 3.6 Liste einiger wichtigen (diskreten) Verteilungen . . . . . . . . . . . . . . . . . 18 3.7 Die Verteilungsfunktion einer Zufallsgrösse . . . . . . . . . . . . . . . . . . . . 20 3.8 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.9 Beispiele von abhängigen Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . 20 4 Zufallsgrössen mit Dichten 23 4.1 Unabhängige Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.2 Die Verteilungsfunktion einer Zufallsgrösse . . . . . . . . . . . . . . . . . . . . 27 4.3 Die Faltung von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.4 Lineare Abbildungen von Zufallsvektoren . . . . . . . . . . . . . . . . . . . . 29 4.5 Funktionen von reellen Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . 30 4.6 Zwei weitere wichtige Dichten: Die Student und die Exponential Verteilungen 30 5 Die Gesetze der grossen Zahlen 32 5.1 Die Ungleichung von Tschebyscheff . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2 Das schwache Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . . 34 5.3 Das starke Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . . . . 34 5.4 Anwendung der Gesetze der grossen Zahlen . . . . . . . . . . . . . . . . . . . 34 5.5 Markovsche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 6 Der zentrale Grenzwertsatz 36 Vorbemerkungen Wahrscheinlichkeit und Statistik haben zwei gemeinsame Wurzeln, die früh zusammengewachsen sind: 1. Glücksspiele 2. Elementare beschreibende Statistik (Statistik = “Zusammenstellung von numerischen Daten für die Zwecke des Staates”) Heutige Unterscheidung: Wahrscheinlichkeitsmodell Wahrscheinlichkeitstheorie ↓ ↑ Statistik Beobachtungen 2 Ohne wahrscheinlichkeitstheoretische Grundlegung kann man die heutige Statistik nicht verstehen. Deshalb wird die Statistik im Sommersemester behandelt. 1 Der Begriff der Wahrscheinlichkeit, Wahrscheinlichkeitsräume, Beispiele 1.1 Verschiedene Wahrscheinlichkeitsbegriffe Schwierigkeit: es gibt mindestens vier, nur teilweise miteinander verträgliche Wahrscheinlichkeitsbegriffe: a) Wahrscheinlichkeit = Mass des persönlichen Glaubens. Das entspricht dem umgangssprachlichen Wahrscheinlichkeitsbegriff; mathematisch formalisiert von L.J. Savage (Foundations of Statistics, Wiley, 1954). Kritik: die Wahrscheinlichkeitstheorie wird damit zu einer psychologischen Theorie (wie verknüpfen wir unseren a priori Glauben mit den Beobachtungen zu einem a posteriori Glauben), und unser Geist scheint diese Verknüpfung nicht nach der sogenannten Bayes’schen Formel (s. Kapitel II) vorzunehmen, wie es die Subjektivisten von einer “idealen” Person fordern. Anzahl günstige Fälle b) Wahrscheinlichkeit = . Anzahl mögliche Fälle Das ist die klassische Definition; die Wahrscheinlichkeit wird hier durch eine Symmetriebetrachtung gefunden. Bemerkung die Wahrscheinlichkeit in 4 Würfen mit einem Würfel mindestens einmal eine Sechs zu werfen, ist ungünstige Fälle 54 günstige Fälle =1− =1− 4 . mögliche Fälle mögliche Fälle 6 Empirischer Hintergrund: das Resultat eines einzelnen Wurfes ist zwar nicht vorhersagbar, auf die Länge treten aber alle sechs Möglichkeiten etwa gleichhäufig auf. Nachträglich versucht man das durch eine Symmetriebetrachtung zu begründen. Beispiel n Würfe einer symmetrischen Münze. Gesucht ist die Wahrscheinlichkeit pk , dass man k–mal “Kopf” erhält. Man hat n 1 n pk = , k = 0, 1, . . . , n. k 2 n! Es gibt 2n mögliche Ausgänge und nk := k!(n−k)! günstige Fälle! Kritik: die klassische Definition erleidet Schiffbruch, sobald man gefälschte Würfel oder Münzen betrachtet. c) Wahrscheinlichkeit = Grenzwert der relativen Häufigkeit. Diese Definition wird durch die bereits erwähnte beachtliche Stabilität der relativen Häufigkeit suggeriert. Es ist schwierig, daraus eine mathematische Definition zu machen: 3 wie ist eine “zufällige” Folge ins Unendliche fortzusetzen? Der Ansatz von von Mises (Wahrscheinlichkeit, Statistik und Wahrheit, Springer, Wien, 1936) ist nicht ganz adäquat, wurde aber vor wenigen Jahren in Ordnung gebracht (P. Martin Löf: Definition of random sequences. Information and Control 6 (1966), 602–619). d) Wahrscheinlichkeit = implizit durch ein Axiomensystem definiert. Dieser Ansatz ist sehr handlich und hat sich allgemein eingebürgert, erschöpft aber nicht alle Aspekte des Wahrscheinlichkeitsbegriffes (z.B. kann er nicht zwischen zufälligen und unzufälligen Folgen von 0 und 1 unterscheiden!). In dieser Vorlesung werden wir die Wahrscheinlichkeit durch ein Axiomensystem definieren. 1.2 Zufallsexperimente, Wahrscheinlichkeitsräume Empirische Tatsache: es gibt Experimente (z.B. viermaliges Werfen eines Würfels), welche unter den gleichen Bedingungen mehrfach wiederholt werden können, aber nicht immer das gleiche Resultat liefern. Bei oftmaliger Wiederholung stabilisiert sich jedoch die relative Häufigkeit der verschiedenen möglichen Ergebnisse ω1 , ω2 , . . . , ωN : wenn ωi bei n–maliger Wiederholung ni –mal aufgetreten ist, scheint nni für n → ∞ einem Grenzwert pi zuzustreben. Wir werden das folgende Zufallsexperiment später genauer analysieren. Zufallsexperiment: n–maliges Werfen einer Münze. Mögliche, unterscheidbare Ergebnisse (“Elementarereignisse”): jede Folge ωi der Länge n von “Kopf” (0) und “Zahl” (1) ist ein mögliches Ereignis, es gibt also N = 2n mögliche Ergebnisse. Wahrscheinlichkeiten: bei einer “idealen” Münze hat jedes mögliche Ergebnis ω (nach der klassischen Definition) die gleiche Wahrscheinlichkeit 2−n ; bei einer “gefälschten” Münze werden die Wahrscheinlichkeiten verschieden sein. Beachte: dieses Zufallsexperiment kann auch als n–malige Wiederholung eines Zufallsexperimentes mit nur zwei möglichen Ergebnissen aufgefasst werden. Ein anderes Beispiel eines Zufallsexperimentes: Man wirft eine “ideale” Münze so lange bis man “Zahl” bekommt. Mögliche Ergebnisse: alle Folgen ωi der Form (0, 0, . . . , 0, 1), i = 1, 2, . . . . | {z } (i−1)−mal Die Menge aller möglichen Ausgänge ist hier unendlich, aber abzählbar. i Wahrscheinlichkeiten: pi := Wahrscheinlichkeit von ωi = 21 , i = 1, 2, . . . . Beachte: ∞ P pi = 1. i=1 1.3 Abzählbare Wahrscheinlichkeitsräume Ein abzählbarer Wahrscheinlichkeitsraum besteht aus einer abzählbaren Menge Ω = {ω1 , ω2 , . . . }; jedem Element (“Elementarereignis”) ωi ist eine reelle Zahl pi ≥ 0 zugeordnet (die “Wahrschein4 lichkeit” von ωi ), derart dass ∞ P pi = 1. i=1 Die Teilmengen A ⊆ Ω heissen zusammengesetzte Ereignisse oder kurz P Ereignisse; die Wahrscheinlichkeit P (A) eines Ereignisses ist definiert durch P (A) = pi . i:ωi ∈A Es gilt: 1) P (∅) = 0, 2) P (Ω) = 1, 3) P ( ∞ S Ai ) = i=1 ∞ P P (Ai ) falls Ai ∩ Aj = ∅ für i 6= j. (∪ ist die Vereinigung, ∩ der i=1 Durchschnitt) Eine auf der Menge A aller Teilmengen von Ω definierte Funktion P , die die Eigenschaften 1), 2), 3) besitzt, wird Wahrscheinlichkeitsmass, Wahrscheinlichkeitsverteilung oder kurz Wahrscheinlichkeit genannt; das Tripel (Ω, A, P ) heisst abzählbarer Wahrscheinlichkeitsraum. Wir stellen uns auf den axiomatischen Standpunkt: die pk sind beliebige vorgegebene Zahlen. Beabsichtigte Interpretation i) Bei oftmaliger Wiederholung des Experimentes tritt das Ereignis A mit einer relativen Häufigkeit nahe bei P (A) auf. ii) Wenn P (A) nahe bei 1 (resp. bei 0) liegt, trifft A bei einmaliger Durchführung des Experimentes praktisch sicher ein (resp. nicht ein). Die Wahrscheinlichkeit wird also auch in dieser sogenannten “Häufigkeitsinterpretation” letzten Endes durch den subjektiven Glauben interpretiert, aber nur qualitativ, nicht quantitativ. Sei (Ω, A, P) ein abzählbarer Wahrscheinlichkeitsraum. Die Folge A1 , A2 , . . . von Ereignissen heisst monoton wachsend (resp. fallend), falls Ai ⊆ Ai+1 , ∀i (Ai+1 ⊆ Ai , ∀i ) gilt. Satz 1.1. A1 , A2 , . . . sei eine Folge von Ereignissen. Behauptungen 1. P (Ac1 ) = 1 − P (A1 ) (Ac1 bedeutet das Komplement von A) 2. P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) 5 3. P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) −P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) 4. P( n S Ai ) = i=1 n P P P (Ai1 ∩ Ai2 )+ P (Ai ) − i=1P i1 <i2 P (Ai1 ∩ Ai2 ∩ Ai3 ) − · · · + (−1)n+1 P (A1 ∩ A2 ∩ · · · ∩ An ) i1 <i2 <i3 5. Ai ↑ =⇒ Ai ↓ lim P (Ai ) = P ( i→∞ =⇒ ∞ S i=1 ∞ T lim P (Ai ) = P ( i→∞ Ai ), Ai ). i=1 Beweis. 1. Man hat A1 ∪ Ac1 = Ω und somit P (A1 ) + P (Ac1 ) = P (Ω) = 1. 2. Wegen A1 ∪ A2 = A1 − (A1 ∩ A2 ) ∪ A2 − (A1 ∩ A2 ) ∪ (A1 ∩ A2 ) gilt P (A1 ∪ A2 ) = P (A1 ) − P (A1 ∩ A2 ) + P (A2 ) − P (A1 ∩ A2 ) + P (A1 ∩ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) (A − B := A ∩ B c ) 3. siehe 4. 4. Der Beweis geschieht durch Induktion über n. Die Behauptung ist richtig für n = 2. Nehmen wir an, sie sei bis n − 1 bewiesen. Dann ist n−1 [ P (A1 ∪ A2 · · · ∪ An ) = P ( n−1 n−1 [ [ 2. Ai ) ∪ An = P ( Ai ) + P (An ) − P ( Ai ) ∩ An . i=1 i=1 i=1 Nach Voraussetzung gilt n−1 [ P( Ai ) = i=1 n−1 X P (Ai ) − i=1 n−1 X P (Ai1 ∩ Ai2 ) + · · · + (−1)n P (A1 ∩ · · · ∩ An−1 ) i1 ,i2 =1 i1 <i2 und n−1 S P ( Ai ∩ An ) = P n−1 S i=1 n−1 P (Ai ∩ An ) = i=1 n−1 P P (Ai ∩ An ) − i=1 P (Ai1 ∩ Ai2 ∩ An ) + · · · + (−1)n P (A1 ∩ A2 · · · ∩ An ). i1 ,i2 =1 i1 <i2 Daraus folgt P( n [ i=1 Ai ) = n X i=1 P (Ai ) − n X P (Ai1 ∩ Ai2 ) + · · · + (−1)n+1 P ( n \ i=1 i1 ,i2 =1 i1 <i2 6 Ai ). 5. Setzen wir (im Falle, wo Ai ↑) A0i := Ai − Ai−1 , i = 2, 3, . . . , A01 := A1 . Dann gilt ∞ ∞ S S Ai = A0i und somit i=1 i=1 P( ∞ [ Ai ) = P ( i=1 ∞ [ A0i ) = i=1 ∞ X P (A0i ), i=1 denn die Ereignisse {A0j } sind paarweise disjunkt. Ferner gilt ∞ P i=1 P (A0i ) n P P (A0i ) = lim {P (A01 ) + · · · + P (A0n )} n n→∞ o = lim P (A1 ) + P (A2 ) − P (A1 ) + · · · + P (An ) − P (An−1 ) = lim n→∞ i=1 n→∞ = lim P (An ). n→∞ Im Falle, wo Ai ↓ hat man Aci ↑. Deswegen ist ∞ [ \ P ( Aci ) = 1 − P ( Ai ) = lim P (Acn ) = lim 1 − P (An ) n→∞ i=1 und somit P( ∞ \ Ai ) = lim P (An ). n→∞ i=1 1.4 n→∞ Allgemeine Wahrscheinlichkeitsräume Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, A, P ), bestehend aus einer beliebigen Menge Ω, einer Menge A von Teilmengen (“Ereignisse”) von Ω und einer reellwertigen Funktion P auf A, derart dass A0 1. Ω ∈ A, 2. A ∈ A =⇒ Ac ∈ A, 3. Ai ∈ A, i = 1, 2, . . . =⇒ ∞ S Ai ∈ A. i=1 (Eine solche Menge A heisst σ–Algebra von Teilmengen.) A1 1. 0 ≤ P (A) ≤ 1, P (Ω) = 1, ∞ ∞ S P 2. P ( Ai ) = P (Ai ) falls Ai ∩ Aj = ∅ für i 6= j. i=1 i=1 (Axiome von Kolmogoroff) Es ist einfach zu sehen, dass der vorher bewiesene Satz auch im allgemeinen Fall gültig ist. Bemerkung Betrachten wir das folgende Experiment: Ein Punkt wird im Intervall [0, 1] “zufällig” ausgewählt. Mögliche Ergebnisse: Ω := [0, 1]. 7 Wahrscheinlichkeiten: Hier muss man P ({ω}) = 0 setzen (warum?), und es ist nicht mehr möglich, die Wahrscheinlichkeit irgendwelcher Teilmengen A von Ω als die Summe der Wahrscheinlichkeiten ihrer Elemente zu definieren. Man kann aber zeigen, dass es eine einzige Funktion P auf der kleinsten σ–Algebra gibt, welche die Intervalle I enthält, so dass (A1 ) 1, 2 mit P (I) = Länge von I für alle Intervalle I erfüllt sind. Beispiele von Wahrscheinlichkeiten, die durch Symmetriebetrachtungen ausgerechnet werden Beispiel 3 Aus einem Kartenspiel (36 Karten) greift man auf gut Glück 3 Karten heraus. Gesucht ist die Wahrscheinlichkeit P dafür, dass sich unter ihnen genau ein As befindet. Wir haben günstige Fälle = P = mögliche Fälle 4 1 32 2 36 3 = 496 ≈ 0, 2778 . 1785 Beispiel 4 Wir betrachten dasselbe Zufallsexperiment wie im dritten Beispiel. Gesucht ist die Wahrscheinlichkeit Q dafür, dass unter ihnen wenigstens ein As vorkommt (Ereignis A). Wir haben 32 3 36 3 P (A) = 1 − P (Ac ) = 1 − ≈ 0, 3053. Bemerkung: “auf gut Glück” bedeutet, dass alle möglichen Ausgänge gleichwahrscheinlich sind. Beispiel 5 Eine Urne enthält n weisse und n rote Kugeln. Der Reihe nach zieht man zufällig eine Kugel und dies ohne Zurücklegen. Wie gross ist die Wahrscheinlichkeit P , dass im Laufe der Ziehung nie mehr rote Kugeln als weisse Kugel gezogen worden sind? Antwort: P = 2 2.1 1 n+1 ; der Beweis wird in der Vorlesung durchgeführt. Bedingte Wahrscheinlichkeiten, unabhängige Ereignisse Die bedingte relative Häufigkeit: Wir betrachten ein Zufallsexperiment (z.B. einen Wurf mit einem symmetrischen Würfel). A und B seien zwei Ereignisse. Tritt bei n Wiederholungen des Experimentes genau nB –mal das Ereignis B ein, und findet bei diesen nB Versuchen nA∩B –mal zusammen mit B auch das Ereignis A statt, so wollen wir den Quotienten ! nA∩B . nB nA∩B die bedingte relative Häufigkeit nennen. = hA|B = nB n n 8 Die bedingte relative Häufigkeit des Ereignisses A unter der Bedingung B in einer Versuchsfolge ist also gleich der relativen Häufigkeit von A in einer Teilfolge dieser Versuchsfolge, die aus denjenigen Versuchen der ursprünglichen Folge besteht, bei welchen B stattgefunden hat. 2.2 Bedingte Wahrscheinlichkeit: Interpretiert man die Wahrscheinlichkeit eines Ereignisses als relative Häufigkeit, ist es dann sinnvoll, die bedingte Wahrscheinlichkeit P (A|B) von A, gegeben B, wie folgt zu definieren P (A ∩ B) falls P (B) > 0 ist. P (A|B) := P (B) (Hier wird vorausgesetzt, dass ein allgemeiner Wahrscheinlichkeitsraum vorgegeben ist.) 2.3 Unabhängigkeit: Zwei Ereignisse A, B heissen unabhängig, wenn P (A ∩ B) = P (A)P (B) gilt. Bemerkung: Im Falle, wo P (B) > 0 ist, sind A und B unabhängig dann und nur dann, wenn P (A|B) = P (A) ist. Beachte: Die Definition von Unabhängigkeit ist symmetrisch. Die Frage, ob die kausale Unabhängigkeit durch stochastische Unabhängigkeit (wie oben definiert) formalisiert werden kann, kann nur empirisch entschieden werden. Satz 2.1 (Der “Satz von der totalen Wahrscheinlichkeit” und die Formel von Bayes ). (Ω, A, P ) sei ein Wahrscheinlichkeitsraum. Seien B1 , · · · , Bk , A beliebige Ereignisse mit a) P (Bi ) > 0, ∀i und P (A) > 0, b) Bi ∩ Bj = ∅ für i 6= j und c) k S Bi = Ω. i=1 Dann gilt — P (A) = k P P (A|Bj )P (Bj ) (“Satz von der totalen Wahrscheinlichkeit”). j=1 — Die unmittelbar daraus folgende Beziehung P (Bi |A) = P (Bi ∩ A) P (A|Bi )P (Bi ) = k P P (A) P (A|Bj )P (Bj ) j=1 wird Formel von Bayes genannt. 9 Diese Formel hat eine fundamentale Bedeutung in der subjektiven Wahrscheinlichkeitsauffassung: sei P (Bi ) das Mass unseres a priori Glaubens an die Richtigkeit der Hypothese Bi ; wir kennen ausserdem die bedingten Wahrscheinlichkeiten P (A|Bi ) für das Eintreffen von A unter den verschiedenen Hypothesen. Wenn nun das Experiment tatsächlich das Resultat A ergeben hat, modifiziert eine “ideale” Person ihren a priori Glauben zum a posteriori Glauben P (Bi |A) gemäss der Bayes’schen Formel. Beispiel 1 (vgl. Kapitel I, Beispiel 2) Zufallsexperiment: n Würfe mit einer idealen Münze. Ak : der k–te Wurf ergibt “Zahl”. Man hat P (Ak ) = 2n−1 1 = , 2n 2 P (Ak ∩ A` ) = 2n−2 1 = 2n 4 für k 6= ` =⇒ für k 6= ` sind Ak und A` unabhängig. Beispiel 2 Ich habe einen Sack voll Münzen. Die Hälfte davon fällt mit Wahrscheinlichkeit p = 0, 9 “Kopf”, die andere Hälfte mit Wahrscheinlichkeit p = 0, 1. Ich ziehe auf Geratewohl eine Münze aus dem Sack und werfe sie zweimal. Sei Ki das Ereignis: “Kopf” im i–ten Wurf. Dann gilt: P (K1 ) = P (K1 |p = 0.9) P (p = 0.9) + P (K1 |p = 0.1) P (p = 0.1) = 0.5 | {z } | {z } | {z } | {z } 0.9 0.5 0.1 0.5 P (K2 ) = 0, 5, P (K1 ∩ K2 ) = (0.9)2 · 0.5 + (0.1)2 · 0.5 = 0.41, P (K2 |K1 ) = 0.41 0.5 = 0.82 . Angenommen, ich habe zweimal “Kopf” geworfen. Wie gross ist die Wahrscheinlichkeit, dass meine Münze zur Klasse p = 0.9 gehört? (a posteriori Glauben!) P (“p = 0.9”|K1 ∩ K2 ) = P (“p = 0.9” ∩ (K1 ∩ K2 )) 0.5 · 0.9 · 0.9 = = 0.988 P (K1 ∩ K2 ) 0, 41 (Formel von Bayes mit A = K1 ∩ K2 , B1 ∼ “p = 0.1” und B2 ∼ “p = 0.9” ) 10 Unabhängige Ereignisse Definition Eine Familie A1 , A2 , · · · , An heisst unabhängig, falls \ Y P( Aj ) = P (Aj ) für alle Teilmengen J von {1, 2, · · · , n}. j∈J j∈J Zum Beispiel, die Familie A1 , A2 , A3 ist unabhängig, falls P (A1 ∩A2 ) = P (A1 )P (A2 ), P (A2 ∩ A3 ) = P (A2 )P (A3 ), P (A1 ∩ A3 ) = P (A1 )P (A3 ) und P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ) gilt. Definition Die Ereignisse A1 , A2 , · · · , An heissen paarweise unabhängig, falls P (Ai ∩ Aj ) = P (Ai )P (Aj ) für i 6= j gilt. Beachte: paarweise Unabhängigkeit impliziert nicht die Unabhängigkeit der Familie. Beispiel: Wir betrachten 2 Würfe mit einem Würfel und definieren drei Ereignisse wie folgt A1 ∼ 1. Wurf zeigt gerade Augenzahl, A2 ∼ 2. Wurf zeigt gerade Augenzahl, A3 ∼ beide Würfe haben die gleiche Parität. In diesem Falle sind die Ereignisse A1 , A2 , A3 paarweise unabhängig, aber die Familie ist nicht unabhängig. Beispiel 3 Rotgrün-Blindheit (R): Eine meist angeborene Störung des Farbensinnes; Farben zwischen Rot und Grün erscheinen als verschieden helles Gelb. Untersuchungen haben ergeben: Bei den Männern (M ) tritt R viel häufiger auf als bei den Frauen (F ). Man kann nämlich annehmen, dass P (R|M ) = 8 % und P (R|F ) = 0, 4 % gilt. Wir wollen jetzt die bedingte Wahrscheinlichkeit P (M |R) des “Ereignisses” M , gegeben R ausrechnen. Um die Sache zu vereinfachen, setzen wir P (M ) = P (F ) = 1/2. Nach dem “Satz von der totalen Wahrscheinlichkeit” und der Formel von Bayes erhalten wir P (R) = P (R|M )P (M ) + P (R|F )P (F ) = 0, 08 · 0, 5 + 0, 004 · 0, 5 = 0, 042 und somit P (M |R) = P (R|M ) · P (M ) 0, 08 · 0, 5 = = 0, 95 . P (R) 0, 042 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Die Mengensysteme A1 , · · · , Ak sind (stochastisch) unabhängig, falls für alle k Q k–Tupel A1 ∈ A1 , . . . , Ak ∈ Ak , P (A1 ∩ A2 ∩ · · · ∩ Ak ) = P (Ai ). Definition i=1 Definition Eine Familie (At )t∈T von Mengensystemen heisst unabhängig, falls die Mengensysteme (At )t∈J , für alle endlichen Teilmengen J von T , unabhängig sind. 11 3 Diskrete Zufallsgrössen (Ω, A, P ) sei ein Wahrscheinlichkeitsraum und E eine abzählbare Menge. Definition E, so dass Eine diskrete Zufallsgrösse mit Werten in E ist eine Abbildung X von Ω in X −1 ({e}) := {ω ∈ Ω : X(ω) = e} ∈ A, ∀ e ∈ E. X ist eine reelle Zufallsgrösse, falls E ⊆ R und ein Zufallsvektor im Falle, wo E ⊆ Rk (k > 1). Beispiel 1 (n–maliges Werfen einer symmetrischen Münze) Ω = {ω = (ω1 , ω2 , · · · , ωn ) : ωi ∈ {0, 1}, ∀i }, A = P(Ω), X(ω) := n P P ({ω}) = 1 2n ∀ ω ∈ Ω. ωi i=1 In diesem Fall ist E = {0, 1, 2, · · · , n} und P X −1 (k) = (siehe Beispiel 2, I, § 1). Beispiel 2 n 1 k 2n , k = 0, · · · , n (n–maliges Werfen einer Münze: die Binomial verteilung B(n, p)) Ai sei das Ereignis “Zahl” beim i–ten Wurf. Wir setzen voraus, dass die Familie A1 , A2 , · · · , An unabhängig sei wie im Beispiel 1 definiert. Da die Münze nicht unbedingt symmetrisch ist. X −1 ist, gilt P X (k) = nk pk (1 − p)n−k , wobei p = P (Ai ) mit 0 < p < 1. 3.1 Die Verteilung einer Zufallsgrösse −1 Falls X Werte in E = {e1 , e2 , . . . } annimmt, definiert man PX ({e }) := P X (e ) für i i P i = 1, 2, . . . . Für eine Teilmenge A von E setzt man PX (A) := PX ({ei }). Die von X ei :ei ∈A induzierte Wahrscheinlichkeit PX ist die Verteilung der Zufallsgrösse. Im Beispiel 2 hat man PX ({k}) = nk pk (1−p)n−k mit E = {0, 1, 2, . . . , n}. Diese Verteilung, die von zwei Parametern abhängt, spielt eine wichtige Rolle in der Wahrscheinlichkeitstheorie. Sie heisst Binomialverteilung B(n, p) . Die Erwartung Sei X eine reelle Zufallsgrösse mit Werten in E = {x1 , x2 , . . . } (⊆ R). Die Erwartung von X ist definiert als E(X) = ∞ X ∞ X xi P X −1 (xi ) = xi PX ({xi }), i=1 falls ∞ P i=1 |xi |PX ({xi }) < ∞. i=1 12 Figure 1: Die Binomialverteilung Beispiel: Falls X eine B(n, p)–Verteilung besitzt, gilt E(X) = np: Nach Definition ist E(X) = n P = k=0 n P k=1 k n k n! k k!(n−k)! pk (1 − p)n−k = =p·n n−1 P k=0 3.2 pk (1 − p)n−k (E = {0, 1, 2, . . . , n}) n−1 k n P pn · k=1 (n−1)! k−1 (1 (k−1)!(n−1−(k−1))! p − p)(n−1−(k−1)) pk (1 − p)(n−1−k) = n · p . Einige Eigenschaften der Erwartung Satz 3.1. X, Y seien reelle Zufallsgrössen, so dass E(X) und E(Y ) definiert sind. Dann gilt: 1. X ≥ 0 =⇒ E(X) ≥ 0, 2. E(cX) = c E(X), ∀ c ∈ R, 3. X ≡ 1 =⇒ E(X) = 1, 4. E(X + Y ) = E(X) + E(Y ). Beweis Die Behauptungen 1., 2. und 3. folgen unmittelbar aus der Definition der Erwartung. Um 4. zu beweisen, zeigt man zunächst, dass E(X + Y ) wohl definiert ist: E = {x1 , x2 , . . . } (F = {y1 , y2 , . . . }) sei der Wertebereich von X (Y ). Dann nimmt die Zufallsgrösse Z := X + Y 13 Werte in G = {xi + yj : i, j = 1, 2, . . . } an. Also gilt P |xi + yj |P X −1 (xi ) ∩ Y −1 (yj ) i,j P P ≤ |xi |P X −1 (xi ) ∩ Y −1 (yj ) + |yj |P X −1 (xi ) ∩ Y −1 (yj ) i,j i,j P ∞ ∞ ∞ ∞ P P P |xi | P X −1 (xi ) ∩ Y −1 (yj ) + |yj | P X −1 (xi ) ∩ Y −1 (yj ) = i=1 j=1 j=1 P i=1 ∞ ∞ P −1 −1 = |xi |P X (xi ) + |yj |P Y (yj ) < ∞ i=1 j=1 und somit existiert die Erwartung von X + Y . Lässt man nun in den oberen Zeilen überall den Absolutbetrag weg, sieht man sofort, dass E(X + Y ) = E(X) + E(Y ). Bemerkung 1 Im Beweis hat man natürlich vorausgesetzt, dass xi 6= xj und yi 6= yj für i 6= j. Für die Zahlen {xi + yj } braucht es nicht der Fall zu sein! Bemerkung 2 Aus 4. folgt: Falls E(Xi ) für i = 1, 2, . . . , n, existiert, dann existiert E(X1 + X2 + · · · + Xn ) und E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ). Mit Hilfe der Linearität der Erwartung lässt sich die letztere für die Binomialverteilung n P einfach ausrechnen: X (wie im Beispiel 2) kann man als Summe schreiben: X = Yi , wobei i=1 Yi die Werte 1 (mit Wahrscheinlichkeit p) und 0 (mit Wahrscheinlichkeit 1 − p) annimmt. E(Yi ) = 1 · p + 0 · p = p =⇒ E(X) = np. 3.3 Unabhängige reelle Zufallsgrössen Sei X eine Zufallsgrösse mit Werten in E = {x1 , x2 , . . . } ⊆ R und AX ⊆ A das System aller Teilmengen von Ω, die mit Hilfe von X beschrieben werden können, d.h. alle Ereignisse der Form X −1 (B) mit B ⊆ E. Definition Die Zufallsgrössen X1 , . . . , Xk heissen (stochastisch) unabhängig, wenn die Mengensysteme AX1 , . . . , AXk unabhängig sind. Beispiel: 2 Würfe mit einem Würfel. Betrachten wir die Zufallsgrössen 1 falls beim i–ten Wurf die Augenzahl gerade ist Xi := 0 sonst i = 1, 2. Die Zufallsgrössen X1 , X2 sind unabhängig. Satz 3.2. Seien X, Y unabhängig. Falls E(X), E(Y ) existieren, gilt E(XY ) = E(X) E(Y ). 14 Beweis Seien x1 , x2 , . . . und y1 , y2 , . . . die Werte von X und Y . Dann ist X X |xi yj |P X −1 (xi ) ∩ Y −1 (yj ) = |xi | |yj |P X −1 (xi ) · P Y −1 (yj ) i,j i,j wegen der Unabhängigkeit. Somit ist die summe endlich, d.h. die Erwartung von X · Y existiert. Weiter gilt P E(X · Y ) = xi yj P X −1 (xi ) ∩ Y −1 (yj ) i,j P P = xi P X −1 (xi ) · yj P Y −1 (yj ) = E(X) · E(Y ). i 3.4 j Moment, Varianz aund Kovarianz Sei X eine Zufallsgrösse und g eine reelle Funktion, die (mindestens) auf dem Wertebereich von X definiert ist g(X) auch eine Zufallsgrösse. Falls g(x) = xk , ∀ x ∈ R, dann ist. Dann k heisst E g(X) = E(X ) das k–te Moment von X (vorausgesetzt, dass E(|X|k ) < ∞) und k E g(X − E(X) = E (X − E(X)) das k–te zentrale Moment. Beachte: Wenn k ≤ m und E(|X|m ) < ∞, dann ist auch E(|X|k ) endlich. Beweis: Für k ≤ m ist |X|k ≤ 1 + |X|m . Nach Satz 3.1 gilt dann E(|X|k ) ≤ E(1) + E(|X|m ) < ∞. Wichtig ist das zweite zentrale Moment, die Varianz σ 2 (X) = Var(X) = E (X − E(X))2 . Beachte: Für alle reellen Zahlen a, b gilt σ 2 (aX + b) = a2 σ 2 (X). σ(X) heisst die Streuung von X. Interpretationen: Die Erwartung sagt etwas über die “Lage” der Zufallsgrösse, während die Streuung (Varianz) dazu dient, die Abweichung von der Erwartung zu charakterisieren. Satz 3.3. (Schwarz’sche Ungleichung) X, Y seien zwei reelle Zufallsgrössen. Behauptung E(|XY |) ≤ 1/2 E(X 2 ) · E(Y 2 ) . Beweis: ∀ λ ∈ R, gilt E(|X| + λ|Y |)2 ≥ 0. Durch Satz 3.1 hat man aber P (λ) := E(|X| + λ|Y |)2 = E(X 2 ) + λ2 E(Y 2 ) + 2λ E(|XY |) und somit E(|XY |)2 ≤ E(X 2 ) E(Y 2 ). X und Y seien zwei reelle Zufallsgrössen mit E(X 2 ) < ∞, E(Y 2 ) < ∞ und Var(X) > 0, Var(Y ) > 0. 15 Definitionen als Die Kovarianz und die Korrelation zwischen X und Y sind definiert 1. Cov(X, Y ) := E (X − E(X))(Y − E(Y )) , 2. ρ(X, Y ) := Cov(X,Y ) σ(X)·σ(Y ) . Bemerkung Falls X und Y unabhängig sind, gilt Cov(X, Y ) = ρ(X, Y ) = 0. Aus der Linearität der Erwartung folgt, dass Cov(X, Y ) = E(XY ) − E(X) E(Y ). Nach Satz 3.2 ist E(XY ) = E(X) E(Y ) und deswegen Cov(X, Y ) = 0. f.s. Definition Zwei Zufallsgrössen X und Y sind fast sicher gleich (X = Y ), falls P {ω : X(w) 6= Y (ω)} = 0. Satz 3.4. X, Y seien zwei Zufallsgrössen mit E(X 2 ) < ∞, E(Y 2 ) < ∞, σ(X) > 0, σ(Y ) > 0. Behauptungen 1. ρ2 (X, Y ) ≤ 1, f.s 2. ρ(X, Y ) = 1 ⇐⇒ ∃a > 0, b ∈ R, so dass Y = aX + b, f.s 3. ρ(X, Y ) = −1 ⇐⇒ ∃a < 0, b ∈ R, so dass Y = aX + b. Beweis 1. Die Ungleichung ist nichts anderes als die Ungleichung von Schwarz (Satz 3.3, wenn man in der letzteren X durch X − E(X) und Y durch Y − E(Y ) ersetzt. 2. “⇐=” : σ 2 (aX + b) = a2 σ 2 (X) und Cov(X, aX + b) = aσ 2 (X). Also gilt aσ 2 (X) ρ(X, Y ) = p = 1. 2 a σ 2 (X)σ 2 (X) −E(Y ) 2. “=⇒” : Man definiert X 0 := X−E(X) und Y 0 := Y σ(Y σ(X) ) . Die Korrelation lässt sich 0 0 dann schreiben als ρ(X, Y ) = E(X · Y ). Nach Voraussetzung gilt also E(Y 0 − X 0 )2 = f.s. E(Y 0 )2 + E(X 0 )2 − 2 E(X 0 · Y 0 ) = 0 und deswegen ist Y 0 − X 0 = 0, d.h. (X − E(X)) f.s. Y = E(Y ) + σ(Y ) = aX + b σ(X) mit a = 3. σ(Y ) σ(X) und b = E(Y ) − σ(Y ) σ(X) · E(X). aσ 2 (X) “⇐=” : Wie oben zeigt man, dass ρ(X, Y ) = p . Also gilt a2 σ 4 (X) ρ(X, Y ) = a = −1. |a| 16 3. “=⇒” : Selbe Überlegung wie oben. Man arbeitet aber mit der Summe Y 0 + X 0 und zeigt, dass in diesem Falle f.s. Y 0 + X 0 = 0. Satz 3.5. X1 , X2 , . . . , Xn seien unabhängige Zufallsgrössen mit E(Xi2 ) < ∞, i = 1, 2, . . . , n. P P n n Var Xi = Var(Xi ). Behauptung i=1 Beweis: Var( n P Xi ) = E i=1 n P Var(Xi ) + i=1 i=1 n P Xi − E(Xi ) 2 = E i=1 n P h P n i Xi − E(Xi ) (Xj − E(Xj ) = i,j=1 Cov(Xi , Xj ). Wegen der Unabhängigkeit ist aber die Kovarianz zwis- i,j=1;i6=j chen Xi und Xj (i 6= j) null. Mit Hilfe von Satz 3.5 lässt sich z.B. die Varianz der Binomialverteilung leicht ausrechnen: Sei X B(n, p)-verteilt. Dann gilt X = n P Yi , wobei Y1 , . . . , Yn unabhängig und identisch i=1 verteilt sind (siehe Satz 3.1, Bemerkung 2). 2 Var(Yi ) = E(Yi2 ) − E(Yi ) = p − p2 = p(1 − p) und deswegen ist Var(X) = np(1 − p). 3.5 Die Faltung von Wahrscheinlichkeiten Frage: Gegeben n unabhängige reelle Zufallsgrössen X1 , X2 , . . . Xn mit bekannten Verteilunn P gen PX1 , PX2 . . . , PXn . Wie sieht die Verteilung PX der Summe X = Xi , die sogenannte i=1 Faltung von PX1 , PX2 . . . , PXn aus? Im allgemeinen (n beliebig) ist es unmöglich, die Faltung PX auf einfache Weise auszudrücken. Deshalb betrachten wir zunächst den Spezialfall n = 2. Satz 3.6. X, Y seien zwei reelle unabhängige Zufallsgrössen mit Verteilungen PX , PY und Wertebereichen E1 := {x1 , x2 , . . . } und E2 := {y1 , y2 , . . . }. Sei E := {z1 , z2 , . . . } der Wertebereich von Z := X + Y . (Beachte, dass E = {x + y : x ∈ E1 , y ∈ E2 }.) Behauptung PZ ({zi }) = ∞ X PY ({zi − xj })PX ({xj }) = j=1 ∞ X j=1 17 PX ({zi − yj })PY ({yj }). Beweis PZ ({zi }) = P ({ω : Z(ω) = zi }) = = ∞ P = j=1 ∞ P = j=1 ∞ P ∞ P P ({ω : Z(ω) = zi } ∩ {ω : X(ω) = xj }) j=1 P ({Z = zi } ∩ {X = xj }) = ∞ P P ({Z = zi } | {X = xj })P ({X = xj }) j=1 P ({Y = zi − xj } | {X = xj })PX ({xj }) P ({Y = zi − xj })PX ({xj }) wegen der Unabhängigkeit. j=1 Also gilt PZ ({zi }) = ∞ X PY ({zi − xj })PX ({xj }). j=1 3.6 Liste einiger wichtigen (diskreten) Verteilungen X sei eine reelle Zufallsgrösse. 1. X besitzt eine Binomialverteilung (B(n, p)), falls (a) X nimmt Werte in E := {0, 1, 2, . . . , n} an, (b) PX ({i}) = ni pi (1 − p)n−i , i ∈ E. (siehe III, § 1, Beispiel 2) 2. M , N , n seien positive ganze Zahlen mit n ≤ N , M < N . X besitzt eine hypergeometrische Verteilung mit Parametern M , N , n, falls (a) X nimmt Werte in E := {k : k ∈ N, k ≤ M, n − k ≤ N − M } an, (M )(N −M ) (b) PX ({k}) = k Nn−k , k ∈ E. (n) 3. Die Poisson Verteilung mit Parameter λ(> 0). X besitzt eine Poisson Verteilung P(λ), falls (a) X Werte in E := {0, 1, 2, 3, . . . } annimmt, (b) PX ({k}) = e−λ λk , k ∈ E. k! Herleitung der Poisson Verteilung als Grenzwert von Binomialverteilungen Wir betrachten eine gewisse Menge eines radioaktiven Elementes und ein Zeitintervall [0, T ]. X sei die Anzahl der radioaktiven Zerfälle im Intervall [0, T ]. X ist eine Zufallsgrösse (empirische Tatsache) und gesucht ist eine Approximation für die Verteilung von X: T Wir dividieren das Intervall [0, T ] in n Teilintervalle {∆i } der gleichen Länge . Für n grosse Werte von n darf man annehmen, dass in jedem Intervall ∆i (i = 1, . . . , n) höchstens ein Zerfall stattfindet. Ferner machen wir die folgenden Voraussetzungen: 18 1. Bezeichnet Ak das Ereignis, dass im Zeitintervall ∆k ein Zerfall stattfindet, so ist die Familie A1 , A2 , . . . , An unabhängig. 2. ∃ eine Konstante λ (die von der Substanz abhängt), so dass P (Ai ) = λ · Länge von ∆i = λ · T , i = 1, 2, . . . , n. n Unter diesen Voraussetzungen gilt: T n−k n T k 1−λ P (X = k) = PX ({k}) = λ , , k = 0, 1, . . . , n , k n n d.h. X besitzt eine B(n, λ Tn )-Verteilung. Für ein festes k lassen wir nun n gegen ∞ streben. Wir bekommen dann (λT )k . n→∞ n→∞ k! Die Grenzverteilung ist also eine Poisson Verteilung mit Parameter λT . lim P (X = k) = lim PX ({k}) = e−λT Bemerkung: X sei P(λ)-verteilt. Dann gilt E(X) = λ: Nach Definition der Erwartung ist ∞ ∞ ∞ X X X λk λk−1 λk = e−λ = e−λ λ = λe−λ · eλ = λ. E(X) = ke−λ k! (k − 1)! (k − 1)! k=0 k=1 k=1 4. Die Multinomialverteilung mit Parametern n, p1 , p2 , . . . , pk . Diese Verteilung ist eine natürliche Verallgemeinerung der Binomialverteilung: Ein zufälliges Experiment mit mehreren möglichen Resultaten A1 , . . . , Ak wird n-mal unabhängig wiederholt. Die Wahrscheinlichkeiten P (Aj ) =: pj (j = 1, . . . , k) der möglichen Resultate genügen dann der Bedingung p1 + p2 · · · + pk = 1. Wiederholt man den Versuch n-mal und bedeutet Bn1 ,n2 ,...,nk das Ereignis, dass unter den n Ergebnissen n1 -mal A1 , n2 -mal A2 , . . . nk -mal Ak auftreten, wobei n1 + n2 + · · · + nk = n gilt, so ist n! P (Bn1 ,n2 ,...,nk ) = pn1 pn2 . . . pnk k . n1 !n2 ! . . . nk ! 1 2 Beispiel: n-maliges Werfen eines (nicht unbedingt symmetrischen) Würfels: n! pn1 . . . pn6 6 , wobei pi := P ({i}), i = 1, . . . , 6. n1 ! . . . n 6 ! 1 P (Bn1 ,n2 ,...,n6 ) = Satz 3.7. P(λ2 ). X, Y seien zwei unabhängige Zufallsgrössen mit Verteilungen P(λ1 ), Behauptung Die Verteilung der Summe Z := X + Y , d.h. die Faltung von P(λ1 ) und P(λ2 ) ist die Poisson Verteilung P(λ1 + λ2 ). Beweis. Nach Satz 3.6 gilt PZ ({k}) = ∞ X PY ({k − j})PX ({j}) = j=0 = k X j=0 = k X PY ({k − j})PX ({j}) j=0 −λ2 e k 1 −(λ1 +λ2 ) X k! λ2k−j −λ1 λj1 e = e λj1 λk−j 2 (k − j)! j! k! (k − j)!j! j=0 k 1 −(λ1 +λ2 ) X k j k−j e−(λ1 +λ2 ) e · (λ1 + λ2 )k . λ1 λ2 = k! j k! j=0 19 3.7 Die Verteilungsfunktion einer Zufallsgrösse X sei eine Zufallsgrösse. Die Verteilungsfunktion von X ist definiert als F (u) := P (X ≤ u). F erfüllt: 1) F ist monoton wachsend, 2) lim F (x) = 0, lim F (x) = 1, x→−∞ x→∞ 3) F ist von rechts stetig, d.h. F (u + 0) := lim un →arrowu F (un ) = F (u), denn F (un ) = P (X ≤ un ) = PX (−∞, un ] −→ PX (−∞, u] = F (u), da (−∞, un ] −→ (−∞, u]. Beachte: X nimmt höchstens abzählbar viele Werte x1 , x2 , . . . an. Deswegen ist in diesem Falle F stückweise konstant mit höchstens abzählbar vielen Sprüngen der Höhe F (xk ) − F (xk − 0) an den Stellen xk , k = 1, 2, . . . . Bemerkung: Jeder Verteilung entspricht eine Verteilungsfunktion 3.8 Erzeugende Funktionen Z sei eine Zufallsgrösse mit Werten in Z+ := {0, 1, 2, . . . }. Setzt man pk := P (Z = k), ∞ P k = 1, 2, . . . , so ist die erzeugende Funktion g (oder gZ ) von Z definiert als g(t) = pn t n = Z E(t ). Da ∞ P n=0 pn = 1 ist, konvergiert die Reihe mindestens für alle t mit |t| ≤ 1. n=0 1. pn = g (n) (0) n! , wobei g (n) (t) die n–te Ableitung von g an der Stelle t ist. 2. Für 0 ≤ t ≤ 1 ist g stetig, monoton wachsend und konvex und es ist g(0) = p0 g(1) = 1. 3. E Z(Z − 1) . . . (Z − k + 1) = g (k) (1−), wobei g (k) (1−) = lim g (k) (t). t↑1 Mittels 3 lassen sich Momente von Z oft leichter berechnen als direkt aus der Verteilung. Man geht rekursiv vor: E(Z) = g (1) (1−), E(Z 2 ) = E Z(Z − 1) + E(Z) = g (2) (1−) + g (1) (1−), usw.. 3.9 Beispiele von abhängigen Zufallsgrössen Bei Folgen von Zufallsgrössen war bis jetzt immer die Unabhängigkeit vorausgesetzt. Z.B. war das der Fall in den Kapiteln IV und V. Nachstehend sind drei Beispiele angegeben, wo diese Voraussetzung nicht erfüllt ist. Das dritte Beispiel wird am Ende dieses Kapitels näher untersucht. 20 Beispiel 1 Sei X1 , X2 , . . . eine Folge unabhängiger und identisch verteilter Zufallsgrössen. n P Definiert man Zn := Xi für n = 1, 2, . . . , so sind die Zufallsgrössen {Zn } nicht mehr i=1 unabhängig. Die schwachen Gesetze der grossen Zahlen und insbesondere der Zentralgrenzwetsatz geben uns Informationen über das Verhalten von Zn im Falle, wo n gegen unendlich strebt. Beispiel 2 (einfaches Warteschlangen-Modell) Seien 0, 1, 2, . . . die Zeitpunkte, an denen ein Skilift, der pro Zeiteinheit eine Person befördern kann, abfährt. Zwischen den Zeitpunkten n und n + 1 kommen Yn neue Skifahrer an. Die Yn seien unabhängig. Die Länge Zn der Warteschlange unmittelbar vor der Abfahrt zur Zeit n bestimmt sich rekursiv durch Zn = max(0, Zn−1 − 1) + Yn−1 (n ≥ 1). Z0 = i0 sei eine bekannte Zahl. Beispiel 3 Galton studierte 1873 das Phänomen des Aussterbens berühmter Familiennamen. Es stellte sich die Frage nach der Wahrscheinlichkeit des Aussterbens der männlichen Linie der Nachkommenschaft eines Mannes, wenn dieser und jeder seiner Söhne, Enkel usw. unabhängig voneinander mit Wahrscheinlichkeit pk genau k Söhne hat: Sei Z0 = 1. Ist Zn die Anzahl der männlichen Nachkommen (in männlicher Linie) in der n–ten NachkomZn P (j) (j) mensgeneration, und hat der j–te dieser Nachkommen Xn+1 Söhne, so ist Zn+1 = Xn+1 . j=1 Diese Familie {Zn } ist ein sogenannter Verzweigungsprozess. Beachte: in diesem Falle sind die Zufallsgrössen Z0 , Z1 , Z2 , . . . nicht unabhängig. Um die Frage von Galton zu beantworten, müssen wir die Folge qn := P (Zn = 0), n = 1, 2, . . . untersuchen, denn q := lim qn ist die gesuchte Aussterbewahrscheinlichkeit. n→∞ Heute interessiert man sich für Verzweigungsprozesse, von denen die obigen Prozesse den einfachsten Fall darstellen; natürlich nicht wegen der Familiennamen, sondern weil ähnliche Verzweigungen auch in anderen Situationen auftreten. Z.B. macht ein Neutron bei der Kernspaltung eine zufällige Zahl weiterer Neutronen frei. In den obigen Beispielen nehmen die Zufallsgrössen {Zn } Werte in Z+ := {0, 1, 2, . . . } an. Alle Prozesse haben eine gemeinsame Eigenschaft, nämlich: für alle n und alle i0 , i1 , . . . , in ∈ E gilt P (Zn = in | Zn−1 = in−1 , . . . , Z0 = i) = P (Zn = in | Zn−1 = in−1 ). Dies ist die sogenannte Markoffsche Eigenschaft. Die Prozesse sind dann Markoffsche Ketten (siehe z.B. Karlin: A first course in stochastic processes, Academic Press (1969); KarlinTaylor: A second course in stochastic processes, Academic Press (1981)). Gesucht ist die Aussterbewahrscheinlichkeit q. Da Zn = 0, Zm = 0 für alle m ≥ n im(j) pliziert, gilt q = lim P (Zn = 0) = lim qn . Die Zufallsgrössen {Xn } haben alle die gleiche n→∞ n→∞ Verteilung, also auch die gleiche erzeugende Funktion g(t) = ∞ X k=0 21 pk t k . Bezeichnet hn die erzeugende Funktion von Zn , so ist wegen P (Z0 = 1) = 1 natürlich h0 (t) = t. Ausserdem gilt hn+1 (t) ∞ ∞ ∞ X X X P (Zn+1 = j, Zn = m)tj = hn g(t) : hn+1 (t) = P (Zn+1 = j)tj = j=0 m=0 j=0 = ∞ X ∞ X j=0 m=0 m ∞ X ∞ m X X X (`) (`) P( Xn+1 = j, Zn = m)tj = P( Xn+1 = j) · P (Zn = m)tj j=0 m=0 `=1 `=1 (1) (m) {Xn+1 , . . . , Xn+1 }) (wegen der Unabhängigkeit von Zn und ∞ m ∞ X X X (`) P( Xn+1 = j)tj = P (Zn = m) = m=0 j=0 ∞ X m=0 m P P (Zn = m)E t`=1 `=1 (`) Xn+1 = ∞ X m=0 P (Zn = m) m Y (`) E(tXn+1 ) `=1 (1) (m) Xn+1 , . . . , Xn+1 ) (wegen der Unabhängigkeit der Zufallsgrössen ∞ X m (1) (m) = P (Zn = m) g(t) (die Zufallsgrössen Xn+1 , . . . , Xn+1 m=0 sind identisch verteilt mit erzeugender Funktion g!) = hn g(t) . Also ist h1 (t) = g(t), h2 (t) = (g ◦ g)(t) und allgemein hn (t) = (g ◦ g ◦ · · · ◦ g)(t) die Funktion, die man durch n–fache iterierte Anwendung der Abbildung g erhält. Da qn = P (Zn = 0) = hn (0), gilt also q = lim hn (0). Damit haben wir bei gegebenem g nur noch ein rein n→∞ analytisches Problem zu lösen. 22 Satz 3.8. Die Aussterbewahrscheinlichkeit q ist die kleinste nicht-negative Lösung der Gleichung g(t) = t. Ist g (1) (1) ≤ 1 und p1 < 1, so ist q = 1; ist g (1) (1) > 1, so ist q < 1. (g (1) (1) ist die erwartete Zahl der männlichen Nachkommen jedes Mitgliedes der Nachkommenschaft. Der Prozess stirbt also — abgesehen vom Fall p1 = 1 — mit Wahrscheinlichkeit 1 aus, wenn im Mittel höchstens 1 männlicher Nachkomme geboren wird, und sonst nur mit Wahrscheinlichkeit < 1.) Beweis Es gilt, wegen der Stetigkeit von g, g(q) = g lim hn (0) = lim g hn (0) = lim hn+1 (0) = q. q ist demnach Lösung der Gleichung g(t) = t. Ist u ≥ 0 eine weitere Lösung, so ist u = g(u) ≥ g(0) = h1 (0), und durch Induktion folgt aus u ≥ hn (0) dann u = g(u) ≥ g hn (0) = hn+1 (0). Durch den Grenzübergang n → ∞ ergibt sich u ≥ q. Damit ist die erste Teilaussage bewiesen. Ist p0 +p1 = 1, so kann in jeder Generation maximal ein männlicher Nachfahre existieren. Aus (1) P (Zn+1 = 1) = P (Zn = 1) P (Xn+1 = 1) = p1 P (Zn = 1) folgt induktiv P (Zn = 1) = pn1 . n Damit gilt q = lim(1 − p1 ). In diesem Fall ist g (1) (1) = p1 ≤ 1. Ist p1 < 1, so ist q = 1. Sei nun p0 + p1 < 1. Dann ist mindestens eines der pk mit k ≥ 2 positiv. g (1) (t) = P also k−1 kpk t ist dann auf [0, 1) strikt monoton und g(t) dort strikt konvex. Wir betrachten k=1 zwei Fälle: a) Ist g (1) ≤ 1, so ist g 0 (t) < 1 für 0 ≤ t < 1. Nach dem Mittelwertsatz muss g(t) > t für t ∈ (0, 1) sin. Also ist 1 die einzige Lösung von g(t) = t und damit q = 1. b) Ist g (1) (1) > 1, so ist g (1) (t) > 1 für hinreichend nahe bei 1 liegende t < 1. In diesem Bereich ist g(t) < t. Da q die kleinste Lösung ist, gilt dann 0 < q < 1, falls p0 > 0. Ist p0 = 0, so ist g(0) = 0 und also q = 0. Numerisches Beispiel : Hier kann die zufällige Anzahl der Kinder die Werten 0, 1, und 2 mit Wahrscheinlichkeiten 0.25, 0.25 beziehungsweise 0.5 annehmen. Dann ist g durch 1 1 1 + t + t2 , 4 4 2 gegeben und die Lösung der Gleichung t = g(t) ist t = 0.5, die Aussterbewahrscheinlichkeit der Bevölkerung ist somit 0.5 ! g(t) = 4 Zufallsgrössen mit Dichten Definition (Dichte) Eine reellwertige Funktion f heisst Dichte auf Rk , falls a) f ≥ 0 und R b) f dx = 1. Rk 23 Definition (Zufallsgrössen mit Dichten) Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Abbildung X von Ω in Rk ist eine Zufallsgrösse (Zufallsvektor) mit Dichte f , falls a) X −1 (I1 × I2 × · · · × Ik ) ∈ A für jede mögliche Wahl von Intervallen I1 , . . . , Ik und R b) P (X ∈ I1 × I2 × · · · × Ik ) = PX (I1 × · · · × Ik ) = f (x)dx für alle “Rechtecke” I1 ×···×Ik I1 × I2 × · · · × Ik . Beispiel 1 (Die gleichförmige Verteilung auf dem Intervall [0, 1]) Die reelle Zufallsgrösse X besitzt eine gleichförmige Verteilung auf [0, 1], falls seine Dichte f 1 für x ∈ [0, 1], durch f (x) := definiert ist. 0 sonst Beispiel 2 (Die Normalverteilung N (µ, σ 2 )) Die reelle Zufallsgrösse X besitzt eine Normalverteilung N (µ, σ 2 )), σ > 0, µ ∈ R, falls ihre Dichte ϕµ,σ2 durch (x−µ)2 1 ϕµ,σ2 (x) := √ e− 2σ2 , σ 2π x ∈ R definiert ist. Die Standard-Normalverteilung ist definiert durch die Dichte ϕ := ϕ0,1 . Sei X eine N (0, 1) Zufallsgrösse. Die reelle Zufallsgrösse Y = µ + σX, µ ∈ R, σ > 0, besitzt eine Normalverteilung N (µ, σ 2 ). Beachte: ϕ0,1 ist eine Dichte, denn Z Z Z Z 2 y2 x2 1 − (x2 +y2 ) 1 1 2 √ e− 2 dx · √ e− 2 dy = e dx dy ϕ(x)dx = 2π 2π 2π R2 = 1 2π Z∞ Z2π 0 2 − r2 e Z∞ r2 rdϕ) dr (Polarkoordinaten) = e− 2 rdr = 1. 0 0 Definition (Erwartung) X sei eine reelle R RZufallsgrösse mit Dichte f . Die Erwartung von X ist definiert als E(X) := xf (x)dx, falls |x|f (x)dx < ∞. R Definition XRsei wie oben und g Rsei eine auf R definierte reelle Funktion. Dann definiert man E g(X) := g(x)f (x)dx, falls |g(x)|f (x)dx < ∞. R R Beachte: Damit die letzte Definition einen Sinn hat, sollte man die folgende Eigenschaft beweisen: 24 Figure 2: Normale Dichten Figure 3: Gausssche Verteilingsfunktionen Figure 4: Die Normal N (µ, σ 2 ) Dichte 25 Besitzt g(X) eine Dichte h, dann gilt Z Z x h(x)dx = g(x)f (x)dx. R (Ein Beweis (in einem Spezialfall) wird später angegeben.) Definition (Varianz) X sei eine reelle Zufallsgrösse mit Dichte f , so dass E(X 2 ) < ∞. Die Varianz ist definiert als Z 2 2 Var(X) := x − E(X) f (x)dx = E(X 2 ) − E(X) . Die Streuung or Standard-Abweichung von X ist definiert als p σ(X) = Var(x). Beispiel. Es ist sehr einfach zu verifizieren, dass i) im Beispiel 1 (oben), E(X) = 12 , Var(X) = 1 12 und , E(X) = µ, Var(X) = σ 2 . ii) im Beispiel 2 Definition (Kovarianz, Korrelation) Der Zufallsvektor X = (X1 , X2 ) mit Werten in R2 besitze die Dichte f . Die Kovarianz zwischen X1 und X2 ist definiert als Z Cov(X1 , X2 ) := x1 − E(X1 ) x2 − E(X2 ) f (x1 , x2 )dx1 dx2 R2 und die Korrelation als Cov(X1 , X2 ) ρ(X1 , X2 ) := p . Var(X1 ) · Var(X2 ) Beachte: Die Kovarianz ist nur dann definiert, wenn E(X12 ) < ∞ und E(X22 ) < ∞. Für die Korrelation braucht man die zusätzlichen Bedingungen Var(X1 ) > 0, Var(X2 ) > 0. 4.1 Unabhängige Zufallsgrössen X1 , X2 , . . . , Xn seien n reelle Zufallsgrössen. Definition Die Zufallsgrössen sind unabhängig, falls n Y P X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In = P (Xi ∈ Ii ) i=1 für jede mögliche Wahl von Intervallen I1 , I2 , . . . , In . 26 Satz 4.1. Sind X1 , X2 , . . . , Xn unabhängige reelle Zufallsgrössen mit Dichten fi , i = 1, . . . , n, dann besitzt der Zufallsvektor X := (X1 , X2 , . . . , Xn ) die Dichte f (x1 , x2 , . . . , xn ) = n Q fi (xi ). i=1 Beweis. P (X ∈ I1 × I2 × · · · × In ) n Y = P (Xi ∈ Ii ) = i=1 n Z Y i=1 I Z = I1 ×I2 ×···×In n Y f (xi )dxi i fi (xi ) dx1 dx2 . . . dxn . i=1 Dies gilt für alle “Recktecke” I1 × I2 × · · · × In . Also ist n Q fi (xi ) die Dichte von X. i=1 Bemerkung Die Sätze 1, 2, 3, 4, 5 vom Abschnitt 1 (Diskreter Fall) sind auch für Zufallsgrössen mit Dichten gültig. 4.2 Die Verteilungsfunktion einer Zufallsgrösse X sei eine reelle Zufallsgrösse mit Dichte f . Die Verteilungsfunktion von X ist definiert als Ru F (u) := P (X ≤ u) = f (v)dv. −∞ Die Funktion F besitzt dieselben Eigenschaften wie im diskreten Fall. Beachte: Falls die Dichte f im Punkte u stetig ist, dann gilt F 0 (u) = f (u). Beispiel X1 , X2 , X3 , . . . , Xn seien unabhängige Zufallsgrössen mit gleichförmiger Verteilung auf dem Intervall [0, 1]. Wie sieht die Dichte von Y := max{X1 , X2 , . . . , Xn } aus? Wir berechnen zunächst die Verteilungsfunktion F von Y : F (u) = P (Y ≤ u) = P (X1 ≤ u, X2 ≤ u, . . . , Xn ≤ u) = n Y P (Xi ≤ u) i=1 wegen der Unabhängigkeit. Also gilt F (u) = 0 für u ≤ 0, F (u) = 1 für u ≥ 1 und F (u) = un für 0 < u < 1. Die Dichte f von Y erhalten wir, indem man F ableitet. Also ist f (u) = nun−1 für 0 ≤ u ≤ 1 und f (u) = 0 sonst. Wir sind jetzt in der Lage, E(Y ) und Var(Y ) auszurechnen: Z1 E(Y ) = unu 0 n−1 Z1 du = nun du = 0 27 1 n n un+1 = , n+1 n + 1 0 Var(Y ) n 2 Z1 n 2 = E(Y ) − = u2 nun−1 du − n+1 n+1 2 0 Z1 = n un+1 du − 0 4.3 n 2 n 2 1 n 2 n n = un+2 − = − . n+1 n+2 n+1 n+2 n+1 0 Die Faltung von Dichten X, Y seien zwei reelle unabhängige Zufallsgrössen mit Dichten f , g. Definition (Faltung) Die Faltung der dichten f und g ist die Dichte h der Summe Z := X + Y . Satz 4.2. Die Faltung h der Dichten f und g ist gegeben durch Z∞ Z∞ f (z − x)g(x)dx = h(z) = −∞ g(z − x)f (x)dx, ∀ z ∈ R. −∞ Beweis. Sei Z = X + Y . Dann gilt Z Z P (Z ≤ z) = P (X + Y ≤ z) = f (x)g(y)dx dy. x+y≤z (Nach Satz 4.1 besitzt der Zufallsvektor (X, Y ) die Dichte f (x)g(y).) Das letzte Integral kann man schreiben als Z∞ z−x Z g(y)dy f (x)dx −∞ Z∞ Zz = −∞ Fubini −∞ Zz = −∞ Also gilt P (Z ≤ z) = Rz −∞ Z∞ g(v − x)dv f (x)dx Zz g(v − x)f (x)dx dv = h(v)dv. −∞ −∞ h(v)dv, ∀ z ∈ R und somit ist h die Dichte der Summe. −∞ Definition (Chi-Quadrat Verteilung) X1 , X2 , . . . , Xn seien unabhängige Zufallsgrössen mit Standard Normal N (0, 1) Dichte ϕ. Die Chi-Quadrat Verteilung mit n Freiheitsgraden ist die Verteilung der Summe Yn := n X i=1 28 Xi2 . Satz 4.3. Die Zufallsgrösse Yn besitzt die Dichte fn (y) = wobei Γ(p) := R∞ 1 y 2n/2 Γ( n2 ) y n/2−1 e− 2 für y>0 (n = 1, 2, . . . ), z p−1 e−z dz (p > 0). 0 Ein Beweis kann mit Hilfe von Satz 4.2 durch Induktion geführt werden. Die Behauptung kann auch bewiesen werden, indem man mit Polarkoordinaten arbeitet: Z Fn (y) := P (Yn ≤ y) = ϕ(x1 )ϕ(x2 ) . . . ϕ(xn )dx1 dx2 . . . dxn x21 +x22 +···+s2n ≤y Z − = e n P i=1 Xi2 2 √ Z dx1 dx2 . . . dxn = C x21 +x22 +···+x2n ≤y y e− r2 2 rn−1 dr , 0 wobei C so gewählt wird, dass P (Yn < ∞) = 1. Differenziert man die Verteilungsfunktion Fn , erhält man √ n−1 y y n 1 1 fn (y) = C e− 2 y · √ = C e− 2 y 2 −1 . 2 y 2 Es muss gelten: Z ∞ n n 1 C dy = 1 = C e y e−z 2 2 −1 z 2 −1 dz 2 0 0 y n 1 1 d.h. C = und somit fn (y) = e− 2 y 2 −1 . Γ( n2 )2n/2−1 Γ( n2 )2n/2 Z ∞ − y2 n 2 −1 Summe von unhabhägige Normale Zuffalsgrösse Seien X und Y zwei unhabhängige normale Zuffalsgrösse N (µ1 , σ12 ), resp. N (µ2 , σ22 ). Dann besitzt die Zuffalsgrösse Z = X + Y eine normale Dichte N (µ1 + µ2 , σ12 + σ22 ). 4.4 Lineare Abbildungen von Zufallsvektoren X := (X1 , . . . , Xn )T sei ein Zufallsvektor mit Dichte f (x1 , . . . , xn ). Wenn A eine reguläre (n × n)–Matrix ist, dann besitzt der Vektor Y := AX 1 die Dichte g(y) = f A−1 y y := (y1 , y2 , . . . , yn )T . | det(A)| Satz 4.4. Beweis. Sei R = I1 × I2 × · · · × In ein “Rechteck” in Rn . Dann gilt: Z Z x=:A−1 y P (Y ∈ R) = P (AX ∈ R) = P (X ∈ A−1 R) = f (x)dx = f A−1 (y) | det(A−1 | dy A−1 R und somit ist f A−1 (y) R 1 die Dichte von Y . | det(A)| Spezialfall: Sind die Zufallsgrössen X1 , . . . , Xn unabhängig mit Dichte ϕ und ist die Matrix A orthogonal, so sind die Zufallsgrössen Y1 , Y2 , . . . , Yn auch unabhängig mit der gleichen Dichte ϕ. 29 4.5 Funktionen von reellen Zufallsgrössen Satz 4.5. Sei X eine reelle Zufallsgrösse mit Werten in einem offenen Intervall I und Dichte f > 0 auf I. Sei g eine eineindeutige stetig differenzierbare Funktion, die auf I definiert ist. Behauptung Dichte Falls g 0 (x) 6= 0, ∀ x ∈ I, dann besitzt die Zufallsgrösse Y := g(X) die h(y) = f g −1 (y) 1 . |g 0 g −1 (y) | Beweis. Sei J ein Intervall in g(I). Dann gilt: P (Y ∈ J) = P g(X) ∈ J = P X ∈ g −1 (J) Z Z y:=g(x) = f (x)dx = f g −1 (y) g −1 (J) Korollar 1 |g 0 (g −1 (y))| dy J Wenn die Voraussetzungen von Satz 4.5 erfüllt sind, dann folgt unmittelbar Z Z E g(X) := g(x)f (x)dx = y h(y)dy =: E(Y ). I g(I) Beispiel Sei X gleichförmig verteilt auf dem Intervall (0, 1). Wir betrachten die Funktion Y := X 2 . Nach Satz 4.5 ist dann die Dichte h von Y : 1 h(y) = √ 2 y für 0<y<1 und 0 sonst. Bemerkung. Für das erwähnte Beispiel ist Satz 4.5 nicht direkt anwendbar. Man mann aber den Wertebereich von X so zerlegen R = (−∞, 0) ∪ (0, ∞) , dass auf beiden Teilmengen die Voraussetzungen des Satzes erfüllt sind. 4.6 Zwei weitere wichtige Dichten: Die Student und die Exponential Verteilungen (Die Student-Verteilung und die Exponentialverteilung) 1. Die Student-Verteilung Definition Die Student-Verteilung mit n Freiheitsgraden ist die Verteilung von Un := X0 s wobei die Zufallsgrössen X0 , X1 , . . . , Xn unabhängig Normal N (0, 1) sind. n P 1 2 Xi n i=1 30 Satz 4.6. ?? Die Zufallsgrösse Un besitzt die Dichte hn (z) = √ s Beweis. n P i=1 Γ( n+1 1 1 2 ) √ . n z π · n Γ( 2 ) (1 + 2 ) n+1 2 n Xi2 besitzt die Dichte kn (z) = 2z fn (z 2 ) = z z 2 n/2−1 − z2 e 2 , z > 0. Γ( n2 ) 2 (fn ist die Dichte der Chi-Quadrat Verteilung mit n Freiheitsgraden.) Der Quotient Qn := X s 0 besitzt dann die Dichte n P 2 Xi i=1 Z∞ rn (u) = 0 Γ( n+1 ) 1 z kn (z)ϕ(uz)dz = √ 2 n , 2 πΓ( 2 ) (1 + u )(n+1)/2 (wenn man die Variablentransformation und somit folgt die Behauptung. z2 2 (1 + u2 ) = v benützt.) Un ist aber gleich √ nQn Bemerkung Die Student-Verteilung mit einem Freiheitsgrad besitzt die Dichte h1 (z) = 1 1 √ . Dies ist die sogenannte Cauchy Verteilung. Beachte: π (1 + z 2 ) Z |z|h1 (z)dz = ∞ . 2. Die Exponentialverteilung Definition Eine reelle Zufallsgrösse X hat eine Exponentialverteilung mit Parameter λ (λ > 0), falls X die Dichte f (x) = λe−λx , x > 0 besitzt. Herleitung der Exponentialverteilung mit Hilfe eines Beispieles aus der Physik: Die Atome eines radioaktiven Elementes zerfallen in zufälligen Zeitpunkten. Wie die Erfahrung zeigt, hängt die Wahrscheinlichkeit dafür, dass ein zu einem gewissen Zeitpunkt t0 noch nicht zerfallenes Atom während des folgenden Zeitinvervalls der Länge t zerfällt, nur von der Länge t dieses Zeitinvervalls ab, aber nicht vom Zeitpunkt t0 . Wir bezeichnen mit X die Lebensdauer eines Atoms und F sei ihre Verteilungsfunktion. Wenn G(t) := 1 − F (t), wissen wir, dass diese Funktion monoton abnimmt und dass G(0) = 1. Ferner gilt: P (X ≥ t + s | X ≥ s) = P (X ≥ t) 31 für alle t, s ≥ 0, d.h. G(s + t) = G(s)G(t), ∀ t, s ≥ 0. Damit haben wir für die Funktion G(t) eine Funktionalgleichung erhalten, aus der wir diese bestimmen können. Um die Sache zu vereinfachen, nehmen wir zunächst an, dass G im Nullpunkt differenzierbar ist. Wenn wir in G(s + t) = G(s)G(t), s durch ∆t(> 0) ersetzen, bekommen wir G(∆t) − 1 G(t + ∆t) − G(t) = G(t) . ∆t ∆t Lässt man nun ∆t gegen Null streben, so folgt G0 (t) = G0 (0)G(t). G0 (0) muss negativ sein, denn G0 (0) ≤ 0 (G ist monoton abnehmend). Aus G0 (0) = 0 und G(0) = 1 würde G(t) ≡ 1 folgen; es würde also kein radioaktiver Zerfall stattfinden. Man darf daher G0 (0) = −λ mit λ > 0 setzen und als Lösung erhält man, wegen G(0) = 1, G(t) = e−λt , d.h. F (t) = 1 − e−λt und somit f (t) := F 0 (t) = λe−λt . Wir werden in der Vorlesung zeigen, dass man ohne die Voraussetzung der Differenzierbarkeit von G im Nullpunkt dasselbe Ergebnis erhält. 5 Die Gesetze der grossen Zahlen Sei X1 , X2 , X3 , . . . eine Folge von reellen Zufallsgrössen, die auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind. Sei c eine Konstante. Die Folge {Xn } konvergiert in Wahrscheinlichkeit gegen c Definition 1 falls: P Xn −→ c , ∀ ε > 0, lim P (|Xn − c| > ε) = 0. n→∞ f.s. Die Folge {Xn } konvergiert fast sicher gegen c Xn −→ c , falls Definition 2 n→∞ P ({ω : lim Xn (ω) = c}) = 1. n→∞ Satz 5.1. Die beiden folgenden Aussagen sind äquivalent: f.s. 1. xn −→ c n→∞ 2. ∀ ε > 0, lim P ( n→∞ ∞ S {|Xj − c| > ε}) = 0. j=n 32 n→∞ ∞ S Beweis. Setzen wir An := ∞ S ∞ T {|Xj − c| > ε}. Da An ↓ A := {|Xj − c| > ε}, gilt n=1 j=n j=n (nach dem Satz) P (A) = lim P (An ) = 0. Wir haben also n→∞ S ∞ 1 k −→ 0, ∀ k ∈ {1, 2, 3, . . . } ⇐⇒ P = 0, ∀ k ∈ {1, 2, 3, . . .} ⇐⇒ |Xj − c| > k1 j=n n=1 ∞ T ∞ S ∞ S = 0 ⇐⇒ P |Xj − c| > k1 n=1 j=n k=1 ∞ S ∞ T ∞ T f.s. P = 1 ⇐⇒ Xn −→ c. |Xj − c| ≤ k1 P |Xj − c| > j=n ∞ S ∞ T n→∞ n→∞ k=1 n=1 j=n f.s. Wenn Xn −→ c, konvergiert die Folge in Wahrscheinlichkeit gegen c. Korollar n→∞ S ∞ Beweis. ε > 0 sei vorgegeben. Nach Satz 5.1, lim P {|Xj − c| > ε} = 0. n→∞ j=n S ∞ Da P (|Xn − c| > ε) ≤ P {|Xj − c| > ε} , folgt die Behauptung. j=n 5.1 Die Ungleichung von Tschebyscheff Satz 5.2. Sei X eine reelle Zufallsgrösse. Dann gilt: ∀ ε > 0, P ({ω : |X(ω)| ≥ ε}) = P (|X| ≥ ε) ≤ E(X 2 ) . ε2 Beweis: Für A ⊆ Ω definiert man die Indikatorfunktion von A als 1A (ω) = 1, falls ω ∈ A und = 0 sonst. Da 1{|X|≥ε} · ε2 ≤ X 2 , bekommt man die Tschebyscheff’sche Ungleichung, indem man auf beiden Seiten die Erwartung nimmt. Bemerkung 1 Falls E(X 2 ) < ∞, existiert die Erwartung von X. Wenn man in der Ungleichung von Tschebyscheff X durch X − E(X) ersetzt, bekommt man P (|X − E(X)| ≥ ε) ≤ Var(X) . ε2 Interpretation: Je kleiner die Varianz von X ist, desto “kleiner” ist die Abweichung von der Erwartung. Bemerkung 2 X sei B(n, p)-verteilt. Dann ist P (|X − np| ≥ nε) = P (| d.h. n P k k=0; k:| n −p|≥ε n k Var(X) np(1 − p) p(1 − p) 1 X − p| ≥ ε) ≤ = = 2 ≤ 2 , n ε 2 n2 ε2 n2 ε ·n 4ε n pk (1 − p)n−k ≤ 1 4ε2 n . 33 5.2 Das schwache Gesetz der grossen Zahlen Satz 5.3. X1 , X2 , . . . sei eine Folge unabhängiger und identisch verteilter Zufallsgrössen. Falls E(|X1 |) < ∞, dann gilt Behauptung Sn P −→ E(X1 ), n n→∞ wobei Sn := n X Xi . i=1 Beweis: Diesen Satz beweisen wir unter der stärkeren Bedingung E(X12 ) < ∞. (Der allgemeine Fall ist zu kompliziert für eine Einführungsvorlesung!) Nach der Ungleichung von Tschebyscheff hat man Sn Var Snn Sn − E( ) > ε ≤ P n n ε2 ∀ ε > 0. Weiter gilt Sn Sn 1 1 ) = E(X1 ) und Var( ) = 2 Var(Sn ) = Var(X1 ) n n n n und somit folgt die Behauptung. E( 5.3 Das starke Gesetz der grossen Zahlen Satz 5.4. (ohne Beweis) X1 , X2 , . . . , sei eine Folge von unabhängigen identisch verteilten Zufallsgrössen. Sn sei wie im Satz 5.3 definiert. Behauptung Falls E(|X1 |) < ∞, dann gilt Sn f.s. −→ E(X1 ). n n→∞ 5.4 Anwendung der Gesetze der grossen Zahlen 1. Als Zufallsexperiment betrachten wir das n–malige Werfen einer symmetrischen Münze, wobei n gross ist. Sn bezeichne die Anzahl von “Kopf”. Sn lässt sich schreiben als n P Sn = Xi , wobei die Zufallsgrössen {Xj } i.i.d. sind, mit Xi = 1 (“Kopf” beim i–ten i=1 Wurf) mit Wahrscheinlichkeit 21 und Xi = 0 mit Wahrscheinlichkeit 12 . Nach dem starken Gesetz der grossen Zahlen ist Snn ungefähr gleich E(Xi ) = 12 . Diese Aussage entspricht unserer Idee von der Stabilisierung der relativen Häufigkeit. 2. Wir betrachten eine gewisse Menge eines radioaktiven Elementes. Wir haben gesehen, dass die Lebensdauer X eines Atoms eine Zufallsgrösse ist, die eine exponentielle Verteilung besitzt, d.h. ihre Verteilungsfunktion F lässt sich schreiben als F (t) = 1 − e−λt , t ≥ 0, wobei λ eine positive Konstante ist (die sogenannte Zerfallskonstante). Nach Definition ist die Halbwertszeit T des radioaktiven Elementes diejenige 34 Zeitdauer, während der ein Atom mit der Wahrscheinlichkeit 12 zerfällt. Es muss also gelten F (t) = 12 , also e−λT = 12 oder T = lnλ2 = ln 2 · E(X). Die Halbwertszeit ist somit proportional zur Erwartung der Lebensdauer E(X) = λ1 ! . Im Zeitpunkt t = 0 seien N Atome vorhanden. St sei die Anzahl der im Zeitpunkt t > 0 zerfallenen Atome. Wegen der Gesetze der grossen Zahlen, d.h. wegen des Zusammenhangs zwischen relativer Häufigkeit und Wahrscheinlichkeit, ist die relative Anzahl der Zerfälle bis zur Zeit t ungefähr gleich 1 − e−λt (N 1). Man sieht also, dass die Halbwertszeit diejenige Zeit ist, während der ungefähr die Hälfte der Masse eines radioaktiven Elementes zerfällt. 5.5 Die Markovsche Ungleichung Satz 5.5. Sei f : R −→ [0, ∞). Sei X eine Zufallsvariable mit E(f (X)) < ∞. Es gilt P (f (X) > ε) ≤ E(f (X))) , ∀ε > 0. ε Beweis: Für A ⊆ Ω definiert man die Indikatorfunktion von A als 1A (ω) = 1, falls ω ∈ A und = 0 sonst. Da f (X) ≥ ε1f (X)≥ε , bekommt man die Ungleichung E(f (X)) ≥ E(ε1f (X)≥ε ) = εP (f (X) ≥ ε). Bemerkung Wenn man f (x) = x2 einsetzt kriegt man wieder die Ungleichung von Tschebyscheff, da = E(X 2 ) ≥ εP (X 2 ≥ ε) √ = εP (|X| ≥ ε). E(f (X)) Pn Beispiel: Sei Sn = i=1 Xi , mit Xi unabhängige Bernoulli Zufallsvariablen mit Parameter p = 1/2. Die Ungleichung von Tschebyscheff angewandt auf Sn − n/2 besagt P (| Sn 1 1 − | > ε) ≤ . n 2 4nε2 (5.1) Wenn n = 1000 und ε = 1/10 ergibt das P (S1000 6∈ [400, 600]) ≤ 1 . 40 (5.2) Wir werden sehen, dass die von der Ungleichung (5.1) gegebene Schätzung nicht gut ist. Sei f (x) = exp(tx). Mit der Markovschen Ungleichung gilt P( Sn 1 − ≥ ε) n 2 n ≥ nε) 2 n = P (exp(t(Sn − )) ≥ exp(tnε)) 2 1 n ≤ E(exp(t(Sn − ))), exp(tnε) 2 = P (Sn − 35 und somit E(exp(t(Sn − n2 ))) n ≥ nε) ≤ inf . t≥0 2 exp(tnε) P (Sn − Wir benutzen die Unabhängigkeit der beteiligten Zufallsvariablen, um zu zeigen dass, mit q = 1 − p, E((exp(t(Sn − n )) 2 = n Y 1 E(exp(t(Xi − )) 2 i=1 1 = E(exp(t(X − ))n 2 = (p exp(t/2) + q exp(−t/2))n = cosh(t/2)n . Daraus schliesst man P (Sn − n ≥ nε) ≤ inf exp(n(ln(cosh(t/2)) − tε)). t≥0 2 Wir wollen jetzt diese Ungleichung optimisieren, das heisst wir suchen das Minimum der Funktion h(t) = ln(cosh(t/2)) − tε. Es kann leicht nachgeprüft werden, dass dieses Minimum im Punkte tε erreicht wird, wobei tε = ln( 1 + 2ε ). 1 − 2ε Wir betrachten die Entropiefunktion I(ε) = −h(tε ) 1 1 = (1 + 2ε) ln(1 + 2ε) + (1 − 2ε) ln(1 − 2ε). 2 2 Man kann schreiben Sn 1 − ≥ ε) ≤ exp(−nI(ε)). n 2 Wir machen dasselbe für die Wahrscheinlichkeit P (Sn /n − 1/2 ≤ −ε), so dass P( P (| Sn 1 − | > ε) < 2 exp(−nI(ε)). n 2 (5.3) (5.4) Wenn n = 1000 und ε = 1/10, I(ε) ≈ 0.02, und (5.4) ergibt P (S1000 6∈ [400, 600]) ≤ 3.6 10−9 ! (siehe (5.2)) 6 Der zentrale Grenzwertsatz Die wichtigsten zentralen Grenzwertsätze drücken die Tatsache aus, dass die Summe einer grossen Anzahl von unabhängigen Zufallsgrössen unter allgemeinen Bedingungen angenähert normal verteilt ist: “Sei S die Summe von vielen unabhängigen kleinen Summanden und seien S−µ µ := E(S) und σ 2 := Var(S). Dann ist genähert N (0, 1) verteilt”. Diese Sätze decken σ 36 die Gründe dafür auf, dass man in vielen Anwendungsgebieten sehr oft normalen oder fast normalen Verteilungen begegnet. Ein typisches Beispiel hierfür sind die Ungenauigkeiten bei Messungen; der gesamte Messfehler setzt sich aus vielen verschiedenen kleinen Fehlern zusammen. Durch die zentralen Grenzwertsätze wird also die Annahme gerechtfertigt, dass die Messfehler normal verteilt sind. Satz 6.1. (Satz von de Moivre-Laplace) X1 , X2 , . . . sei eine Folge von i.i.d. Zufallsgrössen, wobei Xi = 1 mit Wahrscheinlichkeit p n P (0 < p < 1) und Xi = 0 mit Wahrscheinlichkeit 1 − p. Sn sei als Sn = Xi definiert. i=1 Für alle a, b, a ≤ b, gilt ! ! Sn − np Sn − E(Sn ) < b = lim P a < p <b lim P a < p n→∞ n→∞ Var(Sn ) np(1 − p) Z b Z b Z u x2 1 √ e− 2 dx = = ϕ(x)dx = Φ(b) − Φ(a), wobei Φ(u) := ϕ(x)dx. 2π a a −∞ Behauptung Satz 6.2. (Der klassische zentrale Grenzwertsatz) X1 , X2 , . . . sei eine Folge von i.i.d. Zufallsgrössen mit E(Xi2 ) < ∞. Wir setzen µ := E(Xi ) und σ 2 := Var(Xi ). Behauptung lim P n→∞ Für alle a, b, a ≤ b gilt ! Z b Sn − nµ Sn − E(Sn ) <b = ϕ(x)dx. < b = lim P a < √ a< p n→∞ Var(Sn ) nσ 2 a Diese Sätze beweist man normalerweise mit Hilfe von Fouriertransformationen: sei X eine reelle Zufallsgrösse, dann ist die charakteristische Funktion Ψ von X definiert durch Ψ(t) = E(eitX ) := E cos(tX) + iE sin(tX) . Die charakteristische Funktion der Summe von unabhängigen Zufallsgrössen ist gleich dem Produkt der charakteristischen Funktionen: E eit(X+Y ) = E eitX · eitY = E eitX · E eitY . In dieser Vorlesung wollen wir aber eine andere “elementare” Methode benützen. Mit dieser Methode beweisen wir den Satz 6.3. (Satz von Ljapunoff ) Voraussetzungen Für jedes n seien Xn1 , . . . , Xnn unabhängige Zufallsgrössen mit Erwartung 0 und E |Xni |3 < ∞, ∀ i. Setze Sn := Xn1 + Xn2 + · · · + Xnn , 2 2 σni := E(Xni ) = Var(Xni ), i = 1, 2, . . . , n, n P 2 σn2 := E(Sn2 ) = Var(Sn ) = σni . i=1 37 n P Behauptung Bemerkung Sn . Beispiel Dann gilt E(|Xni |3 ) i=1 → 0 für n → ∞, dann gilt σn3 Z x u2 Sn 1 P e 2 du, ∀ x. < x −→ Φ(x) = √ n→∞ σn 2π −∞ Wenn Die Prämisse der Behauptung sorgt dafür, dass die Xni “klein” sind gegenüber 2 Die Xni haben alle die gleiche Verteilung mit E(Xni ) = σ 2 , E(|Xni |3 ) = γ. n P E(|Xni |3 ) i=1 σn3 = nγ γ = 3 √ −→ 0. σ · n n→∞ (nσ 2 )3/2 Satz 6.1 ist also ein Korollar von Satz 3. Satz 6.2 ist unter der stärkeren Voraussetzung E(|Xi |3 ) < ∞ auch ein Korollar von Satz 3. Beweis von Satz 6.3 Ohne Beschränkung der Allgemeinheit nehmen wir σn = 1 an. Xni (Falls das nicht der Fallist, ersetzt man Xni durch , i = 1, . . . , n.) Die Beweisidee besteht σn darin, die Xni durch unter sich und von den Xni unabhängige normalverteilte Zufallsgrössen 2 Yni mit den gleichen Erwartungswerten und den gleichen Varianzen σni zu ersetzen und n P zu zeigen, dass sich die Verteilung von Sn nur wenig von der Verteilung von Tn := Yni i=1 unterscheidet, welche normal N (0, 1) ist. Beachte: die Zufallsgrösse Z ist N (µ, σ 2 ) verteilt, falls Z dieselbe Verteilung hat wie σX + µ, wobei X N (0, 1) verteilt ist. Sei f eine dreimal stetig differenzierbare Funktion mit |f 000 (x)| ≤ M, ∀ x. Dann ist mit U := Xn1 + · · · + Xn(n−1) f (Xn1 + · · · + Xn(n−1) + Xnn ) = f (U ) + f 0 (U )Xnn + f 00 (U ) · 2 Xnn + r(U, Xnn ). 2 X3 M Das Restglied r(U, Xnn ) = f 000 (U +ηXnn ) nn ist beschränkt durch |r(U, Xnn )| ≤ |Xnn |3 . 6 6 Also gilt 2 Xnn 0 00 E (f (U + Xnn )) = E f (U ) + E (f (U )Xnn ) + E f (U ) + E r(U, Xnn ) 2 und 2 Ynn 0 00 E (f (U + Ynn )) = E f (U ) + E (f (U )Ynn ) + E f (U ) + E r(U, Ynn ) 2 und somit |E (f (U + Xnn )) − E (f (U + Ynn )| ≤ 38 M E(|Xnn |3 ) + E|Ynn |3 , 6 denn E (f 0 (U )Xnn ) = E (f 0 (U )) E(Xnn ) = 0 = E (f 0 (U )Ynn ) und 2 2 2 f 00 (U )Xnn σnn Ynn 00 00 E = E (f (U )) = E f (U ) , 2 2 2 unabhängig sind. weil U , Xnn , Ynn Wir fahren fort und erhalten E f (Xn1 + · · · + Xn(n−1) + Xnn ) − E f (Xn1 + · · · + Xn(n−1) + Ynn ) ≤ M 6 E(|Xnn |3 ) + E(|Ynn |3 ) , E f (Xn1 + · · · + Xn(n−1) + Ynn ) − E f (Xn1 + · · · + Xn(n−2) ) + Yn(n−1) + Ynn ) ≤ M 6 E(|Xn(n−1) |3 ) + E(|Yn(n−1) |3 ) , .. . |E (f (Xn1 + Yn2 + · · · + Ynn )) − E (f (Yn1 + · · · + Ynn ))| ≤ M 6 E(|Xn1 |3 ) + E(|Yn1 |3 ) . Addieren ergibt (mit Hilfe der Dreiecksungleichung) n X M |E (f (Sn )) − E (f (Tn ))| ≤ 6 3 E(|Xni | ) + i=1 n X ! 3 E(|Yni | ) . i=1 Es gilt r 3 E(|Yni | ) = 8 3 σ ≤ π ni r 8 E(|Xni |3 ). π (Beweis siehe unten) und somit r ! n 8 X 1+ E(|Xni |3 ) =: εn . π i=1 M |E (f (Sn )) − E (f (Tn ))| ≤ 6 Die rechte Seite εn strebt mit wachsendem n nach Voraussetzungen gegen 0. x0 und δ > 0 seien vorgegeben, aber beliebig. a) Wähle für f eine Funktion mit f (x) = 1 für x ≤ x0 − δ, f (x) = 0 für x ≥ x0 , 0 ≤ f (x) ≤ 1 ∀ x, |f 000 (x)| ≤ M ∀ x. Dann gilt Φ(x0 − δ) = P (Tn < x0 − δ) ≤ E f (Tn ) = E f (Sn ) + εn ≤ P Sn < x0 + εn , ∀ n. 39 Daraus folgt (∗) Φ(x0 − δ) ≤ lim inf P (Sn < x0 ). n→∞ b) Wähle für f eine Funktion mit f (x) = 1 für x ≤ x0 , f (x) = 0 für x ≥ xo + δ , |f 000 (x)| ≤ M 0 ≤ f (x) ≤ 1 ∀ x, ∀ x. Dann gilt P (Sn < x0 ) ≤ E f (Sn ) = E f (Tn ) + εn ≤ P Tn < x0 + δ + εn = Φ(x0 + δ) + εn , ∀ n. Daraus folgt (∗∗) lim sup P (Sn < x0 ) ≤ Φ(x0 + δ). n→∞ c) (∗) und (∗∗) zusammen ergeben Φ(x0 − δ) ≤ lim inf P (Sn < x0 ) ≤ lim sup P (Sn < x0 ) ≤ Φ(x0 + δ), ∀ δ > 0. n→∞ n→∞ Da Φ stetig ist, erhält man dann lim P (Sn < x0 ) = Φ(x0 ), n→∞ Um den Beweis zu vervollständigen, müssen wir noch zwei Details erledigen. a) Wenn Y N (0, 1) verteilt ist, gilt E(|Y |3 ) = q 8 π , b) wenn Ψ eine konvexe Funktion ist und wenn E(|X|) < ∞, gilt Ψ E(X) ≤ E Ψ(X) (Ungleichung von Jensen). Beweis von a): einfache Rechnung. Beweis von b): eine Funktion Ψ ist konvex, wenn sie in jedem Punkt x eine Stützgerade besitzt, d.h. es gibt eine lineare Funktion ` ≤ Ψ mit `(x) = Ψ(x). Somit, für x := E(X), Ψ E(X) = ` E(X) = E `(X) ≤ E Ψ(X) . Spezialfälle: (i) Ψ(x) = x2 2 =⇒ E(X) ≤ E(X 2 ) 3/2 (ii) Ψ(x) = |x|3/2 =⇒ E(|X|2 ) ≤ E(|X|3 ) Im Beweis von Satz 3 haben wir den Fall (ii) benützt. 40 Eine Anwendung des Satzes von de Moivre-Laplace. Gesucht ist die Wahrscheinlichkeit, bei 600 Würfen mit einem symmetrischen Würfel mindestens 90 und höchstens 100 Sechsen zu erhalten. S bezeichne die Anzahl von Sechsen. Gesucht ist also P (90 ≤ S ≤ 100). 1. Genaue Lösung: Wir wissen, dass S, B(600, 61 ) verteilt ist. Also gilt P (90 ≤ S ≤ 100) = P (S = 90) + P (S = 91) + · · · + P (S = 100) = 100 X 600 1 k 5 100−k ( ) ( ) . k 6 6 k=90 2. Eine gute Schätzung für die gesuchte Wahrscheinlichkeit: Nach Satz 1, mit n = 600 und p = 61 , wissen wir, dass ! 1 S − 600 · S − E(S) 6 ≤ b = P a ≤ q ≤ b P a≤ p 1 5 Var(S) 600 · 6 · 6 Z u x2 1 S − 100 √ e− 2 dx. ≤ b ≈ Φ(b) − Φ(a), wobei Φ(u) := ≈P a≤ 9, 13 2π −∞ Somit gilt 90 − 100 S − 100 100 − 100 P (90 ≤ S ≤ 100) = P ≤ ≤ 9, 13 9, 13 9, 13 ≈ Φ(0) − Φ(−1, 095) = 0, 5 − 1 − Φ(1, 095) ≈ 0, 36 , wobei der Wert Φ(1, 095) ∼ = 0, 86 der in der Vorlesung verteilten Tafel entnommen wurde. (Wir haben die Tatsache benützt, dass Φ(−x) = 1 − Φ(x).) 41