Kapitel 0 Grundbegriffe der Wahrscheinlichkeit 0.1 Der Wahrscheinlichkeitsraum Definition 0.1.1. Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, F, P), wobei Ω eine nichtleere Menge, F eine σ-Algebra von Teilmengen von Ω, und P : F → R eine Abbildung ist, die folgende drei Eigenschaften erfüllt: Axiom I: Für alle A ∈ F sei 0 ≤ P[A] ≤ 1. Axiom II: Es gelte P[Ω] = 1. Axiom III: Für eine Folge (An )n∈N von paarweise disjunkten Elementen aus F gelte ∞ h [∞ i X P An = P[An ] . n=1 n=1 Diese Eigenschaft von P heisst σ-Additivität. Ist die Menge Ω endlich, so sprechen wir von einem endlichen Wahrscheinlichkeitsraum, ist Ω endlich oder abzählbar unendlich, so nennen wir (Ω, F, P) einen diskreten Wahrscheinlichkeitsraum. Ein Element A ∈ F heisst ein Ereignis. Ist {ω} ∈ F für ω ∈ Ω, so wird {ω} ein Elementarereignis genannt. Die Abbildung P heisst Wahrscheinlichkeit oder Wahrscheinlichkeitsmass. Für ein Ereignis A wird der Wert P[A] als Wahrscheinlichkeit des Ereignisses A bezeichnet. Aus den Axiomen I bis III können wir erste Eigenschaften der Wahrscheinlichkeit P folgern: 1. Mit Axiom II und Axiom III folgt, indem wir für alle n ∈ N An := ∅ setzen, P[∅] = 0 . (0.1.1) 2. Ist m ∈ N fest gewählt, und setzen wir in Axiom III An := ∅ für alle n > m, so erhalten wir wegen (0.1.1) die Gleichung P h [m n=1 m i X An = P[An ] n=1 für paarweise disjunkte Ereignisse. Wir nennen diese Eigenschaft die Additivität von P oder bezeichnen sie als Axiom IIIendl. 1 3. Als speziellen Fall der Additivität, mit A1 := A und A2 := Ac , erhält man P[Ac ] = P[Ω\A] = 1 − P[A] . 4. Sind A und B Ereignisse mit A ⊂ B, so folgt aus der Additivität und Axiom I die Ungleichung P[A] ≤ P[B] . (0.1.2) 5. Sei (Bn )n∈N eine Folge von beliebigen Ereignissen aus F. Die σ-Additivität impiziert mit (0.1.2) die Boolesche Ungleichung P h [∞ n=1 ∞ i X Bn ≤ P[Bn ] . (0.1.3) n=1 Entsprechend gilt für eine endliche Folge (Bn )1≤n≤m die Ungleichung P h [m n=1 m i X Bn ≤ P[Bn ] . n=1 Wahrscheinlichkeit und relative Häufigkeit Wir können uns fragen, welche Vorstellung hinter der Definition 0.1.1, beziehungsweise hinter dem Begriff der Wahrscheinlichkeit P steht? Nehmen wir an, es werde eine gewisse Anzahl, etwa n, Experimente durchgeführt. Diese sollen in dem Sinne unabhängig sein, dass der Ausgang eines Experiments keinen Einfluss auf die Resultate der folgenden Experimente hat. Die Experimente werden auch als identisch vorausgesetzt: die Rahmenbedingungen seien jedesmal dieselben. Uns interessiert ein Ereignis A, das bei jedem Experiment eintreten kann oder nicht. Sei nA ≤ n die Anzahl der Experimente, bei denen A beobachtet wurde. Wir nennen nA die absolute Häufigkeit von A. Wird eine grosse Zahl n solcher Experimente durchgeführt, so beobachtet man, dass sich die relative Häufigkeit nA /n einem Grenzwert nähert. Dieser entspricht intuitiv der Wahrscheinlichkeit des Eintretens von A. Um die Anschauung aufrechtzuerhalten, sollte also eine naive Definition der Wahrscheinlichkeit P durch nA P[A] := lim n→∞ n Definition 0.1.1 nicht widersprechen. 1. Offenbar widerspricht dies Axiom I der Definition von P nicht, denn es gilt stets 0 ≤ nA /n ≤ 1. 2. Auch Axiom II wird erfüllt: Die Menge Ω wird aufgefasst als das Ereignis, überhaupt ein Resultat des Experiments zu beobachten. Es ist also nΩ = n. 3. Wie steht es um das dritte Axiom? Seien A und B zwei disjunkte Ereignisse, in dem Sinne, dass sie nie zusammen als Ergebins eines Experiments auftreten können. Die Zahl nA∪B ist also die Anzahl der Experimente, bei denen entweder A oder B beobachtet wurde. Es gilt offenbar nA∪B = nA + nB , also nA∪B /n = nA /n + nB /n. Eine entsprechende Aussage gilt für m > 2 paarweise disjunkter Ereignisse. Damit wird zumindest Axiom IIIendl erfüllt, also zumindest ein Spezialfall des dritten Axioms. Tatsächlich wird später als Konsequenz des Starken Gesetzes der Grossen Zahlen gezeigt werden, dass relative Häufigkeiten gegen die Wahrscheinlichkeit, wie in Definition 0.1.1 eingeführt, konvergieren. 2 Fall 1: Ω endlich Konstruktion von Wahrscheinlichkeiten im endlichen Fall In diesem Fall können wir zeigen, dass jede Wahrscheinlichkeit P durch eine Familie reeller Zahlen (pi )1≤i≤n mit n X pi = 1 (0.1.4) i=1 und pi ≥ 0 für alle 1 ≤ i ≤ n (0.1.5) eindeutig bestimmt ist. Die Zahlen pi sind gerade die Werte von P auf den Elementarereignissen. 1. Sei Ω := {ω1 , ω2 , . . . , ωn } eine endliche, nichtleere Menge. Sei (pi )1≤i≤n eine Ω Familie reeller Zahlen mit P (0.1.4) und (0.1.5). DieΩ Abbildung P : 2 → R, definiert durch P[A] := i:ωi ∈A pi für alle A ∈ 2 , erfüllt die drei Axiome aus Definition 0.1.1. Das heisst P ist eine Wahrscheinlichkeit auf 2Ω , und (Ω, 2Ω , P) somit ein Wahrscheinlichkeitsraum. Insbesondere ist P[{ωi }] = pi für 1 ≤ i ≤ n. 2. Sei Ω = {ω1 , ω2 , . . . , ωn } eine endliche, nichtleere Menge und (Ω, 2Ω , P) ein Wahrscheinlichkeitsraum. Nach dem vorhergehenden Punkt existiert ein solcher tatsächlich. Wir setzen pi := P[{ωi }] für alle 1 ≤ i ≤ n. Die Wahrscheinlichkeit eines Ereignisses A ∈ 2Ω ist dann wegen Axiom III gegeben durch h[ i X X P[A] = P {ωi } = P[{ωi }] = pi . i:ωi ∈A i:ωi ∈A i:ωi ∈A Wir sehen also, dass in jedem Wahrscheinlichkeitsraum (Ω, 2Ω , P) mit endlicher Menge Ω, die Wahrscheinlichkeit P durch ihre Werte für die Elementarereignisse Pn eindeutig bestimmt ist. Insbesondere folgt mit Axiom II weiter, dass i=1 pi = 1, und Axiom I impliziert pi ≥ 0 für alle 1 ≤ i ≤ n. Wir wollen möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen können, die σ-Algebra F des Wahrscheinlichkeitsraumes (Ω, F, P) also möglichst gross wählen. Die obigen Ausführungen zeigen, dass wir, falls Ω endlich ist, immer F := 2Ω setzen können. Beispiele von Wahrscheinlichkeiten im endlichen Fall Im folgenden sei unseren Überlegungen stets ein endlicher Wahrscheinlichkeitsraum (Ω, 2Ω , P) zugrundegelegt. Die im vorhergehenden Abschnitt beschriebene Konstruktion von P mittels einer Familie reeller Zahlen, die (0.1.4) und (0.1.5) erfüllt, liefert wichtige Beispiele von Wahrscheinlichkeitsräumen. 1. Uniformverteilung: Sei Ω := {ω1 , ω2 , . . . , ωn } für P ein n ∈ N. Wir setzen pi := 1/|Ω| = 1/n n für 1 ≤ i ≤ n. Offenbar gilt i=1 pi = 1 und pi ≥ 0. Daher wird durch P[ωi ] := 1/|Ω| eine Wahrscheinlichkeit auf 2Ω definiert. Wir nennen P die Uniformverteilung U[Ω] auf Ω. 2. Bernoulli-Verteilung: Sei Ω := {ω1 , ω2 }. Sei p1 := p ∈ [0, 1] und p1 := 1 − p. Nach Konstruktion gilt trivialerweise p1 + p2 = 1 und p1 , p2 ≥ 0. Daher wird durch P[{ω1 }] := p und P[{ω2 }] := 1 − p eine Wahrscheinlichkeit, die Bernoulli-Verteilung Be(p), auf 2Ω definiert. 3 3. Binomialverteilung: Sei Ω := {0, . . . , n} ⊂ Z+ . Sei für 1 ≤ i ≤ n n i pi := p (1 − p)n−i , i Pn wobei p ∈ [0, 1] fest gegeben. Nach der Binomischen Formel gilt i=1 pi = P n n i n−i = (p + (1 − p))n = 1. Offenbar ist auch pi ≥ 0, und i=1 i p (1 − p) somit wird mittels P[{i}] := ni pi (1 − p)n−i eine Wahrscheinlichkeit auf 2Ω definiert, die Binomialverteilung Bi(n, p). Für n = 1 erhalten wir die Bernoulli-Verteilung Be(p). Betrachten wir ein paar Beispiele zu den oben konstruierten Wahrscheinlichkeiten. Beispiel 0.1.2 (Würfelwurf ). Wir betrachten die Menge Ω := {1, 2, 3, 4, 5, 6} der möglichen Augenzahlen eines Würfels. Ist der Würfel fair, so sollte bei einem Wurf jede Augenzahl mit derselben Wahrscheinlichkeit auftreten. Es gilt also P[{i}] = 16 für alle i ∈ Ω. Wir erhalten also die Uniformverteilung auf Ω. Beispiel 0.1.3 (Münzwurf ). Sei Ω := {Kopf, Zahl} die Menge der möglichen Resultate eines Münzwurfs. Ist die Münze fair, so gilt P[{Kopf}] = P[{Zahl}] = 21 . Wir haben also eine Bernoulli- und zugleich eine Uniformverteilung auf Ω. Beispiel 0.1.4 (Anzahl Kopf im mehrfachen Münzwurf ). Wir versuchen die Binomialverteilung auch auf anschauliche Weise aus der Bernoulli-Verteilung herzuleiten: Dazu betrachten wir ein Experiment, das aus der unabhängigen n-fachen Wiederholung eines Einzelexperiments mit nur zwei möglichen Ausgängen besteht. Beispielsweise werfen wir n-mal hintereinender eine (möglicherweise unfaire) Münze. Kopf soll dabei mit der Wahrscheinlichkeit p oben liegen, Zahl mit Wahrscheinlichkeit 1 − p. Die Ereignisse Kopf und Zahl werden also modelliert durch die Menge Ω1 := {Kopf, Zahl}, und P1 [Kopf] := p, P1 [Zahl] := 1 − p. Für das Gesamtexperiment, den n-fachen Münzwurf, betrachten wir Ω2 := Ωn1 = {(ω1 , ω2 , . . . , ωn ) | ωi ∈ Ω1 , 1 ≤ i ≤ n} für n ∈ N. Bezeichnen mit n(ω) die Anzahl Einer im n-Tupel ω ∈ Ω2 , so wird durch P2 [{ω}] := P1 [{Kopf}]n(ω) P1 [{Zahl}]n−n(ω) = pn(ω) (1 − p)n−n(ω) die Wahrscheinlichkeit, genau die Abfolge ω von Kopf und Zahl zu werfen, definiert. Sind wir lediglich an der Anzahl der in einem n-Tupel ω auftretenden Ereignisse Kopf interessiert, so betrachten wir die Menge Ω3 := {0, 1, 2, . . . , n}. Die Wahrscheinlichkeit P3 in n Würfen genau i-mal Kopf zuwerfen, ist nun X n i P3 [{i}] = P2 [{ω}] = p (1 − p)1−i . i ω∈Ω2 : n(w)=i Im n-fachen Münzwurf ist die Anzahl Kopf zu werfen also Bi(n, p)-verteilt. Fall 2: Ω abzählbar unendlich Konstruktion von Wahrscheinlichkeiten im abzählbar unendlichen Fall Analog zum endlichen Fall können wir hier zeigen, dass jede Wahrscheinlichkeit P durch eine Folge reeller Zahlen (pi )i≥1 mit ∞ X pi = 1 i=1 4 (0.1.6) und pi ≥ 0 für alle i ∈ N (0.1.7) eindeutig bestimmt ist. Die pi sind gerade die Werte von P auf den Elementarereignissen. 1. Sei Ω := {ω1 , ω2 , . . .} eine abzählbar unendliche Menge. Sei die Folge (pi )i≥1 Ω mit (0.1.6) P und (0.1.7) gegeben. ΩDie Abbildung P : 2 → R, definiert durch P[A] := i:ωi ∈A pi für alle A ∈ 2 , erfüllt die Axiome I, II und III. Das heisst P ist eine Wahrscheinlichkeit auf 2Ω , und (Ω, 2Ω , P) damit ein Wahrscheinlichkeitsraum. Speziell gilt P[{ωi }] = pi für i ≥ 1. 2. Sei nun (Ω, 2Ω , P) ein Wahrscheinlichkeitsraum (wegen der obigen Ausführungen wissen wir, dass es einen solchen Raum tatsächlich gibt). Wir setzen pi := P[{ωi }] für alle i ≥ 1. Die Wahrscheinlichkeit eines Ereignisses A ∈ 2Ω ist dann wegen Axiom III gegeben durch h[ i X X P[A] = P {ωi } = P[{ωi }] = pi . i:ωi ∈A i:ωi ∈A i:ωi ∈A Wir sehen also, dass in jedem Wahrscheinlichkeitsraum (Ω, 2Ω , P) mit endlicher Menge Ω, die Wahrscheinlichkeit P durch ihre Werte für die Elementarereignisse eindeutig bestimmt ist. Insbesondere folgt weiter mit Axiom II, dass P∞ p i=1 i = 1, und Axiom I impliziert pi ≥ 0 für alle i ≥ 1. Wie im endlichen Fall wollen wir möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen können, die σ-Algebra F des Wahrscheinlichkeitsraumes (Ω, F, P) also möglichst gross wählen. Die obigen Ausführungen zeigen, dass auch im abzählbar unendlichen Fall stets F := 2Ω gesetzt werden kann. Beispiele von Wahrscheinlichkeiten auf abzählbar unendlichen Mengen Wir setzen in diesem Abschnitt einen Wahrscheinlichkeitsraum (Ω, 2Ω , P) mit abzählbar unendlicher Menge Ω voraus. Die vorher beschriebene Konstruktion von P mittels einer Folge reeller Zahlen, die (0.1.6) und (0.1.7) erfüllt, verwenden wir nun um wichtige Beispiele von Wahrscheinlichkeitsräumen zu konstruieren. 1. Es gibt keine Uniformverteilung im abzählbar unendlichen Fall: Sei Ω := {ω1 , ω2 , . . .}. Wir versuchen analog zum endlichen Fall eine UniformVerteilung auf Ω zu definieren. Sei dazu pi := p ∈ [0, 1] für alle i ∈ N. P∞ Ist p = 0, so haben wir p = 0. Ist andererseits p > 0, so gilt i i=1 P∞ p = ∞. Damit wird immer Axiom II verletzt. i i=1 2. Geometrische Verteilung: Erste Version: Sei Ω := N. Sei pi := (1 − p)i−1 p für i ≥ 1, wobei p ∈ (0, 1] fest. Es gilt pi ≥ 0 und ∞ X i=1 pi = p ∞ X (1 − p)i−1 = p i=1 1 =1, 1 − (1 − p) da (pi )i≥1 eine geometrische Reihe bildet. Mittels P[{i}] := (1−p)i−1 p wird also eine Wahrscheinlichkeit auf 2N definiert, die Geometrische Verteilung Ge(p). Zweite Version: Oft wird die Geometrische Verteilung auch auf folgende Weise 5 definiert: Sei Ω := Z+ und pi := (1 − p)i p für i ≥ 0, wobei p ∈ (0, 1] fest. Es gilt pi ≥ 0 und ∞ X pi = p i=0 ∞ X (1 − p)i = p i=0 1 =1, 1 − (1 − p) da (pi )i≥1 eine geometrische Reihe bildet. Mittels P[{i}] := (1 − p)i p wird also eine Wahrscheinlichkeit auf 2Z+ definiert, die Geometrische Verteilung Ge(p). 3. Negativ-Binomialverteilung: Sei Ω := Z+ . Seien n ∈ N und p ∈ (0, 1] fest. Wir definieren für i ≥ 0 n+i−1 pi := (1 − p)i pn . i Offenbar ist stets pi ≥ 0. Darüberhinaus kann mittels vollständiger Induktion über n gezeigt werden, dass ∞ X n+i−1 1 (1 − p)i = n p i i=0 gilt. Also wird durch P[{i}] := pi in der Tat eine Wahrscheinlichkeit auf 2Ω definiert wird. Dies ist die Negativ-Binomialverteilung NB(n, p). Für n = 1 erhalten wir die Geometrische Vertaeilung Ge(p) auf Z+ . 4. Multinomialverteilung: Pd Sei Ω := Zd+ . Seien für 1 ≤ j ≤ d Zahlen qj ≥ 0 mit j=1 qj = 1 gegeben. Für alle d-Tupel (n1 , . . . , nd ) ∈ Zd+ setzen wir ( Pd 0 für j=1 nj 6= n p(n1 ,...,nd ) := Q P n d d j n! für j=1 qj j=1 nj = n n1 !···nd ! Da offenbar p(n1 ,...,nd ) ≥ 0 für jedes solche d-Tupel gilt, und weiter Yd X X n! nj p(n1 ,...,nd ) = q j=1 j n1 ! · · · nd ! Pd d (n1 ,...,nd )∈Z+ (n1 ,...,nd ): = j=1 nj =n (q1 + · · · + qd )n = 1 , erfüllt ist, wird durch P[{(n1 , . . . , nd )}] := p(n1 ,...,nd ) eine Wahrscheinlichkeit auf 2Ω definiert. Wir nennen sie die Multinomialverteilung MNd (n; q1 , . . . , qd ). Pd Wir können diese Verteilung auch auf Ω := {(n1 , . . . , nd ) ∈ Zd+ | j=1 = n}, also einer endlichen Menge, gegeben auffassen. Im Spezialfall d = 2 ist n2 durch n und k := n1 bereits eindeutig bestimmt, und man erhält die Binomialverteilung Bi(n, p): X n! MN2 (n; p, 1 − p) [{(n1 , n2 )}] = pn1 (1 − p)n2 n1 !n2 ! (n1 ,n2 ):n1 +n2 =n n X n = k=0 k pk (1 − p)n−k = Bi(n, p)[{k}] . 5. Poisson-Verteilung: Sei Ω := Z+ . Für ein festes λ > 0 setzen wir pi := e−λ λi /i! für alle i ≥ 0. Offenbar ist pi ≥ 0. Weiter erhalten wir ∞ X i=0 pi = e−λ ∞ X λi i=0 6 i! = e−λ eλ = 1 . Also wird durch P[{i}] := e−λ λi /i! eine Wahrscheinlichkeit auf 2Ω bestimmt. Dies ist die Poisson-Verteilung Po(λ). Beispiel 0.1.5 (Poissonscher Grenzwertsatz). Die Binomialverteilung lässt sich durch die Poisson-Verteilung approximieren: Sei λ > 0 und sei (p(n))n≥1 eine Folge von Zahlen im Intervall [0, 1] mit limn→∞ = np(n) = λ. Für n → ∞ gilt dann n Bi(n, p(n))[{i}] = p(n)i (1 − p(n))n−i i n −i n(n − 1) · · · (n − i + 1) ni p(n)i np(n) np(n) = 1− 1− ni i! n n λi −λ −→ e = Po(λ)[{i}] . i! Die zahlentheoretische Dichte Im vorhergehenden Abschnitt haben wir Beispiele von Wahrscheinlichkeitsräumen der Form (Ω, 2Ω , P) mit abzählbar unendlicher Menge Ω kennengelernt. Im Gegensatz zum endlichen Fall, kann hier Axiom IIIendl sinnvoll von Axiom III unterschieden werden. Wie wir weiter gesehen haben, rechtfertigt eine Beschreibung der Wahrscheinlichkeit als Grenzwert relativer Häufigkeiten sicherlich Axiom IIIendl. Es stellt sich die Frage, ob aus Axiom I, Axiom II und Axiom IIIendl nicht bereits Axiom III folgt. Die Antwort lautet nein, wie das Beispiel der zahlentheoretischen Dichte zeigt. Definition 0.1.6. Sei A ⊂ N. Existiert der Grenzwert limn→∞ n−1 |A∩{1, 2, . . . , n}|, so heisst die Zahl 1 D[A] := lim |A ∩ {1, 2, . . . , n}| n→∞ n die zahlentheoretische Dichte der Menge A. Betrachten wir zunächst Beispiele von Teilmengen von N für die die zahlentheoretische Dichte D existiert. 1. Sei A ⊂ N eine endliche Menge. Dann gilt offenbar D[A] = 0. 2. Für ein n ∈ N sei An := {m ∈ N | n teilt m}. Dann lässt sich zeigen, dass D[An ] = 1/n. 3. Sei P die Menge der Primzahlen. Der Primzahlsatz besagt, dass die Anzahl π(n) aller Primzahlen kleiner oder gleich n konvergenzäquivalent zu n log(n)−1 ist. Daher gilt D[P ] = limn→∞ log(n)−1 = 0. 4. Betrachten wir das Beispiel einer Menge, für die die zahlentheoretische Dichte nicht existiert. Wir setzen ∞ n o [ r A := 22r+1 + 1, 22 +1 + 2, . . . , 22(r+1) . r=0 Für n(r) := 22r+1 gilt, wenn r → ∞: 1 |A ∩ {1, 2, . . . , n(r)}| n(r) = = −→ 7 21 + 23 + · · · + 22r−3 + 22r−1 22r+1 1 1 1 1 + 4 + 6 . . . + 2r 22 2 2 2 1 1 4 1 = 3 . 1− 4 Für n(r) := 22(r+1) gilt, wenn r → ∞: 1 |A ∩ {1, 2, . . . , n(r)}| n(r) = = −→ 21 + 23 + · · · + 22r−1 + 22r+1 22(r+1) 1 1 1 1 + + 5 . . . + 2r+1 2 23 2 2 1 2 2 = . 3 1 − 14 Daher existiert für diese Menge A der Grenzwert nicht. Wir untersuchen nun, ob die Axiome der Definition 0.1.1 auf die zahlentheoretische Dichte zutreffen. 1. Ist A eine Teilmenge von N, für die D[A] definiert ist, so gilt offenbar 0 ≤ D[A] ≤ 1, das heisst Axiom I wird erfüllt. 2. Es gilt n−1 |N ∩ {1, 2, . . . , n}| = 1 für alle n ∈ N, daher gilt D[N] = 1. Mit Ω := N ist damit Axiom II erfüllt. 3. Sind B1 und B2 disjunkte Teilmengen von N, für D definiert ist. Offenbar gilt für jedes n ∈ N n−1 |(B1 ∪ B2 ) ∩ {1, 2, . . . , n}| = n−1 |B1 ∩ {1, 2, . . . , n}| + n−1 |B2 ∩ {1, 2, . . . , n}|, und daher haben wir D[B1 ∪ B2 ] = D[B1 ] + D[B2 ]. Also erfüllt D Axiom IIIendl. 4. Wir betrachen nun die Folge S∞ (Ai )i≥1 , wobei Ai := {i}. S∞Offenbar sind die Ai paarweise disjunkt, und i=1 Ai = N. Es gilt also D[ i=1 P∞Ai ] = 1. Da jedoch |Ai ∩ {1, 2, . . . , n}| ∈ {0, 1}, so gilt D[Ai ] = 0, und so i=1 D[Ai ] = 0. Man erhält also ∞ h [∞ i X D Ai 6= D[Ai ] , i=1 i=1 Axiom III ist also nicht erfüllt. Bemerkung 0.1.7. Obwohl D nicht auf jeder Teilmenge von N definiert ist, so lässt sich zeigen, dass D mittels des Satzes von Hahn-Banach zu einer Abbildung D̄ : 2N → [0, 1], die additiv, jedoch nicht σ-additiv ist, fortgesetzt werden kann. Damit erhalten wir einen Raum (N, 2N , D̄), der bis auf die σ-Additivität alle Eigenschaften eines Wahrscheinlichkeitsraums erfüllt. Fall 3: Ω überabzählbar unendlich Konstruktion von Wahrscheinlichkeiten im überabzählbar unendlichen Fall Im abzählbar unendlichen Fall wurde gezeigt, dass es keine Uniformverteilung geben kann. Ist es möglich auf einer überabzählbaren Menge Ω in anderer Form eine Uniformverteilung zu konstruieren? Wir versuchen dies auf der Menge Ω := (0, 1] ⊂ R. Für ein beliebiges Intervall (a, b] ⊂ (0, 1] liegt es intuitiv nahe, die Wahrscheinlichkeit P als durch P[(a, b]] = b − a (0.1.8) gegeben zu betrachten. Wie ist aber die σ-Algebra F zu wählen? Wir betrachten hierzu die kleinste σAlgebra von Teilmengen in (0, 1], die von allen Intervallen der Form (a, b] mit 0 < 8 a < b ≤ 1 erzeugt wird. Dies ist die Borelsche σ-Algebra B((0, 1]) := (0, 1] ∩ B(R). Der Erweiterungssatz der Masstheorie besagt, dass ein eindeutig bestimmtes Wahrscheinlichkeitsmass P auf B((0, 1]) existiert, das für jedes Intervall (a, b] mit 0 < a < b ≤ 1 die Gleichung (0.1.8) erfüllt. Auf diese Weise erhalten wir einen Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), P). Wir nennen P die Uniformverteilung U[(0, 1]]. Bemerkung 0.1.8. Wäre es hier aber nicht möglich wie im diskreten Fall als σAlgebra die Potenzmenge 2(0,1] zu wählen? Nein. Man kann zeigen, dass das durch (0.1.8) bestimmte P nicht konsistent auf die Potenzmenge von (0, 1] fortgesetzt werden kann. Die Idee der Konstruktion der Uniformverteilung auf (0, 1] soll nun erweitert werden, damit wir Wahrscheinlichkeitsräume mit Ω := R konstruieren können. Dazu benötigen wir folgende Definition: Definition 0.1.9. Eine Funktion F : R → [0, 1] heisst Verteilungsfunktion, wenn sie rechtsstetig und monoton wachsend ist, und wenn limx→−∞ F (x) = 0 und limx→+∞ F (x) = 1 gilt. Bemerkung 0.1.10. Aus den Eigenschaften der Verteilungsfunktion folgt, dass diese in jedem Punkt in R den linksseitigen Limes besizt. Rechtsstetige Funktionen mit linksseitigen Limites werden auch als càdlàg-Funktionen bezeichnet ( continue à droit - limite á gauche). Jedes Wahrscheinlichkeitsmass auf B(R) kann auf eindeutige Weise durch eine Verteilungsfunktion beschrieben werden: 1. Sei eine Verteilungsfunktion F gegeben. Nach dem Erweiterungssatz aus der Masstheorie gibt es ein eindeutig bestimmtes Wahrscheinlichkeitsmass P auf B(R), das für jedes Intervall (a, b] die Gleichung P[(a, b]] = F (b) − F (a) erfüllt. Die Verteilungsfunktion definiert also in eindeutiger Weise den Wahrscheinlichkeitsraum (R, B(R), P). 2. Ist umgekehrt ein Wahrscheinlichkeitsraum (R, B(R), P) gegeben, so erfüllt die durch F (x) := P[(−∞, x]] eindeutig bestimmte Funktion alle Eigenschaften einer Verteilungsfunktion F . Beispiel 0.1.11. Betrachte die Funktion 0 für x für F (x) := 1 für x≤0 x ∈ (0, 1] x>1. Dies ist offenbar eine Verteilungsfunktion. Sie definiert gerade die Uniformverteilung U[(0, 1]]. Beispiel 0.1.12. Sei (R, B(R), P) ein Wahrscheinlichkeitsraum, und sei F die durch P bestimmte Verteilungsfunktion. Dann gilt für alle x ∈ R P[{x}] := F (x) − F (x−) . Ist F stetig im Punkt x, so haben wir insbesondere P[{x}] = 0. 9 Eine wichtige Klasse von Verteilungsfunktionen wird über Wahrscheinlichkeitsdichten definiert. Definition 0.1.13. Eine Wahrscheinlichkeitsdichte ist eine integrierbare Funktion f : R → R+ mit Z +∞ f (t)dt = 1 . −∞ Ist f eine Dichte, so wird durch F (x) := Z x f (t)dt −∞ eine stetige Verteilungsfunktion F , und damit auch eine Wahrscheinlichkeit P auf B(R), definiert. Bemerkung 0.1.14. Der Begriff der Dichte lässt sich auch allgemeiner fassen. Eine integrierbare Funktion f : Rn → R+ heisse Wahrscheinlichkeitsdichte, wenn Z f (x1 , . . . , xn ) d(x1 , . . . , xn ) = 1 Rn gilt. Nach dem Erweiterungssatz der Masstheorie gibt es ein eindeutig bestimmtes Wahrscheinlichkeitsmass P auf B(Rn ), so dass für jedes n-dimensionale Intervall (a, b] ⊂ Rn gilt: Z P[(a, b]] = f (x1 , . . . , xn ) d(x1 , . . . , xn ) . (0.1.9) (a,b] Wir erhalten so Wahrscheinlichkeitsräume der Form (Rn , B(Rn ), P). Der Begriff der Verteilungsfunktion wird im mehrdimensionalen Fall selten verwendet. Beispiele von Wahrscheinlichkeiten auf überabzählbar unendlichen Mengen 1. Negativ-Exponentialverteilung: Sei Ω := R. Sei λ > 0 fest gewählt. Die Funktion 0 für x < 0 fλ (x) := λe−λx für x ≥ 0 ist eine Dichte, wie man leicht nachprüft. Die dadurch definierte Verteilungsfunktion ist 0 für x < 0 Fλ (x) = 1 − e−λx für x ≥ 0 . Die entsprechende Verteilung heisst Negativ-Exponentialverteilung NE(λ). 2. Normalverteilung: Sei Ω := R. Es kann gezeigt werden, dass die Funktion x2 1 ϕ0,1 (x) := √ e− 2 2π eine Wahrscheinlichkeitsdichte ist. Die entsprechende Verteilungsfunktion bezeichen wir mit Z x t2 1 Φ0,1 (x) := √ e− 2 dt . 2π −∞ 10 Wir nennen die durch ϕ0,1 bestimmte Verteilung die Standard-Normalverteilung N (0, 1). Seien nun µ ∈ R und σ ∈ R+ fest gewählt. Da ϕ0,1 eine Dichte ist, folgt mittels Substitution y := σ −1 (x − µ), dass ϕµ,σ2 (x) := (x−µ)2 1 √ e− 2σ2 σ 2π ebenfalls eine Dichtefunktion ist. Die Verteilungsfunktion ist dann Z x (t−µ)2 1 e− 2σ2 dt . Φµ,σ2 (x) := √ σ 2π −∞ Diese definiert die Normalverteilung N (µ, σ 2 ). 3. Bivariate Normalverteilung: Sei Ω := R2 . Man kann zeigen, dass f (x, y) := 1 − 1 (x2 +y2 ) e 2 2π eine 2-dimensionale Dichte ist. Die durch sie bestimmte Verteilung wird bivariate Standard-Normalverteilung genannt. 4. Cauchy-Verteilung: Sei Ω := R. Betrachte für reelle Zahlen d > 0 und λ ∈ R die Funktion fλ,d (x) := 1 d . 2 π d + (x − λ)2 (0.1.10) Dies ist eine Dichte. Denn mittels der Substitution y := d−1 (x − λ) erhalten wir Z +∞ Z +∞ d 1 dx = dy = lim [arctan(x)]+n −n = π . 2 + (x − λ)2 2 n→∞ d 1 + y −∞ −∞ Die Dichte fλ,d bestimmt die Cauchy-Verteilung C(λ, d). Speziell nennen wir C(0, 1) die Standard-Cauchy-Verteilung. 5. Gamma-Verteilung: Sei Ω := R. Seien λ ∈ 0 und a > 0 fest gewählt. Wir betrachten die Funktion ( 0 für x < 0 f(a,λ) (x) := λa xa−1 e−λx für x ≥ 0 Γ(a) Dabei bezeichnet Γ die Gamma-Funktion. Da mit y := λx Z ∞ Z ∞ a−1 −y Γ(a) := y e dy = λn xa−1 e−λx dx 0 0 gilt, sieht man, dass es sich bei f(a,λ) um eine Dichte handelt. Wir nennen die entsprechende Verteilung die Gamma-verteilung Γ(a, λ). Für n = 1 erhalten wir gerade die Negativ-Exponentialverteilung NE(λ). Ein für die Statistik wichtiger wichtiger Spezialfall ist die Verteilung Γ(n/2, 1/2) für n ∈ N. Wir nennen sie die Chi-Quadrat-Verteilung χ2n mit n Freiheitsgraden. 11 0.2 Zufallsvariablen und ihre Verteilungen Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt. Definition 0.2.1. Eine (reelle) Zufallsvariable auf Ω ist eine F-B(Rn )-messbare Abbildung X : Ω → Rn . Für n ≥ 2 nennen wir X auch Zufallsvektor. Ist X(Ω) endlich oder abzählbar unendlich, so sprechen wir von einer diskreten Zufallsvariable. Wir werden auch dann von einer diskreten Zufallsvariablen X sprechen, wenn die Menge aller x ∈ Rn mit P[{ω ∈ Ω | X(ω) = x}] > 0 endlich oder abzählbar unendlich ist. Das Bild X(Ω) werden wir dann als die Menge der Punkte, die mit positiver Wahrscheinlichkeit getroffen werden, auffassen. Wir verwenden im folgenden die abkürzende Schreibeweise {X ∈ B} := X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} , für B ⊂ R , bzw. {X = c}, {X ≤ c} u.s.w., für c ∈ R. Ist B ∈ B(Rn ) eine Ereignis, so ist X −1 (B) ∈ F, und wir verwenden entsprechend die Notation P[X ∈ B] := P[X −1 (B)] . Satz 0.2.2. Sei X : Ω → Rn eine Zufallsvariable. Sei PX : B(Rn ) → R definiert durch PX [B] := P[X ∈ B] . Dann ist PX eine Wahrscheinlichkeit auf B(Rn ), also (Rn , B(Rn ), PX ) ein Wahrscheinlichkeitsraum. Beweis: Wir prüfen die drei Axiome der Definition 0.1.1 nach, indem wir die Eigenchaften der Wahrscheinlichkeit P ausnützen. Sei B ∈ B(Rn ). Dann ist X −1 (B) ∈ F und nach Definition PX [B] = P[X −1 (B)]. Daher ist 0 ≤ PX [B] ≤ 1 und Axiom I erfüllt. Auch das zweite Axiom gilt, denn PX [Rn ] = P[X −1 (Rn )] = P[Ω] = 1. Sei (Bi )i≥1 eine Folge von paarweise disjunkten Mengen aus B(Rn ). Dann gilt PX h [∞ i=1 Bi i h [∞ i h[ = P X −1 Bi = P i=1 = ∞ X i=1 ∞ i X P[X −1 (Bi )] X −1 (Bi ) = i=1 PX [Bi ] . i=1 Axiom III gilt also auch. 2 Anstelle von PX wird auch die Schreibweise PX −1 verwendet. Wir nennen PX die Verteilung der Zufallsvariablen X und verwenden die Notation X ∼ PX . Speziell verwenden wir für die in den Beispielen betrachteten Verteilungen die Notation X ∼ Po(λ), X ∼ N (µ, σ 2 ), X ∼ U[(0, 1]], u.s.w. Ist X eine R-wertige Zufallsvariable, so bezeichen wir mit FX die durch PX definierte Verteilungsfunktion. Betrachten wir einige grundlegende Beispiele von Zufallsvariablen: 12 1. Sei c ∈ R eine Konstante, und sei X : Ω → R gegeben durch X(ω) := c für alle ω ∈ Ω. Die Abbildung X ist eine Zufallsvariable, deren Verteilung PX gegeben ist durch 1 falls c ∈ B PX [B] = 0 falls c 6∈ B für B ∈ B(R). 2. Sei A ∈ F ein fest gewähltes Ereignis. Wir definieren die Abbildung X : Ω → R durch 1 falls ω ∈ A X(ω) := . 0 falls ω ∈ 6 A Diese Abbildung ist eine Zufallsvariable, Wir nennen X die Indikatorvariable zum Ereignis A. Ihre Verteilung PX ist gegeben durch 1 falls 1 ∈ B und 0 ∈ B P[A] falls 1 ∈ B und 0 6∈ B PX [B] = . (0.2.1) P[Ac ] falls 1 6∈ B und 0 ∈ B 0 falls 1 6∈ B und 0 6∈ B 3. Sei Ω abzählbar und F := 2Ω . Dann ist jede Abbildung X : Ω → R messbar und daher eine Zufallsvariable. Die Menge X(Ω) der möglichen Werte von X ist abzählbar. Sei (xi )i≥1 eine Auflistung dieser Werte. Dann ist PX bestimmt durch die Werte PX [{xi }] = P[X = xi ] für i ∈ N. Entsprechende Aussagen gelten natürlich im Fall, dass Ω endlich ist. Wir betrachten nun einige Beispiele dazu, wie sich aus gegebenen Zufallsvariablen neue bilden lassen. 1. Sind Xi : Ω → R F-B(R)-messbare Zufallsvariablen für alle 1 ≤ i ≤ n, so ist (X1 , . . . , Xn ) : Ω → Rn , definiert durch (X1 , . . . , Xn )(ω) := (X1 (ω), . . . , Xn (ω)) , eine F-B(Rn )-messbare Zufallsvariable und umgekehrt. Dies folgt aus der EiNn genschaft, dass B(Rn ) = i=1 B(R) die von B(R) × · · · × B(R) erzeugte σAlgebra ist. 2. Sei X : Ω → Rn eine Zufallsvariable und g : Rn → Rm eine B(Rn )-B(Rm )messbare Abbildung. Dann ist durch g(X)(ω) := g(X(ω)) eine Zufallsvariable g(X) : Ω → Rm definiert. 3. Aus den vorhergehenden beiden Punkten ergibt sich, dass wenn X : Ω → R und Y : Ω → R Zufallsvariablen sind, auch X+Y , XY und eX Zufallsvariablen sind. 4. Sei (Xi )i≥1 eine Folge von Zufallsvariablen Xi : Ω → R. Existiert supi≥1 Xi in R, so ist supi≥1 Xi : Ω → R, gegeben durch (supi≥1 Xi )(ω) := supi≥1 (Xi (ω)) , eine T Zufallsvariable. Dies folgt, da für jedes x ∈ R {supi≥1 Xi ≤ x} = i≥1 {Xi ≤ x} ein abzählbarer Schnitt von messbaren Mengen ist. Entsprechend zeigt man, dass falls inf i≥1 Xi in R existiert, dies eine Zufallsvariable ist. 13 5. Sei wie vorher (Xi )i≥1 eine Folge von Zufallsvariablen. Existieren lim supi→∞ Xi := inf j≥1 (supk≥j Xk ), bzw. lim inf i→∞ Xi := supj≥1 (inf k≥j Xk ) in R, so sind dies wegen vorhergehendem Punkt ebenfalls Zufallsvariablen. 6. Betrachte wiederum (Xi )i≥1 eine Folge von Zufallsvariablen. Existiert limi→∞ Xi in R, so haben wir insbesondere limi→∞ Xi = lim supi→∞ Xi , und so eine Zufallsvariable lim Xi : Ω → R. P Pi→∞ ∞ j Konvergiert die Summe i=1 Xi := limj→∞ i=1 Xi , so ist diese wiederum eine Zufallsvariable. Kehren wir zurück zu Punkt 2 der obigen Liste: Wir betrachten eine Zufallsvariable X : Ω → R mit der Verteilung PX und eine messbare Funktion g : R → R. Was können wir über die Verteilung Pg(X) der Zufallsvariablen g(X) aussagen? Betrachten wir dazu zwei Beispiele. Beispiel 0.2.3. Sei g : R → R bijektiv. Für die Verteilungsfunktion Fg(X) gilt: Fg(X) (x) := Pg(X) [(−∞, x]] = P[g(X) ≤ x] = = P[X ≤ g −1 (x)] = PX [(−∞, g(x)]] FX (g −1 (x)) für alle x ∈ R. Beispiel 0.2.4. Aus dem vorhergehenden Beipiel erhalten wir einen wichtigen Spezialfall. Seien dazu µ ∈ R und σ ∈ (0, ∞) gegeben. Betrachte eine Zufallsvariable X ∼ N (0, 1) und setze Y := σX + µ . Dann ist Y ∼ N (µ, σ 2 ). Ist umgekehrt eine Zufallsvariable Y ∼ N (µ, σ 2 ) vorgegeben, so folgt X := Y −µ σ der Standard-Normalverteilung N (0, 1). Dieser Sachverhalt wurde bereits in Abschnitt 0.1 in der Herleitung der Dichte der Normalverteilung aus der Dichte der Standard-Normalverteilung verwendet. Beispiel 0.2.5. Sei g : R → R gegeben durch x 7→ x2 . Dann gilt für x ∈ R FX 2 (x) := PX 2 [(−∞, x]] = P[X 2 ≤ x] √ √ √ √ = P[− x ≤ X ≤ x] = P[X ≤ x] − P[X < − x] √ √ = FX ( x) − FX (− x−) . Satz 0.2.6 (Dichtetransformation). Sei X : Ω → R eine Zufallvariable mit Dichte fX . Sei g : R → R eine messbare Abbildung und Y := g(X). Ist g im Wertebereich X(Ω) von X stetig differenzierbar mit strikt postiver Ableitung g 0 > 0, so ist die Dichte fY von Y gegeben durch ( fX (g −1 (x)) für x ∈ g(X(Ω)) 0 (g −1 (x))| |g fY (x) = 0 für x 6∈ g(X(Ω)) Die gleiche Aussage folgt, wenn vorausgestzt wird, dass g eine strikt negative Ableitung g 0 < 0 hat. Beweis: Dies folgt aus der Substitutionsregel der Differential- und Integralrechnung. 2 14 0.3 Bedingte Wahrscheinlichkeit In einer Fernseh-Show kann ein aus dem Publikum ausgewählter Kandidat auf folgende Art ein neues Auto gewinnen: Er hat drei geschlossene Türen zur Auswahl, wobei hinter genau einer das Auto versteckt worden ist. Nun darf er sich für eine Tür die er öffnen will entscheiden. Bevor diese geöffnet wird, teilt er seine Entscheidung dem Quizmaster mit. Dieser, der natürlich weiss, hinter welcher Türe sich das Auto verbirgt, öffnet nun eine der beiden Türen die der Kandidat nicht ausgwählt hat. Er öffnet jedoch nicht diejenige hinter der sich das Auto befindet. Der Kandidat hat nun die Möglichkeit bei seiner Entscheidung zu bleiben oder zur anderen noch geschlossenen Türe zu wechseln, um diese dann öffnen zu lassen. Wie soll er sich entscheiden? Soll er die Türe wechseln oder bei seiner ersten Entscheidung bleiben? Man könnte der Ansicht sein, dass es keine Rolle spielt, ob der Kandidat wechselt oder nicht. Um dieses Problem genau zu untersuchen, wird der Begriff der bedingten Wahrscheinlichkeit benötigt. Sei dazu im folgenden unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt. Definition 0.3.1. Seien A, B ∈ F Ereignisse mit P[A] > 0. Dann heisst P[B|A] := P[A ∩ B] P[A] die bedingte Wahrscheinlichkeit von B, gegeben das Ereignis A. Aus der Definition lässt sich sofort schliessen: 1. Die Wahrscheinlichkeit P[B|A] ist für festes A mit P[A] > 0 für alle B ∈ F definiert. 2. Offenbar gilt für jedes B ∈ F die Eigenschaft P[B|A] = P[A ∩ B|A]. 3. Speziell haben wir P[A|A] = 1. Satz 0.3.2. Sei das Ereignis A ∈ F fest gegeben. Dann ist PA : F → R, definiert durch PA [B] := P[A|B] für B ∈ F, eine Wahrscheinlichkeit; das heisst (Ω, F, PA ) ist ein Wahrscheinlichkeitsraum. Beweis: Prüfen wir die drei Axiome der Definition 0.1.1 nach. Sei dazu B ∈ F gegeben. Nach Voraussetzung ist P[A] > 0. Ferner erfüllt P Axiom I ; daher ist P[A ∩ B] ≥ 0, und somit auch PA [B] ≥ 0. Weiter folgt aus A ∩ B ⊂ A, dass P[A ∩ B] ≤ P[B] und somit PA [B] ≤ 1. Axiom I wird also erfüllt. Wir haben P[A ∩ Ω] = P[A], also auch PA [Ω] = 1. Damit wurde Axiom II nachgewiesen. Sei (Bn )n≥1 eine Folge paarweise disjunkter Ereignisse aus F. Dann ist auch (A ∩ Bn )n≥1 eine Folge paarweise disjunkter Ereignisse und wir erhalten S∞ P∞ S∞ h [∞ i P [ n=1 (A ∩ Bn )] P[A ∩ Bn ] P [A ∩ n=1 Bn ] = = n=1 PA Bn = n=1 P[A] P[A] P[A] ∞ X = PA [Bn ] . n=1 Das dritte Axiom wird auch erfüllt. 2 15 Satz 0.3.3 (Formel der totalen Wahrscheinlichkeit (FTW)). Sei (An )n≥1 eine Folge von Ereignissen aus F, S die eine Partition von Ω bildet. Die Ereignisse ∞ seien also paarweise disjunkt, und n=1 An = Ω. Dann gilt für alle B ∈ F: P[B] = ∞ X P[B|An ]P[An ] , n=1 wobei P[B|An ]P[An ] := 0 gesetzt wird, falls P[An ] = 0. Beweis: Sei BS ∈ F. Da (An )n≥1 eine Partition von Ω ist, kann das Ereignis B in ∞ der Form B = n=1 ∩ An ) als eine disjunkte Vereinigung geschrieben werden. P(B ∞ Damit gilt P[B] = n=1 P[B ∩ An ]. Ist P[An ] = 0, so ist auch P[B ∩ An ] = 0. In diesem Fall setzen wir P[B|An ]P[An ] := P[B ∩ An ] = 0 . Ist andererseits P[An ] > 0, so ist nach Definition 0.3.1 P[B|An ] = P[B ∩ An ]/P[An ], beziehungsweise P[B ∩ An ] = P[B|An ]P[An ]. 2 Satz 0.3.4 (Bayes). Seien A, B ∈ F mit P[A] > 0 und P[B] > 0. Dann gilt: P[B|A] = P[A|B]P[B] . P[A] Beweis: Dies ergibt sich direkt aus der Definition 0.3.1 mit P[A∩B] = P[A|B]P[B]: P[B|A] = P[A|B]P[B] P[A ∩ B] = . P[A] P[A] 2 Beispiel 0.3.5 (Klinische Tests). Für eine Krankeit, zum Beispiel die Tuberkulose, gibt es Testverfahren, mit dem Aussagen darüber gemacht werden können, ob eine bestimmte Person krank ist oder nicht. Sei A das Ereignis, dass die Person tatsächlich an Tuberkulose leidet. Die Wahrscheinlichkeit dafür is klein, etwa P[A] := 1/10000. Sei B das Ereignis, dass ein Test positiv ausfällt, also auf das Vorhandensein der Krankheit hinweist, und sei B c das Ereignis, dass der Test negativ ausfällt. Oft sind in solchen Situationen die Wahrscheinlichkeiten bekannt: 1. P[B c |A]: Die Wahrscheinlichkeit, dass der Test negativ ausfällt, obwohl die getestete Person in Wirklichkeit krank ist. Diese Fehlerwahrscheinlichkeit sollte eher klein sein, etwa P[B c |A] := 1/20. 2. P[B|A]: Die Wahrscheinlichkeit, dass der Test positiv ausfällt, obwohl die getestete Person gar nicht an Tuberkulose erkrank ist. Auch diese Fehlerwahrscheinlichkeit sollte klein sein, beispielsweise P[B|Ac ] := 1/40. Nun interessiert man sich für die Wahrscheinlichkeit P[A|B], dass eine positiv getestete Person tatsächlich Tuberkulose hat. Diese Wahrscheinlichkeit können wir mit Hilfe der Formel der totalen Wahrscheinlichkeit und des Satzes von Bayes berechnen: Nach Satz 0.3.3 gilt mit der Partition A ∪ Ac = Ω P[B] = P[B|A]P[A] + P[B|Ac ]P[Ac ] . 16 Mit Satz 0.3.4 folgt dann P[A|B] = P[B|A]P[A] P[B|A]P[A] = P[B] P[B|A]P[A] + P[B|Ac ]P[Ac ] = (1 − P[B c |A])P[A] (1 − P[B c |A])P[A] = P[B] (1 − P[B c |A])P[A] + P[B|Ac ]P[Ac ] ≈ 1 . 250 Die Wahrscheinlichkeit bei positivem Testresultat tatsächlich krank zu sein ist ziemlich gering. Dies liegt in diesem Fall daran, dass P[A] klein, und P[B|Ac ] im Vergleich zu P[A] relativ gross ist. Kommen wir zum am Anfang dieses Abschnitts betrachteten Quiz zurück. Um die Frage zu zu beantworten nehmen wir ohne Einschränkung an, das Auto wurde hinter der ersten Türe versteckt. Dem Quizmaster ist dies bekannt, er wird daher entweder die zweite oder dritte Tür öffnen, was auch immer der Kandidat wählen wird. Wir bezeichen mit Ai das Ereignis, dass der Kandidat Türe i auswählt. Der Kandidat hat keine Preferenz für eine der Türen, daher ist P[A1 ] = P[A2 ] = P[A3 ] = 1/3. Sei weiter B das Ereignis, dass der Quizmaster Tür 2 aufmacht, und B c somit das Ereignis, dass er Tür 3 öffnet. Nun gilt: 1. Wählt der Kandidat die erste, also richtige Türe, so öffnet der Quizmaster die zweite Tür mit einer gewissen Wahrscheinlichkeit P[B|A1 ] =: p ∈ [0, 1], bzw. die dritte Tür mit der Wahrscheinlichkeit P[B c |A1 ] = 1 − p =: q. 2. Wählt der Kandidat die zweite Türe, so kann der Quizmaster diese nicht öffnen, also P[B|A2 ] = 0. 3. Entscheidet sich der Kandidat für Türe 3, so kann der Quizmaster nur die zweite Türe öffnen. Daher gilt P[B|A3 ] = 1. Uns interessieren nun die Wahrscheinlichkeiten P[Ai |B], beziehungsweise P[Ai |B] für i = 1, 2, 3, also die Wahrscheinlichkeiten die richtige Türe zu treffen, nachdem der Quizmaster eine der Türen geöffnet hat. Dies können wir wiederum mit den Sätzen 0.3.3 und 0.3.4: 1. Die Wahrscheinlichkeit mit der Wahl der ersten Türe das Auto zu erhalten, wenn der Quizmaster die zweite Tür geöffnet hat, ist P[A1 |B] = P[B|A1 ]P[A1 ] p = . P[B|A1 ]P[A1 ] + P[B|A2 ]P[A2 ] + P[B|A3 ]P[A3 ] 1+p 2. Wenn der Quizmaster die zweite Tür öffnet ist das Auto natürlich nicht dahinter versteckt, also P[A2 |B] = 0. 3. Die Wahrscheinlichkeit mit der Wahl von Tür 3 das Auto zu erhalten, wenn der Quizmaster die zweite Tür geöffnet hat, ist schliesslich P[A3 |B] = 1 − P[A1 |B] − P[A2 |B] = 1 . 1+p Analog erhalten wir die Wahrscheinlichkeiten, falls der Quizmaster die dritte Türe geöffnet hat: 1. P[A1 |B c ] = q/(1 + q). 17 2. P[A2 |B c ] = 1/(1 + q). 3. P[A3 |B c ] = 0. Da stets gilt 1/(1 + p) ≥ p/(1 + p) (0.3.1) 1/(1 + q) ≥ q/(1 + q) , (0.3.2) und ist es in jedem Fall besser die Tür zu wechseln nachdem der Quizmaster eine geöffnet hat. Dies ist auch in den Fällen p = 1 und p = 0 so. Denn bei p = 1 ist q = 0, und bei (0.3.1) erhalten wir zwar Gleichheit, bei (0.3.2) aber sogar 1 > 0. Entsprechend folgt im Fall p = 0, dass q = 1, und wir erhalten bei (0.3.2) Gleichheit, dafür aber bei (0.3.1) die Ungleichung 1 > 0. Eine natürliche Annahme ist p = q = 1/2 anzunehmen. Damit wächst die Chance das Auto zu gewinnen mit einem Wechsel der Türen von 1/3 auf 2/3. Kehren wir nun zurück zur Formel der totalen Wahrscheinlichkeit. Die in Satz 0.3.3 vorausgesetzte Partition der Menge Ω wird häufig in Verbindung mit Zufallsvariablen definiert. Betrachte zunächst eine diskrete Zufallsvariable X : Ω → R. Sei (xn )n≥1 eine Aufzählung ihres Wertebereichs. Dann ist durch (An )n≥1 , wobei An := {X = xn } für alle n ∈ N, eine Partition von Ω definiert. Mit Satz 0.3.3 gilt demnach für alle Ereignisse B ∈ F: P[B] = ∞ X P[B|X = xn ]P[X = xn ] = n=1 ∞ X P[B|X = xn ]PX [xn ] . (0.3.3) n=1 Diese Formel lässt sich aber nur im diskreten Fall verwenden. Was aber haben wir, wenn die Verteilung X : Ω → R durch eine Dichte fX bestimmt ist? Hier haben wir offenbar P[X = x] = 0 für alle x ∈ R, und P[B|X = x] ist nirgends definiert. Bemerkung 0.3.6. Sei X : Ω → R eine beliebige Zufallsvariable. Wir betrachten ein fest gewähltes Ereignis B ∈ F. Es kann gezeigt werden, dass eine messbare, PX integrierbare Funktion gB : R → R existiert, die für alle A ∈ B(R) die Gleichung Z gB dPX = P[B ∩ {X ∈ A}] (0.3.4) A erfüllt. Die Funktion gB ist dadurch ( PX -fast sicher) eindeutig bestimmt. Wir definieren nun P[B|X = ·] := gB (·) . Setzen wir weiter in Gleichung (0.3.4) A := R ein, so erhalten wir Z P[B|X = x] dPX = P[B ∩ {X ∈ R}] = P[B ∩ Ω] = P[B] . R Ist die Verteilung PX über die Dichte fX gegeben ist, folgt nun mittels Transformation das stetige Analogon zu Gleichung (0.3.3): P[B] = Z +∞ P[B|X = x]fX (x) dx . −∞ Betrachten wir hierzu ein Beispiel. 18 (0.3.5) Beispiel 0.3.7. Gegeben seien zwei Zufallsvariablen X, Y : Ω → R. Es sei X ∼ Γ(n, λ). Und sei xk P[Y = k|X = x] := e−x k! für alle x ∈ R und alle k ∈ Z+ . Das heisst unter der Bedingung X = x, ist Y Po(x)-verteilt. Was ist nun die Verteilung von Y , ohne eine Bedingung? Nach (0.3.5) gilt unter Verwendung der Substitution y := (λ + 1)x P[Y = k] = = = ∞ e−x xk λn xn−1 e−λx dx k! Γ(n) 0 Z ∞ λn 1 (λ + 1)n+k xn+k−1 e−(λ+1)x dx Γ(n)k! (λ + 1)n+k 0 Z ∞ λn 1 y n+k−1 e−y dx Γ(n)k! (λ + 1)n+k 0 Z λn 1 Γ(n + k) Γ(n)k! (λ + 1)n+k n+k−1 λn = k (λ + 1)n+k k n n+k−1 1 1 1− = . k λ+1 λ+1 = Die Zufallsvariable Y ist also NB(n, p)-verteilt, mit p := 1 − (λ + 1)−1 . 0.4 Unabhängigkeit Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt. Unabhängigkeit von Ereignissen Wir betrachten zwei Ereignisse A und B aus F. Anschaulich verstehen wir unter der Unabhängigkeit des Ereignisses A von B, dass die Wahrscheinlichkeit des Eintretens von A nicht von der Wahrscheinlichkeit des Eintretens von B abhängt, also (im Falle dass P[B] > 0 und P[B c ] > 0): P[A|B] = P[A] und P[A|B c ] = P[A] . Genauso ist B unabhängig von A, wenn (im Falle dass P[A] > 0 und P[Ac ] > 0) P[B|A] = P[B] und P[B|Ac ] = P[B] gilt. Jede dieser vier Gleichungen ist äquivalent zur Gleichung P[A ∩ B] = P[A]P[B], wobei diese auch im Fall P[A] = 0 oder P[B] = 0 erfüllt ist. Damit können wir die folgende Definition rechtfertigen: Definition 0.4.1. Zwei Ereignisse A und B aus F heissen genau dann unabhängig, wenn sie der Gleichung P[A ∩ B] = P[A]P[B] (0.4.1) genügen. Drei Spezialfälle sind bemerkenswert: 19 1. Die Ereignisse A und B seien disjunkt. In diesem Fall sind A und B genau dann unabhängig, wenn P[A] = 0 oder P[B] = 0 gilt. 2. Sei P[B] ∈ {0, 1}. Dann folgt aus der Definition, dass A und B stets unabhängig sind. Mit anderen Worten: Jedes Ereignis ist unabhängig von einem fast sicheren oder fast unmöglichen Ereignis. 3. Sei A ⊂ B. In diesem Fall sind A und B genau dann unabhängig, wenn P[A] = 0 oder P[B] = 1 gilt. Beispiel 0.4.2 (Zweimaliges Würfeln). Sei Ω := {(i, j) ∈ N × N | 1 ≤ i, j ≤ 6} und P[{(i, j)}] := 1/36. Sei A := {(i, j) ∈ Ω | i gerade} das Ereignis im ersten Wurf eine gerade Augenzahl zu werfen. Sei B := {(i, j) ∈ Ω | j = 6} das Ereignis im zweiten Wurf eine Sechs zu werfen. Dann gilt P[A] = 1/2, P[B] = 1/6 und P[A ∩ B] = 1/12. Die Gleichung (0.4.1) ist demnach erfüllt, und die Ereignisse A und B sind daher unabhängig. Erweitern wir nun die Definition der Unabhängigkeit auf eine beliebige Anzahl von Ereignissen: Definition 0.4.3. Sei N eine endliche oder abzählbar unendliche Indexmenge. Seien (An )n∈N Ereignisse aus F. Sei an ∈ {0, 1} und setze A0n := Acn , A1n := An für alle n ∈ N. Die Ereignisse (An )n∈N heissen unabhängig, wenn für jede endliche Teilmenge M ⊂ N gilt h\ i Y (0.4.2) P Aann = P[Aann ] . n∈M n∈M Wir bemerken zu dieser Definition: 1. Mittels vollständiger Induktion über |M | kann gezeigt werden, dass Gleichung (0.4.2) äquivalent ist zu h\ i Y P An = P[An ] . (0.4.3) n∈M n∈M Diese äquivalente Formulierung ist für den expliziten Nachweis der Unabhängigkeit der Ereignisse (An )n∈N offenbar besser geeignet als die Gleichung (0.4.2). 2. Mit dem vorhergehenden Punkt folgt weiter, dass die Definition 0.4.1 mit der allgemeinen Definition 0.4.3 verträglich ist. 3. Seien die Ereignisse (An )n∈N unabhängig. Sei weiter N 0 ⊂ N eine Teilmenge der Indexmenge N . Aus Definition 0.4.3 folgt sofort, dass auch die Teilfamilie (An )n∈N 0 unabhängig ist. Die Gleichungen (0.4.2), beziehungsweise (0.4.3) müssen für jede Teilmenge M ⊂ N verifiziert werden um Unabhängigkeit der Ereignisse (An )n∈N nachzuweisen. Es ist nicht hinreichend die Gleichungen lediglich für M := N zu überprüfen, wie folgendes Beispiel zeigt. Beispiel 0.4.4. Sei Ω := {1, 2, 3, 4, 5, 6} mit der Uniformverteilung versehen, also P[{i}] = 1/6 für alle 1 ≤ i ≤ 6. Es seien die drei Ereignisse A = {1, 2, 3}, B = {2, 4, 6} und C = {1, 2, 4, 5} gegeben. Es folgt P[A ∩ B ∩ C] = P[A ∩ C] = P[B ∩ C] = 1 = P[A]P[B]P[C] , 6 1 = P[A]P[C] , 3 1 = P[B]P[C] . 3 20 Hingegen ist P[A ∩ B] = 1 1 6= = P[A]P[B] . 6 4 Die drei Ereignisse sind somit nicht unabhängig, auch wenn die Gleichung (0.4.3) für M := N = 3 gilt. Nach Punkt 3 der obigen Aufzählung folgt aus der Unabhängigkeit von Ereignissen auch deren paarweise Unabhängigkeit. Die Umkehrung dieser Aussage gilt jedoch nicht, wie das nächste Beispiel deutlich macht. Beispiel 0.4.5. Sei Ω := {1, 2, 3, 4} mit der Uniformverteilung versehen, also P[{i}] = 1/4 für alle 1 ≤ i ≤ 4. Betrachte folgende drei Ereignisse: A := {1, 2}, B := {2, 4} und C := {2, 3}. Dann gilt P[A ∩ B] = P[A ∩ C] = P[B ∩ C] = 1 = P[A]P[B] , 4 1 = P[A]P[C] , 4 1 = P[B]P[C] . 4 Die Ereignisse A, B und C sind also paarweise unabhängig. Es gilt jedoch P[A ∩ B ∩ C] = 1 1 6= = P[A]P[B]P[C] . 4 8 Die drei Ereignisse sind demnach nicht unabhängig, obwohl sie paarweise unabhängig sind. Unabhängigkeit von Zufallsvariablen Zum Begriff der Unabhängigkeit der Zufallsvariablen gelangen wir über die Unabhängigkeit von Ereignissen. Definition 0.4.6. Sei N eine endliche oder abzählbar unendliche Indexmenge. Sei (Xn )n∈N eine Folge von Zufallsvariablen mit Xn : Ω → Rkn . Die Zufallsvariablen heissen unabhängig, wenn für alle Bn ∈ B(Rkn ) die Ereignisse {Xn ∈ Bn }, n ∈ N , unabhängig sind, das heisst wenn für jede endliche Teilmenge M ⊂ N und beliebige Ereignisse Bn ∈ B(Rkn ) gilt: h\ i Y P {Xn ∈ Bn } = P[Xn ∈ Bn ] . (0.4.4) n∈M n∈M Einige Bemerkungen zu dieser Definition: 1. Es kann gezeigt werden, dass eine Folge von Ereignissen (An )n∈N ist genau dann unabhängig ist, wenn die entsprechenden Indikatorvariablen (I[An ])n∈N unabhängig sind. 2. Seien die Zufallsvariablen (Xn )n∈N unabhängig. Sei weiter N 0 ⊂ N eine Teilmenge der Indexmenge N . Aus Definition folgt, dass auch die Teilfamilie (Xn )n∈N 0 unabhängig ist. 3. Sei N eine endliche Indexmenge. Gilt (0.4.4) für alle M ⊂ N , so insbesondere auch h\ i Y P {Xn ∈ Bn } = P[Xn ∈ Bn ] (0.4.5) n∈N n∈N 21 für beliebige Bn ∈ B(Rkn ). Ist (0.4.5) andererseits für alle Bn ∈ B(Rkn ) erfüllt, und M ⊂ N vorgegeben, so können wir Bn := Rkn für alle n ∈ N \M setzen, und erhalten wegen P[Xn ∈ Rkn ] = 1 die Gleichung (0.4.4) zurück. Im endlichen Fall genügt es daher für die Unabhängigkeit der Zufallsvariablen (Xn )n∈N die Gleichung (0.4.4) für M := N zu überprüfen. 4. Die Borelsche σ-Algebren B(Rkn ) wird erzeugt von kn -dimensionalen Intervallen der Form (a, b] := (a1 , b1 ] × · · · × (akn , bkn ] mit ai ∈ R ∪ {−∞}, bi ∈ R und ai < bi für alle 1 ≤ i ≤ kn . Aus des Masstheorie folgt, dass es für die Unabhängigkeit der (Xn )n∈N hinreichend ist, die Gleichung (0.4.4) für solche Intervalle nachzuprüfen, also h\ i Y P {Xn ∈ (a, b]} = P[Xn ∈ (a, b]] . (0.4.6) n∈M n∈M für alle kn -dimensionalen (a, b] zu verifizieren. Ist die Unabhängigkeit endlich vieler diskreter Zufallsvariablen nachzuweisen, ist das folgende Lemma hilfreich: Lemma 0.4.7. Sei (Xn )1≤n≤m eine Familie diskreter Zufallsvariablen auf Ω, wobei Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche sind Die Zufallsvariablen Xn sind genau dann unabhängig, wenn für alle xnin ∈ Xn (Ω) mit n ∈ N gilt: P h \m n=1 i {Xn = xnin } = m Y P[Xn = xnin ] . (0.4.7) n=1 Beweis: Wegen Definition 0.4.6, folgt aus der Unabhängigkeit von (Xn )1≤n≤m offenbar (0.4.7), da {xnin } ∈ B(Rkn ). Sei umgekehrt (0.4.7) erfüllt. Wir zeigen, dass eine Gleichung der Form (0.4.5) gilt. Seien dazu Bn ∈ B(Rkn ). Da die Zufallsvariablen diskret sind, gilt für alle 1 ≤ n ≤ m: [ X P[Xn = xni ] . {Xn = xni } = P[Xn ∈ Bn ] = P i: xni ∈Bn i: xni ∈Bn Nun folgt weiter h \m i P {Xn ∈ Bn } n=1 [ [ ··· ω ∈ Ω | X1 (ω) = x1i , . . . , Xm (ω) = xmj = P i: x1i ∈B1 j: xmj ∈Bm X X ··· P {X1 = x1i } ∩ . . . ∩ {Xm = xmj } = i: x1i ∈B1 = = j: xmj ∈Bm X ··· i: x1i ∈B1 j: xmj ∈Bm X P[X1 = x1i ] · · · i: x1i ∈B1 X P[X1 = x1i ] · · · P[Xm = xmj ] X P[Xm = xmj ] j: xmj ∈Bm = P[X1 ∈ B1 ] · · · P[Xn ∈ Bn ] , wobei im dritten Schritt die Voraussetzung (0.4.7) verwendet wurde. 22 2 Korollar 0.4.8. Sei (Xn )1≤n≤m eine Familie unabhängiger diskreter Zufallsvariablen auf Ω, wobei Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche sind. Dann gilt, falls P[X1 = x1i1 , . . . , Xn−1 = x(n−1)i(n−1) ] > 0 erfüllt ist: P[Xn = xnin | X1 = x1i1 , . . . , Xn−1 = x(n−1)i(n−1) ] = P[Xn = xnin ] . Beweis: Dies folgt direkt aus Definition 0.3.1 und Lemma 0.4.7. 2 Beispiel 0.4.9 (Zweimaliges Würfeln). Sei Ω := {(i, j) ∈ N × N | 1 ≤ i, j ≤ 6} und sei P definiert durch P[{(i, j)}] := 1/36. Wir betrachten zwei Zufallvariablen X1 und X2 auf Ω, definiert durch X1 (i, j) := i, beziehungsweise X2 (i, j) := j. Diese modellieren den ersten, resp. zweiten Würfelwurf. Die beiden Zufallsvariablen sind unabhängig, weil P [{X1 = i} ∩ {X2 = j}] = 1 = P[X1 = i]P[X2 = j] 36 für alle 1 ≤ i, j ≤ 6 gilt. Eine 0.4.7 entsprechende Aussage für unabhängige Zufallsvariablen mit Dichten kann mit Hilfe der Masstheorie ebenfalls bewiesen werden. Der Beweis ist nicht allzu schwierig. Der Satz soll hier dennoch lediglich als Bemerkung formuliert werden: Bemerkung 0.4.10. Seien Xi : Ω → R Zufallsvariablen für alle 1 ≤ i ≤ n. Sei weiter der Zufallsvektor X := (X1 , . . . , Xn ) : Ω → Rn gegeben. Dann gilt: 1. Sind die Xi unabhängig und haben die Dichten fXi , so hat X eine Wahrscheinlichkeitsdichte fX , gegeben durch fX (x1 , . . . , xn ) := fX1 (x1 ) · · · fXn (xn ) . 2. Hat der Zufallsvektor X die eine Dichte der Form fX := fX1 · · · fXn , so sind die Xi unabhängig und besitzen die Dichten fXi . Die nächsten zwei Sätze können in Kombination verwendet werden, um die Unabhängigkeit von Zufallsvariablen auf die Unabhängigkeit anderer Zufallsvariablen zurückzuführen. Satz 0.4.11. Seien Xn : Ω → R, 1 ≤ n ≤ m, unabhängige Zufallsvariablen. Gegeben seien weiter die Zufallsvektoren Yij := (Xij +1 , Xij +2 , . . . , Xij+1 ) : Ω → Rij+1 −ij , wobei 1 ≤ j < q für ein festes q ≤ m, und i1 := 1, iq := m. Dann sind die Zufallsvektoren (Yij )1≤j<q unabhängig. Beweis: Um die Unabhängigkeit der Zufallsvektoren Yij zu zeigen, betrachten wir im Hinblick auf (0.4.6) Intervalle der Form (aij +1 , bij +1 ] × · · · × (aij+1 , bij+1 ] ⊂ Rij+1 −ij . Es gilt dann \ q−1 P Yij ∈ (aij +1 , bij +1 ] × · · · × (aij+1 , bij+1 ] j=1 \ q−1 \ij+1 −ij = P Xij +s ∈ (aij +s , bij +s ] j=1 = q−1 Y j=1 = q−1 Y j=1 P s=1 \ ij+1 −ij s=1 Xij +s ∈ (aij +s , bij +s ] P Yij ∈ (aij +1 , bij +1 ] × · · · × (aij+1 , bij+1 ] . 23 Die Unabhängigkeit ist damit gezeigt. 2 Satz 0.4.12. Seien Xn : Ω → Rkn , 1 ≤ n ≤ m unabhängige Zufallsvariablen. Seien weiter messbare Abbildungen ϕn : Rkn → Rln , für 1 ≤ n ≤ m, gegeben. Dann sind die Zufallsvariablen ϕn (Xn ) : Ω → Rln unabhängig. Beweis: Dies folgt direkt aus (0.4.5) und der Messbarkeit der Abbildungen ϕn . 2 Dieses nützliche Korollar, das im nächsten Abschnitt noch häufig angewendet werden wird, folgt direkt aus den zwei vorhergehenden Sätzen: Korollar 0.4.13. Seien Xn : Ω → R, 1P≤ n ≤ m + 1 unabhängige Zufallsvariablen. m Dann sind die Zufallsvariablen Sm := n=1 Xn und Xm+1 unabhängig. Beweis: Nach Satz 0.4.11 sind (X1 , . . . , Xm ) und Xm unabhängig. Da ϕ(X1 , . . . , Xm ) := Pm X messbar ist, folgt die Behauptung jetzt mit Satz 0.4.12. 2 n n=1 Summen unabhängiger Zufallsvariablen Es soll nun die Frage nach der Verteilung der Summe unabhängiger Zufallsvariablen untersucht werden. Obwohl diese Frage für beliebige endliche Familien unabhängiger Rk -wertiger Zufallsvariablen mittels der Faltung ihrer Verteilungen beantwortet werden kann, werden wir uns hier auf den Fall der diskreten Zufallsvariablen und den Fall der R-wertigen Zufallsvariablen, deren Verteilungen durch Dichten gegeben sind, beschränken. Satz 0.4.14 (Faltungformel im diskreten Fall). Seien X, Y : Ω → Rk unabhängige diskrete Zufallsvariablen. Sei (xi )i≥1 eine Aufzählung des Wertebereichs von X. Dann gilt für z ∈ Rk P[X + Y = z] = ∞ X P[X = xi ]P[Y = z − xi ] . i=1 Beweis: Der Satz folgt direkt aus der Formel der totalen Wahrscheinlichkeit 0.3.3: P[X + Y = z] = = = ∞ X i=1 ∞ X i=1 ∞ X P[X = xi ]P[X + Y = z | X = xi ] P[X = xi ]P[Y = z − xi | X = xi ] P[X = xi ]P[Y = z − xi ] , i=1 wobei der letzte Schritt wegen der Unabhängigkeit der X und Y mit Korollar 0.4.8 folgt. 2 Satz 0.4.15 (Faltungsformel im stetigen Fall). Seien X, Y : Ω → R unabhängige Zufallsvariablen mit Dichten fX , resp. fY . Dann hat die Zufallsvariable X + Y eine Dichte fX+Y , gegeben durch Z +∞ fX (x)fY (z − x) dx fX+Y (z) = −∞ für z ∈ R. 24 Beweis: Da die Zufallsvariablen X und Y unabhängig sind, hat der Zufallsvektor (X, Y ) : Ω → R2 wegen Bemerkung 0.4.10 die Dichte f(X,Y ) = fX fY . Ist z ∈ R fest gegeben, so gilt X(ω) + Y (ω) ≤ z genau dann, wenn (X, Y )(ω) ∈ B := {(x, y) ∈ R2 | x + y ≤ z}. Mit Gleichung (0.1.9) folgt dann Z Z P[X + Y ≤ z] = f(X,Y ) (x, y) d(x, y) fX (x)fY (y) d(x, y) , B B und mit dem Transformationssatz für integrierbare Funktionen und der Transformation (x, y) 7→ (x, y − x) weiter Z Z fX (x)fY (y) d(x, y) = fX (x)fY (y − x) d(x, y) , B0 B wobei B 0 := {(x, y) ∈ R2 | y ≤ z} = (−∞, +∞) × (−∞, z]. Mit dem Satz von Fubini erhalten wir schliesslich Z Z z Z +∞ fX (x)fY (y − x) d(x, y) = fX (x)fY (y − x) dx dy . B0 −∞ −∞ 2 Betrachten wir einige Beispiele: Beispiel 0.4.16. Seien Xi : Ω → {0, 1}, 1 ≤ i ≤ n + 1,P unabhängige Be(p)-verteilte n Zufallsvariablen. Dann gilt Sn ∼ Bi(n, p), wobei Sn := i=1 Xi . Wir beweisen dies durch vollständige Induktion über n. Für n = 1 gilt S1 = X1 ∼ Be(p) = Bi(1, p). Sei daher n > 1 und Sn ∼ Bi(n, p). Wegen Korollar 0.4.13 sind Sn und Xn+1 unabhängig. Daher folgt mit Satz 0.4.14 für alle 1 ≤ k ≤ n + 1: P[Sn+1 = k] = P[Sn + Xn+1 = k] = P[Xn+1 = 0]P[Sn = k] + P[Xn+1 = 1]P[Sn = k − 1] n k n = (1 − p) p (1 − p)n−k + p pk−1 (1 − p)n−k+1 k k−1 n n + pk (1 − p)n+1−k = k k−1 n + 1 n+1 = p (1 − p)n+1−k . k Beispiel 0.4.17. Seien X, Y : Ω → Z+ unabhängige Zufallsvariablen, wobei X ∼ Po(λ) und Y ∼ Po(µ). Dann ist die Summe dieser Zufallsvariablen wieder Poissonverteilt: X + Y ∼ Po(λ + µ). Wir verwenden für den Beweis wiederum die Faltungsformel 0.4.14. Für k ∈ Z+ gilt so: P[X + Y = k] = = = = ∞ X P[X = i]P[Y = k − i] i=0 ∞ X e−λ λi e−µ µk−i i! (k − i)! i=0 ∞ e−(λ+µ) X k i k−i λµ k! i i=0 e−(λ+µ) (λ + µ)k . k! 25 Mit analogen Argumenten wie bei den ersten beiden Beispielen lässt sich zeigen: 1. Die Summe von n unabhängigen Z+ -wertigen Ge(p)-verteilten Zufallsvariablen ist NB(n, p)-verteilt. 2. Die Summe von n unabhängigen NE(λ)-verteilten Zufallsvariablen ist Γ(n, λ)verteilt. 3. Sind X ∼ N (µ1 , σ12 ) und Y ∼ N (µ2 , σ22 ) unbhängige Zufallsvaraiblen, so ist X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ). Die Summen unabhängiger normalverteilter Zufallsvariablen sind also wieder normalverteilt. Bei den beiden folgenden, ein wenig umfangreicheren Beispielen kommt die Multinomialverteilung ins Spiel: Pd Beispiel 0.4.18. Seien für 1 ≤ j ≤ d Zahlen pj ≥ 0 mit j=1 pj = 1 gegeben. Seien weiter unabhängige Zufallsvektoren Xi : Ω → Zd+ , 1 ≤ i ≤ n, gegeben, deren Verteilung durch ( 0 wenn z 6= ej für alle j ∈ {1, . . . , d} P[Xi = z] = pj wenn z = ej für ein j ∈ {1, . . . , d} definiert ist. Hierbei sei ej der j-te Einheitsvektor in Zd+ . Pn Wir zeigen mit vollständiger Induktion über n, dass die Summe Sn := i=1 Xi MNd (n; p1 , . . . , pd )-verteilt ist, also P[Sn = (n1 , . . . , nd )] = ( 0 Pd für n! n1 !···nd ! nj j=1 pj Qd j=1 Pd für j=1 nj 6= n nj = n Sei n = 1. In diesem Fall ist (n1 , . . . , nd ) = ej für ein 1 ≤ j ≤ d, äquivalent zu Pd Pd k=1 nk = 1. Wenn k=1 nk 6= 1 gilt, so haben wir nach Definition der Xi P[S1 = (n1 , . . . , nd )] = P[X1 = (n1 , . . . , nd )] = 0 . Pd Wenn k=1 nk = 1 gilt, so existiert ein j mit nj = 1 und nk = 0 für alle k mit k 6= j. Hier haben wir P[S1 = (n1 , . . . , nd )] = P[X1 = (n1 , . . . , nd )] = pj = Y 1! p0k p1j . 1!0! · · · 0! k6=j Sei nun n > 1. Es gilt mit Korollar 0.4.13 Satz 0.4.14 folgt P[Sn = (n1 , . . . , nd )] = P[Sn−1 + Xn = (n1 , . . . , nd )] ∞ X = P[Xn = xi ]P[Sn−1 = (n1 , . . . , nd ) − xj ] i=1 = d X pj P[Sn−1 = (n1 , . . . , nd ) − ej ] . (0.4.8) j=1 Die Induktionsvoraussetzung für Sn−1 besagt, dass P[Sn−1 = (n1 , . . . , nd ) − ej ] = 0 Pd für alle 1 ≤ j ≤ d genau dann gilt, wenn k=1 nk − 1 6= n − 1. Dies ist äquivalent Pd zu k=1 nk 6= n. Weiter erhält man in diesem Fall wegen (0.4.8) P[Sn = (n1 , . . . , nd )] = 0 . 26 Ist andererseits Pd k=1 P[Sn = (n1 , . . . , nd )] nk − 1 = n − 1, resp. = p1 Pd k=1 nk = n, so erhalten wir Y n (n − 1)! pk k pn1 1 −1 (n1 − 1)!n2 ! · · · nd ! k6=1 Y n n −1 (n − 1)! + · · · + pd pk k pd d n1 ! · · · nd−1 !(nd − 1)! k6=d = d d Y (n − 1)!(n1 + · · · + nd ) Y nk n! pk = pnk k . n1 ! · · · n d ! n 1 ! · · · nd ! k=1 k=1 Damit ist die Behauptung bewiesen. Beispiel 0.4.19. Seien (Xi )1≤i≤d unabhängige Poisson-verteilte Zufallsvariablen, Pd Xi ∼ Po(λi ) für alle 1 ≤ i ≤ d. Wir setzen λ := i=1 λi . Sei weiter n ∈ N fest. Was ist die Verteilung des Zufallsverktors (X1 , . . . , Xd ) : Ω → Zd+ unter der BedinPd gung i=1 Xi = n? Pd Beispiel 0.4.17 und Korollar 0.4.13 zeigen, dass i=1 Xi ∼ Po(λ) gilt. Daher ist X d e−λ λn >0, c := P Xi = n = i=1 n! Pd und die bedingte Wahrscheinlichkeit P (X1 , . . . , Xd ) = (n1 , . . . , nd ) i=1 Xi = n für alle Tupel (n1 , . . . , nd ) ∈ Zd+ wohldefiniert. Pd Wir wählen nun (n1 , . . . , nd ) ∈ Zd+ mit i=1 ni = n. Dann gilt: Xd P (X1 , . . . , Xd ) = (n1 , . . . , nd ) Xi = n i=1 Xd 1 = P (X1 , . . . , Xd ) = (n1 , . . . , nd ), Xi = n i=1 c = = = d 1 1 Y P[X1 = n1 , . . . , Xd = nd ] = P[Xi = ni ] c c i=1 n d d 1 Y e−λi λni i 1 −λ n Y λi i 1 = e λ c i=1 ni ! c λ ni ! i=1 n n d d Y 1 e−λ λn Y λi i n! λi i n! = . c n! i=1 λ ni ! λ ni ! i=1 Pd Ist (n1 , . . . , nd ) ∈ Zd+ mit i=1 ni 6= n, so ist Xd P (X1 , . . . , Xd ) = (n1 , . . . , nd ) i=1 Xi = n = 0 . Damit gilt für alle (n1 , . . . , nd ) ∈ Zd+ die Gleichung Xd P (X1 , . . . , Xd ) = (n1 , . . . , nd ) Xi = n = P[Y = (n1 , . . . , nd )] , i=1 wobei Y : Ω → Zd+ , Y ∼ MNd (n; λ1 /λ, . . . , λd /λ). Mit anderen Worten: Die Verteilung des Zufallsvektors (X1 , . . . , Xd ) von Po(λi )Pd verteilten Zufallsvariablen, unter der Bedingung i=1 Xi = n, ist die Multinomialverteilung MNd (n; λ1 /λ, . . . , λd /λ). 27 0.5 Der Erwartungswert Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt. Definition 0.5.1. Sei X : Ω → R+ eine nicht-negative Zufallsvariable. Der Erwartungwert von X wird definiert als Z E(X) := X dP ∈ R+ ∪ {∞} . (0.5.1) Ω Ist X eine nicht-negative diskrete Zufallsvariable, so erhalten wir gerade X E(X) = X(ω) P[{ω}] . (0.5.2) ω∈Ω Aus (0.5.1) folgt mittels des Transformationssatzes für Masse Z E(X) = x dPX , (0.5.3) [0,∞) beziehungsweise im diskreten Fall aus (0.5.2) E(X) = ∞ X xi P[X = xi ] , (0.5.4) i=1 wobei (xi )i≥1 eine Abzählung des Wertebereichs von X ist. Ist die Verteilung PX von X durch eine Dichte fX bestimmt, so folgt (0.5.3) mit Transformationssatz für Masse mit Dichten weiter Z ∞ E(X) = xfX (x) dx . (0.5.5) 0 Bemerkung 0.5.2. Der Erwarungswert von X ≥ 0, wobei X diskret ist oder eine Dichte besitzt, kann auch in der Form Z ∞ Z ∞ E(X) = P[X > x] dx = (1 − FX (x)) dx 0 0 geschrieben werden. Hierbei bezeichnet FX die Verteilungsfunktion von X. Im diskreten Fall mit X(Ω) = {x1 , x2 , x3 , . . .} sieht man dies durch Z ∞ Z ∞ X P[X > x] dx = P[X = xi ] dx 0 0 = = = Z i: xi >x ∞ 0 ∞ X i=1 ∞ X X∞ i=1 1{xi >x} P[X = xi ] dx P[X = xi ] Z ∞ 0 1{xi >x} dx xi P[X = xi ] . i=1 Hat X andererseits eine Dichte fX , so folgt die Aussage durch partielle Integration Z ∞ Z ∞ ∞ E(X) := xfX (x) dx = [xFX (x)]0 − FX (x) dx 0 0 und der Eigenschaft, dass ∞ [xFX (x)]0 = lim xFX (x) = lim x = x→∞ x→∞ 28 Z 0 ∞ 1 dx . Betrachten wir nun einige Beispiele von Erwartungswerten nicht-negativer Zufallvariablen. Beispiel 0.5.3. Sei X : Ω → {0, 1} Be(p)-verteilt. In diesem Fall folgt mit (0.5.4) E(X) = 0 · P[X = 0] + 1 · P[X = 1] = p . (0.5.6) Beispiel 0.5.4. Sei Y : Ω → Z+ Po(λ)-verteilt. Dann gilt wegen (0.5.4) = E(X) ∞ X i P[Y = i] = i=0 ∞ X ie−λ i=1 λi i! ∞ ∞ X X λi λi−1 = λe−λ = λe−λ (i − 1)! i! i=1 i=0 = λe−λ eλ = λ . Beispiel 0.5.5 (Erwartungswert unendlich). Sei Z : Ω → Z+ . Sei −1 X ∞ 1 c := . n=0 1 + n2 Es gilt c < ∞. Definiere weiter P[Z = n] = PZ [{n}] := c 1 + n2 für alle n ∈ Z+ . Wegen der Wahl von c ist PZ eine wohldefinierte Wahrscheinlichkeit auf 2Z+ . Für den Erwartungswert von Z gilt nun mit (0.5.4) E(Z) = ∞ X n=0 n ∞ X c = 1 + n2 n=1 1 n ∞ X c c = ∞, ≥ 1 + n +n n=1 somit E(Z) = ∞. Bisher wurden lediglich nicht-negative Zufallsvariablen und deren Erwartungswerte betrachtet. Die Definition des Erwartungswerts für eine beliebige reell-wertige Zufallsvariablen wird zurückgeführt auf die Definition für nicht-negative Zufallsvariablen. Man definiert für eine Zufallsvariable X X + := max(X, 0) und X − := min(X, 0) . Sowohl X + als auch X − sind Zufallsvariablen. Offenbar ist X + ≥ 0, X − ≤ 0, X = X + + X − und |X| = X + − X − . Definition 0.5.6. Sei X eine reelle Zufallsvariable. Wir sagen der Erwartungswert von X existiere, wenn E(X + ) < ∞ oder E(−X − ) < ∞ gilt. In einem solchen Fall wird der Erwartungswert von X definiert durch E(X) := E(X + ) − E(−X − ) ∈ R ∪ {±∞} . Die Existenz des Erwartungswerts gemäss Definition 0.5.6 besagt, dass dieser als Wert in R ∪ {±∞} gegeben ist. Eine hinreichende Bedingung für die Existenz des Erwartungswerts von X ist E(|X|) < ∞ . Denn es gilt 0 ≤ X + ≤ |X| und 0 ≤ −X − ≤ |X| und somit folgt mit Definition 0.5.1 wegen der Monotonie des Integrals E(X + ) ≤ E(|X|) < ∞ und E(−X − ) ≤ E(|X|) < ∞ . 29 Die Bedingung ist also äquivalent zur Intergrierbarkeit von X. Es gilt dann Z E(X) = X dP . Ω Der Erwartungswert ist hier als (endliche) Zahl in R gegeben. Mittels Transformationen erhalten wir die (0.5.2) bis (0.5.5) entsprechenden Gleichungen im allgemeinen Fall. Also beispielsweise Z +∞ E(X) = xfX (x) dx , (0.5.7) −∞ wenn die Verteilung von X durch eine Dichte fX festgelegt ist. Wir werden im folgenden, wenn nicht anders erwähnt, stets die Bedingung E(|X|) < ∞ voraussetzen. Bemerkung 0.5.7. Ist eine Zufallsvariable X : Ω → R und eine messbare Funktion ϕ : R → R gegeben, so folgt aus dem Transformationssatz, dass der Erwartungswert von ϕ(X) genau dann existiert, wenn die Funktion ϕ PX -integrierbar ist, und dass in diesem Fall gilt Z Z E(ϕ(X)) = ϕ(X) dP = Ω ϕ dPX . (0.5.8) R Im diskreten Fall haben wir so gerade E(ϕ(X)) = ∞ X ϕ(xi )P[X = xi ] . i=1 Ist die Verteilung von X durch eine Dichte fX gegeben, so erhält man aus (0.5.8)durch eine weitere Transformation Z +∞ E(ϕ(X)) = ϕ(x)fX (x) dx . (0.5.9) −∞ Berechnen wir nun einige Erwartungswerte im allgemeinen Fall: Beispiel 0.5.8. Sei X : Ω → R mit X ∼ N (0, 1). Wir zeigen zunächst, dass E(|X|) < ∞. Als Verteilungsfunktion von |X| erhält man F|X| (x) = 2Φ0,1 (x) − 1 , für x ∈ R, und als Dichte somit f|X| (x) = 0 2ϕ0,1 (x) für für x<0 . x≥0 Die Berechnung von E(|X|) folgt analogen Argumenten, wie sie im Beispiel am Ende von Abschnitt 0.2 verwendet wurden: Z ∞ Z ∞ x2 2 x 2ϕ0,1 (x) dx = √ xe− 2 dx E(|X|) = 2π 0 0 2 2 h − x2 i∞ −e 2 =√ <∞. = √ 0 2π 2π Der Erwartungswert von X existiert somit. Es gilt weiter Z +∞ Z +∞ h i+∞ x2 x2 1 E(X) = xϕ0,1 (x) dx = √ xe− 2 dx = −e− 2 =0. −∞ 2π −∞ −∞ 30 Beispiel 0.5.9. Sei Y : Ω → R eine beliebige endliche reell-wertige Zufallsvariable mit Wertebereich Y (Ω) = {y1 , y2 , . . . , yn } und P[Y = yi ] := n−1 für alle 1 ≤ i ≤ n. Da Y nur endlich viele Werte annimmt, is der Erwartungswert von Y im Sinne von Definition 0.5.6 existent, und wir haben E(Y ) = n X n yi P[Y = yi ] = i=1 1X yi =: ȳ . n i=1 Der Erwartungswert entspricht also genau dem arithmetischen Mittel der Werte von Y . Beispiel 0.5.10 (Erwartungswert nicht existent). Sei Z : Ω → R eine C(0, 1)verteilte Zufallsvariable. Der Erwartungswert von Z existiert im Sinne der Definition 0.5.6 nicht: Die Dichte der Standard-Cauchy-Verteilung ist nach (0.1.10) f0,1 (x) := 1 . π(1 + x2 ) Damit gilt wegen Gleichung (0.5.9) Z +∞ Z E(X + ) = max(x, 0)f0,1 (x) dx = −∞ = = ∞ xf0,1 (x) dx 0 Z Z ∞ 1 ∞ x 1 1 = dy 2 π 0 1+x 2π 0 1 + y 1 [log(1 + y)]∞ 0 =∞, 2π wobei die Substitution y = x2 verwendet wurde. Genauso erhält man E(−X − ) = ∞. Satz 0.5.11 (Eigenschaften des Erwartungswerts). Seien X und Y Zufallsvariablen mit E(|X|) < ∞, beziehungsweise E(|Y |) < ∞. Sei weiter c ∈ R eine Konstante. Dann gilt: i) Ist X ≥ 0 P-fast sicher, so gilt E(X) ≥ 0. ii) |E(X)| ≤ E(|X|). iii) E(cX) = c E(X), insb. E(c) = c. iv) E(X + Y ) = E(X) + E(Y ). v) Ist X ≥ Y P-fast sicher, so folgt E(X) ≥ E(Y ). vi) Sind X und Y unabhängig, so gilt E(|XY |) < ∞ und weiter E(XY ) = E(X)E(Y ). Beweis: Die Aussagen i) bis iv) folgen aus der Definition des Erwartungswerts als Integral bezüglich des Wahrscheinlichkeitsmasses P. Die Aussage v) kann auf i) zurückgeführt werden: Es gilt X − Y ≥ 0 P-fast sicher, und daher E(X − Y ) ≥ 0. Danach schliesst man mit iii) und iv). Die Aussage vi) NOCH ZU ZEIGEN...... 2 Bemerkung 0.5.12. In Aussage v) von Satz 0.5.11 ist es hinreichend E(|Y |) < ∞ vorauszusetzen und keine Bedingung an den Erwartungswert von X zu stellen. Denn aus X ≥ Y folgt −X − ≤ −Y − ≤ |Y | und weiter E(−X − ) ≤ E(|Y |) < ∞. Nach Definition 0.5.6 existiert also der Erwartungswert von X. Im Fall E(X) = ∞ gilt dann natürlich E(X) ≥ E(Y ). 31 Beispiel 0.5.13. Die Umkehrung der Aussage in Satz 0.5.11 vi) gilt nicht, wie folgende Situation zeigt: Wir betrachten eine Zufallsvariable X, die die Werte −1, 0 und 1 mit je der Wahrscheinlichkeit 1/3 annimmt. Sei weiter die Zufallsvariable Y := X 2 gegeben. Diese nimmt offenbar den Wert 0 mit der Wahrscheinlichkeit 1/3 und den Wert 1 mit der Wahrscheinlichkeit 2/3 an. Weil P[X = 1, Y = 0] = 0 6= 1 = P[X = 1]P[Y = 0] 9 gilt, sind die Zufallsvariablen nicht unabhängig. Es gilt jedoch E(X) = 0, E(Y ) = 2/3 und E(XY ) = E(X 3 ) = 0, also E(X)E(Y ) = E(XY ) . Pn Beispiel 0.5.14. Sei Sn ∼ Bi(n, p), das heisst Sn = i=1 Xi , wobei Xi ∼ Be(p) für 1 ≤ i ≤ n unabhängige Bernoulli-verteilte Zufallsvariablen sind. Mit Aussage iv) von Satz 0.5.11 erhalten wir unter Beachtung von (0.5.6) E(Sn ) = n X E(Xi ) = np . i=1 Beispiel 0.5.15. Aus Beispiel 0.5.8 wissen wir, dass für eine standardnormalverteilte Zufallsvariable X gilt E(X) = 0. Wir betrachten jetzt für µ ∈ R und σ ∈ (0, ∞) die Zufallvariable Y := σX + µ ∼ N (µ, σ 2 ). Mit Satz 0.5.11 iii) und iv) folgt E(Y ) = σE(X) + µ = µ . Satz 0.5.16 (Jensen-Ungleichung). Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞. Sei f : R → R eine konvexe Funktion. Dann ist f (X) eine Zufallsvariable. Existiert der Erwartungswert von f (X), so gilt f (E(X)) ≤ E(f (X)) . Beweis: Sei a ∈ R beliebig aber fest. Es kann gezeigt werden, dass die Konvexität 0 (a) und rechtsseitigen Ableitung von f die Existent der linksseitigen Ableitung f− 0 f+ (a) nach sich zieht. Die Funktion f ist daher stetig und somit messbar, f (X) also eine wohldefinierte Zufallsvariable. Es gilt für alle x ∈ R 0 f (x) ≥ f (a) + (x − a)f+ (a) , 0 (a). Existiert und insbesondere für alle ω ∈ Ω f (X(ω)) ≥ f (a) + (X(ω) − a)f+ E(f (X)), so impliziert Satz 0.5.11 v), iii) und iv) und Bemerkung 0.5.12 0 E(f (X)) ≥ f (a) + (E(X) − a)f+ (a) . Mit a := E(X) folgt die Behauptung. 2 Einen wichtigen Spezialfall der Jensenschen Ungleichung erhält man für f (x) := x2 : E(X 2 ) = E(|X|2 ) ≥ E(|X|). Existiert also der Erwartungswert von X 2 als endlicher Wert, so gilt dasselbe für den Erwartungswert von X. Mit Hilfe der Jensen-Ungleichung kann gezeigt werden, dass für eine Zufallsvariable X die Funktion g : [1, ∞) → [0, ∞], definiert durch g(r) := E(|X|r )1/r , monoton wachsend ist. Sind insbesondere m, n ∈ N mit m < n, so folgt aus E(|X n |) < ∞ auch E(|X m |) < ∞. 32 Beispiel 0.5.17. Dieses Beispiel zeigt, dass von E(|X|) < ∞ nicht auf E(X 2 ) < ∞ geschlossen werden kann. Zugleich zeigt es, dass die Endlichkeitsaussage in Satz 0.5.11 vi) nicht unbedingt mehr gilt, falls die Voraussetzung der Unabhängigkeit fallengelassen wird. Dazu sei eine Zufallsvariable mit der Dichte 2x−3 für x ≥ 1 f (x) := 0 für x < 1 Dann gilt E(|X|) = E(X) = ∞ Z x 2x−3 dx = 2 < ∞ , 1 aber mit Y := X erhält man 2 E(|XY |) = E(X ) = Z ∞ x2 2x−3 = ∞ . 1 Satz 0.5.18 (Cauchy-Schwarz-Ungleichung). Seien X und Y Zufallsvariablen auf Ω mit E(X 2 ) < ∞ und E(Y 2 ) < ∞. Dann gilt E(|XY |) < ∞ und weiter E(XY )2 ≤ E(X 2 )E(Y 2 ) . Beweis: Für alle ω ∈ Ω gilt |X(ω)Y (ω)| ≤ 1 (X(ω)2 + Y (ω)2 ) . 2 Mit Satz 0.5.11 v) und iv) und den Voraussetzungen erhalten wir E(|XY |) ≤ 1 (E(X 2 ) + E(Y 2 )) < ∞ . 2 Sei a ∈ R beliebig. Weil (X − aY )2 ≥ 0 gilt, können wir mit Satz 0.5.11 iii) und iv) abschätzen, dass E(X 2 ) − 2a E(XY ) + a2 E(Y 2 ) = E(X 2 − 2aXY + a2 Y 2 ) = E((X − aY )2 ) ≥ 0 . (0.5.10) Es werden jetzt zwei Fälle unterschieden: Fall 1: Sei E(X 2 ) 6= 0 oder E(Y 2 ) 6= 0. Wir wählen ohne Einschränkung E(Y 2 ) 6= 0 und setzen E(XY ) a := . E(Y 2 ) Mit (0.5.10) folgt dann E(X 2 ) − E(XY ) ≥0. E(Y 2 ) Die Annahme E(X 2 ) führt mittels einer Symmetrieüberlegung zum selben Ziel. Fall 2: Sei E(X 2 ) = E(Y 2 ) = 0. Dann gilt wegen (0.5.10) −2a E(XY ) ≥ 0 . Dies ist jedoch nur wenn E(XY ) = 0 für alle a ∈ R erfüllbar. Die Cauchy-SchwarzUngleichung gilt also auch in diesem Fall. 2 Bemerkung 0.5.19. Mit Hilfe von Gleichung (0.5.10) kann man sich überlegen, dass in der Cauchy-Schwarz-Ungleichung genau dann Gleichheit gilt, wenn X und Y P-fast sicher linear abhängig sind, nämlich X = aY . 33 Anwedung des Erwartungswerts: Abschätzen von Ramsey-Zahlen In diesem Abschnitt werden wir Färbungen von Graphen betrachten. Was ist darunter anschaulich zu verstehen? Einen Graphen in der Ebene kann man sich vorstellen als eine endliche Menge von Punkten, den Knoten, wobei je zwei Punkte durch eine gerade Linie, eine Kante, verbunden sein können oder nicht. Vollständige Graphen sind solche, bei denen jeder Knoten mit jedem anderen Knoten durch eine Kante verbunden ist. Bei einer 2-Färbung wird jede Kante eines Graphen mit einer aus zwei möglichen Farben versehen. Betrachten wir einen vollständigen Graphen mit n Knoten, so können wir uns fragen, wie gross die kleinste Anzahl n von Punkten ist, so dass wir bei jeder möglichen 2-Färbung des Graphen stets ein Dreieck mit drei gleichfarbigen Seiten erhalten. Um diese Frage zumindest näherungsweise zu beantworten, formalisieren wir die oben eingeführten Begriffe. Da bei einem vollständigen Graphen jeder Knoten mit jedem anderen Knoten verbunden ist, liefert eine Angabe der Kanten keine weitere Information, wir können also definieren: Definition 0.5.20. Ein vollständiger Graph mit n Knoten in R2 ist eine endliche Menge Kn := {xi ∈ R2 | 1 ≤ i ≤ n} von Elementen in R2 . Wir nennen die xi für alle 1 ≤ i ≤ n Knoten und die Mengen {xi , xj }, wobei i 6= j für alle 1 ≤ i, j ≤ n die Kanten des Graphen. Mit En := {xi , xj } 1 ≤ i, j ≤ n, i 6= j bezeichen die Menge der Kanten des Graphen Kn . Definition 0.5.21. Eine 2-Färbung f eines vollständigen Graphen Kn ⊂ R2 ist eine Abbildung f : En → {0, 1} . Definition 0.5.22. Ist ein vollständiger Graph Kn := {xi ∈ R2 | 1 ≤ i ≤ n} gegeben, so sagen wir Kn enthalte ein monochromes k-Eck, wenn es einen vollständigen Graphen Lk ⊂ Kn gibt, für dessen Kantenmenge Ek entweder f (Ek ) = 0 oder f (Ek ) = 1 gilt. Definition 0.5.23. Die Zahl Rk,k := min{n ∈ N | jede 2-Färbung von des Graphen Kn enthält ein monochromes k-Eck} die k-te Ramsey-Zahl. Es kann gezeigt werden, dass R3,3 = 6 und R4,4 = 18 ist. Die genauen Werte der Ramsey-Zahlen Rk,k für k ≥ 5 sind bis heute nicht bekannt. Zumindest kennt man Abschätzungen, die jedoch für mit wachsendem k immer ungenauer werden: 43 ≤ R5,5 ≤ 49, 102 ≤ R6,6 ≤ 165, 798 ≤ R10,10 ≤ 23556. Eine von Paul Erdős entdeckte Methode eine untere Grenze für die Zahlen Rk,k zu bestimmen verwendet Methoden der Wahrscheinlichkeitstheorie, insbesondere den Begriff des Erwartungswerts. Diese soll im Beweis des folgenden Satzes vorgestellt werden. 34 Satz 0.5.24 (Erdős). Für jedes k ≥ 3 ist die Ramsey-Zahl Rk,k grösser als 2k/2 . Beweis: Sei also ein vollständiger Graph Kn ⊂ R2 mit n Knoten und der Kanten(K) menge En gegeben. Sei weiter k ≥ 3 beliebig, aber fest. Wir betrachten nun eine zufällige Färbung f von Kn und untersuchen die aus dieser Färbung resultierende Anzahl wf monochromer k-Ecke in Kn . Um f und wf zu modellieren, konstruieren wir Zufallsvariablen auf einem geeigneten Wahrscheinlichkeitsraum (Ω, F, P). Zunächst betrachten für jede Kante e ∈ En die Be(1/2)verteilte Zufallsvariable f (e) : Ω → {0, 1} . (K) Die Werte der |En | = n2 Zufallsvariablen f (e) bestimmen eindeutig eine Färbung der Graphen Kn . Die zufällige Zahl der k-Ecke wird dann durch die Zufallsvariable n Wf : Ω → 0, 1, 2, . . . , k gegeben, wobei hn o n oi X (L) (L) Wf (ω) := I ω | f (e)(ω) = 1 ∀e ∈ Ek ∪ ω | f (e)(ω) = 1 ∀e ∈ Ek , Lk ⊂Kn wobei über alle vollständigen Graphen Lk ⊂ Kn mit k Knoten und Kantenmengen (L) Ek summiert wird. Ist im Extremfall der gesamte Graph Kn monochrom, so ist offenbar jede k-elementige Teilmenge von Kn ein monochromes k-Eck. Das heisst Wf kann höchstens den Wert nk annehmen. Wir schätzen nun den Erwartungswert von Wf ab. Es gilt mit k ≥ 3: X (L) (L) E(Wf ) = E I[{f (e) = 1 ∀e ∈ Ek } ∪ {f (e) = 1 ∀e ∈ Ek }] Lk ⊂Kn i h i X h (L) (L) P {f (e) = 1 ∀e ∈ Ek } + P {f (e) = 1 ∀e ∈ Ek } = Lk ⊂Kn = 2 X h P {f (e) = 1 ∀e ∈ Lk ⊂Kn ≤ 2 nk 2k i (L) Ek } (k2) n 1 =2 2 k (k2) 2 1 = nk 21−k(k−1)/2−k ≤ nk 2k/2−k(k−1)/2−k = nk 2−k /2 2 2 Ist nun n < 2k/2 , so gilt nk 2−k /2 < 1 und wegen obiger Abschätzung auch E(Wf ) < 1. Wegen der Monotonie des Erwartungswerts, Satz 0.5.11 v), haben wir E(Wf ) ≥ 1, falls Wf ≥ 1 P-fast sicher gilt. Daher muss ein ω ∈ Ω mit P[{ω}] > 0 und Wf (ω) < 1, also Wf (ω) = 0, existieren. Somit gibt es für jeden vollständigen Graphen Lk ⊂ Kn mit k Knoten Kanten (L) e1 , e2 ∈ Ek , so dass f (e1 )(ω) = 0 und f (e2 )(ω) = 1. Wir haben also eine Färbung f von Kn gefunden, die kein monochromes k-Eck enthält. Somit muss Rk,k ≥ 2k/2 gelten. 2 Varianz, Kovarianz und Korrelation Definition 0.5.25. Sei X eine Zufallsvariable mit existierendem Erwartungswert. Dann heisst Var(X) := E((X − E(X))2 ) ∈ [0, ∞] 35 die Varianz von X. Weiter nennt man SA(X) := p Var(X) die Standardabweichung von X. Die Varianz von X ist genau dann endlich, wenn E(X 2 ) < ∞. Denn ist E(X 2 ) endlich, so als Folge der Jensen-Ungleichung auch E(X) und nach Definition dann auch die Varianz, wenn die Linearität des Erwartungswerts verwendet wird. Ist umgekehrt Var(X) < ∞, so muss notwendigerweise auch E(X) eine endliche Zahl sein. Dann ist aber E(X 2 ) = E((X − E(X) + E(X))2 ) = Var(X) + E(X)2 < ∞ . Satz 0.5.26 (Eigenschaften der Varianz und Standardabweichung). Sei X eine Zufallsvariable mit E(X 2 ) < ∞ und c ∈ R eine Konstante. Dann gilt: i) Var(X) = E(X 2 ) − E(X)2 . ii) SA(X) ≥ E(|X − E(X)|). iii) Var(X + c) = Var(X). iv) Var(cX) = c2 Var(X). v) SA(cX) = c SA(X). vi) Var(X) ≤ E((X + c)2 ). Beweis: Mit E(X 2 ) < ∞ folgt auch E(|X|) < ∞ wegen der Jensen-Ungleichung. Die Aussagen ergeben sich daher aus den Eigenschaften des Erwartungswerts, insbesondere Satz 0.5.11. 2 Beispiel 0.5.27. Sei X : Ω → {0, 1} Be(p)-verteilt. Wir wissen bereits, dass E(X) = p. Offenbar ist auch X 2 ∼ Be(p) und daher E(X 2 ) = p. Für die Varainz von X erhält man nun mit Aussage i) von Satz 0.5.26 Var(X) = p − p2 = p(1 − p) . Beispiel 0.5.28. Sei X eine Po(λ)-verteilte Zufallsvariable. Wir berechnen zunächst den Erwartungswert der Zufallsvariablen X(X − 1): E(X(X − 1)) = ∞ X i(i − 1)eλ i=0 λi i! = λ2 ∞ X eλ λ( i − 2) (i − 2)! = λ2 ∞ X eλ λi = λ2 i! i=2 i=0 Da der Erwartungswert der Zufallsvariable X bereits als λ bekannt ist, erhalten wir jetzt den Erwartungswert von X 2 durch λ + λ2 = E(X) + E(X(X − 1)) = E(X + X(X − 1)) = E(X 2 ) . Die Varianz von X ist dann Var(X) = E(X 2 ) − E(X)2 = λ + λ2 − λ2 = λ , das heisst identisch mit dem Erwartungswert. 36 Beispiel 0.5.29. Sei X ∼ N (0, 1). Wenn gezeigt werden kann, dass E(X 2 ) < ∞, so gilt nach Satz 0.5.26 i) Var(X) = E(X 2 ) − E(X)2 . Da bereits gezeigt wurde, dass E(X) = 0, gilt dann gerade Var(X) = E(X 2 ). Der Erwartungswert E(X 2 ) kann mit partieller Integration berechnet werden: Z 2 E(X ) = x2 ϕ0,1 (X) dx R Z −x2 1 x · xe 2 dx = √ 2π R Z i+∞ −x2 −x2 1 h 1 1 · e 2 dx −xe 2 +√ = √ −∞ 2π R 2π Z = 0 + ϕ0,1 (X) dx = 1 . R Die Varianz einer Standard-normalverteilten Zufallsavarablen ist also genau 1. Ist Y ∼ N (µ, σ 2 ), so können wir schreiben Y = σX + µ, wobei X ∼ N (0, 1). Nach Satz 0.5.26 iii) und iv) gilt Var(Y ) = Var(σX + µ) = σ 2 Var(X) = σ 2 . Beispiel 0.5.30. Sei Z : Ω → R eine beliebige endliche reell-wertige Zufallsvariable mit Wertebereich Z(Ω) = {z1 , z2 , . . . , zn } und P[Z = zi ] := n−1 für Pnalle 1 ≤ i ≤ n. Wir haben den Erwartungswert von Z berechnet als E(Z) = n−1 i=1 zi =: z̄. Die Varianz ist ∞ Var(Z) = E((Z − E(Z))2 ) = E((Z − z̄)2 ) = 1X (zi − z̄) . n i=1 Definition 0.5.31. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp. E(Y 2 ) < ∞. Dann heisst Kov(X, Y ) := E((X − E(X))(Y − E(Y ))) die Kovarianz von X und Y . Gilt Kov(X, Y ) = 0, so heissen die beiden Zufallsvariablen unkorreliert. Definition 0.5.32. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp. E(Y 2 ) < ∞ und Var(X) > 0, Var(Y ) > 0, so heisst die Zahl Korr(X, Y ) := Kov(X, Y ) SA(X) SA(Y ) die Korrelation X und Y . Satz 0.5.33 (Eigenschaften der Kovarianz und Korrelation). Seien X, Y und Xi , 1 ≤ i ≤ n, Zufallsvariablen deren Quadrate endiche Erwartungswerte haben. Seien c, d ∈ R Konstanten. Dann gilt: i) Kov(X, X) = Var(X) ii) Kov(X, Y ) = E(XY ) − E(X)E(Y ) iii) Die Kovarianz ist skalenabhängig: Kov(cX, cY ) = cd Kov(X, Y ) Pn Pn P iv) Var( i=1 Xi ) = i=1 Var(Xi ) + 2 j<k Kov(Xj , Xk ) v) Sind X und Y unabhängig, so auch unkorreliert. 37 Gilt zudem Var(X) > 0 und Var(Y ) > 0, so ist die Korrelation von X und Y wohldefiniert und es folgt: vi) | Korr(X, Y )| ≤ 1 vii) Die Korrelation kann als Mass für die lineare Abhängigkeit zweier Zufallsvariablen verstanden werden: Korr(X, Y ) = 1 gilt genau dann, wenn es ein a > 0 und ein b ∈ R gibt, so dass P-fast sicher Y = aX + b gilt; Korr(X, Y ) = −1 genau dann, wenn es ein a < 0 und ein b ∈ R gibt, so dass P-fast sicher Y = aX + b gilt. viii) Die Korrelation ist skalenunabhängig: Korr(cX, dY ) = Korr(X, Y ) Beweis: Alle Aussagen ergeben sich aus den Eigenschaften des Erwartungswerts, also insbesondere den Aussagen von Satz 0.5.11. Für Punkt vi) und vii) wird zudem die Cauchy-Schwarz-Ungleichung und die an deren Beweis anschliessende Bemerkung 0.5.19 benötigt. 2 Wir sehen aus Aussage ii) von Satz 0.5.33, dass die Zufallsvariablen X und Y genau dann unkorreliert sind, wenn E(XY ) = E(X)E(Y ) gilt. Nach Satz 0.5.11 sind also unabhängige Zufallsvariablen auch unkorreliert, sofern die Korrelation definiert werden kann. Die Unkehrung gilt nicht, wie Beispiel 0.5.13 zeigt. Satz 0.5.34 (Bienaymé). Seien Xi , 1 ≤ i ≤ n Zufallsvariablen, deren Quadrate endliche Varianzen haben. Sind die Zufallvariablen paarweise unkorreliert, so gilt Var X n i=1 n X Xi = Var(Xi ) . i=1 Beweis: Die Aussage folgt direkt aus Satz 0.5.33 iv) und Definition 0.5.31. 0.6 2 Die Bienaymé-Chebyshev-Ungleichung und Anwendungen Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt. Satz 0.6.1 (Markov-Ungleichung). Sei X : Ω → R+ eine nicht-negative Zufallsvariable mit existierendem Erwartungswert und c > 0 eine Konstante. Dann gilt die Ungleichung E(X) . P[X ≥ c] ≤ c Beweis: Wir betrachten die Zerlegung 1 = I[X ≥ c] + I[X < c]. Damit folgt X = X I[X ≥ c] + X I[X < c] ≥ X I[X ≥ c] ≥ c I[X ≥ c] , und für den Erwartungswert von X schliesslich E(X) ≥ E(c I[X ≥ c]) = c E(I[X ≥ c]) = c P[X ≥ c] , also die Behauptung. 2 Es ist zu bemerken, dass nicht immer nützliche Informationen aus der MarkovUngleichung gewonnen werden können, so zum Beispiel falls E(X) = ∞ oder c < E(X) gilt. Denn in beiden Fällen ist die rechte Seite der Ungleichung stets grösser als 1. 38 Satz 0.6.2 (Bienaymé-Chebyshev-Ungleichung). Sei Y : Ω → R eine Zufallsvariable mit E(Y 2 ) < ∞ und d > 0 eine Konstante. Dann gilt die Ungleichung Var(Y ) . d2 P[|Y − E(Y )| ≥ d] ≤ Beweis: Wegen E(Y 2 ) < ∞ existiert der Erwartungswert von Y und ist insbesondere endlich. Wir wenden die Markov-Ungleichung auf X := (Y − E(Y ))2 und c := d2 an und erhalten so P[|Y − E(Y )| ≥ d] = P[(Y − E(Y ))2 ≥ d2 ] = P[X ≥ c] ≤ c−1 E(X) = d−2 Var(Y ) . 2 Die Bienaymé-Chebyshev-Ungleichung ist offenbar nur dann nützlich, wenn wir d > SA(Y ) wählen, da andernfalls die rechte Seite der Ungleichung grösser als 1 ist. Bemerkung 0.6.3. Setzen wir im vorhergehenden Satz d := k SA(Y ) für ein k ∈ N, so erhalten wir die praktische Abschätzung P[|Y − E(Y )| ≥ k SA(Y )] ≤ Var(Y ) 1 = 2 . k 2 SA(Y )2 k Offenbar erhält man erst für k ≥ 2 nützliche Information. Als Anwendungen der Bienaymé-Chebyshev-Ungleichung beweisen wir 1. Aussagen über die schwache Konsistenz des Stichprobenmittelwerts und der Stichprobenvarianz, die insbesondere in der Satistik Verwendung finden und in Kapitel 1 noch wesentlich verschärft werden, 2. den Approximationssatz von Weierstrass aus der Analysis, demzufolge stetige Funktionen auf kompakten Intervallen gleichmässig durch Polynome approximierbar sind, 3. und den Satz von Hardy und Ramanujan aus der Zahlentheorie, über die Verteilung der Anzahl Primteiler natürlicher Zahlen. Erste Anwendung: Schwache Konsistenz des Stichprobenmittelwerts und der Stichprobenvarianz Definition 0.6.4. Sei (Xi )i≥1 eine Folge von reellwertigen Zufallsvariablen auf Ω. Sei X : Ω → R eine weitere Zufallsvariable. Die Folge (Xi )i≥1 konvergiere in Wahrscheinlichkeit gegen X, wenn für alle ε > 0 gilt: lim P[|Xn − X| ≥ ε] = 0 . n→∞ Satz 0.6.5. Sei (Xi )i≥1 eine Folge paarweise unkorrelierter, reeller Zufallsvariablen mit beschränkten Varianzen Var(Xi ) ≤ A, für ein A > 0. Dann gilt für alle ε > 0: h i Xn lim P n−1 (Xi − E(Xi )) ≥ ε = 0 . n→∞ i=1 Beweis: Mit der Bienaymé-Chebyshev-Ungleichung erhält man h i h i Xn Xn Xn P n−1 (Xi − E(Xi )) ≥ ε = P n−1 Xi − E n−1 Xi ≥ ε i=1 i=1 i=1Xn −2 −1 ≤ ε Var n Xi i=1 = ε−2 n−2 n X i=1 39 Var(Xi ) ≤ ε−2 n−1 A . Der letzte Ausdruck strebt mit n → ∞ gegen 0 und somit folgt die Behauptung. 2 Definition 0.6.6. Seien Xi : Ω → R, 1 ≤ i ≤ n, unabhängige, identisch verteilte Zufallsvariablen. Eine Realisierung (x1 , . . . , xn ) := (X1 (ω), . . . , Xn (ω)) ∈ Rn heisst eine Stichprobe vom Umfang n. Die Zahl n µ̂ := x̄(n) := 1X xi n i=1 wird der Stichprobenmittelwert genannt. Der Wert n σ̂ 2 := 2 1 X xi − x̄(n) n i=1 Pn heisst Stichprobenvarianz. Die entsprechenden Zufallsvariablen X̄ (n) := n−1 i=1 Xi P n und n−1 i=1 (Xi − X̄ (n) )2 ) werden ebenfalls als Stichprobenmittelwert, beziehungsweise Stichprobenvarianz bezeichnet. Definition 0.6.7. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen. Pn Sei E(|X1 |) < ∞. Der Stichprobenmittelwert n−1 i=1 Xi heisst schwach konsistent P n für den Erwartungswert E(X1 ), wenn n−1 i=1 Xi mit n → ∞ in Wahrscheinlichkeit gegen E(X1 ) konvergiert. Sei nun sogar E(X12 ) < ∞. Entsprechend Pn nennt man die Stichprobenvarianz schwach konsistent für die Varianz, wenn n−1 i=1 (Xi − X̄ (n) )2 mit n → ∞ in Wahrscheinlichkeit gegen Var(X1 ) konvergiert. Der folgende Satz gibt eine hinreichende Bedingung an die schwache Konsistenz des Stichprobenmittelwertes. Der Satz wird manchmal auch Schwaches Gesetz der grossen Zahlen genannt. Das entsprechende Starke Gesetz der grossen Zahlen ist Thema von Kapitel 1. Satz 0.6.8. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen mit endlicher Varianz Var(X1 ). Dann gilt für alle ε > 0 h i lim P X̄ (n) − E(X1 ) ≥ ε = 0 . n→∞ Der Stichprobenmittelwert ist also schwach konsistent für den Erwartungswert, falls die Varianz endlich ist. Beweis: Der Satz ist eine direkte Folgerung aus Satz 0.6.5, wenn A := Var(X1 ) gesetzt wird. 2 In Abschnitt 1.1 wurde die Wahrscheinlichkeit p = P[A] eines Ereignisses A anschaulich als Grenzwert der relativen Häufigkeit nA /n, mit der A bei n unabhängigen Experimenten eintritt, interpretiert. Das folgende Korollar zu Satz 0.6.8 zeigt, dass relative Häufigkeiten, als Mittelwert von unabhängigen Indikatorvariablen geschrieben, in Wahrscheinlichkeit gegen die Wahrscheinlichkeit p konvergieren. Korollar 0.6.9. Sei (Ai )i≥1 eine Folge unabhängiger Ereignisse mit P[Ai ] = p für alle i ≥ 1. Dann gilt für alle ε > 0 h i Xn lim P n−1 I[Ai ] − p ≥ ε = 0 . n→∞ i=1 40 Beweis: Da die Ereignisse Ai unabhängig sind, so sind es auch die Indikatorvariablen I[Ai ]. Weiter ist E(I[A1 ]) = p. Die Behauptung folgt jetzt mit Satz 0.6.8 2 Satz 0.6.10. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen mit E(X14 ) < ∞. Dann gilt für alle ε > 0 2 Xn lim P n−1 Xi − X̄ (n) − Var(X1 ) ≥ ε = 0 . n→∞ i=1 Unter der Voraussetzung E(X14 ) < ∞ ist die Stichprobenvarianz also schwach konsistent für die Var(X1 ). Beweis: Im folgenden schreiben wir kurz X̄ an Stelle von X̄ (n) . Wir betrachten n−1 n X (Xi − X̄)2 − Var(X1 ) i=1 = n−1 n X = n−1 n X Xi2 − E(X12 ) − X̄ 2 + E(X1 )2 = n−1 n X Xi2 − E(X12 ) − (X̄ − E(X1 ))2 − 2E(X1 )(X̄ − E(X1 )) Xi2 − 2Xi X̄ + X̄ 2 − E(X12 ) + E(X1 )2 i=1 i=1 i=1 und erhalten so die Ungleichung −1 Xn (Xi − X̄)2 − Var(X1 ) n i=1 Xn ≤ n−1 Xi2 − E(X12 ) + (X̄ − E(X1 ))2 + 2|E(X1 )||X̄ − E(X1 )| . i=1 Pn Falls für ein η > 0 die Abschätzungen |n−1 i=1 Xi2 −E(X12 )| < η und |X̄−E(X1 )| < η gelten, so folgt nun −1 Xn (Xi − X̄)2 − Var(X1 ) < η + η 2 + 2η|E(X1 )| =: ε . n i=1 Mit der Bienaymé-Chebyshev-Ungleichung ergibt sich schliesslich h i Xn P n−1 (Xi − X̄)2 − Var(X1 ) ≥ ε i=1 h i Xn = 1 − P n−1 (Xi − X̄ (n) )2 − Var(X1 ) < ε i=1 hn o i −1 Xn ≤ 1 − P n Xi2 − E(X12 ) < η ∩ |X̄ − E(X1 )| < η i=1 o hn i −1 Xn Xi2 − E(X12 ) ≥ η ∪ |X̄ − E(X1 )| ≥ η = P n i=1 i h −1 Xn Xi2 − E(X12 ) ≥ η + P |X̄ − E(X1 )| ≥ η ≤ P n i=1 ≤ η −2 −1 n Var(X12 ) + η −2 n−1 Var(X1 ) . Hierbei wurde verwendet, dass mit E(X14 ) < ∞ auch die Varianzen Var(X1 ) und Var(X12 ) endlich sind. Der letzte Ausdruck strebt mit n → ∞ gegen 0. Da für ein vorgegebenes ε > 0 stets ein η > 0 mit η + η 2 + 2η|E(X1 )| = ε gefunden werden kann, ist der Satz somit bewiesen. 2 41 Zweite Anwendung: Der Approximationssatz von Weierstrass Wir beweisen zunächst den Satz von Bernstein, aus dem dann der Approximationssatz folgt. Satz 0.6.11 (Bernstein). Sei f : [0, 1] → R eine stetige Funktion. Für δ > 0 sei Φ(δ) := |f (x) − f (y)| . sup |x−y|<δ Dann existiert für jedes n ∈ N ein Polynom f (n) vom Grad n, so dass kf k sup |f (n) (x) − f (x)| ≤ inf Φ(δ) + δ>0 2nδ 2 0≤x≤1 gilt. Dabei kann für f (n) das Bernstein-Polynom n X n i (n) f (x) := x (1 − x)n−i f n−1 i i i=1 (0.6.1) gewählt werden. Beweis: Sei x ∈ [0, 1] fest gewählt. Seien für alle n ∈ N Sn ∼ Bi(n, x) binomialverteilte Zufallsvariablen auf einer geeigneten Menge Ω. Wegen Beispiel 0.5.14 gilt E(Sn ) = nx, und damit f (n−1 E(Sn )) = f (x) . Zudem ist E(f (n −1 Sn )) = n X i=1 f n −1 n i i x (1 − x)n−i =: f (n) (x) i genau das Bernstein-Polynom vom Grad n an der Stelle x. Ist δ > 0 gegeben, und wird mit kf k die Supremumsnorm von f bezeichnet, erhält man mit der Bienaymé-Chebyshev-Ungleichung die folgende Abschätzung: |f (n) (x) − f (x)| = E f n−1 Sn − f n−1 E(Sn ) = E f n−1 Sn − f n−1 E(Sn ) ≤ E f n−1 Sn − f n−1 E(Sn ) = E f n−1 Sn − f n−1 E(Sn ) · I n−1 Sn − n−1 E(Sn ) < δ + E f n−1 Sn − f n−1 E(Sn ) · I n−1 Sn − n−1 E(Sn ) ≥ δ ≤ Φ(δ) · E I n−1 Sn − n−1 E(Sn ) < δ + 2kf k · E I n−1 Sn − n−1 E(Sn ) ≥ δ = Φ(δ) · P n−1 Sn − n−1 E(Sn ) < δ + 2kf k · P n−1 Sn − n−1 E(Sn ) ≥ δ ≤ Φ(δ) · 1 + 2kf k δ −2 Var n−1 Sn = Φ(δ) + 2kf k n−1 δ −2 x(1 − x) ≤ Φ(δ) + 2kf k n−1 δ −2 4−1 = Φ(δ) + 2−1 n−1 δ −2 kf k . Da diese Abschätzung für jedes δ > 0 gilt, und x ∈ [0, 1] beliebig gewählt wurde, folgt die Behauptung. 2 42 Satz 0.6.12 (Approximationssatz von Weierstrass). Sei [a, b] ⊂ R ein Intervall und g : [a, b] → R eine stetige Funktion. Dann gibt es eine Folge von Polynomen (gn )n≥1 , die auf [a, b] gleichmässig gegen die Funktion g konvergiert. Beweis: Wir haben nachzuweisen, dass für jedes ε > 0 ein N existiert, so dass für alle n > N und alle y ∈ [a, b] gilt: |gn (y) − g(y)| < ε. Sei also ein ε > 0 vorgegeben. Im Fall a = b ist nichts zu zeigen, wir nehmen also a < b an. Das Problem wird auf das Intervall [0, 1] zurückgeführt und dann der Satz von Bernstein angewendet. Dazu betrachten wir die durch x 7→ y := (b − a)x + a definierte Bijektion [0, 1] → [a, b]. Wir definieren für alle x ∈ [0, 1] f (x) := g (x(b − a) + a) = g(y) . Wegen der Stetigkeit von g auf [a, b] ist f stetig auf [0, 1]. Weiter definieren wir für jedes y ∈ [a, b] gn (y) := f (n) (b − a)−1 (y − a) = f (n) (x) , wobei f (n) das n-te Bernstein-Polynom ist. Daher ist auch gn ein Polynom. Ferner gilt |f (n) (x) − f (x)| < ε für alle x ∈ [0, 1] genau dann, wenn für alle y ∈ [a, b] |gn (y) − g(y)| < ε gilt. Da f auf [0, 1] gleichmässig stetig ist, finden wir ein δ > 0, so dass |f (x1 ) − f (x2 )| < ε/2 für alle x1 , x2 in [0, 1] mit |x1 − x2 | < δ. Damit gilt Φ(δ) ≤ ε/2, und aus dem Satz von Bernstein folgt für alle x ∈ [0, 1] |f (n) (x) − f (x)| ≤ Φ(δ) + ε kf k kf k ≤ + 2 2nδ 2 2nδ 2 Setzen wir N := ε−1 δ −2 kf k + 1 , so ist kf k ε < 2 2nδ 2 für alle n > N , und die Behauptung damit bewiesen. 2 Dritte Anwendung: Der Satz von Hardy-Ramanujan Zuletzt wird noch eine Anwendung aus der Zahlentheorie, beweisen. Dort wird üblicherweise mit ω : N → N die Funktion bezeichnet, die jedem n die Anzahl der Primteiler, ohne Vielfachheiten gezählt, zuordnet. So ist beispielsweise ω(45) = 2 oder ω(1024) = 1. Weiter betrachten wir die Funktion γ : N → (0, ∞), definiert durch γ(n) := X p≤n, p prim 1 . p Es kann gezeigt werden, dass limn→∞ γ(n) = ∞. Weiter lässt sich beweisen, dass lim n→∞ γ(n) =1. ln ln n (0.6.2) Satz 0.6.13 (Hardy-Ramanujan). Sei ψ : (0, ∞) → (0, ∞) eine Funktion mit limx→∞ ψ(x) = ∞. Dann gilt: p 1 |ω(i) − γ(n)| ≤ γ(n)ψ(n) = 1 . lim i ≤ n n→∞ n 43 Beweis: Sein n ∈ N fest gewählt. Betrachte Ωn := {1, 2, . . . , n} und die Uniformverteilung Pn auf Ωn . Die Einschränkung der oben definierten Funktion ω : N → N auf Ωn ⊂ N ist eine Zufallsvariable, die mit Wn bezeichnet wird. Damit erhalten wir n o p n−1 i ≤ n |ω(i) − γ(n)| ≤ γ(n)ψ(n) = n X i=1 h i p Pn [{i}] · I |Wn − γ(n)| ≤ γ(n)ψ(n) (i) h i p = Pn |Wn − γ(n)| ≤ γ(n)ψ(n) Wenn also gezeigt werden kann, dass i h p lim Pn |Wn − γ(n)| > γ(n)ψ(n) = 0 , n→∞ so ist der Satz bewiesen. Wir wollen dazu diesen Ausdruck für ein festes n mit Hilfe der Bienaymé-Chebyshev-Ungleichung abschätzen, und müssen daher den Erwartungswert und dann die Varianz von Wn berechnen. Für eine Zahl q ≤ n betrachten wir die Indikatorvariable I[q|·] auf Ωn , wobei I[q|i] := 1, 0, wenn q Teiler von i ist sonst Bezeichnen wir im folgenden mit p stets eine Primzahl, so ergibt sich für den Erwartungswert von Wn : E(Wn ) = n−1 n X Wn (i) = n−1 i=1 = n−1 X X n = n X I[p|i] i=1 p≤n i=1 p≤n −1 n X X p −1 X I[p|i] = n−1 p−1 n n−n p≤n p≤n −1 X p≤n p −1 n − p−1 n = γ(n) − εn , wobei 0 ≤ εn := n−1 X p≤n p−1 n − p−1 n < 1 . 44 Mit ähnlichen Argumenten berechnen wir den Erwartungswert von Wn2 . Dabei bezeichnen in der folgenden Rechnung p, q und r Primzahlen: E(Wn2 ) = n−1 = n−1 = n−1 n X i=1 n X Wn (i)2 = n−1 n X X i=1 X i=1 p≤n n X X I[p|i]2 + n−1 = E(Wn ) + n−1 X X X q −1 r−1 n − n−1 q6=r, qr≤n = E(Wn ) + n −1 i=1 I[qr|i] q −1 r−1 n q6=r, qr≤n 2 = E(Wn ) + γ(n) − X I[q|i] I[r|i] I[q|i] I[r|i] i=1 q6=r, qr≤n X n q6=r, qr≤n = E(Wn ) + n−1 X i=1 q6=r, q≤n, r≤n n X X I[p|i] + n−1 i=1 p≤n p≤n n X 2 I[p|i] X q6=r, qr≤n p≤n p −2 − X q −1 r−1 n − q −1 r−1 n q6=r, q≤n, r≤n, qr>n q −1 r−1 − ηn , wobei 0 ≤ ηn := n−1 X q6=r, qr≤n q −1 r−1 n − q −1 r−1 n < 2 . Die Varianz von Wn kann nun abgeschätzt werden durch Var(Wn ) = ≤ = ≤ E(Wn2 ) − E(Wn )2 E(Wn ) + γ(n)2 − ηn − E(Wn )2 γ(n) − εn + γ(n)2 − ηn − (γ(n) − εn )2 γ(n) + 2γ(n)εn < 3γ(n) . Wegen |Wn − γ(n)| ≤ |Wn − E(Wn )| + εn < |Wn − E(Wn )| + 1 folgt jetzt mit der Bienaymé-Chebyshev-Ungleichung h i h i p p Pn |Wn − γ(n)| > γ(n)ψ(n) ≤ Pn |Wn − E(Wn )| > γ(n)ψ(n) − 1 p −2 ≤ Var(Wn ) γ(n)ψ(n) − 1 p < 3(ψ(n) − 1/ γ(n))−2 , und dieser Ausdruck strebt mit n → ∞ gegen 0. 2 Wir betrachten den Fall ψ(x) := ln ln x. Wegen Gleichung (0.6.2) folgt aus dem Satz, dass wenn für grosses n ∈ N eine Zahl i ∈ {1, 2, . . . , n} uniform ausgewählt wird, mit hoher Wahrscheinlichkeit die Anzahl ihrer paarweise verschiedenen Primteiler kleiner als 2 ln ln n ist. Betrachten wir den Fall n = 100. Dann ist 2 ln ln n ≈ 3.054. Die Wahrscheinlichkeit, dass eine Zahl i ≤ n 3 oder weniger paarweise verschiedene Primteiler hat, ist in der Tat 1, da wegen 2 · 3 · 5 · 7 > 100 jede der Zahlen weniger als 4 unterschiedliche Primteiler hat. Ist n = 1000 000, so hat eine uniform ausgewählte Zahl i ≤ n mit hoher Wahrscheinlichkeit weniger als 2 ln ln n ≈ 4.887, also weniger als 5, unterschiedliche Primteiler. Tatsächlich können Zahlen kleiner oder gleich 1000 000 maximal 6 paarweise verschiedene Primteiler haben. 45 0.7 Bedingter Erwartungswert In diesem Abschnitt werden wir den bedingten Erwartungswert einer Zufallvariablen X über einem Wahrscheinlichkeitsraum (Ω, F, P) einführen. Dabei werden drei Fälle des bedingten Erwartungswerts betrachten: 1. den bedingten Erwartungswert von X bei gegebenem Ereignis B aus F, 2. den bedingten Erwartungswert von X bei einer gegebener diskreter Zufallsvariable Y , 3. und den bedingten Erwartungswert von X bei beliebiger vorgegebender Zufallsvariable Y . Dies sind drei Spezialfälle des allgemeinen Begriffs des bedingten Erwartungswerts einer Zufallsvariablen bei gegebener σ-Unteralgebra von F. In dieser Allgemeinheit wird der Begriff hier jedoch nicht benötigt Definition 0.7.1. Sei X eine Zufallsvariable auf Ω mit E(|X|) < ∞. Sei B ∈ F ein Ereignis mit P[B] > 0. Dann heisst E(X|B) := E(X I[B]) P[B] der bedingte Erwartungswert von X bei gegebenem Ereignis B. Der bedingte Erwartungswert von X gegeben B ∈ F ist genau der Erwartungswert von X bezüglich der in Satz 0.3.2 betrachteten bedingten Wahrscheinlichkeit PB [·] := P[B|·]: Z Z 1 E(X|B) = X dP = X dPB . P[B] B Ω Wird umgekehrt für ein Ereignis A ∈ F X := I[A] gesetzt, so erhält man obiger Definition 0.7.1 gerade die Definition 0.3.1 der bedingten Wahrscheinlichkeit. Entsprechend wir auch die Formel der totalen Wahrscheinlichkeit, Satz 0.3.3, verallgemeinert: Satz 0.7.2 (Formel des totalen Erwartungswerts (FTE)). Sei (Bi )i≥1 eine Folge von Ereignissen aus F, die eine Partition von Ω bildet. Sei X eine Zufallsvariable auf Ω mit E(|X|) < ∞. Dann gilt: E(X) = ∞ X E(X|Bi )P[Bi ] , i=1 wobei E(X|Bi )P[Bi ] := 0 gesetzt wird, falls P[Bi ] = 0. Beweis: Da die Mengen Bi paarweise disjunkt sind, gilt für jedes n ∈ N n X |X| I[Bi ] = |X| I i=1 h [n i=1 i Bi ≤ |X| . Weiter gilt auch lim X I n→∞ h [n i=1 46 i Bi = X . Nach Voraussetzung ist E(|X|) < ∞, daher folgt mit dem Satz über die majorisierte Konvergenz: ∞ X E(XI[Bi ]) = i=1 lim n→∞ n Z X i=1 XI[Bi ] dP Ω Z h [n i lim XI Bi dP n→∞ Ω i=1 Z = X dP = E(X) = Ω Ist P[Bi ] = 0, so verschwindet das Integral von X bezüglich P, und damit gilt auch E(XI[Bi ]) = 0. Insgesamt haben wir: E(X) = ∞ X X E(XI[Bi ]) = i=1 E(XI[Bi ]) = i≥1, P[Bi ]>0 X E(X|Bi )P[Bi ] . i≥1, P[Bi ]>0 2 Wir definieren nun den Erwartungswert der Zufallsvariablen X, bedingt durch eine gegebene Zufallsvariable Y : Ω → Rn . Dazu betrachten wir zunächst den Fall, dass Y diskret ist. Sei Y (Ω) der Wertebereich von Y , in dem Sinne, dass P[Y = y] > 0 für jedes y ∈ Y (Ω) gelte. Der bedingte Erwartungswert E(X|Y = y) von X bei gegebenem Ereignis {Y = y} ∈ F ist gemäss Definition 0.7.1 bestimmt. Durch E(X|Y = ·)(y) := E(X|Y = y) := E(XI[Y = y]) , P[Y = y] für alle y ∈ Y (Ω), wird daher eine eindeutig bestimmte messbare Abbildung E(X|Y = ·) : Y (Ω) → R definiert. Weiter ist durch E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) , für ω ∈ Ω, eine Abbildung auf Ω gegeben. Diese ist als Komposition zweier messbarer Abbildungen messbar. Fassen wir diese Konstruktion in einer Definition zusammen: Definition 0.7.3. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und Y : Ω → Rn eine diskrete Zufallsvariable. Der bedingte Erwartungswert von X bei gegebener Zufallsvariablen Y ist die eindeutig bestimmte Zufallsvariable E(X|Y ) : Ω → R , definiert durch E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) . Ist Y (Ω) = {y1 , y2 , . . .} eine Aufzählung des Wertebereichs von Y , so erhalten wir aus Satz 0.7.2 die Formel des totalen Erwartungswerts sofort in der speziellen Form E(X) = ∞ X E(X|Y = yi )P[Y = yi ] . i=1 47 (0.7.1) Formt man die rechte Seite von (0.7.1) noch weiter um, erhält man X E(X) = (E(X|Y = ·) ◦ Y ) (ω)P[{ω}] ω∈Ω X = E(X|Y )(ω)P[{ω}] ω∈Ω = E(E(X|Y )) . Wir betrachten jetz den Fall, dass Y : Ω → Rn eine beliebige Zufallsvariable ist. Hier können wir den Begriff des bedingten Erwartungswerts nicht mehr wie im diskreten Fall auf Definition 0.7.1 zurückführen, da, wenn beispielsweise die Verteilung von Y durch eine Dichte gegeben ist, für jedes y ∈ Y (Ω) P[Y = y] = 0 gelten kann. Bemerkung 0.7.4. Sei Y : Ω → Rn eine Zufallsvariable. Es kann bewiesen werden, dass eine messbare, PY -integrierbare Funktion g : Rn → R mit Z Z g dPY = X dP (0.7.2) B Y −1 (B) für alle B ∈ B(Rn ) existiert. Die Funktion g ist durch diese Bedingung PY -fast sicher eindeutig bestimmt. Die Abbildung g ◦ Y : Ω → R ist dann eine P-fast sicher eindeutig bestimmte Zufallsvariable. Sei N ⊂ Y (Ω) ⊂ Rn eine PY -Nullmenge, so dass g auf Y (Ω)\N eindeutig bestimmt ist. In Analogie zum diskreten Fall setzen wir E(X|Y = ·)(y) := E(X|Y = y) := g(y) . für alle y ∈ Y (Ω)\N und E(X|Y )(ω) := (E(X|Y = ·) ◦ Y )(ω) (0.7.3) für alle ω ∈ Ω\Y −1 (N ). Diese Abbildung kann auf der Nullmenge Y −1 (N ) beliebig fortgesetzt werden. Auf diese Weise wird eine P-fast sicher eindeutige Zufallsvariable E(X|Y ) : Ω → R bestimmt. Man definiert jetzt: Definition 0.7.5. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und Y : Ω → Rn beliebige Zufallsvariable. Der bedingte Erwartungswert von X bei gegebener Zufallsvariablen Y ist die P-fast sicher eindeutig bestimmte Zufallsvariable E(X|Y ) : Ω → R , definiert durch E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) . Die linke Seite der Gleichung (0.7.2), die g und damit E(X|Y ) fast sicher eindeutig bestimmt, kann nun mit Hilfe des Transformationssatzes der Masstheorie umformuliert werden: Z Z Z g dPY = g ◦ Y dP = E(X|Y ) dP = E(E(X|Y )I[Y ∈ B]) , B Y −1 (B) Y −1 (B) und Gleichung (0.7.2) kann daher in einer äquivalenten Form geschrieben werden als E(E(X|Y )I[Y ∈ B]) = E(XI[Y ∈ B]) . (0.7.4) 48 Mit B := R folgt dann sofort E(E(X|Y )) = E(X) . (0.7.5) Ist Y : Ω → R durch eine Dichte fY definiert, so erhält man stetiges Analogon zu (0.7.1), denn (0.7.2) lässt sich mit B := R transformieren zu Z +∞ Z Z E(X|Y = y)fY (y) dy = g dPY = X dP = E(X) . −∞ R Ω Ist Z : Ω → Rm eine weitere Zufallsvariable, so definieren wir den bedingten Erwartungswert von X gegeben Y und Z durch E(X|Y, Z) := E(X|(Y, Z)) . wobei (Y, Z) : Ω → Rm+n . Es gilt hier P-fast sicher E(X|(Y, Z)) = E(X|(Z, Y )) . (0.7.6) Dies folgt aus Bemerkung 0.7.4 mit folgender Überlegung: Bezeichnen wir mit σ(M ) ⊂ F die kleinste σ-Algebra in F die eine Menge M ⊂ F enthält, und für eine Zufallvariable Y σ(Y ) := σ({Y −1 (B)|B ∈ B(Rn )}) . so kann man zeigen, dass σ((Y, Z)) = σ(σ(Y ) ∪ σ(X)) = σ(σ(Z) ∪ σ(Y )) = σ((Z, Y )) gilt Mit dieser Eigenschaft und der, dass die Gleichung (0.7.4) für alle Borelmengen B gilt, erhalten wir (0.7.6). Genauso lässt sich der bedingte Erwartungswert von X gegeben Zufallsvariablen Y1 , . . . , Yk durch E(X|Y1 , . . . , Yk ) := E(X|(Y1 , . . . , Yk )) definieren. Da die bedingten Erwartungswerte nur P-fast sicher eindeutig bestimmt sind, gelten Gleichungen, wie sie im nächsten Satz auftauchen ebenfalls nur P-fast sicher. Dies wird im folgenden jedoch nicht mehr immer explizit erwähnt. Satz 0.7.6 (Eigenschaften des bedingten Erwartungswerts). Seien X : Ω → R und Y : Ω → Rn Zufallsvariablen, wobei E(|X|) < ∞. i) Gibt es eine messbare Funktion f : Rn → R mit X = f (Y ), so gilt E(f (X|Y )) = X. Insbesondere ist E(X|X) = X. ii) Sind X und Y unabhängig, so ist E(X|Y ) = E(X). iii) Ist g : Rn → R eine messbare beschränkte Funktion, so gilt E(g(Y )E(X|Y )) = E(g(Y )X). iv) Ist h : Rn → R eine messbare Funktion und gilt E(|h(Y )X|) < ∞, so ist E(h(Y )X|Y ) = h(Y )E(X|Y ). v) Ist Z : Ω → Rm eine weitere Zufallsvariable so haben wir E(X|Y ) = E(E(X|Y, Z)|Y ). vi) Ist c ∈ R konstant und W : Ω → R eine Zufallsvariable mit E(|W |) < ∞, so folgt E(X + cW |Y ) = E(X|Y ) + c E(W |Y ). Beweis: FOLGT NOCH... 2 49 Martingale und die Ungleichung von Lévy-Kolmogorov Definition 0.7.7. Sei (Xi )i≥0 eine Folge reell-wertiger Zufallsvariablen auf Ω mit E(|Xi |) < ∞ für alle i ≥ 0. Die Folge (Xi )i≥0 heisst ein Martingal, wenn für jedes i ≥ 0 gilt: E(Xi+1 |X0 , X1 , . . . , Xi ) = Xi . Sei (Yj )j≥0 eine Folge beliebiger Zufallsvariablen. Die Folge (Xi )i≥0 heisst ein Martingal bezüglich (Yj )j≥0 , wenn E(Xi+1 |Y0 , X1 , . . . , Yi ) = Xi . für alle i ≥ 0 gilt. Seien dieselben Voraussetzungen wie in Definition 0.7.7 gegeben. Dann gilt für jedes i ≥ 0 und alle j ≤ i die Gleichung E(Xj |X0 , X1 , . . . , Xi ) = Xj , denn die Projektion hj : Ri → R auf die j-te Koordinate von Ri ist messbar und es gilt Xj = h(X0 , X1 , . . . , Xi ). Die Behauptung ergibt sich jetzt mit Satz 0.7.6 i). Die Folge (Xi )i≥0 ist wegen der Linearität des bedingten Erwartungswerts also genau dann ein Martingal, wenn E(Xi+1 − Xi |X0 , X1 , . . . , Xi ) = 0 gilt. Lemma 0.7.8. Ist (Xi )i≥0 ein Martingal, so gilt P-fast sicher E(Xi+k |X0 , X1 , . . . , Xi ) = Xi für alle i ≥ 0 und k ≥ 1. Beweis: Sei i ≥ 0 beliebig aber fest gewählt. Der Fall k = 1 entspricht genau der Definition eines Martingals. Die Behauptung sei nun für ein k ≥ 1 erfüllt. Dann gilt sie auch für k + 1, denn E(Xi+k+1 |X0 , X1 , . . . , Xi ) = E(E(Xi+k+1 |(X0 , X1 , . . . , Xi ), (Xi+1 , . . . , Xi+k ))|X0 , X1 , . . . , Xi ) = E(Xi+k |X0 , X1 , . . . , Xi ) = Xi . Dabei gilt die erste Gleichheit wegen Satz 0.7.6 v), die zweite Gleichheit da (Xi )i≥0 ein Martingal ist, und die dritte Gleichheit ist die Induktionsvoraussetzung. 2 Beispiel 0.7.9. Sei (Xi )i≥0 eine Folge unabhängiger Zufallsvariablen auf Ω mit E(Xi ) = 0 für alle i ≥ 0. Dann ist die Summenfolge (Sn )n≥0 ein Martingal, denn wir haben wegen Satz 0.7.6 vi), i) und ii) E(Sn+1 |S0 , . . . , Sn ) = E(Sn |S0 , . . . , Sn ) + E(Xn+1 |S0 , . . . , Sn ) = Sn + E(Xn+1 ) = Sn . Die Folge (Sn )n≥0 ist auch ein Martingal in Bezug auf (Xi )i≥0 , denn mit denselben Argumenten wie bei der oberen Rechnung folgt E(Sn+1 |X0 , . . . , Xn ) = E(Sn |X0 , . . . , Xn ) + E(Xn+1 |X0 , . . . , Xn ) = Sn + E(Xn+1 ) = Sn . Zufallsvariablen Xi : Ω → {−1, 1} mit P[X = 1] = P[X = −1] = 1/2 oder Zufallsvariablen Xi ∼ N (0, σ 2 ) erfüllen die gewünschten Bedingungen besipielsweise. 50 Satz 0.7.10 (Ungleichung von Lévy-Kolmogorov). Sei (Xi )i≥0 ein Martingal, mit Var(Xi ) < ∞ für alle i ≥ 0. Sei weiter P[X0 = 0] = 1. Sei a > 0 fest gegeben. Dann gilt für alle n ∈ N: P [max1≤i≤n |Xi | ≥ a] ≤ Var(Xn ) . a2 Beweis: Wir bemerken zunächst, dass E(Xi ) = 0 für alle i ≥ 0 gilt. Mit Lemma 0.7.8 folgt nämlich E(Xk |X0 ) = X0 für alle k ≥ 0, und nach Voraussetzung ist E(X0 ) = 0, also insgesamt mit (0.7.5) E(Xk ) = E(E(Xk |X0 )) = E(X0 ) = 0 . Wir betrachten nun weiter für j ≥ 0 das Ereignis Aj := {ω ∈ Ω | |Xi (ω)| ≤ a für 0 ≤ i < j und |Xj (ω)| > a} in F. Dies ist das Ereignis, dass das Martingal (Xi )i≥0 das Intervall (−a, a) zum ersten Mal beim Zeitpunkt j verlässt. Sei n ∈ N fest gegeben, j ≤ n. Die Ereignisse A1 , . . . , An sind paarweise Sn und sei 1S≤ n disjunkt und es gilt i=1 Ai = i=1 {|Xi | ≥ a}. Für ein beliebiges j mit 1 ≤ j ≤ n schätzen wir nun ab: E(Xn2 I[Aj ]) = E((Xj + (Xn − Xj ))2 I[Aj ]) = E(Xj2 I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj )) + E((Xn − Xj )2 I[Aj ]) ≥ a2 E(I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj )) = a2 P[Aj ] + 2E(Xj I[Aj ](Xn − Xj )) . Wenn gezeigt werden kann, dass E(Xj I[Aj ](Xn − Xj )) = 0 (0.7.7) gilt, so erhalten wir E(Xn2 I[Aj ]) ≥ a2 P[Aj ]. Durch Summation über alle 1 ≤ j ≤ n erhält man dann weiter h [n i a2 P [max1≤j≤n |Xj | ≥ a] ≤ a2 P {|Xj | ≥ a} j=1 ≤ a2 P ≤ n X h [n j=1 n i X Aj = a2 P[Aj ] j=1 E(Xn2 I[Aj ]) = E Xn2 I j=1 h [n j=1 Aj i ≤ E(Xn2 ) = E(Xn2 ) − E(Xn )2 = Var(Xn ) , und damit die Behauptung. Es bleibt daher Gleichung (0.7.7) zu überprüfen: E(Xj I[Aj ](Xn − Xj )) = = = = E(E(Xj I[Aj ](Xn − Xj )|X0 , . . . , Xj )) E(Xj I[Aj ]E(Xn − Xj |X0 , . . . , Xj )) E(Xj I[Aj ](E(Xn |X0 , . . . , Xj ) − E(Xj |X0 , . . . , Xj )) E(Xj I[Aj ](Xj − Xj )) = 0 . Dabei wurde im dritten Schritt Satz 0.7.6 iv) verwendet, zusammen mit der Eigenschaft, dass Xj I[Aj ] = h(X0 , . . . , Xj ) für eine messbare Funktion h : Rj → R. 2 51 Bemerkung 0.7.11. Unter den Voraussetzungen der Lévy-Kolmogorov-Ungleichung erhält man auch die Bienaymé-Chebyshev-Ungleichung: Im obigen Beweis wurde gezeigt, dass E(Xn ) = 0 für alle n ≥ 0 gilt, und so erhält man P[|Xn − E(Xn )| ≥ a] ≤ P [max1≤i≤n |Xi − E(Xi )| ≥ a] = P [max1≤i≤n |Xi | ≥ a] ≤ a−2 Var(Xn ) . 52