Stochastik 1 (SS 2008) Prof. Dr. A. Steland RWTH Aachen Institut für Statistik und Wirtschaftsmathematik 1 Stochastik 1 Dieses ist ein vorläufiges Skript, damit Sie Ihre Mitschrift abgleichen können. Es erhebt keinen Anspruch auf Korrektheit und ist auch ständigen Änderungen unterworfen. Bitte teilen Sie uns (Tipp-) Fehler und Inkonsistenzen mit. A. Steland KAPITEL 1 Der Wahrscheinlichkeitsbegriff 1. Die Kolmogorov-Axiome Definition 1.1. Sei Ω 6= ∅ eine Menge und F ⊂ Pot(Ω). F heißt σ-Algebra oder Ereignisalgebra (über Ω), falls (i) Ω ∈ F, (ii) F ist komplementstabil, d.h. A∈F ⇒ Ac ∈ F ∀A ∈ F, (iii) F ist σ -stabil, d.h. {An : n ∈ N} ⊂ F ⇒ [ An ∈ F. n∈N Die Elemente von F heißen Ereignisse. (Ω, F) heißt Messraum. Also: Eine σ-Algebra ist ein System von Teilmengen von Ω, das abgeschlossen ist bezüglich der Bildung von Komplementen und abzählbaren Vereinigungen und zudem Ω enthält. Sprechweise: A ∈ F ist eingetreten, wenn der wahre Versuchsausgang w ∈ Ω ein Element von A ist. Lemma 1.2. F sei eine σ-Algebra (über Ω). Dann gilt: (i) ∅ ∈ F, 3 4 1. DER WAHRSCHEINLICHKEITSBEGRIFF (ii) Fist ∩-stabil, d.h. A, B ∈ F ⇒ A∩B ∈F (iii) F ist σ - ∩ -stabil d.h. {An : n ∈ N} ⊂ F ∞ \ ⇒ An ∈ F. n=1 Beispiele 1.3. (i) F = {∅, Ω} ist die triviale σ-Algebra (gröbste σ-Algebra). (ii) F = Pot (Ω) ist die feinste σ-Algebra. ⊂ (iii) F = {∅, A, Ac , Ω} mit ∅ = 6 A 6= Ω. (iv) F = {A ⊂ Ω : A höchstens abzählbar oder Ac höchstens abzählbar.} (v) Der Schnitt von σ-Algebren ist wieder eine σ-Algebra. Definition und Lemma 1.4. Sei ∅ = 6 B ⊂ Ω und F eine σ-Algebra über Ω. Dann ist B ∩ F = {B ∩ A : A ∈ F} eine σ-Algebra über B, die Spur-σ-Algebra. Ist E ⊂ Pot(Ω) ein beliebiges Mengensystem, dann ist σ(E) = {A ⊂ Ω : A ∈ F \ = F gilt für alle σ − Algebren F mit E⊂F F σ−Algebra die von E erzeugte σ-Algebra. Beispiel und Definition 1.5. (Erzeugte σ-Algebra) (i) σ({∅}) = {∅, Ω} (ii) σ({A}) = {∅, A, Ac , Ω} (iii) Wähle als Erzeuger die Menge aller halboffenen Intervalle E = {(a,b] : −∞ < a ≤ b < ∞, Dann heißt B := B(R) := σ(E) a,b ∈ R}. E ⊂ F} 1. DIE KOLMOGOROV-AXIOME 5 Borel’sche σ-Algebra über R. Man kann zeigen: B $ Pot(R). Alternative Erzeuger: offene Mengen, abgeschlossene Mengen. (iv) Für Ω = Rn wählt man als Erzeuger das System der halboffenen ndimensionalen Intervalle, En = {(a,b] : a, b ∈ Rn , a ≤ b}, wobei (a, b] = {x ∈ Rn : ai < x i ≤ b i , i = 1, · · · , n} für Vektoren a = (a1 , · · · , an ), b = (b1 , · · · , bn ) ∈ Rn . B = σ(En ) heißt Borel’sche σ-Algebra über Rn . Definition 1.6. (Kolmogorov-Axiome) Sei Ω 6= ∅ und F eine σ−Algebra über Ω. Eine Abbildung P : F → [0,1] heißt Wahrscheinlichkeitsmaß (kurz: W-Maß) oder Wahrscheinlichkeitsverteilung (kurz: (W-Verteilung)) auf (Ω,F), falls (i) P (A) ≥ 0 ∀A ∈ F (ii) P (Ω) = 1 (Nicht-Negativität) (Normierung) (iii) {An }n∈N ⊆ F, An paarweise disjunkt ! ∞ ∞ [ X ⇒P An = P (An ) n=1 n=1 (σ-Additivität) Das Tripel (Ω, F, P ) heißt Wahrscheinlichkeitsraum (kurz: W-Raum). Definition 1.7. Ein W-Raum (Ω, F, P ) heißt Laplace’scher W-Raum, wenn Ω = {w1 , . . . , wK } endlich ist, F = Pot (Ω), und P jedem Elementarereignis {w}, w ∈ Ω, dieselbe Wahrscheinlichkeit zuordnet, d.h. 1 , w ∈ Ω. K P heißt dann auch diskrete Gleichverteilung auf Ω. P ({w}) = 6 1. DER WAHRSCHEINLICHKEITSBEGRIFF Bemerkung 1.8. Mitunter kann man eine Partition A1 , . . . , Ak von Ω finden, d.h. A1 ∪ · · · ∪ AK = Ω, Ai ∩ Aj = ∅, i 6= j, mit 1 , i = 1, . . . , K. K Dann ist ({A1 , · · · , AK }, Pot ({A1 , · · · , AK }), P ) ein Laplace’scher W-Raum. P (Ai ) = Proposition 1.9. Es sei (Ω, F, P ) ein W-Raum und seien A, B ∈ F. (i) P (∅) = 0 (ii) P (A ∪ B) = P (A) + P (B), (iii) P (B\A) = P (B) − P (A), falls A ∩ B = ∅ sofern A ⊂ B. c (iv) P (A ) = 1 − P (A) (v) Aus A ⊂ B folgt P (A) ≤ P (B) (vi) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) P S (vii) P ( ni=1 Ai ) ≤ ni=1 P (Ai ) für alle A1 , . . . , An ∈ F (Subadditivität) Satz 1.10. (Siebformel von Sylvester-Poincaré) Sei (Ω, F, P ) ein W-Raum und {An : n ≥ 1} ⊂ F. Dann gilt ! n n X [ X P Ak = P (Ak ) − P (Ai1 ∩ Ai2 ) k=1 1≤i1 <i2 ≤n k=1 + X P (Ai1 ∩ Ai2 ∩ Ai3 ) ∓ · · · 1≤i1 <i2 <i3 ≤n + (−1)n+1 P n \ k=1 ! Ak KAPITEL 2 Diskrete Wahrscheinlichkeitsräume und Urnenmodelle 1. Diskrete Wahrscheinlichkeitsräume Definition und Lemma 2.1. Ω 6= ∅ sei eine höchstens abzählbare Menge. Ist P ein Wahrscheinlichkeitsmaß auf F = Pot(Ω), dann heißt (Ω, P ) diskreter Wahrscheinlichkeitsraum. P kann dann vermöge P (A) = X A ∈ F, p(w), w∈A durch eine Abbildung p : Ω → [0,1] mit X p(w) = 1 w∈Ω definiert werden. p heißt Zähldichte oder Wahrscheinlichkeitsfunktion. Lemma 2.2. Ist (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, dann gibt es genau eine Funktion p : Ω → [0,1] mit (∗) P (A) = X p(w), ∀A ⊂ Ω. w∈A Es gilt: p(w) = P ({w}), w ∈ Ω. Somit ist P die Zähldichte. Charakterisierung der σ-Additivität für Wahrscheinlichkeitsmaße auf ∞-lichen diskreten Wahrscheinlichkeitsräumen (wird wirklich benötigt!). Lemma 2.3. Ω sei eine abzählbare unendliche Menge und P : Pot(Ω) → R eine Abbildung mit (i) 0 ≤ P (A) ≤ 1 ∀A ∈ Pot(Ω) (ii) P (Ω) = 1 7 8 2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE (iii) P (A1 ∪ A2 ) = P (A1 ) + P (A2 ), falls A1 ∩ A2 = ∅, A1 , B2 ∈ Pot(Ω) (endliche Additivität). Dann gilt X P ({w}) ≤ 1. w∈Ω Folgende Aussagen sind äquivalent (1) X P ({w}) = 1 w∈Ω (2) P (A) = X P ({w}) ∀A ∈ Pot(Ω) w∈A (3) P ∞ [ i=1 ! Ai = ∞ X P (Ai ), ∀{Ai } ⊂ Pot(Ω), Ai i=1 paarweise disjunkt (σ-Additivität). Definition 2.4. Sei Ω 6= ∅ abzählbar und w ∈ Ω fest, dann heißt die durch ( 1, w ∈ A, εw (A) = 1A (w) = 0, w 6∈ A, definierte Wahrscheinlichkeits-Verteilung εw : Pot(Ω) → [0,1] Dirac-Verteilung oder Dirac-Maß (Einpunktverteilung) im Punkt w ∈ Ω. Definition 2.5. Sei (Ω, F, P ) ein diskreter Wahrscheinlichkeitsraum. Dann heißt T : supp(P ) = {w ∈ Ω : P ({w}) > 0} Träger von P. Lemma 2.6. (Ω, F, P ) sei ein diskreter Wahrscheinlichkeitsraum. Dann gilt X P (A) = P ({w}) · εw (A), A ⊂ Ω w∈supp(P ) (P ist die gewichtete Summe von Dirac-Maßen). 1. DISKRETE WAHRSCHEINLICHKEITSRÄUME 9 Beispiel 2.7. (Problem des Chevalier de Méré, 1607-1685) Man würfelt mit 3 Würfeln. Was ist wahrscheinlicher: Augensumme 11 oder 12? Modell Ω = {w = (w1 , w2 , w3 ) : wi ∈ {1, . . . , 6}, i = 1,2,3}, (∗) 1 1 , ∀w ∈ Ω. = 3 6 216 p(w) = P ({w}) = Wahrscheinlichkeitsraum: (Ω, F, P ), wi : i-ter Wurf. F = Pot(Ω) und P das durch (∗) festge- legte Wahrscheinlichkeitsmaß (Laplace-Raum). Relevante Ereignisse |A| , |Ω| |B| B = {w ∈ Ω : w1 + w2 + w3 = 12}, P (B) = . |Ω| A = {w ∈ Ω : w1 + w2 + w3 = 11}, P (A) = Bestimme |A| und |B|. A : 6, 4, 1 B : 6, 5, 1 6, 3, 2 6, 4, 2 5, 5, 1 6, 3, 3 5, 4, 2 5, 5, 2 5, 3, 3 5, 4, 3 4, 4, 3 4, 4, 4 Also: A = {alle 3! P ermutationen von (6, 4, 1)} 6 ∪{alle 3! P ermutationen von (6, 3, 2)} 6 ∪{(5, 5, 1), (5, 1, 5), (1, 5, 5)} 3 ∪{alle 3! P ermutationen von (5, 4, 2)} 6 ∪{(5, 3, 3), (3, 5, 3), (3, 3, 5)} 3 ∪{(4, 4, 3), (4, 3, 4), (3, 4, 4)} 3 → |A| = 27 10 2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE B = {alle 3! P ermutationen von (6, 5, 1)} ∪{alle 3! P ermutationen von (6, 4, 2)} ∪{(6, 3, 3), (3, 6, 3), (3, 3, 6)} ∪{(5, 5, 2), (5, 2, 5), (2, 5, 5)} ∪{alle 3! P ermutationen von (5, 4, 3)} ∪{(4, 4, 4)} → |B| = 25 27 25 > = P (B). 216 216 De Méré bemerkte diesen Unterschied, konnte ihn aber nicht beweisen. ⇒ P (A) = Beispiel 2.8. (Spielabbruch) Zwei Spieler spielen eine Folge von Spielen. Gewinnwahrscheinlichkeit: jedes Mal für jeden 1 2 Spieler unabhängig. Beide Spieler bringen den gleichen Einsatz ein. Es gewinnt derjenige, der als erster 10 Spiele gewonnen hat. Spielstand nach 15 Spielen: A 8 Spiele gewonnen B 7 Spiele gewonnen Durch ein unvorhergesehenes Ereignis werden beide gezwungen, ihre Spielfolge abzubrechen. Man einigt sich, das Geld entsprechend der Gewinnchancen aufzuteilen. Ansatz 1 Spätestens nach vier weiteren Spielen wäre alles entschieden. 16 mögliche Spielverläufe AAAA AABB ABBB AAAB ABAB BABB AABA ABBA BBAB ABAA BAAB BBBA BAAA BABA BBBB BBAA |{z} | {z } | {z } A gewinnt ≥ 3× A gewinnt 2× B Sieger (5) | (6) {z A Sieger (11) (5) } A gewinnt 1 × ← B gewinnt 4 × 2. KOMBINATORIK UND URNENMODELLE 11 Aus Symmetriegründen sind alle Spielverläufe gleichwahrscheinlich. A ist bei 11 Spielverläufen Sieger, B bei 5 ⇒ A müsste 11 16 des Geldes bekommen, B 5 . 16 So argumentierte Pascal 1654 in einem Brief an Fermat. Ansatz 2 Einwand: Die meisten Spielverläufe treten nicht wirklich ein, da meist vorher der Sieger schon feststeht. Tatsächlich mögliche Spielverläufe W ahrscheinlichkeit 1 4 1 8 1 16 1 8 1 16 AA ABA ABBA BAA BBAA BABA | {z } 1 16 1 8 1 16 1 16 ABBB BBB BABB BBAB 1 16 |{z} |{z } 11 16 A Sieger W ahrscheinlichkeit |{z} 5 16 B Sieger A gewinnt bei 6 Spielverläufen, B bei 4. Also 6 10 zu 4 10 ? Nein! Denn: Spielverläufe sind nicht gleichwahrscheinlich. (s.o.) Berücksichtigt man die unterschiedlichen Wahrscheinlichkeiten, erhält man dasselbe Ergebnis wie beim Ansatz 1. 2. Kombinatorik und Urnenmodelle Erinnerung: Laplace-Raum Ω = {w1 , . . . , wn } , |Ω| = n F = Pot(Ω), P (A) = P ({w}) = 1 , ∀w ∈ Ω, n |A| , A ∈ F. |Ω| Berechnung von P (A) erfordert das Abzählen von A und Ω. Dies erfordert kombinatorische Überlegungen. Abstraktion: |◦ ◦ ◦| Urne mit Kugeln 12 2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE Oft ist eine Rückführung auf die Urnenmodelle möglich. Man kann vier Situationen unterscheiden mit Zurücklegen (Wiederholung) Ziehen ohne Zurücklegen (ohne Wiederholung) in Reihenfolge (→ Tupel) Ziehen ohne Reihenfolge (→ Mengen, oder geordneter Tupel) Urnenmodell I Ziehen mit Zurücklegen, in Reihenfolge ΩI = {w = (w1 , . . . , wk ) : wi ∈ {1, . . . , n}, = {1, . . . , n}k i = 1, . . . , k} (kartesischesP rodukt) Es gilt : |ΩI | = nk Urnenmodell II Ohne Zurücklegen, in Reihenfolge ΩII = {w = (w1 , . . . , wn ) : wi 6= wj |ΩII | = n(n − 1) · . . . · (n − k + 1) = für i 6= j, n! (n − k)! 1 ≤ i, j ≤ n} = : nk = : (n)k 2. KOMBINATORIK UND URNENMODELLE 13 Für k = n ist |ΩII | = n!, nk = 0 für k > n. ΩII ist die Menge der Permutationen der Zahlen 1, . . . , n : Jede Permuation π : {1, . . . ,n} → {1, . . . , n} kann durch den Vektor (π(1), π(2), . . . , π(n)) ∈ ΩII angegeben werden. Urnenmodell III Ziehen ohne Zurücklegen, ohne Reihenfolge. Man kann sortierte Tupel ΩIII = {(w1 , . . . , wk ) ∈ {1, . . . , n} k : w1 < · · · < wk } Relevant ist nur welche Kugel gezogen wurde, nicht wann Sie gezogen wurde. (Vergleiche: Lotto), oder Teilmengen verwenden: 0 ΩIII = {A ⊂ {1, . . . , n} : Bijektion: π : ΩIII → |A| = k} 0 ΩIII Für w = (w1 , . . . , wk ) ∈ ΩIII definiere π(w) = {w1 , . . . , wk }. 0 Da w1 < · · · < wk gilt |π(w)| = |{w1 , . . . , wk | = k, also π(w) ∈ ΩIII . Injektivität: Seien 0 0 0 w = (w1 , . . . , wk ), w = (w1 , . . . , wk ) ∈ ΩIII 0 mit w 6= w . Dann existiert ein i ∈ {1, . . . , k} mit 0 wi 6= wi ⇒ {(w1 , . . . , wk } k π(w) = 6 0 0 {w1 , . . . , wk } k 0 π(w ) 14 2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE Surjektivität: Sei A = {a1 , . . . , ak } mit a1 , . . . , ak ∈ {1, . . . , n} und |A| = k vorgegeben. Dann existiert eine Permutation p, so dass ap(1) < · · · < ap(k) Also gilt(ā) = (ap(1) , . . . , ap(k) ) ∈ ΩIII und wir erhalten π(ā) = {ap(1) , . . . , ap(k) } = {a1 , . . . , ak } = A. 0 Abzählen von ΩIII = {A ⊂ {1, . . . , n} : |A| = k}. Definiere die surjektive Abbildung 0 π̄ : ΩII → ΩIII durch (w1 , . . . , wk ) π̄ 7→ {w1 , . . . , wk } (π̄ ist wie π definiert, jedoch auf ΩII ). Urbilder von {w1 , . . . , wk } sind alle k! Permutationen der Elemente w1 , . . . , wk . 0 ⇒ ΩII hat (k!) mal so viele Elemente wie ΩIII 0 ⇒ |ΩIII | = |ΩII | nk = k! k! Definition 2.9. Für r ∈ R und n ∈ N definiert man den Binomialkoeffizient nr durch r r(r − 1) · . . . · (r − n + 1) . = n n! Man setzt noch 0r = 1. Für n ∈ N und k ∈ {0, . . . , n} gibt nk die Anzahl der Möglichkeiten an, aus einer n-elementigen Teilmenge eine k-elementige auszuwählen. Alternativ: Man hat die Äquivalenzrelation 0 0 (w1 , . . . , wk ) ∼ (w1 , . . . , wk ) : ⇔ ∃ P ermutation p = (p(1), . . . , p(n)) von 1, . . . , n mit 0 wp(i) = wi , Zeige: i = 1, . . . , k. 2. KOMBINATORIK UND URNENMODELLE 15 (i) ∼ ist Äquivalenzrelation (ii) ΩIII = ΩII / ∼ Menge der Äquivalenzklassen. Jede Äquivalenzklasse kann durch den Repräsentanten (w1 , . . . , wk ) mit w1 < · · · < wk beschrieben werden. Jede Äquivalenzklasse hat genau k! Elemente. Man hat n n! n = = , k (n − k)! k! n−k Für k > n setze nk = 0. Mit 0! = 1 gilt dann n n = , k k−k ∀ n ≥ 0, 1 ≤ k ≤ n. k = 0, . . . , n (Anzahl der k-elementigen Teilmengen, 0-elementige Teilmenge ist ∅). Urnenmodell IV Ziehen mit Zurücklegen, ohne Reihenfolge ΩIV = {(w1 , . . . , wk ) ∈ {1, . . . , n}k : w1 ≤ · · · ≤ wk } ↑ wegen Zurücklegen. ΩIV entspricht der Menge der Äquivalenzklassen von ΩI unter der Äquivalenzrelation ∼ wie oben. Repräsentanten (w1 , . . . , wn ) mit w1 ≤ . . . ≤ wk . Ordne jedem (w1 , . . . , wk ) ∈ ΩIV das Tupel 0 0 0 (w1 , . . . , wk ) mit w1 = wi + i − 1 0 zu. Dann sind die wi strikt geordnet, 0 0 w1 < · · · < wn 0 e III gegeben, und wi ∈ {1, . . . , n+k−1}. Hierdurch ist eine Bijektion δ : ΩIV → Ω wobei e III = {(w0 , . . . , w0 ) ∈ {1, . . . , n + k − 1}k : w0 < · · · < w0 } Ω 1 k 1 k 16 2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE (Dies ist gerade ΩIII , wenn man n durch n + k − 1 ersetzt.) e III | = ⇒ |Ω n+k−1 = |ΩIV | k d Injektivität von δ: w, w e ∈ ΩIV mit w 6= w e ⇒wi 6= wei für ein i ⇒(δ(w))i = wi + i − 1 6= wei + i − 1 = (δ(w)) e i ⇒δ(w) 6= δ(w). e Surjektivität von δ: 0 e III ⇒ w10 < · · · < w0 . Sei w ∈ Ω k Wähle 0 w = (w1 , . . . , wn ) mit wi = wi − i + 1 0 0 ⇒(δ(w))i = wi − i + 1 + (i − 1) = wi , i = 1, . . . , k 0 ⇒δ(w) = w . b Alternative Herleitung (wie erklärt man’s Nichtmathematikern?) Buchführung über die Ziehung in der Praxis: ∧ Strichliste mit n Feldern = n Kugeln. Vermerke durch Striche, wie oft die jeweilige Kugel gezogen wurde 1 2 3 ... n II I III ⇒ Jede Strichprobe im Modell ΩIII ist durch die Anordnung der n − 1 großen Striche und k kleinen Striche bestimmt. Man hat insgesamt n − 1 + k Striche (Objekte). Wählt man von den n − 1 + k Strichen k aus und macht aus ihnen kleine und aus den anderen große Striche, dann erhält man eine zulässige Stichprobe. Offensichtlich erhält man hierdurch 2. KOMBINATORIK UND URNENMODELLE 17 auch alle Stichproben. Hierfür gibt es genau n−1+k Möglichkeiten. Es folgt also: k n−1+k ΩIV = k Lemma 2.10. Newton’sche Binomialformel n X n n (x + y) = xk y n−k k k=u Übersicht: Ziehen mit Zurücklegen Ziehen ohne Zurücklegen in Reihenfolge |ΩI | = nk ohne Reihenfolge |ΩIV | = n+k−1 k |ΩII | = (n)k |ΩIII | = nk Definition und Lemma 2.11. (Multinomialkoeffizient) Die Anzahl der Möglichkeiten, eine Menge A der Mächtigkeit k in n Teilmengen A1 , . . . ,An der Mächtigkeit k1 , . . . ,kn , k1 + · · · + kn = k, aufzuteilen, ist durch den Multinominalkoeffizienten k k! := k 1 ! · . . . · kn ! k1 , . . . , k n k gegeben. (Man setzt k1 ,...,k : = 0, falls die Bedingung nicht erfüllt ist.) n Beispiel 2.12. k = 6 Fotos sollen auf n = 3 Seiten eines Fotoalbums verteilt werden, so dass • auf Seite 1 ein Foto, • auf Seite 2 drei Fotos und • auf Seite 3 zwei Fotos sind. 18 2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE Wieviele Möglichkeiten hierfür gibt es? Lösung: 6 6! 6·5·4·3·2·1 = = 1 3 2 1! 3! 2! 1·3·2·2 = 20. Beispiel 2.13. (Geburtstagsproblem) Gegeben: Wahrscheinlichkeit pk , mit der von k ausgewählten Personen mindestens zwei an demselben Tag Geburtstag haben. Modell: ∧ Urne mit 365 Kugeln = Geburtstag. Ziehe k Mal mit Zurücklegen in Reihenfolge ΩI = {(w1 , . . . , wk ) : wi ∈ {1, . . . , 365}, i = 1, . . . , k} wi : Geburtstag der i-ten ausgewählten Person, i = 1, . . . , k. Laplace’scher Wahrscheinlichkeitsraum: |ΩI | = 365k Ereignis Ek , dass kein Geburtstag doppelt vorkommt, ist: Ek = {(w1 , . . . , wk ) ∈ Ω : wi 6= wj , ∀ i 6= j, i,j = 1, . . . , k} Also: Ek = ΩII ⊂ ΩI , so dass |Ek | = Card(Ek ) = 365k ⇒ pk = P (Ēk ) = 1 − P (Ek ) = 1 − k 10 23 (365)k 365k 50 pk 0.12 0.51 0.97 Beispiel 2.14. (Hashing) Speichere k Objekte in einem Array der Länge n, k ≤ n. Wähle den Speicherplatz zufällig aus. Ist ein Platz schon vergeben, dann spricht man von einer Kollision. Bezeichne Ank das Ereignis einer Kollision. Modell: Ω = ΩI , Laplace’scher Wahrscheinlichkeitsraum. nk qnk = P (Acnk ) = P (Ek ) = k (analog zu Beispiel 2.13.) n 2. KOMBINATORIK UND URNENMODELLE 19 Analog: Zuordnung von Aufgaben an Prozessoren/Personen. Wir wollen eine obere Schranke für qnk bestimmen. Lemma 2.15. Es gilt im Modell von Beispiel 2.14. qnk ≤ exp − (k − 1)k 2n = : q̃k Beispiel 2.16. (Lotto) Lotto: n = 49 Kugeln, k = 6 Ziehungen ohne Zurücklegen. Ziehungsergebnis wird durch die Mengen {x1 , . . . , x6 }, xi ∈ {1, . . . , 49}, i = 1, . . . , 6 dargestellt. ⇒ Modell: ΩIII als Laplace-Raum. P ( 6 Richtige“) = ” 1 49 6 = 1 13.983.816 Gesucht: P ( 4 Richtige “) = ? ” Heuristik: Von den sechs Richtigen müssen genau vier ausgewählt werden ( 64 Möglichkeiten) , von den 43 übrigen Kugeln genau zwei ( 43 Möglichkeiten). 2 ⇒ Insgesamt gibt es also 64 · 43 Möglichkeiten. 2 Ein allgemeines Modell hierfür ist eine Urne mit S = 6 schwarzen und W = 43 weissen Kugeln. Definition 2.17. In einer Urne befinden sich n Kugeln, von denen S schwarz und W weiß sind, so dass also n = S + W gilt. Es werden nun k Kugeln ohne Zurücklegen gezogen. Wir wählen als Ergebnisraum ΩIII versehen mit der Laplace-Verteilung. Die schwarzen Kugeln werden mit den Nummern 1, . . . , S identifiziert, die weißen mit den übrigen. Das Ereignis Es = genau s Kugeln sind schwarz“ ist dann ” gegeben durch Es = {A ⊂ {1, . . . , n} | |A| = k, | A ∩ {1, . . . , S} | = s} S n−S ⇒ |Es | = · s k−s 20 2. DISKRETE WAHRSCHEINLICHKEITSRÄUME UND URNENMODELLE Die Wahrscheinlichkeit, dass die Stichprobe genau s schwarze Kugeln enthält ist: S n−S · s k−s , s = 0, . . . , k (∗) h(s; k, n, S) = P (Es ) = S+W k Da {E0 , . . . , Ek } eine disjunkte Zerlegung von Ω ist, definiert (∗) eine Wahrscheinlichkeitsfunktion auf {0, . . . , k}, die sogenannte hypergeometrische Verteilung. Wir betrachten nun die Gut-Schlecht-Prüfung in der Qualitätskontrolle: Von der Tagesproduktion von N Teilen seien S von schlechter und N − S von guter Qualität. Es werden nun n ausgewählt und geprüft, wobei wir der Einfachheit halber unterstellen, dass die Stichprobe durch Ziehen mit Zurücklegen gezogen wird. Definition 2.18. In einer Urne befinden sich S schwarze und W weiße Kugeln, N = S + W . Ziehe Stichprobe vom Umfang n mit Zurücklegen. N n mögliche Stichproben. Bei jedem Zug hat man sk Möglichkeiten, genau k schwarze Kugeln aus insgesamt S auszuwählen, (N −S)n−k Möglichkeiten, n−k weiße Kugeln aus insgesamt N −S auszuwählen. Es gibt nk Möglichkeiten, die schwarzen Kugeln auf k Plätze zu verteilen: 1 2 3 4 n ◦ • • ◦ ··· ◦ (k-mal und •, (n − k) -mal und ◦) Die Wahrscheinlichkeit für genau k schwarze Kugeln, 0 ≤ k ≤ n, ist dann gegeben durch S = b n,k, N n k · S k (N − S)n−k = Nn k n−k n S N −S n k = p (1−p)n−k k N N k S (Anteil der schwarzen Kugeln). Diese Verteilung heißt BinomialverN teilung B(n,p), n ist der Stichprobenumfang, p heißt Erfolgswahrscheinlichkeit. mit p = 2. KOMBINATORIK UND URNENMODELLE Die Newton’sche Binomialformel liefert: n X n k p (1 − p)n−k = (p + (1 − p))n = 1. k i=0 21 KAPITEL 3 Stetigkeit von Wahrscheinlichkeitsmaßen und ein 0-1-Gesetz In Beispiel c) von Abschnitt 1.1 hatten wir die Folge 1 In = x, x + , n ∈ N, n von Intervallen betrachtet, die anschaulich gegen I = {x} konvergiert, und gesehen, dass die Stetigkeitseigenschaft P (I) = P lim In = lim P (In ) = 0 n→∞ n→∞ gelten sollte. Wir wollen uns daher mit der Konvergenz von Mengen beschäftigen und die Stetigkeitseigenschaft von Wahrscheinlichkeitsmaßen studieren. Für festes A ⊂ Ω sei ( 1A (w) = 1(w ∈ A) = 1, w ∈ A 0, w 6∈ A die Indikatorfunktion von A. (Unterscheide 1A : Ω → [0,1] vom Dirac-Maß εw : F → [0,1]). Man hat 1A∪B = max(1A , 1B ) 1A∩B = min(1A , 1B ) = 1A · 1B 1Ac = 1 − 1A 1A4B = |1A − 1B | (A 4 B = A\B + B\A) Ferner A ⊆ B ⇒ 1A ≤ 1B . 23 24 3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ Definition 3.1. (Limes von monotonen Folgen von Ereignissen) (i) Sei F eine σ-Algebra über Ω 6= ∅ und {An } ⊆ F. {An } heißt isoton, falls An ⊂ An+1 ∀n ∈ N {An } heißt antiton, falls An ⊃ An+1 ∀n ∈ N. Schreibweisen: {An } % bzw. {An } &. (ii) Gilt {An } %, dann heißt ∞ [ lim An = n→∞ An = {w ∈ Ω | w ∈ An für ein n ∈ N} n=1 Limes von {An }. (iii) Gilt {An } &, dann heißt lim An = n→∞ ∞ \ An = {w ∈ Ω | w ∈ An , ∀ n ∈ N} n=1 Limes von {An }. Erinnerung: Ist {αn } ⊂ R, dann definiert man in der reellen Analysis: lim inf αn n = sup inf αi i≥n n | {z } monoton wachsend in n lim sup αn = inf n Definition 3.2. n sup αi i≥n | {z } monoton f allend in n 3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ 25 (i) Sei {An : n ∈ N} ⊂ F beliebig. dann heißt ∞ [ lim sup An = lim n→∞ n→∞ Ak = ∞ [ ∞ \ Ak n=1 k=n k=n | {z } fallend in n Limes superior von {An } und lim inf An = lim n→∞ n→∞ ∞ \ Ak = ∞ \ ∞ [ Ak n=1 k=n k=n Limes inferior von {An }. (ii) {An } ⊂ F heißt konvergent gegen A ⊂ Ω, wenn A = lim sup An = lim inf An n→∞ n→∞ An → A , n → ∞. Notation: Interpretation : {“∞ -viele An treten ein“} = {w : ∀ n ∈ N : ∃ k ≥ n : w ∈ Ak } S T = ∞ n=1 k≥n Ak = lim supn→∞ An {“alle bis auf endliche viele der An treten ein“} = {w : ∃ n ∈ N : ∀ k ≥ n : w ∈ Ak } S T = ∞ n=1 k≥n Ak = lim inf n→∞ An Frage: Sind lim sup An , lim inf An stets Ereignisse? n n (Für F = P ot(Ω) ist das trivial). Lemma 3.3. (i) Es sei F eine σ-Algebra und {An : n ∈ N} ⊂ F eine Folge von messbaren Mengen. Dann gilt: lim sup An , lim inf An ∈ F n→∞ n→∞ (ii) Stets gilt: lim inf An ⊂ lim sup An n→∞ n→∞ 26 3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ (iii) Man hat die Darstellungen ∞ \ lim inf An = lim n→∞ n→∞ lim sup An = lim n→∞ n→∞ k=n ∞ [ Ak Ak k=n Lemma 3.4. (Ω, F, P ) sei ein Wahrscheinlichkeitsraum, {An } ≤ A. Dann gilt: (i) Ist {An } %, dann folgt ! ∞ [ P An = P lim An = lim P (An ) n→∞ n=1 n→∞ (Stetigkeit von unten.) (ii) Ist {An } &, dann folgt ! ∞ \ P An = P lim An = lim P (An ) n→∞ n=1 n→∞ (Stetigkeit von P von oben.) (iii) Stets gilt: P lim sup An = lim P n→∞ n P lim inf An n = lim P n→∞ ∞ [ P n=1 (Sub-σ-Additivität) ! An ≤ ∞ X n=1 Ak k=n ∞ \ k=n (iv) ∞ [ ! P (An ) ! Ak 3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ 27 (v) P lim inf An ≤ lim inf P (An ) n n ≤ lim sup P (An ) ≤ P lim sup An n n Basierend auf der allgemeinen Definition An konvergent ⇔ lim inf An = lim sup An n→∞ n→∞ überzeugen wir uns noch, dass die Definitionen für isotone und antitone Folgen sinnvoll sind. Lemma 3.5. Seien An ⊂ Ω, n ∈ N (i) Ist {An : n ∈ N} isoton, dann gilt lim An = : A = n→∞ ∞ [ An n=1 (ii) Ist {An : n ∈ N} antiton, dann gilt lim An = : A = n→∞ ∞ \ An n=1 Lemma 3.6. (Borel-Cantelli) Gilt ∞ X P (An ) < ∞, n=1 dann folgt P (An , ∞ − oft) = P lim sup An = 0. n→∞ Beispiel 3.7. Eine Münze wird ∞-oft geworfen, wobei mit Wahrscheinlichkeit p ∈ (0,1) Kopf erscheint. (Ein Computer erzeugt eine zufällige Binärfolge, wobei mit Wahrscheinlichkeit p eine 1 generiert wird). Es sei Ak das Ereignis, dass unter den Würfen mit den Nummern 2K , 2k + 1, . . . , 2k+1 − 1, k mal hintereinander Kopf 28 3. STETIGKEIT VON WAHRSCHEINLICHKEITSMASSEN UND EIN 0-1-GESETZ erscheint. Letzteres habe stets Wahrscheinlichkeit pk . Behauptung: P (“Ak tritt ∞-oft ein “) = 0, falls p < 1 2 KAPITEL 4 Bedingte Wahrscheinlichkeiten Sei A ∈ F ein Ereignis mit Eintrittswahrscheinlichkeit P (A). Frage: Wie ändert eine (Vor-)Information/Bedingung B ∈ A ( B ist (schon) ” eingetreten“) die Eintrittswahrscheinlichkeit für A? Gesucht: Bedingte Wahrscheinlichkeit von A gegeben B → P (A|B) Beispiel 4.1. (i) Intuition: P ( Stau“) < P ( Stau“ | Ostermontag“) ” ” ” A = Download dauert ≤ 20 sec “, B = Vormittag“ ” ” P (A) > P (A|B) (ii) Würfelwurf: Person 1: würfelt mit einem Würfel und kennt das Ergebnis (→ keine nichttrivialen Wahrscheinlichkeiten) Person 2: erfährt von Person 1 nichts! → Ω = {1, . . . , 6}, Laplace-Experiment P ( 2“) = P ({2}) = 16 ” Person 3: erfährt von Person 1, dass eine gerade Zahl gewürfelt wurde. → Ω = {2,4,6}, Laplace-Experiment P ( 2“) = 13 . ” Ereignis A = {2}, Information: B = {2,4,6}. Bedingte Wahrscheinlichkeit sollte liefern P (A|B) = 13 , wenn man mit dem Wahrscheinlichkeitsraum von Person 2 arbeitet. (iii) Ziehe aus einer Urne mit 2 weißen und 3 schwarzen Kugeln ohne Zurücklegen. 29 30 4. BEDINGTE WAHRSCHEINLICHKEITEN Intuition: P (“2-te Kugel schwarz“| “1. Kugel weiß“) = 43 Ω = {(w1 , w2 ) | w1 , w2 ∈ {1, . . . , 5}, w1 6= w2 }, |Ω| = 5 · 4 = 20 weiße Kugeln: 1,2 schwarze Kugeln: 3,4,5 A = “2. Kugel schwarz“ = {(i, j) | i ∈ {1, . . . , 6} , j ∈ {3,4,5}} = {(1, 2) , . . . , (1,5), (2,1), . . . , (2,5)} B = “1. Kugel weiß“ A ∩ B = {(1,3), (1,4), (1,5), (2,3), (2,4), (2,5)} Unter der Bedingung B können nur noch Ausgänge ω ∈ B eintreten, B bildet die Menge der ” möglichen Fälle“, Teilmengen von B bilden die ” günstigen Fälle“. Man hat |A ∩ B| = 6 und |B| = 8, so dass “P (A|B)“ = |A ∩ B| 6 = = |B| 8 6 20 8 20 = P (A ∩ B) . P (B) Definition und Lemma 4.2. Es sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Für jedes feste B ∈ F mit P (B) > 0 wird durch P (A ∩ B) , A ∈ F, P (B) ein Wahrscheinlichkeitsmaß auf (Ω, F) definiert. P (·|B) heißt bedingte WahrP (A|B) := scheinlichkeit (bedingte Verteilung) unter der Bedingung B. Bemerkung 4.3. Man kann P (·|B) auch als Wahrscheinlichkeitsmaß auf dem Teilraum B ⊂ Ω versehen mit der Spur-σ-Algebra B ∩ F betrachten. D.h.: (B, B ∩ F, P (·|B)) ist ein Wahrscheinlichkeitsraum. Man hat für A ∈ B ∩ F : A = B ∩ F für ein F ∈ F 4. BEDINGTE WAHRSCHEINLICHKEITEN Daher folgt: P (A|B) = P (B ∩ F |B) = 0 0 P (F ∩B) P (B) 31 = P (F |B) 0 Gilt A = B ∩ F für F ∈ F mit F 6= F , dann erhält man ebenfalls P (A|B) = P (F 0 |B) = P (F 0 ∩ B) P (F ∩ B) = = P (F |B). P (B) P (B) Also ist P (·|B) auf B ∩ F wohldefiniert. Lemma 4.4. T Seien A, B, A1 , . . . , An ∈ A , P (A) > 0, P (B > 0) und P ( ni=1 Ai ) > 0. Dann gilt: (i) P (A|B) = P (A) P (B|A) P (B) (ii) P (A ∩ B) = P (A|B)P (B) = P (B|A) · P (A) (iii) P n \ ! Ai i=1 ! ! n−1 n−2 \ \ = P An Ai P An−1 Ai · · · P (A3 |A1 ∩ A2 )P (A2 |A1 )P (A1 ) i=1 i=1 ! n i−1 Y \ = P Ai Aj i=1 j=1 Beispiel 4.5. Wir wollen die Wahrscheinlichkeit berechnen, dass bei einem Skatspiel drei Spieler genau ein As haben. Sei Ai = Spieler i hat genau ein As“, i = 1,2,3. ” Gesucht: P (A1 ∩ A2 ∩ A3 ) = P (A1 ) P (A2 |A1 ) P (A3 |A1 ∩ A2 ) Modell: 32 4. BEDINGTE WAHRSCHEINLICHKEITEN Wir können annehmen, dass die 32 gewünschten Karten in der folgenden Reihenfolge ausgeteilt werden: 10 Karten an Spieler 1 10 Karten an Spieler 2 in dieser Reihenfolge y 10 Karten an Spieler 3 2 → Skat Dann gilt: P (A1 ) = P (A2 |A1 ) = P (A3 |A1 ∩ A2 ) = 4 1 28 9 32 10 3 19 1 9 22 10 2 10 1 9 12 10 (hypergeometrisch!) Somit erhalten wir: P (A1 ∩ A2 ∩ A3 ) ≈ 0,0556 Satz 4.6. (totale Wahrscheinlichkeit, Satz von Bayes) Seien A, Bn ∈ F, n ∈ N, Bn paarweise disjunkt, A ⊂ ∞ [ Bn . (= Ω meist) n=1 Dann gilt (i) P (A) = ∞ X P (A|Bn ) P (Bn ) n=1 (wobei man P (A|Bn ) P (Bn ) = 0 setzt, wenn P (Bn ) = 0) 4. BEDINGTE WAHRSCHEINLICHKEITEN 33 (ii) Baye’sche Formel. Falls P (A) > 0, dann gilt: P (A|Bk ) P (Bk ) P (Bk |A) = P∞ . n=1 P (A|Bn ) P (Bn ) Beispiel 4.7. Serienartikel werden auf drei Fertigungsanlagen parallel gefertigt. Die Anteile an der Produktion seien gegeben durch Anlage i P (Ai ) 1 2 3 0.3 0.2 0.5 mit Ai : Artikel wird auf Anlage i produziert“, i = 1,2,3. Die Ausschussraten der ” Anlagen seien bekannt: i 1 2 3 P (B|Ai ) 0.05 0.03 0.09 (a) Die Wahrscheinlichkeit P (B) für das Ereignis B = zufällig ausgewähltes ” Stück ist fehlerhaft“ berechnet sich zu P3 P (B) = i=1 P (B|Ai ) P (Ai ) = 0,066 = 6,6% (b) Für die Wahrscheinlichkeit, dass ein einwandfreies Stück auf Anlage 3 produziert wurde, ergibt sich P (B c |A3 )P (A3 ) P (A3 |B c ) = = P = 0,487 c i P (B |Ai )P (Ai ) (P (B c |Ai ) = 1 − P (B|Ai ) , da P (·|Ai ) Wahrscheinlichkeitsverteilung). Beispiel 4.8. Von einer Millionen Münzen sei eine falsch und die übrigen fair. Ziehe zufällig eine Münze und werfe diese 20 Mal. Wie wahrscheinlich ist es, dass die Münze 34 4. BEDINGTE WAHRSCHEINLICHKEITEN fair ist, wenn 20 Mal Zahl beobachtet wurde? Mit den Ereignissen A: faire Münze wird gezogen“ ” B: 20 Mal Zahl“ ” erhalten wir 1M io − 1 = 1 − 10−6 , P (Ac ) = 10−6 1M io. P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ) 20 1 = · (1 − 10−6 ) + 1 · 10−6 ≈ 0,2 · 10−5 2 P (A) = und hieraus die gesuchte bedingte Wahrscheinlichkeit P (A) = 0,4881 P (A|B) = P (B|A) · | {z } P (B) 20 ( 12 ) Beispiel 4.9. Ein Diagnoseverfahren für eine Krankheit habe folgende Eigenschaften: - mit Wahrscheinlichkeit 0,9 wird ein Kranker als krank erkannt - mit Wahrscheinlichkeit 0,05 wird ein Gesunder als krank eingestuft. (FalschPositiv-Rate). B = Diagnoseverfahren liefert den Befund: krank“, G = Person gesund.“ ” ” Die Krankheit sei selten: 1 % der Bevölkerung krank. Gesucht: Wahrscheinlichkeit, dass eine zufällig ausgewählte Testperson gesund ist, falls die Diagnose einen Befund liefert, also die Fehlerrate P (G|B). Dies ist eine relevante Wahrscheinlichkeit für die Beurteilung von Screenings. Lösung: Gegeben sind die folgenden (bedingten) Wahrscheinlichkeiten. P (B|Gc ) = 0,9 P (B|G) = 0,05 P (Gc ) = 0,01 4. BEDINGTE WAHRSCHEINLICHKEITEN 35 Daraus folgt: P (B) = P (B|Gc )P (Gc ) + P (B|G)P (G) = 0,0585 und somit P (B|G) = P (B|G)P (G) = 0,846 P (B) Das Ergebnis hängt stark von P (B|G) ab: P (B|G) P (G|B) 0,01 0,52 0,001 0,1 Nur für sehr kleine Werte von P (B|G) erhält man bei seltenen Krankheiten akzeptable Falsch-Positiv-Raten. KAPITEL 5 Stochastische Unabhängigkeit Heuristik: Sind A, B unabhängig“, dann sollte gelten: ” P (A|B) = P (A) und P (B|A) = P (B), sofern P (A) > 0, P (B) > 0. Die Kenntnis (Information) von B ändert nicht die Wahrscheinlichkeit für A. Beispiel 5.1. Aus einer Urne mit zwei weißen und drei schwarzen Kugeln werden zwei Kugeln mit Zurücklegen gezogen. Ω = {(i,j) | 1 ≤ i,j ≤ 5} , |Ω| = 52 = 25 weiße Kugeln: 1,2 schwarze Kugeln: 3,4,5 A = zweite Kugel schwarz“ = {(i,j) | j ∈ {3,4,5} , i ∈ {1, . . . ,5}} ” |A| = 5 · 3 B = erste Kugel weiß“ = {(i,j) | i ∈ {1,2} , j ∈ {1, . . . ,5}} ” |B| = 2 · 5 = 10 15 3 10 2 = , P (B) = = 25 5 25 5 6 P (A ∩ B) = 25 6 3 P (A|B) = 25 = P (A) 2 = 5 5 P (A) = 37 38 5. STOCHASTISCHE UNABHÄNGIGKEIT Dies ist im Einklang mit unserer Intuition: Die Ziehungen beeinflussen sich nicht, da die gezogenen Kugeln zurückgelegt werden. Da P (A|B) = P (A) folgt P (A ∩ B) = P (A|B)P (B) = P (A) · P (B) Definition 5.2. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ F heißen unabhängig, wenn P (A ∩ B) = P (A) · P (B). Lemma 5.3. (i) A,B stochastisch unabhängig ⇒ A,B c sowie Ac ,B c stochastisch unabhängig (ii) Gilt P (B) > 0, dann folgt A, B stochastisch unabhängig ⇔ P (A|B) = P (A) (iii) Ist A Nullmenge, d.h. P (A) = 0, dann gilt: A, B stochastisch unabhängig ∀B ∈ F. Bemerkung 5.4. Ob Ereignisse A, B unabhängig sind, hängt von dem verwendeten Wahrscheinlichkeitsmaß ab! Illustration: Sei Ω = {1,2,3}, A = {1}, B = {1,2} P = ε1 (Dirac-Verteilung in 1) Q = Laplace-Verteilung ⇒ P (A ∩ B) = ε1 ({1}) = 1 = P (A) · P (B) 5. STOCHASTISCHE UNABHÄNGIGKEIT ⇒ A, B unabhängig unter P . Aber: Q(A ∩ B) = Q({1}) = 1 3 Q(A) · Q(B) = Q({1}) · Q({1,2}) = 1 1 2 · = 6 3 3 3 ⇒ A, B stochastisch abhängig unter Q ! Beispiel 5.5. Eine gefälschte Münze, (K: Kopf, Z: Zahl) werde zweimal geworfen. Es gelte: P (Z) = p ∈ (0,1), P (K) = 1 − p. Wähle Ω = {K,Z}2 und betrachte die Ereignisse A = Z im 1. Wurf“= {(Z, Z), (Z,K)} ” B = einmal Zahl“= {(Z, K), (K,Z)} ” Man erhält P (A) = p2 + p (1 − p) = p P (B) = 2p (1 − p) A ∩ B = {(Z, K)} P (A ∩ B) = p (1 − p) A, B stochastisch unabhängig ⇔ P (A ∩ B) = P (A) · P (B) ⇔ p (1 − p) = p · 2p (1 − p) ⇔ 2p = 1 1 ⇔p= . 2 39 40 5. STOCHASTISCHE UNABHÄNGIGKEIT Definition 5.6. Eine Familie {Ai : i ∈ I} ⊂ F, I 6= ∅, heißt paarweise stochastisch unabhängig, wenn P (Ai ∩ Aj ) = P (Ai ) P (Aj ) ∀i, j ∈ I, i 6= j. Beispiel 5.7. 2-facher Würfelwurf: Ω = {1, . . . , 6}2 , |Ω| = 36. Betrachte Ω als Laplace’schen Wahrscheinlichkeitsraum. Sei Ai = Gerade Augenzahl bei Wurf i“, i = 1,2. ” A1 = {(i,j) : i ∈ {2,4,6}, j ∈ {1, . . . , 6}, |A1 | = 3 · 6 = 18 A2 analog P (A1 ) = P (A2 ) = 18 36 = 12 . A1 ∩ A2 = {(i,j) : i,j ∈ {2,4,6}}, |A1 ∩ A2 | = 3 · 3 = 9 ⇒ P (A1 ∩ A2 ) = 9 36 = 1 4 = P (A1 )P (A2 ) Also: A1 , A2 sind stochastisch unabhängig. A3 = Summe der Augenzahlen gerade“. ” A1 ∩ A3 = {(i,j) : i ∈ {2,4,6}, j ∈ {2,4,6}} = A1 ∩ A2 ⇒ P (A1 ∩ A3 ) = P (A1 ∩ A2 ) = 21 , d. h. A1 , A3 unabhängig. Analog: A2 , A3 unabhängig ⇒ {A1 ,A2 ,A3 } ist Familie paarweise stochastisch unabhängiger Ereignisse. Frage: Gilt auch P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ) = 81 ? A1 ∩ A2 ∩ A3 = Beide Würfe gerade und Summe gerade“= A1 ∩ A2 ” ⇒ P (A1 ∩ A2 ∩ A3 ) = 21 6= 81 Aus der paarweisen stochastischen Unabhängigkeit folgt also nicht die Gültigkeit einer allgemeinen Produktformel. Definition 5.8. Eine Familie {Ai · i i ∈ I} ⊆ F, I 6= ∅, heißt (vollständig) stochastisch unabhängig, falls für jede endliche Teilmenge ∅ = 6 J ⊂ I gilt: ! \ Y P Aj = P (Aj ) j∈J j∈J 5. STOCHASTISCHE UNABHÄNGIGKEIT 41 Bemerkung 5.9. (i) {Ai } stochastisch unabhängig ⇒ {Ai } paarweise unabhängig (ii) Jede Teilfamilie einer stochastisch unabhängigen Familie ist wieder stochastisch unabhängig. (iii) Für 3 Mengen liefert die Bedingung der vollständigen stochastischen Unabhängigkeit ein System von Gleichungen P (A ∩ B) = P (A) · P (B) P (A ∩ C) = P (A) · P (C) → stochastisch P (B ∩ C) = P (B) · P (C) unabhängig paarweise P (A ∩ B ∩ C) = P (A)P (B)P (C) ← zusätzlich!! Satz 5.10. (i) Ist {Ai : i ∈ I} stochastisch unabhängig, k 6∈ I und Ak ein Ereignis mit P (Ak ) ∈ {0,1}, dann ist {Ai : i ∈ I ∪ {k}} stochastisch unabhängig. (ii) Jede Teilfamilie einer unabhängigen Familie ist unabhängig. Eine Familie ist genau dann unabhängig, wenn jede endliche Teilfamilie unabhängig ist. (iii) {Ai : i ∈ I} sei stochastisch unabhängig, Bi ∈ {Ai , Aci , ∅, Ω} ∀i ⇒ {Bi : i ∈ I} stochastisch unabhängig (iv) Sei I = {1, . . . , n}, n ∈ N, endlich. {Ai : i ∈ I} ist stochastisch unabhängig genau dann, wenn ! P \ i∈I Bi = n Y P (Bi ) i=1 für jede Wahl Bi ∈ {Ai , Aci }, i = 1, . . . , n 42 5. STOCHASTISCHE UNABHÄNGIGKEIT Bemerkung 5.11. {Ai : i ∈ I} sei eine Familie stochastisch unabhängiger Ereignisse. Dann gilt: ! ! n n [ \ P Ai = 1 − P Aci i=1 i=1 =1− n Y (1 − P (Ai )) i=1 Beispiel 5.12. n Forschergruppen testen, ob die sinnlose Substanz S Krebs heilt. Jeder Test liefere unter P mit Wahrscheinlichkeit p = 0,05 eine Fehlentscheidung. Man hat pn = P ( Mindestens ein Test liefert Fehlentscheidung“) = 1 − (1 − p)n ” Für p = 0,05 erhält man: n 10 20 pn 0,401... 0,642... Bemerkung 5.13. Für x ∈ [0,1] gilt: 1 − x ≤ e−x denn: −x e ∞ X xk x2 x3 x4 = =1−x+ − + ∓ ... k! 2 3! 4! | {z } | {z } k=0 Es gilt xk xk+1 x > ⇔ 1> ⇔ x<k+1 k! (k + 1)! k+1 Also e−x ≥ 1 − x für x ∈ [0,1]. 5. STOCHASTISCHE UNABHÄNGIGKEIT 43 Lemma 5.14. (Borel-Cantelli, II) Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und {An } ⊂ F. (i) ∞ X P (An ) < ∞ ⇒ P lim sup An = 0 n→∞ n=1 (ii) Sei {An } eine unabhängige Familie, dann gilt ∞ X P (An ) = ∞ ⇒ P lim sup An = 1 n→∞ n=1 Umformulierung: (de Morgan!) (i) Für Folgen {An } ⊂ F von Ereignissen gilt: ∞ X P (Acn ) < ∞ ⇒ P lim inf An = 1 n→∞ n=1 (ii) {An } ⊂ F stochastisch unabhängig ⇒ ∞ X P (Acn ) = ∞ ⇒ P lim inf An n→∞ n=1 = 0 Merke: Für stochastisch unabhängige An , n ∈ N, sind lim supn An und lim inf n An entweder sichere oder unmögliche Ereignisse! Folgerung 5.15. Existiert eine stochastisch unabhängige Teilfolge {Ank } von {An } mit ∞ X P (Ank ) = ∞, k=1 dann folgt P (lim sup An ) = 1. n 44 5. STOCHASTISCHE UNABHÄNGIGKEIT Beispiel 5.16. (i) Würfeln (s.o.), Ω = {(wn )n∈N : wn ∈ {0,1}, n ∈ N} P An = Im n-ten Wurf eine 6“, P (An ) = 61 n P (An ) = + ∞ ” P (lim supn An ) = 1 ⇒ Mit Wahrscheinlichkeit 1 würfelt man ∞-viele Sechsen! (ii) ∞-liche Folge von Urnen. Ziehe jeweils eine Kugel (unabhängig). Urne n enthält n − 1 schwarze und 1 weiße Kugel. An = Ziehe weiße Kugeln ” aus Urne n“ ⇒ P (An ) = n1 P Klar n P (An ) = ∞ ⇒ P (lim supn An ) = 1. Mit Wahrscheinlichkeit 1 werden unendlich viele weiße Kugeln gezogen! (iii) Wie (ii), wobei Urne n nun n2 − 1 schwarze und 1 weiße Kugel enthalte. ⇒ P (An ) = n12 . P ⇒ n P (An ) < ∞ ⇒ P (lim supn An ) = 0. Mit Wahrscheinlichkeit 1 werden nur endlich viele Kugeln gezogen. (iv) wie (i) Wie wahrscheinlich ist es, ∞-oft zwei Sechsen hintereinander zu würfeln? Bn,n+1 = {w ∈ Ω : wn = 1 und wn+1 = 1, für ein n ∈ N} ⇒ {Bn,n+1 : n ∈ N} nicht stochastisch unabhängig, aber die Teilfolge {B2n ,2n+1 : n ∈ N}! Da P (Bn,n+1 ) = 1 36 ⇒ P (lim supn Bn,n+1 ) = 1 KAPITEL 6 Produktexperimente Ziel: Mathematisches Modell für Zufallsexperimente, die aus der unabhängigen Hintereinanderausführung von Teilexperimenten bestehen. Das i-te Teilexperiment sei durch den diskreten Wahrscheinlichkeitsraum (Ωi , Fi , Pi ) beschrieben, i = 1, . . . , n, Fi = P ot(Ωi ). Definition 6.1. Der Produktraum (Ω, F, P ) ist der diskrete Wahrscheinlichkeitsraum Ω : = Ω1 × . . . × Ωn = {(ω1 , . . . , ωn ) : ωi ∈ Ωi , i = 1, . . . , n} versehen mit der σ-Algebra F = P ot(Ω) und der Wahrscheinlichkeitsfunktion p(ω1 , . . . , ωn ) : = n Y p(ωi ), i=1 d.h. P ({(ω1 , . . . , ωn )}) = n Y P ({ωi })). i=1 Das Wahrscheinlichkeitsmaß P auf F heißt Produktmaß (anders: ProduktverN teilung) und wird mit P = ni=1 Pi bezeichnet. Beispiel 6.2. (Binomialmodell) n-fache unabhängige Wiederholung eines binären Experimentes mit Erfolgswahrscheinlichkeit p ∈ [0,1]. Wir setzen Ωi = {0,1}, pi (0) = 1 − p 45 pi (1) = p, i = 1, . . . , n. 46 6. PRODUKTEXPERIMENTE Dann ist Ω = Ω1 × . . . × Ωn = {0,1}n mit Pn Pn P ({ω}) = p(ω1 , . . . , ωn ) = p i=1 ωi (1 − p) i=1 (1−ωi ) = pk (1 − p)n−k , P P wobei k = ni=1 ωi . Für das Ereignis An = {ω ∈ Ω | ni=1 ωi = k} gilt P (Ak ) = k n p (1 − p)n−k . Man erhält also die Binomialverteilung. k Betrachte die i-te Koordinatenabbildung π i : Ω → Ωi , ω ∈ Ω 7→ ωi , i = 1, . . . , n. Für Ereignisse A ⊂ Ω der Form A = A1 × . . . × An , mit Ai ⊂ Ωi , ∧ (A = im i-ten Teilexperiment ereignet sich Ai , i = 1, . . . , n“) ” gilt n \ A= {πi ∈ Ai } = {ω ∈ Ω | ωi = πi (ω) ∈ Ai , i = 1, . . . , n} | {z } i=1 = {ω ∈ Ω | π(ω) = ωi ∈ Ai } X X X ⇒ P (A) = p(ω) = ··· p1 (ω1 ) · . . . · pn (ωn ) ω∈A1 ×...×An ω1 ∈A1 ωn ∈An (∗) ! = X p1 (ω1 ) ! · ... · ω1 ∈A1 X pn (ωn ) = ωn ∈An n Y Pi (Ai ) i=1 Ferner gilt (k fest) (∗∗) P (πk ∈ Ak ) = P ({ω ∈ Ω | πk (ω) = ωk ∈ Ak }) = Pk (Ak ) | {z } im k-ten Teilexperiment ereignet sich An = Ω × . . . × Ω × Ak × Ω × . . . × Ω Die Wahrscheinlichkeit, dass im k-ten Teilexperiment Ak eintritt, stimmt mit der vorgegebenen Wahrscheinlichkeit tatsächlich überein! (∗) und (∗∗) liefern (da alles für beliebige Ai gilt): ! \ Y P {πj ∈ Aj } = Pj ({πj ∈ Aj }) I∈J j∈J ∀J ⊂ {1, . . . , n} 6. PRODUKTEXPERIMENTE 47 ⇒ Ereignisse, die etwas über verschiedene Teilexperimente aussagen, sind unabhängig. Produktmodelle genügen aber nicht! Beispiel 6.3. Die wirtschaftliche Entwicklung im II. Quartal hänge ab von der Entwicklung im I. Quartal. Modell für I. Quartal: 1 1 Ω1 = {−1, +1}, p (−1) = , p (+1) = 2 2 Ergebnisraum für II. Quartal Ω2 = {−1, 0, +1} Darstellung als Wahrscheinlichkeitsbaum Wenn eine gute Entwicklung im I. Quartal eintritt, dann trete eine gute Entwicklung im II. Quartal mit Wahrscheinlichkeit 1 4 ein. Bei einer schlechten Ent- wicklung im I. Quartal trete dies nur mit der Wahrscheinlichkeit 1 8 ein. Man stelle dies durch einen Wahrscheinlichkeitsbaum dar! Allgemeiner Rahmen: Teilexperimente (Stufen) i = 1, . . . , n mit ni möglichen Ausgängen (Zuständen). Relevant sind die Übergangswahrscheinlichkeiten, mit denen man vom Zustand k in den Zustand e wechselt. Diese können durch eine Matrix (Tabelle) angegeben werdem: Pi = (Pi (k,l))h,l Am Beispiel: p(ω1 ,ω2 ) −1 0 1 −1 +1 1 4 1 4 5 8 1 2 1 8 1 4 1 1 48 6. PRODUKTEXPERIMENTE In den Zeilen stehen Wahrscheinlichkeitsverteilungen! Für festes ω1 ∈ Ω1 definiert die Zuordnung P (A2 | {ω1 }) = X p (ω1 , ω2 ), A2 ⊂ Ω2 , ω2 ∈A2 ein Wahrscheinlichkeitsmaß auf (Ω2 , F2 ), F2 = P ot(Ω2 ). Wir betrachten nun diese Zuordnung als Abbildung K : Ω1 × P ot(Ω2 ) → R : K (ω, A) : = P (A | {ω}), ω ∈ Ω1 , A2 ⊂ Ω2 . Definition 6.4. (Ω, P ot(Ω)) und (Ω0 , P ot(Ω0 )) seien diskrete Wahrscheinlichkeitsräume. Eine Abbildung K : Ω × P ot(Ω0 ) → R (ω, A) 7→ K (ω, A) heißt Übergangskern (Wahrscheinlichkeitskern) von Ω nach Ω0 , falls für jedes feste ω ∈ Ω die Abbildung K (ω, ·) : P ot(Ω0 ) → R eine Wahrscheinlichkeitsverteilung auf dem Messraum (Ω0 , P ot(Ω0 )) definiert. Definition und Satz 6.5. Sei (Ω1 , P ot(Ω1 ), P1 ) ein Wahrscheinlichkeitsraum und (Ω1 , P ot(Ω1 )), 2 ≤ i ≤ n, seien diskrete Messräume. Für i = 1, . . . , n − 1 seien Ki : (Ω1 × · · · × Ωi , P ot(Ωi+1 )) → [0,1] 6. PRODUKTEXPERIMENTE Übergangskerne. Dann ist der Produktraum Ω := Q 49 i=1 Ωi versehen mit P ot(Ω) und dem W-Maß P gegeben durch P ({ω1 , . . . , ωn }) = P ({ω1 }) · K1 (ω1 , {ω2 }) · K2 ((ω1 , ω2 ), {ω3 }) · . . . · Kn−1 ((ω1 , . . . , ωn−1 ), {ωn }) ein Wahrscheinlichkeitsraum. Diese Konstruktion heißt auch Kopplung von Wahrscheinlichkeitsräumen. Eine Verallgemeinerung des Ziehens mit bzw. ohne Zurücklegen. Beispiel 6.6. (Polya’s Urnenmodell für die Ausbreitung von Krankheiten) Gegeben: Urne mit W weißen und S schwarzen Kugeln. Sei c ∈ Z. c ≥ 0 : Lege c Kugeln der gezogenen Farbe zusätzlich in die Urne. c < 0 : Entnehme |c| Kugeln der gezogenen Farbe. c = 0 entspricht dem Ziehen mit Zurücklegen c = −1: Ziehen ohne Zurücklegen c > 0: Schon gezogene Farben werden wahrscheinlicher. Modell: Ω = {(ω1 , . . . , ωn ) : ωi ∈ {0,1}, i = 1, . . . , n} ωi = 0 : weiß in der i-ten Ziehung. ωi = 1 : schwarz in der i-ten Ziehung. Betrachte A = {(0,1,0,0)} = A1 ∩ A2 ∩ A3 ∩ A4 mit A1 = {ω1 = 0}, A2 = {ω2 = 1}, A3 = {ω3 = 0}, A4 = {ω4 = 0} S W P (A1 ) = , P (A2 | A1 ) = W +S (W + c) + S W +c W + 2c P (A3 | A1 ∩A2 ) = , P (A4 | A1 ∩A2 ∩A3 ) = (W + c) + (S + c) (W + 2c) + (S + c) Übergangskerne: K1 (ω1 , {ω2 }) = W , W +c+S W +c , W +c+S S+c , W +c+S S , W +c+S ω1 = 1, ω2 = 0 ω1 = 0, ω2 = 0 ω1 = 1, ω2 = 1 ω1 = 0, ω2 = 1 50 etc. 6. PRODUKTEXPERIMENTE KAPITEL 7 Zufallsvariablen (Ω, F, P ) sei ein Wahrscheinlichkeitsraum. Oft interessiert nicht die vollständige Beschreibung ω ∈ Ω eines Ausgangs, sondern nur ein Aspekt“ V (ω). Man ver” dichtet daher die Information durch eine Abbildung X : Ω → S. Für allgemeine Wahrscheinlichkeitsräume sind hier nicht alle Abbildungen zugelassen. Daher betrachten wir gleich den allgemeinen Rahmen. Zur Illustration dient uns die überschaubare Welt der diskreten Zufallsvariablen, bei denen der Wertebereich höchstens abzählbar ist. 1. Abbildungen und Wahrscheinlichkeiten Definition 7.1. (Ω, F, P ) sei ein Wahrscheinlichkeitsraum. Eine Abbildung X : (Ω, F, P ) → (S, S), ω 7→ X(ω) ∈ S, ω ∈ Ω, heißt (S-wertiges) Zufallselement oder F − S messbar, falls für alle B ∈ S gilt: X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} = {X ∈ B} ∈ F. Das heißt: X −1 (B) ⊂ F. Für (S, S) = (R, B) spricht man von einer Zufallsvariablen. Für (S, S) = (Rn , B n ), n ∈ N, spricht man von einem Zufallsvektor. Bemerkung 7.2. (i) Die inverse Abbildung X −1 bildet Teilmengen von S auf Teilmengen von Ω ab. Messbarkeit heißt: Urbilder von Ereignissen sind wieder Ereignisse. 51 52 7. ZUFALLSVARIABLEN (ii) Nimmt man in der Definition für S - den Folgenraum S = {(xt )t∈Z : xt ∈ R}, dann heißt X stochastischer Prozess in diskreter Zeit. (→ Zeitreihen) - den Funktionenraum S = C[0, T ] aller stetigen Funktionen f : [0, T ] → R, dann heißt X stochastischer Prozess mit stetigen Trajektorien. Die inverse Abbildung ist vertauschbar mit diversen Mengenoperationen: Lemma 7.3. Sei T : Ω → S eine Abbildung. Die Urbildfunktion T −1 : P ot(S) → P ot(Ω) hat die folgenden Eigenschaften: (i) T −1 (∅) = ∅, T −1 (S) = Ω (ii) T −1 (A\B) = T −1 (A) \ T −1 (B) T T A (iii) T −1 = i∈I T −1 (Ai ) i i∈I S S −1 (Ai ) (iv) T −1 i∈I Ai = i∈I T für alle A, B, Ai ∈ P ot(S), i ∈ I. Definition 7.4. Ist X : (Ω, A, P ) → [R, B] eine Zufallsvariable, dann definiert PX (B) = P (X ∈ B) = P ({ω | X(ω) ∈ B}), B ∈ B eine Wahrscheinlichkeitsverteilung auf (R, B). PX heißt Verteilung von X. Zwei Zufallsvariablen X und Y heißen identisch verteilt, wenn gilt: PX = PY ⇔ PX (A) = PY (A) ∀A ∈ B. d Notation: X = Y . 1. ABBILDUNGEN UND WAHRSCHEINLICHKEITEN 53 Bemerkung 7.5. d Unterscheide X = Y und X = Y ! Beispiel: Werfe zehn Mal eine Euromünze bzw. einen Franken. X: Anzahl Kopf beim Euro, Y : Anzahl Kopf beim Franken. Also X 6= Y . Aber: d X = Y , falls beide Münzen fair. Lemma 7.6. Ist X : (Ω, F, P ) → (R, B) eine Zufallsvariable, dann heißt σ(X) = {X −1 (B) : B ∈ B} die von X erzeugte σ- Algebra. Beispiel 7.7. (i) A ∈ F ⇒ σ(1A ) = {A, Ac , ∅, Ω}. (ii) X Zufallsvariable mit endlich vielen Werten, X= n X ai 1Ai i=1 mit a1 , . . . , an ∈ R und A1 , . . . , An ⊂ R messbar. o nS c e e Dann ist σ(X) = σ({A1 , . . . , An }) = i∈I Ai : Ai ∈ {Ai , Ai } Ziel: Einfache Kriterien für Messbarkeit. Ist zum Beispiel X + Y automatisch eine Zufallsvariable, wenn X, Y Zufallsvariablen sind? Lemma 7.8. X : Ω → R ist eine Zufallsvariable (also F − B messbar) ⇔ {X ≤ t} = {X ∈ (−∞, t]} ∈ F, ∀t ⇔ {X < t} ∈ F, ∀t 54 7. ZUFALLSVARIABLEN Algebraische Operationen Lemma 7.9. X, Y seien Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P ) (i) aX + bY ist Zufallsvariable ∀a,b ∈ R (ii) max(X,Y ) und min(X,Y ) sind Zufallsvariablen (iii) X · Y ist Zufallsvariable (iv) Gilt Y (ω) 6= 0 ∀ω ∈ Ω ⇒ X/Y ist Zufallsvariable. Konvention: Wir schreiben Vektoren meist als Zeilenvektoren (und nicht als Spaltenvektoren), wenn es der Kontext erlaubt. Sind X1 , . . . , Xn : (Ω, F, P ) → (R, B) Zufallsvariablen, dann ist es naheliegend, den Vektor (X1 , . . . , Xn ) : Ω → Rn zu betrachten, dessen Bild in Rn liegt. Ein Erzeuger der Borel’schen σ-Algebra B n auf Rn sind die Mengen der Form B1 × · · · × Bn , B1 , . . . , Bn ∈ B. Lemma 7.10. Die Abbildung (X1 , . . . , Xn ) : Ω → Rn , ω 7→ (X1 (ω), . . . , Xn (ω)), ω ∈ Ω, ist genau dann messbar, also ein Zufallsvektor, wenn alle Xi , i = 1, . . . , n, Zufallsvariablen sind. Definition 7.11. X1 , . . . , Xn seien Zufallsvariablen, d. h. Xi : (Ω, F, P ) → (R, B), i = 1, . . . , n 1. ABBILDUNGEN UND WAHRSCHEINLICHKEITEN 55 Die Verteilung von Xi1 , . . . , Xim , 1 ≤ i1 < · · · < im ≤ n heißt m-dimensionale Randverteilung (Marginalverteilung) zu den Koordinaten i1 , . . . , im . Die Verteilung PX i von Xi heißt i-te Randverteilung (Marginalverteilung), i = 1, . . . , n. Relevant : Verteilung von (X1 , . . . , Xn ). P(X1 ,...,Xn ) (A) = P ((X1 , . . . , Xn ) ∈ A) (∗) für Ereignisse A ∈ B n . Bemerkung 7.12. (i) Es gilt (Beweis erst später): Die Verteilung P(X1 ,...,Xn ) ist durch die Angabe aller Wahrscheinlichkeiten P (X1 ∈ A1 , . . . , Xn ∈ An ), A1 , . . . , An ∈ B (auf dem oben erwähnten Erzeuger) bestimmt. Randverteilungen genügen nicht. Gegenbeispiel: gleiche Ränder, aber unterschiedliche Verteilung! x0 \ y 0 0 1 x\y 0 1 0 0 1 2 1 1 2 1 2 0 1 2 1 2 1 2 0 1 2 0 1 0 1 2 1 2 1 2 (ii) Ausrechnen von P(Xi1 ,...,Xim ) aus P(X1 ,...,Xn ) P(Xi1 ,...,Xim ) (B) = P ((Xi1 , . . . , Xim ) ∈ B) = P (Xi1 , . . . , Xim ∈ B, Xj ∈ R, j 6∈ {i1 , . . . , im }) 56 7. ZUFALLSVARIABLEN Einfachster Fall: Endlicher Träger: X : Ω → X = {x1 , x2 , . . . , xK } Y : Ω → Y = {y1 , y2 , . . . , yL } ⇒ (X, Y ) : Ω → X × Y Die Verteilung ist durch Angabe der Wahrscheinlichkeiten Pkl = P ((X, Y ) = (xk , xl )) = P (X = xk , Y = yl ), k = 1, . . . , K, l = 1, . . . , L gegeben (Matrix bzw. Tabelle!) X \Y y1 ··· yL Σ x1 .. . p11 .. . · · · p1L .. . p1· .. . xK pK1 · · · pKL pK· p ·1 ··· p ·L 1 Die Randverteilungen ergeben sich als Zeilen- bzw. Spaltensummen: ! L [ P (X = xk ) = P {X = xk , Y = yl } l=1 = L X P (X = xk , Y = yl ) = L X l=1 pkl = pk· l=1 Für k = 1, . . . , L. Analog P (Y = yl ) = p·l , l = 1, . . . , L. Verallgemeinerung auf abzählbar unendliche Mengen X , Y geht analog (∞-dimensionale Matrizen) P (X = xk ) = ∞ X l=1 pkl , P (Y = yl ) = ∞ X k=1 pkl . 1. ABBILDUNGEN UND WAHRSCHEINLICHKEITEN 57 Beispiel 7.13. (Multinomialverteilung) Ein Zufallsexperiment liefere eines von m ≥ 2 paarweise disjunkten Ereignissen Aj ∈ F, j = 1, · · · , m. (Man kann ohne Einschränkung Ω = {1, . . . , m} und Aj = {j}, j = 1, . . . , m, annehmen.) Setze pj = P (Aj ), j = 1, · · · , m. Es gilt: Pm j=1 pj = 1. Typische Anwendung: Eine zufällige Beobachtung wird anhand eines Kriteriums einer von m Kategorien zugeordnet. Wiederhole das Experiment n Mal und setze Xj (ω) : = n X 1Aj (ω), ω ∈ Ω = {1, . . . ,m}n , j = 1, . . . , m. i=1 Xj ist die Anzahl der Beobachtungen der Kategorie j. Gesucht: Verteilung von (X1 , . . . , Xm ) (Kontingenztafel). für k1 , . . . , km P (X1 = k1 , . . . , Xm = km ) = ? P ∈ {0, . . . , m} mit m j=1 kj = n. Jedes n-Tupel (ω1 , . . . , ωn ) mit genau k1 Einsen, . . . , km Mal m, hat die Wahrscheinlichkeit pk11 · . . . · pkmm Jede Zerlegung der Menge {1, . . . , n} in m Teilmengen der Mächtigkeiten k1 , . . . , km entspricht einem Ausgang ω = (ω1 , . . . , ωn ) mit (X1 , . . . , Xm )(ω) = (k1 , . . . , km ). n Hierfür gibt es genau k1 ···k Möglichkeiten, so dass wir m P(X1 ,...,Xm ) ({(k1 , . . . , km )}) = P (X1 = k1 , . . . , Xm = km ) n n − k1 n − k1 − . . . − km−1 = · · ... · × pk11 · · · pkmm k1 k2 km erhalten. Diese Verteilung heißt Multinomialverteilung (auch: Polynomialverteilung. Notation: (X1 , . . . , Xm ) ∼ M (n, (p1 , . . . , pm )) Man zeige: X1 ∼ B(n, p1 ). 58 7. ZUFALLSVARIABLEN 2. Bedingte Verteilungen und Unabhängigkeit Wir können nun das Konzept der bedingten Wahrscheinlichkeit auf diskrete Zuo.E. fallsvektoren übertragen: Erinnerung: X : Ω → X ⊂ Rn diskret, falls X = o.E. supp(Px ) = {x1 , x2 , . . .} höchstens abzählbar unendlich ist. Sei (X,Y ) : (Ω, F, P ) → (R2 , B 2 ) diskreter Zufallsvektor. Für y ∈ Y = supp(Py ) und A ∈ B ist (∗) P ({X ∈ A} | {Y = y}) = P (X ∈ A, Y = y) P (Y = y) wohldefiniert. Definition und Lemma 7.14. In der obigen Situation definiert (∗) ein Wahrscheinlichkeitsmaß, die bedingte Verteilung von X gegeben Y = y, mit zugehöriger Zähldichte. p(x|y) = PX | Y =y = P (X = x, Y = y) , x ∈ Rn . P (Y = y) Für x ∈ X = supp(PX ) ist P (Y ∈ A | X = x) analog definiert. Bemerkung 7.15. Es ist üblich, durch die Festlegung P (X ∈ A | Y = y) = P (X ∈ A), A ⊂ R, für alle y ∈ R mit P (Y = y) = 0, die durch (∗) gegebene Abbildung von B × Y auf ganz B × R fortzusetzen. Man spricht dann von einer regulären bedingten Verteilung. Man mache sich klar, wie man P (X ∈ A | Y = y) beziehungsweise P (Y ∈ A | X = x) im Fall X , Y endlich“ berechnet! ” 2. BEDINGTE VERTEILUNGEN UND UNABHÄNGIGKEIT 59 Definition 7.16. Zwei Mengensysteme Y, X ⊂ F einer σ-Algebra F heißen stochastisch unabhängig, wenn für alle A ∈ Y und B ∈ X gilt: A, B stochastisch unabhängig. Definition 7.17. Eine Familie {Xi : i ∈ I}, I 6= ∅, von Zufallsvariablen Xi : (Ω, F, P ) → (R, B), i ∈ I, heißt paarweise stochastisch unabhängig, wenn für alle i, j ∈ I mit i 6= j die Mengensysteme Y = Xi−1 (B) und X = Xj−1 (B) stochastisch unabhängig sind. Also: {X, Y } stochastisch unabhängig ⇔ X −1 (B) und Y −1 (B) stochastisch unabhängig ⇔ {X ∈ A} und {Y ∈ B} stochastisch unabhänig ∀A, B ∈ B ⇔ P (X ∈ A, Y ∈ B) = P (X ∈ A) P (Y ∈ B), ∀A, B ∈ B. Definition 7.18. Eine Familie {Yi : i ∈ I} von Mengensystemen von F heißt (total) stochastisch unabhängig, wenn für jede endliche Auswahl Yi1 , . . . , Yik , i1 , . . . , ik ∈ I, gilt: P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) · . . . · P (Aik ) für alle Ai1 ∈ Yi1 , . . . , Ai2 ∈ Yi2 . Häufiger Fall: Yi = Fi ⊂ F Unter-σ-Algebren Unabhängig heißt: Ai1 , . . . , Aik ↑ ↑ Fi1 Fik stets unabhängig 60 7. ZUFALLSVARIABLEN (im Sinne der Gültigkeit des Produktsatzes). Anwenden auf Zufallsvariablen: Definition 7.19. Eine Familie {Xi : i ∈ I} heißt stochastisch unabhängig, wenn die induzierten σ-Algebren Fi = σ(Xi ) = Xi−1 (B), i ∈ I stochastisch unabhängig sind. Bemerkung 7.20. Die Definition 7.19 gilt für beliebige Zufallsvariablen und kann auf Zufallselemente verallgemeinert werden. Das heißt: Xi , i ∈ I, unabhängig ⇔ σ(Xi ), i ∈ I, unabhängig ⇔ Xi−1 (B) = {{X2 ∈ A} : A ∈ B}, i ∈ I, unabhängig ⇔ {Xi1 ∈ Ai1 }, . . . , {Xik ∈ Aik } unabhängig in dem Sinne, dass P (Xi1 ∈ Ai1 , . . . , Xik ∈ Aik ) = P (Xi1 ∈ Ai1 ) · . . . · P (Xik ∈ Aik ) für alle i1 , . . . , ik ∈ I, k ∈ N. Mit anderen Worten: Immer, wenn man endlich viele Zufallsvariablen Xi1 , . . . , Xik herausgreift, sind die zufälligen Ereignisse der Form {Xij ∈ Aij }, Aij ∈ B beliebig, unabhängig. 2. BEDINGTE VERTEILUNGEN UND UNABHÄNGIGKEIT 61 Betrachte die Situtation für |I| = 2 (siehe oben): X, Y unabhängig P (X ∈ A, Y ∈ B) = P (X ∈ A) P (X ∈ B) k k P(X,Y ) (A × B) PX ⊗ PY (A × B) für alle A, B ∈ B. Wir erhalten die Folgerung 7.21. X, Y stochastisch unabhängig ⇔ P(X,Y ) = PX ⊗ PY Lemma 7.22. X, Y seien diskrete Zufallsvariablen. Dann gilt: X, Y unabhängig ⇔ P (X ∈ A | Y = y) hängt nicht von y ∈ Y ab, für alle A ⊂ R. Bemerkung 7.23. d d Es gelte X = X 0 und Y = Y 0 Sind X, Y stochastisch unabhängig und X 0 , Y 0 stochastisch unabhängig, dann folgt d X + Y = X0 + Y 0 denn mit Y = Y (Ω) gilt: X P (X + Y ∈ A) = P (X ∈ A − y | Y = y) P (Y = y) y∈Y = X = X P (X ∈ A − y) P (Y = y) y∈Y y∈Y für alle A ∈ B. P (X 0 ∈ A − y)P (Y 0 = y) = P (X 0 + Y 0 ∈ A) 62 7. ZUFALLSVARIABLEN Beispiel 7.24. X, Y seien stochastisch unabhängige Zufallsvariablen auf einem gemeinsamen Wahrscheinlichkeitsraum mit X ∼ Bin(n, p), Y ∼ Bin(m, p) ⇒ d X= d Y = n X i=1 m X ξi mit ξ1 , . . . , ξn ∼ Ber(p) ηi mit η1 , . . . , ηm ∼ Ber(p) i=1 und ξ1 , . . . , ξn , η1 , . . . , ηm i.i.d. Es folgt: d X +Y = n X ξi + i=1 m X ηi ∼ Bin (n + m, p). j=1 Wir berechnen die bedingte Verteilung von X gegeben X + Y = k. P (X = j, Y = k − j) P (X + Y = k) k−j n m j n−j p (1 − p) · p (1 − p)m−(k−j) k k−j = n+m pk (1 − p)n+m−k k m n P (X = j | X + Y = k) = = j k−j n+m k ⇒ X | X + Y = k ist hypergeometrisch verteilt! i.i.d. Anmerkung: Konstruktion von Zufallsvariablen ξ1 , . . . , ξn ∼ Ber(p) später. 2. BEDINGTE VERTEILUNGEN UND UNABHÄNGIGKEIT 63 Satz 7.25. Gegeben seien Zufallselemente Xi : (Ω, F, P ) → (Si , Si ), i ∈ I, und messbare Abbildungen fi : (Si , Si ) → (Si0 , Si0 ), i ∈ I, (dass heißt fi−1 (Si0 ) ⊂ Si , ∀i, Si0 σ-Algebra auf Si0 ). Dann sind die transformierten Zufallsvariablen Yi = fi (Xi ), i ∈ I, ebenfalls stochastisch unabhängig. Beispiel 7.26. Xi = (Xi0 , . . . , XiT ) Kursverlauf Aktie i. Xi , . . . , Xn seien unabhängig. Können dann die Renditen abhängig sein? Rit = Xit − Xi,t−1 t = 1, . . . , T , Xi,t−1 i = 1, . . . , n Ri = (Ri1 , . . . , RiT ) = fi (Xi ), i = 1, . . . , n ⇒ R1 , . . . , Rn unabhängig. Daher: R1 , . . . , Rn nicht stochastisch unabhängig ⇒ Aktienkurse nicht stochastisch unabhängig. Lemma 7.27. Sind Ij ⊂ I, j ∈ J, disjunkte Teilmengen, und gj : ×j∈J Sj → S 64 7. ZUFALLSVARIABLEN messbar. Dann sind XI j = (Xi )i∈Ij , j ∈ J, stochastisch unabhängig und auch Yj = gj (XI j ), j ∈ J. Beispiel 7.28. (i) X1 ↓ g1 Y1 X2 X3 X4 X5 . . . Xn−2 Xn−1 Xn | {z } | {z } | {z } ↓ g2 ↓ g3 ↓ g|J|−1 ↓ g|J| Y2 Y3 Y|J|−1 Y|J| . (ii) (X1 , X2 , X3 ) stochastisch unabhängig. ⇒ X2 , (X1 , X3 ) stochastisch unabhängig ⇒ X23 , | X1 − X3 | stochastisch unabhängig hier: I1 = {2}, I2 = {1, 3}, J = {1, 2} g(x) = x2 , g2 (x, y) = x + y Lemma 7.29. R-wertige Zufallsvariable X und Y sind genau dann stochastisch unabhängig, wenn f (X) und g(X) stochastisch unabhängig sind für alle f, g : messbar. R → R 2. BEDINGTE VERTEILUNGEN UND UNABHÄNGIGKEIT 65 Oftmals ist man an der Verteilung der Summe von Zufallsvariablen X, Y interessiert. Im besonders wichtigen Fall, dass X und Y unabhängig mit Zähldichten f bzw. g sind, hängt die Verteilung von Z = X + Y nur von f und g ab. Definition und Satz 7.30. X und Y seien stochastisch unabhängige Zufallsvariablen auf Z mit Zähldichten f bzw. g, das heißt f (k) = P (X = k), g(k) = P (Y = k), X X f (k) = g(k) = 1. k∈Z k ∈ Z, k∈Z Die Zähldichte von Z = X + Y ist dann gegeben durch h(k) = P (X + Y = k) = X f (k − j) g(j), k ∈ Z. j∈Z h heißt (diskrete) Faltung von f und g, Notation: h = f ∗ g. Bemerkung 7.31. Sind X und Y nicht unabhängig, dann gilt: h(z) = X p(z − j, j), z ∈ Z, j∈Z wobei p(x, y) = P (X = x, Y = y), x, y ∈ Z die gemeinsame Zähldichte von (X, Y ) ist. Beispiel 7.32. X, Y unabhängig identisch verteilt mit Zähldichte f (k) = pk (1 − p)1−k 1{0,1} (k), k ∈ Z. 66 7. ZUFALLSVARIABLEN Für k = 0,1,2: P (X + Y = k) = X f (j) f (k − j) 1{0,1} (j) 1{0,1} (k − j) j∈Z = X j=0,1 pj (1 − p)1−j pk−j (1 − p)1−(k−j) 1{0,1} (k − j) {z } | j = k oder j = k − 1 = X pk (1 − p)1−k 1{0,1} (k − j) j=0,1 k 2−k p (1 − p) , k = 0 = 2pk (1 − p)2−k , k = 1 k p (1 − p)2−k , k = 2 2 = pk (1 − p)2−k k Also X + Y ∼ Bin(2, p) KAPITEL 8 Die Verteilungsfunktion Definition 8.1. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable mit Wahrscheinlichkeitsverteilung PX . Die Funktion FX : R → R, x 7→ PX ((−∞, x]) heißt Verteilungsfunktion zu PX (bzw. X). Notation: FPX oder FX , oder kurz F . Die Funktion S(x) = 1 − F (x), x ∈ R, heißt Überlebensfunktion (survivor function). Bemerkung 8.2. (i) Ist pX die Zähldichte von PX , dann ist X FX (x) = PX ((−∞, x]) = pX (z), x∈R z≤x (ii) Schreibweisen: FX (x) = PX ((−∞, x]) = P (X −1 (−∞, x]) = P ({ω ∈ Ω | X(ω) ∈ (−∞, x]) = P (X ≤ x). 67 68 8. DIE VERTEILUNGSFUNKTION Lemma 8.3. (i) FX ist monton wachsend. (ii) FX ist rechtsseitig stetig. (iii) limx→−∞ FX (x) = 0, limx→∞ FX (x) = 1. (iv) Ist PX diskrete Wahrscheinlichkeitsverteilung ⇒ PX ist durch FX eindeutig bestimmt. Folgerung 8.4. (i) FX (x−) = limz↑x FX (x) = P (X < x). (ii) P (X = x) = FX (x) − FX (x−), x ∈ R. (iii) Ist FX stetig in x, dann folgt P (X = x) = 0. Ist FX stetig, dann besitzt die Verteilung von X keine Atome. (iv) Hat X den Träger X = {x1 , x2 , . . .} mit Wahrscheinlichkeiten P (X = xk ) = pK , k ∈ N, dann ist FX eine Treppenfunktion mit Sprungstellen x1 , x2 , . . . und zugehörigen Sprunghöhen p1 , p2 , . . . (siehe unten). Beispiel 8.5. (i) Verteilungsfunktion des Punktmaßes in a ∈ R: F (x) = 1(a ≤ x) = 1[a,∞) (x), x ∈ R. (ii) Verteilungsfunktion einer diskreten Verteilung P mit Träger T = {x1 , . . . , xn } ⊂ R, x1 < · · · < xn und Zähldichte gegeben durch pi = P ({xi }), i = 1, . . . , n. 8. DIE VERTEILUNGSFUNKTION ist n X F (x) = 1(xi ≤ x) pk , 69 x ∈ R. i=1 (iii) Verteilungsfunktion einer diskreten Verteilung P auf Z mit Zähldichte gegeben durch pi = P ({i}), i ∈ Z, ist X F (x) = pi 1(i ≤ x), x ∈ R. i∈Z Erinnerung: Riemann-Integral Z b n X g(x)dx = lim g(ξni ) (xni − xn,i−1 ), n→∞ a i=1 wobei a = xn0 < · · · < xnn = b, n ∈ N, eine Folge von Partitionen von [a, b] mit Feinheit rn = max (xni − xn,i−1 ) → 0, 1≤i≤n n → ∞. Definition 8.6. Sei F eine Verteilungsfunktion. Das Riemann-Stieltjes-Integral von g : [a,b] → R bezüglich F ist definiert durch Z n X b g(x) dF (x) = lim a n→∞ g(ξni ) (F (xni ) − F (xn,i−1 )), i=1 wobei a = xn0 < · · · < xnn = b eine beliebige Folge von Partitionen mit rn → 0, n → ∞, ist. Spezialfälle: Sei 1) F (x) = m X i=1 pi 1(−∞,xi ] (x) 70 8. DIE VERTEILUNGSFUNKTION Treppenfunktion mit Sprungstellen x1 , x2 , . . . und Sprunghöhen 0 ≤ p1 , p2 , . . . (Verteilungsfunktion eines diskreten Wahrscheinlichkeitsmaßes). Dann gilt Z b X g(x) dF (x) = pi g(xi ) a i:xi ∈[a,b] insbesonders Z +∞ g(x) dF (x) = ∞ X −∞ pi g(xi ) i=1 2) F (x) sei differenzierbar mit Ableitung f (x) := F 0 (x). Dann gilt Z b Z b g(x) dF (x) = g(x) f (x) dx. a a Beispiel 8.7. Seien X ∼ f und Y ∼ g unabhängig mit Zähldichten f, g auf Z. Dann ist X X + Y ∼ f ∗ g, f ∗ g(k) = f (k − j) g(j). j∈Z Sei G(y) die Verteilungsfunktion von Y , das heißt X g(j) 1(j ≤ y). G(y) = j∈Z Dann kann man die Faltung f ∗ g als Riemann-Stieltjes-Integral darstellen: Z X f ∗ g(k) = f (k − j) g(j) = f (k − x) g(x) dG(x). j∈Z Definition 8.8. Sei X = (X1 , . . . , Xn ) Zufallsvariable mit Wahrscheinlichkeitsverteilung PX . Die Funktion FX : Rn → [0,1], FX (x) := PX ((−∞, x1 ] ×. . .× (−∞, xn ]), heißt multivariate Verteilungsfunktion. x = (x1 , . . . , xn ) ∈ Rn , 8. DIE VERTEILUNGSFUNKTION 71 Lemma 8.9. X = (X1 , . . . , Xn ) sei Zufallsvektor mit Verteilungsfunktion F (x) = FX (x), x = (x1 , . . . , xn ) ∈ Rn . Dann gilt: (i) lim F (x1 , . . . , xn ) = F(X1 ,...,Xi−1 ,Xi+1 ,...,Xn ) (x1 , . . . , xi−1 , xi+1 , . . . , xn ) xi →∞ für (x1 , . . . , xi−1 , xi+1 , . . . , xn ) ∈ Rn−1 . (ii) F ist monoton wachsend in jedem Argument. (iii) limxi →−∞ F (x1 , . . . , xn ) = 0 (iv) Sind X1 , . . . , Xn unabhängig, dann gilt F(X1 ,...,Xn ) (x1 , . . . , xn ) = n Y FXi (xi ) i=1 = FX1 (x1 ) · . . . · FXn (xn ) für alle (x1 , . . . , xn ) ∈ Rn . KAPITEL 9 Ausgewählte diskrete Verteilungen 9.1 Binomialverteilung x ∼ B(u,p) n Px (k) = pk (1 − p)n−k , k k = 0, . . . , n 9.2 Geometrische Verteilung (Modellierung von Wartezeiten, Überlebenswahrscheinlichkeiten...) Unabhängige Folge von Bernoulli-Experimenten X1 , X2 , . . . P (Xi = 1) = p ∈ (0,1). Sei T = inf{k ∈ N : Xk = 1} Zeitpunkt des ersten Erfolges. W = T − 1 ist die Wartezeit“ auf den ersten ” Erfolg beziehungsweise die Anzahl der Misserfolge vor dem ersten Erfolg. T hat den Wertebereich N und die Zähldichte pT (k) = P (T = k) = P (x1 = 0, . . . , xk−1 = 0, xk = 1) = (1 − p)k−1 p, k = 1,2, . . . Ferner: pW (k) = (1 − p)k p, k = 0,1,2, . . . Man spricht von der geometrischen Verteilung zum Parameter p ∈ [0,1]. 73 74 9. AUSGEWÄHLTE DISKRETE VERTEILUNGEN Bemerkung 9.1. ∞ X (1 − p)k p = k=0 p = 1. 1 − (1 − p) Zunächst ist P (T ≥ 1) = 1 und mit q = 1 − p P (T ≥ k) = P (X1 = 0, . . . , Xk−1 = 0) = q k−2 , k = 2,3, . . . Definiere T1 = inf {k ∈ N : Xk = 1} T2 = inf {k > T1 : Xk = 1} Lemma 9.2. T1 und T2 − T1 sind unabhängig und identisch verteilt. Lemma 9.3. Gedächnislosigkeit (Übung) P (W ≥ k + j | W ≥ k) = P (W ≥ j) Keine Alterung: In jedem Zeitabschnitt wird ohne Beachtung der Vergangenheit neu ausgewürfelt, ob ein Ausfall stattfindet. 9.3 Negativ-binomiale Verteilung Betrachte unendliche Folge unabhängiger und identisch verteilter Bernoulli-Experimente. Mit X bezeichnen wir die zufällige Anzahl der Misserfolge vor dem r-ten Erfolg. Es gilt: 9. AUSGEWÄHLTE DISKRETE VERTEILUNGEN X=k 75 ⇔ bei den ersten r + k − 1 Experimenten gab es keine Misserfolge und das (r + war ein Erfolg. k) te Experiment r+k−1 P (X = k) = pr−1 q k p k | {z } Anzahl der Möglichkeiten, k der (r + k − 1) Experimente als erfolgreich“ ” auszuwählen. 9.4 Poissonverteilung (Simon-Denis Poisson (1781-1840), französischer Physiker) Approximation der B(n,p)-Verteilung für große Werte von n und sehr kleine Werte von p. Die Poissonverteilung wird oft zur Modellierung von seltenen (punktförmigen) Ereignissen in einem räumlichen oder zeitlichen Kontinuum verwendet. Satz 9.4. (Poisson-Grenzwertsatz) Sei {Xn } eine Folge B(n,pn )-verteilter Zufallsvariablen. Falls ein λ ∈ (0,∞) existiert mit n pn → λ, n → ∞, dann gilt für alle k ∈ N0 lim P (Xn = k) = e−λ n→∞ λk =: pλ (k). k! pλ (k), k ∈ N0 , definiert eine Zähldichte auf N0 . Eine Zufallsvariable X heißt poissonverteilt zum Parameter λ > 0, wenn X die Zähldichte pλ besitzt. Notation: X ∼ Poi(λ). Faltungseigenschaft: 76 9. AUSGEWÄHLTE DISKRETE VERTEILUNGEN Beispiel 9.5. Seien X ∼ Poi(λ), Y ∼ Poi(µ) unabhängig, λ, µ > 0. ⇒ Für k ∈ N0 : X P (X + Y = k) = j∈N0 P (X = k − j) P (Y = j) | {z } = 0, falls k − j < 0 ⇔ j > k = k X e−λ j=0 λk−j µj e−µ (k − j)! j! k e−(λ+µ) X k! λk−j µj k! (k − j)! j! j=0 | {z } = (λ + µ)k = e−(λ+µ) (λ + µ)k k! das heißt X + Y ∼ P oi(λ + µ) allgemein Xi ∼ P oi(λ), i = 1, . . . , n, unabhängig ⇒ Bedingte Verteilung von X gegeben X + Y = n: X | X + Y = n ∼ Bin n, Pn λ λ+µ i=1 P Xi ∼ P oi ( ni=1 λi ) KAPITEL 10 Erwartungswert, Varianz und Momente Definition 10.1. X sei eine X -wertige Zufallsvariable mit Zähldichte p. Der Erwartungswert von X existiert, falls X (∗) |x| p(x) < ∞. x∈X Dann heißt die reelle Zahl E(X) = X xp(x) x∈X Erwartungswert von X. Bemerkung 10.2. (i) Die absolute Konvergenz (∗) stellt sicher, dass der Wert der Reihe P x xp(x) nicht von der Anordnung der Summanden abhängt. (ii) Ist Ω = {ω1 , ω2 , . . .} abzählbar und T = {x1 , x2 , . . .} der Träger von X, dann gilt: E(X) = = X x ∞ X xp(x) = ∞ X xi p(xi ) i=1 xi P ({ω ∈ Ω : X(ω) = xi }) i=1 77 78 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE Hierbei ist X xi P ({ω : X(ω) = xi }) = X(ω)P ({ω}). ω∈{X=xi } Man erhält daher E(X) = X X(ω)P ({ω}). ω∈Ω (iii) Es gilt für Ereignisse A ∈ F : E1A = P ω:1A (ω)=1 d 1 · P ({ω}) = P (A) und analog E1(X ∈ B) = P (X ∈ B), B ∈ B . Definition 10.3. Sei X + = max(0,X) und X − = −min(0,X), so dass X = X + + X − . Falls EX + = ∞ und EX − < ∞, dann setzt man E(X) = ∞. Falls EX − = ∞ und EX + < ∞ dann setzt man E(X) = −∞. Beispiel 10.4. (i) Sei X ∼ Poi(λ), p(k) = e−λ E(X) = ∞ X k·e k=0 = λe −λ −λ λk , k! k ∈ N0 . Man hat ∞ X λk λk−1 −λ = e λ· k! (k − 1)! k=1 ∞ X λk =λ k! k=0 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE (ii) Sei X verteilt nach der Zähldichte p(k) = δ π2k2 , k ∈ N. Man hat ∞ X p(k) = k=1 ∞ δ X 1 = 1. π 2 k=1 k 2 | {z } = π2 δ Da ∞ X k=1 ∞ δ δ X 1 |k · 2 2 | = 2 = +∞, π k π k=1 k existiert der Erwartungswert nicht! Lemma 10.5. Sei {an : n ∈ N} ⊂ R+ und bn = P∞ j=n aj , n ∈ N. Dann gilt ∞ X bn = n=1 ∞ X nan n=1 Satz 10.6. Sei X eine N0 -wertige Zufallsvariable mit Zähldichte p. Dann gilt: E(X) = ∞ X n=1 np(n) = ∞ X P (X ≥ n) = n=1 Beispiel 10.7. Sei X ∼ Geo(p), p(X = k) = (1 − p)k−1 p, k ∈ N. ∞ X n=1 (1 − FX (n)) 79 80 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE Dann gilt E(X) = = ∞ X n=1 ∞ X P (X ≥ n) = ∞ X k−1 (1 − p) p =p· ∞ X ∞ X (1 − p)n−1 (1 − p)k n=1 k=0 ∞ X (1 − p)n−1 =p n=1 = p(k) n=1 k=n n=1 k=n ∞ X ∞ X ∞ X ∞ X (1 − p)k |k=0 {z 1 = p (1 − p)n−1 = n=1 } 1 p Satz 10.8. (Transformationsformel für Erwartungswert) X sei eine Zufallsvariable mit Werten in X und Zähldichte p. Ist f : X → R eine Funktion mit X | f (x) | p(x) < ∞, x∈X dann gilt: E(f (X)) = X f (x)p(x). x∈X Beispiel 10.9. Sei X ∼ P oi(λ) und t ∈ R. Wir können E(etX ) berechnen, ohne die Verteilung 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE 81 von etX zu bestimmen: tX E(e ) = ∞ X k=0 tk −λ e ·e ∞ X (λet )k λk −λ =e k! k! |k=0 {z } t = eλe t eλ(e −1) Definition 10.10. X sei eine N0 -wertige Zufallsvariable. Gibt es ein t0 > 0 so dass, gX (t) = E(tX ), |t| ≤ t0 , existiert, dann heißt gX erzeugende Funktion von X. Gibt es ein t0 > 0, so dass mX (t) = E(etX ), |t| ≤ t0 , existiert, dann heißt mX momenterzeugende Funktion von X. Satz 10.11. (Transformation für Erwartungswerte, n-dimensional) X1 , . . . , Xn seien diskrete Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion p(x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ) und f : Rn → R eine Funktion. Dann gilt X E(f (X1 , . . . , Xn )) = f (x1 , . . . , xn ) p(x1 , . . . , xn ), (x1 ,...,xn )∈X(Ω) sofern die Reihe auf der rechten Seite absolut konvergiert. 82 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE Satz 10.12. (Dreiecksungleichung für Erwartungswerte) Sei X eine Zufallsvariable mit existierendem Erwartungswert. Dann gilt |E(X)| ≤ E |X|. Satz 10.13. X, Y seien Zufallsvariablen, deren Erwartungswerte existieren. Dann gilt für a, b ∈ R: (i) E(aX) = aE(X) (ii) E(X + Y ) = E(X) + E(Y ) (iii) E(b) = b. (iv) X ≤ Y ⇒ E(X) ≤ E(Y ) (v) E |X + Y | ≤ E |X| + E |Y | (vi) E |X| = 0 ⇔ P (X 6= 0) = 0. Satz 10.14. X, Y seien unabhängige Zufallsvariablen existierendem Erwartungswert. Dann gilt E(X · Y ) = E(X) · E(Y ) Lemma 10.15. Sei gX (t) = E(tX ) und mX (t) = E(etX ). Sind X,Y unabhängig, dann gilt: gX+Y (t) = gX (t) · gY (t) mX+Y (t) = mX (t) · mY (t) 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE 83 für alle t ∈ R, so dass gX (t) und gY (t) beziehungsweise mX (t) und mY (t) definiert sind. Beispiel 10.16. (i) Gelte X ∼ Ber(p). Dann folgt E(X) = 0 · P (X = 0) + 1 · P (x = 1) = 1 · p = p E(X 2 ) =? (E(X 2 ) 6= EX · EX, da Unabhängigkeit nicht erfüllt!) Setze Y = X 2 . Dann gilt: P (Y = 0) = 1 − p, P (Y = 1) = p ⇒ E(X 2 ) = E(Y ) = p erzeugende Funktion: gX (t) = E(tX ) = t0 · P (X = 0) + t · P (X = 1) = 1 − p + t · p, t ∈ R. 0 gX (t) = p monenterzeugende Funktion: mX (t) = E(etX ) = et·0 · P (X = 0) + et·1 P (X = 1) = 1 − p + et · p m0X (t) = pet , m0X (0) = p (= EX). (ii) X1 , X2 ∼ Ber(p). Dann gilt für Y = X1 + X2 E(X1 + X2 ) = E(X1 ) + E(X2 ) = 2p 84 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE Definition 10.17. X, Y seien Zufallsvariablen, c ∈ R, k ∈ N. (i) E((X − c)k ) heißt k-tes Moment von X um c. c 6= 0: nicht-zentrales Moment c = 0: zentrales Moment (ii) Var(X) = E(X − EX)2 heißt Varianz von X. (iii) Cov(X, Y ) = E(X − EX)(Y − EY ) heißt Kovarianz von X und Y . (iv) Cor(X,Y ) = √ Cov(X,Y ) heißt Korelationskoeffizient von X und Var(X)·Var(Y ) Y. Bemerkung 10.18. Es gilt der Verschiebungssatz Cov(X,Y ) = E(X · Y ) − (EX) · (EY ) und somit Var(X) = E(X 2 ) − (EX)2 denn (X − EX)(Y − EY ) = X · Y − (EX) · Y − X · (EY ) + (EX) · (EY ) ⇒ Cov(X,Y ) = E(X · Y ) − (EX) · (EY ) − E(X)(EY ) + (EX)(EY ) = E(X · Y ) − (EX)(EY ) Beispiel 10.19. X ∼ Ber(p). Var(X) = E(X 2 ) − (EX)2 = p − p2 = p(1 − p) 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE Satz 10.20. Für unabhängige Zufallsvariablen X1 , . . . , Xn gilt: Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ) Beispiel 10.21. (i) Seien X1 , X2 ∼ Ber(p) unabhängig. Dann gilt Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) = 2 · p(1 − p) (ii) Seien X1 , . . . , Xn i.i.d. mit σ 2 = Var(X1 ) ∈ [0, ∞). Dann gilt: ! n X Var Xi = n · Var(X1 ) = n · σ 2 (→ ∞, n → ∞) i=1 und Var n 1 X Xi n i=1 ! n X 1 = 2 · Var Xi n i=1 ! = 1 σ2 2 · nσ = n2 n (→ 0, n → ∞) sowie Var n 1 X √ Xi n i=1 ! = 1 · n · σ2 = σ2 n (→ σ 2 , n → ∞). Ungleichungen: Satz 10.22. (Markov- und Chebychev- (Tschebyschev-) Ungleichung) Sei X eine Zufallsvariable und ε > 0. 85 86 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE (i) P ( |X| ≥ ε) ≤ E |X| ε2 (ii) P ( |X − EX| ≥ ε) ≤ V ar(X) ε2 Prognoseintervalle µ = EX, σ 2 = Var(X) seien bekannt. Setze ε = kσ ⇒ P (|X − µ| ≥ kσ) ≤ σ2 1 = 2 2 2 k σ k zum Beispiel k = 3 1 = 0,11 · · · 9 8 P (|X − µ| ≥ 3σ) ≥ ≈ 0,889 9 ⇒P (|X − µ| ≥ 3σ) ≤ Für eine beliebige Zufallsvariable X, deren Varianz existiert, gilt: Mit Wahrscheinlichkeit ≥ 0,889 realisiert sich X in dem Prognoseintervall [µ − 3σ, µ + 3σ]. Lemma 10.23. X, Y seien Zufallsvariablen. (i) Aus 0 ≤ |X| ≤ |Y | und E|Y | < ∞ folgt: EX, E |X| < ∞ (ii) Gilt E|X|k < ∞ für ein k ∈ N, dann existieren auch die Momente niederer Ordnung, das heißt E|X|l < ∞, 2 2 , ∀ 0 ≤ l ≤ k. (iii) Existiert EX , das heißt EX < ∞, dann existiert Var(X) sowie E(X + a)2 < ∞ ∀a ∈ R. 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE 87 Also sichert die Annahme EX 2 < ∞ die Existenz von Varianz und Erwartungswert. Lemma 10.24. Gelte Var(X) < ∞. (i) Var(a X + b) = a2 Var(X) für a, b ∈ R. (ii) Var(X) = E(X 2 ) − (EX)2 (iii) Var(X) = 0 ⇔ P (X 6= E(X)) = 0 (iv) Var(X) = mina∈R E(X − a)2 (v) E(X − a)2 = Var(X) + (EX − a)2 , ∀a ∈ R. Satz 10.25. (Cauchy-Schwarz-Ungleichung) X, Y seien Zufallsvariablen mit EX 2 , EY 2 < ∞. Dann gilt p |E(X · Y )| ≤ E(X 2 ) · E(Y 2 ) mit Gleichheit genau dann, wenn ein b ∈ R existiert mit P (b · X = Y ) = 1. Bedingte Verteilung von Y gegeben X = x X (∗) P (Y ∈ A | X = x) = P (Y = y | X = x), A ⊂ R, y∈A wobei ( P (Y = y | X = x) = P (Y =y, X=x) , P (X=x) P (X = x) > 0 P (Y = y), P (X = x) = 0. Definition 10.26. Der Erwartungswert der bedingten Verteilung von Y gegeben X = x, X E(Y | X = x) = y · P (Y = y | X = x), y 88 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE heißt bedingter Erwartungswert von Y gegeben X = x, x ∈ X . Die zugehörige Varianz Var(Y | X = x) = E([Y − E(Y | X = x)]2 | X = x), x ∈ X heißt bedingte Varianz von Y gegeben X = x. g(x) = E(Y | X = x) ist eine Funktion von x ∈ X . Die Zufallsvariable E(Y | X) = g(X) heißt bedingte Erwartung von Y gegeben X. Analog ist die bedingte Varianz Var(Y | X) definiert. Proposition 10.27. Man hat (i) E(1 (Y ∈ A) | X = x) = P (Y ∈ A | X = x), für A ⊂ R messbar. (ii) Satz von der totalen Wahrscheinlichkeit E(Y ) = E(E(Y | X)) (iii) Var(Y ) = E(Var(Y | X)) + Var(E(Y | X)) (iv) Sind X und Y Zufallsvariablen und f : R2 → R eine messbare Funktion, dann gilt für x0 : E(f (X,Y ) | X = x0 ) = E(f (x0 , Y ) | X = x0 ). Sind X und Y unabhängig, so gilt für x0 ∈ R: E(f (X,Y ) | X = x0 ) = E(f (x0 , Y )). Satz 10.28. (Schwaches Gesetz der großen Zahlen, GGZ) Sei X1 , X2 , . . . eine Folge von unabhängigen identisch verteilten Zufallsvariablen mit endlicher Varianz. Dann gilt für alle ε > 0: P ( |X n − EX1 | > ε) → 0, n → ∞, 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE 89 wobei n 1 X Xn = Xi , n ∈ N. n i=1 Das GGZ motiviert den folgenden Konvergenzbegriff. Definition 10.29. Eine Folge {Xn : n ≥ 1} von Zufallsvariablen heißt konvergent in Wahrscheinlichkeit (konvergiert stochastisch) gegen eine Zufallsvariable X, wenn für jedes ε > 0 gilt: lim P ( | Xn − X | > ε) = 0. n→∞ P Notation: Xn → X Bemerkung 10.30. Statistische Interpretation des GGZ: X1 , . . . , Xn i.i.d.: Modell für eine Zufallsstichprobe, µ = E(X1 ) ist unbekannt. Schätzung aus der Stichprobe µ bn = X n Nach dem GGZ gilt: P µ bn = X n → µ, n → ∞. Dies stellt eine erste Rechtfertigung des statistischen Vorgehens dar. Wir betrachten eine Anwendung in der Analysis. 90 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE Definition 10.31. f : [0,1] → R sei eine stetige Funktion. Dann heißt n X n k (Bn f )(x) = f xk (1 − x)n−k , x ∈ [0,1], k n k=0 n-tes Bernsteinpolynom. Satz 10.32. Für jede stetige Funktion f : [0,1] → R gilt: sup | Bn f (x) − f (x) | → 0, n → ∞. 0≤x≤1 Was kann man über die Abweichungen X − µ sagen? Satz 10.33. (Large Deviations) X1 , . . . , Xn seien i.i.d. mit existierender monenterzeugender Funktion mX (t) = E etX , t ∈ [0,T ]. Dann gilt für alle n ∈ N, x ≥ 0 und t ∈ [0,T ] ! n X P Xi ≥ n · x ≤ exp(−n[tx − ln mX (t)]) i=1 Die beste Schranke erhält man für t ∈ arg max (sx − mX (s)) s∈[0,T ] Lemma 10.34. Sei I = (a,b) ⊂ R ein Intervall. Sind x1 , . . . , xn ∈ I und λ1 , . . . , λn ∈ [0,1] P P Gewichte mit ni=1 λi = 1, dann folgt ni=1 λi xi ∈ I. 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE 91 Satz 10.35. (Jensen-Ungleichung) Sei f : I → R eine konkave Funktion und I = (a,b) ⊂ R ein Intervall. Ist X : Ω → X = {x1 , . . . , xn } eine Zufallsvariable, dann gilt: f (EX) ≥ Ef (X). Ist f : I → R konvex, dann gilt f (EX) ≤ Ef (X). Ersetzt man im Beweis der Jensen-Ungleichung E(X) durch E(X | Y = y), dann erhält man: Satz 10.36. (Bedingte Jensen-Ungleichung) Sei I ⊂ R ein Intervall und F : I → R konkav. Dann gilt für alle y ∈ R f (E(X | Y = y)) ≥ E(f (X) | Y = y) und somit auch f (E(X | Y )) ≥ E(f (X) | Y ). Für eine konvexe Funktion kehren sich die Ungleichungen um. Eine interessante Anwendung ist Proposition 10.37. Y sei eine Zufallsvariable mit E(Y 2 ) < ∞. Dann gilt V ar(E(Y | X)) ≤ Var(Y ) Für Zufallsvariablen Y mit EY 2 < ∞ ist die bedingte Erwartung E(Y | X) also eine Zufallsvariable, deren Erwartungswert und Varianz existiert. 92 10. ERWARTUNGSWERT, VARIANZ UND MOMENTE Satz 10.38. (Ungleichung von Liapounov) X sei R-wertige Zufallsvariable mit E |X|r < ∞ für ein r ∈ (0,∞). Dann folgt E |X|s < ∞ ∀0<s≤r und es gilt 1 1 (E |X|s ) s ≤ (E |X|r ) r , 1 das heißt s 7→ (E |X|s ) s ist monton wachsend. Zum Abschluss beweisen wir noch ein starkes Gesetz der großen Zahlen. Satz 10.39. (SGGZ, SLLN (strong law of large numbers)) X1 ,X2 , . . . sei eine Folge von i.i.d.-Zufallsvariablen definiert auf einen gemeinsamen Wahrscheinlichkeitsraum (Ω, F, P ). Es gelte E X14 < ∞. Dann gilt mit µ = E(X1 ) P n 1 X lim Xi = µ n→∞ n i=1 ! = 1.