Einführung in die Stochastik Mitschrift der Vorlesung “Einführung in die Stochastik” von Dr. Martin Wendler an der Universität zu Köln im WS 14/15. Kann Fehler enthalten. Veröffentlicht unter (CC BY-NC-SA 3.0 DE) - Dario Antweiler Inhaltsverzeichnis Kapitel 1: Wahrscheinlichkeiten & Wahrscheinlichkeitsräume 2 Kapitel 2: Bedingte Wahrscheinlichkeiten und Unabhängigkeit 6 Kapitel 3: Kombinatorik & Urnenmodelle 10 Kapitel 4: Zufallsvariablen 14 Kapitel 5: Erwartungswert & Varianz 18 Kapitel 6: Zufallsvektoren 22 Kapitel 7: Abhängige Zufallsvariablen 26 Kapitel 8: Stetig verteilte Zufallsvariablen 30 Kapitel 9: Stetig verteilte Zufallsvektoren 35 Kapitel 10: Die Normalverteilung 39 Kapitel 11: Schätztheorie 43 Kapitel 12: Testtheorie 48 Kapitel 13: Nichtparametrische statistische Modelle 51 Kapitel 14: ??? 52 1 Kapitel 1: Wahrscheinlichkeiten & Wahrscheinlichkeitsräume Bemerkung 1.1 • Wahrscheinlichkeiten: Aussagen über nicht vorhersehbare Ereignisse • oft keine Vorhersage wegen fehlenden Informationen möglich • Frage: Exakte Vorhersage möglich bei genügender Information? Beispiel 1.2 • Regnet es morgen? {ja, nein} • Welche Augenzahl fällt beim Würfeln? {1, ..., 6} • Wieviele Noteinsätze wird es morgen in Köln geben? N0 • Welchen Kurs hat eine Aktie morgen? 0, 01 · N0 • Wie groß wird ein Kind als Erwachsener sein? R+ • In welchem Winkel bleibt ein Roulette-Rad stehen? [0, 2π] Bemerkung 1.3 • Modelle • Vereinfachung der Wirklichkeit • Vorwissen • Modellunsicherheit Beispiel 1.4 • Würfel: Symmetrie? • Roulette: Sind alle Winkel gleich wahrscheinlich? Hat jeder Winkel die Wahrscheinlichkeit 0? • Regen: Vergangenheit, Wetterbericht • Aktie: aktueller Kurs • Größe: Große Männer bekommen kleine Kinder Bemerkung 1.5 • Modelle für zufällige Ergebnisse, die endlich/abzählbar viele Werte annehmen (diskrete Wahrscheinlichkeiten) • Modelle für zufällige Ergebnisse in Rd (stetige Verteilungen) • Teilinformationen verwenden (bedingte Wahrscheinlichkeiten) • Zufällige Ergebnisse bewerten (Erwartungswerte) • Unsicherheit quantifizieren (Varianz) • Modelle an Beobachtung anpassen (Schätztheorie) • Modelle überprüfen (Testtheorie) 2 07.10.14 Definition 1.6 Sei Ω 6= ∅. Dann heißt A ⊂ P (Ω) σ-Algebra :⇔ 1. Ω ∈ A 2. ∀ ∈ A : AC ∈ A 3. (An )n∈N mit An ∈ A ⇒ S n∈N An ∈ A Beispiel 1.7 Sei A = P (Ω). Dann ist A eine σ-Algebra. Beispiel 1.8 Seien A0 , ..., Ak ⊂ Ω für i 6= j : Ai ∩Aj = ∅ (disjunkt) und eine σ-Algebra. Sk i=1 Ai = Ω. Dann ist nS k i=1 o Aj | J ⊂ {1, ..., k} Beispiel 1.9 (Borel-Mengen) Sei Ω = Rd . Dann ist A = A ⊂ Rd | A Borel-messbar eine σ-Algebra mit {(a1 , b1 ] × ... × (ad , bd ]} ⊂ A. Definition 1.10 Sei Ω 6= ∅, A ⊂ P (Ω) eine σ-Algebra. Dann heißt eine Abbildung P : A → [0, 1] eine Wahrscheinlichkeitsverteilung :⇔ 1. P (Ω) = 1 2. A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B) 3. (An )n∈N mit An ∈ A, Ai ∩ Aj = ∅ für i 6= j ⇒ P S k∈N P∞ An = n=1 P (An ) Außerdem definieren wir: • (Ω, A, P ) heißt Wahrscheinlichkeitsraum • ω ∈ Ω heißt Ergebnis • A ∈ A heißt Ereignis Bemerkung 1.11 1.) bis 3.) nennt man die “Axiome der Wahrscheinlichkeitstheorie” (Kolmogorov, 1933) Beispiel 1.12 Ω = {1, ..., n} , A = P (Ω). Dann heißt P (A) = #A n Laplace-Verteilung oder (diskrete) Gleichverteilung. Lemma 1.13 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A. Dann gilt 1. P AC = 1 − P (A) 2. P (∅) = 0 3. A ⊂ B ⇒ P (B \ A) = P (B) − P (A) 4. P (B \ A) = P (B) − P (A ∩ B) 5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 3 10.10.14 Lemma 1.14 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt 1. A ⊂ B ⇒ P (A) ≤ P (B) 2. P (A ∪ B) ≤ P (A) + P (B) 3. P (A ∩ B) ≤ min {P (A) , P (B)} 4. P (A ∪ B) ≤ max {P (A) , P (B)} 5. P (A ∩ B) ≥ P (A) + P (B) − 1 Die Ungleichungen sind scharf, d.h. es existieren Kombinationen, in denen Gleichheit gilt. Beispiel 1.15 Würfel wird geworfen. Ω = {1, ..., 6} , A = P (Ω) , P Laplace-Verteilung. • Wahrscheinlichkeit für gerade Augenzahl: A = {2, 4, 6} ⇒ P (A) = • Wahrscheinlichkeit für Augenzahl ≥ 4: B = {4, 5, 6} ⇒ P (B) = • P (A ∩ B) = #{4,6} #Ω = 1 3 #{5} #Ω = 1 6 • P AC ∩ B = #{2,4,6} #Ω #{4,5,6} #Ω = = 1 2 1 2 Beispiel 1.16 Bemerkung 1.17 • P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) • P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) Satz 1.18 (Inklusions-/Exklusionsformel) Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A1 , ..., An ∈ A. Dann gilt P (A1 ∪ ... ∪ An ) = n X (−1) k−1 X P (Ai1 ∩ ... ∩ Aik ) 1≤i1 <...<ik ≤n k=1 Beispiel 1.19 n-maliges Würfeln: Ω = {(ω1 , ..., ωn ) | ωi ∈ {1, ..., 6}} , A = P (Ω) , P Laplace-Verteilung. Wahrscheinlichkeit für mindestens eine 6: A = {(ω1 , ..., ωn ) | ∃i : ωi = 6} ⇒ AC = {(ω1 , ..., ωn | ωi ∈ {1, ..., 5})} mit #AC = 5n . Also gilt #AC P (A) = 1 − P AC = 1 − =1− #Ω 4 n 5 6 Satz 1.20 (Stetigkeit von oben/unten) Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt die Stetigkeit: 1. von unten: Sei (An )n∈N eine Folge mit An ∈ A aufsteigend, d.h. Ai ⊂ Ai+1 . Dann gilt ! ∞ [ lim P (An ) = P An n→∞ n=1 2. von oben: Sei (Bn )n∈N eine Folge mit Bn ∈ A absteigend, d.h. Bi ⊃ Bi+1 . Dann gilt ! ∞ \ lim P (Bn ) = P Bn n→∞ n=1 Bemerkung 1.21 Bis jetzt: Ω endlich, ab jetzt Ω “im wesentlichen” abzählbar. Definition 1.22 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann heißt P diskret ⇔ 1. ∀ω ∈ Ω : {ω} ∈ A 2. ∃D ⊂ Ω abzählbar oder endlich mit P (D) = 1 Die Funktion p : Ω → [0, 1] mit p (ω) = P ({w}) heißt Wahrscheinlichkeitsfunktion. Lemma 1.23 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, P diskret und A ∈ A. Dann gilt X P (A) = p (ω) ω∈A∩D Lemma 1.24 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, P diskret und p die zugehörige Wahrscheinlichkeitsfunktion. Dann gilt 1. p (ω) ≥ 0 2. p (ω) = 0 bis auf abzählbar viele ω ∈ Ω 3. ∀ > 0 : p (ω) < bis auf endlich viele ω ∈ Ω Satz 1.25 Sei (Ω, A) ein Raum mit σ-Algebra A, sodass ∀ω ∈ Ω : {ω} ∈ A, p : Ω → [0, 1] Abbildung. Dann gibt es folgende Äquivalenz: 1. p ist Wahrscheinlichkeitsfunktion einer diskreten Wahrscheinlichkeitsverteilung P 2. sup p (ω) = 1 M ⊂Ω endlich P 3. ∃D ⊂ Ω abzählbar, sodass ∀ω ∈ DC : p (ω) = 0 und ω∈D p (ω) = 1 Beispiel 1.26 Sei Ω = R, A = Borelmengen. Dann gilt 1 ω 2 ( p (ω) = 0 5 für ω ∈ N sonst 14.10.14 Kapitel 2: Bedingte Wahrscheinlichkeiten und Unabhängigkeit Beispiel 2.1 Urne mit drei Kugeln, eine wird gezogen. Ω = {1, 2, 3} , A = P (Ω) , P Laplace-Verteilung. 1 Wahrscheinlichkeit für “Kugel 1”: p (1) = P ({1}) = #{1} #Ω = 3 Angenommen man verrät uns bereits: 3 ist es nicht gewesen”. “Kugel e e e e Definiere Ω = {1, 2, 3} \ {3} , A = P Ω , P Laplace-Verteilung ⇒ pe (1) = Pe ({1}) = 12 Bemerkung 2.2 Vorwissen führt zur Änderung des W.-Raums, aber viele W.-Räume sind unpraktisch. Definition 2.3 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A, B ∈ A mit P (B) > 0. Dann heißt P (A | B) = P (A ∩ B) P (B) bedingte Wahrscheinlichkeit von A gegeben B. (oder Wahrscheinlichkeit von A bedingt auf B) Beispiel 2.4 Wie in Beispiel 2.1: A = {1} , B = {1, 2} ⇒ P (A | B) = P (A∩B) P (B) = 1 2 Bemerkung 2.5 Sei Ω endlich, P die Laplace-Verteilung, A, B ⊂ Ω und B 6= ∅ ⇒ P (A | B) = #A∩B #Ω #B #Ω = #A∩B #B Beispiel 2.6 2 Eine Münze wird 2 Mal geworfen, Ω = {K, Z} , A = P (Ω) , P Laplace-Verteilung 1. Wie groß ist die Wahrscheinlichkeit für “Erster Wurf Kopf” gegeben “mindestens einmal Kopf”? #A 2 A = {(K, Z) , (K, K)} , B = {(K, Z) , (Z, K) , (K, K)} ⇒ P (A | B) = #A∩B #B = #B = 3 2. Wie groß ist die Wahrscheinlichkeit für “Erster Wurf Kopf” gegeben “beide Würfe gleich”? #{(K,K)} A wie oben, C = {(K, K) , (Z, Z)} ⇒ P (A | C) = #A∩C = 21 #C = #C Satz 2.7 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und B ∈ A mit P (B) > 0. Dann ist durch PB := P (· | B) , A → [0, 1] eine Verteilung gegeben auf Ω. Man nennt diese Verteilung bedingte Verteilung. Lemma 2.8 (Multiplikationsformel) Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A1 , ..., An ∈ A mit P (A1 ∩ ... ∩ An ) > 0, dann gilt n \ P Aj = P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) · ... · P (An | A1 ∩ ... ∩ An−1 ) j=1 6 Beispiel 2.9 (Pólya-Urne) Ausgangssituation: Urne mit einer roten und einer schwarzen Kugel. Nach jeder Ziehung lege die Kugel zurück und eine weitere Kugel gleicher Farbe. Nach n-ter Ziehung sind (n + 1) Kugeln in der Urne. ... Lemma 2.10 (Totale Wahrscheinlichkeit) Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und B1 , ..., Bn ∈ A disjunkt mit Dann gilt n X P (A) = P (A | Bk ) · P (Bk ) Sn i=1 Bi = Ω und A ∈ A. k=1 Satz 2.11 (Bayes-Formel) B1 , ..., Bn ∈ A disjunkt, Sn i=1 Bi = Ω und A ∈ A. Dann gilt P (A | Bi ) · P (Bi ) P (Bi | A) = Pn k=1 P (A | Bk ) · P (Bk ) Beispiel 2.12 Definition 2.13 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt 1. A, B heißen stochastisch unabhängig :⇔ P (A ∩ B) = P (A) · P (B) 2. Eine Familie Mengen (Ai )i∈I mit Ai ∈ A heißt stochastisch unabhängig :⇔ ∀J ⊂ I : von T Q P A = i i∈J i∈J P (Ai ) Bemerkung 2.14 Meist sagt man nur “unabhängig”. Lemma 2.15 (Ai )i∈I unabhängig ⇔ ∀J ⊂ I : (Ai )i∈J unabhängig. Beispiel 2.16 Lemma 2.17 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A, B ∈ A und P (B) > 0. Dann gilt A, B sind unabhängig ⇔ P (A | B) = P (A) Bemerkung 2.18 Interpretation von “A, B sind unabhängig”: Eintreten von B liefert keine Information über das Eintreten von A und umgekehrt. Lemma 2.19 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A ∈ A, dann sind äquivalent: 1. A unabhängig von A 2. A und AC sind unabhängig 3. P (A) ∈ {0, 1} 7 Lemma 2.20 Sei (Ω, ein Wahrscheinlichkeitsraum, A1 , ..., An ∈ A unabhängig und für i = 1, ..., n gilt A, P ) Bi ∈ Ai , AC i . Dann sind B1 , ..., Bn unabhängig. Beispiel 2.21 Es wird eine Münze geworfen. Ω = {K, Z} , A = P (Ω) , P Laplace-Verteilung. Sei A = {K} , B = {Z} und C = ∅. Dann gilt: • P (A) = P (B) = 21 , P (C) = 0 • P (A ∩ B ∩ C) = P (∅) = 0 = P (A) · P (B) · P (C) • aber nicht paarweise unabhängig, denn P (A ∩ B) = P (∅) = 0 6= 1 4 = P (A) · P (B) Beispiel 2.22 Eine Münze wird zweimal geworfen. Dann sind die Ereignisse 1. Es erscheint beim ersten Wurf Kopf 2. Es erscheint beim zweiten Wurf Kopf 3. Bei beiden Würfen erscheint die gleiche Seite paarweise unabhängig, aber nicht unabhängig. Beispiel 2.23 Bemerkung 2.24 Definition 2.25 Seien (Ωi , Ai , Pi ) , i = 1, ..., n diskrete Wahrscheinlichkeitsräume. Dann heißt das Tripel (Ω, A, P ) mit • Ω = Ω1 × ... × Ωn • P (ω1 , ..., ωn ) = P1 (ω1 ) · ... · Pn (ωn ) T • A = B⊂S B, S = {B σ-Algebra | ∀Ai ∈ Ai : A1 × ... × An ∈ B} Produktraum der Wahrscheinlichkeitsräume (Ωi , Ai , Pi ). Man schreibt Ω = Nn i=1 (Ωi , Ai , Pi ). Lemma 2.26 (Ω, A, P ) aus Definition 2.25 ist ein diskreter Wahrscheinlichkeitsraum. Lemma 2.27 Sind (Ω1 , A1 , P1 ) , ..., (Ωn , An , Pn ) endliche Wahrscheinlichkeitsräume mit Laplace-Verteilung und #Ωi = ki , dann ist n O (Ω, A, P ) = (Ωi , Ai , Pi ) ein endlicher Wahrscheinlichkeitsraum mit #Ω i=1 Qn = i=1 ki und Laplace-Verteilung. Lemma 2.28 Für i = 1, ..., n seien (Ωi , Ai , Pi ) diskrete Wahrscheinlichkeitsräume und (Ω, A, P ) = mit Ai ∈ Ai , dann gilt 1. A1 × ... × An ∈ A 2. P (A1 × ... × An ) = Qn i=1 Pi (Ai ) 8 Nn i=1 (Ωi , Ai , Pi ) Satz 2.29 Nn Für i = 1, ..., n seien (Ωi , Ai , Pi ) diskrete Wahrscheinlichkeitsräume und (Ω, A, P ) = i=1 (Ωi , Ai , Pi ) mit Ai ∈ Ai und Bi = {(ω1 , ..., ωn ) ∈ Ω | ωi ∈ Ai }. Dann sind B1 , ..., Bn unabhängig. Beispiel 2.30 Binomialverteilung (...) 9 Kapitel 3: Kombinatorik & Urnenmodelle Bemerkung 3.1 (Standardmodell) • Urne mit n nummerierten Kugeln • k Kugeln werden gezogen • mit oder ohne zurücklegen • mit oder ohne Berücksichtigung der Reihenfolge Definition 3.2 Wir definieren folgende Räume: k • ΩI = {1, ..., n} • ΩII = {(ω1 , ..., ωk ) | ∀i : ωi ∈ {1, ..., n} , ∀j 6= i : ωi 6= ωj } für k ≤ n • ΩIII = {A ⊂ {1, ..., n} | #A = k} für k ≤ n Pn • ΩIV = {(k1 , ..., kn ) | ki ∈ N0 , i=1 ki = k} Bemerkung 3.3 • ΩI : k-mal Ziehen, mit Zurücklegen, mit Berücksichtigung der Reihenfolge • ΩII : k-mal Ziehen, ohne Zurücklegen, mit Berücksichtigung der Reihenfolge • ΩIII : k-mal Ziehen, ohne Zurücklegen, ohne Berücksichtigung der Reihenfolge • ΩIV : k-mal Ziehen, mit Zurücklegen, ohne Berücksichtigung der Reihenfolge Bemerkung 3.4 #ΩI = nk und PI = Laplace-Verteilung liefert “angemessenes Modell” Lemma 3.5 #ΩII = n·(n − 1)·...·(n − k + 1) = n! (n−k)! und PII = Laplace-Verteilung liefert “angemessenes Modell” Beispiel 3.6 Tür, 5 Schlüssel, richtiger Schlüssel unbekannt 1. Wir probieren die Schlüssel nacheinander aus. Wahrscheinlichkeit von “vier oder mehr Versuche”? O.B.d.A.: richtiger Schlüssel entspricht “Kugel 5” in Urne mit 5 Kugeln. Ziehe ohne Zurücklegen. P ("vier oder mehr Versuche") = P ("min. 3 Fehlversuche") n o (3,5) PII ω ∈ ΩIII | ω1 , ω2 , ω3 6= 5 = #ΩII = (3,4) = 10 (3,5) #ΩII 2 5 2. Wir ziehen jetzt jeweils einen Schlüssel aus der Hosentasche und stecken ihn zurück, wenn er nicht passt. Wahrscheinlichkeit von “vier oder mehr Versuche”? P ("vier oder mehr Versuche") = P ("bei den ersten 3 Versuchen nur Misserfolge") n o (3,5) PI ω ∈ ΩI | ω1 , ω2 , ω3 6= 5 = #ΩI = (3,4) (3,5) #ΩI 64 125 = Definition 3.7 Für r ∈ R, n ∈ N definieren wir den Biniomialkoeffizienten r(r−1)·...·(r−n+1) n∈N n! r := 1 n=0 n 0 sonst Bemerkung 3.8 Falls n, k ∈ N, k ≤ n : n k = n! k!(n−k)! , k >n: n k = 0. Lemma 3.9 (k,n) #ΩIII = n k und PIII = Laplace-Verteilung liefert ein “angemessenes Modell”. Lemma 3.10 (k,n) #ΩIV = n+k−1 k und die Laplace-Verteilung liefert kein “angemessenes Modell”. Bemerkung 3.11 Oft interessiert Nummer der Kugel nicht, sondern nur, welche Sorte/Art. Beispiel 3.12 Beispiel 3.13 −R ) (Rr)(Nn−r N (n) Hypergeometrische Verteilung: hypergeo (N, R, n) ⇒ p (r) = Beispiel 3.14 1. Aus einer Schulklasse mit 20 Schülern, 10 Mädchen, 10 Jungen werden 3 Schüler zufällig ausgewählt. Wie wahrscheinlich ist es, dass alle 3 das gleiche Geschlecht haben? 10 10 P (A) = = 3 0 20 3 10, 53% 2. 4 Mädchen, 4 Jungen: 4 P (B) 4 3 0 = 2· = 14, 28% 11 8 3 28.10.14 Satz 3.15 Sei pN,R,n die Wahrscheinlichkeitsfunktion der Hypergeometrischen Verteilung. Falls RN N →∞ → N p ∈ (0, 1), dann gilt für k ∈ {0, ..., n} N →∞ n n−k pN,R,n (k) → pk (1 − p) k Bemerkung 3.16 In vielen Anwendungen mehr als zwei Sorten/Farben von Kugeln. Definition 3.17 Es seien k, k1 , ..., km ∈ N0 und Pn i=1 ki = k. Dann heißt k k! = k1 ! · ... · kn ! k1 , ..., kn Multinomialkoeffizient. Bemerkung 3.18 Für n = 2 : k1 + k2 = k ⇒ k2 = k − k1 ⇒ k k1 ,k2 = k! k1 !(k−k1 ) = k k1 Lemma 3.19 Sei A eine Menge mit #A = k. Dann gilt ( # {A1 , ..., An } ∈ P (P (A)) | n [ ) Ai = A, #Ai = ki = i=1 k k1 , ..., kn Beispiel 3.20 UrnePmit Ni Kugeln der Sorte i. Es werden k Kugeln mit Zurücklegen gezogen. Es seien k1 , ..., kn ∈ N0 n mit i=1 ki = k. Wahrscheinlichkeit für Ereignis “ki Kugeln der Sorte i = 1, ..., n”? [...] Qn Ni ki k = k1 ,...,k i=1 N n Diese Verteilung heißt Multinomialverteilung. Beispiel 3.21 Situation wie in 3.20. k Mal ziehen ohne Zurücklegen. Dann gilt für k1 , ..., kn ∈ N0 , N1 P (”k1 Mal Sorte 1, ..., kn Mal Sorte n) = k1 · ... · N Pn i=1 ki = k: Nn kn n Beispiel 3.22 (Stimmzettelproblem) Wahl, Kandidat A gewinnt mit a Stimmen gegen Kandidat B mit b Stimmen (a > b, a, b ∈ N). Eine Stimme wird nach der anderen ausgezählt. Wie wahrscheinlich ist es, dass A die ganze Zeit vorne liegt? [...] = a−b a+b 12 Lemma 3.23 1. #E2 = #E3 2. #E2 = a+b−1 a Beispiel 3.24 (Fortsetzung Stimmzettelproblem) [...] 13 Kapitel 4: Zufallsvariablen 04.11.14 Definition 4.1 Es seien Ω1 , Ω2 6= ∅, A1 eine σ-Algebra auf Ω1 und A2 eine σ-Algebra auf Ω2 . Eine Abbildung f : Ω1 → Ω2 heißt (A1 , A2 )-messbar, genau dann, wenn ∀A ∈ A2 : f −1 (A) ∈ A1 . Lemma 4.2 Seien Ω1 , Ω2 , Ω3 6= ∅, Ai σ-Algebra auf Ωi sowie f : Ω1 → Ω2 (A1 , A2 )-messbar und g : Ω2 → Ω3 (A2 , A3 )-messbar. Dann ist g ◦ f (A1 , A3 )-messbar. Definition 4.3 1. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, B die Borelmengen auf R. Eine (A, B)-messbare Abbildung X : Ω → R heißt Zufallsvariable 2. Sei B d die σ-Algebra der d-dimensionalen Borelmengen. Eine A, B d -messbare Abbildung Y : Ω → Rd heißt Zufallsvektor Lemma 4.4 Seien B die Borelmengen auf R. Dann gilt: 1. ∀O ⊂ R offen: O ∈ B 2. ∀A ⊂ R abgeschlossen: A ∈ B 3. ∀x ∈ R : (−∞, x] ∈ B 4. ∀x, y ∈ R mit x < y : (x, y] ∈ B Lemma 4.5 Sei f : Ω → R eine Abbildung, A eine σ-Algebra auf Ω. Dann sind äquivalent: 1. f ist (A, B)-messbar 2. ∀O ⊂ R offen: f −1 (O) ∈ A 3. ∀A ⊂ R abgeschlossen: f −1 (A) ∈ A 4. ∀x ∈ R : f −1 ((−∞, x]) ∈ A Lemma 4.6 Sei f : R → R eine Funktion. Dann gilt: 1. f stetig ⇒ f ist (B, B)-messbar 2. f monoton ⇒ f ist (B, B)-messbar Lemma 4.7 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsvariable und f : R → R messbar. Dann ist f ◦ X eine Zufallsvariable. 14 Definition 4.8 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsvariable. Dann heißt PX : B → [0, 1] 7→ PX (M ) := P X −1 (M ) M Verteilung von X. Statt P X −1 (M ) schreibt man meistens P (X ∈ M ). Lemma 4.9 Sei X eine Zufallsvariable, dann ist (R, B, PX ) ein Wahrscheinlichkeitsraum. Definition 4.10 Eine Zufallsvariable heißt diskret, wenn PX eine diskrete Wahrscheinlichkeitsverteilung auf R ist. Dann heißt pX : R x → [0, 1] 7→ pX ({x}) = P (X = x) Wahrscheinlichkeitsfunktion von X. Lemma 4.11 Sei (Ω, A, P ) ein diskreter Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable ⇒ PX ist eine diskrete Wahrscheinlichkeitsverteilung. Beispiel 4.12 Zweimaliges Würfeln 2 • Ω = {1, ..., 6} , A = P (Ω) , P Laplace-Verteilung • X : Ω → R, X (ω1 , ω2 ) = ω1 + ω2 • ∀M ⊂ R : X −1 (M ) ⊂ Ω ⇒ X −1 (M ) ∈ A • PX (2) = P ({ω | ω1 + ω2 = 2}) = P ({(1, 1)}) = #{(1,1)} #Ω Beispiel 4.13 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A ∈ A. Dann definieren wir eine Indikatorfunktion IA durch ( 1 falls ω ∈A IA (ω) = 0 sonst Ω falls 0, 1 ∈ B ∅ falls 0, 1 ∈ /B I ist eine Zufallsvariable, denn I−1 ∈A A (B) = A falls 1 ∈ B, 0 ∈ /B C A falls 1 ∈ / B, 0 ∈ B Bemerkung 4.14 Oft interessiert P nicht, sondern nur PX . Für jedes diskrete Wahrscheinlichkeitsmaß Pe auf (R, R) gibt es einen Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable X, sodass PX = Pe. [...] 15 Beispiel 4.15 (Laplace-Verteilung) Sei D ⊂ R endlich, #D = n ≥ 1, dann heißt P gegeben ( 1 falls x ∈ D p (x) = n 0 sonst Laplace-Verteilung auf D und eine Zufallsvariable X heißt Laplace-verteilt, falls PX = P . Beispiel 4.16 (Bernoulli-Verteilung) P gegeben durch x=1 p p (x) = 1 − p x = 0 0 falls x ∈ / {0, 1} heißt Bernoulli-Verteilung und eine Zufallsvariable X heißt Bernoulli-verteilt, falls PX = P . [...] Beispiel 4.17 (Binomial-Verteilung) Sei p ∈ (0, 1) , n ∈ N. P gegeben durch ( n p (x) = x n−x · px (1 − p) 0 x=1 sonst heißt Binomial-Verteilung binom (n, p) und eine Zufallsvariable X heißt binomial-verteilt, falls PX = binom (n, p). Beispiel 4.18 (Geometrische Verteilung) Sei p ∈ (0, 1). P gegeben durch ( p (x) = x (1 − p) p x ∈ N0 0 sonst heißt geometrische Verteilung mit Parameter p. Wir führen n unabhängige Experimente durch mit Erfolgswahrscheinlichkeit p, solange bis wir Erfolg haben. Die Anzahl der Misserfolge bis zum ersten Erfolg ist geometrisch verteilt. [...] Lemma 4.19 Für (Ω, A, P ) mit Ω = {0, 1} , A = N gilt: T n o 07.11.14 n N B, S := B σ-Algebra | ∀k, ∀B ∈ P ({0, 1} ) : B × {0, 1} ∈ B B∈S 1. ({ωI = 1})i∈N ist eine unabhängige Familie von Mengen 2. P ({ωi = 1}) = p Lemma 4.20 Sei (Ω, A, P ) wie oben. Dann ist X : Ω → R mit X (ω) = min {i | ωi = 1} − 1 eine geometrisch verteilte Zufallsvariable. 16 Beispiel 4.21 Wir werfen einen Würfel, bis das erste Mal “6” erscheint. Wie groß ist die Wahrscheinlichkeit 10-Mal oder öfter werfen zu müssen? • X geometrisch verteilt mit Parameter p = 16 , wobei X = ”Zeitpunkt der ersten 6” n 9 P∞ • P (X ≥ 9) = k=9 56 16 = 56 ≈ 19, 38% Beispiel 4.22 Sei p ∈ (0, 1) , r ∈ N. P gegeben durch ( p (x) = r+k−1 k x pr (1 − p) 0 für x ∈ N0 sonst heißt negativ-binomiale-Verteilung mit Parametern r und p. Lemma 4.23 p aus Beispiel 4.22 definiert eine Wahrscheinlichkeitsfunktion. Lemma 4.24 Wir führen unabhängige Experimente durch mit Erfolgswahrscheinlichkeit p. Die Anzahl der Misserfolge bis zum r-ten Erfolg ist negativ binomial verteilt. Beispiel 4.25 Sei λ ∈ (0, ∞) , P gegeben durch ( p (x) = λx −λ x! e 0 für x ∈ N0 sonst heißt Poisson-(λ)-Verteilung. Satz 4.26 n→∞ Sei Pn die Binomialverteilung mit (n, pn ), wobei n · pn → λ ∈ (0, ∞). Dann gilt lim Pn ({k}) = P ({k}) n→∞ mit P der Poisson-(λ)-Verteilung. Beispiel 4.27 Pro Tag komm es pro 10.000 Personen im Schnitt zu einem Notarzteinsatz. Wie wahrscheinlich ist es, dass es in einer Stadt mit 20.000 Einwohnern zu keinem Notarzteinsatz kommt? • Vereinfachung: Personen sind unabhängig und höchstens 1 Einsatz pro Person 1 • Anzahl X der Einsätze ist binomialverteilt mit Parametern 20.000, 10.000 • Sei Y Poisson(2)-verteilt, np = 2 • P (X = 0) ≈ P (Y = 0) = 1 0! · 20 · e−2 ≈ 13, 53% 17 Kapitel 5: Erwartungswert & Varianz Definition 5.1 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, x :P Ω → R eine diskrete Zufallsvariable mit Verteilung PX . D ⊂ R sei abzählbar mit P (X ∈ D) = 1 und x∈D |x| PX (x) < ∞. Dann heißt E [X] = X x · PX (x) x∈D Erwartungswert von X. Bemerkung 5.2 Falls P x∈D |x| PX (x) = ∞ setze ( E [X] = +∞ für D ⊂ [0, ∞] −∞ für D ⊂ [−∞, 0] Beispiel 5.3 Wir werfen einen Würfel. Ω = {1, ..., 6} , A = P (A) , P = Laplace. Verteilung: X : Ω → R, X (ω) = ω. Dann gilt 1 21 E [X] = · (1 + 2 + 3 + 4 + 5 + 6) = = 3, 5 6 6 Bemerkung 5.4 Seien x, y Zufallsvariablen mit der gleichen Verteilung. Dann gilt X X E [X] = |x| PX (x) = |y| PY (y) = E [Y ] x∈D y∈D Beispiel 5.5 1. a 2. b 3. c 4. d 5. e Satz 5.6 (Trafo-Formel) Sei X eine diskrete Zufallsvariable, g : R → R messbar, D ⊂ R abzählbar mit P (X ∈ D) = 1 und P x∈D |x| PX (x) < ∞. Dann gilt E [g (X)] = X g (x) · PX (x) x∈D Beispiel 5.7 Sei X Poisson-(λ)-verteilt. Sei g (x) = ex , also g (X) = eX . Dann gilt ∞ ∞ k k X X X (λ · e) k −λ λ −λ E e = e e =e = eλ(e−1) k! k! k=0 k=0 18 Lemma 5.8 Sei X eine diskrete Zufallsvariable und g : R → [0, ∞). Dann gilt E [g (x)] ≥ 0. Lemma 5.9 Seien X, Y diskrete Zufallsvariablen, es existiere E [X] , E [Y ]. Dann gilt 1. ∀a, b ∈ R : E [aX + b] = aE [X] + b 2. E [X + Y ] = E [X] + E [Y ] Bemerkung 5.10 Man kann per Induktion zeigen, dass E [X1 + ... + Xn ] = Pn i=1 E [Xi ]. Beispiel 5.11 Theater, n Besucher, jeder gibt genau einen Schirm an der Garderobe ab und bekommt einen zufälligen zurück. X =Anzahl der richtig zurückgegebenen Schirme. Sei ( 1 Besucher i erhält seinen Schirm zurück Xi := 0 sonst Dann gilt X = Pn i=1 Xi und E [Xi ] = 0 · P (Xi = 0) + 1 · P (Xi = 1) = E [X] = n X 1 n, also E [Xi ] = 1 i=1 Satz 5.12 (Jensen-Ungleichung) Sei X eine diskrete Zufallsvariable, E [X] existiere und ϕ : R → R eine nicht-negative konvexe Funktion. Dann gilt E [ϕ (X)] ≥ ϕ (E [X]) Beispiel 5.13 2 1. Sei ϕ (x) = x2 ⇒ E X 2 ≥ (E [X]) 2. Sei ϕ (x) = |x| ⇒ E [|x|] ≥ |E [X]| (Dreiecks-Ungleichung) Bemerkung 5.14 Erwartungswert = “mittlere Lage”, jetzt: “Maß für Streuung”. Definition 5.15 Es sei X : Ω → R eine diskrete Zufallsvariable und E [X] existiere, dann heißt h i 2 Var [X] := E (X − E [X]) Varianz von X. p Var (X) heißt Standardabweichung. Bemerkung 5.16 h i 2 2 Es gilt (X − E [X]) ≥ 0 und falls E (X − E [X]) nicht existiert, setze Var [X] = ∞. 19 14.11.14 Lemma 5.17 Es sei X eine Zufallsvariable und a, b ∈ R, dann gilt 1. Var [aX + b] = a2 · Var [X] 2 2. Var [X] = E X 2 − (E [X]) Satz 5.18 Sei X eine diskrete Zufallsvariable und E [X] existiere, dann gilt für alle a ∈ R h i h i 2 2 E (X − a) ≥ E (X − E [X]) und Gleichheit gilt genau dann, wenn a = E [X]. Definition 5.19 Sei X eine diskrete Zufallsvariable und es gelte P x∈D k |x| PX (x) < ∞ für k ∈ N0 . Dann heißt mk := E X k k-tes Moment von X. Bemerkung 5.20 Es gilt • Var [X] = m2 − m21 • Var X 2 = m4 − m22 Beispiel 5.21 1. Sei X Laplace-verteilt auf {1, ..., n}. Dann ist Var [X] = n2 −1 12 2. Sei X Bernoulli-(p)-verteilt. Dann ist Var [X] = p (1 − p) 3. Sei X bin (n, p)-verteilt. Dann gilt Var [X] = np (1 − p) 4. Sei X hypergeo (N, R, n)-verteilt. Dann gilt Var [X] = n · R N · 1− R N · N −n N −1 [...] Bemerkung 5.22 18.11.14 Intuition: Varianz klein ⇒ Daten streuen wenig ⇒ mit hoher Wahrscheinlichkeit nahe am Erwartungswert. Satz 5.23 (Markov-Ungleichung) Sei X eine Zufallsvariable und a > 0. Dann gilt P (|X| ≥ a) ≤ E [|X|] a Satz 5.24 (Chebychev-Ungleichung) Sei X eine Zufallsvariable und E [X] existiere. Dann gilt P (|X − E [X]| ≥ a) ≤ 20 1 · Var [X] a2 Bemerkung 5.25 Falls Var [X] nicht existiert, setzen wir Var [X] = ∞ ⇒ Chebychev-Ungleichung gilt trivialerweise. Beispiel 5.26 Sei X eine Zufallsvariable Poisson(1)-verteilt und k ≥ 3. Es gilt E [X] = 1, Var [X] = 1 und damit P (X ≥ k) = P (|X − 1| ≥ k − 1) = P (|X − E [X]| ≥ k − 1) Var [X] ≤ = (k − 1) 1 2 (k − 1) 2 Die genauere Rechnung lautet P (X ≥ k) = ∞ X e−1 n! n=k = ∞ e−1 X k! · k! n! ≤ ∞ 1 e−1 X · k! (n − k)! = 1 k! n=k n=k Also ist die Chebychev-Ungleichung nicht immer scharf, aber dafür einfach auszurechnen und benötigt nur die Varianz. 21 Kapitel 6: Zufallsvektoren Erinnerung 6.1 t Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, dann heißt X = (X1 , ..., Xn ) : Ω → Rn Zufallsvektor ⇔ X ist (A, B n )-messbar mit B n ist die σ-Algebra auf Rn und (a1 , b1 ] × ... × (an , bn ] ∈ B n . Lemma 6.2 X = (X1 , ..., Xn ) : Ω → Rn ist (A, B n )-messbar ⇔ ∀a1 , b1 , ..., an , bn mit ai < bi gilt X −1 ((a1 , b1 ] × ... × (an , bn ]) Lemma 6.3 X = (X1 , ..., Xn ) : Ω → Rn Zufallsvektor ⇔ ∀i ∈ {1, ..., n} : Xi Zufallsvariable. Definition 6.4 t Sei X = (X1 , ..., Xn ) ein Zufallsvektor. Dann heißt die durch PX (A) = P X −1 (A) auf (Rn , B n ) gegebene Wahrscheinlichkeitsverteilung PX die Verteilung von X oder die gemeinsame Verteilung von X1 , ..., Xn . X heißt diskret ⇔ PX diskret. Lemma 6.5 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → Rn eine Zufallsvariable. Dann gilt X diskret ⇔ X1 , ..., Xn diskret Definition 6.6 t Sei X = (X1 , ..., Xn ) ein diskreter Zufallsvektor. Dann heißt pX1 ,...,Xn : Rn → [0, 1] mit pX1 ,...,Xn (x1 , ..., xn ) = PX ({(x1 , ..., xn )}) gemeinsame Wahrscheinlichkeitsfunktion. Beispiel 6.7 2 Münze wird zwei Mal geworfen. Ω = {0, 1} , A = P (Ω) , P Laplace-Verteilung. Definiere ( 1 "erste Münze Zahl" X= 0 sonst und Y = "Anzahl Zahl" d.h. X (ω1 , ω2 ) = ω1 und Y (ω1 , ω2 ) = ω1 + ω2 . Dann sind die Werte der gemeinsamen Wahrscheinlichkeitsfunktion X 0 1 Y 0 1 1 4 1 4 1 4 0 2 0 1 4 Definition 6.8 t Sei X = (X1 , ..., Xn ) ein Zufallsvektor, I ⊂ {1, ..., n} , I 6= ∅, {1, ..., n}. Dann heißt P(Xi )i∈I marginale Verteilung von (Xi )i∈I . Falls X diskret ist, so heißt p(Xi )i∈I (yi1 , ..., yik ) = P(Xi )i∈I ({(yi1 , ..., yik )}) , I = {i1 , ..., ik } marginale Wahrscheinlichkeitsfunktion. 22 21.11.14 Lemma 6.9 t Sei X = (X1 , ..., Xn ) ein diskreter Zufallsvektor, D ⊂ Rn abzählbar mit P (X ∈ D) = 1 und I 6= ∅, I = {i1 , ..., ik } , I c = {j1 , ..., jm }. Dann gilt X px (y1 , ..., yn ) P(Xi )i∈I (xi1 , ..., xik ) = (y1 , ..., yn ) ∈ D (yi1 , ..., yik ) = (xi1 , ..., xik ) Beispiel 6.10 Definition 6.11 t Sei X = (X1 , ..., Xn ) ein diskreter Zufallsvektor mit x1 X .. . · px (x1 , ..., xn ) < ∞ (x1 ,...,xn )∈D x n x1 Pn wobei ... = i=1 |xi |, dann heißt xn x1 .. . · px (x1 , ..., xn ) X E [X] = (x1 ,...,xn )∈D xn Erwartungswert von X. Lemma 6.12 x1 E [x1 ] E ... = ... xn E [xn ] Satz 6.13 (Trafo-Formel) P Sei X = Ω → Rn ein diskreter Zufallsvektor, g : Rn → Rm messbar mit (x1 ,...,xn )∈D kg (x1 , ..., xn )k · px (x1 , ..., xn ) < ∞ dann gilt X E [g (X)] = g (x1 , ...xn ) · px (x1 , ..., xn ) (x1 ,...,xn )∈D Bemerkung 6.14 Schnellerer Beweis von 5.9: E [X + Y ] = X (x + y) · p(X,Y ) (x, y) (x,y)∈D = X x · p(X,Y ) (x, y) + (x,y)∈D = X x y · p(X,Y ) (x, y) (x,y)∈D X x· X p(X,Y ) (x, y) + y y:(x,y)∈D | X {z PX (x) = E [X] + E [Y ] 23 } X y· p(X,Y ) (x, y) x:(x,y)∈D | {z PY (y) } Beispiel 6.15 Bemerkung 6.16 Liefert eine Zufallsvariable Informationen über andere Zufallsvariablen? • keine Infos → unabhängig • Infos → abhängig Definition 6.17 Es seien X1 , ..., Xn Zufallsvektoren. X1 , ..., Xn heißen unabhängig, wenn gilt: ∀B1 , ..., Bn ∈ B : P (X1 ∈ B1 , ..., Xn ∈ Bn ) = n Y P (Xi ∈ Bi ) i=1 Lemma 6.18 X1 , ..., Xn unabhängig ⇔ ∀a1 , b1 , ..., an , bn ∈ R : P (X1 ) ∈ (a1 , b1 ] , ..., P (Xn ) ∈ (an , bn ] = Qn i=1 P (Xi ∈ (ai , bi ]). Lemma 6.19 25.11.14 Seien X1 , ..., Xn Zufallsvariablen, dann gilt X1 , ..., Xn unabhängig ⇔ B1 , ..., Bn ∈ B : ({Xi ∈ Bi })i∈{1,...,n} sind unabhängig. Lemma 6.20 Seien X1 , ..., Xn unabhängige Zufallsvariablen und f1 , ..., fn : R → R seien (B, B)-messbar. Dann sind f1 (X1 ) , ..., fn (Xn ) unabhängige Zufallsvariablen. Lemma 6.21 Seien X1 , ..., Xn unabhängige und diskrete Zufallsvariablen, dann gilt pX1 ,...,Xn (x1 , ..., xn ) = pX1 (x1 ) · ... · pXn (xn ) Satz 6.22 Seien X, Y diskrete Zufallsvariablen mit pX,Y (x, y) = g (x) · h (y) mit g, h : R → R, dann sind X, Y unabhängig. Beispiel 6.23 Sei (X1 , ..., Xd ) multinomialverteilt mit Parametern n, p1 , ..., pd . Sind Xi , Xj für i 6= j unabhängig? Sei Xi bin (n, pi ) und Xj bin (n, pj )-verteilt. Dann gilt P (Xi = n) = pni > 0 P (Xj = n) = pnj > 0 aber P (Xi = n, Xj = n) = 0 6= P (Xi = n) · P (Xj = n) also sind Pi , Pj nicht unabhängig. Satz 6.24 (Faltungsformel) Seien X, Y unabhängige und diskrete Zufallsvariablen, D1 , D2 abzählbar mit P (X ∈ D1 ) = P (Y ∈ D2 ) = 1. Dann gilt für z ∈ D1 + D2 := {x + y | x ∈ D1 , y ∈ D2 } X pX+Y (z) = pX (x) · pY (z − x) x∈D1 24 Beispiel 6.25 Bemerkung 6.26 Es gilt E [X + Y ] = E [X] + E [Y ], aber im Allgemeinen E [XY ] 6= E [X] · E [Y ]. Satz 6.27 Seien X, Y unabhängige und diskrete Zufallsvariablen, dann gilt E [X · Y ] = E [X] · E [Y ] 28.11.14 Lemma 6.28 Seien X1 , ..., Xn unabhängige, diskrete Zufallsvariablen, dann gilt Var [X1 + ... + Xn ] = Var [X1 ] + ... + Var [Xn ] Bemerkung 6.29 Pn Seien X1 , ..., Xn Zufallsvariablen mit Mittelwert X := n1 i=1 Xi . Seien X1 , ..., Xn unabhängig, E [X1 ] = ... = E [Xn ] = µ und Var [X1 ] = ... = Var [Xn ] = σ 2 . Dann gilt " # n n 1 X 1 X E X =E · Xi = · E [Xi ] = µ n i=1 n i=1 und " # n n 1 X 1 X σ2 · Xi = 2 Var [Xi ] = Var X = Var n i=1 n i=1 n Satz 6.30 (Gesetz der großen Zahlen) Sei (Xn )n∈N eine Folge unabhängiger Zufallsvariablen, E [X1 ] = ... = E [Xn ] = µ und Var [X1 ] = ... = Var [Xn ] = σ 2 < ∞. Dann gilt ∀ > 0 k→∞ P X − µ > → 0 X konvergiert in Wahrscheinlichkeit gegen µ 25 Kapitel 7: Abhängige Zufallsvariablen Bemerkung 7.1 • X, Y abhängig: X liefert Infos über Y • kann man Infos nutzen für bessere Vorhersage von Y ? h i 2 • finde g : E (Y − g (X)) < Var [Y ] • g linear (Regression) bzw. g beliebig (bedingte Erwartung) Bemerkung 7.2 Var [X + Y ] h i 2 2 = E (X − E [X]) + (Y − E [Y ]) h i h i 2 2 = E (X − E [X]) + E (Y − E [Y ]) + 2E [(X − E [X]) · (Y − E [Y ])] Definition 7.3 Seien X, Y diskrete Zufallsvariablen mit E [|X − E [X]| · |Y − E [Y ]|] < ∞. Dann heißt Cov (X, Y ) := E [(X − E [X]) · (Y − E [Y ])] Kovarianz von X und Y . t Sei (X1 , ..., Xn ) ein Zufallsvektor. Dann heißt P (X1 ,...,Xn ) ∈ Rn×n mit P (X1 ,...,Xn ) Kovarianzmatrix von X1 , ..., Xn . i,j = Cov (Xi , Xj ) Lemma 7.4 Seien X, Y Zufallsvariablen wie in 7.3, dann gilt 1. falls X, Y unabhängig gilt Cov (X, Y ) = 0 2. Cov (X, Y ) = E [XY ] − E [X] · E [Y ] 3. Cov (X, X) = Var [X] 4. Cov (a1 X + b1 , a2 Y + b2 ) = a1 a2 Cov (X, Y ) 5. Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z) 6. Cov (X, Y ) = Cov (Y, X) Beispiel 7.5 Falls Cov (X, Y ) = 0, nennt man X und Y unkorreliert. Aus Cov (X, Y ) = 0 folgt nicht X, Y unabhängig. Sei P (X = 1) = P (X = −1) = P (X = 0) = 13 und Y = X 2 . Dann gilt 1 (−1 + 0 + 1) = 0 3 1 2 E [Y ] = E X 2 = (1 + 0 + 1) = 3 3 3 1 E [XY ] = E X = (−1 + 0 + 1) = 0 3 E [X] Cov (X, Y ) = = E [XY ] − E [X] E [Y ] = 0 − 0 · aber es gilt P (X = 0 = Y ) = P (X = 0) = 2 =0 3 1 1 6= = P (X = 0) · P (Y = 0) 3 9 26 Satz 7.6 (Cauchy-Schwarz-Ungleichung) Seien X, Y Zufallsvariablen mit E X 2 < ∞, E Y 2 < ∞, dann gilt E [|XY |] ≤ p p E [X 2 ] · E [Y 2 ] Korollar 7.7 Seien X, Y Zufallsvariablen mit E X 2 < ∞, E Y 2 < ∞, dann gilt E [|X − E [X]| · |Y − E [Y ]|] < ∞ und Cov (X, Y ) existiert. Definiton 7.8 Seien X, Y diskrete Zufallsvariablen mit Var [X] > 0, Var [Y ] > 0, E X 2 < ∞, E Y 2 < ∞. Dann heißt Cov (X, Y ) p ρX,Y := p Var [X] · Var [Y ] Korrelationskoeffizient von X und Y . Lemma 7.9 1. |ρX,Y | ≤ 1 2. ρX,X = 1, ρX,−X = −1 3. a1 , a2 , a2 , b2 ∈ R, a1 , a2 > 0, dann ρa1 X+b1 ,a2 Y +b2 = ρX,Y Satz 7.10 h i 2 2 Seien X, Y Zufallsvariablen mit σX := Var [X] ∈ (0, ∞) , σY2 := Var [Y ] ∈ (0, ∞). Dann ist E (Y − aX − b) minimal für σY Cov (X, Y ) ∗ a∗ = , b = E [Y ] − a∗ E [X] · ρX,Y = σX Var [X] und es gilt h i 2 E (Y − a∗ X − b∗ ) = 1 − ρ2X,Y · Var [Y ] Bemerkung 7.11 Satz 7.12 Seien X, Y diskrete Zufallsvariablen, Var [X] , Var [Y ] ∈ (0, ∞). Dann gilt ρX,Y = 1 ⇔ ∃a, b ∈ Rn , a > 0 : P (Y = aX + b) = 1 Bemerkung 7.13 Die Gerade (x, y) ∈ R2 | Y = a∗ X + b∗ heißt Regressionsgerade. Bemerkung 7.14 P Jetzt Zufallsvektor mit dim > 2 möglich. ( )i,j = Cov (Xi , Xj ) heißt Kovarianzmatrix. 27 02.12.14 Satz 7.15 Sei X = (X1 , ..., Xn ) ein diskreter Zufallsvektor mit E Xi2 < ∞. Dann gilt für A ∈ Rm×n , b ∈ Rm P P t 1. AX+b = A · X ·A Pn Pn Pn Pi−1 2. Var [ i=1 Xi ] = i=1 Var [Xi ] + 2 · i=1 j=1 Cov (Xi , Xj ) Beispiel 7.16 Bemerkung 7.17 Aus Cov (X, Y ) = 0 folgt nicht, dass X, Y unabhängig sind. Die Kovarianz beschreibt nicht die komplette Abhängigkeit. Wir betrachten jetzt eine genauere Beschreibung der Abhängigkeit. Definition 7.18 Seien X, Y diskrete Zufallsvariablen, x ∈ R mit P (X = x) > 0. Dann heißt PY |X (y | x) := P (Y = y | {X = x}) bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x. Lemma 7.19 In der Situation von Def. 7.18 ist pY |X (y | x) die Wahrscheinlichkeitsfunktion zur diskreten Wahrscheinlichkeitsverteilung pY |X=x mit pY |X=x (A) = P (Y ∈ A | {X = x}) Beispiel 7.20 Seien X, Y unabhängige Zufallsvariablen, X sei Poisson-(λ)-verteilt, Y sei Poisson-(µ)-verteilt. Was ist die Verteilung von X + Y ? PX+Y (z) = z X λx x=0 x! · e−λ · = e−(λ+µ) · µz−x · e−µ (z − x)! z 1 X z! · λx µz−x z! x=0 x! (z − x)! | {z } (λ+µ)z Also ist X + Y Poisson-(λ + µ)-verteilt. Außerdem gilt PX|X+Y (k | n) = P (X = k | X + Y = n) = P (X = k, Y = n − k) P (X + Y = n) µn−k (n−k)! n e−(λ+µ) (λ+µ) n! k e−λ · = = λk k! n · k · e−µ · λ λ+µ · µ λ+µ n−k Lemma 7.21 Seien X, Y diskrete Zufallsvariablen, dann gilt X, Y unabhängig ⇔ ∃g : R → [0, 1] : ∀x mit P (X = x) > 0 : PY |X (y | x) = g (y) 28 Definition 7.22 Seien X, Y diskrete Zufallsvariablen, P (X = x) > 0. Dann heißt X E [Y | X = x] = y · pY |X (y | x) y∈D bedingter Erwartungswert von Y gegeben X = x. Bemerkung 7.23 1. E [Y | X = x] ist Erwartungswert bzgl. der Verteilung PY |X (·) = P (· | {X = x}) 2. Falls P (X = x) = 0 ist der bedingte Erwartungswert nicht definiert. Wir setzen dann pY |X (y | x) = pY (y) ⇒ E [Y | X = x] = E [Y ] Definition 7.24 Seien X, Y diskrete Zufallsvariablen. Wir setzen g : R → R mit g (x) = E [Y | X = x]. Dann heißt E [Y | X] = g (X) bedingter Erwartungswert von Y gegeben X. Satz 7.25 (Iterierte Erwartung) Seien X, Y diskrete Zufallsvariablen mit P y∈D2 |y| · pY (y) < ∞, dann gilt E [Y ] = E [E [Y | X]] Lemma 7.26 Seien X, Y diskrete Zufallsvariablen f : R → R messbar, dann gilt E [Y · f (x) | X = x] = f (x) · E [Y | X = x] und P (E [Y · f (x) | X]) = f (X) · E [Y | X] = 1 Bemerkung 7.27 • Erwartungswert: beste konstante Prognose • Regressionsgerade: beste lineare Prognose für Y , wenn X bekannt • jetzt E [Y | X] beste Prognose, wenn X bekannt Satz 7.28 Seien X, Y diskrete Zufallsvariablen h : R → R messbar, dann gilt h i h i 2 2 E Y − h (X) ≥ E (Y − E [Y | X]) Beispiel 7.29 Würfel zweifacher Wurf [...] 29 Kapitel 8: Stetig verteilte Zufallsvariablen Bemerkung 8.1 Bisher ∃D abzählbar, s.d. P (X ∈ D) = 1. P Jetzt: Zufallsvariable X mit P (X = x) = 0 ⇒ ∀A ⊂ D abzählbar: P (X ∈ A) = x∈A P (X = x) = 0 Definition 8.2 Sei X : Ω → R eine Zufallsvariable. Dann heißt FX : R → [0, 1] mit FX (x) = P (X ≤ x) Verteilungsfunktion von X. Lemma 8.3 Sei F eine Verteilungsfunktion, dann gilt 1. F monoton wachsend 2. ∀x : limF (y) = F (x) y↓x 3. ∀x, z : P (X ∈ (x, z]) = F (z) − F (x) 4. lim F (x) = 0, lim F (x) = 1 x→−∞ x→∞ Satz 8.4 Sei X eine Zufallsvariable mit Verteilungsfunktion FX . Dann gilt für x ∈ R P (X = x) = FX (x) − limFX (y) y↑x FX ist stetig in x ⇔ P (X = x) = 0 Bemerkung 8.5 Zu jeder F : R → [0, 1] monoton wachsend, rechtsstetig und lim F (x) = 0, lim F (x) = 1 gibt es x→−∞ x→∞ eine Zufallsvariable X, sodass FX = F . Daher nennt man jede solche Funktion Verteilungsfunktion. Definition 8.6 Sei X eine Zufallsvariable mit Verteilung PX und Verteilungsfunktion FX . Dann heißt PX stetig, wenn es eine integrierbare Funktion fX : R → [0, ∞) gibt mit ˆ x FX (x) = fX (t) dt −∞ fX heißt Dichte von PX (bzw. Dichte von X). Lemma 8.7 PX stetig ⇒ FX stetig. Bemerkung 8.8 Die Umkehrung von 8.7 gilt nicht. 30 9.12.14 Satz 8.9 Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte stetig und diffbar ist. Dann gilt ˆ x F (x) = F 0 (t) dt −∞ d.h. eine Verteilung PX mit Verteilungsfunktion F hat die Dichte f = F 0 . Lemma 8.10 Sei f : R → [0, ∞) eine bis auf endlich viele Punkte stetige Funktion mit ˆ ´∞ −∞ f (t) dt = 1. Dann ist ∞ F (x) = f (t) dt −∞ eine Verteilungsfunktion. Beispiel 8.11 Seien a, b ∈ R, a < b. Dann heißt die Verteilung gegeben durch die Verteilungsfunktion x≤a 0 F (x) = x−a x ∈ (a, b) b−a 1 x≥b Gleichverteilung auf dem Intervall [a, b]. Die Dichte ist gegeben durch x≤a 0 1 f (x) = b−a x ∈ (a, b) 0 x≥b Beispiel 8.12 Wir drehen ein faires Rouletterad. Wie wahrscheinlich ist es, dass es im Winkel zwischne 0° und 120° zum Ausgangspunkt stehen bleibt? Zufallsvariable ϕ : Winkel zur Ausgangsposition sei gleichverteilt auf [0, 2π] ˆ 2π 3 1 2π 1 P 0≤ϕ≤ dt = = 3 2π 3 0 Beispiel 8.13 Sei λ > 0. Dann heißt die Verteilung gegeben durch die Verteilungsfunktion ( 0 x<0 F (x) = −λx x≥0 1−e Exponentialverteilung. Die Dichte ist gegeben durch ( 0 x<0 f (x) = −λx λ·e x≥0 31 Beispiel 8.14 Sei a > 1. Dann heißt die Verteilung gegeben durch die Verteilungsfunktion ( 0 x<1 F (x) = 1 − x−(a−1) x ≥ 1 Pareto-Verteilung. Die Dichte ist gegeben durch ( 0 f (x) = (a − 1) · x−a x<1 x≥1 Beispiel 8.15 Die Verteilung gegeben durch ( F (x) = 1 x 2e x≤0 x>0 1 − 21 e−x heißt Laplace-Verteilung mit Dichte f (x) = 1 −|x| e 2 Bemerkung 8.16 Falls X Zufallsvariable mit Dichte fX (x) , g : R → R messbar, dann ist g (X) eine Zufallsvariable. Existiert die Dichte von g (X)? Wie sieht sie aus? Beispiel 8.17 ( 1 x ∈ 0, 2π 3 Voraussetzungen wie in 8.12. ϕ gleichverteilt auf [0, 2π], g (x) = 0 sonst ⇒ P (g (ϕ) = 1) = P 1 2π = >0 ϕ ∈ 0, 3 3 Also hat g (ϕ) keine Dichte. Beispiel 8.18 Sei X Laplace-verteilt. Was ist die Dichte von |X|? Sei y > 0, dann gilt P (|X| ≤ y) = P (−y ≤ X ≤ y) = FX (y) − FX (−y) 1 1 = 1 − e−y − e−y 2 2 = 1 − e−y Also ist |X| exponentialverteilt mit Dichte ( 0 f|X| (y) = e−y 32 y<0 y≥0 Beispiel 8.19 1 ? Sei y > 0, dann gilt Sei X gleichverteilt auf [0, 1]. Was ist die Dichte von Y = X 1 P (Y ≤ y) = P ≤y X 1 = P X≥ y ˆ 1 1dt = 1 y 1− = 1 y Also ist Y Pareto-verteilt mit Dichte f X1 (y) = ( 0 1 y2 y≤1 y>1 Satz 8.20 (Dichte-Transformationssatz) Sei X eine Zufallsvariable mit Dichte fX , I ⊂ R offenes Intervall mit P (X ∈ X) = 1 . Sei J ⊂ R ein offenes Intervall und v : I → J bijektiv mit v −1 diffbar auf J, so hat Y = v (X) die Dichte ( d −1 fX v −1 (y) · dy v (y) y ∈ J fY (y) = 0 sonst Beispiel 8.21 X gleichverteilt auf [0, 1] , Y = 1 X, Dichte von Y ? Sei u (x) = 0 fY (y) = 1 · 0 1 y2 1 x −1 ⇒u (y) = 1 du−1 y , dy (y) = 12.12.14 1 y2 1 y 1 y <0 ∈ [0, 1] sonst ( 0 x < 0 0 y<1 fX (x) = 1 x ∈ [0, 1] = 1 y≥1 0 sonst Definition 8.22 Sei X eine Zufallsvariable mit stetiger Verteilung und Dichte f und es gelte dann heißt ˆ ∞ E [X] = x · fX (x) dx −∞ Erwartungswert von X und h i 2 Var [X] = E (X − E [X]) heißt Varianz von X. 33 ´∞ −∞ |x| · fX (x) dx < ∞, Bemerkung 8.23 Falls X eine Dichte fX hat, so gilt für y ≥ 0 0 = FX 2 (y) fX 2 (y) = = = 0 P X2 ≤ y √ 0 √ (P (− y ≤ X ≤ y)) !0 ˆ √y f (x) dx √ − y 1 √ √ √ (fX ( y) + fX (− y)) 2 y also existiert die Dichte von X 2 und damit ist E X 2 definiert und folglich auch Var [X], sofern E [X] existiert. = Lemma 8.24 Viele Aussagen über E [X] mit X diskret gelten auch für stetige Zufallsvariablen: 1. ∀a, b : E [a · X + b] = a · E [X] + b 2. E [X + Y ] = E [X] + E [Y ] 3. ϕ konvex ⇒ E [ϕ (X)] ≥ ϕ (E [X]) ´∞ 4. E [g (x)] = −∞ g (x) · fX (x) dx 5. P (|X| ≥ a) ≤ 1 a · E [X] [X] 6. P (|X − E [X]| ≥ c) ≤ Var c2 7. Var [aX + b] = a2 · Var [X] Beispiel 8.25 Sei X gleichverteilt auf [a, b] mit Dichte ( f (x) = Dann gilt ˆ 1 b−a 0 ˆ ∞ x · fX (x) dx = E [X] = −∞ und b x· a ˆ ∞ E X2 = x2 · fX (x) dx = −∞ und x ∈ [a, b] sonst 1 a+b dx = b−a 2 1 2 b + ab + a2 3 2 (a − b) 2 Var [X] = E X 2 − (E [X]) = 12 34 Kapitel 9: Stetig verteilte Zufallsvektoren Definition 9.1 Sei X : Ω → Rn ein Zufallsvektor mit Verteilung PX . PX heißt stetig, wenn es eine integrierbare Funktion f : Rn → [0, ∞) gibt, sodass ! ˆ ˆ b1 n bn O f (x1 , ..., xn ) dx1 , ..., dxn ∀ai < bi : P X ∈ ... [ai , bi ) = an i=1 a1 f heißt gemeinsame Dichte von X1 , ..., Xn . Bemerkung 9.2 1. Integrationsreihenfolge egal: ´ b2 ´ b1 a2 a1 f (x, y) dxdy = ´ b1 ´ b2 a1 a2 f (x, y) dydx 2. oft von Interess: P (X ∈ M ), wobei M kein Quader. Falls M konvex, dann gilt ∀x2 , ..., xn : Mx12 ,...,xn = {y | (y, x2 , ..., xn ) ∈ M } ist konvex in R, entspricht also einem Intervall. Damit gilt ˆ bn ˆ bn−1 (xn ) ˆ b1 (x2 ,...xn ) ... f (x1 , ..., xn ) dx1 , ..., dxn P (X ∈ M ) = an−1 (xn ) an a1 (x2 ,...xn ) Beispiel 9.3 Sei X = (X1, , X2 ) ein Zufallsvektor mit Dichte f und M = (x, y) ∈ R2 | x2 + y 2 ≤ 1 . Dann gilt p p P (X ∈ M ) = P −1 ≤ Y ≤ 1, − 1 − Y 2 ≤ X ≤ 1 − Y 2 ˆ 1 ˆ √1−Y 2 f (x, y) dxdy = √ −1 − 1−Y 2 Lemma 9.4 Sei X : Ω → Rn ein Zufallsvektor mit Dichte fX , sei I = {i1 , ..., ik } ⊂ {1, ..., n} , ∅ = 6 I 6= {1, ..., n} und I c = {j1 , ..., jl }. Dann hat (Xi )i∈I eine stetige Verteilung mit Dichte ˆ ∞ ˆ ∞ f (Xi )i∈I (xi1 , ..., xik ) = ... f (xj1 , ..., xi1 , ..., xik , ..., xjl ) dxj1 ...dxjl −∞ −∞ Bemerkung 9.5 Die Umkehrung von Lemma 9.4 gilt nicht: Falls X und Y eine Dichte besitzen, so muss dies nicht für (X, Y ) gelten. z.B. X habe Dichte ´ ∞ ´ fy und Y = X ⇒ P (X = Y ) = 1. Angenommen (X, Y ) habe die Dichte fX,Y ⇒ P (X = Y ) = −∞ y fX,Y (x, y) dxdy = 0. Widerspruch. Beispiel 9.6 Sei (X, Y ) ein Zufallsvektor mit Dichte ( f(X,Y ) (x, y) = 2 falls x ≥ 0, y ≥ 0, x + y ≤ 1 0 sonst Sei t ∈ (0, 1), dann gilt P (X + Y ≤ t) P (Y ≤ t, X ≤ t − Y ) ˆ t ˆ t−y = 2dxdy 0 0 ˆ t = 2 (t − y) dy = 0 = t2 35 16.12.14 Damit gilt für die marginale Dichte ( ˆ ∞ 0 fX (x) = f(X,Y ) (x, y) dy = ´ 1−x −∞ für x < 0, x > 1 2dy = 2 − 2x sonst 0 Satz 9.7 (Dichte-Transformationsformel) Sei (X1 , ..., Xn ) ein Zufallsvektor mit Dichte f(X1 ,...,Xn ) . Außerdem sei u : Rn → Rn messber, bijektiv und u−1 sei stetig total differenzierbar, dann hat u (X1 , ..., Xn ) die Dichte fu(X1 ,...,Xn ) (y) = f(X1 ,...,Xn ) u−1 (y) · |det Ju−1 (y)| wobei Ju−1 = die Jacobi-Matrix von u −1 ∂u−1 i ∂yj i,j∈{1,...,n} ist. Beispiel 9.8 Lemma 9.9 Seien X1 , ..., Xn unabhängige Zufallsvariablen mit Dichten f1 , ..., fn . Dann hat der Zufallsvektor X = (X1 , ..., Xn ) die Dichte n Y fi (xi ) fX (x1 , ..., xn ) = i=1 Satz 9.10 Sei (X, Y ) ein Zufallsvektor mit Dichte f der Form f (x, y) = g (x) · h (y) Dann sind X, Y unabhängig. (Der Satz gilt auch für n > 2) Satz 9.11 (Faltungsformel) Es seien X, Y unabhängige Zufallsvariablen mit Dichten fX , fy . Dann hat Z = X + Y die Dichte ˆ ∞ fZ (z) = fX (x) · fY (z − x) dx −∞ Beispiel 9.12 Bemerkung 9.13 Sei g : R → Rn eine Funktion g (x) = (g1 (x) , ..., gn (x)) mit g1 , ..., gn integrierbar. Dann setzt man ´ b g (x) dx 1 ˆ b a . . g (x) dx = . a ´b g (x) dx n a Definition 9.14 t Sei X = (X1 , ..., Xn ) ein Zufallsvektor mit Dichte f . Dann heißt ´∞ ´ ∞ ... −∞ x1 · f (x1 , ..., xn ) dx1 ...dxn −∞ .. E [X] = . ´∞ ´∞ ... −∞ xn · f (x1 , ..., xn ) dx1 ...dxn −∞ Erwartungswert von X, falls alle Integrale existieren. 36 Lemma 9.15 t Sei (X1 , ..., Xn ) ein stetig verteilter Zufallsvektor. Dann gilt X1 E [X1 ] E ... = ... Xn E [Xn ] Lemma 9.16 Sei X = (X1 , ..., Xn ) ein Zufallsvektor mit Dichte f , sei g : Rn → Rm messbar und g · f integrierbar, dann gilt ˆ ∞ ˆ ∞ g (x1 , ..., xn ) · f (x1 , ..., xn ) dx1 ...dxn ... E [g (X)] = −∞ −∞ Lemma 9.17 Seien X, Y unabhängige Zufallsvariablen mit stetiger Verteilung. Dann gilt E [XY ] = E [X] · E [Y ] sofern die Erwartungswerte auf der rechten Seite existieren. Definition 9.18 Es sei (X, Y ) ein Zufallsvektor mit Dichte f(X,Y ) . Dann heißt ( f(X,Y ) (x, y) für fX (x) 6= 0 fY |X (y | x) := 0 sonst bedingte Dichte von Y gegeben X = x. ˆ ∞ E [Y | X = x] := y · fY |X (y | x) dy =: g (x) −∞ heißt bedingter Erwartungswert von Y gegeben X = x. E [Y | X] := g (X) heißt bedingte Erwartung von Y gegeben X. Satz 9.19 (Iterierte Erwartung) In der Situation von 9.18 gilt E [Y ] = E [E [Y | X]] Bemerkung 9.20 Wie im diskreten Fall gilt für jede Funktion h : R → R h i h i 2 2 E (Y − h (x)) ≥ E (Y − E [Y | X]) 37 19.12.14 Beispiel 9.21 Sei (X, Y ) ein Zufallsvektor mit Dichte ( 2 falls x, y ≥ 0, x + y ≤ 1 = 0 sonst fX,Y Dann ist (´ 1−x fX (x) = und 0 0 2dx = 2 (1 − x) für y ∈ [0, 1 − x] sonst ( 1 fX,Y (x,y) = 1−x fX (x) fY |X (y | x) = 0 0 für y ∈ [0, 1 − x] sonst für x ∈ [0, 1] sonst Es ergibt sich ˆ E [Y | X = x] 1−x y· = 0 E [Y | X] = 1−X 2 38 1 1−x dy = 1−x 2 Kapitel 10: Die Normalverteilung Lemma 10.1 ˆ ∞ −∞ x2 1 √ · e− 2 dx = 1 2π Definition 10.2 Eine Zufallsvariable X mit Dichte x2 1 f (x) = √ · e− 2 2π heißt Standard-Normalverteilt bzw. N (0, 1)-verteilt. Eine Zufallsvariable X mit Dichte (x−µ)2 1 f (x) = √ · e− 2σ2 2πσ 2 heißt Normalverteilt mit Parametern µ ∈ R, σ > 0 bzw. N µ, σ 2 -verteilt. Lemma 10.3 Sei X N µ, σ 2 -verteilt. Dann ist für a, b ∈ R, a > 0 die Zufallsvariable aX + b N aµ + b, a2 σ 2 verteilt. Lemma 10.4 Seien X, Y unabhängige Zufallsvariablen mit X N µ, σ 2 und Y N ν, τ 2 -verteilt, dann ist Z = X +Y N µ + ν, σ 2 + τ 2 -verteilt. Lemma 10.5 Sei X N (0, 1)-verteilt, dann gilt für gerades n und ungerades m E [X n ] m E [X ] = (n − 1) · (n − 2) · ... · 3 · 1 = 0 Lemma 10.6 Sei X N µ, σ 2 -verteilt. Dann gilt E [X] Var [X] = µ = σ2 Bemerkung 10.7 √1 2π f (x) = φ (x) mit 2 − x2 ·e ist nicht elementar integrierbar. Deshalb gibt man die Werte der Stammfunktion ˆ x φ (x) = −∞ t2 1 √ · e− 2 dt = P (X ≤ x) 2π in Tabellen an. Bemerkung 10.8 Als nächstes: Einer der wichtigsten Sätze der Wahrscheinlichkeitstheorie: Der zentrale Grenzwertsatz. Vereinfachte Aussage: “Wir addieren unabhängige Zufallsvariablen auf, ziehen den Erwartungswert ab, teilen durch die Standardabweichung, dann wird die Verteilung der standardisierten Summe mit wachsender Zahl der Summanden der Normalverteilung ähnlich”. Wir betrachten Bernoulli-verteilte Zufallsvariablen. 39 09.01.15 Lemma 10.9 (Stirlingsche Formel) lim n! 1 n→∞ nn+ 2 e−n = √1 2π bzw. n! ≈ √ 1 2π · nn+ 2 e−n Lemma 10.10 Sei (Xi )i∈N eine Folge von unabhängigen Bernoulli(p)-verteilen Zufallsvariablen, p ∈ (0, 1), Pn n→∞ Sn := i=1 Xi undpK > 0. Dann gibt es Konstanten CK,n mit CK,n → 0, sodass für alle x mit |x| ≤ K und np + x np (1 − p) ∈ N0 gilt p 2 √ n · P Sn = np + x np (1 − p) − √1 · e− x2 ≤ CK,n 2π Satz 10.11 (Moivre-Laplace) Sei (XP i )i∈N eine Folge von unabhängigen Bernoulli(p)-verteilen Zufallsvariablen, p ∈ (0, 1), n Sn := i=1 Xi . Seien a, b ∈ R mit a < b, dann gilt ! ˆ b x2 Sn − np 1 √ · e− 2 dx = φ (b) − φ (a) ≤b = lim P a ≤ p n→∞ 2π np (1 − p) a Bemerkung 10.12 Oft will man berechnen: P (Sn ∈ {k, ..., m}). Extremfall: k = m. P (Sn = k) Sn − np k − np p ≤p ≤p np (1 − p) np (1 − p) np (1 − p) k − np = P ˆ a ≈ a = ! x2 1 √ · e− 2 dx 2π 0 liefert eine schlechte Approximation. Besser: 1 1 P (Sn = k) = P k − ≤ Sn ≤ k + 2 2 k − 1 − np k + 1 − np Sn − np p 2 ≤p ≤p 2 np (1 − p) np (1 − p) np (1 − p) = P ˆ bn ≈ an = x2 1 √ · e− 2 dx 2π 1 − 1 p · √ ·e 2π np (1 − p) √ k−np 2 np(1−p) Deshalb: Stetigkeitskorrektur: ˆ (Sn ∈ {k, ..., m}) ≈ m+ 1 −np 2 np(1−p) √ k− 1 −np √ 2 np(1−p) 40 x2 1 √ e− 2 dx 2π ! Beispiel 10.13 ( 1 Kopf ist Bernoulli Wir werfen eine faire Münze 100 Mal. Xi = 0 sonst ist es, dass zwischen 45 und 55 Mal Kopf erscheint? ˆ P (S100 ∈ {45, ..., 55}) ≈ ˆ = = = = = 5+ 1 2 5 −5− 1 2 5 1 2 -verteilt. Wie wahrscheinlich x2 1 √ · e− 2 dx 2π ˆ −a 2 x2 1 1 − x2 √ ·e √ · e− 2 dx dx − 2π 2π −∞ −∞ ˆ a ˆ ∞ x2 x2 1 1 √ · e− 2 dx − √ · e− 2 dx 2π 2π −∞ a ˆ a ˆ ∞ x2 x2 1 1 √ · e− 2 dx − √ · e− 2 dx 2π 2π −∞ −∞ ˆ a x2 1 √ · e− 2 dx − 1 2· 2π −∞ 2 · φ (x) − 1 a ≈ 0, 728 Definition 10.14 Es seien X1 , ...Xn unabhängige N (0, 1)-verteilte Zufallsvariablen. Dann nennt man den Zufallsvektor t X = (X1 , ..., Xn ) n-dimensional standardnormalverteilt. Bemerkung 10.15 Ist X standardnormalverteilt, so hat X die Dichte fX (x1 , ..., xn ) = 1 (2π) n 2 · e− Pn 2 i=1 xi 2 Definition 10.16 Sei X ein standardnormalverteiler Zufallsvektor, A ∈ Rn×n und µ ∈ Rn . Dann heißt die Verteilung des Zufallsvektors Z = A · X + µ n-dimensionale Normalverteilung. Bemerkung 10.17 Es gilt • E [A · X + µ] = A · E [X] + µ = µ P P P t t • A·X+µ = A · X A = AA =: Daher nennt man die Verteilung von Z = A · X + µ auch N (µ, P )-Verteilung. Lemma 10.18 Sei X n-dimensional standardnormalverteilt, A ∈ Rn×n ein Matrix, sodass besitzt. Dann hat Z = AX + µ, µ ∈ Rn die Dichte fZ (z) = 1 n/2 (2π) ·p 1 det P · e− P = AAt vollen Rang P−1 (z−µ)t (z−µ) 2 Satz 10.19 t Sei X = (X1 , ..., Xn ) ein Zufallsvektor mit N (µ, x1 , ..., xn unabhängig. P P )-Verteilung. Ist eine Diagonalmatrix, so sind 41 Lemma/Definition 10.20 Pn n 1 2 Seien X1 , ..., Xn unabhängig und N (0, 1)-verteilt. Dann ist Y = i=1 Xi Γ 2 , 2 -verteilt. Man nennt diese Verteilung auch χ2n -Verteilung. (“Chiquadrat mit n Freiheitsgraden”) Definition 10.21 1. Seien X, Y unabhängig, X N (0, 1)-verteilt, Y χ2n -verteilt. Dann heißt die Verteilung von T := √X t-Verteilung mit n Freiheitsgraden Y /n 2. Seien Y, Z unabhängig, Y χ2n -verteilt, Z χ2m -verteilt, dann heißt die Verteilung von F := F -Verteilung mit (n, m) Freiheitsgraden 42 Y /n Z/m Kapitel 11: Schätztheorie Bemerkung 11.1 Bisher: X Zufallsvariable mit bekannter Verteilung PX . Jetzt: (Pθ )θ∈Θ Familie von Verteilungen, Θ 6= ∅, Θ ⊂ Rd Parameterraum, X1 , ..., Xn unabhängig, identisch verteilt (u.i.v) mit Verteilung Pθ . • falls Pθ diskret: Wahrscheinlichkeitsfunktion pθ • falls Pθ stetig: Dichte fθ Grundfragen der Statistik: • Wie kann man von den realistischen Werten X1 = x1 , ..., Xn = xn (Beobachtungen) auf den Parameter θ schließen? • Welcher Wert für θ passt am besten zu den Beobachtungen? (Schätztheorie) • Passt der Wert θ = θ0 zu den Beobachtungen? (Testheorie) Definition 11.2 t Sei X = (X1 , ..., Xn ) ein Zufallsvektor, t : Rn → Rp messbar, dann nennt man T = t ◦ X eine Statistik. [ Sei h : Rd → Rp eine Funktion. Ein Schätzer für h (θ) ist eine Statistik h (θ) = t ◦ X mit t : Rn → Rp . Bemerkung 11.3 Jede Statistik mit richtiger Dimension ist ein Schätzer für h (θ). Was ist ein guter Schätzer? Definition 11.4 Sei (Pθ )θ∈Θ eine Familie von Verteilungen. (P g (x1 , ..., xn ) · pθ (x1 ) · ... · pθ (xn ) 1. Eθ [g (X1 , ..., Xn )] = ´ x1´,...,xn ∈D ... g (x1 , .., xn ) · fθ (x1 ) · ... · fθ (xn ) dx1 ...dxn heißt Erwartungswert unter dem Parameter θ diskret stetig 2. Sei T = t ◦ (X1 , ..., Xn ) ein Schätzer für h (θ), dann heißt biast (θ) := Eθ [T ] − h (θ) Bias von T 3. Ein Schätzer von T heißt erwartungstreu, wenn ∀θ ∈ Θ : biast (θ) = 0 i h 2 4. Rt (θ) = Eθ (T − h (θ)) heißt Risiko des Schätzens 5. Falls T = Tn in Wahrscheinlichkeit gegen h (θ) konvergiert, d.h. n→∞ ∀, θ : Pθ (|h (θ) − Tn | > ) → 0 heißt T konsistent für h (θ) Lemma 11.5 1. Rt (θ) = Varθ (T ) + bias2t n→∞ 2. Falls Rt (θ) → 0, dann ist T konsistent 43 Beispiel 11.6 Seien X1 , ..., Xn u.i. Bernoulli(p)-verteilt und p ∈ (0, 1) unbekannt. Dann gilt Ep [Xi ] Varp (Xi ) Setze p̂ = 1 n · Pn i=1 = p = p (1 − p) Xi = X. Dann gilt Ep [p̂] = n 1 X · E [Xi ] = p n i=1 also ist p̂ erwartungstreu für p. Außerdem gilt Varp (p̂) = n p (1 − p) 1 X · Varp (Xi ) = 2 n i=1 n also Rp̂ (p) = Varp (p̂) + bias2p̂ (p) = p (1 − p) n Damit ist p̂ konsistent für p. Bemerkung 11.7 Pn 1 k Erinnerung: mk,θ = Eθ X k heißt k-tes Moment. mk lässt sich schätzen durch m [ k,θ = n · i=1 Xi . Falls wir h (θ) schätzen wollen mit h (θ) = g (m1,θ , ..., mk,θ ), dann benutzt man oft die “Momentenmethode” zur Konstruktion eines Schätzers [ h (θ)M M = g m d [ 1,θ , ..., m k,θ Beispiel 11.8 Seien X1 , ..., Xn unabhängig, identisch N µ, σ 2 -verteilt und µ, σ 2 unbekannt. Wir wollen σ 2 schätzen: σ2 = Varµ,σ2 (Xi ) 2 = Eµ,σ2 Xi2 − Eµ,σ2 [Xi ] = m2,µ,σ2 − m21,µ,σ2 Momentenschätzermethode: 2 σ̂M M 2 biasσ̂M σ2 M !2 n n 1 X 1 X 2 = · · X − Xi n i=1 i n i=1 # !2 " n n X 1 1 X 2 · X − Eµ,σ2 · Xi − σ 2 = Eµ,σ2 n i=1 i n i=1 1 = E Xi2 − 2 n n X E [Xi Xj ] − i,j=1,i6=j n 1 X 2 E Xi − σ 2 n2 i=1 n (n − 1) 2 n2 − n 2 = σ + µ2 − µ − σ2 2 n n2 1 = − σ2 n Also ist der Schätzer nicht erwartungstreu (unterschätzt). Aber es gilt 2 biasσ̂M σ2 M 44 n→∞ → 0 Erwartungstreue Schätzeralternative: σ̂ 2 n · σ̂ 2 n − 1 MM n X 2 1 · Xi − X n − 1 i=1 = = Definition 11.9 Seien X1 , ..., Xn u.i.v. mit Wahrscheinlichkeitsfunktion Pθ und Dichte fθ . ( pθ (x1 ) · ... · pθ (xn ) falls Xi diskret bezeichnet die Likelihood-Funktion • Lθ (x1 , ..., xn ) = fθ (x1 ) · ... · fθ (xn ) sonst • lθ (x1 , ..., xn ) = log Lθ bezeichnet die log-Likelihood-Funktion • θ̂M L = arg maxLθ (x1 , ..., xn ) = arg maxlθ (x1 , ..., xn ) heißt Maximum-Likelihood-Schätzer θ θ Beispiel 11.10 Seien X1 , ..., Xn u.i. Poisson(λ)-verteilt. Dann gilt Lλ (x1 , ..., xn ) = n xi Y λ i=1 und damit lλ (x1 , ..., xn ) = n X xi · log λ − i=1 ·e n X log xi ! − n · λ i=1 Also Damit gilt λ0 = xi ! −λ n 1 n X ∂lλ 1 ! (x1 , ..., xn ) = xi · − n = 0 ∂λ λ i=1 Pn Pn · i=1 xi und λ̂M L = n1 · i=1 Xi . Beispiel 11.11 Definition 11.12 Seien ĝ (θ)1 und ĝ (θ)2 zwei Schätzer von g (θ). Falls gilt Rĝ(θ)1 ≤ Rĝ(θ)2 für alle θ ∈ Θ (und < für mindestens ein θ), dann heißt ĝ (θ)1 effizienter als ĝ (θ)2 . Bemerkung 11.13 In vielen Fällen ist der Maximum-Likelihood-Schätzer der effizienteste, dies sprengt aber den Rahmen der Vorlesung. Bemerkung 11.14 Wie kann man vorhandene Schätzer effizienter machen? • 1. Möglichkeit: “Intelligenz der Masse” nutzen, d.h. seien θ̂1 , θ̂2 zwei Schätzer erwartungstreue mit endlicher Varianz und ρθ̂1 ,θ̂2 < 1, dann ist der Schätzer θ̃ = 21 θ̂1 + θ̂2 unverzerrt, denn h i h i h i E θ̃ = 21 · E θ̂1 + 12 · E θ̂2 = θ. Außerdem 1 Varθ̃ = · Varθ̂1 + Varθ̂2 + 2·Cov θ̂1 , θ̂2 4 q 1 = · Varθ̂1 + Varθ̂2 + 2 · ρθ̂1 ,θ̂2 · Varθ̂1 · Varθ̂2 4 1 Jensen: ≤ · Varθ̂1 + Varθ̂2 2 45 • 2. Möglichkeit: braucht etwas Vorarbeit Definition 11.15 t Sei T : Ω → Rp eine Statistik, (X1 , ..., Xn ) ein Zufallsvektor mit Wahrscheinlichkeitsfunktionen Pθ bzw. mit Dichte fθ , θ ∈ Θ. T heißt suffizient, wenn die bedingte Wahrscheinlichkeitsfunktion Pθ,(X1 ,...,Xn )|T (x1 , ..., xn | t) bzw. die gemeinsame Dichte fθ,(X1 ,...,Xn )|T (x1 , ..., xn | t) nicht von θ abhängt. Bemerkung 11.16 Intuition: Information über Paramter θ steckt nur in T . Falls T suffizient, kann man den bedingten Erwartungswert X Eθ [g (x1 , ..., xn ) | T = t] = g (x1 , ..., xn ) · Pθ,(X1 ,...,Xn )|T (x1 , ..., xn | t) ausrechnen, ohne θ zu kennen. Lemma 11.17 (Rao-Blackwell) Sei θ̂ ein erwartungstreuer Schätzer für θ ∈ Θ ⊂ R mit endlicher Varianz und T eine suffiziente Statistik. Dann gilt für den Rao-Blackwellisierten Schätzer h i θ̃ = Eθ θ̂ | T θ̃ ist erwartungstreu und für alle θ ∈ Θ gilt Varθ θ̃ ≤ Varθ θ̂ . Beispiel 11.18 Definition 11.19 Eine Statistik T heißt vollständig, wenn für alle messbaren Funktionen g : Rp → R gilt ∀θ ∈ Θ : Eθ [g (T )] = 0 ⇒ ∀θ ∈ Θ : Pθ (g (T ) = 0) = 1 Satz 11.20 (Lehmann-Scheffé) Sei T eine vollständige und suffiziente Statistik und θ̂ ein erwartungstreuer Schätzer, dann ist der Rao-Blackwellisierte Schätzer h i θ̃ = Eθ θ̂ | T der effizienteste erwartungstreue Schätzer. Beispiel 11.21 Bemerkung 11.22 Bis jetzt:x1 , ..., xn ∈ R unabhängig, identisch verteilt. Ab jetzt: Jede Zufallsvariable anderer Erwartungswert. Beispiel 11.23 Seien ξ1 , ..., ξn u.i. N 0, σ 2 -verteilt und [...] 23.01.15 46 Bemerkung 11.24 a∗ , b∗ werden auch ohne Normalverteilung verwendet, dann nennt man sie kleinste Quadrate-Schätzer (KQ). Bemerkung 11.25 Es gilt Var (a ) ∗ = 1 P n i=1 = 2 2 · Var 2 2 · 1 P n i=1 = (xi − x) (xi − x) Var [1 ] Pn i=1 2 (xi − x) 47 X n X ! (xi − x) · Yi − Y i=1 2 (xi − x) · Var (Yi ) Kapitel 12: Testtheorie Beispiel 12.1 Ein neues Medikament soll eingeführt werden. Das alte Medikament heilt 50% der Patienten. In einem Test half das neue Medikament bei 55 von 100 Patienten. Soll das neue (teurere) Medikament eingeführt werden? Zwei mögliche Fehlentscheidungen: • Medikament einführen, obwohl nicht besser (unnötige Kosten) • Medikament nicht einführen, obwohl besser (unnötiges Leid) Intuitiv: Entscheidung für neues Medikament, wenn die Anzahl K geheilter Patienten größer ist als C ∈ {0, ..., 100}. Wie groß muss man C wählen? Definition 12.2 Sei (Pθ )θ∈Θ ein statistisches Modell, X1 , ..., Xn u.i. Pθ -verteilt und θ unbekannt. Weiterhin sei Θ = ˙ A . Eine messbare Abbildung Ψ : R → {0, 1} heißt Test für die Hypothese ΘH ∪Θ H : θ ∈ ΘH gegen die Alternative A : θ ∈ ΘA Dabei bedeutet Ψ (x1 , ..., xn ) = 0 : Entscheidung für Hypothese Ψ (x1 , ..., xn ) = 1 : Entscheidung für Alternative und Ψ−1 ({1}) heißt kritischer Bereich bzw. Verwerfungsbereich. Bemerkung 12.3 Nach Definition: Ψ = 0 ist Test (Vorurteilstest). Falls Ψ̃ ein Test ist, so auch Ψ = 1 − Ψ̃. Definition 12.4 Sei Ψ ein Test. 1. für θ ∈ ΘH heißt Ψ (x1 , ..., xn ) = 1 Fehler 1. Art 2. für θ ∈ ΘA heißt Ψ (x1 , ..., xn ) = 0 Fehler 2. Art 3. α = sup Pθ (Ψ (x1 , ..., xn ) = 1) heißt Niveau des Tests θ∈ΘH Falls Ψ Test mit Niveau α und Ψ (x1 , ..., xn ) = 1, sagt man: “Die Beobachtung weichen zum Niveau α signifikant von der Hypothese ab”. Typische Wert für α sind {0.1, 0.05, 0.01} 4. für θ ∈ ΘA heißt β (θ) = Pθ (Ψ (x1 , ..., xn ) = 1) Macht von Ψ in θ Bemerkung 12.5 Ziel: α möglichst klein, β möglichst groß ⇒ Zielkonflikt. Beispiel 12.6 Definition 12.7 Es sei Θ = {θ0 , θ1 } und H : θ = θ0 , A : θ = θ1 . Dann heißt ( L (x ,...,x ) 1 falls Lθθ1 (x11 ,...,xnn ) > C 0 Ψ (x1 , ..., xn ) = 0 sonst Likelihood-Quotienten-Test (LQ-Test). 48 Satz 12.8 (Neyman-Pearson-Lemma) Der Likelihood-Quotienten-Test Ψ hat unter allen Tests mit Niveau α̃ ≤ α = Pθ0 (Ψ (x1 , ..., xn ) = 1) die größte Macht. Beispiel 12.9 27.01.15 Bemerkung 12.10 Einfache Hypothese/Alternative nicht sehr praxisrelevant. Häufiger: Einseitige Hypothese/Alternative (Pθ )θ∈[a,b] , θ0 ∈ (a, b) , H : θ ≤ θ0 , A : θ > θ0 Satz 12.11 Sei (Pθ )θ∈[a,b] ein statistisches Modell, T = t (X1 , ..., Xn ) , t : Rn → R, sodass für alle θ1 < θ2 gilt: Lθ2 (x1 , ..., xn ) = gθ1 ,θ2 (t (x1 , ..., xn )) Lθ1 (x1 , ..., xn ) und gθ1 ,θ2 monoton wachsend. Dann hat der Test ( 1 falls t (x1 , ..., xn ) > c Ψ (x1 , ..., xn ) = 0 sonst unter allen Tests für H : θ ≤ θ0 gegen A : θ > θ0 mit Niveau α̃ ≤ α = Pθ0 (Ψ (x1 , ..., xn ) = 1) für alle θ > θ0 die größte Macht. Beispiel 12.12 Bemerkung 12.13 In der Praxis istPσ 2 oft unbekannt. Idee: Schätzer σ̂ 2 für σ 2 einsetzen. Vorarbeit nötig: gemeinsame Verteilung von Xi und σ̂ 2 ? Satz 12.14 Seien X1 , ..., Xn u.i. N µ, σ 2 -verteilt. Dann gilt für X = 1 n P Xi und σ̂ 2 = 1 n−1 P Xi − X̂ 2 Korollar 12.15 Beispiel 12.16 Bemerkung 12.17 Bemerkung 12.18 (Heuristisches Testprinzip) Beispiel 12.19 Bemerkung 12.20 Der 2-Stichprobentest ist sehr wichtig in der Praxis. Vergleich zwischen “treatment group” und “control group”. Beispiel 12.21 Bemerkung 12.22 Test braucht gleiche Varianzen: unklar in der Praxis. Überprüfe dies mit weiterem Test. 49 30.01.15 Beispiel 12.23 Beispiel 12.24 Bemerkung 12.25 Satz 12.26 (Bonferroni-Korrektur) 50 Ab hier keine Klausurrelevanz! Kapitel 13: Nichtparametrische statistische Modelle Bemerkung 13.1 Definition 13.2 Lemma 13.3 Satz 13.4 (Glivenko-Cantelli) Satz 13.5 Beispiel 13.6 (Kolmogorov-Smirnov-Test) Beispiel 13.7 (Cramér-von Mises-Test) Bemerkung 13.8 Beispiel 13.9 (χ2 -Anpassungstest) Bemerkung 13.10 Bemerkung 13.11 (χ2 -Test auf Klasse von Verteilungen) Beispiel 13.12 (Test auf Unabhängigkeit) 51 03.02.15 Kapitel 14: ??? 52