Vorlesung 8b Bedingte Erwartung, bedingte Varianz, bedingte Verteilung, bedingte Wahrscheinlichkeiten 1 Wie gehabt, denken wir uns ein zufälliges Paar X = (X1, X2) auf zweistufige Weise zustande gekommen: P(X1 = a1, X2 = a2) = P(X1 = a1) Pa1 (X2 = a2) . h i Ea1 h(X1, X2) := X a2∈S2 h(a1, a2)Pa1 (X2 = a2) nennen wir den bedingten Erwartungswert von h(X1, X2), gegeben {X1 = a1}. 2 h i E h(X1, X2) = X X h(a1, a2) P(X1 = a1, X2 = a2) a1∈S1 a2∈S2 = X X a1∈S1 a2∈S2 = h(a1, a2) P(X1 = a1) Pa1 (X2 = a2) X a1∈S1 = X a1∈S1 h i h i P(X1 = a1)Ea1 h(X1, X2) P(X1 = a1)Ea1 h(a1, X2) h i = E EX1 [h(X1, X2)] . “Zerlegung des Erwartungswertes nach der ersten Stufe” 3 Merke: Der bedingte Erwartungswert h i Ea1 h(X1, X2) ist eine Zahl. h i EX1 h(X1, X2) ist eine Zufallsvariable. Wir sprechen von der bedingten Erwartung von h(X1, X2) gegeben X1. 4 Die bedingte Erwartung als beste Prognose im quadratischen Mittel: Satz: Sei X2 reellwertige Zufallsvariable mit E[X22] < ∞. Dann minimiert die bedingte Erwartung EX1 [X2] unter allen reellwertigen Zufallsvariablen der Form h(X1) den erwarteten quadratischen Abstand E (X2 − h(X1))2 . h i 5 Beweis: h Wir zerlegen E (X2 − h(X1 ))2 i nach X1: E (X2 − h(X1))2 = E EX1 (X2 − h(X1))2 h i X 2 P(X1 = a1)Ea1 (X2 − h(a1)) = h i h i a1 Wir wissen schon (aus Vorlesung 7b): h Ea1 (X2 − h(a1 ))2 i wird minimal für h(a1) := Ea1 [X2]. 6 Fazit: Unter allen Zahlen h(a1) ist der bedingte Erwartungswert Ea1 [X2] diejenige Zahl, für die Ea1 [(X2 − h(a1))2] minimal wird. Unter allen Zufallsvariablen der Form h(X1) ist die bedingte Erwartung EX1 [X2] diejenige, für die E[EX1 [(X2 − h(X1))2]] = E[(X2 − h(X1))2] minimal wird. 7 Definieren wir die bedingte Varianz von X2, gegeben {X1 = a1}: h Vara1 [X2] := Ea1 (X2 − Ea1 [X2 ])2 i Die Zerlegung E[(Z − c)2] = Var[Z] + (EZ − c)2 überträgt sich auf den bedingten Erwartungswert und die bedingte Varianz: 2 Ea1 (X2 − h(a1))2 = Vara1 [X2] + Ea1 [X2] − h(a1) h i 8 2 h Ea1 (X2 − h(a1)) i 2 = Vara1 [X2] + Ea1 [X2] − h(a1) Ersetzen wir a1 durch die Zufallsvariable X1: 2 EX1 (X2 −h(X1))2 = VarX1 [X2]+ EX1 [X2]−h(X1) und bilden den Erwartungswert, dann bekommen wir h i 2 h E (X2 − h(X1)) h i h i 2 i = E VarX1 [X2] + E EX1 [X2] − h(X1) . Wählen wir speziell h(X1) := E[X2], dann ergibt sich h i h i Var[X2] = E VarX1 [X2] + Var EX1 [X2] “Zerlegung der Varianz nach der ersten Stufe” 9 Beispiel: Zufällige Anzahl unabhängiger Summanden. Y := N X i=1 Zi mit Z1, Z2, . . . unabh., ident. vert. und unabhängig von N . µ := E[Z1], σ 2 := Var[Z1] En[Y ] = nµ , Varn[Y ] = nσ 2 . E[Y ] = E[EN Y ] = E[N µ] = E[N ] · µ. h i h Var[Y ] = E VarN [Y ] + Var EN [Y ] = E[N ] · σ 2 + Var[N ] · µ2. i 10 Bedingte Verteilungen und bedingte Wahrscheinlichkeiten 11 Bisher: Aufbau der gemeinsamen Verteilung von X1 und X2 aus der Verteilung ρ von X1 und Übergangswahrscheinlichkeiten P (a1, .): P(X1 = a1, X2 = a2) := ρ(a1)P (a1, a2) 12 Jetzt: Zerlegung der gemeinsamen Verteilung von X1 und X2 in die Verteilung von X1 und die bedingte Verteilung von X2 gegeben X1 13 Sei X1 eine diskrete Zufallsvariable mit Zielbereich S1 und X2 eine Zufallsvariable mit Zielbereich S2. Dann ist die bedingte Wahrscheinlichkeit von {X2 ∈ A2}, gegeben {X1 = a1} definiert als P(X1 = a1, X2 ∈ A2) P(X2 ∈ A2 | X1 = a1) := . P(X1 = a1) 14 Die Verteilung P(X2 ∈ · | X1 = a1) heißt die bedingte Verteilung von X2, gegeben {X1 = a1}. 15 Definieren wir Übergangswahrscheinlichkeiten durch Pa1 (X2 ∈ A2) := P(X2 ∈ A2 | X1 = a1) dann bekommen wir die schon aus der vorigen Vorlesung vertraute Dreiheit zurück: P(X1 = a1, X2 ∈ A2) = P(X1 = a1) Pa1 (X2 ∈ A2). 16 Bei der Untersuchung von zwei Zufallsvariablen X1, X2 kann man immer zu einer 2-stufigen Betrachtungsweise übergehen. Man kann dabei wählen, ob man X1 in die erste Stufe aufnimmt oder in die zweite. 17 Beispiel: Addieren von unabhängigen ZV’en – zweistufig aufgefasst X1 := Y , X2 := Y + Z P(X1 = a, X2 = b) = P(Y = a, a + Z = b) = P(Y = a) P(a + Z = b) = P(X1 = a) P(Z = b − a) Dies führt zu den Übergangswahrscheinlichkeiten P (a, b) := P(Z = b − a) 18 P(Y + Z = b) = X a P(Y = a) P(Z = b − a) Beispiel Y , Z unabhängig und Geom(p)-verteilt P(Y + Z = b) = = b−1 X pq a−1pq b−a−1 a=1 (b − 1)p2q b−2, b = 2, 3, . . . Die negative Binomialverteilung mit Parametern 2, p ist die Verteilung der Anzahl der Versuche in einem p-Münzwurf bis einschließlich zum zweiten Erfolg. 19 P(Y = a, Y + Z = b = P(Y = a) P(a + Z = b) Fazit: Die bedingte Verteilung von Y + Z, gegeben {Y = a}, ist gleich der Verteilung von a + Z. Was ergibt sich für die bedingte Verteilung von Y , gegeben {Y + Z = b}? “Wie war der erste Schritt?” 20 Die bedingte Verteilung von Y , gegeben Y + Z = b, ist P(Y = a) P(Z = b − a) . P(Y = a | Y + Z = b) = P(Y + Z = b) 21 Ein instruktiver Spezialfall: Y und Z seien unabhängig und Geom(p)-verteilt. Dann ist P(Y = a) P(Z = b − a) = q a−1p q (b−a)−1p = p2q b−2 . Dieses hängt nicht von a ab. Also ist die bedingte Verteilung die uniforme auf {1, . . . , b − 1} 22 Das ist auch ohne Rechnung plausibel: Gegeben, dass in einem p-Münzwurf der zweite Erfolg beim b-ten Versuch kommt, ist der Zeitpunkt des ersten Erfolges uniform verteilt auf {1, . . . , b − 1}. 23 Alte Regeln (für zweistufige Experimente) im neuen Gewand: Formel für die totale Wahrscheinlichkeit: P(X2 ∈ A2) = X a1∈S1 P(X1 = a1)P X2 ∈ A2 | X1 = a1 24 Bedingter Erwartungswert von h(X1, X2), gegeben {X1 = a1}: h := X i E h(X1, X2) | X1 = a1 h(a1, a2) P X2 = a2 | X1 = a1 a2∈S2 Bedingte Erwartung von h(X1, X2), gegeben X1: h i E h(X1, X2) | X1 = e(X1), mit h i e(a1) := E h(X1, X2) | X1 = a1 . 25 Definition. Seien E1, E2 Ereignisse. Dann ist die bedingte Wahrscheinlichkeit von E2, gegeben E1, definiert als P(E2 ∩ E1) P(E2 | E1) := = P(IE2 = 1 | IE1 = 1) P(E1) . . . die Wahrscheinlichkeit von E2, wenn man schon weiß, dass E1 eingetreten ist. 26 Beispiel: Gedächtnislosigkeit der geometrischen Verteilung: P(T > k + l | T > k) = q k+l /q k = q l . Die Kenntnis, dass T einen Wert größer als k annimmt, ändert also die Verteilung für die “restliche Wartezeit” nicht. P(T − k > l | T > k) = P(T > l) 27 Zweistufigkeit - Spieß umgedreht: 1 =a1)P(X1 =a1) P(X1 = a1 | X2 = a2) = P(X2=a2P| X (X2 =a2) Formel von Bayes P(X1 = a1 | X2 = a2) = PP(X2 =a2 | X1 =a1)P(X1 =a1) b∈S1 P(X2 =a2 | X1=b)P(X1 =b) ′ | E)P(E) P (E P(E | E ′) = P(E ′ | E)P(E) + P(E ′ | E c)P(E c) 28 Beispiel: Reihenuntersuchungen: Eine kranke Person wird in 100% der Fälle positiv getestet, eine gesunde Person in 1%. Wie groß ist die Wahrscheinlichkeit, dass eine positiv getestete Person wirklich krank ist? Der Prozentsatz der kranken Personen sei 0.1% . P(E) = 0.001, P(E ′ | E) = 1, P(E ′ | E c) = 0.01. Bayes: P(E | E ′) = 0.091. Die Wahrscheinlichkeit, bei positivem Testbefund wirklich krank zu sein, liegt also bei nur 9%! 29 0.999 g 0.01 0.001 k p 1 0.001 · 1 P(X1 = k, X2 = p) = P(X2 = p) 0.999 · 0.01 + 0.001 · 1 1 ≈ 11 30