Vorlesung 11b Bedingte Verteilungen 1 Zur Erinnerung: Gemeinsame Verteilungen kann man in Stufen aufbauen: P{X1 = a, X2 = b} = P{X1 = a}Pa{X2 = b}. Pa{X2 = b} ist die Wahrscheinlichkeit des Ereignisses {X2 = b}, gegeben X1 = a. Eine andere Schreibweise dafür ist: P[X2 = b | X1 = a]. 2 P{X1 = a, X2 = b} = P{X1 = a}P{X2 = b | X1 = a} P{X1 = a, X2 = b} P{X2 = b | X1 = a} = P{X1 = a} ist die W’keit des Ereignisses {X2 = b}, gegeben X1 = a (bedingt unter X1 = a) 3 Beispiel 1: (X1, X2) := (Studienrichtung, Geschlecht) einer/s rein zufällig Gewählten unserer Vorlesung, die/der Quiz1 oder 2 mitgeschrieben hat. Math ♂ 45 ♀ 26 gesamt 71 Inf L2 L3 Andere | gesamt 53 2 27 12 | 136 18 8 29 3 | 84 71 10 56 15 | 223 P{X2 = L2 | X1 = ♀} = 8/84 = 0.095 P{X1 = ♀ | X2 = L2} = 8/10 = 0.8 4 Beispiel 2: (X1, X2) := (Gesundheitszustand, Ergebnis eines med. Tests) k für krank, g für gesund, p für positives Testergebnis P{X1 = k} := 0.001, P{X2 = p|X1 = k} := 1, P{X2 = p |X1 = g} := 0.01. P{X1 = g |X2 = p} =? Dazu berechnen wir erst P{X1 = g, X2 = p} und P{X1 = k, X2 = p}. 5 P{X1 = g, X2 = p} = P{X1 = g}P{X2 = p | X1 = g} = 0.999 · 0.01 ≈ 0.01. P{X1 = k, X2 = p} = P{X1 = k}P{X2 = p | X1 = k} = 0.001 · 1. {X1=g, X2=p} P{X1 = g|X2 = p} = P{X =g,P X2=p}+P{X1=k, X2=p} 1 10 0.01 = , ≈ 0.01 + 0.001 11 und das ist doch erstaunlich hoch, oder? 6 Das vorige Bespiel war ein Paradefall für die Anwendung der Formel von Bayes: P{X1 = a | X2 = b} P{X1 = a, X2 = b} =P ′ a′ P{X1 = a , X2 = b} P{X1 = a}P{X2 = b |X1 = a} =P . ′ ′ a′ P{X1 = a }P{X2 = b | X1 = a } 7 Beispiel 3: X1 uniform verteilt auf {1, 2, 3} gegeben X1 = a sei X2 uniform auf {2, 3} \ {a}. Also: Falls X1 = 1, ist X2 uniform auf {2, 3}. Falls X1 = 2, ist X2 deterministisch gleich 3. Falls X1 = 3, ist X2 deterministisch gleich 2. 8 1 2 1 2 1 1 1 · P{X1 = 1, X2 = 2} = 1 3 2 P{X1 = 3, X2 = 2} = 1 3·1 Offenbar gilt: P{X1 = 3 | X2 = 2} > P{X1 = 1 | X2 = 2}. 2 9 Bedingte Dichten: (X1, X2) habe die gemeinsame Dichte f (x1, x2) dx1 dx2. Dann ist f1(x1) dx1 := Z f (x1, x′2) dx′2 dx1 Dichte von X1, und f (x1, x2) dx2 f1(x1) heißt bedingte Dichte von X2, gegeben X1 = x1. 10 Beispiel 4: Z sei unabhängig von X1 und habe Dichte h(z) dz, X2 := X1 + Z. Die bedingte Dichte von X2 gegeben X1 = x1 ist die um x1 verschobene Dichte h: h(x2 − x1) dx2, und die gemeinsame Dichte von X1 und X2 ist f (x1, x2) = f1(x1) · h(x2 − x1) dx1 dx2. 11 Beispiel 4: X1, Z seien unabhängig und Exp(1)-verteilt. Die gemeinsame Dichte von X1 und X2 := X1 + Z ist e−x1 dx1 e−(x2−x1) dx2. Die bedingte Dichte von X1 gegeben X2 = x2 ist (vgl. dazu die letzten Folien von Vorlesung 10b) 1 e−x1 e−(x2−x1) dx1, 0 ≤ x1 ≤ x2. dx1 = −x 2 x2 e x2 Gegeben X2 = x2 ist also X1 uniform verteilt auf [0, x2]. 12 Beispiel 5: Z1 und Z2 seien unabhängig und N (0, 1)-verteilt, X := σX Z1, q Y := σY (κZ1 + 1 − κ2Z2), mit κ ∈ [−1, 1]. Man sagt dann: X und Y sind gemeinsam normalverteilt 2 und σ 2 mit Mittelwerten 0, Varianzen σX Y und Korrelationskoeffizient κ. 13 X = σX Z1, q Y = σY (κZ1 + 1 − κ2Z2) q σY κX + σY 1 − κ2Z2 = σX Die bedingte Verteilung von Y gegeben X = x ist also N σy σx x, σy2(1 − κ2) . 14 Zur Erinnerung: Der (bedingte) Erwartungswert von Y , gegeben X = x (Symbole: E[Y | X = x], Ex[Y ]) ist der Erwartungswert unter der bedingten Verteilung. Im diskreten Fall X y y P{Y = y | X = x}, und im Fall von Dichten Z f (x, y) y dy. f1(x) 15 Beispiel 6: Z1, . . . , Z10 sei ein p-Münzwurf der Länge 10, K := P10 i=1 Zi. Die Runs in (z1, . . . , zn) sind die Maximalserien aus nur Nullen oder nur Einsen. Z. B. hat (0, 1, 1, 0, 0, 1, 1, 0, 0, 0) fünf Runs. Sei R die Anzahl der Runs in (Z1, . . . , Z10). Gefragt ist nach E[R|K = 4]. 16 Es gilt in jedem Fall: R=1+ 9 X i=1 I{Zi6=Zi+1}. Und die bedingte Verteilung von (Z1, . . . , Z10) gegeben K = 4 entsteht so, dass man aus den Plätzen 1, . . . , 10 rein zufällig 4 auswählt, auf die man die 4 Einsen setzt. 4 · 6, P{Zi 6= Zi+1} = 2 · 10 9 also ist der gesuchte Wert gleich 4 · 6 = 29 . 1 + 9 · 2 · 10 9 5 17 Beispiel 7: Z1, Z2, . . . sei ein Münzwurf mit uniform auf [0, 1] verteiltem zufälligem Erfolgsparameter P , K sei die Anzahl der Erfolge in den ersten n Versuchen. Gefragt ist nach E[P | K = k]. Wir wissen schon (siehe Beispiel 5 aus Vorlesung 11a): Die Dichte von P bedingt unter K = k ist 1 n k p (1 − p)n−k dp Pk {P ∈ dp} = 1 k n+1 18 E[P | K = k] = k+1 = n+2 Z 1 Z 1 n k n−k p (1 − p) dp 1 k n+1 n + 1 k+1 (n+1)−(k+1) dp p (1 − p) 1 k+1 n+2 k+1 = . n+2 Man nennt dies auch den Bayes-Schätzer für die Erfolgswahrscheinlichkeit bei deren uniformer a priori-Verteilung. k Er ist verschieden vom Maximum-Likelihood-Schätzer p̂ = . n 19 Hier ist -außer Konkurrenz - noch ein probabilistisches Argument für k+1 E[P | K = k] = n+2 , ohne analytische Rechnung. Wie in Vorlesung 11a, Bsp 5, seien U0, U1, . . . unabhängig und uniform auf [0, 1]. Die aufsteigend geordneten U0, . . . , Un+1 nennen wir V0, . . . , Vn+1. Die Verteilung von P bedingt unter K = k stimmt überein mit der Verteilung von Vk (siehe Vorlesung 11a, Bsp. 5). Sei Wi := Vi − Vi−1, i = 1, . . . , n + 2, mit V−1 := 0, Vn+2 := 1. Die Wi sind identisch verteilt mit Summe 1. Also folgt k X k+1 . E[Wi] = E[Vk ] = k + 2 i=0 2 20