8b Bedingte Erwartung, Bedingte Varianz, bedingte Verteilung

Vorlesung 8b
Bedingte Erwartung,
bedingte Varianz,
bedingte Verteilung,
bedingte Wahrscheinlichkeiten
1
Wie gehabt, denken wir uns ein zufälliges Paar
X = (X1, X2)
auf zweistufige Weise zustande gekommen:
P(X1 = a1, X2 = a2) = P(X1 = a1) Pa1 (X2 = a2) .
h
i
Ea1 h(X1, X2) :=
X
a2∈S2
h(a1, a2)Pa1 (X2 = a2)
nennen wir den
bedingten Erwartungswert von h(X1, X2),
gegeben {X1 = a1}.
2
h
i
E h(X1, X2)
=
X
X
h(a1, a2) P(X1 = a1, X2 = a2)
a1∈S1 a2∈S2
=
X
X
a1∈S1 a2∈S2
=
h(a1, a2) P(X1 = a1) Pa1 (X2 = a2)
X
a1∈S1
=
X
a1∈S1
h
i
h
i
P(X1 = a1)Ea1 h(X1, X2)
P(X1 = a1)Ea1 h(a1, X2)
h
i
= E EX1 [h(X1, X2)] .
“Zerlegung des Erwartungswertes nach der ersten Stufe”
3
Merke: Der bedingte Erwartungswert
h
i
Ea1 h(X1, X2)
ist eine Zahl.
h
i
EX1 h(X1, X2)
ist eine Zufallsvariable.
Wir sprechen von der
bedingten Erwartung von h(X1, X2) gegeben X1.
4
Die bedingte Erwartung als
beste Prognose im quadratischen Mittel:
Satz:
Sei X2 reellwertige Zufallsvariable mit E[X22] < ∞.
Dann minimiert die bedingte Erwartung EX1 [X2]
unter allen reellwertigen Zufallsvariablen der Form h(X1)
den erwarteten quadratischen Abstand
E (X2 − h(X1))2 .
h
i
5
Beweis:
h
Wir zerlegen E (X2 − h(X1
))2
i
nach X1:
E (X2 − h(X1))2 = E EX1 (X2 − h(X1))2
h
i
X
2
P(X1 = a1)Ea1 (X2 − h(a1))
=
h
i
h
i
a1
Wir wissen schon (aus Vorlesung 7b):
h
Ea1 (X2 − h(a1
))2
i
wird minimal für
h(a1) := Ea1 [X2].
6
Fazit:
Unter allen Zahlen h(a1)
ist der bedingte Erwartungswert Ea1 [X2]
diejenige Zahl, für die Ea1 [(X2 − h(a1))2] minimal wird.
Unter allen Zufallsvariablen der Form h(X1)
ist die bedingte Erwartung EX1 [X2]
diejenige, für die
E[EX1 [(X2 − h(X1))2]] = E[(X2 − h(X1))2]
minimal wird.
7
Definieren wir die
bedingte Varianz von X2, gegeben {X1 = a1}:
h
Vara1 [X2] := Ea1 (X2 − Ea1 [X2
])2
i
Die Zerlegung
E[(Z − c)2] = Var[Z] + (EZ − c)2
überträgt sich
auf den bedingten Erwartungswert und die bedingte Varianz:
2
Ea1 (X2 − h(a1))2 = Vara1 [X2] + Ea1 [X2] − h(a1)
h
i
8
2
h
Ea1 (X2 − h(a1))
i
2
= Vara1 [X2] + Ea1 [X2] − h(a1)
Ersetzen wir a1 durch die Zufallsvariable X1:
2
EX1 (X2 −h(X1))2 = VarX1 [X2]+ EX1 [X2]−h(X1)
und bilden den Erwartungswert, dann bekommen wir
h
i
2
h
E (X2 − h(X1))
h
i
h
i
2 i
= E VarX1 [X2] + E EX1 [X2] − h(X1)
.
Wählen wir speziell h(X1) := E[X2], dann ergibt sich
h
i
h
i
Var[X2] = E VarX1 [X2] + Var EX1 [X2]
“Zerlegung der Varianz nach der ersten Stufe”
9
Beispiel: Zufällige Anzahl unabhängiger Summanden.
Y :=
N
X
i=1
Zi
mit Z1, Z2, . . . unabh., ident. vert. und unabhängig von N .
µ := E[Z1], σ 2 := Var[Z1]
En[Y ] = nµ ,
Varn[Y ] = nσ 2 .
E[Y ] = E[EN Y ] = E[N µ] = E[N ] · µ.
h
i
h
Var[Y ] = E VarN [Y ] + Var EN [Y ]
= E[N ] · σ 2 + Var[N ] · µ2.
i
10
Bedingte Verteilungen
und
bedingte Wahrscheinlichkeiten
11
Bisher:
Aufbau der gemeinsamen Verteilung von X1 und X2
aus der Verteilung ρ von X1
und Übergangswahrscheinlichkeiten P (a1, .):
P(X1 = a1, X2 = a2) := ρ(a1)P (a1, a2)
12
Jetzt:
Zerlegung der gemeinsamen Verteilung von X1 und X2
in die Verteilung von X1
und die bedingte Verteilung von X2 gegeben X1
13
Sei X1 eine diskrete Zufallsvariable mit Zielbereich S1
und X2 eine Zufallsvariable mit Zielbereich S2.
Dann ist die
bedingte Wahrscheinlichkeit von {X2 ∈ A2},
gegeben {X1 = a1}
definiert als
P(X1 = a1, X2 ∈ A2)
P(X2 ∈ A2 | X1 = a1) :=
.
P(X1 = a1)
14
Die Verteilung P(X2 ∈ · | X1 = a1)
heißt die bedingte Verteilung von X2, gegeben {X1 = a1}.
15
Definieren wir Übergangswahrscheinlichkeiten durch
Pa1 (X2 ∈ A2) := P(X2 ∈ A2 | X1 = a1)
dann bekommen wir die schon aus der vorigen Vorlesung
vertraute Dreiheit zurück:
P(X1 = a1, X2 ∈ A2) = P(X1 = a1) Pa1 (X2 ∈ A2).
16
Bei der Untersuchung von zwei Zufallsvariablen X1, X2
kann man immer
zu einer 2-stufigen Betrachtungsweise übergehen.
Man kann dabei wählen,
ob man X1 in die erste Stufe aufnimmt oder in die zweite.
17
Beispiel: Addieren von unabhängigen ZV’en
– zweistufig aufgefasst
X1 := Y , X2 := Y + Z
P(X1 = a, X2 = b)
= P(Y = a, a + Z = b)
= P(Y = a) P(a + Z = b) = P(X1 = a) P(Z = b − a)
Dies führt zu den Übergangswahrscheinlichkeiten
P (a, b) := P(Z = b − a)
18
P(Y + Z = b) =
X
a
P(Y = a) P(Z = b − a)
Beispiel
Y , Z unabhängig und Geom(p)-verteilt
P(Y + Z = b) =
=
b−1
X
pq a−1pq b−a−1
a=1
(b − 1)p2q b−2, b
= 2, 3, . . .
Die negative Binomialverteilung mit Parametern 2, p
ist die Verteilung der Anzahl der Versuche
in einem p-Münzwurf bis einschließlich zum zweiten Erfolg.
19
P(Y = a, Y + Z = b = P(Y = a) P(a + Z = b)
Fazit:
Die bedingte Verteilung von Y + Z, gegeben {Y = a},
ist gleich der Verteilung von a + Z.
Was ergibt sich für die bedingte Verteilung von Y ,
gegeben {Y + Z = b}?
“Wie war der erste Schritt?”
20
Die bedingte Verteilung von Y , gegeben Y + Z = b, ist
P(Y = a) P(Z = b − a)
.
P(Y = a | Y + Z = b) =
P(Y + Z = b)
21
Ein instruktiver Spezialfall:
Y und Z seien unabhängig und Geom(p)-verteilt. Dann ist
P(Y = a) P(Z = b − a) = q a−1p q (b−a)−1p = p2q b−2 .
Dieses hängt nicht von a ab.
Also ist die bedingte Verteilung
die uniforme auf {1, . . . , b − 1}
22
Das ist auch ohne Rechnung plausibel:
Gegeben, dass in einem p-Münzwurf
der zweite Erfolg beim b-ten Versuch kommt,
ist der Zeitpunkt des ersten Erfolges
uniform verteilt auf {1, . . . , b − 1}.
23
Alte Regeln (für zweistufige Experimente) im neuen Gewand:
Formel für die totale Wahrscheinlichkeit:
P(X2 ∈ A2) =
X
a1∈S1
P(X1 = a1)P X2 ∈ A2 | X1 = a1
24
Bedingter Erwartungswert von h(X1, X2),
gegeben {X1 = a1}:
h
:=
X
i
E h(X1, X2) | X1 = a1
h(a1, a2) P X2 = a2 | X1 = a1
a2∈S2
Bedingte Erwartung von h(X1, X2), gegeben X1:
h
i
E h(X1, X2) | X1 = e(X1),
mit
h
i
e(a1) := E h(X1, X2) | X1 = a1 .
25
Definition.
Seien E1, E2 Ereignisse. Dann ist die
bedingte Wahrscheinlichkeit von E2, gegeben E1,
definiert als
P(E2 ∩ E1)
P(E2 | E1) :=
= P(IE2 = 1 | IE1 = 1)
P(E1)
. . . die Wahrscheinlichkeit von E2, wenn man schon weiß,
dass E1 eingetreten ist.
26
Beispiel:
Gedächtnislosigkeit der geometrischen Verteilung:
P(T > k + l | T > k) = q k+l /q k = q l .
Die Kenntnis, dass T einen Wert größer als k annimmt,
ändert also die Verteilung für die “restliche Wartezeit” nicht.
P(T − k > l | T > k) = P(T > l)
27
Zweistufigkeit - Spieß umgedreht:
1 =a1)P(X1 =a1)
P(X1 = a1 | X2 = a2) = P(X2=a2P| X
(X2 =a2)
Formel von Bayes
P(X1 = a1 | X2 = a2) =
PP(X2 =a2 | X1 =a1)P(X1 =a1)
b∈S1 P(X2 =a2 | X1=b)P(X1 =b)
′ | E)P(E)
P
(E
P(E | E ′) =
P(E ′ | E)P(E) + P(E ′ | E c)P(E c)
28
Beispiel: Reihenuntersuchungen:
Eine kranke Person wird in 100% der Fälle positiv getestet,
eine gesunde Person in 1%.
Wie groß ist die Wahrscheinlichkeit, dass eine positiv
getestete Person wirklich krank ist?
Der Prozentsatz der kranken Personen sei 0.1% .
P(E) = 0.001, P(E ′ | E) = 1, P(E ′ | E c) = 0.01.
Bayes: P(E | E ′) = 0.091.
Die Wahrscheinlichkeit, bei positivem Testbefund wirklich krank zu sein,
liegt also bei nur 9%!
29
0.999
g
0.01
0.001
k
p
1
0.001 · 1
P(X1 = k, X2 = p)
=
P(X2 = p)
0.999 · 0.01 + 0.001 · 1
1
≈
11
30