2. Stetige Wahrscheinlichkeitsräume 2.1. Allgemeine

Werbung
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
2.
41
Stetige Wahrscheinlichkeitsräume
Der Rahmen eines diskreten Wahrscheinlichkeitsraumes ist oft zu klein. Wir haben
zum Beispiel bei der Irrfahrt jeweils den Grenzwert N → ∞ betrachtet. Es wäre besser, einen unendlichen Zeithorizont N = ∞ zu wählen, aber der Raum {x1 , x2 , . . .}
ist überabzählbar. Wir möchten aber die Wahrscheinlichkeiten auf dem grösseren
Raum kennen, wie zum Beispiel IIP[limN →∞ N −1 SN ≤ a], da wir nicht immer sicher
sein können, dass N → ∞ auch die Wahrscheinlichkeit liefert, die wir intuitiv erwarten. Weiter zeigt es sich, dass es nicht möglich ist, die Wahrscheinlichkeitsverteilung
“sinnvoll” auf alle Teilmengen von {−1, 1}IIN zu erweitern, so dass die Verteilung auf
Ereignisse in endlicher Zeit mit den in Abschnitt 1.4 verwendeten übereinstimmt.
Die Statistik hat oft Fragen zu klären, ob gewisse Annahmen sinnvoll sind oder
nicht, oder welche Parameter am “wahrscheinlichsten” sind. Ist die Anzahl der Daten
gross, wird der Rechenaufwand zu gross. Man betrachtet daher die Verteilung einer
Test-Statistik, die so normiert ist, dass die endliche Statistik gegen eine bestimmte Wahrscheinlichkeitsverteilung konvergiert, falls die Datenanzahl gegen unendlich
konvergiert. Die Grenzverteilung ist dann normalerweise eine Verteilung auf IR, das
auch überabzählbar ist. Wir müssen daher unseren Begriff des Wahrscheinlichkeitsraumes verallgemeinern.
2.1. Allgemeine Wahrscheinlichkeitsräume
2.1.1.
Die Axiome von Kolmogorov
Wir erlauben nun, dass Ω 6= ∅ eine beliebige nichtleere Menge ist. Zuerst müssen
wir bestimmen, welche Ereignisse wir zulassen. Es gibt nämlich Situationen, siehe
Beispiel 2.3, wo man keine geeignete Wahrscheinlichkeitsverteilung auf allen Teilmengen von Ω definieren kann. Weiter ist es manchmal nicht wünschenswert, den
Raum der Ereignisse zu gross zu wählen. Wir definieren zuerst die Eigenschaften,
die die Klasse der zulässigen Ereignisse haben soll.
Definition 2.1. Sei A eine Klasse von Teilmengen von Ω. A heisst σ-Algebra,
falls
i) ∅ ∈ A (das heisst, A kann nicht leer sein).
ii) Ist A ∈ A, dann ist auch Ac ∈ A.
42
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
iii) Sind A1 , A2 , . . . ∈ A, dann ist auch ∪n An ∈ A.
Wir verlangen also, dass die Kollektion A unter abzählbaren Mengenoperationen
abgeschlossen ist. Die kleinste mögliche σ-Algebra ist A = {∅, Ω}. Wir bemerken,
dass für A1 , A2 , . . . ∈ A auch Aci ∈ A. Damit ist ∪i Aci ∈ A, und somit
[ c
\
Ai =
Aci ∈ A .
i
i
Wir wählen nun eine σ-Algebra F von zulässigen Ereignissen. Wir sagen (Ω, F) ist
ein messbarer Raum.
Definition 2.2. Sei (Ω, F) ein messbarer Raum und IIP : F → [0, 1] eine Funktion
auf F. Die Funktion IIP heisst Wahrscheinlichkeitsmass auf (Ω, F), falls
i) IIP[Ω] = 1 (das Mass ist normiert).
ii) Seien A1 , A2 , . . . ∈ F, so dass Ai ∩ Aj = ∅ für alle i 6= j, dann gilt
X
IIP[∪i Ai ] =
IIP[Ai ]
i
(das Mass ist σ-additiv).
Ist (Ω, F) ein messbarer Raum und IIP ein Wahrscheinlichkeitsmass auf (Ω, F), dann
nennen wir (Ω, F, IIP) einen Wahrscheinlichkeitsraum. Wir bemerken, dass unsere
Definition in diskreten Räumen einen Wahrscheinlichkeitsraum ergibt.
Wählen wir A1 = Ω und Ak = ∅ für k ≥ 2, so erhalten wir
1 = IIP[Ω] = IIP[Ω] +
∞
X
IIP[∅] = 1 +
k=2
∞
X
IIP[∅] .
k=2
Es folgt, dass IIP[∅] = 0. Insbesonder gilt ii) auch für eine endliche Anzahl von
Mengen.
Ist A0 eine Kollektion von Teilmengen von Ω, dann ist
A = σ(A0 ) :=
\
B
Bσ-Algebra
A0 ⊂B
eine σ-Algebra. Es ist somit die kleinste σ-Algebra, die A0 enthält.
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
43
Beispiel 2.3. Betrachten wir Ω = [0, 1]. Wir konstruieren F so, dass alle abgeschlossenen Intervalle [a, b] für 0 ≤ a < b ≤ 1 in F sind. Es folgt dann, dass
alle Intervalle (links/rechts offen/abgeschlossen) in F sind. Wir definieren dann F
als die kleinste σ-Algebra, die alle [a, b] enthält. Diese σ-Algebra heisst Borel-σAlgebra. Die Borel-σ-Algebra existiert. Insbesondere sind die Mengen {ω} ∈ F, für
alle ω ∈ Ω = [0, 1]. Es gibt aber Teilmengen von [0, 1], die nicht in F sind.
Wir definieren nun die Wahrscheinlichkeitsfunktion mit der Eigenschaft, dass
IIP[[a, b]] = b − a. Dieses Mass heisst Lebesgue-Mass auf [0, 1], und existiert. Man
kann zeigen, dass es kein Wahrscheinlichkeitsmass auf der Menge aller Teilmengen von [0, 1] gibt, das mit dem Lebesgue-Mass verträglich ist; das heisst, für das
IIP[[a, b]] = b − a für alle a < b gilt. Es folgt, dass IIP[{ω}] = 0 für alle ω. Insbesondere
hat jede abzählbare Menge A die Wahrscheinlichkeit
IIP[A] = IIP[∪ω∈A {ω}] =
X
IIP[{ω}] = 0 .
ω∈A
Um ein Beispiel zu konstruieren, das zeigt, dass das Lebeguesmass sich nicht auf
allen Teilmengen von Ω = [0, 1) konstruieren kann, betrachten wir folgendes Beispiel. Wir sagen x ∼ y, falls x − y ∈ Q. Dies ist eine Äquivalenzrelation. Aus
dem Auswahlsaxiom folgt, dass wir aus jeder Äquivalenzklasse genau ein Element
wählen können. Nennen wir diese Menge A. Für q ∈ Q ∩ [0, 1) können wir Aq =
{a + q − ba + qc : a ∈ A} bilden, wobei bxc den Ganzzahlteil von x bezeichnet.
Wir haben dann [0, 1) = ∪q Aq . Es ist klar, dass Aq ∩ Ar = ∅ für q 6= r. Aus der
P
Symmetrie folgt 1 = IIP[Ω] = q IIP[Aq ] = ∞IIP[A]. Somit müsste IIP[A] = 0 gelten.
P
Dann wäre aber auch IIP[Ω] = q 0 = 0. Somit kann A keine messbare Menge sein.
2.1.2.
Einfache Folgerungen
Hilfssatz 2.4. Die Aussagen von Hilfssatz 1.3 gelten auch für allgemeine Wahrscheinlichkeitsräume.
Korollar 2.5. Für A1 , A2 , . . . ∈ F gilt
IIP[∪i Ai ] ≤
X
i
IIP[Ai ] .
44
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Beweis.
Dies folgt aus
IIP[∪i Ai ] = lim
n→∞
IIP[∪ni=1 Ai ]
n
X
≤ lim
n→∞
IIP[Ai ] =
X
i=1
IIP[Ai ] .
i
Ein Ereignis von besonderer Bedeutung ist
A∞ = ∩n∈IIN ∪k≥n Ak
unendlich viele der Ereignisse Ak treten ein.
Also, für jedes n gibt es ein k ≥ n, so dass Ak eintritt.
Wir definieren Unabhängigkeit von Ereignissen wie im diskreten Fall,
∀J ⊂ I (endlich)
=⇒
IIP[∩j∈J Aj ] =
Y
IIP[Aj ] .
j∈J
Satz 2.6. (Lemma von Borel–Cantelli) Es gelten folgende Aussagen:
P
P[Ak ] < ∞, dann gilt IIP[A∞ ] = 0, das heisst, nur endlich viele der
i) Falls ∞
i=1 II
Ak treten ein.
ii) Sind {Ai : i ∈ IIN} unabhängig und
P∞
i=1
IIP[Ai ] = ∞, dann gilt IIP[A∞ ] = 1.
Bemerkung. Die Unabhängigkeit in ii) ist wichtig. Seien {Xi : i ∈ IIN} unabhängige Zufallsvariablen mit IIP[Xi = 0] = IIP[Xi = 1] = 12 , dann gilt für Ai =
P
P 1
{X0 = 1, Xi = 1}, dass ∞
P[Ai ] = ∞
P[A∞ ] ≤ IIP[X0 = 1] = 12 .
i=1 II
i=1 4 = ∞, aber II
Beweis.
i) Wir haben ∪k≥n+1 Ak ⊂ ∪k≥n Ak . Daher gilt nach Hilfssatz 1.3 vii)
IIP[A∞ ] = lim IIP[∪k≥n Ak ] ≤ lim
n→∞
ii)
n→∞
∞
X
IIP[Ak ] = 0 .
k=n
Es gilt
Ac∞ = ∪n∈IIN ∩k≥n Ack ,
und somit nach Hilfssatz 1.3 vi)
IIP[Ac∞ ] = lim IIP[∩k≥n Ack ] .
n→∞
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
45
Wir haben die Abschätzung
IIP[∩k≥n Ack ]
= lim
m→∞
c
IIP[∩m
k=n Ak ]
= lim
m→∞
m
Y
(1 − IIP[Ak ])
k=n
m
n X
o
≤ lim exp −
IIP[Ak ] = 0 .
m→∞
k=n
Dies beweist die Behauptung.
In der Bioinformatik gibt es 4 Aminobasen, die in DNA vorkommen. Die Basen
haben die Namen A, C, G und T. Nehmen wir an, dass ein DNA eine zufällige
Anordnung der vier Buchstaben {x1 , x2 , . . . , xN } ist. Da N sehr gross ist, wählen
wir N = ∞. In unserem Modell seien die Zufallsvariablen {Xi : i ≥ 1} unabhängig.
Wir bezeichnen mit pA = IIP[Xi = A], etc. die entsprechenden Wahrscheinlichkeiten.
Wir nehmen an, dass alle Wahrscheinlichkeiten strikt positiv sind. Sei n ∈ IIN und
{x1 , x2 , . . . , xn } ein bestimmtes Wort, das aus den 4 Buchstaben gebildet werden
kann. Dann gilt
Proposition 2.7. Das Wort {x1 , x2 , . . . , xn } taucht mit Wahrscheinlichkeit 1 unendlich oft im Text auf.
Beweis.
Betrachten wir die Ereignisse
Ak = {X(k−1)n+1 = x1 , X(k−1)n+2 = x2 , . . . , Xkn = xn } .
Diese Ereignisse sind unabhängig. Wir haben
IIP[Ak ] =
n
Y
p xi > 0 .
i=1
Also ist
P
2.1.3.
Transformation von Wahrscheinlichkeitsräumen
k
IIP[Ak ] = ∞. Das Borel–Cantelli-Lemma beweist die Behauptung.
Manchmal kann man Resultat von einem Wahrscheinlichkeitsraum auf einen anderen
übertragen. Sei (Ω0 , F 0 , IIP0 ) ein Wahrscheinlichkeitsraum, und (Ω, F) ein messbarer
Raum.
46
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Definition 2.8. Wir sagen eine Abbildung ϕ : Ω0 → Ω ist messbar, falls für alle
A ∈ F gilt, dass
ϕ−1 (A) := {ω 0 ∈ Ω0 : ϕ(ω 0 ) ∈ A} ∈ F 0 .
Ist nun F = σ(A0 ) für eine Kollektion A0 von Teilmengen von Ω, dann genügt es
die Eigenschaft für die Kollektion {ϕ−1 (A) : A ∈ A0 } zu überprüfen.
Satz 2.9. Ist ϕ : Ω0 → Ω eine messbare Abbildung, dann ist durch
IIP[A] = IIP0 ◦ ϕ−1 [A] = IIP0 [ϕ−1 (A)]
ein Wahrscheinlichkeitsmass auf (Ω, F) definiert.
Beweis.
Wir haben
IIP[Ω] = IIP0 [ϕ−1 (Ω)] = IIP0 [Ω0 ] = 1 .
Ist nun {Ai } eine Kollektion von Mengen mit Ai ∩ Aj = ∅ für i 6= j, dann ist
ϕ−1 (Ai ) ∩ ϕ−1 (Aj ) = ∅. Weiter gilt
X
X
IIP[∪i Ai ] = IIP0 [ϕ−1 (∪i Ai )] = IIP0 [∪i ϕ−1 (Ai )] =
IIP0 [ϕ−1 (Ai )] =
IIP[Ai ] .
i
i
Sei Ω0 = [0, 1], F 0 die Borel-σ-Algebra auf [0, 1] und IIP0 das Lebesguemass. Sei Ω
die Menge aller binären {0, 1} Folgen. Wir wählen die σ-Algebra F, die durch die
Ereignisse {Xi = 1} erzeugt wird. Wir ordnen nun jeder Zahl x ∈ [0, 1] die Folge
P
−k
(x1 , x2 , . . .) zu, für die x = ∞
k=1 xk 2 . Wir haben also
xn = 0 ⇐⇒ x ∈ [2k2−n , (2k + 1)2−n ) für ein k ∈ {0, 1, . . . , 2n−1 − 1}.
Das heisst,
−1
ϕ ({Xn = 0}) =
2n−1
[−1
[2k2−n , (2k + 1)2−n ) ∈ F 0 .
k=0
Somit ist ϕ(x) messbar. Setzen wir nun IIP als das Bild der Gleichverteilung, erhalten
wir
n
n
hhX
i
X
0
−k
IIP[X1 = x1 , X2 = x2 , . . . , Xn = xn ] = IIP
xk 2 ,
xk 2−k + 2−n = 2−n .
k=1
k=1
Wir erhalten also die “Gleichverteilung” auf der Menge von unendlich vielen Würfen
einer fairen Münze. Umgekehrt können wir aus der Existenz eines Wahrscheinlichkeitsmasses für unendlich viele Würfe einer fairen Münze die Existenz des Lebesguemasses beweisen.
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
47
2.2. Zufallsvariable und ihre Verteilungen
Bezeichnen wir mit B1 = σ({(−∞, a] : a ∈ IR}) die Borel-σ-Algebra auf IR. Diese
σ-Algebra enthält alle Intervalle, alle offenen und alle abgeschlossenen Mengen. Sei
nun (Ω, F, IIP) ein Wahrscheinlichkeitsraum.
Definition 2.10. Eine (reelle) Zufallsvariable ist eine messbare Abbildung X :
Ω → IR. Die Funktion FX (x) := IIP[X ≤ x] heisst Verteilungsfunktion der Zufallsvariable X.
Durch die Verteilungsfunktion lassen sich alle Wahrscheinlichkeiten IIP[X ∈ A] mit
A ∈ B1 bestimmen, da die Ereignisse {(−∞, b]} die Borel-σ-Algebra erzeugen. Insbesondere haben wir IIP[X ∈ (a, b]] = FX (b) − FX (a).
Hilfssatz 2.11.
i) Eine Verteilungsfunktion F (x) hat die folgenden Eigenschaften
a) F (x) ist wachsend.
b) F (x) ist rechtsstetig.
c) Es gilt limx→−∞ F (x) = 0 und limx→∞ F (x) = 1.
ii) Sei F (x) eine Funktion, die die Eigenschaften a) – c) hat. Dann gibt es einen
Wahrscheinlichkeitsraum (Ω, F, IIP) und eine Zufallsvariable X, die die Verteilungsfunktion F (x) hat.
Beweis. i) a) Sei x ≤ y. Da {X ≤ x} ⊂ {X ≤ y}, gilt F (x) = IIP[X ≤ x] ≤
IIP[X ≤ y] = F (y).
b) Sei {hn } eine Folge von strikt positiven Zahlen, die monoton gegen Null konvergiert. Dann ist {X ≤ x} = ∩n {X ≤ x + hn }. Also haben wir
F (x) = IIP[X ≤ x] = lim IIP[X ≤ x + hn ] = lim F (x + hn ) .
n→∞
n→∞
c) Sei {xn } eine Folge, die gegen −∞ konvergiert. Wir setzen yn = supk≥n xn .
Dann konvergiert {yn } monoton gegen −∞. Weiter ist ∩n {X ≤ yn } = ∅. Also
erhalten wir
lim F (xn ) ≤ lim F (yn ) = lim IIP[X ≤ yn ] = IIP[∅] = 0 ,
n→∞
n→∞
n→∞
48
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
also limn→∞ F (xn ) = 0. Analog folgt limx→∞ F (x) = 1.
ii) Sei Ω0 = [0, 1], F 0 die Borel-σ-Algebra auf Ω0 und IIP die Gleichverteilung
(Lebesguemass auf [0, 1]). Da F (x) wachsend ist, können wir die Umkehrabbildung
F −1 (ω 0 ) = inf{x ∈ IR : F (x) > ω 0 }
definieren. Aus der Definition und der Rechtsstetigkeit schliessen wir
{ω 0 ∈ [0, F (x))} ⊂ {F −1 (ω 0 ) ≤ x} ⊂ {ω 0 ∈ [0, F (x)]} .
Somit ist {F −1 (ω 0 ) ≤ x} = [0, F (x)) oder {F −1 (ω 0 ) ≤ x} = [0, F (x)]. Das heisst,
F −1 ist eine messbare Abbildung von [0, 1] nach IR, also eine Zufallsvariable. Die
Verteilungsfunktion ist
F (x) = IIP[ω 0 ∈ [0, F (x))] ≤ IIP[F −1 (ω 0 ) ≤ x] ≤ IIP[ω 0 ∈ [0, F (x)]] = F (x) .
Die obige Beweismethode hat auch eine praktische Anwendung. Auf einem Computer lassen sich Pseudo-Zufallszahlen {Un } erzeugen. Diese Zufallszahlen nähern
die Gleichverteilung auf [0, 1] an. Wollen wir nun Zufallsvariablen {Xn } mit der
Verteilungsfunktion F (x) erzeugen, so können wir Xn = F −1 (Un ) setzen.
Beispiele
• Sei X ein {0, 1} Experiment mit Erfolgsparameter p. Dann ist

0,
falls x < 0,


F (x) = 1 − p, falls 0 ≤ x < 1,


1,
falls x ≥ 1.
• Sei X eine Binomialverteilte Zufallsvariable mit Parameter n und p. Dann haben
wir
bxc X
n k
F (x) =
p (1 − p)n−k .
k
k=0
Hier verwenden wir die Konvention, dass nk = 0, falls n < k.
• Sei X Poissonverteilt mit Parameter λ. Dann haben wir
F (x) =
bxc
X
λk
k=0
k!
e−λ .
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
1.0
B
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
5
10
15
20
25
49
Poi
30
5
Par
10
N
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
1
2
3
4
5
6
-3
15
20
1.0
-2
-1
1
2
3
Abbildung 2.1: Die Verteilungsfunktionen der Binomialverteilung (B), Poissonverteilung (Poi), Paretoverteilung (Pa) und Normalverteilung (N)
• Die Funktion (1−(1+x/β)−α )1Ix>0 mit α, β > 0 ist eine Verteilungsfunktion, und
heisst Pareto-Verteilung mit Parameter α und β. Diese Verteilung ist populär
in der Versicherungsmathematik, und wird zum Beispiel zur Modellierung von
Katastrophenschäden verwendet. Sie hat die folgende Eigenschaft. Nehmen wir
an, wir wissen, dass {X > x0 }. Dann hat X − x0 die bedingte Verteilung
IIP[x0 < X ≤ x0 + y]
F (x0 + y) − F (x0 )
=
IIP[X > x0 ]
1 − F (x0 )
−α
(1 + x0 /β) − (1 + (x0 + y)/β)−α
=
(1 + x0 /β)−α
β + x + y −α
y −α
0
=1−
=1− 1+
.
β + x0
β + x0
IIP[X − x0 ≤ y | X > x0 ] =
Also erhalten wir wieder eine Pareto-Verteilung.
• Die Funktion F (x) = (1 − e−αx )1Ix>0 mit α > 0 ist eine Verteilungsfunktion und
heisst Exponentialverteilung mit Parameter α. Wissen wir, dass {X > x0 },
dann hat X − x0 die Verteilung
IIP[X − x0 ≤ y | X > x0 ] =
F (x0 + y) − F (x0 )
e−αx0 − e−α(x0 +y)
=
= 1 − e−αy .
1 − F (x0 )
e−αx0
50
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Die Exponentialverteilung hat somit, analog zur geometrischen Verteilung im
diskreten Fall, kein Gedächtnis.
• Die Funktion
Z
x
1
2
√ e−y /2 dy
2π
−∞
ist eine Verteilungsfunktion. Sie heisst standard Normalverteilung. Betrachten wir nun die Variable µ + σX mit σ > 0. Die hat die Verteilung
F (x) =
Z (x−µ)/σ
h
1
x − µi
2
√ e−y /2 dy
=
IIP[µ + σX ≤ x] = IIP X ≤
σ
2π
−∞
Z x
Z x
1 −(z−µ)2 /(2σ2 ) dz
1
2
2
√ e
√
=
=
e−(z−µ) /(2σ ) dz .
σ
2π
2σ 2 π
−∞
−∞
Diese Verteilung heisst Normalverteilung mit Mittelwert µ und Varianz σ 2 .
Wir sehen in den Beispielen zwei grundsätzlich verschiedene Typen von Verteilungen. Die diskreten Verteilungen haben Verteilungsfunktionen, die stückweise konstant sind. Zwischen diesen konstanten Teilen gibt es Sprünge. Wir haben dann eine
abzählbare Menge von Punkten {x1 , x2 , . . .}, an denen die Verteilungsfunktion einen
Sprung der Höhe pk hat. Wir können die Verteilung durch die Paare {(xk , pk )} charakterisieren. Bei diesem Typ haben wir, dass die ganze Masse auf abzählbar viele
Punkte verteilt ist.
Der zweite Typ hat eine stetige Verteilungsfunktion. Die betrachteten Verteilungsfunktionen liessen sich alle, wie in der folgenden Definition schreiben.
Definition 2.12. Eine Verteilung heisst absolutstetig, falls sich die VerteilungsRx
funktion als F (x) = −∞ f (z) dz schreiben lässt, wobei f (z) eine messbare Funktion
ist. Die Funktion f (x) heisst Dichtefunktion der Verteilung.
Es ist einfach zu zeigen, dass jede (stückweise) stetige Funktion messbar ist, und
somit kann jede positive stückweise stetige Funktion, deren Integral über die reellen
Zahlen 1 ergibt, als Dichte benutzt werden.
Für die Pareto-Verteilung erhalten wir durch Differenzierung die Dichtefunktion f (x) = αβ α (β + x)−α−1 1Ix>0 . Die Exponentialverteilung hat die Dichtefunktion f (x) = αe−αx 1Ix>0 , und die Normalverteilung hat die Dichtefunktion f (x) =
√
2
2
e−(x−µ) /(2σ ) / 2σ 2 π. Die Gleichverteilung auf [0, 1] hat die Dichte f (x) = 1I0<x<1 .
Generell kann man die Gleichverteilung auf [a, b] mit a < b definieren. Die entsprechende Dichte ist f (x) = (b − a)−1 1Ia<x<b .
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
51
1.0
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
1.0
Abbildung 2.2: Singuläre Verteilungsfunktion
Neben den diskreten und den absolutstetigen Verteilungen gibt es noch einen
dritten Typ, die singulären Verteilungen. Diese Verteilungen sind stetig, aber haben an allen Stellen, wo F (x) differenzierbar ist, die Ableitung 0. Sie lassen sich somit nicht mit einer Dichtefunktion schreiben. Wir werden diese Verteilungen nicht
weiter betrachten, da sie für praktische Anwendungen nicht benützt werden. Wir
können nämlich jede Verteilung durch eine absolutstetige Verteilung approximieren.
Da man aus Daten nicht ersehen kann, ob eine Verteilung absolutstetig oder singulär ist, genügt es diskrete, absolutstetige und Mischungen dieser beiden Typen zu
betrachten. Wir geben aber ein Beispiel für eine singuläre Verteilung.
Sei x ∈ [0, 1]. Dann können wir jede Zahl im Dreiersystem darstellen, das heisst,
P
−k
wir schreiben x = ∞
mit xk (x) ∈ {0, 1, 2}. Sei T (x) = inf{k : xk (x) =
k=1 xk (x)3
1}. Wir definieren nun die Abbildung
T (x)
F (x) =
X
1Ixk (x)≥1 2−k .
k=1
Das heisst, wir setzen F (x) = 12 auf [ 31 , 23 ], F (x) = 41 auf [ 91 , 29 ] und F (x) = 34 auf [ 97 , 89 ].
Auf diese Art unterteilen wir die verbleibenden Intervalle in drei Teile, und setzen die
Funktion im mittleren Teil auf den Mittelwert zwischen dem linken und dem rechten
Rand des Intervalls. Diese Abbildung ist steigend und stetig. Man kann zeigen, dass
die Funktion nicht absolutstetig sein kann. Der Graph der Verteilungsfunktion ist
in Abbildung 2.2 gegeben.
52
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Generell ist eine Verteilungsfunktion eine Mischung aus den oben beschriebenen
drei Typen
F (x) = αF1 (x) + βF2 (x) + (1 − α − β)F3 (x) ,
wobei α, β ≥ 0 und α + β ≤ 1, F1 (x) ist eine diskrete Verteilungsfunktion, F2 (x)
ist eine absolutstetige Verteilungsfunktion und F3 (x) ist eine singuläre Verteilungsfunktion.
2.3. Erwartungswerte
Sei X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F, IIP). Für viele
Probleme ist es wichtig zu wissen, welchen Wert man von X im Mittel erwarten
kann. Im diskreten Fall hat der Erwartungswert diese Funktion. Wir wollen nun den
Erwartungswert auf die stetigen Modelle verallgemeinern.
Für eine diskrete Zufallsvariable ist es natürlich, den Erwartungswert wie im
diskreten Modell zu berechnen
X
IIE[X] =
p k xk ,
k
sofern die rechte Seite wohldefiniert ist. Für den stetigen Fall diskretisieren wir
die Verteilungsfunktion, und nehmen zuerst an, dass die Zufallsvariable |X| ≤ c
beschränkt ist,
n
n
X
X
kc
kc
IIP[(k − 1)c/n < X ≤ kc/n] =
(F (kc/n) − F ((k − 1)c/n)) .
n
n
k=−n
k=−n+1
Bilden wir den Grenzwert n → ∞, so konvergiert der Ausdruck. Den Grenzwert
bezeichnen wir als Erwartungswert.
Ist X unbeschränkt und X ≥ 0, so können wir den Erwartungswert IIE[min{X, n}]
bilden. Dieser Erwartungswert ist wachsend in n, und somit existiert ein Grenzwert
in [0, ∞]. Wir nennen diesen Wert dann Erwartungswert. Für beliebiges X teilen
wir X in Positivteil X + = max{X, 0} und Negativteil X − = max{−X, 0} auf. Wir
haben dann X = X + −X − und |X| = X + +X − . Gilt IIE[X + ] < ∞ oder IIE[X − ] < ∞,
so definieren wir IIE[X] = IIE[X + ] − IIE[X − ]. Ist IIE[X + ] = IIE[X − ] = ∞, so lässt sich
kein sinnvoller Erwartungswert definieren.
Ist die Zufallsvariable absolutstetig, dann erhalten wir die Formel
Z ∞
IIE[X] =
xf (x) dx ,
−∞
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
53
vorausgesetzt, dass die rechte Seite wohldefiniert ist. Ist F (x) = αF1 (x)+(1−α)F2 (x)
mit α ∈ (0, 1) mit F1 (x) einer diskreten Verteilungsfunktion gegeben durch {(xk , pk )}
und F2 (x) einer absolutstetigen Verteilungsfunktion mit Dichtefunktion f (x), dann
ist
Z ∞
X
IIE[X] = α
xf (x) dx .
pk xk + (1 − α)
−∞
k
Damit wir nicht zwischen diskreten und stetigen Variablen unterscheiden müssen,
schreiben wir für den Erwartungswert
Z ∞
IIE[X] =
x dF (x) .
−∞
Definition 2.13. Eine Zufallsvariable heisst integrierbar, falls IIE[|X|] < ∞.
Der Erwartungswert hat folgende Eigenschaften:
• Linearität, das heisst
IIE
n
hX
k=1
i
ci X i =
n
X
ci IIE[Xi ] .
k=1
• Monotonie, das heisst IIE[X] ≤ IIE[Y ], falls X ≤ Y .
• Monotone Stetigkeit, das heisst, falls X1 ≤ X2 ≤ · · · mit IIE[|X1 |] < ∞, so gilt
für X = limn→∞ Xn
IIE[X] = lim IIE[Xn ] .
n→∞
• Beschränkte Konvergenz, das heisst, sind {Xn } Zufallsvariablen, so dass der Erwartungswert IIE[supn |Xn |] < ∞ endlich ist und X = limn→∞ Xn existiert, dann
gilt
IIE[X] = lim IIE[Xn ] .
n→∞
Ist X eine Zufallsvariable mit Verteilungsfunktion F (x), so ist für jede messbare
Funktion h : IR → IR die Grösse h(X) auch eine Zufallsvariable. Der Erwartungswert
lässt sich dann berechnen als
(P
Z ∞
falls F (x) diskret ist,
k h(xk )pk ,
IIE[h(X)] =
h(x) dF (x) = R ∞
h(x)f (x) dx , falls F (x) absolutstetig ist.
−∞
−∞
54
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Spezialfälle In den folgenden Spezialfällen wird angenommen, dass die entsprechenden Erwartungswerte existieren.
• Für den positiven Teil X + = max{X, 0} erhalten wir
(P
Z ∞
k:x >0 xk pk , falls F (x) diskret ist,
x dF (x) = R ∞ k
IIE[X + ] =
xf (x) dx , falls F (x) absolutstetig ist.
0
0
Eine analoge Formel gilt für X − = max{−X, 0}. Aus diesen beiden Formeln
erhalten wir IIE[X] = IIE[X + ] − IIE[X − ] und IIE[|X|] = IIE[X + ] + IIE[X − ].
• Das p-te Moment von X ist definiert als
Z ∞
p
IIE[X ] =
xp dF (x) ,
−∞
wobei p ∈ IIN. Ist X ≥ 0, so kann das p-te Moment auch für p ∈ [0, ∞) definiert
werden. Ist p ∈ IIN, dann heisst IIE[(X − IIE[X])p ] das p-te zentrale Moment von
X. Eine besondere Kennzahl ist die Varianz von X,
Var[X] = IIE[(X − IIE[X])2 ] = IIE[X 2 ] − IIE[X]2 .
Die Varianz ist eine Kennzahl dafür, wie stark X um den Erwartungswert fluktuiert. Da die Grösse quadriert ist, betrachtet man oft auch die Standardabp
weichung Var[X].
• Die momenterzeugende Funktion ist definiert als MX (r) = IIE[erX ]. Der Na(p)
me kommt daher, dass MX (r) = IIE[X p erX ] (die p-te Ableitung), und daher das
(p)
p-te Moment MX (0) = IIE[X p ] aus der momenterzeugenden Funktion erhalten
werden kann.
Beispiele
• Binomialverteilung
Für den Erwartungswert erhalten wir
n
n
X
X
n k
n−1 k
n−k
IIE[X] =
k
p (1 − p)
=
n
p (1 − p)n−k = np .
k
k
−
1
k=0
k=1
Das zweite Moment wird
n
n
X
X
n k
2
2 n
k
n−k
IIE[X ] =
k
p (1 − p)
=
k(k − 1)
p (1 − p)n−k + IIE[X]
k
k
k=0
k=0
n
X
n−2 k
=
n(n − 1)
p (1 − p)n−k + np = n(n − 1)p2 + np .
k
−
2
k=2
Für die Varianz erhalten wir Var[X] = np − np2 = np(1 − p).
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
• Gleichverteilung auf [a, b]
Das p-te Moment wird
1
IIE[X ] =
b−a
p
55
Z
a
b
1 bp+1 − ap+1
x dx =
.
p+1
b−a
p
Insbesondere ist IIE[X] = 12 (a + b) und IIE[X 2 ] = 13 (b2 + ab + a2 ). Damit wird
1
(b − a)2 .
Var[X] = 12
• Exponentialverteilung Für p ∈ IIN \ {0} erhalten wir
Z ∞
Z ∞
p
p
p
−αx
IIE[X ] =
x αe
dx =
pxp−1 e−αx dx = IIE[X p−1 ] .
α
0
0
Durch Induktion ergibt sich IIE[X p ] = α−p p!. Also ist IIE[X] = α−1 , IIE[X 2 ] = 2α−2 ,
Var[X] = α−2 . Für beliebiges p > 0 können wir die Momente ausdrücken durch
IIE[X p ] = α−p Γ(p + 1), wobei
Z ∞
Γ(x) :=
y x−1 e−y dy
0
die Gamma-Funktion bezeichnet.
• Normalverteilung
Für die Standardnormalverteilung ergibt sich für p ∈ IIN
Z ∞
1
2
p
xp √ e−x /2 dx .
IIE[X ] =
2π
−∞
Ist p ungerade, ergibt sich aus der Symmetrie, dass IIE[X p ] = 0. Für allgemeines
p > 0 erhalten wir
Z ∞
Z ∞
1
2
−x2 /2
p
p 1
IIE[|X| ] =
|x| √ e
dx = 2
xp √ e−x /2 dx
2π
2π
0
−∞
Z ∞
1
1
1
= √ 2p/2
z 2 (p−1) e−z dz = √ 2p/2 Γ( 21 (p + 1)) .
π
π
0
√
√
Aus 1 = IIE[|X|0 ] = Γ( 12 )/ π können wir schliessen, dass Γ( 21 ) = π. Mit Hilfe
der Formeln Γ(x + 1) = xΓ(x) und Γ(n + 1) = n! für n ∈ IIN erhalten wir
p
p
√
IIE[|X|] = 2/π, IIE[X 2 ] = (2/ π) 12 Γ( 12 ) = 1, IIE[|X|3 ] = 2 2/π, IIE[X 4 ] = 3.
Für die Normalverteilung mit Mittelwert µ und Varianz σ 2 , Y = µ + σ 2 X,
erhalten wir die Momente am einfachsten über die binomischen Formeln. So ist
IIE[Y ] = IIE[µ + σX] = µ und IIE[Y 2 ] = IIE[(µ + σX)2 ] = µ2 + 2µσ0 + σ 2 1 = σ 2 + µ2 .
Also haben wir die Varianz Var[Y ] = σ 2 .
56
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
2.4. Ungleichungen
Manchmal braucht man nicht den exakten Erwartungswert oder die exakte Wahrscheinlichkeit, sondern eine Abschätzung ist gut genug. Die Abschätzungen lassen
sich oft leichter berechnen, als der Erwartungswert oder die Wahrscheinlichkeit.
Hilfssatz 2.14. (Jensens Ungleichung) Ist X eine Zufallsvariable mit endlichem Erwartungswert und u : IR → IR eine konvexe Funktion, so dass IIE[u(X)]
existiert. Dann gilt IIE[u(X)] ≥ u(IIE[X]). Ist IIP[X = IIE[X]] < 1 und u(x) strikt
konvex, dann gilt die strikte Ungleichung.
Bemerkung. Ist u(x) konkav, so ist −u(x) konvex. Also gilt in diesem Fall
IIE[u(x)] ≤ u(IIE[X]).
Beweis. Für eine konvexe Funktion gibt es für jeden Punkt x0 eine Gerade `(x) =
u(x0 ) + k(x0 )(x − x0 ), die u(x) in x0 berührt, so dass `(x) ≤ u(x). Setzen wir
x0 = IIE[X]. Dann erhalten wir
u(IIE[X]) = u(x0 ) = u(x0 ) + k(x0 )(IIE[X] − x0 ) = IIE[`(X)] ≤ IIE[u(X)] .
Ist u(x) strikt konvex, so ist u(x) > `(x) für x 6= x0 . Analog folgt dann die strikte
Ungleichung.
Wir erhalten die Ungleichungen IIE[|X|] ≥ |IIE[X]| und IIE[X 2 ] ≥ IIE[X]2 .
Korollar 2.15. Ist 0 < p ≤ q, so gilt
IIE[|X|p ]1/p ≤ IIE[|X|q ]1/q .
Beweis.
Die Funktion u(x) = xq/p ist konvex auf [0, ∞). Somit erhalten wir
IIE[|X|q ] = IIE[(|X|p )q/p ] ≥ IIE[|X|p ]q/p .
Dies ist äquivalent zur Behauptung.
Hat man Informationen über Erwartungswert oder Varianz, lassen sich auch
Wahrscheinlichkeiten abschätzen.
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
57
Hilfssatz 2.16. Sei h(x) eine positive wachsende Funktion. Dann gilt
h(c)IIP[X ≥ c] ≤ IIE[h(X)] .
Beweis. Da h(x) wachsend und positiv ist, gilt h(c)1IX≥c ≤ h(X). Nimmt man
den Erwartungswert, folgt die Aussage.
Korollar 2.17. (Markov-Ungleichung)
Sei c > 0 und IIE[|X|] < ∞. Dann gilt
IIP[|X| ≥ c] ≤ c−1 IIE[|X|] .
Beweis. Wählen wir in Hilfssatz 2.16 h(x) = x, und wenden dies auf die Zufallsvariable |X| an, so folgt die Aussage.
Ist X eine positive Zufallsvariable mit IIE[X] = 0, erhalten wir IIP[X ≥ c] = 0,
also ist IIP[X = 0] = 1.
Korollar 2.18. (Chebychev-Ungleichung) Sei IIE[X 2 ] < ∞ und c > 0. Dann
gilt
IIP[|X − IIE[X]| ≥ c] ≤ c−2 Var[X] .
(2.1)
Beweis. Wir wenden Hilfssatz 2.16 mit h(x) = x2 auf die Zufallsvariable |X −
IIE[X]| an.
Korollar 2.19. Sei r > 0, so dass die momenterzeugende Funktion MX (r) =
IIE[erX ] existiert. Dann gilt
IIP[X ≥ c] ≤ e−rc MX (r) = exp{−(rc − log MX (r))} .
Beweis.
Dies folgt aus Hilfssatz 2.16 mit h(x) = erx .
Die obige Ungleichung ist wichtig in der Theorie der grossen Abweichungen. Man
wählt r so, dass rc − log MX (r) maximal wird.
58
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Hilfssatz 2.20. (Cauchy–Schwarz-Ungleichung)
riablen mit IIE[X 2 + Y 2 ] < ∞. Dann gilt
Seien X und Y Zufallsva-
(IIE[XY ])2 ≤ IIE[X 2 ]IIE[Y 2 ] .
Beweis. Ist IIE[Y 2 ] = 0, so haben wir oben gesehen, dass Y = 0 gelten muss. In
diesem Fall gilt die Ungleichung trivialerweise. Nehmen wir also IIE[Y 2 ] > 0 an. Für
jedes α ∈ IR haben wir
0 ≤ IIE[(X − αY )2 ] = IIE[X 2 ] − 2αIIE[XY ] + α2 IIE[Y 2 ] .
Die rechte Seite wird minimal für α = IIE[XY ]/IIE[Y 2 ]. Setzen wir diesen Wert ein,
erhalten wir
(IIE[XY ])2
.
0 ≤ IIE[X 2 ] −
IIE[Y 2 ]
Dies ist äquivalent zur Behauptung.
Korollar 2.21. (Ungleichung von Cantelli)
IIE[X 2 ] < ∞. Dann gilt für jedes c ≥ 0
IIP[X ≥ IIE[X] + c] ≤
c2
Sei X eine Zufallsvariable und
Var[X]
.
+ Var[X]
Beweis. Wir dürfen IIE[X] = 0 annehmen. Aus der Cauchy–Schwarz-Ungleichung
(Lemma 2.20) erhalten wir
c2 = (IIE[c − X])2 ≤ (IIE[(c − X)1IX<c ])2 ≤ IIE[(c − X)2 ]IIE[1I2X<c ]
= (c2 + Var[X])IIP[X < c] = (c2 + Var[X])(1 − IIP[X ≥ c]) .
Auflösen nach IIP[X ≥ c] gibt die Behauptung.
2.5. Varianz, Kovarianz, lineare Prognose
Wir wollen nun Rechenregeln für die Varianz finden. Seien a, b ∈ IR und IIE[X 2 ] < ∞.
Dann gilt
Var[aX + b] = IIE[(aX + b − IIE[aX + b])2 ] = IIE[{a(X − IIE[X])}2 ] = a2 Var[X] .
Seien X und Y zwei Zufallsvariablen. Dann gilt
Var[X + Y ] = IIE[(X + Y − IIE[X + Y ])2 ] = IIE[{(X − IIE[X]) + (Y − IIE[Y ])}2 ]
= Var[X] + Var[Y ] + 2IIE[(X − IIE[X])(Y − IIE[Y ])] .
Wir machen daher folgende
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
59
Definition 2.22. Die Grösse
Cov[X, Y ] := IIE[(X − IIE[X])(Y − IIE[Y ])] = IIE[XY ] − IIE[X]IIE[Y ]
heisst Kovarianz von X und Y . Wir sagen, X und Y sind unkorreliert, falls
Cov[X, Y ] = 0.
Es folgt sofort, dass Cov[X, X] = Var[X].
Wir wollen nun die Kovarianz berechnen, falls X und Y unabhängig sind. Wir
werden die Unabhängigkeit von Zufallsvariablen erst in Definition 2.24 definieren.
Für die Berechnungen unten brauchen wir aber nur die diskrete Version (Definition 1.30).
Nehmen wir zuerst an, X und Y seien diskrete Variablen. Wir charakterisieren
sie durch {xi , pi )} und {(yi , qi )}. Dann gilt
XX
XX
IIE[XY ] =
xk yj IIP[X = xk , Y = yj ] =
xk y j p k q j
j
k
=
X
xk p k
k
X
j
yj qj = IIE[X]IIE[Y ] .
j
k
Sei nun X eine stetige und Y eine diskrete Variable. Wir nehmen zuerst an, dass
|X| und |Y | durch c beschränkt sind. Dann haben wir
X kc
kj
n
yj IIP[(k−1)c/n < X ≤ kc/n, Y = yj ] =
X kc
k
n
IIP[(k−1)c/n < X ≤ kc/n]IIE[Y ]
wie im diskreten Fall. Lassen wir n → ∞ erhalten wir
Z c
IIE[XY ] =
x dF (x)IIE[Y ] = IIE[X]IIE[Y ] .
−c
Sind nun X, Y ≥ 0 positive Zufallsvariablen, erhalten wir aus monotoner Konvergenz
IIE[XY ] = lim IIE[X1IX≤n Y 1IY ≤n ] = lim IIE[X1IX≤n ]IIE[Y 1IY ≤n ] = IIE[X]IIE[Y ] .
n→∞
n→∞
Für beliebige X, Y haben wir
IIE[XY ] = IIE[(X + − X − )(Y + − Y − )]
= IIE[X + Y + ] − IIE[X + Y − ] − IIE[X − Y + ] + IIE[X − Y − ]
= IIE[X + ]IIE[Y + ] − IIE[X + ]IIE[Y − ] − IIE[X − ]IIE[Y + ] + IIE[X − ]IIE[Y − ]
= (IIE[X + ] − IIE[X − ])(IIE[Y + ] − IIE[Y − ]) = IIE[X]IIE[Y ] .
60
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Analog folgt die Formel IIE[XY ] = IIE[X]IIE[Y ], falls beide X und Y stetig sind. Wir
haben also, Cov[X, Y ] = 0, falls X und Y unabhängig sind.
Für unabhängige Zufallsvariablen gilt also
Var
n
hX
k=1
i
Xk =
n
X
Var[Xk ] .
k=1
Sind {Xk } unabhängige {0, 1} Experimente mit Parameter p. Dann ist IIE[Xi ] = p
und IIE[Xi2 ] = IIE[Xi ] = p. Also ist die Varianz Var[Xi ] = p − p2 = p(1 − p). Aus
P
der Summenformel erhalten wir Var[Sn ] = nk=1 Var[Xi ] = np(1 − p), was mit der
Varianz der Binomialverteilung übereinstimmt.
Wir wollen nun Rechenregeln für die Kovarianz bestimmen. Wir erhalten aus der
Symmetrie der Definition
Cov[X, Y ] = Cov[Y, X] .
Weiter gilt für a, b ∈ IR
Cov[X, aY + b] = IIE[(X − IIE[X])a(Y − IIE[Y ])] = a Cov[X, Y ] .
Ist Z eine weitere Zufallsvariable, erhalten wir
Cov[X, Y + Z] = IIE[(X − IIE[X])(Y − IIE[Y ] + Z − IIE[Z])]
= IIE[(X − IIE[X])(Y − IIE[Y ])] + IIE[(X − IIE[X])(Z − IIE[Z])]
= Cov[X, Y ] + Cov[X, Z] .
Definition 2.23. Sei Var[X] Var[Y ] > 0. Die Grösse
Cov[X, Y ]
Cor[X, Y ] := p
Var[X] Var[Y ]
heisst Korrelation von X und Y .
Aus der Cauchy–Schwarz Ungleichung (Lemma 2.20) schliessen wir Cor[X, Y ] ∈
[−1, 1].
Betrachten wir den Extremfall Cor[X, Y ] = 1. Wir dürfen IIE[X] = IIE[Y ] = 0
annehmen. Dann haben wir
s
2 Var[X]
Var[X]
IIE X −
Y
= Var[X] −
Var[Y ] = 0 .
Var[Y ]
Var[Y ]
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
61
Somit gilt
s
IIP X =
Var[X]
Y
Var[Y ]
=1.
Analog folgt, falls Cor[X, Y ] = −1,
IIP X = −
s
Var[X]
Y
Var[Y ]
=1.
Betrachten wir das folgende Problem. Seien X, Y zwei Zufallsvariablen. Wir beobachten X und wollen nun Y vorhersagen. Wir verwenden eine lineare Prognose
Ŷ = aX + b. Wir suchen nun Zahlen a, b, so dass der mittlere quadratische Fehler
IIE[(Ŷ − Y )2 ] minimal wird. Aus
IIE[(Ŷ − Y )2 ] = Var[Ŷ − Y ] + IIE[Ŷ − Y ]2
und der Tatsache, dass Var[Ŷ − Y ] nicht von b abhängt, schliessen wir, dass IIE[Ŷ −
Y ] = 0, also b = IIE[Y ] − aIIE[X]. Ist nun Var[X] = 0, ist die beste Prognose Ŷ =
aIIE[X] + b = IIE[Y ]. Wir können also Var[X] > 0 annehmen. Es bleibt
IIE[(Ŷ − Y )2 ] = Var[Ŷ − Y ] = Var[Ŷ ] + Var[Y ] − 2 Cov[Ŷ , Y ]
= a2 Var[X] + Var[Y ] − 2a Cov[X, Y ] .
Dies ist minimal für a = Cov[X, Y ]/ Var[X]. Also haben wir die optimale lineare
Prognose
Ŷ =
Cov[X, Y ]
Cov[X, Y ]
Cov[X, Y ]
X + IIE[Y ] −
IIE[X] = IIE[Y ] +
(X − IIE[X]) .
Var[X]
Var[X]
Var[X]
Das Verfahren heisst lineare Regression. Ist Var[X] = Var[Y ], erhalten wir
Ŷ = IIE[Y ] + Cor[X, Y ](X − IIE[X]) .
Francis Galton hat die Körpergrössen von Vätern und Söhnen untersucht. Er fand
dann die Regressionsformel mit a ∈ (0, 1), das heisst positive Korrelation. Somit
sind die Söhne von grossen Vätern auch gross, aber im Durchschnitt nicht so stark
vom Mittelwert entfernt wie die Väter. Analog sind Söhne kleiner Väter auch klein,
aber im Mittel näher beim Mittelwert als die Väter. Er nannte dies “regression to
mediocrity” (Rückentwicklung zum Mittelmass). Daher kommt der Name “lineare
Regression”.
62
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
2.6. Die gemeinsame Verteilung von d Zufallsvariablen
Seien X1 , X2 , . . . , Xd eine Familie von Zufallsvariablen. Betrachten wir den Vektor
X = (X1 , X2 , . . . , Xd ), dann ist X : Ω → IRd eine Abbildung. Sei Bd die von
den Mengen A1 × A2 × · · · × Ad , Ak ∈ B1 , erzeugte σ-Algebra auf IRd . Sie heisst
Borel-σ-Algebra auf IRd . Da
{X ∈ A1 × · · · × Ad } = ∩dk=1 {Xk ∈ Ak } ,
ist die Abbildung X eine messbare Abbildung von Ω nach IRd . Die Borel-σ-Algebra
Bd wird erzeugt durch Mengen der Form (−∞, a1 ] × (−∞, a2 ] × · · · × (−∞, ad ]. Es
genügt daher die gemeinsame Verteilungsfunktion
F (x1 , x2 , . . . , xd ) = IIP[X1 ≤ x1 , . . . , Xd ≤ xd ]
zu kennen.
Die Verteilung von X heisst, analog zum eindimensionalen Fall, absolutstetig,
wenn es eine messbare Funktion f : IRd → IR gibt, so dass
Z x1 Z x2
Z xd
f (y1 , . . . , yd ) dyd · · · dy1 .
F (x1 , . . . , xd ) =
···
−∞
−∞
−∞
Die Dichtefunktion von X muss dann eine positive reelle Funktion auf IRd sein, so
R
dass IRd f (y) dy = 1.
Aus der gemeinsamen Verteilungsfunktion F (x) können wir auch die Verteilung
von Xk bestimmen,
Fk (xk ) = IIP[Xk ≤ xk ]
= IIP[X1 < ∞, . . . , Xk−1 < ∞, Xk ≤ xk , Xk+1 < ∞, . . . , Xd < ∞]
= F (∞, . . . , ∞, xk , ∞, . . . , ∞) .
Analog lässt sich die gemeinsame Verteilung der k Zufallsvariablen Xi1 , Xi2 , , . . . , Xik
für 1 ≤ i1 < i2 < · · · < ik ≤ d bestimmen.
Ist nun X absolutstetig, erhalten wir, dass auch Xk absolutstetig ist. Die Dichte
von Xk ist dann
Z ∞
Z ∞
Z ∞
Z ∞
fk (xk ) =
···
···
f (x) dxd · · · dxk+1 dxk−1 · · · dx1 .
x1 =−∞
xk−1 =−∞
xk+1 =−∞
xd =−∞
Achtung: Es kann sein, dass alle Zufallsvariablen Xk eindimensional absolutstetig
sind, aber mehrdimensional nicht absolutstetig sind.
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
63
Definition 2.24. Die Zufallsvariablen X1 , . . . , Xd heissen (stochastisch) unabhängig, falls
FX (x1 , . . . , xd ) = F1 (x1 )F2 (x2 ) · · · Fd (xd ) .
Die Definition ist äquivalent zu
IIP[∩dk=1 {Xk ∈ Ak }] =
d
Y
IIP[Xk ∈ Ak ] ,
k=1
wobei Ak ∈ B1 Borel Mengen sind. Weiter lässt sich zeigen, dass für messbare
Funktionen hk : IR → IR, die Formel
IIE
d
hY
d
i Y
hk (Xk ) =
IIE[hk (Xk )]
k=1
k=1
gilt, falls X1 , . . . , Xd unabhängig sind, siehe auch Abschnitt 2.5. Gilt umgekehrt
die obige Formel für alle messbaren Funktion hk , dann sind die Zufallsvariablen
unabhängig. Das folgt sofort, falls man hk (xk ) = 1Ixk ≤ak wählt. Insbesondere folgt
für unabhängige Zufallsvariablen
IIE
d
hY
k=1
i
Xk =
d
Y
IIE[Xk ] .
k=1
Wie wir schon vorher bewiesen haben, sind also unabhängige Zufallsvariablen unkorreliert.
Wie wir schon für Ereignisse bemerkt haben, impliziert paarweise Unabhängigkeit nicht stochastische Unabhängigkeit. Wir können auch aus der Unkorreliertheit
nicht schliessen, dass zwei Zufallsvariablen unabhängig sind. Ist zum Beispiel X
standardnormalverteilt, und Y = X 2 , so sind X und Y nicht unabhängig. Zum
Beispiel ist
IIP[X > 1, Y > 1] = IIP[X > 1] > IIP[X > 1]IIP[Y > 1] .
Aber IIE[XY ] = IIE[X 3 ] = 0 = IIE[X]IIE[Y ], da IIE[X] = 0.
Proposition 2.25. Die absolutstetigen Zufallsvariablen X1 , X2 , . . . , Xd sind genau
dann unabhängig, wenn ihre gemeinsame Dichte sich als
f (x1 , . . . , xd ) = f1 (x1 ) · · · fk (xk )
schreiben lässt.
64
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Beweis.
Lässt sich f (x) als Produkt schreiben, dann gilt
Z
x1
Z
xd
···
F (x) =
d
Y
fk (yk ) dyd · · · dy1 =
−∞ k=1
−∞
d Z
Y
k=1
xk
fk (yk ) dyk =
−∞
d
Y
Fk (xk ) .
k=1
Also sind die Zufallsvariablen unabhängig.
Seien die Zufallsvariablen nun unabhängig. Dann gilt
Z
x1
Z
xd
···
−∞
f (y) dy = F (x) =
−∞
d
Y
Fk (xk ) =
k=1
Z
x1
Z
···
=
−∞
xd
d Z
Y
k=1
d
Y
xk
fk (yk ) dyk
−∞
fk (yk ) dyd · · · dy1 .
−∞ k=1
Da die Formel für alle x (mit Ausnahme einer Menge mit Mass 0) gelten muss, folgt
die Produktformel für die Dichtefunktion.
Als nächstes betrachten wir Summen von unabhängigen Zufallsvariablen.
Hilfssatz 2.26. Seien X1 und X2 unabhängige absolutstetige Zufallsvariablen mit
Dichtefunktionen f1 (x) und f2 (x). Dann ist X = X1 + X2 absolutstetig mit Dichtefunktion
Z ∞
f (x) =
f1 (z)f2 (x − z) dz .
−∞
Bemerkung. Die Formel für f (x) heisst Faltung von f1 und f2 . Man schreibt oft
kurz f (x) = f1 ∗f2 (x). Für die Verteilungsfunktionen schreiben wir F (x) = F1 ∗F2 (x).
Sind X1 , . . . , Xd identisch und unabhängig verteilt, so schreiben wir kurz für die
Verteilungsfunktion der Summe X1 + · · · + Xd , F ∗d (x), und für die Dichte f ∗d (x).
Beweis. Kennen wir X1 , dann muss X2 ≤ x − X1 sein, damit X ≤ x gilt. Wir
erhalten also
Z ∞ Z x−x1
Z ∞Z x
F (x) =
f (x1 , x2 ) dx2 dx1 =
f (x1 , z − x1 ) dz dx1
−∞ −∞
−∞ −∞
Z x Z ∞
=
f (x1 , z − x1 ) dx1 dz .
−∞
−∞
Da f (x1 , z − x1 ) = f1 (x1 )f2 (z − x1 ) folgt die Behauptung.
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
65
Beispiele
• Normalverteilung auf IRd Sind X1 , . . . , Xd standardnormalverteilt und unabhängig, dann hat X die Dichte
−d/2
f (x) = (2π)
d
o
n X
1
x2k .
exp − 2
k=1
Ist nun A eine d × d Matrix und µ ein d-dimensionaler Vektor, dann können wir
eine neue Zufallsvariable Y = AX + µ definieren. Also haben wir
Yk =
d
X
Ak` X` + µk .
`=1
Der Mittelwert ist dann IIE[Yk ] = µk . Die Kovarianzen erhalten wir aus
d
d
d X
d
hX
i X
X
Σij = Cov[Yi , Yj ] = IIE
Aik Xk
Aj` X` =
Aik Aj` IIE[Xk X` ]
k=1
=
d
X
`=1
k=1 `=1
Aik Ajk = (AA> )ij .
k=1
Betrachten wir nun den Fall, wo Σ = (Σij ) nicht invertierbar ist. Dann gibt es
einen Vektor a ∈ IRd \ {0}, so dass a> AA> a = 0. Insbesondere ist
Var[a> Y ] = a> AA> a = 0 .
Also haben wir, dass a> Y = IIE[a> Y ] = a> µ. Wir sehen also, dass sich eines
der Yk als Linearkombination der anderen schreiben lässt. Es genügt also, die
gemeinsame Verteilung der anderen Yi zu kennen. Nehmen wir daher an, dass
Σ invertierbar ist, und setzen wir C = Σ−1 . Es muss dann gelten, dass A
invertierbar ist. Also ist C = (A−1 )> A−1 . Wir erhalten dann
d
X
x2k = x> x = x> A> CAx = (y − µ)> C(y − µ) .
k=1
Somit hat Y die Dichtefunktion
fY (y1 , . . . , yd ) = (2π)−d/2 (det Σ)−1/2 exp{− 21 (y − µ)> Σ−1 (y − µ)} ,
siehe auch Hilfssatz 2.27 unten. Diese Verteilung heisst d-dimensionale Normalverteilung mit Mittelwert µ und Kovarianzmatrix Σ. Wir sehen, dass die
Normalverteilung durch Mittelwert und Kovarianzmatrix bestimmt ist.
66
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Berechnen wir nun die Verteilung von X = aX1 + bX2 . Dann sind aX1 und bX2
unabhängig und normalverteilt mit Mittelwert 0 und Varianz a2 , bzw. b2 . Die
Dichte von X ist dann
Z ∞
n z 2 (x − z)2 o
1
exp − 21 2 +
dz .
f (x) =
2abπ −∞
a
b2
Wir schreiben
z 2 (x − z)2
(z − b−2 (a−2 + b−2 )−1 x)2
+
=
+ x2 (b−2 − b−4 (a−2 + b−2 )−1 )
a2
b2
(a−2 + b−2 )−1
x2
(z − b−2 (a−2 + b−2 )−1 x)2
+
.
=
(a−2 + b−2 )−1
a2 + b 2
Da
p
2π(a−2 + b−2 )−1
∞
n (z − b−2 (a−2 + b−2 )−1 x)2 o
exp − 21
dz = 1 ,
(a−2 + b−2 )−1
−∞
Z
1
erhalten wir
f (x) = p
1
2π(a2 + b2 )
n
exp − 21
x2 o
.
a2 + b 2
Also ist aX1 + bX2 normalverteilt mit Varianz a2 + b2 . Wir sehen also, dass
Yk normalverteilt ist mit Mittelwert µk und Varianz Σkk . Insbesondere ist auch
Y1 + Y2 normalverteilt mit Mittelwert µ1 + µ2 und Varianz Σ11 + Σ22 + 2Σ12 .
Wir können auch in umgekehrter Richtung vorgehen. Seien {Yk : 1 ≤ k ≤ d}
d-dimensional normalverteilte Zufallsvariablen, so dass Σ invertierbar ist. Da
Σ symmetrisch mit einer strikt positiven Diagonalen, gibt es eine symmetrische Matrix A, so dass A2 = Σ. Dann ist X = A−1 (Y − µ) d-dimensional
standard normalverteilt. Wir sehen also, dass für multinomial normalverteilte
Zufallsvariablen die gemeinsame Verteilungsfunktion aus den Mittelwerten und
der Kovarianzmatrix folgt. Insbesondere folgt für multinomial normalverteilte
Zufallsvariablen die Unabhängigkeit aus der Unkorreliertheit.
Aber aufgepasst. Sind X und Y zwei normalverteilte Zufallsvariablen, so lässt
sich nicht daraus schliessen, dass der Vektor (X, Y ) zweidimensional normalverteilt ist. Und damit folgt auch nicht die Unabhängigkeit nicht aus der Unkorreliertheit. Sei X standardnormalverteilt und Z unabhängig von X mit IIP[Z =
1] = IIP[Z = −1] = 21 . Setzen wir Y = ZX. Dann ist
IIP[X > 1, Y > 1] = IIP[X > 1, Z = 1] = 21 IIP[X > 1] > (IIP[X > 1])2 ,
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
67
da IIP[X > 1] < 21 . Somit sind X und Y abhängig. Wegen der Symmetrie der Normalverteilung, sind beide Randverteilungen normal. Für die Kovarianz erhalten
wir
IIE[XY ] = IIE[ZX 2 ] = IIE[Z]IIE[X 2 ] = 0 · 1 = 0 .
Man kann auch Beispiele konstruieren, bei der X, Y absolutstetig mit normalRx
2
verteilten Randverteilungen ist. Sei Φ(x) = (2π)−1/2 −∞ e−y /2 dy die StandardNormalverteilung. Die gemeinsame Verteilung
F (x, y) =
Φ(x)Φ(y)
Φ(x) + Φ(y) − Φ(x)Φ(y)
hat dann die Randverteilungen Φ(x). Die Verteilung ist absolutstetig mit der
Dichte
2
2
e−(x +y )/2 Φ(x)Φ(y)
.
f (x, y) =
π(Φ(x) + Φ(y) − Φ(x)Φ(y))3
Da Φ(x) nicht in geschlossener Form dargestellt werden kann, kann es sich nicht
um eine bivariate Normalverteilung handeln. Sei (X̃, Ỹ ) ein Vektor mit der Verteilung F (x, y). Sei N gleichverteilt auf {1, 2, 3, 4} und unabhängig von (X̃, Ỹ ).
Definieren wir

(X̃, Ỹ ) ,
falls N = 1,




 (−X̃, Ỹ ) ,
falls N = 2,
(X, Y ) =
.

(
X̃,
−
Ỹ
)
,
falls
N
=
3,




(−X̃, −Ỹ ) , falls N = 4.
Dann hat auch (X, Y ) normalverteilte Randverteilungen. Wegen der Symmetrie
sind sogar X und Y unkorreliert. Aber X und Y sind nicht unabhängig.
• Seien {Xk } unabhängig und gleichverteilt auf [0, 1]. Dann hat X = X1 + X2 die
Dichte

x,
falls 0 ≤ x ≤ 1,

Z 1

f ∗2 (x) =
1Ix−z∈[0,1] dz = 2 − x , falls 1 < x ≤ 2,

0

0,
sonst.
Die Summe Z = X1 + X2 + X3 hat die Dichte
1 2
x ,
falls 0 ≤ x ≤ 1,

2



Z 1
 3 − (x − 3 )2 , falls 1 < x ≤ 2,
2
f ∗3 (x) =
f ∗2 (x − z) dz = 4
1
2

0
(3 − x) ,
falls 2 < x ≤ 3,


2


0,
sonst.
Die Dichten sind in Abbildung 2.3 dargestellt.
68
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
1.0
0.8
0.6
0.4
0.2
0.5
1.0
1.5
2.0
2.5
3.0
Abbildung 2.3: Dichte der Faltung von gleichverteilten Zufallsvariablen
• Seien {Xk } Gamma-verteilt mit Parameter γk und α, das heisst, mit Dichtefunktion
αγk γk −1 −αx
fk (x) =
x
e 1Ix≥0 .
Γ(γk )
Ist γk = 1, so erhalten wir die Exponentialverteilung mit Parameter α. Wir
erhalten für die Faltung für x ≥ 0
Z ∞
Z x
αγ1 +γ2
f1 ∗ f2 (x) =
f1 (z)f2 (x − z) dz =
z γ1 −1 (x − z)γ2 −1 e−αx dz
Γ(γ
)Γ(γ
)
1
2
−∞
0
Z 1
γ1 +γ2
α
=
xγ1 +γ2 −1 e−αx
y γ1 −1 (1 − y)γ2 −1 dy
Γ(γ1 )Γ(γ2 )
0
γ1 +γ2
α
=
xγ1 +γ2 −1 e−αx .
Γ(γ1 + γ2 )
Also ist X1 + X2 Gamma verteilt mit Parameter γ1 + γ2 und α.
Nehmen wir nun γk = γ an, erhalten wir für die Summe von d unabhängigen
Gamma verteilten Zufallsvariablen die Dichte
f ∗d (x) =
αdγ dγ−1 −αx
x
e
.
Γ(dγ)
Insbesondere gilt für exponentialverteilte Zufallsvariablen (γ = 1)
f ∗d (x) =
αd
αd d−1 −αx
x e
=
xd−1 e−αx .
Γ(d)
(d − 1)!
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
69
Eine wichtige Anwendung ist die Folgende. Eine Maschine hat eine Komponente, die eine Lebensdauer Tk mit einer Exponentialverteilung mit Parameter α
hat. Verschiedene Komponenten haben eine unabhängige Lebensdauer. Ist die
Komponente defekt, wird sie durch eine neue ersetzt. Sei Nt die Anzahl der
Komponenten, die bis zum Zeitpunkt t ersetzt werden mussten. Wir wollen nun
die Verteilung von Nt bestimmen. Sei Sn = T1 + · · · + Tn . Wir haben
IIP[Nt = 0] = IIP[T1 > t] = e−αt ,
und für n ≥ 1,
IIP[Nt = n] = IIP[Sn ≤ t < Sn+1 ] = IIP[Sn ≤ t] − IIP[Sn+1 ≤ t]
Z
Z t
αn+1 n −αz αn t d n −αz
αn
n−1 −αz
z e
−
z e
dz =
(z e ) dz
=
(n − 1)!
n!
n! 0 dz
0
(αt)n −αt
=
e
.
(2.2)
n!
Also ist Nt Poissonverteilt mit Parameter αt. Nt hat also Mittelwert αt und
Varianz αt.
Manchmal betrachtet man nicht die Zufallsvariablen selber, sondern eine Funktion
davon. In folgendem Fall kann man die Dichte “einfach” erhalten.
Hilfssatz 2.27. Sei X eine absolutstetige Zufallsvariable auf IRd mit der Dichte
fX (x). Ferner sei h : IRd → IRd eine injektive Funktion mit Umkehrfunktion u :
h(IRd ) → IRd , so dass u stetig differenzierbar ist. Sei J(y) die Ableitung von u,


∂u1
∂u1
·
·
·
∂yd
 ∂y. 1
.. 

.
J(y) =  .
. 
 .
∂ud
∂ud
· · · ∂yd
∂y1
Dann ist Y = h(X) absolutstetig mit Dichte
fY (y) = | det J(y)| f (u(y))1Iy∈h(IRd ) .
Beweis. Wir bemerken zuerst, dass h(x) eine messbare Funktion ist, da h(x) als
Umkehrfunktion von u(x) stetig ist. Sei B ⊂ IRd eine Borelmenge. Dann gilt für
x = u(y)
Z
Z
Z
Z
IIP[Y ∈ B] = IIP[X ∈ u(B)] = · · · fX (x) dx = · · · | det J(y)|fX (u(y)) dy .
u(B)
Somit ist Y absolutstetig mit Dichte fY (y).
B
70
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
Beispiel Seien (X1 , X2 ) ∈ IR2 eine Zufallsvariable und Y1 = X1 +X2 , Y2 = X1 −X2 .
Wir haben dann h1 (x1 , x2 ) = x1 + x2 und h2 (x1 , x2 ) = x1 − x2 . Für die Funktion
u(y1 , y2 ) erhalten wir u1 (y1 , y2 ) = 12 (y1 +y2 ) und u2 (y1 , y2 ) = 21 (y1 −y2 ) Die Ableitung
ist dann
!
!
1
1
1
1
1
.
J(y1 , y2 ) = 21 2 1 =
2
−
1
−1
2
2
Wir haben det J(y) = − 12 . Also erhalten wir für die Dichte von (Y1 , Y2 )
fY (y1 , y2 ) = 21 f ( 12 (y1 + y2 ), 12 (y1 − y2 )) .
Integrieren wir bezüglich y2 erhalten wir, für y2 = 2z − y1 , dass Y1 = X1 + X2 die
Dichte
Z
Z
fY (y1 , y2 ) dy2 = fX (z, y1 − z) dz
hat. Dies stimmt mit der Formel aus Hilfssatz 2.26 überein.
2.7. Bedingte Verteilungen
Seien X, Y Zufallsvariablen mit der gemeinsamen Verteilung F (x, y). Wir wollen nun
das Problem betrachten, wie die Verteilung von X aussieht, falls wir Y beobachtet
haben, das heisst, wir suchen IIP[X ≤ x | Y = y]. Ist IIP[Y = y] > 0, dann können
wir die früher eingeführte Formel
IIP[X ≤ x | Y = y] =
IIP[X ≤ x, Y = y]
IIP[Y = y]
verwenden. Wir wollen nun absolutsteige Verteilungen betrachten. Das Problem ist,
dass IIP[Y = y] = 0.
Nehmen wir an, dass die Dichte von Y stetig und an der Stelle y verschieden
von Null ist, fY (y) > 0. Dann ist IIP[y − ε < Y < y + ε] > 0. Wir können also die
bedingte Verteilung
IIP[X ≤ x | y − ε < Y < y + ε] =
berechnen. Wir schreiben
R y+ε R x
f (v, w) dv dw
y−ε −∞
=
R y+ε
f
(w)
dw
Y
y−ε
1
2ε
IIP[X ≤ x, y − ε < Y < y + ε]
IIP[y − ε < Y < y + ε]
R y+ε R x
f (v, w) dv dw
y−ε −∞
R y+ε
1
f (w)
2ε y−ε Y
dw
.
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
71
Lassen wir nun ε nach 0 gehen, erhalten wir
Rx
IIP[X ≤ x | Y = y] =
−∞
f (v, y) dv
.
fY (y)
Wir sehen, die bedingte Verteilung von X gegeben {Y = y} ist absolutstetig mit
der Dichte
f (x, y)
f (x | y) =
.
fY (y)
Letztere Formel kann man für allgemeine Dichten f (x, y) beweisen. Insbesondere ist
für unabhängige X, Y , f (x | y) = fX (x). Weiter gilt die Bayes’sche Regel
f (y | x) =
f (x, y)
f (x | y)fY (y)
=
.
fX (x)
fX (x)
Die bedingte Verteilung (stetig und diskret) hat die folgenden beiden Eigenschaften:
i) Für jedes A ist die Abbildung y 7→ IIP[X ∈ A | Y = y] messbar.
ii) Für jedes A, B gilt
Z
IIP[X ∈ A | Y = y] dFY (y) .
IIP[X ∈ A, Y ∈ B] =
B
Generell kann man die bedingte Verteilung über die obigen zwei Eigenschaften definieren.
Beispiele
• Betrachten wir die zweidimensionale Normalverteilung
ξ2
n
1
1
ξX ξY
ξY2 o
X
p
,
exp −
−
2ρ
+
f (x, y) =
2
2(1 − ρ2 ) σX
σX σY
σY2
2πσX σY 1 − ρ2
wobei ξX = x − µX , ξY = y − µX , µi ∈ IR, σi > 0 (i ∈ {X, Y }) und |ρ| < 1. Für
die bedingte Verteilung erhalten wir
1√
f (x | y) =
2πσX σY
ξ2
1−ρ2
ξX ξY
1
X
exp{− 2(1−ρ
+
2 ) ( σ 2 − 2ρ σ σ
X Y
X
)}
ξ2
exp{− 12 σY2 }
Y
n
1
1
σ X 2 o
p
=
exp − 2
ξX − ρ ξY
.
2σX (1 − ρ)2
σY
σX 2π(1 − ρ2 )
σY
1
√
2
ξY
2
σY
2π
Somit ist die bedingte Verteilung von X gegeben Y normalverteilt mit Varianz
2
(1−ρ2 )σX
und Mittelwert µX +ρσX (Y −µY )/σY . Das Resultat hätte man leichter
p
erhalten können, wenn man X = µX + σX (ρV + 1 − ρ2 W ) und Y = µY + σY V
für unabhängige standardnormalverteilte V, W gesetzt hätte.
72
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
• Seien X und X̃ unabhängige exponential verteilte Zufallsvariablen mit Parameter
α und Y = X + X̃. Die gemeinsame Dichte von X und Y ist
f (x, y) = α2 exp{−αx − α(y − x)}1I0<x<y = α2 exp{−αy}1I0<x<y .
Somit haben wir für die bedingte Wahrscheinlichkeit gegeben {Y = y}
f (x | y) =
1
α2 exp{−αy}
1I0<x<y = 1I0<x<y .
2
α y exp{−αy}
y
Also ist X bedingt auf Y gleichverteilt auf [0, Y ].
• Betrachten wir ein Beispiel, wo eine diskrete Verteilung mit einer absolutstetigen Verteilung gemischt wird. Sei Λ eine Gammaverteilte Zufallsvariable mit
Parametern γ und α. Gegeben {Λ = λ} sei die bedingte Verteilung von N eine
Poisson-Verteilung mit Parameter λ. Die unbedingte Verteilung von N ist dann
Z ∞ n
λ −λ αγ γ−1 −αλ
Γ(γ + n) α γ 1 n
IIP[N = n] =
e
λ e
dλ =
.
n!
Γ(γ)
n! Γ(γ) α + 1
α+1
0
Diese Verteilung heisst negative Binomialverteilung mit Parametern γ und
p = 1/(α + 1). Haben wir nun {N = n} beobachtet, folgt für die Verteilung von
Λ
R`
(n! Γ(γ))−1 αγ λγ+n−1 e−(α+1)λ dλ
0
IIP[Λ ≤ ` | N = n] =
(n! Γ(γ))−1 Γ(γ + n)αγ (α + 1)−(γ+n)
Z `
(α + 1)γ+n γ+n−1 −(α+1)λ
=
λ
e
dλ .
Γ(γ + n)
0
Somit ist Λ bedingt auf {N = n} Gammaverteilt mit Parametern γ + n und
α + 1.
Definition 2.28. Seien X und Y Zufallsvariablen und X sei absolutstetig. Die
bedingte Erwartung von X gegeben Y ist die Zufallsvariable
Z
IIE[X | Y ] = xf (x | Y ) dx .
Man beachte, dass die rechte Seite von Y abhängt, also zufällig ist.
Wir haben die folgende Eigenschaft der bedingten Erwartung.
2. STETIGE WAHRSCHEINLICHKEITSRÄUME
73
Hilfssatz 2.29. Seien X und Y Zufallsvariablen und h(y) eine messbare reelle
Funktion, so dass die folgenden Erwartungswerte wohldefiniert sind. Dann gilt
IIE[h(Y )X] = IIE[h(Y )IIE[X | Y ]] .
Beweis.
Wir beweisen den Hilfssatz nur im absolutstetigen Fall. Dann haben wir
Z
Z
f (x, y)
dxfY (y) dy
IIE[h(Y )IIE[X | Y ]] = h(y) x
fY (y)
ZZ
=
h(y)xf (x, y) dx dy = IIE[h(Y )X] .
Wir haben nun die folgende Interpretation der bedingten Erwartung.
Proposition 2.30. Seien X, Y Zufallsvariablen, so dass IIE[X 2 ] < ∞. Für jede
messbare Funktion h(y) gilt
IIE[(X − IIE[X | Y ])2 ] ≤ IIE[(X − h(Y ))2 ] .
Beweis.
Wir können annehmen, dass IIE[(h(Y ))2 ] < ∞. Wir erhalten
IIE[(X − h(Y ))2 ] = IIE[(X − IIE[X | Y ])2 ] + IIE[(IIE[X | Y ] − h(Y ))2 ]
+ 2IIE[(IIE[X | Y ] − h(Y ))(X − IIE[X | Y ])] .
Setzen wir g(Y ) = IIE[X | Y ] − h(Y ), erhalten wir
IIE[g(Y )(X − IIE[X | Y ])] = IIE[g(Y )X] − IIE[g(Y )IIE[X | Y ]] = 0 .
Somit ist IIE[(X − h(Y ))2 ] ≥ IIE[(X − IIE[X | Y ])2 ], und Gleichheit gilt genau dann,
wenn IIP[h(Y ) = IIE[X | Y ]] = 1.
Wir können somit sagen, dass IIE[X | Y ] die beste Prognose von X ist, wenn man
Y beobachtet.
Herunterladen