C Grundlegende Bezeichnungen und Ergebnisse aus der

C Grundlegende Bezeichnungen und Ergebnisse
aus der linearen Algebra
C.1 Lineare Algebra und Topologie im Rn
Für n = 1, 2, 3, . . . definieren wir Rn = {(x1 , . . . , xn ); x1 , x2 , . . . , xn ∈ R}, den kanonischen n-dimensionalen
Vektorraum über R.
Seien x, y ∈ Rn , x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ). Dann ist das Skalarprodukt von x und y durch
hx, yi = x1 y1 + x2 y2 + · · · + xn yn =
n
X
xi yi
i=1
definiert. Die (euklidische) Länge von x ist
kxk =
p
hx, xi =
n
“X
i=1
xi2
”1/2
.
Die nachfolgenden Eigenschaften des Skalarproduktes und der Länge von Vektoren in Rn lassen sich einfach aus der Definition ableiten.
Satz C.1.1
Seien x, y, z ∈ Rn und a ∈ R.
1) hx, yi = hy, xi,
2) hx, (ay)i = h(ax), yi = ahx, yi,
3) hx, (y + z)i = hx, yi + hx, zi,
4) ||x ± y||2 = ||x||2 + ||y||2 ± 2hx, yi
5) ||x + y||2 + ||x − y||2 = 2||x||2 + 2||y||2 (Parallelogrammidentität)
6) ||x + y|| ≤ ||x|| + ||y|| (Dreiecksungleichung)
7) |hx, yi| ≤ ||x|| · ||y|| (Cauchy-Schwartz-Ungleichung)
Sind x ∈ Rn und A ⊂ Rn , so definieren wir den Abstand zwischen x und A durch dist(x, A) = infy∈A ||y − x||.
Für x ∈ Rn und ε > 0 nennen wir die Menge Uε (x) = {y ∈ Rn | kx − yk < ε } die ε -Umgebung von x. Eine
Menge A ⊂ Rn heißt offen, falls es für jedes x ∈ A ein ε > 0 gibt (abhängig von x), sodass Uε (x) ⊂ A. Das
Komplement einer offenen Menge wird abgeschlossen genannt. Man beachte, dass für eine abgeschlossene
nichtleere Menge B ⊂ Rn und ein x 6∈ B der Abstand positiv ist, d. h. dist(x, B) > 0. Denn, da x in der
offenen Menge Rn \ B liegt, gibt es ein ε > 0, so dass Uε (x) ⊂ Rn \ B. Also Uε (x) ∩ B = 0,
/ woraus folgt,
dass ||x − y|| ≥ ε > 0 für alle y ∈ B gilt.
410
C Lineare Analysis
Wir definieren eine konvergente Folge. Eine Folge (x(k) ) ⊂ Rn konvergiert gegen x ∈ Rn , falls
||x(k) − x|| → 0 für n → ∞. Liegt die Folge x(k) in der abgeschlossenen Teilmenge B und konvergiert sie
/ Dann
gegen x ∈ Rn , so folgt x ∈ B. Denn würde x 6∈ B, gelten, so gäbe es ein ε > 0 mit Uε (x) ∩ B = 0.
folgt aber, dass dist(x, {x(k) |k ∈ N}) ≥ dist(x, B) ≥ ε , was der Konvergenz der Folge gegen x widerspricht.
Aus der Definition der Norm || · || ergibt sich, dass eine Folge (x(k) ) ⊂ Rn gegen ein x ∈ Rn genau dann
konvergiert, wenn jede Komponente von x(k) gegen die entsprechende Komponente von x konvergiert, d. h.
(k)
falls x j → x j , n → ∞, für alle j = 1, 2, . . . , n. Hiermit können wir folgern, dass jede beschränkte Folge
(x(k) ) ⊂ Rn (was supk∈N ||x(k) || < ∞ bedeutet) eine konvergente Teilfolge besitzt.
Aus diesen Beobachtungen leiten wir leicht den folgenden Satz ab, der im nächsten Abschnitt für uns von
Nutzen sein wird.
Satz C.1.2
Falls B ⊂ Rn abgeschlossen ist und a ∈ Rn \ B, so gibt es ein b ∈ B, das zu a einen minimalen Abstand
besitzt, d. h.
||a − b|| = dist(a, B) > 0.
Sei nun L ⊂ Rn ein Unterraum von Rn . Das ist eine Teilmenge, für die α x + β y ∈ L gilt, falls x, y ∈ L und
α , β ∈ R. Der Orthogonalraum oder das orthogonale Komplement von L in Rn ist die Menge
L⊥ = {y ∈ Rn ; für alle x ∈ L : hx, yi = 0}.
Es ist leicht zu zeigen, dass L⊥ auch wieder ein Unterraum von Rn ist. Wird L durch die Vektoren a(1) , a(2) , . . . a(r)
aufgespannt, d. h. falls
r
X
αi a(i) ; α1 , α2 , . . . αr ∈ R}
L={
i=1
gilt, so ergibt sich
L⊥ = {y ∈ Rn ; für alle i = 1, . . . r : ha(i) , yi = 0}.
Wir betrachten eine Basis c(1) , c(2) , . . . , c(d) von L (d .h. jedes Element von L lässt sich in eindeutiger Weise
als Linearkombination der c(1) , c(2) , . . . , c(d) schreiben). Mit Hilfe des Gram-Schmidt’schen Orthonormalisierungsverfahrens kann man aus c(1) , c(2) , . . . , c(d) eine Orthonormalbasis a(1) , a(2) , . . . , a(d) von L gewinnen ( ||a(i) || = 1 und ha(i) , a( j) i = 0 falls i 6= j):
Man wähle
a(1) =
c(1)
, und
||c(1) ||
ae(2) = c(2) − a(1) hc(2) , a(1) i (Beachte he
a(2) , a(1) i = 0)
und definiere folglich a(2) =
ae(2)
||e
a(2) ||
Allgemein gilt: Wenn a(1) , a(2) , . . . , a(i) definiert sind, dann setze man
ae(i+1) = c(i+1) −
i
X
j=1
a(i) hc(i+1) , a(i) i und schließlich a(i+1) =
ae(i+1)
.
||e
a(i+1) ||
C.1 Lineare Algebra und Topologie im Rn
411
Wir können a(1) , a(2) , . . . , a(d) zu einer Basis a(1) , a(2) , . . . , a(n) von Rn erweitern, wobei man nach dem
Gram-Schmidt’schen Orthonormalisierungsverfahren annehmen kann, dass die Basis erneut orthonormal
ist.
Wir stellen fest, dass a(d+1) , a(d+2) , . . . , a(r) eine Basis von L⊥ ist. Denn, da a(1) , a(2) , . . . , a(d) eine orthonormale Basis von L darstellt, liegen a(d+1) , a(d+2) , . . . , a(r) in L⊥ . Desweiteren lässt sich jeder Vektor y in
L⊥ in der Form
y=
n
X
αi a(i)
i=1
darstellen (a(1) , a(2) , . . . , a(n) ist eine Basis of Rn ). Somit folgt, dass αi = hy, a(i) i = 0 für i = 1, . . . , d,
da y ∈ L⊥ . Also ist y tatsächlich eine Linearkombination von a(d+1) , . . . , a(n) . Hieraus ergibt sich, dass
a(d+1) , . . . a(n) eine Basis von L⊥ ist.
Mithilfe dieser Beobachtungen lässt sich folgende Satz formulieren.
Satz C.1.3
Sei L ein Unterraum von Rn . Dann gibt es für jedes x ∈ Rn eindeutig bestimmte Elemente x1 ∈ L und
x2 ∈ L⊥ , sodass x = x1 + x2 .
Ferner ist der Orthogonalraum von L⊥ wieder L, d. h. (L⊥ )⊥ = L.
Beweis
Sei a(1) , a(2) , . . . , a(n) eine Orthonormalbasis von Rn , sodass a(1) , a(2) , . . . , a(d) eine Basis von L und
a(d+1) , a(d+2) , . . . , a(n) eine Basis von L⊥ sind. Wie wir eben gezeigt haben, gibt es eine solche Basis. Somit
lässt sich jedes Element x ∈ Rn in einer Linearkombination
x=
n
X
i=1
αi a(i) , mit α1 , . . . αn ∈ R
(1)
darstellen.
P
P
Also folgt x1 = di=1 αi a(i) ∈ L, x2 = ni=d+1 αi a(i) ∈ L⊥ , und x = x1 + x2 . Diese Darstellung ist eindeutig,
da die Darstellung von x in (1) eindeutig ist. Da wir a(d+1) , a(2) , . . . , a(n) als Basis von L⊥ angenommen
haben, erhalten wir durch unsere obige Beobachtung, dass a(1) , a(2) , . . . , a(d) eine Basis von (L⊥ )⊥ sein
muss. Somit gilt (L⊥ )⊥ = L.
¤
Sei nun a(1) , a(2) , . . . , a(r) ∈ Rn eine endliche Folge, die L aufspannt. Wir definieren A als die n × r-Matrix,
deren Spalten aus a(1) , a(2) , . . . , a(r) bestehen. Dann ist L das Bild von A (wir schreiben R(A)), d. h.
L={
r
X
i=1
xi a(i) ; x1 , x2 , . . . xr ∈ R} = {A ◦ x; x ∈ Rr }.
Die Transponierte AT von A ist die r × n-Matrix, deren i-te Zeile die i-te Spalte von A ist. Wir erkennen,
dass L⊥ Kern (oder Nullraum) von AT ist, den wir mit N (AT ) bezeichnen. Anders ausgedrückt
L⊥ = {x ∈ Rn ; für alle i = 1, . . . r : ha(i) , xi = 0} = {x|AT ◦ x = 0} = N (AT ).
412
C Lineare Analysis
Aus diesen Betrachtungen und mit C.1.3 lässt sich folgendes Prinzip ableiten, das manchmal als Hauptsatz
der linearen Algebra bezeichnet wird.
Satz C.1.4
Sei A eine n × m-Matrix. Dann ist N (AT ) der Orthogonalraum von R(A).
C.2 Der Satz von Farkas und einige Folgerungen
413
C.2 Der Satz von Farkas und einige Folgerungen
In diesem Abschnitt wollen wir die Ergebnisse formulieren, die notwendig sind, um die Existenz des Zustandspreisvektors im arbitragefreien Arrow-Debreu-Modell zu zeigen (vgl. Abschnitt 2.1). Diese Resultate
entstammen der Theorie der linearen Programmierung. Wir versuchen hier weder, eine Einführung in dieses
Gebiet zu geben, noch wollen wir ihre Relevanz und Gebrauch in den Wirtschaftswissenschaften darlegen.
Der Leser mag the umfangreiche Literatur dazu bemühen. Um unsere Darstellung so geschlossen wie möglich zu halten, wollen wir nur ein wichtiges Ergebnis vorstellen, den Satz von Farkas, und einige, für uns
wichtige, Folgerungen ableiten. Die folgende Version des Satzes von Farkas stammt von Tucker.
Satz C.2.1 (Tucker’s Version des Satzes von Farkas)
Seien A eine n × m Matrix und b ∈ Rm . Dann gilt eine der folgenden Aussagen.
1) Es gibt ein x ∈ Rn+ , so dass AT ◦ x = b.
2) Es gibt ein y ∈ Rm , so dass A ◦ y ∈ Rn+ und hb, yi < 0.
Beweis
Zuerst zeigen wir, dass sich die Aussagen gegenseitig ausschließen. Dazu nehmen wir an, ein x ∈ Rn+ erfülle
(1) und ein y ∈ Rm genüge (2). Dann schließen wir einerseits, dass hy, (AT ◦ x)i = h(A ◦ y), xi ≥ 0, da x und
A ◦ y beide keine negative Komponenten haben. Andererseits ergibt sich, dass hy, (AT ◦ x)i = hy, bi < 0, und
wir erhalten einen Widerspruch.
Als nächstes nehmen wir an, dass (1) nicht erfüllt ist. Wir müssen (2) nachweisen. Dazu sei C = {AT ◦ z; z ∈
Rn+ }. Man beachte, dass C ein Kegel in Rm ist, d. h. dass C bezüglich Addition und Multiplikation mit
nichtnegativen Skalaren abgeschlossen ist. Wir können uns C als die Menge aller nichtnegativen Kombinationen von Zeilenvektoren von A vorstellen, die wir mit A(1,·) , A(2,·) , . . . , A(n,·) bezeichnen. Da (1) nicht gilt,
folgern wir, dass b 6∈ C, und da C eine abgeschlossene Menge ist, ergibt sich dist(b,C) > 0. Nach Satz C.1.2
wählen wir nun ein y(0) ∈ C, das einen minimalen Abstand zu b hat. Wir wollen zeigen, dass y = y(0) − b
der Bedingung (2) genügt.
Dazu behaupten wir zuerst, dass aus z ∈ C auch hz, yi ≥ 0 folgt. Denn für ε > 0 erhält man y(0) + ε z ∈ C
und somit
||y(0) − b||2 ≤ ||y(0) + ε z − b||2 (denn ||y(0) − b|| = dist(b,C)).
Nach Kürzen folgt
0 ≤ 2ε h(y(0) − b), zi + ε 2 ||z||2 .
Falls h(y(0) − b), zi < 0, so könnte man ein ε > 0 klein genug wählen, sodass diese Ungleichung sich
umdreht, und wir einen Widerspruch erhalten würden.
Da die Zeilen von A in C liegen, können wir zuerst folgern, dass hA(i,·) , yi ≥ 0, was zeigt, dass alle Einträge
von A ◦ y nichtnegativ sind.
Um die zweite Bedingung (2) nachzuweisen, bemerken wir, dass wir bei dem Beweis der obigen Behauptung in der Tat benutzt haben, dass y(0) + ε z ∈ C. Nun ergibt sich für 0 < ε < 1, dass sowohl y(0) + ε y(0) als
auch y(0) − ε y(0) in C liegen. Wir folgern damit aus dem Beweis zur obigen Behauptung, dass hy(0) , yi = 0
und somit, dass hy, bi = hy, (b − y(0) )i = −||y||2 = −dist2 (b,C) < 0. Dies besagt aber die zweite Bedingung
in (2).
¤
414
C Lineare Analysis
Aus dem Satz von Farkas ergeben sich einige Folgerungen.
Korollar C.2.2
Sei A eine n × m Matrix. Dann gilt genau eine der folgenden Aussagen.
1) Es gibt ein x ∈ Rn+ \ {0} mit AT ◦ x = 0.
2) Es gibt ein y ∈ Rm mit A ◦ y ∈ Rn++ .
Beweis
Die beiden Aussagen schließen sich gegenseitig aus. Denn sollte x Bedingung 1) und y Bedingung 2)
erfüllen, so schließen wir aus 1), dass hy, (AT ◦ x)i = 0. Aber nach 2) gilt, dass hy, (AT ◦ x)i = h(A ◦ y), xi > 0,
da die Komponenten von (A ◦ y) alle streng positiv, die Koordinaten von x alle nichtnegativ sind und x
zumindest eine strikt positiven Komponente besitzt.
Weiter definieren wir
0
1
B1
B
e = B.
A
B.
@.
1
also
0
A(1,1)
A(2,1)
..
.
A(n,1)
1
A(n,2)
1
BA
B (1,1)
B
f
T
A = B ..
B .
@
A(1,m)
Man setze noch
A(1,2)
A(2,2)
A(2,1)
..
.
...
...
..
.
A(2,m)
1
0
A(1,m)
1
A(2,m) C
C B.
C = B.
C @.
A
1
A(n,m)
...
...
..
.
...
1
1
0
A(n,m) C
C B
B
.. C
C=B
@
. C
A
1
1
AT
A(n,m)
A
1
...
1
C
C
A
1
C
C
C.
A
0 1
1
B0C
B C
e
C
b=B
B .. C .
@.A
0
eT ◦ x = e
Gilt 1) in Korollar C.2.2 nicht, dann gibt es kein x ∈ Rn+ mit A
b. Wegen Satz C.2.1 muss es ein
e ◦ ye ∈ Rn gelten. Also
ye ∈ Rm+1 geben, sodass he
b, yei = ye1 < 0 und A
+
0 1
0
1
B1C
B
B C
B
C
B
e
A ◦ ye = ye1 B . C + A ◦ B
B
.
@.A
@
1
ye2
ye3
..
.
yem+1
1
C
C
C ∈ Rn+ .
C
A
Setzt man nun y = (e
y2 , ye3 , . . . , yem+1 ), so folgt für jedes i = 1, . . . n,
e ◦ ye− ye1 ≥ −e
hA(i,·) , yi = A
y1 > 0.
Daraus erhält man 2) in C.2.2, und der Beweis ist beendet .
¤
C.2 Der Satz von Farkas und einige Folgerungen
415
Nun betrachten wir einen Unterraum L ⊂ Rn , der von den Vektoren a(1) , a(2) , . . . a(m) aufgespannt wird und
eine n × m Matrix A, deren Spalten durch diese Vektoren gebildet wird. In C.1 hatten wir festgestellt, dass
L das Bild von A und L⊥ der Kern von AT sind. Deshalb kann man Korollar C.2.2 in folgender Weise
formulieren.
Korollar C.2.3
Ist L ⊂ Rn ein Unterraum von Rn , und ist L⊥ sein Orthogonalraum, dann gilt genau eine der folgenden
Aussagen
1) L⊥ ∩ Rn+ enthält einen von Null verschiedenen Vektor.
2) L enthält einen Vektor, dessen Komponenten strikt positiv sind.
Die Rollen von L und L⊥ in Korollar C.2.3 können vertauscht werden. Falls A eine n × m Matrix ist, so
können wir L = N (AT ) und L⊥ = R(A) setzen. Korollar C.2.3 lässt sich dann zu einer Aussage über A
formulieren.
Korollar C.2.4
Sei A eine n × m Matrix. Dann gilt genau eine der folgenden Aussagen.
1) Es gibt ein x ∈ Rn++ mit AT ◦ x = 0.
2) Es gibt ein y ∈ Rm mit A ◦ y ∈ Rn+ \ {0}.
D Grundlegende Begriffe der
Wahrscheinlichkeitstheorie, bedingte Erwartung
In diesem Abschnitt wollen wir die grundlegenden Begriffe aus der Wahrscheinlichkeitstheorie wiederholen. Insbesondere wollen wir das Konzept der bedingten Erwartung vorstellen. Dieser Begriff ermöglicht
es, Fragen der folgenden Form in einem theoretischen Rahmen zu formulieren und zu lösen.
– Nehmen wir an der DAX stand am 17. April 2009 bei 6000. Welcher Wert ist am 18. April zu
erwarten?
– Angenommen die europäische Zentralbank erhöht ihren Leitzins um 0,5%. Welche Veränderung ist
bei der VW-Aktie zu erwarten ?
Wir werden folgendermaßen vorgehen: Zuerst diskutieren wir die Theorie, indem wir ein einzelnes einfaches Beispiel (Abschnitt D.1) zugrundelegen und das log-binomiale Modell (aus Abschnitt 2.3 und 2.4)
genauer untersuchen. In der Betrachtung dieses Modells führen wir die Konzepte “Messbarkeit”, “Erwartungswert” und “bedingte Erwartung” ein. Dann werden wir den allgemeineren Fall (Abschnitte D.2 und
D.3). untersuchen. Diese zwei Abschnitte sollten auf keinen Fall als Darstellung oder gar Einführung in die
Wahrscheinlichkeitstheorie angesehen werden. Es werden bloß die für uns notwendigen Begriffe und Sätze
wiederholt. Für den Leser, der sich im Moment nur für die diskrete Theorie interessiert, wie sie in Kapitel
2 behandelt wurde, bietet D.1 ausreichendes Wissen für das Verständnis des diskreten Wahrscheinlichkeitsraumes, der dem Kapitel 2 zugrunde liegt.
D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess
417
D.1 Ein Beispiel: Der binomiale und der log-binomiale
Prozess
Wie in Abschnitt 2.3 betrachten wir eine Aktie, deren Wert sich nach jedem Handelszeitpunkt entweder um
den Faktor U oder D verändert, wobei 0 < D < U gilt. Wir betrachten n solcher Bewegungen und nehmen
an, dass der i-te Preissprung unabhängig von den vorhergehenden ist. Dieses Konzept werden wir später
genauer festlegen. Gleichzeitig können wir die Aktienbewegung auch durch das n− malige Werfen einer
Münze simulieren. Jedesmal wenn “Kopf” erscheint, multiplizieren wir den Aktienpreis mit U, falls “Zahl”
erscheint wird mit D multipliziert.
Die Menge der möglichen Ergebnisse ist
¯
˘
Ω = {K, Z}n = ω = (ω1 , ω2 , . . . ωn ); ωi ∈ {K, Z} für i = 1, 2, . . . n .
Wir wollen die Wahrscheinlichkeit mit der “Kopf” erscheint mit p bezeichnen (sie muss nicht unbedingt
1
2 betragen). Konsequenterweise ergibt sich für die Wahrscheinlichkeit mit der “Zahl” auftritt der Wert
q = 1 − p. Für ein ω = (ω1 , . . . , ωn ) ∈ Ω ist die Wahrscheinlichkeit, dass ω eintritt, durch
P({ω }) = p# von Kopf in ω · q# von Zahl in ω
(1)
gegeben. Zum Beispiel:
P({K, K, . . . K , Z, , Z, , . . . , Z }) = pk qn−k .
{z
}
| {z } |
k-mal
n−k-mal
Für jedes Ereignis - also jede Teilmenge A ⊂ Ω - setzen wir
X
P(A) =
P({ω }).
ω ∈A
Dann ist P eine Abbildung auf der Menge aller Ereignisse A, die die folgenden Eigenschaften besitzt (Axiome von Kolmogorov)
1) Für jedes Ereignis A gilt: 0 ≤ P(A) ≤ 1,
2) P(0)
/ = 0, und P(Ω) = 1,
3) sind A1 , A2 , A3 , . . . paarweise disjunkt (d. h. Ai ∩ A j = 0,
/ falls i 6= j), so folgt
P
∞
“[
k=1
∞
” X
Ak =
P(Ak ).
k=1
Bemerkung D.1.1
In (1) haben wir stillschweigend angenommen, dass das Werfen der Münzen unabhängig ist. Dies bedeutet
das Folgende. Für i = 1, . . . n und ωi ∈ {K, Z} sei Ei (ωi ) das Ereignis, dass beim i-ten Werfen der Münze,
ωi auftritt. Zum Beispiel wenn n = 3, i = 2, und ωi = K, so folgt E2 (K) = {KKK, ZKK, KKZ, ZKZ}.
T
Es gilt {ω } = ni=1 Ei (ωi ), und P(Ei (ωi )) ist entweder p (falls ωi = K) oder q (falls ωi = Z). Unabhängigkeit der Würfe bedeutet nun, dass die Wahrscheinlichkeit der Durchschnitte der Ei (ωi ))’s gleich dem
418
D Wahrscheinlichkeitstheorie
Produkt ihrer Wahrscheinlichkeiten ist, d. h.
P({ω }) = P(
n
\
Ei (ωi )) =
i=1
n
Y
P(Ei (ωi )).
(2)
i=1
Allgemein folgt, falls 1 ≤ i1 < i2 < . . . < ir ≤ n
P(
r
\
j=1
Ei j (ωi j )) =
r
Y
P(Ei j (ωi j )).
(3)
j=1
Wir betrachten nun die Aktienpreise zu den Zeitpunkten 0, 1 . . . , n als Zufallsvariablen auf Ω. In unserem
Fall ist eine Zufallsvariable eine Abbildung X : Ω → R. Wir setzen für i = 0, 1, 2 . . . n und ω ∈ Ω
8
<1 , falls ω = K
i
εi = εi (ω ) =
(4)
:0 , falls ω = Z
i
bzw.
Ki = Ki (ω ) =
i
X
ε j (Anzahl von Kopf bis zur Zeit i)
(5)
j=1
Zi = Zi (ω ) =
i
X
j=1
1 − ε j = i − Ki (Anzahl von Zahl bis zur Zeit i)
(K0 = T0 = 0). Man beachte, dass man mit diesen Bezeichnungen
P({ω }) = pKn (ω ) qZn (ω ) , für ω ∈ Ω
(6)
schreiben kann. Schließlich legen wir noch die Aktienpreise zu den Zeitpunkten i = 0, 1, . . . n durch die
Gleichung
Si = S0U Ki DZi .
(7)
fest. Für i = 1, . . . , n genügt Si folgender rekursiven Formel
Si = Si−1U εi D1−εi .
Der Erwartungswert einer Zufallsvariablen X : Ω → R wird definiert durch
X
X
X(ω )P({ω }) =
X(ω )pKn (ω ) qZn (ω ) .
EP (X) =
ω ∈Ω
(8)
(9)
ω ∈Ω
Satz D.1.2
Die Bildung des Erwartungswertes ist ein linearer Operator, d. h. sind X und Y Zufallsvariablen auf Ω und
α , β ∈ R, so folgt
EP (α X + β Y ) = α EP (X) + β EP (Y )
(10)
D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess
419
Ist A ⊂ Ω ein Ereignis, so bezeichnen wir mit 1A : Ω → R die charakteristische Funktion von A, d. h. eine
Funktion, die jedem ω ∈ Ω den Wert 1 zuordnet, falls ω ∈ A, und die jedem ω ∈ Ω \ A den Wert 0 zuweist.
Also ergibt sich EP (1A ) = P(A).
Betrachten wir eine Zufallsvariable X auf Ω mit Werten x1 , x2 , . . . xr , und setzen wir Ai = X −1 ({xi }) = {ω ∈
P
Ω; X(ω ) = xi }, so können wir X als Summe X = ri=1 xi 1Ai schreiben und erhalten
EP (X) =
r
X
(11)
xi P(Ai ).
i=1
Für i = 0, 1, . . . n kann Si die Werte S0U j Di− j annehmen, wobei j = 0, 1, . . . , i (der Aktienpreis bewegt sich
j-mal um U und i − j-mal um den Faktor D). Daher berechnet sich der Erwartungswert von Si durch
EP (Si ) = S0
i
X
P(Si = S0U j Di− j )U j Di− j
(12)
j=0
= S0
i
X
P(Ki = j)U j Di− j = S0
i „ «
X
i
U j Di− j ,
j
(13)
j=0
j=0
„ «
i!
i
(0! = 1). In der letzten Gleichung (12) haben wir folgendes kombinatorische
=
wobei
j!(i − j)!
j
Prinzip benutzt:
Satz D.1.3
`´
Man kann ij Wörter aus j K’s und (i − j) Z’s bilden.
Definition D.1.4
Wir nennen eine endliche Folge von Zufallsvariablen X0 , X1 , . . . Xn auf Ω einen Binomialprozess der Länge
n, mit Ausgangspunkt X0 , Schrittweite u und d, und Eintrittswahrscheinlichkeit p, falls X0 konstant ist und
Xi = X0 +
i
X
j=1
ε ju +
i
X
(1 − ε j )d = X0 + Ki u + Zi d,
j=1
wobei ε j , K j und Z j wie in (4) und (5) definiert sind. In diesem Fall nennen wir Yi = eXi , i = 0, 1 . . . n den
zugehörigen log–binomialen Prozess.
Bemerkung D.1.5
Man beachte, dass S0 , S1 , . . . , Sn ein log–binomialer Prozess ist, und (log Si ) ein Binomialprozess mit Ausgangspunkt log S0 , Schrittweiten u = logU, und d = log D, und Eintrittswahrscheinlichkeit p.
Wir betrachten nun eine Zufallsvariable X : Ω → R (z. B. X = Sn ) und als Zeitpunkt i, i ∈ {1, 2, . . . n}. Zu
diesem Zeitpunkt kennen wir bereits die Ergebnisse der ersten i Würfe, die wir mit ν1 , ν2 , . . . , νi ∈ {K, Z}
bezeichnen. Falls der Wert X(ω ) nur von den ersten i Ergebnissen abhängt (z. B. wenn X = Si ), so ist X
realisiert, was bedeutet, dass zum Zeitpunkt i die Werte von X festgelegt sind. Sonst werden wir uns fragen,
wie der Erwartungswert X unter der Bedingung lautet, dass die ersten i Ereignisse ν1 , ν2 , . . . , νi waren.
In unserem einfachen Fall können wir die Antwort leicht geben, und eine komplizierte Theorie wird dafür
420
D Wahrscheinlichkeitstheorie
nicht nötig sein. Denn wir müssen nur unsere Zufallsvariablen und zugrundeliegende Wahrscheinlichkeitsraum ändern. Unsere neue zulässige Ereignismenge ist
e (i) = {(ω1 , ω2 , . . . , ωn−i ); ω j ∈ {K, Z} für j = 1, . . . n − i},
Ω
der neue Wahrscheinlichkeitsraum wird durch
e(i) ({ω̃ }) = p# Kopf in ω̃ · q# Zahl in ω̃ , für ω̃ ∈ Ω
e (i)
P
gegeben, und als neue Zufallsvariablen betrachten wir
e (i) → R,
X(ν1 ,...νi ) : Ω
(ω̃1 , . . . , ω̃n−i ) 7→ X(ν1 , . . . , νi , ω̃1 , . . . ω̃n−i ).
Den bedingten Erwartungswert von X, unter der Bedingung, dass die ersten i Ereignisse durch ν1 , . . . , νi
gegeben sind, sollte man als
(14)
EeP(i) (X(ν1 ,...νi ) )
definieren. Wir bezeichnen diesen Wert für den Augenblick mit EP (X|ν1 , . . . νi ) und bemerken, dass er als
Abbildung auf der Menge aller i-Tupel ν ∈ {K, Z}i betrachtet werden kann.
e (i) bezeichnen wir mit K(
e ω̃ ) und Z(
e ω̃ ) die Anzahl der “Köpfe” beziehungsweise “Zahlen” in ω̃ .
Für ω̃ ∈ Ω
Daraus leiten wir wie in (9)
X
e(i) ({ω̃ })
e1 , . . . , ω
en−i )P
(15)
EP (X|ν1 , . . . νi ) =
X(ν1 , . . . νi , ω
e∈Ω
ω
=
X
e∈Ω
ω
e
e
e1 , . . . , ω
en−i )pK(ω̃ ) qZ(ω̃ )
X(ν1 , . . . νi , ω
ab. Ist X = Sn , so berechnet sich die bedingte Erwartung einfach, denn wir können
Sn = S0U Kn DZn =
S U Ki DZi
| 0 {z }
Kn −Ki Zn −Zi
· U
{zD
}
|
= SiU Kn −Ki DZn −Zi
hängt von ω1 ...ωi ab hängt von ωi+1 ...ωn ab
schreiben. Deshalb führen dieselben Rechnungen wie in (12) zu
EP (Sn |ν1 , . . . νi ) = Si
«
n−i „
X
n−i
U j Dn−i− j p j qn−i− j
j
j=0
(ersetze S0 durch Si und n durch n − i).
Wir wollen jetzt die mehr theoretische Seite entwickeln. Seien i = 0, 1, . . . , n und Fi enthalte “alle Ereignisse, von denen wir wissen, ob sie zum Zeitpunkt i eingetreten sind”. Dies lässt sich genauer formulieren.
Für ν1 , . . . νi ∈ {K, Z} sei
e (i) = {ω̃ ∈ Ω; ω̃1 = ν1 , . . . , ω̃i = νi } =
A(ν1 , . . . νi ) = {(ν1 , . . . νi )} × Ω
i
\
j=1
E j (ν j ),
D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess
421
d. h. A(ν ) ist die Menge aller möglichen Fortsetzungen von ν ∈ {K, Z}i zu einem Element von Ω. Man
erhält P(A(ν )) = pKi (ν ) qZi (ν ) . Man beachte, dass wir zur Zeit i wissen, ob A(ν ) eingetreten ist.
Formal stellt Ki eine Abbildung auf {K, Z}n dar, aber da Ki (ω ) nur von den ersten i Einträgen abhängt, ist
die Schreibweise Ki (ν ) für ν ∈ {K, Z}i wohldefiniert. Zum anderen ergibt sich für ω = (ω1 , . . . ωn ), dass
ei (ωi+1 , . . . ωn ). Aus (15) wissen wir, dass für ν ∈ {K, Z}i
Kn (ω ) = Ki (ω1 , . . . ωi ) + K
EP (X|ν1 , . . . νi ) =
X
e∈Ω
ω
e
= p−Ki (ν ) q−Zi (ν )
−Ki (ν ) −Zi (ν )
=p
=
e
e1 , . . . , ω
en−i )pK(ω̃ ) qZ(ω̃ )
X(ν1 , . . . νi , ω
q
EP (1A(ν ) X)
P(A(ν ))
X
e∈Ω
ω
(16)
e1 , . . . , ω
en−i )pK(ν ,ω̃ ) qZ(ν ,ω̃ )
X(ν1 , . . . νi , ω
X
ω ∈A(ν )
X(ω )P({ω })
.
Wir definieren Fi als die Menge aller Ereignisse, die aus 0,
/ Ω, und allen möglichen Vereinigungen der
Form A(ν1 , . . . νi ) bestehen. Man beachte, dass (A(ν ))ν ∈{K,Z}i eine Partition von Ω darstellt, was bedeutet,
dass diese Mengen paarweise disjunkt sind und deren Vereinigung mit Ω übereinstimmt. Deshalb gibt es
für jedes A ∈ Fi eine eindeutige Teilmenge I ⊂ {K, Z}i , so dass
“
”
[
[
mit der Festlegung
A(ν )
A=
A(ν ) = 0/ .
ν ∈0/
ν ∈I
Gleichzeitig ist jede Menge, die eine solche Darstellung besitzt, Element von Fi .
Als Beispiel seien F0 = {0,
/ Ω} (schon bevor eine Münze geworfen wird, wissen wir, dass Ω eintritt und 0/
nicht) und F1 = {0,
/ Ω, A(K), A(Z)} eingeführt.
Für i = 0, 1 . . . , n stellt die Menge aller Ereignisse Fi eine σ -Algebra dar. Das bedeutet:
Definition D.1.6
Eine σ -Algebra auf Ω ist eine Menge F , die aus Teilmengen von Ω besteht und folgende 3 Eigenschaften
besitzt:
1) 0/ und Ω gehören zu F ,
2) ist A ∈ F , so ist auch Ac = Ω \ A ∈ F , und
3) für eine Folge A1 , A2 , . . . ∈ F (abzählbar viele) folgt
S∞
i=1 Ai
= A1 ∪ A2 ∪ . . . ∈ F .
Eine Zufallsvariable X : Ω → R nennen wir F -messbar, falls
X −1 (] − ∞, a]) = {ω ∈ Ω; X(ω ) ≤ a} ∈ F
für alle a ∈ R.
In unserem einfachen Beispiel können wir die Fi -Messbarkeit wie folgt beschreiben.
Satz D.1.7
Seien X : Ω → R eine Zufallsvariable und i = 0, 1, . . . n. Dann sind die folgenden Aussagen äquivalent:
422
D Wahrscheinlichkeitstheorie
1) X ist Fi -messbar,
2) X ist auf den Mengen A(ν1 ,...νi ) für ν1 , . . . , νi ∈ {K, Z} konstant, d. h. X lässt sich als Summe
X=
X
xν 1A(ν )
ν ∈{K,Z}i
schreiben, wobei xν ∈ R für ν ∈ {K, Z}i .
Bemerkung D.1.8
Satz D.1.7 besagt insbesondere, dass eine Zufallsvariable X : Ω → R genau dann Fi -messbar ist, wenn der
Wert X(ω ) nur von den ersten i Koordinaten von ω abhängt. Deshalb werden wir oft X(ω1 , . . . , ωi ) statt
X(ω1 , . . . , ωn ) schreiben.
Beweis von D.1.7
Seien X : Ω → R und x1 < x2 < . . . xr die möglichen Werte von X der Größe nach geordnet.
Falls X Fi -messbar ist, finden wir Mengen I1 ⊂ I2 ⊂ . . . Ir = {K, Z}i , sodass
[
X −1 (] − ∞, x j ]) =
A(ν ), für j = 1, . . . i.
ν ∈I j
Dies bedeutet
X −1 ({x j }) =
[
A(ν ), für j = 1, . . . i,
(I0 = 0),
/
ν ∈I j \I j−1
was beweist, dass X auf den Mengen A(ν ), ν ∈ {K, Z}i konstant ist.
Falls umgekehrt X auf den Mengen A(ν ), ν ∈ {K, Z}i konstant ist, können wir X als Summe
X
X=
xν 1A(ν ) , für gewisse xν ∈ R, ν ∈ {K, Z}i
ν ∈{K,Z}i
schreiben. Somit erhalten wir für a ∈ R,
X −1 (] − ∞, a]) =
[
A(ν )
ν ∈{H,T }i
mit xν ≤a
was die Fi -Messbarkeit von X nachweist.
¤
Folgende Beobachtung lässt sich leicht aus Satz D.1.7 ableiten.
Satz D.1.9
Für Fi -messbare Zufallsvariablen X,Y : Ω → R und alle α , β ∈ R, sind auch α X + β Y und XY Fi - messbar
(i = 0, 1, . . . n).
Man beachte, dass Si Fi -messbar ist, da Si (ω ) nur von ω1 , . . . ωi abhängt. Wir definieren nun für eine
Zufallsvariable X den bedingten Erwartungswert bezüglich Fi als eine Abbildung auf Ω (Bezeichnung:
EP (X|Fi )) durch:
EP (X|Fi ) : Ω → R,
ω 7→ EP (X|ω1 , ω2 , ....ωi ) (vgl. (14)).
D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess
423
Wenn wir (16) benützen, so können wir
EP (X|Fi ) =
X
ν ∈{K,Z}i
EP (1Aν X)
1
P(A(ν )) A(ν )
(17)
schreiben. Für ein ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω bedeutet dies
EP (X|Fi )(ω ) = EP (X|Fi )(ω1 , . . . , ωi ) =
EP (1A(ω1 ,...,ωi ) X)
P(A(ω1 , . . . , ωi ))
.
(18)
Wir vermerken, dass der bedingte Erwartungswert einer Zufallsvariablen X auf Ω Fi -messbar ist. Tatsächlich lässt sich noch mehr sagen. Die folgende Satz charakterisiert den bedingten Erwartungswert und führt
zur allgemeinen Definition dieses Konzeptes in Abschnitt D.3.
Satz D.1.10
Seien X eine Zufallsvariable auf Ω und i = 0, 1, . . . n. Dann ist EP (X|Fi ) die eindeutig bestimmte Zufallsvariable Y auf Ω mit den folgenden Eigenschaften.
1) Y ist Fi -messbar, und
2) für jedes A ∈ Fi folgt
EP (1A X) = EP (1AY ).
Beweis:
S
Aus Satz D.1.7 und (17) erhalten wir, dass EP (X|Fi ) Fi -messbar ist. Wir folgern für A = ν ∈I A(ν ) ∈ Fi ,
i
I ⊂ {K, Z} , dass
1
0
X EP (1A X)
`
´
ν
A
1
EP 1A EP (X|Fi ) =EP @1A
P(A(ν )) A(ν )
i
ν ∈{K,Z}
!
X EP (1A X)
ν
1A(ν )
=EP
P(A(ν ))
ν ∈I
X
=
EP (X1A(ν ) )
ν ∈I
=EP (X1A ),
was (2) liefert.
Sind Y und Ỹ Zufallsvariablen, die (1) und (2) erfüllen, und ist ν ∈ {K, Z}i , so sind sie nach (1) konstant
auf A(ν ). Angenommen sie nehmen auf der Menge die entsprechenden Werte yν bzw ỹν an. Dann folgt
yν P(A(ν )) = EP (Y 1Aν ) = EP (X1Aν ) (gemäß (2))
= EP (Ỹ 1Aν ) (gemäß (2))
= ỹν P(A(ν )).
Also yν = ỹν und somit Y = X, was die Eindeutigkeit einer Zufallsvariablen nachweist, die (1) und (2)
erfüllt.
¤
424
D Wahrscheinlichkeitstheorie
Wir stellen einige einfach nachzuweisende Eigenschaften des bedingten Erwartungswertes zusammen.
Satz D.1.11
Seien X,Y : Ω → R, α , β ∈ R und i, j = 0, 1, . . . n.
1) Die Abbildung EP (·|Fi ) ist linear, d. h.
EP (α X + β Y |Fi ) = α EP (X|Fi ) + β EP (Y |Fi ).
2) Ist Y Fi -messbar, so folgt
EP (Y X|Fi ) = Y EP (X|Fi ).
3) (Turmeigenschaft) Sei i < j. Dann
EP (X|Fi ) = EP (EP (X|F j )|Fi ).
Beweisskizze
Wir müssen zeigen, dass die linken Seiten jeweils (1) und (2) in Satz D.1.10 erfüllen. Doch dies kann man
einfach nachweisen.
¤
Schließlich wollen wir noch den Begriff der unabhängigen Zufallsvariablen fortführen.
Definition 4.1.12
Die Zufallsvariablen X1 , X2 , . . . , Xr heißen unabhängig, wenn für jede Auswahl von a1 ≤ b1 , a2 ≤ b2 ,...,
ar ≤ br
r
\r
Y
P(
{X j ∈ [a j , b j ]}) =
P({X j ∈ [a, , b1 ]})
(19)
j=1
j=1
folgt. Sind F eine σ -Algebra bestehend aus Teilmengen von Ω und X eine Zufallsvariable, so sagen wir,
dass X von F unabhängig ist, falls X und 1A für jedes A ∈ F unabhängig sind, d. h. falls P({a ≤ X ≤
b} ∩ A) = P({a ≤ X ≤ b})P(A) aus a ≤ b folgt.
P
Pℓ
Seien X und Y unabhängig, wobei wir X und Y als Summen X = m
i=1 1Ai xi und Y =
i=1 1Bi yi schreiben.
Dabei sind x1 < x2 < . . . , xk und y1 < y2 < . . . < yℓ die entsprechenden möglichen Werte von X bzw. Y und
Ai = {ω ; X(ω ) = xi } und Bi = {ω ;Y (ω ) = yi }. Dann folgern wir
EP (XY ) = EP =
k X
ℓ
X
xi y j P(Ai B j ) =
i=1 j=1
k X
ℓ
X
xi y j P(Ai )P(B j )
i=1 j=1
[P(Ai ∩ B j ) = P({X ∈ [x j , x j ]} ∩ {Y ∈ [y j , y j ])}) und man beachte (19)]
=
k
X
i=1
xi P(Ai )
ℓ
X
y j P(B j ) = EP (X)EP (Y ).
j=1
Allgemein lässt sich folgende Satz beweisen.
Satz D.1.13
Seien X1 , X2 , . . . Xr unabhängige Zufallsvariablen auf Ω. Dann gilt
r
r
Y
Y
EP ( Xi ) =
EP (Xi ).
i=1
i=1
D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess
425
Satz D.1.14
Ist X eine Zufallsvariable, die von Fi unabhängig ist, so folgt
EP (X|Fi ) = EP (X).
Beweisskizze
Wir müssen zeigen, dass die konstante Zufallsvariable Y = EP (X) die Eigenschaften (1) und (2) aus Satz D.1.10
erfüllt. (1) ist klar und (2) folgt sofort aus der Definition der Unabhängigkeit.
¤
Satz D.1.14 lässt sich folgendermaßen interpretieren. Ist eine Zufallsvariable X von Fi unabhängig, dann
gibt uns die Kenntnis davon, ob ein Ereignis A ∈ Fi eingetreten ist, keine weitere Information für den zu
erwartenden Wert von X.
426
D Wahrscheinlichkeitstheorie
D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie
Wir nehmen an, Ω sei die Menge aller möglichen Ergebnisse eines Zufallsexperiments. Eine Wahrscheinlichkeit ist eine Abbildung, die “bestimmten” Teilmengen A von Ω einen Wert zwischen 0 und 1 zu ordnet,
was wir die Wahrscheinlichkeit von A nennen und mit P(A) bezeichnen. Wahrscheinlichkeiten werden auf
“σ -Algebren von Ω” definiert.
Definition D.2.1
Eine σ -Algebra auf Ω ist ein Mengensystem F , das aus Teilmengen von Ω mit folgenden Eigenschaften
besteht:
a) Für die leere Menge 0/ gilt : 0/ ∈ F
b) Ist A ∈ F , so auch Ω\A ∈ F (Ω\A = {x ∈ Ω; x ∈
/ A}, das Komplement von A).
S∞
c) Sind An ∈ F , n ∈ N, so gilt i=1 Ai = {x ∈ Ω; es gibt i ∈ N : x ∈ Ai } ∈ F .
Falls F eine σ -Algebra auf Ω ist, so nennen wir das Paar (Ω, F ) einen messbaren Raum .
Beispiel D.2.2
Die folgende Mengensystem F mit Teilmengen von Ω sind σ -Algebren.
a) F = {0,
/ Ω},
b) für A $ Ω setze F = {0,
/ A, Ω\A, Ω},
c) F = Menge aller Teilmengen von Ω (Potenzmenge von Ω).
.
Oft werden σ -Algebren “von vorgegebenen Teilmengen von Ω erzeugt”.
Satz D.2.3
Sei E eine Teilmenge von Ω. Dann ist der Durchschnitt aller σ -Algebren von Ω, die E enthalten, d. h.
\˘
¯
F ; F ist σ -Algebra und E ⊂ F ,
wieder eine σ -Algebra. Sie wird die von E erzeugte σ -Algebra genannt und mit σ (F ) bezeichnet.
Beispiel D.2.4
a) Für Ω = R ist die Borel σ -Algebra auf R die σ -Algebra, die von allen Intervallen erzeugt wird. Wir
bezeichnen sie mit BR . Für A ⊂ R ist BA die Einschränkung von BR auf A, nämlich
BA = {A ∩ B : B ∈ BR }.
Es ist einfach einzusehen, dass BA wieder eine σ -Algebra ist.
b) Ist Fi eine σ -Algebra auf einer Menge Ωi (i = 1, 2 . . . n), dann ist die Produkt σ -Algebra die σ Algebra auf Ω1 ×Ω2 . . . Ωn , erzeugt von den Rechtecken A1 ×A2 ×An , mit Ai ∈ Fi , falls i = 1, 2, . . . n.
Wir bezeichnen sie mit ⊗ni=1 Fi . Falls Ωi = R, i = 1, . . . n, so schreiben wir BRn = BR ⊗ BR . . . BR .
Satz D.2.5
Ist F eine σ -Algebra auf Ω, so gilt
D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie
427
a) Ω ∈ F .
b) Für Teilmengen A, B gilt A ∩ B, A\B = {x; x ∈ A x ∈
/ B}, und A △ B = (A\B) ∪ (B\A) ∈ F .
T
c) Sind A1 , A2 , A3 , . . . ∈ F , dann auch ∞
A
=
{x
∈
Ω;
für alle i ∈ N gilt x ∈ Ai } ∈ F .
i
i=1
Mit den Eigenschaften a), b) und c) der Definition einer σ -Algebra lässt sich Satz D.2.5 leicht beweisen.
Wie im vorhergehenden Abschnitt kann man eine Wahrscheinlichkeit auf einer σ -Algebra definieren.
Definition D.2.6
Sei F eine σ -Algebra auf einer Menge Ω. Ein Maß auf F ist eine Abbildung
µ : F → R ∪ {∞}
mit den folgenden Eigenschaften:
/ =0
a) µ (0)
b) 0 ≤ µ (A) für alle A ∈ F
c) Sind A1 , A2 , A3 , . . . paarweise disjunkt (d. h. Ai ∩ A j = 0/ falls i 6= j), so gilt
µ
∞
[
Ai
i=1
!
=
∞
X
µ (Ai )
i=1
Ein Maß nennen wir endlich, falls µ (Ω) < ∞ (und deshalb µ (A) < ∞ für alle A ∈ F ). Wir nennen das Maß
S
σ -endlich, falls es eine Folge (An ) ⊂ F gibt mit µ (An ) < ∞ und ∞
n=1 An = Ω.
Ein Wahrscheinlichkeitsmaß auf F ist ein Maß P auf F , für das P(Ω) = 1 gilt. Ist P ein Wahrscheinlichkeitsmaß auf einer σ -Algebra F definiert auf Ω, so nennt man das Tripel (Ω, F , P) einen Wahrscheinlichkeitsraum.
Die oben definierte Eigenschaft c) heißt σ -Additivität. Sie impliziert die folgende Stetigkeitseigenschaft.
Satz D.2.7 (Stetigkeit von unten bzw. oben)
Sei µ ein Mass auf einem messbaren Raum (Ω, F ).
1) Sind A1 ⊂ A2 ⊂ A3 ⊂ . . ., Ai ∈ F , i = 1, 2, . . ., so folgt
lim P(Ai ) = P(
n→∞
∞
[
Ai ).
i=1
2) Für A1 ⊃ A2 ⊃ A3 ⊃ . . ., Ai ∈ F , i = 1, 2, . . . mit µ (Ai ) < ∞ gilt
lim P(Ai ) = P(
n→∞
∞
\
Ai ).
i=1
Oft liegt eine nichtnegative Abbildung auf einer bestimmten Teilmenge E aller Teilmengen von Ω vor. Es
stellt sich die Frage, ob man diese Abbildung zu einem Mass auf σ (E ) fortsetzen kann. Der Fortsetzungssatz von Carathéodory gibt eine befriedigende Antwort auf diese Frage. Anstatt diesen Satz zu formulieren,
wollen wir zwei Fälle betrachten, die uns besonders interessieren.
428
D Wahrscheinlichkeitstheorie
Satz D.2.8
1) Es gibt ein eindeutiges Mass λ auf BR so, dass λ ([a, b]) = b − a für alle Intervalle [a, b] ⊂ R gilt.
Dieses Maß nennt man das Lesbesgue-Maß auf R.
2) Für i = 1, 2 . . . n sei µi ein σ -endliches Maß (bzw. Wahrscheinlichkeitsmaß) auf Fi , wobei Fi eine σ Algebra auf einer Menge Ωi ist. Dann gibt es ein eindeutiges Maß µ (bzw. Wahrscheinlichkeitmaß)
auf ⊗ni=1 Fi so, dass
µ (A1 × A2 × . . . × An ) =
n
Y
µi (Ai ),
i=1
[mit ∞ · 0 = 0]
für alle A1 ∈ F1 , A2 ∈ F2 ,. . . ,An ∈ Fn gilt. Dieses Maß wird das Produkt der Maße (µi ) genannt
und mit ⊗ni=1 µi bezeichnet.
Falls man daran interessiert ist, wann zwei Maße auf (Ω, F ) gleich sind, so gibt das folgende Prinzip eine
Antwort darauf. Es liefert auch die Eindeutigkeit in dem obigen Satz D.2.8.
Satz D.2.9
Seien µ und ν zwei σ -endliche Masse auf (Ω, F ), F sei eine σ -Algebra auf der Menge Ω. Angenommen
D ⊂ F erzeugt F und ist durchschnittsstabil (A, B ∈ D ⇒ A ∩ B ∈ D), so gilt
µ = ν ⇐⇒ µ (A) = ν (A) für alle A ∈ D.
Meistens sind wir nicht an dem Ereignis ω ∈ Ω selbst interessiert, sondern an einer Zahl die diesem Ereignis
zugeordnet ist.
Definition D.2.10
Sei (Ω, F , P) ein Wahrscheinlichkeitsraum. Eine Abbildung
X : Ω → R,
ω 7→ X(ω )
nennt man eine Zufallsvariable, falls sie messbar ist, d. h. X −1 (A) = {ω ∈ Ω; X(ω ) ∈ A} ∈ F , also das
Urbild liegt für jede Menge A ∈ B(R) in F .
feine σ -Algebra auf Ω bzw. Ω,
e eine Abbildung und ist F bzw. F
e so nennt man F
Ist allgemein F : Ω → Ω
−1
f
f
(F , F )-messbar, falls F (A) ∈ F für A ∈ F gilt.
Bemerkung D.2.11
fdie σ −Algebra F , so genügt es, dass man F −1 (Ẽ) ∈ F für alle Ẽ ∈ Ee
e und erzeugt Ee ⊂ F
Ist F : Ω → Ω
nachweist, um zu zeigen, dass F messbar ist. Denn wir brauchen nur einzusehen, dass das Mengensystem
e F −1 (A) ∈ F } eine σ -Algebra auf Ω darstellt, die Ee enthält und somit auch σ (Ee) enthalten muss.
{A ⊂ Ω;
Aber das gilt z.B. aufgrund der Tatsache, dass X : Ω → R genau dann eine Zufallsvariable ist, wenn {X ≤
a} = {ω ∈ Ω; X(ω ) ≤ a} für alle a ∈ R in F liegt.
Satz D.2.12
Sind X und Y Zufallsvariable, ist g : R → R messbar und ist a ∈ R, so sind auch X + Y, aX, XY, g ◦ X
Zufallsvariablen.
D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie
429
Sei (Xn )n∈N eine Folge von Zufallsvariable, sodass X(ω ) = limn→∞ Xn (ω ) für ω ∈ Ω existiert. Dann ist
auch X eine Zufallsvariable.
Sei P ein Wahrscheinlichkeitsmaß auf (Ω, F ) und sei X eine Zufallsvariable. Wir definieren die Verteilung
von X als ein Wahrscheinlichkeitsmaß auf R: Für A ∈ B(R) ist
PX (A) = P(X −1 (A)).
(20)
Als Beispiel sei PX ([a, b]) = P(X −1 ([a, b])) = P(a ≤ X ≤ b) angeführt.
Es gibt zwei wichtige Spezialfälle.
Beispiel D.2.13 (Der endliche Fall)
Die Zufallsvariable X : Ω → R nehme nur endlich viele verschiedene Werte α1 , α2 , . . . , αn an. Wir setzen
für i = 1, 2, . . . , n
Ai = X −1 ({αi }) = {ω ∈ Ω; X(ω ) = αi }.
Man beachte, dass die Ai ’ paarweise disjunkt sind und A1 ∪ A2 ∪ . . . An = Ω gilt. Wir können X(ω ) =
Pn
i=1 αi 1Ai (ω ) schreiben. Zur Erinnerung stellt 1A die charakteristische Funktion von A ⊂ Ω dar (1A (ω ) =
1 falls ω ∈ A , und 1A (ω ) = 0 falls ω 6∈ A). In diesem Fall lässt sich PX als Wahrscheinlichkeit auf ΩX =
{α1 , . . . , αn } mit pi = PX ({αn }) = P(Ai ) ansehen. Für E ⊂ {α1 , . . . , αn } gilt
X
pi .
PX (E) =
αi ∈E
Beispiel D.2.14 (Der stetige Fall)
Angenommen, es existiert eine integrierbare Funktion f : R → R, sodass
PX (A) =
Z
f (x)dx
A
für A ∈ B(R) gilt. In diesem Fall heißt f Dichte von PX .
Beachte: Da PX ein Wahrscheinlichkeitmaß ist, hat f als Dichte die folgenden Eigenschaften
1) f ≥ 0, und
R∞
2)
f (x)dx = PX (R) = 1
−∞
Beispiel D.2.15 (Wahscheinlichkeitsdichten)
1
1) f (x) = b−a
1[a,b] ist die Dichte der Gleichverteilung auf dem Intervall [a, b] ,
2) f (x) =
2
√1 e−x /2
2π
ist die Dichte der Standardnormalverteilung.
Allgemein ist für µ ∈ R und σ > 0
f(µ ,σ ) = √
1
2πσ 2
−
e
(x−µ )2
2σ 2
(21)
eine Dichte, die Dichte einer normalverteilten Zufallsvariablen mit Mittel µ und Varianz σ 2 . Wir
430
D Wahrscheinlichkeitstheorie
bezeichnen die Normalverteilung mit Mittel µ und Varianz σ 2 durch N(µ , σ 2 ), d. h.
N(µ , σ 2 )(A) = √
1
2πσ 2
Z
−
e
(x−µ )2
2σ 2
A
dx falls A ∈ BR
(22)
Wir kommen nun zu einem zentralen Begriff: Der Erwartungswert einer Zufallsvariablen.
Definition D.2.16 (Erwartungswert einer Zufallsvariablen)
Sei X eine Zufallsvariable auf (Ω, F , P) .
P
a) Nimmt X nur endlich viele Werte an, z. B. sei X = ni=1 αi 1Ai , so definiert man den Erwartungswert
n
P
αi P(Ai ).
EP (X) =
i=1
b) Ist X eine positive Zufallsvariable, so folgt
EP (X) = sup{EP (Y );Y nimmt endlich viele Werte an und 0 ≤ Y ≤ X}.
(23)
c) Seien X beliebig und EP (|X|) < ∞ (X wird integrierbar genannt). Sei X + = max(0, X) und X − =
max(0, −X). Beachte, dass X + , X − ≥ 0, und X = X + − X − . In diesem Fall definieren wir:
EP (X) = EP (X + ) − EP (X − ).
(24)
Bemerkung D.2.17
Um einzusehen, dass EP (X) für eine Zufallsvariable, die nur endlich viele Werte annimmt, wohldefiniert
ist, muss man nachweisen, dass, wenn man X auf zwei verschiedenen Weisen darstellt, z. B.
X=
n
X
αi 1Ai
und X =
m
X
βi 1Bi ,
(25)
i=1
i=1
die Gleichung
n
X
i=1
gilt.
αi P(Ai ) =
m
X
βi P(Bi )
i=1
Bemerkung D.2.18
Der obige Zugang zum Erwartungswert für Zufallsvariablen auf einem Wahrscheinlichkeitsraum lässt sich
auf Maße in gleicher Weise verallgemeinern. Allerdings spricht man dann von dem Integral einer messbaren
R
Funktion f : Ω → R bezüglich des Maßes µ und man schreibt Ω f (ω )d µ (ω ).
Definition D.2.19
Gilt E(X 2 ) < ∞ , so definiert man die Varianz von X gemäß
Var(X) = EP ((X − EP (X))2 ).
Satz D.2.20 (Linearität von EP (·))
Für zwei integrierbare Zufallsvariablen X und Y und α , β ∈ R gilt die folgende Gleichung
EP (α X + β Y ) = α EP (X) + β EP (Y ).
D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie
431
Satz D.2.21 (Monotonie von EP (·))
Für zwei integrierbare Zufallsvariablen X und Y mit X ≤ Y gilt
EP (X) ≤ EP (Y ).
Satz D.2.22
R∞
Die Zufallsvariable X habe die Dichte f : R → R. Dann gilt EP (X) = x f (x)dx, falls das Integral existiert
(d. h.
R∞
−∞
−∞
| x| f (x)dx < ∞).
Allgemein gilt für eine messbare Abbildung g : R → R, dass EP (g ◦ X) =
existiert.
R∞
g(x) f (x)dx, falls das Integral
−∞
Die nächsten zwei Sätze beantworten folgende Frage: Sei (Xn ) eine Folge von Zufallsvariablen, die punktweise gegen eine Zufallsvariable X konvergiert. Unter welchen Bedingungen konvergieren die Erwartungswerte Xn gegen den Erwartungswert von X? Allgemein muss (ohne zusätzliche Bedingungen) EP (Xn ) nicht
gegen EP (X) konvergieren, wie das folgende einfache Beispiel zeigt.
Sei Ω = [0, 1] versehen mit einer σ -Algebra B[0,1] , und sei P die Gleichverteilung auf [0, 1]. Dann konvergiert Xn = n2 1(0,1/n) punktweise gegen 0, aber EP (Xn ) = n → ∞.
Wir sagen eine Folge von Zufallsvariablen (Xn ) auf einem Wahrscheinlichkeitsraum (Ω, F , P) ist fast sicher
e ⊂ Ω gibt mit P(Ω)
e = 1, sodass
wachsend (oder fallend oder konvergent), falls es eine messbare Teilmenge Ω
e
(Xn (ω )) diese Eigenschaft für alle ω ∈ Ω hat.
Satz D.2.23 (Satz von der monotonen Konvergenz)
Sei Xn eine fast sicher wachsende Folge von integrierbaren Zufallsvariablen auf (Ω, F , P). Sei X(ω ) =
limn→∞ Xn (ω ) für ω ∈ Ω (dabei kann der Wert ∞ vorkommen).
Dann gilt
EP (X) = lim EP (Xn ).
n→∞
Satz D.2.24 (Satz von der majorisierten Konvergenz)
Sei Xn eine Folge von Zufallsvariablen auf (Ω, F , P), die fast sicher gegen eine Zufallsvariable X konvergiert. Weiter existiere eine integrierbare Zufallsvariable Y , sodass | Xn | ≤ Y fast sicher gilt.
Dann folgt
EP (X) = lim EP (Xn ).
n→∞
Oft reicht es nicht die Verteilung einer einzelnen Zufallsvariablen zu kennen, sondern man muss wissen, wie
einige Zufallsvariable “zueinander in Beziehung stehen”. Dazu brauchen wir den Begriff der “gemeinsamen
Verteilung”.
Definition D.2.25
Seien X1 , X2 , . . . , Xn Zufallsvariablen auf (Ω, F , P). Dann ist die gemeinsame Verteilung PX1 ,...,Xn von X1 , . . . , Xn
ein Wahrscheinlichkeitsmaß auf B(Rn ) definiert gemäß
432
D Wahrscheinlichkeitstheorie
P(X1 ,...,Xn ) (A) = P({ω ∈ Ω; (X1 (ω ), X2 (ω ), . . . , Xn (ω )) ∈ A}) für A ∈ B(Rn ).
Eine gemeinsame Verteilung hat die Dichte f , falls f : Rn → R+
0 messbar ist und
P(X1 ,...,Xn ) (A) =
Z
···
A
Z
f (x1 , x2 , . . . , xn )dx1 dx2 . . . dxn für alle A ∈ B(Rn )
gilt.
Satz D.2.26
Falls f eine Dichte einer gemeinsamen Verteilung von Zufallsvariablen X1 , X2 . . . , Xn ist, dann hat die Verteilung jeder Zufallsvariable eine Dichte. Denn für i = 1, 2, . . . , n definiere fi durch
fi (x) =
Z∞
−∞
...
Z∞
f (x1 , x2 , . . . , xi−1 , x, xi+1 . . . xn )dx1 . . . dxi−1 dxi+1 , . . . , dxn
−∞
| {z }
n−1 mal
(d. h. man integriert alle Variablen von f (x1 , . . . , xn ) außer xi aus). Dann ist fi die Dichte der Verteilung Xi .
Eines der wichtigsten Konzepte in der Wahrscheinlichkeitstheorie ist der Begriff der Unabhängigkeit.
Definition D.2.27
Sei (Ω, F , P) ein Wahrscheinlichkeitsraum und seien F1 , F2 , . . . , Fn Unter-σ -Algebren von F . Dann sind
die (Fi ) unabhängig, falls für irgendeine Wahl von Ai mit Ai ∈ Fi (i = 1, 2, . . . n)
P
n
“\
i=1
n
” Y
Ai =
P(Ai )
(26)
i=1
“
”
gilt. Seien X1 , X2 , . . . , Xn Zufallsvariablen auf Ω, F , P . Dann heißen sie unabhängig, falls die σ -Algebren
Fi mit Fi = {Xi−1 (A); A ∈ B(R)} für i = 1, . . . n unabhängig sind. Dies bedeutet, dass für irgendeine Wahl
von B1 , B2 , . . . Bn ∈ BR
P({X1 ∈ B1 , X2 ∈ B2 , . . . Xn ∈ Bn }) =
n
Y
i=1
P({Xn ∈ Bn })
(27)
gilt.
Satz D.2.28
Für Zufallsvariablen X1 , X2 , . . . , Xn auf (Ω, F , P) sind die folgenden Eigenschaften äquivalent
a) X1 , . . . , Xn sind unabhängig.
b) Die gemeinsame Verteilung PX1 ,...,Xn ist gleich dem Produkt (im Sinne von Wahrscheinlichkeitsmaßen) der einzelnen Verteilung PX1 , PX2 , . . . PXn .
c) Für beschränkte und messbare Funktionen g1 , g2 , . . . , gn : R → R gilt
EP (g1 (X1 ) · g2 (X2 ) . . . gn (Xn )) = EP (g1 (X1 )) · EP (g2 (X2 )) . . . EP (gn (Xn )).
D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie
433
d) Die Dichte von PX1 ,...,Xn ist das Produkt der Dichten PXi .
Falls man annimmt, PX1 ,...,Xn habe eine Dichte, so sind a)-c) äquivalent zu
Satz D.2.29
Seien X und Y zwei quadratisch integrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F , P)
(d. h. EP (X 2 ) < ∞).
Ist das Produkt XY integrierbar und sind X und Y unabhängig, so gilt EP (XY ) = EP (X)EP (Y ).
Hieraus folgt, dass
n
n
X
X
Var(
Xi ) =
Var(Xi ),
i=1
i=1
falls die X1 , X2 , . . . Xn unabhängig und quadratisch integrierbar sind.
Wir wollen noch zwei wichtige Sätze formulieren. Der erste gibt folgenden bekannten Sachverhalt wieder:
Wiederholt man ein Zufallsexperiment oft genug unabhängig voneinander, und bildet man
das Mittel über die Ergebnisse (genauer gesagt über die Messergebnisse), so liegt das Mittel
nahe an dem Erwartungswert (je mehr Versuche man vornimmt, je näher kommt man den
Erwartungswert).
Satz D.2.30 (Das Gesetz der großen Zahl)
Sei (Xi ) eine Folge von unabhängigen Zufallsvariablen mit gemeinsamer Verteilung. Dann gilt
n
1X
Xi (ω ) = EP (X1 )
n→∞ n
lim
i=1
fast sicher.
Der nächste Satz verrät uns die Konvergenzgeschwindigkeit aus dem vorhergehenden Satz. Außerdem gibt
der Satz noch folgendes Prinzip an:
Falls eine Zufallsvariable X sich als Summe von “vielen ” unabhängigen Zufallsvariablen
darstellen lässt, von denen jede den Erwartungswert Null und jede dieselbe Varianz haben, so
ist die Verteilung von X nahe der Normalverteilung.
Satz D.2.31 (Zentraler Grenzwertsatz)
Sei X1 , X2 , . . . eine Folge unabhängiger Zufallsvariable mit EP (Xi ) = 0 für i = 1, 2, . . . . Weiter gebe es
Zahlen 0 < r < R, sodass
r < Var(Xi ) < R für alle i = 1, 2 . . . gilt.
Setze σi2 = Var(Xi ). Dann folgt
91
08
n
P
>
>
>
>
Xi
>
>
Zb
B<
=C
2
1
B
C
i=1
√
lim P B „
∈
[a,
b]
=
e−x /2 dx = N(0, 1)[a, b].
C
«1/2
n→∞ @>
> P
>
n
A
2
π
>
>
>
a
:
;
σi2
i=1
434
D Wahrscheinlichkeitstheorie
Wir formulieren schließlich eine “quantitative” Version des zentralen Grenzwertsatzes nach Berry und Esseen.
Satz D.2.32 (Satz von Berry-Esseen)
Sei n ∈ N und seien X1 , X2 , . . . , Xn unabhängig und quadratisch integrierbare Zufallsvariable mit Mittel 0.
Setze σi2 = Var(Xi ), for i = 1, . . . , n. Dann gilt für alle a < b
˛
˛
n
n
n
˛
˛ “X
”
”
“ X
X
12
˛
˛
2
EP (|Xi |3 ).
σi ([a, b])˛ ≤ `P
Xi ∈ [a, b] − N 0,
˛P
´
3
n
˛
˛
σ2
i=1
i=1
i=1 i
i=1
Zur Anwendung des Satzes von Berry-Esseen führen wir den Begriff der Verteilungskonvergenz einer Folge
von Zufallsvariablen ein.
Definition D.2.33
Seien (Xn ) eine Folge von Zufallsvariablen und X eine Zufallsvariable. Man sagt Xn konvergiert gegen X in
Verteilung oder schwach (in Zeichen Xn ⇀ X), falls für die entsprechenden Verteilungsfunktionen (Fn ) und
F
Fn (t) → F(t) für alle Stetigkeitspunkte t ∈ R
(28)
gilt.
Ein zentrales Ergebnis nach Skorokhod besagt, dass die Verteilungskonvergenz durch geeignete Wahl der
Zufallsvariablen nichts anderes als die punktweise Konvergenz darstellt.
Satz D.2.34
Seien (Xn )n∈N0 eine Folge von Zufallsvariablen mit Xn ⇀ X0 . Dann existiert eine Wahrscheinlichkeitsraum
(Ω̃, F˜ , P̃) und eine Folge von Zufallsvariablen (Yn )n∈N0 auf (Ω̃, F˜ , P̃), sodass
Yn (ω ) −→ Y0 (ω ), für alle ω ∈ Ω̃ gilt, und
Xi und Yi haben die gleiche Verteilung (i = 0, 1, . . .).
Es lassen sich einige nicht schwer zu beweisende Aussagen über die schwache Konvergenz von Zufallsvariablen ableiten, die mehr oder minder besagen, dass die schwache Konvergenz sich ähnlich wie die
Konvergenz von Zahlen verhält.
Satz D.2.35
Seien X, X1 , X2 , . . . , Y,Y1 ,Y2 , . . . , und Z, Z1 , Z2 , . . . , Zufallsvariable auf einen Wahrscheinlichkeitsraum (Ω, F , P).
Seien a, b ∈ R. Dann gilt:
a) Gilt Xn ⇀ X und Xn ⇀ Y, so haben X und Y dieselbe Verteilung.
b) Gilt Xn ⇀ X und Yn − Xn ⇀ 0, so gilt auch Yn ⇀ X.
c) Gilt Xn ⇀ a, Yn ⇀ Y und Zn ⇀ Z, so hat man
XnYn + Zn ⇀ aY + Z.
Beweis. vgl. [Sch98b, 1.1. Satz, S.223].
Wir notieren drei wichtige Ergebnisse (vgl. z. B. [Sch98b, 2.7 Satz, p.136] für einen Beweis).
¤
D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie
435
Satz D.2.36
Seien X, X1 , X2 , . . . eine Folge von Zufallsvariablen. Dann gilt:
a) Xn ⇀ X genau dann, wenn EP ( f (Xn )) → EP ( f (X)) für jede auf R beschränkte, stetige Funktion
f : R → R.
b) Sei f : R → R Borel-messbar derart, dass
`
´
P {ω ∈ Ω; f ist nicht stetig in X(ω )} = 0.
Gilt Xn ⇀ X, so auch f (Xn ) ⇀ f (X).
c) Sei f : R → R so, dass
`
´
P {ω ∈ Ω; f ist nicht stetig in X(ω )} = 0.
Gilt supn∈N EP ( f (Xn )), EP ( f (X)) < ∞ und Xn ⇀ X, so folgt
EP ( f (Xn )) → EP ( f (X)).
Ein wichtiger Begriff für die schwache Konvergenz von Zufallsvariablen gegen eine normalverteilte Zufallsvariable ist das sogenannte Dreiecksschema.
Definition D.2.37
Seien (Xm,n ), (1 ≤ m ≤ k(n), n ∈ N) eine Familie von Zufallsvariablen, wobei die Zufallsvariablen (Xm,n ), (1 ≤
m ≤ k(n) auf einem Wahrscheinlichkeitsraum (Ωn , Fn , Pn ) (also abhängig von n ∈ N) definiert sind. Sei
Sn = X1,n + . . . + Xk(n),n .
(Xm,n ), (1 ≤ m ≤ k(n), n ∈ N) nennt man ein Dreiecksschema, falls
2 ) < ∞ für 1 ≤ m ≤ k(n), n ∈ N.
a) EPn (Xm,n ) = 0, EPn (Xm,n
b) Für alle n ∈ N sind die Zufallsvariablen X1,n , . . . , Xk(n),n unabhängig.
c) Var(Sn ) = 1, n ∈ N.
Ein wichtiges Ergebnis, das sich aus der Lindeberg-Bedingung ergibt (vgl. [Sch98b, 2.2 Satz, S. 240]), ist
das folgende Kriterium.
Satz D.2.38
Sei (Xm,n ) ein Dreiecksschema derart, dass (Xm,n ) ⊂ L3 (P) und
k(n)
X
m=1
EP (|Xm,n |3 ) → 0 für n → ∞ gilt (Ljapunov-Bedingung).
Dann folgt: Es gibt eine (0, 1)-normalverteilte Zufallsvariable N mit
Sn ⇀ N.
436
D Wahrscheinlichkeitstheorie
D.3 Bedingte Erwartung
Definition D.3.1
Sei X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F , P) mit der Eigenschaft EP (|X|) < ∞.
feine Unter-σ -Algebra von F , d. h. eine σ -Algebra , die in F enthalten ist.
Sei weiter F
f, falls
Dann nennt man Xe : Ω → R bedingte Erwartung von X bezüglich F
f-messbar ist, und EP (|X|)
e < ∞ gilt, und
1) Xe F
f
2) für Ã ∈ F folgt
e = EP (1 X).
EP (1Ã X)
Ã
Nach einem Satz der Analysis, dem Satz von Radon Nikodým, existiert der bedingte Erwartungswert immer,
und der Satz zeigt, dass er bis auf Gleichheit fast überall eindeutig bestimmt ist.
Satz D.3.2 (Der Satz von Radon Nikodým)
Seien µ und ν zwei Maße auf F , einer σ -Algebra auf einer Menge Ω und sei ν σ -endlich.
Dann sind die folgenden Aussagen äquivalent.
1) Für alle A ∈ F gilt:
µ (A) = 0 ⇒ ν (A) = 0
(man sagt, dass ν absolut-stetig bezüglich µ ist).
2) Es gibt eine F -messbare Funktion f : Ω → [0, ∞[, sodass
Z
f (ω )d µ (ω ), für alle A ∈ F gilt
ν (A) =
A
(man sagt, dass f die Radon-Nikodým-Ableitung von ν bezüglich µ ist).
Satz D.3.3 (Existenz und Eindeutigkeit der bedingten Erwartung)
f ⊂ F eine Unter-σ Falls X eine Zufallsvariable auf (Ω, F , P) ist, für die E(|X|) < ∞ gilt, und falls F
f
e
Algebra darstellt, so gibt es eine F -messbare Zufallsvariable X mit den Eigenschaften
e = EP (1A X) für alle
EP (1A X)
f.
A∈F
(29)
f-messbare ZuDie Variable ist bis auf Gleichheit fast überall eindeutig bestimmt, d. h. sind X̃1 und X̃2 F
f).
fallsvariable, die beide die Gleichung (29) erfüllen, so folgt X1 = X2 . Wir bezeichnen X̃ mit EP (X|F
Beweis
Zuerst nehmen wir X ≥ 0 an. Definiere ν (A) = EP (1A X), für A ∈ F .
Sei nun ν ein Mass auf F , das absolut-stetig bezüglich P ist. Dann ist auch die Einschränkung von µ auf die
fabsolut-stetig bezüglich der Einschränkung von P auf F
f. Deshalb können wir den Satz
Unter-σ -Algebra F
f-messbare Zufallsvariable
von Radon-Nikodým auf beide Einschränkungen anwenden und erhalten eine F
f
Xe ≥ 0, sodass für alle Ã ∈ F
e = ν (Ã) = EP (1 X)
EP (1Ã X)
Ã
D.3 Bedingte Erwartung
437
gilt.
e = EP (X) < ∞ impliziert.
Man beachte, dass dies EP (X)
Im allgemeinen Fall schreiben wir X = X + − X − , und erhalten mit dem obigen Argument F -messbare und
integrierbare Zufallsvariable X̃ + und X̃ − , sodass mit der Zerlegung X̃ = X̃ + − X̃ −
gilt.
e = EP (1 Xe+ ) − EP (1 Xe− ) = EP (1 X + ) − EP (1 X − ) = EP (1 X)
EP (1Ã X)
Ã
Ã
Ã
Ã
Ã
Um die Eindeutigkeit von X̃ nachzuweisen, nehmen wir an, dass X̃1 und X̃2 F -messbar sind und (29)
genügen. Für ε > 0 ist die Menge A = {X̃1 ≥ X̃2 + ε } F -messbar, und man folgert
0 = EP (1A (X̃1 − X̃2 )) ≥ ε P(A).
Dies bedeutet, dass P(A) = 0, und weil ε > 0 beliebig klein gewählt werden kann, ergibt sich mit Satz D.2.7
P(X̃1 > X̃2 ) = 0. Vertauscht man die Rollen von X̃1 und X̃2 , so lässt sich schließlich P(X̃2 > X̃1 ) = 0 folgern.
¤.
Wir geben nun einige grundlegende Eigenschaften.
Satz D.3.4
f ⊂ F eine Unter-σ Seien X und Y zwei Zufallsvariable auf (Ω, F , P) mit EP (|X|), EP (|Y |) < ∞. Sei F
Algebra. Dann gilt
f) = aEP (X|F
f) + bEP (Y |F
f) f.s.
1. Für a, b ∈ R: EP (aX + bY |F
f
2. Gilt zusätzlich EP (|XY |) < ∞ und ist Y F -messbar, dann folgt
f) = Y EP (X|F
f) f.s.
EP (Y X|F
funabhängig, dann ist EP (X|F
f) = EP (X) f.s.
3. Seien X und F
4. Gilt X ≤ Y fast sicher, so folgt
f) ≤ EP (X|F
f).
EP (X|F
Beweis
f) + bEP (Y |F
f)
Die erste Behauptung (1) lässt sich einfach zeigen, in dem man nachweist, dass aEP (X|F
f
die Gleichung (29) für die Zufallsvariable aX + bY erfüllt. Zusätzlich muss man für unabhängige X und F
zeigen, dass die konstante Zufallsvariable EP (X) der Gleichung (29) genügt. Dies zusammen ergibt die
Behauptung (3).
fgilt. Wir erkennen, dass für beliebige
Um (2) nachzuweisen, nehmen wir zuerst an, dass Y = 1B für B̃ ∈ F
f
Ã ∈ F
`
´
`
´
f) = EP 1
f
EP 1Ã 1B̃ EP (X|F
Ã∩B̃ EP (X|F ) = EP (1Ã∩B̃ X) = EP (1Ã 1B̃ X)
gilt. Somit ist die Behauptung in diesem Fall gezeigt, und mit der Aussage (1) hat man die Behauptung für
P
alle Zufallsvariable der Form Y = m
i=1 βi 1Bi , Bi ∈ F und βi ∈ R, für n ∈ N, i = 1, 2, . . . n.
Ist Y beliebig, so findet man eine Folge Yn von F˜ -messbaren Zufallsvariablen so, dass jede Yn nur endlich
viele Werte annimmt und |Yn | ≤ |Y |, für n ∈ N und limn→∞ Yn = Y fast sicher. Ist Ã ∈ F dann ergibt sich
438
D Wahrscheinlichkeitstheorie
mit dem Satz von der majorisierten Konvergenz D.2.24
`
´
`
´
f) = lim EP 1 Yn EP (X|F
f) = lim EP (1 Yn X) = EP (1 Y X)
EP 1ÃY EP (X|F
Ã
Ã
Ã
n→∞
n→∞
und (2) ist bewiesen.
Schließlich nehmen wir, um die Aussage (4) nachzuweisen, an, dass X ≤ Y fast sicher gilt. Man definiere
f-messbar und
A ist F
f) > EP (Y |F
f)}.
A = {ω ∈ Ω : EP (X|F
`
´
f) − EP (X|F
f)] ≤ 0,
0 ≤ EP (1A (Y − X)) = EP 1A [EP (Y |F
was P(A) = 0 impliziert, und der Beweis von Behauptung (3) ist abgeschlossen.
¤
Leider ist Satz D.3.3 einer der Aussagen, die uns zwar die eindeutige Existenz eines Objektes garantiert,
aber er lässt uns im Unklaren darüber, wie man es findet. Wir werden nun in zwei wichtigen Fällen angeben,
wie man den bedingten Erwartungswert berechnet.
Satz D.3.5
f von MenEs sei X eine Zufallsvariable (Ω, F , P) mit EP (|X|) < ∞. Weiter werde die Unter-σ -Algebra F
gen A1 , A2 , . . . An ∈ F erzeugt, die paarweise disjunkt sind und deren Vereinigung ganz Ω ist. Schließlich
nehmen wir an, dass alle Ai strikt positive Wahrscheinlichkeit haben.
Dann gilt
f) =
EP (X|F
n
X
i=1
1Ai
EP (1Ai X)
.
P(Ai )
Wir kommen nun zu dem für stochastische Prozesse wichtigen Fall. Dabei sei Ω = Rn , F = BRn . Ferner
sei P ein Wahrscheinlichkeitsmaß auf BRn .
Wir definieren folgende Unter-σ -Algebren F0 , F1 , F2 , . . . , Fn .
F0 = {0,
/ Ω}
[die “triviale σ -Algebra”]
F1 = alle Mengen der Form A × Rn−1 mit A ∈ BR
F2 = alle Mengen der Form A × Rn−2 mit A ∈ BR2
allgemein:
F j = alle Mengen der Form A × Rn− j mit A ∈ BR j .
Satz D.3.6
Sei F : Rn → R F j -messbar. Dann hängt F nur von (x1 , . . . , x j ) ab (d. h. F ist eine Funktion von (x1 , . . . , x j )).
Beweis
Wir beweisen die Aussage nur für j = 1 (die anderen Fälle kann man ähnlich nachweisen). Sei F F1 messbar. Man definiere g : Rn → R gemäß g(x1 , . . . , xn ) = g(x1 ) = F(x1 , 0, . . . , 0). Es muss
D.3 Bedingte Erwartung
439
{(x1 , . . . , xn ) ∈ Rn ; 0 6= F(x1 , . . . , xn ) − g(x1 )} = 0/
gezeigt werden. Da F und g beide F1 -messbar sind, ist F −g auch F1 -messbar. Deshalb gibt es ein A ∈ BR
mit
A × Rn−1 = {(x1 , . . . , xn ) ∈ Rn ; 0 6= F(x1 , . . . , xn ) − g(x1 )}.
Angenommen A 6= 0.
/ Dann wähle ein x1 ∈ A. Für dieses x1 gilt, dass F(x1 , x2 , . . . , xn ) 6= F(x1 , 0, . . . , 0) für
alle (x2 , . . . , xn ) ∈ Rn−1 , insbesondere für x2 = x3 = x4 = · · · = xn = 0. Deshalb ist F(x1 , 0, 0, . . . , 0) 6= g(x1 ),
was ein Widerspruch darstellt. Da A = 0,
/ muss auch A × Rn−1 = 0/ gelten.
¤
Satz D.3.7
Sei X : Rn → R eine Zufallsvariable und P ein Wahrscheinlichkeitsmaß mit Dichte f : Rn → R.
”
“
Dann ist EP X|F j eine Funktion von x1 , . . . , x j (gemäß Satz D.3.6) und es gilt
EP (X|F j )(x1 , . . . , x j )
R R
··· f (x1 , . . . , x j , z j+1 , . . . , zn )X(x1 , . . . , x j , z j+1 , . . . , zn )dz j+1 . . . dzn
R R
=
f.s.
··· f (x1 , . . . , x j , z j+1 , . . . , zn )dz j+1 . . . dzn
[Man beachte: Der Nenner kann verschwinden, aber dann muss auch der Zähler Null sein, und in diesem
Fall definieren wir den Bruch durch Null.]
Beweis.
Wir beweisen nicht, dass die Funktion
R R
··· f (x1 , . . . , x j , z j+1 , . . . , zn )X(x1 , . . . , x j , z j+1 , . . . , zn )dz j+1 . . . dzn
R R
X̃ : (x1 , . . . , x j ) 7→
··· f (x1 , . . . , x j , z j+1 , . . . , zn )dz j+1 . . . zn
fast sicher wohldefiniert und F j -messbar ist.
Sei A × Rn− j ∈ F j , d. h. A ∈ BR j . Wir müssen nachweisen, dass
EP (1A×Rn− j · X) =
Z
EP (1A×Rn− j X̃) = E(1A×Rn− j X).
Z
. . . 1A (x1 , . . . , x j )X(x1 , . . . , xn ) f (x1 , . . . , xn )dx1 . . . dxn
[Beachte: 1A×Rn− j (x1 , . . . , xn ) = 1A (x1 , . . . , x j )]
=
Z
Z
· · · 1A (x1 , . . . , x j )
| {z }
j-mal
2
6
·4
Z
···
Z
(n− j)-mal
3
7
X(x1 , . . . , xn ) f (x1 , . . . , xn )dx j+1 . . . dxn 5 dx1 . . . dx j
440
D Wahrscheinlichkeitstheorie
ˆR
˜
R
··· X(x1 , . . . , xn ) f (x1 , . . . , xn )dx j+1 . . . dxn
R R
··· f (x1 , . . . , xn )dx j+1 . . . dxn
»Z
–
Z
· · · f (x1 , . . . , xn )dx j+1 . . . dxn dx1 . . . dx j
Z
Z
= · · · 1A (x1 , . . . , x j )X̃(x1 , . . . , x j )
»Z
–
Z
· · · f (x1 , . . . , xn )dx j+1 . . . dxn dx1 . . . dx j
Z
Z
= · · · 1A (x1 , . . . , x j )X̃(x1 , . . . , x j ) f (x1 , x2 , . . . , xn )dx1 dx2 . . . dxn
=
Z
···
Z
1A (x1 , . . . , x j )
n-mal
Vertauschen der Integration liefert
= EP (1A×Rn− j X̃(x1 , . . . , x j )).
Wir haben somit gezeigt
`
´
EP X|F j = X̃
f.s.
¤
Das nächste Resultat bietet eine oft benutzte Ungleichung.
Satz D.3.8 (Jensensche Ungleichung)
f ⊂ F eine
Sei X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F , P). Sei F
Unter-σ -Algebra. Sei weiter ϕ : R → R eine konvexe Funktion, sodass auch ϕ (X) erneut P-integrierbar
ist. Dann gilt
f) ≥ ϕ (E(X|F
f)).
(30)
E(ϕ (X)|F
Beweis
Definiere für x0 ∈ R
D− ϕ (x0 ) = lim
h↓0
ϕ (x0 ) − ϕ (x0 − h)
h
(falls ϕ in x0 differenzierbar ist, so ist D− ϕ (x0 ) einfach die Ableitung). In x0 ∈ R ist die Gerade
y − ϕ (x0 )
= D− ϕ (x0 ),
x − x0
oder
y = xD− ϕ (x0 ) − x0 D− ϕ (x0 ) + ϕ (x0 )
die Tangente an den Graphen von ϕ im Punkt (x0 , ϕ (x0 )). Eine der äquivalenten Definitionen für Konvexität
von ϕ lautet, dass der Graph von ϕ oberhalb der Tangente liegt.
Deshalb folgt für beliebige x, x0 ∈ R die Ungleichung ϕ (x) ≥ xD− ϕ (x0 ) − x0 D− ϕ (x0 ) + ϕ (x0 ).
D.3 Bedingte Erwartung
441
Wenn man die obige Ungleichung auf Zufallsvariable X anwendet (einfach x ersetzen) und die Zufallsvaf) an die Stelle von x0 schreibt, so ergibt sich
riable X0 = E(X|F
ϕ (X) ≥ XD− ϕ (X0 ) − X0 D− ϕ (X0 ) + ϕ (X0 ).
f) auf beiden Seiten, so sieht man
Bildet man nun die Bedingte Erwartung E(·|F
f) ≥ E(XD− ϕ (X0 ) − X0 D− ϕ (X0 ) + ϕ (X0 ) | F
f)
E(ϕ (X) | F
f)).
f)D− ϕ (X0 ) − X0 D− ϕ (X0 ) + ϕ (X0 ) = ϕ (E(X|F
= E(X|F
¤
442
D Wahrscheinlichkeitstheorie
D.4 Konvergenz von Zufallsvariablen
Wir haben bereits verschiedene Konvergenzbegriffe für eine Folge von Zufallsvariablen eingeführt. So konvergiert eine Folge von Zufallsvariablen (Xn ) auf einem Wahrscheinlichkeitsraum (Ω, F , P) gegen eine
Zufallsvariable X fast sicher, falls
P({ω ∈ Ω; lim Xn (ω ) = X(ω )} = 1.
n→∞
Hier wollen wir zwei weitere Konvergenzbegriffe einführen. Wir bezeichnen mit L0 (P) die Menge aller
messbaren Funktionen Ω → R. Zwei Elemente in L0 (P) betrachten wir als gleich, falls sie f.s. gleich sind.
Man beachte, dass L0 (P) ein Vektorraum ist.
Definition D.4.1
Eine Folge (Xn ) ⊂ L0 (P) konvergiert in Wahrscheinlichkeit gegen X ∈ L0 (P), falls
für alle ε > 0
lim P({ω ∈ Ω; |Xn (ω ) − X(ω )| > ε }) = 0
n→∞
(31)
gilt.
Die folgenden Abschätzungen zeigen die Beziehungen zwischen P(|X| > a) und den Erwartungswerten
auf.
Satz D.4.2
+
Seien X eine positive Zufallsvariable und φ : R+
0 → R0 positiv, wachsend und messbar. Für a > 0 gilt
aP(φ (X) ≥ a) ≤ EP (φ (X)).
Wenn man diese Ungleichung auf φ (x) = x, φ (x) = x2 und auf die Zufallsvariable |X| anwendet, erhält man
1. (Markovsche Ungleichung) P(|X| ≥ a) ≤ 1a EP (|X|).
2. (Tschebyscheff-Ungleichung) P(|X| ≥ a) = P(X 2 ≥ a2 ) ≤
1
E (|X|2 ).
a2 P
Beweis
Man beachte, dass a1{φ (X)≥a} ≤ φ (X). Dann integriere man beide Seiten.
Satz D.4.3
Für X,Y ∈L0 (P) definiere
¤
`
´
dL0 (X,Y ) = EP min(1, |X −Y |) .
Dann stellt d(·, ·) eine Metrik auf L0 (P) dar, was
dL0 (·, ·) ≥ 0 und
1) dL0 (X,Y ) = 0 ⇐⇒ X = Y fast sicher für X,Y ∈L0 (P)
2) dL0 (X, Z) ≤ dL0 (X,Y ) + dL0 (Y, Z) für X,Y, Z ∈L0 (P).
3) dL0 (X,Y ) = dL0 (Y, X) für X,Y ∈L0 (P)
bedeutet. Insbesondere konvergiert (Xn ) ⊂L0 (P) genau dann in Wahrscheinlichkeit gegen ein X ∈L0 (P),
wenn limn→∞ dL0 (Xn , X) = 0 gilt.
D.4 Konvergenz von Zufallsvariablen
443
Beweis
Beachte, dass für X,Y ∈L0 (P) P(X = Y ) = 1 ⇐⇒ min(1, |X −Y |) = 0 f.s. gilt, was (1) impliziert. Außerdem gilt für Zahlen x, y und z, dass min(1, |x − z|) ≤ min(1, |x − y| + |y − z|) ≤ min(1, |x − y|) + min(1, |y −
z|). Damit folgt die Aussage (2).
Man beachte schließlich, dass für X,Y ∈L0 (P) und 1 > ε > 0 mit Hilfe von Satz D.4.2 folgt, dass
P(|X −Y | > ε ) = P(min(1, |X −Y |) > ε ) ≤
1
1
E (min(1, |X −Y |)) ≤ P(|X −Y | > ε ).
ε P
ε
Hiermit ergibt sich
lim P(|X − Xn | > ε ) = 0 ⇐⇒ lim EP (min(1, |X − Xn |)) = 0,
n→∞
n→∞
und die letzte Behauptung ist bewiesen.
¤
Für das nächste Resultat brauchen wir folgenden Begriff: (Xn ) ⊂ L0 (P) heißt Cauchy-Folge bezüglich der
Konvergenz in Wahrscheinlichkeit, wenn es für alle ε > 0 ein N ∈ N gibt, sodass P(|Xn − Xm | > ε ) < ε
für alle n, m ≥ N gilt. Dies ist gleichbedeutend mit der Tatsache, dass (Xn ) eine Cauchy-Folge bezüglich
dL0 (·, ·) ist: Für alle ε > 0 gibt es ein N ∈ N, sodass dL0 (Xn , Xm ) < ε für alle n, m ≥ N folgt.
Es ist klar, dass eine in Wahrscheinlichkeit konvergente Folge auch eine Cauchy-Folge ist. Das folgende
Ergebnis zeigt, dass auch die Umkehrung gilt.
Satz D.4.4
Der Raum L0 (P) ist vollständig bezüglich der Konvergenz in Wahrscheinlichkeit. Dies bedeutet, dass jede
Cauchy-Folge konvergiert.
Beweis
Sei (Xn ) eine Cauchy-Folge. Es genügt zu zeigen, dass es eine Teilfolge (Xnk ) gibt, die gegen ein X ∈L0 (P)
konvergiert. Denn konvergiert (Xnk ) gegen X, so gilt
dL0 (Xn , X) ≤ dL0 (Xn , Xnk ) + dL0 (Xnk , X).
Ist ε > 0, so kann man ein k0 finden so, dass der zweite Summand kleiner als ε für alle k ≥ k0 ist. Weiter
lässt sich ein N ∈ N, N ≥ nk0 so wählen, dass der erste Summand kleiner als ε für alle k ∈ N mit nk ≥ N
und alle n ≥ N ist.
Gemäß der Voraussetzung, kann man eine Teilfolge (Xnk ) so auswählen, dass
P(|Xnk − Xm | > 2−k ) < 2−k , for m ≥ nk .
444
D Wahrscheinlichkeitstheorie
Wir sehen, dass für beliebiges k0
P({ω ∈ Ω; Xnk (ω ) konvergiert nicht }) = P({ω ∈ Ω;
≤ P({ω ∈ Ω;
≤ P(
∞
[
k=k0
≤
∞
X
∞
X
k=k0
∞
X
k=k0
Xnk+1 (ω ) − Xnk (ω ) konvergiert nicht })
|Xnk+1 (ω ) − Xnk (ω )| = ∞})
{|Xnk+1 − Xnk | > 2−k })
2−k = 2−k0 +1
k=k0
gilt. Da k0 beliebig groß gewählt werden kann, folgern wir, dass
P({ω ∈ Ω; Xnk (ω ) konvergiert nicht}) = 0
Wir definieren X(ω ) = limk→∞ Xnk (ω ), falls ω ∈ Ω̃ = {ω ∈ Ω; Xnk (ω ) konvergiert} und X(ω ) = 0 sonst.
Dann gilt, dass Xnk fast sicher gegen X konvergiert, und deshalb folgt nach dem Satz von der majorisierten
Konvergenz D.2.24, dass
dL0 (Xnk , X) = EP (min(1, |Xnk − X|)) → 0, für k → ∞.
Mit Satz D.4.3 ist damit die Behauptung bewiesen.
¤
Um den zweiten Konvergenzbegriff einzuführen, definieren wir mit L2 (P) den Vektorraum aller quadratisch
integrierbaren Zufallsvariablen auf (Ω, P), d. h. X ∈ L2 (P) ⇐⇒ EP (X 2 ) < ∞.
Definition D.4.5
Für X,Y ∈ L2 (P) definieren wir mit < X,Y >= EP (XY ) das Skalarprodukt von X und Y .
Beachte
Da |X| · |Y | ≤ 21 [X 2 +Y 2 ] gilt, ist XY integrierbar, falls X und Y quadratisch integrierbar sind.
kXkL2 =< X, X >1/2 =
nennt man die L2 -Norm auf X, und:
q
EP (X 2 )
Falls (Xn )∞
n=1 ⊂ L2 (P) eine Folge von Zufallsvariablen ist, so heißt X ∈ L2 (P) der L2 -Grenzwert von (Xn ),
falls
q
lim kXn − XkL2 = lim EP ((Xn − X)2 ) = 0.
n→∞
n→∞
Wir schreiben
X = L2 − lim Xn .
n→∞
Satz D.4.6 (Cauchy-Schwartz Ungleichung)
Seien X und Y zwei Zufallsvariablen mit endlicher L2 -Norm. Dann gilt
| < X,Y > | ≤ kXkL2 kY kL2 .
D.4 Konvergenz von Zufallsvariablen
445
Beweis
Wir nehmen zuerst an, dass weder X noch Y fast sicher Null sind. Denn sonst verschwinden beide Seiten
der Ungleichung. Deshalb gilt kXkL2 > 0 und kY kL2 > 0. Setzt man X̃ = X/|XkL2 und Ỹ = Y /|Y kL2 , so
ergibt sich für ω ∈ Ω aus der binomischen Formel, dass |X̃ Ỹ | ≤ 12 (X̃ 2 + Ỹ 2 ). Integriert man beide Seiten,
folgt
1
EP (|X̃ Ỹ |) ≤ EP (X̃ 2 + Ỹ 2 ) = 1.
2
Multipliziert man jetzt beide Seiten mit kXkL2 kY kL2 , so ist die Behauptung bewiesen.
¤
Satz D.4.7
k · kL2 stellt eine Norm auf L2 (P) dar. Dies bedeutet:
1) Für X ∈L2 (P) gilt: kXkL2 = 0 ⇐⇒ X = 0 fast sicher.
2) (Homogenität) Für X ∈L2 (P) und α ∈ R folgt: kα XkL2 = α kXkL2 .
3) (Dreiecksungleichung) Für X,Y ∈L2 (P) haben wir: kX +Y kL2 ≤ kXkL2 + kY kL2 .
Beweis
Wir zeigen nur die Bedingung (3). Die Eigenschaften (1) und (2) sind sofort einsichtig.
Für X,Y ∈ L2 (P) wendet man Cauchy-Schwartzsche Ungleichung D.4.6 auf |X| · |X +Y | und |Y | · |X +Y |
an, um
EP (|X| · |X +Y |) ≤ kXkL2 kX +Y kL2 und EP (|Y | · |X +Y |) ≤ kY kL2 kX +Y kL2
zu folgern. Addiert man beide Gleichungen, so sehen wir
˜
ˆ
kX +Y k2L2 = EP ((X +Y )2 ) ≤ EP ((|X| + |Y |)|X +Y |) ≤ kXkL2 + kY kL2 kX +Y kL2 .
Geeignetes Kürzen liefert die Aussage.
¤
Es gelten die folgenden Implikationen zwischen den einzelnen Konvergenzbegriffen.
Satz D.4.8
Konvergiert (Xn ) ⊂L0 fast sicher, so konvergiert es in Wahrscheinlichkeit.
Konvergiert (Xn ) ⊂L0 fast sicher, so konvergiert es auch in Verteilung.
Konvergiert (Xn ) ⊂L0 in Wahrscheinlichkeit, so existiert eine Teilfolge, die fast sicher konvergiert.
Konvergiert (Xn ) ⊂L2 in L2 , so konvergiert sie auch in Wahrscheinlichkeit.
Beweis.
Die ersten zwei Implikation folgen aus dem Satz von der majorisierten Konvergenz D.2.24 und Satz D.4.3,
wie wir es im letzten Teil des Beweises zu Satz D.4.4 gesehen haben. Die dritte Implikation wurde bereits im Beweis zu D.4.3 nachgewiesen. Die vierte Implikation ist eine Folgerung der Ungleichung von
Tschebyscheff (vgl. Satz D.4.2).
¤
Satz D.4.9
Der Raum L2 (P) ist versehen mit der Norm k · kL2 vollständig.
446
D Wahrscheinlichkeitstheorie
Beweis.
Sei (Xn ) eine Cauchy-Folge bezüglich k · kL2 . Geht man nun wie im Beweis zu Satz D.4.4 vor, so muss
man nur zeigen, dass (Xn ) eine konvergente Teilfolge besitzt. Gemäß der Tschebyscheff-Ungleichung
(Satz D.4.2) ist die Folge Cauchy bezüglich der Konvergenz in Wahrscheinlichkeit. Deshalb konvergiert
sie nach Satz D.4.4 gegen ein X ∈L0 (P). Nach Satz D.4.8 können wir zu einer Teilfolge übergehen, die
fast sicher gegen X konvergiert. Danach wählen wir eine Teilfolge (Xnk ) so, dass kXnk+1 − Xnk kL2 < 2−k für
alle k ∈ N gilt. Mit dem Satz über die monotone Konvergenz D.2.23 folgt
∞
m
X
X
EP (
|Xnk+1 − Xnk |2 ) = lim EP (
|Xnk+1 − Xnk |2 ) < ∞.
k=1
Setzt man nun Y = |Xn1 | +
folgt
m→∞
P∞
k=1
k=1 |Xnk+1 − Xnk |, so gilt |Xnk | ≤ Y
kY kL2 ≤ kXn1 kL2 +
∞
X
k=1
für alle k ∈ N. Mit der Dreiecksungleichung
kXnk+1 − Xnk kL2 < ∞.
Schließlich hat man mit Hilfe des Satzes von der majorisierten Konvergenz D.2.24, dass
“
”1/2
“
”1/2
kX − Xnk kL2 = EP ((X − Xnk )2 )
= lim EP ((Xnm − Xnk )2 )
≤ 2−k+1 .
m→∞
Die Behauptung ist damit bewiesen.
¤
Folgende Beobachtung folgt sofort aus der Jensenschen Ungleichung (vgl. Satz D.3.8 aus Anhang D.3).
Satz D.4.10
Die bedingte Erwartung bezüglich einer Unter-σ -Algebra F˜ ist eine Kontraktion auf L2 (P), d. h. es gilt für
alle X,Y ∈L2 (P)
kEP (X −Y |F˜ )kL2 ≤ kX −Y kL2 .
Insbesondere ist die bedingte Erwartung eine stetige Abbildung auf L2 (P).
E Stochastische Analysis
In diesem Kapitel haben wir einige Ergebnisse über die Brownsche Bewegung zusammen getragen. Man
kann sie in den meisten Büchern aus dem Bereich „stochastische Analysis“ finden, doch um für unsere
Zwecke jene auszuwählen, die benötigt werden, stellen wir diese zusammen. Auf diesen Ergebnissen baut
die Itô-Formel auf, wie sie in Abschnitt 4.1.2 hergeleitet wird.
E.1 Eigenschaften der Brownschen Bewegung
Da die Brownsche Bewegung für die Beschreibung des Aktienpreises eine so zentrale Rolle spielt, wird
dieser Abschnitt ganz der Darstellung und dem Beweis einiger wichtiger Eigenschaften der Brownschen
Bewegung gewidmet sein. Im gesamten Abschnitt nehmen wir an, dass (Bt ) eine Brownsche Bewegung
auf dem filtrierten Wahrscheinlichkeitsraum (Ω, F , (Ft ), P) definierter Prozess ist. Da wir ein festes Wahrscheinlichkeitsmaß P betrachten, werden wir den Erwartungswert bzgl. P mit E anstatt mit EP bezeichnen.
Satz E.1.1
(Bt ) ist ein quadratisch integrierbarer Prozess und:
1) Ist s < t, so folgt E(Bt |Fs ) = Bs , d. h. (Bt ) ist ein Martingal,
2) Für s < t gilt E((Bt − Bs )2 ) = t − s,
3) E(Bt Bs ) = min(s,t).
Beweis
Da Bt normalverteilt ist, ist (Bt ) quadratisch integrierbar.
Sei s < t. Dann folgt
E(Bt |Fs ) = E(Bs + Bt − Bs |Fs ) = Bs + E(Bt − Bs |Fs ).
Da Bt − Bs Erwartungswert Null hat und unabhängig von Fs ist, erhält man aus aus Satz D.3.4 (3) im
Anhang D.3, dass
E(Bt − Bs |Fs ) = E(Bt − Bs ) = 0,
was den ersten Teil beweist. Die zweite Behauptung folgt einfach aus der Tatsache, dass Bt − Bs den Erwartungswert Null und Varianz (t − s) besitzt.
Mit denselben Argumenten wie im Beweis zu (1), folgern wir
E(Bt Bs ) = E(B2s + (Bt − Bs )Bs ) = E(B2s ) + E((Bt − Bs )Bs ) = s + E(Bt − Bs ) E(Bs ) = s
| {z } | {z }
0
0
448
E Stochastische Analysis
für s < t. Dies beweist die dritte Behauptung.
¤
Die Pfade der Brownschen Bewegung haben „quadratische Variation“. Um dies zu beweisen, benötigen wir
den folgenden Satz.
Satz E.1.2
Sei s < t. Dann gilt
E([(Bt − Bs )2 − (t − s)]2 ) = 2(t − s)2 .
Beweis
Bt − Bs ist N(0,t − s) verteilt. Die Dichte ist durch
ρ (x) = p
1
2π (t − s)
e−x
2
/2(t−s)
gegeben. Setzt man g(x) = (x2 − (t − s))2 und h = t − s, so folgt aus Satz D.2.22 aus dem Anhang D.2 und
elementarer Integration
E([(Bt − Bs )2 − (t − s)]2 ) =
Z∞
g(x)ρ (x)dx
−∞
denn
√
Weiter berechnen wir
1
2π h
Z∞
x2 e−x
−∞
2
/2h
=√
1
2π h
=√
1
2π h
=√
1
2π h
Z∞
−∞
Z∞
−∞
Z∞
dx = h und √
2
=√
1
2π h
2
2
/2h
dx
(x4 − 2x2 h + h2 )e−x
x4 e−x
2
/2h
−∞
1
E([(Bt − Bs ) − (t − s)] ) = √
2π h
2
(x2 − h)2 e−x
1
2π h
Z∞
−∞
Z∞
−∞
2
Z∞
2
/2h
dx
dx − h2 ,
e−x
2
/2h
dx = 1.
−∞
2
2
−x /2h
x3 xe
| {z } dx − h
|{z}
v
3x2 he−x
u′
2
/2h
dx − h2
= 3h − h = 2h2 = 2(t − s)2 ,
was zu beweisen war.
Satz E.1.3
¤
E.1 Eigenschaften der Brownschen Bewegung
449
1) Der Prozess (Bt2 − t)t≥0 ist ein Martingal.
1
2
2) Der log-normal Prozess (eσ Bt − 2 σ t )t≥0 mit σ > 0 ist ein Martingal.
Beweis
Wir werden nur den zweiten Teil beweisen und überlassen den ersten dem Leser.
Sei s < t. Die Unabhängigkeit von Bt − Bs und Fs ergibt
1
1
2
1
2
2
E(eσ Bt − 2 σ t |Fs ) = E(eσ Bs − 2 σ s · eσ (Bt −Bs )− 2 σ
σ Bs − 21 σ 2 s
=e
1
Es bleibt E(eσ (Bt −Bs )− 2 σ
2
(t−s) ) = 1
σ (Bt −Bs )− 21 σ 2 h
E(e
· E(e
(t−s)
σ (Bt −Bs )− 21 σ 2 (t−s)
|Fs )
).
zu zeigen. Setze h = t − s und beachte, dass
1
)= √
2π h
1
=√
2π h
Z∞
−∞
Z∞
1
2
eσ x− 2 σ h e−x
−x
e
2 −2xσ h+σ 2 h2
2h
−∞
wobei die letzte Gleichung aus der Tatsache folgt, dass
Erwartungswert σ h und Varianz h ist.
2
/2h
dx
1
dx = √
2π h
√ 1 e−
2π h
(x−σ h)2
2h
Z∞
e−
(x−σ h)2
2h
dx = 1,
−∞
die Dichte der Normalverteilung mit
¤
Abschließend wollen wir eine entscheidende Eigenschaft der Brown’schen Bewegung vorstellen, die „quadratische Variation“ der Pfade.
Dazu benötigen wir folgende Notation.
Definition E.1.4
Seien s < t und f : [s,t] → R gegeben. Zu einer Partition
P = {t0 ,t1 , . . . ,tn }, mit s = t0 < t1 < · · · < tn = t setze man
qv( f , P, [s,t]) =
n
X
( f (ti ) − f (ti−1 ))2 .
i=1
Definiert man kPk = max |ti − ti−1 |, so hat f endliche quadratische Variation auf [s,t], wenn der Grenz-
wert
i=1,...,n
qv( f , [s,t]) = lim qv( f , P, [s,t])
kPk→0
existiert.
Mit „limkPk→0 qv( f , P, [s,t]) = a“ meinen wir das Folgende: Für alle ε > 0, existiert ein δ > 0, so dass
|qv( f , P, [s,t]) − a| < ε für jede Partition P von [s,t] mit kPk ≤ δ folgt.
Satz E.1.5
Sei f : [s,t] → R differenzierbar mit sup | f ′ (x)| = C < ∞. Dann gilt qv( f , [s,t]) = 0.
s≤x≤t
450
E Stochastische Analysis
Beweis:
Sei P = {t0 ,t1 , . . . ,tn } eine Zerlegung von [s,t]
n
X
i=1
| f (ti ) − f (ti−1 )|2 =
–
»
n
X
f (ti ) − f (ti−1 ) 2
(ti − ti−1 )2
ti − ti−1
i=1
n
X
=
(ti − ti−1 )2 | f ′ (ti∗ )|2
i=1
[Mittelwertsatz ,
≤ C2
n
X
i=1
ti∗ ∈ [ti−1 ,ti ] geeignet]
(ti − ti−1 )2
≤ C2 max |ti − ti−1 | ·
i=1,...,n
n
X
i=1
|ti − ti−1 |
|
{z
=t−s
}
= C2 (t − s)kPk → 0, für kPk → 0.¤
Für ein ω ∈ Ω untersuchen wir die quadratische Variation der Pfade B(·) (ω ) : [s,t] → R. Formal ist A[s,t] (ω ) =
qv(B(·) (ω ), [s,t]) eine Ft -messbare Zufallsvariable, falls sie existiert. Eine überraschende Eigenschaft von
A[s,t] besagt, dass sie tatsächlich deterministisch ist (also unabhängig von fast allen ω ∈ Ω). In der Tat
gilt A[s,t] = t − s fast sicher. Obwohl die Pfade Bt „sehr zufällig“ sind, sind deren quadratische Variationen vollkommen deterministisch. Sollte man tatsächlich die quadratische Variation einer Realisation der
Brownschen Bewegung beobachten und messen können (was technisch problematisch ist), könnte man diesen Pfad als Zeitmesser benutzen: Hat die quadratische Variation den Wert t erreicht, ist die Zeit t bestimmt.
Da der Beweis einige technische Hilfsmittel benötigt, die über dieses Buch hinausgehen, werden wir eine
schwächere Aussage beweisen, die für unsere Zwecke ausreicht.
Hierzu betrachten wir eine Zerlegungsfolge (Pn ) von [s,t], nämlich Pn = (t0 ,t1 , . . . ,tn ), t0 = s < t1 < . . . <
tn < t. Sei A[s,t],Pn (ω ) = qv(B(·) (ω ), Pn , [s,t]). Wir nehmen dann an, kPn k → 0, d. h. die Feinheit der Zerlegungsfolge konvergiert gegen Null. Schließlich weisen wir nach, dass die Folge der Zufallsvariablen
(A[s,t],Pn (·)) in L2 gegen t − s konvergiert, d. h. (vgl. Abschnitt D.4) wir müssen
`
´
lim E (A[s,t],Pn − (t − s))2 = 0
kPn k→0
zeigen.
Bemerkung E.1.6
Zum besseren Verständnis werden wir die quadratische Variation in diskreter Formulierung angeben. Man
beachte, dass für einen Prozess Xt
L2 − lim qv(X(·) (·), P, [s,t]) = Y,
kPk→0
E.1 Eigenschaften der Brownschen Bewegung
451
(n) (n)
(n)
dazu äquivalent ist, dass für jede Zerlegung (Pn ) von [s,t], mit Pn = (t0 ,t1 , . . . ,tkn ) und limn→0 kPn k = 0,
02
32 1
kn
X
B
C
E @4 (X (n) − X (n) )2 −Y 5 A → 0
ti
i=1
folgt.
ti−1
Man beachte, dass kn gegen Unendlich strebt, falls ||Pn || → 0. Zur Vereinfachung der Schreibweise werden
wir kn = n annehmen.
Satz E.1.7
(n) (n)
(n)
Sei Pn = (t0 ,t1 , . . . ,tn ) eine Folge von Zerlegungen des Intervalls [s,t], die limn→∞ kPn k = 0 erfüllen.
Dann gilt
n
X
(Bt (n) − Bt (n) )2 → t − s in L2 .
i
i=1
i−1
Beweis:
Man berechnet
0"
#2 1
n
X
2
(Bt (n) − Bt (n) ) − (t − s) A
E@
i
i=1
0"
i−1
#2 1
n
X
(n)
(n)
2
= E@
[(Bt (n) − Bt (n) ) − (ti − ti−1 )] A
=
2
4
n
X
i, j=1
n
X
i
i=1
„
i−1
2
E [(Bt (n) − Bt (n) )
ai
i=1
i
!2
=
i−1
n
X
i, j=1
Ist i 6= j, so folgern wir
− Bt (n) )
j−1
«
(n)
(n)
− (t j − t j−1 )]
(n)
(n)
(n)
(n)
− ti−1 )][(Bt (n) − Bt (n) )2 − (t j − t j−1 )])
j
(n)
= E((Bt (n) − Bt (n) )2 − (ti
i−1
j−1
(n)
(n)
j
j−1
Für i = j leiten wir aus dem Satz E.1.2 ab, dass
(n)
E([(Bt (n) − Bt (n) )2 − (ti
i−1
(n)
− ti−1 )) · E((Bt (n) − Bt (n) )2 − (t j − t j−1 )) = 0.
[folgt aus der Unabhängigkeit mit Satz E.1.1 ]
i
.
ai a j 5
i−1
i
j
2
3
E([(Bt (n) − Bt (n) )2 − (ti
i
(n)
(n)
− (ti − ti−1 )][(Bt (n)
(n)
(n)
− ti−1 )]2 ) = 2(ti
(n)
− ti−1 )2
452
E Stochastische Analysis
gilt. Also
0"
#2 1
n
n
X
X
(n)
(n)
(n)
(n)
(B (n) − B (n) )2 − (t − t ) A = 2
E@
(t − t )2
i=1
ti
ti−1
i
i
i−1
i−1
i=1
(n)
≤ 2 max |ti
i=1,...,n
(n)
− ti−1 | ·
= 2kPn k · (t − s) −→ 0.
n→∞
n
X
i=1
(n)
|ti
(n)
− ti−1 |
¤
Um den Beweis abzuschließen, verwenden wir die Tatsache, dass die kubische Variation für fast alle Pfade
der Brownschen Bewegung verschwindet. Der Beweis hierzu verläuft ähnlich wie der zu Satz E.1.7 und ist
deshalb dem Leser überlassen.
Satz E.1.8
(n) (n)
(n)
Sei Pn = (t0 ,t1 , . . . ,tn ) eine Folge von Zerlegungen des Intervalls [s,t] mit limn→∞ kPn k = 0. Dann gilt
n
X
i=1
|Bt (n) − Bt (n) |3 → 0 in L2 .
i
i−1
Literatur und weitere Anmerkungen
Die meisten Bücher über stochastische Analysis führen noch weitere Eigenschaften der Brownschen Bewegung an. Da die Resultate, die wir dargestellt haben, für unsere Zwecke ausreichend sind, wollen wir
nicht noch detaillierter werden und verweisen den interessierten Leser auf die Monographien von Karatsas
und Shreve [KS88], Protter [PR95], Øksendal [Øks98] oder Durrett [Dur96]. Dennoch wollen ein Ergebnis
von P. Lévy der Vollständigkeit halber nicht unerwähnt lassen. Es zeigt, dass Satz E.1.1 in gewisserweise
charakterisierend für die Brownsche Bewegung ist.
Satz E.1.9
Es sei (St ) ein stetiges Martingal zu einem filtrierten Wahrscheinlichkeitsraum (Ω, F , P, (Ft )) adaptiert
mit S0 = 0. Angenommen, der Prozess (St2 − t) ist ebenfalls ein Martingal, d. h.
EP (St2 − Ss2 |Fs ) = t − s, für alle 0 ≤ s ≤ t ≤ T.
Dann ist (St ) eine Brownsche Bewegung auf (Ω, F , P, (Ft )).
Aufgaben
1. Sei (Bt ) eine Brownsche Bewegung auf [0, ∞[. Man beweise
lim sup
t→∞
|Bt |
= ∞ f.s..
t
2. Sei (Bt ) eine Brownsche Bewegung. Man beweise, dass ω 7−→ min0≤s≤t Bs (ω ) eine Zufallsvariable
ist, und dass
´
`
P {ω ∈ Ω; min Bs (ω ) ≥ 0} = 0
0≤s≤t
gilt.
E.1 Eigenschaften der Brownschen Bewegung
453
3. Sei (Bt ) eine Brownsche Bewegung. Man definiere zu k ∈ R
τk (ω ) = inf{t ∈ R+ ; Bt (ω ) = k}.
Man beweise, dass τk eine Zufallsvariable ist mit E(τk ) = ∞ für k > 0.
4. Zu einer gegebenen Funktion f : [0, T ] → R und einer Partition P = (t0 ,t1 , . . . ,tn ) von [0, T ] definiere
man
n
X
v( f , [0, T ], P) =
| f (ti ) − f (ti−1 )|, v( f , [0, T ]) = lim v( f , [0, T ], P).
kPk→0
i=1
(a) Man zeige, falls f stetig differenzierbar ist:
v( f , [0, T ]) ≤ T sup | f ′ (t)|.
0≤t≤T
(b) Man beweise für alle Brownschen Bewegungen (Bt ), dass
lim E(v2 (B· , [0, T ], P)) = ∞
kPk→0
gilt.
454
E Stochastische Analysis
E.2 Stochastische Integration bezüglich der Brownschen
Bewegung
Bei der Optionspreisberechnung stehen wir vor folgendem grundlegenden Problem. Wir nehmen an, (Xt ) sei
ein zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess, der den Aktienpreis für die Zeit t ∈ [0, T ] beschreibt.
Ein Anleger kauft und verkauft während der Zeitspanne [s,t] Anteile dieser Aktie. Wie können wir seinen
Gewinn oder Verlust berechnen?
Zuerst müssen wir definieren, was eine Anlagestrategie ist. In diesem gesamten Abschnitt gehen wir von
einem festen filtrierten Wahrscheinlichkeitsraum (Ω, F , (Ft ), P) aus, und wie im vorhergegangenen Abschnitt bezeichnen wir die bedingte Erwartung bzgl. P einfach mit E(·).
Definition E.2.1
Ein elementarer Prozess ist ein Prozess (Ht )t≥0 der folgenden Form.
Es gibt Zeiten t0 ,t1 , . . . ,tn , 0 < t1 < . . . < tn = t, und Zufallsvariable h0 , h1 , . . . hn−1 , sodass hi Fti -messbar
ist und für t ≥ 0 gilt
n−1
X
Ht =
hi 1[ti ,ti+1 [ (t),
i=0
d. h. für ω ∈ Ω und i ∈ {0, 1, 2, . . . n − 1} mit ti ≤ u < ti+1 , folgt Hu (ω ) = hi (ω ).
Die Interpretation dieser Definition liegt auf der Hand. Zu den Zeitpunkten t0 ,t1 , . . . ,tn−1 ändert der Anleger
sein Portfolio und besitzt in der Zeitspanne [ti ,ti−1 [ hi Anteile der Aktie. Die Bedingung, dass hi Fti messbar sein soll, spiegelt die Tatsache wieder, dass die Entscheidung wieviele Anteile er zur Zeit ti halten
will, nur von der Vergangenheit vor ti abhängen kann.
P
Ist nun Hu = n−1
i=0 hi 1[ti ,ti+1 [ (u) ein elementarer Prozess, so wollen wir den Gewinn, bzw. den Verlust,
dieser Strategie berechnen, der sich während des Zeitintervalls [s,t] ergibt. Die Gewinne, die in der Zeit von
[t0 ,t1 ] auftreten, werden durch h0 (Xt1 − Xt0 ) beschrieben, die während der Zeit [t1 ,t2 ] durch h1 (Xt2 − Xt1 ),
usw.
Allgemein kann man die Gewinne in der Zeit von [s,t] wie folgt angeben:
1) Gibt es ein i ∈ {0, 1, . . . n − 1}, sodass ti ≤ s < t ≤ ti+1 , dann werden die Gewinne durch
hi (Xt − Xs )
dargestellt.
2) Gibt es i < j in {0, 1, . . . n} so, dass ti ≤ s < ti+1 ≤ t j ≤ t < t j+1 (sei tn+1 = ∞), dann ergibt sich für
die Gewinne im Intervall [s,t]:
hi (Xti+1 − Xs ) +
j−1
X
ℓ=i+1
hℓ (Xtℓ+1 − Xtℓ ) + h j (Xt − Xt j ).
Verwendet man die folgende Notation p ∨ q = max{p, q} bzw. p ∧ q = min{p, q}, so lassen sich die zwei
E.2 Stochastische Integration bezüglich der Brownschen Bewegung
455
Fälle gemäß
n−1
X
i=0
hi (X(ti+1 ∨s)∧t − X(ti ∨s)∧t )
schreiben. Dies ist genau die Formel, die man in der stochastischen Analysis als stochastisches Integral von
H bezüglich X bezeichnet.
Definition E.2.2
P
Sei (Xt ) ein zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess und H(·) = n−1
i=0 hi 1[ti ,ti+1 [ (·) ein elementarer
adaptierter Prozess. Dann definieren wir für s < t das stochastische Integral von H bezüglich X über dem
Intervall [s,t] wie folgt:
Z t
n−1
X
Hu dXu =
hi (X(ti+1 ∨s)∧t − X(ti ∨s)∧t ).
(1)
s
i=0
Wir können für das stochastische Integral folgende Eigenschaften notieren:
Satz E.2.3
Sei (Xt ) ein zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess.
1) Sind s < t, α , β ∈ R, und H und G zwei elementare adaptierte Prozesse, so gilt
Z t
Z t
Z t
(α Hu + β Gu )dXu = α
Hu dXu + β
Gu dXu .
s
s
s
Insbesondere gilt diese Gleichung für Fs -messbare Zufallsvariablen α , β .
2) Sind s < r < t und ist H ein elementarer Prozess, dann gilt
Z t
Z r
Z t
Hu dXu =
Hu dXu +
Hu dXu .
s
s
r
Der Beweis von E.2.3 ist einfach und dem Leser als Übung überlassen. Die folgende Beobachtung besagt,
Rt
dass die Familie 0 Hs dXs erneut ein stochastischer Prozess ist.
Satz E.2.4
Seien (Xt ) ein zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess und Ht ein elementarer Prozess. Dann ist
Rt
( 0 Hs dXs )t≥0 ein adaptierter Prozess.
Beweis
Rt
Aus der Gleichung (1) wird klar, dass 0 Hs dXs Ft -messbar ist. Also bleibt zu zeigen, dass die Abbildung
[0, ∞[×Ω ∋ (t, ω ) 7→
„Z
t
0
«
Hs dXs (ω )
B[0,∞[ ⊗ F -messbar ist.
Um dies einzusehen, bemerken wir zunächst, dass man H in der Form Ht = h1[t1 ,t2 [ schreiben kann, wobei
h Ft1 -messbar ist. Denn jeder einfache Prozess ist eine endliche Summe solcher noch einfacherer Prozesse.
456
E Stochastische Analysis
Zum anderen folgt in diesem Fall
Z
t
0
Hs dXs =
8
>
>
<0
falls t < t1
h(Xt − Xt1 ) falls t1 < t < t2
>
>
:
h(Xt2 − Xt1 ) falls t2 ≤ t
= 1[t1 ,t2 ] (t)h(Xt − Xt1 ) + 1]t2 ,∞[ (t)h(Xt2 − Xt1 ),
´
`R t
Da die Abbildung [0, ∞[∋ (t, ω ) 7→ 0 Hs dXs (ω ) sich als Produkt von Summen B[0,∞[ ⊗ F -messbarer
Abbildung schreiben läßt, folgt die Behauptung.
¤
Im Rest dieses Abschnittes beschränken wir uns auf die Untersuchung von stochastischen Integralen beRt
züglich der Brownschen Bewegung (Bt ) und erweitern den Begriff s Hu dBu auf eine allgemeinere Klasse
von adaptierten Prozessen (Ht ). Statt einen stochastischen Prozess als eine Familie von Zufallsvariablen
auf dem Wahrscheinlichkeitsraum (Ω, F , P) mit t indiziert zu betrachten, werden wir den Prozess als eine
Abbildung auf der Menge [0, ∞[×Ω ansehen.
Für eine Teilmenge A in [0, ∞[×Ω und t ≥ 0 bezeichnen wir mit
At = {ω ∈ Ω; (t, ω ) ∈ A}
(2)
den t-Schnitt in A.
Satz E.2.5
Sei B[0,∞[ ⊗ F die Produkt- σ -Algebra von B[0,∞[ und F wie in Satz D.2.3 und in den nachfolgenden
Beispielen von Anhang D.2 definiert. Die Menge aller A ∈ B[0,∞[ ⊗ F , die die Eigenschaft besitzen, dass
für alle t der t-Schnitt in A ein Element von Ft ist, bildet eine Unter-σ -Algebra von B[0,∞[ ⊗ Ω.
Wir nennen diese σ -Algebra die Menge aller progressiv-messbaren Mengen in (Ω, F , (Ft ), P) und bezeichnen sie mit P.
Beweis
S
Man muss nur beweisen, dass ([0, ∞[×Ω \ A)t = Ω \ At für A ⊂ [0, ∞[×Ω und t ≥ 0, sowie, dass ( An )t =
S n
At für eine Folge von Teilmengen (An ) von Teilmengen in [0, ∞[×Ω gelten. Dies sei dem Leser überlassen.
¤
Satz E.2.6
1) Jeder elementare zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess ist progressiv-messbar.
2) Alle stetigen zur Filtration (Ω, F , (Ft ), P) adaptierten Prozesse sind progressiv-messbar.
Beweis
Um (1) zu beweisen, muss man nur Prozesse H der Form Hu = h1[s,t[ (u) mit 0 ≤ s < t < ∞ und h Fs messbar betrachten. Für eine messbare Teilmenge B ⊂ R und ein v ∈ [0, ∞[ erhält man
{(u, ω ); Hu (ω ) ∈ B}v =
8
>
>{ω ; h(ω ) ∈ B}
<
>
>
:
Ω
0/
falls s ≤ v < t
falls v < s oder t ≤ v und 0 ∈ B
falls v < s oder t ≤ v und 0 6∈ B
E.2 Stochastische Integration bezüglich der Brownschen Bewegung
457
was {(u, ω ); Hu (ω ) ∈ B}v ∈ Fv in allen Fällen bedeutet.
Um (2) zu zeigen, approximieren wir einen stetigen adaptierten Prozess H durch elementare Prozesse. Für
n ∈ N definiere
n
X
(n)
Hu =
2n Hi2−n 1[i2−n ,(i+1)2−n [ (u).
i=0
(n)
Dann gilt für alle ω ∈ Ω und u ≥ 0, dass limn→∞ Hu (ω ) = Hu (ω ). Die Behauptung folgt, da der punktweise Grenzwert einer Folge messbarer Abbildungen wieder messbar ist.
¤
Bemerkung 5.2.7
Der Leser könnte versucht sein zu fragen, ob jeder adaptierte Prozess progressiv-messbar ist oder nicht. Im
allgemeinen gilt dies nicht, aber mit einigen technischen Zusatzvoraussetzungen an die Filtration (Ω, F ,
e (das bedeutet, dass für alle t ≥ 0: Ht = H
et
(Ft ), P) gibt es zu jedem adaptierten Prozess H eine Version H
f.s.) der progressiv-messbar ist. Aber wir wollen dies hier nicht weiter verfolgen und bemerken, dass E.2.6
eine genügend große Klasse von progressiv-messbaren Prozessen darstellt.
Im Folgenden werden wir für eine feste Zeit T > 0 nur Prozesse auf [0, T ] betrachten.
Definition E.2.8
Mit H2 ([0, T ]) bezeichnen wir die Menge aller progressiv-messbaren Prozesse (Ht )0≤t≤T auf der Filtration
(Ω, F , (Ft )0≤t≤T , P), für die die Pfade auf [0, T ] fast sicher quadratisch integrierbar sind, d. h. dies sind
Prozesse mit
Z
T
0
und für die
Ist H ∈ H2 ([0, T ]), dann setzen wir
Ht (ω )2 dt < ∞ für fast alle ω ∈ Ω,
“Z
E
T
0
kHkH2 =
Die Menge aller elementaren Prozesse Ht =
liegen, bezeichne man mit H2,e ([0, T ]).
”
Ht2 dt < ∞ gilt.
s
Pn−1
i=1
“Z
E
T
0
”
Ht2 dt .
hi 1[ti ,ti+1 [ , mit 0 = ti < t1 < . . .tn = T , die in H2 ([0, T ])
Beachte, dass H ∈ H2,e ([0, T ]) genau dann gilt, wenn die hi ’s quadratisch integrierbar sind.
Bemerkung E.2.9
Sei λ[0,T ] die Gleichverteilung auf dem Intervall [0, T ]. Man betrachte die Produktwahrscheinlichkeit P ⊗
λ[0,T ] auf der Menge Ω ⊗ [0, T ] versehen mit der Produkt-σ -Algebra F ⊗ B[0,T ] (vgl. Satz D.2.8 im Anhang D.2). Für eine messbare Abbildung f : Ω ⊗ [0, T ] → R gilt
“
”1
2
k f (·, ·)kL2 = Eλ[0,T ] ⊗P ( f 2 (ω ,t))
Z
“ “1 Z T
”” 1
”” 1
1 “ “ T 2
2
2
=√ E
.
f (ω ,t)dt
= E
f 2 (ω ,t)dt
T 0
T
0
458
E Stochastische Analysis
Wir schränken nun die Wahrscheinlichkeit λ[0,T ] ⊗ P auf die Unteralgebra der progressiv-messbaren Mengen ein. Diese Einschränkung bezeichnen wir mit λ[0,T ] ⊗ P|P .
Somit sehen wir, dass H2 ([0, T ]) gleich dem Raum L2 (P ⊗ λ[0,T ] |P ) ist, und versehen mit der Norm
√
kHkH2 = T kH(·) (·)kL2 für H ∈ H2 ([0, T ]). Deshalb ist k · kH2 eine Norm auf H2 ([0, T ]) (vgl. Theorem D.4.7 Anhang D.4), und die Konvergenz in H2 ([0, T ]) wird sich auf diese Norm beziehen.
Wir können nun folgenden zentralen Satz beweisen.
Satz E.2.10 (Die zentrale Isometrie)
Die Abbildung
Φ : H2,e ([0, T ]) 7→ L2 (P),
H 7→
Z
T
Ht dBt ,
0
RT
ist wohldefiniert. Dies bedeutet, dass 0 Ht dBt ein Element von L2 (P), dem Raum der quadratisch integrierbaren Abbildungen auf (Ω, F , P) ist.
Φ ist eine Isometrie von H2,e ([0, T ]) in L2 (P). Damit ist folgendes gemeint
k
Z
T
0
“ “`Z
Ht dBt kL2 = E
T
0
Ht dBt
´2 ”” 12
für alle H ∈ H2,e ([0, T ]).
= kHkH2 ,
Zum zweiten ist die Abbildung
Φ[s,t] : H2,e ([0, T ]) 7→ L2 (P),
für alle 0 ≤ s < t ≤ T eine Kontraktion, d. h.
Z t
k
Hu dBu kL2 ≤ kHkH2 ,
s
H 7→
Z
t
Hu dBu ,
s
für alle H ∈ H2,e ([0, T ]).
Beweis
P
Ist Ht = n−1
i=1 hi 1[ti ,ti+1 [ 0 = ti < t1 < . . .tn = T, so berechnen wir
“`Z
E
T
0
Ht dBt
´2 ”
n−1
“`X
´2 ”
=E
hi (Bti+1 − Bti )
i=0
n−1
“X
”
=E
h2i (Bti+1 − Bti )2
ˆ
i=0
da E(hi h j (Bti+1 − Bti )(Bt j+1 − Bt j )) =
E(hi (Bti+1 − Bti )h j E((Bt j+1 − Bt j )|Ft j )) = 0 falls i < j
=
n−1
X
i=0
E(h2i )(ti+1 − ti )
n−1
“X
”
“Z
=E
h2i (ti+1 − ti ) = E
i=0
T
0
”
Ht2 dt .
˜
E.2 Stochastische Integration bezüglich der Brownschen Bewegung
459
Hieraus ergeben sich die Behauptungen
¤
Satz E.2.11 (Dichtheit)
Die Menge H2,e ([0, T ]) ist dicht in H2 ([0, T ]), d. h. für jedes H ∈ H2 ([0, T ]) gibt es eine Folge H (n) ⊂
H2,e ([0, T ]) derart, dass
lim kH − H (n) kH2 = 0.
n→∞
Der Beweis des Satzes E.2.11 ist sehr technisch, und wir verzichten auf eine Darstellung. Andererseits ist es
tatsächlich ausreichend, sich den Raum H2 ([0, T ]) als die Menge der progressiv-messbaren Prozesse H zu
denken, für die es eine approximierende Folge (H (n) ) in H2,e ([0, T ]) mit limn→∞ kH − H (n) kH2 = 0 gibt.
Später zeigt sich (vgl. Satz E.2.13) dass alle stetigen, beschränkten und adaptierten Prozesse dazugehören.
Rt
Wenn wir Satz E.2.10 und E.2.11 benutzen, können wir jetzt das Integral s Hu dBu für alle H ∈ H2 ([0, T ])
definieren.
Satz E.2.12 (Stochastisches Integral )
(bezüglich (Bt ) in H2 ([0, T ])) Für 0 ≤ s < t ≤ T lässt sich die Abbildung
Φ[s,t] : H2,e ([0, T ]) → L2 (P),
H 7→
Z
t
Hu dBu
s
in eindeutiger Weise, die wir erneut mit Φ[s,t] bezeichnen, zu einer Abbildung
Φ[s,t] : H ∈ H2 ([0, T ]) → L2 (P)
so fortsetzen, dass Φ[s,t] auf H2 ([0, T ]) wieder eine Kontraktion ist.
Für dieses Integral schreiben wir
Z t
s
Hu dBu = Φ[s,t] (H), falls H ∈ H2 ([0, T ]),
und bezeichnen es als stochastisches Integral von H bezüglich (Bu ) auf [s,t]. Dieses Integral hat folgende
Eigenschaften:
1) Seien s < t, H und G Elemente von H2 ([0, T ]), und seien α und β Fs -messbare Zufallsvariable,
sodass α Hu 1[s,t] (u) und β Gu 1[s,t] (u) wieder ein Element von H2 ([0, T ]) sind. Dann gilt
Z
t
α Hu + β Gu dBu = α
s
2) Falls s < r < t und H ∈ H2 ([0, T ]), so folgt
Z
t
Hu dBu =
s
3) Für H ∈ H2 ([0, T ]) ist der Prozess
ein Martingal.
„Z
Z
Z
t
Hu dBu + β
s
r
Hu dBu +
s
t
0
Hu dBu
«
Z
Z
t
Gu dBu .
s
t
Hu dBu .
r
t∈[0,T ]
460
E Stochastische Analysis
Beweis
Sei H ∈ H2 ([0, T ]). Nach Satz E.2.11 können wir eine Folge H (n) ⊂ H2,e ([0, T ]) mit limn→∞ kH −H (n) kH2 =
R t (n)
0 auswählen. Gemäß Satz E.2.10 bedeutet dies, dass die Folge s Hu dBu eine Cauchyfolge in L2 (P) ist,
und konvergiert deshalb wegen der Vollständigkeit von L2 (P) gegen ein y ∈L2 (P) (vgl. Anhang D.4). Wir
bemerken, dass y nicht von der Wahl der Folge (H (n) ) ⊂ H2,e ([0, T ]) abhängt, solange sie gegen H in
e (n) ) ⊂ H2,e ([0, T ]) mit limn→∞ kH − H
e (n) kH = 0, so folgt
der k · kH2 −Norm konvergiert. Denn ist (H
2
(n)
(n)
e
limn→∞ kH − H kH2 = 0. Somit ergibt Satz E.2.10, dass
e (n) )kL2 = 0,
lim kΦ[s,t] (H (n) ) − Φ[s,t] (H
n→∞
e (n) )kL2 = 0 bedeutet.
was limn→∞ ky − Φ[s,t] (H
Setzen wir für H ∈ H2 ([0, T ])
Φ[s,t] (H) = L2 − lim Φ[s,t] (H (n) ),
n→∞
so erkennen wir, dass Φ[s,t] eine wohldefinierte Abbildung von H2 ([0, T ]) nach L2 (P) ist.
Um zu zeigen, dass Φ[s,t] eine Kontraktion ist, sowie die Behauptungen (1) und (2) nachzuweisen, wählen
wir H, G ∈ H2 ([0, T ]) und (H (n) ), (G(n) ) ⊂ H2,e ([0, T ]), die gegen H und G konvergiert. Man beachte,
dass
kΦ[s,t] (H) − Φ[s,t] (G)k = lim kΦ[s,t] (H (n) ) − Φ[s,t] (G(n) )kL2
n→∞
≤ lim kH (n) − G(n) kH2
n→∞
(gemäß Satz E.2.10 (2))
= kH − GkH2 .
Dies beweist, dass Φ[s,t] eine Kontraktion ist. Nun folgt mit Satz E.1.1 (1), dass zwei Fs -messbare Abbildungen α , β die Bedingungen des Satzes erfüllen
Φ[s,t] (α H + β G) = L2 − lim Φ[s,t] (α H (n) + β G(n) )
n→∞
= L2 − lim α Φ[s,t] (H (n) ) + β Φ[s,t] (G(n) ) = α Φ[s,t] (H) + β Φ[s,t] (G),
n→∞
woraus sich (1) ergibt. Für s < r < t folgt aus Satz E.1.1 (2), dass
Φ[s,t] (α H) = L2 − lim Φ[s,t] (H (n) ) = L2 − lim Φ[s,r] (H (n) ) + L2 − lim Φ[r,t] (H (n) ) = Φ[s,r] (H) + Φ[r,t] (H),
n→∞
n→∞
n→∞
und (2) ist gezeigt.
e [s,t] eine weitere kontraktive FortsetUm die Eindeutigkeit von Φ[s,t] nachzuweisen, nehmen wir an, dass Φ
(n)
zung ist und folgern, dass für H ∈ H2 ([0, T ]) und eine Folge (H ) ⊂ H2,e ([0, T ]), die gegen H konvergiert,
e [s,t] (H (n) ) = Φ
e [s,t] (H)
Φ[s,t] (H) = L2 − lim Φ[s,t] (H (n) ) = L2 − lim Φ
n→∞
gilt.
n→∞
Rt
Schließlich zeigen wir, dass ( 0 Hu dBu )0≤t≤T ein Martingal ist. Falls H ∈ H2,e ([0, T ]) kann man dies
einfach einsehen (vgl. Übungsaufgabe 4). Allgemein wählen wir eine Folge H (n) ⊂ H2,e ([0, T ]), die gegen
E.2 Stochastische Integration bezüglich der Brownschen Bewegung
461
H konvergiert und folgern mit Satz D.4.10 im Anhang D.4 für 0 ≤ s ≤ t ≤ T, dass
E(Φ[0,t] (H)|Fs ) = L2 − lim E(Φ[0,t] (H (n) )|Fs ) = L2 − lim Φ[0,s] (H (n) ) = Φ[0,s] (H),
n→∞
n→∞
Damit ist (3) bewiesen, und der Beweis des Satzes ist abgeschlossen.
¤
Um ein besseres Gefühl für stochastische Integrale zu gewinnen, wollen wir das stochastische Integral eines
stetigen und beschränkten Prozesses bezüglich der Brownschen Bewegung ausrechnen.
Satz E.2.13
Sei (Ht )t∈[0,T ] ein stetiger und adaptierter Prozess auf (Ω, F , (Fs )0≤s≤T , P). Wir nehmen zusätzlich an,
(n)
(n) (n)
dass supt∈[0,T ] |Ht | ≤ c < ∞ fast sicher gilt. Sei (P(n) ) = ((t0 ,t1 , . . . ,t1 )) eine Folge von Partitionen von
[0, T ], mit kP(n) k → 0, für n → ∞. Man definiere H (n) durch
(n)
Hu =
n−1
X
Hti 1[ti ,ti+1 [ (u).
i=0
Dann konvergiert H (n) in H2 ([0, T ]) gegen H und, folglich gilt nach Satz E.2.12, dass
Z
t
s
Hu dBu = L2 − lim
Z
n→∞ s
t
(n)
Hu dBu = L2 − lim
n→∞
n−1
X
i=0
Hti (B(ti+1 ∨s)∧t) − B(ti ∨s)∧t ).
Beweis:
Sei ω ∈ Ω fest gewählt. Wir schließen aus der Definition des Riemannintegrals, dass
lim
Z
n→∞ 0
T
(n)
(Hu (ω ) − Hu (ω ))2 dt = 0.
RT
RT
(n)
Somit konvergiert die Folge der Zufallsvariablen ( 0 (Hu − Hu )2 dt) fast sicher gegen Null. Da 0 (Hu −
(n)
Hu )2 dt ≤ T c2 , kann man den Satz von der Majorisierten Konvergenz anwenden (vgl. Satz D.2.24), und
die Behauptung folgt.
¤
Wir benötigen noch eine Erweiterung des stochastischen Integrals.
Definition E.2.14
H2w ([0, T ]) sei der Raum der progressiv-messbaren Prozesse (Ht )t∈[0,T ] für die
P
Z
“n
ω ∈Ω:
T
0
o”
=1
Ht2 (ω )dt < ∞
gilt. Wir definieren die Konvergenz in H2w ([0, T ]) wie folgt: Eine Folge H (n) ⊂ H2w ([0, T ]) konvergiert
RT
(n)
gegen ein H ∈ H2w ([0, T ]), falls die Folge 0 (Ht − Ht )2 dt in Wahrscheinlichkeit gegen 0 konvergiert.
Bemerkung E.2.15
Man beachte, dass H2w ([0, T ]) alle stetigen Prozesse umfasst.
Das folgende Lemma spielt eine Schlüsselrolle, wenn man den Intergralbegriff auf Prozesse in H2w ([0, T ])
erweitern will.
462
E Stochastische Analysis
Lemma E.2.16
Sei (Ht )t∈[0,T ] ein Prozess in H2 ([0, T ]), 0 ≤ s < t ≤ T , und ε , δ > 0. Dann gilt
P
“n˛Z
˛
˛
T
0
˛
o”
“n˛Z
˛
˛
Hu dBu ˛ ≥ ε ≤ P ˛
T
0
˛
o” δ
˛
+ 2
Hu2 dt ˛ ≥ δ
ε
Beweis
e durch
Zuerst nehmen wir an, dass H ∈ H2,e ([0, T ]) gilt. Wir definieren H
8
<H (ω ) falls u ≥ s und R u H 2 (ω )dv ≤ δ
u
s v
e
Hu (ω ) =
:0
sonst
Rt 2
eu (ω ) für alle u ∈ [s,t] oder, dass
eu du ≤ δ . Für ω ∈ Ω folgt entweder Hu (ω ) = H
Man beachte, dass s H
Rt 2
H
du
≥
δ
.
Im
ersten
Fall
ergibt
sich
aus
der
Definition
des
stochastischen
Integrals für elementare Pros u
Rt
Rt
eu (ω )du. Deshalb folgern wir
zesse, dass s Hu (ω )du = s H
P
“n˛ Z
˛
˛
T
0
≤P
˛
o”
˛
Hu dBu ˛ ≥ ε
“n˛Z
˛
˛
T
0
˛
o” “n˛Z
eu dBu ˛˛ ≥ ε +P ˛˛
H
T
0
˛
o”
˛
Hu2 du˛ ≥ δ
Z
˛
“n˛Z T
o”
´2 ”
1 “` T e
˛
2 ˛
H
du
E
H
dB
+
P
˛≥δ
˛
u
u
u
2
ε
0
0
[Tschebyscheff-Ungleichung (vgl.Satz D.4.2 im Anhang D.4)]
Z
˛
o”
“n˛Z T
1 “ T e2 ”
˛
˛
= 2E
Hu du + P ˛
Hu2 du˛ ≥ δ
ε
0
0
[gemäß Satz E.2.10]
˛
o”
“n˛Z T
δ
˛
˛
≤ 2 +P ˛
Hu2 du˛ ≥ δ
ε
0
Dies beweist den Satz für elementare Prozesse. Um die Aussage auf H ∈ H2 ([0, T ]) zu verallgemeinern,
wählen wir zuerst eine Folge H (n) ⊂ H2,e ([0, T ]), die gegen H bezüglich der k · kH2 −Norm konvergiert
und beachten, dass dann
˛
˛
“n˛Z T
o”
“n˛Z T
o”
˛
˛
˛
˛
(n)
Hu dBu ˛ ≥ ε = P ˛
lim P ˛
Hu dBu ˛ ≥ ε
und
n→∞
“n˛Z
˛
lim P ˛
n→∞
0
0
0
˛
o”
“n˛Z
T
˛
˛
(n)
(Hu )2 du˛ ≥ δ = P ˛
T
0
˛
o”
˛
Hu2 du˛ ≥ δ
gelten.
¤
Korollar E.2.17
Sei H (n) ⊂ H2 ([0, T ]) eine Cauchy-Folge bezüglich der Konvergenz definiert in H2w ([0, T ]), d. h. für alle
ε > 0 gibt es ein n ∈ N so, dass für alle k, m ≥ n
P
“nZ
T
0
(k)
(m)
(Hu − Hu )2 du > ε
o”
< ε.
E.2 Stochastische Integration bezüglich der Brownschen Bewegung
463
R t (n)
Dann konvergiert die Folge s Hu dBu in Wahrscheinlichkeit im Raum L0 (P), dem Raum aller messbaren
Abbildungen Ω für alle 0 ≤ s < t ≤ T .
Beweis
Wir nehmen an, dass H (n) eine Cauchy-Folge in H2 ([0, T ]) bezüglich der in H ∈ H2w ([0, T ]) definierten
Konvergenz ist. Zu gegebenen ε > 0 wähle man δ = ε 3 /2. Dann existiert ein n ∈ N so, dass
P
“nZ
t
s
(m)
(Hu (k) − Hu )2 du > δ
o”
< ε /2,
für alle m, k ≥ n. Mit Lemma E.2.16 folgern wir, dass
“nZ t
o”
“nZ t
o” δ
(m)
(m)
P
(Hu (k) − Hu )dBu > ε
≤P
+ 2 = ε.
(H(k) − Hu )2 du > δ
ε
s
s
R t (n)
Dies zeigt, dass s Hu dBu eine Cauchy-Folge bezüglich der Konvergenz in Wahrscheinlichkeit ist. Da
L0 (P) vollständig bezüglich der Konvergenz in Wahrscheinlichkeit ist, (vgl. Satz D.4.4 in Anhang D.4)
folgt die Behauptung.
¤
Wir können nun das stochastische Integral auf den Raum H2w ([0, T ]) mit ähnlichen Argumenten wie im
Beweis zum Satz E.2.12 fortsetzen.
Satz E.2.18 (Stochastisches Integral )
(bezüglich (Bt ) auf H2w ([0, T ])) Für 0 ≤ s < t ≤ T kann man die Abbildung
Φ[s,t] : H2 ([0, T ]) → L2 (P),
H 7→
Z
t
Hu dBu
s
eindeutig zu einer Abbildung, die erneut mit Φ[s,t] bezeichnet wird,
Φ[s,t] : H ∈ H2w ([0, T ]) → L0 (P)
so fortsetzen, dass Φ[s,t] sowohl bezüglich der Konvergenz, die auf H2w ([0, T ]) definiert ist, als auch bezüglich der Konvergenz in Wahrscheinlichkeit in L0 (P) stetig ist. L0 (P) bezeichnet den Raum der messbaren
Abbildungen auf (Ω, F ) mit der Konvergenz in Wahrscheinlichkeit. Wir definieren
Z
t
s
Hu dBu = Φ[s,t] (H), für H ∈ H2w ([0, T ]),
und nennen es stochastisches Integral von H bezüglich (Bu ) auf [s,t]. Das Integral hat zusätzlich folgende
Eigenschaft.
1) Für s < t, Fs -messbare Abbildungen α , β , H und G in H2w ([0, T ]) gilt
Z
t
α Hu + β Gu dBu = α
s
Z
t
Hu dBu + β
s
2) Sind s < r < t und H ∈ H2w ([0, T ]), so folgt
Z
t
Hu dBu =
s
Z
r
Hu dBu +
s
Z
Z
t
Gu dBu .
s
t
Hu dBu .
r
464
E Stochastische Analysis
Beweis
Zuerst zeigen wir, dass H2 ([0, T ]) dicht in H2w ([0, T ]) bezüglich der Konvergenz definiert in H2w ([0, T ])
ist. Für H ∈ H2w ([0, T ]) definieren wir H n = max(n, H) (∈ H2 ([0, T ])). Dann konvergiert für feste ω ∈ Ω
(n)
und u ∈ [0, T ] Hu (ω ) gegen Hu (ω ). Für festes ω folgern wir mit Hilfe des Satzes der majorisierten KonRt
(n)
vergenz angewandt auf die Gleichverteilung auf [0, T ], dass s (Hu (ω ) − Hu (ω ))2 du gegen 0 konvergiert.
Rt
(n) 2
Deshalb konvergiert s (Hu − Hu ) du in Wahrscheinlichkeit gegen 0.
Für H ∈ H2w ([0, T ]) finden wir eine Folge H (n) in H2 ([0, T ]), die gegen H konvergiert. Insbesondere ist
sie eine Cauchy-Folge bezüglich der auf H2w ([0, T ]) definierten Konvergenz. Für s < t ergibt sich gemäß
R t (n)
Korollar E.2.17, dass s Hu dBu in Wahrscheinlichkeit gegen ein y in L0 (P) konvergiert.
Ab jetzt verläuft der Beweis ähnlich dem zu Satz E.2.12, und wir skizzieren den Rest nur noch. Die Norm
k · kL2 , die wir im Beweis zu Satz E.2.12 eingeführt haben, muss durch die Metrik d( f , g) = E(min{(| f −
g|, 1}) ersetzt werden, die die Konvergenz in Wahrscheinlichkeit im Raum L0 (P) charakterisiert.
Wir vermerken, dass der obige Grenzwert y nicht von der approximierenden Folge H (n) abhängt, und wir
Rt
können deswegen s HdBu = y setzen.
Die Stetigkeit von Φ[s,t] auf H2w ([0, T ]) folgt aus der Stetigkeit von Φ[s,t] auf H2 ([0, T ]) wie in Korollar E.2.17 gezeigt, und die Behauptungen (1) und (2) folgen wie im Beweis zu Satz E.2.12.
¤
Literatur
Wie wir es unten in den Übungen beschreiben, gibt es unterschiedliche Zugänge, ein stochastisches Integral zu definieren. Es war Itô, der als erster ein derartiges Integral definierte [Itô51]. Allerdings gibt es
das Integral nach Stratonovich [Str66], das in manchen Situationen nützlicher ist (wie die Integration auf
Mannigfaltigkeiten). Das Itô-Integral wird man dort benutzen, wo man der Tatsache Rechnung tragen will,
„nicht in die Zukunft zu schauen“ (vgl. [Øks98]). Für unsere Belange reicht der beschriebene Zugang und
bedeutet keine Einschränkung, das Itô-Integral bezüglich der Brownschen Bewegung zu definieren. Allerdings, wenn man fortgeschrittenere Methoden benutzen will, Vermögenswerte zu beschreiben, muss man
zu den sogenannten Semimartingalen übergehen, eine Verallgemeinerung des Martingalbegriffes, zu dem
die Brownsche Bewegung gehört. Der interessierte Leser mag einen Blick in den Standardbüchern über
stochastische Analysis werfen, um mehr über die Integration bezüglich eines Semimartingals zu erfahren
(vgl. Protter, Karatsas und Shreve oder Øksendal [PR95, KS88, Øks98]). Einen alternativen Zugang zur
stochastischen Integration findet man in Sirjaev [Sir88].
E.2 Stochastische Integration bezüglich der Brownschen Bewegung
465
Aufgaben
1. Man beweise E.2.3.
Rt
2. Angenommen H ∈ H2,e ([0, T ]). Man beweise, dass ( 0 Hu dBu )0≤t≤T ein Martingal ist, wobei (Bt )
eine Brownsche Bewegung darstellt.
Zt
3. Man ersetze in der Definition des stochastischen Integrals g(Bs ) dBs den linken Randpunkt durch
0
den rechten, d. h.
Zt
g(Bs ) dBs =
0
lim
kPk→0
n
X
i=1
g(Bti )(Bti − Bti−1 ).
Man betrachte g(x) = x, um zu beweisen, dass der obere Grenzwert verschieden vom Itô-Integral ist.
4. (Integral nach Stratonovich) Sei f ∈ H2 ([0, T ]) derart, dass t 7−→ f (t, ω ) f.a. ω ∈ Ω stetig ist. Für
eine Partition P = {t0 , . . . ,tn } definiere man ti∗ = 21 (ti+1 + ti ). Definiere
Z
T
f (t, ω ) ◦ dBt = lim
kPk→0
0
n
X
f (ti∗ , ω )∆Bt ,
i=0
falls der Grenzwert in L2 (P) existiert. Man berechne
Z
T
Bt ◦ dBt
0
für eine Brownsche Bewegung. Man vergleiche dieses Resultat mit dem Itô-Integral von
Z
T
0
Bt dBt .
5. Man beweise die partielle Integralformel: Sei f : [0, T ] −→ R stetig differenzierbar. Dann gilt
Z
T
0
f (s)dBs = f (T )BT −
Z
T
0
f ′ (s)Bs ds.
6. Angenommen ξ ist eine integrierbare Zufallsvariable auf einem filtrierten Wahrscheinlichkeitsraum
(Ω, F , P, (Ft )t∈[0,T ] ). Weiter nehme man an, dass es einen adaptierten Prozess (At ) ∈ H2 ([0, T ])
derart gibt, dass
Z T
ξ = E(ξ ) +
As dBs .
0
Man zeige, dass die Darstellung bis auf Gleichheit fast sicher gilt, d. h. ist
ξ = E(ξ ) +
Z
T
0
Ãs dBs
für einen weiteren adaptierten Prozess (Ãt ) ∈ H2 ([0, T ]), so folgt At (ω ) = Ãt (ω ) für fast alle (ω ,t) ∈
Ω × [0, T ].
7. Sei (Bt ) eine Brownsche Bewegung auf einem filtrierten Wahrscheinlichkeitsraum
466
E Stochastische Analysis
(Ω, F , P, (Ft )t∈[0,T ] ). Man beweise, dass es einen adaptierten Prozess (θt1 ), (θt1 ) ∈ H2,e ([0, T ])
derart gibt, dass aus den Gleichungen
(1)
Vt
= 1+
Z
T
(1)
(2)
θs dBs , Vt
0
= 1+
Z
T
0
(2)
θs dBs
die Identitäten
(1)
V1
(2)
= V1
für fast alle (ω ,t) ∈ Ω × [0, 1] folgen.
(1)
= 0 und Vt
(2)
≥ 0, Vt
≥0