C Grundlegende Bezeichnungen und Ergebnisse aus der linearen Algebra C.1 Lineare Algebra und Topologie im Rn Für n = 1, 2, 3, . . . definieren wir Rn = {(x1 , . . . , xn ); x1 , x2 , . . . , xn ∈ R}, den kanonischen n-dimensionalen Vektorraum über R. Seien x, y ∈ Rn , x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ). Dann ist das Skalarprodukt von x und y durch hx, yi = x1 y1 + x2 y2 + · · · + xn yn = n X xi yi i=1 definiert. Die (euklidische) Länge von x ist kxk = p hx, xi = n “X i=1 xi2 ”1/2 . Die nachfolgenden Eigenschaften des Skalarproduktes und der Länge von Vektoren in Rn lassen sich einfach aus der Definition ableiten. Satz C.1.1 Seien x, y, z ∈ Rn und a ∈ R. 1) hx, yi = hy, xi, 2) hx, (ay)i = h(ax), yi = ahx, yi, 3) hx, (y + z)i = hx, yi + hx, zi, 4) ||x ± y||2 = ||x||2 + ||y||2 ± 2hx, yi 5) ||x + y||2 + ||x − y||2 = 2||x||2 + 2||y||2 (Parallelogrammidentität) 6) ||x + y|| ≤ ||x|| + ||y|| (Dreiecksungleichung) 7) |hx, yi| ≤ ||x|| · ||y|| (Cauchy-Schwartz-Ungleichung) Sind x ∈ Rn und A ⊂ Rn , so definieren wir den Abstand zwischen x und A durch dist(x, A) = infy∈A ||y − x||. Für x ∈ Rn und ε > 0 nennen wir die Menge Uε (x) = {y ∈ Rn | kx − yk < ε } die ε -Umgebung von x. Eine Menge A ⊂ Rn heißt offen, falls es für jedes x ∈ A ein ε > 0 gibt (abhängig von x), sodass Uε (x) ⊂ A. Das Komplement einer offenen Menge wird abgeschlossen genannt. Man beachte, dass für eine abgeschlossene nichtleere Menge B ⊂ Rn und ein x 6∈ B der Abstand positiv ist, d. h. dist(x, B) > 0. Denn, da x in der offenen Menge Rn \ B liegt, gibt es ein ε > 0, so dass Uε (x) ⊂ Rn \ B. Also Uε (x) ∩ B = 0, / woraus folgt, dass ||x − y|| ≥ ε > 0 für alle y ∈ B gilt. 410 C Lineare Analysis Wir definieren eine konvergente Folge. Eine Folge (x(k) ) ⊂ Rn konvergiert gegen x ∈ Rn , falls ||x(k) − x|| → 0 für n → ∞. Liegt die Folge x(k) in der abgeschlossenen Teilmenge B und konvergiert sie / Dann gegen x ∈ Rn , so folgt x ∈ B. Denn würde x 6∈ B, gelten, so gäbe es ein ε > 0 mit Uε (x) ∩ B = 0. folgt aber, dass dist(x, {x(k) |k ∈ N}) ≥ dist(x, B) ≥ ε , was der Konvergenz der Folge gegen x widerspricht. Aus der Definition der Norm || · || ergibt sich, dass eine Folge (x(k) ) ⊂ Rn gegen ein x ∈ Rn genau dann konvergiert, wenn jede Komponente von x(k) gegen die entsprechende Komponente von x konvergiert, d. h. (k) falls x j → x j , n → ∞, für alle j = 1, 2, . . . , n. Hiermit können wir folgern, dass jede beschränkte Folge (x(k) ) ⊂ Rn (was supk∈N ||x(k) || < ∞ bedeutet) eine konvergente Teilfolge besitzt. Aus diesen Beobachtungen leiten wir leicht den folgenden Satz ab, der im nächsten Abschnitt für uns von Nutzen sein wird. Satz C.1.2 Falls B ⊂ Rn abgeschlossen ist und a ∈ Rn \ B, so gibt es ein b ∈ B, das zu a einen minimalen Abstand besitzt, d. h. ||a − b|| = dist(a, B) > 0. Sei nun L ⊂ Rn ein Unterraum von Rn . Das ist eine Teilmenge, für die α x + β y ∈ L gilt, falls x, y ∈ L und α , β ∈ R. Der Orthogonalraum oder das orthogonale Komplement von L in Rn ist die Menge L⊥ = {y ∈ Rn ; für alle x ∈ L : hx, yi = 0}. Es ist leicht zu zeigen, dass L⊥ auch wieder ein Unterraum von Rn ist. Wird L durch die Vektoren a(1) , a(2) , . . . a(r) aufgespannt, d. h. falls r X αi a(i) ; α1 , α2 , . . . αr ∈ R} L={ i=1 gilt, so ergibt sich L⊥ = {y ∈ Rn ; für alle i = 1, . . . r : ha(i) , yi = 0}. Wir betrachten eine Basis c(1) , c(2) , . . . , c(d) von L (d .h. jedes Element von L lässt sich in eindeutiger Weise als Linearkombination der c(1) , c(2) , . . . , c(d) schreiben). Mit Hilfe des Gram-Schmidt’schen Orthonormalisierungsverfahrens kann man aus c(1) , c(2) , . . . , c(d) eine Orthonormalbasis a(1) , a(2) , . . . , a(d) von L gewinnen ( ||a(i) || = 1 und ha(i) , a( j) i = 0 falls i 6= j): Man wähle a(1) = c(1) , und ||c(1) || ae(2) = c(2) − a(1) hc(2) , a(1) i (Beachte he a(2) , a(1) i = 0) und definiere folglich a(2) = ae(2) ||e a(2) || Allgemein gilt: Wenn a(1) , a(2) , . . . , a(i) definiert sind, dann setze man ae(i+1) = c(i+1) − i X j=1 a(i) hc(i+1) , a(i) i und schließlich a(i+1) = ae(i+1) . ||e a(i+1) || C.1 Lineare Algebra und Topologie im Rn 411 Wir können a(1) , a(2) , . . . , a(d) zu einer Basis a(1) , a(2) , . . . , a(n) von Rn erweitern, wobei man nach dem Gram-Schmidt’schen Orthonormalisierungsverfahren annehmen kann, dass die Basis erneut orthonormal ist. Wir stellen fest, dass a(d+1) , a(d+2) , . . . , a(r) eine Basis von L⊥ ist. Denn, da a(1) , a(2) , . . . , a(d) eine orthonormale Basis von L darstellt, liegen a(d+1) , a(d+2) , . . . , a(r) in L⊥ . Desweiteren lässt sich jeder Vektor y in L⊥ in der Form y= n X αi a(i) i=1 darstellen (a(1) , a(2) , . . . , a(n) ist eine Basis of Rn ). Somit folgt, dass αi = hy, a(i) i = 0 für i = 1, . . . , d, da y ∈ L⊥ . Also ist y tatsächlich eine Linearkombination von a(d+1) , . . . , a(n) . Hieraus ergibt sich, dass a(d+1) , . . . a(n) eine Basis von L⊥ ist. Mithilfe dieser Beobachtungen lässt sich folgende Satz formulieren. Satz C.1.3 Sei L ein Unterraum von Rn . Dann gibt es für jedes x ∈ Rn eindeutig bestimmte Elemente x1 ∈ L und x2 ∈ L⊥ , sodass x = x1 + x2 . Ferner ist der Orthogonalraum von L⊥ wieder L, d. h. (L⊥ )⊥ = L. Beweis Sei a(1) , a(2) , . . . , a(n) eine Orthonormalbasis von Rn , sodass a(1) , a(2) , . . . , a(d) eine Basis von L und a(d+1) , a(d+2) , . . . , a(n) eine Basis von L⊥ sind. Wie wir eben gezeigt haben, gibt es eine solche Basis. Somit lässt sich jedes Element x ∈ Rn in einer Linearkombination x= n X i=1 αi a(i) , mit α1 , . . . αn ∈ R (1) darstellen. P P Also folgt x1 = di=1 αi a(i) ∈ L, x2 = ni=d+1 αi a(i) ∈ L⊥ , und x = x1 + x2 . Diese Darstellung ist eindeutig, da die Darstellung von x in (1) eindeutig ist. Da wir a(d+1) , a(2) , . . . , a(n) als Basis von L⊥ angenommen haben, erhalten wir durch unsere obige Beobachtung, dass a(1) , a(2) , . . . , a(d) eine Basis von (L⊥ )⊥ sein muss. Somit gilt (L⊥ )⊥ = L. ¤ Sei nun a(1) , a(2) , . . . , a(r) ∈ Rn eine endliche Folge, die L aufspannt. Wir definieren A als die n × r-Matrix, deren Spalten aus a(1) , a(2) , . . . , a(r) bestehen. Dann ist L das Bild von A (wir schreiben R(A)), d. h. L={ r X i=1 xi a(i) ; x1 , x2 , . . . xr ∈ R} = {A ◦ x; x ∈ Rr }. Die Transponierte AT von A ist die r × n-Matrix, deren i-te Zeile die i-te Spalte von A ist. Wir erkennen, dass L⊥ Kern (oder Nullraum) von AT ist, den wir mit N (AT ) bezeichnen. Anders ausgedrückt L⊥ = {x ∈ Rn ; für alle i = 1, . . . r : ha(i) , xi = 0} = {x|AT ◦ x = 0} = N (AT ). 412 C Lineare Analysis Aus diesen Betrachtungen und mit C.1.3 lässt sich folgendes Prinzip ableiten, das manchmal als Hauptsatz der linearen Algebra bezeichnet wird. Satz C.1.4 Sei A eine n × m-Matrix. Dann ist N (AT ) der Orthogonalraum von R(A). C.2 Der Satz von Farkas und einige Folgerungen 413 C.2 Der Satz von Farkas und einige Folgerungen In diesem Abschnitt wollen wir die Ergebnisse formulieren, die notwendig sind, um die Existenz des Zustandspreisvektors im arbitragefreien Arrow-Debreu-Modell zu zeigen (vgl. Abschnitt 2.1). Diese Resultate entstammen der Theorie der linearen Programmierung. Wir versuchen hier weder, eine Einführung in dieses Gebiet zu geben, noch wollen wir ihre Relevanz und Gebrauch in den Wirtschaftswissenschaften darlegen. Der Leser mag the umfangreiche Literatur dazu bemühen. Um unsere Darstellung so geschlossen wie möglich zu halten, wollen wir nur ein wichtiges Ergebnis vorstellen, den Satz von Farkas, und einige, für uns wichtige, Folgerungen ableiten. Die folgende Version des Satzes von Farkas stammt von Tucker. Satz C.2.1 (Tucker’s Version des Satzes von Farkas) Seien A eine n × m Matrix und b ∈ Rm . Dann gilt eine der folgenden Aussagen. 1) Es gibt ein x ∈ Rn+ , so dass AT ◦ x = b. 2) Es gibt ein y ∈ Rm , so dass A ◦ y ∈ Rn+ und hb, yi < 0. Beweis Zuerst zeigen wir, dass sich die Aussagen gegenseitig ausschließen. Dazu nehmen wir an, ein x ∈ Rn+ erfülle (1) und ein y ∈ Rm genüge (2). Dann schließen wir einerseits, dass hy, (AT ◦ x)i = h(A ◦ y), xi ≥ 0, da x und A ◦ y beide keine negative Komponenten haben. Andererseits ergibt sich, dass hy, (AT ◦ x)i = hy, bi < 0, und wir erhalten einen Widerspruch. Als nächstes nehmen wir an, dass (1) nicht erfüllt ist. Wir müssen (2) nachweisen. Dazu sei C = {AT ◦ z; z ∈ Rn+ }. Man beachte, dass C ein Kegel in Rm ist, d. h. dass C bezüglich Addition und Multiplikation mit nichtnegativen Skalaren abgeschlossen ist. Wir können uns C als die Menge aller nichtnegativen Kombinationen von Zeilenvektoren von A vorstellen, die wir mit A(1,·) , A(2,·) , . . . , A(n,·) bezeichnen. Da (1) nicht gilt, folgern wir, dass b 6∈ C, und da C eine abgeschlossene Menge ist, ergibt sich dist(b,C) > 0. Nach Satz C.1.2 wählen wir nun ein y(0) ∈ C, das einen minimalen Abstand zu b hat. Wir wollen zeigen, dass y = y(0) − b der Bedingung (2) genügt. Dazu behaupten wir zuerst, dass aus z ∈ C auch hz, yi ≥ 0 folgt. Denn für ε > 0 erhält man y(0) + ε z ∈ C und somit ||y(0) − b||2 ≤ ||y(0) + ε z − b||2 (denn ||y(0) − b|| = dist(b,C)). Nach Kürzen folgt 0 ≤ 2ε h(y(0) − b), zi + ε 2 ||z||2 . Falls h(y(0) − b), zi < 0, so könnte man ein ε > 0 klein genug wählen, sodass diese Ungleichung sich umdreht, und wir einen Widerspruch erhalten würden. Da die Zeilen von A in C liegen, können wir zuerst folgern, dass hA(i,·) , yi ≥ 0, was zeigt, dass alle Einträge von A ◦ y nichtnegativ sind. Um die zweite Bedingung (2) nachzuweisen, bemerken wir, dass wir bei dem Beweis der obigen Behauptung in der Tat benutzt haben, dass y(0) + ε z ∈ C. Nun ergibt sich für 0 < ε < 1, dass sowohl y(0) + ε y(0) als auch y(0) − ε y(0) in C liegen. Wir folgern damit aus dem Beweis zur obigen Behauptung, dass hy(0) , yi = 0 und somit, dass hy, bi = hy, (b − y(0) )i = −||y||2 = −dist2 (b,C) < 0. Dies besagt aber die zweite Bedingung in (2). ¤ 414 C Lineare Analysis Aus dem Satz von Farkas ergeben sich einige Folgerungen. Korollar C.2.2 Sei A eine n × m Matrix. Dann gilt genau eine der folgenden Aussagen. 1) Es gibt ein x ∈ Rn+ \ {0} mit AT ◦ x = 0. 2) Es gibt ein y ∈ Rm mit A ◦ y ∈ Rn++ . Beweis Die beiden Aussagen schließen sich gegenseitig aus. Denn sollte x Bedingung 1) und y Bedingung 2) erfüllen, so schließen wir aus 1), dass hy, (AT ◦ x)i = 0. Aber nach 2) gilt, dass hy, (AT ◦ x)i = h(A ◦ y), xi > 0, da die Komponenten von (A ◦ y) alle streng positiv, die Koordinaten von x alle nichtnegativ sind und x zumindest eine strikt positiven Komponente besitzt. Weiter definieren wir 0 1 B1 B e = B. A B. @. 1 also 0 A(1,1) A(2,1) .. . A(n,1) 1 A(n,2) 1 BA B (1,1) B f T A = B .. B . @ A(1,m) Man setze noch A(1,2) A(2,2) A(2,1) .. . ... ... .. . A(2,m) 1 0 A(1,m) 1 A(2,m) C C B. C = B. C @. A 1 A(n,m) ... ... .. . ... 1 1 0 A(n,m) C C B B .. C C=B @ . C A 1 1 AT A(n,m) A 1 ... 1 C C A 1 C C C. A 0 1 1 B0C B C e C b=B B .. C . @.A 0 eT ◦ x = e Gilt 1) in Korollar C.2.2 nicht, dann gibt es kein x ∈ Rn+ mit A b. Wegen Satz C.2.1 muss es ein e ◦ ye ∈ Rn gelten. Also ye ∈ Rm+1 geben, sodass he b, yei = ye1 < 0 und A + 0 1 0 1 B1C B B C B C B e A ◦ ye = ye1 B . C + A ◦ B B . @.A @ 1 ye2 ye3 .. . yem+1 1 C C C ∈ Rn+ . C A Setzt man nun y = (e y2 , ye3 , . . . , yem+1 ), so folgt für jedes i = 1, . . . n, e ◦ ye− ye1 ≥ −e hA(i,·) , yi = A y1 > 0. Daraus erhält man 2) in C.2.2, und der Beweis ist beendet . ¤ C.2 Der Satz von Farkas und einige Folgerungen 415 Nun betrachten wir einen Unterraum L ⊂ Rn , der von den Vektoren a(1) , a(2) , . . . a(m) aufgespannt wird und eine n × m Matrix A, deren Spalten durch diese Vektoren gebildet wird. In C.1 hatten wir festgestellt, dass L das Bild von A und L⊥ der Kern von AT sind. Deshalb kann man Korollar C.2.2 in folgender Weise formulieren. Korollar C.2.3 Ist L ⊂ Rn ein Unterraum von Rn , und ist L⊥ sein Orthogonalraum, dann gilt genau eine der folgenden Aussagen 1) L⊥ ∩ Rn+ enthält einen von Null verschiedenen Vektor. 2) L enthält einen Vektor, dessen Komponenten strikt positiv sind. Die Rollen von L und L⊥ in Korollar C.2.3 können vertauscht werden. Falls A eine n × m Matrix ist, so können wir L = N (AT ) und L⊥ = R(A) setzen. Korollar C.2.3 lässt sich dann zu einer Aussage über A formulieren. Korollar C.2.4 Sei A eine n × m Matrix. Dann gilt genau eine der folgenden Aussagen. 1) Es gibt ein x ∈ Rn++ mit AT ◦ x = 0. 2) Es gibt ein y ∈ Rm mit A ◦ y ∈ Rn+ \ {0}. D Grundlegende Begriffe der Wahrscheinlichkeitstheorie, bedingte Erwartung In diesem Abschnitt wollen wir die grundlegenden Begriffe aus der Wahrscheinlichkeitstheorie wiederholen. Insbesondere wollen wir das Konzept der bedingten Erwartung vorstellen. Dieser Begriff ermöglicht es, Fragen der folgenden Form in einem theoretischen Rahmen zu formulieren und zu lösen. – Nehmen wir an der DAX stand am 17. April 2009 bei 6000. Welcher Wert ist am 18. April zu erwarten? – Angenommen die europäische Zentralbank erhöht ihren Leitzins um 0,5%. Welche Veränderung ist bei der VW-Aktie zu erwarten ? Wir werden folgendermaßen vorgehen: Zuerst diskutieren wir die Theorie, indem wir ein einzelnes einfaches Beispiel (Abschnitt D.1) zugrundelegen und das log-binomiale Modell (aus Abschnitt 2.3 und 2.4) genauer untersuchen. In der Betrachtung dieses Modells führen wir die Konzepte “Messbarkeit”, “Erwartungswert” und “bedingte Erwartung” ein. Dann werden wir den allgemeineren Fall (Abschnitte D.2 und D.3). untersuchen. Diese zwei Abschnitte sollten auf keinen Fall als Darstellung oder gar Einführung in die Wahrscheinlichkeitstheorie angesehen werden. Es werden bloß die für uns notwendigen Begriffe und Sätze wiederholt. Für den Leser, der sich im Moment nur für die diskrete Theorie interessiert, wie sie in Kapitel 2 behandelt wurde, bietet D.1 ausreichendes Wissen für das Verständnis des diskreten Wahrscheinlichkeitsraumes, der dem Kapitel 2 zugrunde liegt. D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess 417 D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess Wie in Abschnitt 2.3 betrachten wir eine Aktie, deren Wert sich nach jedem Handelszeitpunkt entweder um den Faktor U oder D verändert, wobei 0 < D < U gilt. Wir betrachten n solcher Bewegungen und nehmen an, dass der i-te Preissprung unabhängig von den vorhergehenden ist. Dieses Konzept werden wir später genauer festlegen. Gleichzeitig können wir die Aktienbewegung auch durch das n− malige Werfen einer Münze simulieren. Jedesmal wenn “Kopf” erscheint, multiplizieren wir den Aktienpreis mit U, falls “Zahl” erscheint wird mit D multipliziert. Die Menge der möglichen Ergebnisse ist ¯ ˘ Ω = {K, Z}n = ω = (ω1 , ω2 , . . . ωn ); ωi ∈ {K, Z} für i = 1, 2, . . . n . Wir wollen die Wahrscheinlichkeit mit der “Kopf” erscheint mit p bezeichnen (sie muss nicht unbedingt 1 2 betragen). Konsequenterweise ergibt sich für die Wahrscheinlichkeit mit der “Zahl” auftritt der Wert q = 1 − p. Für ein ω = (ω1 , . . . , ωn ) ∈ Ω ist die Wahrscheinlichkeit, dass ω eintritt, durch P({ω }) = p# von Kopf in ω · q# von Zahl in ω (1) gegeben. Zum Beispiel: P({K, K, . . . K , Z, , Z, , . . . , Z }) = pk qn−k . {z } | {z } | k-mal n−k-mal Für jedes Ereignis - also jede Teilmenge A ⊂ Ω - setzen wir X P(A) = P({ω }). ω ∈A Dann ist P eine Abbildung auf der Menge aller Ereignisse A, die die folgenden Eigenschaften besitzt (Axiome von Kolmogorov) 1) Für jedes Ereignis A gilt: 0 ≤ P(A) ≤ 1, 2) P(0) / = 0, und P(Ω) = 1, 3) sind A1 , A2 , A3 , . . . paarweise disjunkt (d. h. Ai ∩ A j = 0, / falls i 6= j), so folgt P ∞ “[ k=1 ∞ ” X Ak = P(Ak ). k=1 Bemerkung D.1.1 In (1) haben wir stillschweigend angenommen, dass das Werfen der Münzen unabhängig ist. Dies bedeutet das Folgende. Für i = 1, . . . n und ωi ∈ {K, Z} sei Ei (ωi ) das Ereignis, dass beim i-ten Werfen der Münze, ωi auftritt. Zum Beispiel wenn n = 3, i = 2, und ωi = K, so folgt E2 (K) = {KKK, ZKK, KKZ, ZKZ}. T Es gilt {ω } = ni=1 Ei (ωi ), und P(Ei (ωi )) ist entweder p (falls ωi = K) oder q (falls ωi = Z). Unabhängigkeit der Würfe bedeutet nun, dass die Wahrscheinlichkeit der Durchschnitte der Ei (ωi ))’s gleich dem 418 D Wahrscheinlichkeitstheorie Produkt ihrer Wahrscheinlichkeiten ist, d. h. P({ω }) = P( n \ Ei (ωi )) = i=1 n Y P(Ei (ωi )). (2) i=1 Allgemein folgt, falls 1 ≤ i1 < i2 < . . . < ir ≤ n P( r \ j=1 Ei j (ωi j )) = r Y P(Ei j (ωi j )). (3) j=1 Wir betrachten nun die Aktienpreise zu den Zeitpunkten 0, 1 . . . , n als Zufallsvariablen auf Ω. In unserem Fall ist eine Zufallsvariable eine Abbildung X : Ω → R. Wir setzen für i = 0, 1, 2 . . . n und ω ∈ Ω 8 <1 , falls ω = K i εi = εi (ω ) = (4) :0 , falls ω = Z i bzw. Ki = Ki (ω ) = i X ε j (Anzahl von Kopf bis zur Zeit i) (5) j=1 Zi = Zi (ω ) = i X j=1 1 − ε j = i − Ki (Anzahl von Zahl bis zur Zeit i) (K0 = T0 = 0). Man beachte, dass man mit diesen Bezeichnungen P({ω }) = pKn (ω ) qZn (ω ) , für ω ∈ Ω (6) schreiben kann. Schließlich legen wir noch die Aktienpreise zu den Zeitpunkten i = 0, 1, . . . n durch die Gleichung Si = S0U Ki DZi . (7) fest. Für i = 1, . . . , n genügt Si folgender rekursiven Formel Si = Si−1U εi D1−εi . Der Erwartungswert einer Zufallsvariablen X : Ω → R wird definiert durch X X X(ω )P({ω }) = X(ω )pKn (ω ) qZn (ω ) . EP (X) = ω ∈Ω (8) (9) ω ∈Ω Satz D.1.2 Die Bildung des Erwartungswertes ist ein linearer Operator, d. h. sind X und Y Zufallsvariablen auf Ω und α , β ∈ R, so folgt EP (α X + β Y ) = α EP (X) + β EP (Y ) (10) D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess 419 Ist A ⊂ Ω ein Ereignis, so bezeichnen wir mit 1A : Ω → R die charakteristische Funktion von A, d. h. eine Funktion, die jedem ω ∈ Ω den Wert 1 zuordnet, falls ω ∈ A, und die jedem ω ∈ Ω \ A den Wert 0 zuweist. Also ergibt sich EP (1A ) = P(A). Betrachten wir eine Zufallsvariable X auf Ω mit Werten x1 , x2 , . . . xr , und setzen wir Ai = X −1 ({xi }) = {ω ∈ P Ω; X(ω ) = xi }, so können wir X als Summe X = ri=1 xi 1Ai schreiben und erhalten EP (X) = r X (11) xi P(Ai ). i=1 Für i = 0, 1, . . . n kann Si die Werte S0U j Di− j annehmen, wobei j = 0, 1, . . . , i (der Aktienpreis bewegt sich j-mal um U und i − j-mal um den Faktor D). Daher berechnet sich der Erwartungswert von Si durch EP (Si ) = S0 i X P(Si = S0U j Di− j )U j Di− j (12) j=0 = S0 i X P(Ki = j)U j Di− j = S0 i „ « X i U j Di− j , j (13) j=0 j=0 „ « i! i (0! = 1). In der letzten Gleichung (12) haben wir folgendes kombinatorische = wobei j!(i − j)! j Prinzip benutzt: Satz D.1.3 `´ Man kann ij Wörter aus j K’s und (i − j) Z’s bilden. Definition D.1.4 Wir nennen eine endliche Folge von Zufallsvariablen X0 , X1 , . . . Xn auf Ω einen Binomialprozess der Länge n, mit Ausgangspunkt X0 , Schrittweite u und d, und Eintrittswahrscheinlichkeit p, falls X0 konstant ist und Xi = X0 + i X j=1 ε ju + i X (1 − ε j )d = X0 + Ki u + Zi d, j=1 wobei ε j , K j und Z j wie in (4) und (5) definiert sind. In diesem Fall nennen wir Yi = eXi , i = 0, 1 . . . n den zugehörigen log–binomialen Prozess. Bemerkung D.1.5 Man beachte, dass S0 , S1 , . . . , Sn ein log–binomialer Prozess ist, und (log Si ) ein Binomialprozess mit Ausgangspunkt log S0 , Schrittweiten u = logU, und d = log D, und Eintrittswahrscheinlichkeit p. Wir betrachten nun eine Zufallsvariable X : Ω → R (z. B. X = Sn ) und als Zeitpunkt i, i ∈ {1, 2, . . . n}. Zu diesem Zeitpunkt kennen wir bereits die Ergebnisse der ersten i Würfe, die wir mit ν1 , ν2 , . . . , νi ∈ {K, Z} bezeichnen. Falls der Wert X(ω ) nur von den ersten i Ergebnissen abhängt (z. B. wenn X = Si ), so ist X realisiert, was bedeutet, dass zum Zeitpunkt i die Werte von X festgelegt sind. Sonst werden wir uns fragen, wie der Erwartungswert X unter der Bedingung lautet, dass die ersten i Ereignisse ν1 , ν2 , . . . , νi waren. In unserem einfachen Fall können wir die Antwort leicht geben, und eine komplizierte Theorie wird dafür 420 D Wahrscheinlichkeitstheorie nicht nötig sein. Denn wir müssen nur unsere Zufallsvariablen und zugrundeliegende Wahrscheinlichkeitsraum ändern. Unsere neue zulässige Ereignismenge ist e (i) = {(ω1 , ω2 , . . . , ωn−i ); ω j ∈ {K, Z} für j = 1, . . . n − i}, Ω der neue Wahrscheinlichkeitsraum wird durch e(i) ({ω̃ }) = p# Kopf in ω̃ · q# Zahl in ω̃ , für ω̃ ∈ Ω e (i) P gegeben, und als neue Zufallsvariablen betrachten wir e (i) → R, X(ν1 ,...νi ) : Ω (ω̃1 , . . . , ω̃n−i ) 7→ X(ν1 , . . . , νi , ω̃1 , . . . ω̃n−i ). Den bedingten Erwartungswert von X, unter der Bedingung, dass die ersten i Ereignisse durch ν1 , . . . , νi gegeben sind, sollte man als (14) EeP(i) (X(ν1 ,...νi ) ) definieren. Wir bezeichnen diesen Wert für den Augenblick mit EP (X|ν1 , . . . νi ) und bemerken, dass er als Abbildung auf der Menge aller i-Tupel ν ∈ {K, Z}i betrachtet werden kann. e (i) bezeichnen wir mit K( e ω̃ ) und Z( e ω̃ ) die Anzahl der “Köpfe” beziehungsweise “Zahlen” in ω̃ . Für ω̃ ∈ Ω Daraus leiten wir wie in (9) X e(i) ({ω̃ }) e1 , . . . , ω en−i )P (15) EP (X|ν1 , . . . νi ) = X(ν1 , . . . νi , ω e∈Ω ω = X e∈Ω ω e e e1 , . . . , ω en−i )pK(ω̃ ) qZ(ω̃ ) X(ν1 , . . . νi , ω ab. Ist X = Sn , so berechnet sich die bedingte Erwartung einfach, denn wir können Sn = S0U Kn DZn = S U Ki DZi | 0 {z } Kn −Ki Zn −Zi · U {zD } | = SiU Kn −Ki DZn −Zi hängt von ω1 ...ωi ab hängt von ωi+1 ...ωn ab schreiben. Deshalb führen dieselben Rechnungen wie in (12) zu EP (Sn |ν1 , . . . νi ) = Si « n−i „ X n−i U j Dn−i− j p j qn−i− j j j=0 (ersetze S0 durch Si und n durch n − i). Wir wollen jetzt die mehr theoretische Seite entwickeln. Seien i = 0, 1, . . . , n und Fi enthalte “alle Ereignisse, von denen wir wissen, ob sie zum Zeitpunkt i eingetreten sind”. Dies lässt sich genauer formulieren. Für ν1 , . . . νi ∈ {K, Z} sei e (i) = {ω̃ ∈ Ω; ω̃1 = ν1 , . . . , ω̃i = νi } = A(ν1 , . . . νi ) = {(ν1 , . . . νi )} × Ω i \ j=1 E j (ν j ), D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess 421 d. h. A(ν ) ist die Menge aller möglichen Fortsetzungen von ν ∈ {K, Z}i zu einem Element von Ω. Man erhält P(A(ν )) = pKi (ν ) qZi (ν ) . Man beachte, dass wir zur Zeit i wissen, ob A(ν ) eingetreten ist. Formal stellt Ki eine Abbildung auf {K, Z}n dar, aber da Ki (ω ) nur von den ersten i Einträgen abhängt, ist die Schreibweise Ki (ν ) für ν ∈ {K, Z}i wohldefiniert. Zum anderen ergibt sich für ω = (ω1 , . . . ωn ), dass ei (ωi+1 , . . . ωn ). Aus (15) wissen wir, dass für ν ∈ {K, Z}i Kn (ω ) = Ki (ω1 , . . . ωi ) + K EP (X|ν1 , . . . νi ) = X e∈Ω ω e = p−Ki (ν ) q−Zi (ν ) −Ki (ν ) −Zi (ν ) =p = e e1 , . . . , ω en−i )pK(ω̃ ) qZ(ω̃ ) X(ν1 , . . . νi , ω q EP (1A(ν ) X) P(A(ν )) X e∈Ω ω (16) e1 , . . . , ω en−i )pK(ν ,ω̃ ) qZ(ν ,ω̃ ) X(ν1 , . . . νi , ω X ω ∈A(ν ) X(ω )P({ω }) . Wir definieren Fi als die Menge aller Ereignisse, die aus 0, / Ω, und allen möglichen Vereinigungen der Form A(ν1 , . . . νi ) bestehen. Man beachte, dass (A(ν ))ν ∈{K,Z}i eine Partition von Ω darstellt, was bedeutet, dass diese Mengen paarweise disjunkt sind und deren Vereinigung mit Ω übereinstimmt. Deshalb gibt es für jedes A ∈ Fi eine eindeutige Teilmenge I ⊂ {K, Z}i , so dass “ ” [ [ mit der Festlegung A(ν ) A= A(ν ) = 0/ . ν ∈0/ ν ∈I Gleichzeitig ist jede Menge, die eine solche Darstellung besitzt, Element von Fi . Als Beispiel seien F0 = {0, / Ω} (schon bevor eine Münze geworfen wird, wissen wir, dass Ω eintritt und 0/ nicht) und F1 = {0, / Ω, A(K), A(Z)} eingeführt. Für i = 0, 1 . . . , n stellt die Menge aller Ereignisse Fi eine σ -Algebra dar. Das bedeutet: Definition D.1.6 Eine σ -Algebra auf Ω ist eine Menge F , die aus Teilmengen von Ω besteht und folgende 3 Eigenschaften besitzt: 1) 0/ und Ω gehören zu F , 2) ist A ∈ F , so ist auch Ac = Ω \ A ∈ F , und 3) für eine Folge A1 , A2 , . . . ∈ F (abzählbar viele) folgt S∞ i=1 Ai = A1 ∪ A2 ∪ . . . ∈ F . Eine Zufallsvariable X : Ω → R nennen wir F -messbar, falls X −1 (] − ∞, a]) = {ω ∈ Ω; X(ω ) ≤ a} ∈ F für alle a ∈ R. In unserem einfachen Beispiel können wir die Fi -Messbarkeit wie folgt beschreiben. Satz D.1.7 Seien X : Ω → R eine Zufallsvariable und i = 0, 1, . . . n. Dann sind die folgenden Aussagen äquivalent: 422 D Wahrscheinlichkeitstheorie 1) X ist Fi -messbar, 2) X ist auf den Mengen A(ν1 ,...νi ) für ν1 , . . . , νi ∈ {K, Z} konstant, d. h. X lässt sich als Summe X= X xν 1A(ν ) ν ∈{K,Z}i schreiben, wobei xν ∈ R für ν ∈ {K, Z}i . Bemerkung D.1.8 Satz D.1.7 besagt insbesondere, dass eine Zufallsvariable X : Ω → R genau dann Fi -messbar ist, wenn der Wert X(ω ) nur von den ersten i Koordinaten von ω abhängt. Deshalb werden wir oft X(ω1 , . . . , ωi ) statt X(ω1 , . . . , ωn ) schreiben. Beweis von D.1.7 Seien X : Ω → R und x1 < x2 < . . . xr die möglichen Werte von X der Größe nach geordnet. Falls X Fi -messbar ist, finden wir Mengen I1 ⊂ I2 ⊂ . . . Ir = {K, Z}i , sodass [ X −1 (] − ∞, x j ]) = A(ν ), für j = 1, . . . i. ν ∈I j Dies bedeutet X −1 ({x j }) = [ A(ν ), für j = 1, . . . i, (I0 = 0), / ν ∈I j \I j−1 was beweist, dass X auf den Mengen A(ν ), ν ∈ {K, Z}i konstant ist. Falls umgekehrt X auf den Mengen A(ν ), ν ∈ {K, Z}i konstant ist, können wir X als Summe X X= xν 1A(ν ) , für gewisse xν ∈ R, ν ∈ {K, Z}i ν ∈{K,Z}i schreiben. Somit erhalten wir für a ∈ R, X −1 (] − ∞, a]) = [ A(ν ) ν ∈{H,T }i mit xν ≤a was die Fi -Messbarkeit von X nachweist. ¤ Folgende Beobachtung lässt sich leicht aus Satz D.1.7 ableiten. Satz D.1.9 Für Fi -messbare Zufallsvariablen X,Y : Ω → R und alle α , β ∈ R, sind auch α X + β Y und XY Fi - messbar (i = 0, 1, . . . n). Man beachte, dass Si Fi -messbar ist, da Si (ω ) nur von ω1 , . . . ωi abhängt. Wir definieren nun für eine Zufallsvariable X den bedingten Erwartungswert bezüglich Fi als eine Abbildung auf Ω (Bezeichnung: EP (X|Fi )) durch: EP (X|Fi ) : Ω → R, ω 7→ EP (X|ω1 , ω2 , ....ωi ) (vgl. (14)). D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess 423 Wenn wir (16) benützen, so können wir EP (X|Fi ) = X ν ∈{K,Z}i EP (1Aν X) 1 P(A(ν )) A(ν ) (17) schreiben. Für ein ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω bedeutet dies EP (X|Fi )(ω ) = EP (X|Fi )(ω1 , . . . , ωi ) = EP (1A(ω1 ,...,ωi ) X) P(A(ω1 , . . . , ωi )) . (18) Wir vermerken, dass der bedingte Erwartungswert einer Zufallsvariablen X auf Ω Fi -messbar ist. Tatsächlich lässt sich noch mehr sagen. Die folgende Satz charakterisiert den bedingten Erwartungswert und führt zur allgemeinen Definition dieses Konzeptes in Abschnitt D.3. Satz D.1.10 Seien X eine Zufallsvariable auf Ω und i = 0, 1, . . . n. Dann ist EP (X|Fi ) die eindeutig bestimmte Zufallsvariable Y auf Ω mit den folgenden Eigenschaften. 1) Y ist Fi -messbar, und 2) für jedes A ∈ Fi folgt EP (1A X) = EP (1AY ). Beweis: S Aus Satz D.1.7 und (17) erhalten wir, dass EP (X|Fi ) Fi -messbar ist. Wir folgern für A = ν ∈I A(ν ) ∈ Fi , i I ⊂ {K, Z} , dass 1 0 X EP (1A X) ` ´ ν A 1 EP 1A EP (X|Fi ) =EP @1A P(A(ν )) A(ν ) i ν ∈{K,Z} ! X EP (1A X) ν 1A(ν ) =EP P(A(ν )) ν ∈I X = EP (X1A(ν ) ) ν ∈I =EP (X1A ), was (2) liefert. Sind Y und Ỹ Zufallsvariablen, die (1) und (2) erfüllen, und ist ν ∈ {K, Z}i , so sind sie nach (1) konstant auf A(ν ). Angenommen sie nehmen auf der Menge die entsprechenden Werte yν bzw ỹν an. Dann folgt yν P(A(ν )) = EP (Y 1Aν ) = EP (X1Aν ) (gemäß (2)) = EP (Ỹ 1Aν ) (gemäß (2)) = ỹν P(A(ν )). Also yν = ỹν und somit Y = X, was die Eindeutigkeit einer Zufallsvariablen nachweist, die (1) und (2) erfüllt. ¤ 424 D Wahrscheinlichkeitstheorie Wir stellen einige einfach nachzuweisende Eigenschaften des bedingten Erwartungswertes zusammen. Satz D.1.11 Seien X,Y : Ω → R, α , β ∈ R und i, j = 0, 1, . . . n. 1) Die Abbildung EP (·|Fi ) ist linear, d. h. EP (α X + β Y |Fi ) = α EP (X|Fi ) + β EP (Y |Fi ). 2) Ist Y Fi -messbar, so folgt EP (Y X|Fi ) = Y EP (X|Fi ). 3) (Turmeigenschaft) Sei i < j. Dann EP (X|Fi ) = EP (EP (X|F j )|Fi ). Beweisskizze Wir müssen zeigen, dass die linken Seiten jeweils (1) und (2) in Satz D.1.10 erfüllen. Doch dies kann man einfach nachweisen. ¤ Schließlich wollen wir noch den Begriff der unabhängigen Zufallsvariablen fortführen. Definition 4.1.12 Die Zufallsvariablen X1 , X2 , . . . , Xr heißen unabhängig, wenn für jede Auswahl von a1 ≤ b1 , a2 ≤ b2 ,..., ar ≤ br r \r Y P( {X j ∈ [a j , b j ]}) = P({X j ∈ [a, , b1 ]}) (19) j=1 j=1 folgt. Sind F eine σ -Algebra bestehend aus Teilmengen von Ω und X eine Zufallsvariable, so sagen wir, dass X von F unabhängig ist, falls X und 1A für jedes A ∈ F unabhängig sind, d. h. falls P({a ≤ X ≤ b} ∩ A) = P({a ≤ X ≤ b})P(A) aus a ≤ b folgt. P Pℓ Seien X und Y unabhängig, wobei wir X und Y als Summen X = m i=1 1Ai xi und Y = i=1 1Bi yi schreiben. Dabei sind x1 < x2 < . . . , xk und y1 < y2 < . . . < yℓ die entsprechenden möglichen Werte von X bzw. Y und Ai = {ω ; X(ω ) = xi } und Bi = {ω ;Y (ω ) = yi }. Dann folgern wir EP (XY ) = EP = k X ℓ X xi y j P(Ai B j ) = i=1 j=1 k X ℓ X xi y j P(Ai )P(B j ) i=1 j=1 [P(Ai ∩ B j ) = P({X ∈ [x j , x j ]} ∩ {Y ∈ [y j , y j ])}) und man beachte (19)] = k X i=1 xi P(Ai ) ℓ X y j P(B j ) = EP (X)EP (Y ). j=1 Allgemein lässt sich folgende Satz beweisen. Satz D.1.13 Seien X1 , X2 , . . . Xr unabhängige Zufallsvariablen auf Ω. Dann gilt r r Y Y EP ( Xi ) = EP (Xi ). i=1 i=1 D.1 Ein Beispiel: Der binomiale und der log-binomiale Prozess 425 Satz D.1.14 Ist X eine Zufallsvariable, die von Fi unabhängig ist, so folgt EP (X|Fi ) = EP (X). Beweisskizze Wir müssen zeigen, dass die konstante Zufallsvariable Y = EP (X) die Eigenschaften (1) und (2) aus Satz D.1.10 erfüllt. (1) ist klar und (2) folgt sofort aus der Definition der Unabhängigkeit. ¤ Satz D.1.14 lässt sich folgendermaßen interpretieren. Ist eine Zufallsvariable X von Fi unabhängig, dann gibt uns die Kenntnis davon, ob ein Ereignis A ∈ Fi eingetreten ist, keine weitere Information für den zu erwartenden Wert von X. 426 D Wahrscheinlichkeitstheorie D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie Wir nehmen an, Ω sei die Menge aller möglichen Ergebnisse eines Zufallsexperiments. Eine Wahrscheinlichkeit ist eine Abbildung, die “bestimmten” Teilmengen A von Ω einen Wert zwischen 0 und 1 zu ordnet, was wir die Wahrscheinlichkeit von A nennen und mit P(A) bezeichnen. Wahrscheinlichkeiten werden auf “σ -Algebren von Ω” definiert. Definition D.2.1 Eine σ -Algebra auf Ω ist ein Mengensystem F , das aus Teilmengen von Ω mit folgenden Eigenschaften besteht: a) Für die leere Menge 0/ gilt : 0/ ∈ F b) Ist A ∈ F , so auch Ω\A ∈ F (Ω\A = {x ∈ Ω; x ∈ / A}, das Komplement von A). S∞ c) Sind An ∈ F , n ∈ N, so gilt i=1 Ai = {x ∈ Ω; es gibt i ∈ N : x ∈ Ai } ∈ F . Falls F eine σ -Algebra auf Ω ist, so nennen wir das Paar (Ω, F ) einen messbaren Raum . Beispiel D.2.2 Die folgende Mengensystem F mit Teilmengen von Ω sind σ -Algebren. a) F = {0, / Ω}, b) für A $ Ω setze F = {0, / A, Ω\A, Ω}, c) F = Menge aller Teilmengen von Ω (Potenzmenge von Ω). . Oft werden σ -Algebren “von vorgegebenen Teilmengen von Ω erzeugt”. Satz D.2.3 Sei E eine Teilmenge von Ω. Dann ist der Durchschnitt aller σ -Algebren von Ω, die E enthalten, d. h. \˘ ¯ F ; F ist σ -Algebra und E ⊂ F , wieder eine σ -Algebra. Sie wird die von E erzeugte σ -Algebra genannt und mit σ (F ) bezeichnet. Beispiel D.2.4 a) Für Ω = R ist die Borel σ -Algebra auf R die σ -Algebra, die von allen Intervallen erzeugt wird. Wir bezeichnen sie mit BR . Für A ⊂ R ist BA die Einschränkung von BR auf A, nämlich BA = {A ∩ B : B ∈ BR }. Es ist einfach einzusehen, dass BA wieder eine σ -Algebra ist. b) Ist Fi eine σ -Algebra auf einer Menge Ωi (i = 1, 2 . . . n), dann ist die Produkt σ -Algebra die σ Algebra auf Ω1 ×Ω2 . . . Ωn , erzeugt von den Rechtecken A1 ×A2 ×An , mit Ai ∈ Fi , falls i = 1, 2, . . . n. Wir bezeichnen sie mit ⊗ni=1 Fi . Falls Ωi = R, i = 1, . . . n, so schreiben wir BRn = BR ⊗ BR . . . BR . Satz D.2.5 Ist F eine σ -Algebra auf Ω, so gilt D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie 427 a) Ω ∈ F . b) Für Teilmengen A, B gilt A ∩ B, A\B = {x; x ∈ A x ∈ / B}, und A △ B = (A\B) ∪ (B\A) ∈ F . T c) Sind A1 , A2 , A3 , . . . ∈ F , dann auch ∞ A = {x ∈ Ω; für alle i ∈ N gilt x ∈ Ai } ∈ F . i i=1 Mit den Eigenschaften a), b) und c) der Definition einer σ -Algebra lässt sich Satz D.2.5 leicht beweisen. Wie im vorhergehenden Abschnitt kann man eine Wahrscheinlichkeit auf einer σ -Algebra definieren. Definition D.2.6 Sei F eine σ -Algebra auf einer Menge Ω. Ein Maß auf F ist eine Abbildung µ : F → R ∪ {∞} mit den folgenden Eigenschaften: / =0 a) µ (0) b) 0 ≤ µ (A) für alle A ∈ F c) Sind A1 , A2 , A3 , . . . paarweise disjunkt (d. h. Ai ∩ A j = 0/ falls i 6= j), so gilt µ ∞ [ Ai i=1 ! = ∞ X µ (Ai ) i=1 Ein Maß nennen wir endlich, falls µ (Ω) < ∞ (und deshalb µ (A) < ∞ für alle A ∈ F ). Wir nennen das Maß S σ -endlich, falls es eine Folge (An ) ⊂ F gibt mit µ (An ) < ∞ und ∞ n=1 An = Ω. Ein Wahrscheinlichkeitsmaß auf F ist ein Maß P auf F , für das P(Ω) = 1 gilt. Ist P ein Wahrscheinlichkeitsmaß auf einer σ -Algebra F definiert auf Ω, so nennt man das Tripel (Ω, F , P) einen Wahrscheinlichkeitsraum. Die oben definierte Eigenschaft c) heißt σ -Additivität. Sie impliziert die folgende Stetigkeitseigenschaft. Satz D.2.7 (Stetigkeit von unten bzw. oben) Sei µ ein Mass auf einem messbaren Raum (Ω, F ). 1) Sind A1 ⊂ A2 ⊂ A3 ⊂ . . ., Ai ∈ F , i = 1, 2, . . ., so folgt lim P(Ai ) = P( n→∞ ∞ [ Ai ). i=1 2) Für A1 ⊃ A2 ⊃ A3 ⊃ . . ., Ai ∈ F , i = 1, 2, . . . mit µ (Ai ) < ∞ gilt lim P(Ai ) = P( n→∞ ∞ \ Ai ). i=1 Oft liegt eine nichtnegative Abbildung auf einer bestimmten Teilmenge E aller Teilmengen von Ω vor. Es stellt sich die Frage, ob man diese Abbildung zu einem Mass auf σ (E ) fortsetzen kann. Der Fortsetzungssatz von Carathéodory gibt eine befriedigende Antwort auf diese Frage. Anstatt diesen Satz zu formulieren, wollen wir zwei Fälle betrachten, die uns besonders interessieren. 428 D Wahrscheinlichkeitstheorie Satz D.2.8 1) Es gibt ein eindeutiges Mass λ auf BR so, dass λ ([a, b]) = b − a für alle Intervalle [a, b] ⊂ R gilt. Dieses Maß nennt man das Lesbesgue-Maß auf R. 2) Für i = 1, 2 . . . n sei µi ein σ -endliches Maß (bzw. Wahrscheinlichkeitsmaß) auf Fi , wobei Fi eine σ Algebra auf einer Menge Ωi ist. Dann gibt es ein eindeutiges Maß µ (bzw. Wahrscheinlichkeitmaß) auf ⊗ni=1 Fi so, dass µ (A1 × A2 × . . . × An ) = n Y µi (Ai ), i=1 [mit ∞ · 0 = 0] für alle A1 ∈ F1 , A2 ∈ F2 ,. . . ,An ∈ Fn gilt. Dieses Maß wird das Produkt der Maße (µi ) genannt und mit ⊗ni=1 µi bezeichnet. Falls man daran interessiert ist, wann zwei Maße auf (Ω, F ) gleich sind, so gibt das folgende Prinzip eine Antwort darauf. Es liefert auch die Eindeutigkeit in dem obigen Satz D.2.8. Satz D.2.9 Seien µ und ν zwei σ -endliche Masse auf (Ω, F ), F sei eine σ -Algebra auf der Menge Ω. Angenommen D ⊂ F erzeugt F und ist durchschnittsstabil (A, B ∈ D ⇒ A ∩ B ∈ D), so gilt µ = ν ⇐⇒ µ (A) = ν (A) für alle A ∈ D. Meistens sind wir nicht an dem Ereignis ω ∈ Ω selbst interessiert, sondern an einer Zahl die diesem Ereignis zugeordnet ist. Definition D.2.10 Sei (Ω, F , P) ein Wahrscheinlichkeitsraum. Eine Abbildung X : Ω → R, ω 7→ X(ω ) nennt man eine Zufallsvariable, falls sie messbar ist, d. h. X −1 (A) = {ω ∈ Ω; X(ω ) ∈ A} ∈ F , also das Urbild liegt für jede Menge A ∈ B(R) in F . feine σ -Algebra auf Ω bzw. Ω, e eine Abbildung und ist F bzw. F e so nennt man F Ist allgemein F : Ω → Ω −1 f f (F , F )-messbar, falls F (A) ∈ F für A ∈ F gilt. Bemerkung D.2.11 fdie σ −Algebra F , so genügt es, dass man F −1 (Ẽ) ∈ F für alle Ẽ ∈ Ee e und erzeugt Ee ⊂ F Ist F : Ω → Ω nachweist, um zu zeigen, dass F messbar ist. Denn wir brauchen nur einzusehen, dass das Mengensystem e F −1 (A) ∈ F } eine σ -Algebra auf Ω darstellt, die Ee enthält und somit auch σ (Ee) enthalten muss. {A ⊂ Ω; Aber das gilt z.B. aufgrund der Tatsache, dass X : Ω → R genau dann eine Zufallsvariable ist, wenn {X ≤ a} = {ω ∈ Ω; X(ω ) ≤ a} für alle a ∈ R in F liegt. Satz D.2.12 Sind X und Y Zufallsvariable, ist g : R → R messbar und ist a ∈ R, so sind auch X + Y, aX, XY, g ◦ X Zufallsvariablen. D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie 429 Sei (Xn )n∈N eine Folge von Zufallsvariable, sodass X(ω ) = limn→∞ Xn (ω ) für ω ∈ Ω existiert. Dann ist auch X eine Zufallsvariable. Sei P ein Wahrscheinlichkeitsmaß auf (Ω, F ) und sei X eine Zufallsvariable. Wir definieren die Verteilung von X als ein Wahrscheinlichkeitsmaß auf R: Für A ∈ B(R) ist PX (A) = P(X −1 (A)). (20) Als Beispiel sei PX ([a, b]) = P(X −1 ([a, b])) = P(a ≤ X ≤ b) angeführt. Es gibt zwei wichtige Spezialfälle. Beispiel D.2.13 (Der endliche Fall) Die Zufallsvariable X : Ω → R nehme nur endlich viele verschiedene Werte α1 , α2 , . . . , αn an. Wir setzen für i = 1, 2, . . . , n Ai = X −1 ({αi }) = {ω ∈ Ω; X(ω ) = αi }. Man beachte, dass die Ai ’ paarweise disjunkt sind und A1 ∪ A2 ∪ . . . An = Ω gilt. Wir können X(ω ) = Pn i=1 αi 1Ai (ω ) schreiben. Zur Erinnerung stellt 1A die charakteristische Funktion von A ⊂ Ω dar (1A (ω ) = 1 falls ω ∈ A , und 1A (ω ) = 0 falls ω 6∈ A). In diesem Fall lässt sich PX als Wahrscheinlichkeit auf ΩX = {α1 , . . . , αn } mit pi = PX ({αn }) = P(Ai ) ansehen. Für E ⊂ {α1 , . . . , αn } gilt X pi . PX (E) = αi ∈E Beispiel D.2.14 (Der stetige Fall) Angenommen, es existiert eine integrierbare Funktion f : R → R, sodass PX (A) = Z f (x)dx A für A ∈ B(R) gilt. In diesem Fall heißt f Dichte von PX . Beachte: Da PX ein Wahrscheinlichkeitmaß ist, hat f als Dichte die folgenden Eigenschaften 1) f ≥ 0, und R∞ 2) f (x)dx = PX (R) = 1 −∞ Beispiel D.2.15 (Wahscheinlichkeitsdichten) 1 1) f (x) = b−a 1[a,b] ist die Dichte der Gleichverteilung auf dem Intervall [a, b] , 2) f (x) = 2 √1 e−x /2 2π ist die Dichte der Standardnormalverteilung. Allgemein ist für µ ∈ R und σ > 0 f(µ ,σ ) = √ 1 2πσ 2 − e (x−µ )2 2σ 2 (21) eine Dichte, die Dichte einer normalverteilten Zufallsvariablen mit Mittel µ und Varianz σ 2 . Wir 430 D Wahrscheinlichkeitstheorie bezeichnen die Normalverteilung mit Mittel µ und Varianz σ 2 durch N(µ , σ 2 ), d. h. N(µ , σ 2 )(A) = √ 1 2πσ 2 Z − e (x−µ )2 2σ 2 A dx falls A ∈ BR (22) Wir kommen nun zu einem zentralen Begriff: Der Erwartungswert einer Zufallsvariablen. Definition D.2.16 (Erwartungswert einer Zufallsvariablen) Sei X eine Zufallsvariable auf (Ω, F , P) . P a) Nimmt X nur endlich viele Werte an, z. B. sei X = ni=1 αi 1Ai , so definiert man den Erwartungswert n P αi P(Ai ). EP (X) = i=1 b) Ist X eine positive Zufallsvariable, so folgt EP (X) = sup{EP (Y );Y nimmt endlich viele Werte an und 0 ≤ Y ≤ X}. (23) c) Seien X beliebig und EP (|X|) < ∞ (X wird integrierbar genannt). Sei X + = max(0, X) und X − = max(0, −X). Beachte, dass X + , X − ≥ 0, und X = X + − X − . In diesem Fall definieren wir: EP (X) = EP (X + ) − EP (X − ). (24) Bemerkung D.2.17 Um einzusehen, dass EP (X) für eine Zufallsvariable, die nur endlich viele Werte annimmt, wohldefiniert ist, muss man nachweisen, dass, wenn man X auf zwei verschiedenen Weisen darstellt, z. B. X= n X αi 1Ai und X = m X βi 1Bi , (25) i=1 i=1 die Gleichung n X i=1 gilt. αi P(Ai ) = m X βi P(Bi ) i=1 Bemerkung D.2.18 Der obige Zugang zum Erwartungswert für Zufallsvariablen auf einem Wahrscheinlichkeitsraum lässt sich auf Maße in gleicher Weise verallgemeinern. Allerdings spricht man dann von dem Integral einer messbaren R Funktion f : Ω → R bezüglich des Maßes µ und man schreibt Ω f (ω )d µ (ω ). Definition D.2.19 Gilt E(X 2 ) < ∞ , so definiert man die Varianz von X gemäß Var(X) = EP ((X − EP (X))2 ). Satz D.2.20 (Linearität von EP (·)) Für zwei integrierbare Zufallsvariablen X und Y und α , β ∈ R gilt die folgende Gleichung EP (α X + β Y ) = α EP (X) + β EP (Y ). D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie 431 Satz D.2.21 (Monotonie von EP (·)) Für zwei integrierbare Zufallsvariablen X und Y mit X ≤ Y gilt EP (X) ≤ EP (Y ). Satz D.2.22 R∞ Die Zufallsvariable X habe die Dichte f : R → R. Dann gilt EP (X) = x f (x)dx, falls das Integral existiert (d. h. R∞ −∞ −∞ | x| f (x)dx < ∞). Allgemein gilt für eine messbare Abbildung g : R → R, dass EP (g ◦ X) = existiert. R∞ g(x) f (x)dx, falls das Integral −∞ Die nächsten zwei Sätze beantworten folgende Frage: Sei (Xn ) eine Folge von Zufallsvariablen, die punktweise gegen eine Zufallsvariable X konvergiert. Unter welchen Bedingungen konvergieren die Erwartungswerte Xn gegen den Erwartungswert von X? Allgemein muss (ohne zusätzliche Bedingungen) EP (Xn ) nicht gegen EP (X) konvergieren, wie das folgende einfache Beispiel zeigt. Sei Ω = [0, 1] versehen mit einer σ -Algebra B[0,1] , und sei P die Gleichverteilung auf [0, 1]. Dann konvergiert Xn = n2 1(0,1/n) punktweise gegen 0, aber EP (Xn ) = n → ∞. Wir sagen eine Folge von Zufallsvariablen (Xn ) auf einem Wahrscheinlichkeitsraum (Ω, F , P) ist fast sicher e ⊂ Ω gibt mit P(Ω) e = 1, sodass wachsend (oder fallend oder konvergent), falls es eine messbare Teilmenge Ω e (Xn (ω )) diese Eigenschaft für alle ω ∈ Ω hat. Satz D.2.23 (Satz von der monotonen Konvergenz) Sei Xn eine fast sicher wachsende Folge von integrierbaren Zufallsvariablen auf (Ω, F , P). Sei X(ω ) = limn→∞ Xn (ω ) für ω ∈ Ω (dabei kann der Wert ∞ vorkommen). Dann gilt EP (X) = lim EP (Xn ). n→∞ Satz D.2.24 (Satz von der majorisierten Konvergenz) Sei Xn eine Folge von Zufallsvariablen auf (Ω, F , P), die fast sicher gegen eine Zufallsvariable X konvergiert. Weiter existiere eine integrierbare Zufallsvariable Y , sodass | Xn | ≤ Y fast sicher gilt. Dann folgt EP (X) = lim EP (Xn ). n→∞ Oft reicht es nicht die Verteilung einer einzelnen Zufallsvariablen zu kennen, sondern man muss wissen, wie einige Zufallsvariable “zueinander in Beziehung stehen”. Dazu brauchen wir den Begriff der “gemeinsamen Verteilung”. Definition D.2.25 Seien X1 , X2 , . . . , Xn Zufallsvariablen auf (Ω, F , P). Dann ist die gemeinsame Verteilung PX1 ,...,Xn von X1 , . . . , Xn ein Wahrscheinlichkeitsmaß auf B(Rn ) definiert gemäß 432 D Wahrscheinlichkeitstheorie P(X1 ,...,Xn ) (A) = P({ω ∈ Ω; (X1 (ω ), X2 (ω ), . . . , Xn (ω )) ∈ A}) für A ∈ B(Rn ). Eine gemeinsame Verteilung hat die Dichte f , falls f : Rn → R+ 0 messbar ist und P(X1 ,...,Xn ) (A) = Z ··· A Z f (x1 , x2 , . . . , xn )dx1 dx2 . . . dxn für alle A ∈ B(Rn ) gilt. Satz D.2.26 Falls f eine Dichte einer gemeinsamen Verteilung von Zufallsvariablen X1 , X2 . . . , Xn ist, dann hat die Verteilung jeder Zufallsvariable eine Dichte. Denn für i = 1, 2, . . . , n definiere fi durch fi (x) = Z∞ −∞ ... Z∞ f (x1 , x2 , . . . , xi−1 , x, xi+1 . . . xn )dx1 . . . dxi−1 dxi+1 , . . . , dxn −∞ | {z } n−1 mal (d. h. man integriert alle Variablen von f (x1 , . . . , xn ) außer xi aus). Dann ist fi die Dichte der Verteilung Xi . Eines der wichtigsten Konzepte in der Wahrscheinlichkeitstheorie ist der Begriff der Unabhängigkeit. Definition D.2.27 Sei (Ω, F , P) ein Wahrscheinlichkeitsraum und seien F1 , F2 , . . . , Fn Unter-σ -Algebren von F . Dann sind die (Fi ) unabhängig, falls für irgendeine Wahl von Ai mit Ai ∈ Fi (i = 1, 2, . . . n) P n “\ i=1 n ” Y Ai = P(Ai ) (26) i=1 “ ” gilt. Seien X1 , X2 , . . . , Xn Zufallsvariablen auf Ω, F , P . Dann heißen sie unabhängig, falls die σ -Algebren Fi mit Fi = {Xi−1 (A); A ∈ B(R)} für i = 1, . . . n unabhängig sind. Dies bedeutet, dass für irgendeine Wahl von B1 , B2 , . . . Bn ∈ BR P({X1 ∈ B1 , X2 ∈ B2 , . . . Xn ∈ Bn }) = n Y i=1 P({Xn ∈ Bn }) (27) gilt. Satz D.2.28 Für Zufallsvariablen X1 , X2 , . . . , Xn auf (Ω, F , P) sind die folgenden Eigenschaften äquivalent a) X1 , . . . , Xn sind unabhängig. b) Die gemeinsame Verteilung PX1 ,...,Xn ist gleich dem Produkt (im Sinne von Wahrscheinlichkeitsmaßen) der einzelnen Verteilung PX1 , PX2 , . . . PXn . c) Für beschränkte und messbare Funktionen g1 , g2 , . . . , gn : R → R gilt EP (g1 (X1 ) · g2 (X2 ) . . . gn (Xn )) = EP (g1 (X1 )) · EP (g2 (X2 )) . . . EP (gn (Xn )). D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie 433 d) Die Dichte von PX1 ,...,Xn ist das Produkt der Dichten PXi . Falls man annimmt, PX1 ,...,Xn habe eine Dichte, so sind a)-c) äquivalent zu Satz D.2.29 Seien X und Y zwei quadratisch integrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F , P) (d. h. EP (X 2 ) < ∞). Ist das Produkt XY integrierbar und sind X und Y unabhängig, so gilt EP (XY ) = EP (X)EP (Y ). Hieraus folgt, dass n n X X Var( Xi ) = Var(Xi ), i=1 i=1 falls die X1 , X2 , . . . Xn unabhängig und quadratisch integrierbar sind. Wir wollen noch zwei wichtige Sätze formulieren. Der erste gibt folgenden bekannten Sachverhalt wieder: Wiederholt man ein Zufallsexperiment oft genug unabhängig voneinander, und bildet man das Mittel über die Ergebnisse (genauer gesagt über die Messergebnisse), so liegt das Mittel nahe an dem Erwartungswert (je mehr Versuche man vornimmt, je näher kommt man den Erwartungswert). Satz D.2.30 (Das Gesetz der großen Zahl) Sei (Xi ) eine Folge von unabhängigen Zufallsvariablen mit gemeinsamer Verteilung. Dann gilt n 1X Xi (ω ) = EP (X1 ) n→∞ n lim i=1 fast sicher. Der nächste Satz verrät uns die Konvergenzgeschwindigkeit aus dem vorhergehenden Satz. Außerdem gibt der Satz noch folgendes Prinzip an: Falls eine Zufallsvariable X sich als Summe von “vielen ” unabhängigen Zufallsvariablen darstellen lässt, von denen jede den Erwartungswert Null und jede dieselbe Varianz haben, so ist die Verteilung von X nahe der Normalverteilung. Satz D.2.31 (Zentraler Grenzwertsatz) Sei X1 , X2 , . . . eine Folge unabhängiger Zufallsvariable mit EP (Xi ) = 0 für i = 1, 2, . . . . Weiter gebe es Zahlen 0 < r < R, sodass r < Var(Xi ) < R für alle i = 1, 2 . . . gilt. Setze σi2 = Var(Xi ). Dann folgt 91 08 n P > > > > Xi > > Zb B< =C 2 1 B C i=1 √ lim P B „ ∈ [a, b] = e−x /2 dx = N(0, 1)[a, b]. C «1/2 n→∞ @> > P > n A 2 π > > > a : ; σi2 i=1 434 D Wahrscheinlichkeitstheorie Wir formulieren schließlich eine “quantitative” Version des zentralen Grenzwertsatzes nach Berry und Esseen. Satz D.2.32 (Satz von Berry-Esseen) Sei n ∈ N und seien X1 , X2 , . . . , Xn unabhängig und quadratisch integrierbare Zufallsvariable mit Mittel 0. Setze σi2 = Var(Xi ), for i = 1, . . . , n. Dann gilt für alle a < b ˛ ˛ n n n ˛ ˛ “X ” ” “ X X 12 ˛ ˛ 2 EP (|Xi |3 ). σi ([a, b])˛ ≤ `P Xi ∈ [a, b] − N 0, ˛P ´ 3 n ˛ ˛ σ2 i=1 i=1 i=1 i i=1 Zur Anwendung des Satzes von Berry-Esseen führen wir den Begriff der Verteilungskonvergenz einer Folge von Zufallsvariablen ein. Definition D.2.33 Seien (Xn ) eine Folge von Zufallsvariablen und X eine Zufallsvariable. Man sagt Xn konvergiert gegen X in Verteilung oder schwach (in Zeichen Xn ⇀ X), falls für die entsprechenden Verteilungsfunktionen (Fn ) und F Fn (t) → F(t) für alle Stetigkeitspunkte t ∈ R (28) gilt. Ein zentrales Ergebnis nach Skorokhod besagt, dass die Verteilungskonvergenz durch geeignete Wahl der Zufallsvariablen nichts anderes als die punktweise Konvergenz darstellt. Satz D.2.34 Seien (Xn )n∈N0 eine Folge von Zufallsvariablen mit Xn ⇀ X0 . Dann existiert eine Wahrscheinlichkeitsraum (Ω̃, F˜ , P̃) und eine Folge von Zufallsvariablen (Yn )n∈N0 auf (Ω̃, F˜ , P̃), sodass Yn (ω ) −→ Y0 (ω ), für alle ω ∈ Ω̃ gilt, und Xi und Yi haben die gleiche Verteilung (i = 0, 1, . . .). Es lassen sich einige nicht schwer zu beweisende Aussagen über die schwache Konvergenz von Zufallsvariablen ableiten, die mehr oder minder besagen, dass die schwache Konvergenz sich ähnlich wie die Konvergenz von Zahlen verhält. Satz D.2.35 Seien X, X1 , X2 , . . . , Y,Y1 ,Y2 , . . . , und Z, Z1 , Z2 , . . . , Zufallsvariable auf einen Wahrscheinlichkeitsraum (Ω, F , P). Seien a, b ∈ R. Dann gilt: a) Gilt Xn ⇀ X und Xn ⇀ Y, so haben X und Y dieselbe Verteilung. b) Gilt Xn ⇀ X und Yn − Xn ⇀ 0, so gilt auch Yn ⇀ X. c) Gilt Xn ⇀ a, Yn ⇀ Y und Zn ⇀ Z, so hat man XnYn + Zn ⇀ aY + Z. Beweis. vgl. [Sch98b, 1.1. Satz, S.223]. Wir notieren drei wichtige Ergebnisse (vgl. z. B. [Sch98b, 2.7 Satz, p.136] für einen Beweis). ¤ D.2 Einige Grundbegriffe aus der Wahrscheinlichkeitstheorie 435 Satz D.2.36 Seien X, X1 , X2 , . . . eine Folge von Zufallsvariablen. Dann gilt: a) Xn ⇀ X genau dann, wenn EP ( f (Xn )) → EP ( f (X)) für jede auf R beschränkte, stetige Funktion f : R → R. b) Sei f : R → R Borel-messbar derart, dass ` ´ P {ω ∈ Ω; f ist nicht stetig in X(ω )} = 0. Gilt Xn ⇀ X, so auch f (Xn ) ⇀ f (X). c) Sei f : R → R so, dass ` ´ P {ω ∈ Ω; f ist nicht stetig in X(ω )} = 0. Gilt supn∈N EP ( f (Xn )), EP ( f (X)) < ∞ und Xn ⇀ X, so folgt EP ( f (Xn )) → EP ( f (X)). Ein wichtiger Begriff für die schwache Konvergenz von Zufallsvariablen gegen eine normalverteilte Zufallsvariable ist das sogenannte Dreiecksschema. Definition D.2.37 Seien (Xm,n ), (1 ≤ m ≤ k(n), n ∈ N) eine Familie von Zufallsvariablen, wobei die Zufallsvariablen (Xm,n ), (1 ≤ m ≤ k(n) auf einem Wahrscheinlichkeitsraum (Ωn , Fn , Pn ) (also abhängig von n ∈ N) definiert sind. Sei Sn = X1,n + . . . + Xk(n),n . (Xm,n ), (1 ≤ m ≤ k(n), n ∈ N) nennt man ein Dreiecksschema, falls 2 ) < ∞ für 1 ≤ m ≤ k(n), n ∈ N. a) EPn (Xm,n ) = 0, EPn (Xm,n b) Für alle n ∈ N sind die Zufallsvariablen X1,n , . . . , Xk(n),n unabhängig. c) Var(Sn ) = 1, n ∈ N. Ein wichtiges Ergebnis, das sich aus der Lindeberg-Bedingung ergibt (vgl. [Sch98b, 2.2 Satz, S. 240]), ist das folgende Kriterium. Satz D.2.38 Sei (Xm,n ) ein Dreiecksschema derart, dass (Xm,n ) ⊂ L3 (P) und k(n) X m=1 EP (|Xm,n |3 ) → 0 für n → ∞ gilt (Ljapunov-Bedingung). Dann folgt: Es gibt eine (0, 1)-normalverteilte Zufallsvariable N mit Sn ⇀ N. 436 D Wahrscheinlichkeitstheorie D.3 Bedingte Erwartung Definition D.3.1 Sei X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F , P) mit der Eigenschaft EP (|X|) < ∞. feine Unter-σ -Algebra von F , d. h. eine σ -Algebra , die in F enthalten ist. Sei weiter F f, falls Dann nennt man Xe : Ω → R bedingte Erwartung von X bezüglich F f-messbar ist, und EP (|X|) e < ∞ gilt, und 1) Xe F f 2) für à ∈ F folgt e = EP (1 X). EP (1à X) à Nach einem Satz der Analysis, dem Satz von Radon Nikodým, existiert der bedingte Erwartungswert immer, und der Satz zeigt, dass er bis auf Gleichheit fast überall eindeutig bestimmt ist. Satz D.3.2 (Der Satz von Radon Nikodým) Seien µ und ν zwei Maße auf F , einer σ -Algebra auf einer Menge Ω und sei ν σ -endlich. Dann sind die folgenden Aussagen äquivalent. 1) Für alle A ∈ F gilt: µ (A) = 0 ⇒ ν (A) = 0 (man sagt, dass ν absolut-stetig bezüglich µ ist). 2) Es gibt eine F -messbare Funktion f : Ω → [0, ∞[, sodass Z f (ω )d µ (ω ), für alle A ∈ F gilt ν (A) = A (man sagt, dass f die Radon-Nikodým-Ableitung von ν bezüglich µ ist). Satz D.3.3 (Existenz und Eindeutigkeit der bedingten Erwartung) f ⊂ F eine Unter-σ Falls X eine Zufallsvariable auf (Ω, F , P) ist, für die E(|X|) < ∞ gilt, und falls F f e Algebra darstellt, so gibt es eine F -messbare Zufallsvariable X mit den Eigenschaften e = EP (1A X) für alle EP (1A X) f. A∈F (29) f-messbare ZuDie Variable ist bis auf Gleichheit fast überall eindeutig bestimmt, d. h. sind X̃1 und X̃2 F f). fallsvariable, die beide die Gleichung (29) erfüllen, so folgt X1 = X2 . Wir bezeichnen X̃ mit EP (X|F Beweis Zuerst nehmen wir X ≥ 0 an. Definiere ν (A) = EP (1A X), für A ∈ F . Sei nun ν ein Mass auf F , das absolut-stetig bezüglich P ist. Dann ist auch die Einschränkung von µ auf die fabsolut-stetig bezüglich der Einschränkung von P auf F f. Deshalb können wir den Satz Unter-σ -Algebra F f-messbare Zufallsvariable von Radon-Nikodým auf beide Einschränkungen anwenden und erhalten eine F f Xe ≥ 0, sodass für alle à ∈ F e = ν (Ã) = EP (1 X) EP (1à X) à D.3 Bedingte Erwartung 437 gilt. e = EP (X) < ∞ impliziert. Man beachte, dass dies EP (X) Im allgemeinen Fall schreiben wir X = X + − X − , und erhalten mit dem obigen Argument F -messbare und integrierbare Zufallsvariable X̃ + und X̃ − , sodass mit der Zerlegung X̃ = X̃ + − X̃ − gilt. e = EP (1 Xe+ ) − EP (1 Xe− ) = EP (1 X + ) − EP (1 X − ) = EP (1 X) EP (1à X) à à à à à Um die Eindeutigkeit von X̃ nachzuweisen, nehmen wir an, dass X̃1 und X̃2 F -messbar sind und (29) genügen. Für ε > 0 ist die Menge A = {X̃1 ≥ X̃2 + ε } F -messbar, und man folgert 0 = EP (1A (X̃1 − X̃2 )) ≥ ε P(A). Dies bedeutet, dass P(A) = 0, und weil ε > 0 beliebig klein gewählt werden kann, ergibt sich mit Satz D.2.7 P(X̃1 > X̃2 ) = 0. Vertauscht man die Rollen von X̃1 und X̃2 , so lässt sich schließlich P(X̃2 > X̃1 ) = 0 folgern. ¤. Wir geben nun einige grundlegende Eigenschaften. Satz D.3.4 f ⊂ F eine Unter-σ Seien X und Y zwei Zufallsvariable auf (Ω, F , P) mit EP (|X|), EP (|Y |) < ∞. Sei F Algebra. Dann gilt f) = aEP (X|F f) + bEP (Y |F f) f.s. 1. Für a, b ∈ R: EP (aX + bY |F f 2. Gilt zusätzlich EP (|XY |) < ∞ und ist Y F -messbar, dann folgt f) = Y EP (X|F f) f.s. EP (Y X|F funabhängig, dann ist EP (X|F f) = EP (X) f.s. 3. Seien X und F 4. Gilt X ≤ Y fast sicher, so folgt f) ≤ EP (X|F f). EP (X|F Beweis f) + bEP (Y |F f) Die erste Behauptung (1) lässt sich einfach zeigen, in dem man nachweist, dass aEP (X|F f die Gleichung (29) für die Zufallsvariable aX + bY erfüllt. Zusätzlich muss man für unabhängige X und F zeigen, dass die konstante Zufallsvariable EP (X) der Gleichung (29) genügt. Dies zusammen ergibt die Behauptung (3). fgilt. Wir erkennen, dass für beliebige Um (2) nachzuweisen, nehmen wir zuerst an, dass Y = 1B für B̃ ∈ F f à ∈ F ` ´ ` ´ f) = EP 1 f EP 1à 1B̃ EP (X|F Ã∩B̃ EP (X|F ) = EP (1Ã∩B̃ X) = EP (1à 1B̃ X) gilt. Somit ist die Behauptung in diesem Fall gezeigt, und mit der Aussage (1) hat man die Behauptung für P alle Zufallsvariable der Form Y = m i=1 βi 1Bi , Bi ∈ F und βi ∈ R, für n ∈ N, i = 1, 2, . . . n. Ist Y beliebig, so findet man eine Folge Yn von F˜ -messbaren Zufallsvariablen so, dass jede Yn nur endlich viele Werte annimmt und |Yn | ≤ |Y |, für n ∈ N und limn→∞ Yn = Y fast sicher. Ist à ∈ F dann ergibt sich 438 D Wahrscheinlichkeitstheorie mit dem Satz von der majorisierten Konvergenz D.2.24 ` ´ ` ´ f) = lim EP 1 Yn EP (X|F f) = lim EP (1 Yn X) = EP (1 Y X) EP 1ÃY EP (X|F à à à n→∞ n→∞ und (2) ist bewiesen. Schließlich nehmen wir, um die Aussage (4) nachzuweisen, an, dass X ≤ Y fast sicher gilt. Man definiere f-messbar und A ist F f) > EP (Y |F f)}. A = {ω ∈ Ω : EP (X|F ` ´ f) − EP (X|F f)] ≤ 0, 0 ≤ EP (1A (Y − X)) = EP 1A [EP (Y |F was P(A) = 0 impliziert, und der Beweis von Behauptung (3) ist abgeschlossen. ¤ Leider ist Satz D.3.3 einer der Aussagen, die uns zwar die eindeutige Existenz eines Objektes garantiert, aber er lässt uns im Unklaren darüber, wie man es findet. Wir werden nun in zwei wichtigen Fällen angeben, wie man den bedingten Erwartungswert berechnet. Satz D.3.5 f von MenEs sei X eine Zufallsvariable (Ω, F , P) mit EP (|X|) < ∞. Weiter werde die Unter-σ -Algebra F gen A1 , A2 , . . . An ∈ F erzeugt, die paarweise disjunkt sind und deren Vereinigung ganz Ω ist. Schließlich nehmen wir an, dass alle Ai strikt positive Wahrscheinlichkeit haben. Dann gilt f) = EP (X|F n X i=1 1Ai EP (1Ai X) . P(Ai ) Wir kommen nun zu dem für stochastische Prozesse wichtigen Fall. Dabei sei Ω = Rn , F = BRn . Ferner sei P ein Wahrscheinlichkeitsmaß auf BRn . Wir definieren folgende Unter-σ -Algebren F0 , F1 , F2 , . . . , Fn . F0 = {0, / Ω} [die “triviale σ -Algebra”] F1 = alle Mengen der Form A × Rn−1 mit A ∈ BR F2 = alle Mengen der Form A × Rn−2 mit A ∈ BR2 allgemein: F j = alle Mengen der Form A × Rn− j mit A ∈ BR j . Satz D.3.6 Sei F : Rn → R F j -messbar. Dann hängt F nur von (x1 , . . . , x j ) ab (d. h. F ist eine Funktion von (x1 , . . . , x j )). Beweis Wir beweisen die Aussage nur für j = 1 (die anderen Fälle kann man ähnlich nachweisen). Sei F F1 messbar. Man definiere g : Rn → R gemäß g(x1 , . . . , xn ) = g(x1 ) = F(x1 , 0, . . . , 0). Es muss D.3 Bedingte Erwartung 439 {(x1 , . . . , xn ) ∈ Rn ; 0 6= F(x1 , . . . , xn ) − g(x1 )} = 0/ gezeigt werden. Da F und g beide F1 -messbar sind, ist F −g auch F1 -messbar. Deshalb gibt es ein A ∈ BR mit A × Rn−1 = {(x1 , . . . , xn ) ∈ Rn ; 0 6= F(x1 , . . . , xn ) − g(x1 )}. Angenommen A 6= 0. / Dann wähle ein x1 ∈ A. Für dieses x1 gilt, dass F(x1 , x2 , . . . , xn ) 6= F(x1 , 0, . . . , 0) für alle (x2 , . . . , xn ) ∈ Rn−1 , insbesondere für x2 = x3 = x4 = · · · = xn = 0. Deshalb ist F(x1 , 0, 0, . . . , 0) 6= g(x1 ), was ein Widerspruch darstellt. Da A = 0, / muss auch A × Rn−1 = 0/ gelten. ¤ Satz D.3.7 Sei X : Rn → R eine Zufallsvariable und P ein Wahrscheinlichkeitsmaß mit Dichte f : Rn → R. ” “ Dann ist EP X|F j eine Funktion von x1 , . . . , x j (gemäß Satz D.3.6) und es gilt EP (X|F j )(x1 , . . . , x j ) R R ··· f (x1 , . . . , x j , z j+1 , . . . , zn )X(x1 , . . . , x j , z j+1 , . . . , zn )dz j+1 . . . dzn R R = f.s. ··· f (x1 , . . . , x j , z j+1 , . . . , zn )dz j+1 . . . dzn [Man beachte: Der Nenner kann verschwinden, aber dann muss auch der Zähler Null sein, und in diesem Fall definieren wir den Bruch durch Null.] Beweis. Wir beweisen nicht, dass die Funktion R R ··· f (x1 , . . . , x j , z j+1 , . . . , zn )X(x1 , . . . , x j , z j+1 , . . . , zn )dz j+1 . . . dzn R R X̃ : (x1 , . . . , x j ) 7→ ··· f (x1 , . . . , x j , z j+1 , . . . , zn )dz j+1 . . . zn fast sicher wohldefiniert und F j -messbar ist. Sei A × Rn− j ∈ F j , d. h. A ∈ BR j . Wir müssen nachweisen, dass EP (1A×Rn− j · X) = Z EP (1A×Rn− j X̃) = E(1A×Rn− j X). Z . . . 1A (x1 , . . . , x j )X(x1 , . . . , xn ) f (x1 , . . . , xn )dx1 . . . dxn [Beachte: 1A×Rn− j (x1 , . . . , xn ) = 1A (x1 , . . . , x j )] = Z Z · · · 1A (x1 , . . . , x j ) | {z } j-mal 2 6 ·4 Z ··· Z (n− j)-mal 3 7 X(x1 , . . . , xn ) f (x1 , . . . , xn )dx j+1 . . . dxn 5 dx1 . . . dx j 440 D Wahrscheinlichkeitstheorie ˆR ˜ R ··· X(x1 , . . . , xn ) f (x1 , . . . , xn )dx j+1 . . . dxn R R ··· f (x1 , . . . , xn )dx j+1 . . . dxn »Z – Z · · · f (x1 , . . . , xn )dx j+1 . . . dxn dx1 . . . dx j Z Z = · · · 1A (x1 , . . . , x j )X̃(x1 , . . . , x j ) »Z – Z · · · f (x1 , . . . , xn )dx j+1 . . . dxn dx1 . . . dx j Z Z = · · · 1A (x1 , . . . , x j )X̃(x1 , . . . , x j ) f (x1 , x2 , . . . , xn )dx1 dx2 . . . dxn = Z ··· Z 1A (x1 , . . . , x j ) n-mal Vertauschen der Integration liefert = EP (1A×Rn− j X̃(x1 , . . . , x j )). Wir haben somit gezeigt ` ´ EP X|F j = X̃ f.s. ¤ Das nächste Resultat bietet eine oft benutzte Ungleichung. Satz D.3.8 (Jensensche Ungleichung) f ⊂ F eine Sei X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F , P). Sei F Unter-σ -Algebra. Sei weiter ϕ : R → R eine konvexe Funktion, sodass auch ϕ (X) erneut P-integrierbar ist. Dann gilt f) ≥ ϕ (E(X|F f)). (30) E(ϕ (X)|F Beweis Definiere für x0 ∈ R D− ϕ (x0 ) = lim h↓0 ϕ (x0 ) − ϕ (x0 − h) h (falls ϕ in x0 differenzierbar ist, so ist D− ϕ (x0 ) einfach die Ableitung). In x0 ∈ R ist die Gerade y − ϕ (x0 ) = D− ϕ (x0 ), x − x0 oder y = xD− ϕ (x0 ) − x0 D− ϕ (x0 ) + ϕ (x0 ) die Tangente an den Graphen von ϕ im Punkt (x0 , ϕ (x0 )). Eine der äquivalenten Definitionen für Konvexität von ϕ lautet, dass der Graph von ϕ oberhalb der Tangente liegt. Deshalb folgt für beliebige x, x0 ∈ R die Ungleichung ϕ (x) ≥ xD− ϕ (x0 ) − x0 D− ϕ (x0 ) + ϕ (x0 ). D.3 Bedingte Erwartung 441 Wenn man die obige Ungleichung auf Zufallsvariable X anwendet (einfach x ersetzen) und die Zufallsvaf) an die Stelle von x0 schreibt, so ergibt sich riable X0 = E(X|F ϕ (X) ≥ XD− ϕ (X0 ) − X0 D− ϕ (X0 ) + ϕ (X0 ). f) auf beiden Seiten, so sieht man Bildet man nun die Bedingte Erwartung E(·|F f) ≥ E(XD− ϕ (X0 ) − X0 D− ϕ (X0 ) + ϕ (X0 ) | F f) E(ϕ (X) | F f)). f)D− ϕ (X0 ) − X0 D− ϕ (X0 ) + ϕ (X0 ) = ϕ (E(X|F = E(X|F ¤ 442 D Wahrscheinlichkeitstheorie D.4 Konvergenz von Zufallsvariablen Wir haben bereits verschiedene Konvergenzbegriffe für eine Folge von Zufallsvariablen eingeführt. So konvergiert eine Folge von Zufallsvariablen (Xn ) auf einem Wahrscheinlichkeitsraum (Ω, F , P) gegen eine Zufallsvariable X fast sicher, falls P({ω ∈ Ω; lim Xn (ω ) = X(ω )} = 1. n→∞ Hier wollen wir zwei weitere Konvergenzbegriffe einführen. Wir bezeichnen mit L0 (P) die Menge aller messbaren Funktionen Ω → R. Zwei Elemente in L0 (P) betrachten wir als gleich, falls sie f.s. gleich sind. Man beachte, dass L0 (P) ein Vektorraum ist. Definition D.4.1 Eine Folge (Xn ) ⊂ L0 (P) konvergiert in Wahrscheinlichkeit gegen X ∈ L0 (P), falls für alle ε > 0 lim P({ω ∈ Ω; |Xn (ω ) − X(ω )| > ε }) = 0 n→∞ (31) gilt. Die folgenden Abschätzungen zeigen die Beziehungen zwischen P(|X| > a) und den Erwartungswerten auf. Satz D.4.2 + Seien X eine positive Zufallsvariable und φ : R+ 0 → R0 positiv, wachsend und messbar. Für a > 0 gilt aP(φ (X) ≥ a) ≤ EP (φ (X)). Wenn man diese Ungleichung auf φ (x) = x, φ (x) = x2 und auf die Zufallsvariable |X| anwendet, erhält man 1. (Markovsche Ungleichung) P(|X| ≥ a) ≤ 1a EP (|X|). 2. (Tschebyscheff-Ungleichung) P(|X| ≥ a) = P(X 2 ≥ a2 ) ≤ 1 E (|X|2 ). a2 P Beweis Man beachte, dass a1{φ (X)≥a} ≤ φ (X). Dann integriere man beide Seiten. Satz D.4.3 Für X,Y ∈L0 (P) definiere ¤ ` ´ dL0 (X,Y ) = EP min(1, |X −Y |) . Dann stellt d(·, ·) eine Metrik auf L0 (P) dar, was dL0 (·, ·) ≥ 0 und 1) dL0 (X,Y ) = 0 ⇐⇒ X = Y fast sicher für X,Y ∈L0 (P) 2) dL0 (X, Z) ≤ dL0 (X,Y ) + dL0 (Y, Z) für X,Y, Z ∈L0 (P). 3) dL0 (X,Y ) = dL0 (Y, X) für X,Y ∈L0 (P) bedeutet. Insbesondere konvergiert (Xn ) ⊂L0 (P) genau dann in Wahrscheinlichkeit gegen ein X ∈L0 (P), wenn limn→∞ dL0 (Xn , X) = 0 gilt. D.4 Konvergenz von Zufallsvariablen 443 Beweis Beachte, dass für X,Y ∈L0 (P) P(X = Y ) = 1 ⇐⇒ min(1, |X −Y |) = 0 f.s. gilt, was (1) impliziert. Außerdem gilt für Zahlen x, y und z, dass min(1, |x − z|) ≤ min(1, |x − y| + |y − z|) ≤ min(1, |x − y|) + min(1, |y − z|). Damit folgt die Aussage (2). Man beachte schließlich, dass für X,Y ∈L0 (P) und 1 > ε > 0 mit Hilfe von Satz D.4.2 folgt, dass P(|X −Y | > ε ) = P(min(1, |X −Y |) > ε ) ≤ 1 1 E (min(1, |X −Y |)) ≤ P(|X −Y | > ε ). ε P ε Hiermit ergibt sich lim P(|X − Xn | > ε ) = 0 ⇐⇒ lim EP (min(1, |X − Xn |)) = 0, n→∞ n→∞ und die letzte Behauptung ist bewiesen. ¤ Für das nächste Resultat brauchen wir folgenden Begriff: (Xn ) ⊂ L0 (P) heißt Cauchy-Folge bezüglich der Konvergenz in Wahrscheinlichkeit, wenn es für alle ε > 0 ein N ∈ N gibt, sodass P(|Xn − Xm | > ε ) < ε für alle n, m ≥ N gilt. Dies ist gleichbedeutend mit der Tatsache, dass (Xn ) eine Cauchy-Folge bezüglich dL0 (·, ·) ist: Für alle ε > 0 gibt es ein N ∈ N, sodass dL0 (Xn , Xm ) < ε für alle n, m ≥ N folgt. Es ist klar, dass eine in Wahrscheinlichkeit konvergente Folge auch eine Cauchy-Folge ist. Das folgende Ergebnis zeigt, dass auch die Umkehrung gilt. Satz D.4.4 Der Raum L0 (P) ist vollständig bezüglich der Konvergenz in Wahrscheinlichkeit. Dies bedeutet, dass jede Cauchy-Folge konvergiert. Beweis Sei (Xn ) eine Cauchy-Folge. Es genügt zu zeigen, dass es eine Teilfolge (Xnk ) gibt, die gegen ein X ∈L0 (P) konvergiert. Denn konvergiert (Xnk ) gegen X, so gilt dL0 (Xn , X) ≤ dL0 (Xn , Xnk ) + dL0 (Xnk , X). Ist ε > 0, so kann man ein k0 finden so, dass der zweite Summand kleiner als ε für alle k ≥ k0 ist. Weiter lässt sich ein N ∈ N, N ≥ nk0 so wählen, dass der erste Summand kleiner als ε für alle k ∈ N mit nk ≥ N und alle n ≥ N ist. Gemäß der Voraussetzung, kann man eine Teilfolge (Xnk ) so auswählen, dass P(|Xnk − Xm | > 2−k ) < 2−k , for m ≥ nk . 444 D Wahrscheinlichkeitstheorie Wir sehen, dass für beliebiges k0 P({ω ∈ Ω; Xnk (ω ) konvergiert nicht }) = P({ω ∈ Ω; ≤ P({ω ∈ Ω; ≤ P( ∞ [ k=k0 ≤ ∞ X ∞ X k=k0 ∞ X k=k0 Xnk+1 (ω ) − Xnk (ω ) konvergiert nicht }) |Xnk+1 (ω ) − Xnk (ω )| = ∞}) {|Xnk+1 − Xnk | > 2−k }) 2−k = 2−k0 +1 k=k0 gilt. Da k0 beliebig groß gewählt werden kann, folgern wir, dass P({ω ∈ Ω; Xnk (ω ) konvergiert nicht}) = 0 Wir definieren X(ω ) = limk→∞ Xnk (ω ), falls ω ∈ Ω̃ = {ω ∈ Ω; Xnk (ω ) konvergiert} und X(ω ) = 0 sonst. Dann gilt, dass Xnk fast sicher gegen X konvergiert, und deshalb folgt nach dem Satz von der majorisierten Konvergenz D.2.24, dass dL0 (Xnk , X) = EP (min(1, |Xnk − X|)) → 0, für k → ∞. Mit Satz D.4.3 ist damit die Behauptung bewiesen. ¤ Um den zweiten Konvergenzbegriff einzuführen, definieren wir mit L2 (P) den Vektorraum aller quadratisch integrierbaren Zufallsvariablen auf (Ω, P), d. h. X ∈ L2 (P) ⇐⇒ EP (X 2 ) < ∞. Definition D.4.5 Für X,Y ∈ L2 (P) definieren wir mit < X,Y >= EP (XY ) das Skalarprodukt von X und Y . Beachte Da |X| · |Y | ≤ 21 [X 2 +Y 2 ] gilt, ist XY integrierbar, falls X und Y quadratisch integrierbar sind. kXkL2 =< X, X >1/2 = nennt man die L2 -Norm auf X, und: q EP (X 2 ) Falls (Xn )∞ n=1 ⊂ L2 (P) eine Folge von Zufallsvariablen ist, so heißt X ∈ L2 (P) der L2 -Grenzwert von (Xn ), falls q lim kXn − XkL2 = lim EP ((Xn − X)2 ) = 0. n→∞ n→∞ Wir schreiben X = L2 − lim Xn . n→∞ Satz D.4.6 (Cauchy-Schwartz Ungleichung) Seien X und Y zwei Zufallsvariablen mit endlicher L2 -Norm. Dann gilt | < X,Y > | ≤ kXkL2 kY kL2 . D.4 Konvergenz von Zufallsvariablen 445 Beweis Wir nehmen zuerst an, dass weder X noch Y fast sicher Null sind. Denn sonst verschwinden beide Seiten der Ungleichung. Deshalb gilt kXkL2 > 0 und kY kL2 > 0. Setzt man X̃ = X/|XkL2 und Ỹ = Y /|Y kL2 , so ergibt sich für ω ∈ Ω aus der binomischen Formel, dass |X̃ Ỹ | ≤ 12 (X̃ 2 + Ỹ 2 ). Integriert man beide Seiten, folgt 1 EP (|X̃ Ỹ |) ≤ EP (X̃ 2 + Ỹ 2 ) = 1. 2 Multipliziert man jetzt beide Seiten mit kXkL2 kY kL2 , so ist die Behauptung bewiesen. ¤ Satz D.4.7 k · kL2 stellt eine Norm auf L2 (P) dar. Dies bedeutet: 1) Für X ∈L2 (P) gilt: kXkL2 = 0 ⇐⇒ X = 0 fast sicher. 2) (Homogenität) Für X ∈L2 (P) und α ∈ R folgt: kα XkL2 = α kXkL2 . 3) (Dreiecksungleichung) Für X,Y ∈L2 (P) haben wir: kX +Y kL2 ≤ kXkL2 + kY kL2 . Beweis Wir zeigen nur die Bedingung (3). Die Eigenschaften (1) und (2) sind sofort einsichtig. Für X,Y ∈ L2 (P) wendet man Cauchy-Schwartzsche Ungleichung D.4.6 auf |X| · |X +Y | und |Y | · |X +Y | an, um EP (|X| · |X +Y |) ≤ kXkL2 kX +Y kL2 und EP (|Y | · |X +Y |) ≤ kY kL2 kX +Y kL2 zu folgern. Addiert man beide Gleichungen, so sehen wir ˜ ˆ kX +Y k2L2 = EP ((X +Y )2 ) ≤ EP ((|X| + |Y |)|X +Y |) ≤ kXkL2 + kY kL2 kX +Y kL2 . Geeignetes Kürzen liefert die Aussage. ¤ Es gelten die folgenden Implikationen zwischen den einzelnen Konvergenzbegriffen. Satz D.4.8 Konvergiert (Xn ) ⊂L0 fast sicher, so konvergiert es in Wahrscheinlichkeit. Konvergiert (Xn ) ⊂L0 fast sicher, so konvergiert es auch in Verteilung. Konvergiert (Xn ) ⊂L0 in Wahrscheinlichkeit, so existiert eine Teilfolge, die fast sicher konvergiert. Konvergiert (Xn ) ⊂L2 in L2 , so konvergiert sie auch in Wahrscheinlichkeit. Beweis. Die ersten zwei Implikation folgen aus dem Satz von der majorisierten Konvergenz D.2.24 und Satz D.4.3, wie wir es im letzten Teil des Beweises zu Satz D.4.4 gesehen haben. Die dritte Implikation wurde bereits im Beweis zu D.4.3 nachgewiesen. Die vierte Implikation ist eine Folgerung der Ungleichung von Tschebyscheff (vgl. Satz D.4.2). ¤ Satz D.4.9 Der Raum L2 (P) ist versehen mit der Norm k · kL2 vollständig. 446 D Wahrscheinlichkeitstheorie Beweis. Sei (Xn ) eine Cauchy-Folge bezüglich k · kL2 . Geht man nun wie im Beweis zu Satz D.4.4 vor, so muss man nur zeigen, dass (Xn ) eine konvergente Teilfolge besitzt. Gemäß der Tschebyscheff-Ungleichung (Satz D.4.2) ist die Folge Cauchy bezüglich der Konvergenz in Wahrscheinlichkeit. Deshalb konvergiert sie nach Satz D.4.4 gegen ein X ∈L0 (P). Nach Satz D.4.8 können wir zu einer Teilfolge übergehen, die fast sicher gegen X konvergiert. Danach wählen wir eine Teilfolge (Xnk ) so, dass kXnk+1 − Xnk kL2 < 2−k für alle k ∈ N gilt. Mit dem Satz über die monotone Konvergenz D.2.23 folgt ∞ m X X EP ( |Xnk+1 − Xnk |2 ) = lim EP ( |Xnk+1 − Xnk |2 ) < ∞. k=1 Setzt man nun Y = |Xn1 | + folgt m→∞ P∞ k=1 k=1 |Xnk+1 − Xnk |, so gilt |Xnk | ≤ Y kY kL2 ≤ kXn1 kL2 + ∞ X k=1 für alle k ∈ N. Mit der Dreiecksungleichung kXnk+1 − Xnk kL2 < ∞. Schließlich hat man mit Hilfe des Satzes von der majorisierten Konvergenz D.2.24, dass “ ”1/2 “ ”1/2 kX − Xnk kL2 = EP ((X − Xnk )2 ) = lim EP ((Xnm − Xnk )2 ) ≤ 2−k+1 . m→∞ Die Behauptung ist damit bewiesen. ¤ Folgende Beobachtung folgt sofort aus der Jensenschen Ungleichung (vgl. Satz D.3.8 aus Anhang D.3). Satz D.4.10 Die bedingte Erwartung bezüglich einer Unter-σ -Algebra F˜ ist eine Kontraktion auf L2 (P), d. h. es gilt für alle X,Y ∈L2 (P) kEP (X −Y |F˜ )kL2 ≤ kX −Y kL2 . Insbesondere ist die bedingte Erwartung eine stetige Abbildung auf L2 (P). E Stochastische Analysis In diesem Kapitel haben wir einige Ergebnisse über die Brownsche Bewegung zusammen getragen. Man kann sie in den meisten Büchern aus dem Bereich „stochastische Analysis“ finden, doch um für unsere Zwecke jene auszuwählen, die benötigt werden, stellen wir diese zusammen. Auf diesen Ergebnissen baut die Itô-Formel auf, wie sie in Abschnitt 4.1.2 hergeleitet wird. E.1 Eigenschaften der Brownschen Bewegung Da die Brownsche Bewegung für die Beschreibung des Aktienpreises eine so zentrale Rolle spielt, wird dieser Abschnitt ganz der Darstellung und dem Beweis einiger wichtiger Eigenschaften der Brownschen Bewegung gewidmet sein. Im gesamten Abschnitt nehmen wir an, dass (Bt ) eine Brownsche Bewegung auf dem filtrierten Wahrscheinlichkeitsraum (Ω, F , (Ft ), P) definierter Prozess ist. Da wir ein festes Wahrscheinlichkeitsmaß P betrachten, werden wir den Erwartungswert bzgl. P mit E anstatt mit EP bezeichnen. Satz E.1.1 (Bt ) ist ein quadratisch integrierbarer Prozess und: 1) Ist s < t, so folgt E(Bt |Fs ) = Bs , d. h. (Bt ) ist ein Martingal, 2) Für s < t gilt E((Bt − Bs )2 ) = t − s, 3) E(Bt Bs ) = min(s,t). Beweis Da Bt normalverteilt ist, ist (Bt ) quadratisch integrierbar. Sei s < t. Dann folgt E(Bt |Fs ) = E(Bs + Bt − Bs |Fs ) = Bs + E(Bt − Bs |Fs ). Da Bt − Bs Erwartungswert Null hat und unabhängig von Fs ist, erhält man aus aus Satz D.3.4 (3) im Anhang D.3, dass E(Bt − Bs |Fs ) = E(Bt − Bs ) = 0, was den ersten Teil beweist. Die zweite Behauptung folgt einfach aus der Tatsache, dass Bt − Bs den Erwartungswert Null und Varianz (t − s) besitzt. Mit denselben Argumenten wie im Beweis zu (1), folgern wir E(Bt Bs ) = E(B2s + (Bt − Bs )Bs ) = E(B2s ) + E((Bt − Bs )Bs ) = s + E(Bt − Bs ) E(Bs ) = s | {z } | {z } 0 0 448 E Stochastische Analysis für s < t. Dies beweist die dritte Behauptung. ¤ Die Pfade der Brownschen Bewegung haben „quadratische Variation“. Um dies zu beweisen, benötigen wir den folgenden Satz. Satz E.1.2 Sei s < t. Dann gilt E([(Bt − Bs )2 − (t − s)]2 ) = 2(t − s)2 . Beweis Bt − Bs ist N(0,t − s) verteilt. Die Dichte ist durch ρ (x) = p 1 2π (t − s) e−x 2 /2(t−s) gegeben. Setzt man g(x) = (x2 − (t − s))2 und h = t − s, so folgt aus Satz D.2.22 aus dem Anhang D.2 und elementarer Integration E([(Bt − Bs )2 − (t − s)]2 ) = Z∞ g(x)ρ (x)dx −∞ denn √ Weiter berechnen wir 1 2π h Z∞ x2 e−x −∞ 2 /2h =√ 1 2π h =√ 1 2π h =√ 1 2π h Z∞ −∞ Z∞ −∞ Z∞ dx = h und √ 2 =√ 1 2π h 2 2 /2h dx (x4 − 2x2 h + h2 )e−x x4 e−x 2 /2h −∞ 1 E([(Bt − Bs ) − (t − s)] ) = √ 2π h 2 (x2 − h)2 e−x 1 2π h Z∞ −∞ Z∞ −∞ 2 Z∞ 2 /2h dx dx − h2 , e−x 2 /2h dx = 1. −∞ 2 2 −x /2h x3 xe | {z } dx − h |{z} v 3x2 he−x u′ 2 /2h dx − h2 = 3h − h = 2h2 = 2(t − s)2 , was zu beweisen war. Satz E.1.3 ¤ E.1 Eigenschaften der Brownschen Bewegung 449 1) Der Prozess (Bt2 − t)t≥0 ist ein Martingal. 1 2 2) Der log-normal Prozess (eσ Bt − 2 σ t )t≥0 mit σ > 0 ist ein Martingal. Beweis Wir werden nur den zweiten Teil beweisen und überlassen den ersten dem Leser. Sei s < t. Die Unabhängigkeit von Bt − Bs und Fs ergibt 1 1 2 1 2 2 E(eσ Bt − 2 σ t |Fs ) = E(eσ Bs − 2 σ s · eσ (Bt −Bs )− 2 σ σ Bs − 21 σ 2 s =e 1 Es bleibt E(eσ (Bt −Bs )− 2 σ 2 (t−s) ) = 1 σ (Bt −Bs )− 21 σ 2 h E(e · E(e (t−s) σ (Bt −Bs )− 21 σ 2 (t−s) |Fs ) ). zu zeigen. Setze h = t − s und beachte, dass 1 )= √ 2π h 1 =√ 2π h Z∞ −∞ Z∞ 1 2 eσ x− 2 σ h e−x −x e 2 −2xσ h+σ 2 h2 2h −∞ wobei die letzte Gleichung aus der Tatsache folgt, dass Erwartungswert σ h und Varianz h ist. 2 /2h dx 1 dx = √ 2π h √ 1 e− 2π h (x−σ h)2 2h Z∞ e− (x−σ h)2 2h dx = 1, −∞ die Dichte der Normalverteilung mit ¤ Abschließend wollen wir eine entscheidende Eigenschaft der Brown’schen Bewegung vorstellen, die „quadratische Variation“ der Pfade. Dazu benötigen wir folgende Notation. Definition E.1.4 Seien s < t und f : [s,t] → R gegeben. Zu einer Partition P = {t0 ,t1 , . . . ,tn }, mit s = t0 < t1 < · · · < tn = t setze man qv( f , P, [s,t]) = n X ( f (ti ) − f (ti−1 ))2 . i=1 Definiert man kPk = max |ti − ti−1 |, so hat f endliche quadratische Variation auf [s,t], wenn der Grenz- wert i=1,...,n qv( f , [s,t]) = lim qv( f , P, [s,t]) kPk→0 existiert. Mit „limkPk→0 qv( f , P, [s,t]) = a“ meinen wir das Folgende: Für alle ε > 0, existiert ein δ > 0, so dass |qv( f , P, [s,t]) − a| < ε für jede Partition P von [s,t] mit kPk ≤ δ folgt. Satz E.1.5 Sei f : [s,t] → R differenzierbar mit sup | f ′ (x)| = C < ∞. Dann gilt qv( f , [s,t]) = 0. s≤x≤t 450 E Stochastische Analysis Beweis: Sei P = {t0 ,t1 , . . . ,tn } eine Zerlegung von [s,t] n X i=1 | f (ti ) − f (ti−1 )|2 = – » n X f (ti ) − f (ti−1 ) 2 (ti − ti−1 )2 ti − ti−1 i=1 n X = (ti − ti−1 )2 | f ′ (ti∗ )|2 i=1 [Mittelwertsatz , ≤ C2 n X i=1 ti∗ ∈ [ti−1 ,ti ] geeignet] (ti − ti−1 )2 ≤ C2 max |ti − ti−1 | · i=1,...,n n X i=1 |ti − ti−1 | | {z =t−s } = C2 (t − s)kPk → 0, für kPk → 0.¤ Für ein ω ∈ Ω untersuchen wir die quadratische Variation der Pfade B(·) (ω ) : [s,t] → R. Formal ist A[s,t] (ω ) = qv(B(·) (ω ), [s,t]) eine Ft -messbare Zufallsvariable, falls sie existiert. Eine überraschende Eigenschaft von A[s,t] besagt, dass sie tatsächlich deterministisch ist (also unabhängig von fast allen ω ∈ Ω). In der Tat gilt A[s,t] = t − s fast sicher. Obwohl die Pfade Bt „sehr zufällig“ sind, sind deren quadratische Variationen vollkommen deterministisch. Sollte man tatsächlich die quadratische Variation einer Realisation der Brownschen Bewegung beobachten und messen können (was technisch problematisch ist), könnte man diesen Pfad als Zeitmesser benutzen: Hat die quadratische Variation den Wert t erreicht, ist die Zeit t bestimmt. Da der Beweis einige technische Hilfsmittel benötigt, die über dieses Buch hinausgehen, werden wir eine schwächere Aussage beweisen, die für unsere Zwecke ausreicht. Hierzu betrachten wir eine Zerlegungsfolge (Pn ) von [s,t], nämlich Pn = (t0 ,t1 , . . . ,tn ), t0 = s < t1 < . . . < tn < t. Sei A[s,t],Pn (ω ) = qv(B(·) (ω ), Pn , [s,t]). Wir nehmen dann an, kPn k → 0, d. h. die Feinheit der Zerlegungsfolge konvergiert gegen Null. Schließlich weisen wir nach, dass die Folge der Zufallsvariablen (A[s,t],Pn (·)) in L2 gegen t − s konvergiert, d. h. (vgl. Abschnitt D.4) wir müssen ` ´ lim E (A[s,t],Pn − (t − s))2 = 0 kPn k→0 zeigen. Bemerkung E.1.6 Zum besseren Verständnis werden wir die quadratische Variation in diskreter Formulierung angeben. Man beachte, dass für einen Prozess Xt L2 − lim qv(X(·) (·), P, [s,t]) = Y, kPk→0 E.1 Eigenschaften der Brownschen Bewegung 451 (n) (n) (n) dazu äquivalent ist, dass für jede Zerlegung (Pn ) von [s,t], mit Pn = (t0 ,t1 , . . . ,tkn ) und limn→0 kPn k = 0, 02 32 1 kn X B C E @4 (X (n) − X (n) )2 −Y 5 A → 0 ti i=1 folgt. ti−1 Man beachte, dass kn gegen Unendlich strebt, falls ||Pn || → 0. Zur Vereinfachung der Schreibweise werden wir kn = n annehmen. Satz E.1.7 (n) (n) (n) Sei Pn = (t0 ,t1 , . . . ,tn ) eine Folge von Zerlegungen des Intervalls [s,t], die limn→∞ kPn k = 0 erfüllen. Dann gilt n X (Bt (n) − Bt (n) )2 → t − s in L2 . i i=1 i−1 Beweis: Man berechnet 0" #2 1 n X 2 (Bt (n) − Bt (n) ) − (t − s) A E@ i i=1 0" i−1 #2 1 n X (n) (n) 2 = E@ [(Bt (n) − Bt (n) ) − (ti − ti−1 )] A = 2 4 n X i, j=1 n X i i=1 „ i−1 2 E [(Bt (n) − Bt (n) ) ai i=1 i !2 = i−1 n X i, j=1 Ist i 6= j, so folgern wir − Bt (n) ) j−1 « (n) (n) − (t j − t j−1 )] (n) (n) (n) (n) − ti−1 )][(Bt (n) − Bt (n) )2 − (t j − t j−1 )]) j (n) = E((Bt (n) − Bt (n) )2 − (ti i−1 j−1 (n) (n) j j−1 Für i = j leiten wir aus dem Satz E.1.2 ab, dass (n) E([(Bt (n) − Bt (n) )2 − (ti i−1 (n) − ti−1 )) · E((Bt (n) − Bt (n) )2 − (t j − t j−1 )) = 0. [folgt aus der Unabhängigkeit mit Satz E.1.1 ] i . ai a j 5 i−1 i j 2 3 E([(Bt (n) − Bt (n) )2 − (ti i (n) (n) − (ti − ti−1 )][(Bt (n) (n) (n) − ti−1 )]2 ) = 2(ti (n) − ti−1 )2 452 E Stochastische Analysis gilt. Also 0" #2 1 n n X X (n) (n) (n) (n) (B (n) − B (n) )2 − (t − t ) A = 2 E@ (t − t )2 i=1 ti ti−1 i i i−1 i−1 i=1 (n) ≤ 2 max |ti i=1,...,n (n) − ti−1 | · = 2kPn k · (t − s) −→ 0. n→∞ n X i=1 (n) |ti (n) − ti−1 | ¤ Um den Beweis abzuschließen, verwenden wir die Tatsache, dass die kubische Variation für fast alle Pfade der Brownschen Bewegung verschwindet. Der Beweis hierzu verläuft ähnlich wie der zu Satz E.1.7 und ist deshalb dem Leser überlassen. Satz E.1.8 (n) (n) (n) Sei Pn = (t0 ,t1 , . . . ,tn ) eine Folge von Zerlegungen des Intervalls [s,t] mit limn→∞ kPn k = 0. Dann gilt n X i=1 |Bt (n) − Bt (n) |3 → 0 in L2 . i i−1 Literatur und weitere Anmerkungen Die meisten Bücher über stochastische Analysis führen noch weitere Eigenschaften der Brownschen Bewegung an. Da die Resultate, die wir dargestellt haben, für unsere Zwecke ausreichend sind, wollen wir nicht noch detaillierter werden und verweisen den interessierten Leser auf die Monographien von Karatsas und Shreve [KS88], Protter [PR95], Øksendal [Øks98] oder Durrett [Dur96]. Dennoch wollen ein Ergebnis von P. Lévy der Vollständigkeit halber nicht unerwähnt lassen. Es zeigt, dass Satz E.1.1 in gewisserweise charakterisierend für die Brownsche Bewegung ist. Satz E.1.9 Es sei (St ) ein stetiges Martingal zu einem filtrierten Wahrscheinlichkeitsraum (Ω, F , P, (Ft )) adaptiert mit S0 = 0. Angenommen, der Prozess (St2 − t) ist ebenfalls ein Martingal, d. h. EP (St2 − Ss2 |Fs ) = t − s, für alle 0 ≤ s ≤ t ≤ T. Dann ist (St ) eine Brownsche Bewegung auf (Ω, F , P, (Ft )). Aufgaben 1. Sei (Bt ) eine Brownsche Bewegung auf [0, ∞[. Man beweise lim sup t→∞ |Bt | = ∞ f.s.. t 2. Sei (Bt ) eine Brownsche Bewegung. Man beweise, dass ω 7−→ min0≤s≤t Bs (ω ) eine Zufallsvariable ist, und dass ´ ` P {ω ∈ Ω; min Bs (ω ) ≥ 0} = 0 0≤s≤t gilt. E.1 Eigenschaften der Brownschen Bewegung 453 3. Sei (Bt ) eine Brownsche Bewegung. Man definiere zu k ∈ R τk (ω ) = inf{t ∈ R+ ; Bt (ω ) = k}. Man beweise, dass τk eine Zufallsvariable ist mit E(τk ) = ∞ für k > 0. 4. Zu einer gegebenen Funktion f : [0, T ] → R und einer Partition P = (t0 ,t1 , . . . ,tn ) von [0, T ] definiere man n X v( f , [0, T ], P) = | f (ti ) − f (ti−1 )|, v( f , [0, T ]) = lim v( f , [0, T ], P). kPk→0 i=1 (a) Man zeige, falls f stetig differenzierbar ist: v( f , [0, T ]) ≤ T sup | f ′ (t)|. 0≤t≤T (b) Man beweise für alle Brownschen Bewegungen (Bt ), dass lim E(v2 (B· , [0, T ], P)) = ∞ kPk→0 gilt. 454 E Stochastische Analysis E.2 Stochastische Integration bezüglich der Brownschen Bewegung Bei der Optionspreisberechnung stehen wir vor folgendem grundlegenden Problem. Wir nehmen an, (Xt ) sei ein zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess, der den Aktienpreis für die Zeit t ∈ [0, T ] beschreibt. Ein Anleger kauft und verkauft während der Zeitspanne [s,t] Anteile dieser Aktie. Wie können wir seinen Gewinn oder Verlust berechnen? Zuerst müssen wir definieren, was eine Anlagestrategie ist. In diesem gesamten Abschnitt gehen wir von einem festen filtrierten Wahrscheinlichkeitsraum (Ω, F , (Ft ), P) aus, und wie im vorhergegangenen Abschnitt bezeichnen wir die bedingte Erwartung bzgl. P einfach mit E(·). Definition E.2.1 Ein elementarer Prozess ist ein Prozess (Ht )t≥0 der folgenden Form. Es gibt Zeiten t0 ,t1 , . . . ,tn , 0 < t1 < . . . < tn = t, und Zufallsvariable h0 , h1 , . . . hn−1 , sodass hi Fti -messbar ist und für t ≥ 0 gilt n−1 X Ht = hi 1[ti ,ti+1 [ (t), i=0 d. h. für ω ∈ Ω und i ∈ {0, 1, 2, . . . n − 1} mit ti ≤ u < ti+1 , folgt Hu (ω ) = hi (ω ). Die Interpretation dieser Definition liegt auf der Hand. Zu den Zeitpunkten t0 ,t1 , . . . ,tn−1 ändert der Anleger sein Portfolio und besitzt in der Zeitspanne [ti ,ti−1 [ hi Anteile der Aktie. Die Bedingung, dass hi Fti messbar sein soll, spiegelt die Tatsache wieder, dass die Entscheidung wieviele Anteile er zur Zeit ti halten will, nur von der Vergangenheit vor ti abhängen kann. P Ist nun Hu = n−1 i=0 hi 1[ti ,ti+1 [ (u) ein elementarer Prozess, so wollen wir den Gewinn, bzw. den Verlust, dieser Strategie berechnen, der sich während des Zeitintervalls [s,t] ergibt. Die Gewinne, die in der Zeit von [t0 ,t1 ] auftreten, werden durch h0 (Xt1 − Xt0 ) beschrieben, die während der Zeit [t1 ,t2 ] durch h1 (Xt2 − Xt1 ), usw. Allgemein kann man die Gewinne in der Zeit von [s,t] wie folgt angeben: 1) Gibt es ein i ∈ {0, 1, . . . n − 1}, sodass ti ≤ s < t ≤ ti+1 , dann werden die Gewinne durch hi (Xt − Xs ) dargestellt. 2) Gibt es i < j in {0, 1, . . . n} so, dass ti ≤ s < ti+1 ≤ t j ≤ t < t j+1 (sei tn+1 = ∞), dann ergibt sich für die Gewinne im Intervall [s,t]: hi (Xti+1 − Xs ) + j−1 X ℓ=i+1 hℓ (Xtℓ+1 − Xtℓ ) + h j (Xt − Xt j ). Verwendet man die folgende Notation p ∨ q = max{p, q} bzw. p ∧ q = min{p, q}, so lassen sich die zwei E.2 Stochastische Integration bezüglich der Brownschen Bewegung 455 Fälle gemäß n−1 X i=0 hi (X(ti+1 ∨s)∧t − X(ti ∨s)∧t ) schreiben. Dies ist genau die Formel, die man in der stochastischen Analysis als stochastisches Integral von H bezüglich X bezeichnet. Definition E.2.2 P Sei (Xt ) ein zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess und H(·) = n−1 i=0 hi 1[ti ,ti+1 [ (·) ein elementarer adaptierter Prozess. Dann definieren wir für s < t das stochastische Integral von H bezüglich X über dem Intervall [s,t] wie folgt: Z t n−1 X Hu dXu = hi (X(ti+1 ∨s)∧t − X(ti ∨s)∧t ). (1) s i=0 Wir können für das stochastische Integral folgende Eigenschaften notieren: Satz E.2.3 Sei (Xt ) ein zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess. 1) Sind s < t, α , β ∈ R, und H und G zwei elementare adaptierte Prozesse, so gilt Z t Z t Z t (α Hu + β Gu )dXu = α Hu dXu + β Gu dXu . s s s Insbesondere gilt diese Gleichung für Fs -messbare Zufallsvariablen α , β . 2) Sind s < r < t und ist H ein elementarer Prozess, dann gilt Z t Z r Z t Hu dXu = Hu dXu + Hu dXu . s s r Der Beweis von E.2.3 ist einfach und dem Leser als Übung überlassen. Die folgende Beobachtung besagt, Rt dass die Familie 0 Hs dXs erneut ein stochastischer Prozess ist. Satz E.2.4 Seien (Xt ) ein zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess und Ht ein elementarer Prozess. Dann ist Rt ( 0 Hs dXs )t≥0 ein adaptierter Prozess. Beweis Rt Aus der Gleichung (1) wird klar, dass 0 Hs dXs Ft -messbar ist. Also bleibt zu zeigen, dass die Abbildung [0, ∞[×Ω ∋ (t, ω ) 7→ „Z t 0 « Hs dXs (ω ) B[0,∞[ ⊗ F -messbar ist. Um dies einzusehen, bemerken wir zunächst, dass man H in der Form Ht = h1[t1 ,t2 [ schreiben kann, wobei h Ft1 -messbar ist. Denn jeder einfache Prozess ist eine endliche Summe solcher noch einfacherer Prozesse. 456 E Stochastische Analysis Zum anderen folgt in diesem Fall Z t 0 Hs dXs = 8 > > <0 falls t < t1 h(Xt − Xt1 ) falls t1 < t < t2 > > : h(Xt2 − Xt1 ) falls t2 ≤ t = 1[t1 ,t2 ] (t)h(Xt − Xt1 ) + 1]t2 ,∞[ (t)h(Xt2 − Xt1 ), ´ `R t Da die Abbildung [0, ∞[∋ (t, ω ) 7→ 0 Hs dXs (ω ) sich als Produkt von Summen B[0,∞[ ⊗ F -messbarer Abbildung schreiben läßt, folgt die Behauptung. ¤ Im Rest dieses Abschnittes beschränken wir uns auf die Untersuchung von stochastischen Integralen beRt züglich der Brownschen Bewegung (Bt ) und erweitern den Begriff s Hu dBu auf eine allgemeinere Klasse von adaptierten Prozessen (Ht ). Statt einen stochastischen Prozess als eine Familie von Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F , P) mit t indiziert zu betrachten, werden wir den Prozess als eine Abbildung auf der Menge [0, ∞[×Ω ansehen. Für eine Teilmenge A in [0, ∞[×Ω und t ≥ 0 bezeichnen wir mit At = {ω ∈ Ω; (t, ω ) ∈ A} (2) den t-Schnitt in A. Satz E.2.5 Sei B[0,∞[ ⊗ F die Produkt- σ -Algebra von B[0,∞[ und F wie in Satz D.2.3 und in den nachfolgenden Beispielen von Anhang D.2 definiert. Die Menge aller A ∈ B[0,∞[ ⊗ F , die die Eigenschaft besitzen, dass für alle t der t-Schnitt in A ein Element von Ft ist, bildet eine Unter-σ -Algebra von B[0,∞[ ⊗ Ω. Wir nennen diese σ -Algebra die Menge aller progressiv-messbaren Mengen in (Ω, F , (Ft ), P) und bezeichnen sie mit P. Beweis S Man muss nur beweisen, dass ([0, ∞[×Ω \ A)t = Ω \ At für A ⊂ [0, ∞[×Ω und t ≥ 0, sowie, dass ( An )t = S n At für eine Folge von Teilmengen (An ) von Teilmengen in [0, ∞[×Ω gelten. Dies sei dem Leser überlassen. ¤ Satz E.2.6 1) Jeder elementare zur Filtration (Ω, F , (Ft ), P) adaptierter Prozess ist progressiv-messbar. 2) Alle stetigen zur Filtration (Ω, F , (Ft ), P) adaptierten Prozesse sind progressiv-messbar. Beweis Um (1) zu beweisen, muss man nur Prozesse H der Form Hu = h1[s,t[ (u) mit 0 ≤ s < t < ∞ und h Fs messbar betrachten. Für eine messbare Teilmenge B ⊂ R und ein v ∈ [0, ∞[ erhält man {(u, ω ); Hu (ω ) ∈ B}v = 8 > >{ω ; h(ω ) ∈ B} < > > : Ω 0/ falls s ≤ v < t falls v < s oder t ≤ v und 0 ∈ B falls v < s oder t ≤ v und 0 6∈ B E.2 Stochastische Integration bezüglich der Brownschen Bewegung 457 was {(u, ω ); Hu (ω ) ∈ B}v ∈ Fv in allen Fällen bedeutet. Um (2) zu zeigen, approximieren wir einen stetigen adaptierten Prozess H durch elementare Prozesse. Für n ∈ N definiere n X (n) Hu = 2n Hi2−n 1[i2−n ,(i+1)2−n [ (u). i=0 (n) Dann gilt für alle ω ∈ Ω und u ≥ 0, dass limn→∞ Hu (ω ) = Hu (ω ). Die Behauptung folgt, da der punktweise Grenzwert einer Folge messbarer Abbildungen wieder messbar ist. ¤ Bemerkung 5.2.7 Der Leser könnte versucht sein zu fragen, ob jeder adaptierte Prozess progressiv-messbar ist oder nicht. Im allgemeinen gilt dies nicht, aber mit einigen technischen Zusatzvoraussetzungen an die Filtration (Ω, F , e (das bedeutet, dass für alle t ≥ 0: Ht = H et (Ft ), P) gibt es zu jedem adaptierten Prozess H eine Version H f.s.) der progressiv-messbar ist. Aber wir wollen dies hier nicht weiter verfolgen und bemerken, dass E.2.6 eine genügend große Klasse von progressiv-messbaren Prozessen darstellt. Im Folgenden werden wir für eine feste Zeit T > 0 nur Prozesse auf [0, T ] betrachten. Definition E.2.8 Mit H2 ([0, T ]) bezeichnen wir die Menge aller progressiv-messbaren Prozesse (Ht )0≤t≤T auf der Filtration (Ω, F , (Ft )0≤t≤T , P), für die die Pfade auf [0, T ] fast sicher quadratisch integrierbar sind, d. h. dies sind Prozesse mit Z T 0 und für die Ist H ∈ H2 ([0, T ]), dann setzen wir Ht (ω )2 dt < ∞ für fast alle ω ∈ Ω, “Z E T 0 kHkH2 = Die Menge aller elementaren Prozesse Ht = liegen, bezeichne man mit H2,e ([0, T ]). ” Ht2 dt < ∞ gilt. s Pn−1 i=1 “Z E T 0 ” Ht2 dt . hi 1[ti ,ti+1 [ , mit 0 = ti < t1 < . . .tn = T , die in H2 ([0, T ]) Beachte, dass H ∈ H2,e ([0, T ]) genau dann gilt, wenn die hi ’s quadratisch integrierbar sind. Bemerkung E.2.9 Sei λ[0,T ] die Gleichverteilung auf dem Intervall [0, T ]. Man betrachte die Produktwahrscheinlichkeit P ⊗ λ[0,T ] auf der Menge Ω ⊗ [0, T ] versehen mit der Produkt-σ -Algebra F ⊗ B[0,T ] (vgl. Satz D.2.8 im Anhang D.2). Für eine messbare Abbildung f : Ω ⊗ [0, T ] → R gilt “ ”1 2 k f (·, ·)kL2 = Eλ[0,T ] ⊗P ( f 2 (ω ,t)) Z “ “1 Z T ”” 1 ”” 1 1 “ “ T 2 2 2 =√ E . f (ω ,t)dt = E f 2 (ω ,t)dt T 0 T 0 458 E Stochastische Analysis Wir schränken nun die Wahrscheinlichkeit λ[0,T ] ⊗ P auf die Unteralgebra der progressiv-messbaren Mengen ein. Diese Einschränkung bezeichnen wir mit λ[0,T ] ⊗ P|P . Somit sehen wir, dass H2 ([0, T ]) gleich dem Raum L2 (P ⊗ λ[0,T ] |P ) ist, und versehen mit der Norm √ kHkH2 = T kH(·) (·)kL2 für H ∈ H2 ([0, T ]). Deshalb ist k · kH2 eine Norm auf H2 ([0, T ]) (vgl. Theorem D.4.7 Anhang D.4), und die Konvergenz in H2 ([0, T ]) wird sich auf diese Norm beziehen. Wir können nun folgenden zentralen Satz beweisen. Satz E.2.10 (Die zentrale Isometrie) Die Abbildung Φ : H2,e ([0, T ]) 7→ L2 (P), H 7→ Z T Ht dBt , 0 RT ist wohldefiniert. Dies bedeutet, dass 0 Ht dBt ein Element von L2 (P), dem Raum der quadratisch integrierbaren Abbildungen auf (Ω, F , P) ist. Φ ist eine Isometrie von H2,e ([0, T ]) in L2 (P). Damit ist folgendes gemeint k Z T 0 “ “`Z Ht dBt kL2 = E T 0 Ht dBt ´2 ”” 12 für alle H ∈ H2,e ([0, T ]). = kHkH2 , Zum zweiten ist die Abbildung Φ[s,t] : H2,e ([0, T ]) 7→ L2 (P), für alle 0 ≤ s < t ≤ T eine Kontraktion, d. h. Z t k Hu dBu kL2 ≤ kHkH2 , s H 7→ Z t Hu dBu , s für alle H ∈ H2,e ([0, T ]). Beweis P Ist Ht = n−1 i=1 hi 1[ti ,ti+1 [ 0 = ti < t1 < . . .tn = T, so berechnen wir “`Z E T 0 Ht dBt ´2 ” n−1 “`X ´2 ” =E hi (Bti+1 − Bti ) i=0 n−1 “X ” =E h2i (Bti+1 − Bti )2 ˆ i=0 da E(hi h j (Bti+1 − Bti )(Bt j+1 − Bt j )) = E(hi (Bti+1 − Bti )h j E((Bt j+1 − Bt j )|Ft j )) = 0 falls i < j = n−1 X i=0 E(h2i )(ti+1 − ti ) n−1 “X ” “Z =E h2i (ti+1 − ti ) = E i=0 T 0 ” Ht2 dt . ˜ E.2 Stochastische Integration bezüglich der Brownschen Bewegung 459 Hieraus ergeben sich die Behauptungen ¤ Satz E.2.11 (Dichtheit) Die Menge H2,e ([0, T ]) ist dicht in H2 ([0, T ]), d. h. für jedes H ∈ H2 ([0, T ]) gibt es eine Folge H (n) ⊂ H2,e ([0, T ]) derart, dass lim kH − H (n) kH2 = 0. n→∞ Der Beweis des Satzes E.2.11 ist sehr technisch, und wir verzichten auf eine Darstellung. Andererseits ist es tatsächlich ausreichend, sich den Raum H2 ([0, T ]) als die Menge der progressiv-messbaren Prozesse H zu denken, für die es eine approximierende Folge (H (n) ) in H2,e ([0, T ]) mit limn→∞ kH − H (n) kH2 = 0 gibt. Später zeigt sich (vgl. Satz E.2.13) dass alle stetigen, beschränkten und adaptierten Prozesse dazugehören. Rt Wenn wir Satz E.2.10 und E.2.11 benutzen, können wir jetzt das Integral s Hu dBu für alle H ∈ H2 ([0, T ]) definieren. Satz E.2.12 (Stochastisches Integral ) (bezüglich (Bt ) in H2 ([0, T ])) Für 0 ≤ s < t ≤ T lässt sich die Abbildung Φ[s,t] : H2,e ([0, T ]) → L2 (P), H 7→ Z t Hu dBu s in eindeutiger Weise, die wir erneut mit Φ[s,t] bezeichnen, zu einer Abbildung Φ[s,t] : H ∈ H2 ([0, T ]) → L2 (P) so fortsetzen, dass Φ[s,t] auf H2 ([0, T ]) wieder eine Kontraktion ist. Für dieses Integral schreiben wir Z t s Hu dBu = Φ[s,t] (H), falls H ∈ H2 ([0, T ]), und bezeichnen es als stochastisches Integral von H bezüglich (Bu ) auf [s,t]. Dieses Integral hat folgende Eigenschaften: 1) Seien s < t, H und G Elemente von H2 ([0, T ]), und seien α und β Fs -messbare Zufallsvariable, sodass α Hu 1[s,t] (u) und β Gu 1[s,t] (u) wieder ein Element von H2 ([0, T ]) sind. Dann gilt Z t α Hu + β Gu dBu = α s 2) Falls s < r < t und H ∈ H2 ([0, T ]), so folgt Z t Hu dBu = s 3) Für H ∈ H2 ([0, T ]) ist der Prozess ein Martingal. „Z Z Z t Hu dBu + β s r Hu dBu + s t 0 Hu dBu « Z Z t Gu dBu . s t Hu dBu . r t∈[0,T ] 460 E Stochastische Analysis Beweis Sei H ∈ H2 ([0, T ]). Nach Satz E.2.11 können wir eine Folge H (n) ⊂ H2,e ([0, T ]) mit limn→∞ kH −H (n) kH2 = R t (n) 0 auswählen. Gemäß Satz E.2.10 bedeutet dies, dass die Folge s Hu dBu eine Cauchyfolge in L2 (P) ist, und konvergiert deshalb wegen der Vollständigkeit von L2 (P) gegen ein y ∈L2 (P) (vgl. Anhang D.4). Wir bemerken, dass y nicht von der Wahl der Folge (H (n) ) ⊂ H2,e ([0, T ]) abhängt, solange sie gegen H in e (n) ) ⊂ H2,e ([0, T ]) mit limn→∞ kH − H e (n) kH = 0, so folgt der k · kH2 −Norm konvergiert. Denn ist (H 2 (n) (n) e limn→∞ kH − H kH2 = 0. Somit ergibt Satz E.2.10, dass e (n) )kL2 = 0, lim kΦ[s,t] (H (n) ) − Φ[s,t] (H n→∞ e (n) )kL2 = 0 bedeutet. was limn→∞ ky − Φ[s,t] (H Setzen wir für H ∈ H2 ([0, T ]) Φ[s,t] (H) = L2 − lim Φ[s,t] (H (n) ), n→∞ so erkennen wir, dass Φ[s,t] eine wohldefinierte Abbildung von H2 ([0, T ]) nach L2 (P) ist. Um zu zeigen, dass Φ[s,t] eine Kontraktion ist, sowie die Behauptungen (1) und (2) nachzuweisen, wählen wir H, G ∈ H2 ([0, T ]) und (H (n) ), (G(n) ) ⊂ H2,e ([0, T ]), die gegen H und G konvergiert. Man beachte, dass kΦ[s,t] (H) − Φ[s,t] (G)k = lim kΦ[s,t] (H (n) ) − Φ[s,t] (G(n) )kL2 n→∞ ≤ lim kH (n) − G(n) kH2 n→∞ (gemäß Satz E.2.10 (2)) = kH − GkH2 . Dies beweist, dass Φ[s,t] eine Kontraktion ist. Nun folgt mit Satz E.1.1 (1), dass zwei Fs -messbare Abbildungen α , β die Bedingungen des Satzes erfüllen Φ[s,t] (α H + β G) = L2 − lim Φ[s,t] (α H (n) + β G(n) ) n→∞ = L2 − lim α Φ[s,t] (H (n) ) + β Φ[s,t] (G(n) ) = α Φ[s,t] (H) + β Φ[s,t] (G), n→∞ woraus sich (1) ergibt. Für s < r < t folgt aus Satz E.1.1 (2), dass Φ[s,t] (α H) = L2 − lim Φ[s,t] (H (n) ) = L2 − lim Φ[s,r] (H (n) ) + L2 − lim Φ[r,t] (H (n) ) = Φ[s,r] (H) + Φ[r,t] (H), n→∞ n→∞ n→∞ und (2) ist gezeigt. e [s,t] eine weitere kontraktive FortsetUm die Eindeutigkeit von Φ[s,t] nachzuweisen, nehmen wir an, dass Φ (n) zung ist und folgern, dass für H ∈ H2 ([0, T ]) und eine Folge (H ) ⊂ H2,e ([0, T ]), die gegen H konvergiert, e [s,t] (H (n) ) = Φ e [s,t] (H) Φ[s,t] (H) = L2 − lim Φ[s,t] (H (n) ) = L2 − lim Φ n→∞ gilt. n→∞ Rt Schließlich zeigen wir, dass ( 0 Hu dBu )0≤t≤T ein Martingal ist. Falls H ∈ H2,e ([0, T ]) kann man dies einfach einsehen (vgl. Übungsaufgabe 4). Allgemein wählen wir eine Folge H (n) ⊂ H2,e ([0, T ]), die gegen E.2 Stochastische Integration bezüglich der Brownschen Bewegung 461 H konvergiert und folgern mit Satz D.4.10 im Anhang D.4 für 0 ≤ s ≤ t ≤ T, dass E(Φ[0,t] (H)|Fs ) = L2 − lim E(Φ[0,t] (H (n) )|Fs ) = L2 − lim Φ[0,s] (H (n) ) = Φ[0,s] (H), n→∞ n→∞ Damit ist (3) bewiesen, und der Beweis des Satzes ist abgeschlossen. ¤ Um ein besseres Gefühl für stochastische Integrale zu gewinnen, wollen wir das stochastische Integral eines stetigen und beschränkten Prozesses bezüglich der Brownschen Bewegung ausrechnen. Satz E.2.13 Sei (Ht )t∈[0,T ] ein stetiger und adaptierter Prozess auf (Ω, F , (Fs )0≤s≤T , P). Wir nehmen zusätzlich an, (n) (n) (n) dass supt∈[0,T ] |Ht | ≤ c < ∞ fast sicher gilt. Sei (P(n) ) = ((t0 ,t1 , . . . ,t1 )) eine Folge von Partitionen von [0, T ], mit kP(n) k → 0, für n → ∞. Man definiere H (n) durch (n) Hu = n−1 X Hti 1[ti ,ti+1 [ (u). i=0 Dann konvergiert H (n) in H2 ([0, T ]) gegen H und, folglich gilt nach Satz E.2.12, dass Z t s Hu dBu = L2 − lim Z n→∞ s t (n) Hu dBu = L2 − lim n→∞ n−1 X i=0 Hti (B(ti+1 ∨s)∧t) − B(ti ∨s)∧t ). Beweis: Sei ω ∈ Ω fest gewählt. Wir schließen aus der Definition des Riemannintegrals, dass lim Z n→∞ 0 T (n) (Hu (ω ) − Hu (ω ))2 dt = 0. RT RT (n) Somit konvergiert die Folge der Zufallsvariablen ( 0 (Hu − Hu )2 dt) fast sicher gegen Null. Da 0 (Hu − (n) Hu )2 dt ≤ T c2 , kann man den Satz von der Majorisierten Konvergenz anwenden (vgl. Satz D.2.24), und die Behauptung folgt. ¤ Wir benötigen noch eine Erweiterung des stochastischen Integrals. Definition E.2.14 H2w ([0, T ]) sei der Raum der progressiv-messbaren Prozesse (Ht )t∈[0,T ] für die P Z “n ω ∈Ω: T 0 o” =1 Ht2 (ω )dt < ∞ gilt. Wir definieren die Konvergenz in H2w ([0, T ]) wie folgt: Eine Folge H (n) ⊂ H2w ([0, T ]) konvergiert RT (n) gegen ein H ∈ H2w ([0, T ]), falls die Folge 0 (Ht − Ht )2 dt in Wahrscheinlichkeit gegen 0 konvergiert. Bemerkung E.2.15 Man beachte, dass H2w ([0, T ]) alle stetigen Prozesse umfasst. Das folgende Lemma spielt eine Schlüsselrolle, wenn man den Intergralbegriff auf Prozesse in H2w ([0, T ]) erweitern will. 462 E Stochastische Analysis Lemma E.2.16 Sei (Ht )t∈[0,T ] ein Prozess in H2 ([0, T ]), 0 ≤ s < t ≤ T , und ε , δ > 0. Dann gilt P “n˛Z ˛ ˛ T 0 ˛ o” “n˛Z ˛ ˛ Hu dBu ˛ ≥ ε ≤ P ˛ T 0 ˛ o” δ ˛ + 2 Hu2 dt ˛ ≥ δ ε Beweis e durch Zuerst nehmen wir an, dass H ∈ H2,e ([0, T ]) gilt. Wir definieren H 8 <H (ω ) falls u ≥ s und R u H 2 (ω )dv ≤ δ u s v e Hu (ω ) = :0 sonst Rt 2 eu (ω ) für alle u ∈ [s,t] oder, dass eu du ≤ δ . Für ω ∈ Ω folgt entweder Hu (ω ) = H Man beachte, dass s H Rt 2 H du ≥ δ . Im ersten Fall ergibt sich aus der Definition des stochastischen Integrals für elementare Pros u Rt Rt eu (ω )du. Deshalb folgern wir zesse, dass s Hu (ω )du = s H P “n˛ Z ˛ ˛ T 0 ≤P ˛ o” ˛ Hu dBu ˛ ≥ ε “n˛Z ˛ ˛ T 0 ˛ o” “n˛Z eu dBu ˛˛ ≥ ε +P ˛˛ H T 0 ˛ o” ˛ Hu2 du˛ ≥ δ Z ˛ “n˛Z T o” ´2 ” 1 “` T e ˛ 2 ˛ H du E H dB + P ˛≥δ ˛ u u u 2 ε 0 0 [Tschebyscheff-Ungleichung (vgl.Satz D.4.2 im Anhang D.4)] Z ˛ o” “n˛Z T 1 “ T e2 ” ˛ ˛ = 2E Hu du + P ˛ Hu2 du˛ ≥ δ ε 0 0 [gemäß Satz E.2.10] ˛ o” “n˛Z T δ ˛ ˛ ≤ 2 +P ˛ Hu2 du˛ ≥ δ ε 0 Dies beweist den Satz für elementare Prozesse. Um die Aussage auf H ∈ H2 ([0, T ]) zu verallgemeinern, wählen wir zuerst eine Folge H (n) ⊂ H2,e ([0, T ]), die gegen H bezüglich der k · kH2 −Norm konvergiert und beachten, dass dann ˛ ˛ “n˛Z T o” “n˛Z T o” ˛ ˛ ˛ ˛ (n) Hu dBu ˛ ≥ ε = P ˛ lim P ˛ Hu dBu ˛ ≥ ε und n→∞ “n˛Z ˛ lim P ˛ n→∞ 0 0 0 ˛ o” “n˛Z T ˛ ˛ (n) (Hu )2 du˛ ≥ δ = P ˛ T 0 ˛ o” ˛ Hu2 du˛ ≥ δ gelten. ¤ Korollar E.2.17 Sei H (n) ⊂ H2 ([0, T ]) eine Cauchy-Folge bezüglich der Konvergenz definiert in H2w ([0, T ]), d. h. für alle ε > 0 gibt es ein n ∈ N so, dass für alle k, m ≥ n P “nZ T 0 (k) (m) (Hu − Hu )2 du > ε o” < ε. E.2 Stochastische Integration bezüglich der Brownschen Bewegung 463 R t (n) Dann konvergiert die Folge s Hu dBu in Wahrscheinlichkeit im Raum L0 (P), dem Raum aller messbaren Abbildungen Ω für alle 0 ≤ s < t ≤ T . Beweis Wir nehmen an, dass H (n) eine Cauchy-Folge in H2 ([0, T ]) bezüglich der in H ∈ H2w ([0, T ]) definierten Konvergenz ist. Zu gegebenen ε > 0 wähle man δ = ε 3 /2. Dann existiert ein n ∈ N so, dass P “nZ t s (m) (Hu (k) − Hu )2 du > δ o” < ε /2, für alle m, k ≥ n. Mit Lemma E.2.16 folgern wir, dass “nZ t o” “nZ t o” δ (m) (m) P (Hu (k) − Hu )dBu > ε ≤P + 2 = ε. (H(k) − Hu )2 du > δ ε s s R t (n) Dies zeigt, dass s Hu dBu eine Cauchy-Folge bezüglich der Konvergenz in Wahrscheinlichkeit ist. Da L0 (P) vollständig bezüglich der Konvergenz in Wahrscheinlichkeit ist, (vgl. Satz D.4.4 in Anhang D.4) folgt die Behauptung. ¤ Wir können nun das stochastische Integral auf den Raum H2w ([0, T ]) mit ähnlichen Argumenten wie im Beweis zum Satz E.2.12 fortsetzen. Satz E.2.18 (Stochastisches Integral ) (bezüglich (Bt ) auf H2w ([0, T ])) Für 0 ≤ s < t ≤ T kann man die Abbildung Φ[s,t] : H2 ([0, T ]) → L2 (P), H 7→ Z t Hu dBu s eindeutig zu einer Abbildung, die erneut mit Φ[s,t] bezeichnet wird, Φ[s,t] : H ∈ H2w ([0, T ]) → L0 (P) so fortsetzen, dass Φ[s,t] sowohl bezüglich der Konvergenz, die auf H2w ([0, T ]) definiert ist, als auch bezüglich der Konvergenz in Wahrscheinlichkeit in L0 (P) stetig ist. L0 (P) bezeichnet den Raum der messbaren Abbildungen auf (Ω, F ) mit der Konvergenz in Wahrscheinlichkeit. Wir definieren Z t s Hu dBu = Φ[s,t] (H), für H ∈ H2w ([0, T ]), und nennen es stochastisches Integral von H bezüglich (Bu ) auf [s,t]. Das Integral hat zusätzlich folgende Eigenschaft. 1) Für s < t, Fs -messbare Abbildungen α , β , H und G in H2w ([0, T ]) gilt Z t α Hu + β Gu dBu = α s Z t Hu dBu + β s 2) Sind s < r < t und H ∈ H2w ([0, T ]), so folgt Z t Hu dBu = s Z r Hu dBu + s Z Z t Gu dBu . s t Hu dBu . r 464 E Stochastische Analysis Beweis Zuerst zeigen wir, dass H2 ([0, T ]) dicht in H2w ([0, T ]) bezüglich der Konvergenz definiert in H2w ([0, T ]) ist. Für H ∈ H2w ([0, T ]) definieren wir H n = max(n, H) (∈ H2 ([0, T ])). Dann konvergiert für feste ω ∈ Ω (n) und u ∈ [0, T ] Hu (ω ) gegen Hu (ω ). Für festes ω folgern wir mit Hilfe des Satzes der majorisierten KonRt (n) vergenz angewandt auf die Gleichverteilung auf [0, T ], dass s (Hu (ω ) − Hu (ω ))2 du gegen 0 konvergiert. Rt (n) 2 Deshalb konvergiert s (Hu − Hu ) du in Wahrscheinlichkeit gegen 0. Für H ∈ H2w ([0, T ]) finden wir eine Folge H (n) in H2 ([0, T ]), die gegen H konvergiert. Insbesondere ist sie eine Cauchy-Folge bezüglich der auf H2w ([0, T ]) definierten Konvergenz. Für s < t ergibt sich gemäß R t (n) Korollar E.2.17, dass s Hu dBu in Wahrscheinlichkeit gegen ein y in L0 (P) konvergiert. Ab jetzt verläuft der Beweis ähnlich dem zu Satz E.2.12, und wir skizzieren den Rest nur noch. Die Norm k · kL2 , die wir im Beweis zu Satz E.2.12 eingeführt haben, muss durch die Metrik d( f , g) = E(min{(| f − g|, 1}) ersetzt werden, die die Konvergenz in Wahrscheinlichkeit im Raum L0 (P) charakterisiert. Wir vermerken, dass der obige Grenzwert y nicht von der approximierenden Folge H (n) abhängt, und wir Rt können deswegen s HdBu = y setzen. Die Stetigkeit von Φ[s,t] auf H2w ([0, T ]) folgt aus der Stetigkeit von Φ[s,t] auf H2 ([0, T ]) wie in Korollar E.2.17 gezeigt, und die Behauptungen (1) und (2) folgen wie im Beweis zu Satz E.2.12. ¤ Literatur Wie wir es unten in den Übungen beschreiben, gibt es unterschiedliche Zugänge, ein stochastisches Integral zu definieren. Es war Itô, der als erster ein derartiges Integral definierte [Itô51]. Allerdings gibt es das Integral nach Stratonovich [Str66], das in manchen Situationen nützlicher ist (wie die Integration auf Mannigfaltigkeiten). Das Itô-Integral wird man dort benutzen, wo man der Tatsache Rechnung tragen will, „nicht in die Zukunft zu schauen“ (vgl. [Øks98]). Für unsere Belange reicht der beschriebene Zugang und bedeutet keine Einschränkung, das Itô-Integral bezüglich der Brownschen Bewegung zu definieren. Allerdings, wenn man fortgeschrittenere Methoden benutzen will, Vermögenswerte zu beschreiben, muss man zu den sogenannten Semimartingalen übergehen, eine Verallgemeinerung des Martingalbegriffes, zu dem die Brownsche Bewegung gehört. Der interessierte Leser mag einen Blick in den Standardbüchern über stochastische Analysis werfen, um mehr über die Integration bezüglich eines Semimartingals zu erfahren (vgl. Protter, Karatsas und Shreve oder Øksendal [PR95, KS88, Øks98]). Einen alternativen Zugang zur stochastischen Integration findet man in Sirjaev [Sir88]. E.2 Stochastische Integration bezüglich der Brownschen Bewegung 465 Aufgaben 1. Man beweise E.2.3. Rt 2. Angenommen H ∈ H2,e ([0, T ]). Man beweise, dass ( 0 Hu dBu )0≤t≤T ein Martingal ist, wobei (Bt ) eine Brownsche Bewegung darstellt. Zt 3. Man ersetze in der Definition des stochastischen Integrals g(Bs ) dBs den linken Randpunkt durch 0 den rechten, d. h. Zt g(Bs ) dBs = 0 lim kPk→0 n X i=1 g(Bti )(Bti − Bti−1 ). Man betrachte g(x) = x, um zu beweisen, dass der obere Grenzwert verschieden vom Itô-Integral ist. 4. (Integral nach Stratonovich) Sei f ∈ H2 ([0, T ]) derart, dass t 7−→ f (t, ω ) f.a. ω ∈ Ω stetig ist. Für eine Partition P = {t0 , . . . ,tn } definiere man ti∗ = 21 (ti+1 + ti ). Definiere Z T f (t, ω ) ◦ dBt = lim kPk→0 0 n X f (ti∗ , ω )∆Bt , i=0 falls der Grenzwert in L2 (P) existiert. Man berechne Z T Bt ◦ dBt 0 für eine Brownsche Bewegung. Man vergleiche dieses Resultat mit dem Itô-Integral von Z T 0 Bt dBt . 5. Man beweise die partielle Integralformel: Sei f : [0, T ] −→ R stetig differenzierbar. Dann gilt Z T 0 f (s)dBs = f (T )BT − Z T 0 f ′ (s)Bs ds. 6. Angenommen ξ ist eine integrierbare Zufallsvariable auf einem filtrierten Wahrscheinlichkeitsraum (Ω, F , P, (Ft )t∈[0,T ] ). Weiter nehme man an, dass es einen adaptierten Prozess (At ) ∈ H2 ([0, T ]) derart gibt, dass Z T ξ = E(ξ ) + As dBs . 0 Man zeige, dass die Darstellung bis auf Gleichheit fast sicher gilt, d. h. ist ξ = E(ξ ) + Z T 0 Ãs dBs für einen weiteren adaptierten Prozess (Ãt ) ∈ H2 ([0, T ]), so folgt At (ω ) = Ãt (ω ) für fast alle (ω ,t) ∈ Ω × [0, T ]. 7. Sei (Bt ) eine Brownsche Bewegung auf einem filtrierten Wahrscheinlichkeitsraum 466 E Stochastische Analysis (Ω, F , P, (Ft )t∈[0,T ] ). Man beweise, dass es einen adaptierten Prozess (θt1 ), (θt1 ) ∈ H2,e ([0, T ]) derart gibt, dass aus den Gleichungen (1) Vt = 1+ Z T (1) (2) θs dBs , Vt 0 = 1+ Z T 0 (2) θs dBs die Identitäten (1) V1 (2) = V1 für fast alle (ω ,t) ∈ Ω × [0, 1] folgen. (1) = 0 und Vt (2) ≥ 0, Vt ≥0