KAPITEL 1 Grundlagen der Wahrscheinlichkeitstheorie 1. Ziele der Wahrscheinlichkeitstheorie Eine vorrangige Aufgabe der Wahrscheinlichkeitstheorie ist die Zusammenfassung von Grundlagen zur mathematischen Modellierung solcher Vorgänge im menschlichen Umfeld 1.1, die vom Zufall beeinflußt werden, wobei allerdings dieser Zufall Gesetzmäßigkeiten unterliegt. Sie stellt Begriffe und Methoden zur Erstellung entsprechender Modelle und ihrer mathematischen Untersuchung bereit. Beispiel 1.1. Als Ausgangspunkt sei angenommen, daß an einem festen Ort in regelmäßigen zeitlichen Abständen eine physikalische oder technische Größe, wie z.B. Temperatur, Luftdruck, Lärmpegel oder Abgasbelastung, gemessen wird. Eine mathematische Beschreibung der zu erwartenden Meßergebnisse und ihrer Struktur, beispielsweise der Eigenschaften ihrer zufälligen Schwankungen, ist ein Ziel, das im Rahmen der Wahrscheinlichkeitstheorie verfolgt werden kann. Dies bedeutet, daß ein mathematisches Modell für die Folge der Meßergebnisse zu entwerfen und auszuwerten ist 1.2. Die übliche Vorgehensweise bei der Modellbildung mit Hilfe der Wahrscheinlichkeitstheorie besteht in einem Fall wie hier darin, von einem geeigneten Wahrscheinlichkeitsraum (Ω, F, P) 1.3 auszugehen und die einzelnen Messungen als Zufallsvariablen 1.4 X1 , X2 , . . . auf (Ω, F, P) zu charakterisieren. Ein mathematisches Modell wird dann durch die Angabe von Eigenschaften der Zufallsvariablen Xn , n ∈ N, spezifiziert 1.5. Bei der mathematischen Untersuchung eines derartigen Modells können dann z.B. zur Charakterisierung des Langzeitverhaltens der zu messenden Größen Sätze wie das Gesetz der großen Zahlen 1.6 oder der Zentrale Grenzwertsatz 1.7 abgeleitet werden. Allgemeine Techniken zur Herleitung derartiger Resultate, wie z.B. Martingalsätze, werden ebenfalls in der Wahrscheinlichkeitstheorie bereitgestellt 1.8. 1.1Z.B. in der Natur, der Technik oder auch im sozialen Umfeld. 1.2Hier ist die mathematische Untersuchung des Modells gemeint und nicht die Auswertung konkreter Meßdaten. Dies ist eine Aufgabe, die in der Statistik behandelt wird. 1.3Vgl. Abschnitt 2.1. 1.4D.h., reellwertige, meßbare Funktionen auf (Ω, F, P), vgl. Abschnitt 2.2. 1.5Man könnte beispielsweise annehmen, daß die Zufallsvariablen X , n ∈ N, unabhängig und n identisch verteilt sind, vgl. Abschnitt 2.2.2, oder daß sie einen stationären stochastischen Prozeß X = (Xn )n∈N , bzw. einen Markovprozeß bilden, vgl. Abschnitt 2.5. P 1.6 Beim Gesetz der großen Zahlen wird die Konvergenz bei N → ∞ von (1/N ) N k=1 Xk , d.h., des Mittelwerts von N Messungen, gegen einen deterministischen Grenzwert X nachgewiesen, vgl. Abschnitt 4.1. √ P 1.7 Beim Zentralen Grenzwertsatz wird die Asymptotik bei N → ∞ von N (1/N ) N k=1 Xk −X , d.h., der reskalierten Fluktuationen der gemittelten Meßwerte um ihren Grenzwert, vgl. Fußnote 1.6, untersucht. Hier ergibt sich unter geeigneten Voraussetzungen als Limes eine Zufallsvariable mit einer Normalverteilung N(0, σ2 ), σ2 > 0, vgl. Abschnitt 4.2. 1.8 Vgl. Beispiel 4.38. Dort wird ein starkes Gesetz der großen Zahlen mit Hilfe eines Konvergenzsatzes für Martingale bewiesen. 7 8 2. Grundlegende Begriffe und Konzepte der Wahrscheinlichkeitstheorie In diesem Abschnitt werden einige für alle Bereiche der Wahrscheinlichkeitstheorie fundamentalen Begriffe wie Wahrscheinlichkeitsraum, Zufallsvariable, Verteilung, Erwartungswert, bedingte Wahrscheinlichkeit oder stochastischer Prozeß vorgestellt und anhand elementarer Beispiele 2.1 erläutert. Hierbei wird u.a. auch auf mögliche mathematische Schwierigkeiten und Verallgemeinerungen hingewiesen, die im Zusammenhang mit komplizierteren Anwendungen eine gründliche maßtheoretische Fundierung der Wahrscheinlichkeitstheorie notwendig werden lassen. Am Ende dieses Abschnitts finden sich außerdem einige Anmerkungen zur Simulation von reellwertigen Zufallsvariablen mit Hilfe eines Computers 2.2. 2.1. Wahrscheinlichkeitsräume. In allen wahrscheinlichkeitstheoretischen Modellen wird ein Wahrscheinlichkeitsraum (Ω, F, P) zur Bereitstellung des benö” tigten Zufalls“ zugrundegelegt. Hierbei ist 2.3 • Ω eine als Stichprobenraum bezeichnete, hinreichend große Menge, • F eine σ-Algebra von Teilmengen von Ω, deren Elemente als Ereignisse bezeichnet werden, und • P ein Wahrscheinlichkeitsmaß auf (Ω, F) 2.4, das den einzelnen Ereignissen jeweils Wahrscheinlichkeiten in [0, 1] zuweist. Beispiel 2.1. Zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze kann Ω = {0, 1}N mit der σ-Algebra F = Pot(Ω) 2.5 verwendet werden. Wenn das Wurfergebnis Kopf“ durch 0 und das Wurfergebnis Zahl“ durch 1 ” ” dargestellt wird, beschreibt ein Element ω = (ω1 , . . . , ωN ) ∈ Ω eine Wurfsequenz mit dem Wurfergebnis ωi beim i-ten Wurf, wobei i = 1, . . . , N . Da die Würfe unabhängig sind und die Münze fair ist, muß jedem Ereignis {ω} ∈ F die gleiche Wahrscheinlichkeit P[{ω}] = 2−N zugewiesen werden 2.6. 2.1.1. Definition von Wahrscheinlichkeitsräumen. Der Stichprobenraum Ω ist keinerlei Einschränkungen unterworfen. Allerdings sind eine σ-Algebra F und ein Wahrscheinlichkeitsmaß P durch einige wenige Bedingungen charakterisiert. Insbesondere wird eine nichtleere Familie F von Teilmengen von Ω eine σAlgebra genannt, wenn 2.7 (2.1a) A∈F =⇒ (Ω \ A) ∈ F, 2.1 In diesen Beispielen wird hauptsächlich der N -fache, unabhängige Wurf einer fairen Münze zugrundegelegt. 2.2 Simulationen einzelner Zufallsvariablen sind die Grundlage zur Simulation von wahrscheinlichkeitstheoretischen Modellen in realen Anwendungen. 2.3Eine präzise Definition von Wahrscheinlichkeitsräumen folgt in Abschnitt 2.1.1. 2.4Für eine Menge Ω′ und eine σ-Algebra F ′ von Teilmengen von Ω′ bezeichnet man (Ω′ , F ′ ) als meßbaren Raum. Ein solcher meßbarer Raum kann mit unterschiedlichen Wahrscheinlichkeitsmaßen P′ zu Wahrscheinlichkeitsräumen (Ω′ , F′ , P′ ) ergänzt werden. 2.5Pot(Ω) ist die Potenzmenge von Ω, d.h., die Menge aller Teilmengen von Ω. 2.6Ein Wahrscheinlichkeitsraum (Ω, F, P), wobei Ω eine endliche Menge mit |Ω| Elementen und F = Pot(Ω) ist, und außerdem jedes Ereignis {ω}, ω ∈ Ω, unter P die gleiche Wahrscheinlichkeit 1/|Ω| besitzt, wird als Laplacescher Wahrscheinlichkeitsraum bezeichnet. 2.7Unmittelbar aus (2.1) folgen weiterhin (∗1 ) (∗2 ) ∅, Ω ∈ F, A1 , A2 , · · · ∈ F =⇒ ∞ \ n=1 An ∈ F. Zum Nachweis dieser Eigenschaften sei zunächst A ein beliebiges Element von F. Aus (2.1) folgt nun, daß A ∪ (ΩS \ A) = Ω ∈ F. Mit (2.1a) ergibt sich dann ∅ = Ω \ Ω ∈ F. Die Beziehung T ∞ ∞ n=1 (Ω \ An ) und (2.1) implizieren schließlich (∗2 ). n=1 An = Ω \ Eine Familie von Teilmengen von Ω, die (2.1a) und (2.1b) mit jeweils nur endlich vielen Mengen erfüllt, nennt man eine Algebra. 22. Juli 2014 9 A1 , A2 , · · · ∈ F (2.1b) =⇒ ∞ [ n=1 An ∈ F. Außerdem heißt eine Abbildung P : F → [0, 1] Wahrscheinlichkeitsmaß (auf (Ω, F)), falls (2.2a) (2.2b) # "∞ ∞ X [ P[Ai ], Ai = P i=1 i=1 P[Ω] = 1, falls Ai ∩ Aj = ∅, i, j = 1, 2, . . . , i 6= j Die Eigenschaft (2.2b) wird als σ-Additivität von P bezeichnet 2.8 . 2.9 . Beispiel 2.2. Sei M eine beliebige Menge. Eine triviale σ-Algebra ist {∅, M }. Ebenso ist die Potenzmenge Pot(M ) = {A : A ⊆ M } eine σ-Algebra. Wenn allerdings Wahrscheinlichkeitsmaße definiert werden sollen, stellt sich bei überabzählbaren Mengen M die σ-Algebra Pot(M ) als i. allg. unbrauchbar heraus 2.10. Beispiel 2.3. In Rd , d = 1, 2, . . . , bzw. in Teilgebieten des Rd , findet üblicherweise die Borelsche σ-Algebra B(Rd ) Verwendung. Sie kann charakterisiert werden als die eindeutig bestimmte, kleinste σ-Algebra, die alle offenen Rechtecke enthält 2.11. σ-Algebren werden auch zur Zusammenfassung von Ereignissen mit speziellen Eigenschaften benutzt. Wenn z.B. eine Zeitskala 0 ≤ t < ∞ vorliegt 2.12, können die Ereignisse bis zu einem festen Zeitpunkt s durch eine σ-Algebra Fs ⊆ F 2.13 beschrieben werden. Eine Beschreibung der Vorgehensweise zur Konstruktion von σ-Algebren und Wahrscheinlichkeitsmaßen findet sich in Abschnitt 3.1, bzw. in Abschnitt 3.3. Insbesondere wird diskutiert, inwiefern Wahrscheinlichkeitsmaße durch die Wahrscheinlichkeiten der Ereignisse in speziellen Teilmengen der Menge F aller Ereignisse eindeutig charakterisiert sind. 2.8In der in Beispiel 2.1 beschriebenen Situation kann (2.2b) zum Nachweis von P[A] = |A|/2N , A ∈ F, benutzt werden. 2.9Eine σ-additive Abbildung µ : F → [0, ∞] mit µ(∅) = 0, einer Eigenschaft, die insbesondere auch für Wahrscheinlichkeitsmaße gilt, vgl. Satz 3.10(1), wird als Maß bezeichnet. Dementsprechend ist dann (Ω, F, µ) ein Maßraum. µ, bzw. (Ω, F, µ) heißt σ-endlich , wenn eine Folge An , n ∈ N, in F mit ∞ [ n=1 An = Ω, µ(An ) < ∞, n ∈ N, existiert. Ein Beispiel eines σ-endlichen Maßraums ist (Rd , B(Rd ), λRd ), wobei B(Rd ) die Borelsche σ-Algebra auf Rd , vgl. Abschnitt 3.1.3, und λRd das Lebesguemaß auf Rd , vgl. Abschnitt 3.3.2, ist. Auf Maßräumen können mit Hilfe von Wahrscheinlichkeitsdichten Wahrscheinlichkeitsmaße definiert werden, vgl. Abschnitt 3.3.3. 2.10Vgl. Beispiel 3.1 und Anhang A.3.1. Dort wird erläutert, daß für ein Modell für den ∞fachen, unabhängigen Wurf einer fairen Münze bei Verwendung von F = Pot(Ω) kein vernünftiges Wahrscheinlichkeitsmaß definiert werden kann. Daher muß in der Maßtheorie insbesondere auch die Konstruktion von σ-Algebren systematisiert werden, vgl. Abschitt 3.1. 2.11Vgl. Abschnitt 3.1.3. Dort werden Borelsche σ-Algebren in allgemeinen topologischen Räumen eingeführt. 2.12Beispielsweise bei der Untersuchung eines stochastischen Prozesses X = (X ) t 0≤t<∞ , d.h., einer zufälligen zeitlichen Entwicklung. 2.13Die Ereignisse F bis zum Zeitpunkt s sind eine Teilmenge aller Ereignisse F. s Offensichtlich ist Fu ⊆ Fs , falls 0 ≤ u ≤ s < ∞. Damit ist die Familie (Fs )0≤s<∞ eine Filtration, vgl. Abschnitt 3.9. 22. Juli 2014 10 2.1.2. Interpretation der Eigenschaften von σ-Algebren und Wahrscheinlichkeitsmaßen. Im Rahmen der Wahrscheinlichkeitstheorie sind (2.1) und (2.2) naheliegende, natürliche Bedingungen mit den folgenden Interpretationen: • (2.1a) hält fest, daß mit jedem Ereignis A auch dessen Komplement Ω \ A in Ω, welches das Nichteintreten von A beschreibt, ein Ereignis ist. • (2.1b) besagt, daß für beliebige, abzählbar viele Ereignisse A1 , A2 , . . . auch A oder A2 oder . . .“ ein Ereignis ist. ” 1 • Mit (2.2a) wird die Wahrscheinlichkeit für das Eintreten des sicheren“ ” Ereignisses Ω gleich 1 gesetzt. • (2.2b) besagt, daß sich die Wahrscheinlichkeiten abzählbar vieler, sich gegenseitig ausschließender Ereignisse addieren. (2.1) und (2.2) sind damit mathematische Formulierungen von Gesetzmäßigkeiten aus dem alltäglichen, menschlichen Umfeld. 2.2. Zufallsvariablen. Zu modellierende, beobachtbare zufällige Größen“ ” werden durch Zufallsvariablen auf (Ω, F, P) beschrieben. Darunter versteht man Funktionen X : (Ω, F, P) → (Ω′ , F′ ), wobei (Ω′ , F′ ) ein meßbarer Raum 2.14 ist, mit 2.15 (2.3) X −1 (A′ ) = {ω ∈ Ω : X(ω) ∈ A′ } ∈ F, A′ ∈ F′ . Beispiel 2.4. Sei (Ω, F, P) der in Beispiel 2.1 beschriebene Wahrscheinlichkeitsraum zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze. Beispiele für (N0 , Pot(N0 ))-wertige Zufallsvariablen auf diesem Wahrscheinlichkeitsraum sind • Xi , i = 1, . . . , N , mit Xi (ω) = ωi , ω = (ω1 , . . . , ωN ) ∈ Ω, P P • Z= N Xi , d.h., Z(ω) = N i=1 Xi (ω), ω ∈ Ω, ( i=1 inf i ∈ {1, ..., N } : Xi = 1 , falls Z > 0, • T = N + 1, sonst 2.16. Für i = 1, . . . , N gibt Xi das Ergebnis des i-ten Wurfs an. Weiterhin beschreibt Z die Anzahl der Würfe von Zahl“ , 1, während T den Zeitpunkt des ersten Wurfs ” von Zahl“ modelliert. ” Wenn F = Pot(Ω) 2.17, so ist die Meßbarkeitseigenschaft (2.3) offensichtlich für jede auf (Ω, F, P) definierte Funktion erfüllt 2.18. In komplizierteren Situationen können allerdings σ-Algebren eine unübersichtliche Struktur besitzen 2.19. Damit wird in konkreten Fällen die Verifizierung von 2.14Vgl. Fußnote 2.4. 2.15Eine Funktion X : (Ω, F) → (Ω′ , F ′ ), wobei (Ω, F) und (Ω′ , F ′ ) meßbare Räume sind, heißt meßbar, wenn (2.3) gilt. Eine Zufallsvariable ist daher eine meßbare Funktion, die nicht nur auf einem meßbaren Raum, sondern sogar auf einem Wahrscheinlichkeitsraum definiert ist. Aus diesem Grund kann ihr dann auch eine Verteilung, vgl. Abschnitt 2.2.1, zugeordnet werden. 2.16Auf eine detailliertere Weise ist T durch ( inf i ∈ {1, ..., N } : Xi (ω) = 1 , falls Z(ω) > 0, ω ∈ Ω, T (ω) = N + 1, sonst, definiert. 2.17In der Praxis ist F = Pot(Ω) nur sinnvoll, wenn Ω höchstens abzählbar ist, vgl. Beispiel 3.1. 2.18Insbesondere sind die in Beispiel 2.4 eingeführten Funktionen X , i = 1, . . . , N , Z und T i in der Tat Zufallsvariablen. 2.19Vgl. Abschnitt 3.1. 22. Juli 2014 11 (2.3) schwierig. Es reicht jedoch, (2.3) für alle A′ ∈ F∗′ nachzuweisen, wenn F∗′ ⊆ F′ hinreichend groß ist 2.20. Zwei Zufallsvariablen X und Y auf einem Wahrscheinlichkeitsraum (Ω, F, P) werden i. allg. dann als identisch betrachtet, wenn sie fast sicher (f.s.) übereinstimmen, d.h., wenn P[{ω ∈ Ω : X(ω) = Y (ω)}] = P[X = Y ] = 1. In diesem Fall schreibt man X = Y , f.s. Dementsprechend sind in der Wahrscheinlichkeitstheorie alle (Un-)Gleichungen zwischen Zufallsvariablen als f.s. gültige (Un-)Gleichungen zu lesen. Um das auf einem vorgegebenen meßbaren Raum (Ω, F) jeweils verwendete Wahrscheinlichkeitsmaß P hervorzuheben, wird auch die Notation P-f.s. benutzt 2.21. 2.2.1. Verteilung von Zufallsvariablen. Eine (Ω′ , F′ )-wertige Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist durch die Wahrscheinlichkeiten, ” mit der die verschiedenen Werte in Ω′ angenommen werden“, d.h., durch ihre Verteilung PX charakterisiert 2.22. PX ist definiert durch 2.23 (2.4) PX [A′ ] := P[X ∈ A′ ] = P[{ω ∈ Ω : X(ω) ∈ A′ }] = P[X −1 (A′ )], und stellt ein Wahrscheinlichkeitsmaß auf dem Bildraum (Ω′ , F′ ) dar A′ ∈ F′ , 2.24 . Beispiel 2.5. Sei (Ω, F, P) der in Beispiel 2.1 beschriebene Wahrscheinlichkeitsraum zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze und sei Z die in Beispiel 2.4 eingeführte (N0 , Pot(N0 ))-wertige Zufallsvariable zur Beschreibung der Anzahl der Würfe von Zahl“. Dann gilt #” "N X N 1 N 2.26 2.25 , k = 0, 1, . . . , N, Xi = k = P[Z = k] = P 2 k i=1 und außerdem P[Z = k] = 0, k = N + 1, N + 2, . . . . 2.20Beispielsweise reicht der Nachweis von (2.3) für alle A′ ∈ F ′ , wenn F ′ die kleinste F ′ ∗ ∗ enthaltende σ-Algebra ist und somit von F∗′ erzeugt wird, vgl. Satz 3.4. 2.21Sei (Ω, F) ein meßbarer Raum, auf dem zwei Wahrscheinlichkeitsmaße P und Q definiert sind, und seien X und Y zwei (Ω′ , F′ )-wertige, meßbare Funktionen auf (Ω, F). Es kann durchaus X = Y , P-f.s., und Q[X 6= Y ] = Q[{ω ∈ Ω : X(ω) 6= Y (ω)}] > 0 oder gar Q[X 6= Y ] = 1, d.h., X 6= Y , Q-f.s., gelten. Sei beispielsweise Ω = {−1, 1}, F = Pot(Ω), P[{−1}] = Q[{1}] = 1 und P[{1}] = Q[{−1}] = 0. Außerdem sei X(−1) = X(1) = Y (−1) = 1 und Y (1) = −1. Dann ist {X = Y } = {−1}, d.h., P[X = Y ] = 1, bzw. Q[X = Y ] = 0. 2.22Genaugenommen gibt die Verteilung einer Zufallsvariablen X die Wahrscheinlichkeiten an, die die verschiedenen mit X verbundenen Ereignisse“ {X ∈ A′ }, A′ ∈ F′ , haben. 2.23P[{ω ∈ Ω : X(ω)” ∈ A′ }] ist für alle A′ ∈ F ′ wohldefiniert, da aufgrund der Meßbarkeit von X, vgl. (2.3) und Fußnote 2.15, die Menge {ω ∈ Ω : X(ω) ∈ A′ } ein Element von F ist. 2.24(Ω′ , F ′ , P ) ist damit ein Wahrscheinlichkeitsraum. Zum Nachweis, daß P ein WahrX X scheinlichkeitsmaß auf (Ω′ , F′ ) ist, d.h., die Bedingungen (2.2) erfüllt, beachte zunächst, daß PX [Ω′ ] = P[X −1 (Ω′ )] = P[Ω] = 1. Außerdem sind für disjunkte Ereignisse A′1 , A′2 , . . . in F′ auch deren Urbilder X −1 (A′1 ), X −1 (A′2 ), . . . in F disjunkt. Wegen der Gültigkeit von (2.2b) für das Wahrscheinlichkeitsmaß P auf (Ω, F) ist somit "∞ # " # !# "∞ ∞ ∞ ∞ [ [ X X [ ′ −1 ′ −1 ′ Ak = P X PX Ak PX [A′k ]. P[X −1 (A′k )] = X (Ak ) = =P k=1 k=1 k=1 k=1 k=1 2.25Die {0, 1}-wertigen Zufallsvariablen X , i = 1, . . . , N , modellieren die Ergebnisse der i einzelnen Würfe, vgl. Beispiel 2.4. P 2.26 Offensichtlich ist N i=1 Xi = k genau dann, wenn Xi = 1 für genau k der N Würfe. Nun gibt es N Möglichkeiten, die Zeitpunkte“ i der in 1 resultierenden Würfe auszuwählen. Weiterk ” hin hat jede Wurfsequenz die Wahrscheinlichkeit 2−N , vgl. Beispiel 2.1. In diesen Überlegungen wird beachtet, daß (Ω, F, P) ein Laplacescher Wahrscheinlichkeitsraum, vgl. Fußnote 2.6, ist. 22. Juli 2014 12 Damit ist Z gemäß der Binomialverteilung und 1/2 verteilt. 2.27 B(N, 1/2) mit den Parametern N Außer in den einfachsten Fällen ist es zur Bestimmung der Verteilung PX von X gemäß (2.4) nicht möglich und auch nicht sinnvoll, P[X ∈ A′ ] für alle A′ ∈ F′ zu berechnen. Zur eindeutigen Charakterisierung von PX reicht die Kenntnis von P[X ∈ A′ ] für alle A′ ∈ F∗′ , falls F∗′ die σ-Algebra F′ erzeugt 2.28 und durchschnittsstabil ist 2.29. Für Zufallsvariablen mit Werten in (Ω′ , F′ ) = (R, B(R)) 2.30 kann F∗′ = {(−∞, a] : a ∈ R} gewählt werden 2.31. Die Verteilung einer reellwertigen Zufallsvariable X ist damit durch ihre Verteilungsfunktion FX mit FX (u) = P[X ≤ u], u ∈ R, eindeutig gegeben 2.32. Die gegenseitigen Abhängigkeiten zwischen mehreren Zufallsvariablen werden durch deren gemeinsame Verteilung beschrieben. Falls 2.33 Xλ , λ ∈ Λ, Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in meßbaren Räumen (Ωλ , Fλ ), λ ∈ Λ, sind, so ist die gemeinsame Verteilung von Xλ , λ ∈ Λ, durch P Xλ1 ∈ Aλ1 , Xλ2 ∈ Aλ2 , . . . , Xλm ∈ Aλm (2.5) = P ω ∈ Ω : Xλ1 (ω) ∈ Aλ1 , . . . , Xλm (ω) ∈ Aλm , {λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N, eindeutig bestimmt 2.34. 2.2.2. Unabhängigkeit von Zufallsvariablen. Falls die gemeinsame Verteilung der Zufallsvariablen Xλ , λ ∈ Λ, faktorisiert, d.h., wenn 2.35 P Xλ1 ∈ Aλ1 , Xλ2 ∈ Aλ2 , . . . , Xλm ∈ Aλm (2.6) = P[Xλ1 ∈ Aλ1 ] P[Xλ2 ∈ Aλ2 ] · · · P[Xλm ∈ Aλm ], {λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N, werden diese Zufallsvariablen unabhängig genannt 2.36 . 2.27Allgemeiner ist B(N, p)[{k}] = N pk (1 − p)N−k , k k = 0, 1, . . . , N, für die Binomialverteilung B(N, p) mit den Parametern N ∈ N und p ∈ [0, 1]. 2.28Vgl. Fußnote 2.20. 2.29Vgl. [10], Satz (1.12). Ein Mengensystem F ′ heißt durchschnittsstabil, falls mit A, B ∈ F ′ ∗ ∗ auch A ∩ B ∈ F∗′ ist. Ein durchschnittsstabiles Mengensystem wird auch als π-System bezeichnet, vgl. Abschnitt 5.1.3. 2.30Vgl. Beispiel 2.3. 2.31Es ist offensichtlich, daß dieses Mengensystem F ′ durchschnittsstabil ist. ∗ 2.32Die Verteilungsfunktion F : R → [0, 1] einer Zufallsvariable X ist monoton steigend mit X limy→−∞ FX (y) = 0 und limy→∞ FX (y) = 1. FX ist rechtsstetig, d.h., limyցx0 FX (y) = FX (x0 ), x0 ∈ R, und besitzt linksseitige Grenzwerte, d.h., limyրx0 FX (y) existiert für alle x0 ∈ R, vgl. [7], Section 1.1, Theorem (1.1). Der Nachweis der Rechtsstetigkeit von FX findet sich in Fußnote 3.56. 2.33 Λ ist eine beliebige Indexmenge. 2.34Eigentlich ist die gemeinsame Verteilung der Zufallsvariablen X , λ ∈ Λ, ein Wahrscheinλ N Q dem Produkt der meßbaren Räume lichkeitsmaß auf dem meßbaren Raum λ∈Λ Ωλ , λ∈Λ Fλ ,N (Ωλ , Fλ ), λ ∈ Λ, vgl. Abschnitt 3.1.2. Die Produkt-σ-Algebra λ∈Λ Fλ ist hierbei die kleinste σAlgebra, die die endlich-dimensionalen Rechtecke {ω = (ωλ )λ∈Λ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm }, der {λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N, enthält. Die gemeinsame Verteilung Q N Zufallsvariablen Xλ , λ ∈ Λ, ist identisch mit der Verteilung der λ∈Λ Ωλ , λ∈Λ Fλ -wertigen Zufallsvariable X = (Xλ )λ∈Λ , die durch Zusammenfassen der Zufallsvariablen Xλ , λ ∈ Λ, zu einer einzigen vektorwertigen Zufallsvariable entsteht. 2.35Genaugenommen wird in (2.6) verlangt, daß alle gemeinsamen Verteilungen von jeweils endlich vielen der Zufallsvariablen Xλ , λ ∈ Λ, faktorisieren. 2.36Um den Unterschied zur linearen Unabhängigkeit zu betonen, bezeichnet man die Zufallsvariablen Xλ , λ ∈ Λ, auch als stochastisch unabhängig. 22. Juli 2014 13 Beispiel 2.6. Die in Beispiel 2.4 eingeführten Zufallsvariablen Xi , i = 1, . . . , N , sind unabhängig 2.37. Es gilt beispielsweise 2.38 P[Xi = α, Xj = β] = Hingegen sind X1 und 2.39 1 1 1 = · = P[Xi = α] · P[Xj = β], 4 2 2 α, β ∈ {0, 1}, i, j = 1, . . . , N, i 6= j. Z nicht unabhängig, wie z.B. 0 = P[X1 = 1, Z = 0] 6= P[X1 = 1] · P[Z = 0] = demonstriert. 2.40 1 1 N 1 N +1 = · 2 2 2 Viele klassische Resultate der Wahrscheinlichkeitstheorie 2.41 beziehen sich auf eine Familie Xλ , λ ∈ Λ, unabhängiger, identisch verteilter Zufallsvariablen 2.42, wobei im allgemeinen Λ nicht endlich ist. Um zu klären, ob solche Resultate sinnvoll sind 2.43, ist zunächst zu prüfen, ob überhaupt ein Wahrscheinlichkeitsraum existiert, auf dem alle Xλ , λ ∈ Λ, definiert sind. Zu einer Lösung dieses Existenzproblems 2.44 können insbesondere Produkträume, genauer Produkte von Wahrscheinlichkeitsräumen 2.45, verwendet werden. 2.3. Erwartungswerte von Zufallsvariablen. Im täglichen Umgang mit zufälligen Meßwerten oder sonstigen durch reelle Zahlen quantifizierten Beobachtungen werden Mittelwerte“ zur Beschreibung typischer Beobachtungswerte“ ver” ” wendet. Dem Mittelwert“ entspricht in der Wahrscheinlichkeitstheorie der Erwar” tungswert. Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in (R, B(R)) 2.46. X sei zunächst eine diskrete Zufallsvariable, d.h., X(Ω) = {X(ω) : ω ∈ Ω} sei eine höchstens abzählbare Teilmenge von R 2.47. Dann besitzt 2.37Zur realistischen Modellierung der (umgangssprachlichen) Unabhängigkeit“ der einzel” nen Würfe der Münze ist dies auch notwendig. 2.38Hier wird nur der Fall m = 2 aus (2.6) angesprochen. Die Fälle m = 3, . . . , N können auf die gleiche Weise behandelt werden. 2.39Die Zufallsvariable Z wird in Beispiel 2.4 eingeführt. 2.40Es wird insbesondere berücksichtigt, daß X = 0, sobald Z = 0, und daß Z binomialver1 teilt mit Parametern N und 1/2 ist, vgl. Beispiel 2.5. 2.41Z.B. das Gesetz der großen Zahlen oder der Zentrale Grenzwertsatz in ihren Grundversionen, vgl. Satz 4.5, bzw. Satz 4.10. In diesen Resultaten ist Λ = N. 2.42Als Abkürzung wird in Fällen wie hier i.i.d. für independent, identically distributed“ ” verwendet. 2.43Es wäre nicht sinnvoll, mathematische Resultate für nichtexistierende Objekte herzuleiten. 2.44Vgl. Beispiel 3.9. 2.45Das Produkt der Wahrscheinlichkeitsräume (Ω , F , P ), λ ∈ Λ, hat die Gestalt Q N λ λ λ Q N N λ∈Λ Ωλ , λ∈Λ Fλ ein Produkt λ∈Λ Ωλ , λ∈Λ Fλ , λ∈Λ Pλ , wobei N meßbarer Räume ist, vgl. Fußnote 2.34 und Abschnitt 3.1.2, und das Wahrscheinlichkeitsmaß λ∈Λ Pλ durch seine Einschränkung auf die endlich-dimensionalen Rechtecke, d.h., durch )# "( m Y O Y Pλ = Pλi [Aλi ], Ωλ : ω λ 1 ∈ A λ 1 , . . . , ω λ m ∈ A λ m ω = (ωλ )λ∈Λ ∈ λ∈Λ i=1 λ∈Λ {λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N, eindeutig bestimmt ist, vgl. Abschnitt 3.3.4. 2.46Zur Beschreibung des meßbaren Raums (R, B(R)) vgl. Beispiel 2.3. 2.47In diesem Abschnitt wird der Erwartungswert nur für diskrete Zufallsvariablen definiert. Zur Erweiterung auf beliebige (R, B(R))-wertige Zufallsvariablen vgl. Abschnitt 3.6. Allgemeiner können Erwartungswerte auch für Zufallsvariablen mit Werten in Vektorräumen definiert werden. 22. Juli 2014 14 X einen (endlichen) Erwartungswert, wenn 2.48 X |x| P[X = x] < ∞. (2.7) x∈X(Ω) Wenn (2.7) gilt, nennt man X auch integrabel. Man definiert nun den Erwartungswert von X durch 2.49 X X x PX [{x}]. x P[X = x] = (2.8) E[X] := x∈X(Ω) x∈X(Ω) Der Erwartungswert E[X] ist damit eine gewichtete Summe über den Wertebereich von X, wobei die einzelnen Werte von X mit den Wahrscheinlichkeiten, mit denen sie angenommen werden, gewichtet werden 2.50 2.51. Für eine f.s. positive Zufallsvariable ist die Summe in (2.8) immer wohldefiniert, d.h., für solche Zufallsvariablen X kann E[X] durch (2.8) definiert werden. Allerdings ist in einem solchen Fall E[X] = ∞ möglich. Nun wird deutlich, daß eine beliebige diskrete reellwertige Zufallsvariable X genau dann integrabel ist, wenn E[|X|] < ∞. Beispiel 2.7. Für die in Beispiel 2.4 eingeführte Zufallsvariable Z zur Modellierung der Anzahl der Würfe von Zahl“ beim N -fachen, unabhängigen Wurf einer fairen ” Münze gilt 2.52: E[Z] = N X k P[Z = k] | {z } N 1 N = 2 k N −1 N 1 N X N X N N! = = k k!(N − k)! 2 2 l=0 k=1 | {z } | N −1 =N k−1 k=0 N − 1 1 N −1 = . 2 2 l {z } =1 Zur Berechnung des Erwartungswerts E[X] für eine allgemeine, reellwertige Zufallsvariable X wird diese Zufallsvariable durch eine Folge geeigneter diskreter Zufallsvariablen Xk , k ∈ N, approximiert und E[X] durch limk→∞ E[Xk ] definiert 2.53 2.54. 2.48In (2.7) muß P[X = x] wohldefiniert sein, d.h., {X = x} ∈ F, x ∈ X(Ω). Diese Eigenschaft folgt aus der Meßbarkeit von X : (Ω, F) → (R, B(R)), vgl. (2.3), und aus {x} ∈ B(R), x ∈ R. 2.49Die Verteilung P einer Zufallsvariablen X ist in (2.4) charakterisiert. X 2.50Offensichtlich hängt der Erwartungswert E[X] nur von der Verteilung P ab. Der WahrX scheinlichkeitsraum (Ω, F, P), auf dem die Zufallsvariable X definiert ist, tritt, wie insbesondere die zweite Summe in (2.8) andeutet, nur indirekt in Erscheinung. Allgemeinere Überlegungen zur Bedeutung von Wahrscheinlichkeitsräumen, auf denen zur Modellbildung benutzte Zufallsvariablen X definiert sind, und deren Verteilung PX finden sich in Abschnitt 2.6. 2.51 In Anspielung auf die Gestalt der rechten Seite von (2.8) kann E[X] auch als ein Integral R X(Ω) x PX (dx) bzgl. des Wahrscheinlichkeitsmaßes PX über den Wertebereich X(Ω) betrachtet werden. Dementsprechend besitzt Abschnitt 3.6, wo der Erwartungswert reellwertiger Zufallsvariablen rigoros eingeführt wird, den Titel Integrationstheorie“. ” 2.52Es wird berücksichtigt, daß Z binomialverteilt mit Parametern N und 1/2 ist, vgl. Beispiel 2.5. 2.53Vgl. Abschnitt 3.6. Natürlich muß darauf geachtet werden, daß E[X] unabhängig von der approximierenden Folge Xk , k ∈ N, ist. 2.54 Die hier in einer Definition angesprochene Beziehung E[limk→∞ Xk ] = limk→∞ E[Xk ] für eine Folge von Zufallsvariablen Xk , k ∈ N, muß in vielen Situationen in der Wahrscheinlichkeitstheorie verifiziert werden. Zu diesem Zweck können Resultate wie der Satz von der monotonen 22. Juli 2014 15 2.4. Bedingte Wahrscheinlichkeiten. Mit (Ω, F, P) sei ein Wahrscheinlichkeitsraum gegeben. Durch das Wahrscheinlichkeitsmaß P[ . ] erhalten hierbei die Ereignisse A ∈ F jeweils eine unbedingte Wahrscheinlichkeit P[A]. Falls nun bekannt wird, daß ein festes Ereignis B eingetreten ist, kann allen Ereignissen A ∈ F eine neue, unter B bedingte Wahrscheinlichkeiten P[A|B] 2.55 zugewiesen werden. Beispiel 2.8. Sei (Ω, F, P) der in Beispiel 2.1 beschriebene Wahrscheinlichkeitsraum zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze und seien X1 und Z Zufallsvariablen wie sie in Beispiel 2.4 eingeführt wurden 2.56. Weiterhin seien die Ereignisse A = {Z = N } und B = {X1 = 0} gegeben. Da Z binomialverteilt mit den Parametern N und 1/2 ist 2.57, folgt P[A] = 2−N . Andererseits sollte offensichtlich P[A|B] = 0 gelten 2.58. Allgemein ist für ein B ∈ F mit P[B] > 0 2.59 die unter B bedingte Wahrscheinlichkeit P[ . |B] ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum (Ω, F) 2.60. Für dieses Wahrscheinlichkeitsmaß P[ . |B] sind folgende Eigenschaften zu erwarten: (i) P[B|B] = 1 2.61. (ii) Es gibt eine Konstante cB > 0, so daß P[A|B] = cB P[A], falls A ∈ F, A ⊆ B 2.62. Aus (i) und (ii) für A = B folgt 1 = P[B|B] = cB P[B], d.h., cB = 1/P[B]. Damit ergibt sich (2.9) 2.63 P[A ∩ B|B] + P[A ∩ (Ω \ B)|B] {z } | = 0 2.64 = cB P[A ∩ B] P[A|B] = = P[A ∩ B] , P[B] A ∈ F. Häufig müssen für reellwertige Zufallsvariablen X auf einem Wahrscheinlichkeitsraum (Ω, F, P) Erwartungswerte bestimmt werden, bei denen das Vorliegen Konvergenz, vgl. Satz 3.18(3), oder der Satz von der dominierten Konvergenz, vgl. Satz 3.24, verwendet werden. 2.55P[A|B] ist die Wahrscheinlichkeit des Ereignisses A, nachdem bekannt wird, daß das Ereignis B schon eingetreten ist. 2.56X modelliert das Ergebnis des ersten Wurfs und Z die Anzahl aller Würfe von 1 Zahl“ , 1. ” 2.57Vgl. Beispiel 2.5. 2.58Wenn schon der erste Wurf Kopf“ ergibt, kann die Anzahl aller Würfe von Zahl“ nicht ” ” N sein. 2.59Die Notwendigkeit dieser Bedingung ergibt sich aus der letztendlich P[ . |B] charakterisierenden Beziehung (2.9). 2.60Insbesondere erfüllt P[ . |B] die Beziehungen (2.2). 2.61Wenn B eingetreten ist, ist B sicher. 2.62Mit der Beobachtung, daß B eingetreten ist, sind keine weiteren Erkenntnisse über tiefergehende Details, d.h., Ereignisse A ⊆ B, verbunden. Für A, A′ ∈ F mit A, A′ ⊆ B sollte somit das Verhältnis der Wahrscheinlichkeiten vor und nach dem Gewinn des Wissens um das Eintreten von B gleich sein, d.h., P[A] P[A|B] = , P[A′ ] P[A′ |B] A, A′ ∈ F, A, A′ ⊆ B. Diese Relation ist gleichbedeutend mit (ii), wobei cB = P[A′ |B]/P[A′ ] für ein beliebiges, fest gewähltes A′ ⊆ B mit P[A′ ] > 0. . 2.63Da A = (A ∩ B) ∪ (A ∩ (Ω \ B)) und weil P[ . |B] die Bedingung (2.2b) erfüllt. 2.64 Wegen (i) ist die gesamte Masse“ des Wahrscheinlichkeitsmaßes P[ . |B] auf B konzen” triert, d.h., P[C|B] = 0, falls C ⊆ Ω \ B. 22. Juli 2014 16 zusätzlicher Informationen zu berücksichtigen ist. Wenn diese Informationen sich auf Ereignisse in einer Teil-σ-Algebra G ⊆ F beziehen, ist der bedingte Erwartungswert E[X|G] zu berechnen. E[X|G] ist eine reellwertige Zufallsvariable auf dem meßbaren Raum (Ω, G) 2.65. Der normale (unbedingte) Erwartungswert E[X] kann in diesem Zusammenhang als ein bedingter Erwartungswert E[X|{∅, Ω}] bzgl. der trivialen σ-Algebra {∅, Ω} interpretiert werden 2.66. 2.5. Stochastische Prozesse. Sei T eine Menge, (Ω, F, P) ein Wahrscheinlichkeitsraum und (Ω′ , F′ ) ein meßbarer Raum. Für alle t ∈ T sei Xt eine (Ω′ , F′ )wertige Zufallsvariable auf (Ω, F, P). Man bezeichnet dann die Familie X = (Xt )t∈T dieser Zufallsvariablen auch als stochastischen Prozeß oder Zufallsprozeß 2.67. Beispiel 2.9. Seien Xi , i = 1, . . . , N , die in Beispiel 2.4 eingeführten Zufallsvariablen zur Modellierung der Ergebnisse von N unabhängigen Würfen einer fairen Münze. Offensichtlich sind dann die Zufallsvariablen Yi = 1 − 2Xi , i = 1, . . . , N , unabhängige, {−1, 1}-wertige Zufallsvariablen mit der Verteilung P[Yi = −1] = P[Yi = 1] = 1/2, i = 1, . . . , N 2.68. Die symmetrische Irrfahrt ζ = (ζk )k=0,...,N , ist nun definiert durch 2.69 ζk = k X Yi , k = 0, . . . , N. i=1 ζ startet zum Zeitpunkt 0 im Ursprung und springt später in den Zeitpunkten 1, 2, . . . , N jeweils mit Wahrscheinlichkeit 1/2 um 1 weiter nach rechts oder links. Damit ist ζ ein sehr einfaches Modell für die Bewegung eines diffundierenden Teilchens in einer Dimension 2.70. Die in Beispiel 2.9 vorgestellte symmetrische Irrfahrt ist ein einfaches Beispiel eines Markovprozesses 2.71. Ein derartiger Prozeß 2.72 X = (Xt )0≤t<∞ zeichnet sich dadurch aus, daß in jedem Zeitpunkt s ≥ 0 die zukünftige Entwicklung, d.h., Xu , 2.65Die Forderung, daß der bedingte Erwartungswert E[X|G] nur von den Ereignissen in G bestimmt ist, spiegelt sich in der Bedingung, daß E[X|G] eine meßbare Funktion auf (Ω, G) ist. Allgemein zeichnet sich E[X|G] durch eine Projektionseigenschaft aus. Genauer, für eine reellwertige Zufallsvariable X mit E[|X|] < ∞ ist E[X|G] die f.s. eindeutig bestimmte meßbare, (R, B(R))-wertige Funktion auf dem meßbaren Raum (Ω, G) mit (∗) E[XY ] = E E[X|G]Y , Y : (Ω, G) → (R, B(R)), meßbar, beschränkt. E[X|G] ist damit die Projektion der auf (Ω, F, P) definierten Zufallsvariable X auf den Raum ” der auf (Ω, G, P) definierten Zufallsvariablen“. Eine detailliertere Einführung von bedingten Erwartungswerten findet sich in Abschnitt 3.8. 2.66Da alle meßbaren Funktionen auf dem meßbaren Raum (Ω, {∅, Ω}) f.s. konstant sind, ist auch E[X|{∅, Ω}] eine Konstante. Betrachtet man nun (∗) in Fußnote 2.65 mit G = {∅, Ω} und der {∅, Ω}-meßbaren Zufallsvariablen Y ≡ 1, so folgt E[X|{∅, Ω}] = E[E[X|{∅, Ω}]] = E[E[X|{∅, Ω}] · 1] = E[X · 1] = E[X], f.s. 2.67Wenn mit X eine zufällige zeitliche Dynamik modelliert werden soll, ist T eine Teilmenge von R, z.B. [0, ∞), N oder [0, T ]. 2.68Man beachte, daß Y = −1, bzw. Y = 1, genau dann, wenn X = 1, bzw. X = 0. i i i i 2.69Üblicherweise bezeichnet man als symmetrische Irrfahrt die offensichtliche Erweiterung des hier definierten Prozesses ζ = (ζk )k=0,...,N zu einem stochastischen Prozeß ζ ′ = (ζk′ )k∈N0 mit N0 als Menge der Zeitpunkte, vgl. dazu z.B. Beispiel 4.22 und Satz 4.23. 2.70Ein realistischeres Modell für ein diffundierendes Teilchen ist die aus ζ, bzw. aus dem in Fußnote 2.69 eingeführten Prozeß ζ ′ durch Reskalierung hervorgehende Brownsche Bewegung, vgl. Abschnitt 4.5. 2.71 Vgl. Abschnitte 4.3 und 6.1. 2.72 Zur Diskussion einer die symmetrische Irrfahrt etwas verallgemeinernden Situation sei hier angenommen, daß die Zeit kontinuierlich ist. 22. Juli 2014 17 u > s, bei gegebenem gegenwärtigen Zustand Xs nicht von der Vergangenheit Xu , u < s, abhängt 2.73. Es gibt viele weitere Klassen spezieller stochastischer Prozesse, beispielsweise Martingale 2.74 und stationäre Prozesse. Ein solcher stationärer Prozeß X = (Xt )0≤t<∞ zeichnet sich durch die Invarianz seiner Verteilung unter Zeitverschiebungen aus, d.h., 2.75 P(Xt1 ,...,Xtn ) = P(Xt1 +t ,...,Xtn +t ) , 0 ≤ t1 < · · · < tn < ∞, t > 0, n ∈ N. 2.6. Wahrscheinlichkeitsräume und Zufallsvariablen in der Modellbildung. In Anwendungen der Wahrscheinlichkeitstheorie bei der Bildung von Modellen für vom Zufall beeinflußte Phänomene dient typischerweise ein allgemeiner Wahrscheinlichkeitsraum (Ω, F, P) als ein Zufallsgenerator“, während Zufallsvaria” blen Messungen oder Beobachtungen mit zufälligem Ausgang modellieren. (Ω, F, P) muß so groß“ sein, daß alle benötigten Zufallsvariablen mit den von ihnen erwar” teten Eigenschaften konstruiert werden können. Insbesondere muß die gemeinsame Verteilung dieser Zufallsvariablen 2.76 den Wünschen und Vorstellungen des modellbildenden Mathematikers gerecht werden. Beim Entwurf eines mathematischen Modells für einen physikalischen oder technischen Vorgang ist nur die realistische Nachbildung“ der möglichen Beobachtungs” ergebnisse wesentlich. Dies bedeutet, daß der zugrundeliegende Wahrscheinlichkeitsraum (Ω, F, P) in den Hintergrund tritt, d.h., sein detaillierter Aufbau irrelevant bleibt, solange nur die für die Modellbildung benutzten Zufallsvariablen die richtige Verteilung besitzen 2.77. Beispiel 2.10. Zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze könnte anstelle des in Beispiel 2.1 vorgestellten Wahrscheinlichkeitsraums (Ω, F, P) mit Ω = {0, 1}N , F = Pot(Ω), P[{ω}] = 2−N , ω ∈ Ω, 2.73In einer präzisen Definition der Markoveigenschaft kann die Filtration (F X ) t 0≤t<∞ verwendet werden, vgl. Fußnote 2.13, Beispiel 3.3 und Abschnitt 3.9. Für 0 ≤ t < ∞ ist hier FtX = σ(Xu , 0 ≤ u ≤ t) die kleinste σ-Algebra, bzgl. der alle Zufallsvariablen Xu , 0 ≤ u ≤ t, meßbar sind, vgl. Abschnitt 3.1.4. Außerdem sei für 0 ≤ t < ∞ mit σ(Xt ) die kleinste σ-Algebra, bzgl. der die Zufallsvariable Xt meßbar ist, bezeichnet. Nun kann für einen reellwertigen stochastischen Prozeß die Markoveigenschaft in der Form (∗) E[f (Xt+h )|FtX ] = E[f (Xt+h )|σ(Xt )], f.s., 0 ≤ t < ∞, h > 0, f ∈ Cb (R), festgehalten werden. In (∗) werden bedingte Erwartungswerte, vgl. Fußnote 2.65 und Abschnitt 3.8, verwendet. 2.74 Vgl. Abschnitte 4.4 und 5.3. Ein reellwertiger stochastischer Prozeß X = (Xt )0≤t<∞ mit E[|Xt |] < ∞, 0 ≤ t < ∞, wird als Martingal bezeichnet, wenn E[Xt+h |FtX ] = Xt , f.s., (FtX )0≤t<∞ 0 ≤ t < ∞, h > 0, wobei die Filtration in Fußnote 2.73 beschrieben wird. Ein Martingal (Xt )0≤t<∞ zeichnet sich dadurch aus, daß für alle t ≥ 0 der unter seiner Vergangenheit FtX bedingte mittlere ” zukünftige Zuwachs“ E[Xt+h − Xt |FtX ] = E[Xt+h |FtX ] − Xt für alle h > 0 verschwindet. Aufgrund ihrer Nützlichkeit bei der mathematisch rigorosen Behandlung zahlreicher unterschiedlicher Probleme können Martingale als die wichtigsten stochastischen Prozesse bezeichnet werden. 2.75Für 0 ≤ t < · · · < t < ∞ bezeichnet P n 1 (Xt1 ,...,Xtn ) die gemeinsame Verteilung der Zufallsvariablen Xt1 , . . . , Xtn , vgl. Abschnitt 2.2.1. Im Falle eines reellwertigen Prozesses X ist P(Xt ,...,Xtn ) ein Wahrscheinlichkeitsmaß auf (Rn , B(Rn )). 1 2.76Vgl. Abschnitt 2.2.1. 2.77Diese Tatsache äußert sich u.a. durch die übliche Verwendung der Phrase Sei (Ω, F, P) ein ” Wahrscheinlichkeitsraum . . . “ am Anfang vieler mathematischer Beiträge zur wahrscheinlichkeitstheoretischen Modellbildung, wobei dann in keiner Weise auf die genaue Struktur von (Ω, F, P) eingegangen wird. 22. Juli 2014 18 e P) e F, e mit ebenso (Ω, e = {0, 1, . . . , 2N − 1}, Ω e = Pot(Ω), e F e ω}] = 2−N , ω e P[{e e ∈ Ω, 2.78 ei , i = 1, . . . , N , mit benutzt werden. Dann sind z.B. die Zufallsvariablen X ω e e i = 1, . . . , N, e e ∈ Ω, Xi (e ω ) = i−1 mod 2, ω 2 2.79 unabhängig, {0, 1}-wertig mit der Verteilung eX ei = 0] = 1 = P[ eX ei = 1] = P e [{1}], PXei [{0}] = P[ Xi 2 i = 1, . . . , N, ei das Ergebnis des i-ten Wurfs der Münze d.h., für i = 1, . . . , N modelliert X 2.80 . Bei Anwendungen der Wahrscheinlichkeitstheorie treten spezielle Wahrscheinlichkeitsräume meistens nur dann in Erscheinung, wenn letztendlich die Verteilungen von Zufallsvariablen untersucht werden sollen. Wenn diese beispielsweise nur endlich viele Werte annehmen können und wenn außerdem diese Werte alle die gleiche Wahrscheinlichkeit besitzen 2.81, kann man mit einem Laplaceschen Wahrscheinlichkeitsraum arbeiten 2.82. 2.7. Simulation von Zufallsvariablen. Typischerweise sind realitätsnahe wahrscheinlichkeitstheoretische Modelle zufallsbeeinflußter Phänomene des menschlichen Umfeldes so kompliziert, daß exakte Berechnungen unmöglich sind. Zur Überprüfung der Gültigkeit der Modelle und auch zur Gewinnung von Vorhersagen wird dann oft auf deren Computersimulation zurückgegriffen 2.83. Zur Erstellung guter Computerimplementationen wahrscheinlichkeitstheoretischer Modelle ist es offensichtlich wesentlich, daß auf eine zuverlässige Weise Zufallsvariablen mit einer vorgegebenen Verteilung simuliert werden können. Ein grundlegendes Problem ist hierbei die Simulation einer Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen 2.84. 2.78Für beliebige A e folgt P[ e∈F e A] e = |A|2 e −N aus der σ-Additivität (2.2b) von Wahrschein- lichkeitsmaßen, vgl. Fußnote 2.8. 2.79⌊x⌋ = sup{n ∈ Z : n ≤ x}, x ∈ R. Damit gibt X ei (e ω ) die i-te Stelle in der Entwicklung von ω e im Dualsystem an. 2.80Wird in Beispiel 2.1 der Wahrscheinlichkeitsraum (Ω, F, P) durch (Ω, e P) e ersetzt, so e F, ei , i = 1, . . . , N , anstelle von Xi , i = 1, . . . , N , verkönnen in Beispiel 2.4 die Zufallsvariablen X wendet werden. 2.81 Man denke z.B. an den Wurf einer fairen Münze oder eines fairen Würfels. 2.82 Gelegentlich wird in der Wahrscheinlichkeitstheorie eine spezielle Wahl eines Wahrscheinlichkeitsraums auch durch dessen Brauchbarkeit für die mathematischen Überlegungen oder die Beweise der Resultate bestimmt. Beispielsweise eröffnet Satz 3.16 die Möglichkeit, bei der Untersuchung einer Folge in Verteilung konvergenter, reellwertiger Zufallsvariablen den zugrundeliegenden Wahrscheinlichkeitsraum zu wechseln, damit dann mit dem stärkeren Begriff der fast-sicheren Konvergenz gearbeitet werden kann. 2.83 Zunächst kann ein mathematisches Modell dann als brauchbar betrachtet werden, wenn Beobachtungen der realen Phänomene im Rahmen von Computersimulationen reproduziert werden können. In einem solchen Fall können nun weitere Computersimulationen benutzt werden, um evtl. teure Experimente zu ersetzen oder auch um Vorhersagen über zukünftige Geschehnisse zu treffen. 2.84Wie in Abschnitt 2.7.2 noch demonstriert werden wird, können aus derartigen Zufallsvariablen solche mit anderen Verteilungen mit Hilfe geeigneter Transformationen gewonnen werden. 22. Juli 2014 19 2.7.1. Erzeugung von Pseudozufallszahlen in [0, 1]. Ein erster, naheliegender Ansatz besteht darin, ein als zufällig“ erachtetes physikalisches Phänomen 2.85 ge” eignet zu verarbeiten 2.86. Auf diese Weise können wahre“ Zufallszahlen gewonnen ” werden 2.87. Eine bequemere Methode ist die Verwendung von sog. Pseudozufallszahlen. Darunter versteht man Zahlenfolgen, die durch spezielle, i. allg. rekursive Algorithmen berechnet werden und somit völlig deterministisch sind, die jedoch aufgrund ihrer Komplexität als zufällig erscheinen 2.88. Beispiel 2.11. Ein bekanntes Verfahren ist die lineare Kongruenzmethode 2.89. Zu vorgegebenen Parametern m ∈ N, a = 1, . . . , m − 1, c = 0, 1, . . . , m − 1 und einen Startwert x0 = 0, 1, . . . , m − 1 betrachtet man zunächst die Folge xn , n ∈ N0 , mit (2.10) xn+1 = (axn + c) mod m, n = 0, 1, 2, . . . , und bildet diese anschließend mit un = xn /m, n = 0, 1, 2, . . . , in das Intervall [0, 1] ab. Wenn m, a, c und x0 geschickt“ gewählt werden, hat die Folge un , ” n = 0, 1, 2, . . . , ein Erscheinungsbild wie eine typische“ Realisierung einer Folge ” unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen 2.90 2.91. Etliche klassische, ältere Zufallsgeneratoren basieren auf der linearen Kongruenzmethode 2.92. Beispiel 2.12. Der Mersenne Twister ist ein moderner Zufallsgenerator 2.93. Sei F2 der kommutative Körper der Charakteristik 2 2.94. Sei weiterhin w ∈ N hinreichend w groß, n ∈ N, m = 1, . . . , n − 1 und r = 1, 2, . . . , w − 1. Für y ∈ Fw 2 = {0, 1} u l w sei außerdem y = (y1 , . . . , yr , 0, . . . , 0) ∈ F2 und y = (0, . . . , 0, yr+1 , . . . , yw ) ∈ 2.95 l u w . Wenn y, z ∈ Fw Fw 2 , bezeichnet (y |z ) = (y1 , . . . , yr , zr+1 , . . . , zw ) ∈ F2 die 2 w⊗w l u Verkettung von y und z . Letztendlich sei A ∈ F2 eine vorgegebene w × wMatrix mit Einträgen aus F2 . 2.85Man denke z.B. an thermisches Rauschen, radioaktiven Zerfall oder quantenoptische Prozesse. 2.86In solchen Fällen spricht man von Hardware-basierten Zufallsgeneratoren. Wenn auf diese Weise Zufallszahlen durch ein separates Gerät außerhalb eines Computers erzeugt werden, müssen sie diesem über eine geeignete Schnittstelle zugeführt werden. 2.87Voraussetzung ist natürlich, daß das zugrundeliegende physikalische Phänomen in der Tat zufällig“ ist, d.h. sich auf eine nichtvorhersehbare Weise verhält. Evtl. müssen die ermittelten ” Zufallszahlen“ auch noch durch geeignete Verfahren aufbereitet werden, damit sie auch wirklich ” unabhängige, auf [0, 1] gleichverteilte Zufallsvariablen nachbilden. 2.88 Ein zufälliges Erscheinungsbild“ einer Zahlenfolge kann mit geeigneten statistischen Tests ” geprüft werden. Eine aktuelle Familie von Tests wurde insbesondere unter dem Namen DieHarder von R. G. Brown (http://www.phy.duke.edu/~rgb/General/rand rate.php) entwickelt. 2.89 Vgl. z.B. [13], Abschnitt 10.2. 2.90Eine Realisierung einer Familie X , X , . . . von Zufallsvariablen, die auf einem Wahr1 2 scheinlichkeitsraum (Ω, F, P) definiert sind, ergibt sich, wenn eine Folge X1 (ω), X2 (ω), . . . für ein festes, aber beliebiges ω ∈ Ω betrachtet wird. Für ein kleines“ A ∈ F mit P[A] = 1 kann man ” {(X1 (ω), X2 (ω), . . . ) : ω ∈ A} als eine Menge typischer Realisierungen“ betrachten. ” 2.91 Bei einer unglücklichen Wahl der Parameter erhält man u.U. eine sehr regelmäßige Folge x0 , x1 , x2 , . . . . Beispielsweise ergibt sich 5, 0, 5, 0, . . . für a = c = x0 = 5, m = 10. Allgemein besitzt eine durch (2.10) bestimmte Zahlenfolge immer eine endliche Periode, die höchstens m ist. 2.92 Oft hat sich allerdings im Lauf der Zeit herausgestellt, daß jene oft benutzten Zufallsgeneratoren, deren Perioden zwischen 230 und 248 liegen, eine nur geringe Qualität besitzen. 2.93 Eine detaillierte Beschreibung findet sich in [23]. Die Periode einer gut bewährten Variante ist mit 219937 − 1 eine extrem große Mersennesche Primzahl. Durch die Multiplikation mit der Matrix A in der Rekursionsformel (2.11) werden die Bits“ der erzeugten Zahlenfolgen ” durcheinandergewirbelt“, was den Namensbestandteil twister“(≃ Wirbelwind“) erklärt. ” 2.94D.h., F = {0, 1} mit der Addition 0 ⊕ 0 = 0,” 0 ⊕ 1 = 1 ” ⊕ 0 = 1, 1 ⊕ 1 = 0 und der 2 Multiplikation 0 ⊙ 0 = 0, 0 ⊙ 1 = 1 ⊙ 0 = 0, 1 ⊙ 1 = 1. 2.95y l (y u ) faßt die unteren (oberen) Bits“ von y zusammen. ” 22. Juli 2014 20 Zunächst wird nach der Vorgabe von Startwerten x0 , x1 , . . . , xn−1 ∈ Fw 2 eine 2.96 Folge x0 , x1 , · · · ∈ Fw 2 rekursiv gemäß (2.11) xk+n := xk+m ⊕w (xlk |xuk+1 ) ⊙w A, k = 0, 1, 2, . . . , P 2.97 −q konstruiert. Der Folge x0 , x1 , . . . in Fw uk = w , 2 kann nun durch q=1 xk;q 2 k = 0, 1, 2, . . . , eine Folge uk , k = 0, 1, 2, . . . , in [0, 1] zugeordnet werden, die bei einer vernünftigen“ Wahl von w, n, m, r, A und x0 , x1 , . . . , xn−1 wie eine typische“ ” ” Realisierung einer Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen aussieht. 2.7.2. Simulation beliebiger Folgen von reellwertigen, i.i.d. Zufallsvariablen. Aus Zufallsvariablen, die gemäß der Gleichverteilung auf [0, 1] verteilt sind, können mit geeigneten Transformationen reellwertige Zufallsvariablen mit beliebigen anderen Verteilungen gewonnen werden. Beispiel 2.13. Zur Beschreibung der Inversionsmethode sei angenommen, daß F : R → (0, 1) eine stetige, streng monoton steigende Verteilungsfunktion ist 2.98. Insbesondere besitzt F damit eine ebenfalls stetige und streng monoton steigende Umkehrfunktion F −1 : (0, 1) → R. Wenn nun U eine in (0, 1) gleichverteilte Zufallsvariable ist, so gilt P[F −1 (U ) ≤ y] = P[U ≤ F (y)] = F (y), 2.99 y ∈ R. Damit ist der reellwertigen Zufallsvariablen X = F −1 (U ) die vorgegebene Verteilungsfunktion FX = F zugeordnet. Sei z.B. F die Verteilungsfunktion der Exponentialverteilung mit Parameter 1, d.h., F (x) = (1 − exp(−x))I[0,∞) (x), x ∈ R. F ist stetig und nach der Einschränkung auf [0, ∞) auch streng monoton wachsend mit Wertebereich [0, 1). Diese Einschränkung von F besitzt die Umkehrfunktion F −1 : [0, 1) → [0, ∞) mit F −1 (x) = − log(1 − x), x ∈ [0, 1). Somit ist die Zufallsvariable − log(1 − U ) exponentiell verteilt mit Parameter 1, wenn U auf (0, 1) gleichverteilt ist 2.100. Wenn allgemeiner U1 , U2 , . . . unabhängig, in (0, 1) gleichverteilt sind, so sind die Zufallsvariablen F −1 (U1 ), F −1 (U2 ), . . . i.i.d. mit Verteilungsfunktion F . Insbesondere ist durch F −1 (x1 ), F −1 (x2 ), . . . eine Simulation einer Folge von i.i.d. Zufallsvariablen mit der Verteilungsfunktion F gegeben, falls x1 , x2 , . . . eine Folge von unabhängigen, in [0, 1] gleichverteilten“ Zufallszahlen ist 2.101. ” Auf den üblichen Computern sind Zufallsgeneratoren meistens verfügbar, evtl. als Teil des Betriebssystems oder im Rahmen von Softwarepaketen wie Maple, Mathematica oder R. Mit solchen Zufallsgeneratoren werden Folgen von Pseudozufallszahlen in [0, 1] erzeugt, die anschließend für eine Verteilungsfunktion F in 2.96⊕w , bzw. ⊙w , bezeichnet die Vektoraddition in Fw , bzw. die Multiplikation mit einer 2 Matrix in F2w⊗w . 2.97x = (x k k;1 , . . . , xk;w ), k = 0, 1, 2, . . . . Die Koordinaten der Vektoren xk , k ∈ N, werden als Koeffizienten für die Darstellung der Zahlen uk , k ∈ N, im Dualsystem benutzt. 2.98D.h., F habe die in Fußnote 2.32 aufgeführten Eigenschaften und sei darüberhinaus streng monoton und stetig. In [13], Abschnitt 10.2, werden die Überlegungen dieses Beispiels auf allgemeine, nicht unbedingt stetige oder streng monotone Verteilungsfunktionen verallgemeinert. 2.99Die Funktion X = F −1 ◦ U ist als Verknüpfung einer stetigen Funktion F −1 mit einer meßbaren Funktion U ebenfalls meßbar und somit eine Zufallsvariable, falls auf dem Bildraum R von F −1 die Borelsche σ-Algebra B(R) benutzt wird, vgl. Beispiele 3.5 und 3.6. 2.100Mit einer Zufallsvariablen U ist offensichtlich auch die Zufallsvariable 1 − U in (0, 1) gleichverteilt. Somit ist − log(U ) exponentiell verteilt mit Parameter 1. 2.101Beispielsweise können x , x , . . . Pseudozufallszahlen sein, wie sie in den Beispielen 2.11 1 2 und 2.12 beschrieben werden. 22. Juli 2014 21 eine Folge unabhängiger“, gemäß F verteilter Zufallszahlen transformiert werden ” können 2.102. Für Berechnungen, bei denen hohe Ansprüche an die Qualität 2.103 der Zufallsgeneratoren gestellt werden, können diese auch aus wissenschaftlichen SoftwareBibliotheken, wie z.B. der GNU Scientific Library (GSL) entnommen werden 2.104. 2.7.3. Quasizufallszahlen. Die bisher angesprochenen Pseudozufallszahlen, die der Nachbildung“ von Zufallsvariablen dienen, sollten nicht mit den sog. Qua” sizufallszahlen verwechselt werden 2.105. Hinter der Konstruktion einer Folge von Quasizufallszahlen x1 , x2 , . . . , z.B. in [0, 1], steht die Absicht, die Diskrepanz |{xi : i = 1, . . . , N, xi ∈ [0, u)}| ∗ − u, N ∈ N, DN (x1 , . . . , xN ) := sup N u∈[0,1] 2.106 zu minimieren , d.h., für derartige Folgen sollte der Unterschied zwischen der relativen Anzahl von Folgengliedern, die in ein Intervall [a, b) ∈ [0, 1] fallen, und der Länge von [a, b) gleichmäßig in a, b ∈ [0, 1] möglichst klein werden. Wenn Quasizufallszahlen im Rahmen von Quasi-Monte-Carlo-Methoden auf die gleiche Weise verwendet werden wie Pseudozufallszahlen in Monte-Carlo-Methoden, können in manchen Fällen wesentlich bessere Resultate erzielt werden 2.107. Pseudozufallszahlen und Quasizufallszahlen unterscheiden sich gravierend. Einerseits ist die Diskrepanz von wahren“ Zufallszahlen oder von Pseudozufallszahlen ” wesentlich größer als die von Quasizufallszahlen 2.108. Andererseits besitzen Quasizufallszahlen nicht die gleichen statistischen Eigenschaften wie wahre“ Zufallszahlen ” oder Pseudozufallszahlen 2.109. 2.102Neben der in Beispiel 2.13 beschriebenen Inversionsmethode stehen zu diesem Zweck in den gängigen Softwarepaketen üblicherweise noch andere Verfahren zur Verfügung. 2.103Insbesondere müssen evtl. die statistischen Eigenschaften wahrer “ Zufallszahlen gut ” reproduziert werden. Wenn weiterhin viele Zufallszahlen benötigt werden, sollten diese schnell zur Verfügung gestellt werden. 2.104Vgl. http://www.gnu.org/software/gsl/. Die GSL ist für Linux und in inoffiziellen Versionen auch für etliche andere Betriebssysteme verfügbar. Neben verschiedenen auf der linearen Kongruenzmethode, vgl. Beispiel 2.11, basierenden Zufallsgeneratoren ist u.a. auch der Mersenne Twister, vgl. Beispiel 2.12, implementiert. Weiterhin gibt es Befehle zur Simulation von unabhängigen Zufallsvariablen mit einer vorgegebenen Verteilung wie der Normalverteilung, der Exponentialverteilung, der Multinomialverteilung, der χ2 -Verteilung, . . . . 2.105 Vgl. [24]. 2.106Folgen von Quasizufallszahlen werden daher auch Folgen mit niedriger Diskrepanz genannt. 2.107Für die besten Folgen von Quasizufallszahlen wie z.B. Halton- oder Sobol-Folgen ist ∗ (x , . . . , x ) ≤ C log(N )/N , N ∈ N, für eine von der jew. Folge abhängige Konstante DN 1 N √ ∗ (X , . . . , X ) ≃ 1/ N , C > 0. Aufgrund des Zentralen Grenzwertsatzes ist im Vergleich dazu DN 1 N N → ∞, wenn Xn , n ∈ N, eine Folge von unabhängigen, in [0, 1] gleichverteilten Zufallsvariablen ist. Bei der Monte-Carlo-Integration einer meßbaren, beschränkten Funktion h : [0, 1] → R, d.h., R P der Approximation von 01 dx h(x) durch (1/N ) N k=1 h(Xk ), ergibt sich folglich ein Fehler der √ Größenordnung 1/ N . Wenn hingegen eine der optimalen“ Folgen x1 , x2 , . . . von Quasizufalls” P zahlen verwendet wird, d.h., wenn bei der Quasi-Monte-Carlo-Integration (1/N ) N k=1 h(xk ) als R1 Approximation von 0 dx h(x) benutzt wird, ist der Fehler nur noch von der Größenordnung log(N )/N . 2.108 Vgl. Fußnote 2.107. Dort ist Diskrepanz von hochwertigen Folgen von Quasizufallszahlen, bzw. von unabhängigen, in [0, 1] gleichverteilten Zufallsvariablen angegeben. 2.109 Beispielsweise versagen Quasizufallszahlen bei Tests wie der in Fußnote 2.88 erwähnten DieHarder-Testfamilie. 22. Juli 2014 KAPITEL 2 Maßtheoretische Grundlagen und einige Themen der Wahrscheinlichkeitstheorie 3. Beiträge aus der Maßtheorie zur Lösung technischer Probleme in der Wahrscheinlichkeitstheorie Die Maßtheorie stellt wesentliche Grundlagen zur mathematisch rigorosen Behandlung wahrscheinlichkeitstheoretischer Probleme zur Verfügung. In diesem Abschnitt 3 wird ein Überblick über einige der in diesem Zusammenhang wichtigsten Begriffsbildungen und Resultate gegeben. 3.1. Konstruktion von σ-Algebren. Wie das folgende Beispiel 3.1 demonstriert, ist im allgemeinen bei sehr großen Stichprobenräumen Ω die Potenzmenge Pot(Ω) als σ-Algebra für wahrscheinlichkeitstheoretische Überlegungen ungeeignet. Beispiel 3.1. Analog zu Beispiel 2.1 kann zur Modellierung des ∞-fachen, unabhängigen Wurfs einer fairen Münze der Stichprobenraum Ω = {0, 1}N = {ω = (ωi )i∈N : ωi ∈ {0, 1}, i ∈ N} 3.1 verwendet werden 3.2. Auf Ω sei eine σ-Algebra F von Ereignissen gegeben 3.3. Wegen der Fairness der Münze sollte ein vernünftiges Wahrscheinlichkeitsmaß P auf (Ω, F) die Invarianzeigenschaft (3.1a) P[A] = P[Tn A], A ∈ F, n ∈ N, wobei (3.1b) Tn A = {Tn ω : ω ∈ A}, A ∈ F, n ∈ N, mit (3.1c) Tn ω = (ω1 , . . . , ωn−1 , 1 − ωn , ωn+1 , . . . ) 3.4 , ω ∈ Ω, n ∈ N, 3.5 besitzen. Ein Satz von Vitali (1905) besagt, daß auf (Ω, Pot(Ω)) ein Wahrscheinlichkeitsmaß P mit den Eigenschaften (2.2) und (3.1) nicht existieren kann. 3.1.1. Allgemeine Vorgehensweise. Sei Ω ein gegebener Stichprobenraum und sei F∗ eine Familie von Ereignissen, die in einer speziellen Anwendungssituation wesentlich oder interessant erscheinen 3.6. Es gibt eine nichtleere Menge FF∗ von 3.1Ω ist die Menge aller {0, 1}-wertigen Folgen. 3.2 Das hier vorgestellte Modell kann auch angewandt werden in dem evtl. realistischeren Fall einer endlichen Anzahl von unabhängigen Würfen einer fairen Münze, wobei allerdings die genaue Anzahl der Würfe a priori nicht feststeht, sondern vom zufälligen Verlauf der Wurffolge abhängt. Ein mögliches zu behandelndes Problem wäre die Bestimmung der Verteilung des ersten Zeitpunkts, an dem zum zehnten Mal drei mal hintereinander Kopf geworfen worden ist. 3.3Es folgen nun Überlegungen zur Wahl von F. 3.4T ω ist eine Wurfsequenz, bei der im Vergleich zu ω beim n-ten Wurf das Ergebnis von 0 n nach 1, bzw. von 1 nach 0 geändert ist. 3.5 Vgl. [10], Satz (1.5). In Anhang A.3.1 findet sich ein Beweis. 3.6Im Rahmen von Beispiel 3.1 könnte F die Menge jener Ereignisse sein, die durch endlich ∗ viele Würfe der Münze bestimmt sind, und damit die Gestalt {ω ∈ Ω : ω1 ∈ B1 , . . . , ωn ∈ Bn } ⊆ Ω = {0, 1}N haben, wobei Bk ⊆ {0, 1}, k = 1, . . . , n, n ∈ N. 23 24 σ-Algebren, die F∗ enthalten (3.2) 3.7 , d.h., F ⊇ F∗ für alle F ∈ FF∗ . Nun ist \ F σ(F∗ ) = F∈FF∗ ebenfalls eine σ-Algebra 3.8, und zwar die kleinste“ in FF∗ . Sie wird als die von F∗ ” erzeugte σ-Algebra bezeichnet und ist die minimale Erweiterung von F∗ zu einer σ-Algebra. Es werden nun drei wichtige Spezialfälle beschrieben, in denen das hier beschriebene allgemeine Verfahren zur Konstruktion einer σ-Algebra konkretisiert wird. 3.1.2. Produkte meßbarer Räume. 3.9 Sei (Ωλ , Fλ ), λQ∈ Λ, eine Familie meßbarer Räume 3.10. Endlich-dimensionale Rechtecke in 3.11 λ∈Λ Ωλ sind Mengen der Gestalt 3.12 Y ω = (ωλ )λ∈Λ ∈ Ωλ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm , λ∈Λ {λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N. Sei R die Menge aller dieser endlich-dimensionalen Rechtecke. Die nun gemäß (3.2) N F wird als Produkt-σ-Algebra bezeichnet. konstruierte σ-Algebra σ(R) =: Nλ∈Λ λ Q nennt man das Produkt der meßbaren F Ω , Den meßbaren Raum λ∈Λ λ λ∈Λ λ Räume (Ωλ , Fλ ), λ ∈ Λ. Wenn Ωλ = Ω, Fλ = F für alle λ ∈ Λ, verwendet man auch die Notation (ΩΛ , F⊗Λ ) für diesen Produktraum 3.13. 3.1.3. Borelsche σ-Algebren. Sei (Ω, O) ein topologischer Raum 3.14. Die gemäß (3.2) konstruierte σ-Algebra σ(O) =: B(Ω) heißt Borelsche σ-Algebra in Ω. Sei O∗ ⊆ O, so daß jedes O ∈ O eine höchstens abzählbare Vereinigung von Mengen in O∗ ist. Dann gilt B(Ω) = σ(O∗ ) 3.15. 3.7Beispielsweise ist Pot(Ω) ∈ F . F∗ 3.8Der Durchschnitt von beliebig vielen σ-Algebren erfüllt (2.1), ist also ebenfalls eine σ- Algebra. Hingegen ist eine Vereinigung zweier σ-Algebren i. allg. keine σ-Algebra. 3.9Vgl. Fußnote 2.34. 3.10Λ ist eine beliebige, nichtleere Menge. 3.11Q λ∈Λ Ωλ = {ω = (ωλ )λ∈Λ : ωλ ∈ Ωλ , λ ∈ Λ} ist das kartesische Produkt der Mengen Ωλ , λ ∈ Λ. 3.12Vgl. Fußnote 3.6. Dort wird der Fall Ω = {0, 1}, F = Pot({0, 1}), λ ∈ Λ = N, betrachtet. λ λ 3.13Produkte meßbarer Räume wie z.B. ((Rd )[0,∞) , (B(Rd ))⊗[0,∞) ) finden bei der Untersuchung stochastischer Prozesse Verwendung, wenn (noch) keine Kenntnisse über Regularitätseigenschaften ihrer Pfade vorliegen. Derartige Produkträume sind Räume in denen alle Arten von Pfaden ω = (ωt )t≥0 = (ω(t))t≥0 enthalten sind. Für detaillierte Untersuchungen sind sie oft ungeeignet. Da beispielsweise die Menge {ω ∈ (Rd )[0,∞) : ω(t) = 0 für ein t ≥ 0} durch Eigenschaften in überabzählbar vielen Zeitpunkten beschrieben wird, gilt {ω ∈ (Rd )[0,∞) : ω(t) = 0 für ein t ≥ 0} ∈ / (B(Rd ))⊗[0,∞) . Damit z.B. die Menge stetiger Pfade mit einer Nullstelle meßbar wird, muß in (Rd )[0,∞) ein Teilraum mit einer geeigneten σ-Algebra als Pfadraum gewählt werden, vgl. dazu Beispiel 3.2 und auch Abschnitt 4.5.2 zur Konstruktion der Brownschen Bewegung. 3.14 Ein topologischer Raum besteht aus einer Menge Ω und einer Topologie O auf Ω. Hierbei ist O eine Familie von Teilmengen von Ω, die die Bedingungen [ Oi ∈ O, i ∈ I =⇒ Oi ∈ O, O1 , . . . , On ∈ O =⇒ i∈I n \ i=1 Oi ∈ O mit jeder beliebigen Menge I und n ∈ N erfüllt. Die Mengen O ∈ O werden offene Mengen genannt. Ein Beispiel eines topologischen Raums ist Rd mit den üblichen offenen Mengen, die sich als beliebige Vereinigungen von offenen Kugeln {x ∈ Rd : |x − a| < ε}, a ∈ Rd , ε > 0, ergeben. 3.15Da jede offene Menge in Rd schon als abzählbare Vereinigung offener Kugeln dargestellt werden kann, ist insbesondere B(Rd ) die kleinste σ-Algebra, die alle offenen Kugeln in Rd umfaßt. 22. Juli 2014 25 Beispiel 3.2. Für T > 0 und d = 1, 2, . . . sei C([0, T ]; Rd ) die Menge der stetigen Funktionen ω : [0, T ] → Rd . Mit der Metrik (3.3) ρ(ω, ω ′ ) = sup |ω(t) − ω ′ (t)|, t≤T ω, ω ′ ∈ C([0, T ]; Rd ), wird C([0, T ]; Rd ) zu einem metrischen und damit insbesondere zu einem topologischen Raum. Daher kann in C([0, T ]; Rd) die Borelsche σ-Algebra B(C([0, T ]; Rd )) eingeführt werden 3.16 Ein Beispiel einer Borelschen Menge in C([0, T ]; R) ist 3.17 (3.4) {ω ∈ C([0, T ]; R) : ω(t) = 0 für ein t ∈ [0, T ]} \ [ ω ∈ C([0, T ]; R) : ρ(ω, η) < q . = q∈Q,q>0 η∈PQ0 ([0,T ];R) Hier wird mit PQ0 ([0, T ]; R) die Menge aller R-wertigen Polynome mit rationalen Koeffizienten, die Nullstellen in [0, T ] besitzen, bezeichnet 3.18. 3.1.4. Durch Funktionen erzeugte σ-Algebren. Eine Menge Ω und einige Funktionen φ : Ω → R, φ ∈ Φ, seien gegeben. In einer Anwendung seien beispielsweise ω ∈ Ω mögliche elementare Zustände der Welt“, die durch Funktionen φ ∈ Φ auf ” Meßwerte“ in R abgebildet werden. Die einem Beobachter vorliegenden Meßwerte ” 3.19 seien zufällig“ . ” Bei der Bildung eines mathematischen Modells sollte daher Ω mit der Struktur eines Wahrscheinlichkeitsraums versehen werden. Insbesondere sollte eine σAlgebra F konstruiert werden, so daß φ : (Ω, F) → (R, B(R)) 3.20, φ ∈ Φ, meßbare Funktionen sind 3.21. Dieses Ziel wird erreicht mit F = σ(F∗ ) =: σ(Φ), wobei 3.22 F∗ = A ⊆ Ω : A = φ−1 (B) = {ω ∈ Ω : φ(ω) ∈ B}, φ ∈ Φ, B ∈ B(R) . σ(Φ) ist die kleinste σ-Algebra, so daß alle φ : (Ω, F) → (R, B(R)), φ ∈ Φ, meßbar sind. Man nennt σ(Φ) auch die durch die Abbildungen φ ∈ Φ erzeugte σ-Algebra. Beispiel 3.3. Sei X = (Xt )0≤t<∞ ein auf (Ω, F, P) definierter reellwertiger stochastischer Prozeß. Zu jedem Zeitpunkt t ≥ 0 kennzeichnen die Zufallsvariablen Xu , 0 ≤ u ≤ t, die Vergangenheit des Prozesses X. Die Gesamtheit der durch die Vergangenheit von X bestimmten Ereignisse kann dann durch die σ-Algebra FtX = σ(Xu , 0 ≤ u ≤ t) beschrieben werden 3.23. Da FsX ⊆ FtX ⊆ F, 0 ≤ s ≤ t < 3.16Der meßbare Raum (C([0, T ]; Rd ), B(C([0, T ]; Rd ))) findet bei der Untersuchung Rd - wertiger stochastischer Prozesse X = (Xt )t∈[0,T ] mit stetigen Pfaden Verwendung. Zur Konstruktion der Brownschen Bewegung wird beispielsweise in Abschnitt 4.5.2 mit dem Wienermaß ein Wahrscheinlichkeitsmaß auf (C([0, ∞); Rd ), B(C([0, ∞); Rd ))) eingeführt. Ein Vorschlag für eine (3.3) verallgemeinernde Metrik in jenem Raum C([0, ∞); Rd ) findet sich übrigens in Fußnote 4.342. 3.17Offensichtlich ist die Menge auf der rechten Seite von (3.4) ein abzählbarer Durchschnitt von abzählbaren Vereinigungen von offenen Mengen in C([0, T ]; R) und daher ein Element von B(C([0, T ]; R)). 3.18In (3.4) wird benutzt, daß in jeder Umgebung (bzgl. der Metrik ρ) von ω ′ ∈ {ω ∈ C([0, T ]; R) : ω(t) = 0 für ein t ∈ [0, T ]} ein η ∈ PQ0 ([0, T ]; R) liegt. 3.19Diese Meßwerte sind Bilder φ(ω ∗ ), φ ∈ Φ, eines dem Beobachter verborgenen Zustandes ω ∗ ∈ Ω. Der Beobachter kann die Meßwerte somit als zufällig“ interpretieren. 3.20Hier wird davon ausgegangen, daß B(R) die ” natürliche“ σ-Algebra in R ist. ” 3.21Wenn dann in einem weiteren Schritt der Modellbildung auf dem meßbaren Raum (Ω, F) ein Wahrscheinlichkeitsmaß P konstruiert worden ist, werden damit die Funktionen φ ∈ Φ zu Zufallsvariablen. 3.22F besteht aus den Urbildern von Borelschen Mengen in R unter den Abbildungen φ ∈ Φ. ∗ 3.23In Fußnote 2.73 werden die σ-Algebren F X , t ≥ 0, zur Formulierung der Markovt eigenschaft verwendet. Außerdem wird in Fußnote 2.74 mit diesen σ-Algebren die Martingaleigenschaft formuliert. 22. Juli 2014 26 ∞, ist (FtX )0≤t<∞ eine aufsteigende Familie von σ-Algebren, d.h., eine Filtration. (FtX )0≤t<∞ wird die vom stochastischen Prozeß X erzeugte Filtration genannt. 3.24. 3.2. Meßbare Funktionen. Zur Überprüfung der Meßbarkeit einer Abbildung φ ist oft die Verifizierung von (2.3) nicht möglich, da die σ-Algebren im Urbildraum und im Bildraum von φ zu komplexe Strukturen besitzen. Dann kann das folgende Resultat benutzt werden. Satz 3.4. 3.25 Seien (Ω, F) und (Ω′ , F′ ) meßbare Räume und sei φ : Ω → Ω′ eine Abbildung. Wenn F∗′ ⊆ F′ die σ-Algebra F′ erzeugt, d.h., wenn σ(F∗′ ) = F′ 3.26, und wenn (3.5) φ−1 (A′ ) = {ω ∈ Ω : φ(ω) ∈ A′ } ∈ F, so ist φ : (Ω, F) → (Ω′ , F′ ) meßbar A′ ∈ F∗′ , 3.27 . Beispiel 3.5. Seien (Ω, O) und (Ω′ , O′ ) topologische Räume und f : Ω → Ω′ eine stetige Funktion, d.h., f −1 (O′ ) = {ω ∈ Ω : f (ω) ∈ O′ } ∈ O, O′ ∈ O′ 3.28. Daher ist f : (Ω, B(Ω)) → (Ω′ , B(Ω′ )) meßbar 3.29. Beispiel 3.6. Die üblichen“ Kombinationen von meßbaren Funktionen sind im ” allgemeinen auch wieder meßbare Funktionen 3.30. • Seien f : (Ω, F) → (Ω′ , F′ ) und g : (Ω′ , F′ ) → (Ω′′ , F′′ ) meßbar. Dann ist g(f ) = g ◦ f : (Ω, F) → (Ω′′ , F′′ ) meßbar. • Seien fk : (Ω, F) → (R, B(R)), k = 1, . . . , n, und g : (Rn , B(Rn )) → (R, B(R)) meßbar. Dann ist g(f1 , . . . , fn ) : (Ω, F) → (R, B(R)) meßbar 3.31. • Seien fk : (Ω, F) → (R, B(R)), k ∈ N, meßbar 3.32. Dann sind inf k∈N fk , supk∈N fk , lim inf k→∞ fk , lim supk→∞ fk meßbare Funktionen mit Werten in (R, B(R)) 3.33 3.34. 3.24Ein Ausblick auf allgemeinere Filtrationen und ihre Anwendungen in der Wahrscheinlichkeitstheorie wird in Abschnitt 3.9 gegeben. 3.25Vgl. [7], Section 1.2, Theorem (2.1). 3.26Vgl. Abschnitt 3.1.1. 3.27Die Meßbarkeitsbedingung (2.3) muß also nur für die Mengen A′ ∈ F ′ geprüft werden. ∗ 3.28Die Stetigkeit einer Funktion ist dadurch definiert, daß das Urbild einer offenen Menge offen ist. Die Analogie zur Definition der Meßbarkeit einer Funktion, vgl. (2.3), ist offensichtlich. 3.29Dies folgt aus der Tatsache, daß B(Ω) = σ(O), B(Ω′ ) = σ(O′ ), vgl. Abschnitt 3.1.3, und aus Satz 3.4. 3.30 Vgl. [7], Section 1.2. 3.31Aufgrund von Beispiel 3.5 sind damit insbesondere auch Funktionen wie f + · · · + f , n 1 min{f1 , . . . , fn }, f1 · . . . · fn , . . . meßbar. 3.32Um Probleme mit der Konvergenz von Folgen von Funktionswerten gegen ±∞ zu umgehen, wird hier mit dem meßbaren Raum (R, B(R)) gearbeitet. Hierbei ist R = R ∪ {−∞, ∞} und B(R) = σ(B(R), {−∞}, {∞}), d.h., B(R) ist die kleinste σ-Algebra, die die Mengen {−∞}, {∞} und alle Borelschen Mengen B(R) enthält. 3.33Die Meßbarkeit von inf k∈N fk und supk∈N fkSfolgt aus {inf k∈N fk < a} = {ω ∈ Ω : S inf k∈N fk (ω) < a} = k∈N {ω ∈ Ω : fk (ω) < a} = k∈N {fk < a}, bzw. {supk∈N fk > b} = S k∈N {fk > b}, der Tatsache, daß σ({[−∞, a) : a ∈ (−∞, ∞)}) = σ({(b, ∞] : b ∈ (−∞, ∞)}) = B(R), und aus Satz 3.4. Aus diesen Beobachtungen und weil lim inf k→∞ fk = supn∈N inf k≥n fk , bzw. lim supk→∞ fk = inf n∈N supk≥n fk , folgt auch die Meßbarkeit der (R, B(R))-wertigen Funktionen lim inf k→∞ fk und lim supk→∞ fk . 3.34 Für meßbare Funktionen fk : (Ω, F) → (R, B(R)), k ∈ N, sind beispielsweise die Funktionen IR (inf k∈N fk ) inf k∈N fk , IR (supk∈N fk ) supk∈N fk , IR (lim inf k→∞ fk ) lim inf k→∞ fk und auch IR (lim supk→∞ fk ) lim supk→∞ fk meßbar mit Werten in (R, B(R)). 22. Juli 2014 27 Sei φ : (Ω, F) → (Ω′ , F′ ) meßbar. Um die spezielle in Ω verwendete σ-Algebra F hervorzuheben, nennt man φ auch F-meßbar oder meßbar bzgl. F 3.35. Wenn außerdem auf die σ-Algebra F′ im Bildraum Ω′ hingewiesen werden soll, wird die Bezeichnung F-F′ -Meßbarkeit benutzt. 3.3. Konstruktion von Wahrscheinlichkeitsmaßen. Typischerweise werden in Anwendungen der Wahrscheinlichkeitstheorie anfangs nicht für alle Elemente einer σ-Algebra F sondern nur für eine Teilmenge gut beschreibbarer“ Ereignisse ” Wahrscheinlichkeiten angegeben. Beispiel 3.7. Bei der Konstruktion von Wahrscheinlichkeitsmaßen Q Nauf den meßbaren Räumen (Rd , B(Rd )), d ≥ 1, bzw. auf Produkten λ∈Λ Ωλ , λ∈Λ Fλ meßbarer Räume 3.36 werden beispielsweise meistens zunächst die Wahrscheinlichkeiten von halboffenen Rechtecken 3.37 (3.6a) (a1 , b1 ] × · · · × (ad , bd ], −∞ ≤ ak < bk ≤ ∞, k = 1, . . . , d, bzw. von endlich-dimensionalen Rechtecken Y ω = (ωλ )λ∈Λ ∈ (3.6b) Ωλ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm , λ∈Λ {λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N, spezifiziert. Bei der Erweiterung einer Zuordnung von Wahrscheinlichkeiten für Mengen wie in (3.6a), bzw.N(3.6b), zu einem Wahrscheinlichkeitsmaß auf der gesamten σ-Algebra B(Rd ), bzw. λ∈Λ Fλ , ist der folgende Satz 3.8 ein wesentliches Hilfsmittel 3.38. 3.3.1. Allgemeine Vorgehensweise. Familien von Mengen wie in (3.6a), Q bzw. in (3.6b), bilden jeweils eine Semialgebra von Teilmengen in Rd , bzw. in λ∈Λ Ωλ . Eine nichtleere Familie S von Teilmengen einer Menge Ω heißt hierbei Semialgebra, wenn A, B ∈ S (3.7a) (3.7b) A ∈ S =⇒ Ω\A = m [ i=1 =⇒ A ∩ B ∈ S, Bi für ein m ∈ N und disjunkte B1 , . . . , Bm ∈ S. Eine auf den Elementen einer Semialgebra S definierte Zuordnung von Wahrscheinlichkeiten kann unter gewissen Bedingungen in eindeutiger Weise zu einem Wahrscheinlichkeitsmaß auf der von S erzeugten σ-Algebra σ(S) erweitert werden. Satz 3.8. 3.39 Sei Ω eine Menge und S eine Semialgebra von Teilmengen von Ω mit ∅, Ω ∈ S. Sei weiterhin eine Abbildung P∗ : S → [0, 1] gegeben mit (3.8a) P∗ [∅] = 0, P∗ [Ω] = 1, 3.35In manchen Anwendungen sind in Ω verschiedene σ-Algebren, die unterschiedliche Klassen von Ereignissen zusammenfassen, gegeben. Im Zusammenhang mit zufälligen Zeitentwicklungen werden beispielsweise Filtrationen benutzt, vgl. Beispiel 3.3 und Abschnitt 3.9. 3.36Vgl. Abschnitt 3.1.2. 3.37Falls b = ∞, ist (a , b ] durch (a , b ) zu ersetzen. k k k k k 3.38Zunächst ist natürlich überhaupt nicht klar, ob die hier angesprochene Erweiterung überhaupt existiert, bzw. eindeutig ist. 3.39Satz 3.8 ist eine Zusammenfassung von Theorem (1.1), d.h., dem Satz von Carathéodory, und Theorem (1.3) in [7], Appendix A.1. Es sei bemerkt, daß analog zu Satz 3.8 der Satz von Carathéodory die Frage diskutiert, wann eine auf einer Algebra A ⊆ Pot(Ω), vgl. Fußnote 2.7, definierte [0, 1]-wertige Abbildung auf eindeutige Weise zu einem Wahrscheinlichkeitsmaß auf σ(A) fortgesetzt werden kann. 22. Juli 2014 28 (3.8b) P∗ "m [ i=1 # Ai = m X i=1 P∗ [Ai ], A1 , . . . , Am , (3.8c) P∗ "∞ [ i=1 # Ai ≤ m [ i=1 ∞ X i=1 Ai ∈ S, Ai ∩Aj = ∅, i, j = 1, . . . , m, i 6= j, m ∈ N, P∗ [Ai ], A1 , A2 , . . . , ∞ [ i=1 Ai ∈ S, Ai ∩ Aj = ∅, i, j = 1, 2, . . . , i 6= j. Dann läßt sich P∗ auf eine eindeutige Weise zu einem Wahrscheinlichkeitsmaß P auf der von S erzeugten σ-Algebra σ(S) erweitern 3.40. In den Situationen der folgenden Abschnitte 3.3.2 - 3.3.4 kann Satz 3.8 angewandt werden, um die eindeutige Existenz eines Wahrscheinlichkeitsmaßes mit einer vorgegebenen Einschränkung auf Mengen wie in (3.6) sicherzustellen 3.41. 3.3.2. Lebesguemaß auf (0, 1]d . Für Mengen der Gestalt (3.6a) mit 0 ≤ ak < bk ≤ 1, k = 1, . . . , d, sei 3.42 d Y (bk − ak ), λ∗ (a1 , b1 ] × · · · × (ad , bd ] = k=1 0 ≤ ak < bk ≤ 1, k = 1, . . . , d. λ∗ kann mit Hilfe von Satz 3.8 zu dem Lebesguemaß λ auf ((0, 1]d , B((0, 1]d )) erweitert werden 3.43. 3.3.3. Wahrscheinlichkeitsmaße mit einer Dichte auf Rd . Es sei eine Funktion R d f ∈ Cb (R ; [0, ∞)) mit Rd dx f (x) = 1 3.44 gegeben. Sei Z bd Z b1 (3.9) dxd f (x1 , . . . , xd ), dx1 . . . P∗,f (a1 , b1 ] × · · · × (ad , bd ] = a1 ad − ∞ ≤ ak < bk ≤ ∞, k = 1, . . . , d. Unter Zuhilfenahme von Satz 3.8 kann P∗,f auf eindeutige Weise zu einem Wahrscheinlichkeitsmaß auf (Rd , B(Rd )) fortgesetzt werden 3.45 3.46. 3.40Satz 3.8 ist insbesondere ein Existenzresultat. Ein schon in Abschnitt 2.2.1 angesprochenes Eindeutigkeitsresultat, vgl. [10], Satz (1.12), besagt, daß ein Wahrscheinlichkeitsmaß P auf einem meßbaren Raum (Ω, F) durch seine Einschränkung auf ein Erzeugendensystem A von F, d.h. eine Menge A ⊆ F mit F = σ(A), eindeutig bestimmt ist, sobald A durchschnittsstabil ist. 3.41 In allen Fällen wird (3.8a) offensichtlich gültig sein. Für die detaillierten Berechnungen zur Verifizierung von (3.8b) und insbesondere von (3.8c) sei auf die entsprechende Literatur, z.B. [7], Appendices A.1, A.6 und A.7, verwiesen. 3.42Für d-dimensionale Rechtecke R in (0, 1]d gibt λ (R) das Volumen an. ∗ 3.43Vgl. [7], Appendix A.1, Theorem (1.6). Für den hier vorliegenden Fall ist F (x) = Qd d k=1 Fk (xk ), x = (x1 , . . . , xd ) ∈ R , mit 0, falls y < 0, Fk (y) = y, falls 0 ≤ y < 1, k = 1, . . . , d, 1, falls y ≥ 1, zu verwenden. 3.44Da f stetig ist, können dieses und auch die Integrale in (3.9) als Riemann-Integrale aufgefaßt werden. 3.45Insbesondere ist dann R dx f (x) für alle A ∈ B(Rd ) wohldefiniert. Für hinreichend A irreguläre A ∈ B(Rd ) brauchen diese Integrale nicht als Riemann-Integrale zu existieren. 3.46 Zur Integration beliebiger meßbarer reellwertiger Funktionen f auf (Rd , B(Rd )) und damit insbesondere zur Definition von Wahrscheinlichkeitsmaßen auf Rd mit beliebigen meßbaren Dichten f bzgl. des Lebesguemaßes auf (Rd , B(Rd )) kann nach der Einführung des Lebesguemaßes 22. Juli 2014 29 3.3.4. Produkte von Wahrscheinlichkeitsräumen. 3.47 Sei (Ωλ , Fλ , Pλ ), λ ∈ Λ, eine Familie von Wahrscheinlichkeitsräumen. Sei weiterhin Y m Y (3.10) P∗ ω = (ωλ )λ∈Λ ∈ = Pλk [Aλk ], Ωλ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm k=1 λ∈Λ {λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N. N Mit Satz 3.8 kann die eindeutige Existenz einer Fortsetzung λ∈Λ Pλ von P∗ N Q auf den meßbaren RaumN3.48 ( λ∈Λ Ωλ , λ∈Λ Fλ ) nachgewiesen werden. Dieses Wahrscheinlichkeitsmaß λ wird Produktmaß genannt. Der WahrscheinlichQ N λ∈Λ P N keitsraum ( λ∈Λ Ωλ , λ∈Λ Fλ , λ∈Λ Pλ ) ist das Produkt der Wahrscheinlichkeitsräume (Ωλ , Fλ , Pλ ), λ ∈ Λ. Wenn Ωλ = Ω, Fλ = F, Pλ = P für alle λ ∈ Λ, verwendet man auch die Notation (ΩΛ , F⊗Λ , P⊗Λ ) für diesen Produktraum. Beispiel 3.9. Eine Folge unabhängiger, identisch verteilter, reellwertiger Zufallsvariablen Xn , n ∈ N, wobei PX1 = µ 3.49 sei, ist zu konstruieren 3.50. Insbesondere sind ein Wahrscheinlichkeitsraum (Ω, F, P) und Zufallsvariablen Xn : (Ω, F, P) → (R, B(R)), n ∈ N, anzugeben, so daß für die Folge Xn , n ∈ N, die Beziehungen m Y (3.11) µ(Akl ), P[Xk1 ∈ Ak1 , . . . , Xkm ∈ Akm ] = l=1 {k1 , . . . , km } ⊆ N, Ak1 , . . . , Akm ∈ B(R), m ∈ N, gelten. Diese Konstruktionsaufgabe wird beispielsweise gelöst durch ∞ Y (3.12) Ω= R = RN , F= k=1 ∞ O 3.51 B(R) = B(R)⊗N , k=1 P= ∞ O µ = µ⊗N , k=1 wie in den Abschnitten 3.3.2 und 3.3.3 eine Approximationsmethode wie z.B. in Abschnitt 3.6.2 angewandt werden. 3.47 Vgl. dazu [7], Appendices A.6 und A.7, und [3], §9. Produkte von Wahrscheinlichkeitsräumen werden auch in Fußnote 2.45 angesprochen. 3.48Dieser meßbare Raum wird in Abschnitt 3.1.2 eingeführt. 3.49P X1 ist die Verteilung von X1 , vgl. Abschnitt 2.2.1. µ ist ein gegebenes Wahrscheinlichkeitsmaß auf (R, B(R)). 3.50 Diese Konstruktionsaufgabe ist zu lösen, weil man auch in der Wahrscheinlichkeitstheorie sicher sein muß, daß man sich mit real existierenden“ Objekten beschäftigt. In Anwendungen, ” in denen unabhängige, identisch verteilte, reellwertige Zufallsvariablen eine Rolle spielen, kann man sich dann auf deren eigentliche Untersuchung konzentrieren. Derartige Anwendungen sind beispielsweise das Gesetz der großen Zahlen oder der Zentrale Grenzwertsatz in ihren einfachsten Varianten, vgl. Abschnitte 4.1 und 4.2. 3.51Bei der Verifizierung von (3.11) ist P[Xk1 ∈ Ak1 , . . . , Xkm ∈ Akm ] = P[{ω ∈ Ω : Xk1 (ω) ∈ Ak1 , . . . , Xkm (ω) ∈ Akm }] = µ⊗N {ω ∈ Ω : ωk1 ∈ Ak1 , . . . , ωkm ∈ Akm } (nach Definition von P und Xn , n ∈ N, in (3.12)) = m Y µ(Akl ) l=1 (nach Definition von µ⊗N , vgl. (3.10)) zu beachten. 22. Juli 2014 30 Xn (ω) = ωn , ω = (ωk )k∈N ∈ Ω, n ∈ N. 3.4. Eigenschaften von Wahrscheinlichkeitsmaßen. Zunächst werden einige Eigenschaften vorgestellt, durch die sich einzelne Wahrscheinlichkeitsmaße auszeichnen. Beziehungen zwischen verschiedenen, auf demselben meßbaren Raum definierten Wahrscheinlichkeitsmaßen werden anschließend betrachtet. 3.4.1. Charakterisierung allgemeiner Wahrscheinlichkeitsmaße. Einige elementare, aber grundlegende Eigenschaften von Wahrscheinlichkeitsmaßen folgen direkt aus den Bedingungen (2.2). Satz 3.10. 3.52 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A, B, A1 , A2 , · · · ∈ F. Dann gilt: (1) P[∅] = 0. (2) Endliche Additivität: P[A ∪ B] = P[A] + P[B] − P[A ∩ B]. (3) Monotonie: A ⊆ B S =⇒ P[A] P[B]. ≤P ∞ ∞ (4) σ-Subadditivität: P k=1 Ak ≤ k=1 P[Ak ]. (5) σ-Stetigkeit von unten: Ak ր A 3.53 =⇒ P[Ak ] ր P[A] 3.54. (6) σ-Stetigkeit von oben: Ak ց A 3.55 =⇒ P[Ak ] ց P[A] 3.56. 3.4.2. Beziehungen zwischen verschiedenen Wahrscheinlichkeitsmaßen auf einem meßbaren Raum. Sei ein meßbarer Raum (Ω, F) gegeben. Zwei Wahrscheinlichkeitsmaße P und Q auf (Ω, F) unterscheiden sich gravierend“, wenn sie auf ” verschiedenen Bereichen“ von (Ω, F) konzentriert sind, d.h., wenn ein A ∈ F exi” 3.57 stiert mit P[A] = 1 = Q[Ω\ A] . Man bezeichnet dann P und Q als (zueinander) singulär oder orthogonal und schreibt P ⊥ Q 3.58. Im Gegensatz dazu ist ein Wahrscheinlichkeitsmaß P zu einem gewissen Grad“ ” durch ein Wahrscheinlichkeitsmaß Q bestimmt, wenn für alle A ∈ F die Bedingung Q[A] = 0 zu P[A] = 0 führt. In diesem Fall nennt man P absolutstetig bzgl. Q und schreibt P ≪ Q 3.59. 3.52Vgl. [10], Satz (1.11). 3.53D.h., A ⊆ A ⊆ . . . und A = S∞ A . 1 2 k=1 k 3.54 Diese Beziehung ergibt sich beispielsweise aus # "∞ ∞ X [ P[Al \ Al−1 ] (Al \ Al−1 ) = P[A] = P l=1 l=1 = lim k→∞ k X l=1 " P[Al \ Al−1 ] = lim P k→∞ k [ # (Al \ Al−1 ) = lim P[Ak ]. l=1 k→∞ Hierbei wurde A0 = ∅ gesetzt und die σ-Additivität (2.2b) und die endliche Additivität benutzt. Weiterhin wurde beachtet, daß die Ereignisse Al \ Al−1 , l = 1, 2, . . . , disjunkt sind. 3.55D.h., A ⊇ A ⊇ . . . und A = T∞ A . 1 2 k=1 k 3.56 Mit Hilfe der in diesem Satz genannten Eigenschaften können z.B. auch die in Fußnote 2.32 aufgeführten Eigenschaften der Verteilungsfunktion FX einer reellwertigen Zufallsvariablen X bewiesen werden. Sei z.B. für ein x ∈ R durch xn , n ∈ N, eine monoton fallende Folge mit lim T∞n→∞ xn = x gegeben. Sei dann Cn = {X ≤ xn }, n ∈ N. Da C1 ⊇ C2 ⊇ . . . und Ck ց C = k=1 Ck = {X ≤ x} folgt lim FX (xk ) = lim P[Ck ] = P[C] = FX (x), k→∞ k→∞ falls die σ-Setigkeit von oben von P berücksichtigt wird. Damit ist die Rechtsstetigkeit von FX in x nachgewiesen. 3.57In diesem Fall gilt auch P[Ω \ A] = 0 = Q[A]. 3.58Ein diskretes Wahrscheinlichkeitsmaß P auf (R, B(R)) und ein Wahrscheinlichkeitsmaß Q auf (R, B(R)) mit einer Dichte f bzgl. des Lebesguemaßes sind zueinander singulär. Dies folgt aus der Tatsache,R daß es eine abzählbare Menge A = {an : n ∈ N} ⊂ R mit P[A] = 1 gibt und daß andererseits B dx f (x) = 0 für alle abzählbaren Mengen B ⊂ R. 3.59Jedes Wahrscheinlichkeitsmaß auf (R, B(R)) mit einer Dichte bzgl. des Lebesguemaßes ist absolutstetig bzgl. einer Normalverteilung N(µ, σ2 ), µ ∈ R, σ2 > 0. 22. Juli 2014 31 Bei zwei gegebenen Wahrscheinlichkeitsmaßen P und Q kann obigen Definitionen folgend geprüft werden, inwieweit P sich unterschiedlich zu Q verhält, bzw. ” in welchem Umfang P durch Q bestimmt ist“. Satz 3.11 (Lebesguesche Zerlegung und Satz von Radon-Nikodým). 3.60 Seien P und Q Wahrscheinlichkeitsmaße auf einem meßbaren Raum (Ω, F). Dann gibt es ein α ∈ [0, 1] und zwei Wahrscheinlichkeitsmaße Pa und Ps , so daß (3.12.a.∗) Pa ≪ Q, Ps ⊥ Q und 3.61 P = αPa + (1 − α)Ps . Weiterhin existiert eine meßbare, Q-f.s. eindeutige Funktion f : (Ω, F) → ([0, ∞), B([0, ∞))) mit 3.62 Z f (ω)Q(dω), A ∈ F. (3.12.b.∗) Pa [A] = A Die Funktion f =: dPa /dQ wird als die Radon-Nikodým-Dichte von Pa bzgl. Q bezeichnet 3.63. 3.5. Konvergenzbegriffe. In der Wahrscheinlichkeitstheorie werden etliche unterschiedlich starke“ Konvergenzbegriffe verwendet. In den folgenden Abschnit” ten 3.5.1 - 3.5.4 werden die wichtigsten beschrieben 3.64. 3.5.1. Stochastische Konvergenz. 3.65 Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N, konvergiert stochastisch oder in Wahrscheinlichkeit gegen X, wenn 3.66 lim P[|Xn − X| > ǫ] = 0, n→∞ ǫ > 0. P Man schreibt dann auch 3.67 Xn → X. 3.5.2. Fast-sichere Konvergenz. 3.68 Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N, konvergiert fast sicher (f.s.) gegen X, wenn 3.69 hn oi P ω ∈ Ω : lim Xn (ω) = X(ω) = 1. n→∞ 3.60Vgl. [18], Theorem 2.10. Dort wird Satz 3.11 für σ-endliche Maße, vgl. Fußnote 2.9, vorgestellt. Üblicherweise wird der erste Teil von Satz 3.11, vgl. (3.12.a.∗), als Lebesguesche Zerlegung bezeichnet, während der zweite Teil, vgl. (3.12.b.∗), Satz von Radon-Nikodým heißt. 3.61P ist eine konvexe Kombination von P und P . a s 3.62R f (ω)Q(dω) ist das Integral der meßbaren Funktion I f : (Ω, F) → (R, B(R)) bzgl. des A A Wahrscheinlichkeitsmaßes Q. Derartige Integrale, bzw. Erwartungswerte wurden in Abschnitt 2.3 erstmals vorgestellt und werden in den Abschnitten 3.6.1 und 3.6.2 detaillierter diskutiert, vgl. insbesondere auch (3.21). 3.63Seien P und Q Wahrscheinlichkeitsmaße auf (R, B(R)) mit den Dichten f und g bzgl. des Lebesguemaßes, wobei die Dichte g von Q strikt positiv sei. Dann ist P ≪ Q und dP/dQ = f /g. 3.64 Eine ausführlichere Diskussion der verschiedenen Konvergenzbegriffe ist in [18], Chapter 4, und in [12], Section 7.2, enthalten. 3.65 Dieser Konvergenzbegriff wird z.B. beim schwachen Gesetz der großen Zahlen benutzt, vgl. Satz 4.1. 3.66Offensichtlich läßt sich dieser Konvergenzbegriff unmittelbar auf Folgen von Zufallsvariablen mit Werten in einem metrischen Raum verallgemeinern. 3.67Diese Notation erinnert an die englische Bezeichnung Convergence in Probability“. 3.68Dieser Konvergenzbegriff tritt u.a. beim starken Gesetz”der großen Zahlen in Erscheinung, vgl. Satz 4.5. 3.69Die Menge {ω ∈ Ω : lim n→∞ Xn (ω) = X(ω)} = A ist meßbar, d.h., P[{ω ∈ Ω : limn→∞ Xn (ω) = X(ω)}] ist wohldefiniert. Die Meßbarkeit von A folgt aus der Darstellung A = {lim supn→∞ Xn − lim inf n→∞ Xn = 0} ∩ {X − lim supn→∞ Xn = 0}, Beispiel 3.6 und {0} ∈ B(R). Insbesondere konvergieren reellwertige Zufallsvariablen Xn , n ∈ N, f.s. (gegen irgendeine Zufallsvariable), wenn P[lim supn→∞ Xn − lim inf n→∞ Xn = 0] = 1. 22. Juli 2014 32 f.s. Man schreibt dann auch Xn → X, f.s., oder Xn → X 3.70 . Beispiel 3.12. Sei (Ω, F, P) = ([0, 1), B([0, 1)), λ), wobei λ das Lebesguemaß auf [0, 1) bezeichnet. Sei Xk (ω) = I[m2−n ,(m+1)2−n ) (ω), ω ∈ [0, 1), falls k = 2n + m mit m = 0, 1, . . . , 2n − 1 und n ∈ N0 . Der Graph dieser Zufallsvariablen ist eine Recht” ecksfunktion“, die mit wachsendem n immer enger“ wird und mit steigendem m ” von 0 nach rechts“ gegen 1 wandert und dann wieder nach 0 zurückspringt. Die ” Folge Xn , n ∈ N, konvergiert stochastisch 3.71 aber nicht f.s. 3.72 gegen 0. Satz 3.13. 3.73 Eine f.s. gegen eine Zufallsvariable X konvergente Folge von Zufallsvariablen Xn , n ∈ N, konvergiert auch stochastisch gegen X. Umgekehrt existiert zu einer stochastisch gegen eine Zufallsvariable X konvergierenden Folge Xn , n ∈ N, von Zufallsvariablen eine Teilfolge Xnk , k ∈ N, die f.s. gegen X konvergiert. 3.5.3. Konvergenz in Verteilung. 3.74 Die in den Abschnitten 3.5.1 und 3.5.2 vorgestellten Konvergenzbegriffe beziehen sich auf Zufallsvariablen Xn , n ∈ N, die alle auf dem gleichen Wahrscheinlichkeitsraum (Ω, F, P) definiert sind. Wenn die Zufallsvariablen Xn , n ∈ N, verschiedene Wahrscheinlichkeitsräume als Definitionsbereiche besitzen, ist das Konzept der Konvergenz in Verteilung nützlich. Für n ∈ N sei Xn eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ωn , Fn , Pn ). Die Folge Xn , n ∈ N, konvergiert in Verteilung gegen eine Zufallsvariable X, wenn 3.75 3.76 lim E[h(Xn )] = E[h(X)], n→∞ Man schreibt dann auch 3.77 h ∈ Cb (R). d Xn → X. 3.70Wie durch die beiden folgenden Resultate belegt wird, ist im Vergleich zum stochastischen der fast-sichere Konvergenzbegriff der stärkere. Damit sind die Bezeichnungen schwaches, bzw. starkes Gesetz der großen Zahlen gerechtfertigt, vgl. Fußnoten 3.65 und 3.68. 3.71λ[{ω ∈ [0, 1) : |X (ω)| > ǫ}] = 2−n , falls k = 2n + m mit m = 0, 1, . . . , 2n − 1 und k ǫ ∈ (0, 1). 3.72 Zu einem festen ω ∈ [0, 1) gibt es beliebig große k, so daß Xk (ω) = 1, nämlich k = 2n + ⌊ω2n ⌋, n ∈ N. Ebenso ist Xk (ω) = 0 für beliebig große k. 3.73 Vgl. [18], Lemma 4.2. Ein Beweis dafür, daß die stochastische Konvergenz eine Folge der fast-sicheren Konvergenz ist, ist in Anhang A.3.2 zu finden. Der Nachweis, daß eine stochastisch konvergente Folge von Zufallsvariablen eine fast-sicher konvergente Teilfolge besitzt, wird mit Hilfe des Lemmas von Borel-Cantelli, vgl. Satz 5.1, in Anhang A.5.1 geführt. 3.74Dieser Konvergenzbegriff findet z.B. beim Zentralen Grenzwertsatz Verwendung, vgl. Satz 4.10. 3.75Offensichtlich kann diese Definition unverändert auf Folgen X , n ∈ N, von Zufallsvarian blen mit Werten in einem topologischen Raum (O, O), vgl. Fußnote 3.14, übertragen werden. Dann werden beschränkte, stetige, reellwertige Funktionen h ∈ Cb (O) als Testfunktionen verwendet. 3.76 Der Erwartungswert E[ . ], der im Rest dieses Abschnitts 3.5 mehrmals benutzt werden wird, wurde auf einem elementaren Niveau in Abschnitt 2.3 eingeführt. Eine ausführlichere Diskussion folgt in Abschnitt 3.6. 3.77Diese Notation erinnert an Convergence in Distribution“. ” 22. Juli 2014 33 Zur Verifizierung dieser Konvergenz kann in speziellen Fällen der folgende Satz 3.14 verwendet werden. In diesem Resultat werden insbesondere auch charakteristische Funktionen ψY reellwertiger Zufallsvariablen Y benutzt 3.78 3.79. Satz 3.14. 3.80 Für reellwertige Zufallsvariablen X, Xn , n ∈ N, sind die folgenden Aussagen äquivalent: (1) (2) (3) (4) d Xn → X. limn→∞ PXn [A] = PX [A], A ∈ B(R), PX [∂A] = 0 3.81 limn→∞ FXn (y) = FX (y), y ∈ R, FX stetig in y 3.83. limn→∞ ψXn (y) = ψX (y), y ∈ R. 3.82 . Das nächste Resultat ergänzt Satz 3.13 bei der Verdeutlichung der Zusammenhänge zwischen den verschiedenen Konvergenzbegriffen. Satz 3.15. 3.84 Eine stochastisch gegen eine Zufallsvariable X konvergente Folge von Zufallsvariablen Xn , n ∈ N, konvergiert auch in Verteilung gegen X. Satz 3.13 und Satz 3.15 lassen sich zusammenfassen in (3.13) f.s. Xn → X P Xn → X =⇒ d Xn → X. =⇒ Es ist bemerkenswert, daß (3.13) umkehrbar ist, falls man bereit ist, seine mathematischen Überlegungen in einen anderen Wahrscheinlichkeitsraum zu verlegen. Satz 3.16 (Skorohod). 3.86 blen d 3.85 Seien Xn , n ∈ N, und X reellwertige Zufallsvaria- e P) e F, e und mit Xn → X. Dann gibt es einen Wahrscheinlichkeitsraum (Ω, 3.78Für eine reellwertige Zufallsvariable Y ist ihre charakteristische Funktion ψ : R → C Y durch ψY (z) = E[exp(izY )], z ∈ R, definiert. Wenn die Verteilung PY der Zufallsvariable Y eine Dichte f bzgl. des Lebesguemaßes besitzt, so hat ψY die Darstellung ψY (z) = Z dx exp(izx)f (x), R z ∈ R. Die charakteristische Funktion entspricht somit der Fouriertransformierten. Ausführlicher werden charakteristische Funktionen z.B. in Anhang A.4.1 oder in [12], Sections 5.7 - 5.9, besprochen. 3.79 In Anhang A.4.2 treten charakteristische Funktionen als wesentliches Hilfsmittel beim Beweis des Zentralen Grenzwertsatzes 4.10 in Erscheinung. Insbesondere wird die Äquivalenz zwischen (1) und (4) in Satz 3.14 verwendet. 3.80 Vgl. [12], Section 5.9, Theorem (5), und [18], Theorem 4.25. 3.81∂A = A ∩ (R \ A) ist der Rand der Menge A. Durch P [∂A] = 0 wird gefordert, daß f.s. X die Zufallsvariable X keine Werte in ∂A annimmt. 3.82 Die Einschränkung PX [∂A] = 0 wird plausibel, falls z.B. X(ω) = 0 und Xn (ω) = 1/n, d n ∈ N, für alle ω ∈ Ω. Da limn→∞ h(1/n) = h(0), h ∈ Cb (R), ist Xn → X. Weiterhin sitzt in 0 ein Atom von PX und es gilt limn→∞ PXn [(0, a]] = 1 6= 0 = PX [(0, a]], a > 0. 3.83F ist die Verteilungsfunktion der Zufallsvariablen Y , vgl. Abschnitt 2.2.1. Y 3.84Vgl. [18], Lemma 4.7. 3.85Vgl. [16], Chapter I, Theorem 2.7. 3.86Die Wahrscheinlichkeitsräume, auf denen diese Zufallsvariablen definiert sind, sind zunächst irrelevant. 22. Juli 2014 34 e P) en , n ∈ N, und X e auf (Ω, e F, e mit P e = PXn , reellwertige Zufallsvariablen X Xn f.s. e 3.88 3.89. en → X n ∈ N, und P e = PX 3.87, so daß X X 3.5.4. Konvergenz im p-ten Mittel, p ∈ [1, ∞). Sei p ∈ [1, ∞). Außerdem seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P), wobei E[|Xn |p ] < ∞, n ∈ N 3.90. Die Folge Xn , n ∈ N, konvergiert im p-ten Mittel oder in Lp 3.91 gegen X, wenn lim E[|Xn − X|p ] = 0. n→∞ Lp Man schreibt dann auch Xn → X 3.92. Insbesondere zu einer genaueren Charakterisierung der Konvergenz im p-ten Mittel für p ∈ [1, ∞) ist der folgende Integrabilitätsbegriff hilfreich. 3.87X en , n ∈ N, und X e haben die gleiche Verteilung wie Xn , n ∈ N, bzw. X. 3.88In [16] wird Satz 3.16 für Zufallsvariablen mit Werten in einem vollständigen, separablen metrischen Raum (S, m) formuliert. Diese Verallgemeinerung kann z.B. bei der Untersuchung ei(n) ner Folge reellwertiger, stetiger stochastischer Prozesse X(n) = (Xt )t∈[0,T ] , n ∈ N, in einem Zeitintervall [0, T ] angewandt werden, da derartige stochastische Prozesse auch als Zufallsvariablen mit Werten in dem metrischen Raum (C([0, T ]; R), ρ), der in Beispiel 3.2 vorgestellt wurde, betrachtet werden können. Insbesondere kann die Konvergenz von X(n) in Verteilung mit einem geeigneten Wahrscheinlichkeitsraum als fast-sicher gleichmäßige Konvergenz der Pfade“ realisiert ” werden. 3.89 Satz 3.16 besagt keineswegs, daß sich (3.13) völlig bedenkenlos umkehren läßt. Beispielsweise sind zunächst folgende Argumente korrekt: (A) Seien X und Xn , n ∈ N, unabhängige, identisch verteilte Zufallsvariablen auf einem d Wahrscheinlichkeitsraum (Ω, F, P). Offensichtlich gilt Xn → X. Nach Satz 3.16 gibt es e P) e F, e und darauf definierte Zufallsvariablen daher einen Wahrscheinlichkeitsraum (Ω, e und X en , n ∈ N, die alle die Verteilung PX besitzen, mit X en f.s. e X → X. Offensichtlich wäre aber die Folgerung, (B) unabhängige, identisch verteilte Zufallsvariablen Xn , n ∈ N, sind f.s. konvergent, sobald e P) e definiert, e F, man sie auf einem geeigneten Wahrscheinlichkeitsraum (Ω, e P) e F, e die Zuunsinnig. In (B) wird nicht berücksichtigt, daß in (A) nach dem Übergang zu (Ω, en , n ∈ N, nur dann noch unabhängig sein können, wenn sie f.s. konstant sind. fallsvariablen X en , n ∈ N, auch f.s. konvergent sind, In der Tat, wenn reellwertige, i.i.d. Zufallsvariablen X ergeben formale Überlegungen, daß e1 ∈ A] = P[X ek ∈ A] P[X ek ∈ A, X em ∈ A] ≃ P[X ek ∈ A]P[X em ∈ A] = P[X e1 ∈ A]2 , = P[X en , n ∈ N, konvergent ist) (für k, m hinreichend groß, da X ek und X em unabhängig sind) (da X A ⊆ R offen. e1 ∈ A] = 0 oder 1 folgt, zeigt sich, daß X e1 , X e2 , . . . fast-sicher Da für alle offenen A ⊆ R hieraus P[X konstant sind. 3.90E[|X |p ] < ∞, n ∈ N, besagt, daß X ∈ Lp (Ω, F, P), n ∈ N, wobei Lp (Ω, F, P) der n n Banachraum der p-fach integrierbaren, reellwertigen Funktionen auf (Ω, F, P) ist. 3.91Der zugrundeliegende Wahrscheinlichkeitsraum (Ω, F, P) wird als bekannt oder irrelevant vorausgesetzt und anstelle von Lp (Ω, F, P) nur von Lp gesprochen. 3.92Im Fall dieser Konvergenz ist neben den Zufallsvariablen X , n ∈ N, auch der Limes n X ∈ Lp (Ω, F, P), d.h., E[|X|p ] < ∞, vgl. Fußnote 3.90. 22. Juli 2014 35 Eine Familie 3.93 Yλ , λ ∈ Λ, reellwertiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) heißt gleichgradig integrierbar, wenn 3.94 3.95 lim sup E[|Yλ |I{|Yλ |≥M} ] = 0. M→∞ λ∈Λ Satz 3.17. 3.96 Sei p ∈ [1, ∞). Eine stochastisch gegen eine Zufallsvariable X konvergente Folge von reellwertigen Zufallsvariablen Xn , n ∈ N, auf einem Wahrscheinlichkeitsraum (Ω, F, P) konvergiert genau dann auch im p-ten Mittel, wenn die Zufallsvariablen |Xn |p , n ∈ N, gleichgradig integrierbar sind, oder wenn 3.97 lim E[|Xn |p ] = E[|X|p ]. n→∞ Umgekehrt gilt: 3.98 3.99 Lp Xn → X (3.14) =⇒ P Xn → X. Lr Lr ′ Falls Xn → X für ein r ∈ (1, ∞), so gilt auch Xn → X für alle r′ ∈ [1, r) 3.100 . 3.93Λ ist eine beliebige Menge. 3.94Ein Beispiel einer nicht gleichgradig integrierbaren Folge von Zufallsvariablen auf dem Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), λ) mit dem Lebesguemaß λ auf (0, 1] ist durch Xn = nI(0,1/n] , n ∈ N, gegeben. Für festes M > 0 und n ≥ M gilt in diesem Fall E[|Xn |I{|Xn |≥M } ] = R n 01/n dx = 1, d.h., limM →∞ supn∈N E[|Xn |I{|Xn |≥M } ] = 1. 3.95 Aufgrund von [18], Lemma 4.10, ist die Menge der Zufallsvariablen Yλ , λ ∈ Λ, genau dann gleichgradig integrierbar, wenn sup E[|Yλ |] < ∞ und λ∈Λ lim sup E[|Yλ |IA ] = 0, sup ǫ→0 {A∈F:P[A]<ǫ} λ∈Λ d.h., wenn die Einschränkungen von Yλ , λ ∈ Λ, auf bzgl. P kleine“ Mengen A ∈ F gleichmäßig ” kleine“ Beiträge zum Erwartungswert der jeweiligen Zufallsvariable |Yλ | liefern. ” 3.96Vgl. [18], Proposition 4.12. 3.97In dieser Bedingung wird die Vertauschbarkeit von lim n→∞ . . . und E[ . ] gefordert. Möglichkeiten zu ihrer Überprüfung eröffnen z.B. der Satz von der monotonen Konvergenz, vgl. Satz 3.18(3), bzw. der Satz von der dominierten Konvergenz, vgl. Satz 3.24. 3.98Zum Beweis von (3.14) kann auf die Markov-Ungleichung, vgl. Abschnitt 3.6.3(1), mit f (x) = |x|p , x ≥ 0, zurückgegriffen werden. Insbesondere ist P[|Xn − X| > ǫ] ≤ E[|Xn − X|p ]/ǫp , n ∈ N, ǫ > 0. 3.99 Aufgrund von (3.13) und (3.14) drängt sich die Frage nach einem Zusammenhang zwischen fast-sicherer Konvergenz und Konvergenz im p-ten Mittel auf. Beim Vergleich dieser beiden Konvergenzbegriffe kann einerseits berücksichtigt werden, daß die fast-sichere Konvergenz die stochastische Konvergenz impliziert, vgl. Satz 3.13, und dann zur Prüfung der Lp -Konvergenz der erste Teil von Satz 3.17 herangezogen werden. Andererseits gibt es beispielsweise in dem Wahrscheinlichkeitsraum ([0, 1], B([0, 1]), λ), wobei λ das Lebesguemaß bezeichnet, jeweils Folgen Xn , n ∈ N, von Zufallsvariablen, die • in L1 aber nicht f.s., bzw. • f.s. aber nicht in L1 gegen eine Zufallsvariable X konvergieren. Solche Folgen sind in Beispiel 3.12, bzw. in Fußnote 3.94 beschrieben. In beiden Fällen ist X(.) ≡ 0. 3.100Wendet man die Höldersche Ungleichung, vgl. Abschnitt 3.6.3(4), mit p = r/r ′ und q = r/(r − r ′ ) an, so folgt ′ ′ E[|Xn − X|r ] = E[|Xn − X|r · 1] ≤ E[|Xn − X|r ′ (r/r ′ ) r ′ /r ] ′ E[1r/(r−r ) ](r−r 22. Juli 2014 ′ )/r = E[|Xn − X|r ]r ′ /r . 36 3.6. Integrationstheorie. 3.101 Zunächst werden einige grundlegende Eigenschaften des Erwartungswerts E[X] von reellwertigen Zufallsvariablen X festgehalten. Anschließend wird die Erweiterung des Erwartungswerts von diskreten auf beliebige reellwertige Zufallsvariablen diskutiert. Weiterhin wird auf einige in vielen Bereichen der Wahrscheinlichkeitstheorie nützliche Ungleichungen für Wahrscheinlichkeiten und Erwartungswerte hingewiesen. Letztendlich wird auf die Berechnung von Erwartungswerten von Zufallsvariablen, die auf Produkten von Wahrscheinlichkeitsräumen definiert sind, eingegangen. 3.6.1. Rechenregeln für Erwartungswerte. Die folgenden Eigenschaften gelten für den Erwartungswert beliebiger reellwertiger Zufallsvariablen. Zu ihrem Beweis kann zunächst mit diskreten Zufallsvariablen gearbeitet werden 3.102. Bei beliebigen reellwertigen Zufallsvariablen können dann im Rahmen eines Grenzübergangs diskrete Approximationen verwendet werden 3.103. Satz 3.18. Seien X, Y , X1 , X2 , . . . , Y1 , Y2 , . . . reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P), die einen Erwartungswert besitzen 3.104. (1) Monotonie. Ist X ≤ Y , f.s. 3.105, so gilt E[X] ≤ E[Y ]. (2) Linearität. Sei c ∈ R. Dann ist E[cX] = cE[X] und außerdem 3.106 E[X + Y ] = E[X] + E[Y ]. (3) σ-Additivität des Erwartungswerts, bzw. SatzPvon der monotonen Kon∞ vergenz. Wenn Xn ≥ 0, f.s., n ∈ N, und X = k=1 Xk , f.s., so ist 3.107 E[X] = ∞ X E[Xk ]. k=1 3.108 , so folgt 3.109 3.110 lim E[Yk ] = E lim Yk = E[Y ]. Wenn Yk ր Y , f.s., k→∞ k→∞ 3.101 Bisher wurde der Erwartungswert für reellwertige Zufallsvariablen nur auf einem elementaren Niveau, d.h., für diskrete Zufallsvariablen eingeführt, vgl. Abschnitt 2.3. Andererseits wurde insbesondere in den Abschnitten 3.5.3 und 3.5.4 der Erwartungswert E[X] für beliebige reellwertige Zufallsvariablen X benutzt. Die hierbei entstandenen Lücken sollen nun geschlossen werden. 3.102Vgl. [10], Satz (4.7). 3.103Vgl. [10], Satz (4.11). Die genannten Approximationen X (n) , n ∈ N, für reellwertige Zufallsvariablen X werden in (3.15) vorgestellt. 3.104Diskrete Zufallsvariablen besitzen einen (endlichen) Erwartungswert, wenn sie integrabel sind, d.h., wenn (2.7) erfüllt ist. In Abschnitt 3.6.2 wird beschrieben, wann eine beliebige reellwertige Zufallsvariable einen Erwartungswert besitzt. Im allgemeinen kann dieser auch +∞ oder −∞ sein. 3.105D.h., P[{ω ∈ Ω : X(ω) ≤ Y (ω)}] = 1. 3.106Hier muß allerdings E[X] = +∞, E[Y ] = −∞, bzw. E[X] = −∞, E[Y ] = +∞, ausgeschlossen werden, was bei Berücksichtigung von Abschnitt 3.6.2 möglich wäre. In diesen Fällen ist E[X + Y ] nicht definiert. 3.107Für diskrete Zufallsvariablen X, X , X , . . . wird diese Beziehung in Anhang A.3.3 be1 2 wiesen. 3.108D.h., Y ≤ Y ≤ . . . , f.s., und lim 1 2 k→∞ Yk = Y , f.s. 3.109 In Abschnitt 3.7 wird auf das Vertauschen von limn→∞ . . . “ und E[ . ]“ näher einge” ” gangen. 3.110 Zum Beweis dieser Beziehung, dem Satz von der monotonen Konvergenz, setze X1 = 0, P P X2 = Y2 −Y1 , X3 = Y3 −Y2 , . . . . Damit ist Yk = Y1 + kn=1 Xn und limk→∞ Yk = Y1 + ∞ n=1 Xn . 22. Juli 2014 37 (4) Produktregel für unabhängige Zufallsvariablen abhängig. Dann gilt 3.111 . Seien X und Y un- E[XY ] = E[X]E[Y ]. Alle in Satz 3.18 vorkommenden Erwartungswerte sind wohldefiniert 3.112 . 3.6.2. Erwartungswert für allgemeine, reellwertige Zufallsvariablen. Für eine beliebige Zufallsvariable 3.113 X : (Ω, F, P) → (R, B(R)) wird durch 3.114 1 (3.15) X(n) (ω) = ⌊nX(ω)⌋, ω ∈ Ω, n ∈ N, n eine Folge diskreter Zufallsvariablen X(n) , n ∈ N, definiert. Da 3.115 1 , n ∈ N, n wird bei n → ∞ die Zufallsvariable X durch X(n) beliebig genau approximiert. X(n) ≤ X ≤ X(n) + (3.16) Satz 3.19. 3.116 Sei X : (Ω, F, P) → (R, B(R)) eine Zufallsvariable und X(n) , n ∈ N, die gemäß (3.15) definierte approximierende Folge. Wenn dann für ein n0 ∈ N die Zufallsvariable X(n0 ) integrabel ist 3.117, d.h., einen endlichen Erwartungswert besitzt, so sind alle X(n) , n ∈ N, integrabel 3.118. In diesem Fall ist E[X(n) ], n ∈ N, eine Cauchy-Folge 3.119. Aufgrund von Satz 3.19 kann in Erweiterung von Abschnitt 2.3 eine Zufallsvariable X dann durch einen endlichen Erwartungswert charakterisiert werden, wenn eine und damit alle Approximationen X(n) , n ∈ N, integrabel sind. In einem solchen Fall wird X als integrabel bezeichnet. Der Erwartungswert von X kann nun durch (3.17) E[X] := lim E[X(n) ] n→∞ Da Xn ≥ 0, n ∈ N, kann nun das zuvor angegebene Resultat, die σ-Additivität des Erwartungswerts, zusammen mit der Linearität des Erwartungswerts angewandt werden. Insbesondere gilt: " # k k X X lim E[Yk ] = lim E Y1 + Xn = lim E[Y1 ] + E[Xn ] k→∞ k→∞ = E[Y1 ] + n=1 ∞ X n=1 k→∞ " E[Xn ] = E[Y1 ] + E n=1 ∞ X # " Xn = E Y 1 + n=1 ∞ X n=1 # Xn = E lim Yk . k→∞ 3.111Die Unabhängigkeit von Zufallsvariablen wurde in Abschnitt 2.2.2 definiert, vgl. (2.6). 3.112Insbesondere besitzen auch die Zufallsvariablen cX, X + Y und XY einen Erwartungs- wert. Für X + Y müssen hierbei die in Fußnote 3.106 beschriebenen Fälle ausgeschlossen werden. 3.113 X braucht nicht unbedingt eine diskrete Zufallsvariable zu sein. 3.114Die Zufallsvariablen X (n) , n ∈ N, bilden eine X von unten approximierende Folge, d.h., für n ∈ N ist X(n) die größte diskrete Zufallsvariable, die Werte k/n, k ∈ Z, annimmt und kleiner oder höchstens gleich X ist. Für jedes n ist X(n) eine Diskretisierung von X mit der Schrittweite 1/n. 3.115Aus nX(n) (ω) = ⌊nX(ω)⌋ ≤ nX(ω) ≤ ⌊nX(ω)⌋ + 1 = nX(n) (ω) + 1, ω ∈ Ω, folgt (3.16) nach Division durch n. 3.116Vgl. [10], Lemma (4.9). 3.117Es soll also (2.7) für X (n0 ) gelten. 3.118Diese Behauptung ergibt sich aus der Tatsache, daß X (n) genau dann integrabel ist, wenn E[|X(n) |] < ∞ ist, vgl. Abschnitt 2.3, der Monotonie des Erwartungswerts für diskrete −1 }, die Zufallsvariablen, vgl. Satz 3.18(1), und der Abschätzung |X(n) | ≤ |X(n0 ) | + max{n−1 0 ,n −1 eine Konsequenz der aus (3.16) folgenden Beziehungen X(n) ≤ X(n0 ) + n−1 ≤ |X | + n (n0 ) 0 0 und −1 −1 X(n0 ) ≤ X(n) + n , d.h., −X(n) ≤ |X(n0 ) | + n ist. 3.119Dies folgt aus der Abschätzung |E[X −1 , n−1 }, m, n ∈ N, die (n) ] − E[X(m) ]| ≤ max{m sich durch Überlegungen wie in Fußnote 3.118 aus (3.16) ergibt. 22. Juli 2014 38 definiert werden. Beispiel 3.20. Die Verteilung einer reellwertigen Zufallsvariable X habe eine Dichte f bzgl. des Lebesguemaßes, d.h., PX [A] = P[X ∈ A] = X sei integrabel, d.h., es gelte 3.120 (3.18) Z ∞ −∞ Z dx f (x), A A ∈ B(R). dx |x|f (x) < ∞. Dann folgt E[X] = 3.121 = 3.122 = 3.123 = 3.124 = 3.125 lim E[X(n) ] n→∞ ∞ X k k P X(n) = n→∞ n n k=−∞ | {z } = PX [k/n, (k + 1)/n) Z ∞ X k (k+1)/n dx f (x) lim n→∞ n k/n k=−∞ Z ∞ 1 lim dx ⌊xn⌋ f (x) n→∞ −∞ n | {z } → x, falls n → ∞ Z ∞ dx xf (x). lim −∞ 3.120Nach (2.7) und Satz 3.19 ist zu prüfen, ob ∞> ∞ ∞ X X k k+1 k |k| k P X∈ , = P X(n0 ) = n0 n0 n n0 n0 k=−∞ k=−∞ 0 Z Z ∞ ∞ X |k| (k+1)/n0 |⌊xn0 ⌋| dx f (x) = dx f (x) = n n0 −∞ k=−∞ 0 k/n0 für ein n0 ∈ N. Da |x| − 1 |⌊xn⌋| 1 ≤ ≤ |x| + , n n n ist X genau dann integrabel, wenn (3.18) gilt. 22. Juli 2014 x ∈ R, n ∈ N, 39 Etwas allgemeiner, für eine Rd -wertige Zufallsvariable X mit Dichte f 3.126 und d Reine meßbare Funktion H : R → R ist die Zufallsvariable H(X) integrabel, wenn dx |H(x)|f (x) < ∞. In diesem Fall ist Rd Z dx H(x)f (x). (3.19) E[H(X)] = Rd Für eine positive Zufallsvariable kann man in einer Verallgemeinerung des bisher benutzten Begriffs des Erwartungswerts 3.127 die Definition E[X] := ∞ einführen, wenn E[X(n) ] = ∞ 3.128 für ein, d.h., aufgrund von Satz 3.19 für alle n ∈ N. Für eine beliebige reellwertige Zufallsvariable X gibt es die Zerlegung X = X+ −X− , wobei X+ = max{X, 0} und X− = max{−X, 0}. Da X+ und X− positive Zufallsvariablen sind, ist nun der Erwartungswert von X auf eine eindeutige Weise durch (3.20) E[X] := E[X+ ] − E[X− ] definierbar 3.129 3.130, wenn nicht E[X+ ] = E[X− ] = ∞ 3.131. Insbesondere besitzt eine Zufallsvariable X genau dann einen endlichen Erwartungswert E[X], wenn 3.132 E[X+ ] + E[X− ] = E[|X|] < ∞, d.h., wenn X integrabel ist 3.133. 3.121Nach (3.17), wobei die Zufallsvariablen X (n) , n ∈ N, in (3.15) definiert sind. 3.122 Hier wird die Definition des Erwartungswerts für diskrete Zufallsvariablen benutzt, vgl. Abschnitt 2.3. Außerdem findet die Tatsache, daß X(n) die Werte k/n, k ∈ Z, jeweils mit der Wahrscheinlichkeit P[X ∈ [k/n, (k + 1)/n)] annimmt, Verwendung. 3.123 Da PX die Dichte f bzgl. des Lebesguemaßes in R hat. 3.124 Da k = ⌊xn⌋, sobald x ∈ [k/n, (k + 1)/n). 3.125 Nach dem Satz von der dominierten Konvergenz, vgl. Satz 3.24. Dieser Satz wird hier angewandt für reellwertige Zufallsvariablen Yn , n ∈ N, und Y auf dem Wahrscheinlichkeitsraum (R, B(R), PX ), wobei Yn (ω) = ⌊ωn⌋/n, ω ∈ R, n ∈ N, und Y (ω) = ω, ω ∈ R. Da limn→∞ Yn = Y , f.s., und |Yn | ≤ |Y | + 1, f.s., n ∈ N, mit E[|Y |] < ∞, folgt Z ∞ Z ∞ 1 lim dx ⌊xn⌋f (x) = lim E[Yn ] = E[Y ] = dx xf (x). n→∞ −∞ n→∞ n −∞ In diesen Argumenten beziehen sich natürlich f.s.“ und E[ . ]“ auf das Wahrscheinlichkeitsmaß ” ” PX auf (R, B(R)). Für x ∈ R ist die Folge ⌊x2n ⌋2−n , n ∈ N, monoton steigend. Somit kann hier auch mit dem Satz von der monotonen Konvergenz, vgl. Satz 3.18(3), gearbeitet werden, wenn anstelle der approximierenden Zufallsvariablen X(n) , n ∈ N, die Folge X(2n ) , n ∈ N, benutzt wird. 3.126Hiermit ist gemeint, daß die Verteilung P von X die Dichte f : Rd → [0, ∞) hat. X 3.127Bisher wurde E[X] im wesentlichen nur für integrable Zufallsvariablen eingeführt. Auf die Tatsache, daß für positive, diskrete Zufallsvariablen immer auf eindeutige Weise ein Erwartungswert definiert werden kann, wurde in Abschnitt 2.3 vor Beispiel 2.7 hingewiesen. 3.128In diesem Fall sollte also P x∈X (Ω) x P[X(n) = x] = ∞ sein. Diese Summe ist wohl(n) definiert, weil X(n) (Ω) ⊂ [0, ∞). 3.129Die Werte ∞ oder −∞ für E[X] sind nun möglich. 3.130 In (3.20) scheint die Linearität des Erwartungswerts, vgl. Satz 3.18(2), ausgenutzt zu werden. Letztendlich kann man jedoch (3.20) auch als eine Einführung jener Linearität für nichtintegrable Zufallsvariablen durch eine Definition betrachten. 3.131Für eine Zufallsvariable X mit einer Cauchy-Verteilung und damit mit einer Dichte f (x) = a/(π(a2 + x2 )), x ∈ R, für ein a > 0 gilt E[X+ ] = E[X− ] = ∞. Daher ist in diesem Fall E[X] nicht definiert. 3.132Offensichtlich ist |X| = X + X . + − 3.133Bisher wurde eine Zufallsvariable X als integrabel bezeichnet, wenn die diskreten Approximationen X(n) , n ∈ N, integrabel sind, d.h., wenn E[|X(n) |] < ∞, n ∈ N, vgl. auch (2.7) und (2.8). Nun impliziert (3.16), daß |X(n) | − 1/n ≤ |X| ≤ |X(n) | + 1/n, n ∈ N, d.h., es gilt E[|X(n) |] < ∞, n ∈ N, genau dann, wenn E[|X|] < ∞. 22. Juli 2014 40 Für eine reellwertige Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, F, P) werden gelegentlich auch die Schreibweisen 3.134 Z E[X] = 3.135 (3.21) P(dω) X(ω) Ω Z = 3.136 PX (dx) x R verwendet. Als Verallgemeinerung von (3.19) wird weiterhin die Beziehung Z PX (dx)H(x) (3.22) E[H(X)] = 3.137 Rd benutzt, falls die beiden Seiten von (3.22) für eine meßbare Funktion H : Rd → R wohldefiniert sind 3.138. 3.6.3. Ungleichungen für Wahrscheinlichkeiten und Erwartungswerte. Oft werden in wahrscheinlichkeitstheoretischen Überlegungen keine exakten Wahrscheinlichkeiten oder Erwartungswerte benötigt, sondern nur evtl. relativ einfach zu bestimmende Abschätzungen. Zu diesem Zweck sind in der Wahrscheinlichkeitstheorie viele verschiedene Ungleichungen abgeleitet worden. Die folgende Liste enthält einige der bekannteren. (1) Markov-Ungleichung. 3.139 Sei X eine reellwertige Zufallsvariable und f : [0, ∞) → [0, ∞) eine monoton wachsende Funktion mit f (x) > 0 für x > 0. Dann gilt 3.140 P[|X| ≥ ǫ] ≤ E[f (|X|)] , f (ǫ) ǫ > 0. Speziell, wenn f (x) = x2 , ergibt sich hieraus die (2) Čebyšev-Ungleichung 3.141, d.h., P[|X| ≥ ǫ] ≤ E[X 2 ] , ǫ2 ǫ > 0. (3) Jensensche Ungleichung. 3.142 Sei X eine reellwertige Zufallsvariable und φ : R → R eine konvexe Funktion 3.143, so daß X und φ(X) integrabel 3.134Durch diese Schreibweisen wird zum Ausdruck gebracht, daß die Abbildung X → E[X] die Eigenschaften eines abstrakten Integrals besitzt. Insbesondere ist diese Zuordnung ein DaniellIntegral, d.h., eine spezielle, hinreichend reguläre, lineare Abbildung auf einem geeigneten Funktionenraum, vgl. [27], Chapter 13. Mit dem Konzept der Daniell-Integrale ist ein alternativer Zugang zur üblichen Maß- und Integrationstheorie möglich. 3.135E[X] ist das Integral der reellwertigen Funktion X auf dem Wahrscheinlichkeitsraum (Ω, F, P). 3.136 Durch diese Notation wird verdeutlicht, daß E[X] nur von der Verteilung PX von X abhängt, vgl. (2.8) und Fußnote 2.51. 3.137 Offensichtlich ist (3.22) auch eine Verallgemeinerung der Darstellung von E[X] in (3.21). 3.138Wenn eine der beiden Seiten von (3.22) wohldefiniert ist, so ist dies auch die andere Seite. 3.139Vgl. [10], Proposition (5.4). 3.140Da f (|X|) ≥ 0, ist der Erwartungswert auf der rechten Seite immer definiert, wobei auch E[f (|X|)] = ∞ möglich ist, vgl. Abschnitt 3.6.2. In diesem Fall allerdings ist die Ungleichung nutzlos. 3.141Vgl. [10], Korollar (5.5). 3.142Vgl. [7], Appendix A.5, (5.1). 3.143D.h., es gilt λφ(x) + (1 − λ)φ(y) ≥ φ(λx + (1 − λ)y), x, y ∈ R, λ ∈ [0, 1]. 22. Juli 2014 41 sind. Dann gilt 3.144 φ(E[X]) ≤ E[φ(X)]. (4) Höldersche Ungleichung. 3.145 Seien p, q ∈ (1, ∞) mit p−1 + q −1 = 1 und seien X und Y reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit E[|X|p ] < ∞, bzw. E[|Y |q ] < ∞. In diesem Fall folgt p p q p E[|XY |] ≤ E[|X|p ] E[|Y |q ]. Im Fall p = q = 2 wird diese Ungleichung auch Cauchy-Schwarzsche Ungleichung genannt. (5) Minkowski-Ungleichung. 3.146 Sei p ∈ [1, ∞) und seien X und Y reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit E[|X|p ] + E[|Y |p ] < ∞. Damit folgt 3.147 p p p p p p E[|X + Y |p ] ≤ E[|X|p ] + E[|Y |p ]. 3.6.4. Integration auf Produkten von Wahrscheinlichkeitsräumen. Zur konkreten Berechnung des Erwartungswerts einer reellwertigen Zufallsvariable X auf einem Produkt 3.148 (Ω1 × ΩR2 , F1 ⊗ F2 , P1 ⊗ P2 ) von Wahrscheinlichkeitsräumen ist es hilfreich, wenn E[X] = Ω1 ×Ω2 (P1 ⊗ P2 )(dω)X(ω) 3.149 mit Hilfe von Integralen bzgl. P1 und P2 bestimmt werden kann. Es gilt: Satz 3.21 (Satz von Fubini). 3.150 Seien (Ω1 , F1 , P1 ) und (Ω2 , F2 , P2 ) Wahrscheinlichkeitsräume und X eine reellwertige Zufallsvariable auf (Ω1 × Ω2 , F1 ⊗ F2 , P1 ⊗ P2 ). Falls 3.151 X ≥ 0, P1 ⊗ P2 -f.s., oder wenn E[|X|] < ∞ 3.152, so ist 3.153 Z (3.23) (P1 ⊗ P2 )(dω)X(ω) E[X] = Ω1 ×Ω2 3.144Zum Beweis der Jensenschen Ungleichung kann aufgrund der Konvexität von φ eine lineare Funktion ℓ : x → ax + b, x ∈ R, so gewählt werden, daß sich die Graphen von ℓ und φ im Punkt (E[X], φ(E[X])) berühren. Insbesondere gilt dann (∗) ℓ(E[X]) = φ(E[X]), ℓ(x) ≤ φ(x), x ∈ R, so daß sich E[φ(X)] ≥ E[ℓ(X)] = ℓ(E[X]) = φ(E[X]) ergibt. Hier wurden der zweite Teil von (∗) und die Monotonie des Erwartungswerts, vgl. Satz 3.18(1), die Linearität von ℓ und des Erwartungswerts, vgl. Satz 3.18(2), und letztendlich der erste Teil von (∗) verwendet. 3.145Vgl. [7], Appendix A.5, (5.2). 3.146Vgl. [7], Appendix A.5, Exercise 5.3. 3.147Diese Ungleichung ist die Dreiecksungleichung im Banachraum Lp (Ω, F, P) = {X : p p (Ω, F, P) → (R, B(R)) : X meßbar, kXkp < ∞} mit der Norm kXkp = E[|X|p ]. 3.148Produkte von Wahrscheinlichkeitsräumen werden in Abschnitt 3.3.4 eingeführt. Für die Indexmenge Λ aus jenem Abschnitt gilt nun Λ = {1, 2}. 3.149Diese Schreibweise wurde in (3.21) eingeführt. 3.150Vgl. z.B. [7], Appendix A.6, Theorem (6.2). Dort wird der Satz von Fubini für σ-endliche Maße, vgl. Fußnote 2.9, vorgestellt. 3.151Wegen der Linearität des Erwartungswerts, vgl. Satz 3.18(2), gilt (3.23) natürlich auch wenn X ≤ 0, P1 ⊗ P2 -f.s. 3.152D.h., X ist integrabel. 3.153 Beim Beweis von (3.23), vgl. [7], Appendix A.6, ist zunächst zu prüfen, ob die Integrale in der zweiten und dritten Zeile in (3.23) wohldefiniert sind. Dazu ist nachzuweisen, daß Funktionen wie X1ω2 : (Ω1 , F1 ) → (R, B(R)), ω2 ∈ Ω2 , mit X1ω2 (ω1 ) = X(ω1 , ω2 ), ω1 ∈ Ω1 , ω2 ∈ Ω2 , oder R X 1 : (Ω2 , F2 ) → (R, B(R)) mit X 1 (ω2 ) = Ω P1 (dω1 )X(ω1 , ω2 ), ω2 ∈ Ω2 , meßbar sind. Hierzu 1 kann insbesondere auch mit dem π-λ-Theorem, vgl. Satz 5.5, gearbeitet werden. Anschließend kann (3.23) zuerst für diskrete Zufallsvariablen, vgl. Abschnitt 2.3, und dann durch Approximation für beliebige Zufallsvariablen verifiziert werden. 22. Juli 2014 42 Z P1 (dω1 ) = P2 (dω2 )X(ω1 , ω2 ) Ω1 Ω2 Z Z P2 (dω2 ) P1 (dω1 )X(ω1 , ω2 ) . = Z Ω2 Ω1 Satz 3.21 zeigt, daß in Mehrfachintegralen die Integrationsreihenfolge häufig, aber nicht bedenkenlos vertauscht werden kann. Beispiel 3.22. 3.154 Sei (Ω1 , F1 , P1 ) = (R, B(R), µ1 ) und (Ω2 , F2 , P2 ) = (R, B(R), µ2 ), wobei µ1 die Gleichverteilung auf (0, 1) 3.155 und µ2 die Verteilung mit der Dichte 3.156 exp(−(x − 1))I[1,∞) (x), x ∈ R, ist. Außerdem sei X(ω1 , ω2 ) = exp(ω2 − 1)(exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )), (ω1 , ω2 ) ∈ Ω1 × Ω2 . In diesem Fall sind die Voraussetzungen von Satz 3.21 nicht erfüllt, d.h., die Zufallsvariable X ist weder positiv 3.157 noch integrabel 3.158. Letztendlich kann die Integrationsreihenfolge nicht vertauscht werden, denn 3.159 Z Z P1 (dω1 ) P2 (dω2 )X(ω1 , ω2 ) Ω1 = = Z Ω2 1 dω1 0 3.160 Z Z ∞ 1 1 dω1 0 bzw., Z Ω2 Z P2 (dω2 ) Ω1 ∞ dω2 exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 ) 1 exp(−ω1 ) − exp(−2ω1 ) > ω1 3.161 0, P1 (dω1 )X(ω1 , ω2 ) Z dω1 exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 ) 1 0 Z ∞ 1 − exp(−ω2 ) + exp(−2ω2 ) < 0. = dω2 ω2 1 = Z dω2 1 3.154Dieses Beispiel entspricht Example 6.2 in [7], Appendix A.6. 3.155µ hat somit die Dichte I 1 (0,1) auf R. 3.156µ ist eine um 1 nach rechts verschobene Exponentialverteilung“. 2 ” 3.157Man beachte, daß exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 ) 3.158 Z Ω1 ×Ω2 ≥ = < 0, falls ω1 ω2 > log 2, falls ω1 ω2 < log 2. Da (P1 ⊗ P2 )(dω)|X(ω)| Z (P1 ⊗P2 )(dω)X(ω) {(ω1 ,ω2 )∈Ω1 ×Ω2 :ω1 ω2 >log 2} Z ∞ 1 Z dω1 log 2/ω1 0 = ( > 0, Z 0 1 dω1 (da X(ω1 , ω2 ) > 0, falls ω1 ω2 > log 2) dω2 exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 ) (wegen Satz 3.21) 1 1 = ∞. − 2ω1 4ω1 {z } | = 1/(4ω1 ) 3.159 Obwohl X nicht integrabel ist, sind die beiden nun folgenden Doppelintegrale, die sich in der Integrationsreihenfolge unterscheiden, endlich. 3.160Da | exp(−ω ) − exp(−2ω )| ≤ C|ω |, ω ∈ (0, 1), ist (0, 1) ∋ ω → (1/ω )(exp(−ω ) − 1 1 1 1 1 1 1 exp(−2ω1 )) eine bzgl. des Lebesguemaßes auf (0, 1) integrable Funktion. 3.161 Da exp(−ω1 ) − exp(−2ω1 ) = exp(−ω1 )(1 − exp(−ω1 )) > 0, ω1 > 0. 22. Juli 2014 43 3.7. Erwartungswerte für Limiten von Zufallsvariablen. Es gibt Zufallsvariablen X, die als Limiten X = limn→∞ Xn für eine Folge Xn , n ∈ N, von Zufallsvariablen in Erscheinung treten. Bei der Abschätzung, bzw. der Berechnung von E[X] für solche Zufallsvariablen können neben dem Satz von der monotonen Konvergenz 3.162 oder Satz 3.17 3.163 auch die beiden folgenden Resultate nützlich sein. Satz 3.23 (Lemma von Fatou). 3.164 Sei Xn , n ∈ N, eine Folge reellwertiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit n ∈ N. Xn ≥ 0, f.s., Dann gilt E lim inf Xn ≤ lim inf E[Xn ]. n→∞ n→∞ Satz 3.24 (Satz von der dominierten Konvergenz). 3.165 Seien X, Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit (3.24) lim Xn = X, f.s. n→∞ Es gebe eine Zufallsvariable Z ≥ 0 mit E[Z] < ∞ und |Xn | ≤ Z, f.s., (3.25) Dann gilt 3.166 3.167 n ∈ N. lim E[Xn ] = E lim Xn = E[X]. (3.26) n→∞ n→∞ Beispiel 3.25. Auf dem Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), λ) seien die positiven Zufallsvariablen X, Xn , n ∈ N, durch X ≡ 0 und Xn = nI(0,1/n] , n ∈ N, definiert 3.168. Offensichtlich gilt (3.24), während (3.25) für keine positive, integrable Zufallsvariable Z erfüllt ist. Da E[Xn ] = 1, n ∈ N, und E[X] = 0, gilt auch (3.26) nicht. E[ . ] und limn→∞ . . . dürfen also nie leichtfertig vertauscht werden. 3.162Vgl. Satz 3.18(3). 3.163Für reellwertige, integrable Zufallsvariablen X und Y auf einem Wahrscheinlichkeits- raum (Ω, F, P) gilt |E[X] − E[Y ]| = |E[X − Y ]| ≤ E[|X − Y |] als Konsequenz der Jensenschen Ungleichung, vgl. Abschnitt 3.6.3, angewandt auf die konvexe Funktion R ∋ z → |z| und die Zufallsvariable X − Y . Daher folgt limn→∞ E[Xn ] = E[X] für Zufallsvariablen X und Xn , n ∈ N, L1 mit limn→∞ E[|Xn − X|] = 0, d.h., mit Xn → X. 3.164 Vgl. [7], Appendix A.5, Theorem (5.4). 3.165Vgl. [7], Appendix A.5, Theorem (5.6). 3.166Wenn Satz 3.24 auf die Zufallsvariablen |X| und |X |, n ∈ N, angewandt wird, folgt n limn→∞ E[|Xn |] = E[|X|]. Somit kann mit Satz 3.13 und Satz 3.17 sogar die Konvergenz in L1 , d.h., limn→∞ E[|Xn − X|] = 0, gefolgert werden. 3.167 Durch eine zweimalige Anwendung des Lemmas von Fatou läßt sich (3.26) leicht beweisen. Aufgrund von (3.25) sind die Zufallsvariablen Z + Xn , Z − Xn , n ∈ N, positiv, so daß bei Beachtung von (3.24) zunächst E[Z + X] ≤ lim inf E[Z + Xn ] = E[Z] + lim inf E[Xn ] n→∞ n→∞ und E[Z − X] ≤ lim inf E[Z − Xn ] = E[Z] − lim sup E[Xn ] n→∞ n→∞ folgen. Hieraus ergibt sich lim inf E[Xn ] ≥ E[X] ≥ lim sup E[Xn ], n→∞ n→∞ und damit (3.26) als Konsequenz. 3.168Diese Zufallsvariablen wurden auch in den Fußnoten 3.94 und 3.99 betrachtet, wo im wesentlichen dieses Beispiel schon vorweggenommen wurde. 22. Juli 2014 44 3.8. Bedingte Erwartungswerte. Sei X eine reellwertige, integrable Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P). Sei weiterhin A eine Teil-σ-Algebra von F. Eine A-meßbare Zufallsvariable Y heißt bedingte Erwartung von X bzgl. A, falls E[Y IA ] = E[XIA ], (3.27) A ∈ A. In diesem Fall findet die Schreibweise Y = E[X|A] Verwendung. Gleichbedeutend mit (3.27) ist die Bedingung (3.28) E[Y Z] = E[XZ], Z beschränkte, reellwertige Zufallsvariable auf (Ω, A, P). (3.27) und (3.28) besagen, daß die Projektionen“ von X, bzw. Y = E[X|A] ” auf Ereignisse A ∈ A oder auf Zufallsvariablen, die nur von diesen Ereignissen abhängen, übereinstimmen. Der bedingte Erwartungswert Y = E[X|A] von X existiert eindeutig 3.169 und ist ebenfalls integrabel 3.170. 3.169Die Existenz kann mit Hilfe des Satzes von Radon-Nikodým, vgl. Satz 3.11 und Fußnote 3.60, nachgewiesen werden. Sei z.B. X eine positive, integrable Zufallsvariable auf (Ω, F) und sei (∗) PX A [A] := E[XIA ] = Z X(ω)P(dω), A A ∈ A. X Offensichtlich ist PX A ein endliches Maß auf (Ω, A) mit PA ≪ PA , wobei mit PA die Einschränkung von P auf (Ω, A) gemeint ist. Somit existiert eine (Ω, A)-meßbare, positive Funktion, X die Radon-Nikodým-Dichte dPX A /dPA von PA bzgl. PA , mit (∗1 ) PX A [A] = Z A dPX A dPA (ω)PA (dω) = E[(dPX A /dPA )IA ], A ∈ A. Aufgrund von (∗) und (∗1 ) ist (3.27) durch Y = dPX A /dPA erfüllt. Für eine beliebige reellwertige, integrable Zufallsvariable X = X+ − X− sind diese Argumente getrennt auf den Positivteil X+ und den Negativteil X− von X anzuwenden. Zum Beweis der Eindeutigkeit seien Y und Y ′ zwei A-meßbare Zufallsvariablen, die (3.27) zu der vorgegebenen Zufallsvariable X erfüllen. Zu ǫ > 0 sei nun Aǫ = {Y − Y ′ ≥ ǫ}. Da Aǫ ∈ A, gilt: ǫP[Aǫ ] ≤ E[(Y − Y ′ )IAǫ ] = E[XIAǫ ] − E[XIAǫ ] = 0. Somit ist P[Aǫ ] = 0, ǫ > 0, d.h., Y ≤ Y ′ , f.s. Da ebenso Y ′ ≤ Y , f.s., gezeigt werden kann, folgt Y = Y ′ , f.s. 3.170 Mit A = {Y > 0} ∈ A gilt E[|Y |IA ] = E[Y IA ] = E[XIA ] ≤ E[|X|IA ], bzw. E[|Y |IΩ\A ] = E[(−Y )IΩ\A ] = E[(−X)IΩ\A ] ≤ E[|X|IΩ\A ], und daher E[|Y |] ≤ E[|X|] < ∞, womit die Integrabilität von Y gezeigt ist, vgl. Abschnitt 3.6.2 und insbesondere Fußnote 3.133. 22. Juli 2014 45 Beispiel 3.26. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A∗ = {Ak : k ∈ N} eine Partition von (Ω, F, P) 3.171. Weiterhin sei A = σ(A∗ ) 3.172. Für eine integrable, reellwertige Zufallsvariable X auf (Ω, F, P) gilt in dieser speziellen Situation 3.173 3.174 3.175 ∞ X E[XIAk ] . (3.29) E[X|A] = IAk P[Ak ] k=1 Beispiel 3.27. Sei E[|X|2 ] < ∞, d.h., X ∈ L2 (Ω, F, P) 3.176. In diesem Fall ist Y = E[X|A] die orthogonale Projektion von X in L2 (Ω, F, P) auf den linearen Unterraum L2 (Ω, A, P) aller A-meßbaren und bzgl. P quadratintegrablen Funktionen 3.177. 3.171{A : k ∈ N} ist eine Partition von (Ω, F, P), wenn k Ak ∈ F, P[Ak ] > 0, ∞ [ k ∈ N, k, l ∈ N, k 6= l, Ak ∩ Al = ∅, Ak = Ω. k=1 3.172A = σ(A ) ist die kleinste, A enthaltende σ-Algebra, vgl. Abschnitt 3.1.1. Da A eine ∗ ∗ ∗ S abzählbare Partition von (Ω, F, P) ist, ist B ∈ A genau dann, wenn B = l∈NB Al , wobei NB ⊆ N. P ∞ 3.173Offensichtlich ist die rechte Seite ξ = k=1 IAk E[XIAk ]/P[Ak ] von (3.29) meßbar bzgl. S A. Für alle A = l∈NA Al ∈ A, vgl. Fußnote 3.172, gilt außerdem (3.27), d.h., " ∞ !# ! X X E[XIAk ] IAk E[ξIA ] = E IAl P[Ak ] k=1 l∈NA # " X E[XIAl ] IAl (da Ak ∩ Al = ∅, k 6= l) =E P[Al ] l∈NA !# " X X E[XIAl ] E[IAl ] = IAl = E[XIA ]. =E X | {z } P[Al ] l∈NA l∈NA = P[Al ] P Die zweimalige Vertauschung von l∈NA . . . und E[ . ] ist aufgrund des Satzes von Fubini möglich, vgl. Satz 3.21 und Fußnote 3.150. 3.174 Anschaulich besagt (3.29), daß im vorliegenden speziellen Fall E[X|A](ω) für ω ∈ Ω folgendermaßen bestimmt wird: • Suche k ∈ N mit ω ∈ Ak , d.h., mit IAk (ω) = 1, und • definiere dann E[X|A](ω) als den mittleren Wert“ (bzgl. P) von X in Ak . ” 3.175 Setzt man in (3.29) zunächst X = IB , B ∈ F, und bildet anschließend auf beiden Seiten den Erwartungswert, so ergibt sich mit P[B] = E[IB ] = E[IB IΩ ] = E[E[IB |A]IΩ ] = E[E[IB |A]] = = ∞ X k=1 ∞ X E[IAk ] P[Ak ] k=1 (wegen (3.27), da Ω ∈ A) E[IB IAk ] P[Ak ] (vgl. Satz 3.21 und Fußnote 3.150) P[B ∩ Ak ] P[Ak ] | {z } = P[B|Ak ] (vgl. (2.9)) die Fallunterscheidungsformel, vgl. [10], Satz (3.3)(a). 3.176L2 (Ω, F, P) ist der Hilbertraum aller meßbaren, quadratintegrablen Funktionen X : R (Ω, F, P) → (R, B(R)) versehen mit dem Skalarprodukt hX, Y iL2 (Ω,F,P) := Ω P(dω)X(ω)Y (ω), X, Y ∈ L2 (Ω, F, P). 3.177Die Zufallsvariable Y = E[X|A] ist für X ∈ L2 (Ω, F, P) neben (3.27) oder (3.28) auch durch E[Y Z] = E[XZ], Z ∈ L2 (Ω, A, P), 22. Juli 2014 46 Der in den Abschnitten 2.3 und 3.6 eingeführte unbedingte Erwartungswert E[ . ] stimmt mit dem bedingten Erwartungswert E[ . |{∅, Ω}] bzgl. der trivialen σ-Algebra {∅, Ω} f.s. überein 3.178. Wenn A ∈ F, nennt man (3.30) P[A|A] := E[IA |A] die unter A bedingte Wahrscheinlichkeit des Ereignisses A. Die in den Abschnitten 3.6.1, 3.6.3 und 3.7 zusammengestellten Eigenschaften des Erwartungswerts E[ . ] gelten sinngemäß auch für bedingte Erwartungswerte E[ . |A] 3.179. Beispiel 3.28. Insbesondere sind bedingte Erwartungswerte linear, d.h., E[aX + bY |A] = aE[X|A] + bE[Y |A], f.s., X, Y reellwertige, integrable Zufallsvariablen, a, b ∈ R. Beispielsweise gilt auch die Jensensche Ungleichung, d.h., (3.31) φ(E[X|A]) ≤ E[φ(X)|A], f.s., falls φ : R → R konvex und X eine reellwertige, integrable Zufallsvariable mit E[|φ(X)|] < ∞ ist 3.180. Seien X, Z reellwertige Zufallsvariablen auf (Ω, F, P) mit E[|XZ|] < ∞ und E[|X|] < ∞. Falls Z für eine Teil-σ-Algebra A ⊆ F meßbar bzgl. A ist, folgt 3.181 (3.32) E[XZ|A] = ZE[X|A]. Seien A ⊆ B ⊆ F σ-Algebren und sei X eine reellwertige, integrable Zufallsvariable auf (Ω, F, P). Dann gilt 3.182 (3.33) E E[X|B]A = E[X|A]. eindeutig gekennzeichnet. Dies folgt aus der Tatsache, daß die Menge der beschränkten Zufallsvariablen auf (Ω, A, P) in L2 (Ω, A, P) dicht ist. Offensichtlich gilt weiterhin 0 = E[(X − Y )Z] = h(X − Y ), ZiL2 (Ω,F,P) , Z ∈ L2 (Ω, A, P), genau dann, wenn Y die orthogonale Projektion von X auf L2 (Ω, A, P) ist. Als Alternative zu den Überlegungen in Fußnote 3.169 kann mit den hier vorgestellten L2 Argumenten für quadratintegrable Zufallsvariablen die Existenz und Eindeutigkeit bedingter Erwartungswerte nachgewiesen werden. 3.178Eine Erläuterung findet sich in Fußnote 2.66. 3.179Bei diesen Verallgemeinerungen werden aus (Un-)Gleichungen für Erwartungswerte entsprechende P-f.s. gültige (Un-)Gleichungen für bedingte Erwartungswerte. Bei den jeweiligen Beweisen ist nur die bedingte Erwartungswerte charakterisierende Beziehung (3.27) zusätzlich zu berücksichtigen. 3.180Bei der Verallgemeinerung der Produktregel für unabhängige Zufallsvariablen, vgl. Satz 3.18(4), muß berücksichtigt werden, daß zwei (Ω′ , F′ )-wertige Zufallsvariablen X und Y bedingt unter A unabhängig genannt werden, wenn P[X ∈ A′ , Y ∈ B ′ |A] = P[X ∈ A′ |A] · P[Y ∈ B ′ |A], f.s., A′ , B ′ ∈ F ′ . 3.181Offensichtlich ist ZE[X|A] meßbar bzgl. A. Für B ∈ A gilt außerdem E[IA (IB E[X|A])] = E[IA∩B E[X|A]] = E[IA∩B X] = E[IA (IB X)], (wegen (3.27)) A ∈ A, d.h., bei Berücksichtigung von (3.27) wird deutlich, daß (3.32) zumindest dann erfüllt ist, wenn Z = IB , B ∈ A. Weitere Argumente zum vollständigen Nachweis von (3.32) für allgemeine Ameßbare Zufallsvariablen Z finden sich im Beweis von Theorem (1.3) in [7], Section 4.1. 3.182Zumindest für X ∈ L2 (Ω, F, P) ist durch die Identifizierung des bedingten Erwartungswerts als orthogonale Projektion, vgl. Beispiel 3.27, die Beziehung (3.33) offensichtlich. 22. Juli 2014 47 Falls A = FtX für einen stochastischen Prozeß X = (Xt )0≤t<∞ 3.183, verwendet man auch offensichtliche Abkürzungen wie E[X|A] = E[X|Xu , 0 ≤ u ≤ t] oder P[A|A] = P[A|Xu , 0 ≤ u ≤ t]. 3.9. Filtrationen, Meßbarkeit stochastischer Prozesse und Stoppzeiten. Eine Filtration in einem gegebenen meßbaren Raum (Ω, F) ist eine aufsteigende Familie (Ft )t≥0 von Teil-σ-Algebren von F, d.h., (3.34) Fs ⊆ Ft ⊆ F, 0 ≤ s ≤ t < ∞. Mit Filtrationen können beispielsweise Ereignisse zeitlich“ eingeordnet werden. ” Dann kann Ft als die Menge der Ereignisse vor dem Zeitpunkt t betrachtet werden. Wie in Beispiel 3.3 kann jedem stochastischen Prozeß X = (Xt )0≤t<∞ die von X erzeugte Filtration (FtX )0≤t<∞ mit FtX = σ(Xu , 0 ≤ u ≤ t), t ≥ 0, zugeordnet werden. (FtX )0≤t<∞ ist die minimale Filtration (Ft )t≥0 , so daß für alle t ≥ 0 die Zufallsvariablen Xu , 0 ≤ u ≤ t, meßbar bzgl. Ft sind. Ein stochastischer Prozeß X = (Xt )t≥0 ist wesentlich mehr als eine Menge X = {Xt : t ≥ 0} unzusammenhängender Zufallsvariablen. Auf einem niedrigen ” Niveau“ äußern sich Zusammenhänge zwischen den Zufallsvariablen in X durch 3.184 gemeinsame Meßbarkeitseigenschaften . Sei X = (Xt )t≥0 ein stochastischer Prozeß auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in dem meßbaren Raum (S, S) und sei (Ft )t≥0 eine Filtration in (Ω, F). X heißt meßbar, falls 3.185 3.186 3.187 3.188 (ω, t) ∈ Ω × [0, ∞) : Xt (ω) ∈ A ∈ F ⊗ B([0, ∞)), A ∈ S. X heißt adaptiert an (Ft )t≥0 , falls für alle t ≥ 0 die Abbildung Xt : (Ω, Ft ) → (S, S) meßbar ist 3.189. Beispiel 3.29. Ein stochastischer Prozeß X = (Xt )t≥0 ist adaptiert an die von X erzeugte Filtration (FtX )t≥0 3.190 3.191. 3.183Vgl. Beispiel 3.3. 3.184Auf einem höheren Niveau“ wäre ein Zusammenhang z.B. durch die Stetigkeit der Pfade ” t → Xt (ω) für (fast) alle ω ∈ Ω gegeben. 3.185Zur Definition des Produkts A ⊗ B von σ-Algebren A und B vgl. Abschnitt 3.1.2. 3.186 Die Meßbarkeit des Prozesses X ist gleichbedeutend mit der Meßbarkeit der Abbildung (Ω × [0, ∞), F ⊗ B([0, ∞))) ∋ (ω, t) → Xt (ω) ∈ (S, S). 3.187 Wenn für einen reellwertigen stochastischen Prozeß X = (Xt )t≥0 auf (Ω, F, P) Größen R1 wie 0 dt Xt (ω), ω ∈ Ω, untersucht werden sollen, ist deren Meßbarkeit durch die Meßbarkeit von X gesichert. Zur Verifizierung dieser Aussage kann auf den Beweis des Satzes von Fubini, vgl. Satz 3.21, Bezug genommen werden. Jener Beweis ist in Fußnote 3.153 grob skizziert. 3.188 Für ein A ⊆ [0, ∞) mit A ∈ / B([0, ∞)) und einen Wahrscheinlichkeitsraum (Ω, F, P) sei Xt (ω) = IA (t), ω ∈ Ω, t ≥ 0. X = (Xt )t≥0 ist ein stochastischer Prozeß, denn für alle t ≥ 0 ist Xt eine reellwertige Zufallsvariable auf (Ω, F, P). Allerdings ist X nicht meßbar, denn {(ω, t) ∈ Ω × [0, ∞) : Xt (ω) = 1} = Ω × A ∈ / F ⊗ B([0, ∞)). 3.189Die Adaptiertheit besagt, daß die zeitliche Entwicklung des stochastischen Prozesses X an den durch die Filtration (Ft )t≥0 charakterisierten zeitlichen Fluß“ von Ereignissen angepaßt ” ist. Andere Varianten dieser Anpassung können durch Begriffe wie progressive Meßbarkeit, vgl. [26], Chapter I, Definition (4.7), bzw. Vorhersehbarkeit, vgl. [26], Chapter IV, §5, beschrieben werden. Mit vorhersehbaren stochastischen Prozessen in diskreter Zeit wird in Beispiel 4.39 gearbeitet. Progressiv meßbare, bzw. vorhersehbare stochastische Prozesse werden auch in Abschnitt 5.2.5 vorgestellt. Sie werden zur Charakterisierung allgemeiner Integranden in stochastischen Integralen bzgl. quadratintegrabler Martingale benötigt, vgl. Abschnitt 6.2.4. 3.190Für alle t ≥ 0 ist nach Definition von F X = σ(X , 0 ≤ u ≤ t) insbesondere X meßbar u t t bzgl. FtX . 3.191 Der in Fußnote 3.188 betrachtete stochastische Prozeß X ist zwar adaptiert an (FtX )t≥0 aber nicht meßbar. Andererseits braucht ein meßbarer stochastischer Prozeß X nicht adaptiert an eine Filtration (Ft )t≥0 zu sein, wenn Ft ( FtX , t ≥ 0. 22. Juli 2014 48 Wenn der Zeitpunkt des Eintretens eines Ereignisses zufällig ist, spricht man von einer Zufallszeit. In speziellen Situationen kann es evtl. für jeden beliebigen, festen Zeitpunkt t ≥ 0 nur vom Geschehen bis zu diesem Zeitpunkt und nicht von der Zukunft abhängen, ob jenes Ereignis dann schon eingetreten ist. Dann liegt eine Stoppzeit vor. Für genauere Definitionen sei (Ω, F, P) ein Wahrscheinlichkeitsraum mit einer Filtration (Ft )t≥0 . Eine Zufallszeit T ist eine F-meßbare Zufallsvariable mit Werten in ([0, ∞], B([0, ∞])) 3.192. Eine Zufallszeit T heißt Stoppzeit bzgl. (Ft )t≥0 , falls 3.193 {T ≤ t} ∈ Ft , Im speziellen zeitlich diskreten Fall zu Stoppzeiten. t ∈ [0, ∞). 3.194 vereinfachen sich viele Überlegungen Beispiel 3.30. Sei X = (Xn )n∈N0 die symmetrische Irrfahrt in Z 3.195 und sei a ∈ Z. Ta = inf{n ∈ N0 : Xn = a} 3.196 ist eine Stoppzeit bzgl. (FnX )n∈N0 , während Sa = sup{n ∈ N0 : Xn = a} zwar eine Zufallszeit aber keine Stoppzeit bzgl. (FnX )n∈N0 ist 3.197 3.198. Das folgende Resultat zeigt, daß durch gewisse Kombinationen von gegebenen Stoppzeiten neue Stoppzeiten entstehen. Satz 3.31. Sei (Ω, F, P) ein mit einer Filtration (Fn )n∈N0 versehener Wahrscheinlichkeitsraum. Seien außerdem S, T und Tk , k ∈ N, Stoppzeiten bzgl. (Fn )n∈N0 und Θ ≥ 0 eine Konstante. (a) T + Θ ist eine Stoppzeit 3.199. (b) T + S, T ∨ S = max{T, S} und T ∧ S = min{T, S} sind Stoppzeiten 3.200. (c) supk∈N Tk , inf k∈N Tk , lim supk∈N Tk und lim inf k∈N Tk sind Stoppzeiten. Sei T eine Stoppzeit und A ein Ereignis, das vom Geschehen bis zum zufälligen ” Zeitpunkt T abhängt“. Dann gilt auf einem anschaulichen Niveau: Wenn zu einem Somit sind Meßbarkeit und Adaptiertheit eines stochastischen Prozesses keine vergleichbaren Begriffe, wenn nicht zusätzliche Voraussetzungen angenommen werden. 3.192Der Fall T = ∞ soll nicht ausgeschlossen sein. Hierzu wird in [0, ∞] die σ-Algebra B([0, ∞]) = σ(B([0, ∞)), {∞}) benutzt. 3.193Um die Präzision zu verdeutlichen, mit der in der Wahrscheinlichkeitstheorie i. allg. gearbeitet werden sollte, sei daraufhingewiesen, daß eine ([0, ∞], B([0, ∞]))-wertige, meßbare Abbildung T auf (Ω, F, P) als optionale Zeit bzgl. (Ft )t≥0 bezeichnet wird, wenn {T < t} ∈ Ft , t ∈ [0, ∞). Eine Stoppzeit ist optional. Andererseits ist beispielsweise eine optionale Zeit auch eine Stoppzeit, wenn die Filtration (Ft )t≥0 rechtsstetig ist, vgl. Abschnitt 5.2.3. Weitere Informationen zu optionalen Zeiten und Stoppzeiten finden sich in [19], Abschnitt 1.2. 3.194Nun werden Stoppzeiten bzgl. einer Filtration (F ) n n∈N0 betrachtet. 3.195Vgl. Beispiel 2.9 und Fußnote 2.69. 3.196T ist die Eintrittszeit in die Menge {a}. a 3.197Zu keinem Zeitpunkt reichen die dann vorliegenden Informationen über X aus, um zu X , n ∈ N . Trivialerweise ist S eine entscheiden, ob Sa schon eingetreten ist, d.h., {Sa ≤ n} 6∈ Fn a 0 X;∞ X;∞ Stoppzeit bzgl. der Filtration (Fn )n∈N0 , wobei Fn = σ(Xk , k ∈ N0 ), n ∈ N0 . Allerdings ist diese Beobachtung mathematisch nutzlos. 3.198 Aus Satz 4.23 und Satz (6.29) in [10] folgt, daß P[Sa = ∞] = 1. 3.199Offensichtlich braucht T + Θ keine Stoppzeit zu sein, wenn Θ < 0, denn für n ∈ N ist 0 ( ⊆ Fn , falls Θ ≥ 0, {T + Θ ≤ n} = {T ≤ n − Θ} ∈ Fn−Θ * Fn , i. allg., falls Θ < 0. 3.200Beispielsweise ist {T + S ≤ n} = Sn ({T = k} ∩ {S ≤ n − k}) ∈ F , bzw., {T ∧ S ≤ n k=0 n} = {T ≤ n} ∪ {S ≤ n} ∈ Fn für alle n ∈ N0 . 22. Juli 2014 49 festen Zeitpunkt n bekannt ist, daß T ≤ n, dann ist zusätzlich zu diesem Zeitpunkt auch bekannt, ob A eingetreten ist oder nicht, d.h., {T ≤ n} ∩ A ∈ Fn , {T ≤ n} ∩ (Ω \ A) ∈ Fn , (3.35) n ∈ N0 . Man bezeichnet die Menge aller Ereignisse A ∈ F, die (3.35) erfüllen, als die von T erzeugte σ-Algebra FT 3.201. Beispiel 3.32. Für a > 0 und ein b < 0 sei in der in Beispiel 3.30 angesprochenen Situation 3.202 A = {min{Xk : k ≤ Ta } < b}. Dann gilt A ∈ FTa . Um in mathematisch komplexen Situationen lästige Probleme mit Nullmen” gen“ zu vermeiden, arbeitet man oft mit Vervollständigungen von σ-Algebren. Zur 3.203 Erläuterung sei (Ω, F, P) ein Wahrscheinlichkeitsraum und NP = A ⊆ Ω : A ⊆ B, B ∈ F, P[B] = 0 . Für eine σ-Algebra G ⊆ F wird dann GP = σ(G∪NP ) als Vervollständigung von G bzgl. P in (Ω, F) bezeichnet 3.204 3.205. Eine σ-Algebra G heißt vollständig bzgl. P in (Ω, F), wenn G = GP , d.h., wenn NP ⊆ G. Falls (Gt )t≥0 eine Filtration in (Ω, F, P) ist, so ist entsprechend (GP t )t≥0 die Vervollständigung von (Gt )t≥0 bzgl. P in (Ω, F). (GP ) ist offensichtlich eine Filt t≥0 tration in FP , braucht jedoch keine Filtration in F zu sein. Im Rest dieses Skripts sei angenommen, daß allgemeine 3.206 σ-Algebren und Filtrationen in einem Wahrscheinlichkeitsraum (Ω, F, P) bzgl. P in (Ω, F) vollständig sind. Weiterhin sei auch für einen stochastischen Prozeß X = (Xt )t≥0 unter (FtX )t≥0 immer ((FtX )P )t≥0 verstanden 3.207. Abweichend hiervon werden Borelsche σ-Algebren 3.208 nicht als vollständig betrachtet. 4. Ausblick auf zentrale Themen der Wahrscheinlichkeitstheorie In der Wahrscheinlichkeitstheorie lassen sich größere Themenkomplexe identifizieren, in denen jeweils zusammenhängende Fragestellungen behandelt werden. In diesem Abschnitt 4 sollen exemplarisch einige der herausragenden Themenbereiche vorgestellt werden 4.1. 3.201F T ist in der Tat eine σ-Algebra, d.h., die Bedingungen (2.1) sind erfüllt. 3.202A ist das Ereignis, daß die Irrfahrt vor dem Eintritt in {a} die Schranke b unterschreitet. 3.203NP ist die Menge aller Teilmengen von F-meßbaren Mengen B mit P[B] = 0. I. allg. enthält NP auch Mengen C ∈ / F. 3.204Da NP Mengen enthalten kann, die nicht F-meßbar sind, ist i. allg. GP nicht in F enthalten. 3.205 Wenn P und Q zwei verschiedene Wahrscheinlichkeitsmaße in (Ω, F) sind, so ist i.allg. P G 6= GQ . 3.206Die Bezeichnung allgemein“ soll andeuten, daß keine spezielle Struktur, die über die in ” (2.1) und (3.34) gegebenen Definitionen von σ-Algebren, bzw. Filtrationen hinausgeht, angenommen wird. 3.207Anders als in der am Anfang dieses Abschnitts 3.9 gegebenen Definition ist somit F X = t (FtX )P = σ(Xu , 0 ≤ u ≤ t)P , t ≥ 0, d.h., für t ≥ 0 ist FtX die kleinste σ-Algebra, bzgl. der alle Zufallsvariablen Xu , 0 ≤ u ≤ t, meßbar sind, und die außerdem alle Teilmengen von P-Nullmengen in F enthält. 3.208Vgl. Abschnitt 3.1.3. 4.1Diese Themenbereiche sind Gesetz der großen Zahlen, Zentraler Grenzwertsatz, Markovprozesse, Martingale, Brownsche Bewegung, bzw. stochastische Integrale und stochastische Differentialgleichungen. 22. Juli 2014 50 4.1. Gesetz der großen Zahlen. Für eine Folge Xn , n ∈ N, von ZufallsPN variablen ist die Asymptotik des empirischen Mittels (1/N ) k=1 Xk bei N → ∞ zu bestimmen. In den üblichen Resultaten ergibt sich hierbei ein deterministischer Grenzwert 4.2. Die verschiedenen Resultate dieses Themenbereichs unterscheiden sich im wesentlichen hinsichtlich des • Grades der Abhängigkeit zwischen den Zufallsvariablen Xn , n ∈ N, 4.3 bzw. des • verwendeten Konvergenzbegriffs 4.4, oder auch der • Dimension des Wertebereichs der Zufallsvariablen Xn , n ∈ N. 4.1.1. Schwaches Gesetz der großen Zahlen. In der zunächst vorgestellten Variante sind Abhängigkeiten zwischen den Zufallsvariablen Xn , n ∈ N, erlaubt. Während diese Zufallsvariablen nicht die gleiche Verteilung zu besitzen brauchen, müssen sie jedoch gleichmäßig quadratintegrabel sein. Satz 4.1. 4.5 Seien X1 , X2 , . . . reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit supn∈N E[Xn2 ] < ∞ und E[Xn ] = µ, n ∈ N. Diese Zufallsvariablen seien paarweise unkorreliert, d.h., E[(Xn −µ)(Xm −µ)] = 0, m, n ∈ N, PN m 6= n. Dann konvergiert ZN = (1/N ) k=1 Xk bei N → ∞ stochastisch gegen eine Zufallsvariable, die f.s. den Wert µ annimmt 4.6. Das nächste Resultat beschreibt notwendige und hinreichende Bedingungen für die Gültigkeit des schwachen Gesetzes der großen Zahlen für unabhängige, identisch verteilte, reellwertige Zufallsvariablen. Diese müssen nicht notwendigerweise quadratintegrabel sein. Sogar auf die Existenz eines Erwartungswerts kann verzichtet werden 4.7. Satz 4.2. 4.8 Seien X1 , X2 , . . . unabhängige, identisch verteilte, reellwertige ZufallsPN variablen. Dann konvergieren die Zufallsvariablen ZN = (1/N ) k=1 Xk , N ∈ N, genau dann in Wahrscheinlichkeit gegen eine Konstante µ, wenn (4.1) oder wenn gilt (4.2) lim nP[|X1 | > n] = 0, n→∞ lim E[X1 I{|X1 |≤n} ] = µ n→∞ 4.9 : ′ (0) = iµ. ψX1 ist differenzierbar in 0 mit ψX 1 Beispiel 4.3. 4.10 Auch wenn X1 und damit alle Xk , k ∈ N, einer Folge von i.i.d. Zufallsvariablen keinen Erwartungswert besitzen, kann das schwache Gesetz der 4.2Wenn der Grenzwert zwar existiert, aber zufällig ist, spricht man oft nicht mehr von einem Gesetz der großen Zahlen. Solche Fälle werden in Beispiel 4.4 und in Abschnitt 4.1.3 angesprochen. 4.3In den einfachsten Varianten des Gesetzes der großen Zahlen wird angenommen, daß die Zufallsvariablen Xn , n ∈ N, unabhängig und identisch verteilt sind. 4.4Wenn stochastische Konvergenz, d.h., Konvergenz in Wahrscheinlichkeit, gegen den Grenzwert vorliegt, spricht man von einem schwachen Gesetz der großen Zahlen. Ein Resultat mit der stärkeren fast sicheren Konvergenz wird als starkes Gesetz der großen Zahlen bezeichnet. 4.5Vgl. [10], Satz (5.6). PN 4.6Für die Zufallsvariablen Z g g N = ZN −µ = (1/N ) k=1 (Xk −µ), N ∈ N, gilt E[ZN ] = 0 und P P 2 N N −2 −2 2 g E[ZN ] = N E[(Xk −µ)(Xl −µ)] = N E[(Xk −µ) ] ≤ C/N , wobei insbesondere k,l=1 k=1 benutzt wurde, daß die Zufallsvariablen Xk , k ∈ N, unkorreliert und ihre Varianzen gleichmäßig beschränkt sind. Mit der Čebyšev-Ungleichung, vgl. Abschnitt 3.6.3, folgt nun P[|Zn − µ| > ǫ] ≤ N→∞ E[|Zn − µ|2 ]/ǫ2 ≤ C/(ǫ2 N ) → 0, ǫ > 0. 4.7 Vgl. Beispiel 4.3. 4.8 Vgl. [12], Section 7.4, Theorem (7). 4.9ψ X1 ist die charakteristische Funktion der Zufallsvariable X1 , vgl. Fußnote 3.78 und Anhang A.4.1. 4.10Die Beispiele 4.3 und 4.4 werden in [12], Section 7.4 angesprochen. 22. Juli 2014 51 großen Zahlen gelten 4.11. Zur Begründung wird nun eine Zufallsvariable X1 ohne Erwartungswert, die jedoch (4.1) erfüllt, beschrieben. Hierzu sei angenommen, daß X1 eine Verteilung PX1 mit einer Dichte f besitzt, wobei f (x) = f (−x), x ∈ R, 1 , x ≥ C, PX1 [(x, ∞)] = x log x für ein hinreichend großes C. Offensichtlich ist (4.1) mit µ = 0 erfüllt. Andererseits ist d d P[X1 ≤ x] = (1 − PX1 [(x, ∞)]) dx dx 1 + log x , x > C, = (x log x)2 f (x) = und daher 4.12 4.13 E[(X1 )+ ] = E[(X1 )− ] Z ∞ Z ∞ 1 1 + log x dx ≥ = dx x ≥ 2 (x log x) x log x C C 4.14 ∞, d.h., X1 besitzt keinen Erwartungswert 4.15. Beispiel 4.4. Die Zufallsvariablen X1 , X2 , . . . seien unabhängig und identisch gemäß der Cauchy-Verteilung mit der Dichte f1 (x) = (π(1 + x2 ))−1 , x ∈ R, verteilt. Da Z Z ∞ 2 2 ∞ 1 1 n→∞ 2 ∼ P[|X1 | > n] = , dx dx 2 = 2 π n 1+x π n x πn ist die erste Bedingung in (4.1) nicht erfüllt. Ebenso ist (4.2) nicht gültig, denn E[exp(iλX1 )] = 1 π Z ∞ −∞ dx exp(iλx) = exp(−|λ|), 1 + x2 4.16 λ ∈ R. Nach Satz 4.2 kann daher das schwache Gesetz der großen Zahlen nicht gelten 4.17 . 4.11Nach Satz 4.5 gilt in einem solchen Fall kein starkes Gesetz der großen Zahlen. 4.12Wenn die Verteilungsfunktion einer Zufallsvariable Y , vgl. Abschnitt 2.2.1, eine Ableitung g hat, so besitzt die Verteilung PY von Y die Dichte g. 4.13 (X1 )+ = max{X1 , 0} und (X1 )− = max{−X1 , 0} sind Positiv-, bzw. Negativteil von X1 . 4.14Man beachte, daß P∞ (k log k)−1 = ∞, vgl. [22], §39. k=2 4.15Vgl. Abschnitt 3.6.2. 4.16Diese Beziehung kann mit dem Residuensatz aus der Funktionentheorie bewiesen werden, vgl. [2], Chapter 4, Section 5. 4.17Die Dichte der Zufallsvariablen X , n ∈ N, dieses Beispiels, für die kein schwaches Gesetz n der großen Zahlen gilt, verhält sich bei |x| → ∞ wie x−2 . Im Vergleich dazu fällt die Dichte der Zufallsvariablen Xn , n ∈ N, aus Beispiel 4.3, für die ein schwaches Gesetz der großen Zahlen vorliegt, wie (x2 log |x|)−1 , d.h. ein wenig stärker ab. 22. Juli 2014 52 PN Mit X1 , X2 , . . . besitzen auch die Zufallsvariablen ZN = (1/N ) k=1 Xk , N ∈ N, eine Cauchy-Verteilung mit Dichte f1 (x) = (π(1 + x2 ))−1 , x ∈ R 4.18. Insbesondere konvergiert ZN bei N → ∞ in Verteilung 4.19 gegen eine Cauchy-verteilte Zufallsvariable Z mit Dichte f1 4.20. 4.1.2. Starkes Gesetz der großen Zahlen. Analog zu Satz 4.2 können notwendige und hinreichende Bedingungen für die Gültigkeit des starken Gesetzes der großen Zahlen für unabhängige, identisch verteilte, reellwertige Zufallsvariablen angegeben werden. Satz 4.5. 4.21 Seien X1 , X2 , . . . unabhängige, identisch verteilte, reellwertige ZuPN fallsvariablen. Dann konvergiert ZN = (1/N ) k=1 Xk bei N → ∞ f.s. genau dann gegen eine Konstante µ, wenn E[|X1 |] < ∞. In diesem Fall ist µ = E[X1 ]. Unter den Voraussetzungen von Satz 4.1, d.h., für nicht notwendigerweise unabhängige aber gleichmäßig quadratintegrable Zufallsvariablen, gilt übrigens auch das starke Gesetz der großen Zahlen 4.22. 4.1.3. Subadditiver Ergodensatz. 4.23 Das nun beschriebene Resultat kann dem weiteren Umfeld des Gesetzes der großen Zahlen zugeordnet werden 4.24. Satz 4.6. 4.25 Sei Xm,n , m = 0, . . . , n − 1, n ∈ N, eine Familie von reellwertigen Zufallsvariablen mit (4.3a) (4.3b) (4.3c) (4.3d) X0,k + Xk,n ≥ X0,n , k = 1, . . . , n − 1, n = 2, 3, . . . , 4.26 für festes k ∈ N ist der Prozeß (Xnk,(n+1)k )n∈N stationär die gemeinsame Verteilung 4.28 , von Xm,m+k , k ∈ N, ist von m ∈ N0 unabhängig, E[max{X0,1 , 0}] < ∞, 4.27 E[X0,n ] ≥ γ0 n, n ∈ N, für ein γ0 > −∞ 4.29 . 4.18Für charakteristische Funktionen von Zufallsvariablen gilt insbesondere ψX+Y = ψX ψY , falls X und Y unabhängig sind, ψαX (λ) = ψX (αλ), α, λ ∈ R, vgl. Anhänge A.4.1.1 und A.4.1.3. Somit hat ZN die charakteristische Funktion ψZN (λ) = (exp(−|λ|/N ))N = exp(−|λ|), λ ∈ R. Da die Verteilung einer Zufallsvariable durch ihre charakteristische Funktion eindeutig bestimmt ist, vgl. Anhang A.4.1.5, besitzt ZN eine Cauchy-Verteilung mit Dichte f1 . 4.19Vgl. Satz 3.14. 4.20Dieses Konvergenzresultat kann auch als ein nicht-zentraler Grenzwertsatz betrachtet werden, vgl. Abschnitt 4.2.4. 4.21Vgl. [12], Section 7.5, Theorem (1). Die Behauptung, daß E[|X |] < ∞ hinreichend für die 1 Konvergenz limN→∞ ZN = E[X1 ], f.s., ist, wird in Beispiel 4.38 mit Hilfe eines Konvergenzsatzes für Submartingale, vgl. Satz 4.37, bewiesen. Hierbei findet auch das 0 -1-Gesetz von Kolmogorov, vgl. Satz 5.3, Verwendung. Die Notwendigkeit von E[|X1 |] < ∞ für die genannte Konvergenz wird in Beispiel 5.2 als eine Anwendung des Lemmas von Borel-Cantelli, vgl. Satz 5.1, demonstriert. 4.22Vgl. [10], Satz (5.15). 4.23Die in diesem Abschnitt 4.1.3 beschriebenen Resultate geben einen Einblick in jenen Teil des mathematischen Gebiets der Ergodentheorie, der in die Wahrscheinlichkeitstheorie hineinragt. Weitere Informationen können [7], Chapter 6, oder [18], Chapter 10, entnommen werden. 4.24Die folgenden Beispiele 4.7 und 4.8 demonstrieren allerdings, daß Satz 4.6 die Behandlung von Problemen, die wesentlich über die in den Sätzen 4.1, 4.2 oder 4.5 angesprochenen Fragestellungen hinausgehen, ermöglicht. 4.25Vgl. [7], Section 6.6, Theorem (6.1). 22. Juli 2014 53 Dann gilt (4.4a) (4.4b) 1 1 E[X0,n ] = inf E[X0,n ] = γ für ein γ ∈ R, n∈N n n 1 X = lim X0,n existiert f.s. und in L1 4.30. n→∞ n lim n→∞ Der Grenzwert X muß in der in Satz 4.6 beschriebenen Situation keine Konstante sein 4.31. Beispiel 4.7 (Ergodensatz 4.32). Sei (ξn )P n∈N ein stationärer, reellwertiger Pron zeß 4.33 mit E[|ξ1 |] < ∞ und sei Xm,n = k=m+1 ξk , m = 0, . . . , n − 1, n ∈ N. Die Familie der Zufallsvariablen Xm,n , m = 0, . . . , n − 1, n ∈ N, erfüllt die Voraussetzungen (4.3) von Satz 4.6 und damit existiert f.s. und in L1 der Grenzwert PN X = limN →∞ (1/N )X0,N = limN →∞ (1/N ) k=1 ξk 4.34 4.35. Beispiel 4.8. 4.36 Sei (ξn )n∈N der stationäre Prozeß aus Beispiel 4.7 und sei Sn = ξ1 + · · · + ξn , n ∈ N. Außerdem sei 4.37 Xm,n = |{Sm+1 , . . . , Sn }|, m = 0, . . . , n − 1, n ∈ N. Diese Familie von Zufallsvariablen erfüllt ebenfalls die Voraussetzungen von Satz 4.6, d.h., X0,n /n = (1/n)|{S1 , . . . , Sn }| konvergiert bei n → ∞ f.s. und in L1 4.38. 4.1.4. Ein Gesetz der großen Zahlen für Zufallsvariablen mit Werten in einem hochdimensionalen“ Raum. Als ein Beispiel wird die Asymptotik des empirischen ” Mittels spezieller unabhängiger, identisch verteilter Zufallsvariablen betrachtet, die Werte in einem Raum von Funktionen annehmen. 4.26(4.3a) ist eine Subadditivitätseigenschaft. Diese Eigenschaft ist beispielsweise für die Zuwächse Xm,n = Xn − Xm , m = 0, . . . , n − 1, n ∈ N, eines stochastischen Prozeßes (Xn )n∈N oder auch für deren Beträge, d.h. für Xm,n = |Xn − Xm |, m = 0, . . . , n − 1, n ∈ N, erfüllt. 4.27 Vgl. Abschnitt 2.5. 4.28 Vgl. Abschnitt 2.2.1. 4.29 Es wird insbesondere angenommen, daß die in (4.3d) angesprochenen Erwartungswerte existieren, vgl. Abschnitt 3.6.2. Mit den Bedingungen (4.3a) - (4.3d) folgt dann weiterhin, daß die Zufallsvariablen Xm,n , m = 0, . . . , n − 1, n ∈ N, integrabel sind. 4.30Aus (4.4) folgt insbesondere E[X] = γ, vgl. Fußnote 3.163. 4.31Wenn die stationären Prozesse in (4.3b) sogar ergodisch sind, gilt X = γ, f.s., vgl. [7], Section 6.6, Theorem (6.1). Die Ergodizität eines auf einem Wahrscheinlichkeitsraum (Ω, F, P) definierten reellwertigen stationären stochastischen Prozesses Y = (Yn )n∈N besagt im wesentlichen, daß alle durch Y bestimmten Ereignisse A ∈ F, die invariant unter Verschiebungen des Zeitursprungs sind, die Wahrscheinlichkeit P[A] = 0 oder P[A] = 1 besitzen, vgl. [7], Section 6.1. Für B ∈ B(R) ist {Yn ∈ B für jedes zweite n bei n → ∞} ein Beispiel für ein solches invariantes Ereignis. Andererseits ist das Ereignis {Y3 ∈ B} i. allg. nicht invariant. 4.32 Vgl. [7], Section 6.6, Example 6.1, und insbesondere [12], Section 9.5, Theorem (2). 4.33Vgl. Abschnitt 2.5. 4.34Eine genauere Beschreibung des Grenzwerts X wird außer im Fall X = konstant, f.s., von Satz 4.6 nicht geliefert. 4.35 Wegen der hier vorausgesetzten Integrabilitätsbedingung E[|ξ1 |] < ∞, umfaßt dieses Beispiel nicht den in Beispiel 4.4 vorgestellten Fall. 4.36 Vgl. [7], Section 6.6, Example 6.2. 4.37X m,n ist das Volumen“ des Bereichs, der von dem Prozeß S = (Sn )n∈N zwischen den ” Zeitpunkten m + 1 und n besucht wird. 4.38Seien ξ , n ∈ N, unabhängige Zufallsvariablen mit P[ξ = −1] = P[ξ = 1] = 1/2, n n n Pn n ∈ N, d.h., (ξn )n∈N ist ein Bernoulli-Prozeß. Dann ist S = (Sn )n∈N0 mit Sn = k=1 ξk , n ∈ N0 , die symmetrische Irrfahrt, vgl. Beispiel 2.9 und Fußnote 2.69. Auf eine analoge Weise kann die symmetrische Irrfahrt in höherdimensionalen quadratischen Gittern dargestellt werden. Somit zeigen die Überlegungen dieses Beispiels 4.8, daß das Volumen“ der Pfade der Irrfahrt in ” Zd , d = 1, 2, . . . , asymptotisch höchstens linear anwächst. 22. Juli 2014 54 Sei zunächst Xn , n ∈ N, eine Folge unabhängiger, identisch verteilter, reellwertiger Zufallsvariablen, deren Verteilung durch die Verteilungsfunktion 4.39 F charakterisiert ist. Für n ∈ N sei außerdem die Funktion Yn : R → [0, 1] durch Yn (x) = I(−∞,x] (Xn ), x ∈ R, definiert 4.40. Für x ∈ R und N ∈ N gibt die empirische Verteilungsfunktion (4.5) FN (x) := N N 1 X 1 1 X Yk (x) = I(−∞,x] (Xk ) = |{k = 1, . . . , N : Xk ≤ x}| N N N k=1 k=1 die relative Anzahl der Zufallsvariablen X1 , . . . , XN an, die einen Wert ≤ x annehmen. Nach dem starken Gesetz der großen Zahlen 4.41 gilt lim FN (x) = E[Y1 (x)] = P[X1 ≤ x] = F (x), f.s., (4.6) N →∞ x ∈ R. Als Erweiterung von (4.6) belegt das nachfolgende Resultat, daß die Konvergenz von FN (x) gegen F (x) sogar gleichmäßig in x ∈ R gilt. Satz 4.9 (Satz von Glivenko-Cantelli). 4.42 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige Zufallsvariablen mit der Verteilungsfunktion F . Seien weiterhin die empirischen Verteilungsfunktionen FN , N ∈ N, durch (4.5) gegeben. Dann gilt 4.43 4.44 f.s. sup |FN (x) − F (x)| → 0. (4.7) x∈R Der Satz von Glivenko-Cantelli verdeutlicht, wie die empirischen Verteilungsfunktionen FN , N ∈ N, bei der Schätzung einer unbekannten Verteilungsfunktion F anwendbar sind. 4.2. Zentraler Grenzwertsatz. In diesem Abschnitt wird die im Gesetz der großen Zahlen festgehaltene Konvergenz von normierten Partialsummen ZN = P (1/N ) N k=1 Xk einer Folge Xn , n ∈ N, von Zufallsvariablen gegen einen deterministischen Grenzwert µ präzisiert. Durch einen Zentralen Grenzwertsatz kann √ in vielen Situationen nachgewiesen werden, daß die reskalierten Fluktuationen N (ZN − µ) der ZN , N ∈ N, um ihren Grenzwert µ asymptotisch bei N → ∞ normalverteilt sind. 4.39Vgl. Abschnitt 2.2.1. 4.40Mit X , n ∈ N, sind auch Y , n ∈ N, unabhängige, identisch verteilte Zufallsvariablen. n n Allerdings sind Yn , n ∈ N, Zufallsvariablen mit Werten in einem Raum von Funktionen. Für n ∈ N hat die zufällige Funktion Yn einen Sprung der Größe 1 an der Stelle Xn . Sonst ist Yn konstant mit Yn (x) = 0, x < Xn , und Yn (x) = 1, x ≥ Xn . 4.41 Vgl. Satz 4.5. Beachte, daß für x ∈ R die {0, 1}-wertigen Zufallsvariablen Y (x), n ∈ N, n i.i.d. mit E[Y1 (x)] = E[I(−∞,x] (X1 )] = P[X1 ≤ x] = F (x) sind. 4.42Vgl. [5], Theorem 20.6 4.43sup x∈R |FN (x) − F (x)| ist eine meßbare (R, B(R))-wertige Funktion, d.h., eine reellwertige Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F, P), auf dem die Zufallsvariablen X1 , X2 , . . . definiert sind. Dies folgt aus Beispiel 3.6 und der Tatsache, daß die Funktionen F und FN , N ∈ N, rechtsstetig sind, vgl. insbesondere Fußnote 2.32, und daher supx∈R . . . in (4.7) durch supx∈Q . . . ersetzt werden kann. 4.44 Die zufälligen Funktionen“ Yn , n ∈ N, können als i.i.d. Zufallsvariablen auf einem Wahr” scheinlichkeitsraum (Ω, F, P) mit Werten in dem Raum D(R; R) der reellwertigen, rechtsstetigen Funktionen mit linksseitigem Grenzwert auf R betrachtet werden. Durch kf k∞ = supx∈R |f (x)|, f ∈ D(R; R), wird eine Norm in dem Vektorraum D(R; R) definiert. Nun kann (4.7) in der für das starke Gesetz der großen Zahlen üblichen“ Form ” "( )# N N 1 X 1 X f.s. Yk → F = E[Y1 ], bzw. P ω ∈ Ω : lim Yk (., ω) − F (.) = 0 = 1, N→∞ N N k=1 k=1 ∞ geschrieben werden, wobei Yn (x, ω) = I(−∞,x] (Xn (ω)), x ∈ R, ω ∈ Ω, n ∈ N, ist. Normalerweise wird allerdings in D(R; R) die sog. Skorohod-Topologie benutzt, die nicht durch die Norm k . k∞ erzeugt werden kann, vgl. [4], Chapter 3. 22. Juli 2014 55 In diesem Abschnitt wird zunächst der Zentrale Grenzwertsatz für unabhängige, reellwertige Zufallsvariablen diskutiert. Die im√Fall von i.i.d. Zufallsvariablen sich ergebende Beschreibung der Asymptotik von N (ZN − µ) bei N → ∞ wird anschließend in ergänzenden Resultaten durch weitere Details präzisiert. Nach einem Zentralen Grenzwertsatz für mehrdimensionale i.i.d. Zufallsvariablen wird in einem Ausblick auf nicht-zentrale Grenzwertsätze erläutert, welche Grenzverteilungen allgemein für reskalierte Fluktuationen von normierten Partialsummen von reellwertigen, i.i.d. Zufallsvariablen möglich sind 4.45. Abschließend wird ein Zentraler Grenzwertsatz für abhängige Zufallsvariablen und eine ∞-dimensionale Variante des Zentralen Grenzwertsatzes vorgestellt. 4.2.1. Zentraler Grenzwertsatz für reellwertige, unabhängige Zufallsvariablen. Als eine klassische Variante des Zentralen Grenzwertsatzes kann das folgende Resultat betrachtet werden. Satz 4.10. 4.46 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige, quadratintegrable Zufallsvariablen mit E[X1 ] = µ und Var(X1 ) = σ 2 ∈ (0, ∞) 4.47. PN Sei weiter ZN = (1/N ) k=1 Xk , N ∈ N. Dann gilt r N (ZN − µ) = ζ in Verteilung, wobei Pζ = N(0, 1) 4.48. (4.8) lim N →∞ σ2 Als Konsequenz von Satz 3.14 ist (4.8) äquivalent zu 4.49 "r # N lim P (4.9) (ZN − µ) ∈ (a, b) N →∞ σ2 Z b 1 dx exp(−x2 /2), −∞ ≤ a < b ≤ ∞. = √ 2π a Die folgende Variante des Zentralen Grenzwertsatzes zeigt, daß viele kleine, ” unabhängige, zufällige Beiträge“ sich zu einem normalverteilten Gesamteffekt aufsummieren 4.50. Satz 4.11 (Satz von Lindeberg-Feller). 4.51 Für n ∈ N seien die Zufallsvariablen Xn,m , m = 1, . . . , n, unabhängig mit E[Xn,m ] = 0, m = 1, . . . , n. Es gelte 4.52 (4.10a) (4.10b) lim n→∞ lim n→∞ n X m=1 n X m=1 E[(Xn,m )2 ] = σ 2 ∈ (0, ∞), E (Xn,m )2 I{|Xn,m |>ε} = 0, ε > 0. 4.45Damit wird der Zentrale Grenzwertsatz als ein Spezialfall einer ganzen Familie ähnlicher Resultate identifiziert. 4.46Vgl. [7], Section 2.4, Theorem (4.1). Ein Beweis von Satz 4.10 wird in Anhang A.4.2 skizziert. 4.47Die Varianz einer Zufallsvariablen Y ist durch Var(Y ) := E[(Y − E[Y ])2 ] definiert. 4.48Die Verteilung P der Zufallsvariablen ζ ist die standard Normalverteilung N(0, 1), d.h., ζ sie besitzt die Dichte (2π)−1/2 exp(−x2 /2), x ∈ R, bzgl. des Lebesguemaßes auf R. 4.49 In den Sätzen 4.14 und 4.15 wird erläutert, inwiefern (4.9) auch noch richtig bleibt, wenn bei N → ∞ das Intervall (a, b) klein wird, bzw. sich immer weiter vom Ursprung entfernt. Die Konvergenzgeschwindigkeit in (4.9) wird in Satz 4.16 angegeben. 4.50Da in vielen Anwendungen beobachtete Meßwerte sich aus vielen kleinen, unabhängigen, ” zufälligen Beiträgen“ zusammensetzen, wird die außerordentliche Wichtigkeit des Zentralen Grenzwertsatzes und der Normalverteilung deutlich. 4.51Vgl. [7], Section 2.4, Theorem (4.5). Pn 4.52Beachte, daß in der vorliegenden Situation Pn 2 m=1 E[(Xn,m ) ] = m=1 Var(Xn,m ) = Pn Var m=1 Xn,m , n ∈ N. Während (4.10a) erlaubt, daß bei n → ∞ ein Xn,m0 alle anderen Xn,m , m = 1, . . . , n, m 6= m0 , dominiert, ergibt sich aus (4.10b), daß alle Xn,m gleichmäßig in ” m = 1, . . . , n klein“ werden, wenn n → ∞. 22. Juli 2014 56 Dann folgt lim n→∞ n X in Verteilung, wobei Pζ = N(0, σ 2 ). Xn,m = ζ m=1 Zur Gültigkeit des Zentralen Grenzwertsatzes müssen die einzelnen Summanden stärker voneinander unabhängig“ sein als beim Gesetz der großen Zahlen. ” Beispielsweise ist paarweise Unabhängigkeit nicht ausreichend 4.53. Beispiel 4.12. 4.54 Seien ξ1 , ξ2 , . . . i.i.d. Zufallsvariablen mit P[ξ1 = 1] = P[ξ1 = −1] = 1/2. Sei nun X1 = ξ1 und X2 = ξ1 ξ2 . Falls weiter m = 2n−1 + j für ein j = 1, . . . , 2n−1 mit einem n = 2, 3, . . . so sei Xm = Xj ξn+1 4.55. Als Konsequenz dieser Vorgehensweise wird deutlich, daß für alle n ∈ N für jede Teilmenge Q M ⊆ {2, . . . , n + 1} das Produkt ξ1 j∈M ξj mit genau einer der Zufallsvariablen X1 , . . . , X2n übereinstimmt. Alle Zufallsvariablen Xk , k ∈ N, enthalten den Faktor ξ1 . Darüberhinaus sind für k 6= l die jeweiligen Mengen der Faktoren ξj , die Xk , bzw. Xl definieren, verschieden. Die Zufallsvariablen Xk , k ∈ N, sind identisch verteilt mit 4.56 P[X1 = 1] = P[X1 = −1] = 1/2, d.h., mit E[X1 ] = 0, bzw. Var(X1 ) = 1. Sie sind paarweise unabhängig 4.57, jedoch nicht unabhängig 4.58. 4.53Vgl. Satz 4.1. In jener Version des schwachen Gesetzes der großen Zahlen wird nur vorausgesetzt, daß die Zufallsvariablen X1 , X2 , . . . paarweise unkorreliert sind, was insbesondere aus der paarweisen Unabhängigkeit folgt. 4.54 Vgl. [7], Section 2.4, Example 4.5 4.55Damit gilt z.B. X = ξ ξ , X = ξ ξ ξ , X = ξ ξ , X = ξ ξ ξ , X = ξ ξ ξ , 3 1 3 4 1 2 3 5 1 4 6 1 2 4 7 1 3 4 X8 = ξ1 ξ2 ξ3 ξ4 , . . . . Induktiv wird bei der Konstruktion der Zufallsvariablen Xm , m ∈ N, nach folgendem Schema vorgegangen: • Für m = 20 = 1 ist Xm = ξ1 . • Wenn für n = 1, 2, . . . die Zufallsvariablen Xm , m = 1, . . . , 2n−1 , bekannt sind, so ergeben sich Xm , m = 2n−1 + 1, . . . , 2n , durch Multiplikation der einzelnen Xm , m = 1, . . . , 2n−1 , mit ξn+1 . 4.56Aufgrund ihrer Konstruktion als Produkte von Zufallsvariablen ξ , n ∈ N, besitzen X , n m m ∈ N, Werte in {−1, 1}, wobei −1 und 1 aus Symmetriegründen offensichtlich jeweils mit Wahrscheinlichkeit 1/2 angenommen werden. Q 4.57Für eine endliche Menge M ⊆ N sei ξ M = j∈M ξj . Für l, k ∈ N mit l 6= k folgt nun aus der Konstruktion der Xm , m ∈ N, vgl. insbesondere Fußnote 4.55, daß Xk = ξM · ξM1 und Xl = ξM ·ξM2 , wobei M , M1 und M2 disjunkt sind. Da die Zufallsvariablen ξn , n ∈ N, unabhängig sind, sind auch ξM , ξM1 und ξM2 unabhängig. Somit gilt X P[Xk = α, Xl = β] = P[Xk = α, Xl = β|ξM = γ]P[ξM = γ] γ∈{−1,1} (nach der Fallunterscheidungsformel, vgl. [10], Satz (3.3)) X = P ξM1 = α/γ, ξM2 = β/γ ξM = γ P[ξM = γ] {z } | γ∈{−1,1} = P[ξM1 = α/γ]P[ξM2 = β/γ] = (1/2) · (1/2) (da ξM , ξM1 , ξM2 unabhängig und in {−1, 1} gleichverteilt sind) = 1 = P[Xk = α] P[Xl = β], 4 α, β ∈ {−1, 1}, d.h., Xk und Xl sind unabhängig. 4.58 Beispielsweise gilt P[X1 = X2 = X3 = X4 = 1] = P[ξ1 = ξ2 = ξ3 = 1] = 6= 1 8 1 = P[X1 = 1]P[X2 = 1]P[X3 = 1]P[X4 = 1]. 16 22. Juli 2014 57 Weiterhin folgt 4.59 Y {X1 , . . . , X2n } = ξ1 ξj : M ∈ Pot({2, . . . , n + 1}) , j∈M und daher X1 + · · · + X2n = ξ1 (1 + ξ2 )(1 + ξ3 ) . . . (1 + ξn+1 ). Somit ergibt sich 4.60 P X1 + · · · + X2n 2−n−1 , falls k = −2n , −n = k = 1 − 2 , falls k = 0, −n−1 2 , falls k = 2n . √ Folglich konvergiert (X1 + · · · + X2n )/ 2n bei n → ∞ in Verteilung gegen eine im Ursprung konzentrierte und nicht gegen eine gemäß N(0,1) verteilte Zufallsvariable 4.61. Für i.i.d. Zufallsvariablen gibt es notwendige und hinreichende Bedingungen für die Gültigkeit von schwachem, bzw. starkem Gesetz der großen Zahlen, vgl. Satz 4.2 und Satz 4.5. Ein analoges Resultat für den Zentralen Grenzwertsatz ist der folgende Satz. Satz 4.13. 4.62 Seien X1 , X2 , . . . unabhängige, identisch verteilte, reellwertige ZuPN fallsvariablen und sei SN = k=1 Xk , N ∈ N. Es gibt genau dann Folgen aN , N ∈ N, und bN , N ∈ N, mit bN > 0, N ∈ N, so daß (SN − aN )/bN bei N → ∞ in Verteilung gegen eine standard normalverteilte Zufallsvariable konvergiert, 4.59 Da für jedeQTeilmenge M ⊆ {2, . . . , n + 1} genau eine der Zufallsvariablen X1 , . . . , X2n die Darstellung ξ1 j∈M ξj besitzt, vgl. insbesondere die Erläuterung der Konstruktion von X1 , X2 , . . . in Fußnote 4.55. 4.60X +· · ·+X n kann nur die Werte −2n , 0 und 2n annehmen. Hierbei wird 0 angenommen, 1 2 sobald ξj = −1 für ein j = 2, . . . , n + 1. 2n wird angenommen, wenn ξj = 1 für alle j = 1, . . . , n + 1 und −2n wird angenommen, wenn ξ1 = −1 und ξj = 1 für alle j = 2, . . . , n + 1. 4.61Man beachte, daß " # 2n √ √ n→∞ 1 X Xk E h √ = (1−2−n )h(0) + 2−n−1 h(− 2n )+h( 2n ) → h(0), 2n k=1 und berücksichtige die Definition der Konvergenz in Verteilung in Abschnitt 3.5.3. 4.62 Vgl. [7], Section 2.4, Theorem (4.6). 22. Juli 2014 h ∈ Cb (R), 58 wenn 4.63 4.64 4.65 y 2 P[|X1 | > y] = 0. y→∞ E[|X1 |2 I{|X |≤y|} ] 1 (4.11) lim 4.2.2. Ergänzungen zum Zentralen Grenzwertsatz. In diesem Abschnitt werden einige Resultate vorgestellt, die die in Satz 4.10 beschriebene Asymptotik reskalierter Fluktuationen normierter Partialsummen von reellwertigen, quadratintegrablen, i.i.d. Zufallsvariablen näher beleuchten. In der folgenden lokalen Variante des Zentralen Grenzwertsatzes, dem sog. lokalen Zentralen Grenzwertsatz wird nachgewiesen, daß die Konvergenz in Satz 4.10, bzw. in (4.9) auch in asymptotisch kleiner werdenden Raumbereichen“ gültig ” bleibt. Satz 4.14. 4.66 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige Zufallsvariablen mit E[X1 ] = µ, Var(X1 ) = σ 2 ∈ (0, ∞) und 4.67 4.68 |ψX1 (λ)| < 1, (4.12) Sei weiter ZN = (1/N ) PN k=1 falls λ 6= 0. Xk , N ∈ N. Dann gilt "r # √ N α β −α β (ZN −µ) ∈ x+ √ , x+ √ (4.13) lim N P = √ exp(−x2 /2), 2 N →∞ σ 2π N N x ∈ R, −∞ < α < β < ∞. 4.63 Für i.i.d., quadratintegrable Zufallsvariablen X , X , . . . mit E[X ] = µ und Var(X ) = 1 2 1 1 √ σ2 ∈ (0, ∞) zeigt Satz 4.10, daß aN = N µ und bN = N σ2 für N ∈ N zu wählen ist. Jedoch kann auch für i.i.d. Zufallsvariablen X1 , X2 , . . . , die nicht quadratintegrabel sind, Konvergenz PN von k=1 Xk − aN /bN gegen eine normalverteilte Zufallsvariable vorliegen. Wenn z.B. die −3 Verteilung von X1 eine Dichte f ∈ Cb (R) mit f (x) = f (−x), x ∈ R, und f (x) R ∼ |x| , |x| → ∞, besitzt, so ist E[|X1 |2 ] = ∞ und bei y → ∞ weiterhin P[|X1 | > y] ∼ y∞ dx |x|−3 ∼ y −2 , R bzw. E[|X1 |2 I{|X1 |≤y|} ] ∼ 1y dx |x|−1 ∼ log y, d.h., (4.11) ist erfüllt. Die Überlegungen in [7], √ Section 2.4, Example 4.8, zeigen, daß in diesem Fall aN = 0, bN = C N log N , N ∈ N, zu wählen ist. 4.64 Wenn wie in Beispiel 4.4 die Zufallsvariablen X1 , X2 , . . . eine Cauchy-Verteilung besitzen, R so gilt bei y → ∞ sowohl P[|X1 | > y] ∼ y∞ dx (1 + x2 )−1 ∼ y −1 als auch E[|X1 |2 I{|X1 |≤y|} ] ∼ Ry dx x2 (1 + x2 )−1 ∼ y. In diesem Fall ist der Grenzwert in (4.11) strikt positiv, d.h., die in 0 Satz 4.13 beschriebene Konvergenz in Verteilung gegen eine normalverteilte Zufallsvariable ist nicht möglich. 4.65 Für viele Familien Xk , k ∈ N, von reellwertigen, i.i.d. Zufallsvariablen ist die Konvergenz PN in Verteilung reskalierter Fluktuationen von Partialsummen wie k=1 Xk − aN /bN bei N → ∞ möglich. Auf die Frage, welche Limiten hierbei im Rahmen nicht-zentraler Grenzwertsätze überhaupt möglich sind, wird in Abschnitt 4.2.4 eingegangen. 4.66Vgl. [7], Section 2.5, Theorem (5.4). 4.67ψ Y ist die charakteristische Funktion einer reellwertigen Zufallsvariable Y , vgl. Anhang A.4.1. Es sei daraufhingewiesen, daß charakteristische Funktionen als wesentliches Hilfsmittel beim Beweis von Satz 4.10 benutzt werden können, vgl. Anhang A.4.2. 4.68 Nach Theorem (5.1) in [7], Section 2.5, besagt die Bedingung (4.12), daß die Zufallsvariable X1 nicht auf einem Gitter in R konzentriert ist, d.h., es gibt kein b ∈ R und kein h > 0, so daß P[X1 ∈ {b + hk : k ∈ Z}] = 1. Auch wenn (4.12) nicht erfüllt ist, gilt ein (4.13) entsprechendes Resultat, vgl. [7], Section 2.5, Theorem (5.2). Der Fall von i.i.d. Zufallsvariablen Xn , n ∈ N, die eine Bernoulli-Verteilung besitzen, wird auch in [10], Satz (5.19), betrachtet. 22. Juli 2014 59 (4.13) kann insbesondere in der an (4.9) erinnernden Form 4.69 4.70 "r # α β N N →∞ β −α 1 (4.14) P (ZN −µ) ∈ x+ √ , x+ √ ∼ √ √ exp(−x2 /2), σ2 N N N 2π x ∈ R, −∞ < α < β < ∞, präsentiert werden. Der nun folgende Satz, ein Resultat über große Abweichungen, zeigt, daß auch in asymptotisch sehr weit vom Ursprung entfernten“ Bereichen, die unter der stan” dard Normalverteilung N(0, 1) eine asymptotisch verschwindende“ Wahrschein” lichkeit haben, der Zentrale Grenzwertsatz in einer speziellen Formulierung gültig bleibt. Satz 4.15. 4.71 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige PN Zufallsvariablen und ZN = (1/N ) k=1 Xk , N ∈ N. Sei E[X1 ] = µ, Var(X1 ) = σ 2 ∈ (0, ∞) und 4.72 (4.15) Dann folgt 4.73 E[exp(ζX1 )] < ∞, lim N →∞ für ein α > 0. # N (ZN − µ) > aN σ2 Z ∞ =1 dx exp(−x2 /2) "r P (4.16) |ζ| ≤ α, 1 √ 2π für alle Folgen aN , N ∈ N, mit 4.74 aN aN = o(N 1/6 ) bei N → ∞. Es ist möglich, die Konvergenzgeschwindigkeit beim Zentralen Grenzwertsatz zu präzisieren. Wenn die reellwertigen, i.i.d. Zufallsvariablen Xk , k ∈ N, nicht nur quadratintegrabel sind, sondern darüberhinaus ein endliches drittes Moment besitzen 4.75, ist die Konvergenz in (4.9) gleichmäßig in −∞ √ ≤ a < b ≤ ∞, wobei zusätzlich noch die Konvergenzgeschwindigkeit durch C/ N abgeschätzt werden kann. Satz 4.16 (Satz von Berry-Esseen). 4.76 Seien Xk , k ∈ N, unabhängige, idenPN tisch verteilte, reellwertige Zufallsvariablen und ZN = (1/N ) k=1 Xk , N ∈ N. Sei 4.69(4.13) zeigt, daß der Quotient der beiden Seiten von (4.14) bei N → ∞ gegen 1 konver- giert. √ √ Wenn in (4.9) das Intervall (a, b) durch (x + (α/ N ), x + (β/ N )) ersetzt und die Ste2 tigkeit von R ∋ x → exp(−x /2) berücksichtigt wird, ergibt sich (4.14) auf eine formale Weise. 4.71Vgl. [9], Chapter XVI, Section 7. 4.72Es wird die Existenz von gewissen exponentiellen Momenten gefordert. Bei gleichmäßig beschränkten Zufallsvariablen X1 ist (4.15) offenbar erfüllt. Diese Bedingung ist übrigens äquivalent zur Forderung, daß die charakteristische Funktion ψX1 von X1 in einer Umgebung des Ursprungs analytisch ist. 4.73Die Ähnlichkeit zwischen (4.16) und (4.9) oder (4.14) ist offensichtlich. Für Folgen spezieller Intervalle AN , N ∈ N, wird in diesen Resultaten jeweils gezeigt, daß # "r N N→∞ (Z − µ) ∈ A ∼ P[ζ ∈ AN ], P N N σ2 4.70 wobei ζ eine standard normalverteilte Zufallsvariable ist. 4.74Durch die Forderung a = o(N 1/6 ) bei N → ∞ wird sichergestellt, daß die Folge a , N N N ∈ N, nicht zu stark mit N anwächst. 4.75D.h., es gilt E[|X |3 ] < ∞. 1 4.76Vgl. [7], Section 2.4, Theorem (4.9). 22. Juli 2014 60 Symmetrische Irrfahrt in 1D; Gesetz vom iterierten Logarithmus: Z(N)=(X(1)+...+X(N))/(sqrt(2*N*log(log(N)))), N=1,2,...; T=100000; 5 Simulationen 2.0 1.6 1.2 0.8 0.4 0 −0.4 −0.8 −1.2 −1.6 −2.0 0 1e4 2e4 3e4 4e4 5e4 6e4 7e4 8e4 9e4 10e4 Abbildung 4.1. Verdeutlichung des Gesetzes vom Iterierten Logarithmus mit unabhängigen, in {−1, 1} gleichverteilten Zufallsvariablen Xk , k ∈ N (N ≤ 100000, 5 Simulationen). Bei der Durchführung der Simulationen fand das wissenschaftliche Softwarepaket Scilab, vgl. http://www.scilab.org/, Verwendung. E[X1 ] = µ, Var(X1 ) = σ 2 ∈ (0, ∞) und E[|X1 |3 ] < ∞. Dann gilt "r # Z y x2 1 N (4.17) (ZN − µ) ≤ y − √ sup P dx exp − σ2 2 2π −∞ y∈R ≤ 3E[|X1 − µ|3 ] √ , σ3 N N ∈ N. In Satz 4.10 wird für reskalierte Fluktuationen von normierten Partialsummen von i.i.d. Zufallsvariablen die Asymptotik in Verteilung untersucht. Wenn die Reskalierung auf eine etwas merkwürdig erscheinende Weise modifiziert wird, kann auch die f.s.-Asymptotik beschrieben werden. Satz 4.17 (Gesetz vom Iterierten Logarithmus). 4.77 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige Zufallsvariablen mit E[X1 ] = µ und Var(X1 ) = P 4.78 σ 2 ∈ (0, ∞). Sei außerdem ZN = (1/N ) N : k=1 Xk , N ∈ N. Dann gilt r N 1 (4.18) (ZN − µ) = 1, f.s., lim sup p 2 σ 2 log(log N ) N →∞ r 1 N p lim inf (ZN − µ) = − 1, f.s. 2 N →∞ σ 2 log(log N ) 4.77Vgl. [5], Theorem 9.5. 4.78Eine Illustration des Gesetzes vom Iterierten Logarithmus ist durch Abbildung 4.1 gegeben. 22. Juli 2014 61 Als eine Verschärfung von (4.18) kann festgehaltenpwerden, daß die p Menge der Häufungspunkte des stochastischen Prozesses N → (1/ 2 log(log N )) N/σ 2 (ZN − µ) bei N → ∞ das Intervall [−1, 1] ist 4.79. 4.2.3. Mehrdimensionaler Zentraler Grenzwertsatz. Bei der Übertragung von Satz 4.10 auf Rd -wertige Zufallsvariablen muß berücksichtigt werden, daß eine Normalverteilung N(µ, C) in Rd durch einen Vektor µ ∈ Rd und eine symmetrische, nichtnegativ-definite 4.80 d × d - Matrix C parametrisiert ist. Insbesondere ist eine gemäß N(µ, C) verteilte Rd -wertige Zufallsvariable X = (X1 , . . . , Xd )T durch ihre charakteristische Funktion d 1 X Ck,l λk λl , λ ∈ Rd , (4.19) ψX (λ) = E[exp(iλ · X)] = exp(iλ · µ) exp − 2 k,l=1 charakterisiert, wobei µk = E[Xk ], k = 1, . . . , d, und Ck,l = Cov(Xk , Xl ) = E[(Xk − µk )(Xl − µl )], k, l = 1, . . . , d 4.81 4.82 4.83. Eine Rd -wertige Zufallsvariable X mit der Verteilung PX = N(µ, C) hat eine Darstellung X = µ + AY , wobei 4.84 A ∈ Rd⊗d mit C = AAT , d.h., Ck,l = Pd T n=1 Ak,n Al,n , k, l = 1, . . . , d, und Y = (Y1 , . . . , Yd ) mit unabhängigen, standard 4.85 . normalverteilten Zufallsvariablen Y1 , . . . , Yd 4.79Der stochastische Prozeß N → p N/σ2 (ZN −µ) bleibt nach dem Zentralen Grenzwertsatz bei N → ∞ in Verteilung p beschränkt“. Damit er allerdings ”f.s. beschränkt“ bleibt, muß er aber ” noch zusätzlich durch log(log N ) dividiert werden. 4.80Eine symmetrische d × d - Matrix C = (C ) k,l k,l=1,...,d wird nichtnegativ-definit genannt, wenn d X Ck,l xk xl ≥ 0, x = (x1 , . . . , xd )T ∈ Rd . k,l=1 4.81µ ist der Erwartungswert und C die Kovarianzmatrix der Normalverteilung N(µ, C). 4.82 N(µ, C) besitzt nur dann eine Dichte bzgl. des Lebesguemaßes auf Rd , wenn C positiv definit ist, d.h., wenn d X k,l=1 Ck,l xk xl ≥ α d X k=1 |xk |2 , x = (x1 , . . . , xd )T ∈ Rd , für ein α > 0. In diesem Fall besitzt C eine Inverse C −1 und die Dichte von N(µ, C) ist d 1 X −1 1 √ exp − f (x) = Ck,l (xk − µk )(xl − µl ) , x ∈ Rd , 2 k,l=1 (2π)d/2 det C vgl. z.B. [6], Section 11.4. Wenn C nicht positiv definit ist, ist N(µ, C) auf einem niederdimensionalen affinen Unterraum des Rd konzentriert. 4.83 Wenn C = 0, d.h., wenn Ck,l = 0, k, l = 1, . . . , d, gilt X = µ, f.s. Insbesondere ist in diesem Fall X deterministisch. 4.84A ist eine d × d - Matrix. 4.85Da die Verteilung einer Rd -wertigen Zufallsvariablen X durch deren charakteristische Funktion eindeutig bestimmt ist, vgl. Anhang A.4.1.5, ist die Gültigkeit von (4.19) für X = µ+AY nachzuweisen. Weil Y1 , . . . , Yd unabhängige, standard normalverteilte Zufallsvariablen sind, hat Qd −1/2 exp(−x2 /2) = (2π)−d/2 exp(−x2 /2), x ∈ Rd . zunächst PY die Dichte f (x) = k=1 (2π) k Überlegungen wie in Anhang A.4.1.4 ergeben nun ψY (λ) = exp(−λ2 /2), λ ∈ Rd . Aufgrund von Anhang A.4.1.3 folgt schließlich ψµ+AY (λ) = exp(iλ · µ) exp(−(AT λ)2 /2) ! X d d d 1 X X Al,n λl Ak,n λk = exp(iλ · µ) exp − 2 n=1 k=1 l=1 ! d d 1 X X Ak,n Al,n λk λl = exp(iλ · µ) exp − 2 k,l=1 n=1 22. Juli 2014 62 Satz 4.18. 4.86 Seien Xk , k ∈ N, i.i.d., Rd -wertige, quadratintegrable Zufallsvariablen mit E[X1 ] = µ und Kovarianzmatrix 4.87 C = (E[(X1,p − µp )(X1,q − PN µq )])p,q=1,...,d . Außerdem sei ZN = (1/N ) k=1 Xk , N ∈ N. Dann gilt √ lim N (ZN − µ) = ζ in Verteilung, wobei Pζ = N(0, C). N →∞ 4.2.4. Nicht-zentrale Grenzwertsätze. Aufgrund von Resultaten wie Satz 4.10 oder Satz 4.13 kann die Bedeutung der standard Normalverteilung µ = N(0, 1) in der Wahrscheinlichkeitstheorie auch durch folgende Eigenschaft ausgedrückt werden: (Zµ ) Es gibt reellwertige, i.i.d. Zufallsvariablen Xk , k ∈ N, und eine Folge (aN , bN ), N ∈ N mit bN > 0, N ∈ N, so daß die reskalierten FluktuaPN tionen (SN − aN )/bN der Partialsummen SN = k=1 Xk bei N → ∞ in Verteilung gegen eine Zufallsvariable η mit Verteilung Pη = µ konvergieren 4.88. Wie in Beispiel 4.4 demonstriert wird, gilt auch für die Cauchy-Verteilung µ1 mit der Dichte f1 (x) = (π(1 + x2 ))−1 , x ∈ R, die entsprechende Eigenschaft (Zµ1 ) 4.89. Sei Z die Klasse jener Wahrscheinlichkeitsmaße µ auf (R, B(R)), die die Eigenschaft (Zµ ) besitzen. Offensichtlich tritt jedes µ ∈ Z in einem zum Zentralen Grenzwertsatz analogen Resultat (Rµ ) als Grenzverteilung“ in Erscheinung 4.90. ” Wenn µ keine Normalverteilung ist, bezeichnet man ein solches (Rµ ) als einen nicht-zentralen Grenzwertsatz. Genaue Informationen über die Klasse Z, die nach obigen Ausführungen zumindest Normalverteilungen und Cauchy-Verteilungen enthält, gibt folgendes Resultat. Satz 4.19. 4.91 Ein Wahrscheinlichkeitsmaß µ auf (R, B(R)) besitzt genau dann die Eigenschaft (Zµ ), d.h., µ ∈ Z, wenn µ eine stabile Verteilung ist. Hierbei wird µ stabil genannt, wenn es für alle k ∈ N i.i.d. Zufallsvariablen Y1 , . . . , Yk mit PY1 = µ und Konstanten ak ∈ R, bzw. bk > 0 gibt, so daß P(Y1 +···+Yk −ak )/bk = µ. Nach der Definition stabiler Verteilungen ist die erste Hälfte von Satz 4.19, nämlich daß Z die Menge der stabilen Verteilungen umfaßt, offensichtlich. Mit Hilfe von charakteristischen Funktionen lassen sich stabile Verteilungen µ recht übersichtlich charakterisieren 4.92. Entweder ist µ eine Normalverteilung oder es gibt einen Exponenten α ∈ (0, 2), so daß die charakteristische Funktion einer = exp(iλ · µ) exp − ! d 1 X Ck,l λk λl , 2 k,l=1 λ ∈ Rd , womit (4.19) gezeigt ist. 4.86 Vgl. [6], Theorem 11.10. 4.87Für k ∈ N sei X = (X , . . . , X T k k,1 k,d ) . 4.88Satz 4.13 besagt, daß mit jeder Folge X , k ∈ N, von i.i.d. Zufallsvariablen, die (4.11) k erfüllen, die Gültigkeit von (Zµ ) für µ = N(0, 1) nachgewiesen werden kann. Wenn Xk , k ∈ N, 2 sogar quadratintegrabel √ mit Var(X1 ) = σ ∈ (0, ∞) und E[X1 ] = m sind, impliziert Satz 4.10, daß (aN , bN ) = (N m, N σ2 ), N ∈ N, gewählt werden kann. 4.89Aufgrund von Beispiel 4.4 kann (Z ) für i.i.d. Zufallsvariablen X , k ∈ N, mit P µ1 X1 = µ1 k verifiziert werden, wenn (aN , bN ) = (0, N ), N ∈ N, angenommen wird. 4.90Zur genauen Formulierung eines Resultats (R ) wäre insbesondere eine Menge K von µ µ Wahrscheinlichkeitsmaßen auf (R, B(R)) anzugeben, so daß für alle Familien Xk , k ∈ N, von i.i.d. Zufallsvariablen mit PX1 ∈ Kµ für eine geeignete Folge (aN , bN ), N ∈ N, mit bN > 0, N ∈ N, P die reskalierten Fluktuationen (SN − aN )/bN der Partialsummen SN = N k=1 Xk bei N → ∞ in Verteilung gegen eine Zufallsvariable η mit Verteilung Pη = µ konvergieren. 4.91Vgl. [7], Section 2.7, Theorem (7.15). 4.92Vgl. [6], Theorem 9.27 und Theorem 9.32. 22. Juli 2014 63 Zufallsvariable Y mit PY = µ die Darstellung R ∋ λ → ψY (λ) = exp(ϕ(λ)) mit ( icλ − d|λ|α (1 + iκ sgn(λ) tan(πα/2)), λ ∈ R, α ∈ (0, 2) \ {1}, ϕ(λ) = icλ − d|λ|(1 + iκ sgn(λ)2 log(|λ|)/π), λ ∈ R, α = 1, wobei c ∈ R, d > 0, κ ∈ [−1, 1], besitzt 4.93. 4.2.5. Zentraler Grenzwertsatz für abhängige Zufallsvariablen. Durch das Beispiel 4.12 wird deutlich, daß für eine Folge Xk , k ∈ N, von reellwertigen, identisch verteilten, quadratintegrablen Zufallsvariablen Abhängigkeiten zwischen diesen die Gültigkeit eines Zentralen Grenzwertsatzes 4.94 verhindern können. Ein solches Resultat kann jedoch durchaus gelten, wenn nur für solche Zufallsvariablen Xk und Xl , die benachbart“ sind, d.h., mit nicht zu großem Abstand |k−l|, eine merkliche ” ” Abhängigkeit“ besteht. Zu einer mathematischen Präzisierung dieser vagen Formulierungen sei X = (Xk )k∈N ein reellwertiger, stationärer Prozeß 4.95 und α = (αk )k∈N eine Folge in (0, ∞) mit limk→∞ αk = 0. X heißt α-mischend, wenn 4.96 4.97 (4.20) sup |P[A ∩ B] − P[A]P[B]| : A ∈ σ(X1 , ..., Xn ), B ∈ σ(Xn+k , Xn+k+1 , ...), n ∈ N ≤ αk , k ∈ N. Ein Beispiel für einen Zentralen Grenzwertsatz für abhängige Zufallsvariablen ist nun 4.98: Satz 4.20. 4.99 Sei X = (Xk )k∈N ein α-mischender, reellwertiger, stationärer Prozeß, wobei 4.100 (4.21) E[|X1 |12 ] < ∞ αn = O(n−5 ) bei n → ∞. PN = (1/N ) k=1 Xk , N ∈ N. Dann gilt und Sei außerdem µ = E[X1 ] und ZN √ (4.22) lim N (ZN − µ) = ζ N →∞ 4.101 in Verteilung, wobei Pζ = N(0, σ 2 ). Hierbei ist (4.23) σ 2 = lim 1 Var(X1 + · · · + XN ) N ∞ X Var(X1 ) + 2 Cov(X1 , Xk ), N →∞ = 4.102 k=2 4.93Für α = 1 und κ = 0 liegt eine Cauchy-Verteilung vor, vgl. hierzu Beispiel 4.4, wo die charakteristische Funktion einer Zufallsvariable mit einer Cauchy-Verteilung angegeben wird. √ 4.94D.h., die Konvergenz in Verteilung bei N → ∞ von N (1/N ) PN X − E[X ] gegen 1 k=1 k eine normalverteilte Zufallsvariable. 4.95Vgl. Abschnitt 2.5. 4.96(4.20) besagt, daß die Abhängigkeit zweier Ereignisse gleichmäßig klein wird, sobald ihre zeitliche Distanz“ groß wird. Jene Abnahme der Abhängigkeit bei wachsender zeitlicher Entfer” nung kann durch die Folge α quantifiziert werden. 4.97 σ-Algebren σ(Φ), wobei Φ eine Familie von Zufallsvariablen ist, werden in Abschnitt 3.1.4 beschrieben. 4.98Weitere Beispiele können z.B. aus den in [7], Section 7.7, vorgestellten Resultaten entnommen werden. Insbesondere werden dort auch Zentrale Grenzwertsätze für Martingale, vgl. Abschnitt 4.4, präsentiert. 4.99Vgl. [5], Theorem 27.4. 4.100Die Bedingungen (4.21) könnten abgeschwächt werden. Sie dienen der Vereinfachung des Beweises von Satz 4.20, vgl. [5], Theorem 27.4. 4.101Als α-mischender stochastischer Prozeß ist X auch ergodisch, vgl. Fußnote 4.31. Als Konsequenz folgt aus dem Ergodensatz, vgl. Abschnitt 4.1.3, daß limN→∞ ZN = µ, f.s. und in L1 . 22. Juli 2014 64 wobei die Reihe in (4.23) absolut konvergiert. 4.2.6. Ein funktionaler Zentraler Grenzwertsatz. 4.103 Wie beim Gesetz der großen Zahlen 4.104 gibt es auch für den Zentralen Grenzwertsatz ∞-dimensionale Varianten. Ein bekanntes Beispiel ist die (4.24) Konvergenz einer reskalierten symmetrischen Irrfahrt ” gegen die Brownsche Bewegung“. Formale Überlegungen zu (4.24) finden sich in Abschnitt 4.5.1 4.105, während eine präzise Formulierung von (4.24) zusammen mit einem rigorosen Beweis in Beispiel 5.34 gegeben wird 4.106. In diesem Abschnitt 4.2.6 wird als Ausblick im wesentlichen eine Erläuterung der verschiedenen Begriffe in (4.24) gegeben: • Für i.i.d. Zufallsvariablen ξk , k ∈ N, mit P[ξ1 = −1] = P[ξ1 = 1] = 1/2 ist in Z die symmetrische Irrfahrt 4.107 X = (Xn )n∈N0 durch 4.108 Xn = n X n ∈ N0 , ξk , k=1 definiert. • Reskalierte symmetrische Irrfahrten XN = (XtN )t≥0 , N ∈ N, ergeben sich durch Anwendung der beim Zentralen Grenzwertsatz üblichen Reskalierung für Summen von i.i.d., quadratintegrablen Zufallsvariablen auf die Irrfahrt X. Insbesondere ist 4.109 XtN (4.25) 4.102Wenn P∞ k=2 ⌊tN ⌋ 1 X √ ξk , = N k=1 t ≥ 0, N ∈ N. Cov(X1 , Xk ) absolut konvergiert, gilt 1 1 Var(X1 + · · · + XN ) = N N N X X Var(Xk ) + k=1 ! Cov(Xk , Xl ) k,l=1,...,N k6=l | =2 {z N N X X } Cov(Xk , Xl ) k=1 l=k+1 = 1 N N Var(X1 ) + 2 = Var(X1 ) + N→∞ → N N X X k=1 l=k+1 Cov(X1 , Xl−k+1 ) N N−k+1 2 X X Cov(X1 , Xm ) N k=1 m=2 Var(X1 ) + 2 ∞ X (da X stationär ist) (mit der Variablensubstitution m = l−k+1) Cov(X1 , Xm ). m=2 4.103 Die Bezeichnung funktional deutet an, daß ein Zentraler Grenzwertsatz in einem Funktionenraum betrachtet wird. In diesem Abschnitt ist dies C([0, T ]; R) für T > 0, vgl. Beispiel 3.2. 4.104 Vgl. Abschnitt 4.1.4. 4.105Jene formalen Überlegungen dienen dazu, Eigenschaften des Grenzprozesses“ reskalier” ter Irrfahrten festzuhalten. Diese Eigenschaften führen letztendlich in Abschnitt 4.5.1 zu einer Definition der Brownschen Bewegung. 4.106Beispiel 5.34 ist ein Spezialfall des Donskerschen Invarianzprinzips, vgl. Satz 5.35, des klassischen funktionalen und damit ∞-dimensionalen Zentralen Grenzwertsatzes. 4.107Vgl. Beispiel 2.9 und Fußnote 2.69. 4.108Man beachte, daß insbesondere X = 0 festgesetzt wird. 0 4.109Analog zu (4.8) wird für jedes t > 0 eine Summe von O(N ) i.i.d., quadratintegrablen √ Zufallsvariablen mit Erwartungswert 0 durch N dividiert. 22. Juli 2014 65 Um die symmetrische Irrfahrt als stochastischen Prozeß zu reskalieren, wird in (4.25) die für den Zentralen Grenzwertsatz übliche Reskalierung simultan für alle Zeitpunkte t ≥ 0“ angewandt 4.110. ” • Durch lineare Interpolation zwischen den Sprungzeitpunkten, d.h., mit etN X := ( N N (n+1−tN )Xn/N +(tN −n)X(n+1)/N , t ∈ (n/N, (n+1)/N ), N Xn/N , t = n/N, n ∈ N0 , N ∈ N, e N = (X e N )t≥0 der Prozesse XN . entstehen stetige Approximationen X t • Die Brownsche Bewegung B = (Bt )t≥0 ist ein reellwertiger stochastischer Prozeß mit stetigen Pfaden 4.111 und B0 = 0, f.s., dessen endlichdimensionale Verteilungen 4.112 durch die durch 4.113 (4.26) P[Bt1 ∈ A1 , Bt2 ∈ A2 , . . . , Btn ∈ An ] Z Z dx2 πt2 −t1 (x1 , x2 ) dx1 πt1 (0, x1 ) = A2 A1 Z dxn πtn −tn−1 (xn−1 , xn ), ... An 0 < t1 < · · · < tn < ∞, A1 , . . . , An ∈ B(R), n ∈ N, mit (y − x)2 1 exp − , πu (x, y) = √ 2u 2πu x, y ∈ R, 0 < u < ∞, charakterisierten Normalverteilungen gegeben sind. e N , N ∈ N, und B auf das Zeitinter• Für T > 0 seien die stetigen Prozesse X vall [0, T ] eingeschränkt. Jene Prozesse können nun auch als Zufallsvariablen mit Werten in 4.114 (C([0, T ]; R), B(C([0, T ]; R))) betrachtet werden. Der durch (4.24) umschriebene funktionale Zentrale Grenzwertsatz lautet jetzt 4.115 e N = B, in Verteilung. lim X N →∞ 4.110Aufgrund von (4.25) ist XN ein reellwertiger stochastischer Prozeß, der in 0 startet und in √ den Zeitpunkten √ n/N , n ∈ N0 , jeweils mit Wahrscheinlichkeit 1/2 einen Sprung der Größe 1/ N , bzw. −1/ N macht. In den Zeitintervallen [n/N, (n + 1)/N ), n ∈ N0 , ist XN konstant. In allen Sprungzeitpunkten n/N , n ∈ N0 , ist die Sprungrichtung unabhängig von der Vergangenheit XuN , u < n/N , von XN . 4.111Falls ein stochastischer Prozeß X = (X ) t t≥0 auf dem Wahrscheinlichkeitsraum (Ω, F, P) definiert ist, bedeutet die Stetigkeit der Pfade, daß P[{ω ∈ Ω : [0, ∞) → Xt (ω) stetig}] = 1. 4.112Die Verteilung eines reellwertigen stochastischen Prozesses X = (X ) t t≥0 mit stetigen Pfaden ist durch seine endlich-dimensionalen Verteilungen, d.h., durch die Größen P[Xt1 ∈ A1 , Xt2 ∈ A2 , . . . , Xtn ∈ An ], 0 ≤ t1 < · · · < tn < ∞, A1 , . . . , An ∈ B(R), n ∈ N, eindeutig bestimmt. 4.113 Eine Begründung, bzw. Herleitung von (4.26) findet sich in Abschnitt 4.5.2, vgl. (4.81). 4.114Vgl. Beispiel 3.2. Für einen auf einem Wahrscheinlichkeitsraum (Ω, F, P) definierten stetigen, reellwertigen Prozeß X = (Xt )0≤t≤T ist durch die Zuordnung Ω ∋ ω → ([0, T ] ∋ t → Xt (ω)) eine C([0, T ]; R)-wertige Zufallsvariable gegeben. 4.115In Fußnote 3.75 wurde daraufhingewiesen, daß die Konvergenz in Verteilung auch für Zufallsvariablen mit Werten in topologischen Räumen betrachtet werden kann. 22. Juli 2014 66 4.3. Markovprozesse. Die elementarsten Beispiele für Markovprozesse 4.116 sind Markovketten, d.h. Markovprozesse in diskreter Zeit mit Werten in einem diskreten, d.h. höchstens abzählbaren Zustandsraum. Neben solchen Prozessen wird in diesem Abschnitt auch auf Markovprozesse mit einem diskreten Zustandsraum, aber in kontinuierlicher Zeit eingegangen. 4.3.1. Markovketten. Ein stochastischer Prozeß X = (Xn )n∈N0 in diskreter Zeit mit Werten in einem höchstens abzählbaren Zustandsraum S heißt Markovkette, falls 4.117 (4.27) P Xn+k = s′ | X0 = s0 , . . . , Xn−1 = sn−1 , Xn = sn {z } | {z } | {z } | Zukunft Vergangenheit = P Xn+k = s′ |Xn = sn , Gegenwart n ∈ N0 , k ∈ N, s0 , s1 , . . . , sn , s′ ∈ S. Zur Charakterisierung der zukünftigen Entwicklung einer Markovkette reicht also die Kenntnis des gegenwärtigen Zustandes aus. Die Kenntnis der zeitlichen Entwicklung in der Vergangenheit bringt in diesem Fall keinen Informationsgewinn. Die bedingten Wahrscheinlichkeiten Pn (s1 , s2 ) = P Xn+1 = s2 |Xn = s1 , s1 , s2 ∈ S, n ∈ N0 , heißen (1-Schritt-) Übergangswahrscheinlichkeiten. Sie werden zu den (1-Schritt-) Übergangsmatrizen Pn = (Pn (s, s′ ))s,s′ ∈S , n ∈ N0 , zusammengefaßt. Eine Markovkette besitzt stationäre Übergangswahrscheinlichkeiten, falls Pn = P unabhängig von n ist 4.118. Unter der Verteilung einer Markovkette X = (Xn )n∈N0 versteht man die gemeinsame Verteilung der Zufallsvariablen 4.119 Xn , n ∈ N0 . Satz 4.21. 4.120 Die Verteilung einer Markovkette X = (Xn )n∈N0 mit einem diskreten Zustandsraum S ist durch ihre Übergangsmatrizen und ihre Anfangsverteilung, d.h., die Verteilung PX0 von X0 , eindeutig bestimmt. Es gilt (4.28) P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn = PX0 [s0 ]P0 (s0 , s1 ) · · · Pn−1 (sn−1 , sn ), s0 , s1 , . . . , sn ∈ S, n ∈ N0 . Im Rest dieses Abschnitts werden nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet. Beispiel 4.22. Sei ζn , n ∈ N, eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit Werten in Z. Außerdem sei X = (Xn )n∈N0 durch X0 = 0, Xk = k X ζl , k = 1, 2, . . . , l=1 4.116Eine kurze, allgemeine Beschreibung von Markovprozessen wurde in Abschnitt 2.5, insbesondere in Fußnote 2.73, gegeben. 4.117Stillschweigend sei angenommen, daß P[X = s , . . . , X = s ] > 0. Nur in diesem Fall n n 0 0 sind mit (2.9) die beiden Seiten von (4.27) wohldefiniert. 4.118In diesem Fall besitzt die Markovkette X eine zeitlich homogene Dynamik. Allerdings ist eine Markovkette mit stationären Übergangswahrscheinlichkeiten i. allg. kein stationärer Prozeß, vgl. Abschnitt 2.5. Dies wird am Beispiel der im Ursprung startenden symmetrischen Irrfahrt, vgl. Satz 4.23, deutlich. 4.119Vgl. Abschnitt 2.2.1. 4.120Ein Beweis dieses Satzes ist in Anhang A.4.3 enthalten. Dort wird auch erläutert, inwiefern die Verteilung von X als ein Wahrscheinlichkeitsmaß PX auf dem meßbaren Raum (S N0 , Pot(S)⊗N0 ) betrachtet werden kann. Vgl. dazu auch Fußnote 2.34. 22. Juli 2014 67 definiert. X ist eine Markovkette mit dem Zustandsraum Z und der Übergangsmatrix 4.121 P = (P[Xn+1 = q|Xn = p])p,q∈Z = (P[ζn+1 = q − p])p,q∈Z .. .. .. . . . . . . . . . . . . . . . . . . . a0 a1 a2 . . . . . . . . . . a−1 a0 a 1 a 2 . . . , = (P[ζ1 = q − p])p,q∈Z = . . . . . . . . a−1 a0 a1 . . . . . . . . . . . . . . . . . a−1 a0 . . . .. .. . . .................... (4.29) wobei ak = P[ζ1 = k], k ∈ Z. Ein Spezialfall ist die schon in Beispiel 2.9 vorgestellte symmetrische Irrfahrt, für die a−1 = a1 = 1/2 und ak = 0, k ∈ Z \ {−1, 1}, ist. Als Verallgemeinerung der (1-Schritt-)Übergangswahrscheinlichkeiten werden die n-Schritt-Übergangswahrscheinlichkeiten durch P n (s1 , s2 ) = P[Xn+m = s2 |Xm = s1 ] 4.122 , m, n ∈ N0 , s1 , s2 ∈ S, definiert. Diese n-Schritt-Übergangswahrscheinlichkeiten genügen der ChapmanKolmogorov-Gleichung, d.h., 4.123 X (4.30) P n (s1 , s2 ) = P k (s1 , s)P l (s, s2 ), k, l, n ∈ N0 , k + l = n, s1 , s2 ∈ S. s∈S Im Rest diese Abschnitts 4.3.1 werden im Rahmen von zwei speziellen Beispielen allgemeine Fragestellungen zur Asymptotik von Markovketten bei großen Zeiten angesprochen. Satz 4.23. 4.124 Sei X = (Xn )n∈N0 die symmetrische Irrfahrt in Zd , d.h., X0 = 0, f.s., P[Xn+1 = k ± eq |Xn = k] = 1 , 2d n ∈ N0 , k ∈ Zd , q = 1, . . . , d. Dann gilt P[Xn = 0 für ein n = 1, 2, . . . ] ( = 1, < 1, 4.125 falls d = 1, 2, falls d = 3, 4, . . . . 4.121In den Übergangsmatritzen der in diesem Beispiel beschriebenen verallgemeinerten Irr- fahrten geht jeweils die (n + 1)-te Zeile aus der n-ten Zeile durch Verschieben um eine Spalte ” nach rechts“ hervor. 4.122Da hier nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet werden, sind P[Xn+m = s2 |Xm = s1 ], m, n ∈ N0 , s1 , s2 ∈ S, von m unabhängig. 4.123Der Weg vom Startpunkt s nach s in n Schritten führt durch einen Zwischenzustand 1 2 s ∈ S nach k Schritten. Wegen der Markoveigenschaft hat bedingt unter dem Start in s1 der k Schritte l Schritte Weg s1 −−−−−−−→ s −−−−−−→ s2 für ein festes s die Wahrscheinlichkeit P k (s1 , s)P l (s, s2 ), vgl. Satz 4.21. Die Übergänge durch die verschiedenen möglichen Zwischenzustände s entsprechen disjunkten Ereignissen, d.h., ihre jeweiligen unter dem Start in s1 bedingten Wahrscheinlichkeiten addieren sich zur gesamten unter dem Start in s1 bedingten Wahrscheinlichkeit P n (s1 , s2 ), nach n Schritten s2 zu erreichen. 4.124Vgl. z.B. [20], Chapter 2, Section 6, Example 1 - 3. Jene Überlegungen basieren auf [20], Chapter 2, Theorem 5.1, einem allgemeinen Rekurrenzkriterium für Markovketten. 4.125e ist der Einheitsvektor in die q-te Koordinatenrichtung. Bei der symmetrischen Irrq fahrt werden zu jedem Zeitpunkt im nächsten Schritt alle 2d Nachbarpunkte mit gleicher Wahrscheinlichkeit erreicht. Bei einer nichtsymmetrischen Irrfahrt sind diese Sprungwahrscheinlichkeiten unterschiedlich. 22. Juli 2014 68 700 600 500 |X| 400 300 200 100 0 0 20000 40000 60000 80000 100000 Zeit Abbildung 4.2. Betrag der symmetrischen Irrfahrt in Z2 . Zeitdauer = 100000, 4 Simulationen. Satz 4.23 besagt, daß für d = 1 und d = 2 die symmetrische Irrfahrt in Zd rekurrent ist, d.h., sie kehrt f.s. wieder an ihren Startpunkt 0 zurück. Für d ≥ 3 andererseits ist die symmetrische Irrfahrt transient, d.h., sie kehrt mit einer positiven Wahrscheinlichkeit nie wieder an ihren Startpunkt 0 zurück 4.126. Das Resultat von Satz 4.23 wird in den Abbildungen 4.2 - 4.4 durch Darstellungen von Simulationsergebnissen verdeutlicht 4.127. Beispiel 4.24. Zur Modellierung der zeitlichen Entwicklung einer Population sei angenommen, daß • • • • die Menge der Zeitpunkte diskret ist, daß es keine Unterschiede zwischen den einzelnen Individuen gibt die Individuen voneinander unabhängig sind, und daß ihre Lebensdauer gleich 1 ist 4.129. 4.128 , daß Diese Vorgaben werden bei der mathematischen Modellierung realisiert durch die Annahme, daß zu jedem Zeitpunkt n ∈ N0 jedes dann lebende Individuum unabhängig von den anderen eine zufällige Anzahl von Nachkommen hat und dann stirbt. Die Anzahl der Nachkommen habe die Verteilung b = (bk )k∈N0 . Für n ∈ N0 sei Xn die Größe der Population zum Zeitpunkt n. Außerdem sei ζnl , n ∈ N0 , l ∈ N, eine Familie von N0 -wertigen, i.i.d. Zufallsvariablen mit der 4.126Die Charakterisierung von Rekurrenzeigenschaften ist ein typisches Problem bei der Untersuchung von Markovketten, vgl. z.B. [20], Chapter 2, Sections 5 - 7. 4.127Diese Simulationen demonstrieren, daß die symmetrische Irrfahrt in Zd eine mit wachsendem d geringer werdende Tendenz, zum Startpunkt zurückzukehren, besitzt. 4.128Insbesondere gibt es nur ein Geschlecht. 4.129Der auf diesen Modellannahmen basierende, hier vorgestellte einfache Verzweigungsprozeß läßt sich auf Bemühungen im 18. und 19. Jahrhundert, das Anwachsen und Aussterben von Adelsfamilien zu beschreiben, zurückführen. In einem solchen Zusammenhang entspricht eine Zeiteinheit einer Generation. 22. Juli 2014 69 250 200 |X| 150 100 50 0 0 2000 4000 6000 8000 10000 Zeit Abbildung 4.3. Betrag der symmetrischen Irrfahrt in Z3 . Zeitdauer = 10000, 10 Simulationen. 500 450 400 350 |X| 300 250 200 150 100 50 0 0 2000 4000 6000 8000 10000 Zeit Abbildung 4.4. Betrag der symmetrischen Irrfahrt in Z10 . Zeitdauer = 10000, 2 Simulationen. Verteilung 4.130 b, d.h., P[ζnl = m] = bm , n, m ∈ N0 , l ∈ N. Der stochastische 4.130Mit der Zufallsvariablen ζ l kann die Anzahl der Nachkommen des l-ten zur Zeit n n lebenden Individuums modelliert werden. Da die Populationsgröße zur Zeit n a priori unbekannt l für alle n ∈ N eingeführt. ist, werden die Zufallsvariablen ζn 22. Juli 2014 70 Prozeß X = (Xn )n∈N0 kann nun durch die Beziehung (4.31) Xn+1 = Xn X ζnl , l=1 n ∈ N0 , repräsentiert werden. X ist eine Markovkette mit Zustandsraum S = N0 und den Übergangswahrscheinlichkeiten (4.32) P[Xn+1 = k|Xn = j] = = P[ζn1 + · · · + ζnj = k] X 4.132 bl1 · · · blj , j ∈ N, n, k ∈ N0 , 4.131 l1 ,...,lj =0,1,...,k l1 +···+lj =k 4.133 δ , k,0 j = 0, n, k ∈ N0 . Das durch (4.31) oder (4.32) zusammengefaßte Modell wird auch Galton-WatsonProzeß genannt. Angesichts von Simulationsergebnissen, wie z.B. in Abbildung 4.5, drängen sich die folgenden Fragen auf. • Unter welchen Bedingungen, bzw. mit welcher Wahrscheinlichkeit stirbt ein Galton-Watson-Prozeß aus? • Wie sieht unter der Bedingung, daß die Population nicht ausstirbt, das asymptotische Verhalten von Xn bei n → ∞ aus? Satz 4.25. 4.134 Sei X = (Xn )n∈N0 der Galton-Watson-Prozeß zur P∞Nachkommit X = 1. Insbesondere seien m = mensverteilung b = (b ) 0 k k∈N 0 k=0 kbk und P∞ σ 2 = k=0 k 2 bk − m2 Erwartungswert und Varianz von b 4.135. Dann gilt 4.136 1, 1, (4.33) P[Xn = 0 für ein n ∈ N0 ] 4.137 = q = ρ ∈ (0, 1), 0, falls falls falls falls m < 1, 4.138 m = 1, b0 > 0, m > 1, b0 > 0, b0 = 0. 4.140 4.139 4.131Vgl. (4.31). 4.132Die Wahrscheinlichkeit, daß das 1. Individuum l Nachkommen, das 2. Individuum l 1 2 Nachkommen, . . . und das j. Individuum lj Nachkommen hat, ist aufgrund der Unabhängigkeit der Individuen gleich bl1 bl2 · · · blj . Die hier angesprochenen Ereignisse sind für unterschiedliche Sequenzen l1 , l2 , . . . , lj disjunkt, d.h., ihre jeweiligen Einzelwahrscheinlichkeiten addieren sich. In (4.32) findet auch die Annahme, daß die einzelnen Individuen nach der Erzeugung ihrer Nachkommen sterben, Beachtung. 4.133 Wenn Xn = 0, so ist die Population zum Zeitpunkt n und damit auch in den zukünftigen Zeitpunkten n + 1, n + 2, . . . ausgestorben. In diesem Fall folgt Xn+1 = Xn+2 = · · · = 0, f.s. 4.134Vgl. [17], Chapter 2, insbesondere Theorem (2.3.1) und Lemma (2.9.1). Satz 4.25 wird in Anhang A.4.4 und in Abschnitt 4.4, vgl. insbesondere Beispiele 4.36 und 4.44, bewiesen werden. 4.135m ist damit die mittlere Nachkommenszahl eines Individuums. 4.136 Die Fälle m < 1 und m = 1, b0 > 0 werden in Beispiel 4.36 im Rahmen einer Anwendung eines Konvergenzsatzes für Submartingale diskutiert. Die genaue Behandlung des Falls m > 1, b0 > 0 findet sich im Anhang A.4.4. Der Fall b0 = 0 ist trivial. 22. Juli 2014 71 3000 Bevoelkerungsgroesse 2500 2000 1500 1000 500 0 0 20 40 60 80 100 Zeit Abbildung 4.5. 20 Simulationen eines Verzweigungsprozesses mit b0 = 0.25, b1 = 0.5, b2 = 0.2 und b3 = 0.05. In 3 Fällen überlebt die Population bis zum Zeitpunkt 100. Hierbei ist ρ die kleinste Lösung von (4.34) s = φb (s) = 4.141 ∞ X b k sk , k=0 s ∈ [0, 1]. e mit Wenn m > 1 und σ 2 < ∞, gibt es eine [0, ∞)-wertige Zufallsvariable X 4.142 4.143 4.144 2 2 e Var(X) = σ /(m − m) , so daß Xn e f.s. und in L2 . =X mn 4.3.2. Markovprozesse in kontinuierlicher Zeit mit diskretem Zustandsraum. Ein stochastischer Prozeß X = (Xt )t≥0 4.145 mit Werten in einem diskreten, d.h., (4.35) lim n→∞ 4.137Wenn X = 0 für ein n ∈ N , so ist offensichtlich X = 0 für alle k = n, n + 1, . . . , d.h., n 0 k die Population stirbt aus. q ist daher die Aussterbewahrscheinlichkeit. 4.138 Wenn in einer Population im Mittel weniger Individuen geboren werden als sterben, stirbt diese aus. 4.139 Wenn b0 > 0 hat jedes Individuum mit positiver Wahrscheinlichkeit keinen Nachkommen. Daher besteht zu jedem Zeitpunkt mit positiver Wahrscheinlichkeit die Möglichkeit, daß die Population ausstirbt. Die Aussterbewahrscheinlichkeit ist folglich auf jeden Fall strikt positiv. 4.140 Jedes Individums hat mindestens einen Nachkommen. In diesem Fall kann die Population nicht aussterben. 4.141φ mit φ (s) = P∞ b sk , s ∈ [0, 1], ist die erzeugende Funktion der Nachkommensb b k=0 k verteilung b. 4.142Wenn σ2 > 0, ist Var(X) e > 0. Dann ist X e nichttrivial, d.h., nicht in einem Punkt konzentriert. n→∞ e 4.143 e > 0, liegt geometrisches oder exponentielles Es gilt somit Xn ∼ X · mn , d.h., wenn X Wachstum vor, vgl. Abbildung 4.5. 4.144 Die f.s.-Konvergenz in (4.35) folgt aus einem Konvergenzsatz für Submartingale, vgl. Satz 4.34 und Beispiel 4.36. Zum Nachweis der L2 -Konvergenz wird in Beispiel 4.44 ebenfalls mit Martingaltechniken gearbeitet. 4.145Das Zeitintervall kann auch beschränkt sein, z.B. [a, b], 0 ≤ a < b < ∞. 22. Juli 2014 72 höchstens abzählbaren Zustandsraum S 4.146 heißt Markovprozeß, falls 4.147 (4.36) P[Xt+h = sσ(Xu , 0 ≤ u ≤ t)] 4.148 = P[Xt+h = sσ(Xt )] 4.149, t, h ≥ 0, s ∈ S. Die bedingten Wahrscheinlichkeiten Pt,t′ (s, s′ ) = P[Xt′ = s′ |Xt = s], 0 ≤ t ≤ t′ < ∞, s, s′ ∈ S, die die rechte Seite von (4.36) bestimmen 4.150, heißen Übergangswahrscheinlichkeiten. Diese können zu den Übergangsmatrizen Pt,t′ = (Pt,t′ (s, s′ ))s,s′ ∈S , 0 ≤ t ≤ t′ < ∞, zusammengefaßt werden. Ein Markovprozeß ist durch seine Übergangswahrscheinlichkeiten vollständig charakterisiert. Satz 4.26. 4.151 Die Verteilung eines Markovprozesses X = (Xt )t≥0 mit diskretem Zustandsraum S ist eindeutig durch die Wahrscheinlichkeiten (4.37) P Xt1 = s1 , Xt2 = s2 , . . . , Xtn = sn , 0 ≤ t1 < t2 < · · · < tn < ∞, s1 , s2 , . . . , sn ∈ S, n ∈ N, bestimmt 4.152. Diese sind durch die Übergangswahrscheinlichkeiten und die Anfangsverteilung PX0 charakterisiert. Es gilt (4.38) P X0 = s0 , Xt1 = s1 , Xt2 = s2 , . . . , Xtn = sn = PX0 [s0 ]P0,t1 (s0 , s1 )Pt1 ,t2 (s1 , s2 ) . . . Ptn−1 ,tn (sn−1 , sn ), 0 < t1 < t2 < · · · < tn < ∞, s0 , s1 , . . . , sn ∈ S, n ∈ N. Wie im zeitlich diskreten Fall bestehen gewisse Beziehungen zwischen den Übergangswahrscheinlichkeiten. So gilt auch hier die Chapman-Kolmogorov-Gleichung 4.153 X (4.39) Pt1 ,t2 (s1 , s2 )Pt2 ,t3 (s2 , s3 ) = Pt1 ,t3 (s1 , s3 ), s2 ∈S 0 ≤ t1 ≤ t2 ≤ t3 < ∞, s1 , s3 ∈ S. 4.146Wie üblich wird in S die σ-Algebra S = Pot(S) betrachtet. 4.147 Jetzt werden bedingte Wahrscheinlichkeiten bzgl. einer σ-Algebra, vgl. Abschnitt 3.8, benutzt. Der elementare Begriff der bedingten Wahrscheinlichkeit, vgl. Abschnitt 2.4, ist letztendlich nicht ausreichend. 4.148Hier ist die bedingte Wahrscheinlichkeit für ein zukünftiges Ereignis {X t+h = s} bzgl. der σ-Algebra σ(Xu , 0 ≤ u ≤ t) aller durch Xu , 0 ≤ u ≤ t, bestimmten Ereignisse, d.h., der σ-Algebra aller (bzgl. X) vergangenen und gegenwärtigen Ereignisse, gemeint. 4.149 Dies ist die bedingte Wahrscheinlichkeit bzgl. der die Gegenwart des Prozesses X beschreibenden σ-Algebra σ(Xt ). 4.150Es ist zu beachten, daß für t ≥ 0 die σ-Algebra σ(X ) durch die disjunkten Ereignisse t {Xt = s′ }, s′ ∈ S, erzeugt wird, vgl. Abschnitt 3.1.4. Mit Beispiel 3.26 folgt daher P[Xt+h = s|σ(Xt )](ω) = X I{ω ′ ∈Ω:Xt (ω ′ )=s′ } (ω) s′ ∈S = X E[I{Xt+h =s} I{Xt =s′ } ] P[Xt = s′ ] I{ω ′ ∈Ω:Xt (ω ′ )=s′ } (ω)P[Xt+h = s|Xt = s′ ], s′ ∈S ω ∈ Ω, t, h ≥ 0, s ∈ S. 4.151Satz 4.26 entspricht dem sich auf den zeitlich diskreten Fall beziehenden Satz 4.21. 4.152Durch die Größen in (4.37) bzw. in (4.38) kann den endlich-dimensionalen Rechtecken in (S [0,∞) , Pot(S)⊗[0,∞) ) jeweils eine Wahrscheinlichkeit zugeordnet werden. Diese Zuordnung kann anschließend durch eine Anwendung von Satz 3.8 zu einem Wahrscheinlichkeitsmaß PX auf (S [0,∞) , Pot(S)⊗[0,∞) ) erweitert werden. PX ist die Verteilung des Prozesses X. Details zu diesen Argumenten im zeitlich diskreten Fall finden sich in Anhang A.4.3. 4.153Vgl. die zeitlich diskrete Variante (4.30) und zu deren Begründung auch Fußnote 4.123. 22. Juli 2014 73 Ein direktes Analogon zu den 1-Schritt-Übergangswahrscheinlichkeiten aus Abschnitt 4.3.1 existiert im zeitlich kontinuierlichen Fall nicht 4.154. Stattdessen spielen die infinitesimalen Übergangswahrscheinlichkeiten (Übergangsraten oder -intensitäten) 4.155 (4.40) λt (s, s′ ) = 4.156 4.157 lim h→0 1 P[Xt+h = s′ |Xt = s], h t ≥ 0, s, s′ ∈ S, s 6= s′ , eine große Rolle bei der Beschreibung und Untersuchung der Markovprozesse dieses Abschnitts. Insbesondere besitzen solche Markovprozesse f.s. nur Sprünge mit strikt positiver Übergangsintensität 4.158. Bei der Modellierung von zufälligen zeitlichen Entwicklungen in der Physik oder der Biologie durch Markovprozesse • sind oft die Übergangsraten leicht zugänglich 4.159. • Die Übergangswahrscheinlichkeiten ergeben sich dann durch Lösen eines geeigneten Systems gewöhnlicher Differentialgleichungen 4.160. Die von nun an betrachteten Markovprozesse haben stationäre Übergangswahrscheinlichkeiten, d.h., 4.161 Pt,t′ (s, s′ ) = Pt′ −t (s, s′ ), 0 ≤ t ≤ t′ < ∞, s, s′ ∈ S. In diesem Fall sind die infinitesimalen Übergangswahrscheinlichkeiten von der Zeit unabhängig 4.162. Beispiel 4.27 (Poisson-Prozeß). Der Poisson-Prozeß X = (Xt )t≥0 ist ein N0 wertiger Markovprozeß mit endlich vielen Sprüngen der Größe +1 in jedem beschränkten Zeitintervall, der zwischen den Sprungzeitpunkten konstant bleibt. Dieser einfache, aber wichtige Prozess spielt in vielen Anwendungen eine Rolle. Beispielsweise kann für t ≥ 0 die Zufallsvariable Xt • die Anzahl der an einem Servicepunkt im Zeitintervall [0, t] ankommenden Kunden, • die Anzahl der Zerfälle eines radioaktiven Präparats in [0, t] oder • die Anzahl der Verkehrsunfälle in [0, t] an einer bestimmten Kreuzung modellieren. 4.154Insbesondere gibt es keine elementare Zeiteinheit“ 1, so daß die Differenz zwischen zwei ” verschiedenen Zeitpunkten ein ganzzahliges Vielfaches von 1 ist. 4.155Zur Existenz der Limiten in (4.40) vgl. Satz 4.28. 4.156Die infinitesimalen Übergangsraten λ (s, s′ ), s, s′ ∈ S, s 6= s′ , t ≥ 0, sind nichtnegativ. t 4.157 Eine äquivalente Formulierung von (4.40) ist: P[Xt+h = s′ |Xt = s] = λt (s, s′ )h + o(h) bei h → 0, t ≥ 0, s, s′ ∈ S, s 6= s′ . 4.158 Ist beispielsweise der Markovprozeß X = (Xt )t≥0 konservativ, vgl. (4.43), so ist P ′ {s′ ∈S:s′ 6=s} λt (s, s ) < ∞. In diesem Fall ist die Wahrscheinlichkeit, daß ein Sprung im Zeitpunkt P ′ −1 , vgl. t, mit dem s verlassen wird, zum Zustand s′′ führt, gleich λt (s, s′′ ) {s′ ∈S:s′ 6=s} λt (s, s ) Abschnitt 4.3.3 und insbesondere Fußnote 4.190. 4.159Beispielsweise sind Zerfalls-, Geburts- oder Todesraten häufig vorgegeben oder einfach zu bestimmen. 4.160Vgl. Satz 4.29 und auch Fußnote 4.178. Für einen speziellen Prozeß, den in Beispiel 4.27 beschriebenen Poisson-Prozeß, wird ein solches System gewöhnlicher Differentialgleichungen in Anhang A.4.5 abgeleitet und gelöst. 4.161Die nun diskutierten Prozesse besitzen somit eine zeitlich stationäre Dynamik. 4.162Vgl. (4.40). Es gilt also λ (s, s′ ) = λ(s, s′ ), t ≥ 0, s, s′ ∈ S, s 6= s′ . t 22. Juli 2014 74 In diesen Beispielen ist die Qualität des Poisson’schen Modells“ gut, wenn die ” jeweiligen äußeren Bedingungen zeitlich konstant sind 4.163, d.h., wenn keine bevorzugten Einkaufszeiten der Kunden bestehen, bzw. die Halbwertszeit des radioaktiven Präparats groß ist, bzw. keine zeitlichen Verkehrsschwankungen zu beobachten sind 4.164. Ein Markovprozeß X = (Xt )t≥0 mit Werten in N0 heißt Poisson-Prozeß mit Intensität (oder Übergangsintensität oder Rate) λ > 0, falls 4.165 1 (4.41) lim P[Xt+h = n + 1|Xt = n] = λ, hց0 h 1 lim P[Xt+h ∈ / {n, n + 1}|Xt = n] = 0, n ∈ N0 , t ≥ 0. hց0 h Durch die Beziehungen in (4.41) wird die Bestimmung der Übergangswahrscheinlichkeiten des Poisson-Prozesses ermöglicht, vgl. Anhang A.4.5 4.166. Die infinitesimalen Übergangswahrscheinlicheiten wurden in (4.40) als Grenzwerte eingeführt. Wie jetzt im zeitlich stationären Fall erläutert wird, existieren sie unter vernünftigen Bedingungen 4.167. Die Größen Pt (s, s′ ), t > 0, s, s′ ∈ S, bilden eine standard Familie von Übergangswahrscheinlichkeiten, falls 4.168 (a) P Pt (s, s′ ) ≥ 0, t > 0, s, s′ ∈ S, (b) Ps′ ∈S Pt (s, s′ ) = 1, t > 0, s ∈ S, ′ ′ ′′ ′′ t, u > 0, s, s′′ ∈ S, und falls (c) s′ ∈S Pt (s, s )Pu (s , s ) = Pt+u (s, s ), ′ ′ (d) die Funktionen (0, ∞) ∋ t → Pt (s, s ), s, s ∈ S, stetig sind mit limtց0 Pt (s, s′ ) = δs,s′ , s, s′ ∈ S. Es stellt sich heraus, daß die Bedingungen (a) - (d) die Existenz der Übergangsintensitäten sicherstellen 4.169. Satz 4.28. 4.170 Sei X = (Xt )t≥0 ein Markovprozeß mit Werten in S und einer standard Familie von Übergangswahrscheinlichkeiten. Dann existiert für s ∈ S der Grenzwert 4.171 d 1 (4.42a) − Pt (s, s) = lim 1 − Ph (s, s) = λ(s) hց0 dt h t=0 in [0, ∞] (4.42b) 4.172 . Außerdem existiert für s, s′ ∈ S mit s 6= s′ der Grenzwert d Ph (s, s′ ) Pt (s, s′ ) = lim = λ(s, s′ ) hց0 dt h t=0 4.163Falls die äußeren Bedingungen“ zeitlich langsam veränderlich sind, ist das Poisson’sche ” Modell evtl. (zeitlich) lokal brauchbar. 4.164 Die Rate, mit der die zu zählenden Geschehnisse jeweils eintreten, muß zeitlich (nahezu) konstant sein. 4.165Aus (4.41) folgt insbesondere auch lim hց0 (1/h)(1 − P[Xt+h = n|Xt = n]) = λ, n ∈ N0 , t ≥ 0. 4.166Die wesentliche Aufgabe bei dieser Bestimmung der Übergangswahrscheinlichkeiten ist die Lösung eines geeigneten Systems gewöhnlicher Differentialgleichungen. 4.167In [21], Chapter 14, wird die nun behandelte Thematik ausführlicher dargestellt. 4.168Für ein festes t > 0 ist P nach (a) und (b) eine stochastische Matrix. Nach (c) erfüllen t die Matrizen Pt , t > 0, die Chapman-Kolmogorov-Gleichung (4.39). Die letzte Bedingung (d) ist eine Regularitätsbedingung, die von vernünftigen Prozessen erwartet werden kann. 4.169Es ist bemerkenswert, daß in (d) nur eine Stetigkeitseigenschaft gefordert wird. Andererseits sind in (4.40) oder Satz 4.28 die Übergangsintensitäten durch Ableitungen definiert. 4.170Vgl. [21], Chapter 14, Theorem 1.1 und Theorem 1.2. 4.171Die jeweils erste Gleichheit in den beiden Beziehungen (4.42) wird plausibel, wenn P0 (s, s′ ) = limtց0 Pt (s, s′ ) = δs,s′ , s, s′ ∈ S, berücksichtigt wird. 4.172Der Grenzwert λ(s) = ∞ kommt bei solchen Zuständen s ∈ S vor, die sofort, nachdem sie durch den Prozeß X erreicht wurden, wieder verlassen werden. 22. Juli 2014 75 in [0, ∞) 4.173 . Wenn die Übergangsraten bekannt sind, können üblicherweise die Übergangswahrscheinlichkeiten durch Lösen eines Systems gewöhnlicher Differentialgleichungen bestimmt werden. Ein Markovprozeß X wie in Satz 4.28 heißt konservativ, wenn die Raten λ(s), s ∈ S, und λ(s, s′ ), s, s′ ∈ S, s 6= s′ , die Beziehung X (4.43) s′ ∈S s′ 6=s erfüllen λ(s, s′ ) = λ(s) < ∞, s ∈ S, 4.174 . Satz 4.29. 4.175 Sei X = (Xt )t≥0 ein Markovprozeß wie in Satz 4.28, wobei X zusätzlich konservativ sei 4.176. Dann erfüllen die Übergangwahrscheinlichkeiten die Rückwärtsgleichungen 4.177 4.178. (4.44) X d λ(s, s′′ )Pt (s′′ , s′ ) − λ(s)Pt (s, s′ ) Pt (s, s′ ) = dt ′′ s ∈S s′′ 6=s = 4.179 X s′′ ∈S s′′ 6=s λ(s, s′′ ) Pt (s′′ , s′ ) − Pt (s, s′ ) , s, s′ ∈ S, t ≥ 0. 4.173Insbesondere ist λ(s, s′ ) ∞, falls s 6= s′ . 4.174Aufgrund der formalen, aus Satz 4.28 folgenden Beziehung (∗) λ(s) − X λ(s, s′ ) = lim s′ ∈S s′ 6=s hց0 ≃ lim hց0 X Ph (s, s′ ) 1 1 − Ph (s, s) − lim hց0 h h ′ s ∈S s′ 6=s ! X 1 1 − Ph (s, s) − Ph (s, s′ ) = 0 h ′ s ∈S s′ 6=s ist (4.43) plausibel. In (∗) wird insbesondere die Eigenschaft (b) einer standard Familie von Übergangswahrscheinlichkeiten benutzt. 4.175 Vgl. [21], Chapter 14, Section 2. 4.176Vgl. (4.43). 4.177Für eine formale Herleitung von (4.44) kann in der Beziehung Pt+h (s, s′ ) − Pt (s, s′ ) = = X s′′ ∈S X s′′ ∈S s′′ 6=s Ph (s, s′′ )Pt (s′′ , s′ ) − Pt (s, s′ ) Ph (s, s′′ )Pt (s′′ , s′ ) + (Ph (s, s) − 1)Pt (s, s′ ), s, s′ ∈ S, t ≥ 0, h > 0, die sich mit der Chapman-Kolmogorov-Gleichung (4.39) ergibt, nach einer Division beider Seiten durch h der Grenzfall h ց 0 betrachtet werden. Hierbei muß Satz 4.28 berücksichtigt werden. 22. Juli 2014 76 Wenn in einer konkreten Anwendung die Übergangsintensitäten 4.180 λ(s, s′ ), s, s ∈ S, s 6= s′ , so gegeben sind, daß mit Hilfe der Rückwärtsgleichung (4.44) oder der Vorwärtsgleichung 4.181, die Übergangswahrscheinlichkeiten eindeutig berechnet werden können 4.182, ist dank Satz 4.26 der zugehörige Markovprozeß X = (Xt )t≥0 , d.h., dessen Verteilung, eindeutig bestimmt. ′ Beispiel 4.30 (Geburts- und Todesprozesse). Für einen einfachen Markovprozeß X = (Xt )t≥0 mit Zustandsraum S = N0 zur Modellierung der Zeitentwicklung der Größe einer Population seien Geburtsraten βi > 0, i ∈ N0 , und Todesraten δi > 0, i ∈ N, gegeben, so daß 4.183 βi , j = i + 1, i = 0, 1, 2, . . . , λ(i, j) = δi , j = i − 1, i = 1, 2, . . . , 0, sonst. Unabhängigkeit“ zwischen den einzelnen Individuen 4.184 der Population kann ” durch die Annahme, daß die Geburts- und Todesraten zur Populationsgröße proportional sind, zum Ausdruck gebracht werden. In diesem Fall ist βi = βi, i ∈ N, bzw. δi = δi, i ∈ N, für β, δ > 0 4.185 4.186. 4.3.3. Simulation von Markovprozessen (Xt )t≥0 mit einem diskreten Zustandsraum. Sei X = (Xt )t≥0 ein konservativer Markovprozeß mit einem diskreten Zustandsraum S 4.187. Das zeitliche Verhalten von X zeichnet sich u.a. durch folgende Eigenschaften aus: 4.178(4.44) heißt Rückwärtsgleichung, weil auf der rechten Seite die Übergangsintensitäten λ(s, s′′ ), bzw. λ(s), an die ersten (zeitlich rückwärtigen“) Argumente s′′ , bzw. s, der Über” gangswahrscheinlichkeiten gekoppelt sind. Im Gegensatz dazu sind diese Raten bei der Vorwärtsgleichung X d Pt (s, s′ ) = Pt (s, s′′ )λ(s′′ , s′ ) − Pt (s, s′ )λ(s′ ), s, s′ ∈ S, t ≥ 0, dt ′′ s ∈S s′′ 6=s′ an die zeitlich später“ liegenden Argumente der Übergangswahrscheinlichkeiten gebunden. I. allg. ” sind die Rückwärtsgleichungen mathematisch einfacher als die Vorwärtsgleichungen zu handhaben und werden daher vorgezogen. Aufgrund der Vorgehensweise in ihrer Ableitung in Anhang A.4.5 entsprechen die Differentialgleichungen (A.4.17) und (A.4.19) für die Übergangswahrscheinlichkeiten des Poisson-Prozesses übrigens der Vorwärtsgleichung. 4.179 Wegen (4.43). 4.180 Für konservative Prozesse X können die Raten λ(s), s ∈ S, mit Hilfe von (4.43) berechnet werden. 4.181Vgl. Fußnote 4.178. 4.182D.h., die Rückwärtsgleichung, bzw. die Vorwärtsgleichung muß für die Anfangsbedingung P0 (s, s′ ) = δs,s′ , s, s′ ∈ S, eine eindeutige Lösung Pt (s, s′ ), s, s′ ∈ S, t ≥ 0, besitzen. 4.183β = λ(0, 1) ist die Rate, mit der die Einwanderung eines einzelnen Individuums in eine 0 schon ausgestorbene Population stattfindet. 4.184 D.h., das Fehlen einer Wechselwirkung. 4.185Im Unterschied zu den in diesem Beispiel vorgestellten Geburts- und Todesprozessen sind beim Galton-Watson-Prozess, vgl. Beispiel 4.24, die verschiedenen Generationen strikt voneinander getrennt. 4.186Für einen reinen“ Geburtsprozeß mit δ = 0, i ∈ N, und β > 0, i ∈ N , kann die 0 i i ” Vorwärtsgleichung, vgl. Fußnote 4.178, explizit durch Angabe der Laplacetransformierten der Übergangswahrscheinlichkeiten gelöst werden, vgl. [12], Section 6.8, Theorem (14). Falls δi = δi, i ∈ N, und βi = βi, i ∈ N0 , wobei β, δ > 0, können die erzeugenden Funktionen φXt , t ≥ 0, berechP k X net werden, vgl. [12], Section 6.11, Theorem (10). Hierbei ist φX (s) = ∞ k=0 P[X = k]s = E[s ], s ∈ [0, 1], die erzeugende Funktion einer N0 -wertigen Zufallsvariable X. 4.187Damit wird insbesondere P ′ s′ ∈S,s′ 6=s λ(s, s ) = λ(s) < ∞, s ∈ S, gefordert, vgl. (4.43). 22. Juli 2014 77 • Sei Xt = s für ein t ≥ 0 und ein s ∈ S. Die verbleibende Aufenthaltszeit T = inf{u ≥ t : Xu 6= s} − t in s besitzt eine Exponentialverteilung mit Parameter λ(s) 4.188. • Nach dem Verlassen von s springt X zu einem Zustand s′ ∈ S \ {s} mit Wahrscheinlichkeit λ(s, s′ )/λ(s) 4.189 4.190. Eine Computersimulation von X kann somit auf den infinitesimalen Übergangswahrscheinlichkeiten λ(s), λ(s, s′ ), s, s′ ∈ S, s 6= s′ , aufgebaut werden. Bei einem gegebenen Startpunkt X0 = s0 bietet sich folgendes Verfahren an: • Sei T0 eine nach der Exponentialverteilung mit Parameter λ(s0 ) verteilte Zufallsvariable 4.191. Setze dann Xt = s0 , 0 ≤ t < T0 . • Wähle nun s1 ∈ S \ {s0 } unabhängig von T0 gemäß der diskreten Wahrscheinlichkeitsverteilung λ(s0 , s1 )/λ(s0 ), s1 ∈ S \ {s0 }. • Sei T1 eine nach der Exponentialverteilung mit Parameter λ(s1 ) verteilte und von T0 und der vorhergehenden Wahl von s1 unabhängige Zufallsvariable. Setze Xt = s1 , T0 ≤ t < T0 + T1 . • Wähle s2 ∈ S \ {s1 } gemäß der diskreten Verteilung λ(s1 , s2 )/λ(s1 ), s2 ∈ S \ {s1 } 4.192. • ... 4.4. Martingale. Martingale sind stochastische Prozesse, die sich vordergründig dadurch auszeichnen, daß sie • oftmals kompliziert aussehen, aber • äußerst nützlich sein können 4.193. 4.188Zur Begründung können die Argumente in Anhang A.4.5.1 leicht modifiziert übernommen werden. 4.189Da X als konservativ vorausgesetzt wird, definiert λ(s, s′ )/λ(s), s′ ∈ S \ {s}, für alle s ∈ S ein Wahrscheinlichkeitsmaß auf S \ {s}. 4.190 Zur Begründung beachte man, daß für s, s′ ∈ S, s 6= s′ und u ≥ 0 gilt: P[Xu+h = s′ |Xu+h 6= s, Xu = s] P[Xu+h = s′ , Xu = s] (da {Xu+h = s′ , Xu+h 6= s, Xu = s} = {Xu+h = s′ , Xu = s}) P[Xu+h 6= s, Xu = s] P[Xu = s]P[Xu+h = s′ |Xu = s] = P[Xu = s]P[Xu+h 6= s|Xu = s] {z } | = 1 − P[Xu+h = s|Xu = s] = λ(s, s′ )h + o(h) λ(s)h + o(h) ′ h→0 λ(s, s ) . → λ(s) = (nach Satz 4.28) 4.191Ein Verfahren zur Simulation von exponentiell verteilten Zufallsvariablen wird in Beispiel 2.13 beschrieben. 4.192Natürlich soll die Wahl von s unabhängig von T , T und der Wahl von s erfolgen. 2 0 1 1 4.193Vgl. z.B. Abschnitt 4.5.4. Dort werden aufbauend auf der Brownschen Bewegung sukzessive verschiedene Martingale angegeben. Mit Hilfe dieser Martingale können dann Lösungen spezieller partieller Differentialgleichungen als Funktionale der Brownschen Bewegung dargestellt werden. Jene Darstellungen könnten insbesondere zur Lösung der partiellen Differentialgleichungen durch ein Monte-Carlo-Verfahren angewandt werden. 22. Juli 2014 78 Sie dienen z.B. zur Charakterisierung anderer natürlicherer“ stochastischer Pro” zesse 4.194 oder auch als Hilfsmittel zur Herleitung von Grenzwertsätzen 4.195. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum mit einer Filtration 4.196 (Ft )t≥0 . X = (Xt )t≥0 sei ein R-wertiger an (Ft )t≥0 adaptierter 4.196 stochastischer Prozeß mit (4.45) E[|Xt |] < ∞, t ≥ 0. X heißt Submartingal bzgl. (Ft )t≥0 , falls (4.46a) E[Xt |Fs ] ≥ Xs , P-f.s., bzw. Supermartingal bzgl. (Ft )t≥0 , falls (4.46b) 0 ≤ s ≤ t < ∞, 4.197 E[Xt |Fs ] ≤ Xs , P-f.s., 0 ≤ s ≤ t < ∞. E[Xt |Fs ] = Xs , P-f.s., 0 ≤ s ≤ t < ∞, Wenn (4.46c) wird X als Martingal 4.198 bzgl. (Ft )t≥0 bezeichnet 4.199. Ein (Sub-, Super-) Martingal X bzgl. der Filtration (FtX )t≥0 4.200 wird einfach (Sub-, Super-) Martingal genannt. Zum Nachweis der Martingaleigenschaft eines reellwertigen, integrablen stochastischen Prozesses X = (Xn )n∈N0 in diskreter Zeit bzgl. einer Filtration (Fn )n∈N0 reicht die Verifikation von 4.201 4.202 (4.47) E[Xn+1 |Fn ] = Xn , f.s., n ∈ N0 . 4.194Beispielsweise können Diffusionsprozesse X = (X ) t t≥0 als stetige Markovprozesse charakterisiert werden, die sich dadurch auszeichnen, daß spezielle, durch X bestimmte Prozesse Martingale sind, vgl. [26], Chapter VII, Definition (2.1) und Proposition (2.2). Als ein weiteres Beispiel sei ein Satz von Lévy erwähnt, der besagt, daß das einzige reellwertige Martingal X = (Xt )t≥0 mit stetigen Pfaden, für das auch der Prozeß t → Xt2 − t die Martingaleigenschaft besitzt, die standard Brownsche Bewegung in R ist, vgl. [26], Chapter IV, Theorem (3.6) und auch Abschnitt 6.2.5. 4.195 In folgenden Beispielen 4.36 und 4.38 wird z.B. demonstriert, wie Konvergenzsätze für Martingale, vgl. Satz 4.34 und Satz 4.37, zur Analyse der Asymptotik des Galton-WatsonProzesses, vgl. Beispiel 4.24 und Satz 4.25, bzw. zum Beweis eines starken Gesetzes der großen Zahlen, vgl. Satz 4.5, verwendet werden können. 4.196Vgl. Abschnitt 3.9. 4.197Offensichtlich ist X = (X ) t t≥0 genau dann ein Submartingal, wenn der Prozeß −X = (−Xt )t≥0 ein Supermartingal ist. 4.198Reellwertige Martingale sind sowohl Sub- als auch Supermartingale. Auch vektorwertige Prozesse können die Martingaleigenschaft besitzen. Z.B. wird in Abschnitt 4.5.4 mit C-wertigen Martingalen gearbeitet. 4.199Die Erwähnung einer Filtration im Zusammenhang zur (Sub-, Super-) Martingaleigenschaft (4.46a), (4.46b), bzw. (4.46c), eines stochastischen Prozesses X ist wesentlich. Wenn (Ft )t≥0 durch eine andere Filtration (Gt )t≥0 ersetzt wird, brauchen diese Beziehungen nicht mehr zu gelten, d.h., die (Sub-, Super-) Martingaleigenschaft von X kann beim Wechsel der Filtration verlorengehen. 4.200(F X ) t t≥0 ist die von X erzeugte Filtration, vgl. Beispiel 3.3 und Abschnitt 3.9. 4.201Die Gültigkeit von E[X n+k |Fn ] = Xn , f.s., n ∈ N0 , k ∈ N, ergibt sich dann durch Iteration, d.h., E[Xn+k |Fn ] = E E[Xn+k |Fn+k−1 ]Fn = · · · = Xn , f.s., k = 2, 3, . . . . | {z } = Xn+k−1 Hier wird insbesondere (3.33) benutzt. 4.202 Sub- und Supermartingale in diskreter Zeit können durch eine entsprechende Beziehung charakterisiert werden. 22. Juli 2014 79 Ein stochastischer Prozeß X = (Xn )n∈N0 , der Werte in einer höchstens abzählbaren Teilmenge S aus R oder Rd annimmt, ist ein Martingal, wenn 4.203 (4.48) E Xn+1 X0 = s0 , X1 = s1 , . . . , Xn = sn = sn , s0 , s1 , . . . , sn ∈ S, n ∈ N0 . Beispiel 4.31. Die symmetrische Irrfahrt X = (Xn )n∈N0 in Zd wertiges Martingal 4.205. 4.204 ist ein Zd - Beispiel 4.32. Sei X = (Xt )t≥0 ein Martingal bzgl. einer Filtration (Ft )t≥0 und φ : R → R eine konvexe Funktion mit E[|φ(Xt )|] < ∞, t ≥ 0. Dann ist φ(X) = (φ(Xt ))t≥0 ein Submartingal, denn (4.49) E[φ(Xt )|Fs ] ≥ 4.206 φ(E[Xt |Fs ]) = 4.207 φ(Xs ), f.s., 0 ≤ s ≤ t < ∞. Auch wenn X ein Submartingal und φ zusätzlich monoton steigend ist, ist φ(X) ein Submartingal 4.208. Beispiel 4.33. Sei X = (Xn )n∈N0 ein Galton-Watson-Prozeß ren Nachkommenszahl m und E[X0 ] < ∞. Dann gilt (4.50) E[Xn+1 |X0 = x0 , . . . , Xn = xn ] = = 4.210 4.211 4.209 mit der mittle- E[Xn+1 |Xn = xn ] xn m, x0 , . . . , xn , n ∈ N0 . Daher ist der Prozeß W = (Wn )n∈N0 mit Wn = Xn /mn , n = 0, 1, 2, . . . , ein Martingal bzgl. (FnX )n∈N0 4.212. Im Rest dieses Abschnitts werden nur (Sub-, Super-) Martingale X = (Xn )n∈N0 in diskreter Zeit betrachtet. 4.4.1. Konvergenzsätze für Submartingale. Unter minimalen Bedingungen konvergieren Submartingale f.s., bzw. in L1 bei n → ∞. Satz 4.34. 4.213 Sei X = (Xn )n∈N0 ein Submartingal bzgl. einer Filtration (Fn )n∈N0 in einem Wahrscheinlichkeitsraum (Ω, F, P), wobei (4.51) sup E[(Xn )+ ] < ∞. n∈N0 Dann existiert eine Zufallsvariable X∞ mit E[|X∞ |] < ∞ und (4.52) lim Xn = X∞ , P-f.s. n→∞ 4.203Man beachte, daß für alle n ∈ N die Ereignisse {X = s , X = s , . . . , X = s }, n n 0 0 0 1 1 X = σ(X , X , . . . , X ) erzeugen. s0 , s1 , . . . , sn ∈ S, die σ-Algebra Fn n 0 1 4.204Vgl. Satz 4.23. 4.205Offensichtlich ist E[|X |] ≤ n, n ∈ N , d.h., die Integrabilitätsbedingung (4.45) ist n 0 erfüllt. Da weiterhin die symmetrische Irrfahrt in jedem Zeitpunkt mit gleicher Wahrscheinlichkeit zu den jeweiligen Nachbarpunkten in Zd springt, ergibt sich auch (4.48) und damit die Martingaleigenschaft von X. 4.206Nach der Jensenschen Ungleichung für bedingte Erwartungswerte, vgl. Beispiel 3.28. 4.207Da X ein Martingal ist. 4.208In diesem Fall führt in (4.49) die Submartingaleigenschaft von X und die Monotonie von φ zu φ(E[Xt |Fs ]) ≥ φ(Xs ), f.s., 0 ≤ s ≤ t < ∞. 4.209Vgl. Beispiel 4.24 und Satz 4.25. 4.210Wegen der Markoveigenschaft von X. Beachte hier auch Fußnote 4.117. 4.211 Wegen (4.31). 4.212Diese Martingaleigenschaft, d.h., die Gültigkeit von (4.48), wird deutlich, wenn alle Terme in (4.50) durch mn+1 dividiert werden. Aus (4.50) folgt übrigens E[Xn+1 ] = mE[Xn ], n ∈ N0 , d.h., mit vollständiger Induktion kann (4.45) nachgewiesen werden. 4.213(4.52) wird in Beispiel 5.21, bzw. in [7], Section 4.2, Theorem (2.10) bewiesen. (4.53) folgt dann mit Satz 3.13 und Satz 3.17. 22. Juli 2014 80 Falls die Familie der Zufallsvariablen Xn , n ∈ N0 , gleichgradig integrierbar ist, so gilt zusätzlich die Konvergenz in L1 , d.h., 4.214 lim E |Xn − X∞ | = 0. (4.53) n→∞ Beispiel 4.35. Sei X = (Xn )n∈N0 ein positives 4.215 Supermartingal. Damit ist der Prozeß −X = (−Xn )n∈N0 ein negatives Submartingal 4.216, d.h., es gilt insbesondere E[(−Xn )+ ] = 0, n ∈ N0 . Als Folge von Satz 4.34 exisitiert damit der Limes X∞ = limn→∞ Xn , f.s., wobei X∞ ≥ 0. Aufgrund der Supermartingaleigenschaft von X ist E[Xn ], n ∈ N0 , eine monoton fallende Folge. Mit dem Lemma von Fatou 4.217 folgt daher weiter, daß 4.218 E[X∞ ] ≤ E[X0 ]. Beispiel 4.36. Sei X = (Xn )n∈N0 ein Galton-Watson-Prozeß 4.219 mit X0 = 1 und der mittleren Nachkommenszahl m. Das in Beispiel 4.33 beschriebene Martingal W = (Wn )n∈N0 mit Wn = Xn /mn , n = 0, 1, 2, . . . , ist insbesondere ein positives Supermartingal, so daß nach Beispiel 4.35 der Grenzwert (4.54) W∞ = lim Wn , f.s., n→∞ e = W∞ ist 4.220. existiert. Damit ist die f.s.-Konvergenz in (4.35) bewiesen, wobei X Weiterhin ist (4.55) und somit E[Wn ] = 4.221 E[W0 ] = E[X0 ] = 1, n ∈ N0 , 4.222 E[W∞ ] ≤ 1. (4.56) Als Konsequenz aus (4.54) - (4.56) können nun weitere Teile von Satz 4.25 bewiesen werden 4.223. Für m < 1 folgt zunächst 4.224 limn→∞ Xn = 0, f.s., und damit 4.225 P[Xn = 0, n ≥ N, N hinreichend groß] = 1 4.226. Falls m = 1, ist Xn = Wn , n ∈ N0 , und daher nimmt W∞ = limn→∞ Xn Werte in N0 an. Insbesondere ergibt sich P[Xn = W∞ , n ≥ N, N hinreichend groß] = 1. 4.214Vgl. Abschnitt 3.5.4. 4.215D.h., X ≥ 0, f.s., n ∈ N . n 0 4.216Vgl. dazu Fußnote 4.197. 4.217Vgl. Satz 3.23. 4.218E[X ] = E[lim ∞ n→∞ Xn ] ≤ lim inf n→∞ E[Xn ] ≤ E[X0 ]. 4.219Vgl. Beispiel 4.24 und Satz 4.25. 4.220Außer X e ≥ 0 sind an dieser Stelle noch keine weiteren Details über die Eigenschaften e = W∞ bekannt. von X 4.221Weil W = (W ) n n∈N0 ein Martingal ist. 4.222 Vgl. Beispiel 4.35. 4.223Der Beweis eines ersten Teils ist in Anhang A.4.4 zu finden. 4.224Weil X /W = mn n→∞ → 0 und da limn→∞ Wn = W∞ ∈ [0, ∞), f.s. n n 4.225Man beachte, daß (X ) n n∈N0 Werte in N0 annimmt. 4.226Damit ist der Fall m < 1 in (4.33) bewiesen. 22. Juli 2014 81 Wenn weiterhin b0 > 0, folgt 4.227 P[Xn = k, n ≥ N, N hinreichend groß] = 0, k = 1, 2, . . . , und somit ist P[Xn = 0, n ≥ N, N hinreichend groß] = 1 4.228. Ebenfalls mit Hilfe der Martingaleigenschaft des Prozesses W wird in Beispiel 4.44 nachgewiesen, daß die Konvergenz in (4.35) auch in L2 gilt, und weiterhin e berechnet. die Varianz von X Auch in der weit zurückliegenden Vergangenheit“ können Submartingale kon” vergieren. Satz 4.37. 4.229 Der stochastische Prozeß 4.230 X = (Xn )n∈Z− sei ein Submartingal bzgl. einer Filtration (Fn )n∈Z− 4.231. Dann gibt es eine Zufallsvariable X−∞ mit 4.232 (4.57) lim Xn = X−∞ , f.s. n→−∞ Wenn X ein Martingal (4.58) 4.233 ist, gilt darüberhinaus die Konvergenz in L1 , d.h., lim E |Xn − X−∞ | = 0. n→−∞ Beispiel 4.38 (Starkes Gesetz der großen Zahlen). 4.234 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und sei X1 , X2 , . . . eine Folge unabhängiger, identisch verteilter, reellwertiger Zufallsvariablen mit E[|X1 |] < ∞. Sei Sn = X 1 + · · · + X n , (4.59a) n = 1, 2, . . . , 4.227Offensichtlich ist nun P[X k n+1 = 0|Xn = k] = b0 ∈ (0, 1], n ∈ N0 , k = 1, 2, . . . , und daher P[Xn+r = Xn+r−1 = · · · = Xn+1 = k|Xn = k] = P[Xn+r = k|Xn+r−1 = k]P[Xn+r−1 = k|Xn+r−2 = k] . . . P[Xn+1 = k|Xn = k] (wegen der Markoveigenschaft von X) ≤ (1 − bk0 )r , n ∈ N0 , r, k = 1, 2, . . . . Es folgt: P[Xn+r = Xn+r−1 = · · · = Xn = k] r→∞ = P[Xn+r = . . . = Xn+1 = k|Xn = k]P[Xn = k] ≤ (1 − bk0 )r → 0, n ∈ N0 , k = 1, 2, . . . , d.h., die σ-Stetigkeit von oben von P, vgl. Satz 3.10(6), führt zu P[Xl = k, l ≥ n] = 0, n ∈ N0 , k = 1, 2, . . . Folglich ist P[Xl = k, l ≥ N, N hinreichend groß] ≤ ∞ X n=0 P[Xl = k, l ≥ n] = 0, k = 1, 2, . . . 4.228 Damit ist (4.33) für den Fall m = 1, b0 > 0 verifiziert. In den Fällen m < 1 und m = 1, b0 > 0 ist durch die in diesem Beispiel 4.36 vorgestellten Überlegungen gezeigt worden, daß limn→∞ Xn = 0, f.s. 4.229Vgl. [26], Chapter II, Theorem (2.3), und [3], Korollar 19.10. 4.230Z = {−1, −2, . . . }. − 4.231Es gilt also E[X n+1 |Fn ] ≥ Xn , f.s., n = −2, −3, . . . . Ein derartiges, durch negative Zeitpunkte indiziertes Submartingal wird auch als Rückwärtssubmartingal bezeichnet. 4.232Im Gegensatz zu Satz 4.34 wird in diesem Resultat zur fast-sicheren Konvergenz von Submartingalen keine Bedingung wie z.B. (4.51), die eine spezielle gleichmäßige“ Integrabilität ” fordert, benötigt. 4.233Ein solcher Prozeß wird auch Rückwärtsmartingal genannt. 4.234Zum starken Gesetz der großen Zahlen vgl. Abschnitt 4.1.2. Im vorliegenden Beispiel 4.38, in dem [7], Section 4.6, Example 6.1, vorgestellt wird, wird gezeigt, daß für eine Folge von i.i.d. Zufallsvariablen deren Integrabilität hinreichend für die Gültigkeit des starken Gesetzes der großen Zahlen ist. 22. Juli 2014 82 und 4.235 (4.59b) ζn = Durch 1 S−n −n n = −1, −2, . . . Fn = σ(S−n , S−n+1 , S−n+2 , . . . ) = σ(S−n , X−n+1 , X−n+2 , . . . ) = σ(ζn , ζn−1 , ζn−2 , . . . ), ist eine Filtration 4.236 (Fn )n∈Z− gegeben. Nun ist E[ζn+1 |Fn ] = ζn , f.s., (4.60) n = −1, −2, . . . , 4.237 4.238 n = −2, −3, . . . , d.h., ζ = (ζn )n∈Z− ist ein Martingal bzgl. (Fn )n∈Z− . Daher existiert eine Zufallsvariable ζ−∞ mit N 1 X Xk = N →∞ N (4.61) lim 4.239 lim ζn = 4.240 n→−∞ k=1 ζ−∞ , f.s. und in L1 . Offensichtlich ist T ζ−∞ meßbar bzgl. σ(Xm , Xm+1 , . . . ) für alle m ∈ N 4.241 und somit auch bzgl. T = ∞ m=1 σ(Xm , Xm+1 , . . . ). Nach dem 0-1-Gesetz von Kolmogorov 4.242 ist T trivial, d.h., P[A] = 0 oder P[A] = 1, A ∈ T. Weil T trivial ist, sind alle T-meßbaren Funktionen, z.B. auch ζ−∞ , f.s. konstant. Insbesondere gilt (4.62) ζ−∞ = E[ζ−∞ ] = 4.243 lim E[ζn ] = n→−∞ 4.244 E[X1 ], f.s. 4.235 Aus technischen Gründen“ wird ein stochastischer Prozeß ζ = (ζ ) n n∈Z− mit Zeitpunk” ten in Z− eingeführt. Insbesondere wird dadurch die Anwendung von Satz 4.37 ermöglicht. 4.236Da F ⊆ F n n+1 , n = −2, −3, . . . . 4.237Die Integrabilität von ζ , n ∈ Z , folgt aus (4.59) und der Annahme E[|X |] < ∞. n − P 1 4.238 Für n = −1, −2, . . . tragen in Sm = m k=1 Xk , m = −n, −n + 1, . . . , die Zufallsvariablen Xk , k = 1, . . . , −n, auf die gleiche, symmetrische Weise als Summanden bei. Aus Symmetriegründen gilt somit E[Xk |Fn ] = E[Xl |Fn ], k, l = 1, . . . , −n, n = −1, −2, . . . , und daher E[X−n |Fn ] = = Da ζn+1 = (−n − 1)−1 P−n−1 −n 1 X E[Xk |Fn ] −n k=1 1 1 E[S−n |Fn ] = S−n , −n −n n = −1, −2, . . . . −1 (S −n − X−n ), n = −2, −3, . . . , folgt k=1 Xk = (−n − 1) X−n S−n F Fn − E E[ζn+1 |Fn ] = E n −n − 1 −n − 1 1 S−n 1 = S−n = − = ζn , n = −2, −3, . . . . −n − 1 −n(−n − 1) −n 4.239Wegen (4.59). 4.240Wegen Satz 4.37. 4.241Durch diese Meßbarkeitseigenschaft kommt zum Ausdruck, daß für alle m ∈ N P die Zufallsvariable ζ−∞ = limN→∞ (1/N ) N Xm−1 , wohl aber von k=1 Xk nicht von X1 , . . . ,P Xm , Xm+1 , . . . abhängt. Hierbei wird berücksichtigt, daß limN→∞ (1/N ) m−1 k=1 Xk = 0, f.s. und in L1 , m ∈ N. 4.242Vgl. Satz 5.3. 22. Juli 2014 83 Mit (4.61) und (4.62) ist bewiesen, daß die Integrabilität von X1 hinreichend für die Gültigkeit des starken Gesetzes der großen Zahlen für i.i.d. Zufallsvariablen Xn , n ∈ N, ist 4.245. 4.4.2. Transformationen von (Sub-) Martingalen. Es gibt viele unterschiedliche Möglichkeiten aus (Sub-, Super-) Martingalen andere derartige Prozesse zu gewinnen 4.246. Beispiel 4.39. 4.247 Ein reellwertiger stochastischer Prozeß X = (Xn )n∈N0 sei ein Submartingal bzgl. einer Filtration (Fn )n∈N0 . Sei außerdem H = (Hn )n∈N ein positiver, bzgl. (Fn )n∈N0 vorhersehbarer stochastischer Prozeß, d.h., für alle n ∈ N sei die Zufallsvariable Hn meßbar bzgl. Fn−1 . Zusätzlich sei Hn für alle n ∈ N beschränkt 4.248. Dann ist auch Y = (Yn )n∈N0 mit 4.249 n X (4.63) Yn = Hk (Xk − Xk−1 ), n ∈ N0 , k=1 ein Submartingal bzgl. (Fn )n∈N0 4.250. Wenn X ein Supermartingal, bzw. ein Martingal ist, so ist der durch (4.63) definierte Prozeß Y ebenfalls ein Supermartingal, bzw. ein Martingal. Hierbei kann im Martingalfall auf die Positivität von H verzichtet werden 4.251. Die (Sub-, Super-) Martingaleigenschaft eines stochastischen Prozesses bleibt erhalten, wenn dieser Prozeß nur bis zu einer Stoppzeit 4.252 betrachtet wird. Satz 4.40. Sei X = (Xn )n∈N0 ein (Sub-) Martingal und T eine Stoppzeit bzgl. einer Filtration (Fn )n∈N0 . Dann ist der gestoppte Prozeß 4.253 XT = (Xn∧T )n∈N0 ebenfalls ein (Sub-) Martingal 4.254. 4.243Wegen (4.61). 4.244Wegen (4.59). 4.245Insbesondere ist die eine Richtung von Satz 4.5 gezeigt. 4.246Eine erste Möglichkeit wurde in Beispiel 4.32 beschrieben. 4.247Vgl. [7], Section 4.2, Theorem (2.7). 4.248D.h., für alle n ∈ N existiert ein M = M ∈ (0, ∞), so daß H ≤ M , f.s. n n n 4.249Aus (4.63) folgt insbesondere Y = 0. Der Prozeß Y entsteht aus X, indem dessen 0 Zuwächse Xk − Xk−1 , k ∈ N, jeweils mit Hk gewichtet“ und aufsummiert werden. 4.250Die Integrabilität von Y, vgl. (4.45),” ist offensichtlich, weil X ein Submartingal ist und weil Hn für alle n ∈ N beschränkt ist. Die Submartingaleigenschaft von Y folgt aus E[Yn+1 |Fn ] = E[Hn+1 (Xn+1 − Xn )|Fn ] + n X k=1 = Hn+1 E[Xn+1 − Xn |Fn ] +Yn | {z } | {z } ≥0 ≥0 ≥ Yn , f.s., Hk (Xk − Xk−1 ) (wegen (3.32), da Hn+1 meßbar bzgl. Fn ist) (da H positiv und X ein Submartingal ist) n ∈ N0 . 4.251(4.63) ist eine zeitlich diskrete Version eines im Sinne von Itô definierten stochastischen R Integrals Yt = 0t Hs dXs , t ≥ 0, eines vorhersehbaren Prozesses H = (Ht )t≥0 bzgl. eines Submartingals X = (Xt )t≥0 , vgl. Abschnitte 4.6.1 und 6.2. Bei der Definition stochastischer Integrale im Sinne von Itô benutzt man Prozesse Y = (Yn )n∈N0 wie in (4.63) als Approximation. 4.252Vgl. Abschnitt 3.9. 4.253a ∧ b = min{a, b}, a, b ∈ R. 4.254Die Behauptung ergibt sich aus der Darstellung Xn∧T = X(n−1)∧T + (Xn − Xn−1 )I{T ≥n} = · · · = X0 + n X (Xk − Xk−1 )I{T ≥k} , n = 1, 2, . . . , k=1 der Beobachtung {T ≥ n} = Ω \ {T ≤ n − 1} ∈ Fn−1 , n = 1, 2, . . . , und Beispiel 4.39. 22. Juli 2014 84 Die Martingaleigenschaft eines Prozesses X = (Xn )n∈N0 bleibt bestehen, wenn X an Stoppzeiten betrachtet wird. Satz 4.41 ( Optional Stopping Theorem“). 4.255 Seien X = (Xn )n∈N0 ein Martin” gal und S und T Stoppzeiten bzgl. einer Filtration (Fn )n∈N0 . Für ein M ∈ (0, ∞) sei 0 ≤ S ≤ T ≤ M < ∞, f.s. (4.64) Dann gilt 4.256 E[XT |FS ] = XS , f.s., (4.65) und (4.66) E[XT ] = E[XS ]. Seien Tk , k ∈ N0 , beschränkte Stoppzeiten (4.67) 4.257 bzgl. (Fn )n∈N0 mit 4.258 0 ≤ T0 ≤ T1 ≤ T2 ≤ . . . , f.s. bk = XT , k ∈ N0 , ein b = (X bk )k∈N0 mit X Dann ist der stochastische Prozeß X k 4.259 Martingal bzgl. der Filtration (FTk )k∈N0 . Satz 4.41 gilt sinngemäß auch, wenn X ein Sub- oder ein Supermartingal ist. Beispiel 4.42. Sei (Xn )n∈N0 die symmetrische Irrfahrt in Z mit X0 = 0, f.s. 4.260, und sei Tc = inf{n ∈ N0 : Xn = c}, c ∈ Z. Für a, b ∈ Z mit a < 0 < b sind Ta , Tb und T = Ta ∧ Tb Stoppzeiten bzgl. der Filtration (FnX )n∈N0 4.261. Für die Stoppzeiten T und S ≡ 0 gilt 0 = S ≤ T < ∞, f.s., und (4.66) 4.262. Es folgt 0 = E[XS ] = E[XTa ∧Tb ] = und somit 4.263 a P[Ta < Tb ] + b P[Tb < Ta ] | {z } = 1 − P[Ta < Tb ] b , b−a d.h., mit Wahrscheinlichkeit b/(b−a) verläßt die symmetrische Irrfahrt das Intervall (a, b) in a. Es muß betont werden, daß (4.65) und (4.66) nicht für beliebige Stoppzeiten S und T mit 0 ≤ S ≤ T < ∞, f.s., gelten können. Für S ≡ 0 und T = Ta ist beispielsweise 0 = E[XS ] 6= E[XTa ] = a, falls a 6= 0. P[Ta < Tb ] = 4.255Vgl. z.B. [7], Section 4.7, Theorem (7.4), und [6], Theorem 5.10. In jenen Resultaten wird der hier vorgestellte Satz 4.41 verallgemeinert. Hierbei wird insbesondere mit geeigneten unbeschränkten Stoppzeiten gearbeitet. Der Nachweis von (4.65) wird in Anhang A.4.6 geführt. 4.256Die σ-Algebra F , die einer Stoppzeit T zugeordnet ist, wird in Abschnitt 3.9 T beschrieben. 4.257Zu jedem k ∈ N gibt es ein M ∈ (0, ∞) mit T ≤ M , f.s. 0 k k k 4.258Die Stoppzeiten T , k ∈ N , sind monoton ansteigend. 0 k 4.259Die Tatsache, daß (F ) Tk k∈N0 eine Filtration ist, d.h., daß FT0 ⊆ FT1 ⊆ FT2 ⊆ . . . , folgt aus (4.67). 4.260Vgl. Satz 4.23. 4.261Vgl. Beispiel 3.30 und Satz 3.31. Aus Satz 4.23 folgt zunächst, daß T ′ = inf{n ∈ N : 0 Xn = 0} < ∞, f.s. Als Konsequenz ergibt sich letztendlich, daß auch Ta , Tb < ∞, f.s. 4.262Die Bedingung (4.64) ist zwar nicht erfüllt. Aufgrund von [7], Section 4.7, Theorem (7.4), bleibt (4.66) für S und T dennoch gültig. 4.263Da T , T < ∞, f.s., vgl. Fußnote 4.261, ist offensichtlich P[T < T ] + P[T < T ] = 1. a a a b b b Außerdem ist XTa ∧Tb = a, wenn Ta < Tb , und XTa ∧Tb = b, wenn Tb < Ta . 22. Juli 2014 85 4.4.3. Doobsche Zerlegung für Submartingale. Ein Submartingal X = (Xn )n∈N0 bzgl. einer Filtration (Fn )n∈N0 kann in der Form Xn = Xn − (4.68) 4.264 n−1 X k=0 | X n−1 E[Xk+1 |Fk ] − Xk E[Xk+1 |Fk ] − Xk + {z =: 4.265 Mn = Mn + An , n ∈ N0 , } k=0 | =: {z 4.266 An } dargestellt werden. M = (Mn )n∈N0 ist ein Martingal bzgl. (Fn )n∈N0 4.267, während der Prozeß A = (An )n∈N0 vorhersehbar bzgl. (Fn )n∈N0 und anwachsend ist 4.268. Hierbei heißt ein stochastischer Prozeß (An )n∈N0 anwachsend, wenn 0 = A0 ≤ A1 ≤ A2 ≤ . . . , f.s., und E[An ] < ∞, n ∈ N0 . Die Darstellung (4.68) eines Submartingals als Summe eines Martingals und eines vorhersehbaren, anwachsenden Prozesses ist eindeutig 4.269. Sie wird als Doobsche Zerlegung des Submartingals X bezeichnet 4.270. Beispiel 4.43. Sei X = (Xn )n∈N0 ein Martingal bzgl. einer Filtration (Fn )n∈N0 mit 4.271 E[Xn2 ] < ∞, n ∈ N0 . Aufgrund von Beispiel 4.32 ist dann der Prozeß X2 = (Xn2 )n∈N0 ein Submartingal bzgl. (Fn )n∈N0 4.272. Somit ist nach (4.68) und den hierzu durchgeführten Überlegungen X2,c = (Xn2,c )n∈N0 mit Xn2,c = Xn2 − = 4.273 n−1 X k=0 Xn2 − 2 |Fk ] − Xk2 E[Xk+1 n−1 X k=0 E[(Xk+1 − Xk )2 |Fk ], n ∈ N0 , 4.264Für jeden Zeitpunkt n werden für die vorangegangenen Zeitpunkte k = 0, 1, . . . , n − 1, die unter der jew. Vergangenheit Fk bedingten Zuwächse“ E[Xk+1 − Xk |Fk ] des Prozesses X ” aufsummiert. 4.265 Für n = 0 sei Mn = X0 gesetzt. 4.266 Für n = 0 sei An = 0 gesetzt. 4.267Aufgrund von (4.47) folgt die Martingaleigenschaft von M aus E[Mn |Fn−1 ] = E[Xn |Fn−1 ] − = Xn−1 − n−2 X k=0 n−1 X k=0 E[Xk+1 |Fk ] − Xk E[Xk+1 |Fk ] − Xk = Mn−1 , n = 1, 2, . . . . 4.268Die in Beispiel 4.39 eingeführte Vorhersehbarkeit ist für A = (A ) n n∈N0 offensichtlich. Weiterhin ist es eine Konsequenz der Submartingaleigenschaft von X, daß A anwachsend ist. 4.269Sei X = M ′ + A′ , n ∈ N , eine weitere Darstellung des Submartingals (X ) n n n∈N0 als 0 n n Summe eines Martingals (Mn′ )n∈N0 und eines vorhersehbaren, anwachsenden Prozesses (A′n )n∈N0 . Dann gilt ′ A′n+1 − A′n = −(Mn+1 − Mn′ ) + (Xn+1 − Xn ), n ∈ N0 . Wenn nun E[ . |Fn ] auf beide Seiten angewandt wird, führen die Vorhersehbarkeit von (A′n )n∈N0 , die Martingaleigenschaft von (Mn′ )n∈N0 und die Definition von (An )n∈N0 in (4.68) zu A′0 A′n+1 − A′n = E[Xn+1 |Fn ] − Xn = An+1 − An , n ∈ N0 . = 0 folgt durch Induktion zunächst An = A′n , n ∈ N0 , und dann Mn = Mn′ , n ∈ N0 . 4.270Bei Submartingalen in kontinuierlicher Zeit wird die entsprechende Darstellung auch Doob-Meyer-Zerlegung genannt, vgl. z.B. Abschnitt 5.3.3 oder [18], Theorem 25.5. 4.271X ist somit ein quadratintegrables Martingal. 4.272In Beispiel 4.32 ist φ(x) = x2 , x ∈ R, zu benutzen. Da A0 = 22. Juli 2014 86 ebenfalls ein Martingal bzgl. (Fn )n∈N0 . Beispiel 4.44. 4.274 Sei X = (Xn )n∈N0 ein Galton-Watson-Prozeß mit X0 = 1, der mittleren Nachkommenszahl m > 1 und der Varianz σ 2 ∈ (0, ∞) der Nachkommensverteilung 4.275. Nach Beispiel 4.33 ist der Prozeß W = (Wn )n∈N0 mit Wn = Xn /mn , n = 0, 1, 2, . . . , ein Martingal bzgl. (FnX )n∈N0 . Da σ 2 < ∞, ist E[Wn2 ] < ∞, n ∈ N0 4.276. Da 2 Xk X Xk+1 2 X (4.69) − k Fk E[(Wk+1 − Wk ) |Fk ] = E mk+1 m 1 = 2(k+1) E[(Xk+1 − mXk )2 |FkX ] m " X !2 # k X 1 X l 4.277 = E (ζ − m) Fk k m2(k+1) l=1 1 = 4.278 = 1 σ 2 Wk , mk+2 m2(k+1) σ 2 Xk k ∈ N0 , ist nach Beispiel 4.43 der Prozeß W2,c = (Wn2,c )n∈N0 mit Wn2,c = Wn2 − σ 2 n−1 X k=0 1 Wk , mk+2 n ∈ N0 , ein Martingal bzgl. (FnX )n∈N0 . Folglich ist (4.70) E[(Wn+r −Wn )2 ] = 4.279 2 E[Wn+r −Wn2 ] = 4.280 σ2 ∞ σ2 X 1 1 σ2 ≤ n+2 = , m mp mn m2 − m p=0 n+r−1 X k=n 1 E[Wk ] mk+2 | {z } = 4.281 1 n ∈ N0 , r = 1, 2, . . . . 4.273Da 2 − 2Xk+1 Xk + Xk2 )|Fk ] E[(Xk+1 − Xk )2 |Fk ] = E[(Xk+1 2 2 |Fk ] − Xk2 , |Fk ] − 2Xk E[Xk+1 |Fk ] + Xk2 = E[Xk+1 = E[Xk+1 wobei insbesondere (3.32) und die Martingaleigenschaft von X verwendet werden. 4.274In diesem Beispiel wird mit Hilfe des in Beispiel 4.33 eingeführten Martingals W ausgehend u.a. von den Überlegungen in Beispiel 4.43 nachgewiesen, daß die Konvergenz in (4.35) auch e bestimmt. Nach den Ausführungen in in L2 gilt. Außerdem wird die Varianz des Grenzwerts X Anhang A.4.4 und in Beispiel 4.36 wird damit der Beweis von Satz 4.25 abgeschlossen. 4.275σ2 ist die Varianz des Wahrscheinlichkeitsmaßes b = (b ) k k∈N0 auf N0 , welches die Verteilung der Anzahl der Nachkommen eines Individuums angibt, vgl. Beispiel 4.24. 4.276Diese Abschätzung ergibt sich zunächst durch vollständige Induktion mit Hilfe von (4.31). In (4.71) wird E[Wn2 ], n = 1, 2, . . . , exakt bestimmt. 4.277Wegen (4.31). 4.278Die einzelnen Zufallsvariablen ζ l , l = 1, 2, . . . , sind untereinander unabhängig und unk abhängig von FkX und damit insbesondere von Xk . Außerdem hat jede dieser Zufallsvariablen den 2 Erwartungswert m und die Varianz σ . Hier kann somit insbesondere berücksichtigt werden, daß sich die Varianzen unabhängiger Zufallsvariablen addieren. 22. Juli 2014 87 Somit ist Wn , n ∈ N0 , eine Cauchy-Folge in L2 (Ω, F, P), d.h., es existiert eine L2 g 4.282 2 g . Da eindeutig bestimmte Zufallsvariable W ∞ ∈ L (Ω, F, P) mit Wn → W∞ 2 e f.s. 4.283, ist W g e limn→∞ Wn = W∞ = X, = X. Damit ist die L -Konvergenz in ∞ (4.35) nachgewiesen. Weiterhin folgt: (4.71) E[Wn2 ] = 4.284 E[W02 ] + E[(Wn − W0 )2 ] = 4.285 1 + σ2 n−1 X k=0 1 , mk+2 n = 1, 2, . . . . 2 L g 2 e e e2 Da Wn → W ∞ = X auch limn→∞ E[Wn ] = E[X] und limn→∞ E[Wn ] = E[X ] 4.286 impliziert , führen (4.55) und (4.71) zu e = E[X e 2 ] − E[X] e 2 = σ2 Var(X) ∞ X k=0 1 mk+2 = σ2 . m2 − m 4.4.4. Doobsche Ungleichungen. Eine bemerkenswerte und sehr nützliche Eigenschaft von Submartingalen ist die Tatsache, daß sie in jedem beschränkten Zeitintervall gleichmäßig mit Hilfe ihres Werts am Ende jenes Zeitintervalls abgeschätzt werden können. Satz 4.45. 4.287 4.288 Der Prozeß X = (Xn )n=1,2,...,N sei ein Submartingal bzgl. der Filtration (Fn )n=1,2,...,N . Für λ > 0 gilt dann (4.72) λP sup Xn ≥ λ ≤ E XN I{supn=1,...,N Xn ≥λ} n=1,...,N ≤ E[(XN )+ ] ≤ E[|XN |]. Wenn insbesondere X ein Martingal mit E[|XN |p ] < ∞ für ein p ≥ 1 ist, so folgt 4.289 (4.73) λp P sup |Xn | ≥ λ ≤ E[|XN |p ]. n=1,...,N 4.279Da (W ) n n∈N0 ein Martingal ist, führen (3.27) und die Überlegungen in Fußnote 4.273 zu X E[(Wn+r − Wn )2 ] = E E[(Wn+r − Wn )2 |Fn ] 2 X 2 = E E[Wn+r |Fn ] − Wn2 = E[Wn+r − Wn2 ]. 4.280 Da W2,c ein Martingal ist. Vgl. (4.55). 4.282Als Hilbertraum ist L2 (Ω, F, P) vollständig, d.h., jede Cauchy-Folge besitzt einen eindeutig bestimmten Grenzwert. 4.283Vgl. Beispiel 4.36, insbesondere (4.54). 4.284Vgl. Fußnote 4.279. 4.285Weil W = X /m0 = X = 1 und wegen (4.70). 0 0 0 4.286Vgl. Abschnitt 3.5.4, insbesondere Satz 3.17. 4.287Vgl. [7], Section 4.4. Im Anhang A.4.7 werden (4.72) und (4.74) bewiesen. 4.288Satz 4.45 gilt auch für Submartingale mit einer abzählbaren oder kontinuierlichen Menge von Zeitpunkten. Im kontinuierlichen Fall müssen die Pfade hinreichend regulär, z.B. rechtsstetig sein, vgl. z.B. [19], Chapter 1, Theorem 3.8. 4.289Nach Beispiel 4.32 ist der Prozeß |X|p = (|X |p ) n n=1,2,...,N ein Submartingal und daher folgt (4.73) aus (4.72). 4.281 22. Juli 2014 88 Falls p > 1, gilt weiterhin (4.74) E sup p p E[|XN |p ]. |Xn |p ≤ p−1 n=1,...,N Beispiel 4.46. Seien X1 , X2 , . . . , XN unabhängige, reellwertige Zufallsvariablen mit E[Xk ] = 0, k = 1,P. . . , N , und E[Xk2 ] = σk2 , k = 1, . . . , N . Dann ist S = n 2 ]= (Sn )n=1,...,N mit Sn = k=1 Xk , n = 1, . . . , N , ein Martingal 4.290 mit E[SN PN 2 k=1 σk . Aufgrund von (4.73) gilt somit die Kolmogorovsche Ungleichung N 1 X 2 P sup |Sn | ≥ λ ≤ 2 σk . λ n=1,...,N k=1 4.5. Brownsche Bewegung. Die Brownsche Bewegung ist der wohl bekannteste Diffusionsprozeß, d.h. Markovprozeß mit stetigen Pfaden. In vielen Artikeln und Büchern werden detaillierte Resultate über die Brownsche Bewegung vorgestellt. Dieser Prozeß ist einerseits innerhalb der Wahrscheinlichkeitstheorie von großer Bedeutung 4.291. U.a. können beliebige Diffusionsprozesse durch geeignete Transformationen der Brownschen Bewegung dargestellt werden 4.292. Auch außerhalb der Wahrscheinlichkeitstheorie tritt die Brownsche Bewegung in Erscheinung. Beispielsweise können die Lösungen gewisser elliptischer oder parabolischer Differentialgleichungen als Funktionale der Brownschen Bewegung repräsentiert werden 4.293. Bei der Modellierung zufallsbeeinflußter Zeitentwicklungen durch stochastische Differentialgleichungen kann die Brownsche Bewegung zur Darstellung des Rauschanteils benutzt werden 4.294. 4.5.1. Definition der Brownschen Bewegung. 4.295 Die Brownsche Bewegung ergibt sich als Grenzfall der symmetrischen Irrfahrt 4.296 nach einer geeigneten Reskalierung. Diese Reskalierung entspricht einer Beobachtung der symmetrischen Irrfahrt aus einer großen Entfernung über einen langen Zeitraum. Aus diesem Grund 4.290D.h., S ist ein Martingal bzgl. der Filtration (F S ) n n=1,...,N . 4.291Die Brownsche Bewegung ist insbesondere ein Martingal, ein Gaußprozeß und auch ein Prozeß mit stationären Zuwächsen. Sie ist damit für verschiedene Klassen stochastischer Prozesse jeweils ein einfaches Beispiel. 4.292Weiterhin können recht allgemeine stetige Martingale durch unterschiedliche Transformationen der Brownschen Bewegung repräsentiert werden, vgl. z.B. Theorem 4.2 oder Theorem 4.6 in [19], Chapter 3. 4.293In den Beispielen 4.50 und 4.51 wird dieser Zusammenhang zu partiellen Differentialgleichungen im Rahmen eines Dirichlet- und eines Anfangswertproblems verdeutlicht. 4.294Eine stochastische Differentialgleichung ist beispielsweise (∗1 ) dXt |{z} = b(Xt )dt | {z } + σ(Xt )dBt , | {z } Zustandsänderung deterministische zufällige in infinitesimalem Zustandsänderung Zustandsänderung Zeitintervall wobei b und σ geeignete Funktionen sind und B = (Bt )t≥0 eine Brownsche Bewegung ist. In einer Integraldarstellung kann (∗1 ) auch in der Form Z t Z t σ(Xs )dBs , t ≥ 0, b(Xs )ds + (∗2 ) Xt = X0 + 0 0 geschrieben werden. Bei der mathematischen Diskussion von (∗1 ) oder (∗2 ) muß zunächst dem stochastischen InR tegral 0t σ(Xs )dBs eine Bedeutung zugewiesen werden. Anschließend können Existenz und Eindeutigkeit, sowie qualitative und quantitative Eigenschaften einer Lösung X = (Xt )t≥0 untersucht werden. Erste weitergehende Informationen zu stochastischen Integralen und stochastischen Differentialgleichungen finden sich in Abschnitt 4.6. 4.295 Ein Ausblick auf die Überlegungen dieses Abschnitts 4.5.1 wird in Abschnitt 4.2.6 gegeben. 4.296 Die symmetrische Irrfahrt in Zd wurde in Satz 4.23 vorgestellt. 22. Juli 2014 89 1000 800 600 400 Ort 200 0 -200 -400 -600 -800 -1000 0 20000 40000 60000 80000 100000 Zeit Abbildung 4.6. Symmetrische Irrfahrt in Z. Zeitdauer = 100000, 20 Realisierungen. 350 300 250 Y 200 150 100 50 0 -50 -700 -600 -500 -400 -300 X -200 -100 0 100 Abbildung 4.7. Symmetrische Irrfahrt in Z2. Zeitdauer = 100000, Simulation eines Pfads. können die Abbildungen 4.6 und 4.7 auch als Visualisierungen der Brownschen Bewegung in R, bzw. in R2 betrachtet werden 4.297. Während in Abbildung 4.6 die zeitliche Entwicklung verschiedener Pfade der 1-dimensionalen Irrfahrt dargestellt ist, zeigt Abbildung 4.7, wie ein einzelner Pfad 4.297In den Abbildungen 4.2 - 4.4 wird dementsprechend der Betrag der Brownschen Bewe- gung in R2 , R3 , bzw. R10 visualisiert. 22. Juli 2014 90 der 2-dimensionalen Irrfahrt in R2 eingebettet ist. Wie dieser Pfad im Verlauf der Zeit durchlaufen wird, ist nicht zu erkennen. Sei X = (Xn )n∈N0 die symmetrische Irrfahrt in Z 4.298. X besitzt die Darstellung 4.299 n X (4.75) Xn = ξk , n ∈ N0 , k=1 wobei ξk , k ∈ N, unabhängige, in {−1, 1} gleichverteilte Zufallsvariablen sind. Beim Übergang zur Brownschen Bewegung wird X zunächst • auf alle Zeitpunkte t ≥ 0 fortgesetzt, d.h., Y = (Yt )t≥0 mit Yt = X⌊t⌋ , t ≥ 0, 4.300 eingeführt, und anschließend • reskaliert, d.h., es werden die Prozesse XN = (XtN )t≥0 mit 4.301 1 (4.76) XtN = √ YN t , t ≥ 0, N ∈ N, N betrachtet. Zum Studium der Asymptotik von XN werden die Zuwächse XtN − XsN , 0 ≤ s < t < ∞, für N → ∞ untersucht. Aufgrund des Zentralen Grenzwertsatzes 4.302 ist zunächst lim (XtN − XsN ) N →∞ p ⌊N t⌋ X ⌊N t⌋ − ⌊N s⌋ 1 √ p = lim ξl N →∞ N ⌊N t⌋ − ⌊N s⌋ l=⌊N s⌋+1 √ = t − s ζ, in Verteilung, 0 ≤ s < t < ∞, wobei Pζ = N(0, 1) 4.303. Etwas allgemeiner folgt mit einem mehrdimensionalen Zentralen Grenzwertsatz 4.304, daß lim XtN1 , XtN2 − XtN1 , . . . , XtNn − XtNn−1 (4.77) N →∞ p √ √ t1 ζ1 , t2 − t1 ζ2 , . . . , tn − tn−1 ζn , in Verteilung, = 0 = t0 < t1 < · · · < tn < ∞, n ∈ N, 4.298Die nun folgenden und schließlich zu (4.77) führenden Überlegungen lassen sich völlig analog auch für die symmetrische Irrfahrt in Zd , d > 1, durchführen. 4.299Die Darstellung (4.75) der symmetrischen Irrfahrt wurde auch schon in Beispiel 2.9 benutzt. Sie impliziert insbesondere X0 = 0. 4.300Der Prozeß Y nimmt in den Zeitintervallen [l, l + 1), l ∈ N , einen konstanten Wert in Z 0 an und springt in den Zeitpunkten l ∈ N mit Wahrscheinlichkeit 1/2 jeweils um 1 nach oben oder unten. 4.301Man könnte auch andere Skalierungen verwenden, d.h., beispielsweise Prozesse X(α,β) = (α,β) (α,β) (Xt )t≥0 mit Xt = Yαt /β, t ≥ 0, α, β > 0, einführen. Die Überlegungen dieses Abschnitts 4.5.1, insbesondere das unten folgende Studium der Asymptotik von Summen unabhängiger, in {−1, 1} gleichverteilter Zufallsvariablen mit Hilfe des Zentralen Grenzwertsatzes, lassen jedoch den Schluß zu, daß ein nichttrivialer Limes für X(α,β) bei α, β → ∞ nur dann α→∞ √ erwartet werden kann, wenn β = β(α) ∼ α. In den Abbildungen 4.6 und 4.7 wurde durch die Auswahl der jeweiligen Bildbereiche durch den Computer automatisch eine Reskalierung von Raum√und Zeit vorgenommen. Bei einer √ großzügigen Betrachtungsweise in Abbildung 4.7 ist sogar Zeitdauer/Raumdurchmesser ∼ 100000/800 ∼ 316/800 ∼ 1 zu erkennen, d.h., die in (4.76) gewählte Skalierung drängt sich auch im Rahmen dieser Simulationen auf. 4.302Vgl. Satz 4.10. 4.303Somit konvergiert X N − X N bei N → ∞ in Verteilung gegen eine gemäß N(0, t − s) s t verteilte Zufallsvariable. 4.304 Vgl. z.B. Satz 4.18. Zu einem präzisen Beweis von (4.77) muß Satz 4.18 leicht modifiziert werden. 22. Juli 2014 91 wobei ζ1 , ζ2 , . . . unabhängige Zufallsvariablen mit Pζk = N(0, 1), k = 1, 2, . . . , sind 4.305. (4.77) berechtigt zur Vermutung, daß bei N → ∞ die Prozesse XN gegen einen stochastischen Prozeß B = (Bt )t≥0 mit unabhängigen, normalverteilten Zuwächsen konvergieren 4.306 4.307. Dementsprechend wird ein Rd -wertiger stochastischer Prozeß B = (Bt )t≥0 als (standard ) Brownsche Bewegung bezeichnet, falls (a) B0 = 0, f.s. 4.308, (b) t → Bt f.s. stetig ist 4.309 und wenn außerdem (c) für 0 ≤ s < t < ∞ der Zuwachs Bt − Bs unabhängig von Bu , 0 ≤ u ≤ s, ist und eine Normalverteilung mit Erwartungswert 0 und Kovarianzmatrix (t − s)I 4.310 besitzt 4.311. Als unmittelbare Konsequenz aus (a) und (c) ergibt sich, daß B = (Bt )t≥0 ein Martingal bzgl. (FtB )t≥0 ist 4.312. Im folgenden Abschnitt wird der Frage nachgegangen, ob ein stochastischer Prozeß, der (a), (b) und (c) erfüllt, überhaupt existiert. 4.5.2. Konstruktion der Brownschen Bewegung. Wegen der Bedingung (c) ist eine standard Brownsche Bewegung ein Markovprozeß mit gauß’schen Übergangswahrscheinlichkeiten 4.313. Insbesondere folgt (4.78) P Bt ∈ A|Bu , 0 ≤ u ≤ s 4.314 = 4.315 P Bt ∈ A|Bs Z (y − Bs )2 1 4.316 dy exp − , f.s., = 2(t − s) (2π(t − s))d/2 A 0 ≤ s < t < ∞, A ∈ B(Rd ). 4.305(4.77) besagt, daß asymptotisch bei N → ∞ die Zuwächse X N − X N , i = 1, . . . , n, ti−1 ti des Prozesses XN in den disjunkten Zeitintervallen (ti−1 , ti ], i = 1, . . . , n, unabhängig und gemäß N(0, ti − ti−1 ), i = 1, . . . , n, verteilt sind. 4.306Für 0 ≤ s < t < ∞ sollte insbesondere B − B unabhängig von B , 0 ≤ u ≤ s, gemäß t s u N(0, t − s) verteilt sein. 4.307 Eine mathematisch rigorose, allgemeine Diskussion der Konvergenz von stochastischen Prozessen wird an dieser Stelle nicht durchgeführt. Dazu sei auf die hierzu gemachten Andeutungen in Abschnitt 4.2.6 und deren Präzisierung in Abschnitt 5.4.2 verwiesen. Ausführlichere Darstellungen finden sich z.B. in [8], Chapter 3, oder [18], Chapter 16. Die Beziehung (4.77), die im wesentlichen die Konvergenz der endlich-dimensionalen Verteilungen der Prozesse XN bei N → ∞ festhält, dient nur zur Motivation der nun folgenden Definition der Brownschen Bewegung. 4.308Diese Bedingung ist nur eine Standardisierung. 4.309Sei B auf einem Wahrscheinlichkeitsraum (Ω, F, P) definiert. In (b) wird verlangt, daß bzgl. P für fast alle ω ∈ Ω der Pfad t → Bt (ω) stetig ist. Diese Forderung der Stetigkeit wird beispielsweise auch durch Simulationen der Irrfahrt, wie sie in den Abbildungen 4.2 - 4.4, 4.6 und 4.7 zu sehen sind, nahegelegt. Weiterhin wird die Stetigkeit von B zu einer natürlichen Forderung, wenn beachtet wird, daß für große N der Prozeß XN und daher auch B durch den in Abschnitt 4.2.6 eingeführten stetigen e N approximiert wird. Prozeß X 4.310I ist hier die d × d-Einheitsmatrix. Mehrdimensionale Normalverteilungen werden in Abschnitt 4.2.3 vorgestellt. 4.311 Falls der Erwartungswert des Zuwachses gleich (t − s)a für ein a ∈ Rd und die Kovarianzmatrix gleich (t − s)Q für eine positiv-definite symmetrische Matrix Q ∈ Rd⊗d ist, spricht man von einer Brownschen Bewegung mit Drift a und Diffusionsmatrix Q. √ 4.312Zunächst zeigen (a) und (c), daß E[|B |] ≤ E[B 2 ]1/2 = E[(B − B )2 ]1/2 = dt, 0 ≤ t t 0 t t < ∞. Weiterhin folgt für 0 ≤ s < t < ∞ aus (c) und der Tatsache, daß Bs meßbar bzgl. σ(Bu , 0 ≤ u ≤ s) ist, 0 = E[Bt − Bs |Bu , 0 ≤ u ≤ s] = E[Bt |Bu , 0 ≤ u ≤ s] − Bs , f.s. 4.313 Übergangswahrscheinlichkeiten für Markovprozesse in kontinuierlicher Zeit mit diskretem Zustandsraum wurden am Anfang des Abschnitts 4.3.2 eingeführt. Im Gegensatz zu jenem Fall ist nun zu berücksichtigen, daß der Zustandsraum nicht mehr abzählbar ist. 22. Juli 2014 92 4.314Hier ist eine unter dem Verhalten von B in dem ganzen Zeitintervall [0, s] der Vergangenheit und Gegenwart bedingte Wahrscheinlichkeit zu sehen. Zur Erläuterung solcher bedingter Wahrscheinlichkeiten vgl. Abschnitt 3.8. 4.315 Da Bt − Bs unabhängig von Bu , 0 ≤ u ≤ s, ist und somit Bt nicht von Bu , 0 ≤ u < s, abhängt, falls Bs bekannt ist. 4.316 Da PBt −Bs = N(0, (t−s)I) und somit PBt [ . |Bs ] = N(Bs , (t−s)I), f.s., wobei PBt [ . |Bs ] die unter σ(Bs ) bedingte Verteilung von Bt ist. Eine Erläuterung des Begriffs der bedingten Verteilung einer Zufallsvariable X unter einer σ-Algebra A findet sich in Abschnitt 5.2.1. Speziell zur Einordnung von (4.78) in die Theorie allgemeiner Markovprozesse sei auf Beispiel 5.9 verwiesen. 22. Juli 2014 KAPITEL 3 Weitere Gebiete der Wahrscheinlichkeitstheorie 5. Ausbau der theoretischen Basis der Wahrscheinlichkeitstheorie In diesem Abschnitt werden einige Beiträge zu den theoretischen Grundlagen der Wahrscheinlichkeitstheorie vorgestellt. Hiermit sollen zunächst die Ausführungen in Abschnitt 4 vertieft und ergänzt werden. Außerdem soll Abschnitt 6 vorbereitet werden. 5.1. Klassische Hilfsresultate. Wie in jeder anderen mathematischen Disziplin haben sich auch in der Wahrscheinlichkeitstheorie typische Denk- und Argumentationsschemata herausgebildet. So gibt es beispielsweise auch spezielle Hilfsresultate, die in vielen unterschiedlichen Situationen Verwendung finden, um korrekte mathematische Schlüsse durchzuführen 5.1. 5.1.1. Lemma von Borel-Cantelli. Mit diesem Resultat können u.a. viele Aussagen zur Asymptotik von Folgen von Zufallsvariablen bewiesen werden 5.2. Satz 5.1 (Lemma von Borel-Cantelli). 5.3 Sei An , n ∈ N, eine Folge von Ereignissen in einem Wahrscheinlichkeitsraum (Ω, F, P). Sei weiterhin 5.4 A= ∞ [ ∞ \ n=1 k=n Ak =: lim sup An =: {An i.o.} n→∞ das Ereignis, daß An für unendlich viele n ∈ N eintritt. P 5.5 (a) Wenn P ∞ . n=1 P[An ] < ∞, dann ist P[A] = 0 ∞ (b) Wenn n=1 P[An ] = ∞ und wenn An , n ∈ N, eine Familie unabhängiger Ereignisse ist, so gilt P[A] = 1 5.6 5.7 5.8. 5.1 In diesem Abschnitt werden insbesondere das Lemma von Borel-Cantelli, vgl. Satz 5.1, das 0 -1-Gesetz von Kolmogorov, vgl. Satz 5.3, und das π-λ-Theorem, vgl. Satz 5.5, vorgestellt. 5.2 Beispielsweise wird in Beispiel 5.2 mit Hilfe des Lemmas von Borel-Cantelli der zweite Teil von Satz 4.5 bewiesen. Weiterhin ist in Anhang A.5.1 das Lemma von Borel-Cantelli das wesentliche Hilfsmittel beim Nachweis, daß eine stochastisch konvergente Folge von Zufallsvariablen eine fast-sicher konvergente Teilfolge besitzt, vgl. Satz 3.13. 5.3 Vgl. [7], Section 1.6. In jenem Abschnitt finden sich auch etliche Anwendungen des Lemmas von Borel-Cantelli. 5.4Mit i.o.“ wird infinitely often“, d.h., für unendlich viele n ∈ N“ abgekürzt. S P∞ ” ” ” 5.5Offensichtlich ist A ⊆ ∞ k=n Ak , n ∈ N. Somit folgt P[A] ≤ k=n P∞P[Ak ], n ∈ N, aus der Monotonie und der σ-Subadditivität von P, vgl. Satz 3.10. Weil k=1 P[Ak ] < ∞ zu P limn→∞ ∞ k=n P[Ak ] = 0 führt, ergibt sich P[A] = 0. 5.6In (b) kann auf die Unabhängigkeit der Ereignisse A , n ∈ N, nicht verzichtet werden. Für n An = B, n ∈PN, wobei B ∈ F mit P[B] > 0, ist offensichtlich A = B und somit P[A] = P[B], d.h., obwohl ∞ n=1 P[An ] = ∞ ist, kann in diesem Fall P[A] von 1 verschieden sein. 5.7 Aufgrund von Satz 5.1 gilt für unabhängige Ereignisse A1 , A2 , . . . und A = {An i.o.} entweder P[A] = 0 oder P[A] = 1. Diese Tatsache ist ein Beispiel eines 0 -1-Gesetzes und insbesondere ein Spezialfall des 0 -1-Gesetzes von vgl. Satz 5.3 und Fußnote 5.19. S T∞ Kolmogorov, 5.8 c c Zunächst ist Ac = ∞ n=1 k=n Ak , wobei B = Ω \ B, B ∈ F. Außerdem gilt: " ∞ # " N # \ \ Ack = lim P P Ack (da P σ-stetig von oben ist, vgl. Satz 3.10) k=n N→∞ k=n 109 110 Beispiel 5.2. In diesem Beispiel wird der zweite Teil von Satz 4.5 bewiesen 5.9. Es ist noch zu zeigen, daß für reellwertige, i.i.d. Zufallsvariablen X1 , X2 , . . . aus der Gültigkeit des starken Gesetzes der großen Zahlen, d.h., N 1 X Xk = µ, f.s., N →∞ N (5.1) lim k=1 für ein µ ∈ R die Integrabilität von X1 , d.h., E[|X1 |] < ∞, (5.2) folgt. Zum Beweis sei zunächst bemerkt, daß (5.1) zu 1 (5.3) lim XN = 0, f.s., N →∞ N führt 5.10. Nun sind aufgrund der Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . auch die Ereignisse {|XN | ≥ N }, N ∈ N, unabhängig. Wegen (5.3) gilt außerdem P[|XN | ≥ N i.o.] = 0. (5.4) Nach Teil (b) des Lemmas von Borel-Cantelli kann somit ∞ X (5.5) P[|XN | ≥ N ] < ∞ 5.11 N =1 gefolgert werden. Daher ergibt sich Z ∞ E[|X1 |] = 5.12 P|X1 | (dy) y = ≤ = ≤ = lim N→∞ lim N→∞ N Y ∞ Z X 0 [k,k+1) k=0 ∞ X P|X1 | (dy) y (k + 1)P[k ≤ |X1 | < k + 1] k=0 (da A1 , A2 , . . . und somit Ac1 , Ac2 , . . . unabhängig sind) (1 − P[Ak ]) k=n N Y exp(−P[Ak ]) k=n (da 1 − x ≤ exp(−x), x ≥ 0) X N lim exp − P[Ak ] N→∞ k=n | {z N→∞ = 0, → n = 1, 2, . . . . } ∞ Nach Berücksichtigung der σ-Subadditivität von P, vgl. Satz 3.10, ergibt sich P[Ac ] ≤ T∞ P∞ c = 0 und somit P[A] = 1. A P k=n k n=1 5.9 Der Beweis des ersten Teils von Satz 4.5 findet sich in Beispiel 4.38. Genaugenommen fehlen zum jetzigen Zeitpunkt auch noch die Beweise von Satz 4.37, eines Konvergenzsatzes für Submartingale, und des 0 -1-Gesetzes von Kolmogorov, vgl. Satz 5.3. Diese beiden Resultate werden in Beispiel 4.38 benutzt. 5.10Zum Nachweis von (5.3) ist N−1 N X 1 1 X N −1 1 Xk XN = Xk − N N k=1 N N − 1 k=1 | {z } | | {z } {z } N→∞ → 1 N→∞ N→∞ → µ → µ zu beachten. 5.11Wenn die Reihe in (5.5) divergieren würde, wäre nach dem Lemma von Borel-Cantelli P[|XN | ≥ N i.o.] = 1 im Widerspruch zu (5.4). 22. Juli 2014 111 = 5.13 ∞ X N =0 = 5.14 1+ P[|X1 | ≥ N ] ∞ X N =1 P[|XN | ≥ N ] < 5.15 ∞, d.h., (5.2) ist bewiesen. 5.1.2. 0 -1-Gesetz von Kolmogorov. Das nun vorgestellte Resultat ist insbesondere bei der Untersuchung der Asymptotik von unabhängigen Zufallsvariablen hilfreich. Sei zunächst X = (Xn )n∈N ein stochastischer Prozeß in diskreter Zeit N auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in einem meßbaren Raum (Ω′ , F′ ). Bei vielen Untersuchungen der Asymptotik von X bei n → ∞ spielt das Verhalten von jeweils endlich vielen Zufallsvariablen X1 , . . . , XN für ein N ∈ N keine Rolle. M. a. W., dieser Aspekt der Asymptotik von X ist dann charakterisiert durch Ereignisse, die in allen σ(XN , XN +1 , . . . ), N ∈ N, enthalten sind. Sei \ (5.6) TX = σ(XN , XN +1 , . . . ) ⊆ FX N ∈N die σ-Algebra jener Ereignisse 5.16 . TX wird auch Tail-σ-Algebra genannt. Satz 5.3 (0 -1-Gesetz von Kolmogorov). unabhängig. Dann ist 5.17 Die Zufallsvariablen X1 , X2 , . . . seien P[A] = 0 oder P[A] = 1, Man bezeichnet TX in diesem Fall als trivial A ∈ TX . 5.18 5.19 . Beispiel 5.4. Sei Xk , k ∈ N, eine Folge unabhängiger, reellwertiger Pn Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) und sei Sn = k=1 Xk , n ∈ N. Zunächst ist 5.20 (5.7) lim Sn existiert ∈ TX , n→∞ 5.12Vgl. (3.21). 5.13Da P[|X | ≥ N ] = P∞ 1 m=N P[m ≤ |X1 | < m + 1], N ∈ N0 , ist für jedes m ∈ N0 in der P∞ N=0 P[|X1 | ≥ N ] der Beitrag P[m ≤ |X1 | < m + 1] genau m + 1 mal enthalten. Da die Zufallsvariablen X1 , X2 , . . . die gleiche Verteilung haben. 5.15 Wegen (5.5). 5.16Als Durchschnitt von σ-Algebren ist T eine σ-Algebra, vgl. Fußnote 3.8. X 5.17Vgl. z.B. [5], Theorem 22.3. Ein Beweis wird auch in Beispiel 5.6 als eine Anwendung des π-λ-Theorems, vgl. Satz 5.5, vorgestellt. 5.18U.a. mit Hilfe des 0 -1-Gesetzes von Kolmogorov wurde in Beispiel 4.38 die eine Richtung von Satz 4.5, d.h., das starke Gesetz der großen Zahlen bewiesen. 5.19 Seien An , n ∈ N, unabhängige Ereignisse in einem Wahrscheinlichkeitsraum (Ω, F, P) sind Xn , n ∈ N, unund sei X = (Xn )n∈N , wobei Xn = IAn , n ∈ N. Offensichtlich T S∞ abhängige, {0, 1}-wertige Zufallsvariablen. Weiterhin seien A = ∞ n=1 k=n Ak = {An i.o.} und Z = limn→∞ supk≥n Xk , d.h., A = {Z = 1} ∈ TX . In Übereinstimmung mit dem Lemma von Borel-Cantelli, vgl. Satz 5.1 und insbesondere Fußnote 5.7, besagt das 0 -1-Gesetz von Kolmogorov, daß P[A] = 0 oder P[A] = 1. Pn 5.20Zum Beweis von (5.7) sei S m,n = k=m Xk , m, n ∈ N, m < n. Dann ist lim Sn existiert = lim Sm,n existiert ∈ σ(Xm , Xm+1 , . . . ), m ∈ N. Summe 5.14 n→∞ n→∞ 22. Juli 2014 112 während 5.21 5.22 lim sup Sn > 0 ∈ / TX . (5.8) n→∞ Wenn E[Xk ] = 0, k ∈ N, und P∞ Var(Xk ) < ∞, so gilt darüberhinaus P lim Sn existiert = 1. (5.9) k=1 5.23 5.24 n→∞ 5.1.3. π-λ-Theorem. Im folgenden wird ein Resultat präsentiert, das u.a. erlaubt, zu verifizieren, ob eine interessante“ Eigenschaft, die für eine spezielle Menge ” A von Ereignissen gilt, sogar für alle Ereignisse in der σ-Algebra σ(A) zutrifft 5.25. Sei P eine Familie von Teilmengen einer Menge Ω 5.26. P ist ein π-System, falls 5.27 A, B ∈ P (5.10) A ∩ B ∈ P. =⇒ Weiterhin wird eine Familie L ⊆ Pot(Ω) als λ-System bezeichnet, falls Ω ∈ L, (5.11a) A, B ∈ L, A ⊆ B (5.11b) =⇒ 5.28 B \ A ∈ L, 5.21Insbesondere ist nicht jedes Ereignis, das Aspekte der Asymptotik der Folge X , k ∈ N, k beschreibt, in der Tail-σ-Algebra TX enthalten. 5.22 Da lim supn→∞ Sn > 0 = lim supn→∞ (X2 + · · · + Xn ) > −X1 , ist offensichtlich lim supn→∞ Sn > 0 nicht in σ(X2 , X3 , . . . ) und damit auch nicht in TX enthalten. 5.23Insbesondere wird durch (5.9) die nach dem 0 -1-Gesetz von Kolmogorov bestehende Möglichkeit P limn→∞ Sn existiert = 0 im vorliegenden Fall ausgeschlossen. Zum Beweis von (5.9) sei m, M ∈ N mit m < M und ǫ > 0. Dann folgt M 1 X Var(Xk ) P max |Sn − Sm | ≥ ǫ ≤ 2 m≤n≤M ǫ k=m+1 aus der Kolmogorovschen Ungleichung, vgl. Beispiel 4.46. Da P σ-stetig von unten ist, vgl. Satz 3.10, ergibt sich somit ∞ 1 X m→∞ P max |Sn − Sm | ≥ ǫ = lim P max |Sn − Sm | ≥ ǫ ≤ 2 Var(Xk ) → 0. M →∞ m≤n m≤n≤M ǫ k=m+1 Für Wm , m ∈ N, mit Wm = maxl,n≥m |Sl − Sn |, m ∈ N, zeigt sich daher, daß m→∞ → 0, ǫ > 0, P[Wm ≥ 2ǫ] ≤ P max |Sn − Sm | ≥ ǫ m≤n P d.h., Wm → 0. Da die Zufallsvariablen Wm offensichtlich monoton fallend in m sind, gilt sogar f.s. Wm → 0. Daher ist P {ω ∈ Ω : Sn (ω), n ∈ N, ist eine Cauchy-Folge} = 1 und folglich (5.9) bewiesen. 5.24 In einem alternativen Beweis kann zunächst festgehalten werden, daß S = (Sn )n∈N ein Martingal ist. Da in der hier betrachteten Situation 1/2 X ∞ 2 1/2 <∞ E[Xk2 ] sup E[(Sn )+ ] ≤ sup E[|Sn |] ≤ sup E[Sn ] ≤ n∈N n∈N n∈N k=1 gilt, folgt (5.9) aus Satz 4.34, einem Konvergenzsatz für Submartingale. 5.25Diese interessante“ Eigenschaft könnte wie in Beispiel 5.6 beim Beweis des 0 -1-Gesetzes ” von Kolmogorov die Unabhängigkeit von einer speziellen Familie B von Ereignissen sein. 5.26Auf Ω braucht keine spezielle Struktur wie die eines Wahrscheinlichkeitsraums vorzuliegen. 5.27P ist durchschnittsstabil. Beispielsweise ist eine Semialgebra, vgl. Abschnitt 3.3.1, ein π-System. 5.28Jede σ-Algebra, vgl. Abschnitt 2.1.1, ist ein λ-System. 22. Juli 2014 113 A1 , A2 , · · · ∈ L, A1 ⊆ A2 ⊆ . . . (5.11c) =⇒ A= ∞ [ k=1 Ak ∈ L. Satz 5.5 (π-λ-Theorem). 5.29 5.30 Sei P ein π-System und L ein λ-System in einer Menge Ω. Falls P ⊆ L, so gilt auch σ(P) ⊆ L. In typischen Anwendungen des π-λ-Theorems beschreibt L ein System von Ereignissen (Mengen), die eine spezielle Eigenschaft α besitzen. Falls L ein unter endlichen Durchschnitten abgeschlossenes Erzeugendensystem P einer σ-Algebra G umfaßt, so gilt α für alle A ∈ G. Die Vorgehensweise in einer derartigen Situation wird nun demonstriert. Beispiel 5.6. In diesem Beispiel wird das 0 -1-Gesetz von Kolmogorov 5.31 bewiesen. Sei X1 , X2 , . . . eine Folge unabhängiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in einem meßbaren Raum (Ω′ , F′ ). Für N ∈ N sei dann RN = 5.32 {X1 ∈ C1 , . . . , XN ∈ CN } : C1 , . . . , CN ∈ F′ , L1N = A ∈ σ(XN +1 , XN +2 , . . . ) : A, C unabhängig für alle C ∈ RN und P1N = 5.33 {XN +1 ∈ AN +1 , . . . , XN +k ∈ AN +k } : AN +1 , . . . , AN +k ∈ F′ , k ∈ N . Als Grundlage einer Anwendung des π-λ-Theorems kann festgehalten werden: • P1N ⊆ L1N 5.34, • P1N ist ein π-System 5.35, • L1N ist ein λ-System 5.36, 5.29Vgl. z.B. [7], Appendix A.2, Theorem (2.1). Ein Beweis von Satz 5.5 wird auch in An- hang A.5.2 vorgestellt. 5.30Als Anwendung des π-λ-Theorems wird in [7] beispielsweise untersucht, inwieweit Wahrscheinlichkeitsmaße durch ihre Einschränkung auf π-Systeme eindeutig bestimmt sind, vgl. [7], Appendix A.2, Theorem (2.2). Ein hierzu äquivalentes Resultat ist in Fußnote 3.40 erwähnt. 5.31Vgl. Satz 5.3. 5.32R ist die Menge der Rechtecke in σ(X , . . . , X ). 1 N N 5.33 1 PN umfaßt die endlich-dimensionalen Rechtecke in σ(XN+1 , XN+2 , . . . ). 5.34Da die Zufallsvariablen X , X , . . . unabhängig sind. 1 2 5.35Der Durchschnitt zweier endlich-dimensionaler Rechtecke in σ(X N+1 , XN+2 , . . . ) ist ein ebensolches Rechteck. 5.36Es ist (5.11) für L1 nachzuweisen. N Für C = {X1 ∈ C1 , . . . , XN ∈ CN } ∈ RN gilt zunächst P[Ω ∩ C] = P[C] = 1 · P[C] = P[Ω]P[C], d.h., C und Ω sind unabhängig. Insbesondere ist Ω ∈ L1N und somit (5.11a) für L1N gültig. Falls A, B ∈ L1N mit A ⊆ B und C ∈ RN , folgt weiterhin P[(B \ A) ∩ C] = P[(B ∩ C) \ (A ∩ C)] = P[B ∩ C] − P[A ∩ C] = P[B]P[C] − P[A]P[C] (da A, B ∈ L1N ) = (P[B] − P[A])P[C] = P[B \ A]P[C]. Daher ist B \ A ∈ L1N und (5.11b) für L1N bewiesen. Für A1 , A2 , · · · ∈ L1N mit A1 ⊆ A2 ⊆ . . . und C ∈ RN gilt letztendlich ! # " ∞ ! # " L [ [ (da P σ-stetig von unten ist, vgl. Satz 3.10) Ak ∩ C = lim P Ak ∩ C P L→∞ k=1 = k=1 | {z } = AL lim P[AL ]P[C] L→∞ (da AL ∈ L1N ) 22. Juli 2014 114 • σ(P1N ) = σ(XN +1 , XN +2 , . . . ) Mit dem π-λ-Theorem ergibt sich 5.37 . σ(XN +1 , XN +2 , . . . ) = σ(P1N ) ⊆ L1N ⊆ σ(XN +1 , XN +2 , . . . ). Somit folgt L1N = σ(XN +1 , XN +2 , . . . ), d.h., (5.12) A ∈ σ(XN +1 , XN +2 , . . . ), C ∈ RN . A, C unabhängig, Für eine weitere Anwendung des π-λ-Theorems sei L2N = C ∈ σ(X1 , . . . , XN ) : A, C unabhängig für alle A ∈ σ(XN +1 , XN +2 , . . . ) und P2N = RN . Nun gilt: • P2N ⊆ L2N 5.38, • P2N ist ein π-System 5.39, • L2N ist ein λ-System 5.40, • σ(P2N ) = σ(X1 , . . . , XN ) 5.41. In diesem Fall führt das π-λ-Theorem zu σ(X1 , . . . , XN ) = σ(P2N ) ⊆ L2N ⊆ σ(X1 , . . . , XN ), d.h., L2N = σ(X1 , . . . , XN ) und daher (5.13) A ∈ σ(XN +1 , XN +2 , . . . ), C ∈ σ(X1 , . . . , XN ). A, C unabhängig, Insbesondere ergibt sich (5.14) 5.42 5.43 A, C unabhängig, A ∈ TX , C ∈ ∞ [ σ(X1 , . . . , XN ), N =1 aus (5.13) Zur Vorbereitung einer letzten Anwendung des π-λ-Theorems sei jetzt L3 = C ∈ σ(X1 , X2 , . . . ) : A, C unabhängig für alle A ∈ TX und P3 = ∞ [ σ(X1 , . . . , XN ). N =1 Nun beobachtet man: = d.h., S∞ k=1 " lim P L→∞ L [ k=1 # " Ak P[C] = P ∞ [ k=1 # Ak P[C], Ak ∈ L1N . Hiermit ist auch (5.11c) für L1N verifiziert. 5.37Vgl. Abschnitt 3.1.4. 5.38Vgl. (5.12). 5.39Offensichtlich sind Durchschnitte zweier Rechtecke in σ(X , . . . , X ) wiederum solche 1 N Rechtecke. 5.40Zum Nachweis dieser Eigenschaft können die Argumente in Fußnote 5.36 auf eine triviale Weise modifiziert werden. 5.41Vgl. Abschnitt 3.1.4. 5.42Wegen der Unabhängigkeit der Zufallsvariablen X , X , . . . ist (5.13) sicherlich zu erwar1 2 ten. Allerdings muß bei einer mathematisch rigorosen Vorgehensweise diese Beziehung durchaus bewiesen werden. 5.43Die Tail-σ-Algebra T von X , n ∈ N, wird in (5.6) eingeführt. Zur Herleitung von (5.14) X Tn aus (5.13) beachte man, daß TX = m∈N σ(Xm , Xm+1 , . . . ) ⊆ σ(Xk , Xk+1 , . . . ), k ∈ N. 22. Juli 2014 115 • P3 ⊆ L3 5.44, • P3 ist ein π-System, • L3 ist ein λ-System, • σ(P3 ) = σ(X1 , X2 , . . . ). Aus dem π-λ-Theorem folgt somit σ(X1 , X2 , . . . ) = σ(P3 ) ⊆ L3 ⊆ σ(X1 , X2 , . . . ) und daher L3 = σ(X1 , X2 , . . . ), d.h., (5.15) A, C unabhängig, A ∈ TX , C ∈ σ(X1 , X2 , . . . ). Weil TX ⊆ σ(X1 , X2 , . . . ), führt (5.15) insbesondere zu (5.16) Folglich ist und daher A, C unabhängig, 5.45 5.46 A, C ∈ TX . P[A] = P[A ∩ A] = P[A] · P[A], A ∈ TX , P[A] = 0 oder P[A] = 1, A ∈ TX . Damit ist das 0 -1-Gesetz von Kolmogorov bewiesen. 5.44Diese Eigenschaft folgt aus (5.14). 5.45Aufgrund von (5.16) ist A ∈ T von sich selbst unabhängig. X 5.46Die einzigen Lösungen der Gleichung x = x2 sind x = 0 und x = 1. 22. Juli 2014 Anhang In diesem Anhang werden einige der in den Abschnitten 3 - 6 nur zitierten Resultate bewiesen. A.3. Ergänzungen zu Abschnitt 3 A.3.1. Satz von Vitali. A.3.1 Dieser Satz deutet an, daß in überabzählbaren Stichprobenräumen Ω die Verwendung der σ-Algebra Pot(Ω) im allgemeinen nicht sinnvoll ist. Satz A.3.1 (Vitali). A.3.2 Es kann kein Wahrscheinlichkeitsmaß auf dem meßbaren Raum (Ω, F) = ({0, 1}N , Pot({0, 1}N)) existieren, das neben den üblichen Eigenschaften (2.2) eines Wahrscheinlichkeitsmaßes auch die bei der Modellierung des ∞-fachen, unabhängigen Wurfs einer fairen Münze erwartete Invarianzeigenschaft (3.1) besitzt. Zum Beweis sei in Ω die Äquivalenzrelation ω ∼ ω′ :⇐⇒ ωn = ωn′ , n ≥ n0 für ein hinreichend großes n0 ∈ N, eingeführt. Nach dem Auswahlaxiom gibt es eine Menge A ⊆ Ω, die aus jeder Äquivalenzklasse bzgl. ∼ genau ein Element enthält. Sei nun S = {S ⊆ N : |S| < ∞} A.3.3. S ist abzählbar A.3.4. Für S = {n1 , . . . , nk } ∈ S sei TS := Tn1 ◦ · · · ◦ Tnk A.3.5. Offensichtlich ist ω ∼ ω ′ genau dann, wenn ein S ∈ S mit ω = TS ω ′ existiert. Nun gilt: [ Ω= (A.3.1) TS A A.3.6, S∈S falls S 6= S ′ TS A ∩ TS ′ A = ∅, A.3.7 . Falls P ein Wahrscheinlichkeitsmaß auf (Ω, F) ist, das (2.2) und (3.1) erfüllt und falls A.3.8 A ∈ F, folgt nun X X 1 = A.3.9 P[Ω] = A.3.10 P[TS A] = A.3.11 P[A]. S∈S S∈S A.3.1Mit diesem Anhang wird Beispiel 3.1 vervollständigt. A.3.2Vgl. [10], Satz (1.5). A.3.3S ist die Menge der endlichen Teilmengen von N. A.3.4Weil S = S∞ {S ⊆ N : max{k : k ∈ S} = m} sich als abzählbare Vereinigung von m=1 endlichen Mengen darstellen läßt, ist S abzählbar. A.3.5Die Funktionen T : Ω → Ω, n ∈ N, sind in (3.1c) definiert. Für eine Abbildung T , n S S = {n1 , . . . , nk } ∈ S, und ω ∈ Ω ist TS ω jene Folge in {0, 1}, die aus der Folge ω durch Vertauschen der Werte 0 und 1 in den Folgengliedern mit den Indizes n1 , . . . , nk hervorgeht. A.3.6T A = {T ω ′ : ω ′ ∈ A}. Zu jedem ω ∈ Ω gibt es ein ω ′ ∈ A mit ω ∼ ω ′ . Insbesondere S S ist ω ′ der Repräsentant in A jener Äquivalenzklasse, die ω enthält. Folglich gibt es ein S ∈ S mit ω = TS ω ′ ∈ TS A. A.3.7 Wäre TS A ∩ TS ′ A 6= ∅ für S, S ′ ∈ S, so gäbe es ω, ω ′ ∈ A mit ω ∼ TS ω = TS ′ ω ′ ∼ ω ′ . Da A keine zwei verschiedenen, äquivalente Elemente enthalten kann, wäre dann ω = ω ′ und damit auch S = S ′ . A.3.8In diesem Fall ist auch T A ∈ F, S ∈ S. Insbesondere ist P[T A] für alle S ∈ S definiert. S S 175 176 Damit liegt ein Widerspruch vor, denn die Summe auf der rechten Seite ist entweder gleich 0, wenn P[A] = 0, oder gleich ∞, wenn P[A] > 0. Somit kann geschlossen werden, daß A ∈ / F, falls ({0, 1}N, F, P) ein Wahrscheinlichkeitsraum mit einem (2.2) und (3.1) erfüllenden Wahrscheinlichkeitsmaß ist. Insbesondere ist die Wahl F = Pot({0, 1}N) nicht möglich. A.3.2. Stochastische Konvergenz als Folge der fast-sicheren Konvergenz. A.3.12 Es gelte limn→∞ Xn = X, f.s., d.h., P[limn→∞ Xn = X] = 1, bzw. P[lim supn→∞ |Xn − X| > 0] = 0. Damit gleichbedeutend ist A.3.13 " # [ P {ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ für unendlich viele n ∈ N} = 0. ǫ>0,ǫ∈Q Daraus folgt 0= A.3.14 = A.3.15 P {ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ für unendlich viele n ∈ N} # "∞ ∞ \ [ P {ω ∈ Ω : |Xk (ω) − X(ω)| > ǫ} , ǫ > 0. n=1 k=n | | {z = Aǫn {z = Aǫ } } Für festes ǫ > 0 gilt Aǫn ց Aǫ . Weil das Wahrscheinlichkeitsmaß P σ-stetig von oben ist A.3.16, ergibt sich limn→∞ P[Aǫn ] = P[Aǫ ] = 0, ǫ > 0. Da P[|Xn − X| > ǫ] ≤ P[Aǫn ] A.3.14, ist somit die stochastische Konvergenz der Folge Xn , n ∈ N, gegen X nachgewiesen. A.3.3. σ-Additivität des Erwartungswerts. A.3.17 Es ist nachzuweisen, daß für Zufallsvariablen X, X1 , X2 , . . . , die einen Erwartungswert besitzen und Xn ≥ 0, f.s., n ∈ N, und X = ∞ X Xk , f.s., k=1 erfüllen, die Beziehung (A.3.2) E[X] = ∞ X E[Xk ] k=1 gilt. Es folgt nun ein Beweis für integrable, diskrete Zufallsvariablen A.3.18 X, X1 , X2 , .... A.3.9Wegen (2.2a). A.3.10Wegen (2.2b) und (A.3.1). A.3.11Wegen (3.1). A.3.12In diesem Anhang wird die erste Hälfte von Satz 3.13 bewiesen. A.3.13Wenn für ein ω ∈ Ω die Folge X (ω), n ∈ N, nicht gegen X(ω) konvergiert, so gibt es n ein ǫ > 0, das o.E.d.A. als rational angenommen werden kann, so daß |Xn (ω) − X(ω)| > ǫ für unendlich viele n. A.3.14Wegen der Monotonie von P, vgl. Satz 3.10(3). A.3.15 |X (ω) − X(ω)| > ǫ für unendlich viele n ∈ N“ ist gleichbedeutend mit zu jedem ” n ” n ∈ N gibt es ein k ∈ N, k ≥ n, so daß |Xk (ω) − X(ω)| > ǫ“. A.3.16Vgl. Satz 3.10(6). A.3.17In diesem Anhang wird für diskrete Zufallsvariablen der erste Teil von Satz 3.18(3) bewiesen. A.3.18D.h., für X, X , X , . . . gilt (2.7). 1 2 22. Juli 2014 177 PN Hierzu sei zunächst SN := k=1 Xk , N ∈ N. Da X ≥ SN , N ∈ N, folgt aus Satz 3.18(1) und Satz 3.18(2) A.3.19, d.h., der Monotonie und der Linearität des Erwartungswerts, N X E[X] ≥ E[SN ] = E[Xk ], N ∈ N. k=1 Damit ergibt sich im Limes N → ∞ der erste Teil von (A.3.2), d.h., E[X] ≥ (A.3.3) ∞ X E[Xk ]. k=1 Zum Beweis der umgekehrten Ungleichung sei nun c ∈ (0, 1) und A.3.20 τ = inf{N ∈ N : SN ≥ cX}. Da 0 ≤ SN ր X, f.s., ist τ < ∞, f.s. Nun sei Sτ = τ X A.3.21 Xk . k=1 Sτ ist eine diskrete Zufallsvariable mit Sτ (Ω) ⊆ Es folgt ∞ [ A.3.22 SN (Ω) =: S(Ω). N =1 A.3.23 : cE[X] ≤ = A.3.24 X E[Sτ ] x∈Sτ (Ω) x P[Sτ = x] | {z } [ • ∞ =P {τ = N, SN = x} = N =1 = A.3.26 ∞ X X x∈S(Ω) N =1 = A.3.27 ∞ X N =1 A.3.25 ∞ X P[τ = N, SN = x] N =1 xP[I{τ =N } = 1, SN = x] E[I{τ =N } SN ] ∞ X N X = A.3.28 = N =1 k=1 ∞ X ∞ X X E[I{τ =N } Xk ] xP[τ = N, Xk = x] k=1 N =k x∈Xk (Ω) A.3.19Die Gültigkeit dieser beiden Resultate kann hier vorausgesetzt werden. A.3.20τ ist eine N-wertige Zufallsvariable mit τ (ω) = inf{N ∈ N : S (ω) ≥ cX(ω)}, ω ∈ Ω. N Diese Zufallsvariable kann als eine Stoppzeit bzgl. der Filtration (σ(X, X1 , . . . , Xn ))n∈N betrachtet werden. Zur Erläuterung dieser Begriffe und Notationen vgl. Beispiel 3.3 und Abschnitt 3.9. A.3.21S (ω) = Pτ (ω) X (ω), ω ∈ Ω. Die Zufallsvariable S ist eine endliche Summe mit τ τ k k=1 einer zufälligen Anzahl von Summanden. A.3.22Beachte, daß jede Menge S (Ω) höchstens abzählbar ist, da X , X , . . . diskrete Zu1 2 N fallsvariablen sind. A.3.23Im folgenden wird an verschiedenen Stellen in Mehrfachsummen die Summationsreihenfolge vertauscht. Da jeweils alle Summanden positiv sind, ist dies immer korrekt. 22. Juli 2014 178 = A.3.29 ∞ X X k=1 x∈Xk (Ω) ≤ ∞ X x P[τ ≥ k, Xk = x] {z } | ≤ A.3.30 P[Xk = x] E[Xk ]. k=1 Im Limes c ր 1 ergibt sich hieraus E[X] ≤ (A.3.4) ∞ X E[Xk ]. k=1 Zusammengenommen beweisen die beiden Abschätzungen (A.3.3) und (A.3.4) die Behauptung (A.3.2) A.3.31. A.4. Ergänzungen zu Abschnitt 4 A.4.1. Eigenschaften charakteristischer Funktionen. Für eine Zufallsvariable X = (X1 , . . . , Xd )T : (Ω, F, P) → (Rd , B(Rd )) ist die charakteristische Funktion ψX : Rd → C durch X d (A.4.1) ψX (z) = E[exp(iz · X)] = E exp i z k X k , z ∈ Rd , k=1 definiert. Wenn die Verteilung PX von X eine Dichte fX bzgl. des Lebesguemaßes auf Rd besitzt, so ist A.4.1 Z dx exp(iz · x)fX (x), z ∈ Rd , (A.4.2) ψX (z) = Rd d.h., ψX entspricht der Fouriertransformierten von fX . In diesem Anhang werden einige Eigenschaften von charakteristischen Funktionen vorgestellt. Diese Eigenschaften werden in den vielfältigen Situationen in der Wahrscheinlichkeitstheorie, in denen charakteristische Funktionen als Hilfsmittel in Erscheinung treten, benötigt A.4.2. A.4.1.1. Charakteristische Funktion einer Summe unabhängiger Zufallsvariablen. Seien X und Y unabhängige, Rd -wertige Zufallsvariablen. Dann gilt: (A.4.3) ψX+Y (z) = ψX (z)ψY (z), z ∈ Rd . Beweis. ψX+Y (z) = E[exp(iz · (X + Y ))] = E[exp(iz · X) exp(iz · Y )] A.3.24Wegen der Monotonie und der Linearität des Erwartungswerts, vgl. Satz 3.18(1) und (2), und aufgrund der Definition von τ und Sτ . A.3.25 Wegen der σ-Additivität von P, vgl. (2.2b). P P A.3.26 Wenn x∈Sτ (Ω) . . . durch x∈S(Ω) . . . ersetzt wird, werden keine nichtverschwindenden Summanden hinzugefügt. Wenn x ∈ S(Ω) \ Sτ (Ω), gilt P[I{τ =N} = 1, SN = x] = 0, N ∈ N. A.3.27 Beachte, daß die Zufallsvariable I{τ =N} nur die Werte 0 und 1 annimmt. P A.3.28 Da SN = N k=1 Xk , und wegen der Linearität des Erwartungswerts, vgl. Satz 3.18(2). •∞ S A.3.29 Da N=k {τ = N, Xk = x} = {τ ≥ k, Xk = x} und wegen der σ-Additivität von P. A.3.30 Wegen der Monotonie von P, vgl. Satz 3.10(3). A.3.31Die vorgestellten Argumente sind mit geringfügigen Modifikationen auch anwendbar, wenn E[X] = ∞. A.4.1Diese Darstellung von ψ ergibt sich aus (3.19). X A.4.2Vgl. z.B. Beispiel 4.4, bzw. Fußnote 4.18, und insbesondere den Beweis des Zentralen Grenzwertsatzes für unabhängige, identisch verteilte, quadratintegrable Zufallsvariable im nächsten Anhang A.4.2. Natürlich werden in diesen Fällen charakteristische Funktionen genau deswegen als Hilfsmittel benutzt, weil sie eben diese nützlichen Eigenschaften haben, die nun vorgestellt werden. 22. Juli 2014 179 = A.4.3 E[exp(iz · X)]E[exp(iz · Y )] = ψX (z)ψY (z), z ∈ Rd . A.4.1.2. Taylorentwicklung einer charakteristischen Funktion. Sei X eine Rd wertige Zufallsvariable mit E[|X|2 ] < ∞. Dann ist ψX ∈ Cb2 (Rd ) und es gilt insbesondere d d X 1 X zk zl E[Xk Xl ] + o(|z|2 ), bei |z| → 0. (A.4.4) ψX (z) = 1 + i zk E[Xk ] − 2 k=1 k,l=1 p Wenn E[|X| ] < ∞, für ein p = 3, 4, . . . , kann die Taylorentwicklung (A.4.4) bis zur Ordnung p fortgesetzt werden, wobei weitere gemischte Momente der Komponenten X1 , . . . , Xd von X als Koeffizienten in Erscheinung treten A.4.4. Begründung. Nach formalem Vertauschen von Differentiation und E[ . ] folgt A.4.5 ∂ ψX (z) = iE[Xk exp(iz · X)], ∂zk ∂2 ψX (z) = − E[Xk Xl exp(iz · X)], z ∈ Rd , k, l = 1, . . . , d, ∂zk ∂zl d.h., ∂ ψX (0) = 1, ψX (z) = iE[Xk ], ∂zk z=0 2 ∂ ψX (z) = −E[Xk Xl ], k, l = 1, . . . , d. ∂zk ∂zl z=0 Damit wird (A.4.4) als Taylorentwicklung der Ordnung 2 von ψX in 0 plausibel. A.4.1.3. Charakteristische Funktion einer linearen Transformation einer Zufallsvariable. Sei X eine Rd -wertige Zufallsvariable und b ∈ Rd , bzw. A.4.6 A ∈ Rd⊗d . Weiterhin sei Y = AX + b. Dann ist ψY (z) = exp(iz · b)ψX (AT z), (A.4.5) z ∈ Rd . Beweis. ψY (z) = E[exp(iz · (AX + b))] = E[exp(iz · b) exp(iz · AX)] = exp(iz · b)E[exp(iAT z · X)] = exp(iz · b)ψX (AT z), z ∈ Rd . A.4.1.4. Charakteristische Funktion einer standard normalverteilten Zufallsvariablen. Eine reellwertige Zufallsvariable X mit der standard Normalverteilung N(0, 1) besitzt die charakteristische Funktion ψX (z) = exp(−z 2 /2), (A.4.6) Beweis. ψX (z) = A.4.7 1 √ 2π Z ∞ −∞ z ∈ R. dx exp(izx) exp(−x2 /2) {z } | 2 = exp(izx − x /2) = exp((−(x − iz)2 − z 2 )/2) A.4.3Wegen der Unabhängigkeit von X und Y , vgl. Satz 3.18(4). Man beachte, daß für jedes feste z ∈ Rd mit X und Y auch die Zufallsvariablen exp(iz · X) und exp(iz · Y ) unabhängig sind. A.4.4Aufgrund von (A.4.4) und analoger Taylorentwicklungen höherer Ordnung können die Momente einer Zufallsvariable X durch Differentiation ihrer charakteristischen Funktion ψX in 0 bestimmt werden. A.4.5Bei einem rigorosen Beweis kann neben (A.4.1) der Satz von der dominierten Konvergenz, vgl. Satz 3.24, herangezogen werden. A.4.6A ist eine d × d-Matrix mit reellen Komponenten. 22. Juli 2014 180 1 = exp(−z /2) √ 2π | 2 = = Z ∞ dx exp(−(x − iz)2 /2) . {z } Z ∞−iz 1 √ dy exp(−y 2 /2) 2π −∞−iz | {z } Z ∞ 1 √ dy exp(−y 2 /2) = 1 2π −∞ −∞ A.4.8 A.4.9 Normalverteilungen im Rd können auf linearen Unterräumen konzentriert sein und dann keine Dichte bzgl. des Lebesguemaßes im Rd mehr besitzen. Derartige Wahrscheinlichkeitsmaße lassen sich durch ihre charakteristischen Funktionen, d.h. geeignete Verallgemeinerungen von (A.4.6) definieren A.4.10. A.4.1.5. Inversionsformel. Sei XR eine Rd -wertige Zufallsvariable mit der charakteristischen Funktion ψX . Wenn Rd dz |ψX (z)| < ∞, so hat die Verteilung PX von X eine Dichte fX bzgl. des Lebesguemaßes auf Rd mit Z 1 (A.4.7) fX (x) = dz exp(−iz · x)ψX (z), x ∈ Rd . (2π)d Rd Allgemein ist A.4.11 (A.4.8) PX [A] = 1 M→∞ (2π)d lim Z dz [−M,M]d Y d k=1 ϕak ,bk (zk ) ψX (z), A = [a1 , b1 ] × · · · × [ad , bd ], −∞ < ak < bk < ∞, k = 1, . . . , d, PX [∂A] = 0 A.4.12 , wobei ϕa,b (t) = (exp(−ita) − exp(−itb))/(it), t ∈ R, −∞ < a < b < ∞. Diese Beziehungen zeigen insbesondere, daß die Verteilung einer Rd -wertigen Zufallsvariable durch deren charakteristische Funktion eindeutig bestimmt ist. Formale Begründung für d = 1. Für eine beliebige, hinreichend reguläre Funktion g : R → R und ihre Fouriertransformierte e g gelten Z (A.4.9a) dx exp(izx)g(x), z ∈ R, ge(z) = R Z 1 g(x) = (A.4.9b) dz exp(−izx)e g(z), x ∈ R. 2π R (A.4.7) ergibt sich somit aus (A.4.2) und (A.4.9), wenn g = fX , bzw. e g = ψX gesetzt wird. (A.4.9) zeigt auch die Gültigkeit der Beziehungen Z (A.4.10a) dx exp(izx)g ′ (x) ge′ (z) = R Z g(z), z ∈ R, = − iz dx exp(izx)g(x) = −ize R A.4.7Vgl. (A.4.2). A.4.8Mit der Variablentransformation y = x − iz. Nach dieser Transformation ist der Inte- grationsbereich die Gerade {ζ = η − iz : η ∈ R} in C. R ∞−iz A.4.9 Die Unabhängigkeit des Integrals −∞−iz dy exp(−y 2 /2) von z ∈ R kann mit dem Cauchyschen Integralsatz, vgl. [2], Chapter 4, Section 1.4, bewiesen werden. A.4.10Vgl. Abschnitt 4.2.3. A.4.11Die rechte Seite von (A.4.8) kann keineswegs bedenkenlos durch das Integral (2π)−d R Qd dz d k=1 ϕak ,bk (zk ) ψX (z) ersetzt werden, da dessen Integrand i. allg. nicht integrabel ist. R Außerdem ist jener Integrand weder ≥ 0, f.s., noch ≤ 0, f.s. A.4.12(A.4.8) kann nur gelten, wenn P keine Masse“ auf dem Rand ∂A von A besitzt. X ” 22. Juli 2014 181 (A.4.10b) 1 g(x) = 2π = 1 2π Z dz exp(−izx)e g(z) R Z dz exp(−izx) R ge′ (z) , −iz x ∈ R, wobei g ′ die Ableitung von g und ge′ die Fouriertransformierte von g ′ ist. ′ Da A.4.13 FX = fX für die Verteilungsfunktion FX von X und weil ff X = ψX , folgt nun Z 1 ψX (z) FX (x) = − , x ∈ R, dz exp(−izx) 2π R iz d.h., PX (a, b] = FX (b) − FX (a) Z 1 1 exp(−iza) − exp(−izb) ψX (z), −∞ < a < b < ∞. dz = 2π R iz Damit ist (A.4.8) auf eine formale Weise für d = 1 begründet. Details zu den Überlegungen dieses Anhangs und weiteren Eigenschaften charakteristischer Funktionen sind z.B. in [7], Sections 2.3 und 2.9, oder [12], Sections 5.7 - 5.9 nachzulesen. A.4.2. Zentraler Grenzwertsatz für unabhängige, identisch verteilte, reellwertige, quadratintegrable Zufallsvariablen. In der nun folgenden Skizze eines Beweises von Satz 4.10 werden insbesondere verschiedene Eigenschaften von charakteristischen Funktionen A.4.14 verwendet. Sei A.4.15 Yn = (Xn − µ)/σ, n ∈ N. Die Zufallsvariablen Yn , n ∈ N, sind i.i.d. mit E[Y1 ] = 0 und Var(Y1 ) = E[Y12 ] = 1, d.h., A.4.16 (A.4.11) ψYn (z) = ψY1 (z) = 1 − z2 + o(|z|2 ), 2 bei z → 0, n ∈ N. Weiterhin gilt N 1 X √ Yk = N k=1 r ! N 1 X Xk − µ , N N σ2 k=1 N ∈ N, und ψ(1/√N ) PN k=1 Yk (z) = A.4.17 N Y √ ψYk (z/ N ) k=1 |z|2 N z2 A.4.18 1− = +o 2N N N 2 z N →∞ ∼ 1− 2N N →∞ → exp(−z 2 /2), z ∈ R. A.4.13Diese Beziehung gilt zumindest dann, wenn F stetig differenzierbar ist. X A.4.14Vgl. Anhang A.4.1. A.4.15Für die Zufallsvariablen X , n ∈ N, seien die Annahmen von Satz 4.10 vorausgesetzt. n A.4.16Vgl. Abschnitt A.4.1.2. 22. Juli 2014 182 Aufgrund von Satz 3.14 und weil die Funktion R ∋ z → exp(−z 2 /2) die charakteristische Funktion einer standard normalverteilten Zufallsvariablen darstellt A.4.19, ist damit Satz 4.10 bewiesen. A.4.3. Verteilung einer Markovkette. A.4.20 Sei X = (Xn )n∈N0 eine Markovkette mit dem diskreten Zustandsraum S. Dann gilt A.4.21 P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn = P X0 = s0 , . . . , Xn−1 = sn−1 P Xn = sn |X0 = s0 , . . . , Xn−1 = sn−1 = P X0 = s0 , . . . , Xn−2 = sn−2 P Xn−1 = sn−1 |X0 = s0 , . . . , Xn−2 = sn−2 P Xn = sn |Xn−1 = sn−1 = ... = P[X0 = s0 ]P X1 = s1 |X0 = s0 P1 (s1 , s2 ) . . . Pn−1 (sn−1 , sn ) = PX0 [s0 ]P0 (s0 , s1 ) · · · Pn−1 (sn−1 , sn ), s0 , s1 , . . . , sn ∈ S, n ∈ N0 , womit (4.28) gezeigt ist. Weiterhin folgt: (A.4.12) P X0 ∈ A0 , X1 ∈ A1 , . . . , Xn ∈ An = P(X0 ,X1 ,...,Xn ) {η = (η0 , η1 , . . . , ηn ) ∈ S n+1 : η0 ∈ A0 , . . . , ηn ∈ An } "• # [ =P {X0 = s0 , X1 = s1 , . . . , Xn = sn } s0 ∈A0 ,s1 ∈A1 ,...,sn ∈An = A.4.22 X X s0 ∈A0 s1 ∈A1 = A.4.23 X ··· PX0 [s0 ] s0 ∈A0 X sn ∈An X s1 ∈A1 PX0 [s0 ]P0 (s0 , s1 ) · · · Pn−1 (sn−1 , sn ) P0 (s0 , s1 ) · · · A0 , A1 , . . . , An ∈ Pot(S), n ∈ N0 . X Pn−1 (sn−1 , sn ), sn ∈An Die endlich-dimensionalen Verteilungen der Markovkette X, d.h., die Verteilungen P(X0 ,X1 ,...,Xn ) von (X0 , X1 , . . . , Xn ) auf (S n+1 , Pot(S)⊗(n+1) ), sind damit für alle n ∈ N durch die Übergangsmatrizen Pn , n ∈ N, und die Anfangsverteilung PX0 von X eindeutig bestimmt. Setzt man nun " n ! !# ∞ Y Y (A.4.13) P Ak × S := P X0 ∈ A0 , X1 ∈ A1 , . . . , Xn ∈ An , k=0 k=n+1 A0 , A1 , . . . , An ∈ Pot(S), n ∈ N0 , Q∞ Qn so werden den endlich-dimensionalen Rechtecken k=n+1 S , A0 , . . . , k=0 Ak × An ∈ Pot(S), n ∈ N0 , in (S N0 , Pot(S)⊗N0 ) Wahrscheinlichkeiten zugewiesen, wobei diese Wahrscheinlichkeiten durch (A.4.12) spezifiziert sind. Durch eine Anwendung eines Resultats wie z.B. Satz 3.8 kann diese Zuordnung von Wahrscheinlichkeiten auf eine eindeutige Weise zu einem Wahrscheinlichkeitsmaß P =: PX auf (S N0 , Pot(S)⊗N0 ) fortgesetzt werden. Dieses Wahrscheinlichkeitsmaß PX ist die A.4.17Vgl. Abschnitte A.4.1.1 und A.4.1.3. A.4.18Wegen (A.4.11). A.4.19Vgl. Abschnitt A.4.1.4 und auch Abschnitt A.4.1.5. A.4.20In diesem Anhang wird Satz 4.21 bewiesen. A.4.21Hier wird neben der Markoveigenschaft (4.27) auch mehrmals die aus (2.9) folgende Relation P[A ∩ B] = P[A|B]P[B] benutzt. A.4.22Aufgrund der σ-Additivität von P, vgl. (2.2b), und (4.28). A.4.23 Die Analogie zur Darstellung der endlich-dimensionalen Verteilungen der Brownschen Bewegung in (4.26) ist offensichtlich. 22. Juli 2014 183 Verteilung der Markovkette X. Aufgrund von (A.4.12) und (A.4.13) ist PX durch die Übergangsmatrizen und die Anfangsverteilung von X eindeutig bestimmt. A.4.4. Aussterbewahrscheinlichkeit des superkritischen Galton-Watson-Prozesses. In diesem Anhang wird für den in Beispiel 4.24 eingeführten Galton-Watson-Prozeß X = (Xn )n∈N0 mit X0 = 1 im Fall m > 1, b0 > 0 A.4.24 die Aussterbewahrscheinlichkeit q berechnet. Dieses q wird als die kleinste Lösung von (4.34) identifiziert A.4.25. Wie (4.34) andeutet, wird insbesondere mit erzeugenden Funktionen A.4.26 gearbeitet. So ergibt sich beispielsweise die erzeugende Funktion von Xn , n ∈ N, gemäß (A.4.14) φXn (s) = E[sXn ] = ∞ X P[Xn = k] sk | {z } k=0 ∞ X = P[Xn−1 = r]P[Xn = k|Xn−1 = r] r=0 = A.4.27 ∞ X P[Xn−1 = r] r=0 ∞ X k=0 1 r P[ζn−1 + · · · + ζn−1 = k]sk | = φXn−1 (φb (s)) = {z A.4.28 φb (s) = φXn−2 φb (φb (s)) = φXn−2 ((φb ◦ φb )(s)) = ... Sei nun = φX1 ((φb ◦ · · · ◦ φb )(s)) {z } | n − 1 mal = A.4.29 (φb ◦ · · · ◦ φb )(s) =: φ◦n b (s), | {z } n mal A= ∞ [ k=1 r } s ∈ [0, 1], n ∈ N. {Xk = 0} A.4.24m ist die mittlere Nachkommenszahl eines einzelnen Individuums, d.h., m = P∞ kb . k k=0 Falls m > 1 ist, bezeichnet man X als superkritisch. Durch die Bedingung b0 > 0 wird sichergestellt, daß die Aussterbewahrscheinlichkeit q strikt positiv ist, denn offensichtlich gilt q ≥ P[X1 = 0] = b0 . A.4.25Insbesondere wird für den dritten Fall in (4.33) der Beweis durchgeführt. A.4.26Die erzeugende Funktion φ einer N -wertigen Zufallsvariable X ist durch φ (s) = 0 X X P k E[sX ] = ∞ die erzeugende Funkk=0 P[X = k]s , s ∈ [0, 1], gegeben. Entsprechend definiert man P k tion φa eines Wahrscheinlichkeitsmaßes a = (ak )k∈N0 auf N0 durch φa (s) = ∞ k=0 ak s , s ∈ [0, 1]. In (A.4.14) wird insbesondere benutzt, daß für unabhängige, N0 -wertige Zufallsvariablen X und Y die erzeugende Funktion der Summe X + Y faktorisiert, d.h., φX+Y (s) = φX (s)φY (s), s ∈ [0, 1], X, Y unabhängig. Für N0 -wertige Zufallsvariablen X besitzt die erzeugende Funktion φX ähnlich praktische Eigenschaften wie die in Anhang A.4.1 vorgestellte charakteristische Funktion ψY für allgemeine Rd -wertige Zufallsvariablen Y . A.4.27Aufgrund von (4.32) gilt P[X = k|X 1 r n n−1 = r] = P[ζn−1 + · · · + ζn−1 = k]. A.4.28 1 r Die innere Summe ist die erzeugende Funktion der Summe ζn−1 + · · · + ζn−1 der Zu1 r . Jene Zufallsvariablen sind unabhängig und nach b verteilt, vgl. Beifallsvariablen ζn−1 , . . . , ζn−1 spiel 4.24. Somit berechnet sich nach Fußnote A.4.26 die innere Summe zu φb (s)r . A.4.29 Da X0 = 1 und somit X1 die Verteilung b besitzt. 22. Juli 2014 184 das Ereignis, daß der Prozeß X ausstirbt, und sei n ∈ N. An = {Xn = 0}, An beschreibt das Ereignis, daß X zum Zeitpunkt n ausgestorben ist. Da An ր A, gilt A.4.30 φXn (0) = P[An ] ր P[A] =: q. (A.4.15) Folglich ist q= A.4.31 lim φ◦n b (0) = A.4.32 = A.4.33 n→∞ ◦(n−1) lim φb (φb (0)) A.4.34 φb (q), φb lim φ◦n b (0) = n→∞ n→∞ d.h., q ist eine Lösung von (4.34). Sei jetzt a ∈ [0, 1] irgendeine Lösung von (4.34), d.h., es gelte a = φb (a). Nun folgt aus der Monotonie von φb zunächst φb (0) ≤ φb (a) und dann weiterhin q= A.4.35 ◦n lim φ◦n b (0) ≤ lim φb (a) = a, n→∞ n→∞ d.h., q ist die kleinste Lösung von (4.34). P∞ P∞ A.4.36 ′ Offensichtlich ist φb (1) = k=1 kbk = m und k=0 bk = 1, φb (1) = φb (0) = b0 . Wenn nun m > 1 und b > 0, ist b > 0 für zumindest ein k ≥ 2. Somit 0 k P∞ ist φ′′b (s) = k=2 k(k − 1)bk sk−2 > 0, s ∈ (0, 1], d.h., φb ist strikt konvex in (0, 1]. Insbesondere ist q ∈ (0, 1) für die kleinste Lösung von (4.34) A.4.37. Damit ist der dritte Fall in (4.33) vollständig behandelt. A.4.5. Übergangswahrscheinlichkeiten des Poisson-Prozesses. Für die Bestimmung der Übergangswahrscheinlichkeiten Pt (k, l), k, l ∈ N0 , t ≥ 0, des in Beispiel 4.27 vorgestellten Poisson-Prozesses X = (Xt )t≥0 wird ein System gewöhnlicher Differentialgleichungen aufgestellt und gelöst werden. Diese Differentialgleichungen sind durch die Übergangsintensität λ A.4.38 bestimmt. A.4.5.1. Berechnung von Pt (0, 0), t ≥ 0. Zunächst gilt A.4.39 (A.4.16) Pt+h (0, 0) = P[Xt+h = 0|X0 = 0] = A.4.40 P[Xt+h = 0, Xt = 0|X0 = 0] = A.4.41 = A.4.43 P[Xt+h = 0|Xt = 0, X0 = 0] P[Xt = 0|X0 = 0] {z } | A.4.42 = P[Xt+h = 0|Xt = 0] Ph (0, 0)Pt (0, 0) A.4.30Vgl. Satz 3.10(5). In (A.4.15) wird auch berücksichtigt, daß φ (0) = P[Y = 0] für jede Y N0 -wertige Zufallsvariable Y . A.4.31Wegen (A.4.14) und (A.4.15). A.4.32Weil φ◦n (0) = φ (φ◦(n−1) (0)). b b b A.4.33 Aufgrund der Stetigkeit von φb . A.4.34 Wegen (A.4.14) und (A.4.15). A.4.35Wegen (A.4.14) und (A.4.15). A.4.36Es ist noch q ∈ (0, 1) zu zeigen. A.4.37Für die strikt konvexe Funktion φ : [0, 1] → [0, 1] ist φ (0) > 0, φ (1) = 1 und b b b φ′b (1) > 1. Somit gibt es in (0, 1) genau eine Lösung s von φb (s) = s. A.4.38Vgl. (4.41). A.4.39In den folgenden Argumenten wird angenommen, daß die Markoveigenschaft (4.36) des Poisson-Prozesses vorausgesetzt werden kann, daß nur Sprünge mit zugehöriger positiver Übergangsrate, d.h., Sprünge der Größe +1 möglich sind und daß zwischen den Sprüngen die Pfade des Poisson-Prozesses konstant sind. 22. Juli 2014 185 = (1 − P[Xh 6= 0|X0 = 0] )Pt (0, 0), {z } | A.4.44 = λh + o(h) und damit Pt+h (0, 0) − Pt (0, 0) = −λPt (0, 0)h + o(h), bei h → 0. Dividiert man beide Seiten durch h und betrachtet den Limes h ց 0 ergibt sich d Pt (0, 0) = −λPt (0, 0). (A.4.17) dt Mit der Anfangsbedingung P0 (0, 0) = 1 erhält man daher (A.4.18) Pt (0, 0) = exp(−λt), t ≥ 0. Der Zeitpunkt des ersten Sprungs aus dem Punkt 0 besitzt folglich eine Exponentialverteilung mit Parameter λ A.4.45. A.4.5.2. Gewöhnliche Differentialgleichungen für Pt (0, k), t ≥ 0, k = 1, 2, . . . . Wie in (A.4.16) wird zur Bestimmung von Pt+h (0, k) der Zustand des PoissonProzesses X zur Zeit t als Hilfsgröße benutzt. Es gilt Pt+h (0, k) = A.4.46 + Pt (0, k) Ph (k, k) +Pt (0, k − 1) Ph (k − 1, k) {z } | | {z } A.4.47 A.4.47 = 1 − λh + o(h) = λh + o(h) k X l=2 und damit Pt (0, k − l) Ph (k − l, k) , | {z } = A.4.47 o(h) k = 1, 2, . . . , Pt+h (0, k) − Pt (0, k) = (−Pt (0, k) + Pt (0, k − 1))λh + o(h), k = 1, 2, . . . . Bei h ց 0 führen diese Beziehungen zu dem System von Differentialgleichungen d (A.4.19) Pt (0, k) = −λPt (0, k) + λPt (0, k − 1), k = 1, 2, . . . , dt die durch die Anfangsbedingungen (A.4.20) P0 (0, k) = 0, k = 1, 2, . . . , ergänzt werden. A.4.40Da nur Sprünge der Größe +1 möglich sind und somit aus X t+h = 0 unter der Bedingung X0 = 0 auch Xt = 0 folgt. A.4.41 Mit (2.9) folgt P[Xt+h = 0, Xt = 0, X0 = 0] P[Xt = 0, X0 = 0] · P[Xt = 0, X0 = 0] P[X0 = 0] = P[Xt+h = 0|Xt = 0, X0 = 0]P[Xt = 0|X0 = 0]. P[Xt+h = 0, Xt = 0|X0 = 0] = A.4.42 Wegen der Markoveigenschaft (4.36). Da nur Sprünge mit positiver Sprungrate, d.h., mit der Größe +1 auftreten können, folgt Pt+h (0, 0) = Ph (0, 0)Pt (0, 0) auch unmittelbar aus der Chapman-Kolmogorov-Gleichung (4.39). A.4.44 Weil A.4.43 P[Xh 6= 0|X0 = 0] = P[Xh = 1|X0 = 0] + P[Xh 6∈ {0, 1}|X0 = 0] = λh + o(h), bei h → 0, vgl. (4.41). A.4.45Sei T = inf{t ≥ 0 : X 6= 0}. Offensichtlich gilt P[T > t|X = 0] = P (0, 0), t ≥ 0. t t 0 Somit besitzt die unter X0 = 0 bedingte Verteilung von T die Dichte t → (d/dt)P[T ≤ t|X0 = 0] = (d/dt)(1 − P[T > t|X0 = 0]) = λ exp(−λt) bzgl. des Lebesguemaßes auf [0, ∞). A.4.46Aufgrund der Chapman-Kolmogorov-Gleichung, vgl. (4.39), und weil nur Sprünge der Größe +1 möglich sind. A.4.47 Wegen (4.41), vgl. auch Fußnote 4.165. 22. Juli 2014 186 A.4.5.3. Lösung des Systems (A.4.19), (A.4.20). Mit dem Ansatz (A.4.21) Qt (k) = Pt (0, k) exp(λt), t ≥ 0, k ∈ N0 , führt (A.4.19) zu d Qt (k) = λQt (k − 1), k = 1, 2, . . . . dt Unter Berücksichtigung von A.4.48 Qt (0) = 1, t ≥ 0, und A.4.49 Q0 (k) = 0, k = 1, 2, . . . , folgt sukzessive (A.4.22) d Qt (1) = λ, dt d Qt (2) = λQt (1) = λ2 t, dt ... ... d.h., Qt (1) = λt, d.h., Qt (2) = λ2 t2 , 2 d.h., Qt (k) = λk tk , k! Mit (A.4.18) und (A.4.21) erhält man nun k = 3, 4, . . . , t ≥ 0. A.4.50 λk tk exp(−λt), k ∈ N0 , t ≥ 0. k! A.4.5.4. Darstellung aller Übergangswahrscheinlichkeiten Pt (m, k), t ≥ 0, m, k ∈ N0 . Aufgrund von (A.4.23) und wegen (4.41) A.4.51 gilt k−m (λt) exp(−λt), k ≥ m, (A.4.24) Pt (m, k) = Pt (0, k − m) = (k − m)! 0, k < m. (A.4.23) Pt (0, k) = Daher besitzt die Anzahl der Sprünge eines Poisson-Prozesses mit Parameter λ in einem Zeitintervall der Länge T eine Poisson-Verteilung mit Parameter λT . A.4.6. Überlegungen zum Optional Stopping Theorem“. In diesem ” Anhang wird (4.65) bewiesen. Hierzu ist A.4.52 (A.4.25) E[XT IA ] = E[XS IA ], A ∈ FS , zu zeigen. Wenn o.E.d.A. mit der Filtration (FnX )n∈N0 gearbeitet wird, reicht es, zum Nachweis von (A.4.25) Ereignisse der Form (A.4.26) A = {S = k, Xl ∈ G}, k = 0, 1, . . . , M, l = 0, 1, . . . , k, G ∈ B(R), zu betrachten, da die Familie derartiger Ereignisse FSX erzeugt. A.4.48Wegen (A.4.18) und (A.4.21). A.4.49Vgl. (A.4.20) und (A.4.21). A.4.50Für k = 2, 3, . . . sei T = inf{t ≥ 0 : X = k} der Zeitpunkt des k-ten Sprungs des t k P Poisson-Prozesses (Xt )t≥0 mit X0 = 0. Da P[Tk > t] = k−1 l=0 Pt (0, l), t ≥ 0, und somit (A.4.17), (A.4.19) und (A.4.23) zu d P[Tk > t] = − λPt (0, k − 1) + λPt (0, k − 2) − λPt (0, k − 2) ± · · · − λPt (0, 0) dt λk tk−1 exp(−λt), t ≥ 0, = − λPt (0, k − 1) = − (k − 1)! führen, hat die Verteilung von Tk die Dichte t → (d/dt)P[Tk ≤ t] = (d/dt)(1 − P[Tk > t]) = λk tk−1 exp(−λt)/(k − 1)! bzgl. des Lebesguemaßes auf [0, ∞). Somit besitzt Tk eine GammaVerteilung mit den Parametern α = λ und r = k. A.4.51(4.41) besagt insbesondere, daß die Verteilung der Größe eines Sprungs vom Startpunkt jenes Sprungs unabhängig ist, und daß Sprünge mit negativer Größe f.s. nicht vorkommen. A.4.52Vgl. (3.27). 22. Juli 2014 187 Sei (Ω, F, P) der Wahrscheinlichkeitsraum, auf dem X = (Xn )n∈N0 definiert ist. Dann ist zunächst (A.4.27) E XT I{S=k,Xl ∈G} = A.4.53 n=k k = 0, 1, . . . , M, l = 0, 1, . . . , k, G ∈ B(R). Weiterhin gilt: (A.4.28) E XT I{T =M} I{S=k,Xl ∈G} = = A.4.55 M X E XT I{T =n} I{S=k,Xl ∈G} , A.4.54 E XM (1 − I{T ≤M−1} )I{S=k,Xl ∈G} X M−1 E XM I{S=k,Xl ∈G} − E XM I{T =n} I{S=k,Xl ∈G} n=k = A.4.56 E Xk I{S=k,Xl ∈G} − = E XS I{S=k,Xl ∈G} − M−1 X n=k M−1 X n=k E Xn I{T =n} I{S=k,Xl ∈G} E XT I{T =n} I{S=k,Xl ∈G} , k = 0, 1, . . . , M, l = 0, 1, . . . , k, G ∈ B(R). Zusammengefaßt ergeben (A.4.27) und (A.4.28) die Beziehung (A.4.25) für die in (A.4.26) aufgeführten Ereignisse. Damit ist der Beweis von (4.65) abgeschlossen. A.4.7. Doobsche Ungleichungen. In diesem Abschnitt werden (4.72) und (4.74) bewiesen. Die Zufallszeit ( inf{n : Xn ≥ λ}, falls supn=1,...,N Xn ≥ λ, T = N, sonst, ist eine Stoppzeit bzgl. (Fn )n=1,...,N mit T ≤ N . Aus (4.66) folgt daher A.4.57 E[XN ] ≥ E[XT ] = E XT I{supn=1,...,N Xn ≥λ} + E XT I{supn=1,...,N Xn <λ} ≥ λP sup Xn ≥ λ + E XN I{supn=1,...,N Xn <λ} . n=1,...,N Nach Subtraktion von E XN I{supn=1,...,N Xn <λ} auf den äußeren Seiten folgt A.4.58 (4.72). Zum Beweis von (4.74) sei X ∗ = supn=1,...,N |Xn |. Für k > 0 gilt dann Z X ∗ ∧k ∗ p p−1 E (X ∧ k) = E (A.4.29) dλ pλ 0 Z =E p k p−1 dλ λ 0 I[0,X ∗ ] (λ) A.4.53Wegen (4.64). A.4.54Für ω ∈ Ω ist offensichtlich X T (ω) (ω) = XM (ω), wenn T (ω) = M . Außerdem ist {T = M } = Ω \ {T ≤ M − 1}. • M −1 S Man beachte, daß {T ≤ M − 1, S = k} = n=k {T = n, S = k}. A.4.56 X) Da X = (Xn )n∈N0 ein Martingal und S und T Stoppzeiten bzgl. (Fn n∈N0 sind. Man X beachte, daß für n ≥ k ≥ l sowohl {S = k, Xl ∈ G} ∈ Fk als auch {T = n} ∩ {S = k, Xl ∈ G} ∈ X. Fn A.4.57Bei einem Submartingal X ist =“ in (4.66) durch ≥“ zu ersetzen. ” ” A.4.58Offensichtlich sind die letzten beiden Abschätzungen in (4.72) trivial. A.4.55 22. Juli 2014 188 = A.4.59 =p Z Z k d.h., dλ λp−1 E[I[λ,∞) (X ∗ )] A.4.60 " dλ λp−1 P[X ∗ ≥ λ] p Z k dλ λp−2 E |XN |I{X ∗ ≥λ} 0 # Z ∗ = pE |XN | Damit folgt k 0 0 ≤ p X ∧k dλ λp−2 0 p E |XN |(X ∗ ∧ k)p−1 = p−1 (p−1)/p 1/p ∗ p A.4.61 ≤ . E (X ∧ k)p E |XN |p p−1 1/p ≤ E (X ∗ ∧ k)p 1/p p , E |XN |p p−1 p p E (X ∗ ∧ k)p ≤ E |XN |p . p−1 Hieraus folgt mit dem Lemma von Fatou A.4.62 bei k → ∞ die Beziehung (4.74). A.4.59Nach dem Satz von Fubini, vgl. [7], Appendix A.6, Theorem (6.2), oder auch Satz 3.21, und weil I[0,y] (λ) = I[λ,∞) (y), λ, y ≥ 0. A.4.60 Nach (4.72), angewandt auf das Submartingal |X| = (|Xn |)n=1,...,N . A.4.61 Nach der Hölderschen Ungleichung mit p und q = p/(p − 1), vgl. Abschnitt 3.6.3. A.4.62Vgl. Satz 3.23. 22. Juli 2014 193 A.5. Ergänzungen zu Abschnitt 5 A.5.1. Fast-sichere Konvergenz einer Teilfolge als Konsequenz der stochastischen Konvergenz einer Folge von Zufallsvariablen. A.5.1 Sei Xn , n ∈ N, eine Folge reellwertiger Zufallsvariablen, die stochastisch gegen eine Zufallsvariable X konvergieren. Zu einer Folge ǫk , k ∈ N, in (0, ∞) mit limk→∞ ǫk = 0 wird nun durch ein Iterationsverfahren eine Folge nk , k ∈ N, in N mit limk→∞ Xnk = X, f.s., konstruiert. Für k ∈ N seien hierzu n1 = 1, n2 , . . . , nk gegeben. Aufgrund der stochastischen Konvergenz der Zufallsvariablen Xn , n ∈ N, gegen X gibt es ein nk+1 > nk mit P |Xnk+1 − X| > ǫk+1 ≤ 2−k−1 . Da dann ∞ X P |Xnk − X| > ǫk < ∞, k=1 zeigt Teil (a) des Lemmas von Borel-Cantelli A.5.2, daß k→∞ P |Xnk − X| > ǫk i.o. = 0, d.h., P |Xnk − X| → 0 = 1. Damit ist limk→∞ Xnk = X, f.s., gezeigt. A.5.1 Im folgenden wird der zweite Teil von Satz 3.13 verifiziert. Auf den ersten Teil war in Anhang A.3.2 eingegangen worden. A.5.2Vgl. Satz 5.1. 22. Juli 2014 Literaturverzeichnis [1] M. Abramowitz, I.A. Stegun: Handbook of Mathematical Functions (Ninth Printing). Dover Publications, 1972. [2] L.V. Ahlfors. Complex Analysis, 2nd Edition. McGraw-Hill, 1966. [3] H. Bauer: Wahrscheinlichkeitstheorie, 5. Auflage. De Gruyter, 2001. [4] P. Billingsley. Convergence of Probability Measures, Wiley, 1968. [5] P. Billingsley. Probability and Measure, 3rd Edition. Wiley, 1995. [6] L. Breiman. Probability. SIAM, 1992. [7] R. Durrett. Probability: Theory and Examples, 2nd Edition. Duxbury Press, 1996. [8] S.N. Ethier, T.G. Kurtz. Markov Processes. Characterization and Convergence. Wiley, 1986. [9] W. Feller. An Introduction to Probability Theory and its Applications, Volume II, 2nd Edition. Wiley, 1971. [10] H.-O. Georgii. Stochastik. De Gruyter, 2002. [11] B.W. Gnedenko, A.N. Kolmogorov. Grenzverteilungen von Summen unabhängiger Zufallsgrößen. Akademie-Verlag, 1959. [12] G. Grimmett, D. Stirzaker. Probability and Random Processes, 3rd Edition. Oxford University Press, 2003. [13] C. Hesse. Angewandte Wahrscheinlichkeitstheorie. Vieweg 2003. [14] F. Hirzebruch, W. Scharlau. Einführung in die Funktionalanalysis. Spektrum Akademischer Verlag, 1991. [15] K. Itô, H.P. McKean: Diffusion Processes and their Sample Paths (Second Printing, Corrected). Springer Verlag, 1974. [16] N. Ikeda, S. Watanabe. Stochastic Differential Equations and Diffusion Processes. North Holland, 1981. [17] P. Jagers. Branching Processes with Biological Applications. Wiley, 1975. [18] O. Kallenberg. Foundations of Modern Probability, 2nd Edition. Springer, 2002. [19] I. Karatzas, S. E. Shreve. Brownian Motion and Stochastic Calculus (Second Edition). Springer Verlag, 1991. [20] S. Karlin, H.M. Taylor. A First Course in Stochastic Processes (Second Edition). Academic Press, 1975. [21] S. Karlin, H.M. Taylor. A Second Course in Stochastic Processes. Academic Press, 1981. [22] K. Knopp. Theorie und Anwendung der Unendlichen Reihen, 5. Auflage, Springer Verlag, 1964. [23] M. Matsumoto, T. Nishimura. Mersenne twister: a 623-dimensionally equidistributed uniform pseudo-random number generator. ACM Transactions on Modeling and Computer Simulation 8 (Special issue on uniform random number generation), 3 - 30, 1998. [24] H. Niederreiter. Random Number Generation and Quasi-Monte-Carlo-Methods. SIAM, CBMS-NSF Regional Conference Series in Applied Mathematics 63, 1992. [25] Yu.V. Prohorov, Yu.A. Rozanov. Probability Theory. Springer Verlag, 1969. [26] D. Revuz, M. Yor. Continuous Martingales and Brownian Motion (Third Edition). Springer Verlag, 1999. [27] H.L. Royden. Real Analysis, 2nd Edition. Macmillan, 1968. [28] A.D. Wentzell. Theorie zufälliger Prozesse. Birkhäuser Verlag, 1979. 211