KAPITEL 7 Grundlagen der Verteilungskonvergenz zufälliger Funktionen (vorläufige Version) In diesem Kapitel tragen wir die wichtigsten Grundlagen über die Verteilungskonvergenz zufälliger Funktionen zusammen, die sich als deutlich diffiziler erweist als die Verteilungskonvergenz von Zufallsvektoren. Für ausführliche Darstellungen sei auf die entsprechende wahrscheinlichkeitstheoretische Literatur verwiesen. 1. Einführung: Der Partialsummenprozess Für die folgenden Kapitel ist der Partialsummenprozess Sn (t) = bntc X Xi , t ∈ [0, 1], i=1 von besonderer Bedeutung. Sn (t) ist eine Treppenfunktion mit Sprungstellen i/n, i = P 1, . . . , n, und Funktionswerten 0, X1 , X1 + X2 , . . . , ni=1 Xi . Sind Xi i.i.d. mit E(Xi ) = µ und 0 < σ 2 = Var (Xi ) < ∞, so gilt E(Sn (t)) = bntcµ, Var (Sn (t)) = bntcσ 2 . Nach dem zentralen Grenzwertsatz konvergiert die zufällige Funktion bntc (15) 1 X Xn (t) = √ (Xi − µ), n i=1 für die E(Xn (t)) = 0 und Var (Xn (t)) = bntc 2 σ n t ∈ [0, 1], → tσ 2 gilt, punktweise in Verteilung gegen eine N (0, tσ 2 )-Verteilung. Es stellt sich die Frage, ob auch Verteilungskonvergenz gegen eine zufällige Funktion X(t) vorliegt. 105 Die Autokovarianzfunktion des Prozesses Xn (t) berechnet sich wie folgt: Für s < t ist bnsc bntc bnsc 1 XX E(Xi Xj ) = σ 2 → s = σ 2 min(s, t). Cov (Xn (s), Xn (t)) = n i=1 j=1 n Somit sollten auch alle sog. Projektionen von Xn auf k ∈ N Zeitpunkte t1 < · · · < tk asymptotisch multivariat normalverteilt sein, und zwar mit asymptotischer Kovarianzmatrix Σt1 ,...,tk = (min(ti , tj ))i=1,...,k; j=1,...,k . Satz 7.1. X1 , . . . , Xn seien i.i.d. mit 0 < σ 2 = Var (Xi ) < ∞. Für alle k ∈ N und alle 0 ≤ t1 < · · · < tk ≤ 1 gilt: d (Xn (t1 ), . . . , Xn (tk )) → N (0, Σt1 ,...,tk ), für n → ∞. Beweis. O.E. sei µ = E(Xi ) = 0. Wir wenden die Cramer-Wold-Technik an. Sei λ = (λ1 , . . . , λk )0 ∈ Rk \{0}. Dann ist bntj c k 1 X X λj Xn (tj ) = √ λj Xi n j=1 j=1 i=1 k X bntk c k 1 X X √ = λj Xi 1(i ≤ bntj c) n j=1 i=1 ! n k X 1 X √ = λj 1(i ≤ bntj c) Xi n i=1 j=1 Dies ist eine gewichtete Summe Pn i=1 ani Xi mit Gewichten k 1 X λj 1(i ≤ bntj c). ani = √ n j=1 106 √ Es gilt maxi |ani | ≤ k maxj=1,...,k |λj |/ n → 0, für n → ∞. Ferner n X n k k 1 XXX = λj λk 1(i ≤ bntj c)1(i ≤ bntl c) n i=1 j=1 l=1 a2ni i=1 = k X λj λl n = j,l=1 n X 1 (i ≤ min(bntj c, bntl c)) i=1 j,l=1 k X −1 λj λl min(bntj c, bntl c) n Damit folgt n X a2ni i=1 → k X k X λj λl min(tj , tl ) = λ0 Σt1 ,...,tk λ, j=1 l=1 wenn n → ∞. Sei X ∼ N (0, Σt1 ,...,tk ). Dann gilt λ0 X ∼ N (0, λ0 Σt1 ,...,tk λ). Also ist gezeigt: Xn (t1 ) d 0 .. → λ X, n → ∞. λ0 . Xn (tk ) Dies ist äquivalent zu d (Xn (t1 ), . . . , Xn (tk ))0 → X, n → ∞, ist. Existiert zur Familie von endlich-dimensionalen Verteilungen {N (0, Σt1 ,...,tk ) : 0 ≤ t1 < · · · < tk ≤ 1, k ∈ N} ein stochastischer Prozess X(t), t ∈ [0, 1], der genau diese Verteilungen als Marginalverteilungen besitzt, d.h. (X(t1 ), . . . , X(tk )) ∼ N (0, Σt1 ,...,tk ), also ein Gaußscher Prozess ist, dann liegt es nahe zu vermuten, dass Sn als Funktion in Verteilung gegen X konvergiert. Dies wird sich richtig erweisen. Wir benötigen daher einige Grundlagen über die Verteilungskonvergenz von zufälligen Funktionen. Von Interesse ist für uns vor allem die Verteilungskonvergenz für stetige Funktionen, die oft als Limesprozesse auftreten, sowie natürlich rechtsstetige Funktionen mit linksseitigen Grenzwerten. 107 Allgemein sei M eine Menge von Funktionen auf I ⊂ R (z.B. alle stetigen Funktionen C(I)). d sei eine Metrik auf M . M sei zudem mit einer σ-Algebra B versehen, i.d.R. die Borel-σ-Algebra, die von den offenen Mengen erzeugt wird, oder die σ-Algebra, die von den offenen Bällen erzeugt wird. Sei X : (Ω, A, P ) → (M, d) eine messbare Abbildung, d.h. es gelte X −1 (M ) ⊂ A. Dann heißt X Zufallselement von M . Für jedes feste ω ∈ Ω heißt t 7→ X(ω, t) := X(ω)(t), t ∈ I, Pfad oder Trajektorie. Die Realisationen X(ω) sind also Funktionen aus M . Die Verteilung von X ist das Wahrscheinlichkeitsmaß PX auf M mit PX (A) = P (X ∈ A), A ⊂ M messbar. Ist h : M → R eine messbare Funktion, dann gilt Z Z h(X) dP = Eh(X) = h(x) dPX (x). Für Anwendungen reicht oftmals das folgende wichtige Kriterium für Verteilungskonvergenz (schwache Konvergenz), das wir deshalb schon einmal formulieren wollen: Hinreichendes Kriterium: Es sei Xn (t), t ∈ I = [a, b], ein stochastischer Prozess, d.h. eine zufällige Funktion, mit beschränkten Pfaden. Für die Zuwächse gelte die MomenteBedingung E|Xn (s) − Xn (t)|p ≤ K|s − t|r+1 für Konstanten p, K, r > 0, unabhängig von n. Gilt zusätzlich d (Xn (t1 ), . . . , Xn (tk )) → (X(t1 ), . . . , X(tk )), n → ∞, für alle a ≤ t1 < · · · < tk ≤ b und alle k ∈ N, dann existiert eine Version von X mit stetigen Pfaden und Xn konvergiert als zufällige Funktion gegen X. Für den Partialsummenprozess gilt für i.i.d.-Summanden: Lemma 7.1. Seien X1 , . . . , Xn i.i.d. mit E(X1 ) = 0 und 0 < Var (X1 ) < ∞. Dann gibt es eine Konstante C > 0, so dass für den zugehörigen Partialsummenprozess Xn - wie in (??) definiert - gilt: E(Xn (t) − Xn (s))4 ≤ C|t − s|2 , 108 0 ≤ s ≤ t ≤ 1. Beweis. Man hat wegen Xn (t) − Xn (s) = 1 E(Xn (t) − Xn (s)) ≤ 2 n √1 n Pbntc i=bnsc+1 bntc X 4 Xi |E(Xi Xj Xk Xl )|. i,j,k,l=bnsc+1 Der Erwartungswert E(Xi Xj Xk Xl ) ist nur dann nicht 0, wenn i = j = k = l (dies sind bntc−bnsc Fälle) oder i = j 6= k = l (O ((bntc − bnsc)2 ) Fälle). Mit C = max((EX12 )2 , EX14 )) folgt: 4 E(Xn (t) − Xn (s)) ≤ O (bntc − bnsc)2 n2 Da der Bruch gegen |t − s|2 konvergiert, gibt es also eine Konstante C 0 , so dass die rechte Seite für alle s, t ∈ [0, 1] und alle n ∈ N durch C 0 |s − t|2 beschränkt ist. 2. Einige Funktionenräume Wir führen nun die für uns wichtigsten drei Funktionenräume ein. 2.1. Der Raum l∞ (I). Die Menge aller beschränkten Funktionen auf I sei mit l∞ (I) = {f : I → R : kf k∞ < ∞} bezeichnet, wobei kf k∞ = sup |f (x)| x∈I die Supremumsnorm ist. Ist I = [−∞, +∞], so ist f ∈ l∞ (I), wenn lim |f (x)| < ∞, x→−∞ lim |f (x)|. x→+∞ Die Supnorm induziert die Metrik d(f, g) = kf − gk∞ , f, g ∈ l∞ . Eine Menge heißt separabel, wenn sie eine abzählbar dichte Teilmenge enthält. l∞ ist separabel, wenn I abzählbar ist. Ansonsten ist l∞ nicht separabel. 109 2.2. Der Raum C(I). Sei C(I) = {f : I → R : f ist stetig} die Menge aller stetigen Funktionen auf I, die wir ebenfalls durch die Supremumsnorm zu einem normierten und damit auch metrischen Raum machen. C(I) ist vollständig, d.h. jede Cauchyfolge konvergiert in C(I). Die Borel’sche σ-Algebra wird von den offenen Mengen in C(I) erzeugt. C(I) ist separabel, wenn I ⊂ Rn kompakt ist: Man nimmt die Funktionswerte von f ∈ C(I) auf einem Gitter εZn mit Maschenweite ε > 0 und interpoliert dann linear. Da f auf I gleichmäßig stetig ist, ist der Fehler glm. beschränkt durch sup{|f (x1 ) − f (x2 )| : kx1 − x2 k∞ ≤ ε} → 0, ε → 0. Approximiert man nun die endlich (!) vielen Funktionswerte an den Gitterpunkten, die in I liegen, durch rationale Zahlen, erhält man eine abzählbar dichte Teilmenge. 2.3. Der Skorokhod-Raum D(I). Sowohl die empirische Verteilungsfunktion als auch der Partialsummenprozess sind nicht Elemente von C(R) bzw. C[0, 1], da sie Sprünge aufweisen. Definition 7.1. Eine Funktion f : [a, b] → R heißt cadlag (continue à droite avec limite à gauche), wenn für alle t ∈ [a, b) der rechtsseitige Limes, f (t+) = lim f (s), s↓t existiert, für alle t ∈ (a, b] der linksseitige Limes f (t−) = lim f (s), s↑t und wenn f den rechtsseitigen Grenzwert annimmt, f (t) = f (t+). Kurz: f ist rechtsstetig und besitzt linksseitige Grenzwerte. Wir setzen D(I) = {f : I → R : f ist cadlag}. Offensichtlich gilt: C[a, b] ⊂ D[a, b] ⊂ l∞ . 110 Da Funktionen aus D[a, b] Sprünge haben dürfen, benötigen wir einen hierauf zugeschnittenen Konvergenzbegriff. Das heißt, wir müssen geeignet den Abstand zwischen Funktionen messen. Denken wir an die empirische Verteilungsfunktion Fn (x) einer Stichprobe X1 , . . . , Xn , die an den Ordnungsstatistiken X(i) springt, so sollte gewährleistet sein, dass Treppenfunktionen mit gleichen Sprunghöhen, aber geringfügig verschiedenen Sprungstellen, einen kleinen Abstand haben sollten. Dies ist nicht gewährleistet, wenn man die Supnorm verwendet: Betrachten wir exemplarisch die Funktionenfolge fn (x) = 1(x ≥ 1/2 + 1/n), x ∈ I := [0, 1], und die Funktion f (x) = 1(x ≥ 1/2), x ∈ I. Da fn erst ab 1/2 + 1/n auf 1 springt und f (x) auf dem Invervall [1/2, 1/2 + 1/n) konstant 1 ist gilt für alle n kfn − f k∞ = 1. Somit konvergiert fn nicht in der Supnorm gegen f . Die Supnorm ist für Sprungfunktionen also nicht besonders geeignet. Das Problem kann man umschiffen, indem man vor der Abstandsmessung zweier Funktionen f, g mit der Supnorm bei einer der Funktionen die Sprungstellen durch eine Deformation des Argumentbereichs leicht verschiebt. Ist λ : I → I eine stetige Bijektion (also ein Homöomorphismus), so können wir sup |f (t) − g(λ(t))| t∈I betrachten. Für λ(t) = t erhält man die gewöhnliche Supnorm. Es ist naheliegend, die supremale Abweichung von λ von der Identität noch in die Abstandsmessung einfließen zu lassen. Wir definieren daher für ein festes λ dλ (f, g) = sup |f (t) − g(λ(t))| + sup |t − λ(t)| t∈I t∈I und minimieren dieses Maß über alle λ ∈ Λ, wobei Λ = {λ : I → I : λ ist stetige Bijektion} 111 die Menge aller Homöomorphismen des Einheitsintervalls ist. Wir definieren also d(f, g) = inf dλ (f, g). λ Man kann zeigen, dass hierdurch eine Metrik auf D(I) definiert wird. d heißt SkorokhodMetrik. Der metrische Raum (D(I), d) heißt auch Skorokhod-Raum. Die von d induzierte Topologie heißt Skorokhod-Topologie. Als topologischer Raum ist D(I) dann separabel, aber nicht vollständig. Man kann die Metrik jedoch abändern, so dass sich die Topologie nicht ändert und der zugehörige metrische Raum vollständig ist. Konvergenz einer Folge fn gegen ein f ∈ D(I) in der Skorokhod-Metrik heißt: Es gibt eine Folge λn ∈ Λ, so dass lim sup |fn (x) − f (λn (t))| = 0 (16) n→∞ t∈I und lim sup |λn (t) − t| = 0 (17) n→∞ t∈I Ist das Grenzelement f stetig, d.h. f ∈ C(I), so hat man sogar Konvergenz bzgl. der Supnorm. Lemma 7.2. Aus fn → f , n → ∞, bzgl. der Skorokhod-Metrik d und f ∈ C(I) folgt Konvergenz in der Supnorm, d.h. sup |fn (t) − f (t)| → 0, n → ∞. t∈I Beweis. Nach Voraussetzung existiert eine Folge {λn }, so dass (15) und (16) gelten. Da f als stetige Funktion auf I gleichmäßig stetig ist, folgt aus (16), also k◦k∞ λ → id, n → ∞, k◦k∞ dass f ◦ λn → f ◦ id, n → ∞, d.h. sup |f (λn (t)) − f (t)| → 0, n → ∞. t∈I Die Dreiecksungleichung liefert nun |fn (t) − f (t)| ≤ |fn (t) − f (λn (t))| + |f (λn (t)) − f (t)|, woraus die Behauptung folgt. 112 Der Raum D(I), I = [a, b], ist separabel. Eine abzählbare dichte Teilmenge ist durch alle Treppenfunktionen f mit rationalen Funktionswerten auf den Intervallen i−1 i , , 1 ≤ i ≤ k, k k und rationalem Funktionswert f (b) gegeben. Allerdings ist D(I) versehen mit der Metrik d nicht vollständig. Man kann allerdings eine äquivalente Metrik d0 betrachten, die also dieselbe Topologie erzeugt, so dass D(I) vollständig wird. 2.4. Wahrscheinlichkeitsmaße auf C[a, b] und D[a, b]. Nach dem Konsistenztheorem von Kolmogorov existiert zu einer Familie von endlich-dimensionalen Verteilungen, ein stochastischer Prozess X(t), t ∈ T , T ⊂ R, welcher die vorgegebenen endlich- dimensionalen Verteilungen als Marginalverteilungen besitzt, wenn die Konsistenzbedingung erfüllt ist. Darüber hinaus gilt: Jedes Wahrscheinlichkeitsmaß PX auf C[a, b] bzw. D[a, b] eindeutig durch seine endlich-dimensionalen Marginalien P (X(t1 ) ∈ A1 , . . . , X(tk ) ∈ Ak ), t1 < · · · < tk , k ∈ N, festgelegt. Kennt man also die Verteilung aller Zufallsvektoren der Form (X(t1 ), . . . , X(tk )), so ist die Verteilung des ganzen Prozesses schon klar. Insbesondere existieren Gaußsche Prozesse (normale Prozesse), das sind Prozesse, deren Randverteilungen stets (multivariat) normalverteilt sind. Ist für alle t1 < · · · < tk Σ(t1 , . . . , tk ) ∈ Rk×k eine k-dimensionale Kovarianzmatrix und µ(t1 , . . . , tk ) ∈ Rk , dann gibt es eine stochastischen Prozess N (t), t ∈ I, dessen k-dimensionale Marginalien multivariat normalverteilt und durch {µ(t1 , . . . , tk ), Σ(t1 , . . . , tk ) : t1 < · · · < tk , k ∈ N} beschrieben sind: (N (t1 ), . . . , N (tk )) ∼ N (µ(t1 , . . . , tk ), Σ(t1 , . . . , tk )) 113 3. Schwache Konvergenz in metrischen Räumen Es ist üblich, den Begriff der Verteilungskonvergenz (schwachen Konvergenz) gleich für metrische Räume (M, d) zu definieren. In dieser Allgemeinheit bezieht er sich auf die Wahrscheinlichkeitsmaße auf M . Sei X : (Ω, A, P ) → (M, d) ein Zufallselement und h : M → R eine messbare Funktion, z.B. h(x) = supt∈I |x(t)|. Man kann h(x) als Kennzahl interpretieren, die x ∈ M zugeordnet wird, und demzufolge Eh(X) als Kennzahl zur Charakterisierung des Prozesses X. Definition 7.2. Sei {P, Pn } eine Folge von Wahrscheinlichkeitsmaßen auf M . {Pn } konvergiert schwach gegen P , wenn Z Z h(x) dPn (x) → h(x) dP (x), n→∞ für alle stetigen und beschränkten h : M → R, d.h. h ∈ Cb (M ). Ist {Xn } eine Folge von Zufallselementen auf M , so konvergiert Xn schwach gegen X, wenn die Folge der Verteilungen Pn = PXn definiert durch Pn (A) = P (Xn ∈ A) schwach gegen P konvergiert, P (A) = P (X ∈ A). Wir schreiben dann w Xn → X, n → ∞, oder auch - wenn keine Verwechslungsgefahr mit der Implikation besteht Xn ⇒ X, n → ∞, Xn konvergiert also schwach (in Verteilung) gegen X, wenn alle reellwertigen Charakteristika Eh(Xn ), h ∈ Cb (M ), gegen diejenigen von X konvergieren - als reelle Folge. Da eine reelle Folge {xn } genau dann gegen x konvergiert, wenn jede Teilfolge eine weitere Teilfolge enthält, die gegen x konvergiert, gilt: Satz 7.2. (Folgenkriterium) Es gilt Pn ⇒ P genau dann, wenn jede Teilfolge {Pn0 } eine weitere Teilfolge {Pn00 } enthält, so dass Pn00 ⇒ P . 114 Satz 7.3. (Billingsley, Th. 1.3) Zwei Wahrscheinlichkeitsmaße auf M stimmen überein, wenn Z Z h(x) dP (x) = h(x) dQ(x) für alle h ∈ C(M ). Somit legen die Werte R f dP, f ∈ C(M ), schon ein Wahrscheinlichkeitsmaß fest. Eine Menge A heißt P -stetig, wenn P (∂A) = 0. Hierbei ist ∂A der Rand von A. Satz 7.4. (Portmanteau) Äquivalent sind: (i) Pn ⇒ P R R (ii) h(x) dPn (x) → h(x) dP (x), n → ∞, für alle gleichmäßig stetigen und beschränkten Funktionen h : M → R. (iii) limn→∞ Pn (A) = P (A) für alle P -stetigen Mengen A. Per definitionem bleibt schwache Konvergenz unter stetigen Abbildungen erhalten. Man kann dies Ergebnis ein wenig verfeinern. Satz 7.5. (Stetigkeitssatz) Schwache Konvergenz bleibt unter stetigen Abbildungen erhalten: Sei f : M → M 0 eine Abbildung zwischen metrischen Räumen, jeweils versehen mit der Borel-σ-Algebra. Gilt P (X ∈ {x : f unstetig in x}) = 0, dann gilt: w Xn → X, w ⇒ f (Xn ) → f (X) Ist speziell M ein metrischer Raum von Funktionen f : I → R, so betrachte zu k Zeitpunkten t1 < · · · < tk die sog. k-dimensionale Projektionsabbildung πt1 ,...,tk (f ) = (f (t1 ), . . . , f (tk )), f ∈ M, die jeder Funktion den Vektor ihrer Funktionswerte f (ti ) zuordnet. Man kann dies als Approximation der Funktion f verstehen, z.B. indem man die zugehörige Treppenfunktion oder den zugehörigen Streckenzug betrachtet. Offensichtlich ist πt1 ,...,tk stetig. Gilt nun Xn ⇒ X, n → ∞, 115 so folgt die Konvergenz der endlich-dimensionalen Marginalien, πt1 ,...,tk (Xn ) = (Xn (t1 ), . . . , Xn (tk )) d → (X(t1 ), . . . , X(tk )), im Sinne der gewöhnlichen Verteilungskonvergenz einer Folge von Zufallsvektoren, und zwar für beliebige Zeitpunkte t1 < · · · < tk und beliebiges k ∈ N. Diese Konvergenz der endlich-dimensionalen Marginalien nennt man auch fidi-Konvergenz (engl.: finitedimensional marginals) und schreibt Xn → X, f idis n → ∞, f idis n → ∞. bzw. Pn → P, Es stellt sich die Frage, ob auch die Umkehrung gilt, also ob aus der Konvergenz der endlichdimensionalen Marginalien schon die schwache Konvergenz (Verteilungskonvergenz) der ganzen zufälligen Funktion folgt. Das folgende Beispiel zeigt, dass fidi-Konvergenz nicht hinreichend ist. Beispiel 7.1. Der Prozess Xn ∈ C[0, 1] sei auf eine Funktion konzentriert, d.h. P (Xn = xn ) = 1, n ∈ N. xn steige im Intervall [0, 1/n] linear von 0 nach 1 an, falle dann im Intervall (1/n, 2/m] linear wieder auf 0 und verharre dort, d.h. xn (t) = 0, für t ∈ [2/n, 1]. Es gilt daher kXn k∞ = 1 f.s. und für jede fest Wahl von Punkten 0 < t1 < · · · < tk < 1 gilt (xn (t1 ), . . . , xn (tk )) → 0, n → ∞. Daher konvergieren die fidis gegen die Einheitsmasse in der Nullfunktion 0 ∈ C[0, 1]. Betrachte die Menge A = {f ∈ C[0, 1] : kf k < 1/2}. Weil kXn k∞ = 1 für alle n, gilt P (Xn ∈ A) = 0. Aber P (X ∈ A) = 1, 116 da 0 ∈ A. A ist eine PX -stetige Menge, da ∂A = {f ∈ C[0, 1] : kf k = 1/2} und somit P (X ∈ ∂A) = 0. Aber Pn (A) = P (Xn ∈ A) = 0 6→ 1 = P (X ∈ A) = PX (A) Dazu muss gesichert sein, dass das stochastische Verhalten von Xn (t) durch das Verhalten an endlich vielen Zeitpunkten beliebig genau für n → ∞ beschrieben ist. Angenommen, die Menge {Pn } der Verteilungen Pn = PXn sei folgenkompakt (relativ kompakt), d.h. jede Teilfolge {Pn0 } enthalte eine weitere Teilfolge {Pn00 }, die schwach gegen ein Wahrscheinlichkeitsmaß Q konvergiert: Pn00 ⇒ Q. Gilt zudem fidi-Konvergenz, f idis Pn → P, so müssen die fidis von Q und P übereinstimmen. Somit gilt Pn00 ⇒ P und damit nach dem Folgenkriterium Pn ⇒ P. fidi-Konvergenz zusammen mit Folgenkompaktheit ist also eine Lösung. Wir benötigen nun praktikable Charakterisierungen der Folgenkompaktheit für die Räume C(I) und D(I), um die Verteilungskonvergenz auf diesen Räumen zu beschreiben. Vorher erwähnen wir noch den Zusammenhang zur Straffheit. Eine Menge P von Wahrscheinlichkeitsmaßen heißt straff, wenn es zu jedem ε > 0 eine kompakte Menge K = K(ε) gibt, so dass P (K) > 1 − ε, ∀P ∈ P. Ein Prozess {Xn } heißt straff, wenn die zugehorige Menge der Verteilung {PXn } straff ist, also wenn es zu jedem ε > 0 eine kompakte Menge K gibt, so dass P (Xn ∈ K) > 1 − ε, ∀n ≥ 1. Dies bedeutet, dass sich die Pfade gleichmäßig in n mit beliebig großer Wahrscheinlichkeit in einer kompakten Menge einfangen lassen. Satz 7.6. (Prohorov) Es gelten die folgenden Aussagen: 117 (a) Ist P straff, dann ist P folgenkompakt. (b) Ist M separabel und vollständig, dann gilt: Ist P folgenkompakt, dann ist P straff. 3.1. Verteilungskonvergenz im Raum C[a, b]. Die Charakterisierung der relativ kompakten Mengen liefert der Satz von Arzelà-Ascoli. Hierzu definieren wir den Stetigkeitsmodul wf (δ; I) = sup |f (s) − f (t)| |s−t|<δ, s,t∈I als supremale Schwankung von f für s, t ∈ I mit |s − t| < δ. Satz 7.7. Eine Teilmenge K ⊂ C[a, b] hat kompakten Abschluss genau dann, wenn sup |f (0)| < ∞ f ∈K und lim sup wf (δ) = 0. δ→0 f ∈K Dies liefert: Satz 7.8. {Xn } ist straff, wenn {Xn (0)} straff ist und für jedes ε > 0 ein δ ∈ (0, 1) und ein n0 ∈ N existiert, so dass ! (18) P sup |Xn (s) − Xn (t)| ≥ ε ≤ η. t≤s≤min(1,t+δ) für alle n ≥ n0 und 0 ≤ t ≤ 1. Hinreichend für (17) ist die Existenz von γ ≥ 0 und α > 1, so dass für eine nichtfallende stetige Funktion F : I → R gilt: (19) P (|Xn (t1 ) − Xn (t2 )| ≥ ε) ≤ |F (t2 ) − F (t1 )|α εγ für alle t1 , t2 , n ≥ 1, sowie ε > 0. Hinreichend für (19) ist die Momentebedingung (20) E|Xn (t2 ) − Xn (t1 )|γ ≤ |F (t2 ) − F (t1 )|α , die wiederum mit F (t) = t, γ = 4, α = 2 erfüllt ist, wenn (21) E(Xn (t2 ) − Xn (t1 ))4 = O(|t2 − t1 |2 ). 118 3.2. Verteilungskonvergenz im Raum D[a, b]. Die Kompaktheit einer Menge K ⊂ D(I), I = [a, b], wird beschrieben durch den Modul wf0 (δ; I) = inf max wf (δ, [ti−1 , ti ]) {ti } 0<i≤r wobei das Infimum über alle endlichen Mengen {ti } mit a = t0 < · · · < tr = b und ti − ti−1 > δ sowie r ∈ N genommen wird. Eine Funktion f : I → R ist genau dann ein Element von D[a, b], wenn limδ→0 wf (δ; I) = 0. Satz 7.9. Eine Menge K ⊂ D[a, b] hat kompakten Abschluss in der Skorokhod-Topologie genau dann, wenn K gleichgradig beschränkt ist, sup sup |f (t)| < ∞, f ∈K t und lim wf0 (δ) = 0. δ→0 Sei TX = {t ∈ [a, b] : P (X(t) 6= X(t−)) = 0} die Menge aller Punkte, in denen X f.s. stetig ist. Es gilt stets 0, 1 ∈ TX . Satz 7.10. Es gilt Xn ⇒ X, in (D[a, b], d) genau dann, wenn d (Xn (t1 ), . . . , Xn (tk )) → (X(t1 ), . . . , X(tk )) für alle t1 , . . . , tk ∈ TX (Stetigkeitsstellen des Grenzprozesses), P (X(1) 6= X(1−)) = 0, und wenn für alle ε > 0 [F (t2 ) − F (t1 )]2α ε2γ für alle t1 ≤ t ≤ t2 , n ≥ 1, mit Konstanten γ ≥ 0 und α > 1/2 und einer nicht-fallenden (22) P (|Xn (t1 ) − Xn (t)| ≥ ε, |Xn (t2 ) − Xn (t)| ≥ ε) ≤ Funktion F (t). Hinreichend für (21) ist (23) E|Xn (t) − Xn (t1 )|γ |Xn (t2 ) − Xn (t)|γ ≤ [F (t2 ) − F (t1 )]2α 119 Oftmals ist jedoch das im folgenden Abschnitt zitierte einfache und elegante hinreichende Kriterium für Prozesse mit beschränkten Pfaden anwendbar. 3.3. Verteilungskonvergenz in l∞ . Für den Raum l∞ beschränken wir uns auf ein einfaches hinreichendes Momenten-Kriterium für die schwache Konvergenz, welches zusätzlich die Stetigkeit des Grenzprozesses liefert. Satz 7.11. (van der Vaart und Wellner, 1996) Sei {Xn (t) : t ∈ [a, b]} ein stochastischer Prozess mit Pfaden in l∞ . Für die Inkremente gelte die Momente-Bedingung E|Xn (s) − Xn (t)|p ≤ K|s − t|r+1 für Konstanten p, K, r > 0, unabhängig von n. Gilt zusätzlich f idis Xn → X, dann existiert eine Version von X mit stetigen Pfaden und Xn konvergiert schwach gegen X: Xn ⇒ X, n → ∞. 3.4. Der Satz von Skorokhod/Dudley/Wichura, Skorokhod-Konstruktion. I.F. sei der metrische Raum (M, d) versehen mit der σ-Algebra, die von den offenen Bällen erzeugt wird. (Für den Skorokhod-Raum (D(I), d) ist diese σ-Algebra identisch mit der Borel-σ-Algebra.) Satz 7.12. Es gelte in (M, d) Xn ⇒ X, n → ∞, und P (X ∈ M0 ) = 1, für eine messbare und separable Teilmenge M0 ⊂ M . Dann existiert ein Wahrscheinlichkeitsraum (Ω∗ , A∗ , P ∗ ) und X ∗ , Xn∗ : Ω∗ → M mit Verteilungen PX∗ n∗ = PXn und PX∗ ∗ = PX , also äquivalente Prozesse Xn∗ ≡ Xn , X ∗ ≡ X, so dass d(Xn∗ , X) f.s. messbar ist und f.s. d(Xn∗ , X) → 0, 120 n → ∞. Wir werden diesen Satz in der folgenden Situation anwenden: Gilt im Skorokhod-Raum Xn ⇒ X, n → ∞, und ist X f.s. stetig, d.h. X ∈ C(I) mit Wahrscheinlichkeit 1, dann gilt für verteilungsgleiche Prozesse Xn∗ , X ∗ fast sichere Konvergenz in der Skorokhod-Metrik, d(Xn∗ , X ∗ ) → 0, n → ∞. Da X ∗ ∈ C f.s., gilt sogar f.s. kXn∗ − X ∗ k∞ → 0, n → ∞. Angenommen, man kann hieraus für eine interessierende Funktion f folgern kf (Xn∗ ) − f (X ∗ )k∞ → 0, n → ∞, zumindest in Wahrscheinlichkeit. Folgt dann schon f (Xn∗ ) ⇒ f (X ∗ ), n → ∞, und damit - wegen der Verteilungsgleichheit der ∗-Versionen zu den Originalprozessen, f (Xn ) ⇒ f (X), n→∞ ? Die Antwort ist positiv. Corollary 3.1. X sei auf eine separable Teilmenge M0 ⊂ M konzentriert, d.h. P (X ∈ M0 ) = 1. Dann sind äquivalent: (i) Xn ⇒ X, n → ∞. f.s. (ii) d(Xn∗ , X ∗ ) → 0, n → ∞, für äquivalente Prozesse Xn∗ ≡ Xn und X ∗ ≡ X. P (iii) d(Xn∗∗ , X ∗∗ ) → 0, n → ∞, für äquivalente Prozesse Xn∗∗ ≡ Xn , X ∗∗ ≡ X. 121 Ergänzungen Maße auf metrischen Räumen. Sei (M, d) ein metrischer Raum versehen mit der Borel-σ-Algebra B = B(M ). Satz 7.13. Jedes Wahrscheinlichkeitsmaß auf M ist regulär, d.h. zu jeder messbaren Menge A und jedem ε > 0 gibt es eine abgeschlossene Menge F und eine offene Menge G, so dass (∗) F ⊂A⊂G und (∗∗) P (G − F ) ≤ ε. Beweis. Sei G = {A ∈ B : A regulär }. Natürlich sind alle abgeschlossenen Mengen A in G, da man in diesem Fall F = A und für G eine ’offene δ-Erweiterung’ G = {x ∈ M : d(x, A) < δ} wählen kann. Wenn G eine σ-Algebra ist, folgt G = B. Wir verifizieren: (i) G ist abgeschlossen bzgl. der Komplementbildung. (ii) G ist abgeschlossen bzgl. abzählbarer Vereinigungen. (i) ist klar. (ii) sieht man wie folgt: Sei An eine Folge aus G und Fn abgeschlossen und Gn offen mit Fn ⊂ An ⊂ Gn und P (Gn − Fn )leε/2n+1 . Setze F = ∪n≤n0 Fn , G = ∪n Gn Dann ist F abgeschlossen und G offen. Wegen Fn ⊂ An gilt F = ∪n≤n0 Fn ⊂ ∪n≤n0 An ⊂ ∪n An und wegen An ⊂ Gn ∪n An ⊂ ∪n Gn = G. 122 Da Gn = Fn + (Gn − Fn ) folgt P (G − F ) = P (∪n Gn − F ) ≤ P (∪n Fn − F ) + P (∪n (Gn − Fn ) − F ) ≤ ε/2 + P (∪n (Gn − Fn )) X ≤ ε/2(1 + 1/2n ) = 3/2 ε. n 123