Stochastische Populationsmodelle Andrej Depperschmidt Vorlesungsskript Universität Freiburg Wintersemester 2011 Version: 12. November 2012 1 Bienaymé-Galton-Watson-Prozess Bienaymé-Galton-Watson-Prozess ist der älteste und der einfachste Verzweigungsprozess. F. Galton betrachtete das Aussterben von Familiennamen und veröffentlichte zusammen mit H.W. Watson in 1984 die Arbeit On the probability of extinction of families. Erst 1972 fand man heraus, dass I.J. Bienaymé dasselbe Problem schon 1845 betrachtete. Aus diesem Grund sind mittlerweile beide Bezeichnungen, d.h. sowohl Galton-Watson, als auch Bienaymé-Galton-Watson-Prozess im Gebrauch. Man kann ein Bienaymé-Galton-Watson-Prozess (BGWP) wie folgt beschreiben: Wir starten mit einem Individuum. Es lebt genau eine Zeiteinheit und hinterlässt nach seinem Tod Nachkommen dessen Anzahl gemäß einer festgelegten Verteilung auf N0 verteilt ist. Dann verhalten sich die Nachkommen wie unabhängige Kopien (auch unabhängig vom Vorfahr) ihres Vorfahren, d.h. jeder von denen lebt genau eine Zeiteinheit und hinterlässt Nachkommen gemäß derselben Verteilung. Deren Nachkommen verhalten sich wieder wie unabhängige Kopien des Vorfahren u.s.w. In diesem Kapitel definieren wir den BGWP und studieren die Aussterbebzw. die Überlebenswahrscheinlichkeiten und das asymptotische Verhalten in Abhängigkeit der Nachkommensverteilung. 1.1 Definition und elementare Eigenschaften Hier definieren wir den Bienaymé-Galton-Watson-Prozess (BGWP) und diskutieren die ersten elementaren Eigenschaften. Definition 1.1 (BGWP). Es sei Z0 eine N0 -wertige Zufallsvariable und sei {ξnk : n ∈ N0 , k ∈ N} eine Familie von unabhängigen und identisch verteilten (u.i.v.) Zufallsvariablen mit Verteilung pj = P[ξnk = j], j ∈ N0 . Der Bienaymé-Galton-Watson-Prozess (auch Verzweigungsprozess) mit Start in Z0 und Nachkommensverteilung {pj : j ∈ N0 } ist eine Markovkette (Zn )n≥0 die durch Zn+1 = Zn X ξnk , n≥0 (1.1) k=1 rekursiv definiert ist. Ferner definieren wir m := E[ξ11 ] und σ 2 := Var[ξ11 ]. Wir nennen einen BGWP superkritisch falls m > 1, kritisch falls m = 1, und subkritisch falls m < 1 ist (diese Bezeichnungen werden später klar). Wir werden stets m < ∞ annehmen, σ 2 = ∞ ist dagegen bei manchen Resultaten möglich. In der obigen Definitionen interpretieren wir Zn als die Populationsgröße zur Zeit n und ξnk als die Anzahl der Nachkommen des k-ten Individuums der n-ten Generation. Wie schon erwähnt ist (Zn )n≥0 eine Markovkette. Die zugehörigen Übergangswahrscheinlichkeiten sind ( p∗i falls i ≥ 1, j ≥ 0 j pij := P[Zn+1 = j|Zn = i] = (1.2) δ0j falls i = 0, j ≥ 0, 2 1 Bienaymé-Galton-Watson-Prozess wobei δij das Kronecker-Delta ist und {p∗i j : j = 0, 1, . . . } die i-fache Faltung von {pj : j = 0, 1, . . . } bezeichnet. Der Erweiterungssatz von Kolmogorov garantiert die Existenz eines Wahrscheinlichkeitsraumes (Ω, F, P) auf dem man die Folge (Zn )n≥0 definieren kann. Wir bezeichnen mit (Fn )n≥0 die natürliche Filtration von (Zn )n≥0 , d.h. Fn = σ(Zk : 0 ≤ k ≤ n). Falls wir den Anfangswert der Population betonen möchten, schreiben wir oft Pi für die Verteilung von (Zn )n≥0 wenn Z0 = i ist. Den zugehörigen Erwartungswert und die Varianz bezeichnen wir dann entsprechend mit Ei bzw. Vari . Bemerkung 1.2 (Triviale Spezialfälle). Falls pj = 1 für ein j ∈ N0 ist, dann ist (bis auf möglicherweise zufällige Anfangsverteilung) die Markovkette (Zn ) deterministisch: jedes Individuum stirbt nach einer Zeiteinheit und bekommt j Nachkommen mit Wahrscheinlichkeit 1. Falls p0 , p1 ∈ (0, 1) und p0 + p1 = 1 ist, dann ist die Evolution der Population auch nicht interessant, denn dann stirbt jede der Z0 ursprünglichen Familien nach jeweils einer geometrischen Anzahl von Versuchen mit Parameter p0 aus. Annahme 1.1. Im Folgenden nehmen wir stets an, dass pj 6= 1 für alle j und p0 + p1 < 1 gilt. Bemerkung 1.3 (Additivität). Wegen der Unabhängigkeit ist Z0 X Zn = Zn(j) , j=1 (j) wobei Zn die Nachkommen des j-ten Individuums der 0-ten in der n-ten Generation sind. Damit ist (Zn )n≥0 Summe von Z0 u.i.v. BGWP die jeweils in 1 starten. Daher nehmen wir im Folgenden meistens Z0 = 1 an. Allgemeine Resultate folgen oft aus diesem Spezialfall. Beispiel 1.4 (binäres Verzweigen). Es sei p ∈ (0, 1) und sei p0 = 1 − p und p2 = p, dann gilt ( 0 falls k ungerade, Pj [Z1 = k] = j k/2 (1 − p)j−k/2 falls k gerade, k/2 p wobei j i = 0 ist wenn i > j. Mit k0 = 1/2 (so lässt sich die Formel kompakter schreiben) gilt n Y 2ki−1 p P1 [Z1 = 2k1 , Z2 = 2k2 , . . . , Zn = 2kn ] = ki 1−p Pn i=1 ki (1 − p)2 Pn−1 i=0 ki . i=1 1.2 Erzeugende Funktionen In diesem Abschnitt erinnern wir an die wahrscheinlichkeitserzeugenden Funktionen, die genauso wie momentenerzeugende und charakteristische Funktionen eine wichtige Rolle in der Wahrscheinlichkeitstheorie spielen, und sich besonders gut für die Analyse von Verzweigungsprozessen eignen. Definition 1.5 (erzeugende Funktion). Es sei X eine N0 -wertige Zufallsvariable. Dann ist die (wahrscheinlichkeits)erzeugende Funktion definiert durch X gX (t) := E[t ] = ∞ X P[X = k]tk , t ∈ [0, 1]. k=0 3 (1.3) 1 Bienaymé-Galton-Watson-Prozess Lemma 1.6. Es sei X eine N0 -wertige ZV mit E[X] < ∞, dann gilt 0 E[X] = gX (1) und 00 0 0 Var[X] = gX (1) + gX (1) − (gX (1))2 , wobei die letzte Gleichung in dem Sinne gilt, dass wenn die eine Seite endlich ist, dann ist 00 (t) → ∞ für t ↑ 1 falls auch die andere endlich und die beiden sind gleich. Insbesondere gilt gX Var[X] = ∞. Beweis. Für t ∈ (0, 1) gilt 0 gX (t) = ∞ X k P[X = k]tk−1 −−→ t↑1 k=1 ∞ X k P[X = k] = E[X]. k=1 Der Beweis der zweiten Formel ist eine Übungsaufgabe. Lemma 1.7. Es seien X1 , X2 , . . . u.i.v. N0 -wertige ZV mit erzeugender Funktion gX und sei PY Y auch N0 -wertig und unabhängig mit erzeugender Funktion gY . Mit S = k=1 Xk gilt gS (t) = gY ◦ gX (t), t ∈ [0, 1], E[S] = E[X1 ]E[Y ], Var[S] = Var[X1 ]E[Y ] + E2 [X1 ] Var[Y ], wobei die letzten zwei Gleichungen in dem Sinne gelten, dass wenn die eine Seite endlich ist, dann ist auch die andere endlich und die beiden sind gleich. Beweis. Wir zeigen nur die erste Gleichung. Die beiden anderen (bekannten) Gleichungen können daraus mit Hilfe von Lemma 1.6 gefolgert werden. Es gilt S PY gS (t) = E[t ] = E[t = k=1 Xk ]= ∞ X Pj E[t ∞ X j=0 ∞ X j=0 j=0 (E[tX1 ])j P[Y = j] = k=1 Xk ]P[Y = j] = j ∞ Y X E[tXk ]P[Y = j] j=0 k=1 (gX (t))j P[Y = j] = gY (gX (t)). Nun betrachten wir die erzeugenden Funktionen von Zn . Dazu setzen wir gn (t) = E1 [tZn ] und g(t) = g1 (t) = gξ11 (t), wobei ξ11 wie in Definition 1.1 ist. Wenden wir Lemma 1.7 auf (1.30) an, so erhalten wir gn = gn−1 ◦ g = · · · = g ◦ gn−1 E[Zn ] = mE[Zn−1 ] Var[Zn ] = σ 2 E[Zn−1 ] + m2 Var[Zn−1 ]. Rekursiv erhält man daraus das folgende Theorem. 4 1 Bienaymé-Galton-Watson-Prozess Theorem 1.8. Wenn Z0 = 1 ist, dann ist die erzeugende Funktion von Zn gegeben durch g ◦ · · · ◦ g (n mal) und es gilt E[Zn ] = mn , ( 2 σ Var[Zn ] = (1.4) mn−1 (mn −1) m−1 nσ 2 falls m 6= 1, falls m = 1. (1.5) Beweis. Bis auf die Formel für die Varianz sind alle Aussagen klar. Für die Varianz kann man sich überlegen, dass Var[Zn ] = σ 2 (mn−1 + · · · + m2n−2 ) = σ 2 mn−1 n−1 X mk k=0 gilt. Mit der Formel für die (endliche) geometrische Summe erhält man die Behauptung. Lemma 1.9 (Eigenschaften von g). Unter der Annahme 1.1 (die ab jetzt stillschweigend vorausgesetzt wird) gilt (i) g ist strikt konvex und wachsend in [0, 1]; (ii) g(0) = p0 , g(1) = 1; (iii) ist m ≤ 1, so gilt g(t) > t für t ∈ [0, 1); (iv) ist m > 1, dann hat g(t) = t genau eine Lösung in [0, 1). P Beweis. (i) Wegen pk ≥ 0 und ∞ 1 ist nach Annahme pk > 0 für ein k ≥ 2. Damit k=0 pk = P P ∞ k−2 positiv auf (0, 1]. k−1 und g 00 (t) = p kt sind g 0 (t) = ∞ k=2 pk k(k − 1)t k=1 k (ii) ist klar. (iii) Wenn g 0 (1) = m ≤ 1 ist, dann gilt (g(t) − t)0 = g 0 (t) − 1 < g 0 (1) − 1 ≤ 0. Damit ist t 7→ g(t) − t strikt fallend und wegen g(1) = 1 folgt g(t) > t für t ∈ [0, 1). (iv) Wegen Konvexität gibt es höchstens zwei Lösungen der Gleichung g(t) = t. Eine davon ist in t = 1. Aus g 0 (1) > 1 und g(0) = p0 ≥ 0 folgt, dass es noch eine Lösung in [0, 1) gibt. Es sei q die kleinste Lösung der Gleichung g(t) = t in [0, 1], dann gilt nach dem obigen Lemma: Ist m ≤ 1, dann ist q = 1; ist m > 1, dann ist q < 1. Nach dem folgenden Lemma ist q ein attraktiver Gleichgewicht des, durch g definierten, dynamischen Systems xn+1 = g(xn ), x0 ∈ [0, 1]. Lemma 1.10. (i) Ist t ∈ [0, q), so gilt gn (t) ↑ q für n → ∞, (ii) Ist t ∈ (q, 1), so gilt gn (t) ↓ q für n → ∞, (iii) Ist t ∈ {q, 1}, so gilt gn (t) = t für alle n. 5 1 Bienaymé-Galton-Watson-Prozess Beweis. Teil (iii) ist klar, also zeigen wir (i) und (ii). Für 0 ≤ t < q gilt nach Lemma 1.9 t < g(t) < g(q) und es folgt t < g1 (t) < g2 (t) < · · · < gn (t) < gn (q) = q für alle n ≥ 1. Damit gilt gn (t) ↑ L für ein L ≤ q. Da g stetig ist gilt aber L = limn→∞ gn (t) = limn→∞ gn+1 (t) = g (limn→∞ gn (t)) = g(L). Nach Voraussetzung ist q die kleinste Lösung in [0, 1] und somit gilt L = q. Ist nun q < t < 1, dann zeigt man mit einem ähnlichen Argument, dass 1 > gn (t) ↓ L ≥ q ist und L = g(L). Nach Lemma 1.9 gibt es in (q, 1) keine weitere Lösungen, was L = q impliziert. 1.3 Aussterbewahrscheinlichkeit Definition 1.11. Das Aussterbeereignis des Verzweigungsprozesses (Zn )n≥0 ist definiert durch ∞ \ ∞ o n [ n→∞ Q := {Zk = 0} = Zn −−−→ 0 = { es gibt ein N mit Zn = 0 für alle n ≥ N } n=1 k=n und die dessen Wahrscheinlichkeit heißt die Aussterbewahrscheinlichkeit. Da aus Zk = 0 stets Zn = 0 für n ≥ k folgt, gilt auch (Übungsaufgabe!) Q= ∞ [ {Zn = 0}. n=1 Damit ist P[Q] = n→∞ lim P = lim n→∞ " n [ # {Zk = 0} = lim k=1 n→∞ P [Zk = 0 für ein 1 ≤ k ≤ n] P[Zn = 0] = n→∞ lim gn (0). Es gilt also das folgende Theorem. Theorem 1.12. Die Aussterbewahrscheinlichkeit des Verzweigungsprozesses (Zn )n≥0 ist die kleinste Lösung q von g(t) = t in [0, 1]. Dabei ist q = 1, wenn m ≤ 1 und q < 1 wenn m > 1. Außerdem kann man sich überlegen, dass bis auf den absorbierenden Zustand 0 alle Zustände eines Verzweigungsprozesses transient sind. Für k ≥ 1 gilt nämlich ( pk falls p0 > 0, P[Zn+i 6= k, i ≥ 1|Zn = k] ≥ 0 k 1 − p1 falls p0 = 0. Hier ist pk0 die Wahrscheinlichkeit, dass alle k Individuen in einem Schritt aussterben ohne Nachkommen zu produzieren und 1 − pk1 ist die Wahrscheinlichkeit, dass mindestens einer der k Individuen mehr als einen Nachkommen hat. In jedem Fall ist die rechte Seite im letzten Display positiv, was die Transienz zeigt. Wir fassen das Resultat im nächstem Theorem zusammen. Theorem 1.13. Für alle k ≥ 1 gilt (u.o. steht unten für unendlich oft) lim n→∞ P[Zn = k] = P[Zn = k u.o. ] = 0. Ferner gilt P[n→∞ lim Zn = 0] = 1 − P[ lim Zn = ∞] = q. n→∞ 6 1 Bienaymé-Galton-Watson-Prozess 1.4 Kritische Verzweigungsprozesse Hier betrachten wir genauer den kritischen Fall m = 1. Wir wissen bereits, dass P[Zn → 0] = 1, E[Zn ] = 1, Var[Zn ] → ∞. Ist also Zn nicht 0 sollte man wegen der großen Varianz auch große Werte erwarten. Lemma 1.14. Es sei m = 1 und σ 2 < ∞. Dann gilt 1 σ2 1 1 = lim − n→∞ n 1 − gn (s) 1−s 2 (1.6) gleichmäßig in s ∈ [0, 1). Beweis. Es sei s ∈ [0, 1). Mit Taylorentwicklung in 1 gilt g(s) = g(1) + g 0 (1)(s − 1) + g 00 (1) (1 − s)2 + r(s)(1 − s)2 , 2 für ein r mit lims↑1 r(s) = 0. Mit g(1) = 1, g 0 (1) = m = 1 und σ 2 = g 00 (1)+g 0 (1)−(g 0 (1))2 = g 00 (1) (siehe Lemma 1.6) erhalten wir g(s) = s + σ2 (1 − s)2 + r(s)(1 − s)2 . 2 Es folgt 2 σ (1 − s)2 + r(s)(1 − s)2 1 1 g(s) − s − = = 2 1 − g(s) 1 − s (1 − g(s))(1 − s) (1 − g(s))(1 − s) 2 σ σ2 1−s + r(s) = + ρ(s), = 1 − g(s) 2 2 wobei 1 1 σ2 1−s ρ(s) := − − = 1 − g(s) 1 − s 2 1 − g(s) σ2 σ2 + r(s) − →0 2 2 für s ↑ 1. Wir können diese Gleichung iterieren und erhalten n−1 1 1 1 1X 1 1 − = − n 1 − gn (s) 1 − s n 1 − g(gj (s)) 1 − gj (s) j=0 n−1 = σ2 1X + ρ(gj (s)). 2 n j=0 Da gn (0) ≤ gn (s) ≤ 1 und gn (0) ↑ 1 ist die Konvergenz gn (s) → 1 uniform in s ∈ [0, 1). Da ρ beschränkt ist folgt die Behauptung. 7 1 Bienaymé-Galton-Watson-Prozess Theorem 1.15. Ist m = 1 und σ 2 < ∞, so gilt 2 , n→∞ σ2 Zn σ2 (ii) lim E |Zn > 0 = , n→∞ n 2 Zn 2 (iii) lim P ≤ u|Zn > 0 = 1 − e−2u/σ , u ≥ 0. n→∞ n (i) lim nP[Zn > 0] = Beweis. (i) Mit s = 0 in (1.6) gilt nP[Zn > 0] = n(1 − gn (0)) = 1 1 1 −1 2 −1 + → 2. n 1 − gn (0) n σ (ii) Allgemein gilt für Verzweigungsprozesse E[Zn ] = E[Zn |Zn > 0]P[Zn > 0] + 0 · P[Zn = 0] und somit E[Zn |Zn > 0] = E[Zn ]/P[Zn > 0]. Damit und mit (i) erhalten wir σ2 1 Zn |Zn > 0 = → . E n nP[Zn > 0] 2 (iii) Wir haben zu zeigen, dass bedingt auf Zn > 0 die Folge Zn /n gegen eine exponentiell verteilte Zufallsvariable mit Parameter 2/σ 2 in Verteilung konvergiert. Dazu reicht es zu zeigen, dass die bedingte Laplace-Transformierte E [exp(−uZn /n)|Zn > 0] gegen die Laplace-Transformierte der Exponentialverteilung mit Parameter 2/σ 2 konvergiert. Letztere ist gegeben durch Z ∞ 2 2 1 u 7→ e−ux 2 e− σ2 x dx = . σ 1 + uσ 2 /2 0 Wenn u = 0 ist, dann ist nichts zu zeigen. Für u > 0 gilt gn (exp(−u/n)) = E exp(−u/n)Zn = E [exp(−uZn /n)] = E [exp(−uZn /n)|Zn > 0] P[Zn > 0] + 1 · P[Zn = 0] = E [exp(−uZn /n)|Zn > 0] (1 − gn (0)) + gn (0). Nun können wir nach dem bedingten Erwartungswert auflösen und erhalten E [exp(−uZn /n)|Zn > 0] = 1 − gn (exp(−u/n)) gn (exp(−u/n)) − gn (0) =1− . 1 − gn (0) 1 − gn (0) Den zweiten Term können wir wie folgt umschreiben −1 1 1 1 · n(1 − gn (0)) n 1 − gn (exp(−u/n)) −1 1 1 1 1 1 1 = − + · n(1 − gn (0)) n 1 − gn (exp(−u/n)) 1 − exp(−u/n) n 1 − exp(−u/n) −1 2 σ2 1 σ2u 1 n→∞ σ −−−→ + = 2 =1− 2 . 2 2 u σ u+2 σ u/2 + 1 8 1 Bienaymé-Galton-Watson-Prozess Damit folgt 1 n→∞ E [exp(−uZn /n)|Zn > 0] −−−→ σ 2 u/2 +1 . 1.5 Wichtiges Lemma Bevor wir mit den Sub- und Superkritischen Fällen weitermachen beweisen wir hier ein Lemma, das im Folgenden wichtig sein wird. Dazu betrachten wir die Taylorentwicklung von g um 1: g(s) = 1 − m(1 − s) + r(s)(1 − s), 0 ≤ s ≤ 1. (1.7) Es gilt 1 − g(s) , 1−s r(0) = m − (1 − p0 ) ≥ 0, r(s) = m − r(q) = m − 1, wenn q < 1, r(1−) = 0, und r0 (s) ≤ 0, 0 ≤ s < 1. Damit ist r eine fallende Funktion von [0, 1) nach [0, m]. Lemma 1.16. Für alle δ ∈ (0, 1) gilt ∞ X r(1 − δ k ) < ∞ ⇐⇒ k=1 ∞ X pk k log k < ∞. (1.8) k=1 Die Bedingung auf der rechten Seite ist gleichbedeutend mit E1 [Z1 log Z1 ] < ∞. Beweis. Für s ∈ [0, 1) gilt r(s) = m − =m− ∞ X n=0 ∞ X n=0 ∞ X ! sn 1− n ∞ X n X n=0 k=0 pk s k k=0 s + ! pk an = k=n+1 9 s =m− ∞ X n=0 wobei ∞ X n pk . an s n , 1 Bienaymé-Galton-Watson-Prozess P −αx = δ x ) und Man beachte auch, dass ∞ n=0 an = m ist. Wir schreiben α = − log δ (sodass e fixieren ein j ∈ N, j > 1. Einerseits erhalten wir durch Abschätzung des Integrals durch die Untersumme Z j j j X X r(1 − e−αx ) dx ≥ r(1 − δ) + r(1 − δ k ) = r(1 − δ k ). r(1 − δ) + 1 k=2 k=1 Da die letzte Summe aber die Obersumme enthält folgt andererseits auch Z j j X k r(1 − e−αx ) dx. r(1 − δ ) ≥ 1 k=1 Nach Substitution s = 1 − e−αx folgt Z j Z j 1 1−δ r(s) −αx r(1 − e ) dx = ds. α 1−δ 1 − s 1 Insgesamt ist also 1 r(1 − δ) + α Z j 1−δ j X r(s) 1 ds ≥ r(1 − δ k ) ≥ 1−s α 1−δ Z k=1 1−δ j 1−δ r(s) . 1−s Da diese Ungleichung für alle j > 1 und δ > 0 gilt folgt Z 1 ∞ X r(s) k r(1 − δ ) < ∞ ⇐⇒ ds < ∞. 0 1−s k=1 Als nächstes schauen wir uns an, wann die rechte Seite endlich ist. Es gilt ∞ ∞ ∞ ∞ X X X X r(s) k n k = s (m − an s ) = s an (1 − sn ) 1−s = k=0 ∞ X n=0 an n=0 ∞ X (sk − sk+n ) = k=0 ∞ X n=0 k=0 n=0 n−1 X an sk k=0 und damit Z 1 0≤ 0 r(s) ds = 1−s Z ∞ 1X n−1 X an s 0 n=0 k=0 ∞ n−1 X X k ds ∞ X 1 = an (log n + O(1)). k+1 n=0 n=1 k=0 P∞ Die rechte Seite ist genau dann endlich, wenn n=1 an log n endlich ist. Es gilt = ∞ X an log n = n=1 an ∞ X X pk log n n=1 k>n = ∞ X k=2 = ∞ X pk k−1 X log n = n=1 ∞ X pk log ((k − 1)!) k=2 pk [(k − 1) log(k − 1) + o(k log k)] . k=2 10 1 Bienaymé-Galton-Watson-Prozess √ Wobei man die letzte Gleichung mit der Stirling-Formel (n! ∼ 2πn(n/e)n ) bekommt. Insgesamt P∞ P erhalten wir, dass n=1 an log n genau dann endlich ist, wenn ∞ k=1 pk k log k endlich ist. 1.6 Subkritische Verzweigungsprozesse In diesem Abschnitt betrachten wir den subkritischen Fall m < 1. Wenn wir die Taylorentwicklung von g um 1 (siehe (1.7)) auf gk (s) anwenden, dann erhalten wir gk+1 (s) = g(gk (s)) = 1 − m(1 − gk (s)) + r(gk (s))(1 − gk (s)), (1.9) bzw. 1 − gk+1 (s) r(gk (s)) . =m 1− 1 − gk (s) m (1.10) Teleskopprodukt dieser Gleichungen liefert n−1 Y 1 − gn (s) r(gk (s)) = mn 1− . 1−s m (1.11) k=0 Da 0 ≤ r(s)/m ≤ 1 für s ∈ [0, 1] ist, gibt es zu jedem s ∈ [0, 1] ein φ(s) ≥ 0 mit 1 − gn (s) ↓ φ(s), für n → ∞. 1−s (1.12) P[Zn > 0] = 1 − gn (0) ∼ mn φ(0), (1.13) m−n Insbesondere ist wobei wir wie üblich an ∼ bn schreiben, falls an /bn → 1 für n → ∞. Ein nützliches und leicht zu beweisendes Kriterium, das Konvergenz von Reihen und Produkten in Verbindung bringt ist das folgende Resultat (Übung!). Q Lemma 1.17. Es sei (an )n≥0 eine Folge mit 0 P ≤ an ≤ 1. Dann konvergiert ∞ n=1 (1 − an ) genau ∞ dann gegen eine positive Zahl, wenn die Reihe n=1 an konvergiert. P Mit diesem Lemma gilt φ(0) > 0 genau dann, wenn ∞ k=0 r(gk (0)) < ∞. Aus 1 − g(s) ≤ m(1 − s) (was z.B. aus (1.7) folgt) erhalten wir induktiv 1 − gk (s) ≤ mk (1 − s) für alle k. Aus der Konvexität von g folgt für s ≥ s0 1 − g(s) ≥ g 0 (s0 ), 1−s woraus wir induktiv 1 − gk (s) ≥ (g 0 (s0 ))k (1 − s) erhalten. Mit s0 = p0 (was zwangsläufig positiv im subkritischen Fall ist) und a = g 0 (p0 ) folgt 1 − mk ≤ gk (0) = gk−1 (g(0)) = gk−1 (p0 ) ≤ 1 − ak−1 (1 − p0 ) ≤ 1 − bk , P wobei bk = a ∧ (1 − p0 ) ist. Nach Lemma 1.16 gilt also ∞ k=0 r(gk (0)) < ∞ genau dann, wenn P ∞ p k log k < ∞ ist. Es gilt also das folgende Theorem. k=1 k 11 1 Bienaymé-Galton-Watson-Prozess Theorem 1.18. Für einen subkritischen Verzweigungsprozess (Zn )n≥0 gilt ( P∞ 0 : wenn −n k=1 pk k log k = ∞, lim m P[Zn > 0] = n→∞ φ(0) > 0 : sonst. Nun beweisen wir noch das Theorem von Yaglom, das eine Aussage über das Verhalten des subkritischen Prozesses zur Zeit n macht bedingt auf Überleben bis zu dieser Zeit. Theorem 1.19. Im subkritischen Fall (mit p0 < 1) existiert lim n→∞ P[Zn = k|Zn > 0] = bk , (1.14) für alle k ∈ N, und es gilt ∞ X bk = 1, (1.15) k=1 ∞ X ∞ X 1 < ∞ ⇐⇒ kbk = pk k log k < ∞. φ(0) k=1 k=1 P Ferner gilt für die erzeugende Funktion f (s) := ∞ k=1 kbk der Verteilung (bk : k ∈ N): (1.16) f (g(s)) = mf (s) + 1 − m. Beweis. Wir definieren fn (s) = E[sZn |Zn > 0] = = 1 − (1 − s) n−1 Y k=0 1 − gn (s) gn (s) − gn (0) =1− 1 − gn (0) 1 − gn (0) 1 − r(gk (s))/m 1 − r(gk (0))/m da gk nicht-fallend und r nicht-wachsend sind, konvergieren die Terme in dem Produkt von oben gegen 1 für k → ∞. Es gibt also eine Funktion f mit fn ↑ f für n → ∞. Da fn erzeugende Funktionen (von positiven ZV) sind gilt f (s) = ∞ X bk sk . k=1 Insbesondere ist f (0) = 0. Ferner gilt für n → ∞ fn (gk (0)) = 1 − 1 − gn (gk (0)) 1 − gk (gn (0)) =1− → 1 − mk . 1 − gn (0) 1 − gn (0) Die rechte Seite konvergiert gegen 1 und somit (da gk (0) → 1 gilt) f (1−) = 1, was (1.15) zeigt. Die Aussage (1.16) folgt mit Theorem 1.18 aus ∞ X k=1 kbk = f 0 (1−) = lim k→∞ 1 − f (gk (0)) 1 1 = lim mk = . k→∞ 1 − gk (0) 1 − gk (0) φ(0) Schließlich folgt die letzte Aussage aus fn (g(s)) = 1 − 1 − gn+1 (s) 1 − g(gn (0)) 1 − g(gn (0)) · = 1 − (1 − fn+1 (s)) · → 1 − (1 − f (s))m. 1 − gn+1 (0) 1 − gn (0) 1 − gn (0) 12 1 Bienaymé-Galton-Watson-Prozess 1.7 Superkritische Verzweigungsprozesse In diesem Abschnitt beschäftigen wir uns hauptsächlich mit dem superkritischen Fall, m > 1. Einige Aussagen gelten aber für jedes m ∈ (0, ∞). Wir werden hier einige Resultate aus der Martingaltheorie voraussetzen müssen. Wir verweisen an dieser Stelle auf z.B.(Klenke 2006). Es sei also m ∈ (0, ∞) und (Zn )n≥0 ein Verzweigungsprozess aus Definition 1.1. Mit Markoveigenschaft (und zeitlicher Homogenität) erhalten wir E[Zn+k |Zn = in , Zn−1 = in−1 , . . . , Z1 = i1 , Z0 = i0 ] = E[Zn+k |Zn = in ] = in E[Zk |Z1 = 1] = in mk . Für Wn := m−n Zn folgt E[Wn+k |W0 , . . . , Wn ] = m−(n+k) E[Zn+k |Zn ] = m−(n+k) mk Zn = Wn , f.s. (1.17) Es gilt also das folgende Theorem. Theorem 1.20. Es sei m ∈ (0, ∞), Fn = σ(Z0 , . . . , Zn ) die natürliche Filtration von (Zn )n≥0 . Dann ist (Wn , Fn ; n = 0, 1, . . . ) ein nicht-negatives Martingal und es gibt eine Zufallsvariable W mit n→∞ Wn −−−→ W f.s. (1.18) Beweis. Die Martingaleigenschaft wurde in (1.17) bereits gezeigt und (1.18) folgt mit bekannten Martingalkonvergenzsätzen. Man beachte, dass Wn ein nicht-negatives Supermartingal ist und siehe z.B. Korollar 11.5 in (Klenke 2006). Nach dem obigen Theorem ist es klar, dass Zn (ω) sich asymptotisch wie mn W (ω) verhält. Martingalkonvergenzsätze liefern aber nicht ausreichend Informationen über W . Nach dem Lemma von Fatou haben wir zwar E[W ] = E[ lim Wn ] ≤ lim inf E[Wn ] = E[Z0 ], n→∞ n→∞ (1.19) es schließt aber nicht aus, dass E[W ] = 0 und somit W = 0 f.s. gilt. Im kritischen und subkritischen Fall gilt für genügend große n Zn = 0 f.s. und somit gilt in diesen Fällen auch W = 0 f.s. Wir betrachten also im Folgenden den superkritischen Fall m > 1 und interessieren uns für Bedingungen unter denen {W > 0} positive Wahrscheinlichkeit hat. Das erste Resultat geht von endlichen zweiten Momenten aus und ist relativ einfach. Theorem 1.21. Ist m > 1, σ 2 < ∞ und Z0 = 1, dann gilt n→∞ (i) limn→∞ E (Wn − W )2 = 0, d.h. Wn −−−→ W in L2 ; (ii) E[W ] = 1, Var[W ] = (iii) σ2 ; m2 − m P[W = 0] = q = P[Zn = 0 für ein n]. 13 1 Bienaymé-Galton-Watson-Prozess Beweis. Aus (1.5) und (1.4) erhalten wir E[Wn2 ] 1 1 1 = 2n E[Zn2 ] = 2n (Var[Zn ] + E2 [Zn ]) = 2n m m m σ 2 (1 − m−n ) = + 1. m2 − m σ 2 mn−1 (mn − 1) + m2n m−1 Es folgt supn E[Wn2 ] = limn→∞ E[Wn2 ] = σ 2 /(m2 − m) + 1 < ∞. Die Aussagen (i) und (ii) folgen also mit L2 -Konvergenzsatz (siehe z.B. Korollar 11.11 in (Klenke 2006)). Sei nun r = P[W = 0]. Aus E[W ] = 1 folgt r < 1. Ferner gilt r= ∞ X P[W = 0|Z1 = k]P[Z1 = k] = k=0 ∞ X pk (P[W = 0]) = k=0 k ∞ X pk rk = g(r). k=0 Da die Gleichung g(s) = s eine eindeutige Lösung in (0, 1) hat muss r = q gelten. Das folgende Theorem von Seneta und Heyde besagt, dass man einen superkritischen Verzweigungsprozess stets so reskalieren kann, dass der reskalierte Prozess fast sicher gegen eine nicht-triviale Zufallsvariable konvergiert. Theorem 1.22. Es sei 1 < m < ∞ und Z0 = 1. Dann gibt es eine Folge (Cn )n∈N0 von positiven Zahlen so, dass • Cn+1 /Cn → m für n → ∞; fn := Zn /Cn konvergiert fast sicher gegen eine Zufallsvariable W f , die fast sicher endlich • W f = 0] = q. und nicht-negativ ist. Ferner gilt P[W Beweis. Sei g0 (s) = s die Identität auf [0, 1] und sei gn−1 die Inverse von gn , wobei wir g −1 für g1−1 schreiben. Die Funktion g −1 ist wachsend, konkav und differenzierbar. Außerdem bildet sie das Intervall [q, 1] bijektiv auf sich selbst ab. −1 mit g −1 ↑ g −1 . Ferner Wegen g(s) ≤ s für q ≤ s ≤ 1 gilt g −1 (s) ≥ s und daher gibt es ein g∞ ∞ n gilt −1 s = gn (gn−1 (s)) ≤ gn (g∞ (s)) → q −1 (s) < 1. Also muss g −1 (s) = 1 für s > q gelten. wenn g∞ ∞ Z Für s ∈ [q, 1] setze Xn (s) := gn−1 (s) n . Diese Folge ist ein nicht-negatives Martingal, denn es gilt f.s. E[Xn+1 (s)|Fn ] = E h i h Zn+1 Z1 iZn −1 −1 −1 gn+1 (s) |Fn = E gn+1 (s) = g(gn+1 (s))Zn = (gn−1 (s))Zn = Xn (s). Es gibt also X∞ (s) mit Xn (s) → X∞ (s) f.s. Wegen 0 ≤ Xn (s) ≤ 1 können wir den Satz von dominierter Konvergenz benutzen und erhalten E[X∞ (s)] = E[X1 (s)] = s. 14 1 Bienaymé-Galton-Watson-Prozess Die Folge (Xn2 (s)) ist ein [0, 1]-wertiger Submartingal. Für s < 1 gilt daher (hier ist nach unserer Annahme 1.1 Z1 nicht-trivial in dem Sinne, dass P[Z1 = 0] < 1) 2 E[X∞ (s)] ≥ E[X12 (s)] > E2 [X1 (s)]. Insgesamt ist X∞ (s) eine Zufallsvariable mit positiver Varianz. f (s) := − log X∞ (s) (der Wert unendlich ist Wir definieren Cn (s) := (− log gn−1 (s))−1 und W zunächst mal nicht ausgeschlossen). Es gilt nun 1 f (s) Zn = − log(gn−1 (s))Zn = − log(Xn (s)) → W Cn (s) f.s. f (s) f.s. endlich ist betrachten wir die Taylorentwicklung von g. Wie wir Um zu zeigen, dass W im Abschnitt 1.5 gesehen haben ist 1 − g(s) = (m − r(s))(1 − s). Ersetzen wir s durch gk−1 (s) für q < s < 1 dann gilt 1 − gk−1 (s) 1 = . −1 1 − gk−1 (s) m(1 − r(gk−1 (s))/m) Produkt über k = 1, . . . , n liefert 1−s . −1 k=1 (1 − r(gk (s))/m) mn (1 − gn−1 (s)) = Qn (1.20) Wegen − log x ∼ 1 − x für x ↑ 1 und gn−1 (s) ↑ 1 für n → ∞ und s > q folgt −1 (s) 1 − gn−1 Cn (s) = lim = m. −1 n→∞ Cn−1 (s) n→∞ 1 − gn (s) lim f zeigen. Es gilt Nun können wir die f.s. Endlichkeit von W f (s) < ∞] = E[P[ lim C −1 (s)Zn < ∞|Z1 ]] P[W n→∞ n " Z1 # Cn−1 (s) −1 = E P lim Cn−1 (s)Zn−1 < ∞ n→∞ Cn (s) f (s) < ∞] . = g P[W Analog zeigt man, dass f (s) = 0] = g P[W f (s) = 0] . P[W Da die Wahrscheinlichkeit auf der linken Seite kleiner 1 ist, folgt ist f (s) = 0] = q. Schließlich P[W f (s) < ∞] s = E[X∞ (s)] = E[e−W (s) ] ≤ P[W f f (s) < ∞] = 1 für s > q. Ansonsten hätten wir nach Lemma 1.10 q < s ≤ und somit ist P[W f f (s) < ∞]) → q für n → ∞, was zu einem Widerspruch führt. P[W (s) < ∞] = gn (P[W 15 1 Bienaymé-Galton-Watson-Prozess Das folgende Theorem von Kesten und Stigun benutzt wieder die bekannte E[Z1 log Z1 ] < ∞ Bedingung um die Reskalierungsfolge aus dem vorherigen Theorem genauer anzugeben. Theorem 1.23. Es sei 1 < m < ∞, Z0 = 1 und setzte Wn := m−n Zn und W := limn→∞ Wn . Ist E[Z1 log Z1 ] < ∞, dann gilt Wn → W in L1 und insbesondere E[W ] = 1. Ist E[Z1 log Z1 ] = ∞, dann ist E[W ] = 0 (was wegen W ≥ 0 f.s. zu P[W = 0] = 1 äquivalent ist). Beweis. Für q < s < 1 gilt gn−1 (s) ↑ 1 und somit Cn−1 (s) = − log gn−1 (s) ∼ 1 − gn−1 (s) für n → ∞. Mit (1.20) folgt lim C −1 (s)mn n→∞ n ∞ Y <∞ ⇔ (1 − r(gk−1 (s))/m) > 0 k=1 und nach Lemma 1.17 gilt lim Cn−1 (s)mn < ∞ ⇔ n→∞ ∞ X r(gk−1 (s)) < ∞. (1.21) k=1 Wähle nun q < s0 < 1 mit m0 := g 0 (s0 ) > 1. Für s0 ≤ s < 1 gibt es nach dem Mittelwertsatz ein ŝ ∈ [s, 1] mit (1 − g(s))/(1 − s) = g 0 (ŝ) und wegen der Konvexität gilt m0 ≤ g 0 (ŝ) ≤ m. Es folgt m0 ≤ 1 − g(s) ≤m 1−s und somit m0 ≤ 1 − gk (s) ≤ m. 1 − gk−1 (s) Mit Teleskopprodukt erhalten wir wieder mn0 (1 − s) ≤ 1 − gn (s) ≤ mn (1 − s), woraus wir durch Substitution von gn−1 (s) für s −1 −n 1 − m−n (1 − s) 0 (1 − s) ≤ gn (s) ≤ 1 − m erhalten. Für genügend große k ∈ N gilt m−k 0 ≤ 1 − s und somit folgt −1 −n 1 − m−n−k ≤ 1 − m−n 1 − s) ≤ 1 − m−n . 0 0 (1 − s) ≤ gn (s) ≤ 1 − m Auf diese Ungleichung wenden wir die Funktion r an, die auf (0, 1] wachsend ist und erhalten −1 −n r(1 − m−n−k ) ≤ r(1 − m−n (1 − s)) ≤ r(1 − m−n ). 0 0 (1 − s)) ≤ r(gn (s)) ≤ r(1 − m Wir summieren über n, nutzen (1.21) und Lemma 1.16 und bekommen E[Z1 log Z1 ] < ∞ ⇔ lim Cn−1 (s)mn < ∞, n→∞ 16 1 Bienaymé-Galton-Watson-Prozess d.h. wir können Cn = mn als Reskalierungsfolge in Theorem 1.22 nehmen. Ist E[Z1 log Z1 ] = ∞ so folgt m−n Zn → 0 f.s. Es bleibt zu zeigen, dass Wn gegen W in L1 konvergiert, was wiederum aus gleichgradiger Integrierbarkeit von Wn folgt. Dafür reicht es zu zeigen, dass E[supn Wn ] < ∞. Es gilt P[W > at] ≥ P[W > at, sup Wn > t] n = = = ∞ X n=0 ∞ X n=0 ∞ X P[W > at, Wn > t, Wk ≤ t für 0 ≤ k < n] P[W > at|Zn > tmn , Wk ≤ t für 0 ≤ k < n]P[Wn > t, Wk ≤ t für 0 ≤ k < n] P[W > at|Zn > tmn ]P[Wn > t, Wk ≤ t für 0 ≤ k < n], n=0 wobei wir hier die Markoveigenschaft benutzt haben. Seien W (j) u.i.v. Kopien von W . Auf dem Ereignis {Zn > tmn } starten zur Zeit n mindestens (ganzzahliger Anteil von) tmn u.i.v. Familien von Verzweigungsprozessen. Damit gilt tmn X 1 W (j) > a . P[W > at|Zn > tmn ] ≥ P n tm j=1 Nach dem Gesetz der großen Zahlen gibt es für jedes positive a < E[W ] ein b > 0 mit tmn X 1 P n W (j) > a > b tm j=1 für alle n (die Wahrscheinlichkeit ist nämlich für alle n positiv und konvergiert gegen 1). Es folgt P[W > at] ≥ b ∞ X P[Wn > t, Wk ≤ t für 0 ≤ k < n] = bP[sup Wn > t]. n n=0 für t ≥ 1 (für t < 1 ist die Wahrscheinlichkeit auf der rechten Seite gleich 1). Da supn Wn nicht-negativ ist gilt Z ∞ E[sup Wn ] = P[sup Wn > t] dt n n 0 Z ∞ Z ∞ 1 1 ≤1+ P[W > at] dt = 1 + P[W > t] dt b 0 ab 0 1 = 1 + E[W ] < ∞. ab 17 1 Bienaymé-Galton-Watson-Prozess 1.8 Beispiel: Die gebrochen-rationale Nachkommensverteilung Wir betrachten hier ein Beispiel, bei dem man die erzeugende Funktion von Zn direkt berechnen kann (was typischerweise kaum möglich ist). P Für b, p ∈ (0, 1) mit b+p ≤ 1 sei pk = bpk−1 für k = 1, 2, . . . und p0 = 1− ∞ i=1 pi = 1−b/(1−p). Dann ist g(s) = ∞ X pk sk = p0 + bs k=0 ∞ X (ps)k = 1 − k=0 b bs + 1 − p 1 − ps (1.22) und m = g 0 (1−) = b . (1 − p)2 Man beachte, dass die Potenzreihe von g den Konvergenzradius 1/p hat. Für u, v aus dem Konvergenzbereich folgt mit (1.22) g(s) − g(u) s − u 1 − pv = · . g(s) − g(v) s − v 1 − pu (1.23) Die Gleichung g(s) = s hat zwei Lösungen qb und 1, die auch zusammenfallen können. Wenn m > 1 ist, dann ist qb = q < 1; ist m = 1, so ist qb = q = 1; ist m < 1 so ist qb > 1 = q. Nehmen wir nun u = qb und v = 1 in (1.23), dann folgt für m 6= 1 1−p g(s) − qb g(s) − 1 −1 = . 1 − pb q s − qb s−1 Hier hängt die linke Seite nicht von s ab und deswegen erhalten wir mit s ↑ 1 auf der rechten Seite 1−p 1 = . 1 − pb q m Setzen wir das wieder in (1.23) ein, dann folgt g(s) − qb 1 s − qb = · g(s) − 1 m s−1 und nach Iteration dieser Gleichung gn (s) − qb 1 s − qb = n· . gn (s) − 1 m s−1 Diese Gleichung kann man nun nach gn (s) auflösen und man erhält für m 6= 1 ( mn (1 − qb)(s − 1) n→∞ qb : wenn m > 1, gn (s) = 1 − n −−−→ m (s − 1) − (s − qb) 1 : wenn m < 1. Falls m = 1, dann ist b = (1 − p)2 und qb = 1. Damit ist g(s) = p − (2p − 1)s , 1 − ps 18 (1.24) 1 Bienaymé-Galton-Watson-Prozess woraus man nach Iteration gn (s) = np − (np + p − 1)s 1 − p + np − nps (1.25) erhält, was für n → ∞ gegen 1 konvergiert. Dadurch, dass man gn explizit kennt, kennt man einerseits natürlich die Verteilungen von Zn , andererseits findet man leicht die Resultate vorheriger Abschnitte in diesem Spezialfall wieder. Ist beispielsweise m = 1, dann gilt (siehe (i) aus Theorem 1.15) np 2 n→∞ 1 − p nP[Zn > 0] = n(1 − gn (0)) = n 1 − −−−→ = , 1 − p + np p 2p/(1 − p) wobei 2p/(1 − p) = Var[Z1 ] = g 00 (1) + g 0 (1) − (g 0 (1))2 ist (siehe Lemma 1.6). Im Fall m > 1 wissen wir, dass wegen g 00 (1) < ∞ die Zufallsvariable W , gegen die Zn /mn fast sicher konvergiert, nicht-trivial ist und ein Atom in 0 hat mit P[W = 0] = q(= qb). In dem gebrochen-rationalen Fall können wir noch mehr sagen. Wir betrachten dazu die LaplaceTransformierte von W . Für λ ≥ 0 gilt λ λ λ E[e−λW ] = lim E[e− mn Zn ] = lim E[(e− mn )Zn ] = lim gn (e− mn ) n→∞ n→∞ n→∞ ! − mλn n − 1) m (1 − q)(e . = lim 1 − λ λ n→∞ mn (e− mn − 1) − (e− mn − q) λ Nun gilt mn (e− mn − 1) → −λ für n → ∞ und somit E[e−λW ] = 1 − (1 − q)λ . λ + (1 − q) (1.26) Andererseits wissen wir, dass es ein W ∗ gibt W ∗ ∈ (0, ∞) f.s. und W = 0· 1{W =0} +W ∗ · 1{W >0} . Damit ist E[e−λW ] = P[W = 0] + (1 − P[W = 0])E[e−λW ] = q + (1 − q)E[e−λW ]. ∗ ∗ (1.27) Es folgt −λW ∗ E[e 1 ]= 1−q (1 − q)λ (1 − q)λ 1−q 1−q− =1− = . λ + (1 − q) λ + (1 − q) λ + (1 − q) (1.28) Dies ist (wie man leicht nachrechnet) die Laplace-Transformierte der Exp(1−q)-Verteilung. Also ist für eine unabhängige exponentiell mit Parameter (1 − q) verteilte Zufallsvariable W ∗ ( 0 : mit Wahrscheinlichkeit q, W = (1.29) ∗ W : mit Wahrscheinlichkeit 1 − q. 1.9 “Verwandte” des Bienaymé-Galton-Watson Prozesses Wir schließen dieses Kapitel mit einigen Verallgemeinerungen des Bienaymé-Galton-Watson Prozesses ab. 19 1 Bienaymé-Galton-Watson-Prozess 1.9.1 BGWP mit Immigration Bei diesem Prozess wird wie zuvor die Generation zur Zeit n + 1 aus den Nachkommen der Individuen der n-ten Generation gebildet, zusätzlich kommen (unabhängig viele) Individuen dazu, deren Anzahl gemäß einer vorgegebenen Verteilung verteilt ist. Es sei die Familie {ξnk : n ∈ N0 , k ∈ N} wie in Definition 1.1. Zusätzlich sei {ζn : n ∈ N0 } eine Folge u.i.v. N0 -wertiger Zufallsvariablen (auch unabhängig von den ξ’s) mit erzeugenden Funktion h. Ein Bienaymé-Galton-Watson-Prozess mit Immigration (BGWI) ist eine Markovkette Y := (Yn )n≥0 , die durch Y0 = ζ 0 und Yn+1 = Yn X ξnk + ζn+1 , n≥0 (1.30) k=1 rekursiv definiert ist. Man könnte an dieser Stelle auch mit einer beliebigen ganzzahligen nichtnegativen Zufallsvariablen Y0 starten. Die Notation wird dadurch aber ein wenig komplizierter. Je nachdem ob m = g 0 (1−) = 1, (< 1, > 1) ist, nennt man Y kritisch, (subkritisch, superkritisch). Im Prinzip ist nur der Fall P[ζ0 = 0] < 1 interessant, da andernfalls Yn = 0 für alle n ist. Es ist klar, dass in diesem Fall der Zustand 0 nicht mehr absorbierend ist. Für s ∈ [0, 1] sei hn (s) = E[sYn ], h(s) = h0 (s) und (wie zuvor) g(s) = E[sξ11 ]. Dann ist mit Fn := σ(ζj , ξjk : 0 ≤ j ≤ n) E[sYn+1 |Fn ] = (g(s))Yn h(s) und man erhält iterativ hn+1 = h · hn ◦ g bzw. hn = n Y h ◦ gj . j=0 Es gibt also eine Funktion h∞ mit hn ↓ h∞ mit h∞ = h · h∞ ◦ g. (1.31) Da der Prozess Y nicht mehr in 0 absorbiert wird, liegt es nahe sich zu fragen ob und unter welchen Bedingungen es gegen nicht-triviale Zufallsvariablen konvergiert. Man muss also h∞ untersuchen. Für Beweise folgender Resultate verweisen wir auf (Jagers 1975, 3.1) bzw. auf (Lyons n.d.). Theorem 1.24. Es sei Y ein subkritischer BGWI. Dann konvergiert Yn in Verteilung gegen eine Zufallsvariable Y∞ (die möglicherweise mit positiver Wahrscheinlichkeit den Wert ∞ annimmt) deren erzeugende Funktion die eindeutige Lösung h∞ der Gleichung (1.31) ist. Ferner gilt + h∞ (1) = 1 ⇔ E[log ζ0 ] = ∞ X k=2 d.h. in diesem Fall ist Y∞ < ∞ f.s. 20 P[ζ0 = k] log k < ∞, 1 Bienaymé-Galton-Watson-Prozess Theorem 1.25. Ist m = 1, σ 2 = g 00 (1−) < ∞ und 0 < a := h0 (1) < ∞ dann konvergiert Yn /n in Verteilung gegen eine gamma verteilte Zufallsvariable mit Dichte w(x) = 1 xα−1 e−x/β , Γ(α)β α x > 0, (1.32) wobei α = 2a/σ 2 und β = σ 2 /2. Insbesondere ist im Falle a = σ 2 /2 w(x) = 1 − σ2x/2 e . σ 2 /2 (1.33) Bemerkung 1.26. In Theorem 1.15(iii) haben wir bereits gesehen, dass Zn /n bedingt auf {Zn > 0} gegen eine Zufallsvariable mit Dichte w(x) aus (1.33) in Verteilung konvergiert. Zusammen mit obigem Theorem folgt also daraus, dass das Bedingen auf {Zn > 0} und Immigration mit Mittelwert σ 2 /2 denselben Effekt haben. Theorem 1.27. Es sei m > 1. Dann gilt (i) Ist E[log+ ζ0 ] < ∞, dann konvergiert Zn /mn in Verteilung und der Grenzwert ist f.s. endlich. (ii) Ist E[log+ ζ0 ] = ∞, dann gilt lim supn→∞ Zn /cn = ∞ f.s. für jedes c > 0. 1.9.2 Verzweigungsprozesse in zufälliger Umgebung Wie der Name schon vermuten lässt, ist die Evolution eines Verzweigungsprozesses in zufälliger Umgebung (engl. branching process in random environment (BPRE)) wie die des “gewöhnlichen” Verzweigungsprozesses mit dem Unterschied, dass sich die Nachkommensverteilung von Generation zu Generation ändern kann. Man denke beispielsweise an eine Population von Pflanzen mit einem Lebenszyklus von einem Jahr, bei der die Nachkommensverteilung von Wetterverhältnissen beeinflusst wird. Zum ersten mal wurden BPRE in (Athreya and Karlin 1970, Smith and Wilkinson 1969) eingeführt. Wir halten uns hier an die Darstellung in (Birkner et al. 2005). Es sei ∆ die Menge der Wahrscheinlichkeitsmaße auf N0 , ausgestattet mit Totalvariationsabstand Polnisch ist. Ferner sei Q eine ∆-wertige Zufallsvariable und Π = (Q1 , Q2 , . . . ) eine Folge von u.i.v. Zufallsvariablen mit derselben Verteilung wie Q. Definition 1.28. Eine Folge Z := (Zn )n=0,1,... von N0 -wertigen Zufallsvariablen ist ein Verzweigungsprozess in zufälliger Umgebung Π falls Z0 unabhängig von Π ist und gegeben Π die Folge Z eine Markovkette ist mit " i # X (q ) n P[Zn = j|Zn−1 = i, Π = (q1 , q2 , . . . )] = P ξk = j k=1 für alle n ≥ 1, i, j ∈ N0 und q1 , q2 , . . . ∆. Dabei sind (q ) (q ) ξ1 i , ξ2 i , . . . u.i.v. qi verteilt. Im Folgenden nehmen wir immer Z0 = 1 f.s. an. Mit Z kann man wie folgt eine Irrfarht S = (S0 , S1 , . . . ) assoziieren. Sei S0 = 0 und definiere die Inkremente von S durch Xn = Sn − Sn−1 , n ≥ 1, wobei Xn := log ∞ X y=0 21 yQn ({y}), 1 Bienaymé-Galton-Watson-Prozess u.i.v. Kopien von X := log ∞ X yQ({y}) y=0 sind. Wir nehmen an, dass X f.s. endlich ist. Dann gilt µn := E[Zn |Π] = eSn f.s. Je nach Verteilung von Q ist gibt es drei Möglichkeiten: 1. Superkritischer Fall: Wenn limn→∞ Sn = ∞ f.s. gilt, dann ist µn → ∞ f.s. 2. Subrkritischer Fall: Wenn limn→∞ Sn = −∞ f.s. gilt, dann ist µn → 0 f.s. 3. Kritischer Fall: Wenn lim supn→∞ Sn = ∞ und lim inf n→∞ Sn = −∞ f.s. gilt, dann ist lim supn→∞ µn = ∞ und lim inf n→∞ µn = 0 f.s. Wir betrachten nun die Aussterbewahrscheinlichkeiten in diesen Fällen. Für m ≤ n gilt P[Zn > 0|Π] ≤ P[Zm > 0|Π] ≤ µm und es folgt P[Zn > 0|Π] ≤ min µm = exp min Sm . m≤n m≤n Im kritischen und subkritischen Fall konvergiert die rechte Seite f.s. gegen 0 und deswegen gilt in diesen Fällen auch nach Mitteln über Π (wie intuitiv erwartet werden konnte) P[Zn > 0] −n→∞ −−→ 0, f.s. Anders als bei “gewöhnlichen” Verzweigungsprozessen ist es bei BPRE auch im superkritischen Fall möglich, dass die Population fast sicher ausstirbt. Starke Fluktuationen der zufälligen Umgebung wirken nämlich wie “Katastrophen” auf die Population. Allgemein gilt das folgende Resultat, dass in (Smith 1968, Smith and Wilkinson 1969) bewiesen ist. Theorem 1.29. Es sei E[|X|] < ∞, dann ist die Überlebenswahrscheinlichkeit des BPRE Z positiv, d.h. lim n→∞ P[Zn > 0] > 0 genau dann, wenn E[X] > 0 und E[log(1 − Q({0}))] > −∞. Die Bedingung E[X] > 0 impliziert, dass Z superkritisch ist, was nach oberen Überlegungen notwendig für Überleben mit positiver Wahrscheinlichkeit ist. Die zweite Bedingung besagt insbesondere, dass die Wahrscheinlichkeit für “Katastrophen” Q({0} nahe an 1 ist, vernachlässigbar klein ist. 22 1 Bienaymé-Galton-Watson-Prozess Beispiel 1.30. Für l ∈ (0, 1) setze ql (0) = 1−l und ql (d2/le) = l. Dadurch ist eine einparametrige Verteilung auf N0 definiert mit Mittelwert ml = l · d2/le > 1. Sei nun der Parameter l Realisierung der Zufallsvariablen L mit Verteilung P[L ≤ x] = C(− log x)−α , x ∈ (0, 1). Dabei ist α ∈ (0, 1) fest und C ist eine Normierungskonstante. Wir setzen Q = ql , wenn L = l ist. Dann gilt E[X] = E[log(L · d2/Le] > 0 und Z 1 E[log(1 − Q({0}))] = E[log L] = −C 0 1 (log x)1+α 1 log x α(log x)α−1 ] = −C x 1+α 0 C lim (log A)1+α = −∞. = 1 + α A→0 23 2 Verzweigungsprozesse in stetiger Zeit In diesem Kapitel betrachten wir Verzweigungsprozesse bei denen die Lebensdauer eines Individuums exponentiell verteilt ist. Es ist natürlich möglich und oft biologisch auch sinnvoll anders verteilte Lebensdauer anzunehmen, im Allgemeinen verliert man die Markovsche Struktur des Prozesses. Dank der Gedächtnislosigkeit der Exponentialverteilung sind diese Prozesse zeitlich homogene Markovketten in stetiger Zeit. Bevor wir einen Verzweigungsprozess in stetiger Zeit (VPSZ) definieren werden wir einige Grundlagen zu stochastischen Prozessen in stetiger Zeit wiederholen müssen. Eine intuitive Konstruktion ist wie folgt: Für ein λ > 0 sei die Lebensdauer jedes Individuums exponentiell verteilt mit Parameter λ. Nach Ablauf dieser Lebensdauer wird das Individuum (genauso wie im Fall mit diskreter Zeit) durch Nachkommen ersetzt deren Anzahl gemäß einer festen Nachkommensverteilung verteilt ist. Die Lebensdauern der Individuen und die Anzahl der Nachkommen sind jeweils unabhängig voneinander und unter Individuen. 2.1 Stochastische Prozesse in stetiger Zeit In diesem Abschnitt wiederholen wir kurz einige Standardbegriffe der stochastischen Prozesse in stetiger Zeit (siehe z.B. Kallenberg 2002), die wir benötigen werden. Wir orientieren uns hier an (Ethier and Kurtz 1986, Kap. 2 und 3). Im Folgenden seien (E, r) ein metrischer Raum, B := B(E) die zugehörige Borel-σ-Algebra und R+ := [0, ∞). Definition 2.1. Ein E-wertiger stochastischer Prozess X := (X(t))t∈R+ ist eine Familie von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in (E, B). Eine Familie von σ-Algebren (Ft : t ≥ 0) mit Ft ⊂ F für t ≥ 0 und Fs ∈ Ft für s ≤ t heißt Filtration. Wir sagen, dass X adaptiert an die Filtration (Ft : t ≥ 0) ist, falls Xt messbar T bez. Ft für jedes t ≥ 0 ist. Die Filtration heißt rechtsstetig, wenn für jedes t ≥ 0, Ft = Ft+ := ε>0 Ft+ε gilt. Für ein festes ω ∈ Ω ist ein Pfad t 7→ X(t, ω) eine Abbildung von R+ nach E. Verzweigungsprozesse sind Sprungprozesse haben also keine stetige Pfade, haben aber typischerweise eine rechtsstetige Version mit linksseitigen Grenzwerten (r.c.l.l. für engl. right continuous with left limits), d.h. die Prozesse haben dieselben endlichdimensionalen Verteilungen. Wir bezeichnen den Raum der r.c.l.l. Funktionen von R+ nach E mit DE (R+ ). Insbesondere kann man also X als eine DE (R+ )-wertige Zufallsvariable auffassen. Wir führen nun eine Metrik auf diesem Raum ein bezüglich der Funktionen mit Sprüngen von “ähnlicher” Höhe zu nahe beieinander liegenden Sprungzeiten kleinen Abstand haben. Man betrachte z.B. Funktionen f (x) = 1[1,∞) (x) und fn (x) = 1[1+1/n,∞) (x) für x ∈ R+ . Für jedes n ist der Supremumsabstand von fn und f gleich 1. In der Skorohod-Metrik (die wir in kürze einführen werden) konvergiert fn aber gegen f . 24 2 Verzweigungsprozesse in stetiger Zeit Es sei Λ die Menge (streng) monoton wachsender Lipschitz stetiger Funktionen λ : R+ → R+ mit λ(0) = 0, λ(t) → ∞ für t → ∞ und λ(s) − λ(t) γ(λ) := sup log < ∞. s−t 0≤t<s Man kann γ(λ) als ein Maß für Abweichung von λ von der Identität auf x, y ∈ DE (R+ ) ist die Skorohod-Metrik definiert durch Z ∞ −u e d(x, y, λ, u) du , d(x, y) := inf γ(λ) ∨ λ∈Λ R+ auffassen. Für 0 wobei d(x, y, λ, u) := sup r (x(t ∧ u), y(λ(t) ∧ u)) . t≥0 Dass die Skorohod-Metrik tatsächlich eine Metrik ist, ist z.B. in (Ethier and Kurtz 1986, Abschnitt 3.5) gezeigt. Die durch die Skorohod-Metrik induzierte Topologie auf DE (R+ ) heißt Skorohod-Topologie. Es gibt einige äquivalente Charakterisierungen der Skorohod-Topologie. Wir geben hier zwei an und verweisen für Beweise auf Propositionen 3.5.3 und 3.6.5 in (Ethier and Kurtz 1986). Theorem 2.2. Es seien x, x1 , x2 , · · · ∈ DE (R+ ), dann sind folgende Aussagen äquivalent (i) d(xn , x) → 0 für n → ∞; (ii) Es gibt eine Folge (λn )n=1,2,... ⊂ Λ mit γ(λn ) → 0 für n → ∞ und lim sup r(xn (t), x(λn (t))) = 0 n→∞ 0≤t≤T für jedes T > 0. Theorem 2.3. Es seien x, x1 , x2 , · · · ∈ DE (R+ ), dann gilt d(xn , x) → 0 für n → ∞ genau dann wenn für jedes t ∈ R+ und jede Folge (tn )n=1,2,... ⊂ R mit limn→∞ tn = t folgende Aussagen gelten (i) lim r(xn (tn ), x(t)) ∧ r(xn (tn ), x(t−)) = 0; n→∞ (ii) Ist limn→∞ r(xn (tn ), x(t)) = 0, dann gilt für jede Folge (sn )n=1,2,... mit sn ≥ tn und limn→∞ sn = t lim r(xn (sn ), x(t)) = 0. n→∞ (iii) Ist limn→∞ r(xn (tn ), x(t−)) = 0, dann gilt für jede Folge (sn )n=1,2,... mit sn ≤ tn und limn→∞ sn = t lim r(xn (sn ), x(t−)) = 0. n→∞ 25 2 Verzweigungsprozesse in stetiger Zeit Die Charakterisierung aus dem letztem Theorem hat den Vorteil, dass man die einzelnen Unterpunkte intuitiv interpretieren kann: Die erste Aussage besagt, dass es höchstens zwei Grenzwerte von x(tn ) geben kann. Die zweite gilt wegen Rechtsstetigkeit und die dritte wegen linksseitiger Grenzwerte. Mit dem obigen Theorem folgt auch, dass die CE (R+ ) (die Menge der stetigen Funktionen von R+ nach E) ausgestattet mit der Skorohod Metrik abgeschlossen in DE (R+ ) ist. Für Konvergenz von stochastischen Prozessen in Verteilung und insbesondere um Prohorovs Theorem anwenden zu können muss der Zustandsraum Polnisch sein, d.h. vollständig und separabel. Für die beiden Aussagen im nächsten Resultat verweisen wir auf Theorem 3.5.6 und Proposition 3.7.1 in (Ethier and Kurtz 1986). Theorem 2.4. (i) Ist (E, r) separabel, so ist (DE (R+ ), d) separabel. Ist (E, r) vollständig, so ist (DE (R+ ), d) vollständig. (ii) Definiere für t ≥ 0 Projektionen πt : DE (R+ ) → E durch πt (x) = x(t). Ist (E, r) separabel und A eine dichte Teilmenge von R+ , dann gilt B (DE (R+ )) = σ(πt : t ∈ A). Insbesondere bestimmen die endlichdimensionalen Verteilungen eines Prozesses mit Pfaden in DE (R+ ) seine Verteilung eindeutig. 2.2 Generatoren von Markovprozessen Wir verwenden hier weiterhin die Bezeichnungen aus dem letzten Abschnitt. Definition 2.5. Ein E-wertiger Prozess X = (X(t))t∈R+ ist ein Markovprozess bezüglich der Filtration (Ft ) falls für alle Γ ∈ B(E) und alle t, s ≥ 0 P[X(t + s) ∈ Γ|Ft ] = P[X(t + s) ∈ Γ|X(t)] f.s. (2.1) gilt. Falls beide Seiten von (2.1) nicht von t abhängen, dann ist X ein (zeitlich) homogener Markovprozess. Ferner ist X ein starker Markovprozess falls in (2.1) t durch jede f.s. endliche Stoppzeit T ersetzt werden kann. Typischerweise, aber nicht immer nehmen wir für Ft die natürliche (vom Prozess selbst erzeugte) Filtration FtX = σ(X(s) : 0 ≤ s ≤ t). Bezeichnen wir mit B(E) die Menge der beschränkten messbaren Funktionen auf E, dann folgt aus (2.1) E[f (X(t + s))|Ft ] = E[f (X(t + s))|X(t)] f.s. (2.2) für jedes f ∈ B(E). Ein homogener Markovprozess ist charakterisiert durch die Übergangsoperatoren Pt (x, Γ) := Px [Xt ∈ Γ] := P[Xt ∈ Γ|X0 = x], (2.3) wobei x ∈ E ist und Γ ∈ B(E). Wegen zeitlicher Homogenität kann man mit der Familie (Pt )t∈R+ alle endlichdimensionalen Verteilungen von X bestimmen und somit ist nach Theorem 2.4(ii) 26 2 Verzweigungsprozesse in stetiger Zeit die Verteilung von X auf DE (R+ ) durch die Übergangsoperatoren bestimmt, wenn E separabel ist. Die Übergangsoperatoren sind durch die Chapman-Kolmogorov Gleichung Z Pt+s (x, Γ) = Pt (x, dy)Ps (y, Γ) t, s ≥ 0 (2.4) E mit der Halbgruppentheorie verbunden und können mithilfe die zugehörigen infinitesimalen Generatoren beschrieben werden. Definition 2.6 (Halbgruppe). Eine Familie (Tt )t∈R+ von beschränkten linearen Operatoren auf einem Banachraum B heißt Halbgruppe falls T0 = Id und Tt+s = Tt Ts für alle t, s ≥ 0. Die Halbgruppe heißt stark stetig, wenn limt→0 Tt f = f ist für alle f ∈ B. Wir sprechen von einer Kontraktionshalbgruppe falls kT k ≤ 1 ist. Ist B ein Funktionenraum, dann nennen wir die Halbgruppe positiv bzw. konservativ, falls für alle t ≥ 0 gilt Tt f ≥ 0 für alle f ≥ 0 bzw. Tt 1 = 1. Man beachte, dass es generell ein M ≥ 1 und w ≥ 0 gibt, sodass kT k ≤ M ewt (Ethier and Kurtz 1986, Proposition 1.1.1). Definition 2.7 (Generator einer Halbgruppe). Der infinitesimale Generator (auch Erzeuger) der Halbgruppe (Tt )t∈R+ ist ein linearer Operator A auf B definiert durch Tf − f . t→0 t Af := lim Der Definitionsbereich D(A) ist die Menge der Elemente von B, für die dieser Grenzwert existiert. Der Graph von A ist definiert durch G(A) := {(f, Af ) : f ∈ D(A)} ⊂ B × B. Man sagt, dass A abgeschlossen ist, wenn G(A) abgeschlossen in B × B ist. Ferner heißt A abschliessbar, wenn es eine abgeschlossene lineare Fortsetzung von A gibt. In diesem Fall bezeichnen wir als Abschluss, Ā, die minimale Fortsetzung von A. Ist A ein abgeschlossener Generator, dann heißt D ⊂ D(A) Core von A, wenn der Abschluss von A eingeschränkt auf D mit A übereinstimmt (wenn also D bezüglich der Graphennorm dicht in D(A) ist). Der Zusammenhang von A und T wird in dem folgenden Resultat verdeutlicht (siehe Ethier and Kurtz 1986, Proposition 1.1.5). Theorem 2.8. Es sei (Tt )t∈R+ eine stark stetige Halbgruppe auf L ⊂ B. Dann gelten folgende Aussagen: Rt (i) Ist f ∈ L und t ≥ 0, dann ist 0 Ts f ds ∈ D(A) und es gilt Z Tt f − f = A t Ts f ds. 0 (ii) Ist f ∈ D(A) und t ≥ 0, dann ist Tt f ∈ D(A) und es gilt d Tt f = ATt f = T (t)Af. dt 27 2 Verzweigungsprozesse in stetiger Zeit (iii) Ist f ∈ D(A) und t ≥ 0, dann gilt Z Tt f − f = t Z t ATs f ds = 0 Ts Af ds. 0 Man kann zeigen (siehe Ethier and Kurtz 1986, Abschnitt 1.1), dass der Generator einer stark stetigen Halbgruppe eindeutig bestimmt ist, wenn es auf dem Core definiert ist. Außerdem ist jede stark stetige Halbgruppe eindeutig charakterisiert durch ihren Generator. Nun betrachten wir den Zusammenhang zwischen Markovprozessen und stark stetigen Halbgruppen. Sei also X wie zuvor ein homogener Markovprozess auf E. Für L ⊂ B(E) definieren wir Tt f (x) := Ex [f (Xt )] := E[f (Xt )|X0 = x] = E[f (Xt+s )|Xs = x]. (2.5) Dann ist natürlich T0 f (x) = f (x) und Tt+s f (x) = Tt Ts f (x) bekommt man mit der ChapmanKolmogorov Gleichung. Man kann zeigen, dass jeder homogener Markovprozess auf diese Weise eindeutig durch die so definierte Halbgruppe charakterisiert ist. Jedoch gilt die Umkehrung im Allgemeinen nicht: nicht zu jeder Halbgruppe gibt es einen Markovprozess. Eine große Klasse von Halbgruppen, für die die Umkehrung gilt sind die Feller-Halbgruppen. Definition 2.9. Es sei C0 (E) die Menge der stetigen Funktionen auf E die bei unendlich verschwinden. Eine positive, konservative stark stetige Halbgruppe auf C0 (E) heißt FellerHalbgruppe und der zugehörige Generator Feller-Generator. Für das folgende Theorem verweisen wir auf (Ethier and Kurtz 1986, Theorem 4.2.7). Theorem 2.10. Es sei E lokal kompakt und separabel und sei (Tt )t∈R+ eine Feller-Halbgruppe auf C0 (E). Dann gibt es für jedes Wahrscheinlichkeitsmaß ν auf (E, B(E)) einen zu (Tt )t∈R+ (mittels (2.5)) gehörigen Markovprozess X mit Anfangsverteilung ν und Pfaden im Skorohod Raum DE (R+ ). Ferner ist X stark Markovsch bezüglich der (natürlichen, rechtsstetigen) FiltraX. tion Ft+ Wir schließen diesen Abschnitt mit Beispielen ab. Beispiel 2.11. 1. Es sei X = (Xt )t∈R+ ein Poissonprozess mit Rate λ. Insbesondere haben wir X0 = 0, Xt ∼ Pois(λt) und die Zuwächse sind unabhängig. Für f ∈ C0 (N0 ) (also eine Nullfolge) gilt Tt f (x) = E[f (X(t + s))|X(s) = x] = E0 [f (x + Xt )] = ∞ X f (x + k)e−λt k=0 (λt)k k! und ∞ Tt f (x) − f (x) e−λt X (λt)k = (f (x + k) − f (x)) t t k! k=0 = e−λt λ (f (x + 1) − f (x)) + e−λt ∞ X k=2 t→0 −−→ λ (f (x + 1) − f (x)) = Af (x). 28 (f (x + k) − f (x)) λk tk−1 k! 2 Verzweigungsprozesse in stetiger Zeit 2. Es sei X eine symmetrische Irrfahrt auf Z in stetiger Zeit, d.h. wenn Xs = x ist dann springt die Irrfahrt nach einer exponentiell verteilten Zeit mit Parameter λ zu einem der nächsten Nachbarn jeweils mit Wahrscheinlichkeit 1/2. Dann kann man für f : Z → R wie oben Tt f (x) hinschreiben und zeigen, dass Tt f (x) − f (x) t→0 λ λ −−→ (f (x + 1) − f (x)) + (f (x − 1) − f (x)) = Af (x). t 2 2 3. Für diejenigen, die Q-Matrizen gewohnt sind sei bemerkt, dass in den oberen Beispielen Af (x) = (Qf )x ist. In der Tat werden Q-Matrizen auch infinitesimale Generatoren genannt. Die Q Matrix des Poissonprozesses ist −λ λ 0 0 ··· 0 · · · Q = 0 −λ λ .. .. .. . . . und (Qf )x = −λf (x) + λf (x + 1) = Af (x). 2.3 BGWP in stetiger Zeit Hier konstruieren wir den BGWP in stetiger Zeit. Bei diesem Prozess produziert ein Individuum unabhängig von den anderen (und von der Vorgeschichte) mit Rate α Nachkommen gemäß einer vorher festgelegten Verteilung. Mit anderen Worten ist die Lebensdauer eines Individuums exponentiell verteilt mit Rate α. Es sei Z0 eine N0 -wertige Zufallsvariable und sei (ξn )n∈N0 eine Folge von u.i.v. Zufallsvariablen mit Verteilung pj = P[ξn = j], j ∈ N0 und erzeugenden Funktion g. Ferner sei (Tn )n∈N0 eine Folge exponentiell verteilter Zufallsvariablen mit Parameter 1. Schließlich definieren wir die eingebettete Sprungkette (Yn )n∈N0 und die zugehörigen Inkremente der Sprungzeiten (Ten )n∈N0 durch n X Yn = Z0 + (ξk − 1) k=1 Tn . und Ten = αYn (2.6) Man beachte, dass bedingt auf Yn die Sprungzeit Ten wie das Minimum von Yn u.i.v. Zufallsvariablen mit Parameter α verteilt ist. Der Bienaymé-Galton-Watson-Prozess Z := (Zt )t∈R+ in stetiger Zeit mit Start in Z0 ist definiert durch ( Z0 : falls 0 ≤ t < Te0 Zt := (2.7) Pn−1 e Pn e Yn : falls k=0 Tk ≤ t < k=0 Tk . P ∗ −1 e Mit der Konvention T /0 = ∞ folgt auch, dass Zt = 0 für alle t ≥ nk=1 Tk , wobei n∗ = inf{n ≥ 0 : Yn = 0}. Im Gegensatz zu Prozessen in diskreter Zeit kann es bei Prozessen in stetiger Zeit zu unendlich vielen Sprüngen in endlicher Zeit kommen. Man spricht dann von Explosion der Markovkette. In diesem Fall wäre (Zt )t∈R+ kein Prozess mit Pfaden in DN0 (R+ ), weil es in endlicher Zeit den Wert unendlich erreicht. Das folgende Resultat liefert ein Kriterium das Explosion ausschließt (siehe Harris (1963, Thm. III.1) oder Athreya and Ney (1972, Thm. V.9.1)). 29 2 Verzweigungsprozesse in stetiger Zeit Theorem 2.12. R 1 Es1 gilt P[Zt < ∞] = 1 für alle t ∈ das Integral 1−ε g(s)−s ds divergiert. Korollar 2.13. Ist m = g 0 (1) < ∞, dann gilt R+ genau dann, wenn für alle ε ∈ (0, 1) P[Zt < ∞] = 1 für alle t ∈ R+ . Beweis. Es gilt g(s) = g(1) + g 0 (1)(s − 1) + o(s − 1), s→1 und mit g(1) = 1 g(s) − s = (1 − g 0 (1))(1 − s) + o(s − 1), Also ist g 0 (1) < ∞ hinreichend für die Divergenz von R1 1 1−ε g(s)−s s → 1. ds. Die Annahme m < ∞ (die wir ab jetzt hier auch immer machen) aus dem vorherigen Kapitel garantiert uns also in stetiger Zeit, dass der Prozess nicht explodiert. Nun beschreiben wir den BGWP in stetiger Zeit mithilfe des Generators. Theorem 2.14. Für f ∈ C0 (N0 ) setzen wir Af (z) = αz ∞ X pk (f (z − 1 + k) − f (z)) . (2.8) k=0 Unter der Annahme, dass das Integral in Theorem 2.12 divergiert, ist Z definiert durch (2.7) ein zeitlich homogener Feller-Prozess mit Generator A. Beweis. Zunächst zeigen wir, dass Z ein zeitlich homogener Feller-Prozess ist. Dazu sind für die Halbgruppe (Tt )t∈R+ aus (2.5) die Eigenschaften aus Definition 2.9 nachzuweisen. Dass es sich dabei um eine positive, konservative Kontraktionshalbgruppe (siehe Definition 2.6) auf C0 (N0 ) handelt, ist sofort klar. Wir brauchen also nur noch die starke Stetigkeit zu zeigen. Wir definieren die Ereignisse V i (t) := { es gibt genau i Verzweigungsereignisse in [0, t]}. Für eine Menge S bezeichnen durch S C das Komplement dieser Menge. Sind f ∈ C0 (N0 ) und t ≥ 0, dann gilt |Tt f (z) − f (z)| = |Ez [(f (Zt ) − f (z))1(V 0 (t))C ]| ≤ 2kf k∞ · P[(V 0 (t))C ] = 2kf k∞ · (1 − e−αzt ) → 0 für t → 0, was die punktweise Konvergenz zeigt. Für f ∈ C0 (N0 ) gibt es zu jedem ε ein nε mit supz≥nε |f (z)| < ε. Die obige Abschätzung zeigt |Tt f (z) − f (z)| ≤ 2kf k∞ · (1 − e−αnε t ), für z < nε . (2.9) Pz [Zt < nε ] ≤ p0 (1 − e−αnε t ). (2.10) Für z ≥ nε gilt 30 2 Verzweigungsprozesse in stetiger Zeit Hier steht auf der rechten Seite die Wahrscheinlichkeit, dass mindestens einer der (am Anfang auf jeden Fall vorhandenen) nε Individuen in der Zeit [0, t] stirbt und keine Nachkommen produziert. Es folgt |Tt f (z) − f (z)| ≤ 2ε + 2kf k∞ p0 (1 − e−αnε t ), für z ≥ nε . (2.11) Insgesamt haben wir |Tt f (z) − f (z)| ≤ 2ε + 2kf k∞ (1 − e−αnε t ), für alle z ∈ N0 . (2.12) Mit t → 0 und dann ε → 0 auf der rechten Seite folgt limt→0 kT f − f k∞ = 0. Es bleibt zu zeigen, dass A Generator von Z ist. Dazu genügt es, es auf dem Raum der stetigen Funktionen mit kompaktem Träger, welchen wir mit CC (N0 ) bezeichnen (denn CC (N0 ) ist Core von A auf C0 (N0 )). Das Ereignis V 1 (t) kann man als disjunkte Vereinigung der Ereignisse Vk1 := { es gibt genau ein Verzweigungsereignis in [0, t] mit genau k Nachkommen } schreiben. Damit gilt 1 1 (Tt f (z) − f (z)) = Ez [f (Zt ) − f (z)] t t ∞ X 1 = Ez [(f (Zt ) − f (z)) 1Vk1 (t) ] + Rt f (z) t k=0 Z t ∞ 1X (f (z − 1 + k) − f (z)) αze−αzs pk e−α(z−1+k)(t−s) ds + Rt f (z) = t 0 k=0 (hier ist im Integral αze−αzs die Dichte der “Verzweigungszeit”, pk die W’keit für k-Nachkommen und e−α(z−1+k)(t−s) die W’keit, dass die dann vorhandenen z − 1 + k Individuen sich nicht in der verbleibenden Zeit [s, t] verzweigen) = αz ∞ X pk (f (z − 1 + k) − f (z)) k=0 1 t Z t e−αzs e−α(z−1+k)(t−s) ds + Rt f (z). 0 Das Restglied ist gegeben durch t−1 Ez [(f (Zt ) − f (z))1(V 1 (t))C ]. Auf V 0 (t) ist Zt = z und damit gilt 2kf k∞ Pz [(V 0 (t) ∪ V 1 (t))C ] t Z ∞ X pk t −αzs = 2kf k∞ αz e (1 − e−α(z−1+k)(t−s) ) ds. t 0 |Rt f (z)| ≤ k=0 Es sei H die Stammfunktion der Funktion ht (s) := e−αzs (1 − e−α(z−1+k)(t−s) ), die sicherlich existiert. Dann gilt Z 1 t −αzs H(t) − H(0) e (1 − e−α(z−1+k)(t−s) ) ds = → H 0 (0) = h0 (0) = 0 t 0 t 31 2 Verzweigungsprozesse in stetiger Zeit und es folgt |Rt f (z)| → 0 für t → 0. Mit einem ähnlichen Argument zeigt man auch 1 t t Z e−αzs e−α(z−1+k)(t−s) ds → 1 für t → 0. 0 Insgesamt folgt für jedes z ∈ N0 1 (Tt f (z) − f (z)) → Af (z) t für t → 0. Es bleibt noch Uniformität zu zeigen. Sei n0 so, dass f (z) = 0 für z ≥ n0 . Für z ≥ n0 + 1 gilt Pz [Zt < n0 ] ≤ αn0 p20 Z t e−α(n0 +1)s (1 − e−αn0 (t−s) ) ds. 0 Für z > n0 + 1 ist also 1 1 1 |Tt f (z) − f (z)| = |Ez [f (Zt )]| ≤ kf k∞ Pz [Zt < n0 ] t t t Z t 1 e−α(n0 +1)s (1 − e−αn0 (t−s) ) ds. ≤ kf k∞ αn0 p20 t 0 Wie oben kann man zeigen, dass die rechte Seite für t → 0 gegen Null konvergiert, was die Uniformität zeigt. Das folgende Theorem zeigt, dass in ein BGWP in stetiger Zeit stets BGWP in diskreter Zeit eingebettet sind. Man kann also Resultate aus dem vorherigen Kapitel auch für Verzweigungsprozesse in stetiger Zeit nutzen. Umgekehrt kann man jedoch nicht jeden BGWP in diskreter Zeit in einen mit stetiger Zeit einbetten (siehe Athreya and Ney 1972, Abschn. III.12). Theorem 2.15. Es sei Z ein BGWP in stetiger Zeit mit Generator A definiert in (2.8) und zugehöriger Halbgruppe (Tt )t∈R+ . Für ein festes δ > 0 definieren wir Zen := Zδn , n ∈ N0 . Dann e := (Zen )n∈N ein BGWP in diskreter Zeit. Die erzeugende Funktion der Nachkommensverist Z 0 teilung ist gegeben durch g(s) := Tδ hs (1), wobei hs (z) := sz für s ∈ [0, 1] und z ∈ N0 ist. Beweis. Es gilt g(s) = E1 [sZ1 ] = E1 [sZδ ] = Tδ hs (1) e und da die Verzweigungseigenschaft sich von Z auch überträgt, ist das Theorem bewiesen. 32 3 Diffusionsapproximation von Verzweigungsprozessen Ähnlich wie man Brownsche Bewegung als Grenzwert reskalierter Irrfahrten erhält, erhält man einen Verzweigungsprozess in stetiger Zeit und auf stetigem Raum (verzweigende Diffusionsprozesse) als Grenzwert von reskalierten Bienaymé-Galton-Watson-Prozess. Es sei (E, r) ein Polnischer metrischer Raum (d.h. separabel und vollständig) und sei B(E) die zugehörige Borel-σ-Algebra. Ferner sei P(E) die Menge aller Wahrscheinlichkeitsmaße auf (E, B(E)) ausgestattet mit schwacher RTopologie (Pn konvergiert schwach gegen P , wenn für alle R stetigen beschränkten f : E → R gilt E f (x)Pn (dx) → E f (x)P (dx)). Unser Ziel ist es, schwache Konvergenz von geeignet reskalierten Verzweigungsprozessen gegen verzweigende Diffusionen auf DE (R+ ) nachzuweisen. Da Diffusionsprozesse stetige Pfade haben werden wir außerdem zeigen müssen, dass Grenzwerte in C(R+ , E) liegen (im Raum der stetigen Funktionen von R+ nach E). 3.1 Kriterien für schwache Konvergenz von Prozessen In diesem Abschnitt erinnern wir an einige Kriterien für schwache Konvergenz. Ist (Pn ) eine Folge auf P(E), dann wird schwache Konvergenz typischerweise in zwei Schritten gezeigt. • Existenz von Grenzwerten: Dazu zeigt man, dass (Pn ) relativ kompakt ist, d.h. jede Teilfolge enthält eine weitere schwach konvergente Teilfolge. Auf Polnischen Räumen ist diese Bedingung nach Prohorov’s Theorem äquivalent zu Straffheit. Dabei heißt (Pn ) straff, falls zu jedem ε > 0 ein kompaktes K ⊂ E existiert mit Pn (K) ≥ 1 − ε für alle n. • Eindeutigkeit: Hier zeigt man, dass es höchstens ein Grenzwert geben kann. Definition 3.1. Für x ∈ DE (R+ ), δ > 0 und T > 0 ist der Stetigkeitsmodul definiert durch w0 (x, δ, T ) := inf max {ti } i sup r(x(s), x(t)), (3.1) s,t∈[ti−1 ,ti ) mit Infimum über alle Partitionen 0 = t0 < t1 < · · · < T ≤ tn mit min1≤i≤n (ti − ti−1 ) > δ für alle n. Man kann zeigen, dass der Stetigkeitsmodul fallend in δ ist. Ferner kann man sich auch überlegen, dass eine Funktion kleines Stetigkeitsmodul haben kann auch wenn sie große Sprünge macht. Dazu dürfen die Sprünge nur nicht zu nah beieinander sein (insbesondere darf es keine Häufungspunkte von Sprüngen geben), sodass die Sprünge auf die einzelnen Partitionsabschnitte verteilt werden können. Das folgende Resultat gibt Kriterien für relative Kompaktheit in DE (R+ ) an (siehe Ethier and Kurtz 1986, Theorem 3.6.3). 33 3 Diffusionsapproximation von Verzweigungsprozessen Theorem 3.2. Es sei (E, r) ein vollständiger metrischer Raum. Die Menge A ⊂ DE (R+ ) ist genau dann relativ kompakt (d.h. Abschluss von A ist kompakt), wenn die folgenden zwei Bedingungen gelten: (i) Für jede rationale Zahl t ≥ 0 gibt es eine Kompakte Menge Γt ⊂ E, so dass x(t) ∈ Γt für alle x ∈ A. (ii) Für alle T > 0 gilt lim sup w0 (x, δ, T ) = 0. δ↓0 x∈A Die Bedingung (i) folgt aus eine stärkeren Bedingung (die ihrerseits aus relativer Kompaktheit folgt): Für alle T > 0 gibt es eine kompakte Menge KT ⊂ E so, dass x(t) ∈ KT für alle x ∈ A und 0 ≤ t ≤ T ist. Für das folgende Theorem verweisen wir auf Theoreme 3.7.2 und 3.8.6 in (Ethier and Kurtz 1986) sowie auf (Aldous 1978). (n) Theorem 3.3. Es sei (E, r) Polnisch und sei (X· )n=1,2,... eine Folge stochastischer Prozesse (n) mit Pfaden in DE (R+ ). Ferner sei für jede rationale Zahl t ≥ 0 die Folge (Xt )n=1,2,... straff in (n) E. Dann ist (X· )n=1,2,... genau dann straff in DE (R+ ), wenn eine der folgenden Bedingungen erfüllt ist: (i) Für alle ε > 0 und T > 0 gibt es ein δ > 0 mit sup P[w0 (Xn , δ, T ) ≥ ε] ≤ ε. (3.2) n (ii) Für jedes T > 0 gibt es ein p > 0 und eine Familie {Yn (δ) : 0 < δ < 1, n = 1, 2, . . . } von nicht-negativen Zufallsvariablen mit h p i (n) (n) (n) (n) E r(Xt+u , Xt ) ∧ 1 |FtX ≤ E[Yn (δ)|FtX ] (3.3) für alle 0 ≤ t ≤ T , 0 ≤ u ≤ δ und lim sup E[Yn (δ)] = 0. δ↓0 (3.4) n (iii) Diese äquivalente Bedingung gilt im Fall E = R. Für alle Stoppzeiten Tn , die durch T beschränkt sind und alle ε > 0 gibt es ein δ > 0 und n0 so dass h i (n) (n) sup sup P |XTn +θ − XTn | > ε ≤ ε. (3.5) n≥n0 θ∈[0,δ] Wie zuvor erfüllt eine in DE (R+ ) relativ kompakte Folge (X· ) die stärkere compact containment condition: Für alle ε > 0 und T > 0 existiert eine kompakte Menge KT,ε ⊂ E mit (n) inf P[Xt (n) n ∈ KT,ε für 0 ≤ t ≤ T ] ≥ 1 − ε. (3.6) Mit dem folgenden Kriterium kann man relative Kompaktheit von Folgen von E-wertigen Prozessen auf Straffheit von reellwertigen Funktionen von diesen Prozessen für eine genügend große Funktionenmenge (siehe Ethier and Kurtz 1986, Theorem 3.9.1) zurückführen. 34 3 Diffusionsapproximation von Verzweigungsprozessen (n) Theorem 3.4. Es sei (E, r) vollständig und separabel und sei (X· ) eine Folge von Prozessen mit Pfaden in DE (R+ ). Ferner sei die compact containment condition (3.6) erfüllt. Dann ist (n) (n) (X· ) relativ kompakt auf DE (R+ ) wenn f (X· ) straff auf DR (R+ ) für alle f ∈ H ist, wobei H eine dichte Teilmenge von Cb (E) ist bezüglich gleichmäßiger Konvergenz auf kompakten Mengen. Das folgende Resultat zeigt wie man die Straffheit von Familien von Funktionalen mithilfe der Generatoren zeigen kann. Lemma 3.5. Es sei (X· ) eine Folge von Prozessen mit Pfaden in DE (R+ ) mit zugehörigen (n) Halbgruppen (Tt ) und Generatoren A(n) . Ferner sei die compact containment condition (3.6) (n) erfüllt. Dann ist für ein f ∈ Cn (E) die Folge (n) f (X· ) straff auf DR (R+ ), wenn f, f 2 ∈ D(A(n) ) und sup{kA(n) f k∞ + kA(n) f 2 k∞ } < ∞. (3.7) n (n) Beweis. Die Straffheit von f (Xt ) für jedes t ≥ 0 folgt sofort aus der compact containment condition. Es genügt also (ii) aus Theorem 3.3 zu zeigen. Mit Theorem 2.8(iii) erhalten wir (n) (n) 2 E f (Xt+u ) − f (Xt ) |Ftn h i h i (n) (n) (n) (n) (n) = E f 2 (Xt+u ) − f 2 (Xt )|Ftn − 2f (Xt )E f (Xt+u ) − f (Xt |Ftn Z u Z u (n) = Ts(n) A(n) f 2 (Xs(n) ) ds − 2f (Xt ) Ts(n) A(n) f (Xs(n) ) ds 0 0 ≤ u kA(n) f 2 k∞ + 2kf k∞ kA(n) f k∞ . Nach Voraussetzung ist der Ausdruck in den Klammern gleichmäßig in n beschränkt. Mit u → 0 folgt (ii) aus Theorem 3.3. Um die Eindeutigkeit der Grenzwertes einer Folge von Prozessen zu zeigen genügt es nach Theorem 2.4 zu zeigen, dass die endlich-dimensionalen Verteilungen eindeutig sind. Dazu benutzen wir die Charakterisierung des Grenzwertes durch ein Martingalproblem. Mit deren Hilfe kann man oft ein Prozess mit einem gegebenen Generator beschreiben ohne die zugehörige Halbgruppe genau zu kennen. Um Konvergenz einer reskalierten Folge von BGWP gegen eine Diffusion zu zeigen werden wir zunächst nachweisen, dass alle Grenzwerte Lösungen eines Martingalproblems sind und dann zeigen wir mit Hilfe einer anderen Methode, genannt Dualität, die Eindeutigkeit der Lösungen des Martingalproblems. Es sei X = (Xt )t≥0 ∈ DR+ (E) ein Markov-Prozess mit Generator A und zugehörigem Definitionsbereich D(A). Für f ∈ D(A) setzen wir Z t f Mt := f (Xt ) − Af (Xs ) ds (3.8) 0 und Ft := FtX . Dann gilt für t, s ≥ 0 mit Theorem 2.8 Z s Z t f E[Mt+s |Ft ] = Ts f (Xt ) − Tu Af (Xt ) du − Af (Xu ) du 0 0 Z t = f (Xt ) − Af (Xu ) du = Mtf . 0 35 3 Diffusionsapproximation von Verzweigungsprozessen Also ist (Mtf )t≥0 ein Martingal für jedes f ∈ D(A) wenn X ein Markov-Prozess ist. Umgekehrt sagen wir, dass X Lösung des Martingalproblems für Operator A ist, wenn (Mtf )t≥0 ein Martingal für jedes f ∈ D(A) ist. Man beachte, dass X genau dann eine Lösung des Martingalproblems für Operator A ist, wenn für alle k ∈ N, 0 ≤ t1 ≤ . . . tk < tk+1 , und h1 , . . . , hk ∈ Cb (E) # " Y Z tk+1 k (3.9) Af (Xs ) ds hi (Xtk ) = 0. E f (Xtk+1 ) − f (Xtk ) − tk i=1 (Wir erinnern an die Eigenschaft der bedingten Erwartungen: E [(ξ − E[ξ|F])ζ] = 0 für jede beschränkte F messbare Zufallsvariable ζ). Die Gleichung (3.9) macht nochmal deutlich, dass man anhand von endlich dimensionalen Verteilungen entscheiden kann ob ein stochastischer Prozess Lösung eines Martingalproblems ist oder nicht. Das nächste Resultat zeigt: Konvergieren Lösungen einer Folge von Martingalproblemen schwach, so ist der Grenzwert auch eine Lösung des “Grenzwert”-Martingalproblems. Theorem 3.6. Es sei (X n )n=0,1,... eine Folge von DR+ (E)-wertigen Lösungen von Martingalproblemen mit Generatoren An auf B(E) (beschränkte messbare Funktionen auf E). Ferner sei A ein Operator auf B(E) und für jedes f ∈ D(A) seien fn ∈ D(An ) so, dass lim kfn − f k∞ = 0, n→∞ lim kAn fn − Af k∞ = 0. n→∞ (3.10) Ist Xn schwach konvergent gegen X (in Zeichen Xn ⇒ X), dann ist X eine Lösung des Martingalproblems zu A. Beweis. Sei D(X) := {t ∈ R+ : P[Xt = Xt− ] = 1}, 0 ≤ t1 ≤ . . . tk ≤ s < t ∈ D(X) und hi ∈ Cb (E) für i = 1, . . . , k. Für f und fn wie in (3.10) gilt dann " # Y Z t k E f (Xt ) − f (Xs ) − Af (Xu ) du hi (Xtk ) s i=1 " = lim E n→∞ fn (Xtn ) − fn (Xsn ) − Z s t # Y k An fn (Xun ) du hi (Xtnk ) = 0. i=1 Um diese Gleichung auch auf das Komplement von D(X) fortzusetzen, zeigen wir dass es höchstens abzählbar ist. Die Behauptung folgt dann mit der Rechtsstetigkeit von X. Seien also ε, δ > 0 und T > 0. Angenommen die Menge {0 ≤ t ≤ T : P[r(Xt , Xt− ) ≥ ε] ≥ δ} enthält eine Folge (tn ) von unterschiedlichen Punkten, dann P[r(Xtn , Xtn − ) ≥ ε unendlich oft ] ≥ δ > 0. Dies widerspricht aber der Tatsache, dass jedes x ∈ DE (R+ ) in jedem Intervall [0, T ] nur endlich viele Sprünge der Höhe ≥ ε hat. Damit ist {0 ≤ t ≤ T : P[r(Xt , Xt− ) ≥ ε] > 0} höchstens abzählbar. Die Behauptung folgt dann mit ε → 0. 36 3 Diffusionsapproximation von Verzweigungsprozessen √ Genau wie bei gewöhnlichen Differentialgleichungen (z.B. hat die DGL y 0 = y zwei Lösungen y(x) ≡ 0 und y(x) = x2 /4 mit derselben Anfangswert y(0) = 0) sind die Lösungen von Martingalproblemen im Allgemeinen nicht eindeutig. Genauso wenig müssen die Lösungen Markovprozesse sein. Das folgende Resultat (siehe Ethier and Kurtz 1986, Thm. 4.4.2) zeigt, dass die letzten beiden Eigenschaften aus der Eindeutigkeit der eindimensionalen Verteilungen folgen. Theorem 3.7. Es sei E separabel und sei A ein Operator auf B(E). Ferner seien X und Y zwei Lösungen des Martingalproblems zu A mit derselben Startverteilung. Wenn die eindimensionalen Verteilungen von X und Y übereinstimmen, dann stimmen auch alle endlich-dimensionalen Verteilungen überein. Ferner sind X und Y (zeitlich) homogene Markovprozesse. Eindeutigkeit der Lösungen von Martingalproblemen kann oft mit Hilfe der Dualität der Lösung zu einem anderen Prozess (welcher auch deterministisch sein kann). Das folgende Theorem ist ein Spezialfall von Theorem 4.4.11 in (Ethier and Kurtz 1986). Theorem 3.8. Es seien E1 und E2 zwei metrische Räume und seien f, g ∈ B(E1 × E2 ) mit f (x, ·) ∈ C(E2 ) für alle x ∈ E1 und g(·, y) ∈ C(E1 ) für alle y ∈ E2 . Ferner seien für zwei stochastische Prozesse X und Y auf E1 bzw. E2 Z t Z t f (Xt , y) − g(Xs , y) ds und f (x, Yt ) − g(x, Ys ) ds (3.11) 0 0 Martingale für alle x ∈ E1 und y ∈ E2 . Dann gilt für t ≥ 0 EX0 [f (Xt , Y0 )] = EY0 [f (X0 , Yt )]. (3.12) Beweis. Da f und g beschränkt sind können wir in (3.11) Erwartungswerte nehmen und die Integrationsreihenfolge vertauschen. Nach Ableiten erhalten wir dann für s ≥ 0 d EX [f (Xs , y)] = EX0 [g(Xs , y)] ds 0 Es folgt für s ∈ [0, t] d EY [f (x, Ys )] = EY0 [g(x, Ys )]. ds 0 und d EX ×Y [f (Xs , Yt−s )] = EX0 ×Y0 [g(Xs , Yt−s )] − EX0 ×Y0 [g(Xs , Yt−s )] = 0. ds 0 0 Schließlich liefert Integration über [0, t] Z t d 0= EX0 ×Y0 [f (Xs , Yt−s )] ds = EX0 ×Y0 [f (Xt , Y0 )] − EX0 ×Y0 [f (X0 , Yt )], 0 ds (3.13) (3.14) was gerade die Behauptung ist. 3.2 Diffusionslimes reskalierter BGWP Es sei Z (N ) eine Folge von BGWP in stetiger Zeit (definiert in Abschnitt 2.3) mit Rate α (für die Lebensdauer) und Nachkommensverteilung gegeben durch die Verteilung von ξ (N ) . In diesem (N ) Abschnitt betrachten wir das Verhalten der Folge X (N ) := (Xt )t≥0 (N ) Xt := 1 (N ) Z N Nt (N ) (3.15) für N → ∞. Wir nehmen an, dass Z0 in Verteilung gegen eine Zufallsvariable X0 konvergiert (ansonsten können wir natürlich auch keine Konvergenz auf der Prozessebene erwarten). 37 3 Diffusionsapproximation von Verzweigungsprozessen Theorem 3.9. Es sei A ein Operator definiert durch 1 Af (x) := ασ 2 xf 00 (x) + αµxf 0 (x) 2 (3.16) µ + o( N1 ) und Var[ξ (N ) ] = σ 2 + o(1) < ∞. für f ∈ CC∞ (R+ ). Ferner seien E[ξ (N ) ] = m(N ) = 1 + N (N ) Konvergiert X0 gegen X0 (deterministisch), dann konvergiert X (N ) definiert in (3.15) in Verteilung gegen einen stochastischen Prozess X welcher die eindeutige Lösung des Martingalproblems zu A auf DR+ (R+ ) ist. (N ) Die Annahme, dass X0 wendig. deterministisch ist vereinfacht etwas den Beweis ist aber nicht not- Beweis. Der Generator A(N ) von X (N ) ist gegeben durch A(N ) f (x) = N 2 αx ∞ X (N ) pk k=0 k−1 − f (x) , f x+ N wobei hier ein N durch die Zeitskalierung (bzw. Beschleunigung der Rate von α auf N α) und das andere wegen z = N x auftaucht. Es genügt f ∈ CC∞ zu betrachten. Wir wählen so ein f mit Träger in [0, K] für ein K > 0. Mit Taylorformel erhalten wir ! k−1 Z ∞ X k−1 0 1 k − 1 2 00 1 x+ N (N ) (N ) 2 2 000 A f (x) = αN x pk f (x) + f (x) + (x − y) f (y) dy N 2 N 2 x k=0 und mit 1 = m(N ) − µ N + o( N1 ) = αf 0 (x)x N 1 + αxf 00 (x) 2 1 1 + αx 2 N ∞ X ! (N ) pk (k k=0 ∞ X ∞ X k=0 − m(N ) ) + µ + o(1) ! (N ) pk (k − m(N ) )2 + o(1) k=0 (N ) pk (k 3 Z − 1) 1 2 000 y f 0 k−1 x+ y N dy. Die Summe in der ersten Zeile ist gleich Null und in der zweiten Zeile ist die Summe gleich σ 2 + o(1). In den ersten beiden Zeilen haben wir also Af (x) + o(1) stehen. Damit gilt (in der 38 3 Diffusionsapproximation von Verzweigungsprozessen zweiten Ungleichung nutzen wir unter anderem f (x) = 0 für x > K) |A(N ) f (x) − Af (x)| 1 1 = αx 2 N Z 1 ∞ X k−1 (N ) 2 000 3 x+ y f y dy + o(1) pk (k − 1) N 0 k=0 ∞ Z 1∧ N (K−x)+ k−1 1 k − 1 1 X (N ) 2 000 3 y f ≤ αx x+ pk (k − 1) y dy 2 N N 0 k=2 (N ) + p0 kf 000 k∞ 1{x≤K} + o(1) ∞ N (K − x)+ 1 X (N ) 1 (N ) 1 3 000 pk (k − 1) kf k∞ 1 ∧ + αK p0 kf 000 k∞ + o(1) ≤ αx 2 N k−1 N k=2 ∞ X 1 (N ) 000 2 k−1 ≤ αKkf k∞ pk (k − 1) ∧ K + o(1). 2 N k=2 Die Summe in der ersten Zeile konvergiert nach dem Satz von dominierter Konvergenz gegen Null und somit gilt kA(N ) f − Af k∞ → 0 für N → ∞. Für Straffheit in DR+ (R+ ) bleibt nach Theorem 3.5 und Lemma 3.5 noch die compact containment condition zu zeigen. Dafür (N ) (N ) überzeugen wir uns zunächst davon, dass e−α(m −1)t Zt ein Martingal ist. Es gilt A(N ) id(x) = αx ∞ X (N ) pk (x − 1 + k − x) = αx(m(N ) − 1) k=0 und somit (N ) Ez [Zt Z t A(N ) id(Zs(N ) ) ds ]=z+E 0 Z t αZs(N ) (m(N ) − 1) ds Z t (N ) = z + α(m − 1) E[Zs(N ) ] ds. =z+E 0 0 (N ) (N ) (N ) Die Lösung dieser Gleichung (nach Ez [Zt ])) ist Ez [Zt ]) = zeα(m −1)t . Daraus erhält man (N ) (N ) die Martingaleigenschaft von e−α(m −1)t Zt . Mit der Doob’schen Ungleichung erhalten wir für T, c > 0 PX (N ) 0 " # sup 0≤t≤T (N ) Xt > c = PZ (N ) ≤ PZ (N ) sup 0 0≤t≤N T 0 " sup 0≤t≤N T # 1 (N ) Z >c N t 1 (N ) −α(m(N ) −1)t Z e N t !−1 >c (N ) −1)t sup e−α(m 0≤t≤N T 1 1 (N ) (N ) (N ) sup e−α(m −1)t EZ (N ) [ZN t e−α(m −1)N T ] c 0≤t≤N T N 0 1 (N ) (N ) = sup e−α(m −1)t X0 . c 0≤t≤N T ≤ 39 3 Diffusionsapproximation von Verzweigungsprozessen Das Supremum in der letzten Zeile ist beschränkt in N . Wenn µ = m(N ) − 1 + o(1/N ) < 0 ist dann ist es beschränkt durch 1. Anderenfalls ist es gleich eα(µ+o(1))T was gegen eαµT konvergiert und somit beschränkt h ist. Insgesamt kann i man also zu jedem ε > 0 und jedem T > 0 ein c so (N ) wählen, dass PX (N ) sup0≤t≤T Xt > c < ε gilt, was die compact containment condition zeigt. 0 Nach Theorem 3.6 ist jeder Grenzwert X gegen den eine Teilfolge von X (N ) in Verteilung konvergiert eine Lösung von dem Martingalproblem zu A. Für die Konvergenz X (N ) ⇒ X bleibt also noch die Eindeutigkeit des Grenzwertes zu zeigen. Dies zeigen wir mit Hilfe von Dualität. Sei dazu u(t) die eindeutige Lösung von d 1 u(t) = − ασ 2 u2 (t) + αµu(t), dt 2 auf u(0) = u0 , R+ (u(t) ist natürlich deterministisch). Dann ist e −xu(t) Z − 0 t 1 x( ασ 2 u2 (s) − αµu(s))e−xu(s) ds = e−xu(t) − 2 Z 0 t d −xu(s) e ds = e−xu0 ds ein Martingal für x ∈ R+ . Da X eine Lösung des Martingalproblems zu A ist, ist auch Z t 1 −Xt u e − Xs ( ασ 2 u2 − αµu)e−Xs u ds 2 0 Z t = fu (Xt ) − Afu (Xs ) ds 0 ein Martingal für jedes u ∈ R+ , hier ist fu (x) := e−ux . Nach Theorem 3.8 gilt EX0 [e−uXt ] = e−ut X0 dadurch sind die eindimensionalen Verteilungen von X eindeutig festgelegt und mit Theorem 3.7 folgt die Eindeutigkeit der endlich dimensionalen Verteilungen. Wir haben in dem obigen Theorem Konvergenz in DR+ (R+ ) gezeigt. Tatsächlich kann man sogar zeigen, dass der Grenzwert X eine Diffusion ist, ein Prozess also, dessen Pfade fast sicher in C(R+ , R+ ) liegen. Ferner kann man X als Lösung der stochastischen Differentialgleichung p dXt = ασ 2 Xt dBt + αµXt dt auffassen. Dieser Prozess wird oft als Feller-Diffusion bezeichnet (siehe Feller 1951). Es ist ein Beispiel für einen Verzweigungsprozess mit stetigem Zustandsraum R+ . Ist X ein allgemeiner subkritischer oder kritischer Verzweigungsprozess auf R+ mit Übergangsoperator p(t, x, ·), so gilt (siehe Le Gall 1999) Z ∞ Ex [e−λXt ] = e−λy p(t, x, dy) = e−xut (λ) , λ > 0. 0 Hier ist ut (λ) die eindeutige nicht-negative Lösung der Integralgleichung Z t ut (λ) + ψ(us (λ)) ds = λ 0 wobei 2 ∞ Z ψ(u) = αu + βu + 0 40 (e−ru − 1 + ru) π(dr) 3 Diffusionsapproximation von Verzweigungsprozessen R∞ mit α, β ≥ 0 und einem σ-endlichen Maß π mit 0 (r ∧ r2 )π(dr) < ∞. Die Funktion ψ heißt Verzweigungsmechanismus. Außerdem kann man zu jedem (subkritischen oder kritischen) Verzweigungsprozess X abhängig von den Parametern α, β und π ein Folge von Verzweigungsprozessen mit diskretem Zustandsraum konstruieren, die X approximieren. Die Verzweigungsprozesse die wir betrachtet haben, haben alle keine räumliche Struktur. Man kann eine solche einführen indem man zum Beispiel jedes Individuum während seiner Lebenszeit gemäß einer Irrfahrt auf Zd oder gemäß einer Brownschen Bewegung auf Rd sich bewegen lässt. Stirbt das Individuum, dann wird es eine zufällige (nach der festen Nachkommensverteilung verteilte) Anzahl von Nachkommen ersetzt. Diese verhalten sich dann wie unabhängige Kopien ihrer “Mutter”. Solche Prozesse bezeichnet man als verzweigende Irrfahrt bzw. verzweigende Brownsche Bewegung und man kann sie als maßwertige Prozesse auffassen. Reskalierungen von diesen Prozessen führen zu so genannten Superprozessen (siehe Etheridge 2000). 41 4 Populationsmodelle mit fester Populationsgröße In diesem Kapitel betrachten wir populationsgenetische Modelle mit diskretem Zustandsraum. Ziel der Populationsgenetik ist es, die Mechanismen wie z.B. Mutation, Selektion, Rekombination, zu verstehen, die zu (genetischer) Variabilität führen die man in der Natur beobachten kann. In dem ersten Abschnitt behandeln wir kurz das neutrale Wright-Fisher (WF) Modell und in dem zweiten etwas ausführlicher das Moran-Modell (das Analogon von WF Modell in stetiger Zeit). Für ausführlichere Beschreibung dieser Modelle und deren Erweiterungen verweisen wir auf z.B. (Etheridge 2011) und (Tavaré 2004). 4.1 Wright-Fisher Modell Wir betrachten eine Population mit 2N Individuen die jeweils vom Typ A oder a sind. Die Population verhält sich gemäß einer Markovkette (Xn )n=0,1,... in diskreter Zeit. Dabei ist Xn := #Individuen vom Typ A in Generation n. Natürlich reicht es die Evolution des einen Typs zu betrachten. Wir betrachten zunächst eine neutrale Population ohne Mutation. Neutral bedeutet hier, dass kein Typ bei der Reproduktion bevorzugt wird. In diesem Fall kann man die Evolution auch so auffassen, dass die 2N Individuen zur Zeit n + 1 sich ihre Mutter zufällig aus der n-ten Generation “ziehen”, d.h. gegeben Xn ist Xn+1 binomial verteilt mit Parameter Xn /2N : P[Xn+1 2N Xn k Xn 2N −k = k|Xn ] = 1− , k ∈ {0, . . . , 2N }. k 2N 2N (4.1) Wegen E[Xn+1 |X0 , . . . , Xn ] = E[Xn+1 |Xn ] = 2N Xn = Xn 2N (4.2) ist (Xn ) ein Martingal. Insbesondere gilt E[Xn ] = E[X0 ] für alle n ≥ 1. Es ist klar, dass (Xn ) eine Markovkette auf {0, · · · , 2N } mit absorbierenden Zuständen 0 (Typ a fixiert in der Population) und 2N (Typ A fixiert in der Population). Es sei pi die Wahrscheinlichkeit für die Absorption in 2N gegeben X0 = i. Für pi kann man dann eine Rekurrenzgleichung mit Randwerten p0 = 0 und p2N = 1 hinschreiben und auch lösen (siehe Tavaré 2004), man kann sie aber auch mit Hilfe des Martingal-Stoppsatzes lösen. Sei dazu τ = inf{n ≥ 0 : Xn = 0, oder Xn = 2N }, dann kann man sich überlegen, dass τ fast sicher endlich ist und es gilt i = E[Xτ |X0 = i] = pi 2N + (1 − pi )0 42 4 Populationsmodelle mit fester Populationsgröße und somit pi = i . 2N (4.3) Also ist die Wahrscheinlichkeit in einem bestimmten Typ zu fixieren ist gleich der relativen Häufigkeit des Typs zur Zeit 0. Wie wir später sehen werden stammt für große n die gesamte Population von einem Vorfahr aus der Zeit 0 ab. Dieser Vorfahr wird zufällig gewählt und die W’keit, dass er vom Typ A ist, ist gerade pi . Wie für pi , kann man für die mittlere Absorptionszeit Ei [τ ] auch eine Rekurrenzgleichung hinschreiben. Es ist jedoch kompliziert diese explizit zu lösen. Später bei der Diffusionsapproximation werden wir approximativ Ei [τ ] angeben. Nun berechnen wir die Varianz von Xn . Es gilt Var[Xn ] = E[Var[Xn |Xn−1 ]] + Var[E[Xn |Xn−1 ]] Xn−1 Xn−1 = E[2N (1 − ] + Var[Xn−1 ] 2N 2N 1 2 E[Xn−1 ] + Var[Xn−1 ] = E[Xn−1 ] − 2N 1 = E[Xn−1 ] − (Var[Xn−1 ] + E2 [Xn−1 ]) + Var[Xn−1 ] 2N 1 1 = E[X0 ](2N − E[X0 ]) + (1 − ) Var[Xn−1 ] 2N 2N = · · · = E[X0 ](2N − E[X0 ])(1 − λn ) + λn Var[X0 ], (4.4) 1 wobei λ = 1 − 2N . Insbesondere konvergiert die Varianz gegen 2N E[X0 /2N ](1 − E[X0 /2N ]) (also gegen die Varianz der (2N, E[X0 ]/2N )-Binomialverteilung) für n → ∞. Eine wichtige Größe für Variation in der Population ist die so genannte Heterozygotie. Sie ist definiert als die Wahrscheinlichkeit h(r), dass zwei in Generation r zufällig (mit zurücklegen) gezogene Individuen unterschiedliche Typen haben, d.h. Xr 2N − Xr h(r) := 2E . 2N 2N Mit der Formel für die Varianz erhalten wir E[Xr (2N − Xr )] = 2N E[Xr ] − E[Xr2 ] = 2N E[X0 ] − Var[Xr ] − E2 [Xr ] = 2N E[X0 ] − E[X0 ](2N − E[X0 ])(1 − λr ) − λr Var[X0 ] − E2 [X0 ] = λr (2N E[X0 ] − Var[X0 ] − E2 [X0 ]) = λr E[X0 (2N − X0 )]. Es folgt h(r) = λr h(0). Somit nimmt die Heterozygotie geometrisch ab. Man kann das Wright-Fisher Modell in verschiedene Richtungen verallgemeinern, und damit das Modell “realistischer” machen. So kann man z.B. auch Mutation, Selektion und Rekombination modellieren und einen allgemeineren Typenraum zulassen. Einige dieser Verallgemeinerungen werden wir bei dem Moran Modell betrachten. 43 4 Populationsmodelle mit fester Populationsgröße 4.2 Moran Modell Das Moran Modell ist das stetige Zeit Analogon des Wright-Fisher Modells, das wir uns im letzten Abschnitt angesehen haben. Mathematisch ist es einfacher zu handhaben, weil beispielsweise im neutralen Zweitypen-Fall ohne Mutation die Allelfrequenzen (Häufigkeiten eines Typs) sich wie ein Geburts- und Todesprozess verhalten. Außerdem werden wir sehen, dass die Genealogie einer Stichprobe aus einer Population, die sich nach dem Moran Modell entwickelt, durch den Kingman-Koaleszenten gegeben ist. Letzterer beschreibt unter bestimmten Voraussetzungen auch, jedoch nur approximativ, die Genealogie des Cannings Modells. Das Wright-Fisher Modell ist ein spezielles Cannings Modell. Definition 4.1 (Neutrales Moran Modell). Eine Population von N Genen (verteilt auf N Individuen) entwickelt sich gemäß einem neutralem Moran Modell, wenn nach jeweils exponentiell verteilter Wartezeit mit Rate N2 ein Paar von Genen zufällig ausgewählt wird. Einer der beiden stirbt und wird durch einen Nachkommen des anderen ersetzt. Wie bei vielen Markovketten und Teilchensystemen in stetiger Zeit der Fall ist, kann man auch ein Moran Modell mit Hilfe von Poissonprozessen graphisch konstruieren. Es sei U = {1, . . . , N } und sei {Ni,j : i, j ∈ U } eine Familie von unabhängigen Poissonprozessen mit jeweils Rate Eins. Zu jedem Sprungzeitpunkt von Ni,j findet ein Resamplingereignis zwischen i und j statt. Mit jeweils Wahrscheinlichkeit 1/2 wird i durch einen Nachkommen von j oder umgekehrt ersetzt. Nach dem Resampling kriegt das “neue” Individuum die Nummer des Individuums, das ersetzt wurde. In Abbildung 4.1 sind diese Resamplingereignisse durch Pfeile dargestellt. Da die endlich vielen Poissonprozesse fast sicher keine gemeinsame Sprünge haben gibt es höchsten jeweils ein Ereignis pro Zeitpunkt. Die Anzahl ungeordne ter Paare ist N2 und deswegen ist die Warte zeit zwischen den Ereignissen Exp( N2 ) verteilt. (Hier benutzen wir die Tatsache, dass das Minimum von n unabhängigen exponentiell verteilten Zufallsvariablen mit Rate λ exponentiell verteilt sind mit Rate λn.) t 1 2 3 4 5 Abbildung 4.1: Graphische Konstruktion des Moran Modells Wie beim Wright-Fisher Modell betrachten wir zunächst den neutralen Fall ohne Mutation mit zwei Typen A und a. Sei Xt die Häufigkeit der Individuen vom Typ A zur Zeit t. Dann ist X = (Xt )t≥0 ein Markovkette in stetiger Zeit mit Zustandsraum {0, 1/N, . . . , (N − 1), N }, wobei die Zustände 0 und 1 absorbierend sind. 44 4 Populationsmodelle mit fester Populationsgröße Der Generator A(N ) von X sieht wie folgt aus: N 1 1 (N ) A f (p) := p(1 − p) f p + − f (p) + (1 − p)p f p − − f (p) . (4.5) 2 N N Für p ∈ {0, 1} ist natürlich A(N ) f (p) = 0. Um zu sehen, dass A(N ) wirklich der Generator von N X ist, beachte, dass 2 immer die Gesamtrate für ein Ereignis ist. Ist bei einem Ereignis p die Häufigkeit des Typs A, dann ändert sie sich nur dann, wenn der Pfeil in der Graphischen Konstruktion vom Typ A zu Typ a zeigt oder umgekehrt. Pfeile, die von einem Typ auf denselben zeigen, ändern zwar die “Verwandschaftsverhältnisse” im Modell, nicht aber die Typenhäufigkeiten. Die Wahrscheinlichkeit für beide Ereignisse p → p + 1/N und p → p − 1/N ist also p(1 − p). Ferner finden mit Wahrscheinlichkeit 1 − 2p(1 − p) Ereignisse p → p statt, die die Typenhäufigkeiten nicht verändern. Die Wahrscheinlichkeit ein Ereignis in dem Intervall [0, h] zu beobachten ist von der Ordnung N2 h + O(h2 ). Wir wollen uns nun anschauen, wie sich X, was wir ab jetzt mit X (N ) bezeichnen für große N verhält. Für dreimal stetig differenzierbare Funktion f erhalten wir mit der Taylorformel N 1 0 1 00 1 (N ) A f (p) = p(1 − p) f (p) + f (p) + O 2 N 2N 2 N3 N 1 1 00 1 + p(1 − p) − f 0 (p) + f (p) + O 2 N 2N 2 N3 1 N 1 00 f (p) + O = p(1 − p) 2 N N3 2 1 1 = p(1 − p)f 00 (p) + O . 2 N Wir fassen dieses Resultat im folgenden Lemma zusammen. Lemma 4.2. Für N → ∞ konvergiert der Generator A(N ) des Prozesses der Typenhäufighkeit X (N ) gegen den Generator der Wright-Fisher Diffusion p = (pt )t≥0 , der durch 1 Af (p) = p(1 − p)f 00 (p) 2 (4.6) gegeben ist. Bemerkung 4.3 (Konvergenz der reskalierten Wright-Fisher Markovkette). Es sei X (N ) = (N ) (Xn ) die WF-Markovkette aus dem vorherigen Abschnitt; siehe (4.1). Wir ersetzen dort 2N jeweils durch N und setzen 1 (N ) pt := X[N t] . N Für hinreichend glatte Funktionen f haben wir dann E[f (p1/N )|p0 = p] − f (p) d E[f (pt )|p0 = p] ≈ dt 1/N t=0 f 00 (p) 0 2 −2 = N f (p)E[(p1/N − p)|p0 = p] + E[(p1/N − p) |p0 = p] + O(N ) . 2 45 4 Populationsmodelle mit fester Populationsgröße Nun ist nach (4.2) E[(p1/N − p)|p0 = p] = 1 (N ) (N ) E[(X1 − X0 )|p0 = p] = 0 N und nach (4.4) E[(p1/N − p)2 |p0 = p] = 1 1 1 p(1 − p) (N ) Var[X1 |X0 = N p] = 2 N p(N − N p)(1 − (1 − )) = . 2 N N N N Insgesamt ist also d 1 ≈ p(1 − p)f 00 (p) + O(N −1 ). E[f (pt )|p0 = p] dt 2 t=0 Für N → ∞ konvergiert also der reskalierte Prozess der Häufigkeit der Individuen vom Typ A gegen die Wright-Fisher Diffusion. Wir haben schon bemerkt, dass für jedes N die Markovkette X (N ) in fast sicher endlicher Zeit in einem der Zustände 0 oder N absorbiert wird. Dasselbe kann man für die Wright(N ) Fisher Diffusion zeigen. Bezeichnen wir mit Ti bzw. Tp jeweils die entsprechenden erwarteten Absorptionszeiten, dann gilt (N ) Ti ≈ N Ti/N . (4.7) Als nächstes betrachten wir das Moran Modell mit Mutation. Zunächst betrachten wir den einfachen Fall mit Typen aus I = {a, A} (wie in der Abbildung t rechts dargestellt). Mit Mutationsrate θ1 mutiert ein Individuum vom Typ a zum Typ A und mit Rate θ2 ein Individuum vom Typ A zum Typ a. Ferner sei θ = θ1 +θ2 und sei {Ni : i ∈ U } eine Familie von unabhängigen Poissonprozessen mit Parameter θ. Die Sprünge dieser Prozesse sind in der Abbildung durch Kreuze dargestellt. An jedem dieser “Kreuze” mutiert das Individuum zum Typ A mit Wahrscheinlichkeit θ1 /θ und zum Typ a mit Wahrscheinlichkeit θ2 /θ. In der Abbildung ist entlang der Linien 3 und 5 jeweils ein Mutationsereignis das keine Auswirkung auf den Typ hatte, da das Individuum zum selben Typ “mutiert” ist. Für θ1 = θ2 = 0 erhalten wir natürlich das ursprüngliche neutrale Modell ohne Mutation. Sind aber beide Mutationsraten positiv und (N ) 3 5 1 2 4 definieren wir Xt wie zuvor als die Häufigkeit der Individuen vom Typ A, so erhalten wir wieder eiAbbildung 4.2: Moran Modell mit Mutation ne Markovkette auf {0, 1/N, . . . , 1}. Diese ist aber nicht mehr absorbierend. 46 4 Populationsmodelle mit fester Populationsgröße Der Generator von X (N ) ist gegeben durch (N ) ) A(N ) f (p) := A(N res f (p) + Amut f (p) (4.8) mit ) A(N res f (p) = N 1 1 p(1 − p) f p + − f (p) + (1 − p)p f p − − f (p) 2 N N und (N ) Amut 1 1 = N θ1 (1 − p) f p + − f (p) + N θ2 p f p − − f (p) . N N (N ) Den Resampling-Generator Ares f (p) kennen wir schon. Außerdem haben wir schon gezeigt, dass dieser für N → ∞ gegen 12 p(1 − p)f 00 (p) konvergiert. Für den Mutationsgenerator erhalten wir 1 0 1 0 (N ) −2 Amut = N θ1 (1 − p) f (p) − N θ2 p f (p) + O(N ) N N = (θ1 (1 − p) − θ2 p) f 0 (p) + O(N −1 ). Insgesamt gilt also 1 A(N ) f (p) → p(1 − p)f 00 (p) + (θ1 (1 − p) − θ2 p) f 0 (p), 2 N → ∞. Das ist der Generator der Wright-Fisher Diffusion mit Mutation. 4.3 Wright-Fisher Diffusion Eine eindimensionale Diffusion ist ein starker Markovprozess auf R mit stetigen Pfaden. Der Zustandsraum ist typischerweise ein Intervall (a, b), der endlich oder unendlich ein kann. Außerdem können je nach Anwendung beide, einer oder keiner der Randpunkte {a, b} zum Zustandsraum gehören. Der Generator hat die Form 1 Af (x) = σ 2 (x)f 00 (x) + µ(x)f 0 (x). 2 (4.9) Je nach Verhalten an den Randpunkten müssen die Funktionen f ∈ D(A) abgesehen von zweimaliger Differenzierbarkeit bestimmte Randbedingungen erfüllen. Wir nehmen an: 1. Für jedes kompakte Intervall I ⊂ (a, b) gibt es ein ε mit σ 2 (x) > ε für alle x ∈ I; 2. Die Funktionen µ und σ 2 sind stetig auf (a, b). Für f1 (x) = x gilt 1 Af1 (Xt ) = lim EXt [Xt+h − Xt ] = µ(Xt ) h↓0 h 47 4 Populationsmodelle mit fester Populationsgröße und somit für h ↓ 0 EXt [Xt+h − Xt ] = hµ(Xt ) + o(h). 2 Schreiben wir außerdem (Xt+h − Xt )2 = Xt+h − Xt2 − 2Xt (Xt+h − Xt ), so gilt mit f2 (x) = x2 1 Af2 (Xt ) − 2Xt Af1 (Xt ) = lim EXt [(Xt+h − Xt )2 ] = σ 2 (Xt ) h↓0 h und somit für h ↓ 0 EXt [(Xt+h − Xt )2 ] = hσ 2 (Xt ) + o(h). Aus diesem Grund bezeichnet man mu(x) und σ 2 (x) als infinitesimale Drift bzw. infinitesimale Varianz des zugehörigen Diffusionsprozesses. Die Skalenfunktion eines Diffusionsprozesses mit Generator (4.9) ist definiert durch Z y Z x 2µ(z) S(x) := exp − dz dy, 2 x0 η σ (z) wobei x0 , η ∈ (a, b). Ferner ist die Funktion m(x) := 1 σ 2 (x)S 0 (x) die Dichte des Speed-Maßes. Für z ∈ (a, b) setzen wir Hz := inf{t ≥ 0 : Xt = z}. Mit Hilfe des folgenden Resultates kann man bei Diffusionen die Wahrscheinlichkeiten einen Zustand vor dem anderen zu erreichen berechnen. Lemma 4.4. Für a < a0 < x < b0 < b gilt Px [Ta0 < Tb0 ] = S(b0 ) − S(x) . S(b0 ) − S(a0 ) (4.10) Sind beide Ränder a und b in fast sicher endlicher Zeit erreichbar, dann gilt (4.10) auch für a0 = a und b0 = b. Wright-Fisher Diffusion ohne Mutation ist ein Prozess auf [0, 1] mit µ ≡ 0 und σ 2 (x) = x(1−x). Dabei sind beide Ränder absorbierend. Dann ist S(x) = x − x0 und wir haben Px [T0 < T1 ] = (1 − x) für x ∈ [0, 1]. Dies ist genau dass, was man wegen (4.3) erwarten konnte. Es sei T ∗ die Austrittszeit des Prozesses (Xt )t≥0 aus (a, b). Die Green-Funktion G(x, ξ) gibt die erwartete Zeit, die der Prozess bis zur Zeit T ∗ in ξ verbringt bei Start in x. Natürlich ist G(a, ξ) = G(b, ξ) = 0. Allgemein ist die Green-Funktion einer Diffusion mit Generator (4.9) und den entsprechenden Skalenfunktion S und der Dichte des Speed-Maßes m gegeben durch ( 2(S(b) − S(ξ)) S(x)−S(a) x ≤ ξ < b, S(b)−S(a) m(ξ) : := G(x, ξ) (4.11) S(b)−S(x) 2(S(ξ) − S(a)) S(b)−S(a) m(ξ) : a < ξ ≤ x. 48 4 Populationsmodelle mit fester Populationsgröße Mit Hilfe der Green-Funktion kann man verschiedene Funktionale des Prozesses berechnen. Für stetige Funktionen g auf (a, b) gilt nämlich "Z ∗ # Z b T Ex G(x, ξ)g(ξ) dξ. (4.12) g(Xs ) ds = a 0 Nehmen wir hier g ≡ 1, so steht hier auf der linken Seite E[T ∗ ]. Für die Wright-Fisher Diffusion erhalten wir also für p ∈ (0, 1) Z 1 ∗ Ep [T ] = G(p, ξ) dξ 0 Z 1 Z p 1 1 p(1 − ξ) =2 (1 − p)ξ dξ + 2 dξ ξ(1 − ξ) ξ(1 − ξ) p 0 Z 1 Z p 1 1 = 2p dξ + 2(1 − p) dξ ξ 1 − ξ p 0 = −2(p log p + (1 − p) log(1 − p)). Für große N ist dies auch eine gute Approximation für die erwartete Absorptionszeit in dem Moran Modell bei Start des einen Typs mit Häufigkeit p. Für Wright-Fisher Modell auf der ursprünglichen Zeitskala und bei Start mit Häufigkeit p gilt wie wir schon in (4.7) bemerkt haben Tp(N ) ≈ −2N (p log p + (1 − p) log(1 − p)), (N ) und insbesondere ist T1/2 ≈ 2N log 2. Nun betrachten wir die Wright-Fisher Diffusion mit Mutation. In diesem Fall sind die Ränder nicht absorbierend also handelt es sich um eine regulären (d.h. jeder Punkt ist mit positiver Wahrscheinlichkeit von jedem anderen Punkt aus erreichbar, in der Sprache von Markovketten würde man irreduzibel sagen) Diffusion auf einem kompakten Intervall. Damit ist sie auch positiv rekurrent und in diesem Fall haben Markovketten eindeutige stationäre Verteilungen. Dasselbe ist auch für Diffusion wahr und schauen uns die stationäre Verteilung der Wright-Fisher Diffusion an. Es sei zunächst allgemein X = (Xt )t≥0 ein Diffusionsprozess auf [a, b] mit Generator (4.9). Eine stationäre Verteilung von X ist eine Verteilung Ψ mit der Eigenschaft Xt ∼ Ψ für alle t ≥ 0, falls X0 ∼ Ψ. Insbesondere ist dann Z d d b 0 = E[f (Xt )|X0 ∼ Ψ] = E[f (Xt )|X0 = x]Ψ(dx). dt dt a An der Stelle t = 0 erhalten wir Z b Af (x)Ψ(dx) = 0 a für alle f ∈ D(A). Aus dieser Gleichung kann man manchmal Ψ bekommen. Wir schreiben im Folgenden ψ(x) dx = Ψ(dx). Mit partieller Integration erhalten wir Z b 1 2 d2 f df σ (x) 2 (x) + µ(x) (x) ψ(x) dx 0= 2 dx dx a Z b 2 1 d d 2 = f (x) (σ (x)ψ(x)) − (µ(x)ψ(x)) dx + Randterme. 2 dx2 dx a 49 4 Populationsmodelle mit fester Populationsgröße Diese Gleichung muss für alle f ∈ D(A) gelten und insbesondere können wir die Funktionen so wählen, dass jeweils f und f 0 auf dem Rand verschwinden. Für solche Funktionen ist der Randterm Null. Also muss für x ∈ (a, b) 1 d2 2 d (σ (x)ψ(x)) − (µ(x)ψ(x)) = 0 2 2 dx dx gelten. Nach einer Integration (und Multiplikation beider Seiten mit zwei) erhalten wir d 2 (σ (x)ψ(x)) − 2µ(x)ψ(x) = C1 , dx für eine Konstante C1 . Damit gilt d 0 d (S (y)σ 2 (y)ψ(y)) = S 00 (y)σ 2 (y)ψ(y) + S 0 (y) (σ 2 (y)ψ(y)) dy dy d 2µ(y) 0 = − 2 S (y)σ 2 (y)ψ(y) + S 0 (y) (σ 2 (y)ψ(y)) σ (y) dy 0 = C1 S (y), woraus wir S 0 (y)σ 2 (y)ψ(y) = C1 S(y) + C2 erhalten. Diese Gleichung lässt sich nach ψ(y) auflösen: ψ(y) = C1 S(y) S 0 (y)σ 2 (y) + C2 1 S 0 (y)σ 2 (y) = m(y)(C1 S(y) + C2 ). Rb Wenn man nun C1 und C2 so wählen kann, dass ψ ≥ 0 und a ψ(y) dy = 1 ist, dann ist ψ die Rb Dichte der stationären Verteilung von X. Wenn insbesondere a m(y) dy < ∞ und wir C1 = 0 wählen, dann ist ψ(y) = R b a m(y) (4.13) m(y) dy die Dichte einer stationären Verteilung von X. Ist die Diffusion zudem regulär, dann ist die stationäre Verteilung eindeutig und ihre Dichte ist gegeben durch (4.13). Schauen wir uns nun wieder die Wright-Fisher Diffusion mit Generator 1 Af (p) = p(1 − p)f 00 (p) + (θ1 (1 − p) − θ2 p) f 0 (p). 2 In diesem Fall ist Z p 2µ(z) S (p) = exp − dz 2 p0 σ (z) Z p θ1 (1 − z) − θ2 z = exp − dz z(1 − z) p0 0 = C exp(−2θ1 log p − 2θ2 log(1 − p)) = Cp−2θ1 (1 − p)−2θ2 , 50 4 Populationsmodelle mit fester Populationsgröße wobei C eine von p0 abhängige Konstante ist. Es folgt 1 m(p) = S 0 (p)σ 2 (p) = Cp2θ1 −1 (1 − p)2θ2 −1 . Nun ist Z 1 1 Z m(p) dp = C 0 p2θ1 −1 (1 − p)2θ2 −1 dp = C 0 Γ(2θ1 )Γ(2θ2 ) , Γ(2(θ1 + θ2 )) und die stationäre Verteilung ist gegeben durch die Betaverteilung mit Dichte ψ(p) = Γ(2(θ1 + θ2 )) 2θ1 −1 p (1 − p)2θ2 −1 . Γ(2θ1 )Γ(2θ2 ) 4.4 Kingmann’s Koaleszent Wir haben bei dem Wright-Fisher Modell gesagt, dass sich die Individuen der n + 1-ten Generation die Eltern unter den Individuen der n-ten Generation zufällig wählen. Diese Beschreibung liefert auf natürliche weise eine genealogische Struktur des Wright-Fisher Modells. Diese Struktur ist auch bei dem Moran Modell aus der graphischen Konstruktion leicht abzulesen. Schauen wir uns erst die Genealogie im Wright-Fisher Modell an (mit N Individuen). Zwei Individuen haben (ziehen) einen gemeinsamen Vorfahr in der vorherigen Generation mit W’keit 1/N . Ist dies nicht der Fall, dann haben ihre Vorfahren einen gemeinsamen Vorfahr in der Generation davor mit W’keit 1/N , usw. Damit ist die Zeit T bis zum gemeinsamen Vorfahr geometrisch verteilt mit Parameter 1/N , d.h. für k = 1, 2, . . . ist P[T = k] = 1/N (1 − 1/N )k−1 und E[T ] = N . Beträgt eine Zeiteinheit N Generationen, dann ist für x ≥ 0 1 N x N →∞ −x P[Zeit bis zum gem. Vorfahr > x] = 1 − −−−−→ e , N d.h. im Grenzwert ist diese Zeit exponentiell verteilt mit Rate 1. Nehmen wir eine Stichprobe von k ≥ 2 Individuen. Die W’keit, dass mehr als drei Individuen einen gemeinsamen Vorfahr in der vorherigen Generation haben (multipler Koaleszent) ist von der Ordnung O(1/N 2 ). Auch die W’keit, dass zwei oder mehr Paare in der vorherigen Generation ihre zwei unterschiedlichen Vorfahren finden (simultaner Koaleszent) ist von der Ordnung O(1/N 2 ). Bevor wir so ein Ereignis für große N sehen sind alle paare von Individuen miteinander verschmolzen, d.h. bei dem Wright-Fisher Modell werden wir für große N in der Genealogie nur Verschmelzungen von höchstens zwei Ahnenlinien sehen die jeweils exponentiell mit Rate 1 verteilt sind. Nummerieren die k Individuen durch und betrachten den oben beschriebenen Verschmelzungsprozess, den wir hier mit π := (πt )t≥0 bezeichnen, auf den Äquivalenzklassen [k] := {1, . . . , k}. Jede Äquivalenzklasse in πt stellt zur Zeit t einen Vorfahr der in dieser Klasse enthaltenen Individuen dar. Der Prozess π startet immer mit einelementigen Äquivalenzklassen {{1}, . . . , {k}}. ist beispielsweise k = 5 und πt = {{1, 4}, {2, 5}, {3}}, dann bedeutet das, dass 1 und 4, und 2 und 5 bis zur Zeit t jeweils einen gemeinsamen Vorfahr gefunden haben. Das Individuum 3 teilt bis zur Zeit t keinen gemeinsamen Vorfahr mit irgendeinem anderen Individuum aus der Stichprobe. 51 4 Populationsmodelle mit fester Populationsgröße Definition 4.5 (Kingmann’s Koaleszent). Der Kingman k-Koaleszent ist eine Markovkette auf Ek , den Äquivalenzklassen auf [k], mit Übergangsraten qξ,η , ξ, η ∈ Ek definiert durch ( 1 wenn η aus ξ durch Verschmelzen von genau zwei Klassen erhalten werden kann, qξ,η := 0 sonst. Der Kingmann N-Koaleszent ist ein Prozess auf Äquivalenzrelationen auf N mit der Eigenschaft, dass jede Einschränkung auf eine Menge der Größe k ein k-Koaleszent ist. In jedem Fall besteht die Anfangsbedingung aus einelementigen Äquivalenzklassen. Wenn wir nur an der jeweiligen Anzahl der Äquivalenzklassen, nicht jedoch an deren Zusammensetzung zur Zeit t interessiert sind, so kann man Kingmann’s k-Koaleszent als eine Todeskette auffassen, mit Übergangsraten ( k : wenn j = k-1, 2 qk,j := 0 : sonst. Es sei Wk die Zeit bis zum jüngsten gemeinsamen Vorfahr (MRCA=most recent common ancestor) von k Individuen. Dann gilt Wk = Tk + Tk−1 + · · · + T2 , wobei Tl jeweils die Wartezeit für den Sprung von l nach l + 1 ist. Wir erhalten E[Wk ] = k −1 X l l=2 2 = k X l=2 k X 2 =2 l(l − 1) l=2 1 1 − l−1 l 1 = 2(1 − ). k (4.14) Damit ist die erwartete Zeit bis MRCA der ganzen Population durch 2 beschränkt. Außerdem gilt für K ≥ k 1 2 1 0 ≤ E[WK − Wk ] = 2( − ) ≤ . k K k Insbesondere unterscheiden sich die Zeit zum MRCA von k Individuen und der von der ganzen Population nur wenig für nicht zu kleine Werte von k. Man beachte auch, dass in (4.14) E[T2 ] = 1 den größten Beitrag liefert. Für die Varianz von Wk erhalten wir Var[Wk ] = k X l=2 Var[Tl ] = k −2 X l l=2 2 k−1 X 1 1 1 =8 − 4(1 − )(3 + ) 2 l k k l=1 und es folgt 1 = Var[W2 ] ≤ Var[Wk ] ≤ lim Var[Wk ] = 8 k→∞ π2 − 12 ≈ 1.16. 6 Also kommt auch bei der Varianz der größte Anteil von der Verschmelzungszeit der letzten zwei Individuen. Die Verteilung und auch Dichte von Wk können auch berechnet werden. Wir verweisen auf (Tavaré 2004, 2.3, p. 21). 52 4 Populationsmodelle mit fester Populationsgröße Wir schauen uns nun eine weitere wichtige Größe, nämlich die Baumlänge der Genealogie von k Individuen an, die wir mit Lk bezeichnen und die durch k X Lk := 2T2 + · · · + kTk = `T` `=2 definiert werden kann. Es gilt E[Lk ] = k X `E[T` ] = `=2 k X k−1 ` `=2 X1 2 =2 ∼ 2 log k, für k → ∞ `(` − 1) ` `=1 und Var[Lk ] = k X `2 Var[T` ] = 4 `=2 k−1 X 2π 2 1 ∼ , für k → ∞. 2 ` 3 `=1 Insbesondere wächst ist die erwartete Länge unbeschränkt und die Varianz beschränkt in k. Nun kommen wir zur Verteilung von Lk . Mit E(λ) bezeichnen wir eine exponentiell verteilte Zufallsvariable mit Rate λ. Alle solchen Zufallsvariablen die unten auftauchen sind unabhängig voneinander. Es gilt Lk = k X `=2 d `T` = k X E `=2 `−1 2 d = k−1 X `=1 d min E`j (1/2) = 1≤j≤` max Ej (1/2). 1≤j≤k−1 Es folgt P[Lk ≤ t] = 1 − e−t/2 k−1 , t ≥ 0. Daraus erhält man auch dass Lk − 2 log k gegen die Gumbel-Verteilung mit Verteilungsfunktion −t/2 e−e konvergiert. Denn es ist P[Lk − 2 log k ≤ t] = 1 − e−t/2−log k k−1 = e−t/2 1− k !k−1 k→∞ −t/2 −−−→ e−e . Die Genealogie bei dem Moran Modell ist übersichtlicher als die bei dem (endlichen) WrightFisher Modell. Sie kann einfach von der graphischen Konstruktion abgelesen werden. Verfolgen wir eine Stichprobe von k Individuen, rückwärts in der Zeit, dann treffen wir irgendwann auf einen Pfeil der zwei Individuen miteinander verbindet. Das Individuum an der Pfeilspitze (wurde forwärt in der Zeit ersetzt) verschmilzt mit dem Individuum von dem der Pfeil ausgeht. Letzterer bleibt unverändert. Die Rate mit der man auf ein Pfeil zwischen k Individuen triff ist k rückwärts wie vorwärts gleich und ist gegeben durch 2 . Dies ist genau die Verschmelzungsrate im Kingmann’s k-Koaleszent. Die Genealogie des Moran-Modells ist also genau durch den Kingman Koaleszent gegeben. Die große Stärke der Koaleszenten zeigt sich in der Betrachtung von neutralen Modellen im Multitypenfall und insbesondere mit Mutation. Wir erinnern an die graphische Konstruktion 53 4 Populationsmodelle mit fester Populationsgröße des Moran Modells mit Mutation und zwei Typen in Abbildung 4.2. Anstatt Mutation zwischen zwei Typen kann man sich allgemeinere Mutationsmechanismen und Typenräume vorstellen. Bei der Graphischen Konstruktion ändern sich nur die Ereignisse an den “Mutationskreuzen”. Wir nehmen an, dass Mutationen sich im Moran Modell entlang jeder Linie gemäß unabhängiger Poissonprozesse mit Rate θ/2 ereignen. Definition 4.6 (Infinitely many alleles model). In dem infinitely many alleles model (IMA) wird bei einem Mutationsereignis ein neues Allel erzeugt, das in der Population bis dahin nicht vorgekommen ist. Beispielsweise kann man (0, 1) als Typenraum nehmen und bei jeder Mutation eine neue unanhängige auf (0, 1) gleichverteilte Zufallsvariable nehmen. In dem IMA sind zwei Gene (Individuen) genau dann identisch, wenn auf dem genealogischen Baum keine zwischen den beiden kein Mutationsereignis stattgefunden hat. Wenn T die Zeit bis zum letzten gemeinsamen Vorfahr ist, dann gilt P ( zwei zufällig gezogene Gene sind vom selben Typ ) = E [P ( zwei zufällig gezogene Gene sind vom selben Typ| MRCA zur Zeit T )] = E [P (keine Poissonpunkte im Intervall [0, 2T ] )] h θ i i h = E e− 2 ·2T = E e−θT . Also haben wir nachgerechnet, dass die Homozygotie (definiert als 1− Heterozygotie) die Laplacetransformierte von T ist. Diese Rechnung funktioniert sowohl im neutralen Fall als auch im Fall mit Selektion. Da wir hier schon wissen, dassT exponentiell mit Rate 1 verteilt ist kann man leicht nachrechnen, dass die Homozygotie (im lange laufenden IMA-Modell) durch 1/(1+θ) gegeben ist. 54 Literaturverzeichnis Aldous, D.: 1978, Stopping times and tightness, Ann. Probab. 6(2), 335–340. Athreya, K. B. and Karlin, S.: 1970, Branching processes with random environments, Bull. Amer. Math. Soc. 76, 865–870. Athreya, K. B. and Ney, P. E.: 1972, Branching processes, Springer-Verlag, New York. Die Grundlehren der mathematischen Wissenschaften, Band 196. Birkner, M., Geiger, J. and Kersting, G.: 2005, Branching processes in random environment—a view on critical and subcritical cases, Interacting stochastic systems, Springer, Berlin, pp. 269–291. Etheridge, A.: 2011, Some mathematical models from population genetics, Vol. 2012 of Lecture Notes in Mathematics, Springer, Heidelberg. Lectures from the 39th Probability Summer School held in Saint-Flour, 2009. Etheridge, A. M.: 2000, An introduction to superprocesses, Vol. 20 of University Lecture Series, American Mathematical Society, Providence, RI. Ethier, S. N. and Kurtz, T. G.: 1986, Markov processes, Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics, John Wiley & Sons Inc., New York. Characterization and convergence. Feller, W.: 1951, Diffusion processes in genetics, Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability, 1950, University of California Press, Berkeley and Los Angeles, pp. 227–246. Harris, T. E.: 1963, The theory of branching processes, Die Grundlehren der Mathematischen Wissenschaften, Bd. 119, Springer-Verlag, Berlin. Jagers, P.: 1975, Branching processes with biological applications, Wiley-Interscience [John Wiley & Sons], London. Wiley Series in Probability and Mathematical Statistics—Applied Probability and Statistics. Kallenberg, O.: 2002, Foundations of modern probability, Probability and its Applications (New York), second edn, Springer-Verlag, New York. Klenke, A.: 2006, Wahrscheinlichkeitstheorie., Berlin: Springer. Le Gall, J.-F.: 1999, Spatial branching processes, random snakes and partial differential equations, Lectures in Mathematics ETH Zürich, Birkhäuser Verlag, Basel. Lyons, R. with Peres, Y.: n.d., Probability on Trees and Networks, Cambridge University Press. In preparation. Current version available at http://mypage.iu.edu/~rdlyons/prbtree/prbtree.html. Smith, W. L.: 1968, Necessary conditions for almost sure extinction of a branching process with random environment, Ann. Math. Statist 39, 2136–2140. Smith, W. L. and Wilkinson, W. E.: 1969, On branching processes in random environments, Ann. Math. Statist. 40, 814–827. 55 Literaturverzeichnis Tavaré, S.: 2004, Ancestral inference in population genetics, Lectures on probability theory and statistics, Vol. 1837 of Lecture Notes in Math., Springer, Berlin, pp. 1–188. 56