Stochastische Populationsmodelle

Werbung
Stochastische Populationsmodelle
Andrej Depperschmidt
Vorlesungsskript
Universität Freiburg
Wintersemester 2011
Version: 12. November 2012
1 Bienaymé-Galton-Watson-Prozess
Bienaymé-Galton-Watson-Prozess ist der älteste und der einfachste Verzweigungsprozess. F. Galton betrachtete das Aussterben von Familiennamen und veröffentlichte zusammen mit H.W. Watson in 1984 die Arbeit On the probability of extinction of families. Erst 1972 fand man heraus,
dass I.J. Bienaymé dasselbe Problem schon 1845 betrachtete. Aus diesem Grund sind mittlerweile beide Bezeichnungen, d.h. sowohl Galton-Watson, als auch Bienaymé-Galton-Watson-Prozess
im Gebrauch.
Man kann ein Bienaymé-Galton-Watson-Prozess (BGWP) wie folgt beschreiben: Wir starten mit einem Individuum. Es lebt genau eine Zeiteinheit und hinterlässt nach seinem Tod
Nachkommen dessen Anzahl gemäß einer festgelegten Verteilung auf N0 verteilt ist. Dann verhalten sich die Nachkommen wie unabhängige Kopien (auch unabhängig vom Vorfahr) ihres
Vorfahren, d.h. jeder von denen lebt genau eine Zeiteinheit und hinterlässt Nachkommen gemäß derselben Verteilung. Deren Nachkommen verhalten sich wieder wie unabhängige Kopien
des Vorfahren u.s.w. In diesem Kapitel definieren wir den BGWP und studieren die Aussterbebzw. die Überlebenswahrscheinlichkeiten und das asymptotische Verhalten in Abhängigkeit der
Nachkommensverteilung.
1.1 Definition und elementare Eigenschaften
Hier definieren wir den Bienaymé-Galton-Watson-Prozess (BGWP) und diskutieren die ersten
elementaren Eigenschaften.
Definition 1.1 (BGWP). Es sei Z0 eine N0 -wertige Zufallsvariable und sei {ξnk : n ∈ N0 , k ∈
N} eine Familie von unabhängigen und identisch verteilten (u.i.v.) Zufallsvariablen mit Verteilung pj = P[ξnk = j], j ∈ N0 . Der Bienaymé-Galton-Watson-Prozess (auch Verzweigungsprozess) mit Start in Z0 und Nachkommensverteilung {pj : j ∈ N0 } ist eine Markovkette (Zn )n≥0
die durch
Zn+1 =
Zn
X
ξnk ,
n≥0
(1.1)
k=1
rekursiv definiert ist. Ferner definieren wir m := E[ξ11 ] und σ 2 := Var[ξ11 ]. Wir nennen einen
BGWP superkritisch falls m > 1, kritisch falls m = 1, und subkritisch falls m < 1 ist (diese
Bezeichnungen werden später klar).
Wir werden stets m < ∞ annehmen, σ 2 = ∞ ist dagegen bei manchen Resultaten möglich.
In der obigen Definitionen interpretieren wir Zn als die Populationsgröße zur Zeit n und ξnk als
die Anzahl der Nachkommen des k-ten Individuums der n-ten Generation. Wie schon erwähnt
ist (Zn )n≥0 eine Markovkette. Die zugehörigen Übergangswahrscheinlichkeiten sind
(
p∗i
falls i ≥ 1, j ≥ 0
j
pij := P[Zn+1 = j|Zn = i] =
(1.2)
δ0j falls i = 0, j ≥ 0,
2
1 Bienaymé-Galton-Watson-Prozess
wobei δij das Kronecker-Delta ist und {p∗i
j : j = 0, 1, . . . } die i-fache Faltung von {pj : j =
0, 1, . . . } bezeichnet. Der Erweiterungssatz von Kolmogorov garantiert die Existenz eines Wahrscheinlichkeitsraumes (Ω, F, P) auf dem man die Folge (Zn )n≥0 definieren kann. Wir bezeichnen
mit (Fn )n≥0 die natürliche Filtration von (Zn )n≥0 , d.h. Fn = σ(Zk : 0 ≤ k ≤ n). Falls wir
den Anfangswert der Population betonen möchten, schreiben wir oft Pi für die Verteilung von
(Zn )n≥0 wenn Z0 = i ist. Den zugehörigen Erwartungswert und die Varianz bezeichnen wir dann
entsprechend mit Ei bzw. Vari .
Bemerkung 1.2 (Triviale Spezialfälle). Falls pj = 1 für ein j ∈ N0 ist, dann ist (bis auf möglicherweise zufällige Anfangsverteilung) die Markovkette (Zn ) deterministisch: jedes Individuum
stirbt nach einer Zeiteinheit und bekommt j Nachkommen mit Wahrscheinlichkeit 1.
Falls p0 , p1 ∈ (0, 1) und p0 + p1 = 1 ist, dann ist die Evolution der Population auch nicht interessant, denn dann stirbt jede der Z0 ursprünglichen Familien nach jeweils einer geometrischen
Anzahl von Versuchen mit Parameter p0 aus.
Annahme 1.1. Im Folgenden nehmen wir stets an, dass pj 6= 1 für alle j und p0 + p1 < 1 gilt.
Bemerkung 1.3 (Additivität). Wegen der Unabhängigkeit ist
Z0
X
Zn =
Zn(j) ,
j=1
(j)
wobei Zn die Nachkommen des j-ten Individuums der 0-ten in der n-ten Generation sind.
Damit ist (Zn )n≥0 Summe von Z0 u.i.v. BGWP die jeweils in 1 starten. Daher nehmen wir im
Folgenden meistens Z0 = 1 an. Allgemeine Resultate folgen oft aus diesem Spezialfall.
Beispiel 1.4 (binäres Verzweigen). Es sei p ∈ (0, 1) und sei p0 = 1 − p und p2 = p, dann gilt
(
0
falls k ungerade,
Pj [Z1 = k] =
j k/2
(1 − p)j−k/2 falls k gerade,
k/2 p
wobei
j
i
= 0 ist wenn i > j. Mit k0 = 1/2 (so lässt sich die Formel kompakter schreiben) gilt
n Y
2ki−1
p
P1 [Z1 = 2k1 , Z2 = 2k2 , . . . , Zn = 2kn ] =
ki
1−p
Pn
i=1
ki
(1 − p)2
Pn−1
i=0
ki
.
i=1
1.2 Erzeugende Funktionen
In diesem Abschnitt erinnern wir an die wahrscheinlichkeitserzeugenden Funktionen, die genauso wie momentenerzeugende und charakteristische Funktionen eine wichtige Rolle in der Wahrscheinlichkeitstheorie spielen, und sich besonders gut für die Analyse von Verzweigungsprozessen
eignen.
Definition 1.5 (erzeugende Funktion). Es sei X eine N0 -wertige Zufallsvariable. Dann ist die
(wahrscheinlichkeits)erzeugende Funktion definiert durch
X
gX (t) := E[t ] =
∞
X
P[X = k]tk , t ∈ [0, 1].
k=0
3
(1.3)
1 Bienaymé-Galton-Watson-Prozess
Lemma 1.6. Es sei X eine
N0 -wertige ZV mit E[X] < ∞, dann gilt
0
E[X] = gX
(1)
und
00
0
0
Var[X] = gX
(1) + gX
(1) − (gX
(1))2 ,
wobei die letzte Gleichung in dem Sinne gilt, dass wenn die eine Seite endlich ist, dann ist
00 (t) → ∞ für t ↑ 1 falls
auch die andere endlich und die beiden sind gleich. Insbesondere gilt gX
Var[X] = ∞.
Beweis. Für t ∈ (0, 1) gilt
0
gX
(t) =
∞
X
k P[X = k]tk−1 −−→
t↑1
k=1
∞
X
k P[X = k] = E[X].
k=1
Der Beweis der zweiten Formel ist eine Übungsaufgabe.
Lemma 1.7. Es seien X1 , X2 , . . . u.i.v. N0 -wertige ZV mit erzeugender Funktion
gX und sei
PY
Y auch N0 -wertig und unabhängig mit erzeugender Funktion gY . Mit S = k=1 Xk gilt
gS (t) = gY ◦ gX (t),
t ∈ [0, 1],
E[S] = E[X1 ]E[Y ],
Var[S] = Var[X1 ]E[Y ] + E2 [X1 ] Var[Y ],
wobei die letzten zwei Gleichungen in dem Sinne gelten, dass wenn die eine Seite endlich ist,
dann ist auch die andere endlich und die beiden sind gleich.
Beweis. Wir zeigen nur die erste Gleichung. Die beiden anderen (bekannten) Gleichungen können
daraus mit Hilfe von Lemma 1.6 gefolgert werden. Es gilt
S
PY
gS (t) = E[t ] = E[t
=
k=1
Xk
]=
∞
X
Pj
E[t
∞
X
j=0
∞
X
j=0
j=0
(E[tX1 ])j P[Y = j] =
k=1 Xk
]P[Y = j] =
j
∞ Y
X
E[tXk ]P[Y = j]
j=0 k=1
(gX (t))j P[Y = j] = gY (gX (t)).
Nun betrachten wir die erzeugenden Funktionen von Zn . Dazu setzen wir gn (t) = E1 [tZn ] und
g(t) = g1 (t) = gξ11 (t), wobei ξ11 wie in Definition 1.1 ist. Wenden wir Lemma 1.7 auf (1.30) an,
so erhalten wir
gn = gn−1 ◦ g = · · · = g ◦ gn−1
E[Zn ] = mE[Zn−1 ]
Var[Zn ] = σ 2 E[Zn−1 ] + m2 Var[Zn−1 ].
Rekursiv erhält man daraus das folgende Theorem.
4
1 Bienaymé-Galton-Watson-Prozess
Theorem 1.8. Wenn Z0 = 1 ist, dann ist die erzeugende Funktion von Zn gegeben durch
g ◦ · · · ◦ g (n mal) und es gilt
E[Zn ] = mn ,
( 2
σ
Var[Zn ] =
(1.4)
mn−1 (mn −1)
m−1
nσ 2
falls m 6= 1,
falls m = 1.
(1.5)
Beweis. Bis auf die Formel für die Varianz sind alle Aussagen klar. Für die Varianz kann man
sich überlegen, dass
Var[Zn ] = σ 2 (mn−1 + · · · + m2n−2 ) = σ 2 mn−1
n−1
X
mk
k=0
gilt. Mit der Formel für die (endliche) geometrische Summe erhält man die Behauptung.
Lemma 1.9 (Eigenschaften von g). Unter der Annahme 1.1 (die ab jetzt stillschweigend vorausgesetzt wird) gilt
(i) g ist strikt konvex und wachsend in [0, 1];
(ii) g(0) = p0 , g(1) = 1;
(iii) ist m ≤ 1, so gilt g(t) > t für t ∈ [0, 1);
(iv) ist m > 1, dann hat g(t) = t genau eine Lösung in [0, 1).
P
Beweis. (i) Wegen
pk ≥ 0 und ∞
1 ist nach Annahme pk > 0 für ein k ≥ 2. Damit
k=0 pk = P
P
∞
k−2 positiv auf (0, 1].
k−1 und g 00 (t) =
p
kt
sind g 0 (t) = ∞
k=2 pk k(k − 1)t
k=1 k
(ii) ist klar.
(iii) Wenn g 0 (1) = m ≤ 1 ist, dann gilt (g(t) − t)0 = g 0 (t) − 1 < g 0 (1) − 1 ≤ 0. Damit ist
t 7→ g(t) − t strikt fallend und wegen g(1) = 1 folgt g(t) > t für t ∈ [0, 1).
(iv) Wegen Konvexität gibt es höchstens zwei Lösungen der Gleichung g(t) = t. Eine davon ist
in t = 1. Aus g 0 (1) > 1 und g(0) = p0 ≥ 0 folgt, dass es noch eine Lösung in [0, 1) gibt.
Es sei q die kleinste Lösung der Gleichung g(t) = t in [0, 1], dann gilt nach dem obigen
Lemma: Ist m ≤ 1, dann ist q = 1; ist m > 1, dann ist q < 1. Nach dem folgenden Lemma ist
q ein attraktiver Gleichgewicht des, durch g definierten, dynamischen Systems xn+1 = g(xn ),
x0 ∈ [0, 1].
Lemma 1.10.
(i) Ist t ∈ [0, q), so gilt gn (t) ↑ q für n → ∞,
(ii) Ist t ∈ (q, 1), so gilt gn (t) ↓ q für n → ∞,
(iii) Ist t ∈ {q, 1}, so gilt gn (t) = t für alle n.
5
1 Bienaymé-Galton-Watson-Prozess
Beweis. Teil (iii) ist klar, also zeigen wir (i) und (ii). Für 0 ≤ t < q gilt nach Lemma 1.9
t < g(t) < g(q) und es folgt
t < g1 (t) < g2 (t) < · · · < gn (t) < gn (q) = q
für alle n ≥ 1. Damit gilt gn (t) ↑ L für ein L ≤ q. Da g stetig ist gilt aber L = limn→∞ gn (t) =
limn→∞ gn+1 (t) = g (limn→∞ gn (t)) = g(L). Nach Voraussetzung ist q die kleinste Lösung in
[0, 1] und somit gilt L = q. Ist nun q < t < 1, dann zeigt man mit einem ähnlichen Argument,
dass 1 > gn (t) ↓ L ≥ q ist und L = g(L). Nach Lemma 1.9 gibt es in (q, 1) keine weitere
Lösungen, was L = q impliziert.
1.3 Aussterbewahrscheinlichkeit
Definition 1.11. Das Aussterbeereignis des Verzweigungsprozesses (Zn )n≥0 ist definiert durch
∞ \
∞
o
n
[
n→∞
Q :=
{Zk = 0} = Zn −−−→ 0 = { es gibt ein N mit Zn = 0 für alle n ≥ N }
n=1 k=n
und die dessen Wahrscheinlichkeit heißt die Aussterbewahrscheinlichkeit.
Da aus Zk = 0 stets Zn = 0 für n ≥ k folgt, gilt auch (Übungsaufgabe!)
Q=
∞
[
{Zn = 0}.
n=1
Damit ist
P[Q] = n→∞
lim P
= lim
n→∞
"
n
[
#
{Zk = 0} = lim
k=1
n→∞
P [Zk = 0 für ein 1 ≤ k ≤ n]
P[Zn = 0] = n→∞
lim gn (0).
Es gilt also das folgende Theorem.
Theorem 1.12. Die Aussterbewahrscheinlichkeit des Verzweigungsprozesses (Zn )n≥0 ist die
kleinste Lösung q von g(t) = t in [0, 1]. Dabei ist q = 1, wenn m ≤ 1 und q < 1 wenn m > 1.
Außerdem kann man sich überlegen, dass bis auf den absorbierenden Zustand 0 alle Zustände
eines Verzweigungsprozesses transient sind. Für k ≥ 1 gilt nämlich
(
pk
falls p0 > 0,
P[Zn+i 6= k, i ≥ 1|Zn = k] ≥ 0 k
1 − p1 falls p0 = 0.
Hier ist pk0 die Wahrscheinlichkeit, dass alle k Individuen in einem Schritt aussterben ohne
Nachkommen zu produzieren und 1 − pk1 ist die Wahrscheinlichkeit, dass mindestens einer der k
Individuen mehr als einen Nachkommen hat. In jedem Fall ist die rechte Seite im letzten Display
positiv, was die Transienz zeigt. Wir fassen das Resultat im nächstem Theorem zusammen.
Theorem 1.13. Für alle k ≥ 1 gilt (u.o. steht unten für unendlich oft)
lim
n→∞
P[Zn = k] = P[Zn = k u.o. ] = 0.
Ferner gilt
P[n→∞
lim Zn = 0] = 1 − P[ lim Zn = ∞] = q.
n→∞
6
1 Bienaymé-Galton-Watson-Prozess
1.4 Kritische Verzweigungsprozesse
Hier betrachten wir genauer den kritischen Fall m = 1. Wir wissen bereits, dass
P[Zn → 0] = 1,
E[Zn ] = 1,
Var[Zn ] → ∞.
Ist also Zn nicht 0 sollte man wegen der großen Varianz auch große Werte erwarten.
Lemma 1.14. Es sei m = 1 und σ 2 < ∞. Dann gilt
1
σ2
1
1
=
lim
−
n→∞ n 1 − gn (s)
1−s
2
(1.6)
gleichmäßig in s ∈ [0, 1).
Beweis. Es sei s ∈ [0, 1). Mit Taylorentwicklung in 1 gilt
g(s) = g(1) + g 0 (1)(s − 1) +
g 00 (1)
(1 − s)2 + r(s)(1 − s)2 ,
2
für ein r mit lims↑1 r(s) = 0. Mit g(1) = 1, g 0 (1) = m = 1 und σ 2 = g 00 (1)+g 0 (1)−(g 0 (1))2 = g 00 (1)
(siehe Lemma 1.6) erhalten wir
g(s) = s +
σ2
(1 − s)2 + r(s)(1 − s)2 .
2
Es folgt
2
σ
(1 − s)2 + r(s)(1 − s)2
1
1
g(s) − s
−
=
= 2
1 − g(s) 1 − s
(1 − g(s))(1 − s)
(1 − g(s))(1 − s)
2
σ
σ2
1−s
+ r(s) =
+ ρ(s),
=
1 − g(s) 2
2
wobei
1
1
σ2
1−s
ρ(s) :=
−
−
=
1 − g(s) 1 − s
2
1 − g(s)
σ2
σ2
+ r(s) −
→0
2
2
für s ↑ 1.
Wir können diese Gleichung iterieren und erhalten
n−1 1
1
1
1X
1
1
−
=
−
n 1 − gn (s) 1 − s
n
1 − g(gj (s)) 1 − gj (s)
j=0
n−1
=
σ2
1X
+
ρ(gj (s)).
2
n
j=0
Da gn (0) ≤ gn (s) ≤ 1 und gn (0) ↑ 1 ist die Konvergenz gn (s) → 1 uniform in s ∈ [0, 1). Da ρ
beschränkt ist folgt die Behauptung.
7
1 Bienaymé-Galton-Watson-Prozess
Theorem 1.15. Ist m = 1 und σ 2 < ∞, so gilt
2
,
n→∞
σ2
Zn
σ2
(ii) lim E
|Zn > 0 =
,
n→∞
n
2
Zn
2
(iii) lim P
≤ u|Zn > 0 = 1 − e−2u/σ , u ≥ 0.
n→∞
n
(i) lim nP[Zn > 0] =
Beweis.
(i) Mit s = 0 in (1.6) gilt
nP[Zn > 0] = n(1 − gn (0)) =
1
1
1 −1
2
−1 +
→ 2.
n 1 − gn (0)
n
σ
(ii) Allgemein gilt für Verzweigungsprozesse E[Zn ] = E[Zn |Zn > 0]P[Zn > 0] + 0 · P[Zn = 0]
und somit E[Zn |Zn > 0] = E[Zn ]/P[Zn > 0]. Damit und mit (i) erhalten wir
σ2
1
Zn
|Zn > 0 =
→
.
E
n
nP[Zn > 0]
2
(iii) Wir haben zu zeigen, dass bedingt auf Zn > 0 die Folge Zn /n gegen eine exponentiell verteilte Zufallsvariable mit Parameter 2/σ 2 in Verteilung konvergiert. Dazu reicht es
zu zeigen, dass die bedingte Laplace-Transformierte E [exp(−uZn /n)|Zn > 0] gegen die
Laplace-Transformierte der Exponentialverteilung mit Parameter 2/σ 2 konvergiert. Letztere ist gegeben durch
Z ∞
2
2
1
u 7→
e−ux 2 e− σ2 x dx =
.
σ
1 + uσ 2 /2
0
Wenn u = 0 ist, dann ist nichts zu zeigen. Für u > 0 gilt
gn (exp(−u/n)) = E exp(−u/n)Zn = E [exp(−uZn /n)]
= E [exp(−uZn /n)|Zn > 0] P[Zn > 0] + 1 · P[Zn = 0]
= E [exp(−uZn /n)|Zn > 0] (1 − gn (0)) + gn (0).
Nun können wir nach dem bedingten Erwartungswert auflösen und erhalten
E [exp(−uZn /n)|Zn > 0] =
1 − gn (exp(−u/n))
gn (exp(−u/n)) − gn (0)
=1−
.
1 − gn (0)
1 − gn (0)
Den zweiten Term können wir wie folgt umschreiben
−1
1
1
1
·
n(1 − gn (0)) n 1 − gn (exp(−u/n))
−1
1
1
1
1
1
1
=
−
+ ·
n(1 − gn (0)) n 1 − gn (exp(−u/n)) 1 − exp(−u/n)
n 1 − exp(−u/n)
−1
2
σ2
1
σ2u
1
n→∞ σ
−−−→
+
= 2
=1− 2
.
2
2
u
σ u+2
σ u/2 + 1
8
1 Bienaymé-Galton-Watson-Prozess
Damit folgt
1
n→∞
E [exp(−uZn /n)|Zn > 0] −−−→
σ 2 u/2
+1
.
1.5 Wichtiges Lemma
Bevor wir mit den Sub- und Superkritischen Fällen weitermachen beweisen wir hier ein Lemma,
das im Folgenden wichtig sein wird. Dazu betrachten wir die Taylorentwicklung von g um 1:
g(s) = 1 − m(1 − s) + r(s)(1 − s),
0 ≤ s ≤ 1.
(1.7)
Es gilt
1 − g(s)
,
1−s
r(0) = m − (1 − p0 ) ≥ 0,
r(s) = m −
r(q) = m − 1, wenn q < 1,
r(1−) = 0,
und
r0 (s) ≤ 0,
0 ≤ s < 1.
Damit ist r eine fallende Funktion von [0, 1) nach [0, m].
Lemma 1.16. Für alle δ ∈ (0, 1) gilt
∞
X
r(1 − δ k ) < ∞ ⇐⇒
k=1
∞
X
pk k log k < ∞.
(1.8)
k=1
Die Bedingung auf der rechten Seite ist gleichbedeutend mit E1 [Z1 log Z1 ] < ∞.
Beweis. Für s ∈ [0, 1) gilt
r(s) = m −
=m−
∞
X
n=0
∞
X
n=0
∞
X
!
sn
1−
n
∞
X
n
X
n=0
k=0
pk s k
k=0
s +
!
pk
an =
k=n+1
9
s =m−
∞
X
n=0
wobei
∞
X
n
pk .
an s n ,
1 Bienaymé-Galton-Watson-Prozess
P
−αx = δ x ) und
Man beachte auch, dass ∞
n=0 an = m ist. Wir schreiben α = − log δ (sodass e
fixieren ein j ∈ N, j > 1. Einerseits erhalten wir durch Abschätzung des Integrals durch die
Untersumme
Z j
j
j
X
X
r(1 − e−αx ) dx ≥ r(1 − δ) +
r(1 − δ k ) =
r(1 − δ k ).
r(1 − δ) +
1
k=2
k=1
Da die letzte Summe aber die Obersumme enthält folgt andererseits auch
Z j
j
X
k
r(1 − e−αx ) dx.
r(1 − δ ) ≥
1
k=1
Nach Substitution s = 1 − e−αx folgt
Z j
Z
j
1 1−δ r(s)
−αx
r(1 − e
) dx =
ds.
α 1−δ 1 − s
1
Insgesamt ist also
1
r(1 − δ) +
α
Z
j
1−δ j
X
r(s)
1
ds ≥
r(1 − δ k ) ≥
1−s
α
1−δ
Z
k=1
1−δ j
1−δ
r(s)
.
1−s
Da diese Ungleichung für alle j > 1 und δ > 0 gilt folgt
Z 1
∞
X
r(s)
k
r(1 − δ ) < ∞ ⇐⇒
ds < ∞.
0 1−s
k=1
Als nächstes schauen wir uns an, wann die rechte Seite endlich ist. Es gilt
∞
∞
∞
∞
X
X
X
X
r(s)
k
n
k
=
s (m −
an s ) =
s
an (1 − sn )
1−s
=
k=0
∞
X
n=0
an
n=0
∞
X
(sk − sk+n ) =
k=0
∞
X
n=0
k=0
n=0
n−1
X
an
sk
k=0
und damit
Z
1
0≤
0
r(s)
ds =
1−s
Z
∞
1X
n−1
X
an
s
0 n=0
k=0
∞
n−1
X
X
k
ds
∞
X
1
=
an (log n + O(1)).
k+1
n=0
n=1
k=0
P∞
Die rechte Seite ist genau dann endlich, wenn n=1 an log n endlich ist. Es gilt
=
∞
X
an log n =
n=1
an
∞ X
X
pk log n
n=1 k>n
=
∞
X
k=2
=
∞
X
pk
k−1
X
log n =
n=1
∞
X
pk log ((k − 1)!)
k=2
pk [(k − 1) log(k − 1) + o(k log k)] .
k=2
10
1 Bienaymé-Galton-Watson-Prozess
√
Wobei man die letzte
Gleichung
mit
der
Stirling-Formel
(n!
∼
2πn(n/e)n ) bekommt. Insgesamt
P∞
P
erhalten wir, dass n=1 an log n genau dann endlich ist, wenn ∞
k=1 pk k log k endlich ist.
1.6 Subkritische Verzweigungsprozesse
In diesem Abschnitt betrachten wir den subkritischen Fall m < 1. Wenn wir die Taylorentwicklung von g um 1 (siehe (1.7)) auf gk (s) anwenden, dann erhalten wir
gk+1 (s) = g(gk (s)) = 1 − m(1 − gk (s)) + r(gk (s))(1 − gk (s)),
(1.9)
bzw.
1 − gk+1 (s)
r(gk (s))
.
=m 1−
1 − gk (s)
m
(1.10)
Teleskopprodukt dieser Gleichungen liefert
n−1
Y
1 − gn (s)
r(gk (s))
= mn
1−
.
1−s
m
(1.11)
k=0
Da 0 ≤ r(s)/m ≤ 1 für s ∈ [0, 1] ist, gibt es zu jedem s ∈ [0, 1] ein φ(s) ≥ 0 mit
1 − gn (s)
↓ φ(s), für n → ∞.
1−s
(1.12)
P[Zn > 0] = 1 − gn (0) ∼ mn φ(0),
(1.13)
m−n
Insbesondere ist
wobei wir wie üblich an ∼ bn schreiben, falls an /bn → 1 für n → ∞.
Ein nützliches und leicht zu beweisendes Kriterium, das Konvergenz von Reihen und Produkten in Verbindung bringt ist das folgende Resultat (Übung!).
Q
Lemma 1.17. Es sei (an )n≥0 eine Folge mit 0 P
≤ an ≤ 1. Dann konvergiert ∞
n=1 (1 − an ) genau
∞
dann gegen eine positive Zahl, wenn die Reihe n=1 an konvergiert.
P
Mit diesem Lemma gilt φ(0) > 0 genau dann, wenn ∞
k=0 r(gk (0)) < ∞. Aus 1 − g(s) ≤
m(1 − s) (was z.B. aus (1.7) folgt) erhalten wir induktiv
1 − gk (s) ≤ mk (1 − s)
für alle k. Aus der Konvexität von g folgt für s ≥ s0
1 − g(s)
≥ g 0 (s0 ),
1−s
woraus wir induktiv
1 − gk (s) ≥ (g 0 (s0 ))k (1 − s)
erhalten. Mit s0 = p0 (was zwangsläufig positiv im subkritischen Fall ist) und a = g 0 (p0 ) folgt
1 − mk ≤ gk (0) = gk−1 (g(0)) = gk−1 (p0 ) ≤ 1 − ak−1 (1 − p0 ) ≤ 1 − bk ,
P
wobei bk = a ∧ (1 − p0 ) ist. Nach Lemma 1.16 gilt also ∞
k=0 r(gk (0)) < ∞ genau dann, wenn
P
∞
p
k
log
k
<
∞
ist.
Es
gilt
also
das
folgende
Theorem.
k=1 k
11
1 Bienaymé-Galton-Watson-Prozess
Theorem 1.18. Für einen subkritischen Verzweigungsprozess (Zn )n≥0 gilt
(
P∞
0
: wenn
−n
k=1 pk k log k = ∞,
lim m P[Zn > 0] =
n→∞
φ(0) > 0 : sonst.
Nun beweisen wir noch das Theorem von Yaglom, das eine Aussage über das Verhalten des
subkritischen Prozesses zur Zeit n macht bedingt auf Überleben bis zu dieser Zeit.
Theorem 1.19. Im subkritischen Fall (mit p0 < 1) existiert
lim
n→∞
P[Zn = k|Zn > 0] = bk ,
(1.14)
für alle k ∈ N, und es gilt
∞
X
bk = 1,
(1.15)
k=1
∞
X
∞
X
1
< ∞ ⇐⇒
kbk =
pk k log k < ∞.
φ(0)
k=1
k=1
P
Ferner gilt für die erzeugende Funktion f (s) := ∞
k=1 kbk der Verteilung (bk : k ∈ N):
(1.16)
f (g(s)) = mf (s) + 1 − m.
Beweis. Wir definieren
fn (s) = E[sZn |Zn > 0] =
= 1 − (1 − s)
n−1
Y
k=0
1 − gn (s)
gn (s) − gn (0)
=1−
1 − gn (0)
1 − gn (0)
1 − r(gk (s))/m
1 − r(gk (0))/m
da gk nicht-fallend und r nicht-wachsend sind, konvergieren die Terme in dem Produkt von oben
gegen 1 für k → ∞. Es gibt also eine Funktion f mit fn ↑ f für n → ∞. Da fn erzeugende
Funktionen (von positiven ZV) sind gilt
f (s) =
∞
X
bk sk .
k=1
Insbesondere ist f (0) = 0. Ferner gilt für n → ∞
fn (gk (0)) = 1 −
1 − gn (gk (0))
1 − gk (gn (0))
=1−
→ 1 − mk .
1 − gn (0)
1 − gn (0)
Die rechte Seite konvergiert gegen 1 und somit (da gk (0) → 1 gilt) f (1−) = 1, was (1.15) zeigt.
Die Aussage (1.16) folgt mit Theorem 1.18 aus
∞
X
k=1
kbk = f 0 (1−) = lim
k→∞
1 − f (gk (0))
1
1
= lim mk
=
.
k→∞
1 − gk (0)
1 − gk (0)
φ(0)
Schließlich folgt die letzte Aussage aus
fn (g(s)) = 1 −
1 − gn+1 (s) 1 − g(gn (0))
1 − g(gn (0))
·
= 1 − (1 − fn+1 (s)) ·
→ 1 − (1 − f (s))m.
1 − gn+1 (0)
1 − gn (0)
1 − gn (0)
12
1 Bienaymé-Galton-Watson-Prozess
1.7 Superkritische Verzweigungsprozesse
In diesem Abschnitt beschäftigen wir uns hauptsächlich mit dem superkritischen Fall, m > 1.
Einige Aussagen gelten aber für jedes m ∈ (0, ∞). Wir werden hier einige Resultate aus der
Martingaltheorie voraussetzen müssen. Wir verweisen an dieser Stelle auf z.B.(Klenke 2006).
Es sei also m ∈ (0, ∞) und (Zn )n≥0 ein Verzweigungsprozess aus Definition 1.1. Mit Markoveigenschaft (und zeitlicher Homogenität) erhalten wir
E[Zn+k |Zn = in , Zn−1 = in−1 , . . . , Z1 = i1 , Z0 = i0 ]
= E[Zn+k |Zn = in ] = in E[Zk |Z1 = 1] = in mk .
Für Wn := m−n Zn folgt
E[Wn+k |W0 , . . . , Wn ] = m−(n+k) E[Zn+k |Zn ] = m−(n+k) mk Zn = Wn ,
f.s.
(1.17)
Es gilt also das folgende Theorem.
Theorem 1.20. Es sei m ∈ (0, ∞), Fn = σ(Z0 , . . . , Zn ) die natürliche Filtration von (Zn )n≥0 .
Dann ist (Wn , Fn ; n = 0, 1, . . . ) ein nicht-negatives Martingal und es gibt eine Zufallsvariable
W mit
n→∞
Wn −−−→ W
f.s.
(1.18)
Beweis. Die Martingaleigenschaft wurde in (1.17) bereits gezeigt und (1.18) folgt mit bekannten
Martingalkonvergenzsätzen. Man beachte, dass Wn ein nicht-negatives Supermartingal ist und
siehe z.B. Korollar 11.5 in (Klenke 2006).
Nach dem obigen Theorem ist es klar, dass Zn (ω) sich asymptotisch wie mn W (ω) verhält.
Martingalkonvergenzsätze liefern aber nicht ausreichend Informationen über W . Nach dem Lemma von Fatou haben wir zwar
E[W ] = E[ lim Wn ] ≤ lim inf E[Wn ] = E[Z0 ],
n→∞
n→∞
(1.19)
es schließt aber nicht aus, dass E[W ] = 0 und somit W = 0 f.s. gilt. Im kritischen und subkritischen Fall gilt für genügend große n Zn = 0 f.s. und somit gilt in diesen Fällen auch W = 0
f.s. Wir betrachten also im Folgenden den superkritischen Fall m > 1 und interessieren uns für
Bedingungen unter denen {W > 0} positive Wahrscheinlichkeit hat. Das erste Resultat geht von
endlichen zweiten Momenten aus und ist relativ einfach.
Theorem 1.21. Ist m > 1, σ 2 < ∞ und Z0 = 1, dann gilt
n→∞
(i) limn→∞ E (Wn − W )2 = 0, d.h. Wn −−−→ W in L2 ;
(ii) E[W ] = 1, Var[W ] =
(iii)
σ2
;
m2 − m
P[W = 0] = q = P[Zn = 0 für ein n].
13
1 Bienaymé-Galton-Watson-Prozess
Beweis. Aus (1.5) und (1.4) erhalten wir
E[Wn2 ]
1
1
1
= 2n E[Zn2 ] = 2n (Var[Zn ] + E2 [Zn ]) = 2n
m
m
m
σ 2 (1 − m−n )
=
+ 1.
m2 − m
σ 2 mn−1 (mn − 1)
+ m2n
m−1
Es folgt supn E[Wn2 ] = limn→∞ E[Wn2 ] = σ 2 /(m2 − m) + 1 < ∞. Die Aussagen (i) und (ii) folgen
also mit L2 -Konvergenzsatz (siehe z.B. Korollar 11.11 in (Klenke 2006)).
Sei nun r = P[W = 0]. Aus E[W ] = 1 folgt r < 1. Ferner gilt
r=
∞
X
P[W = 0|Z1 = k]P[Z1 = k] =
k=0
∞
X
pk (P[W = 0]) =
k=0
k
∞
X
pk rk = g(r).
k=0
Da die Gleichung g(s) = s eine eindeutige Lösung in (0, 1) hat muss r = q gelten.
Das folgende Theorem von Seneta und Heyde besagt, dass man einen superkritischen Verzweigungsprozess stets so reskalieren kann, dass der reskalierte Prozess fast sicher gegen eine
nicht-triviale Zufallsvariable konvergiert.
Theorem 1.22. Es sei 1 < m < ∞ und Z0 = 1. Dann gibt es eine Folge (Cn )n∈N0 von positiven
Zahlen so, dass
• Cn+1 /Cn → m für n → ∞;
fn := Zn /Cn konvergiert fast sicher gegen eine Zufallsvariable W
f , die fast sicher endlich
• W
f = 0] = q.
und nicht-negativ ist. Ferner gilt P[W
Beweis. Sei g0 (s) = s die Identität auf [0, 1] und sei gn−1 die Inverse von gn , wobei wir g −1 für
g1−1 schreiben. Die Funktion g −1 ist wachsend, konkav und differenzierbar. Außerdem bildet sie
das Intervall [q, 1] bijektiv auf sich selbst ab.
−1 mit g −1 ↑ g −1 . Ferner
Wegen g(s) ≤ s für q ≤ s ≤ 1 gilt g −1 (s) ≥ s und daher gibt es ein g∞
∞
n
gilt
−1
s = gn (gn−1 (s)) ≤ gn (g∞
(s)) → q
−1 (s) < 1. Also muss g −1 (s) = 1 für s > q gelten.
wenn g∞
∞
Z
Für s ∈ [q, 1] setze Xn (s) := gn−1 (s) n . Diese Folge ist ein nicht-negatives Martingal, denn
es gilt f.s.
E[Xn+1 (s)|Fn ] = E
h
i
h
Zn+1
Z1 iZn
−1
−1
−1
gn+1
(s)
|Fn = E gn+1
(s)
= g(gn+1
(s))Zn
= (gn−1 (s))Zn = Xn (s).
Es gibt also X∞ (s) mit Xn (s) → X∞ (s) f.s. Wegen 0 ≤ Xn (s) ≤ 1 können wir den Satz von
dominierter Konvergenz benutzen und erhalten
E[X∞ (s)] = E[X1 (s)] = s.
14
1 Bienaymé-Galton-Watson-Prozess
Die Folge (Xn2 (s)) ist ein [0, 1]-wertiger Submartingal. Für s < 1 gilt daher (hier ist nach unserer
Annahme 1.1 Z1 nicht-trivial in dem Sinne, dass P[Z1 = 0] < 1)
2
E[X∞
(s)] ≥ E[X12 (s)] > E2 [X1 (s)].
Insgesamt ist X∞ (s) eine Zufallsvariable mit positiver Varianz.
f (s) := − log X∞ (s) (der Wert unendlich ist
Wir definieren Cn (s) := (− log gn−1 (s))−1 und W
zunächst mal nicht ausgeschlossen). Es gilt nun
1
f (s)
Zn = − log(gn−1 (s))Zn = − log(Xn (s)) → W
Cn (s)
f.s.
f (s) f.s. endlich ist betrachten wir die Taylorentwicklung von g. Wie wir
Um zu zeigen, dass W
im Abschnitt 1.5 gesehen haben ist
1 − g(s) = (m − r(s))(1 − s).
Ersetzen wir s durch gk−1 (s) für q < s < 1 dann gilt
1 − gk−1 (s)
1
=
.
−1
1 − gk−1 (s)
m(1 − r(gk−1 (s))/m)
Produkt über k = 1, . . . , n liefert
1−s
.
−1
k=1 (1 − r(gk (s))/m)
mn (1 − gn−1 (s)) = Qn
(1.20)
Wegen − log x ∼ 1 − x für x ↑ 1 und gn−1 (s) ↑ 1 für n → ∞ und s > q folgt
−1
(s)
1 − gn−1
Cn (s)
= lim
= m.
−1
n→∞ Cn−1 (s)
n→∞ 1 − gn (s)
lim
f zeigen. Es gilt
Nun können wir die f.s. Endlichkeit von W
f (s) < ∞] = E[P[ lim C −1 (s)Zn < ∞|Z1 ]]
P[W
n→∞ n
" Z1 #
Cn−1 (s) −1
= E P lim
Cn−1 (s)Zn−1 < ∞
n→∞ Cn (s)
f (s) < ∞] .
= g P[W
Analog zeigt man, dass
f (s) = 0] = g P[W
f (s) = 0] .
P[W
Da die Wahrscheinlichkeit auf der linken Seite kleiner 1 ist, folgt
ist
f (s) = 0] = q. Schließlich
P[W
f (s) < ∞]
s = E[X∞ (s)] = E[e−W (s) ] ≤ P[W
f
f (s) < ∞] = 1 für s > q. Ansonsten hätten wir nach Lemma 1.10 q < s ≤
und somit ist P[W
f
f (s) < ∞]) → q für n → ∞, was zu einem Widerspruch führt.
P[W (s) < ∞] = gn (P[W
15
1 Bienaymé-Galton-Watson-Prozess
Das folgende Theorem von Kesten und Stigun benutzt wieder die bekannte E[Z1 log Z1 ] < ∞
Bedingung um die Reskalierungsfolge aus dem vorherigen Theorem genauer anzugeben.
Theorem 1.23. Es sei 1 < m < ∞, Z0 = 1 und setzte Wn := m−n Zn und W := limn→∞ Wn . Ist
E[Z1 log Z1 ] < ∞, dann gilt Wn → W in L1 und insbesondere E[W ] = 1. Ist E[Z1 log Z1 ] = ∞,
dann ist E[W ] = 0 (was wegen W ≥ 0 f.s. zu P[W = 0] = 1 äquivalent ist).
Beweis. Für q < s < 1 gilt gn−1 (s) ↑ 1 und somit Cn−1 (s) = − log gn−1 (s) ∼ 1 − gn−1 (s) für n → ∞.
Mit (1.20) folgt
lim C −1 (s)mn
n→∞ n
∞
Y
<∞ ⇔
(1 − r(gk−1 (s))/m) > 0
k=1
und nach Lemma 1.17 gilt
lim Cn−1 (s)mn < ∞ ⇔
n→∞
∞
X
r(gk−1 (s)) < ∞.
(1.21)
k=1
Wähle nun q < s0 < 1 mit m0 := g 0 (s0 ) > 1. Für s0 ≤ s < 1 gibt es nach dem Mittelwertsatz
ein ŝ ∈ [s, 1] mit (1 − g(s))/(1 − s) = g 0 (ŝ) und wegen der Konvexität gilt m0 ≤ g 0 (ŝ) ≤ m. Es
folgt
m0 ≤
1 − g(s)
≤m
1−s
und somit
m0 ≤
1 − gk (s)
≤ m.
1 − gk−1 (s)
Mit Teleskopprodukt erhalten wir wieder
mn0 (1 − s) ≤ 1 − gn (s) ≤ mn (1 − s),
woraus wir durch Substitution von gn−1 (s) für s
−1
−n
1 − m−n
(1 − s)
0 (1 − s) ≤ gn (s) ≤ 1 − m
erhalten. Für genügend große k ∈ N gilt m−k
0 ≤ 1 − s und somit folgt
−1
−n
1 − m−n−k
≤ 1 − m−n
1 − s) ≤ 1 − m−n .
0
0 (1 − s) ≤ gn (s) ≤ 1 − m
Auf diese Ungleichung wenden wir die Funktion r an, die auf (0, 1] wachsend ist und erhalten
−1
−n
r(1 − m−n−k
) ≤ r(1 − m−n
(1 − s)) ≤ r(1 − m−n ).
0
0 (1 − s)) ≤ r(gn (s)) ≤ r(1 − m
Wir summieren über n, nutzen (1.21) und Lemma 1.16 und bekommen
E[Z1 log Z1 ] < ∞ ⇔ lim Cn−1 (s)mn < ∞,
n→∞
16
1 Bienaymé-Galton-Watson-Prozess
d.h. wir können Cn = mn als Reskalierungsfolge in Theorem 1.22 nehmen. Ist E[Z1 log Z1 ] = ∞
so folgt m−n Zn → 0 f.s.
Es bleibt zu zeigen, dass Wn gegen W in L1 konvergiert, was wiederum aus gleichgradiger
Integrierbarkeit von Wn folgt. Dafür reicht es zu zeigen, dass E[supn Wn ] < ∞. Es gilt
P[W > at] ≥ P[W > at, sup Wn > t]
n
=
=
=
∞
X
n=0
∞
X
n=0
∞
X
P[W > at, Wn > t, Wk ≤ t für 0 ≤ k < n]
P[W > at|Zn > tmn , Wk ≤ t für 0 ≤ k < n]P[Wn > t, Wk ≤ t für 0 ≤ k < n]
P[W > at|Zn > tmn ]P[Wn > t, Wk ≤ t für 0 ≤ k < n],
n=0
wobei wir hier die Markoveigenschaft benutzt haben. Seien W (j) u.i.v. Kopien von W . Auf dem
Ereignis {Zn > tmn } starten zur Zeit n mindestens (ganzzahliger Anteil von) tmn u.i.v. Familien
von Verzweigungsprozessen. Damit gilt


tmn
X
1
W (j) > a .
P[W > at|Zn > tmn ] ≥ P  n
tm
j=1
Nach dem Gesetz der großen Zahlen gibt es für jedes positive a < E[W ] ein b > 0 mit


tmn
X
1
P n
W (j) > a > b
tm
j=1
für alle n (die Wahrscheinlichkeit ist nämlich für alle n positiv und konvergiert gegen 1). Es folgt
P[W > at] ≥ b
∞
X
P[Wn > t, Wk ≤ t für 0 ≤ k < n] = bP[sup Wn > t].
n
n=0
für t ≥ 1 (für t < 1 ist die Wahrscheinlichkeit auf der rechten Seite gleich 1). Da supn Wn
nicht-negativ ist gilt
Z ∞
E[sup Wn ] =
P[sup Wn > t] dt
n
n
0
Z ∞
Z ∞
1
1
≤1+
P[W > at] dt = 1 +
P[W > t] dt
b 0
ab 0
1
= 1 + E[W ] < ∞.
ab
17
1 Bienaymé-Galton-Watson-Prozess
1.8 Beispiel: Die gebrochen-rationale Nachkommensverteilung
Wir betrachten hier ein Beispiel, bei dem man die erzeugende Funktion von Zn direkt berechnen
kann (was typischerweise kaum möglich ist).
P
Für b, p ∈ (0, 1) mit b+p ≤ 1 sei pk = bpk−1 für k = 1, 2, . . . und p0 = 1− ∞
i=1 pi = 1−b/(1−p).
Dann ist
g(s) =
∞
X
pk sk = p0 + bs
k=0
∞
X
(ps)k = 1 −
k=0
b
bs
+
1 − p 1 − ps
(1.22)
und
m = g 0 (1−) =
b
.
(1 − p)2
Man beachte, dass die Potenzreihe von g den Konvergenzradius 1/p hat. Für u, v aus dem
Konvergenzbereich folgt mit (1.22)
g(s) − g(u)
s − u 1 − pv
=
·
.
g(s) − g(v)
s − v 1 − pu
(1.23)
Die Gleichung g(s) = s hat zwei Lösungen qb und 1, die auch zusammenfallen können. Wenn
m > 1 ist, dann ist qb = q < 1; ist m = 1, so ist qb = q = 1; ist m < 1 so ist qb > 1 = q. Nehmen
wir nun u = qb und v = 1 in (1.23), dann folgt für m 6= 1
1−p
g(s) − qb g(s) − 1 −1
=
.
1 − pb
q
s − qb
s−1
Hier hängt die linke Seite nicht von s ab und deswegen erhalten wir mit s ↑ 1 auf der rechten
Seite
1−p
1
= .
1 − pb
q
m
Setzen wir das wieder in (1.23) ein, dann folgt
g(s) − qb
1 s − qb
=
·
g(s) − 1
m s−1
und nach Iteration dieser Gleichung
gn (s) − qb
1 s − qb
= n·
.
gn (s) − 1
m s−1
Diese Gleichung kann man nun nach gn (s) auflösen und man erhält für m 6= 1
(
mn (1 − qb)(s − 1) n→∞ qb : wenn m > 1,
gn (s) = 1 − n
−−−→
m (s − 1) − (s − qb)
1 : wenn m < 1.
Falls m = 1, dann ist b = (1 − p)2 und qb = 1. Damit ist
g(s) =
p − (2p − 1)s
,
1 − ps
18
(1.24)
1 Bienaymé-Galton-Watson-Prozess
woraus man nach Iteration
gn (s) =
np − (np + p − 1)s
1 − p + np − nps
(1.25)
erhält, was für n → ∞ gegen 1 konvergiert.
Dadurch, dass man gn explizit kennt, kennt man einerseits natürlich die Verteilungen von Zn ,
andererseits findet man leicht die Resultate vorheriger Abschnitte in diesem Spezialfall wieder.
Ist beispielsweise m = 1, dann gilt (siehe (i) aus Theorem 1.15)
np
2
n→∞ 1 − p
nP[Zn > 0] = n(1 − gn (0)) = n 1 −
−−−→
=
,
1 − p + np
p
2p/(1 − p)
wobei 2p/(1 − p) = Var[Z1 ] = g 00 (1) + g 0 (1) − (g 0 (1))2 ist (siehe Lemma 1.6).
Im Fall m > 1 wissen wir, dass wegen g 00 (1) < ∞ die Zufallsvariable W , gegen die Zn /mn
fast sicher konvergiert, nicht-trivial ist und ein Atom in 0 hat mit P[W = 0] = q(= qb). In
dem gebrochen-rationalen Fall können wir noch mehr sagen. Wir betrachten dazu die LaplaceTransformierte von W . Für λ ≥ 0 gilt
λ
λ
λ
E[e−λW ] = lim E[e− mn Zn ] = lim E[(e− mn )Zn ] = lim gn (e− mn )
n→∞
n→∞
n→∞
!
− mλn
n
− 1)
m (1 − q)(e
.
= lim 1 −
λ
λ
n→∞
mn (e− mn − 1) − (e− mn − q)
λ
Nun gilt mn (e− mn − 1) → −λ für n → ∞ und somit
E[e−λW ] = 1 −
(1 − q)λ
.
λ + (1 − q)
(1.26)
Andererseits wissen wir, dass es ein W ∗ gibt W ∗ ∈ (0, ∞) f.s. und W = 0· 1{W =0} +W ∗ · 1{W >0} .
Damit ist
E[e−λW ] = P[W = 0] + (1 − P[W = 0])E[e−λW ] = q + (1 − q)E[e−λW ].
∗
∗
(1.27)
Es folgt
−λW ∗
E[e
1
]=
1−q
(1 − q)λ
(1 − q)λ
1−q
1−q−
=1−
=
.
λ + (1 − q)
λ + (1 − q)
λ + (1 − q)
(1.28)
Dies ist (wie man leicht nachrechnet) die Laplace-Transformierte der Exp(1−q)-Verteilung. Also
ist für eine unabhängige exponentiell mit Parameter (1 − q) verteilte Zufallsvariable W ∗
(
0
: mit Wahrscheinlichkeit q,
W =
(1.29)
∗
W
: mit Wahrscheinlichkeit 1 − q.
1.9 “Verwandte” des Bienaymé-Galton-Watson Prozesses
Wir schließen dieses Kapitel mit einigen Verallgemeinerungen des Bienaymé-Galton-Watson Prozesses ab.
19
1 Bienaymé-Galton-Watson-Prozess
1.9.1 BGWP mit Immigration
Bei diesem Prozess wird wie zuvor die Generation zur Zeit n + 1 aus den Nachkommen der
Individuen der n-ten Generation gebildet, zusätzlich kommen (unabhängig viele) Individuen
dazu, deren Anzahl gemäß einer vorgegebenen Verteilung verteilt ist.
Es sei die Familie {ξnk : n ∈ N0 , k ∈ N} wie in Definition 1.1. Zusätzlich sei {ζn : n ∈ N0 } eine
Folge u.i.v. N0 -wertiger Zufallsvariablen (auch unabhängig von den ξ’s) mit erzeugenden Funktion h. Ein Bienaymé-Galton-Watson-Prozess mit Immigration (BGWI) ist eine Markovkette
Y := (Yn )n≥0 , die durch
Y0 = ζ 0
und Yn+1 =
Yn
X
ξnk + ζn+1 ,
n≥0
(1.30)
k=1
rekursiv definiert ist. Man könnte an dieser Stelle auch mit einer beliebigen ganzzahligen nichtnegativen Zufallsvariablen Y0 starten. Die Notation wird dadurch aber ein wenig komplizierter.
Je nachdem ob m = g 0 (1−) = 1, (< 1, > 1) ist, nennt man Y kritisch, (subkritisch, superkritisch).
Im Prinzip ist nur der Fall P[ζ0 = 0] < 1 interessant, da andernfalls Yn = 0 für alle n ist. Es
ist klar, dass in diesem Fall der Zustand 0 nicht mehr absorbierend ist.
Für s ∈ [0, 1] sei hn (s) = E[sYn ], h(s) = h0 (s) und (wie zuvor) g(s) = E[sξ11 ]. Dann ist mit
Fn := σ(ζj , ξjk : 0 ≤ j ≤ n)
E[sYn+1 |Fn ] = (g(s))Yn h(s)
und man erhält iterativ
hn+1 = h · hn ◦ g
bzw. hn =
n
Y
h ◦ gj .
j=0
Es gibt also eine Funktion h∞ mit hn ↓ h∞ mit
h∞ = h · h∞ ◦ g.
(1.31)
Da der Prozess Y nicht mehr in 0 absorbiert wird, liegt es nahe sich zu fragen ob und unter
welchen Bedingungen es gegen nicht-triviale Zufallsvariablen konvergiert. Man muss also h∞
untersuchen.
Für Beweise folgender Resultate verweisen wir auf (Jagers 1975, 3.1) bzw. auf (Lyons n.d.).
Theorem 1.24. Es sei Y ein subkritischer BGWI. Dann konvergiert Yn in Verteilung gegen eine
Zufallsvariable Y∞ (die möglicherweise mit positiver Wahrscheinlichkeit den Wert ∞ annimmt)
deren erzeugende Funktion die eindeutige Lösung h∞ der Gleichung (1.31) ist. Ferner gilt
+
h∞ (1) = 1 ⇔ E[log ζ0 ] =
∞
X
k=2
d.h. in diesem Fall ist Y∞ < ∞ f.s.
20
P[ζ0 = k] log k < ∞,
1 Bienaymé-Galton-Watson-Prozess
Theorem 1.25. Ist m = 1, σ 2 = g 00 (1−) < ∞ und 0 < a := h0 (1) < ∞ dann konvergiert Yn /n
in Verteilung gegen eine gamma verteilte Zufallsvariable mit Dichte
w(x) =
1
xα−1 e−x/β ,
Γ(α)β α
x > 0,
(1.32)
wobei α = 2a/σ 2 und β = σ 2 /2. Insbesondere ist im Falle a = σ 2 /2
w(x) =
1 − σ2x/2
e
.
σ 2 /2
(1.33)
Bemerkung 1.26. In Theorem 1.15(iii) haben wir bereits gesehen, dass Zn /n bedingt auf {Zn >
0} gegen eine Zufallsvariable mit Dichte w(x) aus (1.33) in Verteilung konvergiert. Zusammen
mit obigem Theorem folgt also daraus, dass das Bedingen auf {Zn > 0} und Immigration mit
Mittelwert σ 2 /2 denselben Effekt haben.
Theorem 1.27. Es sei m > 1. Dann gilt
(i) Ist E[log+ ζ0 ] < ∞, dann konvergiert Zn /mn in Verteilung und der Grenzwert ist f.s.
endlich.
(ii) Ist E[log+ ζ0 ] = ∞, dann gilt lim supn→∞ Zn /cn = ∞ f.s. für jedes c > 0.
1.9.2 Verzweigungsprozesse in zufälliger Umgebung
Wie der Name schon vermuten lässt, ist die Evolution eines Verzweigungsprozesses in zufälliger
Umgebung (engl. branching process in random environment (BPRE)) wie die des “gewöhnlichen”
Verzweigungsprozesses mit dem Unterschied, dass sich die Nachkommensverteilung von Generation zu Generation ändern kann. Man denke beispielsweise an eine Population von Pflanzen mit
einem Lebenszyklus von einem Jahr, bei der die Nachkommensverteilung von Wetterverhältnissen beeinflusst wird.
Zum ersten mal wurden BPRE in (Athreya and Karlin 1970, Smith and Wilkinson 1969)
eingeführt. Wir halten uns hier an die Darstellung in (Birkner et al. 2005).
Es sei ∆ die Menge der Wahrscheinlichkeitsmaße auf N0 , ausgestattet mit Totalvariationsabstand Polnisch ist. Ferner sei Q eine ∆-wertige Zufallsvariable und Π = (Q1 , Q2 , . . . ) eine Folge
von u.i.v. Zufallsvariablen mit derselben Verteilung wie Q.
Definition 1.28. Eine Folge Z := (Zn )n=0,1,... von N0 -wertigen Zufallsvariablen ist ein Verzweigungsprozess in zufälliger Umgebung Π falls Z0 unabhängig von Π ist und gegeben Π die
Folge Z eine Markovkette ist mit
" i
#
X (q )
n
P[Zn = j|Zn−1 = i, Π = (q1 , q2 , . . . )] = P
ξk = j
k=1
für alle n ≥ 1, i, j ∈ N0 und q1 , q2 , . . . ∆. Dabei sind
(q ) (q )
ξ1 i , ξ2 i , . . .
u.i.v. qi verteilt.
Im Folgenden nehmen wir immer Z0 = 1 f.s. an. Mit Z kann man wie folgt eine Irrfarht S =
(S0 , S1 , . . . ) assoziieren. Sei S0 = 0 und definiere die Inkremente von S durch Xn = Sn − Sn−1 ,
n ≥ 1, wobei
Xn := log
∞
X
y=0
21
yQn ({y}),
1 Bienaymé-Galton-Watson-Prozess
u.i.v. Kopien von
X := log
∞
X
yQ({y})
y=0
sind. Wir nehmen an, dass X f.s. endlich ist. Dann gilt
µn := E[Zn |Π] = eSn
f.s.
Je nach Verteilung von Q ist gibt es drei Möglichkeiten:
1. Superkritischer Fall: Wenn limn→∞ Sn = ∞ f.s. gilt, dann ist µn → ∞ f.s.
2. Subrkritischer Fall: Wenn limn→∞ Sn = −∞ f.s. gilt, dann ist µn → 0 f.s.
3. Kritischer Fall: Wenn lim supn→∞ Sn = ∞ und lim inf n→∞ Sn = −∞ f.s. gilt, dann ist
lim supn→∞ µn = ∞ und lim inf n→∞ µn = 0 f.s.
Wir betrachten nun die Aussterbewahrscheinlichkeiten in diesen Fällen. Für m ≤ n gilt
P[Zn > 0|Π] ≤ P[Zm > 0|Π] ≤ µm
und es folgt
P[Zn > 0|Π] ≤ min µm = exp min Sm .
m≤n
m≤n
Im kritischen und subkritischen Fall konvergiert die rechte Seite f.s. gegen 0 und deswegen gilt
in diesen Fällen auch nach Mitteln über Π (wie intuitiv erwartet werden konnte)
P[Zn > 0] −n→∞
−−→ 0, f.s.
Anders als bei “gewöhnlichen” Verzweigungsprozessen ist es bei BPRE auch im superkritischen
Fall möglich, dass die Population fast sicher ausstirbt. Starke Fluktuationen der zufälligen Umgebung wirken nämlich wie “Katastrophen” auf die Population. Allgemein gilt das folgende Resultat, dass in (Smith 1968, Smith and Wilkinson 1969) bewiesen ist.
Theorem 1.29. Es sei E[|X|] < ∞, dann ist die Überlebenswahrscheinlichkeit des BPRE Z
positiv, d.h.
lim
n→∞
P[Zn > 0] > 0
genau dann, wenn
E[X] > 0
und
E[log(1 − Q({0}))] > −∞.
Die Bedingung E[X] > 0 impliziert, dass Z superkritisch ist, was nach oberen Überlegungen
notwendig für Überleben mit positiver Wahrscheinlichkeit ist. Die zweite Bedingung besagt insbesondere, dass die Wahrscheinlichkeit für “Katastrophen” Q({0} nahe an 1 ist, vernachlässigbar
klein ist.
22
1 Bienaymé-Galton-Watson-Prozess
Beispiel 1.30. Für l ∈ (0, 1) setze ql (0) = 1−l und ql (d2/le) = l. Dadurch ist eine einparametrige
Verteilung auf N0 definiert mit Mittelwert
ml = l · d2/le > 1.
Sei nun der Parameter l Realisierung der Zufallsvariablen L mit Verteilung
P[L ≤ x] = C(− log x)−α , x ∈ (0, 1).
Dabei ist α ∈ (0, 1) fest und C ist eine Normierungskonstante. Wir setzen Q = ql , wenn L = l
ist. Dann gilt
E[X] = E[log(L · d2/Le] > 0
und
Z
1
E[log(1 − Q({0}))] = E[log L] = −C
0
1
(log x)1+α 1
log x α(log x)α−1 ] = −C
x
1+α 0
C
lim (log A)1+α = −∞.
=
1 + α A→0
23
2 Verzweigungsprozesse in stetiger Zeit
In diesem Kapitel betrachten wir Verzweigungsprozesse bei denen die Lebensdauer eines Individuums exponentiell verteilt ist. Es ist natürlich möglich und oft biologisch auch sinnvoll anders
verteilte Lebensdauer anzunehmen, im Allgemeinen verliert man die Markovsche Struktur des
Prozesses. Dank der Gedächtnislosigkeit der Exponentialverteilung sind diese Prozesse zeitlich
homogene Markovketten in stetiger Zeit.
Bevor wir einen Verzweigungsprozess in stetiger Zeit (VPSZ) definieren werden wir einige
Grundlagen zu stochastischen Prozessen in stetiger Zeit wiederholen müssen. Eine intuitive Konstruktion ist wie folgt: Für ein λ > 0 sei die Lebensdauer jedes Individuums exponentiell verteilt
mit Parameter λ. Nach Ablauf dieser Lebensdauer wird das Individuum (genauso wie im Fall
mit diskreter Zeit) durch Nachkommen ersetzt deren Anzahl gemäß einer festen Nachkommensverteilung verteilt ist. Die Lebensdauern der Individuen und die Anzahl der Nachkommen sind
jeweils unabhängig voneinander und unter Individuen.
2.1 Stochastische Prozesse in stetiger Zeit
In diesem Abschnitt wiederholen wir kurz einige Standardbegriffe der stochastischen Prozesse
in stetiger Zeit (siehe z.B. Kallenberg 2002), die wir benötigen werden. Wir orientieren uns hier
an (Ethier and Kurtz 1986, Kap. 2 und 3).
Im Folgenden seien (E, r) ein metrischer Raum, B := B(E) die zugehörige Borel-σ-Algebra
und R+ := [0, ∞).
Definition 2.1. Ein E-wertiger stochastischer Prozess X := (X(t))t∈R+ ist eine Familie von
Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in (E, B).
Eine Familie von σ-Algebren (Ft : t ≥ 0) mit Ft ⊂ F für t ≥ 0 und Fs ∈ Ft für s ≤ t heißt
Filtration. Wir sagen, dass X adaptiert an die Filtration (Ft : t ≥ 0) ist, falls Xt messbar
T bez. Ft
für jedes t ≥ 0 ist. Die Filtration heißt rechtsstetig, wenn für jedes t ≥ 0, Ft = Ft+ := ε>0 Ft+ε
gilt.
Für ein festes ω ∈ Ω ist ein Pfad t 7→ X(t, ω) eine Abbildung von R+ nach E. Verzweigungsprozesse sind Sprungprozesse haben also keine stetige Pfade, haben aber typischerweise eine
rechtsstetige Version mit linksseitigen Grenzwerten (r.c.l.l. für engl. right continuous with left
limits), d.h. die Prozesse haben dieselben endlichdimensionalen Verteilungen. Wir bezeichnen
den Raum der r.c.l.l. Funktionen von R+ nach E mit DE (R+ ). Insbesondere kann man also X
als eine DE (R+ )-wertige Zufallsvariable auffassen. Wir führen nun eine Metrik auf diesem Raum
ein bezüglich der Funktionen mit Sprüngen von “ähnlicher” Höhe zu nahe beieinander liegenden Sprungzeiten kleinen Abstand haben. Man betrachte z.B. Funktionen f (x) = 1[1,∞) (x) und
fn (x) = 1[1+1/n,∞) (x) für x ∈ R+ . Für jedes n ist der Supremumsabstand von fn und f gleich
1. In der Skorohod-Metrik (die wir in kürze einführen werden) konvergiert fn aber gegen f .
24
2 Verzweigungsprozesse in stetiger Zeit
Es sei Λ die Menge (streng) monoton wachsender Lipschitz stetiger Funktionen λ : R+ → R+
mit λ(0) = 0, λ(t) → ∞ für t → ∞ und
λ(s) − λ(t) γ(λ) := sup log
< ∞.
s−t 0≤t<s
Man kann γ(λ) als ein Maß für Abweichung von λ von der Identität auf
x, y ∈ DE (R+ ) ist die Skorohod-Metrik definiert durch
Z ∞
−u
e d(x, y, λ, u) du ,
d(x, y) := inf γ(λ) ∨
λ∈Λ
R+ auffassen. Für
0
wobei
d(x, y, λ, u) := sup r (x(t ∧ u), y(λ(t) ∧ u)) .
t≥0
Dass die Skorohod-Metrik tatsächlich eine Metrik ist, ist z.B. in (Ethier and Kurtz 1986, Abschnitt 3.5) gezeigt. Die durch die Skorohod-Metrik induzierte Topologie auf DE (R+ ) heißt
Skorohod-Topologie. Es gibt einige äquivalente Charakterisierungen der Skorohod-Topologie. Wir
geben hier zwei an und verweisen für Beweise auf Propositionen 3.5.3 und 3.6.5 in (Ethier and
Kurtz 1986).
Theorem 2.2. Es seien x, x1 , x2 , · · · ∈ DE (R+ ), dann sind folgende Aussagen äquivalent
(i) d(xn , x) → 0 für n → ∞;
(ii) Es gibt eine Folge (λn )n=1,2,... ⊂ Λ mit γ(λn ) → 0 für n → ∞ und
lim sup r(xn (t), x(λn (t))) = 0
n→∞ 0≤t≤T
für jedes T > 0.
Theorem 2.3. Es seien x, x1 , x2 , · · · ∈ DE (R+ ), dann gilt d(xn , x) → 0 für n → ∞ genau dann
wenn für jedes t ∈ R+ und jede Folge (tn )n=1,2,... ⊂ R mit limn→∞ tn = t folgende Aussagen
gelten
(i) lim r(xn (tn ), x(t)) ∧ r(xn (tn ), x(t−)) = 0;
n→∞
(ii) Ist limn→∞ r(xn (tn ), x(t)) = 0, dann gilt für jede Folge (sn )n=1,2,... mit sn ≥ tn und
limn→∞ sn = t
lim r(xn (sn ), x(t)) = 0.
n→∞
(iii) Ist limn→∞ r(xn (tn ), x(t−)) = 0, dann gilt für jede Folge (sn )n=1,2,... mit sn ≤ tn und
limn→∞ sn = t
lim r(xn (sn ), x(t−)) = 0.
n→∞
25
2 Verzweigungsprozesse in stetiger Zeit
Die Charakterisierung aus dem letztem Theorem hat den Vorteil, dass man die einzelnen
Unterpunkte intuitiv interpretieren kann: Die erste Aussage besagt, dass es höchstens zwei
Grenzwerte von x(tn ) geben kann. Die zweite gilt wegen Rechtsstetigkeit und die dritte wegen linksseitiger Grenzwerte. Mit dem obigen Theorem folgt auch, dass die CE (R+ ) (die Menge
der stetigen Funktionen von R+ nach E) ausgestattet mit der Skorohod Metrik abgeschlossen
in DE (R+ ) ist.
Für Konvergenz von stochastischen Prozessen in Verteilung und insbesondere um Prohorovs
Theorem anwenden zu können muss der Zustandsraum Polnisch sein, d.h. vollständig und separabel. Für die beiden Aussagen im nächsten Resultat verweisen wir auf Theorem 3.5.6 und
Proposition 3.7.1 in (Ethier and Kurtz 1986).
Theorem 2.4. (i) Ist (E, r) separabel, so ist (DE (R+ ), d) separabel. Ist (E, r) vollständig, so
ist (DE (R+ ), d) vollständig.
(ii) Definiere für t ≥ 0 Projektionen πt : DE (R+ ) → E durch πt (x) = x(t). Ist (E, r) separabel
und A eine dichte Teilmenge von R+ , dann gilt
B (DE (R+ )) = σ(πt : t ∈ A).
Insbesondere bestimmen die endlichdimensionalen Verteilungen eines Prozesses mit Pfaden
in DE (R+ ) seine Verteilung eindeutig.
2.2 Generatoren von Markovprozessen
Wir verwenden hier weiterhin die Bezeichnungen aus dem letzten Abschnitt.
Definition 2.5. Ein E-wertiger Prozess X = (X(t))t∈R+ ist ein Markovprozess bezüglich der
Filtration (Ft ) falls für alle Γ ∈ B(E) und alle t, s ≥ 0
P[X(t + s) ∈ Γ|Ft ] = P[X(t + s) ∈ Γ|X(t)] f.s.
(2.1)
gilt. Falls beide Seiten von (2.1) nicht von t abhängen, dann ist X ein (zeitlich) homogener
Markovprozess. Ferner ist X ein starker Markovprozess falls in (2.1) t durch jede f.s. endliche
Stoppzeit T ersetzt werden kann.
Typischerweise, aber nicht immer nehmen wir für Ft die natürliche (vom Prozess selbst erzeugte) Filtration FtX = σ(X(s) : 0 ≤ s ≤ t).
Bezeichnen wir mit B(E) die Menge der beschränkten messbaren Funktionen auf E, dann
folgt aus (2.1)
E[f (X(t + s))|Ft ] = E[f (X(t + s))|X(t)]
f.s.
(2.2)
für jedes f ∈ B(E). Ein homogener Markovprozess ist charakterisiert durch die Übergangsoperatoren
Pt (x, Γ) := Px [Xt ∈ Γ] := P[Xt ∈ Γ|X0 = x],
(2.3)
wobei x ∈ E ist und Γ ∈ B(E). Wegen zeitlicher Homogenität kann man mit der Familie (Pt )t∈R+
alle endlichdimensionalen Verteilungen von X bestimmen und somit ist nach Theorem 2.4(ii)
26
2 Verzweigungsprozesse in stetiger Zeit
die Verteilung von X auf DE (R+ ) durch die Übergangsoperatoren bestimmt, wenn E separabel
ist. Die Übergangsoperatoren sind durch die Chapman-Kolmogorov Gleichung
Z
Pt+s (x, Γ) =
Pt (x, dy)Ps (y, Γ) t, s ≥ 0
(2.4)
E
mit der Halbgruppentheorie verbunden und können mithilfe die zugehörigen infinitesimalen Generatoren beschrieben werden.
Definition 2.6 (Halbgruppe). Eine Familie (Tt )t∈R+ von beschränkten linearen Operatoren
auf einem Banachraum B heißt Halbgruppe falls T0 = Id und Tt+s = Tt Ts für alle t, s ≥ 0.
Die Halbgruppe heißt stark stetig, wenn limt→0 Tt f = f ist für alle f ∈ B. Wir sprechen von
einer Kontraktionshalbgruppe falls kT k ≤ 1 ist. Ist B ein Funktionenraum, dann nennen wir die
Halbgruppe positiv bzw. konservativ, falls für alle t ≥ 0 gilt Tt f ≥ 0 für alle f ≥ 0 bzw. Tt 1 = 1.
Man beachte, dass es generell ein M ≥ 1 und w ≥ 0 gibt, sodass kT k ≤ M ewt (Ethier and
Kurtz 1986, Proposition 1.1.1).
Definition 2.7 (Generator einer Halbgruppe). Der infinitesimale Generator (auch Erzeuger)
der Halbgruppe (Tt )t∈R+ ist ein linearer Operator A auf B definiert durch
Tf − f
.
t→0
t
Af := lim
Der Definitionsbereich D(A) ist die Menge der Elemente von B, für die dieser Grenzwert existiert.
Der Graph von A ist definiert durch
G(A) := {(f, Af ) : f ∈ D(A)} ⊂ B × B.
Man sagt, dass A abgeschlossen ist, wenn G(A) abgeschlossen in B × B ist. Ferner heißt A abschliessbar, wenn es eine abgeschlossene lineare Fortsetzung von A gibt. In diesem Fall bezeichnen
wir als Abschluss, Ā, die minimale Fortsetzung von A. Ist A ein abgeschlossener Generator,
dann heißt D ⊂ D(A) Core von A, wenn der Abschluss von A eingeschränkt auf D mit A
übereinstimmt (wenn also D bezüglich der Graphennorm dicht in D(A) ist).
Der Zusammenhang von A und T wird in dem folgenden Resultat verdeutlicht (siehe Ethier
and Kurtz 1986, Proposition 1.1.5).
Theorem 2.8. Es sei (Tt )t∈R+ eine stark stetige Halbgruppe auf L ⊂ B. Dann gelten folgende
Aussagen:
Rt
(i) Ist f ∈ L und t ≥ 0, dann ist 0 Ts f ds ∈ D(A) und es gilt
Z
Tt f − f = A
t
Ts f ds.
0
(ii) Ist f ∈ D(A) und t ≥ 0, dann ist Tt f ∈ D(A) und es gilt
d
Tt f = ATt f = T (t)Af.
dt
27
2 Verzweigungsprozesse in stetiger Zeit
(iii) Ist f ∈ D(A) und t ≥ 0, dann gilt
Z
Tt f − f =
t
Z
t
ATs f ds =
0
Ts Af ds.
0
Man kann zeigen (siehe Ethier and Kurtz 1986, Abschnitt 1.1), dass der Generator einer stark
stetigen Halbgruppe eindeutig bestimmt ist, wenn es auf dem Core definiert ist. Außerdem ist
jede stark stetige Halbgruppe eindeutig charakterisiert durch ihren Generator.
Nun betrachten wir den Zusammenhang zwischen Markovprozessen und stark stetigen Halbgruppen. Sei also X wie zuvor ein homogener Markovprozess auf E. Für L ⊂ B(E) definieren
wir
Tt f (x) := Ex [f (Xt )] := E[f (Xt )|X0 = x] = E[f (Xt+s )|Xs = x].
(2.5)
Dann ist natürlich T0 f (x) = f (x) und Tt+s f (x) = Tt Ts f (x) bekommt man mit der ChapmanKolmogorov Gleichung. Man kann zeigen, dass jeder homogener Markovprozess auf diese Weise
eindeutig durch die so definierte Halbgruppe charakterisiert ist. Jedoch gilt die Umkehrung im
Allgemeinen nicht: nicht zu jeder Halbgruppe gibt es einen Markovprozess. Eine große Klasse
von Halbgruppen, für die die Umkehrung gilt sind die Feller-Halbgruppen.
Definition 2.9. Es sei C0 (E) die Menge der stetigen Funktionen auf E die bei unendlich
verschwinden. Eine positive, konservative stark stetige Halbgruppe auf C0 (E) heißt FellerHalbgruppe und der zugehörige Generator Feller-Generator.
Für das folgende Theorem verweisen wir auf (Ethier and Kurtz 1986, Theorem 4.2.7).
Theorem 2.10. Es sei E lokal kompakt und separabel und sei (Tt )t∈R+ eine Feller-Halbgruppe
auf C0 (E). Dann gibt es für jedes Wahrscheinlichkeitsmaß ν auf (E, B(E)) einen zu (Tt )t∈R+
(mittels (2.5)) gehörigen Markovprozess X mit Anfangsverteilung ν und Pfaden im Skorohod
Raum DE (R+ ). Ferner ist X stark Markovsch bezüglich der (natürlichen, rechtsstetigen) FiltraX.
tion Ft+
Wir schließen diesen Abschnitt mit Beispielen ab.
Beispiel 2.11.
1. Es sei X = (Xt )t∈R+ ein Poissonprozess mit Rate λ. Insbesondere haben
wir X0 = 0, Xt ∼ Pois(λt) und die Zuwächse sind unabhängig. Für f ∈ C0 (N0 ) (also eine
Nullfolge) gilt
Tt f (x) = E[f (X(t + s))|X(s) = x] = E0 [f (x + Xt )] =
∞
X
f (x + k)e−λt
k=0
(λt)k
k!
und
∞
Tt f (x) − f (x)
e−λt X
(λt)k
=
(f (x + k) − f (x))
t
t
k!
k=0
= e−λt λ (f (x + 1) − f (x)) + e−λt
∞
X
k=2
t→0
−−→ λ (f (x + 1) − f (x)) = Af (x).
28
(f (x + k) − f (x))
λk tk−1
k!
2 Verzweigungsprozesse in stetiger Zeit
2. Es sei X eine symmetrische Irrfahrt auf Z in stetiger Zeit, d.h. wenn Xs = x ist dann
springt die Irrfahrt nach einer exponentiell verteilten Zeit mit Parameter λ zu einem der
nächsten Nachbarn jeweils mit Wahrscheinlichkeit 1/2. Dann kann man für f : Z → R wie
oben Tt f (x) hinschreiben und zeigen, dass
Tt f (x) − f (x) t→0 λ
λ
−−→ (f (x + 1) − f (x)) + (f (x − 1) − f (x)) = Af (x).
t
2
2
3. Für diejenigen, die Q-Matrizen gewohnt sind sei bemerkt, dass in den oberen Beispielen Af (x) = (Qf )x ist. In der Tat werden Q-Matrizen auch infinitesimale Generatoren
genannt. Die Q Matrix des Poissonprozesses ist


−λ λ
0
0 ···

0 · · ·
Q =  0 −λ λ

..
.. ..
.
.
.
und (Qf )x = −λf (x) + λf (x + 1) = Af (x).
2.3 BGWP in stetiger Zeit
Hier konstruieren wir den BGWP in stetiger Zeit. Bei diesem Prozess produziert ein Individuum unabhängig von den anderen (und von der Vorgeschichte) mit Rate α Nachkommen gemäß
einer vorher festgelegten Verteilung. Mit anderen Worten ist die Lebensdauer eines Individuums
exponentiell verteilt mit Rate α. Es sei Z0 eine N0 -wertige Zufallsvariable und sei (ξn )n∈N0 eine
Folge von u.i.v. Zufallsvariablen mit Verteilung pj = P[ξn = j], j ∈ N0 und erzeugenden Funktion g. Ferner sei (Tn )n∈N0 eine Folge exponentiell verteilter Zufallsvariablen mit Parameter 1.
Schließlich definieren wir die eingebettete Sprungkette (Yn )n∈N0 und die zugehörigen Inkremente
der Sprungzeiten (Ten )n∈N0 durch
n
X
Yn = Z0 +
(ξk − 1)
k=1
Tn
.
und Ten =
αYn
(2.6)
Man beachte, dass bedingt auf Yn die Sprungzeit Ten wie das Minimum von Yn u.i.v. Zufallsvariablen mit Parameter α verteilt ist.
Der Bienaymé-Galton-Watson-Prozess Z := (Zt )t∈R+ in stetiger Zeit mit Start in Z0 ist
definiert durch
(
Z0 : falls 0 ≤ t < Te0
Zt :=
(2.7)
Pn−1 e
Pn e
Yn : falls
k=0 Tk ≤ t <
k=0 Tk .
P ∗ −1 e
Mit der Konvention T /0 = ∞ folgt auch, dass Zt = 0 für alle t ≥ nk=1
Tk , wobei n∗ = inf{n ≥
0 : Yn = 0}. Im Gegensatz zu Prozessen in diskreter Zeit kann es bei Prozessen in stetiger
Zeit zu unendlich vielen Sprüngen in endlicher Zeit kommen. Man spricht dann von Explosion
der Markovkette. In diesem Fall wäre (Zt )t∈R+ kein Prozess mit Pfaden in DN0 (R+ ), weil es
in endlicher Zeit den Wert unendlich erreicht. Das folgende Resultat liefert ein Kriterium das
Explosion ausschließt (siehe Harris (1963, Thm. III.1) oder Athreya and Ney (1972, Thm. V.9.1)).
29
2 Verzweigungsprozesse in stetiger Zeit
Theorem 2.12.
R 1 Es1 gilt P[Zt < ∞] = 1 für alle t ∈
das Integral 1−ε g(s)−s
ds divergiert.
Korollar 2.13. Ist m = g 0 (1) < ∞, dann gilt
R+ genau dann, wenn für alle ε ∈ (0, 1)
P[Zt < ∞] = 1 für alle t ∈ R+ .
Beweis. Es gilt
g(s) = g(1) + g 0 (1)(s − 1) + o(s − 1),
s→1
und mit g(1) = 1
g(s) − s = (1 − g 0 (1))(1 − s) + o(s − 1),
Also ist g 0 (1) < ∞ hinreichend für die Divergenz von
R1
1
1−ε g(s)−s
s → 1.
ds.
Die Annahme m < ∞ (die wir ab jetzt hier auch immer machen) aus dem vorherigen Kapitel
garantiert uns also in stetiger Zeit, dass der Prozess nicht explodiert.
Nun beschreiben wir den BGWP in stetiger Zeit mithilfe des Generators.
Theorem 2.14. Für f ∈ C0 (N0 ) setzen wir
Af (z) = αz
∞
X
pk (f (z − 1 + k) − f (z)) .
(2.8)
k=0
Unter der Annahme, dass das Integral in Theorem 2.12 divergiert, ist Z definiert durch (2.7)
ein zeitlich homogener Feller-Prozess mit Generator A.
Beweis. Zunächst zeigen wir, dass Z ein zeitlich homogener Feller-Prozess ist. Dazu sind für die
Halbgruppe (Tt )t∈R+ aus (2.5) die Eigenschaften aus Definition 2.9 nachzuweisen. Dass es sich
dabei um eine positive, konservative Kontraktionshalbgruppe (siehe Definition 2.6) auf C0 (N0 )
handelt, ist sofort klar. Wir brauchen also nur noch die starke Stetigkeit zu zeigen.
Wir definieren die Ereignisse V i (t) := { es gibt genau i Verzweigungsereignisse in [0, t]}. Für
eine Menge S bezeichnen durch S C das Komplement dieser Menge. Sind f ∈ C0 (N0 ) und t ≥ 0,
dann gilt
|Tt f (z) − f (z)| = |Ez [(f (Zt ) − f (z))1(V 0 (t))C ]|
≤ 2kf k∞ · P[(V 0 (t))C ]
= 2kf k∞ · (1 − e−αzt ) → 0
für t → 0,
was die punktweise Konvergenz zeigt. Für f ∈ C0 (N0 ) gibt es zu jedem ε ein nε mit supz≥nε |f (z)| <
ε. Die obige Abschätzung zeigt
|Tt f (z) − f (z)| ≤ 2kf k∞ · (1 − e−αnε t ), für z < nε .
(2.9)
Pz [Zt < nε ] ≤ p0 (1 − e−αnε t ).
(2.10)
Für z ≥ nε gilt
30
2 Verzweigungsprozesse in stetiger Zeit
Hier steht auf der rechten Seite die Wahrscheinlichkeit, dass mindestens einer der (am Anfang auf
jeden Fall vorhandenen) nε Individuen in der Zeit [0, t] stirbt und keine Nachkommen produziert.
Es folgt
|Tt f (z) − f (z)| ≤ 2ε + 2kf k∞ p0 (1 − e−αnε t ), für z ≥ nε .
(2.11)
Insgesamt haben wir
|Tt f (z) − f (z)| ≤ 2ε + 2kf k∞ (1 − e−αnε t ), für alle z ∈ N0 .
(2.12)
Mit t → 0 und dann ε → 0 auf der rechten Seite folgt limt→0 kT f − f k∞ = 0.
Es bleibt zu zeigen, dass A Generator von Z ist. Dazu genügt es, es auf dem Raum der stetigen
Funktionen mit kompaktem Träger, welchen wir mit CC (N0 ) bezeichnen (denn CC (N0 ) ist Core
von A auf C0 (N0 )).
Das Ereignis V 1 (t) kann man als disjunkte Vereinigung der Ereignisse
Vk1 := { es gibt genau ein Verzweigungsereignis in [0, t] mit genau k Nachkommen }
schreiben. Damit gilt
1
1
(Tt f (z) − f (z)) = Ez [f (Zt ) − f (z)]
t
t
∞
X
1
= Ez [(f (Zt ) − f (z))
1Vk1 (t) ] + Rt f (z)
t
k=0
Z t
∞
1X
(f (z − 1 + k) − f (z))
αze−αzs pk e−α(z−1+k)(t−s) ds + Rt f (z)
=
t
0
k=0
(hier ist im Integral αze−αzs die Dichte der “Verzweigungszeit”, pk die W’keit für k-Nachkommen
und e−α(z−1+k)(t−s) die W’keit, dass die dann vorhandenen z − 1 + k Individuen sich nicht in
der verbleibenden Zeit [s, t] verzweigen)
= αz
∞
X
pk (f (z − 1 + k) − f (z))
k=0
1
t
Z
t
e−αzs e−α(z−1+k)(t−s) ds + Rt f (z).
0
Das Restglied ist gegeben durch t−1 Ez [(f (Zt ) − f (z))1(V 1 (t))C ]. Auf V 0 (t) ist Zt = z und damit
gilt
2kf k∞
Pz [(V 0 (t) ∪ V 1 (t))C ]
t
Z
∞
X
pk t −αzs
= 2kf k∞ αz
e
(1 − e−α(z−1+k)(t−s) ) ds.
t 0
|Rt f (z)| ≤
k=0
Es sei H die Stammfunktion der Funktion ht (s) := e−αzs (1 − e−α(z−1+k)(t−s) ), die sicherlich
existiert. Dann gilt
Z
1 t −αzs
H(t) − H(0)
e
(1 − e−α(z−1+k)(t−s) ) ds =
→ H 0 (0) = h0 (0) = 0
t 0
t
31
2 Verzweigungsprozesse in stetiger Zeit
und es folgt |Rt f (z)| → 0 für t → 0. Mit einem ähnlichen Argument zeigt man auch
1
t
t
Z
e−αzs e−α(z−1+k)(t−s) ds → 1
für t → 0.
0
Insgesamt folgt für jedes z ∈ N0
1
(Tt f (z) − f (z)) → Af (z)
t
für t → 0.
Es bleibt noch Uniformität zu zeigen. Sei n0 so, dass f (z) = 0 für z ≥ n0 . Für z ≥ n0 + 1 gilt
Pz [Zt < n0 ] ≤
αn0 p20
Z
t
e−α(n0 +1)s (1 − e−αn0 (t−s) ) ds.
0
Für z > n0 + 1 ist also
1
1
1
|Tt f (z) − f (z)| = |Ez [f (Zt )]| ≤ kf k∞ Pz [Zt < n0 ]
t
t
t
Z t
1
e−α(n0 +1)s (1 − e−αn0 (t−s) ) ds.
≤ kf k∞ αn0 p20
t
0
Wie oben kann man zeigen, dass die rechte Seite für t → 0 gegen Null konvergiert, was die
Uniformität zeigt.
Das folgende Theorem zeigt, dass in ein BGWP in stetiger Zeit stets BGWP in diskreter Zeit
eingebettet sind. Man kann also Resultate aus dem vorherigen Kapitel auch für Verzweigungsprozesse in stetiger Zeit nutzen. Umgekehrt kann man jedoch nicht jeden BGWP in diskreter
Zeit in einen mit stetiger Zeit einbetten (siehe Athreya and Ney 1972, Abschn. III.12).
Theorem 2.15. Es sei Z ein BGWP in stetiger Zeit mit Generator A definiert in (2.8) und
zugehöriger Halbgruppe (Tt )t∈R+ . Für ein festes δ > 0 definieren wir Zen := Zδn , n ∈ N0 . Dann
e := (Zen )n∈N ein BGWP in diskreter Zeit. Die erzeugende Funktion der Nachkommensverist Z
0
teilung ist gegeben durch g(s) := Tδ hs (1), wobei hs (z) := sz für s ∈ [0, 1] und z ∈ N0 ist.
Beweis. Es gilt
g(s) = E1 [sZ1 ] = E1 [sZδ ] = Tδ hs (1)
e
und da die Verzweigungseigenschaft sich von Z auch überträgt, ist das Theorem bewiesen.
32
3 Diffusionsapproximation von
Verzweigungsprozessen
Ähnlich wie man Brownsche Bewegung als Grenzwert reskalierter Irrfahrten erhält, erhält man
einen Verzweigungsprozess in stetiger Zeit und auf stetigem Raum (verzweigende Diffusionsprozesse) als Grenzwert von reskalierten Bienaymé-Galton-Watson-Prozess.
Es sei (E, r) ein Polnischer metrischer Raum (d.h. separabel und vollständig) und sei B(E)
die zugehörige Borel-σ-Algebra. Ferner sei P(E) die Menge aller Wahrscheinlichkeitsmaße auf
(E, B(E)) ausgestattet mit schwacher RTopologie (Pn konvergiert
schwach gegen P , wenn für alle
R
stetigen beschränkten f : E → R gilt E f (x)Pn (dx) → E f (x)P (dx)).
Unser Ziel ist es, schwache Konvergenz von geeignet reskalierten Verzweigungsprozessen gegen
verzweigende Diffusionen auf DE (R+ ) nachzuweisen. Da Diffusionsprozesse stetige Pfade haben
werden wir außerdem zeigen müssen, dass Grenzwerte in C(R+ , E) liegen (im Raum der stetigen
Funktionen von R+ nach E).
3.1 Kriterien für schwache Konvergenz von Prozessen
In diesem Abschnitt erinnern wir an einige Kriterien für schwache Konvergenz. Ist (Pn ) eine
Folge auf P(E), dann wird schwache Konvergenz typischerweise in zwei Schritten gezeigt.
• Existenz von Grenzwerten: Dazu zeigt man, dass (Pn ) relativ kompakt ist, d.h. jede Teilfolge enthält eine weitere schwach konvergente Teilfolge. Auf Polnischen Räumen ist diese
Bedingung nach Prohorov’s Theorem äquivalent zu Straffheit. Dabei heißt (Pn ) straff, falls
zu jedem ε > 0 ein kompaktes K ⊂ E existiert mit Pn (K) ≥ 1 − ε für alle n.
• Eindeutigkeit: Hier zeigt man, dass es höchstens ein Grenzwert geben kann.
Definition 3.1. Für x ∈ DE (R+ ), δ > 0 und T > 0 ist der Stetigkeitsmodul definiert durch
w0 (x, δ, T ) := inf max
{ti }
i
sup
r(x(s), x(t)),
(3.1)
s,t∈[ti−1 ,ti )
mit Infimum über alle Partitionen 0 = t0 < t1 < · · · < T ≤ tn mit min1≤i≤n (ti − ti−1 ) > δ für
alle n.
Man kann zeigen, dass der Stetigkeitsmodul fallend in δ ist. Ferner kann man sich auch überlegen, dass eine Funktion kleines Stetigkeitsmodul haben kann auch wenn sie große Sprünge
macht. Dazu dürfen die Sprünge nur nicht zu nah beieinander sein (insbesondere darf es keine
Häufungspunkte von Sprüngen geben), sodass die Sprünge auf die einzelnen Partitionsabschnitte
verteilt werden können.
Das folgende Resultat gibt Kriterien für relative Kompaktheit in DE (R+ ) an (siehe Ethier
and Kurtz 1986, Theorem 3.6.3).
33
3 Diffusionsapproximation von Verzweigungsprozessen
Theorem 3.2. Es sei (E, r) ein vollständiger metrischer Raum. Die Menge A ⊂ DE (R+ )
ist genau dann relativ kompakt (d.h. Abschluss von A ist kompakt), wenn die folgenden zwei
Bedingungen gelten:
(i) Für jede rationale Zahl t ≥ 0 gibt es eine Kompakte Menge Γt ⊂ E, so dass x(t) ∈ Γt für
alle x ∈ A.
(ii) Für alle T > 0 gilt
lim sup w0 (x, δ, T ) = 0.
δ↓0 x∈A
Die Bedingung (i) folgt aus eine stärkeren Bedingung (die ihrerseits aus relativer Kompaktheit
folgt): Für alle T > 0 gibt es eine kompakte Menge KT ⊂ E so, dass x(t) ∈ KT für alle x ∈ A
und 0 ≤ t ≤ T ist.
Für das folgende Theorem verweisen wir auf Theoreme 3.7.2 und 3.8.6 in (Ethier and Kurtz
1986) sowie auf (Aldous 1978).
(n)
Theorem 3.3. Es sei (E, r) Polnisch und sei (X· )n=1,2,... eine Folge stochastischer Prozesse
(n)
mit Pfaden in DE (R+ ). Ferner sei für jede rationale Zahl t ≥ 0 die Folge (Xt )n=1,2,... straff in
(n)
E. Dann ist (X· )n=1,2,... genau dann straff in DE (R+ ), wenn eine der folgenden Bedingungen
erfüllt ist:
(i) Für alle ε > 0 und T > 0 gibt es ein δ > 0 mit
sup P[w0 (Xn , δ, T ) ≥ ε] ≤ ε.
(3.2)
n
(ii) Für jedes T > 0 gibt es ein p > 0 und eine Familie {Yn (δ) : 0 < δ < 1, n = 1, 2, . . . } von
nicht-negativen Zufallsvariablen mit
h
p
i
(n)
(n)
(n)
(n)
E r(Xt+u , Xt ) ∧ 1 |FtX
≤ E[Yn (δ)|FtX ]
(3.3)
für alle 0 ≤ t ≤ T , 0 ≤ u ≤ δ und
lim sup E[Yn (δ)] = 0.
δ↓0
(3.4)
n
(iii) Diese äquivalente Bedingung gilt im Fall E = R. Für alle Stoppzeiten Tn , die durch T
beschränkt sind und alle ε > 0 gibt es ein δ > 0 und n0 so dass
h
i
(n)
(n)
sup sup P |XTn +θ − XTn | > ε ≤ ε.
(3.5)
n≥n0 θ∈[0,δ]
Wie zuvor erfüllt eine in DE (R+ ) relativ kompakte Folge (X· ) die stärkere compact containment condition: Für alle ε > 0 und T > 0 existiert eine kompakte Menge KT,ε ⊂ E mit
(n)
inf P[Xt
(n)
n
∈ KT,ε für 0 ≤ t ≤ T ] ≥ 1 − ε.
(3.6)
Mit dem folgenden Kriterium kann man relative Kompaktheit von Folgen von E-wertigen
Prozessen auf Straffheit von reellwertigen Funktionen von diesen Prozessen für eine genügend
große Funktionenmenge (siehe Ethier and Kurtz 1986, Theorem 3.9.1) zurückführen.
34
3 Diffusionsapproximation von Verzweigungsprozessen
(n)
Theorem 3.4. Es sei (E, r) vollständig und separabel und sei (X· ) eine Folge von Prozessen
mit Pfaden in DE (R+ ). Ferner sei die compact
containment
condition (3.6) erfüllt. Dann ist
(n)
(n)
(X· ) relativ kompakt auf DE (R+ ) wenn f (X· ) straff auf DR (R+ ) für alle f ∈ H ist,
wobei H eine dichte Teilmenge von Cb (E) ist bezüglich gleichmäßiger Konvergenz auf kompakten
Mengen.
Das folgende Resultat zeigt wie man die Straffheit von Familien von Funktionalen mithilfe der
Generatoren zeigen kann.
Lemma 3.5. Es sei (X· ) eine Folge von Prozessen mit Pfaden in DE (R+ ) mit zugehörigen
(n)
Halbgruppen (Tt ) und Generatoren A(n) . Ferner sei die compact containment condition (3.6)
(n)
erfüllt. Dann ist für ein f ∈ Cn (E) die Folge
(n)
f (X· )
straff auf DR (R+ ), wenn f, f 2 ∈
D(A(n) ) und
sup{kA(n) f k∞ + kA(n) f 2 k∞ } < ∞.
(3.7)
n
(n)
Beweis. Die Straffheit von f (Xt ) für jedes t ≥ 0 folgt sofort aus der compact containment
condition. Es genügt also (ii) aus Theorem 3.3 zu zeigen. Mit Theorem 2.8(iii) erhalten wir
(n)
(n) 2
E f (Xt+u ) − f (Xt ) |Ftn
h
i
h
i
(n)
(n)
(n)
(n)
(n)
= E f 2 (Xt+u ) − f 2 (Xt )|Ftn − 2f (Xt )E f (Xt+u ) − f (Xt |Ftn
Z u
Z u
(n)
=
Ts(n) A(n) f 2 (Xs(n) ) ds − 2f (Xt )
Ts(n) A(n) f (Xs(n) ) ds
0
0
≤ u kA(n) f 2 k∞ + 2kf k∞ kA(n) f k∞ .
Nach Voraussetzung ist der Ausdruck in den Klammern gleichmäßig in n beschränkt. Mit u → 0
folgt (ii) aus Theorem 3.3.
Um die Eindeutigkeit der Grenzwertes einer Folge von Prozessen zu zeigen genügt es nach
Theorem 2.4 zu zeigen, dass die endlich-dimensionalen Verteilungen eindeutig sind. Dazu benutzen wir die Charakterisierung des Grenzwertes durch ein Martingalproblem. Mit deren Hilfe kann
man oft ein Prozess mit einem gegebenen Generator beschreiben ohne die zugehörige Halbgruppe genau zu kennen. Um Konvergenz einer reskalierten Folge von BGWP gegen eine Diffusion zu
zeigen werden wir zunächst nachweisen, dass alle Grenzwerte Lösungen eines Martingalproblems
sind und dann zeigen wir mit Hilfe einer anderen Methode, genannt Dualität, die Eindeutigkeit
der Lösungen des Martingalproblems.
Es sei X = (Xt )t≥0 ∈ DR+ (E) ein Markov-Prozess mit Generator A und zugehörigem Definitionsbereich D(A). Für f ∈ D(A) setzen wir
Z t
f
Mt := f (Xt ) −
Af (Xs ) ds
(3.8)
0
und Ft := FtX . Dann gilt für t, s ≥ 0 mit Theorem 2.8
Z s
Z t
f
E[Mt+s |Ft ] = Ts f (Xt ) −
Tu Af (Xt ) du −
Af (Xu ) du
0
0
Z t
= f (Xt ) −
Af (Xu ) du = Mtf .
0
35
3 Diffusionsapproximation von Verzweigungsprozessen
Also ist (Mtf )t≥0 ein Martingal für jedes f ∈ D(A) wenn X ein Markov-Prozess ist. Umgekehrt
sagen wir, dass X Lösung des Martingalproblems für Operator A ist, wenn (Mtf )t≥0 ein Martingal
für jedes f ∈ D(A) ist. Man beachte, dass X genau dann eine Lösung des Martingalproblems
für Operator A ist, wenn für alle k ∈ N, 0 ≤ t1 ≤ . . . tk < tk+1 , und h1 , . . . , hk ∈ Cb (E)
#
"
Y
Z tk+1
k
(3.9)
Af (Xs ) ds
hi (Xtk ) = 0.
E f (Xtk+1 ) − f (Xtk ) −
tk
i=1
(Wir erinnern an die Eigenschaft der bedingten Erwartungen: E [(ξ − E[ξ|F])ζ] = 0 für jede
beschränkte F messbare Zufallsvariable ζ). Die Gleichung (3.9) macht nochmal deutlich, dass
man anhand von endlich dimensionalen Verteilungen entscheiden kann ob ein stochastischer
Prozess Lösung eines Martingalproblems ist oder nicht.
Das nächste Resultat zeigt: Konvergieren Lösungen einer Folge von Martingalproblemen schwach,
so ist der Grenzwert auch eine Lösung des “Grenzwert”-Martingalproblems.
Theorem 3.6. Es sei (X n )n=0,1,... eine Folge von DR+ (E)-wertigen Lösungen von Martingalproblemen mit Generatoren An auf B(E) (beschränkte messbare Funktionen auf E). Ferner sei
A ein Operator auf B(E) und für jedes f ∈ D(A) seien fn ∈ D(An ) so, dass
lim kfn − f k∞ = 0,
n→∞
lim kAn fn − Af k∞ = 0.
n→∞
(3.10)
Ist Xn schwach konvergent gegen X (in Zeichen Xn ⇒ X), dann ist X eine Lösung des Martingalproblems zu A.
Beweis. Sei D(X) := {t ∈ R+ : P[Xt = Xt− ] = 1}, 0 ≤ t1 ≤ . . . tk ≤ s < t ∈ D(X) und
hi ∈ Cb (E) für i = 1, . . . , k. Für f und fn wie in (3.10) gilt dann
"
#
Y
Z t
k
E f (Xt ) − f (Xs ) −
Af (Xu ) du
hi (Xtk )
s
i=1
"
= lim E
n→∞
fn (Xtn ) − fn (Xsn ) −
Z
s
t
#
Y
k
An fn (Xun ) du
hi (Xtnk ) = 0.
i=1
Um diese Gleichung auch auf das Komplement von D(X) fortzusetzen, zeigen wir dass es höchstens abzählbar ist. Die Behauptung folgt dann mit der Rechtsstetigkeit von X.
Seien also ε, δ > 0 und T > 0. Angenommen die Menge
{0 ≤ t ≤ T : P[r(Xt , Xt− ) ≥ ε] ≥ δ}
enthält eine Folge (tn ) von unterschiedlichen Punkten, dann
P[r(Xtn , Xtn − ) ≥ ε unendlich oft ] ≥ δ > 0.
Dies widerspricht aber der Tatsache, dass jedes x ∈ DE (R+ ) in jedem Intervall [0, T ] nur endlich
viele Sprünge der Höhe ≥ ε hat. Damit ist
{0 ≤ t ≤ T : P[r(Xt , Xt− ) ≥ ε] > 0}
höchstens abzählbar. Die Behauptung folgt dann mit ε → 0.
36
3 Diffusionsapproximation von Verzweigungsprozessen
√
Genau wie bei gewöhnlichen Differentialgleichungen (z.B. hat die DGL y 0 = y zwei Lösungen y(x) ≡ 0 und y(x) = x2 /4 mit derselben Anfangswert y(0) = 0) sind die Lösungen von
Martingalproblemen im Allgemeinen nicht eindeutig. Genauso wenig müssen die Lösungen Markovprozesse sein. Das folgende Resultat (siehe Ethier and Kurtz 1986, Thm. 4.4.2) zeigt, dass die
letzten beiden Eigenschaften aus der Eindeutigkeit der eindimensionalen Verteilungen folgen.
Theorem 3.7. Es sei E separabel und sei A ein Operator auf B(E). Ferner seien X und Y zwei
Lösungen des Martingalproblems zu A mit derselben Startverteilung. Wenn die eindimensionalen
Verteilungen von X und Y übereinstimmen, dann stimmen auch alle endlich-dimensionalen
Verteilungen überein. Ferner sind X und Y (zeitlich) homogene Markovprozesse.
Eindeutigkeit der Lösungen von Martingalproblemen kann oft mit Hilfe der Dualität der Lösung zu einem anderen Prozess (welcher auch deterministisch sein kann). Das folgende Theorem
ist ein Spezialfall von Theorem 4.4.11 in (Ethier and Kurtz 1986).
Theorem 3.8. Es seien E1 und E2 zwei metrische Räume und seien f, g ∈ B(E1 × E2 ) mit
f (x, ·) ∈ C(E2 ) für alle x ∈ E1 und g(·, y) ∈ C(E1 ) für alle y ∈ E2 . Ferner seien für zwei
stochastische Prozesse X und Y auf E1 bzw. E2
Z t
Z t
f (Xt , y) −
g(Xs , y) ds und f (x, Yt ) −
g(x, Ys ) ds
(3.11)
0
0
Martingale für alle x ∈ E1 und y ∈ E2 . Dann gilt für t ≥ 0
EX0 [f (Xt , Y0 )] = EY0 [f (X0 , Yt )].
(3.12)
Beweis. Da f und g beschränkt sind können wir in (3.11) Erwartungswerte nehmen und die
Integrationsreihenfolge vertauschen. Nach Ableiten erhalten wir dann für s ≥ 0
d
EX [f (Xs , y)] = EX0 [g(Xs , y)]
ds 0
Es folgt für s ∈ [0, t]
d
EY [f (x, Ys )] = EY0 [g(x, Ys )].
ds 0
und
d
EX ×Y [f (Xs , Yt−s )] = EX0 ×Y0 [g(Xs , Yt−s )] − EX0 ×Y0 [g(Xs , Yt−s )] = 0.
ds 0 0
Schließlich liefert Integration über [0, t]
Z t
d
0=
EX0 ×Y0 [f (Xs , Yt−s )] ds = EX0 ×Y0 [f (Xt , Y0 )] − EX0 ×Y0 [f (X0 , Yt )],
0 ds
(3.13)
(3.14)
was gerade die Behauptung ist.
3.2 Diffusionslimes reskalierter BGWP
Es sei Z (N ) eine Folge von BGWP in stetiger Zeit (definiert in Abschnitt 2.3) mit Rate α (für
die Lebensdauer) und Nachkommensverteilung gegeben durch die Verteilung von ξ (N ) . In diesem
(N )
Abschnitt betrachten wir das Verhalten der Folge X (N ) := (Xt )t≥0
(N )
Xt
:=
1 (N )
Z
N Nt
(N )
(3.15)
für N → ∞. Wir nehmen an, dass Z0 in Verteilung gegen eine Zufallsvariable X0 konvergiert
(ansonsten können wir natürlich auch keine Konvergenz auf der Prozessebene erwarten).
37
3 Diffusionsapproximation von Verzweigungsprozessen
Theorem 3.9. Es sei A ein Operator definiert durch
1
Af (x) := ασ 2 xf 00 (x) + αµxf 0 (x)
2
(3.16)
µ
+ o( N1 ) und Var[ξ (N ) ] = σ 2 + o(1) < ∞.
für f ∈ CC∞ (R+ ). Ferner seien E[ξ (N ) ] = m(N ) = 1 + N
(N )
Konvergiert X0 gegen X0 (deterministisch), dann konvergiert X (N ) definiert in (3.15) in Verteilung gegen einen stochastischen Prozess X welcher die eindeutige Lösung des Martingalproblems zu A auf DR+ (R+ ) ist.
(N )
Die Annahme, dass X0
wendig.
deterministisch ist vereinfacht etwas den Beweis ist aber nicht not-
Beweis. Der Generator A(N ) von X (N ) ist gegeben durch
A(N ) f (x) = N 2 αx
∞
X
(N )
pk
k=0
k−1
− f (x) ,
f x+
N
wobei hier ein N durch die Zeitskalierung (bzw. Beschleunigung der Rate von α auf N α) und
das andere wegen z = N x auftaucht. Es genügt f ∈ CC∞ zu betrachten. Wir wählen so ein f mit
Träger in [0, K] für ein K > 0. Mit Taylorformel erhalten wir
!
k−1
Z
∞
X
k−1 0
1 k − 1 2 00
1 x+ N
(N )
(N )
2
2 000
A f (x) = αN x
pk
f (x) +
f (x) +
(x − y) f (y) dy
N
2
N
2 x
k=0
und mit 1 = m(N ) −
µ
N
+ o( N1 )
= αf 0 (x)x N
1
+ αxf 00 (x)
2
1
1
+ αx
2 N
∞
X
!
(N )
pk (k
k=0
∞
X
∞
X
k=0
− m(N ) ) + µ + o(1)
!
(N )
pk (k − m(N ) )2 + o(1)
k=0
(N )
pk (k
3
Z
− 1)
1
2 000
y f
0
k−1
x+
y
N
dy.
Die Summe in der ersten Zeile ist gleich Null und in der zweiten Zeile ist die Summe gleich
σ 2 + o(1). In den ersten beiden Zeilen haben wir also Af (x) + o(1) stehen. Damit gilt (in der
38
3 Diffusionsapproximation von Verzweigungsprozessen
zweiten Ungleichung nutzen wir unter anderem f (x) = 0 für x > K)
|A(N ) f (x) − Af (x)|
1
1
= αx
2 N
Z 1
∞
X
k−1
(N )
2 000
3
x+
y f
y dy + o(1)
pk (k − 1)
N
0
k=0
∞
Z 1∧ N (K−x)+ k−1
1
k − 1 1 X (N )
2 000
3
y f
≤ αx
x+
pk (k − 1)
y dy
2 N
N
0
k=2
(N )
+ p0 kf 000 k∞ 1{x≤K} + o(1)
∞
N (K − x)+
1 X (N )
1 (N )
1
3
000
pk (k − 1) kf k∞ 1 ∧
+ αK p0 kf 000 k∞ + o(1)
≤ αx
2 N
k−1
N
k=2
∞
X
1
(N )
000
2 k−1
≤ αKkf k∞
pk (k − 1)
∧ K + o(1).
2
N
k=2
Die Summe in der ersten Zeile konvergiert nach dem Satz von dominierter Konvergenz gegen
Null und somit gilt kA(N ) f − Af k∞ → 0 für N → ∞. Für Straffheit in DR+ (R+ ) bleibt
nach Theorem 3.5 und Lemma 3.5 noch die compact containment condition zu zeigen. Dafür
(N )
(N )
überzeugen wir uns zunächst davon, dass e−α(m −1)t Zt ein Martingal ist. Es gilt
A(N ) id(x) = αx
∞
X
(N )
pk (x − 1 + k − x) = αx(m(N ) − 1)
k=0
und somit
(N )
Ez [Zt
Z
t
A(N ) id(Zs(N ) ) ds
]=z+E
0
Z
t
αZs(N ) (m(N ) − 1) ds
Z t
(N )
= z + α(m
− 1)
E[Zs(N ) ] ds.
=z+E
0
0
(N )
(N )
(N )
Die Lösung dieser Gleichung (nach Ez [Zt ])) ist Ez [Zt ]) = zeα(m −1)t . Daraus erhält man
(N )
(N )
die Martingaleigenschaft von e−α(m −1)t Zt . Mit der Doob’schen Ungleichung erhalten wir
für T, c > 0
PX (N )
0
"
#
sup
0≤t≤T
(N )
Xt
> c = PZ (N )

≤ PZ (N )  sup
0
0≤t≤N T
0
"
sup
0≤t≤N T
#
1 (N )
Z
>c
N t
1 (N ) −α(m(N ) −1)t
Z e
N t
!−1 
>c
(N ) −1)t
sup e−α(m
0≤t≤N T
1
1
(N )
(N )
(N )
sup e−α(m −1)t EZ (N ) [ZN t e−α(m −1)N T ]
c 0≤t≤N T
N 0
1
(N
)
(N )
=
sup e−α(m −1)t X0 .
c 0≤t≤N T
≤
39

3 Diffusionsapproximation von Verzweigungsprozessen
Das Supremum in der letzten Zeile ist beschränkt in N . Wenn µ = m(N ) − 1 + o(1/N ) < 0 ist
dann ist es beschränkt durch 1. Anderenfalls ist es gleich eα(µ+o(1))T was gegen eαµT konvergiert
und somit beschränkt
h ist. Insgesamt kann
i man also zu jedem ε > 0 und jedem T > 0 ein c so
(N )
wählen, dass PX (N ) sup0≤t≤T Xt > c < ε gilt, was die compact containment condition zeigt.
0
Nach Theorem 3.6 ist jeder Grenzwert X gegen den eine Teilfolge von X (N ) in Verteilung
konvergiert eine Lösung von dem Martingalproblem zu A. Für die Konvergenz X (N ) ⇒ X bleibt
also noch die Eindeutigkeit des Grenzwertes zu zeigen. Dies zeigen wir mit Hilfe von Dualität.
Sei dazu u(t) die eindeutige Lösung von
d
1
u(t) = − ασ 2 u2 (t) + αµu(t),
dt
2
auf
u(0) = u0 ,
R+ (u(t) ist natürlich deterministisch). Dann ist
e
−xu(t)
Z
−
0
t
1
x( ασ 2 u2 (s) − αµu(s))e−xu(s) ds = e−xu(t) −
2
Z
0
t
d −xu(s)
e
ds = e−xu0
ds
ein Martingal für x ∈ R+ . Da X eine Lösung des Martingalproblems zu A ist, ist auch
Z t
1
−Xt u
e
−
Xs ( ασ 2 u2 − αµu)e−Xs u ds
2
0
Z t
= fu (Xt ) −
Afu (Xs ) ds
0
ein Martingal für jedes u ∈ R+ , hier ist fu (x) := e−ux . Nach Theorem 3.8 gilt EX0 [e−uXt ] =
e−ut X0 dadurch sind die eindimensionalen Verteilungen von X eindeutig festgelegt und mit
Theorem 3.7 folgt die Eindeutigkeit der endlich dimensionalen Verteilungen.
Wir haben in dem obigen Theorem Konvergenz in DR+ (R+ ) gezeigt. Tatsächlich kann man
sogar zeigen, dass der Grenzwert X eine Diffusion ist, ein Prozess also, dessen Pfade fast sicher
in C(R+ , R+ ) liegen. Ferner kann man X als Lösung der stochastischen Differentialgleichung
p
dXt = ασ 2 Xt dBt + αµXt dt
auffassen. Dieser Prozess wird oft als Feller-Diffusion bezeichnet (siehe Feller 1951). Es ist ein
Beispiel für einen Verzweigungsprozess mit stetigem Zustandsraum R+ . Ist X ein allgemeiner
subkritischer oder kritischer Verzweigungsprozess auf R+ mit Übergangsoperator p(t, x, ·), so
gilt (siehe Le Gall 1999)
Z ∞
Ex [e−λXt ] =
e−λy p(t, x, dy) = e−xut (λ) , λ > 0.
0
Hier ist ut (λ) die eindeutige nicht-negative Lösung der Integralgleichung
Z t
ut (λ) +
ψ(us (λ)) ds = λ
0
wobei
2
∞
Z
ψ(u) = αu + βu +
0
40
(e−ru − 1 + ru) π(dr)
3 Diffusionsapproximation von Verzweigungsprozessen
R∞
mit α, β ≥ 0 und einem σ-endlichen Maß π mit 0 (r ∧ r2 )π(dr) < ∞. Die Funktion ψ heißt Verzweigungsmechanismus. Außerdem kann man zu jedem (subkritischen oder kritischen) Verzweigungsprozess X abhängig von den Parametern α, β und π ein Folge von Verzweigungsprozessen
mit diskretem Zustandsraum konstruieren, die X approximieren.
Die Verzweigungsprozesse die wir betrachtet haben, haben alle keine räumliche Struktur. Man
kann eine solche einführen indem man zum Beispiel jedes Individuum während seiner Lebenszeit
gemäß einer Irrfahrt auf Zd oder gemäß einer Brownschen Bewegung auf Rd sich bewegen lässt.
Stirbt das Individuum, dann wird es eine zufällige (nach der festen Nachkommensverteilung
verteilte) Anzahl von Nachkommen ersetzt. Diese verhalten sich dann wie unabhängige Kopien
ihrer “Mutter”. Solche Prozesse bezeichnet man als verzweigende Irrfahrt bzw. verzweigende
Brownsche Bewegung und man kann sie als maßwertige Prozesse auffassen. Reskalierungen von
diesen Prozessen führen zu so genannten Superprozessen (siehe Etheridge 2000).
41
4 Populationsmodelle mit fester
Populationsgröße
In diesem Kapitel betrachten wir populationsgenetische Modelle mit diskretem Zustandsraum.
Ziel der Populationsgenetik ist es, die Mechanismen wie z.B. Mutation, Selektion, Rekombination, zu verstehen, die zu (genetischer) Variabilität führen die man in der Natur beobachten kann.
In dem ersten Abschnitt behandeln wir kurz das neutrale Wright-Fisher (WF) Modell und in
dem zweiten etwas ausführlicher das Moran-Modell (das Analogon von WF Modell in stetiger
Zeit). Für ausführlichere Beschreibung dieser Modelle und deren Erweiterungen verweisen wir
auf z.B. (Etheridge 2011) und (Tavaré 2004).
4.1 Wright-Fisher Modell
Wir betrachten eine Population mit 2N Individuen die jeweils vom Typ A oder a sind. Die
Population verhält sich gemäß einer Markovkette (Xn )n=0,1,... in diskreter Zeit. Dabei ist
Xn := #Individuen vom Typ A in Generation n.
Natürlich reicht es die Evolution des einen Typs zu betrachten. Wir betrachten zunächst eine
neutrale Population ohne Mutation. Neutral bedeutet hier, dass kein Typ bei der Reproduktion
bevorzugt wird. In diesem Fall kann man die Evolution auch so auffassen, dass die 2N Individuen
zur Zeit n + 1 sich ihre Mutter zufällig aus der n-ten Generation “ziehen”, d.h. gegeben Xn ist
Xn+1 binomial verteilt mit Parameter Xn /2N :
P[Xn+1
2N
Xn k
Xn 2N −k
= k|Xn ] =
1−
, k ∈ {0, . . . , 2N }.
k
2N
2N
(4.1)
Wegen
E[Xn+1 |X0 , . . . , Xn ] = E[Xn+1 |Xn ] = 2N
Xn
= Xn
2N
(4.2)
ist (Xn ) ein Martingal. Insbesondere gilt E[Xn ] = E[X0 ] für alle n ≥ 1. Es ist klar, dass (Xn ) eine
Markovkette auf {0, · · · , 2N } mit absorbierenden Zuständen 0 (Typ a fixiert in der Population)
und 2N (Typ A fixiert in der Population).
Es sei pi die Wahrscheinlichkeit für die Absorption in 2N gegeben X0 = i. Für pi kann man
dann eine Rekurrenzgleichung mit Randwerten p0 = 0 und p2N = 1 hinschreiben und auch lösen
(siehe Tavaré 2004), man kann sie aber auch mit Hilfe des Martingal-Stoppsatzes lösen. Sei dazu
τ = inf{n ≥ 0 : Xn = 0, oder Xn = 2N }, dann kann man sich überlegen, dass τ fast sicher
endlich ist und es gilt
i = E[Xτ |X0 = i] = pi 2N + (1 − pi )0
42
4 Populationsmodelle mit fester Populationsgröße
und somit
pi =
i
.
2N
(4.3)
Also ist die Wahrscheinlichkeit in einem bestimmten Typ zu fixieren ist gleich der relativen
Häufigkeit des Typs zur Zeit 0. Wie wir später sehen werden stammt für große n die gesamte
Population von einem Vorfahr aus der Zeit 0 ab. Dieser Vorfahr wird zufällig gewählt und die
W’keit, dass er vom Typ A ist, ist gerade pi .
Wie für pi , kann man für die mittlere Absorptionszeit Ei [τ ] auch eine Rekurrenzgleichung
hinschreiben. Es ist jedoch kompliziert diese explizit zu lösen. Später bei der Diffusionsapproximation werden wir approximativ Ei [τ ] angeben.
Nun berechnen wir die Varianz von Xn . Es gilt
Var[Xn ] = E[Var[Xn |Xn−1 ]] + Var[E[Xn |Xn−1 ]]
Xn−1
Xn−1
= E[2N
(1 −
] + Var[Xn−1 ]
2N
2N
1
2
E[Xn−1
] + Var[Xn−1 ]
= E[Xn−1 ] −
2N
1
= E[Xn−1 ] −
(Var[Xn−1 ] + E2 [Xn−1 ]) + Var[Xn−1 ]
2N
1
1
= E[X0 ](2N − E[X0 ])
+ (1 −
) Var[Xn−1 ]
2N
2N
= · · · = E[X0 ](2N − E[X0 ])(1 − λn ) + λn Var[X0 ],
(4.4)
1
wobei λ = 1 − 2N
. Insbesondere konvergiert die Varianz gegen 2N E[X0 /2N ](1 − E[X0 /2N ])
(also gegen die Varianz der (2N, E[X0 ]/2N )-Binomialverteilung) für n → ∞.
Eine wichtige Größe für Variation in der Population ist die so genannte Heterozygotie. Sie ist
definiert als die Wahrscheinlichkeit h(r), dass zwei in Generation r zufällig (mit zurücklegen)
gezogene Individuen unterschiedliche Typen haben, d.h.
Xr 2N − Xr
h(r) := 2E
.
2N
2N
Mit der Formel für die Varianz erhalten wir
E[Xr (2N − Xr )] = 2N E[Xr ] − E[Xr2 ] = 2N E[X0 ] − Var[Xr ] − E2 [Xr ]
= 2N E[X0 ] − E[X0 ](2N − E[X0 ])(1 − λr ) − λr Var[X0 ] − E2 [X0 ]
= λr (2N E[X0 ] − Var[X0 ] − E2 [X0 ]) = λr E[X0 (2N − X0 )].
Es folgt
h(r) = λr h(0).
Somit nimmt die Heterozygotie geometrisch ab.
Man kann das Wright-Fisher Modell in verschiedene Richtungen verallgemeinern, und damit
das Modell “realistischer” machen. So kann man z.B. auch Mutation, Selektion und Rekombination modellieren und einen allgemeineren Typenraum zulassen. Einige dieser Verallgemeinerungen
werden wir bei dem Moran Modell betrachten.
43
4 Populationsmodelle mit fester Populationsgröße
4.2 Moran Modell
Das Moran Modell ist das stetige Zeit Analogon des Wright-Fisher Modells, das wir uns im letzten Abschnitt angesehen haben. Mathematisch ist es einfacher zu handhaben, weil beispielsweise
im neutralen Zweitypen-Fall ohne Mutation die Allelfrequenzen (Häufigkeiten eines Typs) sich
wie ein Geburts- und Todesprozess verhalten. Außerdem werden wir sehen, dass die Genealogie einer Stichprobe aus einer Population, die sich nach dem Moran Modell entwickelt, durch
den Kingman-Koaleszenten gegeben ist. Letzterer beschreibt unter bestimmten Voraussetzungen
auch, jedoch nur approximativ, die Genealogie des Cannings Modells. Das Wright-Fisher Modell
ist ein spezielles Cannings Modell.
Definition 4.1 (Neutrales Moran Modell). Eine Population von N Genen (verteilt auf N Individuen) entwickelt sich gemäß einem neutralem Moran Modell, wenn nach jeweils exponentiell
verteilter Wartezeit mit Rate N2 ein Paar von Genen zufällig ausgewählt wird. Einer der beiden
stirbt und wird durch einen Nachkommen des anderen ersetzt.
Wie bei vielen Markovketten und Teilchensystemen in stetiger Zeit der Fall ist, kann man auch
ein Moran Modell mit Hilfe von Poissonprozessen
graphisch konstruieren. Es sei U = {1, . . . , N }
und sei {Ni,j : i, j ∈ U } eine Familie von unabhängigen Poissonprozessen mit jeweils Rate Eins.
Zu jedem Sprungzeitpunkt von Ni,j findet ein
Resamplingereignis zwischen i und j statt. Mit
jeweils Wahrscheinlichkeit 1/2 wird i durch einen
Nachkommen von j oder umgekehrt ersetzt. Nach
dem Resampling kriegt das “neue” Individuum
die Nummer des Individuums, das ersetzt wurde. In Abbildung 4.1 sind diese Resamplingereignisse durch Pfeile dargestellt. Da die endlich
vielen Poissonprozesse fast sicher keine gemeinsame Sprünge haben gibt es höchsten jeweils ein
Ereignis pro Zeitpunkt.
Die Anzahl ungeordne
ter Paare ist N2 und deswegen ist die Warte
zeit zwischen den Ereignissen Exp( N2 ) verteilt.
(Hier benutzen wir die Tatsache, dass das Minimum von n unabhängigen exponentiell verteilten
Zufallsvariablen mit Rate λ exponentiell verteilt
sind mit Rate λn.)
t
1
2
3
4
5
Abbildung 4.1: Graphische Konstruktion
des Moran Modells
Wie beim Wright-Fisher Modell betrachten wir zunächst den neutralen Fall ohne Mutation mit
zwei Typen A und a. Sei Xt die Häufigkeit der Individuen vom Typ A zur Zeit t. Dann ist
X = (Xt )t≥0 ein Markovkette in stetiger Zeit mit Zustandsraum {0, 1/N, . . . , (N − 1), N }, wobei
die Zustände 0 und 1 absorbierend sind.
44
4 Populationsmodelle mit fester Populationsgröße
Der Generator A(N ) von X sieht wie folgt aus:
N
1
1
(N )
A f (p) :=
p(1 − p) f p +
− f (p) + (1 − p)p f p −
− f (p)
. (4.5)
2
N
N
Für p ∈ {0, 1} ist natürlich
A(N ) f (p) = 0. Um zu sehen, dass A(N ) wirklich der Generator von
N
X ist, beachte, dass 2 immer die Gesamtrate für ein Ereignis ist. Ist bei einem Ereignis p die
Häufigkeit des Typs A, dann ändert sie sich nur dann, wenn der Pfeil in der Graphischen Konstruktion vom Typ A zu Typ a zeigt oder umgekehrt. Pfeile, die von einem Typ auf denselben
zeigen, ändern zwar die “Verwandschaftsverhältnisse” im Modell, nicht aber die Typenhäufigkeiten. Die Wahrscheinlichkeit für beide Ereignisse p → p + 1/N und p → p − 1/N ist also p(1 − p).
Ferner finden mit Wahrscheinlichkeit 1 − 2p(1 − p) Ereignisse p → p statt, die die Typenhäufigkeiten nicht verändern. Die
Wahrscheinlichkeit ein Ereignis in dem Intervall [0, h] zu beobachten
ist von der Ordnung N2 h + O(h2 ).
Wir wollen uns nun anschauen, wie sich X, was wir ab jetzt mit X (N ) bezeichnen für große
N verhält. Für dreimal stetig differenzierbare Funktion f erhalten wir mit der Taylorformel
N
1 0
1 00
1
(N )
A f (p) =
p(1 − p)
f (p) +
f (p) + O
2
N
2N 2
N3
N
1
1 00
1
+
p(1 − p) − f 0 (p) +
f
(p)
+
O
2
N
2N 2
N3
1
N
1 00
f (p) + O
=
p(1 − p)
2
N
N3
2
1
1
= p(1 − p)f 00 (p) + O
.
2
N
Wir fassen dieses Resultat im folgenden Lemma zusammen.
Lemma 4.2. Für N → ∞ konvergiert der Generator A(N ) des Prozesses der Typenhäufighkeit
X (N ) gegen den Generator der Wright-Fisher Diffusion p = (pt )t≥0 , der durch
1
Af (p) = p(1 − p)f 00 (p)
2
(4.6)
gegeben ist.
Bemerkung 4.3 (Konvergenz der reskalierten Wright-Fisher Markovkette). Es sei X (N ) =
(N )
(Xn ) die WF-Markovkette aus dem vorherigen Abschnitt; siehe (4.1). Wir ersetzen dort 2N
jeweils durch N und setzen
1 (N )
pt := X[N t] .
N
Für hinreichend glatte Funktionen f haben wir dann
E[f (p1/N )|p0 = p] − f (p)
d
E[f (pt )|p0 = p]
≈
dt
1/N
t=0
f 00 (p)
0
2
−2
= N f (p)E[(p1/N − p)|p0 = p] +
E[(p1/N − p) |p0 = p] + O(N ) .
2
45
4 Populationsmodelle mit fester Populationsgröße
Nun ist nach (4.2)
E[(p1/N − p)|p0 = p] =
1
(N )
(N )
E[(X1 − X0 )|p0 = p] = 0
N
und nach (4.4)
E[(p1/N − p)2 |p0 = p] =
1
1
1
p(1 − p)
(N )
Var[X1 |X0 = N p] = 2 N p(N − N p)(1 − (1 − )) =
.
2
N
N
N
N
Insgesamt ist also
d
1
≈ p(1 − p)f 00 (p) + O(N −1 ).
E[f (pt )|p0 = p]
dt
2
t=0
Für N → ∞ konvergiert also der reskalierte Prozess der Häufigkeit der Individuen vom Typ A
gegen die Wright-Fisher Diffusion.
Wir haben schon bemerkt, dass für jedes N die Markovkette X (N ) in fast sicher endlicher
Zeit in einem der Zustände 0 oder N absorbiert wird. Dasselbe kann man für die Wright(N )
Fisher Diffusion zeigen. Bezeichnen wir mit Ti
bzw. Tp jeweils die entsprechenden erwarteten
Absorptionszeiten, dann gilt
(N )
Ti
≈ N Ti/N .
(4.7)
Als nächstes betrachten wir das Moran Modell mit
Mutation. Zunächst betrachten wir den einfachen
Fall mit Typen aus I = {a, A} (wie in der Abbildung
t
rechts dargestellt). Mit Mutationsrate θ1 mutiert ein
Individuum vom Typ a zum Typ A und mit Rate θ2
ein Individuum vom Typ A zum Typ a. Ferner sei
θ = θ1 +θ2 und sei {Ni : i ∈ U } eine Familie von unabhängigen Poissonprozessen mit Parameter θ. Die
Sprünge dieser Prozesse sind in der Abbildung durch
Kreuze dargestellt. An jedem dieser “Kreuze” mutiert das Individuum zum Typ A mit Wahrscheinlichkeit θ1 /θ und zum Typ a mit Wahrscheinlichkeit
θ2 /θ. In der Abbildung ist entlang der Linien 3 und 5
jeweils ein Mutationsereignis das keine Auswirkung
auf den Typ hatte, da das Individuum zum selben
Typ “mutiert” ist. Für θ1 = θ2 = 0 erhalten wir natürlich das ursprüngliche neutrale Modell ohne Mutation. Sind aber beide Mutationsraten positiv und
(N )
3
5
1
2
4
definieren wir Xt wie zuvor als die Häufigkeit der
Individuen vom Typ A, so erhalten wir wieder eiAbbildung 4.2: Moran Modell mit Mutation
ne Markovkette auf {0, 1/N, . . . , 1}. Diese ist aber
nicht mehr absorbierend.
46
4 Populationsmodelle mit fester Populationsgröße
Der Generator von X (N ) ist gegeben durch
(N )
)
A(N ) f (p) := A(N
res f (p) + Amut f (p)
(4.8)
mit
)
A(N
res f (p) =
N
1
1
p(1 − p) f p +
− f (p) + (1 − p)p f p −
− f (p)
2
N
N
und
(N )
Amut
1
1
= N θ1 (1 − p) f p +
− f (p) + N θ2 p f p −
− f (p) .
N
N
(N )
Den Resampling-Generator Ares f (p) kennen wir schon. Außerdem haben wir schon gezeigt, dass
dieser für N → ∞ gegen 12 p(1 − p)f 00 (p) konvergiert.
Für den Mutationsgenerator erhalten wir
1 0
1 0
(N )
−2
Amut = N θ1 (1 − p) f (p) − N θ2 p f (p) + O(N )
N
N
= (θ1 (1 − p) − θ2 p) f 0 (p) + O(N −1 ).
Insgesamt gilt also
1
A(N ) f (p) → p(1 − p)f 00 (p) + (θ1 (1 − p) − θ2 p) f 0 (p),
2
N → ∞.
Das ist der Generator der Wright-Fisher Diffusion mit Mutation.
4.3 Wright-Fisher Diffusion
Eine eindimensionale Diffusion ist ein starker Markovprozess auf R mit stetigen Pfaden. Der Zustandsraum ist typischerweise ein Intervall (a, b), der endlich oder unendlich ein kann. Außerdem
können je nach Anwendung beide, einer oder keiner der Randpunkte {a, b} zum Zustandsraum
gehören. Der Generator hat die Form
1
Af (x) = σ 2 (x)f 00 (x) + µ(x)f 0 (x).
2
(4.9)
Je nach Verhalten an den Randpunkten müssen die Funktionen f ∈ D(A) abgesehen von zweimaliger Differenzierbarkeit bestimmte Randbedingungen erfüllen.
Wir nehmen an:
1. Für jedes kompakte Intervall I ⊂ (a, b) gibt es ein ε mit σ 2 (x) > ε für alle x ∈ I;
2. Die Funktionen µ und σ 2 sind stetig auf (a, b).
Für f1 (x) = x gilt
1
Af1 (Xt ) = lim EXt [Xt+h − Xt ] = µ(Xt )
h↓0 h
47
4 Populationsmodelle mit fester Populationsgröße
und somit für h ↓ 0
EXt [Xt+h − Xt ] = hµ(Xt ) + o(h).
2
Schreiben wir außerdem (Xt+h − Xt )2 = Xt+h
− Xt2 − 2Xt (Xt+h − Xt ), so gilt mit f2 (x) = x2
1
Af2 (Xt ) − 2Xt Af1 (Xt ) = lim EXt [(Xt+h − Xt )2 ] = σ 2 (Xt )
h↓0 h
und somit für h ↓ 0
EXt [(Xt+h − Xt )2 ] = hσ 2 (Xt ) + o(h).
Aus diesem Grund bezeichnet man mu(x) und σ 2 (x) als infinitesimale Drift bzw. infinitesimale
Varianz des zugehörigen Diffusionsprozesses.
Die Skalenfunktion eines Diffusionsprozesses mit Generator (4.9) ist definiert durch
Z y
Z x
2µ(z)
S(x) :=
exp −
dz
dy,
2
x0
η σ (z)
wobei x0 , η ∈ (a, b). Ferner ist die Funktion
m(x) :=
1
σ 2 (x)S 0 (x)
die Dichte des Speed-Maßes.
Für z ∈ (a, b) setzen wir Hz := inf{t ≥ 0 : Xt = z}. Mit Hilfe des folgenden Resultates
kann man bei Diffusionen die Wahrscheinlichkeiten einen Zustand vor dem anderen zu erreichen
berechnen.
Lemma 4.4. Für a < a0 < x < b0 < b gilt
Px [Ta0 < Tb0 ] =
S(b0 ) − S(x)
.
S(b0 ) − S(a0 )
(4.10)
Sind beide Ränder a und b in fast sicher endlicher Zeit erreichbar, dann gilt (4.10) auch für
a0 = a und b0 = b.
Wright-Fisher Diffusion ohne Mutation ist ein Prozess auf [0, 1] mit µ ≡ 0 und σ 2 (x) = x(1−x).
Dabei sind beide Ränder absorbierend. Dann ist S(x) = x − x0 und wir haben
Px [T0 < T1 ] = (1 − x) für x ∈ [0, 1].
Dies ist genau dass, was man wegen (4.3) erwarten konnte.
Es sei T ∗ die Austrittszeit des Prozesses (Xt )t≥0 aus (a, b). Die Green-Funktion G(x, ξ) gibt
die erwartete Zeit, die der Prozess bis zur Zeit T ∗ in ξ verbringt bei Start in x. Natürlich ist
G(a, ξ) = G(b, ξ) = 0. Allgemein ist die Green-Funktion einer Diffusion mit Generator (4.9) und
den entsprechenden Skalenfunktion S und der Dichte des Speed-Maßes m gegeben durch
(
2(S(b) − S(ξ)) S(x)−S(a)
x ≤ ξ < b,
S(b)−S(a) m(ξ) :
:=
G(x, ξ)
(4.11)
S(b)−S(x)
2(S(ξ) − S(a)) S(b)−S(a) m(ξ) : a < ξ ≤ x.
48
4 Populationsmodelle mit fester Populationsgröße
Mit Hilfe der Green-Funktion kann man verschiedene Funktionale des Prozesses berechnen. Für
stetige Funktionen g auf (a, b) gilt nämlich
"Z ∗
# Z
b
T
Ex
G(x, ξ)g(ξ) dξ.
(4.12)
g(Xs ) ds =
a
0
Nehmen wir hier g ≡ 1, so steht hier auf der linken Seite E[T ∗ ]. Für die Wright-Fisher Diffusion
erhalten wir also für p ∈ (0, 1)
Z 1
∗
Ep [T ] =
G(p, ξ) dξ
0
Z 1
Z p
1
1
p(1 − ξ)
=2
(1 − p)ξ
dξ + 2
dξ
ξ(1
−
ξ)
ξ(1
− ξ)
p
0
Z 1
Z p
1
1
= 2p
dξ + 2(1 − p)
dξ
ξ
1
−
ξ
p
0
= −2(p log p + (1 − p) log(1 − p)).
Für große N ist dies auch eine gute Approximation für die erwartete Absorptionszeit in dem
Moran Modell bei Start des einen Typs mit Häufigkeit p. Für Wright-Fisher Modell auf der
ursprünglichen Zeitskala und bei Start mit Häufigkeit p gilt wie wir schon in (4.7) bemerkt
haben
Tp(N ) ≈ −2N (p log p + (1 − p) log(1 − p)),
(N )
und insbesondere ist T1/2 ≈ 2N log 2.
Nun betrachten wir die Wright-Fisher Diffusion mit Mutation. In diesem Fall sind die Ränder
nicht absorbierend also handelt es sich um eine regulären (d.h. jeder Punkt ist mit positiver
Wahrscheinlichkeit von jedem anderen Punkt aus erreichbar, in der Sprache von Markovketten
würde man irreduzibel sagen) Diffusion auf einem kompakten Intervall. Damit ist sie auch positiv
rekurrent und in diesem Fall haben Markovketten eindeutige stationäre Verteilungen. Dasselbe
ist auch für Diffusion wahr und schauen uns die stationäre Verteilung der Wright-Fisher Diffusion
an.
Es sei zunächst allgemein X = (Xt )t≥0 ein Diffusionsprozess auf [a, b] mit Generator (4.9).
Eine stationäre Verteilung von X ist eine Verteilung Ψ mit der Eigenschaft Xt ∼ Ψ für alle
t ≥ 0, falls X0 ∼ Ψ. Insbesondere ist dann
Z
d
d b
0 = E[f (Xt )|X0 ∼ Ψ] =
E[f (Xt )|X0 = x]Ψ(dx).
dt
dt a
An der Stelle t = 0 erhalten wir
Z b
Af (x)Ψ(dx) = 0
a
für alle f ∈ D(A). Aus dieser Gleichung kann man manchmal Ψ bekommen. Wir schreiben im
Folgenden ψ(x) dx = Ψ(dx). Mit partieller Integration erhalten wir
Z b
1 2
d2 f
df
σ (x) 2 (x) + µ(x) (x) ψ(x) dx
0=
2
dx
dx
a
Z b
2
1 d
d
2
=
f (x)
(σ (x)ψ(x)) −
(µ(x)ψ(x)) dx + Randterme.
2 dx2
dx
a
49
4 Populationsmodelle mit fester Populationsgröße
Diese Gleichung muss für alle f ∈ D(A) gelten und insbesondere können wir die Funktionen
so wählen, dass jeweils f und f 0 auf dem Rand verschwinden. Für solche Funktionen ist der
Randterm Null. Also muss für x ∈ (a, b)
1 d2 2
d
(σ (x)ψ(x)) −
(µ(x)ψ(x)) = 0
2
2 dx
dx
gelten. Nach einer Integration (und Multiplikation beider Seiten mit zwei) erhalten wir
d 2
(σ (x)ψ(x)) − 2µ(x)ψ(x) = C1 ,
dx
für eine Konstante C1 . Damit gilt
d 0
d
(S (y)σ 2 (y)ψ(y)) = S 00 (y)σ 2 (y)ψ(y) + S 0 (y) (σ 2 (y)ψ(y))
dy
dy
d
2µ(y) 0
= − 2 S (y)σ 2 (y)ψ(y) + S 0 (y) (σ 2 (y)ψ(y))
σ (y)
dy
0
= C1 S (y),
woraus wir
S 0 (y)σ 2 (y)ψ(y) = C1 S(y) + C2
erhalten. Diese Gleichung lässt sich nach ψ(y) auflösen:
ψ(y) = C1
S(y)
S 0 (y)σ 2 (y)
+ C2
1
S 0 (y)σ 2 (y)
= m(y)(C1 S(y) + C2 ).
Rb
Wenn man nun C1 und C2 so wählen kann, dass ψ ≥ 0 und a ψ(y) dy = 1 ist, dann ist ψ die
Rb
Dichte der stationären Verteilung von X. Wenn insbesondere a m(y) dy < ∞ und wir C1 = 0
wählen, dann ist
ψ(y) = R b
a
m(y)
(4.13)
m(y) dy
die Dichte einer stationären Verteilung von X. Ist die Diffusion zudem regulär, dann ist die
stationäre Verteilung eindeutig und ihre Dichte ist gegeben durch (4.13). Schauen wir uns nun
wieder die Wright-Fisher Diffusion mit Generator
1
Af (p) = p(1 − p)f 00 (p) + (θ1 (1 − p) − θ2 p) f 0 (p).
2
In diesem Fall ist
Z p
2µ(z)
S (p) = exp −
dz
2
p0 σ (z)
Z p
θ1 (1 − z) − θ2 z
= exp −
dz
z(1 − z)
p0
0
= C exp(−2θ1 log p − 2θ2 log(1 − p))
= Cp−2θ1 (1 − p)−2θ2 ,
50
4 Populationsmodelle mit fester Populationsgröße
wobei C eine von p0 abhängige Konstante ist. Es folgt
1
m(p) =
S 0 (p)σ 2 (p)
= Cp2θ1 −1 (1 − p)2θ2 −1 .
Nun ist
Z
1
1
Z
m(p) dp = C
0
p2θ1 −1 (1 − p)2θ2 −1 dp = C
0
Γ(2θ1 )Γ(2θ2 )
,
Γ(2(θ1 + θ2 ))
und die stationäre Verteilung ist gegeben durch die Betaverteilung mit Dichte
ψ(p) =
Γ(2(θ1 + θ2 )) 2θ1 −1
p
(1 − p)2θ2 −1 .
Γ(2θ1 )Γ(2θ2 )
4.4 Kingmann’s Koaleszent
Wir haben bei dem Wright-Fisher Modell gesagt, dass sich die Individuen der n + 1-ten Generation die Eltern unter den Individuen der n-ten Generation zufällig wählen. Diese Beschreibung
liefert auf natürliche weise eine genealogische Struktur des Wright-Fisher Modells. Diese Struktur
ist auch bei dem Moran Modell aus der graphischen Konstruktion leicht abzulesen.
Schauen wir uns erst die Genealogie im Wright-Fisher Modell an (mit N Individuen). Zwei
Individuen haben (ziehen) einen gemeinsamen Vorfahr in der vorherigen Generation mit W’keit
1/N . Ist dies nicht der Fall, dann haben ihre Vorfahren einen gemeinsamen Vorfahr in der
Generation davor mit W’keit 1/N , usw. Damit ist die Zeit T bis zum gemeinsamen Vorfahr
geometrisch verteilt mit Parameter 1/N , d.h. für k = 1, 2, . . . ist P[T = k] = 1/N (1 − 1/N )k−1
und E[T ] = N . Beträgt eine Zeiteinheit N Generationen, dann ist für x ≥ 0
1 N x N →∞ −x
P[Zeit bis zum gem. Vorfahr > x] = 1 −
−−−−→ e ,
N
d.h. im Grenzwert ist diese Zeit exponentiell verteilt mit Rate 1.
Nehmen wir eine Stichprobe von k ≥ 2 Individuen. Die W’keit, dass mehr als drei Individuen
einen gemeinsamen Vorfahr in der vorherigen Generation haben (multipler Koaleszent) ist von
der Ordnung O(1/N 2 ). Auch die W’keit, dass zwei oder mehr Paare in der vorherigen Generation ihre zwei unterschiedlichen Vorfahren finden (simultaner Koaleszent) ist von der Ordnung
O(1/N 2 ). Bevor wir so ein Ereignis für große N sehen sind alle paare von Individuen miteinander verschmolzen, d.h. bei dem Wright-Fisher Modell werden wir für große N in der Genealogie
nur Verschmelzungen von höchstens zwei Ahnenlinien sehen die jeweils exponentiell mit Rate 1
verteilt sind.
Nummerieren die k Individuen durch und betrachten den oben beschriebenen Verschmelzungsprozess, den wir hier mit π := (πt )t≥0 bezeichnen, auf den Äquivalenzklassen [k] := {1, . . . , k}.
Jede Äquivalenzklasse in πt stellt zur Zeit t einen Vorfahr der in dieser Klasse enthaltenen
Individuen dar. Der Prozess π startet immer mit einelementigen Äquivalenzklassen
{{1}, . . . , {k}}.
ist beispielsweise k = 5 und πt = {{1, 4}, {2, 5}, {3}}, dann bedeutet das, dass 1 und 4, und
2 und 5 bis zur Zeit t jeweils einen gemeinsamen Vorfahr gefunden haben. Das Individuum 3
teilt bis zur Zeit t keinen gemeinsamen Vorfahr mit irgendeinem anderen Individuum aus der
Stichprobe.
51
4 Populationsmodelle mit fester Populationsgröße
Definition 4.5 (Kingmann’s Koaleszent). Der Kingman k-Koaleszent ist eine Markovkette auf
Ek , den Äquivalenzklassen auf [k], mit Übergangsraten qξ,η , ξ, η ∈ Ek definiert durch
(
1 wenn η aus ξ durch Verschmelzen von genau zwei Klassen erhalten werden kann,
qξ,η :=
0 sonst.
Der Kingmann N-Koaleszent ist ein Prozess auf Äquivalenzrelationen auf N mit der Eigenschaft,
dass jede Einschränkung auf eine Menge der Größe k ein k-Koaleszent ist. In jedem Fall besteht
die Anfangsbedingung aus einelementigen Äquivalenzklassen.
Wenn wir nur an der jeweiligen Anzahl der Äquivalenzklassen, nicht jedoch an deren Zusammensetzung zur Zeit t interessiert sind, so kann man Kingmann’s k-Koaleszent als eine Todeskette
auffassen, mit Übergangsraten
( k
: wenn j = k-1,
2
qk,j :=
0
: sonst.
Es sei Wk die Zeit bis zum jüngsten gemeinsamen Vorfahr (MRCA=most recent common ancestor) von k Individuen. Dann gilt
Wk = Tk + Tk−1 + · · · + T2 ,
wobei Tl jeweils die Wartezeit für den Sprung von l nach l + 1 ist. Wir erhalten
E[Wk ] =
k −1
X
l
l=2
2
=
k
X
l=2
k
X
2
=2
l(l − 1)
l=2
1
1
−
l−1
l
1
= 2(1 − ).
k
(4.14)
Damit ist die erwartete Zeit bis MRCA der ganzen Population durch 2 beschränkt. Außerdem
gilt für K ≥ k
1
2
1
0 ≤ E[WK − Wk ] = 2( − ) ≤ .
k K
k
Insbesondere unterscheiden sich die Zeit zum MRCA von k Individuen und der von der ganzen
Population nur wenig für nicht zu kleine Werte von k. Man beachte auch, dass in (4.14) E[T2 ] = 1
den größten Beitrag liefert.
Für die Varianz von Wk erhalten wir
Var[Wk ] =
k
X
l=2
Var[Tl ] =
k −2
X
l
l=2
2
k−1
X
1
1
1
=8
− 4(1 − )(3 + )
2
l
k
k
l=1
und es folgt
1 = Var[W2 ] ≤ Var[Wk ] ≤ lim Var[Wk ] = 8
k→∞
π2
− 12 ≈ 1.16.
6
Also kommt auch bei der Varianz der größte Anteil von der Verschmelzungszeit der letzten
zwei Individuen. Die Verteilung und auch Dichte von Wk können auch berechnet werden. Wir
verweisen auf (Tavaré 2004, 2.3, p. 21).
52
4 Populationsmodelle mit fester Populationsgröße
Wir schauen uns nun eine weitere wichtige Größe, nämlich die Baumlänge der Genealogie von
k Individuen an, die wir mit Lk bezeichnen und die durch
k
X
Lk := 2T2 + · · · + kTk =
`T`
`=2
definiert werden kann.
Es gilt
E[Lk ] =
k
X
`E[T` ] =
`=2
k
X
k−1
`
`=2
X1
2
=2
∼ 2 log k, für k → ∞
`(` − 1)
`
`=1
und
Var[Lk ] =
k
X
`2 Var[T` ] = 4
`=2
k−1
X
2π 2
1
∼
, für k → ∞.
2
`
3
`=1
Insbesondere wächst ist die erwartete Länge unbeschränkt und die Varianz beschränkt in k.
Nun kommen wir zur Verteilung von Lk . Mit E(λ) bezeichnen wir eine exponentiell verteilte
Zufallsvariable mit Rate λ. Alle solchen Zufallsvariablen die unten auftauchen sind unabhängig
voneinander. Es gilt
Lk =
k
X
`=2
d
`T` =
k
X
E
`=2
`−1
2
d
=
k−1
X
`=1
d
min E`j (1/2) =
1≤j≤`
max Ej (1/2).
1≤j≤k−1
Es folgt
P[Lk ≤ t] = 1 − e−t/2
k−1
, t ≥ 0.
Daraus erhält man auch dass Lk − 2 log k gegen die Gumbel-Verteilung mit Verteilungsfunktion
−t/2
e−e
konvergiert. Denn es ist
P[Lk − 2 log k ≤ t] = 1 − e−t/2−log k
k−1
=
e−t/2
1−
k
!k−1
k→∞
−t/2
−−−→ e−e
.
Die Genealogie bei dem Moran Modell ist übersichtlicher als die bei dem (endlichen) WrightFisher Modell. Sie kann einfach von der graphischen Konstruktion abgelesen werden. Verfolgen
wir eine Stichprobe von k Individuen, rückwärts in der Zeit, dann treffen wir irgendwann auf
einen Pfeil der zwei Individuen miteinander verbindet. Das Individuum an der Pfeilspitze (wurde forwärt in der Zeit ersetzt) verschmilzt mit dem Individuum von dem der Pfeil ausgeht.
Letzterer bleibt unverändert. Die Rate mit der man auf ein
Pfeil zwischen k Individuen triff ist
k
rückwärts wie vorwärts gleich und ist gegeben durch 2 . Dies ist genau die Verschmelzungsrate im Kingmann’s k-Koaleszent. Die Genealogie des Moran-Modells ist also genau durch den
Kingman Koaleszent gegeben.
Die große Stärke der Koaleszenten zeigt sich in der Betrachtung von neutralen Modellen im
Multitypenfall und insbesondere mit Mutation. Wir erinnern an die graphische Konstruktion
53
4 Populationsmodelle mit fester Populationsgröße
des Moran Modells mit Mutation und zwei Typen in Abbildung 4.2. Anstatt Mutation zwischen
zwei Typen kann man sich allgemeinere Mutationsmechanismen und Typenräume vorstellen. Bei
der Graphischen Konstruktion ändern sich nur die Ereignisse an den “Mutationskreuzen”. Wir
nehmen an, dass Mutationen sich im Moran Modell entlang jeder Linie gemäß unabhängiger
Poissonprozesse mit Rate θ/2 ereignen.
Definition 4.6 (Infinitely many alleles model). In dem infinitely many alleles model (IMA)
wird bei einem Mutationsereignis ein neues Allel erzeugt, das in der Population bis dahin nicht
vorgekommen ist. Beispielsweise kann man (0, 1) als Typenraum nehmen und bei jeder Mutation
eine neue unanhängige auf (0, 1) gleichverteilte Zufallsvariable nehmen.
In dem IMA sind zwei Gene (Individuen) genau dann identisch, wenn auf dem genealogischen
Baum keine zwischen den beiden kein Mutationsereignis stattgefunden hat. Wenn T die Zeit bis
zum letzten gemeinsamen Vorfahr ist, dann gilt
P ( zwei zufällig gezogene Gene sind vom selben Typ )
= E [P ( zwei zufällig gezogene Gene sind vom selben Typ| MRCA zur Zeit T )]
= E [P (keine Poissonpunkte im Intervall [0, 2T ] )]
h θ i
i
h
= E e− 2 ·2T = E e−θT .
Also haben wir nachgerechnet, dass die Homozygotie (definiert als 1− Heterozygotie) die Laplacetransformierte von T ist. Diese Rechnung funktioniert sowohl im neutralen Fall als auch
im Fall mit Selektion. Da wir hier schon wissen, dassT exponentiell mit Rate 1 verteilt ist kann
man leicht nachrechnen, dass die Homozygotie (im lange laufenden IMA-Modell) durch 1/(1+θ)
gegeben ist.
54
Literaturverzeichnis
Aldous, D.: 1978, Stopping times and tightness, Ann. Probab. 6(2), 335–340.
Athreya, K. B. and Karlin, S.: 1970, Branching processes with random environments, Bull. Amer. Math.
Soc. 76, 865–870.
Athreya, K. B. and Ney, P. E.: 1972, Branching processes, Springer-Verlag, New York. Die Grundlehren
der mathematischen Wissenschaften, Band 196.
Birkner, M., Geiger, J. and Kersting, G.: 2005, Branching processes in random environment—a view on
critical and subcritical cases, Interacting stochastic systems, Springer, Berlin, pp. 269–291.
Etheridge, A.: 2011, Some mathematical models from population genetics, Vol. 2012 of Lecture Notes
in Mathematics, Springer, Heidelberg. Lectures from the 39th Probability Summer School held in
Saint-Flour, 2009.
Etheridge, A. M.: 2000, An introduction to superprocesses, Vol. 20 of University Lecture Series, American
Mathematical Society, Providence, RI.
Ethier, S. N. and Kurtz, T. G.: 1986, Markov processes, Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics, John Wiley & Sons Inc., New York. Characterization
and convergence.
Feller, W.: 1951, Diffusion processes in genetics, Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability, 1950, University of California Press, Berkeley and Los Angeles,
pp. 227–246.
Harris, T. E.: 1963, The theory of branching processes, Die Grundlehren der Mathematischen Wissenschaften, Bd. 119, Springer-Verlag, Berlin.
Jagers, P.: 1975, Branching processes with biological applications, Wiley-Interscience [John Wiley & Sons],
London. Wiley Series in Probability and Mathematical Statistics—Applied Probability and Statistics.
Kallenberg, O.: 2002, Foundations of modern probability, Probability and its Applications (New York),
second edn, Springer-Verlag, New York.
Klenke, A.: 2006, Wahrscheinlichkeitstheorie., Berlin: Springer.
Le Gall, J.-F.: 1999, Spatial branching processes, random snakes and partial differential equations, Lectures
in Mathematics ETH Zürich, Birkhäuser Verlag, Basel.
Lyons, R. with Peres, Y.: n.d., Probability on Trees and Networks, Cambridge University Press. In
preparation. Current version available at
http://mypage.iu.edu/~rdlyons/prbtree/prbtree.html.
Smith, W. L.: 1968, Necessary conditions for almost sure extinction of a branching process with random
environment, Ann. Math. Statist 39, 2136–2140.
Smith, W. L. and Wilkinson, W. E.: 1969, On branching processes in random environments, Ann. Math.
Statist. 40, 814–827.
55
Literaturverzeichnis
Tavaré, S.: 2004, Ancestral inference in population genetics, Lectures on probability theory and statistics,
Vol. 1837 of Lecture Notes in Math., Springer, Berlin, pp. 1–188.
56
Herunterladen