Alle Folien (mit Seitenangaben im Inhaltsverzeichnis)

Werbung
Inhaltsverzeichnis
Einführung: Was ist ein stochastischer Prozess?
1. Wahrscheinlichkeitstheorie (Crashkurs)
1.1. Zufallsvariablen
1.2. Verteilung
1.3. Stetige Verteilungsfunktionen
1.4. Diskrete Verteilungsfunktionen
1.5. Erwartungswerte
1.6. Multivariate Verteilungen
1.7. Unabhängigkeit
1.8. Bedingte Wahrscheinlichkeit und bedingte Erwartung
1.9. Die Faltung
2. Irrfahrten
2.1. Münzwurf
2.2. Verteilung der symmetrischen einfachen Irrfahrt
2.3. Austrittszeiten aus einem Streifen
3. Markov-Ketten
3.1. Motivation: Irrfahrt mit Leitplanken
3.2. Markov-Ketten
8
13
16
20
23
26
26
27
33
35
37
43
48
52
1 / 174
3.3. Übergangswahrscheinlichkeiten
3.4. Klassifikation von Zuständen: Erreichbarkeit
3.5. Klassifikation von Zuständen: Periodizität
3.6. Klassifikation von Zuständen: Rekurrenz
3.7. Stationäre Verteilung und Grenzverhalten
3.8. Mittelwerte im Gleichgewichtszustand
4. Poisson-Prozesse
4.1. Erdbeben und Zählprozesse
4.2. Definition: Poisson-Prozess
4.3. Verteilung der Pausenzeiten
4.4. Pausenzeiten und Ereigniszeitpunkte
4.5. Der Poisson-Prozess für späte Zeiten
4.6. Intermezzo: Der Zentrale Grenzwertsatz
4.7. Ereignisszeitpunkte bei feststehender Anzahl
4.8. Vorwärts- und Rückwärtsrekurrenzzeit
4.9. Zusammenführung von Poisson-Prozessen
4.10. Ausdünnung von Poisson-Prozessen
4.11. Inhomogene Poisson-Prozesse
4.12. Zusammengesetzte Poisson-Prozesse, Waldsche Gleichung
55
68
68
70
76
85
93
100
103
105
109
112
120
122
127
131
135
142
2 / 174
5. Brownsche Bewegung
5.1. Noch einmal Irrfahrten
5.2. Eigenschaften der Brownschen Bewegung
5.3. Treffzeit, einseitig
5.4. Maximumprozess
5.5. Treffzeit, beidseitig
5.6. Verhalten der Pfade für wachsendes t
5.7. Weitere Konstruktionen
5.8. Die Brownsche Brücke
6. Die geometrische Brownsche Bewegung
6.1. Definition
6.2. Eigenschaften
6.3. Optionspreise
147
153
155
158
160
163
164
165
166
168
172
3 / 174
4 / 174
Einführung: Was ist ein stochastischer
Prozess?
Stochastische Prozesse sind zufällige Folgen
Xn , n ∈ N,
oder zufällige Funktionen
X (t), t ∈ [0, ∞),
die die Entwicklung einer zahlenmäßigen Größe in der Zeit
beschreiben.
Dabei interessieren wir uns für die stochastischen
Eigenschaften der Prozesse, z.B.
I Verteilung zum Zeitpunkt n (bzw. t),
I Ein- und Austrittswahrscheinlichkeiten, Erwartungswerte,
I Zeitliche Mittel, Grenzverteilungen.
5 / 174
Beispiele für Anwendungen stochastischer Prozesse:
I Ergebnisse beim Münzwurf, Würfelspiel,
I Produktionszahlen,
I Arbeitslosenquote,
I Nachfrage,
I Kapital einer Versicherung,
I Länge von Warteschlangen,
I Lebensdauer von Produkten,
I Aktienkurse.
Dabei halten wir uns nicht mit der Frage auf, worauf das
stochastische Wesen des Prozesses („die Zufälligkeit”)
zurückzuführen ist, sondern betrachten Zufall als das
Nicht-Vorhandensein von Information über den exakten
Ausgang.
6 / 174
Geplanter Inhalt
7 / 174
1. Wahrscheinlichkeitstheorie (Crashkurs)
Wir benötigen einen Werkzeugkasten von Begriffen und
Resultaten aus der Wahrscheinlichkeitstheorie.
Siehe auch die Vorlesungen Statistik I und Statistik II.
1.1. Zufallsvariablen
Eine reelle Zufallsvariable ist eine mathematische Größe, die
„zufällige Werte” in R annimmt.
Beispiel 1.1
Beim Würfelspiel nimmt die Zufallsvariable „Augenzahl” die
Werte 1, 2, 3, 4, 5 und 6 an. Beispiel 1.2
Der Schlusskurs des DAX an der Börse kann als
Zufallsvariable angesehen werden.
Sie nimmt werte in der Menge R+ = [0, ∞) an . 8 / 174
Wir benötigen aber einen mathematischen Begriff, also
definieren wir eine Zufallsvariable als eine Abbildung auf
einem Wahrscheinlichkeitsraum.
Definition 1.3 Ein Wahrscheinlichkeitsraum (Ω, A, P)
besteht aus
I einem Grundraum Ω,
I einer Menge von Ereignissen A,
I einem Wahrscheinlichkeitsmaß P, das jedem A ∈ A
eine Wahrscheinlichkeit P(A) zuordnet, so dass gilt:
I
I
I
P(A) ∈ [0, 1],
P(Ω)
S = 1,
P∞
P( ∞
i=1 Ai ) =
i=1 P(Ai ) für disjunkte Ereignisse
A1 , A2 , . . ..
Wir sagen, dass Ereignisse A, für die P(A) = 1 ist, fast sicher
sind.
9 / 174
Definition 1.4 Eine reelle Zufallsvariable X ist eine Abbildung X : Ω → R, derart, dass die Menge
K (x) = {ω ∈ Ω|X (ω) ≤ x}
ein Ereignis ist für jedes x ∈ R.
Anmerkungen:
I Diese Bedingung ist in der Regel für Abbildungen
X : Ω → R erfüllt. Für uns ist daher jede Abbildung
X : Ω → R,
eine gültige Zufallsvariable.
I Wir werden bald sehen, dass wir die Abbildungsnatur von
Zufallsvariablen und den zugrundeliegenden
Wahrscheinlichkeitsraum Ω bei der Betrachtung
stochastischer Prozesse meist vernachlässigen können.
10 / 174
Beispiel 1.5
Die Zufallsvariable X beschreibe den Ausgang des
Würfelspiels, d.h. die Augenzahl, die geworfen wurde.
Der zugehörige Wahrscheinlichkeitsraum ist
Ω = {1, 2, 3, 4, 5, 6}.
Ereignisse sind alle Teilmengen von Ω, also zum Beispiel
{1, 3, 5}
Ereignis ’ungerade Augenzahl’
{4, 5, 6}
Ereignis ’Augenzahl >3’
{1}
Ereignis ’Augenzahl ist 1’
Die Abbildung X : {1, 2, 3, 4, 5, 6} → R ist gegeben durch
X (ω) = ω.
Dann ist z.B.
K (4.63) = {ω ∈ Ω|X (ω) ≤ 4.63}
= {ω ∈ Ω|ω ≤ 4.63} = {1, 2, 3, 4}.
11 / 174
Beispiel 1.6
Es sei X die Summe der Augenzahlen bei zweimaligem
Würfeln.
Dann ist
Ω = {ω = (ω1 , ω2 )|ω1 , ω2 ∈ {1, 2, 3, 4, 5, 6}}
und
X (ω) = ω1 + ω2 .
Beispielsweise ist
K (7) = {ω ∈ Ω|X (ω) ≤ 4}
= {ω ∈ Ω|ω1 + ω2 ≤ 4}
= {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (3, 1)}.
12 / 174
1.2. Verteilung
Um die wahrscheinlichkeitstheoretischen Eigenschaften einer
Zufallsvariablen X zu beschreiben, ist es ausreichend die
Verteilung von X zu kennen.
Die Verteilung ist gegeben als Gesamtheit der
Wahrscheinlichkeiten aller möglichen Ereignisse:
P(A), A ∈ A.
Ist die Verteilung bekannt, so benötigt man häufig keine
weiteren Kenntnisse über den Wahrscheinlichkeitsraum Ω.
Beispiel 1.7
Im Würfelexperiment ist die Verteilung der Augensumme X
gegeben durch die 26 = 64 Wahrscheinlichkeiten
P({1}) = 1/6, P({2}) = 1/6, . . . , P({6}) = 1/6,
P({1, 2}) = 1/3, P({1, 3}) = 1/3, . . . , P({5, 6}) = 1/3,
P({1, 2, 3}) = 1/2, P({1, 2, 4}) = 1/2, . . .
13 / 174
Definition 1.8 Die Wahrscheinlichkeit des Ereignisses
K (x) ist eine Funktion von x, die man als Verteilungsfunktion von X bezeichnet:
FX (x) = P(K (x))
= P(X ≤ x).
Die Verteilungsfunktion FX ist
I nicht fallend,
I rechtsseitig stetig, d.h. limz↓x FX (z) = FX (x)
I und es gilt
lim F (x) = 0
x→−∞
X
lim FX (x) = 1.
x→∞
Zur Beschreibung der Verteilung einer Zufallsvariablen ist
es ausreichend, die Verteilungsfunktion anzugeben.
14 / 174
Wir unterscheiden zwei Typen von Verteilungsfunktionen:
I stetige Verteilungsfunktionen: FX ist stetig und
stückweise differenzierbar mit stückweiser Ableitung fX ,
die als Dichtefunktion bezeichnet wird.
I
diskrete Verteilungsfunktionen: FX ist stückweise
konstant und hat Sprünge.
Es gibt auch noch Mischungen dieser beiden Typen, die wir
hier zunächst außer Acht lassen.
15 / 174
1.3. Stetige Verteilungsfunktionen
Eine stetige Verteilungsfunktion hat die Darstellung
Rx
FX (x) = −∞ fX (u) du
Rx
= −∞ dFX (u).
mit der Dichtefunktion fX ≥ 0, die die Verteilung von X
vollständig festlegt.
Es gilt allgemeiner
Z b
Z b
P(a < X ≤ b) =
fX (u) du =
dFX (u).
a
a
Achtung: Die Dichtefunktion fX (x) an der Stelle x gibt keine
Wahrscheinlichkeit an, sondern nur eine Näherung:
P(x < X ≤ x + h) ≈ h · fX (x), h > 0, (und h klein).
16 / 174
Es gilt für jedes x ∈ R:
Z
P(X = x) =
x
fX (u) du = 0,
x
wenn X eine stetige Zufallsvariable ist.
Mithin haben die Ereignisse
1. a ≤ X ≤ b
2. a < X ≤ b
3. a < X < b
4. a ≤ X < b
dieselbe Wahrscheinlichkeit.
17 / 174
Beispiel 1.9
Eine Zufallsvariable X haben folgende Verteilungsfunktion:
Dann ist z.B.
P(X ≤ −2) = 0.2, P(X ≤ −1) = 0.5, P(X ≤ 3) = 0.9,
P(X ≤ 7) = 1, P(−2 < X ≤ 1) = 0.3, P(1 < X ≤ 3) = 0.4
X ist fast sicher kleiner als 4. 18 / 174
Beispiel 1.10
Die Zufallsvariable X habe die Verteilungsfunktion
(exponentielle Verteilung)
FX (x) = 1 − e−x .
Dann ist
fX (x) = e−x .
Zum Beispiel ist
P(1 < X ≤ 1.1) ≈ 0.1 · e−1 ≈ 0.0368
Exakte Berechnung:
P(1 < X ≤ 1.1) = FX (1.1) − FX (1)
= e−1 − e−1.1 ≈ 0.0350
19 / 174
1.4. Diskrete Verteilungsfunktionen
Eine diskrete Verteilungsfunktion ist stückweise konstant und
hat an den Stellen x1 , x2 , . . . Sprünge der Höhe p1 , p2 , . . .. Die
zugehörige Zufallsvariable nimmt nur die Werte x1 , x2 , . . . mit
positiver Wahrscheinlichkeit an, oder anders gesagt
X ∈ {x1 , x2 , . . .} fast sicher.
Es gilt
P(X = xk ) = pk
und
FX (x) = P(X ≤ x)
X
=
pi .
i:xi ≤x
20 / 174
Notation zur Vereinfachung: Wir schreiben auch hier
Z b
g(u) dFX (u)
a
für die Summe
X
g(xi ) pi .
i:a<xi ≤b
Dann gilt, wie schon im stetigen Fall,
Z x
FX (x) =
dFX (u).
−∞
und
Z
P(a < X ≤ b) =
b
dFX (u).
a
21 / 174
Beispiel 1.11
Die Zufallsvariable X habe die folgende Verteilungsfunktion:
Dann gilt z.B.
P(X = −3) = 0.5, P(X = 1) = 0.3, P(X = 4) = 0.2
P(X ≤ 0) = 0.5, P(X ≤ 2) = 0.8, P(X > 3) = 0.2
P(−1 < X ≤ 1) = 0.3, P(0 < X ≤ 6) = 0.5,
P(X > −1) = 0.5, P(X ≥ −5) = 1.
22 / 174
1.5. Erwartungswerte
Mit Hilfe der Verteilungsfunktion lassen sich berechnen:
I Der Erwartungswert
Z ∞
E[X ] =
x dFX (x).
−∞
I
Allgemeiner: der Erwartungswert der Zufallsvariablen
g(X ), wo g : R → R eine Funktion ist:
Z ∞
E[g(X )] =
g(x) dFX (x).
−∞
I
Spezialfall: das k -te Moment
Z ∞
k
E[X ] =
x k dFX (x).
−∞
Diese Größen sind natürlich nur dann wohldefiniert, wenn die
entsprechenden Integrale existieren.
23 / 174
Die Varianz von X ist definiert als der Erwartungswert der
quadratischen Abweichung von E[X ]:
Var[X ] = E[(X − E[X ])2 ]
= E[X 2 ] − E[X ]2 .
Es müssen die ersten beiden Momente existieren und es
muss E[X ] < ∞ sein.
Ist X fast sicher positiv, d.h. P(X > 0) = 1 (oder FX (0) = 0),
dann gilt
Z ∞
E[X ] =
(1 − FX (u)) du.
0
24 / 174
1.6. Multivariate Verteilungen
Für eine Familie von Zufallsvariablen X1 , . . . , Xn definiert man
die gemeinsame Verteilung durch die gemeinsame
Verteilungsfunktion
FX1 ,...,Xn (x1 , . . . , xn ) = P(X1 ≤ x1 , . . . , Xn ≤ xn ).
Sind die Zufallsvariablen stetig so gibt es eine gemeinsame
Dichtefunktion fX1 ,...,Xn und es ist
FX1 ,...,Xn (x1 , . . . , xn )
Z x
Z x
=
···
fX1 ,...,Xn (u1 , . . . , un ) du1 · · · dun .
−∞
−∞
Sind die Verteilungsfunktionen differenzierbar, so gibt ergibt
sich
∂
FX ,...,X (x1 , . . . , xn ).
fX1 ,...,Xn (x1 , . . . , xn ) =
∂x1 · · · ∂xn 1 n
25 / 174
1.7. Unabhängigkeit
Eine Familie von Zufallsvariablen (Xk )k ∈K ist unabhängig,
wenn für die gemeinsame Verteilung von je j Variablen
Xk1 , . . . , Xkj gilt
FXk1 ,...,Xkj (x1 , . . . , xj ) = FXk1 (x1 ) · FXk2 (x2 ) · · · FXkj (xj ).
oder auch
dFXk1 ,...,Xkj (x1 , . . . , xj ) = dFXk1 (x1 ) · dFXk2 (x2 ) · · · dFXkj (xj ).
Für stetige Variablen ist das äquivalent zu
fXk1 ,...,Xkj (x1 , . . . , xj ) = fXk1 (x1 ) · fXk2 (x2 ) · · · fXkj (xj ).
Gilt dann noch FX1 = FX2 = . . . = FXn , so sagt man die
Zufallsvariablen seien unabhängig und identisch verteilt
(kurz: i.i.d., engl. independent and identically distributed).
26 / 174
1.8. Bedingte Wahrscheinlichkeit und bedingte Erwartung
Gegeben seien zwei diskrete Zufallsvariablen X und Y .
Die bedingte Wahrscheinlichkeit, dass X = x ist, gegeben
Y = y ist
P(X = x, Y = y )
,
P(X = x|Y = y ) =
P(Y = y )
vorausgesetzt dass P(Y = y ) 6= 0 ist.
Die bedingte Verteilungsfunktion von X gegeben Y = y ist
FX (x|Y = y ) = P(X ≤ x|Y = y ).
Den bedingten Erwartungswert von X , gegeben Y = y
definieren wir natürlich
als
Z ∞
X
E[X |Y = y ] =
x dFX (x|Y = y ) =
xi P(X = xi |Y = y ).
−∞
i:xi ≤x
27 / 174
Wenn X und Y beide stetig sind, dann definieren wir die
bedingte Dichtefunktion von X , gegeben Y = y als
fX ,Y (x, y )
,
fX (x|Y = y ) =
fY (y )
wenn fY (y ) 6= 0 ist.
Die bedingte Verteilungsfunktion von X , gegeben Y = y , ist
dann
Z
x
FX (x|Y = y ) =
fX (u|Y = y ) du.
−∞
Entsprechend ergibt sich der bedingte Erwartungswert von
X , gegeben Y = y :
Z ∞
Z ∞
E[X |Y = y ] =
x dFX (x|Y = y ) =
x fX (x|Y = y ) dx.
−∞
−∞
28 / 174
Allgemein ist die bedingte Erwartung von X , gegeben Y = y ,
Z ∞
E[X |Y = y ] =
x dFX (x|Y = y ) = g(y )
−∞
eine Funktion von y .
Wir definieren dann die bedingte Erwartung von X gegeben
Y als die Zufallsvariable
E[X |Y ] = g(Y ).
Zu den wichtigsten Formeln der angewandten Stochastik
gehören:
Z
∞
P(A) =
P(A|Y = y ) dFY (y ),
Z−∞
∞
E[X |Y = y ] dFY (y ).
E[X ] =
−∞
29 / 174
Spezialfälle:
Ist Y eine stetige Zufallsvariable mit Dichtefunktion fY ,
dann gilt entsprechend
Z ∞
P(A) =
P(A|Y = y ) fY (y ) dy
−∞
Z ∞
E[X ] =
E[X |Y = y ] fY (y ) dy .
−∞
Ist Y eine diskrete Zufallsvariable mit Wahrscheinlichkeiten
pi = P(Y = yi ), dann ergibt sich die Formel
X
P(A) =
P(A|Y = yi ) pi
yi
E[X ] =
X
E[X |Y = yi ] pi .
yi
30 / 174
Beispiel 1.12
X und Y seien zwei unabhängige Zufallsvariablen mit
identischer Verteilung (Gleichverteilung auf [0, 1])
(
x ; x ∈ [0, 1]
FX (x) = FY (x) =
0 ; sonst
Wie groß ist E[max{X , Y }]?
E[max{X , Y }]
Z ∞Z ∞
=
E[max{X , Y }|Y = y , X = x] dFY (y ) dFX (x)
−∞ −∞
Z ∞Z ∞
=
max{x, y } dFY (y ) dFX (x)
−∞ −∞
1Z 1
Z
max{x, y } dy dx
Z 1Z x
Z 1Z 1
=
x dy dx +
y dy dx
=
0
0
0
0
0
x
31 / 174
Z
1
x
Z
E[max{X , Y }] =
1
Z
y dy dx
x dy dx +
0
Z
0
0
1
Z
x
=
0
Z
x
x
1
Z
dy dx +
0
1
1 1
−
2 2
0
1 1 11
2
=
+ −
= .
3 2 23
3
=
1
Z
x 2 dx +
0
Z
1 1 − x 2 dx
2
1
x 2 dx
0
Simulation:
32 / 174
1.9. Die Faltung
Seien X und Y zwei unabhängige Zufallsvariablen mit
gemeinsamer Verteilungsfunktion FX ,Y und sei S = X + Y .
Dann ist FS (x) = P(X + Y ≤ x)
Z ∞
=
P(X + Y ≤ x|Y = y ) dFY (y )
−∞
Z ∞
=
P(X + y ≤ x) dFY (y )
−∞
Z ∞
=
P(X ≤ x − y ) dFY (y )
−∞
Z ∞
=
FX (x − y ) dFY (y )
−∞
Den Ausdruck auf der rechten Seite bezeichnet man als
Faltung von FX und FY und schreibt
Z ∞
FX ∗ FY (x) =
FX (x − y ) dFY (v ).
−∞
33 / 174
Beispiel 1.13
Seien X und Y unabhängig und identisch verteilt mit
exponentieller Verteilung (mit Parameter λ). Dann ist
Z ∞
FX ∗ FY (x) =
FX (x − y ) dFY (y )
−∞
Z x
=
(1 − e−λ(x−y ) )λe−λy dy
Z0 x
Z x
−λy
=
λe
dy −
e−λ(x−y ) λe−λy dy
0
Z x0
= 1 − e−λx − λ
dy e−λx
−λx
0
−λx
= 1−e
− λxe
= 1 − (1 + λx)e−λx .
Diese Verteilung nennt sich Erlang-Verteilung. 34 / 174
2. Irrfahrten
2.1. Münzwurf
In einem Spiel werde eine Münze geworfen. Es sei Xn = 1,
wenn im n-ten Spiel Kopf geworfen wurde und Xn = −1, wenn
im n-ten Spiel eine Zahl fällt.
Dann ist (Xn )n∈N ein stochastischer Prozess.
35 / 174
Die Partialsummen
S0 = 0,
S1 = X1 ,
S2 = X1 + X2 ,
S3 = X1 + X2 + X3 ,
..
.
Sn = X1 + X2 + . . . + Xn =
n
X
Xk
k =1
bilden einen neuen stochastischen Prozess (Sn )n∈N0 , die
symmetrische einfache Irrfahrt.
36 / 174
2.2. Verteilung der symmetrischen einfachen Irrfahrt
Wie ist die Verteilung von Sn , d.h. wie groß sind die
Wahrscheinlichkeiten P(Sn = k ) für k ∈ Z?
Sei Uk die Anzahl der Kopf-Würfe bis zum n-ten Wurf und Lk
die Anzahl der Zahl-Würfe bis zum n-ten Wurf.
Dann ist
P(Sn = k ) =
n
X
P(Sn = k |Un = j)P(Un = j)
j=0
=
n
X
j=0
P(Ln = j − k |Un = j)P(Un = j).
37 / 174
P(Sn = k ) =
n
X
P(Ln = j − k |Un = j)P(Un = j)
j=0
=
n
X
P(n − j = j − k |Un = j)P(Un = j)
j=0
=
n
X
P(2j = n + k )P(Un = j)
j=0
also
(
0
P(Sn = k ) =
P(Un =
n+k
)
2
; n − k ungerade
; n + k gerade,
Es bleibt die Verteilung von Un zu berechnen.
38 / 174
Un = i, genau dann, wenn von den n Würfen i mal Kopf fällt.
Beispiel 2.1
Sei n = 5 und i = 3. Dann gibt es folgende Möglichkeiten:
1
2
3
4
5
K
K
K
Z
K
K
K
Z
K
K
K
Z
K
K
Z
Z
K
K
K
Z
Z
Z
Z
Z
K
6
7
8
9
10
K
Z
K
Z
Z
Z
K
Z
K
Z
K
K
Z
Z
K
Z
Z
K
K
K
K
K
K
K
K
Das entspricht der Anzahl der 2-elementigen Teilmengen einer
Menge mit 5 Elementen:
120
5
5!
=
=
= 10.
2!(5 − 2)!
12
2
Bei insgesamt 25 Möglichkeiten ergibt sich
5
P(U5 = 3) =
3
25
.
39 / 174
Die allgemeine Formel ist dann
n −n
P(Un = i) =
2 .
i
Für |k | ≤ n hatten wir gefunden:
(
0
; n + k ungerade
P(Sn = k ) =
n+k
P(Un = 2 ) ; n + k gerade.
Satz 2.2 Für die symmetrische einfache Irrfahrt gilt für
|k | ≤ n und n ∈ N0 :

; n + k ungerade
0
P(Sn = k ) =
n
 n+k 2−n ; n + k gerade
2
40 / 174
Grafik: Berechnete (rot) und simulierte (blau, 1000 Irrfahrten)
Wahrscheinlichkeiten P(Sn = k ) für n = 8.
41 / 174
Grafik: Berechnete (rot) und simulierte (blau, 10000 Irrfahrten)
Wahrscheinlichkeiten P(Sn = k ) für n = 30.
42 / 174
2.3. Austrittszeiten aus einem Streifen
Sei Tm der erste Index, bei dem entweder Sn = −b oder
Sn = b ist, vorausgesetzt dass S0 = m ist.
43 / 174
Dann ist
E[T0 ] = E[T0 |X1 = 1]P(X1 = 1) + E[T0 |X1 = −1]P(X1 = −1)
1
1
=
(1 + E[T−1 ]) + (1 + E[T1 ]) = 1 + E[T1 ].
2
2
44 / 174
Dann ist
E[T0 ] = 1 + E[T1 ]
1
1
1
1
E[T1 ] = 1 + E[T2 ] + E[T0 ] = 1 + E[T2 ] + 1 + E[T1 ]
2
2
2
2
= 3 + E[T2 ]
1
1
1
1
E[T2 ] = 1 + E[T3 ] + E[T1 ] = 1 + E[T3 ] + 3 + E[T2 ]
2
2
2
2
= 5 + E[T3 ]
E[Tk ] = 2k + 1 + E[Tk +1 ].
Das ist eine Differenzengleichung mit der Lösung
E[Tk ] = E[T0 ] − k 2 .
Es ist aber E[Tb ] = 0 und daher E[T0 ] = b2 .
Satz 2.3 Für die symmetrische einfache Irrfahrt gilt:
E[Tk ] = b2 − k 2 = (b − k )(b + k ).
45 / 174
Wir nehmen nun an, dass S0 = 0 ist. Es sei nun T (a, b) der
erste Index mit Sn = −a oder Sn = b.
Dann folgt aus obiger Formel relativ einfach:
Satz 2.4 Für die symmetrische einfache Irrfahrt gilt:
E[T (a, b)] = a · b.
46 / 174
Beispiel 2.5
Wie lange dauert es bis ein Spieler beim Münzwurfspiel
entweder ruiniert ist (Sn = −1) oder sein Spielkapital auf 10
Euro angewachsen ist (Sn = 10)? Antwort: E[T (1, 10)] = 10. Lassen wir in der Formel E[T (a, b)] = a · b die untere
Begrenzung a gegen ∞ streben, so erkennt man, dass
E[T (∞, 1] = ∞ ist.
Satz 2.6 Für die symmetrische einfache Irrfahrt gilt: Der
Erwartungswert des ersten Index, für den Sn = 1 ist, ist
unendlich.
47 / 174
3. Markov-Ketten
3.1. Motivation: Irrfahrt mit Leitplanken
Wir definieren eine IrrfahrtPmit Leitplanken (doppelt
reflektierte Irrfahrt) als Xn = ni=1 Xn mit
P(Xn+1 = Xn + 1) = 12 wenn − 2 < Xn < 2,
P(Xn+1 = Xn − 1) = 21 wenn − 2 < Xn < 2,
P(Xn+1 = 1) = 1 wenn Xn = 2,
P(Xn+1 = −1) = 1 wenn Xn = −2.
48 / 174
Dann ist Xn ein stochastischer Prozess mit Zustandsraum
E = {−2, −1, 0, 1, 2}.
Die Ereignisse {Xn = j} hängen nur von Xn−1 ab und nicht
von X1 , X2 , . . . , Xn−2 . Außerdem sind die
Übergangswahrscheinlichkeiten
pij = P(Xn = j|Xn−1 = i)
von n unabhängig.
Wir definieren die sog. Übergangsmatrix:


0 1 0 0 0
 1 0 1 0 0 
 2 1 2 1


P=
0
0
0
2
2


 0 0 1 0 1 
2
2
0 0 0 1 0
Die Matrix ist eine stochastische Matrix, weil die
Zeilensumme für jede Zeile 1 beträgt.
49 / 174
Wie findet man die Verteilung von X2 ?
Es ist z.B.
P(X2 = 1|X0 = −1)
2
X
=
P(X1 = j|X0 = −1)P(X2 = 1|X0 = −1, X1 = j)
j=−2
=
2
X
P(X1 = j|X0 = −1)P(X2 = 1|X1 = j)
j=−2
=
2
X
p−1,j pj,1 = 1/4.
j=−2
Entsprechend erhält man
P
P(X2 = i|X0 = j) = 2k =−2 pjk pki = (P 2 )ji .
50 / 174
Mit anderen Worten:



P =


2

0.5
0. 0.5
0.
0.
0. 0.75 0. 0.25
0. 

0.25
0. 0.5
0. 0.25 

0. 0.25 0. 0.75
0. 
0.
0. 0.5
0. 0.5
ist die 2-Schritt-Übergangsmatrix von Xn .
Allgemeiner: Die Matrix P n ist die n-Schritt-Übergangsmatrix
des stochastischen Prozesses Xn , d.h.
P(Xn = i|X0 = j) = P(Xk +n = i|Xk = j) = (P n )ij .
Beispielsweise ist


0.250488
0. 0.5
0. 0.249512

0. 0.500488 0. 0.499512
0. 


20
.
0.25
0.
0.5
0.
0.25
P =



0. 0.499512 0. 0.500488
0. 
0.249512
0. 0.5
0. 0.250488
51 / 174
3.2. Markov-Ketten
Definition 3.1
Eine Markov-Kette mit endlichem Zustandsraum ist ein stochastischer Prozess
(Xn )n∈N0 mit Werten in einer beliebigen
Menge E = {x1 , x2 , . . . , xn }, für den gilt:
A.A.Markov
1. Markov-Eigenschaft
(1856-1922)
P(Xn = xi |X0 = xj0 , . . . , Xn−1 = xjn−1 )
= P(Xn = xi |Xn−1 = xjn−1 ),
d.h. die zukünftige Entwicklung des Prozesses hängt
nur vom gegenwärtigen Zustand ab, nicht von der
Vergangenheit.
2. Die Wahrscheinlichkeiten P(Xn = xi |Xn−1 = xj ) sind
unabhängig von n ist (Zeit-Homogenität).
52 / 174
Wir schreiben kurz
pij = P(Xn = xi |Xn−1 = xj )
für die Übergangswahrscheinlichkeiten.
Die Gesamtheit der Wahrscheinlichkeiten pij kann man
unter Zuhilfenahme einer n × n Matrix, der Übergangsmatrix,
darstellen:


p11 p12 . . . p1(n−1) p1n
 p21 p22 . . . p2(n−1) p2n 


P = (pij ) =  ..
..
..
..
.. 
 .
.
.
.
. 
pn1 pn2 . . . pn(n−1) pnn
53 / 174
Beispiel 3.2
Sei bei einem Würfelspiel Xn die Anzahl der Augenzahlen, die
bis zum n-ten Spiel noch nicht gefallen sind.
Dann ist Xn eine Markov-Kette mit Zustandsraum
E = {0, 1, 2, 3, 4, 5, 6} und Übergangsmatrix





P=



1
0
1
6
5
6
1
3
0
0
0
0
0
0
0
0
0
0
0
2
3
1
2
0
0
0
0
0
0
1
2
2
3
0
0
0
0
0
0
1
3
5
6
0
0
0
0
0
0
1
6
1
0
0
0
0
0
0
0







54 / 174
3.3. Übergangswahrscheinlichkeiten
1-Schritt-Übergangswahrscheinlichkeiten: Wir haben
schon gesehen, dass man die Übergangswahrscheinlichkeiten
pij = P(Xn+1 = xi |Xn = xj )
als Matrix
P = (pij )
schreiben kann.
n-Schritt-Übergangswahrscheinlichkeiten: Wir
bezeichnen mit
(n)
pij = P(Xn = xi |X0 = xj )
die Wahrscheinlichkeit im n-ten Schritt im Zustand xj zu sein,
wenn die Markov-Kette zum Zeitpunkt 0 im Zustand xi
gestartet wird.
Die n-Schritt-Übergangswahrscheinlichkeiten ergeben sich
als Elemente der Matrix P n = P × P × · · · × P, also
(n)
pij = (P n )ij .
55 / 174
n-Schritt-Übergangswahrscheinlichkeiten
mit zufälligem Anfang:
Es seien
πi = P(X0 = xi )
die Anfangswahrscheinlichkeiten und
π = (π1 , π2 , . . . , πn )
(der Vektor der Anfangswahrscheinlichkeiten).
Dann ergibt sich die praktische Formel
P(Xn = xj ) = (π · P n )j .
Dabei bezeichnet (π · P n )j die j-te Koordinate des Produkts
π · P n.
56 / 174
Beispiel 3.3
Ein Parkplatz hat 5 Stellplätze. Sei Xn die Anzahl der Autos
auf dem Parkplatz nach n Minuten.
Es sei (Achtung, Schreibweise nicht ganz korrekt!)


Xn + 1 ; mit Ws. 0.4
Xn+1 = Xn − 1 ; mit Ws. Xn /10


Xn
; mit Ws. 0.6 − Xn /10
für Xn < 5 und
Xn+1
(
Xn − 1
=
Xn
; mit Ws. 0.5
; mit Ws. 0.5
Xn ist eine Markov-Kette mit 6 Zuständen {0, 1, 2, 3, 4, 5}.
57 / 174
Die Übergangsmatrix ist gegeben durch

0.6 0.4 0
0
0
0
 0.1 0.5 0.4 0
0
0

 0 0.2 0.4 0.4 0
0
P = (pij ) = 
 0
0 0.3 0.3 0.4 0

 0
0
0 0.4 0.2 0.4
0
0
0
0 0.5 0.5








Simulation
58 / 174
Für die 2-Schritt-Übergangsmatrix ergibt sich:


0.4 0.44 0.16 0.
0.
0.
 0.11 0.37 0.36 0.16 0.
0. 




0.02
0.18
0.36
0.28
0.16
0.

P2 = 
 0. 0.06 0.21 0.37 0.2 0.16 


 0.
0. 0.12 0.2 0.4 0.28 
0.
0.
0.
0.2 0.35 0.45
Außerdem
ist
0.023
 0.023

 0.023
100
P
=
 0.023

 0.023
0.023
Interpretation?
0.093
0.093
0.093
0.093
0.093
0.093
0.187
0.187
0.187
0.187
0.187
0.187
0.249
0.249
0.249
0.249
0.249
0.249
0.249
0.249
0.249
0.249
0.249
0.249
0.199
0.199
0.199
0.199
0.199
0.199








59 / 174
Zum Zeitpunkt null (z.B. Mittags um 12 Uhr) sei die
Anfangsverteilung
π = (0.0, 0.1, 0.2, 0.2, 0.5, 0.0),
d.h. die Markov-Kette befindet sich z.B. im Zustand 3 (3 PKW
im Parkhaus) mit Wahrscheinlichkeit 0.2.
Dann ist z.B.
P(X20 = 3) = (π · P 20 )3
Es ist


0.03 0.109 0.2 0.247 0.233 0.181
 0.027 0.103 0.194 0.248 0.24 0.188 


 0.025 0.097 0.19 0.248 0.245 0.194 
20

P =
 0.023 0.093 0.186 0.249 0.249 0.199 


 0.022 0.09 0.184 0.249 0.252 0.203 
0.021 0.088 0.182 0.249 0.254 0.205
und daher
P(X20 = 3) = 0.187.
60 / 174
3.4. Klassifikation von Zuständen: Erreichbarkeit
Ein Zustand xj ist vom Zustand xi aus erreichbar, wenn
(n)
pij > 0
ist für irgendein n ∈ N ∪ {0}. Wir schreiben dann xi → xj
Zwei Zustände x und y kommunizieren, wenn x → y und
y → x gilt. Wir schreiben dann x ↔ y .
Die Markov-Kette heißt irreduzibel, wenn x ↔ y gilt für je
zwei Zustände x und y in E.
Ein Übergangsdiagramm beschreibt die Zustände und die
Übergangswahrscheinlichkeiten in einem Graphen als Knoten
und mit gewichteten und gerichteten Kanten.
61 / 174
Beispiel 3.4
Eine Maschine befindet sich in einem der drei Zustände (A)
„intakt”, (B) „defekt” und (C) „in Reparatur”.
Sei Xn ∈ {A, B, C} der Zustand der Maschine nach n Tagen.
Die Übergangswahrscheinlichkeiten seien wie folgt gegeben:
Es gilt A → A, A → B, A → C, B → B, B → C, B → A, C →
C, C → A, C → B. Die Markov-Kette ist irreduzibel.
62 / 174


0.95 0.05 0
0
1 
P =  0
0.4
0
0.6


0.851 0.043 0.106
P 100 =  0.851 0.043 0.106 
0.851 0.043 0.106
Simulation:
63 / 174
Der Zustandsraum E einer Markov-Kette zerfällt in
sogenannte kommunizierende Klassen C1 , C2 , . . . , Ck
Jedes x ∈ E ist Element genau einer Klasse und es gilt
x ↔ y für alle Elemente y in derselben Klasse.
Es gilt
k
[
E=
Ci ,
i=1
∅=
k
\
Ci .
i=1
Ist x ∈ Ci , so besteht Ci aus genau der Teilmenge von
Zuständen, die mit x kommunizieren.
Genau dann, wenn es nur eine solche Klasse gibt, dann ist
die Markov-Kette irreduzibel.
64 / 174
Beispiel 3.5
Eine Markov-Kette habe folgendes "Ubergangsdiagramm:
Die Markov-Kette ist nicht irreduzibel. Es gilt z.B. nicht 3 ↔ 1
oder 5 ↔ 2. Die kommunizierenden Klassen sind C1 = {1, 2}
und C2 = {3, 4, 5}.
Es ist


0.2 0.8
0
0
0
 0.95 0 0.05 0
0 


0
0
1
0 
P=
 0

 0
0
0.4
0 0.6 
0
0
0.5 0.5 0
65 / 174
Wir haben 
P
50


= 


0.178 0.146 0.209 0.293 0.174
0.173 0.142 0.212 0.297 0.176
0.
0.
0.304 0.435 0.261
0.
0.
0.304 0.435 0.261
0.
0.
0.304 0.435 0.261

0.002 0.002 0.303 0.433 0.26
0.002 0.001 0.303 0.433 0.26
0.
0.
0.304 0.435 0.261
0.
0.
0.304 0.435 0.261
0.
0.
0.304 0.435 0.261






und

P
250


=







66 / 174
Übergangsdiagramm
Simulation
67 / 174
3.5. Klassifikation von Zuständen: Periodizität
Gilt für einen Zustand xi ∈ E
(m)
pii > 0,
dann kann man von xi aus xi in m-Schritten erreichen.
Der g.g.T. (größte gemeinsame Teiler) derjenigen m, für die
(m)
pii > 0 ist, heißt die Periode des Zustandes xi , geschrieben
per(xi ).
Beispiel 3.6
Ist z.B. für einen Zustand i
(1)
(2)
pii = 0, pii = 0,
(4)
pii = 0,
(7)
(5)
pii = 0,
(8)
(3)
pii > 0,
(6)
pii > 0,
(9)
pii = 0, pii = 0, pii > 0, . . .
dann ist die Periode des Zustands xi gleich 3. 68 / 174
Beispiel 3.7
Die Markov-Kette ist nicht irreduzibel. Es gibt drei Klassen
E1 = {1}, E2 = {2, 4}, E3 = {3, 5}.
(1)
per(1) = 1, da p11 > 0 ist.
(2k )
(2k )
(2k )
(2k )
(2k )
(2k )
(2k )
(2k )
per(2) = 2, da p22 > 0 ist und p22 = 0 für k = 1, 2, . . ..
per(3) = 2, da p33 > 0 ist und p33 = 0 für k = 1, 2, . . ..
per(4) = 2, da p44 > 0 ist und p44 = 0 für k = 1, 2, . . ..
per(5) = 2, da p55 > 0 ist und p55 = 0 für k = 1, 2, . . ..
69 / 174
3.6. Klassifikation von Zuständen: Rekurrenz
Ein Zustand xi ∈ E heißt rekurrent, wenn die Ws. vom
Zustand xi den Zustand xi wieder zu erreichen gleich eins ist.
Anderenfalls heißt der Zustand transient.
Ist die erwartete Zeit bis zur Rückkehr endlich, so heißt xi
positiv rekurrent, ansonsten nullrekurrent.
Rekurrenz und Transienz häufig sind nicht einfach
nachzuweisen.
Ein Zustand xi ist mit Sicherheit transient wenn es einen
Zustand xj 6= xi gibt, für den i → j und nicht j → i gilt.
Satz 3.8 Periodizität (und Periode), Rekurrenz und Transienz sind Eigenschaften einer gesamten Klasse, d.h. alle
oder keine Zustände einer Klasse haben diese Eigenschaften.
70 / 174
Beispiel 3.9
71 / 174
Beispiel 3.10
72 / 174
Beispiel 3.11
73 / 174
Beispiel 3.12
Alle Zustände sind rekurrent.
74 / 174
Beispiel 3.13




P=



0
0
0
1
5
0
0
0
0
1
7
1
9
1
12
0
0
0
0
5
6
0
0
0
0
0
0
0
0
6
7
0
1
6
4
5
1
9
1
0
0
0
0
0
0
2
3
1
6
0
0
0
8
9
3
4
0
0
0
0
1
6
0
0
0
0
0
0
0
0
0
0
0
0
0
8
9
1
6








0
75 / 174
3.7. Stationäre Verteilung und Grenzverhalten
Definition 3.14
Eine stationäre Verteilung einer
Markov-Kette auf dem Zustandsraum E = {x1 , x2 , . . . , xn }
ist eine Anfangsverteilung π = (π1 , π2 , . . . , πn ), für die
π·P =π
π·1=1
gilt, d.h. die Wahrscheinlichkeiten nach einem Schritt stimmen mit der Anfangsverteilung überein.
Die Gleichung πP = π kann man als π(P − In ) = 0
schreiben, wobei In die n × n-Einheitsmatrix ist.
Um eine stationäre Anfangsverteilung zu finden, muss man
also nur ein homogenes lineares Gleichungssystem lösen und
dann diejenige Lösung finden, für die π1 + . . . + πn = 1 ist.
76 / 174
Beispiel 3.15
Es sei Xn eine Markov-Kette auf E = {1, 2, 3} und


0 12 12
P =  13 13 13 
1 0 0
die zugehörige Übergangsmatrix.
77 / 174
Es ist π(P − In ) = 0, g.d.w. (P − In )T π = 0


−1 31
1
 1 −2 0  = 0
2
3
1
1
−1
2
3


1 − 13 −1
⇔  0 −1 1  = 0
0 12 − 21


1 0 − 43
 0 1 −1 
=0
⇔
0 0 0
Lösung π = c · (− 43 , −1, −1), also c = 3/10,


0.4
π =  0.3  .
0.3
78 / 174
Bemerkung: Hat die Matrix P − In stets einen Rang, der
kleiner ist als n?
Die Antwort ist: ja. Aber woran liegt das?
P ist eine stochastische Matrix, d.h. die Zeilensummen sind
eins.

 

0.5
0 0.5
1 0 0
 0.1 0.2 0.7  −  0 1 0 
0.5 0.2 0.3
0 0 1
Wenn man also die n Spalten von P − In addiert, ergibt sich
der Nullvektor, d.h. die Spaltenvektoren sind linear abhängig.
79 / 174
Beispiel 3.16
Es sei
1
2
1
2
1
3

0 0
2
 0
0 
3

P=
 0 0 1 3 
4
4
4
0 0 15
5

80 / 174
Es ist

− 12
 1
(P − In )T =  02
0
− 23
2
3
0
0
0
− 34
0
0
− 45
− 45
− 54
− 45
− 45
0
− 58
− 12
10
− 16
15
0
0
0
− 34
3
4
4
5
0
0
− 45



Wir lösen das LGS
1
2
0
0
0
− 23
2
3
3
4
3
4
1
2
0
0
0
0
0
0
1
0
0
0
2
3
0
0
0
0
0
1
0
0
0
0
0
1
0
3
4
81 / 174
, −1).
Lösung: π = c(− 85 , − 65 , − 16
15
Dann ist
1
c = 8 6 16
= −15/73
− 5 − 5 − 15 − 1
und daher ergibt sich für die stationäre Verteilung:
24 18 16 15
π=( , , , )
73 73 73 73
= (0.328767, 0.246575, 0.219178, 0.205479).
Interessante Beobachtung:

0.328767 0.246575

0.328767 0.246575
P 100 = 
 0.328767 0.246575
0.328767 0.246575
0.219178
0.219178
0.219178
0.219178

0.205479
0.205479 
.
0.205479 
0.205479
82 / 174
Satz 3.17 Eine irreduzible, aperiodische, Markov-Kette
mit endlichem Zustandsraum ist immer (positiv) rekurrent
und der Grenzwert
P ∞ = lim P n
n→∞
∞
existiert. Die Matrix P  hat die Form

π1 π2 . . . πn
 π1 π2 . . . πn 


P ∞ =  ..
..
..
.. 
 .
.
.
. 
π1 π2 . . . πn
und π = (π1 , . . . , πn ) ist die einzige stationäre Verteilung
der Markov-Kette.
83 / 174
Zusammenfassung: Ist die Markov-Kette Xn irreduzibel
und aperiodisch, dann gibt es eine eindeutige stationäre
Verteilung π (Lösung der Gleichung π(P − In ) = 0) und es
gilt:
I Startet die Kette mit der Anfangsverteilung π, so
verbleibt sie bei dieser Verteilung, d.h.
P(Xn = k ) = πk für jedes n.
I Ansonsten gilt unabhängig vom Startwert
lim P(Xn = k ) = πk ,
n→∞
d.h. wir können die Markov-Kette mit ws. ≈ πk im
Zustand k erwarten, wenn der Prozess schon sehr
lange läuft (steady state).
84 / 174
3.8. Mittelwerte im Gleichgewichtszustand
Für eine gegebene Funktion f : E → R wäre es interessant
den Mittelwert von f (Xn ) über einen sehr langen Zeitraum zu
bestimmen, also
n
1X
f (Xk )
n
k =0
für sehr großes n.
Satz 3.18 (Starkes Gesetz der großen Zahlen) Für eine
irreduzible, aperiodische, Markov-Kette mit Zustandsraum
mit stationärer Verteilung π gilt fast sicher
n
n
X
1X
lim
f (Xk ) =
f (i)πi ,
n→∞ n
k =0
i=1
für jede beschränkte Funktion auf dem Zustandsraum.
85 / 174
Beispiel 3.19 (s. Beispiel 3.4)
Eine Maschine befindet sich in einem der drei Zustände (A)
„intakt”, (B) „defekt” und (C) „in Reparatur”.
Sei Xn ∈ {A, B, C} der Zustand der Maschine nach n Tagen.
Die Übergangswahrscheinlichkeiten seien wie folgt gegeben:
86 / 174
In den Verschiedenen Zuständen verursacht die Maschinen
entweder Kosten oder es entstehen Einkünfte:
A B C
Gewinn (in Tsd. Euro) 2 -5 -10
Wie hoch ist der mittlere Gewinn pro Tag, wenn die
Markov-Kette im Gleichgewicht ist?
Die Markov-Kette ist irreduzibel und aperiodisch. Wir
berechnen die Stationäre Verteilung. Es ist


0.95 0.05 0
0
1 
P= 0
0.4
0
0.6
Dann ergibt sich


−0.05 0
0.4
0 
(P − In )T =  0.05 −1
0
1 −0.4
87 / 174
Wir müssen also das zugehörige LGS lösen:
-0.05 0 0.4
0.05 -1
0
0
1 -0.4
1
0
-8
0
1 -0.4
0
0
0
Also ist π = c · (−8, −0.4, −1) und daher
1
5
=− .
c=
−8 − 0.4 − 1
47
Demnach ist die stationäre Verteilung der Markov-Kette
gegeben durch π = (π1 , π2 , π3 ) mit
π = ( 40
, 2 , 5 ).
47 47 47
88 / 174
Nun sei f : E → R eine Funktion mit Werten
f (1) = 2,
f (2) = −5,
f (3) = −10.
Dann ist der Mittelwert von f (X0 ), f (X1 ), . . . gegeben durch
n
X
40
2
5
f (i)πi =
·2−
·5−
· 10
47
47
47
i=1
20
≈ 0.426.
47
Der mittlere Gewinn pro Tag pro Maschine beträgt also 426
Euro.
=
89 / 174
Beispiel 3.20
Eine Warteschlange eines Callcenters habe die Maximale
Länge vier. Es sei Xn die Warteschlangenlänge nach n
Minuten. Xn sei eine Markov-Kette mit Übergangsmatrix


0.9 0.1 0
0
0
 0.2 0.7 0.1 0
0 



P=
 0 0.2 0.7 0.1 0 
 0
0 0.2 0.7 0.1 
0
0
0 0.2 0.8
90 / 174
Um die Kunden(un)zufriedenheit zu messen, wird eine
Strafe-Funktion f : {0, 1, 2, 3, 4} eingeführt, die höher Ausfällt,
wenn mehr Kunden warten müssen. Man definiert:
f (k ) = k 2 .
Wie groß ist die Strafe im Mittel über einen langen Zeitraum?
Wir bestimmen zunächst die stationäre Verteilung. Es ist


−0.1 0.2
0
0
0
 0.1 −0.3 0.2
0
0 


T
0.1 −0.3 0.2
0 
(P − In ) = 
 0

 0
0
0.1 −0.3 0.2 
0
0
0
0.1 −0.2
Wir müssen lösen: (P − In )T = 0.
91 / 174
-0.1
0.1
0
0
0
-0.1
0
0
0
0
0.2
-0.3
0.1
0
0
0.2
-0.1
0
0
0
0
0.2
-0.3
0.1
0
0
0.2
-0.1
0
0
0
0
0.2
-0.3
0.1
0
0
0.2
-0.1
0
0
0
0
0.2
-0.2
0
0
0
0.2
0
⇒
-0.1
0
0
0
0
1
0
0
0
0
0
-0.1
0
0
0
0
1
0
0
0
0
0
-0.1
0
0
0
0
1
0
0
0
0
0
-0.1
0
0
0
0
1
0
1.6
0.8
0.4
0.2
0
-16
-8
-4
-2
0
Also ist π = c · (−16, −8, −4, −2, −1), d.h. c = 31,
16 8 4 2 1 π=
, , , ,
.
31 31 31 31 31
Dann ergibt sich
n
X
8
4
2
1
f (i)πi =
+4
+9
+ 16
≈ 1.87097.
31
31
31
31
i=1
Die mittlere Strafe beträgt etwa 1.87.
92 / 174
4. Poisson-Prozesse
4.1. Erdbeben und Zählprozesse
Eine Versicherung will Erdbebenschäden abschätzen und
möchte dazu ein mathematisches Modell konstruieren.
Ein Seismograph zeichnet über einen längeren Zeitraum
Beben verschiedener Stärke auf.
Es sollen nur Erdbeben betrachtet werden, die eine
bestimmte Stärke überschreiten.
93 / 174
Die relevanten Erdbeben treten zu zufälligen Zeitpunkten
auf, die wir mit den Zufallsvariablen T1 , T2 , . . . identifizieren:
Wir setzen T0 = 0.
(Tk )k =1,2,... ist ein stochastischer Prozess in diskreter Zeit.
Die Zufallsvariablen Xk sind nicht-negativ.
In dem vereinfachten Modell werden die Erdbebenstärken
nicht weiter berücksichtigt.
94 / 174
Die Pausenzeiten, also die Länge der Zeitabschnitte
zwischen den Erdbeben, bezeichnen wir mit X1 , X2 , . . ..
Auch (Xk )k =1,2,... ist ein stochastische Prozess in diskreter
Zeit mit nicht-negativen Zufallsvariablen Xk .
Der Prozess (Tk ) ist durch den Prozess (Xk ) eindeutig
festgelegt und umgekehrt. Es gilt
Xn = Tn − Tn−1
und
n
X
Tn =
Xk , n = 1, 2, . . .
k =1
95 / 174
Es sei N(t) die Anzahl der Erdbebenereignisse im
Zeitintervall von 0 bis t, also
N(t) = max{j ∈ N0 |Tj ≤ t}.
Gilt z.B. T1 = 1.876, T2 = 1.901, T1 = 2.817 und T1 = 3.182
dann ist
N(1.0) = 0,
N(2.1) = 2,
N(2.7) = 2,
N(2.817) = 3,
N(3.1) = 3.
(N(t))t∈R+ ist ein stochastischer Prozess in stetiger Zeit.
96 / 174
N(t) hat folgende Eigenschaften:
1. N(t) hat Werte in Z+ = {0, 1, 2, 3, 4, . . .},
2. N(0) = 0,
3. N(t) ist nicht-fallend und
4. der Zuwachs N(t) − N(s) entspricht der Anzahl der
Erdbebenereignisse im Zeitintervall (s, t].
Ein stochastischer Prozess mit diesen vier Eigenschaften
ist ein Zählprozess.
Typische Verläufe für N(t):
97 / 174
Für das Erdbebenmodell nehmen wir noch zwei zusätzliche
Eigenschaften an.
(1) Die Zuwächss N(t + u) − N(t) und N(s + v ) − N(s) sind
unabhängig, wenn (t, t + u] und (s, s + v ] sich nicht
überschneiden.
98 / 174
(2) Die Zuwächse N(t + u) − N(t) und N(s + u) − N(s)
besitzen die gleiche Verteilung, die nur von u und nicht von t
uns s abhängt.
Ein Zählprozess mit diesen Eigenschaften heißt
Poisson-Prozess, wenn diese Verteilung der Zuwächse eine
Poisson-Verteilung ist mit Mittelwert λ · u, für ein λ > 0.
99 / 174
4.2. Definition: Poisson-Prozess
Definition 4.1 Ein (homogener) Poisson-Prozess mit Intensität λ > 0 ist ein Zählprozess (N(t))t∈R+ mit folgenden
Eigenschaften:
1. (Unabhängige Zuwächse) N(t + u) − N(t) ist
unabhängig von N(s + v ) − N(s) ,
2. (Stationäre Zuwächse) N(t + u) − N(t) hat eine
Poisson-Verteilung mit Parameter λu, d.h. es gilt
λu n
P(N(t + u) − N(t) = n) = e−λu
, n ∈ N0 .
n!
Dabei sei 0 ≤ t < t + u ≤ s < s + v .
100 / 174
Weitere Eigenschaften:
N(t) ist stückweise konstant, rechtsseitig stetig und hat
Aufwärtssprünge der Größe 1,
I N(t) = N(t) − N(0) hat eine Poisson-Verteilung:
n
−λt (λ · t)
P(N(t) = n) = e
,
n!
I E[N(t)] = λ · t,
I Man kann zeigen, dass
P(N(t) = 1) = λ · t + o(t),
P(N(t) > 1) = o(t),
wobei o(t) eine Funktion von t bezeichnet, für die
o(t)/t → 0 gilt, wenn t gegen 0 konvergiert.
Wenn t sehr klein ist, dann ist
P(N(t) = 1) ≈ λ · t,
P(N(t) > 1) ≈ 0.
I
101 / 174
Drei Poisson-Prozesse mit λ = 2.0, t ∈ [0, 10]
102 / 174
4.3. Verteilung der Pausenzeiten
Erinnerung: Xn = Tn − Tn−1 und Tn =
Pn
k =1
Xk .
Da N(t) ein Zählprozess mit konstanter Rate ist, kann man
annehmen, dass X1 , X2 , . . . diesselbe Verteilung besitzen und
unabhängig sind.
103 / 174
Sei F die Verteilungsfunktion von X1 (und X2 , X3 . . .). Dann
gilt
F (x) = P(X1 ≤ x)
= P(N(x) > 0)
= 1 − P(N(x) = 0)
= 1 − e−λx .
Satz 4.2 Die Pausenzeiten des Poisson-Prozesses mit
Intensität λ haben eine exponentielle Verteilung mit Parameter λ. Insbesondere ist
1
E[X1 ] = E[X2 ] = . . . = .
λ
104 / 174
4.4. Pausenzeiten und Ereigniszeitpunkte
Es ist Tn der Zeitpunkt des Eintretens des n-ten Ereignisses
und
n
X
Tn =
Xk .
k =1
Es folgt, dass die Verteilung von Tn der n-fachen Faltung
der Exponentialverteilung entspricht:
G1 (x) = P(T1 ≤ x) = F (x) = 1 − e−λx ,
Z x
G2 (x) = P(T2 ≤ x) =
F (x − y ) dG1 (y ) = F ∗ F (x),
0
G3 (x) = F ∗ F ∗ F (x),
Gn (x) = |F ∗ F ∗{z· · · ∗ F}(x).
n×
⇒ Gn ist schwierig zu berechnen.
105 / 174
Statt die Faltungsintegrale zu berechnen, kann man eine
weitere Eigenschaft der Ereigniszeitpunkte ausnutzen:
N(t) ≥ n ⇔ Tn ≤ t.
Dann ist also
P(Tn ≤ t) = P(N(t) ≥ n)
n−1
X
= 1−
P(N(t) = k )
k =0
= 1 − e−λt
n−1
X
(λt)k
k =0
k!
.
106 / 174
Satz 4.3 Der n-te Ereigniszeitpunkt Tn eines PoissonProzesses mit Intensität λ besitzt eine Erlang-Verteilung
mit Parametern n und λ:
n−1
X
(λt)k
P(Tn ≤ t) = 1 − e−λt
.
k!
k =0
Z.B. ist
P(T1 ≤ t) = 1 − e−λt
P(T2 ≤ t) = 1 − e−λt (1 + λt)
(λt)2
)
2
(λt)2 (λt)3
−λt
+
).
P(T4 ≤ t) = 1 − e (1 + λt +
2
6
P(T3 ≤ t) = 1 − e−λt (1 + λt −
107 / 174
Beispiel 4.4
Die Kundenankünfte an einem Schalter einer Bank werden
durch einen Poisson-Prozess modelliert. Die mittlere Anzahl
der Ankünfte beträgt 2 Kunden in der Minute.
Wie groß ist die Wahrscheinlichkeit, dass in 5 Minuten
weniger als 4 Kunden die Bank besuchen?
Es ist λ = 2.
Es ergibt sich
102 103
P(N(5) ≤ 3) = e−10 (1 + 10 +
+
) ≈ 0.010
2
6
Alternativ
P(T4 > 5) = 1 − P(T4 ≤ 5)
= e−10 (1 + 10 +
102 103
+
) ≈ 0.010.
2
6
108 / 174
4.5. Der Poisson-Prozess für späte Zeiten
Häufig ist es sehr mühsam die Verteilungsfunktion von N(t)
und Tk auszurechnen, wenn t oder k sehr groß sind.
Beispiel 4.5
Bei einer Maschine treten Defekte zufällig, aber mit einer
konstanten Rate von einem Defekt in 10 Tagen auf. Wie groß
ist die Wahrscheinlichkeit, dass in einem Jahr mehr als 40
Defekte eintreten?
Es ist λ = 1/10 (Zeiteinheit=Tage).
Wir suchen P(N365 > 40) also
40
1
X
( 10
365)k
1
− 10
365
P(N365 > 40) = 1 − e
k!
k =0
=???
109 / 174
Ist t sehr groß, so ist N(t) ≈ λt:
Poisson-Prozess mit λ = 3 und die Gerade t 7→ 3t.
110 / 174
Abstand N(t) zu λt:
N(t) − λt für λ = 3
111 / 174
4.6. Intermezzo: Der Zentrale Grenzwertsatz
P
Tn = nk=1 Xk ist die Summe von n i.i.d. Zufallsvariablen.
Um die Verteilung solcher Summen zu berechnen gibt es
eine berühmte Approximation:
Satz 4.6 (Zentraler Grenzwertsatz) Sind X1 , X2 , . . . i.i.d.
2
mit endlichem Erwartungswert
Pn µ und endlicher Varianz σ ,
dann ist die Verteilung von k =1 Xk approximativ gegeben
durch
n
X
x − nµ P
Xk ≤ x ≈ Φ √
,
2
nσ
k =1
wobei Φ die Verteilungsfunktion der Normalverteilung ist.
112 / 174
P
Simulation von 10
k =1 Xk , mit Xk gleichverteilt auf [0, 1]
(10,100,1000,10000 Samples).
113 / 174
Tabelle der Werte der normierten Normalverteilung Φ(x) für
x ∈ [−2, 0]. Beispiel: Φ(−0.63) = 0.2643.
−2.5
−2.4
−2.3
−2.2
−2.1
−2.
−1.9
−1.8
−1.7
−1.6
−1.5
−1.4
−1.3
−1.2
−1.1
−1.
−0.9
−0.8
−0.7
−0.6
−0.5
−0.4
−0.3
−0.2
−0.1
0.
0.
0.0062
0.0082
0.0107
0.0139
0.0179
0.0228
0.0287
0.0359
0.0446
0.0548
0.0668
0.0808
0.0968
0.1151
0.1357
0.1587
0.1841
0.2119
0.242
0.2743
0.3085
0.3446
0.3821
0.4207
0.4602
0.5
0.01
0.006
0.008
0.0104
0.0136
0.0174
0.0222
0.0281
0.0351
0.0436
0.0537
0.0655
0.0793
0.0951
0.1131
0.1335
0.1562
0.1814
0.209
0.2389
0.2709
0.305
0.3409
0.3783
0.4168
0.4562
0.496
0.02
0.0059
0.0078
0.0102
0.0132
0.017
0.0217
0.0274
0.0344
0.0427
0.0526
0.0643
0.0778
0.0934
0.1112
0.1314
0.1539
0.1788
0.2061
0.2358
0.2676
0.3015
0.3372
0.3745
0.4129
0.4522
0.492
0.03
0.0057
0.0075
0.0099
0.0129
0.0166
0.0212
0.0268
0.0336
0.0418
0.0516
0.063
0.0764
0.0918
0.1093
0.1292
0.1515
0.1762
0.2033
0.2327
0.2643
0.2981
0.3336
0.3707
0.409
0.4483
0.488
0.04
0.0055
0.0073
0.0096
0.0125
0.0162
0.0207
0.0262
0.0329
0.0409
0.0505
0.0618
0.0749
0.0901
0.1075
0.1271
0.1492
0.1736
0.2005
0.2296
0.2611
0.2946
0.33
0.3669
0.4052
0.4443
0.484
0.05
0.0054
0.0071
0.0094
0.0122
0.0158
0.0202
0.0256
0.0322
0.0401
0.0495
0.0606
0.0735
0.0885
0.1056
0.1251
0.1469
0.1711
0.1977
0.2266
0.2578
0.2912
0.3264
0.3632
0.4013
0.4404
0.4801
0.06
0.0052
0.0069
0.0091
0.0119
0.0154
0.0197
0.025
0.0314
0.0392
0.0485
0.0594
0.0721
0.0869
0.1038
0.123
0.1446
0.1685
0.1949
0.2236
0.2546
0.2877
0.3228
0.3594
0.3974
0.4364
0.4761
0.07
0.0051
0.0068
0.0089
0.0116
0.015
0.0192
0.0244
0.0307
0.0384
0.0475
0.0582
0.0708
0.0853
0.102
0.121
0.1423
0.166
0.1922
0.2206
0.2514
0.2843
0.3192
0.3557
0.3936
0.4325
0.4721
0.08
0.0049
0.0066
0.0087
0.0113
0.0146
0.0188
0.0239
0.0301
0.0375
0.0465
0.0571
0.0694
0.0838
0.1003
0.119
0.1401
0.1635
0.1894
0.2177
0.2483
0.281
0.3156
0.352
0.3897
0.4286
0.4681
0.09
0.0048
0.0064
0.0084
0.011
0.0143
0.0183
0.0233
0.0294
0.0367
0.0455
0.0559
0.0681
0.0823
0.0985
0.117
0.1379
0.1611
0.1867
0.2148
0.2451
0.2776
0.3121
0.3483
0.3859
0.4247
0.4641
114 / 174
Tabelle der Werte der normierten Normalverteilung Φ(x) für
x ∈ [−2, 0]. Beispiel: Φ(0.63) = 0.7357.
0.
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.
2.1
2.2
2.3
2.4
2.5
0.
0.5
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.758
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.01
0.504
0.5438
0.5832
0.6217
0.6591
0.695
0.7291
0.7611
0.791
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.992
0.994
0.02
0.508
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.983
0.9868
0.9898
0.9922
0.9941
0.03
0.512
0.5517
0.591
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.937
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.04
0.516
0.5557
0.5948
0.6331
0.67
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.877
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.975
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.834
0.8577
0.879
0.898
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.985
0.9884
0.9911
0.9932
0.9949
0.08
0.5319
0.5714
0.6103
0.648
0.6844
0.719
0.7517
0.7823
0.8106
0.8365
0.8599
0.881
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.883
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.989
0.9916
0.9936
0.9952
115 / 174
Beispiel 4.7
Es werde 1000 mal mit einem fairen Würfel gewürfelt. Wie
groß ist die Wahrscheinlichkeit, dass die Augensumme kleiner
als 3400 ist?
Hier sind die Zufallsvariablen Xk die Augensummen (Mittelwert
7/2, Varianz 35/12) und es gilt daher
n
X
3400 − 1000 · 27 q
P
Xk ≤ 990 ≈ Φ
1000 35
k =1
12
= Φ − 1.85164
≈ 0.032.
116 / 174
Beispiel 4.8
Wie groß ist die Wahrscheinlichkeit, dass bei der
symmetrischen
einfachen Irrfahrt S100 > 10 ist? Es ist
P100
S100 = k =1 Xk , mit
E[Xk ] = 0
1
1
Var[Xk ] = (−1 − 0)2 + (1 − 0)2 = 1.
2
2
Es gilt also
100
X
P(S100 > 10) = P(
Xk > 10)
k =1
10 − 100 · 0 √
100 · 1
= 1 − Φ(1)
= Φ(−1) ≈ 0.1587.
≈ 1−Φ
117 / 174
Im Fall der Verteilung der Eintrittszeiten für den
Poisson-Prozess ist µ = E[X1 ] = 1/λ und σ 2 = Var[X1 ] = 1/λ2
und daher
t − n/λ
λt − n
P(Tn ≤ t) ≈ Φ( p
) = Φ( √ ).
n
n/λ2
Satz 4.9 Für die Eintrittszeiten der Ereignisse eines homogenen Poissonprozesses mit Intensität λ gilt
λt − n P(Tn ≤ t) = P(N(t) ≥ n) ≈ Φ √
,
n
wenn n entsprechend groß ist.
118 / 174
Beispiel 4.10
Bei einer Maschine treten Defekte mit einer konstanten Rate
0.1 Defekte/Tag auf. Wie groß ist die Ws., dass in einem Jahr
mehr als 40 Defekte eintreten?
Wir suchten P(N365 > 40) also
39
1
X
( 10
365)k
1
− 10
365
P(N365 > 40) = 1 − e
k!
k =0
36.5 − 40
≈ Φ( √
) = Φ(−0.55) ≈ 0.2912.
40
Wahrer Wert: ≈ 0.3025. 119 / 174
4.7. Ereignisszeitpunkte bei feststehender Anzahl
Angenommen, es ist für einen Zeitpunkt t > 0 schon
N(t) = n bekannt.Wie lautet dann die Verteilung der
Ereigniszeitpunkte T1 , T2 , . . . , Tn ?
Satz 4.11 Die gemeinsame Wahrscheinlichkeitsdichte,
gegeben N(t) = n, von T1 , T2 , . . . , Tn ist
(
n!/t n ; 0 ≤ t1 ≤ t2 ≤ . . . ≤ tn ≤ t
f (t1 , t2 , . . . , tn ) =
0
; sonst.
Das ist die Dichte der Verteilung der Ordnungsstatistik von
n unabhängigen Zufallsvariablen mit Gleichverteilung auf
dem Intervall [0, 1].
120 / 174
Man kann also die Ankünfte eines Poisson-Prozesses bis
zum Zeitpunkt t simulieren, indem man entweder
I Exponentielle Zufallsvariablen X1 , X2 , m . . . mit Mittelwert
P
1/λ erzeugt, solange bis Tn = ni=1 Xi ≥ t ist, oder
I zunächst N(t) simuliert (dazu muss die Poissonverteilung
implementiert sein) und dann N(t) gleichverteilte
Variablen in [0, t] simuliert.
Die Ereigniszeiten T1 , T2 , . . . , Tn liegen (gegeben N(t) = n)
also in einem gewissen Sinne „maximal zufällig” im
Zeitintervall [0, t].
121 / 174
4.8. Vorwärts- und Rückwärtsrekurrenzzeit
Seien nun
t∗ = TN(t) , t ∗ = TN(t)+1
die Zeiten des Eintritts des letzten bzw. nächsten Ereignisses.
Wir wollen die Verteilung der Zufallsvariablen
A(t) = t − t∗
(Rückwärtsrekurrenzzeit)
∗
B(t) = t − t
(Vorwärtsrekurrenzzeit)
finden.
Die Verteilung von B(t) ist offenbar exponentiell
(Gedächtnislosigkeit der Exponentialverteilung):
P(B(t) ≤ s) = 1 − e−λs .
122 / 174
Die Verteilung von A(t) is etwas schwieriger zu finden.
Es ist für 0 ≤ s ≤ t
∞
X
P(A(t) > s) =
P(t∗ ≤ t − s|N(t) = n) · P(N(t) = n)
n=0
=
∞
X
P(max{U1 , U2 , . . . , Un } ≤ t − s) · e−λn
n=0
(λt)n
,
n!
wobei die Uk i.i.d. gleichverteilte ZV in [0, t] sind.
∞
X
(λt)n
=
P(U1 ≤ t − s, . . . , Un ≤ t − s) · e−λn
n!
=
n=0
∞
X
n
P(U1 ≤ t − s) · e
n=0
= e−λt eλs
∞
X
t − s n −λt (λt)n
=
·e
n!
t
n!
−λn (λt)
n
n=0
∞
X
n=0
e−λ(t−s)
n
(λ(t − s))
= e−λs .
n!
123 / 174
Satz 4.12
Für die Rückwärtsrekurrenzzeit gilt
(
1 − e−λs ; s ∈ [0, t]
P(A(t) ≤ s) =
1
; sonst
und E[A(t)] = λ1 (1 − e−λt ).
Für die Vorwärtsrekurrenzzeit gilt
(
1 − e−λs ; s ∈ [0, ∞)
P(B(t) ≤ s) =
1
; sonst
und E[B(t)] = λ1 .
A(t) und B(t) sind unabhängig.
Wartezeitenparadoxon: Es ist für t > 0
2 e−λt
1
E[A(t) + B(t)] = −
> .
λ
λ
λ
124 / 174
Beispiel 4.13
Eine Bushaltestelle fahren im Mittel 6 Busse pro Stunde an. In
einem mathematischen Modell werden die ankommenden
Busse als Ereignisse eines Poisson-Prozesses modelliert. Der
erste Bus erreicht die Haltestelle morgens exakt um 7 Uhr.
Wie groß ist die Wahrscheinlichkeit einen Bus innerhalb von
10 Minuten anzutreffen, wenn man um 13 Uhr die
Bushaltestelle erreicht?
1
1
P(B(6) ≤ ) = 1 − e−6· 6 ≈ 0.632.
6
Wie groß ist die Wahrscheinlichkeit dass der letzte Bus vor
weniger als 10 Minuten fuhr?
1
1
P(A(6) ≤ ) = 1 − e−6· 6 ≈ 0.632.
6
125 / 174
Wie groß ist die Wahrscheinlichkeit, dass B(t) ≥ A(t) ist?
Es ist, wenn G die Verteilungsfunktion von B(t) bezeichnet,
Z ∞
P(B(t) ≥ A(t)) =
P(B(t) ≥ A(t)|B(t) = s) dG(s)
0
Z ∞
=
P(A(t) ≤ s) dG(s),
0
Z t
Z ∞
−λs
−λs
=
(1 − e ) λe
ds +
1 λe−λs ds
0
t
Z t
= λ (e−λs − e−2λs ) ds + e−λt
0
1
= (1 − e−λt ) − (1 − e−2λt ) + e−λt
2
−2λt
1+e
=
.
2
126 / 174
4.9. Zusammenführung von Poisson-Prozessen
N(t) und M(t) seien zwei unabhängige Poisson-Prozesse
mit Intensitäten λ und µ.
Es sei K (t) der Zählprozess, der die Ereignisse von N(t)
und M(t) zählt, d.h. K (t) = N(t) + M(t).
Ist dann K (t) auch ein Poisson-Prozess?
I Offenbar hat K (t) auch unabhängige und stationäre
Zuwächse.
I Hat K (t) eine Poisson-Verteilung?
127 / 174
Es ist
P(K (t) = k ) =
X
P(N(t) = n, M(t) = m)
n,m:n+m=k
=
k
X
P(N(t) = n, M(t) = k − n)
n=0
=
k
X
P(N(t) = n)P(M(t) = k − n)
n=0
=
k
X
e−λt
n=0
(λt)n −µt (µt)k −n
e
n!
(k − n)!
k
= e
−(λ+µ)t
1 X
k!
(λt)n (µt)k −n
k!
n!(k − n)!
n=0
128 / 174
Binomische Formel:
k
(a + b) =
k
X
n=0
k!
an bk −n .
n!(n − k )!
Also ist
k
P(K (t) = k ) = e
−(λ+µ)t
k!
1 X
(λt)n (µt)k −n
k!
n!(k − n)!
n=0
1
(λt + µt)k .
k!
((µ + λ)t)k
.
= e−(λ+µ)t
k!
= e−(λ+µ)t
Satz 4.14
Der zusammengeführte Zählprozess K (t) = N(t)+M(t) ist
ein Poisson-Prozess mit Intensität λ + µ.
129 / 174
Beispiel 4.15
An zwei Schaltern einer Bank werden die Kundenankünfte
durch zwei Poisson-Prozesse N(t) und M(t) modelliert.
Am ersten Schalter kommen 10 Kunden pro Stunde an, an
dem zweiten Schalter ist die Rate doppelt so hoch.
Der Zählprozess K (t), der die Ankünfte für beide Schalter
zählt, ist dann ein Poisson-Prozess mit Intensität
λ = 10 + 20 = 30.
Im Mittel betritt also alle 2 Minuten ein Kunde die Bank. 130 / 174
4.10. Ausdünnung von Poisson-Prozessen
Wir wollen jetzt aus einem Poisson-Prozess K (t) mit
Intensität λ + µ zwei Poisson-Prozesse gewinnen, und zwar
I einen Prozess N(t) mit Intensität λ und
I einen Prozess M(t) mit Intensität µ.
131 / 174
Idee: Wir werfen bei jedem Ereignis des Prozesses K eine
unfaire Münze:
I mit Wahrscheinlichkeit p = λ/(λ + µ) ordnen wir das
Ereignis dem Prozess N zu,
I mit Wahrscheinlichkeit 1 − p = µ/(λ + µ) ordnen wir das
Ereignis dem Prozess M zu.
Satz 4.16 Die beiden so konstruierten Zählprozesse
N(t) und M(t) sind unabhängige Poisson-Prozesse mit Intensitäten λ und µ.
Mit anderen Worten: werden bei einem Poisson-Prozess
mit Intensität κ die Ereignisse mit Wahrscheinlichkeit p
einem Prozess N und mit Wahrscheinlichkeit 1 − p einem
Prozess M zugeordnet, dann sind N und M unabhängige
Poisson-Prozesse mit Intensitäten λ = pκ und µ = (1−p)κ.
132 / 174
Beispiel 4.17
Ein Seismograph zeichnet Erdbeben verschiedener Stärke
auf.
Die Verteilungsfunktion der Erdbebenstärke S sei
s2
,
P(S ≤ s) =
1 + s2
Es ist also
P(S > 3) = 0.1,
P(S > 5) = 0.038,
P(S > 5|S > 3) = 0.38.
133 / 174
Die Erdbeben der Stärke >3 werden als Poisson-Prozess
modelliert. Empirisch ergab sich eine Rate von κ = 2.4
Erdbeben dieser Stärke pro Tag.
Dann ist der Prozess, der die Erbeben der Stärke >5 zählt
ebenfalls ein Poisson-Prozess. Seine Intensität ist
λ = P(S > 5|S > 3)κ = 0.38 · 2.4 = 0.91.
134 / 174
4.11. Inhomogene Poisson-Prozesse
Ein inhomogener Poisson-Prozess N(t) mit
Intensitätsfunktion λ(t) liegt vor, wenn
I N(t) ein Zählprozess ist,
I N(t) unabhängige Zuwächse besitzt
I und für t > s die Zuwächse N(t) − N(s) eine
Poisson-Verteilung mit Parameter Λ(t) − Λ(s) besitzen.
Rt
Dabei sei Λ(t) = 0 λ(u) du
Es gilt also
(Λ(t) − Λ(s))n
P(N(t) − N(s) = n) = eΛ(s)−Λ(t)
.
n!
Die Zuwächse sind nicht mehr stationär.
Spezialfall: für λ(t) = λ ergibt sich der homogene
Poisson-Prozess.
135 / 174
Beispiel 4.18
Das Auftreten von Nachbeben werde mit einem
inhomogenen Poisson-Prozess modelliert. Dabei geht man
davon aus, dass die Instensität mit der Zeit abnimmt:
1
λ(t) =
.
1+t
136 / 174
Dann ist Λ(t) =
Rt
1
0 1+u
du = ln(1 + t) und daher
(ln(1 + t) − ln(1 + s))n
n!
1+t n
1 + s (ln( 1+s ))
=
.
1+t
n!
P(N(t) − N(s) = n) = eln(1+s)−ln(1+t)
Speziell gilt also
1 (ln(1 + t))n
.
P(N(t) = n) =
1+t
n!
137 / 174
In einem sehr kurzen Zeitintervall [t, t + h] ist die erwartete
Anzahl von Ereignissen gegeben durch
E[N(t + h) − N(t)] ≈ λ(t) · h + o(h).
Dann ist
d
E[N(t)] = λ(t)
dt
und damit
Satz 4.19 Für den inhomogenen Poisson-Prozess ergibt
sich die erwartete Anzahl von Ereignissen als
Z t
E[N(t)] =
λ(u) du = Λ(t).
0
138 / 174
Beispiel 4.20
Es sei N(t) die Anzahl der Anfragen von Internetnutzern an
einem Server.
Die Intensität (Ankünfte/Zeit) sei abhängig von der Tageszeit
und den Wochentagen. In der Woche gibt es mehr Anfragen
als am Wochenende, Nachts ist die Intensität geringer:
λ(t) = 3 + 2 cos(2πt) − cos(2πt/7)
139 / 174
Es ist
E[N(t)] = Λ(t) = 3t +
1
7
sin(2πt) −
sin(2πt/7)
π
2π
140 / 174
Es gilt immer noch
N(t) ≥ n ⇔ Tn ≤ t
und daher
P(Tn ≤ t) = e−Λ(t)
∞
X
Λ(t)k
k =n
k!
.
Daraus ergibt sich der Erwartungswert
Z ∞
E[Tn ] =
P(Tn > t) dt
0
Z
∞
(1 − e
=
−Λ(t)
0
Z
k =n
∞
e
=
0
∞
X
Λ(t)k
−Λ(t)
n−1
X
Λ(t)k
k =0
k!
k!
) dt
dt.
141 / 174
4.12. Zusammengesetzte Poisson-Prozesse, Waldsche
Gleichung
Manchmal ist es sinnvoll zu jedem Ereigniszeitpunkt Tn
eines Poisson-Prozesses (homogen oder inhomogen) jeweils
auch eine zufällige Größe Zn zu betrachten, die unabhängig
vom Poisson-Prozess ist
Zn kann z.B. ein Gewinn, eine Strafe, die Erdbebenstärke
(oder freigewordene Energie) oder die Schadenshöhe sein.
Wir gehen davon aus dass die Zufallsvariablen Z1 , Z2 , . . .
unabhängig von X1 , X2 , . . . und identisch verteilt sind (man
könnte die Bedingungen noch allgemeiner fassen).
142 / 174
PN(t)
Man wird sich dann für die Gesamtsumme S(t) = k =1 Zk
interessieren.
Wenn N(t) = N eine feste (deterministische) Größe wäre,
ergäbe sich für den Erwartungswert von S(t)
N
X
E[S(t)] = E[
Zk ] = E[Z1 ] · N.
k =1
Gilt eine ähnliche Gleichung auch für unseren Fall?
Satz 4.21 (Waldsche Gleichung) Es gilt für einen inhomogenen zusammengesetzten Poisson-Prozess
E[S(t)] = E[Z1 ]Λ(t),
d.h. dass der Erwartungswert von S(t) proportional zu Λ(t)
ist.
143 / 174
Beispiel 4.22
Eine Versicherung rechnet mit einer zeitlich wachsenden
Zahl von Schäden der zufälligen Höhe Z1 , Z2 , . . .. Ein
entsprechendes Modell sieht einen inhomogenen
Poisson-Prozess mit Intensitätsfunktion
1
λ(t) = 1 −
1+t
vor. Also ergibt sich
Λ(t) = t − ln(1 + t).
144 / 174
Wir gehen ferner davon aus, dass die Schadenshöhen Zn
die Verteilungsfunktion


;z < 0
0
(15−3z)z 3
F (z) = P(Zn ≤ z) =
;0 ≤ z < 4
256


1
;4 ≤ z
besitzen.
Dann ist die Dichtefunktion gegeben durch
(
0
; z 6∈ [0, 4]
f (z) = 3 2
z (4 − z) ; z ∈ [0, 4]
64
145 / 174
Für den Erwartungswert berechnen wir
Z 4
3
E[Zn ] =
z z 2 (4 − z) dz
64
0
Z 4
3
=
4z 3 − z 4 dz
64 0
3 4 1 5 4 12
=
[z − z ]0 =
= 2.4
64
5
5
Für den Erwartungswert der Gesamtsumme S(t) =
der Schäden ergibt sich dann
E[S(t)] = E[Zn ]Λ(t)
= 2.4(t − ln(t)).
PN(t)
k =1
Zk
146 / 174
5. Brownsche Bewegung
5.1. Noch einmal Irrfahrten
Es sei Sn eine symmetrische einfache Irrfahrt:
n
X
1
Sn =
Xk , P(Xk = −1) = P(Xk = 1) = .
2
k =1
Wir betrachten den stochastischen Prozess
S[nt]
147 / 174
148 / 174
Es ist
E[S[nt] ] = 0
und
Var[S[nt] ] = [nt] · Var[X1 ] ≈ nt.
Für n → ∞ konvergiert die Verteilung von S[nt] nicht gegen
eine interessante Verteilung.
Daher betrachten wir
S[nt]
Bn (t) = √
n
Dann ist
E[Bn (t)] = 0
und
Var[Bn (t)] ≈ t.
149 / 174
n=5000
n=50000
150 / 174
Für n → ∞ konvergiert nach dem zentralen Grenzwertsatz
die Verteilung von Bn (t) gegen eine Normalverteilung mit
Varianz t:
√
P(Bn (t) ≤ x) → Φ(x/ t).
Der ’Grenzprozess’ B(t) = limb→∞ Bn (t) hat folgende
Eigenschaften:
1. B(0) = 0 fast sicher,
2. B(t) is normalverteilt mit Erwartungswert 0 und Varianz t.
3. B(t) hat unabhängige Zuwächse: B(t2 ) − B(t1 ) und
B(s2 ) − B(s1 ) sind unabhängig, wenn s1 ≥ t2 ist.
4. B(t) hat stationäre Zuwächse. B(t2 ) − B(t1 ) hat diesselbe
Verteilung wie B(s2 ) − B(s1 ), wenn t2 − t1 = s2 = s1 ist.
Definition 5.1 Ein Prozess mit solchen Eigenschaften
heißt Brownsche Bewegung
151 / 174
Simulation von 5 Brownschen Bewegungen
152 / 174
5.2. Eigenschaften der Brownschen Bewegung
Weitere Eigenschaften:
B(t) ist fast sicher stetig,
I B(t) ist fast sicher nirgendwo differenzierbar (!)
B(t + h) − B(t)
1
Var[
]= .
h
h
I
I
I
I
B(t) − B(s) ist Normalverteilt mit Erwartungswert 0 und
Varianz t − s,
B(t) ist ein Markov-Prozess: Für t, h > 0 gilt
P(B(t + h) ∈ A|B(s), s ∈ [0, t]) = P(B(t + h) ∈ A|B(t)).
Übergangswahrscheinlichkeit für t > s:
P(B(t) ≤ x|B(s) = y ) = P(B(t − s) ≤ x − y )
x −y
= Φ( √
).
t −s
153 / 174
Die Kovarianzfunktion Cov[B(t), B(s)] ist für t > s gegeben
durch
Cov[B(t), B(s)] = E[B(t)B(s)] − E[B(t)]E[B(s)]
= E[B(t)B(s)]
= E[(B(t) − B(s))B(s)] + E[B(s)2 ]
= E[(B(t) − B(s))]E[B(s)] + Var[B(t)]
= s.
Dann ist allgemein
Cov[B(t), B(s)] = min{s, t}.
154 / 174
5.3. Treffzeit, einseitig
Wir definieren die Treffzeit
T (a) = inf{t > 0|B(t) = a}.
155 / 174
Wir interessieren uns für die stochastischen Eigenschaften
von T (a): Wie lautet die Verteilung, der Erwartungswert, die
Varianz von T (a) in Abhängigkeit von a?
Es gilt für a ≥ 0:
P(B(t) ≥ a) = P(B(t) ≥ a|T (a) ≤ t)P(T (a) ≤ t)
+P(B(t) ≥ a|T (a) > t)P(T (a) > t)
= P(B(t) ≥ a|T (a) ≤ t)P(T (a) ≤ t)
= P(B(t − T (a)) ≥ 0)P(T (a) ≤ t)
1
=
P(T (a) ≤ t).
2
Satz 5.2 Es gilt für die Verteilung der Treffzeit T (a):
√
P(T (a) ≤ t) = 2(1 − Φ(|a| / t)), t > 0.
(Inverse Gaussverteilung)
156 / 174
Damit gilt also
Z ∞
u2
2
e− 2 du
P(T (a) ≤ t) = √
√
2 |a|/ t
r Z
2 ∞ − u2
e 2t du, t > 0.
=
t |a|
Die zugehörige Wahrscheinlichkeitsdichte ist dann
a2
d
|a|
e− 2t .
P(T (a) ≤ t) = √
dt
2πt 3/2
Daraus ergibt sich:
E[T (a)2 ] = ∞,
Var[T (a)2 ] = ∞,
E[T (a)] = ∞.
157 / 174
5.4. Maximumprozess
Sei jetzt
M(t) = sup{B(s), s ∈ [0, t]}.
158 / 174
Es gilt
M(t) ≥ a ⇔ T (a) ≤ t
also
P(M(t) ≥ a) = P(T (a) ≤ t)
√
= 2(1 − Φ(|a| / t)).
Satz 5.3 Für den Maximumprozess M(t) gilt
√
P(M(t) ≤ a) = 2Φ(|a| / t) − 1.
159 / 174
5.5. Treffzeit, beidseitig
Sei nun
T (a, b) = inf{t > 0|B(t) = −a oder B(t) = b}.
160 / 174
Man kann (mit sog. Martingalen) zeigen, dass
E[B(T (a, b))] = 0
E[B(T (a, b))2 ] = E[T (a, b)]
gelten.
Dann ergibt sich
0 = E[B(T (a, b))]
= E[B(T (a, b))|B(T (a, b)) = −a] · P(B(T (a, b)) = −a)
+E[B(T (a, b))|B(T (a, b)) = b] · P(B(T (a, b)) = b)
= −a · P(B(T (a, b)) = −a) + b · (1 − P(B(T (a, b)) = −a).
Also ist
a · P(B(T (a, b)) = −a) = b − bP(B(T (a, b)) = −a)
und demnach
b
a
P(B(T (a, b)) = −a) =
, P(B(T (a, b)) = b) =
.
a+b
a+b
161 / 174
Außerdem ist
E[T (a, b)]
= E[B(T (a, b))2 |B(T (a, b)) = −a] · P(B(T (a, b)) = −a)
+E[B(T (a, b))2 |B(T (a, b)) = b] · P(B(T (a, b)) = b)
b
a
= a2 ·
+ b2 ·
a+b
a+b
= a · b.
Satz 5.4 Für die Brownsche Bewegung gilt
a
b
P(B(T (a, b)) = −a) =
, P(B(T (a, b)) = b) =
a+b
a+b
und
E[T (a, b)] = a · b.
162 / 174
5.6. Verhalten der Pfade für wachsendes t
Wir wissen schon: B(t) erreicht fast sicher irgendwann
jeden Wert a ∈ R (P(T (a) < ∞) = 1).
Daraus folgt (fast sicher):
lim sup B(s) = ∞, lim inf B(s) = −∞
t→∞ s≤t
t→∞ s≤t
Weil B(t) stetig ist folgt insbesondere, dass für jedes T > 0,
B(t) unendlich viele Nullstellen hat für t > T .
163 / 174
5.7. Weitere Konstruktionen
Folgende stochastischen Prozesse sind auch Brownsche
Bewegungen:
1. A(t) = B(s + t) − B(s) (das ist klar),
2. C(t) = aB(t/a2 ) mit a 6= 0 (z.B. B(−t)),
3. D(t) = tB(1/t) (mit D(0) = 0).
Insbesondere ergibt sich, dass für jedes ε > 0, die
Brownsche Bewegung D(t) = tB(1/t) unendlich viele
Nullstellen hat für 0 < t < ε.
164 / 174
5.8. Die Brownsche Brücke
Die Brownsche Brücke R(t) kann man durch
R(t) = B(t) − tB(1)
definieren.
Eigenschaften:
1. R(0) = R(1) = 0,
2. R(t) ist fast sicher stetig,
3. R(t) hat eine Normalverteilung mit E[R(t)] = 0 und
Var[R(t)] = t(1 − t).
165 / 174
6. Die geometrische Brownsche Bewegung
6.1. Definition
Für die Modellierung von Aktienkursen ist B(t) nicht sehr
geeignet, weil B(t) auch negative Werte annimmt (sogar
irgendwann fast sicher).
Auß erdem sind die relativen Zuwächse
B(t2 )/B(t1 )
weder unabhängig noch stationär.
Stattdessen könnte man eB(t) betrachten:
Definition 6.1 Der Prozess
σ2
S(t) = S(0) · e(µ− 2 )t+σB(t)
heißt geometrische Brownsche Bewegung (GBB).
Dabei treten zwei Parameter auf: µ ∈ R (die Drift) und
σ > 0 (die Volatilität).
166 / 174
GBB mit µ ∈ {−1.5, −1, −0.5, 0, 0.5, 1, 2} und σ = 1.0
GBB mit µ = 0.8 und σ ∈ {0, 0.25, 0.5, 0.75, 1.0}
167 / 174
6.2. Eigenschaften
Es ist
E[S(t)] = S0 eµt
und
2
Var[S(t)] = S02 e2µt eσ t − 1 .
Die Verteilungsfunktion (Lognormalverteilung) läßt sich wie
folgt berechnen:
P(S(t) ≤ x) = P(S(0) · e(µ−
σ2
)t+σB(t)
2
≤ x)
log(x/S0 ) − (µ −
= P(B(t) ≤
σ
log(x/S ) − (µ − σ2 )t 0
2
√
= Φ
.
σ t
σ2
)t
2
)
168 / 174
Relativer Zuwachs (Anlagenrendite):
σ2
2
S(t2 )
S(0) · e(µ− 2 )t2 +σB(t2 )
(µ− σ2 )(t2 −t1 )+σ(B(t2 )−B(t1 ))
=
=
e
.
σ2
S(t1 )
S(0) · e(µ− 2 )t1 +σB(t1 )
Unabhängige relative Zuwächse: S(t2 )/S(t1 ) und
S(s2 )/S(s1 ) sind unabhängig, wenn [t1 , t2 ] und [s1 , s2 ] disjunkt
sind.
Stationäre relative Zuwächse: S(t + h)/S(t) und
S(s + h)/S(s) besitzen die gleiche Verteilung.
Es gilt
log(x) − (µ − σ2 )(t − t ) S(t2 )
2
1
2
√
≤ x) = Φ
.
P(
S(t1 )
σ t2 − t1
169 / 174
Beispiel 6.2
Ein Aktienkurs werde durch eine GBB modelliert. Dabei sei
µ = 0.1 und σ = 0.3. Es sei S0 = 6.0 der Kurs zu Anfang des
Jahres.
Wie groß ist die Wahrscheinlichkeit, dass die Rendite nach
einem Jahr größer als 10% ist?
170 / 174
Es ergibt sich
S(1)
S(1)
P(
> 1.1) = 1 − P(
≤ 1.1)
S(0)
S(0)
log(1.1) − (µ − σ2 ) 2
= 1−Φ
σ
= 1 − Φ(0.14531)
= Φ(−0.14531)
≈ 0.4443.
Die Wahrscheinlichkeit beträgt etwa 44 Prozent.
Der Mittelwert für die Rendite beträgt
E[S(1)/S(0)] = E[S(1)]/S(0) = e0.1 = 1.10517,
also etwa 10.5 %.
171 / 174
6.3. Optionspreise
Es beschreibe S(t) den Kurs einer Aktie.
Eine europäische Verkaufsoption auf eine Aktie erlaubt
zu einem festen Zeitpunkt T (Fälligkeit) den Verkauf zu einem
Preis K (Ausübungspreis). Der Verkauf ist optional.
Ausgezahlt wird also zum Zeitpunkt T :
(K − S(t))+ = max{K − S(T ), 0}
Preis C der Option:
C = e−rT E[max{K − S(T ), 0}],
wo r der Zins (Kalkulationszins) ist.
172 / 174
Den Optionsreis
C = e−cT E[max{K − S(T ), 0}]
kann man ausrechnen, da die Verteilung von S(T ) ja bekannt
ist:
Z K
−rT
(K − s) dFS(T ) (s) = . . .
C=e
−∞
(Rechnung ist etwas komplizierter)
Es ergibt sich dann die berühmte
Satz 6.3 (Black-Scholes-Formel)
(r + σ2 )T − log(K /S ) 0
2
√
C = S0 · Φ
σ T
(r + σ2 )T − log(K /S )
√ 0
2
√
− Ke−rT Φ
−σ T .
σ T
173 / 174
Beispiel 6.4
Es sei ein Aktienkurs S(t) gegeben mit S0 = 45, µ = 0.3 und
σ = 0.5. Es sei T = 2.0, K = 80 und r = 1.1.
Hier ist S(2.0) = 106 und damit max{0, K − S(t)} = 26
174 / 174
Dann ergibt sich ein Optionspreis von
(r + σ2 )T − log(K /S ) 0
2
√
C = S0 · Φ
σ T
(r + σ2 )T − log(K /S )
√ 0
2
√
−Ke−rT Φ
−σ T
σ T
= 45 · Φ − 0.177292 − 65.4985 · Φ − 0.884
= 7.004
175 / 174
Herunterladen