Kapitel 2, Stochastische Prozesse

3. STOCHASTISCHE PROZESSE
73
3. Stochastische Prozesse
3.1. Grundlegende Begriﬀe bei zufälligen Prozessen. In diesem Abschnitt beschäftigen wir uns mit den grundlegenden Begriﬀen und Deﬁnitionen von Zufallsexperimenten, also Prozessen, bei denen der Ausgang im Rahmen gewisser Möglichkeiten ungewiß oder zufÄllig ist, die aber bei Beibehaltung gewisser Rahmenbedingungen beliebig oft
wiederholt werden können und damit einer systematischen und mathematischen Beschreibung zugänglich sind.
Zum Einstieg ist es sinnvoll, zunächst nur eine diskrete und endliche Menge von möglichen
Ausgängen zu betrachten, da hier die Mathematisierung verständlicher dargestellt werden
kann.
Definition 2.54. Ein endlicher Ergebnisraum ist eine nichtleere Menge Ω = {ξ1 , . . . , ξn },
deren Elemente ξj ∈ Ω Ergebnisse genannt werden. Jede Teilmenge A ⊂ Ω wird als
Ereignis, jede einelementige Teilmenge {ξj } ⊂ Ω als Elementarereignis bezeichnet.
Nach dieser Deﬁnition sind der Ergebnisraum Ω selbst sowie die leere Menge ∅ stets Ereignisse, die man das sichere bzw. unmögliche Ereignis nennt. Gleichzeitig folgt, dass die
Menge aller Ereignisse gerade die Potenzmenge P(Ω) von Ω ist, also die Menge aller Teilmengen von Ω und für die Mächtigkeit von P(Ω) gilt die Beziehung
�
n �
�
n
|P(Ω)| =
= 2n
j
j=0
Da Ereignisse gerade als Elemente der Potenzmenge deﬁniert sind, lassen sich Ereignisse
nach den Regeln der Mengenlehre verknüpfen.
Beispiel 2.55. Gilt A ⊂ B, so ist A ein Teilereignis von B; zwei Ereignisse A und B sind
gleich, falls A ⊂ B und B ⊂ A gilt. Das entgegengesetzte Ereignis ist
Ā = {ξ ∈ Ω : ξ ∈
/ A}
was man in der Mengenlehre auch als Negation oder das Komplement von A bezeichnet.
Definition 2.56. Sind A und B Ereignisse und gilt AB = A ∩ B = ∅, so heißen A und
B disjunkt oder unvereinbar.
Betrachtet man nun ein durch Ω und P(Ω) beschriebenes Zufallsexperiment und führt man
m unabhängige Wiederholungen durch, so kann man zählen, wie of ein Ereignis A ∈ P(Ω)
als Ergebnis der m Wiederholungen eintritt.
Definition 2.57. Tritt ein Ereignis A ∈ P(Ω) bei m unabhängigen Versuchen hm (A)–mal
ein, so nennt man hm (A) die absolute Häuﬁgkeit und
Hm (A) =
hm (A)
m
die relative Häuﬁgkeit von A in m Versuchen.
Man veriﬁziert leicht, dass die relative Häuﬁgkeit Hm (A) die folgenden Eigenschaften
besitzt:
74
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
1) Für alle A ∈ P(Ω) gilt: 0 ≤ Hm (A) ≤ 1,
2) Es gilt: Hm (Ω) = 1,
3) Für alle A, B ∈ P(Ω) mit AB = ∅ gilt:
Hm (A ∪ B) = Hm (A) + Hm (B)
Man kommt damit zur Deﬁnition des Laplaceschen Zufallsexperiments und dem folgenden
Wahrscheinlichkeitsbegriﬀ.
Definition 2.58. Sind in einem endlichen Ergebnisraum alle Elementarereignisse gleich
häuﬁg, so nennt man das zugehörige Zufallsexperiment ein Laplacesches Zufallsexperiment. Die Wahrscheinlichkeit des Ereignisse A ist dann gegeben durch
Anzahl der Elementarereignisse {ξj } ⊂ A
P (A) =
Gesamtzahl der Elementarereignisse
Zufallsexperimente, die us kombinatorischen Überlegungen beruhen, lassen sich mit Hilfe
der Laplaceschen Deﬁnition einer Wahrscheinlichkeit mathematisch und beschreiben und
wir geben dazu nur ein konkretes Beispiel.
Beispiel 2.59. Eine Urne enthält n (bis auf die Farbe) gleiche Kugeln, von denen m rot
und n − m weiß sind. Aus der Urne werden zufällig k Kugeln gezogen. Wie groß ist die
Wahrscheinlichkeit dafür, dass unter
� den
� k Kugeln l rote und k − l weiße sind?
n
Zunächst kann man k Kugel auf
verschiedene Arten aus n Kugeln auswählen, d.h.
k
�
�
n
ist die Gesamtzahl der Elementarereignisse des oben formulierten Zufallsexperik
�
�
m
ments. Aus m roten Kugeln können l auf
verschiedene Arten ausgewählt werden;
l
�
�
n−m
k − l weiße aus n − m vorhandenen auf genau
Arten. Für die Laplacesche
k−l
Wahrscheinlichkeit folgt dann
�
��
�
m
n−m
l
k−l
�
�
Pk =
n
k
was man auch als hypergeometrische Verteilung bezeichnet.
Es ist oﬀensichtlich, dass man sich bei der stochastischen Modellierung nicht allein auf
endliche Ergebnisräume Ω mit gleichwahrscheinlichen Elementarereignissen beschränken
kann.
Dies führt auf eine Deﬁnition der Wahrscheinlichkeit für allgemeine (endliche, abzählbar
und überabzählbar unendliche) Räume, wie sie 1933 von Kolmogorov10 auf axiomatischem
Weg eingeführt wurde.
10Andrej Nikolaevich Kolmogorov, russischer Mathematiker, 25. April 1903 in Tambov, 20. Oktober
1987 in Moskau
3. STOCHASTISCHE PROZESSE
75
Eine Schwierigkeit, die bei der mathematischen Formulierung auftaucht, ist dabei, dass
bei überabzählbar unendlichen Ergebnisräumen auch überabzählbar viele Elementarereignisse auftreten und man daher Probleme hat, jedem Elementarereignis eine positive
Wahrscheinlichkeit zuzuordnen.
Man beschränkt sich daher darauf, Wahrscheinlichkeiten nur für gewisse Teilmengen der
Potenzmenge P(Ω) zu deﬁnieren. Diese Teilmengen sich durch den Begriﬀ einer σ–Algebra
charakterisiert.
Definition 2.60. Ein nichtleeres System B von Teilmengen eines Ergebnisraums Ω heißt
σ–Algebra über Ω, wenn gilt:
1)
2)
A ∈ B ⇒ Ā ∈ B
An ∈ B, n = 1, 2, . . . ⇒
∞
�
n=1
An ∈ B
Der Gesamtraum Ω und die leere Menge ∅ sind stets Elemente einer σ–Algebra: nach 1)
folgt aus A ∈ B auch Ā ∈ B und weiter gilt A ∩ Ā = Ω ∈ B und demnach Ω̄ = ∅ ∈ B.
Abzählbare Durchschnitte von Elementen aus B sind ebenfalls wieder Elemente von B,
d.h. es gilt
∞
�
An ∈ B, n = 1, 2, . . . ⇒
An ∈ B
n=1
Man kann aus jeder Teilmenge M ⊂ P(Ω) auf eindeutige Weise eine σ–Algebra B = B(M )
konstruieren, die man als die von M erzeugte σ–Algebra bezeichnet. Diese σ–Algebra
B(M ) ist auch die kleinste σ–Algebra, die die Ausgangsmenge M selbst enthÄlt, d.h. es
gilt:
1) M ⊂ B(M )
2) Ist B � eine σ–Algebra, die M enthält, so gilt B(M ) ⊂ B �
Für einen endlichen Ergebnisraum Ω = {ξ1 , . . . , ξn } ist die Potenzmenge P(Ω) oﬀensichtlich eine σ–Algebra. Ein weiteres eichtiges Beispiel für eine σ–Algebra ist die durch die
halboﬀenen Intervalle I = (a, b] ⊂ R erzeugte σ–Algebra über den Ergebnisraum Ω = R,
die auch Borelsche σ–Algebra genannt wird.
Mit Hilfe des Begriﬀs σ–Algebra läßt sich jetzt durch die Kolmogorovschen Axiome eine
Verallgemeinerung der Laplaceschen Wahrscheinlichkeit für allgemeine Räume deﬁnieren.
Definition 2.61. Gegeben seien ein Ereignisraum Ω und eine geeignete σ–Algebra B über
Ω, sodass die Elemente von B die Ereignisse eines Zufallsexperimentes deﬁnieren. Weiter
sei P eine Funktion, die jedem Ereignis A ∈ B eine reelle Zahl zuordnet und die folgenden
Bedingungen (Kolmogorovschen Axiome) erfüllt:
A1) Für alle A ∈ B gilt: P (A) ≥ 0
A2) Es gilt: P (Ω) = 1
A3) Für paarweise disjunkte Ereignisse An ∈ B, n = 1, 2, . . . gilt:
�∞
�
∞
�
�
P
An =
P (An )
n=1
n=1
76
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Dann nennt man P (A) die Wahrscheinlichkeit des Ereignisse A.
Um nun ein gegebenes Zufallexperiment mit Hilfe eines mathematischen Modells zu beschreiben verwendet man einen Wahrscheinlichkeitsraum (Ω, B, P ) bestehend aus dem
Ereignisraum Ω, einer σ–Algebra aus Teilmengen von Ω und eine Wahrscheinlichkeitsfuntkion P : B → R≥0 .
Satz 2.62. Es gilt stets
1)
P (∅) = 0
2)
P (Ā) = 1 − P (A)
3)
P (A ∪ B) = P (A) + P (B) − P (AB)
Beweis. Da die leere Menge ein Element von B ist, ist P (∅) wohldeﬁniert und aus
A1) aus Deﬁnition 2.61 folgt
P (∅) ≥ 0
Sei nun A �= ∅ ein Element von B. Dann gilt A ∪ ∅ = A ∈ B und A ∩ ∅ = ∅ ∈ B. Aus der
Bedingung A3) erhalten wir demnach
P (A) = P (A ∪ ∅) = P (A) + P (∅)
und daher P (∅) = 0.
Für Teil 2) bemerken wir, dass aus A ∪ Ā = ∅ und A ∩ Ā = Ω unter Verwendung von A2)
und A3) folgt:
1 = P (Ω) = P (A ∩ Ā) = P (A) + P (Ā)
und daher P (Ā) = 1 − P (A).
Für den letzten Teil des Satzes bemerken wir zunächst
A ∪ B = (AB̄) ∪ (AB) ∪ ĀB)
wobei die drei auf der rechten Seite stehenden Ereignisse paarweise disjunkt sind und
außerdem die Beziehungen
A = (AB) ∪ (AB̄)
B = (AB) ∪ (ĀB)
gelten. Aus A3) folgt demnach
P (A ∩ B) = P (AB̄) + P (AB) + P (ĀB)
P (A) = P (AB̄) + P (AB)
P (B) = P (AB) + P (ĀB)
Eine Kombination der drei Gleichungen ergibt aber
P (A ∩ B) = P (A) − P (AB) + P (AB) + P (B) − P (AB)
= P (A) + P (B) − P (AB)
�
3. STOCHASTISCHE PROZESSE
77
Bemerkung 2.63. Ein höchstens abzählbares System {An ∈ B : Ak An = ∅, k �= n} nennt
man auch eine vollständige Ergebnisdisjunktion, falls gilt
∞
�
An = Ω
n=1
Für ein solches System gilt wegen A2)
P
�
∞
�
An
n=1
�
=1
Weiter zeigt man mit Hilfe von A3) für zwei Elemente A, B ∈ B mit A ⊂ B die Abschätzung P (A) ≤ P (B).
Ein weiterer zentraler Begriﬀ bei der stochastischen Modellierung ist der Begriﬀ der bedingten Wahrscheinlichkeit.
Definition 2.64. Sei Ω, B, P ) ein Wahrscheinlichkeitsraum eines Zufallsexperimentes und
A, B ∈ B mit P (B) > 0 zwei Ereignisse. Dann nennt man
P (AB)
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
(2.70)
P (A|B) =
Die bedingte Wahrscheinlichkeit bewertet also das Eintreﬀen des Ereignisses A unter der
Voraussetzung, dass das Ereignis B mit Sicherheit passiert ist.
Beispiel 2.65. Wir betrachten ein Zufallsexperiment mit zwei Würfeln und fragen nach
der Wahrscheinlichekit zwei Sechsen zu werfen, unter der Bedingung, dass mit einem
Würfel eine Sechs gewürfelt wird. Der Ergebnisraum dieses Zufallsexperiments ist die
Menge
Ω = {(w1 , w2 ) : w1 , w2 ∈ {1, . . . , 6}}
das Ereignis A ⊂ Ω zwei Sechsen zu würfeln ist dann
und
A = {(6, 6)}
B = {(w1 , 6) : w1 ∈ {1, . . . , 6}}
beschreibt das Ergebnis, dass mit dem zweiten Würfel eine Sechs gewürfelt wird und mit
dem ersten eine beliebige Augenzahl zwischen 1 und 6. Nun gilt wegen A ⊂ B
1
P (A ∩ B) = P (A) =
36
und P (B) = 1/6. Daraus folgt
P (AB)
1
=
P (B)
6
Die Wahrscheinlichkeit, zwei Sechsen zu werfen, unter der Bedingung, dass mit einem der
Würfel eine gerade Augenzahl gewürfelt wird, sollte natürlich kleiner als 1/6 sein. Mit
P (A|B) =
C = {(w1 , w2 ) : w1 ∈ {1, . . . , 6}, w2 ∈ {2, 4, 6}}
78
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
ergibt sich
P (A|C) =
P (AC)
P (A)
1/36
1
=
=
=
P (C)
P (C)
1/2
18
Einige Eigenschaften und Folgerungen der bedingten Wahrscheinlichekit sind im Folgenden
kurz zusammengefasst:
1) Es gilt stets
P (A|B)P (B) = P (B|A)P (A)
d.h. im Allgemeinen P (A|B) �= P (B|A).
2) Setzen wir für festes B ∈ B
PB (A) = P (A|B)
so erfüllt PB die Kolmogorovschen Axiome aus Deﬁnition 2.61 und deﬁniert also
einen Wahrscheinlichkeitsraum (Ω, B, PB ). Insbesondere gilt: PB (Ω) = 1.
3) Die bedingte Wahrscheinlichkeit kann man dazu verwenden, um eine Multiplikationsregel für Wahrscheinlichkeiten zu deﬁnieren: aus (2.70) folgt
P (AB) = P (A|B)P (B)
beziehungsweise
(2.71)
P (AB) = P (B|A)P (A)
Mit Hilfe vollständiger Induktion beweist man ferner die Beziehung:


�
�
j−1
n
n
�
�
�
P
Aj  =
P Aj |
Ak
j=1
j=1
k=1
Eine Anwendung von (2.71) besprechen wir im folgenden Beispiel.
11
Beispiel 2.66. In einem Raum beﬁnden sich n Personen. Wie hoch ist die Wahrscheinlichkeit, dass mindestens 2 Personen im Raum am gleichen Tag Geburtstag haben? Um diese
Frage zu beantworten, müssen wir zunächst einige zusätzlichen Modellannahmen machen:
• wir vernachlässigen Schaltjahre, d.h. wir gehen davon aus, dass jedes Jahr 365
Tage hat,
• die Geburtstage der n Personen sind übers Jahr gleichverteilt, d.h. jeder Geburtstag besitzt diesselbe Wahrscheinlichkeit.
Sei A das Ereignis
A = {mindestens 2 Personen haben am gleichen Tag Geburtstag}
dann gilt natürlich für n > 365
P (A) = 1
Für n ≤ 365 nummerieren wir die n Personen durch und deﬁnieren die folgenden Ereignisse
A = {alle Personen haben an verschiedenen Tagen Geburtstag}
Aj
= {die j–te Person hat an einem anderen Tag als die j − 1 vorhergehenden Personen Geburtstag}
11siehe [15].
3. STOCHASTISCHE PROZESSE
79
Es folgt
P (A2 ) =
P (A3 |A2 ) =
364
365
363
365
..
.
365 − (n − 1)
365
Wegen A = A2 A3 · · · An folgt mit der Beziehung (2.71)
P (An |A2 A3 . . . An−1 ) =
und daraus
P (A) = P (A2 )P (A3 |A2 ) · · · P (An |A2 A3 . . . An−1 )
P (A) = 1 − P (A) = 1 −
364 · 363 · · · · · (365 − n + 1)
365n−1
Für verschiedene Werte von n erhält man:
n
10
20
23
30
50
100
P (A) 0.117 0.411 0.507 0.706 0.970 0.99999969
Satz 2.67. Die Ereignisse Ak , k = 1, . . . , n seien eine vollständige Ereignisdisjunktion
und es gelte P (Ak ) > 0 für alle k = 1, . . . , n. Dann folgt für jedes B ∈ B die Formel von
der totalen Wahrscheinlichkeit
n
�
P (B) =
P (B|Ak )P (Ak )
k=1
und falls P (B) > 0 die Formel von Bayes
P (Ak |B) =
P (B|Ak )P (Ak )
n
�
P (B|Ak )P (Ak )
k=1
Bemerkung 2.68. Man nennt die Wahrscheinlichkeiten P (Ak |B) die a–posteriori Wahrscheinlichkeiten, dagegen die P (Ak ) a–priori Wahrscheinlichkeiten.
Die bedingte Wahrscheinlichkeit P (A|B) gibt die Wahrscheinlichkeit für das Eintreten
des Ereignisses A an, unter der Bedingung, dass das Ereignis B sicher eingetreten ist. Im
allgemeinen gilt daher P (A) �= P (A|B). Gilt dagegen die Gleichheit, so ist das Eintreten
von A vollkommen unabhängig davon, ob B eingetreten ist oder nicht.
Definition 2.69. Gilt für A, B ∈ B
P (A|B) = P (A)
so nennt man A unabhängig von B.
Ist A unabhängig von B, so gilt für die Multiplikation
P (AB) = P (B)P (A|B) = P (A)P (B)
80
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
und daraus folgt direkt
P (A)P (B)
P (AB)
=
= P (B)
P (A)
P (A)
d.h. ist A unabhängig von B, so ist auch B unabhängig von A. Man sagt daher zusammenfassend, dass A und B voneinander unabhängig sind.
P (B|A) =
Beispiel 2.70. Ein klassisches Zufallsexperiment mit stochastisch unabhängigen Ereignissen ist das Ziehen–mit–Zurücklegen. So ist etwas die Wahrscheinlichkeit bei zweimaligen
Ziehen einer Karte aus einem Skatspiel, bei dem man die erste Karte nach dem Ziehen
wieder auf den Kartenstapel zurücklegt, zwei Asse zu ziehen gleich 1/64.
Definition 2.71. Die Ereignisse Ak ∈ B, k = 1, . . . , n, nennt man vollständig unabhängig, wenn für jede natürliche Zahl m ∈ {2, 3, . . . , n} und beliebige Zahlen 1 ≤ i1 <
i2 < · · · < im ≤ n gilt
�m
�
m
�
�
P
Ai k =
P (Aik )
k=1
k=1
3.2. Zufallsvariablen und Wahrscheinlichkeitsverteilungen. Zur analytischen
Beschreibung von Zufallsexperimenten ist es häuﬁg notwendig, jedem Ergebnis des Experimentes eine (reelle) Zahl zuzuordnen. Damit lassen sich viele Eigenschaften aus der
Analysis auf zufällige Prozesse übertragen. Eine Funktion, die einem Ergebnis eines zufälligen Prozesses eine reelle Zahl zuordnet, wird als eine Zufallsvariable bezeichnet.
Definition 2.72. Gegeben sei ein Wahrscheinlichkeitsraum (Ω, B, P ). Eine Funktion
X:Ω → R
ξ �→ X(ξ)
die jedem Ereignis ξ ∈ Ω eine reelle Zahl zuordnet, heißt Zufallsvariable, wenn das Urbild
eines jeden Intervalls (−∞, a] ⊂ R ein Ereignis aus B ist:
Die Funktion
X −1 ((−∞, a]) ∈ B
∀a ∈ R
F (x) := P (X ≤ x)
der reellen Variablen x heißt Verteilungsfunktion der Zufallsvariablen X.
Man überlegt sich leicht, dass Verteilungsfunktionen stets die folgenden Eigenschaften
besitzen:
a) Es gilt: F : R → [0, 1] und
lim F (x) = 0,
x→−∞
lim F (x) = 1
x→∞
b) Die Funktion F (x) ist monoton nichtfallend:
x1 ≤ x2
⇒
F (x1 ) ≤ F (x2 )
c) Die Verteilungsfunktion ist rechtsseitig stetig:
F (x + 0) = lim F (x + h) = F (x)
h→0
(∀ x ∈ R)
3. STOCHASTISCHE PROZESSE
81
Eine spezielle Klasse von Zufallsvariablen sind die stetigen Zufallsvariablen, für die man
die Verteilungsfunktion stets als ein Integral über eine Dichte darstellen kann.
Definition 2.73. Eine Zufallsvariable X nennt man eine stetige Zufallsvariable, falls eine
integrierbare, nicht–negative Funktion f mit
�x
F (x) =
f (x) dx
−∞
existiert. Die Funktion f = f (x) bezeichnet man als die Dichte der Zufallsvariablen.
Wir geben im folgenden einige wichtige Beispiele für stetige Zufallsvariablen und deren
zugehörige Dichten:
Beispiel 2.74. Die Dichte
f (x) =
�
1 : 0≤x<1
0 : sonst
beschreibt die sogenannte Gleichverteilung mod 1.
Die Dichte
� 2�
1
x
f (x) = √ exp
2
2π
ist die Dichte der Standardnormalverteilung.
Die Dichte
�
0
: x≤0
f (x) =
λe−λx : x > 0
mit λ > 0 beschreibt die Exponentialverteilung.
Wir kommen nun zur Deﬁnition der Momente einer Zufallsvariablen. Gegeben sei dazu
eine stetige Zufallsvariable X mit der Dichte f (x).
Definition 2.75. Existiert das uneigentliche Integral
�∞
E(X) :=
xf (x) dx
−∞
so nennt man E(X) den Erwartungswert oder auch Mittelwert der Zufallsvariablen. Existiert für k ∈ N das uneigentliche Integral
�∞
k
E(X ) :=
xk f (x) dx
−∞
so nennt man E(X k ) das k–te Moment der Zufallsvariablen X.
Definition 2.76. Der Erwartungswert
k
E([X − E(X)] ) =
�∞
−∞
(x − E(x))k f (x) dx
82
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
heißt k–tes zentrales Moment der Zufallsvariablen X.
Spezielle Momente haben eine besondere Bedeutung und werden daher entsprechend benannt:
D2 (X) = E([X − E(X)]2 ) = var(X)
nennt man Varianz oder auch Dispersion der Zufallsvariablen X. Der Term
�
D(X) = E([X − E(X)]2 )
ist die Standardabweichung der Zufallsvariablen X.
Charakteristische Funktion einer Zufallsvariablen:
Definition 2.77. Der Erwartungswert
ϕ(s) := E(eisX )
heißt charakteristische Funktion der Zufallsvariablen X.
Satz 2.78. Existiert das k–te Moment einer Zufallsvariablen X, so gilt
ϕ(k) (0)
(k = 1, 2, . . . )
ik
Bemerkung 2.79. Man beachte den Zusammenhang zur Fourier–Transformation:
�∞
�∞
1
isx
e−isx ϕ(s) ds
ϕ(s) =
e f (x) dx
f (x) =
2π
E(X k ) =
−∞
−∞
Wir kommen nun zu einigen typischen Wahrscheinlichkeitsverteilungen, die häuﬁg bei der
Modellierung stochastischer Prozesse verwendet werden.
Zunächst betrachten wir die sogenannte Zweipunktverteilung: gegeben sei dazu eine Zufallsvariable, die nur zwei unterschiedliche Werte x1 < x2 mit positiver Wahrscheinlichkeit
annehmen kann.
Ist dann
P (X = x1 ) = p P (X = x2 ) = 1 − p
(0 < p < 1)
so folgt für die oben angegebenen Kenngrößen der Zweipunktverteilung:

 0 : x < x1
p : x 1 ≤ x < x2
F (x) =

1 : x ≥ x2
E(X) = p x1 + (1 − p) x2
D2 (X) = (x2 − x1 )2 p (1 − p)
ϕ(s) = p eisx1 + (1 − p) eisx2
Betrachtet man bei einem Zufallsexperiment mit Zweipunktverteilung n voneinander unabhängige Wiederholungen und sei Xn die diskrete Zufallsvariable, die angibt wie oft der
Wert x1 angenommen wird, so gilt
�
�
n
P (Xn = k) =
pk (1 − p)n−k
(k = 0, . . . , n)
k
3. STOCHASTISCHE PROZESSE
83
Diese Verteilung bezeichnet man als Binomialverteilung und man berechnet
�� n �
pk (1 − p)n−k
F (x) =
k
k≤x
E(X) = n p
D2 (X) = n p (1 − p)
ϕ(s) = (1 + p (eis − 1))n
Mit Hilfe der Binomialverteilung läßt sich die sogenannte Poissonverteilung ableiten.
Definition 2.80. Eine Zufallsvariable X, die die Werte k = 0, 1, 2, . . . mit den Wahrscheinlichkeiten
λk −λ
P (X = k) =
e
(λ > 0)
k!
annimmt, nennt man poissonverteilt mit Parameter λ.
Der Zusammenhang zur Binomialverteilung wurde bereits 1837 von Poisson angegeben:
Satz 2.81. Die diskrete Zufallsvariable Xn genüge der Binomialverteilung. Gilt mit der
Konstanten λ < 0 für n = 1, 2, 3, . . . die Beziehung
λ
p=
n
so gilt
λk −λ
lim P (Xn = k) =
e
n→∞
k!
Hat man keine näheren Informationen über die Verteilungsfunktion einer Zufallsvariablen,
so nimmt man häuﬁg an, dass die Zufallsvariablen normalverteilt sind und die Normalverteilung kann damit als die wichtigste Verteilung der Wahrscheinlichkeitstheorie angesehen
werden.
Definition 2.82. Eine Zufallsvariable X ist normalverteilt (gaußverteilt), wenn ihre
Dichte durch
�
�
1
(x − µ)2
f (x) = √
exp −
(σ > 0)
2σ 2
2πσ
gegeben ist.
In der Tat können Zufallsvariablen, die durch eine additive Überlagerung einer großen
Zahl von unabhängigen zufälligen Ereignissen (Zufallsvariablen) entstehen, wobei jede der
einzelnen Zufallsvariablen einen im Verhältnis zur Gesamtsumme nur unbedeutenden Betrag liefert, als normalverteilt angesehen werden.
Von besonderen Interesse sind damit auch die Kenngrößen der Normalverteilung, die wir
im folgenden abgeben wollen: die Verteilungsfunktion der Normalverteilung ist gegeben
durch
�
�
�x
1
(t − µ)2
F (x) = √
exp −
dt
2σ 2
2πσ
−∞
84
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
die sich mit Hilfe der Gaußschen Fehlerfunktion erf (x) auch in der Form
F (x) =
=
1 2
·√
2
π
√
(x−µ)/(
� 2σ)
1 1
+ erf
2 2
2
e−t dt
−∞
�
x−µ
√
2σ
�
darstellen läßt, wobei die Fehlerfunktion (wie in Abschnitt 2.2 bereits angegeben) über die
Formel
�x
2
2
erf (x) = √
e−t dt
π
0
deﬁniert ist.
Für den Erwartungswert einer normalverteilten Zufallsvariablen berechnet man
�
�
�x
1
(t − µ)2
√
dt = µ
E(X) =
t · exp −
2σ 2
2πσ
−∞
und die Varianz ist gegeben durch
D2 (X) = σ 2
Das k–te zentrale Moment lautet
�
1 · 3 · · · · · (k − 1) σ k : falls k gerade
k
E((x − µ) ) =
0
: falls k ungerade
und die charakteristische Funktion ist gegeben durch
�
�
(σs)2
isµ
ϕ(s) = e exp −
2
Für N (µ; σ 2 )–verteilte Zufallsvariablen gilt als eine weitere vor allem in Anwendungen
wichtige Eigenschaft:
P (µ − σ < X ≤ µ + σ) ≈ 0.68
P (µ − 2σ < X ≤ µ + 2σ) ≈ 0.955
P (µ − 3σ < X ≤ µ + 3σ) ≈ 0.997
d.h. praktisch alle Werte von X liegen zwischen µ − 3σ und µ + 3σ.
Der Begriﬀ Zufallsvariable läßt sich auf Zufallsvariablen X : Ω → Rd erweitern, d.h. es
lassen sich auch mehrdimensionale Zufallsvariablen deﬁnieren.
Definition 2.83. Die Funktion
F (x1 , . . . , xd ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xd ≤ xd )
einer mehrdimensionalen Variablen X heißt Verteilungsfunktion von X.
3. STOCHASTISCHE PROZESSE
85
Die Dichte einer zweidimensionalen Zufallsvariablen berechnet sich zum Beispiel über
f (x1 , x2 ) =
∂2
F (x)
∂x1 ∂x2
Definition 2.84. Für eine zweidimensionale Zufallsvariablen X mit der Dichte f (X) =
f (x1 , x2 ) sind die Randdichten von X gegeben durch
�∞
fX1 (x1 ) =
f (x1 , x2 ) dx2
fX2 (x2 ) =
−∞
�∞
f (x1 , x2 ) dx1
−∞
Die Randdichten sind gerade die Dichten der Komponenten des Zufallsvektors X = (X1 , X2 )T .
Bemerkung 2.85. Bei der Deﬁnition der Randdichten wird die Zufälligkeit einer der
beiden Komponenten durch Integration über diese eliminiert.
Definition 2.86. Man nennt
fX1 (x1 |X2 = x2 ) =
f (x1 , x2 )
fX2 (x2 )
die bedingte Dichte von X1 unter der Bedingung X2 = x2 und
fX2 (x2 |X1 = x1 ) =
f (x1 , x2 )
fX1 (x1 )
die bedingte Dichte von X2 unter der Bedingung X1 = x1 .
Definition 2.87. Zwei Zufallsvariablen heißen unabhängig, falls
f (x, y) = fX (x) · fY (y)
Definition 2.88. Für die beiden Zufallsvariablen X und Y nennt man den Ausdruck
cov(X, Y ) = E{(X − µX )(Y − µY )}
die Kovarianz von X und Y .
Erwartungswerte von zweidimensionalen Zufallsvariablen sind dabei deﬁniert durch
�∞ �∞
E{g(X, Y )} =
g(x, y)f (x, y) dxdy
−∞ −∞
Der Korrelationskoeﬃzient von X und Y ist deﬁniert durch
ρX,Y
= ρ(X, Y ) = �
=
cov(X, Y )
D2 (X)D2 (Y )
E{(X − µX )(Y − µY )}
σX σY
86
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Beispiel 2.89. Wir betrachten die beiden normierten Zufallsvariablen
X − µX
Y − µY
X̃ =
Ỹ =
σX
σY
und deﬁnieren für t ∈ R die zusammengesetzte Zufallsvariable
Z = tX̃ + Ỹ
Der Erwartungswert von Z ist gleich Null und für die Varianz gilt
D2 (Z) = E{(tX̃ + Ỹ )2 } = t2 + 2tρX,Y + 1 ≥ 0
Demnach gilt für alle t ∈ R:
(t + ρX,Y )2 + (1 − ρ2X,Y ) ≥ 0
Daraus folgt aber für den Korrelationskoeﬃzienten ρX,Y
−1 ≤ ρX,Y ≤ 1
Bemerkung 2.90. Der Korrelationskoeﬃzient gibt an, wie ähnlich zwei Zufallsvariablen
sind:
1) Gilt ρX,Y , so nennt man die beiden Zufallsvariablen X und Y unkorreliert
2) Für |ρX,Y | = 1, so sind X und Y maximal korreliert.
3) Unabhängige Zufallsvariablen sind stets unkorreliert. Die Umkehrung gilt aber
nicht!
4) Sind X und Y allerdings normalverteilt, so folgt aus ρX,Y die Unabhängigkeit
von X.
5) Sind X und Y unabhängig, so gilt zusätzlich cov(X, Y ) = 0 und
D2 (X + Y ) = D2 (X) + D2 (Y )
E(X · Y ) = E(X) · E(Y )
Ist die Wahrscheinlichkeit P (A) eines zufälligen Ereignisses A nicht bekannt, so kann
durch ein Zufallsexperiment mit Hilfe der relativen Häuﬁgkeit Hn (A) ein Schätzwert für
die Wahrscheinlichkeit P (A) bestimmt werden. Umgekehrt kann man sich fragen, wie weit
bei einem Zufallsexperiment mit n unabhängigen Wiederholungen die relative Häuﬁgkeit
Hn (A) von einer gegebenen Wahrscheinlichkeit P (A) des Ereignisse (im Mittel) abweicht.
Diese Fragen werden durch das Gesetz der großen Zahlen und die Grenzwertsätze der
Wahrscheinlichkeitstheorie beantwortet.
Wir formulieren hier nun die beiden grundlegenden Sätze, nämlich das Bernoullisches
Gesetz der großen Zahlen (siehe 2.91) und den zentralen Grenzwertsatz (siehe 2.92)
Satz 2.91. Ist X1 , X2 , . . . eine Folge von unabhängigen, identisch verteilter Zufallsvariablen mit
P (Xn = 1) = p, P (Xn = 0) = 1 − p
(0 < p < 1)
so gilt für alle ε > 0
�
�
�� n
�
�1 �
�
�
X k − p� < ε = 1
lim P �
n→∞
�
�n
k=1
3. STOCHASTISCHE PROZESSE
87
Satz 2.92. X1 , X2 , . . . sei eine Folge unabhängiger, identisch verteilter Zufallsvariablen
mit
dann gilt mit Sn =
n
�
k=1
E(Xn ) = m < ∞
D2 (Xn ) = d2 < ∞
Xk für jedes x ∈ R
lim P
n→∞
�
Sn − nm
√
≤x
nd
�
1
=√
2π
�x
−∞
y2
exp −
2
�
�
dy
3.3. Grundlagen stochastischer Prozesse. Stochastische Prozesse sind kurzgesagt Familien von Zufallsvariablen X(t), die durch einen Parameter t ∈ T gekennzeichnet
sind, wobei man T auch als Parameterraum des stochastischen Prozesses bezeichnet. Ausgangspunkt ist dabei ein Wahrscheinlichkeitsraum (Ω, B, P ). Der Parameter t übernimmt
die Rolle einer Zeitvariablen und wir unterscheiden dabei grundsätzlich zwischen diskreten
und kontinuierlichen stochastischen Prozessen.
1) Diskrete stochastische Prozesse sind solche, bei denen der Indexparameter t nur
diskrete Werte annehmen kann
2) Kontinuierliche stochastische Prozesse sind durch eine kontinuierliche Zeitvariable
t ∈ R parametrisiert.
Ein stochastischer Prozess ist also zusammenfassend durch zwei Parameter induziert:
1) Zu jedem festen Zeitpunkt t0 ∈ T ist Xt0 (ξ) = X(t0 , ξ) eine Zufallsvariable, also
Xt0 : Ω → R
ξ �→ Xt0 (ξ)
2) Wird das Ereignis ξ ∈ Ω festgehalten und betrachtet die Abhängigkeit von der
Zeit t ∈ T , so nennt man die Zeitfunktion X(t, ξ0 ) eine Realisierung oder Pfad
des Prozesses. Man spricht auch von der sogenannten Musterfunktion.
Im Allgemeinen ist die Anzahl aller möglichen Pfade eines stochastischen Prozesses (überabzählbar) unendlich groß.
Ein klassisches Beispiel für einen stochastischen Prozess ist ein sogenannte Warteschlange:
zu zufälligen Zeitpunkten treﬀen Kunden vor einem Schalter ein und fordern eine Bedienung, die eine bestimmte zufällige Abfertigungszeit erfordert. Eine solche Warteschlange
kann nun durch einen stochastischen Prozess X(t), der die Anzahl der zur Zeit t wartenden Kunden angibt, mathematisch modelliert werden. Die Theorie der Warteschlangen,
d.h. die Beschreibung mit Hilfe eines stochastischen Prozesses, stellt damit eine Methode
bereit, um wichtige Kenngrößen, wie z.B. die mittlere Wartezeit eines Kunden oder den
Auslastungsgrad des Schalters, zu ermitteln.
Ein typische Anwendung der Theorie der Warteschlangen ﬁndet man in der Informatik:
bei einem Betriebssystem eines Computers kann der Zugriﬀ auf den Prozessor durch ein
Warteschlangensystem beschrieben werden. Aus den theoretischen Analysen des Modells
kann der mittlere Durchsatz und die mittlere Wartezeit berechnet werden.
88
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Ein weiteres wichtiges Anwendungsbeispiel ist die Nachrichtenübertragung: eine Signalquelle erzeuge zufällige digitale Sendesymbole X ∈ {−3, −1, 1, 3} und die Wahrscheinlichkeiten P (X) bestimmen die Verteilung der Zufallsvariablen X. Der zugehörige stochastische Prozess kann dann folgendermaßen konstruiert werden: die Signalquelle erzeugt eine
Nachricht {Xn }∞
n=0 als Sequenz der Sendesymbole Xn (Modulationssymbole):
∞
�
x(t) =
xn · X[nT,(n+1)T ) (t)
n=0
mit der charakteristischen Funktion
X[a,b) (t) =
�
1 : t ∈ [a, b)
0 : sonst
Wir versuchen nun stochastische Prozesse anhand einiger charakteristischer Eigenschaften
zu beschreiben und zu klassiﬁzieren. Dazu betrachten wir zunächst n diskrete Zeitpunkte
{t1 , t2 , . . . , tn } und die zugehörigen Zufallsvariablen {X(t1 ), X(t2 ), . . . , X(tn )} des vorgegebenen stochastischen Prozesses.
Die Zufallsvariablen {X(t1 ), X(t2 ), . . . , X(tn )} sind dann durch ihre gemeinsame Dichte
f (xt1 , xt2 , . . . , xtn ) charakterisiert und man kann den Begriﬀ Stationarität mit Hilfe der
gemeinsamen Dichte deﬁnieren.
Definition 2.93. Ein stochastischer Prozess X(t) heißt streng oder stark stationär, falls
für alle n ∈ N und für alle τ, t1 , t2 , . . . , tn ∈ R gilt:
f (xt1 +τ , xt2 +τ , . . . , xtn +τ ) = f (xt1 , xt2 , . . . , xtn )
d.h. die n–dimensionalen Dichtefunktionen sind invariant gegenüber Zeitverschiebungen.
Hält man nun die Zeitvariable fest, i.e. t = tn , so lassen sich Scharmittelwerte eines
stochastischen Prozesses deﬁnieren:
Definition 2.94. Die Größe
k
E{X (tn )} =
�∞
xktn f (xtn ) dxtn
−∞
nennt man k–tes Moment der Zufallsvariablen X(tn ) und bezeichnet die Größe auch als
einen Scharmittelwert.
Scharmittelwerte hängen also in der Regel vom Zeitpunkt tn ab. Man beachte aber, dass
bei stark stationären Prozessen die Momente nicht zeitabhängig sind.
Definition 2.95. Die Funktion
ϕXX = E{X(t1 )X(t2 )} =
�∞ �∞
xt1 xt2 f (xt1 , xt2 ) dxt1 dxt2
−∞ −∞
heißt Autokorrelationsfunktion des stochastischen Prozesses X(t).
Die folgenden Bemerkungen folgen direkt aus den oben angegebenen Deﬁnitionen.
3. STOCHASTISCHE PROZESSE
89
1) Bei stark stationären Prozessen gilt stets
ϕXX (t1 , t2 ) = ϕXX (t2 − t1 ) = ϕXX (τ )
2) Die Autokorrelationsfunktion ϕXX ist für stark stationäre Prozesse stets eine
gerade Funktion.
Definition 2.96. Einen stochastischen Prozeß mit einem konstanten Erwartungswert, für
den die Autokorrelationsfunktion die Bedingung
ϕXX (t1 , t2 ) = ϕXX (t2 − t1 ) = ϕXX (τ )
erfüllt, nennt man (schwach) stationär.
Bei – sowohl stark als auch schwach – stationären stochastischen Prozessen nennt man
den Ausdruck
ϕXX (0) = E{X(t)2 }
die mittlere Leistung des Prozesses.
Bemerkung 2.97. Stark stationäre Prozesse sind auch stets schwach stationär, aber die
Umkehrung gilt nicht.
Definition 2.98. Die Funktion
cXX (t1 , t2 ) = E{(X(t1 ) − µ(t1 ))(X(t2 ) − µ(t2 ))}
= ϕXX (t1 , t2 ) − µ(t1 )µ(t2 )
mit µ(tn ) = E{X(tn )}, n = 1, 2 nennt man Autokovarianzfunktion des stochastischen
Prozesses X(t).
Bei stationären stochastischen Prozessen vereinfacht sich die Autokovarianzfunktion von
X(t) zu
cXX (t1 , t2 ) = cXX (t2 − t1 ) = cXX (τ ) = ϕXX (τ ) − µ2
Neben den Scharmittelwerte sind Zeitmittelwerte typische Kenngrößen eines stochastischen Prozesse. Dies erhält man, in dem man für einen vorgebenen Pfad eines stochastischen Prozesses Kenngrößen über die Zeit mittelt. Desweiteren kann über Zeitmittelwerte
der Begriﬀ der Ergodizität deﬁniert werden.
Definition 2.99. Es seien g : R → R eine reellwertige Funktion und x(t) ein Pfad des
stark stationären Prozesses X(t). Dann nennt man den Ausdruck
1
g[x(t)] := lim
T →∞ 2T
�T
g[x(t)] dt
−T
zeitlichen Mittelwert der Realisierung x(t) bezüglich der Funktion g.
Beispiel 2.100. Für g = id erhält man den Mittelwert des Pfads, also
1
m = x(t) = lim
T →∞ 2T
�T
−T
x(t) dt
90
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Definition 2.101. Der stark stationäre stochastische Prozess X(t) heißt ergodisch bezüglich
g, wenn der Erwartungswert E{g(X(t))} existiert und die Beziehung
g[x(t)] = E{g(X(t))}
erfüllt ist, d.h. Zeitmittelwert eines beliebigen Pfades stimmen mit dem Erwartungswert
der Zufallsvariablen g[X(t)] überein.
Ergodische Prozesse sind nun wie folgt deﬁniert: der stark stationäre stochastische Prozess
X(t) ist ergodisch, wenn alle seine statistischen Eigenschaften aus einer einzigen Realisierung x(t) abgeleitet werden können. In der Tat ist die Berechnung von Zeitmittelwerten
nur für ergodische Prozesse überhaupt sinnvoll.
Scharmittelwerte bei ergodischen Prozessen lassen sich nun wie folgt berechnen: sei x(t)
ein beliebiger Pfad des ergodischen Prozesses X(t). Dann ist
1) das k–te Moment gegeben durch
m
(k)
1
= lim
T →∞ 2T
�T
xk (t) dt
−T
2) die Autokorrelationsfunktion
1
ϕXX (τ ) = lim
T →∞ 2T
�T
x(t)x(t + τ ) dt
−T
3) die Autokovarianzfunktion
1
cXX (τ ) = lim
T →∞ 2T
�T
(x(t) − m(1) )(x(t + τ ) − m(1) ) dt
−T
Zum Abschluß dieses Abschnittes geben wir noch zwei Beispiele zu speziellen stochastischen Prozessen. Zunächst untersuchen wir das sogenannte weiße Gaussche Rauschen.
Ein Gaußprozess ist ein spezieller stochastischer Prozess X(t), für den die Zufallsvariable {X(t1 ), X(t2 ), . . . , X(tn )} für jedes n ∈ N und t1 , t2 , . . . , tn ∈ R eine n–dimensionale
Normalverteilung besitzt, d.h. der Zufallsvektor besitzt die Dichte
�
�
1
1
√
f (x1 , x2 , . . . , xn ) =
exp − (x − µ)T C −1 (x − µ)
2
(2π)n/2 det C
mit der Kovarianzmatrix C.
Weißes Gaußches Rauschen ist ein mittelwertfreier, stationärer Gaußprozess mit einem
konstanten Leistungsdichtespektrum
�∞
ϕXX (τ )e−i2πsτ dτ = konstant
∀s ∈ R
−∞
In der Warteschlangentheorie wird die Ankunft neuer Kunden fast ausschließlich mit Hilfe
eines Poissonprozesses modelliert: der stochastische Prozess X(t) beschreibe die Anzahl
3. STOCHASTISCHE PROZESSE
91
der wartenden Kunden. Gegeben sei ein ∆t ∈ R und wir machen die folgenden Modellannahmen:
1) Die Wahrscheinlichkeit dafür, dass in einem Intervall der Länge ∆t ein neuer
Kunde ankommt ist proportional zu ∆t.
2) Die Wahrscheinlichkeit dafür, dass in einem Intervall der Länge ∆t ein neuer
Kunde ankommt hängt nicht von der Lage des Intervalls ab.
3) Der Ankunftsprozess ist gedächtnislos: das Eintreﬀen in einem Intervall der Länge
∆t unabhängig vom Eintreﬀen anderer Kunden in vergangenen oder zukünftigen
Intervallen.
Die Modellannahmen führen auf den Poissonprozess, d.h. unter der Annahme X(0) = 0
gilt für X(t), t ≥ 0
(λt)k −λt
P {X(t) = k} =
e
k!
Die Eigenschaften des Poissonprozesses lassen sich kurz zusammenfassen:
a) der Erwartungswert ist E{X(t)} = λt, d.h. der Poissonprozess ist nichtstationär.
b) die Varianz ergibt sich zu D2 {X(t)} = λt.
c) die mittlere Ankunftsrate der Kunden ist λ = E{X(t)}/t und es gilt
D{X(t)}
1
=√
E{X(t)}
λt
d.h. für λt � 1 ist die Verteilung um den Erwartungswert λt konzentriert.
d) Es gilt
P {X(t) = 0} = e−λt
d.h. die Wahrscheinlichkeit dafür, dass kein Kunde ankommt geht exponentiell
mit t gegen Null.
e) Die Zeitdiﬀerenz T zwischen zwei aufeinanderfolgenden Ankunftszeitpunkten ist
wieder eine Zufallsvariable, die nur nichtnegative Werte annehmen kann.
Weiter ist die Zeitdiﬀerenz exponentialverteilt, d.h. die Dichte von T ist gegeben
durch
�
0
: τ ≤0
fT (τ ) =
λe−λτ : τ > 0
Weiter gilt
1
1
E{T } =
D2 {T } = 2
λ
λ
3.4. Markoﬀprozesse und Markoﬀketten. Bei einem stochastischen Prozess X(t)
stehen die beiden Zufallsvariablen X(t1 ) und X(t2 ) in einem bestimmten Zusammenhang.
Bei Markoﬀprozessen hat nun die Vergangenheit des Prozesses keinen Einﬂuß auf die
Zukunft, sofern der gegenwärtige Zustand bekannt ist:
Definition 2.102. Der stochastische Prozess X(t) heißt Markoﬀprozess, falls für alle
m, k ∈ N und beliebige Zeitpunkte tm−k < tm−k+1 < · · · < tm+1 gilt:
P {X(tm+1 ) ≤ xm+1 |X(tm ) ≤ xm , . . . , X(tm−k ) ≤ xm−k }
= P {X(tm+1 ) ≤ xm+1 |X(tm ) ≤ xm }
92
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Spezielle Markoﬀprozesse sind Prozesse mit diskreten Zuständen und Zeit, die sogenannten
Markoﬀketten.
Definition 2.103. Der zustands– und zeitdiskrete stochastische Prozess X(t) mit Parameterraum T = {t0 , t1 , . . . , } heißt Markoﬀkette, falls für alle m > 2 und i0 , i1 , . . . , im ∈ N
gilt:
P {X(tm+1 ) = im+1 |X(tm ) = im , . . . , X(t0 ) = i0 }
= P {X(tm+1 ) = im+1 |X(tm ) = im }
Markoﬀketten lassen sich durch ihre Übergangswahrscheinlichkeiten charakterisieren:
Definition 2.104. X(t) sei eine Markoﬀkette und tm , tm+k ∈ T . Dann nennt man die
bedingten Wahrscheinlichkeiten
P {X(tm+k ) = j|X(tm ) = i} = pij (tm , tm+k )
Übergangswahrscheinlichkeiten k–ter Stufe.
Ist die Zustandsmenge der Markoﬀkette endlich, also
X(t) ∈ {1, 2, . . . , n}
∀t ∈ T
so lassen sich die Übergangswahrscheinlichkeiten in einer Matrix anordnen


p11 (tm , tm+k ) · · · p1n (tm , tm+k )
 p21 (tm , tm+k ) · · · p2n (tm , tm+k ) 


P (tm , tm+k ) := 

..
..


.
.
pn1 (tm , tm+k ) · · ·
pnn (tm , tm+k )
Weiter nennt man eine Markoﬀkette homogen, wenn für beliebige Zustände i, j und beliebige Zeitpunkte tm , tm+1 die Übergangswahrscheinlichkeiten pij (tm , tm+1 ) = pij nicht von
der Zeit abhängen.
Im Folgenden sei X(t) eine homogene Markoﬀkette mit endlicher Zustandmenge Z. Die
Übergangsmatrix ist dann eine konstante Matrix


p11 · · · p1n
 p21 · · · p2n 


P :=  ..
.. 
 .
. 
pn1 · · · pnn
mit den nicht–negativen Einträgen pij ≥ 0.
Weiter ist für alle Zeilen die Zeilensumme von P gleich 1:
n
�
j=1
pij = 1
∀ i ∈ {1, 2, . . . , n}
denn ist der Prozess X(t) im Zustand i, so muß der Prozess in einen der endlich vielen
Zustände Z = {1, 2, . . . , n} übergehen.
3. STOCHASTISCHE PROZESSE
93
Definition 2.105. Eine (n × n)–Matrix P = (pij ), für deren Elemente
pij ≥ 0
∀ i, j ∈ Z
und
n
�
pij = 1
j=1
∀i ∈ Z
gilt, nennt man stochastische Matrix. Die Zeilenvektoren von P sind stochastische Vektoren.
Sei nun t ∈ N0 und
P {X(t) = i} = pi (t)
i = 1, 2, . . . , n
Wir können nun diese Wahrscheinlichkeiten in einem Zeilenvektor zusammenfassen:
p(t) = (p1 (t), p2 (t), . . . , pn (t))
Die Wahrscheinlichkeiten zum Zeitpunkt t + 1 ergeben sich dann zu
pj (t + 1) =
n
�
pij pi (t)
j = 1, 2, . . . , n
i=1
und für den kompletten Zeilenvektor ergibt sich
p(t + 1) = p(t) · P
Eine wiederholte Anwendung liefert die Formel
p(t + k) = p(t) · P k
und mit dem Startwert p(0) ergibt sich insbesondere die Darstellung
p(k) = p(0) · P k
Man beachte, dass die Matrix P k natürlich wiederum eine stochastische Matrix ist.
Homogene Markoﬀketten lassen sich auch man als bewertete Graphen interpretieren.
Definition 2.106. Ein gerichteter Graph ist ein Mengenpaar (BG , Fg ), wobei BG �= ∅
eine Zustandsmenge und FG ⊆ BG × BG eine Menge von Übergängen darstellt. Wir jedem
Übergang eine Übergangswahrschinlichkeit pij mit den Eigenschaften
�
pij = 1
0 ≤ pij ≤ 1
j
erhält man einen bewerteten Graphen, der auch als auch Übergangsgraph der homogenen
Markoﬀkette bezeichnet wird.
Eine homogene Markoﬀkette ist dann eine Irrfahrt auf einem bewerteten Graphen.
Definition 2.107. Eine Zustand i einer homogenen Markoﬀkette heißt absorbierend, falls
gilt
pii = 1
Die Menge R der absorbierenden Zustände nennt man den Rand der Markoﬀkette, die
Menge Z − R die Menge der inneren Zustände.
94
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Eine Markoﬀkette nennt man absorbierend, wenn R �= ∅ gilt und der Rand R von jedem
inneren Zustand aus erreichbar ist. Für absorbierende Markoﬀketten gilt der nachfolgende
Satz über das Grenzverhalten von Irrfahrten.
Satz 2.108. Für eine absorbierende Markoﬀkette endet die Irrfahrt in einem Zustand des
Randes.
Wichtige Fragen im Zusammenhang mit dem letzten Satz sind dann: wie groß ist die
Wahrscheinlichkeit dafür, dass eine Irrfahrt in einer Teilmenge U ⊂ R des Randes endet
und was ist die mittlere Dauer der Irrfahrt bis zur Absorption am Rand R. Diese Fragen
werden in den Übungen zur Vorlesung behandelt.
3.5. Pseudozufallszahlen und stochastische Simulation. Wir zitieren zunächst
aus dem im Jahr 2003 im Vieweg Verlag erschienenen Buch Stochastik für Einsteiger von
Norbert Henze, der folgende Interpretation des Begriﬀs Simulation stochastischer Prozesse
formuliert:
Die Simulation (von lateinisch simulare: ähnlich machen, nachahmen) stochastischer Vorgänge im Computer ist ein wichtiges Werkzeug zur Analyse von Zufallsphänomenen, welche
sich aufgrund ihrer Komplexität einer analytischen Behandlung entziehen. Beispiele hierfür
sind Lagerhaltungsprobleme mit komplizierter zufallsabhängiger Nachfrage, die möglichst
naturgetreue Nachbildung von Niederschlagsmengen an einem Ort im Jahresverlauf oder
das ,,Durchspielen” von Verkehrsabläufen mit zufällig ankommenden Autos an einer Ampelkreuzung.
Eine Nachbildung des Zufalls im Computer geschieht stets nach einem vorgegebenen stochastischen Modell, wobei das Ziel die Gewinnung von Erkenntnissen über einen realen
Zufallsvorgang unter Einsparung von Zeit und Kosten ist. So könnte der Simulation des
Verkehrsablaufes an einer Kreuzung der Wunsch zugrunde liegen, die Ampelschaltung
so einzurichten, dass die mittlere Wartezeit der ankommenden Fahrzeuge möglichst kurz
wird.
Bausteine für die stochastische Simulation sind sogennante gleichverteilte Pseudozufallszahlen, die von Pseudozufallszahlengeneratoren erzeugt werden. Das im Folgenden nur der
Kürze halber weggelassene Präﬁx Pseudo soll betonen, dass die durch Aufrufen von Befehlen oder Drücken von Tasten wie Random, RAN oder Rd bereitgestellten Zufallszahlen
nur zufällig erzeugt scheinen.
Wir formulieren nun einen ersten Algorithmus zur Erzeugung von Pseudozufallszahlen,
der auf John von Neumann zurückgeht:12
Gegeben sei die Zahl
x0 = 0.9876
Wir quadrieren die Zahl und erhalten x20 = 0.97535376. Aus der Zahlendarstellung entnehmen wir nun die mittleren vier Dezimalstellen und setzen
x1 = 0.5353
12John von Neumann, amerikanischer Mathematiker, östr.–ungar. Herkunft, 1903–1957,wirkte in Ber-
lin, Hamburg und Princeton (N.J.)
3. STOCHASTISCHE PROZESSE
95
Das Quadrat von x1 ergibt x21 = 0.28654609 und wir setzen daher
x2 = 0.6546
Eine weitere Anwendung dieses Prinzips ergibt:
x3 = 0.8501,
x4 = 0.2670,
x5 = 0.1289
Auf den ersten Blick sehen die Zahlen in der Tat wieder Pseudozufallszahlen aus, die die
Gleichverteilung mod 1 auf dem Einheitsintervall [0, 1] approximieren. Eine genauere Untersuchung der Zahlenfolge zeigt aber, dass diese Methode mehr kleine Zahlen erzeugt als
gewünscht ist.
Ein häuﬁg verwendeter Zufallsgenerator zur Erzeugung von Pseudozufallszahlen auf dem
Einheitsintervall ist der sogenannte lineare Kongruenzgenerator: gegeben seien die nichtnegativen ganzen Zahlen
m : Modul
a : Faktor
b : Inkrement
zo : Anfangswert
Das iterative lineare Kongruenzschema ist dann gegeben durch
zj+1 = a · zj + b (mod m)
(j = 0, 1, 2, . . . )
Aufgrund der Operation modulo m gilt stets
0 ≤ zj ≤ m − 1
(j = 0, 1, 2, . . . )
und durch die Normierung
zj
m
liefert das Schema eine Folge x0 , x1 , . . . im Einheitsintervall.
xj =
Beispiel 2.109. Wir betrachten die Zahlen
m = 100, a = 18, b = 11, z0 = 40
Dann folgt:
z1 = 18 · 40 + 11 = 731 = 31 (mod 100)
z2 = 18 · 31 + 11 = 569 = 69 (mod 100)
z3 = 18 · 69 + 11 = 1253 = 53 (mod 100)
und damit
x0 = 0.4, x1 = 0.31, x2 = 0.69, x3 = 0.53
Berechnet man die nächsten Folgenglieder erhält man allerdings
z4 = 65, z5 = 81, z6 = 69 = z2
d.h. nach zwei Schritten laufen wir in die Periode 69, 53, 65, 81 der Länge 4. Damit ist
dieser Kongruenzgenerator vollkommen ungeeignet.
96
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Es ist leicht einsichtig, dass ein linearer Kongruenzgenerator aufgrund der oben angegebenen Rekursionsvorschrift eine maximale Periodenlänge besitzt und diese wegen
zj ∈ {0, 1, . . . , m − 1}
(j = 0, 1, 2, . . . )
gerade durch die Zahl m gegeben ist, d.h. in praktischen Anwendungen sollte daher m
möglichst groß wählen.
Im Fall b ≥ 1 wird diese Länge genau dann erreicht, wenn folgende Bedingungen erfüllt
sind:
• Das Inkrement b ist teilerfremd zu m.
• Jede Primzahl, die m teilt, teilt auch a − 1.
• Ist m durch 4 teilbar, so muss auch a − 1 durch 4 teilbar sein.
Beispiel 2.110. Das lineare Kongruenzschema
zj+1 = zj + 1 (mod m)
besitzt die maximale Periodenlänge m. Man überlegt sich aber direkt, dass die dadurch
erzeugte Zahlenfolge kaum als “zufällig erzeugt” angesehen werden kann.
Eine weitere prinzipielle Schwäche linearer Kongruenzgeneratoren ist deren Gitterstruktur. Faßt man aufeinanderfolgende Punkte der Folge zu d–Tupeln zusammen, d.h. man
betrachtet die d–dimensionalen Vektoren (xi , xi+1 , . . . , xi+d−1 ), i ≥ 0, so läßt sich leicht
zeigen, dass diese stets auf einem Gitter im d–dimensionalen Raum Rd liegen.
Beispiel 2.111. Der lineare Kongruenzgenerator mit den Parametern
m = 256,
a = 25,
b=1
und
z0 = 1
erzeugt die nachfolgend dargestellte Punktmenge im Einheitsquadrat.
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Abbildung 2.7: Gitterstruktur des linearen Kongruenzgenerators mit den Parametern
m = 256, a = 25 und b = 1.
3. STOCHASTISCHE PROZESSE
97
Ein historisches Beispiel, das die Schwäche der linearen Kongruenzgeneratoren klarmacht,
ist der Anfang der 60er Jahre des letzten Jahrhunders von der Computerﬁrma IBM eingeführte Zufallsgenerator randu mit den Parametern
m = 231 ,
a = 65539,
b=0
Dieser Pseudo–Zufallszahlengenerator besitzt die Periode 229 , erzeugt aber 229 Tripel
(xi , xi+1 , xi+2 ), die auf nur 15 (!) Ebenen im R3 liegen. Diese Eigenschaft wurde erst
sehr viel später entdeckt und nach Bekanntwerden von der IBM umgehend korrigiert.
Bei großen Modulen m und relativ wenigen Punktepaaren ist der Gittereﬀekt häuﬁg nicht
sichtbar: die Parameter m = 224 , a = 54667, b = 1 und z0 = 1 erzeugen die 250 Punktepaare (x0 , x1 ), (x2 , x3 ), . . . , (x498 , x499 ), aus denen eine Gitterstruktur nicht erkennbar ist.
Zum Abschluss kommen wir zu einer theoretischen Beschreibung der Gitterstruktur: Für
festes d ≥ 2 betrachten wir die Spaltenvektoren
Zi = (zi , zi+1 , . . . , zi+d−1 )T ,
Durch Induktion zeigt man zunächst
0≤i<m
zi+s − zi = as (zi − z0 ) (mod m),
Für die entsprechenden Spaltenvektoren ergibt

1

 a

Zi − Z0 = (zi − z0 )  .
 ..

ad−1
sich daraus

i, s ≥ 0



 (mod m),


i≥0
wobei die Kongruenz modulo m komponentenweise anzuwenden ist.
Nach der Deﬁnition einer Kongruenzrelation gilt dann aber:




1
k1




 a 
 k2 




Zi − Z0 = (zi − z0 )  .  + m  .  ,
i≥0
 .. 
 .. 




ad−1
kd
mit ganzen Zahlen k1 , k2 , . . . , kd .
Dann ist aber Z1 − Z0 eine ganzzahlige Linearkombination der d Vektoren

 



1
0
0

 

 . 
 a   m 
 . 

 

 . 
 . , . ,...,

 ..   .. 
 0 

 



ad−1
0
m
und diese Vektoren deﬁnieren ein Gitter, auf dem alle Vektoren Zi − Z0 liegen.