3. STOCHASTISCHE PROZESSE
73
3. Stochastische Prozesse
3.1. Grundlegende Begriffe bei zufälligen Prozessen. In diesem Abschnitt beschäftigen wir uns mit den grundlegenden Begriffen und Definitionen von Zufallsexperimenten, also Prozessen, bei denen der Ausgang im Rahmen gewisser Möglichkeiten ungewiß oder zufÄllig ist, die aber bei Beibehaltung gewisser Rahmenbedingungen beliebig oft
wiederholt werden können und damit einer systematischen und mathematischen Beschreibung zugänglich sind.
Zum Einstieg ist es sinnvoll, zunächst nur eine diskrete und endliche Menge von möglichen
Ausgängen zu betrachten, da hier die Mathematisierung verständlicher dargestellt werden
kann.
Definition 2.54. Ein endlicher Ergebnisraum ist eine nichtleere Menge Ω = {ξ1 , . . . , ξn },
deren Elemente ξj ∈ Ω Ergebnisse genannt werden. Jede Teilmenge A ⊂ Ω wird als
Ereignis, jede einelementige Teilmenge {ξj } ⊂ Ω als Elementarereignis bezeichnet.
Nach dieser Definition sind der Ergebnisraum Ω selbst sowie die leere Menge ∅ stets Ereignisse, die man das sichere bzw. unmögliche Ereignis nennt. Gleichzeitig folgt, dass die
Menge aller Ereignisse gerade die Potenzmenge P(Ω) von Ω ist, also die Menge aller Teilmengen von Ω und für die Mächtigkeit von P(Ω) gilt die Beziehung
�
n �
�
n
|P(Ω)| =
= 2n
j
j=0
Da Ereignisse gerade als Elemente der Potenzmenge definiert sind, lassen sich Ereignisse
nach den Regeln der Mengenlehre verknüpfen.
Beispiel 2.55. Gilt A ⊂ B, so ist A ein Teilereignis von B; zwei Ereignisse A und B sind
gleich, falls A ⊂ B und B ⊂ A gilt. Das entgegengesetzte Ereignis ist
Ā = {ξ ∈ Ω : ξ ∈
/ A}
was man in der Mengenlehre auch als Negation oder das Komplement von A bezeichnet.
Definition 2.56. Sind A und B Ereignisse und gilt AB = A ∩ B = ∅, so heißen A und
B disjunkt oder unvereinbar.
Betrachtet man nun ein durch Ω und P(Ω) beschriebenes Zufallsexperiment und führt man
m unabhängige Wiederholungen durch, so kann man zählen, wie of ein Ereignis A ∈ P(Ω)
als Ergebnis der m Wiederholungen eintritt.
Definition 2.57. Tritt ein Ereignis A ∈ P(Ω) bei m unabhängigen Versuchen hm (A)–mal
ein, so nennt man hm (A) die absolute Häufigkeit und
Hm (A) =
hm (A)
m
die relative Häufigkeit von A in m Versuchen.
Man verifiziert leicht, dass die relative Häufigkeit Hm (A) die folgenden Eigenschaften
besitzt:
74
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
1) Für alle A ∈ P(Ω) gilt: 0 ≤ Hm (A) ≤ 1,
2) Es gilt: Hm (Ω) = 1,
3) Für alle A, B ∈ P(Ω) mit AB = ∅ gilt:
Hm (A ∪ B) = Hm (A) + Hm (B)
Man kommt damit zur Definition des Laplaceschen Zufallsexperiments und dem folgenden
Wahrscheinlichkeitsbegriff.
Definition 2.58. Sind in einem endlichen Ergebnisraum alle Elementarereignisse gleich
häufig, so nennt man das zugehörige Zufallsexperiment ein Laplacesches Zufallsexperiment. Die Wahrscheinlichkeit des Ereignisse A ist dann gegeben durch
Anzahl der Elementarereignisse {ξj } ⊂ A
P (A) =
Gesamtzahl der Elementarereignisse
Zufallsexperimente, die us kombinatorischen Überlegungen beruhen, lassen sich mit Hilfe
der Laplaceschen Definition einer Wahrscheinlichkeit mathematisch und beschreiben und
wir geben dazu nur ein konkretes Beispiel.
Beispiel 2.59. Eine Urne enthält n (bis auf die Farbe) gleiche Kugeln, von denen m rot
und n − m weiß sind. Aus der Urne werden zufällig k Kugeln gezogen. Wie groß ist die
Wahrscheinlichkeit dafür, dass unter
� den
� k Kugeln l rote und k − l weiße sind?
n
Zunächst kann man k Kugel auf
verschiedene Arten aus n Kugeln auswählen, d.h.
k
�
�
n
ist die Gesamtzahl der Elementarereignisse des oben formulierten Zufallsexperik
�
�
m
ments. Aus m roten Kugeln können l auf
verschiedene Arten ausgewählt werden;
l
�
�
n−m
k − l weiße aus n − m vorhandenen auf genau
Arten. Für die Laplacesche
k−l
Wahrscheinlichkeit folgt dann
�
��
�
m
n−m
l
k−l
�
�
Pk =
n
k
was man auch als hypergeometrische Verteilung bezeichnet.
Es ist offensichtlich, dass man sich bei der stochastischen Modellierung nicht allein auf
endliche Ergebnisräume Ω mit gleichwahrscheinlichen Elementarereignissen beschränken
kann.
Dies führt auf eine Definition der Wahrscheinlichkeit für allgemeine (endliche, abzählbar
und überabzählbar unendliche) Räume, wie sie 1933 von Kolmogorov10 auf axiomatischem
Weg eingeführt wurde.
10Andrej Nikolaevich Kolmogorov, russischer Mathematiker, 25. April 1903 in Tambov, 20. Oktober
1987 in Moskau
3. STOCHASTISCHE PROZESSE
75
Eine Schwierigkeit, die bei der mathematischen Formulierung auftaucht, ist dabei, dass
bei überabzählbar unendlichen Ergebnisräumen auch überabzählbar viele Elementarereignisse auftreten und man daher Probleme hat, jedem Elementarereignis eine positive
Wahrscheinlichkeit zuzuordnen.
Man beschränkt sich daher darauf, Wahrscheinlichkeiten nur für gewisse Teilmengen der
Potenzmenge P(Ω) zu definieren. Diese Teilmengen sich durch den Begriff einer σ–Algebra
charakterisiert.
Definition 2.60. Ein nichtleeres System B von Teilmengen eines Ergebnisraums Ω heißt
σ–Algebra über Ω, wenn gilt:
1)
2)
A ∈ B ⇒ Ā ∈ B
An ∈ B, n = 1, 2, . . . ⇒
∞
�
n=1
An ∈ B
Der Gesamtraum Ω und die leere Menge ∅ sind stets Elemente einer σ–Algebra: nach 1)
folgt aus A ∈ B auch Ā ∈ B und weiter gilt A ∩ Ā = Ω ∈ B und demnach Ω̄ = ∅ ∈ B.
Abzählbare Durchschnitte von Elementen aus B sind ebenfalls wieder Elemente von B,
d.h. es gilt
∞
�
An ∈ B, n = 1, 2, . . . ⇒
An ∈ B
n=1
Man kann aus jeder Teilmenge M ⊂ P(Ω) auf eindeutige Weise eine σ–Algebra B = B(M )
konstruieren, die man als die von M erzeugte σ–Algebra bezeichnet. Diese σ–Algebra
B(M ) ist auch die kleinste σ–Algebra, die die Ausgangsmenge M selbst enthÄlt, d.h. es
gilt:
1) M ⊂ B(M )
2) Ist B � eine σ–Algebra, die M enthält, so gilt B(M ) ⊂ B �
Für einen endlichen Ergebnisraum Ω = {ξ1 , . . . , ξn } ist die Potenzmenge P(Ω) offensichtlich eine σ–Algebra. Ein weiteres eichtiges Beispiel für eine σ–Algebra ist die durch die
halboffenen Intervalle I = (a, b] ⊂ R erzeugte σ–Algebra über den Ergebnisraum Ω = R,
die auch Borelsche σ–Algebra genannt wird.
Mit Hilfe des Begriffs σ–Algebra läßt sich jetzt durch die Kolmogorovschen Axiome eine
Verallgemeinerung der Laplaceschen Wahrscheinlichkeit für allgemeine Räume definieren.
Definition 2.61. Gegeben seien ein Ereignisraum Ω und eine geeignete σ–Algebra B über
Ω, sodass die Elemente von B die Ereignisse eines Zufallsexperimentes definieren. Weiter
sei P eine Funktion, die jedem Ereignis A ∈ B eine reelle Zahl zuordnet und die folgenden
Bedingungen (Kolmogorovschen Axiome) erfüllt:
A1) Für alle A ∈ B gilt: P (A) ≥ 0
A2) Es gilt: P (Ω) = 1
A3) Für paarweise disjunkte Ereignisse An ∈ B, n = 1, 2, . . . gilt:
�∞
�
∞
�
�
P
An =
P (An )
n=1
n=1
76
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Dann nennt man P (A) die Wahrscheinlichkeit des Ereignisse A.
Um nun ein gegebenes Zufallexperiment mit Hilfe eines mathematischen Modells zu beschreiben verwendet man einen Wahrscheinlichkeitsraum (Ω, B, P ) bestehend aus dem
Ereignisraum Ω, einer σ–Algebra aus Teilmengen von Ω und eine Wahrscheinlichkeitsfuntkion P : B → R≥0 .
Satz 2.62. Es gilt stets
1)
P (∅) = 0
2)
P (Ā) = 1 − P (A)
3)
P (A ∪ B) = P (A) + P (B) − P (AB)
Beweis. Da die leere Menge ein Element von B ist, ist P (∅) wohldefiniert und aus
A1) aus Definition 2.61 folgt
P (∅) ≥ 0
Sei nun A �= ∅ ein Element von B. Dann gilt A ∪ ∅ = A ∈ B und A ∩ ∅ = ∅ ∈ B. Aus der
Bedingung A3) erhalten wir demnach
P (A) = P (A ∪ ∅) = P (A) + P (∅)
und daher P (∅) = 0.
Für Teil 2) bemerken wir, dass aus A ∪ Ā = ∅ und A ∩ Ā = Ω unter Verwendung von A2)
und A3) folgt:
1 = P (Ω) = P (A ∩ Ā) = P (A) + P (Ā)
und daher P (Ā) = 1 − P (A).
Für den letzten Teil des Satzes bemerken wir zunächst
A ∪ B = (AB̄) ∪ (AB) ∪ ĀB)
wobei die drei auf der rechten Seite stehenden Ereignisse paarweise disjunkt sind und
außerdem die Beziehungen
A = (AB) ∪ (AB̄)
B = (AB) ∪ (ĀB)
gelten. Aus A3) folgt demnach
P (A ∩ B) = P (AB̄) + P (AB) + P (ĀB)
P (A) = P (AB̄) + P (AB)
P (B) = P (AB) + P (ĀB)
Eine Kombination der drei Gleichungen ergibt aber
P (A ∩ B) = P (A) − P (AB) + P (AB) + P (B) − P (AB)
= P (A) + P (B) − P (AB)
�
3. STOCHASTISCHE PROZESSE
77
Bemerkung 2.63. Ein höchstens abzählbares System {An ∈ B : Ak An = ∅, k �= n} nennt
man auch eine vollständige Ergebnisdisjunktion, falls gilt
∞
�
An = Ω
n=1
Für ein solches System gilt wegen A2)
P
�
∞
�
An
n=1
�
=1
Weiter zeigt man mit Hilfe von A3) für zwei Elemente A, B ∈ B mit A ⊂ B die Abschätzung P (A) ≤ P (B).
Ein weiterer zentraler Begriff bei der stochastischen Modellierung ist der Begriff der bedingten Wahrscheinlichkeit.
Definition 2.64. Sei Ω, B, P ) ein Wahrscheinlichkeitsraum eines Zufallsexperimentes und
A, B ∈ B mit P (B) > 0 zwei Ereignisse. Dann nennt man
P (AB)
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
(2.70)
P (A|B) =
Die bedingte Wahrscheinlichkeit bewertet also das Eintreffen des Ereignisses A unter der
Voraussetzung, dass das Ereignis B mit Sicherheit passiert ist.
Beispiel 2.65. Wir betrachten ein Zufallsexperiment mit zwei Würfeln und fragen nach
der Wahrscheinlichekit zwei Sechsen zu werfen, unter der Bedingung, dass mit einem
Würfel eine Sechs gewürfelt wird. Der Ergebnisraum dieses Zufallsexperiments ist die
Menge
Ω = {(w1 , w2 ) : w1 , w2 ∈ {1, . . . , 6}}
das Ereignis A ⊂ Ω zwei Sechsen zu würfeln ist dann
und
A = {(6, 6)}
B = {(w1 , 6) : w1 ∈ {1, . . . , 6}}
beschreibt das Ergebnis, dass mit dem zweiten Würfel eine Sechs gewürfelt wird und mit
dem ersten eine beliebige Augenzahl zwischen 1 und 6. Nun gilt wegen A ⊂ B
1
P (A ∩ B) = P (A) =
36
und P (B) = 1/6. Daraus folgt
P (AB)
1
=
P (B)
6
Die Wahrscheinlichkeit, zwei Sechsen zu werfen, unter der Bedingung, dass mit einem der
Würfel eine gerade Augenzahl gewürfelt wird, sollte natürlich kleiner als 1/6 sein. Mit
P (A|B) =
C = {(w1 , w2 ) : w1 ∈ {1, . . . , 6}, w2 ∈ {2, 4, 6}}
78
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
ergibt sich
P (A|C) =
P (AC)
P (A)
1/36
1
=
=
=
P (C)
P (C)
1/2
18
Einige Eigenschaften und Folgerungen der bedingten Wahrscheinlichekit sind im Folgenden
kurz zusammengefasst:
1) Es gilt stets
P (A|B)P (B) = P (B|A)P (A)
d.h. im Allgemeinen P (A|B) �= P (B|A).
2) Setzen wir für festes B ∈ B
PB (A) = P (A|B)
so erfüllt PB die Kolmogorovschen Axiome aus Definition 2.61 und definiert also
einen Wahrscheinlichkeitsraum (Ω, B, PB ). Insbesondere gilt: PB (Ω) = 1.
3) Die bedingte Wahrscheinlichkeit kann man dazu verwenden, um eine Multiplikationsregel für Wahrscheinlichkeiten zu definieren: aus (2.70) folgt
P (AB) = P (A|B)P (B)
beziehungsweise
(2.71)
P (AB) = P (B|A)P (A)
Mit Hilfe vollständiger Induktion beweist man ferner die Beziehung:


�
�
j−1
n
n
�
�
�
P
Aj  =
P Aj |
Ak
j=1
j=1
k=1
Eine Anwendung von (2.71) besprechen wir im folgenden Beispiel.
11
Beispiel 2.66. In einem Raum befinden sich n Personen. Wie hoch ist die Wahrscheinlichkeit, dass mindestens 2 Personen im Raum am gleichen Tag Geburtstag haben? Um diese
Frage zu beantworten, müssen wir zunächst einige zusätzlichen Modellannahmen machen:
• wir vernachlässigen Schaltjahre, d.h. wir gehen davon aus, dass jedes Jahr 365
Tage hat,
• die Geburtstage der n Personen sind übers Jahr gleichverteilt, d.h. jeder Geburtstag besitzt diesselbe Wahrscheinlichkeit.
Sei A das Ereignis
A = {mindestens 2 Personen haben am gleichen Tag Geburtstag}
dann gilt natürlich für n > 365
P (A) = 1
Für n ≤ 365 nummerieren wir die n Personen durch und definieren die folgenden Ereignisse
A = {alle Personen haben an verschiedenen Tagen Geburtstag}
Aj
= {die j–te Person hat an einem anderen Tag als die j − 1 vorhergehenden Personen Geburtstag}
11siehe [15].
3. STOCHASTISCHE PROZESSE
79
Es folgt
P (A2 ) =
P (A3 |A2 ) =
364
365
363
365
..
.
365 − (n − 1)
365
Wegen A = A2 A3 · · · An folgt mit der Beziehung (2.71)
P (An |A2 A3 . . . An−1 ) =
und daraus
P (A) = P (A2 )P (A3 |A2 ) · · · P (An |A2 A3 . . . An−1 )
P (A) = 1 − P (A) = 1 −
364 · 363 · · · · · (365 − n + 1)
365n−1
Für verschiedene Werte von n erhält man:
n
10
20
23
30
50
100
P (A) 0.117 0.411 0.507 0.706 0.970 0.99999969
Satz 2.67. Die Ereignisse Ak , k = 1, . . . , n seien eine vollständige Ereignisdisjunktion
und es gelte P (Ak ) > 0 für alle k = 1, . . . , n. Dann folgt für jedes B ∈ B die Formel von
der totalen Wahrscheinlichkeit
n
�
P (B) =
P (B|Ak )P (Ak )
k=1
und falls P (B) > 0 die Formel von Bayes
P (Ak |B) =
P (B|Ak )P (Ak )
n
�
P (B|Ak )P (Ak )
k=1
Bemerkung 2.68. Man nennt die Wahrscheinlichkeiten P (Ak |B) die a–posteriori Wahrscheinlichkeiten, dagegen die P (Ak ) a–priori Wahrscheinlichkeiten.
Die bedingte Wahrscheinlichkeit P (A|B) gibt die Wahrscheinlichkeit für das Eintreten
des Ereignisses A an, unter der Bedingung, dass das Ereignis B sicher eingetreten ist. Im
allgemeinen gilt daher P (A) �= P (A|B). Gilt dagegen die Gleichheit, so ist das Eintreten
von A vollkommen unabhängig davon, ob B eingetreten ist oder nicht.
Definition 2.69. Gilt für A, B ∈ B
P (A|B) = P (A)
so nennt man A unabhängig von B.
Ist A unabhängig von B, so gilt für die Multiplikation
P (AB) = P (B)P (A|B) = P (A)P (B)
80
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
und daraus folgt direkt
P (A)P (B)
P (AB)
=
= P (B)
P (A)
P (A)
d.h. ist A unabhängig von B, so ist auch B unabhängig von A. Man sagt daher zusammenfassend, dass A und B voneinander unabhängig sind.
P (B|A) =
Beispiel 2.70. Ein klassisches Zufallsexperiment mit stochastisch unabhängigen Ereignissen ist das Ziehen–mit–Zurücklegen. So ist etwas die Wahrscheinlichkeit bei zweimaligen
Ziehen einer Karte aus einem Skatspiel, bei dem man die erste Karte nach dem Ziehen
wieder auf den Kartenstapel zurücklegt, zwei Asse zu ziehen gleich 1/64.
Definition 2.71. Die Ereignisse Ak ∈ B, k = 1, . . . , n, nennt man vollständig unabhängig, wenn für jede natürliche Zahl m ∈ {2, 3, . . . , n} und beliebige Zahlen 1 ≤ i1 <
i2 < · · · < im ≤ n gilt
�m
�
m
�
�
P
Ai k =
P (Aik )
k=1
k=1
3.2. Zufallsvariablen und Wahrscheinlichkeitsverteilungen. Zur analytischen
Beschreibung von Zufallsexperimenten ist es häufig notwendig, jedem Ergebnis des Experimentes eine (reelle) Zahl zuzuordnen. Damit lassen sich viele Eigenschaften aus der
Analysis auf zufällige Prozesse übertragen. Eine Funktion, die einem Ergebnis eines zufälligen Prozesses eine reelle Zahl zuordnet, wird als eine Zufallsvariable bezeichnet.
Definition 2.72. Gegeben sei ein Wahrscheinlichkeitsraum (Ω, B, P ). Eine Funktion
X:Ω → R
ξ �→ X(ξ)
die jedem Ereignis ξ ∈ Ω eine reelle Zahl zuordnet, heißt Zufallsvariable, wenn das Urbild
eines jeden Intervalls (−∞, a] ⊂ R ein Ereignis aus B ist:
Die Funktion
X −1 ((−∞, a]) ∈ B
∀a ∈ R
F (x) := P (X ≤ x)
der reellen Variablen x heißt Verteilungsfunktion der Zufallsvariablen X.
Man überlegt sich leicht, dass Verteilungsfunktionen stets die folgenden Eigenschaften
besitzen:
a) Es gilt: F : R → [0, 1] und
lim F (x) = 0,
x→−∞
lim F (x) = 1
x→∞
b) Die Funktion F (x) ist monoton nichtfallend:
x1 ≤ x2
⇒
F (x1 ) ≤ F (x2 )
c) Die Verteilungsfunktion ist rechtsseitig stetig:
F (x + 0) = lim F (x + h) = F (x)
h→0
(∀ x ∈ R)
3. STOCHASTISCHE PROZESSE
81
Eine spezielle Klasse von Zufallsvariablen sind die stetigen Zufallsvariablen, für die man
die Verteilungsfunktion stets als ein Integral über eine Dichte darstellen kann.
Definition 2.73. Eine Zufallsvariable X nennt man eine stetige Zufallsvariable, falls eine
integrierbare, nicht–negative Funktion f mit
�x
F (x) =
f (x) dx
−∞
existiert. Die Funktion f = f (x) bezeichnet man als die Dichte der Zufallsvariablen.
Wir geben im folgenden einige wichtige Beispiele für stetige Zufallsvariablen und deren
zugehörige Dichten:
Beispiel 2.74. Die Dichte
f (x) =
�
1 : 0≤x<1
0 : sonst
beschreibt die sogenannte Gleichverteilung mod 1.
Die Dichte
� 2�
1
x
f (x) = √ exp
2
2π
ist die Dichte der Standardnormalverteilung.
Die Dichte
�
0
: x≤0
f (x) =
λe−λx : x > 0
mit λ > 0 beschreibt die Exponentialverteilung.
Wir kommen nun zur Definition der Momente einer Zufallsvariablen. Gegeben sei dazu
eine stetige Zufallsvariable X mit der Dichte f (x).
Definition 2.75. Existiert das uneigentliche Integral
�∞
E(X) :=
xf (x) dx
−∞
so nennt man E(X) den Erwartungswert oder auch Mittelwert der Zufallsvariablen. Existiert für k ∈ N das uneigentliche Integral
�∞
k
E(X ) :=
xk f (x) dx
−∞
so nennt man E(X k ) das k–te Moment der Zufallsvariablen X.
Definition 2.76. Der Erwartungswert
k
E([X − E(X)] ) =
�∞
−∞
(x − E(x))k f (x) dx
82
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
heißt k–tes zentrales Moment der Zufallsvariablen X.
Spezielle Momente haben eine besondere Bedeutung und werden daher entsprechend benannt:
D2 (X) = E([X − E(X)]2 ) = var(X)
nennt man Varianz oder auch Dispersion der Zufallsvariablen X. Der Term
�
D(X) = E([X − E(X)]2 )
ist die Standardabweichung der Zufallsvariablen X.
Charakteristische Funktion einer Zufallsvariablen:
Definition 2.77. Der Erwartungswert
ϕ(s) := E(eisX )
heißt charakteristische Funktion der Zufallsvariablen X.
Satz 2.78. Existiert das k–te Moment einer Zufallsvariablen X, so gilt
ϕ(k) (0)
(k = 1, 2, . . . )
ik
Bemerkung 2.79. Man beachte den Zusammenhang zur Fourier–Transformation:
�∞
�∞
1
isx
e−isx ϕ(s) ds
ϕ(s) =
e f (x) dx
f (x) =
2π
E(X k ) =
−∞
−∞
Wir kommen nun zu einigen typischen Wahrscheinlichkeitsverteilungen, die häufig bei der
Modellierung stochastischer Prozesse verwendet werden.
Zunächst betrachten wir die sogenannte Zweipunktverteilung: gegeben sei dazu eine Zufallsvariable, die nur zwei unterschiedliche Werte x1 < x2 mit positiver Wahrscheinlichkeit
annehmen kann.
Ist dann
P (X = x1 ) = p P (X = x2 ) = 1 − p
(0 < p < 1)
so folgt für die oben angegebenen Kenngrößen der Zweipunktverteilung:

 0 : x < x1
p : x 1 ≤ x < x2
F (x) =

1 : x ≥ x2
E(X) = p x1 + (1 − p) x2
D2 (X) = (x2 − x1 )2 p (1 − p)
ϕ(s) = p eisx1 + (1 − p) eisx2
Betrachtet man bei einem Zufallsexperiment mit Zweipunktverteilung n voneinander unabhängige Wiederholungen und sei Xn die diskrete Zufallsvariable, die angibt wie oft der
Wert x1 angenommen wird, so gilt
�
�
n
P (Xn = k) =
pk (1 − p)n−k
(k = 0, . . . , n)
k
3. STOCHASTISCHE PROZESSE
83
Diese Verteilung bezeichnet man als Binomialverteilung und man berechnet
�� n �
pk (1 − p)n−k
F (x) =
k
k≤x
E(X) = n p
D2 (X) = n p (1 − p)
ϕ(s) = (1 + p (eis − 1))n
Mit Hilfe der Binomialverteilung läßt sich die sogenannte Poissonverteilung ableiten.
Definition 2.80. Eine Zufallsvariable X, die die Werte k = 0, 1, 2, . . . mit den Wahrscheinlichkeiten
λk −λ
P (X = k) =
e
(λ > 0)
k!
annimmt, nennt man poissonverteilt mit Parameter λ.
Der Zusammenhang zur Binomialverteilung wurde bereits 1837 von Poisson angegeben:
Satz 2.81. Die diskrete Zufallsvariable Xn genüge der Binomialverteilung. Gilt mit der
Konstanten λ < 0 für n = 1, 2, 3, . . . die Beziehung
λ
p=
n
so gilt
λk −λ
lim P (Xn = k) =
e
n→∞
k!
Hat man keine näheren Informationen über die Verteilungsfunktion einer Zufallsvariablen,
so nimmt man häufig an, dass die Zufallsvariablen normalverteilt sind und die Normalverteilung kann damit als die wichtigste Verteilung der Wahrscheinlichkeitstheorie angesehen
werden.
Definition 2.82. Eine Zufallsvariable X ist normalverteilt (gaußverteilt), wenn ihre
Dichte durch
�
�
1
(x − µ)2
f (x) = √
exp −
(σ > 0)
2σ 2
2πσ
gegeben ist.
In der Tat können Zufallsvariablen, die durch eine additive Überlagerung einer großen
Zahl von unabhängigen zufälligen Ereignissen (Zufallsvariablen) entstehen, wobei jede der
einzelnen Zufallsvariablen einen im Verhältnis zur Gesamtsumme nur unbedeutenden Betrag liefert, als normalverteilt angesehen werden.
Von besonderen Interesse sind damit auch die Kenngrößen der Normalverteilung, die wir
im folgenden abgeben wollen: die Verteilungsfunktion der Normalverteilung ist gegeben
durch
�
�
�x
1
(t − µ)2
F (x) = √
exp −
dt
2σ 2
2πσ
−∞
84
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
die sich mit Hilfe der Gaußschen Fehlerfunktion erf (x) auch in der Form
F (x) =
=
1 2
·√
2
π
√
(x−µ)/(
� 2σ)
1 1
+ erf
2 2
2
e−t dt
−∞
�
x−µ
√
2σ
�
darstellen läßt, wobei die Fehlerfunktion (wie in Abschnitt 2.2 bereits angegeben) über die
Formel
�x
2
2
erf (x) = √
e−t dt
π
0
definiert ist.
Für den Erwartungswert einer normalverteilten Zufallsvariablen berechnet man
�
�
�x
1
(t − µ)2
√
dt = µ
E(X) =
t · exp −
2σ 2
2πσ
−∞
und die Varianz ist gegeben durch
D2 (X) = σ 2
Das k–te zentrale Moment lautet
�
1 · 3 · · · · · (k − 1) σ k : falls k gerade
k
E((x − µ) ) =
0
: falls k ungerade
und die charakteristische Funktion ist gegeben durch
�
�
(σs)2
isµ
ϕ(s) = e exp −
2
Für N (µ; σ 2 )–verteilte Zufallsvariablen gilt als eine weitere vor allem in Anwendungen
wichtige Eigenschaft:
P (µ − σ < X ≤ µ + σ) ≈ 0.68
P (µ − 2σ < X ≤ µ + 2σ) ≈ 0.955
P (µ − 3σ < X ≤ µ + 3σ) ≈ 0.997
d.h. praktisch alle Werte von X liegen zwischen µ − 3σ und µ + 3σ.
Der Begriff Zufallsvariable läßt sich auf Zufallsvariablen X : Ω → Rd erweitern, d.h. es
lassen sich auch mehrdimensionale Zufallsvariablen definieren.
Definition 2.83. Die Funktion
F (x1 , . . . , xd ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xd ≤ xd )
einer mehrdimensionalen Variablen X heißt Verteilungsfunktion von X.
3. STOCHASTISCHE PROZESSE
85
Die Dichte einer zweidimensionalen Zufallsvariablen berechnet sich zum Beispiel über
f (x1 , x2 ) =
∂2
F (x)
∂x1 ∂x2
Definition 2.84. Für eine zweidimensionale Zufallsvariablen X mit der Dichte f (X) =
f (x1 , x2 ) sind die Randdichten von X gegeben durch
�∞
fX1 (x1 ) =
f (x1 , x2 ) dx2
fX2 (x2 ) =
−∞
�∞
f (x1 , x2 ) dx1
−∞
Die Randdichten sind gerade die Dichten der Komponenten des Zufallsvektors X = (X1 , X2 )T .
Bemerkung 2.85. Bei der Definition der Randdichten wird die Zufälligkeit einer der
beiden Komponenten durch Integration über diese eliminiert.
Definition 2.86. Man nennt
fX1 (x1 |X2 = x2 ) =
f (x1 , x2 )
fX2 (x2 )
die bedingte Dichte von X1 unter der Bedingung X2 = x2 und
fX2 (x2 |X1 = x1 ) =
f (x1 , x2 )
fX1 (x1 )
die bedingte Dichte von X2 unter der Bedingung X1 = x1 .
Definition 2.87. Zwei Zufallsvariablen heißen unabhängig, falls
f (x, y) = fX (x) · fY (y)
Definition 2.88. Für die beiden Zufallsvariablen X und Y nennt man den Ausdruck
cov(X, Y ) = E{(X − µX )(Y − µY )}
die Kovarianz von X und Y .
Erwartungswerte von zweidimensionalen Zufallsvariablen sind dabei definiert durch
�∞ �∞
E{g(X, Y )} =
g(x, y)f (x, y) dxdy
−∞ −∞
Der Korrelationskoeffizient von X und Y ist definiert durch
ρX,Y
= ρ(X, Y ) = �
=
cov(X, Y )
D2 (X)D2 (Y )
E{(X − µX )(Y − µY )}
σX σY
86
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Beispiel 2.89. Wir betrachten die beiden normierten Zufallsvariablen
X − µX
Y − µY
X̃ =
Ỹ =
σX
σY
und definieren für t ∈ R die zusammengesetzte Zufallsvariable
Z = tX̃ + Ỹ
Der Erwartungswert von Z ist gleich Null und für die Varianz gilt
D2 (Z) = E{(tX̃ + Ỹ )2 } = t2 + 2tρX,Y + 1 ≥ 0
Demnach gilt für alle t ∈ R:
(t + ρX,Y )2 + (1 − ρ2X,Y ) ≥ 0
Daraus folgt aber für den Korrelationskoeffizienten ρX,Y
−1 ≤ ρX,Y ≤ 1
Bemerkung 2.90. Der Korrelationskoeffizient gibt an, wie ähnlich zwei Zufallsvariablen
sind:
1) Gilt ρX,Y , so nennt man die beiden Zufallsvariablen X und Y unkorreliert
2) Für |ρX,Y | = 1, so sind X und Y maximal korreliert.
3) Unabhängige Zufallsvariablen sind stets unkorreliert. Die Umkehrung gilt aber
nicht!
4) Sind X und Y allerdings normalverteilt, so folgt aus ρX,Y die Unabhängigkeit
von X.
5) Sind X und Y unabhängig, so gilt zusätzlich cov(X, Y ) = 0 und
D2 (X + Y ) = D2 (X) + D2 (Y )
E(X · Y ) = E(X) · E(Y )
Ist die Wahrscheinlichkeit P (A) eines zufälligen Ereignisses A nicht bekannt, so kann
durch ein Zufallsexperiment mit Hilfe der relativen Häufigkeit Hn (A) ein Schätzwert für
die Wahrscheinlichkeit P (A) bestimmt werden. Umgekehrt kann man sich fragen, wie weit
bei einem Zufallsexperiment mit n unabhängigen Wiederholungen die relative Häufigkeit
Hn (A) von einer gegebenen Wahrscheinlichkeit P (A) des Ereignisse (im Mittel) abweicht.
Diese Fragen werden durch das Gesetz der großen Zahlen und die Grenzwertsätze der
Wahrscheinlichkeitstheorie beantwortet.
Wir formulieren hier nun die beiden grundlegenden Sätze, nämlich das Bernoullisches
Gesetz der großen Zahlen (siehe 2.91) und den zentralen Grenzwertsatz (siehe 2.92)
Satz 2.91. Ist X1 , X2 , . . . eine Folge von unabhängigen, identisch verteilter Zufallsvariablen mit
P (Xn = 1) = p, P (Xn = 0) = 1 − p
(0 < p < 1)
so gilt für alle ε > 0
�
�
�� n
�
�1 �
�
�
X k − p� < ε = 1
lim P �
n→∞
�
�n
k=1
3. STOCHASTISCHE PROZESSE
87
Satz 2.92. X1 , X2 , . . . sei eine Folge unabhängiger, identisch verteilter Zufallsvariablen
mit
dann gilt mit Sn =
n
�
k=1
E(Xn ) = m < ∞
D2 (Xn ) = d2 < ∞
Xk für jedes x ∈ R
lim P
n→∞
�
Sn − nm
√
≤x
nd
�
1
=√
2π
�x
−∞
y2
exp −
2
�
�
dy
3.3. Grundlagen stochastischer Prozesse. Stochastische Prozesse sind kurzgesagt Familien von Zufallsvariablen X(t), die durch einen Parameter t ∈ T gekennzeichnet
sind, wobei man T auch als Parameterraum des stochastischen Prozesses bezeichnet. Ausgangspunkt ist dabei ein Wahrscheinlichkeitsraum (Ω, B, P ). Der Parameter t übernimmt
die Rolle einer Zeitvariablen und wir unterscheiden dabei grundsätzlich zwischen diskreten
und kontinuierlichen stochastischen Prozessen.
1) Diskrete stochastische Prozesse sind solche, bei denen der Indexparameter t nur
diskrete Werte annehmen kann
2) Kontinuierliche stochastische Prozesse sind durch eine kontinuierliche Zeitvariable
t ∈ R parametrisiert.
Ein stochastischer Prozess ist also zusammenfassend durch zwei Parameter induziert:
1) Zu jedem festen Zeitpunkt t0 ∈ T ist Xt0 (ξ) = X(t0 , ξ) eine Zufallsvariable, also
Xt0 : Ω → R
ξ �→ Xt0 (ξ)
2) Wird das Ereignis ξ ∈ Ω festgehalten und betrachtet die Abhängigkeit von der
Zeit t ∈ T , so nennt man die Zeitfunktion X(t, ξ0 ) eine Realisierung oder Pfad
des Prozesses. Man spricht auch von der sogenannten Musterfunktion.
Im Allgemeinen ist die Anzahl aller möglichen Pfade eines stochastischen Prozesses (überabzählbar) unendlich groß.
Ein klassisches Beispiel für einen stochastischen Prozess ist ein sogenannte Warteschlange:
zu zufälligen Zeitpunkten treffen Kunden vor einem Schalter ein und fordern eine Bedienung, die eine bestimmte zufällige Abfertigungszeit erfordert. Eine solche Warteschlange
kann nun durch einen stochastischen Prozess X(t), der die Anzahl der zur Zeit t wartenden Kunden angibt, mathematisch modelliert werden. Die Theorie der Warteschlangen,
d.h. die Beschreibung mit Hilfe eines stochastischen Prozesses, stellt damit eine Methode
bereit, um wichtige Kenngrößen, wie z.B. die mittlere Wartezeit eines Kunden oder den
Auslastungsgrad des Schalters, zu ermitteln.
Ein typische Anwendung der Theorie der Warteschlangen findet man in der Informatik:
bei einem Betriebssystem eines Computers kann der Zugriff auf den Prozessor durch ein
Warteschlangensystem beschrieben werden. Aus den theoretischen Analysen des Modells
kann der mittlere Durchsatz und die mittlere Wartezeit berechnet werden.
88
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Ein weiteres wichtiges Anwendungsbeispiel ist die Nachrichtenübertragung: eine Signalquelle erzeuge zufällige digitale Sendesymbole X ∈ {−3, −1, 1, 3} und die Wahrscheinlichkeiten P (X) bestimmen die Verteilung der Zufallsvariablen X. Der zugehörige stochastische Prozess kann dann folgendermaßen konstruiert werden: die Signalquelle erzeugt eine
Nachricht {Xn }∞
n=0 als Sequenz der Sendesymbole Xn (Modulationssymbole):
∞
�
x(t) =
xn · X[nT,(n+1)T ) (t)
n=0
mit der charakteristischen Funktion
X[a,b) (t) =
�
1 : t ∈ [a, b)
0 : sonst
Wir versuchen nun stochastische Prozesse anhand einiger charakteristischer Eigenschaften
zu beschreiben und zu klassifizieren. Dazu betrachten wir zunächst n diskrete Zeitpunkte
{t1 , t2 , . . . , tn } und die zugehörigen Zufallsvariablen {X(t1 ), X(t2 ), . . . , X(tn )} des vorgegebenen stochastischen Prozesses.
Die Zufallsvariablen {X(t1 ), X(t2 ), . . . , X(tn )} sind dann durch ihre gemeinsame Dichte
f (xt1 , xt2 , . . . , xtn ) charakterisiert und man kann den Begriff Stationarität mit Hilfe der
gemeinsamen Dichte definieren.
Definition 2.93. Ein stochastischer Prozess X(t) heißt streng oder stark stationär, falls
für alle n ∈ N und für alle τ, t1 , t2 , . . . , tn ∈ R gilt:
f (xt1 +τ , xt2 +τ , . . . , xtn +τ ) = f (xt1 , xt2 , . . . , xtn )
d.h. die n–dimensionalen Dichtefunktionen sind invariant gegenüber Zeitverschiebungen.
Hält man nun die Zeitvariable fest, i.e. t = tn , so lassen sich Scharmittelwerte eines
stochastischen Prozesses definieren:
Definition 2.94. Die Größe
k
E{X (tn )} =
�∞
xktn f (xtn ) dxtn
−∞
nennt man k–tes Moment der Zufallsvariablen X(tn ) und bezeichnet die Größe auch als
einen Scharmittelwert.
Scharmittelwerte hängen also in der Regel vom Zeitpunkt tn ab. Man beachte aber, dass
bei stark stationären Prozessen die Momente nicht zeitabhängig sind.
Definition 2.95. Die Funktion
ϕXX = E{X(t1 )X(t2 )} =
�∞ �∞
xt1 xt2 f (xt1 , xt2 ) dxt1 dxt2
−∞ −∞
heißt Autokorrelationsfunktion des stochastischen Prozesses X(t).
Die folgenden Bemerkungen folgen direkt aus den oben angegebenen Definitionen.
3. STOCHASTISCHE PROZESSE
89
1) Bei stark stationären Prozessen gilt stets
ϕXX (t1 , t2 ) = ϕXX (t2 − t1 ) = ϕXX (τ )
2) Die Autokorrelationsfunktion ϕXX ist für stark stationäre Prozesse stets eine
gerade Funktion.
Definition 2.96. Einen stochastischen Prozeß mit einem konstanten Erwartungswert, für
den die Autokorrelationsfunktion die Bedingung
ϕXX (t1 , t2 ) = ϕXX (t2 − t1 ) = ϕXX (τ )
erfüllt, nennt man (schwach) stationär.
Bei – sowohl stark als auch schwach – stationären stochastischen Prozessen nennt man
den Ausdruck
ϕXX (0) = E{X(t)2 }
die mittlere Leistung des Prozesses.
Bemerkung 2.97. Stark stationäre Prozesse sind auch stets schwach stationär, aber die
Umkehrung gilt nicht.
Definition 2.98. Die Funktion
cXX (t1 , t2 ) = E{(X(t1 ) − µ(t1 ))(X(t2 ) − µ(t2 ))}
= ϕXX (t1 , t2 ) − µ(t1 )µ(t2 )
mit µ(tn ) = E{X(tn )}, n = 1, 2 nennt man Autokovarianzfunktion des stochastischen
Prozesses X(t).
Bei stationären stochastischen Prozessen vereinfacht sich die Autokovarianzfunktion von
X(t) zu
cXX (t1 , t2 ) = cXX (t2 − t1 ) = cXX (τ ) = ϕXX (τ ) − µ2
Neben den Scharmittelwerte sind Zeitmittelwerte typische Kenngrößen eines stochastischen Prozesse. Dies erhält man, in dem man für einen vorgebenen Pfad eines stochastischen Prozesses Kenngrößen über die Zeit mittelt. Desweiteren kann über Zeitmittelwerte
der Begriff der Ergodizität definiert werden.
Definition 2.99. Es seien g : R → R eine reellwertige Funktion und x(t) ein Pfad des
stark stationären Prozesses X(t). Dann nennt man den Ausdruck
1
g[x(t)] := lim
T →∞ 2T
�T
g[x(t)] dt
−T
zeitlichen Mittelwert der Realisierung x(t) bezüglich der Funktion g.
Beispiel 2.100. Für g = id erhält man den Mittelwert des Pfads, also
1
m = x(t) = lim
T →∞ 2T
�T
−T
x(t) dt
90
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Definition 2.101. Der stark stationäre stochastische Prozess X(t) heißt ergodisch bezüglich
g, wenn der Erwartungswert E{g(X(t))} existiert und die Beziehung
g[x(t)] = E{g(X(t))}
erfüllt ist, d.h. Zeitmittelwert eines beliebigen Pfades stimmen mit dem Erwartungswert
der Zufallsvariablen g[X(t)] überein.
Ergodische Prozesse sind nun wie folgt definiert: der stark stationäre stochastische Prozess
X(t) ist ergodisch, wenn alle seine statistischen Eigenschaften aus einer einzigen Realisierung x(t) abgeleitet werden können. In der Tat ist die Berechnung von Zeitmittelwerten
nur für ergodische Prozesse überhaupt sinnvoll.
Scharmittelwerte bei ergodischen Prozessen lassen sich nun wie folgt berechnen: sei x(t)
ein beliebiger Pfad des ergodischen Prozesses X(t). Dann ist
1) das k–te Moment gegeben durch
m
(k)
1
= lim
T →∞ 2T
�T
xk (t) dt
−T
2) die Autokorrelationsfunktion
1
ϕXX (τ ) = lim
T →∞ 2T
�T
x(t)x(t + τ ) dt
−T
3) die Autokovarianzfunktion
1
cXX (τ ) = lim
T →∞ 2T
�T
(x(t) − m(1) )(x(t + τ ) − m(1) ) dt
−T
Zum Abschluß dieses Abschnittes geben wir noch zwei Beispiele zu speziellen stochastischen Prozessen. Zunächst untersuchen wir das sogenannte weiße Gaussche Rauschen.
Ein Gaußprozess ist ein spezieller stochastischer Prozess X(t), für den die Zufallsvariable {X(t1 ), X(t2 ), . . . , X(tn )} für jedes n ∈ N und t1 , t2 , . . . , tn ∈ R eine n–dimensionale
Normalverteilung besitzt, d.h. der Zufallsvektor besitzt die Dichte
�
�
1
1
√
f (x1 , x2 , . . . , xn ) =
exp − (x − µ)T C −1 (x − µ)
2
(2π)n/2 det C
mit der Kovarianzmatrix C.
Weißes Gaußches Rauschen ist ein mittelwertfreier, stationärer Gaußprozess mit einem
konstanten Leistungsdichtespektrum
�∞
ϕXX (τ )e−i2πsτ dτ = konstant
∀s ∈ R
−∞
In der Warteschlangentheorie wird die Ankunft neuer Kunden fast ausschließlich mit Hilfe
eines Poissonprozesses modelliert: der stochastische Prozess X(t) beschreibe die Anzahl
3. STOCHASTISCHE PROZESSE
91
der wartenden Kunden. Gegeben sei ein ∆t ∈ R und wir machen die folgenden Modellannahmen:
1) Die Wahrscheinlichkeit dafür, dass in einem Intervall der Länge ∆t ein neuer
Kunde ankommt ist proportional zu ∆t.
2) Die Wahrscheinlichkeit dafür, dass in einem Intervall der Länge ∆t ein neuer
Kunde ankommt hängt nicht von der Lage des Intervalls ab.
3) Der Ankunftsprozess ist gedächtnislos: das Eintreffen in einem Intervall der Länge
∆t unabhängig vom Eintreffen anderer Kunden in vergangenen oder zukünftigen
Intervallen.
Die Modellannahmen führen auf den Poissonprozess, d.h. unter der Annahme X(0) = 0
gilt für X(t), t ≥ 0
(λt)k −λt
P {X(t) = k} =
e
k!
Die Eigenschaften des Poissonprozesses lassen sich kurz zusammenfassen:
a) der Erwartungswert ist E{X(t)} = λt, d.h. der Poissonprozess ist nichtstationär.
b) die Varianz ergibt sich zu D2 {X(t)} = λt.
c) die mittlere Ankunftsrate der Kunden ist λ = E{X(t)}/t und es gilt
D{X(t)}
1
=√
E{X(t)}
λt
d.h. für λt � 1 ist die Verteilung um den Erwartungswert λt konzentriert.
d) Es gilt
P {X(t) = 0} = e−λt
d.h. die Wahrscheinlichkeit dafür, dass kein Kunde ankommt geht exponentiell
mit t gegen Null.
e) Die Zeitdifferenz T zwischen zwei aufeinanderfolgenden Ankunftszeitpunkten ist
wieder eine Zufallsvariable, die nur nichtnegative Werte annehmen kann.
Weiter ist die Zeitdifferenz exponentialverteilt, d.h. die Dichte von T ist gegeben
durch
�
0
: τ ≤0
fT (τ ) =
λe−λτ : τ > 0
Weiter gilt
1
1
E{T } =
D2 {T } = 2
λ
λ
3.4. Markoffprozesse und Markoffketten. Bei einem stochastischen Prozess X(t)
stehen die beiden Zufallsvariablen X(t1 ) und X(t2 ) in einem bestimmten Zusammenhang.
Bei Markoffprozessen hat nun die Vergangenheit des Prozesses keinen Einfluß auf die
Zukunft, sofern der gegenwärtige Zustand bekannt ist:
Definition 2.102. Der stochastische Prozess X(t) heißt Markoffprozess, falls für alle
m, k ∈ N und beliebige Zeitpunkte tm−k < tm−k+1 < · · · < tm+1 gilt:
P {X(tm+1 ) ≤ xm+1 |X(tm ) ≤ xm , . . . , X(tm−k ) ≤ xm−k }
= P {X(tm+1 ) ≤ xm+1 |X(tm ) ≤ xm }
92
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Spezielle Markoffprozesse sind Prozesse mit diskreten Zuständen und Zeit, die sogenannten
Markoffketten.
Definition 2.103. Der zustands– und zeitdiskrete stochastische Prozess X(t) mit Parameterraum T = {t0 , t1 , . . . , } heißt Markoffkette, falls für alle m > 2 und i0 , i1 , . . . , im ∈ N
gilt:
P {X(tm+1 ) = im+1 |X(tm ) = im , . . . , X(t0 ) = i0 }
= P {X(tm+1 ) = im+1 |X(tm ) = im }
Markoffketten lassen sich durch ihre Übergangswahrscheinlichkeiten charakterisieren:
Definition 2.104. X(t) sei eine Markoffkette und tm , tm+k ∈ T . Dann nennt man die
bedingten Wahrscheinlichkeiten
P {X(tm+k ) = j|X(tm ) = i} = pij (tm , tm+k )
Übergangswahrscheinlichkeiten k–ter Stufe.
Ist die Zustandsmenge der Markoffkette endlich, also
X(t) ∈ {1, 2, . . . , n}
∀t ∈ T
so lassen sich die Übergangswahrscheinlichkeiten in einer Matrix anordnen


p11 (tm , tm+k ) · · · p1n (tm , tm+k )
 p21 (tm , tm+k ) · · · p2n (tm , tm+k ) 


P (tm , tm+k ) := 

..
..


.
.
pn1 (tm , tm+k ) · · ·
pnn (tm , tm+k )
Weiter nennt man eine Markoffkette homogen, wenn für beliebige Zustände i, j und beliebige Zeitpunkte tm , tm+1 die Übergangswahrscheinlichkeiten pij (tm , tm+1 ) = pij nicht von
der Zeit abhängen.
Im Folgenden sei X(t) eine homogene Markoffkette mit endlicher Zustandmenge Z. Die
Übergangsmatrix ist dann eine konstante Matrix


p11 · · · p1n
 p21 · · · p2n 


P :=  ..
.. 
 .
. 
pn1 · · · pnn
mit den nicht–negativen Einträgen pij ≥ 0.
Weiter ist für alle Zeilen die Zeilensumme von P gleich 1:
n
�
j=1
pij = 1
∀ i ∈ {1, 2, . . . , n}
denn ist der Prozess X(t) im Zustand i, so muß der Prozess in einen der endlich vielen
Zustände Z = {1, 2, . . . , n} übergehen.
3. STOCHASTISCHE PROZESSE
93
Definition 2.105. Eine (n × n)–Matrix P = (pij ), für deren Elemente
pij ≥ 0
∀ i, j ∈ Z
und
n
�
pij = 1
j=1
∀i ∈ Z
gilt, nennt man stochastische Matrix. Die Zeilenvektoren von P sind stochastische Vektoren.
Sei nun t ∈ N0 und
P {X(t) = i} = pi (t)
i = 1, 2, . . . , n
Wir können nun diese Wahrscheinlichkeiten in einem Zeilenvektor zusammenfassen:
p(t) = (p1 (t), p2 (t), . . . , pn (t))
Die Wahrscheinlichkeiten zum Zeitpunkt t + 1 ergeben sich dann zu
pj (t + 1) =
n
�
pij pi (t)
j = 1, 2, . . . , n
i=1
und für den kompletten Zeilenvektor ergibt sich
p(t + 1) = p(t) · P
Eine wiederholte Anwendung liefert die Formel
p(t + k) = p(t) · P k
und mit dem Startwert p(0) ergibt sich insbesondere die Darstellung
p(k) = p(0) · P k
Man beachte, dass die Matrix P k natürlich wiederum eine stochastische Matrix ist.
Homogene Markoffketten lassen sich auch man als bewertete Graphen interpretieren.
Definition 2.106. Ein gerichteter Graph ist ein Mengenpaar (BG , Fg ), wobei BG �= ∅
eine Zustandsmenge und FG ⊆ BG × BG eine Menge von Übergängen darstellt. Wir jedem
Übergang eine Übergangswahrschinlichkeit pij mit den Eigenschaften
�
pij = 1
0 ≤ pij ≤ 1
j
erhält man einen bewerteten Graphen, der auch als auch Übergangsgraph der homogenen
Markoffkette bezeichnet wird.
Eine homogene Markoffkette ist dann eine Irrfahrt auf einem bewerteten Graphen.
Definition 2.107. Eine Zustand i einer homogenen Markoffkette heißt absorbierend, falls
gilt
pii = 1
Die Menge R der absorbierenden Zustände nennt man den Rand der Markoffkette, die
Menge Z − R die Menge der inneren Zustände.
94
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Eine Markoffkette nennt man absorbierend, wenn R �= ∅ gilt und der Rand R von jedem
inneren Zustand aus erreichbar ist. Für absorbierende Markoffketten gilt der nachfolgende
Satz über das Grenzverhalten von Irrfahrten.
Satz 2.108. Für eine absorbierende Markoffkette endet die Irrfahrt in einem Zustand des
Randes.
Wichtige Fragen im Zusammenhang mit dem letzten Satz sind dann: wie groß ist die
Wahrscheinlichkeit dafür, dass eine Irrfahrt in einer Teilmenge U ⊂ R des Randes endet
und was ist die mittlere Dauer der Irrfahrt bis zur Absorption am Rand R. Diese Fragen
werden in den Übungen zur Vorlesung behandelt.
3.5. Pseudozufallszahlen und stochastische Simulation. Wir zitieren zunächst
aus dem im Jahr 2003 im Vieweg Verlag erschienenen Buch Stochastik für Einsteiger von
Norbert Henze, der folgende Interpretation des Begriffs Simulation stochastischer Prozesse
formuliert:
Die Simulation (von lateinisch simulare: ähnlich machen, nachahmen) stochastischer Vorgänge im Computer ist ein wichtiges Werkzeug zur Analyse von Zufallsphänomenen, welche
sich aufgrund ihrer Komplexität einer analytischen Behandlung entziehen. Beispiele hierfür
sind Lagerhaltungsprobleme mit komplizierter zufallsabhängiger Nachfrage, die möglichst
naturgetreue Nachbildung von Niederschlagsmengen an einem Ort im Jahresverlauf oder
das ,,Durchspielen” von Verkehrsabläufen mit zufällig ankommenden Autos an einer Ampelkreuzung.
Eine Nachbildung des Zufalls im Computer geschieht stets nach einem vorgegebenen stochastischen Modell, wobei das Ziel die Gewinnung von Erkenntnissen über einen realen
Zufallsvorgang unter Einsparung von Zeit und Kosten ist. So könnte der Simulation des
Verkehrsablaufes an einer Kreuzung der Wunsch zugrunde liegen, die Ampelschaltung
so einzurichten, dass die mittlere Wartezeit der ankommenden Fahrzeuge möglichst kurz
wird.
Bausteine für die stochastische Simulation sind sogennante gleichverteilte Pseudozufallszahlen, die von Pseudozufallszahlengeneratoren erzeugt werden. Das im Folgenden nur der
Kürze halber weggelassene Präfix Pseudo soll betonen, dass die durch Aufrufen von Befehlen oder Drücken von Tasten wie Random, RAN oder Rd bereitgestellten Zufallszahlen
nur zufällig erzeugt scheinen.
Wir formulieren nun einen ersten Algorithmus zur Erzeugung von Pseudozufallszahlen,
der auf John von Neumann zurückgeht:12
Gegeben sei die Zahl
x0 = 0.9876
Wir quadrieren die Zahl und erhalten x20 = 0.97535376. Aus der Zahlendarstellung entnehmen wir nun die mittleren vier Dezimalstellen und setzen
x1 = 0.5353
12John von Neumann, amerikanischer Mathematiker, östr.–ungar. Herkunft, 1903–1957,wirkte in Ber-
lin, Hamburg und Princeton (N.J.)
3. STOCHASTISCHE PROZESSE
95
Das Quadrat von x1 ergibt x21 = 0.28654609 und wir setzen daher
x2 = 0.6546
Eine weitere Anwendung dieses Prinzips ergibt:
x3 = 0.8501,
x4 = 0.2670,
x5 = 0.1289
Auf den ersten Blick sehen die Zahlen in der Tat wieder Pseudozufallszahlen aus, die die
Gleichverteilung mod 1 auf dem Einheitsintervall [0, 1] approximieren. Eine genauere Untersuchung der Zahlenfolge zeigt aber, dass diese Methode mehr kleine Zahlen erzeugt als
gewünscht ist.
Ein häufig verwendeter Zufallsgenerator zur Erzeugung von Pseudozufallszahlen auf dem
Einheitsintervall ist der sogenannte lineare Kongruenzgenerator: gegeben seien die nichtnegativen ganzen Zahlen
m : Modul
a : Faktor
b : Inkrement
zo : Anfangswert
Das iterative lineare Kongruenzschema ist dann gegeben durch
zj+1 = a · zj + b (mod m)
(j = 0, 1, 2, . . . )
Aufgrund der Operation modulo m gilt stets
0 ≤ zj ≤ m − 1
(j = 0, 1, 2, . . . )
und durch die Normierung
zj
m
liefert das Schema eine Folge x0 , x1 , . . . im Einheitsintervall.
xj =
Beispiel 2.109. Wir betrachten die Zahlen
m = 100, a = 18, b = 11, z0 = 40
Dann folgt:
z1 = 18 · 40 + 11 = 731 = 31 (mod 100)
z2 = 18 · 31 + 11 = 569 = 69 (mod 100)
z3 = 18 · 69 + 11 = 1253 = 53 (mod 100)
und damit
x0 = 0.4, x1 = 0.31, x2 = 0.69, x3 = 0.53
Berechnet man die nächsten Folgenglieder erhält man allerdings
z4 = 65, z5 = 81, z6 = 69 = z2
d.h. nach zwei Schritten laufen wir in die Periode 69, 53, 65, 81 der Länge 4. Damit ist
dieser Kongruenzgenerator vollkommen ungeeignet.
96
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Es ist leicht einsichtig, dass ein linearer Kongruenzgenerator aufgrund der oben angegebenen Rekursionsvorschrift eine maximale Periodenlänge besitzt und diese wegen
zj ∈ {0, 1, . . . , m − 1}
(j = 0, 1, 2, . . . )
gerade durch die Zahl m gegeben ist, d.h. in praktischen Anwendungen sollte daher m
möglichst groß wählen.
Im Fall b ≥ 1 wird diese Länge genau dann erreicht, wenn folgende Bedingungen erfüllt
sind:
• Das Inkrement b ist teilerfremd zu m.
• Jede Primzahl, die m teilt, teilt auch a − 1.
• Ist m durch 4 teilbar, so muss auch a − 1 durch 4 teilbar sein.
Beispiel 2.110. Das lineare Kongruenzschema
zj+1 = zj + 1 (mod m)
besitzt die maximale Periodenlänge m. Man überlegt sich aber direkt, dass die dadurch
erzeugte Zahlenfolge kaum als “zufällig erzeugt” angesehen werden kann.
Eine weitere prinzipielle Schwäche linearer Kongruenzgeneratoren ist deren Gitterstruktur. Faßt man aufeinanderfolgende Punkte der Folge zu d–Tupeln zusammen, d.h. man
betrachtet die d–dimensionalen Vektoren (xi , xi+1 , . . . , xi+d−1 ), i ≥ 0, so läßt sich leicht
zeigen, dass diese stets auf einem Gitter im d–dimensionalen Raum Rd liegen.
Beispiel 2.111. Der lineare Kongruenzgenerator mit den Parametern
m = 256,
a = 25,
b=1
und
z0 = 1
erzeugt die nachfolgend dargestellte Punktmenge im Einheitsquadrat.
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Abbildung 2.7: Gitterstruktur des linearen Kongruenzgenerators mit den Parametern
m = 256, a = 25 und b = 1.
3. STOCHASTISCHE PROZESSE
97
Ein historisches Beispiel, das die Schwäche der linearen Kongruenzgeneratoren klarmacht,
ist der Anfang der 60er Jahre des letzten Jahrhunders von der Computerfirma IBM eingeführte Zufallsgenerator randu mit den Parametern
m = 231 ,
a = 65539,
b=0
Dieser Pseudo–Zufallszahlengenerator besitzt die Periode 229 , erzeugt aber 229 Tripel
(xi , xi+1 , xi+2 ), die auf nur 15 (!) Ebenen im R3 liegen. Diese Eigenschaft wurde erst
sehr viel später entdeckt und nach Bekanntwerden von der IBM umgehend korrigiert.
Bei großen Modulen m und relativ wenigen Punktepaaren ist der Gittereffekt häufig nicht
sichtbar: die Parameter m = 224 , a = 54667, b = 1 und z0 = 1 erzeugen die 250 Punktepaare (x0 , x1 ), (x2 , x3 ), . . . , (x498 , x499 ), aus denen eine Gitterstruktur nicht erkennbar ist.
Zum Abschluss kommen wir zu einer theoretischen Beschreibung der Gitterstruktur: Für
festes d ≥ 2 betrachten wir die Spaltenvektoren
Zi = (zi , zi+1 , . . . , zi+d−1 )T ,
Durch Induktion zeigt man zunächst
0≤i<m
zi+s − zi = as (zi − z0 ) (mod m),
Für die entsprechenden Spaltenvektoren ergibt

1

 a

Zi − Z0 = (zi − z0 )  .
 ..

ad−1
sich daraus

i, s ≥ 0



 (mod m),


i≥0
wobei die Kongruenz modulo m komponentenweise anzuwenden ist.
Nach der Definition einer Kongruenzrelation gilt dann aber:




1
k1




 a 
 k2 




Zi − Z0 = (zi − z0 )  .  + m  .  ,
i≥0
 .. 
 .. 




ad−1
kd
mit ganzen Zahlen k1 , k2 , . . . , kd .
Dann ist aber Z1 − Z0 eine ganzzahlige Linearkombination der d Vektoren

 



1
0
0

 

 . 
 a   m 
 . 

 

 . 
 . , . ,...,

 ..   .. 
 0 

 



ad−1
0
m
und diese Vektoren definieren ein Gitter, auf dem alle Vektoren Zi − Z0 liegen.