3. Stochastische Prozesse 3.1. Grundlegende Begriffe bei zufälligen

3. STOCHASTISCHE PROZESSE
73
3. Stochastische Prozesse
3.1. Grundlegende Begriffe bei zufälligen Prozessen. In diesem Abschnitt beschäftigen wir uns mit den grundlegenden Begriffen und Definitionen von Zufallsexperimenten, also Prozessen, bei denen der Ausgang im Rahmen gewisser Möglichkeiten ungewiß oder zufÄllig ist, die aber bei Beibehaltung gewisser Rahmenbedingungen beliebig oft
wiederholt werden können und damit einer systematischen und mathematischen Beschreibung zugänglich sind.
Zum Einstieg ist es sinnvoll, zunächst nur eine diskrete und endliche Menge von möglichen
Ausgängen zu betrachten, da hier die Mathematisierung verständlicher dargestellt werden
kann.
Definition 2.55. Ein endlicher Ergebnisraum ist eine nichtleere Menge Ω = {ξ1 , . . . , ξn },
deren Elemente ξj ∈ Ω Ergebnisse genannt werden. Jede Teilmenge A ⊂ Ω wird als
Ereignis, jede einelementige Teilmenge {ξj } ⊂ Ω als Elementarereignis bezeichnet.
Nach dieser Definition sind der Ergebnisraum Ω selbst sowie die leere Menge ∅ stets Ereignisse, die man das sichere bzw. unmögliche Ereignis nennt. Gleichzeitig folgt, dass die
Menge aller Ereignisse gerade die Potenzmenge P(Ω) von Ω ist, also die Menge aller Teilmengen von Ω und für die Mächtigkeit von P(Ω) gilt die Beziehung
n X
n
= 2n
|P(Ω)| =
j
j=0
Da Ereignisse gerade als Elemente der Potenzmenge definiert sind, lassen sich Ereignisse
nach den Regeln der Mengenlehre verknüpfen.
Beispiel 2.56. Gilt A ⊂ B, so ist A ein Teilereignis von B; zwei Ereignisse A und B sind
gleich, falls A ⊂ B und B ⊂ A gilt. Das entgegengesetzte Ereignis ist
Ā = {ξ ∈ Ω : ξ ∈
/ A}
was man in der Mengenlehre auch als Negation oder das Komplement von A bezeichnet.
Definition 2.57. Sind A und B Ereignisse und gilt AB = A ∩ B = ∅, so heißen A und
B disjunkt oder unvereinbar.
Betrachtet man nun ein durch Ω und P(Ω) beschriebenes Zufallsexperiment und führt man
m unabhängige Wiederholungen durch, so kann man zählen, wie of ein Ereignis A ∈ P(Ω)
als Ergebnis der m Wiederholungen eintritt.
Definition 2.58. Tritt ein Ereignis A ∈ P(Ω) bei m unabhängigen Versuchen hm (A)–mal
ein, so nennt man hm (A) die absolute Häufigkeit und
Hm (A) =
hm (A)
m
die relative Häufigkeit von A in m Versuchen.
Man verifiziert leicht, dass die relative Häufigkeit Hm (A) die folgenden Eigenschaften
besitzt:
74
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
1) Für alle A ∈ P(Ω) gilt: 0 ≤ Hm (A) ≤ 1,
2) Es gilt: Hm (Ω) = 1,
3) Für alle A, B ∈ P(Ω) mit AB = ∅ gilt:
Hm (A ∪ B) = Hm (A) + Hm (B)
Man kommt damit zur Definition des Laplaceschen Zufallsexperiments und dem folgenden
Wahrscheinlichkeitsbegriff.
Definition 2.59. Sind in einem endlichen Ergebnisraum alle Elementarereignisse gleich
häufig, so nennt man das zugehörige Zufallsexperiment ein Laplacesches Zufallsexperiment. Die Wahrscheinlichkeit des Ereignisse A ist dann gegeben durch
Anzahl der Elementarereignisse {ξj } ⊂ A
P (A) =
Gesamtzahl der Elementarereignisse
Zufallsexperimente, die us kombinatorischen Überlegungen beruhen, lassen sich mit Hilfe
der Laplaceschen Definition einer Wahrscheinlichkeit mathematisch und beschreiben und
wir geben dazu nur ein konkretes Beispiel.
Beispiel 2.60. Eine Urne enthält n (bis auf die Farbe) gleiche Kugeln, von denen m rot
und n − m weiß sind. Aus der Urne werden zufällig k Kugeln gezogen. Wie groß ist die
Wahrscheinlichkeit dafür, dass unter
den
k Kugeln l rote und k − l weiße sind?
n
Zunächst kann man k Kugel auf
verschiedene Arten aus n Kugeln auswählen, d.h.
k
n
ist die Gesamtzahl der Elementarereignisse des oben formulierten Zufallsexperik
m
ments. Aus m roten Kugeln können l auf
verschiedene Arten ausgewählt werden;
l
n−m
Arten. Für die Laplacesche
k − l weiße aus n − m vorhandenen auf genau
k−l
Wahrscheinlichkeit folgt dann
m
n−m
l
k−l
Pk =
n
k
was man auch als hypergeometrische Verteilung bezeichnet.
Es ist offensichtlich, dass man sich bei der stochastischen Modellierung nicht allein auf
endliche Ergebnisräume Ω mit gleichwahrscheinlichen Elementarereignissen beschränken
kann.
Dies führt auf eine Definition der Wahrscheinlichkeit für allgemeine (endliche, abzählbar
und überabzählbar unendliche) Räume, wie sie 1933 von Kolmogorov10 auf axiomatischem
Weg eingeführt wurde.
10Andrej Nikolaevich Kolmogorov, russischer Mathematiker, 25. April 1903 in Tambov, 20. Oktober
1987 in Moskau
3. STOCHASTISCHE PROZESSE
75
Eine Schwierigkeit, die bei der mathematischen Formulierung auftaucht, ist dabei, dass
bei überabzählbar unendlichen Ergebnisräumen auch überabzählbar viele Elementarereignisse auftreten und man daher Probleme hat, jedem Elementarereignis eine positive
Wahrscheinlichkeit zuzuordnen.
Man beschränkt sich daher darauf, Wahrscheinlichkeiten nur für gewisse Teilmengen der
Potenzmenge P(Ω) zu definieren. Diese Teilmengen sich durch den Begriff einer σ–Algebra
charakterisiert.
Definition 2.61. Ein nichtleeres System B von Teilmengen eines Ergebnisraums Ω heißt
σ–Algebra über Ω, wenn gilt:
1)
2)
A ∈ B ⇒ Ā ∈ B
An ∈ B, n = 1, 2, . . . ⇒
∞
S
n=1
An ∈ B
Der Gesamtraum Ω und die leere Menge ∅ sind stets Elemente einer σ–Algebra: nach 1)
folgt aus A ∈ B auch Ā ∈ B und weiter gilt A ∩ Ā = Ω ∈ B und demnach Ω̄ = ∅ ∈ B.
Abzählbare Durchschnitte von Elementen aus B sind ebenfalls wieder Elemente von B,
d.h. es gilt
∞
\
An ∈ B, n = 1, 2, . . . ⇒
An ∈ B
n=1
Man kann aus jeder Teilmenge M ⊂ P(Ω) auf eindeutige Weise eine σ–Algebra B = B(M )
konstruieren, die man als die von M erzeugte σ–Algebra bezeichnet. Diese σ–Algebra
B(M ) ist auch die kleinste σ–Algebra, die die Ausgangsmenge M selbst enthÄlt, d.h. es
gilt:
1) M ⊂ B(M )
2) Ist B 0 eine σ–Algebra, die M enthält, so gilt B(M ) ⊂ B 0
Für einen endlichen Ergebnisraum Ω = {ξ1 , . . . , ξn } ist die Potenzmenge P(Ω) offensichtlich eine σ–Algebra. Ein weiteres eichtiges Beispiel für eine σ–Algebra ist die durch die
halboffenen Intervalle I = (a, b] ⊂ R erzeugte σ–Algebra über den Ergebnisraum Ω = R,
die auch Borelsche σ–Algebra genannt wird.
Mit Hilfe des Begriffs σ–Algebra läßt sich jetzt durch die Kolmogorovschen Axiome eine
Verallgemeinerung der Laplaceschen Wahrscheinlichkeit für allgemeine Räume definieren.
Definition 2.62. Gegeben seien ein Ereignisraum Ω und eine geeignete σ–Algebra B über
Ω, sodass die Elemente von B die Ereignisse eines Zufallsexperimentes definieren. Weiter
sei P eine Funktion, die jedem Ereignis A ∈ B eine reelle Zahl zuordnet und die folgenden
Bedingungen (Kolmogorovschen Axiome) erfüllt:
A1) Für alle A ∈ B gilt: P (A) ≥ 0
A2) Es gilt: P (Ω) = 1
A3) Für paarweise disjunkte Ereignisse An ∈ B, n = 1, 2, . . . gilt:
!
∞
∞
X
[
P (An )
An =
P
n=1
n=1
76
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Dann nennt man P (A) die Wahrscheinlichkeit des Ereignisse A.
Um nun ein gegebenes Zufallexperiment mit Hilfe eines mathematischen Modells zu beschreiben verwendet man einen Wahrscheinlichkeitsraum (Ω, B, P ) bestehend aus dem
Ereignisraum Ω, einer σ–Algebra aus Teilmengen von Ω und eine Wahrscheinlichkeitsfuntkion P : B → R≥0 .
Satz 2.63. Es gilt stets
1)
P (∅) = 0
2)
P (Ā) = 1 − P (A)
3)
P (A ∪ B) = P (A) + P (B) − P (AB)
Beweis. Da die leere Menge ein Element von B ist, ist P (∅) wohldefiniert und aus
A1) aus Definition 2.62 folgt
P (∅) ≥ 0
Sei nun A 6= ∅ ein Element von B. Dann gilt A ∪ ∅ = A ∈ B und A ∩ ∅ = ∅ ∈ B. Aus der
Bedingung A3) erhalten wir demnach
P (A) = P (A ∪ ∅) = P (A) + P (∅)
und daher P (∅) = 0.
Für Teil 2) bemerken wir, dass aus A ∪ Ā = ∅ und A ∩ Ā = Ω unter Verwendung von A2)
und A3) folgt:
1 = P (Ω) = P (A ∩ Ā) = P (A) + P (Ā)
und daher P (Ā) = 1 − P (A).
Für den letzten Teil des Satzes bemerken wir zunächst
A ∪ B = (AB̄) ∪ (AB) ∪ ĀB)
wobei die drei auf der rechten Seite stehenden Ereignisse paarweise disjunkt sind und
außerdem die Beziehungen
A = (AB) ∪ (AB̄)
B = (AB) ∪ (ĀB)
gelten. Aus A3) folgt demnach
P (A ∩ B) = P (AB̄) + P (AB) + P (ĀB)
P (A) = P (AB̄) + P (AB)
P (B) = P (AB) + P (ĀB)
Eine Kombination der drei Gleichungen ergibt aber
P (A ∩ B) = P (A) − P (AB) + P (AB) + P (B) − P (AB)
= P (A) + P (B) − P (AB)
3. STOCHASTISCHE PROZESSE
77
Bemerkung 2.64. Ein höchstens abzählbares System {An ∈ B : Ak An = ∅, k 6= n} nennt
man auch eine vollständige Ergebnisdisjunktion, falls gilt
∞
[
An = Ω
n=1
Für ein solches System gilt wegen A2)
P
∞
[
An
n=1
!
=1
Weiter zeigt man mit Hilfe von A3) für zwei Elemente A, B ∈ B mit A ⊂ B die Abschätzung P (A) ≤ P (B).
Ein weiterer zentraler Begriff bei der stochastischen Modellierung ist der Begriff der bedingten Wahrscheinlichkeit.
Definition 2.65. Sei Ω, B, P ) ein Wahrscheinlichkeitsraum eines Zufallsexperimentes und
A, B ∈ B mit P (B) > 0 zwei Ereignisse. Dann nennt man
P (AB)
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
(2.70)
P (A|B) =
Die bedingte Wahrscheinlichkeit bewertet also das Eintreffen des Ereignisses A unter der
Voraussetzung, dass das Ereignis B mit Sicherheit passiert ist.
Beispiel 2.66. Wir betrachten ein Zufallsexperiment mit zwei Würfeln und fragen nach
der Wahrscheinlichekit zwei Sechsen zu werfen, unter der Bedingung, dass mit einem
Würfel eine Sechs gewürfelt wird. Der Ergebnisraum dieses Zufallsexperiments ist die
Menge
Ω = {(w1 , w2 ) : w1 , w2 ∈ {1, . . . , 6}}
das Ereignis A ⊂ Ω zwei Sechsen zu würfeln ist dann
und
A = {(6, 6)}
B = {(w1 , 6) : w1 ∈ {1, . . . , 6}}
beschreibt das Ergebnis, dass mit dem zweiten Würfel eine Sechs gewürfelt wird und mit
dem ersten eine beliebige Augenzahl zwischen 1 und 6. Nun gilt wegen A ⊂ B
1
P (A ∩ B) = P (A) =
36
und P (B) = 1/6. Daraus folgt
1
P (AB)
=
P (B)
6
Die Wahrscheinlichkeit, zwei Sechsen zu werfen, unter der Bedingung, dass mit einem der
Würfel eine gerade Augenzahl gewürfelt wird, sollte natürlich kleiner als 1/6 sein. Mit
P (A|B) =
C = {(w1 , w2 ) : w1 ∈ {1, . . . , 6}, w2 ∈ {2, 4, 6}}
78
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
ergibt sich
P (A|C) =
P (A)
1/36
1
P (AC)
=
=
=
P (C)
P (C)
1/2
18
Einige Eigenschaften und Folgerungen der bedingten Wahrscheinlichekit sind im Folgenden
kurz zusammengefasst:
1) Es gilt stets
P (A|B)P (B) = P (B|A)P (A)
d.h. im Allgemeinen P (A|B) 6= P (B|A).
2) Setzen wir für festes B ∈ B
PB (A) = P (A|B)
so erfüllt PB die Kolmogorovschen Axiome aus Definition 2.62 und definiert also
einen Wahrscheinlichkeitsraum (Ω, B, PB ). Insbesondere gilt: PB (Ω) = 1.
3) Die bedingte Wahrscheinlichkeit kann man dazu verwenden, um eine Multiplikationsregel für Wahrscheinlichkeiten zu definieren: aus (2.70) folgt
P (AB) = P (A|B)P (B)
beziehungsweise
(2.71)
P (AB) = P (B|A)P (A)
Mit Hilfe vollständiger Induktion beweist man ferner die Beziehung:


!
j−1
n
n
[
Y
[
P
Aj  =
P Aj |
Ak
j=1
j=1
k=1
Eine Anwendung von (2.71) besprechen wir im folgenden Beispiel.
11
Beispiel 2.67. In einem Raum befinden sich n Personen. Wie hoch ist die Wahrscheinlichkeit, dass mindestens 2 Personen im Raum am gleichen Tag Geburtstag haben? Um diese
Frage zu beantworten, müssen wir zunächst einige zusätzlichen Modellannahmen machen:
• wir vernachlässigen Schaltjahre, d.h. wir gehen davon aus, dass jedes Jahr 365
Tage hat,
• die Geburtstage der n Personen sind übers Jahr gleichverteilt, d.h. jeder Geburtstag besitzt diesselbe Wahrscheinlichkeit.
Sei A das Ereignis
A = {mindestens 2 Personen haben am gleichen Tag Geburtstag}
dann gilt natürlich für n > 365
P (A) = 1
Für n ≤ 365 nummerieren wir die n Personen durch und definieren die folgenden Ereignisse
A = {alle Personen haben an verschiedenen Tagen Geburtstag}
Aj
= {die j–te Person hat an einem anderen Tag als die j − 1 vorhergehenden Personen Geburtstag}
11siehe [15].
3. STOCHASTISCHE PROZESSE
79
Es folgt
P (A2 ) =
P (A3 |A2 ) =
364
365
363
365
..
.
365 − (n − 1)
365
Wegen A = A2 A3 · · · An folgt mit der Beziehung (2.71)
P (An |A2 A3 . . . An−1 ) =
und daraus
P (A) = P (A2 )P (A3 |A2 ) · · · P (An |A2 A3 . . . An−1 )
P (A) = 1 − P (A) = 1 −
364 · 363 · · · · · (365 − n + 1)
365n−1
Für verschiedene Werte von n erhält man:
n
10
20
23
30
50
100
P (A) 0.117 0.411 0.507 0.706 0.970 0.99999969
Satz 2.68. Die Ereignisse Ak , k = 1, . . . , n seien eine vollständige Ereignisdisjunktion
und es gelte P (Ak ) > 0 für alle k = 1, . . . , n. Dann folgt für jedes B ∈ B die Formel von
der totalen Wahrscheinlichkeit
n
X
P (B) =
P (B|Ak )P (Ak )
k=1
und falls P (B) > 0 die Formel von Bayes
P (Ak |B) =
P (B|Ak )P (Ak )
n
P
P (B|Ak )P (Ak )
k=1
Bemerkung 2.69. Man nennt die Wahrscheinlichkeiten P (Ak |B) die a–posteriori Wahrscheinlichkeiten, dagegen die P (Ak ) a–priori Wahrscheinlichkeiten.
Die bedingte Wahrscheinlichkeit P (A|B) gibt die Wahrscheinlichkeit für das Eintreten
des Ereignisses A an, unter der Bedingung, dass das Ereignis B sicher eingetreten ist. Im
allgemeinen gilt daher P (A) 6= P (A|B). Gilt dagegen die Gleichheit, so ist das Eintreten
von A vollkommen unabhängig davon, ob B eingetreten ist oder nicht.
Definition 2.70. Gilt für A, B ∈ B
P (A|B) = P (A)
so nennt man A unabhängig von B.
Ist A unabhängig von B, so gilt für die Multiplikation
P (AB) = P (B)P (A|B) = P (A)P (B)
80
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
und daraus folgt direkt
P (A)P (B)
P (AB)
=
= P (B)
P (A)
P (A)
d.h. ist A unabhängig von B, so ist auch B unabhängig von A. Man sagt daher zusammenfassend, dass A und B voneinander unabhängig sind.
P (B|A) =
Beispiel 2.71. Ein klassisches Zufallsexperiment mit stochastisch unabhängigen Ereignissen ist das Ziehen–mit–Zurücklegen. So ist etwas die Wahrscheinlichkeit bei zweimaligen
Ziehen einer Karte aus einem Skatspiel, bei dem man die erste Karte nach dem Ziehen
wieder auf den Kartenstapel zurücklegt, zwei Asse zu ziehen gleich 1/64.
Definition 2.72. Die Ereignisse Ak ∈ B, k = 1, . . . , n, nennt man vollständig unabhängig, wenn für jede natürliche Zahl m ∈ {2, 3, . . . , n} und beliebige Zahlen 1 ≤ i1 <
i2 < · · · < im ≤ n gilt
!
m
m
[
Y
P
Aik =
P (Aik )
k=1
k=1
3.2. Zufallsvariablen und Wahrscheinlichkeitsverteilungen. Zur analytischen
Beschreibung von Zufallsexperimenten ist es häufig notwendig, jedem Ergebnis des Experimentes eine (reelle) Zahl zuzuordnen. Damit lassen sich viele Eigenschaften aus der
Analysis auf zufällige Prozesse übertragen. Eine Funktion, die einem Ergebnis eines zufälligen Prozesses eine reelle Zahl zuordnet, wird als eine Zufallsvariable bezeichnet.
Definition 2.73. Gegeben sei ein Wahrscheinlichkeitsraum (Ω, B, P ). Eine Funktion
X:Ω → R
ξ 7→ X(ξ)
die jedem Ereignis ξ ∈ Ω eine reelle Zahl zuordnet, heißt Zufallsvariable, wenn das Urbild
eines jeden Intervalls (−∞, a] ⊂ R ein Ereignis aus B ist:
Die Funktion
X −1 ((−∞, a]) ∈ B
∀a ∈ R
F (x) := P (X ≤ x)
der reellen Variablen x heißt Verteilungsfunktion der Zufallsvariablen X.
Man überlegt sich leicht, dass Verteilungsfunktionen stets die folgenden Eigenschaften
besitzen:
a) Es gilt: F : R → [0, 1] und
lim F (x) = 0,
x→−∞
lim F (x) = 1
x→∞
b) Die Funktion F (x) ist monoton nichtfallend:
x1 ≤ x2
⇒
F (x1 ) ≤ F (x2 )
c) Die Verteilungsfunktion ist rechtsseitig stetig:
F (x + 0) = lim F (x + h) = F (x)
h→0
(∀ x ∈ R)
3. STOCHASTISCHE PROZESSE
81
Eine spezielle Klasse von Zufallsvariablen sind die stetigen Zufallsvariablen, für die man
die Verteilungsfunktion stets als ein Integral über eine Dichte darstellen kann.
Definition 2.74. Eine Zufallsvariable X nennt man eine stetige Zufallsvariable, falls eine
integrierbare, nicht–negative Funktion f mit
Zx
F (x) =
f (x) dx
−∞
existiert. Die Funktion f = f (x) bezeichnet man als die Dichte der Zufallsvariablen.
Wir geben im folgenden einige wichtige Beispiele für stetige Zufallsvariablen und deren
zugehörige Dichten:
Beispiel 2.75. Die Dichte
f (x) =
1 : 0≤x<1
0 : sonst
beschreibt die sogenannte Gleichverteilung mod 1.
Die Dichte
2
x
1
f (x) = √ exp
2
2π
ist die Dichte der Standardnormalverteilung.
Die Dichte
0
: x≤0
f (x) =
λe−λx : x > 0
mit λ > 0 beschreibt die Exponentialverteilung.
Wir kommen nun zur Definition der Momente einer Zufallsvariablen. Gegeben sei dazu
eine stetige Zufallsvariable X mit der Dichte f (x).
Definition 2.76. Existiert das uneigentliche Integral
Z∞
E(X) :=
f (x) dx
−∞
so nennt man E(X) den Erwartungswert oder auch Mittelwert der Zufallsvariablen. Existiert für k ∈ N das uneigentliche Integral
Z∞
k
xk f (x) dx
E(X ) :=
so nennt man
E(X k )
−∞
das k–te Moment der Zufallsvariablen X.
Definition 2.77. Der Erwartungswert
k
E([X − E(X)] ) =
Z∞
−∞
(x − E(x))k f (x) dx
82
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
heißt k–tes zentrales Moment der Zufallsvariablen X.
Spezielle Momente haben eine besondere Bedeutung und werden daher entsprechend benannt:
D2 (X) = E([X − E(X)]2 ) = var(X)
nennt man Varianz oder auch Dispersion der Zufallsvariablen X. Der Term
p
D(X) = E([X − E(X)]2 )
ist die Standardabweichung der Zufallsvariablen X.
Charakteristische Funktion einer Zufallsvariablen:
Definition 2.78. Der Erwartungswert
ϕ(s) := E(eisX )
heißt charakteristische Funktion der Zufallsvariablen X.
Satz 2.79. Existiert das k–te Moment einer Zufallsvariablen X, so gilt
ϕ(k) (0)
(k = 1, 2, . . . )
ik
Bemerkung 2.80. Man beachte den Zusammenhang zur Fourier–Transformation:
Z∞
Z∞
1
isx
e−isx ϕ(s) ds
e f (x) dx
f (x) =
ϕ(s) =
2π
E(X k ) =
−∞
−∞
Wir kommen nun zu einigen typischen Wahrscheinlichkeitsverteilungen, die häufig bei der
Modellierung stochastischer Prozesse verwendet werden.
Zunächst betrachten wir die sogenannte Zweipunktverteilung: gegeben sei dazu eine Zufallsvariable, die nur zwei unterschiedliche Werte x1 < x2 mit positiver Wahrscheinlichkeit
annehmen kann.
Ist dann
P (X = x1 ) = p P (X = x2 ) = 1 − p
(0 < p < 1)
so folgt für die oben angegebenen Kenngrößen der Zweipunktverteilung:

 0 : x < x1
p : x1 ≤ x < x 2
F (x) =

1 : x ≥ x2
E(X) = p x1 + (1 − p) x2
D2 (X) = (x2 − x1 )2 p (1 − p)
ϕ(s) = p eisx1 + (1 − p) eisx2
Betrachtet man bei einem Zufallsexperiment mit Zweipunktverteilung n voneinander unabhängige Wiederholungen und sei Xn die diskrete Zufallsvariable, die angibt wie oft der
Wert x1 angenommen wird, so gilt
n
pk (1 − p)n−k
(k = 0, . . . , n)
P (Xn = k) =
k
3. STOCHASTISCHE PROZESSE
83
Diese Verteilung bezeichnet man als Binomialverteilung und man berechnet
X n pk (1 − p)n−k
F (x) =
k
k≤x
E(X) = n p
D2 (X) = n p (1 − p)
ϕ(s) = (1 + p (eis − 1))n
Mit Hilfe der Binomialverteilung läßt sich die sogenannte Poissonverteilung ableiten.
Definition 2.81. Eine Zufallsvariable X, die die Werte k = 0, 1, 2, . . . mit den Wahrscheinlichkeiten
λk −λ
P (X = k) =
e
(λ > 0)
k!
annimmt, nennt man poissonverteilt mit Parameter λ.
Der Zusammenhang zur Binomialverteilung wurde bereits 1837 von Poisson angegeben:
Satz 2.82. Die diskrete Zufallsvariable Xn genüge der Binomialverteilung. Gilt mit der
Konstanten λ < 0 für n = 1, 2, 3, . . . die Beziehung
λ
p=
n
so gilt
λk −λ
e
lim P (Xn = k) =
n→∞
k!
Hat man keine näheren Informationen über die Verteilungsfunktion einer Zufallsvariablen,
so nimmt man häufig an, dass die Zufallsvariablen normalverteilt sind und die Normalverteilung kann damit als die wichtigste Verteilung der Wahrscheinlichkeitstheorie angesehen
werden.
Definition 2.83. Eine Zufallsvariable X ist normalverteilt (gaußverteilt), wenn ihre
Dichte durch
1
(x − µ)2
√
f (x) =
(σ > 0)
exp −
2σ 2
2πσ
gegeben ist.
In der Tat können Zufallsvariablen, die durch eine additive Überlagerung einer großen
Zahl von unabhängigen zufälligen Ereignissen (Zufallsvariablen) entstehen, wobei jede der
einzelnen Zufallsvariablen einen im Verhältnis zur Gesamtsumme nur unbedeutenden Betrag liefert, als normalverteilt angesehen werden.
Von besonderen Interesse sind damit auch die Kenngrößen der Normalverteilung, die wir
im folgenden abgeben wollen: die Verteilungsfunktion der Normalverteilung ist gegeben
durch
Zx
1
(t − µ)2
F (x) = √
dt
exp −
2σ 2
2πσ
−∞
84
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
die sich mit Hilfe der Gaußschen Fehlerfunktion erf (x) auch in der Form
F (x) =
=
1 2
·√
2
π
√
(x−µ)/(
Z 2σ)
1 1
+ erf
2 2
2
e−t dt
−∞
x−µ
√
2σ
darstellen läßt, wobei die Fehlerfunktion (wie in Abschnitt 2.2 bereits angegeben) über die
Formel
Zx
2
2
erf (x) = √
e−t dt
π
0
definiert ist.
Für den Erwartungswert einer normalverteilten Zufallsvariablen berechnet man
Zx
(t − µ)2
1
dt = µ
t · exp −
E(X) = √
2σ 2
2πσ
−∞
und die Varianz ist gegeben durch
D2 (X) = σ
Das k–te zentrale Moment lautet
(
1 · 3 · · · · · (k − 1) σ k : falls k gerade
k
E((x − µ) ) =
0
: falls k ungerade
und die charakteristische Funktion ist gegeben durch
(σs)2
ϕ(s) = eisµ exp −
2
Für N (µ; σ 2 )–verteilte Zufallsvariablen gilt als eine weitere vor allem in Anwendungen
wichtige Eigenschaft:
P (µ − σ < X ≤ µ + σ) ≈ 0.68
P (µ − 2σ < X ≤ µ + 2σ) ≈ 0.955
P (µ − 3σ < X ≤ µ + 3σ) ≈ 0.997
d.h. praktisch alle Werte von X liegen zwischen µ − 3σ und µ + 3σ.
Der Begriff Zufallsvariable läßt sich auf Zufallsvariablen X : Ω → Rd erweitern, d.h. es
lassen sich auch mehrdimensionale Zufallsvariablen definieren.
Definition 2.84. Die Funktion
F (x1 , . . . , xd ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xd ≤ xd )
einer mehrdimensionalen Variablen X heißt Verteilungsfunktion von X.
3. STOCHASTISCHE PROZESSE
85
Die Dichte einer zweidimensionalen Zufallsvariablen berechnet sich zum Beispiel über
f (x1 , x2 ) =
∂2
F (x)
∂x1 ∂x2
Definition 2.85. Für eine zweidimensionale Zufallsvariablen X mit der Dichte f (X) =
f (x1 , x2 ) sind die Randdichten von X gegeben durch
Z∞
fX1 (x1 ) =
f (x1 , x2 ) dx2
fX2 (x2 ) =
−∞
Z∞
f (x1 , x2 ) dx1
−∞
Die Randdichten sind gerade die Dichten der Komponenten des Zufallsvektors X = (X1 , X2 )T .
Bemerkung 2.86. Bei der Definition der Randdichten wird die Zufälligkeit einer der
beiden Komponenten durch Integration über diese eliminiert.
Definition 2.87. Man nennt
fX1 (x1 |X2 = x2 ) =
f (x1 , x2 )
fX2 (x2 )
die bedingte Dichte von X1 unter der Bedingung X2 = x2 und
fX2 (x2 |X1 = x1 ) =
f (x1 , x2 )
fX1 (x1 )
die bedingte Dichte von X2 unter der Bedingung X1 = x1 .
Definition 2.88. Zwei Zufallsvariablen heißen unabhängig, falls
f (x, y) = fX (x) · fY (y)
Definition 2.89. Für die beiden Zufallsvariablen X und Y nennt man den Ausdruck
cov(X, Y ) = E{(X − µX )(Y − µY )}
die Kovarianz von X und Y .
Erwartungswerte von zweidimensionalen Zufallsvariablen sind dabei definiert durch
Z∞ Z∞
g(x, y)f (x, y) dxdy
E{g(X, Y )} =
−∞ −∞
Der Korrelationskoeffizient von X und Y ist definiert durch
ρX,Y
cov(X, Y )
= ρ(X, Y ) = p
D2 (X)D2 (Y )
E{(X − µX )(Y − µY )}
=
σX σY
86
2. MATHEMATISCHE METHODEN DER MODELLBILDUNG
Beispiel 2.90. Wir betrachten die beiden normierten Zufallsvariablen
Y − µY
X − µX
Ỹ =
X̃ =
σX
σY
und definieren für t ∈ R die zusammengesetzte Zufallsvariable
Z = tX̃ + Ỹ
Der Erwartungswert von Z ist gleich Null und für die Varianz gilt
D2 (Z) = E{(tX̃ + Ỹ )2 } = t2 + 2tρX,Y + 1 ≥ 0
Demnach gilt für alle t ∈ R:
(t + ρX,Y )2 + (1 − ρ2X,Y ) ≥ 0
Daraus folgt aber für den Korrelationskoeffizienten ρX,Y
−1 ≤ ρX,Y ≤ 1
Bemerkung 2.91. Der Korrelationskoeffizient gibt an, wie ähnlich zwei Zufallsvariablen
sind:
1) Gilt ρX,Y , so nennt man die beiden Zufallsvariablen X und Y unkorreliert
2) Für |ρX,Y | = 1, so sind X und Y maximal korreliert.
3) Unabhängige Zufallsvariablen sind stets unkorreliert. Die Umkehrung gilt aber
nicht!
4) Sind X und Y allerdings normalverteilt, so folgt aus ρX,Y die Unabhängigkeit
von X.
5) Sind X und Y unabhängig, so gilt zusätzlich cov(X, Y ) = 0 und
D2 (X + Y ) = D2 (X) + D2 (Y )
E(X · Y ) = E(X) · E(Y )
Ist die Wahrscheinlichkeit P (A) eines zufälligen Ereignisses A nicht bekannt, so kann
durch ein Zufallsexperiment mit Hilfe der relativen Häufigkeit Hn (A) ein Schätzwert für
die Wahrscheinlichkeit P (A) bestimmt werden. Umgekehrt kann man sich fragen, wie weit
bei einem Zufallsexperiment mit n unabhängigen Wiederholungen die relative Häufigkeit
Hn (A) von einer gegebenen Wahrscheinlichkeit P (A) des Ereignisse (im Mittel) abweicht.
Diese Fragen werden durch das Gesetz der großen Zahlen und die Grenzwertsätze der
Wahrscheinlichkeitstheorie beantwortet.
Wir formulieren hier nun die beiden grundlegenden Sätze, nämlich das Bernoullisches
Gesetz der großen Zahlen (siehe 2.92) und den zentralen Grenzwertsatz (siehe 2.93)
Satz 2.92. Ist X1 , X2 , . . . eine Folge von unabhängigen, identisch verteilter Zufallsvariablen mit
P (Xn = 1) = p, P (Xn = 0) = 1 − p
(0 < p < 1)
so gilt für alle ε > 0
)
( n
1 X
X k − p < ε = 1
lim P n→∞
n
k=1
3. STOCHASTISCHE PROZESSE
87
Satz 2.93. X1 , X2 , . . . sei eine Folge unabhängiger, identisch verteilter Zufallsvariablen
mit
dann gilt mit Sn =
n
P
k=1
E(Xn ) = m < ∞
D2 (Xn ) = d2 < ∞
Xk für jedes x ∈ R
lim P
n→∞
Sn − nm
√
≤x
nd
1
=√
2π
Zx
−∞
2
y
exp −
dy
2
3.3. Grundlagen stochastischer Prozesse. Stochastische Prozesse sind kurzgesagt Familien von Zufallsvariablen X(t), die durch einen Parameter t ∈ T gekennzeichnet
sind, wobei man T auch als Parameterraum des stochastischen Prozesses bezeichnet. Ausgangspunkt ist dabei ein Wahrscheinlichkeitsraum (Ω, B, P ). Der Parameter t übernimmt
die Rolle einer Zeitvariablen und wir unterscheiden dabei grundsätzlich zwischen diskreten
und kontinuierlichen stochastischen Prozessen.
1) Diskrete stochastische Prozesse sind solche, bei denen der Indexparameter t nur
diskrete Werte annehmen kann
2) Kontinuierliche stochastische Prozesse sind durch eine kontinuierliche Zeitvariable
t ∈ R parametrisiert.
Ein stochastischer Prozess ist also zusammenfassend durch zwei Parameter induziert:
1) Zu jedem festen Zeitpunkt t0 ∈ T ist Xt0 (ξ) = X(t0 , ξ) eine Zufallsvariable, also
Xt0 : Ω → R
ξ 7→ Xt0 (ξ)
2) Wird das Ereignis ξ ∈ Ω festgehalten und betrachtet die Abhängigkeit von der
Zeit t ∈ T , so nennt man die Zeitfunktion X(t, ξ0 ) eine Realisierung oder Pfad
des Prozesses. Man spricht auch von der sogenannten Musterfunktion.
Im Allgemeinen ist die Anzahl aller möglichen Pfade eines stochastischen Prozesses (überabzählbar) unendlich groß.
Ein klassisches Beispiel für einen stochastischen Prozess ist ein sogenannte Warteschlange:
zu zufälligen Zeitpunkten treffen Kunden vor einem Schalter ein und fordern eine Bedienung, die eine bestimmte zufällige Abfertigungszeit erfordert. Eine solche Warteschlange
kann nun durch einen stochastischen Prozess X(t), der die Anzahl der zur Zeit t wartenden Kunden angibt, mathematisch modelliert werden. Die Theorie der Warteschlangen,
d.h. die Beschreibung mit Hilfe eines stochastischen Prozesses, stellt damit eine Methode
bereit, um wichtige Kenngrößen, wie z.B. die mittlere Wartezeit eines Kunden oder den
Auslastungsgrad des Schalters, zu ermitteln.
Ein typische Anwendung der Theorie der Warteschlangen findet man in der Informatik:
bei einem Betriebssystem eines Computers kann der Zugriff auf den Prozessor durch ein
Warteschlangensystem beschrieben werden. Aus den theoretischen Analysen des Modells
kann der mittlere Durchsatz und die mittlere Wartezeit berechnet werden.