Wahrscheinlichkeitstheorie für die Fachrichtung

Wahrscheinlichkeitstheorie für die Fachrichtung
Elektroingenieurwesen
WS 2009/10
Peer Christian Kunstmann
Karlsruher Institut für Technologie (KIT)
Institut für Analysis
Kaiserstraße 89, 76128 Karlsruhe
e-mail: [email protected]
Dies ist ein Vorlesungsabriss, gedacht zur Vorlesungsbegleitung und als Gedächtnisstütze,
nicht jedoch als etwas, das für sich selbst stehen könnte (wie etwa ein Lehrbuch). Der
Besuch der Vorlesung ist durch die Lektüre keinesfalls zu ersetzen, es gibt dort noch viel
mehr an mündlichen Erklärungen, Erläuterungen und Skizzen, die für Verständnis und
Einordnung unabdingbar sind.
1
1
Einführung
Die Vorlesung orientiert sich an dem Buch
F. Jondral, A. Wiesler: Wahrscheinlichkeitsrechnung und stochastische
Prozesse, Teubner Verlag, 2. Aufl. 2002,
wobei jedoch verschiedenes umgebaut werden muss und nicht alles behandelt werden kann.
Erwähnen möchte ich aber auch
N. Henze: Stochastik für Einsteiger, Vieweg,
in dem grundlegende Ideen ausführlich und zugänglich dargestellt werden.
Mathematische Modelle: Was ist Zufall? Was ist Wahrscheinlichkeit? Je länger man
darüber nachdenkt, desto weniger weiß man es. Der umgangssprachliche Gebrauch des
Wortes “wahrscheinlich” gibt keinen Hinweis darauf, wie Wahrscheinlichkeit zu messen
wäre. Wahrscheinlichkeit ist auch keine physikalische Größe wie etwa Stromstärke oder
Spannung. Berechnen lassen sich bestimmte Wahrscheinlichkeiten nur innerhalb eines
mathematischen Modells. Außerhalb von mathematischen Modellen werden wir nicht über
“Wahrscheinlichkeit” reden, bei der Aufstellung eines mathematischen Modells ist jedoch
darauf zu achten, dass die Modellannahmen plausibel sind. Der Sinn dieser Worte wird
sich hoffentlich im Laufe dieser Vorlesung erschließen.
2
Der Wahrscheinlichkeitsraum
Unter einem Zufallsexperiment verstehen wir einen Versuch, dessen Ausgang im Bereich
gewisser bekannter Möglichkeiten liegt, aber ungewiss ist, und der unter bestimmten Rahmenbedingungen (zumindest prinzipiell) beliebig oft wiederholbar ist.
Beispiele: Werfen einer Münze; Würfeln; Warten an einer Straße auf das erste vorbeifahrende Auto; Ziehung der Lotto-Zahlen.
2.1 Definition: Ein endlicher Ergebnisraum ist eine nicht-leere endliche Menge Ω =
{ξ1 , ξ2 , . . . , ξN }. Die Elemente ξj ∈ Ω heißen Ergebnisse, eine einelementige Teilmenge
{ξj } ⊂ Ω heißt Elementarereignis. Jede Teilmenge A ⊂ Ω heißt Ereignis. Ω und die leere
Menge ∅ sind Ereignisse, wobei Ω das sichere und ∅ das unmögliche Ereignis heißen.
Beispiele: (a) Münzwurf: Ω = {Kopf, Zahl} oder Ω = {0, 1}, wobei 0=Kopf,
ˆ
1=Zahl,
ˆ
|Ω| = Mächtigkeit von Ω = Anzahl der Elemente von Ω = 2.
(b) Würfeln: Ω = {1, 2, 3, 4, 5, 6}, hier |Ω| = 6; {1} ist Elementarereignis, ein Ereignis ist
z.B. A = {die gewürfelte Augenzahl ist gerade} = {2, 4, 6}.
(c) n-maliges Werfen einer Münze, wobei n natürliche Zahl:
Ω = {(x1 , x2 , . . . , xn ) : xj ∈ {0, 1} für jedes j ∈ {1, 2, . . . , n} },
2
hier gilt |Ω| = 2n , da es für jede der n Stellen je zwei Möglichkeiten gibt.
Etwa n = 3: A = {es fällt nie Kopf} = {(1, 1, 1)} Elementarereignis,
B = {es fällt genau einmal Zahl} = {(1, 0, 0), (0, 1, 0), (0, 0, 1)}.
(d) Ist Ω = {ξ1 , ξ2 , . . . , ξN } endlicher Ergebnisraum mit |Ω| = N , so gibt es genau 2N
Ereignisse. Für die Potenzmenge P(Ω) := {A : A ⊂ Ω} gilt also |P(Ω)| = 2N .
2.2 Rechnen mit Ereignissen, dh Rechnen mit Mengen
Sei Ω eine Menge und A, B ⊂ Ω. Dann
A∩B
A∪B
A\B
A := Ac
:=
:=
:=
:=
AB := {ξ ∈ Ω : ξ ∈ A und ξ ∈ B} Durchschnitt
{ξ ∈ Ω : ξ ∈ A oder ξ ∈ B} Vereinigung
A − B := {ξ ∈ Ω : ξ ∈ A und ξ 6∈ B} Differenz
{ξ ∈ Ω : ξ 6∈ A} Komplement, Negation, entgegengesetztes Ereignis
Bemerkung: A \ B = A ∩ B = A \ (A ∩ B).
Es gelten folgende Regeln:
Kommutativität von ∪/∩: A ∪ B = B ∪ A, A ∩ B = B ∩ A,
Assoziativität von ∪/∩:
A ∪ (B ∪ C) = (A ∪ B) ∪ C = A ∪ B ∪ C, A ∩ (B ∩ C) = (A ∩ B) ∩ C = A ∩ B ∩ C,
Distributivgesetze: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C), A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C).
Außerdem: A ∪ A = A, A ∪ Ω = Ω, A ∪ ∅ = A, A ∩ A = A, A ∩ Ω = A, A ∩ ∅ = ∅.
Definition: Sind A, B Ereignisse mit A ∩ B = ∅, so heißen A und B disjunkt oder unvereinbar.
De Morgansche Regeln: A ∪ B = A ∩ B, A ∩ B = A ∪ B.
Allgemeiner: Ist T =
6 ∅ eine Menge und ist für jedes t ∈ T ein Ereignis At ⊂ Ω gegeben, so
setzt man:
[
At := {ξ ∈ Ω : es gibt ein t ∈ T mit ξ ∈ At },
t∈T
\
t∈T
Es gilt dann:
S
t∈T
At =
At := {ξ ∈ Ω : für alle t ∈ T gilt ξ ∈ At }.
T
t∈T
At ,
T
t∈T
At =
S
t∈T
At .
2.3 Relative Häufigkeit
Definition: Tritt bei N unabhängigen Wiederholungen des durch Ω beschriebenen Zufallsexperiments das Ereignis A ⊂ Ω genau hN (A)-mal ein, so heißt hN (A) die absolute
Häufigkeit und
hN (A)
HN (A) :=
N
3
die relative Häufigkeit von A in N Versuchen.
Beispiel: Ein Würfel wird N = 100 mal geworfen mit
k 1
2
3
4
5
6
hN ({k}) 13 20 11
19
21
16
HN ({K}) 0.13 0.2 0.11 0.19 0.21 0.16.
Für A = {gerade Augenzahl} = {2, 4, 6} gilt hN (A) = 55, HN (A) = 0.55.
Bemerkung: Offenbar hat die relative Häufigkeit HN stets folgende Eigenschaften:
(1) Für alle A ⊂ Ω: 0 ≤ HN (A) ≤ 1;
(2) HN (Ω) = 1;
(3) Für alle A, B ⊂ Ω mit A ∩ B = ∅: HN (A ∪ B) = HN (A) + HN (B).
Folgerung: Es gelten auch:
(4) Für alle A ⊂ Ω: HN (A) = 1 − HN (A);
(5) Für alle A, B ⊂ Ω: HN (A ∪ B) = HN (A) + HN (B) − HN (A ∩ B).
Beweis für (5):
A
B
A∩B
B\A
Wegen A ∪ B = A + (B \ A) = A + (B \ (A ∩ B)) und B = (B \ (A ∩ B)) + (A ∩ B)
(+: disjunkte Vereinigung) gilt nach (3)
HN (A ∪ B) = HN (A) + HN (B \ (A ∩ B)),
HN (B) = HN (B \ (A ∩ B)) + HN (A ∩ B),
woraus unmittelbar (5) folgt.
2.4 Wahrscheinlichkeit im Laplace-Experiment
Definition: Sei Ω ein endlicher Ergebnisraum. Für jedes A ⊂ Ω ist
P (A) :=
|A|
Anzahl Elementarereignisse in A
=
|Ω|
Gesamtzahl der Elementarereignisse
die Wahrscheinlichkeit des Ereignisses A.
4
Interpretation: Jedes Elementarereignis {ξ} ⊂ Ω ist gleich wahrscheinlich.
Bemerkung: Ist |Ω| = N , so entspricht P der relativen Häufigkeit HN , wenn in N Versuchen jedes Elementarereignis genau einmal auftritt. Die Eigenschaften (1), (2), (3) und
auch (4), (5) aus 2.3 gelten also auch für P statt HN .
Beispiele: (a) Laplace-Würfel, Ω = {1, 2, 3, 4, 5, 6}. Für A = {2, 4, 6} gilt etwa P (A) =
|A|
= 63 = 0.5.
|Ω|
(b) Zweimaliges Würfeln.
Ende
Nicht immer ist es sinnvoll, alle Elementarereignisse als gleich wahrscheinlich anzunehmen: Woche 1
e = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
Beispiel: (c) Augensumme beim Werfen zweier Würfel, Ω
Vergleicht man mit Beispiel (b), so sieht man
Summe 2={(1,
ˆ
1)},
Summe 3={(1,
ˆ
2), (2, 1)}, Summe 4={(1,
ˆ
3), (2, 2), (3, 1)} etc.
Somit sollte hier sein: P ({2}) =
P ({j}) =
j−1
36
13−j
36
1
,
36
P ({3}) =
für j ∈ {2, 3, . . . , 7}
für j ∈ {8, 9, . . . , 12}
2
36
=
1
,
18
P ({4}) =
bzw. P ({j}) =
3
36
=
1
12
etc. Also
6 − |7 − j|
e
für j ∈ Ω.
36
2.5 Kolmogoroff-Axiome für endliche Ergebnisräume
Definition: Sei Ω ein endlicher Ergebnisraum. Eine Funktion P : P(Ω) → R, die jedem
Ereignis A ⊂ Ω eine reelle Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß, falls gilt:
(1) Für alle A ⊂ Ω: 0 ≤ P (A) ≤ 1;
(2) P (Ω) = 1;
(3) Für alle disjunkten A, B ⊂ Ω: P (A ∪ B) = P (A) + P (B).
Bemerkung: Ist P ein Wahrscheinlichkeitsmaß, so gilt auch:
(4) Für alle A ⊂ Ω: P (A) = 1 − P (A);
(5) Für alle A, B ⊂ Ω: P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Bemerkung: Ist Ω = {ξ1 , ξ2 , . . . , ξN } und |Ω| = N , so ist die Funktion P durch Angabe
der Wahrscheinlichkeit der Elementarereignisse pj := P ({ξj }) für j = 1, 2, . . . , N eindeutig
festgelegt. Gibt man die pj für j = 1, 2, . . . , N an, so gehört zu diesen genau dann ein
Wahrscheinlichkeitsmaß auf Ω, wenn pj ≥ 0 für alle j ∈ {1, 2, . . . , N } und p1 +p2 +. . .+pN =
1 gilt.
Beispiel: Werfen einer Münze, bis das erste Mal “Kopf” auftritt, höchstens jedoch viermal:
Ω = {K, ZK, ZZK, ZZZK, ZZZZ}, wobei Z =“Zahl”,
ˆ
K =“Kopf”,
ˆ
bzw. mit “Zahl”=1,
ˆ
5
“Kopf”=0:
ˆ Ω = {0, (1, 0), (1, 1, 0), (1, 1, 1, 0), (1, 1, 1, 1)}.
Hier ist (bei einer idealen Münze) plausibel:
1
1
1
P ({0}) = , P ({(1, 0)}) = , P ({(1, 1, 0)}) =
2
4
8
1
1
P ({(1, 1, 1, 0)}) = , P ({(1, 1, 1, 1)}) = .
16
16
Die Summe der angegebenen Werte ist = 1, also ist dadurch ein Wahrscheinlichkeitsmaß
festgelegt.
2.6 Unendliche Ergebnisräume
Beispiel: Werfen einer Münze, bis das erste Mal “Kopf” auftritt.
Ω = {K, ZK, ZZK, ZZZK, ZZZZK, . . .} = {ωj : j ∈ N}, wobei ωj := ZZ
· · · Z} K für j ∈ N.
| {z
(j−1)−mal
Die Menge Ω ist nicht endlich, aber Ω ist abzählbar, dh die Elemente von Ω können
vollständig mit natürlichen Zahlen durchnummeriert werden.
In Fortführung des Beispiels in 2.5 liegt es nahe zu setzen:
pj = P ({ωj }) =
1
2j
für jedes j ∈ N.
Ist die “Summe über alle pj ” gleich 1?
Definition: Sei a1 , a2 , . . . eine Folge von Zahlen aj ≥ 0. Dann setzen wir
∞
X
j=1
Hierbei ist
Pn
j=1
n
X
aj := sup{
aj : n ∈ N} ∈ [0, ∞].
j=1
aj = a1 + a2 + . . . + a n .
Im Beispiel gilt für jedes n ∈ N:
n
X
pj = p1 + p2 + . . . + pn =
j=1
1
1
1 1 1
+ + + . . . + n = 1 − n ≤ 1.
2 4 8
2
2
Andererseits wird die Differenz zu 1 beliebig klein, dh es gilt
P∞
j=1
pj = 1.
Definition: Die Ereignisse A1 , A2 , A3 , . . . heißen paarweise disjunkt, falls Aj ∩ Ak = ∅ für
alle j 6= k gilt. In diesem Fall schreiben wir die Vereinigung
∞
[
j=1
Gilt
P∞
j=1
Aj :=
[
Aj auch als
∞
X
Aj .
j=1
j∈N
Aj = Ω, so heißt die Folge (Aj )j∈N vollständige Ereignisdisjunktion.
6
Im Beispiel ist eine vollständige Ereignisdisjunktion gegeben durch
Aj := {ωj } = {ZZ
· · · Z} K} für j ∈ N.
| {z
(j−1)−mal
Definition: Eine unendliche Menge, die nicht abzählbar ist, heißt überabzählbar.
Beispiel: Die Menge R der reellen Zahlen ist überabzählbar.
2.7 Kolmogoroff-Axiome für abzählbare Ergebnisräume
Definition: Sei Ω ein abzählbarer Ergebnisraum. Eine Funktion P : P(Ω) → R, die jedem
Ereignis A ⊂ Ω eine reelle Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß auf P(Ω),
falls gilt:
(1) Für alle A ⊂ Ω: 0 ≤ P (A) ≤ 1;
(2) P (Ω) = 1;
(3) Für jede Folge (Aj )j∈N paarweise disjunkter Ereignisse Aj ⊂ Ω gilt:
∞
∞
X
X
P(
Aj ) =
P (Aj ).
j=1
j=1
Bemerkung: Diese Definition umfasst die Definition in 2.5. Auch hier gelten die Eigenschaften (4) und (5) aus 2.5.
Beispiel: Im Beispiel aus 2.6 definiert
X
P (A) :=
j mit ωj
1
2j
∈A
ein Wahrscheinlichkeitsmaß auf P(Ω).
2.8 Definition: Ein abzählbarer Wahrscheinlichkeitsraum ist ein abzählbarer Ergebnisraum Ω versehen mit einem Wahrscheinlichkeitsmaß P auf P(Ω).
3
Kombinatorik
Die Kombinatorik beschäftigt sich mit dem “Abzählen endlicher Mengen”. Dies ist insbesondere für die Bestimmung von Wahrscheinlichkeiten im Laplace-Experiment von Bedeutung. Wir betrachten eine endliche Menge M mit |M | = N ∈ N, es sei k ∈ N0 .
3.1 Anzahl der k-Tupel mit Elementen aus M (für k ≥ 1): Für die Menge
{(x1 , x2 , . . . , xk ) : xj ∈ M für jedes j ∈ {1, 2, . . . , k} } = M
× . . . × M} =: M k
| × M {z
k−mal
7
gilt |M k | = N k .
3.2 Permutationen: Für die Elemente von M hat man N ! = 1 · 2 · . . . · N Anordnungsmöglichkeiten, dh mögliche Reihenfolgen.
3.3 Anzahl der k-Tupel mit Elementen aus M , in denen alle Einträge verschieden sind (“Variationen”): Hier gibt es für 1 ≤ k ≤ N genau N · (N − 1) · . . . ·
!
(N − k + 1) = (NN−k)!
Möglichkeiten.
3.4 Anzahl der k-elementigen
Teilmengen von M (“Kombinationen”): Für 0 ≤
N
N!
k ≤ N gibt es genau k := k! (N −k)! Teilmengen von M , die genau k Elemente haben. Nk
heißt Binomialkoeffizient.
3.5 Beispiele:
(a) Ein Byte hat 8 Bit (Wert 0 oder 1); es gibt 28 = 256 verschiedene Bytes (3.1).
(b) Man kann die 7 Spieler einer Handballmannschaft auf 7! = 5040 Arten in einer Reihe
aufstellen (3.2).
= 3432 Arten in zwei Handballmannschaften einteilen
(c) Man kann 14 Spieler auf 14
7
(3.4).
(d) Will man unter 7 Teilnehmern Gold-, Silber- und Bronzemedaille verteilen, so gibt es
7!
= 7!
= 7 · 6 · 5 = 210 Möglichkeiten (3.3).
dafür (7−3)!
4!
(e)Will
5 rote, 3 gelbe und 2 grüne Kugeln hintereinander anordnen, so gibt es dafür
man
10 5
10!
= 5!3!2! = 2520 Möglichkeiten (3.4). Für k1 + k2 + . . . + kl = N mit kj ∈ N0 heißt Ende
3
5
Woche 2
N!
N
:=
k1 !k2 ! · · · kl !
k1 , k2 , ..., kl
Multinomialkoeffizient.
(f) Wahrscheinlichkeit für sechs Richtige im Lotto: 1/
4
49
6
= 1/13983816 ∼ 1/14Mio.
Bedingte Wahrscheinlichkeit und Unabhängigkeit
4.1 Def: Sei (Ω, P ) ein abzählbarer Wahrscheinlichkeitsraum, A, B ⊂ Ω und P (B) > 0.
Dann heißt
P (A ∩ B)
P (A|B) :=
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
4.2 Beispiel: Zweimaliger Münzwurf: Wie groß ist die Wahrscheinlichkeit, zweimal Kopf
zu werfen unter der Bedingung,
8
(a) dass der erste Wurf Kopf=0
ˆ ist? Es ist Ω = {0, 1}2 , A = {(0, 0)}, B = {(0, 0), (0, 1)},
1/4
1
1
= 12 .
P (A) = 4 , P (B) = 2 , P (A|B) = 1/2
(b) dass mindestens einmal Kopf fällt? Hier ist B = {(0, 0), (0, 1), (1, 0)}, P (B) =
P (A|B) = 13 .
3
4
und
4.3 Bemerkungen: (a) Die Funktion A 7→ P (A|B) ist ein Wahrscheinlichkeitsmaß auf Ω
(und auch auf B) (leicht).
(b) Multiplikationsregel für Wahrscheinlichkeiten:
P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A).
Entsprechendes gilt für n Ereignisse A1 , A2 , . . . , An ⊂ Ω:
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ∩ A2 ∩ . . . ∩ An−1 )P (An |A1 ∩ . . . ∩ An−1 )
= P (A1 ∩ . . . ∩ An−2 )P (An−1 |A1 ∩ . . . ∩ An−2 )P (An |A1 ∩ . . . ∩ An−1 )
= P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ . . . ∩ An−1 ).
4.4 Satz: Die Ereignisse A1 , A2 , . . . , An seien eine vollständige Ereignisdisjunktion und es
gelte P (Aj ) > 0 für jedes j ∈ {1, 2, . . . , n}. Dann gilt für jedes B ⊂ Ω die Formel von der
totalen Wahrscheinlichkeit
n
X
P (B) =
P (B|Aj )P (Aj )
j=1
und, falls P (B) > 0 ist, die Formel von Bayes
P (B|Ak )P (Ak )
P (Ak |B) = Pn
j=1 P (B|Aj )P (Aj )
für jedes k = 1, 2, . . . , n.
P
P
Beweis: B = nj=1 B ∩ Aj , also P (B) = nj=1 P (B ∩ Aj ), verwende nun 4.3(b). In der
zweiten Formel steht oben P (Ak ∩ B) und unten P (B).
4.5 Definition: Zwei Ereignisse A, B ⊂ Ω heißen (stochastisch) unabhängig, falls gilt
P (A ∩ B) = P (A)P (B).
4.6 Bemerkung: Sind A, B Ereignisse mit P (B) > 0, so gilt:
A, B unabhängig ⇐⇒ P (A) = P (A|B).
4.7 Beispiele: (a) In 4.2(a), 4.2(b) sind A, B nicht unabhängig.
9
(b) Zweimaliger Münzwurf:
A = {erster Wurf ist Kopf} = {(0, 0), (0, 1)},
B = {zweiter Wurf ist Kopf} = {(0, 0), (1, 0)},
A ∩ B = {(0, 0)}, P (A) = P (B) = 12 , P (A ∩ B) = 41 ; A, B sind unabhängig.
(c) Sechsmaliger Münzwurf:
A = {sechster Wurf ist Kopf},
P (A ∩ B) =
1
,
64
P (A) = 12 , P (B) =
1
;
32
B = {die ersten fünf Würfe sind Kopf},
A, B sind unabhängig, P (A) = P (A|B).
4.8 Binomialverteilung
Von einem Zufallsexperiment mit zwei Ausgängen 0 (“Niete”) und 1 (“Treffer”) werden N unabhängige Versuche durchgeführt. Die Wahrscheinlichkeit eines Treffers sei
p ∈ (0, 1). Wir interessieren uns für die Trefferanzahl in den N Versuchen und setzen
Ω = {0, 1, 2, . . . , N }. Es ist dann
N k
p (1 − p)N −k
P ({k}) =
k
für jedes k ∈ Ω. Dieses P heißt Binomialverteilung auf Ω mit Parametern N und p.
Beachte: Nach dem Binomialsatz (→HM I) gilt
N X
N
k=0
k
pk (1 − p)N −k = (p + (1 − p))N = 1N = 1.
4.9 Definition: Die Ereignisse A1 , A2 , . . . , An ⊂ Ω heißen unabhängig, falls für je k verschiedene Indizes i1 , i2 , . . . , ik ∈ {1, 2, . . . , n} gilt
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ) · . . . · P (Aik ).
Hierbei kann k die Werte 2, 3, . . . , n annehmen.
4.10 Beispiele: (a) Wirft man eine Münze n-mal und setzt Aj
=
{im j-ten Wurf fällt Kopf}, so sind A1 , A2 , . . . , An unabhängig: Es ist nämlich P (Aj ) = 21
für jedes j, und für k verschiedene Indizes i1 , . . . , ik ist
1
2n−k
P (Ai1 ∩ . . . ∩ Aik ) = n = k = P (Ai1 ) · . . . · P (Aik ).
2
2
(b) Zweimaliger Münzwurf: A = {beide Würfe sind gleich} = {(0, 0), (1, 1)}, B =
{erster Wurf ist Kopf} = {(0, 0), (0, 1)}, C = {zweiter Wurf ist Kopf} = {(0, 0), (1, 0)}.
Dann A ∩ B = A ∩ C = B ∩ C = {(0, 0)} und P (A) = P (B) = P (C) = 21 , P (A ∩ B) = 14 .
Also sind A, B unabhängig, A, C sind unabhängig und B, C sind unabhängig, aber A, B, C
sind nicht unabhängig.
Ende
Woche 3
10
5
Zufallsvariablen
5.1 Motivation: Wir haben schon Situationen kennengelernt, in denen eine “Reduktion”
oder “Zusammenfassung” von Ergebnissen auftrat, z.B.
Werfen zweier Würfel
Augensumme
e = {2, 3, 4, . . . , 12}.
Ω = {(j, k) : j, k ∈ {1, 2, 3, 4, 5, 6} } ∼> Ω
Formal sollte man hier mit Abbildungen arbeiten, in obigem Beispiel etwa mit der Abbildung
e (j, k) 7→ j + k;
Ω → Ω,
e hatten wir als P ({(j, k) : j + k ∈ A})
die Wahrscheinlichkeit eines Ereignisses A ⊂ Ω
bestimmt, wobei P das Wahrscheinlichkeitsmaß auf Ω war. Besonders interessant sind
Abbildungen X : Ω → R mit reellen Werten, da man mit diesen Werten rechnen kann.
Dabei betrachtet man in der Regel Ereignisse wie
X −1 ((a, b]) = {ω ∈ Ω : X(ω) ∈ (a, b]} = {ω ∈ Ω : a < X(ω) ≤ b} =: {X ∈ (a, b]}.
Beschränkt man sich auf solche Ereignisse, kann man in der Regel nicht allen Teilmengen
A ⊂ Ω eine Wahrscheinlichkeit P (A) zuzuordnen.
5.2 Definition (σ-Algebren): Ist Ω ein beliebiger Ergebnisraum, so heißt ein System A ⊂
P(Ω) eine σ-Algebra (über Ω), falls gilt:
(i) Ω ∈ A;
(ii) Für alle A ⊂ Ω gilt: A ∈ A ⇒ A ∈ A;
S
(iii) Gilt Aj ∈ A für j = 1, 2, 3, . . ., so gilt auch ∞
j=1 Aj ∈ A.
Beispiele: (a) P(Ω) und {∅, Ω} sind σ-Algebren über Ω. Für jede σ-Algebra A gilt {∅, Ω} ⊂
A ⊂ P(Ω).
(b) Würfeln Ω = {1, 2, 3, 4, 5, 6};
A = {∅, {1} , {2, 3, 4, 5, 6} , Ω}
{z
}
|{z} |
“Eins” “nicht Eins”
ist σ-Algebra über Ω. Man sieht hier, dass auch dies eine “Zusammenfassung” von Ergebnissen bedeutet.
5.3 Bemerkung: Sei A eine σ-Algebra über Ω.
(a) Wegen de Morgan und (ii), (iii) gilt auch
Aj ∈ A für j = 1, 2, 3, . . . =⇒
11
∞
\
j=1
Aj ∈ A.
(b) Wegen (i), (ii) gilt: ∅ ∈ A.
(c) Sind Aj ∈ A für j = 1, 2, 3, . . ., so gibt es paarweise disjunkte Bk ∈ A, k = 1, 2, 3, . . .
mit
∞
∞
∞
[
[
X
Aj =
Bk =
Bk (→ Def.2.6).
j=1
k=1
k=1
Sk−1
Setze etwa B1 = A1 , Bk = Ak \ ( j=1
Aj ) für k ≥ 2.
Sn
Tn
(d) A1 , A2 , . . . , An ∈ A =⇒ j=1 Aj , j=1 Aj ∈ A.
5.4 Definition (Kolmogoroff für allgemeine Wahrscheinlichkeitsräume): Sei Ω
ein beliebiger Ergebnisraum und A eine σ-Algebra über Ω [A enthält die Ereignisse, deren
Wahrscheinlichkeit wir messen wollen].
Eine Funktion P : A → R, die jedem Ereignis A ∈ A eine reelle Zahl P (A) zuordnet, heißt
Wahrscheinlichkeitsmaß auf A, falls gilt:
(1) Für alle A ∈ A: 0 ≤ P (A) ≤ 1;
(2) P (Ω) = 1;
(3)PFür jede Folge
P∞ (Aj )j∈N paarweise disjunkter Ereignisse Aj ∈ A gilt:
P( ∞
A
)
=
j=1 j
j=1 P (Aj ).
In diesem Fall heißt (Ω, A, P ) Wahrscheinlichkeitsraum.
Bemerkung: Für den Fall Ω abzählbar, A = P(Ω) erhalten wir die Definition 2.7.
5.5 Erzeugte σ-Algebra
Häufig gibt man das Wahrscheinlichkeitsmaß nicht auf ganz A an.
Definition: Ist Ω beliebiger Ergebnisraum und C ⊂ P(Ω), so gibt es eine kleinste σAlgebra, die C enthält, dh mit σ(C) ⊂ P(Ω) mit C ⊂ σ(C). Diese heißt die von C erzeugte
σ-Algebra. Es gilt:
\
B.
σ(C) =
B⊂P(Ω) ist σ-Algebra mit C⊂B
Beispiele:
(a) Die von {Ω} erzeugte σ-Algebra ist {∅, Ω}.
(b) In 5.2(b) ist σ({1}) = A.
(c) Die von den Intervallen in R erzeugte σ-Algebra heißt Borelsche σ-Algebra B. B wird
auch erzeugt von den Intervallen (a, b] mit a, b ∈ R, dh von C = {(a, b] : a, b ∈ R}, oder
auch von C = {(−∞, a] : a ∈ R}.
5.6 Definition: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable ist eine
Abbildung X : Ω → R mit
X −1 ((−∞, a]) ∈ A für alle a ∈ R.
12
Wir schreiben P (X ≤ a) für P ({ω ∈ Ω : X(ω) ≤ a}) [entsprechend für “>”, “=” etc] und
P (X ∈ B) für P ({ω ∈ Ω : X(ω) ∈ B}).
Eine Zufallsvariable heißt diskret, falls sie nur endlich oder abzählbar viele Werte annimmt.
Bemerkung: Der Wahrscheinlichkeitsraum (Ω, A, P ) wird häufig nicht genauer spezifiziert
oder gar nicht erst angegeben.
Beispiel: Eine Zufallsvariable X heißt binomialverteilt mit Parametern N ∈ N und p ∈
(0, 1), falls für jedes k ∈ {0, 1, 2, . . . , N } gilt:
N k
P (X = k) =
p (1 − p)N −k (vgl. mit 4.8).
k
5.7 Definition: Sei X eine diskrete Zufallsvariable
Pmit Wertebereich {xj : j ∈ I}, wobei
I endlich oder I = N und xj 6= xk für j 6= k. Falls j∈I |xj | P (X = xj ) < ∞ ist, so heißt
X
E(X) :=
xj P (X = xj )
j∈I
der Erwartungswert von X und
Var(X) := E(X − E(X))2 =
heißt die Varianz von X. Die Größe
D(X) :=
X
(xj − E(X))2 P (X = xj )
j∈I
p
Var(X)
heißt Standardabweichung der Zufallsvariable X. Statt Var(X) schreiben wir auch D2 (X).
P
Bemerkung: Die Voraussetzung j |xj | P (X = xj ) < ∞ sorgt im Falle I = N dafür, dass
die Reihe in der Definition von E(X) (absolut) konvergiert, wobei es auf die Reihenfolge
der Summanden nicht ankommt (→ HM). Im Fall I = N ist es möglich, dass Var(X) = ∞
gilt. Dann ist auch D(X) = ∞.
Bemerkung: Der Erwartungswert E(X) gibt an, was man “im Mittel” erwarten kann,
dh E(X) ist so etwas wie ein Mittelwert der Zufallsvariable X. Die Größen Var(X) und
D(X) sind Maße für die “mittlere” (dh gemittelte) Abweichung der Zufallsvariable X vom
Mittelwert E(X).
Es gilt
D2 (X) = E(X 2 ) − (E(X))2 .
5.8 Satz: Sei X eine diskrete Zufallsvariable mit Wertebereich {xj : j ∈ I} wie in 5.7. Ist
f : {xP
j : j ∈ I} → R eine Funktion, so ist auch f (X) eine diskrete Zufallsvariable, und im
Falle j∈I |f (xj )| P (X = xj ) < ∞ gilt
X
E(f (X)) =
f (xj ) P (X = xj ).
j∈I
13
(ohne Beweis)
5.9 Beispiele: (a) Sei X binomialverteilt mit Parametern N und p (vgl. 4.8: X beschreibt
die Trefferanzahl bei N unabhängigen Wiederholungen eines Zufallsexperiments, bei dem
die Trefferwahrscheinlichkeit p ∈ (0, 1) ist). Der Erwartungswert E(X) beschreibt die
“durchschnittlich zu erwartende Trefferanzahl in N Versuchen”, indem jede mögliche Trefferzahl mit der entsprechenden Wahrscheinlichkeit gewichtet wird:
E(X) =
N
X
k P (X = k)
k=0
N
X
mit k − 1 = j
N
=
k
pk (1 − p)N −k
k
k=1 | {z }
−1
=N (N
k−1 )
N X
N − 1 k−1
p (1 − p)N −1−(k−1)
= Np
k
−
1
k=1
N
−1 X
N −1 j
= Np
p (1 − p)N −1−j
j
j=0
= N p.
Ende
(b) Würfeln (Laplace-Würfel): Von den beiden Personen A und B erhalte A von B 2 Euro Woche 4
bei Augenzahl 1 oder 2 und B erhalte 1 Euro von A bei Augenzahl 3, 4, 5 oder 6. Ist das
Spiel fair? (Wir gehen davon aus, dass öfter gespielt wird.)
Die Zufallsvariable X gebe den Gewinn/Verlust von Spieler A an:
1
P (X = 2) = ,
3
2
P (X = −1) = .
3
Es ist
2 2
− = 0,
3 3
also haben wir “im Mittel” ein “Nullsummenspiel”, dh das Spiel ist fair.
E(X) = 2 P (X = 2) + (−1) P (X = −1) =
(c) Münzwurf (ideale Münze): bei “Kopf” erhalte A q Euro von B, bei “Zahl” erhalte B q
Euro von A. Gibt X den Gewinn/Verlust von Spieler A an, so gilt
1
P (X = q) = ,
2
1
P (X = −q) = ,
2
E(X) = 0 (klar),
aber die “mittlere Abweichung” von E(X) hängt von q ab:
D2 (X) = E(X − E(X))2 = E(X 2 ) = q 2 P (X = q) + q 2 P (X = −q) = q 2 .
14
Ist D2 (X) groß, so muss man größere Schwankungen um den Mittelwert E(X) erwarten.
(d) Sei X binomialverteilt mit Parametern N und p. Dann ist E(X) = N p nach (a) und
D2 (X) = E(X 2 ) − (E(X))2 , wobei
N
X
2
2 N
E(X ) =
k
pk (1 − p)N −k
k
k=0
N
−1
X
N −1 j
p (1 − p)N −1−j
wie in (a)
= Np
(j + 1)
j
j=0
−1 N
−1 hN
i
X
X
N −1 j
N −1 j
N −1−j
= Np
j
p (1 − p)
+
p (1 − p)N −1−j
j
j
j=0
j=0
= N p[(N − 1)p + 1].
Also ist D2 (X) = N p − N p2 = N p(1 − p).
(e) Eine Zufallsvariable X heißt hypergeometrisch verteilt mit Parametern n, M , N − M
(wobei n ≤ min(M, N − M )), falls gilt
M N −M
P (X = k) =
k
n−k
N
n
für k = 0, 1, . . . , n.
Z.B. Anzahl der Richtigen beim Lotto “6 aus 49”: hier ist n = 6, N = 49, M = 6 Richtige,
(6)( 43 )
N − M “Falsche”. Die Wahrscheinlichkeit für k Richtige ist k 496−k .
(6)
nM (N −M )(N −n)
M
2
. Im Lotto-Beispiel ist etwa E(X) = 6 ·
Es gilt E(X) = n N und D (X) =
N 2 (N −1)
6
∼ 0.735 (durchschnittliche Anzahl der Richtigen, wenn etwa immer die gleichen 6 Zahlen
49
gespielt werden und die Ziehungen zufällig mit Laplace-Wahrscheinlichkeit erfolgen).
Anmerkung: Es ist M < N . Die Bedingung n ≤ min(M, N − M ) ist nicht unbedingt
nötig, wenn man Mk = 0 setzt für k > M etc. Es muss aber n ≤ N gelten, weil man sonst
durch 0 dividiert.
5.10 Bemerkung: Ist X eine diskrete Zufallsvariable wie in 5.7/5.8, so heißt die Funktion
xj 7→ P (X = xj ) Verteilung von X.
Wir haben insbesondere in den Beispielen 5.9(a), (d) und (e) den Wahrscheinlichkeitsraum
(Ω, A, P ) nicht direkt angegeben, sondern nur die Verteilungen der Zufallsvariable X.
Setzt man pj = P (X = xj ) für j ∈ I, so gilt in der Situation von 5.8:
X
E(f (X)) =
f (xj ) pj .
j∈I
5.11 Definition: Ist X eine diskrete Zufallsvariable wie in 5.7, so heißt die Funktion
X
FX : R → [0, 1], a 7→ P (X ≤ a) =
P (X = xj ),
j∈I mit xj ≤a
15
die Verteilungsfunktion von X.
An den Stellen xj macht FX einen Sprung der Höhe pj = P (X = xj ), dazwischen ist FX
konstant.
5.12 Bemerkung:
(a) Ist X eine diskrete Zufallsvariable mit Werten xj , j ∈ I, wie in 5.7 und Verteilung
pj = P (X = xj ), so gilt für jedes a ∈ R:
X
FX (a) =
pj ,
j∈I mit xj ≤a
(b) Für alle a, b ∈ R mit a < b gilt: 0 ≤ FX (a) ≤ FX (b) ≤ 1, d.h. FX ist monoton wachsend.
Liegt kein xj im Intervall (a, b], so gilt FX (x) = FX (a) für alle x ∈ (a, b]. Es gilt
P (X ∈ (a, b]) = FX (b) − FX (a).
(c) Für jedes b ∈ R gilt
P (X < b) = P (X ≤ b) − P (X = b) = FX (b) − P (X = b).
5.13 Rechnen mit Verteilungsfunktionen
Sei X eine diskrete Zufallsvariable mit Verteilungsfunktion FX .
(a) Y = aX + b, wobei a > 0, b ∈ R. Für y ∈ R gilt
FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (X ≤
y−b
y−b
) = FX (
).
a
a
(b) Y = aX 3 + b, wobei a > 0, b ∈ R. Beachte,
dass R → √
R, x 7→ x3 bijektiv ist, die
√
Umkehrabbildung bezeichnen wir hier mit x 7→ 3 x, also z.B. 3 −8 = −2. Für y ∈ R gilt
dann
r
r
y
−
b
y
−
b
3
3 y − b
FY (y) = P (Y ≤ y) = P (aX 3 +b ≤ y) = P (X 3 ≤
) = P (X ≤
) = FX (
).
a
a
a
(c) Y = |X|. Beachte, dass x 7→ |x| nicht injektiv ist. Für y ∈ R gilt:
FY (y) = P (Y ≤ y) = P (|X| ≤ y) = P (−y ≤ X ≤ y).
Für y < 0 gilt FY (y) = 0. Für y ≥ 0 gilt
FY (y) = P (X ≤ y) − P (X < −y) = FX (y) − FX (−y) + P (X = −y).
16
(d) Y = aX 2 + b, wobei a > 0, b ∈ R. Für y < b ist FY (y) = P (Y ≤ y) = 0. Für y ≥ b gilt
r
y
−
b
y−b
FY (y) = P (Y ≤ y) = P (aX 2 + b ≤ y) = P (X 2 ≤
) = P (|X| ≤
)
a
a
r
r
r
y−b
y−b
y−b
= FX (
) − FX (−
) + P (X = −
),
a
a
a
wobei wir (c) verwendet haben.
5.14 Die Gleichverteilung
Sei [a, b] ⊂ R. Eine Zufallsvariable X heißt gleichverteilt
funktion FX : R → [0, 1] gilt

für
 0
x−a
für
FX (x) = P (X ≤ x) =
 b−a
1
für
auf [a, b], falls für die Verteilungsx ≤ a,
x ∈ (a, b],
x > b.
Vorstellung: “Jede Zahl im Intervall
ist gleich wahrscheinlich.”
T
Aber: Ist x ∈ R, so gilt {x} = n∈N (x − n1 , x] und für jedes n ∈ N ist
1
1
, x]) = P (X ≤ x) − P (X ≤ x − )
n
n
1
1
1
= FX (x) − FX (x − ) ≤ ·
,
n
n b−a
0 ≤ P (X = x) ≤ P (X ∈ (x −
also P (X = x) = 0 für jedes x ∈ R.
Obige Vorstellung ist also zu präzisieren durch:
Für a ≤ c ≤ d ≤ b gilt
d−c
,
b−a
d.h. Teilintervalle (c, d] ⊂ (a, b] gleicher Länge haben gleiche Wahrscheinlichkeit.
P (X ∈ (c, d]) =
Beachte, dass hier P (X ∈ (c, d]) = P (X ∈ [c, d]) = P (X ∈ (c, d)) wegen P (X = c) =
P (X = d) = 0.
Bemerkung: Eine auf [a, b] gleichverteilte Zufallsvariable ist nicht diskret. Erwartungswert
und Varianz solcher Zufallsvariablen werden wir erst später behandeln. Intuitiv ist aber
klar, dass E(X) = a+b
gelten sollte.
2
Beispiel: “Flaschendrehen”: Hier sollte jede Richtung gleich wahrscheinlich sein. Bezeichnet die Zufallsvariable X den Winkel zu einer vorher festgelegten Richtung, so kann man
X als auf [0, 2π] gleichverteilt annehmen.
5.15 Transformation von Zufallszahlen
17
Ende
Woche 5
Von Zufallszahlengeneratoren wird in der Regel eine Zufallsvariable X geliefert, die in [0, 1]
gleichverteilt ist. Will man eine Zufallsvariable Y mit einer gegebenen Verteilungsfunktion
F erhalten, so kann man versuchen, X mithilfe einer Funktion g zu transformieren, und
Y = g(X) betrachten.
Wir nehmen an, dass die gewünschte Verteilungsfunktion F für ein geeignetes Intervall
(c, d) ⊂ R die folgenden Bedingungen erfüllt:
F (y) = 0 für y < c,
F : (c, d) → (0, 1) streng monoton wachsend und surjektiv,
F (y) = 1 für y > d.
Hierbei sind die Fälle c = −∞ und d = ∞ zugelassen.
Satz: Setzt man Y = g(X) für g = F −1 : (0, 1) → (c, d), so hat Y die gewünschte
Verteilungsfunktion FY = F .
Beweis: Es gilt FX (x) = x für x ∈ [0, 1]. Für y ∈ (c, d) gilt:
FY (y) = P (Y ≤ y) = P (F −1 (X) ≤ y) = P (X ≤ F (y)) = F (y).
Beispiel: Sei [a, b] ⊂ R gegeben. Sei F (y) = y−a
für y ∈ (a, b] und F (y) = 0 für y ≤ a,
b−a
F (y) = 1 für y > b. Sei X gleichverteilt auf [0, 1]. Für x ∈ (0, 1) gilt g(x) = y genau dann,
wenn F (y) = x, d.h. genau dann, wenn y = (b−a)x+a gilt. Also ist hier g(x) = (b−a)x+a
und nach dem Satz gilt für Y = (b − a)X + a, dass FY = F gilt. Somit ist Y gleichverteilt
auf [a, b] (vgl. auch Beispiel 5.13(a)).
5.16 Die Poissonverteilung
Vorbemerkung: Wir verwenden folgende Tatsachen
HM I:
P∞ xk aus der
x n
x
−x
Für jedes x ∈ R gilt limn→∞ (1 + n ) = e = k=0 k! und e = (ex )−1 .
Nun sei λ > 0 fest und für jedes N ∈ N sei XN eine Zufallsvariable, die binomialverteilt
ist mit Parametern N und p = pN = Nλ , d.h.
N k
P (XN = k) =
p (1 − p)N −k für k = 0, 1, . . . , N .
k
Beachte, dass p von N abhängt!
Satz (Poisson 1837): Für jedes k ∈ N0 gilt:
lim P (XN = k) =
N →∞
18
λk −λ
e .
k!
Beweis: Für N > k mit N > λ gilt
λ k
N
λ N −k
P (XN = k) =
1−
k
N
N
k λ −k N · (N − 1) · . . . · (N − k + 1)
λ N
λ
1−
1−
=
,
k! | {zN } |
N
N
·
N
·
.
.
.
·
N
{z
}|
{z
}
→1
→e−λ
1
1·(1− N
)·...·(1− k−1
)→1
N
da k fest ist.
Definition: Eine Zufallsvariable X heisst Poisson-verteilt mit Parameter λ > 0, falls gilt
λk −λ
e
P (X = k) =
k!
für jedes k ∈ N0 .
Bemerkung: (i) Es gilt dann
∞
X
P (X = k) =
k=0
∞
X
λk k=0
k!
e−λ = eλ · e−λ = 1
nach der Vorbemerkung.
(ii) Eine Poisson-verteilte Zufallsvariable ist diskret mit unendlichem Wertebereich N0 .
Eigenschaften: Ist X Poisson-verteilt mit Parameter λ > 0, so gilt E(X) = λ für den
Erwartungswert und D2 (X) = λ für die Varianz:
E(X) =
E(X 2 ) =
∞
X
k=0
k2
∞
∞
X
X
λk−1 −λ
λk
e = λ,
k e−λ = λ
k!
(k
−
1)!
k=1
k=0
∞
∞
X
X
λk −λ
λk−1 −λ
λk
e =λ
e =λ
k
(k + 1) e−λ = λ(E(X) + 1),
k!
(k − 1)!
k!
k=1
k=0
D2 (X) = E(X 2 ) − (E(X))2 = λ2 + λ − λ2 = λ.
Interpretation der Poissonverteilung (im Hinblick auf den Satz von Poisson): die
Zufallsvariable nimmt verschiedene Werte an (N ist groß), aber mit kleinen Wahrscheinlichkeiten (p = Nλ ist klein).
Beispiel: Die Zufallsvariable X bezeichne die Anzahl der kritischen Temperaturüberschreitungen in einem chemischen Reaktor in einem festen Zeitintervall. Die Erfahrung zeigt, dass die durchschnittliche Anzahl 5 ist, d.h. E(X) = 5. Für X ≥ 10 müssen
zusätzliche Maßnahmen eingeleitet werden. Wie groß ist P (X ≥ 10), wenn X als Poissonverteilt angenommen wird?
Wegen E(X) = 5 ist λ = 5 (s.o.) und
P (X ≥ 10) = 1 −
9
X
k=0
P (X = k) = 1 −
19
9
X
5k
k=0
k!
e−5 ∼ 0.032.
Bemerkung: Für große N und kleine p kann man eine binomialverteilte Zufallsvariable
mit Parametern N und p mithilfe einer Poissonverteilung mit Parameter λ = N p approximieren.
Beispiel: Zwei Prozent der Bevölkerung sind Diabetiker. Man wähle zufällig 100 Personen
aus und berechne die Wahrscheinlichkeit, dass darunter mindestens drei Diabetiker sind.
Für eine Binomialverteilung mit Parametern N = 100 und p = 0.02 ergibt sich
P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2)
100
100
100
0
100
1
99
= 1−
0.02 · 0.98 −
0.02 · 0.98 −
0.022 · 0.9898 ∼ 0.323314.
0
1
2
Für eine Poissonverteilung mit Parameter λ = N p = 2 erhält man
P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2)
21 22
+ ) = 1 − 5e−2 ∼ 0.323324.
= 1 − e−2 (1 +
1!
2!
5.17 Hypergeometrische und Binomialverteilung
Sei n ∈ N und p ∈ (0, 1). Die Zufallsvariable sei hypergeometrisch verteilt mit Paramtern
n, M , N − M , wobei M
= p gelte.
N
Satz: Für k ∈ {0, 1, . . . , n} ist dann
n k
lim P (XN = k) =
p (1 − p)n−k .
N →∞
k
Beweis: Beachte, dass M von N abhängt, aber p fest ist. Es ist
M N −M
P (XN = k) =
k
n−k
N
n
n M · (M − 1) · . . . · (M − k + 1) · (N − M ) · (N − M − 1) · . . . · (N − M − (n − k) + 1)
=
N · (N − 1) · . . . · (N − n + 1)
k
n M M −1
M −k+1 N −M
N − M − (n − k) + 1
=
·
· ... ·
·
· ... ·
.
k N N −1
N −k+1 N −k
N − k − (n − k) + 1
Nun kürze man N in jedem Bruch, verwende M
= p und beachte, dass für N → ∞ die
N
ersten k Faktoren gegen p und die anderen n − k Faktoren gegen 1 − p konvergieren (k, n, p
sind fest!).
Bemerkung: Der Satz besagt, dass für große N (Faustregel Nn < 0.05) die hypergeometrische Verteilung mit Parametern n, M, N − M näherungsweise einer Binomialverteilung mit Parametern n und p = M
entspricht.
Ende
N
Woche 6
20
6
Unabhängige Zufallsvariablen und Gesetze der
großen Zahlen
6.1 Definition: (a) Sind X, Y diskrete Zufallsvariablen mit Wertebereichen {xi : i ∈ I}
bzw. {yj : j ∈ J}, so heißen X, Y (stochastisch) unabhängig, falls für alle i ∈ I, j ∈ J gilt:
P (X = xi , Y = yj ) = P (X = xi ) P (Y = yj ),
d.h. also, wenn alle Paare {X = xi }, {Y = yj } von Ereignissen unabhängig sind.
(1)
(b) Ist n ∈ N und sind X1 , X2 , . . . , Xn diskrete Zufallsvariablen mit Wertebereichen {xi :
(n)
(2)
i ∈ I1 }, {xi : i ∈ I2 }, . . . , {xi : i ∈ In }, so heißen X1 , X2 , . . . , Xn unabhängig, falls
(1)
(2)
(1)
(n)
(2)
(n)
P (X1 = xi1 , X2 = xi2 , . . . , Xn = xin ) = P (X1 = xi1 ) P (X2 = xi2 ) . . . P (Xn = xin )
für alle i1 ∈ I1 , i2 ∈ I2 , . . . , in ∈ In gilt.
(c) Eine Folge X1 , X2 , . . . diskreter Zufallsvariablen heißt unabhängig, falls für jedes n ∈ N
die Zufallsvariablen X1 , X2 , . . . , Xn unabhängig sind.
Bemerkung: Modelliert man den n-fachen Münzwurf als Laplace-Experiment auf Ω =
{0, 1}n und ist Xj das Ergebnis des j-ten Wurfs für j = 1, 2, . . . , n, dh Xj (ω) = ωj für
ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω, so sind X1 , X2 , . . . , Xn unabhängig.
6.2 Bemerkung: Sind X, Y unabhängige diskrete Zufallsvariablen wie in 6.1, so gilt für
alle Intervalle A, B ⊂ R:
X
X
P (X ∈ A, Y ∈ B) =
P (X = xi , Y = yj )
|
{z
}
i∈I;xi ∈A j∈J;yj ∈B
=
X
=P (X=xi ) P (Y =yj )
P (X = xi )
i∈I;xi ∈A
X
P (Y = yj )
j∈J;yj ∈B
= P (X ∈ A)P (Y ∈ B).
Entsprechend gilt für unabhängige Zufallsvariablen X1 , X2 , . . . , Xn und alle Intervalle
A1 , A2 , . . . , An ⊂ R:
P (X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) P (X2 ∈ A2 ) . . . P (Xn ∈ An ).
6.3 Rechnen mit Erwartungswerten
P
Sind X, Y diskrete
Zufallsvariablen
wie
in
6.1
und
gilt
E|X|
=
i∈I |xi |P (X = xi ) <
P
∞ und E|Y | =
< ∞, so existieren die Erwartungswerte E(X) =
j∈J |yj |P (Y = yj )P
P
i∈I xi P (X = xi ) < ∞ und E(Y ) =
j∈J yj P (Y = yj ) < ∞, und es ist
E|X + Y | < ∞, E(X + Y ) = E(X) + E(Y )
für α ∈ R E|αX| < ∞, E(αX) = αE(X).
21
Gilt E(|X|2 ) =
P
i∈I
x2i P (X = xi ) < ∞, so gilt auch E|X| < ∞. (ohne Beweis)
Das Folgende ist ein wichtiges Hilfsmittel.
6.4 Satz (Tschebyscheffsche Ungleichung): Sei X eine diskrete Zufallsvariable mit E|X| <
∞ und D2 (X) < ∞ und sei c ∈ R beliebig. Dann gilt für jedes ε > 0:
1
E(|X − c|2 ).
ε2
P (|X − c| ≥ ε) ≤
Bemerkung: Ist E|X| < ∞, so gilt D2 (X) < ∞ (dh X hat endliche Varianz) genau dann,
wenn E(|X|2 ) < ∞ ist.
Beweis:
P (|X − c| ≥ ε) =
X
P (X = xi )
i∈I;|xi −c|≥ε
1
ε2
≤
X
i∈I;|xi −c|≥ε
|xi − c|2 P (X = xi )
1 X
|xi − c|2 P (X = xi ) .
≤ 2
ε i∈I
|
{z
}
E(|X−c|2 )
Bemerkung: Die Voraussetzung D2 (X) < ∞ wird nur benötigt, um E(|X − c|2 ) < ∞
sicher zu stellen.
Folgerung: Setzt man c = E(X), so erhält man
P (|X − E(X)| ≥ ε) ≤
1
1
E(|X − E(X)|2 ) = 2 D2 (X).
2
ε
ε
6.5 Bernoullisches Gesetz der großen Zahlen
Sei X1 , X2 , X3 , . . . eine Folge unabhängiger Zufallsvariablen mit Verteilung P (Xn = 1) = p,
P (Xn = 0) = 1 − p für alle n ∈ N, wobei p ∈ (0, 1) fest ist. Dann gilt für alle ε > 0:
lim P (|
N →∞
N
1 X
Xj − p| < ε) = 1.
N j=1
P
Beweis: Die Zufallsvariable SN := N
j=1 Xj ist binomialverteilt mit Parametern N und p,
2
also gilt E(SN ) = N p, D (SN ) = N p(1 − p). Somit ist (mit 6.3) E( N1 SN ) = p und
D2 (
1
1
1
p(1 − p)
1
SN ) = E(| SN − E( SN )|2 ) = 2 D2 (SN ) =
.
N
N
N
N
N
22
Nach 6.4 gilt also für jedes feste ε > 0:
P (|
1
1 p(1 − p)
1
1
Sn − p| ≥ ε) ≤ 2 D2 ( SN ) = 2
→ 0 (N → ∞),
N
ε
N
ε
N
d.h. P (| N1 SN − p| < ε) → 1 für N → ∞.
Die Aussage in 6.5 ist ein Spezialfall des folgenden, allgemeineren Satzes.
6.6 Satz (Chintschinsches Gesetz der großen Zahlen):
Sei X1 , X2 , X3 , . . . eine Folge unabhängiger (diskreter) Zufallsvariablen mit identischer
Verteilung und E|Xn | < ∞. Dann gilt für µ = E(Xn ) und jedes ε > 0:
lim P (|
N →∞
N
1 X
Xj − µ| < ε) = 1.
N j=1
Dh: Der Mittelwert von N unabhängigen Versuchen konvergiert für N → ∞ in Wahrscheinlichkeit gegen den Erwartungswert µ. (ohne Beweis)
Ende
Woche 7
6.7 Wahrscheinlichkeiten und relative Häufigkeiten
Sei A ein Ereignis, das bei einem Zufallsexperiment mit Wahrscheinlichkeit P (A) = p ∈
(0, 1) eintritt. Wir wiederholen dieses Zufallsexperiment immer wieder und setzen Xn =
0 bzw. = 1 je nachdem, ob A im n-ten Versuch eintritt oder nicht eintritt. Dann ist
P (Xn = 1) = p und P (Xn = 0) = 1 − p und
P X1 , X2 , . . . ist eine unabhängige Folge
von Zufallsvariablen. Wir setzen HN (A) := N1 N
j=1 Xj für N ∈ N, dh HN (A) ist eine
Zufallsvariable, die die relative Häufigkeit von A in den ersten N Versuchen angibt. Nach
6.5 gilt dann
P (| HN (A) − P (A) | < ε) → 1 (N → ∞).
| {z }
| {z }
rel. Hfk.
=p W’keit
Man sagt: “die relative Häufigkeit HN (A) konvergiert in Wahrscheinlichkeit gegen P (A)”.
M.a.W die Wahrscheinlichkeit, dass die Abweichung von HN (A) zu P (A) “groß” ist, geht
gegen Null:
P (|HN (A) − P (A)| ≥ ε) → 0 (N → ∞) für jedes ε > 0.
7
Markoffketten
Die Betrachtung von Vorgängen, die außer vom Zufall auch noch von der Zeit abhängen,
führt auf stochastische Prozesse. Wir betrachten hier einen diskreten Zeitparameter, der
Werte n ∈ N0 annimmt.
7.1 Definition: Ein zeitdiskreter stochastischer Prozess ist eine Folge X0 , X1 , X2 , . . . von
Zufallsvariablen, Schreibweise: (Xn )n∈N0 . Wir betrachten hier den Fall, dass alle Xn diskrete
23
Zufallsvariablen mit Wertebereich Z = {1, 2, . . . , N } sind. Die Wertemenge Z wird auch
als Zustandsraum des stochastischen Prozesses bezeichnet.
Interpretation (hier): Die möglichen Werte i ∈ {1, 2, . . . , N } beschreiben die Zustände
eines Systems und für jedes n ∈ N0 ist Xn der (zufällige) Zustand des Systems zum Zeitpunkt n. Das System hat hier endlich viele Zustände und (Xn )n∈N0 beschreibt die zeitliche
Entwicklung des Systems, die außerdem vom Zufall abhängt. Als Zufallsvariable gilt für
jedes Xn , dass es eine Abbildung Ω → R mit Werten in {1, 2, . . . , N } ist (hierbei ist
(Ω, A, P ) der zugrundeliegende Wahrscheinlichkeitsraum, der in der Notation unterdrückt
wird).
Manchmal betrachtet man den zeitdiskreten stochastischen Prozess (Xn )n∈N0 auch als Abbildung X : N0 × Ω → R und schreibt dann X(n, ω) statt Xn (ω), wobei n ∈ N0 und ω ∈ Ω.
Für jedes festgehaltene ω ∈ Ω ist (Xn (ω))n∈N0 eine Folge reeller Zahlen (in {1, 2, . . . , N }).
Eine solche Folge (Xn (ω))n∈N0 heißt Realisierung oder Pfad des stochastischen Prozesses
(Xn )n∈N0 . Realisierungen (Xn (ω))n∈N0 , (Xn (ω̃))n∈N0 für ω, ω̃ ∈ Ω mit ω 6= ω̃ sind i.a. verschieden.
Frage: Wie entwickelt sich das System?
Wir betrachten Systeme, bei denen die künftige Entwicklung nur vom gegenwärtigen Zustand und nicht von der gesamten Vorgeschichte abhängt.
7.2 Definition: Sei (Xn )n∈N0 ein zeitdiskreter stochastischer Prozess mit Zustandsraum
{1, 2, . . . , N }. Dann heißt (Xn )n∈N0 Markoffkette, falls
P (Xn+1 = in+1 |Xn = in , Xn−1 = in−1 , . . . , X0 = i0 ) = P (Xn+1 = in+1 |Xn = in )
für alle n ∈ N0 , i0 , i1 , . . . , in , in+1 ∈ {1, 2, . . . , N } gilt. Die bedingten Wahrscheinlichkeiten
P (Xn+k = j|Xn = i) =: pij (n, n + k)
heißen Übergangswahrscheinlichkeiten k-ter Stufe (hier ist k ∈ N). Die Markoffkette
(Xn )n∈N0 heißt homogen, falls die Übergangswahrscheinlichkeiten
pij (n, n + 1) = pij
nicht vom Zeitpunkt n abhängen (das System verhält sich zu jedem Zeitpunkt gleich).
Die Übergangswahrscheinlichkeit pij ist die Wahrscheinlichkeit, in einem Zeitschritt vom
Zustand i in den Zustand j zu gelangen.
Bemerkung: Wir haben die Zustände hier mit 1, 2, . . . , N bezeichenet, die Zahlenwerte
werden jedoch keine Rolle spielen. Die Zustände könnten also ebensogut anders bezeichnet
werden. Insbesondere kann die Nummerierung bei 0 beginnen.
7.3 Beispiel: Ein Spieler besitzt 1 Euro und nimmt an einem Glücksspiel teil, bei dem
er mit Wahrscheinlichkeit 0.5 für seinen Einsatz das Doppelte erhält. Der Spieler will
24
aufhören, wenn er 5 Euro besitzt, und setzt jedesmal so viel, dass er seinem Ziel möglichst
nahe kommt (Besitz > 5 Euro ist ausgeschlossen). Die Zufallsvariable Xn bezeichne den
Besitz des Spielers nach dem n-ten Spiel, also P (X0 = 1) = 1. Zustandsmenge ist hier
Z = {0, 1, 2, 3, 4, 5}, und der Folgezustand hängt nur vom gegenwärtigen Zustand ab, aber
nicht von der Vorgeschichte.
Anschauliche Vorstellung:
1/2
1/2
1
2
4
1/2
0
1/2
1
1/2
1/2
1/2
5
3
1
1/2
Übergangswahrscheinlichkeiten sind hier p12 = p24 = p45 = p43 = p35 = p31 = p10 = p20 =
und p00 = p55 = 1, alle anderen pij = 0.
1
2
7.4 Übergangsgraph
Jede homogene Markoffkette mit Zustandsraum Z
=
{1, 2, . . . , N } und
Übergangswahrscheinlichkeiten kann man sich durch ihren Übergangsgraphen veranschaulichen:
◦ Z Menge der Knoten,
◦ E := {(i, j) : pij > 0} ⊂ Z × Z Menge der gerichteten Kanten [die Kante
(i, j) hat i als Anfangs- und j als Endknoten],
◦ jede gerichtete Kante (i, j) trägt einen Wert, nämlich pij .
Der Übergangsgraph einer homogenen Markoffkette ist also ein bewerteter gerichteter
Graph, wobei für jeden Knoten i ∈ Z gilt:
X
pij = 1.
j mit (i,j)∈E
Bemerkung: Ist umgekehrt Z eine endliche Menge, E ⊂ Z × Z eine Menge gerichteter
Kanten und w : E → [0, 1], (i, j) 7→ w(i, j), eine Bewertung der Kanten so, dass für alle
i ∈ Z gilt
X
w(i, j) = 1,
j mit (i,j)∈E
so ist der durch Z, E, w beschriebene bewertete gerichtete Graph der Übergangsgraph einer
homogenen Markoffkette mit Übergangswahrscheinlichkeiten
w(i, j) , (i, j) ∈ E
pij =
.
0
, (i, j) 6∈ E
25
Somit: Jede homogene Markoffkette entspricht einer Irrfahrt auf einem gerichteten
Graphen.
Beispiel: 0, 1, 2, 3, 4, 5 als Knoten, man kommt mit Wahrscheinlichkeit 0.4 zum linken
Nachbarn und mit Wahrscheinlichkeit 0.6 zum rechten Nachbarn; in 0 oder in 5 endet die
Irrfahrt.
0.6
0.4
0.6
0.4
1
0
1
2
3
0.6
0.4
0.4
4
5
1
0.6
7.5 Übergangswahrscheinlichkeiten höherer Stufe
Sei (Xn )n∈N0 eine homogene Markoffkette mit Zustandsraum Z = {1, 2, . . . , N } und
Übergangswahrscheinlichkeiten pij , i, j = 1, 2, . . . , N . Was ist P (Xn+2 = j|Xn = i)?
Ende
Die Formel von der totalen Wahrscheinlichkeit in 4.4 (angewandt auf das Wahrschein- Woche 8
lichkeitsmaß P (·|Xn = i) statt P , B = {Xn+2 = j} und die vollständige Ereignisdisjunktion Ak = {Xn+1 = k}, k = 1, 2, . . . , N ) ergibt:
P (Xn+2 = j|Xn = i) =
(Def.7.2)
=
=
N
X
k=1
N
X
k=1
N
X
P (Xn+2 = j|Xn+1 = k, Xn = i) P (Xn+1 = k|Xn = i)
P (Xn+2 = j|Xn+1 = k) P (Xn+1 = k|Xn = i)
pkj pik =
k=1
N
X
pik pkj .
k=1
Interpretation: Von i aus gelangt man mit Wahrscheinlichkeit pik nach k und von dort
mit Wahrscheinlichkeit pkj nach j. Auf diesem Weg nach j sind die Wahrscheinlichkeiten
zu multiplizieren, und dann ist über alle solchen Wege, dh über alle k ∈ Z, zu summieren.
Entsprechend erhält man
P (Xn+3 = j|Xn = i) =
N
X
P (Xn+3 = j|Xn+2 = k) P (Xn+2 = k|Xn = i)
=
N
X
pkj
k=1
=
k=1
N
X
N
X
pil plk
l=1
pil plk pkj
k,l=1
Eine übersichtliche Darstellung gelingt durch
26
etc..
7.6 Stochastische Matrizen
Schreibt man die Übergangswahrscheinlichkeiten pij als N × N -Matrix


p11 p12 . . . p1N
 p21 p22 . . . p2N 

,
P = (pij )N
i,j=1 = 
... ... ... ... 
pN 1 pN 2 . . . pN N
P
so gilt pij ≥ 0 für alle i, j und für jedes i: j pij = 1 (jede Zeilensumme ist 1). Matrizen,
deren Einträge diese Eigenschaften haben, heißen stochastische Matrizen. Die Matrix P
heißt Übergangsmatrix der homogenen Markoffkette.
Die Matrix (pij (m))N
i,j=1 der Übergangswahrscheinlichkeiten m-ter Stufe berechnet sich als
Matrixprodukt
Pm = P
· . . . · P} .
| · P {z
m-mal
N
Das Matrixprodukt zweier Matrizen A = (aik )N
i,k=1 und B = (bkj )k,j=1 ist dabei erklärt
durch:
N
X
N
aik bkj
A·B =
.
i,j=1
k=1
Die Multiplikation von Matrizen ist assoziativ, aber im allgemeinen nicht kommutativ.
Bemerkung: Sind A, B stochastische Matrizen, so ist auch A·B eine stochastische Matrix.
Beispiel:
1/2
1/2
Dann ist P =
P2 = P · P =
1/8 7/8
.
0
1
1/2 1/2
0
1
, und es gilt
1/2 1/2
0
1
1/2 1/2
0
1
1
=
2
1/4 3/4
0
1
1
, P 3 = P 2 · P = 1/4
0
3/4
1
1/2 1/2
0
1
=
7.7 Berechnung der Verteilung von Xn
Gegeben sei eine homogene Markoffkette (Xn )n∈N0 mit Zustandsraum Z = {1, 2, . . . , N }
und Übergangsmatrix P . Wir setzen
P (Xn = k) =: pk (n) für k ∈ Z und n ∈ N0 ,
so dass die Verteilung von Xn durch den Zeilenvektor p̄(n) := (p0 (n), p1 (n), . . . , pN (n))
gegeben ist. Insbesondere ist p̄(0) die Verteilung von X0 , dh die Anfangsverteilung. Es gilt
dann für jedes n ∈ N:
N
X
pj (n) = P (Xn = j) =
pi (0)pij (n),
i=1
27
also ist
p̄(n) = p̄(0)P n ,
wobei die beiden Vektoren p̄(n) und p̄(0) Zeilenvektoren sind.
Beispiel:
1/2
1
1/2
1
2
3
1/2

1/2
1
0
0
Übergangsmatrix P =  1/2 0 1/2 , Anfangsverteilung p̄(0) = (0, 1/2, 1/2). Es ist
0 1/2 1/2




1
0
0
1
0
0
P 3 =  5/8 1/8 1/4  .
P 2 =  1/2 1/4 1/4  ,
3/8 1/4 3/8
1/4 1/4 1/2

Die Verteilung von X3 ist dann gegeben durch


1
0
0
p̄(3) = (0, 1/2, 1/2)  5/8 1/8 1/4  = (1/2, 3/16, 5/16).
3/8 1/4 3/8
7.8 Definition: Gegeben sei eine homogene Markoffkette mit Zustandsraum Z =
{1, 2, . . . , N } und Übergangswahrscheinlichkeiten pij , i, j ∈ Z. Ein Zustand i heißt absorbierend, falls pii = 1 gilt. Die Menge R := {i ∈ Z : i ist absorbierend} heißt Rand, und
Z \ R heißt Menge der inneren Zustände. Die Markoffkette heißt absorbierend, falls R 6= ∅
und R von jedem inneren Zustand aus erreichbar ist.
Beispiele: (a)
1/2
1/2
1
1
2
1/2
3
R = {1},
Markoffkette absorbierend.
1/2
(b)
1
1
2
(c)
1
R = {1, 2},
Markoffkette absorbierend.
1
1/2
1
1/2
2
1/2
3
1/2
28
R = {1},
nicht absorbierend.
7.9 Satz: Für eine absorbierende Markoffkette endet die Irrfahrt in einem Zustand des
Randes, dh es gilt:
P (Xn ∈ R) −→ 1 (n → ∞).
Beispiel: Für P =
absorbierend. Es ist
1
0
1/2 1/2
n
P =
1/2
1
1
Ende
mit Z = {1, 2} gilt R = {1} und die Markoffkette ist Woche 9
0
1
1 − 1/2n 1/2n
2
−→
10
10
(n → ∞).
1
1/2
1
1
2
7.10 Absorptionswahrscheinlichkeit und mittlere Dauer
(a) Gegeben sei eine homogene, absorbierende Markoffkette mit Zustandsraum Z =
{1, 2, . . . , N } und Übergangswahrscheinlichkeiten pij , R sei der Rand und U ⊂ R eine
ausgezeichnete Teilmenge des Randes. Pi bezeichne die Wahrscheinlichkeit, vom Zustand
i aus in U absorbiert zu werden. Dann gilt
Pi =
N
X
pij Pj ,
j=1
sowie Pj = 1 für j ∈ U und Pj = 0 für j ∈ R \ U .
Beispiel: Berechne P1 im Beispiel aus 7.3 (Wahrscheinlichkeit, das Ziel 5 Euro zu erreichen
bei 1 Euro Startkapital).
Es gilt R = {0, 5}, U = {5}, also P5 = 1, P0 = 0. Nach der Formel ist weiter P1 = 21 P2 ,
P2 = 21 P4 , P3 = 12 + 12 P1 und P4 = 21 + 12 P3 . Wir erhalten der Reihe nach P4 = 34 + 41 P1 ,
3
1
3
P2 = 83 + 18 P1 und P1 = 16
+ 16
P1 , woraus P1 = 15
= 0.2 folgt.
Der Spieler erreicht sein Ziel also mit der Wahrscheinlichkeit 0.2.
(b) Die mittlere Dauer der Irrfahrt vom Zustand i aus sei mit mi bezeichnet. Es gilt mi = 0
für i ∈ R. Für i 6∈ R gilt
N
X
mi = 1 +
pij mj .
j=1
29
i
1
j
2
N
R
Im Beispiel ist m0 = m5 = 0. Berechne m1 !
Es ist m1 = 1 + 21 m2 , m2 = 1 + 12 m4 , m3 = 1 + 21 m1 und m4 = 1 + 21 m3 . Wir erhalten
1
1
3 1
m1 = 1 + (1 + m4 ) = + m4
2
2
2 4
3 1
1
7 1
=
+ (1 + m3 ) = + m3
2 4
2
4 8
1
15
1
7 1
+ (1 + m1 ) =
+ m1 ,
=
4 8
2
8
16
also m1 = 16
· 15
=2
15
8
Die mittlere Spieldauer beträgt 2 Runden.
8
Zufallsvariablen mit Dichten
8.1 Erinnerung an die Gleichverteilung
Sei [a, b] ⊂ R und die Zufallsvariable X sei gleichverteilt auf [a, b]. Dann gilt für die
Verteilungsfunktion FX von X:

für x ≤ a,
 0
x−a
für x ∈ (a, b],
FX (x) = P (X ≤ x) =
 b−a
1
für x > b.
1
, x ∈ [a, b]
b−a
Setzt man f (x) =
, so kann man FX als Integral schreiben:
0 sonst
Z x
P (X ≤ x) = FX (x) =
f (u) du.
−∞
Das entspricht der Fläche unter dem Graphen von f zwischen −∞ und x.
Bemerkung: Nach Definition (→HMI) ist
Z x
Z x
f (u) du = lim
f (u) du falls dieser Limes existiert.
−∞
c→−∞
c
30
Für die obige Funktion f ist Existenz des Limes trivial. Am Graphen von f sieht man
wieder, dass Teilintervalle von [a, b] gleicher Länge gleiche Wahrscheinlichkeit haben, denn
die Fläche unter dem Graphen von f ist dann gleich.
8.2 Definition: Eine Zufallsvariable X heißt stetig, falls es eine integrierbare Funktion
f : R → [0, ∞) gibt mit
Z x
f (u) du für alle x ∈ R.
P (X ≤ x) =
−∞
Ein solches f heißt Dichte der Zufallsvariable X.
Dabei nennen wir ein Funktion g : R → R integrierbar, falls g auf jedem Intervall [c, d] ⊂ R
integrierbar ist und
Z ∞
Z 0
Z d
|g(u)| du := lim
|g(u)| du + lim
|g(u)| du < ∞
−∞
c→−∞
d→∞
c
gilt. Ist g : R → R integrierbar, so konvergiert
R∞
−∞
0
g(u) du.
Bemerkung:
R ∞ Sei f Dichte einer Zufallsvariablen X.
(i) Es gilt −∞ f (u) du = 1.
Rd
(ii) Für alle c, d ∈ R mit c < d gilt P (X ∈ (c, d]) = c f (u) du.
(iii) Für alle x ∈ R gilt P (X = x) = 0.
8.3 Die Exponentialverteilung
Eine Zufallsvariable X heißt exponentialverteilt mit Parameter λ > 0, falls X die Dichte
0
,x ≤ 0
f (x) =
−λx
λe
,x > 0
hat. Für die Verteilungsfunktion FX von X gilt dann
Z x
0
,x ≤ 0
FX (x) =
f (u) du =
.
−λx
1
−
e
,x > 0
−∞
8.4 Definition: Sei X eine stetige Zufallsvariable mit Dichte f . Ist
so heißt
Z ∞
xf (x) dx
E(X) :=
R∞
−∞
Ende
Woche 10
|x|f (x) dx < ∞,
−∞
Erwartungswert von X (aufgrund der Voraussetzung konvergiert das Integral) und
Z ∞
2
2
Var (X) = D (X) = E((X − E(X)) ) =
(x − E(X))2 f (x) dx
−∞
31
heißt Varianz von X, D(X) :=
D2 (X) = ∞ sein).
p
Var(X) heißt Standardabweichung von X (es kann
8.5 Beispiel: (a) Sei X gleichverteilt auf [a, b]. Dann gilt
Z b
1
b 2 − a2
a+b
E(X) =
x dx =
=
,
b−a a
2(b − a)
2
Z b
)3
( b−a )3 − ( a−b
a+b 2
(b − a)2
1
2
2
(x −
) dx = 2
=
.
D (X) =
b−a a
2
3(b − a)
12
(b) Sei X exponentialverteilt mit Parameter λ > 0. Dann gilt:
Z ∞
Z R
Z
Z
1 λR −y
1 ∞ −y
1
−λx
−λx
xλe
dx = lim
E(X) =
λxe
dx = lim
ye dy =
ye dy = ,
R→∞ 0
R→∞ λ 0
λ 0
λ
0
wobei wir x = y/λ substituiert haben und die Formel
Z ∞ k
y −y
e dy = 1 für k = 0, 1, 2, . . .
k!
0
verwendet haben (Beweis durch Induktion mit partieller Integration). Ähnlich folgt
E(X 2 ) = λ22 und D2 (X) = λ12 .
Beispiel: Das wöchentliche Telefongespräch einer Tochter mit ihrer Mutter dauert im
Mittel 15 min. Es liege eine Exponentialverteilung vor. Wie groß ist die Wahrscheinlichkeit,
dass das Telefongespräch länger als 20 min dauert?
Sei X die Dauer des Telefongesprächs. Es ist E(X) = 15 (min), andererseits E(X) = λ1
1
nach 8.5(b). Somit gilt λ = 15
und
20
4
P (X > 20) = 1 − P (X ≤ 20) = 1 − FX (20) = e− 15 = e− 3 ∼ 0.264.
8.6 Satz: Sei X eine Zufallsvariable
mit Dichte f . Ist g : R → R stetig, so ist g(X) eine
R∞
Zufallsvariable und, falls −∞ |g(x)|f (x) dx < ∞ ist, gilt
Z ∞
g(x)f (x) dx,
E(g(X)) =
−∞
wobei das Integral konvergiert.
8.7 Definition: Sei X eine Zufallsvariable mit Dichte f . Ist k ∈ N und
∞, so heißt
Z ∞
k
E(X ) =
xk f (x) dx
−∞
32
R∞
−∞
|x|k f (x) dx <
k-tes Moment der Zufallsvariable X und
k
E((X − E(X)) ) =
Z
∞
−∞
(x − E(X))k f (x) dx
heißt k-tes zentrales oder zentriertes Moment der Zufallsvariable X.
Bemerkung: Das zweite zentrale Moment ist die Varianz
Z ∞
2
(x − E(X))2 f (x) dx
Var(X) = E((X − E(X)) ) =
−∞
Z ∞
Z ∞
2
xf (x) dx +(E(X))2 = E(X 2 ) − (E(X))2 .
x f (x) dx − 2E(X)
=
−∞
| −∞ {z
}
=E(X)
8.8 Beispiel: Sei X exponentialverteilt mit Parameter λ > 0. Dann existiert für jedes
k ∈ N das k-te Moment und
Z ∞
Z R
Z R
k!
k
−λx
k
k
−λx
−k
x λe
dx = lim
E(X ) =
x λe
dx = λ lim
y k e−y dy = k .
R→∞
R→∞
λ
0
0
0
8.9 Definition: Eine Zufallsvariable X heißt standardnormalverteilt oder N (0, 1)-verteilt,
falls X die Dichte
1
2
f (x) = √ e−x /2 , x ∈ R,
2π
hat.
R∞
R∞
2
2
Bemerkung: Es gilt dann −∞ √12π e−x /2 dx = 1 (ohne Beweis) und −∞ √x2π e−x /2 dx = 0
R∞ 2
2
2
(der Integrand ist ungerade), sowie −∞ √x2π e−x /2 dx = 1 (hierfür schreibe man x2 e−x /2 =
2
x · xe−x /2 und verwende partielle Integration).
Ist also X N (0, 1)-verteilt, so gilt E(X) = 0 und D2 (X) = E(X 2 ) = 1.
Bemerkung: Ist X eine
R x Zufallsvariable mit Dichte f und Verteilungsfunktion F , so gilt
F (x) = P (X ≤ x) = −∞ f (u) du, x ∈ R. Nach dem Hauptsatz (→HMI) ist dann f (x) =
F ′ (x) für alle x ∈ R, in denen f stetig ist.
Ende
Woche 11
8.10 Normalverteilung
Sei µ ∈ R, σ > 0 und X N (0, 1)-verteilt. Setze Y := σX + µ. Dann gilt für alle y ∈ R (vgl.
5.14):
y−µ
y−µ
) = FX (
).
FY (y) = P (Y ≤ y) = P (X ≤
σ
σ
d
Nach der Bemerkung erhalten wir die Dichte fY von Y durch Ableiten dy
:
fY (y) =
(y−µ)2
d
y−µ
y−µ 1
1
d
e− 2σ2 ,
FY (y) = (FX (
)) = FX′ (
)· = √
dy
dy
σ
σ
σ
2πσ
33
y ∈ R.
Definition: Eine Zufallsvariable mit der Dichte
f (x) = √
(x−µ)2
1
e− 2σ2 ,
2πσ
x ∈ R,
heißt N (µ, σ 2 )-verteilt.
Die obigen Überlegungen zeigen1
Bemerkung: Ist Y eine Zufallsvariable, so gilt:
Y ist N (µ, σ 2 )-verteilt ⇐⇒ X =
Y −µ
σ
ist N (0, 1)-verteilt.
Somit hat eine N (µ, σ 2 )-verteilte Zufallsvariable Erwartungswert µ und Varianz σ 2 , und
heißt deshalb auch normalverteilt mit Mittelwert µ und Varianz σ 2 .
Die Verteilungsfunktion der N (0, 1)-Verteilung ist in Tabellen nachzuschlagen und wird
mit Φ(x) bezeichnet. Ist Y N (µ, σ 2 )-verteilt, so gilt für die Verteilungsfunktion (s.o.)
FY (y) = Φ(
y−µ
),
σ
y ∈ R,
und FY lässt sich anhand der Tabelle berechnen. Dabei zeigen Symmetrieüberlegungen für
die Dichte, dass für x < 0 gilt Φ(x) + Φ(−x) = 1. Es reicht also, eine Tabelle für Φ(x) mit
x > 0 zu haben.
Beispiel: Sei k > 0 und die Zufallsvariable Y sei N (µ, σ 2 )-verteilt mit µ ∈ R, σ > 0. Dann
gilt:
P (µ − kσ ≤ Y ≤ µ + kσ) = P (−k ≤
Y −µ
≤ k) = Φ(k) − Φ(−k) = 2Φ(k) − 1,
σ
und die Tabellenwerte Φ(1) ∼ 0.8413, Φ(2) ∼ 0.9772498, Φ(3) ∼= 0.9985587 zeigen
P (|Y − µ| ≤ σ) ∼ 0.6826, P (|Y − µ| ≤ 2σ) ∼ 0.955, P (|Y − µ| ≤ 3σ) ∼ 0.997.
In einem Streifen der Breite 3σ um den Mittelwert µ liegen also “fast alle Werte” der
Zufallsvariable Y , die Wahrscheinlichkeit, dass sie außerhalb liegen, ist jedenfalls kleiner
als 0.003, dh kleiner als 0.3 Prozent.
8.11 Rechenregeln Seien X1 , X2 Zufallsvariable mit E(|Xj |2 ) < ∞ und µj = E(Xj ) für
j = 1, 2. Dann gilt
(a) D2 (Xj ) = D2 (Xj − ν) für alle ν ∈ R.
(b) E(X1 + X2 ) = E(X1 ) + E(X2 ) und, falls X1 , X2 unabhängig sind,
(i)
E(X1 X2 ) = E(X1 )E(X2 )
2
(ii) D (X1 + X2 ) = D2 (X1 ) + D2 (X2 ).
1
Gezeigt wurde nur eine Richtung, aber die andere geht analog.
34
(c) Falls X1 , X2 unabhängig sind und Dichten f1 bzw. f2 haben, so hat die Zufallsvariable
X1 + X2 die Dichte
Z ∞
g(x) =
f1 (y)f2 (x − y) dy, x ∈ R.
−∞
Die Funktion g heißt Faltung von f1 und f2 , geschrieben g = f1 ∗ f2 .
Dabei nennen wir beliebige Zufallsvariablen X, Y unabhängig (vgl. 6.2), falls für alle Intervalle A, B ⊂ R gilt:
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B).
Beweis: (a) Es gilt E(Xj − ν) = µj − ν und E(((Xj − ν) − (µj − ν))2 ) = E((Xj − µj )2 ).
(b) (ii) Es gilt
E((X1 + X2 − (µ1 + µ2 ))2 ) = E((X1 − µ1 )2 ) + 2 E((X1 − µ1 )(X2 − µ2 )) +E((X2 − µ2 )2 ).
{z
}
|
=E(X1 −µ1 )E(X2 −µ2 )=0
Den Beweis von (i) führen wir hier nur für diskrete Zufallsvariablen X, Y mit Wertebereichen {xi : i ∈ I} bzw. {yj : j ∈ J}
X
E(XY ) =
xi yj P (X = xi , Y = yj )
{z
}
|
i,j
=
X
=P (X=xi )P (Y =yj )
xi P (X = xi )
i
X
yj P (Y = yj )
j
= E(X) E(Y ).
(c) kein Beweis, aber folgende Überlegung: Für unabhängige Zufallsvariablen X, Y , die
diskret mit Wertebereichen ⊂ Z sind, gilt für jedes k ∈ Z:
X
X
P (X + Y = k) =
P (X = j, Y = k − j) =
P (X = j)P (Y = k − j).
j∈Z
j∈Z
Beispiele: Seien X, Y unabhängige Zufallsvariablen mit Dichten f bzw. g. Welche Dichte
h hat X + Y ?
1 , x ∈ [0, 1]
(a) Seien X, Y gleichverteilt auf [0, 1], also f (x) = g(x) =
. Dann gilt
0 , x 6∈ [0, 1]
Z 1
Z ∞
g(x − y) dy, x ∈ R.
f (y)g(x − y) dy =
h(x) =
0
−∞
Weiter ist g(x − y) = 1 genau dann, wenn y ∈ [x − 1, x] gilt, und wir erhalten

, x 6∈ (0, 2)
 0
x
, x ∈ (0, 1] .
h(x) =

2 − x , x ∈ (1, 2]
35
Beachte, dass h stetig ist, aber f und g nicht stetig sind.
(b) Sei X exponentialverteilt mit Parameter λ > 0 und Y gleichverteilt auf [0, 1], also
0
,x ≤ 0
f (x) =
und g wie in (a). Dann gilt:
−λx
λe
,x > 0
Z ∞
Z ∞
h(x) =
f (y)g(x − y) dy =
λe−λy g(x − y) dy, x ∈ R.
−∞
0
Man sieht, dass die Funktion y 7→ λe−λy also über dem Intervall [0, ∞) ∩ [x − 1, x] integriert
wird, und wir erhalten also h(x) = 0 für x ≤ 0, sowie
Z x
h(x) =
λe−λy dy = 1 − e−λx , x ∈ (0, 1],
Z0 x
λe−λy dy = e−λx (eλ − 1), x > 1.
h(x) =
x−1
Bemerkung: Viele Regeln, die wir für diskrete Zufallsvariablen gezeigt haben, gelten
auch für beliebige Zufallsvariablen, insbesondere also für solche mit Dichten (etwa 6.3, die
Tschebyscheffsche Ungleichung 6.4 oder das Chintschinsche Gesetz der großen Zahlen 6.7).
Ende
Woche 12
9
Grenzwertsätze
9.1 Beispiel: Seien X1 , X2 , X3 , X4 unabhängige Zufallsvariablen, die jeweils gleichverteilt
auf [0, 1] sind. Dann haben X1 + X2 jeweils die Dichte

, x 6∈ (0, 2)
 0
x
, x ∈ (0, 1] .
h(x) =

2 − x , x ∈ (1, 2)
Da X1 + X2 und X3 + X4 wieder unabhängig sind (!), hat S4 := X1 + X2 + X3 + X4 die
Dichte
Z ∞
Z 2
g(x) =
h(y)h(x − y) dy =
h(y)h(x − y) dy.
−∞
0
Klar ist, dass g(x) = 0 für x 6∈ [0, 4] gilt. Außerdem ist g auf jedem Intervall [j − 1, j],
j = 1, 2, 3, 4, ein Polynom dritten Grades. Weiter zeigen Symmetrieüberlegungen, dass
g(4 − x) = g(x) für x ∈ R gilt. Wir erhalten für x ∈ (0, 1]:
Z x
x3
g(x) =
y(x − y) dy =
6
0
und für x ∈ (1, 2]:
Z x−1
Z
g(x) =
y(2 − x + y) dy +
0
1
x−1
y(x − y) dy +
36
Z
1
x
(2 − y)(x − y) dy = −
2
x3
+ 2x2 − 2x + .
2
3
1
Es gilt E(S4 ) = 4 E(X1 ) = 4 · 12 = 2 und D2 (S4 ) = 4 D2 (X1 ) = 4 · 12
= 31 (wegen 8.5(a)
4)
gilt also E(Z4 ) = 0 und D2 (Z4 ) = 1.
und 8.11). Für die Zufallsvariable Z4 = S√4 −E(S
2
D (S4 )
Die Zufallsvariable Z4 hat eine Dichte ψ, welche die Dichte der N (0, 1)-Verteilung gut
approximiert (beachte ψ(t) = √13 g( √t3 + 2)).
9.2 Zentraler Grenzwertsatz (ohne Beweis) Sei X1 , X2 , X3 , . . . eine Folge unabhängiger in Woche
Zufallsvariablen, die alle die gleiche Verteilung haben mit D2 (Xj ) = d2 < ∞ und E(Xj ) = 12
P
erwähnt
m. Für die Summen SN := N
j=1 Xj , N ∈ N, und jedes x ∈ R gilt dann:
Z x
S − Nm
1
2
N
√
P
≤ x −→ √
e−y /2 dy = Φ(x) (N → ∞).
2π −∞
Nd
Die Zufallsvariablen auf der linken Seite sind standardisierte Summen mit Erwartungswert
0 und Varianz 1. Der Grenzwert auf der rechten Seite ist die Verteilungsfunktion der
N (0, 1)-Verteilung an der Stelle x.
Ein Spezialfall von 9.2 ist der folgende Satz.
9.3 Satz von de Moivre-Laplace
Ist p ∈ (0, 1) und SN für jedes N ∈ N eine binomialverteilte Zufallsvariable mit Parametern
N und p, so gilt für jedes x ∈ R:
Z x
S − Np
1
2
N
P p
≤ x −→ √
e−y /2 dy = Φ(x) (N → ∞).
2π −∞
N p(1 − p)
Bemerkung: (a) Nach 6.9 gilt E(SN ) = N p und D2 (SN ) = N p(1 − p).
P
(b) Es gilt SN = N
j=1 Xj , wobei X1 , X2 , X3 , . . . unabhängig sind mit P (Xj = 1) = p,
P (Xj = 0) = 1 − p.
(c) Faustregel: Die Approximation ist i.a. hinreichend gut, wenn D2 (SN ) ≥ 9 gilt.
(d) Die Approximation wird verbessert, wenn man statt
P (k < SN ≤ l) ∼ Φ( p
das folgende nimmt:
k − Np
) − Φ( p
)
N p(1 − p)
N p(1 − p)
l − Np
k − N p − 21
l − N p + 21
p
p
) − Φ(
P (k < SN ≤ l) ∼ Φ(
)
N p(1 − p)
N p(1 − p)
(→ Henze: Stochastik für Einsteiger (Abschnitt 26) oder → Krengel: Einführung in die
Wahrscheinlichkeitstheorie und Statistik, Vieweg 1988, Abschnitt 5.3).
37
Beispiel: Ein Frequenzsprungsender sende im Frequenzbereich 30 − 80MHz. Bei einer
Kanalbandbreite von 25kHz gibt es also 2000 Kanäle, die alle mit gleicher Wahrscheinlichkeit angesprungen werden sollen. Bei einer Sendung von 10s sei die Dauer eines Hops
10−3 s. Es gibt also 104 Hops. Man beobachtet mit einem Empfänger eine bestimmte Frequenz. Wie groß ist die Wahrscheinlichkeit, mindestens 3 Hops der Sendung zu erfassen?
Es liegt eine Binomialverteilung vor mit N = 104 und p =
10 4 X
10
4
P (SN ≥ 3) =
k=3
k
(
1
2000
und wir wollen berechnen
1 k
1 104 −k
) (1 −
)
.
2000
2000
Für eine Approximation nach 9.3 stellen wir fest: N p = 5 und
√ 3−N p ∼ −0.89. Wir erhalten
N p(1−p)
p
N p(1 − p) ∼ 2.24, also
3 − Np
SN − N p
≥p
) ∼ 1 − Φ(−0.89) = Φ(0.89) ∼ 0.81.
P (SN ≥ 3) = P ( p
N p(1 − p)
N p(1 − p)
10
Komplexe Zufallsvariablen und die charakteristische Funktion
Wir verwenden hier die imaginäre Einheit ip
∈ C\R, i2 = −1, sowie die folgenden Tatsachen:
für s, x, y ∈ R und z = x + iy gilt |z| = x2 + y 2 , eisx = cos(sx) + i sin(sx), |eisx | = 1,
eis(x+y) = eisx eisy .
10.1 Definition: Sind X, Y (reellwertige) Zufallsvariable, so heißt Z = X + iY komplexwertige Zufallsvariable oder komplexe Zufallsvariable (d.h. schreiben wir Ω für den zugrundeliegenden Wahrscheinlichkeitsraum, so ist Z eine Abbildung Ω → C und X(ω) = Re Z(ω)
(Realteil), Y (ω) = Im Z(ω) (Imaginärteil) für jedes ω ∈ Ω).
Man definiert E(Z) = E(X) + iE(Y ) und D2 (Z) = E(|Z − E(Z)|2 ).
Bemerkung: Es gilt D2 (Z) = E((X − E(X))2 + (Y − E(Y ))2 ) = D2 (X) + D2 (Y ).
10.2 Definition: Sei X eine (reellwertige) Zufallsvariable. Die Funktion ϕX : R → C, die
durch
ϕX (s) := E(eisX ), s ∈ R,
gegben ist, heißt charakteristische Funktion der Zufallsvariable X. (Beachte: für festes
s ∈ R ist eisX eine komplexe Zufallsvariable.)
10.3 Bemerkung: (a) Ist X eine stetige Zufallsvariable mit Dichte f , so gilt
Z ∞
eisx f (x) dx, s ∈ R.
ϕX (s) =
−∞
38
Ist ϕX (absolut) integrierbar, so gilt
1
f (x) =
2π
Z
∞
e−isx ϕX (s) ds
−∞
für alle x ∈ R, in denen f stetig ist (→ Fouriertransformation, KAI).
(b) Ist X eine diskrete Zufallsvariable mit Wertebereich {xj : j ∈ I}, so gilt
X
ϕX (s) =
eisxj P (X = xj ), s ∈ R.
j∈I
(c) Ist X N (0, 1)-verteilt, so gilt
Z ∞
1
2
2
ϕX (s) = √
eisx e−x /2 dx = e−s /2 ,
2π −∞
→ Fouriertransformation, KAI.
s ∈ R,
(d) Sind X, Y unabhängige Zufallsvariable, so sind für jedes s ∈ R auch eisX , eisY unabhängige Zufallsvariable, und wie in 8.11 gilt:
ϕX+Y (s) = E(eis(X+Y ) ) = E(eisX eisY ) = E(eisX )E(eisY ) = ϕX (s)ϕY (s),
Also: X, Y unabhängig =⇒ ϕX+Y = ϕX · ϕY .
s ∈ R.
(e) Es gilt (im Falle der Existenz, → KAI)
(k)
ϕ (0)
für k = 1, 2, 3, . . . ,
E(X ) = X k
i
insbesondere also D2 (X) = E(X 2 ) − (E(X))2 = −ϕ′′X (0) + (ϕ′X (0))2 .
k
(f) Ist X eine diskrete Zufallsvariable mit Wertebereich ⊆ N0 , so gilt
∞
X
ϕX (s) =
(eis )n P (X = n), s ∈ R,
n=0
und die Potenzreihe
ψ(z) =
∞
X
z n P (X = n),
n=0
z ∈ C, |z| ≤ 1,
heißt erzeugende Funktion der Zufallsvariable X.
Beispiel: Sei Xj N (µj , σj2 )-verteilt für j = 1, 2 und seien X1 , X2 unabhängig. Welche
Verteilung hat X1 + X2 ?
X −µ
Für j = 1, 2 ist Yj := jσj j N (0, 1)-verteilt. Somit gilt (nach (c)) für j = 1, 2:
2 2 /2
ϕXj (s) = E(eisXj ) = E(eis(σj Yj +µj ) ) = eisµj E(eisσj Yj ) = eisµj e−σj s
,
und weiter nach (d):
2
2
ϕX1 +X2 (s) = ϕX1 (s)ϕX2 (s) = eis(µ1 +µ2 ) e−(σ1 +σ2 )s
2 /2
,
s ∈ R.
Nach (a) ist dann X1 + X2 N (µ1 + µ2 , σ12 + σ22 )-verteilt. Die Summe unabhängiger normalverteilter Zufallsvariablen ist also wieder normalverteilt.
39
11
Stochastische Prozesse
Erinnerung: In Kapitel 7 haben wir uns mit zeitdiskreten stochastischen Prozessen
beschäftigt, d.h. mit Folgen X1 , X2 , X3 , . . . bzw. (Xn )n∈N0 von Zufallsvariablen.
11.1 Definition: Ein stochastischer Prozess (in kontinuierlicher Zeit) ist eine Familie
(X(t))t≥0 von Zufallsvariablen.
Bemerkung: Man betrachtet stochastische Prozesse auch als Abbildungen
X : [0, ∞) × Ω → R, (t, ω) 7→ X(t, ω).
Für festes ω ∈ Ω ist heißt die Funktion [0, ∞) → R, t 7→ X(t, ω) ein Pfad oder eine
Realisierung des stochastischen Prozesses (X(t))t≥0 .
11.2 Poisson-Prozess
Wir betrachten als Beispiel die Verabeitung von Paketen in Übertragungssystemen. Für
jedes t ≥ 0 sei X(t) die Anzahl der bis zum Zeitpunkt t eingetroffenen Pakete. Also ist jedes
X(t) eine diskrete Zufallsvariable mit Werten in N0 , und für 0 ≤ s < t ist X(t) − X(s)
die Anzahl der im Zeitintervall (s, t] eingetroffenen Pakete. Wir machen die folgenden
Annahmen:
(0) X0 = 0;
(1) die Anzahl der in disjunkten Zeitintervallen eintreffenden Pakete ist unabhängig voneinander, d.h. für 0 ≤ t0 < t1 < . . . < tn sind die Zufallsvariablen
X(t1 ) − X(t0 ), X(t2 ) − X(t1 ), . . . , X(tn ) − X(tn−1 )
unabhängig (man sagt: “der Prozess hat unabhängige Zuwächse”);
(2) die Wahrscheinlichkeit, dass in einem Intervall (s, t] gerade k ∈ N0 Pakete
eintreffen, hängt nur von der Intervalllänge t − s ab, d.h. für 0 ≤ s < t und
h > 0 haben die Zufallsvariablen X(t + h) − X(s + h) und X(t) − X(s) die
gleiche Verteilung, m.a.W es gilt
P (X(t + h) − X(s + h) = k) = P (X(t) − X(s) = k),
k ∈ N0
für alle 0 ≤ s < t und alle h > 0 (man sagt: “der Prozess hat stationäre
Zuwächse”);
(3) es gibt ein λ > 0 mit
P (X(h) − X(0) = 1) = λh + o(h)
P (X(h) − X(0) = 0) = 1 − λh + o(h)
für h → 0 (hierbei bezeichnet o(h) einen Term mit limh→0+
40
o(h)
h
= 0).
Einen stochastischen Prozess mit den Eigenschaften (0)–(3) bezeichnet man als (homogenen) Poisson-Prozess mit Parameter λ (wie bei Markoffketten bezieht sich “homogen” auf
die Eigenschaft (2), das “System” verhält sich zu jedem Zeitpunkt gleich). Im folgenden
sei, wenn nichts anderes gesagt wird, (X(t))t≥0 ein solcher homogener Poisson-Prozess mit
Parameter λ > 0.
11.3 Satz: Wir erhalten für alle t > 0, k ∈ N0 :
P (X(t) = k) =
(λt)k −λt
e ,
k!
d.h. jede Zufallsvariable X(t) ist Poisson-verteilt mit Parameter λt.
Beweisidee: Unterteile [0, t] in N Teilintervalle der Länge h = Nt . In jedem Teilintervall ist nach (2) und (3) die Wahrscheinlichkeit für das Eintreffen eines Paketes λh und
die Wahrscheinlichkeit für das Nichteintreffen 1 − λh (jedenfalls approximativ für kleine
Teilintervalle). Wegen (1) gilt dann
(λt)k −λt
N
P (X(t) = k) ∼
(λh)k (1 − λh)N −k −→
e
(N → ∞),
k
k!
wobei die Konvergenz wie im Beweis des Satzes von Poisson (in 5.17) gezeigt wird (beachte,
dass λh = λt
gilt).
N
11.4 Folgerung: (a) Für alle 0 ≤ s < t und alle k ∈ N0 gilt
P (X(t) − X(s) = k) =
(λ(t − s))k −λ(t−s)
e
,
k!
d.h. die Zufallsvariable X(t) − X(s) ist Poisson-verteilt mit Parameter λ(t − s).
(b) Für jedes t ≥ 0 gilt E(X(t)) = λt und D2 (X(t)) = λt. Also entspricht λ = E(X(t))
der
t
mittleren Ankunftsrate der Pakete. Misst man im großen Intervall mit Länge t die Anzahl
n ankommender Pakete, so ist nt ein vernünftiger Schätzwert für λ.
(c) Es gilt P (X(t) = 0) = e−λt , d.h. die Wahrscheinlichkeit, dass kein Paket ankommt,
geht mit t exponentiell gegen Null, entsprechend gilt P (X(t) − X(s) = 0) = e−λ(t−s) , t > s,
für jedes feste s > 0.
11.5 Ankunftszeitpunkte
Für k ∈ N0 beschreibe die Zufallsvariable τk den Ankunftszeitpunkt des k-ten Paketes.
Dann beschreibt τk+1 − τk die Dauer zwischen zwei aufeinanderfolgenden Ankunftszeitpunkten. Es ist τ0 = 0, und T := τ1 ist die Ankunftszeit des ersten Paketes.
Satz: Die Zufallsvariable T ist exponentialverteilt mit Parameter λ > 0. Insbesondere gilt
E(T ) = λ1 und D2 (T ) = λ12 .
41
Beweis: Für t ≤ 0 gilt P (T ≤ t) = 0. Für t > 0 gilt
P (T ≤ t) = P (X(t) ≥ 1) = 1 − P (X(t) = 0) = 1 − e−λt .
Somit hat T die Dichte
fT (t) =
0
,t ≤ 0
.
−λt
λe
,t > 0
Bemerkung: Es ist plausibel, dass für jedes k ∈ N die Zufallsvariable τk+1 − τk dieselbe
Verteilung wie T hat. Tatsächlich ist auch τk+1 − τk exponentialverteilt mit Parameter λ
für jedes k ∈ N.
11.6 Bemerkung: Die Summe unabhängiger Poisson-Prozesse ist wieder ein PoissonProzess. Dazu überlege man sich, dass für unabhängige Zufallsvariablen X1 , X2 , . . . , Xn , die
Poisson-verteilt mit Parametern λ1 , λ2 , . . . , λn > 0 sind, die Summe X = X1 +X2 +. . .+Xn
Poisson-verteilt mit Parameter λ = λ1 + λ2 + . . . + λn ist. (Man gehe vor wie im “Beweis”
von 8.11(c) oder vergleiche mit Jondral/Wiesler, S. 143; ein anderes Argument findet sich
bei Jondral/Wiesler, S. 184).
11.7 Definition: Seien X, Y Zufallsvariablen mit D2 (X) + D2 (Y ) < ∞. Dann heißt
cov (X, Y ) := E[(X − E(X))(Y − E(Y ))]
Kovarianz von X und Y , und
cov (X, Y )
ρ(X, Y ) = p
D2 (X) D2 (Y )
heißt Korrelationskoeffizient von X und Y . Gilt ρ(X, Y ) = 0, so heißen X und Y unkorreliert.
Nach Voraussetzung an X und Y existiert der Erwartungswert in der Definition von
cov (X, Y ) in R.
11.8 Satz: Seien X, Y Zufallsvariablen mit D2 (X) + D2 (Y ) < ∞.
(a) X, Y unabhängig =⇒ X, Y unkorreliert [“⇐” ist i.a. falsch!].
(b) D2 (X + Y ) = D2 (X) + D2 (Y ) + 2cov (X, Y ) und |ρ(X, Y )| ≤ 1.
Beweis: (a) X − E(X) und Y − E(Y ) sind unabhängig und haben Erwartungswert Null.
(b) Vergleiche 8.11(b) für die erste Aussage. Die zweite Aussage ist äquivalent zu
p
p
|cov (X, Y )| ≤ D2 (X) D2 (Y ),
wobei man nur E(X) = 0 = E(Y ) betrachten muss. Diese Aussage beweist man wie die
Cauchy-Schwarzsche Ungleichung.
42
Bemerkung: Es gilt: cov (X, X) = D2 (X); ρ(X, X) = 1; ρ(X, aX + b) = 1 für a > 0 und
b ∈ R. Der Korrelationskoeffizient ρ(X, Y ) ist ein “Ähnlichkeitsmaß” für das Paar (X, Y )
von Zufallsvariablen.
11.9 Definition: Sei (X(t))t≥0 ein stochastischer Prozess.
(a) Die Funktion
ϕXX (t1 , t2 ) := E(X(t1 )X(t2 )),
t1 , t2 ≥ 0,
heiß Autokorrelationsfunktion des stochastischen Prozesses (X(t))t≥0 , und die Funktion
cXX (t1 , t2 ) := cov (X(t1 ), X(t2 )) = E[(X(t1 ) − E(X(t1 )))(X(t2 ) − E(X(t2 )))],
t1 , t2 ∈ R,
heißt Autokovarianzfunktion des stochastischen Prozesses (X(t))t≥0 .
(b) Der stochastische Prozess (X(t))t≥0 heißt (schwach) stationär, falls
(i) E(X(t)) = µ unabhängig von t ist;
(ii) ϕXX (t1 , t2 ) nur von t2 − t1 abhängt (dh, wenn für alle t1 , t2 , h gilt ϕXX (t1 +
h, t2 + h) = ϕXX (t1 , t2 ) gilt; wir schreiben dann ϕXX (t1 , t2 ) = ϕXX (t2 − t1 ) =
ϕXX (τ ) mit τ = t2 − t1 ).
(c) Der stochastische Prozess (X(t))t≥0 heißt stark stationär, falls für alle n ∈ N, alle
0 ≤ t1 < t2 < . . . < tn , alle h > 0 und alle reellen Intervalle A1 , A2 , . . . , An gilt:
P (X(T1 + h) ∈ A1 , X(t2 + h) ∈ A2 , . . . , X(tn + h) ∈ An )
= P (X(t1 ) ∈ A1 , X(t2 ) ∈ A2 , . . . , X(tn ) ∈ An ).
Bemerkung: “Stark stationär” impliziert “(schwach) stationär”.
Beispiel: Der Poisson-Prozess ist nicht (schwach) stationär, da E(X(t)) = λt von t
abhängt.
Bemerkung: Es gilt stets
cXX (t1 , t2 ) = E(X(t1 )X(t2 ))−2E(X(t1 ))E(X(t2 ))+E(X(t1 ))E(X(t2 )) = ϕXX (t1 , t2 )−E(X(t1 ))E(X(t2
vergleiche die Beziehung zwischen Varianz und zweitem Moment.
Insbesondere ist ϕXX (t1 , t2 ) = cXX (t1 , t2 ) für E(X(t1 )) = E(X(t2 )) = 0, und für einen
(schwach) stationären Prozess (X(t))t≥0 mit E(X(t)) = µ gilt:
cXX (t1 , t2 ) = ϕXX (t1 , t2 ) − µ2 ,
dh auch die Kovarianzfunktion hängt dann nur von der Differenz τ = t2 − t − 1 ab.
43
11.10 Definition: Ist (X(t))t≥0 ein (schwach) stationärer Prozess mit Autokorrelationsfunktion ϕXX (τ ), τ ∈ R, so heißt
ϕXX (0) = ϕXX (t, t) = E(X(t)2 ) (unabhängig von t!)
die mittlere Leistungsdichte von (X(t))t≥0 und
Z ∞
ϕXX (τ ) e−2πiωτ dτ,
ΦXX (ω) :=
ω ∈ R (Frequenz),
−∞
heißt Leistungsdichtespektrum des stochastischen Prozesses (X(t))t≥0 .
11.11 Bemerkung: (a) Wegen ϕXX (t1 , t2 ) = ϕXX (t2 , t1 ) ist ϕXX in 11.10 eine gerade
Funktion: ϕXX (τ ) = ϕXX (−τ ) für alle τ ∈ R.
(b) Es ist ΦXX (ω) ≥ 0 für jedes ω ∈ R (ohne Beweis).
(c) Ist ΦXX integrierbar und ϕXX stetig, so gilt
Z ∞
ΦXX (ω) e2πiωτ dω,
ϕXX (τ ) =
−∞
insbesondere also
2
E(X(t) ) = ϕXX (0) =
Z
∞
τ ∈ R,
ΦXX (ω) dω,
−∞
sodass ΦXX (ω) die Leistungsverteilung auf den Frequenzen ω ∈ R angibt.
11.12 Weißes Gaußsches Rauschen
Reelles weißes Gaußsches Rauschen ist ein stochastischer Prozess (X(t))t≥0 mit
(i) für jedes t ≥ 0 ist X(t) normalverteilt;
(ii) für jedes t ≥ 0 ist E(X(t)) = 0;
(iii) für s 6= t sind X(s) und X(t) unabhängig (insbesondere ist der Prozess
stationär);
(iv) ΦXX (ω) =
No
2
für jedes ω ∈ R (konstantes Leistungsdichtespektrum).
Hierbei ist No 6= 0, da sonst X(t) = 0 für alle t.
11.13 Bemerkung: Wegen (iii) gilt ϕXX (τ ) = 0 für τ 6= 0. Mathematisch führt dies auf
Schwierigkeiten, da ja
Z ∞
No
ϕXX (τ ) dτ = ΦXX (0) =
2
−∞
gelten soll, insbesondere darf man das Integral nicht als uneigentliches Riemann-Integral
verstehen.
44
Man behilft sich mit der Deltafunktion δ, die mathematisch gesehen jedoch keine Funktion sondern eine sogenannte “Distribution” ist. Wir betrachten δ hier als Objekt, das
folgendermaßen charakterisiert ist:
jede stetige und beschränkte komplexwertige Funktion g : R → C gilt:
RFür
∞
g(τ )δ(τ ) dτ = g(0).
−∞
Das Integral ist hierbei nur als Schreibweise
R ∞ zu verstehen. Man stellt sich vor: δ(τ ) = 0 für
τ 6= 0, und δ(0) ist “so unendlich”, dass −∞ δ(τ ) dτ = 1 gilt (wende obige Eigenschaft auf
g(τ ) = 1 an!).
Mithilfe von δ stellen wir fest: Für ϕXX (τ ) = N2o δ(τ ) gilt dann tatsächlich
Z ∞
No
ΦXX (ω) =
ϕXX (τ ) e−2πiωτ dτ =
, ω ∈ R,
2
−∞
wenn man obige Eigenschaft für festes ω ∈ R auf die durch g(τ ) =
stetige beschränkte Funktion g anwendet.
No −2πiωτ
e
2
definierte
Bemerkung: Die charakterisierende Eigenschaft von δ lässt sich auf Funktionen g
übertragen, die auf einem Intervall (−ε, ε) stetig sind.
Bemerkung: Es ist nach diesen Ausführungen vielleicht nicht überraschend, dass weißes
Rauschen als stochastischer Prozess im Sinne unserer Definition 11.1 gar nicht existiert. Zur
präzisen mathematischen Formulierung muss man wieder auf Distributionen zurückgreifen
und weißes Rauschen als verallgemeinerten stochastischen Prozess definieren (wie auch δ
nicht als Funktion existiert, sondern als verallgemeinerte Funktion). Wie bei δ auch, soll
uns das hier nicht groß stören.
11.14 Bemerkung: Normalerweise fordert man in der Definition des weißen Rauschens
statt (i) und (iii):
(i’) der Prozess (X(t))t≥0 ist ein Gaußscher Prozess, d.h. für alle n ∈ N
und alle 0 ≤ t1 < t2 < . . . < tn genügt der Vektor von Zufallsvariablen
(X(t1 ), X(t2 ), . . . , X(tn )) einer mehrdimensionalen Normalverteilung
(→ Jondral/Wiesler);
(iii’) der Prozess (X(t))t≥0 ist stationär.
Die Eigenschaften (i), (ii), (iii), (iv) sind zu den Eigenschaften (i’), (ii), (iii’), (iv) äquivalent,
wobei man aber Eigenschaften der mehrdimensionalen Normalverteilung benutzen muss
(die wir nicht betrachtet haben):
45
Man beachte, dass (iv) – wie oben angedeutet – ϕXX (τ ) = N2o δ(τ ) impliziert. Damit sind X(t) und X(s) für t 6= s unkorreliert. Da der Vektor
(X(t), X(s)) normalverteilt ist, sind X(t) und X(s) dann sogar unabhängig
(→ Jondral/Wiesler). Umgekehrt implizieren (i) und (iii), dass der Vektor
(X(t1 ), . . . , X(tn )) einer mehrdimensionalen Normalverteilung genügt, die Kovarianzmatrix ist in diesem Fall eine Diagonalmatrix.
Fordert man (i’), (ii) und (iii’), so kann man (iv) für praktische Zwecke durch eine der
folgenden Eigenschaften ersetzen (hierbei ist B > 0 und ωc viel größer als B/2):
No /2 , |ω| ≤ B/2
, was einem tiefpassbegrenztem weißen
0
, sonst
Rauschen entspricht;
No /2 , |ω − ωc | ≤ B/2
(iv”) ΦXX (ω) =
, was einem bandpassbegrenztem
0
, sonst
weißen Rauschen entspricht.
(iv’) ΦXX (ω) =
In diesen Fällen existiert ϕXX als Funktion und kann über Fourierinversion (vgl. die Formel
in 11.11(c)) berechnet werden.
46