Wahrscheinlichkeitstheorie für die Fachrichtung

Werbung
Wahrscheinlichkeitstheorie für die Fachrichtung
Elektroingenieurwesen
WS 2009/10
Peer Christian Kunstmann
Karlsruher Institut für Technologie (KIT)
Institut für Analysis
Kaiserstraße 89, 76128 Karlsruhe
e-mail: [email protected]
Dies ist ein Vorlesungsabriss, gedacht zur Vorlesungsbegleitung und als Gedächtnisstütze,
nicht jedoch als etwas, das für sich selbst stehen könnte (wie etwa ein Lehrbuch). Der
Besuch der Vorlesung ist durch die Lektüre keinesfalls zu ersetzen, es gibt dort noch viel
mehr an mündlichen Erklärungen, Erläuterungen und Skizzen, die für Verständnis und
Einordnung unabdingbar sind.
1
1
Einführung
Die Vorlesung orientiert sich an dem Buch
F. Jondral, A. Wiesler: Wahrscheinlichkeitsrechnung und stochastische
Prozesse, Teubner Verlag, 2. Aufl. 2002,
wobei jedoch verschiedenes umgebaut werden muss und nicht alles behandelt werden kann.
Erwähnen möchte ich aber auch
N. Henze: Stochastik für Einsteiger, Vieweg,
in dem grundlegende Ideen ausführlich und zugänglich dargestellt werden.
Mathematische Modelle: Was ist Zufall? Was ist Wahrscheinlichkeit? Je länger man
darüber nachdenkt, desto weniger weiß man es. Der umgangssprachliche Gebrauch des
Wortes “wahrscheinlich” gibt keinen Hinweis darauf, wie Wahrscheinlichkeit zu messen
wäre. Wahrscheinlichkeit ist auch keine physikalische Größe wie etwa Stromstärke oder
Spannung. Berechnen lassen sich bestimmte Wahrscheinlichkeiten nur innerhalb eines
mathematischen Modells. Außerhalb von mathematischen Modellen werden wir nicht über
“Wahrscheinlichkeit” reden, bei der Aufstellung eines mathematischen Modells ist jedoch
darauf zu achten, dass die Modellannahmen plausibel sind. Der Sinn dieser Worte wird
sich hoffentlich im Laufe dieser Vorlesung erschließen.
2
Der Wahrscheinlichkeitsraum
Unter einem Zufallsexperiment verstehen wir einen Versuch, dessen Ausgang im Bereich
gewisser bekannter Möglichkeiten liegt, aber ungewiss ist, und der unter bestimmten Rahmenbedingungen (zumindest prinzipiell) beliebig oft wiederholbar ist.
Beispiele: Werfen einer Münze; Würfeln; Warten an einer Straße auf das erste vorbeifahrende Auto; Ziehung der Lotto-Zahlen.
2.1 Definition: Ein endlicher Ergebnisraum ist eine nicht-leere endliche Menge Ω =
{ξ1 , ξ2 , . . . , ξN }. Die Elemente ξj ∈ Ω heißen Ergebnisse, eine einelementige Teilmenge
{ξj } ⊂ Ω heißt Elementarereignis. Jede Teilmenge A ⊂ Ω heißt Ereignis. Ω und die leere
Menge ∅ sind Ereignisse, wobei Ω das sichere und ∅ das unmögliche Ereignis heißen.
Beispiele: (a) Münzwurf: Ω = {Kopf, Zahl} oder Ω = {0, 1}, wobei 0=Kopf,
ˆ
1=Zahl,
ˆ
|Ω| = Mächtigkeit von Ω = Anzahl der Elemente von Ω = 2.
(b) Würfeln: Ω = {1, 2, 3, 4, 5, 6}, hier |Ω| = 6; {1} ist Elementarereignis, ein Ereignis ist
z.B. A = {die gewürfelte Augenzahl ist gerade} = {2, 4, 6}.
(c) n-maliges Werfen einer Münze, wobei n natürliche Zahl:
Ω = {(x1 , x2 , . . . , xn ) : xj ∈ {0, 1} für jedes j ∈ {1, 2, . . . , n} },
2
hier gilt |Ω| = 2n , da es für jede der n Stellen je zwei Möglichkeiten gibt.
Etwa n = 3: A = {es fällt nie Kopf} = {(1, 1, 1)} Elementarereignis,
B = {es fällt genau einmal Zahl} = {(1, 0, 0), (0, 1, 0), (0, 0, 1)}.
(d) Ist Ω = {ξ1 , ξ2 , . . . , ξN } endlicher Ergebnisraum mit |Ω| = N , so gibt es genau 2N
Ereignisse. Für die Potenzmenge P(Ω) := {A : A ⊂ Ω} gilt also |P(Ω)| = 2N .
2.2 Rechnen mit Ereignissen, dh Rechnen mit Mengen
Sei Ω eine Menge und A, B ⊂ Ω. Dann
A∩B
A∪B
A\B
A := Ac
:=
:=
:=
:=
AB := {ξ ∈ Ω : ξ ∈ A und ξ ∈ B} Durchschnitt
{ξ ∈ Ω : ξ ∈ A oder ξ ∈ B} Vereinigung
A − B := {ξ ∈ Ω : ξ ∈ A und ξ 6∈ B} Differenz
{ξ ∈ Ω : ξ 6∈ A} Komplement, Negation, entgegengesetztes Ereignis
Bemerkung: A \ B = A ∩ B = A \ (A ∩ B).
Es gelten folgende Regeln:
Kommutativität von ∪/∩: A ∪ B = B ∪ A, A ∩ B = B ∩ A,
Assoziativität von ∪/∩:
A ∪ (B ∪ C) = (A ∪ B) ∪ C = A ∪ B ∪ C, A ∩ (B ∩ C) = (A ∩ B) ∩ C = A ∩ B ∩ C,
Distributivgesetze: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C), A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C).
Außerdem: A ∪ A = A, A ∪ Ω = Ω, A ∪ ∅ = A, A ∩ A = A, A ∩ Ω = A, A ∩ ∅ = ∅.
Definition: Sind A, B Ereignisse mit A ∩ B = ∅, so heißen A und B disjunkt oder unvereinbar.
De Morgansche Regeln: A ∪ B = A ∩ B, A ∩ B = A ∪ B.
Allgemeiner: Ist T =
6 ∅ eine Menge und ist für jedes t ∈ T ein Ereignis At ⊂ Ω gegeben, so
setzt man:
[
At := {ξ ∈ Ω : es gibt ein t ∈ T mit ξ ∈ At },
t∈T
\
t∈T
Es gilt dann:
S
t∈T
At =
At := {ξ ∈ Ω : für alle t ∈ T gilt ξ ∈ At }.
T
t∈T
At ,
T
t∈T
At =
S
t∈T
At .
2.3 Relative Häufigkeit
Definition: Tritt bei N unabhängigen Wiederholungen des durch Ω beschriebenen Zufallsexperiments das Ereignis A ⊂ Ω genau hN (A)-mal ein, so heißt hN (A) die absolute
Häufigkeit und
hN (A)
HN (A) :=
N
3
die relative Häufigkeit von A in N Versuchen.
Beispiel: Ein Würfel wird N = 100 mal geworfen mit
k 1
2
3
4
5
6
hN ({k}) 13 20 11
19
21
16
HN ({K}) 0.13 0.2 0.11 0.19 0.21 0.16.
Für A = {gerade Augenzahl} = {2, 4, 6} gilt hN (A) = 55, HN (A) = 0.55.
Bemerkung: Offenbar hat die relative Häufigkeit HN stets folgende Eigenschaften:
(1) Für alle A ⊂ Ω: 0 ≤ HN (A) ≤ 1;
(2) HN (Ω) = 1;
(3) Für alle A, B ⊂ Ω mit A ∩ B = ∅: HN (A ∪ B) = HN (A) + HN (B).
Folgerung: Es gelten auch:
(4) Für alle A ⊂ Ω: HN (A) = 1 − HN (A);
(5) Für alle A, B ⊂ Ω: HN (A ∪ B) = HN (A) + HN (B) − HN (A ∩ B).
Beweis für (5):
A
B
A∩B
B\A
Wegen A ∪ B = A + (B \ A) = A + (B \ (A ∩ B)) und B = (B \ (A ∩ B)) + (A ∩ B)
(+: disjunkte Vereinigung) gilt nach (3)
HN (A ∪ B) = HN (A) + HN (B \ (A ∩ B)),
HN (B) = HN (B \ (A ∩ B)) + HN (A ∩ B),
woraus unmittelbar (5) folgt.
2.4 Wahrscheinlichkeit im Laplace-Experiment
Definition: Sei Ω ein endlicher Ergebnisraum. Für jedes A ⊂ Ω ist
P (A) :=
|A|
Anzahl Elementarereignisse in A
=
|Ω|
Gesamtzahl der Elementarereignisse
die Wahrscheinlichkeit des Ereignisses A.
4
Interpretation: Jedes Elementarereignis {ξ} ⊂ Ω ist gleich wahrscheinlich.
Bemerkung: Ist |Ω| = N , so entspricht P der relativen Häufigkeit HN , wenn in N Versuchen jedes Elementarereignis genau einmal auftritt. Die Eigenschaften (1), (2), (3) und
auch (4), (5) aus 2.3 gelten also auch für P statt HN .
Beispiele: (a) Laplace-Würfel, Ω = {1, 2, 3, 4, 5, 6}. Für A = {2, 4, 6} gilt etwa P (A) =
|A|
= 63 = 0.5.
|Ω|
(b) Zweimaliges Würfeln.
Ende
Nicht immer ist es sinnvoll, alle Elementarereignisse als gleich wahrscheinlich anzunehmen: Woche 1
e = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
Beispiel: (c) Augensumme beim Werfen zweier Würfel, Ω
Vergleicht man mit Beispiel (b), so sieht man
Summe 2={(1,
ˆ
1)},
Summe 3={(1,
ˆ
2), (2, 1)}, Summe 4={(1,
ˆ
3), (2, 2), (3, 1)} etc.
Somit sollte hier sein: P ({2}) =
P ({j}) =
j−1
36
13−j
36
1
,
36
P ({3}) =
für j ∈ {2, 3, . . . , 7}
für j ∈ {8, 9, . . . , 12}
2
36
=
1
,
18
P ({4}) =
bzw. P ({j}) =
3
36
=
1
12
etc. Also
6 − |7 − j|
e
für j ∈ Ω.
36
2.5 Kolmogoroff-Axiome für endliche Ergebnisräume
Definition: Sei Ω ein endlicher Ergebnisraum. Eine Funktion P : P(Ω) → R, die jedem
Ereignis A ⊂ Ω eine reelle Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß, falls gilt:
(1) Für alle A ⊂ Ω: 0 ≤ P (A) ≤ 1;
(2) P (Ω) = 1;
(3) Für alle disjunkten A, B ⊂ Ω: P (A ∪ B) = P (A) + P (B).
Bemerkung: Ist P ein Wahrscheinlichkeitsmaß, so gilt auch:
(4) Für alle A ⊂ Ω: P (A) = 1 − P (A);
(5) Für alle A, B ⊂ Ω: P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Bemerkung: Ist Ω = {ξ1 , ξ2 , . . . , ξN } und |Ω| = N , so ist die Funktion P durch Angabe
der Wahrscheinlichkeit der Elementarereignisse pj := P ({ξj }) für j = 1, 2, . . . , N eindeutig
festgelegt. Gibt man die pj für j = 1, 2, . . . , N an, so gehört zu diesen genau dann ein
Wahrscheinlichkeitsmaß auf Ω, wenn pj ≥ 0 für alle j ∈ {1, 2, . . . , N } und p1 +p2 +. . .+pN =
1 gilt.
Beispiel: Werfen einer Münze, bis das erste Mal “Kopf” auftritt, höchstens jedoch viermal:
Ω = {K, ZK, ZZK, ZZZK, ZZZZ}, wobei Z =“Zahl”,
ˆ
K =“Kopf”,
ˆ
bzw. mit “Zahl”=1,
ˆ
5
“Kopf”=0:
ˆ Ω = {0, (1, 0), (1, 1, 0), (1, 1, 1, 0), (1, 1, 1, 1)}.
Hier ist (bei einer idealen Münze) plausibel:
1
1
1
P ({0}) = , P ({(1, 0)}) = , P ({(1, 1, 0)}) =
2
4
8
1
1
P ({(1, 1, 1, 0)}) = , P ({(1, 1, 1, 1)}) = .
16
16
Die Summe der angegebenen Werte ist = 1, also ist dadurch ein Wahrscheinlichkeitsmaß
festgelegt.
2.6 Unendliche Ergebnisräume
Beispiel: Werfen einer Münze, bis das erste Mal “Kopf” auftritt.
Ω = {K, ZK, ZZK, ZZZK, ZZZZK, . . .} = {ωj : j ∈ N}, wobei ωj := ZZ
· · · Z} K für j ∈ N.
| {z
(j−1)−mal
Die Menge Ω ist nicht endlich, aber Ω ist abzählbar, dh die Elemente von Ω können
vollständig mit natürlichen Zahlen durchnummeriert werden.
In Fortführung des Beispiels in 2.5 liegt es nahe zu setzen:
pj = P ({ωj }) =
1
2j
für jedes j ∈ N.
Ist die “Summe über alle pj ” gleich 1?
Definition: Sei a1 , a2 , . . . eine Folge von Zahlen aj ≥ 0. Dann setzen wir
∞
X
j=1
Hierbei ist
Pn
j=1
n
X
aj := sup{
aj : n ∈ N} ∈ [0, ∞].
j=1
aj = a1 + a2 + . . . + a n .
Im Beispiel gilt für jedes n ∈ N:
n
X
pj = p1 + p2 + . . . + pn =
j=1
1
1
1 1 1
+ + + . . . + n = 1 − n ≤ 1.
2 4 8
2
2
Andererseits wird die Differenz zu 1 beliebig klein, dh es gilt
P∞
j=1
pj = 1.
Definition: Die Ereignisse A1 , A2 , A3 , . . . heißen paarweise disjunkt, falls Aj ∩ Ak = ∅ für
alle j 6= k gilt. In diesem Fall schreiben wir die Vereinigung
∞
[
j=1
Gilt
P∞
j=1
Aj :=
[
Aj auch als
∞
X
Aj .
j=1
j∈N
Aj = Ω, so heißt die Folge (Aj )j∈N vollständige Ereignisdisjunktion.
6
Im Beispiel ist eine vollständige Ereignisdisjunktion gegeben durch
Aj := {ωj } = {ZZ
· · · Z} K} für j ∈ N.
| {z
(j−1)−mal
Definition: Eine unendliche Menge, die nicht abzählbar ist, heißt überabzählbar.
Beispiel: Die Menge R der reellen Zahlen ist überabzählbar.
2.7 Kolmogoroff-Axiome für abzählbare Ergebnisräume
Definition: Sei Ω ein abzählbarer Ergebnisraum. Eine Funktion P : P(Ω) → R, die jedem
Ereignis A ⊂ Ω eine reelle Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß auf P(Ω),
falls gilt:
(1) Für alle A ⊂ Ω: 0 ≤ P (A) ≤ 1;
(2) P (Ω) = 1;
(3) Für jede Folge (Aj )j∈N paarweise disjunkter Ereignisse Aj ⊂ Ω gilt:
∞
∞
X
X
P(
Aj ) =
P (Aj ).
j=1
j=1
Bemerkung: Diese Definition umfasst die Definition in 2.5. Auch hier gelten die Eigenschaften (4) und (5) aus 2.5.
Beispiel: Im Beispiel aus 2.6 definiert
X
P (A) :=
j mit ωj
1
2j
∈A
ein Wahrscheinlichkeitsmaß auf P(Ω).
2.8 Definition: Ein abzählbarer Wahrscheinlichkeitsraum ist ein abzählbarer Ergebnisraum Ω versehen mit einem Wahrscheinlichkeitsmaß P auf P(Ω).
3
Kombinatorik
Die Kombinatorik beschäftigt sich mit dem “Abzählen endlicher Mengen”. Dies ist insbesondere für die Bestimmung von Wahrscheinlichkeiten im Laplace-Experiment von Bedeutung. Wir betrachten eine endliche Menge M mit |M | = N ∈ N, es sei k ∈ N0 .
3.1 Anzahl der k-Tupel mit Elementen aus M (für k ≥ 1): Für die Menge
{(x1 , x2 , . . . , xk ) : xj ∈ M für jedes j ∈ {1, 2, . . . , k} } = M
× . . . × M} =: M k
| × M {z
k−mal
7
gilt |M k | = N k .
3.2 Permutationen: Für die Elemente von M hat man N ! = 1 · 2 · . . . · N Anordnungsmöglichkeiten, dh mögliche Reihenfolgen.
3.3 Anzahl der k-Tupel mit Elementen aus M , in denen alle Einträge verschieden sind (“Variationen”): Hier gibt es für 1 ≤ k ≤ N genau N · (N − 1) · . . . ·
!
(N − k + 1) = (NN−k)!
Möglichkeiten.
3.4 Anzahl der k-elementigen
Teilmengen von M (“Kombinationen”): Für 0 ≤
N
N!
k ≤ N gibt es genau k := k! (N −k)! Teilmengen von M , die genau k Elemente haben. Nk
heißt Binomialkoeffizient.
3.5 Beispiele:
(a) Ein Byte hat 8 Bit (Wert 0 oder 1); es gibt 28 = 256 verschiedene Bytes (3.1).
(b) Man kann die 7 Spieler einer Handballmannschaft auf 7! = 5040 Arten in einer Reihe
aufstellen (3.2).
= 3432 Arten in zwei Handballmannschaften einteilen
(c) Man kann 14 Spieler auf 14
7
(3.4).
(d) Will man unter 7 Teilnehmern Gold-, Silber- und Bronzemedaille verteilen, so gibt es
7!
= 7!
= 7 · 6 · 5 = 210 Möglichkeiten (3.3).
dafür (7−3)!
4!
(e)Will
5 rote, 3 gelbe und 2 grüne Kugeln hintereinander anordnen, so gibt es dafür
man
10 5
10!
= 5!3!2! = 2520 Möglichkeiten (3.4). Für k1 + k2 + . . . + kl = N mit kj ∈ N0 heißt Ende
3
5
Woche 2
N!
N
:=
k1 !k2 ! · · · kl !
k1 , k2 , ..., kl
Multinomialkoeffizient.
(f) Wahrscheinlichkeit für sechs Richtige im Lotto: 1/
4
49
6
= 1/13983816 ∼ 1/14Mio.
Bedingte Wahrscheinlichkeit und Unabhängigkeit
4.1 Def: Sei (Ω, P ) ein abzählbarer Wahrscheinlichkeitsraum, A, B ⊂ Ω und P (B) > 0.
Dann heißt
P (A ∩ B)
P (A|B) :=
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
4.2 Beispiel: Zweimaliger Münzwurf: Wie groß ist die Wahrscheinlichkeit, zweimal Kopf
zu werfen unter der Bedingung,
8
(a) dass der erste Wurf Kopf=0
ˆ ist? Es ist Ω = {0, 1}2 , A = {(0, 0)}, B = {(0, 0), (0, 1)},
1/4
1
1
= 12 .
P (A) = 4 , P (B) = 2 , P (A|B) = 1/2
(b) dass mindestens einmal Kopf fällt? Hier ist B = {(0, 0), (0, 1), (1, 0)}, P (B) =
P (A|B) = 13 .
3
4
und
4.3 Bemerkungen: (a) Die Funktion A 7→ P (A|B) ist ein Wahrscheinlichkeitsmaß auf Ω
(und auch auf B) (leicht).
(b) Multiplikationsregel für Wahrscheinlichkeiten:
P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A).
Entsprechendes gilt für n Ereignisse A1 , A2 , . . . , An ⊂ Ω:
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ∩ A2 ∩ . . . ∩ An−1 )P (An |A1 ∩ . . . ∩ An−1 )
= P (A1 ∩ . . . ∩ An−2 )P (An−1 |A1 ∩ . . . ∩ An−2 )P (An |A1 ∩ . . . ∩ An−1 )
= P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ . . . ∩ An−1 ).
4.4 Satz: Die Ereignisse A1 , A2 , . . . , An seien eine vollständige Ereignisdisjunktion und es
gelte P (Aj ) > 0 für jedes j ∈ {1, 2, . . . , n}. Dann gilt für jedes B ⊂ Ω die Formel von der
totalen Wahrscheinlichkeit
n
X
P (B) =
P (B|Aj )P (Aj )
j=1
und, falls P (B) > 0 ist, die Formel von Bayes
P (B|Ak )P (Ak )
P (Ak |B) = Pn
j=1 P (B|Aj )P (Aj )
für jedes k = 1, 2, . . . , n.
P
P
Beweis: B = nj=1 B ∩ Aj , also P (B) = nj=1 P (B ∩ Aj ), verwende nun 4.3(b). In der
zweiten Formel steht oben P (Ak ∩ B) und unten P (B).
4.5 Definition: Zwei Ereignisse A, B ⊂ Ω heißen (stochastisch) unabhängig, falls gilt
P (A ∩ B) = P (A)P (B).
4.6 Bemerkung: Sind A, B Ereignisse mit P (B) > 0, so gilt:
A, B unabhängig ⇐⇒ P (A) = P (A|B).
4.7 Beispiele: (a) In 4.2(a), 4.2(b) sind A, B nicht unabhängig.
9
(b) Zweimaliger Münzwurf:
A = {erster Wurf ist Kopf} = {(0, 0), (0, 1)},
B = {zweiter Wurf ist Kopf} = {(0, 0), (1, 0)},
A ∩ B = {(0, 0)}, P (A) = P (B) = 12 , P (A ∩ B) = 41 ; A, B sind unabhängig.
(c) Sechsmaliger Münzwurf:
A = {sechster Wurf ist Kopf},
P (A ∩ B) =
1
,
64
P (A) = 12 , P (B) =
1
;
32
B = {die ersten fünf Würfe sind Kopf},
A, B sind unabhängig, P (A) = P (A|B).
4.8 Binomialverteilung
Von einem Zufallsexperiment mit zwei Ausgängen 0 (“Niete”) und 1 (“Treffer”) werden N unabhängige Versuche durchgeführt. Die Wahrscheinlichkeit eines Treffers sei
p ∈ (0, 1). Wir interessieren uns für die Trefferanzahl in den N Versuchen und setzen
Ω = {0, 1, 2, . . . , N }. Es ist dann
N k
p (1 − p)N −k
P ({k}) =
k
für jedes k ∈ Ω. Dieses P heißt Binomialverteilung auf Ω mit Parametern N und p.
Beachte: Nach dem Binomialsatz (→HM I) gilt
N X
N
k=0
k
pk (1 − p)N −k = (p + (1 − p))N = 1N = 1.
4.9 Definition: Die Ereignisse A1 , A2 , . . . , An ⊂ Ω heißen unabhängig, falls für je k verschiedene Indizes i1 , i2 , . . . , ik ∈ {1, 2, . . . , n} gilt
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ) · . . . · P (Aik ).
Hierbei kann k die Werte 2, 3, . . . , n annehmen.
4.10 Beispiele: (a) Wirft man eine Münze n-mal und setzt Aj
=
{im j-ten Wurf fällt Kopf}, so sind A1 , A2 , . . . , An unabhängig: Es ist nämlich P (Aj ) = 21
für jedes j, und für k verschiedene Indizes i1 , . . . , ik ist
1
2n−k
P (Ai1 ∩ . . . ∩ Aik ) = n = k = P (Ai1 ) · . . . · P (Aik ).
2
2
(b) Zweimaliger Münzwurf: A = {beide Würfe sind gleich} = {(0, 0), (1, 1)}, B =
{erster Wurf ist Kopf} = {(0, 0), (0, 1)}, C = {zweiter Wurf ist Kopf} = {(0, 0), (1, 0)}.
Dann A ∩ B = A ∩ C = B ∩ C = {(0, 0)} und P (A) = P (B) = P (C) = 21 , P (A ∩ B) = 14 .
Also sind A, B unabhängig, A, C sind unabhängig und B, C sind unabhängig, aber A, B, C
sind nicht unabhängig.
Ende
Woche 3
10
5
Zufallsvariablen
5.1 Motivation: Wir haben schon Situationen kennengelernt, in denen eine “Reduktion”
oder “Zusammenfassung” von Ergebnissen auftrat, z.B.
Werfen zweier Würfel
Augensumme
e = {2, 3, 4, . . . , 12}.
Ω = {(j, k) : j, k ∈ {1, 2, 3, 4, 5, 6} } ∼> Ω
Formal sollte man hier mit Abbildungen arbeiten, in obigem Beispiel etwa mit der Abbildung
e (j, k) 7→ j + k;
Ω → Ω,
e hatten wir als P ({(j, k) : j + k ∈ A})
die Wahrscheinlichkeit eines Ereignisses A ⊂ Ω
bestimmt, wobei P das Wahrscheinlichkeitsmaß auf Ω war. Besonders interessant sind
Abbildungen X : Ω → R mit reellen Werten, da man mit diesen Werten rechnen kann.
Dabei betrachtet man in der Regel Ereignisse wie
X −1 ((a, b]) = {ω ∈ Ω : X(ω) ∈ (a, b]} = {ω ∈ Ω : a < X(ω) ≤ b} =: {X ∈ (a, b]}.
Beschränkt man sich auf solche Ereignisse, kann man in der Regel nicht allen Teilmengen
A ⊂ Ω eine Wahrscheinlichkeit P (A) zuzuordnen.
5.2 Definition (σ-Algebren): Ist Ω ein beliebiger Ergebnisraum, so heißt ein System A ⊂
P(Ω) eine σ-Algebra (über Ω), falls gilt:
(i) Ω ∈ A;
(ii) Für alle A ⊂ Ω gilt: A ∈ A ⇒ A ∈ A;
S
(iii) Gilt Aj ∈ A für j = 1, 2, 3, . . ., so gilt auch ∞
j=1 Aj ∈ A.
Beispiele: (a) P(Ω) und {∅, Ω} sind σ-Algebren über Ω. Für jede σ-Algebra A gilt {∅, Ω} ⊂
A ⊂ P(Ω).
(b) Würfeln Ω = {1, 2, 3, 4, 5, 6};
A = {∅, {1} , {2, 3, 4, 5, 6} , Ω}
{z
}
|{z} |
“Eins” “nicht Eins”
ist σ-Algebra über Ω. Man sieht hier, dass auch dies eine “Zusammenfassung” von Ergebnissen bedeutet.
5.3 Bemerkung: Sei A eine σ-Algebra über Ω.
(a) Wegen de Morgan und (ii), (iii) gilt auch
Aj ∈ A für j = 1, 2, 3, . . . =⇒
11
∞
\
j=1
Aj ∈ A.
(b) Wegen (i), (ii) gilt: ∅ ∈ A.
(c) Sind Aj ∈ A für j = 1, 2, 3, . . ., so gibt es paarweise disjunkte Bk ∈ A, k = 1, 2, 3, . . .
mit
∞
∞
∞
[
[
X
Aj =
Bk =
Bk (→ Def.2.6).
j=1
k=1
k=1
Sk−1
Setze etwa B1 = A1 , Bk = Ak \ ( j=1
Aj ) für k ≥ 2.
Sn
Tn
(d) A1 , A2 , . . . , An ∈ A =⇒ j=1 Aj , j=1 Aj ∈ A.
5.4 Definition (Kolmogoroff für allgemeine Wahrscheinlichkeitsräume): Sei Ω
ein beliebiger Ergebnisraum und A eine σ-Algebra über Ω [A enthält die Ereignisse, deren
Wahrscheinlichkeit wir messen wollen].
Eine Funktion P : A → R, die jedem Ereignis A ∈ A eine reelle Zahl P (A) zuordnet, heißt
Wahrscheinlichkeitsmaß auf A, falls gilt:
(1) Für alle A ∈ A: 0 ≤ P (A) ≤ 1;
(2) P (Ω) = 1;
(3)PFür jede Folge
P∞ (Aj )j∈N paarweise disjunkter Ereignisse Aj ∈ A gilt:
P( ∞
A
)
=
j=1 j
j=1 P (Aj ).
In diesem Fall heißt (Ω, A, P ) Wahrscheinlichkeitsraum.
Bemerkung: Für den Fall Ω abzählbar, A = P(Ω) erhalten wir die Definition 2.7.
5.5 Erzeugte σ-Algebra
Häufig gibt man das Wahrscheinlichkeitsmaß nicht auf ganz A an.
Definition: Ist Ω beliebiger Ergebnisraum und C ⊂ P(Ω), so gibt es eine kleinste σAlgebra, die C enthält, dh mit σ(C) ⊂ P(Ω) mit C ⊂ σ(C). Diese heißt die von C erzeugte
σ-Algebra. Es gilt:
\
B.
σ(C) =
B⊂P(Ω) ist σ-Algebra mit C⊂B
Beispiele:
(a) Die von {Ω} erzeugte σ-Algebra ist {∅, Ω}.
(b) In 5.2(b) ist σ({1}) = A.
(c) Die von den Intervallen in R erzeugte σ-Algebra heißt Borelsche σ-Algebra B. B wird
auch erzeugt von den Intervallen (a, b] mit a, b ∈ R, dh von C = {(a, b] : a, b ∈ R}, oder
auch von C = {(−∞, a] : a ∈ R}.
5.6 Definition: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable ist eine
Abbildung X : Ω → R mit
X −1 ((−∞, a]) ∈ A für alle a ∈ R.
12
Wir schreiben P (X ≤ a) für P ({ω ∈ Ω : X(ω) ≤ a}) [entsprechend für “>”, “=” etc] und
P (X ∈ B) für P ({ω ∈ Ω : X(ω) ∈ B}).
Eine Zufallsvariable heißt diskret, falls sie nur endlich oder abzählbar viele Werte annimmt.
Bemerkung: Der Wahrscheinlichkeitsraum (Ω, A, P ) wird häufig nicht genauer spezifiziert
oder gar nicht erst angegeben.
Beispiel: Eine Zufallsvariable X heißt binomialverteilt mit Parametern N ∈ N und p ∈
(0, 1), falls für jedes k ∈ {0, 1, 2, . . . , N } gilt:
N k
P (X = k) =
p (1 − p)N −k (vgl. mit 4.8).
k
5.7 Definition: Sei X eine diskrete Zufallsvariable
Pmit Wertebereich {xj : j ∈ I}, wobei
I endlich oder I = N und xj 6= xk für j 6= k. Falls j∈I |xj | P (X = xj ) < ∞ ist, so heißt
X
E(X) :=
xj P (X = xj )
j∈I
der Erwartungswert von X und
Var(X) := E(X − E(X))2 =
heißt die Varianz von X. Die Größe
D(X) :=
X
(xj − E(X))2 P (X = xj )
j∈I
p
Var(X)
heißt Standardabweichung der Zufallsvariable X. Statt Var(X) schreiben wir auch D2 (X).
P
Bemerkung: Die Voraussetzung j |xj | P (X = xj ) < ∞ sorgt im Falle I = N dafür, dass
die Reihe in der Definition von E(X) (absolut) konvergiert, wobei es auf die Reihenfolge
der Summanden nicht ankommt (→ HM). Im Fall I = N ist es möglich, dass Var(X) = ∞
gilt. Dann ist auch D(X) = ∞.
Bemerkung: Der Erwartungswert E(X) gibt an, was man “im Mittel” erwarten kann,
dh E(X) ist so etwas wie ein Mittelwert der Zufallsvariable X. Die Größen Var(X) und
D(X) sind Maße für die “mittlere” (dh gemittelte) Abweichung der Zufallsvariable X vom
Mittelwert E(X).
Es gilt
D2 (X) = E(X 2 ) − (E(X))2 .
5.8 Satz: Sei X eine diskrete Zufallsvariable mit Wertebereich {xj : j ∈ I} wie in 5.7. Ist
f : {xP
j : j ∈ I} → R eine Funktion, so ist auch f (X) eine diskrete Zufallsvariable, und im
Falle j∈I |f (xj )| P (X = xj ) < ∞ gilt
X
E(f (X)) =
f (xj ) P (X = xj ).
j∈I
13
(ohne Beweis)
5.9 Beispiele: (a) Sei X binomialverteilt mit Parametern N und p (vgl. 4.8: X beschreibt
die Trefferanzahl bei N unabhängigen Wiederholungen eines Zufallsexperiments, bei dem
die Trefferwahrscheinlichkeit p ∈ (0, 1) ist). Der Erwartungswert E(X) beschreibt die
“durchschnittlich zu erwartende Trefferanzahl in N Versuchen”, indem jede mögliche Trefferzahl mit der entsprechenden Wahrscheinlichkeit gewichtet wird:
E(X) =
N
X
k P (X = k)
k=0
N
X
mit k − 1 = j
N
=
k
pk (1 − p)N −k
k
k=1 | {z }
−1
=N (N
k−1 )
N X
N − 1 k−1
p (1 − p)N −1−(k−1)
= Np
k
−
1
k=1
N
−1 X
N −1 j
= Np
p (1 − p)N −1−j
j
j=0
= N p.
Ende
(b) Würfeln (Laplace-Würfel): Von den beiden Personen A und B erhalte A von B 2 Euro Woche 4
bei Augenzahl 1 oder 2 und B erhalte 1 Euro von A bei Augenzahl 3, 4, 5 oder 6. Ist das
Spiel fair? (Wir gehen davon aus, dass öfter gespielt wird.)
Die Zufallsvariable X gebe den Gewinn/Verlust von Spieler A an:
1
P (X = 2) = ,
3
2
P (X = −1) = .
3
Es ist
2 2
− = 0,
3 3
also haben wir “im Mittel” ein “Nullsummenspiel”, dh das Spiel ist fair.
E(X) = 2 P (X = 2) + (−1) P (X = −1) =
(c) Münzwurf (ideale Münze): bei “Kopf” erhalte A q Euro von B, bei “Zahl” erhalte B q
Euro von A. Gibt X den Gewinn/Verlust von Spieler A an, so gilt
1
P (X = q) = ,
2
1
P (X = −q) = ,
2
E(X) = 0 (klar),
aber die “mittlere Abweichung” von E(X) hängt von q ab:
D2 (X) = E(X − E(X))2 = E(X 2 ) = q 2 P (X = q) + q 2 P (X = −q) = q 2 .
14
Ist D2 (X) groß, so muss man größere Schwankungen um den Mittelwert E(X) erwarten.
(d) Sei X binomialverteilt mit Parametern N und p. Dann ist E(X) = N p nach (a) und
D2 (X) = E(X 2 ) − (E(X))2 , wobei
N
X
2
2 N
E(X ) =
k
pk (1 − p)N −k
k
k=0
N
−1
X
N −1 j
p (1 − p)N −1−j
wie in (a)
= Np
(j + 1)
j
j=0
−1 N
−1 hN
i
X
X
N −1 j
N −1 j
N −1−j
= Np
j
p (1 − p)
+
p (1 − p)N −1−j
j
j
j=0
j=0
= N p[(N − 1)p + 1].
Also ist D2 (X) = N p − N p2 = N p(1 − p).
(e) Eine Zufallsvariable X heißt hypergeometrisch verteilt mit Parametern n, M , N − M
(wobei n ≤ min(M, N − M )), falls gilt
M N −M
P (X = k) =
k
n−k
N
n
für k = 0, 1, . . . , n.
Z.B. Anzahl der Richtigen beim Lotto “6 aus 49”: hier ist n = 6, N = 49, M = 6 Richtige,
(6)( 43 )
N − M “Falsche”. Die Wahrscheinlichkeit für k Richtige ist k 496−k .
(6)
nM (N −M )(N −n)
M
2
. Im Lotto-Beispiel ist etwa E(X) = 6 ·
Es gilt E(X) = n N und D (X) =
N 2 (N −1)
6
∼ 0.735 (durchschnittliche Anzahl der Richtigen, wenn etwa immer die gleichen 6 Zahlen
49
gespielt werden und die Ziehungen zufällig mit Laplace-Wahrscheinlichkeit erfolgen).
Anmerkung: Es ist M < N . Die Bedingung n ≤ min(M, N − M ) ist nicht unbedingt
nötig, wenn man Mk = 0 setzt für k > M etc. Es muss aber n ≤ N gelten, weil man sonst
durch 0 dividiert.
5.10 Bemerkung: Ist X eine diskrete Zufallsvariable wie in 5.7/5.8, so heißt die Funktion
xj 7→ P (X = xj ) Verteilung von X.
Wir haben insbesondere in den Beispielen 5.9(a), (d) und (e) den Wahrscheinlichkeitsraum
(Ω, A, P ) nicht direkt angegeben, sondern nur die Verteilungen der Zufallsvariable X.
Setzt man pj = P (X = xj ) für j ∈ I, so gilt in der Situation von 5.8:
X
E(f (X)) =
f (xj ) pj .
j∈I
5.11 Definition: Ist X eine diskrete Zufallsvariable wie in 5.7, so heißt die Funktion
X
FX : R → [0, 1], a 7→ P (X ≤ a) =
P (X = xj ),
j∈I mit xj ≤a
15
die Verteilungsfunktion von X.
An den Stellen xj macht FX einen Sprung der Höhe pj = P (X = xj ), dazwischen ist FX
konstant.
5.12 Bemerkung:
(a) Ist X eine diskrete Zufallsvariable mit Werten xj , j ∈ I, wie in 5.7 und Verteilung
pj = P (X = xj ), so gilt für jedes a ∈ R:
X
FX (a) =
pj ,
j∈I mit xj ≤a
(b) Für alle a, b ∈ R mit a < b gilt: 0 ≤ FX (a) ≤ FX (b) ≤ 1, d.h. FX ist monoton wachsend.
Liegt kein xj im Intervall (a, b], so gilt FX (x) = FX (a) für alle x ∈ (a, b]. Es gilt
P (X ∈ (a, b]) = FX (b) − FX (a).
(c) Für jedes b ∈ R gilt
P (X < b) = P (X ≤ b) − P (X = b) = FX (b) − P (X = b).
5.13 Rechnen mit Verteilungsfunktionen
Sei X eine diskrete Zufallsvariable mit Verteilungsfunktion FX .
(a) Y = aX + b, wobei a > 0, b ∈ R. Für y ∈ R gilt
FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (X ≤
y−b
y−b
) = FX (
).
a
a
(b) Y = aX 3 + b, wobei a > 0, b ∈ R. Beachte,
dass R → √
R, x 7→ x3 bijektiv ist, die
√
Umkehrabbildung bezeichnen wir hier mit x 7→ 3 x, also z.B. 3 −8 = −2. Für y ∈ R gilt
dann
r
r
y
−
b
y
−
b
3
3 y − b
FY (y) = P (Y ≤ y) = P (aX 3 +b ≤ y) = P (X 3 ≤
) = P (X ≤
) = FX (
).
a
a
a
(c) Y = |X|. Beachte, dass x 7→ |x| nicht injektiv ist. Für y ∈ R gilt:
FY (y) = P (Y ≤ y) = P (|X| ≤ y) = P (−y ≤ X ≤ y).
Für y < 0 gilt FY (y) = 0. Für y ≥ 0 gilt
FY (y) = P (X ≤ y) − P (X < −y) = FX (y) − FX (−y) + P (X = −y).
16
(d) Y = aX 2 + b, wobei a > 0, b ∈ R. Für y < b ist FY (y) = P (Y ≤ y) = 0. Für y ≥ b gilt
r
y
−
b
y−b
FY (y) = P (Y ≤ y) = P (aX 2 + b ≤ y) = P (X 2 ≤
) = P (|X| ≤
)
a
a
r
r
r
y−b
y−b
y−b
= FX (
) − FX (−
) + P (X = −
),
a
a
a
wobei wir (c) verwendet haben.
5.14 Die Gleichverteilung
Sei [a, b] ⊂ R. Eine Zufallsvariable X heißt gleichverteilt
funktion FX : R → [0, 1] gilt

für
 0
x−a
für
FX (x) = P (X ≤ x) =
 b−a
1
für
auf [a, b], falls für die Verteilungsx ≤ a,
x ∈ (a, b],
x > b.
Vorstellung: “Jede Zahl im Intervall
ist gleich wahrscheinlich.”
T
Aber: Ist x ∈ R, so gilt {x} = n∈N (x − n1 , x] und für jedes n ∈ N ist
1
1
, x]) = P (X ≤ x) − P (X ≤ x − )
n
n
1
1
1
= FX (x) − FX (x − ) ≤ ·
,
n
n b−a
0 ≤ P (X = x) ≤ P (X ∈ (x −
also P (X = x) = 0 für jedes x ∈ R.
Obige Vorstellung ist also zu präzisieren durch:
Für a ≤ c ≤ d ≤ b gilt
d−c
,
b−a
d.h. Teilintervalle (c, d] ⊂ (a, b] gleicher Länge haben gleiche Wahrscheinlichkeit.
P (X ∈ (c, d]) =
Beachte, dass hier P (X ∈ (c, d]) = P (X ∈ [c, d]) = P (X ∈ (c, d)) wegen P (X = c) =
P (X = d) = 0.
Bemerkung: Eine auf [a, b] gleichverteilte Zufallsvariable ist nicht diskret. Erwartungswert
und Varianz solcher Zufallsvariablen werden wir erst später behandeln. Intuitiv ist aber
klar, dass E(X) = a+b
gelten sollte.
2
Beispiel: “Flaschendrehen”: Hier sollte jede Richtung gleich wahrscheinlich sein. Bezeichnet die Zufallsvariable X den Winkel zu einer vorher festgelegten Richtung, so kann man
X als auf [0, 2π] gleichverteilt annehmen.
5.15 Transformation von Zufallszahlen
17
Ende
Woche 5
Von Zufallszahlengeneratoren wird in der Regel eine Zufallsvariable X geliefert, die in [0, 1]
gleichverteilt ist. Will man eine Zufallsvariable Y mit einer gegebenen Verteilungsfunktion
F erhalten, so kann man versuchen, X mithilfe einer Funktion g zu transformieren, und
Y = g(X) betrachten.
Wir nehmen an, dass die gewünschte Verteilungsfunktion F für ein geeignetes Intervall
(c, d) ⊂ R die folgenden Bedingungen erfüllt:
F (y) = 0 für y < c,
F : (c, d) → (0, 1) streng monoton wachsend und surjektiv,
F (y) = 1 für y > d.
Hierbei sind die Fälle c = −∞ und d = ∞ zugelassen.
Satz: Setzt man Y = g(X) für g = F −1 : (0, 1) → (c, d), so hat Y die gewünschte
Verteilungsfunktion FY = F .
Beweis: Es gilt FX (x) = x für x ∈ [0, 1]. Für y ∈ (c, d) gilt:
FY (y) = P (Y ≤ y) = P (F −1 (X) ≤ y) = P (X ≤ F (y)) = F (y).
Beispiel: Sei [a, b] ⊂ R gegeben. Sei F (y) = y−a
für y ∈ (a, b] und F (y) = 0 für y ≤ a,
b−a
F (y) = 1 für y > b. Sei X gleichverteilt auf [0, 1]. Für x ∈ (0, 1) gilt g(x) = y genau dann,
wenn F (y) = x, d.h. genau dann, wenn y = (b−a)x+a gilt. Also ist hier g(x) = (b−a)x+a
und nach dem Satz gilt für Y = (b − a)X + a, dass FY = F gilt. Somit ist Y gleichverteilt
auf [a, b] (vgl. auch Beispiel 5.13(a)).
5.16 Die Poissonverteilung
Vorbemerkung: Wir verwenden folgende Tatsachen
HM I:
P∞ xk aus der
x n
x
−x
Für jedes x ∈ R gilt limn→∞ (1 + n ) = e = k=0 k! und e = (ex )−1 .
Nun sei λ > 0 fest und für jedes N ∈ N sei XN eine Zufallsvariable, die binomialverteilt
ist mit Parametern N und p = pN = Nλ , d.h.
N k
P (XN = k) =
p (1 − p)N −k für k = 0, 1, . . . , N .
k
Beachte, dass p von N abhängt!
Satz (Poisson 1837): Für jedes k ∈ N0 gilt:
lim P (XN = k) =
N →∞
18
λk −λ
e .
k!
Beweis: Für N > k mit N > λ gilt
λ k
N
λ N −k
P (XN = k) =
1−
k
N
N
k λ −k N · (N − 1) · . . . · (N − k + 1)
λ N
λ
1−
1−
=
,
k! | {zN } |
N
N
·
N
·
.
.
.
·
N
{z
}|
{z
}
→1
→e−λ
1
1·(1− N
)·...·(1− k−1
)→1
N
da k fest ist.
Definition: Eine Zufallsvariable X heisst Poisson-verteilt mit Parameter λ > 0, falls gilt
λk −λ
e
P (X = k) =
k!
für jedes k ∈ N0 .
Bemerkung: (i) Es gilt dann
∞
X
P (X = k) =
k=0
∞
X
λk k=0
k!
e−λ = eλ · e−λ = 1
nach der Vorbemerkung.
(ii) Eine Poisson-verteilte Zufallsvariable ist diskret mit unendlichem Wertebereich N0 .
Eigenschaften: Ist X Poisson-verteilt mit Parameter λ > 0, so gilt E(X) = λ für den
Erwartungswert und D2 (X) = λ für die Varianz:
E(X) =
E(X 2 ) =
∞
X
k=0
k2
∞
∞
X
X
λk−1 −λ
λk
e = λ,
k e−λ = λ
k!
(k
−
1)!
k=1
k=0
∞
∞
X
X
λk −λ
λk−1 −λ
λk
e =λ
e =λ
k
(k + 1) e−λ = λ(E(X) + 1),
k!
(k − 1)!
k!
k=1
k=0
D2 (X) = E(X 2 ) − (E(X))2 = λ2 + λ − λ2 = λ.
Interpretation der Poissonverteilung (im Hinblick auf den Satz von Poisson): die
Zufallsvariable nimmt verschiedene Werte an (N ist groß), aber mit kleinen Wahrscheinlichkeiten (p = Nλ ist klein).
Beispiel: Die Zufallsvariable X bezeichne die Anzahl der kritischen Temperaturüberschreitungen in einem chemischen Reaktor in einem festen Zeitintervall. Die Erfahrung zeigt, dass die durchschnittliche Anzahl 5 ist, d.h. E(X) = 5. Für X ≥ 10 müssen
zusätzliche Maßnahmen eingeleitet werden. Wie groß ist P (X ≥ 10), wenn X als Poissonverteilt angenommen wird?
Wegen E(X) = 5 ist λ = 5 (s.o.) und
P (X ≥ 10) = 1 −
9
X
k=0
P (X = k) = 1 −
19
9
X
5k
k=0
k!
e−5 ∼ 0.032.
Bemerkung: Für große N und kleine p kann man eine binomialverteilte Zufallsvariable
mit Parametern N und p mithilfe einer Poissonverteilung mit Parameter λ = N p approximieren.
Beispiel: Zwei Prozent der Bevölkerung sind Diabetiker. Man wähle zufällig 100 Personen
aus und berechne die Wahrscheinlichkeit, dass darunter mindestens drei Diabetiker sind.
Für eine Binomialverteilung mit Parametern N = 100 und p = 0.02 ergibt sich
P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2)
100
100
100
0
100
1
99
= 1−
0.02 · 0.98 −
0.02 · 0.98 −
0.022 · 0.9898 ∼ 0.323314.
0
1
2
Für eine Poissonverteilung mit Parameter λ = N p = 2 erhält man
P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2)
21 22
+ ) = 1 − 5e−2 ∼ 0.323324.
= 1 − e−2 (1 +
1!
2!
5.17 Hypergeometrische und Binomialverteilung
Sei n ∈ N und p ∈ (0, 1). Die Zufallsvariable sei hypergeometrisch verteilt mit Paramtern
n, M , N − M , wobei M
= p gelte.
N
Satz: Für k ∈ {0, 1, . . . , n} ist dann
n k
lim P (XN = k) =
p (1 − p)n−k .
N →∞
k
Beweis: Beachte, dass M von N abhängt, aber p fest ist. Es ist
M N −M
P (XN = k) =
k
n−k
N
n
n M · (M − 1) · . . . · (M − k + 1) · (N − M ) · (N − M − 1) · . . . · (N − M − (n − k) + 1)
=
N · (N − 1) · . . . · (N − n + 1)
k
n M M −1
M −k+1 N −M
N − M − (n − k) + 1
=
·
· ... ·
·
· ... ·
.
k N N −1
N −k+1 N −k
N − k − (n − k) + 1
Nun kürze man N in jedem Bruch, verwende M
= p und beachte, dass für N → ∞ die
N
ersten k Faktoren gegen p und die anderen n − k Faktoren gegen 1 − p konvergieren (k, n, p
sind fest!).
Bemerkung: Der Satz besagt, dass für große N (Faustregel Nn < 0.05) die hypergeometrische Verteilung mit Parametern n, M, N − M näherungsweise einer Binomialverteilung mit Parametern n und p = M
entspricht.
Ende
N
Woche 6
20
6
Unabhängige Zufallsvariablen und Gesetze der
großen Zahlen
6.1 Definition: (a) Sind X, Y diskrete Zufallsvariablen mit Wertebereichen {xi : i ∈ I}
bzw. {yj : j ∈ J}, so heißen X, Y (stochastisch) unabhängig, falls für alle i ∈ I, j ∈ J gilt:
P (X = xi , Y = yj ) = P (X = xi ) P (Y = yj ),
d.h. also, wenn alle Paare {X = xi }, {Y = yj } von Ereignissen unabhängig sind.
(1)
(b) Ist n ∈ N und sind X1 , X2 , . . . , Xn diskrete Zufallsvariablen mit Wertebereichen {xi :
(n)
(2)
i ∈ I1 }, {xi : i ∈ I2 }, . . . , {xi : i ∈ In }, so heißen X1 , X2 , . . . , Xn unabhängig, falls
(1)
(2)
(1)
(n)
(2)
(n)
P (X1 = xi1 , X2 = xi2 , . . . , Xn = xin ) = P (X1 = xi1 ) P (X2 = xi2 ) . . . P (Xn = xin )
für alle i1 ∈ I1 , i2 ∈ I2 , . . . , in ∈ In gilt.
(c) Eine Folge X1 , X2 , . . . diskreter Zufallsvariablen heißt unabhängig, falls für jedes n ∈ N
die Zufallsvariablen X1 , X2 , . . . , Xn unabhängig sind.
Bemerkung: Modelliert man den n-fachen Münzwurf als Laplace-Experiment auf Ω =
{0, 1}n und ist Xj das Ergebnis des j-ten Wurfs für j = 1, 2, . . . , n, dh Xj (ω) = ωj für
ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω, so sind X1 , X2 , . . . , Xn unabhängig.
6.2 Bemerkung: Sind X, Y unabhängige diskrete Zufallsvariablen wie in 6.1, so gilt für
alle Intervalle A, B ⊂ R:
X
X
P (X ∈ A, Y ∈ B) =
P (X = xi , Y = yj )
|
{z
}
i∈I;xi ∈A j∈J;yj ∈B
=
X
=P (X=xi ) P (Y =yj )
P (X = xi )
i∈I;xi ∈A
X
P (Y = yj )
j∈J;yj ∈B
= P (X ∈ A)P (Y ∈ B).
Entsprechend gilt für unabhängige Zufallsvariablen X1 , X2 , . . . , Xn und alle Intervalle
A1 , A2 , . . . , An ⊂ R:
P (X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) P (X2 ∈ A2 ) . . . P (Xn ∈ An ).
6.3 Rechnen mit Erwartungswerten
P
Sind X, Y diskrete
Zufallsvariablen
wie
in
6.1
und
gilt
E|X|
=
i∈I |xi |P (X = xi ) <
P
∞ und E|Y | =
< ∞, so existieren die Erwartungswerte E(X) =
j∈J |yj |P (Y = yj )P
P
i∈I xi P (X = xi ) < ∞ und E(Y ) =
j∈J yj P (Y = yj ) < ∞, und es ist
E|X + Y | < ∞, E(X + Y ) = E(X) + E(Y )
für α ∈ R E|αX| < ∞, E(αX) = αE(X).
21
Gilt E(|X|2 ) =
P
i∈I
x2i P (X = xi ) < ∞, so gilt auch E|X| < ∞. (ohne Beweis)
Das Folgende ist ein wichtiges Hilfsmittel.
6.4 Satz (Tschebyscheffsche Ungleichung): Sei X eine diskrete Zufallsvariable mit E|X| <
∞ und D2 (X) < ∞ und sei c ∈ R beliebig. Dann gilt für jedes ε > 0:
1
E(|X − c|2 ).
ε2
P (|X − c| ≥ ε) ≤
Bemerkung: Ist E|X| < ∞, so gilt D2 (X) < ∞ (dh X hat endliche Varianz) genau dann,
wenn E(|X|2 ) < ∞ ist.
Beweis:
P (|X − c| ≥ ε) =
X
P (X = xi )
i∈I;|xi −c|≥ε
1
ε2
≤
X
i∈I;|xi −c|≥ε
|xi − c|2 P (X = xi )
1 X
|xi − c|2 P (X = xi ) .
≤ 2
ε i∈I
|
{z
}
E(|X−c|2 )
Bemerkung: Die Voraussetzung D2 (X) < ∞ wird nur benötigt, um E(|X − c|2 ) < ∞
sicher zu stellen.
Folgerung: Setzt man c = E(X), so erhält man
P (|X − E(X)| ≥ ε) ≤
1
1
E(|X − E(X)|2 ) = 2 D2 (X).
2
ε
ε
6.5 Bernoullisches Gesetz der großen Zahlen
Sei X1 , X2 , X3 , . . . eine Folge unabhängiger Zufallsvariablen mit Verteilung P (Xn = 1) = p,
P (Xn = 0) = 1 − p für alle n ∈ N, wobei p ∈ (0, 1) fest ist. Dann gilt für alle ε > 0:
lim P (|
N →∞
N
1 X
Xj − p| < ε) = 1.
N j=1
P
Beweis: Die Zufallsvariable SN := N
j=1 Xj ist binomialverteilt mit Parametern N und p,
2
also gilt E(SN ) = N p, D (SN ) = N p(1 − p). Somit ist (mit 6.3) E( N1 SN ) = p und
D2 (
1
1
1
p(1 − p)
1
SN ) = E(| SN − E( SN )|2 ) = 2 D2 (SN ) =
.
N
N
N
N
N
22
Nach 6.4 gilt also für jedes feste ε > 0:
P (|
1
1 p(1 − p)
1
1
Sn − p| ≥ ε) ≤ 2 D2 ( SN ) = 2
→ 0 (N → ∞),
N
ε
N
ε
N
d.h. P (| N1 SN − p| < ε) → 1 für N → ∞.
Die Aussage in 6.5 ist ein Spezialfall des folgenden, allgemeineren Satzes.
6.6 Satz (Chintschinsches Gesetz der großen Zahlen):
Sei X1 , X2 , X3 , . . . eine Folge unabhängiger (diskreter) Zufallsvariablen mit identischer
Verteilung und E|Xn | < ∞. Dann gilt für µ = E(Xn ) und jedes ε > 0:
lim P (|
N →∞
N
1 X
Xj − µ| < ε) = 1.
N j=1
Dh: Der Mittelwert von N unabhängigen Versuchen konvergiert für N → ∞ in Wahrscheinlichkeit gegen den Erwartungswert µ. (ohne Beweis)
Ende
Woche 7
6.7 Wahrscheinlichkeiten und relative Häufigkeiten
Sei A ein Ereignis, das bei einem Zufallsexperiment mit Wahrscheinlichkeit P (A) = p ∈
(0, 1) eintritt. Wir wiederholen dieses Zufallsexperiment immer wieder und setzen Xn =
0 bzw. = 1 je nachdem, ob A im n-ten Versuch eintritt oder nicht eintritt. Dann ist
P (Xn = 1) = p und P (Xn = 0) = 1 − p und
P X1 , X2 , . . . ist eine unabhängige Folge
von Zufallsvariablen. Wir setzen HN (A) := N1 N
j=1 Xj für N ∈ N, dh HN (A) ist eine
Zufallsvariable, die die relative Häufigkeit von A in den ersten N Versuchen angibt. Nach
6.5 gilt dann
P (| HN (A) − P (A) | < ε) → 1 (N → ∞).
| {z }
| {z }
rel. Hfk.
=p W’keit
Man sagt: “die relative Häufigkeit HN (A) konvergiert in Wahrscheinlichkeit gegen P (A)”.
M.a.W die Wahrscheinlichkeit, dass die Abweichung von HN (A) zu P (A) “groß” ist, geht
gegen Null:
P (|HN (A) − P (A)| ≥ ε) → 0 (N → ∞) für jedes ε > 0.
7
Markoffketten
Die Betrachtung von Vorgängen, die außer vom Zufall auch noch von der Zeit abhängen,
führt auf stochastische Prozesse. Wir betrachten hier einen diskreten Zeitparameter, der
Werte n ∈ N0 annimmt.
7.1 Definition: Ein zeitdiskreter stochastischer Prozess ist eine Folge X0 , X1 , X2 , . . . von
Zufallsvariablen, Schreibweise: (Xn )n∈N0 . Wir betrachten hier den Fall, dass alle Xn diskrete
23
Zufallsvariablen mit Wertebereich Z = {1, 2, . . . , N } sind. Die Wertemenge Z wird auch
als Zustandsraum des stochastischen Prozesses bezeichnet.
Interpretation (hier): Die möglichen Werte i ∈ {1, 2, . . . , N } beschreiben die Zustände
eines Systems und für jedes n ∈ N0 ist Xn der (zufällige) Zustand des Systems zum Zeitpunkt n. Das System hat hier endlich viele Zustände und (Xn )n∈N0 beschreibt die zeitliche
Entwicklung des Systems, die außerdem vom Zufall abhängt. Als Zufallsvariable gilt für
jedes Xn , dass es eine Abbildung Ω → R mit Werten in {1, 2, . . . , N } ist (hierbei ist
(Ω, A, P ) der zugrundeliegende Wahrscheinlichkeitsraum, der in der Notation unterdrückt
wird).
Manchmal betrachtet man den zeitdiskreten stochastischen Prozess (Xn )n∈N0 auch als Abbildung X : N0 × Ω → R und schreibt dann X(n, ω) statt Xn (ω), wobei n ∈ N0 und ω ∈ Ω.
Für jedes festgehaltene ω ∈ Ω ist (Xn (ω))n∈N0 eine Folge reeller Zahlen (in {1, 2, . . . , N }).
Eine solche Folge (Xn (ω))n∈N0 heißt Realisierung oder Pfad des stochastischen Prozesses
(Xn )n∈N0 . Realisierungen (Xn (ω))n∈N0 , (Xn (ω̃))n∈N0 für ω, ω̃ ∈ Ω mit ω 6= ω̃ sind i.a. verschieden.
Frage: Wie entwickelt sich das System?
Wir betrachten Systeme, bei denen die künftige Entwicklung nur vom gegenwärtigen Zustand und nicht von der gesamten Vorgeschichte abhängt.
7.2 Definition: Sei (Xn )n∈N0 ein zeitdiskreter stochastischer Prozess mit Zustandsraum
{1, 2, . . . , N }. Dann heißt (Xn )n∈N0 Markoffkette, falls
P (Xn+1 = in+1 |Xn = in , Xn−1 = in−1 , . . . , X0 = i0 ) = P (Xn+1 = in+1 |Xn = in )
für alle n ∈ N0 , i0 , i1 , . . . , in , in+1 ∈ {1, 2, . . . , N } gilt. Die bedingten Wahrscheinlichkeiten
P (Xn+k = j|Xn = i) =: pij (n, n + k)
heißen Übergangswahrscheinlichkeiten k-ter Stufe (hier ist k ∈ N). Die Markoffkette
(Xn )n∈N0 heißt homogen, falls die Übergangswahrscheinlichkeiten
pij (n, n + 1) = pij
nicht vom Zeitpunkt n abhängen (das System verhält sich zu jedem Zeitpunkt gleich).
Die Übergangswahrscheinlichkeit pij ist die Wahrscheinlichkeit, in einem Zeitschritt vom
Zustand i in den Zustand j zu gelangen.
Bemerkung: Wir haben die Zustände hier mit 1, 2, . . . , N bezeichenet, die Zahlenwerte
werden jedoch keine Rolle spielen. Die Zustände könnten also ebensogut anders bezeichnet
werden. Insbesondere kann die Nummerierung bei 0 beginnen.
7.3 Beispiel: Ein Spieler besitzt 1 Euro und nimmt an einem Glücksspiel teil, bei dem
er mit Wahrscheinlichkeit 0.5 für seinen Einsatz das Doppelte erhält. Der Spieler will
24
aufhören, wenn er 5 Euro besitzt, und setzt jedesmal so viel, dass er seinem Ziel möglichst
nahe kommt (Besitz > 5 Euro ist ausgeschlossen). Die Zufallsvariable Xn bezeichne den
Besitz des Spielers nach dem n-ten Spiel, also P (X0 = 1) = 1. Zustandsmenge ist hier
Z = {0, 1, 2, 3, 4, 5}, und der Folgezustand hängt nur vom gegenwärtigen Zustand ab, aber
nicht von der Vorgeschichte.
Anschauliche Vorstellung:
1/2
1/2
1
2
4
1/2
0
1/2
1
1/2
1/2
1/2
5
3
1
1/2
Übergangswahrscheinlichkeiten sind hier p12 = p24 = p45 = p43 = p35 = p31 = p10 = p20 =
und p00 = p55 = 1, alle anderen pij = 0.
1
2
7.4 Übergangsgraph
Jede homogene Markoffkette mit Zustandsraum Z
=
{1, 2, . . . , N } und
Übergangswahrscheinlichkeiten kann man sich durch ihren Übergangsgraphen veranschaulichen:
◦ Z Menge der Knoten,
◦ E := {(i, j) : pij > 0} ⊂ Z × Z Menge der gerichteten Kanten [die Kante
(i, j) hat i als Anfangs- und j als Endknoten],
◦ jede gerichtete Kante (i, j) trägt einen Wert, nämlich pij .
Der Übergangsgraph einer homogenen Markoffkette ist also ein bewerteter gerichteter
Graph, wobei für jeden Knoten i ∈ Z gilt:
X
pij = 1.
j mit (i,j)∈E
Bemerkung: Ist umgekehrt Z eine endliche Menge, E ⊂ Z × Z eine Menge gerichteter
Kanten und w : E → [0, 1], (i, j) 7→ w(i, j), eine Bewertung der Kanten so, dass für alle
i ∈ Z gilt
X
w(i, j) = 1,
j mit (i,j)∈E
so ist der durch Z, E, w beschriebene bewertete gerichtete Graph der Übergangsgraph einer
homogenen Markoffkette mit Übergangswahrscheinlichkeiten
w(i, j) , (i, j) ∈ E
pij =
.
0
, (i, j) 6∈ E
25
Somit: Jede homogene Markoffkette entspricht einer Irrfahrt auf einem gerichteten
Graphen.
Beispiel: 0, 1, 2, 3, 4, 5 als Knoten, man kommt mit Wahrscheinlichkeit 0.4 zum linken
Nachbarn und mit Wahrscheinlichkeit 0.6 zum rechten Nachbarn; in 0 oder in 5 endet die
Irrfahrt.
0.6
0.4
0.6
0.4
1
0
1
2
3
0.6
0.4
0.4
4
5
1
0.6
7.5 Übergangswahrscheinlichkeiten höherer Stufe
Sei (Xn )n∈N0 eine homogene Markoffkette mit Zustandsraum Z = {1, 2, . . . , N } und
Übergangswahrscheinlichkeiten pij , i, j = 1, 2, . . . , N . Was ist P (Xn+2 = j|Xn = i)?
Ende
Die Formel von der totalen Wahrscheinlichkeit in 4.4 (angewandt auf das Wahrschein- Woche 8
lichkeitsmaß P (·|Xn = i) statt P , B = {Xn+2 = j} und die vollständige Ereignisdisjunktion Ak = {Xn+1 = k}, k = 1, 2, . . . , N ) ergibt:
P (Xn+2 = j|Xn = i) =
(Def.7.2)
=
=
N
X
k=1
N
X
k=1
N
X
P (Xn+2 = j|Xn+1 = k, Xn = i) P (Xn+1 = k|Xn = i)
P (Xn+2 = j|Xn+1 = k) P (Xn+1 = k|Xn = i)
pkj pik =
k=1
N
X
pik pkj .
k=1
Interpretation: Von i aus gelangt man mit Wahrscheinlichkeit pik nach k und von dort
mit Wahrscheinlichkeit pkj nach j. Auf diesem Weg nach j sind die Wahrscheinlichkeiten
zu multiplizieren, und dann ist über alle solchen Wege, dh über alle k ∈ Z, zu summieren.
Entsprechend erhält man
P (Xn+3 = j|Xn = i) =
N
X
P (Xn+3 = j|Xn+2 = k) P (Xn+2 = k|Xn = i)
=
N
X
pkj
k=1
=
k=1
N
X
N
X
pil plk
l=1
pil plk pkj
k,l=1
Eine übersichtliche Darstellung gelingt durch
26
etc..
7.6 Stochastische Matrizen
Schreibt man die Übergangswahrscheinlichkeiten pij als N × N -Matrix


p11 p12 . . . p1N
 p21 p22 . . . p2N 

,
P = (pij )N
i,j=1 = 
... ... ... ... 
pN 1 pN 2 . . . pN N
P
so gilt pij ≥ 0 für alle i, j und für jedes i: j pij = 1 (jede Zeilensumme ist 1). Matrizen,
deren Einträge diese Eigenschaften haben, heißen stochastische Matrizen. Die Matrix P
heißt Übergangsmatrix der homogenen Markoffkette.
Die Matrix (pij (m))N
i,j=1 der Übergangswahrscheinlichkeiten m-ter Stufe berechnet sich als
Matrixprodukt
Pm = P
· . . . · P} .
| · P {z
m-mal
N
Das Matrixprodukt zweier Matrizen A = (aik )N
i,k=1 und B = (bkj )k,j=1 ist dabei erklärt
durch:
N
X
N
aik bkj
A·B =
.
i,j=1
k=1
Die Multiplikation von Matrizen ist assoziativ, aber im allgemeinen nicht kommutativ.
Bemerkung: Sind A, B stochastische Matrizen, so ist auch A·B eine stochastische Matrix.
Beispiel:
1/2
1/2
Dann ist P =
P2 = P · P =
1/8 7/8
.
0
1
1/2 1/2
0
1
, und es gilt
1/2 1/2
0
1
1/2 1/2
0
1
1
=
2
1/4 3/4
0
1
1
, P 3 = P 2 · P = 1/4
0
3/4
1
1/2 1/2
0
1
=
7.7 Berechnung der Verteilung von Xn
Gegeben sei eine homogene Markoffkette (Xn )n∈N0 mit Zustandsraum Z = {1, 2, . . . , N }
und Übergangsmatrix P . Wir setzen
P (Xn = k) =: pk (n) für k ∈ Z und n ∈ N0 ,
so dass die Verteilung von Xn durch den Zeilenvektor p̄(n) := (p0 (n), p1 (n), . . . , pN (n))
gegeben ist. Insbesondere ist p̄(0) die Verteilung von X0 , dh die Anfangsverteilung. Es gilt
dann für jedes n ∈ N:
N
X
pj (n) = P (Xn = j) =
pi (0)pij (n),
i=1
27
also ist
p̄(n) = p̄(0)P n ,
wobei die beiden Vektoren p̄(n) und p̄(0) Zeilenvektoren sind.
Beispiel:
1/2
1
1/2
1
2
3
1/2

1/2
1
0
0
Übergangsmatrix P =  1/2 0 1/2 , Anfangsverteilung p̄(0) = (0, 1/2, 1/2). Es ist
0 1/2 1/2




1
0
0
1
0
0
P 3 =  5/8 1/8 1/4  .
P 2 =  1/2 1/4 1/4  ,
3/8 1/4 3/8
1/4 1/4 1/2

Die Verteilung von X3 ist dann gegeben durch


1
0
0
p̄(3) = (0, 1/2, 1/2)  5/8 1/8 1/4  = (1/2, 3/16, 5/16).
3/8 1/4 3/8
7.8 Definition: Gegeben sei eine homogene Markoffkette mit Zustandsraum Z =
{1, 2, . . . , N } und Übergangswahrscheinlichkeiten pij , i, j ∈ Z. Ein Zustand i heißt absorbierend, falls pii = 1 gilt. Die Menge R := {i ∈ Z : i ist absorbierend} heißt Rand, und
Z \ R heißt Menge der inneren Zustände. Die Markoffkette heißt absorbierend, falls R 6= ∅
und R von jedem inneren Zustand aus erreichbar ist.
Beispiele: (a)
1/2
1/2
1
1
2
1/2
3
R = {1},
Markoffkette absorbierend.
1/2
(b)
1
1
2
(c)
1
R = {1, 2},
Markoffkette absorbierend.
1
1/2
1
1/2
2
1/2
3
1/2
28
R = {1},
nicht absorbierend.
7.9 Satz: Für eine absorbierende Markoffkette endet die Irrfahrt in einem Zustand des
Randes, dh es gilt:
P (Xn ∈ R) −→ 1 (n → ∞).
Beispiel: Für P =
absorbierend. Es ist
1
0
1/2 1/2
n
P =
1/2
1
1
Ende
mit Z = {1, 2} gilt R = {1} und die Markoffkette ist Woche 9
0
1
1 − 1/2n 1/2n
2
−→
10
10
(n → ∞).
1
1/2
1
1
2
7.10 Absorptionswahrscheinlichkeit und mittlere Dauer
(a) Gegeben sei eine homogene, absorbierende Markoffkette mit Zustandsraum Z =
{1, 2, . . . , N } und Übergangswahrscheinlichkeiten pij , R sei der Rand und U ⊂ R eine
ausgezeichnete Teilmenge des Randes. Pi bezeichne die Wahrscheinlichkeit, vom Zustand
i aus in U absorbiert zu werden. Dann gilt
Pi =
N
X
pij Pj ,
j=1
sowie Pj = 1 für j ∈ U und Pj = 0 für j ∈ R \ U .
Beispiel: Berechne P1 im Beispiel aus 7.3 (Wahrscheinlichkeit, das Ziel 5 Euro zu erreichen
bei 1 Euro Startkapital).
Es gilt R = {0, 5}, U = {5}, also P5 = 1, P0 = 0. Nach der Formel ist weiter P1 = 21 P2 ,
P2 = 21 P4 , P3 = 12 + 12 P1 und P4 = 21 + 12 P3 . Wir erhalten der Reihe nach P4 = 34 + 41 P1 ,
3
1
3
P2 = 83 + 18 P1 und P1 = 16
+ 16
P1 , woraus P1 = 15
= 0.2 folgt.
Der Spieler erreicht sein Ziel also mit der Wahrscheinlichkeit 0.2.
(b) Die mittlere Dauer der Irrfahrt vom Zustand i aus sei mit mi bezeichnet. Es gilt mi = 0
für i ∈ R. Für i 6∈ R gilt
N
X
mi = 1 +
pij mj .
j=1
29
i
1
j
2
N
R
Im Beispiel ist m0 = m5 = 0. Berechne m1 !
Es ist m1 = 1 + 21 m2 , m2 = 1 + 12 m4 , m3 = 1 + 21 m1 und m4 = 1 + 21 m3 . Wir erhalten
1
1
3 1
m1 = 1 + (1 + m4 ) = + m4
2
2
2 4
3 1
1
7 1
=
+ (1 + m3 ) = + m3
2 4
2
4 8
1
15
1
7 1
+ (1 + m1 ) =
+ m1 ,
=
4 8
2
8
16
also m1 = 16
· 15
=2
15
8
Die mittlere Spieldauer beträgt 2 Runden.
8
Zufallsvariablen mit Dichten
8.1 Erinnerung an die Gleichverteilung
Sei [a, b] ⊂ R und die Zufallsvariable X sei gleichverteilt auf [a, b]. Dann gilt für die
Verteilungsfunktion FX von X:

für x ≤ a,
 0
x−a
für x ∈ (a, b],
FX (x) = P (X ≤ x) =
 b−a
1
für x > b.
1
, x ∈ [a, b]
b−a
Setzt man f (x) =
, so kann man FX als Integral schreiben:
0 sonst
Z x
P (X ≤ x) = FX (x) =
f (u) du.
−∞
Das entspricht der Fläche unter dem Graphen von f zwischen −∞ und x.
Bemerkung: Nach Definition (→HMI) ist
Z x
Z x
f (u) du = lim
f (u) du falls dieser Limes existiert.
−∞
c→−∞
c
30
Für die obige Funktion f ist Existenz des Limes trivial. Am Graphen von f sieht man
wieder, dass Teilintervalle von [a, b] gleicher Länge gleiche Wahrscheinlichkeit haben, denn
die Fläche unter dem Graphen von f ist dann gleich.
8.2 Definition: Eine Zufallsvariable X heißt stetig, falls es eine integrierbare Funktion
f : R → [0, ∞) gibt mit
Z x
f (u) du für alle x ∈ R.
P (X ≤ x) =
−∞
Ein solches f heißt Dichte der Zufallsvariable X.
Dabei nennen wir ein Funktion g : R → R integrierbar, falls g auf jedem Intervall [c, d] ⊂ R
integrierbar ist und
Z ∞
Z 0
Z d
|g(u)| du := lim
|g(u)| du + lim
|g(u)| du < ∞
−∞
c→−∞
d→∞
c
gilt. Ist g : R → R integrierbar, so konvergiert
R∞
−∞
0
g(u) du.
Bemerkung:
R ∞ Sei f Dichte einer Zufallsvariablen X.
(i) Es gilt −∞ f (u) du = 1.
Rd
(ii) Für alle c, d ∈ R mit c < d gilt P (X ∈ (c, d]) = c f (u) du.
(iii) Für alle x ∈ R gilt P (X = x) = 0.
8.3 Die Exponentialverteilung
Eine Zufallsvariable X heißt exponentialverteilt mit Parameter λ > 0, falls X die Dichte
0
,x ≤ 0
f (x) =
−λx
λe
,x > 0
hat. Für die Verteilungsfunktion FX von X gilt dann
Z x
0
,x ≤ 0
FX (x) =
f (u) du =
.
−λx
1
−
e
,x > 0
−∞
8.4 Definition: Sei X eine stetige Zufallsvariable mit Dichte f . Ist
so heißt
Z ∞
xf (x) dx
E(X) :=
R∞
−∞
Ende
Woche 10
|x|f (x) dx < ∞,
−∞
Erwartungswert von X (aufgrund der Voraussetzung konvergiert das Integral) und
Z ∞
2
2
Var (X) = D (X) = E((X − E(X)) ) =
(x − E(X))2 f (x) dx
−∞
31
heißt Varianz von X, D(X) :=
D2 (X) = ∞ sein).
p
Var(X) heißt Standardabweichung von X (es kann
8.5 Beispiel: (a) Sei X gleichverteilt auf [a, b]. Dann gilt
Z b
1
b 2 − a2
a+b
E(X) =
x dx =
=
,
b−a a
2(b − a)
2
Z b
)3
( b−a )3 − ( a−b
a+b 2
(b − a)2
1
2
2
(x −
) dx = 2
=
.
D (X) =
b−a a
2
3(b − a)
12
(b) Sei X exponentialverteilt mit Parameter λ > 0. Dann gilt:
Z ∞
Z R
Z
Z
1 λR −y
1 ∞ −y
1
−λx
−λx
xλe
dx = lim
E(X) =
λxe
dx = lim
ye dy =
ye dy = ,
R→∞ 0
R→∞ λ 0
λ 0
λ
0
wobei wir x = y/λ substituiert haben und die Formel
Z ∞ k
y −y
e dy = 1 für k = 0, 1, 2, . . .
k!
0
verwendet haben (Beweis durch Induktion mit partieller Integration). Ähnlich folgt
E(X 2 ) = λ22 und D2 (X) = λ12 .
Beispiel: Das wöchentliche Telefongespräch einer Tochter mit ihrer Mutter dauert im
Mittel 15 min. Es liege eine Exponentialverteilung vor. Wie groß ist die Wahrscheinlichkeit,
dass das Telefongespräch länger als 20 min dauert?
Sei X die Dauer des Telefongesprächs. Es ist E(X) = 15 (min), andererseits E(X) = λ1
1
nach 8.5(b). Somit gilt λ = 15
und
20
4
P (X > 20) = 1 − P (X ≤ 20) = 1 − FX (20) = e− 15 = e− 3 ∼ 0.264.
8.6 Satz: Sei X eine Zufallsvariable
mit Dichte f . Ist g : R → R stetig, so ist g(X) eine
R∞
Zufallsvariable und, falls −∞ |g(x)|f (x) dx < ∞ ist, gilt
Z ∞
g(x)f (x) dx,
E(g(X)) =
−∞
wobei das Integral konvergiert.
8.7 Definition: Sei X eine Zufallsvariable mit Dichte f . Ist k ∈ N und
∞, so heißt
Z ∞
k
E(X ) =
xk f (x) dx
−∞
32
R∞
−∞
|x|k f (x) dx <
k-tes Moment der Zufallsvariable X und
k
E((X − E(X)) ) =
Z
∞
−∞
(x − E(X))k f (x) dx
heißt k-tes zentrales oder zentriertes Moment der Zufallsvariable X.
Bemerkung: Das zweite zentrale Moment ist die Varianz
Z ∞
2
(x − E(X))2 f (x) dx
Var(X) = E((X − E(X)) ) =
−∞
Z ∞
Z ∞
2
xf (x) dx +(E(X))2 = E(X 2 ) − (E(X))2 .
x f (x) dx − 2E(X)
=
−∞
| −∞ {z
}
=E(X)
8.8 Beispiel: Sei X exponentialverteilt mit Parameter λ > 0. Dann existiert für jedes
k ∈ N das k-te Moment und
Z ∞
Z R
Z R
k!
k
−λx
k
k
−λx
−k
x λe
dx = lim
E(X ) =
x λe
dx = λ lim
y k e−y dy = k .
R→∞
R→∞
λ
0
0
0
8.9 Definition: Eine Zufallsvariable X heißt standardnormalverteilt oder N (0, 1)-verteilt,
falls X die Dichte
1
2
f (x) = √ e−x /2 , x ∈ R,
2π
hat.
R∞
R∞
2
2
Bemerkung: Es gilt dann −∞ √12π e−x /2 dx = 1 (ohne Beweis) und −∞ √x2π e−x /2 dx = 0
R∞ 2
2
2
(der Integrand ist ungerade), sowie −∞ √x2π e−x /2 dx = 1 (hierfür schreibe man x2 e−x /2 =
2
x · xe−x /2 und verwende partielle Integration).
Ist also X N (0, 1)-verteilt, so gilt E(X) = 0 und D2 (X) = E(X 2 ) = 1.
Bemerkung: Ist X eine
R x Zufallsvariable mit Dichte f und Verteilungsfunktion F , so gilt
F (x) = P (X ≤ x) = −∞ f (u) du, x ∈ R. Nach dem Hauptsatz (→HMI) ist dann f (x) =
F ′ (x) für alle x ∈ R, in denen f stetig ist.
Ende
Woche 11
8.10 Normalverteilung
Sei µ ∈ R, σ > 0 und X N (0, 1)-verteilt. Setze Y := σX + µ. Dann gilt für alle y ∈ R (vgl.
5.14):
y−µ
y−µ
) = FX (
).
FY (y) = P (Y ≤ y) = P (X ≤
σ
σ
d
Nach der Bemerkung erhalten wir die Dichte fY von Y durch Ableiten dy
:
fY (y) =
(y−µ)2
d
y−µ
y−µ 1
1
d
e− 2σ2 ,
FY (y) = (FX (
)) = FX′ (
)· = √
dy
dy
σ
σ
σ
2πσ
33
y ∈ R.
Definition: Eine Zufallsvariable mit der Dichte
f (x) = √
(x−µ)2
1
e− 2σ2 ,
2πσ
x ∈ R,
heißt N (µ, σ 2 )-verteilt.
Die obigen Überlegungen zeigen1
Bemerkung: Ist Y eine Zufallsvariable, so gilt:
Y ist N (µ, σ 2 )-verteilt ⇐⇒ X =
Y −µ
σ
ist N (0, 1)-verteilt.
Somit hat eine N (µ, σ 2 )-verteilte Zufallsvariable Erwartungswert µ und Varianz σ 2 , und
heißt deshalb auch normalverteilt mit Mittelwert µ und Varianz σ 2 .
Die Verteilungsfunktion der N (0, 1)-Verteilung ist in Tabellen nachzuschlagen und wird
mit Φ(x) bezeichnet. Ist Y N (µ, σ 2 )-verteilt, so gilt für die Verteilungsfunktion (s.o.)
FY (y) = Φ(
y−µ
),
σ
y ∈ R,
und FY lässt sich anhand der Tabelle berechnen. Dabei zeigen Symmetrieüberlegungen für
die Dichte, dass für x < 0 gilt Φ(x) + Φ(−x) = 1. Es reicht also, eine Tabelle für Φ(x) mit
x > 0 zu haben.
Beispiel: Sei k > 0 und die Zufallsvariable Y sei N (µ, σ 2 )-verteilt mit µ ∈ R, σ > 0. Dann
gilt:
P (µ − kσ ≤ Y ≤ µ + kσ) = P (−k ≤
Y −µ
≤ k) = Φ(k) − Φ(−k) = 2Φ(k) − 1,
σ
und die Tabellenwerte Φ(1) ∼ 0.8413, Φ(2) ∼ 0.9772498, Φ(3) ∼= 0.9985587 zeigen
P (|Y − µ| ≤ σ) ∼ 0.6826, P (|Y − µ| ≤ 2σ) ∼ 0.955, P (|Y − µ| ≤ 3σ) ∼ 0.997.
In einem Streifen der Breite 3σ um den Mittelwert µ liegen also “fast alle Werte” der
Zufallsvariable Y , die Wahrscheinlichkeit, dass sie außerhalb liegen, ist jedenfalls kleiner
als 0.003, dh kleiner als 0.3 Prozent.
8.11 Rechenregeln Seien X1 , X2 Zufallsvariable mit E(|Xj |2 ) < ∞ und µj = E(Xj ) für
j = 1, 2. Dann gilt
(a) D2 (Xj ) = D2 (Xj − ν) für alle ν ∈ R.
(b) E(X1 + X2 ) = E(X1 ) + E(X2 ) und, falls X1 , X2 unabhängig sind,
(i)
E(X1 X2 ) = E(X1 )E(X2 )
2
(ii) D (X1 + X2 ) = D2 (X1 ) + D2 (X2 ).
1
Gezeigt wurde nur eine Richtung, aber die andere geht analog.
34
(c) Falls X1 , X2 unabhängig sind und Dichten f1 bzw. f2 haben, so hat die Zufallsvariable
X1 + X2 die Dichte
Z ∞
g(x) =
f1 (y)f2 (x − y) dy, x ∈ R.
−∞
Die Funktion g heißt Faltung von f1 und f2 , geschrieben g = f1 ∗ f2 .
Dabei nennen wir beliebige Zufallsvariablen X, Y unabhängig (vgl. 6.2), falls für alle Intervalle A, B ⊂ R gilt:
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B).
Beweis: (a) Es gilt E(Xj − ν) = µj − ν und E(((Xj − ν) − (µj − ν))2 ) = E((Xj − µj )2 ).
(b) (ii) Es gilt
E((X1 + X2 − (µ1 + µ2 ))2 ) = E((X1 − µ1 )2 ) + 2 E((X1 − µ1 )(X2 − µ2 )) +E((X2 − µ2 )2 ).
{z
}
|
=E(X1 −µ1 )E(X2 −µ2 )=0
Den Beweis von (i) führen wir hier nur für diskrete Zufallsvariablen X, Y mit Wertebereichen {xi : i ∈ I} bzw. {yj : j ∈ J}
X
E(XY ) =
xi yj P (X = xi , Y = yj )
{z
}
|
i,j
=
X
=P (X=xi )P (Y =yj )
xi P (X = xi )
i
X
yj P (Y = yj )
j
= E(X) E(Y ).
(c) kein Beweis, aber folgende Überlegung: Für unabhängige Zufallsvariablen X, Y , die
diskret mit Wertebereichen ⊂ Z sind, gilt für jedes k ∈ Z:
X
X
P (X + Y = k) =
P (X = j, Y = k − j) =
P (X = j)P (Y = k − j).
j∈Z
j∈Z
Beispiele: Seien X, Y unabhängige Zufallsvariablen mit Dichten f bzw. g. Welche Dichte
h hat X + Y ?
1 , x ∈ [0, 1]
(a) Seien X, Y gleichverteilt auf [0, 1], also f (x) = g(x) =
. Dann gilt
0 , x 6∈ [0, 1]
Z 1
Z ∞
g(x − y) dy, x ∈ R.
f (y)g(x − y) dy =
h(x) =
0
−∞
Weiter ist g(x − y) = 1 genau dann, wenn y ∈ [x − 1, x] gilt, und wir erhalten

, x 6∈ (0, 2)
 0
x
, x ∈ (0, 1] .
h(x) =

2 − x , x ∈ (1, 2]
35
Beachte, dass h stetig ist, aber f und g nicht stetig sind.
(b) Sei X exponentialverteilt mit Parameter λ > 0 und Y gleichverteilt auf [0, 1], also
0
,x ≤ 0
f (x) =
und g wie in (a). Dann gilt:
−λx
λe
,x > 0
Z ∞
Z ∞
h(x) =
f (y)g(x − y) dy =
λe−λy g(x − y) dy, x ∈ R.
−∞
0
Man sieht, dass die Funktion y 7→ λe−λy also über dem Intervall [0, ∞) ∩ [x − 1, x] integriert
wird, und wir erhalten also h(x) = 0 für x ≤ 0, sowie
Z x
h(x) =
λe−λy dy = 1 − e−λx , x ∈ (0, 1],
Z0 x
λe−λy dy = e−λx (eλ − 1), x > 1.
h(x) =
x−1
Bemerkung: Viele Regeln, die wir für diskrete Zufallsvariablen gezeigt haben, gelten
auch für beliebige Zufallsvariablen, insbesondere also für solche mit Dichten (etwa 6.3, die
Tschebyscheffsche Ungleichung 6.4 oder das Chintschinsche Gesetz der großen Zahlen 6.7).
Ende
Woche 12
9
Grenzwertsätze
9.1 Beispiel: Seien X1 , X2 , X3 , X4 unabhängige Zufallsvariablen, die jeweils gleichverteilt
auf [0, 1] sind. Dann haben X1 + X2 jeweils die Dichte

, x 6∈ (0, 2)
 0
x
, x ∈ (0, 1] .
h(x) =

2 − x , x ∈ (1, 2)
Da X1 + X2 und X3 + X4 wieder unabhängig sind (!), hat S4 := X1 + X2 + X3 + X4 die
Dichte
Z ∞
Z 2
g(x) =
h(y)h(x − y) dy =
h(y)h(x − y) dy.
−∞
0
Klar ist, dass g(x) = 0 für x 6∈ [0, 4] gilt. Außerdem ist g auf jedem Intervall [j − 1, j],
j = 1, 2, 3, 4, ein Polynom dritten Grades. Weiter zeigen Symmetrieüberlegungen, dass
g(4 − x) = g(x) für x ∈ R gilt. Wir erhalten für x ∈ (0, 1]:
Z x
x3
g(x) =
y(x − y) dy =
6
0
und für x ∈ (1, 2]:
Z x−1
Z
g(x) =
y(2 − x + y) dy +
0
1
x−1
y(x − y) dy +
36
Z
1
x
(2 − y)(x − y) dy = −
2
x3
+ 2x2 − 2x + .
2
3
1
Es gilt E(S4 ) = 4 E(X1 ) = 4 · 12 = 2 und D2 (S4 ) = 4 D2 (X1 ) = 4 · 12
= 31 (wegen 8.5(a)
4)
gilt also E(Z4 ) = 0 und D2 (Z4 ) = 1.
und 8.11). Für die Zufallsvariable Z4 = S√4 −E(S
2
D (S4 )
Die Zufallsvariable Z4 hat eine Dichte ψ, welche die Dichte der N (0, 1)-Verteilung gut
approximiert (beachte ψ(t) = √13 g( √t3 + 2)).
9.2 Zentraler Grenzwertsatz (ohne Beweis) Sei X1 , X2 , X3 , . . . eine Folge unabhängiger in Woche
Zufallsvariablen, die alle die gleiche Verteilung haben mit D2 (Xj ) = d2 < ∞ und E(Xj ) = 12
P
erwähnt
m. Für die Summen SN := N
j=1 Xj , N ∈ N, und jedes x ∈ R gilt dann:
Z x
S − Nm
1
2
N
√
P
≤ x −→ √
e−y /2 dy = Φ(x) (N → ∞).
2π −∞
Nd
Die Zufallsvariablen auf der linken Seite sind standardisierte Summen mit Erwartungswert
0 und Varianz 1. Der Grenzwert auf der rechten Seite ist die Verteilungsfunktion der
N (0, 1)-Verteilung an der Stelle x.
Ein Spezialfall von 9.2 ist der folgende Satz.
9.3 Satz von de Moivre-Laplace
Ist p ∈ (0, 1) und SN für jedes N ∈ N eine binomialverteilte Zufallsvariable mit Parametern
N und p, so gilt für jedes x ∈ R:
Z x
S − Np
1
2
N
P p
≤ x −→ √
e−y /2 dy = Φ(x) (N → ∞).
2π −∞
N p(1 − p)
Bemerkung: (a) Nach 6.9 gilt E(SN ) = N p und D2 (SN ) = N p(1 − p).
P
(b) Es gilt SN = N
j=1 Xj , wobei X1 , X2 , X3 , . . . unabhängig sind mit P (Xj = 1) = p,
P (Xj = 0) = 1 − p.
(c) Faustregel: Die Approximation ist i.a. hinreichend gut, wenn D2 (SN ) ≥ 9 gilt.
(d) Die Approximation wird verbessert, wenn man statt
P (k < SN ≤ l) ∼ Φ( p
das folgende nimmt:
k − Np
) − Φ( p
)
N p(1 − p)
N p(1 − p)
l − Np
k − N p − 21
l − N p + 21
p
p
) − Φ(
P (k < SN ≤ l) ∼ Φ(
)
N p(1 − p)
N p(1 − p)
(→ Henze: Stochastik für Einsteiger (Abschnitt 26) oder → Krengel: Einführung in die
Wahrscheinlichkeitstheorie und Statistik, Vieweg 1988, Abschnitt 5.3).
37
Beispiel: Ein Frequenzsprungsender sende im Frequenzbereich 30 − 80MHz. Bei einer
Kanalbandbreite von 25kHz gibt es also 2000 Kanäle, die alle mit gleicher Wahrscheinlichkeit angesprungen werden sollen. Bei einer Sendung von 10s sei die Dauer eines Hops
10−3 s. Es gibt also 104 Hops. Man beobachtet mit einem Empfänger eine bestimmte Frequenz. Wie groß ist die Wahrscheinlichkeit, mindestens 3 Hops der Sendung zu erfassen?
Es liegt eine Binomialverteilung vor mit N = 104 und p =
10 4 X
10
4
P (SN ≥ 3) =
k=3
k
(
1
2000
und wir wollen berechnen
1 k
1 104 −k
) (1 −
)
.
2000
2000
Für eine Approximation nach 9.3 stellen wir fest: N p = 5 und
√ 3−N p ∼ −0.89. Wir erhalten
N p(1−p)
p
N p(1 − p) ∼ 2.24, also
3 − Np
SN − N p
≥p
) ∼ 1 − Φ(−0.89) = Φ(0.89) ∼ 0.81.
P (SN ≥ 3) = P ( p
N p(1 − p)
N p(1 − p)
10
Komplexe Zufallsvariablen und die charakteristische Funktion
Wir verwenden hier die imaginäre Einheit ip
∈ C\R, i2 = −1, sowie die folgenden Tatsachen:
für s, x, y ∈ R und z = x + iy gilt |z| = x2 + y 2 , eisx = cos(sx) + i sin(sx), |eisx | = 1,
eis(x+y) = eisx eisy .
10.1 Definition: Sind X, Y (reellwertige) Zufallsvariable, so heißt Z = X + iY komplexwertige Zufallsvariable oder komplexe Zufallsvariable (d.h. schreiben wir Ω für den zugrundeliegenden Wahrscheinlichkeitsraum, so ist Z eine Abbildung Ω → C und X(ω) = Re Z(ω)
(Realteil), Y (ω) = Im Z(ω) (Imaginärteil) für jedes ω ∈ Ω).
Man definiert E(Z) = E(X) + iE(Y ) und D2 (Z) = E(|Z − E(Z)|2 ).
Bemerkung: Es gilt D2 (Z) = E((X − E(X))2 + (Y − E(Y ))2 ) = D2 (X) + D2 (Y ).
10.2 Definition: Sei X eine (reellwertige) Zufallsvariable. Die Funktion ϕX : R → C, die
durch
ϕX (s) := E(eisX ), s ∈ R,
gegben ist, heißt charakteristische Funktion der Zufallsvariable X. (Beachte: für festes
s ∈ R ist eisX eine komplexe Zufallsvariable.)
10.3 Bemerkung: (a) Ist X eine stetige Zufallsvariable mit Dichte f , so gilt
Z ∞
eisx f (x) dx, s ∈ R.
ϕX (s) =
−∞
38
Ist ϕX (absolut) integrierbar, so gilt
1
f (x) =
2π
Z
∞
e−isx ϕX (s) ds
−∞
für alle x ∈ R, in denen f stetig ist (→ Fouriertransformation, KAI).
(b) Ist X eine diskrete Zufallsvariable mit Wertebereich {xj : j ∈ I}, so gilt
X
ϕX (s) =
eisxj P (X = xj ), s ∈ R.
j∈I
(c) Ist X N (0, 1)-verteilt, so gilt
Z ∞
1
2
2
ϕX (s) = √
eisx e−x /2 dx = e−s /2 ,
2π −∞
→ Fouriertransformation, KAI.
s ∈ R,
(d) Sind X, Y unabhängige Zufallsvariable, so sind für jedes s ∈ R auch eisX , eisY unabhängige Zufallsvariable, und wie in 8.11 gilt:
ϕX+Y (s) = E(eis(X+Y ) ) = E(eisX eisY ) = E(eisX )E(eisY ) = ϕX (s)ϕY (s),
Also: X, Y unabhängig =⇒ ϕX+Y = ϕX · ϕY .
s ∈ R.
(e) Es gilt (im Falle der Existenz, → KAI)
(k)
ϕ (0)
für k = 1, 2, 3, . . . ,
E(X ) = X k
i
insbesondere also D2 (X) = E(X 2 ) − (E(X))2 = −ϕ′′X (0) + (ϕ′X (0))2 .
k
(f) Ist X eine diskrete Zufallsvariable mit Wertebereich ⊆ N0 , so gilt
∞
X
ϕX (s) =
(eis )n P (X = n), s ∈ R,
n=0
und die Potenzreihe
ψ(z) =
∞
X
z n P (X = n),
n=0
z ∈ C, |z| ≤ 1,
heißt erzeugende Funktion der Zufallsvariable X.
Beispiel: Sei Xj N (µj , σj2 )-verteilt für j = 1, 2 und seien X1 , X2 unabhängig. Welche
Verteilung hat X1 + X2 ?
X −µ
Für j = 1, 2 ist Yj := jσj j N (0, 1)-verteilt. Somit gilt (nach (c)) für j = 1, 2:
2 2 /2
ϕXj (s) = E(eisXj ) = E(eis(σj Yj +µj ) ) = eisµj E(eisσj Yj ) = eisµj e−σj s
,
und weiter nach (d):
2
2
ϕX1 +X2 (s) = ϕX1 (s)ϕX2 (s) = eis(µ1 +µ2 ) e−(σ1 +σ2 )s
2 /2
,
s ∈ R.
Nach (a) ist dann X1 + X2 N (µ1 + µ2 , σ12 + σ22 )-verteilt. Die Summe unabhängiger normalverteilter Zufallsvariablen ist also wieder normalverteilt.
39
11
Stochastische Prozesse
Erinnerung: In Kapitel 7 haben wir uns mit zeitdiskreten stochastischen Prozessen
beschäftigt, d.h. mit Folgen X1 , X2 , X3 , . . . bzw. (Xn )n∈N0 von Zufallsvariablen.
11.1 Definition: Ein stochastischer Prozess (in kontinuierlicher Zeit) ist eine Familie
(X(t))t≥0 von Zufallsvariablen.
Bemerkung: Man betrachtet stochastische Prozesse auch als Abbildungen
X : [0, ∞) × Ω → R, (t, ω) 7→ X(t, ω).
Für festes ω ∈ Ω ist heißt die Funktion [0, ∞) → R, t 7→ X(t, ω) ein Pfad oder eine
Realisierung des stochastischen Prozesses (X(t))t≥0 .
11.2 Poisson-Prozess
Wir betrachten als Beispiel die Verabeitung von Paketen in Übertragungssystemen. Für
jedes t ≥ 0 sei X(t) die Anzahl der bis zum Zeitpunkt t eingetroffenen Pakete. Also ist jedes
X(t) eine diskrete Zufallsvariable mit Werten in N0 , und für 0 ≤ s < t ist X(t) − X(s)
die Anzahl der im Zeitintervall (s, t] eingetroffenen Pakete. Wir machen die folgenden
Annahmen:
(0) X0 = 0;
(1) die Anzahl der in disjunkten Zeitintervallen eintreffenden Pakete ist unabhängig voneinander, d.h. für 0 ≤ t0 < t1 < . . . < tn sind die Zufallsvariablen
X(t1 ) − X(t0 ), X(t2 ) − X(t1 ), . . . , X(tn ) − X(tn−1 )
unabhängig (man sagt: “der Prozess hat unabhängige Zuwächse”);
(2) die Wahrscheinlichkeit, dass in einem Intervall (s, t] gerade k ∈ N0 Pakete
eintreffen, hängt nur von der Intervalllänge t − s ab, d.h. für 0 ≤ s < t und
h > 0 haben die Zufallsvariablen X(t + h) − X(s + h) und X(t) − X(s) die
gleiche Verteilung, m.a.W es gilt
P (X(t + h) − X(s + h) = k) = P (X(t) − X(s) = k),
k ∈ N0
für alle 0 ≤ s < t und alle h > 0 (man sagt: “der Prozess hat stationäre
Zuwächse”);
(3) es gibt ein λ > 0 mit
P (X(h) − X(0) = 1) = λh + o(h)
P (X(h) − X(0) = 0) = 1 − λh + o(h)
für h → 0 (hierbei bezeichnet o(h) einen Term mit limh→0+
40
o(h)
h
= 0).
Einen stochastischen Prozess mit den Eigenschaften (0)–(3) bezeichnet man als (homogenen) Poisson-Prozess mit Parameter λ (wie bei Markoffketten bezieht sich “homogen” auf
die Eigenschaft (2), das “System” verhält sich zu jedem Zeitpunkt gleich). Im folgenden
sei, wenn nichts anderes gesagt wird, (X(t))t≥0 ein solcher homogener Poisson-Prozess mit
Parameter λ > 0.
11.3 Satz: Wir erhalten für alle t > 0, k ∈ N0 :
P (X(t) = k) =
(λt)k −λt
e ,
k!
d.h. jede Zufallsvariable X(t) ist Poisson-verteilt mit Parameter λt.
Beweisidee: Unterteile [0, t] in N Teilintervalle der Länge h = Nt . In jedem Teilintervall ist nach (2) und (3) die Wahrscheinlichkeit für das Eintreffen eines Paketes λh und
die Wahrscheinlichkeit für das Nichteintreffen 1 − λh (jedenfalls approximativ für kleine
Teilintervalle). Wegen (1) gilt dann
(λt)k −λt
N
P (X(t) = k) ∼
(λh)k (1 − λh)N −k −→
e
(N → ∞),
k
k!
wobei die Konvergenz wie im Beweis des Satzes von Poisson (in 5.17) gezeigt wird (beachte,
dass λh = λt
gilt).
N
11.4 Folgerung: (a) Für alle 0 ≤ s < t und alle k ∈ N0 gilt
P (X(t) − X(s) = k) =
(λ(t − s))k −λ(t−s)
e
,
k!
d.h. die Zufallsvariable X(t) − X(s) ist Poisson-verteilt mit Parameter λ(t − s).
(b) Für jedes t ≥ 0 gilt E(X(t)) = λt und D2 (X(t)) = λt. Also entspricht λ = E(X(t))
der
t
mittleren Ankunftsrate der Pakete. Misst man im großen Intervall mit Länge t die Anzahl
n ankommender Pakete, so ist nt ein vernünftiger Schätzwert für λ.
(c) Es gilt P (X(t) = 0) = e−λt , d.h. die Wahrscheinlichkeit, dass kein Paket ankommt,
geht mit t exponentiell gegen Null, entsprechend gilt P (X(t) − X(s) = 0) = e−λ(t−s) , t > s,
für jedes feste s > 0.
11.5 Ankunftszeitpunkte
Für k ∈ N0 beschreibe die Zufallsvariable τk den Ankunftszeitpunkt des k-ten Paketes.
Dann beschreibt τk+1 − τk die Dauer zwischen zwei aufeinanderfolgenden Ankunftszeitpunkten. Es ist τ0 = 0, und T := τ1 ist die Ankunftszeit des ersten Paketes.
Satz: Die Zufallsvariable T ist exponentialverteilt mit Parameter λ > 0. Insbesondere gilt
E(T ) = λ1 und D2 (T ) = λ12 .
41
Beweis: Für t ≤ 0 gilt P (T ≤ t) = 0. Für t > 0 gilt
P (T ≤ t) = P (X(t) ≥ 1) = 1 − P (X(t) = 0) = 1 − e−λt .
Somit hat T die Dichte
fT (t) =
0
,t ≤ 0
.
−λt
λe
,t > 0
Bemerkung: Es ist plausibel, dass für jedes k ∈ N die Zufallsvariable τk+1 − τk dieselbe
Verteilung wie T hat. Tatsächlich ist auch τk+1 − τk exponentialverteilt mit Parameter λ
für jedes k ∈ N.
11.6 Bemerkung: Die Summe unabhängiger Poisson-Prozesse ist wieder ein PoissonProzess. Dazu überlege man sich, dass für unabhängige Zufallsvariablen X1 , X2 , . . . , Xn , die
Poisson-verteilt mit Parametern λ1 , λ2 , . . . , λn > 0 sind, die Summe X = X1 +X2 +. . .+Xn
Poisson-verteilt mit Parameter λ = λ1 + λ2 + . . . + λn ist. (Man gehe vor wie im “Beweis”
von 8.11(c) oder vergleiche mit Jondral/Wiesler, S. 143; ein anderes Argument findet sich
bei Jondral/Wiesler, S. 184).
11.7 Definition: Seien X, Y Zufallsvariablen mit D2 (X) + D2 (Y ) < ∞. Dann heißt
cov (X, Y ) := E[(X − E(X))(Y − E(Y ))]
Kovarianz von X und Y , und
cov (X, Y )
ρ(X, Y ) = p
D2 (X) D2 (Y )
heißt Korrelationskoeffizient von X und Y . Gilt ρ(X, Y ) = 0, so heißen X und Y unkorreliert.
Nach Voraussetzung an X und Y existiert der Erwartungswert in der Definition von
cov (X, Y ) in R.
11.8 Satz: Seien X, Y Zufallsvariablen mit D2 (X) + D2 (Y ) < ∞.
(a) X, Y unabhängig =⇒ X, Y unkorreliert [“⇐” ist i.a. falsch!].
(b) D2 (X + Y ) = D2 (X) + D2 (Y ) + 2cov (X, Y ) und |ρ(X, Y )| ≤ 1.
Beweis: (a) X − E(X) und Y − E(Y ) sind unabhängig und haben Erwartungswert Null.
(b) Vergleiche 8.11(b) für die erste Aussage. Die zweite Aussage ist äquivalent zu
p
p
|cov (X, Y )| ≤ D2 (X) D2 (Y ),
wobei man nur E(X) = 0 = E(Y ) betrachten muss. Diese Aussage beweist man wie die
Cauchy-Schwarzsche Ungleichung.
42
Bemerkung: Es gilt: cov (X, X) = D2 (X); ρ(X, X) = 1; ρ(X, aX + b) = 1 für a > 0 und
b ∈ R. Der Korrelationskoeffizient ρ(X, Y ) ist ein “Ähnlichkeitsmaß” für das Paar (X, Y )
von Zufallsvariablen.
11.9 Definition: Sei (X(t))t≥0 ein stochastischer Prozess.
(a) Die Funktion
ϕXX (t1 , t2 ) := E(X(t1 )X(t2 )),
t1 , t2 ≥ 0,
heiß Autokorrelationsfunktion des stochastischen Prozesses (X(t))t≥0 , und die Funktion
cXX (t1 , t2 ) := cov (X(t1 ), X(t2 )) = E[(X(t1 ) − E(X(t1 )))(X(t2 ) − E(X(t2 )))],
t1 , t2 ∈ R,
heißt Autokovarianzfunktion des stochastischen Prozesses (X(t))t≥0 .
(b) Der stochastische Prozess (X(t))t≥0 heißt (schwach) stationär, falls
(i) E(X(t)) = µ unabhängig von t ist;
(ii) ϕXX (t1 , t2 ) nur von t2 − t1 abhängt (dh, wenn für alle t1 , t2 , h gilt ϕXX (t1 +
h, t2 + h) = ϕXX (t1 , t2 ) gilt; wir schreiben dann ϕXX (t1 , t2 ) = ϕXX (t2 − t1 ) =
ϕXX (τ ) mit τ = t2 − t1 ).
(c) Der stochastische Prozess (X(t))t≥0 heißt stark stationär, falls für alle n ∈ N, alle
0 ≤ t1 < t2 < . . . < tn , alle h > 0 und alle reellen Intervalle A1 , A2 , . . . , An gilt:
P (X(T1 + h) ∈ A1 , X(t2 + h) ∈ A2 , . . . , X(tn + h) ∈ An )
= P (X(t1 ) ∈ A1 , X(t2 ) ∈ A2 , . . . , X(tn ) ∈ An ).
Bemerkung: “Stark stationär” impliziert “(schwach) stationär”.
Beispiel: Der Poisson-Prozess ist nicht (schwach) stationär, da E(X(t)) = λt von t
abhängt.
Bemerkung: Es gilt stets
cXX (t1 , t2 ) = E(X(t1 )X(t2 ))−2E(X(t1 ))E(X(t2 ))+E(X(t1 ))E(X(t2 )) = ϕXX (t1 , t2 )−E(X(t1 ))E(X(t2
vergleiche die Beziehung zwischen Varianz und zweitem Moment.
Insbesondere ist ϕXX (t1 , t2 ) = cXX (t1 , t2 ) für E(X(t1 )) = E(X(t2 )) = 0, und für einen
(schwach) stationären Prozess (X(t))t≥0 mit E(X(t)) = µ gilt:
cXX (t1 , t2 ) = ϕXX (t1 , t2 ) − µ2 ,
dh auch die Kovarianzfunktion hängt dann nur von der Differenz τ = t2 − t − 1 ab.
43
11.10 Definition: Ist (X(t))t≥0 ein (schwach) stationärer Prozess mit Autokorrelationsfunktion ϕXX (τ ), τ ∈ R, so heißt
ϕXX (0) = ϕXX (t, t) = E(X(t)2 ) (unabhängig von t!)
die mittlere Leistungsdichte von (X(t))t≥0 und
Z ∞
ϕXX (τ ) e−2πiωτ dτ,
ΦXX (ω) :=
ω ∈ R (Frequenz),
−∞
heißt Leistungsdichtespektrum des stochastischen Prozesses (X(t))t≥0 .
11.11 Bemerkung: (a) Wegen ϕXX (t1 , t2 ) = ϕXX (t2 , t1 ) ist ϕXX in 11.10 eine gerade
Funktion: ϕXX (τ ) = ϕXX (−τ ) für alle τ ∈ R.
(b) Es ist ΦXX (ω) ≥ 0 für jedes ω ∈ R (ohne Beweis).
(c) Ist ΦXX integrierbar und ϕXX stetig, so gilt
Z ∞
ΦXX (ω) e2πiωτ dω,
ϕXX (τ ) =
−∞
insbesondere also
2
E(X(t) ) = ϕXX (0) =
Z
∞
τ ∈ R,
ΦXX (ω) dω,
−∞
sodass ΦXX (ω) die Leistungsverteilung auf den Frequenzen ω ∈ R angibt.
11.12 Weißes Gaußsches Rauschen
Reelles weißes Gaußsches Rauschen ist ein stochastischer Prozess (X(t))t≥0 mit
(i) für jedes t ≥ 0 ist X(t) normalverteilt;
(ii) für jedes t ≥ 0 ist E(X(t)) = 0;
(iii) für s 6= t sind X(s) und X(t) unabhängig (insbesondere ist der Prozess
stationär);
(iv) ΦXX (ω) =
No
2
für jedes ω ∈ R (konstantes Leistungsdichtespektrum).
Hierbei ist No 6= 0, da sonst X(t) = 0 für alle t.
11.13 Bemerkung: Wegen (iii) gilt ϕXX (τ ) = 0 für τ 6= 0. Mathematisch führt dies auf
Schwierigkeiten, da ja
Z ∞
No
ϕXX (τ ) dτ = ΦXX (0) =
2
−∞
gelten soll, insbesondere darf man das Integral nicht als uneigentliches Riemann-Integral
verstehen.
44
Man behilft sich mit der Deltafunktion δ, die mathematisch gesehen jedoch keine Funktion sondern eine sogenannte “Distribution” ist. Wir betrachten δ hier als Objekt, das
folgendermaßen charakterisiert ist:
jede stetige und beschränkte komplexwertige Funktion g : R → C gilt:
RFür
∞
g(τ )δ(τ ) dτ = g(0).
−∞
Das Integral ist hierbei nur als Schreibweise
R ∞ zu verstehen. Man stellt sich vor: δ(τ ) = 0 für
τ 6= 0, und δ(0) ist “so unendlich”, dass −∞ δ(τ ) dτ = 1 gilt (wende obige Eigenschaft auf
g(τ ) = 1 an!).
Mithilfe von δ stellen wir fest: Für ϕXX (τ ) = N2o δ(τ ) gilt dann tatsächlich
Z ∞
No
ΦXX (ω) =
ϕXX (τ ) e−2πiωτ dτ =
, ω ∈ R,
2
−∞
wenn man obige Eigenschaft für festes ω ∈ R auf die durch g(τ ) =
stetige beschränkte Funktion g anwendet.
No −2πiωτ
e
2
definierte
Bemerkung: Die charakterisierende Eigenschaft von δ lässt sich auf Funktionen g
übertragen, die auf einem Intervall (−ε, ε) stetig sind.
Bemerkung: Es ist nach diesen Ausführungen vielleicht nicht überraschend, dass weißes
Rauschen als stochastischer Prozess im Sinne unserer Definition 11.1 gar nicht existiert. Zur
präzisen mathematischen Formulierung muss man wieder auf Distributionen zurückgreifen
und weißes Rauschen als verallgemeinerten stochastischen Prozess definieren (wie auch δ
nicht als Funktion existiert, sondern als verallgemeinerte Funktion). Wie bei δ auch, soll
uns das hier nicht groß stören.
11.14 Bemerkung: Normalerweise fordert man in der Definition des weißen Rauschens
statt (i) und (iii):
(i’) der Prozess (X(t))t≥0 ist ein Gaußscher Prozess, d.h. für alle n ∈ N
und alle 0 ≤ t1 < t2 < . . . < tn genügt der Vektor von Zufallsvariablen
(X(t1 ), X(t2 ), . . . , X(tn )) einer mehrdimensionalen Normalverteilung
(→ Jondral/Wiesler);
(iii’) der Prozess (X(t))t≥0 ist stationär.
Die Eigenschaften (i), (ii), (iii), (iv) sind zu den Eigenschaften (i’), (ii), (iii’), (iv) äquivalent,
wobei man aber Eigenschaften der mehrdimensionalen Normalverteilung benutzen muss
(die wir nicht betrachtet haben):
45
Man beachte, dass (iv) – wie oben angedeutet – ϕXX (τ ) = N2o δ(τ ) impliziert. Damit sind X(t) und X(s) für t 6= s unkorreliert. Da der Vektor
(X(t), X(s)) normalverteilt ist, sind X(t) und X(s) dann sogar unabhängig
(→ Jondral/Wiesler). Umgekehrt implizieren (i) und (iii), dass der Vektor
(X(t1 ), . . . , X(tn )) einer mehrdimensionalen Normalverteilung genügt, die Kovarianzmatrix ist in diesem Fall eine Diagonalmatrix.
Fordert man (i’), (ii) und (iii’), so kann man (iv) für praktische Zwecke durch eine der
folgenden Eigenschaften ersetzen (hierbei ist B > 0 und ωc viel größer als B/2):
No /2 , |ω| ≤ B/2
, was einem tiefpassbegrenztem weißen
0
, sonst
Rauschen entspricht;
No /2 , |ω − ωc | ≤ B/2
(iv”) ΦXX (ω) =
, was einem bandpassbegrenztem
0
, sonst
weißen Rauschen entspricht.
(iv’) ΦXX (ω) =
In diesen Fällen existiert ϕXX als Funktion und kann über Fourierinversion (vgl. die Formel
in 11.11(c)) berechnet werden.
46
Herunterladen