Skript

Einführung in die
Wahrscheinlichkeitstheorie
Thomas Richthammer
Vorlesung an der TUM im WS 2011/2012
12. März 2012
Inhaltsverzeichnis
1 Wahrscheinlichkeitsräume
1.1 Einführende Beispiele . . . . . . . .
1.2 Axiomatische Beschreibung . . . .
1.3 Wahl des Wahrscheinlichkeitsraums
1.4 Diskrete Wahrscheinlichkeitsmaße .
1.5 Stetige Wahrscheinlichkeitsmaße . .
1.6 Verteilungsfunktion . . . . . . . . .
.
.
.
.
.
.
3
3
4
6
7
10
12
2 Zufallsvariablen
2.1 Verteilung einer Zufallsvariable . . . . . . . . . . . . . . . . . . . . . .
2.2 Simulation von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . .
2.3 Transformation von Zufallsvariablen: . . . . . . . . . . . . . . . . . . .
14
14
17
18
3 Bedingte Wahrscheinlichkeiten und Verteilungen
3.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . .
3.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
23
24
4 Erwartungswert
4.1 Erwartungswert . . . . . . . . . . . . .
4.2 Kovarianz und Varianz . . . . . . . . .
4.3 Verwendung von Indikatorfunktion und
4.4 Momentenerzeugende Funktionen . . .
.
.
.
.
27
27
29
32
34
5 Beispiele für Zufallsvariablen
5.1 Zufällige Ereignisse in diskreter Zeit . . . . . . . . . . . . . . . . . . . .
5.2 Zufällige Ereignisse in stetiger Zeit . . . . . . . . . . . . . . . . . . . .
5.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
35
37
39
6 Grenzwertsätze
6.1 Gesetz der großen Zahl . . . . . . . . . .
6.1.1 Schwaches Gesetz der großen Zahl
6.1.2 Starkes Gesetz der großen Zahl .
6.2 Zentraler Grenzwertsatz . . . . . . . . .
43
43
43
44
46
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . .
. . . . . . . .
Bedingungen
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 Wahrscheinlichkeitsräume
3
Vorwort
Dieses Skript ist eine Weiterentwicklung des Skriptes zur Vorlesung “Einführung in
die Wahrscheinlichkeitstheorie” vom Wintersemester 2010/11. Besonderer Dank geht
an die Studenten R. Hager, P. Hoffmann und A. Leitner, die eine erste Version dieses
Skripts geTEXt haben, und an alle Studenten der Vorlesung, die mich auf Fehler im
Skript hingewiesen haben.
Zur Verwendung des Skripts im Wintersemester 2011/12: Das Skript enthält im Wesentlichen alles, was in der Vorlesung besprochen wurde, abgesehen von Bildern und
Skizzen.
1
Wahrscheinlichkeitsräume
1.1
Einführende Beispiele
Viele Vorgänge des täglichen Lebens sind mit einer gewissen Unsicherheit behaftet. Beispiele hierfür sind Wettervorhersage, Lotto, Aktienkurse, die Ausbreitung von Krankheiten, das Verhalten großer Teilchenmengen (Physik), das Verhalten großer Menschenmassen z.B. bei Panik, die Wartezeit in Warteschlangen, u.s.w.
Die Wahrscheinlichkeitstheorie, ein Teilgebiet der Stochastik, dient zur mathematischen
Beschreibung solcher Phänomene. Diese Vorlesung soll eine erste Einführung in dieses
Gebiet vermitteln.
Ziel der Vorlesung ist:
• die präzise Beschreibung unsicherer Situationen,
• die Quantifizierung des Zufalls,
• Gesetzmäßigkeiten zu erkennen und zu erklären.
Betrachten wir zunächst ein paar einfache konkrete Situationen:
(a) Einmaliges Werfen eines Würfels. Diese Situation wird komplett beschrieben
durch die Menge der möglichen Ergebnisse {1, 2, 3, 4, 5, 6}, sowie deren Wahrscheinlichkeiten:
Ergebnis
1 2 3 4 5 6
Wahrscheinlichkeit 16 16 16 16 16 16
(b) Zufällige Bruchstelle einer Fahrzeugachse (der Länge 1). Die Menge der möglichen
Bruchstellen kann beschrieben werden durch [0, 1]. Dass die Achse exakt an einer
festen Stelle x ∈ [0, 1] bricht, z.B. x = 0.233517..., ist extrem unwahrscheinlich
(d.h. dies hat Wahrscheinlichkeit 0). Die Angabe der Einzelwahrscheinlichkeiten
ist daher zur Beschreibung der Bruchstelle ungeeignet. Sinnvoll dagegen ist z.B.
die Betrachtung der Wahrscheinlichkeit für einen Bruch in [0, 12 ]. Aus Symmetriegründen würde man hierfür annehmen, dass diese Wahrscheinlichkeit 12 ist.
1.2
Axiomatische Beschreibung
4
(c) Schadensfälle einer Versicherung. Ein mögliches Ergebnis wäre hier z.B. durch
die Angabe der Zeitpunkte aller Schadensfälle bestimmt. Sinnvoll wäre hier z.B.
die Betrachtung der Wahrscheinlichkeit dafür dass in einem gewissen Zeitraum 3
Schadensfälle stattfinden, oder dafür dass zwischen 2. und 3. Schadensfall höchstens 2 Tage liegen.
Diese Beispiele sollen zeigen, dass es zur Beschreibung eines probabilistischen Sachverhalts oft nicht ausreicht, die Wahrscheinlichkeiten aller möglicher Einzelergebnisse zu
betrachten. Stattdessen sollten besser Mengen von Ergebnissen (sogenannte Ereignisse)
betrachtet werden. Im nächsten Abschnitt beschreiben wir zufälliges Verhalten durch
eine Funktion, die jedem Ereignis (das für uns interessant ist) seine entsprechende
Wahrscheinlichkeit zuordnet.
Bemerkung: Die Wahrscheinlichkeitstheorie gibt keine Antwort auf die Frage: Was
ist Zufall? Diese Frage ist Gegenstand der Philosophie (vgl. naive, frequentistische,
subjektive Interpretation). Die Mathematik soll unabhängig von der Interpretation
von Wahrscheinlichkeit funktionieren.
1.2
Axiomatische Beschreibung
Für die Beschreibung einer Situation mit Unsicherheit (=Zufallsexperiment) soll ein
mathematisches Modell verwendet werden, bestehend aus:
• Ω = Menge aller Ergebnisse (d.h. aller möglichen Ausgänge des Experiments).
• F = Menge aller Ereignisse, die wir zur Beschreibung des Experiments verwenden
wollen. Ein Ereignis ist hierbei eine gewisse Menge von Ergebnissen, d.h. eine
Teilmenge von Ω.
• P = Abbildung, die jedem Ereignis eine Wahrscheinlichkeit zuordnet.
Einige Eigenschaften sollten Ω, F, P sinnvollerweise grundsätzlich haben, unabhängig
von der Art des betrachteten Zufallsexperiments. Diese werden in einer axiomatischen
Definition zusammengefasst:
Definition:
• Ein Mengensystem F ⊂ P(Ω) heißt σ-Algebra auf Ω 6= ∅, falls
(S1) Ω ∈ F
(S2) Für jedes A ∈ F ist auch Ac (= Ω − A) ∈ F.
S
(S3) Für beliebige Ai ∈ F, i ∈ I (mit I abzählbar), ist auch i∈I Ai ∈ F.
• Eine Abbildung P : F → [0, 1] heißt Wahrscheinlichkeitsmaß auf (Ω, F) falls:
(P1) P (Ω) = 1
S
P
(P2) Für disjunkte Ai ∈ F, i ∈ I (mit I abzählbar), ist P ( i∈I Ai ) = i∈I P (Ai ).
• Die Menge Ω 6= ∅ heißt Ergebnisraum. Ist F eine σ-Algebra auf Ω, so heißt (Ω, F)
Ereignisraum. Ist P ein Wahrscheinlichkeitsmaß auf (Ω, F ), so heißt (Ω, F, P )
Wahrscheinlichkeitsraum.
1.2
Axiomatische Beschreibung
5
Bemerkung:
• (P1) = Normiertheit (Ω enthält mit Sicherheit alle möglichen Ergebnisse)
(P2) = σ-Additivität (vgl. Massenfunktion)
• Warum statt F nicht einfach ganz P(Ω)?
Dann ist Forderung (P2) zu stark (→ Banach-Tarski-Paradox)
• Warum Abzählbarkeit?
Sonst
S
P Probleme z.B. bei “zufälliger Bruchstelle”:
P ([0, 1]) = P ( x {x}) = x P ({x}) = 0
• Warum nicht einfach nur für endliche I?
Unendliche I nötig für Betrachtung von Grenzprozessen
• (S1) nötig für (P1), (S3) nötig für (P2)
(S2),(S3): Abgeschlossenheitsaxiome: Bestimmte Mengenoperationen auf Ereignissen ergeben wieder Ereignisse
Bemerkung: Alle Mengenoperationen lassen sich auf Komplementbildung
und
S VereiT
c
c c
c
nigung zurückführen, z.B. A ∩ B = (A ∪ B ) , A − B = A ∩ B , i∈I Ai = ( i∈I Aci )c ,
daher gilt für eine σ-Algebra:
• ∅ = Ωc = Ω − Ω ∈ F
• Für A, B ∈ F ist auch A − B ∈ F
• Für Ai ∈ F, i ∈ I (mit I abzählbar) ist auch
T
i∈I
Ai ∈ F
Aus (P1) und (P2) folgen viele weitere Eigenschaften von Wahrscheinlichkeitsmaßen.
Satz: Sei P ein Wahrscheinlichkeitsmaß auf (Ω, F), und seien A, B, Ai ∈ F.
(a) Additivität: A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
insbesondere: P (Ac ) = 1 − P (A)
(b) Monotonie: A ⊂ B ⇒ P (B) = P (A) + P (B − A)
insbesondere: A ⊂ B ⇒ P (A) ≤ P (B)
(c) σ-Stetigkeit:
S
An ↑ A (d.h. A1 ⊂ A2 ⊂ A3 ... mit Tn An = A)
An ↓ A (d.h. A1 ⊃ A2 ⊃ A3 ... mit n An = A)
(d) Ein-/Ausschluß-Formel: P (
n
S
Ai ) =
i=1
d.h. P (A1 ∪ A2 ∪ ... ∪ An ) =
n
P
i=1
n
P
⇒
⇒
(−1)k+1
k=1
P (Ai ) −
P (An ) ↑ P (A)
P (An ) ↓ P (A)
P
J⊂{1,...,n}:|J|=k
P
P(
T
Aj ),
j∈J
P (Ai ∩ A2 ) + ...,
1≤i1 <i2 ≤n
also insbesondere P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beweis:
(a) Additivität folgt aus (P2), mit B := Ac folgt der Rest.
(b), (c): Hausaufgabe, (d) beweisen wir später.
1.3
Wahl des Wahrscheinlichkeitsraums
1.3
6
Wahl des Wahrscheinlichkeitsraums
Bemerkung:
• Vor der Bearbeitung eines Problems sollte immer zuerst das verwendete Modell
angegeben werden, d.h. der zugrundeliegende Wahrscheinlichkeitsraum (Ω, F, P ),
sowie die Interpretation eines Ereignisses x ∈ Ω.
• Die Wahl des Modells kann nicht mathematisch begründet werden (aber manche
Modelle sind plausibler als andere).
• Verschiedene Modelle können zum gleichen Ziel führen.
Der Ergebnisraum Ω sollte alle möglichen Ergebnisse enthalten. Der Grad der Vereinfachung hängt davon ab, an was genau man interessiert ist.
Beispiel: Einmaliges Würfeln. Mögliche Ergebnismengen sind:
(a) Ω = (R3 )N mit N := Anzahl der Atome des Würfels
(x1 , ..., xN ) ∈ Ω: xi := Position des i-ten Atoms nach dem Wurf in R3
Problem: Wahl von P ist kompliziert, die Lage jedes einzelnen Atoms interessiert
normalerweise gar nicht!
(b) Ω = {1, 2, ..., 6, 0} wobei 0 = unklarer Ausgang, z.B. Würfel bleibt auf Kante
stehen. Normalerweise wird 0 einfach ignoriert. Dies führt zu:
(c) Ω = {1, ..., 6}. Hier beschreibt x ∈ Ω die Augenzahl.
(d) Ω = {0, 1} mit 0 = “gerade Augenzahl”, 1 = “ungerade Augenzahl”
Problem: Ereignis “Augenzahl ist 4” kann nicht beschrieben werden!
Bei der Wahl des Ereignisraumes legt man in der Regel zunächst fest, welche Art von
elementaren Ereignissen auf jeden Fall betrachtet werden sollen.
Definition: Für ein gegebenes Mengensystem S ⊂ P(Ω) bezeichne σ(S) die kleinste
σ-Algebra, die S enthält. Ist σ(S) = F, so heißt F die von S erzeugte σ-Algebra, und
S heißt Erzeuger von F.
Bemerkung: Die kleinste σ-Algebra, die S enthält, kann man explizit konstruieren:
Sei F der Durchschnitt aller σ-Algebren, die S enthalten. Dann ist F tatsächlich eine
σ-Algebra, die S enthält, und für jede weitere σ-Algebra F 0 , die S enthält, gilt F 0 ⊃ F.
Beispiel:
• Falls Ω abzählbar ist (z.B. endlich), wählt man in der Regel S = {{ω} : ω ∈ Ω}.
Man erhält dann σ(S) = P(Ω) (denn jede Teilmenge ist abzählbare Vereinigung
von 1-elementigen Mengen).
1.4
Diskrete Wahrscheinlichkeitsmaße
7
• Falls Ω ein topologischer Raum ist (z.B. Rn oder eine Teilmenge davon), wählt
man in der Regel S als das System aller offenen Mengen. Man erhält dann σ(S) =:
BΩ , die sogenannte Borel-σ-Algebra.
Bemerkung:
• Oft ist Ω = R, F = BR =: B. Es gilt B =
6 P(R), aber B enthält alle Mengen, die
man in gewisser Weise “sinnvoll definieren” kann.
• B hat neben der Menge der offenen Mengen noch weitere nützliche Erzeuger, z.B.
S 0 := {(−∞, c] : c ∈ R} oder S 0 := {[a, b] : a ≤ b ∈ R}.
Die Betrachtung von Erzeugern hat einen weiteren Vorteil:
Satz: (Eindeutigkeitssatz.) Seien P1 , P2 Wahrscheinlichkeitsmaße auf (Ω, F), und sei
S ⊂ P(Ω) ∩-stabil (d.h. A, B ∈ S ⇒ A ∩ B ∈ S) mit σ(S) = F. Ist P1 (A) =
P2 (A) ∀A ∈ S, dann gilt bereits P1 (A) = P2 (A) ∀A ∈ F, d.h. ein Wahrscheinlichkeitsmaß ist durch seine Werte auf S bereits eindeutig festgelegt.
Beweis: Maßtheorie.
Beispiel: Sei Ω = N, F = P(N) und P ein Wahrscheinlichkeitsmaß. S = {∅, {1}, {2}, ...}
ist ein ∩-stabiler Erzeuger von F. Dass P durch
seine Werte
S
P auf S eindeutig festgelegt
ist, sieht man hier auch direkt: P (A) = P ( x∈A {x}) = x∈A P ({x}).
Die Wahl eines geeigneten Wahrscheinlichkeitsmaßes ist in der Regel der schwierigste
Teil der Modellbildung. In der Vorlesung betrachten wir meist diskrete oder stetige
Wahrscheinlichkeitsmaße. Wie man diese konstruiert, wird in den nächsten beiden Abschnitten besprochen.
1.4
Diskrete Wahrscheinlichkeitsmaße
Ist Ω abzählbar, kann man ein geeignetes P definieren, indem man die Wahrscheinlichkeit aller Ergebnisse angibt:
Definition: Sei Ω abzählbar.
• Eine Funktion ρ : Ω → [0, 1] mit
P
ρ(x) = 1 heißt Zähldichte.
x∈Ω
• P (A) :=
P
ρ(x) heißt diskretes Wahrscheinlichkeitsmaß mit Zähldichte ρ.
x∈A
Bemerkung: P ist ein Wahrscheinlichkeitsmaß auf (Ω, P(Ω)), denn
(P1) ergibt sich aus Normiertheit,
(P2) aus dem verallgemeinertem Kommutativitätsgesetz
Das wichtigste Beispiel ist die diskrete Gleichverteilung.
1.4
Diskrete Wahrscheinlichkeitsmaße
8
Definition: Sei Ω endlich. Das Wahrscheinlichkeitsmaß auf (Ω, P(Ω)) mit Zähldichte
1
, x ∈ Ω heißt (diskrete) Gleichverteilung auf Ω : UΩ .
ρ(x) := |Ω|
Bemerkung: Ist P = UΩ die Gleichverteilung auf (Ω, P(Ω)), so ist
P (A) =
X
ρ(x) =
x∈A
X 1
|A| # betrachtete Ergebnisse
=
=
b
.
|Ω|
|Ω|
# mögliche Ergebnisse
x∈A
Beispiel: Man wähle rein zufällig eine Zahl aus N = {1, 2, 3, ...}. Mit welcher Wahrscheinlichkeit ist die Zahl gerade? (Vermutete Antwort: 12 .)
Lösung: Wahrscheinlichkeitsraum: Ω = N, F = P(N), A = {2, 4, 6, ...}. Was ist P ?
Wir verfolgen drei Ansätze:
(a) Da die Zahl rein zufällig gewählt werden soll, würden
P wir gerne eine Zähldichte ρ
wählen mit
P ρ(n) = c ≥ 0 konstant. Falls c = 0, so folgt n∈N ρ(n) = 0 6= 1. Falls c > 0,
6 1. In beiden Fällen ergibt sich ein Widerspruch zur
so folgt n∈N ρ(n) = ∞ · c = ∞ =
Normiertheitsbedingung. Wir sehen also, dass es keine Gleichverteilung auf N gibt!
(b) Wir wählen ein großes N und P = U{1,2,...,2N } . Hier gilt wie vermutet P (A) =
1
. (Aber die zufällige Zahl ist hier immer ≤ 2N .)
2
N
2N
=
(c) Wir wählen P mit Zähldichte ρ so dass ρ(n + 1) = 12 ρ(n) ∀n ∈ N. (Diese Wahl ist
1
1
natürlich etwas beliebig.) Es giltP
dann ρ(n) = P
ρ(n − 1) = . . . = 2n−1
ρ(1)∀n ∈ N, und
2
1
1
aus der Normiertheit folgt 1 = n∈N ρ(n) = n∈N 2n−1 ρ(1) = 1− 1 ρ(1) = 2ρ(1), d.h.
ρ(1) =
1
2
und somit ρ(n) =
P (A) =
X
n∈A
1
.
2n
2
Hieraus ergibt sich
ρ(n) =
X 1
X 1
1
=
=
2m
m
2
4
1−
m∈N
m∈N
1
4
1
−1= .
3
Wir stellen fest: Die Aufgabe ist schlecht gestellt. Es ist nicht klar, was “rein zufällig
in N” bedeutet.
Bemerkung: Die Formel P (A) = |A|
sieht leicht aus, aber es kann ziemlich schwierig
|Ω|
sein, die Anzahl der Elemente einer Menge richtig zu zählen!
Beispiel: Es wird drei mal gewürfelt. Bestimmen Sie die Wahrscheinlichkeiten der
Ereignisse A = “Summe = 5”, B = “6 dabei”, C = “jeder Wert mehr als vorher”.
Lösung: Wahrscheinlichkeitsraum: Ω = {1, ..., 6}3 = {(x1 , x2 , x3 ) : xi ∈ {1, ..., 6}}
(mit xi = Ergebnis im i-ten Wurf), F = P(Ω), P = UΩ . Es gilt |Ω| = 216.
(a) A = {(1, 2, 2), (2, 1, 2), (2, 2, 1), (1, 1, 3), (1, 3, 1), (3, 1, 1)}. Wir erhalten |A| = 6 und
6
1
somit P (A) = 216
= 36
.
(b) B = B1 ∪ B2 ∪ B3 wobei Bi = {(x1 , x2 , x3 ) ∈ Ω : xi = 6}. Wir versuchen zunächst
|B| = |B1 | + |B2 | + |B3 | = 3 · 36. Dies ist aber falsch, denn die Bi sind nicht disjunkt!
1.4
Diskrete Wahrscheinlichkeitsmaße
9
Das Ergebnis (6, 2, 6) wurde z.B. doppelt gezählt. Ein richtiges Ergebnis erhält man
mit der Einschluss-Ausschluss-Formel:
P (B) =
3
X
P (Bi ) −
i=1
X
P (Bi ∩ Bj ) + P (B1 ∩ B2 ∩ B3 ) = 3 ·
1≤i≤j≤3
Einfacher ist: P (B) = 1 − P (B c ) = 1 − ( 56 )3 .
(c) C = {(x1 , x2 , x3 ) ∈ Ω : x1 < x2 < x3 }, also |C| =
6
3
1
1
1
− 3 · 2 + 3.
6
6
6
= 5 · 4 und P (C) =
5·4
.
63
Beispiel: Poker wird mit 4 × 13 = 52 Karten gespielt. Eine Poker-Hand besteht aus 5
Karten. Man bestimme die Wahrscheinlichkeit dafür, folgendes Blatt zu erhalten:
(a) einen Zwilling (aber nichts besseres) (b) zwei Zwillinge (aber nichts besseres)
Lösung: Ω =Menge
aller Kombinationen von 5 aus 52 Karten, F = P(Ω), P = UΩ .
4 12 3
(a) |A| = 13 2 3 4 . (Wähle zuerst Wert für den Zwilling, und 2 entsprechende Karten, dann drei weitere Werte und je eine Karte.) Es folgt P (A) ≈ 42.3%.
42
(b) |B| = 13
· 11 · 4. (Wähle zuerst zwei Werte und je zwei Karten, dann einen
2
2
weiteren Wert und eine Karte.) Es folgt P (B) ≈ 4.8%.
Beispiel: n Bosonen (z.B. H2 - Atome) werden auf N Zellen (des Ort-/Impulsraumes)
verteilt. Wie hoch ist die Wahrscheinlichkeit, dass keine Zelle doppelt besetzt ist?
Lösung: Wir verfolgen zwei verschiedene Lösungsansätze:
(1) Wir setzen Ω = {1, ....., N }n , F = P(Ω), P = UΩ . Für x ∈ Ω bezeichne xi die Zelle
für Teilchen i. Das Ereignis ist dann A = {(x1 , ....., xn ) : xi alle verschieden}, und es
gilt
N · (N − 1) · ... · (N − n + 1)
N!
1
|A|
=
=
.
P (A) =
n
|Ω|
N
(N − n)! N n
(2) Wir setzem Ω = {(k1 , ...., kN ) ∈ ZN : ki ≥ 0, k1 +....+kN = n}, F = P(Ω), P = UΩ .
Für k ∈ Ω bezeichne ki die Anzahl von Teilchen in Zelle i. Das Ereignis ist dann
A = {k ∈ Ω : ki ∈ {0, 1}}. Es gilt |A| = Nn . (Wähle n der Zellen zur Besetzung.) Für
|Ω| verwenden wir einen Trick: Wir beschreiben das Ergebnis k1 = 3, k2 = 2, k3 = 0.....
durch: ooo|oo||o|oo|....|o.
(o sind die n Teilchen, | sind N − 1 Zellwände). Es ist dann
|Ω| = n+Nn −1 . (Wähle n von (n + N − 1) Plätzen für die Teilchen.) Es folgt
P (A) =
|A|
N!
1
=
·
.
|Ω|
(N − n)! N · (N + 1) · .... · (N + n − 1)
Die Ergebnisse sind je nach Wahl des Modells verschieden. In physikalischen Experimenten zeigt sich, dass das Modell (b) die Realität besser beschreibt. (Bosonen sind
nicht unterscheidbar, und in (b) haben wir die Gleichverteilung auf Konfigurationen
von nicht unterscheidbarer Teilchen.)
1.5
Stetige Wahrscheinlichkeitsmaße
1.5
10
Stetige Wahrscheinlichkeitsmaße
Interpretiert man P als Massenverteilung ergibt sich folgendes Bild:
• Ist Ω abzählbar, so sitzt die Masse in abzählbar vielen Punkten: “Massenpunkte”
• Ist dagegen Ω = Rn , so ist die Masse über ganz Ω verschmiert: “Massendichte”
Definition: f : Rn → R heißt (Borel-) messbar, falls f −1 (A) ∈ BRn für alle A ∈ B.
Bemerkung:
• “Praktisch alle interessanten Funktionen” sind messbar
(→ Maßtheorie), z.B.
(
1 für x ∈ A
mit A ∈ BR .
stetige Funktionen oder Indikatorfunktion: 1A (x) :=
0 für x ∈
/A
• Für
Funktionen
f≥
R messbare
R
R 0 existiertRdas Lebesgue-Integral (→ Maßtheorie):
f (x)dλn (x) = f (x)dx = dxf (x) = dx1 ...dxn f (x1 , ..., xn ).
• Ist f ≥ 0 Riemann-integrierbar, so ist f messbar, und das Lebesgue-Integral ist
gleich dem Riemann-Integral.
R
• 1A (x)dλn (x) = λn (A). λn ist das sogenannte Lebesguemaß. λ1 ist die Länge, λ2
die Fläche, λ3 das Volumen.
Definition:
R
• Eine messbare Funktion f : Rn → [0, ∞) mit f (x)dx = 1 (Normierung) heißt
Dichtefunktion (auf Rm ).
R
R
• P (A) := A f (x)dx = f (x)1A (x)dx heißt stetiges Wahrscheinlichkeitsmaß
mit Dichtefunktion f .
Bemerkung: RP ist tatsächlich ein Wahrscheinlichkeitsmaß auf (Rn , BRn ):
(P1) P (Rn ) = f (x)dx = 1 wegen Normierung.
(P2) folgt aus den Eigenschaften des Lebesgue-Integrals.
Bemerkung: f (x) ist ein gewisses MaßRdafür, wie wahrscheinlich
der Punkt x ist.
Rx
Aber f (x) 6= P ({x}), sondern: P ({x}) = {x} f (y)dy = x f (y)dy = 0.
Auch hier ist das wichtigste Beispiel die Gleichverteilung.
Definition: Sei S ∈ BRn mit 0 < λn (S) < ∞. Das Maß mit Dichtefunktion f (x) =
c · 1S (x) = λn1(S) 1S (x) heißt (stetige) Gleichverteilung auf S: US .
Bemerkung: Ist P = US , so sind alle x ∈ S “gleichwahrscheinlich” und es gilt:
Z
Z
1
λn (A)
“Volumen von A00
∀A ∈ BS : P (A) =
f (x)dx =
1
(x)dx
=
=
.
A
λn (S)
λn (S)
“Volumen von S 00
A
1.5
Stetige Wahrscheinlichkeitsmaße
11
Beispiel: Romeo und Julia treffen sich heimlich. Beide haben eine Verspätung von
zwischen 0-1 Stunde. Muss einer auf den anderen länger als 1/4 Stunde warten, begeht
er Selbstmord. Bestimme die Wahrscheilichkeit für ein “glückliches Ende”!
Lösung: Wir setzen Ω = [0, 1]2 , F = BΩ , P = UΩ . Für t ∈ Ω sei t1 die Verspätung
von Romeo und t2 die Verspätung von Julia. Das betrachtete Ereignis ist dann A :=
{(t1 , t2 ) : |t1 − t2 | ≤ 41 }, d.h. ein Quadrat weniger zweier Dreiecke. Ω ist ein Quadrat
mit Fläche λ2 (Ω) = 1. Es folgt
λ2 (A)
1
3
3
7
= λ2 (A) = 1 − · 2 · ( )2 = 1 − ( )2 = .
2
λ (Ω)
2
4
4
16
R
Alternativ (aber schwieriger) kann man P (A) = 1A (x)dx auch berechnen durch
P (A) =
Z
Z
dx1
Z
1
4
Z
dx1
dx2 1A (x) =
0
1
+x1
4
3
4
Z
dx2 +
0
Z
1
+x1
4
dx1
1
4
1
Z
dx2 +
− 14 +x1
Z
1
dx1
3
4
dx2 =
− 14 +x1
7
.
16
Beispiel: (Bertrandsches Paradox.) In einem Kreis mit Radius 1 wird zufällig eine
Sehne gezogen. Mit welcher Wahrscheinlichkeit ist diese länger als die Seite des einbeschriebenen gleichseitigen Dreiecks?
Lösung: Wir beschreiben drei Lösungsvarianten:
(1) Wir beschreiben die Sehne durch ihren Mittelpunkt. Ω = {(x, y) : x2 + y 2 ≤ 1},
F = BΩ , P = UΩ . Das Ereignis A wird dann gerade durch den Inkreis des Dreiecks
2
( 12 )2 π
beschrieben (Radius 12 ). Es folgt P (A) = λλ2 (A)
=
= 14 .
(Ω)
12 π
(2) Wir beschreiben die Sehne durch ihren Mittelpunktswinkel. Ω = (0, π), F = BΩ , P =
π
1
3
UΩ . Das Ereignis ist dann A = ( 23 π, π), also P (A) = λλ1 (A)
=
= 13 .
(Ω)
π
(3) Wir beschreiben die Sehne durch ihren Abstand zum Mittelpunkt. Ω = [0, 1], F =
1
BΩ , P = UΩ . Das Ereignis ist dann A = [0, 12 ], also P (A) = λλ1 (A)
= 12 .
(Ω)
Dass man verschiedene Antworten erhält erscheint paradox, ist es aber nicht. Es kommt
eben darauf an, wie genau der Zufallsmechanismus aussieht, mit dem die Kante gewählt
wird. “Rein zufälliges” ziehen einer Sehne lässt verschiedene Interpretationen zu.
Bemerkung: Man kann auch Zufallsexperimente betrachten, die stetige und diskrete
Anteile haben. Ist zum Beispiel Ω = {(x1 , x2 ) : x1 ∈ N, x2 ∈P
R} =
R N×R und F = BΩ , so
kann ein Wahrscheinlichkeitsmaß definieren durch
R = x1 dx2 f (x1 , x2 )1A (x1 , x2 )
PP (A)
mit f : N × R → [0, ∞) messbar und normiert: x1 dx2 f (x1 , x2 ) = 1.
1.6
Verteilungsfunktion
1.6
12
Verteilungsfunktion
S = {(−∞, c] : c ∈ R} ist ein ∩-stabiler Erzeuger von B, daher ist nach dem Eindeutigkeitssatz jedes Wahrscheinlichkeitsmaß P auf (R, B) schon durch seine Werte
P ((−∞, c]) eindeutig festgelegt. Dies gibt Anlass zu folgender Definition:
Definition: Die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R, B)
ist die Funktion
F : R → [0, 1],
F (c) := P ((−∞, c]).
Bemerkung:
P
• Ist P diskret mit Dichte ρ(x), x ∈ S, so ist F (c) = x∈S:x≤c ρ(x).
Rc
• Ist P stetig mit Dichte f (x), so ist F (c) = −∞ f (x)dx.
Wir verwenden im Folgenden eine Kurzschreibweisen für Limiten:
F (c−) := lim F (x), F (c+) := lim F (x), F (∞) := lim F (x), F (−∞) := lim F (x).
x→c−
x→c+
x→∞
x→−∞
Lemma: Sei F die Verteilungsfunktion von P . Dann ist F (c−) = P ((−∞, c)).
Beweis: Sei cn ↑ c dann ist F (c−) = limn F (cn ) = limn P ((−∞, cn ]) = P ((−∞, c)),
denn (−∞, cn ] ↑ (−∞, c).
Hieraus folgt insbesondere, dass ich die Wahrscheinlichkeiten aller Intervalle leicht
durch F ausdrücken lassen, z.B. P ([a, b]) = P ((−∞, b]) − P ((−∞, a)) = F (b) − F (a−).
Der folgende Satz liefert ein einfaches Kriterium, welche Funktionen Verteilungsfunktionen sind:
Satz: Eine Funktion F : R → [0, 1] ist genau dann eine Verteilungsfunktion, wenn gilt:
(i) F ist monoton wachsend (d.h. c1 ≤ c2 ⇒ F (c1 ) ≤ F (c2 )).
(ii) F ist rechtsstetig (d.h. F (c+) = F (c)).
(iii) F (∞) = 1, F (−∞) = 0.
Beweis: Für eine Verteilungsfunktion sind die Eigenschaften (i), (ii), (iii) leicht nachzuweisen (Hausaufgabe). Jedes F mit den Eigenschaften (i), (ii), (iii) ist eine Verteilungfunktion (nächstes Kapitel).
Es ergibt sich also, dass die Wahrscheinlichkeitsmaße auf (R,B) eindeutig den Funktionen F : R → [0, 1] mit den Eigenschaften (i), (ii), (iii) entsprechen: Für jedes P
hat die Verteilungsfunktion die entsprechenden Eigenschaften, und für jede Funktion
mit diesen Eigenschaften gibt es ein passendes Wahrscheinlichkeitsmaß P . In wichtigen
Fällen, lässt sich P sogar explizit aus F bestimmen:
1.6
Verteilungsfunktion
13
Satz: Sei F die Verteilungsfunktion von P und sei S ⊂ R diskret (d.h. eine abzählbare
Menge ohne Häufungspunkte).
(a) P ist diskretes Wahrscheinlichkeitsmaß auf S ⇔
F ist stückweise konstant mit Sprungstellen höchstens in S.
In diesem Fall gilt ρ(x) = F (x) − F (x−) für x ∈ S.
(b) P ist stetig mit Dichte f , so dass f stetig auf R − S
F ist stetig auf R und stetig diffbar auf R − S.
In diesem Fall gilt f (x) = F 0 (x) für x ∈ R − S.
⇔
Beweis:
P
(a) Sei P diskret mit Dichte ρ(x), x ∈ S, dann ist F (c) = x∈S:x≤c ρ(x) stückweise
konstant mit Sprungstellen höchstens in S und Sprunghöhen F (x) − F (x−) = ρ(x). Ist
umgekehrt F stückweise konstant mit Sprungstellen höchstens in S und sei P ∗ diskret
mit Dichte ρ∗ (x) := F (x)−F (x−), dann folgt wie eben, dass F ∗ stückweise konstant ist
mit Sprungstellen höchstens in S und Sprunghöhen ρ∗ (x). Also haben F, F ∗ dieselben
Sprungstellen und Sprunghöhen, d.h. F = F ∗ und somit P = P ∗ .
(b) Sei P stetig mit Dichte f , so dass f stetig ist auf R − S. Es gilt
Z
x+h
F (x + h) − F (x) = P ((x, x + h]) =
Z
x
f (y)dy →
x
f (y) = 0
für h → 0,
x
mit monotoner Konvergenz (Maßtheorie!), d.h. F ist stetig. Ferner ist für x ∈
/S
1
1
(F (x + h) − F (x)) =
h
h
Z
x+h
f (y)dy → f (x)
für h → 0,
x
d.h. F 0 (x) = f (x) und insbesondere ist F stetig diffbar auf R − S. Ist umgekehrt F
stetig und stetig diffbar auf R − S und sei P ∗ stetig mit Dichte f ∗ (x) = F 0 (x) für
x ∈ R − S, dann folgt wie eben, dass F ∗ stetig ist und stetig diffbar auf R − S mit
(F ∗ )0 = f ∗ = F 0 . Hieraus folgt F = F ∗ und somit P = P ∗ .
Bemerkung:
• Teil (b) ist wichtig zur Bestimmung von Dichten
• Es gilt nicht: P stetig ⇔ F stetig
• Es gibt Wahrscheinlichkeitsmaße auf (R, B), die weder diskret noch stetig sind.
Analog kann man eine mehrdimensionale Verteilungsfunktion für ein Wahrscheinlichkeitsmaß P auf (Rn , BRn ) definieren: FP (c1 , ..., cn ) = P ((−∞, c1 ] × ... × (−∞, cn ]).
Diese Funktion hat ähnliche Eigenschaften wie im 1-dimensionalen, insbesondere folgende, die man zur Berechnung von Dichten verwenden kann: Ist F stetig, “stückweise”
stetig diffbar, so ist P stetig mit Dichte f (x1 , ..., xn ) = ∂x∂ 1 ... ∂x∂n F (x1 , ..., xn ).
2 Zufallsvariablen
2
14
Zufallsvariablen
2.1
Verteilung einer Zufallsvariable
Manchmal interessiert bei einem Zufallsexperiment (Ω, F, P ) nicht genau das Ergebnis
ω ∈ Ω, sondern eine Eigenschaft des Ergebnisses: X(ω).
Definition: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und (Ω0 , F 0 ) ein Ereignisraum.
• Eine Abbildung X : Ω → Ω0 heißt (Ω0 -wertige) Zufallsvariable (ZVe), falls
{X ∈ A0 } := X −1 A0 = {ω ∈ Ω : X(ω) ∈ A0 } ∈ F
∀A0 ∈ F 0 (∗)
• Für A0 ∈ F 0 sei P 0 (A0 ) := P ({X ∈ A0 }). P 0 heißt die Verteilung von X. Man
schreibt dann X ∼ P 0 oder P 0 = P ◦ X −1 .
Lemma: Die Verteilung P 0 einer ZVe X ist ein Wahrscheinlichkeitsmaß auf (Ω0 , F 0 ).
Beweis: P 0 : F 0 → [0, 1] ist wohldefiniert (da X ZVe ist) und erfüllt die Axiome:
(P1) P 0 (Ω0 ) = P (X ∈ Ω0 ) = P (Ω) = 1
(P2) Seien
abzählbar).
Es gilt dann
P
P 0
S
S (I
S Ai0, i ∈ I disjunkt
0
0
P (X ∈ Ai ) =
P (Ai ).
Ai ) = P ( {X ∈ A0i }) =
P ( Ai ) = P (X ∈
i∈I
i∈I
i∈I
i∈I
i∈I
Bemerkung:
• Formal ist X eine Funktion Ω → Ω0 , und ω ∈ Ω wird zufällig gemäß P gewählt.
Wird ω zufällig gewählt, ist auch der Wert X(ω) zufällig. Daher kann man sich
X vorstellen als eine Größe mit zufälligem Wert, z.B. eine zufällige reelle Zahl.
Die Verteilung P ◦ X −1 beschreibt das gesamte zufällige Verhalten von X.
• Für Ereignisse, die das Verhalten von X betreffen, verwenden wir eine Kurzschreibweise, z.B.:
{X ∈ A} := {ω ∈ Ω : X(ω) ∈ A} ist das Ereignis, dass X einen Wert in A hat.
{X ≤ c} := {ω ∈ Ω : X(ω) ≤ c} ist das Ereignis, dass X einen Wert ≤ c hat.
• Die definierende Eigenschaft (*) einer ZVe, prüfen wir hier in der Regel nicht
nach. Diese Eigenschaft ist in allen Beispielen der Vorlesung automatisch erfüllt.
• Spezialfall: Ist Ω0 = R, so heißt X eine reelle Zufallsvariable.
Bemerkung: Jede Eigenschaft eines Wahrscheinlichkeitsmaßes kann auf eine ZVe X
übertragen werden (mittels der Verteilung von X), z.B.:
• X heißt diskret, falls P ◦ X −1 diskret ist, d.h. falls es eine Zähldichte ρ(x) auf
einer abzählbaren Teilmenge S ⊂ Ω0 gibt, so dass
P (X = x) = P 0 ({x}) = ρ(x) ∀x ∈ S.
2.1
Verteilung einer Zufallsvariable
15
• X heißt stetig, falls P ◦ X −1 stetig ist, d.h. falls es eine Dichte f (x) gibt, so dass
Z
0
P (X ∈ A) = P (A) = f (x)dx ∀A ∈ F 0 .
A
• Die Verteilungsfunktion von X ist die Verteilungsfunktion von P ◦ X −1 , d.h.
FX (c) = P ◦ X −1 ((−∞, c]) = P (X ∈ (−∞, c]) = P (X ≤ c).
Beispiel: Zwei Würfel werden geworfen. Man bestimme die Verteilung der Summe der
Augenzahlen und die Wahrscheinlichkeit dafür, dass die Summe zwischen 5 und 8 liegt.
Lösung: Wir wählen Ω = {1, ...., 6}2 , F = P(Ω), P = UΩ . Die Summe Z kann im
Modell definiert werden durch Z : Ω → R, Z(i, j) = i + j. Die Menge S der mögliche
Werte von Z ist abzählbar: S = {2, 3, ..., 12}. Daher ist Z eine diskrete Zufallsvariable.
Die Zähldichte berechnet man durch ρ(k) = P (Z = k), k ∈ S, z.B:
1
2
P (Z = 2) = P ({(1, 1)}) = 36
, P (Z = 3) = P ({(1, 2), (2, 1)}) = 36
. Man erhält somit
k
ρ(k)
2
3
4
5
6
7
8
9
10 11 12
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
Für die Berechnung der Wahrscheinlichkeit gibt es zwei Möglichkeiten. Entweder man
verwendet P und die Definition von Z
P (5 ≤ Z ≤ 8) = P ({(i, j) : 5 ≤ i + j ≤ 8}) = P ({(1, 4), ..., (6, 2)}) =
20
,
36
oder man verwendet die Verteilung von Z, d.h. die Zähldichte ρ
P (5 ≤ Z ≤ 8) = P (Z ∈ {5, 6, 7, 8}) =
8
X
ρ(k) =
k=5
4+5+6+5
20
= .
36
36
Beispiel: Eine Lampe im Abstand L vom Boden eines Zimmers strahlt gleichmässig
in alle Richtungen. Um die Leuchtintensität am Boden zu bestimmen, betrachten wir
ein Photon, das von der Lampe in einer zufälligen Richtung ausgesandt wird. Sei X der
Auftreffort des Photons am Boden. Wir nehmen an, dass die gesuchte Leuchtintensität
der Dichte von X entspricht.
Lösung: Sei Ω = (− π2 , π2 ) (θ ∈ Ω sei der Ausfallwinkel), F = BΩ , P = UΩ . Der
Auftreffort kann beschrieben werden durch X : Ω → R, X(θ) = L tan(θ). X hat
beliebige Werte in R und für c ∈ R ist
FX (c) = P (X ≤ c) = P ({θ ∈ Ω : L tan(θ) ≤ c}) = P
also fX (c) = FX0 (c) =
1
π
·
1
2
1+ c 2
L
·
1
L
=
1
πL
·
1
2
1+ c 2
L
.
π
c tan−1 ( Lc ) + π2
− , tan−1 ( ) =
,
2
L
π
2.1
Verteilung einer Zufallsvariable
16
Betrachtet man mehrere (reelle) ZVen X1 , ..., Xn , so kann man die Xi als Komponenten
eines zufälligen Vektors X betrachten: X : Ω → Rn , X = (X1 , ..., Xn ). P ◦ X −1
heißt dann gemeinsame Verteilung der Xi . Die gemeinsame Verteilung beschreibt
das gemeinsame zufällige Verhalten aller ZVen. Das gemeinsame Verhalten beinhaltet
natürliche insbesondere das Verhalten der einzelnen ZVen:
Lemma: Bestimmung der Einzelverteilungen aus der gemeinsamen Verteilung.
(a) Sind X1 , .., Xn diskret mit gemeinsamer
Zähldichte ρ(x1 , ..., xn ), so ist auch X1
P
diskret mit Zähldichte ρ1 (x1 ) = x2 ....xn ρ(x1 , ..., xn ).
(b) Sind X1 , .., Xn stetigRmit gemeinsamer
Dichte f (x1 , .., xn ), so ist auch X1 stetig
R
mit Dichte f1 (x1 ) = dx2 .... dxn f (x1 , ....xn ).
Beweis: (a) funktioniert analog zu (b), und für (b) berechnet man für A ∈ B:
Z
n−1
P (X1 ∈ A) = P ((X1 , .., Xn ) ∈ A × R ) =
dx1 ...dxn f (x1 , ..., xn )
A×Rn−1
Z
Z
Z
Z
=
dx1 dx2 ... dxn f (x1 , ..., xn ) =
dx1 f1 (x1 ).
A
A
Beispiel: Ein Punkt im Einheitskreis wird rein zufällig gewählt. Man bestimme die
gemeinsame Verteilung des Abstands zum Mittelpunkt und des Winkels mit der xAchse, und berechne daraus die Einzelverteilungen.
Lösung: Ω = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}, F = BΩ , P = UΩ . Die betrachteten Größen
sind die ZVen R : Ω → [0, 1] und Φ : Ω → [0, 2π), deren Werte R(x, y) und Φ(x, y)
eindeutig durch (x, y) bestimmt sind gemäß x + iy = reiϕ . Für a ∈ [0, 1], b ∈ [0, 2π) ist
b
a2 π · 2π
b
= a2
FR,Φ (a, b) = P (R ≤ a, Φ ≤ b) =
2
1π
2π
(Fläche eines Kreissegments).
1
Die gemeinsame Dichte ist also fR,Φ (a, b) = ∂a∂bFR,Φ (a, b) = 2a 2π
, (a, b) ∈ [0, 1] ×
[0, 2π). Die
sich aus obigem Lemma durch Integration:
Es ist
R Einzeldichten ergeben
R 2π
R
1
f (r) = dϕfR,Φ (r, ϕ) = 0 dϕ2r 2π = 2r, r ∈ [0, 1] und fΦ (ϕ) = drfR,Φ (r, ϕ) =
RR1
1
dr2r 2π
= π1 , d.h. der Winkel ist gleichverteilt (wie zu erwarten).
0
Bemerkung: Interessieren bei einem Zufallsexperiment nur die Größen X1 , ..., Xn hat
man bei der Modellierung zwei Möglichkeiten:
1. Man definiert (Ω, F, P ) und X1 , ..., Xn als Funktionen auf Ω.
2. Man definiert die gemeinsame Verteilung P 0 von X1 , ..., Xn .
Die Wahrscheinlichkeit, dass die ZVen Werte in A ∈ BRn annehmen, ist in beiden Fällen
bestimmbar: P ((X1 , ..., Xn ) ∈ A) = P 0 (A) .
2.2
Simulation von Zufallsvariablen
2.2
17
Simulation von Zufallsvariablen
Aus Kapitel 1.6 ist noch nachzutragen, dass zu einer Funktion mit den Eigenschaften
(i)-(iii) immer ein zugehöriges Wahrscheinlichkeitsmaß existiert. Dieses Wahrscheinlichkeitsmaß erhält man am einfachsten als Verteilung einer geeignet definierten ZVe,
der sogenannten Quantil-Transformation.
Satz: Sei F : R → [0, 1] monoton wachsend, rechtsstetig und F (∞) = 1, F (−∞) = 0.
Sei (Ω, F, P ) = ((0, 1), B(0,1) , U(0,1) ) und X : (0, 1) → R die “linksstetige Umkehrfunktion” von F , d.h.
X(w) = inf{c ∈ R : F (c) > w}.
Dann ist FX = F , d.h. F ist die Verteilungsfunktion von P ◦ X −1 .
Beweis: Es gilt F (c) ≥ w genau dann, wenn X(w) ≤ c. Somit ist
FX (c) = P (X ≤ c) = P ({w ∈ Ω : X(w) ≤ c}) = P ({w ∈ Ω : F (c) > ω}) = F (c).
Bemerkung: Ist F explizit berechenbar und hat man einen U(0,1) Zufallsgenerator (wie
er in jedem Taschenrechner eingebaut ist), so kann der Satz dazu verwendet werden,
um eine Zufallsvariable X mit der vorgegebenen Verteilung zu simulieren, d.h. einen
zufälligen Wert zu erzeugen, der gemäß der Verteilungsfunktion F verteilt ist.
Beispiel: Die Exponentialverteilung ist stetig mit Dichte f (x) = e−x , x > 0. Wie kann
man einen zufällige exponentialverteilte Zahl erzeugen?
Lösung: Zunächst bestimmt
R c man die Verteilungsfunktion: Für c ≤ 0 ist F (c) = 0
und für c ≥ 0 ist F (c) = −∞ e−x dx = 1 − e−c . Die linksstetigen Umkehrfunktion
X(ω) = F −1 (ω) aus dem Satz erhält man durch Umformung:
1 − e−c = ω
⇔
1 − ω = e−c
⇔
c = − ln(1 − ω).
Zur Erzeugung der gewünschten Zahl kann man dann so vorgehen:
• Erzeuge ω ∈ (0, 1) mit U(0,1) .
• X(ω) = − ln(1 − w) ist die gesuchte Zahl.
2.3
Transformation von Zufallsvariablen:
2.3
18
Transformation von Zufallsvariablen:
Transformationen von ZVen kann man einfach punktweise definieren, z.B.:
• Sind X, Y : Ω → R ZVen, so ist X + Y : Ω → R, (X + Y )(ω) := X(ω) + Y (ω).
• Ist X : Ω → Ω0 eine ZVe und g : Ω0 → Ω00 messbar, so ist g(X) : Ω → Ω00 ,
g(X)(ω) := g(X(ω)).
Bemerkung: Man interpretiert X + Y als Summe der beiden zufälligen Werte X, Y
und g(X) als Funktionswert des zufälligen Wertes X. Man kann zeigen, dass X + Y
und g(X) wieder ZVen sind.
Wir betrachten nun folgendes Problem: Gegeben ist eine ZVe mit bekannter Verteilung.
Man bestimme die Verteilung einer gewissen Transformation dieser ZVe.
Beispiel: (X, Y ) sei gleichverteilt auf {−1, 0, 1}2 . Was ist die Verteilung von Z = XY ?
Lösung:
X, Y haben die gemeinsame Zähldichte ρ(x, y) = 91 für alle −1 ≤ x, y ≤ 1. Z = g(X, Y )
mit g : R2 → R, g(x, y) = xy. Die möglichen Werte von Z sind {−1, 0, 1}, und die
Zähldichte ρZ erhält man durch aufsummieren, z.B.
2
ρZ (−1) = P (Z = −1) = P ((X, Y ) ∈ {(1, −1), (−1, 1)}) = ρ(1, −1) + ρ(−1, 1) = .
9
Analog erhält man ρZ (1) =
2
9
und ρZ (0) = 95 .
Beispiel: Sei X gleichverteilt auf [−2, 2]. Man bestimme die Verteilung von Y = X 2 .
Lösung: Die möglichen Werte von Y sind [0, 4]. Für c ∈ [0, 4] ist
√
√
Z √c
√
√
2 c
c
2
FY (c) = P (Y ≤ c) = P (X ≤ c) = P (− c ≤ X ≤ c) = √ f (x)dx =
=
,
4
2
− c
also fY (c) = FY0 (c) =
1
√
,
4 c
d.h. fY (y) =
1
√
1
4 y {0≤y≤4}
bzw. fY (y) =
1
√
,
4 y
0 ≤ y ≤ 4.
Beispiel: Sei X stetig mit Dichte f . Man bestimme die Dichte von Y = X 2 .
Lösung: Y kann nur nichtnegative Werte annehmen, und für c ≥ 0 ist
Z √c
√
√
FY (c) = √ f (x)dx = FX ( c) − FX (− c).
− c
Das Integral kann zwar nicht weiter vereinfacht werden, aber die Ableitung davon kann
man bestimmen:
√
√
√
√
1
1
1
fY (c) = FY0 (c) = FX0 ( c) · √ + FX0 (− c) · √ = √ (f ( c) + f (− c)).
2 c
2 c
2 c
2.3
Transformation von Zufallsvariablen:
19
Beispiel: X, Y haben die gemeinsame Dichte f (x, y) = 21 xy 2 · e−x−y , x, y ≥ 0. Man
X
bestimme die gemeinsame Verteilung von U = X + Y, V = X+Y
.
x
Lösung: (U, V ) = g(X, Y ) = (u(X, Y ), v(X, Y )) mit u(x, y) = x + y, v(x, y) = x+y
.
2
g : (0, ∞) → (0, ∞) × (0, 1) ist bijektiv mit Umkehrfunktion: x = uv = x(u, v), y =
u − uv = y(u, v). Nun gibt es zwei Möglichkeiten fortzufahren:
(1) Integration bezüglich dxdy:
X
≤ b) =
FU,V (a, b) = P (U ≤ a, V ≤ b) = P (X + Y ≤ a,
X +Y
Z
f (x, y)dxdy = (∗)
A
x
mit A = {(x, y) ∈ [0, ∞)2 : x + y ≤ a, x+y
≤ b}. Um A auf dxdy aufteilen zu können,
x
= b,
macht man eine Skizze und bestimmt den Schnittpunkt der Kurven x + y = a, x+y
1
d.h. y = a − x, y = ( b − 1)x. Dieser hat die Korrdinaten (c, d) mit c = ab, d = a − ab.
R c R a−x
Es folgt (∗) = 0 dx ( 1 −1)x dy 12 xy 2 e−x−y . Dieses Integral kann nun berechnet werden,
b
und hieraus ergibt sich fU,V (a, b) = ∂U ∂V FU,V (a, b) für (a, b) ∈ (0, ∞) × (0, 1).
(2) Integration bezüglich dudv: g ist ein Diffeomorphismus (g bijektiv, g, g −1 stetig
diffbar). Will man (∗) durch Integration über dudv berechnen benötigt man die JacobiMatrix von g bzw. g −1 : Formal gilt
∂u ∂u d(u, v)
d(u, v)
∂x
∂y
dxdy, wobei
:= | det Dg(x, y)| mit Dg =
, bzw.
dudv =
∂v
∂v
d(x, y)
d(x, y)
∂x
∂y
∂x ∂x d(x, y)
d(x, y)
−1
−1
∂u
∂v
dxdy =
dudv, wobei
:= | det Dg (u, v)| mit Dg =
.
∂y
∂y
d(u, v)
d(u, v)
∂u
∂v
Für beliebiges A ∈ BR2 ist dann
P ((U, V ) ∈ A) = P (g(X, Y ) ∈ A) = P ((X, Y ) ∈ g −1 A)
Z
Z
d(x, y)
dudv
dxdyf (x, y) =
f (x(u, v), y(u, v)),
=
d(u, v)
g −1 (A)
A
d.h. die gemeinsame Dichte von U, V ist dann
fU,V (u, v) =
d(x, y)
f (x(u, v), y(u, v)).
d(u, v)
In unserem Beispiel ist x = uv, y = u − uv und damit
d(x, y) v
u
= det
= |v · (−u) − u · (1 − v)| = | − u| = u
1
−
v
−u
d(u, v)
und
1
1
f (x(u, v), y(u, v)) = (uv)(u − uv)2 e−u = (1 − v)2 u3 e−u ,
2
2
1
also fU,V (u, v) = 2 (1 − v)2 u4 e−u , (u, v) ∈ (0, ∞) × (0, 1).
Dies funktioniert ganz allgemein, solange g ein Diffeomorphismus ist:
2.3
Transformation von Zufallsvariablen:
20
Satz: Sei X eine Rn -wertige Zufallsvariable mit Dichte f , und sei g : M → N ein
Diffeomorphismus (M, N ⊂ Rn offen, g, g −1 stetig differenzierbar) mit P (X ∈ M ) = 1.
Dann ist Y = g(X) stetig mit Dichte
fY (y) = | det Dg −1 (y)|fX (g −1 (y)), y ∈ N.
Beweis: Wie im Beispiel vorher.
Bemerkung:
• Besonders wichtig ist der eindimensionale Spezialfall: Ist X eine reelle ZVe mit
Dichte f , M, N ⊂ R Intervalle mit P (X ∈ M ) = 1 und g : M → N ein
Diffeomorphismus, dann ist Y = g(X) eine reelle ZVe mit Dichte
fY (y) = |(g −1 )0 (y)|fX (g −1 (y)).
• Ist g nicht bijektiv, kann Methode (2) nicht verwendet werden!
• Ist g : Rn → R, so kann man Methode (2) anwenden, falls man g zu einem
Diffeomorphismus ergänzen kann.
Beispiel: Sei (X1 , X2 ) gleichverteilt auf [0, 1]2 . Was ist die Dichte von Y = X1 X2 ?
Lösung: Wir betrachten wieder beide Möglichkeiten (1) und (2). Die gemeinsame
Dichte von X1 , X2 ist fX1 ,X2 (x1 , x2 ) = 1, x1 , x2 ∈ [0, 1].
(1) Y hat Werte in [0, 1] und für c ∈ [0, 1] ist
Z
FY (c) = P (Y ≤ c) = P (X1 X2 ≤ c) = 1 − P (X1 X2 > c) = 1 −
1
1
Z
dx2 1
dx1
c
x1
c
= 1 − [x1 − c ln(x1 )]1c = .... = 1 − (1 − c + c · ln(c)) = c − c · ln(c),
also fY (c) = 1 − ln(c) − c · 1c , d.h. fY (y) = − ln(y), 0 < y < 1.
(2) Wir betrachten Z1 = X1 , Z2 = Y = X1 X2 , d.h. Z = g(X) mit g : (0, 1)2 →
{(z1 , z2 ) : 0 < z2 < z1 < 1}, g(x1 , x2 ) = (x1 , x1 x2 ). g ist ein Diffeomorphismus mit
Umkehrabbildung g −1 : x1 = z1 , x2 = zz12 . Nach obigem Satz ist
1
fZ1 ,Z2 (z1 , z2 ) = det
z2
−z12
Die Dichte von Y = Z2 ist daher
Z 1
Z
fY (y) =
dz1 fZ1 ,Z2 (z1 , y) =
z2
y
0
1
z1
1
dz1
1
= ,
z1
0 < z2 < z1 < 1.
1
= ln(z1 )|1y = − ln(y),
z1
0 < y < 1.
3 Bedingte Wahrscheinlichkeiten und Verteilungen
3
21
Bedingte Wahrscheinlichkeiten und Verteilungen
In diesem Abschnitt soll untersucht werden, wie sich Wahrscheinlichkeiten bzw. Verteilungen verändern, falls zusätzliche Informationen zur Verfügung stehen.
3.1
Bedingte Wahrscheinlichkeiten
Definition: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und B ∈ F mit P (B) 6= 0. Die
(bedingte) Wahrscheinlichkeit von A ∈ F gegeben B sei
P (A|B) :=
P (A ∩ B)
.
P (B)
Lemma: P (.|B) ist wieder ein Wahrscheinlichkeitsmaß auf (Ω, F).
Beweis: Es ist P (Ω|B) = P P(Ω∩B)
= 1, und für disjunkte Mengen Ai gilt
(B)
S
S
P
[
P ( i (Ai ∩ B))
P ( i (Ai ∩ B))
P (Ai ∩ B) X
P ( Ai |B) =
=
= i
=
P (Ai |B),
P (B)
P (B)
P (B)
i
i
den auch die B ∩ Ai sind dann disjunkt.
Was beschreibt das neue Wahrscheinlichkeitsmaß P (.|B)? Es gilt P (B|B) = 1, also ist
das Ergebnis des Zufallsexperiments mit Sicherheit in B. Für Ereignisse A1 , A2 ⊂ B
dagegen bleibt die relative Wahrscheinlichkeit unverändert:
P (A1 ∩ B)/P (B)
P (A1 )
P (A1 |B)
=
=
.
P (A2 |B)
P (A2 ∩ B)/P (B)
P (A2 )
P (.|B) ist also im Prinzip die gleiche Wahrscheinlichkeitsverteilung wie P , abgesehen
davon, dass Ergebnisse in B c ignoriert werden. Man interpretiert P (.|B) daher als
Verteilung eines Zufallsexperiments, das eigentlich durch P beschrieben wird, unter
der zusätzlichen Information, dass das Ergebnis des Experiments in B liegt.
Beispiel: Beim Würfeln mit zwei Würfeln ergibt sich die Summe 5. Wie ist die Augenzahl des ersten Würfels verteilt?
Lösung: Sei Ω = {1, ..., 6}2 , F = P(Ω), P = UΩ . Die Augenzahlen der Würfel werden
beschrieben durch die Projektionen X1 , X2 mit Xi (x1 , x2 ) := xi . Man sieht leicht, dass
P (X1 = k) = 16 für alle k ∈ {1, 2, 3, 4, 5, 6}, d.h. X1 ist gleichverteilt auf {1, 2, 3, 4, 5, 6}.
Dies berücksichtigt jedoch nicht die gegebene Information. Gesucht ist hier stattdessen
P (X1 = k|B) mit B := {X1 + X2 = 5}. Es ist
k
P (X1 = k|B)
1
2
3
4
1
4
1
4
1
4
1
4
5 6
,
0 0
4
denn P (B) = P ({1, 4}, ..., {4, 1}) = 36
und beispielsweise P ({X1 = 1} ∩ B) =
1
1
P ({(1, 4}) = 36 , also P (X1 = 1|B) = 4 . Durch die Zusatzinformation haben sich also
die Wahrscheinlichkeiten von 1, 2, 3, 4 erhöht, dagegen sind 5, 6 jetzt ausgeschlossen.
3.1
Bedingte Wahrscheinlichkeiten
22
Satz: (Fallunterscheidungsformel für Wahrscheinlichkeiten.) Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum
und A ∈ F. Für jede Partition Bi , i ∈ I, von Ω (d.h. Bi ∈ F
S
disjunkt, i Bi = Ω) gilt
X
P (A) =
P (A|Bi )P (Bi ).
i
Beweis: A ∩ Bi ist eine Partition von A, daher gilt
X
i
P (A|Bi )P (Bi ) =
X P (A ∩ Bi )
i
P (Bi )
P (Bi ) =
X
i
[
P (A ∩ Bi ) = P ( (A ∩ Bi )) = P (A).
i
Die Fallunterscheidungsformel ist nützlich bei der Bestimmung von P (A). Dabei ist
es aber oft schwierig, eine Partition Bi zu finden, die die Berechnung von P (A|Bi )
möglichst einfach macht.
Beispiel: Im sogenannten Auktionsproblem oder Heiratsproblem, stehen n Objekte zur
Verfügung, die man hintereinander sieht. Man möchte genau eines auswählen, muss bei
jedem sofort entscheiden, ob man es will oder nicht. Was ist eine gute Strategie, um
mit möglichst hoher Wahrscheinlichkeit das beste Objekt zu erhalten?
Lösung: Sei A das Ereignis, das beste Objekt zu bekommen. Eine mögliche Strategie
besteht darin, zu warten bis man k der Objekte gesehen hat, und dann das nächste zu
nehmen, das besser ist als alle bisherigen. (Falls kein besseres mehr kommt geht man
leer aus.) Zumindest dann wenn das zweitbeste Objekt unter den ersten k, und das
beste unter den letzten n−k ist, bekommt man das beste. Insofern ist P (A) mindestens
k n−k
( ≈ 14 für k := n2 ). Wir wollen P (A) für beliebiges k genauer bestimmen und
n n−1
versuchen, k optimal zu wählen.
Seien dazu 1, 2, 3, ..., n die n Objekte, sortiert nach aufsteigendem Wert. Sei Ω die
Menge der Permutationen von {1, 2, ..., n}, d.h. Ω = {σ : {1, 2, ..., n} → {1, 2, ..., n} : σ
bijektiv}, F = P(Ω), P = UΩ . Für σ ∈ Ω sei σ(i) das i-te Objekt. Für die Berechnung
von P (A) bedingen wir auf die Position des besten Objekts: Bi := {σ : σ(i) = n}.
Die Bi bilden eine Partition. Für i ≤ k ist P (A|Bi ) = 0, denn dann besteht keine
Möglichkeit das beste Objekt zu erhalten. Für i > k ist
P (A|Bi ) = P (max{σ(1), ...σ(i − 1)} ∈ {σ(1)...σ(k)}) =
k
,
i−1
denn unter den i − 1 Anfangsobjekten ist das beste mit gleicher Wahrscheinlichkeit an
jeder Stelle. Aus Symmetriegründen gilt ferner P (Bi ) = n1 für alle 1 ≤ i ≤ n. Mit der
Fallunterscheidungsformel folgt nun
Z
n
n
n
X
X
k 1
k X 1
k n1
k
k
=
≈
dx = − log .
P (A) =
P (A|Bi )P (Bi ) =
i−1n
n i=k+1 i − 1
n k x
n
n
i=1
i=k+1
Für f (x) := −x log x ist f 0 (x) = − log x − 1, also hat f ein Maximum bei x = 1e .
Also wird P (zumindest für große n) maximal für nk ≈ 1e , und die entsprechende
Wahrscheinlichkeit ist dann P (A) ≈ 1e ≈ 0, 37 (praktisch unabhängig von der Anzahl
n der Objekte).
3.2
Bedingte Verteilungen
3.2
23
Bedingte Verteilungen
Ein Zufallsexperiment liefert zwei Werte X, Y . Was ist die Verteilung von X bei bekanntem Wert Y = y? Falls X, Y diskret sind, liefert das letzte Kapitel die Antwort:
P (X = x|Y = y) =
ρX,Y (x, y)
ρY (y)
falls P (Y = y) 6= 0.
Ist Y stetig, ist zwar P (Y = y) = 0, dennoch gehen wir analog vor: Im diskreten Fall
ist die Verteilung von X bei gegebenem Y = y bestimmt durch die renormalisierte
Zähldichte ρ(., y), also definieren wir im stetigen Fall die bedingte Verteilung durch die
geeignet renormalisierte Dichtefunktion f (., y).
Definition: Bedingte Verteilung.
ρ
(x,y)
• Sind X, Y diskret, so definieren wir ρX (x|Y = y) := X,Y
ρY (y)
als bedingte Zähldichte von X gegeben Y = y, falls ρY (y) 6= 0.
f
(x,y)
• Sind X, Y stetig, so definieren wir fX (x|Y = y) := X,Y
fY (y)
als bedingte Dichte von X gegeben Y = y, falls fY (y) 6= 0.
In beiden Fällen bezeichnen wir mit PX (.|Y = y) die zugehörige Verteilung, die sogenannte bedingte Verteilung von X, gegeben den Wert von Y . Ähnlich kann man
vorgehen bei mehr als zwei Zufallsvariablen oder im gemischt diskret-stetigen Fall.
Bemerkung:
• Man kann leicht nachprüfen, dass ρX (.|Y = y) und fX (.|Y = y) die Normalisierungsbedingung erfüllen.
• Obige Definition impliziert, dass sich die gemeinsame Verteilung von (X, Y ) z.B.
aus der Verteilung von Y und der bedingter Verteilung von X gegeben Y ergibt: fX,Y (x, y) = fY (y) · fX (x|Y = y). Bei der Modellierung genügt es also,
entsprechende Verteilungen und bedingte Verteilungen anzugeben.
Beispiel: Ein zufälliger Punkt (X, Y ) der Menge {(x, y) : x, y > 0, x + y ≤ 1} wird
gemäß der Dichte fX,Y (x, y) = x gewählt. Bestimmen Sie P (X ≥ 12 |Y = 31 ).
Lösung: Die bedingte Dichte ist fX (x|Y = 13 ) = cx, 0 < x < 23 . Die neue NormalisieR 2/3
rungskonstante c ergibt sich aus 0 xdx = 92 , d.h. c = 92 . Es folgt
1
1
P (X ≥ |Y = ) =
2
3
1
Z
1
2
1
fX (x|Y = )dx =
3
2
3
Z
1
2
9
7
xdx = .
2
16
Beispiel: Eine seltene Krankheit betrifft 1 unter 10000 Personen. Ein Bluttest bezüglich
dieser Krankheit liefert bei gesunden Personen ein korrektes Ergebnis mit 99% und bei
kranken Personen mit 95%. Bei der Blutuntersuchung einer Person ergibt sich ein positives Testresultat. Mit welcher Wahrscheinlichkeit ist die Person wirklich krank?
3.3
Unabhängigkeit
24
Lösung: Seien X1 , X2 ZVen mit Werten in {g, k}. Hierbei bedeutet g gesund, k krank,
X1 sei der wirkliche Gesundheitszustand und X2 das Testergebnis. Gegeben sind:
P (X1 = k) =
1
,
10000
P (X2 = k|X1 = k) = 0.95,
P (X2 = g|X1 = g) = 0.99,
d.h. gegeben sind die Verteilung von X1 und die bedingte Verteilung von X2 . Damit
ist das Problem vollständig modelliert. Wir erhalten
P (X1 = k|X2 = k) =
1
0.95 · 10000
P (X1 = k, X2 = k)
=
9999 ≈ 1%.
1
P (X2 = k)
+ 0.01 10000
0.95 10000
Im zweiten Schritt haben wir die Wahrscheinlichkeiten durch Fallunterscheidung nach
den möglichen Werten von X1 berechnet. Obiges Ergebnis ist vielleicht etwas überraschend: der Test scheint doch eigentlich recht gut zu sein scheint. Die Erklärung für
das Ergebnis liegt darin, dass die Krankheit so selten ist: Unter 10000 Personen ist
nur einer wirklich krank. Unter den 9999 gesunden haben im Durchschnitt 1 %, also
ca. 100 ein positives Testresultat. Um dem schlechten Testverhalten abzuhelfen, sollte
man also den Test wiederholen, bzw. auf andere Anzeichen testen.
3.3
Unabhängigkeit
Von Unabhängigkeit spricht man, falls sich die Wahrscheinlichkeit nicht ändert durch
zusätzliche Information. Bei Ereignissen A, B ∈ F bedeutet dies: P (A) = P (A|B) =
P (A∩B)
. d.h. P (A ∩ B) = P (A)P (B).
P (B)
Definition: Unabhängigkeit von Ereignissen. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und Ai ∈ F.
(a) A1 , A2 unabhängig :⇔ P (A1 ∩ A2 ) = P (A1 )P (A2 )
(b) Ai , i ∈ I paarweise unabhängig :⇔ P (Ai ∩ Aj ) = P (Ai )P (Aj ) ∀i 6= j
T
Q
(c) Ai , i ∈ I unabhängig :⇔ für jedes endliche J ⊂ I : P ( i∈J Ai ) = i∈J P (Ai )
Beispiel: Seien A, B unabhängig. Man zeige: A, B c sind auch unabhängig.
Lösung: P (A ∩ B c ) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B)) =
P (A)P (B c ).
Beispiel: Eine Münze wird zweimal geworfen. Zeigen Sie, dass folgende Ereignisse
paarweise unabhängig, aber nicht unabhängig sind:
A = “1. Münze Zahl”, B = “2. Münze Zahl”, C = “beide Münzen gleich”
Lösung: Wir wählen Ω = {0, 1}2 , F = P(Ω), P = UΩ . Drückt man alle Ereignisse
als Teilmengen von Ω aus erhält man P (A) = P (B) = P (C) = 21 und P (A ∩ B) =
P (A ∩ C) = P (B ∩ C) = 14 , aber P (A ∩ B ∩ C) = 14 .
Analog definiert man Unabhängigkeit für Zufallsvariablen:
3.3
Unabhängigkeit
25
Definition: Unabhängigkeit von ZVen.
Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und Xi : (Ω, F) → (Ωi , Fi ) ZVen, i ∈ I.
(a) X1 , X2 unabhängig :⇔
P (X1 ∈ A1 , X2 ∈ A2 ) = P (X1 ∈ A1 )P (X2 ∈ A2 ) ∀A1 ∈ F1 , A2 ∈ F2
(b) Xi , i ∈ I paarweise unabhängig :⇔
P (Xi ∈ Ai , Xj ∈ Aj ) = P (Xi ∈ Ai )P (Xj ∈ Aj ) ∀Ai ∈ Fi , Aj ∈ Fj , i 6= j ∈ I
(c) Xi , i ∈ I unabhängig :⇔
Q
für jedes endliche J ⊂ I, Ai ∈ Fi : P (Xi ∈ Ai ∀i ∈ J) = i∈J P (Xi ∈ Ai ).
Bemerkung:
• Wir betrachten {X ∈ A} für beliebige A, da beliebige Informationen über X
berücksichtigt werden sollen.
• Statt jeweils alle Ai ∈ Fi , genügt es nur Ai ∈ Si zu betrachten, wobei Si ein
∩-stabiler Erzeuger von Fi ist. (Dies folgt aus dem Eindeutigkeitssatz.)
• X1 , ..., Xn unabhängig ⇔ ∀Ai ∈ Fi : P (Xi ∈ Ai ∀1 ≤ i ≤ n) =
n
Q
P (Xi ∈ Ai ).
i=1
(Man setze für festes J in obiger Definition einfach Ai := Ωi für i ∈
/ J.)
Auch auf der Ebene von Dichtefunktionen kann Unabhängigkeit durch entsprechende
Produktformeln charakterisiert werden:
Satz: Seien X1 , ..., Xn reele Zufallsvariablen.
(a) Für X1 , ..., Xn diskret:
(b) Für X1 , ..., Xn stetig:
Q
X1 , ..., Xn unabh. ⇔ ρX1 ,..,Xn (x1 , ..., xn ) = ni=1 ρXi (xi )
Q
X1 , ..., Xn unabh. ⇔ fX1 ,...,Xn (x1 , ..., xn ) = ni=1 fXi (xi )
Beweis: (b) ist Hausaufgabe. Wir zeigen (a):
“⇒”: Dies folgt sofort aus der Definition mit Ai := {xi }.
”⇐”: Für beliebige Ai ∈ Fi ist
P (X1 ∈ A1 , ..., Xn ∈ An ) =
X
ρX1 ,..,Xn (x1 , ..., xn ) =
x1 ∈A1 ,...,xn ∈An
=
X
ρX1 (x1 ) · ... ·
x1 ∈Ai
X
X
x1 ∈A1
...
n
X Y
ρXi (xi )
xn ∈An i=1
ρXn (xn ) = P (X1 ∈ A1 ) · ... · P (Xn ∈ An ).
xn ∈An
Bemerkung:
• X, Y unabhängig ⇔ ρX (x) = ρX (x|Y = y) bzw. fX (x) = fX (x|Y = y) ⇔ das
Verhalten von Y ist irrelevant für die Verteilung von X. (Dies folgt direkt aus
dem letzten Satz.)
• Sind f1 , f2 Zähldichten bzw. Dichtefunktion und gilt fX,Y (x, y) = f1 (x)f2 (y),
so folgt sofort, dass X,
R Y unabhängig sind mit Dichten f1 , f2 , denn dann ist
automatisch fX (x) = dyfX,Y (x, y) = f1 (x), und analog fY (y) = f2 (y).
3.3
Unabhängigkeit
26
Beispiel: : Seien X1 , X2 .... die binäre Nachkommastellen einer zufällige Zahl X in
[0, 1]. Man zeige: X1 , X2 , ... sind unabhängig, und Xi ist gleichverteilt auf {0, 1}.
P
Lösung: Es ist X = i X2ii . Es genügt zu zeigen, dass ρX1 ,...,Xn (k1 , ..., kn ) = 12 · ... · 21 .
Nach obiger Bemerkung folgt dann, dass X1 , ..., Xn unabhängig sind mit Dichte ρi (ki ) =
1
, also gleichverteilt. Damit ist dann auch jede endliche Teilmenge der Xi unabhängig.
2
P
Seien also ki ∈ {0, 1}, dann ist mit c := i k2ii
ρX1 ,...,Xn (k1 , ..., kn ) = P (X1 = k1 , ..., Xn = kn ) = P (c ≤ X < c +
P (X ∈ [c, c +
1
)=
2n
λ([c, c + 21n ))
1
1
= n.
))
=
n
2
λ([0, 1])
2
Satz: (Vererbung von Unabhängigkeit.) Seien Xi , i ∈ I unabhängige ZVen, Jk ⊂ I
disjunkt und fk : ×i∈Jk Ωi → Ω(k) . Dann sind die ZVen Yk := fk (Xi : i ∈ Jk ), k ∈ K,
auch wieder unabhängig, (z.B. Y1 = f1 (X1 , X2 ), Y2 = f2 (X4 , X7 , X3 )).
Beweis: Hausaufgabe (im Spezialfall).
Beispiel: Eine Münze wird 100 Mal geworfen. Y1 bzw. Y2 gebe an wie oft “Zahl” bei
den ersten 50 bzw. nächsten 50 Würfen fällt. Man zeige, dass Y1 , Y2 unabhängig sind.
Lösung: Sei Xi das Ergebnis des i-ten Wurfes, (1 =
ˆ Zahl; 0 =
ˆ Kopf). Die Xi sind dann
unabhängig,
P und es ist Y1 = f1 (X1 , ..., X50 ) und Y2 = f2 (X51 , ..., X100 ) mit f1 (x) =
f2 (x) = 50
i=1 xi . Nach dem Satz sind daher Y1 , Y2 unabhängig.
Satz: (Faltung von ZVen.) Seien X1 , X2 unabhängig und Y = X1 + X2 .
(a) Sind X1 , X2 diskret mit Zähldichten ρ1 , ρ2 , dann ist Y diskret mit Zähldichte
X
ρ1 (l)ρ2 (k − l).
ρ(k) =
l
(b) Sind X1 , X2 stetig mit Dichten f1 , f2 , dann ist Y stetig mit Dichte
Z
f (y) = dxf1 (x)f2 (y − x).
Beweis: (b) ist Hausaufgabe und (a) folgt aus
X
ρ(k) = P (X1 + X2 = k) =
ρX1 ,X2 (k1 , k2 ) =
k1 ,k2 :k1 +k2 =k
X
ρ1 (k1 )ρ2 (k2 ).
k1 ,k2 :k1 +k2 =k
Mit l := k1 ist k2 = k − l und die Summe hat die gegebene Form.
4 Erwartungswert
4
27
Erwartungswert
4.1
Erwartungswert
Der Erwartungswert E(X) ist Mittelwert einer reellen ZVe X : Ω → R, wobei jeder
mögliche Wert mit seiner Wahrscheinlichkeit gewichtet wird. (Dies entspricht also dem
Massenschwerpunkt einer Massenverteilung.)
Der Erwartungswert wird schrittweise definiert:
• Ist X ≥ 0 eine Treppenfunktion, d.h. X =
P
An ∈ B, setzt man E(X) := N
n=1 an P (An ).
PN
n=1
an 1An mit N ∈ N, an ≥ 0,
• Ist X ≥ 0 beliebig, approximiert man X von unten durch Treppenfunktionen Xn ,
d.h. Xn ↑ X, und setzt dann E(X) := limn→∞ E(Xn ).
• Für beliebiges X setzt man E(X) := E(X+ )−E(X− ). Hierbei ist X+ = |X|·1{X>0}
der Positiv-Teil und X− = |X| · 1{X<0} der Negativ-Teil von X.
• L1 sei die Menge aller ZVen X mit E(|X|) < ∞, d.h. E(X+ ), E(X− ) < ∞.
Bemerkung:
• Für Details, siehe Maßtheorie. Insbesondere im 1. und 2. Schritt ist zu zeigen, dass
E(X) wohldefiniert ist, also nicht von der speziellen Darstellung von X abhängt.
• Im dritten Schritt kann es passieren, dass E(X+ ) oder E(X− ) unendlich sind. Falls
beide unendlich sind, ist der Erwartungswert nicht definiert. Falls einer unendlich
ist, ist E(X) = ∞ bzw. −∞. Für X ∈ L1 sind beide endlich, und daher ist E(X)
definiert und hat einen endlichen Wert.
Satz: Erwartungswert von diskreten und stetigen ZVen. Sei g : Rn → R messbar. Sind
X1 , ..., Xn reelle ZVen mit gemeinsamer Zähldichte ρ bzw. Dichte f , dann ist
X
E(g(X1 , ..., Xn )) =
g(k1 , ..., kn )ρ(k1 , ..., kn ), bzw.
k1 ,...,kn
Z
E(g(X1 , ..., Xn )) =
g(x1 , ..., xn )f (x1 , ..., xn )dx1 ...dxn .
Insbesondere ist für eine reelle ZVe mit Zähldichte ρ bzw. Dichte f
Z
X
E(X) =
kρ(k) bzw. E(X) = xf (x)dx.
k
Beweis: Maßtheorie.
Bemerkung:
• Im Satz sind die Gleichungen so zu verstehen, dass die eine Seite genau dann
wohldefiniert ist, wenn es die andere Seite ist. Beispielsweise im Falle von X mit
Zähldichte existiert der Erwartungswert genau dann, wenn die Reihe konvergiert.
4.1
Erwartungswert
28
• Für unsere Zwecke kann man die Gleichungen aus dem Satz als Definition des
Erwartungswerts ansehen.
• Man beachte, dass der Erwartungswert jeweils nur von der Verteilung abhängt.
Beispiel: Erwartungswert der Augenzahl bei einmaligem Werfen eines Würfels.
P
Lösung: E(X) = 6k=1 k · 16 = 3, 5.
Beispiel: Erwartungswert für X mit der Dichte f (x) =
R
R∞
Lösung: E(X) = xf (x)dx = −∞ π1 ·
Erwartungswert ist also nicht definiert!
x
1+x2
=
1
2π
1
π
·
1
1+x2
(Cauchy-Verteilung).
∞
ln(1 + x2 ) −∞ = ∞ − ∞. Der
Satz: (Eigenschaften des Erwartungswerts.) Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, seien X, Y reelle ZVen, A ∈ F, a, b ∈ R.
(a) E(1A ) = P (A), E(1) = E(1Ω ) = 1
(b) Linearität: E(aX + bY ) = a · E(X) + b · E(Y )
(c) Monotonie: X ≤ Y ⇒ E(X) ≤ E(Y )
(d) Multiplikativität: X,Y unabhängig ⇒ E(XY ) = E(X)E(Y )
Beweis: (für diskrete ZVen). Seien X, Y diskret mit gemeinsamer Dichte ρ.
(a) E(1A ) = 1 · P (1A = 1) + 0 · P (1A = 0) = P (A), denn {1A = 1} = A.
(b) Mit g(x, y) = ax + by folgt aus dem letzten Satz
X
X X
X X
E(aX + bY ) =
(ax + by)ρ(x, y) = a
x
ρ(x, y) + b
y
ρ(x, y)
x,y
=a
x
X
xρX (x) + b
x
X
y
y
x
yρY (y) = aE(X) + bE(Y ).
y
(c) Nach (b) ist E(Y ) − E(X) = E(Y − X) =
P
(y − x) · ρ(x, y) ≥ 0.
x,y | {z }
≥0
(d) Mit g(x, y) = xy folgt aus dem letzten Satz
X
X
X
X
E(XY ) =
xyρ(x, y) =
xyρX (x)ρY (y) = (
xρX (x))(
yρY (y)) = E(X)E(Y ).
x,y
x,y
x
y
Bemerkung:
• Im Satz ist implizit vorausgesetzt, dass die Erwartungswerte existieren.
• Per Induktion verallgemeinert man (b), (d) auf endliche Summen und Produkte.
4.2
Kovarianz und Varianz
4.2
29
Kovarianz und Varianz
Definition: Sei L2 := {X : Ω → R ZVe : E(X 2 ) < ∞}.
Bemerkung:
• Es gilt L2 ⊂ L1 und man kann zeigen, dass L1 und L2 Vektorräume sind.
• Für X, Y ∈ L2 ist E(XY ) wohldefiniert.
Definition: Für X, Y ∈ L2 ist die Kovarianz definiert durch
Cov(X, Y ) := E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ).
Für X1 , ..., Xn ∈ L2 wird (E(Xi ))i als Erwartungsvektor und (Cov(Xi , Xj ))i,j als
Kovarianzmatrix bezeichnet.
Bemerkung:
• Die Gleichheit in der Definition ergibt sich durch Ausmultiplizieren aus der Linearität des Erwartungswerts.
• Interpretation der Kovarianz: das Vorzeichen von Cov(X, Y ) bestimmt sich daraus, ob X −E(X) und Y −E(Y ) bevorzugt gleiches Vorzeichen oder verschiedenes
Vorzeichen haben. Cov(X, Y ) ist also ein gewisses Maß dafür, ob X und Y lieber
gleichzeitig relativ große und relativ kleine Werte annehmen (bezogen auf den
jeweiligen Mittelwert) oder nicht. Man bezeichnet bei


 > 0 X, Y als positiv korreliert
Cov(X, Y ) < 0 X, Y als negativ korreliert

 = 0 X, Y als unkorreliert
• Aus der Multiplikativitätsregel des Erwartungswerts folgt sofort, dass unabhängige ZVen automatisch unkorreliert sind.
Satz: (Eigenschaften der Kovarianz.). Seien X, Y, Xi , Yi ∈ L2 , ai , bi , c ∈ R, 1 ≤ i ≤ n.
(a) Symmetrie: Cov(X, Y ) = Cov(Y, X).
P
P
P P
(b) Bilinearität: Cov( i ai Xi , j bj Yj ) = i j ai bj Cov(Xi , Yj ).
(c) Konstanten: Cov(X, Y + c) = Cov(X, Y ), Cov(X, c) = 0.
(d) C := (Cov(Xi , Xj ))ij ist positiv semidefinit: ∀v ∈ Rn : v T Cv =
P
i,j
vi Cij vj ≥ 0.
4.2
Kovarianz und Varianz
30
Beweis: (a) ist klar
(b) Wegen (a) genügt es die Linearität in der ersten Komponente zu zeigen:
X
X
X
Cov
ai X i , Y = E
ai Xi − E(
ai Xi ) Y − E(Y )
i
i
X
iX
=E
ai (Xi − E(Xi ))(Y − E(Y )) =
ai E (Xi − E(Xi ))(Y − E(Y ))
i
=
X
i
ai Cov(Xi , Y ).
i
(c) Cov(X, c) = E((X − E(X))(c − E(c))) = E(0) = 0 und P
der Rest folgt mit (b).
(d) Für v ∈ Rn ist wegen (b) unter Verwendung von Z := i vi Xi
X
X
X
vi Cov(Xi , Xj )vj = Cov
v i Xi ,
vj Xj = Cov(Z, Z) = E((Z − E(Z))2 ) ≥ 0.
i,j
i
j
Definition: Für X ∈ L1 ist die Varianz definiert durch
V(X) := Cov(X, X) = E[(X − E(X))2 ] = E(X 2 ) − E(X)2 .
Bemerkung:
• Aus der Definition folgt sofort V(X) ≥ 0. Für X ∈ L1 kann V(X) = ∞ sein. Für
X ∈ L2 ist V(X) < ∞.
• V(X) = E[(X − E(X))2 ] ist der durchschnittliche quadratische Abstand von X
zu seinem Mittelwert. V(X) ist also ein gewisses Maß dafür, wie stark die Werte
von X streuen.
Satz: (Eigenschaften der Varianz.) Seien X, Xi ∈ L2 und c ∈ R, 1 ≤ i ≤ n.
(a) Konstanten: V(X + c) = V(X), V(cX) = c2 V(X), V(c) = 0.
P
P
P
(b) Summenregel: V( i Xi ) = P i V(Xi )P
+ i6=j Cov(Xi , Xj ). Insbesondere gilt für
unabhängige X1 , ..., Xn V( i Xi ) = i V(Xi ).
Beweis: Diese Eigenschaften ergeben sich sofort aus V(X) = Cov(X, X) und den
Eigenschaften der Kovarianz.
Beispiel: Man bestimme E und V für die Augensumme bei 12 Mal Würfeln.
Lösung: Seien X1 , ..., X12 die erzielten Augenzahlen. Die Xi sind unabhängig und
gleichverteilt auf
P {1, ..., 6}. Wir2verfolgen
P 22 Ansätze:
(1) E(X) =
k kρX (k), E(X ) =
k k ρX (k). Um diese Summen zu berechnen,
benötigen wir ρX . Diese Zähldichte zu bestimmen, ist aber sehr aufwändig, daher beschreiten wir einen Alternativweg:
4.2
Kovarianz und Varianz
31
(2) Wir bestimmen zunächst E(Xi ) und V(Xi ):
6
X
1 + ... + 6
7
1
=
E(Xi ) =
k =
6
6
2
k=1
und
E(Xi2 )
=
6
X
k2
k=1
1
12 + ... + 62
91
=
= ,
6
6
6
49
35
91
2
2
. Mit den Rechenregeln für E und V folgt
also V(Xi ) = E(X
P i ) − E(Xi ) = 6 − 4 = 12P
nun E(X) = i E(Xi ) = 42 und V(X) = i V(Xi ) = 35. Letzteres gilt, da die Xi
unabhängig sind.
Bisweilen ist es sinnvoll ZVen auf eine Normalform zu bringen,
√
die Standardisierung von X.
Definition: Für X ∈ L2 heißt X ∗ := X−E(X)
V(X)
Bemerkung:
• Nach den Rechenregeln für E und V ist E(X ∗ ) = √ 1
V(X)
V(X ∗ ) = ( √ 1
V(X)
(E(X) − E(X)) = 0 und
)2 V(X) = 1. X ∗ ist also eine größenbereinigte Version von X.
• X ∗ hat die gleiche Wahrscheinlichkeitsverteilung wie X, abgesehen davon dass
die Werte entsprechend verschoben und gestaucht wurden.
Definition:
• Für X ∈ L1 ist die Standardabweichung definiert durch σ(X) :=
• Für X, Y ∈ L2 ist die Korrelation definiert durch ρ(X, Y ) :=
p
V(X).
Cov(X,Y )
.
σ(X)σ(Y )
Bemerkung:
Y −E(Y )
• Es gilt ρ(X, Y ) = E( X−E(X)
) = E(X ∗ Y ∗ ) = Cov(X ∗ , Y ∗ ).
σ(X)
σ(Y )
• Cov und V haben die schöneren Eigenschaften, und sind daher zum Rechnen
besser geeignet. Dafür haben σ und ρ die interessantere Interpretation:
• Da V ein Maß für die durchschnittliche quadratische Abweichung vom Mittelwert ist, kann σ als Maß für die durchschnittliche Abweichung vom Mittelwert
betrachtet werden.
• ρ(X, Y ) = E(X ∗ Y ∗ ) ist ein Maß für die Tendenz, dass X ∗ und Y ∗ gleichgroße
Werte haben. Nach dem folgenden Lemma ist ρ(X, Y ) ∈ [−1, 1] und die extremalen Fälle werden erreicht durch ρ(X, X) = 1 (Größe genau gleich) und
ρ(X, −X) = −1 (Größe genau gegenläufig).
Lemma: Für X, Y ∈ L2 ist ρ(X, Y ) ∈ [−1, 1].
Beweis: Die Behauptung folgt mittels der Rechenregeln aus
0 ≤ V(X ∗ ± Y ∗ ) = V(X ∗ ) + V(Y ∗ ) ± 2Cov(X ∗ , Y ∗ ) = 2 ± 2ρ(X, Y ).
4.3
Verwendung von Indikatorfunktion und Bedingungen
4.3
32
Verwendung von Indikatorfunktion und Bedingungen
P
Ist X = i 1Ai , so haben wir für jedes Ai , das eintritt, 1Ai = 1, d.h. X ist die Anzahl
von allen Ereignissen Ai die eintreten. Hier kann man den Erwartungswert (und die
Varianz) besonders einfach berechnen:
P
Satz: Ist X = i 1Ai mit Ai ∈ F, 1 ≤ i ≤ n, so ist
X
X
X
E(X) =
P (Ai ) und E(X 2 ) =
P (Ai ) +
P (Ai ∩ Aj ).
i
i
i6=j
P
P
P
Beweis: E(
) = i P (Ai ) P
und die zweite
Gleichung folgt ebenso,
i
i 1Ai ) =P i E(1AP
P
P
2
2
2
da X = ( i 1Ai ) = i 1Ai + i6=j 1Ai 1Aj = i 1Ai + i6=j 1Ai ∩Aj .
Beispiel: Wir wählen rein zufällig eine 8-stellige Codezahl mit Ziffern aus {1, ..., 6}.
Man bestimme, wie viele verschiedenen Ziffer die Codezahl im Durchschnitt hat.
Lösung: Sei Ω {1, ..., 6}8 , F = P(Ω), P = UΩ . Sei P
X die Anzahl der verschiedenen
Ziffern, die in der Codezahl vorkommen. Es ist X =
1Ai , wobei Ai das Ereignis ist,
dass Ziffer i vorkommt. P (Ai ) und P (Ai ∩ Aj ) sind aber nicht so leicht zu bestimmen.
P
Leichter ist P (Aci ) = ( 65 )8 und P (Aci ∩ Acj ) = ( 46 )8 . Daher setzen wir Y := i 1Aci die
Anzahl der Ziffern, die nicht vorkommen. Es gilt X = 6−Y und E(Y ) und V(Y ) ergeben
sich aus dem vorhergehenden Satz: E(Y ) = 6( 65 )8 ≈ 1, 4, E(Y 2 ) = 6( 65 )8 +6·5( 46 )8 ≈ 2, 6,
also V(Y ) = E(Y 2 ) − E(Y )2 = 0, 6. Hieraus folgt sofort E(X) = 6 − E(Y ) ≈ 4, 6 und
V(X) = V(Y ) ≈ 0, 6.
Beispiel: Man zeige mittels Indikatorfunktionen die Einschluss-Ausschlussformel:
P
n
[
Ai =
i=1
n
X
X
(−1)k+1
k=1
P
J⊂{1,...,n}:|J|=k
\
Aj
für Ai ∈ F.
j∈J
Lösung: Schreibt man die Wahrscheinlichkeiten als Erwartungen von Indikatorfunktionen, so genügt es wegen der Linearität der Erwartung zu zeigen, dass
1
S
i Ai
n
X
X
=
(−1)k+1
1T
k=1
Aj ,
d.h.
1−1
S
j∈J
J:|J|=k
i Ai
=
n
X
(−1)k
k=0
X
J:|J|=k
1T
Aj .
j∈J
Q
Dies zeigt man unter Verwendung von 1 − 1A = 1Ac und 1∩Ai = 1Ai : Es ist
Y
Y
XY
1 − 1Si Ai = 1(Si Ai )c = 1Ti Aci =
1Aci =
(1 − 1Ai ) =
(−1Ai ) und
i
X
k
k
(−1)
X
J:|J|=k
1
T
i∈J
Ai
i
J
i∈J
X
X Y
X X Y
=
(−1)k
1Ai =
(−1Ai ).
k
J:|J|=k i∈J
k
J:|J|=k i∈J
4.3
Verwendung von Indikatorfunktion und Bedingungen
33
Eine andere Methode zur Berechnung des Erwartungswerts beruht auf einer Fallunterscheidungsformel analog zu der für Wahrscheinlichkeiten. Hierbei steht E(X|Y = y)
für den Erwartungswert von X unter dem Wahrscheinlichkeitsmaß P (.|Y = y).
Satz: Seien X, Y reelle Zufallsvariablen. Hat Y Zähldichte ρ bzw. Dichte f so gilt
Z
X
E(X) =
E(X|Y = y)ρ(y) bzw. E(X) = dyE(X|Y = y)f (y),
y
falls die rechte Seite definiert ist. Zusammenfassend schreibt man diese Formel auch in
der Form E(X) = E(E(X|Y )) (“Turmeigenschaft für den Erwartungswert”).
P
P ρ (x,y)
, also
Beweis: (für X, Y diskret.) E(X|Y = y) = x xρX (x|Y = y) = x x X,Y
ρY (y)
X
X X ρX,Y (x, y)
XX
E(X|Y = y)ρ(y) =
x
ρY (y) =
xρX,Y (x, y) = E(X).
ρ
(y)
Y
y
y
x
x
y
Beispiel: Ein Stab der Länge 1 bricht an einer zufälligen Stelle. Der rechte Teil wird
weggeworfen, der linke Teil bricht wieder an einer zufälligen Stelle, und der rechte Teil
wird wieder weggeworfen. Wie groß ist der restliche Teil im Durchschnitt?
Lösung:
Sei Y die Restlänge nach dem ersten Bruch und X die Restlänge nach dem zweiten
Bruch. Die Verteilung von Y ist U[0,1] und die bedingte Verteilung von X, gegeben
Y = y, ist U[0,y] . Wir verfolgen 2 Ansätze:
(1) Aus den gegebenen Verteilungen bestimmt man die gemeinsame Dichte
fX,Y (x, y) =
R
1
fY (y)fX (x|Y = y) = 1[0,1] (y) y 1[0,y] (x), und berechnet hieraus E(X) = dxdyxfX,Y (x, y).
Aufgrund der Struktur des Problems ist aber folgender Ansatz einfacher:
(2) Es ist E(X|Y = y) = y2 (Erwartungswert von U[0,y] ). Mit dem Satz erhalten wir
also
Z
Z
1
1
1
E(X) = dyE(X|Y = y)fY (y) =
dyyfY (y) = E(Y ) = ,
2
2
4
1
denn Y ∼ U[0,1] impliziert E(Y ) = 2 .
Bei komplizierteren Aufgaben sind folgende einfache Tatsachen oft nützlich:
Satz: Sind X, Y unabhängige Zufallsvariablen, so ist E(X|Y = y) = E(X).
Beweis: Bei Unabhängigkeit ist die bedingte Verteilung identisch mit der unbedingten
Verteilung. Hieraus folgt sofort die Behauptung.
Satz: Sind X, Y Zufallsvariablen, so ist E(f (X, Y )|Y = y) = E(f (X, y)|Y = y).
Beweis: Hausaufgabe fr̈ den Fall X, Y diskret.
Bemerkung: Bei beiden hier vorgestellten Berechnungsmethoden des Erwartungswerts besteht das Problem nicht in der Anwendung der Formeln, sondern darin, für
eine gegebene ZVe X geeignete Indikatorfunktionen oder eine geeignete Bedingung Y
zu finden, die das Problem vereinfachen!
4.4
Momentenerzeugende Funktionen
4.4
34
Momentenerzeugende Funktionen
Definition: Die momentenerzeugende Funktion (MF) einer reellen ZVe X ist
MX : R → R,
MX (t) = E(etX ), t ∈ R.
Bemerkung:
• MX ist nur sinnvoll falls E wenigstens für t in einer Umgebung von 0 endlich ist.
(Dies soll im Folgenden generell vorausgesetzt sein.) In diesem Fall ist X n ∈ L1
für alle n.
• Mit den Formeln für den Erwartungswert von diskreten bzw. stetigen ZVen folgt:
Z
X
tk
MX (t) =
e ρX (k) für X diskret, MX (t) = dxetx fX (x) für X stetig
k
Satz: (Eigenschaften von MX .) Seien X, Y reelle ZVen, a, b ∈ R.
(a) Momente: E(X n ) =
dn
MX (t)|t=0
dtn
(b) Lineare Transformation: MaX+b (t) = ebt MX (at)
(c) Produkteigenschaft: Sind X, Y unabhängig, so ist MX+Y (t) = MX (t) · MY (t).
(d) Eindeutigkeit: Ist MX = MY in einer Umgebung der 0, so haben X, Y die gleiche
Verteilung.
Beweis: (in Teilen)
(a)Für n = 1 ist dtd MX (t) = dtd E(eXt ) = E( dtd eXt ) = E(XeXt ) und mit t = 0 folgt die
2
Formel. Für n = 2 ist dd2 t MX (t) = dtd MX (X · eXt ) = E(X 2 · eXt ) und mit t = 0 folgt
die Formel. Für allgemeines n argumentiert man induktiv. Die Vertauschbarkeit von E
und Ableitung muss hierbei noch genauer begründet werden (vgl. Maßtheorie).
(b) E(et(aX+b) ) = E(etb · eatX ) = etb · E(e(at)X ).
(c) E(et(X+Y ) ) = E(etX · etY ) = E(etX )E(etY ).
(d) Analog zur Eindeutigkeit bei der Fourier-Transformation.
Beispiel: Man bestimme die MF von X ∼ U[0,1] .
Lösung: MX (t) = E(etX ) =
sich MX (0) = 1.
R
etx f (x)dx =
R1
0
etx dx = 1t etx |10 =
et −1
.
t
Für t = 0 ergibt
Bemerkung: : Analog definiert man die (gemeinsame) MF von reellen ZVen X1 , ..., Xn
als MX1 ...Xn : Rn → R mit MX1 ...Xn (t1 ...tn ) = E(et1 X1 +...+tn Xn ). Diese hat auch wieder
Eigenschaften ähnlich zu denen in obigem Satz.
5 Beispiele für Zufallsvariablen
5
35
Beispiele für Zufallsvariablen
5.1
Zufällige Ereignisse in diskreter Zeit
Wir betrachten diskrete Zeitpunkte n = 1, 2, . . .. Zu jedem Zeitpunkt wird ein Experiment mit zwei möglichen Ausgängen (Niete/Treffer) durchgeführt. Die einzelnen
Experimente seien dabei unabhängig. Standardbeispiel ist hierbei der unendlich oft
wiederholte Münzwurf (mit etwa “Zahl” als Treffer).
Definition: Eine Folge von ZVen Xn , n ≥ 1, heißt Bernoulli-Folge oder BernoulliProzess mit Parameter p ∈ (0, 1), falls die Xn unabhängig sind mit Zähldichte ρ(0) =
1 − p (Niete) und ρ(1) = p (Treffer). p wird auch als Trefferwahrscheinlichkeit bezeichnet. In einem Bernoulli-Prozess betrachtet man außer den Xn auch folgende ZVen:
• NA , A ⊂ N: Anzahl von Treffern in A.
• Ti , i ≥ 1: Wartezeit zwischen (i−1)-ten und i-ten Treffer (0-ter Treffer bei n = 0).
• Si , i ≥ 1: Wartezeit bis zum i-ten Treffer.
Man kann die Verteilungen dieser Zufallsvariablen leicht bestimmen:
Satz: Sei Xn , n ≥ 1, eine Bernoulli-Folge mit Parameter p.
a) Sind A1 , A2 ... disjunkt, so sind NA1 , NA2 , ... unabhängig.
Ist |A| = n, so ist ρNA (k) = nk pk (1 − p)n−k , k = 0, 1, ..., n.
b) T1 , T2 , ... sind unabhängig und ρTi (k) = p(1 − p)k−1 , k = 1, 2, 3...
c) S1 , S2 , ...Sn : Zähldichte ρS1 ...Sn (k1 , ..., kn ) = pn (1 − p)kn −n , 0 < k1 < ... < kn .
Beweis: P
P
(a) NAi =
k∈Ai 1{Xk =1} =
k∈Ai Xk . Nach den Vererbungseigenschaften der Unabhängigkeit
sind
die
N
daher
unabhängig.
Für A = {m1 , ..., mn } ist P (NA = k) =
Ai
P k
P
n−k
, wobei über alle xi ∈ {0, 1} sumx p (1 − p)
x P (Xm1 = x1 , ..., Xmn = xn ) =
miert wird, von denen genau k 1 und n − k 0 sind. DieAnzahl solcher Folgen ist nk ,
daher folgt für die Wahrscheinlichkeit: P (NA = k) = nk pk (1 − p)n−k .
(c) Wir setzen xkj := 1 und xi = 0 sonst. Damit erhalten wir P (S1 = k1 , ..., Sn = kn ) =
P (Xi = xi ∀1 ≤ i ≤ kn ) = pn (1 − p)kn −n , denn genau n der xi sind 1.
(b)
..., Tn = ln ) = P (S1 = l1 , ..., Sn = l1 + ... + ln ) = pn (1 − p)l1 +...+ln −n =
Qn P (T1 = l1li,−1
. Hieraus erhält man die Unabhängigkeit und die Zähldichte.
i=1 p(1 − p)
Die in (a) und (b) definierten Verteilungen kommen in Anwendungen häufig vor und
bekommen daher eigene Bezeichnungen:
5.1
Zufällige Ereignisse in diskreter Zeit
36
Definition+Satz: Sei p ∈ (0, 1) und n ∈ N.
(a) X heißt binomialverteilt mit Parametern n, p (X ∼ Bin n,p ) falls X diskret ist
mit Zähldichte ρX (k) = nk pk (1 − p)n−k , k = 0, ..., n.
Es gilt E(X) = np, V(X) = np(1 − p).
(b) X heißt geometrisch verteilt mit Parameter p (X ∼ Geo p ), falls X diskret ist
mit Zähldichte ρX (k) = p(1 − p)k−1 , k = 1, 2...
.
Es gilt E(X) = p1 , V(X) = 1−p
p2
Beweis:
(a) Eine Möglichkeit ist, die Formeln für Erwartungswert und Varianz zu verwenden
und die entstehenden Summen vereinfachen. Einfacher argumentiert man mit dem
Bernoulli-Prozess: X = N{1,...,n} = X1 + ... + Xn . Die Xi sind unabhängig mit E(Xi ) =
1 · p + 0 · (1 − p) = p, E(Xi2 ) = 12 · p + 02 · (1 − p) = p, also V(Xi ) = p2 − p = p(1 − p).
Es folgt
E(X) =
n
X
i=1
E(Xi ) =
n
X
i=1
p = np
und
V(X) =
n
X
V(Xi ) = np(1 − p).
i=1
(b) Wieder kann man entweder die Formeln für Erwartungswert und Varianz verwenden
oder mit dem Bernoulli-Prozess argumentieren: X = T sei die Wartezeit bis zum ersten
Erfolg in einer Bernoulli-Folge mit Parameter p. Wir bestimmen E(T ) durch Bedingen
auf X1 : Falls X1 = 1, so ist T = 1, also E(T |X1 = 1) = 1. Falls X1 = 0, so ist T = 1+T 0 ,
wobei T 0 die Wartezeit nach der Zeit 1 auf den ersten Erfolg ist. T 0 ist unabhängig von
X1 und T 0 ∼ T , also ist E(T |X1 = 0) = E(1+T 0 |X1 = 0) = 1+E(T 0 |X1 = 0) = 1+E(T ).
Es folgt
E(T ) = E(T |X1 = 0)P (X1 = 0) + E(T |X1 = 1)P (X1 = 1) = (1 + E(T ))(1 − p) + 1 · p.
P
Wegen E(T ) = k kp(1 − p)k−1 < ∞ folgt hieraus durch umformen E(T ) = p1 . Analog
berechnet man E(T 2 ) (Hausaufgabe) und erhält hieraus V(T ).
Beispiel:
Seien T1 , T2 , T3 unabhängig und geometrisch verteilt mit Parameter p. Man berechne
P (T1 + T2 + T3 ≥ 5).
Lösung:
Wir betrachten die Ti als entsprechende Wartezeiten im Bernoulli-Prozess und drücken
das betrachtete Ereignis durch P
andere Zufallsvariablen aus: P (T1 + T2 + T3 ≥ 5) =
P (S3 ≥ 5) = P (N{1,...,4} ≤ 2) = 2k=0 k4 pk (1−p)4−k = (1−p)4 +4p(1−p)3 +6p2 (1−p)2 .
5.2
Zufällige Ereignisse in stetiger Zeit
5.2
37
Zufällige Ereignisse in stetiger Zeit
Zunächst benötigen wir eine weitere diskrete Verteilung:
Definition+Satz: X heißt Poisson-verteilt mit Parameter λ > 0 (X ∼ Poi λ ), falls
k
X diskret ist mit Zähldichte ρX (k) = e−λ λk! , k = 0, 1, 2, ... Es gilt E(X) = λ, V(X) = λ.
Beweis: Hausaufgabe.
Die Poisson-Verteilung approximiert die Anzahl von Erfolgen (in einem BernoulliProzess) in sehr großen Zeitintervallen bei sehr kleiner Trefferwahrscheinlichkeit:
Satz: (Poisson-Approximation.) Sei λ > 0, pn > 0 mit npn → λ für n → ∞.
Für Yn ∼ Binn,pn , Y ∼ P oiλ ist
P (Yn = k) → P (Y = k)
für n → ∞.
(Für großes n und kleines pn ist also Bin n,pn ≈ Poi λ mit λ = npn .)
Beweis:
n k
1
npn n
nn−1 n−k+1
P (Yn = k) =
pn (1 − pn )n−k = (npn )k
...
(1 − pn )−k (1 −
) .
k
k!
n n
n
n
Es gilt (npn )k → λk ,
n−i
n
→ 1, (1 − pn )−k → 1 und (1 −
npn n
)
n
→ e−λ .
Nun kommen wir zur Definition eines Prozesses von zufälligen Zeitpunkten in stetiger
Zeit. Wir betrachten jetzt also beliebige Zeitpunkte t > 0. Da die Menge der Zeitpunkte
überabzählbar ist, ist es nicht praktikabel bei jedem einzelnen Zeitpunkt zu entscheiden,
ob ein Treffer stattfindet oder nicht (wie bei der Definition des Bernoulli-Prozesses).
Sinnvoll dagegen ist die Verwendung der anderen Zufallsvariablen:
• NA , A ⊂ (0, ∞): Anzahl von Treffern in A.
• Ti , i ≥ 1: Wartezeit zwischen (i−1)-ten und i-ten Treffer (0-ter Treffer bei t = 0).
• Si , i ≥ 1: Wartezeit bis zum i-ten Treffer.
Um die Verteilung dieser Zufallsvariablen festzulegen, machen wir folgende (natürliche)
Modellannahmen:
(i) Was in disjunkten Intervallen passiert ist unabhängig
(ii) Für ein kleines Intervall A: NA ≤ 1
(iii) Für ein kleines Intervall A: P (NA = 1) ≈ αλ1 (A)
Ist h = λ1 (A) die Länge von A, so kann man (ii),(iii) wie folgt präzisieren:
P (NA ≥ 2) = o(h),
P (NA = 1) = αh + o(h)
für h → 0.
5.2
Zufällige Ereignisse in stetiger Zeit
38
Definition+Satz: Ein Prozess von Ereignissen in stetiger Zeit erfülle (i),(ii),(iii). Sind
dann A1 , A2 ... ∈ B(0,∞) disjunkt, so sind NA1 , NA2 , ... unabhängig und es gilt
NA ∼ Poi λA
mit
λA = αλ1 (A).
Ein Prozess mit diesen Eigenschaften heißt Poisson-Prozess (PP) zum Parameter α.
α nennt man auch die Rate des PP.
Beweis: (Skizze.) Die Unabhängigkeit der NAi folgt aus (i). Um NA ∼ Poi λA zu
1
zeigen, zerlegen wir A in n Teilmengen Ai der Länge λ1 (Ai ) = λ n(A) . Mit (ii),(iii) ist
1
1
dann P (NAi = 1) = α·λn(A) + o( n1 ) und P (NAi = 0) = 1 − α·λn(A) + o( n1 ), d.h. bis auf
α·λ1 (A)
o( n1 ) bilden die NAi einen Bernoulli-Prozess
mit
Erfolgswahrscheinlichkeit
p
:=
.
n
n
Es folgt P (NA = k) = nk pkn (1 − pn )n−k + n · o( n1 ). Der zweite Term geht gegen 0,
und der erste Term gegen e−λA
Approximation verwenden.
λkA
,
k!
denn wegen npn = αλ1 (A) kann man die Poisson
Satz: Wir betrachten einen Poisson-Prozess mit Rate α.
(a) Sind Ai , i ≥ 1, disjunkt, so sind NAi unabhängig und NAi ∼ Poi λAi .
(b) Die Tn , n ≥ 1, sind unabhängig mit Dichte f (t) = αe−αt 1{t>0}
(c) Die S1 , ..., Sn haben die gemeinsame Dichte fS1 ...Sn (s1 , ..., sn ) = αn e−αsn 1{0<s1 <....<sn } .
Beweis: (a) ist gerade die Definition des Poisson-Prozesses. Wir beweisen (c),(b) für
n = 2. Für größere n funktioniert es analog.
(c) Für beliebige s01 < s1 < s02 < s2 ist
P (s01 < S1 ≤ s1 , s02 < S2 ≤ s2 ) = P (N[0,s01 ] = 0, N(s01 ,s1 ] = 1, N(s1 ,s02 ] = 0, N(s02 ,s2 ] ≥ 1)
= P (N[0,s01 ] = 0)P (N(s01 ,s1 ] = 1)P (N(s1 ,s02 ] = 0)P (N(s02 ,s2 ] ≥ 1)
0 0
0 1
0 0
(α(s02 − s1 ))0 0 (αs1 )
0 (α(s1 − s1 ))
0
0 (α(s2 − s2 ))
= e−αs1
e−α(s1 −s1 )
e−α(s2 −s1 )
1 − e−α(s2 −s2 )
0!
1!
0!
0!
−αs02
−αs2
0
= α(s1 − s1 )(e
−e
).
Rs
Rs
Andererseits ist die Wahrscheinlichkeit von der Form s01 dt1 s02 dt2 f (t1 , t2 ), daher er1
2
halten wir die Dichte durch partielles ableiten:
fS1 ,S2 (s1 , s2 ) = ∂s1 ∂s2 P (.....) = α · αe−αs2 = α2 e−αs2 .
(b) S1 = T1 , S2 = T1 + T2 . Die Transformation
s1 = t1 , s2 = t1 + t2 ist ein Diffeomor1 0
phismus mit Jacobi-Determinante J =
, det J = 1. Nach Transformationssatz
1 1
und (c) folgt daher fT1 ,T2 (t1 , t2 ) = α2 e−α(t1 +t2 ) · 1 = αe−αt1 αe−αt2 . Hieraus folgt die
Behauptung.
5.3
Normalverteilung
39
Definition+Satz: T heißt exponentialverteilt mit Parameter α > 0 (T ∼ Exp α ),
falls T stetig ist mit Dichte fT (t) = αe−αt , t > 0. Es gilt E(T ) = α1 und V(T ) = α12 .
Beweis:
Z
∞
∞
Z
tf (t)dt =
E(T ) =
0
αte
−αt
dt = [−t ·
e−αt ]∞
0
und analog E(T 2 ) =
0
∞
+
0
0
R∞
Z
t2 f (t)dt = ... =
2
,
α2
e−αt dt =
1 −αt ∞
1
e |0 = ,
α
α
also V(T ) = E(T 2 ) − E(T )2 =
1
.
α2
Eine wichtige Eigenschaft der Exponentialverteilung ist die “Gedächtnislosigkeit”:
Satz: (Gedächtnislosigkeit.) Für T ∼ Exp α ist
P (T > s + t|T > t) = P (T > s),
d.h. die bisherige Wartezeit hat keinen Einfluss auf die zusätzliche Wartezeit.
Beweis: Hausaufgabe.
5.3
Normalverteilung
Die Normalverteilung spielt eine wichtige Rolle in vielen Anwendungen; warum dies so
ist, zeigt sich aber erst im Abschnitt über den zentralen Grenzwertsatz.
Definition: X heißt normalverteilt mit Parametern m ∈ R, v > 0 (X ∼ Nm,v ),
√ 1 e−
2πv
(x−m)2
2v
. N0,1 nennt man auch StandardRc
x2
Normalverteilung und setzt ϕ(x) := ϕ0,1 (x) = √12π e− 2 und Φ(c) := −∞ ϕ(x)dx.
falls X stetig ist mit Dichte ϕm,v (x) =
Es ist nicht so einfach zu sehen, ob ϕm,v überhaupt eine Dichtefunktion ist:
R
Lemma: Für alle m ∈ R, v > 0 ist ϕm,v (x)dx = 1.
Beweis: Mit der Substitution y =
x−m
√
v
ergibt sich
Z
Z
(x−m)2
y2
1
1
− 2v
√
√ e− 2 dy, und somit
I :=
e
dx =
2πv
2π
Z
Z ∞ Z 2π
Z ∞
2
2
2
r2
r2
1
1
2
− x2 − y2
− r2
I =
dxdye e
=
dr
dϕ r · e
=
dr r · e− 2 = −e− 2 |∞
0 = 1.
2π
2π 0
0
0
Hier sind wir zu Polarkoordinaten übergegangen:
x = r cos ϕ, y= r sin ϕ. Man erhält
r
cos
ϕ −r sin ϕ
r2 = x2 + y 2 und für die Jacobi-Matrix J =
ergibt sich | det J| =
r sin ϕ r cos ϕ
r cos2 ϕ + r sin2 ϕ = r und somit dxdy = rdrdϕ.
5.3
Normalverteilung
40
Rc
x2
Bemerkung: Φ(c) = √12π −∞ e− 2 kann nicht analytisch integriert werden. Φ kann
man entweder mittels numerischer Integration berechnen, oder man verwendet entsprechende Tabellen, die die Werte von Φ(c) für c > 0 enthalten. Für die Werte c < 0
verwendet man dann einfach die Relation Φ(−x) + Φ(x) = 1.
Satz: Eigenschaften der Normalverteilung.
(a) Für X ∼ Nm,v und Y := aX + b mit a 6= 0 ist Y ∼ Nam+b,a2 v .
v 2
(b) Für X ∼ Nm,v ist E(X) = m, V(X) = v und MX (t) = emt+ 2 t .
(c) Sind X1 ∼ Nm1 ,v1 und X2 ∼ Nm2 ,v2 unabhängig, so gilt X1 + X2 ∼ Nm1 +m2 ,v1 +v2 .
Lösung:
1
(a) Nach Hausaufgabe ist fY (y) = fX ( y−b
)· |a|
=
a
1 −
√1
e
2πv |a|
t2
2
y−b
( a −m)2
2v
=
√ 1
·e−
2πa2 v
(y−ma−b)2
2a2 v
.
t2
2
(b) Für X ∼ N0,1 ist nach Hausaufgabe MX (t) = e . Aus MX0 (t) = te , MX00 (t) =
t2
(1 + t2 )e 2 √folgt E(X) = 0, E(X 2 ) = 1, also V(X) = 1. Nun betrachten wir Y = aX + b.
Für a = v, b = m ist Y ∼ Nm,v nach (a), und wir erhalten MY (t) = MX (at) · etb ,
E(Y ) = aE(X) + b = b, V(Y ) = a2 V(X) = v. Hieraus ergeben sich die Behauptungen.
v1 2
v2 2
v1 +v2 2
(c) MX1 +X2 (t) = MX1 (t)MX2 (t) = em1 t+ 2 t em2 t+ 2 t = e(m1 +m2 )t+ 2 t ist die Momentenerzeugende Funktion von Nm1 +m2 ,v1 +v2 . Nach dem Eindeutigkeitssatz folgt die
Behauptung.
Nun betrachten wir lineare Transformationen unabhängiger normalverteilter ZVen:
Definition:
und Vektoraddition)
mit
  Sei X = AZ
 + b (Matrixmultiplikation
 

b1
a11 . . . a1n
Z1
 .. 
 ..



.
m
m×n
..  ∈ R
b= . ∈R ,A= .
und Z =  ...  mit unabhängigen
bm
am1 . . . amn
Zn
Zi ∼ N0,1 , d.h. die Xi seien Linearkombinationen der Zi :
X1 = a11 Z1 + ... + a1n Zn + b1 ,
...
, Xm = am1 Z1 + ... + amn Zn + bm .
Die Xi heißen multivariat normalverteilt: X ∼ Nb,C mit C := AAT .
Bemerkung:
• Ist X multivariat normalverteilt, so ist nach dem letzten Satz jedes Xi normalverteilt. Umgekehrt sind normalverteilte Zufallsvariablen nicht unbedingt gemeinsam multivariat normalverteilt. Die multivariate Normalverteilung ist eine sehr
spezielle gemeinsame Verteilung normalverteilter ZVen.
• C = AAT ist automatisch symmetrisch und positiv semidefinit. Wir zeigen umgekehrt, dass abgesehen von dieser Einschränkung zu vorgegebenen Parametern
b, C genau eine zugehörige multivariate Normalverteilung Nb,C existiert.
• Im Gegensatz dazu können verschiedene Matrizen A zur gleichen multivariaten
Normalverteilung führen, nämlich wenn C = AAT gleich ist.
5.3
Normalverteilung
41





m1
σ1
0
σ12
 



...
...
Beispiel: Ist b =  ... , A = 
 und C = AAT = 
mn
0
σn
0
gegebene mi , σi ∈ R und X = AZ + b ∼ Nm,C , so sind die Xi = σi Zi + σi2
unabhängig. Unabhängige Normalverteilungen entsprechen demnach genau
C Diagonalmatrix.
0


 für
σn2
∼ Nmi ,σi2
Nb,C mit
Satz: Ist b ∈ Rn und C ∈ Rn×n symmetrisch und positiv semidefinit, so gibt es eine
zugehörige multivariate Normalverteilung (Nb,C ).
Beweis: Es genügt ein A ∈ Rn×n zu finden mit AAT = C, denn dann wählt man
Z1 , ..., Zn unabhängig ∼ N0,1 und setzt X = AZ + b, und erhält so X ∼ Nb,C . Da C
symmetrisch ist, gibt es eine orthogonale Matrix M (M −1 = M T ) und eine Diagonalmatrix D mit C = M DM −1 . Seien di die Diagonaleinträge von D, d.h. die Eigenwerte
von C. Da C positiv semi-definit√ist, gilt di ≥ 0, denn für jeden Eigenvektor v√
i ist
2
t
t
0 ≤ vi Cv
√i = vi di vi = di kvi k . Sei D die Diagonalmatrix mit Diagonaleinträgen di .
A := M DM −1 hat dann die gewünschte Eigenschaft:
√
√ √
√ T
AAT = M DM −1 (M −1 )T D M T = M D DM T = M DM T = C.
denn M −1 (M −1 )T = M T (M −1 )T = (M −1 M )T .
Hieraus folgt die Existenz der multivariaten Normalverteilung zu vorgegebenen Parametern. Deren Eindeutigkeit folgt aus dem folgenden Satz ((b) oder (c)), ebenso wie
die Bedeutung der Parameter ((a)):
Satz: Sei X = AZ + b ∼ Nb,C wie in obiger Definition.
(a) X hat Erwartungsvektor b, Kovarianzmatrix C.
(b) Ist A invertierbar, so gilt fX (x1 , ..., xm ) =
1
1
m
1
(2π) 2 | det C| 2
1
T C −1 (x−b)
e− 2 (x−b)
.
1 T
Ct+tT b
(c) MX (t1 , ..., tm ) = e 2 t
(d) Ist Y = BX + c mit B ∈ Rk×m , c ∈ Rm , so ist Y ∼ NBb+c,BCB T .
Beweis:
P
P
(a) E(Xi ) = E( j aij Zj + bi ) = j aij E(Zj ) + bi = bi wegen E(Zj ) = 0 und
X
XX
X
Cov(Xi , Xj ) = Cov
aik Zk + bi ,
ajl Zl + bj =
aik ajl Cov(Zk , Zl )
k
=
X
k,l:k6=l
aik ajl · 0 +
l
X
k,l:k=l
aik ajl V(Zk ) =
k
X
l
aik ajk = (AAT )ij .
k
Q
1 T
2 )
1
− 1 (z 2 +...+zm
= (2π)1m/2 e− 2 z z . Die Behaup(b) Es ist fZ (z1 , ..., zm ) = i fZi (zi ) = √2π
me 2 1
tung folgt damit aus dem Transformationssatz: x = Az + b ist ein Diffeomorphismus,
1
z = A−1 (x − b), dx
= A, | det A| = | det C| 2 wegen | det A|2 = | det A det AT | = | det C|
dz
und z T z = (x − b)T (A−1 )T (A−1 )(x − b) = (x − b)T C −1 (x − b).
5.3
Normalverteilung
42
P
P
P
P
(c) Sei X̄ =P i ti Xi , so ist X̄P∼ Nm,vPmit m = E(
t
X
)
=
t
E(X
)
=
i
i
i
i
i
i t i bi
P i
P
und v = V( i ti Xi ) = Cov( i ti Xi , j tj Xj ) = i,j ti tj Cov(Xi , Xj ) = i,j ti tj cij .
Hiermit ergibt sich
MX (t1 , ..., tn ) = E(e
P
i ti Xi
v
2
1 T
Ct+tT b
) = E(eX̄ ) = MX̄ (1) = em·1+ 2 ·1 = e 2 t
.
(d) Y = BX + c = B(AZ + b) + c = (BA)Z + (Bb + c) ist multivariat normalverteilt
mit Kovarianzmatrix BA(BA)T = BAAT B T = BCB T .
Bemerkung:
• Normalerweise ist Unabhängigkeit eine stärkere Eigenschaft als Unkorreliertheit.
Für multivariat normalverteilte ZVen Xi sind diese Eigenschaften aber identisch:
Die Xi sind genau dann unkorreliert, wenn C eine Diagonalmatrix ist. Nach
obigem Beispiel bedeutet das aber gerade, dass die Xi unabhängig sind.
• Nach (d) ist jede affine Transformation einer multivariaten Normalverteilung wieder multivariat normalverteilt. Ist insbesondere X ∼ N0,I und M orthogonal
(M −1 = M T ), so ist Y := M X ∼ N0,I , denn Y hat Kovarianzmatrix M M T = I.
Demnach sind unabhängige Standardnormalverteilungen invariant unter beliebigen Drehungen.
• Die Dichte der multivariaten Normalverteilung ist zum Rechnen relativ unhandlich. Oft verwendet man besser die Definition der multivariaten Normalverteilung
und obige Unabhängigkeitsaussagen.
Beispiel: Seien X1 , X2 unabhängig und N0,1 -verteilt. Bestimmen Sie die Verteilung
von Y1 = 2X1 − 3X2 , Y2 = 3X1 + 2X2 .
Beweis: (Y1 , Y2 ) ist nach Definition multivariat normalverteilt mit E(Y1 ) = 0 + 0 = 0,
V(Y1 ) = 4 + 9 = 13, E(Y2 ) = 0, V(Y2 ) = 13 und Cov(Y1 , Y2 ) = Cov(2X1 − 3X2 , 3X1 +
2X2 ) = 6 − 6 = 0, d.h. Y1 , Y2 sind unabhängig und N0,13 -verteilt.
6 Grenzwertsätze
6
6.1
43
Grenzwertsätze
Gesetz der großen Zahl
Eine empirische Beobachtung bei häufigem Würfeln mit einem fairen Würfel ist, dass
n
ungefähr 3, 5 = E(Xi ) ist. Anders ausgedrückt:
der Mittelwert von n Würfen X1 +...+X
n
Der Stichprobenmittelwert (zeitliches Mittel) ist ungefähr gleich dem Erwartungswert
(Mittelwert bei einem Experiment). Bevor wir diesen Sachverhalt erklären können,
müssen wir ihn präzise beschreiben, z.B. als
X1 + ... + Xn
→ E(Xi )
n
für n → ∞,
wobei aber nicht klar ist, was mit der Konvergenz von Zufallsvariablen gemeint ist. Es
kann ja durchaus vorkommen, dass Xi = 1 für alle i. In diesem Fall konvergiert der
Mittelwert gegen 1 6= E(Xi ), andererseits ist dies aber auch extrem unwahrscheinlich.
Gemeint ist hier also so etwas wie: der Mittelwert ist für große n mit hoher Wahrscheinlichkeit nahe bei E(Xi ). Hierfür sind unterschiedliche mathematische Präzisierungen
möglich, die jeweils zu unterschiedlichen Gesetzen der großen Zahl führen.
6.1.1
Schwaches Gesetz der großen Zahl
Definition: (Stochastische Konvergenz.) Seien Yn , Y : Ω → R Zufallsvariablen.
p
Wir schreiben Yn → Y stochastisch (oder Yn →Y ), wenn
∀ > 0 :
P (|Yn − Y | > ) → 0.
Bemerkung: Dies kann man folgendermaßen interpretieren: Der Wert von Yn liegt
für großes n nahe bei Y . Bei fester Schranke > 0 gibt es für jedes n Ausnahmebeobachtungen ω ∈ {|Yn − Y | > }, aber diese werden bei wachsendem n zunehmend
unwahrscheinlich.
Um Wahrscheinlichkeiten wie in obiger Definition abschätzen zu können benötigen wir
geeignete Werkzeuge:
Satz: Sei X eine reelle Zufallsvariable und a > 0.
(a) Ist X ≥ 0 und X ∈ L1 , so gilt P (X ≥ a) ≤
(b) Ist X ∈ L2 , so gilt P (|X − E(X)| ≥ a) ≤
E(X)
a
V(X)
a2
(Markov-Ungleichung).
(Chebyshev-Ungleichung).
Beweis:
(a) Um eine Wahrscheinlichkeit gegen einen Erwartungswert abschätzen zu können,
müssen wir zunächst eine Zufallsvariable gegen eine Indikatorfunktion abschätzen. Hier
ist X ≥ a1{X≥a} , denn ist X < a, so ist die rechte Seite 0 und die linke ≥ 0. Ist X ≥ a,
so ist die rechte Seite a und die linke ≥ a. Wegen der Monotonie der Erwartung folgt
E(X) ≥ E(a1{X≥a} ) = aE(1{X≥a} ) = aP (X ≥ a).
6.1
Gesetz der großen Zahl
44
(b) Durch Anwendung von (a) auf Y := (X − E(X))2 ≥ 0 (Y ∈ L1 ) erhält man
P (|X − E(X)| ≥ a) = P (Y ≥ a2 ) ≤
E(Y )
V(X)
=
.
2
a
a2
Satz: (Schwaches Gesetz der großen Zahl.) Sind X1 , X2 ... unabhängig, mit gleicher Verteilung und mit Xi ∈ L2 , so gilt
X1 + ... + Xn
→ E(Xi ) stochastisch
n
für n → ∞.
Beweis: Sei m = E(Xi ), v = V(Xi ). (Wegen der gleichen Verteilung ergeben sich
gleiche Erwartungswerte und gleiche Varianzen.) Es gilt
E
und
X + ... + X 1 X
1
1X
1
n
E(Xi ) = nm = m
= E(
Xi ) =
n
n
n i
n
i
X + ... + X 1 X
1 X
1
v
1
n
V
= 2 V(
Xi ) = 2
V(Xi ) = 2 nv = .
n
n
n i
n
n
i
Sei > 0, so folgt aus der Ungleichung von Chebyshev:
X + ... + X
v/n
1
n
P − m > ≤ 2 → 0.
n
6.1.2
Starkes Gesetz der großen Zahl
Definition: (Fast sichere Konvergenz.) Seien Yn , Y : Ω → R reelle Zufallsvariablen.
Wir schreiben Yn → Y fast sicher (oder f.s.), falls P (Yn → Y ) = 1.
Bemerkung: Dies kann man folgendermaßen Interpretieren: Für praktisch jede Beobachtung ω gilt: Yn (ω) → Y (ω). Es gibt zwar Ausnahmen, aber diese haben Wahrscheinlichkeit 0.
Satz: (Starkes Gesetz der großen Zahl.) Sind X1 , X2 ... unabhängig, mit gleicher
Verteilung und mit Xi ∈ L1 , so gilt
X1 + ... + Xn
→ E(Xi ) fast sicher
n
Beweis: probability theory
für n → ∞.
Das starke Gesetz der großen Zahl ist tatsächlich “stärker” als das schwache, da es
dieses impliziert. Um sich davon zu überzeugen, genügt es nachzuprüfen, dass fast
sichere Konvergenz stochastische Konvergenz impliziert:
6.1
Gesetz der großen Zahl
45
Lemma: Seien Yn , Y : Ω → R reelle Zufallsvariablen.
Yn → Y fast sicher
⇒
Yn → Y stochastisch.
Beweis: Sei > 0. Es gilt
{|Yn − Y | > } ⊂ {∃n0 ≥ n : |Yn0 − Y | > } =: An ↓ A :=
\
An
n
mit
A = {∀n∃n0 ≥ n : |Yn0 − Y | > } ⊂ {Yn 6→ Y }.
Gilt nun Yn → Y fast sicher, so folgt P (A) = 0, und mit der σ-Stetigkeit von P folgt
P (An ) → 0. Es folgt Yn → Y stochastisch.
Bemerkung:
• Zu beiden Gesetzen gibt es Verallgemeinerungen, z.B. auf den Fall, dass die Xn
nicht mehr unabhängig sind oder nicht mehr die gleiche Verteilung haben.
• Das schwache GgZ trifft eine Aussage für das Verhalten nach endlicher Zeit n,
dafür hat die Ausnahmemenge (zwar kleine) aber doch positive Wahrscheinlichkeit, genauer gilt:
V(X )
X + ... + X
1
i
n
− E(Xi ) > ≤
.
P 2
n
n
Man kann also abschätzen, wie nahe man beim Erwartungswert nach n Experimenten liegt. Das schwache Gesetz ist daher vor allem für die Praxis interessant.
• Das starke GgZ trifft eine Aussage für das Verhalten nach “unendlicher”, d.h.
beliebig langer Zeit, dafür hat die Ausnahmemenge Wahrscheinlichkeit 0. Das
starke Gesetz ist daher eher theoretisch interessant.
• Beide Konvergenztypen von Zufallsvariablen haben viele der Eigenschaften der
normalen Konvergenz von reellen Zahlen, z.B. gilt für reelle Zufallsvariablen
Xn , Yn , X, Y mit Xn → X, Yn → Y , reelle Zahlen cn , c mit cn → c und eine
stetige Funktion h : R → R auch
Xn + Yn → X + Y,
cn Xn → cX
und
h(Xn ) → h(X).
6.2
Zentraler Grenzwertsatz
6.2
46
Zentraler Grenzwertsatz
Die Normalverteilung taucht in der Praxis in vielen verschiedenen Zusammenhängen
auf. Immer dann wenn ein zufälliger Wert S das Resultat vieler kleiner zufälliger Bestandteile ist, ist S ungefähr normalverteilt.
Zur Motivation des folgenden Satzes betrachten wir Sn ∼ Bin n,p . Sn kann interpretiert
werden als die Anzahl der Erfolge bis zum Zeitpunkt n in einem Bernoulliprozess Xi ,
i ≥ 1, mit Erfolgswahrscheinlichkeit p. Sn = X1 + ... + Xn ist das Resultat vieler kleiner
n −E(Sn )
= √Sn −np ungefähr N0,1 -verteilt sein. Was
Bestandteile, daher sollte Sn∗ = S√
V(Sn )
np(1−p)
bedeutet das für die Zähldichte?
Ein möglicher Wert von Sn∗ ist von der Form kn∗ = √kn −np
np(1−p)
mögliche Werte haben den Abstand √
1
.
np(1−p)
mit kn ∈ {0, 1, ...n}. Zwei
Um die diskrete Verteilung von Sn∗ und
die stetige Standard-Normalverteilung überhaupt vergleichen zu können muss man die
Punktmasse von Sn∗ also mit der Masse der Normalverteilung auf einem Intervall der
vergleichen. Wir erwarten demnach, dass für große n
Länge √ 1
np(1−p)
P (Sn = kn ) =
P (Sn∗
=
kn∗ )
Z
∗+ √
kn
2
≈
∗− √
kn
2
1
np(1−p)
1
np(1−p)
1
ϕ(kn∗ ).
ϕ(x)dx ≈ p
np(1 − p)
Satz: (Grenzwertsatz von deMoivre-Laplace.) Seien Sn ∼ Bin n,p und a, b ∈ R.
(a) Für beliebige Folgen kn ∈ {0, ..., n} mit kn∗ ∈ [a, b] gilt
ϕ(kn∗ )
p
→1
np(1 − p)P (Sn = kn )
für
n → ∞,
und zwar sogar gleichmäßig für alle solchen Folgen.
(b) Es gilt
P (a ≤
Sn∗
Z
≤ b) →
b
ϕ(x)dx = Φ(b) − Φ(a).
a
Beweis: −. Den Grenzwert in (a) erhält man durch Anwenden der Stirling-Formel für
n! und anschließende geeignete Taylor-Approximation. (b) folgt aus (a) durch aufsummieren der Wahrscheinlichkeiten.
Bemerkung:
• (a) heißt “lokale Normalapproximation” und kann verwendet werden zur Annäherung von Wahrscheinlichkeiten der Form P (Sn = k).
• (b) heißt “Normalapproximation” und kann verwendet werden zur Annäherung
von Wahrscheinlichkeiten der Form P (a0 ≤ Sn ≤ b0 ).
6.2
Zentraler Grenzwertsatz
47
Für die Konvergenz in (b) genügt FSn∗ (c) → Φ(c) für alle c ∈ R, denn dann folgt
P (a < Sn∗ ≤ b) = FSn∗ (b) − FSn∗ (a) → Φ(b) − Φ(a). Dies motiviert den folgenden
Konvergenzbegriff:
Definition: (Verteilungskonvergenz.) Seien Yn , Y reelle Zufallsvariablen. Man schreibt
d
Yn → Y in Verteilung (oder Yn →Y ), wenn
FYn (c) → FY (c) für alle Stetigkeitsstellen c von FY .
Bemerkung: Die Verteilungsfunktion Φ der Standard-Normalverteilung ist überall
stetig, daher muss dann obige Konvergenz für alle c ∈ R gelten.
Obige Definition über die Verteilungsfunktion ist für viele Zwecke praktisch. Für unsere
Zwecke ist es aber einfacher, mit momentenerzeugenden Funktionen zu argumentieren:
Lemma: Seien Yn , Y reelle Zufallsvariablen, deren momentenerzeugende Funktionen
existieren. Falls MYn (t) → MY (t) für alle t ∈ R, so gilt Yn → Y in Verteilung.
Beweis: −.
Satz: (Zentraler Grenzwertsatz.) Sind X1 , X2 , ... ∈ L2 unabhängig, mit gleicher
Verteilung und m := E(Xi ), v := V(Xi ) > 0, so gilt für Sn := X1 + ... + Xn :
X1 + ... + Xn − nm
Sn − E(Sn )
√
=
→ N0,1
Sn∗ = p
nv
V(Sn )
in Verteilung.
Beweis: (Für den Fall, dass Xi eine Momentenerzeugende Funktion besitzt.) Wir
i −m
betrachten die Standardisierungen Xi∗ = X√
. Es ist dann
v
Sn∗ =
X ∗ + ... + Xn∗
X1 + ... + Xn − nm
√
= 1 √
nv
n
und E(Xi∗ ) = 0 und V(Xi∗ ) = 1. Die momentenerzeugende Funktion von Sn∗ ist daher
X1∗ +...+Xn∗ ∗ t
∗ t ∗ t √
X1 √n
X √
X √
t
Xn∗ √tn
n
∗
MSn (t) = E e
=E e
· ... · e
= E e 1 n ...E e n n ,
wegen der Unabhängigkeit der Zufallsvariablen. Die Erwartungen im letzten Term sind
gerade MXi∗ ( √tn ), und da die Xi die gleiche Verteilung haben, sind diese momentenerzeugenden Funktionen alle gleich. Nach Taylorentwicklung ist für festes t
t
t
1
t
t
MXi∗ ( √ ) = MXi∗ (0) + MX0 i∗ (0) √ + MX00 i∗ (0)( √ )2 + o(( √ )2 )
n
n 2
n
n
t
1
t
1
t2
1
= 1 + E(Xi∗ ) √ + E((Xi∗ )2 )( √ )2 + o( ) = 1 +
+ o( ).
n
2n
n
n 2
n
Es folgt
t2
1 n
2
MSn∗ (t) = 1 +
+ o( ) → et /2 .
2n
n
Dies ist aber gerade die momentenerzeugende Funktion der Standard-Normalverteilung.
Mit dem Lemma folgt daher die Behauptung.