Stochastik

Stochastik
Prof. Dr. Ulrich Horst
Wintersemester 2013/2014
Institut für Mathematik
Mathematisch-Naturwissenschaftliche Fakultät II
Humboldt-Universität zu Berlin
Dieses Skript wurde von Alexander Prang
in Anlehnung an die Vorlesung erstellt.
Für die Korrektheit des gesamten
Inhaltes gibt es keine Garantie.
Fragen, Fehler und Anmerkungen:
[email protected]
Letzte Änderung: 7. Februar 2014
1
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Inhaltsverzeichnis
Allgemeine Orientierung
1 Kombinatorische Analyse
1.1 Grundprinzip des Zählens . . . . . . .
1.2 Permutation . . . . . . . . . . . . . . .
1.3 Variation und Kombination . . . . . .
1.4 Multinomialkoeffizient . . . . . . . . .
1.5 Anzahl der ganzzahligen Lösungen von
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
6
7
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
9
10
11
3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . .
3.2 Gesetz der totalen Wahrscheinlichkeit und Satz von Bayes . .
3.3 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . .
3.4 Formalisierung von Versuchsfolgen . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
15
17
19
4 Diskrete Zufallsvariablen
4.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . .
4.2 Erwartungswert und Varianz diskreter Zufallsvariablen
4.3 Spezielle diskrete Verteilungen . . . . . . . . . . . . .
4.3.1 Bernoulli-Verteilung . . . . . . . . . . . . . . .
4.3.2 Binomialverteilung . . . . . . . . . . . . . . . .
4.3.3 Poisson-Verteilung . . . . . . . . . . . . . . . .
4.3.4 Geometrische Verteilung . . . . . . . . . . . . .
4.3.5 Negative Binomialverteilung . . . . . . . . . . .
4.3.6 Hypergeometrische Verteilung . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
23
25
25
26
28
29
29
31
. . . . . . . . . .
. . . . . . . . . .
Zufallsvariablen
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
34
35
38
38
39
41
Exkurs: Mehrdimensionale Differentiation und Integration
Mehrdimensionale Differentiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mehrdimensionale Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
43
44
6 Gemeinsame Verteilung von Zufallsvariablen
6.1 Gemeinsame Verteilungsfunktion . . . . . . . . . . . . . . .
6.2 Unabhängige Zufallsvariablen . . . . . . . . . . . . . . . . .
6.3 Summen unabhängiger Zufallsvariablen . . . . . . . . . . .
6.4 Statistik für unabhängige normalverteilte Zufallsvariablen .
6.4.1 Das schwache Gesetz der großen Zahlen . . . . . . .
6.4.2 Schätzer für µ bei bekanntem σ . . . . . . . . . . . .
6.4.3 Schätzer für σ bei bekanntem µ . . . . . . . . . . . .
6.4.4 Schätzer für σ 2 bei bekanntem µ . . . . . . . . . . .
6.4.5 Schätzer für µ bei unbekannten σ . . . . . . . . . . .
6.5 Bedingte Verteilung von Zufallsvariablen . . . . . . . . . . .
6.5.1 Bedingte Verteilung diskreter Zufallsvariablen . . . .
6.5.2 Bedingte Verteilung absolutstetiger Zufallsvariablen
48
48
50
51
55
56
57
58
59
60
61
61
62
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
Gleichungen
2 Axiome der Wahrscheinlichkeitsrechnung
2.1 Mengenoperationen mit Ereignissen . . . . . . . . .
2.2 Axiome der Wahrscheinlichkeitsrechnung . . . . . .
2.3 Einfache Eigenschaften des Wahrscheinlichkeitsmaß
2.4 Laplace-Experimente . . . . . . . . . . . . . . . . .
5 Absolutstetige Zufallsvariablen
5.1 Approximation der Binomialverteilung . . .
5.2 Absolutstetige Zufallsvariablen . . . . . . .
5.3 Erwartungswert und Varianz absolutstetiger
5.4 Spezielle absolutstetige Verteilungen . . . .
5.4.1 Gleichverteilung . . . . . . . . . . .
5.4.2 Normalverteilung . . . . . . . . . . .
5.4.3 Exponentialverteilung . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Prof. Dr. Ulrich Horst
Stochastik
7 Eigenschaften des Erwartungswertes
7.1 Erwartungswert der Summe von Zufallsvariablen . . . . . .
7.2 Varianz, Kovarianz und Korrelation . . . . . . . . . . . . .
7.3 Bedingte Erwartung von Zufallsvariablen . . . . . . . . . .
7.3.1 Bedingte Erwartung diskreter Zufallsvariablen . . .
7.3.2 Bedingte Erwartung absolutstetiger Zufallsvariablen
Quellen
WS 2013/2014
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
65
69
69
70
72
3
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Allgemeine Orientierung
Ziel Bereitstellung eines mathematischen Modells mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist durch das Tripel (Ω, F, P) gegeben, dem sogenannten
Wahrscheinlichkeitsraum. Doch wofür stehen die Komponenten dieses Tripels?
• Ω ist eine nichtleere Menge, der Ergebnisraum. Die Elemente ω ∈ Ω heißen Ergebnisse und werden
als mögliche Ausgänge des Zufallsexperiments interpretiert.
• F ist eine σ-Algebra über der Grundmenge Ω, also eine Menge bestehend aus Teilmengen E von Ω,
die Ω enthält und abgeschlossen gegenüber der Bildung von Komplementen und abzählbaren Vereinigungen ist. Die Elemente E ∈ F heißen Ereignisse. Sei ω ∈ Ω die Realisierung eines Experiments,
dann sagen wir, dass das Ereignis E eingetreten ist, falls ω ∈ E gilt. Die σ-Algebra F selbst wird
auch Ereignisalgebra oder Ereignisfeld genannt.
• P ist eine Abbildung P : F → [0, 1] und heißt Wahrscheinlichkeitsmaß auf dem Messraum (Ω, F).
Frage Wie groß ist die Wahrscheinlichkeit eines Full House (z.B. 3 Damen und 2 Könige) beim Poker?
Man erhält 5 von 52 Karten, welche aus vier verschiedenen Farben (Kreuz ♣, Herz ♥, Pik ♠, Karo ♦)
und jeweils dreizehn Werten (2, 3, . . . , 9, 10, Bube, Dame, König, Ass) bestehen.
Antwort Die Menge der möglichen Versuchsausgänge Ω ist die Menge aller Pokerhände (z.B. Kreuz 8,
Kreuz Dame, Herz 8, Herz 9, Karo Ass). Das Ereignis E, welches von Interesse ist, ist das man ein Full
House bekommt.
P(E) =
4
|E|
|Ω|
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
1 Kombinatorische Analyse
1.1 Grundprinzip des Zählens
Lemma Wir betrachten zwei (verschiedene) Experimente. Das erste Experiment hat m ∈ N und das
zweite Experiment hat n ∈ N mögliche Ausgänge. Dann können wir Ω als Matrix wie folgt darstellen.


(1, 1) · · · (1, n)
 ..
.. 
..
 .
.
. 
(m, 1)
···
(m, n)
Nach dem Grundprinzip des Zählens gibt es also m · n mögliche Versuchsausgänge.
Satz Wir betrachten r (verschiedene) Einzelexperimente, wobei Experiment i mit 1 ≤ i ≤ r genau ni
mögliche Versuchsausgänge erlaubt. Dann gibt es nach dem verallgemeinerten Grundprinzip des Zählens
r
Y
ni = n1 · . . . · nr
mit
ni ∈ N
i=1
mögliche Versuchsausgänge für die r Experimente.
Beispiel Wie viele fünfstellige Berliner KFZ-Kennzeichen B- gibt es?
Lösung
Um diese Frage zu klären, geht man wie folgt vor.
• Lege den ersten Buchstaben fest. (26 Möglichkeiten)
• Lege den zweiten Buchstaben fest. (26 Möglichkeiten)
• Lege die erste Ziffer fest. (9 Möglichkeiten)
• Lege die zweite Ziffer fest. (10 Möglichkeiten)
• Lege die dritte Ziffer fest. (10 Möglichkeiten)
Damit ergeben sich 26 · 26 · 9 · 10 · 10 = 608.400 verschiedene Möglichkeiten.
Beispiel Wie viele fünfstellige Berliner KFZ-Kennzeichen B- gibt es ohne Wiederholungen?
Lösung
Um diese Frage zu klären, geht man wie folgt vor.
• Lege den ersten Buchstaben fest. (26 Möglichkeiten)
• Lege den zweiten Buchstaben fest. (25 Möglichkeiten)
• Lege die erste Ziffer fest. (9 Möglichkeiten)
• Lege die zweite Ziffer fest. (9 Möglichkeiten)
• Lege die dritte Ziffer fest. (8 Möglichkeiten)
Damit ergeben sich 26 · 25 · 9 · 9 · 8 = 421.200 verschiedene Möglichkeiten.
1.2 Permutation
Definition Gegeben sei eine Menge mit n ∈ N unterscheidbaren Objekten. Die möglichen Anordnungen aller n Elemente bezeichnet man als Permutation. Darf jedes der n Elemente jeweils nur einmal
vorkommen (Ziehen ohne Zurücklegen) so gilt für die Anzahl der möglichen Anordnungen Folgendes.
n! :=
n
Y
i = n · (n − 1) · . . . · 1
bzw.
n! := n · (n − 1)!
i=1
Beispiel Wie viele mögliche Tabellenstände in der Fußball-Bundesliga gibt es?
5
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Es gibt genau 18! = 6.402.373.705.728.000 mögliche Tabellenstände.
Beispiel Wie viele Tabellenstände gibt es, wo der BVB auf einem Abstiegsplatz steht?
Lösung
Um diese Frage zu klären, geht man wie folgt vor.
• Lege den Abstiegsplatz für den BVB fest. (3 Möglichkeiten)
• Platziere die restlichen 17 Vereine. (17! Möglichkeiten)
Es gibt also 3 · 17! = 1.067.062.284.288.000 Tabellenstände.
Beispiel Wie viele (unterscheidbare) Anordnungen können wir aus PEPPER bilden?
Lösung Es gibt 6! Möglichkeiten P1 E1 P2 P3 E2 R anzuordnen, jedoch liefern P1 E1 P2 P3 E2 R und P3 E2 P1 P2 E1 R
dasselbe Wort. Wir legen also zunächst die Plätze für P und E fest und lassen dann unsere P ’s und E’s
permutieren. Wir haben also 3! Möglichkeiten die P ’s und 2! Möglichkeiten die E’s zu permutieren. Die
Anzahl der unterscheidbare Anordnungen beträgt damit also
6!
= 60.
3! · 2!
1.3 Variation und Kombination
Definition Gegeben sei eine Menge mit n ∈ N Objekten. Die möglichen Anordnungen aus je k ≤ n
Elementen dieser Menge mit Berücksichtigung der Reihenfolge bezeichnet man als Variation.
(i) Darf jedes Element jeweils nur einmal vorkommen (ohne Zurücklegen) so gilt
n · (n − 1) · . . . · (n − k + 1) =
n!
(n − k)!
(ii) Darf jedes Element beliebig oft vorkommen (mit Zurücklegen) so gilt
n
. . · n} = nk
| · .{z
k-mal
Definition Gegeben sei eine Menge mit n ∈ N Objekten. Die möglichen Anordnungen aus je k ≤ n
Elementen dieser Menge ohne Berücksichtigung der Reihenfolge bezeichnet man als Kombination.
(i) Darf jedes Element jeweils nur einmal vorkommen (ohne Zurücklegen) so gilt
n
n!
n
=
=
k
n−k
(n − k)! · k!
(ii) Darf jedes Element beliebig oft vorkommen (mit Zurücklegen) so gilt
n+k−1
(n + k − 1)!
n+k−1
=
=
k
(n − 1)! · k!
n−1
Beispiel Es soll ein Komitee aus 3 Personen aus einer Gruppe von 20 Personen gebildet werden. Wie
viele verschiedene Komitees können gebildet werden?
Lösung
Es gibt
20
3
=
20 · 19 · 18
= 1140 verschiedene Möglichkeiten ein solches Komitee zu bilden.
3·2·1
Beispiel Es soll ein Komitee aus 2 Frauen und 3 Männern aus einer Gruppe von 5 Frauen und 7 Männern
gebildet werden. Wie viele verschiedene Komitees können gebildet werden?
5
7
mögliche Gruppen aus 2 Frauen und
mögliche Gruppen aus 3 Männern. Aus
2
3
5
7
dem Grundprinzip des Zählens folgt, dass es damit
·
= 350 mögliche Komitees gibt.
2
3
Lösung
Es gibt
6
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Wie viele verschiedene Poker-Hände gibt es?
Lösung
52
Man bekommt 5 von 52 Karten. Es gibt damit als
Möglichkeiten.
5
Beispiel Wie viele Möglichkeiten für ein Full House, also 3 Karten von einem Wert und 2 Karten von
einem anderen Wert, gibt es?
Lösung
Um diese Frage zu klären, geht man wie folgt vor.
• Wähle den ersten Wert. (13 Möglichkeiten)
• Wähle den zweiten Wert. (12 Möglichkeiten)
• Wähle 3 von 4 Farben für den ersten Wert.
4
3
Möglichkeiten
4
2 Möglichkeiten
• Wähle 2 von 4 Farben für den zweiten Wert.
4
4
Es gibt also insgesamt 13 · 12 ·
·
verschiedene Möglichkeiten ein Full House zu bekommen.
3
2
1.4 Multinomialkoeffizient
Definition Gegeben sei eine Menge mit n ∈ N Objekten. Die möglichen Anordnungen in k ≤ n Gruppen
mit jeweils ni ∈ N0 Objekten für i = 1, . . . , k sind durch den Multinomialkoeffizienten gegeben.
n
n1 , . . . , n k
n!
= n! ·
=
n1 ! · . . . · nk !
k
Y
!−1
ni !
mit
i=1
k
X
ni = n
i=1
Beispiel Wie viele Möglichkeiten gibt es 10 Studierende auf 2 Teams (A und B) zu je 5 zu verteilen?
Lösung
Es gibt insgesamt
10
10!
= 252 verschiedene Möglichkeiten.
=
5, 5
5! · 5!
Beispiel Wie viele Möglichkeiten gibt es 10 Studierende auf 2 Teams zu je 5 zu verteilen?
Lösung
Da die Teams nicht unterscheidbar sind, gibt es
10!
= 126 verschiedene Möglichkeiten.
5! · 5! · 2!
1.5 Anzahl der ganzzahligen Lösungen von Gleichungen
Frage Wie viele positive ganzzahligen Lösungen gibt es, welche die folgende Gleichung erfüllen?
k
X
xi = x1 + . . . + xk = n mit
k ≤ n und xi ∈ N für i = 1, . . . , k
i=1
Lösung Gegeben seien n nicht unterscheidbare Objekte, welche aneinandergereiht sind. Diese Objekte
sollen in k nichtleere Gruppen unterteilt werden. Man kann k − 1 der n − 1 Zwischenräume zwischen
benachbarten Objekten als Teilungspunkte auswählen. Zum Beispiel erhält man für n = 8 und k = 3,
mit der Wahl der zwei Teiler wie folgt, das folgende Schema.
∗ ∗ ∗ | ∗ ∗ ∗ | ∗∗
Sei xk die Anzahl der Sterne zwischen dem (k − 1)-ten und k-ten gewählten Zwischenraum. Die so
definierten (x1 , . . . , xk ) liefern eine Lösung; umgekehrt ist jede Lösung von dieser Form. Die Anzahl der
verschiedenen positiven ganzzahligen Lösungen ist damit wie folgt.
n−1
k−1
7
Prof. Dr. Ulrich Horst
Proposition
Stochastik
WS 2013/2014
Die Anzahl der verschiedenen positiven ganzzahligen Lösungen, welche die Gleichung
k
X
xi = x1 + . . . + xk = n mit
k ≤ n und xi ∈ N
für i = 1, . . . , k
i=1
erfüllen, ist durch den folgenden Binomialkoeffizienten gegeben.
n−1
k−1
Frage Wie viele nichtnegativen ganzzahligen Lösungen gibt es, welche die folgende Gleichung erfüllen?
k
X
xi = x1 + . . . + xk = n mit
k ≤ n und xi ∈ N
für i = 1, . . . , k
i=1
Lösung
Sei (x∗1 , . . . , x∗k ) mit x∗i ∈ N0 eine nichtnegative Lösung dieser Gleichung. Dann liefert
yi = x∗i + 1 ∈ N
für i = 1, . . . , k
eine Lösung der Gleichung
k
X
yi = y1 + . . . + yk = n + r
i=1
Die Anzahl der verschiedenen nichtnegativen ganzzahligen Lösungen ist damit wie folgt.
n+k−1
k−1
Proposition
Die Anzahl der verschiedenen nichtnegativen ganzzahligen Lösungen, welche die Gleichung
k
X
xi = x1 + . . . + xk = n mit
k≤n
und xi ∈ N
für i = 1, . . . , k
i=1
erfüllen, ist durch den folgenden Binomialkoeffizienten gegeben.
n+k−1
k−1
Beispiel Sie investieren 20.000 e in 4 unterschiedliche Wertpapiere. Sie können in Vielfachen von 1.000 e
investieren. Wie viele Möglichkeiten haben Sie?
Lösung
Sei xi für i = 1, . . . , 4 das Investment (in 1.000 e) in Wertpapieren. Dann gilt
Es gibt also
x1 + x2 + x3 + x4 = 20 mit xi ∈ N0
20 + 4 − 1
23
=
Möglichkeiten.
4−1
3
8
für i = 1, . . . , 4
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
2 Axiome der Wahrscheinlichkeitsrechnung
2.1 Mengenoperationen mit Ereignissen
Definition Für zwei Ereignisse E und F seien folgende Mengenoperationen definiert.
(i) E ∪ F = {ω ∈ Ω | ω ∈ E ∨ ω ∈ F }
(Vereinigung)
(ii) E ∩ F = {ω ∈ Ω | ω ∈ E ∧ ω ∈ F }
(Schnitt)
(iii) E C = {ω ∈ Ω | ω ∈
/ E}
(Komplement)
Definition Für eine Folge von Ereignissen (En )n∈N sind Vereinigung und Schnitt wie folgt definiert.
[
\
En = {ω ∈ Ω | ∃n ∈ N : ω ∈ En } und
En = {ω ∈ Ω | ∀n ∈ N : ω ∈ En }
n∈N
n∈N
Definition Für drei Ereignisse E, F und G gelten folgende einfache Rechenregeln.
(i) E ∪ F = F ∪ E und E ∩ F = F ∩ E
(Kommutativgesetz)
(ii) (E ∪ F ) ∪ G = E ∪ (F ∪ G) und (E ∩ F ) ∩ G = E ∩ (F ∩ G)
(Assoziativgesetz)
(iii) (E ∪ F ) ∩ G = (E ∩ G) ∪ (F ∩ G)
(Distributivgesetz)
Satz Für eine Folge von Ereignissen (Ei )ni=1 gelten die De Morganschen Gesetze.
n
[
!C
Ei
n
\
=
EiC
n
\
und
i=1
i=1
!C
Ei
=
n
[
EiC
i=1
i=1
Beweis Es muss gezeigt werden, dass ein beliebiges Element ω in beiden Mengen enthalten ist.
!C
n
n
n
[
[
\
ω∈
Ei
⇔ ω∈
/
Ei ⇔ ω ∈
/ Ei ⇔ ω ∈ EiC ⇔ ω ∈
EiC
i=1
i=1
i=1
Um das zweite De Morganschen Gesetz zu beweisen, benutzt man das erste Gesetz.
!C
n
n
n
[
\
\
C
Ei
=
(EiC )C =
Ei
i=1
i=1
i=1
Bildet man nun auf beiden Seiten das Komplement, so erhält man das zweite De Morganschen Gesetz.
!C
n
n
\
[
Ei
=
EiC
i=1
i=1
Definition Sei (En ) eine Folge von Ereignissen. Die Folge heißt paarweise disjunkt, falls Folgendes gilt.
∀i 6= j : Ei ∩ Ej = ∅
Bemerkung
Für eine disjunkte Vereinigung zweier Ereignisse E und F schreibt man E t F oder E ∪˙ F .
2.2 Axiome der Wahrscheinlichkeitsrechnung
Definition Ein Wahrscheinlichkeitsmaß ist eine Funktion P : F → [0, 1], die folgenden Axiome erfüllt.
(i) P(Ω) = 1
(Normierung)
(ii) Für eine Folge (En )n∈N paarweise disjunkter Ereignisse aus F gilt
!
G
X
P
En =
P(En )
n∈N
n∈N
9
(σ-Additivität)
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Ein einfacher Münzwurf mit Ω = {K, Z} und F = P(Ω) = {∅, {K}, {Z}, Ω} hat die folgenden
Wahrscheinlichkeiten für die Ereignisse E1 = {K} und E2 = {Z}.
P(E1 ) =
1
= P(E2 )
2
2.3 Einfache Eigenschaften des Wahrscheinlichkeitsmaß
Proposition
Es sei P ein Wahrscheinlichkeitsmaß auf dem Messraum (Ω, F). Dann gilt
(i) P(∅) = 0
(ii) Für eine Folge (Ei )ni=1 paarweise disjunkter Ereignisse aus F gilt
!
n
n
G
X
P
Ei =
P(Ei )
i=1
(σ-Additivität)
i=1
Beweis
(i) Wähle En = ∅ für alle n ∈ N. Dann ist die Folge (En )n∈N paarweise disjunkt und es gilt
G
En = ∅
n∈N
Nach der σ-Additivität aus den Axiomen des Wahrscheinlichkeitsmaßes gilt nun.
!
G
X
X
P(∅) = P
En =
P(En ) =
P(∅)
n∈N
n∈N
n∈N
Dies ist offensichtlich nur erfüllt, wenn P(∅) = 0 gilt.
(ii) Sei En+1 = En+2 = . . . = ∅ (∗). Dann ist (En )n∈N eine Folge paarweise disjunkter Ereignisse. Nach
der σ-Additivität aus den Axiomen des Wahrscheinlichkeitsmaßes gilt nun.
!
!
n
n
G
X
G
P(∅)=0 X
(∗)
P
En =
P(En ) =
P(Ei ) = P
Ei
n∈N
Proposition
i=1
n∈N
i=1
Für ein Ereignis E gilt für die Wahrscheinlichkeit des Gegenereignisses E C Folgendes.
P(E C ) = 1 − P(E)
Beweis Dazu werden die Axiome des Wahrscheinlichkeitsmaßes und die vorige Proposition verwendet.
1 = P(Ω) = P(E ∪ E C ) = P(E) + P(E C )
Proposition
⇒
P(E C ) = 1 − P(E)
Für zwei Ereignisse E und F mit E ⊆ F gilt Folgendes.
P(E) ≤ P(F )
Beweis Da E ⊆ F gilt, kann man F wie folgt ausdrücken.
F = E ∪ (F ∩ E C )
Wendet man nun die σ-Additivität des Wahrscheinlichkeitsmaßes an, so erhält man Folgendes.
P(F ) = P(E ∪ (F ∩ E C )) = P(E) + P(F ∩ E C ) ≥ P(E)
| {z }
≥0
Frage Das Wahrscheinlichkeitsmaß ist für paarweise disjunkte Ereignisse σ-additiv. Was passiert jedoch
für nicht paarweise disjunkte Ereignisse?
Proposition
Für zwei Ereignisse E und F gilt P(E ∪ F ) = P(E) + P(F ) − P(E ∩ F ).
10
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Die beiden Ereignisse E und F kann man auch wie folgt ausdrücken.
E = (E ∩ F ) ∪ (E ∩ F C )
und F = (E ∩ F ) ∪ (E C ∩ F )
Dann gilt für die Wahrscheinlichkeit der Vereinigung der beiden Ereignisse Folgendes.
P(E ∪ F ) = P(E ∩ F ) + P(E ∩ F C ) + P(E C ∩ F )
= P(E ∩ F ) + P(E) − P(E ∩ F ) + P(F ) − P(E ∩ F )
= P(E) + P(F ) − P(E ∩ F )
Konsequenz
Ist der Ergebnisraum Ω diskret (endlich oder abzählbar unendlich), sprich es gilt
Ω = {ωk }nk=1
mit
n ∈ N ∪ {∞}
und ωk 6= ωl
für k 6= l,
so folgt mit En = {ωn }, da Ek ∩ El 6= ∅ für k 6= l, aus der σ-Additivität Folgendes.
:=Pk
!
G
P(E) = P
Ek
k:ωk ∈E
=
X
P(Ek )
k:ωk ∈E
Somit ist das Wahrscheinlichkeitsmaß P durch die Folge (Pk )nk=1 eindeutig festgelegt.
Pk ∈ [0, 1]
und
n
X
Pk = 1
k=1
Lemma Für zwei Ereignisse E und F gilt die Subadditivität P(E ∪ F ) ≤ P(E) + P(F ).
Beweis Der Beweis des Lemmas ist klar, da 0 ≤ P(E) ≤ 1 für alle E ∈ F gilt und damit
P(E ∪ F ) = P(E) + P(F ) − P(E ∩ F ) ≤ P(E) + P(F )
≥0
Allgemeiner Für drei Ereignisse E, F und G gilt
P(E ∪ F ∪ G) = P((E ∪ F ) ∪ G)
= P(E) + P(F ) + P(G) − P(E ∩ F ) − P((E ∩ G) ∪ (F ∩ G)
= P(E) + P(F ) + P(G) − P(E ∩ F ) − (P(E ∩ G) + P(F ∩ G) − P(E ∩ F ∩ G))
= P(E) + P(F ) + P(G) − P(E ∩ F ) − P(E ∩ G) − P(F ∩ G) + P(E ∩ F ∩ G)
Für eine Folge von Ereignissen (Ei )ni=1 gilt die Siebformel von Poincaré und Sylvester.
!
!
n
n
n
[
X
X
X
\
n+1
Ei =
P(Ei ) −
P(Ei1 ∩ Ei2 ) +
P(Ei1 ∩ Ei2 ∩ Ei3 ) − . . . + (−1)
P
Ei
Proposition
P
i=1
i=1
i1 <i2
i1 <i2 <i3
i=1
Bemerkung Diese Formel wird auch das Prinzip von Inklusion und Exklusion, Prinzip der Einschließung
und Ausschließung oder Einschluss-/Ausschluss-Verfahren genannt.
Beweis Ein solcher Beweis würde per Induktion über n ∈ N geführt werden.
2.4 Laplace-Experimente
Definition Sei Ω = {1, . . . , n} ein endlicher Grundraum. Es heißt {ω} ⊆ Ω ein Elementarereignis. Ein
Zufallsexperiment wird Laplace-Experiment genannt, wenn alle Versuchsausgänge gleich wahrscheinlich
sind, sprich alle Elementarereignisse die gleiche Wahrscheinlichkeit besitzen.
P(E) =
X
ω∈E
P({ω}) =
|E|
|Ω|
mit
P({ω}) =
11
1
1
=
|Ω|
n
für i = 1, . . . , n
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Ein fairer Würfel wird zweimal hintereinander geworfen. Wie hoch ist die Wahrscheinlichkeit,
dass die Augensumme sieben beträgt?
Lösung Der Grundraum ist Ω = {1, . . . , 6} × {1, . . . , 6} = {1, . . . , 6}2 mit der Mächtigkeit |Ω| = 36. Das
Ereignis E, dass die Augensumme sieben beträgt ist, besteht aus allen möglichen Tupeln, deren Summe
der Komponenten sieben beträgt.
E = {(m, n) | m + n = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}
Da jedes Elementarereignis gleich wahrscheinlich ist, folgt für die Wahrscheinlichkeit von E Folgendes.
P(E) =
|E|
6
1
=
=
|Ω|
36
6
Beispiel Wie groß ist die Wahrscheinlichkeit für ein Full House beim Poker?
Lösung Sei E das Ereignis, dass man ein Full House beim Poker besitzt. Die Anzahl der Möglichkeiten
für ein Full House wurde bereits gezeigt. Somit gilt für die Mächtigkeit von Ω und E Folgendes.
52
4
4
|Ω| =
und |E| = 13 · 12 ·
·
5
3
2
Da jede der Möglichkeiten auf ein Full House gleich wahrscheinlich ist, gilt Folgendes.
13 · 12 · 43 · 42
|E|
6
=
≈ 0,0014
P(E) =
=
52
|Ω|
4165
5
Beispiel Wie groß ist die Wahrscheinlichkeit, dass von n Personen keine zwei Personen am gleichen Tag
Geburtstag haben? (Dieses Problem ist bekannt als das Geburtstagsparadoxon.)
Lösung Sei Ω = {1, . . . , 365}n der Ergebnisraum und E das Ereignis, dass keine zwei Personen am
gleichen Tag Geburtstag haben. Die Wahrscheinlichkeit von E ist damit gegeben durch
P(E) =
365 · 364 · . . . · (365 − (n − 1))
365n
Beispiel Sei Ω die Menge aller bijektiven Funktionen f : {1, . . . , n} → {1, . . . , n}. Eine Funktion f besitzt
einen Fixpunkt, falls f (x) = x für ein x ∈ {1, . . . , n} gilt. Wie groß ist die Wahrscheinlichkeit, dass eine
zufällig gewählte Funktion keinen Fixpunkt besitzt?
Lösung
Zunächst einmal wird das Problem weniger abstrakt formuliert.
Die n Hüte von n Personen werden gemischt und jeder zieht zufällig einen. Wie groß ist die
Wahrscheinlichkeit, dass keiner der Besucher seinen eigenen Hut erhält?
Sei Ω = {(i1 , . . . , in ) | 1 ≤ ij ≤ n, ∀j 6= k : ij 6= ik }, wobei ω = (i1 , . . . , iN ) bedeutet, dass Besucher k
den Hut ik nimmt. Sei Ej das Ereignis, dass Besucher j den Hut ij = j bekommt, also seinen eigenen.
Ej = {(i1 , . . . , in ) ∈ Ω | ij = j}
für j = 1, . . . , n
Somit wird die folgende Wahrscheinlichkeit gesucht.



C 


n
n
n
\
[
[


P
EjC  = P 
Ej   = 1 − P 
Ej 
j=1
j=1
j=1
Im Folgenden muss die Siebformel von Poincaré und Sylvester angewendet werden. Es gilt




n
n
n
[
X
X
\
P
Ej  =
P(Ej ) −
P(Ej1 ∩ Ej2 ) + . . . + (−1)n+1 P 
Ej 
j=1
j=1
j1 <j2
j=1
12
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Für m ≤ n seien 1 ≤ j1 < . . . < jm ≤ n gegeben. Dann ist
Ej1 ∩ . . . ∩ Ejm = {(i1 , . . . , in ) ∈ Ω | ∀k = 1, . . . , n : ijk = jk }
Somit folgt für den Schnitt der Ereignisse die folgende Wahrscheinlichkeit.
!
n
\
(n − k)!
|Ej1 ∩ . . . ∩ Ejn |
P
=
Ejk =
|Ω|
n!
k=1
Damit gilt dann für die Wahrscheinlichkeit der Vereinigung der Ereignisse Folgendes.
!
n
[
(n − 2)!
1
(n − k)!
− |{(j1 , j2 ) | 1 ≤ j1 < j2 ≤ n}| ·
+ . . . + (−1)n+1 ·
P
Ei = n ·
n!
n!
n!
i=1
n
(n − 2)!
n
(n − 3)!
1
=1−
·
+
·
− . . . + (−1)n+1 ·
2
n!
3
n!
n!
1
1
1
= 1 − 1 − + − . . . + (−1)n+1 ·
2! 3!
n!
n
k
X
(−1)
=
k!
k=0
Für hinreichend große n folgt damit mit Hilfe der Reihendarstellung der Exponentialfunktion Folgendes.
!
∞
n
n
X
X
[
(−1)k
(−1)k
=
= e−1
lim P
Ei = lim
n→∞
n→∞
k!
k!
i=1
k=0
k=0
Somit gilt für große n, um die Ausgangsfrage zu beantworten, angenähert die folgende Wahrscheinlichkeit.




C 

n
n
n
[
\
[


Ej  ≈ 1 − e−1
P
EjC  = P 
Ej   = 1 − P 
j=1
j=1
j=1
13
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3.1 Bedingte Wahrscheinlichkeit
Beispiel Ein fairer Würfel wird zweimal hintereinander geworfen (Laplace-Experiment). Angenommen
der erste Wurf ist eine drei. Wie hoch ist die Wahrscheinlichkeit, dass die Augensumme acht beträgt?
Lösung Sei F das Ereignis, dass der erste Wurf eine drei war und E das Ereignis, dass die Augensumme
acht ist. Als Nächstes definiert man sich nun einen neuen Grundraum ΩF = {(3, 1), . . . , (3, 6)} und ein
neues Wahrscheinlichkeitsmaß PF auf ΩF . Dann gilt damit
∀ωF ∈ ΩF : PF (ωF ) =
1
|ΩF |
Die Wahrscheinlichkeit, dass die Augensumme acht beträgt, ist damit die Folgende.
PF (E) =
1
6
Definition Seien E und F zwei Ereignisse und P (F ) > 0. Dann ist die bedingte Wahrscheinlichkeit des
Eintretens von E unter der Bedingung, dass das Eintreten von F bereits bekannt ist, wie folgt definiert.
P(E | F ) =
P(E ∩ F )
P(F )
Für den Fall, dass P(F ) = 0 ist, setzt man P(E | F ) = 0.
Beispiel In einem Korb befinden sich 25 Glühbirnen. Von diesen 25 Glühbirnen sind
• 5 Glühbirnen gut und haben eine Lebensdauer von mehr als 30 Tagen,
• 10 Glühbirnen teilweise defekt und haben eine Lebensdauer von einem Tag,
• 10 Glühbirnen vollkommen defekt.
Sie wählen eine funktionierende Glühbirne aus. Wie groß ist die Wahrscheinlichkeit, dass die Birne in
einer Woche noch brennt?
Lösung Sei G das Ereignis, dass die Glühbirne gut ist und D das Ereignis, dass die Glühbirne teilweise
oder vollkommen defekt ist. Gesucht ist die Wahrscheinlichkeit P(G | DC ), welche sich wie folgt berechnet.
P(G | DC ) =
P(G ∩ DC )
5/25
1
=
=
P(DC )
15/25
3
Beispiel Frau Müllers Firma gibt ein Essen für alle Angestellten, die mindestens eine Tochter haben.
Frau Müller hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, das beides Mädchen sind, wenn Frau
Müller eingeladen wird?
Lösung Sei E das Ereignis, dass Frau Müller eingeladen wird, d. h. sie hat mindestens eine Tochter. Sei
Z das Ereignis, dass sie zwei Töchter hat.
P(Z | E) =
P(Z ∩ E)
P(Z)
1/4
1
=
=
=
P(E)
P(E)
3/4
3
Beispiel Sie sind indifferent zwischen einem Französisch- und einem Chemiekurs. Sie erwarten eine 1 in
• Französisch mit einer Wahrscheinlichkeit von 1/2,
• Chemie mit einer Wahrscheinlichkeit von 2/3.
Wir treffen eine Auswahl per Münzwurf. Wie groß ist die Wahrscheinlichkeit für eine 1 in Chemie?
14
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Sei C das Ereignis, dass der Chemiekurs gewählt worden ist und E jenes für eine 1.
P(C ∩ E) = P(E | C) · P(C) =
Proposition
1
2 1
· =
3 2
3
Sei P(F ) > 0. Dann ist P( · | F ) ein Wahrscheinlichkeitsmaß auf dem Messraum (Ω, F).
Beweis Um dies zu beweisen, müssen die Axiome des Wahrscheinlichkeitsmaßes verifiziert werden.
(i) Sei E ∈ F. Dann gilt P(E | F ) =
(ii) P(Ω | F ) =
P(E ∩ F )
∈ [0, 1], da P(E ∩ F ) ≤ P(F ).
P(F )
P(Ω ∩ F )
P(F )
=
=1
P(F )
P(F )
(iii) Sei (En )n∈N eine Folge paarweiser disjunkter Ereignisse. Dann ist (En ∩F )n∈N eine Folge paarweiser
disjunkter Ereignisse und somit gilt Folgendes.
!
F
F
G
P n∈N (En ∩ F )
P n∈N En ∩ F
=
P
En | F =
P(F )
P(F )
n∈N
P
X
P(En ∩ F )
= n∈N
=
P(En | F )
P(F )
n∈N
Allgemeiner Seien E1 , . . . , En Ereignisse. Dann gilt für die bedingte Wahrscheinlichkeit Folgendes.
!
!
i−1
n
n
\
Y
\
Ek = P(E1 ) · P(E2 | E1 ) · . . . · P(En | E1 ∩ . . . ∩ En−1 )
P Ei |
P
Ei =
i=1
i=1
k=1
Beispiel Wir betrachten 52 Karten in 4 Haufen. Wie groß ist die Wahrscheinlichkeit, dass sich in jedem
Haufen ein Ass befindet?
Lösung
Zuerst betrachten wir die Ereignisse E1 , E2 , E3 und E4 , die wie folgt gegeben sind.
• E1 sei das Ereignis, dass ein Pik Ass in einem Haufen ist.
• E2 sei das Ereignis, dass Pik Ass und Herz Ass in unterschiedlichen Haufen sind.
• E3 sei das Ereignis, dass Pik Ass, Herz Ass und Kreuz Ass in unterschiedlichen Haufen sind.
• E4 sei das Ereignis, dass alle Asse in unterschiedlichen Haufen sind.
Die Wahrscheinlichkeit des Schnittes der Ereignisse ist genau die gesuchte Wahrscheinlichkeit.
P(E1 ∩ . . . ∩ E4 ) = P(E1 ) · P(E2 | E1 ) · P(E3 | E1 ∩ E2 ) · P(E4 | E1 ∩ E2 ∩ E3 ) = P(E4 )
Ferner gilt für die bedingten Wahrscheinlichkeiten Folgendes.
39
26
13
, P(E3 | E1 ∩ E2 ) =
und P(E4 | E1 ∩ E2 ∩ E3 ) =
51
50
49
Damit ergibt sich für die gesuchte Wahrscheinlichkeit P(E4 ) ≈ 0,105.
P(E1 ) = 1,
P(E2 | E1 ) =
3.2 Gesetz der totalen Wahrscheinlichkeit und Satz von Bayes
Satz Für zwei Ereignisse E und F gilt das Gesetz der totalen Wahrscheinlichkeit.
P(E) = P(E | F ) · P(F ) + P(E | F C ) · P(F C )
Beweis Für zwei Ereignisse E und F gilt für die Wahrscheinlichkeit des Ereignisses E Folgendes.
P(E) = P(E ∩ F ) + P(E ∩ F C )
Die Wahrscheinlichkeiten lassen sich mit der bedingten Wahrscheinlichkeit wie folgt schreiben.
P(E ∩ F ) = P(E | F ) · P(F )
und P(E ∩ F C ) = P(E | F C ) · P(F C )
Damit gilt das Gesetz der totalen Wahrscheinlichkeit.
P(E) = P(E | F ) · P(F ) + P(E | F C ) · P(F C )
15
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Satz Für zwei Ereignisse E und F mit P(F ) > 0 lässt sich mit Hilfe des Satzes von Bayes die Wahrscheinlichkeit von E unter der Bedingung, dass F eingetreten ist, angeben durch die Wahrscheinlichkeit
von F unter der Bedingung, dass E eingetreten ist.
P(E | F ) =
P(F | E) · P(E)
P(F )
Beweis Für zwei Ereignisse E und F mit P(F ) > 0 gilt unter Nutzung der bedingten Wahrscheinlichkeit
und der Kommutativität des Schnittes zweier Ereignisse Folgendes.
P(E ∩ F )
P(E ∩ F ) P(E)
P(E ∩ F ) P(E)
=
·
=
·
P(F )
P(F )
P(E)
P(E)
P(F )
P(F ∩ E) P(E)
P(F | E) · P(E)
=
·
=
P(E)
P(F )
P(F )
P(E | F ) =
=P(F |E)
Beispiel Eine Versicherung unterteilt Kunden in Gruppen mit hohem und niedrigen Unfallrisiko. Kunden mit einem hohem Unfallrisiko haben einen Unfall mit einer Wahrscheinlichkeit von 0,4. Kunden mit
einem niedrigen Risiko haben einen Unfall mit einer Wahrscheinlichkeit von 0,2. Insgesamt haben 30%
der Kunden ein hohes Unfallrisiko. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig gewählter Kunde
einen Unfall hat?
Lösung Sei H das Ereignis, dass es sich um einen Kunden mit einem hohen Risiko handelt und sei U
jenes, dass ein Kunde einen Unfall hat. Gesucht wird also P(U ). Bekannt ist bereits P(U | H) = 0,4,
P(U | H C ) = 0,2, sowie P(H) = 0,3 und somit auch P(H C ) = 0,7. Damit lässt sich die Wahrscheinlichkeit
mittels des Gesetzes der totalen Wahrscheinlichkeit ermitteln.
P(U ) = P (U | H) · P(H) + P(U | H C ) · P(H C ) = 0,4 · 0,3 + 0,2 · 0,7 = 0,26
Beispiel Angenommen ein Kunde hat einen Unfall. Mit welcher Wahrscheinlichkeit gehört diese Person
zur Klasse mit dem hohen Risiko?
Lösung
Um diese Frage zu klären, wird der Satz von Bayes verwendet.
P(H | U ) =
0,4 · 0,3
6
P(U | H) · P(H)
=
=
P(U )
0,26
13
Beispiel Im Folgenden wird ein Multiple-Choice-Test mit jeweils m möglichen Antworten betrachtet,
wobei immer nur eine richtig ist. Ein Student kennt die richtige Antwort mit einer Wahrscheinlichkeit
von p, andernfalls muss er raten. Angenommen eine Antwort ist richtig. Mit welcher Wahrscheinlichkeit
kannte der Student die Antwort?
Lösung Sei R das Ereignis, dass die Antwort richtig ist und sei W das Ereignis, dass der Prüfling die
Antwort kennt und nicht geraten hat. Dann gilt mit dem Satz von Bayes Folgendes.
P(W | R) =
P(R | W ) · P(W )
P(R)
Nun gilt nach dem Gesetz der totalen Wahrscheinlichkeit für die Wahrscheinlichkeit von R Folgendes.
P(R) = P(R | W ) · P(W ) + P(R | W C ) · P(W C )
=1
=p
1/m
=1−p
Damit ergibt sich für die gesuchte Wahrscheinlichkeit Folgendes.
P(W | R) =
1·p
m·p
=
1 · p + (1/m) · (1 − p)
1 + p · (m − 1)
Für m = 5 und p = 1/2 ergibt sich damit P(W | R) = 5/6.
16
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Fn
Proposition Sei (Fi )ni=1 eine Partition des Grundraums Ω = i=1 Fi in paarweise disjunkte Ereignisse
und sei E ein weiteres Ereignis. Dann gelten folgende Verallgemeinerungen.
(i) Für i = 1, . . . , n gilt das verallgemeinertes Gesetz der totalen Wahrscheinlichkeit.
P(E) =
n
X
P(E | Fi ) · P(Fi )
i=1
(ii) Für i = 1, . . . , n gilt der verallgemeinerter Satz von Bayes.
P(E | Fi ) · P(Fi )
P(Fi | E) = Pn
j=1 P(E | Fj ) · P(Fj )
Beweis Es gelten die Voraussetzungen der obigen Proposition.
(i) Dann gilt für das verallgemeinertes Gesetz der totalen Wahrscheinlichkeit Folgendes.
!
n
n
n
G
X
X
P(E) = P
(E ∩ Fi ) =
P(E ∩ Fi ) =
P(E | Fi ) · P(Fi )
i=1
i=1
i=1
(ii) Unter der Nutzung von (i) lässt sich der verallgemeinerter Satz von Bayes beweisen.
P(Fi | E) =
P(E | Fi ) · P(Fi )
P(Fi ∩ E)
P(E | Fi ) · P(Fi ) (i)
= Pn
=
P(E)
P(E)
j=1 P(E | Fj ) · P(Fj )
3.3 Stochastische Unabhängigkeit
Definition Zwei Ereignisse E und F heißen unabhängig, falls die Wahrscheinlichkeit des Schnittes dem
Produkt der beiden Einzelwahrscheinlichkeiten entspricht.
P(E ∩ F ) = P(E) · P(F )
Proposition
bzw.
P(E | F ) = P(E)
Seien E und F zwei unabhängige Ereignisse.
(i) Dann sind auch E und F C unabhängige Ereignisse.
(ii) Dann sind auch E C und F C unabhängige Ereignisse.
Beweis Seien E und F zwei unabhängige Ereignisse.
(i) Das Ereignis E lässt sich auch wie folgt darstellen.
P(E) = P(E ∩ F ) + P(E ∩ F C ) = P(E) · P(F ) + P(E ∩ F C )
Stellt man diese Gleichung nach P(E ∩ F C ) um und formt weiter um, so erhält man Folgendes.
P(E ∩ F C ) = P(E) − P(E) · P(F ) = P(E) · (1 − P(F )) = P(E) · P(F C )
Damit sind die Ereignisse E und F C unabhängig.
(ii) Setzt man E 0 = F C und F 0 = E, so folgt aus (i) sofort die Unabhängigkeit von E C und F C .
P(E C ∩ F C ) = P(E 0 ∩ F 0C ) = P(E 0 ) · P(F 0C ) = P(F C ) · P(E C ) = P(E C ) · P(F C )
Beispiel Es wird eine Karte aus einem Stapel von 52 Karten gezogen. Sei E das Ereignis, dass eine
Karte ein Ass ist und sei F das Ereignis, dass eine Karte ein Pik ist. Sind diese Ereignisse unabhängig?
Lösung Um die Unabhängigkeit der Ereignisse zu untersuchen, betrachten wir die folgenden Wahrscheinlichkeiten.
4
13
1
P(E) =
und P(F ) =
und P(E ∩ F ) =
52
52
52
Wie man leicht nachrechnen kann, gilt die Unabhängigkeit der Ereignisse.
P(E ∩ F ) =
1
4 13
=
·
= P(E) · P(F )
52
52 52
17
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Wir betrachten einen zweifachen Würfelwurf. Sei E1 das Ereignis, dass die Augensumme sechs
ist und sei E2 das Ereignis, dass der erste Wurf eine vier ist. Sind diese Ereignisse unabhängig?
Lösung
Die Ereignisse E1 und E2 lassen sich wie folgt modellieren.
E1 = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}
und E2 = {(4, 1), . . . , (4, 6)}
Der Schnitt der beiden Ereignisse hat somit die folgende Form.
E1 ∩ E2 = {(4, 2)}
Wie man leicht nachrechnen kann, gilt die Unabhängigkeit der Ereignisse nicht.
P(E1 ∩ E2 ) =
5 6
1
6=
·
= P(E1 ) · P(E2 )
36
36 36
Beispiel Wir betrachten einen zweifachen Würfelwurf. Sei E das Ereignis, dass die Augensumme sieben
ist, F das Ereignis, dass der erste Wurf eine vier ist und G das Ereignis, dass der zweite Wurf eine drei
ist. Sind diese Ereignisse unabhängig?
Lösung
Die drei Ereignisse E, F und G lassen sich wie folgt modellieren.
E = {(i, j) | i + j = 7},
F = {(i, j) | i = 4 ∧ 1 ≤ j ≤ 6}
und G = {(i, j) | 1 ≤ i ≤ 6 ∧ j = 3}
Für die einzelnen Schnitte der Ereignisse untereinander gilt somit.
E ∩ F = E ∩ G = F ∩ G = {(4, 3)}
Ferner gilt für die Mächtigkeit der Ereignisse Folgendes.
|E| = |F | = |G| = 6
Somit gilt für die Wahrscheinlichkeit der einzelnen Schnitte Folgendes.
6
36
6
P(E) · P(G) =
36
6
P(F ) · P(G) =
36
P(E) · P(F ) =
6
1
=
= P(E ∩ F )
36
36
6
1
·
=
= P(E ∩ G)
36
36
6
1
·
=
= P(F ∩ G)
36
36
·
Das heißt die drei Ereignisse E, F und G sind paarweise unabhängig. Jedoch gilt
P(E | F ∩ G) = 1 6=
1
6 1
=
·
= P(E) · P(F ∩ G)
216
36 36
Das heißt die Ereignisse E und F ∩ G sind nicht unabhängig.
Definition Seien (Ek )nk=1 bzw. (Ek )k∈N Folgen von Ereignissen. Die Ereignisse
(i) (Ek )nk=1 heißen unabhängig, falls für r ≤ n und 1 ≤ k1 < . . . < kr ≤ n Folgendes gilt.


r
r
\
Y
P
Ekj  =
P(Ekj )
j=1
j=1
(ii) (Ek )k∈N heißen unabhängig, falls für jede endliche Menge S ⊆ N mit |S| < ∞ Folgendes gilt.
!
\
Y
P
Ei =
P(Ei )
i∈S
i∈S
18
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
3.4 Formalisierung von Versuchsfolgen
Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen wir Versuche. Im Folgenden konstruieren
wir ein Modell für die unabhängige Wiederholung (n-fach oder ∞-oft) eines Experiments.
Sei Ω1 = {1, . . . , n} der endliche Grundraum des ersten Experiments und P1 ein Wahrscheinlichkeitsmaß
auf Ω1 unser Ausgangsmodell. Der Grundraum für die zweifache Ausführung des Experiments ist
Ω = Ω1 × Ω2 = {(i, j) | i ∈ Ω1 ∧ j ∈ Ω2 }
mit
Ω1 = Ω2
und P1 = P2
Wir setzen für E ⊆ Ω das Wahrscheinlichkeitsmaß P wie folgt.
X
P(E) =
P1 ({i}) · P2 ({j})
(i,j)∈E
Für Fi ⊆ Ωi setzen wir Ei = Fi × Ω3−i für i = 1, 2, das heißt Ei hängt nur von der Realisierung im i-ten
Experiment ab. Es folgt nach Definition die Unabhängigkeit der beiden Ereignisse E1 und E2 .
X
X
X X
P(E1 ∩ E2 ) =
P1 ({i}) · P2 ({j}) =
P1 ({i}) · P2 ({j}) =
P1 ({i}) · P2 ({j})
i∈F1
j∈F2
(i,j)∈E1 ∩E2
i∈F1 j∈F2
! 
=
X
P1 ({i})
·
i∈F1

X
P2 ({j}) = P(E1 ) · P(E2 )
j∈F2
Der letzte Schritt der Umformung wird für den ersten Term noch einmal genauer betrachtet.
X
X
P1 ({i}) =
P1 ({i}) · P2 ({k})
i∈F1
i∈F1
k∈Ω2
=
X X
P1 ({i}) · P2 ({k})
i∈F1 k∈Ω2
=
X
P1 ({i}) ·
i∈F1
=
X
X
P2 ({k})
mit
k∈Ω2
X
P2 ({k}) = 1
(∗)
k∈Ω2
P1 ({i}) = P(E1 )
i∈F1
Außerdem gilt die Gleichung (∗), da P2 ein Wahrscheinlichkeitsmaß auf Ω2 ist und somit auch die Axiome
der Wahrscheinlichkeitsrechnung gelten. Dasselbe lässt sich analog für den zweiten Term anstellen.
Bemerkung Wir haben P1 und P2 zu einem Produktmaß auf Ω = Ω1 × Ω2 verknüpft. Dies lässt sich
auf Folgen von n bzw. unendlich vielen Versuchen verallgemeinern. Dabei gilt immer: sind (Ei )1≤i≤n
bzw. (Ei )i∈N Ereignisse, für die Ei nur von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw. (Ei )i∈N
unabhängig. Das heißt Ereignisse, die jeweils nur von einem Teilexperiment abhängig sind, sind damit
unter P unabhängig.
Beispiel Eine unendliche Folge von Versuchen wird durchgeführt. Jeder Versuch hat zwei mögliche
Ausgänge (Erfolg und Misserfolg). Die Wahrscheinlichkeit für einen Erfolg sei p, die für Misserfolg 1 − p,
für eine Zahl p ∈ [0, 1]. Wie groß ist die Wahrscheinlichkeit, dass
a) mindestens ein Erfolg in den ersten n Versuchen erzielt wird?
b) genau k Erfolge für 1 ≤ k ≤ n in den ersten n Versuchen erzielt werden?
Lösung
a) Sei Ωi = {0, 1} und Pi ({1}) = p für i = 1, . . . , n. Der Grundraum für die n-fache Wiederholung ist
Ω = Ωni = {0, 1}n
Das Wahrscheinlichkeitsmaß P auf Ω ist für ω = (ω1 , . . . , ωn ) gegeben durch
P({ω}) =
n
Y
Pi ({ωi }) = p#Erfolge · (1 − p)n−#Erfolge
i=1
19
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Sei nun E das Ereignis für mindestens einen Erfolg. Dann gilt für dessen Wahrscheinlichkeit Folgendes.
P(E) = P(E C ) = 1 − p0 − (1 − p)n−0 = 1 − (1 − p)n
b) Sei T ⊆ {1, . . . , n} mit |T | = k. T ist die Menge aller Zeitpunkte zu denen ein Erfolg eintritt. Sei Ei
das Ereignis, dass der i-te Versuch ein Erfolg ist. Dann gilt aufgrund der Unabhängigkeit Folgendes.
!
!!
\
\
Y
Y
C
P
Ei ∩
Ei
=
P(Ei ) ·
P EiC = pk · (1 − p)n−k
i∈T
i∈T
/
i∈T
i∈T
/
Sei schließlich E das Ereignis für genau k Erfolge in n Versuchen. Dann ist E wie folgt gegeben.
"
!
!#
[
\
\
C
E=
Ei ∩
Ei
T ⊆{1,...,n}
|T |=k
i∈T
i∈T
/
Also gilt für die gesuchte Wahrscheinlich des Ereignisses E Folgendes.
n
k
n−k
P(E) = |{T ⊆ {1, . . . , n} | |T | = k}| · p · (1 − p)
=
· pk · (1 − p)n−k
k
20
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
4 Diskrete Zufallsvariablen
4.1 Diskrete Zufallsvariablen
Definition Eine Zufallsvariable auf dem Maßraum (Ω, F, P) ist eine (messbare) Abbildung
X : (Ω, F) → (Rn , B(Rn )),
wobei B(Rn ) die Borel-σ-algebra auf Rn bezeichnet und F selbst eine σ-Algebra ist.
∀A ∈ B(Rn ) : X −1 (A) ∈ F
Für diskrete Grundräume Ω = {ωi }ni=1 wird F meistens als die Potenzmenge von Ω gewählt.
F = P(Ω)
Damit wäre die Forderung, dass die verwendete Funktion messbar ist, automatisch erfüllt.
Für Ω ⊆ Rn wählt man F als die Borel-σ-Algebra B(Rn ), sprich F = B(Rn ).
Definition Eine Zufallsvariable X heißt diskret, falls sie nur endlich viele oder abzählbar unendlich viele
Werte {xi } mit positiver Wahrscheinlichkeit annimmt.
X(Ω) = {x | ∃ω ∈ Ω : X(ω) = x} = {xi }i=1,...,n
mit n ∈ N ∪ {∞}
Definition Eine Massenfunktion bzw. Wahrscheinlichkeitsverteilung von X unter dem Maß P gibt die
Wahrscheinlichkeiten für die einzelnen Werte x an.
pX (xi ) := p(xi ) = P[X = xi ]
Beispiel Gegeben ist eine Urne mit 20 nummerierten Kugeln. Es wird dreimal ohne Zurücklegen gezogen.
Wie groß ist die Wahrscheinlichkeit, dass eine Kugel mit einer Nummer ≥ 17 gezogen wird?
Lösung
Sei Ω = {(ω1 , ω2 , ω3 ) | ∀i ∈ {1, 2, 3} : ωi = 1, . . . , 20} und sei X(ω) = max ωi . Gesucht wird
1≤i≤3
=ω
P[X ≥ 17] =
20
X
P[X = i]
i=17
Für P[X = 20] finden wir die Wahrscheinlichkeit durch die Gegenwahrscheinlichkeit.
P[X = 20] = 1 −
Es gibt
20
3
19 18 17
3
·
·
=
20 19 18
20
mögliche Realisierungen. Von diesen Realisierungen sind nur
19
3
2
P[X = 20] = 20 =
20
3
19
2
günstig.
Analog gilt für i = 17, 18, 19 die folgende Wahrscheinlichkeit.
i−1
P[X = i] =
2
20
3
für i = 17, 18, 19
Damit lässt sich die gesuchte Wahrscheinlichkeit wie folgt ermitteln.
20
i−1
X
2
≈ 0,508
P[X ≥ 17] =
20
i=17
3
Beispiel Wir werfen ein Münze solange bis Kopf erscheint, maximal jedoch nur n-mal. Kopf erscheint mit
einer Wahrscheinlichkeit von p ∈ (0, 1). Sei X die Anzahl der Würfe. Gesucht ist die Wahrscheinlichkeit
für m-mal Kopf für m = 1, . . . , n.
21
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Gesucht ist die Wahrscheinlichkeit P[X = m] für m = 1, . . . , n.
P[X = 1] = P({K}) = p
P[X = 2] = P({Z, K}) = (1 − p) · p
P[X = k] =
···
= (1 − p)k−1 · p
P[X = n − 1] =
···
= (1 − p)n−2 · p
P[X = n] =
···
= (1 − p)n−1 · p
Damit gilt für die Vereinigung der einzelnen Wahrscheinlichkeiten Folgendes.
" n
#
n
n−1
[
X
X
P
{X = i} =
P[X = i] =
p · (1 − p)i−1 + (1 − p)n−1
i=1
i=1
i=1
Die geometrische Reihe besitzt für α ∈ (0, 1) den folgenden Grenzwert.
∞
X
αi =
i=0
1
1−α
Unter Nutzung dieser Tatsache ergibt sich damit Folgendes.
n−1
X
∞
X
i=1
i=0
(1 − p)i−1 =
=
(1 − p)i −
∞
X
(1 − p)i−1 =
i=n
n−1
∞
X
1
− (1 − p)n−1
(1 − p)i
1 − (1 − p)
i=0
1 (1 − p)
−
p
p
Also gilt für die Vereinigung der Ereignisse der folgende Ausdruck.
" n
#
[
1 (1 − p)n−1
P
{X = i} = p
−
+ (1 − p)n−1 = 1
p
p
i=1
Beispiel Es gebe N verschiedene Arten von Coupons, die wir (unabhängig von den vorhergehenden
Versuchen) beliebig oft erhalten. Bei jedem Versuch erhalten wir mit gleicher Wahrscheinlichkeit einen
der N Coupons. Sei T die Anzahl von Coupons, die nötig sind, bis man einen kompletten Satz aller N
besitzt. Gesucht wird die Verteilung von T , d. h. P[T = n] für n ≥ 1.
Lösung
Es ist einfacher P[T > n] zu berechnen und dann die folgende Formel zu nutzen.
P[T = n] = P[T > n − 1] − P[T > n]
Sei dazu Aj das Ereignis, dass man keinen j-ten Coupon in den ersten n Zügen bekommt. Dann gilt


N
N
[
X
X


P[T > n] = P
Aj =
P(Aj ) −
P(Aj1 ∩ Aj2 ) + . . . + (−1)N +1 · P(A1 ∩ . . . ∩ AN )
j=1
j=1
j1 <j2
Nun gilt für für j = 1, . . . , N Folgendes.
P(Aj ) =
N −1
N
n
Allgemeiner gilt für 1 ≤ j1 < . . . < jk ≤ N Folgendes.
P(Aj1 ∩ . . . ∩ Ajk ) =
N −k
N
n
Damit gilt für n ∈ N für die Wahrscheinlichkeit von {T > n} Folgendes.
n n
n
N −1
N
N −2
0
N +1 N
−
+ . . . + (−1)
P[T > n] = N ·
N
2
N
N N
n
N
−1
X
N −i
i+1 N
=
(−1)
i
N
i=1
22
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
4.2 Erwartungswert und Varianz diskreter Zufallsvariablen
Definition Es sei X eine diskrete Zufallsvariable. Der Erwartungswert von X ist definiert durch
X
E(X) :=
x · pX (x),
x:p(x)>0
falls diese Reihe konvergiert, das heißt falls folgende Bedingung gilt.
X
|x| · pX (x) < ∞
x:p(x)>0
Der Erwartungswert beschreibt das gewichtete Mittel der Realisierungen.
Beispiel Für ein Ereignis A sei die Indikatorfunktion von A durch 1A : Ω → R mit
(
1, falls ω ∈ A
ω 7→ 1A (ω) =
0, sonst
gegeben. Für diese Indikatorfunktion gelten folgende Wahrscheinlichkeiten.
p1A (0) = P(AC ) = 1 − P(A)
und p1A (1) = P(A)
Der Erwartungswert ist damit gegeben durch
E(1A ) = 0 · (1 − P(A)) + 1 · P(A) = P(A)
Proposition Sei X eine diskrete Zufallsvariable mit den Werten {xi }i∈N und der Massenfunktion pX .
Sei g : R → R eine reellwertige Funktion. Dann gilt für den Erwartungswert von g(X) Folgendes.
E(g(X)) =
∞
X
g(xi ) · pX (xi )
i=1
Die Bedingung dafür ist, dass die Reihe konvergiert, sprich Folgendes erfüllt ist.
∞
X
|g(xi )| · pX (xi ) < ∞
i=1
Beweis Sei g : R → R, so nimmt y = g(X) : Ω → R die Wert {yj }j = {g(xi )}i mit i, j ≥ 1 an.
X
X X
X X
g(xi ) · p(xi ) =
g(xi ) · p(xi ) =
yj · p(xi )
i
j
=
X
j
i:g(xi )=yj
yj
j
X
p(xi ) =
X
i:g(xi )=yj
yj · P[g(X) = yj ] = E(g(X))
j
i:g(xi )=yj
Lemma Seien a, b ∈ R, sowie X und Y diskrete Zufallsvariablen mit den Massenfunktionen pX und pY
und existierenden Erwartungswerten. Dann gelten die folgenden Rechenregeln.
(i) E(aX + b) = a · E(X) + b
(Lineare Transformation)
(ii) E(X + Y ) = E(X) + E(Y )
(Additivität)
Beweis Es gelten die Voraussetzungen des obigen Lemmas.
(i) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet.
X
X
X
E(aX + b) =
(ax + b) · p(x) = a
x · p(x) + b
p(x) = a · E(x) + b
x:p(x)>0
x:p(x)>0
x:p(x)>0
(ii) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet.
X
X
X
E(X + Y ) =
(x + y) · p(x) =
x · p(x) +
y · p(x) = E(X) + E(Y )
x:p(x)>0
x:p(x)>0
23
x:p(x)>0
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Definition Sei X eine diskrete Zufallsvariable mit der Verteilung pX und sei g(X) = X n . Dann heißt
X
E(g(X)) = E(X n ) =
xn · pX (x) mit n ∈ N
x:p(x)>0
das n-te Moment von X, falls folgende Bedingung erfüllt ist.
X
|x|n · pX (x) < ∞
x:p(x)>0
Definition Sei X eine diskrete Zufallsvariable und g(X) = (X − E(X))2 . Dann heißt
E(g(X)) = E[(X − E(X))2 ] =: Var(X)
die Varianz von X. Diese beschreibt die mittlere quadratische Abweichung vom Erwartungswert.
Lemma Seien a, b ∈ R und X eine diskrete Zufallsvariable mit existierender Varianz. Dann gelten die
folgenden Rechenregeln.
(i) Var(aX + b) = a2 Var(X)
(Lineare Transformation)
(ii) Var(−X) = Var(X)
(iii) Var(X) = E(X 2 ) − (E(X))2 ≥ 0
(Verschiebungssatz)
Beweis Seien a, b ∈ R und X eine diskrete Zufallsvariablen mit existierender Varianz.
(i) Die lineare Transformation ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln für den Erwartungswert.
Var(aX + b) = E[(aX + b − E(aX + b))2 ] = E[(aX + b − aE(X) − b)2 ]
= a2 E[(X − E(X))2 ] = a2 Var(X)
(ii) Diese Rechenregel folgt direkt aus der Regel (i) als Spezialfall mit a = −1 und b = 0.
(iii) Der Verschiebungssatz ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln
für den Erwartungswert.
Var(X) = E[(X − E(X))2 ]
= E[X 2 − 2XE(X) + E(X)2 ]
= E(X 2 ) − E(2XE(X)) + E(X)2
= E(X 2 ) − 2E(X)E(X) + E(X)2
= E(X 2 ) − E(X)2
Lemma Nach dem Verschiebungssatz gilt E(X 2 ) ≥ E(X)2 .
Beweis Da Var(X) ≥ 0 gilt, sprich E(X 2 )−(E(X))2 ≥ 0 gilt, folgt direkt per Umstellen das zu Zeigende.
E(X 2 ) ≥ E(X)2
Satz Sei X eine Zufallsvariable und g : R → R konvex, dann gilt die Jensensche Ungleichung.
E(g(X)) ≥ g(E(X))
Beweis Sei t die Tangente an die Kurve der Funktion g im Punkt x0 . Dann gilt folgende Ungleichung.
g(x) ≥ t(x)
mit
t(x) = g 0 (x0 ) · (x − x0 ) + g(x0 )
Setzt man nun x = X und x0 = E(X), so erhält man Folgendes.
g(X) ≥ g(E(X)) + g 0 (E(X)) · (X − E(X))
Daraus lässt sich wiederum Folgendes schlussfolgern.
E(g(X)) ≥ E(g(E(X))) + g 0 (E(X)) · (X − E(X))
= g(E(X)) + g 0 (E(X)) · E(X − E(X)) = g(E(X))
=0
24
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Definition Sei X eine diskrete Zufallsvariable und Var(X) ihre Varianz. Dann heißt
p
p
σ(X) = Var(X) = E[(X − E(X))2 ]
die Standardabweichung von X. Sie ist ein Maß für die Streuung der Werte einer Zufallsvariablen X um
ihren Erwartungswert E(X).
Beispiel Ein Produkt, welches saisonabhängig verkauft wird, bringt einen Nettogewinn von b e für jede
verkaufte Einheit und einen Nettoverlust von l e für jede nicht verkaufte Einheit am Saisonende ein. Die
Anzahl der Einheiten des Produktes, welches in einem bestimmten Kaufhaus zu jeder Jahreszeit bestellt
werden kann, ist eine Zufallsvariable X mit der Massenfunktion p. Mit wie viele Einheiten sollte der
Laden sich eindecken, wenn das Geschäft dieses Produkt im Voraus bestellen muss, um den erwarteten
Gewinn zu maximieren?
Lösung
Sei s > 0 die Lagerhaltung. Der Profit kann dann wie folgt ausgedrückt werden.
(
bX − (s − X) · l, falls X ≤ s
P (s) =
b · s,
falls X > s
Es soll s 7→ E(P (s)) maximiert werden. Dazu berechnet man zunächst den erwarteten Profit.
s
∞
X
X
E(P (s)) =
(b · i − (s − i) · l) · p(i) +
b · s · p(i)
i=0
i=s+1
= (b + l)
= (b + l)
s
X
i=0
s
X
i · p(i) − sl
s
X
p(i) + bs 1 −
p(i)
s
X
p(i) + bs
i=0
i=0
= b · s + (b + l)
!
i=0
i=0
i · p(i) − (b + l)s
s
X
s
X
(i − s) · p(i)
i=0
Um den optimalen Wert von s zu bestimmen, wird untersucht, was mit dem Gewinn passiert, wenn man
s um eine Einheit erhöht.
"s+1
#
s
X
X
E(P (s + 1)) − E(P (s)) = b + (b + l)
(i − (s + 1)) · p(i) −
(i − s) · p(i)
i=0
= b − (b + l)
s
X
i=0
p(i)
i=0
Folglich ist es besser s + 1 Einheiten als s Einheiten zu führen.
E(P (s + 1)) − E(P (s)) ≥ 0
⇔
s
X
i=0
p(i) <
b
b+l
Da die linke Seite der zweiten Ungleichung wachsend mit s ist während die rechte Seite der zweiten
Ungleichung konstant ist, wird die Ungleichung für alle s ≤ s∗ erfüllt, wobei s∗ wie folgt gegeben ist.
(
)
s
X
b
∗
s = max s ∈ N |
p(i) <
b+l
i=0
4.3 Spezielle diskrete Verteilungen
4.3.1 Bernoulli-Verteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit den Einzelwahrscheinlichkeiten
P(E) = P[X = 1] = p
und P(E C ) = P[X = 0] = 1 − p = q
heißt Bernoulli-verteilt mit dem Parameter p.
25
mit
q =1−p
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X eine Bernoulli-verteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) = p
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) = p
Beweis Sei X eine Bernoulli-verteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
X
E(X) =
x · p(x) = 0 · p(0) + 1 · p(1) = 0 · (1 − p) + 1 · p = p
x:p(x)>0
(ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet.
X
x2 · p(x) = 02 · p(0) + 12 · p(1) = 0 · (1 − p) + 1 · p = p
E(X 2 ) =
x:p(x)>0
Lemma Die Varianz einer Bernoulli-verteilten Zufallsvariable X ist gegeben durch
Var(X) = p · (1 − p) = p · q
mit
q =1−p
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
Var(X) = E X 2 − E(X)2 = p − p2 = p · (1 − p) = p · q mit q = 1 − p
Bemerkung Die Bernoulli-Verteilung benutzt man zur Beschreibung von zufälligen Ereignissen, bei
denen es nur zwei mögliche Versuchsausgänge gibt. Einer der Versuchsausgänge wird meistens mit Erfolg
bezeichnet und der komplementäre Versuchsausgang mit Misserfolg.
Bemerkung Die Bernoulli-Verteilung ist ein Spezialfall der Binomialverteilung für n = 1. Die Summe
von unabhängigen Bernoulli-verteilten Zufallsvariablen mit identischem Parameter p genügt der Binomialverteilung. Dazu seien für i = 1, . . . , n
(
1, Eintritt von E im i-ten Versuch
Xi =
0, sonst
und sei X die Anzahl der Erfolge in n unabhängigen Versuchen.
X=
n
X
Xi
i=1
4.3.2 Binomialverteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
n
pX (k) = P[X = k] =
· pk · (1 − p)n−k ,
k
heißt binomialverteilt mit den Parametern n ≥ 2 und p. In diesem Fall schreibt man auch
X ∼ B(n, p)
Lemma Sei X ∼ B(n, p) eine binomialverteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) = n · p
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) = n · p · [(n − 1) · p + 1]
26
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Sei X ∼ B(n, p) eine binomialverteilte Zufallsvariable. Um nun das Lemma zu beweisen,
benötigt man die folgende Umformung des Binomialkoeffizienten.
n
n−1
i·
=n·
(∗)
i
i−1
Im Folgenden kann somit das k-te Moment berechnet werden.
n
X
n
E(X ) =
i ·
· pi · (1 − p)n−i
i
i=0
n
X
n
k−1
=
i
· i·
· p · pi−1 · (1 − p)n−i + 0
i
i=1
n
n−1
(∗) X k−1
=
i
· n·
· p · pi−1 · (1 − p)n−i
i
−
1
i=1
n
X
n−1
= (n · p)
ik−1 ·
· pi−1 · (1 − p)n−i
i
−
1
i=1
n−1
X
n−1
= (n · p)
(j + 1)k−1 ·
· pj · (1 − p)n−1−j
j
j=0
k
k
= n · p · E[(Y + 1)k−1 ]
mit
mit
j =i−1
Y ∼ B(n − 1, p)
Damit kann der Erwartungswert und das zweite Moment direkt gezeigt werden.
(i) E(X) = n · p · E[(Y + 1)1−1 ] = n · p
(ii) E(X 2 ) = n · p · E[(Y + 1)2−1 ] = n · p · [(n − 1) · p + 1]
Lemma Die Varianz einer binomialverteilten Zufallsvariable X ∼ B(n, p) ist gegeben durch
Var(X) = n · p · (1 − p)
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
Var(X) = E(X 2 ) − E(X)2 = (n · p · (p · (n − 1) + 1)) − (n · p)2 = n · p · (1 − p)
Proposition
Sei X ∼ B(n, p) eine binomialverteilte Zufallsvariable. Dann ist die Massenfunktion pX (k)
(i) monoton wachsend für k ≤ [(n + 1) · p].
(ii) monoton fallend für k ≥ [(n + 1) · p].
Beweis Diese Proposition wird bewiesen indem man P[X = k]/P[X = k − 1] betrachtet und bestimmt
für welche Werte von k der Term größer oder kleiner 1 ist.
n
· pk · (1 − p)n−k
P[X = k]
k
=
n
P[X = k − 1]
· pk−1 · (1 − p)n−k+1
k−1
n!
· pk · (1 − p)n−k
k! · (n − k)!
=
n!
· pk−1 · (1 − p)n−k+1
(k − 1)! · (n − k + 1)!
(n − k + 1) · p
=
k · (1 − p)
Folglich gilt P[X = k] ≥ P[X = k − 1], falls und auch nur falls Folgendes gilt.
(n − k + 1) · p ≥ k · (1 − p)
27
⇔
k ≤ (n + 1) · p
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Bemerkung Die Binomialverteilung beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen
und unabhängigen Versuchen, die jeweils genau zwei mögliche Ergebnisse haben.
4.3.3 Poisson-Verteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
λk −λ
·e ,
k!
heißt Poisson-verteilt mit dem Parameter λ > 0. In diesem Fall schreibt man auch
pX (k) = P[X = k] =
X ∼ π(λ)
Lemma Sei X ∼ π(λ) eine Poisson-verteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) = λ
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) = λ2 + λ
Beweis Sei X ∼ π(λ) eine Poisson-verteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
E(X) =
∞
X
k·
k=0
∞
∞
k=1
k=0
X
X λk
λk−1
λk −λ
λ·
· e = e−λ ·
= λ · e−λ ·
= λ · e−λ · eλ = λ
k!
(k − 1)!
k!
(ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet.
E(X 2 ) =
∞
X
k=0
k2 ·
∞
∞
k=0
k=2
X
X
λk
λk
λk −λ
(k · (k − 1) + k) ·
k · (k − 1) ·
· e = e−λ ·
= e−λ ·
+λ
k!
k!
k!
∞
∞
X
X
λk−2
λk
= λ2 · e−λ ·
+ λ = λ2 · e−λ ·
+ λ = λ2 · e−λ · eλ + λ = λ2 + λ
(k − 2)!
k!
k=2
k=0
Lemma Die Varianz einer Poisson-verteilten Zufallsvariable X ∼ π(λ) ist gegeben durch
Var(X) = λ
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
Var(X) = E(X 2 ) − E(X)2 = (λ2 + λ) − (λ)2 = λ
Bemerkung Mit der Poisson-Verteilung kann die Anzahl von Ereignissen modelliert werden, die mit
konstanter Rate und unabhängig voneinander in einem festen Zeitintervall oder räumlichen Gebiet eintreten. Sie sagt ebenso wie die Binomialverteilung das zu erwartende Ergebnis einer Serie von BernoulliExperimenten voraus. Während der Beobachtung, die in beliebig viele Augenblicke, sprich BernoulliExperimente, unterteilt werden kann, geschieht fast immer nichts und hin und wieder etwas. Die PoissonVerteilung wird deshalb manchmal als die Verteilung der seltenen Ereignisse bezeichnet (Gesetz der
kleinen Zahlen).
Bemerkung Die Poisson-Verteilung ist ein Grenzfall der Binomialverteilung. Für eine Folge (Xn )n∈N
binomialverteilter Zufallsvariablen zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt
n
λk −λ
k
n−k
lim pXn (k) = lim
· pn · (1 − pn )
=
·e
für k ≥ 0,
n→∞
n→∞
k!
k
sofern das Produkt n · pn gegen einen endlichen Grenzwert λ konvergiert, sprich Folgendes gilt.
lim (n · pn ) = λ
n→∞
Die Poisson-Verteilung findet als Approximation der Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind.
28
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
4.3.4 Geometrische Verteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
pX (n) = P[X = n] = (1 − p)n−1 · p,
heißt geometrisch verteilt mit dem Parameter p. In diesem Fall schreibt man auch
X ∼ G(p)
Lemma Sei X ∼ G(p) eine geometrisch verteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) =
1
p
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) =
2−p
p2
Beweis Sei X ∼ G(p) eine geometrisch verteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, benötigt man die Kenntnis über den folgenden Grenzwert.
∞
X
k · qk =
k=0
q
(1 − q)2
Wendet man nun die Definition des Erwartungswertes an, so erhält man Folgendes.
E(X) =
∞
X
∞
k · (1 − p)k−1 · p =
k=1
p
1−p
p X
k · (1 − p)k =
·
=p
1−p
1 − p (1 − (1 − p))2
k=1
(ii) Um das zweite Moment zu beweisen, benötigt man die Kenntnis über den folgenden Grenzwert.
∞
X
k2 · qk =
k=0
q · (1 + q)
(1 − q)3
Wendet man nun die Definition des Erwartungswertes an, so erhält man Folgendes.
∞
∞
X
p X 2
p
(1 − p) · (2 − p)
2−p
E(X 2 ) =
k 2 · (1 − p)k−1 · p =
k · (1 − p)k =
·
=
1−p
1−p
(1 − (1 − p))3
p2
k=1
k=1
Lemma Die Varianz einer geometrisch verteilten Zufallsvariable X ∼ G(p) ist gegeben durch
Var(X) =
1−p
p2
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
2
2−p
1
2−p
1
1−p
2
2
Var(X) = E(X ) − E(X) =
−
=
− 2 =
p2
p
p2
p
p2
Bemerkung Die geometrische Verteilung beschreibt die Wartezeit auf den ersten Erfolg bei der unabhängigen Wiederholung eines Experiments.
4.3.5 Negative Binomialverteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
n−1
pX (n) = P[X = n] =
· pr · (1 − p)n−r ,
r−1
heißt negativ binomialverteilt mit den Parametern r und p. In diesem Fall schreibt man auch
X ∼ N B(r, p)
29
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X ∼ N B(r, p) eine negativ binomialverteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) =
r
p
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
r
r+1
2
E(X ) = ·
−1
p
p
Beweis Sei X ∼ N B(r, p) eine negativ binomialverteilte Zufallsvariable. Um nun das Lemma zu beweisen, benötigt man die folgende Umformung des Binomialkoeffizienten.
n−1
n
n·
=r·
(∗)
r−1
r
Im Folgenden kann somit das k-te Moment berechnet werden.
∞
X
n−1
E(X ) =
n ·
· pr · (1 − p)n−r
r−1
n=r
r+1
∞
X
n−1
p
k−1
· (1 − p)n−r
=
n
· n·
·
p
r
−
1
n=r
r+1
∞
n
p
(∗) X k−1
=
n
· r·
·
· (1 − p)n−r
r
p
n=r
∞
n
r X k−1
n
·
· pr+1 · (1 − p)n−r
=
p n=r
r
∞
m−1
r X
(m − 1)k−1 ·
· pr+1 · (1 − p)m−(r+1)
=
r
p m=r+1
r
= · E[(Y − 1)k−1 ] mit Y ∼ N B(r + 1, p)
p
k
k
mit
m=n+1
Damit kann der Erwartungswert und das zweite Moment direkt gezeigt werden.
(i) E(X) =
r
r
· E[(Y − 1)1−1 ] =
p
p
r
r
(ii) E(X ) = · E[(Y − 1)2−1 ] = ·
p
p
2
r+1
−1
p
Lemma Die Varianz einer negativ binomialverteilten Zufallsvariable X ∼ N B(r, p) ist gegeben durch
Var(X) =
r · (1 − p)
p
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
2−p
Var(X) = E(X ) − E(X) =
−
p2
2
2
2
1
2−p
1
1−p
=
− 2 =
p
p2
p
p2
Bemerkung Die negative Binomialverteilung beschreibt die Anzahl der Versuche, die erforderlich sind,
um in einem Bernoulli-Prozess eine vorgegebene Anzahl von Erfolgen zu erzielen.
30
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
4.3.6 Hypergeometrische Verteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
m
N −m
·
i
n−i
,
pX (i) = P[X = i] =
N
n
heißt hypergeometrisch verteilt mit den Parametern n, N und m. In diesem Fall schreibt man auch
X ∼ h(n, N, m)
Lemma Sei X ∼ h(n, N, m) eine hypergeometrisch verteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
m
E(X) = n ·
N
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
m
m−1
E(X 2 ) = n ·
· (n − 1) ·
+1
N
N −1
Beweis Sei X ∼ h(n, N, m) eine hypergeometrisch verteilte Zufallsvariable. Um nun das Lemma zu
beweisen, benötigt man die folgenden Umformungen des Binomialkoeffizienten.
m
m−1
i·
=m·
(∗)
i
i−1
N
N −1
n·
=N·
(∗∗)
n
n−1
Im Folgenden kann somit das k-te Moment berechnet werden.
m
N −m
·
n
X
i
n−i
ik ·
E(X k ) =
N
i=0
n
m
N −m
i
·
·
n
X
i
n−i
=
ik−1 ·
1
N
i=1
· n·
n
n
m−1
N −m
m·
·
n
i−1
n−i
(∗) X k−1
= n
i
·
N
i=1
n·
n
m−1
N −m
·
n
X
i−1
n−i
(∗∗)
= n·m
ik−1 ·
N −1
i=1
N·
n−1
m−1
N −m
·
n
m X k−1
i−1
n−i
=n·
i
·
N −1
N i=1
n−1
m−1
N −m
·
n−1
mX
j
n−1−j
(j + 1)k−1 ·
mit j = i − 1
=n·
N −1
N j=0
n−1
m
=n·
· E[(Y + 1)k−1 ] mit Y ∼ h(n − 1, N − 1, m − 1)
N
Damit kann der Erwartungswert und das zweite Moment direkt gezeigt werden.
31
Prof. Dr. Ulrich Horst
(i) E(X) = n ·
Stochastik
WS 2013/2014
m
m
· E[(Y + 1)1−1 ] = n ·
N
N
m
m
m−1
2−1
(ii) E(X ) = n ·
· E[(Y + 1) ] = n ·
· (n − 1) ·
+1
N
N
N −1
2
Lemma Die Varianz einer hypergeometrisch verteilten Zufallsvariable X ∼ h(n, N, m) ist gegeben durch
Var(X) = n ·
m m N − n
·
· 1−
N
N
N −1
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
m−1
m 2
m
Var(X) = E(X 2 ) − E(X)2 = n ·
· (n − 1) ·
+1 − n·
N
N −1
N
m
m−1
m
=n·
(n − 1) ·
+1−n·
N
N −1
N
m m·n−n−m+1 N −1
m
=n·
+
−n·
N
N −1
N −1
N
m m · n − n − m + 1 N · (N − 1) − m · n · (N − 1)
=n·
+
N
N −1
N · (N − 1)
m m · n − n − m + 1 (N − 1) · (N − m · n)
=n·
+
N
N −1
N · (N − 1)
m·n
(N − 1) · (N − m · n)
=
m·n−n−m+1+
N · (N − 1)
N
m·n
N ·m·n−N ·n−N ·m+N
N2 − N · m · n − N + m · n
=
+
N · (N − 1)
N
N
2
m·n
N −N ·m−N ·n+m·n
=
N · (N − 1)
N
m·n
(N − n) · (N − m)
=
N · (N − 1)
N
m N − n (N − m)
=n·
·
N N −1
N
m m N − n
=n·
· 1−
·
N
N
N −1
Bemerkung Es wird von einer zweigeteilten Grundgesamtheit ausgegangen. Dieser Gesamtheit werden
in einer Stichprobe zufällig n Elemente nacheinander ohne Zurücklegen entnommen. Die hypergeometrische Verteilung gibt dann Auskunft darüber, mit welcher Wahrscheinlichkeit in der Stichprobe eine
bestimmte Anzahl von Elementen vorkommt, die die gewünschte Eigenschaft haben. Bedeutung kommt
dieser Verteilung daher etwa bei Qualitätskontrollen zu.
Bemerkung Die hypergeometrische Verteilung wird modellhaft dem Urnenmodell ohne Zurücklegen zugeordnet (siehe auch Kombination ohne Wiederholung). Man betrachtet speziell in diesem Zusammenhang
eine Urne mit zwei Sorten Kugeln. Es werden n Kugeln ohne Zurücklegen entnommen. Die Zufallsvariable
X ist die Zahl der Kugeln der ersten Sorte in dieser Stichprobe.
Bemerkung Die hypergeometrische Verteilung beschreibt also die Wahrscheinlichkeit dafür, dass bei
N gegebenen Elementen, von denen m die gewünschte Eigenschaft besitzen, beim Herausgreifen von n
Probestücken genau i Treffer erzielt werden, d. h. die Wahrscheinlichkeit für X = i Erfolge in n Versuchen.
32
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
5 Absolutstetige Zufallsvariablen
5.1 Approximation der Binomialverteilung
Erinnerung Sei (Xn )n∈N ∼ B(n, p) eine Folge binomialverteilter Zufallsvariablen. Dann gilt für den
Erwartungswert und für die Varianz dieser Folge von Zufallsvariablen Folgendes.
E(Xn ) = n · pn
und
Var(Xn ) = n · pn · (1 − pn )
Gilt n·pn → λ < ∞, so kann die Binomialverteilung für große n durch die Poissonverteilung approximiert
werden, d. h. für kleine p approximieren wir B(n, p) durch π(λ). Es gilt also folgende Annäherung.
B(n, p) ≈ π(λ)
Bemerkung
für n → ∞ und p → 0
Sei (Xn )n∈N ∼ B(n, p) eine Folge von Zufallsvariablen. Ist pn ≡ p, so gilt Folgendes.
E(Xn ) = n · p % ∞ und
Var(Xn ) = n · p · (1 − p) % ∞
In diesem Fall müssen wir Xn standardisieren.
Xn − n · p
Xn − E(Xn )
=p
Xn∗ := p
Var(Xn )
n · p · (1 − p)
Das Ziel ist es nun, in geeigneter Weise die folgende Wahrscheinlichkeit anzunähern.
"
#
k
−
n
·
p
P[Xn = k] = P Xn∗ = p
=: pn (k)
n · p · (1 − p)
Dazu betrachten wir nun den Fall p = 1/2.
1
Xn ∼ B n,
2
Satz von de Moivre-Laplace Sei (Xn )n∈N ∼ B(n, p) eine Folge von Zufallsvariablen. Sei c > 0 und sei
1
1
ϕ(x) = √ · exp − · x2
2
2π
Sei xn (k) für 0 ≤ k ≤ n und n ∈ N wie folgt definiert.
k − n/2
xn (k) := p
n/4
Dann gilt im Folgenden der Satz von de Moivre-Laplace.
r
pn (k)
n
lim
max ·
− 1 = 0
n→∞ k:|xn (k)|<c ϕ(xn (k))
4
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Bemerkung Als unmittelbare Folgerung erhalten wir, dass die Verteilungen der standardisierten Variablen Xn∗ mit n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik
zentrale Gauß-Verteilung - die wir später genauer betrachten.
Korollar Gegeben seien die Voraussetzungen des obigen Satzes. Dann gilt Folgendes.
lim P [a ≤
n→∞
Xn∗
Zb
≤ b] =
ϕ(x) dx
für a, b ∈ R
a
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
33
mit a < b
Prof. Dr. Ulrich Horst
Bemerkung
Stochastik
WS 2013/2014
Für zwei Folgen (an )n∈N und (bn )n∈N schreibt man an ∼ bn , falls Folgendes gilt.
lim
n→∞
an
=1
bn
Lemma Große Fakultäten können näherungsweise wie folgt berechnet werden.
n n
√
n! ∼ 2πn
e
(Stirling-Formel)
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
5.2 Absolutstetige Zufallsvariablen
Definition Eine Zufallsvariable X heißt absolutstetig verteilt mit der Dichte f , falls eine integrierbare
Funktion f : R → R existiert, die folgende Eigenschaften für alle Borel-messbaren Mengen B erfüllt.
Z
Z
Z
f (x) dx = 1 und P[X ∈ B] =
f (x) dx =
1B (x) · f (x) dx
B
R
Bemerkung
R
Die Dichte wird oft auch PDF (probability density function) genannt.
Definition Sei X absolutstetig verteilte Zufallsvariable mit der Dichte f . Dann heißt die Funktion
Zx
F (x) = P[X ≤ x] =
f (y) dy
−∞
die (kumulative) Verteilungsfunktion.
Bemerkung
Die Verteilungsfunktion wird oft auch CDF (cumulative distribution function) genannt.
Bemerkung
Für eine absolutstetige Zufallsvariable X mit Dichte f und B = [a, b] gilt Folgendes.
Zb
P[X ∈ [a, b]] = P[a ≤ X ≤ b] =
f (x) dx
a
Bemerkung
Für eine absolutstetige Zufallsvariable X mit Dichte f und B = [a, a] gilt Folgendes.
Za
P[X ∈ [a, a]] = P[X = a] =
f (x) dx = 0
a
Da jeder feste Wert also Null ist, gilt damit für die Verteilungsfunktion F Folgendes.
F (x) = P[X ≤ x] = P[X < x]
Bemerkung
Für eine absolutstetige Zufallsvariable X mit Dichte f und Verteilungsfunktion F gilt
Z∞
1 − F (x) =
f (y) dy
x
Bemerkung
Ist die Dichte f stetig, so gilt der Hauptsatz der Integral- und Differentialrechnung.
F0 = f
Beispiel Sei X eine absolutstetige Zufallsvariable mit der Dichte
(
c · (4x − 2x2 ), falls 0 < x < 2
f (x) =
0,
sonst
Im Folgenden soll der Parameter c und P[X > 1] bestimmt werden.
34
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Um den Parameter c zu bestimmen, muss die folgende Eigenschaft der Dichte genutzt werden.
Z
f (x) dx = 1
R
Damit gilt für die Dichte f der Zufallsvariablen X Folgendes.
Z2
Z2
2
c · (4x − 2x ) dx = c
1=
0
0
2
2
8
(4x − 2x2 ) dx = c 2x2 − x3 = c ·
3
3
0
⇔
c=
3
8
Da der Parameter c bestimmt wurde, kann nun auch die Wahrscheinlichkeit P[X > 1] bestimmt werden.
Z2
P[X > 1] =
1
2
3
3
2
1
(4x − 2x2 ) dx =
2x2 − x3 =
8
8
3
2
1
Beispiel Die Dauer (in Stunden) bevor ein Computer ausfällt sei eine Zufallsvariable mit der Dichte

λ · exp − 1 x , falls x ≥ 0
100
f (x) =

0,
sonst
(i) Wie groß ist die Wahrscheinlichkeit, dass der Computer zwischen 50 und 100 Stunden funktioniert.
(ii) Wie groß ist die Wahrscheinlichkeit, dass der Computer weniger als 100 Stunden funktioniert?
Lösung
(i) Zunächst wird der Parameter λ bestimmt, indem die Eigenschaften der Dichte genutzt werden.
∞
Z∞
Z∞
1
1
1
x dx = λ exp −
x dx = λ −100 · exp −
x
1 = λ · exp −
100
100
100
0
0
0
1
100
Damit gilt dann für die gesuchte Wahrscheinlichkeit Folgendes.
= λ [0 − (−100)] = 100 · λ
⇔
λ=
100
Z100
1
1
1
exp −
x dx =
−100 · exp −
x
100
100
100
50
50
= −e−1 − −e−1/2 = e−1/2 − e−1 ≈ 0,239
1
P[50 ≤ x ≤ 100] =
100
(ii) Um die gesuchte Wahrscheinlichkeit zu bestimmen, muss das folgende Integral berechnet werden.
1
P[X < 100] =
100
100
Z100
1
1
1
exp −
x dx =
−100 · exp −
x
= 1 − e−1 ≈ 0,632
100
100
100
0
0
5.3 Erwartungswert und Varianz absolutstetiger Zufallsvariablen
Definition Sei X : Ω → R eine absolutstetige Zufallsvariable mit der Dichtefunktion f . Der Erwartungswert von X ist dann wie folgt definiert.
Z
Z
E(X) =
x · f (x) dx, falls
|x| · f (x) dx < ∞
R
R
Beispiel Es sei X eine absolutstetige Zufallsvariable mit der Dichte f , gegeben durch
(
1, falls x ∈ [0, 1]
f (x) =
,
0, sonst
und es sei g(x) = exp(x). Dann gilt für den Erwartungswert von g(X) Folgendes.
X
Z1
Z1
g(x) · f (x) dx =
E[g(X)] = E[e ] =
0
0
35
1
ex · 1 dx = [ex ]0 = e1 − e0 = e − 1
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Kommt Erna zu ihrem Date s Minuten zu spät, kostet sie das c · s e, kommt sie s Minuten zu
früh kostet sie das k · s e. Die Reisezeit von Ernas Wohnung zum Treffpunkt ist absolutstetig verteilt mit
stetiger Dichte f . Wann muss Erna aufbrechen um ihre erwarteten Kosten zu minimieren.
Lösung Sei X die Reisezeit und t die Anzahl der Zeiteinheiten vom Aufbruchspunkt bis zur vereinbarten
Zeit. Dann ist das Kostenfunktional wie folgt gegeben.
(
c · (X − t), falls X ≥ t
Ct (X) =
k · (t − X), falls X ≤ t
Dann sind die erwarteten Kosten wie folgt zu berechnen.
Z∞
Ct (x) · f (x) dx =
E[Ct (X)] =
Z∞
Zt
0
t
0
Zt
=k·t
Z∞
Zt
f (x) dx − k
0
c · (x − t) · f (x) dx
k · (t − x) · f (x) dx +
x · f (x) dx + c
Z∞
x · f (x) dx − c · t
t
0
f (x) dx
t
Es gilt also die Funktion t 7→ E[Ct (X)] zu minimieren. Dazu betrachtet man die Ableitung nach t.
d
E[Ct (X)] = k
dt
Z∞
Zt
x · f (x) dx + k · t · f (t) − k · t · f (t) − c · t · f (t) − c
f (x) dx + c · t · f (t)
t
0
= k · F (t) − c · [1 − F (t)] = k · F (t) − c + c · F (t) = (k + c) · F (t) − c
Die kritischen Punkte der Funktion t 7→ E[Ct (X)] sind also bestimmt durch die Gleichung
0=
d
c
E[Ct (X)] = (k + c) · F (t) − c ⇔ F (t) =
dt
k+c
Dies liefert in der Tat ein Minimum, da die folgende Bedingung erfüllt ist.
d2
E[Ct (X)] = (k + c) · f (t) ≥ 0
dt2
Lemma Sei Y ≥ 0 eine Zufallsvariable. Dann lässt sich der Erwartungswert von Y wie folgt darstellen.
Z∞
E(Y ) =
P[Y > y] dy
0
Beweis Um dieses Lemma zu beweisen, benötigt man den Satz von Fubini (∗), welcher im Exkurs
zur mehrdimensionalen Differentiation und Integration genauer erläutert wird. Sei Y eine absolutstetige
Zufallsvariable mit der Dichte fY .


Z∞
Z∞ Z∞
Z∞ Z∞


P[Y > y] dy =
fY (x) dx dy =
1y<x (x, y) · f (x) dx dy
0
y
0
(∗)
Z∞ Z∞
=
0
0
0


Z∞ Z∞
dy  f (x) dx
1y<x (x, y) · f (x) dy dx = 
0
0
0
Z∞
x · f (x) dx = E(Y )
=
0
Proposition Sei X absolutstetig verteilt mit Dichte f . Sei g : R → R eine (messbare) Funktion, dann
gilt für den Erwartungswert von g(X) Folgendes.
Z
Z
E[g(X)] =
g(x) · f (x) dx, falls
|g(x)| · f (x) dx < ∞
R
R
n
n
Für die Funktion g(x) = x heißt der Erwartungswert E(X ) das n-te Moment (sofern existent).
36
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Um diese Proposition zu beweisen, verwendet man das zuvor gegebene Lemma.
Z∞
E[g(X)] =
Z∞ Z
P[g(X) > y] dy =
0
f (x) dx dy
x:g(x)>y
0
g(x)
Z
Z
=
Z
dy f (x) dx =
x:g(x)>y
0
g(x) · f (x) dx
x:g(x)>y
Lemma Seien a, b ∈ R, sowie X und Y absolutstetige Zufallsvariablen mit den Dichten fX und fY und
existierenden Erwartungswerten. Dann gelten die folgenden Rechenregeln.
(i) E(a · X + b) = a · E(X) + b
(Lineare Transformation)
(ii) E(X + Y ) = E(X) + E(Y )
(Additivität)
Beweis Es gelten die Voraussetzungen des obigen Lemmas.
(i) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet.
Z
Z
Z
E(a · X + b) = (a · x + b) · f (x) dx = a x · f (x) + b f (x) dx = a · E(X) + b
R
R
R
(ii) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet.
Z
Z
Z
E(X + Y ) = (x + y) · f (x) dx =
x · f (x) dy +
y · f (x) dx = E(X) + E(Y )
R
R
R
Definition Sei X : Ω → R eine absolutstetige Zufallsvariable mit der Dichtefunktion f . Die Varianz
dieser Zufallsvariablen ist dann wie folgt definiert.
Var(X) = E[(X − E(X))2 ]
Lemma Sei a ∈ R und X eine absolutstetige Zufallsvariable mit der Dichtefunktion f und existierender
Varianz. Dann gelten die folgenden Rechenregeln.
(i) Var(aX + b) = a2 Var(X)
(Lineare Transformation)
(ii) Var(−X) = Var(X)
(iii) Var(X) = E(X 2 ) − (E(X))2
(Verschiebungssatz)
Beweis Seien a, b ∈ R und X eine diskrete Zufallsvariablen mit existierender Varianz.
(i) Die lineare Transformation ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln für den Erwartungswert.
Var(aX + b) = E[(aX + b − E(aX + b))2 ] = E[(aX + b − aE(X) − b)2 ]
= a2 E[(X − E(X))2 ] = a2 Var(X)
(ii) Diese Rechenregel folgt direkt aus der Regel (i) als Spezialfall mit a = −1 und b = 0.
(iii) Der Verschiebungssatz ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln
für den Erwartungswert.
Var(X) = E[(X − E(X))2 ]
= E[X 2 − 2 · X · E(X) + E(X)2 ]
= E(X 2 ) − E(2 · X · E(X)) + E(X)2
= E(X 2 ) − 2 · E(X) · E(X) + E(X)2
= E(X 2 ) − E(X)2
37
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Satz Sei X eine absolutstetige Zufallsvariable mit stetiger Dichte fX . Angenommen g : R → R sei eine
strikt monotone (steigende oder fallende), stetig differenzierbare Funktion mit g 0 (x) 6= 0 für alle x ∈ R.
Sei R = h(R) das Bild von h. Dann hat die Zufallsvariable Y = g(X) die folgende Dichte.
(
fX [g −1 (y)] · |(g −1 )0 (y)|, falls y ∈ R
fY (y) =
0,
sonst
Beweis Da die Funktion g strikt monoton ist, existiert die Umkehrfunktion g −1 . Nach dem Satz über
die Differenzierbarkeit von Umkehrfunktionen gilt damit Folgendes.
(g −1 )0 (y) =
1
g 0 (g −1 (y))
Angenommen g ist strikt monoton steigend, dann gilt für die Verteilungsfunktion von Y Folgendes.
FY (y) = P[Y ≤ y] = P[g(X) ≤ y] = P[X ≤ g −1 (y)] = FX (g −1 (y))
Da die Dichte fX stetig und g differenzierbar ist, gilt nach der Kettenregel.
(
fX (g −1 (y)) · (g −1 )0 (y), falls y ∈ R
fY (y) =
0,
sonst
Angenommen g ist strikt monoton fallend, dann gilt für die Verteilungsfunktion von Y Folgendes.
FY (y) = P[Y ≤ y] = P[g(X) ≤ y] = P[X ≥ g −1 (y)] = 1 − P[X ≤ g(y)] = 1 − FX (g(y))
Da die Dichte fX stetig und g differenzierbar ist, gilt nach der Kettenregel.
(
−fX [g −1 (y)] · (g −1 )0 (y), falls y ∈ R
fY (g(y)) =
0,
sonst
Betrachtet man nun beide Fälle gleichzeitig, so ergibt sich folgende Ableitung.
(
fX [g −1 (y)] |(g −1 )0 (y)|, falls y ∈ R
fY (g(y)) =
0,
sonst
5.4 Spezielle absolutstetige Verteilungen
5.4.1 Gleichverteilung
Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch

 1 , falls x ∈ [α, β]
f (x) = β − α
0,
sonst
heißt gleichverteilt auf [α, β] mit α, β ∈ R. In diesem Fall schreibt man auch
X ∼ U(α, β)
Für die Verteilungsfunktion einer gleichverteilten Zufallsvariable gilt Folgendes.

0,
falls x ≤ α


Zx
x − α
1
x−α
,
falls
α
<
x
<
β
F (x) =
mit
dy =
β
−
α

β
−
α
β
−α


α
1,
falls x ≥ β
Lemma Sei X ∼ U(α, β) eine gleichverteilte Zufallsvariable auf [α, β].
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) =
1
(β + α)
2
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) =
1 2
(β + αβ + α2 )
3
38
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Sei X ∼ U(α, β) eine gleichverteilte Zufallsvariable auf [α, β].
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
Zβ
E(X) =
1
1
x·
dx =
β−α
β−α
α
Zβ
x dx =
α
β
1
1 2
1 2 1 2
1
x
β − α
=
β−α 2
β−α 2
2
α
(β + α) · (β − α)
1
β 2 − α2
=
= (β + α)
=
2(β − α)
2(β − α)
2
(ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet.
2
Zβ
E(X ) =
1
1
x ·
dx =
β−α
β−α
2
α
Zβ
β
1
1 3
1 3 1 3
1
x dx =
x
β − α
=
β−α 3
β−α 3
3
α
2
α
1
β 3 − α3
= (β 2 + αβ + α2 )
=
3(β − α)
3
Lemma Die Varianz einer gleichverteilten Zufallsvariable X ∼ U(α, β) ist gegeben durch
Var(X) =
1
(β − α)2
12
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
2
1
1
Var(X) = E(X 2 ) − (E(X))2 = (β 2 + αβ + α2 ) − (β + α)
3
2
1
1
1
1 2
= (β + αβ + α2 ) − (β + α)2 = (β 2 + αβ + α2 ) − (β 2 + 2αβ + α2 )
3
4
3
4
4(β 2 + αβ + α2 ) − 3(β 2 + 2αβ + α2 )
β 2 − 2αβ + α2
1
=
=
=
(β − α)2
12
12
12
5.4.2 Normalverteilung
Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch
2 !
1 x−µ
1
exp −
,
f (x) = √
2
σ
σ 2π
heißt normalverteilt mit den Parametern µ ∈ R und σ ∈ R+ . In diesem Fall schreibt man auch
X ∼ N (µ, σ)
Für die Verteilungsfunktion einer normalverteilten Zufallsvariable gilt Folgendes.
2 !
Zx
1
1 t−µ
F (x) = √
exp −
dt
2
σ
σ 2π
−∞
Bemerkung
Die Standardnormalverteilung erhält man für µ = 0 und σ = 1. Ihre Dichtefunktion ist
1
1
exp − x2
ϕ(x) = √
2
2π
und die Verteilungsfunktion der Standardnormalverteilung ist wie folgt gegeben.
1
Φ(x) = √
2π
Zx
1
exp − t2
2
dt
−∞
Sei X : Ω → R eine Zufallsvariable auf (Ω, F, P). X heißt (standard-)normalverteilt, falls Folgendes gilt.
Zb
P [X ∈ [a, b]] =
ϕ(x) dx = Φ(b) − Φ(a)
a
39
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X ∼ N (µ, σ) eine normalverteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) = µ
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) = µ2 + σ 2
Beweis Sei X ∼ N (µ, σ) eine normalverteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
2 !
Z
1 x−µ
1
exp −
dx
E(X) =
x· √
2
σ
σ 2π
R
2 !
Z
1
1 x−µ
= √
x · exp −
dx
2
σ
σ 2π R
2 !
Z
1 x−µ
1
(x − µ) · exp −
= √
dx +µ = µ
2
σ
σ 2π R
=0 (aufgrund der Symmetrie)
(ii) Um das zweite Moment zu beweisen, werden die Eigenschaften des Erwartungswertes und die Symmetrie der Standardnormalverteilung genutzt. Sei X ∼ N (µ, σ), dann ist Y = (X − µ)/σ ∼ N (0, 1).
E(X 2 ) = E[(σY + µ)2 ] = E[σ 2 Y 2 + 2µσY + µ2 ]
= σ 2 · E(Y 2 ) +2 · µ · σ · E(Y ) +µ2 = σ 2 + µ2
=1
=0
Lemma Die Varianz einer normalverteilten Zufallsvariable X ∼ N (µ, σ) ist gegeben durch
Var(X) = σ 2
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
Var(X) = E(X 2 ) − (E(X))2 = µ2 + σ 2 − (µ)2 = σ 2
Proposition
Sei X ∼ N (µ, σ) eine normalverteilte Zufallsvariable und seien α, β ∈ R mit α > 0.
αX + β ∼ N (αµ + β, ασ)
Beweis Es gelten die Annahmen der Proposition. Sei FY die Verteilungsfunktion von Y = αX + β.
x−β
x−β
FY (x) = P[Y ≤ x] = P[αX + β ≤ x] = P X ≤
= FX
α
α
Dabei bezeichnet FX die Verteilungsfunktion von X. Durch Ableiten erhält man nun die Dichte von Y .


!2 
x−β
−
µ
d
1
x−β
1 1
1
α

√ · exp −
fY (x) =
FY (x) = · fX
=
dx
α
α
α σ 2π
2
σ
2 !
2 !
1
1
1 x − β − αµ
1 x − (αµ + β)
√ · exp −
√ · exp −
=
=
2
ασ
2
ασ
ασ 2π
ασ 2π
Beispiel Um den Cholesterin-Spiegel zu senken, machen 100 Leute eine Diät. Um die Wirksamkeit der
Diät zu testen, testet man nach Beendigung den Cholesterin-Spiegel erneut. Die Wirksamkeit wird akzeptiert, wenn nach der Diät mindestens 65% der Probanden einen niedrigeren Cholesterin-Spiegel haben.
Gesucht ist die Wahrscheinlichkeit, dass die Wirksamkeit akzeptiert wird, obwohl die Diät tatsächlich
wirkungslos ist.
40
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lösung Man nimmt an, dass die Diät wirkungslos ist. Der Cholesterin-Spiegel ist mit einer Wahrscheinlichkeit von 1/2 nach der Diät höher bzw. tiefer. Sei X eine Zufallsvariable für die Anzahl der Probanden
mit einem niedrigen Cholesterin-Spiegel.
X ∼ B(n, p)
mit
n = 100
und p =
1
2
Dann gilt für die gesuchte Wahrscheinlichkeit Folgendes.
X − 50
64,5 − 50
P[X ≥ 65] = P
≥
= P[Z ≥ 2,9] = 1 − P[Z < 2,9] = 1 − Φ(2,9) = 0,0019
5
5
Beispiel Angenommen, 52% aller Berliner seien für ein striktes Alkoholverbot in der S-Bahn. Wie groß
muss eine Umfrage sein, damit mit mindestens 95% Wahrscheinlichkeit die Hälfte der Befragten für ein
Verbot ist?
Lösung Sei N die Anzahl aller Berliner. Dann gibt es 0,52 · N Befürworter. Sei Sn die Zahl derjenigen
unter den Befragten, die für ein Verbot sind und n die Anzahl der Befragten. Dann gilt folgende Verteilung.
Sn ∼ H(n, N, 0,52 · N )
D. h. Sn ist hypergeometrisch verteilt zu den Parametern (n, N, 0,52 · N ). Da man Sn nicht direkt durch
eine Normalverteilung approximieren kann, wird die hypergeometrische Verteilung zunächst durch eine
Binomialverteilung approximiert. Gilt also n, m → ∞ mit m/N → p, so gilt die folgende Approximation.
m
N −m
·
m
i
n−i
→
· pi · (1 − p)n−i
P[X = i] =
N
i
n
Damit gilt nun Sn ≈ B(n, 0,52). Damit kann man nun die Binomialverteilung durch die Normalverteilung
annähern, wodurch sich nun Folgendes ergibt.
1
Sn − 0,52n
0, 5n − 0,52n
P Sn > n = P √
>√
2
n · 0,52 · 0,48
n · 0,52 · 0,48
∼N (0,1)
√
=−0,04 n
√
Es wird also ein n ∈ N gesucht, sodass P[Z > −0,04 n] ≥ 0,95 mit Z ∼ N (0, 1) gilt. Für Z > 0 gilt mit
1 − Φ(−z) = Φ(z) für die Standardnormalverteilung Φ aufgrund der Symmetrie Folgendes.
√
√
√
√
P[Z > −0,04 n] = 1 − P[Z < −0,04 n] = 1 − Φ(−0,04 n) = Φ(0,04 n)
Verwendet man eine Tabelle für die Werte einer N (0, 1)-Verteilung mit Φ(1,645) = 0,95 so gilt Folgendes.
√
√
√
Φ(0,04 n) > 0,95 ⇔ Φ(0,04 n) > Φ(1,645) ⇔ 0,04 n > 1,645 ⇔ n > 1692
D. h. der Stichprobenumfang muss mindestens 1692 betragen.
5.4.3 Exponentialverteilung
Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch
(
λ · e−λ·x , falls x ≥ 0
f (x) =
,
0,
sonst
heißt exponentialverteilt mit den Parameter λ ∈ R+ = {x ∈ R | x > 0}. In diesem Fall schreibt man auch
X ∼ E(λ)
Für die Verteilungsfunktion einer exponentialverteilten Zufallsvariable gilt Folgendes.
(
Zx
1 − e−λ·x , falls x ≥ 0
F (x) =
f (t) dt =
0,
sonst
−∞
41
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X ∼ E(λ) eine exponentialverteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) =
1
λ
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) =
2
λ2
Beweis Sei X ∼ E(λ) eine exponentialverteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
Z∞
x·λ·e
E(X) =
∞
dx = −x · e−λx 0 +
−λx
Z∞
e
−λx
0
0
∞
1 −λx
1
dx = 0 + − · e
=
λ
λ
0
(ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet.
2
Z∞
2
x ·λ·e
E(X ) =
−λx
∞
dx = −x2 · e−λx 0 + 2
0
Z∞
x · e−λx dx = 0 + 2 ·
1
2
= 2
λ2
λ
0
Lemma Die Varianz einer exponentialverteilten Zufallsvariable X ∼ E(λ) ist gegeben durch
Var(X) =
1
λ2
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
2
2
1
2
1
1
Var(X) = E(X 2 ) − E(X)2 = 2 −
= 2− 2 = 2
λ
λ
λ
λ
λ
Lemma Sei X ∼ E(λ) und s, t > 0. Dann gilt die Gedächtnislosigkeit.
P[X > s + t | X > t] = P[X > s]
Beweis Nach dem Satz von Bayes gilt Folgendes.
P[X > s + t | X > t] =
P[X > s + t, X > t]
P[X > s + t]
=
P[X > t]
P[X > t]
Für t > 0 gilt nun P[X > t] = e−λ·t und damit auch die Gedächtnislosigkeit.
P[X > s + t]
e−λ·(s+t)
e−λ·s−λ·t
e−λ·s · e−λ·t
=
=
=
= e−λ·s = P[X > s]
P[X > t]
e−λ·t
e−λ·t
e−λ·t
Beispiel Angenommen die Ankunftszeit der nächsten Bahn ist exponentialverteilt mit erwarteter Wartezeit von 10 Minuten. Sie stehen seit 4 Minuten am Bahnsteig. Wie lange warten Sie im Mittel?
Lösung
Sei X die Ankunftszeit, dann gilt P[X > t] = e−λ·t mit λ = 1/10, da E(X) = 10. Nun gilt
P[X > s + 4 | X > 4] = P[X > s]
aufgrund der Gedächtnislosigkeit. Sei Y ≥ 0 die Restwartezeit. Dann gilt
P[Y > s] = P[X > s + 4 | X > 4] = e−λ·s
Damit gilt für den gesuchten Erwartungswert von Y Folgendes.
Z∞
E(Y ) =
Z∞
P[Y > s] ds =
0
0
42
e−λ·s ds =
1
= 10
λ
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Exkurs: Mehrdimensionale Differentiation und Integration
E.1 Mehrdimensionale Differentiation
Motivation Sei X : Ω → Rn eine Zufallsvariable und x = (x1 , . . . , xn )> ∈ Rn , sowie B ⊆ Rn .
Z
Z
P[X ∈ B] =
f (x) dx =
f (x1 , . . . , xn ) d(x1 , . . . , xn )
B
B
Definition Sei U ⊆ Rn offen und f : U → R eine Abbildung. Dann heißt die Funktion f in
x = (x1 , . . . , xn )> ∈ U
partiell differenzierbar bezüglich der i-ten Koordinate, falls der folgende Grenzwert existiert.
Di f (x) =
f (x + h · ei ) − f (x)
∂
f (x) := lim
h→0
∂xi
h
Dabei bezeichnet ei = (0, . . . , 0, 1, 0, . . . , 0) den i-ten Einheitsvektor, wobei 1 genau an der i-ten Stelle
steht. Anders formuliert, kann die partielle Ableitung auch wie folgt aufgefasst werden. Sei ξ ∈ R und
fi : R → R
mit fi (ξ) = f (x1 , . . . , xi−1 , ξ, xi+1 , . . . , xn )
Dann ist die partielle Ableitung der Funktion f in x ∈ Rn bezüglich der i-ten Koordinate durch
Di f (x) = lim
h→0
fi (xi + h) − fi (xi )
= fi0 (xi )
h
gegeben. Die Funktion f heißt partiell differenzierbar in x ∈ U , falls Di f (x) für alle i = 1, . . . , n existiert.
Beispiel Sei f (x) =
p
x21 + . . . + x2n . Ihre partiellen Ableitungen haben dann die folgende Form.
Di f (x) =
−1/2
xi
1 2
x1 + . . . + x2i + . . . + x2n
· 2xi =
2
f (x)
für x 6= 0
Beispiel Sei g : R+ → R differenzierbar. Dann besitzt die Komposition g ◦ f die partiellen Ableitungen.
∂
xi · g 0 (f (x))
g(f (x)) = g 0 (f (x)) · Di f (x) =
∂xi
f (x)
Definition Die ersten partiellen Ableitungen lassen sich in einem Vektor anordnen.
>
∂
∂
>
grad f (x) = ∇f (x) := (D1 f (x), . . . , Dn f (x)) =
f (x), . . . ,
f (x)
∂x1
∂xn
Dieser Vektor heißt Gradient von f in x ∈ Rn . Die Einträge sind die partiellen Ableitungen von f in
Richtung xi für alle i = 1, . . . , n.
Satz Sei U ⊆ Rn offen und f : U → R eine partiell differenzierbare Funktion, sprich es gilt f ∈ C 1 (U, R).
Sind alle partiellen Ableitungen Di f : Rn → R für i = 1, . . . , n selbst partiell differenzierbar, das heißt
Dj (Di f (x)) = Dj Di f (x) =
∂2
f (x)
∂xi ∂xj
existiert für alle i, j = 1, . . . , n, dann heißt die Abbildung f zweimal (stetig) partiell differenzierbar (falls
Di f und Dj Di f für alle i und j stetig sind) und man schreibt f ∈ C 2 (U, R).
Beweis Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet, da dieser bereits aus der Vorlesung Analysis II bekannt sein sollte.
Satz von Schwarz
Sei U ⊆ Rn offen und f : U → R zweimal stetig partiell differenzierbar. Dann gilt
Dj Di f (x) = Di Dj f (x)
für i, j = 1, . . . , n
Gilt f : U → Rm mit f (x) = (f1 (x), . . . , fm (x))> , so kann der Satz von Schwarz auf alle Komponentenfunktionen fk : U → R mit k = 1, . . . , m ebenfalls angewendet werden.
43
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet, da dieser bereits aus der Vorlesung Analysis II bekannt sein sollte.
E.2 Mehrdimensionale Integration
Ziel Definition des Integrals
R
f (x) dx für eine Funktion f : U → R mit U ⊆ Rn .
Korollar Eine stetige Funktion auf einer kompakten Menge X ist gleichmäßig stetig.
Beweis Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet, da dieser bereits aus der Vorlesung Analysis II bekannt sein sollte.
Lemma Sei [a, b] ein kompaktes (abgeschlossenes und beschränktes) Intervall und U ⊆ Rn offen. Außerdem sei (yk ) ⊆ U eine Folge mit
lim yk = c
k→∞
Dann konvergieren die Funktionen Fk : [a, b] → R mit Fk (x) = f (x, yk ) gleichmäßig gegen F : [a, b] → R
mit F (x) = f (x, c), das heißt wiederum das Folgendes gilt.
lim sup |Fk (x) − F (x)| = 0
k→∞ x∈[a,b]
Beweis Die Menge Q = {yk | k ∈ N} ∪ {c} ist kompakt, da yk gegen c konvergiert, d. h. bis auf endlich
viele yk liegen alle yk in einer Umgebung von c. Dann ist auch die Menge [a, b] × Q kompakt, also ist auch
f : [a, b] × Q → R
gleichmäßig stetig. Sei ε > 0. Dann existiert ein δ > 0 mit
|(x, y) − (x0 , y 0 )| < δ
|f (x, y) − f (x0 , y 0 )| < ε
⇒
Da yk → c, existiert ein N ∈ N, sodass ∀k ≥ N : |yk − c| < δ. Also insbesondere gilt damit auch
∀x ∈ [a, b], ∀k ≥ N : |f (x, yk ) − f (x, c)| < ε
Also gilt ∀x ∈ [a, b], ∀k ≥ N : |Fk (x) − F (x)| < ε.
Satz Sei [a, b] ein kompaktes (abgeschlossenes und beschränktes) Intervall und U ⊆ Rn offen, sowie
f : [a, b] × U → R
eine stetige Abbildung. Die Funktion ϕ : U → R ist ebenfalls stetig, falls für y ∈ U Folgendes gilt
Zb
ϕ(y) =
f (x, y) dx
a
Beweis Um im Folgenden zu beweisen, dass die Abbildung
Zb
y 7→
f (x, y) dx
a
stetig ist, sei (yk ) eine Folge mit yk → c. Dann gilt für diese Abbildung Folgendes.
Zb
ϕ(yk ) =
Zb
f (x, yk ) dx =
a
Fk (x) dx
a
Nach dem obigen Lemma gilt, dass Fk (x) → F (x) gleichmäßig stetig in x ist. Für gleichmäßig konvergente
Funktionenfolgen dürfen wir die Limesbildung und Integration vertauschen. Es gilt also Folgendes.
Zb
lim ϕ(yk ) = lim
k→∞
Zb
Fk (x) dx =
k→∞
a
Zb
lim Fk (x) dx =
F (x) dx = ϕ(c)
k→∞
a
a
44
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Seien I, J ⊆ R kompakte Intervalle und f : I × J → R stetig und stetig partiell differenzierbar
nach der zweiten Variablen. Sei yk → c mit yk 6= c für alle k ∈ N und
Fk (x) =
f (x, yk ) − f (x, c)
yk − c
und F (x) =
∂f
(x, c)
∂y
Dann gilt, dass Fk → F für k → ∞ gleichmäßig auf I ist.
Beweis Sei ε > 0 gegeben. Da D2 f : I × J → R stetig und I × J kompakt ist, ist D2 f auf I × J
gleichmäßig stetig, d. h. es gilt Folgendes.
∃δ > 0 : |y − y 0 | < δ ⇒ |D2 f (x, y) − D2 f (x, y 0 )| < ε
Nach dem Mittelwertsatz gilt, dass ein ηk zwischen c und yk mit
D2 f (x, yk ) = Fk (x)
existiert. Gilt nun |c − yk | < δ, so ist auch |yk − c| < δ und dann
|F (x) − Fk (x)| = |D2 f (x, y) − D2 f (x, yk )| < ε
Satz Seien I, J ⊆ R kompakte Intervalle und f : I × J → R wie im obigen Lemma. Für y ∈ J sei
Z
ϕ(y) = f (x, y) dx
I
Dann ist die Abbildung ϕ stetig differenzierbar und für ihre Ableitung gilt Folgendes.
Z
∂f
∂ϕ
(y) =
(x, y) dx
∂y
I ∂y
Beweis Sei yk → c ∈ J mit yk 6= c für alle k ∈ N und seien Fk , F wie im obigen Lemma. Dann gilt
Z
Z
Z
ϕ(yk ) − ϕ(c)
∂f
lim
= lim
Fk (x) dx = F (x) dx =
(x, c) dx
k→∞
k→∞
yk − c
I
I
I ∂y
Erinnerung
Seien [a, b] ⊆ R und [c, d] ⊆ R kompakte Intervalle, sowie f eine stetige Funktion.
f : [a, b] × [c, d] → R
Sei ϕ : [c, d] → R eine stetige Funktion, die wie folgt gegeben ist.
Zb
y 7→
f (x, y) dx
a
Folgerung Das bedeutet wiederum, dass das folgende Integral existiert.


Zb
Zd Zb
ϕ(y) dy =  f (x, y) dx dy
a
c
a
Analog gilt für die stetige Funktion ψ : [a, b] → R, welche wie folgt gegeben ist
Zd
f (x, y) dy,
ψ(x) =
c
dass ebenfalls ein solches Integral existiert und die folgende Form besitzt.


Zb
Zb Zd
ψ(x) dx =  f (x, y) dy  dx
a
a
c
Falls die beiden Doppelintegrale identisch sind, so gilt für diese die folgende Aussage.
Zb Zd
Z
f (x, y) d(x, y) =
[a,b]×[c,d]
Zd Zb
f (x, y) dy dx =
a
c
f (x, y) dx dy
c
45
a
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Satz von Fubini Seien I, J ⊆ R kompakte Intervalle, sowie f : I × J → R eine stetige Funktion, so gilt
Z Z
Z
f (x, y) d(x, y) =
I×J
Z Z
f (x, y) dy dx =
I
J
f (x, y) dx dy
J
I
Beweis Zuerst definiert man eine Funktion ϕ : [c, d] → R durch


Zb Zy
ϕ(y) :=  f (x, t) dt dx
a
Es gilt ϕ(c) = 0, da f¯(x, y) =
Ry
c
c
f (x, t) dt und auch der folgende Term stetig ist.
∂ f¯(x, y)
∂y
Damit gilt für die Ableitung der Abbildung ϕ Folgendes.
Zb
0
ϕ (y) =
∂ f¯
(x, y) dx =
∂y
Zb
f (x, y) dx
a
c
Daraus folgt wiederum die Aussage des Satzes von Fubini.




Zd Zb
Zd
Zb Zd
 f (x, y) dx dy = ϕ0 (y) dy = ϕ(c) = ϕ(d) =  f (x, y) dy  dx
c
c
c
a
c
Aus den oben geführten Beweisen folgt mit f : [a, b] × [c, d] → R stetig auch Folgendes.
Bemerkung
Zx Zy
F (x, y) =
⇒
f (s, t) dt ds
a
f (x, y) = D1 D2 F (x, y) = D2 D1 F (x, y)
c
Satz von Fubini-Tonelli Sei f : R2 → R+ . Angenommen eines der folgenden iterierten Integrale existiert.
Z Z
Z Z
f (x, y) dx dy und
f (x, y) dy dx
R
R
R
R
Dann existiert auch das andere Integral und es gilt, dass diese gleich dem folgenden Integral sind.
Z
f (x, y) d(x, y)
R2
Beweis Um den Satz von Fubini-Tonelli beweisen zu können, benötigt man die Maßtheorie.
Beispiel Es soll das folgende Integral berechnet werden.
Z
x2 · y 2 d(x, y)
[−5,5]×[−3,2]
Lösung
Um das Integral zu berechnen, benutzt man den Satz von Fubini.
Z
2
Z
2
Z
x · y d(x, y) =
[−5,5]×[−3,2]
2
Z5 Z2
2
x · y dy dx =
=
35
3
Z5
x2 dx =
35 1 3
·x
3 3
5
−5
46
Z5 2
x · y dy dx =
−5 −3
[−5,5] [−3,2]
2
=
−5
−5
35
8750
· 250 =
9
9
1 2 3
·x ·y
3
2
dx
−3
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Es soll der Parameter c so bestimmt werden, dass das folgende Integral gültig ist.
Z
c · x · y · (1 − x) d(x, y) = 1
[0,1]×[0,1]
Lösung
Um c zu bestimmen, benutzt man den Satz von Fubini um das Integral zu bestimmen.
Z
Z
Z
c · x · y · (1 − x) d(x, y) =
1=
2
Z1 Z1
Z1 c · x · y · (1 − x) dy dx =
=
0
Z1
2=
0
0
c · x − c · x2 dx =
c · x · y · (1 − x) dy dx
c · x · y · (1 − x) d(x, y) =
[0,1] [0,1]
[0,1]×[0,1]
[0,1]
Z
1
Z1
1
1
2
c · x · (1 − x) dx
· c · x · y · (1 − x) dx =
2
2
0
0
1
1
· c · x2 − · c · x3
2
3
1
0
=
0
1
1
1
·c− ·c= ·c
2
3
6
⇔
c = 12
Beispiel Es soll der Parameter c so bestimmt werden, dass das folgende Integral gültig ist.
Z∞ Zy
c · (y 2 − x2 ) · e−y dx dy = 1
0 −y
Lösung
Um c zu bestimmen, benutzt man den Satz von Fubini um das Integral zu bestimmen.
 y

Z∞ Zy
Z∞
Z
c · (y 2 − x2 ) · e−y dx dy = c e−y  y 2 − x2 dx dy
1=
0 −y
Z∞
=c
0
−y
0
y
Z∞
1 3
4
−y
2
dy = · c e−y · y 3 dy
e
x·y − ·x
3
3
−y
0
∞
4 4
= · c e−y · (y 3 − 3y 2 + 6y − 6) 0 = · c · 6 = 8 · c
3
3
⇔
c=
1
8
Beispiel Es sei C = {(x, y) | x2 + y 2 = 1} und f (x, y) = 1. Dann gilt für das Integral Folgendes.
Z
Z Z
f (x, y) d(x, y) =
(x,
y)
dx
dy
1C
C
R
R
Man berechnet nun also zuerst das innere Integral und erhält somit Folgendes.
√ 2
Z
Z1−y
p
1C (x, y) dx = 1 dx = 2 1 − y 2
R
√ 2
−
1−y
Damit gilt für das gesamte Integral durch Einsetzung des Wertes des inneren Integrals Folgendes.
Z1 p
h
i1
yp
f (x, y) d(x, y) = 2 1 − y 2 dy = 2 arcsin(y) −
1 − y2
2
−1
C
−1
π π = 2 (arcsin(1) − arcsin(−1)) = 2
− −
= 2π
2
2
Z
47
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
6 Gemeinsame Verteilung von Zufallsvariablen
6.1 Gemeinsame Verteilungsfunktion
Bemerkung Bisher wurde immer nur eine (eindimensionale) Zufallsvariable X : Ω → R betrachtet. Nun
werden mehrere Zufallsvariablen X : Ω → Rn mit X = (X1 , . . . , Xn ) und Xi : Ω → R betrachtet. Dazu
soll zunächst die Abhängigkeit zwischen den einzelnen Xi modelliert werden.
Erinnerung Seien (Ωi , Fi , Pi ) mit Ωi = {0, 1}, Fi = P(Ωi ) und P({0}) = p für i = 1, . . . , n. Es wurde
bereits gezeigt, dass (Ω, F, P) mit Ω = Ω1 × . . . Ωn = {0, 1}n , F = P(Ω) und P = P1 ⊗ . . . ⊗ Pn mit
X
P(E) =
P1 ({k1 }) · . . . · Pn ({kn })
(k1 ,...,kn )∈E
ein Modell für den n-fachen unabhängigen Münzwurf ist.
Bemerkung Für Ei = Ω1 × . . . × Ωi−1 × Fi × Ωi+1 × . . . × Ωn mit Fi = P(Ωi ) sind die Ereignisse
E1 , . . . , En unabhängig, sprich für alle J ⊆ {1, . . . , n} gilt Folgendes.


\
Y
P
Ej  =
Pj (Fj )
j∈J
j∈J
Definiert man nun Xi : Ω → R mit ω = (ωi )ni=1 7→ ωi und X = (X1 , . . . , Xn ), so sind die Xi unabhängig
in dem Sinn, dass die Ereignisse {Xi = xi } mit xi ∈ {0, 1} für i = 1, . . . , n unabhängig sind. D. h. für
alle J ⊆ {1, . . . , n} gilt Folgendes.


\
Y
P  {Xj = xj } =
Pj ({Xj = xj })
j∈J
j∈J
Die gemeinsame Verteilung der (X1 , . . . , Xn ) ist gegeben durch das Produkt der Randverteilungen Pi .
!
n
n
\
Y
P(Xi = (x1 , . . . , xn )) = P
{Xi = xi } =
Pi ({Xi = xi })
i=1
i=1
Definition Seien X und Y Zufallsvariablen auf (Ω, F, P). Die gemeinsame Verteilungsfunktion von X
und Y für a, b ∈ R ist dann wie folgt gegeben.
F (a, b) = P({X ≤ a} ∩ {Y ≤ b}) = P(X ≤ a, Y ≤ b)
Die Verteilungsfunktion von X erhält man aus der gemeinsamen Verteilungsfunktion wie folgt.
FX (a) = P[X ≤ a] = P[X ≤ a, Y < ∞] = P lim {X ≤ a, Y ≤ b}
b→∞
= lim P[X ≤ a, Y ≤ b] = lim F (a, b) = F (a, ∞)
b→∞
b→∞
Die Verteilungsfunktion von Y erhält man analog wie folgt.
h
i
FY (b) = P[Y ≤ b] = P[X < ∞, Y ≤ b] = P lim {X ≤ a, Y ≤ b}
a→∞
= lim P[X ≤ a, Y ≤ b] = lim F (a, b) = F (∞, b)
a→∞
a→∞
Die Verteilungen FX und FY heißen die Randverteilungen von X und Y .
Bemerkung
In der Regel betrachtet man jedoch für a1 , a2 , b1 , b2 ∈ R mit a1 < a2 und b1 < b2 Folgendes.
P(a1 < X ≤ a2 , b1 < Y ≤ b2 ) = P(a1 < X ≤ a2 , Y ≤ b2 ) − P(a1 < X ≤ a2 , Y ≤ b1 )
= P(X ≤ a2 , Y ≤ b2 ) − P(X ≤ a1 , Y ≤ b2 )
− P(X ≤ a2 , Y ≤ b1 ) + P(X ≤ a1 , Y ≤ b1 )
= F (a2 , b2 ) − F (a1 , b2 ) − F (a2 , b1 ) + F (a1 , b1 )
48
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Bemerkung Sind X und Y diskrete Zufallsvariablen, so ist die gemeinsamen Massenfunktionen von X
und Y gegeben durch p(x, y) = P[X = x, Y = y]. Die Randverteilungen sind dabei wie folgt gegeben.
X
X
pX (x) = P[X = x] =
p(x, y) und pY (y) = P[Y = y] =
p(x, y)
y:p(x,y)>0
x:p(x,y)>0
Beispiel In einer Gemeinde haben
• 15% der Familien keine Kinder,
• 20% der Familien ein Kind,
• 35% der Familien zwei Kinder und
• 30% der Familien drei Kinder.
Ein Kind sei mit gleicher Wahrscheinlichkeit ein Junge oder ein Mädchen. Es wird zufällig eine Familie
ausgewählt. Sei X die Anzahl der Jungen und Y die Anzahl der Mädchen. Es soll die gemeinsame
Massenfunktion von X und Y berechnet werden.
Lösung
Es sei p(i, j) = P[X = i, Y = j] und K die Anzahl der Kinder. Dann gilt
• p(0, 0) = P[X = 0, Y = 0 | K = 0] · P[K = 0] = 1 · 0,15 = 0,15
• p(1, 0) = P[X = 1, Y = 0 | K = 1] · P[K = 1] = (1/2) · 0,2 = 0,1 = p(0, 1)
• p(1, 1) = P[X = 1, Y = 1 | K = 2] · P[K = 2] = (1/2) · 0,35 = 0,175
• p(2, 0) = P[X = 2, Y = 0 | K = 2] · P[K = 2] = (1/2)2 · 0,35 = 0,0875 = p(0, 2)
• p(2, 1) = P[X = 2, Y = 1 | K = 3] · P[K = 3] = [3 · (1/2)3 ] · 0,30 = 0,1125 = p(1, 2)
• p(3, 0) = P[X = 3, Y = 0 | K = 3] · P[K = 3] = (1/2)3 · 0,30 = 0,0375 = p(0, 3)
Stellt man die Wahrscheinlichkeiten tabellarisch dar, so erhält man folgendes Schema.
HH
j
H
HH
0
1
2
3
P[X = i]
0
0,1500
0,1000
0,0875
0,0375
0,3750
1
0,1000
0,1750
0,1125
0,0000
0,3875
2
0,0875
0,1125
0,0000
0,0000
0,2000
3
0,0375
0,0000
0,0000
0,0000
0,0375
P[Y = j]
0,3750
0,3875
0,2000
0,0375
1,0000
i
Definition Seien X und Y Zufallsvariablen auf (Ω, F, P). Diese heißen gemeinsam
R absolutstetig verteilt
mit der Dichte f , falls es eine Riemann-integrierbare Funktion f : R2 → R+ mit R2 f (x, y) d(x, y) = 1
gibt, sodass für C ⊆ R2 mit 1C f Riemann-integrierbar Folgendes gilt.
Z
Z
P((X, Y ) ∈ C) =
f (x, y) d(x, y) =
1C (x, y) · f (x, y) d(x, y)
R2
C
Die Funktion f (x, y) heißt die gemeinsame Dichte von X und Y . Für C = (−∞, a]×(−∞, b] gilt Folgendes.
Za Zb
F (a, b) = P(X ≤ a, Y ≤ b) =
f (x, y) dy dx
−∞ −∞
Ist f stetig, so folgt per Differentiation Folgendes.
f (x, y) =
∂2
F (x, y)
∂x ∂y
49
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Die Randverteilung von X bzw. die Randverteilung von Y sind wie folgt gegeben.
Z∞
fX (x) =
Z∞
f (x, y) dy
und fY (y) =
−∞
f (x, y) dx
−∞
Beispiel Die gemeinsame Dichte zweier absolutsteiger Zufallsvariablen X und Y ist wie folgt gegeben.
(
2 · e−x · e−2y , falls x, y > 0
f (x, y) =
0,
sonst
Es sollen die folgenden Wahrscheinlichkeiten berechnet werden.
(i) P[X > 1, Y < 1]
(ii) P[X < Y ]
Lösung
a) Die gesuchte Wahrscheinlichkeit kann wie folgt ermittelt werden.


Z∞ Z1
Z∞
Z∞
−x
−2y
−x
−2
−2


P[X > 1, Y < 1] =
2·e ·e
dy dx = e · (1 − e ) dx = (1 − e ) e−x dx
1
0
= (1 − e
1
−2
) (−e
−x
1
∞
)1 = e−1 · (1 − e−2 )
b) Die gesuchte Wahrscheinlichkeit kann wie folgt ermittelt werden.


Z∞ Zy
Z∞
1
−x
−2y


P[X < Y ] =
2·e ·e
dx dy = 2 · e−2y · (1 − e−y ) dy =
3
0
0
0
6.2 Unabhängige Zufallsvariablen
Definition Zwei Zufallsvariablen X und Y heißen unabhängig, falls für alle x, y ∈ R Folgendes gilt.
P(X ≤ x, Y ≤ y) = P[X ≤ x] · P[Y ≤ y]
⇔
F (x, y) = FX (x) · FY (y)
Sind X und Y absolutstetige Zufallsvariablen mit stetigen Dichten f, fX , fY , so gilt Folgendes.
F (x, y) = FX (x) · FY (y)
⇔
f (x, y) =
∂2
∂
F (x, y) =
(fX (x) · FY (y)) = fX (x) · fY (y)
∂x ∂y
∂y
Sind X und Y diskrete Zufallsvariablen mit Massenfunktionen p, pX , pY , so gilt analog Folgendes.
p(x, y) = pX (x) · pY (y)
Die Unabhängigkeit gilt genau dann, wenn die gemeinsame Verteilung eine Produktstruktur hat.
Beispiel Die Anzahl der Personen, die pro Tag ein Postamt betreten, sei Poisson-verteilt mit dem
Parameter λ > 0. Jede Person sei mit der Wahrscheinlichkeit p weiblich und mit der Wahrscheinlichkeit
1 − p männlich. Sei X die Anzahl der Frauen und Y die der Männer. Sind X und Y unabhängig?
Lösung
Nach dem Satz von Bayes gilt Folgendes.
P(A | B) =
P(A ∩ B)
P(B)
⇔
P(A ∩ B) = P(A | B) · P(B)
Gilt außerdem A ⊆ B, so gilt für den Schnitt A ∩ B = A und somit auch Folgendes.
P(A ∩ B) = P(A) = P(A | B) · P(B)
50
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Also gilt für die gemeinsame Verteilung Folgendes.
P[X = i, Y = j] = P[X = i, Y = j | X + Y = i + j] · P[X + Y = i + j]
i+j
λi+j
=
· pi · (1 − p)i+j−i · e−λ ·
(i + j)!
i
1
=
· (λ · p)i · [λ · (1 − p)]j · e−λ
i! · j!
Für die Randverteilungen gilt Folgendes.
P[X = i] =
∞
X
P[X = i, Y = j] =
j=0
∞
X
1
1
· (λ · p)i · e−λp ·
· [λ · (1 − p)]j · e−λ·(1−p)
i!
j!
j=0
=1
1
= · (λ · p)i · e−λ·p
i!
Damit folgt, dass X ∼ π(λ · p) und Y ∼ π(λ · (1 − p)). Also sind X und Y unabhängig.
P[X = i] · P[Y = j] = P[X = i, Y = j]
Beispiel Auf einem Blatt werden Geraden im Abstand von D cm eingezeichnet. Eine Nadel der Länge
L ≤ D wird zufällig auf das Blatt geworfen. Mit welcher Wahrscheinlichkeit schneidet die Nadel eine der
Geraden? Diese Frage ist auch bekannt als das Buffon’sche Nadelproblem.
Lösung Sei X der Abstand des Mittelpunks der Nadel von der Geraden und Θ der Winkel zwischen der
Nadel und der Geraden. Dann nehmen die Zufallsvariablen nur Werte in den folgenden Bereichen an.
h pi
X ∈ 0,
und Θ ∈ [0, π]
2
h pi
Dann ist (X, Θ) gleichverteilt auf 0,
× [0, π]. Damit gilt für die Dichte Folgendes.
2

h
i
 2 , falls x ∈ 0, p , y ∈ [0, π]
f (x, y) = π · D
2
0,
sonst
Sei E das Ereignis, dass eine Nadel eine Gerade schneidet. Für das Ereignis gilt also folgende Darstellung.
X
L
E=
≤
sin(Θ)
2
Die gesuchte Wahrscheinlichkeit lässt sich dann wie folgt berechnen.
Zπ
1/2·sin(Θ)
Z
P(E) =
0
2
L
dx dΘ =
π·D
π·D
0
Zπ
sin(Θ) dΘ =
L
2·L
π
[− cos(Θ)]0 =
π·D
π·D
0
6.3 Summen unabhängiger Zufallsvariablen
Bemerkung Seien X und Y unabhängige Zufallsvariablen mit Dichten fX bzw. fY . Gesucht wird nun
die Dichte der Summe von X und Y . Für a ∈ R gilt Folgendes.


Z∞ a−y
Z

P[X + Y ≤ a] =
fX (x) · fY (y) dx dy
−∞
z=x+y
−∞
Z∞
=

fY (y) 
−∞
Za
=

Z∞

−∞

Za
fX (z − y) dz  dy
−∞
Z∞

fX (z − y) · fY (y) dy  dz
−∞
fX (z − y) · fY (y) dy = fX ∗ fY (z)
mit
−∞
51
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Definition Seien X und Y absolutstetig verteilt mit den Dichten fX bzw. fY . Die Dichte fX+Y von
X + Y heißt Faltung der Verteilungen von X und Y . Die Faltung ist dabei wie folgt definiert.
Z
fX+Y = fX (x − y) · fY (y) dy = fX ∗ fY
Dabei bezeichnet fX ∗ fY das Faltungsprodukt von fX und fY .
Beispiel Es seien X und Y unabhängige Zufallsvariablen, welche gleichverteilt auf [0, 1] sind, d. h.
(
1, falls x ∈ [0, 1], y ∈ [0, 1]
fX (x) = fY (y) =
0, sonst
Im Folgenden soll die Dichte von X + Y berechnet werden.
Lösung
Um die Dichte von X + Y zu berechnen betrachtet man die folgenden Fälle.
(i) Für z ∈
/ [0, 2] gilt für die Dichte von X + Y Folgendes.
fX+Y (x) = 0
(ii) Für z ∈ [0, 1] gilt für die Dichte von X + Y Folgendes.
Z∞
Zz
fX (z − y) · 1{0≤y≤1} (y) dy =
fX+Y (z) =
−∞
dy = [y]z0 = z
0
(iii) Für z ∈ (1, 2) gilt für die Dichte von X + Y Folgendes.
Z1
fX+Y (z) =
dy = [y]1z−1 = 2 − z
z−1
Damit ergibt sich insgesamt für die Dichte von X + Y


z,
fX+Y (z) = 2 − z,


0,
Folgendes.
falls 0 ≤ z ≤ 1
falls 1 < z < 2
sonst
Aufgrund der Form der Dichte spricht von einer Dreiecksverteilung.
Beispiel Seien X und Y unabhängige Zufallsvariablen, welche exponentialverteilt mit Parameter λ > 0
sind, sprich es gilt X, Y ∼ E(λ). Im Folgenden soll die Dichte von X + Y berechnet werden.
52
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Für x ≥ 0 gilt für die Dichte von X + Y Folgendes.
Zx
fX (x − y) · fY (y) dy
fX+Y (x) =
0
Zx
[λ · exp(−λ · (x − y))] · [λ · exp(−λ · y)] dy
=
0
2
Zx
exp(−λ · x) dy
=λ
0
= λ2 · x · exp(−λ · x)
Seien nun X, Y und Z unabhängige Zufallsvariablen, die alle E(λ)-verteilt sind. Dann gilt
Zx
fX+Y (x − y) · fZ (y) dy
f(X+Y )+Z (x) =
0
Zx
=
2
λ · (x − y) · exp(−λ · (x − y)) · [λ · exp(−λ · y)] dy
0
=λ
3
Zx
(x − y) · exp(−λ · y) dy
0
1
= λ3 · x2 · exp(−λ · x)
2
Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch

α−1
 λ · exp(−λ · x) · (λ · x)
, falls x ≥ 0
Γ(α)
f (x) =
,

0,
sonst
heißt gammaverteilt mit den Parameter α und λ. In diesem Fall schreibt man auch
X ∼ Γ(α, λ)
Die Dichte enthält die Gamma-Funktion Γ(α), welche wie folgt gegeben ist.
Z∞
Γ(α) =
e−y · y α−1 dy
0
Die Γ-Verteilung mit α = n/2 und λ = 1/2 heißt die Chi-Quadrat-Verteilung mit n Freiheitsgraden
X ∼ χ2(n)
Bemerkung
Für die Γ-Funktion gelten folgende spezielle Werte.
(i) Γ(n + 1) = n · Γ(n) = n · (n − 1) · Γ(n − 1) = . . . = n!
√
1
= π
(ii) Γ
2
Bemerkung
Insbesondere gilt dann für die Dichte f(X+Y )+Z (x) aus dem letzten Beispiel Folgendes.
1
λ · exp(−λ · x) · (λ · x)2
λ · exp(−λ · x) · (λ · x)3−1
f(X+Y )+Z (x) = λ3 · x2 · exp(−λ · x) =
=
2
2
Γ(3)
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ E(λ) für alle i = 1, . . . , n.
n
X
Xi ∼ Γ(n, λ)
i=1
53
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ Γ(αi , λ) für alle i = 1, . . . , n.
!
n
n
X
X
Xi ∼ Γ
αi , λ
i=1
i=1
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Beispiel Sei X eine N (0, 1)-verteilte Zufallsvariable. Wie ist X 2 verteilt?
Lösung
Für die Verteilungsfunktion der Zufallsvariablen X 2 gilt Folgendes.
√
√
√
√
FX 2 (y) = P[X 2 ≤ y] = P[− y ≤ X ≤ y] = F ( y) − F (− y)
Durch Differentiation und Anwendung der Kettenregel erhält man somit die folgende Dichte für X 2 .
1 √
1
1
1
1
√
fX 2 (y) = √ √ · exp − · ( y)2 − − √ · exp − · (− y)2
2 y
2
2
2π
2π
"
√ #
1
1
1
1
1
1
2
1
= √ · √ · 2 exp − · y = √ · √ · √ · √ · exp − · y
2 y
2
y
2
π
2π
2
2
"
#
√ 1
1
1
1
1
1
1
−1/2
−1/2
· √ · exp − · y = y
· √ −1 ·
· √ · exp − · y
=y
·
2·
2
2
2
2
π
π
2
1/2−1
√
1
1
1
1
1
= ·
mit
π=Γ
·y
· exp − · y · √
2
2
2
2
π
=
(1/2) · exp(−1/2 · y) · (1/2 · y)1/2−1
Γ(1/2)
Somit gilt für die Zufallsvariable X 2 die folgende Verteilung.
1 1
X2 ∼ Γ
,
2 2
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ N (0, 1) für alle i = 1, . . . , n.
n
X
Xi2
∼Γ
i=1
n 1
,
2 2
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Beispiel Es seien Xi ∼ N (0, σi ) für i = 1, 2 unabhängige Zufallsvariablen. Wie ist X1 + X2 verteilt?
Lösung
Um herauszufinden, wie X1 + X2 verteilt ist, bestimmt man die Dichte.
Z∞
fX1 (x − y) · fX2 (y) dy
fX1 +X2 (x) =
−∞
Z∞
=
−∞
"
1
p
· exp −
2
2πσ12
1
=
2πσ1 σ2
1
Z∞
−∞
x−y
σ1
2 !# "
2 !#
1 y
1
· p
· exp −
dy
2 σ2
2πσ22
1 (x − y)2
y2
exp −
+
dy
2
σ12
σ22
54
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Als Nächstes wird erst einmal der Term innerhalb der Exponentialfunktion umgeformt.
y2
x2 − 2xy + y 2
y2
(x − y)2
+ 2 =
+ 2
2
2
σ1
σ2
σ1
σ2
2
x2
x
2xy
1
1
x2
− 4
= 2− 2 +
+ 2 y2 + 4
2
2
2
2
σ1
σ1
σ1
σ2
σ1 (1/σ1 + 1/σ2 ) σ1 (1/σ1 + 1/σ22 )
s
!2
x2
x2
1
1
1
2
p
=
+
·
x
=
(z
−
a)
+
+
·
y
−
σ12
σ22
σ12 + σ22
σ12 + σ22
σ12 1/σ12 + 1/σ22
Damit gilt für die Dichte der Summe von X1 und X2 nun Folgendes.
fX1 +X2
1
=
2πσ1 σ2
Z∞
−∞
s 2 2
1
1
x2
σ1 · σ2
2
·
dz
exp − (z − a) · exp − · 2
2
2 σ1 + σ22
σ12 + σ22
Z∞
1
1
1 x2
1
2
p
√
=√
·
·
exp
−
exp
−
(z
−
a)
dz
2 σ12 + σ22
2
2π
2π · σ12 + σ22
−∞
=1

=p
1
2π(σ12
+
σ22 )
· exp −
1
2
!2 
x
p
σ12
+ σ22

Somit gilt für die Zufallsvariable X1 + X2 die folgende Verteilung.
q
2
2
X1 + X2 ∼ N 0, σ1 + σ2
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ N (µi , σi ) für alle i = 1, . . . , n.
v


u n
n
n
X
X
uX
σi2 
Xi ∼ N 
µi , t
i=1
i=1
i=1
Insbesondere gilt für die Summe dieser Xi für i = 1, . . . , n mit µi = µ und σi = σ Folgendes.
n
n
X
√ 1X
σ
Xi ∼ N n · µ, σ · n
und
Xi ∼ N µ, √
n i=1
n
i=1
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ π(λi ) für alle i = 1, . . . , n.
!
n
n
X
X
Xi ∼ π
λi
i=1
i=1
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ B(ni , p) für alle i = 1, . . . , n.
!
n
n
X
X
Xi ∼ B
ni , p
i=1
i=1
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
6.4 Statistik für unabhängige normalverteilte Zufallsvariablen
Annahme Seien X1 , . . . , Xn unabhängige Zufallsvariablen mit Xi ∼ N (µ, σ) für alle i = 1, . . . , n, d. h.
die Xi sind iid (independent identically distributed) mit möglicherweise unbekanntem µ und/oder σ.
55
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Ziel Konstruktion eines sinnvollen bzw. effizienten Schätzers für µ bzw. σ.
Bemerkung Der allgemeine Rahmen ist der Folgende. Seien (Pη )η∈Θ Wahrscheinlichkeitsmaße auf dem
Messraum (Ω, F). Sei X : Ω → R eine Zufallsvariable mit Verteilung Pη0 , wobei η0 ∈ Θ unbekannt ist.
Dann ist Pη0 (X ≤ x) die Wahrscheinlichkeit ist, dass X ≤ x für x ∈ R.
Definition Sei X (n) = (X1 , . . . , Xn ) eine Folge von unabhängigen Zufallsvariablen mit Verteilung Pη0 .
Wir nennen X (n) eine Stichprobe vom Umfang n aus der nach Pη0 verteilten Grundgesamtheit. Eine
Realisierung von X (n) bezeichnet man mit x(n) = (x1 , . . . , xn ).
k
m
n
m
Definition Sei
Θ ⊆ R und seien g : Θ → R und Ĝ : R → R messbare Funktionen. Sei η ∈ Θ. Dann
(n)
heißt Ĝ X
eine Schätzung von g(η). Die Schätzung heißt erwartungstreu, falls für alle η ∈ Θ
Z
i
h Ĝ(x1 , . . . , xn ) · fη (x1 ) · . . . · fη (xn ) d(x1 , . . . , xn ) = EPη Ĝ X (n) = g(η)
Rn
gilt, wobei fη die Dichte von Pη ist, die wie folgt definiert ist.
Z
Pη (X ∈ A) =
fη (x) dx
A
6.4.1 Das schwache Gesetz der großen Zahlen
Bemerkung
Seien X1 , . . . , Xn iid Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P). Sei ferner
E[Xi ] = µ und
Var(Xi ) = σ 2
für alle
i = 1, . . . , n
Proposition Sei X ≥ 0 eine Zufallsvariable mit existierendem Erwartungswert E(X) = µ und sei α > 0.
Dann gilt die folgende Ungleichung, die sogenannte Markow-Ungleichung.
P[X ≥ α] ≤
E[X]
α
Beweis Sei Y := 1{X≥α} eine Zufallsvariable. Dann gilt Y ≤ X/α. Damit ergibt sich mit der Monotonie
des Erwartungswertes Folgendes.
X
E[X]
P[X ≥ α] = E[Y ] ≤ E
=
α
α
Bemerkung Die Markow-Ungleichung gibt eine obere Schranke für die Wahrscheinlichkeit an, dass eine
Zufallsvariable eine positive Konstante überschreitet.
Proposition Sei X eine Zufallsvariable mit existierendem Erwartungswert E[X] = µ und existierender
Varianz Var(X) = σ 2 , sowie η > 0. Dann gilt die sogenannte Tschebyscheff-Ungleichung.
P[|X − µ| ≥ η] ≤
σ2
η2
Beweis Sei Z = (X − µ)2 ≥ 0. Dann kann die Markow-Ungleichung mit α = η 2 angewendet werden.
P[|X − µ| ≥ η] = P[(x − µ)2 ≥ η 2 ] ≤
E[(X − µ)2 ]
Var(X)
σ2
=
= 2
2
2
η
η
η
Bemerkung Die Tschebyscheff-Ungleichung gibt eine obere Grenze für die Wahrscheinlichkeit an, dass
eine Zufallsvariable mit endlicher Varianz Werte außerhalb eines symmetrisch um den Erwartungswert
gelegenen Intervalls annimmt. Damit ist auch eine untere Grenze für die Wahrscheinlichkeit angegeben,
dass die Werte innerhalb dieses Intervalls liegen.
56
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Satz Sei (Xi )ni=1 eine Folge von iid Zufallsvariablen mit existierenden Erwartungswerten E[Xi ] = µ und
sei η > 0 beliebig. Dann gilt das schwache Gesetz der großen Zahlen.
i
h (n)
lim P X − µ > η = 0
n→∞
mit X
(n)
n
=
1X
Xi
n i=1
Beweis Für die Summe von N (µi , σi )-verteilten Zufallsvariablen Xi für i = 1, . . . , n gilt Folgendes.
n
X
√ Xi ∼ N n · µ, σ n
und X
(n)
n
=
i=1
1X
Xi ∼ N
n i=1
Damit ergibt sich für den Erwartungswert und der Varianz von X
(n)
σ
µ, √
n
Folgendes.
(n) σ 2
σ2
Var X
= √
=
n
n
h (n) i
E X
= µ und
Mit der Tschebyscheff-Ungleichung gilt nun für beliebige η > 0 Folgendes.
(n) i Var X
h (n)
σ2
=
→ 0 für n → ∞
P X − µ > η ≤
η2
n · η2
Bemerkung Die Aussage des schwachen Gesetz der großen Zahlen ist also, dass bei vielen identischen
Experimenten die Wahrscheinlichkeit, dass die Summe der Ergebnisse geteilt durch die Zahl der Ergebnisse (der Mittelwert einer Meßreihe) weit vom Erwartungswert abliegt, beliebig klein wird.
6.4.2 Schätzer für µ bei bekanntem σ
Bemerkung Im Folgenden seien X1 , . . . , Xn iid Zufallsvariablen mit Xi ∼ N (µ, σ) für i = 1, . . . , n,
wobei µ unbekannt, aber σ bekannt ist.
(n)
Lemma Die naive Schätzung X , welche wie folgt gegeben ist, ist eine erwartungstreue Schätzung für
den unbekannten Parameter µ bei bekanntem Parameter σ.
X
Beweis Für die naive Schätzung X
Somit nimmt die naive Schätzung X
(n)
(n)
(n)
n
=
1X
Xi
n i=1
√
∼ N (µ, σ/ n). Also gilt für alle µ ∈ R Folgendes.
h (n) i
EN (µ,σ) X
=µ
gilt X
(n)
für den Grenzfall n → ∞ den unbekannten Parameter µ an.
lim X
(n)
n→∞
Bemerkung
=µ
Für ein gegebenes µ0 ∈ R sei das folgende Schema ein sogenannter Hypothesentest.
H0 :
µ ≥ µ0
(Nullhypothese)
H1 :
µ < µ0
(Alternativhypothese)
Bemerkung Das Ziel des Hypothesentests besteht darin, aufgrund einer Stichprobe zu prüfen, ob eine
vermutete Wahrscheinlichkeit, die Hypothese, als wahr angenommen werden kann oder ob sie verworfen
werden muss.
Frage Wann nimmt man H1 für eine gegebene Realisierung x(n) von X
57
(n)
an.
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Idee Man nehme H1 an, falls für eine Realisierung x(n) ≤ γ ∈ R für ein geeignetes γ gilt. Für eine
gegebene Irrtumswahrscheinlichkeit α > 0, sucht man ein γ so, dass Folgendes gilt.
(n)
≤γ ≤α
∀µ ≥ µ0 : Pµ,σ X
Das heißt die fälschliche Annahme von H1
X
(n)
≤ γ, µ ≥ µ0
soll mit der Wahrscheinlichkeit maximal α realisiert werden. Es bleibt noch γ zu ermitteln. Dazu betrachtet man die folgende Wahrscheinlichkeit.
∼N (0,1)
(n)
Pµ,σ X
(n)
≤ γ = Pµ,σ
X −µ
γ−µ
√
√
≤
σ/ n
σ/ n
!
=Φ
γ−µ
√
σ/ n
≤Φ
γ − µ0
√
σ/ n
=α
Nun wähle γ 0 aus einer N (0, 1)-Tabelle so aus, dass Φ(γ 0 ) = α und wähle γ wie folgt.
γ0 · σ
γ = √ + µ0
n
(n)
Frage Gegeben sei eine Realisierung x(n) von X . Gesucht ist ein Konfidenzintervall (Vertrauensbereich bzw. Erwartungsbereich)
h i
I x(n) = Ψ1 x(n) , Ψ2 x(n) ,
sodass dieses möglichst klein ist, indem das wahre µ mit möglichst großer Wahrscheinlichkeit liegt.
i
h
∀µ : Pµ,σ µ ∈
/ I x(n) ≤ α
Idee Zuerst einmal legt man Ψ1 und Ψ2 wie folgt fest.
σ
Ψ1,2 x(n) = x(n) ± η · √
n
Damit wird der Parameter η nun wie folgt durch folgende Wahrscheinlichkeit festgelegt.
#
"
(n)
σ
σ
X −µ
(n)
(n)
√
≤ η = 2Φ(η) − 1 = α
Pµ,σ X − η · √ ≤ µ ≤ X + η · √
= Pµ,σ − η ≤
n
n
σ/ n
∼N (0,1)
Damit ergibt sich der Parameter η durch Auflösen der Gleichung 2Φ(η) − 1 = α.
1+α
−1
η=Φ
2
6.4.3 Schätzer für σ bei bekanntem µ
Bemerkung
2
Im Folgenden sei S (n) die empirische Varianz, die wie folgt definiert ist.
2
S (n) =
n
1X
(Xi − µ)2
n i=1
n
mit s2n =
1X
(xi − µ)2
n i=1
Frage Ist die empirische Varianz ein guter Schätzer für das unbekannte σ 2 ? Es gelte Folgendes.
2
Sn
2
n σ 2 X Xi − µ
=
n i=1
σ
mit
2
n X
Xi − µ
i=1
58
σ
∼ χ2(n)
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X ∼ Γ(α, λ). Dann gilt E(X) = α/λ und Var(X) = α/λ2 . Insbesondere gilt also
2 E S (n) = σ 2
2
Die empirische Varianz S (n) ist also ein erwartungstreuer Schätzer von σ 2 . Ferner gilt Folgendes.
2 2σ 4
Var S (n) =
n
Insbesondere gilt also auch das schwache Gesetz der großen Zahlen.
h 2
i const
Pµ,σ S (n) − σ 2 > ε =
→ 0 für n → ∞
n
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
6.4.4 Schätzer für σ 2 bei bekanntem µ
2
Idee Im Folgenden betrachtet man die Zufallsvariable Se(n)
, die wie folgt gegeben ist.
n
1 X
(n) 2
Sen2 =
Xi − X
n i=1
Lemma Die folgenden beiden Zufallsvariablen seien unabhängig.
Xn − µ
√
σ/ n
n
X
und
i=1
Xi − X
σ
(n)
!2
Außerdem sei die zweite Zufallsvariable Chi-Quadrat-verteilt.
!
(n) 2
n
X
Xi − X
∼ χ2(n−1)
σ
i=1
2
Dann gilt für den Erwartungswert von Se(n)
Folgendes.
h i
n−1
Eµ,σ Sen2 = σ 2 ·
n
2
Damit ist der Schätzer Se(n)
nicht erwartungstreu. Das heißt Sen2 unterschätzt σ 2 systematisch. Aber
Sbn2 =
n
2
· S (n)
n−1
mit
n
2
· S (n) ∼ χ2(n−1)
2
σ
ist ein erwartungstreuer Schätzer für σ 2 .
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Bemerkung
Gegeben sei σ0 > 0 und der folgende Hypothesentest.
H0 :
σ ≥ σ0
H1 :
σ < σ0
2
Man nehme die Hypothese H1 an, falls S (n) ≤ γ gilt. D. h. man wähle γ so, dass Folgendes gilt.
∀σ ≥ σ0 : Pµ,σ Sbn2 < γ ≤ α
Dazu sei die Wahrscheinlichkeit wie folgt gegeben.
=Z∼χ2(n−1)
Pµ,σ
Sbn2 < γ = Pµ,σ
n − 1 b2
n−1
· Sn <
γ
2
σ
σ2
=γ 0
59
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Man wähle nun aus einer χ2(n−1) -Tabelle ein γ 0 aus, sodass Folgendes gilt.
P [Z < γ 0 ] = α
Dabei sollte γ 0 möglichst groß sein. Damit ergibt sich für den Parameter γ der folgende Wert.
γ=
σ2
· γ0
n−1
6.4.5 Schätzer für µ bei unbekannten σ
Erinnerung
Für die Schätzer X
X
(n)
(n)
2
und Sb(n)
galt Folgendes.
(n)
n
1X
=
Xi
n i=1
mit
X −µ
√
∼ N (0, 1)
σ/ n
n
2
Sb(n)
=
Bemerkung
1 X
(n)
(Xi − X )2
n − 1 i=1
n − 1 b2
· S(n) ∼ χ2(n−1)
σ2
mit
Die Idee für Hypothesentests und Konfidenzintervalle ist die Folgende. Man ersetze
(n)
X −µ
√
∼ N (0, 1)
σ/ n
durch den folgenden Term.
(n)
X
q
(n)
−µ
2 /n
Sb(n)
(n)
X √−µ
σ/ n
=q
2 /n
Sb(n)
=q
X √−µ
σ/ n
n−1
σ2
·
√
2
· Sb(n)
T (n) √
n − 1 =: √
· n−1
Z (n)
Dabei sind T (n) ∼ N (0, 1) und Z (n) ∼ χ2(n−1) . Außerdem sind T (n) und Z (n) unabhängig.
Proposition
Seien T und Z unabhängige Zufallsvariablen mit T ∼ N (0, 1) und Z ∼ χ2(m) .
T (m) √
√
· m ∼ t(m)
Z (m)
Zusammenfassung
Seien X1 , . . . , Xn iid N (µ, σ)-verteilte Zufallsvariablen.
• Ist µ unbekannt und σ bekannt, so ist ein Schätzer für µ wie folgt gegeben.
X
(n)
n
=
1X
Xi
n i=1
mit X
(n)
∼N
σ
µ, √
n
• Ist σ unbekannt und µ bekannt, so ist ein Schätzer für σ wie folgt gegeben.
2
S (n) =
2
n
n σ 2 X Xi − µ
1X
(Xi − µ)2 =
n i=1
n i=1
σ
mit
n
2
· S (n) ∼ χ2(n)
2
σ
∼N (0,1)
• Ist σ 2 unbekannt und µ bekannt, so ist ein Schätzer für σ 2 wie folgt gegeben.
n
2
Sb(n)
n
1 X
σ2 X
(n) 2
=
Xi − X
=
n − 1 i=1
n − 1 i=1
60
Xi − X
σ
(n)
!2
mit
n − 1 b2
· S(n) ∼ χ2(n−1)
σ2
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
• Sind µ und σ unbekannt, so ist ein Schätzer für µ wie folgt gegeben.
X
(n)
n
=
1X
Xi
n i=1
Für Hypothesentests und Konfidenzintervalle nähme man jedoch folgenden Schätzer.
(n)
X −µ
√
√
σ/ n
r
· n − 1 ∼ t(n−1)
n − 1 b2
· Sn
σ2
6.5 Bedingte Verteilung von Zufallsvariablen
6.5.1 Bedingte Verteilung diskreter Zufallsvariablen
Erinnerung Seien E und F zwei Ereignisse. Dann ist die bedingte Wahrscheinlichkeit von E gegeben F
wie folgt definiert.

 P(E ∩ F ) , falls P(F ) > 0
P(F )
P(E | F ) =

0,
sonst
Erinnerung Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Dann sind die
marginalen Massenfunktionen pX und pY wie folgt gegeben.
X
X
pX (x) =
p(x, y) und pY (y) =
p(x, y)
y:p(x,y)>0
x:p(x,y)>0
Definition Seien X, Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Für x, y ∈ R heißt

 p(x | y) , falls p (y) > 0
Y
pY (y)
pX|Y (x | y) =

0,
sonst
die bedingte Massenfunktion von X gegeben Y .
Beispiel Seien X und Y unabhängige Zufallsvariablen, die Poisson-verteilt mit Parametern λ1 und λ2
sind. Gesucht wird die bedingte Massenfunktion von X gegeben {X + Y = n}.
Lösung
Unter der Tatsache, dass X und Y unabhängig sind (∗), gilt für 0 ≤ k ≤ n Folgendes.
pX|X+Y (k | n) = P[X = k | X + Y = n]
P[X = k, X + Y = n]
P[X + Y = n]
P[X = k, Y = n − k]
=
P[X + Y = n]
(∗) P[X = k] · P[Y = n − k]
=
P[X + Y = n]
#
k
" n−k
λ1 −λ1
λ2
−λ2
·e
·
·e
k!
(n − k)!
=
(λ1 + λ2 )n −(λ1 +λ2 )
·e
n!
k n−k −(λ1 +λ2 )
n!
λ1
λ2
e
=
·
·
· −(λ +λ )
(n − k)! · k!
λ1 + λ2
λ1 + λ2
e 1 2
k n−k
n
λ1
λ2
=
·
·
k
λ1 + λ2
λ1 + λ2
λ1
Also ist die bedingte Verteilung eine Binomialverteilung zu den Parametern n,
λ1 + λ2
=
61
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Allgemeiner Seien X und Y unabhängige Zufallsvariablen mit Randverteilung P[Y = y] > 0. Dann gilt
für die bedingte Massenfunktion von X gegeben Y Folgendes.
pX|Y (x | y) =
Bemerkung
p(x, y)
pX (x) · pY (y)
=
= pX (x)
pY (y)
pY (y)
mit
x∈R
Die bedingte Massenfunktion pX|Y (x | y) ist also durch die Randverteilung von X gegeben.
6.5.2 Bedingte Verteilung absolutstetiger Zufallsvariablen
Erinnerung Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Dann sind die
marginalen Dichten fX und fY wie folgt gegeben.
Z
Z
fX (x) =
f (x, y) dy und fY (y) =
f (x, y) dx
R
R
Definition Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Für x, y ∈ R heißt

 f (x, y) , falls f (y) > 0
Y
fY (y)
fX|Y (x | y) =

0,
sonst
die bedingte Dichte von X gegeben Y . Für ein Intervall A = [a, b] ⊆ R und x ∈ R setze
Z∞
Zb
P[X ∈ A | Y = y] =
fX|Y (x | y) dx
und FX|Y (x | y) =
fX|Y (t | y) dt
−∞
a
Beispiel Die gemeinsame Dichte der Zufallsvariablen X und Y sei wie folgt gegeben.
 −x/y −y
·e
e
, falls x, y > 0
f (x, y) =
y

0,
sonst
Im Folgenden soll P[X > 1 | Y = y] mit y ∈ R berechnet werden.
Lösung
Für die Randverteilung der Zufallsvariable Y gilt Folgendes.
Z∞
fY (y) =
e−x/y · e−y
dx = e−y
y
0
Z∞
h
i∞
e−x/y
dx = e−y · −e−x/y
= e−y
y
x=0
0
Für die bedingte Dichte von X gegeben Y mit x, y > 0 gilt somit Folgendes.
fX|Y (x | y) =
f (x, y)
e−x/y · e−y
e−x/y
=
=
fY (y)
y · e−y
y
Damit ist die gesuchte bedingte Wahrscheinlichkeit durch den folgenden Term gegeben.
Z∞
P[X > 1 | Y = y] =
Z∞
fX|Y (x | y) dx =
1
h
i∞
e−x/y
dx = −e−x/y
= e−1/y
y
x=1
1
Allgemeiner Seien X und Y unabhängige Zufallsvariablen mit Randverteilung fY (y) > 0. Dann gilt für
die bedingte Dichte von X gegeben Y Folgendes.
fX|Y (x | y) =
Bemerkung
f (x, y)
fX (x) · fY (y)
=
= fX (x)
fY (y)
fY (y)
mit
x∈R
Die bedingte Dichte fX|Y (x | y) ist also durch die Randverteilung von X gegeben.
62
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
7 Eigenschaften des Erwartungswertes
7.1 Erwartungswert der Summe von Zufallsvariablen
Erinnerung
Es sei X eine Zufallsvariable.
(i) Sei X diskret mit Massenfunktion p. Dann ist der Erwartungswert wie folgt definiert.
X
X
E[X] =
x · p(x), falls
|x| · p(x) < ∞
x:p(x)>0
x:p(x)>0
(ii) Sei X absolutstetig mit Dichte f . Dann ist der Erwartungswert wie folgt definiert.
Z
Z
E[X] =
x · f (x) dx, falls
|x| · f (x) dx < ∞
R
R
Allgemeiner Sei X eine Zufallsvariable und sei g : R → R eine reellwertige Funktion.
(i) Sei X diskret mit Massenfunktion p. Dann ist der Erwartungswert von g(X) wie folgt definiert.
X
X
E[g(X)] =
g(x) · p(x), falls
g(x) · p(x) < ∞
x:p(x)>0
x:p(x)>0
(ii) Sei X absolutstetig mit Dichte f . Dann ist der Erwartungswert von g(X) wie folgt definiert.
Z
Z
E[g(X)] =
g(x) · f (x) dx, falls
g(x) · f (x) dx < ∞
R
Proposition
R
2
Sei g : R → R eine Funktion so, dass g(X, Y ) eine Zufallsvariable ist.
(i) Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Dann gilt Folgendes.
X
X
E[g(X, Y )] =
g(x, y) · p(x, y), falls
|g(x, y)| · p(x, y) < ∞
x,y:p(x,y)>0
x,y:p(x,y)>0
(ii) Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Dann gilt Folgendes.




Z∞ Z∞
Z∞ Z∞

 |g(x, y)| · f (x, y) dx dy < ∞
E[g(X, Y )] =
g(x, y) · f (x, y) dx dy, falls
−∞
−∞
−∞
−∞
Beweis Es gelten die Voraussetzungen der Proposition.
(i) Auf den Beweis wird an dieser Stelle verzichtet.
(ii) Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f .
Zt
E[g(X, Y )] =
ZZ
P[g(X, Y ) > t] dt mit
P[g(X, Y ) > t] =
0
(x,y):g(x,y)>t
Z Z
g(x,y)
Z
=
Z Z
g(x, y) · f (x, y) dy dx
f (x, y) dt dy dx =
x
f (x, y) dy dx
y
x
t=0
y
Folgerungen
(i) Angenommen E[X] und E[Y ] existieren und sei g(x, y) = x + y.
Z∞ Z∞
Z∞ Z∞
Z∞ Z∞
E[X + Y ] =
(x + y) · f (x, y) dx dy =
x · f (x, y) dy dx +
y · f (x, y) dx dy
−∞ −∞
Z∞
=
−∞ −∞

Z∞
x
−∞
Z∞

f (x, y) dy  dx +
−∞

−∞
Z∞
y
−∞
Z∞
x · fX (x) dx +
=
Z∞
y · fY ((y)) dy
−∞
= E[X] + E[Y ]
63
−∞
−∞ −∞

f (x, y) dx dy
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
(ii) Angenommen es gilt X(ω) ≤ Y (ω) für alle ω ∈ Ω. Dann gilt
0 ≤ E(Y − X) = E(Y ) − E(X)
⇔
E(Y ) ≥ E(X)
D. h. der Erwartungswert ist ein lineares monotones Funktional.
Beispiel Ein Unfall ereignet sich an einem Punkt X auf [0, L]. Dabei sei X gleichverteilt auf [0, L]. Ein
Krankenwagen befindet sich zum Unfallzeitpunkt an einem Punkt Y , wobei Y ebenfalls gleichverteilt auf
[0, L] ist. X und Y seien unabhängig. Es soll E[|X − Y |] berechnet werden.
Lösung Da die Zufallsvariablen X und Y gleichverteilt auf [0, L] sind, folgt aufgrund der Unabhängigkeit
für die gemeinsame Dichte f = fX · fY und somit Folgendes.

 1 , falls (x, y) ∈ [0, L]2
f (x, y) = L2
0,
sonst
Damit ergibt sich für den gesuchten Erwartungswert Folgendes.
ZL ZL
E[|X − Y |] =
0
ZL ZL
1
1
|x − y| · 2 dy dx = 2
L
L
|x − y| dy dx
0
0
0
Der Term |x − y| lässt sich dabei wie folgt auffassen.
(
x − y, falls x ≥ y
|x − y| =
y − x, falls x ≤ y
Damit lässt sich das Integral nun aufsplitten. Man erhält also nun die folgende Darstellung.
ZL Zx
E[|X − Y |] =
(x − y) ·
0
1
dy dx +
L2
0
ZL ZL
(y − x) ·
0
x
1
dy dx
L2

 L x
Z Z
ZL ZL
1 
= 2
(x − y) dy dx +
(y − x) dy dx
L
0
2
= 2
L
ZL Zx
0
0
0
2
(x − y) dy dx = 2
L
0
x
ZL 1 2
2
x − x
dx
2
0
2 L3
L
= 2·
=
L
6
3
Beispiel Gegeben sei das Coupon-Problem. Es gebe N unterscheidbare Arten von Coupons, die man
(unabhängig von den vorhergehenden Versuchen) beliebig oft erhalten kann. Bei jedem Versuch erhält
man mit gleicher Wahrscheinlichkeit einen der N Coupons.
(i) Berechne die erwartete Anzahl verschiedener Coupons nach n Zügen.
(ii) Berechne die erwartete Anzahl der für eine vollständige Sammlung notwendigen Coupons.
Lösung
Es war N die Anzahl der unterscheidbaren Coupons.
(i) Es sei Ei das Ereignis, dass man mindestens einen Coupon vom Typ i nach n Zügen besitzt.
(
1, falls Ei eintritt
Xi = 1Ei =
für i = 1, . . . , N
0, sonst
Dann ist X := X1 + . . . + XN die Anzahl unterschiedlichen Coupons.
E[X] =
N
X
E[Xi ] = N · E[X1 ] = N · P(E1 ) = N · (1 −
i=1
64
P(E1C ))
=N · 1−
N −1
N
n Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
(ii) Für 0 ≤ i ≤ N − 1 sei Yi die Anzahl der Coupons, die benötigt werden, um einen neuen Coupon zu
erhalten, wenn man bereits i unterschiedliche Coupons hat. Dann ist Yi ∼ G((N − i)/N ).
k−1
i
N −i
P[Yi = k] =
·
N
N
P[Yi = k] ist also das Produkt der k − 1 Misserfolge und des Erfolges im k-ten Versuch. Also gilt
E[Y ] =
N
−1
X
i=0
N
N −i
7.2 Varianz, Kovarianz und Korrelation
Erinnerung Seien X und Y Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P) mit gemeinsamer Dichte f . Wir hatten gesehen, dass X und Y unabhängig sind, wenn beide N (0, 1)-verteilt sind.
Var(X + Y ) = Var(X) + Var(Y )
Lemma Seien X und Y unabhängige Zufallsvariablen. Seien g, h : R → R Funktionen mit
E[|g(X)|] < ∞ und E[|h(Y )|] < ∞
Dann gilt für den Erwartungswert des Produkts g(X) · h(Y ) Folgendes.
E[g(X) · h(Y )] = E[g(X)] · E[h(Y )]
Beweis Angenommen X und Y seien gemeinsam absolutstetig verteilt mit der gemeinsamen Dichte f .
Z∞ Z∞
E[g(X) · h(Y )] =
g(x) · h(y) · fX (x) · fY (y) dx dy
−∞ −∞
Z∞

Z∞
h(y) · fY (y) 
=
−∞
Z∞

g(x) · fX (x) dx dy
−∞
h(y) · fY (y) · E[g(X)] dy
=
−∞
Z∞
= E[g(X)]
h(y) · fY (y) dy
−∞
= E[g(X)] · E[h(Y )]
Definition Seien X und Y Zufallsvariablen mit endlicher Varianz, sprich es gilt Folgendes.
Var(X) < ∞ und
Var(Y ) < ∞
Dann ist die Kovarianz von X und Y wie folgt definiert.
Cov(X, Y ) = E[(X − E(X)) · (Y − E(Y ))]
Sei Cov(X, Y ) = 0. Dann heißen X und Y unkorreliert.
Satz Seien X und Y Zufallsvariablen mit endlicher Varianz. Dann gilt der Verschiebungssatz.
Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ]
Beweis Um den Verschiebungssatz der Kovarianz zu beweisen, werden die lineare Transformation und
die Additivität des Erwartungswertes verwendet.
Cov(X, Y ) = E[X · Y − X · E[Y ] − Y · E[X] + E[X] · E[Y ]]
= E[X · Y ] − E[X] · E[Y ] − E[X] · E[Y ] + E[X] · E[Y ]
= E[X · Y ] − E[X] · E[Y ]
65
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Seien X und Y unabhängig Zufallsvariable. Dann sind X und X unkorreliert.
Cov(X, Y ) = 0
Beweis Für unabhängige Zufallsvariablen X und Y ist der Erwartungswert des Produkts X · Y dieser
Zufallsvariablen das Produkt der Erwartungswerte von X und Y . (∗)
(∗)
Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] = E[X] · E[Y ] − E[X] · E[Y ] = 0
Bemerkung
Die Umkehrung dieser Aussage gilt in der Regel jedoch nicht.
Beispiel Sei X eine Zufallsvariable, sodass P[X = 0] = P[X = 1] = P[X = −1] = 1/3. Sei
(
1, falls X = 0
Y = 1{X=0} =
0, sonst
Nun gilt also X · Y = 0 und somit auch E[X · Y ] = 0. Also gilt ebenfalls E[X] = 0 und damit auch
Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] = 0
Andererseits sind X und Y jedoch nicht unabhängig, da Folgendes gilt.
P[X = 0, Y = 1] = P[X = 0] =
1
1
1 1
6= = · = P[X = 0] · P[Y = 1]
3
9
3 3
Lemma Seien X und Y normalverteilte Zufallsvariablen, welche unkorreliert sind.
X, Y ∼ N (µ, σ)
und
Cov(X, Y ) = 0
Dann gilt, dass die Zufallsvariablen X und Y unabhängig sind.
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Beispiel Es seien die folgenden Aktienkurse gegeben.
• Sei S00 ∈ R+ der heutige Aktienkurs von VW.
• Sei S10 ∈ R+ der morgige Aktienkurs von VW.
• Sei S01 ∈ R+ der heutige Aktienkurs von BMW.
• Sei S11 ∈ R+ der morgige Aktienkurs von BMW.
Ein Modell für die Kursentwicklung ist dann wie folgt gegeben.
R0 =
√
√
S10 − S00
= µ0 + λ · Z1 + 1 − λ · Z2
S00
und R1 =
∼N (0,1)
p
S11 − S01
√
= µ1 + η · Z1 + 1 − η · Z3
S01
∼N (0,1)
Dabei seien Z1 , Z2 , Z3 unabhängige Zufallsvariablen mit Z1 , Z2 , Z3 ∼ N (0, 1) und λ, η ∈ (0, 1). In beiden
Fällen ist die Rendite gegeben durch die erwarte Rendite mit N (0, 1). Nun berechnet man für µ0 −µ1 = 0
und λ = η = 1/2 die Kovarianz wie folgt.
Cov(R0 , R1 ) = E[R0 · R1 ] − E[R0 ] · E[R1 ] = E[R0 · R1 ]
#
"r
r
1
1
· (Z1 + Z2 ) ·
· (Z1 + Z3 )
=E
2
2
=
=
=
=
=
mit
E[R0 ] · E[R1 ] = 0
1
· E[Z12 + Z1 · (Z2 + Z3 ) + Z2 · Z3 ]
2
1
E[Z12 ] + E[Z1 · (Z2 + Z3 )] + E[Z2 · Z3 ]
mit E[Z12 ] = 1
2
1
(1 + E[Z1 ] · E[Z2 + Z3 ] + E[Z2 ] · E[Z3 ]) mit E[Z2 ] · E[Z3 ] = 0
2
1
(1 + E[Z1 ] · (E[Z2 ] · E[Z3 ])) mit E[Z2 ] · E[Z3 ] = 0
2
1
2
66
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Seien A und B zwei Ereignisse. Seien X und Y Zufallsvariablen, die wie folgt gegeben sind.
(
(
1, falls A eintritt
1, falls B eintritt
X = 1A =
und Y = 1B =
0, sonst
0, sonst
Dann gilt für den Erwartungswert des Produktes von X und Y Folgendes.
E(X · Y ) = E(1A∩B ) = P(A ∩ B)
Somit gilt nach dem Verschiebungssatz für die Kovarianz Folgendes.
P(A ∩ B)
− P(A) = P(B) · (P(A | B) − P(A))
Cov(X, Y ) = P(A ∩ B) − P(A) · P(B) = P(B)
P(B)
Somit nimmt die Kovarianz von X und Y folgende Werte an.


> 0, falls P(A | B) > P(A)
Cov(X, Y ) = 0, falls P(A | B) = P(A)


< 0, falls P(A | B) < P(A)
Proposition
Seien X, Y, X1 , . . . , Xn , Y1 , . . . , Ym Zufallsvariablen. Sei α ∈ R. Dann gilt
(i) Cov(X, Y ) = Cov(Y, X)
(ii) Cov(X, X) = Var(X)
(iii) Cov(αX, Y ) = α · Cov(X, Y )
P
P
Pm
n
n Pn
(iv) Cov
i=1 Xi ,
j=1 Yj =
i=1
j=1 Cov(Xi , Yj )
Beweis Nach dem Verschiebungssatz gilt Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ].
(i) Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] = E[Y · X] − E[Y ] · E[X] = Cov(Y, X)
(ii) Cov(X, X) = E[X · X] − E[X] · E[X] = E[X 2 ] − E[X]2 = Var(X)
(iii) Cov(αX, Y ) = E[(αX) · Y ] − E[αX] · E[Y ] = α (E[X · Y ] − E[X] · E[Y ]) = α · Cov(X, Y )
(iv) Seien E[Xi ] = µi und E[Yj ] = νj . Dann gilt für die Summe der Zufallsvariablen Folgendes.


" n
#
n
m
m
X
X
X
X
E
Xi =
µi und E 
Yj  =
νj
i=1
i=1
j=1
j=1
Somit gilt durch Anwenden der Definition der Kovarianz Folgendes.




! m
n
m
n
n
m
X
X
X
X
X
X
Xi ,
Yj  = E 
Xi −
µi · 
Yj −
νj  
Cov 
i=1
j=1
i=1

i=1
j=1
! 
n
X
= E
(Xi − µi )
i=1

m
X
·  (Yj − νj )
j=1


n X
m
X
= E
(Xi − µi ) · (Yj − νj )
i=1 j=1
=
=
n X
m
X
i=1 j=1
n X
m
X
E[(Xi − µi ) · (Yj − νj )]
Cov(Xi , Yj )
i=1 j=1
67
j=1
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Korollar Seien X1 , . . . , Xn Zufallsvariablen. Dann gilt für die Varianz der Summe dieser Xi Folgendes.
!
n
n
X
X
XX
Var
Xi =
Var(Xi ) + 2
Cov(Xi , Xj )
i=1
i=1
i<j
Beweis Man verwendet (ii) und (iv) aus der obigen Proposition und setzt Yj = Xj für j = 1, . . . , n.


!
n
n
n
n X
n
X
X
X
X
Var
Xi = Cov 
Xi ,
Xj  =
Cov(Xi , Xj )
i=1
i=1
=
XX
j=1
i=1 j=1
Cov(Xi , Xj ) +
XX
i=j
=
n
X
Var(Xi ) +
XX
i=1
=
Cov(Xi , Xj )
i6=j
Cov(Xi , Xj )
i6=j
n
X
Var(Xi ) + 2
XX
i=1
Cov(Xi , Xj )
i<j
Korollar Seien X1 , . . . , Xn paarweise unkorrelierte Zufallsvariablen, d. h. es gilt Cov(Xi , Xj ) = 0 für
alle i 6= j. Dann gilt die Gleichung von Bienaymé.
!
n
n
X
X
Var
Xi =
Var(Xi )
i=1
i=1
Beweis Um die Gleichung von Bienaymé zu beweisen, verwendet man das obige Korollar und beachtet
dabei, dass die Zufallsvariablen paarweise unkorreliert sind.
!
n
n
n
X
XX
X
X
Var(Xi ) + 2
Cov(Xi , Xj ) =
Var
Xi =
Var(Xi )
i=1
i=1
i<j
=0
i=1
Beispiel Gegeben sei das Hutproblem (Kapitel 2.4). Im Folgenden soll die Varianz der Anzahl der Leute,
die ihren eigenen Hut bekommen, berechnet werden.
Lösung Für i = 1, . . . , N sei Ei das Ereignis, dass die Person i seinen Hut bekommt und Xi = 1Ei .
Dann ist X = X1 + . . . + XN die Anzahl der Personen, die ihren Hut bekommen. Es gilt also
Var(X) =
N
X
Var(Xi ) + 2
i=1
XX
Cov(Xi , Xj )
i<j
Für die Varianz jeder einzelnen Zufallsvariable Xi gilt für alle i = 1, . . . , N Folgendes.
1
1
1−
Var(Xi ) =
N
N
Für die Kovarianz der einzelnen Zufallsvariablen gilt mit dem Verschiebungssatz Folgendes.
Cov(Xi , Xj ) = E[Xi · Xj ] − E[Xi ] · E[Xj ] = P[Xi = 1, Xj = 1] −
1 1
·
N N
Die verbleibende Wahrscheinlichkeit lässt sich mittels der bedingten Wahrscheinlichkeit berechnen.
P[Xi = 1, Xj = 1] = P[Xi = 1 | Xj = 1] · P[Xj = 1] =
1
1
·
N −1 N
Damit ergibt sich durch Einsetzen der einzelnen Terme die gesuchte Varianz.
Var(X) =
N −1
1
+ 2
· (N 2 − N ) = 1
N
N −1
68
für alle
i 6= j
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Definition Seien X und Y Zufallsvariablen mit endlicher Varianz, sprich es gilt Folgendes.
Var(X) < ∞ und
Var(Y ) < ∞
Dann ist der Korrelationskoeffizient von X und Y wie folgt definiert.
%(X, Y ) = p
Cov(X, Y )
Var(X) · Var(Y )
∈ [−1, 1]
7.3 Bedingte Erwartung von Zufallsvariablen
Motivation Seien X und Y Zufallsvariablen mit gemeinsamer Dichte f .
Z
Z∞
P[X ∈ A] =
Z∞ Z
Z∞ Z
f (x, y) dy dx =
A
−∞
Z∞ =
−∞
−∞
fX|Y (x | y) dx
P[X ∈ A | Y = y] · fY (y) dy
dy =
A
−∞
A
Z∞
Z
fY (y)
fX|Y (x | y) · fY (y) dx dy
f (x, y) dx dy =
A
−∞
Um die Wahrscheinlichkeit von X ∈ A zu erhalten, muss zunächst die bedingte Wahrscheinlichkeit
berechnet werden und dann muss man die Bedingung wieder ’wegintegrieren’.
Ziel Analoges Vorgehen auf der Ebene von Erwartungswerten
Beispiel Seien N, X1 , . . . , Xn unabhängige Zufallsvariablen. Seien alle Xi für i = 1, . . . , n identisch
verteilt und sei N ∈ N. Dann ist N (ω) die Anzahl von Schäden und Xi der Schaden des i-ten Unfalls für
i = 1, . . . , n. Dann ist die Gesamtschadenshöhe wie folgt gegeben.
N (ω)
Y (ω) =
X
Xi (ω)
i=1
Wie groß ist nun der Erwartungswert der Zufallsvaribale Y ?
Lösung Man konditioniere auf En = {N = n}. Da alle Xi für i = 1, . . . , n identisch verteilt sind (∗),
gilt für den Erwartungswert der Summe der Zufallsvariablen somit Folgendes.
" n
#
X
(∗)
E
Xi = n · E[X1 ] =: n · µ
i=1
Mit der Wahrscheinlichkeit pn ist die Schadenshöhe n · µ. Im Mittel ist die Schadenshöhe dann wie folgt.
X
X
pn · n · µ = µ
n · pn = µ · E[N ] = E[X1 ] · . . . · E[N ]
n∈N
n∈N
7.3.1 Bedingte Erwartung diskreter Zufallsvariablen
Erinnerung Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Die bedingte
Massenfunktion von X gegeben Y = y war dann wie folgt definiert.
pX|Y (x | y) = P[X = x | Y = y] =
p(x, y)
pY (y)
Definition Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Für y ∈ R ist
die bedingte Erwartung von X gegeben Y = y wie folgt definiert.
X
E[X | Y = y] =
x · pX|Y (x | y)
x:p(x)>0
Beispiel Seien X und Y unabhängige Zufallsvariablen mit X, Y ∼ B(n, p). Es soll der bedingte Erwartungswert von X gegeben X + Y = m berechnet werden.
69
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Da X und Y binomialverteilte Zufallsvariablen sind, gilt für die Summe dieser Folgendes.
X + Y ∼ B(2n, p)
Damit gilt für die bedingte Massenfunktion pX|X+Y von X gegeben X + Y Folgendes.
P[X = k, X + Y = m]
P[X = k] · P[Y = m − k]
=
P[X + Y = m]
P[X + Y = m]
n
n
· pk · (1 − p)n−k ·
· pm−k · (1 − p)n−m+k
k
m−k
=
2n
· pm · (1 − p)2n−m
m
n
n
·
k
m−k
=
⇒ X | X + Y ∼ h(m, 2n, n)
2n
m
pX|X+Y (k | m) =
e mit X
e ∼ h(n, N, m) ist wie folgt gegeben.
Der Erwartungswert einer Zufallsvariable X
h i
e =n· m
E X
N
Damit gilt für den Erwartungswert von X | X + Y ∼ h(m, 2n, n) Folgendes.
E[X | X + Y = m] = m ·
n
m
=
2n
2
7.3.2 Bedingte Erwartung absolutstetiger Zufallsvariablen
Definition Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Für y ∈ R ist die
bedingte Erwartung von X gegeben Y = y wie folgt definiert.
Z∞
E[X | Y = y] =
x · fX|Y (x | y) dx
−∞
Beispiel Seien X und Y gemeinsam absolutstetig verteilt mit gemeinsamer Dichte f .

 1 · e−x/y · e−y , falls x, y ≥ 0
f (x, y) = y
0,
sonst
Im Folgenden soll E[X | Y = y] berechnet werden.
Lösung
Um den Erwartungswert zu berechnen, berechnet man zunächst die Randverteilung fY (y).
Z∞
fY (y) =
1 −x/y −y
1
·e
· e dx = · e−y
y
y
0
Z∞
e−x/y dx =
i∞
1 −y h
· e · −y · e−x/y
= e−y
y
x=0
0
Somit gilt für die bedingte Dichte fX|Y nun Folgendes.

 1 · e−x/y , falls x > 0
fX|Y (x | y) = y
0,
sonst
D. h. es gilt X | Y = y ∼ E(1/y), womit sich der folgende Erwartungswert ergibt.
E[X | Y = y] = y
Definition Seien X und Y Zufallsvariablen. Dann ist die bedingte Erwartung von X gegeben Y
E[X | Y ] : Ω → R
mit E[X | Y ](ω) = E[X | Y = Y (ω)]
selbst wieder eine Zufallsvariable, da sie noch von der Zufallsvariable Y abhängt.
70
Prof. Dr. Ulrich Horst
Bemerkung
Stochastik
WS 2013/2014
Im letzten Beispiel gilt somit für alle ω ∈ Ω Folgendes.
E[X | Y ](ω) = Y (ω)
Proposition
Seien X und Y Zufallsvariablen. Dann gilt für den Erwartungswert von X Folgendes.
E[X] = E[E[X | Y ]]
(i) Ist Y eine diskrete Zufallsvariable, so gilt für die obige Gleichung Folgendes.
X
E[X] =
E[X | Y = y] · py (y)
y
(ii) Ist Y eine absolutstetige Zufallsvariable, so gilt für die obige Gleichung Folgendes.
Z∞
E[X | Y = y] · fY (y) dy
E[X] =
−∞
Beweis
(i) Seien X und Y beide diskrete Zufallsvariablen, so gilt Folgendes.
X
XX
XX
E[E[X | Y ]] =
E[X | Y = y] · pY (y) =
x · pX|Y (x | y) · pY (y) =
x · p(x, y)
y
=
y
XX
x
x
y
x
X X
X
x · p(x, y) =
x
p(x, y) =
x · pX (x) = E[X]
y
x
y
x
(ii) Seien X und Y beide absolutstetige Zufallsvariablen, so gilt Folgendes.
Z∞
E[E[X | Y ]] =
Z∞ Z∞
E[X | Y = y] · fY (y) dy =
−∞
Z∞
x · fX|Y (x | y) · fY (y) dx dy
−∞ −∞
Z∞ Z∞
Z∞
x · f (x, y) dx dy =
=
−∞ −∞
Z∞
=

Z∞
x
−∞
x · f (x, y) dy dx
−∞ −∞

Z∞
x · fX (x) dx = E[X]
f (x, y) dy  dx =
−∞
−∞
Bemerkung Um den Erwartungswert von X zu berechnen, kann man ein gewichtetes Mittel des Erwartungswertes von X gegeben Y = y nehmen, wobei jeder der Terme E[X | Y = y] durch die Wahrscheinlichkeit des Ereignisses, auf dem es konditioniert ist, gewichtet sei. Dies ist ein äußerst nützliches
Ergebnis, welches es einem oft ermöglicht die Erwartungswerte leicht zu berechnen indem man zuerst
einige geeignete Zufallsvariablen konditioniert.
Bemerkung
Im einführenden Beispiel galt für den Erwartungswert der Zufallsvariablen Y Folgendes.
"N
#
X
E[Y ] = E
Xi
für N ∼ π(λ)
i=1
Diesen Erwartungswert kann man nun wie folgt durch Konditionierung berechnen.
" "N
##
X
X
X
E[Y ] = E E
Xi | N = m =
n · µ · P[N = m] = µ ·
n · P[N = m] = µ · E[N ] = µ · λ
i=1
n
n≥0
71
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Quellen
Dieses Skript basiert auf den Inhalten der Vorlesung Stochastik, gehalten durch Prof. Dr. Ulrich Horst,
sowie auf den Grundlagen der folgenden Literatur.
• Ross, S.: A first course in probability. Pearson, 2009
• Ghahramani, S.: Fundamentals of probability. Pearson, 2004
Die verwendeten Grafiken wurden mithilfe der dynamischen Geometrie-Software GeoGebra erstellt.
72