Stochastik

Werbung
Stochastik
Prof. Dr. Ulrich Horst
Wintersemester 2013/2014
Institut für Mathematik
Mathematisch-Naturwissenschaftliche Fakultät II
Humboldt-Universität zu Berlin
Dieses Skript wurde von Alexander Prang
in Anlehnung an die Vorlesung erstellt.
Für die Korrektheit des gesamten
Inhaltes gibt es keine Garantie.
Fragen, Fehler und Anmerkungen:
[email protected]
Letzte Änderung: 7. Februar 2014
1
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Inhaltsverzeichnis
Allgemeine Orientierung
1 Kombinatorische Analyse
1.1 Grundprinzip des Zählens . . . . . . .
1.2 Permutation . . . . . . . . . . . . . . .
1.3 Variation und Kombination . . . . . .
1.4 Multinomialkoeffizient . . . . . . . . .
1.5 Anzahl der ganzzahligen Lösungen von
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
6
7
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
9
10
11
3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . .
3.2 Gesetz der totalen Wahrscheinlichkeit und Satz von Bayes . .
3.3 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . .
3.4 Formalisierung von Versuchsfolgen . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
15
17
19
4 Diskrete Zufallsvariablen
4.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . .
4.2 Erwartungswert und Varianz diskreter Zufallsvariablen
4.3 Spezielle diskrete Verteilungen . . . . . . . . . . . . .
4.3.1 Bernoulli-Verteilung . . . . . . . . . . . . . . .
4.3.2 Binomialverteilung . . . . . . . . . . . . . . . .
4.3.3 Poisson-Verteilung . . . . . . . . . . . . . . . .
4.3.4 Geometrische Verteilung . . . . . . . . . . . . .
4.3.5 Negative Binomialverteilung . . . . . . . . . . .
4.3.6 Hypergeometrische Verteilung . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
23
25
25
26
28
29
29
31
. . . . . . . . . .
. . . . . . . . . .
Zufallsvariablen
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
34
35
38
38
39
41
Exkurs: Mehrdimensionale Differentiation und Integration
Mehrdimensionale Differentiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mehrdimensionale Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
43
44
6 Gemeinsame Verteilung von Zufallsvariablen
6.1 Gemeinsame Verteilungsfunktion . . . . . . . . . . . . . . .
6.2 Unabhängige Zufallsvariablen . . . . . . . . . . . . . . . . .
6.3 Summen unabhängiger Zufallsvariablen . . . . . . . . . . .
6.4 Statistik für unabhängige normalverteilte Zufallsvariablen .
6.4.1 Das schwache Gesetz der großen Zahlen . . . . . . .
6.4.2 Schätzer für µ bei bekanntem σ . . . . . . . . . . . .
6.4.3 Schätzer für σ bei bekanntem µ . . . . . . . . . . . .
6.4.4 Schätzer für σ 2 bei bekanntem µ . . . . . . . . . . .
6.4.5 Schätzer für µ bei unbekannten σ . . . . . . . . . . .
6.5 Bedingte Verteilung von Zufallsvariablen . . . . . . . . . . .
6.5.1 Bedingte Verteilung diskreter Zufallsvariablen . . . .
6.5.2 Bedingte Verteilung absolutstetiger Zufallsvariablen
48
48
50
51
55
56
57
58
59
60
61
61
62
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
Gleichungen
2 Axiome der Wahrscheinlichkeitsrechnung
2.1 Mengenoperationen mit Ereignissen . . . . . . . . .
2.2 Axiome der Wahrscheinlichkeitsrechnung . . . . . .
2.3 Einfache Eigenschaften des Wahrscheinlichkeitsmaß
2.4 Laplace-Experimente . . . . . . . . . . . . . . . . .
5 Absolutstetige Zufallsvariablen
5.1 Approximation der Binomialverteilung . . .
5.2 Absolutstetige Zufallsvariablen . . . . . . .
5.3 Erwartungswert und Varianz absolutstetiger
5.4 Spezielle absolutstetige Verteilungen . . . .
5.4.1 Gleichverteilung . . . . . . . . . . .
5.4.2 Normalverteilung . . . . . . . . . . .
5.4.3 Exponentialverteilung . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Prof. Dr. Ulrich Horst
Stochastik
7 Eigenschaften des Erwartungswertes
7.1 Erwartungswert der Summe von Zufallsvariablen . . . . . .
7.2 Varianz, Kovarianz und Korrelation . . . . . . . . . . . . .
7.3 Bedingte Erwartung von Zufallsvariablen . . . . . . . . . .
7.3.1 Bedingte Erwartung diskreter Zufallsvariablen . . .
7.3.2 Bedingte Erwartung absolutstetiger Zufallsvariablen
Quellen
WS 2013/2014
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
65
69
69
70
72
3
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Allgemeine Orientierung
Ziel Bereitstellung eines mathematischen Modells mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist durch das Tripel (Ω, F, P) gegeben, dem sogenannten
Wahrscheinlichkeitsraum. Doch wofür stehen die Komponenten dieses Tripels?
• Ω ist eine nichtleere Menge, der Ergebnisraum. Die Elemente ω ∈ Ω heißen Ergebnisse und werden
als mögliche Ausgänge des Zufallsexperiments interpretiert.
• F ist eine σ-Algebra über der Grundmenge Ω, also eine Menge bestehend aus Teilmengen E von Ω,
die Ω enthält und abgeschlossen gegenüber der Bildung von Komplementen und abzählbaren Vereinigungen ist. Die Elemente E ∈ F heißen Ereignisse. Sei ω ∈ Ω die Realisierung eines Experiments,
dann sagen wir, dass das Ereignis E eingetreten ist, falls ω ∈ E gilt. Die σ-Algebra F selbst wird
auch Ereignisalgebra oder Ereignisfeld genannt.
• P ist eine Abbildung P : F → [0, 1] und heißt Wahrscheinlichkeitsmaß auf dem Messraum (Ω, F).
Frage Wie groß ist die Wahrscheinlichkeit eines Full House (z.B. 3 Damen und 2 Könige) beim Poker?
Man erhält 5 von 52 Karten, welche aus vier verschiedenen Farben (Kreuz ♣, Herz ♥, Pik ♠, Karo ♦)
und jeweils dreizehn Werten (2, 3, . . . , 9, 10, Bube, Dame, König, Ass) bestehen.
Antwort Die Menge der möglichen Versuchsausgänge Ω ist die Menge aller Pokerhände (z.B. Kreuz 8,
Kreuz Dame, Herz 8, Herz 9, Karo Ass). Das Ereignis E, welches von Interesse ist, ist das man ein Full
House bekommt.
P(E) =
4
|E|
|Ω|
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
1 Kombinatorische Analyse
1.1 Grundprinzip des Zählens
Lemma Wir betrachten zwei (verschiedene) Experimente. Das erste Experiment hat m ∈ N und das
zweite Experiment hat n ∈ N mögliche Ausgänge. Dann können wir Ω als Matrix wie folgt darstellen.


(1, 1) · · · (1, n)
 ..
.. 
..
 .
.
. 
(m, 1)
···
(m, n)
Nach dem Grundprinzip des Zählens gibt es also m · n mögliche Versuchsausgänge.
Satz Wir betrachten r (verschiedene) Einzelexperimente, wobei Experiment i mit 1 ≤ i ≤ r genau ni
mögliche Versuchsausgänge erlaubt. Dann gibt es nach dem verallgemeinerten Grundprinzip des Zählens
r
Y
ni = n1 · . . . · nr
mit
ni ∈ N
i=1
mögliche Versuchsausgänge für die r Experimente.
Beispiel Wie viele fünfstellige Berliner KFZ-Kennzeichen B- gibt es?
Lösung
Um diese Frage zu klären, geht man wie folgt vor.
• Lege den ersten Buchstaben fest. (26 Möglichkeiten)
• Lege den zweiten Buchstaben fest. (26 Möglichkeiten)
• Lege die erste Ziffer fest. (9 Möglichkeiten)
• Lege die zweite Ziffer fest. (10 Möglichkeiten)
• Lege die dritte Ziffer fest. (10 Möglichkeiten)
Damit ergeben sich 26 · 26 · 9 · 10 · 10 = 608.400 verschiedene Möglichkeiten.
Beispiel Wie viele fünfstellige Berliner KFZ-Kennzeichen B- gibt es ohne Wiederholungen?
Lösung
Um diese Frage zu klären, geht man wie folgt vor.
• Lege den ersten Buchstaben fest. (26 Möglichkeiten)
• Lege den zweiten Buchstaben fest. (25 Möglichkeiten)
• Lege die erste Ziffer fest. (9 Möglichkeiten)
• Lege die zweite Ziffer fest. (9 Möglichkeiten)
• Lege die dritte Ziffer fest. (8 Möglichkeiten)
Damit ergeben sich 26 · 25 · 9 · 9 · 8 = 421.200 verschiedene Möglichkeiten.
1.2 Permutation
Definition Gegeben sei eine Menge mit n ∈ N unterscheidbaren Objekten. Die möglichen Anordnungen aller n Elemente bezeichnet man als Permutation. Darf jedes der n Elemente jeweils nur einmal
vorkommen (Ziehen ohne Zurücklegen) so gilt für die Anzahl der möglichen Anordnungen Folgendes.
n! :=
n
Y
i = n · (n − 1) · . . . · 1
bzw.
n! := n · (n − 1)!
i=1
Beispiel Wie viele mögliche Tabellenstände in der Fußball-Bundesliga gibt es?
5
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Es gibt genau 18! = 6.402.373.705.728.000 mögliche Tabellenstände.
Beispiel Wie viele Tabellenstände gibt es, wo der BVB auf einem Abstiegsplatz steht?
Lösung
Um diese Frage zu klären, geht man wie folgt vor.
• Lege den Abstiegsplatz für den BVB fest. (3 Möglichkeiten)
• Platziere die restlichen 17 Vereine. (17! Möglichkeiten)
Es gibt also 3 · 17! = 1.067.062.284.288.000 Tabellenstände.
Beispiel Wie viele (unterscheidbare) Anordnungen können wir aus PEPPER bilden?
Lösung Es gibt 6! Möglichkeiten P1 E1 P2 P3 E2 R anzuordnen, jedoch liefern P1 E1 P2 P3 E2 R und P3 E2 P1 P2 E1 R
dasselbe Wort. Wir legen also zunächst die Plätze für P und E fest und lassen dann unsere P ’s und E’s
permutieren. Wir haben also 3! Möglichkeiten die P ’s und 2! Möglichkeiten die E’s zu permutieren. Die
Anzahl der unterscheidbare Anordnungen beträgt damit also
6!
= 60.
3! · 2!
1.3 Variation und Kombination
Definition Gegeben sei eine Menge mit n ∈ N Objekten. Die möglichen Anordnungen aus je k ≤ n
Elementen dieser Menge mit Berücksichtigung der Reihenfolge bezeichnet man als Variation.
(i) Darf jedes Element jeweils nur einmal vorkommen (ohne Zurücklegen) so gilt
n · (n − 1) · . . . · (n − k + 1) =
n!
(n − k)!
(ii) Darf jedes Element beliebig oft vorkommen (mit Zurücklegen) so gilt
n
. . · n} = nk
| · .{z
k-mal
Definition Gegeben sei eine Menge mit n ∈ N Objekten. Die möglichen Anordnungen aus je k ≤ n
Elementen dieser Menge ohne Berücksichtigung der Reihenfolge bezeichnet man als Kombination.
(i) Darf jedes Element jeweils nur einmal vorkommen (ohne Zurücklegen) so gilt
n
n!
n
=
=
k
n−k
(n − k)! · k!
(ii) Darf jedes Element beliebig oft vorkommen (mit Zurücklegen) so gilt
n+k−1
(n + k − 1)!
n+k−1
=
=
k
(n − 1)! · k!
n−1
Beispiel Es soll ein Komitee aus 3 Personen aus einer Gruppe von 20 Personen gebildet werden. Wie
viele verschiedene Komitees können gebildet werden?
Lösung
Es gibt
20
3
=
20 · 19 · 18
= 1140 verschiedene Möglichkeiten ein solches Komitee zu bilden.
3·2·1
Beispiel Es soll ein Komitee aus 2 Frauen und 3 Männern aus einer Gruppe von 5 Frauen und 7 Männern
gebildet werden. Wie viele verschiedene Komitees können gebildet werden?
5
7
mögliche Gruppen aus 2 Frauen und
mögliche Gruppen aus 3 Männern. Aus
2
3
5
7
dem Grundprinzip des Zählens folgt, dass es damit
·
= 350 mögliche Komitees gibt.
2
3
Lösung
Es gibt
6
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Wie viele verschiedene Poker-Hände gibt es?
Lösung
52
Man bekommt 5 von 52 Karten. Es gibt damit als
Möglichkeiten.
5
Beispiel Wie viele Möglichkeiten für ein Full House, also 3 Karten von einem Wert und 2 Karten von
einem anderen Wert, gibt es?
Lösung
Um diese Frage zu klären, geht man wie folgt vor.
• Wähle den ersten Wert. (13 Möglichkeiten)
• Wähle den zweiten Wert. (12 Möglichkeiten)
• Wähle 3 von 4 Farben für den ersten Wert.
4
3
Möglichkeiten
4
2 Möglichkeiten
• Wähle 2 von 4 Farben für den zweiten Wert.
4
4
Es gibt also insgesamt 13 · 12 ·
·
verschiedene Möglichkeiten ein Full House zu bekommen.
3
2
1.4 Multinomialkoeffizient
Definition Gegeben sei eine Menge mit n ∈ N Objekten. Die möglichen Anordnungen in k ≤ n Gruppen
mit jeweils ni ∈ N0 Objekten für i = 1, . . . , k sind durch den Multinomialkoeffizienten gegeben.
n
n1 , . . . , n k
n!
= n! ·
=
n1 ! · . . . · nk !
k
Y
!−1
ni !
mit
i=1
k
X
ni = n
i=1
Beispiel Wie viele Möglichkeiten gibt es 10 Studierende auf 2 Teams (A und B) zu je 5 zu verteilen?
Lösung
Es gibt insgesamt
10
10!
= 252 verschiedene Möglichkeiten.
=
5, 5
5! · 5!
Beispiel Wie viele Möglichkeiten gibt es 10 Studierende auf 2 Teams zu je 5 zu verteilen?
Lösung
Da die Teams nicht unterscheidbar sind, gibt es
10!
= 126 verschiedene Möglichkeiten.
5! · 5! · 2!
1.5 Anzahl der ganzzahligen Lösungen von Gleichungen
Frage Wie viele positive ganzzahligen Lösungen gibt es, welche die folgende Gleichung erfüllen?
k
X
xi = x1 + . . . + xk = n mit
k ≤ n und xi ∈ N für i = 1, . . . , k
i=1
Lösung Gegeben seien n nicht unterscheidbare Objekte, welche aneinandergereiht sind. Diese Objekte
sollen in k nichtleere Gruppen unterteilt werden. Man kann k − 1 der n − 1 Zwischenräume zwischen
benachbarten Objekten als Teilungspunkte auswählen. Zum Beispiel erhält man für n = 8 und k = 3,
mit der Wahl der zwei Teiler wie folgt, das folgende Schema.
∗ ∗ ∗ | ∗ ∗ ∗ | ∗∗
Sei xk die Anzahl der Sterne zwischen dem (k − 1)-ten und k-ten gewählten Zwischenraum. Die so
definierten (x1 , . . . , xk ) liefern eine Lösung; umgekehrt ist jede Lösung von dieser Form. Die Anzahl der
verschiedenen positiven ganzzahligen Lösungen ist damit wie folgt.
n−1
k−1
7
Prof. Dr. Ulrich Horst
Proposition
Stochastik
WS 2013/2014
Die Anzahl der verschiedenen positiven ganzzahligen Lösungen, welche die Gleichung
k
X
xi = x1 + . . . + xk = n mit
k ≤ n und xi ∈ N
für i = 1, . . . , k
i=1
erfüllen, ist durch den folgenden Binomialkoeffizienten gegeben.
n−1
k−1
Frage Wie viele nichtnegativen ganzzahligen Lösungen gibt es, welche die folgende Gleichung erfüllen?
k
X
xi = x1 + . . . + xk = n mit
k ≤ n und xi ∈ N
für i = 1, . . . , k
i=1
Lösung
Sei (x∗1 , . . . , x∗k ) mit x∗i ∈ N0 eine nichtnegative Lösung dieser Gleichung. Dann liefert
yi = x∗i + 1 ∈ N
für i = 1, . . . , k
eine Lösung der Gleichung
k
X
yi = y1 + . . . + yk = n + r
i=1
Die Anzahl der verschiedenen nichtnegativen ganzzahligen Lösungen ist damit wie folgt.
n+k−1
k−1
Proposition
Die Anzahl der verschiedenen nichtnegativen ganzzahligen Lösungen, welche die Gleichung
k
X
xi = x1 + . . . + xk = n mit
k≤n
und xi ∈ N
für i = 1, . . . , k
i=1
erfüllen, ist durch den folgenden Binomialkoeffizienten gegeben.
n+k−1
k−1
Beispiel Sie investieren 20.000 e in 4 unterschiedliche Wertpapiere. Sie können in Vielfachen von 1.000 e
investieren. Wie viele Möglichkeiten haben Sie?
Lösung
Sei xi für i = 1, . . . , 4 das Investment (in 1.000 e) in Wertpapieren. Dann gilt
Es gibt also
x1 + x2 + x3 + x4 = 20 mit xi ∈ N0
20 + 4 − 1
23
=
Möglichkeiten.
4−1
3
8
für i = 1, . . . , 4
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
2 Axiome der Wahrscheinlichkeitsrechnung
2.1 Mengenoperationen mit Ereignissen
Definition Für zwei Ereignisse E und F seien folgende Mengenoperationen definiert.
(i) E ∪ F = {ω ∈ Ω | ω ∈ E ∨ ω ∈ F }
(Vereinigung)
(ii) E ∩ F = {ω ∈ Ω | ω ∈ E ∧ ω ∈ F }
(Schnitt)
(iii) E C = {ω ∈ Ω | ω ∈
/ E}
(Komplement)
Definition Für eine Folge von Ereignissen (En )n∈N sind Vereinigung und Schnitt wie folgt definiert.
[
\
En = {ω ∈ Ω | ∃n ∈ N : ω ∈ En } und
En = {ω ∈ Ω | ∀n ∈ N : ω ∈ En }
n∈N
n∈N
Definition Für drei Ereignisse E, F und G gelten folgende einfache Rechenregeln.
(i) E ∪ F = F ∪ E und E ∩ F = F ∩ E
(Kommutativgesetz)
(ii) (E ∪ F ) ∪ G = E ∪ (F ∪ G) und (E ∩ F ) ∩ G = E ∩ (F ∩ G)
(Assoziativgesetz)
(iii) (E ∪ F ) ∩ G = (E ∩ G) ∪ (F ∩ G)
(Distributivgesetz)
Satz Für eine Folge von Ereignissen (Ei )ni=1 gelten die De Morganschen Gesetze.
n
[
!C
Ei
n
\
=
EiC
n
\
und
i=1
i=1
!C
Ei
=
n
[
EiC
i=1
i=1
Beweis Es muss gezeigt werden, dass ein beliebiges Element ω in beiden Mengen enthalten ist.
!C
n
n
n
[
[
\
ω∈
Ei
⇔ ω∈
/
Ei ⇔ ω ∈
/ Ei ⇔ ω ∈ EiC ⇔ ω ∈
EiC
i=1
i=1
i=1
Um das zweite De Morganschen Gesetz zu beweisen, benutzt man das erste Gesetz.
!C
n
n
n
[
\
\
C
Ei
=
(EiC )C =
Ei
i=1
i=1
i=1
Bildet man nun auf beiden Seiten das Komplement, so erhält man das zweite De Morganschen Gesetz.
!C
n
n
\
[
Ei
=
EiC
i=1
i=1
Definition Sei (En ) eine Folge von Ereignissen. Die Folge heißt paarweise disjunkt, falls Folgendes gilt.
∀i 6= j : Ei ∩ Ej = ∅
Bemerkung
Für eine disjunkte Vereinigung zweier Ereignisse E und F schreibt man E t F oder E ∪˙ F .
2.2 Axiome der Wahrscheinlichkeitsrechnung
Definition Ein Wahrscheinlichkeitsmaß ist eine Funktion P : F → [0, 1], die folgenden Axiome erfüllt.
(i) P(Ω) = 1
(Normierung)
(ii) Für eine Folge (En )n∈N paarweise disjunkter Ereignisse aus F gilt
!
G
X
P
En =
P(En )
n∈N
n∈N
9
(σ-Additivität)
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Ein einfacher Münzwurf mit Ω = {K, Z} und F = P(Ω) = {∅, {K}, {Z}, Ω} hat die folgenden
Wahrscheinlichkeiten für die Ereignisse E1 = {K} und E2 = {Z}.
P(E1 ) =
1
= P(E2 )
2
2.3 Einfache Eigenschaften des Wahrscheinlichkeitsmaß
Proposition
Es sei P ein Wahrscheinlichkeitsmaß auf dem Messraum (Ω, F). Dann gilt
(i) P(∅) = 0
(ii) Für eine Folge (Ei )ni=1 paarweise disjunkter Ereignisse aus F gilt
!
n
n
G
X
P
Ei =
P(Ei )
i=1
(σ-Additivität)
i=1
Beweis
(i) Wähle En = ∅ für alle n ∈ N. Dann ist die Folge (En )n∈N paarweise disjunkt und es gilt
G
En = ∅
n∈N
Nach der σ-Additivität aus den Axiomen des Wahrscheinlichkeitsmaßes gilt nun.
!
G
X
X
P(∅) = P
En =
P(En ) =
P(∅)
n∈N
n∈N
n∈N
Dies ist offensichtlich nur erfüllt, wenn P(∅) = 0 gilt.
(ii) Sei En+1 = En+2 = . . . = ∅ (∗). Dann ist (En )n∈N eine Folge paarweise disjunkter Ereignisse. Nach
der σ-Additivität aus den Axiomen des Wahrscheinlichkeitsmaßes gilt nun.
!
!
n
n
G
X
G
P(∅)=0 X
(∗)
P
En =
P(En ) =
P(Ei ) = P
Ei
n∈N
Proposition
i=1
n∈N
i=1
Für ein Ereignis E gilt für die Wahrscheinlichkeit des Gegenereignisses E C Folgendes.
P(E C ) = 1 − P(E)
Beweis Dazu werden die Axiome des Wahrscheinlichkeitsmaßes und die vorige Proposition verwendet.
1 = P(Ω) = P(E ∪ E C ) = P(E) + P(E C )
Proposition
⇒
P(E C ) = 1 − P(E)
Für zwei Ereignisse E und F mit E ⊆ F gilt Folgendes.
P(E) ≤ P(F )
Beweis Da E ⊆ F gilt, kann man F wie folgt ausdrücken.
F = E ∪ (F ∩ E C )
Wendet man nun die σ-Additivität des Wahrscheinlichkeitsmaßes an, so erhält man Folgendes.
P(F ) = P(E ∪ (F ∩ E C )) = P(E) + P(F ∩ E C ) ≥ P(E)
| {z }
≥0
Frage Das Wahrscheinlichkeitsmaß ist für paarweise disjunkte Ereignisse σ-additiv. Was passiert jedoch
für nicht paarweise disjunkte Ereignisse?
Proposition
Für zwei Ereignisse E und F gilt P(E ∪ F ) = P(E) + P(F ) − P(E ∩ F ).
10
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Die beiden Ereignisse E und F kann man auch wie folgt ausdrücken.
E = (E ∩ F ) ∪ (E ∩ F C )
und F = (E ∩ F ) ∪ (E C ∩ F )
Dann gilt für die Wahrscheinlichkeit der Vereinigung der beiden Ereignisse Folgendes.
P(E ∪ F ) = P(E ∩ F ) + P(E ∩ F C ) + P(E C ∩ F )
= P(E ∩ F ) + P(E) − P(E ∩ F ) + P(F ) − P(E ∩ F )
= P(E) + P(F ) − P(E ∩ F )
Konsequenz
Ist der Ergebnisraum Ω diskret (endlich oder abzählbar unendlich), sprich es gilt
Ω = {ωk }nk=1
mit
n ∈ N ∪ {∞}
und ωk 6= ωl
für k 6= l,
so folgt mit En = {ωn }, da Ek ∩ El 6= ∅ für k 6= l, aus der σ-Additivität Folgendes.
:=Pk
!
G
P(E) = P
Ek
k:ωk ∈E
=
X
P(Ek )
k:ωk ∈E
Somit ist das Wahrscheinlichkeitsmaß P durch die Folge (Pk )nk=1 eindeutig festgelegt.
Pk ∈ [0, 1]
und
n
X
Pk = 1
k=1
Lemma Für zwei Ereignisse E und F gilt die Subadditivität P(E ∪ F ) ≤ P(E) + P(F ).
Beweis Der Beweis des Lemmas ist klar, da 0 ≤ P(E) ≤ 1 für alle E ∈ F gilt und damit
P(E ∪ F ) = P(E) + P(F ) − P(E ∩ F ) ≤ P(E) + P(F )
≥0
Allgemeiner Für drei Ereignisse E, F und G gilt
P(E ∪ F ∪ G) = P((E ∪ F ) ∪ G)
= P(E) + P(F ) + P(G) − P(E ∩ F ) − P((E ∩ G) ∪ (F ∩ G)
= P(E) + P(F ) + P(G) − P(E ∩ F ) − (P(E ∩ G) + P(F ∩ G) − P(E ∩ F ∩ G))
= P(E) + P(F ) + P(G) − P(E ∩ F ) − P(E ∩ G) − P(F ∩ G) + P(E ∩ F ∩ G)
Für eine Folge von Ereignissen (Ei )ni=1 gilt die Siebformel von Poincaré und Sylvester.
!
!
n
n
n
[
X
X
X
\
n+1
Ei =
P(Ei ) −
P(Ei1 ∩ Ei2 ) +
P(Ei1 ∩ Ei2 ∩ Ei3 ) − . . . + (−1)
P
Ei
Proposition
P
i=1
i=1
i1 <i2
i1 <i2 <i3
i=1
Bemerkung Diese Formel wird auch das Prinzip von Inklusion und Exklusion, Prinzip der Einschließung
und Ausschließung oder Einschluss-/Ausschluss-Verfahren genannt.
Beweis Ein solcher Beweis würde per Induktion über n ∈ N geführt werden.
2.4 Laplace-Experimente
Definition Sei Ω = {1, . . . , n} ein endlicher Grundraum. Es heißt {ω} ⊆ Ω ein Elementarereignis. Ein
Zufallsexperiment wird Laplace-Experiment genannt, wenn alle Versuchsausgänge gleich wahrscheinlich
sind, sprich alle Elementarereignisse die gleiche Wahrscheinlichkeit besitzen.
P(E) =
X
ω∈E
P({ω}) =
|E|
|Ω|
mit
P({ω}) =
11
1
1
=
|Ω|
n
für i = 1, . . . , n
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Ein fairer Würfel wird zweimal hintereinander geworfen. Wie hoch ist die Wahrscheinlichkeit,
dass die Augensumme sieben beträgt?
Lösung Der Grundraum ist Ω = {1, . . . , 6} × {1, . . . , 6} = {1, . . . , 6}2 mit der Mächtigkeit |Ω| = 36. Das
Ereignis E, dass die Augensumme sieben beträgt ist, besteht aus allen möglichen Tupeln, deren Summe
der Komponenten sieben beträgt.
E = {(m, n) | m + n = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}
Da jedes Elementarereignis gleich wahrscheinlich ist, folgt für die Wahrscheinlichkeit von E Folgendes.
P(E) =
|E|
6
1
=
=
|Ω|
36
6
Beispiel Wie groß ist die Wahrscheinlichkeit für ein Full House beim Poker?
Lösung Sei E das Ereignis, dass man ein Full House beim Poker besitzt. Die Anzahl der Möglichkeiten
für ein Full House wurde bereits gezeigt. Somit gilt für die Mächtigkeit von Ω und E Folgendes.
52
4
4
|Ω| =
und |E| = 13 · 12 ·
·
5
3
2
Da jede der Möglichkeiten auf ein Full House gleich wahrscheinlich ist, gilt Folgendes.
13 · 12 · 43 · 42
|E|
6
=
≈ 0,0014
P(E) =
=
52
|Ω|
4165
5
Beispiel Wie groß ist die Wahrscheinlichkeit, dass von n Personen keine zwei Personen am gleichen Tag
Geburtstag haben? (Dieses Problem ist bekannt als das Geburtstagsparadoxon.)
Lösung Sei Ω = {1, . . . , 365}n der Ergebnisraum und E das Ereignis, dass keine zwei Personen am
gleichen Tag Geburtstag haben. Die Wahrscheinlichkeit von E ist damit gegeben durch
P(E) =
365 · 364 · . . . · (365 − (n − 1))
365n
Beispiel Sei Ω die Menge aller bijektiven Funktionen f : {1, . . . , n} → {1, . . . , n}. Eine Funktion f besitzt
einen Fixpunkt, falls f (x) = x für ein x ∈ {1, . . . , n} gilt. Wie groß ist die Wahrscheinlichkeit, dass eine
zufällig gewählte Funktion keinen Fixpunkt besitzt?
Lösung
Zunächst einmal wird das Problem weniger abstrakt formuliert.
Die n Hüte von n Personen werden gemischt und jeder zieht zufällig einen. Wie groß ist die
Wahrscheinlichkeit, dass keiner der Besucher seinen eigenen Hut erhält?
Sei Ω = {(i1 , . . . , in ) | 1 ≤ ij ≤ n, ∀j 6= k : ij 6= ik }, wobei ω = (i1 , . . . , iN ) bedeutet, dass Besucher k
den Hut ik nimmt. Sei Ej das Ereignis, dass Besucher j den Hut ij = j bekommt, also seinen eigenen.
Ej = {(i1 , . . . , in ) ∈ Ω | ij = j}
für j = 1, . . . , n
Somit wird die folgende Wahrscheinlichkeit gesucht.



C 


n
n
n
\
[
[


P
EjC  = P 
Ej   = 1 − P 
Ej 
j=1
j=1
j=1
Im Folgenden muss die Siebformel von Poincaré und Sylvester angewendet werden. Es gilt




n
n
n
[
X
X
\
P
Ej  =
P(Ej ) −
P(Ej1 ∩ Ej2 ) + . . . + (−1)n+1 P 
Ej 
j=1
j=1
j1 <j2
j=1
12
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Für m ≤ n seien 1 ≤ j1 < . . . < jm ≤ n gegeben. Dann ist
Ej1 ∩ . . . ∩ Ejm = {(i1 , . . . , in ) ∈ Ω | ∀k = 1, . . . , n : ijk = jk }
Somit folgt für den Schnitt der Ereignisse die folgende Wahrscheinlichkeit.
!
n
\
(n − k)!
|Ej1 ∩ . . . ∩ Ejn |
P
=
Ejk =
|Ω|
n!
k=1
Damit gilt dann für die Wahrscheinlichkeit der Vereinigung der Ereignisse Folgendes.
!
n
[
(n − 2)!
1
(n − k)!
− |{(j1 , j2 ) | 1 ≤ j1 < j2 ≤ n}| ·
+ . . . + (−1)n+1 ·
P
Ei = n ·
n!
n!
n!
i=1
n
(n − 2)!
n
(n − 3)!
1
=1−
·
+
·
− . . . + (−1)n+1 ·
2
n!
3
n!
n!
1
1
1
= 1 − 1 − + − . . . + (−1)n+1 ·
2! 3!
n!
n
k
X
(−1)
=
k!
k=0
Für hinreichend große n folgt damit mit Hilfe der Reihendarstellung der Exponentialfunktion Folgendes.
!
∞
n
n
X
X
[
(−1)k
(−1)k
=
= e−1
lim P
Ei = lim
n→∞
n→∞
k!
k!
i=1
k=0
k=0
Somit gilt für große n, um die Ausgangsfrage zu beantworten, angenähert die folgende Wahrscheinlichkeit.




C 

n
n
n
[
\
[


Ej  ≈ 1 − e−1
P
EjC  = P 
Ej   = 1 − P 
j=1
j=1
j=1
13
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3.1 Bedingte Wahrscheinlichkeit
Beispiel Ein fairer Würfel wird zweimal hintereinander geworfen (Laplace-Experiment). Angenommen
der erste Wurf ist eine drei. Wie hoch ist die Wahrscheinlichkeit, dass die Augensumme acht beträgt?
Lösung Sei F das Ereignis, dass der erste Wurf eine drei war und E das Ereignis, dass die Augensumme
acht ist. Als Nächstes definiert man sich nun einen neuen Grundraum ΩF = {(3, 1), . . . , (3, 6)} und ein
neues Wahrscheinlichkeitsmaß PF auf ΩF . Dann gilt damit
∀ωF ∈ ΩF : PF (ωF ) =
1
|ΩF |
Die Wahrscheinlichkeit, dass die Augensumme acht beträgt, ist damit die Folgende.
PF (E) =
1
6
Definition Seien E und F zwei Ereignisse und P (F ) > 0. Dann ist die bedingte Wahrscheinlichkeit des
Eintretens von E unter der Bedingung, dass das Eintreten von F bereits bekannt ist, wie folgt definiert.
P(E | F ) =
P(E ∩ F )
P(F )
Für den Fall, dass P(F ) = 0 ist, setzt man P(E | F ) = 0.
Beispiel In einem Korb befinden sich 25 Glühbirnen. Von diesen 25 Glühbirnen sind
• 5 Glühbirnen gut und haben eine Lebensdauer von mehr als 30 Tagen,
• 10 Glühbirnen teilweise defekt und haben eine Lebensdauer von einem Tag,
• 10 Glühbirnen vollkommen defekt.
Sie wählen eine funktionierende Glühbirne aus. Wie groß ist die Wahrscheinlichkeit, dass die Birne in
einer Woche noch brennt?
Lösung Sei G das Ereignis, dass die Glühbirne gut ist und D das Ereignis, dass die Glühbirne teilweise
oder vollkommen defekt ist. Gesucht ist die Wahrscheinlichkeit P(G | DC ), welche sich wie folgt berechnet.
P(G | DC ) =
P(G ∩ DC )
5/25
1
=
=
P(DC )
15/25
3
Beispiel Frau Müllers Firma gibt ein Essen für alle Angestellten, die mindestens eine Tochter haben.
Frau Müller hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, das beides Mädchen sind, wenn Frau
Müller eingeladen wird?
Lösung Sei E das Ereignis, dass Frau Müller eingeladen wird, d. h. sie hat mindestens eine Tochter. Sei
Z das Ereignis, dass sie zwei Töchter hat.
P(Z | E) =
P(Z ∩ E)
P(Z)
1/4
1
=
=
=
P(E)
P(E)
3/4
3
Beispiel Sie sind indifferent zwischen einem Französisch- und einem Chemiekurs. Sie erwarten eine 1 in
• Französisch mit einer Wahrscheinlichkeit von 1/2,
• Chemie mit einer Wahrscheinlichkeit von 2/3.
Wir treffen eine Auswahl per Münzwurf. Wie groß ist die Wahrscheinlichkeit für eine 1 in Chemie?
14
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Sei C das Ereignis, dass der Chemiekurs gewählt worden ist und E jenes für eine 1.
P(C ∩ E) = P(E | C) · P(C) =
Proposition
1
2 1
· =
3 2
3
Sei P(F ) > 0. Dann ist P( · | F ) ein Wahrscheinlichkeitsmaß auf dem Messraum (Ω, F).
Beweis Um dies zu beweisen, müssen die Axiome des Wahrscheinlichkeitsmaßes verifiziert werden.
(i) Sei E ∈ F. Dann gilt P(E | F ) =
(ii) P(Ω | F ) =
P(E ∩ F )
∈ [0, 1], da P(E ∩ F ) ≤ P(F ).
P(F )
P(Ω ∩ F )
P(F )
=
=1
P(F )
P(F )
(iii) Sei (En )n∈N eine Folge paarweiser disjunkter Ereignisse. Dann ist (En ∩F )n∈N eine Folge paarweiser
disjunkter Ereignisse und somit gilt Folgendes.
!
F
F
G
P n∈N (En ∩ F )
P n∈N En ∩ F
=
P
En | F =
P(F )
P(F )
n∈N
P
X
P(En ∩ F )
= n∈N
=
P(En | F )
P(F )
n∈N
Allgemeiner Seien E1 , . . . , En Ereignisse. Dann gilt für die bedingte Wahrscheinlichkeit Folgendes.
!
!
i−1
n
n
\
Y
\
Ek = P(E1 ) · P(E2 | E1 ) · . . . · P(En | E1 ∩ . . . ∩ En−1 )
P Ei |
P
Ei =
i=1
i=1
k=1
Beispiel Wir betrachten 52 Karten in 4 Haufen. Wie groß ist die Wahrscheinlichkeit, dass sich in jedem
Haufen ein Ass befindet?
Lösung
Zuerst betrachten wir die Ereignisse E1 , E2 , E3 und E4 , die wie folgt gegeben sind.
• E1 sei das Ereignis, dass ein Pik Ass in einem Haufen ist.
• E2 sei das Ereignis, dass Pik Ass und Herz Ass in unterschiedlichen Haufen sind.
• E3 sei das Ereignis, dass Pik Ass, Herz Ass und Kreuz Ass in unterschiedlichen Haufen sind.
• E4 sei das Ereignis, dass alle Asse in unterschiedlichen Haufen sind.
Die Wahrscheinlichkeit des Schnittes der Ereignisse ist genau die gesuchte Wahrscheinlichkeit.
P(E1 ∩ . . . ∩ E4 ) = P(E1 ) · P(E2 | E1 ) · P(E3 | E1 ∩ E2 ) · P(E4 | E1 ∩ E2 ∩ E3 ) = P(E4 )
Ferner gilt für die bedingten Wahrscheinlichkeiten Folgendes.
39
26
13
, P(E3 | E1 ∩ E2 ) =
und P(E4 | E1 ∩ E2 ∩ E3 ) =
51
50
49
Damit ergibt sich für die gesuchte Wahrscheinlichkeit P(E4 ) ≈ 0,105.
P(E1 ) = 1,
P(E2 | E1 ) =
3.2 Gesetz der totalen Wahrscheinlichkeit und Satz von Bayes
Satz Für zwei Ereignisse E und F gilt das Gesetz der totalen Wahrscheinlichkeit.
P(E) = P(E | F ) · P(F ) + P(E | F C ) · P(F C )
Beweis Für zwei Ereignisse E und F gilt für die Wahrscheinlichkeit des Ereignisses E Folgendes.
P(E) = P(E ∩ F ) + P(E ∩ F C )
Die Wahrscheinlichkeiten lassen sich mit der bedingten Wahrscheinlichkeit wie folgt schreiben.
P(E ∩ F ) = P(E | F ) · P(F )
und P(E ∩ F C ) = P(E | F C ) · P(F C )
Damit gilt das Gesetz der totalen Wahrscheinlichkeit.
P(E) = P(E | F ) · P(F ) + P(E | F C ) · P(F C )
15
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Satz Für zwei Ereignisse E und F mit P(F ) > 0 lässt sich mit Hilfe des Satzes von Bayes die Wahrscheinlichkeit von E unter der Bedingung, dass F eingetreten ist, angeben durch die Wahrscheinlichkeit
von F unter der Bedingung, dass E eingetreten ist.
P(E | F ) =
P(F | E) · P(E)
P(F )
Beweis Für zwei Ereignisse E und F mit P(F ) > 0 gilt unter Nutzung der bedingten Wahrscheinlichkeit
und der Kommutativität des Schnittes zweier Ereignisse Folgendes.
P(E ∩ F )
P(E ∩ F ) P(E)
P(E ∩ F ) P(E)
=
·
=
·
P(F )
P(F )
P(E)
P(E)
P(F )
P(F ∩ E) P(E)
P(F | E) · P(E)
=
·
=
P(E)
P(F )
P(F )
P(E | F ) =
=P(F |E)
Beispiel Eine Versicherung unterteilt Kunden in Gruppen mit hohem und niedrigen Unfallrisiko. Kunden mit einem hohem Unfallrisiko haben einen Unfall mit einer Wahrscheinlichkeit von 0,4. Kunden mit
einem niedrigen Risiko haben einen Unfall mit einer Wahrscheinlichkeit von 0,2. Insgesamt haben 30%
der Kunden ein hohes Unfallrisiko. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig gewählter Kunde
einen Unfall hat?
Lösung Sei H das Ereignis, dass es sich um einen Kunden mit einem hohen Risiko handelt und sei U
jenes, dass ein Kunde einen Unfall hat. Gesucht wird also P(U ). Bekannt ist bereits P(U | H) = 0,4,
P(U | H C ) = 0,2, sowie P(H) = 0,3 und somit auch P(H C ) = 0,7. Damit lässt sich die Wahrscheinlichkeit
mittels des Gesetzes der totalen Wahrscheinlichkeit ermitteln.
P(U ) = P (U | H) · P(H) + P(U | H C ) · P(H C ) = 0,4 · 0,3 + 0,2 · 0,7 = 0,26
Beispiel Angenommen ein Kunde hat einen Unfall. Mit welcher Wahrscheinlichkeit gehört diese Person
zur Klasse mit dem hohen Risiko?
Lösung
Um diese Frage zu klären, wird der Satz von Bayes verwendet.
P(H | U ) =
0,4 · 0,3
6
P(U | H) · P(H)
=
=
P(U )
0,26
13
Beispiel Im Folgenden wird ein Multiple-Choice-Test mit jeweils m möglichen Antworten betrachtet,
wobei immer nur eine richtig ist. Ein Student kennt die richtige Antwort mit einer Wahrscheinlichkeit
von p, andernfalls muss er raten. Angenommen eine Antwort ist richtig. Mit welcher Wahrscheinlichkeit
kannte der Student die Antwort?
Lösung Sei R das Ereignis, dass die Antwort richtig ist und sei W das Ereignis, dass der Prüfling die
Antwort kennt und nicht geraten hat. Dann gilt mit dem Satz von Bayes Folgendes.
P(W | R) =
P(R | W ) · P(W )
P(R)
Nun gilt nach dem Gesetz der totalen Wahrscheinlichkeit für die Wahrscheinlichkeit von R Folgendes.
P(R) = P(R | W ) · P(W ) + P(R | W C ) · P(W C )
=1
=p
1/m
=1−p
Damit ergibt sich für die gesuchte Wahrscheinlichkeit Folgendes.
P(W | R) =
1·p
m·p
=
1 · p + (1/m) · (1 − p)
1 + p · (m − 1)
Für m = 5 und p = 1/2 ergibt sich damit P(W | R) = 5/6.
16
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Fn
Proposition Sei (Fi )ni=1 eine Partition des Grundraums Ω = i=1 Fi in paarweise disjunkte Ereignisse
und sei E ein weiteres Ereignis. Dann gelten folgende Verallgemeinerungen.
(i) Für i = 1, . . . , n gilt das verallgemeinertes Gesetz der totalen Wahrscheinlichkeit.
P(E) =
n
X
P(E | Fi ) · P(Fi )
i=1
(ii) Für i = 1, . . . , n gilt der verallgemeinerter Satz von Bayes.
P(E | Fi ) · P(Fi )
P(Fi | E) = Pn
j=1 P(E | Fj ) · P(Fj )
Beweis Es gelten die Voraussetzungen der obigen Proposition.
(i) Dann gilt für das verallgemeinertes Gesetz der totalen Wahrscheinlichkeit Folgendes.
!
n
n
n
G
X
X
P(E) = P
(E ∩ Fi ) =
P(E ∩ Fi ) =
P(E | Fi ) · P(Fi )
i=1
i=1
i=1
(ii) Unter der Nutzung von (i) lässt sich der verallgemeinerter Satz von Bayes beweisen.
P(Fi | E) =
P(E | Fi ) · P(Fi )
P(Fi ∩ E)
P(E | Fi ) · P(Fi ) (i)
= Pn
=
P(E)
P(E)
j=1 P(E | Fj ) · P(Fj )
3.3 Stochastische Unabhängigkeit
Definition Zwei Ereignisse E und F heißen unabhängig, falls die Wahrscheinlichkeit des Schnittes dem
Produkt der beiden Einzelwahrscheinlichkeiten entspricht.
P(E ∩ F ) = P(E) · P(F )
Proposition
bzw.
P(E | F ) = P(E)
Seien E und F zwei unabhängige Ereignisse.
(i) Dann sind auch E und F C unabhängige Ereignisse.
(ii) Dann sind auch E C und F C unabhängige Ereignisse.
Beweis Seien E und F zwei unabhängige Ereignisse.
(i) Das Ereignis E lässt sich auch wie folgt darstellen.
P(E) = P(E ∩ F ) + P(E ∩ F C ) = P(E) · P(F ) + P(E ∩ F C )
Stellt man diese Gleichung nach P(E ∩ F C ) um und formt weiter um, so erhält man Folgendes.
P(E ∩ F C ) = P(E) − P(E) · P(F ) = P(E) · (1 − P(F )) = P(E) · P(F C )
Damit sind die Ereignisse E und F C unabhängig.
(ii) Setzt man E 0 = F C und F 0 = E, so folgt aus (i) sofort die Unabhängigkeit von E C und F C .
P(E C ∩ F C ) = P(E 0 ∩ F 0C ) = P(E 0 ) · P(F 0C ) = P(F C ) · P(E C ) = P(E C ) · P(F C )
Beispiel Es wird eine Karte aus einem Stapel von 52 Karten gezogen. Sei E das Ereignis, dass eine
Karte ein Ass ist und sei F das Ereignis, dass eine Karte ein Pik ist. Sind diese Ereignisse unabhängig?
Lösung Um die Unabhängigkeit der Ereignisse zu untersuchen, betrachten wir die folgenden Wahrscheinlichkeiten.
4
13
1
P(E) =
und P(F ) =
und P(E ∩ F ) =
52
52
52
Wie man leicht nachrechnen kann, gilt die Unabhängigkeit der Ereignisse.
P(E ∩ F ) =
1
4 13
=
·
= P(E) · P(F )
52
52 52
17
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Wir betrachten einen zweifachen Würfelwurf. Sei E1 das Ereignis, dass die Augensumme sechs
ist und sei E2 das Ereignis, dass der erste Wurf eine vier ist. Sind diese Ereignisse unabhängig?
Lösung
Die Ereignisse E1 und E2 lassen sich wie folgt modellieren.
E1 = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}
und E2 = {(4, 1), . . . , (4, 6)}
Der Schnitt der beiden Ereignisse hat somit die folgende Form.
E1 ∩ E2 = {(4, 2)}
Wie man leicht nachrechnen kann, gilt die Unabhängigkeit der Ereignisse nicht.
P(E1 ∩ E2 ) =
5 6
1
6=
·
= P(E1 ) · P(E2 )
36
36 36
Beispiel Wir betrachten einen zweifachen Würfelwurf. Sei E das Ereignis, dass die Augensumme sieben
ist, F das Ereignis, dass der erste Wurf eine vier ist und G das Ereignis, dass der zweite Wurf eine drei
ist. Sind diese Ereignisse unabhängig?
Lösung
Die drei Ereignisse E, F und G lassen sich wie folgt modellieren.
E = {(i, j) | i + j = 7},
F = {(i, j) | i = 4 ∧ 1 ≤ j ≤ 6}
und G = {(i, j) | 1 ≤ i ≤ 6 ∧ j = 3}
Für die einzelnen Schnitte der Ereignisse untereinander gilt somit.
E ∩ F = E ∩ G = F ∩ G = {(4, 3)}
Ferner gilt für die Mächtigkeit der Ereignisse Folgendes.
|E| = |F | = |G| = 6
Somit gilt für die Wahrscheinlichkeit der einzelnen Schnitte Folgendes.
6
36
6
P(E) · P(G) =
36
6
P(F ) · P(G) =
36
P(E) · P(F ) =
6
1
=
= P(E ∩ F )
36
36
6
1
·
=
= P(E ∩ G)
36
36
6
1
·
=
= P(F ∩ G)
36
36
·
Das heißt die drei Ereignisse E, F und G sind paarweise unabhängig. Jedoch gilt
P(E | F ∩ G) = 1 6=
1
6 1
=
·
= P(E) · P(F ∩ G)
216
36 36
Das heißt die Ereignisse E und F ∩ G sind nicht unabhängig.
Definition Seien (Ek )nk=1 bzw. (Ek )k∈N Folgen von Ereignissen. Die Ereignisse
(i) (Ek )nk=1 heißen unabhängig, falls für r ≤ n und 1 ≤ k1 < . . . < kr ≤ n Folgendes gilt.


r
r
\
Y
P
Ekj  =
P(Ekj )
j=1
j=1
(ii) (Ek )k∈N heißen unabhängig, falls für jede endliche Menge S ⊆ N mit |S| < ∞ Folgendes gilt.
!
\
Y
P
Ei =
P(Ei )
i∈S
i∈S
18
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
3.4 Formalisierung von Versuchsfolgen
Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen wir Versuche. Im Folgenden konstruieren
wir ein Modell für die unabhängige Wiederholung (n-fach oder ∞-oft) eines Experiments.
Sei Ω1 = {1, . . . , n} der endliche Grundraum des ersten Experiments und P1 ein Wahrscheinlichkeitsmaß
auf Ω1 unser Ausgangsmodell. Der Grundraum für die zweifache Ausführung des Experiments ist
Ω = Ω1 × Ω2 = {(i, j) | i ∈ Ω1 ∧ j ∈ Ω2 }
mit
Ω1 = Ω2
und P1 = P2
Wir setzen für E ⊆ Ω das Wahrscheinlichkeitsmaß P wie folgt.
X
P(E) =
P1 ({i}) · P2 ({j})
(i,j)∈E
Für Fi ⊆ Ωi setzen wir Ei = Fi × Ω3−i für i = 1, 2, das heißt Ei hängt nur von der Realisierung im i-ten
Experiment ab. Es folgt nach Definition die Unabhängigkeit der beiden Ereignisse E1 und E2 .
X
X
X X
P(E1 ∩ E2 ) =
P1 ({i}) · P2 ({j}) =
P1 ({i}) · P2 ({j}) =
P1 ({i}) · P2 ({j})
i∈F1
j∈F2
(i,j)∈E1 ∩E2
i∈F1 j∈F2
! 
=
X
P1 ({i})
·
i∈F1

X
P2 ({j}) = P(E1 ) · P(E2 )
j∈F2
Der letzte Schritt der Umformung wird für den ersten Term noch einmal genauer betrachtet.
X
X
P1 ({i}) =
P1 ({i}) · P2 ({k})
i∈F1
i∈F1
k∈Ω2
=
X X
P1 ({i}) · P2 ({k})
i∈F1 k∈Ω2
=
X
P1 ({i}) ·
i∈F1
=
X
X
P2 ({k})
mit
k∈Ω2
X
P2 ({k}) = 1
(∗)
k∈Ω2
P1 ({i}) = P(E1 )
i∈F1
Außerdem gilt die Gleichung (∗), da P2 ein Wahrscheinlichkeitsmaß auf Ω2 ist und somit auch die Axiome
der Wahrscheinlichkeitsrechnung gelten. Dasselbe lässt sich analog für den zweiten Term anstellen.
Bemerkung Wir haben P1 und P2 zu einem Produktmaß auf Ω = Ω1 × Ω2 verknüpft. Dies lässt sich
auf Folgen von n bzw. unendlich vielen Versuchen verallgemeinern. Dabei gilt immer: sind (Ei )1≤i≤n
bzw. (Ei )i∈N Ereignisse, für die Ei nur von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw. (Ei )i∈N
unabhängig. Das heißt Ereignisse, die jeweils nur von einem Teilexperiment abhängig sind, sind damit
unter P unabhängig.
Beispiel Eine unendliche Folge von Versuchen wird durchgeführt. Jeder Versuch hat zwei mögliche
Ausgänge (Erfolg und Misserfolg). Die Wahrscheinlichkeit für einen Erfolg sei p, die für Misserfolg 1 − p,
für eine Zahl p ∈ [0, 1]. Wie groß ist die Wahrscheinlichkeit, dass
a) mindestens ein Erfolg in den ersten n Versuchen erzielt wird?
b) genau k Erfolge für 1 ≤ k ≤ n in den ersten n Versuchen erzielt werden?
Lösung
a) Sei Ωi = {0, 1} und Pi ({1}) = p für i = 1, . . . , n. Der Grundraum für die n-fache Wiederholung ist
Ω = Ωni = {0, 1}n
Das Wahrscheinlichkeitsmaß P auf Ω ist für ω = (ω1 , . . . , ωn ) gegeben durch
P({ω}) =
n
Y
Pi ({ωi }) = p#Erfolge · (1 − p)n−#Erfolge
i=1
19
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Sei nun E das Ereignis für mindestens einen Erfolg. Dann gilt für dessen Wahrscheinlichkeit Folgendes.
P(E) = P(E C ) = 1 − p0 − (1 − p)n−0 = 1 − (1 − p)n
b) Sei T ⊆ {1, . . . , n} mit |T | = k. T ist die Menge aller Zeitpunkte zu denen ein Erfolg eintritt. Sei Ei
das Ereignis, dass der i-te Versuch ein Erfolg ist. Dann gilt aufgrund der Unabhängigkeit Folgendes.
!
!!
\
\
Y
Y
C
P
Ei ∩
Ei
=
P(Ei ) ·
P EiC = pk · (1 − p)n−k
i∈T
i∈T
/
i∈T
i∈T
/
Sei schließlich E das Ereignis für genau k Erfolge in n Versuchen. Dann ist E wie folgt gegeben.
"
!
!#
[
\
\
C
E=
Ei ∩
Ei
T ⊆{1,...,n}
|T |=k
i∈T
i∈T
/
Also gilt für die gesuchte Wahrscheinlich des Ereignisses E Folgendes.
n
k
n−k
P(E) = |{T ⊆ {1, . . . , n} | |T | = k}| · p · (1 − p)
=
· pk · (1 − p)n−k
k
20
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
4 Diskrete Zufallsvariablen
4.1 Diskrete Zufallsvariablen
Definition Eine Zufallsvariable auf dem Maßraum (Ω, F, P) ist eine (messbare) Abbildung
X : (Ω, F) → (Rn , B(Rn )),
wobei B(Rn ) die Borel-σ-algebra auf Rn bezeichnet und F selbst eine σ-Algebra ist.
∀A ∈ B(Rn ) : X −1 (A) ∈ F
Für diskrete Grundräume Ω = {ωi }ni=1 wird F meistens als die Potenzmenge von Ω gewählt.
F = P(Ω)
Damit wäre die Forderung, dass die verwendete Funktion messbar ist, automatisch erfüllt.
Für Ω ⊆ Rn wählt man F als die Borel-σ-Algebra B(Rn ), sprich F = B(Rn ).
Definition Eine Zufallsvariable X heißt diskret, falls sie nur endlich viele oder abzählbar unendlich viele
Werte {xi } mit positiver Wahrscheinlichkeit annimmt.
X(Ω) = {x | ∃ω ∈ Ω : X(ω) = x} = {xi }i=1,...,n
mit n ∈ N ∪ {∞}
Definition Eine Massenfunktion bzw. Wahrscheinlichkeitsverteilung von X unter dem Maß P gibt die
Wahrscheinlichkeiten für die einzelnen Werte x an.
pX (xi ) := p(xi ) = P[X = xi ]
Beispiel Gegeben ist eine Urne mit 20 nummerierten Kugeln. Es wird dreimal ohne Zurücklegen gezogen.
Wie groß ist die Wahrscheinlichkeit, dass eine Kugel mit einer Nummer ≥ 17 gezogen wird?
Lösung
Sei Ω = {(ω1 , ω2 , ω3 ) | ∀i ∈ {1, 2, 3} : ωi = 1, . . . , 20} und sei X(ω) = max ωi . Gesucht wird
1≤i≤3
=ω
P[X ≥ 17] =
20
X
P[X = i]
i=17
Für P[X = 20] finden wir die Wahrscheinlichkeit durch die Gegenwahrscheinlichkeit.
P[X = 20] = 1 −
Es gibt
20
3
19 18 17
3
·
·
=
20 19 18
20
mögliche Realisierungen. Von diesen Realisierungen sind nur
19
3
2
P[X = 20] = 20 =
20
3
19
2
günstig.
Analog gilt für i = 17, 18, 19 die folgende Wahrscheinlichkeit.
i−1
P[X = i] =
2
20
3
für i = 17, 18, 19
Damit lässt sich die gesuchte Wahrscheinlichkeit wie folgt ermitteln.
20
i−1
X
2
≈ 0,508
P[X ≥ 17] =
20
i=17
3
Beispiel Wir werfen ein Münze solange bis Kopf erscheint, maximal jedoch nur n-mal. Kopf erscheint mit
einer Wahrscheinlichkeit von p ∈ (0, 1). Sei X die Anzahl der Würfe. Gesucht ist die Wahrscheinlichkeit
für m-mal Kopf für m = 1, . . . , n.
21
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Gesucht ist die Wahrscheinlichkeit P[X = m] für m = 1, . . . , n.
P[X = 1] = P({K}) = p
P[X = 2] = P({Z, K}) = (1 − p) · p
P[X = k] =
···
= (1 − p)k−1 · p
P[X = n − 1] =
···
= (1 − p)n−2 · p
P[X = n] =
···
= (1 − p)n−1 · p
Damit gilt für die Vereinigung der einzelnen Wahrscheinlichkeiten Folgendes.
" n
#
n
n−1
[
X
X
P
{X = i} =
P[X = i] =
p · (1 − p)i−1 + (1 − p)n−1
i=1
i=1
i=1
Die geometrische Reihe besitzt für α ∈ (0, 1) den folgenden Grenzwert.
∞
X
αi =
i=0
1
1−α
Unter Nutzung dieser Tatsache ergibt sich damit Folgendes.
n−1
X
∞
X
i=1
i=0
(1 − p)i−1 =
=
(1 − p)i −
∞
X
(1 − p)i−1 =
i=n
n−1
∞
X
1
− (1 − p)n−1
(1 − p)i
1 − (1 − p)
i=0
1 (1 − p)
−
p
p
Also gilt für die Vereinigung der Ereignisse der folgende Ausdruck.
" n
#
[
1 (1 − p)n−1
P
{X = i} = p
−
+ (1 − p)n−1 = 1
p
p
i=1
Beispiel Es gebe N verschiedene Arten von Coupons, die wir (unabhängig von den vorhergehenden
Versuchen) beliebig oft erhalten. Bei jedem Versuch erhalten wir mit gleicher Wahrscheinlichkeit einen
der N Coupons. Sei T die Anzahl von Coupons, die nötig sind, bis man einen kompletten Satz aller N
besitzt. Gesucht wird die Verteilung von T , d. h. P[T = n] für n ≥ 1.
Lösung
Es ist einfacher P[T > n] zu berechnen und dann die folgende Formel zu nutzen.
P[T = n] = P[T > n − 1] − P[T > n]
Sei dazu Aj das Ereignis, dass man keinen j-ten Coupon in den ersten n Zügen bekommt. Dann gilt


N
N
[
X
X


P[T > n] = P
Aj =
P(Aj ) −
P(Aj1 ∩ Aj2 ) + . . . + (−1)N +1 · P(A1 ∩ . . . ∩ AN )
j=1
j=1
j1 <j2
Nun gilt für für j = 1, . . . , N Folgendes.
P(Aj ) =
N −1
N
n
Allgemeiner gilt für 1 ≤ j1 < . . . < jk ≤ N Folgendes.
P(Aj1 ∩ . . . ∩ Ajk ) =
N −k
N
n
Damit gilt für n ∈ N für die Wahrscheinlichkeit von {T > n} Folgendes.
n n
n
N −1
N
N −2
0
N +1 N
−
+ . . . + (−1)
P[T > n] = N ·
N
2
N
N N
n
N
−1
X
N −i
i+1 N
=
(−1)
i
N
i=1
22
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
4.2 Erwartungswert und Varianz diskreter Zufallsvariablen
Definition Es sei X eine diskrete Zufallsvariable. Der Erwartungswert von X ist definiert durch
X
E(X) :=
x · pX (x),
x:p(x)>0
falls diese Reihe konvergiert, das heißt falls folgende Bedingung gilt.
X
|x| · pX (x) < ∞
x:p(x)>0
Der Erwartungswert beschreibt das gewichtete Mittel der Realisierungen.
Beispiel Für ein Ereignis A sei die Indikatorfunktion von A durch 1A : Ω → R mit
(
1, falls ω ∈ A
ω 7→ 1A (ω) =
0, sonst
gegeben. Für diese Indikatorfunktion gelten folgende Wahrscheinlichkeiten.
p1A (0) = P(AC ) = 1 − P(A)
und p1A (1) = P(A)
Der Erwartungswert ist damit gegeben durch
E(1A ) = 0 · (1 − P(A)) + 1 · P(A) = P(A)
Proposition Sei X eine diskrete Zufallsvariable mit den Werten {xi }i∈N und der Massenfunktion pX .
Sei g : R → R eine reellwertige Funktion. Dann gilt für den Erwartungswert von g(X) Folgendes.
E(g(X)) =
∞
X
g(xi ) · pX (xi )
i=1
Die Bedingung dafür ist, dass die Reihe konvergiert, sprich Folgendes erfüllt ist.
∞
X
|g(xi )| · pX (xi ) < ∞
i=1
Beweis Sei g : R → R, so nimmt y = g(X) : Ω → R die Wert {yj }j = {g(xi )}i mit i, j ≥ 1 an.
X
X X
X X
g(xi ) · p(xi ) =
g(xi ) · p(xi ) =
yj · p(xi )
i
j
=
X
j
i:g(xi )=yj
yj
j
X
p(xi ) =
X
i:g(xi )=yj
yj · P[g(X) = yj ] = E(g(X))
j
i:g(xi )=yj
Lemma Seien a, b ∈ R, sowie X und Y diskrete Zufallsvariablen mit den Massenfunktionen pX und pY
und existierenden Erwartungswerten. Dann gelten die folgenden Rechenregeln.
(i) E(aX + b) = a · E(X) + b
(Lineare Transformation)
(ii) E(X + Y ) = E(X) + E(Y )
(Additivität)
Beweis Es gelten die Voraussetzungen des obigen Lemmas.
(i) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet.
X
X
X
E(aX + b) =
(ax + b) · p(x) = a
x · p(x) + b
p(x) = a · E(x) + b
x:p(x)>0
x:p(x)>0
x:p(x)>0
(ii) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet.
X
X
X
E(X + Y ) =
(x + y) · p(x) =
x · p(x) +
y · p(x) = E(X) + E(Y )
x:p(x)>0
x:p(x)>0
23
x:p(x)>0
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Definition Sei X eine diskrete Zufallsvariable mit der Verteilung pX und sei g(X) = X n . Dann heißt
X
E(g(X)) = E(X n ) =
xn · pX (x) mit n ∈ N
x:p(x)>0
das n-te Moment von X, falls folgende Bedingung erfüllt ist.
X
|x|n · pX (x) < ∞
x:p(x)>0
Definition Sei X eine diskrete Zufallsvariable und g(X) = (X − E(X))2 . Dann heißt
E(g(X)) = E[(X − E(X))2 ] =: Var(X)
die Varianz von X. Diese beschreibt die mittlere quadratische Abweichung vom Erwartungswert.
Lemma Seien a, b ∈ R und X eine diskrete Zufallsvariable mit existierender Varianz. Dann gelten die
folgenden Rechenregeln.
(i) Var(aX + b) = a2 Var(X)
(Lineare Transformation)
(ii) Var(−X) = Var(X)
(iii) Var(X) = E(X 2 ) − (E(X))2 ≥ 0
(Verschiebungssatz)
Beweis Seien a, b ∈ R und X eine diskrete Zufallsvariablen mit existierender Varianz.
(i) Die lineare Transformation ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln für den Erwartungswert.
Var(aX + b) = E[(aX + b − E(aX + b))2 ] = E[(aX + b − aE(X) − b)2 ]
= a2 E[(X − E(X))2 ] = a2 Var(X)
(ii) Diese Rechenregel folgt direkt aus der Regel (i) als Spezialfall mit a = −1 und b = 0.
(iii) Der Verschiebungssatz ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln
für den Erwartungswert.
Var(X) = E[(X − E(X))2 ]
= E[X 2 − 2XE(X) + E(X)2 ]
= E(X 2 ) − E(2XE(X)) + E(X)2
= E(X 2 ) − 2E(X)E(X) + E(X)2
= E(X 2 ) − E(X)2
Lemma Nach dem Verschiebungssatz gilt E(X 2 ) ≥ E(X)2 .
Beweis Da Var(X) ≥ 0 gilt, sprich E(X 2 )−(E(X))2 ≥ 0 gilt, folgt direkt per Umstellen das zu Zeigende.
E(X 2 ) ≥ E(X)2
Satz Sei X eine Zufallsvariable und g : R → R konvex, dann gilt die Jensensche Ungleichung.
E(g(X)) ≥ g(E(X))
Beweis Sei t die Tangente an die Kurve der Funktion g im Punkt x0 . Dann gilt folgende Ungleichung.
g(x) ≥ t(x)
mit
t(x) = g 0 (x0 ) · (x − x0 ) + g(x0 )
Setzt man nun x = X und x0 = E(X), so erhält man Folgendes.
g(X) ≥ g(E(X)) + g 0 (E(X)) · (X − E(X))
Daraus lässt sich wiederum Folgendes schlussfolgern.
E(g(X)) ≥ E(g(E(X))) + g 0 (E(X)) · (X − E(X))
= g(E(X)) + g 0 (E(X)) · E(X − E(X)) = g(E(X))
=0
24
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Definition Sei X eine diskrete Zufallsvariable und Var(X) ihre Varianz. Dann heißt
p
p
σ(X) = Var(X) = E[(X − E(X))2 ]
die Standardabweichung von X. Sie ist ein Maß für die Streuung der Werte einer Zufallsvariablen X um
ihren Erwartungswert E(X).
Beispiel Ein Produkt, welches saisonabhängig verkauft wird, bringt einen Nettogewinn von b e für jede
verkaufte Einheit und einen Nettoverlust von l e für jede nicht verkaufte Einheit am Saisonende ein. Die
Anzahl der Einheiten des Produktes, welches in einem bestimmten Kaufhaus zu jeder Jahreszeit bestellt
werden kann, ist eine Zufallsvariable X mit der Massenfunktion p. Mit wie viele Einheiten sollte der
Laden sich eindecken, wenn das Geschäft dieses Produkt im Voraus bestellen muss, um den erwarteten
Gewinn zu maximieren?
Lösung
Sei s > 0 die Lagerhaltung. Der Profit kann dann wie folgt ausgedrückt werden.
(
bX − (s − X) · l, falls X ≤ s
P (s) =
b · s,
falls X > s
Es soll s 7→ E(P (s)) maximiert werden. Dazu berechnet man zunächst den erwarteten Profit.
s
∞
X
X
E(P (s)) =
(b · i − (s − i) · l) · p(i) +
b · s · p(i)
i=0
i=s+1
= (b + l)
= (b + l)
s
X
i=0
s
X
i · p(i) − sl
s
X
p(i) + bs 1 −
p(i)
s
X
p(i) + bs
i=0
i=0
= b · s + (b + l)
!
i=0
i=0
i · p(i) − (b + l)s
s
X
s
X
(i − s) · p(i)
i=0
Um den optimalen Wert von s zu bestimmen, wird untersucht, was mit dem Gewinn passiert, wenn man
s um eine Einheit erhöht.
"s+1
#
s
X
X
E(P (s + 1)) − E(P (s)) = b + (b + l)
(i − (s + 1)) · p(i) −
(i − s) · p(i)
i=0
= b − (b + l)
s
X
i=0
p(i)
i=0
Folglich ist es besser s + 1 Einheiten als s Einheiten zu führen.
E(P (s + 1)) − E(P (s)) ≥ 0
⇔
s
X
i=0
p(i) <
b
b+l
Da die linke Seite der zweiten Ungleichung wachsend mit s ist während die rechte Seite der zweiten
Ungleichung konstant ist, wird die Ungleichung für alle s ≤ s∗ erfüllt, wobei s∗ wie folgt gegeben ist.
(
)
s
X
b
∗
s = max s ∈ N |
p(i) <
b+l
i=0
4.3 Spezielle diskrete Verteilungen
4.3.1 Bernoulli-Verteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit den Einzelwahrscheinlichkeiten
P(E) = P[X = 1] = p
und P(E C ) = P[X = 0] = 1 − p = q
heißt Bernoulli-verteilt mit dem Parameter p.
25
mit
q =1−p
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X eine Bernoulli-verteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) = p
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) = p
Beweis Sei X eine Bernoulli-verteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
X
E(X) =
x · p(x) = 0 · p(0) + 1 · p(1) = 0 · (1 − p) + 1 · p = p
x:p(x)>0
(ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet.
X
x2 · p(x) = 02 · p(0) + 12 · p(1) = 0 · (1 − p) + 1 · p = p
E(X 2 ) =
x:p(x)>0
Lemma Die Varianz einer Bernoulli-verteilten Zufallsvariable X ist gegeben durch
Var(X) = p · (1 − p) = p · q
mit
q =1−p
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
Var(X) = E X 2 − E(X)2 = p − p2 = p · (1 − p) = p · q mit q = 1 − p
Bemerkung Die Bernoulli-Verteilung benutzt man zur Beschreibung von zufälligen Ereignissen, bei
denen es nur zwei mögliche Versuchsausgänge gibt. Einer der Versuchsausgänge wird meistens mit Erfolg
bezeichnet und der komplementäre Versuchsausgang mit Misserfolg.
Bemerkung Die Bernoulli-Verteilung ist ein Spezialfall der Binomialverteilung für n = 1. Die Summe
von unabhängigen Bernoulli-verteilten Zufallsvariablen mit identischem Parameter p genügt der Binomialverteilung. Dazu seien für i = 1, . . . , n
(
1, Eintritt von E im i-ten Versuch
Xi =
0, sonst
und sei X die Anzahl der Erfolge in n unabhängigen Versuchen.
X=
n
X
Xi
i=1
4.3.2 Binomialverteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
n
pX (k) = P[X = k] =
· pk · (1 − p)n−k ,
k
heißt binomialverteilt mit den Parametern n ≥ 2 und p. In diesem Fall schreibt man auch
X ∼ B(n, p)
Lemma Sei X ∼ B(n, p) eine binomialverteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) = n · p
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) = n · p · [(n − 1) · p + 1]
26
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Sei X ∼ B(n, p) eine binomialverteilte Zufallsvariable. Um nun das Lemma zu beweisen,
benötigt man die folgende Umformung des Binomialkoeffizienten.
n
n−1
i·
=n·
(∗)
i
i−1
Im Folgenden kann somit das k-te Moment berechnet werden.
n
X
n
E(X ) =
i ·
· pi · (1 − p)n−i
i
i=0
n
X
n
k−1
=
i
· i·
· p · pi−1 · (1 − p)n−i + 0
i
i=1
n
n−1
(∗) X k−1
=
i
· n·
· p · pi−1 · (1 − p)n−i
i
−
1
i=1
n
X
n−1
= (n · p)
ik−1 ·
· pi−1 · (1 − p)n−i
i
−
1
i=1
n−1
X
n−1
= (n · p)
(j + 1)k−1 ·
· pj · (1 − p)n−1−j
j
j=0
k
k
= n · p · E[(Y + 1)k−1 ]
mit
mit
j =i−1
Y ∼ B(n − 1, p)
Damit kann der Erwartungswert und das zweite Moment direkt gezeigt werden.
(i) E(X) = n · p · E[(Y + 1)1−1 ] = n · p
(ii) E(X 2 ) = n · p · E[(Y + 1)2−1 ] = n · p · [(n − 1) · p + 1]
Lemma Die Varianz einer binomialverteilten Zufallsvariable X ∼ B(n, p) ist gegeben durch
Var(X) = n · p · (1 − p)
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
Var(X) = E(X 2 ) − E(X)2 = (n · p · (p · (n − 1) + 1)) − (n · p)2 = n · p · (1 − p)
Proposition
Sei X ∼ B(n, p) eine binomialverteilte Zufallsvariable. Dann ist die Massenfunktion pX (k)
(i) monoton wachsend für k ≤ [(n + 1) · p].
(ii) monoton fallend für k ≥ [(n + 1) · p].
Beweis Diese Proposition wird bewiesen indem man P[X = k]/P[X = k − 1] betrachtet und bestimmt
für welche Werte von k der Term größer oder kleiner 1 ist.
n
· pk · (1 − p)n−k
P[X = k]
k
=
n
P[X = k − 1]
· pk−1 · (1 − p)n−k+1
k−1
n!
· pk · (1 − p)n−k
k! · (n − k)!
=
n!
· pk−1 · (1 − p)n−k+1
(k − 1)! · (n − k + 1)!
(n − k + 1) · p
=
k · (1 − p)
Folglich gilt P[X = k] ≥ P[X = k − 1], falls und auch nur falls Folgendes gilt.
(n − k + 1) · p ≥ k · (1 − p)
27
⇔
k ≤ (n + 1) · p
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Bemerkung Die Binomialverteilung beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen
und unabhängigen Versuchen, die jeweils genau zwei mögliche Ergebnisse haben.
4.3.3 Poisson-Verteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
λk −λ
·e ,
k!
heißt Poisson-verteilt mit dem Parameter λ > 0. In diesem Fall schreibt man auch
pX (k) = P[X = k] =
X ∼ π(λ)
Lemma Sei X ∼ π(λ) eine Poisson-verteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) = λ
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) = λ2 + λ
Beweis Sei X ∼ π(λ) eine Poisson-verteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
E(X) =
∞
X
k·
k=0
∞
∞
k=1
k=0
X
X λk
λk−1
λk −λ
λ·
· e = e−λ ·
= λ · e−λ ·
= λ · e−λ · eλ = λ
k!
(k − 1)!
k!
(ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet.
E(X 2 ) =
∞
X
k=0
k2 ·
∞
∞
k=0
k=2
X
X
λk
λk
λk −λ
(k · (k − 1) + k) ·
k · (k − 1) ·
· e = e−λ ·
= e−λ ·
+λ
k!
k!
k!
∞
∞
X
X
λk−2
λk
= λ2 · e−λ ·
+ λ = λ2 · e−λ ·
+ λ = λ2 · e−λ · eλ + λ = λ2 + λ
(k − 2)!
k!
k=2
k=0
Lemma Die Varianz einer Poisson-verteilten Zufallsvariable X ∼ π(λ) ist gegeben durch
Var(X) = λ
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
Var(X) = E(X 2 ) − E(X)2 = (λ2 + λ) − (λ)2 = λ
Bemerkung Mit der Poisson-Verteilung kann die Anzahl von Ereignissen modelliert werden, die mit
konstanter Rate und unabhängig voneinander in einem festen Zeitintervall oder räumlichen Gebiet eintreten. Sie sagt ebenso wie die Binomialverteilung das zu erwartende Ergebnis einer Serie von BernoulliExperimenten voraus. Während der Beobachtung, die in beliebig viele Augenblicke, sprich BernoulliExperimente, unterteilt werden kann, geschieht fast immer nichts und hin und wieder etwas. Die PoissonVerteilung wird deshalb manchmal als die Verteilung der seltenen Ereignisse bezeichnet (Gesetz der
kleinen Zahlen).
Bemerkung Die Poisson-Verteilung ist ein Grenzfall der Binomialverteilung. Für eine Folge (Xn )n∈N
binomialverteilter Zufallsvariablen zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt
n
λk −λ
k
n−k
lim pXn (k) = lim
· pn · (1 − pn )
=
·e
für k ≥ 0,
n→∞
n→∞
k!
k
sofern das Produkt n · pn gegen einen endlichen Grenzwert λ konvergiert, sprich Folgendes gilt.
lim (n · pn ) = λ
n→∞
Die Poisson-Verteilung findet als Approximation der Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind.
28
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
4.3.4 Geometrische Verteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
pX (n) = P[X = n] = (1 − p)n−1 · p,
heißt geometrisch verteilt mit dem Parameter p. In diesem Fall schreibt man auch
X ∼ G(p)
Lemma Sei X ∼ G(p) eine geometrisch verteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) =
1
p
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) =
2−p
p2
Beweis Sei X ∼ G(p) eine geometrisch verteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, benötigt man die Kenntnis über den folgenden Grenzwert.
∞
X
k · qk =
k=0
q
(1 − q)2
Wendet man nun die Definition des Erwartungswertes an, so erhält man Folgendes.
E(X) =
∞
X
∞
k · (1 − p)k−1 · p =
k=1
p
1−p
p X
k · (1 − p)k =
·
=p
1−p
1 − p (1 − (1 − p))2
k=1
(ii) Um das zweite Moment zu beweisen, benötigt man die Kenntnis über den folgenden Grenzwert.
∞
X
k2 · qk =
k=0
q · (1 + q)
(1 − q)3
Wendet man nun die Definition des Erwartungswertes an, so erhält man Folgendes.
∞
∞
X
p X 2
p
(1 − p) · (2 − p)
2−p
E(X 2 ) =
k 2 · (1 − p)k−1 · p =
k · (1 − p)k =
·
=
1−p
1−p
(1 − (1 − p))3
p2
k=1
k=1
Lemma Die Varianz einer geometrisch verteilten Zufallsvariable X ∼ G(p) ist gegeben durch
Var(X) =
1−p
p2
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
2
2−p
1
2−p
1
1−p
2
2
Var(X) = E(X ) − E(X) =
−
=
− 2 =
p2
p
p2
p
p2
Bemerkung Die geometrische Verteilung beschreibt die Wartezeit auf den ersten Erfolg bei der unabhängigen Wiederholung eines Experiments.
4.3.5 Negative Binomialverteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
n−1
pX (n) = P[X = n] =
· pr · (1 − p)n−r ,
r−1
heißt negativ binomialverteilt mit den Parametern r und p. In diesem Fall schreibt man auch
X ∼ N B(r, p)
29
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X ∼ N B(r, p) eine negativ binomialverteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) =
r
p
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
r
r+1
2
E(X ) = ·
−1
p
p
Beweis Sei X ∼ N B(r, p) eine negativ binomialverteilte Zufallsvariable. Um nun das Lemma zu beweisen, benötigt man die folgende Umformung des Binomialkoeffizienten.
n−1
n
n·
=r·
(∗)
r−1
r
Im Folgenden kann somit das k-te Moment berechnet werden.
∞
X
n−1
E(X ) =
n ·
· pr · (1 − p)n−r
r−1
n=r
r+1
∞
X
n−1
p
k−1
· (1 − p)n−r
=
n
· n·
·
p
r
−
1
n=r
r+1
∞
n
p
(∗) X k−1
=
n
· r·
·
· (1 − p)n−r
r
p
n=r
∞
n
r X k−1
n
·
· pr+1 · (1 − p)n−r
=
p n=r
r
∞
m−1
r X
(m − 1)k−1 ·
· pr+1 · (1 − p)m−(r+1)
=
r
p m=r+1
r
= · E[(Y − 1)k−1 ] mit Y ∼ N B(r + 1, p)
p
k
k
mit
m=n+1
Damit kann der Erwartungswert und das zweite Moment direkt gezeigt werden.
(i) E(X) =
r
r
· E[(Y − 1)1−1 ] =
p
p
r
r
(ii) E(X ) = · E[(Y − 1)2−1 ] = ·
p
p
2
r+1
−1
p
Lemma Die Varianz einer negativ binomialverteilten Zufallsvariable X ∼ N B(r, p) ist gegeben durch
Var(X) =
r · (1 − p)
p
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
2−p
Var(X) = E(X ) − E(X) =
−
p2
2
2
2
1
2−p
1
1−p
=
− 2 =
p
p2
p
p2
Bemerkung Die negative Binomialverteilung beschreibt die Anzahl der Versuche, die erforderlich sind,
um in einem Bernoulli-Prozess eine vorgegebene Anzahl von Erfolgen zu erzielen.
30
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
4.3.6 Hypergeometrische Verteilung
Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch
m
N −m
·
i
n−i
,
pX (i) = P[X = i] =
N
n
heißt hypergeometrisch verteilt mit den Parametern n, N und m. In diesem Fall schreibt man auch
X ∼ h(n, N, m)
Lemma Sei X ∼ h(n, N, m) eine hypergeometrisch verteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
m
E(X) = n ·
N
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
m
m−1
E(X 2 ) = n ·
· (n − 1) ·
+1
N
N −1
Beweis Sei X ∼ h(n, N, m) eine hypergeometrisch verteilte Zufallsvariable. Um nun das Lemma zu
beweisen, benötigt man die folgenden Umformungen des Binomialkoeffizienten.
m
m−1
i·
=m·
(∗)
i
i−1
N
N −1
n·
=N·
(∗∗)
n
n−1
Im Folgenden kann somit das k-te Moment berechnet werden.
m
N −m
·
n
X
i
n−i
ik ·
E(X k ) =
N
i=0
n
m
N −m
i
·
·
n
X
i
n−i
=
ik−1 ·
1
N
i=1
· n·
n
n
m−1
N −m
m·
·
n
i−1
n−i
(∗) X k−1
= n
i
·
N
i=1
n·
n
m−1
N −m
·
n
X
i−1
n−i
(∗∗)
= n·m
ik−1 ·
N −1
i=1
N·
n−1
m−1
N −m
·
n
m X k−1
i−1
n−i
=n·
i
·
N −1
N i=1
n−1
m−1
N −m
·
n−1
mX
j
n−1−j
(j + 1)k−1 ·
mit j = i − 1
=n·
N −1
N j=0
n−1
m
=n·
· E[(Y + 1)k−1 ] mit Y ∼ h(n − 1, N − 1, m − 1)
N
Damit kann der Erwartungswert und das zweite Moment direkt gezeigt werden.
31
Prof. Dr. Ulrich Horst
(i) E(X) = n ·
Stochastik
WS 2013/2014
m
m
· E[(Y + 1)1−1 ] = n ·
N
N
m
m
m−1
2−1
(ii) E(X ) = n ·
· E[(Y + 1) ] = n ·
· (n − 1) ·
+1
N
N
N −1
2
Lemma Die Varianz einer hypergeometrisch verteilten Zufallsvariable X ∼ h(n, N, m) ist gegeben durch
Var(X) = n ·
m m N − n
·
· 1−
N
N
N −1
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
m−1
m 2
m
Var(X) = E(X 2 ) − E(X)2 = n ·
· (n − 1) ·
+1 − n·
N
N −1
N
m
m−1
m
=n·
(n − 1) ·
+1−n·
N
N −1
N
m m·n−n−m+1 N −1
m
=n·
+
−n·
N
N −1
N −1
N
m m · n − n − m + 1 N · (N − 1) − m · n · (N − 1)
=n·
+
N
N −1
N · (N − 1)
m m · n − n − m + 1 (N − 1) · (N − m · n)
=n·
+
N
N −1
N · (N − 1)
m·n
(N − 1) · (N − m · n)
=
m·n−n−m+1+
N · (N − 1)
N
m·n
N ·m·n−N ·n−N ·m+N
N2 − N · m · n − N + m · n
=
+
N · (N − 1)
N
N
2
m·n
N −N ·m−N ·n+m·n
=
N · (N − 1)
N
m·n
(N − n) · (N − m)
=
N · (N − 1)
N
m N − n (N − m)
=n·
·
N N −1
N
m m N − n
=n·
· 1−
·
N
N
N −1
Bemerkung Es wird von einer zweigeteilten Grundgesamtheit ausgegangen. Dieser Gesamtheit werden
in einer Stichprobe zufällig n Elemente nacheinander ohne Zurücklegen entnommen. Die hypergeometrische Verteilung gibt dann Auskunft darüber, mit welcher Wahrscheinlichkeit in der Stichprobe eine
bestimmte Anzahl von Elementen vorkommt, die die gewünschte Eigenschaft haben. Bedeutung kommt
dieser Verteilung daher etwa bei Qualitätskontrollen zu.
Bemerkung Die hypergeometrische Verteilung wird modellhaft dem Urnenmodell ohne Zurücklegen zugeordnet (siehe auch Kombination ohne Wiederholung). Man betrachtet speziell in diesem Zusammenhang
eine Urne mit zwei Sorten Kugeln. Es werden n Kugeln ohne Zurücklegen entnommen. Die Zufallsvariable
X ist die Zahl der Kugeln der ersten Sorte in dieser Stichprobe.
Bemerkung Die hypergeometrische Verteilung beschreibt also die Wahrscheinlichkeit dafür, dass bei
N gegebenen Elementen, von denen m die gewünschte Eigenschaft besitzen, beim Herausgreifen von n
Probestücken genau i Treffer erzielt werden, d. h. die Wahrscheinlichkeit für X = i Erfolge in n Versuchen.
32
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
5 Absolutstetige Zufallsvariablen
5.1 Approximation der Binomialverteilung
Erinnerung Sei (Xn )n∈N ∼ B(n, p) eine Folge binomialverteilter Zufallsvariablen. Dann gilt für den
Erwartungswert und für die Varianz dieser Folge von Zufallsvariablen Folgendes.
E(Xn ) = n · pn
und
Var(Xn ) = n · pn · (1 − pn )
Gilt n·pn → λ < ∞, so kann die Binomialverteilung für große n durch die Poissonverteilung approximiert
werden, d. h. für kleine p approximieren wir B(n, p) durch π(λ). Es gilt also folgende Annäherung.
B(n, p) ≈ π(λ)
Bemerkung
für n → ∞ und p → 0
Sei (Xn )n∈N ∼ B(n, p) eine Folge von Zufallsvariablen. Ist pn ≡ p, so gilt Folgendes.
E(Xn ) = n · p % ∞ und
Var(Xn ) = n · p · (1 − p) % ∞
In diesem Fall müssen wir Xn standardisieren.
Xn − n · p
Xn − E(Xn )
=p
Xn∗ := p
Var(Xn )
n · p · (1 − p)
Das Ziel ist es nun, in geeigneter Weise die folgende Wahrscheinlichkeit anzunähern.
"
#
k
−
n
·
p
P[Xn = k] = P Xn∗ = p
=: pn (k)
n · p · (1 − p)
Dazu betrachten wir nun den Fall p = 1/2.
1
Xn ∼ B n,
2
Satz von de Moivre-Laplace Sei (Xn )n∈N ∼ B(n, p) eine Folge von Zufallsvariablen. Sei c > 0 und sei
1
1
ϕ(x) = √ · exp − · x2
2
2π
Sei xn (k) für 0 ≤ k ≤ n und n ∈ N wie folgt definiert.
k − n/2
xn (k) := p
n/4
Dann gilt im Folgenden der Satz von de Moivre-Laplace.
r
pn (k)
n
lim
max ·
− 1 = 0
n→∞ k:|xn (k)|<c ϕ(xn (k))
4
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Bemerkung Als unmittelbare Folgerung erhalten wir, dass die Verteilungen der standardisierten Variablen Xn∗ mit n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik
zentrale Gauß-Verteilung - die wir später genauer betrachten.
Korollar Gegeben seien die Voraussetzungen des obigen Satzes. Dann gilt Folgendes.
lim P [a ≤
n→∞
Xn∗
Zb
≤ b] =
ϕ(x) dx
für a, b ∈ R
a
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
33
mit a < b
Prof. Dr. Ulrich Horst
Bemerkung
Stochastik
WS 2013/2014
Für zwei Folgen (an )n∈N und (bn )n∈N schreibt man an ∼ bn , falls Folgendes gilt.
lim
n→∞
an
=1
bn
Lemma Große Fakultäten können näherungsweise wie folgt berechnet werden.
n n
√
n! ∼ 2πn
e
(Stirling-Formel)
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
5.2 Absolutstetige Zufallsvariablen
Definition Eine Zufallsvariable X heißt absolutstetig verteilt mit der Dichte f , falls eine integrierbare
Funktion f : R → R existiert, die folgende Eigenschaften für alle Borel-messbaren Mengen B erfüllt.
Z
Z
Z
f (x) dx = 1 und P[X ∈ B] =
f (x) dx =
1B (x) · f (x) dx
B
R
Bemerkung
R
Die Dichte wird oft auch PDF (probability density function) genannt.
Definition Sei X absolutstetig verteilte Zufallsvariable mit der Dichte f . Dann heißt die Funktion
Zx
F (x) = P[X ≤ x] =
f (y) dy
−∞
die (kumulative) Verteilungsfunktion.
Bemerkung
Die Verteilungsfunktion wird oft auch CDF (cumulative distribution function) genannt.
Bemerkung
Für eine absolutstetige Zufallsvariable X mit Dichte f und B = [a, b] gilt Folgendes.
Zb
P[X ∈ [a, b]] = P[a ≤ X ≤ b] =
f (x) dx
a
Bemerkung
Für eine absolutstetige Zufallsvariable X mit Dichte f und B = [a, a] gilt Folgendes.
Za
P[X ∈ [a, a]] = P[X = a] =
f (x) dx = 0
a
Da jeder feste Wert also Null ist, gilt damit für die Verteilungsfunktion F Folgendes.
F (x) = P[X ≤ x] = P[X < x]
Bemerkung
Für eine absolutstetige Zufallsvariable X mit Dichte f und Verteilungsfunktion F gilt
Z∞
1 − F (x) =
f (y) dy
x
Bemerkung
Ist die Dichte f stetig, so gilt der Hauptsatz der Integral- und Differentialrechnung.
F0 = f
Beispiel Sei X eine absolutstetige Zufallsvariable mit der Dichte
(
c · (4x − 2x2 ), falls 0 < x < 2
f (x) =
0,
sonst
Im Folgenden soll der Parameter c und P[X > 1] bestimmt werden.
34
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Um den Parameter c zu bestimmen, muss die folgende Eigenschaft der Dichte genutzt werden.
Z
f (x) dx = 1
R
Damit gilt für die Dichte f der Zufallsvariablen X Folgendes.
Z2
Z2
2
c · (4x − 2x ) dx = c
1=
0
0
2
2
8
(4x − 2x2 ) dx = c 2x2 − x3 = c ·
3
3
0
⇔
c=
3
8
Da der Parameter c bestimmt wurde, kann nun auch die Wahrscheinlichkeit P[X > 1] bestimmt werden.
Z2
P[X > 1] =
1
2
3
3
2
1
(4x − 2x2 ) dx =
2x2 − x3 =
8
8
3
2
1
Beispiel Die Dauer (in Stunden) bevor ein Computer ausfällt sei eine Zufallsvariable mit der Dichte

λ · exp − 1 x , falls x ≥ 0
100
f (x) =

0,
sonst
(i) Wie groß ist die Wahrscheinlichkeit, dass der Computer zwischen 50 und 100 Stunden funktioniert.
(ii) Wie groß ist die Wahrscheinlichkeit, dass der Computer weniger als 100 Stunden funktioniert?
Lösung
(i) Zunächst wird der Parameter λ bestimmt, indem die Eigenschaften der Dichte genutzt werden.
∞
Z∞
Z∞
1
1
1
x dx = λ exp −
x dx = λ −100 · exp −
x
1 = λ · exp −
100
100
100
0
0
0
1
100
Damit gilt dann für die gesuchte Wahrscheinlichkeit Folgendes.
= λ [0 − (−100)] = 100 · λ
⇔
λ=
100
Z100
1
1
1
exp −
x dx =
−100 · exp −
x
100
100
100
50
50
= −e−1 − −e−1/2 = e−1/2 − e−1 ≈ 0,239
1
P[50 ≤ x ≤ 100] =
100
(ii) Um die gesuchte Wahrscheinlichkeit zu bestimmen, muss das folgende Integral berechnet werden.
1
P[X < 100] =
100
100
Z100
1
1
1
exp −
x dx =
−100 · exp −
x
= 1 − e−1 ≈ 0,632
100
100
100
0
0
5.3 Erwartungswert und Varianz absolutstetiger Zufallsvariablen
Definition Sei X : Ω → R eine absolutstetige Zufallsvariable mit der Dichtefunktion f . Der Erwartungswert von X ist dann wie folgt definiert.
Z
Z
E(X) =
x · f (x) dx, falls
|x| · f (x) dx < ∞
R
R
Beispiel Es sei X eine absolutstetige Zufallsvariable mit der Dichte f , gegeben durch
(
1, falls x ∈ [0, 1]
f (x) =
,
0, sonst
und es sei g(x) = exp(x). Dann gilt für den Erwartungswert von g(X) Folgendes.
X
Z1
Z1
g(x) · f (x) dx =
E[g(X)] = E[e ] =
0
0
35
1
ex · 1 dx = [ex ]0 = e1 − e0 = e − 1
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Kommt Erna zu ihrem Date s Minuten zu spät, kostet sie das c · s e, kommt sie s Minuten zu
früh kostet sie das k · s e. Die Reisezeit von Ernas Wohnung zum Treffpunkt ist absolutstetig verteilt mit
stetiger Dichte f . Wann muss Erna aufbrechen um ihre erwarteten Kosten zu minimieren.
Lösung Sei X die Reisezeit und t die Anzahl der Zeiteinheiten vom Aufbruchspunkt bis zur vereinbarten
Zeit. Dann ist das Kostenfunktional wie folgt gegeben.
(
c · (X − t), falls X ≥ t
Ct (X) =
k · (t − X), falls X ≤ t
Dann sind die erwarteten Kosten wie folgt zu berechnen.
Z∞
Ct (x) · f (x) dx =
E[Ct (X)] =
Z∞
Zt
0
t
0
Zt
=k·t
Z∞
Zt
f (x) dx − k
0
c · (x − t) · f (x) dx
k · (t − x) · f (x) dx +
x · f (x) dx + c
Z∞
x · f (x) dx − c · t
t
0
f (x) dx
t
Es gilt also die Funktion t 7→ E[Ct (X)] zu minimieren. Dazu betrachtet man die Ableitung nach t.
d
E[Ct (X)] = k
dt
Z∞
Zt
x · f (x) dx + k · t · f (t) − k · t · f (t) − c · t · f (t) − c
f (x) dx + c · t · f (t)
t
0
= k · F (t) − c · [1 − F (t)] = k · F (t) − c + c · F (t) = (k + c) · F (t) − c
Die kritischen Punkte der Funktion t 7→ E[Ct (X)] sind also bestimmt durch die Gleichung
0=
d
c
E[Ct (X)] = (k + c) · F (t) − c ⇔ F (t) =
dt
k+c
Dies liefert in der Tat ein Minimum, da die folgende Bedingung erfüllt ist.
d2
E[Ct (X)] = (k + c) · f (t) ≥ 0
dt2
Lemma Sei Y ≥ 0 eine Zufallsvariable. Dann lässt sich der Erwartungswert von Y wie folgt darstellen.
Z∞
E(Y ) =
P[Y > y] dy
0
Beweis Um dieses Lemma zu beweisen, benötigt man den Satz von Fubini (∗), welcher im Exkurs
zur mehrdimensionalen Differentiation und Integration genauer erläutert wird. Sei Y eine absolutstetige
Zufallsvariable mit der Dichte fY .


Z∞
Z∞ Z∞
Z∞ Z∞


P[Y > y] dy =
fY (x) dx dy =
1y<x (x, y) · f (x) dx dy
0
y
0
(∗)
Z∞ Z∞
=
0
0
0


Z∞ Z∞
dy  f (x) dx
1y<x (x, y) · f (x) dy dx = 
0
0
0
Z∞
x · f (x) dx = E(Y )
=
0
Proposition Sei X absolutstetig verteilt mit Dichte f . Sei g : R → R eine (messbare) Funktion, dann
gilt für den Erwartungswert von g(X) Folgendes.
Z
Z
E[g(X)] =
g(x) · f (x) dx, falls
|g(x)| · f (x) dx < ∞
R
R
n
n
Für die Funktion g(x) = x heißt der Erwartungswert E(X ) das n-te Moment (sofern existent).
36
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Um diese Proposition zu beweisen, verwendet man das zuvor gegebene Lemma.
Z∞
E[g(X)] =
Z∞ Z
P[g(X) > y] dy =
0
f (x) dx dy
x:g(x)>y
0
g(x)
Z
Z
=
Z
dy f (x) dx =
x:g(x)>y
0
g(x) · f (x) dx
x:g(x)>y
Lemma Seien a, b ∈ R, sowie X und Y absolutstetige Zufallsvariablen mit den Dichten fX und fY und
existierenden Erwartungswerten. Dann gelten die folgenden Rechenregeln.
(i) E(a · X + b) = a · E(X) + b
(Lineare Transformation)
(ii) E(X + Y ) = E(X) + E(Y )
(Additivität)
Beweis Es gelten die Voraussetzungen des obigen Lemmas.
(i) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet.
Z
Z
Z
E(a · X + b) = (a · x + b) · f (x) dx = a x · f (x) + b f (x) dx = a · E(X) + b
R
R
R
(ii) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet.
Z
Z
Z
E(X + Y ) = (x + y) · f (x) dx =
x · f (x) dy +
y · f (x) dx = E(X) + E(Y )
R
R
R
Definition Sei X : Ω → R eine absolutstetige Zufallsvariable mit der Dichtefunktion f . Die Varianz
dieser Zufallsvariablen ist dann wie folgt definiert.
Var(X) = E[(X − E(X))2 ]
Lemma Sei a ∈ R und X eine absolutstetige Zufallsvariable mit der Dichtefunktion f und existierender
Varianz. Dann gelten die folgenden Rechenregeln.
(i) Var(aX + b) = a2 Var(X)
(Lineare Transformation)
(ii) Var(−X) = Var(X)
(iii) Var(X) = E(X 2 ) − (E(X))2
(Verschiebungssatz)
Beweis Seien a, b ∈ R und X eine diskrete Zufallsvariablen mit existierender Varianz.
(i) Die lineare Transformation ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln für den Erwartungswert.
Var(aX + b) = E[(aX + b − E(aX + b))2 ] = E[(aX + b − aE(X) − b)2 ]
= a2 E[(X − E(X))2 ] = a2 Var(X)
(ii) Diese Rechenregel folgt direkt aus der Regel (i) als Spezialfall mit a = −1 und b = 0.
(iii) Der Verschiebungssatz ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln
für den Erwartungswert.
Var(X) = E[(X − E(X))2 ]
= E[X 2 − 2 · X · E(X) + E(X)2 ]
= E(X 2 ) − E(2 · X · E(X)) + E(X)2
= E(X 2 ) − 2 · E(X) · E(X) + E(X)2
= E(X 2 ) − E(X)2
37
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Satz Sei X eine absolutstetige Zufallsvariable mit stetiger Dichte fX . Angenommen g : R → R sei eine
strikt monotone (steigende oder fallende), stetig differenzierbare Funktion mit g 0 (x) 6= 0 für alle x ∈ R.
Sei R = h(R) das Bild von h. Dann hat die Zufallsvariable Y = g(X) die folgende Dichte.
(
fX [g −1 (y)] · |(g −1 )0 (y)|, falls y ∈ R
fY (y) =
0,
sonst
Beweis Da die Funktion g strikt monoton ist, existiert die Umkehrfunktion g −1 . Nach dem Satz über
die Differenzierbarkeit von Umkehrfunktionen gilt damit Folgendes.
(g −1 )0 (y) =
1
g 0 (g −1 (y))
Angenommen g ist strikt monoton steigend, dann gilt für die Verteilungsfunktion von Y Folgendes.
FY (y) = P[Y ≤ y] = P[g(X) ≤ y] = P[X ≤ g −1 (y)] = FX (g −1 (y))
Da die Dichte fX stetig und g differenzierbar ist, gilt nach der Kettenregel.
(
fX (g −1 (y)) · (g −1 )0 (y), falls y ∈ R
fY (y) =
0,
sonst
Angenommen g ist strikt monoton fallend, dann gilt für die Verteilungsfunktion von Y Folgendes.
FY (y) = P[Y ≤ y] = P[g(X) ≤ y] = P[X ≥ g −1 (y)] = 1 − P[X ≤ g(y)] = 1 − FX (g(y))
Da die Dichte fX stetig und g differenzierbar ist, gilt nach der Kettenregel.
(
−fX [g −1 (y)] · (g −1 )0 (y), falls y ∈ R
fY (g(y)) =
0,
sonst
Betrachtet man nun beide Fälle gleichzeitig, so ergibt sich folgende Ableitung.
(
fX [g −1 (y)] |(g −1 )0 (y)|, falls y ∈ R
fY (g(y)) =
0,
sonst
5.4 Spezielle absolutstetige Verteilungen
5.4.1 Gleichverteilung
Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch

 1 , falls x ∈ [α, β]
f (x) = β − α
0,
sonst
heißt gleichverteilt auf [α, β] mit α, β ∈ R. In diesem Fall schreibt man auch
X ∼ U(α, β)
Für die Verteilungsfunktion einer gleichverteilten Zufallsvariable gilt Folgendes.

0,
falls x ≤ α


Zx
x − α
1
x−α
,
falls
α
<
x
<
β
F (x) =
mit
dy =
β
−
α

β
−
α
β
−α


α
1,
falls x ≥ β
Lemma Sei X ∼ U(α, β) eine gleichverteilte Zufallsvariable auf [α, β].
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) =
1
(β + α)
2
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) =
1 2
(β + αβ + α2 )
3
38
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Sei X ∼ U(α, β) eine gleichverteilte Zufallsvariable auf [α, β].
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
Zβ
E(X) =
1
1
x·
dx =
β−α
β−α
α
Zβ
x dx =
α
β
1
1 2
1 2 1 2
1
x
β − α
=
β−α 2
β−α 2
2
α
(β + α) · (β − α)
1
β 2 − α2
=
= (β + α)
=
2(β − α)
2(β − α)
2
(ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet.
2
Zβ
E(X ) =
1
1
x ·
dx =
β−α
β−α
2
α
Zβ
β
1
1 3
1 3 1 3
1
x dx =
x
β − α
=
β−α 3
β−α 3
3
α
2
α
1
β 3 − α3
= (β 2 + αβ + α2 )
=
3(β − α)
3
Lemma Die Varianz einer gleichverteilten Zufallsvariable X ∼ U(α, β) ist gegeben durch
Var(X) =
1
(β − α)2
12
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
2
1
1
Var(X) = E(X 2 ) − (E(X))2 = (β 2 + αβ + α2 ) − (β + α)
3
2
1
1
1
1 2
= (β + αβ + α2 ) − (β + α)2 = (β 2 + αβ + α2 ) − (β 2 + 2αβ + α2 )
3
4
3
4
4(β 2 + αβ + α2 ) − 3(β 2 + 2αβ + α2 )
β 2 − 2αβ + α2
1
=
=
=
(β − α)2
12
12
12
5.4.2 Normalverteilung
Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch
2 !
1 x−µ
1
exp −
,
f (x) = √
2
σ
σ 2π
heißt normalverteilt mit den Parametern µ ∈ R und σ ∈ R+ . In diesem Fall schreibt man auch
X ∼ N (µ, σ)
Für die Verteilungsfunktion einer normalverteilten Zufallsvariable gilt Folgendes.
2 !
Zx
1
1 t−µ
F (x) = √
exp −
dt
2
σ
σ 2π
−∞
Bemerkung
Die Standardnormalverteilung erhält man für µ = 0 und σ = 1. Ihre Dichtefunktion ist
1
1
exp − x2
ϕ(x) = √
2
2π
und die Verteilungsfunktion der Standardnormalverteilung ist wie folgt gegeben.
1
Φ(x) = √
2π
Zx
1
exp − t2
2
dt
−∞
Sei X : Ω → R eine Zufallsvariable auf (Ω, F, P). X heißt (standard-)normalverteilt, falls Folgendes gilt.
Zb
P [X ∈ [a, b]] =
ϕ(x) dx = Φ(b) − Φ(a)
a
39
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X ∼ N (µ, σ) eine normalverteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) = µ
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) = µ2 + σ 2
Beweis Sei X ∼ N (µ, σ) eine normalverteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
2 !
Z
1 x−µ
1
exp −
dx
E(X) =
x· √
2
σ
σ 2π
R
2 !
Z
1
1 x−µ
= √
x · exp −
dx
2
σ
σ 2π R
2 !
Z
1 x−µ
1
(x − µ) · exp −
= √
dx +µ = µ
2
σ
σ 2π R
=0 (aufgrund der Symmetrie)
(ii) Um das zweite Moment zu beweisen, werden die Eigenschaften des Erwartungswertes und die Symmetrie der Standardnormalverteilung genutzt. Sei X ∼ N (µ, σ), dann ist Y = (X − µ)/σ ∼ N (0, 1).
E(X 2 ) = E[(σY + µ)2 ] = E[σ 2 Y 2 + 2µσY + µ2 ]
= σ 2 · E(Y 2 ) +2 · µ · σ · E(Y ) +µ2 = σ 2 + µ2
=1
=0
Lemma Die Varianz einer normalverteilten Zufallsvariable X ∼ N (µ, σ) ist gegeben durch
Var(X) = σ 2
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
Var(X) = E(X 2 ) − (E(X))2 = µ2 + σ 2 − (µ)2 = σ 2
Proposition
Sei X ∼ N (µ, σ) eine normalverteilte Zufallsvariable und seien α, β ∈ R mit α > 0.
αX + β ∼ N (αµ + β, ασ)
Beweis Es gelten die Annahmen der Proposition. Sei FY die Verteilungsfunktion von Y = αX + β.
x−β
x−β
FY (x) = P[Y ≤ x] = P[αX + β ≤ x] = P X ≤
= FX
α
α
Dabei bezeichnet FX die Verteilungsfunktion von X. Durch Ableiten erhält man nun die Dichte von Y .


!2 
x−β
−
µ
d
1
x−β
1 1
1
α

√ · exp −
fY (x) =
FY (x) = · fX
=
dx
α
α
α σ 2π
2
σ
2 !
2 !
1
1
1 x − β − αµ
1 x − (αµ + β)
√ · exp −
√ · exp −
=
=
2
ασ
2
ασ
ασ 2π
ασ 2π
Beispiel Um den Cholesterin-Spiegel zu senken, machen 100 Leute eine Diät. Um die Wirksamkeit der
Diät zu testen, testet man nach Beendigung den Cholesterin-Spiegel erneut. Die Wirksamkeit wird akzeptiert, wenn nach der Diät mindestens 65% der Probanden einen niedrigeren Cholesterin-Spiegel haben.
Gesucht ist die Wahrscheinlichkeit, dass die Wirksamkeit akzeptiert wird, obwohl die Diät tatsächlich
wirkungslos ist.
40
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lösung Man nimmt an, dass die Diät wirkungslos ist. Der Cholesterin-Spiegel ist mit einer Wahrscheinlichkeit von 1/2 nach der Diät höher bzw. tiefer. Sei X eine Zufallsvariable für die Anzahl der Probanden
mit einem niedrigen Cholesterin-Spiegel.
X ∼ B(n, p)
mit
n = 100
und p =
1
2
Dann gilt für die gesuchte Wahrscheinlichkeit Folgendes.
X − 50
64,5 − 50
P[X ≥ 65] = P
≥
= P[Z ≥ 2,9] = 1 − P[Z < 2,9] = 1 − Φ(2,9) = 0,0019
5
5
Beispiel Angenommen, 52% aller Berliner seien für ein striktes Alkoholverbot in der S-Bahn. Wie groß
muss eine Umfrage sein, damit mit mindestens 95% Wahrscheinlichkeit die Hälfte der Befragten für ein
Verbot ist?
Lösung Sei N die Anzahl aller Berliner. Dann gibt es 0,52 · N Befürworter. Sei Sn die Zahl derjenigen
unter den Befragten, die für ein Verbot sind und n die Anzahl der Befragten. Dann gilt folgende Verteilung.
Sn ∼ H(n, N, 0,52 · N )
D. h. Sn ist hypergeometrisch verteilt zu den Parametern (n, N, 0,52 · N ). Da man Sn nicht direkt durch
eine Normalverteilung approximieren kann, wird die hypergeometrische Verteilung zunächst durch eine
Binomialverteilung approximiert. Gilt also n, m → ∞ mit m/N → p, so gilt die folgende Approximation.
m
N −m
·
m
i
n−i
→
· pi · (1 − p)n−i
P[X = i] =
N
i
n
Damit gilt nun Sn ≈ B(n, 0,52). Damit kann man nun die Binomialverteilung durch die Normalverteilung
annähern, wodurch sich nun Folgendes ergibt.
1
Sn − 0,52n
0, 5n − 0,52n
P Sn > n = P √
>√
2
n · 0,52 · 0,48
n · 0,52 · 0,48
∼N (0,1)
√
=−0,04 n
√
Es wird also ein n ∈ N gesucht, sodass P[Z > −0,04 n] ≥ 0,95 mit Z ∼ N (0, 1) gilt. Für Z > 0 gilt mit
1 − Φ(−z) = Φ(z) für die Standardnormalverteilung Φ aufgrund der Symmetrie Folgendes.
√
√
√
√
P[Z > −0,04 n] = 1 − P[Z < −0,04 n] = 1 − Φ(−0,04 n) = Φ(0,04 n)
Verwendet man eine Tabelle für die Werte einer N (0, 1)-Verteilung mit Φ(1,645) = 0,95 so gilt Folgendes.
√
√
√
Φ(0,04 n) > 0,95 ⇔ Φ(0,04 n) > Φ(1,645) ⇔ 0,04 n > 1,645 ⇔ n > 1692
D. h. der Stichprobenumfang muss mindestens 1692 betragen.
5.4.3 Exponentialverteilung
Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch
(
λ · e−λ·x , falls x ≥ 0
f (x) =
,
0,
sonst
heißt exponentialverteilt mit den Parameter λ ∈ R+ = {x ∈ R | x > 0}. In diesem Fall schreibt man auch
X ∼ E(λ)
Für die Verteilungsfunktion einer exponentialverteilten Zufallsvariable gilt Folgendes.
(
Zx
1 − e−λ·x , falls x ≥ 0
F (x) =
f (t) dt =
0,
sonst
−∞
41
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X ∼ E(λ) eine exponentialverteilte Zufallsvariable.
(i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben.
E(X) =
1
λ
(ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben.
E(X 2 ) =
2
λ2
Beweis Sei X ∼ E(λ) eine exponentialverteilte Zufallsvariable.
(i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet.
Z∞
x·λ·e
E(X) =
∞
dx = −x · e−λx 0 +
−λx
Z∞
e
−λx
0
0
∞
1 −λx
1
dx = 0 + − · e
=
λ
λ
0
(ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet.
2
Z∞
2
x ·λ·e
E(X ) =
−λx
∞
dx = −x2 · e−λx 0 + 2
0
Z∞
x · e−λx dx = 0 + 2 ·
1
2
= 2
λ2
λ
0
Lemma Die Varianz einer exponentialverteilten Zufallsvariable X ∼ E(λ) ist gegeben durch
Var(X) =
1
λ2
Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet.
2
2
1
2
1
1
Var(X) = E(X 2 ) − E(X)2 = 2 −
= 2− 2 = 2
λ
λ
λ
λ
λ
Lemma Sei X ∼ E(λ) und s, t > 0. Dann gilt die Gedächtnislosigkeit.
P[X > s + t | X > t] = P[X > s]
Beweis Nach dem Satz von Bayes gilt Folgendes.
P[X > s + t | X > t] =
P[X > s + t, X > t]
P[X > s + t]
=
P[X > t]
P[X > t]
Für t > 0 gilt nun P[X > t] = e−λ·t und damit auch die Gedächtnislosigkeit.
P[X > s + t]
e−λ·(s+t)
e−λ·s−λ·t
e−λ·s · e−λ·t
=
=
=
= e−λ·s = P[X > s]
P[X > t]
e−λ·t
e−λ·t
e−λ·t
Beispiel Angenommen die Ankunftszeit der nächsten Bahn ist exponentialverteilt mit erwarteter Wartezeit von 10 Minuten. Sie stehen seit 4 Minuten am Bahnsteig. Wie lange warten Sie im Mittel?
Lösung
Sei X die Ankunftszeit, dann gilt P[X > t] = e−λ·t mit λ = 1/10, da E(X) = 10. Nun gilt
P[X > s + 4 | X > 4] = P[X > s]
aufgrund der Gedächtnislosigkeit. Sei Y ≥ 0 die Restwartezeit. Dann gilt
P[Y > s] = P[X > s + 4 | X > 4] = e−λ·s
Damit gilt für den gesuchten Erwartungswert von Y Folgendes.
Z∞
E(Y ) =
Z∞
P[Y > s] ds =
0
0
42
e−λ·s ds =
1
= 10
λ
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Exkurs: Mehrdimensionale Differentiation und Integration
E.1 Mehrdimensionale Differentiation
Motivation Sei X : Ω → Rn eine Zufallsvariable und x = (x1 , . . . , xn )> ∈ Rn , sowie B ⊆ Rn .
Z
Z
P[X ∈ B] =
f (x) dx =
f (x1 , . . . , xn ) d(x1 , . . . , xn )
B
B
Definition Sei U ⊆ Rn offen und f : U → R eine Abbildung. Dann heißt die Funktion f in
x = (x1 , . . . , xn )> ∈ U
partiell differenzierbar bezüglich der i-ten Koordinate, falls der folgende Grenzwert existiert.
Di f (x) =
f (x + h · ei ) − f (x)
∂
f (x) := lim
h→0
∂xi
h
Dabei bezeichnet ei = (0, . . . , 0, 1, 0, . . . , 0) den i-ten Einheitsvektor, wobei 1 genau an der i-ten Stelle
steht. Anders formuliert, kann die partielle Ableitung auch wie folgt aufgefasst werden. Sei ξ ∈ R und
fi : R → R
mit fi (ξ) = f (x1 , . . . , xi−1 , ξ, xi+1 , . . . , xn )
Dann ist die partielle Ableitung der Funktion f in x ∈ Rn bezüglich der i-ten Koordinate durch
Di f (x) = lim
h→0
fi (xi + h) − fi (xi )
= fi0 (xi )
h
gegeben. Die Funktion f heißt partiell differenzierbar in x ∈ U , falls Di f (x) für alle i = 1, . . . , n existiert.
Beispiel Sei f (x) =
p
x21 + . . . + x2n . Ihre partiellen Ableitungen haben dann die folgende Form.
Di f (x) =
−1/2
xi
1 2
x1 + . . . + x2i + . . . + x2n
· 2xi =
2
f (x)
für x 6= 0
Beispiel Sei g : R+ → R differenzierbar. Dann besitzt die Komposition g ◦ f die partiellen Ableitungen.
∂
xi · g 0 (f (x))
g(f (x)) = g 0 (f (x)) · Di f (x) =
∂xi
f (x)
Definition Die ersten partiellen Ableitungen lassen sich in einem Vektor anordnen.
>
∂
∂
>
grad f (x) = ∇f (x) := (D1 f (x), . . . , Dn f (x)) =
f (x), . . . ,
f (x)
∂x1
∂xn
Dieser Vektor heißt Gradient von f in x ∈ Rn . Die Einträge sind die partiellen Ableitungen von f in
Richtung xi für alle i = 1, . . . , n.
Satz Sei U ⊆ Rn offen und f : U → R eine partiell differenzierbare Funktion, sprich es gilt f ∈ C 1 (U, R).
Sind alle partiellen Ableitungen Di f : Rn → R für i = 1, . . . , n selbst partiell differenzierbar, das heißt
Dj (Di f (x)) = Dj Di f (x) =
∂2
f (x)
∂xi ∂xj
existiert für alle i, j = 1, . . . , n, dann heißt die Abbildung f zweimal (stetig) partiell differenzierbar (falls
Di f und Dj Di f für alle i und j stetig sind) und man schreibt f ∈ C 2 (U, R).
Beweis Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet, da dieser bereits aus der Vorlesung Analysis II bekannt sein sollte.
Satz von Schwarz
Sei U ⊆ Rn offen und f : U → R zweimal stetig partiell differenzierbar. Dann gilt
Dj Di f (x) = Di Dj f (x)
für i, j = 1, . . . , n
Gilt f : U → Rm mit f (x) = (f1 (x), . . . , fm (x))> , so kann der Satz von Schwarz auf alle Komponentenfunktionen fk : U → R mit k = 1, . . . , m ebenfalls angewendet werden.
43
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet, da dieser bereits aus der Vorlesung Analysis II bekannt sein sollte.
E.2 Mehrdimensionale Integration
Ziel Definition des Integrals
R
f (x) dx für eine Funktion f : U → R mit U ⊆ Rn .
Korollar Eine stetige Funktion auf einer kompakten Menge X ist gleichmäßig stetig.
Beweis Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet, da dieser bereits aus der Vorlesung Analysis II bekannt sein sollte.
Lemma Sei [a, b] ein kompaktes (abgeschlossenes und beschränktes) Intervall und U ⊆ Rn offen. Außerdem sei (yk ) ⊆ U eine Folge mit
lim yk = c
k→∞
Dann konvergieren die Funktionen Fk : [a, b] → R mit Fk (x) = f (x, yk ) gleichmäßig gegen F : [a, b] → R
mit F (x) = f (x, c), das heißt wiederum das Folgendes gilt.
lim sup |Fk (x) − F (x)| = 0
k→∞ x∈[a,b]
Beweis Die Menge Q = {yk | k ∈ N} ∪ {c} ist kompakt, da yk gegen c konvergiert, d. h. bis auf endlich
viele yk liegen alle yk in einer Umgebung von c. Dann ist auch die Menge [a, b] × Q kompakt, also ist auch
f : [a, b] × Q → R
gleichmäßig stetig. Sei ε > 0. Dann existiert ein δ > 0 mit
|(x, y) − (x0 , y 0 )| < δ
|f (x, y) − f (x0 , y 0 )| < ε
⇒
Da yk → c, existiert ein N ∈ N, sodass ∀k ≥ N : |yk − c| < δ. Also insbesondere gilt damit auch
∀x ∈ [a, b], ∀k ≥ N : |f (x, yk ) − f (x, c)| < ε
Also gilt ∀x ∈ [a, b], ∀k ≥ N : |Fk (x) − F (x)| < ε.
Satz Sei [a, b] ein kompaktes (abgeschlossenes und beschränktes) Intervall und U ⊆ Rn offen, sowie
f : [a, b] × U → R
eine stetige Abbildung. Die Funktion ϕ : U → R ist ebenfalls stetig, falls für y ∈ U Folgendes gilt
Zb
ϕ(y) =
f (x, y) dx
a
Beweis Um im Folgenden zu beweisen, dass die Abbildung
Zb
y 7→
f (x, y) dx
a
stetig ist, sei (yk ) eine Folge mit yk → c. Dann gilt für diese Abbildung Folgendes.
Zb
ϕ(yk ) =
Zb
f (x, yk ) dx =
a
Fk (x) dx
a
Nach dem obigen Lemma gilt, dass Fk (x) → F (x) gleichmäßig stetig in x ist. Für gleichmäßig konvergente
Funktionenfolgen dürfen wir die Limesbildung und Integration vertauschen. Es gilt also Folgendes.
Zb
lim ϕ(yk ) = lim
k→∞
Zb
Fk (x) dx =
k→∞
a
Zb
lim Fk (x) dx =
F (x) dx = ϕ(c)
k→∞
a
a
44
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Seien I, J ⊆ R kompakte Intervalle und f : I × J → R stetig und stetig partiell differenzierbar
nach der zweiten Variablen. Sei yk → c mit yk 6= c für alle k ∈ N und
Fk (x) =
f (x, yk ) − f (x, c)
yk − c
und F (x) =
∂f
(x, c)
∂y
Dann gilt, dass Fk → F für k → ∞ gleichmäßig auf I ist.
Beweis Sei ε > 0 gegeben. Da D2 f : I × J → R stetig und I × J kompakt ist, ist D2 f auf I × J
gleichmäßig stetig, d. h. es gilt Folgendes.
∃δ > 0 : |y − y 0 | < δ ⇒ |D2 f (x, y) − D2 f (x, y 0 )| < ε
Nach dem Mittelwertsatz gilt, dass ein ηk zwischen c und yk mit
D2 f (x, yk ) = Fk (x)
existiert. Gilt nun |c − yk | < δ, so ist auch |yk − c| < δ und dann
|F (x) − Fk (x)| = |D2 f (x, y) − D2 f (x, yk )| < ε
Satz Seien I, J ⊆ R kompakte Intervalle und f : I × J → R wie im obigen Lemma. Für y ∈ J sei
Z
ϕ(y) = f (x, y) dx
I
Dann ist die Abbildung ϕ stetig differenzierbar und für ihre Ableitung gilt Folgendes.
Z
∂f
∂ϕ
(y) =
(x, y) dx
∂y
I ∂y
Beweis Sei yk → c ∈ J mit yk 6= c für alle k ∈ N und seien Fk , F wie im obigen Lemma. Dann gilt
Z
Z
Z
ϕ(yk ) − ϕ(c)
∂f
lim
= lim
Fk (x) dx = F (x) dx =
(x, c) dx
k→∞
k→∞
yk − c
I
I
I ∂y
Erinnerung
Seien [a, b] ⊆ R und [c, d] ⊆ R kompakte Intervalle, sowie f eine stetige Funktion.
f : [a, b] × [c, d] → R
Sei ϕ : [c, d] → R eine stetige Funktion, die wie folgt gegeben ist.
Zb
y 7→
f (x, y) dx
a
Folgerung Das bedeutet wiederum, dass das folgende Integral existiert.


Zb
Zd Zb
ϕ(y) dy =  f (x, y) dx dy
a
c
a
Analog gilt für die stetige Funktion ψ : [a, b] → R, welche wie folgt gegeben ist
Zd
f (x, y) dy,
ψ(x) =
c
dass ebenfalls ein solches Integral existiert und die folgende Form besitzt.


Zb
Zb Zd
ψ(x) dx =  f (x, y) dy  dx
a
a
c
Falls die beiden Doppelintegrale identisch sind, so gilt für diese die folgende Aussage.
Zb Zd
Z
f (x, y) d(x, y) =
[a,b]×[c,d]
Zd Zb
f (x, y) dy dx =
a
c
f (x, y) dx dy
c
45
a
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Satz von Fubini Seien I, J ⊆ R kompakte Intervalle, sowie f : I × J → R eine stetige Funktion, so gilt
Z Z
Z
f (x, y) d(x, y) =
I×J
Z Z
f (x, y) dy dx =
I
J
f (x, y) dx dy
J
I
Beweis Zuerst definiert man eine Funktion ϕ : [c, d] → R durch


Zb Zy
ϕ(y) :=  f (x, t) dt dx
a
Es gilt ϕ(c) = 0, da f¯(x, y) =
Ry
c
c
f (x, t) dt und auch der folgende Term stetig ist.
∂ f¯(x, y)
∂y
Damit gilt für die Ableitung der Abbildung ϕ Folgendes.
Zb
0
ϕ (y) =
∂ f¯
(x, y) dx =
∂y
Zb
f (x, y) dx
a
c
Daraus folgt wiederum die Aussage des Satzes von Fubini.




Zd Zb
Zd
Zb Zd
 f (x, y) dx dy = ϕ0 (y) dy = ϕ(c) = ϕ(d) =  f (x, y) dy  dx
c
c
c
a
c
Aus den oben geführten Beweisen folgt mit f : [a, b] × [c, d] → R stetig auch Folgendes.
Bemerkung
Zx Zy
F (x, y) =
⇒
f (s, t) dt ds
a
f (x, y) = D1 D2 F (x, y) = D2 D1 F (x, y)
c
Satz von Fubini-Tonelli Sei f : R2 → R+ . Angenommen eines der folgenden iterierten Integrale existiert.
Z Z
Z Z
f (x, y) dx dy und
f (x, y) dy dx
R
R
R
R
Dann existiert auch das andere Integral und es gilt, dass diese gleich dem folgenden Integral sind.
Z
f (x, y) d(x, y)
R2
Beweis Um den Satz von Fubini-Tonelli beweisen zu können, benötigt man die Maßtheorie.
Beispiel Es soll das folgende Integral berechnet werden.
Z
x2 · y 2 d(x, y)
[−5,5]×[−3,2]
Lösung
Um das Integral zu berechnen, benutzt man den Satz von Fubini.
Z
2
Z
2
Z
x · y d(x, y) =
[−5,5]×[−3,2]
2
Z5 Z2
2
x · y dy dx =
=
35
3
Z5
x2 dx =
35 1 3
·x
3 3
5
−5
46
Z5 2
x · y dy dx =
−5 −3
[−5,5] [−3,2]
2
=
−5
−5
35
8750
· 250 =
9
9
1 2 3
·x ·y
3
2
dx
−3
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Es soll der Parameter c so bestimmt werden, dass das folgende Integral gültig ist.
Z
c · x · y · (1 − x) d(x, y) = 1
[0,1]×[0,1]
Lösung
Um c zu bestimmen, benutzt man den Satz von Fubini um das Integral zu bestimmen.
Z
Z
Z
c · x · y · (1 − x) d(x, y) =
1=
2
Z1 Z1
Z1 c · x · y · (1 − x) dy dx =
=
0
Z1
2=
0
0
c · x − c · x2 dx =
c · x · y · (1 − x) dy dx
c · x · y · (1 − x) d(x, y) =
[0,1] [0,1]
[0,1]×[0,1]
[0,1]
Z
1
Z1
1
1
2
c · x · (1 − x) dx
· c · x · y · (1 − x) dx =
2
2
0
0
1
1
· c · x2 − · c · x3
2
3
1
0
=
0
1
1
1
·c− ·c= ·c
2
3
6
⇔
c = 12
Beispiel Es soll der Parameter c so bestimmt werden, dass das folgende Integral gültig ist.
Z∞ Zy
c · (y 2 − x2 ) · e−y dx dy = 1
0 −y
Lösung
Um c zu bestimmen, benutzt man den Satz von Fubini um das Integral zu bestimmen.
 y

Z∞ Zy
Z∞
Z
c · (y 2 − x2 ) · e−y dx dy = c e−y  y 2 − x2 dx dy
1=
0 −y
Z∞
=c
0
−y
0
y
Z∞
1 3
4
−y
2
dy = · c e−y · y 3 dy
e
x·y − ·x
3
3
−y
0
∞
4 4
= · c e−y · (y 3 − 3y 2 + 6y − 6) 0 = · c · 6 = 8 · c
3
3
⇔
c=
1
8
Beispiel Es sei C = {(x, y) | x2 + y 2 = 1} und f (x, y) = 1. Dann gilt für das Integral Folgendes.
Z
Z Z
f (x, y) d(x, y) =
(x,
y)
dx
dy
1C
C
R
R
Man berechnet nun also zuerst das innere Integral und erhält somit Folgendes.
√ 2
Z
Z1−y
p
1C (x, y) dx = 1 dx = 2 1 − y 2
R
√ 2
−
1−y
Damit gilt für das gesamte Integral durch Einsetzung des Wertes des inneren Integrals Folgendes.
Z1 p
h
i1
yp
f (x, y) d(x, y) = 2 1 − y 2 dy = 2 arcsin(y) −
1 − y2
2
−1
C
−1
π π = 2 (arcsin(1) − arcsin(−1)) = 2
− −
= 2π
2
2
Z
47
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
6 Gemeinsame Verteilung von Zufallsvariablen
6.1 Gemeinsame Verteilungsfunktion
Bemerkung Bisher wurde immer nur eine (eindimensionale) Zufallsvariable X : Ω → R betrachtet. Nun
werden mehrere Zufallsvariablen X : Ω → Rn mit X = (X1 , . . . , Xn ) und Xi : Ω → R betrachtet. Dazu
soll zunächst die Abhängigkeit zwischen den einzelnen Xi modelliert werden.
Erinnerung Seien (Ωi , Fi , Pi ) mit Ωi = {0, 1}, Fi = P(Ωi ) und P({0}) = p für i = 1, . . . , n. Es wurde
bereits gezeigt, dass (Ω, F, P) mit Ω = Ω1 × . . . Ωn = {0, 1}n , F = P(Ω) und P = P1 ⊗ . . . ⊗ Pn mit
X
P(E) =
P1 ({k1 }) · . . . · Pn ({kn })
(k1 ,...,kn )∈E
ein Modell für den n-fachen unabhängigen Münzwurf ist.
Bemerkung Für Ei = Ω1 × . . . × Ωi−1 × Fi × Ωi+1 × . . . × Ωn mit Fi = P(Ωi ) sind die Ereignisse
E1 , . . . , En unabhängig, sprich für alle J ⊆ {1, . . . , n} gilt Folgendes.


\
Y
P
Ej  =
Pj (Fj )
j∈J
j∈J
Definiert man nun Xi : Ω → R mit ω = (ωi )ni=1 7→ ωi und X = (X1 , . . . , Xn ), so sind die Xi unabhängig
in dem Sinn, dass die Ereignisse {Xi = xi } mit xi ∈ {0, 1} für i = 1, . . . , n unabhängig sind. D. h. für
alle J ⊆ {1, . . . , n} gilt Folgendes.


\
Y
P  {Xj = xj } =
Pj ({Xj = xj })
j∈J
j∈J
Die gemeinsame Verteilung der (X1 , . . . , Xn ) ist gegeben durch das Produkt der Randverteilungen Pi .
!
n
n
\
Y
P(Xi = (x1 , . . . , xn )) = P
{Xi = xi } =
Pi ({Xi = xi })
i=1
i=1
Definition Seien X und Y Zufallsvariablen auf (Ω, F, P). Die gemeinsame Verteilungsfunktion von X
und Y für a, b ∈ R ist dann wie folgt gegeben.
F (a, b) = P({X ≤ a} ∩ {Y ≤ b}) = P(X ≤ a, Y ≤ b)
Die Verteilungsfunktion von X erhält man aus der gemeinsamen Verteilungsfunktion wie folgt.
FX (a) = P[X ≤ a] = P[X ≤ a, Y < ∞] = P lim {X ≤ a, Y ≤ b}
b→∞
= lim P[X ≤ a, Y ≤ b] = lim F (a, b) = F (a, ∞)
b→∞
b→∞
Die Verteilungsfunktion von Y erhält man analog wie folgt.
h
i
FY (b) = P[Y ≤ b] = P[X < ∞, Y ≤ b] = P lim {X ≤ a, Y ≤ b}
a→∞
= lim P[X ≤ a, Y ≤ b] = lim F (a, b) = F (∞, b)
a→∞
a→∞
Die Verteilungen FX und FY heißen die Randverteilungen von X und Y .
Bemerkung
In der Regel betrachtet man jedoch für a1 , a2 , b1 , b2 ∈ R mit a1 < a2 und b1 < b2 Folgendes.
P(a1 < X ≤ a2 , b1 < Y ≤ b2 ) = P(a1 < X ≤ a2 , Y ≤ b2 ) − P(a1 < X ≤ a2 , Y ≤ b1 )
= P(X ≤ a2 , Y ≤ b2 ) − P(X ≤ a1 , Y ≤ b2 )
− P(X ≤ a2 , Y ≤ b1 ) + P(X ≤ a1 , Y ≤ b1 )
= F (a2 , b2 ) − F (a1 , b2 ) − F (a2 , b1 ) + F (a1 , b1 )
48
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Bemerkung Sind X und Y diskrete Zufallsvariablen, so ist die gemeinsamen Massenfunktionen von X
und Y gegeben durch p(x, y) = P[X = x, Y = y]. Die Randverteilungen sind dabei wie folgt gegeben.
X
X
pX (x) = P[X = x] =
p(x, y) und pY (y) = P[Y = y] =
p(x, y)
y:p(x,y)>0
x:p(x,y)>0
Beispiel In einer Gemeinde haben
• 15% der Familien keine Kinder,
• 20% der Familien ein Kind,
• 35% der Familien zwei Kinder und
• 30% der Familien drei Kinder.
Ein Kind sei mit gleicher Wahrscheinlichkeit ein Junge oder ein Mädchen. Es wird zufällig eine Familie
ausgewählt. Sei X die Anzahl der Jungen und Y die Anzahl der Mädchen. Es soll die gemeinsame
Massenfunktion von X und Y berechnet werden.
Lösung
Es sei p(i, j) = P[X = i, Y = j] und K die Anzahl der Kinder. Dann gilt
• p(0, 0) = P[X = 0, Y = 0 | K = 0] · P[K = 0] = 1 · 0,15 = 0,15
• p(1, 0) = P[X = 1, Y = 0 | K = 1] · P[K = 1] = (1/2) · 0,2 = 0,1 = p(0, 1)
• p(1, 1) = P[X = 1, Y = 1 | K = 2] · P[K = 2] = (1/2) · 0,35 = 0,175
• p(2, 0) = P[X = 2, Y = 0 | K = 2] · P[K = 2] = (1/2)2 · 0,35 = 0,0875 = p(0, 2)
• p(2, 1) = P[X = 2, Y = 1 | K = 3] · P[K = 3] = [3 · (1/2)3 ] · 0,30 = 0,1125 = p(1, 2)
• p(3, 0) = P[X = 3, Y = 0 | K = 3] · P[K = 3] = (1/2)3 · 0,30 = 0,0375 = p(0, 3)
Stellt man die Wahrscheinlichkeiten tabellarisch dar, so erhält man folgendes Schema.
HH
j
H
HH
0
1
2
3
P[X = i]
0
0,1500
0,1000
0,0875
0,0375
0,3750
1
0,1000
0,1750
0,1125
0,0000
0,3875
2
0,0875
0,1125
0,0000
0,0000
0,2000
3
0,0375
0,0000
0,0000
0,0000
0,0375
P[Y = j]
0,3750
0,3875
0,2000
0,0375
1,0000
i
Definition Seien X und Y Zufallsvariablen auf (Ω, F, P). Diese heißen gemeinsam
R absolutstetig verteilt
mit der Dichte f , falls es eine Riemann-integrierbare Funktion f : R2 → R+ mit R2 f (x, y) d(x, y) = 1
gibt, sodass für C ⊆ R2 mit 1C f Riemann-integrierbar Folgendes gilt.
Z
Z
P((X, Y ) ∈ C) =
f (x, y) d(x, y) =
1C (x, y) · f (x, y) d(x, y)
R2
C
Die Funktion f (x, y) heißt die gemeinsame Dichte von X und Y . Für C = (−∞, a]×(−∞, b] gilt Folgendes.
Za Zb
F (a, b) = P(X ≤ a, Y ≤ b) =
f (x, y) dy dx
−∞ −∞
Ist f stetig, so folgt per Differentiation Folgendes.
f (x, y) =
∂2
F (x, y)
∂x ∂y
49
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Die Randverteilung von X bzw. die Randverteilung von Y sind wie folgt gegeben.
Z∞
fX (x) =
Z∞
f (x, y) dy
und fY (y) =
−∞
f (x, y) dx
−∞
Beispiel Die gemeinsame Dichte zweier absolutsteiger Zufallsvariablen X und Y ist wie folgt gegeben.
(
2 · e−x · e−2y , falls x, y > 0
f (x, y) =
0,
sonst
Es sollen die folgenden Wahrscheinlichkeiten berechnet werden.
(i) P[X > 1, Y < 1]
(ii) P[X < Y ]
Lösung
a) Die gesuchte Wahrscheinlichkeit kann wie folgt ermittelt werden.


Z∞ Z1
Z∞
Z∞
−x
−2y
−x
−2
−2


P[X > 1, Y < 1] =
2·e ·e
dy dx = e · (1 − e ) dx = (1 − e ) e−x dx
1
0
= (1 − e
1
−2
) (−e
−x
1
∞
)1 = e−1 · (1 − e−2 )
b) Die gesuchte Wahrscheinlichkeit kann wie folgt ermittelt werden.


Z∞ Zy
Z∞
1
−x
−2y


P[X < Y ] =
2·e ·e
dx dy = 2 · e−2y · (1 − e−y ) dy =
3
0
0
0
6.2 Unabhängige Zufallsvariablen
Definition Zwei Zufallsvariablen X und Y heißen unabhängig, falls für alle x, y ∈ R Folgendes gilt.
P(X ≤ x, Y ≤ y) = P[X ≤ x] · P[Y ≤ y]
⇔
F (x, y) = FX (x) · FY (y)
Sind X und Y absolutstetige Zufallsvariablen mit stetigen Dichten f, fX , fY , so gilt Folgendes.
F (x, y) = FX (x) · FY (y)
⇔
f (x, y) =
∂2
∂
F (x, y) =
(fX (x) · FY (y)) = fX (x) · fY (y)
∂x ∂y
∂y
Sind X und Y diskrete Zufallsvariablen mit Massenfunktionen p, pX , pY , so gilt analog Folgendes.
p(x, y) = pX (x) · pY (y)
Die Unabhängigkeit gilt genau dann, wenn die gemeinsame Verteilung eine Produktstruktur hat.
Beispiel Die Anzahl der Personen, die pro Tag ein Postamt betreten, sei Poisson-verteilt mit dem
Parameter λ > 0. Jede Person sei mit der Wahrscheinlichkeit p weiblich und mit der Wahrscheinlichkeit
1 − p männlich. Sei X die Anzahl der Frauen und Y die der Männer. Sind X und Y unabhängig?
Lösung
Nach dem Satz von Bayes gilt Folgendes.
P(A | B) =
P(A ∩ B)
P(B)
⇔
P(A ∩ B) = P(A | B) · P(B)
Gilt außerdem A ⊆ B, so gilt für den Schnitt A ∩ B = A und somit auch Folgendes.
P(A ∩ B) = P(A) = P(A | B) · P(B)
50
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Also gilt für die gemeinsame Verteilung Folgendes.
P[X = i, Y = j] = P[X = i, Y = j | X + Y = i + j] · P[X + Y = i + j]
i+j
λi+j
=
· pi · (1 − p)i+j−i · e−λ ·
(i + j)!
i
1
=
· (λ · p)i · [λ · (1 − p)]j · e−λ
i! · j!
Für die Randverteilungen gilt Folgendes.
P[X = i] =
∞
X
P[X = i, Y = j] =
j=0
∞
X
1
1
· (λ · p)i · e−λp ·
· [λ · (1 − p)]j · e−λ·(1−p)
i!
j!
j=0
=1
1
= · (λ · p)i · e−λ·p
i!
Damit folgt, dass X ∼ π(λ · p) und Y ∼ π(λ · (1 − p)). Also sind X und Y unabhängig.
P[X = i] · P[Y = j] = P[X = i, Y = j]
Beispiel Auf einem Blatt werden Geraden im Abstand von D cm eingezeichnet. Eine Nadel der Länge
L ≤ D wird zufällig auf das Blatt geworfen. Mit welcher Wahrscheinlichkeit schneidet die Nadel eine der
Geraden? Diese Frage ist auch bekannt als das Buffon’sche Nadelproblem.
Lösung Sei X der Abstand des Mittelpunks der Nadel von der Geraden und Θ der Winkel zwischen der
Nadel und der Geraden. Dann nehmen die Zufallsvariablen nur Werte in den folgenden Bereichen an.
h pi
X ∈ 0,
und Θ ∈ [0, π]
2
h pi
Dann ist (X, Θ) gleichverteilt auf 0,
× [0, π]. Damit gilt für die Dichte Folgendes.
2

h
i
 2 , falls x ∈ 0, p , y ∈ [0, π]
f (x, y) = π · D
2
0,
sonst
Sei E das Ereignis, dass eine Nadel eine Gerade schneidet. Für das Ereignis gilt also folgende Darstellung.
X
L
E=
≤
sin(Θ)
2
Die gesuchte Wahrscheinlichkeit lässt sich dann wie folgt berechnen.
Zπ
1/2·sin(Θ)
Z
P(E) =
0
2
L
dx dΘ =
π·D
π·D
0
Zπ
sin(Θ) dΘ =
L
2·L
π
[− cos(Θ)]0 =
π·D
π·D
0
6.3 Summen unabhängiger Zufallsvariablen
Bemerkung Seien X und Y unabhängige Zufallsvariablen mit Dichten fX bzw. fY . Gesucht wird nun
die Dichte der Summe von X und Y . Für a ∈ R gilt Folgendes.


Z∞ a−y
Z

P[X + Y ≤ a] =
fX (x) · fY (y) dx dy
−∞
z=x+y
−∞
Z∞
=

fY (y) 
−∞
Za
=

Z∞

−∞

Za
fX (z − y) dz  dy
−∞
Z∞

fX (z − y) · fY (y) dy  dz
−∞
fX (z − y) · fY (y) dy = fX ∗ fY (z)
mit
−∞
51
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Definition Seien X und Y absolutstetig verteilt mit den Dichten fX bzw. fY . Die Dichte fX+Y von
X + Y heißt Faltung der Verteilungen von X und Y . Die Faltung ist dabei wie folgt definiert.
Z
fX+Y = fX (x − y) · fY (y) dy = fX ∗ fY
Dabei bezeichnet fX ∗ fY das Faltungsprodukt von fX und fY .
Beispiel Es seien X und Y unabhängige Zufallsvariablen, welche gleichverteilt auf [0, 1] sind, d. h.
(
1, falls x ∈ [0, 1], y ∈ [0, 1]
fX (x) = fY (y) =
0, sonst
Im Folgenden soll die Dichte von X + Y berechnet werden.
Lösung
Um die Dichte von X + Y zu berechnen betrachtet man die folgenden Fälle.
(i) Für z ∈
/ [0, 2] gilt für die Dichte von X + Y Folgendes.
fX+Y (x) = 0
(ii) Für z ∈ [0, 1] gilt für die Dichte von X + Y Folgendes.
Z∞
Zz
fX (z − y) · 1{0≤y≤1} (y) dy =
fX+Y (z) =
−∞
dy = [y]z0 = z
0
(iii) Für z ∈ (1, 2) gilt für die Dichte von X + Y Folgendes.
Z1
fX+Y (z) =
dy = [y]1z−1 = 2 − z
z−1
Damit ergibt sich insgesamt für die Dichte von X + Y


z,
fX+Y (z) = 2 − z,


0,
Folgendes.
falls 0 ≤ z ≤ 1
falls 1 < z < 2
sonst
Aufgrund der Form der Dichte spricht von einer Dreiecksverteilung.
Beispiel Seien X und Y unabhängige Zufallsvariablen, welche exponentialverteilt mit Parameter λ > 0
sind, sprich es gilt X, Y ∼ E(λ). Im Folgenden soll die Dichte von X + Y berechnet werden.
52
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Für x ≥ 0 gilt für die Dichte von X + Y Folgendes.
Zx
fX (x − y) · fY (y) dy
fX+Y (x) =
0
Zx
[λ · exp(−λ · (x − y))] · [λ · exp(−λ · y)] dy
=
0
2
Zx
exp(−λ · x) dy
=λ
0
= λ2 · x · exp(−λ · x)
Seien nun X, Y und Z unabhängige Zufallsvariablen, die alle E(λ)-verteilt sind. Dann gilt
Zx
fX+Y (x − y) · fZ (y) dy
f(X+Y )+Z (x) =
0
Zx
=
2
λ · (x − y) · exp(−λ · (x − y)) · [λ · exp(−λ · y)] dy
0
=λ
3
Zx
(x − y) · exp(−λ · y) dy
0
1
= λ3 · x2 · exp(−λ · x)
2
Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch

α−1
 λ · exp(−λ · x) · (λ · x)
, falls x ≥ 0
Γ(α)
f (x) =
,

0,
sonst
heißt gammaverteilt mit den Parameter α und λ. In diesem Fall schreibt man auch
X ∼ Γ(α, λ)
Die Dichte enthält die Gamma-Funktion Γ(α), welche wie folgt gegeben ist.
Z∞
Γ(α) =
e−y · y α−1 dy
0
Die Γ-Verteilung mit α = n/2 und λ = 1/2 heißt die Chi-Quadrat-Verteilung mit n Freiheitsgraden
X ∼ χ2(n)
Bemerkung
Für die Γ-Funktion gelten folgende spezielle Werte.
(i) Γ(n + 1) = n · Γ(n) = n · (n − 1) · Γ(n − 1) = . . . = n!
√
1
= π
(ii) Γ
2
Bemerkung
Insbesondere gilt dann für die Dichte f(X+Y )+Z (x) aus dem letzten Beispiel Folgendes.
1
λ · exp(−λ · x) · (λ · x)2
λ · exp(−λ · x) · (λ · x)3−1
f(X+Y )+Z (x) = λ3 · x2 · exp(−λ · x) =
=
2
2
Γ(3)
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ E(λ) für alle i = 1, . . . , n.
n
X
Xi ∼ Γ(n, λ)
i=1
53
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ Γ(αi , λ) für alle i = 1, . . . , n.
!
n
n
X
X
Xi ∼ Γ
αi , λ
i=1
i=1
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Beispiel Sei X eine N (0, 1)-verteilte Zufallsvariable. Wie ist X 2 verteilt?
Lösung
Für die Verteilungsfunktion der Zufallsvariablen X 2 gilt Folgendes.
√
√
√
√
FX 2 (y) = P[X 2 ≤ y] = P[− y ≤ X ≤ y] = F ( y) − F (− y)
Durch Differentiation und Anwendung der Kettenregel erhält man somit die folgende Dichte für X 2 .
1 √
1
1
1
1
√
fX 2 (y) = √ √ · exp − · ( y)2 − − √ · exp − · (− y)2
2 y
2
2
2π
2π
"
√ #
1
1
1
1
1
1
2
1
= √ · √ · 2 exp − · y = √ · √ · √ · √ · exp − · y
2 y
2
y
2
π
2π
2
2
"
#
√ 1
1
1
1
1
1
1
−1/2
−1/2
· √ · exp − · y = y
· √ −1 ·
· √ · exp − · y
=y
·
2·
2
2
2
2
π
π
2
1/2−1
√
1
1
1
1
1
= ·
mit
π=Γ
·y
· exp − · y · √
2
2
2
2
π
=
(1/2) · exp(−1/2 · y) · (1/2 · y)1/2−1
Γ(1/2)
Somit gilt für die Zufallsvariable X 2 die folgende Verteilung.
1 1
X2 ∼ Γ
,
2 2
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ N (0, 1) für alle i = 1, . . . , n.
n
X
Xi2
∼Γ
i=1
n 1
,
2 2
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Beispiel Es seien Xi ∼ N (0, σi ) für i = 1, 2 unabhängige Zufallsvariablen. Wie ist X1 + X2 verteilt?
Lösung
Um herauszufinden, wie X1 + X2 verteilt ist, bestimmt man die Dichte.
Z∞
fX1 (x − y) · fX2 (y) dy
fX1 +X2 (x) =
−∞
Z∞
=
−∞
"
1
p
· exp −
2
2πσ12
1
=
2πσ1 σ2
1
Z∞
−∞
x−y
σ1
2 !# "
2 !#
1 y
1
· p
· exp −
dy
2 σ2
2πσ22
1 (x − y)2
y2
exp −
+
dy
2
σ12
σ22
54
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Als Nächstes wird erst einmal der Term innerhalb der Exponentialfunktion umgeformt.
y2
x2 − 2xy + y 2
y2
(x − y)2
+ 2 =
+ 2
2
2
σ1
σ2
σ1
σ2
2
x2
x
2xy
1
1
x2
− 4
= 2− 2 +
+ 2 y2 + 4
2
2
2
2
σ1
σ1
σ1
σ2
σ1 (1/σ1 + 1/σ2 ) σ1 (1/σ1 + 1/σ22 )
s
!2
x2
x2
1
1
1
2
p
=
+
·
x
=
(z
−
a)
+
+
·
y
−
σ12
σ22
σ12 + σ22
σ12 + σ22
σ12 1/σ12 + 1/σ22
Damit gilt für die Dichte der Summe von X1 und X2 nun Folgendes.
fX1 +X2
1
=
2πσ1 σ2
Z∞
−∞
s 2 2
1
1
x2
σ1 · σ2
2
·
dz
exp − (z − a) · exp − · 2
2
2 σ1 + σ22
σ12 + σ22
Z∞
1
1
1 x2
1
2
p
√
=√
·
·
exp
−
exp
−
(z
−
a)
dz
2 σ12 + σ22
2
2π
2π · σ12 + σ22
−∞
=1

=p
1
2π(σ12
+
σ22 )
· exp −
1
2
!2 
x
p
σ12
+ σ22

Somit gilt für die Zufallsvariable X1 + X2 die folgende Verteilung.
q
2
2
X1 + X2 ∼ N 0, σ1 + σ2
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ N (µi , σi ) für alle i = 1, . . . , n.
v


u n
n
n
X
X
uX
σi2 
Xi ∼ N 
µi , t
i=1
i=1
i=1
Insbesondere gilt für die Summe dieser Xi für i = 1, . . . , n mit µi = µ und σi = σ Folgendes.
n
n
X
√ 1X
σ
Xi ∼ N n · µ, σ · n
und
Xi ∼ N µ, √
n i=1
n
i=1
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ π(λi ) für alle i = 1, . . . , n.
!
n
n
X
X
Xi ∼ π
λi
i=1
i=1
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Proposition
Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ B(ni , p) für alle i = 1, . . . , n.
!
n
n
X
X
Xi ∼ B
ni , p
i=1
i=1
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
6.4 Statistik für unabhängige normalverteilte Zufallsvariablen
Annahme Seien X1 , . . . , Xn unabhängige Zufallsvariablen mit Xi ∼ N (µ, σ) für alle i = 1, . . . , n, d. h.
die Xi sind iid (independent identically distributed) mit möglicherweise unbekanntem µ und/oder σ.
55
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Ziel Konstruktion eines sinnvollen bzw. effizienten Schätzers für µ bzw. σ.
Bemerkung Der allgemeine Rahmen ist der Folgende. Seien (Pη )η∈Θ Wahrscheinlichkeitsmaße auf dem
Messraum (Ω, F). Sei X : Ω → R eine Zufallsvariable mit Verteilung Pη0 , wobei η0 ∈ Θ unbekannt ist.
Dann ist Pη0 (X ≤ x) die Wahrscheinlichkeit ist, dass X ≤ x für x ∈ R.
Definition Sei X (n) = (X1 , . . . , Xn ) eine Folge von unabhängigen Zufallsvariablen mit Verteilung Pη0 .
Wir nennen X (n) eine Stichprobe vom Umfang n aus der nach Pη0 verteilten Grundgesamtheit. Eine
Realisierung von X (n) bezeichnet man mit x(n) = (x1 , . . . , xn ).
k
m
n
m
Definition Sei
Θ ⊆ R und seien g : Θ → R und Ĝ : R → R messbare Funktionen. Sei η ∈ Θ. Dann
(n)
heißt Ĝ X
eine Schätzung von g(η). Die Schätzung heißt erwartungstreu, falls für alle η ∈ Θ
Z
i
h Ĝ(x1 , . . . , xn ) · fη (x1 ) · . . . · fη (xn ) d(x1 , . . . , xn ) = EPη Ĝ X (n) = g(η)
Rn
gilt, wobei fη die Dichte von Pη ist, die wie folgt definiert ist.
Z
Pη (X ∈ A) =
fη (x) dx
A
6.4.1 Das schwache Gesetz der großen Zahlen
Bemerkung
Seien X1 , . . . , Xn iid Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P). Sei ferner
E[Xi ] = µ und
Var(Xi ) = σ 2
für alle
i = 1, . . . , n
Proposition Sei X ≥ 0 eine Zufallsvariable mit existierendem Erwartungswert E(X) = µ und sei α > 0.
Dann gilt die folgende Ungleichung, die sogenannte Markow-Ungleichung.
P[X ≥ α] ≤
E[X]
α
Beweis Sei Y := 1{X≥α} eine Zufallsvariable. Dann gilt Y ≤ X/α. Damit ergibt sich mit der Monotonie
des Erwartungswertes Folgendes.
X
E[X]
P[X ≥ α] = E[Y ] ≤ E
=
α
α
Bemerkung Die Markow-Ungleichung gibt eine obere Schranke für die Wahrscheinlichkeit an, dass eine
Zufallsvariable eine positive Konstante überschreitet.
Proposition Sei X eine Zufallsvariable mit existierendem Erwartungswert E[X] = µ und existierender
Varianz Var(X) = σ 2 , sowie η > 0. Dann gilt die sogenannte Tschebyscheff-Ungleichung.
P[|X − µ| ≥ η] ≤
σ2
η2
Beweis Sei Z = (X − µ)2 ≥ 0. Dann kann die Markow-Ungleichung mit α = η 2 angewendet werden.
P[|X − µ| ≥ η] = P[(x − µ)2 ≥ η 2 ] ≤
E[(X − µ)2 ]
Var(X)
σ2
=
= 2
2
2
η
η
η
Bemerkung Die Tschebyscheff-Ungleichung gibt eine obere Grenze für die Wahrscheinlichkeit an, dass
eine Zufallsvariable mit endlicher Varianz Werte außerhalb eines symmetrisch um den Erwartungswert
gelegenen Intervalls annimmt. Damit ist auch eine untere Grenze für die Wahrscheinlichkeit angegeben,
dass die Werte innerhalb dieses Intervalls liegen.
56
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Satz Sei (Xi )ni=1 eine Folge von iid Zufallsvariablen mit existierenden Erwartungswerten E[Xi ] = µ und
sei η > 0 beliebig. Dann gilt das schwache Gesetz der großen Zahlen.
i
h (n)
lim P X − µ > η = 0
n→∞
mit X
(n)
n
=
1X
Xi
n i=1
Beweis Für die Summe von N (µi , σi )-verteilten Zufallsvariablen Xi für i = 1, . . . , n gilt Folgendes.
n
X
√ Xi ∼ N n · µ, σ n
und X
(n)
n
=
i=1
1X
Xi ∼ N
n i=1
Damit ergibt sich für den Erwartungswert und der Varianz von X
(n)
σ
µ, √
n
Folgendes.
(n) σ 2
σ2
Var X
= √
=
n
n
h (n) i
E X
= µ und
Mit der Tschebyscheff-Ungleichung gilt nun für beliebige η > 0 Folgendes.
(n) i Var X
h (n)
σ2
=
→ 0 für n → ∞
P X − µ > η ≤
η2
n · η2
Bemerkung Die Aussage des schwachen Gesetz der großen Zahlen ist also, dass bei vielen identischen
Experimenten die Wahrscheinlichkeit, dass die Summe der Ergebnisse geteilt durch die Zahl der Ergebnisse (der Mittelwert einer Meßreihe) weit vom Erwartungswert abliegt, beliebig klein wird.
6.4.2 Schätzer für µ bei bekanntem σ
Bemerkung Im Folgenden seien X1 , . . . , Xn iid Zufallsvariablen mit Xi ∼ N (µ, σ) für i = 1, . . . , n,
wobei µ unbekannt, aber σ bekannt ist.
(n)
Lemma Die naive Schätzung X , welche wie folgt gegeben ist, ist eine erwartungstreue Schätzung für
den unbekannten Parameter µ bei bekanntem Parameter σ.
X
Beweis Für die naive Schätzung X
Somit nimmt die naive Schätzung X
(n)
(n)
(n)
n
=
1X
Xi
n i=1
√
∼ N (µ, σ/ n). Also gilt für alle µ ∈ R Folgendes.
h (n) i
EN (µ,σ) X
=µ
gilt X
(n)
für den Grenzfall n → ∞ den unbekannten Parameter µ an.
lim X
(n)
n→∞
Bemerkung
=µ
Für ein gegebenes µ0 ∈ R sei das folgende Schema ein sogenannter Hypothesentest.
H0 :
µ ≥ µ0
(Nullhypothese)
H1 :
µ < µ0
(Alternativhypothese)
Bemerkung Das Ziel des Hypothesentests besteht darin, aufgrund einer Stichprobe zu prüfen, ob eine
vermutete Wahrscheinlichkeit, die Hypothese, als wahr angenommen werden kann oder ob sie verworfen
werden muss.
Frage Wann nimmt man H1 für eine gegebene Realisierung x(n) von X
57
(n)
an.
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Idee Man nehme H1 an, falls für eine Realisierung x(n) ≤ γ ∈ R für ein geeignetes γ gilt. Für eine
gegebene Irrtumswahrscheinlichkeit α > 0, sucht man ein γ so, dass Folgendes gilt.
(n)
≤γ ≤α
∀µ ≥ µ0 : Pµ,σ X
Das heißt die fälschliche Annahme von H1
X
(n)
≤ γ, µ ≥ µ0
soll mit der Wahrscheinlichkeit maximal α realisiert werden. Es bleibt noch γ zu ermitteln. Dazu betrachtet man die folgende Wahrscheinlichkeit.
∼N (0,1)
(n)
Pµ,σ X
(n)
≤ γ = Pµ,σ
X −µ
γ−µ
√
√
≤
σ/ n
σ/ n
!
=Φ
γ−µ
√
σ/ n
≤Φ
γ − µ0
√
σ/ n
=α
Nun wähle γ 0 aus einer N (0, 1)-Tabelle so aus, dass Φ(γ 0 ) = α und wähle γ wie folgt.
γ0 · σ
γ = √ + µ0
n
(n)
Frage Gegeben sei eine Realisierung x(n) von X . Gesucht ist ein Konfidenzintervall (Vertrauensbereich bzw. Erwartungsbereich)
h i
I x(n) = Ψ1 x(n) , Ψ2 x(n) ,
sodass dieses möglichst klein ist, indem das wahre µ mit möglichst großer Wahrscheinlichkeit liegt.
i
h
∀µ : Pµ,σ µ ∈
/ I x(n) ≤ α
Idee Zuerst einmal legt man Ψ1 und Ψ2 wie folgt fest.
σ
Ψ1,2 x(n) = x(n) ± η · √
n
Damit wird der Parameter η nun wie folgt durch folgende Wahrscheinlichkeit festgelegt.
#
"
(n)
σ
σ
X −µ
(n)
(n)
√
≤ η = 2Φ(η) − 1 = α
Pµ,σ X − η · √ ≤ µ ≤ X + η · √
= Pµ,σ − η ≤
n
n
σ/ n
∼N (0,1)
Damit ergibt sich der Parameter η durch Auflösen der Gleichung 2Φ(η) − 1 = α.
1+α
−1
η=Φ
2
6.4.3 Schätzer für σ bei bekanntem µ
Bemerkung
2
Im Folgenden sei S (n) die empirische Varianz, die wie folgt definiert ist.
2
S (n) =
n
1X
(Xi − µ)2
n i=1
n
mit s2n =
1X
(xi − µ)2
n i=1
Frage Ist die empirische Varianz ein guter Schätzer für das unbekannte σ 2 ? Es gelte Folgendes.
2
Sn
2
n σ 2 X Xi − µ
=
n i=1
σ
mit
2
n X
Xi − µ
i=1
58
σ
∼ χ2(n)
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Sei X ∼ Γ(α, λ). Dann gilt E(X) = α/λ und Var(X) = α/λ2 . Insbesondere gilt also
2 E S (n) = σ 2
2
Die empirische Varianz S (n) ist also ein erwartungstreuer Schätzer von σ 2 . Ferner gilt Folgendes.
2 2σ 4
Var S (n) =
n
Insbesondere gilt also auch das schwache Gesetz der großen Zahlen.
h 2
i const
Pµ,σ S (n) − σ 2 > ε =
→ 0 für n → ∞
n
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
6.4.4 Schätzer für σ 2 bei bekanntem µ
2
Idee Im Folgenden betrachtet man die Zufallsvariable Se(n)
, die wie folgt gegeben ist.
n
1 X
(n) 2
Sen2 =
Xi − X
n i=1
Lemma Die folgenden beiden Zufallsvariablen seien unabhängig.
Xn − µ
√
σ/ n
n
X
und
i=1
Xi − X
σ
(n)
!2
Außerdem sei die zweite Zufallsvariable Chi-Quadrat-verteilt.
!
(n) 2
n
X
Xi − X
∼ χ2(n−1)
σ
i=1
2
Dann gilt für den Erwartungswert von Se(n)
Folgendes.
h i
n−1
Eµ,σ Sen2 = σ 2 ·
n
2
Damit ist der Schätzer Se(n)
nicht erwartungstreu. Das heißt Sen2 unterschätzt σ 2 systematisch. Aber
Sbn2 =
n
2
· S (n)
n−1
mit
n
2
· S (n) ∼ χ2(n−1)
2
σ
ist ein erwartungstreuer Schätzer für σ 2 .
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Bemerkung
Gegeben sei σ0 > 0 und der folgende Hypothesentest.
H0 :
σ ≥ σ0
H1 :
σ < σ0
2
Man nehme die Hypothese H1 an, falls S (n) ≤ γ gilt. D. h. man wähle γ so, dass Folgendes gilt.
∀σ ≥ σ0 : Pµ,σ Sbn2 < γ ≤ α
Dazu sei die Wahrscheinlichkeit wie folgt gegeben.
=Z∼χ2(n−1)
Pµ,σ
Sbn2 < γ = Pµ,σ
n − 1 b2
n−1
· Sn <
γ
2
σ
σ2
=γ 0
59
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Man wähle nun aus einer χ2(n−1) -Tabelle ein γ 0 aus, sodass Folgendes gilt.
P [Z < γ 0 ] = α
Dabei sollte γ 0 möglichst groß sein. Damit ergibt sich für den Parameter γ der folgende Wert.
γ=
σ2
· γ0
n−1
6.4.5 Schätzer für µ bei unbekannten σ
Erinnerung
Für die Schätzer X
X
(n)
(n)
2
und Sb(n)
galt Folgendes.
(n)
n
1X
=
Xi
n i=1
mit
X −µ
√
∼ N (0, 1)
σ/ n
n
2
Sb(n)
=
Bemerkung
1 X
(n)
(Xi − X )2
n − 1 i=1
n − 1 b2
· S(n) ∼ χ2(n−1)
σ2
mit
Die Idee für Hypothesentests und Konfidenzintervalle ist die Folgende. Man ersetze
(n)
X −µ
√
∼ N (0, 1)
σ/ n
durch den folgenden Term.
(n)
X
q
(n)
−µ
2 /n
Sb(n)
(n)
X √−µ
σ/ n
=q
2 /n
Sb(n)
=q
X √−µ
σ/ n
n−1
σ2
·
√
2
· Sb(n)
T (n) √
n − 1 =: √
· n−1
Z (n)
Dabei sind T (n) ∼ N (0, 1) und Z (n) ∼ χ2(n−1) . Außerdem sind T (n) und Z (n) unabhängig.
Proposition
Seien T und Z unabhängige Zufallsvariablen mit T ∼ N (0, 1) und Z ∼ χ2(m) .
T (m) √
√
· m ∼ t(m)
Z (m)
Zusammenfassung
Seien X1 , . . . , Xn iid N (µ, σ)-verteilte Zufallsvariablen.
• Ist µ unbekannt und σ bekannt, so ist ein Schätzer für µ wie folgt gegeben.
X
(n)
n
=
1X
Xi
n i=1
mit X
(n)
∼N
σ
µ, √
n
• Ist σ unbekannt und µ bekannt, so ist ein Schätzer für σ wie folgt gegeben.
2
S (n) =
2
n
n σ 2 X Xi − µ
1X
(Xi − µ)2 =
n i=1
n i=1
σ
mit
n
2
· S (n) ∼ χ2(n)
2
σ
∼N (0,1)
• Ist σ 2 unbekannt und µ bekannt, so ist ein Schätzer für σ 2 wie folgt gegeben.
n
2
Sb(n)
n
1 X
σ2 X
(n) 2
=
Xi − X
=
n − 1 i=1
n − 1 i=1
60
Xi − X
σ
(n)
!2
mit
n − 1 b2
· S(n) ∼ χ2(n−1)
σ2
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
• Sind µ und σ unbekannt, so ist ein Schätzer für µ wie folgt gegeben.
X
(n)
n
=
1X
Xi
n i=1
Für Hypothesentests und Konfidenzintervalle nähme man jedoch folgenden Schätzer.
(n)
X −µ
√
√
σ/ n
r
· n − 1 ∼ t(n−1)
n − 1 b2
· Sn
σ2
6.5 Bedingte Verteilung von Zufallsvariablen
6.5.1 Bedingte Verteilung diskreter Zufallsvariablen
Erinnerung Seien E und F zwei Ereignisse. Dann ist die bedingte Wahrscheinlichkeit von E gegeben F
wie folgt definiert.

 P(E ∩ F ) , falls P(F ) > 0
P(F )
P(E | F ) =

0,
sonst
Erinnerung Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Dann sind die
marginalen Massenfunktionen pX und pY wie folgt gegeben.
X
X
pX (x) =
p(x, y) und pY (y) =
p(x, y)
y:p(x,y)>0
x:p(x,y)>0
Definition Seien X, Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Für x, y ∈ R heißt

 p(x | y) , falls p (y) > 0
Y
pY (y)
pX|Y (x | y) =

0,
sonst
die bedingte Massenfunktion von X gegeben Y .
Beispiel Seien X und Y unabhängige Zufallsvariablen, die Poisson-verteilt mit Parametern λ1 und λ2
sind. Gesucht wird die bedingte Massenfunktion von X gegeben {X + Y = n}.
Lösung
Unter der Tatsache, dass X und Y unabhängig sind (∗), gilt für 0 ≤ k ≤ n Folgendes.
pX|X+Y (k | n) = P[X = k | X + Y = n]
P[X = k, X + Y = n]
P[X + Y = n]
P[X = k, Y = n − k]
=
P[X + Y = n]
(∗) P[X = k] · P[Y = n − k]
=
P[X + Y = n]
#
k
" n−k
λ1 −λ1
λ2
−λ2
·e
·
·e
k!
(n − k)!
=
(λ1 + λ2 )n −(λ1 +λ2 )
·e
n!
k n−k −(λ1 +λ2 )
n!
λ1
λ2
e
=
·
·
· −(λ +λ )
(n − k)! · k!
λ1 + λ2
λ1 + λ2
e 1 2
k n−k
n
λ1
λ2
=
·
·
k
λ1 + λ2
λ1 + λ2
λ1
Also ist die bedingte Verteilung eine Binomialverteilung zu den Parametern n,
λ1 + λ2
=
61
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Allgemeiner Seien X und Y unabhängige Zufallsvariablen mit Randverteilung P[Y = y] > 0. Dann gilt
für die bedingte Massenfunktion von X gegeben Y Folgendes.
pX|Y (x | y) =
Bemerkung
p(x, y)
pX (x) · pY (y)
=
= pX (x)
pY (y)
pY (y)
mit
x∈R
Die bedingte Massenfunktion pX|Y (x | y) ist also durch die Randverteilung von X gegeben.
6.5.2 Bedingte Verteilung absolutstetiger Zufallsvariablen
Erinnerung Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Dann sind die
marginalen Dichten fX und fY wie folgt gegeben.
Z
Z
fX (x) =
f (x, y) dy und fY (y) =
f (x, y) dx
R
R
Definition Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Für x, y ∈ R heißt

 f (x, y) , falls f (y) > 0
Y
fY (y)
fX|Y (x | y) =

0,
sonst
die bedingte Dichte von X gegeben Y . Für ein Intervall A = [a, b] ⊆ R und x ∈ R setze
Z∞
Zb
P[X ∈ A | Y = y] =
fX|Y (x | y) dx
und FX|Y (x | y) =
fX|Y (t | y) dt
−∞
a
Beispiel Die gemeinsame Dichte der Zufallsvariablen X und Y sei wie folgt gegeben.
 −x/y −y
·e
e
, falls x, y > 0
f (x, y) =
y

0,
sonst
Im Folgenden soll P[X > 1 | Y = y] mit y ∈ R berechnet werden.
Lösung
Für die Randverteilung der Zufallsvariable Y gilt Folgendes.
Z∞
fY (y) =
e−x/y · e−y
dx = e−y
y
0
Z∞
h
i∞
e−x/y
dx = e−y · −e−x/y
= e−y
y
x=0
0
Für die bedingte Dichte von X gegeben Y mit x, y > 0 gilt somit Folgendes.
fX|Y (x | y) =
f (x, y)
e−x/y · e−y
e−x/y
=
=
fY (y)
y · e−y
y
Damit ist die gesuchte bedingte Wahrscheinlichkeit durch den folgenden Term gegeben.
Z∞
P[X > 1 | Y = y] =
Z∞
fX|Y (x | y) dx =
1
h
i∞
e−x/y
dx = −e−x/y
= e−1/y
y
x=1
1
Allgemeiner Seien X und Y unabhängige Zufallsvariablen mit Randverteilung fY (y) > 0. Dann gilt für
die bedingte Dichte von X gegeben Y Folgendes.
fX|Y (x | y) =
Bemerkung
f (x, y)
fX (x) · fY (y)
=
= fX (x)
fY (y)
fY (y)
mit
x∈R
Die bedingte Dichte fX|Y (x | y) ist also durch die Randverteilung von X gegeben.
62
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
7 Eigenschaften des Erwartungswertes
7.1 Erwartungswert der Summe von Zufallsvariablen
Erinnerung
Es sei X eine Zufallsvariable.
(i) Sei X diskret mit Massenfunktion p. Dann ist der Erwartungswert wie folgt definiert.
X
X
E[X] =
x · p(x), falls
|x| · p(x) < ∞
x:p(x)>0
x:p(x)>0
(ii) Sei X absolutstetig mit Dichte f . Dann ist der Erwartungswert wie folgt definiert.
Z
Z
E[X] =
x · f (x) dx, falls
|x| · f (x) dx < ∞
R
R
Allgemeiner Sei X eine Zufallsvariable und sei g : R → R eine reellwertige Funktion.
(i) Sei X diskret mit Massenfunktion p. Dann ist der Erwartungswert von g(X) wie folgt definiert.
X
X
E[g(X)] =
g(x) · p(x), falls
g(x) · p(x) < ∞
x:p(x)>0
x:p(x)>0
(ii) Sei X absolutstetig mit Dichte f . Dann ist der Erwartungswert von g(X) wie folgt definiert.
Z
Z
E[g(X)] =
g(x) · f (x) dx, falls
g(x) · f (x) dx < ∞
R
Proposition
R
2
Sei g : R → R eine Funktion so, dass g(X, Y ) eine Zufallsvariable ist.
(i) Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Dann gilt Folgendes.
X
X
E[g(X, Y )] =
g(x, y) · p(x, y), falls
|g(x, y)| · p(x, y) < ∞
x,y:p(x,y)>0
x,y:p(x,y)>0
(ii) Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Dann gilt Folgendes.




Z∞ Z∞
Z∞ Z∞

 |g(x, y)| · f (x, y) dx dy < ∞
E[g(X, Y )] =
g(x, y) · f (x, y) dx dy, falls
−∞
−∞
−∞
−∞
Beweis Es gelten die Voraussetzungen der Proposition.
(i) Auf den Beweis wird an dieser Stelle verzichtet.
(ii) Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f .
Zt
E[g(X, Y )] =
ZZ
P[g(X, Y ) > t] dt mit
P[g(X, Y ) > t] =
0
(x,y):g(x,y)>t
Z Z
g(x,y)
Z
=
Z Z
g(x, y) · f (x, y) dy dx
f (x, y) dt dy dx =
x
f (x, y) dy dx
y
x
t=0
y
Folgerungen
(i) Angenommen E[X] und E[Y ] existieren und sei g(x, y) = x + y.
Z∞ Z∞
Z∞ Z∞
Z∞ Z∞
E[X + Y ] =
(x + y) · f (x, y) dx dy =
x · f (x, y) dy dx +
y · f (x, y) dx dy
−∞ −∞
Z∞
=
−∞ −∞

Z∞
x
−∞
Z∞

f (x, y) dy  dx +
−∞

−∞
Z∞
y
−∞
Z∞
x · fX (x) dx +
=
Z∞
y · fY ((y)) dy
−∞
= E[X] + E[Y ]
63
−∞
−∞ −∞

f (x, y) dx dy
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
(ii) Angenommen es gilt X(ω) ≤ Y (ω) für alle ω ∈ Ω. Dann gilt
0 ≤ E(Y − X) = E(Y ) − E(X)
⇔
E(Y ) ≥ E(X)
D. h. der Erwartungswert ist ein lineares monotones Funktional.
Beispiel Ein Unfall ereignet sich an einem Punkt X auf [0, L]. Dabei sei X gleichverteilt auf [0, L]. Ein
Krankenwagen befindet sich zum Unfallzeitpunkt an einem Punkt Y , wobei Y ebenfalls gleichverteilt auf
[0, L] ist. X und Y seien unabhängig. Es soll E[|X − Y |] berechnet werden.
Lösung Da die Zufallsvariablen X und Y gleichverteilt auf [0, L] sind, folgt aufgrund der Unabhängigkeit
für die gemeinsame Dichte f = fX · fY und somit Folgendes.

 1 , falls (x, y) ∈ [0, L]2
f (x, y) = L2
0,
sonst
Damit ergibt sich für den gesuchten Erwartungswert Folgendes.
ZL ZL
E[|X − Y |] =
0
ZL ZL
1
1
|x − y| · 2 dy dx = 2
L
L
|x − y| dy dx
0
0
0
Der Term |x − y| lässt sich dabei wie folgt auffassen.
(
x − y, falls x ≥ y
|x − y| =
y − x, falls x ≤ y
Damit lässt sich das Integral nun aufsplitten. Man erhält also nun die folgende Darstellung.
ZL Zx
E[|X − Y |] =
(x − y) ·
0
1
dy dx +
L2
0
ZL ZL
(y − x) ·
0
x
1
dy dx
L2

 L x
Z Z
ZL ZL
1 
= 2
(x − y) dy dx +
(y − x) dy dx
L
0
2
= 2
L
ZL Zx
0
0
0
2
(x − y) dy dx = 2
L
0
x
ZL 1 2
2
x − x
dx
2
0
2 L3
L
= 2·
=
L
6
3
Beispiel Gegeben sei das Coupon-Problem. Es gebe N unterscheidbare Arten von Coupons, die man
(unabhängig von den vorhergehenden Versuchen) beliebig oft erhalten kann. Bei jedem Versuch erhält
man mit gleicher Wahrscheinlichkeit einen der N Coupons.
(i) Berechne die erwartete Anzahl verschiedener Coupons nach n Zügen.
(ii) Berechne die erwartete Anzahl der für eine vollständige Sammlung notwendigen Coupons.
Lösung
Es war N die Anzahl der unterscheidbaren Coupons.
(i) Es sei Ei das Ereignis, dass man mindestens einen Coupon vom Typ i nach n Zügen besitzt.
(
1, falls Ei eintritt
Xi = 1Ei =
für i = 1, . . . , N
0, sonst
Dann ist X := X1 + . . . + XN die Anzahl unterschiedlichen Coupons.
E[X] =
N
X
E[Xi ] = N · E[X1 ] = N · P(E1 ) = N · (1 −
i=1
64
P(E1C ))
=N · 1−
N −1
N
n Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
(ii) Für 0 ≤ i ≤ N − 1 sei Yi die Anzahl der Coupons, die benötigt werden, um einen neuen Coupon zu
erhalten, wenn man bereits i unterschiedliche Coupons hat. Dann ist Yi ∼ G((N − i)/N ).
k−1
i
N −i
P[Yi = k] =
·
N
N
P[Yi = k] ist also das Produkt der k − 1 Misserfolge und des Erfolges im k-ten Versuch. Also gilt
E[Y ] =
N
−1
X
i=0
N
N −i
7.2 Varianz, Kovarianz und Korrelation
Erinnerung Seien X und Y Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P) mit gemeinsamer Dichte f . Wir hatten gesehen, dass X und Y unabhängig sind, wenn beide N (0, 1)-verteilt sind.
Var(X + Y ) = Var(X) + Var(Y )
Lemma Seien X und Y unabhängige Zufallsvariablen. Seien g, h : R → R Funktionen mit
E[|g(X)|] < ∞ und E[|h(Y )|] < ∞
Dann gilt für den Erwartungswert des Produkts g(X) · h(Y ) Folgendes.
E[g(X) · h(Y )] = E[g(X)] · E[h(Y )]
Beweis Angenommen X und Y seien gemeinsam absolutstetig verteilt mit der gemeinsamen Dichte f .
Z∞ Z∞
E[g(X) · h(Y )] =
g(x) · h(y) · fX (x) · fY (y) dx dy
−∞ −∞
Z∞

Z∞
h(y) · fY (y) 
=
−∞
Z∞

g(x) · fX (x) dx dy
−∞
h(y) · fY (y) · E[g(X)] dy
=
−∞
Z∞
= E[g(X)]
h(y) · fY (y) dy
−∞
= E[g(X)] · E[h(Y )]
Definition Seien X und Y Zufallsvariablen mit endlicher Varianz, sprich es gilt Folgendes.
Var(X) < ∞ und
Var(Y ) < ∞
Dann ist die Kovarianz von X und Y wie folgt definiert.
Cov(X, Y ) = E[(X − E(X)) · (Y − E(Y ))]
Sei Cov(X, Y ) = 0. Dann heißen X und Y unkorreliert.
Satz Seien X und Y Zufallsvariablen mit endlicher Varianz. Dann gilt der Verschiebungssatz.
Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ]
Beweis Um den Verschiebungssatz der Kovarianz zu beweisen, werden die lineare Transformation und
die Additivität des Erwartungswertes verwendet.
Cov(X, Y ) = E[X · Y − X · E[Y ] − Y · E[X] + E[X] · E[Y ]]
= E[X · Y ] − E[X] · E[Y ] − E[X] · E[Y ] + E[X] · E[Y ]
= E[X · Y ] − E[X] · E[Y ]
65
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Lemma Seien X und Y unabhängig Zufallsvariable. Dann sind X und X unkorreliert.
Cov(X, Y ) = 0
Beweis Für unabhängige Zufallsvariablen X und Y ist der Erwartungswert des Produkts X · Y dieser
Zufallsvariablen das Produkt der Erwartungswerte von X und Y . (∗)
(∗)
Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] = E[X] · E[Y ] − E[X] · E[Y ] = 0
Bemerkung
Die Umkehrung dieser Aussage gilt in der Regel jedoch nicht.
Beispiel Sei X eine Zufallsvariable, sodass P[X = 0] = P[X = 1] = P[X = −1] = 1/3. Sei
(
1, falls X = 0
Y = 1{X=0} =
0, sonst
Nun gilt also X · Y = 0 und somit auch E[X · Y ] = 0. Also gilt ebenfalls E[X] = 0 und damit auch
Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] = 0
Andererseits sind X und Y jedoch nicht unabhängig, da Folgendes gilt.
P[X = 0, Y = 1] = P[X = 0] =
1
1
1 1
6= = · = P[X = 0] · P[Y = 1]
3
9
3 3
Lemma Seien X und Y normalverteilte Zufallsvariablen, welche unkorreliert sind.
X, Y ∼ N (µ, σ)
und
Cov(X, Y ) = 0
Dann gilt, dass die Zufallsvariablen X und Y unabhängig sind.
Beweis Auf den Beweis wird an dieser Stelle verzichtet.
Beispiel Es seien die folgenden Aktienkurse gegeben.
• Sei S00 ∈ R+ der heutige Aktienkurs von VW.
• Sei S10 ∈ R+ der morgige Aktienkurs von VW.
• Sei S01 ∈ R+ der heutige Aktienkurs von BMW.
• Sei S11 ∈ R+ der morgige Aktienkurs von BMW.
Ein Modell für die Kursentwicklung ist dann wie folgt gegeben.
R0 =
√
√
S10 − S00
= µ0 + λ · Z1 + 1 − λ · Z2
S00
und R1 =
∼N (0,1)
p
S11 − S01
√
= µ1 + η · Z1 + 1 − η · Z3
S01
∼N (0,1)
Dabei seien Z1 , Z2 , Z3 unabhängige Zufallsvariablen mit Z1 , Z2 , Z3 ∼ N (0, 1) und λ, η ∈ (0, 1). In beiden
Fällen ist die Rendite gegeben durch die erwarte Rendite mit N (0, 1). Nun berechnet man für µ0 −µ1 = 0
und λ = η = 1/2 die Kovarianz wie folgt.
Cov(R0 , R1 ) = E[R0 · R1 ] − E[R0 ] · E[R1 ] = E[R0 · R1 ]
#
"r
r
1
1
· (Z1 + Z2 ) ·
· (Z1 + Z3 )
=E
2
2
=
=
=
=
=
mit
E[R0 ] · E[R1 ] = 0
1
· E[Z12 + Z1 · (Z2 + Z3 ) + Z2 · Z3 ]
2
1
E[Z12 ] + E[Z1 · (Z2 + Z3 )] + E[Z2 · Z3 ]
mit E[Z12 ] = 1
2
1
(1 + E[Z1 ] · E[Z2 + Z3 ] + E[Z2 ] · E[Z3 ]) mit E[Z2 ] · E[Z3 ] = 0
2
1
(1 + E[Z1 ] · (E[Z2 ] · E[Z3 ])) mit E[Z2 ] · E[Z3 ] = 0
2
1
2
66
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Beispiel Seien A und B zwei Ereignisse. Seien X und Y Zufallsvariablen, die wie folgt gegeben sind.
(
(
1, falls A eintritt
1, falls B eintritt
X = 1A =
und Y = 1B =
0, sonst
0, sonst
Dann gilt für den Erwartungswert des Produktes von X und Y Folgendes.
E(X · Y ) = E(1A∩B ) = P(A ∩ B)
Somit gilt nach dem Verschiebungssatz für die Kovarianz Folgendes.
P(A ∩ B)
− P(A) = P(B) · (P(A | B) − P(A))
Cov(X, Y ) = P(A ∩ B) − P(A) · P(B) = P(B)
P(B)
Somit nimmt die Kovarianz von X und Y folgende Werte an.


> 0, falls P(A | B) > P(A)
Cov(X, Y ) = 0, falls P(A | B) = P(A)


< 0, falls P(A | B) < P(A)
Proposition
Seien X, Y, X1 , . . . , Xn , Y1 , . . . , Ym Zufallsvariablen. Sei α ∈ R. Dann gilt
(i) Cov(X, Y ) = Cov(Y, X)
(ii) Cov(X, X) = Var(X)
(iii) Cov(αX, Y ) = α · Cov(X, Y )
P
P
Pm
n
n Pn
(iv) Cov
i=1 Xi ,
j=1 Yj =
i=1
j=1 Cov(Xi , Yj )
Beweis Nach dem Verschiebungssatz gilt Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ].
(i) Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] = E[Y · X] − E[Y ] · E[X] = Cov(Y, X)
(ii) Cov(X, X) = E[X · X] − E[X] · E[X] = E[X 2 ] − E[X]2 = Var(X)
(iii) Cov(αX, Y ) = E[(αX) · Y ] − E[αX] · E[Y ] = α (E[X · Y ] − E[X] · E[Y ]) = α · Cov(X, Y )
(iv) Seien E[Xi ] = µi und E[Yj ] = νj . Dann gilt für die Summe der Zufallsvariablen Folgendes.


" n
#
n
m
m
X
X
X
X
E
Xi =
µi und E 
Yj  =
νj
i=1
i=1
j=1
j=1
Somit gilt durch Anwenden der Definition der Kovarianz Folgendes.




! m
n
m
n
n
m
X
X
X
X
X
X
Xi ,
Yj  = E 
Xi −
µi · 
Yj −
νj  
Cov 
i=1
j=1
i=1

i=1
j=1
! 
n
X
= E
(Xi − µi )
i=1

m
X
·  (Yj − νj )
j=1


n X
m
X
= E
(Xi − µi ) · (Yj − νj )
i=1 j=1
=
=
n X
m
X
i=1 j=1
n X
m
X
E[(Xi − µi ) · (Yj − νj )]
Cov(Xi , Yj )
i=1 j=1
67
j=1
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Korollar Seien X1 , . . . , Xn Zufallsvariablen. Dann gilt für die Varianz der Summe dieser Xi Folgendes.
!
n
n
X
X
XX
Var
Xi =
Var(Xi ) + 2
Cov(Xi , Xj )
i=1
i=1
i<j
Beweis Man verwendet (ii) und (iv) aus der obigen Proposition und setzt Yj = Xj für j = 1, . . . , n.


!
n
n
n
n X
n
X
X
X
X
Var
Xi = Cov 
Xi ,
Xj  =
Cov(Xi , Xj )
i=1
i=1
=
XX
j=1
i=1 j=1
Cov(Xi , Xj ) +
XX
i=j
=
n
X
Var(Xi ) +
XX
i=1
=
Cov(Xi , Xj )
i6=j
Cov(Xi , Xj )
i6=j
n
X
Var(Xi ) + 2
XX
i=1
Cov(Xi , Xj )
i<j
Korollar Seien X1 , . . . , Xn paarweise unkorrelierte Zufallsvariablen, d. h. es gilt Cov(Xi , Xj ) = 0 für
alle i 6= j. Dann gilt die Gleichung von Bienaymé.
!
n
n
X
X
Var
Xi =
Var(Xi )
i=1
i=1
Beweis Um die Gleichung von Bienaymé zu beweisen, verwendet man das obige Korollar und beachtet
dabei, dass die Zufallsvariablen paarweise unkorreliert sind.
!
n
n
n
X
XX
X
X
Var(Xi ) + 2
Cov(Xi , Xj ) =
Var
Xi =
Var(Xi )
i=1
i=1
i<j
=0
i=1
Beispiel Gegeben sei das Hutproblem (Kapitel 2.4). Im Folgenden soll die Varianz der Anzahl der Leute,
die ihren eigenen Hut bekommen, berechnet werden.
Lösung Für i = 1, . . . , N sei Ei das Ereignis, dass die Person i seinen Hut bekommt und Xi = 1Ei .
Dann ist X = X1 + . . . + XN die Anzahl der Personen, die ihren Hut bekommen. Es gilt also
Var(X) =
N
X
Var(Xi ) + 2
i=1
XX
Cov(Xi , Xj )
i<j
Für die Varianz jeder einzelnen Zufallsvariable Xi gilt für alle i = 1, . . . , N Folgendes.
1
1
1−
Var(Xi ) =
N
N
Für die Kovarianz der einzelnen Zufallsvariablen gilt mit dem Verschiebungssatz Folgendes.
Cov(Xi , Xj ) = E[Xi · Xj ] − E[Xi ] · E[Xj ] = P[Xi = 1, Xj = 1] −
1 1
·
N N
Die verbleibende Wahrscheinlichkeit lässt sich mittels der bedingten Wahrscheinlichkeit berechnen.
P[Xi = 1, Xj = 1] = P[Xi = 1 | Xj = 1] · P[Xj = 1] =
1
1
·
N −1 N
Damit ergibt sich durch Einsetzen der einzelnen Terme die gesuchte Varianz.
Var(X) =
N −1
1
+ 2
· (N 2 − N ) = 1
N
N −1
68
für alle
i 6= j
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Definition Seien X und Y Zufallsvariablen mit endlicher Varianz, sprich es gilt Folgendes.
Var(X) < ∞ und
Var(Y ) < ∞
Dann ist der Korrelationskoeffizient von X und Y wie folgt definiert.
%(X, Y ) = p
Cov(X, Y )
Var(X) · Var(Y )
∈ [−1, 1]
7.3 Bedingte Erwartung von Zufallsvariablen
Motivation Seien X und Y Zufallsvariablen mit gemeinsamer Dichte f .
Z
Z∞
P[X ∈ A] =
Z∞ Z
Z∞ Z
f (x, y) dy dx =
A
−∞
Z∞ =
−∞
−∞
fX|Y (x | y) dx
P[X ∈ A | Y = y] · fY (y) dy
dy =
A
−∞
A
Z∞
Z
fY (y)
fX|Y (x | y) · fY (y) dx dy
f (x, y) dx dy =
A
−∞
Um die Wahrscheinlichkeit von X ∈ A zu erhalten, muss zunächst die bedingte Wahrscheinlichkeit
berechnet werden und dann muss man die Bedingung wieder ’wegintegrieren’.
Ziel Analoges Vorgehen auf der Ebene von Erwartungswerten
Beispiel Seien N, X1 , . . . , Xn unabhängige Zufallsvariablen. Seien alle Xi für i = 1, . . . , n identisch
verteilt und sei N ∈ N. Dann ist N (ω) die Anzahl von Schäden und Xi der Schaden des i-ten Unfalls für
i = 1, . . . , n. Dann ist die Gesamtschadenshöhe wie folgt gegeben.
N (ω)
Y (ω) =
X
Xi (ω)
i=1
Wie groß ist nun der Erwartungswert der Zufallsvaribale Y ?
Lösung Man konditioniere auf En = {N = n}. Da alle Xi für i = 1, . . . , n identisch verteilt sind (∗),
gilt für den Erwartungswert der Summe der Zufallsvariablen somit Folgendes.
" n
#
X
(∗)
E
Xi = n · E[X1 ] =: n · µ
i=1
Mit der Wahrscheinlichkeit pn ist die Schadenshöhe n · µ. Im Mittel ist die Schadenshöhe dann wie folgt.
X
X
pn · n · µ = µ
n · pn = µ · E[N ] = E[X1 ] · . . . · E[N ]
n∈N
n∈N
7.3.1 Bedingte Erwartung diskreter Zufallsvariablen
Erinnerung Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Die bedingte
Massenfunktion von X gegeben Y = y war dann wie folgt definiert.
pX|Y (x | y) = P[X = x | Y = y] =
p(x, y)
pY (y)
Definition Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Für y ∈ R ist
die bedingte Erwartung von X gegeben Y = y wie folgt definiert.
X
E[X | Y = y] =
x · pX|Y (x | y)
x:p(x)>0
Beispiel Seien X und Y unabhängige Zufallsvariablen mit X, Y ∼ B(n, p). Es soll der bedingte Erwartungswert von X gegeben X + Y = m berechnet werden.
69
Prof. Dr. Ulrich Horst
Lösung
Stochastik
WS 2013/2014
Da X und Y binomialverteilte Zufallsvariablen sind, gilt für die Summe dieser Folgendes.
X + Y ∼ B(2n, p)
Damit gilt für die bedingte Massenfunktion pX|X+Y von X gegeben X + Y Folgendes.
P[X = k, X + Y = m]
P[X = k] · P[Y = m − k]
=
P[X + Y = m]
P[X + Y = m]
n
n
· pk · (1 − p)n−k ·
· pm−k · (1 − p)n−m+k
k
m−k
=
2n
· pm · (1 − p)2n−m
m
n
n
·
k
m−k
=
⇒ X | X + Y ∼ h(m, 2n, n)
2n
m
pX|X+Y (k | m) =
e mit X
e ∼ h(n, N, m) ist wie folgt gegeben.
Der Erwartungswert einer Zufallsvariable X
h i
e =n· m
E X
N
Damit gilt für den Erwartungswert von X | X + Y ∼ h(m, 2n, n) Folgendes.
E[X | X + Y = m] = m ·
n
m
=
2n
2
7.3.2 Bedingte Erwartung absolutstetiger Zufallsvariablen
Definition Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Für y ∈ R ist die
bedingte Erwartung von X gegeben Y = y wie folgt definiert.
Z∞
E[X | Y = y] =
x · fX|Y (x | y) dx
−∞
Beispiel Seien X und Y gemeinsam absolutstetig verteilt mit gemeinsamer Dichte f .

 1 · e−x/y · e−y , falls x, y ≥ 0
f (x, y) = y
0,
sonst
Im Folgenden soll E[X | Y = y] berechnet werden.
Lösung
Um den Erwartungswert zu berechnen, berechnet man zunächst die Randverteilung fY (y).
Z∞
fY (y) =
1 −x/y −y
1
·e
· e dx = · e−y
y
y
0
Z∞
e−x/y dx =
i∞
1 −y h
· e · −y · e−x/y
= e−y
y
x=0
0
Somit gilt für die bedingte Dichte fX|Y nun Folgendes.

 1 · e−x/y , falls x > 0
fX|Y (x | y) = y
0,
sonst
D. h. es gilt X | Y = y ∼ E(1/y), womit sich der folgende Erwartungswert ergibt.
E[X | Y = y] = y
Definition Seien X und Y Zufallsvariablen. Dann ist die bedingte Erwartung von X gegeben Y
E[X | Y ] : Ω → R
mit E[X | Y ](ω) = E[X | Y = Y (ω)]
selbst wieder eine Zufallsvariable, da sie noch von der Zufallsvariable Y abhängt.
70
Prof. Dr. Ulrich Horst
Bemerkung
Stochastik
WS 2013/2014
Im letzten Beispiel gilt somit für alle ω ∈ Ω Folgendes.
E[X | Y ](ω) = Y (ω)
Proposition
Seien X und Y Zufallsvariablen. Dann gilt für den Erwartungswert von X Folgendes.
E[X] = E[E[X | Y ]]
(i) Ist Y eine diskrete Zufallsvariable, so gilt für die obige Gleichung Folgendes.
X
E[X] =
E[X | Y = y] · py (y)
y
(ii) Ist Y eine absolutstetige Zufallsvariable, so gilt für die obige Gleichung Folgendes.
Z∞
E[X | Y = y] · fY (y) dy
E[X] =
−∞
Beweis
(i) Seien X und Y beide diskrete Zufallsvariablen, so gilt Folgendes.
X
XX
XX
E[E[X | Y ]] =
E[X | Y = y] · pY (y) =
x · pX|Y (x | y) · pY (y) =
x · p(x, y)
y
=
y
XX
x
x
y
x
X X
X
x · p(x, y) =
x
p(x, y) =
x · pX (x) = E[X]
y
x
y
x
(ii) Seien X und Y beide absolutstetige Zufallsvariablen, so gilt Folgendes.
Z∞
E[E[X | Y ]] =
Z∞ Z∞
E[X | Y = y] · fY (y) dy =
−∞
Z∞
x · fX|Y (x | y) · fY (y) dx dy
−∞ −∞
Z∞ Z∞
Z∞
x · f (x, y) dx dy =
=
−∞ −∞
Z∞
=

Z∞
x
−∞
x · f (x, y) dy dx
−∞ −∞

Z∞
x · fX (x) dx = E[X]
f (x, y) dy  dx =
−∞
−∞
Bemerkung Um den Erwartungswert von X zu berechnen, kann man ein gewichtetes Mittel des Erwartungswertes von X gegeben Y = y nehmen, wobei jeder der Terme E[X | Y = y] durch die Wahrscheinlichkeit des Ereignisses, auf dem es konditioniert ist, gewichtet sei. Dies ist ein äußerst nützliches
Ergebnis, welches es einem oft ermöglicht die Erwartungswerte leicht zu berechnen indem man zuerst
einige geeignete Zufallsvariablen konditioniert.
Bemerkung
Im einführenden Beispiel galt für den Erwartungswert der Zufallsvariablen Y Folgendes.
"N
#
X
E[Y ] = E
Xi
für N ∼ π(λ)
i=1
Diesen Erwartungswert kann man nun wie folgt durch Konditionierung berechnen.
" "N
##
X
X
X
E[Y ] = E E
Xi | N = m =
n · µ · P[N = m] = µ ·
n · P[N = m] = µ · E[N ] = µ · λ
i=1
n
n≥0
71
Prof. Dr. Ulrich Horst
Stochastik
WS 2013/2014
Quellen
Dieses Skript basiert auf den Inhalten der Vorlesung Stochastik, gehalten durch Prof. Dr. Ulrich Horst,
sowie auf den Grundlagen der folgenden Literatur.
• Ross, S.: A first course in probability. Pearson, 2009
• Ghahramani, S.: Fundamentals of probability. Pearson, 2004
Die verwendeten Grafiken wurden mithilfe der dynamischen Geometrie-Software GeoGebra erstellt.
72
Herunterladen