Statistik III

Werbung
Statistik III
Walter Zucchini
Fred Böker
Andreas Stadie
18. April 2006
Inhaltsverzeichnis
1 Zufallsvariablen und ihre Verteilung
1
1.1
Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Die Verteilungsfunktion einer Zufallsvariablen . . . . . . . . . . . . . . . .
6
2 Erwartungswert
12
2.1
Erwartungswert einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . .
12
2.2
Erwartungswert einer Funktion einer Zufallsvariablen . . . . . . . . . . . .
17
2.3
Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.4
Die Varianz einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . .
20
3 Stetige Verteilungen
23
3.1
Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.2
Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.3
Gammaverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.4
Chiquadratverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.5
Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.6
Betaverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4 Diskrete Verteilungen
60
4.1
Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.2
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
4.3
Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
4.4
Die negative Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . .
66
4.5
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
5 Beziehungen zwischen Verteilungen
5.1
74
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
5.1.1
74
Bernoulli-Verteilung, Binomialverteilung . . . . . . . . . . . . . .
I
II
Inhaltsverzeichnis
5.2
5.1.2
Bernoulli-Verteilung, Geometrische Verteilung . . . . . . . . . . .
75
5.1.3
Bernoulli-Verteilung, Negative Binomialverteilung . . . . . . . . .
75
5.1.4
Geometrische Verteilung, Negative Binomialverteilung . . . . . . .
75
5.1.5
Binomialverteilung, Poissonverteilung . . . . . . . . . . . . . . . .
76
5.1.6
Binomialverteilung, Normalverteilung . . . . . . . . . . . . . . . .
77
5.1.7
Negative Binomialverteilung, Normalverteilung . . . . . . . . . . .
77
5.1.8
Summen poissonverteilter Zufallsvariablen . . . . . . . . . . . . .
78
5.1.9
Poissonverteilung, Normalverteilung . . . . . . . . . . . . . . . . .
78
Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
5.2.1
Exponentialverteilung, Gammaverteilung, Normalverteilung . . . .
79
5.2.2
Summe von gammaverteilten Zufallsvariablen . . . . . . . . . . . .
79
2
5.2.3
Gammaverteilung, χ -Verteilung, Normalverteilung . . . . . . . .
80
5.2.4
Summen normalverteilter Zufallsvariablen . . . . . . . . . . . . .
80
5.2.5
Normalverteilung, χ2 -Verteilung . . . . . . . . . . . . . . . . . . .
81
5.2.6
Normalverteilung, t-Verteilung . . . . . . . . . . . . . . . . . . . .
82
5.2.7
Normalverteilung, F-Verteilung . . . . . . . . . . . . . . . . . . .
85
5.2.8
Normalverteilung, Lognormalverteilung . . . . . . . . . . . . . . .
87
6 Gemeinsame Verteilung von Zufallsvariablen
6.1
90
Gemeinsame Verteilungen zweier Zufallsvariablen . . . . . . . . . . . . .
90
6.1.1
Gemeinsame Verteilung zweier diskreter Zufallsvariablen . . . . .
91
6.1.2
Gemeinsame Verteilung zweier stetiger Zufallsvariablen . . . . . .
92
6.1.3
Die gemeinsame Verteilungsfunktion . . . . . . . . . . . . . . . .
98
6.2
Gemeinsame Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . .
102
6.3
Bedingte Verteilungen, Unabhängigkeit . . . . . . . . . . . . . . . . . . .
110
6.3.1
Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . .
110
6.3.2
Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
116
Die bivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . .
119
6.4
7 p-dimensionale Zufallsvariablen
125
7.1
Definitionen, Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . .
125
7.2
Die p-dimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . .
130
7.3
Summen und Linearkombinationen von Zufallsvariablen . . . . . . . . . .
134
7.4
Weiteres zur multivariaten Normalverteilung . . . . . . . . . . . . . . . . .
136
8 Schätzung von Parametern
8.1
Schätzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
142
142
Inhaltsverzeichnis
8.2
III
8.1.1
Die Methode der Momente . . . . . . . . . . . . . . . . . . . . . .
142
8.1.2
Die Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . .
144
Einige Eigenschaften von Schätzern . . . . . . . . . . . . . . . . . . . . .
150
8.2.1
Erwartungstreue, Bias . . . . . . . . . . . . . . . . . . . . . . . .
150
8.2.2
Standardfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . .
152
8.2.3
Mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . .
154
8.2.4
Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
155
8.2.5
Effizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
158
9 Mischverteilungen
160
9.1
Diskrete Mischung diskreter Verteilungen . . . . . . . . . . . . . . . . . .
160
9.2
Diskrete Mischung stetiger Verteilungen . . . . . . . . . . . . . . . . . . .
166
9.3
Stetige Mischungen diskreter Verteilungen . . . . . . . . . . . . . . . . . .
173
9.3.1
Die Beta-Binomialverteilung . . . . . . . . . . . . . . . . . . . . .
173
9.3.2
Die negative Binomialverteilung . . . . . . . . . . . . . . . . . . .
177
ML–Schätzung bei Mischverteilungen . . . . . . . . . . . . . . . . . . . .
179
9.4.1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
179
9.4.2
Die Likelihoodfunktion für Mischverteilungen . . . . . . . . . . .
179
9.4.3
Parameterschätzung mit C.A.MAN . . . . . . . . . . . . . . . . .
182
9.4
10 Bayes’sche Verfahren
186
10.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
186
10.2 Das Theorem von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . .
186
10.3 Bayes’sche Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
190
10.4 Bemerkungen zu konjugierten Verteilungen . . . . . . . . . . . . . . . . .
205
Literatur
208
Index
210
Formeln
216
Kapitel 1
Zufallsvariablen und ihre Verteilung
1.1 Diskrete Zufallsvariablen
Definition 1.1 Eine Zufallsvariable X heißt diskret, wenn sie nur endlich viele oder
höchstens abzählbar unendlich viele Werte annehmen kann.
Beispiel 1.1 Wir betrachten drei Situationen, die sich in den Bereichen der möglichen Werte unterscheiden.
a) Eine Münze wird zweimal geworfen. Sei X die Anzahl der dabei geworfenen ,,Köpfe”. Die
möglichen Werte dieser Zufallsvariablen sind: 0, 1, 2.
b) Eine Münze wird so lange geworfen, bis zum ersten mal ,,Zahl” erscheint. X sei die Anzahl der
bis dahin geworfenen ,,Köpfe”. Die möglichen Werte dieser Zufallsvariablen sind: 0, 1, 2, . . . .
c) Sei X die Anzahl der Autos, die eine Firma im n¨achsten Jahr verkauft. Die möglichen Werte
dieser Zufallsvariablen sind: 0, 1, . . . , N. (Dabei sei N die Anzahl der maximal produzierbaren
Autos.)
Definition 1.2 Sei X eine diskrete Zufallsvariable. Die Funktion PX mit
PX (x) = P ({X = x})
heißt die Wahrscheinlichkeitsfunktion von X.
Wir wollen die Wahrscheinlichkeitsfunktionen für die drei Situationen aus Beispiel 1.1 bestimmen.
Beispiel 1.1 a:
Wir gehen von der Annahme aus, dass die Münze fair ist, d.h. beide Seiten der Münze, die wir mit K
für ,,Kopf” und Z für ,,Zahl” bezeichnen, haben die gleiche Chance aufzutreffen.
Möglichkeiten:
Werte von X :
Wahrscheinlichkeit:
(ZZ)
0
1/4
1
(ZK)
1
1/4
(KZ)
1
1/4
(KK)
2
1/4
2
KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG
Fasst man gleiche Werte von X zusammen, so ergibt sich:
x
0
1
2
P ({X = x})
1/4
1/2
1/4
Dafür schreibt man auch


1/4


 1/2
x=0
x=1
PX (x) =

1/4 x = 2



0
sonst .
Abbildung 1.1 zeigt eine graphische Darstellung der Wahrscheinlichkeitsfunktion. Die Höhe der
St¨abe entspricht den Wahrscheinlichkeiten.
1.0
P(x)
0.8
0.6
0.4
0.2
0.0
-1
0
1
2
3
x (Anzahl der Koepfe)
Abbildung 1.1: Wahrscheinlichkeitsfunktion für die Anzahl der Köpfe beim zweifachen
Münzwurf
Beispiel 1.1 b:
Die folgende Tabelle gibt die möglichen Wurffolgen bis zur ersten ,,Zahl” und die zugehörigen Wahrscheinlichkeiten an.
Wurffolge
Z
KZ
KKZ
..
.
Wahrscheinlichkeit
1/2
1/4
1/8
..
.
Anzahl ,,Köpfe”
x=0
x=1
x=2
..
.
(1/2)k+1
x=k
K...KZ
Damit ist die Wahrscheinlichkeitsfunktion von X gegeben durch
PX (x) =
(
(1/2)x+1 für x = 0, 1, 2, ...
0
sonst .
Abbildung 1.2 zeigt den Graphen der Wahrscheinlichkeitsfunktion.
1.2. STETIGE ZUFALLSVARIABLEN
3
1.0
P(x)
0.8
0.6
0.4
0.2
0.0
-1 0
1
2
3
4
5
6
7
8
9 10
x (Anzahl der Koepfe vor Zahl)
Abbildung 1.2: Wahrscheinlichkeitsfunktion für die Anzahl der Köpfe vor der ersten Zahl
Beispiel 1.1 c:
In diesem Beispiel können wir ohne zus¨atzliche Information keine Wahrscheinlichkeitsfunktion aufstellen.
Satz 1.1 Eine Wahrscheinlichkeitsfunktion hat die Eigenschaften:
a) PX (x) ≥ 0 für alle x ,
b) PX (x) > 0 für höchstens abzählbar unendlich viele x ,
c)
P
x
PX (x) = 1 .
Bei diskreten Zufallsvariablen gibt es Lücken zwischen den einzelnen Werten, d.h. Werte,
die die Zufallsvariable nicht annehmen kann.
1.2 Stetige Zufallsvariablen
Es gibt auch Zufallsvariablen, die im Prinzip jeden Zwischenwert annehmen können, z.B.
• Temperatur am Mittag
• Marktanteil
• Umsatz
Solche Zufallsvariablen heißen stetig. Man verwendet eine Dichtefunktion, um Wahrscheinlichkeiten zu beschreiben.
4
KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG
Definition 1.3 Die Dichtefunktion fX einer stetigen Zufallsvariablen X hat die Eigenschaften
a) fX (x) ≥ 0
b)
∞
R
−∞
für alle x,
fX (x)dx = 1,
c) P ({a ≤ X ≤ b}) =
Rb
a
für alle a und b mit a ≤ b.
fX (x)dx
Die in Definition 1.3 erwähnte Wahrscheinlichkeit kann aufgefasst werden als Fläche unterhalb der Dichtefunktion zwischen den Punkten a und b (siehe Abbildung 1.3).
0.5
f(x)
0.4
0.3
0.2
P({a<X<b})
0.1
0.0
-4
-2
a
0
2
b
4
x
Abbildung 1.3: Wahrscheinlichkeit als Fläche unter der Dichtefunktion
Eine stetige Zufallsvariable kann jeden möglichen Wert in dem Bereich annehmen, in dem
fX (x) > 0 ist. Wichtig ist jedoch die folgende Eigenschaft stetiger Zufallsvariablen. Sei X
eine stetige Zufallsvariable und x0 ein beliebiger Wert. Dann ist
P ({X = x0 }) = 0 .
Das bedeutet, die Wahrscheinlichkeit, dass eine stetige Zufallsvariable einen ganz bestimmten Wert x0 annimmt, ist gleich Null. Man erinnere sich daran, dass eine diskrete Zufallsvariable jeden ihrer möglichen Werte mit positiver Wahrscheinlichkeit annehmen kann.
Für stetige Zufallsvariablen gilt damit für alle a und b mit a ≤ b
P ({a ≤ X ≤ b}) = P ({a < X ≤ b}) = P ({a ≤ X < b}) = P ({a < X < b}) .
Überzeugen Sie sich, dass diese Eigenschaft für diskrete Zufallsvariablen nicht gilt, indem
Sie die obigen Wahrscheinlichkeiten für Beispiel 1.1 a mit a = 0 und b = 2 ausrechnen.
Eine Dichtefunktion beschreibt das Verhalten einer stetigen Zufallsvariablen. Man kann sie
auch als die Antwort auf Fragen folgender Art ansehen:
1.2. STETIGE ZUFALLSVARIABLEN
5
Wie groß wird unser Marktanteil im nächsten Jahr sein (wenn wir, wie bis jetzt, weitermachen)?
Solche Fragen haben keine einfachen Antworten, wie z.B. 23.4%.
0.10
f(x)
0.08
0.06
0.04
0.02
0.0
0
10
20
30
40
50
x (Marktanteil in %)
Abbildung 1.4: Mögliche Dichtefunktion für den Marktanteil im nächsten Jahr
Der genaue Anteil wird von vielen und komplexen Faktoren abh¨angen, z.B. politischen Faktoren, dem
Klima und anderen zuf¨alligen Einflüssen, die man nicht im voraus wissen kann. Man ist höchstens in
der Lage, die möglichen Werte zu bestimmen und anhand statistischer Methoden ihr wahrscheinliches
Verhalten zu sch¨atzen. Die Antwort auf solche Fragen beschreibt man mit Hilfe einer Dichtefunktion.
So könnte der Marktanteil im n¨achsten Jahr durch die Dichtefunktion in Abbildung 1.4 gegeben sein.
0.10
f(x)
0.08
0.06
0.04
P({X<20})
0.02
0.0
0
10
20
30
40
50
x (Marktanteil in %)
Abbildung 1.5: P ({X < 20}) als Fläche unterhalb der Dichtefunktion
Um Entscheidungen zu treffen, muss man mit Wahrscheinlichkeiten arbeiten. Solch eine Entscheidung könnte z.B. sein: Soll man jetzt etwas dagegen unternehmen, dass der Marktanteil im n¨achsten
Jahr nicht unter 20% sinkt oder sollen wir jetzt nichts unternehmen. Dazu muss man wissen, wie groß
diese Wahrscheinlichkeit ist. Kennt man die zugehörige Dichtefunktion, so ist diese Wahrscheinlichkeit gegeben durch
P ({X < 20}) =
Z20
−∞
fX (x)dx .
6
KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG
Diese Wahrscheinlichkeit entspricht der Fl¨ache unterhalb der Dichtefunktion links von 20 (siehe Abbildung 1.5).
1.3 Die Verteilungsfunktion einer Zufallsvariablen
Definition 1.4 Die Verteilungsfunktion einer Zufallsvariablen X ist definiert durch
FX (t) = P ({X ≤ t})
t ∈ IR .
Diese Definition gilt für eine beliebige Zufallsvariable, egal ob diese stetig oder diskret ist.
0.5
f(x)
0.4
0.3
0.2
F(t)
0.1
0.0
0
2
t
4
6
8
10
x
Abbildung 1.6: Verteilungsfunktion F (t) als Fläche unterhalb der Dichtefunktion
Satz 1.2
a) Für eine stetige Zufallsvariable X mit Dichtefunktion fX (x) gilt
FX (t) =
Zt
fX (x)dx .
−∞
b) Für eine diskrete Zufallsvariable X mit Wahrscheinlichkeitsfunktion PX (x) gilt
FX (t) =
X
x≤t
PX (x) .
1.3. DIE VERTEILUNGSFUNKTION EINER ZUFALLSVARIABLEN
7
Bei einer stetigen Zufallsvariablen kann man sich unter der Verteilungsfunktion die Fläche
unterhalb der Dichtefunktion von −∞ bis t vorstellen (siehe Abbildung 1.6).
Beispiel 1.2 (Exponentialverteilung mit Parameter λ = 1) Die Dichtefunktion der Zufallsvariablen X sei gegeben durch
fX (x) =
(
e−x für x ≥ 0
0
sonst .
1.5
f(x)
1.0
0.5
0.0
0
1
2
3
4
5
x
Abbildung 1.7: Dichtefunktion der Exponentialverteilung mit dem Parameter λ = 1
1.0
F(t)
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
5
t
Abbildung 1.8: Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ = 1
Dann ist die Verteilungsfunktion
FX (t) =
Zt
fX (x)dx .
−∞
Dieses Integral ist 0 für t < 0. Für t ≥ 0 erh¨alt man
Zt
0
e−x dx = −e−x
t
0
= (−e−t ) − (−e−0 ) = −e−t + 1 = 1 − e−t .
8
KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG
Damit gilt für die Verteilungsfunktion (siehe Abbildung 1.8)
FX (t) =
(
0
für
−t
1−e
für
t<0
t≥0.
Beispiel 1.3 (Anzahl der ,,Köpfe” beim zweifachen Münzwurf) In Beispiel 1.1a hatten wir die
folgende Wahrscheinlichkeitsfunktion für die Anzahl der ,,Köpfe” beim zweifachen Werfen einer
Münze bestimmt.
PX (x) =


1/4


 1/2

1/4



0
Die Verteilungsfunktion ist dann
FX (t) =


0


 1/4

3/4



1
für x = 0
für x = 1
für x = 2
sonst
für
für
für
für
t<0
0≤t<1
1≤t<2
2≤t.
Diese Verteilungsfunktion ist in Abbildung 1.9 zusammen mit der Wahrscheinlichkeitsfunktion dargestellt.
Wahrscheinlichkeitsfunktion
P(x)
1.0
0.5
0.0
-2
-1
0
1
2
3
4
3
4
x (Anzahl der Koepfe)
Verteilungsfunktion
F(t)
1.0
0.5
0.0
-2
-1
0
1
2
t (Anzahl der Koepfe)
Abbildung 1.9: Wahrscheinlichkeits- und Verteilungsfunktion f ür die Anzahl der Köpfe beim
zweifachen Münzwurf
1.3. DIE VERTEILUNGSFUNKTION EINER ZUFALLSVARIABLEN
9
Anschaulich ist die Verteilungsfunktion also die Summe der Höhen der Stäbe bis einschließlich t. Beachten Sie, dass die Verteilungsfunktion an den Sprungstellen den oberen Wert
annimmt. Die Verteilungsfunktion ist also stetig von rechts.
Satz 1.3 (Eigenschaften einer Verteilungsfunktion) Eine Verteilungsfunktion F X hat
die Eigenschaften:
a) 0 ≤ FX (t) ≤ 1 ,
b) FX (t1 ) ≤ FX (t2 ), falls t1 < t2 ,
c) lim FX (t) = 0 ,
t→−∞
d) lim FX (t) = 1 ,
t→∞
e) FX ist stetig von rechts.
Jetzt sei die Verteilungsfunktion einer Zufallsvariablen X gegeben, und wir wollen die Dichteoder Wahrscheinlichkeitsfunktion von X bestimmen.
Satz 1.4 Sei X eine stetige Zufallsvariable mit der Verteilungsfunktion F X . Dann ist die
Dichtefunktion von X gegeben durch
fX (x) = FX0 (x) .
Beispiel 1.4 (Exponentialverteilung mit dem Parameter λ = 1) Die Verteilungsfunktion einer
stetigen Zufallsvariablen sei (vergleiche Beispiel 1.2)
FX (x) =
(
dFX (x)
=
fX (x) =
dx
(
0
für
1 − e−x für
x≤0
x>0.
Dann gilt
0
für
−x
−x
0 − (−e ) = e
für
x≤0
x>0.
Für diskrete Zufallsvariablen erhält man die Wahrscheinlichkeitsfunktion, indem man an den
Sprungstellen der Verteilungsfunktion die Differenz berechnet.
10
KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG
Beispiel 1.5 Die Verteilungsfunktion einer diskreten Zufallsvariablen X sei gegeben durch

0





 1/8
x<1
1≤x<2
3/8 2 ≤ x < 3
FX (x) =



7/8 3 ≤ x < 4



1
4≤x.
X kann die Werte 1, 2, 3 und 4 annehmen. Da F X an der Stelle 1 von 0 auf 1/8 springt, wird der
Wert 1 mit der Wahrscheinlichkeit 1/8 angenommen, der Wert 2 mit der Wahrscheinlichkeit F X (2) −
FX (1) = 3/8 − 1/8 = 1/4. Die vollst¨andige Wahrscheinlichkeitsfunktion ist

1/8





 1/4
x=1
x=2
PX (x) =
1/2 x = 3



1/8 x = 4



0
sonst .
Abbildung 1.10 zeigt die Verteilungsfunktion und die Wahrscheinlichkeitsfunktion.
Verteilungsfunktion
1.0
F(x)
0.8
0.6
0.4
0.2
0.0
-1
0
1
2
3
4
5
6
5
6
x
Wahrscheinlichkeitsfunktion
1.0
P(x)
0.8
0.6
0.4
0.2
0.0
-1
0
1
2
3
4
x
Abbildung 1.10: Verteilungs- und Wahrscheinlichkeitsfunktion f ür Beispiel 1.5
Allgemein gilt:
1.3. DIE VERTEILUNGSFUNKTION EINER ZUFALLSVARIABLEN
11
Satz 1.5 Sei X eine diskrete Zufallsvariable mit der Verteilungsfunktion F X . Dann ist
die Wahrscheinlichkeitsfunktion von X gegeben durch
PX (x) = FX (x) − lim
FX (x − h) .
h→0
h>0
Mit Hilfe der Verteilungsfunktion ist es besonders einfach, Wahrscheinlichkeiten auszurechnen, dass eine Zufallsvariable Werte in einem Intervall (a, b] annimmt. Denn es gilt:
Satz 1.6 Sei X eine Zufallsvariable mit der Verteilungsfunktion FX . Dann gilt
P ({a < X ≤ b}) = FX (b) − FX (a) .
(1.1)
Dieser Satz gilt sowohl für stetige als auch für diskrete Zufallsvariablen. Wie wir schon
gesehen haben (siehe S. 4), kommt es bei stetigen Zufallsvariablen nicht darauf an, ob es in
der Gleichung (1.1) < oder ≤ heißt. Für diskrete Zufallsvariablen gilt dieser Satz jedoch nur
in dieser Form, wenn a und b mögliche Werte der Zufallsvariablen sind!
Beispiel 1.6 (Exponentialverteilung mit dem Parameter λ = 1) Die Verteilungsfunktion einer
stetigen Zufallsvariablen sei (vergleiche Beispiel 1.2 und 1.4)
FX (x) =
(
0
für
1 − e−x für
x≤0
x>0.
Dann gilt
P ({1 < X ≤ 2}) = FX (2) − FX (1) = (1 − e−2 ) − (1 − e−1 )
= e−1 − e−2 = 0.3679 − 0.1353 = 0.2326 .
Beispiel 1.7 Die Zufallsvariable X besitze die Verteilungsfunktion aus Beispiel 1.5. Dann gilt
P ({1 < X ≤ 3}) = FX (3) − FX (1) = 7/8 − 1/8 = 3/4
P ({1 < X < 3}) = FX (2) − FX (1) = 3/8 − 1/8 = 1/4
P ({1 ≤ X ≤ 3}) = FX (3) = 7/8
und
P ({1 ≤ X < 3}) = FX (2) = 3/8 .
Kapitel 2
Erwartungswert
2.1 Erwartungswert einer Zufallsvariablen
Definition 2.1 Der Erwartungswert EX einer diskreten Zufallsvariablen X mit Wahrscheinlichkeitsfunktion PX ist definiert als
EX =
X
xPX (x) .
x
Für spätere Notationen sei angemerkt, dass der Erwartungswert einer Zufallsvariablen häufig
einfach mit µ bezeichnet wird.
Beispiel 2.1 (Anzahl der ,,Köpfe” beim zweifachen Münzwurf)
1.0
P(x)
0.8
0.6
0.4
0.2
0.0
-1
0
1
2
3
Abbildung 2.1: Wahrscheinlichkeitsfunktion
In Beispiel 1.1a hatten wir die folgende Wahrscheinlichkeitsfunktion für die Anzahl der ,,Köpfe”
beim zweifachen Werfen einer Münze bestimmt,
12
2.1. ERWARTUNGSWERT EINER ZUFALLSVARIABLEN
PX (x) =
Damit erh¨alt man als Erwartungswert
EX =
2
X









1
4
1
2
1
4
0
13
für x = 0
für x = 1
für x = 2
sonst .
xPX (x) = 0(1/4) + 1(1/2) + 2(1/4) = 1 .
x=0
Wir werden jetzt zwei mögliche Interpretationen des Erwartungswertes kennenlernen.
a) EX ist die x-Koordinate des Schwerpunktes der Wahrscheinlichkeitsfunktion von X.
Die Wahrscheinlichkeitsfunktion ist in Abbildung 2.1 graphisch dargestellt. Stellen Sie sich die drei
Balken in Abbildung 2.1 als Metallst¨abe vor, die an die x-Achse geklebt sind. Versuchen Sie dann,
die Wahrscheinlichkeitsfunktion auf eine scharfe Kante zu legen und dort auszubalancieren.
Wenn Sie die Wahrscheinlichkeitsfunktion so, wie in Abbildung 2.2 dargestellt, auf die Kante legten,
fiele die Funktion nach rechts, in Abbildung 2.3 würde sie nach links fallen.
1.0
P(x)
0.8
0.6
0.4
0.2
0.0
-1
0
1
2
3
Abbildung 2.2: Kippt nach rechts
Wenn die Kante exakt unter dem Erwartungswert w¨are, wie in Abbildung 2.4, würde die Funktion die
Balance halten.
In diesem Beispiel ist der Erwartungwert gerade 1.
Der Erwartungswert ist also der Schwerpunkt von PX .
b) Der Erwartungswert EX kann als Mittelwert sehr vieler Realisationen von X aufgefasst werden.
14
KAPITEL 2. ERWARTUNGSWERT
1.0
P(x)
0.8
0.6
0.4
0.2
0.0
-1
0
1
2
3
Abbildung 2.3: Kippt nach links
1.0
P(x)
0.8
0.6
0.4
0.2
0.0
-1
0
1
2
3
Abbildung 2.4: Gleichgewicht: Erwartungswert als Schwerpunkt
Stellen Sie sich dazu vor, dass Sie die zwei Münzen sehr oft werfen.
Eine typische Folge von Ergebnissen könnte so aussehen:
Wurfspiel
Ergebnis x
Summe
Mittelwert
1
0
0
0/1
2
1
1
1/2
3
1
2
2/3
4
0
2
2/4
5
2
4
4/5
...
...
...
...
10 000
0
10 068
1.0068
Abbildung 2.5 zeigt die ersten fünf Mittelwerte.
Abbildung 2.6 zeigt den Pfad der Mittelwerte bei 10 000 simulierten Wurfspielen. In jedem Wurfspiel
wird die Münze zweimal geworfen und die Anzahl der ,,Köpfe” bestimmt. Nach jedem Wurfspiel wird
der Mittelwert der bisher erzeugten Realisationen von X berechnet. Abbildung 2.6 zeigt, dass der Pfad
der Mittelwerte sich mit wachsender Anzahl der Realisationen stabilisiert, gegen einen endgültigen
Wert konvergiert. Um zu zeigen, dass dies kein einmaliges Ergebnis war, sind in Abbildung 2.7 drei
solcher Mittelwertpfade dargestellt.
Wir folgern aus diesen Bildern, dass der Mittelwert mit zunehmender Anzahl von Spielen gegen den
Erwartungswert EX = 1 konvergiert. Diese Tatsache l¨asst sich natürlich auch exakt beweisen.
2.1. ERWARTUNGSWERT EINER ZUFALLSVARIABLEN
15
Mittlere Kopfzahl
2.0
1.5
1.0
*
*
* *
0.5
0.0
0
*
1
2
3
4
5
6
7
8
9
10
Anzahl der Spiele
Abbildung 2.5: Pfad der ersten fünf Mittelwerte
Mittlere Kopfzahl
2.0
1.5
*
*
1.0 *
*
**
** * *
* ************************* **********************************************************************************************************
***************
*
*
**
0.5
0.0
1
10
100
1000
10000
Anzahl der Spiele
Abbildung 2.6: Pfad der Mittelwerte bei 10 000 Würfen
Diese beiden Interpretationen lassen sich genauso auf stetige Zufallsvariablen anwenden.
Definition 2.2 Der Erwartungswert X einer stetigen Zufallsvariablen X mit der Dichtefunktion fX ist definiert als
EX =
Z∞
xfX (x)dx .
−∞
Beispiel 2.2 Die Dichtefunktion einer Zufallsvariablen X sei gegeben durch
fX (x) =
(
2x für 0 ≤ x ≤ 1
0 sonst .
16
KAPITEL 2. ERWARTUNGSWERT
Mittlere Kopfzahl
2.0 *
*
1.5
*
1.0 *
* *
0.5
**
*
**
***************
* *********
*
** ***** ** ****
** *** *************************************************************************************************************************************************************************************************************************************
*************
* ** *
* ***
*
*
* *
*
****
0.0
1
10
100
1000
10000
Anzahl der Spiele
Abbildung 2.7: Drei Mittelwertpfade in je 10 000 Spielen
Der Erwartungswert berechnet sich dann als
E(X) =
Z∞
xfX (x)dx =
−∞
=
Z1
0
Z0
−∞
1
x 0 dx +
Z1
0
x 2x dx +
Z∞
x 0 dx
1
2 2
2x2 dx = x3 = .
3 3
0
a) Der Erwartungswert ist die x-Koordinate des Schwerpunktes der Dichtefunktion.
2.0
f(x)
1.5
1.0
0.5
0.0
-1
0
E(X) 1
2
Abbildung 2.8: Erwartungswert als Schwerpunkt der Dichtefunktion
Stellen Sie sich die Dichtefunktion aus einer Metallplatte gemacht vor. Wenn wir die Dichtefunktion auf eine Kante legten, die genau unter E(X) w¨are, würde die Dichtefunktion die
Balance halten.
b) Der Erwartungswert ist der Mittelwert sehr vieler Realisationen von X .
Um diese zweite Interpretation des Erwartungswertes anzuwenden, betrachten wir X als wöchentliche Auslastung einer Maschine, gemessen als Anteil der möglichen Auslastung. Dann bedeutet also X = 1, dass die Maschine zu 100% ausgelastet und X = 0.5, dass die Maschine zu
50% ausgelastet ist usw..
2.2. ERWARTUNGSWERT EINER FUNKTION EINER ZUFALLSVARIABLEN
17
Typische Beobachtungen über mehrere Wochen könnten so aussehen:
Werte:
Summe:
Mittelwert:
0.80
0.80
0.80
0.59
1.39
0.70
0.39
1.78
0.59
0.65
2.43
0.61
0.37
2.80
0.56
usw.
usw.
usw.
Abbildung 2.9 zeigt eine graphische Darstellung der ersten fünf Mittelwerte.
Mittlere Auslastung
1.0
**
0.5
***
0.0
0
1
2
3
4
5
6
7
8
9
10
Anzahl der Wochen
Abbildung 2.9: Pfad der ersten fünf Mittelwerte
Abbildung 2.10 zeigt uns, dass der Pfad der Mittelwerte, jeweils berechnet als Durchschnitt
der bisher vorliegenden Realisationen, mit zunehmender Anzahl der Realisationen gegen den
Erwartungswert von X konvergiert.
Mittlere Auslastung
1.0
0.8
* ****
* ** ******* ************** ******* ***********************************************************************
* * *
******** ******
****
0.6
0.4 *
0.2
0.0
1
10
100
1000
10000
Anzahl der Wochen
Abbildung 2.10: Konvergenz der Mittelwerte gegen den Erwartungswert
2.2 Erwartungswert einer Funktion einer Zufallsvariablen
Gelegentlich braucht man nicht nur den Erwartungswert der Zufallsvariablen X selbst, sondern auch den Erwartungswert EH(X), wobei H(X) eine Funktion der Zufallsvariablen X
ist, z.B. H(X) = X − 3 oder H(X) = (X − 6)2 .
18
KAPITEL 2. ERWARTUNGSWERT
Beispiel 2.3 Betrachten Sie folgendes Spiel. Ich werfe zwei faire Münzen. X sei die Anzahl der
,,Köpfe”.
Die Spielregeln sind die folgenden:
• Sie zahlen 3 Euro, um zu spielen.
• Wenn
X = 0, verlieren Sie die 3 Euro.
X = 1, bekommen Sie 5 Euro (3+2).
X = 2, bekommen Sie 4 Euro (3+1).
Ihr Gewinn ist eine Funktion von X , die in der folgenden Tabelle aufgelistet ist:
X:
H(X) :
0
-3
1
+2
2
+1
Wenn Sie vor der Entscheidung stehen, ob Sie dieses Spielangebot annehmen oder nicht, ist es für Sie
wichtig, den Erwartungswert von H(X) zu kennen. Bevor wir dieses Beispiel fortsetzen können, ist
der Erwartungswert einer Funktion H(X) einer Zufallsvariablen X zu definieren.
Definition 2.3 Sei H(X) eine Funktion der Zufallsvariablen X. Der Erwartungswert
EH(X) ist definiert durch:
EH(X) =
X
H(x)PX (x) ,
falls Xdiskret ist,
x
EH(X) =
Z∞
H(x)fX (x)dx ,
falls Xstetig ist.
−∞
Für das obige Beispiel hatten wir die Wahrscheinlichkeitsfunktion schon in Beispiel 1.1a berechnet.
Damit ist der Erwartungswert:
EH(X) =
2
X
H(x)PX (x) = H(0)PX (0) + H(1)PX (1) + H(2)PX (2)
x=0
= (−3)(1/4) + (2)(1/2) + (1)(1/4) = 1/2 Euro (= 50Cent pro Spiel)
Im Mittel gewinnen Sie also 50 Cent pro Spiel. Auf lange Sicht lohnt sich also das Spiel für Sie.
Wenn Sie dagegen nur ein einziges Mal spielen, ist die Wahrscheinlichkeit 1/4, dass Sie Ihre 3 Euro
verlieren werden.
Beispiel 2.4 Die stetige Zufallsvariable X besitze die Dichtefunktion aus Beispiel 2.2, d.h.
fX (x) =
(
2x 0 ≤ x ≤ 1
0 sonst .
2.3. MOMENTE
19
Die Funktion H(X) sei gegeben durch
H(X) = X 2 .
Dann ist der Erwartungswert von H(X)
EH(X) =
Z1
2
x 2x dx =
0
Z1
0
2 1 1
2x dx = x4 = .
4 0 2
3
Nützlich sind die folgenden Rechenregeln für Erwartungswerte, die sich aus den entsprechenden Regeln für Summen bzw. Integrale ergeben.
Satz 2.1 (Rechenregeln für Erwartungswerte)
a) Ec = c,
wenn c eine Konstante ist.
b) EcH(X) = cEH(X),
insb. EcX = cEX.
c) E(H(X) + G(X)) = EH(X) + EG(X),
von X ist, insb. E(X + c) = EX + c.
Beweis:
H(X) = c, Ec =
R∞
cf (x)dx = c
−∞
Z∞
−∞
|
wenn G(X) eine weitere Funktion
f (x)dx = c.
{z
1
}
Auf die weiteren Beweise verzichten wir hier.
2.3 Momente
Wichtige Funktionen einer Zufallsvariablen X sind die Potenzen X k , d.h.
H(X) = X k .
Definition 2.4 µ0k = EX k heißt das k-te Moment von X.
Es gilt:
• 1. Moment:
µ01 = EX
...
µ01 ≡ µ
♦
20
KAPITEL 2. ERWARTUNGSWERT
• 2. Moment
µ02 = EX 2
• 3. Moment
µ03 = EX 3
Sind alle Momente einer Zufallsvariablen bekannt, so ist dadurch die Verteilung dieser Zufallsvariablen eindeutig bestimmt. Es ist
µ0k = EX k =
µ0k = EX k =
Z
X
x
∞
−∞
xk PX (x),
falls X diskret ist,
xk fX (x)dx,
falls X stetig ist.
(2.1)
(2.2)
Eine weitere wichtige Funktion einer Zufallsvariablen ist
H(X) = (X − µ)k .
Definition 2.5 µk = E(X − µ)k heißt das k-te zentrale Moment von X, auch zentriertes Moment oder Moment um den Erwartungswert.
Erstes zentrales Moment:
µ1 = E(X − µ) = EX − Eµ = µ − µ = 0 .
Zweites zentrales Moment:
µ2 = E(X − µ)2 ≡ Var X ≡ σ 2 .
Das zweite zentrale Moment stimmt also mit der Varianz überein, die wir abkürzend auch
mit σ 2 bezeichnen.
Drittes zentrales Moment:
µ3 = E(X − µ)3 .
2.4 Die Varianz einer Zufallsvariablen
Besonders wichtig ist das zweite zentrale Moment µ2 = E(X −µ)2 , da es gleich der Varianz
von X ist:
2
µ2 = σ X
= E(X − EX)2 = V arX .
Nützlich zur Berechnung von Varianzen ist die folgende Regel:
Satz 2.2
µ2 = V arX = EX 2 − (EX)2
2.4. DIE VARIANZ EINER ZUFALLSVARIABLEN
21
Beweis:
µ2 = E(X − µ)2 = E(X 2 − 2µX + µ2 ) = EX 2 − E(2µX) + Eµ2
= EX 2 − 2µEX + µ2 = EX 2 − 2(EX)2 + (EX)2 = EX 2 − (EX)2
♦
Beispiel 2.5 In den Beispielen 2.2 und 2.4 hatten wir den Erwartungswert EX bzw. EX 2 einer
stetigen Zufallsvariablen mit der Dichtefunktion
fX (x) =
(
2x 0 ≤ x ≤ 1
0 sonst
berechnet. Es war
und EX 2 = 1/2 .
EX = 2/3
Damit ist nach der Regel aus Satz 2.2
VarX = 1/2 − (2/3)2 = 1/18 .
Dies ist i.allg. einfacher als
Z1
0
(x − 2/3)2 2xdx = . . . = 1/18 .
Wichtig sind die folgenden Rechenregeln für Varianzen, die aus den Rechenregeln für Erwartungwerte folgen.
Satz 2.3 (Rechenregeln für Varianzen)
Sei c eine Konstante. Dann gilt:
a) V ar(c) = 0
b) V ar(cX) = c2 V arX
c) V ar(X + c) = V arX
Beweis:
a) Es ist
Ec = c
und
Ec2 = c2 ,
d.h.
V ar(c) = c2 − c2 = 0 .
22
KAPITEL 2. ERWARTUNGSWERT
b)
V ar(cX) = E(cX)2 − (E(cX))2 = E(c2 X 2 ) − c2 (EX)2
= c2 (EX 2 − (EX)2 ) = c2 V arX
c)
V ar(X + c) = E(X + c − E(X + c))2 = E(X + c − EX − c)2
= E(X − EX)2 = V arX
♦
Diese Formeln kann man sich auch auf anschauliche Weise merken. Die Quadratwurzel aus
der Varianz ist die Standardabweichung einer Zufallsvariablen und misst die Breite einer
Verteilung oder die Streuung einer Zufallsvariablen. Die Varianz ist also das Quadrat eines
Streuungsmaßes. Es ist doch nur vernünftig, dass
a) die Streuung einer Konstanten, d.h. einer Zufallsvariablen, die nur einen einzigen Wert
annehmen kann, Null ist,
b) ein Streuungsmaß mit dem Faktor c, also das Quadrat eines Streuungsmaßes mit dem
Faktor c2 zu multiplizieren ist, wenn ich jeden möglichen Wert dieser Zufallsvariablen
mit einem Faktor c multipliziere,
c) sich ein Streuungsmaß nicht ändert, wenn ich den Wertebereich einer Zufallsvariablen
um eine Konstante c verschiebe.
Kapitel 3
Stetige Verteilungen
3.1 Rechteckverteilung
Für die Rechteckverteilung benutzen wir die Notation U (a; b). Der Buchstabe U rührt von der
englischen Bezeichnung Uniform her. Wir wollen aber nicht Gleichverteilung oder gleichmäßige Verteilung sagen, um keine Verwechslungen mit gleicher Verteilung zu provozieren.
Statt gleicher Verteilung werden wir identische Verteilung sagen. Wir schreiben
X ∼ U (a; b) ,
wenn eine Zufallsvariable X eine Rechteckverteilung besitzt. Dabei sind a und b zwei Parameter, für die a < b gelten muss.
Definition 3.1 Die Dichtefunktion der Rechteckverteilung ist gegeben durch:
fX (x) =
(
1
b−a
0
für a ≤ x ≤ b
sonst .
Der Verlauf der Dichtefunktion (siehe Abbildung 3.1) entspricht einem Rechteck über dem
Intervall [a, b].
Die Standardform der Rechteckverteilung oder Standardrechteckverteilung U (0; 1), die große
Bedeutung bei der Erzeugung von Zufallszahlen hat, hat die Parameter a = 0 und b = 1.
Satz 3.1 Die Verteilungsfunktion der Rechteckverteilung ist:
FX (t) =





0
t−a
b−a
1
für t < a
für a ≤ t ≤ b
für t > b .
23
24
KAPITEL 3. STETIGE VERTEILUNGEN
1/(b-a)
a
b
Abbildung 3.1: Dichtefunktion der Rechteckverteilung
Beweis:
FX (t) =
Zt
fX (x)dx =
−∞









0
Rt
a
1
dx
b−a
=
t−a
b−a
1
für
t<a
für
a≤t≤b
für
t>b.
♦
Abbildung 3.2 zeigt die Verteilungsfunktion. Es handelt sich also um eine Gerade mit der
Steigung 1/(b − a).
Wir wollen jetzt den Erwartungswert und die Varianz einer Rechteckverteilung bestimmen.
Satz 3.2 Sei X eine Zufallsvariable mit einer Rechteckverteilung mit den Parametern a
und b. Dann gilt
EX =
b+a
2
V arX =
und
(b − a)2
.
12
Beweis:
EX =
Z∞
xfX (x)dx =
−∞
=
2
EX =
Zb
a
"
x2 1
2 b−a
#b
Za
−∞
=
a
"
x · 0 dx +
a
1
x
dx +
b−a
Z∞
b
x · 0 dx
1 b2 − a 2
b+a
=
.
2 b−a
2
1
1 x3
x
dx =
b−a
b−a 3
2
Zb
#b
a
1 b3 − a 3
1
=
= (a2 + ab + b2 ) .
3 b−a
3
3.1. RECHTECKVERTEILUNG
25
Nach Satz 2.2 gilt dann
!2
1
a+b
V arX = EX − (EX) = (a2 + ab + b2 ) −
3
2
2
2
2
2
2
a − 2ab + b2
4(a + ab + b ) − 3(a + 2ab + b )
=
=
12
12
(b − a)2
=
.
12
2
2
♦
1
a
b
Abbildung 3.2: Verteilungsfunktion der Rechteckverteilung
Für Anwendungen wichtig ist das folgende Resultat:
Satz 3.3 Sei X eine Zufallsvariable mit einer streng monotonen Verteilungsfunktion
FX (x). Die Zufallsvariable
U = FX (X)
ist dann verteilt wie U (0; 1),d.h.
U ∼ U (0; 1) .
Beweis:
Die Verteilungsfunktion von U ist
FU (u) = P ({U ≤ u}) = P ({FX (X) ≤ u}) = P ({FX−1 (FX (X)) ≤ FX−1 (u)})
= P ({X ≤ FX−1 (u)}) = FX (FX−1 (u)) = u
0≤u≤1.
Dies ist die Verteilungsfunktion einer U (0; 1) Zufallsvariablen. Im vorletzten Schritt wurde
die Definition der Verteilungsfunktion von X (FX (t) = P ({X ≤ t})) benutzt.
♦
Anschaulich kann man sich den obigen Sachverhalt wie folgt vorstellen. Abbildung 3.3 zeigt
die Verteilungsfunktion FX (x). Von den auf der x-Achse angedeuteten Realisationen der
26
KAPITEL 3. STETIGE VERTEILUNGEN
Zufallsvariablen X geht man dann in Pfeilrichtung zu den entsprechenden Werten der Verteilungsfunktion, die man an der u-Achse abliest. Dies sind dann die Realisationen der Zufallsvariablen U .
1.0
0.8
u
0.6
0.4
0.2
0.0
-4
-2
0
x
2
4
Abbildung 3.3: Zur Konstruktion der Zufallsvariablen U
Angewendet wird der Satz wie folgt:
Wenn wir eine Verteilung FX (x) für die Daten x1 , x2 , ..., xn postulieren, dann müssen u1 =
FX (x1 ), u2 = FX (x2 ), ..., un = FX (xn ) U (0; 1)-verteilt sein.
Wir können dies z.B. durch graphische Darstellungen (wie Histogramm) oder durch andere statistische Verfahren überprüfen. Ein Histogramm sollte etwa so aussehen, wie das in
Abbildung 3.4 dargestellte Histogramm.
2.0
1.5
1.0
0.5
0.0
0.0
0.2
0.4
0.6
0.8
1.0
x
Abbildung 3.4: Histogramm der u1 , u2 , ..., un (n = 100)
Das Histogramm in Abbildung 3.4 wurde mit folgenden R-Befehlen erzeugt:
u<-runif(100) # erzeugt 100 U(0,1)-Zufallszahlen
hist(u, probability=T) # zeichnet Histogramm
Stellt man sich die empirische Verteilungsfunktion der u1 , u2 , . . . , un graphisch dar, so sollte
sich ungefähr eine Gerade mit der Steigung 1 wie in Abbildung 3.5 ergeben. Die Abbildung
3.5 wurde mit den folgenden R-Befehlen erzeugt.
3.1. RECHTECKVERTEILUNG
27
u<-sort(runif(100)) # erzeugt und sortiert 100 U(0,1)-ZZ
y<-(1:100)/100 # bildet Folge 1/100, 2/100, ..., 100/100
plot(u, y, type="s", ylab="F n") # plottet emp. Vertfkt.
abline(0,1) # zeichnet Diagonale
1.0
Fn(u)
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
u
Abbildung 3.5: Empirische Verteilungsfunktion der u1 , u2 , ..., un (n = 100)
Beispiel 3.1 (Verteilung des P-Wertes unter der Nullhypothese) Sei X die Prüfgröße in einem
Hypothesentest. Die Verteilungsfunktion der Prüfgröße unter der Nullhypothese sei FX . Der P-Wert
bei einem einseitigen Hypothesentest ist dann
FX (X)
oder
1 − FX (X) ,
je nachdem, ob der Ablehnungsbereich links oder rechts liegt. Der P-Wert ist eine Zufallsvariable. Es
folgt aus Satz 3.3, dass der P-Wert unter der Nullhypothese eine U (0; 1)-Verteilung besitzt. H¨aufig
ist die exakte Verteilung einer Prüfgröße nicht bekannt. Man kann dann meistens nur eine asymptotische Verteilung der Prüfgröße unter der Nullhypothese angeben. In Böker (1996) und Böker und
Dannenberg (1995, 1996) werden eine Reihe von graphischen Verfahren betrachtet, mit denen man
überprüfen kann, wie gut diese Approximation ist. Dazu werden Prüfgrößen unter der Nullhypothese simuliert und die P-Werte mit Hilfe der asymptotischen Verteilung berechnet. Diese P-Werte
sollten sich verhalten wie Realisationen U (0; 1)-verteilter Zufallsvariablen. Man kann insbesondere
überprüfen, ob die Prüfgrößen gewisse gewünschte Signifikanzniveaus einhalten können.
Der folgende Satz ist gewissermaßen die Umkehrung des vorangehenden Satzes.
Satz 3.4 Sei
U ∼ U (0; 1)
und F (x) eine streng monotone Verteilungsfunktion. Dann hat die Zufallsvariable
X = F −1 (U )
die Verteilungsfunktion F (x).
28
KAPITEL 3. STETIGE VERTEILUNGEN
Beweis:
P ({X ≤ x}) = P ({F −1 (U ) ≤ x}) = P ({F (F −1 (U )) ≤ F (x)})
= P ({U ≤ F (x)}) = FU (F (x)) = F (x) .
Im letzten Schritt, wurde benutzt, dass P ({U ≤ F (x)}) die Verteilungsfunktion von U an
der Stelle F (x), also gleich F (x) ist.
♦
Der Inhalt dieses Satzes wird durch Abbildung 3.6 veranschaulicht. Dort ist wieder die Verteilungsfunktion F (x) dargestellt. Jetzt geht man jedoch den umgekehrten Weg. Man geht
von Realisationen der Rechteckverteilung U (0; 1) auf der Ordinate, der u-Achse, aus, geht
dann in Pfeilrichtung zur Verteilungsfunktion FX (x) und bestimmt dann auf der Abszisse
den zugehörigen x-Wert.
1.0
0.8
u
0.6
0.4
0.2
0.0
-4
-2
0
x
2
4
Abbildung 3.6: Zur Konstruktion der Zufallsvariablen X mit Verteilungsfunktion F (x)
Der Satz 3.4 findet Anwendung bei der Erzeugung von Zufallszahlen mit der Verteilungsfunktion F (x).
• Es ist leicht U (0; 1)-Zufallszahlen, besser sollte man Pseudo-Zufallszahlen sagen, zu
erzeugen. Das sind Zahlen, die sich, ,,wenigstens annähernd” so verhalten wie ,,echte”
Realisationen U (0; 1)-verteilter Zufallsvariablen. Jeder Rechner hat solch ein Verfahren implementiert. Dabei wird häufig die lineare Kongruenz-Methode benutzt. Seien
u1 , u2 , . . . , u n
auf diese Weise gegeben.
• Man bilde
x1 = F −1 (u1 ), x2 = F −1 (u2 ), . . . , xn = F −1 (un ) .
Dann verhalten sich x1 , x2 , . . . , xn wie Realisationen von Zufallsvariablen mit der Verteilungsfunktion F (x).
Beispiel 3.2 (Erzeugung exponentialverteilter Zufallsvariablen) Es sollen (Pseudo)-Zufallszahlen
erzeugt werden, die sich verhalten wie ,,echte” Realisationen exponentialverteilter Zufallsvariablen.
Die Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ(λ > 0) ist
F (x) = 1 − e−λx .
3.2. NORMALVERTEILUNG
29
Um die Umkehrfunktion F −1 zu bestimmen, setzen wir
u = 1 − e−λx .
Diese Gleichung ist nach x aufzulösen:
x = − log(1 − u)/λ = F −1 (u) .
Speziell für λ = 1 ist
x = − log (1 − u) .
(3.1)
In der folgenden Tabelle stehen einige Werte von u, die mit dem R-Befehl
runif(5)
erzeugt wurden. Die x-Werte wurden nach Gleichung (3.1) erzeugt.
u
x
0.42
0.54
0.31
0.37
0.87
2.04
0.17
0.19
0.69
1.17
R-Befehle zur Rechteckverteilung
dunif(x, min=0, max=1) berechnet die Dichtefunktion der Rechteckverteilung
an der Stelle x, wobei x ein Vektor ist. Defaultmäßig (min=0, max=1) wird die
Dichte der Standardrechteckverteilung berechnet. Durch Veränderung der optionalen
Argumente min und max kann die Dichtefunktion für beliebige Parameter a und b
berechnet werden.
punif(q, min=0, max=1) berechnet die Verteilungsfunktion der Rechteckverteilung mit den Parametern a =min und b =max an der Stelle q, wobei q ein Vektor
ist.
qunif(p, min=0, max=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Rechteckverteilung mit den Parametern a =min und b =max an der Stelle p,
wobei p ein Vektor von Wahrscheinlichkeiten, also Zahlen zwischen 0 und 1, ist.
runif(n, min=0, max=1) erzeugt n rechteckverteilte Zufallszahlen im Intervall [0, 1].
3.2 Normalverteilung
Definition 3.2 Die Dichtefunktion der Normalverteilung ist gegeben durch
fX (x) = √
1
2
2
e−(x−µ) /2σ
2
2πσ
für
−∞<x<∞.
Dabei sind µ und σ 2 Parameter, für die gelten muss
−∞ < µ < ∞
und
σ2 > 0 .
30
KAPITEL 3. STETIGE VERTEILUNGEN
Man schreibt dafür
X ∼ N (µ; σ 2 ) .
Für µ = 0 und σ 2 = 1 erhält man die Standardnormalverteilung, deren Dichte durch
1
2
fX (x) = √ e−x /2
2π
−∞<x<∞
für
gegeben ist. Man schreibt dann
X ∼ N (0; 1) .
Abbildung 3.7 zeigt die Dichtefunktion der Standardnormalverteilung.
0.5
f(x)
0.4
0.3
0.2
0.1
0.0
-4
-2
0
2
4
6
8
10
x
Abbildung 3.7: Dichtefunktion der Standardnormalverteilung
Über den Verlauf der Dichtefunktion (siehe Abbildung 3.7) kann man sagen: Die Dichtefunktion hat ihr Maximum an der Stelle µ, sie ist symmetrisch um eine senkrechte Achse
bei µ und hat Wendepunkte an den Stellen µ − σ und µ + σ. Der Parameter µ ist ein Lageparameter. Eine Veränderung von µ bei konstantem σ bewirkt nur eine Verschiebung der
Dichtefunktion (siehe Abbildung 3.8).
0.5
f(x)
0.4
0.3
0.2
0.1
0.0
-4
-2
0
2
4
6
8
10
x
Abbildung 3.8: Dichtefunktion der N(3,1)-Verteilung
3.2. NORMALVERTEILUNG
31
0.5
f(x)
0.4
0.3
0.2
0.1
0.0
-4
-2
0
2
4
6
8
10
x
Abbildung 3.9: Dichtefunktion der N(3,4)-Verteilung
Dagegen ist σ 2 ein Streuungsparameter. Mit wachsendem σ 2 wird die Kurve flacher und
breiter (siehe Abbildung 3.9).
Die Verteilungsfunktion der Standardnormalverteilung ist
FX (x) = Φ(x) =
Zx
f (z)dz =
−∞
Zx
−∞
1
2
√ e−z /2 dz .
2π
Abbildung 3.10 zeigt den Verlauf der Verteilungsfunktion der Standardnormalverteilung.
Diese Verteilungsfunktion ist nicht durch eine elementare Funktion darstellbar. Für die Standardnormalverteilung (N (0, 1)) ist die Verteilungsfunktion tabelliert. Das ist wegen des folgenden Satzes ausreichend:
Satz 3.5 Ist X verteilt wie N (µ; σ 2 ), so ist
Z=
X −µ
σ
verteilt wie N (0, 1).
Als Folgerung aus diesem Satz ergibt sich, wenn X ∼ N (µ; σ 2 ) und Z ∼ N (0; 1):
P ({a < X < b}) = P ({a − µ < X − µ < b − µ})
)!
(
a−µ
X −µ
b−µ
= P
<
<
σ
σ
σ
(
)!
a−µ
b−µ
= P
<Z<
σ
σ
!
b−µ
a−µ
= Φ
−Φ
,
σ
σ
32
KAPITEL 3. STETIGE VERTEILUNGEN
wobei Φ = FZ die Verteilungsfunktion der Standardnormalverteilung sei, die aus der Tabelle
abgelesen werden kann. Manche Tabellen enthalten jedoch Φ(z) nur für z ≥ 0. Dann hat man
zu beachten, dass aus Symmetriegründen (siehe Abbildung 3.7 oder 3.10) gilt
Φ(−z) = 1 − Φ(z) .
1.0
F(x)
0.8
0.6
0.4
0.2
0.0
-4
-2
0
x
2
4
Abbildung 3.10: Verteilungsfunktion der Standardnormalverteilung
Zwischen den Verteilungsfunktionen der N (µ; σ 2 )- und N (0; 1)-Verteilung besteht der folgende Zusammenhang, den wir beweisen wollen, da diese Beweismethode auch in anderen
Situationen nützlich sein kann.
Satz 3.6 Die Verteilungsfunktion FX einer N (µ; σ 2 )-Verteilung ist
x−µ
FX (x) = Φ
σ
−∞<x<∞,
wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichne.
Beweis:
Die Verteilungsfunktion der N (µ; σ 2 )-Verteilung ist
FX (x) =
Zx
−∞
√
Wir substituieren
z=
1
2
2
e−(t−µ) /2σ dt .
2
2πσ
(t − µ)
.
σ
Dann ist
dz
1
=
oder
dt
σ
Dabei ändern sich die Grenzen wie folgt:
dt = σdz .
3.2. NORMALVERTEILUNG
33
• Wenn t = −∞, ist z = −∞ .
• Wenn t = x, ist z =
x−µ
σ
.
Damit ist
x−µ
σ
FX (x) =
Z
−∞
1
x−µ
2
√ e−z /2 dz = Φ
σ
2π
.
♦
Beispiel 3.3 Sei X ∼ N (10; 32 ). Die zugehörige Dichtefunktion ist in Abbildung 3.11 dargestellt.
0.3
f(x)
0.2
0.1
0.0
0
5
10
x
15
20
Abbildung 3.11: Dichtefunktion der N(10,9)-Verteilung
Die Verteilungsfunktion ist dann
x − 10
FX (x) = Φ
3
.
Die Wahrscheinlichkeit P (13 ≤ X ≤ 16), die in Abbildung 3.12 als Fl¨ache unterhalb der Dichtefunktion zwischen 13 und 16 dargestellt ist, berechnet sich dann zu:
16 − 10
13 − 10
−Φ
3
3
= Φ(2) − Φ(1) = 0.977 − 0.841 = 0.136 .
P ({13 ≤ X ≤ 16}) = FX (16) − FX (13) = Φ
Satz 3.7 Für eine normalverteilte Zufallsvariable X ∼ N (µ; σ 2 ) gilt
EX = µ
und
Var(X) = σ 2 .
34
KAPITEL 3. STETIGE VERTEILUNGEN
0.3
f(x)
0.2
0.1
0.0
0
5
10
x
15
20
Abbildung 3.12: P ({13 < X < 16}) als Fläche unterhalb der Dichtefunktion
Beweis:
Z∞
E(X) =
−∞
x√
1
2
2
e−(x−µ) /2σ dx .
2
2πσ
Wir verwenden wieder die Substitution
z=
x−µ
.
σ
Dann ist
dz
1
=
dx
σ
Dabei ändern sich die Grenzen wie folgt.
x = zσ + µ
oder
dx = σdz .
• Wenn x = −∞, ist z = −∞ .
• Wenn x = ∞, ist z = ∞ .
Damit folgt:
Z∞
Z∞
1
1
2
2
E(X) =
(zσ + µ) √
e−z /2 σdz =
(zσ + µ) √ e−z /2 dz
2π
2πσ 2
−∞
−∞
=
Z∞
−∞
|
∞
∞
Z
Z
1
1
1
2
2
2
√ e−z /2 dz = µ .
zσ √ e−z /2 dz +
µ √ e−z /2 dz = µ
2π
2π
2π
−∞
−∞
{z
0
}
|
{z
1
}
Das erste Integral in der zweiten Zeile ist Null, da der Integrand punktsymmetrisch zum
Ursprung ist, z.B. ergibt sich für
•
•
z = −1 :
z = +1 :
2
(−1)σ √12π e−(−1) /2
2
(+1)σ √12π e−(1) /2 .
3.2. NORMALVERTEILUNG
35
Es gilt also
g(z) = −g(−z) ,
wenn wir den Integranden, dessen Graph in Abbildung 3.13 dargestellt ist, mit g bezeichnen. Das letzte Integral in dieser Zeile ist 1, da es das Integral über die Dichtefunktion der
Standardnormalverteilung ist.
0.4
g(z)
0.2
0.0
-0.2
-0.4
-4
-2
0
z
2
4
Abbildung 3.13: Graph der Funktion zσ √12π e−z
2 /2
für σ = 1
Bei der Bestimmung der Varianz verwenden wir wieder die gleiche Substitution wie oben.
Zur Berechnung des Integrals in der zweiten Zeile verwenden wir die Regel der partiellen
Integration, die hier zur Erinnerung noch einmal aufgeschrieben sei:
Zb
0
v(x)w (x)dx =
a
Z∞
b
v(x)w(x)
a
−
Zb
0
v (x)w(x)dx
.
(3.2)
a
Z∞
1
1
2
2
2
Var(X) =
(x − µ) √
e−(x−µ) /2σ dx =
z2σ2 √
e−z /2 σdz
2
2
2πσ
2πσ
−∞
−∞
= σ
2
2
Z∞
−∞
"
1
z
2
2
z · z √ e−z /2 dz = σ 2 − √ e−z /2
2π
2π
Bei der partiellen Integration wurde
• v(z) = z
=⇒
• w 0 (z) = z √12π e−z
|
{z
0
#∞
+σ
−∞
}
2
Z∞
−∞
1
2
√ e−z /2 dz = σ 2
2π
|
{z
1
}
v 0 (z) = 1
2 /2
=⇒
w(z) = − √12π e−z
2 /2
benutzt. Ferner wurde wiederum benutzt, dass das Integral über eine Dichtefunktion (hier die
2
Standardnormalverteilung) Null ist und dass ze−z /2 → 0, wenn z → ∞. (Dies lässt sich mit
den Regeln von L‘Hôspital (Theorem 7.11.1 in Sydsæter und Hammond (2003)) beweisen.
Siehe dort auch Formel 7.11.4.)
♦
Die große Bedeutung der Normalverteilung beruht auf folgenden Tatsachen:
36
KAPITEL 3. STETIGE VERTEILUNGEN
a) Viele Phänomene sind normalverteilt: z.B. in der Finanzwissenschaft, Astronomie,
Ökonometrie, Biologie usw.
b) Aufgrund des folgenden Satzes kann man viele Zufallsvariablen durch eine Normalverteilung approximieren.
Satz 3.8 (Zentraler Grenzwertsatz) Die Zufallsvariablen X1 , X2 , ..., Xn seien
unabhängig und identisch verteilt mit EXi = µ und V arXi = σ 2 < ∞. Sei
n
P
X̄n = n1
Xi . Dann ist
i=1
X̄n − µ
√ ∼N
˙ (0; 1) .
σ/ n
Das Zeichen ∼
˙ bedeutet, die entsprechende Zufallsvariable ist asymptotisch verteilt
wie N (0, 1). Man beachte
E X̄n = µ und V ar X̄n = σ 2 /n .
Der standardisierte Mittelwert ist asymptotisch standardnormalverteilt. Wenn n groß
wird, kann die Verteilung von X̄n durch eine Normalverteilung approximiert werden.
3
3
n= 5
2
n = 10
2
1
1
0
0
0
1
2
3
0
Mittelwerte
1
2
3
Mittelwerte
3
3
n = 20
2
n = 50
2
1
1
0
0
0
1
2
Mittelwerte
3
0
1
2
3
Mittelwerte
Abbildung 3.14: Histogramme von je 1 000 Mittelwerten in Stichproben der Gr öße n =
5, 10, 20, 50 aus einer exponentialverteilten Grundgesamtheit
Abbildung 3.14 veranschaulicht den zentralen Grenzwertsatz. Dort sind die Mittelwerte von je 1 000 Stichproben der Größen n = 5, 10, 20, 50 in einem Histogramm
3.2. NORMALVERTEILUNG
37
dargestellt. Je größer der Stichprobenumfang, desto mehr nähert sich die Form des
Histogramms der Dichtefunktion einer Normalverteilung an.
c) Oft ist eine Variable die Summe unterschiedlicher Zufallseinflüsse. In solchen Fällen
ist die Normalverteilung häufig ein gutes Modell.
d) Die theoretischen Eigenschaften sind einfach zu bestimmen. Daher ist die Theorie der
Normalverteilung sehr weit entwickelt.
e) Die Normalverteilung hat viele angenehme Eigenschaften. So sind Linearkombinationen und insbesondere Summen unabhängiger normalverteilter Zufallsvariablen wieder
normalverteilt.
f) Abgesehen von einigen Ausnahmen sind Maximum-Likelihood-Schätzer von Parametern asymptotisch normalverteilt. Man benutzt dann diese Eigenschaft bei der Konstruktion von Konfidenzintervallen.
g) Die Normalverteilung tritt im Zusammenhang mit sogenannten Wiener-Prozessen auf.
Ein Wiener-Prozess ist ein stochastischer Prozess X(t), t ≥ 0 mit stetiger Zeit, d.h. für
jedes t gibt es eine Zufallsvariable X(t). Eine der Annahmen des Wiener-Prozesses ist,
dass die Zuwächse X(t) − X(s) für s < t normalverteilt sind. Wiener-Prozesse fanden zunächst Anwendung in der Physik, wo die Bewegung eines kleinen Teilchens
beschrieben wurde, das einer großen Anzahl kleiner Stöße ausgesetzt ist. In diesem
Zusammenhang spricht man von einer Brownschen Bewegung. Wiener-Prozesse werden aber auch als Modell für Aktienkurse angewendet und wurden z.B. bei der Herleitung der Black-Scholes-Formel verwendet, deren Erfinder 1997 mit dem Nobelpreis
für Wirtschaftswissenschaften ausgezeichnet wurden.
Aufgrund ihrer angenehmen Eigenschaften und der weit entwickelten Theorie wird die Annahme einer Normalverteilung in vielen statistischen Verfahren, wie Varianzanalyse, Regressionsanalyse, Zeitreihenanalyse, Diskriminanzanalyse usw. verwendet. Ein weiterer Vorteil
ist es, dass die unter der Annahme der Normalverteilung entwickelten Test- und Schätzverfahren relativ unempfindlich gegenüber Abweichungen von dieser Annahme sind. Man sagt,
dass solche Verfahren robust sind. So kommt es z.B. beim t-Test zur Prüfung der Hypothese,
dass der Erwartungswert einen bestimmten Wert besitzt, nicht so sehr darauf an, dass die
einzelnen Beobachtungen einer Normalverteilung entstammen, sondern mehr, dass der Mittelwert normalverteilt ist, was aufgrund des zentralen Grenzwertsatzes zumindest für große
n gewährleistet ist.
R-Befehle zur Normalverteilung
dnorm(x, mean=0, sd=1) berechnet die Dichtefunktion der Normalverteilung
an der Stelle x, wobei x ein Vektor ist. Defaultmäßig (mean=0, sd=1) wird die
Dichte der Standardnormalverteilung berechnet. Durch Veränderung der optionalen
Argumente mean und sd kann die Dichtefunktion für beliebige Parameter µ und σ 2
berechnet werden. Dabei ist zu beachten, dass sd die Standardabweichung, also die
Quadratwurzel aus der Varianz σ 2 ist. Der Erwartungswert µ ist durch mean anzugeben.
38
KAPITEL 3. STETIGE VERTEILUNGEN
pnorm(q, mean=0, sd=1) berechnet die Verteilungsfunktion der Normalverteilung mit dem Erwartungswert µ =mean und der Standardabweichung sd an der Stelle
q, wobei q ein Vektor ist. Standardmäßig wird P (X ≤ q) berechnet. Mit dem zusätzlichen Argument lower.tail=F wird die Wahrscheinlichkeit P (X > q) berechnet.
qnorm(p, mean=0, sd=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Normalverteilung mit dem Erwartungswert µ =mean und der Standardabweichung sd an der Stelle p, wobei p ein Vektor von Wahrscheinlichkeiten, also Zahlen
zwischen 0 und 1, ist. Auch hier kann das Argument lower.tail verwendet werden.
rnorm(n, mean=0, sd=1)] erzeugt n normalverteilte Zufallszahlen mit dem
Erwartungswert µ =mean und der Standardabweichung sd.
3.3 Gammaverteilung
Definition 3.3 Die Gammafunktion ist für ν > 0 definiert durch das Integral
Γ(ν) =
Z∞
tν−1 e−t dt .
(3.3)
0
Für ν = 1 ergibt sich
Γ(1) =
Z∞
e−t dt = 1 .
0
Wir wenden für ν > 1 auf das Integral in Gleichung (3.3) die Regel der partiellen Integration
(siehe Gleichung (3.2)) an. Dabei setzen wir
v(t) = tν−1
=⇒
v 0 (t) = (ν − 1)tν−2
und
w 0 (t) = e−t
=⇒
w(t) = −e−t .
Damit folgt
Γ(ν) =
−tν−1 e−t |∞
0
|
{z
0
}

− −
Z∞
0
(ν − 1)t
ν−2 −t

e dt = (ν − 1)
Das bedeutet
Γ(ν) = (ν − 1)Γ(ν − 1) .
Z∞
0
|
tν−2 e−t dt .
{z
Γ(ν−1)
}
3.3. GAMMAVERTEILUNG
39
Daraus folgt für natürliche Zahlen:
Γ(1)
Γ(2)
Γ(3)
Γ(4)
..
.
Γ(n)
=
=
=
=
1
1 · Γ(1) = 1 · 1 = 1 = 1!
2 · Γ(2) = 2 · 1 = 2 = 2!
3 · Γ(3) = 3 · 2 · 1 = 6 = 3!
= (n − 1)Γ(n − 1) = (n − 1)(n − 2) · . . . · 2 · 1 = (n − 1)!
Satz 3.9 Für natürliche Zahlen n gilt:
Γ(n) = (n − 1)!
Die Gammafunktion kann mit der R-Funktion
gamma(x)
berechnet werden. Sie ist in Abbildung 3.15 dargestellt.
Gammafunktion
20
Γ(ν)
15
10
5
0
0
1
2
ν
3
4
5
Abbildung 3.15: Der Graph der Gammafunktion
40
KAPITEL 3. STETIGE VERTEILUNGEN
Definition 3.4 Die Dichtefunktion der Gammaverteilung ist gegeben durch


λν xν−1 e−λx x ≥ 0
Γ(ν)
fX (x) =

0
sonst .
(3.4)
Dabei sind ν und λ Parameter, für die gelten muss
ν>0
und λ > 0 .
Wir schreiben
X ∼ G(ν; λ) ,
wenn eine Zufallsvariable X eine Gammaverteilung besitzt.
Wir wollen nachweisen, dass durch Gleichung (3.7) tatsächlich eine Dichtefunktion definiert
wird, d.h. dass das Integral
Z∞
0
λν xν−1 e−λx
1
dx =
Γ(ν)
Γ(ν)
Z∞
ν ν−1 −λx
λ x
e
0
1
dx =
Γ(ν)
Z∞
(λx)ν−1 e−λx λdx
(3.5)
0
den Wert 1 hat, d.h. das ganz rechts stehende Integral muss Γ(ν) ergeben.
Wir verwenden die Substitution
t = λx
=⇒
dt = λdx .
Die Grenzen ändern sich wie folgt:
• Wenn x = 0, ist t = 0 .
• Wenn x → ∞, gilt auch t → ∞ .
Damit ergibt sich für das obige Integral in Gleichung (3.5)
1
Γ(ν)
Z∞
0
|
tν−1 e−t dt = 1 .
{z
Γ(ν)
}
♦
Einen wichtigen Spezialfall der Gammaverteilung erhalten wir, wenn der Parameter ν den
Wert 1 hat. Dann ist
λ1 x1−1 e−λx
fX (x) =
= λe−λx
Γ(1)
für x ≥ 0 .
3.3. GAMMAVERTEILUNG
41
Dies ist die Dichte einer Exponentialverteilung mit dem Parameter λ, d.h.
G(1; λ) ≡ Exp(λ) .
(3.6)
Wir werden die Exponentialverteilung später in Abschnitt 3.5 behandeln.
Satz 3.10 Es gelte
X ∼ G(ν; λ) .
Dann gilt
EX = ν/λ
und
V arX = ν/λ2 .
Die Abhängigkeit der Dichtefunktion von den Parametern ν und λ können Sie den Abbildungen 3.16 - 3.19 entnehmen.
1.0
0.5
f(x)
0.8
0.6
1
0.4
1.5
2
0.2
0.0
0
5
10
15
x
Abbildung 3.16: Dichtefunktionen der Gammaverteilung mit λ = 1 und ν = 0.5, 1, 1.5 und
2
Man entnimmt diesen Abbildungen, dass der Parameter ν für die Gestalt oder die Form der
Dichtefunktion verantwortlich ist. In der englischen Literatur sagt man, dass ν ein ‘shape’Parameter ist, während λ ein ‘scale’-Parameter ist, d.h. λ bestimmt die Skala oder die Breite
der Dichtefunktion.
R-Befehle zur Gammaverteilung:
Beachten Sie bitte, dass der scale-Parameter in R in unserer Bezeichnungsweise das Inverse
des Parameters λ ist, d.h. R verwendet die Dichtefunktion der Gammaverteilung in der Form:


Dabei ist a = ν und b = 1/λ.
xa−1 e−x/b x ≥ 0
ba Γ(a)
fX (x) =

0
sonst .
(3.7)
dgamma(x, shape,scale=1) berechnet die Dichtefunktion der Gammaverteilung mit den Parametern λ = 1 und ν =shape an der Stelle x. Dabei kann x ein
Vektor sein.
42
KAPITEL 3. STETIGE VERTEILUNGEN
1.0
0.8
f(x)
0.5
0.6
0.4
1
1.5
0.2
2
0.0
0
5
10
15
x
Abbildung 3.17: Dichtefunktionen der Gammaverteilung mit λ = 1/2 und ν = 0.5, 1, 1.5
und 2
1.0
f(x)
0.8
0.6
1
0.4
0.2
0.5
0.25
0.0
0
5
10
15
x
Abbildung 3.18: Dichtefunktionen der Gammaverteilung mit ν = 1 und λ = 1, 0.5 und 0.25
pgamma(q, shape,scale=1) berechnet die Verteilungsfunktion der Gammaverteilung mit den Parametern λ = 1 und ν =shape an der Stelle q. Dabei kann
q ein Vektor sein.
qgamma(p, shape,scale=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Gammaverteilung mit den Parametern λ = 1 und ν =shape an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0
und 1 sein.
rgamma(n, shape,scale=1) erzeugt n gammaverteilte Zufallszahlen mit den
Parametern λ = 1 und ν =shape.
Anwendungen der Gammaverteilung
a) Wir betrachten einen Poissonprozess. Das ist eine Folge von zufälligen Punkten (Ereignissen) auf der positiven reellen Zahlenachse, unter der man sich häufig die Zeit
vorstellt. Bedingungen unter denen, eine solche zufällige Folge von Punkten ein Poissonprozess ist, werden an anderer Stelle betrachtet (siehe S. 52). Die Wartezeit (siehe
3.3. GAMMAVERTEILUNG
43
1.0
f(x)
0.8
0.6
1
0.4
0.5
0.2
0.25
0.0
0
5
10
15
x
Abbildung 3.19: Dichtefunktionen der Gammaverteilung mit ν = 1.5 und λ = 1, 0.5 und
0.25
Abbildung 3.20) bis zum ν-ten (ν muss eine ganze Zahl sein) Ereignis eines Poissonprozesses ist G(ν; λ)-verteilt.
Wν ∼ G(ν; λ)
b) Die Gammaverteilung der Wartezeiten bis zum ν-ten Ereignis eines Poissonprozesses
folgt aus dem folgenden Resultat. Die Zeiten zwischen Ereignissen eines Poissonprozesses sind nämlich unabhängig und identisch exponentialverteilt.
Satz 3.11 Wenn X1 , X2 , ..., Xν unabhängig und identisch exponentialverteilt
sind, d.h. Xi ∼ Exp(λ), ist
ν
X
i=1
Xi ∼ G(ν; λ) .
Beispiel 3.4 Sie haben eine Netzkarte und eine Ersatzkarte. Die Lebensdauern der einzelnen
Karten seien exponentialverteilt mit Parameter λ = 1/500 Tage. Wir suchen eine Antwort
auf die Frage: Wie groß ist die Wahrscheinlichkeit, dass Sie in einem Jahr keine zus¨atzliche
Netzkarte brauchen, d.h. dass die Netzkarte und die Ersatzkarte zusammen für mindestens 1
Jahr reichen?
Sei X1 die Lebensdauer der Netzkarte.
Sei X2 die Lebensdauer der Ersatzkarte.
Die Lebensdauer beider Karten zusammen ist
X = X 1 + X2 ,
und die gesuchte Wahrscheinlichkeit ist
P ({X > 365}) .
44
KAPITEL 3. STETIGE VERTEILUNGEN
Poissonprozess
W1
W2
W3
Zeit
Abbildung 3.20: Wartezeiten bei einem Poissonprozess
Aufgrund unserer Annahmen über die Verteilungen von X1 und X2 und des Satzes 3.11 gilt
X ∼ G(2; 1/500) .
Abbildung 3.21 zeigt die Dichtefunktion von X und die gesuchte Wahrscheinlichkeit als schraffierte Fl¨ache unterhalb der Dichtefunktion. Sie können diese Wahrscheinlichkeit mit dem RBefehl
1-pgamma (365, 2, 500)
oder
pgamma(365,2,500,lower.tail=F)
berechnen.
Es gilt
P ({X > 365}) = 0.8337 .
c) Für ganzzahliges ν wird die Gammaverteilung (G(ν; λ)) auch als Erlangverteilung
bezeichnet.
3.4 Chiquadratverteilung
Die aus der Grundvorlesung bekannte Chiquadratverteilung ist ein Spezialfall der Gammaverteilung.
Satz 3.12 Die Gammaverteilung mit den Parametern ν = n/2 und λ = 1/2 stimmt mit
der χ2 -Verteilung mit dem Parameter n überein. Dabei ist n eine positive ganze Zahl.
3.4. CHIQUADRATVERTEILUNG
45
8
7
10 000*f(x)
6
5
4
3
2
P({X>365})
1
0
0
1000
2000
3000
4000
5000
x
Abbildung 3.21: P ({X > 365}) als Fläche unterhalb der Dichtefunktion
Die χ2 -Verteilung hat einen Parameter n. Wir schreiben
X ∼ χ2n
oder
X ∼ χ2 (n) ,
wenn X eine χ2 -Verteilung mit dem Parameter n besitzt und sagen: X hat eine χ2 -Verteilung
mit n Freiheitsgraden.
Die Dichtefunktion der χ2 -Verteilung mit n Freiheitsgraden ist



xn/2−1 e−x/2 x ≥ 0
f (x) =
2n/2 Γ(n/2)


0
sonst .
Aus Satz 3.10 erhalten wir sofort:
Satz 3.13 Sei
X ∼ χ2n .
Dann gilt
EX = n
und
V arX = 2n .
Beweis:
Nach Satz 3.12 gilt
χ2n ≡ G(n/2; 1/2) .
Erwartungswert und Varianz einer Gammaverteilung waren in Satz 3.10 angegeben. Mit
ν = n/2 und λ = 1/2 folgt
ν
n/2
EX = =
=n
λ
1/2
und
V arX =
ν
n/2
=
= 2n .
2
λ
(1/2)2
46
KAPITEL 3. STETIGE VERTEILUNGEN
Die Abbildungen 3.22 - 3.24 zeigen einige Dichtefunktionen der χ 2 -Verteilung mit wachsender Anzahl der Freiheitsgrade. Beachten Sie bei diesen Abbildungen die unterschiedlichen
Achsenskalierungen. Ab n = 3 Freiheitsgraden hat die χ2 -Verteilung eine ganz typische
Form, die sich mit wachsenden Freiheitsgraden der Normalverteilung annähert, dabei verschiebt sich die Kurve weiter nach rechts. Für n = 2 Freiheitsgrade stimmt die χ 2 -Verteilung
mit der Exponentialverteilung mit dem Parameter λ = 1/2 überein (siehe Satz 3.12 und Gleichung (3.6)).
1.0
0.8
f(x)
1
0.6
0.4
2
0.2
3
4
0.0
0
5
10
15
x
Abbildung 3.22: Dichtefunktionen der χ2 -Verteilung
0.10
10
15
0.08
f(x)
20
0.06
30
0.04
0.02
0.0
0
20
40
60
x
Abbildung 3.23: Dichtefunktionen der χ2 -Verteilung
Anwendungen der χ2 -Verteilung:
• Die χ2 -Verteilung tritt häufig als Verteilung von Prüfgrößen bei Hypothesentests auf.
• Die Prüfgröße
nS 2
σ02
zur Prüfung der Hypothese σ 2 = σ02 , dass die Varianz in einer Grundgesamtheit einen
ganz bestimmten Wert σ02 hat, ist χ2 -verteilt mit n − 1 Freiheitsgraden. Dabei ist
S2 =
n
1X
(Xi − X̄)2
n i=1
3.4. CHIQUADRATVERTEILUNG
47
0.06
30
40
50
60
f(x)
0.04
0.02
0.0
0
20
40
60
80
100
x
Abbildung 3.24: Dichtefunktionen der χ2 -Verteilung
die geschätzte Varianz und n der Stichprobenumfang. Die Verteilung gilt exakt unter
der Normalverteilungsannahme, andernfalls nur approximativ.
• Die Prüfgröße im Anpassungstest von Pearson ist asymptotisch χ 2 -verteilt. Geprüft
wird die Hypothese, dass Zufallsvariablen eine ganz bestimmte Verteilung besitzen
(z.B. U (0; 1) oder N (0; 1)) oder einer bestimmten Verteilungsfamilie angehören (z.B.
Gammaverteilung oder Normalverteilung).
• Die Prüfgröße im Unabhängigkeitstest bei Kontingenztafeln ist als Spezialfall des Anpassungstests ebenfalls asymptotisch χ2 -verteilt.
• Summen von Quadraten von unabhängigen N (0, 1)-verteilten Zufallsvariablen sind
χ2 -verteilt. Solche Summen von Quadraten treten in der Varianzanalyse häufig auf und
bilden Zähler und Nenner von F -Prüfgrößen, die Ihnen in den Vorlesungen Lineare
Modelle und Ökonometrie begegnen werden. Solche Quotienten führen dann zu einer
F -Verteilung. Wir werden an späterer Stelle darauf zurückkommen (S. 85).
R-Befehle zur Chiquadratverteilung:
dchisq(x, df) berechnet die Dichtefunktion der Chiquadratverteilung mit dem
Parameter n =df an der Stelle x. Dabei kann x ein Vektor sein.
pchisq(q, df, ncp=0) berechnet die Verteilungsfunktion der Chiquadratverteilung mit dem Parameter n =df an der Stelle q. Dabei kann q ein Vektor sein. Mit
dem optionalen Argument ncp wird der Nichtzentralitätsparameter festgelegt. Wir behandeln hier die zentrale Chiquadratverteilung, für die ncp=0 ist.
qchisq(p, df) berechnet die Umkehrfunktion der Verteilungsfunktion der Chiquadratverteilung mit dem Parameter n =df an der Stelle p. Dabei muss p ein Vektor
von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein.
rchisq(n, df) erzeugt n chiquadratverteilte Zufallszahlen mit dem Parameter
n =df.
48
KAPITEL 3. STETIGE VERTEILUNGEN
3.5 Exponentialverteilung
Definition 3.5 Die Dichtefunktion der Exponentialverteilung ist gegeben durch
f (x) =
(
λe−λx 0 ≤ x < ∞
0
sonst .
Dabei ist λ ein Parameter, für den gelten muss
λ>0.
Wir schreiben
X ∼ Exp(λ) ,
wenn eine Zufallsvariable X eine Exponentialverteilung mit dem Parameter λ besitzt.
In einer alternativen Darstellung, die Sie in der Literatur finden werden, wird anstelle des
Parameters λ der Parameter β = 1/λ verwendet. In dieser Darstellung ist dann die Dichtefunktion
(
1 −x/β
e
0≤x<∞
f (x) = β
0
sonst .
Es sei daran erinnert, dass die Exponentialverteilung ein Spezialfall der Gammaverteilung
ist. Eine Gammaverteilung mit dem Parameter ν = 1 ist eine Exponentialverteilung.
Exp(λ) ≡ G(1; λ)
Abbildung 3.25 zeigt einige Dichtefunktionen in Abhängigkeit vom Parameter λ.
2.0
1.5
f(x)
2
1.0
0.5
1
0.5
0.0
0
1
2
3
4
5
x
Abbildung 3.25: Dichtefunktionen der Exponentialverteilung in Abh ängigkeit von λ
Die Dichtefunktionen sind monoton fallend, nehmen an der Stelle 0 den Wert des Parameters
λ an.
3.5. EXPONENTIALVERTEILUNG
49
1.0
0.8
2
F(x)
1
0.5
0.6
0.4
0.2
0.0
0
1
2
3
4
5
x
Abbildung 3.26: Verteilungsfunktionen der Exponentialverteilung in Abh ängigkeit von λ
Satz 3.14 Die Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ ist
F (t) =
(
0
1 − e−λt
t<0
t≥0.
für
für
Beweis:
Für t ≥ 0 ist
F (t) =
Zt
f (x)dx =
0
Zt
0
= −e−λt + 1 = 1 − e−λt .
0
♦
In der alternativen Darstellung gilt:
F (t) =
t
λe−λx dx = −e−λx (
0
für
−t/β
1−e
für
t<0
t≥0
Abbildung 3.26 zeigt einige Verteilungsfunktionen der Exponentialverteilung in Abhängigkeit des Parameters λ.
Obwohl wir Erwartungswert und Varianz der Exponentialverteilung aus denen der Gammaverteilung mit dem Parameter ν = 1 ableiten könnten, wollen wir beide hier explizit
berechnen.
50
KAPITEL 3. STETIGE VERTEILUNGEN
Satz 3.15 Es gelte
X ∼ Exp(λ) .
Dann gilt
EX =
1
λ
EX =
Z∞
Beweis:
V arX =
und
xfX (x)dx =
−∞
Z∞
1
.
λ2
xλe−λx dx
0
Wir verwenden die Regel der partiellen Integration (siehe Gleichung (3.2) und setzen dabei
• v(x) = x
=⇒
• w 0 (x) = λe−λx
v 0 (x) = 1
=⇒
w(x) = −e−λx
Damit gilt
EX =
=
∞
−xe−λx 0
|
1
λ
{z
}
=0
Z∞
−
Z∞
(−e−λx )dx
0
λe−λx dx =
0
|
{z
=1
1
.
λ
}
Dabei wurde benutzt (siehe Formel (7.11.4) in Sydsæter und Hammond (2003)) , dass
lim xe−λx = 0
x→∞
und dass das Integral über eine Dichtefunktion 1 ergibt.
Durch zweimalige Anwendung der partiellen Integration erhält man
2
EX =
Z∞
x2 λe−λx dx = 2/λ2
0
und damit nach Satz 2.2
V arX = EX 2 − (EX)2 = 2/λ2 − (1/λ)2 = 1/λ2
♦
In der alternativen Darstellung gilt
EX = β
und
Anwendungen der Exponentialverteilung:
V arX = β 2 .
3.5. EXPONENTIALVERTEILUNG
51
a) Die Exponentialverteilung ist ein nützliches Modell für die Lebensdauer von Teilen,
die nicht wesentlich ,,altern”, wie elektronische Komponenten oder Fensterscheiben.
In diesem Zusammenhang ist die Exponentialverteilung durch die folgende Eigenschaft charakterisiert:
Satz 3.16 (Markoffsche Eigenschaft) Sei X die Lebensdauer eines Teiles. Die
Zufallsvariable X ist genau dann exponentialverteilt, wenn für alle x und x0
P ({X > x + x0 }|{X > x0 }) = P ({X > x})
(3.8)
gilt.
Dieser Satz besagt, dass man Individuen (Teilen), deren Lebensdauer einer Exponentialverteilung folgt, ihr Alter nicht anmerkt. Gleichung (3.8) bedeutet, dass die bedingte
Wahrscheinlichkeit, den Zeitpunkt x + x0 zu überleben, wenn man weiß, dass der
Zeitpunkt x0 bereits überlebt wurde, genau so groß ist wie die Wahrscheinlichkeit, den
Zeitpunkt x (von 0 ausgehend) zu überleben. Das bisher erreichte Alter des Individuums hat also keinen Einfluss auf die weiteren Überlebenswahrscheinlichkeiten, z.B.
gilt
P ({X > (3 + 2) Jahre}|{X > 2 Jahre}) = P ({X > 3 Jahre}) .
Das bedeutet die Wahrscheinlichkeit
P ({Ein zwei Jahre altes Teil hält sich noch drei weitere Jahre })
ist gleich der Wahrscheinlichkeit
P ({Ein neues Teil hält sich drei Jahre }) .
Die Exponentialverteilung ist also eine Verteilung ohne Gedächtnis.
Auch Gegenstände, die sich wenig verändern, z. B. Teller, haben eine exponentialverteilte Lebensdauer.
b) Die Zeitintervalle zwischen Ereignissen eines Poissonprozesses sind exponentialverteilt. Typischerweise sind dies die folgenden Ereignisse: Unfälle, Nachfrage bestimmter Produkte, Stürme, Fluten, Telefonanrufe, radioaktiver Zerfall, usw..
Wir wollen die für einen Poissonprozess charakteristischen Eigenschaften in der folgenden Definition zusammenfassen.
52
KAPITEL 3. STETIGE VERTEILUNGEN
Definition 3.6 Ein Poissonprozess liegt vor, wenn die folgenden Eigenschaften
erfüllt sind
i) Die Wahrscheinlichkeit, dass ein Ereignis in einem Intervall der Länge ∆t
vorkommt, ist λ∆t, wobei λ eine Konstante ist.
ii) Die Wahrscheinlichkeit, dass zwei oder mehr Ereignisse in einem Intervall
der Länge ∆t vorkommen, ist klein im Vergleich zu λ∆t.
P ({2 oder mehr Ereignisse in ∆t})
=0
∆t→0
P ({1 Ereignis in ∆t})
lim
iii) Die Ereignisse treten unabhängig auf.
Satz 3.17 Die Zeit zwischen zwei Ereignissen in einem Poissonprozess ist exponentialverteilt mit dem Parameter λ.
Beweis:
Betrachten Sie die Abbildung 3.27. Dort sind zwei Ereignisse durch das Zeichen ∗
dargestellt.
| | | | | | | | | | | | | | | | | | | | |
123
n
X
Abbildung 3.27: Zeitintervall zwischen zwei Ereignissen in einem Poissonprozess
Sei X das Zeitintervall zwischen diesen beiden Ereignissen. Die Zeitachse ist in kleine Intervalle der Länge ∆t aufgeteilt. Die Anzahl der Teilintervalle zwischen diesen
beiden Ereignissen sei n. Wir müssen zeigen, dass die Verteilungsfunktion von X die
einer Exponentialverteilung ist (siehe Satz 3.14). Äquivalent dazu ist der Nachweis,
dass P ({X > x}), diese Funktion bezeichnet man auch als Überlebenszeitfunktion,
gegeben ist durch
P ({X > x}) =
(
0
für
−λx
e
für
x<0
x≥0
Für x > 0 gilt
P ({X > x}) = P ({kein Ereignis in Intervall 1 und
kein Ereignis in Intervall 2 und
..
.
kein Ereignis in Intervall n})
3.6. BETAVERTEILUNG
53
= P ({kein Ereignis in Intervall 1}) ·
P ({kein Ereignis in Intervall 2}) ·
..
.
P ({kein Ereignis in Intervall n})
= (1 − λ∆t) · (1 − λ∆t) · . . . · (1 − λ∆t)
|
{z
n
= (1 − λ∆t)n = (1 − λ∆t)x/∆t .
}
Nun gilt (siehe z.B. Sydsæter und Hammond (2003), Formel (6.11.4) oder (7.10.1))
lim (1 − λ∆t)x/∆t = e−λx .
∆t→0
Damit gilt für x > 0
F (x) = P ({X ≤ x}) = 1 − P ({X > x}) = 1 − e−λx .
♦
R-Befehle zur Exponentialverteilung:
dexp(x, rate=1) berechnet die Dichtefunktion der Exponentialverteilung mit dem
Parameter λ =rate=1 an der Stelle x. Dabei kann x ein Vektor sein.
pexp(q, rate=1) berechnet die Verteilungsfunktion der Exponentialverteilung
mit dem Parameter λ =rate an der Stelle q. Dabei kann q ein Vektor sein.
qexp(p, rate=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ =rate an der Stelle p. Dabei muss p ein
Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein.
rexp(n, rate=1) erzeugt n exponentialverteilte Zufallszahlen mit dem Parameter
λ =rate.
3.6 Betaverteilung
Definition 3.7 Die Betafunktion ist definiert durch
B(α, β) =
Z1
0
=
tα−1 (1 − t)β−1 dt
α>0 β>0
Γ(α)Γ(β)
.
Γ(α + β)
Es gibt eine R-Funktion beta(a,b), die die Betafunktion nach der obigen Formel berechnet.
54
KAPITEL 3. STETIGE VERTEILUNGEN
Definition 3.8 Die Dichtefunktion der Betaverteilung ist gegeben durch
fX (x) =
(
xα−1 (1−x)β−1
B(α,β)
0
0≤x≤1
sonst .
Die Betaverteilung hat zwei Parameter, für die gelten muss
α>0
β>0.
und
Wir schreiben
X ∼ Be(α; β) ,
wenn X eine Betaverteilung mit den Parametern α und β besitzt.
Die Verteilungsfunktion ist für 0 < x < 1 gleich
1
FX (x) =
B(α, β)
Zx
0
tα−1 (1 − t)β−1 dt .
Das Integral auf der rechten Seite der obigen Gleichung ist auch als unvollständiger Betafunktions-Quotient (,,incomplete beta function ratio”) bekannt. Wir werden die Verteilungsfunktion bei Bedarf mit R berechnen (siehe unten).
Satz 3.18 Die Zufallsvariable X sei betaverteilt mit den Parametern α und β. Dann gilt
E(X) =
α
α+β
und
V arX =
αβ
(α +
β)2 (α
+ β + 1)
.
Beweis:
Im folgenden Beweis benutzen wir den Zusammenhang zwischen der Betafunktion und der
Gammafunktion (siehe Definition 3.7).
EX =
Z1
0
xf (x)dx =
Z1
0
xα−1+1 (1 − x)β−1
B(α + 1, β)
dx =
B(α, β)
B(α, β)
Γ(α + 1)Γ(β) Γ(α + β)
αΓ(α)Γ(α + β)
·
=
Γ(α + 1 + β) Γ(α)Γ(β)
Γ(α)Γ(α + β)(α + β)
α
=
α+β
=
3.6. BETAVERTEILUNG
EX
2
=
Z1
55
Z1
2
x f (x)dx =
0
0
B(α + 2, β)
xα−1+2 (1 − x)β−1
dx =
B(α, β)
B(α, β)
Γ(α + 2)Γ(β) Γ(α + β)
(α + 1)αΓ(α)Γ(α + β)
=
·
=
Γ(α + 2 + β) Γ(α)Γ(β)
Γ(α)Γ(α + β)(α + 1 + β)(α + β)
(α + 1)α
=
(α + 1 + β)(α + β)
Mit Satz 2.2 folgt
!2
α
(α + 1)α
V arX = EX − (EX) =
−
(α + 1 + β)(α + β)
α+β
2
(α + 1)α(α + β) − α (α + 1 + β)
=
(α + 1 + β)(α + β)2
α3 + α2 + α2 β + αβ − α3 − α2 − α2 β
αβ
=
.
=
2
2
(α + β) (α + β + 1)
(α + β) (α + β + 1)
2
2
♦
Abbildung 3.28 zeigt einige Dichtefunktionen der Betaverteilung. Diese Abbildung macht
deutlich, wie verschieden die Gestalt der Dichtefunktion in Abhängigkeit der beiden Parameter sein kann. Für α = 1 und β = 1 ergibt sich als Spezialfall die Rechteckverteilung
U (0; 1). Für α = β ist die Dichtefunktion symmetrisch zu einer senkrechten Achse durch
x = 0.5. Vertauscht man α und β, so wird die Dichtefunktion an der gleichen Achse gespiegelt.
Die Betaverteilung kann auch in Abhängigkeit von den Parametern µ und θ dargestellt werden, wobei
1
µ = E(X)
und
θ=
.
α+β
Da die Betaverteilung nur Werte im Intervall [0, 1] annehmen kann, α > 0 und β > 0 sind,
gilt
0<µ<1
und
θ>0.
Da E(X) = α/(α + β) ist, gilt
µ=
α
α+β
und
θ=
1
.
α+β
Umgekehrt gilt:
α = µ/θ
und
β = (1 − µ)/θ .
Mit diesen neuen Parametern gilt
E(X) = µ
und
Var(X) = µ(1 − µ)θ/(1 + θ) .
Der Parameter θ ist ein Formparameter. Er bestimmt die Gestalt der Dichtefunktion.
Abbildung 3.29 zeigt Dichtefunktionen der Betaverteilung in Abhängigkeit von diesen Parametern.
56
KAPITEL 3. STETIGE VERTEILUNGEN
3
3
3
0.5, 3
1, 3
3
2, 3
3, 3
2
2
2
2
1
1
1
1
0
0.0
0.5
1.0
3
0
0.0
0.5
1.0
3
0
0.0
0.5
1.0
3
0.5, 2
1, 2
0
0.0
2, 2
3, 2
2
2
2
1
1
1
1
0.5
1.0
3
0
0.0
0.5
1.0
3
0
0.0
0.5
1.0
3
0.5, 1
1, 1
0
0.0
2, 1
2
2
1
1
1
1
1.0
3
0
0.0
0.5
1.0
3
0
0.0
0.5
1.0
3
0.5, 0.5
1, 0.5
0
0.0
2, 0.5
2
2
1
1
1
1
1.0
0
0.0
0.5
1.0
0
0.0
1.0
3, 0.5
2
0.5
0.5
3
2
0
0.0
1.0
3, 1
2
0.5
0.5
3
2
0
0.0
1.0
3
2
0
0.0
0.5
0.5
1.0
0
0.0
0.5
1.0
Abbildung 3.28: Dichtefunktionen der Betaverteilung
Anstelle des Parameters θ wird auch der Parameter
ϕ=
1
θ
=
α+β+1
θ+1
betrachtet. Für diesen Parameter gilt 0 < ϕ < 1. Es ist dann
α = µ(1 − ϕ)/ϕ
und
β = (1 − µ)(1 − ϕ)/ϕ .
Mit den Parametern µ und ϕ gilt
E(X) = µ
und
Var(X) = µ(1 − µ)ϕ .
Abbildung 3.30 zeigt Dichtefunktionen der Betaverteilung in Abhängigkeit von den Parametern µ und ϕ.
3.6. BETAVERTEILUNG
3
0.33 , 0.1
57
3
0.33 , 0.33
3
0.33 , 0.5
3
2
2
2
2
1
1
1
1
0
0.0
3
0.5
1.0
0.4 , 0.1
0
0.0
3
0.5
1.0
0.4 , 0.33
0
0.0
3
0.5
1.0
0.4 , 0.5
0
0.0
3
2
2
2
2
1
1
1
1
0
0.0
3
0.5
1.0
0.5 , 0.1
0
0.0
3
0.5
1.0
0.5 , 0.33
0
0.0
3
0.5
1.0
0.5 , 0.5
0
0.0
3
2
2
2
2
1
1
1
1
0
0.0
3
0.5
1.0
0.67 , 0.1
0
0.0
3
0.5
1.0
0.67 , 0.33
0
0.0
3
0.5
1.0
0.67 , 0.5
0
0.0
3
2
2
2
2
1
1
1
1
0
0.0
0.5
1.0
0
0.0
0.5
1.0
0
0.0
0.5
1.0
0
0.0
0.33 , 0.67
0.5
1.0
0.4 , 0.67
0.5
1.0
0.5 , 0.67
0.5
1.0
0.67 , 0.67
0.5
1.0
Abbildung 3.29: Dichtefunktionen der Betaverteilung als Funktion von µ und θ
Anwendungen der Betaverteilung
a) Aufgrund der großen Flexibilität der Gestalt der Dichtefunktion ist die Betaverteilung
sehr gut geeignet für stetige Zufallsvariablen, die nur Werte im Intervall (0, 1) annehmen, z.B. als Modell für Anteile.
b) Wir werden die Betaverteilung als Modell für die Apriori-Verteilung des Parameters π
einer Bernoulli-Verteilung verwenden (siehe S. 192). Die Betaverteilung wird sich als
konjugierte Verteilung (siehe Beispiel 10.7) der Binomialverteilung erweisen, und wir
werden sie zur Konstruktion der Beta-Binomialverteilung verwenden (siehe S. 176).
c) In der ,,Normalverteilungstheorie” erhält man die Betaverteilung als Verteilung von
V 2 = X12 /(X12 + X22 ) ,
58
KAPITEL 3. STETIGE VERTEILUNGEN
3
0.33 , 0.1
3
0.33 , 0.25
3
0.33 , 0.33
3
2
2
2
2
1
1
1
1
0
0.0
3
0.5
1.0
0.4 , 0.1
0
0.0
3
0.5
1.0
0.4 , 0.25
0
0.0
3
0.5
1.0
0.4 , 0.33
0
0.0
3
2
2
2
2
1
1
1
1
0
0.0
3
0.5
1.0
0.5 , 0.1
0
0.0
3
0.5
1.0
0.5 , 0.25
0
0.0
3
0.5
1.0
0.5 , 0.33
0
0.0
3
2
2
2
2
1
1
1
1
0
0.0
3
0.5
1.0
0.67 , 0.1
0
0.0
3
0.5
1.0
0.67 , 0.25
0
0.0
3
0.5
1.0
0.67 , 0.33
0
0.0
3
2
2
2
2
1
1
1
1
0
0.0
0.5
1.0
0
0.0
0.5
1.0
0
0.0
0.5
1.0
0
0.0
0.33 , 0.5
0.5
1.0
0.4 , 0.5
0.5
1.0
0.5 , 0.5
0.5
1.0
0.67 , 0.5
0.5
1.0
Abbildung 3.30: Dichtefunktionen der Betaverteilung als Funktion von µ und ϕ
wobei X12 , X22 unabhängige χ2 -verteilte Zufallsvariablen sind mit den Parametern n1
und n2 . Es gilt dann
V 2 ∼ Be(n1 /2; n2 /2) .
Da die χ2 -Verteilung ein Spezialfall der Gammaverteilung ist, folgt dieses Resultat
aus dem folgenden allgemeineren: Wenn X1 und X2 eine Gammaverteilung mit identischem Parameter λ und ν1 bzw. ν2 besitzen, so gilt:
X1
∼ Be(ν1 ; ν2 ) .
X1 + X 2
d) Die Zufallsvariable X besitze eine F -Verteilung (siehe Definition 5.2) mit ν 1 und ν2
Freiheitsgraden, dann gilt:
ν1 X
∼ Be(ν1 /2; ν2 /2) .
ν2 + ν 1 X
3.6. BETAVERTEILUNG
59
e) Für α = β = 1/2 ergibt sich als Spezialfall die Arcus-Sinus-Verteilung, die in der
Theorie der ,,random walks” Anwendung findet. Erfüllen die Parameter α + β = 1
(jedoch α 6= 1/2), so spricht man auch von einer verallgemeinerten Arcus-SinusVerteilung.
f) Seien U1 , U2 , . . . Un unabhängig und identisch U (0, 1)-verteilt. Ordnet man die Realisationen u1 , u2 , . . . , un der Größe nach, so dass
u(1) ≤ u(2) ≤ u(3) ≤ . . . ≤ u(n) ,
so nennt man die durch diese Umordnung neu entstehenden Zufallsvariablen
U(i) ,
i = 1, 2, . . . , n
die i-ten Ordnungsstatistiken, die ganz allgemein bei der Konstruktion verteilungsfreier Verfahren Anwendung finden. Unter der obigen Annahme der Rechteckverteilung
für Ui gilt
U(i) ∼ Be(i; n − i + 1) .
R-Befehle zur Betaverteilung:
dbeta(x, shape1, shape2) berechnet die Dichtefunktion der Betaverteilung
mit den Parametern α =shape1 und β =shape2 an der Stelle x. Dabei kann x ein
Vektor sein.
pbeta(q, shape1, shape2) berechnet die Verteilungsfunktion der Betaverteilung mit den Parametern α =shape1 und β =shape2 an der Stelle q. Dabei kann q
ein Vektor sein.
qbeta(p, shape1, shape2) berechnet die Umkehrfunktion der Verteilungsfunktion der Betaverteilung mit den Parametern α =shape1 und β =shape2 an der
Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen
0 und 1 sein.
rbeta(n, shape1, shape2) erzeugt n betaverteilte Zufallszahlen mit den Parametern α =shape1 und β =shape2.
Kapitel 4
Diskrete Verteilungen
4.1 Bernoulli-Verteilung
Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben
durch


 1 − π für x = 0
PX (x) =
π
für x = 1


0
sonst .
Die Bernoulli-Verteilung hat einen Parameter π, für den gelten muss
0<π<1.
Wir schreiben
X ∼ Ber(π) ,
wenn eine Zufallsvariable X eine Bernoulli-Verteilung besitzt. Eine Bernoulli-verteilte Zufallsvariable X nimmt nur die zwei Werte 0 und 1 an. Dabei spricht man von einem Erfolg,
wenn X = 1 ist und von einem Misserfolg, wenn X = 0 ist, wobei mit Erfolg nicht immer
ein ,,positives” Ereignis im gewöhnlichen Sprachgebrauch gemeint ist.
π
1−π
0
Misserfolg
1
Erfolg
Abbildung 4.1: Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung
60
4.2. BINOMIALVERTEILUNG
61
Satz 4.1 Es gelte
X ∼ Ber(π) .
Dann gilt für den Erwartungswert und die Varianz
EX = π
und
V ar(X) = π − π 2 = π(1 − π) .
In Anwendungen der Bernoulli-Verteilung ist die Erfolgswahrscheinlichkeit π gleich einem
Anteil in einer Grundgesamtheit (z.B. Besitzt einen Fernseher, kauft ein Produkt, ist krank,
wählt ,,Ja” usw.).
4.2 Binomialverteilung
Definition 4.2 Die Wahrscheinlichkeitsfunktion der Binomialverteilung ist gegeben
durch
( n
π x (1 − π)n−x x = 0, 1, 2, ..., n
x
PX (x) =
0
sonst .
Die Binomialverteilung hat zwei Parameter n und π, für die gelten muss
n ∈ IN
und
0<π<1.
Wir schreiben
X ∼ b(n; π) ,
wenn die Zufallsvariable X eine Binomialverteilung besitzt.
Satz 4.2 Es gelte
X ∼ b(n; π) .
Dann gilt für den Erwartungswert und die Varianz
EX = nπ
und
V arX = nπ(1 − π) .
Die Abbildungen 4.2 - 4.4 zeigen einige Wahrscheinlichkeitsfunktionen der Binomialverteilung. Achten Sie auf die Symmetrie und die Annäherung an die Normalverteilung mit
wachsendem n.
62
KAPITEL 4. DISKRETE VERTEILUNGEN
b( 10 ; 0.5 )
0.4
0.3
0.3
P(x)
P(x)
b( 10 ; 0.1 )
0.4
0.2
0.2
0.1
0.1
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
x
x
b( 10 ; 0.9 )
0.4
0.3
0.3
P(x)
P(x)
b( 10 ; 0.7 )
0.4
0.2
0.2
0.1
0.1
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
x
x
Abbildung 4.2: Wahrscheinlichkeitsfunktionen der Binomialverteilung mit n = 10, π =
0.1, 0.5, 0.7, 0.9
b( 60 ; 0.5 )
0.20
0.15
0.15
P(x)
P(x)
b( 60 ; 0.1 )
0.20
0.10
0.10
0.05
0.05
0.0
0.0
0
10 20 30 40 50 60
0
x
x
b( 60 ; 0.9 )
0.20
0.15
0.15
P(x)
P(x)
b( 60 ; 0.7 )
0.20
0.10
0.10
0.05
0.05
0.0
0.0
0
10 20 30 40 50 60
x
10 20 30 40 50 60
0
10 20 30 40 50 60
x
Abbildung 4.3: Wahrscheinlichkeitsfunktionen der Binomialverteilung mit n = 60, π =
0.1, 0.5, 0.7, 0.9
4.2. BINOMIALVERTEILUNG
63
b( 150 ; 0.1 )
b( 150 ; 0.5 )
0.10
P(x)
P(x)
0.10
0.05
0.0
0.0
0
30
60
90 120 150
0
30
60
90 120 150
x
x
b( 150 ; 0.7 )
b( 150 ; 0.9 )
0.10
P(x)
0.10
P(x)
0.05
0.05
0.0
0.05
0.0
0
30
60
90 120 150
0
x
30
60
90 120 150
x
Abbildung 4.4: Wahrscheinlichkeitsfunktionen der Binomialverteilung mit n = 150, π =
0.1, 0.5, 0.7, 0.9
Die charakteristische Eigenschaft einer Binomialverteilung wird durch den folgenden Satz
ausgedrückt:
Satz 4.3 Wenn X1 , X2 , ..., Xn unabhängig und identisch Bernoulli-verteilt sind mit dem
Parameter π, dann gilt
X=
n
X
i=1
Xi ∼ b(n; π) .
Typischerweise erhält man in der folgenden Situation eine Binomialverteilung:
Beispiel 4.1 (Anzahl der Erfolge) Der Anteil der Erfolge in einer Grundgesamtheit sei π . Die
Zufallsvariable X sei die Anzahl der Erfolge in einer Stichprobe der Größe n. Dann gilt nach Satz
4.3
X ∼ b(n; π) .
R-Befehle zur Binomialverteilung:
dbinom(x, size, prob) berechnet die Wahrscheinlichkeitsfunktion der Binomialverteilung mit den Parametern n =size und π =prob an der Stelle x. Dabei
kann x ein Vektor sein.
64
KAPITEL 4. DISKRETE VERTEILUNGEN
pbinom(q, size, prob) berechnet die Verteilungsfunktion der Binomialverteilung mit den Parametern n =size und π =prob an der Stelle q. Dabei kann q ein
Vektor sein.
qbinom(p, size, prob) berechnet die Umkehrfunktion der Verteilungsfunktion der Binomialverteilung mit den Parametern n =size und π =prob an der Stelle
p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und
1 sein.
rbinom(n, size, prob) erzeugt n binomialverteilte Zufallszahlen mit den Parametern n =size und π =prob.
choose(n,k) berechnet den Binomialkoeffizienten
n
x
.
4.3 Geometrische Verteilung
Definition 4.3 Die Wahrscheinlichkeitsfunktion der geometrischen Verteilung ist gegeben durch
(
(1 − π)x π x = 0, 1, 2, ...
PX (x) =
0
sonst .
Die geometrische Verteilung hat einen Parameter π, für den gelten muss 0 < π < 1.
Wir schreiben
X ∼ Ge(π) ,
wenn die Zufallsvariable X eine geometrische Verteilung besitzt.
Satz 4.4 Es gelte X ∼ Ge(π) . Dann gilt für den Erwartungswert und die Varianz
EX =
1−π
π
und
V arX =
1−π
.
π2
Beispiel 4.2 (Anzahl der Misserfolge vor dem ersten Erfolg) Unabh¨angige Bernoulli-Experimente
werden solange durchgeführt, bis der erste Erfolg eintritt. Die Zufallsvariable X sei die Anzahl der
Misserfolge vor dem ersten Erfolg bei diesen Bernoulli-Experimenten. Dann gilt
X ∼ Ge(π) .
In der anschließenden Berechnung der Wahrscheinlichkeitsfunktion werde ein Erfolg mit ,,E” und ein
Misserfolg mit ,,M” bezeichnet.
4.3. GEOMETRISCHE VERTEILUNG
65
X
0
1
2
..
.
Wahrscheinlichkeit
P (E) = π
P (M E) = P (M )P (E) = (1 − π)π
P (M M E) = P (M )P (M )P (E) = (1 − π)(1 − π)π = (1 − π)2 π
..
.
x
x
P (M
| M...M
{z } E) = P (M ) · . . . · P (M ) P (E) = (1 − π) π
|
x
{z
}
x
Die Wahrscheinlichkeitsfunktion der geometrischen Verteilung kann also als Antwort auf die
Frage
Wieviele Versuche muss man abwarten, bis man Erfolg hat?
aufgefasst werden.
Ge( 0.5 )
1.0
0.8
0.8
0.6
0.6
P(x)
P(x)
Ge( 0.1 )
1.0
0.4
0.4
0.2
0.2
0.0
0.0
0 2 4 6 8 101214161820
0 2 4 6 8 101214161820
x
x
Ge( 0.9 )
1.0
0.8
0.8
0.6
0.6
P(x)
P(x)
Ge( 0.7 )
1.0
0.4
0.4
0.2
0.2
0.0
0.0
0 2 4 6 8 101214161820
0 2 4 6 8 101214161820
x
x
Abbildung 4.5: Wahrscheinlichkeitsfunktionen der geometrischen Verteilung mit π =
0.1, 0.5, 0.7, 0.9
Die geometrische Verteilung hat eine charakteristische Eigenschaft, die analog ist zu der
Charakterisierung der Exponentialverteilung in Gleichung (3.8). Dort haben wir von einer
Verteilung ohne Gedächtnis gesprochen.
66
KAPITEL 4. DISKRETE VERTEILUNGEN
Satz 4.5 (Markoffsche Eigenschaft) Die geometrische Verteilung ist charakterisiert
durch die Eigenschaft
P ({X = x + x0 }|{X ≥ x0 }) = P ({X = x}) .
Egal, wie viele Misserfolge man beim Warten auf den ersten Erfolg schon erlebt hat, die
Verteilung der noch folgenden Misserfolge vor dem ersten Erfolg ändert sich dadurch nicht.
R-Befehle zur geometrischen Verteilung:
dgeom(x, prob) berechnet die Wahrscheinlichkeitsfunktion der geometrischen Verteilung mit dem Parameter π =prob an der Stelle x. Dabei kann x ein Vektor sein.
pgeom(q, prob) berechnet die Verteilungsfunktion der geometrischen Verteilung
mit dem Parameter π =prob an der Stelle q. Dabei kann q ein Vektor sein.
qgeom(p, prob) berechnet die Umkehrfunktion der Verteilungsfunktion der geometrischen Verteilung mit dem Parameter π =prob an der Stelle p. Dabei muss p ein
Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein.
rgeom(n, prob) erzeugt n geometrisch verteilte Zufallszahlen mit dem Parameter
π =prob.
4.4 Die negative Binomialverteilung
Definition 4.4 Die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung ist
gegeben durch
PX (x) =
( x+r−1
r−1
0
π r (1 − π)x
x = 0, 1, 2, . . .
sonst .
Die negative Binomialverteilung hat zwei Parameter r und π, für die gelten muss
r ∈ IN
und
0<π<1.
Wir schreiben
X ∼ N B(r; π) ,
wenn X eine negative Binomialverteilung mit den Parametern r und π besitzt.
Die negative Binomialverteilung tritt typischerweise in der folgenden Situation auf.
4.4. DIE NEGATIVE BINOMIALVERTEILUNG
67
NB( 5 ; 0.3 )
NB( 5 ; 0.5 )
0.4
0.4
P(x)
0.6
P(x)
0.6
0.2
0.2
0.0
0.0
0 2 4 6 8 101214161820
0 2 4 6 8 101214161820
x
x
NB( 5 ; 0.7 )
NB( 5 ; 0.9 )
0.4
0.4
P(x)
0.6
P(x)
0.6
0.2
0.2
0.0
0.0
0 2 4 6 8 101214161820
0 2 4 6 8 101214161820
x
x
Abbildung 4.6: Wahrscheinlichkeitsfunktionen der negativen Binomialverteilung mit r =
5, π = 0.9, 0.7, 0.5, 0.3
Beispiel 4.3 (Anzahl der Misserfolge vor dem r-ten Erfolg) Unabh¨angige Bernoulli-Experimente
werden solange durchgeführt, bis der r -te Erfolg eintritt. Die Zufallsvariable X sei die Anzahl der
Misserfolge vor dem r -ten Erfolg bei diesen Bernoulli-Experimenten. Dann gilt
X ∼ N B(r; π) .
Wir wollen die Wahrscheinlichkeitsfunktion von X bestimmen. Die Zufallsvariable X nimmt genau
dann den Wert x an, wenn es vor dem r -ten Erfolg x Misserfolge und r − 1 Erfolge gibt. Nun kann
man diese x Misserfolge und r − 1 Erfolge auf verschiedene Weisen (Reihenfolgen) anordnen. Jede
Möglichkeit hat die Wahrscheinlichkeit
π r (1 − π)x .
Die Anzahl der Möglichkeiten, r − 1 Erfolge und x Misserfolge auf x + r − 1 Stellen anzuordnen, ist
x+r−1
r−1
!
.
Damit gilt
P ({X = x}) = P ({r − 1 Erfolge und x Misserfolge vor r-tem Erfolg)}
=
!
x+r−1 r
π (1 − π)x
r−1
x = 0, 1, 2, ... .
68
KAPITEL 4. DISKRETE VERTEILUNGEN
NB( 2 ; 0.5 )
NB( 5 ; 0.5 )
0.2
0.2
P(x)
0.3
P(x)
0.3
0.1
0.1
0.0
0.0
0
5 10 15 20 25 30
0
5 10 15 20 25 30
x
x
NB( 10 ; 0.5 )
NB( 15 ; 0.5 )
0.2
0.2
P(x)
0.3
P(x)
0.3
0.1
0.1
0.0
0.0
0
5 10 15 20 25 30
0
5 10 15 20 25 30
x
x
Abbildung 4.7: Wahrscheinlichkeitsfunktionen der negativen Binomialverteilung mit r =
2, 5, 10, 15, π = 0.5
Satz 4.6 Es gelte X ∼ N B(r; π). Dann gilt für den Erwartungswert und die Varianz
von X
1−π
1−π
EX = r
und
V arX = r 2 .
π
π
Satz 4.7 Seien X1 , X2 , ..., Xr unabhängig und identisch Ge(π)-verteilt sind, dann gilt
X1 + X2 + ... + Xr ∼ N B(r; π) .
Beweis:
Sei
X1
X2
X3
..
.
Xr
die Anzahl der Misserfolge bis zum 1. Erfolg
die Anzahl der Misserfolge zwischen dem 1. und dem 2. Erfolg
die Anzahl der Misserfolge zwischen dem 2. und dem 3. Erfolg
die Anzahl der Misserfolge zwischen dem (r − 1)-ten und dem r-ten Erfolg.
Die einzelnen Zufallsvariablen Xi , i = 1, 2, . . . , r besitzen eine Ge(π)-Verteilung, da man
sie jeweils als Anzahl der Misserfolge vor dem ersten Erfolg auffassen kann. Die Summe die-
4.4. DIE NEGATIVE BINOMIALVERTEILUNG
69
ser Zufallsvariablen ist die Anzahl der Misserfolge bis zum r-ten Erfolg und besitzt demnach
eine N B(r; π)-Verteilung.
♦
Beispiel 4.4 Sei r = 3. Vor dem dritten Erfolg gebe es die folgende Anordnung von Erfolgen und
Misserfolgen.
000 1 0000
0 1
|{z}
| {z } 1 |{z}
X1
X2
X3
Dann ist die Anzahl der Misserfolge bis zum dritten Erfolg
X =3+4+1=8 .
Die Abbildungen 4.6 und 4.7 zeigen die Vielseitigkeit der Gestalt der negativen Binomialverteilung, die sich daher in Anwendungen gut zum Anpassen an gegebene Daten eignet
(siehe Johnson, Kotz und Kemp (1992), dort werden auch Literaturangaben zu Anwendungen aus dem ökonomischen Bereich gegeben). Sie weist im Vergleich zur Poissonverteilung
größere Flexibilität auf. Dabei braucht r keine natürliche Zahl zu sein. Man kann die negative Binomialverteilung für beliebiges positives reelles r definieren. Dazu muss man die
in der Definition der Binomialkoeffizienten auftretenden Fakultäten durch die Gammaverteilung definieren. Wenn n keine natürliche Zahl ist, so definiert man aufgrund des Satzes
3.9
n! = Γ(n + 1) .
Als weitere Anwendung werden wir die negative Binomialverteilung im Zusammenhang
mit Mischverteilungen (siehe Kapitel 9.3.2) und Bayes’schen Verfahren kennenlernen, denn
sie ist die prädiktive Verteilung einer Poissonverteilung, deren Parameter gammaverteilt ist
(siehe Satz 10.8).
R-Befehle zur negativen Binomialverteilung:
dnbinom(x, size, prob) berechnet die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung mit den Parametern r =size und π =prob an der Stelle x.
Dabei kann x ein Vektor sein.
pnbinom(q, size, prob) berechnet die Verteilungsfunktion der negativen Binomialverteilung mit den Parametern r =size und π =prob an der Stelle q. Dabei
kann q ein Vektor sein.
qnbinom(p, size, prob) berechnet die Umkehrfunktion der Verteilungsfunktion der negativen Binomialverteilung mit den Parametern r =size und π =prob
an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen
zwischen 0 und 1 sein.
rnbinom(n, size, prob) erzeugt n binomialverteilte Zufallszahlen mit den
Parametern r =size und π =prob.
70
KAPITEL 4. DISKRETE VERTEILUNGEN
4.5 Poissonverteilung
Definition 4.5 Die Wahrscheinlichkeitsfunktion der Poissonverteilung ist definiert
durch
( x −λ
λ e
x = 0, 1, 2, ...
x!
PX (x) =
0
sonst.
Die Poissonverteilung hat einen Parameter λ, für den gelten muss λ > 0.
Wir schreiben
X ∼ P o(λ) ,
wenn X eine Poissonverteilung mit dem Parameter λ besitzt.
Abbildung 4.8 zeigt einige Wahrscheinlichkeitsfunktionen der Poissonverteilung. Man beachte, dass die Poissonverteilung mit wachsendem Parameter λ immer mehr die Gestalt der
Dichte einer Normalverteilung annimmt. Daher hat man in der Vorcomputerzeit die Poissonverteilung für große λ durch eine Normalverteilung approximiert.
Satz 4.8 Es gelte X ∼ P o(λ). Dann gilt für den Erwartungswert und die Varianz von
X
EX = λ
und
V arX = λ .
Der Poissonverteilung kommt in Anwendungen eine ähnliche Bedeutung unter den diskreten Verteilungen zu wie der Normalverteilung unter den stetigen Verteilungen. Sie wird
gebraucht als
• Approximation der Binomialverteilung (siehe Satz 4.9) und anderer Verteilungen,
• wenn Ereignisse zufällig in der Zeit oder allgemeiner auf der reellen Zahlenachse
(Poissonprozess) oder im Raum (räumliche Poissonprozesse) auftreten (siehe Beispiel
4.6),
• in Modellen für die Analyse von Häufigkeitstabellen,
• in der empirischen Analyse von Zähldaten.
4.5. POISSONVERTEILUNG
71
Po( 0.5 )
Po( 2.5 )
0.4
0.4
P(x)
0.6
P(x)
0.6
0.2
0.2
0.0
0.0
0
4
8
12
16
20
0
4
8
x
12
16
20
16
20
x
Po( 5 )
Po( 9 )
0.4
0.4
P(x)
0.6
P(x)
0.6
0.2
0.2
0.0
0.0
0
4
8
12
16
20
0
x
4
8
12
x
Abbildung 4.8: Wahrscheinlichkeitsfunktionen der Poissonverteilung mit λ = 0.5, 2.5, 5, 9
Satz 4.9 (Approximation der Binomialverteilung) Sei
X ∼ b(n; π) .
Wenn π ,,klein” ist und n ,,groß” ist, so gilt asymptotisch
X ∼P
˙ o(λ)
mit λ = nπ.
Dieser Satz wird durch Abbildung 4.9 veranschaulicht, in der die Wahrscheinlichkeitsfunktionen der P o(5)-Verteilung und einiger Binomialverteilungen, für die nπ = 5 mit wachsendem n und fallendem π gilt, dargestellt ist.
Beispiel 4.5 Ein typisches Beispiel für die Anwendung dieses Satzes findet man in der Versicherungswirtschaft. Die Anzahl n der Versicherten ist groß, die Wahrscheinlichkeit π eines Schadenfalles
ist klein. Sei X die Anzahl der Versicherten, die in einem bestimmten Zeitraum (z.B. ein Jahr) einen
Schaden anmelden. Wenn man annimmt, dass die Wahrscheinlichkeit eines Schadensfalles für jeden
Versicherten gleich groß ist, so gilt
X ∼ b(n; π) .
Als Approximation kann unter den obigen Voraussetzungen die Poissonverteilung verwendet werden:
X ∼P
˙ o(λ)
λ = nπ .
72
KAPITEL 4. DISKRETE VERTEILUNGEN
0.3
b( 10 ; 0.5 )
Po( 5 )
0.2
b( 50 ; 0.1 )
Po( 5 )
P(x)
P(x)
0.2
0.3
0.1
0.1
0.0
0.0
0 2 4 6 8 10 12 14
x
0 2 4 6 8 10 12 14
x
0.3
b( 100 ; 0.05 )
Po( 5 )
0.2
b( 1000 ; 0.005 )
Po( 5 )
P(x)
P(x)
0.2
0.3
0.1
0.1
0.0
0.0
0 2 4 6 8 10 12 14
x
0 2 4 6 8 10 12 14
x
Abbildung 4.9: Wahrscheinlichkeitsfunktionen der Binomialverteilung und Poissonverteilung
mit λ = nπ = 5
Beispiel 4.6 Auch in der Qualit¨atskontrolle wird die Poissonverteilung h¨aufig als Modell verwendet,
z.B. für
• die Anzahl der fehlerhaften Teile (die Wahrscheinlichkeit eines Fehlers sei klein) in einem
großen Los.
• die Anzahl der Fehler pro Einheit in einem lackierten Draht, dessen Fehlstellen zuf¨allig über
die gesamte L¨ange verteilt seien (eindimensionaler Poissonprozess).
• Anzahl der Astlöcher pro Fl¨acheneinheit in einer Holzplatte oder Anzahl der Bl¨aschen pro
Fl¨acheneinheit in einer Glasplatte (r¨aumlicher Poissonprozess).
Wir hatten schon in Kapitel 3 einen Poissonprozess definiert (Definition 3.6). Der folgende
Satz gibt eine Begründung des Namens ,,Poissonprozess” an.
Satz 4.10 Sei N (t) die Anzahl der Ereignisse in dem Zeitintervall (0, t] eines Poissonprozesses mit Intensität λ (Ereignisse pro Zeiteinheit), dann gilt
N (t) ∼ P o(λt) ,
d.h.


(λt)n e−λt
P ({N (t) = n}) =
n!

0
für n = 0, 1, ...
sonst.
4.5. POISSONVERTEILUNG
73
Beispiel 4.7 Unterbrechungen am Fließband tauchen wie ein Poissonprozess N (t) auf mit Intensit¨at
λ = 0.1 pro Stunde. Sei X = N (8) die Anzahl der Unterbrechungen in 8 Stunden. Dann gilt:
X ∼ P o((0.1) · 8) = P o(0.8)
Dann gilt z.B.
P ({X = 0}) =
(0.8)0 e−0.8
0!
= e−0.8 = 0.449 ,
P ({X = 1}) =
(0.8)1 e−0.8
1!
= ... = 0.359 ,
P ({X = 2}) =
(0.8)2 e−0.8
2!
= ... = 0.144 ,
P ({X = 3}) =
(0.8)3 e−0.8
3!
= ... = 0.038 .
R-Befehle zur Poissonverteilung:
dpois(x, lambda) berechnet die Wahrscheinlichkeitsfunktion der Poissonverteilung mit dem Parameter λ =lambda an der Stelle x. Dabei kann x ein Vektor sein.
ppois(q, lambda) berechnet die Verteilungsfunktion der Poissonverteilung mit
dem Parameter λ =lambda an der Stelle q. Dabei kann q ein Vektor sein.
qpois(p, lambda) berechnet die Umkehrfunktion der Verteilungsfunktion der
Poissonverteilung mit dem Parameter λ =lambda an der Stelle p. Dabei muss p ein
Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein.
rpois(n, lambda) erzeugt n poissonverteilte Zufallszahlen mit dem Parameter
λ =lambda.
Kapitel 5
Beziehungen zwischen Verteilungen
In diesem Kapitel wollen wir Beziehungen zwischen Verteilungen betrachten, die wir z.T.
schon bei den einzelnen Verteilungen betrachtet haben. So wissen Sie schon, dass die Exponentialverteilung und die χ2 -Verteilung spezielle Gammaverteilungen sind oder dass die
Summe geometrisch verteilter Zufallsvariablen negativ binomialverteilt ist. All diese Zusammenhänge sollen hier noch einmal zusammenfassend betrachtet werden. Dabei werden wir
auch einige neue Verteilungen kennenlernen.
5.1 Diskrete Verteilungen
5.1.1 Bernoulli-Verteilung, Binomialverteilung
Der Zusammenhang zwischen der Bernoulli- und der Binomialverteilung wurde schon in
Satz 4.3 behandelt.
Satz 5.1 Seien X1 , X2 , . . . , Xn unabhängig und identisch Ber(π)-verteilt. Dann gilt:
X=
n
X
i=1
Xi ∼ b(n; π) .
Beweis:
P ({X = x}) = P ({X1 + X2 + ... + Xn = x})
= P ({x Erfolge und (n − x) Misserfolge })
Die Erfolge und Misserfolge können in verschiedenen Reihenfolgen angeordnet werden. Die
Anzahl der Möglichkeiten, x Erfolge und (n − x) Misserfolge in n Positionen anzuordnen,
ist
!
n
.
x
Jede einzelne dieser Möglichkeiten hat die Wahrscheinlichkeit
π x (1 − π)n−x .
74
5.1. DISKRETE VERTEILUNGEN
75
Demnach gilt:
P ({X = x}) =
( n
x
π x (1 − π)n−x
0
x = 0, 1, 2, ..., n
sonst .
♦
Als Folgerung aus diesem Satz ergibt sich:
Satz 5.2 Die Zufallsvariablen X1 und X2 seien unabhängig und binomialverteilt mit den
Parametern n1 bzw. n2 und identischem Parameter π. Dann gilt:
X1 + X2 ∼ b(n1 + n2 ; π) .
Beweis:
Die Summe lässt sich auffassen als die Anzahl der Erfolge in n1 +n2 unabhängigen BernoulliExperimenten mit Erfolgswahrscheinlichkeit π.
♦
5.1.2 Bernoulli-Verteilung, Geometrische Verteilung
Eine Folge von Bernoulli-Experimenten mit Erfolgswahrscheinlichkeit π werde solange durchgeführt, bis der erste Erfolg eintritt. Die Zufallsvariable X sei die Anzahl der Misserfolge bis
zum ersten Erfolg. Dann gilt (siehe Beispiel 4.2):
X ∼ Ge(π) .
5.1.3 Bernoulli-Verteilung, Negative Binomialverteilung
Wir betrachten weiterhin eine Folge von Bernoulli-Experimenten mit Erfolgswahrscheinlichkeit π. Die Zufallsvariable X sei die Anzahl der Misserfolge vor dem r-ten Erfolg (r >
0). Dann gilt:
X ∼ N B(r; π) .
5.1.4 Geometrische Verteilung, Negative Binomialverteilung
Die geometrische Verteilung ist ein Spezialfall der negativen Binomialverteilung, denn es
gilt offensichtlich
Ge(π) ≡ N B(1; π) .
Darüberhinaus kann man für r ∈ IN jede negativ binomialverteilte Zufallsvariable als Summe von geometrisch verteilten Zufallsvariablen auffassen (vergleiche Satz 4.7).
76
KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN
Satz 5.3 Seien X1 , X2 , . . . , Xr unabhängig und identisch Ge(π)–verteilt. Dann gilt:
X=
r
X
i=1
Xi ∼ N B(r; π) .
Es folgt aus Satz 5.3, dass der Erwartungswert und die Varianz einer negativ binomialverteilten Zufallsvariablen r mal so groß sind wie die entsprechenden Werte der geometrischen
Verteilung. Zur Warnung sei aber gesagt, dass die Unabhängigkeit der Zufallsvariablen eine
wesentliche Voraussetzung ist. Bei nicht unabhängigen Zufallsvariablen darf man die Varianzen nicht einfach addieren. Ein ähnlicher Zusammenhang bestand zwischen den Erwartungswerten und Varianzen der Bernoulli- und Binomialverteilung.
Als weitere Folgerung aus Satz 5.3 ergibt sich:
Satz 5.4 Die Zufallsvariablen X1 und X2 seien unabhängig und negativ binomialverteilt
mit den Parametern r1 bzw. r2 und identischem Parameter π. Dann gilt:
X1 + X2 ∼ N B(r1 + r2 ; π) .
Beweis:
Man fasse beide Zufallsvariablen als Summe von r1 bzw. r2 unabhängig und identisch geometrisch verteilten Zufallsvariablen auf. Die Summe dieser r1 + r2 unabhängig geometrisch
verteilten Zufallsvariablen ist dann negativ binomialverteilt mit den Parametern r 1 + r2 und
π.
♦
5.1.5 Binomialverteilung, Poissonverteilung
Die Binomialverteilung hatten wir als Anzahl der Erfolge in n unabhängigen BernoulliExperimenten mit Erfolgswahrscheinlichkeit π kennengelernt (siehe Beispiel 4.1). Ist die
Anzahl der Experimente sehr groß und die Erfolgswahrscheinlichkeit klein, so kann man die
Binomialverteilung durch eine Poissonverteilung approximieren (siehe Satz 4.9).
5.1. DISKRETE VERTEILUNGEN
77
Satz 5.5 Sei
X ∼ b(n; π) .
Wenn π ,,klein” ist und n ,,groß” ist, so gilt asymptotisch
X ∼P
˙ o(λ)
mit
λ = nπ .
Aufgrund dieses Satzes spricht man bei der Poissonverteilung auch als der Verteilung seltener Ereignisse.
5.1.6 Binomialverteilung, Normalverteilung
Aufgrund des zentralen Grenzwertsatzes (siehe Satz 3.8) kann man eine binomialverteilte
Zufallsvariable für große n durch eine Normalverteilung approximieren.
Satz 5.6 Sei
X ∼ b(n; π) .
Wenn n ,,groß” ist, so gilt asymptotisch:
X ∼N
˙ (µ; σ 2 )
mit
µ = nπ
und
σ 2 = nπ(1 − π) .
In diesem Satz wird nur verlangt, dass n groß sein muss. Über π wird nichts gesagt. In der
Tat gilt dieser Satz schließlich für jedes π. Nur für sehr kleine oder sehr große π (d.h. π nahe
bei 1), dauert es sehr lange, bis die Wahrscheinlichkeitsfunktion der Binomialverteilung mit
wachsendem n allmählich eine symmetrische glockenförmige Gestalt annimmt. Für solche
π muss dann n eben noch größer sein, bis die Approximation durch die Normalverteilung
hinreichend genau ist.
5.1.7 Negative Binomialverteilung, Normalverteilung
Aufgrund des zentralen Grenzwertsatzes (siehe Satz 3.8) kann man auch eine negativ binomialverteilte Zufallsvariable für große r durch eine Normalverteilung approximieren. Auch
hier werden nur Voraussetzungen über r gemacht. Der Parameter π bestimmt aber, wie groß
r sein muss, damit man von einer guten Approximation sprechen kann.
78
KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN
Satz 5.7 Sei
X ∼ N B(r; π) .
Wenn r ,,groß” ist, so gilt asymptotisch:
X ∼N
˙ (µ; σ 2 )
mit
µ = r(1 − π)/π
und
σ 2 = r(1 − π)/π 2 .
5.1.8 Summen poissonverteilter Zufallsvariablen
Satz 5.8 Die Zufallsvariablen X1 und X2 seien unabhängig und poissonverteilt mit den
Parametern λ1 bzw. λ2 . Dann gilt:
X1 + X2 ∼ P o(λ1 + λ2 ) .
Die Summe von zwei und damit von beliebig vielen unabhängigen poissonverteilten Zufallsvariablen ist also wieder poissonverteilt. Die Parameter sind zu addieren. Damit kann
man sich die Poissonverteilung für großes λ auch als Verteilung der Summe von vielen unabhängig und identisch verteilten Zufallsvariablen vorstellen und den zentralen Grenzwertsatz (siehe Satz 3.8) anwenden.
5.1.9 Poissonverteilung, Normalverteilung
Die Poissonverteilung kann für große λ bekanntlich (siehe S. 70) durch eine Normalverteilung approximiert werden.
Satz 5.9 Sei
X ∼ P o(λ) .
Wenn λ ,,groß” ist, so gilt asymptotisch:
X ∼N
˙ (µ; σ 2 )
mit
µ=λ
und
σ2 = λ .
5.2. STETIGE VERTEILUNGEN
79
5.2 Stetige Verteilungen
5.2.1 Exponentialverteilung, Gammaverteilung, Normalverteilung
Die Exponentialverteilung ist ein Spezialfall der Gammaverteilung, denn es gilt nach Gleichung (3.6):
Exp(λ) ≡ G(1; λ) .
Wir erhalten also eine Exponentialverteilung, wenn der Parameter ν der Gammaverteilung 1
ist. Darüberhinaus erhalten wir eine Gammaverteilung als Summe unabhängiger exponentialverteilter Zufallsvariablen (siehe Satz 3.11).
Satz 5.10 Wenn X1 , X2 , ..., Xν unabhängig und identisch exponentialverteilt sind, d.h.
Xi ∼ Exp(λ), so gilt:
ν
X
i=1
Xi ∼ G(ν; λ) .
Nun kann man wieder den zentralen Grenzwertsatz (Satz 3.8) anwenden, um zu folgern:
Satz 5.11 Sei
X ∼ G(ν; λ) .
Wenn ν ,,groß” ist, so gilt asymptotisch:
X ∼N
˙ (µ; σ 2 )
mit
µ=
ν
λ
und
σ2 =
ν
.
λ2
5.2.2 Summe von gammaverteilten Zufallsvariablen
Satz 5.12 Die Zufallsvariablen X1 und X2 seien unabhängig und gammaverteilt mit den
Parametern ν1 bzw. ν2 und identischem Parameter λ. Dann gilt:
X1 + X2 ∼ G(ν1 + ν2 ; λ) .
Die Summe von zwei und damit beliebig vielen gammaverteilten Zufallsvariablen mit identischem Parameter λ ist wieder gammaverteilt. Der Parameter ν ist die Summe der beiden
Parameter ν1 und ν2 .
80
KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN
5.2.3 Gammaverteilung, χ2 -Verteilung, Normalverteilung
Die χ2 -Verteilung ist ein Spezialfall der Gammaverteilung. Nach Satz 3.12 gilt:
χ2n ≡ G(n/2; 1/2) .
Es folgt aus Satz 5.12, dass die Summe unabhängiger χ2 -verteilter Zufallsvariablen wieder
χ2 -verteilt ist, wobei die Freiheitsgrade zu addieren sind.
Satz 5.13 Die Zufallsvariablen X1 und X2 seien unabhängig und χ2 -verteilt mit den
Parametern n1 bzw. n2 . Dann gilt:
X1 + X2 ∼ χ2n1 +n2 .
Mit dem zentralen Grenzwertsatz (Satz 3.8) oder aus Satz 5.11 folgt wieder:
Satz 5.14 Sei
X ∼ χ2n .
Wenn n ,,groß” ist, so gilt asymptotisch:
X ∼N
˙ (µ; σ 2 )
mit
µ=n
und
σ 2 = 2n .
5.2.4 Summen normalverteilter Zufallsvariablen
Satz 5.15 Seien X1 , X2 , . . . , Xn unabhängig und identisch N (µ; σ 2 )-verteilt. Dann gilt:
X=
n
X
i=1
Xi ∼ N (nµ; nσ 2 ) .
Für nicht identisch normalverteilte Zufallsvariablen gilt:
5.2. STETIGE VERTEILUNGEN
81
Satz 5.16 Seien X1 , X2 , . . . , Xn unabhängig N (µi ; σi2 )-verteilt. Dann gilt:
X=
n
X
i=1
Xi ∼ N (
n
X
µi ;
i=1
n
X
σi2 ) .
i=1
5.2.5 Normalverteilung, χ2 -Verteilung
Satz 5.17 Es gelte
X ∼ N (0; 1) .
Dann gilt:
X 2 ∼ χ21 .
Das Quadrat einer standarnormalverteilten Zufallsvariablen ist also χ 2 -verteilt mit einem
Freiheitsgrad. Mit Satz 5.13 folgt, dass auch die Summe der Quadrate unabhängiger N (0; 1)verteilter Zufallsvariablen χ2 -verteilt ist.
Satz 5.18 Seien X1 , X2 , ..., Xn unabhängig und identisch N (0; 1)-verteilt. Dann gilt:
X=
n
X
i=1
Xi2 ∼ χ2n .
Für praktische Anwendungen wichtig ist der folgende Satz:
Satz 5.19 Seien X1 , X2 , ..., Xn unabhängig und identisch N (µ; σ 2 )-verteilt. Sei
X̄ =
n
1X
Xi
n i=1
und S 2 =
n
1X
(Xi − X̄)2 .
n i=1
Dann gilt:
nS 2
∼ χ2 (n − 1) .
σ2
82
KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN
Man benutzt dieses Resultat, um Hypothesen über die Varianz in einer normalverteilten
Grundgesamtheit zu testen. Um die Nullhypothese
H0 : σ 2 = σ02
gegen die Alternative
H1 : σ 2 6= σ02
zu testen, verwendet man die Prüfgröße
nS 2
,
σ02
die nach Satz 5.19 unter der Hypothese eine χ2 -Verteilung mit n − 1 Freiheitsgraden besitzt.
Die χ2 -Verteilung ist eine wichtige Verteilung in der Varianzanalyse. Die dort berechneten
Summen der Quadrate von normalverteilten Zufallsvariablen sind verteilt wie σ 2 · χ2 , wobei
σ 2 die Varianz ist (siehe Beispiel 5.1).
5.2.6 Normalverteilung, t-Verteilung
Definition 5.1 Die Dichtefunktion der t-Verteilung ist gegeben durch
fX (x) =
)(1 + x2 /ν)−(ν+1)/2
Γ( ν+1
2
√
νπΓ(ν/2)
− ∞ < x < ∞ ..
Die t-Verteilung besitzt einen Parameter ν, für den gilt ν ∈ IN .
Wir schreiben
X ∼ tν ,
wenn eine Zufallsvariable eine t-Verteilung besitzt. Wir sagen dann auch, dass X eine tVerteilung mit ν Freiheitsgraden besitzt.
Abbildung 5.1 zeigt einige Dichtefunktionen der t-Verteilung. Sie ist wie die Normalverteilung symmetrisch um eine senkrechte Achse bei 0 und nähert sich mit wachsender Zahl der
Freiheitsgrade der Dichtefunktion der Standardnormalverteilung.
Aufgrund der Symmetrie der Dichtefunktion folgt:
Satz 5.20 Es gelte
X ∼ tν .
Dann gilt für den Erwartungswert:
EX = 0 .
5.2. STETIGE VERTEILUNGEN
83
0.5
1000
0.4
f(x)
5
0.3
0.2
1
0.1
0.0
-6
-4
-2
0
x
2
4
6
Abbildung 5.1: Dichtefunktionen der t-Verteilung mit ν = 1, 5, 1 000
Um von der Normalverteilung zur t-Verteilung zu kommen, benötigen wir das folgende Resultat, das wir hier der Vollständigkeit halber formulieren, obwohl wir den Begriff der Unabhängigkeit (siehe Definition 6.16) noch nicht definiert haben.
Satz 5.21 Seien X1 , ..., Xn unabhängig und identisch N (µ; σ 2 )-verteilt. Sei
X̄ =
n
1X
Xi
n i=1
und S∗2 =
n
1 X
(Xi − X̄)2 .
n − 1 i=1
Dann gilt: X̄ und S∗2 sind unabhängig.
Satz 5.22 Die Zufallsvariablen X1 und X2 seien unabhängig und
X1 ∼ N (0; 1),
X2 ∼ χ2 (ν) .
Dann gilt
X1
q
X2 /ν
∼ t(ν) ,
d.h. t-verteilt mit ν Freiheitsgraden.
Satz 5.23 Die Zufallsvariablen X1 , X2 , . . . , Xn seien unabhängig und identisch
N (µ; σ 2 )-verteilt. Dann gilt:
X̄ − µ
√ ∼ tn−1 .
S∗ / n
84
KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN
Beweis:
Es gilt (ohne kompletten Beweis, den Erwartungswert und die Varianz von X̄ werden wir
später berechnen)
X̄ − µ
√ ∼ N (0; 1) .
σ/ n
Nach Satz 5.19 gilt:
(n − 1)S∗2
∼ χ2 (n − 1) .
2
σ
Ferner sind X̄ und S∗2 nach Satz 5.21 unabhängig. Damit gilt nach Satz 5.22:
X̄−µ
√
σ/ n
r
(n−1)S∗2
σ 2 (n−1)
=
X̄ − µ
√ ∼ t(n − 1) .
S∗ / n
♦
Man verwendet
T =
X̄ − µ
√ ∼ tn−1
S∗ / n
als Prüfgröße im t-Test zur Prüfung von Hypothesen über den Erwartungswert in einer normalverteilten Grundgesamtheit, z.B.
H0 :
µ = µ0
H1 :
µ 6= µ0 .
gegen die Alternative
Unter der Nullhypothese H0 besitzt die Prüfgröße T dann die in Satz 5.23 angegebene Verteilung. Dieses Resultat wird ferner bei der Konstruktion von Konfidenzintervallen für den
Parameter µ der Normalverteilung benutzt.
R-Befehle zur t-Verteilung:
dt(x, df) berechnet die Dichtefunktion der t-Verteilung mit dem Parameter ν =df
an der Stelle x. Dabei kann x ein Vektor sein.
pt(q, df, ncp=0) berechnet die Verteilungsfunktion der t-Verteilung mit dem
Parameter ν =df an der Stelle q. Dabei kann q ein Vektor sein. Mit dem optionalen
Argument ncp wird der Nichtzentralitätsparameter festgelegt. Wir behandeln hier die
zentrale t-Verteilung, für die ncp=0 ist.
qt(p, df) berechnet die Umkehrfunktion der Verteilungsfunktion der t-Verteilung
mit dem Parameter ν =df an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein.
rt(n, df) erzeugt n t-verteilte Zufallszahlen mit dem Parameter ν =df.
5.2. STETIGE VERTEILUNGEN
85
5.2.7 Normalverteilung, F-Verteilung
Definition 5.2 Die Dichtefunktion der F-Verteilung ist gegeben durch:
fX (x) =
2
Γ( ν1 +ν
) ν1
2
ν2
ν1
Γ( 2 )Γ( 2 ) ν2
ν1 /2
xν1 /2−1 1 +
ν1 x
ν2
−(ν1 +ν2 )/2
x≥0
Die F-Verteilung hat zwei Parameter ν1 und ν2 , für die gelten muss νi ∈ IN, i = 1, 2.
Beachten Sie, dass für den Koeffizienten in der Dichteverteilung der F-Verteilung gilt:
2
Γ( ν1 +ν
)
1
2
ν1
ν2 =
ν1 ν2 .
Γ( 2 )Γ( 2 )
B( 2 ; 2 )
Wir schreiben
X ∼ F (ν1 ; ν2 ) ,
wenn die Zufallsvariable X eine F -Verteilung besitzt. Die Parameter werden auch Freiheitsgrade genannt, dabei heißen ν1 die Freiheitsgrade im Zähler und ν2 die Freiheitsgrade im
Nenner.
1.0
1
f(x)
0.8
20
2 10
0.6
3
0.4
0.2
0.0
0
1
2
3
4
5
x
Abbildung 5.2: Dichtefunktionen der F -Verteilung mit ν1 = 1, 2, 3, 10, 20, ν2 = 20
Satz 5.24 Die Zufallsvariablen X1 und X2 seien unabhängig χ2 -verteilt mit ν1 bzw. ν2
Freiheitsgraden, dann gilt:
X1 /ν1
∼ F (ν1 ; ν2 ) .
X2 /ν2
86
KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN
Beispiel 5.1 (Varianzanalyse) In der Grundvorlesung haben Sie bereits einen F -Test kennengelernt. Die Situation kann wie folgt beschrieben werden. Es liegen Beobachtungen in I Gruppen vor.
Yij = µi + eij
i = 1, 2, . . . , I; j = 1, 2, . . . , J.
Dabei seien µi Konstante, die eij seien normalverteilte unabh¨angige Zufallsvariablen mit E(eij ) = 0
und V ar(eij ) = σ 2 . Es soll die Hypothese
H0 : µ 1 = µ 2 = . . . = µ I
geprüft werden. Die Prüfgröße ist dann
1
I−1
PG =
1
I(J−1)
I
P
J Ȳi. − Ȳ..
i=1
J
I P
P
i=1 j=1
2
Yij − Ȳi.
2
Diese Prüfgröße ist typisch für viele F -Prüfgrößen, die Ihnen in Regressionsanalysen (z.B. in der
Vorlesung Ökonometrie) oder in Varianzanalysen (in der Vorlesung Lineare Modelle) oder bei der
Analyse von Daten mit Statistikprogrammpaketen begegnen werden. Die Summen der Quadrate in
Z¨ahler und Nenner der Prüfgröße
•
•
I
P
i=1
J Ȳi. − Ȳ..
I P
J
P
i=1 j=1
2
Yij − Ȳi.
Summe der Quadrate Gruppen
2
Summe der Quadrate Rest
sind jeweils verteilt wie σ 2 · χ2 mit I − 1 bzw. I(J − 1) Freiheitsgraden. Außerdem sind die beiden
Summen der Quadrate unabh¨angig. Es folgt dann aus Satz 5.24, dass der Quotient eine F -Verteilung
mit I − 1 und I(J − 1) Freiheitsgraden besitzt.
Beispiel 5.2 Auch den fogenden F -Test haben Sie in der Grundvorlesung im Zusammenhang mit
der Regressionsanalyse kennengelernt. Das Modell M 2 bezeichne eine Vereinfachung des Modells
M1 , d.h. einige der Parameter aus M1 fehlen in M2 . Zur Prüfung der Hypothese, dass die Modellvereinfachung gilt, d.h. die in M2 fehlenden Parameter aus M1 null sind, wird die Prüfgröße
PG =
(SQ(Res; M2 ) − SQ(Res; M1 ))/(F G(M2 ) − F G(M1 ))
SQ(Res; M1 )/F G(M1 )
verwendet, die unter der Nullhypothese eine F -Verteilung mit F G(M 2 ) − F G(M1 ) und F G(M1 )
Freiheitsgraden hat. Dabei sind SQ(Res; M 1 ) und SQ(Res; M2 ) die Summe der Quadrate der Residuale unter den Modellen M1 und M2 und F G bezeichnen die jeweiligen Freiheitsgrade.
R-Befehle zur F-Verteilung:
df(x, df1, df2) berechnet die Dichtefunktion der F-Verteilung mit den Parametern ν1 =df1 und ν2 =df2 an der Stelle x. Dabei kann x ein Vektor sein.
pf(q, df1, df2, ncp=0) berechnet die Verteilungsfunktion der F-Verteilung
mit den Parametern ν1 =df1 und ν2 =df2 an der Stelle q. Dabei kann q ein Vektor
sein. Mit dem optionalen Argument ncp wird der Nichtzentralitätsparameter festgelegt. Wir behandeln hier die zentrale F-Verteilung, für die ncp=0 ist.
5.2. STETIGE VERTEILUNGEN
87
qf(p, df1, df2) berechnet die Umkehrfunktion der Verteilungsfunktion der FVerteilung mit den Parametern ν1 =df1 und ν2 =df2 an der Stelle p. Dabei muss p
ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein.
rf(n, df1, df2) erzeugt n F-verteilte Zufallszahlen mit den Parametern ν1 =df1
und ν2 =df2 .
5.2.8 Normalverteilung, Lognormalverteilung
Definition 5.3 Die Dichtefunktion der Lognormalverteilung ist gegeben durch



1
2
2
e−(log x−µ) /2σ x > 0
2
f (x) =
x 2πσ


0
sonst .
√
Die Lognormalverteilung hat zwei Parameter µ und σ 2 , für die gelten muss
−∞ < µ < ∞
und
σ2 > 0 .
Wir schreiben
X ∼ Λ(µ; σ 2 ) ,
wenn die Zufallsvariable X eine Lognormalverteilung besitzt. Der folgende Satz erklärt den
Namen Lognormalverteilung. Die Zufallsvariable log X besitzt nämlich eine Normalverteilung, wenn X eine Lognormalverteilung besitzt.
Satz 5.25
a) Es gelte X ∼ Λ(µ; σ 2 ), dann gilt:
log X ∼ N (µ; σ 2 ) .
b) Es gelte Y ∼ N (µ; σ 2 ), dann gilt:
eY ∼ Λ(µ; σ 2 ) .
Die Verteilungsfunktion der Lognormalnormalverteilung kann man auf die der Standardnormalverteilung zurückführen.
88
KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN
Satz 5.26 Für die Verteilungsfunktion FX einer lognormalverteilten Zufallsvariablen
X gilt
!
log x − µ
FX (x) = Φ
,
σ
wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichne.
Beweis:
Für x ≥ 0 gilt:
FX (x) = P ({X ≤ x})
=
Zx
0
1
2
2
e−(log t−µ) /2σ dt .
t 2πσ 2
√
Wir substituieren
s = log t .
Dann ist
1
ds
=
dt
t
Dabei ändern sich die Grenzen wie folgt:
1
ds = dt .
t
• Wenn t −→ 0, gilt s −→ −∞ .
• Wenn t = x, ist s = log x .
Damit folgt, wenn man beachtet, dass der folgende Integrand die Dichtefunktion einer Normalverteilung mit den Parametern µ und σ 2 ist, unter Anwendung von Satz 3.6
FX (x) =
log
Z x
−∞
√
1
2
2
e−(s−µ) /2σ ds
2
2πσ
log x − µ
= Φ
σ
!
.
♦
Satz 5.27 Es gelte
X ∼ Λ(µ; σ 2 ) .
Dann gilt für den Erwartungswert und die Varianz von X:
EX = eµ+σ
2 /2
und
2
2
V arX = e2µ eσ (eσ − 1) .
5.2. STETIGE VERTEILUNGEN
89
0.8
f(x)
0.6
0.4
0.2
0.0
0
2
4
6
x
8
10
12
Abbildung 5.3: Dichtefunktion der Lognormalverteilung mit µ = 0, σ 2 = 1
In Anwendungen findet man die Lognormalverteilung als Modell für viele Zufallsvariablen, die nur positive Werte annehmen können. Wie Abbildung 5.3 zeigt, ist die Lognormalverteilung insbesondere geeignet für Daten mit einer schiefen Verteilung. Durch geeignete
Wahl der Parameter (insbesondere von σ 2 ) kann man jedoch erreichen, dass die Gestalt der
Lognormalverteilung wieder sehr ähnlich der Gestalt einer Normalverteilung wird. In manchen Fällen erhält man damit ein realistischeres Modell als mit der Normalverteilung. Die
Lognormalverteilung findet Anwendung als Modell für das Einkommen, für Lebensdauern
(von produzierten Gütern) oder Verweildauern (z.B. von Beschäftigten in einem Betrieb) und
auch ganz aktuell als Modell für Aktienkurse.
R-Befehle zur Lognormalverteilung
dlnorm(x, meanlog=0, sdlog=1) berechnet die Dichtefunktion der Lognormalverteilung mit den Parametern µ =meanlog und σ 2 = sdlog2 an der Stelle x,
wobei x ein Vektor ist. Dabei ist zu beachten, dass sdlog die Standardabweichung,
also die Quadratwurzel aus der Varianz σ 2 der logarithmierten Zufallsvariablen ist.
plnorm(q, meanlog=0, sdlog=1) berechnet die Verteilungsfunktion der
Lognormalverteilung mit den Parametern µ =meanlog und σ 2 = sdlog2 an der
Stelle q, wobei q ein Vektor ist.
qlnorm(p, meanlog=0, sdlog=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Lognormalverteilung mit den Parametern µ =meanlog und
σ 2 = sdlog2 an der Stelle p, wobei p ein Vektor von Wahrscheinlichkeiten, also
Zahlen zwischen 0 und 1, ist.
rlnorm(n, meanlog=0, sdlog=1) erzeugt n lognormalverteilte Zufallszahlen mit den Parametern µ =meanlog und σ 2 = sdlog2 .
Kapitel 6
Gemeinsame Verteilung von Zufallsvariablen
6.1 Gemeinsame Verteilungen zweier Zufallsvariablen
Bisher haben wir nur die Verteilung einer Zufallsvariablen betrachtet. Zur Beschreibung des
stochastischen Verhaltens einer Zufallsvariablen haben wir die Begriffe Wahrscheinlichkeitsfunktion, Dichtefunktion und Verteilungsfunktion kennengelernt. Jetzt werden wir analoge
Begriffe kennenlernen, um das gemeinsame Verhalten zweier Zufallsvariablen X und Y zu
betrachten.
X
Einkommen
Einkommen
Haushaltsgröße
Autotyp
Autotyp
Schulbildung
DAX heute
Werbungsausgaben
Geschlecht
Note Vordiplom
Y
Ausgaben für Lebensmittel
Ausgaben für Versicherungen
Anzahl der Autos
Anzahl der Schadensfälle
Schadenshöhe
Durchschnittliche Fernsehzeit pro Tag
DAX morgen
Umsatz
Einkommen
Note Hauptdiplom
Bei der Behandlung einer Zufallsvariablen haben wir zwischen diskreten und stetigen Zufallsvariablen unterschieden. Jetzt sind die folgenden drei Fälle zu unterscheiden:
a) Beide Zufallsvariablen sind diskret.
b) Beide Zufallsvariablen sind stetig.
c) Eine Zufallsvariable ist diskret, die andere ist stetig.
Wir werden nur die beiden ersten Fälle behandeln.
90
6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN
91
6.1.1 Gemeinsame Verteilung zweier diskreter Zufallsvariablen
Definition 6.1 Die gemeinsame Wahrscheinlichkeitsfunktion zweier diskreter Zufallsvariablen X und Y ist definiert durch
PXY (x, y) = P ({X = x, Y = y}) .
Die gemeinsame Wahrscheinlichkeitsfunktion gibt uns also die Wahrscheinlichkeiten an, mit
der Paare möglicher Werte der beiden Zufallsvariablen angenommen werden. Die Betonung
im vorigen Satz liegt auf Paare, nicht mehr wie früher einzelne Werte für sich, sondern zwei
Werte gemeinsam als Paar.
Beispiel 6.1 Die folgenden Daten sind aus dem Buch ,,Applied Multivariate Data Analysis, Volume
II, Categorical and Multivariate Methods” von J.D. Jobson (1992). Die Daten können als Wahrscheinlichkeitsfunktion angesehen werden, da eine sehr große Grundgesamtheit von Steuerzahlern nach ihrer Altersgruppe X und nach ihrer Einsch¨atzung Y der Kriminalit¨atslage in ihrer Umgebung befragt
wurden.
Tabelle 6.1: Gemeinsame Wahrscheinlichkeitsfunktion P XY (x, y)
Meinung
Alter
nicht ernst etwas ernst ernst sehr ernst
y=1
y=2
y=3
y=4
PX (x)
unter 30 x = 1
0.015
0.076
0.121
0.055
0.267
30 - 50
x=2
0.029
0.191
0.215
0.069
0.504
50+
x=3
0.008
0.061
0.110
0.050
0.229
PY (y)
0.052
0.328
0.446
0.174
1.000
Satz 6.1 Eine gemeinsame Wahrscheinlichkeitsfunktion PXY hat die folgenden Eigenschaften:
a) PXY (x, y) ≥ 0
für alle (x, y) .
b) PXY (x, y) > 0
für höchstens abzählbar unendlich viele (x, y) .
c)
PP
x y
PXY (x, y) = 1 .
92
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
Definition 6.2 Die Randwahrscheinlichkeitsfunktionen von X und Y sind definiert
durch
a) PX (x) = P ({X = x}) =
b) PY (y) = P ({Y = y}) =
P
y
P
x
P ({X = x; Y = y}) =
P ({X = x; Y = y}) =
P
y
P
x
PXY (x, y)
PXY (x, y)
In Tabelle 6.1 sind die Randwahrscheinlichkeitsfunktionen ausgerechnet und an den Rand
(daher der Name!) geschrieben worden. Es sind einfach die Summen der gemeinsamen
Wahrscheinlichkeiten über die einzelnen Zeilen bzw. Spalten zu bilden. Die Randwahrscheinlichkeiten sind gewöhnliche Wahrscheinlichkeitsfunktionen einer Zufallsvariablen, wie
wir sie in Kapitel 1 kennengelernt haben.
6.1.2 Gemeinsame Verteilung zweier stetiger Zufallsvariablen
Definition 6.3 Die gemeinsame Dichtefunktion fXY (x, y) zweier Zufallsvariablen
X, Y hat die Eigenschaften
a) fXY (x, y) ≥ 0
b)
∞
R
R∞
−∞ −∞
für alle x, y ,
fXY (x, y)dx dy = 1 ,
c) P ({a ≤ X ≤ b; c ≤ Y ≤ d}) =
(c, d) mit a ≤ b und c ≤ d.
Rb Rd
a c
fXY (x, y)dy dx für alle Paare (a, b) und
Beispiel 6.2 Die Funktion f sei definiert durch
f (x, y) =
(
12
5 x(2
0
− x − y) 0 ≤ x ≤ 1,
sonst.
0≤y≤1
.
Es soll gezeigt werden, dass f eine gemeinsame Dichtefunktion ist. Es ist f (x, y) ≥ 0 und
Z
1
0
Z
1
f (x, y)dydx =
0
=
=
=
=
Z
Z
12 1 1
(2x − x2 − xy)dydx
5 0 0
Z
12 1
1 2 1
2
(2xy − x y − xy ) dx
5 0
2
0
Z
12 1
1
(2x − x2 − x)dx
5 0
2
12 2 1 3 1 2 1
(x − x − x )
5
3
4
0
12
1 1
12 5
(1 − − ) =
=1.
5
3 4
5 12
93
0
f(x,y)
2
1
6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN
1
1
0.5
y
0
0.5
x
0
Abbildung 6.1: Gemeinsame Dichtefunktion aus Beispiel 6.2
Daher ist f eine gemeinsame Dichtefunktion, die in Abbildung 6.1 graphisch dargestellt ist. Diese
Graphik wurde mit der R-Funktion persp erstellt.
Abbildung 6.2 zeigt die Wahrscheinlichkeit
P ({0 ≤ X ≤ 1/2, 1/2 ≤ Y ≤ 1})
0
f(x,y)
0.5
1
als Volumen unterhalb der gemeinsamen Dichtefunktion.
1
1
0.5
0.5
x
y
0
0
Abbildung 6.2: Wahrscheinlichkeit als Volumen unterhalb der gemeinsamen Dichte
Diese Wahrscheinlichkeit wollen wir jetzt durch das folgende Doppelintegral berechnen.
P ({0 ≤ X ≤ 1/2, 1/2 ≤ Y ≤ 1}) =
12
5
=
12
5
=
Z1
1/2
=
Z1 Z1/2
1/2 0
Z1 1/2
(2x − x2 − xy)dxdy =
1
1
1
12
−
− y dy =
4 24 8
5
1
3
− y dy =
2 10
12
5
Z1 1/2
Z1 1/2
1/2
1
1
x2 − x3 − x2 y dy
3
2
0
5
1
− y dy
24 8
1
1
3
y − y 2 2
20
1/2
1
3
1
3
40 − 12 − 20 + 3
11
−
− +
=
=
= 0.1375 .
2 20 4 80
80
80
94
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
Beispiel 6.3 Die Funktion f (x, y) sei definiert durch
2e−x e−2y x, y ≥ 0
0
sonst.
f(x,y)
0 0.5 1 1.5 2
f (x, y) =
(
3
2
6
y
4
1
2
0
x
0
Abbildung 6.3: Gemeinsame Dichtefunktion aus Beispiel 6.3
Wir wollen zeigen, dass f eine Dichtefunktion ist. Es gilt f (x, y) ≥ 0 und
Z∞ Z∞
fXY (x, y)dy dx =
Z∞
0
Z∞
=
Z∞
h
e−x −e−2y
=
Z∞
e−x [0 − (−1)] dx
=
Z∞
e−x dx
−∞ −∞
0
0
e
−x
2e−2y dy dx
0
i∞
0
dx
0
∞
−e−x 0 = 0 − (−1) = 1 .
=
Also ist f tats¨achlich eine Dichtefunktion.
Wir wollen die Wahrscheinlichkeit P ({X > 1, Y < 1}), die in Abbildung 6.4 als Volumen unterhalb
der gemeinsamen Dichtefunktion graphisch dargestellt ist, berechnen.
P ({X > 1, Y < 1}) =
=
Z∞ Z1
1 0
Z∞
2e−x e−2y dy dx
e−x
1
1
−e−2y dx
0
6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN
= (1 − e
−2
e−x dx
1
(1 − e
=
)
Z∞
−2
95
∞
)(−e−x )
= (1 − e−2 )(e−1 )
1
f(x,y)
0 0.2 0.4 0.6
= (0.8647)(0.3679) = 0.3181 .
3
2
6
y
4
1
2
0
x
0
Abbildung 6.4: P ({X > 1, Y < 1}) als Volumen unterhalb der gemeinsamen Dichtefunktion
. ...
....
...
....
.
.
.
.
.
.
.
.
. ......
.
.
.
.
.
. ......
.
.
.
.
. ......
.
.
.
.
. ......
.
.
.
.
. ......
.
.
.
. .....
.
.
.
. ......
.
.
....... ....... ....... ..........
.
. .....
.
. ......
. .......
. ......
.
.
.
....
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x<y
0
0
Abbildung 6.5: Zur Berechnung der Wahrscheinlichkeit P ({X < Y })
Jetzt soll die Wahrscheinlichkeit P ({X < Y }), die in Abbildung 6.6 graphisch dargestellt ist, berechnet werden. Dazu betrachten wir zun¨achst die Abbildung 6.5, in der der Bereich, über den das
Integral zu bilden ist, gepunktet eingezeichnet ist. Wenn wir y ∈ (0, ∞) frei w¨ahlen, kann x sich nur
noch zwischen 0 und y frei bewegen. Das erkl¨art die Grenzen in dem folgenden Doppelintegral.
P ({X < Y }) =
=
Z∞ Zy
0 0
Z∞
2e−2y
0
=
e−x 2e−2y dx dy
Z∞
0
y
−x −e
dy
0
(2e−2y )(1 − e−y )dy
96
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
Z∞
=
2e
−2y
0
= 1−
2
3
dy −
Z∞
Z∞
2e−3y dy
0
3e−3y dy
0
1
.
3
f(x,y)
0 0.5 1 1.5 2
=
3
2
3
2
1
y
1
0
x
0
Abbildung 6.6: P ({X < Y }) als Volumen unterhalb der gemeinsamen Dichtefunktion
Man h¨atte bei der Berechnung der obigen Wahrscheinlichkeit die Integrationsreihenfolge auch vertauschen können. Dann würde man x ∈ (0, ∞) frei w¨ahlen. Bei gegebenem x, könnte y dann von x
bis ∞ variieren.
Man müsste dann das Integral
Z∞ Z∞
e−x 2e−2y dy dx
0 x
berechnen.
Definition 6.4 Die Randdichtefunktionen von X und Y sind definiert durch
a) fX (x) =
b) fY (y) =
∞
R
−∞
∞
R
−∞
fXY (x, y)dy ,
fXY (x, y)dx .
Beispiel 6.4 Wir betrachten die gemeinsame Dichtefunktion aus Beispiel 6.2.
fXY (x, y) =
(
12
5 x(2
0
− x − y) 0 ≤ x ≤ 1,
sonst
0≤y≤1
6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN
12
5
fX (x) =
=
=
fX (x) =
fY (y) =
=
12
5
Z1
0
0
(2x − x2 − xy)dy
1
12
1
2xy − x2 y − xy 2 5
2
0
12
1
2x − x2 − x
5
2
12 3
x − x2 ,
5 2
=
d.h.
Z1
97
(
12
5
0
3
2x
− x2
(2x − x2 − xy)dx =
0≤x≤1
sonst .
12 2 1 3 1 2 1
(x − x − x y)
5
3
2
0
12
1 1
12 2 1
(1 − − y) = ( − y) ,
5
3 2
5 3 2
d.h.
fY (y) =
(
12 2
5 (3
0
− 12 y) 0 ≤ y ≤ 1
sonst .
Man beachte, dass die Randdichten nicht die gemeinsame Dichtefunktion bestimmen. Im
vorangehenden Beispiel ist das Produkt der Randdichten fX (x)fY (y) wieder eine gemeinsame Dichtefunktion, die jedoch nicht mit der anfangs gegebenen gemeinsamen Dichtefunktion fXY (x, y) übereinstimmt.
Beispiel 6.5 Wir betrachten die gemeinsame Dichtefunktion aus Beispiel 6.3, d.h.
fXY (x, y) =
(
2e−x e−2y 0 ≤ x < ∞,
0
sonst ,

∞
 e−x R 2e−2y dy = e−x
fX (x) =
0

0

∞
 2e−2y R e−x dx = 2e−2y
fY (y) =
0

0
0≤y<∞
0≤x<∞
sonst ,
0≤y<∞
sonst .
In diesem Beispiel ist die gemeinsame Dichtefunktion das Produkt der Randdichten. Wir werden
sp¨ater sehen (Beispiel 6.14), dass X und Y in diesem Fall unabh¨angig sind.
Bildlich ist die Randdichtefunktion von X an der Stelle x der Flächeninhalt der in Abbildung
6.7 dargestellten Schnittfläche der gemeinsamen Dichtefunktion. Genauso ist die Randdichtefunktion von Y an der Stelle y der Flächeninhalt der in Abbildung 6.8 dargestellten Schnittfläche der gemeinsamen Dichtefunktion.
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
f(x,y)
0 0.2 0.4 0.6
98
3
2
6
y
4
1
2
0
x
0
f(x,y)
0 0.2 0.4 0.6
Abbildung 6.7: Schnittfläche zur Berechnung der Randdichte von X
3
2
6
y
4
1
2
0
x
0
Abbildung 6.8: Schnittfläche zur Berechnung der Randdichte von Y
6.1.3 Die gemeinsame Verteilungsfunktion
Definition 6.5 Die gemeinsame Verteilungsfunktion zweier Zufallsvariablen X und Y
ist definiert durch
FXY (x, y) = P ({X ≤ x; Y ≤ y})
6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN
99
Satz 6.2 Für zwei diskrete Zufallsvariablen X und Y mit der gemeinsamen Wahrscheinlichkeitsfunktion PXY gilt
FXY (x, y) =
XX
PXY (s, t) .
s≤x t≤y
Für zwei stetige Zufallsvariablen mit der gemeinsamen Dichtefunktion f XY gilt
FXY (x, y) =
Zx Zy
fXY (s, t)dt ds .
−∞ −∞
Beispiel 6.6 Wir betrachten die gemeinsame Wahrscheinlichkeitsfunktion aus dem Beispiel 6.1, in
dem eine große Grundgesamtheit von Steuerzahlern nach ihrer Altersgruppe und zu ihrer Einsch¨atzung der Kriminalit¨atslage befragt wurde. Aus Tabelle 6.1 erhalten wir die folgende gemeinsame
Verteilungsfunktion.
Tabelle 6.2: Gemeinsame Verteilungsfunktion F XY (x, y)
y=1
y=2
y=3
y=4
x=1
0.015
0.091
0.212
0.267
x=2
0.044
0.311
0.647
0.771
x=3
0.052
0.380
0.826
1.000
Beispiel 6.7 Die gemeinsame Dichtefunktion zweier Zufallsvariablen X und Y sei
4(1 − x)y 0 ≤ x ≤ 1
0
sonst.
0≤y≤1
0
f(x,y)
1 2 3
4
fXY (x, y) =
(
1
1
0.5
0.5
x
y
0
0
Abbildung 6.9: Gemeinsame Dichtefunktion f (x, y) = 4(1 − x)y
Dann gilt
FXY (x, y) = 0
100
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
für x < 0 oder y < 0, w¨ahrend für 0 ≤ x ≤ 1 und 0 ≤ y ≤ 1 gilt
Zx Zy
FXY (x, y) =
0 0
4(1 − s)t dt ds
1
= 2x(1 − x)y 2 .
2
Zusammenfassend gilt
FXY (x, y) =

0



1

2

 2x(1 − 2 x)y
für
für
für
für
für
2x(1 − 12 x)



y2



1
x < 0 oder y < 0
0 ≤ x ≤ 1, 0 ≤ y ≤ 1
0 ≤ x ≤ 1, y > 1
x > 1, 0 ≤ y ≤ 1
x > 1, y > 1 .
Die einzelnen Bereiche der Verteilungsfunktion sind in Abbildung 6.10 dargestellt, w¨ahrend Abbildung 6.11 die Verteilungsfunktion zeigt.
....
...
..
...
..
..
..
...
..
.
................................................................................. ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ...
...
...
...
...
...
.
.....
...
...
...
...
...
...
...
...
.
0≤x≤1
y>1
1
x>1
y>1
x>1 0≤y≤1
0
0
1
0
F(x,y)
0.5
1
Abbildung 6.10: Definitionsbereich der obigen Verteilungsfunktion
1
1
0.5
y
0
0
0.5
x
Abbildung 6.11: Gemeinsame Verteilungsfunktion FXY (x, y) = 2x(1 − x/2)y 2
Die Randverteilungsfunktionen erh¨alt man wie folgt
FX (x) = P ({X ≤ x}) = P ({X ≤ x; Y < ∞})
= FXY (x; ∞)
6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN
FX (x) =


 0
101
x<0
0≤x≤1
x>1
für
2x(1 − 12 x) für

 1
für
FY (y) = P ({Y ≤ y}) = P ({X < ∞; Y ≤ y})
= FXY (∞; y)
FY (y) =


 0
für
für
für
y2

 1
y<0
0≤y≤1
y>1
Wir wollen jetzt die gemeinsame Dichtefunktion zweier stetiger Zufallsvariablen bestimmen,
wenn die gemeinsame Verteilungsfunktion gegeben ist.
Satz 6.3 Seien X und Y zwei stetige Zufallsvariablen mit der gemeinsamen Verteilungsfunktion FXY (x, y). Dann erhält man die gemeinsame Dichtefunktion durch Differentiation:
∂2
fXY (x, y) =
FXY (x, y) .
∂x∂y
Beispiel 6.8 Wir betrachten die Verteilungsfunktion, die wir in Beispiel 6.6 aus der gemeinsamen
Dichtefunktion bestimmt hatten. Wir müssten also jetzt durch Differentiation zu der usprünglichen
Dichtefunktion zurückkommen. Die Verteilungsfunktion war:
FXY (x, y) =

0



1

2

 2x(1 − 2 x)y
2x(1 − 12 x)



y2



1
Für 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 gilt
für
für
für
für
sonst
x < 0 oder y < 0
0 ≤ x ≤ 1, 0 ≤ y ≤ 1
0 ≤ x ≤ 1, y > 1
x > 1, 0 ≤ y ≤ 1
∂ ∂
F (x, y) =
∂x ∂y
∂
1
2x(1 − x)2y
∂x
2
∂
=
(4x − 2x2 )y
∂x
= (4 − 4x)y
= 4(1 − x)y
Für alle übrigen Bereiche ist
∂ ∂
F (x, y) = 0 .
∂x ∂y
Damit gilt
fXY (x, y) =
(
4(1 − x)y 0 ≤ x ≤ 1
0
sonst.
0≤y≤1
102
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
Dies ist die gemeinsame Dichtefunktion, von der wir in Beispiel 6.6 ausgegangen waren.
R-Befehl zur graphischen Darstellung gemeinsamer Dichtefunktionen
• persp(x,y,z) erstellt einen 3D-Plot. Dabei sind x und y Vektoren, die das Gitternetz bilden, über dem die Funktion gezeichnet werden soll. Und z ist eine Matrix, die
die Funktionswerte angibt. In der Hilfe finden Sie weitere optionale Argumente.
6.2 Gemeinsame Momente
Wir betrachten jetzt Erwartungswerte von Funktionen H(X, Y ) von zwei Zufallsvariablen
X und Y .
Definition 6.6 Sei H(X, Y ) eine Funktion der Zufallsvariablen (X, Y ). Der Erwartungswert EH(X, Y ) ist definiert durch
EH(X, Y ) =
 PP

 x y H(x, y)PXY (x, y)
∞
R ∞
R


H(x, y)fXY (x, y)dydx
falls X und Y diskret sind,
falls X und Y stetig sind.
−∞ −∞
Für das Rechnen mit Erwartungswerten gelten die folgenden Regeln (vergleiche Satz 2.1).
Satz 6.4 Seien H(X, Y ) und G(X, Y ) Funktionen der beiden Zufallsvariablen X und
Y , dann gilt:
a) E(cH(X, Y )) = cEH(X, Y ), wenn c eine Konstante ist,
b) E[(H(X, Y ) + G(X, Y )] = EH(X, Y ) + EG(X, Y ), insb.
E(H(X, Y ) + c) = EH(X, Y ) + c .
Man beachte jedoch, dass im allgemeinen:
E[H(X, Y ) · G(X, Y )] 6= EH(X, Y ) · EG(X, Y ) .
Definition 6.7 Das (r, s)-te gemeinsame Moment zweier Zufallsvariablen X und Y ist
definiert als
µ0rs = EX r Y s .
6.2. GEMEINSAME MOMENTE
103
Es ist z.B.
µ011 = EX 1 Y 1 = EXY
µ010 = EX 1 Y 0 = EX = µX
µ001 = EX 0 Y 1 = EY = µY
µ002 = EX 0 Y 2 = EY 2
µ020 = EX 2 Y 0 = EX 2
Definition 6.8 Das (r, s)-te gemeinsame Moment zweier Zufallsvariablen X und Y um
den Erwartungswert ist definiert durch
µrs = E(X − µX )r (Y − µY )s .
3
2
y
1
0
-1
-2
-3
-3
-2
-1
0
x
1
2
3
Abbildung 6.12: Typische Realisationen bei positiver Kovarianz
Es ist z.B.
2
µ20 = E(X − µX )2 (Y − µY )0 = E(X − µX )2 = V ar(X) = σX
= σXX
die Varianz von X,
µ02 = E(X − µX )0 (Y − µY )2 = E(Y − µY )2 = V ar(Y ) = σY2 = σY Y
die Varianz von Y ,
µ11 = E(X − µX )(Y − µY ) = Cov(X, Y ) = σXY
die Kovarianz von X und Y .
104
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
3
2
y
1
0
-1
-2
-3
-3
-2
-1
0
x
1
2
3
Abbildung 6.13: Typische Realisationen bei negativer Kovarianz
Wegen der besonderen Bedeutung definieren wir noch einmal:
Definition 6.9 Das gemeinsame Moment µ11 heißt die Kovarianz von X und Y und
wird auch mit cov(X, Y ) oder σXY bezeichnet.
Zur Berechnung der Kovarianz nützlich ist die folgende Regel (vgl. Satz 2.2, in dem die
entsprechende Regel für die Varianz gegeben wird).
Satz 6.5
Cov(X, Y ) = EXY − EX · EY
Beweis:
Cov(X, Y ) =
=
=
=
=
E[(X − µX )(Y − µY )] = E[XY − XµY − µx Y + µX µy ]
E(XY ) − E(XµY ) − E(µX Y ) + E(µX µY )
E(XY ) − E(X)µY − µX E(Y ) + µX µY
EXY − µX µY − µX µY + µX µY = EXY − µX µY
EXY − EX · EY
♦
Die Kovarianz ist ein Maß für die gemeinsame Variation. Die Kovarianz ist positiv, wenn
X und Y gemeinsam, d.h. gleichzeitig überwiegend positive (gemeint ist, größere Werte als
der jeweilige Erwartungswert) oder gleichzeitig negative Werte (d.h. jeweils kleinere Werte
als der Erwartungswert) annehmen. Abbildung 7.1 zeigt typische Realisationen bei positiver
Kovarianz. Dort wurde EX = EY = 0 gewählt. Treten überwiegend positive Werte der
6.2. GEMEINSAME MOMENTE
105
einen Zufallsvariablen mit negativen Werten der anderen auf, so ist die Kovarianz negativ
(siehe Abbildung 7.2).
Die Größe der Kovarianz sagt nichts über die Stärke des Zusammenhangs aus. Denken Sie an
zwei Zufallsvariablen, die Längen messen. Wenn Sie als Maßeinheit Zentimeter statt Meter
verwenden, wird die Kovarianz um den Faktor 104 größer. Es ist also nötig, die Variation der
einzelnen Variablen zu berücksichtigen, um zu einem dimensionslosen Maß zu kommen.
Definition 6.10 Der Korrelationskoeffizient zweier Zufallsvariablen X und Y ist definiert durch
cov(X, Y )
σXY
ρXY =
=q
.
σX σY
V ar(X)V ar(Y )
Satz 6.6 Der Korrelationskoeffizient ρXY ist ein dimensionsloses Maß für den linearen
Zusammenhang zweier Zufallsvariablen X und Y und es gilt
−1 ≤ ρXY ≤ 1 .
ρ = 0.95
y
y
ρ=0
x
x
ρ = 0.5
y
y
ρ = −0.7
x
x
Abbildung 6.14: Höhenlinien der gemeinsamen Dichtefunktion für verschiedene ρ
Abbildung 6.14 zeigt die Höhenlinien (das sind Linien, auf denen die gemeinsame Dichtefunktion die gleiche Höhe hat) gemeinsamer Dichtefunktionen für verschiedene Werte von
106
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
ρ. Je größer |ρ|, desto mehr nähern sich die Höhenlinien einer Geraden. Es handelt sich
um die Höhenlinien einer bivariaten Normalverteilung, die mit der R-Funktion contour
gezeichnet wurden.
Eine andere Darstellungsform erhält man mit der R-Funktion image, die die unterschiedlichen Höhen einer bivariaten Funktion durch Farben bzw. Graustufen darstellt. Die Dichtefunktion ist dort am höchsten, wo sie am hellsten dargestellt ist. So ähnlich kann man sich
dann auch die Verteilung der Beobachtungen vorstellen, wenn man sehr viele Realisationen
zur Verfügung hat.
ρ=0
ρ=0.95
ρ=− 0.7
ρ=0.5
Abbildung 6.15: Imageplots der gemeinsamen Dichtefunktion f ür verschiedene ρ
Definition 6.11 Zwei Zufallsvariablen X und Y heißen unkorreliert, wenn
ρXY = 0
gilt.
Satz 6.7 Zwei Zufallsvariablen X und Y sind genau dann unkorreliert, wenn
EXY = EX · EY
gilt.
6.2. GEMEINSAME MOMENTE
107
Beweis:
ρ(X, Y ) = 0 ⇐⇒ Cov(X, Y ) = 0
⇐⇒ EXY − EX · EY = 0
⇐⇒ EXY = EX · EY .
♦
Beispiel 6.9 Die gemeinsame Dichtefunktion zweier Zufallsvariablen X und Y sei gegeben durch
fXY (x, y) =
(
2 für
0 sonst.
0≤x≤y≤1
f(x,y)
0 0.5 1 1.5 2
Abbildung 6.16 zeigt die gemeinsame Dichtefunktion. Bei dieser Dichtefunktion ist wieder auf den
Definitionsbereich zu achten (vergleiche Abbildung 6.5). Man kann fXY auffassen als die Dichtefunktion des Minimums (X ) und des Maximums (Y ) zweier U (0, 1)-verteilter Zufallsvariablen U 1
und U2 , d.h.
X = min(U1 , U2 ) und Y = max(U1 , U2 ) .
1
1
0.5
y
0
0
0.5
x
Abbildung 6.16: Gemeinsame Dichtefunktion f (x, y) = 2 für 0 ≤ x ≤ y ≤ 1
Wir wollen den Korrelationskoeffizienten ρXY von X und Y berechnen. Dazu gehen wir in folgenden
Schritten vor:
a) Berechne µ010 = EX
b) Berechne µ020 = EX 2
c) Berechne µ20 = EX 2 − (EX)2 = V ar(X)
d) Berechne µ001 = EY
e) Berechne µ002 = EY 2
f) Berechne µ02 = EY 2 − (EY )2 = V ar(Y )
g) Berechne µ011 = EXY
108
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
h) Berechne µ11 = EXY − EXEY = Cov(X, Y )
Cov(X,Y )
V ar(X)V ar(Y )
i) Berechne ρXY = √
Bevor wir mit den einzelnen Schritten beginnen, bestimmen wir zun¨achst die Randdichten von X und
Y , da wir die ersten und zweiten Momente von X und Y einfacher mit den Randdichtefunktionen als
mit der gemeinsamen Dichtefunktion berechnen können.
Z∞
fX (x) =
fXY (x, y)dy
−∞
Z1
=
2 dy
x
2y|1x
=
(
=
fY (y) =
=
2(1 − x) für 0 ≤ x ≤ 1
0
sonst
Z∞
fXY (x, y)dx
−∞
Zy
2 dx
0
=
=
2x|y0
(
2y für 0 ≤ y ≤ 1
0 sonst
Jetzt gehen wir in den obigen Schritten vor:
a)
µ010
= EX
=
Z1
x2(1 − x)dx
=
Z1
2x − 2x2 dx
0
0
=
=
2 1
x − x3 3 0
1
3
2
b)
µ020
= EX
2
=
Z1
0
x2 2(1 − x)dx
6.2. GEMEINSAME MOMENTE
109
=
Z1
0
=
=
2x2 − 2x3 dx
2 3 1 4 1
x − x 3
2 0
1
6
c)
V arX = µ20 = E(X 2 ) − (EX)2
2
1
1
=
−
6
3
1 1
1
=
− =
6 9
18
d)
µ001 = EY
=
Z1
1
2 3 2
y2ydy = y =
3 3
Z1
1
1 4 1
2
y 2ydy = y =
2 2
0
e)
µ002 = EY 2 =
0
f)
0
0
V arY = µ02 = E(Y 2 ) − (EY )2
2
1
2
=
−
2
3
1
1 4
− =
=
2 9
18
g)
µ011
= EXY
=
Z1 Zy
=
Z1
0 0
0
=
Z1
xy · 2dxdy
y
x2 y dy
0
y 3 dy
0
=
h)
1 4 1 1
y =
4 0 4
µ11 = Cov(X, Y ) = EXY − EXEY
1 1 2
=
− ·
4 3 3
1 2
1
=
− =
4 9
36
110
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
i)
ρXY
=
=
=
p
Cov(X, Y )
V ar(X)V ar(Y )
1
q 36
1 1
18 18
18
1
=
36
2
R-Befehle zur graphischen Darstellung gemeinsamer Dichtefunktionen
• contour(x, y, z) zeichnet die Höhenlinien der durch die Matrix z einzugebenden Funktion. Die Vektoren x und y bestimmen das Gitternetz, über dem die Funktion
berechnet werden soll. In der Hilfe finden Sie weitere optionale Argumente, mit denen
Sie z.B. die Anzahl der Höhenlinien bestimmen können.
• image(x, y, z) zeichnet die Höhenlinien durch Farbabstufungen oder durch Graustufen. Die Argumente sind wie bei der Funktion contour.
6.3 Bedingte Verteilungen, Unabh¨
angigkeit
6.3.1 Bedingte Verteilungen
Definition 6.12 Seien X und Y diskrete Zufallsvariablen. Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist definiert als
PY |X (y|x) =
PXY (x, y)
,
PX (x)
und die bedingte Wahrscheinichkeitsfunktion von X gegeben Y = y ist definiert als
PX|Y (x|y) =
PXY (x, y)
.
PY (y)
Beispiel 6.10 Wir betrachten die Situation aus Beispiel 6.1. Dort wurde eine große Grundgesamtheit
von Steuerzahlern nach ihrer Altersgruppe und nach ihrer Meinung zur Kriminalit¨atslage in ihrer
Umgebung befragt. Die gemeinsame Wahrscheinlichkeitsfunktion P XY ist in Tabelle 6.1 gegeben.
Nehmen Sie an, dass wir eine Person aus der Grundgesamtheit zuf¨allig ausw¨ahlen. Wir stellen die
beiden folgenden Fragen:
• FRAGE 1: Wie hoch ist die Wahrscheinlichkeit, dass er oder sie die Kriminalit¨atslage als ,,sehr
ernst” einsch¨atzt?
ANTWORT:
P ({Y = 4}) = PY (4) = 0.055 + 0.069 + 0.050 = 0.174
6.3. BEDINGTE VERTEILUNGEN, UNABHÄNGIGKEIT
111
• FRAGE 2: Wie hoch ist die Wahrscheinlichkeit, dass er oder sie die Kriminalit¨atslage als ,,sehr
ernst” betrachtet, gegeben, dass er oder sie zwischen 30 und 50 Jahre alt ist?
ANTWORT:
P ({Y = 4}|{X = 2}) =
PXY (2, 4)
0.069
=
= 0.137
PX (2)
0.504
Wir wollen die komplette bedingte Wahrscheinlichkeitsfunktion von Y , gegeben X = 2 bestimmen.
PY |X (y|2) =

0.029/0.504 = 0.058





0.191/0.504
= 0.379

PXY (2, y)
=
0.215/0.504 = 0.427

PX (2)


0.069/0.504
= 0.137



0
y=1
y=2
y=3
y=4
sonst .
Schließlich bestimmen wir noch die bedingte Wahrscheinlichkeitsfunktion von X , gegeben Y = 4.
Diese Wahrscheinlichkeitsfunktion gibt uns die Antwort auf die
• FRAGE: Wie groß ist die Wahrscheinlichkeit, dass eine zuf¨allig ausgew¨ahlte Person einer bestimmten Altersgruppe angehört, gegeben, dass diese Person die Kriminalit¨atslage als ,,sehr
ernst” einsch¨atzt?
ANTWORT:
PX|Y (x|4) =


0.055/0.174 = 0.316



PXY (x, 4)
0.069/0.174 = 0.397
=

0.050/0.174
= 0.287
PY (4)



0
x=1
x=2
x=3
sonst .
Definition 6.13 Seien X und Y stetige Zufallsvariablen. Die bedingte Dichtefunktion
von Y gegeben X = x ist definiert durch
fY |X (y|x) =
fXY (x, y)
,
fX (x)
und die bedingte Dichtefunktion von X gegeben Y = y ist definiert durch
fX|Y (x|y) =
fXY (x, y)
.
fY (y)
Beispiel 6.11 Wir betrachten die gemeinsame Dichtefunktion aus Beispiel 6.2, die in Abbildung 6.1
graphisch dargestellt ist.
fXY (x, y) =
(
12
5 x(2
0
− x − y) 0 ≤ x ≤ 1,
sonst
0≤y≤1
In Beispiel 6.4 hatten wir auch schon die Randdichtefunktionen bestimmt. Es war
fX (x) =
(
12
5
0
3
2x
− x2
0≤x≤1
sonst
112
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
und
fY (y) =
(
12 2
5 (3
0
− 12 y) 0 ≤ y ≤ 1
sonst.
Damit ist die bedingte Dichte von X , gegeben Y = y
fXY (x, y)
fY (y)
12
5 x(2 − x − y)
12 2
1
5 ( 3 − 2 y)
x(2 − x − y)
( 23 − 12 y)
fX|Y (x|y) =
=
=
12x − 6x2 − 6yx
.
4 − 3y
=
Damit ist z.B. die bedingte Dichte von X , gegeben Y = 2/3, für 0 ≤ x ≤ 1
(12x − 6x2 − 4x)
4−2
= 4x − 3x2 ,
fX|Y (x|2/3) =
d.h. die bedingte Dichtefunktion von X , gegeben Y = 2/3, ist
fX|Y (x|2/3) =
(
4x − 3x2 0 ≤ x ≤ 1
0
sonst .
(6.1)
0
f(x,y)
0.5
1
Anschaulich ist fX|Y (x|2/3) die in Abbildung 6.17 durch Schnitt an der Stelle y = 2/3 entstehende
Schnittkurve, die so zu normieren ist, dass die Fl¨ache unter der Kurve 1 wird, d.h. es ist durch den
Inhalt der Schnittfl¨ache zu dividieren, d.h. durch fY (2/3).
1
1
0.5
0.5
x
y
0
0
Abbildung 6.17: Zur Berechnung der bedingten Dichte von X, gegeben Y = 2/3
Die bedingte Dichtefunktion von Y , gegeben X = x, ist
fY |X (y|x) =
=
=
fXY (x, y)
fX (x)
12
5 x(2 − x − y)
12
3
5 x( 2 − x)
2−x−y
.
( 32 − x)
6.3. BEDINGTE VERTEILUNGEN, UNABHÄNGIGKEIT
113
Damit ist z.B. die bedingte Dichte von Y , gegeben X = 1/2, für 0 ≤ y ≤ 1
fY |X (y|1/2) =
=
2−
3
2
1
2
−
−y
1
2
3
−y ,
2
d.h. die bedingte Dichtefunktion von Y , gegeben X = 1/2 ist
3
2
−y 0≤y ≤1
sonst.
0
0
f(x,y)
2
1
fY |X (y|1/2) =
(
1
1
0.5
y
0
0
0.5
x
Abbildung 6.18: Zur Berechnung der bedingten Dichte von Y , gegeben X = 0.5
Anschaulich ist fY |X (y|1/2) die in Abbildung 6.18 durch Schnitt an der Stelle x = 1/2 entstehende
Schnittkurve, die so zu normieren ist, dass die Fl¨ache unter der Kurve 1 wird, d.h. es ist durch den
Inhalt der Schnittfl¨ache zu dividieren, d.h. durch fX (1/2).
Definition 6.14 Seien X und Y zwei stetige Zufallsvariablen. Der bedingte Erwartungswert von Y gegeben X = x ist definiert durch
E(Y |X = x) =
Z∞
−∞
yfY |X (y|x)dy ,
und die bedingte Erwartung von X gegeben Y ist definiert durch
E(X|Y = y) =
Z∞
−∞
xfX|Y (x|y)dx .
114
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
Für zwei diskrete Zufallsvariablen gilt entsprechend
E(Y |X = x) =
X
yPY |X (y|x) ,
E(X|Y = y) =
X
xPX|Y (x|y) .
y
und
x
Beispiel 6.12 Wir betrachten wieder die gemeinsame Dichtefunktion aus dem Beispiel 6.11 und
wollen die bedingte Erwartung von
E(X|Y = y)
bestimmen. Dabei wollen wir für y zun¨achst keinen bestimmten Wert festlegen. Dann gilt
Z∞
xfX|Y (x|y)dx
=
Z1
x
0
12x − 6x2 − 6yx
dx
4 − 3y
=
Z1
12x2 − 6x3 − 6yx2
dx
4 − 3y
E(X|Y = y) =
−∞
0
=
=
1
4x3 − (3/2)x4 − 2yx3 4 − 3y
0
5 − 4y
.
8 − 6y
Zum Beispiel für y = 2/3 ergibt sich die bedingte Erwartung
E(X|Y = 2/3) = 7/12 .
(6.2)
Definition 6.15 Seien X und Y zwei stetige Zufallsvariablen. Die bedingte Varianz von
Y , gegeben X = x, ist definiert durch
V ar(Y |X = x) =
Z∞
−∞
(y − E(Y |X = x))2 fY |X (y|x)dy ,
und die bedingte Varianz von X, gegeben Y = y, ist definiert durch
V ar(X|Y = y) =
Z∞
−∞
(x − E(X|Y = y))2 fX|Y (x|y)dx .
6.3. BEDINGTE VERTEILUNGEN, UNABHÄNGIGKEIT
115
Für zwei diskrete Zufallsvariablen gilt entsprechend
V ar(Y |X = x) =
X
V ar(X|Y = y) =
X
und
y
x
(y − E(Y |X = x))2 PY |X (y|x) ,
(x − E(X|Y = y))2 PX|Y (x|y) .
Beispiel 6.13 Wir benutzen die gemeinsame Dichtefunktion aus den beiden vorigen Beispielen und
wollen jetzt die bedingte Varianz von X , gegeben Y = 2/3, berechnen. Die bedingte Erwartung ist
nach Gleichung 6.2
E(X|Y = 2/3) = 7/12 .
Wir wollen jetzt E(X 2 |Y = 2/3) bestimmen und benutzen dazu die bedingte Dichtefunktion von X ,
gegeben Y = 2/3, die wir in Gleichung 6.1 bestimmt hatten.
E(X |Y = 2/3) =
Z1
x2 (4x − 3x2 )dx
=
Z1
(4x3 − 3x4 )dx
2
0
0
3 1
= x − x5 5 0
= 1 − 3/5 = 2/5 .
4
Damit ist die bedingte Varianz
V ar(X|Y = 2/3) = E(X 2 |Y = 2/3) − [E(X|Y = 2/3)]2
2
2
7
=
−
5
12
288 − 245
43
=
=
.
720
720
Man rechnet also bedingte Erwartungswerte und bedingte Varianzen genauso aus wie gewöhnliche Erwartungswerte und Varianzen. Man muss nur die bedingten Dichtefunktionen bzw.
Wahrscheinlichkeitsfunktionen verwenden.
116
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
6.3.2 Unabhängigkeit
Definition 6.16 Zwei Zufallsvariablen X und Y heißen unabhängig, wenn im Falle diskreter Zufallsvariablen für die gemeinsame Wahrscheinlichkeitsfunktion
PXY (x, y) = PX (x)PY (y)
für alle x, y gilt, bzw. im Falle stetiger Zufallsvariablen für die gemeinsame Dichtefunktion
fXY (x, y) = fX (x)fY (y)
für alle x, y gilt.
Beispiel 6.14 In Beispiel 6.5 hatten wir gesehen, dass die gemeinsame Dichtefunktion
fXY (x, y) =
(
2e−x e−2y 0 < x < ∞,
sonst
0
0<y<∞
das Produkt ihrer Randdichten
fX (x) =
und
fY (y) =
(
(
e−x 0 < x < ∞
0
sonst
2e−2y
0
0<y<∞
sonst
ist. Die Zufallsvariablen X und Y sind also unabh¨angig.
Satz 6.8 Wenn die beiden Zufallsvariablen X und Y unabhängig sind, so gilt für diskrete
Zufallsvariablen
PY |X (y|x) = PY (y) und PX|Y (x|y) = PX (x) .
Für stetige Zufallsvariablen gilt
fY |X (y|x) = fY (y) und fX|Y (x|y) = fX (x) .
Beweis:
Für diskrete Zufallsvariablen gilt im Falle der Unabhängigkeit
PY |X (y|x) =
PXY (x, y)
PX (x)PY (y)
=
= PY (y) .
PX (x)
PX (x)
Für stetige Zufallsvariablen ersetze man P durch f .
♦
6.3. BEDINGTE VERTEILUNGEN, UNABHÄNGIGKEIT
117
Beispiel 6.15 Wir betrachten die gemeinsame Wahrscheinlichkeitsfunktion aus dem Beispiel 6.1
(Einsch¨atzung der Kriminalit¨atslage). Dort war
PXY (1, 1) = 0.015,
PX (1) = 0.267
und PY (1) = 0.052 .
Offensichtlich gilt
PX (1)PY (1) = 0.267 · 0.052 = 0.013884 6= 0.015 = P XY (1, 1) .
Damit sind X und Y nicht unabh¨angig. In dieser Grundgesamtheit ist also die Einsch¨atzung der
Kriminalit¨atslage nicht unabh¨angig vom Alter.
Beispiel 6.16 In Beispiel 6.9 hatten wir die folgende gemeinsame Dichtefunktion zweier stetiger
Zufallsvariablen X und Y betrachtet.
fXY (x, y) =
(
2
0
für
sonst.
0<x<y<1
Die Randdichten waren
fX (x) =
(
und
fY (y) =
2(1 − x)
0
(
2y
0
für
sonst
0<x<1
für
0<y<1
sonst .
Da
fX (x)fY (y) = 4y(1 − x) 6= 2 = fXY (x, y) ,
sind die beiden Zufallsvariablen X und Y nicht unabh¨angig.
Beispiel 6.17 In Beispiel 6.11 hatten wir die bedingten Dichtefunktionen ausgerechnet. Es galt
fX|Y (x|y) =
(
und
fY |X (y|x) =
12x−6x2 −6yx
4−3y
0
(
2−x−y
( 32 −x)
0
für
sonst
für
0<x<1
0<y<1
sonst .
Offensichtlich h¨angt die bedingte Dichtefunktion von X , gegeben Y = y von y und die bedingte
Dichte von Y , gegeben X = x von x ab, so dass die beiden Zufallsvariablen X und Y nach Satz 6.8
nicht unabh¨angig sein können.
Satz 6.9 Wenn die beiden Zufallsvariablen X und Y unabhängig sind, so sind sie unkorreliert, d.h. es gilt
EXY = EX · EY .
118
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
Beweis:
Wir führen den Beweis nur für stetige Zufallsvariablen, für diskrete ist der Beweis analog,
wenn man die Integrale durch Summen ersetzt.
EXY
=
=
=
Z∞ Z∞
−∞ −∞
Z∞ Z∞
xyfXY (x, y)dxdy
xyfX (x)fY (y)dxdy
−∞ −∞
Z∞
−∞

yfY (y) 
Z∞
= EX
−∞
|
|
Z∞
−∞

xfX (x)dx dy
{z
EX
}
yfY (y)dy = EXEY .
{z
EY
}
Die Umkehrung dieses Satzes gilt jedoch i. allg. nicht, wie das folgende Beispiel zeigt.
Beispiel 6.18 Wir betrachten die gemeinsame Wahrscheinlichkeitsfunktion
PXY (x, y) =
(
1/4 (x, y) = (−2, 4), (−1, 1), (1, 1), (2, 4)
0
sonst .
Die Randwahrscheinlichkeitsfunktionen sind
PX (x) =
(
1/4 x = −2, −1, 1, 2
0
sonst ,
PY (y) =
(
1/2 y = 1, 4
0
sonst .
Es gilt
EXY = 0
und EX = 0 ,
d.h.
EXY = EX · EY .
Die Zufallsvariablen X und Y sind also nach Satz 6.7 unkorreliert. Sie sind jedoch nicht unabh¨angig,
da z.B.
PXY (1, 1) = 1/4 6= 1/8 = PX (1)PY (1) .
Das ist auch anschaulich klar, da Y = X 2 gilt.
6.4. DIE BIVARIATE NORMALVERTEILUNG
119
6.4 Die bivariate Normalverteilung
Definition 6.17 Die Dichtefunktion der zweidimensionalen Normalverteilung ist gegeben durch
fX1 X2 (x1 , x2 ) =
x1 −µ1 2
x1 −µ1 x2 −µ2
x2 −µ2 2
1
1√
exp − 2(1−ρ2 )
− 2ρ σ
+ σ
.
σ
σ
1−ρ2
2πσ1 σ2
1
1
2
2
Dabei gilt
−∞ < x1 < ∞,
−∞ < x2 < ∞ .
Die zweidimensionale Normalverteilung hat fünf Parameter, für die gelten muss
−∞ < µ2 < ∞,
σ12 > 0,
σ22 > 0,
−1 < ρ < 1 .
0
f(x 1,x2)
0.1
0.2
−∞ < µ1 < ∞,
2
2
0
x
2
-2
0
-2
x1
Abbildung 6.19: Dichtefunktion einer zweidimensionalen Normalverteilung µ 1 = µ2 =
0, σ12 = σ22 = 1, ρ = −0.6
Wir schreiben
(X1 , X2 ) ∼ N (µ1 , µ2 , σ12 , σ22 , ρ) ,
wenn (X1 , X2 ) eine zweidimensionale Normalverteilung besitzen. Die Bedeutung der einzelnen Parameter ist aus der folgenden Tabelle zu ersehen.
Parameter
µ1
µ2
σ12
σ22
ρ
Bedeutung
Erwartungswert von X1
Erwartungswert von X2
Varianz von X1
Varianz von X2
Korrelationskoeffizient von X1 und X2
Die zweidimensionale Normalverteilung hat die Form einer Glocke, die je nach Größe von
ρ verschieden stark zusammengedrückt ist (siehe Abbildung 6.19).
120
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
3
2
x2
1
0
-1
-2
ρ = −0.6
-3
-3
-2
-1
0
x1
1
2
3
Abbildung 6.20: Höhenlinien der zweidimensionalen Normalverteilung mit µ1 = µ2 =
0, σ12 = σ22 = 1, ρ = −0.6
2
2
-2
0
x
x1
2
-2
x
x1
-2
x
x
2
-2
-2
1
ρ= 0.6
x
x1
2
0.2
x
2
-2
0
-2
x
-2
0
-2
x1
ρ= 0.9
0
0
0
2
2
0
2
0
0
ρ= 0.8
2
1
2
0
0.2 0.4
2
x
0
0
0
-2
2
0
-2
ρ= 0.3
2
0
2
0
x
-2
2
2
2
0.1 0.2
0
0
ρ= 0
0.1 0.2
ρ= −0.3
-2
0.1 0.2
-2
2
0
2
0
x
0.1 0.2
0
0
0
2
2
ρ= −0.6
0.1 0.2
ρ= −0.8
0.2
0.2 0.4
ρ= −0.9
2
0
x
2
-2
1
2
0
-2
x
1
2
0
x
2
-2
0
-2
x1
Abbildung 6.21: Dichtefunktionen der zweidimensionalen Standardnormalverteilung in
Abhängigkeit von ρ
Die Standardform der bivariaten Normalverteilung ist:
N (0, 0, 1, 1, ρ) .
Die gemeinsame Dichtefunktion ist in diesem Fall für −∞ < x1 , x2 < ∞
(
)
1
1
2
2
fX1 X2 (x1 , x2 ) = √
exp
−
x
−
2ρx
x
+
x
1 2
2
2 (1 − ρ2 ) 1
2π 1 − ρ2
.
6.4. DIE BIVARIATE NORMALVERTEILUNG
121
Abbildung 6.21 zeigt einige gemeinsame Dichtefunktionen der bivariaten Standardnormalverteilung in Abhängigkeit von ρ. (Beachten Sie die unterschiedlichen Skalierungen der zAchse.) Abbildung 6.22 zeigt die zugehörigen Höhenlinien, während Abbildung 6.23 die
Image-Plots und Abbildung 6.24 simulierte Punktwolken zeigt.
ρ = −0.99
ρ = −0.9
ρ = −0.6
ρ = −0.3
ρ=0
ρ = 0.3
ρ = 0.6
ρ = 0.9
ρ = 0.99
Abbildung 6.22: Höhenlinien der zweidimensionalen Standardnormalverteilung in
Abhängigkeit von ρ
Satz 6.10 Seien X1 und X2 gemeinsam normalverteilt. Dann gilt für die Randverteilungen von X1 und X2
X1 ∼ N (µ1 ; σ12 )
und
X2 ∼ N (µ2 ; σ22 ) .
Satz 6.11 Seien X1 und X2 gemeinsam normalverteilt. Dann gilt für die bedingte Verteilung von X1 , gegeben X2 = x2 ,
N (µ1 + ρσ1 (x2 − µ2 )/σ2 ; σ12 (1 − ρ2 )) ,
und die bedingte Verteilung von X2 , gegeben X1 = x1 ,
N (µ2 + ρσ2 (x1 − µ1 )/σ1 ; σ22 (1 − ρ2 )) .
122
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
ρ=− 0.99
ρ=− 0.9
ρ=− 0.6
ρ=− 0.3
ρ=0
ρ=0.3
ρ=0.6
ρ=0.9
ρ=0.99
Abbildung 6.23: Image-Plots der zweidimensionalen Standardnormalverteilung in
Abhängigkeit von ρ
Die Abbildungen 6.25 und 6.26 veranschaulichen die bedingten Dichtefunktionen (vergleiche Seite 112). Die Schnittkurven sind so zu normieren, dass die Fläche unterhalb der Dichtefunktion den Wert 1 erhält.
R-Befehle zur bivariaten Normalverteilung Zur bivariaten Normalverteilung gibt es keine
internen R-Funktionen. Es gibt jedoch die selbstgeschriebenen Funktionen:
dbnorm(x1=0, x2=0, mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0)
berechnet die Dichtefunktion an der Stelle (x1, x2).
rbnorm(n=1, mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0) erzeugt
n Paare bivariat normalverteilter Zufallszahlen.
Weitere selbstgeschriebene R-Funktionen zur bivariaten Normalverteilung sind:
• s3bnormpersp.fun(mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0, nx=30, ax=1,
bx=nx, ay=1, by=nx, ...)
zeichnet einen 3D-Plot der gemeinsamen Dichtefunktion. Dabei ist nx die Anzahl der
Gitterpunkte in x1 - und x2 -Richtung, für die die Dichtefunktion berechnet werden soll.
Die Berechnung der Dichtefunktion kann auf den Bereich von ax bis bx und ay bis
by (in Gitterpunkten gemessen) beschränkt werden, um Schnitte durch die gemeinsame Dichtefunktion zu erhalten (siehe Abbildung 9.7 oder 9.8). Es können optionale
Argumente der R-Funktion persp und graphische Parameter als weitere Argumente
angegeben werden.
6.4. DIE BIVARIATE NORMALVERTEILUNG
123
ρ = −0.99
ρ = −0.9
ρ = −0.6
ρ = −0.3
ρ=0
ρ = 0.3
ρ = 0.6
ρ = 0.9
ρ = 0.99
Abbildung 6.24: Simulierte Punktwolken der zweidimensionalen Standardnormalverteilung
in Abhängigkeit von ρ
• s3bnormcon.fun(mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0, nx=30, ...)
zeichnet die Höhenlinien der bivariaten Normalverteilung. Dabei ist nx die Anzahl der
Gitterpunkte in beiden Richtungen, für die die gemeinsame Dichtefunktion berechnet
wird. Es können optionale Argumente der R-Funktion contour und graphische Parameter als weitere Argumente angegeben werden.
• s3bnormim.fun(mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0, nx=30, ...)
zeichnet die Höhenlinien der bivariaten Normalverteilung in Farbabstufungen. Dabei
ist nx die Anzahl der Gitterpunkte in beiden Richtungen, für die die gemeinsame Dichtefunktion berechnet wird. Es können optionale Argumente der R-Funktion image
und graphische Parameter als weitere Argumente angegeben werden.
f(x1,x2)
0 0.05 0.1 0.15 0.2
KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN
2
2
0
x
-2
2
0
-2
x1
Abbildung 6.25: Veranschaulichung der bedingten Dichte von X 1 , gegeben X2 = x2
f(x1,x2)
0 0.02 0.04 0.06
124
2
2
0
x
2
-2
0
-2
x1
Abbildung 6.26: Veranschaulichung der bedingten Dichte von X 2 , gegeben X1 = x1
Kapitel 7
p-dimensionale Zufallsvariablen
7.1 Definitionen, Eigenschaften
Wir betrachten jetzt p Zufallsvariablen X1 , X2 , . . . , Xp . Alle Definitionen, Notationen und
Eigenschaften sind analog zum 2-dimensionalen Fall.
Definition 7.1 Die Zufallsvariablen X1 , X2 , . . . , Xp seien diskret. Die gemeinsame
Wahrscheinlichkeitsfunktion ist dann definiert durch
PX1 X2 ...Xp (x1 , x2 , . . . , xp ) = P ({X1 = x1 , X2 = x2 , . . . , Xp = xp }) .
Definition 7.2 Eine Funktion f : IRp −→ IR heißt eine gemeinsame Dichtefunktion,
wenn gilt
a) f (x1 , x2 . . . , xp ) ≥ 0
für alle (x1 , x2 . . . , xp ) ,
b)
∞
R
...
−∞
∞
R
∞
R
−∞ −∞
f (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp = 1 .
Definition 7.3 Die Zufallsvariablen (X1 , X2 , . . . Xp ) heißen stetig, wenn es eine gemeinsame Dichtefunktion fX1 X2 ...Xp gibt, so dass für alle ai , bi ; i = 1, 2, . . . , p mit ai ≤ bi
gilt
P ({a1 ≤ X1 ≤ b1 , a2 ≤ X2 ≤ b2 , . . . , ap ≤ Xp ≤ bp }) =
Zbp
ap
...
Zb2 Zb1
fX1 X2 ...Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp .
a2 a1
125
126
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
Satz 7.1 Für diskrete Zufallsvariablen (X1 , X2 , . . . , Xp ) gilt
P ({a1 ≤ X1 ≤ b1 , a2 ≤ X2 ≤ b2 , . . . , ap ≤ Xp ≤ bp }) =
X
...
ap ≤xp ≤bp
X
X
PX1 X2 ...Xp (x1 , x2 , . . . , xp ) .
a2 ≤x2 ≤b2 a1 ≤x1 ≤b1
Definition 7.4 Die gemeinsame
X1 , X2 , . . . , Xp ist definiert als
Verteilungsfunktion
der
p
Zufallsvariablen
FX1 X2 ...,Xp (x1 , x2 , . . . , xp ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xp ≤ xp ) .
Satz 7.2 Für stetige Zufallsvariablen X1 , X2 , . . . , Xp mit der gemeinsamen Verteilungsfunktion FX1 X2 ...,Xp erhält man die gemeinsame Dichtefunktion durch Differentiation:
fX1 X2 ...,Xp (x1 , x2 , . . . , xp ) =
∂p
FX X ...X (x1 , x2 , . . . , xp ) .
∂x1 ∂x2 . . . ∂xp 1 2 p
Definition 7.5 Der Erwartungswert einer Funktion H(X1 , X2 , . . . , Xp ) ist im stetigen
Fall definiert durch
EH(X1 , X2 , . . . , Xp ) =
Z∞
−∞
...
Z∞ Z∞
H(x1 , x2 , . . . , xp )fX1 X2 ...Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp
−∞ −∞
und im diskreten Fall durch
EH(X1 , X2 , . . . , Xp ) =
XX
x1
x2
...
X
H(x1 , x2 , . . . , xp )PX1 X2 ...Xp (x1 , x2 , . . . , xp ) .
xp
Seien H1 (X1 , X2 , . . . , Xp ) und H2 (X1 , X2 , . . . , Xp ) jeweils Funktionen von
(X1 , X2 , . . . , Xp ). Dann folgt sofort aus der Definition des Erwartungswertes
E(H1 (X1 , X2 , . . . , Xp ) + H2 (X1 , X2 , . . . , Xp )) =
EH1 (X1 , X2 , . . . , Xp ) + EH2 (X1 , X2 , . . . , Xp ) .
7.1. DEFINITIONEN, EIGENSCHAFTEN
127
So ist z.B.
E(X1 + X2 + . . . + Xp ) = EX1 + EX2 + . . . + EXp .
Definition 7.6 Die gemeinsamen Momente von p Zufallsvariablen sind definiert durch
µ0r1 r2 ...rp = E(X1r1 X2r2 . . . Xprp ) .
So ist z.B.
µ0100...0 = EX1
und
µ01100...0 = EX1 X2 .
Die Randverteilungsfunktion einer Teilmenge von X1 , X2 , . . . , Xp erhält man, indem man
die nicht in dieser Teilmenge enthaltenen Argumente gegen ∞ konvergieren lässt. Seien z.B.
X1 , X2 , . . . , X5 Zufallsvariablen mit der Verteilungsfunktion FX1 X2 ...X5 (x1 , x2 , . . . , x5 ). Die
Randverteilungsfunktion von X1 , X2 und X4 ist
FX1 X2 X4 (x1 , x2 , x4 ) = lim lim FX1 X2 X3 X4 X5 (x1 , x2 , x3 , x4 , x5 )
x3 →∞ x5 →∞
Um die Randdichtefunktion (Randwahrscheinlichkeitsfunktion) einer Teilmenge von
X1 , X 2 , . . . , X p
zu bestimmen, integriert (summiert) man über die nicht in der Teilmenge enthaltenen Argumente. So ist z.B. im stetigen Fall
fX1 X2 X4 (x1 , x2 , x4 ) =
Z∞ Z∞
fX1 X2 X3 X4 X5 (x1 , x2 , x3 , x4 , x5 )dx3 dx5
−∞ −∞
und im diskreten Fall
PX1 X2 X4 (x1 , x2 , x4 ) =
XX
x3
PX1 X2 X3 X4 X5 (x1 , x2 , x3 , x4 , x5 ) .
x5
Definition 7.7 Die p Zufallsvariablen X1 , X2 , . . . , Xp sind unabhängig, wenn die folgende Bedingung für stetige Zufallsvariablen erfüllt ist
fX1 X2 ...Xp (x1 , x2 , . . . , xp ) = fX1 (x1 )fX2 (x2 ) . . . fXp (xp ) ,
bzw. für diskrete Zufallsvariablen
PX1 X2 ...Xp (x1 , x2 , . . . , xp ) = PX1 (x1 )PX2 (x2 ) . . . PXp (xp ) .
128
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
Unabhängigkeit kann auch mit Hilfe der Verteilungsfunktionen nachgewiesen werden.
Satz 7.3 Die p Zufallsvariablen X1 , X2 , . . . , Xp sind genau dann unabhängig, wenn die
folgende Bedingung erfüllt ist:
FX1 X2 ...Xp (x1 , x2 , . . . , xp ) = FX1 (x1 )FX2 (x2 ) . . . FXp (xp ) .
Bedingte Dichtefunktionen (Wahrscheinlichkeitsfunktionen) werden auf die übliche Weise
definiert. So ist z.B.
fX1 X3 |X2 X4 (x1 , x3 |x2 , x4 ) =
fX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
,
fX2 X4 (x2 , x4 )
PX1 X3 |X2 X4 (x1 , x3 |x2 , x4 ) =
PX1 X2 X3 X4 (x1 , x2 , x3 , x4 )
.
PX2 X4 (x2 , x4 )
bzw.
Wir wollen jetzt die p Zufallsvariablen X1 , X2 , . . . , Xp als Vektor betrachten, den wir mit
dem Symbol X bezeichnen, also mit einem fettgedruckten X, d.h.



X=


X1
X2
..
.
Xp






oder
X t = (X1 , . . . , Xp )
Ist µi = EXi der Erwartungswert von Xi , so bezeichnen wir mit µ den Vektor der Erwartungswerte.


µ1


 µ2 

µ =  .. 
oder
µt = (µ1 , . . . , µp )

 . 
µp
Die Varianz-Kovarianzmatrix oder einfach Kovarianzmatrix wird mit Σ bezeichnet und enthält
in der i-ten Zeile und j-ten Spalte die Kovarianz zwischen Xi und Xj :

Σ =









=








V ar(X1 )
Kov(X1 , X2 ) Kov(X1 , X3 )
Kov(X2 , X1 )
V ar(X2 )
Kov(X2 , X3 )
Kov(X3 , X1 ) Kov(X3 , X2 )
V ar(X3 )
..
.
. . . Kov(X1 , Xp )
. . . Kov(X2 , Xp )
. . . Kov(X3 , Xp )
..
.
Kov(Xp , X1 ) Kov(Xp , X2 ) Kov(Xp , X3 ) . . .
σ11 σ12 σ13 . . . σ1p
σ21 σ22 σ23 . . . σ2p
σ31 σ32 σ33 . . . σ3p
..
.
σp1 σp2 σp3 . . . σpp









V ar(Xp )









7.1. DEFINITIONEN, EIGENSCHAFTEN
129
Falls j = i ist, so ist Kov(Xi , Xj ) = Kov(Xi , Xi ) = V ar(Xi ), d.h. in der Diagonalen der
Kovarianzmatrix stehen die Varianzen der Variablen X1 , X2 , . . . , Xp .
Da
σij = E(Xi − µi )(Xj − µj ) = E(Xj − µj )(Xi − µi ) = σji ,
ist Σ eine symmetrische p × p Matrix.
Die Korrelationsmatrix wird mit einem großen griechischen Rho bezeichnet, das wie ein
lateinisches P aussieht. Sie enthält in der i-ten Zeile und j-ten Spalte den Korrelationskoeffizienten zwischen Xi und Xj .

P =
ρ11 ρ12 ρ13 . . . ρ1p
ρ21 ρ22 ρ23 . . . ρ2p
ρ31 ρ32 ρ33 . . . ρ3p
..
.








ρp1 ρp2 ρp3 . . . ρpp
Dabei ist
ρij = √
ρii = √

P =
















σij
σij
=
σii σjj
σi σj
und offensichtlich
d.h.

σii
=1,
σii σii
1 ρ12 ρ13 . . . ρ1p
ρ21 1 ρ23 . . . ρ2p
ρ31 ρ32 1 . . . ρ3p
..
.
ρp1 ρp2 ρp3 . . .
1









Die Korrelationsmatrix ist wie die Kovarianzmatrix eine symmetrische Matrix und enthält
in der Diagonalen jeweils Einsen. Der Zusammenhang zwischen der Kovarianzmatrix Σ und
der Korrelationsmatrix P kann mithilfe der Diagonalmatrix D beschrieben werden, die in
√
der Diagonalen die Standardabweichungen σi = σii enthält. Für den umgekehrten Zusammenhang zwischen P und Σ benötigt man die Inverse D −1 , die in der Diagonalen die
reziproken Werte der Standardabweichungen enthält.
D=






σ1 0 . . .
0 σ2 . . .
..
.
0
0

0
0 

. . . σp



D
−1
=
Dann gilt:
Σ = DP D
P = D −1 ΣD −1







1
σ1
0
0
..
.
1
σ2
0
0
...
...
...

0

0 

1
σp



130
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
7.2 Die p-dimensionale Normalverteilung
Wir schreiben
X ∼ N (µ; Σ) ,
wenn der Vektor X t = (X1 , X2 , . . . , Xp ) eine p-dimensionale Normalverteilung besitzt.
Definition 7.8 Die Dichtefunktion einer p-dimensionalen Normalverteilung ist
fX1 X2 ...Xp (x1 , x2 , . . . , xp ) =
1
(2π)p/2
q
t
det (Σ)
e−(x−µ) Σ
x−µ)/2 .
−1 (
Dabei ist det (Σ) die Determinante der symmetrischen und positiv definiten Matrix Σ,
Σ−1 die Inverse der Matrix Σ und xt = (x1 , x2 , . . . , xp ). Der Wertebereich ist
−∞ < x1 , x2 , . . . , xp < ∞ .
Die p-dimensionale Normalverteilung hat die Parameter µ und Σ, d.h. die Parameter
a) µ1 , µ2 , . . . , µp , d.h. die p Erwartungswerte und
b) p(p + 1)/2 Kovarianzen und Varianzen
σ11 σ12 σ13 . . . σ1p
σ22 σ23 . . . σ2p
σ33 . . . σ3p
..
.
σpp
Wegen der Symmetrie wurden die Elemente unterhalb der Diagonalen weggelassen.
Beispiel 7.1 Für die 2-dimensionale Normalverteilung ist
x=
x1
x2
!
σ
det (Σ) = 11
σ21
Σ−1 =
1
det (Σ)
µ=
σ12
σ22
µ1
µ2
!
Σ=
σ11 σ12
σ21 σ22
!
=
σ12
σ1 σ2 ρ
σ1 σ2 ρ
σ22
!
= σ11 σ22 − σ12 σ21 = σ12 σ22 − σ12 σ22 ρ2 = σ12 σ22 (1 − ρ2 )
!
!
σ22 −σ12
−σ21 σ11
=
1
σ12 σ22 (1
−
ρ2 )
σ22
−ρσ1 σ2
−ρσ1 σ2
σ12
.
Leiten Sie daraus die bekannte gemeinsame Dichtefunktion (siehe Definition 6.17) der bivariaten
Normalverteilung her.
Wir betrachten jetzt den Spezialfall, dass in der Kovarianzmatrix Σ
σij = 0
für alle i 6= j ,
7.2. DIE P-DIMENSIONALE NORMALVERTEILUNG
d.h.

Dann ist auch
σ11 0 · · ·
 0 σ
0

22

..

.
0
0
Σ=

.
 .
 .
···
0
0 ···
ρij = √
σij
=0
σii σjj
···
···
131

0
0
..
.
···
..
. 0
0 σpp
für








.
(7.1)
i 6= j .
Die Zufallsvariablen X1 , ..., Xp sind dann nach Definition 6.11 unkorreliert.
Wir hatten in Beispiel 6.18 gesehen, dass aus der Unkorreliertheit nicht notwendig die Unabhängigkeit folgen muss. Für gemeinsam normalverteilte Zufallsvariablen ist das jedoch
anders.
Satz 7.4 Die Zufallsvariablen X1 , X2 , . . . , Xp seien gemeinsam normalverteilt und unkorreliert. Dann sind X1 , X2 , . . . , Xp auch unabhängig verteilt.
Beweis:
Da die Kovarianzmatrix eine Diagonalmatrix ist, folgt nach Gleichung (7.1)
det(Σ) = σ11 σ22 ...σpp .
Damit ist die gemeinsame Dichtefunktion
fX1 ,...,Xp (x1 , x2 , . . . , xp ) =
(2π)
p/2 √
P−1
1
t
(x−µ)/2
e−(x−µ)
σ11 σ22 ...σpp
Nun ist die Inverse der Kovarianzmatrix

Σ−1 =









1
σ11
0
..
.
..
.
0
··· ···
1
0 ···
σ22
.
· · · .. · · ·
..
.
···
0
··· ···
0
0
0
..
.
0
1
σpp










und damit
(x − µ)t Σ−1 (x − µ) =
(x1 − µ1 )2 (x2 − µ2 )2
(xp − µp )2
+
+...+
.
σ11
σ22
σpp
Daraus folgt
(x −µ )2
(x −µ )2
(x −µ )2
1
1
1
− 21 pσ p
− 21 1σ 1
− 21 2σ 2
pp
11
22
√
fX1 ,...,Xp (x1 , x2 , . . . , xp ) = √
e
e
... √
e
2πσpp
2πσ11
2πσ22
= fX1 (x1 )fX2 (x2 ), ..., fXp (xp ) ,
132
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
♦
d.h. X1 , X2 , . . . , Xp sind unabhängig verteilt.
Wir geben jetzt die Schätzer der Parameter einer multivariaten Normalverteilung an. Wir
gehen davon aus, dass n unabhängige Wiederholungen eines p-dimensionalen normalverteilten Vektors beobachtet werden. Wir haben also eine Matrix von Zufallsvariablen:









X11 X21
X12 X22
X13 X23
..
..
.
.
X1n X2n
. . . Xp1
. . . Xp2
. . . Xp3
..
..
.
.
. . . Xpn









Jede Zeile besitzt eine p-dimensionale Normalverteilung. Die Zeilenvektoren sind unabhängig.
Man kann sich das so vorstellen, dass man an n Objekten (Personen, Merkmalsträgern) je
p Merkmale beobachtet hat. Die Beobachtungen der p Merkmale für das i-te Objekt stehen
in der i-ten Zeile. In der j-ten Spalte stehen alle Beobachtungen für die j-te Zufallsvariable.
Etwas unüblich ist also Xji die i-te Beobachtung der j-ten Variable und steht in der i-ten
Zeile und j-ten Spalte.
Die Schätzer der Erwartungswerte sind dann
µ̂1 =
n
X
X1j /n = X̄1 , µ̂2 =
j=1
n
X
X2j /n = X̄2 , . . . , µ̂p =
j=1
n
X
Xpj /n = X̄p .
j=1
Die Maximum-Likelihood-Schätzer der Kovarianzen sind
Sij = σ̂ij =
n
n
1X
1X
(Xik − µ̂i )(Xjk − µ̂j ) =
(Xik − X̄i )(Xjk − X̄j ) i, j = 1, 2, ..., p .
n k=1
n k=1
Diese Schätzer sind nicht erwartungstreu. Erwartungstreue Schätzer sind
Sij∗ = σ̂ij =
n
n
1 X
1 X
(Xik −µ̂i )(Xjk −µ̂j ) =
(Xik −X̄i )(Xjk −X̄j ) i, j = 1, 2, ..., p .
n − 1 k=1
n − 1 k=1
Die geschätzte Kovarianzmatrix ist dann
Σ̂ = S =






S11 S12 . . . S1p
S21 S22 . . . S2p
..
.
Sp1 Sp2 . . . Spp






oder



Σ̂ = S ∗ = 


∗
∗
∗
S11
S12
. . . S1p
∗
∗
∗
S21
S22
. . . S2p
..
.
∗
∗
∗
Sp1
Sp2
. . . Spp






Schätzer der Korrelationskoeffizienten ρij erhält man durch
σ̂ij
ρ̂ij = rij = q
σ̂ii σ̂jj
i, j = 1, 2, ..., p .
7.2. DIE P-DIMENSIONALE NORMALVERTEILUNG
133
Die geschätzte Korrelationsmatrix ist dann






P̂ = R =
1 r12 . . . r1p
r21 1 . . . r2p
..
.
rp1 rp2 . . .
1






Von den zahlreichen Anwendungen der multivariaten Normalverteilung wollen wir hier nur
die einfache Regressionsanalyse betrachten. Wir gehen von der Annahme
µ1
µ2
X∼N
!
,
σ11 ρσ1 σ2
ρσ2 σ1 σ22
!!
aus. Es seien Beobachtungen
(x11 , x21 ), (x12 , x22 ), . . . , (x1n , x2n )
gegeben. Als Datenmatrix würde man das so schreiben:






x11 x21
x12 x22
..
.
x1n x2n






3
2
1
0
−1
−2
−3
−3
−2
−1
0
1
2
3
Abbildung 7.1: Zur einfachen linearen Regression: Höhenlinien der bivariaten Normalverteilung und simulierte Daten
In diesem Zusammenhang sind folgende Aufgaben von Interesse. Man will z.B.
• den Zusammenhang zwischen X1 und X2 beschreiben,
• ρ schätzen,
• Hypothesen über ρ testen, z.B. H0 : ρ = 0,
134
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
• X2 anhand einer Beobachtung von X1 vorhersagen,
• die bedingte Erwartung von X2 gegeben X1 = 2 berechnen,
• den 95%-Punkt der bedingten Verteilung von X2 , gegeben X1 schätzen.
7.3 Summen und Linearkombinationen von Zufallsvariablen
Eine Linearkombination von n Zufallsvariablen X1 , X2 , . . . , Xn ist definiert durch:
L = a 1 X1 + a 2 X2 + . . . a n Xn
ai ∈ IR
Wir wollen dieselbe Gleichung mit Vektoren schreiben. Dazu sei X t = (X1 , X2 , . . . , Xn )
und at = (a1 , a2 , . . . , an ). Dann ist
L = at X
Eine Linearkombination von Zufallsvariablen ist selbst wieder eine Zufallsvariable, die sehr
häufig in Anwendungen erscheint (z.B. Mittelwerte, gewichtete Durchschnitte, Summen
usw.). Schaut man sich die Vektorschreibweise an, so wird durch die Bildung einer Linearkombination aus dem zufälligen Vektor X mit einer multivariaten Verteilung ein zufälliger
Skalar L mit einer univariaten Verteilung. Wir wollen die Eigenschaften der Verteilung einer
Linearkombination, insbesondere Erwartungswert und Varianz untersuchen. Wir verwenden
die folgenden Bezeichnungen:
EXi = µi
µt = (µ1 , µ2 , . . . , µn )
V arXi = E(Xi − µi )2 = σi2 = σii
Kov(Xi , Xj ) = E(Xi − µi )(Xj − µj ) = σij
Σ bezeichnet die Varianz-Kovarianzmatrix von X.
Bei identisch verteilten Zufallsvariablen verwenden wir die Bezeichnungen µ, σ 2 statt µi , σi2 .
Wir betrachten zunächst nur Summen:
S = X1 + X2 + . . . Xn = 1t X ,
wobei 1t = (1, 1, . . . , 1) sei.
Es ist:
ES = E(X1 + X2 + . . . + Xn ) = EX1 + EX2 + . . . + EXn
= µ1 + µ2 + . . . + µ n
= nµ
falls Xi identisch verteilt
V arS = E(S − ES)2 = E(
= E
n X
n
X
n
X
i=1
Xi −
n
X
i=1
(Xi − µi )(Xj − µj ) =
i=1 j=1
=
n
X
i=1
E(Xi − µi )2 +
n
n
X
X
i=1
j=1
i6=j
µi )2 = E(
n
X
i=1
n X
n
X
i=1 j=1
(Xi − µi ))2
E(Xi − µi )(Xj − µj )
E(Xi − µi )(Xj − µj )
7.3. SUMMEN UND LINEARKOMBINATIONEN VON ZUFALLSVARIABLEN
=
n
X
σi2
n
X
σi2
+
i=1
=
n
n
X
X
135
σij
j=1
i=1
i6=j
falls Xi unabhängig
i=1
= nσ 2
falls Xi unabhängig und identisch verteilt
Jetzt betrachten wir Linearkombinationen
L = a t X = a 1 X1 + a 2 X2 + . . . a n Xn
ai ∈ IR
Die entsprechenden Formeln sind dann:
EL = E(a1 X1 + a2 X2 + . . . + an Xn ) = Ea1 X1 + Ea2 X2 + . . . + Ean Xn
= a1 EX1 + a2 EX2 + . . . + an EXn = a1 µ1 + a2 µ2 + . . . + an µn
=
n
X
a i µi
i=1
n
X
= µ
ai
falls Xi identisch verteilt
i=1
In vektorieller Notation haben wir
E(L) = E(at X) = at µ
Var(L) = E(L − EL)2 = E(
= E
n X
n
X
i=1 j=1
=
=
i=1
a i Xi −
n
X
ai µi )2 = E(
i=1
ai aj (Xi − µi )(Xj − µj ) =
n
X
i=1
a2i E(Xi − µi )2 +
n
X
a2i σi2 +
n
n
X
X
n
X
a2i σi2
n
n
X
X
i=1
j=1
n
X
i=1
n X
n
X
i=1 j=1
ai (Xi − µi ))2
ai aj E(Xi − µi )(Xj − µj )
ai aj E(Xi − µi )(Xj − µj )
i6=j
i=1
=
n
X
i=1
ai aj σij
j=1
i6=j
falls Xi unabhängig
i=1
= σ2
n
X
a2i
falls Xi unabhängig und identisch verteilt
i=1
In vektorieller Notation haben wir das allgemeine Resultat:
Var(L) = Var(at X) = at Σa
Eine spezielle, besonders wichtige Linearkombination ist der Durchschnitt, d.h. das arithmetische Mittel:
X̄n =
n
1
1
1
1
1X
Xi = X1 + X2 + . . . + Xn = 1 t X
n i=1
n
n
n
n
136
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
Es ist also ai = 1/n für i = 1, 2, . . . , n. Damit folgt aus den allgemeinen Formeln für diesen
Spezialfall:
n
1X
µi
n i=1
= µ
falls Xi identisch verteilt
E X̄n =
V ar X̄n = E(X̄n − E X̄n )2
n
n
n
X
1 X
1 X
2
=
σ
+
σij
n2 i=1 i n2 i=1 j=1
i6=j
n
1 X
=
σ2
n2 i=1 i
= σ 2 /n
falls Xi unabhängig
falls Xi unabh. und identisch verteilt
Die Verteilung einer Summe oder einer Linearkombination von Zufallsvariablen ist oft schwer
zu bestimmen, auch wenn die Zufallsvariablen unabhängig sind. Einige Ausnahmen haben
wir im Laufe der Vorlesung bzw. in den Übungen kennengelernt. So wissen wir, dass die
Summe von unabhängig und identisch Bernoulli-verteilten Zufallsvariablen binomialverteilt,
die Summe von unabhängig und identisch geometrisch verteilten Zufallsvariablen negativ binomialverteilt, die Summe von unabhängig poissonverteilten Zufallsvariablen wieder Poissonverteilt ist, wobei sich die Parameter addieren. Die Summe von unabhängig und identisch exponentialverteilten Zufallsvariablen ist gammaverteilt. Die Summe von unabhängigen gammaverteilten Zufallsvariablen ist (bei gleichem Parameter λ) wieder gammaverteilt,
wobei die Parameter ν zu addieren sind. Die Summe von unabhängigen χ 2 -verteilten Zufallsvariablen ist wieder χ2 -verteilt. Die Freiheitsgrade addieren sich. Schließlich ist jede
Linearkombination von normalverteilten Zufallsvariablen wieder normalverteilt. Die Parameter µ und σ 2 bestimmen sich aus den Formeln für den Erwartungswert und die Varianz,
die in diesem Kapitel hergeleitet wurden. Für den Durchschnitt nützlich ist oft der zentrale
Grenzwertsatz, der Aussagen über die asymptotische Verteilung von X̄n macht.
Satz 7.5 (Zentraler Grenzwertsatz)
Die Zufallsvariablen X1 , X2 , . . . , Xn seien unabhängig und identisch verteilt mit
V arXi = σ 2 < ∞. Dann besitzt
√
n(X̄n − µ)/σ
asymptotisch eine N (0, 1)-Verteilung.
Man kann dann die Verteilung von X̄n durch eine N (µ, σ 2 /n)-Verteilung approximieren.
7.4 Weiteres zur multivariaten Normalverteilung
Wir haben weiter oben gesagt, dass jede Linearkombination normalverteilter Zufallsvariablen wieder normalverteilt ist. Nun besagt ein Resultat von Cramer und Wold, dass die
7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG
137
Verteilung eines p-dimensionalen zufälligen Vektors X vollständig bestimmt ist durch die
univariaten Verteilungen aller Linearkombinationen. Damit ist es möglich die multivariate
Normalverteilung auf die folgende Weise zu definieren.
Definition 7.9 Eine p-dimensionale Zufallsvariable X hat eine multivariate Normalverteilung, wenn alle Linearkombinationen von X eine univariate Normalverteilung besitzen.
Jede Komponente des Vektors X ist eine Linearkombination von X und somit normalverteilt. Eine Linearkombination at X ist eine univariate Zufallsvariable und die Varianz einer
univariaten Zufallsvariablen ist größer oder gleich 0, d.h. Var(a t X) ≥ 0. Andererseits gilt
Var(at X) = at Σa, wenn Σ die Varianz-Kovarianzmatrix von X bezeichnet. Damit haben
wir
at Σa ≥ 0
∀a
Dieses Resultat bedeutet, dass die Varianz-Kovarianzmatrix Σ positiv semidefinit ist. In der
früheren Definition der multivariaten Normalverteilung mithilfe der gemeinsamen Dichtefunktion hatten wir verlangt, dass die Kovarianzmatrix Σ positiv definit und invertierbar ist.
Die Kovarianzmatrix ist positiv definit, wenn at Σa > 0 für alle a 6= 0. Eine multivariate
Normalverteilung, für die Σ−1 nicht existiert, heißt singuläre oder degenerierte Normalverteilung und besitzt keine Dichtefunktion.
Nicht nur jede Linearkombination von normalverteilten Zufallsvariablen ist wieder normalverteilt. Die Normalverteilung bleibt auch bei linearen Transformationen erhalten. Sei X ∼
N (µ, Σ) p-dimensional normalverteilt. Sei A eine p × m-Matrix. Dann ist W = A t X ein
m-dimensionaler Vektor und es gilt
W ∼ N (At µ; At ΣA)
(7.2)
Im univariaten Fall konnten wir jede beliebige Normalverteilung auf die Standardnormalverteilung transformieren. Wir geben jetzt eine äquivalente Transformation zwischen einem Zufallsvektor X ∼ N (µ; Σ) und einem zufälligen Vektor U , dessen Komponenten unabhängig
und standardnormalverteilt sind, so dass U ∼ N (0; Ip ), wobei Ip eine p-dimensionale Einheitsmatrix ist. Wir beschränken uns auf den Fall, in dem Σ nichtsingulär ist. Dann gibt
es eine nichtsinguläre Matrix p × p-Matrix B, so dass Σ = BB t . Betrachten wir jetzt die
Transformation (X − µ) = BU . Wenn U ∼ Np (0; I), dann gilt nach Gleichung 7.2
(X − µ) ∼ N (0; BB t ) und daher X ∼ N (µ; Σ).
Da B −1 existiert, ist die inverse Transformation gegeben durch: U = B −1 (X − µ). Wenn
X ∼ N (µ; Σ), dann gilt
E(U ) = 0
Var(U ) = B −1 Σ(B −1 )t
nach Gleichung 7.2
−1
t
t −1
= B (BB )(B ) = Ip
Damit gilt U ∼ N (0; Ip ). Es sei angemerkt, dass die Matrix B nicht eindeutig ist, so dass
es viele solche Transformationen gibt. Eine Möglichkeit, die Matrix B zu bestimmen ist:
138
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
B = CΛ1/2 . Dabei ist C die Matrix der Eigenvektoren von Σ (in jeder Spalte steht ein
Eigenvektor) und Λ ist die Diagonalmatrix der Eigenwerte.
Wir schieben kurz einige Bemerkungen zu Eigenwerten und Eigenvektoren ein. Sei Σ eine
p × p-Matrix. Die Eigenwerte (charakteristischen Wurzeln) sind die Lösungen der Gleichung
det(Σ − λI) = 0
(7.3)
Diese Gleichung ist ein Polynom der Ordnung p in λ. Die der Größe nach geordneten Eigenwerte werden mit λ1 , λ2 , . . . , λp (λ1 ≥ λ2 ≥ . . . ≥ λp ) bezeichnet.
Wir betrachten die Matrix
Σ =
1 1/2
1/2 1
!
Dann gilt
det(Σ − λI) = det
1 − λ 1/2
1/2 1 − λ
!
= (1 − λ)2 − 1/4 = λ2 − 2λ + 3/4
q
Diese Gleichung hat die beiden Lösungen λ1,2 = 1± 1 − 3/4, d.h. λ1 = 3/2 und λ2 = 1/2.
Zu jedem Eigenwert λi gehört ein Vektor ci , der Eigenvektor genannt wird, für den gilt:
Σci = λi ci
(7.4)
In unserem Beispiel ist also für λ1 = 3/2 das Gleichungssystem (Σ − 3/2I)c = 0 zu lösen,
d.h.
−0.5c11 + 0.5c12 = 0
0.5c11 − 0.5c12 = 0
Das bedeutet c11 = c12 , d.h jeder Vektor ct1 = (c11 , c11 ) ist eine Lösung.
Für λ2 = 1/2 das Gleichungssystem Σ − 1/2I = 0 zu lösen, d.h.
0.5c21 + 0.5c22 = 0
0.5c21 + 0.5c22 = 0
Das bedeutet c21 = −c22 , d.h jeder Vektor ct2 = (c21 , −c21 ) ist eine Lösung.
Die Eigenvektoren sind nur bis auf einen konstanten Faktor eindeutig bestimmt. Daher wert
t
den√sie gewöhnlich
so normiert,
√
√ dass√ci ci = 1 gilt. In unserem Beispiel wären also c1 =
t
(1/ 2, 1/ 2) und c2 = (1/ 2, −1/ 2) normierte Lösungen. Wenn es gleiche Eigenwerte
gibt, können die Eigenvektoren so gewählt werden, dass sie orthonormiert sind (orthogonal
und normiert).
In R können die Eigenwerte mit der Funktion eigen bestimmt werden.
Sigma<-matrix(c(1,0.5,0.5,1),nrow=2)
eigen(Sigma)
7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG
139
$values
1.5 0.5
$vectors
0.7071068 0.7071068
0.7071068 -0.7071068
Die Matrix C der Eigenvektoren ist also:
√ !
√
1/√2
1/√2
=
1/ 2 −1/ 2
C=
0.7071
0.7071
0.7071 −0.7071
!
Die Diagonalmatrix der Eigenwerte ist
Λ=
Damit ist
Λ
und schließlich
1/2
 q
=
B = CΛ
1/2
=
3/2
0
!
3/2 0
0 1/2
0
q
1/2


=
1.2247
0
0
0.7071
!
√
3/2
1/2
√
=
3/2 −1/2
!
0.8660
0.5
0.8660 −0.5
!
Die Inverse einer quadratischen Matrix B bestimmt man in R mit dem Befehl solve(B).
In diesem Fall ist
!
0.5774
0.5774
−1
B =
1.0000 −1.0000
Wir fassen das Ergebnis in folgendem Satz zusammen:
Satz 7.6 Sei Σ nichtsingulär. Dann gilt X ∼ N (µ; Σ) genau dann, wenn X = µ+ BU ,
wobei U ∼ N (0; I), BB t = Σ und B ist eine p × p-Matrix vom Rang p und es gilt dann
U = B −1 (X − µ).
Wir hatten vorhin von einer degenerierten oder auch ausgearteten Verteilung gesprochen und
wollen jetzt dafür ein Beispiel bringen: Betrachten Sie einen Vektor X, dessen Komponenten aus der Länge, Breite und dem Umfang eines zufälligen Rechtecks bestehen. Dann gilt
zwischen den drei Komponenten dieses Vektors die lineare Beziehung 2X 1 + 2X2 − X3 = 0.
Obwohl wir einen dreidimensionalen Vektor haben, ist die Variation in Wirklichkeit zweidimensional und Rang(Σ) = 2. Hätten wir Radius, Durchmesser und Umfang eines zufälligen
Kreises, so gäbe es zwei lineare Beziehungen zwischen den Komponenten und die effektive
Dimension dieses dreidimensionalen Vektors wäre 1.
140
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
Eigenschaften der multivariaten Normalverteilung:
a) Wenn X ∼ N (µ, Σ) mit nichtsingulärem Σ, so gilt:
(X − µ)t Σ−1 (X − µ) ∼ χ2p
(7.5)
Dies ist eine Verallgemeinerung der bekannten Tatsache, dass das Quadrat einer standardnormalverteilten Zufallsvariablen χ21 -verteilt ist. Insbesondere gilt für p = 1, dass
[(Y − µ)/σ]2 ∼ χ21 . Nach Satz 7.6 können wir schreiben: U = B −1 (X − µ) mit
BB t = Σ und U ∼ N (0; I). Dann ist U t U =
p
P
j=1
Uj2 , wobei die Uj unabhängige
standardnormalverteilte Zufallsvariablen sind. Folglich ist U t U ∼ χ2p -verteilt. Andererseits gilt aber:
U t U = (X − µ)t (B −1 )t B −1 (X − µ) = (X − µ)t Σ−1 (X − µ)
Damit folgt das obige Resultat.
Subtrahiert man in Gleichung 7.5 nicht den Erwartungswertvektor µ, sondern z.B.
µ0 6= µ, so erhält man anstelle der zentralen χ2 -Verteilung eine nichtzentrale χ2 Verteilung mit Nichtzentralitätsparameter δ 2 = (µ − µ0 )t Σ−1 (µ − µ0 ).
Wir werden jetzt zeigen, dass die Randverteilungen und die bedingten Verteilungen einer
multivariaten Normalverteilung wieder Normalverteilungen sind. Zur Vereinfachung nehmen wir an, dass X folgendermaßen aufgeteilt ist (evtl. muß man vorher die Variablen umordnen):
X=
X1
X2
!
mit X 1 ein (q × 1) − Vektor q < p
Entsprechende Aufteilungen gelten für den Erwartungswertvektor und die Kovarianzmatrix:
µ=
µ1
µ2
!
Σ=
Σ11 Σ12
Σ21 Σ22
!
Dabei sind Σ11 und Σ22 symmetrische positiv semidefinite q × q bzw. (p − q) × (p − q)Matrizen und Σ12 = Σt21 sind q × (p − q)-Matrizen.
b) Die Randverteilung von X1 ist Nq (µ1 ; Σ11 ).
Die multivariate Normalverteilung von X 1 folgt aus der Tatsache, dass Linearkombinationen von X 1 auch Linearkombinationen von X sind und damit univariate Normalverteilungen haben.
c) X 1 und X 2 sind genau dann unabhängig verteilt, wenn Σ12 = 0.
d) Wenn Σ22 vollen Rang hat, so dass Σ−1
22 existiert, ist die bedingte Verteilung von X 1 ,
gegeben X 2 = x2 eine multivariate Normalverteilung mit:
E(X 1 |X 2 = x2 ) = µ1 + Σ12 Σ−1
22 (x2 − µ2 )
Var(X 1 |X 2 = x2 ) = Σ11 − Σ12 Σ−1
22 Σ21
7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG
141
Wir betrachten den Spezialfall q = 1. Dann ist X 1 = X1 die erste Komponente von
X, also eine univariate Zufallsvariable. Dann ist
E(X1 |X 2 = x2 ) = µ1 + Σ12 Σ−1
22 (x2 − µ2 )
(7.6)
Nun ist aber Σ12 Σ−1
22 eine 1 × (p − 1)-Matrix, also ein Zeilenvektor, d.h. Gleichung 7.6
hat die Gestalt
E(X1 |X 2 = x2 ) = µ1 + β2 (x2 − µ2 ) + . . . + βm (xp − µp )
(7.7)
wenn wir die Elemente dieses Vektors mit β2 , . . . , βp bezeichnen. Gleichung 7.7 ist
die Regressionsfunktion von X1 auf X2 , . . . , Xm . Für die bedingte Varianz haben wir
dann
Var(X1 |X 2 = x2 ) = σ11 − Σ12 Σ−1
22 Σ21
Für die bedingte Varianz kann man zeigen, dass
Var(X1 |X 2 = x2 ) =
1
σ 11
gilt. Dabei ist σ 11 das (1, 1)-te Element der Inversen Σ−1 . Das bedeutet: die bedingte
Varianz ist eine Konstante, die nicht von x2 abhängt.
Kapitel 8
Sch¨
atzung von Parametern
8.1 Sch¨
atzmethoden
Gegeben seien Beobachtungen
x1 , x2 , . . . , x n ,
die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen
X1 , X 2 , . . . , X n
auffassen. Die Verteilung der Xi hänge von einem oder mehreren unbekannten Parametern
ab. Die Parameter sollen aufgrund der vorliegenden Beobachtungen geschätzt werden. Wir
werden zwei allgemeine Schätzmethoden besprechen.
8.1.1 Die Methode der Momente
Definition 8.1
Das k-te Stichprobenmoment ist definiert als
m0k
n
1X
xki .
=
n i=1
Das erste Stichprobenmoment ist z.B.
m01 =
n
1X
xi = x̄ .
n i=1
Die Methode der Momente beruht darauf, dass man
a) zunächst die Parameter einer Verteilung durch die Momente µ0k der Verteilung ausdrückt.
b) anschließend in dem in a) entstandenen Ausdruck die Momente µ 0k durch die entsprechenden Stichprobenmomente m0k ersetzt.
142
8.1. SCHÄTZMETHODEN
143
Beispiel 8.1 Die Exponentialverteilung hat einen Parameter λ und es gilt
µ01 = 1/λ
λ = 1/µ01 .
oder
Daher sch¨atzt man λ durch
λ̂ = 1/m01 = 1/x̄ .
Beispiel 8.2 Für eine normalverteilte Zufallsvariable
X ∼ N (µ; σ 2 )
gilt
EX = µ = µ01 .
Daher verwendet man
µ̂ = m01 = x̄ =
als Sch¨atzer von µ. Für die Varianz von X gilt
n
1X
xi
n i=1
VarX = σ 2 = EX 2 − (EX)2 = µ02 − (µ01 )2 .
Daher sch¨atzt man σ2 durch
σ̂ 2 = m02 − (m01 )2 .
Es gilt
σ̂ 2 = m02 − (m01 )2 =
=
n
1X
x2 − (x̄)2
n i=1 i
n
1X
(xi − x̄)2 = s2 .
n i=1
Beispiel 8.3 Die Gammaverteilung hat zwei Parameter ν und λ, und es gilt
EX = ν/λ
und
Daraus folgt
VarX = ν/λ2 .
EX
µ01
= 0
VarX
µ2 − (µ01 )2
λ=
und
ν = λEX =
(EX)2
(µ0 )2
= 0 1 0 2 .
VarX
µ2 − (µ1 )
Daher sind die Sch¨atzer von ν und λ nach der Methode der Momente
ν̂ =
(m01 )2
x̄2
=
m02 − (m01 )2
s2
λ̂ =
m01
x̄
= 2 .
0
0
2
m2 − (m1 )
s
und
Beispiel 8.4 Die Poissonverteilung hat einen Parameter λ und es gilt
µ01 = EX = λ .
Daher sch¨atzt man λ durch
λ̂ = m01 = x̄ .
144
KAPITEL 8. SCHÄTZUNG VON PARAMETERN
Beispiel 8.5 Die Bernoulli-Verteilung hat einen Parameter π und es gilt
µ01 = EX = π .
Daher sch¨atzt man π durch
π̂ = m01 = x̄ .
8.1.2 Die Maximum-Likelihood-Methode
Von dem Philosophen Rudolph Hermann Lotze (1817 - 1881), der von 1844 - 1880 in Göttingen lebte und nach dem die Lotzestraße benannt ist, stammt das folgende Zitat:
Wenn gegebene Thatsachen aus mehreren verschiedenen Ursachen ableitbar sind, so ist diejenige Ursache die wahrscheinlichste, unter deren Voraussetzung die aus ihr berechnete
Wahrscheinlichkeit der gegebenen Thatsachen die größte ist.
Das ist eine sehr treffende Beschreibung der Maximum-Likelihood-Schätzmethode, die allgemein Fisher (1912) zugeschrieben wird, obwohl es sogar Quellen aus dem 18. Jahrhundert
für diese Methode gibt.
Definition 8.2 Der Maximum-Likelihood-Schätzer eines Parameters ist der Wert des
Parameters, der den Beobachtungen die größte Wahrscheinlichkeit zuordnet.
Beispiel 8.6 Es soll die Wahrscheinlichkeit
π = P ({Kopf }) ,
mit der eine Münze mit ,,Kopf” auftrifft, gesch¨atzt werden. Dazu werde die Münze sechsmal geworfen.
Sei
Xi =
(
1
0
wenn das Ergebnis im i-ten Wurf ,,Kopf” ist,
wenn das Ergebnis im i-ten Wurf ,,Zahl” ist.
Die gemeinsame Wahrscheinlichkeitsfunktion von X 1 , X2 , . . . , X6 ist
PX1 X2 ...X6 (x1 , x2 , . . . , x6 ; π) = P ({X1 = x1 , X2 = x2 , . . . , X6 = x6 }) .
Wenn man annimmt, dass die Versuche unabh¨angig sind, gilt
PX1 X2 ...X6 (x1 , x2 , . . . , x6 ; π) = P ({X1 = x1 }) · P ({X2 = x2 }) · . . . · P ({X6 = x6 }) .
Die Beobachtungen in 6 Würfen seien
1
1
0
1
0
1.
Die Wahrscheinlichkeit dieser Beobachtungen ist
PX1 X2 ...X6 (1, 1, 0, 1, 0, 1) = π · π · (1 − π) · π · (1 − π) · π
= π 4 (1 − π)2 .
8.1. SCHÄTZMETHODEN
145
Sie h¨angt vom Parameter π ab. Deshalb sollte man schreiben
PX1 X2 ...X6 (1, 1, 0, 1, 0, 1; π) .
Die Likelihoodfunktion ist die gemeinsame Wahrscheinlichkeitsfunktion an der Stelle der Beobachtungen x1 , x2 , . . . , xn . Sie wird jedoch als Funktion des Parameters betrachtet. Um das zu betonen,
schreibt man
L(π; 1, 1, 0, 1, 0, 1)
statt
PX1 X2 ...X6 (1, 1, 0, 1, 0, 1; π) .
Wir können die Likelihoodfunktion für verschiedene Werte von π bestimmen.
L(π; 1, 1, 0, 1, 0, 1) = π 4 (1 − π)2
0.000081
0.001024
0.003969
0.009216
0.015625
0.020736
0.021609
0.016384
0.006561
π
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Das Maximum liegt zwischen 0.6 und 0.7.
Abbildung 8.1 zeigt die Likelihoodfunktion als Funktion von π . Der Wert π = 4/6 = 0.666 maximiert die Wahrscheinlichkeit dieser Beobachtungen. Wir können die Likelhoodfunktion analytisch
maximieren. Dabei benutzen wir den folgenden Satz:
Likelihood * 1000
25
20
15
10
5
0
0.0
0.2
0.4
0.6
0.8
1.0
π
Abbildung 8.1: Graphische Darstellung der Likelihoodfunktion
Satz 8.1 Der Wert π0 maximiert die Funktion L(π) genau dann, wenn er die Funktion
log(L(π)) maximiert.
146
KAPITEL 8. SCHÄTZUNG VON PARAMETERN
Abbildung 8.2 zeigt für das obige Beispiel die Likelihoodfunktion und die Loglikelihoodfunktion.
-2
25
-4
-6
-8
Loglikelihood
Likelihood * 1000
20
15
10
-10
-12
-14
-16
-18
5
-20
0
-22
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
π
0.6
0.8
1.0
π
Abbildung 8.2: Likelihoodfunktion und Loglikelihoodfunktion
Es ist oft einfacher den Logarithmus der Likelihoodfunktion zu maximieren.
In unserem Beispiel ist
log(L(π; 1, 1, 0, 1, 0, 1) = 4 log(π) + 2 log(1 − π) .
Um das Maximum der Loglikelihoodfunktion zu bestimmen, bilden wir die Ableitung nach π .
d log(L(π))
4
2
= −
;.
dπ
π 1−π
Diese Ableitung ist gleich null zu setzen.
4
2
−
=0
π̂ 1 − π̂
⇐⇒ 4(1 − π̂) = 2π̂ ⇐⇒ 4 = 6π̂ ⇐⇒ π̂ =
2
.
3
Der Maximum-Likelihood-Sch¨atzer von π ist also
π̂ =
2
.
3
Streng genommen, müsste jetzt noch überprüft werden, ob die zweite Ableitung der Loglikelihoodfunktion nach π an der Stelle π̂ negativ ist, um sicher zu gehen, dass tats¨achlich ein Maximum und
kein Minimum vorliegt.
Beispiel 8.7 An die folgenden 10 Beobachtungen soll eine Poissonverteilung angepasst werden.
15
14
19
20
23
25
24
11
15
Für die Poissonverteilung gilt
P (x) =
λx e−λ
x!
x = 0, 1, 2, . . . .
18
8.1. SCHÄTZMETHODEN
147
Die Likelihoodfunktion ist
L(λ; 15, 14, 19, 20, 23, 25, 24, 11, 15, 18) = P X1 X2 ...X10 (15, 14, . . . , 18; λ)
10
Y
=
PXi (xi )
i=1
λ15 e−λ λ14 e−λ
=
·
15!
14!
· ... ·
λ18 e−λ
.
18!
-25
Loglikelihood
-30
-35
-40
-45
-50
-55
-60
10
15
20
25
30
λ
Abbildung 8.3: Loglikelihoodfunktion
Abbildung 8.3 zeigt den Graphen der Loglikelihoodfunktion.Die Loglikelihoodfunktion hat ihr Maximum an der Stelle 18.4.
Die Loglikelihoodfunktion ist:
log(L(λ; 15, 14, . . . , 18)) =
15 log(λ) − λ − log(15!) + 14 log(λ) − λ − log(14!) + . . . + 18 log(λ) − λ − log(18!) =
(15 + 14 + . . . + 18) log(λ) − 10λ − (log(15!) + log(14!) + . . . + log(18!)) =
184 log(λ) − 10λ − c .
Dabei steht c für eine Konstante, die nicht vom Parameter λ abh¨angt. Durch Differenzieren nach λ
und Nullsetzen der Ableitung ergibt sich
184/λ̂ − 10 = 0 .
Daraus folgt
λ̂ = 184/10 = 18.4 .
Allgemein gilt bei gegebenen Beobachtungen
x1 , x 2 , . . . , x n
für die Likelihoodfunktion
L(λ; x1 , x2 , . . . , xn ) =
n
Y
λxi e−λ
i=1
Die Loglikelihoodfunktion ist dann
log(L(λ; x1 , x2 , . . . , xn )) =
n
X
i=1
xi !
.
(xi log(λ) − λ − log(xi !))
= log(λ) ·
n
X
i=1
xi − nλ −
n
X
i=1
log(xi !) .
148
KAPITEL 8. SCHÄTZUNG VON PARAMETERN
Die Ableitung der Loglikelihoodfunktion nach λ ist
d log(L(λ; . . .))
=
dλ
Nullsetzen ergibt
n
P
i=1
n
P
i=1
xi
λ
−n.
xi
=n.
λ̂
Daraus folgt als Maximum-Likelihood-Sch¨atzer des Parameters λ der Poissonverteilung
λ̂ =
n
P
i=1
xi
= x̄ .
n
Beispiel 8.8 Die Zufallsvariable X sei normalverteilt mit dem Parameter µ und σ 2 d.h.
(x − µ)2
f (x) = √
exp −
2σ 2
2πσ 2
1
!
−∞<x<∞.
Dann ist die Likelihoodfunktion
n
Y
(xi − µ)2
√
L(µ, σ ) =
exp −
2σ 2
2πσ 2
i=1
2
= (2π)
1
−n/2
2 −n/2
(σ )
!
n
1 X
exp − 2
(xi − µ)2
2σ i=1
!
,
und die Loglikelihoodfunktion ist
log L(µ, σ 2 ) = −(n/2) log(2π) − (n/2) log σ 2 −
n
1 X
(xi − µ)2 .
2σ 2 i=1
Die partiellen Ableitungen sind
n
∂ log L(µ, σ 2 )
1 X
= 2
(xi − µ)
∂µ
σ i=1
und
n
∂ log L(µ, σ 2 )
n
1 X
=
−
+
(xi − µ)2 .
∂σ 2
2σ 2 2(σ 2 )2 i=1
Nullsetzen der partiellen Ableitungen und Multiplikation mit σˆ2 bzw. 2σˆ2 ergibt
n
X
i=1
und
−n +
(xi − µ̂) = 0
n
1 X
(xi − µ̂)2 = 0 .
ˆ
2
σ
i=1
Die Lösungen der beiden Gleichungen sind
µ̂ = x̄
8.1. SCHÄTZMETHODEN
und
149
n
n
1X
1X
σˆ2 =
(xi − µ̂)2 =
(xi − x̄)2 = s2 .
n i=1
n i=1
An die folgenden Beobachtungen soll eine Normalverteilung angepasst werden:
87.8
94.4
85.8
87.3
91.1
111.5
67.5
96.4
123.2
104.4
73.8
110.4
112.8
106.8
100.1
107.8
81.5
121.2
103.1
96.4
97.0
100.7
89.8
120.3
98.0
107.0
100.0
109.6
119.5
113.1
94.0
81.0
109.2
111.4
85.5
101.5
83.3
105.8
92.2
90.6
101.4
114.5
113.2
101.3
102.0
80.6
101.0
80.7
93.8
106.8
log(L)
-210 -205 -200
Abbildung 8.4 zeigt die Loglikelihoodfunktion als Funktion von µ und σ 2 .
30
0
105
20
σ2
0
10
0
100
µ
95
Abbildung 8.4: Loglikelihoodfunktion für anzupassende Normalverteilung
Es ergeben sich als Sch¨atzer
σ̂ 2 = 159.5 .
µ̂ = 99.36
Beispiel 8.9 Wir wollen die Maximum-Likelihood-Sch¨atzer für eine Rechteckverteilung (X ∼ U (a; b))
bestimmen. Gegeben seien die drei Beobachtungen
21.4
3.7
28.9 .
Die Likelihoodfunktion ist allgemein bei Beobachtungen
x1 , x 2 , . . . , x n
L(a, b; x1 , x2 , . . . , xn ) =
1
b−a
n
für a ≤ x1 , x2 , . . . , xn ≤ b .
Um L zu maximieren, muss (b − a) minimiert werden, d.h. b muss so klein wie möglich (bei den
obigen Beobachtungen b̂ = 28.9) und a so groß wie möglich sein (â = 3.7).
Allgemein ist
â = min(x1 , x2 , . . . , xn )
und
b̂ = max(x1 , x2 , . . . , xn ) .
150
KAPITEL 8. SCHÄTZUNG VON PARAMETERN
8.2 Einige Eigenschaften von Sch¨
atzern
Meistens gibt es mehrere Möglichkeiten, um einen Parameter zu schätzen, und man muss
sich zwischen verschiedenen Schätzern (oder auch Schätzfunktionen) entscheiden. Um die
Wahl zu erleichtern, geben wir einige Eigenschaften von Schätzern an, die wir zur Beurteilung ihrer Qualität heranziehen werden. Man wählt dann den Schätzer aus, der die besten“
”
Eigenschaften hat oder der die Eigenschaften hat, die in der jeweiligen praktischen Situation von Bedeutung sind. Zunächst ist festzustellen, dass ein Schätzer eine Zufallsvariable
ist, also eine Verteilung hat und insbesondere Momente, die wir gleich zur Beurteilung der
Güte des Schätzers heranziehen werden. Mit θ wollen wir den zu schätzenden Parameter
bezeichnen, mit θ̂ den Schätzer (oder die Schätzfunktion).
8.2.1 Erwartungstreue, Bias
Die Abbildungen 8.5 - 8.7 sollen jeweils zehn Realisationen von verschiedenen Schätzern
θ̂1 , θ̂2 und θ̂3 zeigen. Der Schätzer θ̂1 überschätzt in den meisten Fällen, θ̂2 unterschätzt den
zu schätzenden Parameter θ, während θ̂3 im Mittel θ weder überschätzt noch unterschätzt.
Solch ein Schätzer heißt erwartungstreu.
× × × ×× ×× ××
θ
×
Abbildung 8.5: Typische Realisationen des Schätzers θ̂1
××
××× ×× ××
×
θ
Abbildung 8.6: Typische Realisationen des Schätzers θ̂2
×× ××
× × ××
× ×
θ
Abbildung 8.7: Typische Realisationen des Schätzers θ̂3
Definition 8.3 Ein Schätzer θ̂ heißt erwartungstreu, wenn gilt
E θ̂ = θ .
8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN
151
Definition 8.4 Der Bias eines Schätzers θ̂ ist definiert als
Bias(θ̂) = E θ̂ − θ .
Offensichtlich ist ein Schätzer θ̂ genau dann erwartungstreu, wenn Bias(θ̂) = 0 gilt.
Beispiel 8.10 Die Beobachtungen
x1 , x 2 , . . . , x n
seien Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen. Als Sch¨atzer von µ
betrachten wir
n
1X
µ̂ =
Xi .
n i=1
Es ist
E µ̂ = E
n
n
1X
1X
Xi =
EXi = µ ,
n i=1
n i=1
d.h. µ̂ ist ein erwartungstreuer Sch¨atzer von µ.
Eine abgeschwächte Forderung an den Schätzer ist die asymptotische Erwartungstreue:
Definition 8.5 Ein Schätzer θ̂ heißt asymptotisch erwartungstreu, wenn gilt
lim E θ̂ = θ .
n→∞
Asymptotische Erwartungstreue ist gleichbedeutend damit, dass der Bias (auch Verzerrung
genannt), mit wachsendem Stichprobenumfang n → ∞ verschwindet.
Beispiel 8.11 Die Beobachtungen
x1 , x 2 , . . . , x n
seien wieder Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen. Wir betrachten
den Sch¨atzer der Varianz σ2 ,
n
1X
σ̂ 2 = S 2 =
(Xi − X̄)2 .
n i=1
Es ist bekannt, dass
nS 2
∼ χ2 (n − 1) .
σ2
Dann gilt nach Satz 3.13
ES 2 =
σ2
σ2
E(χ2 (n − 1)) =
(n − 1) .
n
n
152
KAPITEL 8. SCHÄTZUNG VON PARAMETERN
Somit ist S 2 kein erwartungstreuer Sch¨atzer von σ2 . Für den Bias gilt
Bias(S 2 ) =
σ2
(n − 1) − σ 2 = −σ 2 /n .
n
Würde man anstelle S2 den Sch¨atzer
S∗2
n
n
1 X
2
=
(Xi − X̄)2
S =
n−1
n − 1 i=1
verwenden, so h¨atte man wegen
ES∗2 =
n
ES 2 = σ 2
n−1
einen erwartungstreuen Sch¨atzer. Das ist der Grund, weshalb S∗2 h¨aufig als Sch¨atzer der Varianz 2σ
verwendet wird. Für den Bias von S2 gilt
−→ 0
Bias(S 2 ) = −σ 2 /n n→∞
Damit ist S 2 asymptotisch erwartungstreu.
Asymptotische Erwartungstreue ist eine Eigenschaft des Schätzers für große Stichprobenumfänge n. Ein asymptotisch erwartungstreuer Schätzer kann für kleine Stichprobenumfänge erhebliche Verzerrungen liefern. So gilt z.B. für n = 2 für den Schätzer S 2 : E(S 2 ) =
σ 2 /2, d.h. σ 2 wird im Durchschnitt erheblich unterschätzt.
8.2.2 Standardfehler
Definition 8.6 Der Fehler eines Schätzers θ̂ ist definiert als
θ̂ − θ .
Die Abbildungen 8.8 und 8.9 zeigen typische Realisationen von zwei jeweils erwartungstreuen Schätzern. Der Schätzer θ̂1 zeichnet sich durch eine kleinere Streuung aus und ist deshalb
vorzuziehen. Das entsprechende Maß für die Streuung eines Schätzers ist seine Standardabweichung, d.h. die Wurzel aus seiner Varianz.
Definition 8.7 Der Standardfehler eines Schätzers θ̂ ist seine Standardabweichung, d.h.
SF(θ̂) =
q
Var(θ̂) .
8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN
153
× ××××× ××
θ
Abbildung 8.8: Typische Realisationen des Schätzers θˆ1
×
× ×
×
×
θ
×
×
×
Abbildung 8.9: Typische Realisationen des Schätzers θˆ2
Beispiel 8.12 Wie in Beispiel 8.10 seien die Beobachtungen
x1 , x 2 , . . . , x n
Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen, und wir betrachten wieder
den Sch¨atzer
n
1X
µ̂ =
Xi .
n i=1
Es ist
Var(µ̂) = Var
und damit
n
1X
Xi
n i=1
!
= σ 2 /n
√
SF(µ̂) = σ/ n .
Beispiel 8.13 Wir beziehen uns auf Beispiel 8.11 und die dort betrachteten Sch¨atzer S2 und S∗2 .
Der Sch¨atzer S2 war nicht erwartungstreu, sondern nur asymptotisch erwartungstreu, w¨ahrend S∗2
erwartungstreu ist. Es ist die Frage offen, was für die Verwendung von S2 , also eines nicht erwartungstreuen Sch¨atzers spricht. Aus diesem Grunde untersuchen wir jetzt, wie sich beide Sch¨atzer
hinsichtlich ihres Standardfehlers verhalten. Es gilt
2
VarS = Var
σ2 2
χ (n − 1)
n
!
=
σ4
2(n − 1)
n2
und damit
SF (S 2 ) =
Für S∗2 gilt
VarS∗2
n
= Var
S2
n−1
und damit
SF (S∗2 ) = σ 2
s
σ2 q
2(n − 1) .
n
=
n2
σ4
2
VarS
=
2
·
(n − 1)2
n−1
2
n
=
SF (S 2 ) > SF (S 2 ) .
n−1
n−1
Die Erwartungstreue wird also mit einem größeren Standardfehler erkauft.
154
KAPITEL 8. SCHÄTZUNG VON PARAMETERN
8.2.3 Mittlerer quadratischer Fehler
Zur Beurteilung der Güte eines Schätzers muss man sowohl den Bias als auch den Standardfehler berücksichtigen. Wir definieren jetzt ein Maß, das beide Größen zusammenfasst.
Definition 8.8 Der mittlere quadratische Fehler eines Schätzers θ̂ ist definiert als
MQF(θ̂) = E(θ̂ − θ)2 .
Der mittlere quadratische Fehler misst also die zu erwartende quadratische Abweichung zwischen dem Schätzer und dem zu schätzenden Parameter.
Satz 8.2 Für den mittleren quadratischen Fehler eines Schätzers θ̂ gilt
MQF(θ̂) = Var(θ̂) + (Bias(θ̂))2 .
Beweis:
MQF(θ̂) =
=
=
=
=
E(θ̂ − θ)2 = E(θ̂ − E θ̂ + E θ̂ − θ)2
E((θ̂ − E θ̂) + (E θ̂ − θ))2
E((θ̂ − E θ̂)2 + 2(θ̂ − E θ̂)(E θ̂ − θ) + (E θ̂ − θ)2 )
E(θ̂ − E θ̂)2 + 2E(θ̂ − E θ̂)(E θ̂ − θ) + E(E θ̂ − θ)2
V ar(θ̂) + 2(E
θ̂ − E θ̂ )(E θ̂ − θ) + (E θ̂ − θ)2
| {z }
=0
= Var(θ̂) + (Bias(θ̂))2
|
{z
}
=(Bias(θ̂))2
♦
Die zu erwartende quadratische Abweichung ist somit die Summe aus der Varianz von θ̂ und
dem quadrierten Bias von θ̂.
Beispiel 8.14 Wie in den früheren Beispielen seien die Beobachtungen
x1 , x 2 , . . . , x n
Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen. Wir betrachten zun¨achst den
Sch¨atzer
n
1X
µ̂ =
Xi .
n i=1
8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN
155
Da µ̂ erwartungstreu ist, gilt
MQF(µ̂) = Var(µ̂) = σ 2 /n .
Für den Sch¨atzer S2 gilt
σ4
σ2
MQF(S ) = Var(S ) + (Bias(S )) = 2 2(n − 1) + −
n
n
2
2
2
2
!2
=
σ4
(2n − 1) .
n2
Der Sch¨atzer S∗2 ist erwartungstreu. Daher gilt
MQF(S∗2 ) = Var(S∗2 ) = σ 4
Es ist
MQF(S 2 ) = σ 4
2
1
−
n n2
< σ4
2
.
n−1
2
2
< σ4
= M QF (S∗2 ) .
n
n−1
Beurteilt man also einen Sch¨atzer nach dem mittleren quadratischen Fehler, so ist S2 gegenüber S∗2
vorzuziehen.
Satz 8.3 Für einen erwartungstreuen Schätzer θ̂ gilt
MQF(θ̂) = Var(θ̂) .
Beweis: Für einen erwartungstreuen Schätzer θ̂ gilt Bias(θ̂) = 0 und daher
MQF(θ̂) = Var(θ̂) + (Bias(θ̂))2 = Var(θ̂) .
♦
8.2.4 Konsistenz
Die Varianz eines Schätzers als alleiniges Kriterium ist also nur für erwartungstreue Schätzer
sinnvoll. Bei asymptotisch erwartungstreuen Schätzern geht mit wachsendem Stichprobenumfang der Bias gegen Null. Geht gleichzeitig auch die Varianz gegen Null, so konvergiert
auch der mittlere quadratische Fehler gegen Null. Man spricht dann von Konsistenz, genauer:
Konsistenz im quadratischen Mittel.
Definition 8.9 Ein Schätzer θ̂ heißt konsistent im quadratischen Mittel, wenn gilt
lim M QF (θ̂) = 0
n→∞
156
KAPITEL 8. SCHÄTZUNG VON PARAMETERN
Die Konsistenz ist eine asymptotische Eigenschaft, die nur für große Stichprobenumfänge
gilt. Eine konsistente Schätzfunktion kann für endliche Stichprobenumfänge eine große Varianz und eine erhebliche Verzerrung besitzen.
Die Konsistenz im quadratischen Mittel wird auch als starke Konsistenz bezeichnet. Eine
alternative Form der Konsistenz ist die schwache Konsistenz, bei der verlangt wird, dass die
Wahrscheinlichkeit, mit der die Schätzfunktion Werte in einem beliebig kleinen Intervall um
den wahren Parameter annimmt, mit wachsendem Stichprobenumfang gegen Eins konvergiert. Anschaulich bedeutet dies, dass der Schätzwert für große n in unmittelbarer Nähe des
wahren Parameters liegt.
Definition 8.10 Ein Schätzer θ̂ heißt schwach konsistent, wenn für beliebiges > 0 gilt
lim P (|θ̂ − θ| < ) = 1
n→∞
oder gleichbedeutend
lim P (|θ̂ − θ| ≥ ) = 0
n→∞
Aus der Konsistenz im quadratischen Mittel (oder der starken Konsistenz) folgt die schwache
Konsistenz.
Beispiel 8.15 Wie im vorigen Beispiel seien die Beobachtungen
x1 , x 2 , . . . , x n
Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen. Wir wissen, dass der Sch¨atzer
n
1X
µ̂ =
Xi
n i=1
erwartungstreu ist und den folgenden mittleren quadratischen Fehler besitzt:
MQF(µ̂) = Var(µ̂) = σ 2 /n
Der mittlere quadratische Fehler konvergiert offensichtlich gegen Null, d.h. der Sch¨atzer ist konsistent
im quadratischen Mittel. Die schwache Konsistenz folgt aus der starken. Man könnte sie auch so
beweisen:
P (|X̄ − µ| ≤ )
!
X̄ − µ = P √ ≤ √
σ/ n σ n
= Φ
√
√
n −Φ −
n
σ
σ
n→∞
−→ 1 − 0 = 1
Diese Wahrscheinlichkeit ist in Abbildung 8.10 grafisch dargestellt. Mit wachsendem Stichprobenumfang liegt die gesamte Verteilung innerhalb der senkrechten Striche bei µ − und µ + .
8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN
157
n3 = 20
n2 = 10
n1 = 2
µ−ε
µ
µ+ε
Abbildung 8.10: Wahrscheinlichkeiten P (|X̄ − µ| ≤ ) für = 3/4, σ = 1 bei Stichprobenumfängen n1 = 2, n2 = 10, n3 = 20
Ein erwartungstreuer Schätzer ist offensichtlich genau dann konsistent im quadratischen Mittel, wenn die Varianz gegen Null konvergiert. Dasselbe läßt sich auch für die schwache Konsistenz zeigen. Dazu brauchen wir die Tschebyscheffsche Ungleichung:
Satz 8.4 (Ungleichung von Tschebyscheff)
Sei X eine Zufallsvariable mit E(X) = µ und Var(X) = σ 2 . Dann gilt die folgende
Ungleichung für beliebiges c > 0:
σ2
P (|X − µ| ≥ c) ≤ 2
c
Diese Ungleichung besagt, dass bei festem c die Wahrscheinlichkeit, dass X um mindestens
c von µ abweicht desto geringer ist, je kleiner die Varianz ist.
Da P (|X − µ| < c) = 1 − P (|X − µ| ≥ c) folgt daraus sofort eine zweite Ungleichung:
P (|X − µ| < c) ≥ 1 −
σ2
c2
Die Tschebyscheffsche Ungleichung lässt sich so beweisen: Wir definieren eine diskrete
Zufallsvariable Y durch
Y =
(
0
c2
falls
falls
|X − µ| < c
|X − µ| ≥ c
Dann gilt: P (Y = 0) = P (|X − µ| < c) und P (Y = c2 ) = P (|X − µ| ≥ c). Also ist:
E(Y ) = c2 P (|X − µ| ≥ c)
Nach Definition von Y gilt immer Y ≤ |X − µ|2 und somit
E(Y ) ≤ E(X − µ)2 = Var(X) = σ 2
158
KAPITEL 8. SCHÄTZUNG VON PARAMETERN
Also haben wir
und damit P (|X − µ| ≥ c) ≤
σ2
.
c2
c2 P (|X − µ| ≥ c) ≤ σ 2
Für einen Schätzer θ̂ folgt aus der Tschebyscheffschen Ungleichung
P (|θ̂ − θ| ≥ ) ≤
Var(θ̂)
2
n→∞
Daraus folgt, dass jeder erwartungstreue Schätzer schwach konsistent ist, wenn Var( θ̂) −→
0.
Beispiel 8.16 Der Erwartungswert µ = E(X) einer Zufallsvariablen X mit Var(X) = σ 2 wird
durch das arithmetische Mittel X̄ gesch¨atzt. Da E(X̄) = E(X) ist X̄ ein erwartungstreuer Sch¨atzer.
2 n→∞
Für die Varianz vonX̄ gilt Var(X̄) = σn −→ 0. Demnach ist X̄ konsistent im quadratischen Mittel
und auch schwach konsistent.
8.2.5 Effizienz
Der mittlere quadratische Fehler (MQF) ist ein Maß für die Güte eines Schätzers, das sowohl
die Verzerrung als auch die Varianz des Schätzers berücksichtigt. Demnach ist von zwei
Schätzern θ̂1 und θ̂2 derjenige vorzuziehen, der den kleineren mittleren quadratischen Fehler
besitzt. Man sagt dann, dass θ̂1 MQF-wirksamer ist als θ̂2 , wenn
M QF (θ̂1 ) ≤ M QF (θ̂2 )
Hierbei muss man jedoch den Bereich der zugelassenen Verteilungen einschränken, z.B. auf
alle Poissonverteilungen, wenn es um die Schätzung des Parameters λ der Poissonverteilung geht oder auf alle Verteilungen mit endlicher Varianz, wenn es um die Schätzung des
Erwartungswertes geht.
Betrachtet man nur erwartungstreue Schätzer, d.h. Schätzer ohne Bias, so reduziert sich die
Betrachtung der Wirksamkeit auf den Vergleich der Varianzen:
Definition 8.11 Ein erwartungstreuer Schätzer θ̂1 heißt wirksamer oder effizienter als
der ebenfalls erwartungstreue Schätzer θ̂2 , wenn
Var(θ̂1 ) ≤ Var(θ̂2 )
für alle zugelassenen Verteilungen gilt.
Ein erwartungstreuer Schätzer θ̂ heißt wirksamst oder effizient, wenn seine Varianz für
alle zugelassenen Verteilungen den kleinsten möglichen Wert annimmt, d.h. wenn für alle
anderen erwartungstreuen Schätzer θ̂∗ gilt:
Var(θ̂) ≤ Var(θ̂∗ )
8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN
159
Es gibt eine untere Schranke für die Varianz einer erwartungstreuen Schätzfunktion, die sogenannte Cramér-Rao-Schranke, die wir jedoch im Rahmen dieser Vorlesung nicht angeben
können. Diese Schranke wird von wirksamsten Schätzern angenommen.
Effiziente Schätzfunktionen sind u.a.
• X̄ für den Erwartungswert, wenn alle Verteilungen mit endlicher Varianz zugelassen
sind,
• X̄ für den Erwartungswert, wenn alle Normalverteilungen zugelassen sind,
• X̄ für den Anteilswert π, wenn alle Bernoulli-Verteilungen zugelassen sind,
• X̄ für den Parameter λ, wenn alle Poisson-Verteilungen P o(λ) zugelassen sind,
• X̄ für g(λ) = 1/λ, wenn alle Exponentialverteilungen Exp(λ) zugelassen sind,
• die mittlere quadratische Abweichung bzgl. µ, d.h.
1
n
n
P
i=1
(Xi − µ)2 für die Varianz σ 2 ,
wenn alle Normalverteilungen mit Erwartungswert µ zugelassen sind,
• die Stichprobenvarianz S∗2 =
1
n−1
n
P
i=1
(Xi − X̄)2 für die Varianz σ 2 einer N (µ, σ 2 )-
verteilten Grundgesamtheit, wenn µ unbekannt ist.
Als Literatur zu diesem Kapitel sei Fahrmeir u.a. (1997), Bamberg und Baur (1996), Schlittgen (1996a, 1996b) genannt.
Kapitel 9
Mischverteilungen
Bei der Modellanpassung versucht man in der Regel ein einfaches Modell (beispielsweise
die Poissonverteilung) zur Beschreibung der Daten zu verwenden. Häufig zeigt sich jedoch,
dass ein vermutetes Modell dazu nicht in der Lage ist. Beispielsweise kann die grafische
Darstellung der Häufigkeiten einer Stichprobe multimodal sein, was nicht zur unimodalen
Gestalt der Poissonverteilung passt. Eine mögliche Erklärung für die Multimodalität ist, dass
die Population, aus der die Daten stammen, heterogen ist. Damit ist gemeint, dass die Population aus verschiedenen Gruppen (Subpopulationen) besteht, bei denen sich die Verteilung
des betrachteten Merkmals unterscheidet und so zu der Multimodaltät führt. Betrachtet man
beispielsweise die Anzahl von Zigarettenpackungen, die von einzelnen Kunden eines Supermarkts gekauft werden, so wäre ein Histogramm der Daten wahrscheinlich nicht unimodal
und somit das zugehörige Modell keine Poissonverteilung. Es ist offensichtlich, dass die betrachtete Grundgesamtheit aus zwei Gruppen besteht, den Rauchern und den Nichtrauchern
und es ist auch offensichtlich, dass sich die Verteilung des Merkmals in den beiden Gruppen
unterscheidet. Es ist gut möglich, dass die (bedingte, d.h. gegeben Raucher bzw. Nichtraucher) Verteilung jeweils vom Typ Poisson ist, die unbedingte Verteilung des Merkmals ist
jedoch eine Mischverteilung.
Wir wollen in diesem Kapitel die grundlegenden Eigenschaften von Mischverteilungen besprechen, die Sie in der englischen Literatur unter den Begriffen ,,Mixture Models”, ,,Mixture Distributions” (siehe z.B. Kotz und Johnson (1985), Band 5, wo Sie viele interessante
Anwendungsbeispiele finden) oder ,,Compound Distributions” finden (siehe auch Everitt und
Hand (1981)). Als wesentliche Literaturquelle sei das Buch ,,Computer–Assisted Analysis of
Mixtures and Applications” (Böhning D., 1999) erwähnt. Die in diesem Buch beschriebene
Software C.A.MAN kann kostenlos von der Hompage des Autors (http://www.medizin.fuberlin.de/sozmed/bo1.html) heruntergeladen werden.
9.1 Diskrete Mischung diskreter Verteilungen
Definition 9.1 Seien P1 (x) und P2 (x) Wahrscheinlichkeitsfunktionen und sei 0 ≤ r ≤
1 . Dann heißt
P (x) = r · P1 (x) + (1 − r)P2 (x)
die Mischverteilung von P1 und P2 .
160
9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN
161
Abbildung 9.1 zeigt zwei diskrete Verteilungen P1 und P2 und dazu in der dritten Zeile die
Mischung
P = 0.3P1 + 0.7P2 .
P1
0.6
0.4
0.2
0.0
1
2
3
4
5
6
5
6
P2
0.6
0.4
0.2
0.0
1
2
3
4
0.3 P1 + 0.7 P2
0.6
0.4
0.2
0.0
1
2
3
4
5
6
Abbildung 9.1: Diskrete Mischung zweier Verteilungen, r = 0.3
Beispiel 9.1 Wir betrachten zwei Münzen, für die gelten möge
• P ({,,Kopf”}) = 0.1
für Münze 1.
• P ({,,Kopf”}) = 0.8
für Münze 2.
Man w¨ahlt zuf¨allig eine der Münzen und wirft sie viermal. Sei X die Anzahl der ,,Köpfe”. Die Münze
1 werde mit Wahrscheinlichkeit r ausgew¨ahlt, d.h.
P ({Münze 1 gew¨ahlt}) = r .
Dann gilt für die Wahrscheinlichkeitsfunktion von X
P ({X = x}) = P ({X = x, Münze 1 gew¨ahlt} ∪ {X = x, Münze 2 gew¨ahlt})
= P ({X = x}|{Münze 1})P ({Münze 1}) + P ({X = x}|{Münze 2})P ({Münze 2})
=
!
!
4
4
0.1x (1 − 0.1)4−x r +
0.8x (1 − 0.8)4−x (1 − r) .
x
x
Abbildung 9.2 zeigt die beiden Wahrscheinlichkeitsfunktionen zusammen mit ihrer Mischung
für r = 0.5.
162
KAPITEL 9. MISCHVERTEILUNGEN
P1
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
3
4
P2
0.8
0.6
0.4
0.2
0.0
0
1
2
0.5 P1 + 0.5 P2
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
Abbildung 9.2: Diskrete Mischung zweier Binomialverteilungen, r = 0.5
Satz 9.1 Die Mischung
P (x) = r · P1 (x) + (1 − r)P2 (x)
ist wieder eine Wahrscheinlichkeitsfunktion.
Beweis:
a) P (x) ≥ 0 für alle x, da P1 (x) ≥ 0, P2 (x) ≥ 0 für alle x, r ≥ 0 und 1 − r ≥ 0.
b) P (x) > 0 für höchstens abzählbar unendlich viele x, da P1 (x) > 0 und P2 (x) > 0 für
jeweils höchstens abzählbar unendliche viele x.
c)
X
x
P (x) =
X
x
= r
(rP1 (x) + (1 − r)P2 (x))
X
|
x
P1 (x) +(1 − r)
{z
1
}
= r + (1 − r) = 1 .
X
|
x
P2 (x)
{z
1
}
9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN
163
Beispiel 9.2 Die Verteilung des Geschlechts von Zwillingen ist eine Mischverteilung (siehe Blischke (1978)). Es gibt drei Klassen von Zwillingen:
WW
WM
MM .
Das führt zu einer Trinomialverteilung. Dabei steht W für weiblich und M für m¨annlich. Ferner gibt
es zweieiige und eineiige Zwillinge. Die Geschlechter zweieiiger Zwillinge sind unabh¨angig voneinander. Daher ist die Verteilung:
π2
2 · π · (1 − π)
(1 − π)2 .
Eineiige Zwillinge haben jedoch das gleiche Geschlecht. Daher ist die Verteilung des Geschlechts für
eineiige Zwillinge:
π 0 (1 − π) ,
wobei π die Wahrscheinlichkeit einer M¨adchengeburt ist. Das Geschlecht von Zwillingen ist eine
Mischung dieser beiden Verteilungen, wobei der Mischungsparameter r bzw. 1 − r durch den Anteil
der zweieiigen Zwillinge bzw. eineiigen Zwillinge bestimmt wird.
Definition 9.2 (Diskrete Mischung mit I Komponenten) Seien
P1 (x), P2 (x), . . . , PI (x)
jeweils Wahrscheinlichkeitsfunktionen. Eine diskrete Mischung dieser Wahrscheinlichkeitsfunktionen ist dann definiert durch
P (x) = r1 P1 (x) + r2 P2 (x) + · · · + rI PI (x)
I
X
=
ri Pi (x) ,
i=1
wobei 0 ≤ ri ≤ 1 für alle i und
I
P
i=1
ri = 1 .
Satz 9.2 Seien P1 (x), P2 (x), . . . , PI (x) jeweils Wahrscheinlichkeitsfunktionen und sei
P (x) die Mischverteilung bezüglich der Mischungsparameter r1 , r2 , . . . , rI . Das k-te
Moment der i-ten Verteilung sei mit µ0k (i) bezeichnet. Dann gilt für das k-te Moment
der Mischverteilung
µ0k = r1 µ0k (1) + r2 µ0k (2) + · · · + rI µ0k (I)
=
I
X
ri µ0k (i) .
i=1
Insbesondere gilt für den Erwartungswert bezüglich einer Mischverteilung
E(X) = r1 µ(1) + r2 µ(2) + · · · rI µ(I) ,
164
KAPITEL 9. MISCHVERTEILUNGEN
wobei µ(i) der Erwartungswert bezüglich der i-ten Komponente ist. Auch für die Varianzen
kann man ein ähnliches Resultat herleiten, das jedoch komplizierter wird. Wir formulieren
es nur für die Mischung mit zwei Komponenten.
Satz 9.3 Seien P1 und P2 zwei Wahrscheinlichkeitsfunktionen mit Erwartungswerten
µ(1) und µ(2) und Varianzen σ 2 (1) und σ 2 (2). Dann gilt für die Varianz σ 2 der Mischverteilung mit den Mischungsparametern r1 und r2
σ 2 = r1 σ 2 (1) + r2 σ 2 (2) + r1 r2 (µ(1) − µ(2))2 .
Beweis:
Wenn man im folgenden beachtet, dass µ02 = EX 2 = Var(X) + (E(X))2 = σ 2 + (µ01 )2 und
r2 = 1 − r1 gilt, so folgt:
σ2 =
=
=
=
=
=
µ02 − (µ01 )2 = r1 µ02 (1) + r2 µ02 (2) − (µ01 )2
r1 (σ 2 (1) + µ(1)2 ) + r2 (σ 2 (2) + µ(2)2 ) − (r1 µ(1) + r2 µ(2))2
r1 σ 2 (1) + r2 σ 2 (2) + r1 µ(1)2 + r2 µ(2)2 − r12 µ(1)2 − 2r1 r2 µ(1)µ(2) − r22 µ(2)2
r1 σ 2 (1) + r2 σ 2 (2) + r1 (1 − r1 )µ(1)2 + r2 (1 − r2 )µ(2)2 − 2r1 r2 µ(1)µ(2)
r1 σ 2 (1) + r2 σ 2 (2) + r1 r2 (µ(1)2 − 2µ(1)µ(2) + µ(2)2 )
r1 σ 2 (1) + r2 σ 2 (2) + r1 r2 (µ(1) − µ(2))2
Beispiel 9.3 Das folgende Beispiel ist von Böhning, D. (1999, S. 3–5) übernommen. Untersucht
wird die Einführung eines neuen Süßwarenprodukts. Im Rahmen der Markteinführung wird die Anzahl verkaufter Packungen (im folgenden mit X bezeichnet) in verschiedenen Gesch¨aften erhoben.
Die nachfolgende Tabelle zeigt die Ergebnisse der Datenerhebung.
Anzahl verkaufter Packungen
Häufigkeit
0
1 2
102 54 49
Anzahl verkaufter Packungen
Häufigkeit
10
10
3 4 5 6
62 44 25 26
11 12 13 14 15 16
10 10 3 3 5 5
7 8 9
15 15 10
17 18 19 20
4 1 2 1
Typischerweise verwendet man zur Beschreibung von Z¨ahldaten unter homogenen Bedingungen in
der Population die Poissonverteilung, d.h. P (x) = e −λ λx /x!. Abbildung 9.3 zeigt jedoch eine bimodale Verteilung der Daten. Mit anderen Worten ist die Population heterogen, sie besteht aus unterschiedlichen Subpopulationen.
Sch¨atzt man die Anzahl der Komponenten, die Parameter der einzelnen Poissonverteilungen sowie die
Mischungsparameter mit Hilfe des Programms C.A.MAN (zur Parametersch¨atzung siehe Abschnitt
9.4.3), erh¨alt man fünf Komponenten:
r1 = 0.01
λ1 = 0.00
r2 = 0.24
λ2 = 0.21
r3 = 0.50
λ3 = 3.00
r4 = 0.15
λ4 = 7.39
r5 = 0.10
λ5 = 12.86
165
60
40
0
20
Häufigkeit
80
100
9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN
0
1
2
3
4
5
6
7
8
9 10
12
14
16
18
20
Anzahl verkaufter Packungen
Abbildung 9.3: Verteilung der verkauften Packungen
0.20
Abbildung 9.4 zeigt die relativen H¨aufigkeiten der empirischen Daten gemeinsam mit einer angepassten Poissonverteilung sowie der angepassten Mischverteilung. Wie zu erkennen ist, liefert die
Mischverteilung eine wesentlich bessere Beschreibung der Daten.
0.00
0.05
0.10
0.15
Daten
Mischung von Poissonverteilungen
Poissonverteilung
0
1
2
3
4
5
6
7
8
9 10
12
14
16
18
20
Anzahl verkaufter Packungen
Abbildung 9.4: Verteilung der verkauften Packungen
Man kann die Ergebnisse der Analyse auch anders interpretieren: Es gibt ein weiteres Merkmal, das
die Gesch¨afte beschreibt, die ,,Verkaufsf¨ahigkeit”. Man kann diese als kategoriales Merkmal interpretieren, das die F¨ahigkeit der Gesch¨afte beschreibt, das neue Produkt zu verkaufen. H¨atte man vor
der Untersuchung gewusst, wie die einzelnen Gesch¨afte hinsichtlich dieses Merkmals zu beurteilen
w¨aren, h¨atte man für die einzelnen Kategorien jeweils Poissonverteilungen anpassen können. Somit
kann man sagen, dass die Vernachl¨assigung einer erkl¨arenden Variable zu einer Mischung von Poissonverteilungen führt.
166
KAPITEL 9. MISCHVERTEILUNGEN
9.2 Diskrete Mischung stetiger Verteilungen
Definition 9.3 Seien f1 (x) und f2 (x) zwei Dichtefunktionen und sei 0 ≤ r ≤ 1. Dann
heißt
f (x) = rf1 (x) + (1 − r)f2 (x)
die Dichtefunktion der Mischverteilung.
Satz 9.4 Die Mischung
f (x) = rf1 (x) + (1 − r)f2 (x)
ist wieder eine Dichtefunktion.
Beweis:
Da f1 und f2 Dichtefunktionen sind, gilt
a) f (x) = rf1 (x) + (1 − r)f2 (x) ≥ 0 für alle x, da f1 (x) ≥ 0, f2 (x) ≥ 0 für alle x und
r ≥ 0.
b)
∞
R
−∞
f (x)dx = r
Z∞
−∞
|
f1 (x)dx +(1 − r)
{z
=1
}
Z∞
−∞
|
f2 (x)dx = r + (1 − r) = 1.
{z
=1
}
c) Da f1 (x) und f2 (x) bis auf endlich viele Stellen stetig sind, ist f (x) auch stetig bis auf
endlich viele Stellen.
♦
Mischverteilungen kommen oft vor, wenn man ein unbeobachtetes Merkmal hat. Stellen Sie
sich vor, Sie haben eine zufällige Stichprobe aus der Grundgesamtheit aller Göttinger Studenten genommen und deren Körpergöße gemessen. Wie wird ein vernünftiges Modell für
die Körpergröße der Göttinger Studenten aussehen? Zunächst gibt es unter den Studierenden in Göttingen Frauen und Männer. Es ist allgemein bekannt, dass die Körpergröße der
Frauen im Durchschnitt kleiner ist als die Körpergröße der Männer. Weiterhin ist es vernünftig anzunehmen, dass die Körpergröße von Frauen und von Männern, jeweils für sich allein
genommen, normalverteilt ist. Dies führt zu dem folgenden Modell
2
f (x) = rf1 (x; µF , σF2 ) + (1 − r)f2 (x; µM , σM
),
wobei r der Anteil der Frauen in der Grundgesamtheit der Studierenden in Göttingen ist
und f1 bzw. f2 Dichten der Normalverteilung mit den Parametern µF und σF2 bzw. µM und
2
σM
für Frauen bzw. Männer sind. (Dieses Beispiel wurde nach einem Beispiel von Everitt
in Johnson und Kotz (1985) abgeändert.) In diesem Beispiel hätte man das Geschlecht der
9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN
167
f1
0.4
0.3
0.2
0.1
0.0
0
5
10
f2
0.4
0.3
0.2
0.1
0.0
0
5
10
0.4 f1 + 0.6 f2
0.4
0.3
0.2
0.1
0.0
0
5
10
Abbildung 9.5: Diskrete Mischung zweier stetiger Verteilungen, r = 0.4
Studierenden erfassen können und die beiden Normalverteilungen separat anpassen können.
Es gibt jedoch Situationen, in denen es nicht möglich ist, das Geschlecht festzustellen, z.B.
bei wild lebenden Tieren. Ein anderes bei wild lebenden Tieren nicht beobachtbares Merkmal
ist das Alter, das Einfluss hat auf die Größe der Tiere oder z.B. die Länge von Fischen.
Ein anderer Bereich, in dem Mischverteilungen angewendet werden, ist die Analyse von
Ausfallzeiten, z.B. von elektronischen Bauteilen. Hier gibt es Ausfälle aufgrund verschiedener Ursachen, z.B. plötzliche Ausfälle (meist in einem frühen Stadium) oder natürliche
Ausfälle (Altersausfälle). Die resultierende Verteilung wird eine Mischverteilung sein. Als
mögliches Modell wurde hier die diskrete Mischung von zwei Exponentialverteilungen betrachtet.
Beispiel 9.4 Die Zufallsvariable X messe eine L¨ange bei Tieren. Die Zufallsvariable Y sei das
Geschlecht, das nicht beobachtet werden kann. Sei
f1 (x) die Dichtefunktion der L¨ange für m¨annliche Tiere,
f2 (x) die Dichtefunktion der L¨ange für weibliche Tiere,
r = P ({M¨annliches Tier}),
1 − r = P ({Weibliches Tier}).
Dann ist die Dichtefunktion der Mischverteilung
f (x) = P ({M¨annliches Tier})f1 (x) + P ({Weibliches Tier})f2 (x)
= rf1 (x) + (1 − r)f2 (x) .
168
KAPITEL 9. MISCHVERTEILUNGEN
Nur weibliche Tiere
0.15
0.10
0.05
0.0
100
105
110
115
120
Nur maennliche Tiere
0.15
0.10
0.05
0.0
100
105
110
115
120
115
120
Alle
0.15
0.10
0.05
0.0
100
105
110
Abbildung 9.6: Histogramme der Kieferlängen
Abbildung 9.6 zeigt unten ein Histogramm mit 20 Beobachtungen der Kieferl¨angen pr¨ahistorischer
Schakale. In diesem Fall weiß man, dass 10 der Schakale m¨annlich und 10 weiblich waren. Die
jeweiligen Histogramme sind ebenfalls in Abbildung 9.6 dargestellt.
An beide Stichproben wurden separat zwei Normalverteilungen angepasst. Abbildung 9.7 zeigt die
angepassten Verteilungen und die Mischung dieser beiden Verteilungen. In diesem Fall ist r = 1/2.
Definition 9.4 Eine diskrete Mischung mit I stetigen Komponenten hat die Dichtefunktion
f (x) =
I
X
ri fi (x) ,
i=1
wobei f1 (x), f2 (x), · · · , fI (x) Dichtefunktionen sind und
r1 + r 2 + · · · + r I = 1
(0 ≤ ri ≤ 1).
Für die Momente µ0k einer diskreten Mischung stetiger Verteilungen gilt Satz 9.2 entsprechend.
Beispiel 9.5 Abbildung 9.8 zeigt ein Histogramm des Benzinverbrauchs. Es handelt sich um einen
bei S-PLUS mitgelieferten Datensatz. Bei jeder neuen Tankfüllung, beginnend mit dem Neukauf des
9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN
169
Nur weibliche Tiere
0.10
0.05
0.0
90
100
110
120
130
Nur maennliche Tiere
0.10
0.05
0.0
90
100
110
120
130
120
130
Alle
0.10
0.05
0.0
90
100
110
Abbildung 9.7: Angepasste Dichtefunktionen und Mischung dieser Verteilungen
Wagens wurden die gefahrenen Meilen und die verbrauchten Gallonen notiert. Anders als in Deutschland wird in den USA der Benzinverbrauch in Meilen pro Gallone gemessen. Der Benzinverbrauch
gibt also an, wieviel Meilen mit einer Gallone gefahren wurden.
0.4
0.3
0.2
0.1
0.0
10
12
14
16
18
20
22
24
Benzinverbrauch (Meilen/Gallone)
Abbildung 9.8: Histogramm des Benzinverbrauchs
Die R-Befehle sind:
Verbrauch<-car.miles/car.gals # Berechnet Verbrauch
hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)")
Abbildung 9.9 zeigt eine mit nichtparametrischen Methoden gesch¨atzte Dichtefunktion. Man kann
diese Dichtefunktion als eine Gl¨attung des Histogramms auffassen. Die R-Befehle sind:
170
KAPITEL 9. MISCHVERTEILUNGEN
0.4
Dichte
0.3
0.2
0.1
0.0
10
12
14
16
18
20
22
24
Benzinverbrauch (Meilen/Gallone)
Abbildung 9.9: Geschätzte Dichtefunktionen des Benzinverbrauchs
Verbrauch<-car.miles/car.gals # Berechnet Verbrauch
plot(density(Verbrauch, width=2.5), xlab="Benzinverbrauch (Meilen/Gallone)",
ylab="Dichte ") # density schätzt Dichte
Diese Darstellung legt die Vermutung nahe, dass es sich hier um eine Mischung von zwei Verteilungen handelt, vermutlich zwei Normalverteilungen. Links die Füllungen mit großem Verbrauch, die
vermutlich auf Fahrten im Stadtverkehr zurückzuführen sind, rechts die Füllungen mit geringem Verbrauch, vermutlich Fahrten auf Autobahnen. Abbildung 9.10 zeigt das Histogramm zusammen mit
der gesch¨atzten Dichtefunktion.
0.4
0.3
0.2
0.1
0.0
10
12
14
16
18
20
22
24
Benzinverbrauch (Meilen/Gallone)
Abbildung 9.10: Histogramm und geschätzte Dichtefunktion
Die R-Befehle sind:
Verbrauch<-car.miles/car.gals # Berechnet Verbrauch
hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)")
lines(density(Verbrauch, width=2))
Beispiel 9.6 Abbildung 9.11 zeigt mögliche Dichtefunktionen für Mietpreise für 1−, 2−, 3− und
4-Zimmerwohnungen und die daraus resultierende Mischverteilung. Dabei wurde
r1 = r2 = r3 = r4 = 1/4
angenommen. Es sei angemerkt, dass es sich um rein fiktive Dichtefunktionen handelt.
9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN
171
Dichte * 1000
4
1-Zimmer
2-Zimmer
3-Zimmer
4-Zimmer
3
2
1
Mischung
0
0
500
1000
1500
2000
Mieten
Abbildung 9.11: Mögliche Dichtefunktionen für Mietpreise
Die folgenden Ausführungen beziehen sich auf die Mischung von zwei Normalverteilungen.
Es geht unter anderem um die Gestalt der Mischverteilung, inbesondere ob diese bimodal
oder unimodal ist.
0.4
f(x)
0.3
0.2
0.1
0.0
-4
-2
0
2
4
6
x
Abbildung 9.12: Mischung zweier Normalverteilungen mit r = 0.3, µ 1 = 0, σ12 = 1, µ2 = 1.5
und σ22 = 1
Die Dichtefunktion der Mischung zweier Normalverteilungen ist:
1
f (x) = √
2π
r1 −(x−µ1 )2 /2σ12 r2 −(x−µ2 )2 /2σ22
e
+ e
σ1
σ2
−∞<x<∞.
Dabei ist 0 < r1 , r2 < 1 und r1 + r2 = 1, und µ1 , µ2 und σ12 , σ22 sind die Erwartungswerte
bzw. Varianzen der einzelnen Komponenten.
Die Abbildungen 9.12 und 9.13 zeigen Mischungen von zwei Normalverteilungen. Die Dichtefunktion in Abbildung 9.12 ist unimodal (d.h. hat nur ein Maximum), während die Dichtefunktion in Abbildung 9.13 bimodal ist. Bei Everitt und Hand (1981) finden Sie verschiedene
hinreichende Kriterien für die Unimodalität der Mischung zweier Normalverteilungen. Dort
wird auch die Schätzung der Parameter nach der Methode der Momente und auch nach der
Maximum-Likelihood-Methode beschrieben.
172
KAPITEL 9. MISCHVERTEILUNGEN
0.6
f(x)
0.4
0.2
0.0
-4
-2
0
2
4
6
x
Abbildung 9.13: Mischung zweier Normalverteilungen mit r = 0.4, µ 1 = 0, σ12 = 1, µ2 = 2
und σ22 = 0.25
Beispiel 9.7 Abbildung 9.14 zeigt die t¨aglichen Werte des New York Stock Exchange, ein Aktienindex.
5
1990
1991
1992
1993
1994 1995 1996
Index/100
4
3
2
1
0
500
1000
1500
2000
Handelstag
Abbildung 9.14: New York Stock Exchange Composite Index vom 02.01.1990 - 29.11.1996
Bezeichnen wir den Wert zum Zeitpunkt t mit p t , so ist die t¨agliche prozentuale Rendite gegeben
durch
pt − pt−1
rt =
· 100 .
pt−1
Diese Werte sind in Abbildung 9.15 dargestellt. Man erkennt in dieser Abbildung ruhige Phasen mit
kleinen t¨aglichen Schwankungen und unruhige Phasen mit großen Schwankungen.
Abbildung 9.16 zeigt ein Histogramm der prozentualen Renditen mit einer angepassten Normalverteilung. Die Anpassung ist schlecht. Die Dichtefunktion ist zu breit und im Zentrum zu niedrig. In
Abbildung 9.17 wurde daher eine Mischung von zwei Normalverteilungen angepasst. Diese Anpassung ist wesentlich besser.
9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN
1990
Prozentuale Rendite
4
1991
1992
1993
173
1994 1995 1996
2
0
-2
-4
0
500
1000
1500
2000
Handelstag
Abbildung 9.15: Prozentuale Rendite des New York Stock Exchange Composite Index vom
02.01.1990 - 29.11.1996
1.0
0.8
0.6
0.4
0.2
0.0
-4
-3
-2
-1
0
1
2
3
4
Rendite
Abbildung 9.16: Histogramm der Renditen und angepasste Normalverteilung
Abbildung 9.18 zeigt die beiden Komponenten. Die Kurve (A) ist schmal und hoch, hat also eine kleine Varianz, sie entspricht den t¨aglichen Renditen in den ruhigen Phasen. Die Kurve (B) ist flacher und
breiter, hat also eine größere Varianz. Sie entspricht den unruhigen Phasen. Die beiden Verteilungen
wurden im Verh¨altnis 3:1 gemischt.
9.3 Stetige Mischungen diskreter Verteilungen
9.3.1 Die Beta-Binomialverteilung
Bei Fisher (Statistical Methods for Research Workers, 1925) findet man das folgende Beispiel:
174
KAPITEL 9. MISCHVERTEILUNGEN
1.0
0.8
0.6
0.4
0.2
0.0
-4
-3
-2
-1
0
1
2
3
4
Rendite
Abbildung 9.17: Histogramm der Renditen mit angepasster Mischverteilung
1.0
(A) N(0.08;0.16)
0.8
0.6
Mischverteilung
0.75 (A) + 0.25 (B)
0.4
(B) N(-0.03;1.21)
0.2
0.0
-4
-2
0
2
4
Rendite
Abbildung 9.18: Die angepasste Mischverteilung und ihre Komponenten
Beispiel 9.8 Es wird die Anzahl der Jungen in 53 680 deutschen Familien mit 8 Kindern betrachtet.
Die Anzahl der Jungen insgesamt ist 221 023. Damit ist der Anteil der Jungen
π̂ = 221 023/(53 680 · 8) ≈ 0.5147 .
Wenn die Ereignisse ‘Jungen-’ und ‘M¨adchengeburt’ unabh¨angig sind, dann sollte die Anzahl der
Jungen in einer Familie mit 8 Kindern binomialverteilt sein mit den Parametern n = 8 und π =
0.5147.
In der Tabelle wird die χ2 -Prüfgröße berechnet. Das Ergebnis zeigt, dass die Anzahl der Jungen nicht
binomialverteilt ist. Der kritische Wert der χ 2 -Prüfgröße bei 7 Freiheitsgraden für das Signifikanzniveau α = 0.01 = 10−2 ist 18.475, also kleiner als der Wert der Prüfgröße 91.873. Auch der kritische
Wert für α = 10−15 , n¨amlich 85.338 ist noch kleiner als 91.873.
Abbildung 9.19 zeigt die Wahrscheinlichkeitsfunktion der Binomialverteilung und die tats¨achlich
beobachteten Anteile. Die Vermutung liegt nahe, dass die Wahrscheinlichkeit für eine Jungengeburt
von Familie zu Familie verschieden ist und um einen Mittelwert von 0.5147 variiert.
Wir betrachten daher das folgende Modell:
• Sei Xi die Anzahl der Jungen in Familie i (mit n Kindern), i = 1, 2, . . . , I .
9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN
175
Erwartet Abweichung Beitrag zu χ 2
165.22
+49.78
15.000
1 401.69
+83.31
4.952
5 202.65
+128.35
3.167
11 034.65
-385.65
13.478
14 627.60
+331.40
7.508
12 409.87
-480.87
18.633
6 580.24
+97.76
1.452
1 993.78
+98.22
4.839
264.30
+77.70
22.845
53 680.00
91.873
Anzahl Jungen Anzahl Familien
0
215
1
1 485
2
5 331
3
10 649
4
14 959
5
11 929
6
6 678
7
2 092
8
342
Summe:
53 680
• Die Zufallsvariable Xi ist binomialverteilt mit den Parametern n und π i , d.h.
Xi ∼ b(n; πi )
i = 1, 2, . . . , I .
• Der Parameter πi ist die Realisation einer Zufallsvariablen π .
• Die Zufallsvariable π ist betaverteilt, d.h.
0.25
π ∼ Be(α; β) .
0.00
0.05
0.10
0.15
0.20
Beobachtet
Binomial
0
1
2
3
4
5
6
7
8
Abbildung 9.19: Beobachtete Anteile und angepasste Binomialverteilung
Die obigen Annahmen besagen, dass die bedingte Verteilung von X , gegeben π , eine Binomialverteilung mit den Parametern n und π ist, d.h.
P ({X = x}|π) =
!
n x
π (1 − π)n−x
x
x = 0, 1, 2, . . . , n .
Die Randverteilung von π ist eine Betaverteilung, d.h.
f (π) =
1
π α−1 (1 − π)β−1
B(α, β)
0≤π≤1
Die Randverteilung von X erh¨alt man auf die folgende Weise
(α > 0, β > 0) .
176
KAPITEL 9. MISCHVERTEILUNGEN
P ({X = x}) =
Z1
=
Z1
P ({X = x}|π)f (π)dπ
0
!
n x
π α−1 (1 − π)β−1
π (1 − π)n−x
dπ
x
B(α, β)
0
!
n
1
x B(α, β)
=
Z1
0
π x+α−1 (1 − π)n−x+β−1 dπ
!
n B(x + α, n + β − x)
x
B(α, β)
=
x = 0, 1, . . . , n .
Die Verteilung von X heißt Beta-Binomialverteilung.
0.25
Abbildung 9.20 zeigt die beobachteten Anteile und die angepasste Beta-Binomialverteilung.
0.00
0.05
0.10
0.15
0.20
Beobachtet
Beta−Binomial
0
1
2
3
4
5
6
7
8
Abbildung 9.20: Beobachtete Anteile und angepasste Beta-Binomialverteilung
Anzahl Jungen Anzahl Familien
0
215
1
1 485
2
5 331
3
10 649
14 959
4
5
11 929
6
6 678
7
2 092
8
342
Summe:
53 680
Erwartet Abweichung Beitrag zu χ 2
190.62
+24.38
3.118
1 508.44
-23.44
0.364
5 324.13
+6.87
0.009
10 947.79
-298.79
8.155
14 344.28
+614.72
26.344
12 263.39
-334.39
9.118
6 680.77
-2.77
0.001
2 120.39
-28.39
0.380
300.19
+41.81
5.823
53 680.00
53.312
Die Anpassung ist nur geringfügig besser geworden. Ein Blick auf die Tabelle mit den beobachteten
und erwarteten H¨aufigkeiten zeigt, dass die Anpassung in der Mitte (x = 3, 4, 5) sogar schlechter geworden ist, w¨ahrend sie im übrigen Bereich besser geworden ist. Der χ2 -Wert ist von 91.873 gefallen
auf 53.312 gefallen. Dieser Wert ist immer noch so groß, dass die Hypothese, dass die Daten einer
9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN
177
Betabinomialverteilung genügen, abzulehnen ist. Der kritische Wert der χ2 -Verteilung bei 6 Freiheitsgraden für α = 0.01 ist 10.645. Die Parameter α und beta der Betabinomialverteilung wurden
nach der Maximum-Likelihood-Methode gesch¨atzt zu α̂ = 102.935 und β̂ = 97.064. Es w¨are also
eine weitere Analyse dieser Daten nötig.
Definition 9.5 Die Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung ist definiert durch
P ({X = x}) =
( n B(x+α,n+β−x)
x
B(α,β)
0
x = 0, 1, . . . , n
sonst .
Die Beta-Binomialverteilung hat drei Parameter, für die gelten muss
n ∈ IN,
α > 0,
und β > 0 .
Nach dem vorangehenden Beispiel kann die Beta-Binomialverteilung als stetige Mischung
der Binomialverteilung aufgefasst werden, wenn der Parameter π eine Betaverteilung besitzt.
Für die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion der Beta-Binomialverteilung
kann man auf die folgende Weise R-Funktionen schreiben.
dbbinom<-function(x, n, a, b)
{
# Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung
# Parameter n, a, b; x Vektor
# Verwendete Funktion beta siehe Seite 53
f1<-gamma(n+1)/(gamma(x+1)*gamma(n-x+1)) # Binomialkoeffizient
f2<-beta(x+a,n+b-x) # Betafunktion im Zähler
f3<-beta(a,b) # Betafunktion im Nenner
f1*f2/f3
}
pbbinom<-function(x, n, a, b)
{
# Verteilungsfunktion der Beta-Binomialverteilung
# Parameter n, a, b; x Zahl
sum(dbbinom(0:x, n, a, b)
}
9.3.2 Die negative Binomialverteilung
Die negative Binomialverteilung kann als stetige Mischung der Poissonverteilung aufgefasst
werden, wenn man annimmt, dass der Parameter µ der Poissonverteilung eine Zufallsvariable mit einer Gammaverteilung ist. (Entgegen der sonst verwendeten Notation bezeichnen
wir den Parameter der Poissonverteilung hier mit µ, da λ auch in der Gammaverteilung auftaucht.) Wir nehmen also an:
178
KAPITEL 9. MISCHVERTEILUNGEN
• Die bedingte Verteilung von X, gegeben µ, ist eine Poissonverteilung mit dem Parameter µ.
• Die Zufallsvariable µ besitzt eine Gammaverteilung mit den Parametern ν und λ.
Die obigen Annahmen besagen, dass die bedingte Verteilung von X, gegeben µ, eine Poissonverteilung mit dem Parameter µ ist, d.h.
P ({X = x}|µ) =
µx −µ
e
x!
x = 0, 1, 2, . . . .
Die Randverteilung von µ ist eine Gammaverteilung, d.h.
f (µ) =
(
λν µν−1 e−λµ
Γ(ν)
µ≥0
sonst .
0
Die Randverteilung von X erhält man auf die folgende Weise
P ({X = x}) =
Z∞
P ({X = x}|µ)f (µ)dµ =
0
0
ν
=
Z∞
λ
x!Γ(ν)
Z∞
µx −µ λν µν−1 e−λµ
e
dµ
x!
Γ(ν)
µx+ν−1 e−µ(1+λ) dµ
0
Wir verwenden die Substitution
z = µ(1 + λ) .
Dann ist
dz
=1+λ
dµ
oder
z
1+λ
Die Grenzen ändern sich wie folgt:
µ=
dµ =
und
dz
.
(1 + λ)
• Wenn µ = 0, ist z = 0.
• Wenn µ → ∞, dann auch z → ∞.
Damit erhalten wir
λν
P ({X = x}) =
x!Γ(ν)
Z∞
0
z x+ν−1
dz
e−z
x+ν−1
(1 + λ)
(1 + λ)
λν
=
x!Γ(ν)(1 + λ)x+ν
Z∞
z x+ν−1 e−z dz
0
λν
(x + ν − 1)!
λν
=
Γ(x
+
ν)
=
x!Γ(ν)(1 + λ)x+ν
x!(ν − 1)! (1 + λ)x+ν
!
!ν x
x+ν−1
λ
1
=
ν−1
1+λ
1+λ
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
179
Im vorletzten Schritt wurde
Γ(ν) = (ν − 1)!
und
Γ(x + ν) = (x + ν − 1)!
verwendet (siehe Satz 3.9) und schließlich
!
x+ν −1
(x + ν − 1)!
=
.
ν−1
x!(ν − 1)!
Wir haben also die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung mit den
Parametern r = ν und π = λ/(1 + λ) erhalten.
Die negative Binomialverteilung mit den Parametern r und π hatte die Wahrscheinlichkeitsfunktion
!
x+r−1 r
P (x) =
π (1 − π)x ,
x = 0, 1, 2, . . . .
r−1
In Analogie zum Namen Beta-Binomialverteilung findet man für die negative Binomialverteilung auch den Namen Gamma-Poissonverteilung.
Die negative Bimomialverteilung hat gegenüber der Beta-Binomialverteilung den Vorteil,
dass sie nur zwei statt drei Parameter hat.
9.4 ML–Sch¨
atzung bei Mischverteilungen
9.4.1 Einführung
Bei den nachfolgenden Erläuterungen zur Parameterschätzung werden zwei Fälle unterschieden. Zum einen wird der Fall betrachtet, in dem die Anzahl der Mischungskomponenten
bekannt ist und zum anderen der Fall, in dem die Anzahl der Subpopulationen unbekannt
ist. Die Fälle unterscheiden sich nur unwesentlich, wenn man die Likelihoodfunktionen betrachtet. Inhaltlich sind die Fälle aber unterschiedlich zu interpretieren. Im ersten Fall hat
man eine klare Vorstellung aus welchen unterschiedlichen Gruppen die Population besteht.
Im zweiten Fall hingegen ist die Anzahl der Subpopulationen ein Ergebnis der Datenanalyse.
Erst nach der Parameterschätzung erhält man Informationen darüber, aus welchen Gruppen
sich die Population zusammensetzen könnte.
Alle folgenden Ausführungen beziehen sich auf diskrete Mischungen.
9.4.2 Die Likelihoodfunktion für Mischverteilungen
Zunächst wird der Fall betrachtet, bei der die Anzahl der Mischungskomponenten als gegeP
ben betrachtet wird. Sei P (x; θ) = Ii=1 ri Pi (x; θi ) die Wahrscheinlichkeitsfunktion einer
diskreten Mischung von einparametrigen diskreten Zufallsvariablen mit den Parametern θ i
und seien x = (x1 , x2 , . . . , xn ) die Beobachtungen, an die die Mischverteilung angepasst
werden soll. Dann gilt:
180
KAPITEL 9. MISCHVERTEILUNGEN
Satz 9.5
L(θ1 , . . . , θI , r1 , . . . , rI ; x) =
n X
I
Y
ri Pi (xj ; θi )
j=1 i=1
ist die Likelihoodfunktion der Mischverteilung.
Um die die Likelihoodfunktion über die Parameter der einzelnen Mischungskomponenten
θi , i = 1, . . . , I, sowie über die Mischungsparameter ri , i = 1, . . . , I, zu maximieren. Insgesamt sind also 2I − 1 Parameter zu schätzenSchätzer zu erhalten, ist . (Der letzte Mischungsparameter ergibt sich aus den übrigen, da die Summe eins betragen muss.) Leider ist es
nicht möglich, das Problem analytisch zu lösen, d.h. das gewohnte Vorgehen (Ableiten und
Nullsetzen) versagt. In diesem Fall muss die Maximierung numerisch mit entsprechender
Software durchgeführt werden (siehe übernächster Abschnitt).
Die vorgestellte Likelihoodfunktion gilt für diskrete Zufallsvariablen. Das analoge Ergebnis
für stetige Zufallsvariablen erhält man, wenn man in der Likelihoodfunktion die WahrscheinP
lichkeitsfunktionen durch Dichtefunktionen ersetzt: Ii=1 ri fi (xj , θi ).
Beispiel 9.9 Im folgenden Beispiel wird gezeigt, wie die Likelihoodfunktion aufzustellen ist, wenn
an gegebene Daten eine Mischverteilung angepasst werden soll und die Anzahl der Mischungskomponenten bekannt ist. An die folgenden zehn Beobachtungen soll eine aus zwei Exponentialverteilungen
bestehende Mischverteilung angepasst werden:
2.65
11.67
9.59
0.30
21.03
0.45
1.45
0.17
1.27
0.13
Die anzupassende Dichtefunktion lautet
f (x) = rλ1 e−λ1 x + (1 − r)λ2 e−λ2 x
und man erh¨alt für die gemeinsame Verteilung der Beobachtungen als Funktion der Parameter, also
für die Likelihoodfunktion:
L(λ1 , λ2 , r) =
10 Y
j=1
rλ1 e−λ1 xj + (1 − r)λ2 e−λ2 xj
Um die Parametersch¨atzer zu erhalten, ist die Funktion über λ
1 , λ2 und r zu maximieren. Das Maximierungsproblem ist analytisch nicht zu lösen. Die numerische Lösung erh¨alt man beispielsweise
mit dem Programm C.A.MAN. Die Sch¨atzwerte sind: r̂ = 0.56, λ̂1 = 1/0.71 und λ̂2 = 1/10.07.
Tats¨achlich sind die Daten aus einer Mischverteilung mit r = 0.5, λ1 = 1 und λ2 = 1/10 simuliert
worden.
Wenn die Anzahl der Mischungskomponenten unbekannt ist, erfolgt die Konstruktion der
Likelihoodfunktion analog zum oben dargestellten Vorgehen. Der Unterschied zwischen den
Fällen liegt darin, dass die Funktion über einen weiteren Parameter, nämlich I, zu maximieren ist. Man könnte zunächst vermuten, dass die Likelihoodfunktion ein Maximum annimmt,
wenn für jede (unterschiedliche) Beobachtung eine Mischungskomponente verwendet wird.
Dies ist jedoch nicht der Fall, was anhand des nachfolgenden Beispiels verdeutlicht wird.
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
181
Beispiel 9.10 Das folgende Beispiel ist so konstruiert, dass angedeutet wird, welche Anzahl von
Komponenten zu einer maximalen Likelihood führt. Betrachtet werden zwei Beobachtungen, x1 = 1
und x2 = 2, an die eine Mischverteilung angepasst werden soll, die aus Poissonverteilungen besteht.
Zun¨achst wird davon ausgegangen, dass ein Parameter λ ausreicht, um eine maximale Likelihood zu
erhalten. Dass dies tats¨achlich so ist, verdeutlicht Abbildung 9.21. Die Abbildung ist wie folgt zu
interpretieren. An den Achsen sind die Wahrscheinlichkeiten der Beobachtungen (P (x 1 = 1) und
P (x2 = 2)) zu sehen. Diese Wahrscheinlichkeiten nehmen je nach Parameter unterschiedliche Werte
an. Plottet man P (1; λ) gegen P (2; λ) für alle möglichen Werte von λ, d.h. λ ∈ [0, ∞], so erh¨alt man
die fett gezeichnete ”Blase”. Sie beschreibt alle möglichen Kombinationen von P (1; λ) und P (2; λ)
bei Verwendung eines Parameters, d.h. einer Mischungskomponente.
0.6
Auf den eingezeichneten Hyperbeln gilt P (1; λ) · P (2; λ) ist konstant und je weiter außen die Hyperbel liegt, desto größer ist der Wert der Konstanten. Beispielsweise gilt auf der höchsten Hyperbel in
Abbildung 9.21 P (1; λ) · P (2; λ) = 0.13. Allgemein ist das Produkt P (1; λ) · P (2; λ) die gemeinsame Wahrscheinlichkeit der Beobachtungen, also die Likelihood. Graphisch ist der ML–Sch¨atzer
demnach zu bestimmen, indem man die Hyperbel findet, die die ”Blase” tangiert, weil man für weiter am Ursprung liegende Hyperbeln die Likelihood noch erhöhen kann und weiter oben liegende
Hyperbeln nicht zul¨assig sind.
0.3
L=0.03
Lmax=0.08
0.0
0.1
0.2
P(2)
0.4
0.5
L=0.13
0.0
0.1
0.2
0.3
0.4
0.5
0.6
P(1)
Abbildung 9.21: Parameterschätzung bei Mischverteilungen I.
Die Frage, ob durch die Einführung zweier weiterer Parameter, d.h. die Verwendung einer Mischung
aus zwei Poissonverteilungen die Likelihood erhöht werden kann, muss mit nein beantwortet werden.
Dies liegt daran, dass alle möglichen Kombinationen P (1; λ1 , λ2 , r) und P (2; λ1 , λ2 , r) innerhalb der
Blase liegen. Eine höhere Likelihood (eine weiter außen liegende Hyperbel) kann also nicht erreicht
werden.
Dies ¨andert sich, wenn andere Beobachtungen vorliegen. Angenommen, die Beobachtungen seien
x1 = 2 und x2 = 8. In diesem Fall ver¨andert sich die Gestalt der ”Blase”. Sie ist nicht mehr konvex
(vgl. Abbildung 9.22). Es ist jetzt möglich, die Likelihood durch Verwendung von zwei Mischungskomponenten zu erhöhen. Die eingezeichnete Gerade zeigt alle Kombinationen von P (1; λ1 , λ2 , r)
und P (2; λ1 , λ2 , r) für r ∈ [0, 1]. Die Hyperbel, die die maximale Likelihood charakterisiert tangiert
jetzt diese Gerade und nicht mehr einen Punkt der ”Blase”. Mit anderen Worten wird die maximale
Likelihood durch eine Mischung aus zwei Komponenten erreicht.
Das Beispiel zeigt, dass es von der Datenkonstellation abhängt, ob die Aufnahme einer weiteren Komponente zu einer Erhöhung der Likelihood führt. Im ersten Fall lagen die Beobachtungen dicht beieinander. Es macht in diesem Fall keinen Sinn, die Daten durch zwei
0.00 0.05 0.10 0.15 0.20 0.25 0.30
KAPITEL 9. MISCHVERTEILUNGEN
P(8)
182
(rP(1;λ1),(1−r)P(2;λ2))
λ2
Lmax=0.01
λ1
0.00 0.05 0.10 0.15 0.20 0.25 0.30
P(2)
Abbildung 9.22: Parameterschätzung bei Mischverteilungen II
Mischungskomponenten zu beschreiben. Im zweiten Fall lagen die Beobachtungen weiter
auseinander, so dass ein Modell mit zwei Komponenten den Beobachtungen eine größere
Wahrscheinlichkeit zuordnet (höhere Likelihood).
Ein weiterer Aspekt ist intuitiv einleuchtend:
Satz 9.6 Wenn an n Beobachtungen mit k unterschiedlichen Ausprägungen eine Mischverteilung angepasst wird, ist die maximale Anzahl der Mischungskomponenten k. Die
Aufnahme weiterer Komponenten kann die Likelihood nicht erh öhen.
Das folgende Beispiel verdeutlicht dies.
Beispiel 9.11 An die folgenden Daten soll eine Mischverteilung angepasst werden:
0
1
0
2
0
0
1
1
Der Datensatz besteht aus k = 3 unterschiedlichen Auspr¨agungen: 0, 1 und 2. Die maximale Anzahl
der Mischungskomponenten betr¨agt daher I = 3, d.h. eine Mischung aus 4 oder mehr Komponenten
kann nicht zu einer höheren Likelihood führen.
9.4.3 Parameterschätzung mit C.A.MAN
Es ist eine erfreuliche Entwicklung, dass die Möglichkeiten des Internets auch im Rahmen
der Statistik eine immer breitere Verwendung finden. Ein Aspekt ist die Bereitstellung von
Software. Die Software C.A.MAN wurde von Dankmar Böhning entwickelt und steht kostenlos zum Download unter http://www.medizin.fu-berlin.de/sozmed/bo1.html bereit. Es
wird in diesem Abschnitt an einem Beispiel gezeigt, wie die Parameterschätzung für Mischverteilungen mit dem Programm erfolgt.
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
Anzahl verkaufter Packungen
Häufigkeit
0
1 2
102 54 49
Anzahl verkaufter Packungen
Häufigkeit
10
10
3 4 5 6
62 44 25 26
11 12 13 14 15 16
10 10 3 3 5 5
183
7 8 9
15 15 10
17 18 19 20
4 1 2 1
Beispiel 9.12 Betrachtet werden noch einmal die Daten zur Einführung des Süßwarenprodukts, die
bereits in Beispiel 9.3 betrachtet worden sind. Diese sind in der folgenden Tabelle nochmals dargestellt.
Es wird im folgenden an einem Beispiel dargestellt, welche Schritte durchzuführen sind, um den Parametersch¨atzer zu erhalten. Eine allgemeine Beschreibung der Anwendung findet sich bei Böhning,
D. (1999, S. 201–209).
a) Erstellung der Inputdatei:
Zun¨achst ist eine Datei zu erstellen, die die Daten enth¨alt. Dazu werden in eine Textdatei
die Auspr¨agungen und die H¨aufigkeiten der Auspr¨agungen geschrieben. Auspr¨agungen und
H¨aufigkeiten werden durch ein Leerzeichen getrennt, und verschiedene Auspr¨agungen werden
durch einen Absatz getrennt. Für das Beispiel also:
0 102
1 54
2 49
...
Anschließend ist die Datei (zum Beispiel unter der Bezeichnung candy.dat) in dem Verzeichnis
zu speichern, in dem das Programm liegt.
b) Start des Programms:
Als n¨achstes ist das Programm (Caman.exe) zu starten und so lange Return zu drücken, bis
man im Hauptmenü angekommen ist.
c) Bestimmung von Inputdatei und Outputdatei:
Im Hauptmenü ist der Punkt ”INPUT DATA” zu w¨ahlen, indem eine 1 eingetippt wird und
anschließend Return gedrückt wird. Im erscheinenden Untermenü erneut der Punkt 1 (Specify
data–file) zu w¨ahlen. Anschließend ist der Name der Datei einzutippen, in der die Beobachtungen stehen, also candy.dat. Danach kann die Bezeichnung der Ausgabedatei (candy.out)
best¨atigt werden oder eine selbsgew¨ahlte Bezeichnung eingegeben werden. Die Ausgabedatei
enth¨alt die Ergebnisse der Parametersch¨atzung.
d) Bestimmung des Datenformats:
Nach Best¨atigung der Ausgabedatei befindet man sich weiterhim im Untermenü ”INPUT DATA”. Jetzt ist das Datenformat anzugeben. Da die Daten in der Form [Auspr¨agung, H¨aufigkeit
der Auspr¨agung] vorliegen, ist die Alternative 3 (”VARIABLE REPLICATION FACTOR”)
zu w¨ahlen. Daraufhin wird angezeigt, wieviele unterschiedliche Beobachtungen in den Daten
enthalten sind, und durch erneutes Drücken der Returntaste gelangt man wieder in das Hauptmenü.
184
KAPITEL 9. MISCHVERTEILUNGEN
e) Wahl der Verteilung:
Als n¨achstes ist der Punkt 3 ”CHOISE OF DISTRIBUTION” zu w¨ahlen. Da die Mischungskomponenten hier vom Typ Poisson sind, ist in diesem Untermenü der Punkt 2 ”Poissondistribution” zu best¨atigen.
f) Durchführung der Schätzung:
Mit dem Schritt d sind die minimal notwendigen Daten eingegeben, so dass mit der Parametersch¨atzung begonnen werden kann. Diese beginnt mit der Wahl des Menüpunktes 7 ”COMPUTE NPMLE” (NPMLE steht für Nonparametric Maximum–Likelihood–Estimator). Nach
Auswahl dieser Option fasst das Programm noch einmal die Voraussetzungen der Optimierung
zusammen und fragt, ob noch Änderungen vorgenommen werden sollen. Durch Eingabe von
N(o) beginnt die Parametersch¨atzung. Jetzt ist die Returntaste so h¨aufig zu bet¨atigen, bis der
folgende Output erscheint:
The NPMLE consists of 5 support points
Result after combining equal estimates:
weight: .0068 parameter:
.000000
weight: .2373 parameter:
.211226
weight: .5019 parameter:
2.998342
weight: .1516 parameter:
7.388325
weight: .1024 parameter: 12.858300
Log-Likelihood at iterate: -1130.13700
Dies ist das Ergebnis der Parametersch¨atzung. Eine Mischverteilung mit fünf Komponenten besitzt
die höchste Likelihood. Diese Werte der Sch¨atzer sind bereits weiter oben (bei der erstmaligen Betrachtung der Daten) angegeben worden. Ferner ist die Likelihood der Lösung angegeben.
Das letzte Beispiel betrachtet einen Fall, bei dem die Anzahl der Komponenten nicht bekannt ist. Man erhält als Resultat das Modell das zu der höchstmöglichen Likelihood führt.
Es ist jedoch denkbar, dass ein Modell mit weniger Komponenten (und somit weniger Parameteren) die Daten ebenfalls angemessen beschreibt. Möchte man ein Modell mit weniger
Parametern anpassen, so ist die Parameterschätzung für eine bekannte Anzahl von Komponenten durchzuführen.
Beispiel 9.13 Es wird jetzt gezeigt, wie man mit C.A.MAN an die Daten des vorangegangenen
Beispiels ein Modell mit einer bekannten Anzahl von Komponenten anpassen kann.
a) Es sind die Schritte a) bis e) aus dem letzten Beispiel durchzuführen.
b) Bestimmung der Anzahl von Komponenten und der Startwerte:
Es ist jetzt das Untermenü 2 ”CHOICE OF PARAMETER GRID” aufzurufen und der Punkt
3 (If you want to use fixed support size and if you want to enter starting values) zu w¨ahlen.
Anschließend wird man aufgefordert, die Anzahl der Komponenten einzugeben. Dies könnte
beispielsweise der Wert 4 sein. Danach ist es notwendig, die Startwerte für die numerische Maximierung anzugeben. Beispielsweise könnte man einfach die Komponente mit dem kleinsten
Mischungsparameter aus der vorangegangenen Sch¨atzung entfernen und die übrigen vier (evtl.
gerundet) als Startwerte verwenden. Eine mögliche Eingabe w¨are also (der jeweils erste Wert
steht für den Parameter und der jeweils zweite Wert für das entsprechende Gewicht):
0.2 0.25
3 0.5
7.4 0.15
12.9 0.1
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
185
c) Wahl des Algorithmus:
Als n¨achstes ist im Untermenü ”CHOICE OF ALGORITHM” (Menüpunkt 4) die Option 5
(Fixed support size) zu setzen. Die anschließend angeforderten Eingaben sind nicht unbedingt
notwendig, d.h. man kann durch die Wahl von Punkt 6 (Back to Main Menu) zum Hauptmenü zurückkehren.
d) Durchführung der Parameterschätzung:
Dieser Schritt entspricht dem Schritt 6 aus dem letzten Beispiel. Man erh¨alt jetzt die folgenden
Ergebnisse:
The NPMLE consists of 5 support points
Result after combining equal estimates:
weight:
.244 parameter:
.204273
weight: .5022 parameter:
2.998540
weight: .1515 parameter:
7.391778
weight: .1023 parameter: 12.859990
Log-Likelihood at iterate: -1130.13100
Man sieht, dass die Likelihood des Modell mit vier Komponenten nur um 0.006 kleiner
ist als für das Modell mit fünf Komponenten. Eine weitergehende Frage ist jetzt, welches
Modell man zur Beschreibung der Daten verwenden sollte: Sollte man das Modell mit fünf
Komponenten verwenden, weil die Beobachtungen unter diesem Modell eine höhere Wahrscheinlichkeit besitzen oder sollte man das Modell mit vier Komponenten wählen, weil
man dadurch den Fehler durch Schätzung verringern könnte? Böhning verwendet in praktischen Situationen einen Signifikanztest zur Modellauswahl. Er weist aber gleichzeitig darauf hin, dass die Voraussetzungen zur Durchführung des Tests nur approximativ erfüllt sind
(Böhning, D., 1999, S. 77). Eine weitere Möglichkeit wäre eine Analyse der Modelle mit
Hilfe von Pseudo–Residuen (vgl. Verallgemeinerte Lineare Modelle, 1999, S. 54–63).
Kapitel 10
Bayes’sche Verfahren
10.1 Einf ¨uhrung
Alle bislang besprochenen Konzepte und Methoden (einschließlich der Grundstudiumsinhalte), können unter der Überschrift ”Klassische Methoden” eingeordnet werden. Es existiert ferner eine alternative Idee statistische Analysen durchzuführen. Diese Idee ist in den
sogenannten ”Bayes’schen Methoden” verankert, die eine andere Art des Denkens verfolgen, wenn es um die Gewinnung von Informationen aus Daten geht. Insbesondere ist mit
den Bayes’schen Methoden das Konzept der Apriori–Informationen verbunden, d.h. in die
Datenanalyse werden Informationen einbezogen, die bereits vor der Erhebung von Daten
vorliegen. Das Ziel der Bayes’schen Methoden ist die Kombination der beiden Informationsquellen, d.h. der Apriori–Informationen und der Daten.
Ziel dieses Abschnitts ist es, einen Einblick in die elementaren Konzepte und Vorgehensweisen der Bayes’schen Verfahren zu geben. Ein unter praktischen Gesichtspunkten bedeutender
Aspekt der Verfahren ist die Notwendigkeit der Anwendung anspruchsvoller numerischer
Verfahren. Es gibt jedoch auch einige einfache Beispiele, in denen auf rechenintensive Verfahren verzichtet werden kann, weil einfache Lösungen vorliegen. Die folgenden Ausführungen konzentrieren sich in erster Linie auf diese einfachen Fälle. Auf die komplizierteren Fälle
werden im letzten Abschnitt des Kapitel kurz angesprochen.
Eine tiefere Diskussion der Bayes’schen Idee findet man bei Lee (1997), Gelman et al. (1995)
oder Wickmann (1990). French and Smith (1997) zeigen eine Auswahl umfangreicher Fallstudien, in denen die Bayes’schen Verfahren angewendet werden.
10.2 Das Theorem von Bayes
Definition 10.1 Die Ereignisse B1 , B2 , . . . , Bk heißen eine Zerlegung der Ergebnismenge Ω, wenn sie
a) disjunkt sind, d.h.
B i ∩ Bj = ∅
für alle i 6= j,
b) die ganze Ergebnismenge ausschöpfen, d.h.
186
B1 ∪ B2 ∪ . . . ∪ Bk = Ω.
10.2. DAS THEOREM VON BAYES
187
Beispiel 10.1 Sei Ω = {1, 2, . . . , 6} die Ergebnismenge beim Würfel.
a) B1 = {1}
B2 = {2, 3, 4}
B3 = {5, 6}
b) B1 = {1, 2, 3}
B2 = {4, 5}
c) B1 = {1, 2, 3}
B2 = {3, 4, 5, 6}
ist eine Zerlegung.
ist keine Zerlegung, da B1 ∪ B2 6= Ω .
ist keine Zerlegung, da B 1 ∩ B2 6= ∅ .
Satz 10.1 (Formel der totalen Wahrscheinlichkeit) Sei A ⊂ Ω ein Ereignis und
B1 , B2 , . . . , Bk eine Zerlegung der Ergebnismenge Ω mit P (Bi ) > 0 für i = 1, 2, . . . k.
Dann gilt
P (A) =
k
X
i=1
P (A|Bi ) · P (Bi ) .
Beweis:
Es gilt
A = A∩Ω
= A ∩ (B1 ∪ B2 ∪ . . . ∪ Bk )
= (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ . . . ∪ (A ∩ Bk ) .
Da die Ereignisse Bi ; i = 1, 2, . . . , k disjunkt sind, sind auch die Ereignisse A ∩ Bi ; i =
1, 2, . . . , k disjunkt. Damit gilt
P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + . . . + P (A ∩ Bk )
= P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ) + . . . + P (A|Bk )P (Bk )
=
k
X
i=1
P (A|Bi ) · P (Bi ) .
Dabei wurde die Definition der bedingten Wahrscheinlichkeiten
P (A|Bi ) =
P (A ∩ Bi )
P (Bi )
und die Folgerung
benutzt.
P (A ∩ Bi ) = P (A|Bi )P (Bi )
♦
Satz 10.2 (Theorem von Bayes) Sei A ⊂ Ω ein Ereignis und B1 , B2 , . . . , Bk eine Zerlegung der Ergebnismenge Ω mit P (Bi ) > 0 für i = 1, 2, . . . k. Dann gilt
P (Bj |A) =
P (A|Bj )P (Bj )
k
P
i=1
P (A|Bi )P (Bi )
.
188
KAPITEL 10. BAYES’SCHE VERFAHREN
Beweis:
Durch zweimalige Anwendung der Definition der bedingten Wahrscheinlichkeit und des Satzes der totalen Wahrscheinlichkeit erhält man
P (Bj |A) =
=
P (Bj ∩ A)
P (A)
P (A|Bj )P (Bj )
k
P
i=1
.
P (A|Bi )P (Bi )
♦
Beispiel 10.2 (Aus Hartung u.a., 1993)
Durch einen zu sp¨at erkannten Fabrikationsfehler sind in einer Automobilproduktion genau 20 defekte Lenkgetriebe eingebaut worden. In einer Rückrufaktion wurden 200 000 Wagen dieser Serie
überprüft und alle als fehlerhaft identifizierten Lenkgetriebe wurden ausgetauscht. Dabei wird die
Überprüfung mit 99%-iger Sicherheit zu einem korrekten Ergebnis führen. Wie groß ist die Wahrscheinlichkeit, dass ein ausgewechseltes Lenkgetriebe auch defekt war? Wir verwenden die folgenden
Bezeichnungen:
B1 sei das Ereignis eines defekten Lenkgetriebes.
B2 sei das Ereignis eines nicht defekten Lenkgetriebes.
A sei das Ereignis eines ausgewechselten Lenkgetriebes.
Die folgenden Informationen sind uns gegeben:
P (B1 ) =
20
= 0.0001
200 000
P (A|B1 ) = 0.99
P (A|B2 ) = 0.01
Gesucht ist die Wahrscheinlichkeit
P (B1 |A) = P ({Lenkgetriebe defekt}|{Lenkgetriebe ausgewechselt }) .
Mit dem Theorem von Bayes folgt
P (B1 |A) =
P (A|B1 )P (B1 )
2
P
i=1
=
P (A|Bi )P (Bi )
0.99 · 0.0001
≈ 0.0098 .
0.99 · 0.0001 + 0.01 · 0.9999
Fast alle ausgewechselten Lenkgetriebe waren demnach nicht defekt.
Beispiel 10.3 Es sei bekannt, dass in einer Familie die Großmutter und ein Sohn der Großmutter die
Bluterkrankheit (H¨amophilie) haben. Die Großmutter habe auch eine Tochter, von der es unbekannt
ist, ob sie die Bluterkrankheit hat.
Wir betrachten dann die Ereignisse
B1 = {Tochter hat H¨amophilie},
B2 = {Tochter hat nicht H¨amophilie }.
10.2. DAS THEOREM VON BAYES
189
Es gilt dann
P (B1 ) = 0.5
und
P (B2 ) = 0.5 .
Nun gebe es die zus¨atzliche Information, dass die Tochter zwei Söhne hat, die nicht eineiige Zwillinge
sind. Beide Söhne haben keine H¨amophilie.
Wir betrachten die Ereignisse
a) A1 = {Sohn 1 hat nicht H¨amopholie },
b) A2 = {Sohn 2 hat nicht H¨amopholie },
c) A = A1 ∩ A2 = {Kein Sohn hat H¨amopholie}.
Es gilt
P (A1 |B1 ) = 0.5 ,
P (A2 |B1 ) = 0.5 .
Da die Söhne nicht eineiige Zwillinge sind, gilt
P (A|B1 ) = P (A1 |B1 ) · P (A2 |B1 ) = 0.5 · 0.5 = 0.25
und
P (A|B2 ) = 1 .
Wie hoch ist die Wahrscheinlichkeit, dass die Tochter (die Mutter der beiden Söhne) H¨amophilie hat
(gegeben, dass beide Söhne keine H¨amophilie haben)?
Gesucht ist die Wahrscheinlichkeit
P (B1 |A) .
Nach dem Theorem von Bayes gilt
P (B1 |A) =
=
=
P (A|B1 )P (B1 )
P (A|B1 )P (B1 ) + P (A|B2 )P (B2 )
(0.25)(0.5)
(0.25)(0.5) + 1 · (0.5)
0.125
= 0.2 .
0.625
Für Dichtefunktion gibt es eine zum Bayes-Theorem analoge Formel. Man kann dabei an
eine stetige Zerlegung des Ergebnisraums denken.
Satz 10.3 Die gemeinsame Dichtefunktion der Zufallsvariablen X und Y sei f (x, y).
Dann gilt
f (x|y)f (y)
f (y|x) = R∞
.
f (x|y)f (y)dy
−∞
190
KAPITEL 10. BAYES’SCHE VERFAHREN
Beweis:
Durch zweimalige Anwendung der Definition einer bedingten Dichtefunktion (siehe Definition 6.13) erhält man
f (x, y)
f (x|y)f (y)
f (y|x) =
=
.
f (x)
f (x)
Nun gilt für die Randdichtefunktion im Nenner
f (x) =
Z∞
f (x, y)dy =
−∞
Z∞
f (x|y)f (y)dy .
−∞
♦
Damit hat man das gewünschte Ergebnis.
Wir werden das Bayes-Theorem auch in dem Fall benutzen, in dem eine Zufallsvariable, z.B.
Y , stetig und die andere diskret ist. Es gilt dann
f (y|X = x) = R∞
P ({X = x}|y)f (y)
.
(10.1)
P ({X = x}|y)f (y)dy
−∞
10.3 Bayes’sche Verfahren
Beispiel 10.4 Man möchte für eine Münze die Wahrscheinlichkeit sch¨atzen, mit der sie beim Wurf
mit ,,Kopf” auftrifft, d.h.
π = P ({,,Kopf”}) .
FRAGE: Wie interpretiert man diese Wahrscheinlichkeit π ?
Wir betrachten zwei mögliche Interpretationen.
a) Das klassische Verfahren interpretiert diese Wahrscheinlichkeit als relative H äufigkeit.
Die Wahrscheinlichkeit eines Ereignisses ist der Wert, gegen den die relative Häufigkeit des Ereignisses konvergiert, wenn man das Experiment unendlich oft unter gleichen Bedingungen ausführte. Diese Interpretation wird nicht von allen akzeptiert. An
dieser Vorstellung wird kritisiert, dass man solche Experimente nicht unendlich oft
durchführen kann.
b) Bei der subjektiven Interpretation von Wahrscheinlichkeiten wird ,,Wahrscheinlichkeit” als ein subjektiver Begriff aufgefasst. Er beschreibt quantitativ unsere Vorstellung, dass ein Ereignis vorkommen wird.
Man kann die Ergebnisse eines Experiments verwenden, um die bisherige Vorstellung
der Wahrscheinlichkeit eines gegebenen Ereignisses zu ändern oder zu präzisieren.
Wir betrachten das folgende EXPERIMENT:
Wir werfen dreimal eine Münze. Sei X die Anzahl der ,,Köpfe”. Wenn die drei Versuche unabh¨angig
sind, ist die Wahrscheinlichkeitsfunktion von X (gegeben π )
P (x|π) =
(
3 x
x π (1
− π)3−x
0
x = 0, 1, 2, 3
sonst .
10.3. BAYES’SCHE VERFAHREN
191
Wir nehmen an, dass X = 2 beobachtet wurde. Wir wollen die klassische Vorgehensweise der
Bayes’schen Vorgehensweise gegenüberstellen.
a) In der typisch klassischen Vorgehensweise betrachtet man π als Konstante, und X = 2 ist die
Realisation einer Zufallsvariablen. Man kann z.B. die Maximum-Likelihood-Methode verwenden, um π zu sch¨atzen, d.h. es ist
!
3 2
π (1 − π)3−2
2
L(π; X = 2) =
zu maximieren. Dies führt zum Sch¨atzer
π̂ =
2
.
3
Würden Sie diesem Wert glauben? Oder etwa dem noch extremeren Wert
π̂ = 1
X=3?
falls
b) In der typischen Bayes’schen Vorgehensweise ist π wohl eine Konstante, aber sie ist unbekannt.
Das Ergebnis X = 2 ist bekannt. Bevor man das Experiment durchführt, hat man eine Vorstellung des Wertes von π . Diese Vorstellung kann man als Apriori-Dichtefunktion darstellen,
etwa wie in Abbildung 10.1.
2.0
f(π)
1.5
1.0
0.5
0.0
0.0
0.5
1.0
π
Abbildung 10.1: Apriori-Verteilung von π (subjektive Vorstellung)
Dabei wird π als Zufallsvariable betrachtet. Wir wissen, dass X , gegeben π , binomialverteilt
ist, d.h.
!
3 2
P ({X = 2}|π) =
π (1 − π)3−2 .
2
Wir können jetzt das Theorem von Bayes verwenden, um unsere Apriori-Vorstellung (d.h.
unsere Vorstellung vor der Durchführung des Experiments) von der Verteilung von π zu pr¨azisieren. Jetzt haben wir den Fall, dass eine Zufallsvariable (X ) diskret ist, w¨ahrend die andere
(π ) stetig ist. Nach Formel (10.1) gilt, wenn f (π) die Dichtefunktion der Apriori-Verteilung
von π bezeichne,
P ({X = 2}|π)f (π)
f (π|X = 2) = 1
.
R
P ({X = 2}|π)f (π)dπ
0
192
KAPITEL 10. BAYES’SCHE VERFAHREN
Das ist die bedingte Dichtefunktion von π , gegeben X = 2. Sie enth¨alt also unser korrigiertes Wissen über die Verteilung von π nach Durchführung des Experiments. Sie heißt die
Posteriori-Verteilung von π (gegeben die Beobachtungen).
Abbildung 10.2 verdeutlicht den Zusammenhang zwischen Apriori- und Posteriori-Verteilung.
Vor der Beobachtung haben wir nur eine vage Vorstellung über die Verteilung des Parameters
π . Mit Hilfe eines Modells (hier die Binomialverteilung) und der Beobachtungen wird diese
vage Vorstellung zu einer genaueren Posteriori-Vorstellung über den Parameter pr¨azisiert. Diese Vorstellung soll durch die St¨arke des Grautons in den Abbildungen unterstrichen werden.
Apriori
Posteriori
8
8
6
Beobachtungen
f(π)
f(π)
6
4
Modell
2
0
4
2
0
0.0
0.2
0.4
π
0.6
0.8
1.0
0.0
0.2
0.4
π
0.6
0.8
1.0
Abbildung 10.2: Apriori-Verteilung und Posteriori-Verteilung von π
Die eben geschilderte Vorgehensweise bei den Bayes’schen Verfahren wirft die beiden folgenden Probleme auf:
1.) Wie soll man die Apriori-Verteilung bestimmen?
2.) Wie berechnet man die Posteriori-Verteilung?
Das erste Problem ist ein Hauptkritikpunkt an den Bayes’schen Verfahren. Die subjektive
Bestimmung der Apriori-Verteilung gilt als unwissenschaftlich. Das zweite Problem kann
sehr kompliziert sein. Es geht darum, das Integral
Z1
P ({X = 2}|π)f (π)dπ
0
zu bestimmen. Das Problem ist jedoch leicht zu lösen, wenn man für die Apriori-Verteilung
eine Verteilung verwendet die zu einer leicht integrierbaren Funktion führt, wenn man sie
mit P ({X = 2}|π) multipliziert, d.h. die Apriori-Verteilung muss in geeigneter Weise zu der
Binomialverteilung passen. Das Problem ist dann leicht zu lösen, wenn man eine konjugierte
Verteilung für f (π) verwendet.
Die Definition einer konjugierten Verteilung werden wir später betrachten. Jetzt sei gesagt,
dass die Beta-Verteilung die konjugierte Verteilung einer Binomialverteilung ist, d.h. das
zweite Problem ist einfach zu lösen, wenn wir für die Apriori-Verteilung von π eine Betaverteilung verwenden.
Wir nehmen also an, dass
π ∼ Be(α; β) ,
10.3. BAYES’SCHE VERFAHREN
d.h.
f (π) =
(
193
1
π α−1 (1
B(α,β)
0
− π)β−1 0 < π < 1
sonst .
Abbildung 10.3 zeigt einige Beta-Apriori-Verteilungen.
12
Be(100,100)
10
f(π)
8
Be(50,20)
6
4
2
Be(10,10)
0
0.0
0.2
0.4
0.6
0.8
1.0
π
Abbildung 10.3: Einige Beta-Apriori-Verteilungen
Wir nehmen auch weiterhin an, dass
X|π ∼ b(n; π) .
Dann ist
f (π|X = x) =
P ({X = x}|π)f (π)
R1
.
P ({X = x}|π)f (π)dπ
0
Das Integral im Nenner ist
Z1
P ({X = x}|π)f (π)dπ =
0
Z1
0
=
=
!
n x
π α−1 (1 − π)β−1
dπ
π (1 − π)n−x
x
B(α, β)
!
n
1
x B(α, β)
!
Z1
0
π x+α−1 (1 − π)n−x+β−1 dπ
|
{z
B(α+x; β+n−x)
n B(α + x; β + n − x)
.
x
B(α, β)
}
(Beachten Sie, dass wir dieses Integral schon in Kapitel 12 bei der Herleitung der BetaBinomial-Verteilung berechnet haben. Es handelt sich um die Bestimmung einer Mischverteilung. Die Binomialverteilung wird gemäß einer Betaverteilung gemischt.)
Damit ist die Posteriori-Dichte
f (π|X = x) =
n
x
π x (1 − π)n−x π α−1 (1 − π)β−1 /B(α; β)
n
B(α
x
x+α−1
+ x; β + n − x)/B(α; β)
π
(1 − π)n−x+β−1
=
,
B(α + x; β + n − x)
194
KAPITEL 10. BAYES’SCHE VERFAHREN
d.h. die Posteriori-Verteilung von π gegeben X = x ist eine Betaverteilung mit den Parametern α + x und β + n − x, d.h.
π|X ∼ Be(α + x; β + n − x) .
(10.2)
Wir haben gesehen, dass die Posteriori-Verteilung zu der gleichen Familie von Verteilungen
gehört wie die Apriori-Verteilung.
Beispiel 10.5 Nehmen wir Be(10; 10) als Apriori-Verteilung an und, dass wie in Beispiel 10.4 n =
3 und X = 2 beobachtet wurde. Die Posteriori-Verteilung ist dann
Be(10 + 2; 10 + 3 − 2) = Be(12; 11) .
Abbildung 10.4 zeigt die Apriori und Posteriori Verteilung.
4
Posteriori: B(12,11)
f(π)
3
Apriori: B(10,10)
2
n=3; x=2
1
0
0.0
0.2
0.4
0.6
0.8
1.0
π
Abbildung 10.4: Apriori-Verteilung (Be(10;10)) und Posteriori-Verteilung (Be(12;11))
H¨atten wir Be(100; 100) als Apriori-Verteilung verwendet, so w¨are die Posteriori-Verteilung Be(102; 101).
Die beiden Verteilungen sind kaum zu unterscheiden.
Beispiel 10.6 Nehmen wir an, dass n = 100 und X = 30 beobachtet wurde. Die Apriori-Verteilung
sei Be(100; 100). Die Posteriori-Verteilung w¨are dann Be(130; 170). Abbildung 10.5 zeigt diese
beiden Verteilungen, w¨ahrend Abbildung 10.6 die Apriori- und Posteriori-Verteilungen für den Fall
n = 1 000 und x = 300 zeigt. Besonders die Abbildung 10.6 zeigt, dass die Apriori-Vorstellung
durch die Beobachtungen sehr stark korrigiert wird.
Zusammenfassend lässt sich sagen:
a) Die Posteriori-Verteilung hängt von
i) der Apriori-Verteilung und
ii) dem Ergebnis x ab.
b) Mit zunehmender Stichprobeninformation (hier n) wird der Einfluss der Apriori-Verteilung
immer geringer.
10.3. BAYES’SCHE VERFAHREN
195
14
Posteriori: B(130,170)
12
f(π)
10
Apriori: B(100,100)
8
6
4
n=100; x=30
2
0
0.0
0.2
0.4
0.6
0.8
1.0
π
Abbildung 10.5: Apriori-Verteilung (Be(100;100)) und Posteriori-Verteilung (Be(130;170))
30
Posteriori: B(400,800)
25
f(π)
20
n=1000; x=300
15
10
Apriori: B(100,100)
5
0
0.0
0.2
0.4
0.6
0.8
1.0
π
Abbildung 10.6: Apriori-Verteilung (Be(100;100)) und Posteriori-Verteilung (Be(400;800))
Bei den Bayes’schen Verfahren setzt man die Beobachtungen X = x ( z.B. X = 2 in
Beispiel 10.4) als bekannt voraus. Unbekannt sind die oder der Parameter θ (π in Beispiel
10.4).
Die gemeinsame Verteilung der Beobachtungen und der unbekannten Parameter wird in der
folgenden Weise angegeben
f (θ; x) = f (x|θ)f (θ)
falls X stetig ist.
Dabei ist f (x|θ) die Verteilung der Beobachtungen bei gegebenem θ.
Man berechnet dann die bedingte Verteilung der unbekannten Parameter, gegeben die bekannten Beobachtungen. Dafür verwendet man das Theorem von Bayes.
f (θ|X = x) = ∞
R
f (x|θ)f (θ)
.
f (x|θ)f (θ)dθ
−∞
Ist X eine diskrete Zufallsvariable, so ist die folgende Gleichung zu verwenden.
(10.3)
196
KAPITEL 10. BAYES’SCHE VERFAHREN
f (θ|X = x) = R∞
P (x|θ)f (θ)
.
(10.4)
P (x|θ)f (θ)dθ
−∞
Definition 10.2 Sei f (x|θ) die bedingte Dichtefunktion der Zufallsvariablen X bei gegebenem Parameter θ und f (θ) die Apriori-Verteilung des Parameters θ. Die PosterioriVerteilung von θ, gegeben X = x ist dann durch Gleichung (10.3) gegeben. Ist X eine
diskrete Zufallsvariable mit der Wahrscheinlichkeitsfunktion P (x|θ), so ist die PosterioriVerteilung von θ, gegeben X = x durch Gleichung (10.4) gegeben.
Wir wollen jetzt besprechen, wie man die Posteriori-Verteilung einfach bestimmen kann,
wenn man konjugierte Verteilungen verwendet.
Definition 10.3 Die Verteilung f (θ) heißt die (natürliche) konjugierte Verteilung für
f (x|θ), wenn f (θ|x) und f (θ) dieselbe Form haben, d.h. wenn die Apriori- und
Posteriori-Verteilung zu derselben Familie von Verteilungen geh ören.
Beispiel 10.7 Die Betaverteilung ist die konjugierte Verteilung für den Parameter θ = π einer Binomialverteilung. Wir hatten weiter oben angenommen, dass die bedingte Verteilung von X gegeben
π eine Binomialverteilung ist, d.h.
X|π ∼ b(n; π) .
Als Apriori-Verteilung von π hatten wir eine Betaverteilung angenommen, d.h.
π ∼ Be(α; β) .
Wir konnten zeigen, dass die bedingte Verteilung von π gegeben X eine Betaverteilung ist, genauer
(siehe Gleichung (10.2)
π|X = x ∼ Be(α + x; β + n − x) .
Die Apriori-Dichte f (π) und die Posteriori-Dichte f (π|X = x) sind jeweils Betaverteilungen.
Wie verwendet man die Posteriori-Verteilung? Der Modalwert kann als Schätzer des Parameters aufgefasst werden. Mit Hilfe der Verteilung kann ein Vertrauensbereich für den
Parameter angegeben werden.
Betrachten wir die Situation in Abbildung 10.5. Die Posteriori-Verteilung ist die Betaverteilung mit
den Parametern 130 und 170. Sie hat den Modalwert an der Stelle (130 − 1)/(300 − 2) = 0.43, d.h.
man würde π durch π̂ = 0.43 sch¨atzen. Um einen 90%-Vertrauensbereich zu bestimmen, berechnet
man mit Hilfe der Umkehrfunktion der Verteilungsfunktion den 5%- und 95%-Punkt der Betaverteilung. In diesem Fall ergibt sich das Intervall (0.387, 0.481).
10.3. BAYES’SCHE VERFAHREN
197
Beispiel 10.8 Die Gammaverteilung ist die konjugierte Verteilung für den Parameter einer Poissonverteilung.
Sei X|µ poissonverteilt mit dem Parameter µ, d.h.
P ({X = x}|µ) =
(
µx e−µ
x!
0
für x = 0, 1, 2, . . .
sonst .
Die Apriori-Verteilung von µ sei eine Gammaverteilung, d.h.
µ ∼ G(ν; λ) ,
d.h.
f (µ) =
 ν ν−1 −λµ
 λ µ
e
Γ(ν)
0

µ≥0
sonst .
Dann ist die Posteriori-Verteilung von µ, gegeben X = x
f (µ|X = x) = R∞
P ({X = x}|µ)f (µ)
.
P ({X = x}|µ)f (µ)dµ
0
Wir bestimmen zun¨achst den Z¨ahler dieses Ausdrucks und bemerken, dass der Nenner das Integral
über den Ausdruck im Z¨ahler ist.
P ({X = x}|µ)f (µ) =
µx e−µ λν µν−1 e−λµ
λν
·
=
µx+ν−1 e−µ(1+λ)
x!
Γ(ν)
x!Γ(ν)
(10.5)
Den Nenner hatten wir bereits in Kapitel 9 bestimmt, als wir die Mischung der Poissonverteilung
bezüglich der Gammaverteilung betrachtet haben (siehe Seite 178). Als Zwischenergebnis hatten wir
dort erhalten:
Z∞
P (X = x|µ)f (µ)dµ =
0
Γ(x + ν)λν
.
x!Γ(ν)(1 + λ)x+ν
(10.6)
Dividieren wir Gleichung (10.5) durch Gleichung 10.6, so erhalten wir:
f (µ|X = x) =
(λ + 1)ν+x µν+x−1 e−(λ+1)µ
,
Γ(ν + x)
d.h. die Dichtefunktion einer Gammaverteilung mit den Parametern ν + x und λ + 1.
Wir fassen das Ergebnis des letzten Beispiels in folgendem Satz zusammen.
Satz 10.4 Die Zufallsvariable X sei bei gegebenem µ poissonverteilt mit dem Parameter
µ (d.h. X|µ ∼ P o(µ)). Die Aprioriverteilung von µ sei G(ν; λ). Dann ist die PosterioriVerteilung von µ, gegeben die Beobachtung x
µ ∼ G(ν + x; λ + 1) .
198
KAPITEL 10. BAYES’SCHE VERFAHREN
Wir können dieses Verfahren auf die folgende Weise verallgemeinern:
• Wenn man zwei Beobachtungen hat, wird die Posteriori-Verteilung nach Betrachtung
der ersten Beobachtung als Apriori-Verteilung für den zweiten Schritt verwendet (siehe Abbildung 10.7).
Apriori
Posteriori
0.30
0.30
0.25
0.25
Beobachtung:
0.20
0.15
0.20
0.15
0.10
x1=6
0.05
0.10
0.05
0.0
0.0
0
5
10
15
µ
20
25
30
0
Apriori
5
10
15
µ
20
25
30
Posteriori
0.30
0.30
0.25
0.25
Beobachtung:
0.20
0.15
0.20
0.15
0.10
x2=4
0.05
0.10
0.05
0.0
0.0
0
5
10
15
µ
20
25
30
0
Apriori
5
10
15
µ
20
25
30
Posteriori
0.30
0.30
0.25
0.25
Beobachtung:
0.20
0.15
0.20
0.15
0.10
x3=8
0.05
0.10
0.05
0.0
0.0
0
5
10
15
µ
20
25
30
0
5
10
15
µ
20
25
30
Abbildung 10.7: Apriori und Posteriori-Verteilungen nach Eingang von neuen Beobachtungen
• Wenn man drei oder mehr Beobachtungen hat, führt man das einfach weiter.
Seien x1 , x2 , · · · , xn unabhängige Beobachtungen aus einer Poissonverteilung mit unbekanntem Parameter µ. Sei µ ∼ G(ν; λ).
Apriori-Verteilung
G(ν; λ)
G(ν + x1 ; λ + 1)
..
.
Beobachtung
x1
x2
..
.
G(ν + x1 + · · · + xn−1 ; λ + n − 1) xn
Posteriori-Verteilung
G(ν + x1 ; λ + 1)
G(ν + x1 + x2 ; λ + 2)
..
.
G(ν +
n
P
i=1
xi , λ + n)
10.3. BAYES’SCHE VERFAHREN
199
Beispiel 10.9 Wie bisher sei die Zufallsvariable bei bekanntem µ poissonverteilt mit dem Parameter
µ. Die Apriori-Verteilung von µ sei
G(1, 0.1) .
Es seien die folgenden Beobachtungen gegeben:
9, 7, 13, 10, 6
Die Anzahl der Beobachtungen ist 5, die Summe der Beobachtungen ist 45. Dann ist die PosterioriVerteilung
G(1 + 45, 0.1 + 5) .
Abbildung 10.8 zeigt die Apriori- und die Posteriori-Verteilung.
Apriori
0.35
Posteriori
0.35
0.30
0.30
0.25
0.25
Beobachtungen:
f(µ )
0.20
f(µ )
0.20
0.15
0.15
x1+x2+x3+x4+x5=45
0.10
0.10
0.05
0.05
0.0
0.0
0
10
20
µ
30
40
0
10
20
µ
30
40
Abbildung 10.8: Apriori- (G(1, 0.1)) und Posteriori-Verteilung (G(46; 5.1))
Bei n unabh¨angigen Beobachtungen x1 , x2 , · · · , xn hat man die Posteriori-Verteilung
µ ∼ G(ν +
n
X
xi ; λ + n) .
i=1
Beispiel 10.10 Die Zufallsvariable X sei exponentialverteilt mit dem Parameter θ , d.h.
f (x|θ) =
(
θe−θx
0
x≥0
sonst .
Der Parameter θ besitze eine Gammaverteilung mit den Parametern ν und λ, d.h.
θ ∼ G(ν; λ) ,
d.h.
f (θ) =

 λν θ ν−1 e−λθ

Γ(ν)
0
θ≥0
sonst .
Man kann dann zeigen (es sei Ihnen als Übung empfohlen), dass die Posteriori-Verteilung von θ
gegeben die Beobachtung X = x wieder eine Gammaverteilung ist, und zwar
θ|x ∼ G(ν + 1; λ + x) .
200
KAPITEL 10. BAYES’SCHE VERFAHREN
Die Gammaverteilung ist also die konjugierte Verteilung für die Exponentialverteilung. Nach Eingang
der Beobachtungen x1 , x2 , . . . , xn ist die Posterioriverteilung
G(ν + n; λ +
n
X
xi ) .
i=1
In der Zuverl¨assigkeitstheorie bezeichnet man den Parameter θ als Hazardrate und T =
n
P
i=1
xi als
total time on test. Die Dichtefunktion von θ , gegeben die Beobachtungen x 1 , x2 , . . . , xn ist dann
f (θ|x1 , x2 , ..., xn ) =
(
1
Γ(ν) (λ
+ T )ν+n θ ν+n−1 e−(λ+T )θ
0
θ≥0
sonst .
Man kann θ dann sch¨atzen durch den Erwartungswert dieser Verteilung, d.h durch
(ν + n)/(λ + T ) .
In der Zuverl¨assigkeitstheorie wird es h¨aufig als gef¨ahrlich angesehen, wenn die Hazardrate einen
bestimmten Wert θ0 übersteigt. Diese Wahrscheinlichkeit kann durch Integation der Posteriori-Dichtefunktion von θ bestimmt werden.
Unsere bisherigen Resultate können wir so zusammenfassen:
a) Die Betaverteilung ist die konjugierte Verteilung für die Binomialverteilung.
Apriori-Vert.
Modell
π ∼ Be(α; β) X|π ∼ b(n; π)
Beobacht.
X=x
Posteriori-Vert.
π|X = x ∼ Be(α + x; β + n − x)
b) Die Gammaverteilung ist die konjugierte Verteilung für die Poisson-Verteilung.
Apriori-Vert.
Modell
Beobacht.
µ ∼ G(ν; λ) X|µ ∼ P0 (µ)
X =x
Posteriori-Vert.
µ|X ∼ G(ν + x; λ + 1)
c) Die Gammaverteilung ist die konjugierte Verteilung für die Exponentialverteilung.
Apriori-Vert.
Modell
Beobacht.
θ ∼ G(ν; λ) X|θ ∼ Exp(θ)
X =x
Posteriori-Vert.
θ|X ∼ G(ν + 1; λ + x)
Nachdem wir unsere Verteilung über den Parameter θ durch die Posteriori-Verteilung korrigiert haben, wollen wir uns fragen:
Wie sind weitere zukünftige Werte der Zufallsvariablen X verteilt?
Definition 10.4
Die prädiktive Verteilung von X ist die Randverteilung eines zukünftigen Wertes von
X.
10.3. BAYES’SCHE VERFAHREN
201
Satz 10.5
Die prädiktive Verteilung einer binomialverteilten Zufallsvariablen (X ∼ b(n; π)), deren
Parameter betaverteilt (Be(α; β)) ist, ist die Beta-Binomialverteilung mit den Parametern ñ, α + x und β + n − x. Dabei ist x der zuvor beobachtete Wert von X und ñ ist die
Anzahl der weiteren Bernoulli-Experimente.
Bevor wir diesen Satz beweisen, wollen wir die Situation in der folgenden Übersicht zusammenfassen:
Apriori
π ∼ Be(α; β)
Modell
X|π ∼ b(n; π)
Posteriori
π|X ∼ Be(α + x; β + n − x)
Die Apriori-Vorstellungen über den Parameter π seien in einer Betaverteilung ausgedrückt.
Das Modell für die Beobachtungen bei gegebenem Parameter sei eine Binomialverteilung.
Nach Eingang von Beobachtungen wird die Apriori-Vorstellung über π in eine PosterioriVorstellung über π modifiziert. Dies ist wieder eine Betaverteilung. Die Frage, die Satz 10.5
beantwortet, ist die nach der Verteilung weiterer zukünftiger Werte unter Berücksichtigung
der bisher gewonnenen Erkenntnisse.
Es werden weitere ñ Bernoulli-Versuche durchgeführt. Sei X̃ die Anzahl der Erfolge in
diesen weiteren Versuchen. Die Behauptung des Satzes ist
X̃ ∼ Beta-Binomial(ñ; α + x; β + n − x) .
Beispiel 10.11 Wir betrachten das Münzwurfexperiment aus Beispiel 10.4.
Apriori-Verteilung
Modell
Posteriori-Verteilung
π ∼ Be(α; β)
X|π ∼ b(n; π)
π|X ∼ Be(α + x; n − x + β)
z.B. Be(5; 5)
z.B. b(3; π)
Be(7; 6) (falls x = 2)
Wir werfen die Münze noch ñ-mal. SeiX̃ die Anzahl der ,,Köpfe” in diesen weiteren Versuchen.
Gesucht ist die Verteilung von X̃ . Sie heißt die pr¨adiktive Verteilung.
Wie groß ist z.B.
P ({X̃ = x̃}|x = 2) ?
Es ist
X̃|π ∼ b(ñ; π) .
Aber π ist nicht bekannt.
Beweis des Satzes:
P ({X̃ = x̃}|X = x) =
Z1
=
Z1
P ({X̃ = x̃}|X = x; π)f (π|x)dπ
0
0
!
π α+x−1 (1 − π)β+n−x−1
ñ x̃
π (1 − π)ñ−x̃
dπ
x̃
B(α + x; β + n − x)
202
KAPITEL 10. BAYES’SCHE VERFAHREN
!
Z1
=
ñ
1
x̃ B(α + x; β + n − x)
=
ñ B(α + x + x̃; β + (n − x) + (ñ − x̃))
x̃
B(α + x; β + n − x)
!
0
π α+x+x̃−1 (1 − π)β+n−x−1+ñ−x̃ dπ
Das ist die Beta-Binomialverteilung mit den Parametern ñ, α + x und β + n − x.
♦
Beachten Sie, dass wir wieder die Mischverteilung einer Binomialverteilung bezüglich einer Betaverteilung berechnet haben (siehe Herleitung der Beta-Binomialverteilung auf Seite
175).
Beispiel 10.12 Wir betrachten folgende Situation:
• Die Apriori-Verteilung des Parameters π einer Binomialverteilung sei eine Be(5, 5)-Verteilung.
• In n = 3 Versuchen wurden X = 2 Erfolge beobachtet, d.h. x = 2.
• Die Posteriori-Verteilung des Parameters π ist dann eine Be(7, 6)-Verteilung.
• Es werden ñ = 5 weitere Bernoulli-Versuche durchgeführt. Gesucht ist die pr¨adiktive Verteilung von X̃ , der Anzahl der Erfolge in diesen fünf weiteren Versuchen.
Nach Satz 10.5 ist X̃ Beta-Binomial-verteilt mit den Parametern
(ñ; α + x; β + n − x) = (5; 5 + 2; 5 + 3 − 2) .
0.30
0.25
0.20
0.15
0.10
0.05
0.0
0
1
2
3
4
5
Abbildung 10.9: Prädiktive Verteilung: Beta-Binomial (5; 7; 6)
Abbildung 10.9 zeigt die Wahrscheinlichkeitsfunktion der pr¨adiktiven Verteilung von X̃ .
Beispiel 10.13 Wir wollen jetzt die pr¨adiktive Verteilung einer poissonverteilten Zufallsvariablen,
deren Parameter gammaverteilt ist, bestimmen, d.h. wir gehen von der folgenden Situation aus:
• Die Apriori-Verteilung des Parameters µ einer Poissonverteilung sei G(ν; λ).
• Die bedingte Verteilung von X , gegeben µ, sei P o(µ).
10.3. BAYES’SCHE VERFAHREN
203
• Es liegen die Beobachtungen x1 , x2 , ..., xn vor.
• Die Posteriori-Verteilung des Parameters µ nach den Beobachtungen ist
G(ν +
n
X
xi ; λ + n) .
i=1
Abbildung 10.10 zeigt eine mögliche Posteriori-Verteilung.
0.4
0.3
0.2
0.1
0.0
0
5
10
15
20
Abbildung 10.10: Dichte f (µ|x) der Posteriori-Verteilung von µ.
FRAGE: Welche Verteilung besitzt die n¨achste Beobachtung, d.h. welches ist die pr¨adiktive Verteilung?
Sei X̃ die n¨achste Beobachtung. Die bedingte Verteilung von X̃ gegeben µ ist die Poissonverteilung
mit dem Parameter µ, d.h.
P ({X̃ = x̃}|µ) = µx̃
e−µ
,
x̃!
x̃ = 0, 1, 2, . . . .
Die (aktuelle) Verteilung von µ ist
0
0
0
(λ0 )ν µν −1 e−λ µ
f (µ|x) =
,
Γ(ν 0 )
wobei zur Vereinfachung der Schreibweise
ν0 = ν +
n
X
xi
und
λ0 = λ + n
i=1
gesetzt wurde.
Es ist folgendes Integral zu bestimmen:
P ({X̃ = x̃}) =
Z∞
P ({X̃ = x̃}|µ)f (µ|x)dµ ,
0
d.h. es ist die Mischung einer Poissonverteilung bezüglich einer Gammaverteilung zu bestimmen. Als
Lösung erhalten wir die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung (siehe Seite
178) mit den Parametern (ν 0 , λ0 /(λ0 + 1)).
Wir formulieren das Ergebnis als Satz
204
KAPITEL 10. BAYES’SCHE VERFAHREN
Satz 10.6 Die prädiktive Verteilung der Poissonverteilung, deren Parameter µ gammaverteilt ist, ist eine negative Binomialverteilung.
Wir betrachten abschließend in diesem Abschnitt die Normalverteilung für den Fall, dass
die Varianz σ 2 bekannt ist. Der unbekannte Parameter ist der Erwartungswert µ, so dass ein
Modell für die Beobachtungen durch
X|µ ∼ N (µ; σ 2 ) .
beschrieben werden kann. Es gilt dann:
Satz 10.7 Die konjugierte Verteilung für den Parameter µ der Normalverteilung ist die
Normalverteilung.
Zunächst wird der Fall betrachtet, bei dem eine Apriori–Verteilung durch eine Beobachtung
präzisiert wird. Sei µ ∼ N (µ0 ; τ02 ) die Apriori–Verteilung und x die Beobachtung, dann ist
die Posteriori–Verteilung durch µ|x ∼ N (µ1 ; τ12 ) mit
µ1 = µ0 + (x − µ0 )
τ02
σ 2 + τ02
und
1
1
1
= 2+ 2
2
τ1
τ0
σ
gegeben.
Zunächst wird der Erwartungswert µ1 der Posteriori–Verteilung betrachtet. Dieser stellt einen
Kompromiss zwischen dem Erwartungswert der Apriori–Verteilung und der Beobachtung
dar: Das Ausmaß der Aktualisierung hängt davon ab, wie weit der ursprünglich angenommene Erwartungswert und die Beobachtung auseinander liegen. Ferner ist zu erkennen, dass
die Varianz der Posteriori–Verteilung in jedem Fall kleiner ist als die der Apriori–Verteilung.
In der oben gegebenen Formel wird der Kehrwert der Varianz verwendet, der als Präzision der Verteilung interpretiert werden kann. Wie zu sehen ist, steigt die Präzision um den
Summanden 1/σ 2
Beispiel 10.14 Angenommen es liegt eine Apriori–Verteilung µ ∼ N (1; 4) vor und es wird eine
Beobachtung x = 10 gemacht. Sei ferner σ 2 = 8, dann erh¨alt man durch Anwendung der oben
gegebenen Formeln für die Posteriori–Verteilung:
µ|x ∼ N (4; 8/3)
Vergleicht man dieses Ergebnis mit dem Fall, in dem eine Beobachtung gemacht wird, die n¨aher am
Erwartungswert der Apriori–Verteilung liegt, erkennt man dass die Posteriori– Verteilung im ersten
Fall st¨arker von der Apriori–Verteilung abweicht. W¨are beispielsweise x = 2 beobachtet worden, so
lautete die Posterioriverteilung µ|x ∼ N (4/3; 8/3).
Bemerkenswert ist auch, dass die Verringerung der Varianz unabh¨angig von der Beobachtung ist. Dies
gilt allerdings nur für den hier betrachteten Fall einer bekannten Varianz.
10.4. BEMERKUNGEN ZU KONJUGIERTEN VERTEILUNGEN
205
Es wird jetzt der Fall betrachtet, bei dem eine Apriori–Verteilung durch n Beobachtungen
präzisiert wird. Sei µ ∼ N (µ0 ; τ02 ) die Apriori–Verteilung und x1 , . . . , xn die Beobachtungen, dann ist Posteriori–Verteilung durch µ|x1 , . . . , xn ∼ N (µn ; τn2 ) mit
µn = µ0 + (x̄ − µ0 )
τ02
σ 2 /n + τ02
und
1
1
n
= 2+ 2
2
τn
τ0
σ
gegeben. Der Erwartungswert der Posteriori–Verteilung ist jetzt ein Kompromiss zwischen
dem Erwartungswert der Apriori–Verteilung und dem Mittelwert der Beobachtungen. Ferner
ist zu sehen, dass die Varianz mit zunehmender Anzahl von Beobachtungen kleiner wird.
Mit Hilfe der Posteriori–Verteilung kann jetzt die prädiktive Verteilung beschrieben werden:
Satz 10.8 Die prädiktive Verteilung einer Normalverteilung, deren Parameter µ ebenfalls normalverteilt ist, lautet:
X̃ ∼ N (µn ; σ 2 + τn2 ) .
Beispiel 10.15 Angenommen es liegt eine Apriori–Verteilung µ ∼ N (1; 4) vor und es werden zwei
Beobachtungen gemacht: Beobachtung x 1 = 11 und x2 = −1. Sei ferner σ 2 = 8, dann erh¨alt man
durch Berechnung der oben gegebenen Formeln für die Posteriori–Verteilung:
µ|x ∼ N (3; 2)
und die pr¨adiktive Verteilung ist:
X̃ ∼ N (3; 10) .
Im Fall der Normalverteilung ist es auch denkbar, dass der Parameter µ bekannt ist und die
Varianz durch eine Verteilung beschrieben wird. Die konjugierte Verteilung der Varianz einer
Normalverteilung (bei bekanntem Erwartungswert) ist die inverse χ 2 –Verteilung (siehe dazu
Lee, 1997, Appendix A.5). Der Fall unbekannter Varianz ist kompliziert und wird daher im
Rahmen dieser Veranstaltung nicht näher diskutiert. Für Interessierte sei auf Lee (1997, Kap.
2.7) oder Gelman et al. (1996, S. 46–48) verwiesen.
10.4 Bemerkungen zu konjugierten Verteilungen
Bei den Bayes’schen Verfahren beschreibt die Apriori–Verteilung das Wissen eines ”Experten” über den Parameter. Die Verwendung der konjugierten Verteilung (wegen der einfachen
mathematischen Handhabbarkeit) schränkt die Freiheit, seine Vorstellungen über den Parameter zu quantifizieren, ein. Somit ist es beispielsweise möglich, dass man weiß, dass ein
Anteil π einer Grundgesamtheit größer ist als 0.1. Die konjugierte Verteilung für die Binomialverteilung ist die Betaverteilung, für die aber in jedem Fall P (π < 0.1) > 0 gilt.
Mit anderen Worten gibt es keine Betaverteilung, die in der Lage ist, das Wissen über den
Parameter korrekt wiederzugeben.
206
KAPITEL 10. BAYES’SCHE VERFAHREN
Auf der anderen Seite sind die in der Praxis verwendeten konjugierten Verteilungen flexibel
genug um eine Verteilung zu bestimmen, die sehr nah an den Apriori–Vorstellungen liegt.
Findet man aber keine Verteilung zur Beschreibung des Parameterwissens, kann man die
Bayes’schen Verfahren trotzdem anwenden, wenngleich damit ein höherer Rechenaufwand
(Einsatz numerischer Verfahren) erforderlich wird. Im folgenden Beispiel wird das Vorgehen
für diesen Fall erläutert.
Beispiel 10.16 Betrachtet wird eine Binomialverteilung mit unbekannter Erfolgswahrscheinlichkeit
π (beispielsweise ”Kauft ein Produkt”, ”besitzt ein Auto”,. . . ). Sei die Apriori–Verteilung durch
f (π) =


 100(π − 0.4)
0.4 ≤ π < 0.5
100(0.6 − π) 0.5 ≤ π ≤ 0.6

 0
sonst
0
2
4
f(π)
6
8
10
gegeben. Die Dichte ist in Abbildung 10.11 dargestellt.
0.40
0.45
0.50
0.55
0.60
π
Abbildung 10.11: Apriori-Verteilung von π (subjektive Vorstellung)
Zur Pr¨azisierung der Apriorivorstellung wird nun eine Stichprobe der Größe n gezogen und die Anzahl der Erfolge sei mit x bezeichnet. (Die Stichprobe wurde mit Zurücklegen gezogen, so dass x
als binomialverteilt betrachtet werden kann.) Unter diesen Bedingungen ist die Posteriori–Verteilung
durch
!
n x
f (π|x) = c ·
π (1 − π)n−x f (π)
x
gegeben, wobei c eine Normierungskonstante darstellt, die gew¨ahrleistet, das die Fl¨ache unter der
Posteriori–Verteilung eins ist. Man erh¨alt die Konstante durch Berechnung des Integrals
1/c =
+
0.5
R
0.4
0.6
R
0.5
n x
x π (1
n x
x π (1
− π)n−x 100(π − 0.4)dπ
− π)n−x 100(0.6 − π)dπ
Die Berechnung des komplizierten Ausdrucks mit Hilfe der Standardregeln ist sehr aufwendig. Es
gibt auch Situationen, in denen das entsprechende Integral gar nicht analytisch zu lösen ist. Man kann
aber die Lösung mit Hilfe numerischer Methoden immer approximieren und somit die Posteriori–
Verteilung bestimmen. Abbildung 10.12 zeigt die Posteriori–Verteilung für n = 100 und verschiedene
10.4. BEMERKUNGEN ZU KONJUGIERTEN VERTEILUNGEN
207
Beobachtungen: x = 50 (links), x = 40 (Mitte) und x = 20 (rechts). Zum Vergleich ist jeweils
die Apriori–Verteilung gezeichnet. Zu beachten ist, dass die Posteriori–Verteilung nur den Bereich
beschreibt, in dem auch die Aprioriverteilung definiert ist. Im Beispiels ist dies das Intervall [0.4,0.6].
Auch für x = 20 nimmt die Posteriori–Verteilung nur für diesen Bereich Werte größer null an.
x=40
x=20
0.40
0.45
0.50
π
0.55
0.60
10
5
0
0
0
2
2
4
4
15
6
6
20
8
8
25
10
10
30
12
12
35
x=50
0.40
0.45
0.50
π
0.55
0.60
0.40
0.45
0.50
0.55
0.60
π
Abbildung 10.12: Apriori-Verteilung und Posteriori–Verteilungen im Vergleich
Komplizierter wird der Fall, wenn mehrere Parameter unbekannt sind (beispielsweise die
Elemente der Kovarianzmatrix einer multivariaten Normalverteilung). Es ist dann notwendig
Simulationen (sogenannte Monte Carlo–Methoden) anzuwenden, um die Normierungskonstante zu bestimmen. Ein kurzer Einblick hierzu findet sich bei Lee (1997, Kapitel 9). Eine
detailliertere Beschreibung von Simulationsmethoden im Rahmen der Bayes’schen Verfahren ist beispielsweise bei Gamerman (1997) gegeben.
Literatur
BAMBERG , G. und BAUR , F. (1996): Statistik, 9. Auflage, Oldenbourg Verlag, München.
B LISCHKE , W. R. (1978): Mixtures of Distributions. International Encyclopedia of Statistics. Herausgeber Kruskal und Tanur. The Free Press, New York.
B ÖHNING , D. (1999:) Computer–Assisted Assisted Analysis of Mixtures and Applications, Chapman & Hall, Boca Raton et al.
B ÖKER , F. (1998): P-values and Power of Tests. Erscheint im Erg¨anzungsband der Enyclopedia of
Statistical Sciences, Herausgeber Johnson und Kotz.
B ÖKER , F. und DANNENBERG , O. (1995): Was könnnen P-Werte über die Güte von Prüfgrößen in
vergleichenden Simulationsstudien aussagen? Allg. Statistisches Archiv 79, 233-251.
B ÖKER , F. und DANNENBERG , O. (1996): Explorative Data Analysis for a Comparison of Statistical Test Procedures. In SoftStat’95, Advances in Statistical Software 5, Herausgeber F. Faulbaum
und W. Bandilla, Lucius & Lucius, Stuttgart, 97-104.
B ÖKER , F. (1997): S-PLUS, Learning by Doing, Eine Anleitung zum Arbeiten mit S-PLUS. Lucius
& Lucius, Stuttgart.
E VERITT, B. S. und H AND , D. J. (1981): Finite Mixture Distribution. Chapman and Hall, London.
FAHRMEIR , L., K ÜNSTLER , R., P IGEOT, I. und T UTZ , G. (1997): Statistik, Der Weg zur Datenanalyse, Springer, Berlin, Heidelberg.
F RENCH , S. und S MITH , J.Q. (1997): The Practice of Bayesian Analysis, Arnold, London.
G AMERMAN D. (1997): Markov Chain Monte Carlo, Chapman & Hall, London.
G ELMAN A. et al. (1995): Bayesian Data Analysis, Chapman & Hall, London.
H ARTUNG , J. (1993): Statistik, 9. Auflage, Oldenbourg Verlag, München.
J OBSON , J. D. (1992): Applied Multivariate Data Analysis, Volume II: Categorical and Multivariate
Methods, Springer Verlag, New York.
J OHNSON , N. L., KOTZ , S. und K EMP, A. W. (1992): Univariate Discrete Distributions, Second Edition, Wiley, New York.
J OHNSON , N. L., KOTZ , S. und BALAKRISHNAN , N. (1994): Continuous Univariate Distributions,
Volume 1, Second Edition, Wiley, New York.
J OHNSON , N. L., KOTZ , S. und BALAKRISHNAN , N. (1995): Continuous Univariate Distributions,
Volume 2, Second Edition, Wiley, New York.
208
Literatur
209
KOTZ , S. und J OHNSON , N. L. (1982-88): Encyclopedia of Statistical Sciences, Volumes 1-9, Wiley, New York.
K RAUSE , A. (1997): Einführung in S und S-PLUS, Springer Verlag, Berlin.
L EE , M.L.. (1997): Bayesian Statistics — An Introduction, second edition, Arnold, London.
S CHLITTGEN , R. (1996a): Einführung in die Statistik, Analyse und Modellierung von Daten, 6. Auflage, Oldenbourg, München.
S CHLITTGEN , R. (1996b): Statistische Inferenz, Oldenbourg, München.
S PECTOR , P. (1994): An Introduction to S and S-Plus. Duxberry-Press, Belmont.
S TUART, A. und O RD , J. K. (1994): Kendalls Advanced Theory of Statistics, Volume 1, Sixth Edition, Arnold, London.
S ÜSELBECK , B. (1993): S und S-PLUS, Gustav Fischer, Stuttgart.
S YDSÆTER , K. und H AMMOND , P. (2003): Mathematik für Wirtschaftswissenschaftler, Basiswissen mit Praxisbezug, Pearson Studium, München.
V ENABLES , W. N. und R IPLEY, B. D. (1994): Modern Applied Statistics with S-Plus. Springer Verlag, New York
W ICKMANN D. (1990): Bayes–Statistik — Einsicht gewinnen und Entscheiden bei Unsicherheit, B
I Wissenschaftsverlag, Mannheim.
Z UCCHINI , W., N EUMANN , K. und S TADIE , A. (2000): Einführung in R, Institut für Statistik und
Ökonometrie, Göttingen.
Z UCCHINI , W. und S TADIE , A. (1999): Verallgemeinerte Lineare Modelle, Skript zur Vorlesung ”Einige Methoden der angewandten Statistik”, Institut für Statistik und Ökonometrie, Göttingen.
Index
B(α, β), 53
Be(α; β), 53
Ber(π), 60
Exp(λ), 48
F (ν1 , ν2 ), 85
G(ν; λ), 39
Ge(π), 64
N (0, 1), 30
N (µ; σ 2 ), 30
N B(r; π), 66
P o(λ), 70
U (a; b), 23
Γ(ν), 38
Λ(µ; σ 2 ), 87
χ2n , 45
∼,
˙ 36
∼, 23
b(n; π), 61
tν , 82
Parameter, 176
Verteilungsfunktion, 177
Wahrscheinlichkeitsfunktion, 176, 177
Betafunktion, 53
Betaverteilung, 53, 192, 201
Anwendungen, 58
Dichtefunktion, 53
Erwartungswert, 54
Parameter, 53
R-Befehle, 58
Varianz, 54
Bias, 151
Binomialkoeffizient, 64
Binomialverteilung, 58, 61, 74, 76, 77, 201
Erwartungswert, 61
Parameter, 61
R-Befehle, 63
Varianz, 61
Wahrscheinlichkeitsfunktion, 61
Black-Scholes-Formel, 37
Brownsche Bewegung, 37
Anpassungstest, 46
Anzahl der Erfolge, 63
Apriori-Dichtefunktion, 191
Apriori-Verteilung, 58, 191
Arcus-Sinus-Verteilung, 58
verallgemeinerte, 58
Ausfallzeit, 167
Chiquadratverteilung, 44, 80, 81, 86
Anwendungen, 45
Dichtefunktion, 45
Erwartungswert, 45
Freiheitsgrade, 45
Gestalt, 45
Parameter, 45
R-Befehle, 47
Varianz, 45
zentrale, 47
Cramér-rao-Schranke, 159
Bayes
Theorem von, 186, 187
Bayes’sche Verfahren, 69, 186, 190
bedingte Verteilung, 110
bedingte Wahrscheinlichkeit, 187
Bernoulli-Verteilung, 60, 74, 75
Anwendungen, 61
Erwartungswert, 61
Parameter, 60
Schätzung, 144
Varianz, 61
Wahrscheinlichkeitsfunktion, 60
Beta-Binomialverteilung, 58, 173, 201
Dichtefunktion, 3, 9
bedingte, 111, 128
gemeinsame, 92, 111, 125
diskret, 1, 90
diskrete Mischung
diskreter Verteilungen, 160
stetiger Verteilungen, 166
210
Index
effizient, 158
effizienter, 158
Effizienz, 158
Eigenvektor, 138
Eigenwert, 138
Erfolg, 60, 74
Erfolgswahrscheinlichkeit, 61
Ergebnismenge
Zerlegung, 186
Erlangverteilung, 44
erwartungstreu, 132, 150
asymptotisch, 151
Erwartungswert, 12, 102, 126
als endgültiger Mittelwert, 14, 17
als Schwerpunkt, 13, 16
bedingter, 114
einer diskreten ZV, 12
einer Funktion der ZV, 17, 18
einer Konstanten, 19
einer stetigen ZV, 15
einer Summe, 19
Interpretation, 13
Rechenregeln, 19, 102
Exponentialverteilung, 7, 9, 11, 40, 47, 79
Anwendungen, 50
Dichtefunktion, 47
alternative Darstellung, 48
Erwartungswert, 49
Parameter, 47
Schätzung, 143
R-Befehle, 52
Varianz, 49
Verteilungsfunktion, 28, 49
Umkehrfunktion, 29
F-Test, 86
Prüfgröße, 47, 86
F-Verteilung, 47, 85, 86
Dichtefunktion, 85
Parameter, 85
R-Befehle, 86
zentrale, 86
fair, 1
Fehler, 152
Fisher, 144
Formel
der totalen Wahrscheinlichkeit, 187
Freiheitsgrade, 82, 85
211
Gammafunktion, 38, 39
Gammaverteilung, 38, 79, 80, 197, 202
Anwendungen, 42
Dichtefunktion, 39
Erwartungswert, 40
Gestalt, 41
Parameter, 39
Schätzung, 143
R-Befehle, 41
Varianz, 40
Gemeinsame Verteilung, 90
2 Zufallsvariablen , 90
Geometrische Verteilung, 64, 75
Parameter, 64
R-Befehle, 66
Varianz, 64
Wahrscheinlichkeitsfunktion, 64
Glättung, 169
Gleichverteilung, 23
Häufigkeitstabellen, 70
Höhenlinien, 105
Hypothese
über Erwartungswert, 84
über Erwartungswerte
in Gruppen, 86
über Varianz, 45, 82
Hypothesentest, 27
Jungengeburten, 174
Konfidenzintervall, 84
konjugierte Verteilung, 58, 192, 196, 205
Konsistenz, 155
im quadratischen Mittel, 155
schwache, 156
starke, 156
Kontingenztafeln, 46
Korrelationskoeffizient, 105, 119
Korrelationsmatrix, 129
Kovarianz, 104
Interpretation, 105
Rechenregel, 104
Kovarianzmatrix, 128, 131
Lageparameter, 30
Lebensdauer, 50
Likelihoodfunktion, 145
für Mischverteilungen, 179
212
Lineare Kongruenz-Methode, 28
Lineare Modelle, 47
Linearkombinationen, 134
Loglikelihoodfunktion, 146
Maximum, 146
Lognormalverteilung, 87
Anwendungen, 89
Dichtefunktion, 87
Erwartungswert, 89
R-Befehle, 89
Varianz, 89
Verteilungsfunktion, 87
Lotze, R. H., 144
Münzwurf, 1, 12, 144
Wahrscheinlichkeitsfunktion, 1
Markoffsche Eigenschaft, 50, 66
Maximum-Likelihood-Methode, 144
Maximum-Likelihood-Schätzer, 37, 144
Methode der Momente, 142
Mischverteilungen, 69, 160
Erwartungswert, 163
Momente, 163
Negative Binomialverteilung, 177
Varianz, 164
Misserfolg, 60, 74
Mittelwertpfad, 14
mittlerer quadratischer Fehler, 154
Moment
um den Erwartungswert, 20
gemeinsames, 102, 103
um Erwartungswert, 103
k-tes, 19
zentrales, 20
zentriertes, 20
Momente, 19
gemeinsame, 127
MQF-wiksamer, 158
negative Binomialverteilung, 66, 75, 77, 203
Erwartungswert, 68
Parameter, 66
R-Befehle, 69
Varianz, 68
Wahrscheinlichkeitsfunktion, 66
Nichtzentralitätsparameter, 47, 84, 86
Normalverteilung, 29, 77–80, 82, 85, 87,
204
Bedeutung, 35
Index
bivariate, 105, 119, 130
bedingte Verteilungen, 121
Dichtefunktion, 119
Höhenlinien, 120
Parameter, 119
R-Befehle, 122
Randverteilungen, 121
Standardform, 120
Dichtefunktion, 29
Erwartungswert, 33
Likelihoodfunktion, 148
Loglikelihoodfunktion, 148
multivariate
bedingte Vert., 140
Randverteilungen, 140
p-dimensionale, 130
Definition, 137
Dichtefunktion, 130
Parameter, 130
Schätzer, 132
Parameter, 29
Schätzung, 143, 148
R-Befehle, 37
singuläre, 137
Standard, 30, 137
Varianz, 33
Verteilungsfunktion, 32
Ökonometrie, 47
orthonormiert, 138
P-Wert, 27
Verteilung unter der Nullhypothese, 27
Parameter
scale, 41
Schätzung, 142
Schätzung für Mischungen, 179
Schätzung mit C.A.MAN, 182
shape, 41
partielle Integration, 35
Poissonprozess, 42, 51, 70, 72
Definition, 51
Intensität, 73
räumlicher, 70
Wartezeit, 42
Zeit zwischen Ereignissen, 51
Poissonverteilung, 69, 70, 76, 78, 197, 202
Anwendungen, 70
Approximation
Index
der Binomialverteilung, 70
durch Normalverteilung, 70
Erwartungswert, 70
Likelihoodfunktion, 147
Loglikelihoodfunktion, 147
Parameter, 70
Schätzung, 143, 146
R-Befehle, 73
Varianz, 70
Wahrscheinlichkeitsfunktion, 70
positiv definit, 137
Posteriori-Verteilung, 192
prädiktive Verteilung, 69, 200
Prüfgröße, 27
asymptotische Verteilung, 27
Pseudo-Zufallszahlen, 28
R-Befehl
beta, 53
choose, 64
contour, 105, 123
dbbinom, 177
dbeta, 59
dbinom, 63
dbnorm, 122
dchisq, 47
density, 170
dexp, 52
df, 86
dgamma, 41
dgeom, 66
dlnorm, 89
dnbinom, 69
dnorm, 37
dpois, 73
dt, 84
dunif, 29
gamma, 39
image, 105, 123
pbbinom, 177
pbeta, 59
pbinom, 64
pchisq, 47
persp, 122
pexp, 53
pf, 86
pgamma, 42, 44
pgeom, 66
213
plnorm, 89
pnbinom, 69
pnorm, 37
ppois, 73
pt, 84
punif, 29
qbeta, 59
qbinom, 64
qchisq, 47
qexp, 53
qf, 87
qgamma, 42
qgeom, 66
qlnorm, 89
qnbinom, 69
qnorm, 38
qpois, 73
qt, 84
qunif, 29
rbeta, 59
rbinom, 64
rbnorm, 122
rchisq, 47
rexp, 53
rf, 87
rgamma, 42
rgeom, 66
rlnorm, 89
rnbinom, 69
rnorm, 38
rpois, 73
rt, 84
runif, 29
s3bnormpersp.fun, 122
s3bormcon.fun, 123
Randdichtefunktion, 97, 108, 112, 127
random walk, 58
Randverteilungsfunktion, 127
Randwahrscheinlichkeitsfunktion, 92, 127
Rechenregeln
für Erwartungswerte, 19
Rechteckverteilung, 23
Dichtefunktion, 23
empirische Verteilungsfunktion, 26
Erwartungswert, 24
Histogramm, 26
Likelihoodfunktion, 149
Parameter, 23
214
Schätzung, 149
R-Befehle, 29
Standardform, 23
Varianz, 24
Verteilungsfunktion, 23
Regressionsanalyse, 86, 133
relative Häufigkeit, 190
Rendite, 172
robust, 37
scale-Parameter, 41
Schätzer
Bias, 151
Eigenschaften, 150
erwartungstreuer, 150
Fehler, 152
Standardabweichung, 152
Standardfehler, 152
Streuung, 152
Schätzfunktion, 150
Schätzmethoden, 142
shape-Parameter, 41
Siginifikanzniveau
Einhaltung des, 27
Standardabweichung, 22, 152
Standardfehler, 152
Standardnormalverteilung, 30
Verteilungsfunktion, 31
Standardrechteckverteilung, 23
stetig, 3, 90
stetige Mischung, 177
diskreter Verteilungen, 173
Stichprobenmoment, 142
Stochastischer Prozess, 37
Streuung, 22
einer Konstanten, 22
Streuungsmaß, 22
Streuungsparameter, 31
Substitution, 32, 34
Summe der Quadrate, 82, 86
Summe der Quadrate Gruppen, 86
Summe der Quadrate Rest, 86
Summe von Quadraten, 46
Summen und Linearkombinationen, 134
t-Test
Prüfgröße, 84
t-Verteilung, 82
Dichtefunktion, 82
Index
Erwartungswert, 82
Parameter, 82
R-Befehle, 84
zentrale, 84
totale Wahrscheinlichkeit, 187
Tschebyscheffsche Ungleichung, 157
Überlebenszeitfunktion, 52
überschätzen, 150
unabhängig, 127
Unabhängigkeit, 98, 110, 116, 131
Unabhängigkeitstest, 46
Uniform, 23
unkorreliert, 105
Unkorreliertheit, 131
unterschätzen, 150
Varianz, 20, 103
bedingte, 115
Berechnung, 20
Rechenregeln, 21
Schätzer, 46
Varianzanalyse, 46, 82, 86
Verteilung
χ2 nichtzentrale, 140
identische, 23
konjugierte, 192, 196, 205
ohne Gedächtnis, 51, 65
prädiktive, 200
seltener Ereignisse, 77
Verteilungen
diskrete, 60
stetige, 23
Verteilungsfunktion, 6
Eigenschaften, 9
einer diskreten ZV, 6, 8
einer stetigenm ZV, 6
gemeinsame, 99, 126
Wahrscheinlichkeit, 3
bedingte, 187
Interpretation
klassisch, 190
subjektive, 190
totale, 187
Wahrscheinlichkeitsfunktion, 1, 9
bedingte, 110, 128
Eigenschaften, 3
Index
gemeinsame, 91, 110, 125
Eigenschaften, 91
Wiener-Prozess, 37
wirksamer, 158
wirksamst, 158
Zähldaten, 70
Zentraler Grenzwertsatz, 36, 77, 79, 80
zentrales Moment, 20
zentriertes Moment, 20
Zerlegung, 186
Zufallsvariable
diskrete, 1
Erwartungswert, 12
Standardabweichung, 22
stetige, 3, 125
Streuung, 22
Varianz, 20
Verteilung, 1
Verteilungsfunktion, 6
Zufallsvariablen
p-dimensionale, 125
Zufallszahlen
Erzeugung, 28
exponentialverteilter, 28
Erzeugung von, 23
215
Formeln
Kapitel 1: Zufallsvariablen und ihre Verteilung
Diskret: PX (x) = P ({X = x})
FX (t) = P ({X ≤ t}) t ∈ IR
P
Diskret: FX (t) =
x≤t
PX (x)
Stetig: P ({a ≤ X ≤ b}) =
Stetig: FX (t) =
Rt
−∞
Rb
a
fX (x)dx
a≤b
fX (x)dx
Stetig: fX (x) = FX0 (x)
Diskret: PX (x) = FX (x) − lim h→0 FX (x − h)
h>0
P ({a < X ≤ b}) = FX (b) − FX (a)
Kapitel 2: Erwartungswert
Diskret: EX =
P
x
xPX (x)
Diskret: EH(X) =
P
x
Stetig EX =
∞
R
−∞
H(x)PX (x)
xfX (x)dx
Stetig: EH(X) =
∞
R
−∞
H(x)fX (x)dx
Ec = c EcH(X) = cEH(X) E(H(X) + G(X)) = EH(X) + EG(X)
µ0k = EX k µk = E(X − µ)k
2
µ2 = σ X
= E(X − EX)2 = V ar(X) = EX 2 − (EX)2
V ar(c) = 0 V ar(cX) = c2 V arX V ar(X + c) = V arX
Kapitel 3: Stetige Verteilungen
Rechteckverteilung: X ∼ U (a; b)
fX (x) =
(
1
b−a
0



für a ≤ x ≤ b
FX (t) =

sonst .

0
für
für
für
t−a
b−a
1
t<a
a≤t≤b
t>b.
(b−a)2
12
b+a
2
EX =
V ar(X) =
dunif(x, min=0, max=1) punif(q, min=0, max=1)
qunif(p, min=0, max=1) runif(n, min=0, max=1)
Normalverteilung: X ∼ N (µ; σ 2 )
−∞<µ<∞
σ2 > 0
2
2
1
fX (x) = √2πσ2 e−(x−µ) /2σ
−∞<x<∞
X ∼ N (0; 1)
FX (x) = Φ(x) =
f (z)dz =
−∞
Rx
−∞
2
√1 e−z /2 dz
2π
X ∼ N (µ; σ ) =⇒ Z =
∼ N (0, 1)
FX (x) = Φ x−µ
−∞<x<∞
σ
EX = µ
V ar(X) = σ
X̄n√
−µ
∼N
˙ (0; 1)
E X̄n = µ und V ar X̄n = σ 2 /n
σ/ n
dnorm(x, mean=0, sd=1)
pnorm(q, mean=0, sd=1)
qnorm(p, mean=0, sd=1)
rnorm(n, mean=0, sd=1)]
R∞ ν−1 −t
Gammaverteilung: Γ(ν) = t e dt Γ(1) = 1 Γ(n) = (n − 1)!
2
X−µ
σ
2
Rx
0
216
Formeln
217
X ∼ G(ν;λ)
ν > 0 und λ > 0
G(1; λ) ≡ Exp(λ)
ν ν−1 −λx
e
 λ x
x≥0
Γ(ν)
fX (x) =
EX = ν/λ
V ar(X) = ν/λ2

0
sonst .
dgamma(x, shape,scale=1) pgamma(q, shape,scale=1)
qgamma(p, shape,scale=1) rgamma(n, shape,scale=1) scale = 1/λ
Xi ∼ Exp(λ)
=⇒
ν
P
i=1
Xi ∼ G(ν; λ)
Chiquadratverteilung: X ∼ χ2n
EX = n
V ar(X) = 2n
Xi ∼ N (µ; σ 2 )
S2 =
1
n
n
P
i=1
n ∈ IN
(Xi − X̄)2
χ2n ≡ G(n/2; 1/2)
=⇒
nS 2
σ2
∼ χ2n−1
dchisq(x, df) pchisq(q, df, ncp=0) qchisq(p, df) rchisq(n, df)
Exponentialverteilung:
X ∼ Exp(λ) λ > (0
Exp(λ) ≡ G(1; λ)
(
−λx
λe
0≤x<∞
0
für
t<0
f (x) =
F (t) =
0
sonst
1 − e−λt für
t≥0.
1
1
EX = λ
V ar(X) = λ2
dexp(x, rate=1) pexp(q, rate=1) qexp(p, rate=1) rexp(n, rate=1)
Betaverteilung: X ∼ Be(α; β)
α>0
und
β>0
( xα−1 (1−x)β−1
R1
0≤x≤1
B(α,β)
B(α, β) = tα−1 (1 − t)β−1 dt = Γ(α)Γ(β)
fX (x) =
Γ(α+β)
0
sonst
0
α
E(X) = α+β
V arX = (α+β)2αβ
(α+β+1)
dbeta(x, shape1, shape2) pbeta(q, shape1, shape2)
qbeta(p, shape1, shape2) rbeta(n, shape1, shape2)
Kapitel 4: Diskrete Verteilungen
Bernoulli-Verteilung:
X ∼ Ber(π)
0<π<1


 1 − π für x = 0
π
für x = 1
PX (x) =
EX = π
V ar(X) = π(1 − π)


0
sonst .
Binomialverteilung:
X ∼ b(n; π)
n ∈ IN
0<π<1
( n
x
n−x
π (1 − π)
x = 0, 1, 2, ..., n
x
PX (x) =
EX = nπ V ar(X) = nπ(1 − π)
0
sonst
dbinom(x, size, prob) pbinom(q, size, prob)
qbinom(p, size, prob) rbinom(n, size, prob)
Geometrische
Verteilung: X ∼ Ge(π)
0<π<1
(
x
(1 − π) π x = 0, 1, 2, ...
PX (x) =
EX = 1−π
V arX = 1−π
π
π2
0
sonst
dgeom(x, prob) pgeom(q, prob)
qgeom(p, prob) rgeom(n, prob)
Negative (
Binomialverteilung:
X ∼ N B(r; π)
r ∈ IN
0<π<1
x+r−1
r
x
π (1 − π)
x = 0, 1, 2, . . .
r−1
PX (x) =
EX = r 1−π
V ar(X) = r 1−π
π
π2
0
sonst
dnbinom(x, size, prob) pnbinom(q, size, prob)
qnbinom(p, size, prob) rnbinom(n, size, prob)
Poissonverteilung:
λ>0
( x −λ X ∼ P o(λ)
λ e
x = 0, 1, 2, ...
x!
PX (x) =
EX = λ V arX = λ
0
sonst.
218
Formeln
dpois(x, lambda) ppois(q, lambda)
qpois(p, lambda) rpois(n, lambda)
Kapitel 5: Beziehungen zwischen Verteilungen
Xi ∼ Ber(π) unabhängig =⇒ X =
n
P
Xi ∼ b(n; π)
i=1
Xi ∼ b(ni ; π) i = 1, 2 unabhängig =⇒ X1 + X2 ∼ b(n1 + n2 ; π)
Ge(π) ≡ N B(1; π)
Xi ∼ Ge(π) unabhängig =⇒ X =
r
P
i=1
Xi ∼ N B(r; π)
Xi ∼ N B(ri ; π) i = 1, 2 unabhängig =⇒ X1 + X2 ∼ N B(r1 + r2 ; π)
X ∼ b(n; π) mit π ,,klein” und n ,,groß” =⇒ X ∼P
˙ o(λ) mit λ = nπ
2
X ∼ b(n; π) mit n ,,groß” =⇒ X ∼N
˙ (µ; σ ) mit µ = nπ σ 2 = nπ(1 − π)
X ∼ N B(r; π) mit r ,,groß” =⇒ X ∼N
˙ (µ; σ 2 ) mit µ = r(1 − π)/π σ 2 = r(1 − π)/π 2
Xi ∼ P o(λi ) unabhängig =⇒ X1 + X2 ∼ P o(λ1 + λ2 )
X ∼ P o(λ) mit λ ,,groß” =⇒ X ∼N
˙ (µ; σ 2 ) mit µ = λ σ 2 = λ
Xi ∼ Exp(λ)
=⇒
ν
P
i=1
Xi ∼ G(ν; λ)
X ∼ G(ν; λ) mit ν ,,groß” =⇒ X ∼N
˙ (µ; σ 2 ) mit µ = ν/λ σ 2 = ν/λ2
Xi ∼ G(νi ; λ) unabhängig =⇒ X1 + X2 ∼ G(ν1 + ν2 ; λ)
Xi ∼ χ2ni unabhängig =⇒ X1 + X2 ∼ χ2n1 +n2
X ∼ χ2n mit n ,,groß” =⇒ X ∼N
˙ (µ; σ 2 ) mit µ = n σ 2 = 2n
Xi ∼ N (µ; σ 2 ) unabhängig =⇒ X =
n
P
Xi ∼ N (µi ; σi2 ) unabhängig =⇒ X =
Xi ∼ N (0, 1) unabhängig =⇒ X =
2
Xi ∼ N (µ; σ ) unabhängig X̄ =
1
n
n
P
i=1
n
P
Xi ∼ N (
Xi2 ∼ χ2n
i=1
i=1
Xi ∼ N (nµ; nσ 2 )
i=1
n
P
Xi
S2 =
1
n
n
P
i=1
n
P
i=1
t-Verteilung: X ∼ tν ν ∈ IN
EX = 0
X1 ∼ N (0; 1), X2 ∼ χ2 (ν) unabhängig =⇒ √X1
1
n−1
n
P
i=1
n
P
i=1
=⇒
nS 2
σ2
∼ χ2 (n−1)
∼ t(ν)
X̄−µ
√
S∗ / n
(Xi − X̄)2
σi2 )
(Xi − X̄)2
X2 /ν
Xi ∼ N (µ; σ 2 ) unabhängig S∗2 =
µi ;
∼ tn−1
dt(x, df) pt(q, df, ncp=0) qt(p, df) rt(n, df)
F-Verteilung: X ∼ F (ν1 ; ν2 ) νi ∈ IN, i = 1, 2
1 /ν1
Xi ∼ χ2νi =⇒ X
∼ F (ν1 ; ν2 )
X2 /ν2
df(x, df1, df2) pf(q, df1, df2, ncp=0)
qf(p, df1, df2) rf(n, df1, df2)
Lognormalverteilung::
X ∼ Λ(µ; σ 2 ) ∞ < µ < ∞ σ 2 > 0

2
2

 √1
e−(log x−µ) /2σ x > 0
2
f (x) =  x 2πσ
FX (x) = Φ log σx−µ

0
sonst
2
X ∼ Λ(µ; σ ) =⇒ log X ∼ N (µ; σ 2 )
Y ∼ N (µ; σ 2 ) =⇒ eY ∼ Λ(µ; σ 2 )
µ+σ 2 /2
2µ σ 2 σ 2
EX = e
V ar(X) = e e (e − 1)
dlnorm(x, meanlog=0, sdlog=1) plnorm(q, meanlog=0, sdlog=1)
qlnorm(p, meanlog=0, sdlog=1) rlnorm(n, meanlog=0, sdlog=1)
Kapitel 6: Gemeinsame Verteilung von Zufallsvariablen
PXY (x, y) = P ({X = x, Y = y}) PX (x) =
P
y
PXY (x, y)
PY (y) =
P
x
PXY (x, y)
Formeln
219
P ({a ≤ X ≤ b; c ≤ Y ≤ d}) =
fX (x) =
∞
R
−∞
fXY (x, y)dy
Diskret: FXY (x, y) =
fXY (x, y) =
∂2
F
∂x∂y XY
Rb Rd
a c
fY (y) =
P P
s≤x t≤y
∞
R
−∞
c≤d
fXY (x, y)dx FXY (x, y) = P ({X ≤ x; Y ≤ y})
PXY (s, t) Stetig: FXY (x, y) =
(x, y)
 PP

 x y H(x, y)PXY (x, y)
R∞ R∞


H(x, y)fXY (x, y)dydx
EH(X, Y ) =
a≤b
fXY (x, y)dy dx
Rx
Ry
−∞ −∞
fXY (s, t)dt ds
X und Y diskret
Xund Y stetig
−∞ −∞
E(cH(X, Y )) = cEH(X, Y ) E[(H(X, Y ) + G(X, Y )] = EH(X, Y ) + EG(X, Y )
µ0rs = EX r Y s
µrs = E(X − µX )r (Y − µY )s
µ11 = Cov(X, Y ) = σXY = E(X − µX )(Y − µY ) = EXY − EX · EY
ρXY = σσXXY
= √ cov(X,Y )
−1 ≤ ρXY ≤ 1
σY
V ar(X)V ar(Y )
PXY (x,y)
PX|Y (x|y)
PX (x)
(x,y)
(x,y)
(x,y)
= PXY
fY |X (y|x) = fXY
fX|Y (x|y) = fXY
PY |X (y|x) =
PY (y)
fX (x)
fY (y)
Unabhängigkeit: PXY (x, y) = PX (x)PY (y) fXY (x, y) = fX (x)fY (y)
Bivariate Normalverteilung: (X1, X2 ) ∼ N(µ1 , µ2 , σ12 , σ22 , ρ)
x1 −µ1 2
x1 −µ1 x2 −µ2
x2 −µ2 2
1√
1
fX1 X2 (x1 , x2 ) =
exp − 2(1−ρ2 )
− 2ρ σ
+ σ
σ
σ
1−ρ2
2πσ1 σ2
N (µ1 ; σ12 )
1
1
2
2
N (µ2 ; σ22 )
X1 ∼
X2 ∼
X1 |X2 = x2 ∼ N (µ1 + ρσ1 (x2 − µ2 )/σ2 ; σ12 (1 − ρ2 ))
X2 |X1 = x1 ∼ N (µ2 + ρσ2 (x1 − µ1 )/σ1 ; σ22 (1 − ρ2 ))
Kapitel 7: P-dimensionale Zufallsvariablen
Die p-dimensionale Normalverteilung: X ∼ N (µ; Σ)
t
−1
1
√
fX1 X2 ...Xp (x1 , x2 , . . . , xp ) =
e−(x−µ) Σ (x−µ)/2
p/2
(2π)
det (Σ)
Summen und Linearkombinationen von Zufallsvariablen:
S = X1 + X2 + . . . Xn = 1t X
L = a 1 X1 + a 2 X2 + . . . a n Xn = a t X
n
n
n P
n
P
P
P
E(S) =
µi
V ar(S) =
σi2 +
σij
i=1
E(L) =
X̄n =
1
n
n
P
i=1
n
P
i=1
V ar X̄n =
= σ 2 /n
i=1
i=1j=1
i6=j
a i µi = a t µ
V ar(L) =
Xi = n1 1t X
E X̄n =
1
n2
n
P
i=1
σi2 +
1
n2
n P
n
P
i=1j=1
i6=j
ai ∈ IR
1
n
σij =
n
P
i=1
a2i σi2 +
n
P
µi =
i=1
n
1 P 2
σi
n2
i=1
n P
n
P
i=1j=1
i6=j
ai aj σij = at Σa
µ falls Xi identisch verteilt
falls Xi unabhängig
falls Xi unabh. und identisch verteilt
Kapitel 8: Sch¨
atzung von Parametern
m0k =
1
n
n
P
i=1
xki
L(θ) =
n
Q
i=1
f (xi ; θ) bzw. =
q
n
Q
i=1
P (xi ; θ)
Bias(θ̂) = E θ̂ − θ
SF(θ̂) = Var(θ̂)
MQF(θ̂) = E(θ̂ − θ)2 = Var(θ̂) + (Bias(θ̂))2
Konsistenz im quadratischen Mittel: lim M QF (θ̂) = 0
n→∞
Schwache Konsistenz: lim P (|θ̂ − θ| < ) = 1
n→∞
Ungleichung von Tschebyscheff: P (|X − µ| ≥ c) ≤
Kapitel 9: Mischverteilungen
σ2
c2
220
Formeln
P (x) =
I
P
i=1
µ0k =
I
P
i=1
ri Pi (x)
ri µ0k (i)
0 ≤ ri ≤ 1
I
P
i=1
ri = 1
f (x) =
I
P
i=1
ri fi (x)
I = 2 : σ 2 = r1 σ 2 (1) + r2 σ 2 (2) + r1 r2 (µ(1) − µ(2))2
Beta-Binomialverteilung:
n ∈ IN α > 0 β > 0
( n B(x+α,n+β−x)
x = 0, 1, . . . , n
x
B(α,β)
P ({X = x}) =
0
sonst .
Kapitel 10: Bayes’sche Verfahren
P (A) =
k
P
i=1
P (A|Bi ) · P (Bi )
P (A|Bj )P (Bj )
P (Bj |A) = P
k
f (y|x) = R∞ f (x|y)f (y)
f (x|y)f (y)dy
P (A|Bi )P (Bi )
−∞
i=1
f (θ; x) = f (x|θ)f (θ)
f (θ|X = x) = R∞ f (x|θ)f (θ)
f (y|X = x) = R∞ P ({X=x}|y)f (y)
f (x|θ)f (θ)dθ
−∞
f (θ|X = x) = R∞ P (x|θ)f (θ)
P (x|θ)f (θ)dθ
−∞
(X diskret)
P ({X=x}|y)f (y)dy
−∞
(X stetig)
Herunterladen