Kapitel 9 Mischverteilungen

Kapitel 9
Mischverteilungen
Bei der Modellanpassung versucht man in der Regel ein einfaches Modell (beispielsweise
die Poissonverteilung) zur Beschreibung der Daten zu verwenden. Häufig zeigt sich jedoch,
dass ein vermutetes Modell dazu nicht in der Lage ist. Beispielsweise kann die grafische
Darstellung der Häufigkeiten einer Stichprobe multimodal sein, was nicht zur unimodalen
Gestalt der Poissonverteilung passt. Eine mögliche Erklärung für die Multimodalität ist, dass
die Population, aus der die Daten stammen, heterogen ist. Damit ist gemeint, dass die Population aus verschiedenen Gruppen (Subpopulationen) besteht, bei denen sich die Verteilung
des betrachteten Merkmals unterscheidet und so zu der Multimodaltät führt. Betrachtet man
beispielsweise die Anzahl von Zigarettenpackungen, die von einzelnen Kunden eines Supermarkts gekauft werden, so wäre ein Histogramm der Daten wahrscheinlich nicht unimodal
und somit das zugehörige Modell keine Poissonverteilung. Es ist offensichtlich, dass die betrachtete Grundgesamtheit aus zwei Gruppen besteht, den Rauchern und den Nichtrauchern
und es ist auch offensichtlich, dass sich die Verteilung des Merkmals in den beiden Gruppen
unterscheidet. Es ist gut möglich, dass die (bedingte, d.h. gegeben Raucher bzw. Nichtraucher) Verteilung jeweils vom Typ Poisson ist, die unbedingte Verteilung des Merkmals ist
jedoch eine Mischverteilung.
Wir wollen in diesem Kapitel die grundlegenden Eigenschaften von Mischverteilungen besprechen, die Sie in der englischen Literatur unter den Begriffen ,,Mixture Models”, ,,Mixture Distributions” (siehe z.B. Kotz und Johnson (1985), Band 5, wo Sie viele interessante
Anwendungsbeispiele finden) oder ,,Compound Distributions” finden (siehe auch Everitt und
Hand (1981)). Als wesentliche Literaturquelle sei das Buch ,,Computer–Assisted Analysis of
Mixtures and Applications” (Böhning D., 1999) erwähnt. Die in diesem Buch beschriebene
Software C.A.MAN kann kostenlos von der Hompage des Autors (http://www.medizin.fuberlin.de/sozmed/bo1.html) heruntergeladen werden.
9.1 Diskrete Mischung diskreter Verteilungen
Definition 9.1 Seien P1 (x) und P2 (x) Wahrscheinlichkeitsfunktionen und sei
1 : Dann heißt
P (x) = r P1 (x) + (1 r)P2 (x)
die Mischverteilung von P1 und P2 .
160
0
r
9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN
161
Abbildung 9.1 zeigt zwei diskrete Verteilungen P1 und P2 und dazu in der dritten Zeile die
Mischung
P = 0:3P1 + 0:7P2 :
P1
0.6
0.4
0.2
0.0
1
2
3
4
5
6
5
6
P2
0.6
0.4
0.2
0.0
1
2
3
4
0.3 P1 + 0.7 P2
0.6
0.4
0.2
0.0
1
2
3
4
5
6
Abbildung 9.1: Diskrete Mischung zweier Verteilungen, r
= 0:3
Beispiel 9.1 Wir betrachten zwei Münzen, für die gelten möge
P f,,Kopf”g
P f,,Kopf”g
:
für Münze 1.
:
für Münze 2.
(
) = 0 1
(
) = 0 8
Man wählt zufällig eine der Münzen und wirft sie viermal. Sei X die Anzahl der ,,Köpfe”. Die Münze
1 werde mit Wahrscheinlichkeit r ausgewählt, d.h.
P (fMünze 1 gewähltg) = r :
Dann gilt für die Wahrscheinlichkeitsfunktion von X
P (fX = xg)
=
=
=
P (fX = x; Münze 1 gewähltg [ fX = x; Münze 2 gewähltg)
P (fX = xgjfMünze 1g)P (fMünze 1g) + P (fX = xgjfMünze 2g)P (fMünze 2g)
4
x
!
x
0:1 (1
4 xr +
0:1)
4
!
x
:
x
0 8 (1
:
4 x (1
0 8)
r) :
Abbildung 9.2 zeigt die beiden Wahrscheinlichkeitsfunktionen zusammen mit ihrer Mischung
für r = 0:5.
162
KAPITEL 9. MISCHVERTEILUNGEN
P1
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
3
4
P2
0.8
0.6
0.4
0.2
0.0
0
1
2
0.5 P1 + 0.5 P2
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
Abbildung 9.2: Diskrete Mischung zweier Binomialverteilungen, r
= 0:5
Satz 9.1 Die Mischung
P (x) = r P1 (x) + (1 r)P2 (x)
ist wieder eine Wahrscheinlichkeitsfunktion.
Beweis:
a)
P (x) 0 für alle x, da P1 (x) 0; P2(x) 0 für alle x, r 0 und 1 r 0.
b)
P (x) > 0 für höchstens abzählbar unendlich viele x, da P1 (x) > 0 und P2 (x) > 0 für
jeweils höchstens abzählbar unendliche viele x.
c)
X
x
P (x) =
X
x
= r
(rP1 (x) + (1 r)P2 (x))
X
P1 (x) +(1 r)
| x {z
1
}
= r + (1 r) = 1 :
X
P2 (x)
x
| {z }
1
9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN
163
Beispiel 9.2 Die Verteilung des Geschlechts von Zwillingen ist eine Mischverteilung (siehe Blischke (1978)). Es gibt drei Klassen von Zwillingen:
W W W M MM :
Das führt zu einer Trinomialverteilung. Dabei steht W für weiblich und M für männlich. Ferner gibt
es zweieiige und eineiige Zwillinge. Die Geschlechter zweieiiger Zwillinge sind unabhängig voneinander. Daher ist die Verteilung:
2
2
)
(1
(1
)2 :
Eineiige Zwillinge haben jedoch das gleiche Geschlecht. Daher ist die Verteilung des Geschlechts für
eineiige Zwillinge:
0
(1
) ;
wobei die Wahrscheinlichkeit einer Mädchengeburt ist. Das Geschlecht von Zwillingen ist eine
Mischung dieser beiden Verteilungen, wobei der Mischungsparameter r bzw. 1 r durch den Anteil
der zweieiigen Zwillinge bzw. eineiigen Zwillinge bestimmt wird.
Definition 9.2 (Diskrete Mischung mit I Komponenten) Seien
P1 (x); P2 (x); : : : ; PI (x)
jeweils Wahrscheinlichkeitsfunktionen. Eine diskrete Mischung dieser Wahrscheinlichkeitsfunktionen ist dann definiert durch
P (x) = r1 P1 (x) + r2 P2 (x) + + rI PI (x)
=
wobei 0 ri
I
X
i=1
ri Pi (x) ;
I
ri = 1 :
1 für alle i und iP
=1
Satz 9.2 Seien P1 (x); P2 (x); : : : ; PI (x) jeweils Wahrscheinlichkeitsfunktionen und sei
P (x) die Mischverteilung bezüglich der Mischungsparameter r1 ; r2 ; : : : ; rI . Das k-te
Moment der i-ten Verteilung sei mit 0k (i) bezeichnet. Dann gilt für das k -te Moment
der Mischverteilung
0k = r1 0k (1) + r2 0k (2) + + rI 0k (I )
=
I
X
i=1
ri 0k (i) :
Insbesondere gilt für den Erwartungswert bezüglich einer Mischverteilung
E (X ) = r1 (1) + r2 (2) + rI (I ) ;
164
KAPITEL 9. MISCHVERTEILUNGEN
wobei (i) der Erwartungswert bezüglich der i-ten Komponente ist. Auch für die Varianzen
kann man ein ähnliches Resultat herleiten, das jedoch komplizierter wird. Wir formulieren
es nur für die Mischung mit zwei Komponenten.
Satz 9.3 Seien P1 und P2 zwei Wahrscheinlichkeitsfunktionen mit Erwartungswerten
(1) und (2) und Varianzen 2 (1) und 2 (2). Dann gilt für die Varianz 2 der Mischverteilung mit den Mischungsparametern r1 und r2
2 = r1 2 (1) + r2 2 (2) + r1 r2 ((1) (2))2 :
Beweis:
Wenn man im folgenden beachtet, dass 02
r2 = 1 r1 gilt, so folgt:
2 =
=
=
=
=
=
= EX 2 = Var(X ) + (E (X ))2 = 2 + (01 )2 und
02 (01 )2
r1 ( 2 (1) + (1)2 ) + r2 ( 2 (2) + (2)2 ) (r1 (1) + r2 (2))2
r1 2 (1) + r2 2 (2) + r1 (1)2 + r2 (2)2 r12 (1)2 2r1 r2 (1)(2) r22 (2)2
r1 2 (1) + r2 2 (2) + r1 (1 r1 )(1)2 + r2 (1 r2 )(2)2 2r1 r2 (1)(2)
r1 2 (1) + r2 2 (2) + r1 r2 ((1)2 2(1)(2) + (2)2)
r1 2 (1) + r2 2 (2) + r1 r2 ((1) (2))2
Beispiel 9.3 Das folgende Beispiel ist von Böhning, D. (1999, S. 3–5) übernommen. Untersucht
wird die Einführung eines neuen Süßwarenprodukts. Im Rahmen der Markteinführung wird die Anzahl verkaufter Packungen (im folgenden mit X bezeichnet) in verschiedenen Geschäften erhoben.
Die nachfolgende Tabelle zeigt die Ergebnisse der Datenerhebung.
Anzahl verkaufter Packungen 0
1 2
Häufigkeit
102 54 49
3 4 5 6
62 44 25 26
7 8 9
15 15 10
Anzahl verkaufter Packungen
Häufigkeit
13 14 15 16
3 3 5 5
17 18 19 20
4 1 2 1
10
10
11 12
10 10
Typischerweise verwendet man zur Beschreibung von Zähldaten unter homogenen Bedingungen in
der Population die Poissonverteilung, d.h. P (x) = e x =x!. Abbildung 9.3 zeigt jedoch eine bimodale Verteilung der Daten. Mit anderen Worten ist die Population heterogen, sie besteht aus unterschiedlichen Subpopulationen.
Schätzt man die Anzahl der Komponenten, die Parameter der einzelnen Poissonverteilungen sowie die
Mischungsparameter mit Hilfe des Programms C.A.MAN (zur Parameterschätzung siehe Abschnitt
9.4.3), erhält man fünf Komponenten:
r1 = 0:01 r2 = 0:24 r3 = 0:50 r4 = 0:15 r5 = 0:10
1 = 0:00 2 = 0:21 3 = 3:00 4 = 7:39 5 = 12:86
165
60
40
0
20
Häufigkeit
80
100
9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN
0
1
2
3
4
5
6
7
8
9 10
12
14
16
18
20
Anzahl verkaufter Packungen
Abbildung 9.3: Verteilung der verkauften Packungen
0.20
Abbildung 9.4 zeigt die relativen Häufigkeiten der empirischen Daten gemeinsam mit einer angepassten Poissonverteilung sowie der angepassten Mischverteilung. Wie zu erkennen ist, liefert die
Mischverteilung eine wesentlich bessere Beschreibung der Daten.
0.00
0.05
0.10
0.15
Daten
Mischung von Poissonverteilungen
Poissonverteilung
0
1
2
3
4
5
6
7
8
9 10
12
14
16
18
20
Anzahl verkaufter Packungen
Abbildung 9.4: Verteilung der verkauften Packungen
Man kann die Ergebnisse der Analyse auch anders interpretieren: Es gibt ein weiteres Merkmal, das
die Geschäfte beschreibt, die ,,Verkaufsfähigkeit”. Man kann diese als kategoriales Merkmal interpretieren, das die Fähigkeit der Geschäfte beschreibt, das neue Produkt zu verkaufen. Hätte man vor
der Untersuchung gewusst, wie die einzelnen Geschäfte hinsichtlich dieses Merkmals zu beurteilen
wären, hätte man für die einzelnen Kategorien jeweils Poissonverteilungen anpassen können. Somit
kann man sagen, dass die Vernachlässigung einer erklärenden Variable zu einer Mischung von Poissonverteilungen führt.
166
KAPITEL 9. MISCHVERTEILUNGEN
9.2 Diskrete Mischung stetiger Verteilungen
Definition 9.3 Seien f1 (x) und f2 (x) zwei Dichtefunktionen und sei
heißt
0
r 1. Dann
f (x) = rf1 (x) + (1 r)f2 (x)
die Dichtefunktion der Mischverteilung.
Satz 9.4 Die Mischung
f (x) = rf1 (x) + (1 r)f2 (x)
ist wieder eine Dichtefunktion.
Beweis:
Da f1 und f2 Dichtefunktionen sind, gilt
a)
r)f2 (x) 0 für alle x, da f1 (x) 0; f2 (x) 0 für alle x und
f (x) = rf1 (x) + (1
r 0.
Z1
1
R
f (x)dx = r f1 (x)dx +(1
b)
1
|1 {z
}
=1
r)
Z1
f2 (x)dx = r + (1 r) = 1.
|1 {z
=1
}
c) Da f1 (x) und f2 (x) bis auf endlich viele Stellen stetig sind, ist f (x) auch stetig bis auf
endlich viele Stellen.
}
Mischverteilungen kommen oft vor, wenn man ein unbeobachtetes Merkmal hat. Stellen Sie
sich vor, Sie haben eine zufällige Stichprobe aus der Grundgesamtheit aller Göttinger Studenten genommen und deren Körpergöße gemessen. Wie wird ein vernünftiges Modell für
die Körpergröße der Göttinger Studenten aussehen? Zunächst gibt es unter den Studierenden in Göttingen Frauen und Männer. Es ist allgemein bekannt, dass die Körpergröße der
Frauen im Durchschnitt kleiner ist als die Körpergröße der Männer. Weiterhin ist es vernünftig anzunehmen, dass die Körpergröße von Frauen und von Männern, jeweils für sich allein
genommen, normalverteilt ist. Dies führt zu dem folgenden Modell
2 );
f (x) = rf1 (x; F ; F2 ) + (1 r)f2 (x; M ; M
wobei r der Anteil der Frauen in der Grundgesamtheit der Studierenden in Göttingen ist
und f1 bzw. f2 Dichten der Normalverteilung mit den Parametern F und F2 bzw. M und
2 für Frauen bzw. Männer sind. (Dieses Beispiel wurde nach einem Beispiel von Everitt
M
in Johnson und Kotz (1985) abgeändert.) In diesem Beispiel hätte man das Geschlecht der
9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN
167
f1
0.4
0.3
0.2
0.1
0.0
0
5
10
f2
0.4
0.3
0.2
0.1
0.0
0
5
10
0.4 f1 + 0.6 f2
0.4
0.3
0.2
0.1
0.0
0
5
10
Abbildung 9.5: Diskrete Mischung zweier stetiger Verteilungen, r
= 0:4
Studierenden erfassen können und die beiden Normalverteilungen separat anpassen können.
Es gibt jedoch Situationen, in denen es nicht möglich ist, das Geschlecht festzustellen, z.B.
bei wild lebenden Tieren. Ein anderes bei wild lebenden Tieren nicht beobachtbares Merkmal
ist das Alter, das Einfluss hat auf die Größe der Tiere oder z.B. die Länge von Fischen.
Ein anderer Bereich, in dem Mischverteilungen angewendet werden, ist die Analyse von
Ausfallzeiten, z.B. von elektronischen Bauteilen. Hier gibt es Ausfälle aufgrund verschiedener Ursachen, z.B. plötzliche Ausfälle (meist in einem frühen Stadium) oder natürliche
Ausfälle (Altersausfälle). Die resultierende Verteilung wird eine Mischverteilung sein. Als
mögliches Modell wurde hier die diskrete Mischung von zwei Exponentialverteilungen betrachtet.
Beispiel 9.4 Die Zufallsvariable X messe eine Länge bei Tieren. Die Zufallsvariable Y sei das
Geschlecht, das nicht beobachtet werden kann. Sei
f1 (x) die Dichtefunktion der Länge für männliche Tiere,
f2 (x) die Dichtefunktion der Länge für weibliche Tiere,
r = P (fMännliches Tierg),
1
r = P (fWeibliches Tierg).
Dann ist die Dichtefunktion der Mischverteilung
f (x)
=
=
P (fMännliches Tierg)f1 (x) + P (fWeibliches Tierg)f2 (x)
rf1(x) + (1 r)f2 (x) :
168
KAPITEL 9. MISCHVERTEILUNGEN
Nur weibliche Tiere
0.15
0.10
0.05
0.0
100
105
110
115
120
Nur maennliche Tiere
0.15
0.10
0.05
0.0
100
105
110
115
120
115
120
Alle
0.15
0.10
0.05
0.0
100
105
110
Abbildung 9.6: Histogramme der Kieferlängen
Abbildung 9.6 zeigt unten ein Histogramm mit 20 Beobachtungen der Kieferlängen prähistorischer
Schakale. In diesem Fall weiß man, dass 10 der Schakale männlich und 10 weiblich waren. Die
jeweiligen Histogramme sind ebenfalls in Abbildung 9.6 dargestellt.
An beide Stichproben wurden separat zwei Normalverteilungen angepasst. Abbildung 9.7 zeigt die
angepassten Verteilungen und die Mischung dieser beiden Verteilungen. In diesem Fall ist r = 1=2.
Definition 9.4 Eine diskrete Mischung mit
funktion
I
X
f (x) =
i=1
I stetigen Komponenten hat die Dichteri fi (x) ;
wobei f1 (x); f2 (x); ; fI (x) Dichtefunktionen sind und
r1 + r2 + + rI = 1
(0 ri 1):
Für die Momente 0k einer diskreten Mischung stetiger Verteilungen gilt Satz 9.2 entsprechend.
Beispiel 9.5 Abbildung 9.8 zeigt ein Histogramm des Benzinverbrauchs. Es handelt sich um einen
bei S-PLUS mitgelieferten Datensatz. Bei jeder neuen Tankfüllung, beginnend mit dem Neukauf des
9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN
169
Nur weibliche Tiere
0.10
0.05
0.0
90
100
110
120
130
Nur maennliche Tiere
0.10
0.05
0.0
90
100
110
120
130
120
130
Alle
0.10
0.05
0.0
90
100
110
Abbildung 9.7: Angepasste Dichtefunktionen und Mischung dieser Verteilungen
Wagens wurden die gefahrenen Meilen und die verbrauchten Gallonen notiert. Anders als in Deutschland wird in den USA der Benzinverbrauch in Meilen pro Gallone gemessen. Der Benzinverbrauch
gibt also an, wieviel Meilen mit einer Gallone gefahren wurden.
0.4
0.3
0.2
0.1
0.0
10
12
14
16
18
20
22
24
Benzinverbrauch (Meilen/Gallone)
Abbildung 9.8: Histogramm des Benzinverbrauchs
Die R-Befehle sind:
Verbrauch<-car.miles/car.gals # Berechnet Verbrauch
hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)")
Abbildung 9.9 zeigt eine mit nichtparametrischen Methoden geschätzte Dichtefunktion. Man kann
diese Dichtefunktion als eine Glättung des Histogramms auffassen. Die R-Befehle sind:
170
KAPITEL 9. MISCHVERTEILUNGEN
0.4
Dichte
0.3
0.2
0.1
0.0
10
12
14
16
18
20
22
24
Benzinverbrauch (Meilen/Gallone)
Abbildung 9.9: Geschätzte Dichtefunktionen des Benzinverbrauchs
Verbrauch<-car.miles/car.gals # Berechnet Verbrauch
plot(density(Verbrauch, width=2.5), xlab="Benzinverbrauch (Meilen/Gallone)",
ylab="Dichte ") # density schätzt Dichte
Diese Darstellung legt die Vermutung nahe, dass es sich hier um eine Mischung von zwei Verteilungen handelt, vermutlich zwei Normalverteilungen. Links die Füllungen mit großem Verbrauch, die
vermutlich auf Fahrten im Stadtverkehr zurückzuführen sind, rechts die Füllungen mit geringem Verbrauch, vermutlich Fahrten auf Autobahnen. Abbildung 9.10 zeigt das Histogramm zusammen mit
der geschätzten Dichtefunktion.
0.4
0.3
0.2
0.1
0.0
10
12
14
16
18
20
22
24
Benzinverbrauch (Meilen/Gallone)
Abbildung 9.10: Histogramm und geschätzte Dichtefunktion
Die R-Befehle sind:
Verbrauch<-car.miles/car.gals # Berechnet Verbrauch
hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)")
lines(density(Verbrauch, width=2))
Beispiel 9.6 Abbildung 9.11 zeigt mögliche Dichtefunktionen für Mietpreise für 1 ; 2 ; 3
4
-Zimmerwohnungen und die daraus resultierende Mischverteilung. Dabei wurde
r1 = r2 = r3 = r4 = 1=4
angenommen. Es sei angemerkt, dass es sich um rein fiktive Dichtefunktionen handelt.
und
9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN
171
Dichte * 1000
4
1-Zimmer
2-Zimmer
3-Zimmer
4-Zimmer
3
2
1
Mischung
0
0
500
1000
1500
2000
Mieten
Abbildung 9.11: Mögliche Dichtefunktionen für Mietpreise
Die folgenden Ausführungen beziehen sich auf die Mischung von zwei Normalverteilungen.
Es geht unter anderem um die Gestalt der Mischverteilung, inbesondere ob diese bimodal
oder unimodal ist.
0.4
f(x)
0.3
0.2
0.1
0.0
-4
-2
0
2
4
6
x
Abbildung 9.12: Mischung zweier Normalverteilungen mit r
und 22 = 1
= 0:3; 1 = 0; 12 = 1; 2 = 1:5
Die Dichtefunktion der Mischung zweier Normalverteilungen ist:
1 r1
f (x) = p
e
2 1
(x 1 )2 =212
r
+ 2e
2
(x 2 )2 =222
1<x<1:
Dabei ist 0 < r1 ; r2 < 1 und r1 + r2 = 1, und 1 ; 2 und 12 ; 22 sind die Erwartungswerte
bzw. Varianzen der einzelnen Komponenten.
Die Abbildungen 9.12 und 9.13 zeigen Mischungen von zwei Normalverteilungen. Die Dichtefunktion in Abbildung 9.12 ist unimodal (d.h. hat nur ein Maximum), während die Dichtefunktion in Abbildung 9.13 bimodal ist. Bei Everitt und Hand (1981) finden Sie verschiedene
hinreichende Kriterien für die Unimodalität der Mischung zweier Normalverteilungen. Dort
wird auch die Schätzung der Parameter nach der Methode der Momente und auch nach der
Maximum-Likelihood-Methode beschrieben.
172
KAPITEL 9. MISCHVERTEILUNGEN
0.6
f(x)
0.4
0.2
0.0
-4
-2
0
2
4
6
x
Abbildung 9.13: Mischung zweier Normalverteilungen mit r
und 22 = 0:25
= 0:4; 1 = 0; 12 = 1; 2 = 2
Beispiel 9.7 Abbildung 9.14 zeigt die täglichen Werte des New York Stock Exchange, ein Aktienindex.
5
1990
1991
1992
1993
1994 1995 1996
Index/100
4
3
2
1
0
500
1000
1500
2000
Handelstag
Abbildung 9.14: New York Stock Exchange Composite Index vom 02.01.1990 - 29.11.1996
Bezeichnen wir den Wert zum Zeitpunkt
durch
t mit pt , so ist die tägliche prozentuale Rendite gegeben
rt =
pt
pt
pt
1
100
:
1
Diese Werte sind in Abbildung 9.15 dargestellt. Man erkennt in dieser Abbildung ruhige Phasen mit
kleinen täglichen Schwankungen und unruhige Phasen mit großen Schwankungen.
Abbildung 9.16 zeigt ein Histogramm der prozentualen Renditen mit einer angepassten Normalverteilung. Die Anpassung ist schlecht. Das Histogramm ist zu schmal und im Zentrum zu hoch. In
Abbildung 9.17 wurde daher eine Mischung von zwei Normalverteilungen angepasst. Diese Anpassung ist wesentlich besser.
9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN
1990
Prozentuale Rendite
4
1991
1992
1993
173
1994 1995 1996
2
0
-2
-4
0
500
1000
1500
2000
Handelstag
Abbildung 9.15: Prozentuale Rendite des New York Stock Exchange Composite Index vom
02.01.1990 - 29.11.1996
1.0
0.8
0.6
0.4
0.2
0.0
-4
-3
-2
-1
0
1
2
3
4
Rendite
Abbildung 9.16: Histogramm der Renditen und angepasste Normalverteilung
Abbildung 9.18 zeigt die beiden Komponenten. Die Kurve (A) ist schmal und hoch, hat also eine kleine Varianz, sie entspricht den täglichen Renditen in den ruhigen Phasen. Die Kurve (B) ist flacher und
breiter, hat also eine größere Varianz. Sie entspricht den unruhigen Phasen. Die beiden Verteilungen
wurden im Verhältnis 3:1 gemischt.
9.3 Stetige Mischungen diskreter Verteilungen
9.3.1 Die Beta-Binomialverteilung
Bei Fisher (Statistical Methods for Research Workers, 1925) findet man das folgende Beispiel:
174
KAPITEL 9. MISCHVERTEILUNGEN
1.0
0.8
0.6
0.4
0.2
0.0
-4
-3
-2
-1
0
1
2
3
4
Rendite
Abbildung 9.17: Histogramm der Renditen mit angepasster Mischverteilung
1.0
(A) N(0.08;0.16)
0.8
0.6
Mischverteilung
0.75 (A) + 0.25 (B)
0.4
(B) N(-0.03;1.21)
0.2
0.0
-4
-2
0
2
4
Rendite
Abbildung 9.18: Die angepasste Mischverteilung und ihre Komponenten
Beispiel 9.8 Es wird die Anzahl der Jungen in 53 680 deutschen Familien mit 8 Kindern betrachtet.
Die Anzahl der Jungen insgesamt ist 221 023. Damit ist der Anteil der Jungen
^ = 221 023=(53 680 8) 0:5147 :
Wenn die Ereignisse ‘Jungen-’ und ‘Mädchengeburt’ unabhängig sind, dann sollte die Anzahl der
Jungen in einer Familie mit 8 Kindern binomialverteilt sein mit den Parametern n = 8 und =
0:5147.
In der Tabelle wird die 2 -Prüfgröße berechnet. Das Ergebnis zeigt, dass die Anzahl der Jungen nicht
binomialverteilt ist. Der kritische Wert der 2 -Prüfgröße bei 7 Freiheitsgraden für das Signifikanzniveau = 0:01 = 10 2 ist 18:475, also kleiner als der Wert der Prüfgröße 91:873. Auch der kritische
Wert für = 10 15 , nämlich 85:338 ist noch kleiner als 91:873.
Abbildung 9.19 zeigt die Wahrscheinlichkeitsfunktion der Binomialverteilung und die tatsächlich
beobachteten Anteile. Die Vermutung liegt nahe, dass die Wahrscheinlichkeit für eine Jungengeburt
von Familie zu Familie verschieden ist und um einen Mittelwert von 0:5147 variiert.
Wir betrachten daher das folgende Modell:
Sei Xi die Anzahl der Jungen in Familie i (mit n Kindern), i = 1; 2; : : : ; I .
9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN
Erwartet Abweichung Beitrag zu 2
165.22
+49.78
15.000
1 401.69
+83.31
4.952
5 202.65
+128.35
3.167
11 034.65
-385.65
13.478
14 627.60
+331.40
7.508
12 409.87
-480.87
18.633
6 580.24
+97.76
1.452
1 993.78
+98.22
4.839
264.30
+77.70
22.845
53 680.00
91.873
Anzahl Jungen Anzahl Familien
0
215
1
1 485
2
5 331
3
10 649
4
14 959
5
11 929
6
6 678
7
2 092
8
342
Summe:
53 680
Die Zufallsvariable Xi ist binomialverteilt mit den Parametern n und i , d.h.
Xi b(n; i )
175
i = 1; 2; : : : ; I :
Der Parameter i ist die Realisation einer Zufallsvariablen .
Die Zufallsvariable ist betaverteilt, d.h.
0.25
Be(; ) :
0.00
0.05
0.10
0.15
0.20
Beobachtet
Binomial
0
1
2
3
4
5
6
7
8
Abbildung 9.19: Beobachtete Anteile und angepasste Binomialverteilung
Die obigen Annahmen besagen, dass die bedingte Verteilung von
teilung mit den Parametern n und ist, d.h.
P (fX = xgj) =
!
n x
(1 )n
x
x
X , gegeben , eine Binomialver-
x = 0; 1; 2; : : : ; n :
Die Randverteilung von ist eine Betaverteilung, d.h.
f ( ) =
1
B (; )
1 (1
)
1
0
Die Randverteilung von X erhält man auf die folgende Weise
1
> 0; > 0) :
(
176
KAPITEL 9. MISCHVERTEILUNGEN
Z1
P (fX = xg)
=
0
P (fX = xgj)f ()d
!
Z1
n x
1 (1 ) 1
(1 )n x
d
x
B (; )
=
0
=
!
1
Z
n
1
x+
x B (; )
0
!
n B (x + ; n + x
B (; )
=
)n
1 (1
x)
x+ 1 d
x = 0; 1; : : : ; n :
Die Verteilung von X heißt Beta-Binomialverteilung.
0.25
Abbildung 9.20 zeigt die beobachteten Anteile und die angepasste Beta-Binomialverteilung.
0.00
0.05
0.10
0.15
0.20
Beobachtet
Beta−Binomial
0
1
2
3
4
5
6
7
8
Abbildung 9.20: Beobachtete Anteile und angepasste Beta-Binomialverteilung
Anzahl Jungen Anzahl Familien
0
215
1
1 485
2
5 331
3
10 649
4
14 959
5
11 929
6
6 678
7
2 092
8
342
Summe:
53 680
Erwartet Abweichung Beitrag zu 2
190.62
+24.38
3.118
1 508.44
-23.44
0.364
5 324.13
+6.87
0.009
10 947.79
-298.79
8.155
14 344.28
+614.72
26.344
12 263.39
-334.39
9.118
6 680.77
-2.77
0.001
2 120.39
-28.39
0.380
300.19
+41.81
5.823
53 680.00
53.312
Die Anpassung ist nur geringfügig besser geworden. Ein Blick auf die Tabelle mit den beobachteten
und erwarteten Häufigkeiten zeigt, dass die Anpassung in der Mitte (x = 3; 4; 5) sogar schlechter geworden ist, während sie im übrigen Bereich besser geworden ist. Der 2 -Wert ist von 91:873 gefallen
auf 53:312 gefallen. Dieser Wert ist immer noch so groß, dass die Hypothese, dass die Daten einer
9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN
177
Betabinomialverteilung genügen, abzulehnen ist. Der kritische Wert der 2 -Verteilung bei 6 Freiheitsgraden für = 0:01 ist 10:645. Die Parameter und beta der Betabinomialverteilung wurden
^ = 97:064. Es wäre also
nach der Maximum-Likelihood-Methode geschätzt zu ^ = 102:935 und eine weitere Analyse dieser Daten nötig.
Definition 9.5 Die Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung ist definiert durch
( P (fX = xg) =
n B (x+;n+ x)
B (; )
x
0
x = 0; 1; : : : ; n
sonst :
Die Beta-Binomialverteilung hat drei Parameter, für die gelten muss
n 2 IN;
> 0;
und
>0:
Nach dem vorangehenden Beispiel kann die Beta-Binomialverteilung als stetige Mischung
der Binomialverteilung aufgefasst werden, wenn der Parameter eine Betaverteilung besitzt.
Für die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion der Beta-Binomialverteilung
kann man auf die folgende Weise R-Funktionen schreiben.
dbbinom<-function(x, n, a, b)
f
# Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung
# Parameter n, a, b; x Vektor
# Verwendete Funktion beta siehe Seite 53
f1<-gamma(n+1)/(gamma(x+1)*gamma(n-x+1)) # Binomialkoeffizient
f2<-beta(x+a,n+b-x) # Betafunktion im Zähler
f3<-beta(a,b) # Betafunktion im Nenner
f1*f2/f3
g
pbbinom<-function(x, n, a, b)
f
g
# Verteilungsfunktion der Beta-Binomialverteilung
# Parameter n, a, b; x Zahl
sum(dbbinom(0:x, n, a, b)
9.3.2 Die negative Binomialverteilung
Die negative Binomialverteilung kann als stetige Mischung der Poissonverteilung aufgefasst
werden, wenn man annimmt, dass der Parameter der Poissonverteilung eine Zufallsvariable mit einer Gammaverteilung ist. (Entgegen der sonst verwendeten Notation bezeichnen
wir den Parameter der Poissonverteilung hier mit , da auch in der Gammaverteilung auftaucht.) Wir nehmen also an:
178
KAPITEL 9. MISCHVERTEILUNGEN
Die bedingte Verteilung von X , gegeben , ist eine Poissonverteilung mit dem Parameter .
Die Zufallsvariable besitzt eine Gammaverteilung mit den Parametern und .
Die obigen Annahmen besagen, dass die bedingte Verteilung von X , gegeben , eine Poissonverteilung mit dem Parameter ist, d.h.
P (fX = xgj) =
x
e
x!
x = 0; 1; 2; : : : :
Die Randverteilung von ist eine Gammaverteilung, d.h.
( 1 e f () =
0
sonst :
( )
0
Die Randverteilung von X erhält man auf die folgende Weise
P (fX = xg) =
Z1
0
=
P (fX = xgj)f ()d =
Z1
x! ( ) 0
Wir verwenden die Substitution
x+ 1e
Z1 x
0
x!
e
1 e ( )
d
(1+) d
z = (1 + ) :
Dann ist
dz
=1+
d
oder
=
z
1+
d =
und
dz
:
(1 + )
Die Grenzen ändern sich wie folgt:
Wenn = 0, ist z
= 0.
Wenn = 1, ist z
Damit erhalten wir
= 1.
1
Z
z x+ 1
dz
P (fX = xg) =
e z
x
+
1
x! ( ) 0 (1 + )
(1 + )
1
Z
=
z x+ 1 e z dz
x! ( )(1 + )x+ 0
(x + 1)!
=
(
x
+
)
=
x! ( )(1 + )x+
x!( 1)! (1 + )x+
!
! x+ 1
1 x
=
1
1+
1+
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
179
Im vorletzten Schritt wurde
( ) = (
1)!
und
(x + ) = (x + 1)!
verwendet (siehe Satz 3.9) und schließlich
!
x+ 1
(x + 1)!
=
:
1
x!( 1)!
Wir haben also die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung mit den
Parametern r = und = =(1 + ) erhalten.
Die negative Binomialverteilung mit den Parametern r und hatte die Wahrscheinlichkeitsfunktion
!
P (x) =
x+r 1 r
(1 )x ;
r 1
x = 0; 1; 2; : : : :
In Analogie zum Namen Beta-Binomialverteilung findet man für die negative Binomialverteilung auch den Namen Gamma-Poissonverteilung.
Die negative Bimomialverteilung hat gegenüber der Beta-Binomialverteilung den Vorteil,
dass sie nur zwei statt drei Parameter hat.
9.4 ML–Schätzung bei Mischverteilungen
9.4.1 Einführung
Bei den nachfolgenden Erläuterungen zur Parameterschätzung werden zwei Fälle unterschieden. Zum einen wird der Fall betrachtet, in dem die Anzahl der Mischungskomponenten
bekannt ist und zum anderen der Fall, in dem die Anzahl der Subpopulationen unbekannt
ist. Die Fälle unterscheiden sich nur unwesentlich, wenn man die Likelihoodfunktionen betrachtet. Inhaltlich sind die Fälle aber unterschiedlich zu interpretieren. Im ersten Fall hat
man eine klare Vorstellung aus welchen unterschiedlichen Gruppen die Population besteht.
Im zweiten Fall hingegen ist die Anzahl der Subpopulationen ein Ergebnis der Datenanalyse.
Erst nach der Parameterschätzung erhält man Informationen darüber, aus welchen Gruppen
sich die Population zusammensetzen könnte.
Alle folgenden Ausführungen beziehen sich auf diskrete Mischungen.
9.4.2 Die Likelihoodfunktion für Mischverteilungen
Zunächst wird der Fall betrachtet, bei der die Anzahl der Mischungskomponenten als gegeP
ben betrachtet wird. Sei P (x; ) = Ii=1 ri Pi (x; i ) die Wahrscheinlichkeitsfunktion einer
diskreten Mischung von einparametrigen diskreten Zufallsvariablen mit den Parametern i
und seien x = (x1 ; x2 ; : : : ; xn ) die Beobachtungen, an die die Mischverteilung angepasst
werden soll, dann gilt:
180
KAPITEL 9. MISCHVERTEILUNGEN
Satz 9.5
L(1 ; : : : ; I ; r1 ; : : : ; rI ; x) =
n X
I
Y
j =1 i=1
ri Pi (xj ; i )
ist die Likelihoodfunktion der Mischverteilung.
Um die die Likelihoodfunktion über die Parameter der einzelnen Mischungskomponenten
i , i = 1; : : : ; I , sowie über die Mischungsparameter ri , i = 1; : : : ; I , zu maximieren. Insgesamt sind also 2I 1 Parameter zu schätzenSchätzer zu erhalten, ist . (Der letzte Mischungsparameter ergibt sich aus den übrigen, da die Summe eins betragen muss.) Leider ist es
nicht möglich, das Problem analytisch zu lösen, d.h. das gewohnte Vorgehen (Ableiten und
Nullsetzen) versagt. In diesem Fall muss die Maximierung numerisch mit entsprechender
Software durchgeführt werden (siehe übernächster Abschnitt).
Die vorgestellte Likelihoodfunktion gilt für diskrete Zufallsvariablen. Das analoge Ergebnis
für stetige Zufallsvariablen erhält man, wenn man in der Likelihoodfunktion die WahrscheinP
lichkeitsfunktionen durch Dichtefunktionen ersetzt: Ii=1 ri fi (xj ; i ).
Beispiel 9.9 Im folgenden Beispiel wird gezeigt, wie die Likelihoodfunktion aufzustellen ist, wenn
an gegebene Daten eine Mischverteilung angepasst werden soll und die Anzahl der Mischungskomponenten bekannt ist. An die folgenden zehn Beobachtungen soll eine aus zwei Exponentialverteilungen
bestehende Mischverteilung angepasst werden:
2.65
11.67
9.59
0.30
21.03
0.45
1.45
0.17
1.27
0.13
Die anzupassende Dichtefunktion lautet
f (x) = r1 e
1 x + (1
r)2 e
2 x
und man erhält für die gemeinsame Verteilung der Beobachtungen als Funktion der Parameter, also
für die Likelihoodfunktion:
L(1 ; 2 ; r) =
10 Y
j =1
r1 e
1 xj
+ (1
r)2 e
2 xj
Um die Parameterschätzer zu erhalten, ist die Funktion über 1 ; 2 und r zu maximieren. Das Maximierungsproblem ist analytisch nicht zu lösen. Die numerische Lösung erhält man beispielsweise
^
^
mit dem Programm C.A.MAN. Die Schätzwerte sind: r^ = 0:56, 1 = 1=0:71 und 2 = 1=10:07.
Tatsächlich sind die Daten aus einer Mischverteilung mit r = 0:5, 1 = 1 und 2 = 1=10 simuliert
worden.
Wenn die Anzahl der Mischungskomponenten unbekannt ist, erfolgt die Konstruktion der
Likelihoodfunktion analog zum oben dargestellten Vorgehen. Der Unterschied zwischen den
Fällen liegt darin, dass die Funktion über einen weiteren Parameter, nämlich I , zu maximieren ist. Man könnte zunächst vermuten, dass die Likelihoodfunktion ein Maximum annimmt,
wenn für jede (unterschiedliche) Beobachtung eine Mischungskomponente verwendet wird.
Dies ist jedoch nicht der Fall, was anhand des nachfolgenden Beispiels verdeutlicht wird.
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
181
Beispiel 9.10 Das folgende Beispiel ist so konstruiert, dass angedeutet wird, welche Anzahl von
Komponenten zu einer maximalen Likelihood führt. Betrachtet werden zwei Beobachtungen, x1 = 1
und x2 = 2, an die eine Mischverteilung angepasst werden soll, die aus Poissonverteilungen besteht.
Zunächst wird davon ausgegangen, dass ein Parameter ausreicht, um eine maximale Likelihood zu
erhalten. Dass dies tatsächlich so ist, verdeutlicht Abbildung 9.21. Die Abbildung ist wie folgt zu
interpretieren. An den Achsen sind die Wahrscheinlichkeiten der Beobachtungen (P (x1 = 1) und
P (x2 = 2)) zu sehen. Diese Wahrscheinlichkeiten nehmen je nach Parameter unterschiedliche Werte
an. Plottet man P (1; ) gegen P (2; ) für alle möglichen Werte von , d.h. 2 [0; 1℄, so erhält man
die fett gezeichnete ”Blase”. Sie beschreibt alle möglichen Kombinationen von P (1; ) und P (2; )
bei Verwendung eines Parameters, d.h. einer Mischungskomponente.
0.6
Auf den eingezeichneten Hyperbeln gilt P (1; ) P (2; ) ist konstant und je weiter außen die Hyperbel liegt, desto größer ist der Wert der Konstanten. Beispielsweise gilt auf der höchsten Hyperbel in
Abbildung 9.21 P (1; ) P (2; ) = 0:13. Allgemein ist das Produkt P (1; ) P (2; ) die gemeinsame Wahrscheinlichkeit der Beobachtungen, also die Likelihood. Graphisch ist der ML–Schätzer
demnach zu bestimmen, indem man die Hyperbel findet, die die ”Blase” tangiert, weil man für weiter am Ursprung liegende Hyperbeln die Likelihood noch erhöhen kann und weiter oben liegende
Hyperbeln nicht zulässig sind.
0.3
L=0.03
Lmax=0.08
0.0
0.1
0.2
P(2)
0.4
0.5
L=0.13
0.0
0.1
0.2
0.3
0.4
0.5
0.6
P(1)
Abbildung 9.21: Parameterschätzung bei Mischverteilungen I.
Die Frage, ob durch die Einführung zweier weiterer Parameter, d.h. die Verwendung einer Mischung
aus zwei Poissonverteilungen die Likelihood erhöht werden kann, muss mit nein beantwortet werden.
Dies liegt daran, dass alle möglichen Kombinationen P (1; 1 ; 2 ; r ) und P (2; 1 ; 2 ; r ) innerhalb der
Blase liegen. Eine höhere Likelihood (eine weiter außen liegende Hyperbel) kann also nicht erreicht
werden.
Dies ändert sich, wenn andere Beobachtungen vorliegen. Angenommen, die Beobachtungen seien
x1 = 2 und x2 = 8. In diesem Fall verändert sich die Gestalt der ”Blase”. Sie ist nicht mehr konvex
(vgl. Abbildung 9.22). Es ist jetzt möglich, die Likelihood durch Verwendung von zwei Mischungskomponenten zu erhöhen. Die eingezeichnete Gerade zeigt alle Kombinationen von P (1; 1 ; 2 ; r )
und P (2; 1 ; 2 ; r ) für r 2 [0; 1℄. Die Hyperbel, die die maximale Likelihood charakterisiert tangiert
jetzt diese Gerade und nicht mehr einen Punkt der ”Blase”. Mit anderen Worten wird die maximale
Likelihood durch eine Mischung aus zwei Komponenten erreicht.
Das Beispiel zeigt, dass es von der Datenkonstellation abhängt, ob die Aufnahme einer weiteren Komponente zu einer Erhöhung der Likelihood führt. Im ersten Fall lagen die Beobachtungen dicht beieinander. Es macht in diesem Fall keinen Sinn, die Daten durch zwei
0.00 0.05 0.10 0.15 0.20 0.25 0.30
KAPITEL 9. MISCHVERTEILUNGEN
P(8)
182
(rP(1;λ1),(1−r)P(2;λ2))
λ2
Lmax=0.01
λ1
0.00 0.05 0.10 0.15 0.20 0.25 0.30
P(2)
Abbildung 9.22: Parameterschätzung bei Mischverteilungen II
Mischungskomponenten zu beschreiben. Im zweiten Fall lagen die Beobachtungen weiter
auseinander, so dass ein Modell mit zwei Komponenten den Beobachtungen eine größere
Wahrscheinlichkeit zuordnet (höhere Likelihood).
Ein weiterer Aspekt ist intuitiv einleuchtend:
Satz 9.6 Wenn an n Beobachtungen mit k unterschiedlichen Ausprägungen eine Mischverteilung angepasst wird, ist die maximale Anzahl der Mischungskomponenten k . Die
Aufnahme weiterer Komponenten kann die Likelihood nicht erhöhen.
Das folgende Beispiel verdeutlicht dies.
Beispiel 9.11 An die folgenden Daten soll eine Mischverteilung angepasst werden:
0
1
0
2
0
0
1
1
Der Datensatz besteht aus k = 3 unterschiedlichen Ausprägungen: 0, 1 und 2. Die maximale Anzahl
der Mischungskomponenten beträgt daher I = 3, d.h. eine Mischung aus 4 oder mehr Komponenten
kann nicht zu einer höheren Likelihood führen.
9.4.3 Parameterschätzung mit C.A.MAN
Es ist eine erfreuliche Entwicklung, dass die Möglichkeiten des Internets auch im Rahmen
der Statistik eine immer breitere Verwendung finden. Ein Aspekt ist die Bereitstellung von
Software. Die Software C.A.MAN wurde von Dankmar Böhning entwickelt und steht kostenlos zum Download unter http://www.medizin.fu-berlin.de/sozmed/bo1.html bereit. Es
wird in diesem Abschnitt an einem Beispiel gezeigt, wie die Parameterschätzung für Mischverteilungen mit dem Programm erfolgt.
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
183
Anzahl verkaufter Packungen 0
1 2
Häufigkeit
102 54 49
3 4 5 6
62 44 25 26
7 8 9
15 15 10
Anzahl verkaufter Packungen
Häufigkeit
13 14 15 16
3 3 5 5
17 18 19 20
4 1 2 1
10
10
11 12
10 10
Beispiel 9.12 Betrachtet werden noch einmal die Daten zur Einführung des Süßwarenprodukts, die
bereits in Beispiel 9.3 betrachtet worden sind. Diese sind in der folgenden Tabelle nochmals dargestellt.
Es wird im folgenden an einem Beispiel dargestellt, welche Schritte durchzuführen sind, um den Parameterschätzer zu erhalten. Eine allgemeine Beschreibung der Anwendung findet sich bei Böhning,
D. (1999, S. 201–209).
a) Erstellung der Inputdatei:
Zunächst ist eine Datei zu erstellen, die die Daten enthält. Dazu werden in eine Textdatei
die Ausprägungen und die Häufigkeiten der Ausprägungen geschrieben. Ausprägungen und
Häufigkeiten werden durch ein Leerzeichen getrennt, und verschiedene Ausprägungen werden
durch einen Absatz getrennt. Für das Beispiel also:
0 102
1 54
2 49
...
Anschließend ist die Datei (zum Beispiel unter der Bezeichnung candy.dat) in dem Verzeichnis
zu speichern, in dem das Programm liegt.
b) Start des Programms:
Als nächstes ist das Programm (Caman.exe) zu starten und so lange Return zu drücken, bis
man im Hauptmenü angekommen ist.
c) Bestimmung von Inputdatei und Outputdatei:
Im Hauptmenü ist der Punkt ”INPUT DATA” zu wählen, indem eine 1 eingetippt wird und
anschließend Return gedrückt wird. Im erscheinenden Untermenü erneut der Punkt 1 (Specify
data–file) zu wählen. Anschließend ist der Name der Datei einzutippen, in der die Beobachtungen stehen, also candy.dat. Danach kann die Bezeichnung der Ausgabedatei (candy.out)
bestätigt werden oder eine selbsgewählte Bezeichnung eingegeben werden. Die Ausgabedatei
enthält die Ergebnisse der Parameterschätzung.
d) Bestimmung des Datenformats:
Nach Bestätigung der Ausgabedatei befindet man sich weiterhim im Untermenü ”INPUT DATA”. Jetzt ist das Datenformat anzugeben. Da die Daten in der Form [Ausprägung, Häufigkeit
der Ausprägung] vorliegen, ist die Alternative 3 (”VARIABLE REPLICATION FACTOR”)
zu wählen. Daraufhin wird angezeigt, wieviele unterschiedliche Beobachtungen in den Daten
enthalten sind, und durch erneutes Drücken der Returntaste gelangt man wieder in das Hauptmenü.
184
KAPITEL 9. MISCHVERTEILUNGEN
e) Wahl der Verteilung:
Als nächstes ist der Punkt 3 ”CHOISE OF DISTRIBUTION” zu wählen. Da die Mischungskomponenten hier vom Typ Poisson sind, ist in diesem Untermenü der Punkt 2 ”Poissondistribution” zu bestätigen.
f) Durchführung der Schätzung:
Mit dem Schritt d sind die minimal notwendigen Daten eingegeben, so dass mit der Parameterschätzung begonnen werden kann. Diese beginnt mit der Wahl des Menüpunktes 7 ”COMPUTE NPMLE” (NPMLE steht für Nonparametric Maximum–Likelihood–Estimator). Nach
Auswahl dieser Option fasst das Programm noch einmal die Voraussetzungen der Optimierung
zusammen und fragt, ob noch Änderungen vorgenommen werden sollen. Durch Eingabe von
N(o) beginnt die Parameterschätzung. Jetzt ist die Returntaste so häufig zu betätigen, bis der
folgende Output erscheint:
The NPMLE consists of 5 support points
Result after combining equal estimates:
weight: .0068 parameter:
.000000
weight: .2373 parameter:
.211226
weight: .5019 parameter:
2.998342
weight: .1516 parameter:
7.388325
weight: .1024 parameter: 12.858300
Log-Likelihood at iterate: -1130.13700
Dies ist das Ergebnis der Parameterschätzung. Eine Mischverteilung mit fünf Komponenten besitzt
die höchste Likelihood. Diese Werte der Schätzer sind bereits weiter oben (bei der erstmaligen Betrachtung der Daten) angegeben worden. Ferner ist die Likelihood der Lösung angegeben.
Das letzte Beispiel betrachtet einen Fall, bei dem die Anzahl der Komponenten nicht bekannt ist. Man erhält als Resultat das Modell das zu der höchstmöglichen Likelihood führt.
Es ist jedoch denkbar, dass ein Modell mit weniger Komponenten (und somit weniger Parameteren) die Daten ebenfalls angemessen beschreibt. Möchte man ein Modell mit weniger
Parametern anpassen, so ist die Parameterschätzung für eine bekannte Anzahl von Komponenten durchzuführen.
Beispiel 9.13 Es wird jetzt gezeigt, wie man mit C.A.MAN an die Daten des vorangegangenen
Beispiels ein Modell mit einer bekannten Anzahl von Komponenten anpassen kann.
a) Es sind die Schritte a) bis e) aus dem letzten Beispiel durchzuführen.
b) Bestimmung der Anzahl von Komponenten und der Startwerte:
Es ist jetzt das Untermenü 2 ”CHOICE OF PARAMETER GRID” aufzurufen und der Punkt
3 (If you want to use fixed support size and if you want to enter starting values) zu wählen.
Anschließend wird man aufgefordert, die Anzahl der Komponenten einzugeben. Dies könnte
beispielsweise der Wert 4 sein. Danach ist es notwendig, die Startwerte für die numerische Maximierung anzugeben. Beispielsweise könnte man einfach die Komponente mit dem kleinsten
Mischungsparameter aus der vorangegangenen Schätzung entfernen und die übrigen vier (evtl.
gerundet) als Startwerte verwenden. Eine mögliche Eingabe wäre also (der jeweils erste Wert
steht für den Parameter und der jeweils zweite Wert für das entsprechende Gewicht):
0.2 0.25
3 0.5
7.4 0.15
12.9 0.1
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
185
c) Wahl des Algorithmus:
Als nächstes ist im Untermenü ”CHOICE OF ALGORITHM” (Menüpunkt 4) die Option 5
(Fixed support size) zu setzen. Die anschließend angeforderten Eingaben sind nicht unbedingt
notwendig, d.h. man kann durch die Wahl von Punkt 6 (Back to Main Menu) zum Hauptmenü zurückkehren.
d) Durchführung der Parameterschätzung:
Dieser Schritt entspricht dem Schritt 6 aus dem letzten Beispiel. Man erhält jetzt die folgenden
Ergebnisse:
The NPMLE consists of 5 support points
Result after combining equal estimates:
weight:
.244 parameter:
.204273
weight: .5022 parameter:
2.998540
weight: .1515 parameter:
7.391778
weight: .1023 parameter: 12.859990
Log-Likelihood at iterate: -1130.13100
Man sieht, dass die Likelihood des Modell mit vier Komponenten nur um 0.006 kleiner
ist als für das Modell mit fünf Komponenten. Eine weitergehende Frage ist jetzt, welches
Modell man zur Beschreibung der Daten verwenden sollte: Sollte man das Modell mit fünf
Komponenten verwenden, weil die Beobachtungen unter diesem Modell eine höhere Wahrscheinlichkeit besitzen oder sollte man das Modell mit vier Komponenten wählen, weil
man dadurch den Fehler durch Schätzung verringern könnte? Böhning verwendet in praktischen Situationen einen Signifikanztest zur Modellauswahl. Er weist aber gleichzeitig darauf hin, dass die Voraussetzungen zur Durchführung des Tests nur approximativ erfüllt sind
(Böhning, D., 1999, S. 77). Eine weitere Möglichkeit wäre eine Analyse der Modelle mit
Hilfe von Pseudo–Residuen (vgl. Verallgemeinerte Lineare Modelle, 1999, S. 54–63).