Kapitel 9 Mischverteilungen

Werbung
Kapitel 9
Mischverteilungen
Bei der Modellanpassung versucht man in der Regel ein einfaches Modell (beispielsweise
die Poissonverteilung) zur Beschreibung der Daten zu verwenden. Häufig zeigt sich jedoch,
dass ein vermutetes Modell dazu nicht in der Lage ist. Beispielsweise kann die grafische
Darstellung der Häufigkeiten einer Stichprobe multimodal sein, was nicht zur unimodalen
Gestalt der Poissonverteilung passt. Eine mögliche Erklärung für die Multimodalität ist, dass
die Population, aus der die Daten stammen, heterogen ist. Damit ist gemeint, dass die Population aus verschiedenen Gruppen (Subpopulationen) besteht, bei denen sich die Verteilung
des betrachteten Merkmals unterscheidet und so zu der Multimodaltät führt. Betrachtet man
beispielsweise die Anzahl von Zigarettenpackungen, die von einzelnen Kunden eines Supermarkts gekauft werden, so wäre ein Histogramm der Daten wahrscheinlich nicht unimodal
und somit das zugehörige Modell keine Poissonverteilung. Es ist offensichtlich, dass die betrachtete Grundgesamtheit aus zwei Gruppen besteht, den Rauchern und den Nichtrauchern
und es ist auch offensichtlich, dass sich die Verteilung des Merkmals in den beiden Gruppen
unterscheidet. Es ist gut möglich, dass die (bedingte, d.h. gegeben Raucher bzw. Nichtraucher) Verteilung jeweils vom Typ Poisson ist, die unbedingte Verteilung des Merkmals ist
jedoch eine Mischverteilung.
Wir wollen in diesem Kapitel die grundlegenden Eigenschaften von Mischverteilungen besprechen, die Sie in der englischen Literatur unter den Begriffen ,,Mixture Models”, ,,Mixture Distributions” (siehe z.B. Kotz und Johnson (1985), Band 5, wo Sie viele interessante
Anwendungsbeispiele finden) oder ,,Compound Distributions” finden (siehe auch Everitt und
Hand (1981)). Als wesentliche Literaturquelle sei das Buch ,,Computer–Assisted Analysis of
Mixtures and Applications” (Böhning D., 1999) erwähnt. Die in diesem Buch beschriebene
Software C.A.MAN kann kostenlos von der Hompage des Autors (http://www.medizin.fuberlin.de/sozmed/bo1.html) heruntergeladen werden.
9.1 Diskrete Mischung diskreter Verteilungen
Definition 9.1 Seien P1 (x) und P2 (x) Wahrscheinlichkeitsfunktionen und sei
1 : Dann heißt
P (x) = r P1 (x) + (1 r)P2 (x)
die Mischverteilung von P1 und P2 .
160
0
r
9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN
161
Abbildung 9.1 zeigt zwei diskrete Verteilungen P1 und P2 und dazu in der dritten Zeile die
Mischung
P = 0:3P1 + 0:7P2 :
P1
0.6
0.4
0.2
0.0
1
2
3
4
5
6
5
6
P2
0.6
0.4
0.2
0.0
1
2
3
4
0.3 P1 + 0.7 P2
0.6
0.4
0.2
0.0
1
2
3
4
5
6
Abbildung 9.1: Diskrete Mischung zweier Verteilungen, r
= 0:3
Beispiel 9.1 Wir betrachten zwei Münzen, für die gelten möge
P f,,Kopf”g
P f,,Kopf”g
:
für Münze 1.
:
für Münze 2.
(
) = 0 1
(
) = 0 8
Man wählt zufällig eine der Münzen und wirft sie viermal. Sei X die Anzahl der ,,Köpfe”. Die Münze
1 werde mit Wahrscheinlichkeit r ausgewählt, d.h.
P (fMünze 1 gewähltg) = r :
Dann gilt für die Wahrscheinlichkeitsfunktion von X
P (fX = xg)
=
=
=
P (fX = x; Münze 1 gewähltg [ fX = x; Münze 2 gewähltg)
P (fX = xgjfMünze 1g)P (fMünze 1g) + P (fX = xgjfMünze 2g)P (fMünze 2g)
4
x
!
x
0:1 (1
4 xr +
0:1)
4
!
x
:
x
0 8 (1
:
4 x (1
0 8)
r) :
Abbildung 9.2 zeigt die beiden Wahrscheinlichkeitsfunktionen zusammen mit ihrer Mischung
für r = 0:5.
162
KAPITEL 9. MISCHVERTEILUNGEN
P1
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
3
4
P2
0.8
0.6
0.4
0.2
0.0
0
1
2
0.5 P1 + 0.5 P2
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
Abbildung 9.2: Diskrete Mischung zweier Binomialverteilungen, r
= 0:5
Satz 9.1 Die Mischung
P (x) = r P1 (x) + (1 r)P2 (x)
ist wieder eine Wahrscheinlichkeitsfunktion.
Beweis:
a)
P (x) 0 für alle x, da P1 (x) 0; P2(x) 0 für alle x, r 0 und 1 r 0.
b)
P (x) > 0 für höchstens abzählbar unendlich viele x, da P1 (x) > 0 und P2 (x) > 0 für
jeweils höchstens abzählbar unendliche viele x.
c)
X
x
P (x) =
X
x
= r
(rP1 (x) + (1 r)P2 (x))
X
P1 (x) +(1 r)
| x {z
1
}
= r + (1 r) = 1 :
X
P2 (x)
x
| {z }
1
9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN
163
Beispiel 9.2 Die Verteilung des Geschlechts von Zwillingen ist eine Mischverteilung (siehe Blischke (1978)). Es gibt drei Klassen von Zwillingen:
W W W M MM :
Das führt zu einer Trinomialverteilung. Dabei steht W für weiblich und M für männlich. Ferner gibt
es zweieiige und eineiige Zwillinge. Die Geschlechter zweieiiger Zwillinge sind unabhängig voneinander. Daher ist die Verteilung:
2
2
)
(1
(1
)2 :
Eineiige Zwillinge haben jedoch das gleiche Geschlecht. Daher ist die Verteilung des Geschlechts für
eineiige Zwillinge:
0
(1
) ;
wobei die Wahrscheinlichkeit einer Mädchengeburt ist. Das Geschlecht von Zwillingen ist eine
Mischung dieser beiden Verteilungen, wobei der Mischungsparameter r bzw. 1 r durch den Anteil
der zweieiigen Zwillinge bzw. eineiigen Zwillinge bestimmt wird.
Definition 9.2 (Diskrete Mischung mit I Komponenten) Seien
P1 (x); P2 (x); : : : ; PI (x)
jeweils Wahrscheinlichkeitsfunktionen. Eine diskrete Mischung dieser Wahrscheinlichkeitsfunktionen ist dann definiert durch
P (x) = r1 P1 (x) + r2 P2 (x) + + rI PI (x)
=
wobei 0 ri
I
X
i=1
ri Pi (x) ;
I
ri = 1 :
1 für alle i und iP
=1
Satz 9.2 Seien P1 (x); P2 (x); : : : ; PI (x) jeweils Wahrscheinlichkeitsfunktionen und sei
P (x) die Mischverteilung bezüglich der Mischungsparameter r1 ; r2 ; : : : ; rI . Das k-te
Moment der i-ten Verteilung sei mit 0k (i) bezeichnet. Dann gilt für das k -te Moment
der Mischverteilung
0k = r1 0k (1) + r2 0k (2) + + rI 0k (I )
=
I
X
i=1
ri 0k (i) :
Insbesondere gilt für den Erwartungswert bezüglich einer Mischverteilung
E (X ) = r1 (1) + r2 (2) + rI (I ) ;
164
KAPITEL 9. MISCHVERTEILUNGEN
wobei (i) der Erwartungswert bezüglich der i-ten Komponente ist. Auch für die Varianzen
kann man ein ähnliches Resultat herleiten, das jedoch komplizierter wird. Wir formulieren
es nur für die Mischung mit zwei Komponenten.
Satz 9.3 Seien P1 und P2 zwei Wahrscheinlichkeitsfunktionen mit Erwartungswerten
(1) und (2) und Varianzen 2 (1) und 2 (2). Dann gilt für die Varianz 2 der Mischverteilung mit den Mischungsparametern r1 und r2
2 = r1 2 (1) + r2 2 (2) + r1 r2 ((1) (2))2 :
Beweis:
Wenn man im folgenden beachtet, dass 02
r2 = 1 r1 gilt, so folgt:
2 =
=
=
=
=
=
= EX 2 = Var(X ) + (E (X ))2 = 2 + (01 )2 und
02 (01 )2
r1 ( 2 (1) + (1)2 ) + r2 ( 2 (2) + (2)2 ) (r1 (1) + r2 (2))2
r1 2 (1) + r2 2 (2) + r1 (1)2 + r2 (2)2 r12 (1)2 2r1 r2 (1)(2) r22 (2)2
r1 2 (1) + r2 2 (2) + r1 (1 r1 )(1)2 + r2 (1 r2 )(2)2 2r1 r2 (1)(2)
r1 2 (1) + r2 2 (2) + r1 r2 ((1)2 2(1)(2) + (2)2)
r1 2 (1) + r2 2 (2) + r1 r2 ((1) (2))2
Beispiel 9.3 Das folgende Beispiel ist von Böhning, D. (1999, S. 3–5) übernommen. Untersucht
wird die Einführung eines neuen Süßwarenprodukts. Im Rahmen der Markteinführung wird die Anzahl verkaufter Packungen (im folgenden mit X bezeichnet) in verschiedenen Geschäften erhoben.
Die nachfolgende Tabelle zeigt die Ergebnisse der Datenerhebung.
Anzahl verkaufter Packungen 0
1 2
Häufigkeit
102 54 49
3 4 5 6
62 44 25 26
7 8 9
15 15 10
Anzahl verkaufter Packungen
Häufigkeit
13 14 15 16
3 3 5 5
17 18 19 20
4 1 2 1
10
10
11 12
10 10
Typischerweise verwendet man zur Beschreibung von Zähldaten unter homogenen Bedingungen in
der Population die Poissonverteilung, d.h. P (x) = e x =x!. Abbildung 9.3 zeigt jedoch eine bimodale Verteilung der Daten. Mit anderen Worten ist die Population heterogen, sie besteht aus unterschiedlichen Subpopulationen.
Schätzt man die Anzahl der Komponenten, die Parameter der einzelnen Poissonverteilungen sowie die
Mischungsparameter mit Hilfe des Programms C.A.MAN (zur Parameterschätzung siehe Abschnitt
9.4.3), erhält man fünf Komponenten:
r1 = 0:01 r2 = 0:24 r3 = 0:50 r4 = 0:15 r5 = 0:10
1 = 0:00 2 = 0:21 3 = 3:00 4 = 7:39 5 = 12:86
165
60
40
0
20
Häufigkeit
80
100
9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN
0
1
2
3
4
5
6
7
8
9 10
12
14
16
18
20
Anzahl verkaufter Packungen
Abbildung 9.3: Verteilung der verkauften Packungen
0.20
Abbildung 9.4 zeigt die relativen Häufigkeiten der empirischen Daten gemeinsam mit einer angepassten Poissonverteilung sowie der angepassten Mischverteilung. Wie zu erkennen ist, liefert die
Mischverteilung eine wesentlich bessere Beschreibung der Daten.
0.00
0.05
0.10
0.15
Daten
Mischung von Poissonverteilungen
Poissonverteilung
0
1
2
3
4
5
6
7
8
9 10
12
14
16
18
20
Anzahl verkaufter Packungen
Abbildung 9.4: Verteilung der verkauften Packungen
Man kann die Ergebnisse der Analyse auch anders interpretieren: Es gibt ein weiteres Merkmal, das
die Geschäfte beschreibt, die ,,Verkaufsfähigkeit”. Man kann diese als kategoriales Merkmal interpretieren, das die Fähigkeit der Geschäfte beschreibt, das neue Produkt zu verkaufen. Hätte man vor
der Untersuchung gewusst, wie die einzelnen Geschäfte hinsichtlich dieses Merkmals zu beurteilen
wären, hätte man für die einzelnen Kategorien jeweils Poissonverteilungen anpassen können. Somit
kann man sagen, dass die Vernachlässigung einer erklärenden Variable zu einer Mischung von Poissonverteilungen führt.
166
KAPITEL 9. MISCHVERTEILUNGEN
9.2 Diskrete Mischung stetiger Verteilungen
Definition 9.3 Seien f1 (x) und f2 (x) zwei Dichtefunktionen und sei
heißt
0
r 1. Dann
f (x) = rf1 (x) + (1 r)f2 (x)
die Dichtefunktion der Mischverteilung.
Satz 9.4 Die Mischung
f (x) = rf1 (x) + (1 r)f2 (x)
ist wieder eine Dichtefunktion.
Beweis:
Da f1 und f2 Dichtefunktionen sind, gilt
a)
r)f2 (x) 0 für alle x, da f1 (x) 0; f2 (x) 0 für alle x und
f (x) = rf1 (x) + (1
r 0.
Z1
1
R
f (x)dx = r f1 (x)dx +(1
b)
1
|1 {z
}
=1
r)
Z1
f2 (x)dx = r + (1 r) = 1.
|1 {z
=1
}
c) Da f1 (x) und f2 (x) bis auf endlich viele Stellen stetig sind, ist f (x) auch stetig bis auf
endlich viele Stellen.
}
Mischverteilungen kommen oft vor, wenn man ein unbeobachtetes Merkmal hat. Stellen Sie
sich vor, Sie haben eine zufällige Stichprobe aus der Grundgesamtheit aller Göttinger Studenten genommen und deren Körpergöße gemessen. Wie wird ein vernünftiges Modell für
die Körpergröße der Göttinger Studenten aussehen? Zunächst gibt es unter den Studierenden in Göttingen Frauen und Männer. Es ist allgemein bekannt, dass die Körpergröße der
Frauen im Durchschnitt kleiner ist als die Körpergröße der Männer. Weiterhin ist es vernünftig anzunehmen, dass die Körpergröße von Frauen und von Männern, jeweils für sich allein
genommen, normalverteilt ist. Dies führt zu dem folgenden Modell
2 );
f (x) = rf1 (x; F ; F2 ) + (1 r)f2 (x; M ; M
wobei r der Anteil der Frauen in der Grundgesamtheit der Studierenden in Göttingen ist
und f1 bzw. f2 Dichten der Normalverteilung mit den Parametern F und F2 bzw. M und
2 für Frauen bzw. Männer sind. (Dieses Beispiel wurde nach einem Beispiel von Everitt
M
in Johnson und Kotz (1985) abgeändert.) In diesem Beispiel hätte man das Geschlecht der
9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN
167
f1
0.4
0.3
0.2
0.1
0.0
0
5
10
f2
0.4
0.3
0.2
0.1
0.0
0
5
10
0.4 f1 + 0.6 f2
0.4
0.3
0.2
0.1
0.0
0
5
10
Abbildung 9.5: Diskrete Mischung zweier stetiger Verteilungen, r
= 0:4
Studierenden erfassen können und die beiden Normalverteilungen separat anpassen können.
Es gibt jedoch Situationen, in denen es nicht möglich ist, das Geschlecht festzustellen, z.B.
bei wild lebenden Tieren. Ein anderes bei wild lebenden Tieren nicht beobachtbares Merkmal
ist das Alter, das Einfluss hat auf die Größe der Tiere oder z.B. die Länge von Fischen.
Ein anderer Bereich, in dem Mischverteilungen angewendet werden, ist die Analyse von
Ausfallzeiten, z.B. von elektronischen Bauteilen. Hier gibt es Ausfälle aufgrund verschiedener Ursachen, z.B. plötzliche Ausfälle (meist in einem frühen Stadium) oder natürliche
Ausfälle (Altersausfälle). Die resultierende Verteilung wird eine Mischverteilung sein. Als
mögliches Modell wurde hier die diskrete Mischung von zwei Exponentialverteilungen betrachtet.
Beispiel 9.4 Die Zufallsvariable X messe eine Länge bei Tieren. Die Zufallsvariable Y sei das
Geschlecht, das nicht beobachtet werden kann. Sei
f1 (x) die Dichtefunktion der Länge für männliche Tiere,
f2 (x) die Dichtefunktion der Länge für weibliche Tiere,
r = P (fMännliches Tierg),
1
r = P (fWeibliches Tierg).
Dann ist die Dichtefunktion der Mischverteilung
f (x)
=
=
P (fMännliches Tierg)f1 (x) + P (fWeibliches Tierg)f2 (x)
rf1(x) + (1 r)f2 (x) :
168
KAPITEL 9. MISCHVERTEILUNGEN
Nur weibliche Tiere
0.15
0.10
0.05
0.0
100
105
110
115
120
Nur maennliche Tiere
0.15
0.10
0.05
0.0
100
105
110
115
120
115
120
Alle
0.15
0.10
0.05
0.0
100
105
110
Abbildung 9.6: Histogramme der Kieferlängen
Abbildung 9.6 zeigt unten ein Histogramm mit 20 Beobachtungen der Kieferlängen prähistorischer
Schakale. In diesem Fall weiß man, dass 10 der Schakale männlich und 10 weiblich waren. Die
jeweiligen Histogramme sind ebenfalls in Abbildung 9.6 dargestellt.
An beide Stichproben wurden separat zwei Normalverteilungen angepasst. Abbildung 9.7 zeigt die
angepassten Verteilungen und die Mischung dieser beiden Verteilungen. In diesem Fall ist r = 1=2.
Definition 9.4 Eine diskrete Mischung mit
funktion
I
X
f (x) =
i=1
I stetigen Komponenten hat die Dichteri fi (x) ;
wobei f1 (x); f2 (x); ; fI (x) Dichtefunktionen sind und
r1 + r2 + + rI = 1
(0 ri 1):
Für die Momente 0k einer diskreten Mischung stetiger Verteilungen gilt Satz 9.2 entsprechend.
Beispiel 9.5 Abbildung 9.8 zeigt ein Histogramm des Benzinverbrauchs. Es handelt sich um einen
bei S-PLUS mitgelieferten Datensatz. Bei jeder neuen Tankfüllung, beginnend mit dem Neukauf des
9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN
169
Nur weibliche Tiere
0.10
0.05
0.0
90
100
110
120
130
Nur maennliche Tiere
0.10
0.05
0.0
90
100
110
120
130
120
130
Alle
0.10
0.05
0.0
90
100
110
Abbildung 9.7: Angepasste Dichtefunktionen und Mischung dieser Verteilungen
Wagens wurden die gefahrenen Meilen und die verbrauchten Gallonen notiert. Anders als in Deutschland wird in den USA der Benzinverbrauch in Meilen pro Gallone gemessen. Der Benzinverbrauch
gibt also an, wieviel Meilen mit einer Gallone gefahren wurden.
0.4
0.3
0.2
0.1
0.0
10
12
14
16
18
20
22
24
Benzinverbrauch (Meilen/Gallone)
Abbildung 9.8: Histogramm des Benzinverbrauchs
Die R-Befehle sind:
Verbrauch<-car.miles/car.gals # Berechnet Verbrauch
hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)")
Abbildung 9.9 zeigt eine mit nichtparametrischen Methoden geschätzte Dichtefunktion. Man kann
diese Dichtefunktion als eine Glättung des Histogramms auffassen. Die R-Befehle sind:
170
KAPITEL 9. MISCHVERTEILUNGEN
0.4
Dichte
0.3
0.2
0.1
0.0
10
12
14
16
18
20
22
24
Benzinverbrauch (Meilen/Gallone)
Abbildung 9.9: Geschätzte Dichtefunktionen des Benzinverbrauchs
Verbrauch<-car.miles/car.gals # Berechnet Verbrauch
plot(density(Verbrauch, width=2.5), xlab="Benzinverbrauch (Meilen/Gallone)",
ylab="Dichte ") # density schätzt Dichte
Diese Darstellung legt die Vermutung nahe, dass es sich hier um eine Mischung von zwei Verteilungen handelt, vermutlich zwei Normalverteilungen. Links die Füllungen mit großem Verbrauch, die
vermutlich auf Fahrten im Stadtverkehr zurückzuführen sind, rechts die Füllungen mit geringem Verbrauch, vermutlich Fahrten auf Autobahnen. Abbildung 9.10 zeigt das Histogramm zusammen mit
der geschätzten Dichtefunktion.
0.4
0.3
0.2
0.1
0.0
10
12
14
16
18
20
22
24
Benzinverbrauch (Meilen/Gallone)
Abbildung 9.10: Histogramm und geschätzte Dichtefunktion
Die R-Befehle sind:
Verbrauch<-car.miles/car.gals # Berechnet Verbrauch
hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)")
lines(density(Verbrauch, width=2))
Beispiel 9.6 Abbildung 9.11 zeigt mögliche Dichtefunktionen für Mietpreise für 1 ; 2 ; 3
4
-Zimmerwohnungen und die daraus resultierende Mischverteilung. Dabei wurde
r1 = r2 = r3 = r4 = 1=4
angenommen. Es sei angemerkt, dass es sich um rein fiktive Dichtefunktionen handelt.
und
9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN
171
Dichte * 1000
4
1-Zimmer
2-Zimmer
3-Zimmer
4-Zimmer
3
2
1
Mischung
0
0
500
1000
1500
2000
Mieten
Abbildung 9.11: Mögliche Dichtefunktionen für Mietpreise
Die folgenden Ausführungen beziehen sich auf die Mischung von zwei Normalverteilungen.
Es geht unter anderem um die Gestalt der Mischverteilung, inbesondere ob diese bimodal
oder unimodal ist.
0.4
f(x)
0.3
0.2
0.1
0.0
-4
-2
0
2
4
6
x
Abbildung 9.12: Mischung zweier Normalverteilungen mit r
und 22 = 1
= 0:3; 1 = 0; 12 = 1; 2 = 1:5
Die Dichtefunktion der Mischung zweier Normalverteilungen ist:
1 r1
f (x) = p
e
2 1
(x 1 )2 =212
r
+ 2e
2
(x 2 )2 =222
1<x<1:
Dabei ist 0 < r1 ; r2 < 1 und r1 + r2 = 1, und 1 ; 2 und 12 ; 22 sind die Erwartungswerte
bzw. Varianzen der einzelnen Komponenten.
Die Abbildungen 9.12 und 9.13 zeigen Mischungen von zwei Normalverteilungen. Die Dichtefunktion in Abbildung 9.12 ist unimodal (d.h. hat nur ein Maximum), während die Dichtefunktion in Abbildung 9.13 bimodal ist. Bei Everitt und Hand (1981) finden Sie verschiedene
hinreichende Kriterien für die Unimodalität der Mischung zweier Normalverteilungen. Dort
wird auch die Schätzung der Parameter nach der Methode der Momente und auch nach der
Maximum-Likelihood-Methode beschrieben.
172
KAPITEL 9. MISCHVERTEILUNGEN
0.6
f(x)
0.4
0.2
0.0
-4
-2
0
2
4
6
x
Abbildung 9.13: Mischung zweier Normalverteilungen mit r
und 22 = 0:25
= 0:4; 1 = 0; 12 = 1; 2 = 2
Beispiel 9.7 Abbildung 9.14 zeigt die täglichen Werte des New York Stock Exchange, ein Aktienindex.
5
1990
1991
1992
1993
1994 1995 1996
Index/100
4
3
2
1
0
500
1000
1500
2000
Handelstag
Abbildung 9.14: New York Stock Exchange Composite Index vom 02.01.1990 - 29.11.1996
Bezeichnen wir den Wert zum Zeitpunkt
durch
t mit pt , so ist die tägliche prozentuale Rendite gegeben
rt =
pt
pt
pt
1
100
:
1
Diese Werte sind in Abbildung 9.15 dargestellt. Man erkennt in dieser Abbildung ruhige Phasen mit
kleinen täglichen Schwankungen und unruhige Phasen mit großen Schwankungen.
Abbildung 9.16 zeigt ein Histogramm der prozentualen Renditen mit einer angepassten Normalverteilung. Die Anpassung ist schlecht. Das Histogramm ist zu schmal und im Zentrum zu hoch. In
Abbildung 9.17 wurde daher eine Mischung von zwei Normalverteilungen angepasst. Diese Anpassung ist wesentlich besser.
9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN
1990
Prozentuale Rendite
4
1991
1992
1993
173
1994 1995 1996
2
0
-2
-4
0
500
1000
1500
2000
Handelstag
Abbildung 9.15: Prozentuale Rendite des New York Stock Exchange Composite Index vom
02.01.1990 - 29.11.1996
1.0
0.8
0.6
0.4
0.2
0.0
-4
-3
-2
-1
0
1
2
3
4
Rendite
Abbildung 9.16: Histogramm der Renditen und angepasste Normalverteilung
Abbildung 9.18 zeigt die beiden Komponenten. Die Kurve (A) ist schmal und hoch, hat also eine kleine Varianz, sie entspricht den täglichen Renditen in den ruhigen Phasen. Die Kurve (B) ist flacher und
breiter, hat also eine größere Varianz. Sie entspricht den unruhigen Phasen. Die beiden Verteilungen
wurden im Verhältnis 3:1 gemischt.
9.3 Stetige Mischungen diskreter Verteilungen
9.3.1 Die Beta-Binomialverteilung
Bei Fisher (Statistical Methods for Research Workers, 1925) findet man das folgende Beispiel:
174
KAPITEL 9. MISCHVERTEILUNGEN
1.0
0.8
0.6
0.4
0.2
0.0
-4
-3
-2
-1
0
1
2
3
4
Rendite
Abbildung 9.17: Histogramm der Renditen mit angepasster Mischverteilung
1.0
(A) N(0.08;0.16)
0.8
0.6
Mischverteilung
0.75 (A) + 0.25 (B)
0.4
(B) N(-0.03;1.21)
0.2
0.0
-4
-2
0
2
4
Rendite
Abbildung 9.18: Die angepasste Mischverteilung und ihre Komponenten
Beispiel 9.8 Es wird die Anzahl der Jungen in 53 680 deutschen Familien mit 8 Kindern betrachtet.
Die Anzahl der Jungen insgesamt ist 221 023. Damit ist der Anteil der Jungen
^ = 221 023=(53 680 8) 0:5147 :
Wenn die Ereignisse ‘Jungen-’ und ‘Mädchengeburt’ unabhängig sind, dann sollte die Anzahl der
Jungen in einer Familie mit 8 Kindern binomialverteilt sein mit den Parametern n = 8 und =
0:5147.
In der Tabelle wird die 2 -Prüfgröße berechnet. Das Ergebnis zeigt, dass die Anzahl der Jungen nicht
binomialverteilt ist. Der kritische Wert der 2 -Prüfgröße bei 7 Freiheitsgraden für das Signifikanzniveau = 0:01 = 10 2 ist 18:475, also kleiner als der Wert der Prüfgröße 91:873. Auch der kritische
Wert für = 10 15 , nämlich 85:338 ist noch kleiner als 91:873.
Abbildung 9.19 zeigt die Wahrscheinlichkeitsfunktion der Binomialverteilung und die tatsächlich
beobachteten Anteile. Die Vermutung liegt nahe, dass die Wahrscheinlichkeit für eine Jungengeburt
von Familie zu Familie verschieden ist und um einen Mittelwert von 0:5147 variiert.
Wir betrachten daher das folgende Modell:
Sei Xi die Anzahl der Jungen in Familie i (mit n Kindern), i = 1; 2; : : : ; I .
9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN
Erwartet Abweichung Beitrag zu 2
165.22
+49.78
15.000
1 401.69
+83.31
4.952
5 202.65
+128.35
3.167
11 034.65
-385.65
13.478
14 627.60
+331.40
7.508
12 409.87
-480.87
18.633
6 580.24
+97.76
1.452
1 993.78
+98.22
4.839
264.30
+77.70
22.845
53 680.00
91.873
Anzahl Jungen Anzahl Familien
0
215
1
1 485
2
5 331
3
10 649
4
14 959
5
11 929
6
6 678
7
2 092
8
342
Summe:
53 680
Die Zufallsvariable Xi ist binomialverteilt mit den Parametern n und i , d.h.
Xi b(n; i )
175
i = 1; 2; : : : ; I :
Der Parameter i ist die Realisation einer Zufallsvariablen .
Die Zufallsvariable ist betaverteilt, d.h.
0.25
Be(; ) :
0.00
0.05
0.10
0.15
0.20
Beobachtet
Binomial
0
1
2
3
4
5
6
7
8
Abbildung 9.19: Beobachtete Anteile und angepasste Binomialverteilung
Die obigen Annahmen besagen, dass die bedingte Verteilung von
teilung mit den Parametern n und ist, d.h.
P (fX = xgj) =
!
n x
(1 )n
x
x
X , gegeben , eine Binomialver-
x = 0; 1; 2; : : : ; n :
Die Randverteilung von ist eine Betaverteilung, d.h.
f ( ) =
1
B (; )
1 (1
)
1
0
Die Randverteilung von X erhält man auf die folgende Weise
1
> 0; > 0) :
(
176
KAPITEL 9. MISCHVERTEILUNGEN
Z1
P (fX = xg)
=
0
P (fX = xgj)f ()d
!
Z1
n x
1 (1 ) 1
(1 )n x
d
x
B (; )
=
0
=
!
1
Z
n
1
x+
x B (; )
0
!
n B (x + ; n + x
B (; )
=
)n
1 (1
x)
x+ 1 d
x = 0; 1; : : : ; n :
Die Verteilung von X heißt Beta-Binomialverteilung.
0.25
Abbildung 9.20 zeigt die beobachteten Anteile und die angepasste Beta-Binomialverteilung.
0.00
0.05
0.10
0.15
0.20
Beobachtet
Beta−Binomial
0
1
2
3
4
5
6
7
8
Abbildung 9.20: Beobachtete Anteile und angepasste Beta-Binomialverteilung
Anzahl Jungen Anzahl Familien
0
215
1
1 485
2
5 331
3
10 649
4
14 959
5
11 929
6
6 678
7
2 092
8
342
Summe:
53 680
Erwartet Abweichung Beitrag zu 2
190.62
+24.38
3.118
1 508.44
-23.44
0.364
5 324.13
+6.87
0.009
10 947.79
-298.79
8.155
14 344.28
+614.72
26.344
12 263.39
-334.39
9.118
6 680.77
-2.77
0.001
2 120.39
-28.39
0.380
300.19
+41.81
5.823
53 680.00
53.312
Die Anpassung ist nur geringfügig besser geworden. Ein Blick auf die Tabelle mit den beobachteten
und erwarteten Häufigkeiten zeigt, dass die Anpassung in der Mitte (x = 3; 4; 5) sogar schlechter geworden ist, während sie im übrigen Bereich besser geworden ist. Der 2 -Wert ist von 91:873 gefallen
auf 53:312 gefallen. Dieser Wert ist immer noch so groß, dass die Hypothese, dass die Daten einer
9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN
177
Betabinomialverteilung genügen, abzulehnen ist. Der kritische Wert der 2 -Verteilung bei 6 Freiheitsgraden für = 0:01 ist 10:645. Die Parameter und beta der Betabinomialverteilung wurden
^ = 97:064. Es wäre also
nach der Maximum-Likelihood-Methode geschätzt zu ^ = 102:935 und eine weitere Analyse dieser Daten nötig.
Definition 9.5 Die Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung ist definiert durch
( P (fX = xg) =
n B (x+;n+ x)
B (; )
x
0
x = 0; 1; : : : ; n
sonst :
Die Beta-Binomialverteilung hat drei Parameter, für die gelten muss
n 2 IN;
> 0;
und
>0:
Nach dem vorangehenden Beispiel kann die Beta-Binomialverteilung als stetige Mischung
der Binomialverteilung aufgefasst werden, wenn der Parameter eine Betaverteilung besitzt.
Für die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion der Beta-Binomialverteilung
kann man auf die folgende Weise R-Funktionen schreiben.
dbbinom<-function(x, n, a, b)
f
# Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung
# Parameter n, a, b; x Vektor
# Verwendete Funktion beta siehe Seite 53
f1<-gamma(n+1)/(gamma(x+1)*gamma(n-x+1)) # Binomialkoeffizient
f2<-beta(x+a,n+b-x) # Betafunktion im Zähler
f3<-beta(a,b) # Betafunktion im Nenner
f1*f2/f3
g
pbbinom<-function(x, n, a, b)
f
g
# Verteilungsfunktion der Beta-Binomialverteilung
# Parameter n, a, b; x Zahl
sum(dbbinom(0:x, n, a, b)
9.3.2 Die negative Binomialverteilung
Die negative Binomialverteilung kann als stetige Mischung der Poissonverteilung aufgefasst
werden, wenn man annimmt, dass der Parameter der Poissonverteilung eine Zufallsvariable mit einer Gammaverteilung ist. (Entgegen der sonst verwendeten Notation bezeichnen
wir den Parameter der Poissonverteilung hier mit , da auch in der Gammaverteilung auftaucht.) Wir nehmen also an:
178
KAPITEL 9. MISCHVERTEILUNGEN
Die bedingte Verteilung von X , gegeben , ist eine Poissonverteilung mit dem Parameter .
Die Zufallsvariable besitzt eine Gammaverteilung mit den Parametern und .
Die obigen Annahmen besagen, dass die bedingte Verteilung von X , gegeben , eine Poissonverteilung mit dem Parameter ist, d.h.
P (fX = xgj) =
x
e
x!
x = 0; 1; 2; : : : :
Die Randverteilung von ist eine Gammaverteilung, d.h.
( 1 e f () =
0
sonst :
( )
0
Die Randverteilung von X erhält man auf die folgende Weise
P (fX = xg) =
Z1
0
=
P (fX = xgj)f ()d =
Z1
x! ( ) 0
Wir verwenden die Substitution
x+ 1e
Z1 x
0
x!
e
1 e ( )
d
(1+) d
z = (1 + ) :
Dann ist
dz
=1+
d
oder
=
z
1+
d =
und
dz
:
(1 + )
Die Grenzen ändern sich wie folgt:
Wenn = 0, ist z
= 0.
Wenn = 1, ist z
Damit erhalten wir
= 1.
1
Z
z x+ 1
dz
P (fX = xg) =
e z
x
+
1
x! ( ) 0 (1 + )
(1 + )
1
Z
=
z x+ 1 e z dz
x! ( )(1 + )x+ 0
(x + 1)!
=
(
x
+
)
=
x! ( )(1 + )x+
x!( 1)! (1 + )x+
!
! x+ 1
1 x
=
1
1+
1+
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
179
Im vorletzten Schritt wurde
( ) = (
1)!
und
(x + ) = (x + 1)!
verwendet (siehe Satz 3.9) und schließlich
!
x+ 1
(x + 1)!
=
:
1
x!( 1)!
Wir haben also die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung mit den
Parametern r = und = =(1 + ) erhalten.
Die negative Binomialverteilung mit den Parametern r und hatte die Wahrscheinlichkeitsfunktion
!
P (x) =
x+r 1 r
(1 )x ;
r 1
x = 0; 1; 2; : : : :
In Analogie zum Namen Beta-Binomialverteilung findet man für die negative Binomialverteilung auch den Namen Gamma-Poissonverteilung.
Die negative Bimomialverteilung hat gegenüber der Beta-Binomialverteilung den Vorteil,
dass sie nur zwei statt drei Parameter hat.
9.4 ML–Schätzung bei Mischverteilungen
9.4.1 Einführung
Bei den nachfolgenden Erläuterungen zur Parameterschätzung werden zwei Fälle unterschieden. Zum einen wird der Fall betrachtet, in dem die Anzahl der Mischungskomponenten
bekannt ist und zum anderen der Fall, in dem die Anzahl der Subpopulationen unbekannt
ist. Die Fälle unterscheiden sich nur unwesentlich, wenn man die Likelihoodfunktionen betrachtet. Inhaltlich sind die Fälle aber unterschiedlich zu interpretieren. Im ersten Fall hat
man eine klare Vorstellung aus welchen unterschiedlichen Gruppen die Population besteht.
Im zweiten Fall hingegen ist die Anzahl der Subpopulationen ein Ergebnis der Datenanalyse.
Erst nach der Parameterschätzung erhält man Informationen darüber, aus welchen Gruppen
sich die Population zusammensetzen könnte.
Alle folgenden Ausführungen beziehen sich auf diskrete Mischungen.
9.4.2 Die Likelihoodfunktion für Mischverteilungen
Zunächst wird der Fall betrachtet, bei der die Anzahl der Mischungskomponenten als gegeP
ben betrachtet wird. Sei P (x; ) = Ii=1 ri Pi (x; i ) die Wahrscheinlichkeitsfunktion einer
diskreten Mischung von einparametrigen diskreten Zufallsvariablen mit den Parametern i
und seien x = (x1 ; x2 ; : : : ; xn ) die Beobachtungen, an die die Mischverteilung angepasst
werden soll, dann gilt:
180
KAPITEL 9. MISCHVERTEILUNGEN
Satz 9.5
L(1 ; : : : ; I ; r1 ; : : : ; rI ; x) =
n X
I
Y
j =1 i=1
ri Pi (xj ; i )
ist die Likelihoodfunktion der Mischverteilung.
Um die die Likelihoodfunktion über die Parameter der einzelnen Mischungskomponenten
i , i = 1; : : : ; I , sowie über die Mischungsparameter ri , i = 1; : : : ; I , zu maximieren. Insgesamt sind also 2I 1 Parameter zu schätzenSchätzer zu erhalten, ist . (Der letzte Mischungsparameter ergibt sich aus den übrigen, da die Summe eins betragen muss.) Leider ist es
nicht möglich, das Problem analytisch zu lösen, d.h. das gewohnte Vorgehen (Ableiten und
Nullsetzen) versagt. In diesem Fall muss die Maximierung numerisch mit entsprechender
Software durchgeführt werden (siehe übernächster Abschnitt).
Die vorgestellte Likelihoodfunktion gilt für diskrete Zufallsvariablen. Das analoge Ergebnis
für stetige Zufallsvariablen erhält man, wenn man in der Likelihoodfunktion die WahrscheinP
lichkeitsfunktionen durch Dichtefunktionen ersetzt: Ii=1 ri fi (xj ; i ).
Beispiel 9.9 Im folgenden Beispiel wird gezeigt, wie die Likelihoodfunktion aufzustellen ist, wenn
an gegebene Daten eine Mischverteilung angepasst werden soll und die Anzahl der Mischungskomponenten bekannt ist. An die folgenden zehn Beobachtungen soll eine aus zwei Exponentialverteilungen
bestehende Mischverteilung angepasst werden:
2.65
11.67
9.59
0.30
21.03
0.45
1.45
0.17
1.27
0.13
Die anzupassende Dichtefunktion lautet
f (x) = r1 e
1 x + (1
r)2 e
2 x
und man erhält für die gemeinsame Verteilung der Beobachtungen als Funktion der Parameter, also
für die Likelihoodfunktion:
L(1 ; 2 ; r) =
10 Y
j =1
r1 e
1 xj
+ (1
r)2 e
2 xj
Um die Parameterschätzer zu erhalten, ist die Funktion über 1 ; 2 und r zu maximieren. Das Maximierungsproblem ist analytisch nicht zu lösen. Die numerische Lösung erhält man beispielsweise
^
^
mit dem Programm C.A.MAN. Die Schätzwerte sind: r^ = 0:56, 1 = 1=0:71 und 2 = 1=10:07.
Tatsächlich sind die Daten aus einer Mischverteilung mit r = 0:5, 1 = 1 und 2 = 1=10 simuliert
worden.
Wenn die Anzahl der Mischungskomponenten unbekannt ist, erfolgt die Konstruktion der
Likelihoodfunktion analog zum oben dargestellten Vorgehen. Der Unterschied zwischen den
Fällen liegt darin, dass die Funktion über einen weiteren Parameter, nämlich I , zu maximieren ist. Man könnte zunächst vermuten, dass die Likelihoodfunktion ein Maximum annimmt,
wenn für jede (unterschiedliche) Beobachtung eine Mischungskomponente verwendet wird.
Dies ist jedoch nicht der Fall, was anhand des nachfolgenden Beispiels verdeutlicht wird.
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
181
Beispiel 9.10 Das folgende Beispiel ist so konstruiert, dass angedeutet wird, welche Anzahl von
Komponenten zu einer maximalen Likelihood führt. Betrachtet werden zwei Beobachtungen, x1 = 1
und x2 = 2, an die eine Mischverteilung angepasst werden soll, die aus Poissonverteilungen besteht.
Zunächst wird davon ausgegangen, dass ein Parameter ausreicht, um eine maximale Likelihood zu
erhalten. Dass dies tatsächlich so ist, verdeutlicht Abbildung 9.21. Die Abbildung ist wie folgt zu
interpretieren. An den Achsen sind die Wahrscheinlichkeiten der Beobachtungen (P (x1 = 1) und
P (x2 = 2)) zu sehen. Diese Wahrscheinlichkeiten nehmen je nach Parameter unterschiedliche Werte
an. Plottet man P (1; ) gegen P (2; ) für alle möglichen Werte von , d.h. 2 [0; 1℄, so erhält man
die fett gezeichnete ”Blase”. Sie beschreibt alle möglichen Kombinationen von P (1; ) und P (2; )
bei Verwendung eines Parameters, d.h. einer Mischungskomponente.
0.6
Auf den eingezeichneten Hyperbeln gilt P (1; ) P (2; ) ist konstant und je weiter außen die Hyperbel liegt, desto größer ist der Wert der Konstanten. Beispielsweise gilt auf der höchsten Hyperbel in
Abbildung 9.21 P (1; ) P (2; ) = 0:13. Allgemein ist das Produkt P (1; ) P (2; ) die gemeinsame Wahrscheinlichkeit der Beobachtungen, also die Likelihood. Graphisch ist der ML–Schätzer
demnach zu bestimmen, indem man die Hyperbel findet, die die ”Blase” tangiert, weil man für weiter am Ursprung liegende Hyperbeln die Likelihood noch erhöhen kann und weiter oben liegende
Hyperbeln nicht zulässig sind.
0.3
L=0.03
Lmax=0.08
0.0
0.1
0.2
P(2)
0.4
0.5
L=0.13
0.0
0.1
0.2
0.3
0.4
0.5
0.6
P(1)
Abbildung 9.21: Parameterschätzung bei Mischverteilungen I.
Die Frage, ob durch die Einführung zweier weiterer Parameter, d.h. die Verwendung einer Mischung
aus zwei Poissonverteilungen die Likelihood erhöht werden kann, muss mit nein beantwortet werden.
Dies liegt daran, dass alle möglichen Kombinationen P (1; 1 ; 2 ; r ) und P (2; 1 ; 2 ; r ) innerhalb der
Blase liegen. Eine höhere Likelihood (eine weiter außen liegende Hyperbel) kann also nicht erreicht
werden.
Dies ändert sich, wenn andere Beobachtungen vorliegen. Angenommen, die Beobachtungen seien
x1 = 2 und x2 = 8. In diesem Fall verändert sich die Gestalt der ”Blase”. Sie ist nicht mehr konvex
(vgl. Abbildung 9.22). Es ist jetzt möglich, die Likelihood durch Verwendung von zwei Mischungskomponenten zu erhöhen. Die eingezeichnete Gerade zeigt alle Kombinationen von P (1; 1 ; 2 ; r )
und P (2; 1 ; 2 ; r ) für r 2 [0; 1℄. Die Hyperbel, die die maximale Likelihood charakterisiert tangiert
jetzt diese Gerade und nicht mehr einen Punkt der ”Blase”. Mit anderen Worten wird die maximale
Likelihood durch eine Mischung aus zwei Komponenten erreicht.
Das Beispiel zeigt, dass es von der Datenkonstellation abhängt, ob die Aufnahme einer weiteren Komponente zu einer Erhöhung der Likelihood führt. Im ersten Fall lagen die Beobachtungen dicht beieinander. Es macht in diesem Fall keinen Sinn, die Daten durch zwei
0.00 0.05 0.10 0.15 0.20 0.25 0.30
KAPITEL 9. MISCHVERTEILUNGEN
P(8)
182
(rP(1;λ1),(1−r)P(2;λ2))
λ2
Lmax=0.01
λ1
0.00 0.05 0.10 0.15 0.20 0.25 0.30
P(2)
Abbildung 9.22: Parameterschätzung bei Mischverteilungen II
Mischungskomponenten zu beschreiben. Im zweiten Fall lagen die Beobachtungen weiter
auseinander, so dass ein Modell mit zwei Komponenten den Beobachtungen eine größere
Wahrscheinlichkeit zuordnet (höhere Likelihood).
Ein weiterer Aspekt ist intuitiv einleuchtend:
Satz 9.6 Wenn an n Beobachtungen mit k unterschiedlichen Ausprägungen eine Mischverteilung angepasst wird, ist die maximale Anzahl der Mischungskomponenten k . Die
Aufnahme weiterer Komponenten kann die Likelihood nicht erhöhen.
Das folgende Beispiel verdeutlicht dies.
Beispiel 9.11 An die folgenden Daten soll eine Mischverteilung angepasst werden:
0
1
0
2
0
0
1
1
Der Datensatz besteht aus k = 3 unterschiedlichen Ausprägungen: 0, 1 und 2. Die maximale Anzahl
der Mischungskomponenten beträgt daher I = 3, d.h. eine Mischung aus 4 oder mehr Komponenten
kann nicht zu einer höheren Likelihood führen.
9.4.3 Parameterschätzung mit C.A.MAN
Es ist eine erfreuliche Entwicklung, dass die Möglichkeiten des Internets auch im Rahmen
der Statistik eine immer breitere Verwendung finden. Ein Aspekt ist die Bereitstellung von
Software. Die Software C.A.MAN wurde von Dankmar Böhning entwickelt und steht kostenlos zum Download unter http://www.medizin.fu-berlin.de/sozmed/bo1.html bereit. Es
wird in diesem Abschnitt an einem Beispiel gezeigt, wie die Parameterschätzung für Mischverteilungen mit dem Programm erfolgt.
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
183
Anzahl verkaufter Packungen 0
1 2
Häufigkeit
102 54 49
3 4 5 6
62 44 25 26
7 8 9
15 15 10
Anzahl verkaufter Packungen
Häufigkeit
13 14 15 16
3 3 5 5
17 18 19 20
4 1 2 1
10
10
11 12
10 10
Beispiel 9.12 Betrachtet werden noch einmal die Daten zur Einführung des Süßwarenprodukts, die
bereits in Beispiel 9.3 betrachtet worden sind. Diese sind in der folgenden Tabelle nochmals dargestellt.
Es wird im folgenden an einem Beispiel dargestellt, welche Schritte durchzuführen sind, um den Parameterschätzer zu erhalten. Eine allgemeine Beschreibung der Anwendung findet sich bei Böhning,
D. (1999, S. 201–209).
a) Erstellung der Inputdatei:
Zunächst ist eine Datei zu erstellen, die die Daten enthält. Dazu werden in eine Textdatei
die Ausprägungen und die Häufigkeiten der Ausprägungen geschrieben. Ausprägungen und
Häufigkeiten werden durch ein Leerzeichen getrennt, und verschiedene Ausprägungen werden
durch einen Absatz getrennt. Für das Beispiel also:
0 102
1 54
2 49
...
Anschließend ist die Datei (zum Beispiel unter der Bezeichnung candy.dat) in dem Verzeichnis
zu speichern, in dem das Programm liegt.
b) Start des Programms:
Als nächstes ist das Programm (Caman.exe) zu starten und so lange Return zu drücken, bis
man im Hauptmenü angekommen ist.
c) Bestimmung von Inputdatei und Outputdatei:
Im Hauptmenü ist der Punkt ”INPUT DATA” zu wählen, indem eine 1 eingetippt wird und
anschließend Return gedrückt wird. Im erscheinenden Untermenü erneut der Punkt 1 (Specify
data–file) zu wählen. Anschließend ist der Name der Datei einzutippen, in der die Beobachtungen stehen, also candy.dat. Danach kann die Bezeichnung der Ausgabedatei (candy.out)
bestätigt werden oder eine selbsgewählte Bezeichnung eingegeben werden. Die Ausgabedatei
enthält die Ergebnisse der Parameterschätzung.
d) Bestimmung des Datenformats:
Nach Bestätigung der Ausgabedatei befindet man sich weiterhim im Untermenü ”INPUT DATA”. Jetzt ist das Datenformat anzugeben. Da die Daten in der Form [Ausprägung, Häufigkeit
der Ausprägung] vorliegen, ist die Alternative 3 (”VARIABLE REPLICATION FACTOR”)
zu wählen. Daraufhin wird angezeigt, wieviele unterschiedliche Beobachtungen in den Daten
enthalten sind, und durch erneutes Drücken der Returntaste gelangt man wieder in das Hauptmenü.
184
KAPITEL 9. MISCHVERTEILUNGEN
e) Wahl der Verteilung:
Als nächstes ist der Punkt 3 ”CHOISE OF DISTRIBUTION” zu wählen. Da die Mischungskomponenten hier vom Typ Poisson sind, ist in diesem Untermenü der Punkt 2 ”Poissondistribution” zu bestätigen.
f) Durchführung der Schätzung:
Mit dem Schritt d sind die minimal notwendigen Daten eingegeben, so dass mit der Parameterschätzung begonnen werden kann. Diese beginnt mit der Wahl des Menüpunktes 7 ”COMPUTE NPMLE” (NPMLE steht für Nonparametric Maximum–Likelihood–Estimator). Nach
Auswahl dieser Option fasst das Programm noch einmal die Voraussetzungen der Optimierung
zusammen und fragt, ob noch Änderungen vorgenommen werden sollen. Durch Eingabe von
N(o) beginnt die Parameterschätzung. Jetzt ist die Returntaste so häufig zu betätigen, bis der
folgende Output erscheint:
The NPMLE consists of 5 support points
Result after combining equal estimates:
weight: .0068 parameter:
.000000
weight: .2373 parameter:
.211226
weight: .5019 parameter:
2.998342
weight: .1516 parameter:
7.388325
weight: .1024 parameter: 12.858300
Log-Likelihood at iterate: -1130.13700
Dies ist das Ergebnis der Parameterschätzung. Eine Mischverteilung mit fünf Komponenten besitzt
die höchste Likelihood. Diese Werte der Schätzer sind bereits weiter oben (bei der erstmaligen Betrachtung der Daten) angegeben worden. Ferner ist die Likelihood der Lösung angegeben.
Das letzte Beispiel betrachtet einen Fall, bei dem die Anzahl der Komponenten nicht bekannt ist. Man erhält als Resultat das Modell das zu der höchstmöglichen Likelihood führt.
Es ist jedoch denkbar, dass ein Modell mit weniger Komponenten (und somit weniger Parameteren) die Daten ebenfalls angemessen beschreibt. Möchte man ein Modell mit weniger
Parametern anpassen, so ist die Parameterschätzung für eine bekannte Anzahl von Komponenten durchzuführen.
Beispiel 9.13 Es wird jetzt gezeigt, wie man mit C.A.MAN an die Daten des vorangegangenen
Beispiels ein Modell mit einer bekannten Anzahl von Komponenten anpassen kann.
a) Es sind die Schritte a) bis e) aus dem letzten Beispiel durchzuführen.
b) Bestimmung der Anzahl von Komponenten und der Startwerte:
Es ist jetzt das Untermenü 2 ”CHOICE OF PARAMETER GRID” aufzurufen und der Punkt
3 (If you want to use fixed support size and if you want to enter starting values) zu wählen.
Anschließend wird man aufgefordert, die Anzahl der Komponenten einzugeben. Dies könnte
beispielsweise der Wert 4 sein. Danach ist es notwendig, die Startwerte für die numerische Maximierung anzugeben. Beispielsweise könnte man einfach die Komponente mit dem kleinsten
Mischungsparameter aus der vorangegangenen Schätzung entfernen und die übrigen vier (evtl.
gerundet) als Startwerte verwenden. Eine mögliche Eingabe wäre also (der jeweils erste Wert
steht für den Parameter und der jeweils zweite Wert für das entsprechende Gewicht):
0.2 0.25
3 0.5
7.4 0.15
12.9 0.1
9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN
185
c) Wahl des Algorithmus:
Als nächstes ist im Untermenü ”CHOICE OF ALGORITHM” (Menüpunkt 4) die Option 5
(Fixed support size) zu setzen. Die anschließend angeforderten Eingaben sind nicht unbedingt
notwendig, d.h. man kann durch die Wahl von Punkt 6 (Back to Main Menu) zum Hauptmenü zurückkehren.
d) Durchführung der Parameterschätzung:
Dieser Schritt entspricht dem Schritt 6 aus dem letzten Beispiel. Man erhält jetzt die folgenden
Ergebnisse:
The NPMLE consists of 5 support points
Result after combining equal estimates:
weight:
.244 parameter:
.204273
weight: .5022 parameter:
2.998540
weight: .1515 parameter:
7.391778
weight: .1023 parameter: 12.859990
Log-Likelihood at iterate: -1130.13100
Man sieht, dass die Likelihood des Modell mit vier Komponenten nur um 0.006 kleiner
ist als für das Modell mit fünf Komponenten. Eine weitergehende Frage ist jetzt, welches
Modell man zur Beschreibung der Daten verwenden sollte: Sollte man das Modell mit fünf
Komponenten verwenden, weil die Beobachtungen unter diesem Modell eine höhere Wahrscheinlichkeit besitzen oder sollte man das Modell mit vier Komponenten wählen, weil
man dadurch den Fehler durch Schätzung verringern könnte? Böhning verwendet in praktischen Situationen einen Signifikanztest zur Modellauswahl. Er weist aber gleichzeitig darauf hin, dass die Voraussetzungen zur Durchführung des Tests nur approximativ erfüllt sind
(Böhning, D., 1999, S. 77). Eine weitere Möglichkeit wäre eine Analyse der Modelle mit
Hilfe von Pseudo–Residuen (vgl. Verallgemeinerte Lineare Modelle, 1999, S. 54–63).
Herunterladen