Kapitel 9 Mischverteilungen Bei der Modellanpassung versucht man in der Regel ein einfaches Modell (beispielsweise die Poissonverteilung) zur Beschreibung der Daten zu verwenden. Häufig zeigt sich jedoch, dass ein vermutetes Modell dazu nicht in der Lage ist. Beispielsweise kann die grafische Darstellung der Häufigkeiten einer Stichprobe multimodal sein, was nicht zur unimodalen Gestalt der Poissonverteilung passt. Eine mögliche Erklärung für die Multimodalität ist, dass die Population, aus der die Daten stammen, heterogen ist. Damit ist gemeint, dass die Population aus verschiedenen Gruppen (Subpopulationen) besteht, bei denen sich die Verteilung des betrachteten Merkmals unterscheidet und so zu der Multimodaltät führt. Betrachtet man beispielsweise die Anzahl von Zigarettenpackungen, die von einzelnen Kunden eines Supermarkts gekauft werden, so wäre ein Histogramm der Daten wahrscheinlich nicht unimodal und somit das zugehörige Modell keine Poissonverteilung. Es ist offensichtlich, dass die betrachtete Grundgesamtheit aus zwei Gruppen besteht, den Rauchern und den Nichtrauchern und es ist auch offensichtlich, dass sich die Verteilung des Merkmals in den beiden Gruppen unterscheidet. Es ist gut möglich, dass die (bedingte, d.h. gegeben Raucher bzw. Nichtraucher) Verteilung jeweils vom Typ Poisson ist, die unbedingte Verteilung des Merkmals ist jedoch eine Mischverteilung. Wir wollen in diesem Kapitel die grundlegenden Eigenschaften von Mischverteilungen besprechen, die Sie in der englischen Literatur unter den Begriffen ,,Mixture Models”, ,,Mixture Distributions” (siehe z.B. Kotz und Johnson (1985), Band 5, wo Sie viele interessante Anwendungsbeispiele finden) oder ,,Compound Distributions” finden (siehe auch Everitt und Hand (1981)). Als wesentliche Literaturquelle sei das Buch ,,Computer–Assisted Analysis of Mixtures and Applications” (Böhning D., 1999) erwähnt. Die in diesem Buch beschriebene Software C.A.MAN kann kostenlos von der Hompage des Autors (http://www.medizin.fuberlin.de/sozmed/bo1.html) heruntergeladen werden. 9.1 Diskrete Mischung diskreter Verteilungen Definition 9.1 Seien P1 (x) und P2 (x) Wahrscheinlichkeitsfunktionen und sei 1 : Dann heißt P (x) = r P1 (x) + (1 r)P2 (x) die Mischverteilung von P1 und P2 . 160 0 r 9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN 161 Abbildung 9.1 zeigt zwei diskrete Verteilungen P1 und P2 und dazu in der dritten Zeile die Mischung P = 0:3P1 + 0:7P2 : P1 0.6 0.4 0.2 0.0 1 2 3 4 5 6 5 6 P2 0.6 0.4 0.2 0.0 1 2 3 4 0.3 P1 + 0.7 P2 0.6 0.4 0.2 0.0 1 2 3 4 5 6 Abbildung 9.1: Diskrete Mischung zweier Verteilungen, r = 0:3 Beispiel 9.1 Wir betrachten zwei Münzen, für die gelten möge P f,,Kopf”g P f,,Kopf”g : für Münze 1. : für Münze 2. ( ) = 0 1 ( ) = 0 8 Man wählt zufällig eine der Münzen und wirft sie viermal. Sei X die Anzahl der ,,Köpfe”. Die Münze 1 werde mit Wahrscheinlichkeit r ausgewählt, d.h. P (fMünze 1 gewähltg) = r : Dann gilt für die Wahrscheinlichkeitsfunktion von X P (fX = xg) = = = P (fX = x; Münze 1 gewähltg [ fX = x; Münze 2 gewähltg) P (fX = xgjfMünze 1g)P (fMünze 1g) + P (fX = xgjfMünze 2g)P (fMünze 2g) 4 x ! x 0:1 (1 4 xr + 0:1) 4 ! x : x 0 8 (1 : 4 x (1 0 8) r) : Abbildung 9.2 zeigt die beiden Wahrscheinlichkeitsfunktionen zusammen mit ihrer Mischung für r = 0:5. 162 KAPITEL 9. MISCHVERTEILUNGEN P1 0.8 0.6 0.4 0.2 0.0 0 1 2 3 4 3 4 P2 0.8 0.6 0.4 0.2 0.0 0 1 2 0.5 P1 + 0.5 P2 0.8 0.6 0.4 0.2 0.0 0 1 2 3 4 Abbildung 9.2: Diskrete Mischung zweier Binomialverteilungen, r = 0:5 Satz 9.1 Die Mischung P (x) = r P1 (x) + (1 r)P2 (x) ist wieder eine Wahrscheinlichkeitsfunktion. Beweis: a) P (x) 0 für alle x, da P1 (x) 0; P2(x) 0 für alle x, r 0 und 1 r 0. b) P (x) > 0 für höchstens abzählbar unendlich viele x, da P1 (x) > 0 und P2 (x) > 0 für jeweils höchstens abzählbar unendliche viele x. c) X x P (x) = X x = r (rP1 (x) + (1 r)P2 (x)) X P1 (x) +(1 r) | x {z 1 } = r + (1 r) = 1 : X P2 (x) x | {z } 1 9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN 163 Beispiel 9.2 Die Verteilung des Geschlechts von Zwillingen ist eine Mischverteilung (siehe Blischke (1978)). Es gibt drei Klassen von Zwillingen: W W W M MM : Das führt zu einer Trinomialverteilung. Dabei steht W für weiblich und M für männlich. Ferner gibt es zweieiige und eineiige Zwillinge. Die Geschlechter zweieiiger Zwillinge sind unabhängig voneinander. Daher ist die Verteilung: 2 2 ) (1 (1 )2 : Eineiige Zwillinge haben jedoch das gleiche Geschlecht. Daher ist die Verteilung des Geschlechts für eineiige Zwillinge: 0 (1 ) ; wobei die Wahrscheinlichkeit einer Mädchengeburt ist. Das Geschlecht von Zwillingen ist eine Mischung dieser beiden Verteilungen, wobei der Mischungsparameter r bzw. 1 r durch den Anteil der zweieiigen Zwillinge bzw. eineiigen Zwillinge bestimmt wird. Definition 9.2 (Diskrete Mischung mit I Komponenten) Seien P1 (x); P2 (x); : : : ; PI (x) jeweils Wahrscheinlichkeitsfunktionen. Eine diskrete Mischung dieser Wahrscheinlichkeitsfunktionen ist dann definiert durch P (x) = r1 P1 (x) + r2 P2 (x) + + rI PI (x) = wobei 0 ri I X i=1 ri Pi (x) ; I ri = 1 : 1 für alle i und iP =1 Satz 9.2 Seien P1 (x); P2 (x); : : : ; PI (x) jeweils Wahrscheinlichkeitsfunktionen und sei P (x) die Mischverteilung bezüglich der Mischungsparameter r1 ; r2 ; : : : ; rI . Das k-te Moment der i-ten Verteilung sei mit 0k (i) bezeichnet. Dann gilt für das k -te Moment der Mischverteilung 0k = r1 0k (1) + r2 0k (2) + + rI 0k (I ) = I X i=1 ri 0k (i) : Insbesondere gilt für den Erwartungswert bezüglich einer Mischverteilung E (X ) = r1 (1) + r2 (2) + rI (I ) ; 164 KAPITEL 9. MISCHVERTEILUNGEN wobei (i) der Erwartungswert bezüglich der i-ten Komponente ist. Auch für die Varianzen kann man ein ähnliches Resultat herleiten, das jedoch komplizierter wird. Wir formulieren es nur für die Mischung mit zwei Komponenten. Satz 9.3 Seien P1 und P2 zwei Wahrscheinlichkeitsfunktionen mit Erwartungswerten (1) und (2) und Varianzen 2 (1) und 2 (2). Dann gilt für die Varianz 2 der Mischverteilung mit den Mischungsparametern r1 und r2 2 = r1 2 (1) + r2 2 (2) + r1 r2 ((1) (2))2 : Beweis: Wenn man im folgenden beachtet, dass 02 r2 = 1 r1 gilt, so folgt: 2 = = = = = = = EX 2 = Var(X ) + (E (X ))2 = 2 + (01 )2 und 02 (01 )2 r1 ( 2 (1) + (1)2 ) + r2 ( 2 (2) + (2)2 ) (r1 (1) + r2 (2))2 r1 2 (1) + r2 2 (2) + r1 (1)2 + r2 (2)2 r12 (1)2 2r1 r2 (1)(2) r22 (2)2 r1 2 (1) + r2 2 (2) + r1 (1 r1 )(1)2 + r2 (1 r2 )(2)2 2r1 r2 (1)(2) r1 2 (1) + r2 2 (2) + r1 r2 ((1)2 2(1)(2) + (2)2) r1 2 (1) + r2 2 (2) + r1 r2 ((1) (2))2 Beispiel 9.3 Das folgende Beispiel ist von Böhning, D. (1999, S. 3–5) übernommen. Untersucht wird die Einführung eines neuen Süßwarenprodukts. Im Rahmen der Markteinführung wird die Anzahl verkaufter Packungen (im folgenden mit X bezeichnet) in verschiedenen Geschäften erhoben. Die nachfolgende Tabelle zeigt die Ergebnisse der Datenerhebung. Anzahl verkaufter Packungen 0 1 2 Häufigkeit 102 54 49 3 4 5 6 62 44 25 26 7 8 9 15 15 10 Anzahl verkaufter Packungen Häufigkeit 13 14 15 16 3 3 5 5 17 18 19 20 4 1 2 1 10 10 11 12 10 10 Typischerweise verwendet man zur Beschreibung von Zähldaten unter homogenen Bedingungen in der Population die Poissonverteilung, d.h. P (x) = e x =x!. Abbildung 9.3 zeigt jedoch eine bimodale Verteilung der Daten. Mit anderen Worten ist die Population heterogen, sie besteht aus unterschiedlichen Subpopulationen. Schätzt man die Anzahl der Komponenten, die Parameter der einzelnen Poissonverteilungen sowie die Mischungsparameter mit Hilfe des Programms C.A.MAN (zur Parameterschätzung siehe Abschnitt 9.4.3), erhält man fünf Komponenten: r1 = 0:01 r2 = 0:24 r3 = 0:50 r4 = 0:15 r5 = 0:10 1 = 0:00 2 = 0:21 3 = 3:00 4 = 7:39 5 = 12:86 165 60 40 0 20 Häufigkeit 80 100 9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN 0 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 Anzahl verkaufter Packungen Abbildung 9.3: Verteilung der verkauften Packungen 0.20 Abbildung 9.4 zeigt die relativen Häufigkeiten der empirischen Daten gemeinsam mit einer angepassten Poissonverteilung sowie der angepassten Mischverteilung. Wie zu erkennen ist, liefert die Mischverteilung eine wesentlich bessere Beschreibung der Daten. 0.00 0.05 0.10 0.15 Daten Mischung von Poissonverteilungen Poissonverteilung 0 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 Anzahl verkaufter Packungen Abbildung 9.4: Verteilung der verkauften Packungen Man kann die Ergebnisse der Analyse auch anders interpretieren: Es gibt ein weiteres Merkmal, das die Geschäfte beschreibt, die ,,Verkaufsfähigkeit”. Man kann diese als kategoriales Merkmal interpretieren, das die Fähigkeit der Geschäfte beschreibt, das neue Produkt zu verkaufen. Hätte man vor der Untersuchung gewusst, wie die einzelnen Geschäfte hinsichtlich dieses Merkmals zu beurteilen wären, hätte man für die einzelnen Kategorien jeweils Poissonverteilungen anpassen können. Somit kann man sagen, dass die Vernachlässigung einer erklärenden Variable zu einer Mischung von Poissonverteilungen führt. 166 KAPITEL 9. MISCHVERTEILUNGEN 9.2 Diskrete Mischung stetiger Verteilungen Definition 9.3 Seien f1 (x) und f2 (x) zwei Dichtefunktionen und sei heißt 0 r 1. Dann f (x) = rf1 (x) + (1 r)f2 (x) die Dichtefunktion der Mischverteilung. Satz 9.4 Die Mischung f (x) = rf1 (x) + (1 r)f2 (x) ist wieder eine Dichtefunktion. Beweis: Da f1 und f2 Dichtefunktionen sind, gilt a) r)f2 (x) 0 für alle x, da f1 (x) 0; f2 (x) 0 für alle x und f (x) = rf1 (x) + (1 r 0. Z1 1 R f (x)dx = r f1 (x)dx +(1 b) 1 |1 {z } =1 r) Z1 f2 (x)dx = r + (1 r) = 1. |1 {z =1 } c) Da f1 (x) und f2 (x) bis auf endlich viele Stellen stetig sind, ist f (x) auch stetig bis auf endlich viele Stellen. } Mischverteilungen kommen oft vor, wenn man ein unbeobachtetes Merkmal hat. Stellen Sie sich vor, Sie haben eine zufällige Stichprobe aus der Grundgesamtheit aller Göttinger Studenten genommen und deren Körpergöße gemessen. Wie wird ein vernünftiges Modell für die Körpergröße der Göttinger Studenten aussehen? Zunächst gibt es unter den Studierenden in Göttingen Frauen und Männer. Es ist allgemein bekannt, dass die Körpergröße der Frauen im Durchschnitt kleiner ist als die Körpergröße der Männer. Weiterhin ist es vernünftig anzunehmen, dass die Körpergröße von Frauen und von Männern, jeweils für sich allein genommen, normalverteilt ist. Dies führt zu dem folgenden Modell 2 ); f (x) = rf1 (x; F ; F2 ) + (1 r)f2 (x; M ; M wobei r der Anteil der Frauen in der Grundgesamtheit der Studierenden in Göttingen ist und f1 bzw. f2 Dichten der Normalverteilung mit den Parametern F und F2 bzw. M und 2 für Frauen bzw. Männer sind. (Dieses Beispiel wurde nach einem Beispiel von Everitt M in Johnson und Kotz (1985) abgeändert.) In diesem Beispiel hätte man das Geschlecht der 9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN 167 f1 0.4 0.3 0.2 0.1 0.0 0 5 10 f2 0.4 0.3 0.2 0.1 0.0 0 5 10 0.4 f1 + 0.6 f2 0.4 0.3 0.2 0.1 0.0 0 5 10 Abbildung 9.5: Diskrete Mischung zweier stetiger Verteilungen, r = 0:4 Studierenden erfassen können und die beiden Normalverteilungen separat anpassen können. Es gibt jedoch Situationen, in denen es nicht möglich ist, das Geschlecht festzustellen, z.B. bei wild lebenden Tieren. Ein anderes bei wild lebenden Tieren nicht beobachtbares Merkmal ist das Alter, das Einfluss hat auf die Größe der Tiere oder z.B. die Länge von Fischen. Ein anderer Bereich, in dem Mischverteilungen angewendet werden, ist die Analyse von Ausfallzeiten, z.B. von elektronischen Bauteilen. Hier gibt es Ausfälle aufgrund verschiedener Ursachen, z.B. plötzliche Ausfälle (meist in einem frühen Stadium) oder natürliche Ausfälle (Altersausfälle). Die resultierende Verteilung wird eine Mischverteilung sein. Als mögliches Modell wurde hier die diskrete Mischung von zwei Exponentialverteilungen betrachtet. Beispiel 9.4 Die Zufallsvariable X messe eine Länge bei Tieren. Die Zufallsvariable Y sei das Geschlecht, das nicht beobachtet werden kann. Sei f1 (x) die Dichtefunktion der Länge für männliche Tiere, f2 (x) die Dichtefunktion der Länge für weibliche Tiere, r = P (fMännliches Tierg), 1 r = P (fWeibliches Tierg). Dann ist die Dichtefunktion der Mischverteilung f (x) = = P (fMännliches Tierg)f1 (x) + P (fWeibliches Tierg)f2 (x) rf1(x) + (1 r)f2 (x) : 168 KAPITEL 9. MISCHVERTEILUNGEN Nur weibliche Tiere 0.15 0.10 0.05 0.0 100 105 110 115 120 Nur maennliche Tiere 0.15 0.10 0.05 0.0 100 105 110 115 120 115 120 Alle 0.15 0.10 0.05 0.0 100 105 110 Abbildung 9.6: Histogramme der Kieferlängen Abbildung 9.6 zeigt unten ein Histogramm mit 20 Beobachtungen der Kieferlängen prähistorischer Schakale. In diesem Fall weiß man, dass 10 der Schakale männlich und 10 weiblich waren. Die jeweiligen Histogramme sind ebenfalls in Abbildung 9.6 dargestellt. An beide Stichproben wurden separat zwei Normalverteilungen angepasst. Abbildung 9.7 zeigt die angepassten Verteilungen und die Mischung dieser beiden Verteilungen. In diesem Fall ist r = 1=2. Definition 9.4 Eine diskrete Mischung mit funktion I X f (x) = i=1 I stetigen Komponenten hat die Dichteri fi (x) ; wobei f1 (x); f2 (x); ; fI (x) Dichtefunktionen sind und r1 + r2 + + rI = 1 (0 ri 1): Für die Momente 0k einer diskreten Mischung stetiger Verteilungen gilt Satz 9.2 entsprechend. Beispiel 9.5 Abbildung 9.8 zeigt ein Histogramm des Benzinverbrauchs. Es handelt sich um einen bei S-PLUS mitgelieferten Datensatz. Bei jeder neuen Tankfüllung, beginnend mit dem Neukauf des 9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN 169 Nur weibliche Tiere 0.10 0.05 0.0 90 100 110 120 130 Nur maennliche Tiere 0.10 0.05 0.0 90 100 110 120 130 120 130 Alle 0.10 0.05 0.0 90 100 110 Abbildung 9.7: Angepasste Dichtefunktionen und Mischung dieser Verteilungen Wagens wurden die gefahrenen Meilen und die verbrauchten Gallonen notiert. Anders als in Deutschland wird in den USA der Benzinverbrauch in Meilen pro Gallone gemessen. Der Benzinverbrauch gibt also an, wieviel Meilen mit einer Gallone gefahren wurden. 0.4 0.3 0.2 0.1 0.0 10 12 14 16 18 20 22 24 Benzinverbrauch (Meilen/Gallone) Abbildung 9.8: Histogramm des Benzinverbrauchs Die R-Befehle sind: Verbrauch<-car.miles/car.gals # Berechnet Verbrauch hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)") Abbildung 9.9 zeigt eine mit nichtparametrischen Methoden geschätzte Dichtefunktion. Man kann diese Dichtefunktion als eine Glättung des Histogramms auffassen. Die R-Befehle sind: 170 KAPITEL 9. MISCHVERTEILUNGEN 0.4 Dichte 0.3 0.2 0.1 0.0 10 12 14 16 18 20 22 24 Benzinverbrauch (Meilen/Gallone) Abbildung 9.9: Geschätzte Dichtefunktionen des Benzinverbrauchs Verbrauch<-car.miles/car.gals # Berechnet Verbrauch plot(density(Verbrauch, width=2.5), xlab="Benzinverbrauch (Meilen/Gallone)", ylab="Dichte ") # density schätzt Dichte Diese Darstellung legt die Vermutung nahe, dass es sich hier um eine Mischung von zwei Verteilungen handelt, vermutlich zwei Normalverteilungen. Links die Füllungen mit großem Verbrauch, die vermutlich auf Fahrten im Stadtverkehr zurückzuführen sind, rechts die Füllungen mit geringem Verbrauch, vermutlich Fahrten auf Autobahnen. Abbildung 9.10 zeigt das Histogramm zusammen mit der geschätzten Dichtefunktion. 0.4 0.3 0.2 0.1 0.0 10 12 14 16 18 20 22 24 Benzinverbrauch (Meilen/Gallone) Abbildung 9.10: Histogramm und geschätzte Dichtefunktion Die R-Befehle sind: Verbrauch<-car.miles/car.gals # Berechnet Verbrauch hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)") lines(density(Verbrauch, width=2)) Beispiel 9.6 Abbildung 9.11 zeigt mögliche Dichtefunktionen für Mietpreise für 1 ; 2 ; 3 4 -Zimmerwohnungen und die daraus resultierende Mischverteilung. Dabei wurde r1 = r2 = r3 = r4 = 1=4 angenommen. Es sei angemerkt, dass es sich um rein fiktive Dichtefunktionen handelt. und 9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN 171 Dichte * 1000 4 1-Zimmer 2-Zimmer 3-Zimmer 4-Zimmer 3 2 1 Mischung 0 0 500 1000 1500 2000 Mieten Abbildung 9.11: Mögliche Dichtefunktionen für Mietpreise Die folgenden Ausführungen beziehen sich auf die Mischung von zwei Normalverteilungen. Es geht unter anderem um die Gestalt der Mischverteilung, inbesondere ob diese bimodal oder unimodal ist. 0.4 f(x) 0.3 0.2 0.1 0.0 -4 -2 0 2 4 6 x Abbildung 9.12: Mischung zweier Normalverteilungen mit r und 22 = 1 = 0:3; 1 = 0; 12 = 1; 2 = 1:5 Die Dichtefunktion der Mischung zweier Normalverteilungen ist: 1 r1 f (x) = p e 2 1 (x 1 )2 =212 r + 2e 2 (x 2 )2 =222 1<x<1: Dabei ist 0 < r1 ; r2 < 1 und r1 + r2 = 1, und 1 ; 2 und 12 ; 22 sind die Erwartungswerte bzw. Varianzen der einzelnen Komponenten. Die Abbildungen 9.12 und 9.13 zeigen Mischungen von zwei Normalverteilungen. Die Dichtefunktion in Abbildung 9.12 ist unimodal (d.h. hat nur ein Maximum), während die Dichtefunktion in Abbildung 9.13 bimodal ist. Bei Everitt und Hand (1981) finden Sie verschiedene hinreichende Kriterien für die Unimodalität der Mischung zweier Normalverteilungen. Dort wird auch die Schätzung der Parameter nach der Methode der Momente und auch nach der Maximum-Likelihood-Methode beschrieben. 172 KAPITEL 9. MISCHVERTEILUNGEN 0.6 f(x) 0.4 0.2 0.0 -4 -2 0 2 4 6 x Abbildung 9.13: Mischung zweier Normalverteilungen mit r und 22 = 0:25 = 0:4; 1 = 0; 12 = 1; 2 = 2 Beispiel 9.7 Abbildung 9.14 zeigt die täglichen Werte des New York Stock Exchange, ein Aktienindex. 5 1990 1991 1992 1993 1994 1995 1996 Index/100 4 3 2 1 0 500 1000 1500 2000 Handelstag Abbildung 9.14: New York Stock Exchange Composite Index vom 02.01.1990 - 29.11.1996 Bezeichnen wir den Wert zum Zeitpunkt durch t mit pt , so ist die tägliche prozentuale Rendite gegeben rt = pt pt pt 1 100 : 1 Diese Werte sind in Abbildung 9.15 dargestellt. Man erkennt in dieser Abbildung ruhige Phasen mit kleinen täglichen Schwankungen und unruhige Phasen mit großen Schwankungen. Abbildung 9.16 zeigt ein Histogramm der prozentualen Renditen mit einer angepassten Normalverteilung. Die Anpassung ist schlecht. Das Histogramm ist zu schmal und im Zentrum zu hoch. In Abbildung 9.17 wurde daher eine Mischung von zwei Normalverteilungen angepasst. Diese Anpassung ist wesentlich besser. 9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN 1990 Prozentuale Rendite 4 1991 1992 1993 173 1994 1995 1996 2 0 -2 -4 0 500 1000 1500 2000 Handelstag Abbildung 9.15: Prozentuale Rendite des New York Stock Exchange Composite Index vom 02.01.1990 - 29.11.1996 1.0 0.8 0.6 0.4 0.2 0.0 -4 -3 -2 -1 0 1 2 3 4 Rendite Abbildung 9.16: Histogramm der Renditen und angepasste Normalverteilung Abbildung 9.18 zeigt die beiden Komponenten. Die Kurve (A) ist schmal und hoch, hat also eine kleine Varianz, sie entspricht den täglichen Renditen in den ruhigen Phasen. Die Kurve (B) ist flacher und breiter, hat also eine größere Varianz. Sie entspricht den unruhigen Phasen. Die beiden Verteilungen wurden im Verhältnis 3:1 gemischt. 9.3 Stetige Mischungen diskreter Verteilungen 9.3.1 Die Beta-Binomialverteilung Bei Fisher (Statistical Methods for Research Workers, 1925) findet man das folgende Beispiel: 174 KAPITEL 9. MISCHVERTEILUNGEN 1.0 0.8 0.6 0.4 0.2 0.0 -4 -3 -2 -1 0 1 2 3 4 Rendite Abbildung 9.17: Histogramm der Renditen mit angepasster Mischverteilung 1.0 (A) N(0.08;0.16) 0.8 0.6 Mischverteilung 0.75 (A) + 0.25 (B) 0.4 (B) N(-0.03;1.21) 0.2 0.0 -4 -2 0 2 4 Rendite Abbildung 9.18: Die angepasste Mischverteilung und ihre Komponenten Beispiel 9.8 Es wird die Anzahl der Jungen in 53 680 deutschen Familien mit 8 Kindern betrachtet. Die Anzahl der Jungen insgesamt ist 221 023. Damit ist der Anteil der Jungen ^ = 221 023=(53 680 8) 0:5147 : Wenn die Ereignisse ‘Jungen-’ und ‘Mädchengeburt’ unabhängig sind, dann sollte die Anzahl der Jungen in einer Familie mit 8 Kindern binomialverteilt sein mit den Parametern n = 8 und = 0:5147. In der Tabelle wird die 2 -Prüfgröße berechnet. Das Ergebnis zeigt, dass die Anzahl der Jungen nicht binomialverteilt ist. Der kritische Wert der 2 -Prüfgröße bei 7 Freiheitsgraden für das Signifikanzniveau = 0:01 = 10 2 ist 18:475, also kleiner als der Wert der Prüfgröße 91:873. Auch der kritische Wert für = 10 15 , nämlich 85:338 ist noch kleiner als 91:873. Abbildung 9.19 zeigt die Wahrscheinlichkeitsfunktion der Binomialverteilung und die tatsächlich beobachteten Anteile. Die Vermutung liegt nahe, dass die Wahrscheinlichkeit für eine Jungengeburt von Familie zu Familie verschieden ist und um einen Mittelwert von 0:5147 variiert. Wir betrachten daher das folgende Modell: Sei Xi die Anzahl der Jungen in Familie i (mit n Kindern), i = 1; 2; : : : ; I . 9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN Erwartet Abweichung Beitrag zu 2 165.22 +49.78 15.000 1 401.69 +83.31 4.952 5 202.65 +128.35 3.167 11 034.65 -385.65 13.478 14 627.60 +331.40 7.508 12 409.87 -480.87 18.633 6 580.24 +97.76 1.452 1 993.78 +98.22 4.839 264.30 +77.70 22.845 53 680.00 91.873 Anzahl Jungen Anzahl Familien 0 215 1 1 485 2 5 331 3 10 649 4 14 959 5 11 929 6 6 678 7 2 092 8 342 Summe: 53 680 Die Zufallsvariable Xi ist binomialverteilt mit den Parametern n und i , d.h. Xi b(n; i ) 175 i = 1; 2; : : : ; I : Der Parameter i ist die Realisation einer Zufallsvariablen . Die Zufallsvariable ist betaverteilt, d.h. 0.25 Be(; ) : 0.00 0.05 0.10 0.15 0.20 Beobachtet Binomial 0 1 2 3 4 5 6 7 8 Abbildung 9.19: Beobachtete Anteile und angepasste Binomialverteilung Die obigen Annahmen besagen, dass die bedingte Verteilung von teilung mit den Parametern n und ist, d.h. P (fX = xgj) = ! n x (1 )n x x X , gegeben , eine Binomialver- x = 0; 1; 2; : : : ; n : Die Randverteilung von ist eine Betaverteilung, d.h. f ( ) = 1 B (; ) 1 (1 ) 1 0 Die Randverteilung von X erhält man auf die folgende Weise 1 > 0; > 0) : ( 176 KAPITEL 9. MISCHVERTEILUNGEN Z1 P (fX = xg) = 0 P (fX = xgj)f ()d ! Z1 n x 1 (1 ) 1 (1 )n x d x B (; ) = 0 = ! 1 Z n 1 x+ x B (; ) 0 ! n B (x + ; n + x B (; ) = )n 1 (1 x) x+ 1 d x = 0; 1; : : : ; n : Die Verteilung von X heißt Beta-Binomialverteilung. 0.25 Abbildung 9.20 zeigt die beobachteten Anteile und die angepasste Beta-Binomialverteilung. 0.00 0.05 0.10 0.15 0.20 Beobachtet Beta−Binomial 0 1 2 3 4 5 6 7 8 Abbildung 9.20: Beobachtete Anteile und angepasste Beta-Binomialverteilung Anzahl Jungen Anzahl Familien 0 215 1 1 485 2 5 331 3 10 649 4 14 959 5 11 929 6 6 678 7 2 092 8 342 Summe: 53 680 Erwartet Abweichung Beitrag zu 2 190.62 +24.38 3.118 1 508.44 -23.44 0.364 5 324.13 +6.87 0.009 10 947.79 -298.79 8.155 14 344.28 +614.72 26.344 12 263.39 -334.39 9.118 6 680.77 -2.77 0.001 2 120.39 -28.39 0.380 300.19 +41.81 5.823 53 680.00 53.312 Die Anpassung ist nur geringfügig besser geworden. Ein Blick auf die Tabelle mit den beobachteten und erwarteten Häufigkeiten zeigt, dass die Anpassung in der Mitte (x = 3; 4; 5) sogar schlechter geworden ist, während sie im übrigen Bereich besser geworden ist. Der 2 -Wert ist von 91:873 gefallen auf 53:312 gefallen. Dieser Wert ist immer noch so groß, dass die Hypothese, dass die Daten einer 9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN 177 Betabinomialverteilung genügen, abzulehnen ist. Der kritische Wert der 2 -Verteilung bei 6 Freiheitsgraden für = 0:01 ist 10:645. Die Parameter und beta der Betabinomialverteilung wurden ^ = 97:064. Es wäre also nach der Maximum-Likelihood-Methode geschätzt zu ^ = 102:935 und eine weitere Analyse dieser Daten nötig. Definition 9.5 Die Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung ist definiert durch ( P (fX = xg) = n B (x+;n+ x) B (; ) x 0 x = 0; 1; : : : ; n sonst : Die Beta-Binomialverteilung hat drei Parameter, für die gelten muss n 2 IN; > 0; und >0: Nach dem vorangehenden Beispiel kann die Beta-Binomialverteilung als stetige Mischung der Binomialverteilung aufgefasst werden, wenn der Parameter eine Betaverteilung besitzt. Für die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion der Beta-Binomialverteilung kann man auf die folgende Weise R-Funktionen schreiben. dbbinom<-function(x, n, a, b) f # Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung # Parameter n, a, b; x Vektor # Verwendete Funktion beta siehe Seite 53 f1<-gamma(n+1)/(gamma(x+1)*gamma(n-x+1)) # Binomialkoeffizient f2<-beta(x+a,n+b-x) # Betafunktion im Zähler f3<-beta(a,b) # Betafunktion im Nenner f1*f2/f3 g pbbinom<-function(x, n, a, b) f g # Verteilungsfunktion der Beta-Binomialverteilung # Parameter n, a, b; x Zahl sum(dbbinom(0:x, n, a, b) 9.3.2 Die negative Binomialverteilung Die negative Binomialverteilung kann als stetige Mischung der Poissonverteilung aufgefasst werden, wenn man annimmt, dass der Parameter der Poissonverteilung eine Zufallsvariable mit einer Gammaverteilung ist. (Entgegen der sonst verwendeten Notation bezeichnen wir den Parameter der Poissonverteilung hier mit , da auch in der Gammaverteilung auftaucht.) Wir nehmen also an: 178 KAPITEL 9. MISCHVERTEILUNGEN Die bedingte Verteilung von X , gegeben , ist eine Poissonverteilung mit dem Parameter . Die Zufallsvariable besitzt eine Gammaverteilung mit den Parametern und . Die obigen Annahmen besagen, dass die bedingte Verteilung von X , gegeben , eine Poissonverteilung mit dem Parameter ist, d.h. P (fX = xgj) = x e x! x = 0; 1; 2; : : : : Die Randverteilung von ist eine Gammaverteilung, d.h. ( 1 e f () = 0 sonst : ( ) 0 Die Randverteilung von X erhält man auf die folgende Weise P (fX = xg) = Z1 0 = P (fX = xgj)f ()d = Z1 x! ( ) 0 Wir verwenden die Substitution x+ 1e Z1 x 0 x! e 1 e ( ) d (1+) d z = (1 + ) : Dann ist dz =1+ d oder = z 1+ d = und dz : (1 + ) Die Grenzen ändern sich wie folgt: Wenn = 0, ist z = 0. Wenn = 1, ist z Damit erhalten wir = 1. 1 Z z x+ 1 dz P (fX = xg) = e z x + 1 x! ( ) 0 (1 + ) (1 + ) 1 Z = z x+ 1 e z dz x! ( )(1 + )x+ 0 (x + 1)! = ( x + ) = x! ( )(1 + )x+ x!( 1)! (1 + )x+ ! ! x+ 1 1 x = 1 1+ 1+ 9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN 179 Im vorletzten Schritt wurde ( ) = ( 1)! und (x + ) = (x + 1)! verwendet (siehe Satz 3.9) und schließlich ! x+ 1 (x + 1)! = : 1 x!( 1)! Wir haben also die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung mit den Parametern r = und = =(1 + ) erhalten. Die negative Binomialverteilung mit den Parametern r und hatte die Wahrscheinlichkeitsfunktion ! P (x) = x+r 1 r (1 )x ; r 1 x = 0; 1; 2; : : : : In Analogie zum Namen Beta-Binomialverteilung findet man für die negative Binomialverteilung auch den Namen Gamma-Poissonverteilung. Die negative Bimomialverteilung hat gegenüber der Beta-Binomialverteilung den Vorteil, dass sie nur zwei statt drei Parameter hat. 9.4 ML–Schätzung bei Mischverteilungen 9.4.1 Einführung Bei den nachfolgenden Erläuterungen zur Parameterschätzung werden zwei Fälle unterschieden. Zum einen wird der Fall betrachtet, in dem die Anzahl der Mischungskomponenten bekannt ist und zum anderen der Fall, in dem die Anzahl der Subpopulationen unbekannt ist. Die Fälle unterscheiden sich nur unwesentlich, wenn man die Likelihoodfunktionen betrachtet. Inhaltlich sind die Fälle aber unterschiedlich zu interpretieren. Im ersten Fall hat man eine klare Vorstellung aus welchen unterschiedlichen Gruppen die Population besteht. Im zweiten Fall hingegen ist die Anzahl der Subpopulationen ein Ergebnis der Datenanalyse. Erst nach der Parameterschätzung erhält man Informationen darüber, aus welchen Gruppen sich die Population zusammensetzen könnte. Alle folgenden Ausführungen beziehen sich auf diskrete Mischungen. 9.4.2 Die Likelihoodfunktion für Mischverteilungen Zunächst wird der Fall betrachtet, bei der die Anzahl der Mischungskomponenten als gegeP ben betrachtet wird. Sei P (x; ) = Ii=1 ri Pi (x; i ) die Wahrscheinlichkeitsfunktion einer diskreten Mischung von einparametrigen diskreten Zufallsvariablen mit den Parametern i und seien x = (x1 ; x2 ; : : : ; xn ) die Beobachtungen, an die die Mischverteilung angepasst werden soll, dann gilt: 180 KAPITEL 9. MISCHVERTEILUNGEN Satz 9.5 L(1 ; : : : ; I ; r1 ; : : : ; rI ; x) = n X I Y j =1 i=1 ri Pi (xj ; i ) ist die Likelihoodfunktion der Mischverteilung. Um die die Likelihoodfunktion über die Parameter der einzelnen Mischungskomponenten i , i = 1; : : : ; I , sowie über die Mischungsparameter ri , i = 1; : : : ; I , zu maximieren. Insgesamt sind also 2I 1 Parameter zu schätzenSchätzer zu erhalten, ist . (Der letzte Mischungsparameter ergibt sich aus den übrigen, da die Summe eins betragen muss.) Leider ist es nicht möglich, das Problem analytisch zu lösen, d.h. das gewohnte Vorgehen (Ableiten und Nullsetzen) versagt. In diesem Fall muss die Maximierung numerisch mit entsprechender Software durchgeführt werden (siehe übernächster Abschnitt). Die vorgestellte Likelihoodfunktion gilt für diskrete Zufallsvariablen. Das analoge Ergebnis für stetige Zufallsvariablen erhält man, wenn man in der Likelihoodfunktion die WahrscheinP lichkeitsfunktionen durch Dichtefunktionen ersetzt: Ii=1 ri fi (xj ; i ). Beispiel 9.9 Im folgenden Beispiel wird gezeigt, wie die Likelihoodfunktion aufzustellen ist, wenn an gegebene Daten eine Mischverteilung angepasst werden soll und die Anzahl der Mischungskomponenten bekannt ist. An die folgenden zehn Beobachtungen soll eine aus zwei Exponentialverteilungen bestehende Mischverteilung angepasst werden: 2.65 11.67 9.59 0.30 21.03 0.45 1.45 0.17 1.27 0.13 Die anzupassende Dichtefunktion lautet f (x) = r1 e 1 x + (1 r)2 e 2 x und man erhält für die gemeinsame Verteilung der Beobachtungen als Funktion der Parameter, also für die Likelihoodfunktion: L(1 ; 2 ; r) = 10 Y j =1 r1 e 1 xj + (1 r)2 e 2 xj Um die Parameterschätzer zu erhalten, ist die Funktion über 1 ; 2 und r zu maximieren. Das Maximierungsproblem ist analytisch nicht zu lösen. Die numerische Lösung erhält man beispielsweise ^ ^ mit dem Programm C.A.MAN. Die Schätzwerte sind: r^ = 0:56, 1 = 1=0:71 und 2 = 1=10:07. Tatsächlich sind die Daten aus einer Mischverteilung mit r = 0:5, 1 = 1 und 2 = 1=10 simuliert worden. Wenn die Anzahl der Mischungskomponenten unbekannt ist, erfolgt die Konstruktion der Likelihoodfunktion analog zum oben dargestellten Vorgehen. Der Unterschied zwischen den Fällen liegt darin, dass die Funktion über einen weiteren Parameter, nämlich I , zu maximieren ist. Man könnte zunächst vermuten, dass die Likelihoodfunktion ein Maximum annimmt, wenn für jede (unterschiedliche) Beobachtung eine Mischungskomponente verwendet wird. Dies ist jedoch nicht der Fall, was anhand des nachfolgenden Beispiels verdeutlicht wird. 9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN 181 Beispiel 9.10 Das folgende Beispiel ist so konstruiert, dass angedeutet wird, welche Anzahl von Komponenten zu einer maximalen Likelihood führt. Betrachtet werden zwei Beobachtungen, x1 = 1 und x2 = 2, an die eine Mischverteilung angepasst werden soll, die aus Poissonverteilungen besteht. Zunächst wird davon ausgegangen, dass ein Parameter ausreicht, um eine maximale Likelihood zu erhalten. Dass dies tatsächlich so ist, verdeutlicht Abbildung 9.21. Die Abbildung ist wie folgt zu interpretieren. An den Achsen sind die Wahrscheinlichkeiten der Beobachtungen (P (x1 = 1) und P (x2 = 2)) zu sehen. Diese Wahrscheinlichkeiten nehmen je nach Parameter unterschiedliche Werte an. Plottet man P (1; ) gegen P (2; ) für alle möglichen Werte von , d.h. 2 [0; 1℄, so erhält man die fett gezeichnete ”Blase”. Sie beschreibt alle möglichen Kombinationen von P (1; ) und P (2; ) bei Verwendung eines Parameters, d.h. einer Mischungskomponente. 0.6 Auf den eingezeichneten Hyperbeln gilt P (1; ) P (2; ) ist konstant und je weiter außen die Hyperbel liegt, desto größer ist der Wert der Konstanten. Beispielsweise gilt auf der höchsten Hyperbel in Abbildung 9.21 P (1; ) P (2; ) = 0:13. Allgemein ist das Produkt P (1; ) P (2; ) die gemeinsame Wahrscheinlichkeit der Beobachtungen, also die Likelihood. Graphisch ist der ML–Schätzer demnach zu bestimmen, indem man die Hyperbel findet, die die ”Blase” tangiert, weil man für weiter am Ursprung liegende Hyperbeln die Likelihood noch erhöhen kann und weiter oben liegende Hyperbeln nicht zulässig sind. 0.3 L=0.03 Lmax=0.08 0.0 0.1 0.2 P(2) 0.4 0.5 L=0.13 0.0 0.1 0.2 0.3 0.4 0.5 0.6 P(1) Abbildung 9.21: Parameterschätzung bei Mischverteilungen I. Die Frage, ob durch die Einführung zweier weiterer Parameter, d.h. die Verwendung einer Mischung aus zwei Poissonverteilungen die Likelihood erhöht werden kann, muss mit nein beantwortet werden. Dies liegt daran, dass alle möglichen Kombinationen P (1; 1 ; 2 ; r ) und P (2; 1 ; 2 ; r ) innerhalb der Blase liegen. Eine höhere Likelihood (eine weiter außen liegende Hyperbel) kann also nicht erreicht werden. Dies ändert sich, wenn andere Beobachtungen vorliegen. Angenommen, die Beobachtungen seien x1 = 2 und x2 = 8. In diesem Fall verändert sich die Gestalt der ”Blase”. Sie ist nicht mehr konvex (vgl. Abbildung 9.22). Es ist jetzt möglich, die Likelihood durch Verwendung von zwei Mischungskomponenten zu erhöhen. Die eingezeichnete Gerade zeigt alle Kombinationen von P (1; 1 ; 2 ; r ) und P (2; 1 ; 2 ; r ) für r 2 [0; 1℄. Die Hyperbel, die die maximale Likelihood charakterisiert tangiert jetzt diese Gerade und nicht mehr einen Punkt der ”Blase”. Mit anderen Worten wird die maximale Likelihood durch eine Mischung aus zwei Komponenten erreicht. Das Beispiel zeigt, dass es von der Datenkonstellation abhängt, ob die Aufnahme einer weiteren Komponente zu einer Erhöhung der Likelihood führt. Im ersten Fall lagen die Beobachtungen dicht beieinander. Es macht in diesem Fall keinen Sinn, die Daten durch zwei 0.00 0.05 0.10 0.15 0.20 0.25 0.30 KAPITEL 9. MISCHVERTEILUNGEN P(8) 182 (rP(1;λ1),(1−r)P(2;λ2)) λ2 Lmax=0.01 λ1 0.00 0.05 0.10 0.15 0.20 0.25 0.30 P(2) Abbildung 9.22: Parameterschätzung bei Mischverteilungen II Mischungskomponenten zu beschreiben. Im zweiten Fall lagen die Beobachtungen weiter auseinander, so dass ein Modell mit zwei Komponenten den Beobachtungen eine größere Wahrscheinlichkeit zuordnet (höhere Likelihood). Ein weiterer Aspekt ist intuitiv einleuchtend: Satz 9.6 Wenn an n Beobachtungen mit k unterschiedlichen Ausprägungen eine Mischverteilung angepasst wird, ist die maximale Anzahl der Mischungskomponenten k . Die Aufnahme weiterer Komponenten kann die Likelihood nicht erhöhen. Das folgende Beispiel verdeutlicht dies. Beispiel 9.11 An die folgenden Daten soll eine Mischverteilung angepasst werden: 0 1 0 2 0 0 1 1 Der Datensatz besteht aus k = 3 unterschiedlichen Ausprägungen: 0, 1 und 2. Die maximale Anzahl der Mischungskomponenten beträgt daher I = 3, d.h. eine Mischung aus 4 oder mehr Komponenten kann nicht zu einer höheren Likelihood führen. 9.4.3 Parameterschätzung mit C.A.MAN Es ist eine erfreuliche Entwicklung, dass die Möglichkeiten des Internets auch im Rahmen der Statistik eine immer breitere Verwendung finden. Ein Aspekt ist die Bereitstellung von Software. Die Software C.A.MAN wurde von Dankmar Böhning entwickelt und steht kostenlos zum Download unter http://www.medizin.fu-berlin.de/sozmed/bo1.html bereit. Es wird in diesem Abschnitt an einem Beispiel gezeigt, wie die Parameterschätzung für Mischverteilungen mit dem Programm erfolgt. 9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN 183 Anzahl verkaufter Packungen 0 1 2 Häufigkeit 102 54 49 3 4 5 6 62 44 25 26 7 8 9 15 15 10 Anzahl verkaufter Packungen Häufigkeit 13 14 15 16 3 3 5 5 17 18 19 20 4 1 2 1 10 10 11 12 10 10 Beispiel 9.12 Betrachtet werden noch einmal die Daten zur Einführung des Süßwarenprodukts, die bereits in Beispiel 9.3 betrachtet worden sind. Diese sind in der folgenden Tabelle nochmals dargestellt. Es wird im folgenden an einem Beispiel dargestellt, welche Schritte durchzuführen sind, um den Parameterschätzer zu erhalten. Eine allgemeine Beschreibung der Anwendung findet sich bei Böhning, D. (1999, S. 201–209). a) Erstellung der Inputdatei: Zunächst ist eine Datei zu erstellen, die die Daten enthält. Dazu werden in eine Textdatei die Ausprägungen und die Häufigkeiten der Ausprägungen geschrieben. Ausprägungen und Häufigkeiten werden durch ein Leerzeichen getrennt, und verschiedene Ausprägungen werden durch einen Absatz getrennt. Für das Beispiel also: 0 102 1 54 2 49 ... Anschließend ist die Datei (zum Beispiel unter der Bezeichnung candy.dat) in dem Verzeichnis zu speichern, in dem das Programm liegt. b) Start des Programms: Als nächstes ist das Programm (Caman.exe) zu starten und so lange Return zu drücken, bis man im Hauptmenü angekommen ist. c) Bestimmung von Inputdatei und Outputdatei: Im Hauptmenü ist der Punkt ”INPUT DATA” zu wählen, indem eine 1 eingetippt wird und anschließend Return gedrückt wird. Im erscheinenden Untermenü erneut der Punkt 1 (Specify data–file) zu wählen. Anschließend ist der Name der Datei einzutippen, in der die Beobachtungen stehen, also candy.dat. Danach kann die Bezeichnung der Ausgabedatei (candy.out) bestätigt werden oder eine selbsgewählte Bezeichnung eingegeben werden. Die Ausgabedatei enthält die Ergebnisse der Parameterschätzung. d) Bestimmung des Datenformats: Nach Bestätigung der Ausgabedatei befindet man sich weiterhim im Untermenü ”INPUT DATA”. Jetzt ist das Datenformat anzugeben. Da die Daten in der Form [Ausprägung, Häufigkeit der Ausprägung] vorliegen, ist die Alternative 3 (”VARIABLE REPLICATION FACTOR”) zu wählen. Daraufhin wird angezeigt, wieviele unterschiedliche Beobachtungen in den Daten enthalten sind, und durch erneutes Drücken der Returntaste gelangt man wieder in das Hauptmenü. 184 KAPITEL 9. MISCHVERTEILUNGEN e) Wahl der Verteilung: Als nächstes ist der Punkt 3 ”CHOISE OF DISTRIBUTION” zu wählen. Da die Mischungskomponenten hier vom Typ Poisson sind, ist in diesem Untermenü der Punkt 2 ”Poissondistribution” zu bestätigen. f) Durchführung der Schätzung: Mit dem Schritt d sind die minimal notwendigen Daten eingegeben, so dass mit der Parameterschätzung begonnen werden kann. Diese beginnt mit der Wahl des Menüpunktes 7 ”COMPUTE NPMLE” (NPMLE steht für Nonparametric Maximum–Likelihood–Estimator). Nach Auswahl dieser Option fasst das Programm noch einmal die Voraussetzungen der Optimierung zusammen und fragt, ob noch Änderungen vorgenommen werden sollen. Durch Eingabe von N(o) beginnt die Parameterschätzung. Jetzt ist die Returntaste so häufig zu betätigen, bis der folgende Output erscheint: The NPMLE consists of 5 support points Result after combining equal estimates: weight: .0068 parameter: .000000 weight: .2373 parameter: .211226 weight: .5019 parameter: 2.998342 weight: .1516 parameter: 7.388325 weight: .1024 parameter: 12.858300 Log-Likelihood at iterate: -1130.13700 Dies ist das Ergebnis der Parameterschätzung. Eine Mischverteilung mit fünf Komponenten besitzt die höchste Likelihood. Diese Werte der Schätzer sind bereits weiter oben (bei der erstmaligen Betrachtung der Daten) angegeben worden. Ferner ist die Likelihood der Lösung angegeben. Das letzte Beispiel betrachtet einen Fall, bei dem die Anzahl der Komponenten nicht bekannt ist. Man erhält als Resultat das Modell das zu der höchstmöglichen Likelihood führt. Es ist jedoch denkbar, dass ein Modell mit weniger Komponenten (und somit weniger Parameteren) die Daten ebenfalls angemessen beschreibt. Möchte man ein Modell mit weniger Parametern anpassen, so ist die Parameterschätzung für eine bekannte Anzahl von Komponenten durchzuführen. Beispiel 9.13 Es wird jetzt gezeigt, wie man mit C.A.MAN an die Daten des vorangegangenen Beispiels ein Modell mit einer bekannten Anzahl von Komponenten anpassen kann. a) Es sind die Schritte a) bis e) aus dem letzten Beispiel durchzuführen. b) Bestimmung der Anzahl von Komponenten und der Startwerte: Es ist jetzt das Untermenü 2 ”CHOICE OF PARAMETER GRID” aufzurufen und der Punkt 3 (If you want to use fixed support size and if you want to enter starting values) zu wählen. Anschließend wird man aufgefordert, die Anzahl der Komponenten einzugeben. Dies könnte beispielsweise der Wert 4 sein. Danach ist es notwendig, die Startwerte für die numerische Maximierung anzugeben. Beispielsweise könnte man einfach die Komponente mit dem kleinsten Mischungsparameter aus der vorangegangenen Schätzung entfernen und die übrigen vier (evtl. gerundet) als Startwerte verwenden. Eine mögliche Eingabe wäre also (der jeweils erste Wert steht für den Parameter und der jeweils zweite Wert für das entsprechende Gewicht): 0.2 0.25 3 0.5 7.4 0.15 12.9 0.1 9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN 185 c) Wahl des Algorithmus: Als nächstes ist im Untermenü ”CHOICE OF ALGORITHM” (Menüpunkt 4) die Option 5 (Fixed support size) zu setzen. Die anschließend angeforderten Eingaben sind nicht unbedingt notwendig, d.h. man kann durch die Wahl von Punkt 6 (Back to Main Menu) zum Hauptmenü zurückkehren. d) Durchführung der Parameterschätzung: Dieser Schritt entspricht dem Schritt 6 aus dem letzten Beispiel. Man erhält jetzt die folgenden Ergebnisse: The NPMLE consists of 5 support points Result after combining equal estimates: weight: .244 parameter: .204273 weight: .5022 parameter: 2.998540 weight: .1515 parameter: 7.391778 weight: .1023 parameter: 12.859990 Log-Likelihood at iterate: -1130.13100 Man sieht, dass die Likelihood des Modell mit vier Komponenten nur um 0.006 kleiner ist als für das Modell mit fünf Komponenten. Eine weitergehende Frage ist jetzt, welches Modell man zur Beschreibung der Daten verwenden sollte: Sollte man das Modell mit fünf Komponenten verwenden, weil die Beobachtungen unter diesem Modell eine höhere Wahrscheinlichkeit besitzen oder sollte man das Modell mit vier Komponenten wählen, weil man dadurch den Fehler durch Schätzung verringern könnte? Böhning verwendet in praktischen Situationen einen Signifikanztest zur Modellauswahl. Er weist aber gleichzeitig darauf hin, dass die Voraussetzungen zur Durchführung des Tests nur approximativ erfüllt sind (Böhning, D., 1999, S. 77). Eine weitere Möglichkeit wäre eine Analyse der Modelle mit Hilfe von Pseudo–Residuen (vgl. Verallgemeinerte Lineare Modelle, 1999, S. 54–63).