Multivariate Statistische Verfahren Poisson-Regression Überdispersion und Mischungen Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen 1 Poisson-Regression Interpretation der Parameter: exp(b0 b1 x1 bn xn ) eb0 eb1x1 ebn xn x1 x2 xn 0 eb0 dh b0 definiert einfach die Rate, mit dem Ereignisse erzeugt werden, ohne dass eine der betrachteten Einflußgrößen vorhanden ist. Zum Unterschied zwischen x j 0 und x 1: wird entweder durch den Wert e0 1 d.h. gar nicht, oder durch den b Wert e j verändert, d.h. ie Veränderung von x j um eine Einheit verändert um den Faktor e . bj 2 Poisson-Regression 3 Poisson-Regression Das ‚Problem der Überdispersion Für die Poisson-Verteilung gilt E ( X ) Var ( X ) empirisch findet man aber oft Var ( X ) E ( X ) , d.h. Überdispersion oder Var ( X ) E ( X ), d.h. Unterdispersion. Ursachen: (1) Die Annahme der Poisson-Verteilung ist falsch, die Ereignisse nicht unabhängig voneinander? (2) Die Ereignisse sind pro Fall Poisson-verteilt, - aber mit jeweils verschiedenem Parameter. Die tatsächliche Verteilung ist eine Mischung von Poisson-Verteilungen. 4 Poisson-Regression Die Mischung von Verteilungen. Mischungen von Verteilungen: Gewöhnliche Annahme : Ein Merkmal X ist in einer Population wie f ( x) verteilt. Tatsächlich bestehe aber die Population aus zB 3 Teilpopulationen, und für die j-te Verteilung sei X wie f j ( x) verteilt. ''Greift'' man nun in die Population, so hängt der gefundene X-Wert davon ab, in welche Teilpopulation man greift. Die Wahrscheinlichkeit, in die Teilpopulation 1 zu greifen, sei p1 , die Wahrscheinlichkeit, in die Teilpopulation 2 zu greifen, sei p2 , und p3 sei die Wahrscheinlichkeit, in die dritte Teilpopulation zu greifen. Die Wahrscheinlichkeitsverteilung für X ist dann durch die Mischung f ( x) p1 f1 ( x) p f 2 ( x) p3 f 3 ( x), mit gegeben. 3 p j 1 j 1 5 Poisson-Regression - Mischungen Allgemein ist eine diskrete Mischung durch f ( x) p1 f1 ( x) p2 f 2 ( x) pn f n ( x ) gegeben. Die Verteilungen hängen von irgendwelchen Parametern , 2 etc, allgemein ab. Es sei nun g ( ) 0 eine Funktion von mit g ( )d 1. Dann heißt f (x ) x f ( x | ) g ( )d eine stetige Mischung von Verteilungen. (g ( ) kann als Dichtefunktion für den Parameter aufgefasst werden!) 6 Poisson-Regression - Mischungen Die Verteilungen hängen von irgendwelchen Parametern , 2 etc, allgemein ab. Es sei nun g ( ) 0 eine Funktion von mit g ( )d 1. Dann heißt f (x ) x f ( x | ) g ( )d eine stetige Mischung von Verteilungen. (g ( ) kann als Dichtefunktion für den Parameter aufgefasst werden!) Welche Dichtefunktion kann man für den Parameter der Poisson-Verteilung in Betracht ziehen? 7 Poisson-Regression - Mischungen Üblich ist die Gamma-Funktion: ( p 1)!, für p 1, 2, f ( x | , p) x p1e x , mit ( p) p 1 u ( p ) u e du , für p stetig 0 p 8 Poisson-Regression - Mischungen Mischung von Poisson-Verteilungen mit Gamma-Verteilung als Gewichtung: p (k p ) p p g (k | , p) 1 (k 1)( p) p p k Dies ist die negative Binomialverteilung! Der Erwartungswert und die Varianz sind durch E (k ) , Var (k ) 2 p E (k ) gegeben . E (k ) kann als Funktion unabhängiger Variablen (Prädiktoren) genommen werden. 9 Poisson-Regression - Mischungen Die Log-Normalverteilung Der Standardansatz in der Statistik - so, wie sie in der Psychologie verwendet wird - besteht in der Annahme, dass Fehler ("Rauschen") additv ist: x e. Bei der Poisson-Verteilung wurde aber angenommen, dass der Parameter 0 nicht additiv von den unabhängigen Variablen abhängt: e b b x ein. 0 1 1 bn xn eb ' x d.h. die einzelnen Variablen gehen multiplikativ in Weiter kann man annehmen, dass die unabhängigen Variablen noch durch einen additiven Fehler verzerrt werden exp(b ' x ) e eb ' x . Der Fehler geht nun multiplikativ in ein. 10 Poisson-Regression - Mischungen Angenommen, der Fehler ist normalverteilt- mit Mittelwert 0. Wie ist dann verteilt? Es sei Y e X , und x sei normalverteilt. Für die Verteilung von Y erhält man log y Fy ( y ) P(Y y ) P(e y ) P( X log y ) Fx (log y ) X f ( x)dx, f die Dichte der Normalverteilung, dh Y ist so verteilt wie X mit der oberen Grenze log y ! Die Dichtefunktion für Y ist dann durch (log y ) 2 dFx (log y ) 1 1 f y ( y ) f x (log y ) exp , y 0 2 dy y y 2 2 2 2 2 2 gegeben, mit E (Y ) exp , Var ( Y ) e 1 e 2 11 Poisson-Regression - Mischungen Die Mischung von Poisson-Verteilungen mit der log-Normalverteilung ist nicht in geschlossener Form darstellbar, - sie muß numerisch bestimmt werden. Wichtig ist hier nur die Möglichkeit, dass die in der Population log-normalverteilt sind. Limpert, Stahel, Abbt (2001) Log-normal distributions across the sciences: Keys and Cues. Bio Sciences, 51(5), 341 - 352: Die Verteilung von Chemikalien, Bakterien, allgemein Organismen, Mikroorganismen und Aerosole in der Luft, ebenso Wolken (turbulente Prozesse), Pflanzenarten, Vögel, Motten, Körpergewicht, Hautfläche, Blutdruck, das Einkommen in einer Gesellschaft -alle diese Dinge sind log-normalverteilt. Man kann die Parameter einer Gamma- und einer log-Normalverteilung so wählen, dass sie identische Modalwerte haben und darüber hinaus so einander so ähnlich wie möglich sind. Bei Anwendungen auf die logistische Regression kann man demnach ähnliche Resultate erwarten!12 Poisson-Regression Beispiel: einfache Poisson-verteilte Variable: 13 Poisson-Regression 14