Multivariate Statistische Verfahren

Werbung
Multivariate Statistische
Verfahren
Poisson-Regression
Überdispersion und Mischungen
Psychologisches Institut der
Universität Mainz
SS 2012
U. Mortensen
1
Poisson-Regression
Interpretation der Parameter:
  exp(b0  b1 x1 
 bn xn )  eb0 eb1x1
ebn xn
x1  x2   xn  0    eb0
dh b0 definiert einfach die Rate, mit dem Ereignisse erzeugt werden,
ohne dass eine der betrachteten Einflußgrößen vorhanden ist.
Zum Unterschied zwischen x j  0 und x  1:
 wird entweder durch den Wert e0  1 d.h. gar nicht, oder durch den
b
Wert e j verändert, d.h. ie Veränderung von x j um eine Einheit verändert
 um den Faktor e .
bj
2
Poisson-Regression
3
Poisson-Regression
Das ‚Problem der Überdispersion
Für die Poisson-Verteilung gilt
E ( X )  Var ( X ) 
empirisch findet man aber oft Var ( X )  E ( X ) , d.h. Überdispersion
oder Var ( X )  E ( X ), d.h. Unterdispersion.
Ursachen:
(1) Die Annahme der Poisson-Verteilung ist falsch, die Ereignisse nicht unabhängig voneinander?
(2) Die Ereignisse sind pro Fall Poisson-verteilt, - aber mit
jeweils verschiedenem Parameter. Die tatsächliche
Verteilung ist eine Mischung von Poisson-Verteilungen.
4
Poisson-Regression
Die Mischung von Verteilungen.
Mischungen von Verteilungen:
Gewöhnliche Annahme : Ein Merkmal X ist in einer Population wie f ( x) verteilt.
Tatsächlich bestehe aber die Population aus zB 3 Teilpopulationen, und für die
j-te Verteilung sei X wie f j ( x) verteilt. ''Greift'' man nun in die Population, so hängt
der gefundene X-Wert davon ab, in welche Teilpopulation man greift.
Die Wahrscheinlichkeit, in die Teilpopulation 1 zu greifen, sei p1 ,
die Wahrscheinlichkeit, in die Teilpopulation 2 zu greifen, sei p2 ,
und p3 sei die Wahrscheinlichkeit, in die dritte Teilpopulation zu
greifen. Die Wahrscheinlichkeitsverteilung für X ist dann durch
die Mischung
f ( x)  p1 f1 ( x)  p f 2 ( x)  p3 f 3 ( x), mit
gegeben.
3
p
j 1
j
1
5
Poisson-Regression - Mischungen
Allgemein ist eine diskrete Mischung durch
f ( x)  p1 f1 ( x)  p2 f 2 ( x) 
 pn f n ( x )
gegeben.
Die Verteilungen hängen von irgendwelchen Parametern  ,  2 etc,
allgemein  ab. Es sei nun g ( )  0 eine Funktion von  mit  g ( )d  1.
Dann heißt
f (x )  
x

f ( x |  ) g ( )d
eine stetige Mischung von Verteilungen. (g ( ) kann als Dichtefunktion
für den Parameter  aufgefasst werden!)
6
Poisson-Regression - Mischungen
Die Verteilungen hängen von irgendwelchen Parametern  ,  2 etc,
allgemein  ab. Es sei nun g ( )  0 eine Funktion von  mit  g ( )d  1.
Dann heißt
f (x )  
x

f ( x |  ) g ( )d
eine stetige Mischung von Verteilungen. (g ( ) kann als Dichtefunktion
für den Parameter  aufgefasst werden!)
Welche Dichtefunktion kann man für den Parameter  der
Poisson-Verteilung in Betracht ziehen?
7
Poisson-Regression - Mischungen
Üblich ist die Gamma-Funktion:
( p  1)!, für p  1, 2,


f ( x |  , p) 
x p1e  x , mit ( p)   p 1  u
( p )
  u e du , für p stetig
0
p
8
Poisson-Regression - Mischungen
Mischung von Poisson-Verteilungen mit Gamma-Verteilung als Gewichtung:
p
(k  p )  p  
p 
g (k |  , p) 
1


 

(k  1)( p)    p     p 
k
Dies ist die negative Binomialverteilung!
Der Erwartungswert und die Varianz sind durch
E (k )   ,
Var (k )   
2
p
 E (k )
gegeben .
E (k )   kann als Funktion unabhängiger Variablen (Prädiktoren)
genommen werden.
9
Poisson-Regression - Mischungen
Die Log-Normalverteilung
Der Standardansatz in der Statistik - so, wie sie in der Psychologie verwendet
wird - besteht in der Annahme, dass Fehler ("Rauschen") additv ist:
x    e.
Bei der Poisson-Verteilung wurde aber angenommen, dass der Parameter
  0 nicht additiv von den unabhängigen Variablen abhängt:
  e b b x 
 ein.
0
1 1
bn xn
 eb ' x d.h. die einzelnen Variablen gehen multiplikativ in
Weiter kann man annehmen, dass die unabhängigen Variablen noch durch einen additiven
Fehler verzerrt werden
  exp(b ' x   )  e eb ' x . Der Fehler geht nun multiplikativ in  ein.
10
Poisson-Regression - Mischungen
Angenommen, der Fehler ist normalverteilt- mit Mittelwert  0.
Wie ist dann  verteilt?
Es sei
Y  e X , und x sei normalverteilt. Für die Verteilung von Y erhält man
log y
Fy ( y )  P(Y  y )  P(e  y )  P( X  log y )  Fx (log y ) 
X

f ( x)dx,

f die Dichte der Normalverteilung, dh Y ist so verteilt wie X mit der
oberen Grenze log y !
Die Dichtefunktion für Y ist dann durch
 (log y   ) 2 
dFx (log y )
1
1
 f y ( y )  f x (log y ) 
exp  
, y  0
2
dy
y y 2
2





2 
2
2   2
gegeben, mit E (Y )  exp   
,
Var
(
Y
)

e

1
e

2 

11
Poisson-Regression - Mischungen
Die Mischung von Poisson-Verteilungen mit der log-Normalverteilung ist
nicht in geschlossener Form darstellbar, - sie muß numerisch bestimmt werden.
Wichtig ist hier nur die Möglichkeit, dass die  in der Population log-normalverteilt
sind.
Limpert, Stahel, Abbt (2001) Log-normal distributions across the sciences:
Keys and Cues. Bio Sciences, 51(5), 341 - 352:
Die Verteilung von Chemikalien, Bakterien, allgemein Organismen, Mikroorganismen
und Aerosole in der Luft, ebenso Wolken (turbulente Prozesse), Pflanzenarten, Vögel,
Motten, Körpergewicht, Hautfläche, Blutdruck, das Einkommen in einer Gesellschaft -alle diese Dinge sind log-normalverteilt.
Man kann die Parameter einer Gamma- und einer
log-Normalverteilung so wählen, dass sie identische
Modalwerte haben und darüber hinaus so einander
so ähnlich wie möglich sind.
Bei Anwendungen auf die logistische Regression
kann man demnach ähnliche Resultate erwarten!12
Poisson-Regression
Beispiel: einfache Poisson-verteilte Variable:
13
Poisson-Regression
14
Herunterladen