Multinomiale logistische Regression

Werbung
Multinomiale logistische Regression
Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei
als abhänginge Variable mehr als zwei Ausprägungen (Gruppen) betrachtet
werden.
Beispiel Eine Parteienforscherin will Einflussfaktoren auf die Wahlentscheidung bei der letzten Bundestagswahl untersuchen. Hierfür hat sie eine
Stichprobe von Wählern mit folgenden Variablen7 : beabsichtigte Wahlentscheidung (0: SPD, 1: CDU/CSU, 3: sonstige Parteien), Alter, Geschlecht,
monatliches Bruttoeinkommen und die politische Selbsteinschätzung (auf einer Skala von 1: ’eher links orientiert’ bis 5: ’eher rechts orientiert’). Die
Daten haben folgendes Aussehen:
Da die abhängige Variable in diesem Fall mehr als zwei Kategorien hat,
entschließt sie sich, eine multinomiale logistische Regression durchzuführen.3
7
Die Daten stammen aus der allgemeinen Bevölkerungsumfrage der Sozialwissenschaf-
ten (ALLBUS) 2004 und sind für ihre Zwecke umgeformt worden.
56
Die abhängige Variable kann im multinomialen logistischen Regressionsmodell J nominalskalierte Werte annehmen, wobei diese Werte der abhängigen
Variable gleich 1, 2, . . . , j, . . . , J sein können. Diesen Zusammenhang kann
man dann wie folgt darstellen:
P (yi = j) = πij ,
(43)
mit πij als Wahrscheinlichkeit für das Auswählen der Kategorie j von
Individuum i. Für jedes Individuum gibt es also J mögliche Wahrscheinlichkeiten. Insgesamt gesehen ist eine Kategorie - willkürlich wählbar, hier allerdings die J-te Kategorie - redundant, denn deren Wahrscheinlichkeit kann
wie folgt ermittelt werden:
πiJ = 1 − (πi1 + πi2 + . . . + πij + . . . + πi(J−1) ).
(44)
Da das binäre logistische Regressionsmodell ein Spezialfall des multinomialen logistischen Regressionsmodells ist, kann zunächst auf diese Darstellung zurückgegriffen werden:
P (yi = 1) = πi = F (z) =
ez
eβ1 +β2 x2i +...+βk xki +...+βK xKi
=
.
1 + ez
1 + eβ1 +β2 x2i +...+βk xki +...+βK xKi
(45)
Die Verallgemeinerung dieses Zusammenhangs kann dann wie folgt dargestellt werden:
P (yi = j) = πij = (46)
β1j +β2j x2i +...+βkj xki +...+βKj xKi
e
1+
eβ11 +β21 x2i +...+βk1 xki +...+βK1 xKi
=
+ . . . + eβ1(J −1) +β2(J −1) x2i +...+βk(J −1) xki +...+βK(J −1) xKi
eβ1j +β2j x2i +...+βkj xki +...+βKj xKi
.
β1r +β2r x2i +...+βkr xki +...+βKr xKi
1 + ΣJ−1
r=1 e
Bei der Betrachtung eines multinomialen logistischen Regressionsmodells
bedarf es also der Berücksichtigung einer Referenzkategorie, wobei diese will57
kürlich gewählt werden kann. Die Wahrscheinlichkeitsaussagen aus Basis dieses Regressionsmodells müssen also vor dem Hintergrund einer Referenzkategorie gemacht werden.
Die Schätzung der Koeffizienten wird über die Maximum-Likelihood-Methode vorgenommen. Es gilt also folgende Funktion zu maximieren:
maxβ1 ,...,βJ −1 L(β1 , . . . , βJ−1 ; y1, . . . , yJ , x2i , . . . , xKi),
(47)
Die Likelihoodfunktion kann als Produkt der Einzelwahrscheinlichkeiten
P (yi = j) = πij geschrieben werden:
L=
J n
(πij )dij = (πi1 )di1 · (πi2 )di2 · . . . · (πij )dij · . . . · (πiJ )diJ ,
(48)
j=1 i=1
mit dij als binär kodiertem Wert, der das Vorhandensein einer Auswahl
der j-ten Kategorie widerspiegelt: dij nimmt den Wert eins an, wenn von
Individuum i die j-te Kategorie gewählt wurde (yi = j), sonst ist der Wert
gleich null.
Die Maximierung der Likelihoodfunktion erfolgt wie im Fall der binären
logistischen Regression iterativ und kann z. B. über das Fisher-Scoring-Verfahren erfolgen8 .
Die unabhängigen Variablen im multinomialen logistischen Regressionsmodell müssen die gleichen Anforderungen erfüllen wie im binären logistischen Regressionsmodell und somit auch wie im multiplen linearen Regressionsmodell. Die Interpretation der geschätzten Koeffizienten erfolgt so wie
im binären logistischen Regressionsmodell, hier allerdings stets vor dem Hintergrund der Referenzkategorie der abhängigen Variable, d. h. also der Referenzkategorie J.
8
Vgl. Fahrmeir et al. (1996) Multivariate statistische Verfahren.
58
Güte des multinomialen logistischen Regressionsmodells Zur Beurteilung der Güte eines multinomialen logistischen Regressionsmodells zählen wie im binären logistischen Regressionsmodell besonders
1. verschiedene Bestimmtheitsmaße,
2. das Akaike-Informationskriterium,
3. verschiedene Tests und
4. die Klassifizierungstabelle.
Bestimmtheitsmaße
Bestimmtheitsmaß nach Cox & Snell und nach Nagelkerke
Die Berechnung und Interpretation des Bestimmheitsmaßes nach Cox &
Snell und nach Nagelkerke erfolgt wie im binären logistischen Regressionsmodell.
Bestimmtheitsmaß nach McFadden
Das Bestimmtheitsmaß nach McFadden wird berechnet über
2
RM
cF = 1 − (
lnLV
),
lnL0
(49)
mit lnL0 als Log-Likelihood, die auf der Schätzung des Nullmodells basiert und lnLV ist die Log-Likelihood, die sich aus der Schätzung des untersuchten (vollen) Modells ergibt.
Der Wertebereich des Bestimmtheitsmaßes nach McFadden ist auf den
Bereich zwischen null und unter eins beschränkt. Problematisch bei diesem
Gütemaß ist, dass es nur größer werden kann, je mehr unabhängige Variablen
in das Modell aufgenommen werden. Um diese Problematik zu umgehen,
verwendet man das korrigierte Bestimmtheitsmaß nach McFadden:
2
RM
cF k
lnLV − K ∗
=1−(
), mit
lnL0
59
(50)
K ∗ als Anzahl der Koeffizienten, die es im multinomialen logistischen
Regressionsmodell zu schätzen gilt. Es gibt also einen Tradeoff zwischen LogLikelhood und Anzahl der Koeffizienten im Modell; die Erhöhung der Anzahl
der Koeffizienten bzw. der unabhängigen Variablen kann mit der korrigierten
Version also ’bestraft’ werden.
Akaike-Informationskriterium
Auch bei dem Akaike-Informationskriterium (AIC) verhält es sich so, dass
die Zunahme weiterer unabhängiger Variablen in das Modell bestraft werden
kann. Es kann nämlich gezeigt werden, dass die Likelihood stets größer wird,
je mehr unabhängige Variablen in das Modell aufgenommen werden. Das
AIC wird berechnet über:
AIC = −2 · lnLV + 2 · P, mit
(51)
P als Anzahl der zu schätzenden Koeffizienten. Auch in diesem Fall gibt
es einen Tradeoff, da sich der erste Teil (−2 · lnLV ) dem zweiten Teil (2 · P )
entgegengesetzt verhält9 . Schließlich gilt, dass das AIC möglichst klein sein
sollte, um ein ’gutes’ Regressionsmodell zu haben.
Tests
Test der Nullhypothese H0 : βkj = 0
Dieser Test in der multinomialen logistischen Regressionsanalyse ist vergleichbar mit dem Wald-Test in der binären logistischen Regressionsanalyse.
Äquivalent hierzu kann also getestet werden, ob einzelne unabhängige Variablen xki in der j-ten Gleichung signifikant zur Trennung der beiden betrachteten Gruppen beitragen. Es wird bei diesem Test jeweils eine der J − 1
Gleichungen separat betrachtet.
Die Teststatistik W wird berechnet über
9
Vgl. z. B. Winkelmann et al. (2006) Analysis of Microdata.
60
β̂k
)2
W = (
V ˆar(β̂k )
(52)
und ist asymptotisch χ2 -verteilt mit einem Freiheitsgrad. H0 wird dann
abgelehnt, wenn W > χ21,1−α . Die Berechnung der Teststatistik erfolgt demnach so wie im binären logistischen Regressionsmodell.
Test der Nullhypothese H0 : βk1 = . . . = βkj = . . . = βk(J−1) = 0
Dieser Test überprüft, ob die Koeffizienten βk1 = . . . = βkj = . . . =
βk(J−1) , die zu einer unabhängigen Variablen xki gehören, in allen J − 1
Gleichungen gleich null sind. Die Teststatistik LR wird berechnet über
LR = −2 · logLR − (−2 · logLV ),
(53)
mit logLR als Log-Likelihood, die sich aus dem reduzierten Regressionsmodell ohne die Variable xki - aber mit allen übrigen betrachteten Variablen
- ergibt. Die Teststatistik ist χ2 -verteilt mit J − 1 Freiheitsgraden. H0 wird
dann abgelehnt, wenn LR > χ2(J−1),1−α . Mit diesem Test kann auch überprüft
werden, ob mehr als eine unabhängige Variable signifikant zur Trennung der
Gruppen beiträgt.
Test der globalen Nullhypothese H0 : βk1 = . . . = βkj = . . . = βk(J−1) = 0
für j = 1, . . . , (J − 1)
Dieser Test überprüft, ob die Koeffizienten βk1 = . . . = βkj = . . . =
βk(J−1) , die zu allen unabhängigen Variablen xki gehören, in allen J − 1
Gleichungen gleich null sind. Die Teststatistik LR wird berechnet über
LR = −2 · logL0 − (−2 · logLV ),
(54)
mit logL0 als Log-Likelihood, die sich aus dem Null-Regressionsmodell
ohne die Variablen xki , k = 2, . . . , K ergibt, d. h. die Log-Likelihood des NullRegressionsmodells wird inklusive des Absolutgliedes geschätzt. Die Teststa61
tistik ist χ2 -verteilt mit 2 · (K − 1) Freiheitsgraden. H0 wird dann abgelehnt,
wenn LR > χ2(2·(K−1)),1−α .
Test der IIA-Annahme
Die IIA-Annahme (independence of irrelevant alternatives, also die Unabhängigkeit von irrelevanten Alternativen) wird bei der Schätzung eines
multinomialen logistischen Regressionsmodells implizit angenommen und kann
mit dem Hausman-McFadden-Test überprüft werden. Diese Annahme besagt,
dass die Aussagen bezüglich der Wahrscheinlichkeiten bzw. der Wahrscheinlichkeitsverhältnisse (odds) der J Kategorien der abhängigen Variable unabhängig gemacht werden können von weiteren Kategorien (z. B. J + 1) bzw.
von weggelassenen Kategorien (z. B. J − 1). Die Nullhypothese dieses Tests
lautet H0 : IAA gilt. Die Teststatistik wird beispielsweise über folgenden
Ansatz berechnet:
1. Schätzung aller Koeffizienten des vollen Modells: β̂V .
2. Schätzung eines reduzierten Modells mit Ausschluss einer Alternative
hinsichtlich der abhängigen Variable: β̂R .
3. Seien nun β̂V∗ Koeffizientenschätzer des vollen Modells, wobei die unter
Schritt zwei ausgelassene Kategorie in β̂V∗ nicht mehr berücksichtigt sei.
Die für diesen Test relevante Teststatistik H wird dann über folgenden
Ansatz berechnet:
H = (β̂R − β̂V∗ ) {V ˆar(β̂R ) − V ˆar(β̂V∗ )}−1 (β̂R − β̂V∗ ).
(55)
Diese Teststatistik ist χ2 -verteilt mit der Anzahl an geschätzten Koeffizienten in β̂R (H) als Anzahl der Freiheitsgrade. H0 wird dann abgelehnt,
wenn H > χ2H,1−α . Wird H0 also abgelehnt, so muss von einer Verletzung der
IIA-Annahme ausgegangen werden.
62
Klassifizierungstabelle
Die Klassifizierungstabelle gibt absolute und relative Häufigkeiten der
richtig durch das Modell klassifizierten Beobachtungen wider. Sie vergleicht
also die empirisch gegebene Konstellation vor der Schätzung des multinomialen logistischen Regressionsmodells mit der sich durch die Modellprognose
ergebende Situation für die betrachteten Objekte nach der Schätzung des Regressionsmodells. Im Vergleich zur binären logistischen Regression wird hier
aber nicht eine ’Vier-Felder’-Beurteilung unternommen, sondern eine Beurteilung höherer Ordnung: Für drei Merkmalsausprägungen der abhängigen
Variable ergäbe sich z. B. eine ’Neun-Felder’-Beurteilung.
Beispiel (fortgesetzt) Die Parteienforscherin möchte ihr geschätztes multinomiales logistisches Regressionsmodell genauer beleuchten. Hierzu betrachtet sie zunächst die Modellanpassung:
$ %
&
!
"!
" #
" #!( !
'# !(
) # * % +
Mit den angezeigten Werten kann sie die globale Nullhypothese H0 :
βk1 = . . . = βkj = . . . = βk(J−1) = 0 für j = 1, . . . , (J − 1) überprüfen.
Ihre Teststatistik LR ergibt sich als Differenz von −2 · logL0 − (−2 · logLV )
und beträgt hier 2929, 357 − 2616, 783 = 312, 574. Zu jedem vorgegebenen
63
Signifikanzniveau α wird diese Nullhypothese abgelehnt, so dass sie bezüglich
dieses Gütekriteriums von einem gut spezifizierten Modell ausgehen kann.
Desweiteren interessieren sie aber noch andere Gütekriterien.
Die Bestimmtheitsmaße weisen ihrer Meinung nach angemessene Werte aus. Zudem möchte sie überprüfen, wie es sich mit der Nullhypothese H0 : βk1 = . . . = βkj = . . . = βk(J−1) = 0 verhält. Sie möchte also
überprüfen, ob die einzelnen unabhängigen Variablen Alter, Geschlecht, monatliches Bruttoeinkommen und die politische Selbsteinschätzung signifikant
zur Trennung der Auswahlkategorien beitragen.
64
!
"
#$%$%
)
(
.(/
,'
&
'&
%()
(,-
.(
%(&1,&
0%&1,(
2%
'(
'
30%&1,(& (3-(&'&%(-4$%
((')'.(,((,-.((
3(,-
.(4(!$%(,((')'.(
4''4(
5!'(",%6/%-,',($%(
7(!'
3(,-.(-,(')'.(89,:(
(;'((-%(2%'($%
%<%
Zu einem Signifikanzniveau von α = 0, 05 bereitet ihr lediglich die Variable Geschlecht sorgen, so dass sie in Erwägung zieht, eine multinomiale logistische Regression ohne diese unabhängige Variable zu schätzen. Betrachtet
werden in allen Fällen jeweils folgende Teststatistiken: LR = −2·logLR −(−2·
logLV ). Für die unabhängige Variable Alter ergibt sich also die Teststatistik
LR als 2635, 720−2616, 783 = 18, 937. Auf dieser Basis wird H0 demnach abgelehnt und sie kann davon ausgehen, dass die Variable Alter signifikant zur
Trennung der Auswahlkategorien (beabsichtigte Wahlentscheidung) beiträgt.
Schließlich möchte sie noch wissen, ob die Variable Geschlecht separat
betrachtet ebenfalls problematisch ist. Sie testet also die Nullhypothese H0 :
βkj = 0 in beiden Gleichungen.
65
(%
)*
+*,-+,
!
"#$%$%&
'
"#$%$%&'
!
"#$%$%&
'
"#$%$%&'
.
//0
%
(/
1%2
/
20!3
4567.8
:0/3;0<
4567.8
,23 923
*03!2?@2)
*)A/?0 ?23A/?/
Auch bei dieser Betrachtung erweist sich diese Variable als problematisch. In der obigen Schätzung ist es beispielsweise so, dass dort die relevante
)2 = 0, 346
Nullhypothese abgelehnt wird, da die Teststatistik W gleich ( 0,092
0,156
ist und auf dieser Basis die Nullhypothese zu einem Signifikanzniveau von
α = 0, 05 nicht abgelehnt werden kann.
!"
# ! Mit der Klassifikationstabelle ist sie nicht gänzlich zufrieden, da lediglich
55, 9% aller befragten Personen richtig durch das Modell klassifiziert wurden.
66
Besonders erstaunt sie die große Variation der richtig Klassifizierten bei den
unterschiedlichen Parteien: Bezüglich der SPD wurden 13, 1%, der CDU/CSU
87, 4% und bezüglich der sonstigen Parteien 43, 0% richtig klassifiziert.
Schließlich möchte sie noch wissen, wie hoch die einzelnen Wahrscheinlichkeiten für die befragten Personen waren, eine der drei Auswahlkategorien
zu wählen, also die durch das Regressionsmodell geschätzten Wahrscheinlichkeiten für die beabsichtigte Wahl.3
67
Zugehörige Unterlagen
Herunterladen