Multinomiale logistische Regression

Multinomiale logistische Regression
Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei
als abhänginge Variable mehr als zwei Ausprägungen (Gruppen) betrachtet
werden.
Beispiel Eine Parteienforscherin will Einﬂussfaktoren auf die Wahlentscheidung bei der letzten Bundestagswahl untersuchen. Hierfür hat sie eine
Stichprobe von Wählern mit folgenden Variablen7 : beabsichtigte Wahlentscheidung (0: SPD, 1: CDU/CSU, 3: sonstige Parteien), Alter, Geschlecht,
monatliches Bruttoeinkommen und die politische Selbsteinschätzung (auf einer Skala von 1: ’eher links orientiert’ bis 5: ’eher rechts orientiert’). Die
Daten haben folgendes Aussehen:
Da die abhängige Variable in diesem Fall mehr als zwei Kategorien hat,
entschließt sie sich, eine multinomiale logistische Regression durchzuführen.3
7
Die Daten stammen aus der allgemeinen Bevölkerungsumfrage der Sozialwissenschaf-
ten (ALLBUS) 2004 und sind für ihre Zwecke umgeformt worden.
56
Die abhängige Variable kann im multinomialen logistischen Regressionsmodell J nominalskalierte Werte annehmen, wobei diese Werte der abhängigen
Variable gleich 1, 2, . . . , j, . . . , J sein können. Diesen Zusammenhang kann
man dann wie folgt darstellen:
P (yi = j) = πij ,
(43)
mit πij als Wahrscheinlichkeit für das Auswählen der Kategorie j von
Individuum i. Für jedes Individuum gibt es also J mögliche Wahrscheinlichkeiten. Insgesamt gesehen ist eine Kategorie - willkürlich wählbar, hier allerdings die J-te Kategorie - redundant, denn deren Wahrscheinlichkeit kann
wie folgt ermittelt werden:
πiJ = 1 − (πi1 + πi2 + . . . + πij + . . . + πi(J−1) ).
(44)
Da das binäre logistische Regressionsmodell ein Spezialfall des multinomialen logistischen Regressionsmodells ist, kann zunächst auf diese Darstellung zurückgegriﬀen werden:
P (yi = 1) = πi = F (z) =
ez
eβ1 +β2 x2i +...+βk xki +...+βK xKi
=
.
1 + ez
1 + eβ1 +β2 x2i +...+βk xki +...+βK xKi
(45)
Die Verallgemeinerung dieses Zusammenhangs kann dann wie folgt dargestellt werden:
P (yi = j) = πij = (46)
β1j +β2j x2i +...+βkj xki +...+βKj xKi
e
1+
eβ11 +β21 x2i +...+βk1 xki +...+βK1 xKi
=
+ . . . + eβ1(J −1) +β2(J −1) x2i +...+βk(J −1) xki +...+βK(J −1) xKi
eβ1j +β2j x2i +...+βkj xki +...+βKj xKi
.
β1r +β2r x2i +...+βkr xki +...+βKr xKi
1 + ΣJ−1
r=1 e
Bei der Betrachtung eines multinomialen logistischen Regressionsmodells
bedarf es also der Berücksichtigung einer Referenzkategorie, wobei diese will57
kürlich gewählt werden kann. Die Wahrscheinlichkeitsaussagen aus Basis dieses Regressionsmodells müssen also vor dem Hintergrund einer Referenzkategorie gemacht werden.
Die Schätzung der Koeﬃzienten wird über die Maximum-Likelihood-Methode vorgenommen. Es gilt also folgende Funktion zu maximieren:
maxβ1 ,...,βJ −1 L(β1 , . . . , βJ−1 ; y1, . . . , yJ , x2i , . . . , xKi),
(47)
Die Likelihoodfunktion kann als Produkt der Einzelwahrscheinlichkeiten
P (yi = j) = πij geschrieben werden:
L=
J n
(πij )dij = (πi1 )di1 · (πi2 )di2 · . . . · (πij )dij · . . . · (πiJ )diJ ,
(48)
j=1 i=1
mit dij als binär kodiertem Wert, der das Vorhandensein einer Auswahl
der j-ten Kategorie widerspiegelt: dij nimmt den Wert eins an, wenn von
Individuum i die j-te Kategorie gewählt wurde (yi = j), sonst ist der Wert
gleich null.
Die Maximierung der Likelihoodfunktion erfolgt wie im Fall der binären
logistischen Regression iterativ und kann z. B. über das Fisher-Scoring-Verfahren erfolgen8 .
Die unabhängigen Variablen im multinomialen logistischen Regressionsmodell müssen die gleichen Anforderungen erfüllen wie im binären logistischen Regressionsmodell und somit auch wie im multiplen linearen Regressionsmodell. Die Interpretation der geschätzten Koeﬃzienten erfolgt so wie
im binären logistischen Regressionsmodell, hier allerdings stets vor dem Hintergrund der Referenzkategorie der abhängigen Variable, d. h. also der Referenzkategorie J.
8
Vgl. Fahrmeir et al. (1996) Multivariate statistische Verfahren.
58
Güte des multinomialen logistischen Regressionsmodells Zur Beurteilung der Güte eines multinomialen logistischen Regressionsmodells zählen wie im binären logistischen Regressionsmodell besonders
1. verschiedene Bestimmtheitsmaße,
2. das Akaike-Informationskriterium,
3. verschiedene Tests und
4. die Klassiﬁzierungstabelle.
Bestimmtheitsmaße
Bestimmtheitsmaß nach Cox & Snell und nach Nagelkerke
Die Berechnung und Interpretation des Bestimmheitsmaßes nach Cox &
Snell und nach Nagelkerke erfolgt wie im binären logistischen Regressionsmodell.
Bestimmtheitsmaß nach McFadden
Das Bestimmtheitsmaß nach McFadden wird berechnet über
2
RM
cF = 1 − (
lnLV
),
lnL0
(49)
mit lnL0 als Log-Likelihood, die auf der Schätzung des Nullmodells basiert und lnLV ist die Log-Likelihood, die sich aus der Schätzung des untersuchten (vollen) Modells ergibt.
Der Wertebereich des Bestimmtheitsmaßes nach McFadden ist auf den
Bereich zwischen null und unter eins beschränkt. Problematisch bei diesem
Gütemaß ist, dass es nur größer werden kann, je mehr unabhängige Variablen
in das Modell aufgenommen werden. Um diese Problematik zu umgehen,
verwendet man das korrigierte Bestimmtheitsmaß nach McFadden:
2
RM
cF k
lnLV − K ∗
=1−(
), mit
lnL0
59
(50)
K ∗ als Anzahl der Koeﬃzienten, die es im multinomialen logistischen
Regressionsmodell zu schätzen gilt. Es gibt also einen Tradeoﬀ zwischen LogLikelhood und Anzahl der Koeﬃzienten im Modell; die Erhöhung der Anzahl
der Koeﬃzienten bzw. der unabhängigen Variablen kann mit der korrigierten
Version also ’bestraft’ werden.
Akaike-Informationskriterium
Auch bei dem Akaike-Informationskriterium (AIC) verhält es sich so, dass
die Zunahme weiterer unabhängiger Variablen in das Modell bestraft werden
kann. Es kann nämlich gezeigt werden, dass die Likelihood stets größer wird,
je mehr unabhängige Variablen in das Modell aufgenommen werden. Das
AIC wird berechnet über:
AIC = −2 · lnLV + 2 · P, mit
(51)
P als Anzahl der zu schätzenden Koeﬃzienten. Auch in diesem Fall gibt
es einen Tradeoﬀ, da sich der erste Teil (−2 · lnLV ) dem zweiten Teil (2 · P )
entgegengesetzt verhält9 . Schließlich gilt, dass das AIC möglichst klein sein
sollte, um ein ’gutes’ Regressionsmodell zu haben.
Tests
Test der Nullhypothese H0 : βkj = 0
Dieser Test in der multinomialen logistischen Regressionsanalyse ist vergleichbar mit dem Wald-Test in der binären logistischen Regressionsanalyse.
Äquivalent hierzu kann also getestet werden, ob einzelne unabhängige Variablen xki in der j-ten Gleichung signiﬁkant zur Trennung der beiden betrachteten Gruppen beitragen. Es wird bei diesem Test jeweils eine der J − 1
Gleichungen separat betrachtet.
Die Teststatistik W wird berechnet über
9
Vgl. z. B. Winkelmann et al. (2006) Analysis of Microdata.
60
β̂k
)2
W = (
V ˆar(β̂k )
(52)
und ist asymptotisch χ2 -verteilt mit einem Freiheitsgrad. H0 wird dann
abgelehnt, wenn W > χ21,1−α . Die Berechnung der Teststatistik erfolgt demnach so wie im binären logistischen Regressionsmodell.
Test der Nullhypothese H0 : βk1 = . . . = βkj = . . . = βk(J−1) = 0
Dieser Test überprüft, ob die Koeﬃzienten βk1 = . . . = βkj = . . . =
βk(J−1) , die zu einer unabhängigen Variablen xki gehören, in allen J − 1
Gleichungen gleich null sind. Die Teststatistik LR wird berechnet über
LR = −2 · logLR − (−2 · logLV ),
(53)
mit logLR als Log-Likelihood, die sich aus dem reduzierten Regressionsmodell ohne die Variable xki - aber mit allen übrigen betrachteten Variablen
- ergibt. Die Teststatistik ist χ2 -verteilt mit J − 1 Freiheitsgraden. H0 wird
dann abgelehnt, wenn LR > χ2(J−1),1−α . Mit diesem Test kann auch überprüft
werden, ob mehr als eine unabhängige Variable signiﬁkant zur Trennung der
Gruppen beiträgt.
Test der globalen Nullhypothese H0 : βk1 = . . . = βkj = . . . = βk(J−1) = 0
für j = 1, . . . , (J − 1)
Dieser Test überprüft, ob die Koeﬃzienten βk1 = . . . = βkj = . . . =
βk(J−1) , die zu allen unabhängigen Variablen xki gehören, in allen J − 1
Gleichungen gleich null sind. Die Teststatistik LR wird berechnet über
LR = −2 · logL0 − (−2 · logLV ),
(54)
mit logL0 als Log-Likelihood, die sich aus dem Null-Regressionsmodell
ohne die Variablen xki , k = 2, . . . , K ergibt, d. h. die Log-Likelihood des NullRegressionsmodells wird inklusive des Absolutgliedes geschätzt. Die Teststa61
tistik ist χ2 -verteilt mit 2 · (K − 1) Freiheitsgraden. H0 wird dann abgelehnt,
wenn LR > χ2(2·(K−1)),1−α .
Test der IIA-Annahme
Die IIA-Annahme (independence of irrelevant alternatives, also die Unabhängigkeit von irrelevanten Alternativen) wird bei der Schätzung eines
multinomialen logistischen Regressionsmodells implizit angenommen und kann
mit dem Hausman-McFadden-Test überprüft werden. Diese Annahme besagt,
dass die Aussagen bezüglich der Wahrscheinlichkeiten bzw. der Wahrscheinlichkeitsverhältnisse (odds) der J Kategorien der abhängigen Variable unabhängig gemacht werden können von weiteren Kategorien (z. B. J + 1) bzw.
von weggelassenen Kategorien (z. B. J − 1). Die Nullhypothese dieses Tests
lautet H0 : IAA gilt. Die Teststatistik wird beispielsweise über folgenden
Ansatz berechnet:
1. Schätzung aller Koeﬃzienten des vollen Modells: β̂V .
2. Schätzung eines reduzierten Modells mit Ausschluss einer Alternative
hinsichtlich der abhängigen Variable: β̂R .
3. Seien nun β̂V∗ Koeﬃzientenschätzer des vollen Modells, wobei die unter
Schritt zwei ausgelassene Kategorie in β̂V∗ nicht mehr berücksichtigt sei.
Die für diesen Test relevante Teststatistik H wird dann über folgenden
Ansatz berechnet:
H = (β̂R − β̂V∗ ) {V ˆar(β̂R ) − V ˆar(β̂V∗ )}−1 (β̂R − β̂V∗ ).
(55)
Diese Teststatistik ist χ2 -verteilt mit der Anzahl an geschätzten Koeﬃzienten in β̂R (H) als Anzahl der Freiheitsgrade. H0 wird dann abgelehnt,
wenn H > χ2H,1−α . Wird H0 also abgelehnt, so muss von einer Verletzung der
IIA-Annahme ausgegangen werden.
62
Klassifizierungstabelle
Die Klassiﬁzierungstabelle gibt absolute und relative Häuﬁgkeiten der
richtig durch das Modell klassiﬁzierten Beobachtungen wider. Sie vergleicht
also die empirisch gegebene Konstellation vor der Schätzung des multinomialen logistischen Regressionsmodells mit der sich durch die Modellprognose
ergebende Situation für die betrachteten Objekte nach der Schätzung des Regressionsmodells. Im Vergleich zur binären logistischen Regression wird hier
aber nicht eine ’Vier-Felder’-Beurteilung unternommen, sondern eine Beurteilung höherer Ordnung: Für drei Merkmalsausprägungen der abhängigen
Variable ergäbe sich z. B. eine ’Neun-Felder’-Beurteilung.
Beispiel (fortgesetzt) Die Parteienforscherin möchte ihr geschätztes multinomiales logistisches Regressionsmodell genauer beleuchten. Hierzu betrachtet sie zunächst die Modellanpassung:
$ %
&
!
"!
" #
" #!( !
'# !(
) # * % +
Mit den angezeigten Werten kann sie die globale Nullhypothese H0 :
βk1 = . . . = βkj = . . . = βk(J−1) = 0 für j = 1, . . . , (J − 1) überprüfen.
Ihre Teststatistik LR ergibt sich als Diﬀerenz von −2 · logL0 − (−2 · logLV )
und beträgt hier 2929, 357 − 2616, 783 = 312, 574. Zu jedem vorgegebenen
63
Signiﬁkanzniveau α wird diese Nullhypothese abgelehnt, so dass sie bezüglich
dieses Gütekriteriums von einem gut speziﬁzierten Modell ausgehen kann.
Desweiteren interessieren sie aber noch andere Gütekriterien.
Die Bestimmtheitsmaße weisen ihrer Meinung nach angemessene Werte aus. Zudem möchte sie überprüfen, wie es sich mit der Nullhypothese H0 : βk1 = . . . = βkj = . . . = βk(J−1) = 0 verhält. Sie möchte also
überprüfen, ob die einzelnen unabhängigen Variablen Alter, Geschlecht, monatliches Bruttoeinkommen und die politische Selbsteinschätzung signiﬁkant
zur Trennung der Auswahlkategorien beitragen.
64
!
"
#$%$%
)
(
.(/
,'
&
'&
%()
(,-
.(
%(&1,&
0%&1,(
2%
'(
'
30%&1,(& (3-(&'&%(-4$%
((')'.(,((,-.((
3(,-
.(4(!$%(,((')'.(
4''4(
5!'(",%6/%-,',($%(
7(!'
3(,-.(-,(')'.(89,:(
(;'((-%(2%'($%
%<%
Zu einem Signiﬁkanzniveau von α = 0, 05 bereitet ihr lediglich die Variable Geschlecht sorgen, so dass sie in Erwägung zieht, eine multinomiale logistische Regression ohne diese unabhängige Variable zu schätzen. Betrachtet
werden in allen Fällen jeweils folgende Teststatistiken: LR = −2·logLR −(−2·
logLV ). Für die unabhängige Variable Alter ergibt sich also die Teststatistik
LR als 2635, 720−2616, 783 = 18, 937. Auf dieser Basis wird H0 demnach abgelehnt und sie kann davon ausgehen, dass die Variable Alter signiﬁkant zur
Trennung der Auswahlkategorien (beabsichtigte Wahlentscheidung) beiträgt.
Schließlich möchte sie noch wissen, ob die Variable Geschlecht separat
betrachtet ebenfalls problematisch ist. Sie testet also die Nullhypothese H0 :
βkj = 0 in beiden Gleichungen.
65
(%
)*
+*,-+,
!
"#$%$%&
'
"#$%$%&'
!
"#$%$%&
'
"#$%$%&'
.
//0
%
(/
1%2
/
20!3
4567.8
:0/3;0<
4567.8
,23 923
*03!2?@2)
*)A/?0 ?23A/?/
Auch bei dieser Betrachtung erweist sich diese Variable als problematisch. In der obigen Schätzung ist es beispielsweise so, dass dort die relevante
)2 = 0, 346
Nullhypothese abgelehnt wird, da die Teststatistik W gleich ( 0,092
0,156
ist und auf dieser Basis die Nullhypothese zu einem Signiﬁkanzniveau von
α = 0, 05 nicht abgelehnt werden kann.
!"
# ! Mit der Klassiﬁkationstabelle ist sie nicht gänzlich zufrieden, da lediglich
55, 9% aller befragten Personen richtig durch das Modell klassiﬁziert wurden.
66
Besonders erstaunt sie die große Variation der richtig Klassiﬁzierten bei den
unterschiedlichen Parteien: Bezüglich der SPD wurden 13, 1%, der CDU/CSU
87, 4% und bezüglich der sonstigen Parteien 43, 0% richtig klassiﬁziert.
Schließlich möchte sie noch wissen, wie hoch die einzelnen Wahrscheinlichkeiten für die befragten Personen waren, eine der drei Auswahlkategorien
zu wählen, also die durch das Regressionsmodell geschätzten Wahrscheinlichkeiten für die beabsichtigte Wahl.3
67

Zugehörige Unterlagen

Ergänzung: Korrelations

Multinomiale logistische Regression

Zugehörige Unterlagen

Produkte

Unterstützung

Multinomiale logistische Regression

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können