Effektkodierung in der Varianzanalyse

Werbung
Effektkodierung in der Varianzanalyse
Die ursprünglich für die Analyse der Ergebnisse aus randomisierten Experimenten entwickelte
Varianzanalyse prüft, ob die Treatments der untersuchten Einflussfaktoren (Ausprägungen der
nominalskalierten erklärenden Variablen) signifikante Mittelwertdifferenzen bei der abhängigen Variable auslösen.
Anstelle der 0/1-kodierten Dummy-Variablen wird dabei oft die sogenannte Effektkodierung
verwendet, bei der die Referenzkategorie den Wert –1 erhält.
Bei den beiden Faktoren Konfession und Gebiet ergeben sich dann folgende Indikatorvariablen:
E1
E2
katholisch
1
0
Konfession
evangelisch
0
1
konfessionslos
-1
-1
EW
Region
Osten Westen
1
-1
Der Vorteil der Effektkodierung besteht darin, dass bei einem ausgewogenen Design, bei dem
alle Ausprägungskombinationen der Faktoren mit gleicher Häufigkeit vorkommen, die Faktoren untereinander und mit den Interaktionseffekten unkorreliert sind
Es können dann keine Multikollinearitätsprobleme auftreten. Darüber hinaus folgt aus der Unkorreliertheit der Faktoren, dass sich die Schätzungen bei bivariater und multipler Regression
nicht unterscheiden.
Vorlesung Statistik 2
1
Effektkodierung in der Varianzanalyse
Um dies zu demonstrieren, werden anstelle der 3353 Fälle aus jeder der sechs Ausprägungskombinationen von Konfession und Region 50 Fälle zufällig ausgewählt.
Region
Konfession
Westen keine
Westen protestantisch
Westen katholisch
Osten
keine
Osten
protestantisch
Osten
katholisch
Insgesamt
Mittelwert
alle Fälle
1.51
2.09
2.48
1.02
1.56
1.81
1.85
Mittelwert
n=6×50
1.68
2.02
2.68
0.92
1.52
1.76
1.76
Deskriptive Statistiken
Mittelwert
Standardab
weichung
1.76
1.666
300
.00
.818
300
.00
.818
300
.00
1.002
300
.00
.00
.818
.818
300
300
Y Ablehnung von
Schwangerschaft
sabbrüchen
e1 Katholik
(Effektkodierung)
e2 Protestant
(Effektkodierung)
ew Region
(Effektkodierung)
e1w E1 mal EW
e2w E2 mal EW
Vorlesung Statistik 2
N
Wie die SPSS-Ausgabe der univariaten Statistiken
zeigt, sind bei Effektkodierung und gleichen Fallzahlen in allen Gruppen die Mittelwerte aller Prädiktoren (E1, E2, EW) einschlißlich der der Modellierung von Interaktionseffekte (E1W = E1·EW, E2W
= E2·EW) null.
2
Effektkodierung in der Varianzanalyse
Korrelationen
Korrelation nach Pearson
Y Ablehnung von
Schwangerschaft
sabbrüchen
e1 Katholik
(Effektkodierung)
e2 Protestant
(Effektkodierung)
ew Region
(Effektkodierung)
e1w E1 mal EW
e2w E2 mal EW
Y Ablehnung
von
Schwangersc
haftsabbrüche
n
e1 Katholik
(Effektkodie
rung)
e2 Protestant
(Effektkodieru
ng)
ew Region
(Effektkodie
rung)
1.000
.226
.115
-.218
-.020
.032
.226
1.000
.500
.000
.000
.000
.115
.500
1.000
.000
.000
.000
-.218
.000
.000
1.000
.000
.000
-.020
.032
.000
.000
.000
.000
.000
.000
1.000
.500
.500
1.000
e1w E1
mal EW
e2w E2
mal EW
Darüber hinaus sind die Designvariablen verschiedener Faktoren (E1 mit EW, E2 mit EW) und die
Korrelationen mit den Prädiktoren der Interaktionseffekte (E1 mit E1W, E1 mit E2W, E2 mit E1W,
E2 mit E2W, EW mit E1W, EW mit E2W) unkorreliert.
Korrelationen gibt es nur unter den Designvariablen eines Faktors (E1 mit E2 und E1W mit E2W).
Daher sind die Regressionsgewichte bivariater und multipler Regression identisch.
Vorlesung Statistik 2
3
Effektkodierung in der Varianzanalyse
Koeffizientena
Modell
1
(Konstante)
ew Region
(Effektkodierung)
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
1.763
.094
-.363
.094
Standardisie
rte
Koeffizienten
Beta
-.218
T
18.751
Signifikanz
.000
-3.864
.000
Effektkodierung:
Bivariate Regression
von Y auf Region:
b1 = –0.363.
a. Abhängige Variable: Y Ablehnung von Schwangerschaftsabbrüchen
Koeffizientena
Modell
1
(Konstante)
e1 Katholik
(Effektkodierung)
e2 Protestant
(Effektkodierung)
ew Region
(Effektkodierung)
e1w E1 mal EW
e2w E2 mal EW
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
1.763
.092
Standardisie
rte
Koeffizienten
Beta
T
19.173
Signifikanz
.000
.457
.130
.224
3.511
.001
.007
.130
.003
.051
.959
-.363
.092
-.218
-3.951
.000
-.097
.113
.130
.130
-.047
.056
-.743
.871
.458
.384
Effektkodierung:
Multiple Regression
von Y auf Region:
b3 = –0.363.
a. Abhängige Variable: Y Ablehnung von Schwangerschaftsabbrüchen
Vorlesung Statistik 2
4
Effektkodierung in der Varianzanalyse
Region
Konfession
Westen keine
Westen protestantisch
Westen katholisch
Osten
keine
Osten
protestantisch
Osten
katholisch
Insgesamt
Koeffizienten
Konstante
E1 (katholisch)
E2 (protestantisch)
EW (Region:Osten)
E1×EW
E2×EW
b0
b1
b2
b3
b4
b5
1.76
0.46
0.01
–.36
–.10
0.11
Mittelwert
alle Fälle
1.51
2.09
2.48
1.02
1.56
1.81
1.85
Mittelwert
n=50
1.68
2.02
2.68
0.92
1.52
1.76
1.76
1.76
0.46 = (2.68+1.76)/2 – 1.76
0.01 = (2.02+1.52)/2 – 1.76
–0.36 = (0.92+1.52+1.76)/3 – 1.76
–0.10 = 1.76 –(1.76 +0.46 –0.36)
0.11 = 1.52 –(1.76 +0.01 –0.36)
Gesamtmittelwert (Grand Mean)
mittlere Aweichung der Katholiken
mittlere Aweichung der Protestanten
mittlere Aweichung im Osten
Aweichung Kathol. im Osten
Aweichung Prot. im Osten
Zur Unterscheidung von den Interaktionseffekten werden die einfachen Effekte der Faktoren in
der Varianzanalyse üblicherweise als Haupteffekte bezeichnet.
Die Regressionsgewichte der Haupteffekte geben die Abweichungen vom Gesamtmittelwert
(engl.: grand mean) wieder, die Regressionsgewichte der Interaktionseffekte die Abweichungen
vom jeweiligen Gruppenmittelwert.
Vorlesung Statistik 2
5
Effektkodierung in der Varianzanalyse
Für die F-Tests der Varianzanalyse werden folgende Regressionsmodelle geschätzt:
M1: Y = β0 + β1·E1 + β2·E2 + β3·EW +β4·(E1·EW) + β5·(E2·EW)
M2: Y = β0 +
β4·(E1·EW) + β5·(E2·EW)
M3: Y = β0 +
β3·EW +β4·(E1·EW) + β5·(E2·EW)
M4: Y = β0 + β1·E1 + β2·E2 +
β4·(E1·EW) + β5·(E2·EW)
M5: Y = β0 + β1·E1 + β2·E2 + β3·EW
+ U1
+ U2
+ U3
+U4
+ U5
alle Effekte
nur Interaktionseffekte
ohne Konfession
ohne Region
ohne Interaktionseffekte
Die Modelle führen zu folgenden Variationszerlegungen:
Variation der
Modell Vorhersagewerte
M1
84.177
M2
2.247
M3
41.850
M4
44.574
M5
81.930
df
5
2
3
4
3
Variation der
Residuen df
746.020
294
827.950
297
788.347
296
785.623
295
748.267
296
Beschreibung
alle Effekte
nur Interaktionseffekte
ohne Konfession
ohne Region
ohne Interaktionseffekte
Ein Effekt wird getestet, indem jeweils mit einem F-Test geprüft wird, ob die Erklärungskraft
des Modells ohne den zu prüfenden Faktor sich vom Modell mit allen Effekten unterscheidet.
Vorlesung Statistik 2
6
Effektkodierung in der Varianzanalyse
Variation der
Modell Vorhersagewerte
M1
84.177
M2
2.247
M3
41.850
M4
44.574
M5
81.930
F=
(SSE0 − SSE1 ) / J
SSE1 /(n − K − J − 1)
Test von
Konfess+Region
Konfess
Region
Interaktionseffekte
Gesamtmodell
Vorlesung Statistik 2
Variation der
Residuen df
746.020
294
827.950
297
788.347
296
785.623
295
748.267
296
df
5
2
3
4
3
=
R − R )/J
(
=
/(n − K − J − 1) (1 − R ) /(n − K − J − 1)
(SS
SSE1
Vergleich von
M2 mit M1
M3 mit M1
M4 mit M1
M5 mit M1
M1
Beschreibung
alle Effekte
nur Interaktionseffekte
ohne Konfession
ohne Region
ohne Interaktionseffekte
ˆ
Y1
− SSY0
ˆ )/J
2
1
2
0
2
1
Teststatistik
F = (84.177–2.247)/(5–2) / 746.020/294
F = (84.177–41.850)/(5–3) / 746.020/294
F = (84.177–44.574)/(5–4) / 746.020/294
F = (84.177–81.930)/(5–3) / 746.020/294
F = 84.177/5
/ 746.020/294
= 10.763
= 8.340
= 15.607
= 0.443
= 6.635
7
Effektkodierung in der Varianzanalyse
Test von
Konfess+Region
Konfess
Region
Interaktionseffekte
Gesamtmodell
Vergleich von
M2 mit M1
M3 mit M1
M4 mit M1
M5 mit M1
M1
Teststatistik
F = (84.177–2.247)/(5–2) / 746.020/294
F = (84.177–41.850)/(5–3) / 746.020/294
F = (84.177–44.574)/(5–4) / 746.020/294
F = (84.177–81.930)/(5–3) / 746.020/294
F = 84.177/5
/ 746.020/294
= 10.763
= 8.340
= 15.607
= 0.443
= 6.635
ANOVAa,b
Y Ablehnung von
Schwangerschaft
sabbrüchen
Haupteffekte
2-WegWechselwirkungen
Modell
Residuen
Insgesamt
(Kombiniert)
konfess Konfession
W Region (Osten)
konfess Konfession
* W Region (Osten)
Quadrats
umme
81.930
42.327
39.603
df
Eindeutige Methode
Mittel der
F
Quadrate
3
27.310
10.763
2
21.163
8.340
1
39.603
15.607
Sig.
.000
.000
.000
2.247
2
1.123
.443
.643
84.177
746.020
830.197
5
294
299
16.835
2.537
2.777
6.635
.000
a. Y Ablehnung von Schwangerschaftsabbrüchen nach konfess Konfession, W Region (Osten)
b. Alle Effekte gleichzeitig eingegeben
Statistikprogramme zur Varianzanalyse berechnen die F-Statistiken auf effizientere Weise,
kommen aber zum gleichen Ergebnis.
Die Varianzanalyse zeigt wiederum, das der Interaktionseffekt (in der SPSS-Ausgabe als „2Weg-Wechselwirkungen“ bezeichnet) nicht signifikant ist.
Vorlesung Statistik 2
8
Varianzanalyse mit Dummy-Kodierung
Deskriptive Statistiken
Y Ablehnung von
Schwangerschafts
abbrüchen
d1 Katholik
d2 Protestant
W Region (Osten)
d1w D1 mal W
d2w D2 mal W
Mittelwert
Standardab
weichung
1.76
1.666
300
.33
.33
.50
.17
.17
.472
.472
.501
.373
.373
300
300
300
300
300
N
Im Unterschied zur Effektkodierung sind bei
der Dummy-Kodierung die Mittelwerte der
Prädiktoren nicht null und die Faktoren
korrelieren mit den Interaktionseffekten.
Korrelationen
Korrelation nach Pearson
Vorlesung Statistik 2
Y Ablehnung von
Schwangerschafts
abbrüchen
d1 Katholik
d2 Protestant
W Region (Osten)
d1w D1 mal W
d2w D2 mal W
Y Ablehnung
von
Schwangersc
haftsabbrüche
n
d1 Katholik
d2 Protestant
W Region
(Osten)
1.000
.194
.003
-.218
-.001
-.065
.194
.003
-.218
-.001
-.065
1.000
-.500
.000
.632
-.316
-.500
1.000
.000
-.316
.632
.000
.000
1.000
.447
.447
.632
-.316
.447
1.000
-.200
-.316
.632
.447
-.200
1.000
d1w D1
mal W
d2w D2
mal W
9
Varianzanalyse mit Dummy-Kodierung
Dies hat zur Folge, dass sich die Regressionskoeffizienten bei der bivariaten Regression und der
multiplen Regression mit Interaktionseffekten unterscheiden.
Koeffizientena
Modell
1
(Konstante)
W Region (Osten)
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
2.127
.133
-.727
.188
Standardisie
rte
Koeffizienten
Beta
-.218
T
15.991
-3.864
Signifikanz
.000
.000
Dummy-Kodierung:
Bivariate Regression
von Y auf Region:
b1 = –0.727.
a. Abhängige Variable: Y Ablehnung von Schwangerschaftsabbrüchen
Koeffizientena
Modell
1
(Konstante)
d1 Katholik
d2 Protestant
W Region (Osten)
d1w D1 mal W
d2w D2 mal W
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
1.680
.225
1.000
.319
.340
.319
-.760
.319
-.160
.451
.260
.451
Standardisie
rte
Koeffizienten
Beta
.283
.096
-.228
-.036
.058
T
7.457
3.139
1.067
-2.386
-.355
.577
Signifikanz
.000
.002
.287
.018
.723
.564
Dummy-Kodierung:
Multiple Regression
von Y auf Region:
b3 = –0.760.
a. Abhängige Variable: Y Ablehnung von Schwangerschaftsabbrüchen
Vorlesung Statistik 2
10
Modellierung nichtlinearer Beziehungen
im multiplen Regressionsmodell
Ablehnung von
Schwangerschaftsabbruch (Y)
5
4
3
alte Bundesländer
2
1
neue Bundesländer
0
-1
-1
0
1
2
3
4
5
Religiosität (X)
In Regressionsmodellen mit Interaktionseffekten sind die Beziehungen zwischen der abhängigen Variablen und den erklärenden Variablen nicht mehr linear-additiv.
Es ist sogar möglich, noch einen Schritt weiterzugehen und nichtlineare Beziehungen zu schätzen.
Vorlesung Statistik 2
11
Quadratische Regressionsfunktion
Die eingezeichneten Kurven weisen auf einen parabelförmigen Verlauf hin. Algebraisch lässt
sich eine Parabel durch eine quadratische Funktion, ein sogenanntes Polynom zweiter Ordnung, darstellen. Bei einer solchen Beziehung würde für die Vorhersagewerten gelten:
Ŷ = b0 + b1 ⋅ X + b 2 ⋅ X 2
Im Modell der multiplen Regression lässt sich eine solche parabelförmige Beziehung dadurch
realisieren, dass zusätzlich zur erklärenden Variablen X das Quadrat von X (XX = X⋅X) als
weiterer Prädiktor in das Modell aufgenommen wird.
Wenn die Religiosität einen quadratischen Effekt auf die Ablehnung von Schwangerschaftsabbrüchen hat, kann also folgendes Regressionsmodell angenommen werden:
Y = β0 + β1 ⋅ X + β2 ⋅ W + β3 ⋅ X 2 + U
Die Regressionskoeffizienten dieses Modells können wiederum mit der OLS-Methode geschätzt werden, indem eine analoge Gleichung für die Stichprobe aufgestellt wird und die
Summe der quadrieren Residuen minimiert wird:
Y = b 0 + b1 ⋅ X + b 2 ⋅ W + b3 ⋅ X 2 + E
∑ e = ∑ ( yi − yˆ i ) = ∑ ( yi − b0 + b1 ⋅ x i + b2 ⋅ w i + b3 ⋅ x i2 )
n
i =1
n
2
i
i =1
2
n
2
i =1
Die Koeffizienten können z.B. mit SPSS berechnet werden.
Vorlesung Statistik 2
12
Quadratische Regressionsfunktion
Modellzusammenfassung
Modell
1
R
R-Quadrat
.376a
.142
Standardf
ehler des
Schätzers
1.640
Korrigiertes
R-Quadrat
.141
a. Einflußvariablen : (Konstante), XX X mal X, W Region
(Osten), X Religiosität (Kirchgang)
ANOVAb
Modell
1
Regression
Residuen
Gesamt
Quadrats
umme
1543.182
9349.999
10893.181
df
3
3477
3480
Mittel der
Quadrate
514.394
2.689
F
191.289
Signifikanz
.000a
a. Einflußvariablen : (Konstante), XX X mal X, W Region (Osten), X Religiosität
(Kirchgang)
b. Abhängige Variable: Y Ablehnung von Schwangerschaftsabbrüchen
Koeffizientena
Modell
1
(Konstante)
X Religiosität (Kirchgang)
W Region (Osten)
XX X mal X
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
1.763
.055
.118
.062
-.698
.064
.071
.015
Standardisie
rte
Koeffizienten
Beta
.085
-.183
.204
T
32.121
1.893
-10.953
4.671
Signifikanz
.000
.058
.000
.000
a. Abhängige Variable: Y Ablehnung von Schwangerschaftsabbrüchen
Vorlesung Statistik 2
13
Ablehnung von
Schwangerschaftsabbruch (Y)
Quadratische Regressionsfunktion
5
4
3
2
1
0
-1
0
1
2
3
4
5
Religiosität (X)
Die Erklärungskraft dieses Modells ist mit einem Determinationskoeffizienten von R2 = 0.142
etwas höher als im linear-additiven Modell, wo die Erklärungskraft nur R2 = 0.136 betrug.
Da der T-Wert des Regressionsgewichts b3 bei einer Irrtumswahrscheinlichkeit von 5% signifikant ist, ist dieser Anstieg der Erklärungskraft signifikant von null verschieden.
Die Beziehung zwischen der Ablehnung von Schwangerschaftsabbrüchen und der Religiosität
ist daher in der Population vermutlich nicht linear, sondern eher quadratisch.
Vorlesung Statistik 2
14
Quadratische Regressionsfunktion
Bei der Interpretation der Regressionskoeffizienten ist zu beachten, dass die erklärende Variable Religiosität (X) mit zwei Regressionsgewichten für X und X2 in die Modellgleichung eingeht
Da beide Koeffizienten hier das gleiche Vorzeichen aufweisen, bedeutet dies, dass der Anstieg
der Regressionskurve bei zunehmender Religiosität (Kirchgangshäufigkeit) immer mehr zunimmt.
Wäre das Regressionsgewicht b3 dagegen negativ, würde der Anstieg immer geringer und
könnte sich schließlich sogar umkehren.
Gelegentlich wird versucht, die relative Stärke des linearen und des quadratischen.Effekts
durch einen Vergleich der standardisierten oder unstandardisierten Regressionskoeffizienten b1
und b3 zu vergleichen.
Dies ist insofern nicht sinnvoll, als beide Prädiktoren X und X2 ja zusammen den Effekt einer
einzigen erklärenden Variablen beschreiben und eine Aufteilung in lineare und quadratische
Komponenten willkürlich ist, da die beiden Prädiktoren hoch miteinander korrelieren.
Im Beispiel der Daten aus dem Allbus 1996 korrelieren X und X2 mit einem Wert von 0.931.
Bei der Spezifikation nichtlinearer Beziehungen über Polynome kann es daher sehr leicht
Multikollinearitätsprobleme bei der Schätzung geben.
Diese werden reduziert, wenn X zunächst zentriert (mittelwertbereinigt) wird.
Vorlesung Statistik 2
15
Quadratische Regressionsfunktion
Deskriptive Statistiken
Mittelwert
Standardab
weichung
1.90
1.769
3481
1.21
.32
3.07
1.269
.465
5.124
3481
3481
3481
Y Ablehnung von
Schwangerschaftsabbrüc
hen
X Religiosität (Kirchgang)
W Region (Osten)
XX X mal X
N
Korrelationen
Korrelation nach Pearson
Y Ablehnung von
Schwangerschaftsabbrüc
hen
X Religiosität (Kirchgang)
W Region (Osten)
XX X mal X
Y Ablehnung
von
Schwangersc
haftsabbrüche
n
X Religiosität
(Kirchgang)
W Region
(Osten)
XX X mal X
1.000
.332
-.256
.325
.332
-.256
.325
1.000
-.308
.931
-.308
1.000
-.229
.931
-.229
1.000
Der Mittelwert von X (Religiosität) beträgt 1.21. Das Regressionsmodell mit zentrierter Variable X lautet dann:
Y = β0 + β1 ⋅ ( X − 1.21) + β2 ⋅ W + β3 ⋅ ( X − 1.21) + U
2
Vorlesung Statistik 2
16
Quadratische Regressionsfunktion bei zentrierten Prädiktor
Deskriptive Statistiken
Mittelwert
Standardab
weichung
1.90
1.769
3481
.00
.32
1.61
1.269
.465
2.524
3481
3481
3481
Y Ablehnung von
Schwangerschafts
abbrüchen
Z X - 1.21
W Region (Osten)
zz Z mal Z
N
Korrelationen
Korrelation nach Pearson
Y Ablehnung von
Schwangerschafts
abbrüchen
Z X - 1.21
W Region (Osten)
zz Z mal Z
Y Ablehnung
von
Schwangersc
haftsabbrüche
n
Z X - 1.21
W Region
(Osten)
zz Z mal Z
1.000
.332
-.256
.257
.332
-.256
.257
1.000
-.308
.674
-.308
1.000
-.091
.674
-.091
1.000
Die Korrelation zwischen dem linearen Prädiktor Z (= X–1.21) und seinem Quadrat wird dadurch von 0.931 auf 0.674 reduziert.
Vorlesung Statistik 2
17
Quadratische Regressionsfunktion bei zentrierten Prädiktor
Modellzusammenfassung
Modell
1
R
R-Quadrat
a
.376
.142
Korrigiertes
R-Quadrat
.141
Standardf
ehler des
Schätzers
1.640
a. Einflußvariablen : (Konstante), zz Z mal Z, W Region
(Osten), Z X - 1.21
ANOVAb
Modell
1
Regression
Residuen
Gesamt
Quadrats
umme
1543.182
9349.999
10893.181
df
3
3477
3480
Mittel der
Quadrate
514.394
2.689
F
191.289
Signifikanz
.000a
a. Einflußvariablen : (Konstante), zz Z mal Z, W Region (Osten), Z X - 1.21
b. Abhängige Variable: Y Ablehnung von Schwangerschaftsabbrüchen
Koeffizientena
Modell
1
(Konstante)
Z X - 1.21
W Region (Osten)
zz Z mal Z
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
2.009
.040
.289
.031
-.698
.064
.071
.015
Standardisie
rte
Koeffizienten
Beta
.207
-.183
.101
T
50.133
9.186
-10.953
4.671
Signifikanz
.000
.000
.000
.000
a. Abhängige Variable: Y Ablehnung von Schwangerschaftsabbrüchen
Vorlesung Statistik 2
18
Quadratische Regressionsfunktion bei zentrierten Prädiktor
Bei der Schätzung ändern sich die Regressionskoeffizienten, aber nicht die Erklärungskraft und
die Varianzzerlegung, da die Zentrierung nur zu einer Reparametrisierung des Modells führt.
Dass beide Schätzungen zum gleichen Ergebnis führen, wird deutlich, wenn die Modellgleichung des zweiten Modells ausmultipliziert wird:
Ŷ = 2.009 + 0.289 ⋅ ( X − 1.21) − 0.698 ⋅ W + 0.071 ⋅ ( X − 1.21)
2
= 2.009 + 0.289 ⋅ X − 0.289 ⋅1.21 − 0.698 ⋅ W + 0.071 ⋅ X 2 + 0.071 ⋅1.212 − 0.071 ⋅ 2 ⋅ X ⋅1.21
= 1.763 + 0.117 ⋅ X − 0.698 ⋅ W + 0.071 ⋅ X 2
Bis auf Rundungsfehler ist die Vorhersagegleichung mit der Schätzung der Regressionskoeffizienten beim ursprünglichen Modell mit nichtzentrierten Variablen identisch. Entsprechend
sind auch die Erklärungskraft und die Variationen der Vorhersagewerte und der Residuen
identisch.
Unterschiede gibt es jedoch bei den standardisierten Regressionsgewichten von X und
(X–1.21), die 0.085 und 0.207 betragen.
Ähnliches gilt für die standardisierten Gewichte des quadratischen Terms mit Werten von
0.204 und 0.101.
Unterschiede gibt es schließlich auch noch bei den T-Werten von b1, die im nichtzentrierten
Modell 1.893 und im zentrierten Modell 9.186 betragen.
Vorlesung Statistik 2
19
Interaktionseffekte bei quadratischer Regressionsfunktion
Im ersten Modell könnte man auf die Idee kommen, den Prädiktor X des „linearen“ Effekts aus
dem Modell zu entfernen, da er auf dem 5%-Niveau nicht signifikant ist.
Im Modell mit (X–1.21) als Prädiktor ist der Effekt dagegen „hochsignifikant“.
Eine getrennte Betrachtung des „linearen“ Effekts von X und des „quadratischen“ Effekts von
X2 ist indess nicht angemessen, solange X nicht auf Ratio-Skalen-Niveau gemessen ist und
dann eine Verschiebung der Skala nach links oder rechts eine unzulässige Transformation
wäre.
Die beiden parabelförmigen Regressionskurven für die alten und die neuen Länder verlaufen
parallel, Religiosität und Region wirken also weiterhin additiv auf die Ablehnung von Schwangerschaftsabbrüchen.
Die bedingten Stichprobenmittelwerte weisen jedoch darauf hin, dass die Kurve für die neuen
Länder steiler verlaufen sollte als die Kurve für die alten Länder. Ob dies auch die die Population angenommen werden kann, kann getestet werden, wenn zusätzlich Interaktionsterme zwischen Religiosität und Region spezifiziert werden.
Die Modellgleichung lautet dann:
Y = β0 + β1 ⋅ X + β2 ⋅ W + β3 ⋅ X 2 + β4 ⋅ ( X ⋅ W ) + β5 ⋅ ( X 2 ⋅ W ) + U
Vorlesung Statistik 2
20
Interaktionseffekte bei quadratischer Regressionsfunktion
Die SPSS-Ausgabe ergibt:
Koeffizientena
Modell
1
2
(Konstante)
X Religiosität (Kirchgang)
W Region (Osten)
XX X mal X
(Konstante)
X Religiosität (Kirchgang)
W Region (Osten)
XX X mal X
XW X mal W
XXW X mal X mal W
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
1.763
.055
.118
.062
-.698
.064
.071
.015
1.760
.062
.160
.074
-.687
.088
.056
.017
-.235
.140
.100
.038
Standardisie
rte
Koeffizienten
Beta
.085
-.183
.204
.115
-.180
.161
-.082
.113
T
32.121
1.893
-10.953
4.671
28.408
2.143
-7.761
3.186
-1.677
2.619
Signifikanz
.000
.058
.000
.000
.000
.032
.000
.001
.094
.009
a. Abhängige Variable: Y Ablehnung von Schwangerschaftsabbrüchen
Von den beiden Interaktionseffekten ist nur der Interaktionseffekt der Region mit dem Quadrat
der Religiosität signifikant von null verschieden.
Vorlesung Statistik 2
21
Interaktionseffekte bei quadratischer Regressionsfunktion
Die Vorhersagegleichungen sind:
Ŷ = 1.760 + 0.160 ⋅ X − 0.678 ⋅ W + 0.056 ⋅ X 2 − 0.235 ⋅ ( X ⋅ W ) + 0.100 ⋅ ( X 2 ⋅ W )
= 1.760 + 0.160 ⋅ X + 0.056 ⋅ X 2 im Westen
= 1.082 − 0.075 ⋅ X + 0.156 ⋅ X 2 im Osten
Auch der F-Test auf Zuwachs an Erklärungskraft weist auf einen signifikanten Interaktionseffekt hin:
Modellzusammenfassung
Änderungsstatistiken
Modell
1
2
R
R-Quadrat
.376a
.142
b
.380
.144
Korrigiertes
R-Quadrat
.141
.143
Standardf
ehler des
Schätzers
1.640
1.638
Änderung in
R-Quadrat
.142
.002
Änderung in F
191.289
4.831
df1
3
2
df2
3477
3475
Änderung in
Signifikanz
von F
.000
.008
a. Einflußvariablen : (Konstante), XX X mal X, W Region (Osten), X Religiosität (Kirchgang)
b. Einflußvariablen : (Konstante), XX X mal X, W Region (Osten), X Religiosität (Kirchgang), XXW X mal X mal W, XW X mal W
Vorlesung Statistik 2
22
Interaktionseffekte bei quadratischer Regressionsfunktion
Ablehnung von
Schwangerschaftsabbruch (Y)
5
4
3
2
1
0
-1
0
1
2
3
4
5
Religiosität (X)
Im Osten startet die Regressionskurve aus einem tieferen Niveau; sie steigt erst langsamer,
dann schneller an als im Westen.
Vorlesung Statistik 2
23
Überprüfung der Angemessenheit der Modellspezifikation
Interessant ist, dass erst im nichtlinearen Modell der Interaktionseffekt mit der Region signifkant ist, während er im linearen Modell nicht signifikant war.
Dies verdeutlicht die Wichtigkeit einer korrekten Modellspezifikation:
Schlussfolgerungen können falsch (Artefakte) sein, wenn das statistische Modell die Daten
nicht angemessen beschreibt.
Bei der Prüfung der Angemessenheit eines Modells ist wie in der bivariaten Regression eine
Analyse der Residuen hilfreich.
Die bedingten Mittelwerte der Residuen sollen stets null sein und die bedingten Standardabweichungen der standardisierten Residualvarianzen in etwa gleich groß.
In wie weit diese Bedingungen erfüllt sind, wird nacheinander bei den folgenden Modellen
überprüft:
M1: Y = b0 + b1·X + b2·W + E1
M2: Y = b0 + b1·X + b2·W + b3· (X·W) + E2
M3: Y = b0 + b1·X + b2·W + b3· (X·X) + E3
M4: Y = b0 + b1·X + b2·W + b3· (X·X) + b4·(X·W) + b5·(X·X·W) + E4
Vorlesung Statistik 2
24
Residuenanalyse
Deskriptive Statistiken der standardisierten Residuen in Modell M1: linear-additives Modell
Bericht
W Region (Osten)
0 Westen
1 Osten
Insgesamt
X Religiosität (Kirchgang)
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
Vorlesung Statistik 2
Mittelwert
Y Ablehnung
von
Schwangersc
se1
haftsabbrüche
Studentized
n
Residual
1.71
.0461844
2.05
.0140797
2.28
-.0803301
2.53
-.1646560
3.41
.1309705
3.96
.2318008
2.21
.0000116
1.08
.0561125
1.13
-.1485509
1.51
-.1554806
2.41
.1535619
3.45
.5543566
4.13
.7262365
1.23
.0000228
1.38
.0513388
1.81
-.0289567
2.16
-.0925373
2.52
-.1305612
3.41
.1747005
3.98
.2955989
1.90
.0000151
Standardabweichung
Y Ablehnung
von
Schwangersc
se1
haftsabbrüche
Studentized
n
Residual
1.703
1.03593367
1.693
1.02983665
1.718
1.04491086
1.785
1.08596711
1.720
1.04667798
2.145
1.30621781
1.797
1.05043279
1.366
.83122079
1.412
.85864327
1.563
.95071716
1.907
1.16040783
1.870
1.13889710
2.532
1.54301507
1.504
.88152478
1.569
.93489565
1.673
.98965716
1.717
1.02980121
1.795
1.09620871
1.732
1.06160863
2.177
1.33550820
1.769
1.00015946
Zunächst M1:
Die Mittelwerte
der standardisierten Residuen sind
bei starker Religiosität deutlich von
Null verschieden:
Das Modell scheint
daher nicht angemessen zu sein.
25
Residuenanalyse
Standardisierte Residuen in Modell M2: Interaktion zwischen Religiosität und Gebiet.
Bericht
W Region (Osten)
0 Westen
1 Osten
Insgesamt
X Religiosität (Kirchgang)
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
Vorlesung Statistik 2
Mittelwert
Y Ablehnung
von
Schwangersc
se2
haftsabbrüche
Studentized
n
Residual
1.71
.0401139
2.05
.0121251
2.28
-.0781626
2.53
-.1583741
3.41
.1413750
3.96
.2463751
2.21
.0000155
1.08
.0663224
1.13
-.1544473
1.51
-.1776075
2.41
.1156601
3.45
.5022261
4.13
.6606021
1.23
.0000988
1.38
.0537206
1.81
-.0319544
2.16
-.0943160
2.52
-.1290133
3.41
.1786460
3.98
.2998237
1.90
.0000418
Standardabweichung
Y Ablehnung
von
Schwangersc
se2
haftsabbrüche
Studentized
n
Residual
1.703
1.03589155
1.693
1.02974420
1.718
1.04481838
1.785
1.08592708
1.720
1.04674634
2.145
1.30650297
1.797
1.05036839
1.366
.83127026
1.412
.85860582
1.563
.95131257
1.907
1.16281622
1.870
1.14381440
2.532
1.55439339
1.504
.88183517
1.569
.93497465
1.673
.98970556
1.717
1.03009181
1.795
1.09529095
1.732
1.06004217
2.177
1.33414721
1.769
1.00019932
Dann M2:
Die Mittelwerte
der standardisierten Residuen sind
bei starker Religiosität wiederum
deutlich von Null
verschieden:
Auch dieses Modell scheint nicht
angemessen zu
sein.
26
Residuenanalyse
Standardisierten Residuen in Modell M3: quadratischer Effekt von Religiosität.
Bericht
W Region (Osten)
0 Westen
1 Osten
Insgesamt
X Religiosität (Kirchgang)
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
Vorlesung Statistik 2
Mittelwert
Y Ablehnung
von
se3
Schwangersc
Studentized
haftsabbrüche
Residual
n
1.71
-.0307909
2.05
.0592486
2.28
.0006639
2.53
-.1339104
3.41
.0264305
3.96
-.0952267
2.21
-.0000106
1.08
.0093719
1.13
-.0736645
1.51
-.0444810
2.41
.2155190
3.45
.4812978
4.13
.4317630
1.23
.0000236
1.38
-.0099396
1.81
.0240763
2.16
-.0066693
2.52
-.0964716
3.41
.0734121
3.98
-.0272280
1.90
.0000002
Standardabweichung
Y Ablehnung
von
se3
Schwangersc
Studentized
haftsabbrüche
Residual
n
1.703
1.03917056
1.693
1.03296190
1.718
1.04819149
1.785
1.08923622
1.720
1.05007040
2.145
1.31335300
1.797
1.05199028
1.366
.83374644
1.412
.86132086
1.563
.95382952
1.907
1.16397585
1.870
1.14244642
2.532
1.55077493
1.504
.87758670
1.569
.93798544
1.673
.99179914
1.717
1.03281290
1.795
1.10039997
1.732
1.06619075
2.177
1.34401455
1.769
1.00018972
M3:
Die Mittelwerte
der standardiesierten Residuen
sind nun nur noch
im Osten bei starker Religiosität
deutlich von Null
verschieden:
Das Modell
scheint daher nur
in den neuen Bundesländer nicht
angemessen zu
sein.
27
Residuenanalyse
Standardisierten Residuen in Modell M4: quadratischer Effekt und Interaktionseffekte
Bericht
W Region (Osten)
0 Westen
1 Osten
Insgesamt
X Religiosität (Kirchgang)
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
0 nie
1 <= 1 / Jahr
2 2-11 / Jahr
3 1-3 /Monat
4 1 /Woche
5 >1 /Woche
Insgesamt
Vorlesung Statistik 2
Mittelwert
Y Ablehnung
von
se4
Schwangersc
Studentized
haftsabbrüche
Residual
n
1.71
-.0290800
2.05
.0449264
2.28
-.0114562
2.53
-.1255111
3.41
.0741466
3.96
.0101821
2.21
-.0000001
1.08
.0039550
1.13
-.0127568
1.51
-.0204911
2.41
.0996528
3.45
.1224535
4.13
-.2849755
1.23
-.0000384
1.38
-.0119293
1.81
.0296619
2.16
-.0129238
2.52
-.1013864
3.41
.0791360
3.98
-.0279028
1.90
-.0000122
Standardabweichung
Y Ablehnung
von
se4
Schwangersc
Studentized
haftsabbrüche
Residual
n
1.703
1.04047655
1.693
1.03411153
1.718
1.04942653
1.785
1.09053549
1.720
1.05136860
2.145
1.31562754
1.797
1.05299648
1.366
.83482962
1.412
.86261734
1.563
.95586327
1.907
1.16769380
1.870
1.15261627
2.532
1.59492753
1.504
.87526853
1.569
.93911064
1.673
.99156929
1.717
1.03403594
1.795
1.09883927
1.732
1.05947315
2.177
1.34377735
1.769
1.00027501
M4:
Da die bedingten
Mittelwerte der
abhängigen Variable recht genau
reproduziert
werden, sind die
Mittelwerte der
Residuen fast null.
Die Residualvarianzen scheinen
bei hoher Religiosität leicht zuzunehmen.
28
Linearisierung nicht-linearer Beziehungen
Die Spezifikation von Interaktionseffekten, quadratischen Regressionskurven und Varianzanalysen demonstriert die Vielfalt des multiplen Regressionsmodells.
Im Prinzip ist das multiple lineare Regressionsmodell immer dann anwendbar, wenn durch
Transformationen nichtlineare Regressionsfunktionen als lineare Gleichungen dargestellt werden können. Man bezeichnet solche nur scheinbar lineare Regressionsgleichungen als linear in
den Parametern.
Dies gilt für Polynome beliebigen Grades, wie z.B. die kubische Regressionsfunktion:
μ Y X = β0 + β1 ⋅ X + β2 ⋅ X 2 + β 4 ⋅ X 3
Die Anwendungsmöglichkeiten erhöhen sich weiter, wenn auch die abhängige Variable transformiert wird.
So kann die exponentielle Regressionsfunktion:
μ Y X = α ⋅βX
durch Logarithmieren in eine lineare Regressionsfunktion umgewandelt werden:
( )
ln μ Y X = ln ( α ⋅βX ) = ln ( α ) + ln (β ) ⋅ X
Allerdings haben solche Transformationen Auswirkungen auf die unterstellten Residualvariablen.
Wird nämlich zu der logarithmierten Regressionsfunktion ein Residuum addiert, entspricht dies
im Ursprungsmodell einem multiplikativen Residuum:
ln ( Y ) = ln ( α ) + ln ( β ) ⋅ X + U ⇔ Y = α ⋅β X ⋅ e U
Vorlesung Statistik 2
29
Grenzen linearer Regression
Allerdings sind nicht alle Regressionsgleichungen linearisierbar.
So kann die exponentelle Rergressionsfunktion mit additiven Residualvariable
Y = μY X + U = a ⋅ bX + U
nicht als lineare Funktion von Prädiktoren formuliert werden.
Die Logarithmierung ergibt nämlich
(
)
ln ( Y ) = ln μ Y X + U = ln ( a ⋅ b X + U ) ≠ ln ( a ⋅ b x ) + ln ( U ) = ln ( a ) + x ⋅ ln ( b ) + ln ( U )
In solchen Situationen müssen die Regressionskoeffizienten nichtlinearer Regressionsmodelle
mit alternativen Schätzmethoden berechnet werden.
Vorlesung Statistik 2
30
Logistische Regression für dichotome abhängige Variablen
Da Regressionsmodelle Mittelwerte abhängiger Variablen als lineare oder nichtlineare Funktion von Prädiktoren darstellen, wird zumindest bei der abhängigen Varable metrisches Messniveau vorausgesetzt, da für Messungen auf Nominal- und Ordinalskalenniveau Mittelwerte
nicht definiert sind.
Ein Grenzfall ergibt sich bei einer dichotomen Variable. Sind die Ausprägungen einer solchen
Variable mit den Werten „0“ und „1“ kodiert, so lässt sich der Mittelwert als relative Häufigkeit bzw. bei Zufallsvariablen als Wahrscheinlichkeit interpretieren, mit der die Ausprägung
„1“ realisiert wird. Für dichotome abhängige Variablen können daher Regressionsmodelle
spezifiziert werden.
Als Beispiel soll die abhängige Variable „Wahlverhalten“ mit den Ausprägungen
„Wahl der SPD“ (Kode: 1) und „Wahl der CDU/CSU“ (Kode: 0) in einer linearen
Regression durch das Erhebungsgebiet (Variable „region“) mit den Ausprägungen
„0“ für die alten und „1“ für die neuen Bundesländern, Bildung („educ“) mit den
Ausprägungen „0“ für „kein Schulabschluss“, „1“ für „Hauptschulabschluss“, „2“
für „mittlere Reife“, „3“ für „(Fach-) Abitur“ und „4“ für „Hochschulabschluss“
sowie die Selbstpositionierung auf einer zehnstufigen Links-Rechts-Skala („f030“)
mit den Polen „links“ (Kode: 1) und „rechts“ (Kode: 11) vorhergesagt werden.
Die Ergebnisse der OLS-Regression zeigt die folgende Tabelle.
Vorlesung Statistik 2
31
Beispiel einer linearen Regression für dichotome abhängige Variablen
Y=Wahlverhalten
Prädiktor
Konstante (b0)
Region (b1)
Bildung (b2)
Links-Rechts
unstandard.
Koeffizienten
1.379 ***
–0.060*
–0.027*
–0.139***
Standard- standardisierte Varianzzerlegung:
fehler
Koeffizienten Quelle
Variation
df
0.044
-Regression
90.466
3
0.026
0.056
Residuen
229.048 1289
0.011
–0.056
Total
319.514 1292
0.006
–0.539
R2: .283, R2adj.: .281, F: 169.7***
(Daten: Nachwahlbefragung BTW 2005, Berechnungen mit SPSS)
Mit über 28% ist die Erklärungskraft des Modells recht hoch, wobei aus den standardisierten Regressionsgewichten zu erkennen ist, dass insbesondere die Links-RechtsSelbsteinstufung einen sehr hohen Einfluss hat: Je weiter rechts sich eine Person einordnet, desto stärker sinkt die Neigung, SPD statt CDU zu wählen.
Negative Effekte haben auch Bildung und Region: je höher die Bildung, desto weniger
oft wird SPD statt CDU gewählt. Zudem wird in den neuen Ländern bei Kontrolle von
Bildung und Selbstpositionierung eher CDU statt SPD gewählt.
Alle erklärenden Variablen sind signfifikant von Null verschieden, Region und Bildung
bei einer Irrtumswahrscheinlichkeit von 5%, die Selbstpositionierung auch bei einer
Irrtumswahrscheinlichkeit von 0.1%.
Vorlesung Statistik 2
32
Probleme der linearen Regression für dichotome abhängige Variablen
Y=Wahlverhalten
Prädiktor
Konstante (b0)
Region (b1)
Bildung (b2)
Links-Rechts
unstandard.
Koeffizienten
1.379 ***
–0.060*
–0.027*
–0.139***
Standard- standardisierte Varianzzerlegung:
fehler
Koeffizienten Quelle
Variation
df
0.044
-Regression
90.466
3
0.026
0.056
Residuen
229.048 1289
0.011
–0.056
Total
319.514 1292
0.006
–0.539
R2: .283, R2adj.: .281, F: 169.7***
(Daten: Nachwahlbefragung BTW 2005, Berechnungen mit SPSS)
So naheliegend das lineare Regressionsmodell zu sein scheint, ist es doch streng genommen
ungeeignet.
• Bei einer dichotomen erklärenden Variablen ist die Homoskedastizitätsannahme notwendigerweise verletzt: Bei einer dichotomen Variblen mit der relativen Häufigkeit p1 der einen
Kategorie beträgt die Varianz p1·(1–p1). Wenn die Regressionsgewichte ungleich null sind,
dann variieren die relativen Häufigkeiten mit den Werten der Prädiktoren und damit auch die
bedingten Varianzen.
Dann können zwar die Schätzungen der Regressionskoeffizienten konsistent und unverzerrt
sein, die Standardfehler sind jedoch verzerrt und damit ist auch die inferenzstatistische
Absicherung hinfällig.
Vermutlich sind die Standardfehler falsch und es ist gar nicht sicher, ob die Regressionsgewichte signifikant sind.
Vorlesung Statistik 2
33
Probleme der linearen Regression für dichotome abhängige Variablen
Y=Wahlverhalten
Prädiktor
Konstante (b0)
Region (b1)
Bildung (b2)
Links-Rechts
unstandard.
Koeffizienten
1.379 ***
–0.060*
–0.027*
–0.139***
Standard- standardisierte Varianzzerlegung:
fehler
Koeffizienten Quelle
Variation
df
0.044
-Regression
90.466
3
0.026
0.056
Residuen
229.048 1289
0.011
–0.056
Total
319.514 1292
0.006
–0.539
R2: .283, R2adj.: .281, F: 169.7***
(Daten: Nachwahlbefragung BTW 2005, Berechnungen mit SPSS)
So naheliegend das lineare Regressionsmodell zu sein scheint, ist es doch streng genommen
ungeeignet.
• Es ist nicht garantiert, dass die Vorhersagewerte zwischen „0“ und „1“ liegen.
Werden die Vorjersagewerte für eine Person aus den neuen Bundes-ländern (region=1)
mit Hochschulabschluss (educ=4) und einer Position ganz rechts (f030=11) berechnet,
ergibt sich folgender Vorhersagewert:
ŷ = 1.379 + ( −0.060 ) ⋅1 + ( −0.027 ) ⋅ 4 + ( −0.139 ) ⋅ 11 = −0.318
Analog gilt für eine Person aus den alten Bundesländern (region=0) ohne Schluabschluss (educ=0), die sich ganz links positioniert:
ŷ = 1.379 + ( −0.060 ) ⋅ 0 + ( −0.027 ) ⋅ 0 + ( −0.139 ) ⋅ 1 = 1.24
Vorhersagewerte kleiner „0“ oder größer „1“ können jedoch keine bedingten Mittelwerte
sein: Die Regressionsfunktion ist daher vermutlich nicht linear.
Vorlesung Statistik 2
34
Logistische Regression für dichotome abhängige Variablen: Modellgleichung
Die Probleme der linearen Regression bei einer dichotomen abhängigen Variablen lassen sich
lösen, wenn zwei Modifikationen des linearen Regressionsmodells vorgenommen werden:
(1) Um zu verhindern, dass negative Vorhersagewerte auftreten, wird die lineare Vorhersagegleichung L = β0 + β1·X1 + β2·X2 + ..+ βK·XK zunächst antilogarithmiert (exponentiert):
L → e L = exp ( β0 + β1 ⋅ X1 + ... + βK ⋅ X K )
(2) Um darüber hinaus auch zu verhindern, dass Vorhersagewerte größer eins auftreten, wird
die antilogarithmierte Vorhersagegleichung sodann durch die Summe aus 1 plus sich
selbst geteilt:
exp ( β0 + β1 ⋅ X1 + ... + βK ⋅ X K )
eL
µYˆ = Pr ( Y = 1) =
=
1 + e L 1 + exp ( β0 + β1 ⋅ X1 + ... + β K ⋅ X K )
Durch diese Modifikationen wird sichergestellt, dass alle Vorhersagewerte stets zwischen 0
und 1 liegen.
Der Minimalwert 0 wird (theoretisch) ereicht wenn die Werte der erklärenden Variablen in der
linearen Gleichung den Wert –∞ ergeben, da exp(–∞) = 0 und 0/(1+0) = 0 ist.
Der Maximalwert 1 wird (theoretisch) ereicht wenn die Werte der erklärenden Variablen in der
linearen Gleichung den Wert +∞ ergeben, da exp(+∞) = +∞ und +∞/(1+∞) = 1 ist.
Durch diese Transformation wird also anstelle der ursprünglich linearen Regressionsfunktion
eine nichtlineare Regressionsfunktion erzeugt.
Vorlesung Statistik 2
35
Logistische Regression für dichotome abhängige Variablen: Odds
Da die Funktion F(X) = eX/(1+eX) die Verteilungsfunktion der logistischen Verteilung ist, wird
diese spezifische nichtlinearen Regressionsfunktion als logistische Regression bezeichnet.
Die logistische Regressionsfunktion lässt sich so umformen, dass auf der rechten Seite der
Gleichung die lineare Funktion L steht.
Dazu wird zunächst das Verhältnis der beiden Ausprägungen der dichotomen abhängigen
Variable berechnet:
K
e / (1 + e )
∑ β k ⋅X k
Pr ( Y = 1)
Pr ( Y = 1)
β0
β k ⋅X k
L
k =1
e
e
e
e
=
=
=
=
=
⋅
∏
Pr ( Y = 0 ) 1 − Pr ( Y = 1) (1 + e L ) − e L / (1 + e L )
k =1
L
(
L
β0 +
K
)
Aus der logistischen Regressionsfunktion folgt also, dass das Verhältnis des Auftretens der
beiden Ausprägungen der abhängigen Variable der Antilogarithmus der linearen Vorhersagefunktion L ist. Nach dem englischen Wort für „Wette“ wird ein (Wahrschenlichkeits-)
Verhältnis in der Statistik als Odd bezeichnet.
Im Beispiel berechnen sich die Odds SPD statt CDU zu wählen als Antilogarithmus
einer linearen Funtion von Region, Bildung und Links-Rechts-Selbstpositionierung.
Vorlesung Statistik 2
36
Logistische Regression für dichotome abhängige Variablen: Logits
Werden die Odds logarithmiert, ergeben sich die Log-Odds oder Logits:
K
⎛ Pr ( Y = 1) ⎞
⎛ Pr ( Y = 1) ⎞
= ln ⎜
= β0 + ∑ β k ⋅ X k
ln ⎜
⎜ Pr ( Y = 0 ) ⎟⎟
⎜ 1 − Pr ( Y = 1) ⎟⎟
k =1
⎝
⎠
⎝
⎠
Im Beispiel sind die Logits, SPD statt CDU zu wählen, eine lineare Funktion von
Region, Bildung und Links-Rechts-Selbstpositionierung.
Nach der Bezeichnung „Logit“ werden logistische Regressionsmodelle auch als Logitmodelle
bezeichnet.
ML-Schätzung eines logistischen Regressionsmodells
Bei der Schätzung der Regressionskoeffizienten eines logistischen Regressionsmodells kann
die OLS-Methode nicht angewendet werden, da bei einem einzelnen Fall i das Verhältnis
ln(Yi/(1–Yi)) nicht berechnebar ist, wenn Yi=1 ist. Wenn Y=0, ist es dagegen immer null.
Anstelle der OLS-Methode wird hier die Maximum-Likelihood-Methode (ML-Schätzung)
angewendet: Bei der ML-Schätzung werden die Koeffizienten so bestimmt, dass die tatsächlich
aufgetretenen Fälle der Stichprobe bei gegebenen Regressionskoeffizienten eine maximale
Auftretenswahrscheinlichkeit haben.
Die Berechnung der Regressionskoeffizienten b0, b1, ..., bK nach der ML-Methode ist aufwendig und erfolgt daher üblicherweise mit Computern, wobei anstelle der Maximierung der sog.
Likelihood-Funktion die negative logarithmierte Likelihood-Funktion minimiert wird.
Vorlesung Statistik 2
37
Logistische Regression für dichotome abhängige Variablen: ML-Schätzung
Da der Wert der negativen Log-Likelihoodfunktion eng mit der Devianz der abhängigen Variable zusammenhängt, wird bei der ML-Schätzung faktisch die Devianz der abhängigen Variable
minimiert.
Die SPSS-Berechnung für das Beispiel der Wahl von SPD statt CDU ergibt folgende Koeffizienten:
Variablen in der Gleichung
Schritt
a
1
region
educ
f030
Konstante
Regressions
koeffizientB
-.339
-.162
-.810
5.109
Standardf
ehler
.149
.065
.050
.336
Wald
5.195
6.312
262.872
231.312
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.712
.850
.445
165.526
a. In Schritt 1 eingegebene Variablen: region, educ, f030.
Bei der Interpretation kommt es darauf an, auf welcher Ebene man sich bewegt, der der Logits,
der der Odds oder der Auftretenswahrscheinlichkeiten.
Ausgangspunkt ist die lineare Vorhersagegleichung für die Logits.
Bei einer Person aus den neuen Bundesländern (region = 1) mit mittlerer Reife
(educ = 2) und einer mittleren Selbstpositinierung (f030 = 6) berechnet sich das
Logit SPD statt CDU zu wählen nach:
⎛ Pr ( SPD ) ⎞
ln ⎜
= 5.109 + ( −0.339 ) ⋅1 + ( −0.162 ) ⋅ 2 + ( −0.810 ) ⋅ 6 = −0.414
⎜ Pr ( CDU ) ⎟⎟
⎝
⎠
Vorlesung Statistik 2
38
Logistische Regression für dichotome abhängige Variablen: ML-Schätzung
Variablen in der Gleichung
Schritt
a
1
region
educ
f030
Konstante
Regressions
koeffizientB
-.339
-.162
-.810
5.109
Standardf
ehler
.149
.065
.050
.336
Wald
5.195
6.312
262.872
231.312
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.712
.850
.445
165.526
a. In Schritt 1 eingegebene Variablen: region, educ, f030.
⎛ Pr ( SPD ) ⎞
ln ⎜
= 5.109 + ( −0.339 ) ⋅1 + ( −0.162 ) ⋅ 2 + ( −0.810 ) ⋅ 6 = −0.414
⎜ Pr ( CDU ) ⎟⎟
⎝
⎠
Das Odd, also das Verhältnis von SPD-Wählern zu CDU-Wählern beträgt dann:
Pr ( SPD )
= exp ( 5.109 + ( −0.339 ) ⋅1 + ( −0.162 ) ⋅ 2 + ( −0.810 ) ⋅ 6 ) = e −0.414 = 0.661
Pr ( CDU )
Die Wahrscheinlichkeit, SPD zu wählen. ist schließlich:
e −0.414
= 0.398
Pr ( SPD ) =
−0.414
1+ e
Vorlesung Statistik 2
39
Logistische Regression für dichotome abhängige Variablen: ML-Schätzung
Links-Rechts
1
2
3
4
5
6
7
8
9
10
11
Logit
3.636
2.826
2.016
1.206
0.396
–0.414
–1.224
–2.034
–2.844
–3.654
–4.464
Differenz Pr(SPD) / Pr(CDU) Veränderungsfaktor Pr(SPD) Differenz
37.940
0.445
0.974
–0.810
16.878
0.445
0.944
–0.030
–0.810
7.508
0.445
0.882
–0.062
–0.810
3.340
0.445
0.770
–0.112
–0.810
1.486
0.445
0.598
–0.172
–0.810
0.661
0.445
0.398
–0.200
–0.810
0.294
0.445
0.227
–0.171
–0.810
0.131
0.445
0.116
–0.111
–0.810
0.058
0.445
0.055
–0.061
–0.810
0.026
0.445
0.025
–0.030
–0.810
0.012
0.445
0.011
–0.014
Analog lassen sich die Vorhersagewerte der Logits, Odds und der Wahrscheinlichkeit SPD zu
wählen für den gesamten Wertebereich der Links-Rechts-Skala für Befragte aus den neuen
Bundesländern mit mittlerer Reife berechnen.
Der Anstieg auf der Links-Rechts-Skala um +1 Einheit führt nur auf der Ebene der Logits zu
einer gleichmäßigen Veränderung in Höhe des Regressionskoeffizienten (–0.810).
Auf der Ebene der Odds und der Wahrscheinlichkeiten sind die Veränderungen nicht linear.
Auf der Ebene der Odds ist allerdings der Veränderungsfaktor
Pr(Y=1|X=x+1)/Pr(Y=0|X=x+1) / Pr(Y=1|X=x)/Pr(Y=0|X=x) = exp(bX)
konstant und gleich dem Antilogarithmus des Regressionskoeffizienten (e–0.810 = 0.445).
Vorlesung Statistik 2
40
Logistische Regression für dichotome abhängige Variablen: Interpretation
Variablen in der Gleichung
Schritt
a
1
region
educ
f030
Konstante
Regressions
koeffizientB
-.339
-.162
-.810
5.109
Standardf
ehler
.149
.065
.050
.336
Wald
5.195
6.312
262.872
231.312
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.712
.850
.445
165.526
a. In Schritt 1 eingegebene Variablen: region, educ, f030.
Für die Interpretation bedeutet dies:
(a) Die Regressionskoeffizienten beziehen sich auf die Logits:
Verglichen mit den alten Bundesländern sinken in den neuen Bundesländern bei Kontrolle
von Bildung (educ) und Links-Rechts-Selbstpositionierung (f030) die Logits um 0.339.
Bei jeder Erhöhung des Bildungsabschlusses sinken die Logits um 0.162 Einheiten.
Bei einer Veränderung um +1 Einheit nach rechts, sinken die Logits um 0.810 Einheiten.
Die Regressionskonstante gibt die geschätzten Logits für Personen an, die bei allen erklärenden Variablen den Wert Null aufweisen. Da der Wertebereich der Selbstpositionierung
erst bei 1 beginnt, kann es eine solche Ausprägungskombination der erklärenden Variablen
nicht geben, weswegen die Konstante nicht interpretiert werden sollte.
Vorlesung Statistik 2
41
Logistische Regression für dichotome abhängige Variablen: Interpretation
Variablen in der Gleichung
Schritt
a
1
region
educ
f030
Konstante
Regressions
koeffizientB
-.339
-.162
-.810
5.109
Standardf
ehler
.149
.065
.050
.336
Wald
5.195
6.312
262.872
231.312
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.712
.850
.445
165.526
a. In Schritt 1 eingegebene Variablen: region, educ, f030.
(b) Die letze Spalte der Tabelle gibt die Antilogarithmen der Koeffizienten exp(bk) wieder.
Diese Werte geben die Veränderungsraten der Odds an.
Verglichen mit den alten Bundesländern ist in den neuen Bundesländern das Verhältnis
von SPD zu CDU um den Faktor 0.712 oder 29.8% (=100% – 71.2%) geringer.
Pro Bildunsgabschluss sinkt das Verhältnis von SPD zu CDU um 15% (=100% – 85.0%).
Bei einem Anstieg um +1 Einheit auf der Links-Rechts-Skala sinkt das Verhältnis von
SPD zu CDU sogar um 55.5% (=100% – 44.5%).
(c) Auf der Ebene der Auftretenswahrscheinlichkeiten lassen sich keine eindeutigen Effekte
angeben, da diese in Abhängigkeit von den Ausgangswerten variieren. Am geringsten sind
die Veränderungen bei sehr kleinen und sehr großen Wahrscheinlichkeiten, am größten bei
einer Wahrscheinlichkeit von 0.5.
Vorlesung Statistik 2
42
Logistische Regression für dichotome abhängige Variablen: Interpretation
1.3
1.2
1.1
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
Lineare
Trendlinie
Bedingte
Stichprobenmittelwerte
Logistische
Regressionsfunktion
0
1
2
3
4
5
6
7
8
9
10
11
In der Abbildung sind neben den empirischen Stichprobenmittelwerten der abhängigen Variablen für alle Ausprägungen der Links-Rechts-Selbstpositionierung die logistische Regressionsfunktion und die lineare OLS-Regressioneingezeichnet, wobei für die Ausprägungen der Region und der Bildung jeweils die Stichprobenmittelwerte eingesetzt sind.
Deutlich sichtbar ist der s-förmige Verlauf der logistischen Regressionsfunktion, die die empirischen Mittelwerte deutlich besser erfasst als dies die Vorhersagewerte der linearen Regression tut.
Vorlesung Statistik 2
43
Logistische Regression für dichotome abhängige Variablen: Tests
Variablen in der Gleichung
Schritt
a
1
region
educ
f030
Konstante
Regressions
koeffizientB
-.339
-.162
-.810
5.109
Standardf
ehler
.149
.065
.050
.336
Wald
5.195
6.312
262.872
231.312
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.712
.850
.445
165.526
a. In Schritt 1 eingegebene Variablen: region, educ, f030.
Wenn die Stichprobe Ergebnis einer einfachen Zufallsauswahl ist und das logistische Regressionsmodell die Regressionsfunktion in der Population korrekt beschreibt, dann ist die MLSchätzung konsistent, asympototisch erwartungstreu und effizient.
Außerdem sind die geschätzten Regressionskoeffizienten um den zu schätzenden Populationswert asymptotisch normalverteilt, wobei die Standardfehler aus den Daten geschätzt werden
können. Mit Hilfe der Standardfehler lassen sich analog zur OLS-Regression (ohne Normalverteilungsannahme der Residuen) asymptotische Standardfehler und Tests berechnen.
Anstelle der Z-Test werden in der SPSS-Ausgabe allerdings Wald-Tests der Nullhypothese,
dass ein Regressionskoeffizient in der Population Null ist, berechnet. Die Teststatisitk ist das
Quadrat der T-bzw. Z-Statistik:
⎛ bk ⎞
2
W =Z =⎜
⎜ σˆ ( b ) ⎟⎟
k ⎠
⎝
Vorlesung Statistik 2
2
44
Logistische Regression für dichotome abhängige Variablen: Tests
Variablen in der Gleichung
Schritt
a
1
region
educ
f030
Konstante
Regressions
koeffizientB
-.339
-.162
-.810
5.109
Standardf
ehler
.149
.065
.050
.336
Wald
5.195
6.312
262.872
231.312
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.712
.850
.445
165.526
a. In Schritt 1 eingegebene Variablen: region, educ, f030.
Bei zutreffender Nullhypothese ist die Wald-Statistik asymptotisch mit df=1 Freiheitsgraden
chiquadratverteilt.
Wird das Regressionsgewicht der Region durch seinen Standardfehler geteilt und
quadriert, ergibt sich der Wert 5.195 ≈ (–0.339/0.149)2. Abweichungen sind Folge
von Rundungsfehlern.
Bei df=1 Freiheitsgrad beträgt dann die empirische Signifikanz der Nullhypothese,
H0: β1 = 0 vs. H1: β1 ≠ 0 Sig.=0.023. Bei einer Irrtumswahrscheinlichkeit von 5%
´
(0.05) ist die Nullhypothese also abzulehnen.
Die Wald-Tests weisen darauf hin, dass alle drei Regressionsgewichte bei einer
Irrtumswahrscheinlichkeit von 5% signifikant von null verschieden sind.
Der Vorteil des Wald-Tests gegenüber dem üblichen Z-Test besteht darin, dass er leicht auf
den simultanen Test mehrerer Regressionskoeffizienten ausgeweitet werden kann.
Vorlesung Statistik 2
45
Logistische Regression für dichotome abhängige Variablen: Konfidenzintervalle
Variablen in der Gleichung
Schritt
a
1
region
educ
f030
Konstante
Regressions
koeffizientB
-.339
-.162
-.810
5.109
Standardf
ehler
.149
.065
.050
.336
Wald
5.195
6.312
262.872
231.312
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.712
.850
.445
165.526
a. In Schritt 1 eingegebene Variablen: region, educ, f030.
Über die Standardfehler lassen sich auch Konfidenzintervalle berechnen:
c.i.( βk ) = b k ± σˆ ( βk ) ⋅ z1−α / 2
Das 95%-Konfidenzintervall des Regressionsgewichts der Bildung beträgt so:
c.i.(βBildung) = –0.162 ± 0.065·1.96 = –0.289 bis –0.035.
Bei einer Irrtumswahrscheinlichkeit von 5% ist zu vermuten, dass der Populationswert
etwa zwischen –0.289 und –0.035 liegt.
Bezogen auf die Odds ergibt sich das entsprechende Konfidenzintervall wieder durch
Antilogarithmieren:
b ±σˆ β ⋅z
c.i. eβk = e k ( k ) 1−α / 2
( )
Bei der Bildung liegen die Werte für den Veränderungsfaktor der Odds vermutlich
zwischen 0.749 (= e–.289) und 0.966 (= e–.035).
Vorlesung Statistik 2
46
Logistische Regression für dichotome abhängige Variablen: einseitige Tests
Variablen in der Gleichung
Schritt
a
1
region
educ
f030
Konstante
Regressions
koeffizientB
-.339
-.162
-.810
5.109
Standardf
ehler
.149
.065
.050
.336
Wald
5.195
6.312
262.872
231.312
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.712
.850
.445
165.526
a. In Schritt 1 eingegebene Variablen: region, educ, f030.
Statistische Tests sollten sich auch dann auf die Regressionsgewichte beziehen, wenn die Nullhypothese Werte für die Odds postuliert.
Im Beispiel kann etwa die Nullhypothese geprüft werden, dass ein Anstieg bei der
Selbtspositionierung um +1 Einheit die Odds von SPD zu CDU mehr als halbiert.
Das zu prüfende Hypothesenpaar lautet dann:
H0: exp(β3) ≥ 0.5 vs. H1: exp(β3) < 0.5
Durch Logarithmieren ergibt sich die korrespondierende Hypothese für die Logits:
H0: β3 ≥ ln(0.5) = –0.693 vs. H1: β3 < ln(0.5) = –0.693.
Die Teststatistik berechnet sich dann analog zur der bei der linearen Regression:
b − β −0.810 − ( −0.693)
Z= k
=
= −2.34
ˆσ ( b k )
0.050
Vorlesung Statistik 2
47
Logistische Regression für dichotome abhängige Variablen: einseitige Tests
Bei einem einseitigen Test nach unten und einer Irrtumswahrscheinlichkeit α wird die
Nullhypothese abgelehnt, wenn die Teststatistik kleiner/gleich dem (1–α)-Quantil der
Standardnormalverteilung ist.
Bei einer Irrtumswahrscheinlichkeit von 5% wird im Beispiel die Nullhypothese
abgelehnt, wenn die Teststatistik kleiner/gleich –1.645 ist.
Da dies bei Z= –2.34 der Fall ist, ist die Nullhypothese zu verwerfen. Bei einer
Irrtumswahrscheinlichkeit von 5% kann davon ausgegangen werden, dass sich
die Odds von SPD zu CDU mehr als halbieren, wenn die Links-Rechts-Position
um +1 Einheit (nach rechts) ansteigt.
Vergleich von relativen Einflussstärken
Die nach der ML-Methode gescätzten Regressionskoeffizienten lassen sich nur dann in ihrer
Größenordnung vergleichen, wenn die erklärenden Variablen auf der gleichen Messskala gemessen werden. Dies ist oft nicht der Fall.
Analog zu standardisierten Regressionskoeffizienten im linearen Regressionsmodell lassen
sich aber auch bei der logstischen Regression standardisierte Koeffizienten berechnen, wenn
die erklärenden Variablen standardisiert werden. Da die abhängige Variable dichotom ist,
macht bei ihr eine Standardisierung allerdings keinen Sinn, so dass nur die erklärenden
Variablen mit der Z-Transformation standardisiert werden.
Vorlesung Statistik 2
48
Logistische Regression für dichotome abhängige Variablen: standardisierte Lösung
Variablen in der Gleichung
Schritt
a
1
Zregion
Zeduc
Zf030
Konstante
Regressions
koeffizientB
-.155
-.171
-1.557
.301
Standardf
ehler
.068
.068
.096
.067
Wald
5.195
6.312
262.872
20.073
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.856
.843
.211
1.351
a. In Schritt 1 eingegebene Variablen: Zregion, Zeduc, Zf030.
Die Tabelle zeigt die entsprechende Schätzung:
Wenn die Region um +1 Standardabweichung ansteigen würde, würden die Logits um –0.155
sinken;
würde die Bildung um +1 Standardabweichung ansteigen, würden die Logits um –0.171 sinken;
würde die Links-Rechts-Selbstpositionierung um +1 Standardabweichung ansteigen, würden
die Logits um –1.557 sinken.
Aus diesen Werten folgt, dass die Links-Rechts-Positionierung den relativ größten Effekt und
die Region den relativ geringsten Effekt hat. Der relative Effekt der Bildung ist allerdings
kaum höher als der der Region.
Zum gleichen Ergebns kommt man bei der Betrachtung der Veränderungsraten: Der Effekt
einer Veränderung um +1 Standardabweichung reduziert das Odd um 14.45% (=1–0.856) bei
der Region, um 15.7% (=1–0.843) bei der Bildung und um 78.9% (=1–0.211) bei der LinksRechts-Selbstpositionierung.
Vorlesung Statistik 2
49
Logistische Regression für dichotome abhängige Variablen: standardisierte Lösung
Variablen in der Gleichung
Schritt
a
1
Zregion
Zeduc
Zf030
Konstante
Regressions
koeffizientB
-.155
-.171
-1.557
.301
Standardf
ehler
.068
.068
.096
.067
Wald
5.195
6.312
262.872
20.073
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.856
.843
.211
1.351
a. In Schritt 1 eingegebene Variablen: Zregion, Zeduc, Zf030.
Im Unterschied zum standardisierten linearen Regressionsmodell, bei dem die Regressionskonstante notwendigerweise den Wert Null aufweist, kann die Regressionskonstante im LogitModell mit standardisierten erklärenden Variablen ungleich Null sein.
Die Regressionskonstante gibt hier den Wert des Odds an, wenn die Werte aller erklärenden
Variablen gerade gleich ihrem Mittelwert sind:
K
βˆ Z0 = βˆ 0 + ∑ βˆ k ⋅ x k ; 0.301 = 5.109 + ( −0.339 ) ⋅ 0.30 + ( −0.162 ) ⋅ 1.998 + ( −0.810 ) ⋅ 5.41
k =1
Aus dieser Konstante lassen sich somit auch die durchschittliche Wahrscheinlichkeit der Ausprägungen der abhängigen Variablen berechnen:
e0.301
1.351
Pr ( SPD region = 0.30,educ = 1.998,f 030 = 5.41) =
=
= 0.575
0.301
1+ e
1 + 1.351
Vorlesung Statistik 2
50
Logistische Regression für dichotome abhängige Variablen: standardisierte Lösung
Variablen in der Gleichung
Schritt
a
1
Zregion
Zeduc
Zf030
Konstante
Regressions
koeffizientB
-.155
-.171
-1.557
.301
Standardf
ehler
.068
.068
.096
.067
Wald
5.195
6.312
262.872
20.073
df
1
1
1
1
Sig.
.023
.012
.000
.000
Exp(B)
.856
.843
.211
1.351
a. In Schritt 1 eingegebene Variablen: Zregion, Zeduc, Zf030.
Beim Vergleich der Veänderungsraten ist zu beachten, dass Faktoren >1.0 anders zu bewerten
sind als Faktoren <1.0. So bewirkt der Veränderungsfaktor 2.0 eine Verdopplung der Odds,
also eine Erhöhung um 100% (=100·(2–1)).
Bei einem Faktor <1.0 entspricht dies einer Veränderung um den Faktor 0.5 oder 50%, der zu
einer Halbierung der Odds führt.
Sollen positive und negative Veränderungen verglichen werden, entspricht ein Faktor >1 dem
Kehrwert eines Faktors <1. So ist im Beispiel 1/0.5 = 2.0
Es ist nicht unbedingt nötig, das Logit-Modell mit den standardisierten Werten neu aus den
Daten zu schätzen, da die Koeffizienten auch direkt aus dem unstandardisierten Modell
berechnet werden können. Notwendig sind dazu nur die Standardabweichungen der
erklärenden Variablen:
s( X k )
b Zk = b k ⋅ s ( X k ) ; exp b Zk = exp ( b k ⋅ s ( X k ) ) = ( exp ( b k ) )
( )
Vorlesung Statistik 2
51
Logistische Regression für dichotome abhängige Variablen: LR-Tests
Wie bei der linearen Regression will man auch bei der logistischen Regression oft wissen, ob
das Modell überhaupt Erklärungskraft aufweist.
Anstelle des F-Tests wird bei der ML-Schätzung üblicherweise ein LR-Test (LikelihoodQuotienten-Test) angewendet.
Bei einem LR-Test werden zwei hierrarchisch geschachtelte Logit-Modelle verglichen. Zum
einen ein sog. Nullmodell M0, in dem nicht alle Regressionskoeffizienten werden, und zum
anderen ein umfassenderes Modell M1 mit allen Regressionskoeffizienten. Hier wird im
Modell M0 nur die Regressions-konstante geschätzt, in Modell M1 die Regressionskonstante
plus alle Regressionsgewichte.
Die Teststatistik L2 ist die zweifache Differenz der negativen Log-Likelihoodfunktionen der
beiden Modelle:
L2 = –2· ( lnL(M0) – lnL(M1) )
Im Beispiel der Wahl von SPD bzw. CDU ergibt sich für das Konstantenmodell ein
Wert von 1777.507 und für das vollständige Modell ein Wert von 1344.394.
Die Teststatistik beträgt dann:
L2 = 1777.507 – 1344.394 = 433.111
Wenn die Nullhypothese zutrifft und dann alle (zusätzlichen) Regressionsgewichte der erklärenden Variablen aus Modell M1 in der Population Null sind, dann ist die Teststatistik L2 chiquadratverteilt, wobei die Zahl der Freiheitsgrade gleich der Zahl der erklärenden Variablen
ist, im Beispiel also df = 3.
Ist die Nullyhpothese falsch, ist die Teststatistik nichtzentral chiquadratverteilt.
Vorlesung Statistik 2
52
Logistische Regression für dichotome abhängige Variablen: LR-Test
Omnibus-Tests der Modellkoeffizienten
Schritt 1
Schritt
Block
Modell
Chi-Quadrat
433.113
433.113
433.113
df
3
3
3
Sig.
.000
.000
.000
Die Teststatistik wird in der SPSS-Ausgabe als "Omnibus-Test der Modellkoeffzienten" bezeichnet.
Der Ausgabe ist zu entnehmen, dass die Nullhypothese auch bei einer Irrtumswahrscheinlichkeit von 0.1% abgelehnt wird.
Stärke der Erklärungskraft
Als Analogon zum Determinationskoeffizienten R-Quadrat (R2) kann in der logistischen
Regression die relative Devianzreduktion R‘ berechnet werden:
−2ln L(M1 )
L2
L2
433.113
R ' =1−
=
=
=
= 0.244
2
−2ln L(M 0 ) −2ln L(M 0 ) −2ln L(M1 ) + L 1344.394 + 433.113
Dieses Maß wird auch als McFaddens Pseudo-R-Quadrat bezeichnet.
Vorlesung Statistik 2
53
Logistische Regression für dichotome abhängige Variablen: LR-Test
Modellzusammenfassung
Omnibus-Tests der Modellkoeffizienten
Chi-Quadrat
Schritt 1 Schritt
433.113
Block
433.113
Modell
433.113
df
3
3
3
Sig.
.000
.000
.000
Schritt
1
-2
Cox & Snell
LogR-Quadrat
Likelihood
a
1344.394
.285
Nagelkerkes
R-Quadrat
.381
a. Schätzung beendet bei Iteration Nummer 5, weil die
Parameterschätzer sich um weniger als .001 änderten
L2
433.113
R'=
=
= 0.244
2
−2ln L ( M1 ) + L 1344.394 + 433.113
Anstelle der Devianzreduktion berechnet SPSS zwei andere Pseudo-R-Quadrat-Maße, nämlich
die Maße von Cox und Snell und von Nagelkerke, die vor allem bei großen Fallzahlen zu höheren Werten führen:
⎛ − L2 ⎞
'
−433.113/1293
R Cox&Snell = 1 − exp ⎜
= 0.285
⎟ = 1− e
⎝ n ⎠
R 'Nagel ker ke =
1 − exp ( − L2 / n )
(
1 − exp − ( −2ln L ( M 0 ) ) / n
)
=
0.285
1 − e −1777.507 /1293
= 0.381
Im Beispiel sind alle Maße relativ hoch, was für einen durchaus starken Zusammenhang
spricht.
Vorlesung Statistik 2
54
Vergleich logistischer und linearer Regression
Y=Wahlverhalten
Prädiktor
Konstante (b0)
Region (b1)
Bildung (b2)
Links-Rechts
unstandard.
Koeffizienten
5.109 ***
–0.339*
–0.162*
–0.810***
Standard- standardisierte Effekt.
fehler
Koeffizienten exp(bk)
0.336
0.301
165.5
0.149
–0.155
0.712
0.065
–0.171
0.850
0.050
–1.557
0.445
Globaltest
–2lnL
M0 1777.507
M1 1344.394
L2
433.113
R‘
24.4%***
df
1
4
3
(Daten: Nachwahlbefragung BTW 2005, n=1293, Berechnungen mit SPSS)
Y=Wahlverhalten
Prädiktor
Konstante (b0)
Region (b1)
Bildung (b2)
Links-Rechts
unstandard.
Koeffizienten
1.379 ***
–0.060*
–0.027*
–0.139***
Standard- standardisierte Varianzzerlegung:
fehler
Koeffizienten Quelle
Variation
df
0.044
-Regression
90.466
3
0.026
0.056
Residuen
229.048 1289
0.011
–0.056
Total
319.514 1292
0.006
–0.539
R2: .283, R2adj.: .281, F: 169.7***
(Daten: Nachwahlbefragung BTW 2005, Berechnungen mit SPSS)
Der Vergleich der ML-Schätzung des Logitmodells mit der OLS-Schätzung des linearen Modells zeigt, dass sich zwar die geschätzten Koeffizienten sehr unterscheiden, die Interpretation
aber zum gleichen Ergebnis kommt:
• In beiden Modellen weisen die erklärenden Variablen negative Effekte auf.
• Die Links-Rechts-Skala hat einen deutlich stärkeren Effekt als Region und Bildung.
Allerdings zeigt nur das Logit-Modell, dass die Bildung auch einen etwas stärkeren Effekt
hat als die Region.
Vorlesung Statistik 2
55
Vergleich logistischer und linearer Regression
Y=Wahlverhalten
Prädiktor
Konstante (b0)
Region (b1)
Bildung (b2)
Links-Rechts
unstandard.
Koeffizienten
5.109 ***
–0.339*
–0.162*
–0.810***
Standard- standardisierte Effekt.
fehler
Koeffizienten exp(bk)
0.336
0.301
165.5
0.149
–0.155
0.712
0.065
–0.171
0.850
0.050
–1.557
0.445
Globaltest
–2lnL
M0 1777.507
M1 1344.394
L2
433.113
R‘
24.4%***
df
1
4
3
(Daten: Nachwahlbefragung BTW 2005, n=1293, Berechnungen mit SPSS)
Y=Wahlverhalten
Prädiktor
Konstante (b0)
Region (b1)
Bildung (b2)
Links-Rechts
unstandard.
Koeffizienten
1.379 ***
–0.060*
–0.027*
–0.139***
Standard- standardisierte Varianzzerlegung:
fehler
Koeffizienten Quelle
Variation
df
0.044
-Regression
90.466
3
0.026
0.056
Residuen
229.048 1289
0.011
–0.056
Total
319.514 1292
0.006
–0.539
R2: .283, R2adj.: .281, F: 169.7***
(Daten: Nachwahlbefragung BTW 2005, Berechnungen mit SPSS)
• In beiden Modellen ist die Erklärungskraft (gemessen in R‘ bzw. R2) recht hoch.
• In beiden Modell sind alle Koeffizienten und das Gesamtmodell bei einer Irrtumswahrscheinlichkeit von 5% signifikant.
Die Standardfehlern und Tests des linearen Modells sind aber bei einer dichotomen ahängigen
Variable verzerrt, so dass den Ergebnissen des Logit-Modells hier eher getraut werden kann.
Vorlesung Statistik 2
56
Aufgabe
Die Ergebnisse der trivariaten Regression des Einkommens auf Region und Bildungsabschluss
ergab im Allbus 1996 folgendes Resultat:
Vorhersagewerte
Residuen:
Variation
df
1057889850.981
2
5423000773.603 2194
Prädiktor
b
Konstante
1690.62
Bildungsabschluss 520.71
Region
−835.18
SE
T
72.25 23.4
30.72 17.0
69.01 −12.1
R²: 16.3%
R²adj: 16.2%
F:
214.0 (p < 0.001)
Sign.(T)
b*
< 0.001
< 0.001 0.331
< 0.001 −0.236
Gegen die Analyse wird eingewendet, dass Bildung keine metrische Variable sei.
Um dem Rechnung zu tragen wird die Bildung rekodiert, so dass anstelle der Abschlüsse
Bildungsjahre resultieren.
Befragten ohne Abschluss werden 7 Jahre zugeordnet, Befragten mit Hauptschulabschluss 9
Jahre, mit mittlerer Reife 10 Jahre, mit Abitur 13 Jahr und mit Hochschulabschluss 17 Jahre.
Vorlesung Statistik 2
57
Übungsaufgaben
Die Regression führt nun zu folgenden Ergebnissen:
Vorhersagewerte
Residuen:
Prädiktor
Konstante
Bildungsjahre
Region
Variation
df
1142062630.056
2
5338827994.528 2194
b
347.51
214.50
−780.08
SE
T
135.8 2.6
11.87 18.1
68.50 −11.4
R²: 17.6%
R²adj: 17.5%
F:
234.7 (p < 0.001)
Sign.(T)
b*
< 0.001
< 0.001 0.350
< 0.001 −0.2221
a) Interpretieren Sie die Ergebnisse und vergleichen Sie diese mit der ursprünglichen Regression.
Welche Kodierung ziehen Sie vor? Begründen Sie Ihre Antwort.
Um das Skalierungsproblem der Bildung zu lösen, wird schließlich vorgeschlagen, die Bildung
wie bei einer nominalskalierten Variablen in 0/1-kodierte Dummy-Variablen aufzulösen, die
den Wert eins aufweisen, wenn eine Person den entsprechenden Bildungsabschluss aufweist.
Als Referenzkategorie wird der Hauptschulabschluss verwendet
Vorlesung Statistik 2
58
Übungsaufgaben
Die Regression führt nun zu folgenden Ergebnissen:
Vorhersagewerte
Residuen:
Variation
df
1262107788.435
5
5218782836.147 2191
Prädiktor
Konstante
kein Abschluss
Mittlere Reife
Abitur
Hochschulabschl.
Region
b
SE
T
2301.97 54.96 41.9
−475.71 207.25 −2.3
340.19 80.05
4.3
214.19 112.30
1.9
1918.57 101.45 18.9
−830.85 69.34 −12.0
R²: 19.5%
R²adj: 19.3%
F:
106.0 (p < 0.001)
Sign.(T)
b*
< 0.001
0.022 −0.045
< 0.001 0.091
0.057 0.039
< 0.001 0.388
< 0.001 −0.235
b) Interpretieren Sie dieses Ergebnis der multiplen Regression.
Vergleichen Sie es mit den Ergebnissen der ersten beiden Regressionsanalysen. Welches der
drei Regressionsmodelle beschreibt die empirischen Daten am besten?
Vorlesung Statistik 2
59
Übungsaufgaben
Es soll geprüft werden, ob der Bildungseffekt als linear angenommen werden kann.
Dazu werden in einer schrittweisen Regression zunächst das Ausgangsmodell mit Bildungsabschluss und Region (Ost) als erklärende Variablen „geschätzt“ und dann zusätz lich drei der vier
Dummy-Variablen aus dem multiplen Regressionsmodell aus dem letzten Modell in die Gleichung aufgenommen. Es resultieren folgende Ergebnisse:
Vorhersagewerte
Residuen:
Variation
df
1262107788.435
5
5218782836.147 2191
R²: 19.5%
R²adj: 19.3%
F:
106.0 (p < 0.001)
Prädiktor
b
SE
T
Sign.(T)
b*
Konstante
1826.26 202.74 9.0 < 0.001
Bildungsabschluss
475.71 207.25 2.3
0.022
0.302
Mittlere Reife
−135.51 233.74 −0.6
0.562 −0.036
Abitur
−737.22 441.11 −1.7
0.095 −0.133
Hochschulabschl.
491.46 624.08 0.8
0.444
0.099
Region
−830.85 69.34 −12.0 < 0.001 −0.235
c) Prüfen Sie mit einer Irrtumswahrscheinlichkeit von 5 %, ob das erweiterte Modell eine signifikant höhere Erklärungskraft hat als das Ausgangsmodell.
d) Welche Schlussfolgerungen ergeben sich aus der Gegenüberstellung der Erklärungskraft von
Ausgangs- und erweitertem Modell?
Vorlesung Statistik 2
60
Herunterladen