Spezifikation der unabhängigen Variablen

Analyse von
Querschnittsdaten
Spezifikation
der unabhängigen Variablen
Warum geht es in den folgenden
Sitzungen?
Datum
Kontinuierliche Variablen
Annahmen
gegeben?
kategoriale Variablen
Vorlesung
18.10.2006
Einführung
18.10.2006
Beispiele
25.10.2006
Daten
08.11.2006
Variablen
15.11.2006
Bivariate Regression
22.11.2006
Kontrolle von Drittvariablen
29.11.2006
Multiple Regression
06.12.2006
Statistische Inferenz
13.12.2006
Signifikanztests I
20.12.2006
Signifikanztests II
10.01.2007
Spezifikation der unabhängigen Variablen
17.01.2007
Spezifikation der Regressionsfunktion
24.01.2007
Heteroskedastizität
31.01.2007
Regression mit Dummy-Variablen
07.02.2007
Logistische Regression
Gliederung
1. Ist das Modell berechenbar?
2. Was tun bei Multikollinearität?
3. Fehlspezifikation der unabhängigen
Variablen
4. Auswirkungen einer Fehlspezifikation
5. Was tun bei Fehlspezifikation?
Gliederung
1. Ist das Modell berechenbar?
a. Konstanten, zu viele Variablen, lineare
Abhängigkeiten
b. hoch korrelierende Variablen
2. Was tun bei Multikollinearität?
3. Fehlspezifikation der unabhängigen
Variablen
4. Auswirkungen einer Fehlspezifikation
5. Was tun bei Fehlspezifikation?
Annahmen
Perfekte Korrelation unabhängiger Variablen
Berechenbarkeit der OLS-Schätzer
• Die unabhängige Variable muss Varianz
aufweisen (darf keine Konstante sein).
• Die unabhängige Variable darf keine
Linearkombination der anderen
unabhängigen Variablen sein.
• Die Anzahl der Fälle muss größer als die
Anzahl zu schätzender Parameter sein.
Gliederung
1. Ist das Modell berechenbar?
a. Konstanten, zu viele Variablen, lineare
Abhängigkeiten
b. hoch korrelierende Variablen (Multikollinearität)
2. Was tun bei Multikollinearität?
3. Fehlspezifikation der unabhängigen
Variablen
4. Auswirkungen einer Fehlspezifikation
5. Was tun bei Fehlspezifikation?
Multikollinearität erhöht Varianz der
OLS-Schätzer!
Var ( βˆ j ) =
σ2
SST j (1 − R 2j )
n
mit SST j = ∑ ( xij − x j ) 2
i =1
• Varianz ist unter anderem abhängig von:
– Korrelation der jeweiligen unabhängigen Variablen mit allen
anderen unabhängigen Variablen (R2j ist der
Determinationskoeffizient der Regression von xj auf alle anderen
unabhängigen Variablen)
• Je größer R2j, desto größer die Varianz und
dementsprechend der geschätzte Standardfehler
¾ weniger effiziente Schätzung, größere
Konfidenzintervalle, weniger signifikante Tests
Ausmaß der Varianzinflation
VIF = Variance Inflation Factor
Durch die Multikollinearität wird der
Standardfehler um den Faktor √VIF
erhöht.
SST j
× VIF
5
=
σˆ 2
1
×
=
2
(1 − R j )
SST j
4
SST j (1 − R )
2
j
σˆ 2
s qrtvif
3
se( βˆ j ) =
σˆ 2
x2
x3
x4
1,00
0,50
0,12
0,17
1,00
0,14 1,00
0,22 -0,05
Quelle: Berry / Feldman (1985: Table 4.1)
x5
1,00
√VIF
R²
0,62 1,62
0,71 1,86
0,56 1,51
0,06 1,03
0,09 1,05
1
Income
Prestige
Education
Attendance
Size
x1
1,00
0,62
0,54
0,07
0,08
2
Korrelationsmatrix (zufällig ausgewählte Stichprobe, n=50)
0
.2
.4
.6
x
R²
.8
1
Bei Simulation sichtbar?
• Analyse der Lebenszufriedenheit
• St. Regression: eine kleine Insel im Südpazifik
mit 665 Einwohnern
• Lebenszufriedenheit (Index 1-20)
• Determinanten: Haushaltseinkommen,
Berufsprestige, Ausbildungsdauer,
Kirchgangshäufigkeit, Ortsgröße
– Haushaltseinkommen, Berufsprestige,
Ausbildungsdauer korrelieren hoch untereinander
– Kirchgangshäufigkeit und Ortsgröße korrelieren nur
geringfügig miteinander und mit den anderen drei
Determinanten
Simulationsexperiment
(St. Regression, Lebenszufriedenheit, gss1978.dta)
Standardabweichung der geschätzten Regressionskoeffizienten in 1000 Replikationen
income
size
income
income
size
0.25
0.25
0.25
0.20
0.20
0.20
0.15
0.15
0.15
0.10
0.10
0.10
0.05
0.05
0.05
0.00
0.00
50
300
St ichp r o b enumf ang
2
2
Rincome
> Rsize
s(u)=0,5090
alle x mit s=1
500
size
0.00
50
300
500
St ichp r o b enumf ang
50
300
500
St ichp r o b enumf ang
u größere Streuung
income größere Streuung
s(u)=1,0000
alle x mit s=1
s(u)=0,5090
income mit s=2
sonstige x mit s=1
Multikollinearität erhöht auch die
Korrelation der OLS-Schätzer
• Sie sind zwar im Durchschnitt erwartungstreu,
• aber im Einzelfall ist jedoch eine Überschätzung des
einen Effektes eher mit einer Unterschätzung des
anderen Effektes verbunden und umgekehrt (bei positiv
korrelierten unabhängigen Variablen).
• Negativ korrelierte x Ö positiv korrelierte Schätzer
Korrelationsmatrix der Schätzer
b1
b2
_b[income]
b4
.5
b1
b2
b4
1.00
-0.62
0.04
_b[prestige]
0
1.00
-0.14
1.00
-.5
.6
.4
_b[attend]
.2
0
-.5
0
.5-.5
0
.5
Gliederung
1. Ist das Modell berechenbar?
2. Was tun bei Multikollinearität?
3. Fehlspezifikation der unabhängigen
Variablen
4. Auswirkungen einer Fehlspezifikation
5. Was tun bei Fehlspezifikation?
Wie erkennt man Multikollinearität?
• Alle Parametertests nicht signifikant (TTests), aber das Modell als Ganzes ist
signifikant (F-Test)
• Inspektion bivariater Korrelationen nicht
sinnvoll
• Verwende VIF- bzw. Toleranzwerte
(Toleranz = 1/VIF)
• Grenzwert schwierig festzulegen
Gegenmaßnahmen
• unnötig bei Prognosen
• unnötig wenn der interessierende Effekt
nicht betroffen
• Nutzung von Vorwissen zur Vereinfachung
des Regressionsmodells
• Indexbildung
• Entfernung einzelner Variablen
• simultane Tests mehrerer OLS-Schätzer
Gliederung
1. Ist das Modell berechenbar?
2. Was tun bei Multikollinearität?
3. Fehlspezifikation der unabhängigen
Variablen
4. Auswirkungen einer Fehlspezifikation
5. Was tun bei Fehlspezifikation?
Arten von Fehlspezifikation
• Unterspezifikation: Vernachlässigung
relevanter Variablen
– Im Regressionsmodell fehlen unabhängige
Variablen, die einen Einfluss auf die
abhängige Variable haben.
• Überspezifikation: Berücksichtigung
irrelevanter Variablen
– Das Regressionsmodell enthält unabhängige
Variablen, die (in Wahrheit) gar keinen
Einfluss auf die abhängige Variable haben.
Unterspezifikation
Grundgesamtheit
y = β 0 + β1 x1 + β 2 x2 + u
Modell 1 (korrekt)
yˆ = βˆ0 + βˆ1 x1 + βˆ2 x2
Modell 2 (unterspezifiziert)
Beispiel Grundgesamtheit
Beispiel Modell 2
~ ~
~
y = β 0 + β1 x1
wage = f(educ, abil)
wage = f(educ)
Überspezifikation
Grundgesamtheit
y = β 0 + β1 x1 + u
Modell 1 (korrekt)
yˆ = βˆ0 + βˆ1 x1
Modell 2 (überspezifiziert)
~ ~
~
~
y = β 0 + β1 x1 + β 2 x2
Beispiel Grundgesamtheit
satisfac = f(income)
Beispiel Modell 2
satisfac = f(income, height)
Gliederung
1. Ist das Modell berechenbar?
2. Was tun bei Multikollinearität?
3. Fehlspezifikation der unabhängigen
Variablen
4. Auswirkungen einer Fehlspezifikation
a. … auf die Erwartungstreue der Schätzung
b. … auf die Effizienz der Schätzung
c. Unterspezifikation am Beispiel einer Simulation
5. Was tun bei Fehlspezifikation?
Annahmen
Wenn die Fehlerterme u für jede Kombination der
unabhängigen Variablen im Durchschnitt Null betragen, dann
sind die OLS-Schätzer erwartungstreu (d.h., sie stimmen im
Durchschnitt mit den entsprechenden Parametern der
Grundgesamtheit überein).
Überspezifikation (revisited)
y = β 0 + β1 x1 + u
Grundgesamtheit
y = β0 + β1x1 + β2 x2 + u, β2 = 0
Modell 1 (korrekt)
yˆ = βˆ0 + βˆ1 x1
~ ~
~
~
Modell 2 (überspezifiziert) y = β 0 + β1 x1 + β 2 x2
Auswirkungen Überspezifikation
• Wenn in der GG gilt:
y = β0 + β1x1 + β2 x2 + u, β2 = 0
• und folgende Annahme gegeben ist:
E (u | x1 , x2 ) = 0
• dann gilt für die OLS-Schätzer in Modell 2:
~
~
E ( β1 ) = β1 E ( β 2 ) = β 2 = 0
¾Überspezifikation unproblematisch
Auswirkungen Unterspezifikation
• Wenn in der GG gilt:
y = β 0 + β1 x1 + β 2 x2 + u
• aber folgendes Modell unterstellt wird:
y = β 0 + β1 x1 + v
• dann gilt für den Fehlerterm v:
E (v | x1 ) ≠ 0, wenn Corr( x1 , x2 ) ≠ 0, da v = f ( x2 , u ) = β 2 x2 + u
¾ Unterspezifikation führt zu verzerrten
Schätzungen
Verzerrung im trivariaten Fall
Grundgesamtheit
y = β 0 + β1 x1 + β 2 x2 + u
Modell (unterspezifiziert)
~ ~
~
y = β 0 + β1 x1
~
Erwartungswert des Effektes E ( β1 ) =
wobei gilt:
~
β1 + β 2δ 1
~ ~
~
x2 = δ 0 + δ 1 x1
Verzerrung im trivariaten Fall
Grundgesamtheit
y = β 0 + β1 x1 + β 2 x2 + u
Modell (unterspezifiziert)
~ ~
~
y = β 0 + β1 x1
~
Erwartungswert des Effektes E ( β1 ) =
~
wobei gilt:
β1 + β 2δ 1
~ ~
~
x2 = δ 0 + δ 1 x1
Verzerrung abhängig von
Effekt von x2 auf y
Verzerrung im trivariaten Fall
Grundgesamtheit
y = β 0 + β1 x1 + β 2 x2 + u
Modell (unterspezifiziert)
~ ~
~
y = β 0 + β1 x1
~
Erwartungswert des Effektes E ( β1 ) =
wobei gilt:
Verzerrung abhängig von
~
β1 + β 2δ 1
~ ~
~
x2 = δ 0 + δ 1 x1
Effekt von x2 auf y
Korrelation von x1 und x2
Richtung der Verzerrung
~
~
E ( β1 ) = β1 + β 2δ 1
Korrelation
positiv
Korrelation
negativ
Effekt positiv
positiv
negativ
Effekt negativ
negativ
positiv
Beispiel Arbeitseinkommen
wage = β0 + β1educ + β2abil + u
OLS mit wage1.dta: log(wage) = 0,584 + 0,083educ, n=526, R2=0,186
E ( β1 ) = β1 + β 2δ 1
Korrelation
positiv
Korrelation
negativ
Effekt positiv
positiv
negativ
Effekt negativ
negativ
positiv
~
~
Verzerrung im multivariaten Fall
Grundgesamtheit
y = β0 + β1x1 + β2 x2 + β3 x3 + β4 x4 + u
Modell 1:
Auslassung einer
Variablen (x2)
yˆ = βˆ0 + βˆ1x1 + βˆ3 x3 + βˆ4 x4
Modell 2:
Auslassung
mehrerer Variablen
(x2 , x3)
~ ~
~
~
y = β0 + β1x1 + β4 x4
Verzerrung im multivariaten Fall
• Generell: Ausmaß der Verzerrung lässt sich
weniger gut abschätzen
– Ausnahme: WO 93-95
• Grund: alle unabhängigen Variablen können
jeweils miteinander korrelieren
• Auslassung einer oder mehrerer relevanter
Variablen führt in der Regel dazu, dass die
Effekte aller im Modell berücksichtigten
Variablen verzerrt sind
• Die Verzerrung ist nur dann gering, wenn die
vernachlässigten Variablen gering mit den im
Modell befindlichen Variablen korrelieren
Gliederung
1. Ist das Modell berechenbar?
2. Was tun bei Multikollinearität?
3. Fehlspezifikation der unabhängigen
Variablen
4. Auswirkungen einer Fehlspezifikation
a. … auf die Erwartungstreue der Schätzung
b. … auf die Effizienz der Schätzung
c. Unterspezifikation am Beispiel einer Simulation
5. Was tun bei Fehlspezifikation?
Varianz der OLS-Schätzer
Var ( βˆ j ) =
σ2
SST j (1 − R 2j )
n
mit SST j = ∑ ( xij − x j ) 2
i =1
• Varianz ist unter anderem abhängig von:
– Korrelation der jeweiligen unabhängigen Variablen
mit allen anderen unabhängigen Variablen (R2j ist der
Determinationskoeffizient der Regression von xj auf
alle anderen unabhängigen Variablen)
Anwendung: Überspezifikation
Grundgesamtheit
y = β 0 + β1 x1 + u
Modell 1 (korrekt)
yˆ = βˆ0 + βˆ1 x1
Modell 2 (überspezifiziert)
~ ~
~
~
y = β 0 + β1 x1 + β 2 x2
Varianz Modell 1 (korrekt)
Var ( βˆ1 ) =
~
Varianz Modell 2 (überspez.) Var ( β1 ) =
σ2
SST1
σ2
SST1 (1 − R12 )
Auswirkungen Überspezifikation
• unproblematisch in Bezug auf Erwartungstreue (s. Teil 2.a)
~
E ( β1 ) = β1
• erhöht aber die Standardfehler der im
Modell berücksichtigten Variablen
2
2
σ
σ
~
ˆ
Var ( β1 ) =
> Var ( β1 ) =
2
SST1 (1 − R1 )
SST1
Anwendung Unterspezifikation
Grundgesamtheit
y = β 0 + β1 x1 + β 2 x2 + u
Modell 1 (korrekt)
yˆ = βˆ0 + βˆ1 x1 + βˆ2 x2
Modell 2 (unterspezifiziert)
~ ~
~
y = β 0 + β1 x1
Varianz Modell 1 (korrekt)
Varianz Modell 2 (untersp.)
Var ( βˆ1 ) =
~
Var ( β1 ) =
σ2
SST1 (1 − R12 )
σ2
SST1
Auswirkungen Unterspezifikation
• problematisch in Bezug auf Erwartungstreue (s. Teil 2.a)
~
~
E ( β1 ) = β1 + β 2δ 1
• verringert die Standardfehler der im Modell
berücksichtigten Variablen
2
2
σ
σ
~
ˆ
Var ( β1 ) =
< Var ( β1 ) =
SST1
SST1 (1 − R12 )
Unterspezifikation ist
• … doppelt problematisch
• Effekt wird verzerrt geschätzt
• … und sieht auch noch signifikanter aus!
Gliederung
1. Ist das Modell berechenbar?
2. Was tun bei Multikollinearität?
3. Fehlspezifikation der unabhängigen
Variablen
4. Auswirkungen einer Fehlspezifikation
a. … auf die Erwartungstreue der Schätzung
b. … auf die Effizienz der Schätzung
c. Unterspezifikation am Beispiel einer Simulation
5. Was tun bei Fehlspezifikation?
Analyse der Lebenszufriedenheit
•
•
•
St. Regression: eine kleine Insel im Südpazifik mit 665
Einwohnern
Lebenszufriedenheit (Index 1-20)
Determinanten: Haushaltseinkommen, Berufsprestige,
Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße
–
–
Haushaltseinkommen, Berufsprestige, Ausbildungsdauer
korrelieren hoch untereinander
Kirchgangshäufigkeit und Ortsgröße korrelieren nur geringfügig
miteinander und mit den anderen drei Determinanten
¾ Zwei unterspezifizierte Modelle
ii. Haushaltseinkommen bleibt unberücksichtigt
iii. Kirchgangshäufigkeit bleibt unberücksichtigt
Simulationsergebnisse
erhebliche
Verzerrung
max. 282%
geringere
Standardabweichung
Simulation: 100 Replikationen mit n=50 (Quelle: Berry / Feldman 1985)
(i) richtig spezifiziertes Modell
(ii) (hoch korrelierendes) Haushaltseinkommen unberücksichtigt
Simulationsergebnisse
geringere
Verzerrung
max. 9%
Standardabweichung
kaum
beeinflusst
Simulation: 100 Replikationen mit n=50 (Quelle: Berry / Feldman 1985)
(iii) (gering korrelierende) Kirchgangshäufigkeit unberücksichtigt
Gliederung
1. Ist das Modell berechenbar?
2. Was tun bei Multikollinearität?
3. Fehlspezifikation der unabhängigen
Variablen
4. Auswirkungen einer Fehlspezifikation
5. Was tun bei Fehlspezifikation?
Diagnose und Gegenmaßnahmen
• niedriger Determinationskoeffizient kein
ausreichendes Indiz
• nicht signifikante OLS-Schätzer kein
ausreichendes Indiz
• Gute Theorien!
Zum Schluss
Zusammenfassung
Zu wenig Fälle, keine
Varianz, perfekte
Korrelation
Hohe Korrelation
Schätzer nicht
berechenbar
Hohe Standardfehler, hohe
Korrelation der Schätzer
Auslassung relevanter Verzerrte Schätzungen
Variablen
Berücksichtigung
Hohe Standardfehler
irrelevanter Variablen
Wichtige Fachausdrücke
Deutsch
Fehlspezifikation
Englisch
Deutsch
misspecification Multikollinearität
Englisch
multicollinearity
Unterspezifikation
underspecification
Faktor der
Varianzinflation
variance
inflation factor
Überspezifikation
overspecification
Toleranz
tolerance
Verzerrung
bias
Korrelation der
Schätzer
correlation of
estimates
Weiterführende Literatur
• Berry und Feldman (1985)
– Kapitel 2: Fehlspezifikation der unabhängigen
Variablen
– Kapitel 4: Multikollinearität
• Wooldridge (2003)
– WO 84-95 und darin die Abschnitte über
„Including irrelevant variables“ und „Omitted
variable bias“
– WO 95-103 und darin die Abschnitte über
„Multicollinearity“ und „Variances in
misspecified models“
Stata-Befehle
Nach der Eingabe des Regressionskommandos reg kann man mit
weiteren Befehlen zusätzliche (Test-)Ergebnisse abrufen
vif
Ausgabe der Varianzinflationsfaktoren für
jede unabhängige Variable