Spezifikation der Regressionsfunktion

Werbung
Analyse von
Querschnittsdaten
Spezifikation der
Regressionsfunktion
Warum geht es in den folgenden
Sitzungen?
Kontinuierliche Variablen
Annahmen
gegeben?
kategoriale Variablen
Datum
Vorlesung
13.10.2004
Einführung
20.10.2004
Beispiele
27.10.2004
Daten
03.11.2004
Variablen
10.11.2004
Bivariate Regression
17.11.2004
Kontrolle von Drittvariablen
24.11.2004
Multiple Regression
01.12.2004
Statistische Inferenz
08.12.2004
Signifikanztests I
15.12.2004
Signifikanztests II
22.12.2004
Spezifikation der unabhängigen Variablen
12.01.2005
Spezifikation der Regressionsfunktion
19.01.2005
Heteroskedastizität
26.01.2005
Regression mit Dummy-Variablen
02.02.2005
Logistische Regression
Gliederung
1.
2.
3.
4.
5.
Definition: Linearität und Additivität
Nicht-lineare Modelle
Nicht-additive Modelle
Auswirkungen einer Fehlspezifikation
Tests auf Fehlspezifikation der
funktionalen Form
Gliederung
1.
2.
3.
4.
5.
Definition: Linearität und Additivität
Nicht-lineare Modelle
Nicht-additive Modelle
Auswirkungen einer Fehlspezifikation
Tests auf Fehlspezifikation der
funktionalen Form
Linearität
15
y
10
5
0
0
1
2
3
4
5
4
5
x
nicht-linear: y = √(x)
1.5
y
1
.5
0
¾ Unabhängigkeit von
der Größe von x
2
2.5
• Der Effekt der
unabhängigen
Variablen x ist immer
gleich groß, egal
welchen Wert die
Variable x aufweist.
20
linear: y = 2 + 3*x
0
1
2
3
x
Additivität
15
y
10
5
0
0
1
2
3
4
5
x
nicht-additiv: y = 2 + 0,5*x1 *x2
10
• Der Effekt der
unabhängigen
Variablen xi hängt
nicht davon ab,
welche Werte andere
unabhängige
Variablen xj haben.
20
additiv: y = 2 + 3*x1 – 1,5*x2
8
6
x2=2
4
y
x2=1
2
¾ Unabhängigkeit von
anderen Variablen xj
x2=3
0
1
2
3
x
4
5
Zusammenfassung
Linear-additive Modelle implizieren
kontextunabhängige Effekte!
Effekte sind unabhängig
– von der Größe der jeweiligen unabhängigen
Variablen
– von den Werten der anderen unabhängigen
Variablen
Gliederung
1. Definition: Linearität und Additivität
2. Nicht-lineare Modelle
a. Einige Beispiele
b. Transformation in ein lineares Regressionsmodell
c. Interpretation der Regressionskoeffizienten ausgewählter
nicht-linearer Modelle
3. Nicht-additive Modelle
4. Auswirkungen einer Fehlspezifikation
5. Tests auf Fehlspezifikation der funktionalen
Form
Polynomregression
y = β 0 + β1 x1 + β 2 x12 + β 3 x13 + K + β m x1m + u
60
• erlaubt zunehmende, abnehmende und sich
umkehrende Effekte von x
0
10
20
y
30
40
50
y = 30 − 9 x + 3 x 2
0
1
2
3
x
4
5
Exponentialmodell (Typ 1)
y = β 0 ⋅ x1β1 ⋅ x2β 2 ⋅ u ⇔ ln y = ln β 0 + β1 ln x1 + β 2 ln x2 + ln u
60
• erlaubt zunehmende oder abnehmende Effekte
• entspricht Modell mit Logarithmen
• auch bei schiefer Verteilung, Heteroskedaszität
0
10
20
y
30
40
50
β1 > 1
β1 = 1
β1 < 1
0
.5
1
x
1.5
2
Exponentialmodell (Typ 2)
y = exp( β 0 + β1 x1 + β 2 x2 + u ) ⇔ ln y = β 0 + β1 x1 + β 2 x2 + u
60
• erlaubt zunehmende oder abnehmende Effekte
• entspricht semi-logarithmischem Modell
• auch bei schiefer Verteilung, Heteroskedaszität
10
20
y
30
40
50
β1 > 0
0
β1 < 0
0
.5
1
x
1.5
2
Gliederung
1. Definition: Linearität und Additivität
2. Nicht-lineare Modelle
a. Einige Beispiele
b. Transformation in ein lineares Regressionsmodell
c. Interpretation der Regressionskoeffizienten ausgewählter
nicht-linearer Modelle
3. Nicht-additive Modelle
4. Auswirkungen einer Fehlspezifikation
5. Tests auf Fehlspezifikation der funktionalen
Form
Polynomregression
Modell
y = β 0 + β1 x1 + β 2 x12 + β 3 x13 + K + β m x1m + u
Definiere
z1 = x1
z 2 = x12
z3 = x13
z m = x1m
OLS - Schätzung mit transformierten Variablen
y = δ 0 + δ 1 z1 + δ 2 z 2 + δ 3 z3 + K + δ m z m + v
Koeffizientenvergleich
δ 0 = β 0 δ 1 = β1 δ 2 = β 2 δ 3 = β 3 δ m = β m
Exponentialmodell (Typ 1)
Modell
y = β 0 ⋅ x1β1 ⋅ x2β 2 ⋅ u ⇔ ln y = ln β 0 + β1 ln x1 + β 2 ln x2 + ln u
Definiere
y * = ln y
z1 = ln x1
z 2 = ln x2
OLS − Schätzung mit transformierten Variablen
y * = δ 0 + δ 1 z1 + δ 2 z 2 + v
Koeffizientenvergleich
δ 0 = ln β 0 δ 1 = β1 δ 2 = β 2
Exponentialmodell (Typ 2)
Modell
y = exp( β 0 + β1 x1 + β 2 x2 + u ) ⇔ ln y = β 0 + β1 x1 + β 2 x2 + u
Definiere
y * = ln y
OLS − Schätzung mit transformierten Variablen
y * = δ 0 + δ 1 x1 + δ 2 x2 + v
Koeffizientenvergleich
δ 0 = β 0 δ 1 = β1 δ 2 = β 2
Nicht transformierbar
y = β 0 ⋅ x1β1 + u ⇔ ln y = ln( β 0 ⋅ x1β1 + u )
wegen additivem Fehlerterm
• Alle nicht-linearen Modelle, die sich nicht durch
Variablentransformation in ein linear-additives
Modell (mit additivem Fehlerterm) überführen
lassen, können nicht mit OLS geschätzt werden.
• Genauer: Alle nicht-linearen Modelle, bei denen
die Optimierungsfunktion keine lineare Funktion
der Regressionskoeffizienten ist, können nicht
mit OLS geschätzt werden.
Annahmen
Alle Modelle, bei denen die Optimierungsfunktion eine lineare
Funktion der Regressionskoeffizienten ist, können mit OLS
geschätzt werden.
Gliederung
1. Definition: Linearität und Additivität
2. Nicht-lineare Modelle
a. Einige Beispiele
b. Transformation in ein lineares Regressionsmodell
c. Interpretation der Regressionskoeffizienten ausgewählter
nicht-linearer Modelle
3. Nicht-additive Modelle
4. Auswirkungen einer Fehlspezifikation
5. Tests auf Fehlspezifikation der funktionalen
Form
Quadratische Terme
y = β 0 + β1 x1 + β 2 x12 + u
Effekt
β1 + 2 β 2 x1
Minimum / Maximum
− β1 2 β 2
60
Modell
50
1,5 = − (−9) 2 ⋅ 3
30
40
Beispiel :
y = 30 − 9 x + 3 x 2
0
10
20
y
y = −9 + 2 ⋅ 3 x
0
1
2
3
x
4
5
Logarithmierte Variablen
Modell Abhängig Unabhängig
Interpretation
a
y
x
∆y = β1∆x
b
y
log x
∆y = ( β1 / 100)%∆x
c
log y
x
%∆y = (100 β1 )∆x
d
log y
log x
%∆y = β1 %∆x
Wenn man x um eine Einheit erhöht, verändert sich y um β1
Einheiten.
b. Näherungsweise (wenn β1 < 0,25): Wenn man x um ein
Prozent erhöht, verändert sich y um β1/100 Einheiten.
c. Näherungsweise (wenn β1 < 0,25): Wenn man x um eine
Einheit erhöht, verändert sich y um 100β1 Prozent (SemiElastizität).
d. Wenn man x um ein Prozent erhöht, verändert sich y um β1
Prozent (Elastizität).
a.
Begründung der Näherungslösung
Prozentuale Veränderungen werden wie folgt gemessen :
x1 − x0
100 ⋅
= %∆x
x0
Wenn die absolute Veränderung ( x1 − x0 ) nicht zu groß ist :
x1 − x0
%∆x = 100 ⋅
≈ 100 ⋅ (ln x1 − ln x0 )
x0
Gliederung
1. Definition: Linearität und Additivität
2. Nicht-lineare Modelle
3. Nicht-additive Modelle
a. Interaktionseffekte mit kategorialen Variablen
b. Interaktionseffekte mit kontinuierlichen Variablen
4. Auswirkungen einer Fehlspezifikation
5. Tests auf Fehlspezifikation der
funktionalen Form
Interaktion mit einer kategorialen Variablen
Beispiel: Bildungsrenditen nach Geschlecht
income = 3,70 + 1,37 ⋅ educ − 0,46 ⋅ sex − 0,98 ⋅ iakt mit iakt = sex ⋅ educ
income : Stundenlohn, simulierte Daten, n = 40
Geschlechterunterschied (Niveau) : − 0,46
30
Bildungseffekt (Männer) : 1,37
Bildungseffekt (Frauen) : 1,37 − 0,98 = 0,39
income/Fitted values
15
20
25
Männer
5
10
Frauen
8
10
12
14
educ
16
18
Interaktion mit einer kontinuierlichen Variablen
Beispiel: Bildung und Berufserfahrung
wage = 271,9 + 35,1 ⋅ educ − 32,7 ⋅ exper + 3,9 ⋅ iakt
mit iakt = exper ⋅ educ
= 271,9 + 35,1 ⋅ educ + (−32,7 + 3,9 ⋅ educ) ⋅ exper
= 271,9 + (35,1 + 3,9 ⋅ exper ) ⋅ educ − 32,7 ⋅ exper
R 2 = 0,142, n = 935 (wage2.dta)
Effekt Education | Experience
0
40
10
60
Effect_Education
80
100
Effect_Experience
20
30
120
40
Effekt Experience | Education
8
10
12
14
Education
16
18
0
5
10
15
Experience
20
25
Zentrierung Ö einfachere Interpretation
deduc = educ − xeduc = educ − 13,46845
dexper = exper − xexper = exper − 11,56364
iakt = dexper ⋅ deduc
wage = 975,0 + 80,2 ⋅ deduc + 19,9 ⋅ dexper + 3,9 ⋅ iakt
= 975,0 + 80,2 ⋅ deduc + (19,9 + 3,9 ⋅ deduc) ⋅ dexper
= 975,0 + (80,2 + 3,9 ⋅ dexper ) ⋅ deduc + 19,9 ⋅ dexper
R 2 = 0,142, n = 935 (wage 2.dta)
975,0 := Lohn bei durchschnittlicher Ausbildung (deduc=0) und
durchschnittlicher Berufserfahrung (dexper=0)
80,2 := Lohnerhöhung bei ein Jahr längerer Ausbildung für Personen
ohne Berufserfahrung und durchschnittlicher Ausbildung.
Gliederung
1.
2.
3.
4.
5.
Definition: Linearität und Additivität
Nicht-lineare Modelle
Nicht-additive Modelle
Auswirkungen einer Fehlspezifikation
Tests auf Fehlspezifikation der
funktionalen Form
Verzerrung durch Unterspezifikation
income = β 0 + β1educ + β 2 sex + β 3 ⋅ sex ⋅ educ
• Wenn geschlechtsspezifische Bildungsrenditen
existieren, vernachlässigt folgendes Modell eine
wichtige Variable: income = β 0 + β1educ + β 2 sex
wage = β 0 + β1educ + β 2 exper + β 3 ⋅ exper ⋅ educ
• Wenn die Effekte von Ausbildung und
Berufserfahrung gegenseitig voneinander
abhängen, vernachlässigt folgendes Modell eine
wichtige Variable: wage = β 0 + β1educ + β 2 exper
Heteroskedastizität
5
-10
10
-5
r esidwrong
0
income/Fitted values
15
20
5
25
30
10
• Fehlspezifikation: Ignorierung der Geschlechterunterschiede in den Bildungsrenditen.
• Die Fehlerterme sind weiterhin im Mittel Null,
aber die Varianz der Fehlerterme steigt mit
zunehmender Bildung.
8
10
12
14
educ
16
18
8
10
12
14
educ
16
18
Gliederung
1.
2.
3.
4.
5.
Definition: Linearität und Additivität
Nicht-lineare Modelle
Nicht-additive Modelle
Auswirkungen einer Fehlspezifikation
Tests auf Fehlspezifikation der funktionalen
Form
a. Vergleich hierarchischer Modelle (F-Test, Regression
Specification Error Test von Ramsey, 1969)
b. Vergleich nicht hierarchischer Modelle (DavidsonMacKinnon Test)
Wiederholung: Hierarchische Modelle
• Zwei Modelle A und a sind hierarchisch (nested),
wenn die Parameter des Modells a eine
Teilmenge der Parameter des Modells A sind.
• Das (restringierte) Modell a ergibt sich aus dem
(nicht restringierten) Modell A, indem man für die
Parameter in A lineare Restriktionen formuliert.
(nicht restringiertes) Modell A : y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + u
Zwei Restriktionen :
β 2 = 0 und β 3 = 0
ergibt (restringiertes) Modell a : y = β 0 + β1 x1 + u
Wiederholung: Test linearer
Restriktionen mit einem F-Test
(nicht restringiertes) Modell A : y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + u
Zwei Restriktionen :
β 2 = 0 und β 3 = 0
ergibt (restringiertes) Modell a : y = β 0 + β1 x1 + u
H 0 : β 2 = 0 und β 3 = 0
F=
H1: H 0 trifft nicht zu
( SSRr − SSRur ) q
SSRur (n − k − 1)
q = Anzahl der Restriktionen
SSRr = Summe der quadrierten Residuen im restringierten Modell a
SSRur = Summe der quadrierten Residuen im nicht restringierten Modell A
k = Anzahl der Regressionskoeffizienten (ohne Konstante) in Modell A
n = Stichprobenumfang
Anwendung: Test auf Fehlspezifikation der funktionalen Form
1. Test auf Weglassung quadratischer, kubischer
usw. Terme der x-Variablen
2. Test auf Weglassung allgemeiner nichtlinearer Abhängigkeiten (Trick: Test auf
Weglassung quadratischer, kubischer usw.
Terme der Modellprognosen als x-Variablen)
¾ Regression Specification Error Test (RESET)
von Ramsey (1969)
Anwendung: Test auf Fehlspezifikation der funktionalen Form
1. Weglassung x-Variablen
y = β 0 + β1 x1 + β 2 x12 + β 3 x13 + β 4 x14
+ β 5 x2 + β 6 x22 + β 7 x23 + β 8 x24 + u
H 0 : β 2 = β3 = β 4 = β 6 = β 7 = β8 = 0
2. Weglassung Modellprognosen
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + u
Prognose : yˆ = βˆ0 + βˆ1 x1 + βˆ2 x2 + βˆ3 x3
Schritt 1 :
Schritt 2 :
y = δ 0 + δ 1 x1 + δ 2 x2 + δ 3 x3 + δ 4 yˆ 2 + δ 5 yˆ 3 + δ 6 yˆ 4 + v
H0 : δ4 = δ5 = δ6 = 0
Vergleich nicht hierarchischer
Modelle
• Nicht hierarchische Modelle: Modell B
ergibt sich nicht durch lineare
Parameterrestriktionen aus Modell A
• Modell A : y = β 0 + β1 x1 + β 2 x2 + u
Modell B : y = δ 0 + δ 1 ln x1 + δ 2 ln x2 + u
• Test von Davidson / MacKinnon (1981)
– weitere Einzelheiten bei WO (294-295)
Zum Schluss
Zusammenfassung
Linear-additive
Modelle
Alternativen
Folgen einer
Fehlspezifikation
Gegenmaßnahmen
Kontextunabhängigkeit
Nicht-lineare Funktionen
Interaktionseffekte
Verzerrungen
Heteroskedastizität
Theorie
Spezifikationstests
Wichtige Fachausdrücke
Deutsch
Englisch
Deutsch
Englisch
linear-additives
Modell
linear-additive
model
restringiertes
Modell
restricted model
nicht-lineares
Modell
non-linear
model
nicht
restringiertes
Modell
unrestricted
model
Interaktionseffekt
interaction effect
Restriktion
restriction
hierarchisches
Modell
nested model
Spezifikationstest
specification test
Weiterführende Literatur
• Berry / Feldman 1985
– Kapitel 5 (BF 51-72): Fehlspezifikation der funktionalen Form
gewidmet
• Wooldridge (2003)
– Anhang A.4 (WO 682-689): mathematische Grundlagen
quadratischer, logarithmischer und exponentieller Funktionen
– Abschnitt 6.2 (WO 187-196): Überblick über nicht-lineare
Funktionen und die Modellierung nicht-additiver Effekte mit
Interaktionen unabhängiger Variablen.
– Abschnitt 7.4 (WO 232-240): Interaktionseffekte mit kategorialen
Variablen (die Verwendung von Dummy-Variablen besprechen
wir ausführlich in der übernächsten Sitzung)
– Abschnitt 9.1 (WO 289-295): Tests auf Fehlspezifikation der
funktionalen Form
Stata-Befehle
Nach der Eingabe des Regressionskommandos reg kann man mit
weiteren Befehlen zusätzliche (Test-)Ergebnisse abrufen
predict yhat, xb
Berechnung der Regressionsprognosen und
Abspeicherung in einer neuen Variablen
ovtest
Test auf Fehlspezifikation der funktionalen
Form (RESET nach Ramsey) mithilfe von
Polynomen der Regressionsprognosen
ovtest, rhs
Test auf Fehlspezifikation der funktionalen
Form (RESET nach Ramsey) mithilfe von
Polynomen der x-Variablen
Herunterladen