Analyse von Querschnittsdaten Spezifikation der Regressionsfunktion Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum Vorlesung 13.10.2004 Einführung 20.10.2004 Beispiele 27.10.2004 Daten 03.11.2004 Variablen 10.11.2004 Bivariate Regression 17.11.2004 Kontrolle von Drittvariablen 24.11.2004 Multiple Regression 01.12.2004 Statistische Inferenz 08.12.2004 Signifikanztests I 15.12.2004 Signifikanztests II 22.12.2004 Spezifikation der unabhängigen Variablen 12.01.2005 Spezifikation der Regressionsfunktion 19.01.2005 Heteroskedastizität 26.01.2005 Regression mit Dummy-Variablen 02.02.2005 Logistische Regression Gliederung 1. 2. 3. 4. 5. Definition: Linearität und Additivität Nicht-lineare Modelle Nicht-additive Modelle Auswirkungen einer Fehlspezifikation Tests auf Fehlspezifikation der funktionalen Form Gliederung 1. 2. 3. 4. 5. Definition: Linearität und Additivität Nicht-lineare Modelle Nicht-additive Modelle Auswirkungen einer Fehlspezifikation Tests auf Fehlspezifikation der funktionalen Form Linearität 15 y 10 5 0 0 1 2 3 4 5 4 5 x nicht-linear: y = √(x) 1.5 y 1 .5 0 ¾ Unabhängigkeit von der Größe von x 2 2.5 • Der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist. 20 linear: y = 2 + 3*x 0 1 2 3 x Additivität 15 y 10 5 0 0 1 2 3 4 5 x nicht-additiv: y = 2 + 0,5*x1 *x2 10 • Der Effekt der unabhängigen Variablen xi hängt nicht davon ab, welche Werte andere unabhängige Variablen xj haben. 20 additiv: y = 2 + 3*x1 – 1,5*x2 8 6 x2=2 4 y x2=1 2 ¾ Unabhängigkeit von anderen Variablen xj x2=3 0 1 2 3 x 4 5 Zusammenfassung Linear-additive Modelle implizieren kontextunabhängige Effekte! Effekte sind unabhängig – von der Größe der jeweiligen unabhängigen Variablen – von den Werten der anderen unabhängigen Variablen Gliederung 1. Definition: Linearität und Additivität 2. Nicht-lineare Modelle a. Einige Beispiele b. Transformation in ein lineares Regressionsmodell c. Interpretation der Regressionskoeffizienten ausgewählter nicht-linearer Modelle 3. Nicht-additive Modelle 4. Auswirkungen einer Fehlspezifikation 5. Tests auf Fehlspezifikation der funktionalen Form Polynomregression y = β 0 + β1 x1 + β 2 x12 + β 3 x13 + K + β m x1m + u 60 • erlaubt zunehmende, abnehmende und sich umkehrende Effekte von x 0 10 20 y 30 40 50 y = 30 − 9 x + 3 x 2 0 1 2 3 x 4 5 Exponentialmodell (Typ 1) y = β 0 ⋅ x1β1 ⋅ x2β 2 ⋅ u ⇔ ln y = ln β 0 + β1 ln x1 + β 2 ln x2 + ln u 60 • erlaubt zunehmende oder abnehmende Effekte • entspricht Modell mit Logarithmen • auch bei schiefer Verteilung, Heteroskedaszität 0 10 20 y 30 40 50 β1 > 1 β1 = 1 β1 < 1 0 .5 1 x 1.5 2 Exponentialmodell (Typ 2) y = exp( β 0 + β1 x1 + β 2 x2 + u ) ⇔ ln y = β 0 + β1 x1 + β 2 x2 + u 60 • erlaubt zunehmende oder abnehmende Effekte • entspricht semi-logarithmischem Modell • auch bei schiefer Verteilung, Heteroskedaszität 10 20 y 30 40 50 β1 > 0 0 β1 < 0 0 .5 1 x 1.5 2 Gliederung 1. Definition: Linearität und Additivität 2. Nicht-lineare Modelle a. Einige Beispiele b. Transformation in ein lineares Regressionsmodell c. Interpretation der Regressionskoeffizienten ausgewählter nicht-linearer Modelle 3. Nicht-additive Modelle 4. Auswirkungen einer Fehlspezifikation 5. Tests auf Fehlspezifikation der funktionalen Form Polynomregression Modell y = β 0 + β1 x1 + β 2 x12 + β 3 x13 + K + β m x1m + u Definiere z1 = x1 z 2 = x12 z3 = x13 z m = x1m OLS - Schätzung mit transformierten Variablen y = δ 0 + δ 1 z1 + δ 2 z 2 + δ 3 z3 + K + δ m z m + v Koeffizientenvergleich δ 0 = β 0 δ 1 = β1 δ 2 = β 2 δ 3 = β 3 δ m = β m Exponentialmodell (Typ 1) Modell y = β 0 ⋅ x1β1 ⋅ x2β 2 ⋅ u ⇔ ln y = ln β 0 + β1 ln x1 + β 2 ln x2 + ln u Definiere y * = ln y z1 = ln x1 z 2 = ln x2 OLS − Schätzung mit transformierten Variablen y * = δ 0 + δ 1 z1 + δ 2 z 2 + v Koeffizientenvergleich δ 0 = ln β 0 δ 1 = β1 δ 2 = β 2 Exponentialmodell (Typ 2) Modell y = exp( β 0 + β1 x1 + β 2 x2 + u ) ⇔ ln y = β 0 + β1 x1 + β 2 x2 + u Definiere y * = ln y OLS − Schätzung mit transformierten Variablen y * = δ 0 + δ 1 x1 + δ 2 x2 + v Koeffizientenvergleich δ 0 = β 0 δ 1 = β1 δ 2 = β 2 Nicht transformierbar y = β 0 ⋅ x1β1 + u ⇔ ln y = ln( β 0 ⋅ x1β1 + u ) wegen additivem Fehlerterm • Alle nicht-linearen Modelle, die sich nicht durch Variablentransformation in ein linear-additives Modell (mit additivem Fehlerterm) überführen lassen, können nicht mit OLS geschätzt werden. • Genauer: Alle nicht-linearen Modelle, bei denen die Optimierungsfunktion keine lineare Funktion der Regressionskoeffizienten ist, können nicht mit OLS geschätzt werden. Annahmen Alle Modelle, bei denen die Optimierungsfunktion eine lineare Funktion der Regressionskoeffizienten ist, können mit OLS geschätzt werden. Gliederung 1. Definition: Linearität und Additivität 2. Nicht-lineare Modelle a. Einige Beispiele b. Transformation in ein lineares Regressionsmodell c. Interpretation der Regressionskoeffizienten ausgewählter nicht-linearer Modelle 3. Nicht-additive Modelle 4. Auswirkungen einer Fehlspezifikation 5. Tests auf Fehlspezifikation der funktionalen Form Quadratische Terme y = β 0 + β1 x1 + β 2 x12 + u Effekt β1 + 2 β 2 x1 Minimum / Maximum − β1 2 β 2 60 Modell 50 1,5 = − (−9) 2 ⋅ 3 30 40 Beispiel : y = 30 − 9 x + 3 x 2 0 10 20 y y = −9 + 2 ⋅ 3 x 0 1 2 3 x 4 5 Logarithmierte Variablen Modell Abhängig Unabhängig Interpretation a y x ∆y = β1∆x b y log x ∆y = ( β1 / 100)%∆x c log y x %∆y = (100 β1 )∆x d log y log x %∆y = β1 %∆x Wenn man x um eine Einheit erhöht, verändert sich y um β1 Einheiten. b. Näherungsweise (wenn β1 < 0,25): Wenn man x um ein Prozent erhöht, verändert sich y um β1/100 Einheiten. c. Näherungsweise (wenn β1 < 0,25): Wenn man x um eine Einheit erhöht, verändert sich y um 100β1 Prozent (SemiElastizität). d. Wenn man x um ein Prozent erhöht, verändert sich y um β1 Prozent (Elastizität). a. Begründung der Näherungslösung Prozentuale Veränderungen werden wie folgt gemessen : x1 − x0 100 ⋅ = %∆x x0 Wenn die absolute Veränderung ( x1 − x0 ) nicht zu groß ist : x1 − x0 %∆x = 100 ⋅ ≈ 100 ⋅ (ln x1 − ln x0 ) x0 Gliederung 1. Definition: Linearität und Additivität 2. Nicht-lineare Modelle 3. Nicht-additive Modelle a. Interaktionseffekte mit kategorialen Variablen b. Interaktionseffekte mit kontinuierlichen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Tests auf Fehlspezifikation der funktionalen Form Interaktion mit einer kategorialen Variablen Beispiel: Bildungsrenditen nach Geschlecht income = 3,70 + 1,37 ⋅ educ − 0,46 ⋅ sex − 0,98 ⋅ iakt mit iakt = sex ⋅ educ income : Stundenlohn, simulierte Daten, n = 40 Geschlechterunterschied (Niveau) : − 0,46 30 Bildungseffekt (Männer) : 1,37 Bildungseffekt (Frauen) : 1,37 − 0,98 = 0,39 income/Fitted values 15 20 25 Männer 5 10 Frauen 8 10 12 14 educ 16 18 Interaktion mit einer kontinuierlichen Variablen Beispiel: Bildung und Berufserfahrung wage = 271,9 + 35,1 ⋅ educ − 32,7 ⋅ exper + 3,9 ⋅ iakt mit iakt = exper ⋅ educ = 271,9 + 35,1 ⋅ educ + (−32,7 + 3,9 ⋅ educ) ⋅ exper = 271,9 + (35,1 + 3,9 ⋅ exper ) ⋅ educ − 32,7 ⋅ exper R 2 = 0,142, n = 935 (wage2.dta) Effekt Education | Experience 0 40 10 60 Effect_Education 80 100 Effect_Experience 20 30 120 40 Effekt Experience | Education 8 10 12 14 Education 16 18 0 5 10 15 Experience 20 25 Zentrierung Ö einfachere Interpretation deduc = educ − xeduc = educ − 13,46845 dexper = exper − xexper = exper − 11,56364 iakt = dexper ⋅ deduc wage = 975,0 + 80,2 ⋅ deduc + 19,9 ⋅ dexper + 3,9 ⋅ iakt = 975,0 + 80,2 ⋅ deduc + (19,9 + 3,9 ⋅ deduc) ⋅ dexper = 975,0 + (80,2 + 3,9 ⋅ dexper ) ⋅ deduc + 19,9 ⋅ dexper R 2 = 0,142, n = 935 (wage 2.dta) 975,0 := Lohn bei durchschnittlicher Ausbildung (deduc=0) und durchschnittlicher Berufserfahrung (dexper=0) 80,2 := Lohnerhöhung bei ein Jahr längerer Ausbildung für Personen ohne Berufserfahrung und durchschnittlicher Ausbildung. Gliederung 1. 2. 3. 4. 5. Definition: Linearität und Additivität Nicht-lineare Modelle Nicht-additive Modelle Auswirkungen einer Fehlspezifikation Tests auf Fehlspezifikation der funktionalen Form Verzerrung durch Unterspezifikation income = β 0 + β1educ + β 2 sex + β 3 ⋅ sex ⋅ educ • Wenn geschlechtsspezifische Bildungsrenditen existieren, vernachlässigt folgendes Modell eine wichtige Variable: income = β 0 + β1educ + β 2 sex wage = β 0 + β1educ + β 2 exper + β 3 ⋅ exper ⋅ educ • Wenn die Effekte von Ausbildung und Berufserfahrung gegenseitig voneinander abhängen, vernachlässigt folgendes Modell eine wichtige Variable: wage = β 0 + β1educ + β 2 exper Heteroskedastizität 5 -10 10 -5 r esidwrong 0 income/Fitted values 15 20 5 25 30 10 • Fehlspezifikation: Ignorierung der Geschlechterunterschiede in den Bildungsrenditen. • Die Fehlerterme sind weiterhin im Mittel Null, aber die Varianz der Fehlerterme steigt mit zunehmender Bildung. 8 10 12 14 educ 16 18 8 10 12 14 educ 16 18 Gliederung 1. 2. 3. 4. 5. Definition: Linearität und Additivität Nicht-lineare Modelle Nicht-additive Modelle Auswirkungen einer Fehlspezifikation Tests auf Fehlspezifikation der funktionalen Form a. Vergleich hierarchischer Modelle (F-Test, Regression Specification Error Test von Ramsey, 1969) b. Vergleich nicht hierarchischer Modelle (DavidsonMacKinnon Test) Wiederholung: Hierarchische Modelle • Zwei Modelle A und a sind hierarchisch (nested), wenn die Parameter des Modells a eine Teilmenge der Parameter des Modells A sind. • Das (restringierte) Modell a ergibt sich aus dem (nicht restringierten) Modell A, indem man für die Parameter in A lineare Restriktionen formuliert. (nicht restringiertes) Modell A : y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + u Zwei Restriktionen : β 2 = 0 und β 3 = 0 ergibt (restringiertes) Modell a : y = β 0 + β1 x1 + u Wiederholung: Test linearer Restriktionen mit einem F-Test (nicht restringiertes) Modell A : y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + u Zwei Restriktionen : β 2 = 0 und β 3 = 0 ergibt (restringiertes) Modell a : y = β 0 + β1 x1 + u H 0 : β 2 = 0 und β 3 = 0 F= H1: H 0 trifft nicht zu ( SSRr − SSRur ) q SSRur (n − k − 1) q = Anzahl der Restriktionen SSRr = Summe der quadrierten Residuen im restringierten Modell a SSRur = Summe der quadrierten Residuen im nicht restringierten Modell A k = Anzahl der Regressionskoeffizienten (ohne Konstante) in Modell A n = Stichprobenumfang Anwendung: Test auf Fehlspezifikation der funktionalen Form 1. Test auf Weglassung quadratischer, kubischer usw. Terme der x-Variablen 2. Test auf Weglassung allgemeiner nichtlinearer Abhängigkeiten (Trick: Test auf Weglassung quadratischer, kubischer usw. Terme der Modellprognosen als x-Variablen) ¾ Regression Specification Error Test (RESET) von Ramsey (1969) Anwendung: Test auf Fehlspezifikation der funktionalen Form 1. Weglassung x-Variablen y = β 0 + β1 x1 + β 2 x12 + β 3 x13 + β 4 x14 + β 5 x2 + β 6 x22 + β 7 x23 + β 8 x24 + u H 0 : β 2 = β3 = β 4 = β 6 = β 7 = β8 = 0 2. Weglassung Modellprognosen y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + u Prognose : yˆ = βˆ0 + βˆ1 x1 + βˆ2 x2 + βˆ3 x3 Schritt 1 : Schritt 2 : y = δ 0 + δ 1 x1 + δ 2 x2 + δ 3 x3 + δ 4 yˆ 2 + δ 5 yˆ 3 + δ 6 yˆ 4 + v H0 : δ4 = δ5 = δ6 = 0 Vergleich nicht hierarchischer Modelle • Nicht hierarchische Modelle: Modell B ergibt sich nicht durch lineare Parameterrestriktionen aus Modell A • Modell A : y = β 0 + β1 x1 + β 2 x2 + u Modell B : y = δ 0 + δ 1 ln x1 + δ 2 ln x2 + u • Test von Davidson / MacKinnon (1981) – weitere Einzelheiten bei WO (294-295) Zum Schluss Zusammenfassung Linear-additive Modelle Alternativen Folgen einer Fehlspezifikation Gegenmaßnahmen Kontextunabhängigkeit Nicht-lineare Funktionen Interaktionseffekte Verzerrungen Heteroskedastizität Theorie Spezifikationstests Wichtige Fachausdrücke Deutsch Englisch Deutsch Englisch linear-additives Modell linear-additive model restringiertes Modell restricted model nicht-lineares Modell non-linear model nicht restringiertes Modell unrestricted model Interaktionseffekt interaction effect Restriktion restriction hierarchisches Modell nested model Spezifikationstest specification test Weiterführende Literatur • Berry / Feldman 1985 – Kapitel 5 (BF 51-72): Fehlspezifikation der funktionalen Form gewidmet • Wooldridge (2003) – Anhang A.4 (WO 682-689): mathematische Grundlagen quadratischer, logarithmischer und exponentieller Funktionen – Abschnitt 6.2 (WO 187-196): Überblick über nicht-lineare Funktionen und die Modellierung nicht-additiver Effekte mit Interaktionen unabhängiger Variablen. – Abschnitt 7.4 (WO 232-240): Interaktionseffekte mit kategorialen Variablen (die Verwendung von Dummy-Variablen besprechen wir ausführlich in der übernächsten Sitzung) – Abschnitt 9.1 (WO 289-295): Tests auf Fehlspezifikation der funktionalen Form Stata-Befehle Nach der Eingabe des Regressionskommandos reg kann man mit weiteren Befehlen zusätzliche (Test-)Ergebnisse abrufen predict yhat, xb Berechnung der Regressionsprognosen und Abspeicherung in einer neuen Variablen ovtest Test auf Fehlspezifikation der funktionalen Form (RESET nach Ramsey) mithilfe von Polynomen der Regressionsprognosen ovtest, rhs Test auf Fehlspezifikation der funktionalen Form (RESET nach Ramsey) mithilfe von Polynomen der x-Variablen