Analyse von Querschnittsdaten Spezifikation der unabhängigen Variablen Warum geht es in den folgenden Sitzungen? Datum Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Vorlesung 18.10.2006 Einführung 18.10.2006 Beispiele 25.10.2006 Daten 08.11.2006 Variablen 15.11.2006 Bivariate Regression 22.11.2006 Kontrolle von Drittvariablen 29.11.2006 Multiple Regression 06.12.2006 Statistische Inferenz 13.12.2006 Signifikanztests I 20.12.2006 Signifikanztests II 10.01.2007 Spezifikation der unabhängigen Variablen 17.01.2007 Spezifikation der Regressionsfunktion 24.01.2007 Heteroskedastizität 31.01.2007 Regression mit Dummy-Variablen 07.02.2007 Logistische Regression Gliederung 1. Ist das Modell berechenbar? 2. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation? Gliederung 1. Ist das Modell berechenbar? a. Konstanten, zu viele Variablen, lineare Abhängigkeiten b. hoch korrelierende Variablen 2. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation? Annahmen Perfekte Korrelation unabhängiger Variablen Berechenbarkeit der OLS-Schätzer • Die unabhängige Variable muss Varianz aufweisen (darf keine Konstante sein). • Die unabhängige Variable darf keine Linearkombination der anderen unabhängigen Variablen sein. • Die Anzahl der Fälle muss größer als die Anzahl zu schätzender Parameter sein. Gliederung 1. Ist das Modell berechenbar? a. Konstanten, zu viele Variablen, lineare Abhängigkeiten b. hoch korrelierende Variablen (Multikollinearität) 2. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation? Multikollinearität erhöht Varianz der OLS-Schätzer! Var ( βˆ j ) = σ2 SST j (1 − R 2j ) n mit SST j = ∑ ( xij − x j ) 2 i =1 • Varianz ist unter anderem abhängig von: – Korrelation der jeweiligen unabhängigen Variablen mit allen anderen unabhängigen Variablen (R2j ist der Determinationskoeffizient der Regression von xj auf alle anderen unabhängigen Variablen) • Je größer R2j, desto größer die Varianz und dementsprechend der geschätzte Standardfehler ¾ weniger effiziente Schätzung, größere Konfidenzintervalle, weniger signifikante Tests Ausmaß der Varianzinflation VIF = Variance Inflation Factor Durch die Multikollinearität wird der Standardfehler um den Faktor √VIF erhöht. SST j × VIF 5 = σˆ 2 1 × = 2 (1 − R j ) SST j 4 SST j (1 − R ) 2 j σˆ 2 s qrtvif 3 se( βˆ j ) = σˆ 2 x2 x3 x4 1,00 0,50 0,12 0,17 1,00 0,14 1,00 0,22 -0,05 Quelle: Berry / Feldman (1985: Table 4.1) x5 1,00 √VIF R² 0,62 1,62 0,71 1,86 0,56 1,51 0,06 1,03 0,09 1,05 1 Income Prestige Education Attendance Size x1 1,00 0,62 0,54 0,07 0,08 2 Korrelationsmatrix (zufällig ausgewählte Stichprobe, n=50) 0 .2 .4 .6 x R² .8 1 Bei Simulation sichtbar? • Analyse der Lebenszufriedenheit • St. Regression: eine kleine Insel im Südpazifik mit 665 Einwohnern • Lebenszufriedenheit (Index 1-20) • Determinanten: Haushaltseinkommen, Berufsprestige, Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße – Haushaltseinkommen, Berufsprestige, Ausbildungsdauer korrelieren hoch untereinander – Kirchgangshäufigkeit und Ortsgröße korrelieren nur geringfügig miteinander und mit den anderen drei Determinanten Simulationsexperiment (St. Regression, Lebenszufriedenheit, gss1978.dta) Standardabweichung der geschätzten Regressionskoeffizienten in 1000 Replikationen income size income income size 0.25 0.25 0.25 0.20 0.20 0.20 0.15 0.15 0.15 0.10 0.10 0.10 0.05 0.05 0.05 0.00 0.00 50 300 St ichp r o b enumf ang 2 2 Rincome > Rsize s(u)=0,5090 alle x mit s=1 500 size 0.00 50 300 500 St ichp r o b enumf ang 50 300 500 St ichp r o b enumf ang u größere Streuung income größere Streuung s(u)=1,0000 alle x mit s=1 s(u)=0,5090 income mit s=2 sonstige x mit s=1 Multikollinearität erhöht auch die Korrelation der OLS-Schätzer • Sie sind zwar im Durchschnitt erwartungstreu, • aber im Einzelfall ist jedoch eine Überschätzung des einen Effektes eher mit einer Unterschätzung des anderen Effektes verbunden und umgekehrt (bei positiv korrelierten unabhängigen Variablen). • Negativ korrelierte x Ö positiv korrelierte Schätzer Korrelationsmatrix der Schätzer b1 b2 _b[income] b4 .5 b1 b2 b4 1.00 -0.62 0.04 _b[prestige] 0 1.00 -0.14 1.00 -.5 .6 .4 _b[attend] .2 0 -.5 0 .5-.5 0 .5 Gliederung 1. Ist das Modell berechenbar? 2. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation? Wie erkennt man Multikollinearität? • Alle Parametertests nicht signifikant (TTests), aber das Modell als Ganzes ist signifikant (F-Test) • Inspektion bivariater Korrelationen nicht sinnvoll • Verwende VIF- bzw. Toleranzwerte (Toleranz = 1/VIF) • Grenzwert schwierig festzulegen Gegenmaßnahmen • unnötig bei Prognosen • unnötig wenn der interessierende Effekt nicht betroffen • Nutzung von Vorwissen zur Vereinfachung des Regressionsmodells • Indexbildung • Entfernung einzelner Variablen • simultane Tests mehrerer OLS-Schätzer Gliederung 1. Ist das Modell berechenbar? 2. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation? Arten von Fehlspezifikation • Unterspezifikation: Vernachlässigung relevanter Variablen – Im Regressionsmodell fehlen unabhängige Variablen, die einen Einfluss auf die abhängige Variable haben. • Überspezifikation: Berücksichtigung irrelevanter Variablen – Das Regressionsmodell enthält unabhängige Variablen, die (in Wahrheit) gar keinen Einfluss auf die abhängige Variable haben. Unterspezifikation Grundgesamtheit y = β 0 + β1 x1 + β 2 x2 + u Modell 1 (korrekt) yˆ = βˆ0 + βˆ1 x1 + βˆ2 x2 Modell 2 (unterspezifiziert) Beispiel Grundgesamtheit Beispiel Modell 2 ~ ~ ~ y = β 0 + β1 x1 wage = f(educ, abil) wage = f(educ) Überspezifikation Grundgesamtheit y = β 0 + β1 x1 + u Modell 1 (korrekt) yˆ = βˆ0 + βˆ1 x1 Modell 2 (überspezifiziert) ~ ~ ~ ~ y = β 0 + β1 x1 + β 2 x2 Beispiel Grundgesamtheit satisfac = f(income) Beispiel Modell 2 satisfac = f(income, height) Gliederung 1. Ist das Modell berechenbar? 2. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation a. … auf die Erwartungstreue der Schätzung b. … auf die Effizienz der Schätzung c. Unterspezifikation am Beispiel einer Simulation 5. Was tun bei Fehlspezifikation? Annahmen Wenn die Fehlerterme u für jede Kombination der unabhängigen Variablen im Durchschnitt Null betragen, dann sind die OLS-Schätzer erwartungstreu (d.h., sie stimmen im Durchschnitt mit den entsprechenden Parametern der Grundgesamtheit überein). Überspezifikation (revisited) y = β 0 + β1 x1 + u Grundgesamtheit y = β0 + β1x1 + β2 x2 + u, β2 = 0 Modell 1 (korrekt) yˆ = βˆ0 + βˆ1 x1 ~ ~ ~ ~ Modell 2 (überspezifiziert) y = β 0 + β1 x1 + β 2 x2 Auswirkungen Überspezifikation • Wenn in der GG gilt: y = β0 + β1x1 + β2 x2 + u, β2 = 0 • und folgende Annahme gegeben ist: E (u | x1 , x2 ) = 0 • dann gilt für die OLS-Schätzer in Modell 2: ~ ~ E ( β1 ) = β1 E ( β 2 ) = β 2 = 0 ¾Überspezifikation unproblematisch Auswirkungen Unterspezifikation • Wenn in der GG gilt: y = β 0 + β1 x1 + β 2 x2 + u • aber folgendes Modell unterstellt wird: y = β 0 + β1 x1 + v • dann gilt für den Fehlerterm v: E (v | x1 ) ≠ 0, wenn Corr( x1 , x2 ) ≠ 0, da v = f ( x2 , u ) = β 2 x2 + u ¾ Unterspezifikation führt zu verzerrten Schätzungen Verzerrung im trivariaten Fall Grundgesamtheit y = β 0 + β1 x1 + β 2 x2 + u Modell (unterspezifiziert) ~ ~ ~ y = β 0 + β1 x1 ~ Erwartungswert des Effektes E ( β1 ) = wobei gilt: ~ β1 + β 2δ 1 ~ ~ ~ x2 = δ 0 + δ 1 x1 Verzerrung im trivariaten Fall Grundgesamtheit y = β 0 + β1 x1 + β 2 x2 + u Modell (unterspezifiziert) ~ ~ ~ y = β 0 + β1 x1 ~ Erwartungswert des Effektes E ( β1 ) = ~ wobei gilt: β1 + β 2δ 1 ~ ~ ~ x2 = δ 0 + δ 1 x1 Verzerrung abhängig von Effekt von x2 auf y Verzerrung im trivariaten Fall Grundgesamtheit y = β 0 + β1 x1 + β 2 x2 + u Modell (unterspezifiziert) ~ ~ ~ y = β 0 + β1 x1 ~ Erwartungswert des Effektes E ( β1 ) = wobei gilt: Verzerrung abhängig von ~ β1 + β 2δ 1 ~ ~ ~ x2 = δ 0 + δ 1 x1 Effekt von x2 auf y Korrelation von x1 und x2 Richtung der Verzerrung ~ ~ E ( β1 ) = β1 + β 2δ 1 Korrelation positiv Korrelation negativ Effekt positiv positiv negativ Effekt negativ negativ positiv Beispiel Arbeitseinkommen wage = β0 + β1educ + β2abil + u OLS mit wage1.dta: log(wage) = 0,584 + 0,083educ, n=526, R2=0,186 E ( β1 ) = β1 + β 2δ 1 Korrelation positiv Korrelation negativ Effekt positiv positiv negativ Effekt negativ negativ positiv ~ ~ Verzerrung im multivariaten Fall Grundgesamtheit y = β0 + β1x1 + β2 x2 + β3 x3 + β4 x4 + u Modell 1: Auslassung einer Variablen (x2) yˆ = βˆ0 + βˆ1x1 + βˆ3 x3 + βˆ4 x4 Modell 2: Auslassung mehrerer Variablen (x2 , x3) ~ ~ ~ ~ y = β0 + β1x1 + β4 x4 Verzerrung im multivariaten Fall • Generell: Ausmaß der Verzerrung lässt sich weniger gut abschätzen – Ausnahme: WO 93-95 • Grund: alle unabhängigen Variablen können jeweils miteinander korrelieren • Auslassung einer oder mehrerer relevanter Variablen führt in der Regel dazu, dass die Effekte aller im Modell berücksichtigten Variablen verzerrt sind • Die Verzerrung ist nur dann gering, wenn die vernachlässigten Variablen gering mit den im Modell befindlichen Variablen korrelieren Gliederung 1. Ist das Modell berechenbar? 2. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation a. … auf die Erwartungstreue der Schätzung b. … auf die Effizienz der Schätzung c. Unterspezifikation am Beispiel einer Simulation 5. Was tun bei Fehlspezifikation? Varianz der OLS-Schätzer Var ( βˆ j ) = σ2 SST j (1 − R 2j ) n mit SST j = ∑ ( xij − x j ) 2 i =1 • Varianz ist unter anderem abhängig von: – Korrelation der jeweiligen unabhängigen Variablen mit allen anderen unabhängigen Variablen (R2j ist der Determinationskoeffizient der Regression von xj auf alle anderen unabhängigen Variablen) Anwendung: Überspezifikation Grundgesamtheit y = β 0 + β1 x1 + u Modell 1 (korrekt) yˆ = βˆ0 + βˆ1 x1 Modell 2 (überspezifiziert) ~ ~ ~ ~ y = β 0 + β1 x1 + β 2 x2 Varianz Modell 1 (korrekt) Var ( βˆ1 ) = ~ Varianz Modell 2 (überspez.) Var ( β1 ) = σ2 SST1 σ2 SST1 (1 − R12 ) Auswirkungen Überspezifikation • unproblematisch in Bezug auf Erwartungstreue (s. Teil 2.a) ~ E ( β1 ) = β1 • erhöht aber die Standardfehler der im Modell berücksichtigten Variablen 2 2 σ σ ~ ˆ Var ( β1 ) = > Var ( β1 ) = 2 SST1 (1 − R1 ) SST1 Anwendung Unterspezifikation Grundgesamtheit y = β 0 + β1 x1 + β 2 x2 + u Modell 1 (korrekt) yˆ = βˆ0 + βˆ1 x1 + βˆ2 x2 Modell 2 (unterspezifiziert) ~ ~ ~ y = β 0 + β1 x1 Varianz Modell 1 (korrekt) Varianz Modell 2 (untersp.) Var ( βˆ1 ) = ~ Var ( β1 ) = σ2 SST1 (1 − R12 ) σ2 SST1 Auswirkungen Unterspezifikation • problematisch in Bezug auf Erwartungstreue (s. Teil 2.a) ~ ~ E ( β1 ) = β1 + β 2δ 1 • verringert die Standardfehler der im Modell berücksichtigten Variablen 2 2 σ σ ~ ˆ Var ( β1 ) = < Var ( β1 ) = SST1 SST1 (1 − R12 ) Unterspezifikation ist • … doppelt problematisch • Effekt wird verzerrt geschätzt • … und sieht auch noch signifikanter aus! Gliederung 1. Ist das Modell berechenbar? 2. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation a. … auf die Erwartungstreue der Schätzung b. … auf die Effizienz der Schätzung c. Unterspezifikation am Beispiel einer Simulation 5. Was tun bei Fehlspezifikation? Analyse der Lebenszufriedenheit • • • St. Regression: eine kleine Insel im Südpazifik mit 665 Einwohnern Lebenszufriedenheit (Index 1-20) Determinanten: Haushaltseinkommen, Berufsprestige, Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße – – Haushaltseinkommen, Berufsprestige, Ausbildungsdauer korrelieren hoch untereinander Kirchgangshäufigkeit und Ortsgröße korrelieren nur geringfügig miteinander und mit den anderen drei Determinanten ¾ Zwei unterspezifizierte Modelle ii. Haushaltseinkommen bleibt unberücksichtigt iii. Kirchgangshäufigkeit bleibt unberücksichtigt Simulationsergebnisse erhebliche Verzerrung max. 282% geringere Standardabweichung Simulation: 100 Replikationen mit n=50 (Quelle: Berry / Feldman 1985) (i) richtig spezifiziertes Modell (ii) (hoch korrelierendes) Haushaltseinkommen unberücksichtigt Simulationsergebnisse geringere Verzerrung max. 9% Standardabweichung kaum beeinflusst Simulation: 100 Replikationen mit n=50 (Quelle: Berry / Feldman 1985) (iii) (gering korrelierende) Kirchgangshäufigkeit unberücksichtigt Gliederung 1. Ist das Modell berechenbar? 2. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation? Diagnose und Gegenmaßnahmen • niedriger Determinationskoeffizient kein ausreichendes Indiz • nicht signifikante OLS-Schätzer kein ausreichendes Indiz • Gute Theorien! Zum Schluss Zusammenfassung Zu wenig Fälle, keine Varianz, perfekte Korrelation Hohe Korrelation Schätzer nicht berechenbar Hohe Standardfehler, hohe Korrelation der Schätzer Auslassung relevanter Verzerrte Schätzungen Variablen Berücksichtigung Hohe Standardfehler irrelevanter Variablen Wichtige Fachausdrücke Deutsch Fehlspezifikation Englisch Deutsch misspecification Multikollinearität Englisch multicollinearity Unterspezifikation underspecification Faktor der Varianzinflation variance inflation factor Überspezifikation overspecification Toleranz tolerance Verzerrung bias Korrelation der Schätzer correlation of estimates Weiterführende Literatur • Berry und Feldman (1985) – Kapitel 2: Fehlspezifikation der unabhängigen Variablen – Kapitel 4: Multikollinearität • Wooldridge (2003) – WO 84-95 und darin die Abschnitte über „Including irrelevant variables“ und „Omitted variable bias“ – WO 95-103 und darin die Abschnitte über „Multicollinearity“ und „Variances in misspecified models“ Stata-Befehle Nach der Eingabe des Regressionskommandos reg kann man mit weiteren Befehlen zusätzliche (Test-)Ergebnisse abrufen vif Ausgabe der Varianzinflationsfaktoren für jede unabhängige Variable