Analyse von Querschnittsdaten Multiple Regression Warum geht es in den folgenden Sitzungen? Datum Kontinuierliche Variablen Deskriptive Modelle kategoriale Variablen Vorlesung 18.10.2006 Einführung 18.10.2006 Beispiele 25.10.2006 Daten 08.11.2006 Variablen 15.11.2006 Bivariate Regression 22.11.2006 Kontrolle von Drittvariablen 29.11.2006 Multiple Regression 06.12.2006 Statistische Inferenz 13.12.2006 Signifikanztests I 20.12.2006 Signifikanztests II 10.01.2007 Spezifikation der unabhängigen Variablen 17.01.2007 Spezifikation der Regressionsfunktion 24.01.2007 Heteroskedastizität 31.01.2007 Regression mit Dummy-Variablen 07.02.2007 Logistische Regression Gliederung 1. Multiple Regression 2. Vergleich des Einflusses verschiedener Variablen 3. Vergleiche zwischen verschiedenen Regressionsmodellen 4. Ergebnispräsentation Multiple Regression yi = β 0 + β1 xi1 + β 2 xi 2 + K + β k xik + r eine abhängige Variable yi k unabhängige Variablen xi1 , xi 2 , K , xik k + 1 Regressionskoeffizienten β 0 , β1 , β 2 , K , β k Analyseziel 1. Hypothesentest Bestimme den Einfluss jeder unabhängigen Variablen xj (j=1, ...k) unter Kontrolle (Konstanthaltung) aller anderen unabhängigen Variablen. 2. Modellfit Bestimme den Anteil erklärter Varianz der abhängigen Variablen y. Kleinste-Quadrate Methode n Allgemein : minimiere SSR = ∑ ( yi − yˆ i ) 2 i =1 n Setze ein : SSR = ∑ ( yi − βˆ0 ⋅1 − βˆ1 xi1 − K − βˆk xik ) 2 i =1 Bilde partielle Ableitungen : n ∑ 1⋅ ( yi − βˆ0 ⋅1 − βˆ1 xi1 − L − βˆk xik ) = 0 i =1 n ∑x i1 i =1 M n ∑x i =1 ⋅ ( yi − βˆ0 ⋅1 − βˆ1 xi1 − L − βˆk xik ) = 0 ik =0 ⋅ ( yi − βˆ0 ⋅1 − βˆ1 xi1 − L − βˆk xik ) = 0 Die sogenannten Normalgleichungen bilden ein Gleichungssystem mit (k+1) Unbekannten: βˆ0 , βˆ1 , K , βˆk Analytische Lösung ... kann man sehr einfach mit Matrizen hinschreiben Normalgleichungen: X′y − ( X′X)βˆ = 0 Lösung: ⎡ βˆ0 ⎤ ⎢ˆ ⎥ ˆβ = ⎢ β1 ⎥ ⎢M ⎥ ⎢ ⎥ ⎢⎣ βˆk ⎥⎦ ⎡1 ⎢1 X=⎢ ⎢M ⎢ ⎣1 βˆ = ( X′X) -1 X′y x11 x21 M xn1 L L L L x1k ⎤ x2 k ⎥⎥ M ⎥ ⎥ xnk ⎦ ⎡ y1 ⎤ ⎢y ⎥ y = ⎢ 2⎥ ⎢M⎥ ⎢ ⎥ ⎣ yn ⎦ Adjustiertes R-Quadrat SSR R = 1− SST 2 SSR R 2 = 1 − n − k −1 SST n −1 • Mit jeder zusätzlichen unabhängigen Variablen steigt RQuadrat, die Komplexität des Modells wird nicht berücksichtigt. • Das adjustierte R-Quadrat berücksichtigt dagegen, durch wie viele unabhängige Variablen der erklärte Varianzanteil bei gegebenem Stichprobenumfang „erkauft“ wurde. • Aber: Adjustiertes R-Quadrat kann nicht als Anteil erklärter Varianz interpretiert werden. Beispiel 1: Erwerbseinkommen • Hypothesen – Unabhängig von ihrer Berufserfahrung erzielen Arbeitnehmer mit höherer Ausbildung höhere Erwerbseinkommen: βeduc>0. – Unabhängig von ihrer Ausbildung erzielen Arbeitnehmer mit längerer Berufserfahrung höhere Erwerbseinkommen. • Berufserfahrung wird gemessen über die Dauer der Erwerbstätigkeit insgesamt (βexper>0) und die Dauer der Beschäftigung beim jetzigen Arbeitgeber (βtenure>0). • Begründung: Humankapitaltheorie Beispiel 1: Ergebnispräsentation waˆge = −2,87 + 0,60 ⋅ educ + 0,02 ⋅ exper + 0,17 ⋅ tenure R 2 = 0,306, n = 526 (wage1.dta) • Es wurden die Stundenlöhne von 526 USamerikanischen Arbeitnehmern aus dem Jahr 1976 untersucht (Quelle: Current Population Survey). • Alle drei Hypothesen konnten bestätigt werden. • Insgesamt erklären die drei Variablen Ausbildungsdauer, Berufserfahrung und Dauer der Betriebszugehörigkeit 30,6% der Varianz der Stundenlöhne. • Im Einzelnen zeigte sich: Mit jedem zusätzlichen Ausbildungsjahr steigt der Stundenlohn (ceteris paribus) um 0,60 Dollar, mit jedem Berufsjahr um 0,02 Dollar und mit jedem Jahr der Betriebszugehörigkeit um 0,17 Dollar. Beispiel 1: offene Fragen • Welche der drei untersuchten Variablen hat den größten Einfluss? Örelative Größenordnung der Effekte • Variieren die Löhne nicht auch nach Branchen und Regionen? ÖVergleich verschiedener Regressionsmodelle Gliederung 1. Multiple Regression 2. Vergleich des Einflusses verschiedener Variablen a. b. c. d. Was ist das Problem? Standardisierte Regressionskoeffizienten Rückblick: Regression und Korrelation Konditionale Effekt-Plots 3. Vergleiche zwischen verschiedenen Regressionsmodellen 4. Ergebnispräsentation Regressionskoeffizienten sind abhängig von den Maßeinheiten Stundenlöhne in Dollar, Ausbildung usw. in Jahren waˆge = −2,87 + 0,60 ⋅ educ + 0,02 ⋅ exper + 0,17 ⋅ tenure R 2 = 0,306, n = 526 (wage1.dta) Stundenlöhne in Cent, Ausbildung usw. in Jahren cwaˆge = −287,27 + 59,90 ⋅ educ + 2,23 ⋅ exper + 16,93 ⋅ tenure R 2 = 0,306, n = 526 (wage1.dta) Stundenlöhne in Dollar, Ausbildung usw. in Monaten waˆge = −2,87 + 0,05 ⋅ meduc + 0,002 ⋅ mexper + 0,01 ⋅ mtenure R 2 = 0,306, n = 526 (wage1.dta) Determinationskoeffizient bleibt jedoch gleich! Unabhängige Variablen mit unterschiedlichen Maßeinheiten waˆge = −2,87 + 0,60 ⋅ educ + 0,02 ⋅ exper + 0,17 ⋅ tenure R 2 = 0,306, n = 526 (wage1.dta) Die Effekte von educ, exper und tenure sind im Prinzip vergleichbar, weil eine Veränderung von xj um 1 Einheit hier immer das Gleiche bedeutet (1 Jahr). priˆce = 19315 + 128,43 ⋅ sqrft + 15198,19 ⋅ bdrms R 2 = 0,632, n = 88 (hprice1.dta) Wie sollen die Effekte verglichen werden, wenn eine Veränderung um 1 Einheit im einen Fall (sqrft) ein Quadratmeter und im anderen Fall (bdrms) ein Raum bedeutet? Gliederung 1. Multiple Regression 2. Vergleich des Einflusses verschiedener Variablen a. b. c. d. Was ist das Problem? Standardisierte Regressionskoeffizienten Rückblick: Regression und Korrelation Konditionale Effekt-Plots 3. Vergleiche zwischen verschiedenen Regressionsmodellen 4. Ergebnispräsentation Exkurs: z-Transformation Durch Standardisierung ergibt sich eine neue Variable mit arithmetischen Mittel 0 und Standardabweichung 1. x−x zx = sx . sum price Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------price | 88 293.546 102.7134 111 725 . generate zprice=(price-293.546) / 102.7134 . sum zprice Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------zprice | 88 3.34e-07 1 -1.777236 4.200562 Vergleichbarkeit durch Standardisierung aller Variablen Unstandardisierte Regressionskoeffizienten priˆce = 19315 + 128,43 ⋅ sqrft + 15198,19 ⋅ bdrms R 2 = 0,632, n = 88 (hprice1.dta) Standardisierte Regressionskoeffizienten (Beta - Koeffzienten) zpriˆce = 0 + 0,7217 ⋅ zsqrft + 0,1245 ⋅ zbdrms R 2 = 0,632, n = 88 (hprice1.dta) Wenn man die Wohnfläche (gemessen in Quadratmetern) um eine Standardabweichung erhöht, erhöht sich der Preis des Hauses (gemessen in Dollar) um 0,7217 Standardabweichungen. Da 0,7217 größer ist als 0,1245, geht man davon aus, dass der Preis mehr mit der Wohnfläche als mit der Anzahl der Schlafräume variiert. z-Transformation notwendig? Nein, standardisierte sind direkt aus unstandardisierten Koeffizienten berechenbar! bˆ j = βˆ j sx j sy 0,7217 ≈ 0.1284 ⋅ 577,19 102,71 . reg price sqrft bdrms, beta Source | SS df MS -------------+-----------------------------Model | 580009.152 2 290004.576 Residual | 337845.354 85 3974.65122 -------------+-----------------------------Total | 917854.506 87 10550.0518 Number of obs F( 2, 85) Prob > F R-squared Adj R-squared Root MSE = = = = = = 88 72.96 0.0000 0.6319 0.6233 63.045 -----------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| Beta -------------+---------------------------------------------------------------sqrft | .1284362 .0138245 9.29 0.000 .721739 bdrms | 15.19819 9.483517 1.60 0.113 .1244983 _cons | -19.315 31.04662 -0.62 0.536 . ------------------------------------------------------------------------------ Gliederung 1. Multiple Regression 2. Vergleich des Einflusses verschiedener Variablen a. b. c. d. Was ist das Problem? Standardisierte Regressionskoeffizienten Rückblick: Regression und Korrelation Konditionale Effekt-Plots 3. Vergleiche zwischen verschiedenen Regressionsmodellen 4. Ergebnispräsentation Rückblick I: Korrelation und Regression trivariat R y2. x1x2 = R 2 y . x1 x2 zum Vergleich : bivariat ryx2 1 + ryx2 2 − 2ryx1 ryx2 rx1x2 1 − rx21x2 ⎛ ⎛ s x1 ⎞ s x2 ˆ ˆ = ryx1 ⎜ β1 ⋅ ⎟ + ryx2 ⎜ β 2 ⋅ ⎜ ⎟ ⎜ s sy y ⎝ ⎠ ⎝ R y2. x1 = ryx2 1 ⎞ ⎟ ⎟ ⎠ R 2 y . x1 ⎛ ~ s x1 ⎞ = ryx1 ⎜ β1 ⋅ ⎟ ⎜ ⎟ s y ⎝ ⎠ Standardisierter Regressionskoeffizient Der Determinationskoeffizient des trivariaten (allgemein: des multiplen) Regressionsmodells ist eine gewichtete Summe der Korrelationen, die jeweils mit den standardisierten Regressionskoeffizienten gewichtet werden. Rückblick II: Korrelation und Regression trivariat R y2. x1x2 = R 2 y . x1 x2 zum Vergleich : bivariat ryx2 1 + ryx2 2 − 2ryx1 ryx2 rx1x2 1 − rx21x2 ⎛ ⎛ s x1 ⎞ s x2 ˆ ˆ = ryx1 ⎜ β1 ⋅ ⎟ + ryx2 ⎜ β 2 ⋅ ⎜ ⎟ ⎜ s sy y ⎝ ⎠ ⎝ R y2. x1 = ryx1 ⋅ ryx1 ⎞ ⎟ ⎟ ⎠ R 2 y . x1 ⎛ ~ s x1 ⎞ = ryx1 ⎜ β1 ⋅ ⎟ ⎜ ⎟ s y ⎝ ⎠ Standardisierter Regressionskoeffizient Im bivariaten Regressionsmodell ist der standardisierte Regressionskoeffizient gleich dem Korrelationskoeffizienten. Gliederung 1. Multiple Regression 2. Vergleich des Einflusses verschiedener Variablen a. b. c. d. Was ist das Problem? Standardisierte Regressionskoeffizienten Rückblick: Regression und Korrelation Konditionale Effekt-Plots 3. Vergleiche zwischen verschiedenen Regressionsmodellen 4. Ergebnispräsentation Beispiel 2: Lebenszufriedenheit • General Social Survey 1978: Zufallsstichprobe der USBevölkerung über 18 Jahre • Lebenszufriedenheit (Index 1-20) • Determinanten: Haushaltseinkommen, Berufsprestige, Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße • n=665 analysierbare Fälle • Regressionsgleichung (standardisierte Koeffizienten in Klammern): yˆ = 10,51 + 0,065 x1 + 0,011x2 + 0,116 x3 + 0,265 x4 − 0,056 x5 (0,107) (0,018) (0,190) (0,435) (−0,092) Konditionaler Effekt-Plot 10.7 • gen b_prognose=_b[_cons] + _b[income]*income + _b[prestige]*0 + _b[educ]*0 + _b[attend]*0 + _b[size]*0 • graph twoway line b_prognose income b _prognose 10.5 10.6 Bedingte Prognose der Zufriedenheit in Abhängigkeit vom Einkommen Bedingung: prestige=0, educ=0, attend=0, size=0 10.3 10.4 Jeder andere Wert möglich. Man verwendet häufig die arithmetischen Mittel. -4 -2 0 income 2 4 Vergleich relativer Einflußstärken 10.6 b2_prognose 10.5 10.4 Je nach Einkommen schwanken die prognostizierten Zufriedenheiten zwischen 10,3 und 10,7 Skalenpunkten, je nach Berufsprestige dagegen nur zwischen 10,47 und 10,55 Skalenpunkten. 10.3 10.6 10.6 b _prognose b_prognose 10.5 10.5 10.4 10.4 10.7 10.7 10.7 … bedingter Effekt-Plot für Einkommenseffekt graph copy income … bedingter Effekt-Plot für Prestigeeffekt graph copy prestige graph combine income prestige, ycommon cols(2) scale(1.25) 10.3 10.3 • • • • • -4 -4 -2 0 -2 income 2 4 0 income -4 -2 0 2 prestig e 2 4 4 Der Einfluss des Einkommens ist also größer als der des Berufsprestiges. Gliederung 1. Multiple Regression 2. Vergleich des Einflusses verschiedener Variablen 3. Vergleiche zwischen verschiedenen Regressionsmodellen a. eine Stichprobe b. mehrere Stichproben 4. Ergebnispräsentation Beispiel 1 erweitert Variable Osten Nord Süden Westen Schwerindustrie Bauindustrie Leichtindustrie Verkehr & Kommunikation Handel Dienstleistungen Freie Berufe Ausbildung Berufserfahrung Betriebszugehörigkeit Konstante R² adj. R² n Modell 1 Ref. -0.6810 -0.9359 0.2547 Ref. -1.1657 -0.3283 -0.3694 -2.3305 -2.8955 -0.7546 7.6193 9.4% 7.8% 526 Modell 2 Ref. -0.6782 -0.4561 0.4079 Ref. -0.5180 -1.0687 -1.6599 -2.0695 -2.5395 -1.3694 0.6105 0.0243 0.1501 -1.2677 36.1% 34.7% 526 Modell 3 Ref. -0.7886 -0.6592 0.2485 Ref. -0.6201 -0.9292 -1.4622 -2.3866 -2.9910 -1.7172 0.6497 0.0657 -1.3658 30.1% 28.6% 526 Modell 4 Ref. -0.6332 -0.4039 0.4414 Ref. -0.6500 -1.0624 -1.7427 -2.1090 -2.4951 -1.3368 0.5773 0.1722 -0.5783 35.6% 34.2% 526 Modell 5 Ref. -0.5974 -0.7310 0.4270 Ref. -0.8044 -0.5389 -0.5196 -1.8152 -2.3257 -0.3157 -0.0192 0.1777 6.6113 18.9% 17.2% 526 Exkurs: Hierarchische Modelle • Zwei Modelle A und a sind hierarchisch (nested), wenn die Parameter des Modells a eine Teilmenge der Parameter des Modells A sind. • Das (restringierte) Modell a ergibt sich aus dem (nicht restringierten) Modell A, indem man für die Parameter in A lineare Restriktionen formuliert. (nicht restringiertes) Modell A : y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + r β 2 = 0 und β 3 = 0 ergibt (restringiertes) Modell a : y = β 0 + β1 x1 + r Zwei Restriktionen : Schrittweise Modellüberprüfung 1. Gruppen von erklärenden Variablen Häufig unterscheiden sich die erklärenden Variablen in solche, die „nur“ kontrolliert werden, die von zentraler Bedeutung sind und die eventuell ergänzend berücksichtigt werden sollen. 2. Überprüfung der Stabilität der Schätzer Bleiben die Effekte der zentralen erklärenden Variablen bei verschiedenen Modellspezifikationen stabil? 3. Bestimmung der relativen Einflussstärke Da der Erklärungszuwachs von der Eingabereihenfolge abhängt, fragt man häufig umgekehrt: Wie verschlechtert sich der Modellfit, wenn man die interessierende Variable aus dem Endmodell weglässt. Gliederung 1. Multiple Regression 2. Vergleich des Einflusses verschiedener Variablen 3. Vergleiche zwischen verschiedenen Regressionsmodellen a. eine Stichprobe b. mehrere Stichproben 4. Ergebnispräsentation Beispiel 3: Erwerbseinkommen 1980 und 1976 Variable Ausbildung Berufserfahrung Betriebszugehörigkeit Konstante R² adj. R² n Datensatz • • • • 1980 1976 Regressionskoeffizienten Regressionskoeffizienten unstand. stand. unstand. stand. 1.5397 0.3424 0.5990 0.4491 0.3306 0.1464 0.0223 0.0821 0.2182 0.1121 0.1693 0.3311 -3.8180 0.0000 -2.8727 0.0000 11.1% 30.6% 10.8% 30.2% 935 526 wage2.dta wage1.dta 1980: 935 männliche Beschäftigte aus den USA 1976: 526 männl. und weibl. Beschäftigte aus den USA Vergleich eines Effektes zwischen Stichproben Vergleich mehrerer Effekte innerhalb einer Stichprobe Vergleich des Einflusses einer Variablen zwischen den Stichproben Variable Ausbildung Berufserfahrung Betriebszugehörigkeit Konstante R² adj. R² n Datensatz • • • 1980 1976 Regressionskoeffizienten Regressionskoeffizienten unstand. stand. unstand. stand. 1.5397 0.3424 0.5990 0.4491 0.3306 0.1464 0.0223 0.0821 0.2182 0.1121 0.1693 0.3311 -3.8180 0.0000 -2.8727 0.0000 11.1% 30.6% 10.8% 30.2% 935 526 wage2.dta wage1.dta Standardisierung unnötig, da gleiche Maßeinheiten (ein- und dieselbe Variable). Standardisierung sogar schädlich, da z-Transformation stichprobenspezifische Informationen verwendet. Benutze unstandardisierte Regressionskoeffizienten! Vergleich des Einflusses mehrerer Variablen innerhalb der Stichproben Variable Ausbildung Berufserfahrung Betriebszugehörigkeit Konstante R² adj. R² n Datensatz • • • 1980 1976 Regressionskoeffizienten Regressionskoeffizienten unstand. stand. unstand. stand. 1.5397 0.3424 0.5990 0.4491 0.3306 0.1464 0.0223 0.0821 0.2182 0.1121 0.1693 0.3311 -3.8180 0.0000 -2.8727 0.0000 11.1% 30.6% 10.8% 30.2% 935 526 wage2.dta wage1.dta Standardisierung notwendig, wenn die Variablen in unterschiedlichen Maßeinheiten gemessen sind. Die Verwendung stichprobenspezifischer Informationen bei der zTransformation ist unschädlich, da Vergleich innerhalb der Stichprobe. Benutze standardisierte Regressionskoeffizienten! Gliederung 1. Multiple Regression 2. Vergleich des Einflusses verschiedener Variablen 3. Vergleiche zwischen verschiedenen Regressionsmodellen 4. Ergebnispräsentation Ergebnispräsentation • Hinweise zur Durchführung eines eigenen Forschungsprojektes finden sich in Kapitel 19 von Wooldridge (2003). Darin insbesondere: – Allgemein: Writing an empirical paper (Abschnitt 19.5, WO 657-665) – Tabellen: Style hints (WO 663-665, kopiert) Zum Schluss Literatur • Wooldridge, J. (2003): Introductory econometrics: a modern approach. South Western College Publishing. – Kapitel 3 diskutiert sowohl das trivariate als auch das allgemeine multiple Regressionsmodell. Lesen Sie nur die Passagen (WO 68-84), die sich auf den deskriptiven Teil der Regressionsanalyse beziehen. – Standardisierte Regressionskoeffizienten werden in Kapitel 6 erläutert (WO 182-187). – Ebenso das adjustierte R-Quadrat (WO 196-200). Zusammenfassung Multiple Regression • überprüft Hypothesen über Effekte von Variablen • Erklärung der Varianz der Zielvariablen Vergleich der • einfach bei gleichen Maßeinheiten Effekte • standardisierte Regressionskoeffizienten • R-Quadrat-Verlust bei Elimination • konditionale Effektplots Vergleich von • Gruppen von Variablen Regressions- • Stabilität der Schätzer modellen • Erklärungsbeitrag der einzelnen Variablen Welche Koeffizienten • zwischen Stichproben: unstandardisierte Koeffizienten • innerhalb Stichproben: standardisierte Koeffizienten Bericht 1. Einleitung, 2. Theorie / Konzeptionelles, 3. Daten, Hypothesen, Methoden, 4. Ergebnisse, 5. Zusammenfassung und Kritik Wichtige Fachausdrücke Deutsch Englisch Deutsch Englisch unstandard. Regressionskoeffizient unstandardized regression coefficient Restriktion restriction standard. Regressionskoeffizient standardized regression coefficient restringiertes Modell restricted model adjustiertes R-Quadrat adjusted R-Square nicht restringiertes Modell unrestricted model hierarchisches Modell hierarchical (nested) model konditionaler Effektplot conditional effect plot Stata-Befehle reg y x1 x2 x3 x4 Multiple Regression (KleinsteQuadrate Methode) reg y x1 x2 x3 x4, beta zusätzlich: Ausdruck der standardisierten Koeffizienten generate b_prognose=_b[_cons] + Berechnung unter Verwendung _b[income]*income + _b[prestige]*0 + der intern abgespeicherten _b[educ]*0 + _b[attend]*0 + _b[size]*0 Regressionskoeffizienten graph twoway line b_prognose income konditionaler Effekt-Plot