Multiple Regression

Analyse von
Querschnittsdaten
Multiple Regression
Warum geht es in den folgenden
Sitzungen?
Datum
Kontinuierliche Variablen
Deskriptive Modelle
kategoriale Variablen
Vorlesung
18.10.2006
Einführung
18.10.2006
Beispiele
25.10.2006
Daten
08.11.2006
Variablen
15.11.2006
Bivariate Regression
22.11.2006
Kontrolle von Drittvariablen
29.11.2006
Multiple Regression
06.12.2006
Statistische Inferenz
13.12.2006
Signifikanztests I
20.12.2006
Signifikanztests II
10.01.2007
Spezifikation der unabhängigen Variablen
17.01.2007
Spezifikation der Regressionsfunktion
24.01.2007
Heteroskedastizität
31.01.2007
Regression mit Dummy-Variablen
07.02.2007
Logistische Regression
Gliederung
1. Multiple Regression
2. Vergleich des Einflusses verschiedener
Variablen
3. Vergleiche zwischen verschiedenen
Regressionsmodellen
4. Ergebnispräsentation
Multiple Regression
yi = β 0 + β1 xi1 + β 2 xi 2 + K + β k xik + r
eine abhängige Variable yi
k unabhängige Variablen xi1 , xi 2 , K , xik
k + 1 Regressionskoeffizienten β 0 , β1 , β 2 , K , β k
Analyseziel
1. Hypothesentest
Bestimme den Einfluss jeder unabhängigen
Variablen xj (j=1, ...k) unter Kontrolle
(Konstanthaltung) aller anderen unabhängigen
Variablen.
2. Modellfit
Bestimme den Anteil erklärter Varianz der
abhängigen Variablen y.
Kleinste-Quadrate Methode
n
Allgemein : minimiere SSR = ∑ ( yi − yˆ i ) 2
i =1
n
Setze ein : SSR = ∑ ( yi − βˆ0 ⋅1 − βˆ1 xi1 − K − βˆk xik ) 2
i =1
Bilde partielle Ableitungen :
n
∑
1⋅ ( yi − βˆ0 ⋅1 − βˆ1 xi1 − L − βˆk xik ) = 0
i =1
n
∑x
i1
i =1
M
n
∑x
i =1
⋅ ( yi − βˆ0 ⋅1 − βˆ1 xi1 − L − βˆk xik ) = 0
ik
=0
⋅ ( yi − βˆ0 ⋅1 − βˆ1 xi1 − L − βˆk xik ) = 0
Die sogenannten
Normalgleichungen bilden
ein Gleichungssystem mit
(k+1) Unbekannten:
βˆ0 , βˆ1 , K , βˆk
Analytische Lösung ...
kann man sehr einfach mit Matrizen hinschreiben
Normalgleichungen: X′y − ( X′X)βˆ = 0
Lösung:
⎡ βˆ0 ⎤
⎢ˆ ⎥
ˆβ = ⎢ β1 ⎥
⎢M ⎥
⎢ ⎥
⎢⎣ βˆk ⎥⎦
⎡1
⎢1
X=⎢
⎢M
⎢
⎣1
βˆ = ( X′X) -1 X′y
x11
x21
M
xn1
L
L
L
L
x1k ⎤
x2 k ⎥⎥
M ⎥
⎥
xnk ⎦
⎡ y1 ⎤
⎢y ⎥
y = ⎢ 2⎥
⎢M⎥
⎢ ⎥
⎣ yn ⎦
Adjustiertes R-Quadrat
SSR
R = 1−
SST
2
SSR
R 2 = 1 − n − k −1
SST
n −1
• Mit jeder zusätzlichen unabhängigen Variablen steigt RQuadrat, die Komplexität des Modells wird nicht
berücksichtigt.
• Das adjustierte R-Quadrat berücksichtigt dagegen, durch
wie viele unabhängige Variablen der erklärte
Varianzanteil bei gegebenem Stichprobenumfang
„erkauft“ wurde.
• Aber: Adjustiertes R-Quadrat kann nicht als Anteil
erklärter Varianz interpretiert werden.
Beispiel 1: Erwerbseinkommen
• Hypothesen
– Unabhängig von ihrer Berufserfahrung erzielen
Arbeitnehmer mit höherer Ausbildung höhere
Erwerbseinkommen: βeduc>0.
– Unabhängig von ihrer Ausbildung erzielen
Arbeitnehmer mit längerer Berufserfahrung höhere
Erwerbseinkommen.
• Berufserfahrung wird gemessen über die Dauer der
Erwerbstätigkeit insgesamt (βexper>0) und die Dauer der
Beschäftigung beim jetzigen Arbeitgeber (βtenure>0).
• Begründung: Humankapitaltheorie
Beispiel 1: Ergebnispräsentation
waˆge = −2,87 + 0,60 ⋅ educ + 0,02 ⋅ exper + 0,17 ⋅ tenure
R 2 = 0,306, n = 526 (wage1.dta)
• Es wurden die Stundenlöhne von 526 USamerikanischen Arbeitnehmern aus dem Jahr 1976
untersucht (Quelle: Current Population Survey).
• Alle drei Hypothesen konnten bestätigt werden.
• Insgesamt erklären die drei Variablen Ausbildungsdauer,
Berufserfahrung und Dauer der Betriebszugehörigkeit
30,6% der Varianz der Stundenlöhne.
• Im Einzelnen zeigte sich: Mit jedem zusätzlichen
Ausbildungsjahr steigt der Stundenlohn (ceteris paribus)
um 0,60 Dollar, mit jedem Berufsjahr um 0,02 Dollar und
mit jedem Jahr der Betriebszugehörigkeit um 0,17 Dollar.
Beispiel 1: offene Fragen
• Welche der drei untersuchten Variablen
hat den größten Einfluss?
Örelative Größenordnung der Effekte
• Variieren die Löhne nicht auch nach
Branchen und Regionen?
ÖVergleich verschiedener Regressionsmodelle
Gliederung
1. Multiple Regression
2. Vergleich des Einflusses verschiedener
Variablen
a.
b.
c.
d.
Was ist das Problem?
Standardisierte Regressionskoeffizienten
Rückblick: Regression und Korrelation
Konditionale Effekt-Plots
3. Vergleiche zwischen verschiedenen
Regressionsmodellen
4. Ergebnispräsentation
Regressionskoeffizienten sind
abhängig von den Maßeinheiten
Stundenlöhne in Dollar, Ausbildung usw. in Jahren
waˆge = −2,87 + 0,60 ⋅ educ + 0,02 ⋅ exper + 0,17 ⋅ tenure
R 2 = 0,306, n = 526 (wage1.dta)
Stundenlöhne in Cent, Ausbildung usw. in Jahren
cwaˆge = −287,27 + 59,90 ⋅ educ + 2,23 ⋅ exper + 16,93 ⋅ tenure
R 2 = 0,306, n = 526 (wage1.dta)
Stundenlöhne in Dollar, Ausbildung usw. in Monaten
waˆge = −2,87 + 0,05 ⋅ meduc + 0,002 ⋅ mexper + 0,01 ⋅ mtenure
R 2 = 0,306, n = 526 (wage1.dta)
Determinationskoeffizient bleibt jedoch gleich!
Unabhängige Variablen mit
unterschiedlichen Maßeinheiten
waˆge = −2,87 + 0,60 ⋅ educ + 0,02 ⋅ exper + 0,17 ⋅ tenure
R 2 = 0,306, n = 526 (wage1.dta)
Die Effekte von educ, exper und tenure sind im Prinzip
vergleichbar, weil eine Veränderung von xj um 1 Einheit
hier immer das Gleiche bedeutet (1 Jahr).
priˆce = 19315 + 128,43 ⋅ sqrft + 15198,19 ⋅ bdrms
R 2 = 0,632, n = 88 (hprice1.dta)
Wie sollen die Effekte verglichen werden, wenn eine
Veränderung um 1 Einheit im einen Fall (sqrft) ein
Quadratmeter und im anderen Fall (bdrms) ein Raum
bedeutet?
Gliederung
1. Multiple Regression
2. Vergleich des Einflusses verschiedener
Variablen
a.
b.
c.
d.
Was ist das Problem?
Standardisierte Regressionskoeffizienten
Rückblick: Regression und Korrelation
Konditionale Effekt-Plots
3. Vergleiche zwischen verschiedenen
Regressionsmodellen
4. Ergebnispräsentation
Exkurs: z-Transformation
Durch Standardisierung ergibt
sich eine neue Variable mit
arithmetischen Mittel 0 und
Standardabweichung 1.
x−x
zx =
sx
. sum price
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------price |
88
293.546
102.7134
111
725
. generate zprice=(price-293.546) / 102.7134
. sum zprice
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------zprice |
88
3.34e-07
1 -1.777236
4.200562
Vergleichbarkeit durch
Standardisierung aller Variablen
Unstandardisierte Regressionskoeffizienten
priˆce = 19315 + 128,43 ⋅ sqrft + 15198,19 ⋅ bdrms
R 2 = 0,632, n = 88 (hprice1.dta)
Standardisierte Regressionskoeffizienten (Beta - Koeffzienten)
zpriˆce = 0 + 0,7217 ⋅ zsqrft + 0,1245 ⋅ zbdrms
R 2 = 0,632, n = 88 (hprice1.dta)
Wenn man die Wohnfläche (gemessen in Quadratmetern) um eine
Standardabweichung erhöht, erhöht sich der Preis des Hauses
(gemessen in Dollar) um 0,7217 Standardabweichungen.
Da 0,7217 größer ist als 0,1245, geht man davon aus, dass der Preis
mehr mit der Wohnfläche als mit der Anzahl der Schlafräume variiert.
z-Transformation notwendig?
Nein, standardisierte sind
direkt aus unstandardisierten
Koeffizienten berechenbar!
bˆ j = βˆ j
sx j
sy
0,7217 ≈ 0.1284 ⋅
577,19
102,71
. reg price sqrft bdrms, beta
Source |
SS
df
MS
-------------+-----------------------------Model | 580009.152
2 290004.576
Residual | 337845.354
85 3974.65122
-------------+-----------------------------Total | 917854.506
87 10550.0518
Number of obs
F( 2,
85)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
88
72.96
0.0000
0.6319
0.6233
63.045
-----------------------------------------------------------------------------price |
Coef.
Std. Err.
t
P>|t|
Beta
-------------+---------------------------------------------------------------sqrft |
.1284362
.0138245
9.29
0.000
.721739
bdrms |
15.19819
9.483517
1.60
0.113
.1244983
_cons |
-19.315
31.04662
-0.62
0.536
.
------------------------------------------------------------------------------
Gliederung
1. Multiple Regression
2. Vergleich des Einflusses verschiedener
Variablen
a.
b.
c.
d.
Was ist das Problem?
Standardisierte Regressionskoeffizienten
Rückblick: Regression und Korrelation
Konditionale Effekt-Plots
3. Vergleiche zwischen verschiedenen
Regressionsmodellen
4. Ergebnispräsentation
Rückblick I: Korrelation und Regression
trivariat
R y2. x1x2 =
R
2
y . x1 x2
zum Vergleich : bivariat
ryx2 1 + ryx2 2 − 2ryx1 ryx2 rx1x2
1 − rx21x2
⎛
⎛
s x1 ⎞
s x2
ˆ
ˆ
= ryx1 ⎜ β1 ⋅ ⎟ + ryx2 ⎜ β 2 ⋅
⎜
⎟
⎜
s
sy
y
⎝
⎠
⎝
R y2. x1 = ryx2 1
⎞
⎟
⎟
⎠
R
2
y . x1
⎛ ~ s x1 ⎞
= ryx1 ⎜ β1 ⋅ ⎟
⎜
⎟
s
y
⎝
⎠
Standardisierter Regressionskoeffizient
Der Determinationskoeffizient des trivariaten (allgemein: des
multiplen) Regressionsmodells ist eine gewichtete Summe
der Korrelationen, die jeweils mit den standardisierten
Regressionskoeffizienten gewichtet werden.
Rückblick II: Korrelation und Regression
trivariat
R y2. x1x2 =
R
2
y . x1 x2
zum Vergleich : bivariat
ryx2 1 + ryx2 2 − 2ryx1 ryx2 rx1x2
1 − rx21x2
⎛
⎛
s x1 ⎞
s x2
ˆ
ˆ
= ryx1 ⎜ β1 ⋅ ⎟ + ryx2 ⎜ β 2 ⋅
⎜
⎟
⎜
s
sy
y
⎝
⎠
⎝
R y2. x1 = ryx1 ⋅ ryx1
⎞
⎟
⎟
⎠
R
2
y . x1
⎛ ~ s x1 ⎞
= ryx1 ⎜ β1 ⋅ ⎟
⎜
⎟
s
y
⎝
⎠
Standardisierter Regressionskoeffizient
Im bivariaten Regressionsmodell ist der standardisierte
Regressionskoeffizient gleich dem Korrelationskoeffizienten.
Gliederung
1. Multiple Regression
2. Vergleich des Einflusses verschiedener
Variablen
a.
b.
c.
d.
Was ist das Problem?
Standardisierte Regressionskoeffizienten
Rückblick: Regression und Korrelation
Konditionale Effekt-Plots
3. Vergleiche zwischen verschiedenen
Regressionsmodellen
4. Ergebnispräsentation
Beispiel 2: Lebenszufriedenheit
• General Social Survey 1978: Zufallsstichprobe der USBevölkerung über 18 Jahre
• Lebenszufriedenheit (Index 1-20)
• Determinanten: Haushaltseinkommen, Berufsprestige,
Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße
• n=665 analysierbare Fälle
• Regressionsgleichung (standardisierte Koeffizienten in
Klammern):
yˆ = 10,51 + 0,065 x1 + 0,011x2 + 0,116 x3 + 0,265 x4 − 0,056 x5
(0,107) (0,018) (0,190) (0,435) (−0,092)
Konditionaler Effekt-Plot
10.7
• gen b_prognose=_b[_cons] +
_b[income]*income + _b[prestige]*0 +
_b[educ]*0 + _b[attend]*0 + _b[size]*0
• graph twoway line b_prognose income
b _prognose
10.5
10.6
Bedingte Prognose der
Zufriedenheit in Abhängigkeit
vom Einkommen
Bedingung: prestige=0, educ=0,
attend=0, size=0
10.3
10.4
Jeder andere Wert möglich.
Man verwendet häufig die
arithmetischen Mittel.
-4
-2
0
income
2
4
Vergleich relativer Einflußstärken
10.6
b2_prognose
10.5
10.4
Je nach Einkommen
schwanken die prognostizierten
Zufriedenheiten zwischen 10,3
und 10,7 Skalenpunkten, je
nach Berufsprestige dagegen
nur zwischen 10,47 und 10,55
Skalenpunkten.
10.3
10.6
10.6
b _prognose
b_prognose
10.5
10.5
10.4
10.4
10.7
10.7
10.7
… bedingter Effekt-Plot für Einkommenseffekt
graph copy income
… bedingter Effekt-Plot für Prestigeeffekt
graph copy prestige
graph combine income prestige, ycommon cols(2) scale(1.25)
10.3
10.3
•
•
•
•
•
-4
-4
-2
0
-2
income
2
4
0
income
-4
-2
0
2
prestig
e
2
4
4
Der Einfluss des Einkommens
ist also größer als der des
Berufsprestiges.
Gliederung
1. Multiple Regression
2. Vergleich des Einflusses verschiedener
Variablen
3. Vergleiche zwischen verschiedenen
Regressionsmodellen
a. eine Stichprobe
b. mehrere Stichproben
4. Ergebnispräsentation
Beispiel 1 erweitert
Variable
Osten
Nord
Süden
Westen
Schwerindustrie
Bauindustrie
Leichtindustrie
Verkehr & Kommunikation
Handel
Dienstleistungen
Freie Berufe
Ausbildung
Berufserfahrung
Betriebszugehörigkeit
Konstante
R²
adj. R²
n
Modell 1
Ref.
-0.6810
-0.9359
0.2547
Ref.
-1.1657
-0.3283
-0.3694
-2.3305
-2.8955
-0.7546
7.6193
9.4%
7.8%
526
Modell 2
Ref.
-0.6782
-0.4561
0.4079
Ref.
-0.5180
-1.0687
-1.6599
-2.0695
-2.5395
-1.3694
0.6105
0.0243
0.1501
-1.2677
36.1%
34.7%
526
Modell 3
Ref.
-0.7886
-0.6592
0.2485
Ref.
-0.6201
-0.9292
-1.4622
-2.3866
-2.9910
-1.7172
0.6497
0.0657
-1.3658
30.1%
28.6%
526
Modell 4
Ref.
-0.6332
-0.4039
0.4414
Ref.
-0.6500
-1.0624
-1.7427
-2.1090
-2.4951
-1.3368
0.5773
0.1722
-0.5783
35.6%
34.2%
526
Modell 5
Ref.
-0.5974
-0.7310
0.4270
Ref.
-0.8044
-0.5389
-0.5196
-1.8152
-2.3257
-0.3157
-0.0192
0.1777
6.6113
18.9%
17.2%
526
Exkurs: Hierarchische Modelle
• Zwei Modelle A und a sind hierarchisch (nested),
wenn die Parameter des Modells a eine
Teilmenge der Parameter des Modells A sind.
• Das (restringierte) Modell a ergibt sich aus dem
(nicht restringierten) Modell A, indem man für die
Parameter in A lineare Restriktionen formuliert.
(nicht restringiertes) Modell A : y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + r
β 2 = 0 und β 3 = 0
ergibt (restringiertes) Modell a : y = β 0 + β1 x1 + r
Zwei Restriktionen :
Schrittweise Modellüberprüfung
1. Gruppen von erklärenden Variablen
Häufig unterscheiden sich die erklärenden Variablen in
solche, die „nur“ kontrolliert werden, die von zentraler
Bedeutung sind und die eventuell ergänzend
berücksichtigt werden sollen.
2. Überprüfung der Stabilität der Schätzer
Bleiben die Effekte der zentralen erklärenden
Variablen bei verschiedenen Modellspezifikationen
stabil?
3. Bestimmung der relativen Einflussstärke
Da der Erklärungszuwachs von der Eingabereihenfolge abhängt, fragt man häufig umgekehrt: Wie
verschlechtert sich der Modellfit, wenn man die
interessierende Variable aus dem Endmodell weglässt.
Gliederung
1. Multiple Regression
2. Vergleich des Einflusses verschiedener
Variablen
3. Vergleiche zwischen verschiedenen
Regressionsmodellen
a. eine Stichprobe
b. mehrere Stichproben
4. Ergebnispräsentation
Beispiel 3: Erwerbseinkommen
1980 und 1976
Variable
Ausbildung
Berufserfahrung
Betriebszugehörigkeit
Konstante
R²
adj. R²
n
Datensatz
•
•
•
•
1980
1976
Regressionskoeffizienten Regressionskoeffizienten
unstand.
stand.
unstand.
stand.
1.5397
0.3424
0.5990
0.4491
0.3306
0.1464
0.0223
0.0821
0.2182
0.1121
0.1693
0.3311
-3.8180
0.0000
-2.8727
0.0000
11.1%
30.6%
10.8%
30.2%
935
526
wage2.dta
wage1.dta
1980: 935 männliche Beschäftigte aus den USA
1976: 526 männl. und weibl. Beschäftigte aus den USA
Vergleich eines Effektes zwischen Stichproben
Vergleich mehrerer Effekte innerhalb einer Stichprobe
Vergleich des Einflusses einer
Variablen zwischen den Stichproben
Variable
Ausbildung
Berufserfahrung
Betriebszugehörigkeit
Konstante
R²
adj. R²
n
Datensatz
•
•
•
1980
1976
Regressionskoeffizienten Regressionskoeffizienten
unstand.
stand.
unstand.
stand.
1.5397
0.3424
0.5990
0.4491
0.3306
0.1464
0.0223
0.0821
0.2182
0.1121
0.1693
0.3311
-3.8180
0.0000
-2.8727
0.0000
11.1%
30.6%
10.8%
30.2%
935
526
wage2.dta
wage1.dta
Standardisierung unnötig, da gleiche Maßeinheiten (ein- und
dieselbe Variable).
Standardisierung sogar schädlich, da z-Transformation stichprobenspezifische Informationen verwendet.
Benutze unstandardisierte Regressionskoeffizienten!
Vergleich des Einflusses mehrerer
Variablen innerhalb der Stichproben
Variable
Ausbildung
Berufserfahrung
Betriebszugehörigkeit
Konstante
R²
adj. R²
n
Datensatz
•
•
•
1980
1976
Regressionskoeffizienten Regressionskoeffizienten
unstand.
stand.
unstand.
stand.
1.5397
0.3424
0.5990
0.4491
0.3306
0.1464
0.0223
0.0821
0.2182
0.1121
0.1693
0.3311
-3.8180
0.0000
-2.8727
0.0000
11.1%
30.6%
10.8%
30.2%
935
526
wage2.dta
wage1.dta
Standardisierung notwendig, wenn die Variablen in unterschiedlichen
Maßeinheiten gemessen sind.
Die Verwendung stichprobenspezifischer Informationen bei der zTransformation ist unschädlich, da Vergleich innerhalb der Stichprobe.
Benutze standardisierte Regressionskoeffizienten!
Gliederung
1. Multiple Regression
2. Vergleich des Einflusses verschiedener
Variablen
3. Vergleiche zwischen verschiedenen
Regressionsmodellen
4. Ergebnispräsentation
Ergebnispräsentation
• Hinweise zur Durchführung eines eigenen
Forschungsprojektes finden sich in Kapitel
19 von Wooldridge (2003). Darin
insbesondere:
– Allgemein: Writing an empirical paper
(Abschnitt 19.5, WO 657-665)
– Tabellen: Style hints (WO 663-665, kopiert)
Zum Schluss
Literatur
• Wooldridge, J. (2003): Introductory
econometrics: a modern approach. South
Western College Publishing.
– Kapitel 3 diskutiert sowohl das trivariate als auch das
allgemeine multiple Regressionsmodell. Lesen Sie
nur die Passagen (WO 68-84), die sich auf den
deskriptiven Teil der Regressionsanalyse beziehen.
– Standardisierte Regressionskoeffizienten werden in
Kapitel 6 erläutert (WO 182-187).
– Ebenso das adjustierte R-Quadrat (WO 196-200).
Zusammenfassung
Multiple
Regression
• überprüft Hypothesen über Effekte von Variablen
• Erklärung der Varianz der Zielvariablen
Vergleich der • einfach bei gleichen Maßeinheiten
Effekte
• standardisierte Regressionskoeffizienten
• R-Quadrat-Verlust bei Elimination
• konditionale Effektplots
Vergleich von • Gruppen von Variablen
Regressions- • Stabilität der Schätzer
modellen
• Erklärungsbeitrag der einzelnen Variablen
Welche
Koeffizienten
• zwischen Stichproben: unstandardisierte Koeffizienten
• innerhalb Stichproben: standardisierte Koeffizienten
Bericht
1. Einleitung, 2. Theorie / Konzeptionelles, 3. Daten,
Hypothesen, Methoden, 4. Ergebnisse, 5. Zusammenfassung und Kritik
Wichtige Fachausdrücke
Deutsch
Englisch
Deutsch
Englisch
unstandard.
Regressionskoeffizient
unstandardized
regression
coefficient
Restriktion
restriction
standard.
Regressionskoeffizient
standardized
regression
coefficient
restringiertes
Modell
restricted
model
adjustiertes
R-Quadrat
adjusted
R-Square
nicht restringiertes
Modell
unrestricted
model
hierarchisches
Modell
hierarchical
(nested) model
konditionaler
Effektplot
conditional
effect plot
Stata-Befehle
reg y x1 x2 x3 x4
Multiple Regression (KleinsteQuadrate Methode)
reg y x1 x2 x3 x4, beta
zusätzlich: Ausdruck der
standardisierten Koeffizienten
generate b_prognose=_b[_cons] +
Berechnung unter Verwendung
_b[income]*income + _b[prestige]*0 + der intern abgespeicherten
_b[educ]*0 + _b[attend]*0 + _b[size]*0 Regressionskoeffizienten
graph twoway line b_prognose
income
konditionaler Effekt-Plot