Gauß-Markov-Annahmen f. Lin. Regr.Modelle

Werbung
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 2
Lineare Regression als das grundlegende Tool
Wie generell in der Ökonometrie, so auch in der Analyse von Mikro-Daten:
Mikro-Ökonometrie – Einführungsveranstaltung
(Gauß-Markov-Annahmen f. Lin. Regr.Modelle)
Die lineare Regression (ist nicht das einzige, aber) das grundlegende statistische Verfahren zur
Datenanalyse.
K.-H. Schild
Die Bezeichnung lineare Regression“ umfasst:
”
17. Oktober 2014
• Zum einen das Modell, das – abgesehen von statistischen Störfaktoren“ – einen linearen
”
Zusammenhang zwischen den Variablen unterstellt.
• Zum anderen das Schätzverfahren für die Parameter
(das sind die Linear- oder Regressionskoeffizienten des Modells)
Wenn man Regression“ sagt, ist i.d.R. eine Kleinste-Quadrate-Schätzung (ordinary
”
least squares = OLS) gemeint.
Wir beschäftigen uns heute noch nicht mit dem zweiten Punkt (OLS-Schätzung),
sondern lediglich mit dem ersten Punkt (Modell-Annahmen), denn ...
Philipps-Universität Marburg
Philipps-Universität Marburg
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 1
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 3
Gauß-Markov-Annahmen definieren den Modellrahmen
Was ist Mikro-Ökonometrie?
• Es soll erst einmal ein Rahmen geschaffen werden, in dem die Modellannahmen formuliert
• Mikro-Ökonometrie:
sind (und die Eigenschaften der OLS-Schätzung sich fassen lassen).
Statistische Analyse ökonomischer Daten auf individuellem Level,
d.h. Daten von Mikro-Einheiten“
”
typisch: Daten von Unternehmen, Haushalten, Arbeitnehmern usw.
Daten sind fast immer hochgradig multivariat“, d.h. Anzahl Variablen >> 2
”
• Diese Annahmen werden häufig unter dem Oberbegriff der Gauß-Markov Annahmen zusammengefasst; dabei Orientierung an Wooldridge, Introductory Econometrics, Kap. 1-3
• Der Modellrahmen bezieht sich auf Querschnittsdaten, die durch eine Zufallsstichprobe aus
• In der Regel hat man in der Mikro-Ökonometrie entweder
– Querschnittsdaten
(ein Satz von Variablen wurde für eine große Menge der betrachteten Mikro-Einheiten“ zu
”
einem festen Zeitpunkt erhoben oder steht sonstwie zur Verfügung)
oder
– Panel-Daten (zu einer Sequenz von Zeitpunkten verfügbare Querschnittsdaten).
– Querschnittsdaten: Die Mikro-Einheit ist ein Individuum i.
– Panel-Daten: Die Mikro-Einheit ist ein Individuum i zu einem Zeitpunkt t , z.B. ein Unternehmens-Jahr
Man benötigt einen ‘Doppel-Index’ (i,t) zur Beschreibung einer Einheit.
Philipps-Universität Marburg
K.-H. Schild
K.-H. Schild
einer Population (Grundgesamtheit) entstanden sind.
• Zwar hat man bei empirischen Daten oft keine wirkliche Zufallsstichprobe.
Die Zufallsstichprobe ist aber das einfachste Modell, wenn stochastische Regressoren zugelassen sein sollen
(Stochastische Regressoren: Auch die Regressoren (= erklärenden Variablen) werden als Zufallsvariablen gesehen)
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 4
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Population und Einheiten, Variablen
Folie 6
Beispiel 1:
• Querschnittsdaten: Die Population besteht aus Einheiten i
Population/Einheiten = Berufstätige in den USA (im Jahr 1987)
y = wage (in 1980 $) per hour (wage)
x1 = experience in years (exper)
x2 = 1 if male, 0 otherwise (male)
x3 = years of schooling (school)
(z.B. Individuen, Haushalte, Unternehmen usw.).
• Für jede Einheit der Population soll
– eine Variable y
– (zumindest teilweise) erklärt werden
– durch andere Variablen x1, . . . , xK ← insgesamt K Stück
Deskriptive Statistiken der Variablen (in einer Stichprobe):
• Hauptinteresse:
Welchen Einfluss haben (einige, vielleicht nicht alle) der Variablen x1, . . . , xK auf y?
• in folgendem Sinne: Wenn sich x j ändert (und sonst nichts), wie ändert sich dann y?
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------exper |
3294
8.043412
2.290661
1
18
male |
3294
.5236794
.4995148
0
1
school |
3294
11.63054
1.657545
3
16
wage |
3294
5.757585
3.269186
.0765556
39.80892
• oder anders gesagt: Wenn man x j exogen ändert, wie ändert sich dann y?
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 5
Philipps-Universität Marburg
Lin. Regr.Modelle: Gauß-Markov-Annahmen
K.-H. Schild
Folie 7
Beispiel 2: Daten Krankenversicherter aus den USA
Erklärte Variable und erklärende Variablen
Verfügbare Variablen (Auszug):
• Gebräuchliche Bezeichnungen für die Variablen y und x1, . . . , xK :
Philipps-Universität Marburg
y
x1, . . . , xK
Abhängige Variable
Unabhängige Variablen
Erklärte Variable
Erklärende Variablen
Endogene Variable
Exogene Variablen
Outcome-Variable
Kontrollvariablen
Predizierte Variable
Prediktorvariablen
Regressand
Regressoren
obs:
3,064
vars:
33
-------------------------------------------------------------------------------------------storage
display
value
variable name
type
format
label
variable label
-------------------------------------------------------------------------------------------age
double %12.0g
Age
famsze
double %12.0g
Size of the family
educyr
double %12.0g
Years of education
totexp
double %12.0g
Total medical expenditure
private
double %12.0g
=1 if private supplementary insurance
retire
double %12.0g
=1 if retired
female
double %12.0g
=1 if female
white
double %12.0g
=1 if white
hisp
double %12.0g
=1 if Hispanic
marry
double %12.0g
=1 if married
northe
double %12.0g
=1 if northeast area
mwest
double %12.0g
=1 if Midwest area
south
double %12.0g
=1 if south area (West is excluded)
phylim
double %12.0g
=1 if has functional limitation
actlim
double %12.0g
=1 if has activity limitation
msa
double %12.0g
=1 if metropolitan statistical area
income
double %12.0g
annual household income/1000
injury
double %12.0g
=1 if condition is caused by an accident/injury
totchr
double %12.0g
# of chronic problems
omc
double %12.0g
=1 if other managed care (Privately insured sample)
hmo
double %12.0g
=1 if private insurance is HMO (Privately insured sample)
posexp
float
%9.0g
=1 if total expenditure > 0
ltotexp
float
%9.0g
ln(totexp) if totexp > 0
--------------------------------------------------------------------------------------------
K.-H. Schild
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 8
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Beispiel 2: (Fortsetzung)
Folie 10
Nicht-Linearitäten
• Auf den ersten Blick scheint ein lineares Modell sehr einschränkend, aber:
• Man muss nicht unbedingt eine beobachtete Größe eins-zu-eins einem der x j oder y zuord-
Deskriptive Statistiken einiger Variablen:
nen
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------totexp |
3064
7030.889
11852.75
0
125610
ltotexp |
2955
8.059866
1.367592
1.098612
11.74094
posexp |
3064
.9644256
.1852568
0
1
age |
3064
74.17167
6.372938
65
90
female |
3064
.5796345
.4936982
0
1
income |
3064
22.47472
22.53491
-1
312.46
private |
3064
.5812663
.4934321
0
1
phylim |
3064
.4255875
.4945125
0
1
actlim |
3064
.2836162
.4508263
0
1
totchr |
3064
1.754243
1.307197
0
7
• Man kann auch Funktionen, z.B.
– das Quadrat oder
– den Logarithmus oder
– sonst eine Funktion
einer beobachteten Größe verwenden (für eine erklärende Variable x j wie für die erklärte
Variable y)
• Das geht:
– Anstelle der beobachteten Größe oder
Interessierende Variablen:
y = totexp, x1 = age, x2 = female, x3 = income, x4 = private , x5 = totchr, ....
Philipps-Universität Marburg
– zusätzlich zur beobachteten Größe
• Damit wird das lineare Modell doch recht flexibel
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 9
→ wir kommen später darauf zurück
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Gauß-Markov Annahme 1 (Lineares Modell)
Folie 11
Störterm als unbeobachteter Faktor
Gauß-Markov-Annahme 1 (GM1): Lineares Modell
Das Modell in der Population kann geschrieben werden als
• Der Störterm u repräsentiert unbeobachtete Faktoren,
y = β1 x1 + . . . + βK xK + u,
• die auch einen Einfluss auf y haben, aber von den x j nicht erfasst werden.
wobei β1, . . . , βK die unbekannten Parameter sind, für die man sich interessiert, und u eine
unbeobachtete Zufallsvariable ist, die Fehlerterm oder Störterm genannt wird. Die Parameter
sind Konstanten, die man auch Regressionskoeffizienten nennt.
• Ohne zusätzliche Annahmen über den Störterm ist die Annahme GM1 keine Annahme,
sondern eine Tautologie
• da man eine Größe y immer in eine Linearkombination von beobachteten Größen x1, . . . , xK
und einen ‘Rest’ u zerlegen kann.
• In fast allen Modellen: Konstante (Interzept) wird eingeschlossen.
• Das lässt sich modellieren, indem eines der x j (keine ‘richtige’ Variable, sondern) die Konstante 1 ist.
• Um die Sonderrolle der Konstanten hervorzuheben schreiben wir dann (oft) das Modell als
• (Man definiert den ‘Rest’ einfach als die Differenz.)
• Von den folgenden Annahmen über den Störterm ist die Exogenitätsannahme die wichtigste.
y = β0 + β1 x1 + . . . + βK xK + u
• Wir müssen dann nur beachten, dass wir K + 1 (statt K ) Parameter haben.
Philipps-Universität Marburg
K.-H. Schild
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 12
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 14
Beispiel:
Störterme und omitted variables
• Wenn man relevante Regressoren nicht berücksichtigt
(d.h. das Modell mit weniger erklärenden Variablen ansetzt als benötigt: Unterspezifikation)
wage = β0 + β1 male + β2 school + β3 exper (+β4 age + β6 IQ + ....) + u
• dann sprechen wir von ‘omitted variables’ (‘weggelassenen Variablen’)
• Angenommen wage wird in $ (pro Stunde) und school in ‘Jahren’ gemessen,
• ‘Omitted variables’ sind Bestandteil des Störterms,
• Dann gibt β2 in diesem Beispiel an,
• da sie genau wie unbeobachtete Faktoren wirken.
• um wieviel $ sich sich der Stundenlohn pro zusätzlichem Jahr Ausbildung im Schnitt erhöht.
• Omitted variables können Verzerrungen bei der Schätzung des Modells auslösen.
(D.h. was ist ein Ausbildungsjahr wert, wenn man den ‘Wert’ im Stundenlohn misst?)
• Auch so zu sehen: Indem man zusätzliche Variablen (an deren Effekt auf y man vielleicht
• (Was wir eigentlich wissen möchten ist: Um wieviel erhöht sich der Lohn bei einer exogenen
gar nicht interessiert ist) in eine Regression einbezieht, erhält man eher den Effekt einer
exogenen Veränderung der bereits einbezogenen Variablen auf y. Man schätzt dann den
Effekt der ursprünglichen Variablen bei Kontrolle zusätzlicher Variablen.
Erhöhung der Ausbildungsdauer, d.h. wenn wir die gleiche Person ein Jahr länger ausbilden
lassen – wir müssten dazu nicht nur male und exper konstant halten, sondern auch u)
• Die Problematik von omitted variables ist ein Grund, warum man multiple Regressionsmodelle
(statt nur das einfache Modell y = β0 + β1x) benötigt.
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 13
• (Es ist anzunehmen, dass β2 ein positives Vorzeichen hat.)
• Frage: Was gibt β1 an?
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Bedeutung der Regressionskoeffizienten
Folie 15
Gauß-Markov Annahme 2 (Zufallsstichprobe)
• Der Parameter β j in der Regressionsbeziehung ist eine Änderungsrate:
• Im ersten Teil der Veranstaltung: Das ‘datengenerierende Modell’ ist
• Er misst, um wieviele Einheiten sich y ändert, wenn x j um eine Einheit geändert wird,
• eine Zufallsstichprobe aus der Population
• und zwar ceteris paribus, d.h. wenn alle anderen Faktoren (die x j mit j = j und u) konstant
gehalten werden.
• (passt nicht so richtig auf Panel-Daten – wir sollten nicht so tun, als ob die Beobachtung von Individuum i zum
Zeitpunkt t vollkommen unabhängig von derjenigen des gleichen Individuums zum Zeitpunkt t ist)
• In diesem Sinne misst β j den Einfluss, den x j auf y hat
Das heißt: β j ist das Grenz-y von x j (abgesehen von u).
Gauß-Markov-Annahme 2 (GM2): Zufallsstichprobe
Es liegt eine Zufallsstichprobe von N Beobachtungen
Beachte aber:
• Die Annahme, dass u bei einer Änderung von x j sich nicht ändert, ist nicht verifizierbar,
da u per Definition unbeobachtet ist.
(xi,1, . . . , xi,K , yi),
vor, für die das Populationsmodell aus (GM1) gilt, d.h.
• Diese Annahme wird später (GM4) im Wesentlichen ersetzt werden durch die Annahme, dass
für u ein Wert von 0 zu erwarten ist und es keine Systematik in der Änderung von u gibt,
wenn sich x j ändert.
Philipps-Universität Marburg
K.-H. Schild
i = 1, . . . , N
yi = β1 xi,1 + . . . + βK xi,K + ui, ,
Philipps-Universität Marburg
i = 1, . . . , N.
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 16
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Implikationen von GM2 (Zufallsstichprobe)
Folie 18
GM Annahme 3 (keine perfekte Kollinearität)
1) Keinerlei Zusammenhänge/Abhängigkeiten zwischen den Einheiten:
Um die Parameter identifizieren (d.h. eindeutig schätzen) zu können, brauchen wir:
• Ein X von i ist immer (stochastisch) unabhängig von einem X von i , solange i = i .
• Diese Annahme kann durch Clustering verletzt sein (z.B.: Daten aus gleicher Region korrelieren)
Gauß-Markov Annahme 3 (GM3): keine perfekte Kollinearität
Die erklärenden Variablen in der Population und in der Stichprobe sind nicht kollinear (d.h. sie
sind linear unahbhängig).
Anmerkung
2) Keine Autokorrelation der Störterme
• Kollinearität = lineare Abhängigkeit.
• Bei uns ist der Ausschluss von Störterm-Autokorrelation implizit in GM2 enthalten
• Es gilt:
(in vielen Lehrbüchern wird das explizit gefordert, müssen wir nicht machen)
GM3 ⇐⇒ x1, . . . xK lin. unabh.
⇐⇒ rang(X) = K ⇐⇒ X X regulär
• X X ist eine K × K -Matrix (die immer symmetrisch und positiv semi-definit ist).
Diese Matrix wird später benötigt werden.
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 17
Matrixnotation
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 19
Gauß-Markov Annahme 4 (Exogenität der erklärenden Variablen)
• Wir fassen die Realisierungen der Variablen zu (Spalten-)vektoren zusammen:
⎛ ⎞
⎛ ⎞
⎛ ⎞
y1
x1, j
u1
⎜ y2 ⎟
⎜ x2, j ⎟
⎜ u2 ⎟
⎜ ⎟
⎜ ⎟
⎟
y=⎜
⎝ ... ⎠ , x j = ⎝ ... ⎠ (für j = 1, . . . , K), u = ⎝ ... ⎠ ,
yN
xN, j
uN
• Wir fordern nun:
– der Störterm ist im Mittel 0 und
– er hat keinen systematischen Zusammenhang mit den erklärenden Variablen.
• Das machen wir mit drei verschiedenen mathematischen Konstrukten
Das Modell für alle Beobachtungen schreibt sich dann als
Version 1 (mit stochastischer Unabhängigkeit):
y = β1 x1 + . . . + βK xK + u
• oder mit der Matrix
und dem Parametervektor
⎛
Gauß-Markov-Annahme 4 (GM4.1): Exogenität der erklärenden Variablen
Der Störterm hat einen erwarteten Wert von 0 und ist stochastisch unabhängig von den erklärenden Variablen x1, . . . , xK :
⎞
x1,1 . . . x1,K
⎜ x2,1 ... x2,K ⎟
⎟
X =⎜
... ⎠
⎝ ...
xN,1 . . . xN,K
β = ( β1, . . . , βK ) ganz kompakt als
E[u] = 0 und u ist stochastisch unabhängig von x1, . . . , xK
y = Xβ + u
Philipps-Universität Marburg
K.-H. Schild
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 20
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 22
Alternative Formulierung des Populationsmodells aus GM1, GM4
Versionen 2 und 3 der Exogenitätsannahme
Version 2 (mit Unkorreliertheit):
Gauß-Markov-Annahme 4 (GM4.2): Exogenität der erklärenden Variablen
Der Störterm hat eine erwarteten Wert von 0 und korreliert nicht mit den erklärenden Variablen
x1, . . . , xK :
E[u] = 0 und cov(u, x j ) = 0 für j = 1, . . . , K
Da Unabhängigkeit ⇒ Unkorreliertheit“, ist Version 2 schwächer als Version 1
”
Version 3 (mit bedingten Erwartungswerten):
drücken:
E[y | x1, . . . , xK ] = β1 x1 + . . . + βK xK
Lies:
Bei gegebenen x1, . . . , xK ist der erwartete Wert von y
durch die lineare Funktion β1 x1 + . . . + βK xK gegeben.
• Der Störterm ist dann
Gauß-Markov-Annahme 4 (GM4.3): Exogenität der erklärenden Variablen
Der Störterm hat – bei jeder gegebenen Ausprägung der erklärenden Variablen x1, . . . , xK –
einen erwarteten Wert von 0:
E[u | x1, . . . , xK ] = 0
• Man kann das Populationsmodell aus GM1 und GM4.3 mit einer einzigen Gleichung aus-
und GM4.3 gilt automatisch:
E[u | x1, . . . , xK ]
←− unabhängig von x1, . . . , xK
E[Y | x] = const (unabh. von x) ⇒ Erw.Wert von Y hängt nicht von X = x ab.
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 21
= E y − E[y | x1, . . . , xK ] x1, . . . , xK
= E y | x1, . . . , xK − E E[y | x1, . . . , xK ] x1, . . . , xK
= E y | x1, . . . , xK −
E[Y | x] := E[Y | X = x]: Erwartungswert von Y , wenn X bei X = x fixiert wird, Funktion von x.
Philipps-Universität Marburg
u := y − E[y | x1, . . . , xK ]
iterierter bed. Erw.Wert
E y | x1, . . . , xK
= 0
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 23
Exogenität als Orthogonalität von u zu x1, . . . , xK
Verletzung der Exogenitätsannahme: E[u] = 0, aber E[u|x] = 0:
In Bezug auf die ‘Stichprobenvektoren’ besagt die Exogenitätsannahme (in der Vers. 2):
Verletzung der Exog. Annahme: E[u] = 0, aber:
f(y|x)
• Der Vektor u steht senkrecht zu allen Vektoren x j ( j = 1, . . . , K ).
E[u|x2] = 0
E[u|x1] < 0
y
• Das heißt:
E[u|x3] > 0
u ⊥ span(x1, . . . , xK ).
• Denn: cov(u, x j ) kann man durch die Stichprobenkovarianz
y = β1+ β2 x
(u, x j ) = (1/N)
cov
∑(ui − ū) (xi, j − x̄ j) = (1/N) ∑ ui xi, j − ū x̄ j
i
i
schätzen und E[u] = 0 entspricht ū = 0.
x1
x2
x3
x
(u, x j ) als das Skalarprodukt (1/N)ux j schreiben.
• Damit lässt sich cov
Zeigt: E[u] = 0 (alleine) reicht nicht aus.
Anm: E[u] = 0 kann man immer erreichen durch Einschluss einer Konstanten!
Philipps-Universität Marburg
K.-H. Schild
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 24
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Gauß-Markov-Annahme 5 (GM5): Homoskedastie
Gegeben die Ausprägung x1, . . . , xK der erklärenden Variablen, hat der Störterm die (konstante)
Varianz σ2
Var(u | x1, . . . , xK ) = σ2
←− unabhängig von x1, . . . , xK
f(y|x)
y
Folie 26
Funktionale Form; Modellierung nicht-linearer Effekte
Gauß-Markov Annahme 5 (Homoskedastie)
• Die Vielseitigkeit des linearen Regressionsmodells resultiert u.a. daraus, dass man nicht gezwungen ist, eine Variable in der vorgefundenen Form zu verwenden.
• Es ist (zumindest rein technisch) kein Problem, anstatt der Variablen eine Funktion von ihr
(z.B. den Logarithmus oder das Quadrat) zu verwenden.
2σ (konstant)
• Das betrifft sowohl den Regressanden y als auch die Regressoren (x j )
• Oft ist auch die parallele Verwendung der Variablen und einer nicht-linearen Funktion
von ihr als Regressoren sinnvoll → nicht-konstante Grenzeffekte.
E[y|x] = β1+ β2 x
• Man kann auch eine Funktion von mehreren Regressoren als zusätzlichen Regressor
berücksichtigen (modelliert Interaktionen zwischen den Regressoren)
x1
x
x2
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 25
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 27
Gauß-Markov Annahme 6 (Normalverteilte Störterme)
Logarithmus von Regressor und/oder Regressand
Gauß-Markov-Annahme 6 (GM6): Normalverteilte Störterme
Gegeben die Ausprägung x1, . . . , xK der erklärenden Variablen, ist der Störterm normalverteilt:
• Nimmt eine Variable nur positive Werte an, so kommt die Verwendung des Logarithmus der
u|x1,...,xK ∼ N (0, σ2)
• Wird anstelle einer (positivwertigen) Variablen ihr Logarithmus verwendet, so betrachtet man
←− unabhängig von x1, . . . , xK
beim Regressionskoeffizienten relative (statt absolute) Veränderung:
β gibt an, um
wieviel absolute Einheiten y steigt, wenn x um eine absolute Einheit erhöht wird
y auf x:
Normalverteilungen
y
f(y|x)
Variablen anstatt ihrer selbst in Frage.
β gibt (näherungsweise) an,
um wieviel (Hunderte) Prozent y steigt, wenn x um eine absolute Einheit erhöht wird;
Bei log“ ist die Einheit für Prozent“: 1 = 100%.
”
”
B EISPIEL : β = 0.025: Einheits-Änderung x ⇒ 2.5% Änderung y
log(y) auf x:
E[y|x] = β1+ β2 x
β gibt (näherungsweise) an,
um wieviel absolute Einheiten y steigt, wenn x um ein(hundert) Prozent erhöht wird;
y auf log(x):
log(y) auf log(x): β gibt (näherungsweise) an,
um wieviel Prozent y steigt, wenn x um ein Prozent erhöht wird (Elastizität).
x1
Philipps-Universität Marburg
x2
x
• Gilt nur mit log als dem natürlichen Logarithmus
in Stata: log(variable) = ln(variable) = natürlicher Logarithmus
K.-H. Schild
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 28
Beispiel Manager-Gehälter
Oft ist eine Variable selbst schon als Prozentsatz angegeben.
Zum Beispiel eine Rendite.
Dann spielt die Kodierung dieser Variable eine Rolle: 1 =
ˆ 1%
oder
1=
ˆ 100%?
Beispiel: Managergehalt salary erklärt durch Umsatz sales und Eigenkapitalrendite roe
log(salary) = β0 + βsales log(sales) + βroe roe + u
roe sei kodiert mit 1 =
ˆ 1% (7% =
ˆ 7, nicht: 7% =
ˆ 0.07)
(Das heißt: Die Einheit von roe ist 1 Prozentpunkt“)
”
Fragen:
Was bedeutet βsales = 0.75?
Was bedeutet βroe = 0.75?
Was gibt β0 an? (Hinweise: log(1) = 0 beachten; zum Schluss eβ0 betrachten)
Philipps-Universität Marburg
K.-H. Schild
Lin. Regr.Modelle: Gauß-Markov-Annahmen
Folie 29
Quadrat eines Regressors, Interaktionsterme
• Verwendet man zusätzlich zu x eine nicht-lineare Funktion von x, wie das Quadrat x2, als
Regressor, so sieht man veränderliche Grenzeffekte von x auf y vor.
• Bei x2 als zusäzlichem Regressor modelliert man einen parabelförmigen Verlauf:
Maximum, falls β2 < 0
β1
2
y = β0 + β1 x + β2 x ⇒ bei x = −
liegt
2β2
Minimum, falls β2 > 0
Interaktionsterme
• Wenn man xi · x j als zusätzlichen Regressor in das Regressionsmodell einschließt,
berücksichtigt man den Effekt einer Interaktion von xi und x j auf y
• Für ein Modell der Form y = β0 + β1 x1 + β2 x2 + β3 x1 x2 (+u) hängt der Effekt von x1 auf y
von x2 ab:
∂u ∂y
= β1 + β3 x2
+
∂x1
∂x1
Um den Effekt durch eine Zahl zu quantifizieren, wird hier oft x2 durch x̄2 ersetzt.
Philipps-Universität Marburg
K.-H. Schild
Zugehörige Unterlagen
Herunterladen