Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 2 Lineare Regression als das grundlegende Tool Wie generell in der Ökonometrie, so auch in der Analyse von Mikro-Daten: Mikro-Ökonometrie – Einführungsveranstaltung (Gauß-Markov-Annahmen f. Lin. Regr.Modelle) Die lineare Regression (ist nicht das einzige, aber) das grundlegende statistische Verfahren zur Datenanalyse. K.-H. Schild Die Bezeichnung lineare Regression“ umfasst: ” 17. Oktober 2014 • Zum einen das Modell, das – abgesehen von statistischen Störfaktoren“ – einen linearen ” Zusammenhang zwischen den Variablen unterstellt. • Zum anderen das Schätzverfahren für die Parameter (das sind die Linear- oder Regressionskoeffizienten des Modells) Wenn man Regression“ sagt, ist i.d.R. eine Kleinste-Quadrate-Schätzung (ordinary ” least squares = OLS) gemeint. Wir beschäftigen uns heute noch nicht mit dem zweiten Punkt (OLS-Schätzung), sondern lediglich mit dem ersten Punkt (Modell-Annahmen), denn ... Philipps-Universität Marburg Philipps-Universität Marburg Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 1 Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 3 Gauß-Markov-Annahmen definieren den Modellrahmen Was ist Mikro-Ökonometrie? • Es soll erst einmal ein Rahmen geschaffen werden, in dem die Modellannahmen formuliert • Mikro-Ökonometrie: sind (und die Eigenschaften der OLS-Schätzung sich fassen lassen). Statistische Analyse ökonomischer Daten auf individuellem Level, d.h. Daten von Mikro-Einheiten“ ” typisch: Daten von Unternehmen, Haushalten, Arbeitnehmern usw. Daten sind fast immer hochgradig multivariat“, d.h. Anzahl Variablen >> 2 ” • Diese Annahmen werden häufig unter dem Oberbegriff der Gauß-Markov Annahmen zusammengefasst; dabei Orientierung an Wooldridge, Introductory Econometrics, Kap. 1-3 • Der Modellrahmen bezieht sich auf Querschnittsdaten, die durch eine Zufallsstichprobe aus • In der Regel hat man in der Mikro-Ökonometrie entweder – Querschnittsdaten (ein Satz von Variablen wurde für eine große Menge der betrachteten Mikro-Einheiten“ zu ” einem festen Zeitpunkt erhoben oder steht sonstwie zur Verfügung) oder – Panel-Daten (zu einer Sequenz von Zeitpunkten verfügbare Querschnittsdaten). – Querschnittsdaten: Die Mikro-Einheit ist ein Individuum i. – Panel-Daten: Die Mikro-Einheit ist ein Individuum i zu einem Zeitpunkt t , z.B. ein Unternehmens-Jahr Man benötigt einen ‘Doppel-Index’ (i,t) zur Beschreibung einer Einheit. Philipps-Universität Marburg K.-H. Schild K.-H. Schild einer Population (Grundgesamtheit) entstanden sind. • Zwar hat man bei empirischen Daten oft keine wirkliche Zufallsstichprobe. Die Zufallsstichprobe ist aber das einfachste Modell, wenn stochastische Regressoren zugelassen sein sollen (Stochastische Regressoren: Auch die Regressoren (= erklärenden Variablen) werden als Zufallsvariablen gesehen) Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 4 Lin. Regr.Modelle: Gauß-Markov-Annahmen Population und Einheiten, Variablen Folie 6 Beispiel 1: • Querschnittsdaten: Die Population besteht aus Einheiten i Population/Einheiten = Berufstätige in den USA (im Jahr 1987) y = wage (in 1980 $) per hour (wage) x1 = experience in years (exper) x2 = 1 if male, 0 otherwise (male) x3 = years of schooling (school) (z.B. Individuen, Haushalte, Unternehmen usw.). • Für jede Einheit der Population soll – eine Variable y – (zumindest teilweise) erklärt werden – durch andere Variablen x1, . . . , xK ← insgesamt K Stück Deskriptive Statistiken der Variablen (in einer Stichprobe): • Hauptinteresse: Welchen Einfluss haben (einige, vielleicht nicht alle) der Variablen x1, . . . , xK auf y? • in folgendem Sinne: Wenn sich x j ändert (und sonst nichts), wie ändert sich dann y? Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------exper | 3294 8.043412 2.290661 1 18 male | 3294 .5236794 .4995148 0 1 school | 3294 11.63054 1.657545 3 16 wage | 3294 5.757585 3.269186 .0765556 39.80892 • oder anders gesagt: Wenn man x j exogen ändert, wie ändert sich dann y? Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 5 Philipps-Universität Marburg Lin. Regr.Modelle: Gauß-Markov-Annahmen K.-H. Schild Folie 7 Beispiel 2: Daten Krankenversicherter aus den USA Erklärte Variable und erklärende Variablen Verfügbare Variablen (Auszug): • Gebräuchliche Bezeichnungen für die Variablen y und x1, . . . , xK : Philipps-Universität Marburg y x1, . . . , xK Abhängige Variable Unabhängige Variablen Erklärte Variable Erklärende Variablen Endogene Variable Exogene Variablen Outcome-Variable Kontrollvariablen Predizierte Variable Prediktorvariablen Regressand Regressoren obs: 3,064 vars: 33 -------------------------------------------------------------------------------------------storage display value variable name type format label variable label -------------------------------------------------------------------------------------------age double %12.0g Age famsze double %12.0g Size of the family educyr double %12.0g Years of education totexp double %12.0g Total medical expenditure private double %12.0g =1 if private supplementary insurance retire double %12.0g =1 if retired female double %12.0g =1 if female white double %12.0g =1 if white hisp double %12.0g =1 if Hispanic marry double %12.0g =1 if married northe double %12.0g =1 if northeast area mwest double %12.0g =1 if Midwest area south double %12.0g =1 if south area (West is excluded) phylim double %12.0g =1 if has functional limitation actlim double %12.0g =1 if has activity limitation msa double %12.0g =1 if metropolitan statistical area income double %12.0g annual household income/1000 injury double %12.0g =1 if condition is caused by an accident/injury totchr double %12.0g # of chronic problems omc double %12.0g =1 if other managed care (Privately insured sample) hmo double %12.0g =1 if private insurance is HMO (Privately insured sample) posexp float %9.0g =1 if total expenditure > 0 ltotexp float %9.0g ln(totexp) if totexp > 0 -------------------------------------------------------------------------------------------- K.-H. Schild Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 8 Lin. Regr.Modelle: Gauß-Markov-Annahmen Beispiel 2: (Fortsetzung) Folie 10 Nicht-Linearitäten • Auf den ersten Blick scheint ein lineares Modell sehr einschränkend, aber: • Man muss nicht unbedingt eine beobachtete Größe eins-zu-eins einem der x j oder y zuord- Deskriptive Statistiken einiger Variablen: nen Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------totexp | 3064 7030.889 11852.75 0 125610 ltotexp | 2955 8.059866 1.367592 1.098612 11.74094 posexp | 3064 .9644256 .1852568 0 1 age | 3064 74.17167 6.372938 65 90 female | 3064 .5796345 .4936982 0 1 income | 3064 22.47472 22.53491 -1 312.46 private | 3064 .5812663 .4934321 0 1 phylim | 3064 .4255875 .4945125 0 1 actlim | 3064 .2836162 .4508263 0 1 totchr | 3064 1.754243 1.307197 0 7 • Man kann auch Funktionen, z.B. – das Quadrat oder – den Logarithmus oder – sonst eine Funktion einer beobachteten Größe verwenden (für eine erklärende Variable x j wie für die erklärte Variable y) • Das geht: – Anstelle der beobachteten Größe oder Interessierende Variablen: y = totexp, x1 = age, x2 = female, x3 = income, x4 = private , x5 = totchr, .... Philipps-Universität Marburg – zusätzlich zur beobachteten Größe • Damit wird das lineare Modell doch recht flexibel K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 9 → wir kommen später darauf zurück Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Gauß-Markov Annahme 1 (Lineares Modell) Folie 11 Störterm als unbeobachteter Faktor Gauß-Markov-Annahme 1 (GM1): Lineares Modell Das Modell in der Population kann geschrieben werden als • Der Störterm u repräsentiert unbeobachtete Faktoren, y = β1 x1 + . . . + βK xK + u, • die auch einen Einfluss auf y haben, aber von den x j nicht erfasst werden. wobei β1, . . . , βK die unbekannten Parameter sind, für die man sich interessiert, und u eine unbeobachtete Zufallsvariable ist, die Fehlerterm oder Störterm genannt wird. Die Parameter sind Konstanten, die man auch Regressionskoeffizienten nennt. • Ohne zusätzliche Annahmen über den Störterm ist die Annahme GM1 keine Annahme, sondern eine Tautologie • da man eine Größe y immer in eine Linearkombination von beobachteten Größen x1, . . . , xK und einen ‘Rest’ u zerlegen kann. • In fast allen Modellen: Konstante (Interzept) wird eingeschlossen. • Das lässt sich modellieren, indem eines der x j (keine ‘richtige’ Variable, sondern) die Konstante 1 ist. • Um die Sonderrolle der Konstanten hervorzuheben schreiben wir dann (oft) das Modell als • (Man definiert den ‘Rest’ einfach als die Differenz.) • Von den folgenden Annahmen über den Störterm ist die Exogenitätsannahme die wichtigste. y = β0 + β1 x1 + . . . + βK xK + u • Wir müssen dann nur beachten, dass wir K + 1 (statt K ) Parameter haben. Philipps-Universität Marburg K.-H. Schild Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 12 Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 14 Beispiel: Störterme und omitted variables • Wenn man relevante Regressoren nicht berücksichtigt (d.h. das Modell mit weniger erklärenden Variablen ansetzt als benötigt: Unterspezifikation) wage = β0 + β1 male + β2 school + β3 exper (+β4 age + β6 IQ + ....) + u • dann sprechen wir von ‘omitted variables’ (‘weggelassenen Variablen’) • Angenommen wage wird in $ (pro Stunde) und school in ‘Jahren’ gemessen, • ‘Omitted variables’ sind Bestandteil des Störterms, • Dann gibt β2 in diesem Beispiel an, • da sie genau wie unbeobachtete Faktoren wirken. • um wieviel $ sich sich der Stundenlohn pro zusätzlichem Jahr Ausbildung im Schnitt erhöht. • Omitted variables können Verzerrungen bei der Schätzung des Modells auslösen. (D.h. was ist ein Ausbildungsjahr wert, wenn man den ‘Wert’ im Stundenlohn misst?) • Auch so zu sehen: Indem man zusätzliche Variablen (an deren Effekt auf y man vielleicht • (Was wir eigentlich wissen möchten ist: Um wieviel erhöht sich der Lohn bei einer exogenen gar nicht interessiert ist) in eine Regression einbezieht, erhält man eher den Effekt einer exogenen Veränderung der bereits einbezogenen Variablen auf y. Man schätzt dann den Effekt der ursprünglichen Variablen bei Kontrolle zusätzlicher Variablen. Erhöhung der Ausbildungsdauer, d.h. wenn wir die gleiche Person ein Jahr länger ausbilden lassen – wir müssten dazu nicht nur male und exper konstant halten, sondern auch u) • Die Problematik von omitted variables ist ein Grund, warum man multiple Regressionsmodelle (statt nur das einfache Modell y = β0 + β1x) benötigt. Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 13 • (Es ist anzunehmen, dass β2 ein positives Vorzeichen hat.) • Frage: Was gibt β1 an? Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Bedeutung der Regressionskoeffizienten Folie 15 Gauß-Markov Annahme 2 (Zufallsstichprobe) • Der Parameter β j in der Regressionsbeziehung ist eine Änderungsrate: • Im ersten Teil der Veranstaltung: Das ‘datengenerierende Modell’ ist • Er misst, um wieviele Einheiten sich y ändert, wenn x j um eine Einheit geändert wird, • eine Zufallsstichprobe aus der Population • und zwar ceteris paribus, d.h. wenn alle anderen Faktoren (die x j mit j = j und u) konstant gehalten werden. • (passt nicht so richtig auf Panel-Daten – wir sollten nicht so tun, als ob die Beobachtung von Individuum i zum Zeitpunkt t vollkommen unabhängig von derjenigen des gleichen Individuums zum Zeitpunkt t ist) • In diesem Sinne misst β j den Einfluss, den x j auf y hat Das heißt: β j ist das Grenz-y von x j (abgesehen von u). Gauß-Markov-Annahme 2 (GM2): Zufallsstichprobe Es liegt eine Zufallsstichprobe von N Beobachtungen Beachte aber: • Die Annahme, dass u bei einer Änderung von x j sich nicht ändert, ist nicht verifizierbar, da u per Definition unbeobachtet ist. (xi,1, . . . , xi,K , yi), vor, für die das Populationsmodell aus (GM1) gilt, d.h. • Diese Annahme wird später (GM4) im Wesentlichen ersetzt werden durch die Annahme, dass für u ein Wert von 0 zu erwarten ist und es keine Systematik in der Änderung von u gibt, wenn sich x j ändert. Philipps-Universität Marburg K.-H. Schild i = 1, . . . , N yi = β1 xi,1 + . . . + βK xi,K + ui, , Philipps-Universität Marburg i = 1, . . . , N. K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 16 Lin. Regr.Modelle: Gauß-Markov-Annahmen Implikationen von GM2 (Zufallsstichprobe) Folie 18 GM Annahme 3 (keine perfekte Kollinearität) 1) Keinerlei Zusammenhänge/Abhängigkeiten zwischen den Einheiten: Um die Parameter identifizieren (d.h. eindeutig schätzen) zu können, brauchen wir: • Ein X von i ist immer (stochastisch) unabhängig von einem X von i , solange i = i . • Diese Annahme kann durch Clustering verletzt sein (z.B.: Daten aus gleicher Region korrelieren) Gauß-Markov Annahme 3 (GM3): keine perfekte Kollinearität Die erklärenden Variablen in der Population und in der Stichprobe sind nicht kollinear (d.h. sie sind linear unahbhängig). Anmerkung 2) Keine Autokorrelation der Störterme • Kollinearität = lineare Abhängigkeit. • Bei uns ist der Ausschluss von Störterm-Autokorrelation implizit in GM2 enthalten • Es gilt: (in vielen Lehrbüchern wird das explizit gefordert, müssen wir nicht machen) GM3 ⇐⇒ x1, . . . xK lin. unabh. ⇐⇒ rang(X) = K ⇐⇒ X X regulär • X X ist eine K × K -Matrix (die immer symmetrisch und positiv semi-definit ist). Diese Matrix wird später benötigt werden. Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 17 Matrixnotation Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 19 Gauß-Markov Annahme 4 (Exogenität der erklärenden Variablen) • Wir fassen die Realisierungen der Variablen zu (Spalten-)vektoren zusammen: ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ y1 x1, j u1 ⎜ y2 ⎟ ⎜ x2, j ⎟ ⎜ u2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎟ y=⎜ ⎝ ... ⎠ , x j = ⎝ ... ⎠ (für j = 1, . . . , K), u = ⎝ ... ⎠ , yN xN, j uN • Wir fordern nun: – der Störterm ist im Mittel 0 und – er hat keinen systematischen Zusammenhang mit den erklärenden Variablen. • Das machen wir mit drei verschiedenen mathematischen Konstrukten Das Modell für alle Beobachtungen schreibt sich dann als Version 1 (mit stochastischer Unabhängigkeit): y = β1 x1 + . . . + βK xK + u • oder mit der Matrix und dem Parametervektor ⎛ Gauß-Markov-Annahme 4 (GM4.1): Exogenität der erklärenden Variablen Der Störterm hat einen erwarteten Wert von 0 und ist stochastisch unabhängig von den erklärenden Variablen x1, . . . , xK : ⎞ x1,1 . . . x1,K ⎜ x2,1 ... x2,K ⎟ ⎟ X =⎜ ... ⎠ ⎝ ... xN,1 . . . xN,K β = ( β1, . . . , βK ) ganz kompakt als E[u] = 0 und u ist stochastisch unabhängig von x1, . . . , xK y = Xβ + u Philipps-Universität Marburg K.-H. Schild Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 20 Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 22 Alternative Formulierung des Populationsmodells aus GM1, GM4 Versionen 2 und 3 der Exogenitätsannahme Version 2 (mit Unkorreliertheit): Gauß-Markov-Annahme 4 (GM4.2): Exogenität der erklärenden Variablen Der Störterm hat eine erwarteten Wert von 0 und korreliert nicht mit den erklärenden Variablen x1, . . . , xK : E[u] = 0 und cov(u, x j ) = 0 für j = 1, . . . , K Da Unabhängigkeit ⇒ Unkorreliertheit“, ist Version 2 schwächer als Version 1 ” Version 3 (mit bedingten Erwartungswerten): drücken: E[y | x1, . . . , xK ] = β1 x1 + . . . + βK xK Lies: Bei gegebenen x1, . . . , xK ist der erwartete Wert von y durch die lineare Funktion β1 x1 + . . . + βK xK gegeben. • Der Störterm ist dann Gauß-Markov-Annahme 4 (GM4.3): Exogenität der erklärenden Variablen Der Störterm hat – bei jeder gegebenen Ausprägung der erklärenden Variablen x1, . . . , xK – einen erwarteten Wert von 0: E[u | x1, . . . , xK ] = 0 • Man kann das Populationsmodell aus GM1 und GM4.3 mit einer einzigen Gleichung aus- und GM4.3 gilt automatisch: E[u | x1, . . . , xK ] ←− unabhängig von x1, . . . , xK E[Y | x] = const (unabh. von x) ⇒ Erw.Wert von Y hängt nicht von X = x ab. K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 21 = E y − E[y | x1, . . . , xK ] x1, . . . , xK = E y | x1, . . . , xK − E E[y | x1, . . . , xK ] x1, . . . , xK = E y | x1, . . . , xK − E[Y | x] := E[Y | X = x]: Erwartungswert von Y , wenn X bei X = x fixiert wird, Funktion von x. Philipps-Universität Marburg u := y − E[y | x1, . . . , xK ] iterierter bed. Erw.Wert E y | x1, . . . , xK = 0 Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 23 Exogenität als Orthogonalität von u zu x1, . . . , xK Verletzung der Exogenitätsannahme: E[u] = 0, aber E[u|x] = 0: In Bezug auf die ‘Stichprobenvektoren’ besagt die Exogenitätsannahme (in der Vers. 2): Verletzung der Exog. Annahme: E[u] = 0, aber: f(y|x) • Der Vektor u steht senkrecht zu allen Vektoren x j ( j = 1, . . . , K ). E[u|x2] = 0 E[u|x1] < 0 y • Das heißt: E[u|x3] > 0 u ⊥ span(x1, . . . , xK ). • Denn: cov(u, x j ) kann man durch die Stichprobenkovarianz y = β1+ β2 x (u, x j ) = (1/N) cov ∑(ui − ū) (xi, j − x̄ j) = (1/N) ∑ ui xi, j − ū x̄ j i i schätzen und E[u] = 0 entspricht ū = 0. x1 x2 x3 x (u, x j ) als das Skalarprodukt (1/N)ux j schreiben. • Damit lässt sich cov Zeigt: E[u] = 0 (alleine) reicht nicht aus. Anm: E[u] = 0 kann man immer erreichen durch Einschluss einer Konstanten! Philipps-Universität Marburg K.-H. Schild Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 24 Lin. Regr.Modelle: Gauß-Markov-Annahmen Gauß-Markov-Annahme 5 (GM5): Homoskedastie Gegeben die Ausprägung x1, . . . , xK der erklärenden Variablen, hat der Störterm die (konstante) Varianz σ2 Var(u | x1, . . . , xK ) = σ2 ←− unabhängig von x1, . . . , xK f(y|x) y Folie 26 Funktionale Form; Modellierung nicht-linearer Effekte Gauß-Markov Annahme 5 (Homoskedastie) • Die Vielseitigkeit des linearen Regressionsmodells resultiert u.a. daraus, dass man nicht gezwungen ist, eine Variable in der vorgefundenen Form zu verwenden. • Es ist (zumindest rein technisch) kein Problem, anstatt der Variablen eine Funktion von ihr (z.B. den Logarithmus oder das Quadrat) zu verwenden. 2σ (konstant) • Das betrifft sowohl den Regressanden y als auch die Regressoren (x j ) • Oft ist auch die parallele Verwendung der Variablen und einer nicht-linearen Funktion von ihr als Regressoren sinnvoll → nicht-konstante Grenzeffekte. E[y|x] = β1+ β2 x • Man kann auch eine Funktion von mehreren Regressoren als zusätzlichen Regressor berücksichtigen (modelliert Interaktionen zwischen den Regressoren) x1 x x2 Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 25 Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 27 Gauß-Markov Annahme 6 (Normalverteilte Störterme) Logarithmus von Regressor und/oder Regressand Gauß-Markov-Annahme 6 (GM6): Normalverteilte Störterme Gegeben die Ausprägung x1, . . . , xK der erklärenden Variablen, ist der Störterm normalverteilt: • Nimmt eine Variable nur positive Werte an, so kommt die Verwendung des Logarithmus der u|x1,...,xK ∼ N (0, σ2) • Wird anstelle einer (positivwertigen) Variablen ihr Logarithmus verwendet, so betrachtet man ←− unabhängig von x1, . . . , xK beim Regressionskoeffizienten relative (statt absolute) Veränderung: β gibt an, um wieviel absolute Einheiten y steigt, wenn x um eine absolute Einheit erhöht wird y auf x: Normalverteilungen y f(y|x) Variablen anstatt ihrer selbst in Frage. β gibt (näherungsweise) an, um wieviel (Hunderte) Prozent y steigt, wenn x um eine absolute Einheit erhöht wird; Bei log“ ist die Einheit für Prozent“: 1 = 100%. ” ” B EISPIEL : β = 0.025: Einheits-Änderung x ⇒ 2.5% Änderung y log(y) auf x: E[y|x] = β1+ β2 x β gibt (näherungsweise) an, um wieviel absolute Einheiten y steigt, wenn x um ein(hundert) Prozent erhöht wird; y auf log(x): log(y) auf log(x): β gibt (näherungsweise) an, um wieviel Prozent y steigt, wenn x um ein Prozent erhöht wird (Elastizität). x1 Philipps-Universität Marburg x2 x • Gilt nur mit log als dem natürlichen Logarithmus in Stata: log(variable) = ln(variable) = natürlicher Logarithmus K.-H. Schild Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 28 Beispiel Manager-Gehälter Oft ist eine Variable selbst schon als Prozentsatz angegeben. Zum Beispiel eine Rendite. Dann spielt die Kodierung dieser Variable eine Rolle: 1 = ˆ 1% oder 1= ˆ 100%? Beispiel: Managergehalt salary erklärt durch Umsatz sales und Eigenkapitalrendite roe log(salary) = β0 + βsales log(sales) + βroe roe + u roe sei kodiert mit 1 = ˆ 1% (7% = ˆ 7, nicht: 7% = ˆ 0.07) (Das heißt: Die Einheit von roe ist 1 Prozentpunkt“) ” Fragen: Was bedeutet βsales = 0.75? Was bedeutet βroe = 0.75? Was gibt β0 an? (Hinweise: log(1) = 0 beachten; zum Schluss eβ0 betrachten) Philipps-Universität Marburg K.-H. Schild Lin. Regr.Modelle: Gauß-Markov-Annahmen Folie 29 Quadrat eines Regressors, Interaktionsterme • Verwendet man zusätzlich zu x eine nicht-lineare Funktion von x, wie das Quadrat x2, als Regressor, so sieht man veränderliche Grenzeffekte von x auf y vor. • Bei x2 als zusäzlichem Regressor modelliert man einen parabelförmigen Verlauf: Maximum, falls β2 < 0 β1 2 y = β0 + β1 x + β2 x ⇒ bei x = − liegt 2β2 Minimum, falls β2 > 0 Interaktionsterme • Wenn man xi · x j als zusätzlichen Regressor in das Regressionsmodell einschließt, berücksichtigt man den Effekt einer Interaktion von xi und x j auf y • Für ein Modell der Form y = β0 + β1 x1 + β2 x2 + β3 x1 x2 (+u) hängt der Effekt von x1 auf y von x2 ab: ∂u ∂y = β1 + β3 x2 + ∂x1 ∂x1 Um den Effekt durch eine Zahl zu quantifizieren, wird hier oft x2 durch x̄2 ersetzt. Philipps-Universität Marburg K.-H. Schild