0. Grundlagen der Ökonometrie 0.1 Struktur ökonomischer Daten Querschnittsdaten: • Daten, die zu einem Zeitpunkt (der gelegentlich auch etwas variieren kann) an einer Untersuchungseinheit erhoben werden (die Anordnung der Einheiten im Datensatz spielt dabei für die Analyse keine Rolle) • Ausgangspunkt ist meist die implizite Annahme, dass es sich bei der Erhebung um eine Zufallsstichprobe handelt • Beispiele: Personen- oder Haushaltsdaten (z.B. Einkommen), Unternehmensdaten (z.B. Umsätze), Städte- oder Länderdaten (z.B. Arbeitslosigkeit) --------------------------------------------------------------------------------------------------------Beispiel: Beobachtungsnummer 1 2 3 : 10 11 12 Land A B C : J K L Bevölkerungsdichte 212,4 623,7 93,1 : 287,4 166,2 388,1 BIP pro Einwohner 20116 24966 19324 : 23136 20707 23624 Erwerbstät. Landwirt. 9,8 3,4 23,6 : 8,8 14,1 9,6 Wachstum BIP 53 73,1 47,9 : 59,4 74 54,3 Geburtenziffer 8,4 6,1 12,3 : 12,4 13 6,9 Wanderungssaldo -0,7 3,4 -1,9 : 1,7 3,6 -0,4 1 --------------------------------------------------------------------------------------------------------- Zeitreihendaten: • Daten, die bei einer Variablen oder verschiedenen Variablen über mehrere aufeinander folgende Zeitperioden erhoben werden • Zeit ist hier eine wichtige Dimension (d.h. Beobachtungen sind meist über die Zeit korreliert), so dass die Anordnung der Beobachtungen im Datensatz potentiell wichtige Informationen enthält • Die Häufigkeit der Datensammlung über die Zeit kann stark variieren, z.B. täglich, wöchentlich, monatlich, quartalsweise oder jährlich mit möglichen Saisoneffekten bei unterjährigen Daten • Beispiele: Makroökomische Daten (z.B. Einkommen, Konsum, Investitionen, Geldangebot, Preisindex), Finanzmarktdaten (z.B. Aktienkurse) --------------------------------------------------------------------------------------------------------Beispiel: Beobachtungsnummer Jahr Inflation USA Arbeitslosenquote USA 1 2 1948 1949 8,1 -1,2 3,8 5,9 3 1950 1,3 5,3 4 1951 7,9 3,3 : : : : 54 2001 2,8 4,7 55 2002 1,6 5,8 2 --------------------------------------------------------------------------------------------------------- Aggregierte (gepoolte) Querschnittsdaten: • Daten, die sowohl Querschnitts- als auch Zeitreiheneigenschaften aufweisen, da mehrere Querschnittsdatensätze unabhängig voneinander über verschiedene Perioden erhoben und zur Erhöhung des Stichprobenumfangs miteinander verknüpft werden • Obwohl die Anordnung der Beobachtungen im Datensatz nicht wesentlich ist, wird die entsprechende Periode als wichtige Variable erfasst • Daten werden meist wie herkömmliche Querschnittsdaten analysiert • Beispiele: Personen- oder Haushaltsdaten (z.B. Einkommen, Ausgaben) in verschiedenen Jahren --------------------------------------------------------------------------------------------------------Beispiel: Beobachtungsnummer Jahr Hauspreis Vermögenssteuer Grundstücksgröße 1 2 1993 1993 85500 67300 42 36 1600 1440 : : : : : 250 1993 243600 41 2600 251 1995 65000 16 1250 : : : : : 520 1995 57200 16 1100 ---------------------------------------------------------------------------------------------------------3 Paneldaten: • Daten, die sowohl eine Zeitreihen- als auch eine Querschnittsdimension haben, wobei hier im Unterschied zu aggregierten Querschnittsdaten dieselben Untersuchungseinheiten (z.B. Personen, Unternehmen, Länder) über mehrere Zeitperioden beobachtet werden • Oft ist die Anzahl der Einheiten deutlich größer als die Zeitdimension • Anordnung der Daten erfolgt oft erst nach Einheiten und dann Perioden • Daten bieten die Möglichkeit für nicht beobachtbare Charakteristika der Einheiten zu kontrollieren sowie verzögerte Reaktionen zu untersuchen • Beispiele: Personen- oder Haushaltspaneldaten (z.B. SOEP), Unternehmenspaneldaten (z.B. MIP), Länderpaneldaten --------------------------------------------------------------------------------------------------------Beispiel: Beobachtungsnummer 1 2 3 4 : 299 300 Haushalt 1 1 2 2 : 150 150 Jahr 2000 2005 2000 2005 : 2000 2005 Größe 5 6 2 2 : 3 4 Nettoeinkommen 3200 3500 2900 3000 : 1793 2380 Raucherhaushalt ja ja nein nein : nein nein 4 --------------------------------------------------------------------------------------------------------- 0.2 Lineare Regressionsmodelle (mit Querschnittsdaten) Multiples lineares Regressionsmodell: y = β0 + β1x1 + β 2 x 2 + β3x 3 + + β k-1x k-1 + β k x k + ε Dabei gilt: x1, x2, x3, …, xk-1, xk: Erklärende Variablen β0: Konstante β1: Dieser Parameter misst den Effekt einer Veränderung von x1 auf y, falls alle anderen beobachteten und unbeobachteten Faktoren konstant sind : βk: Dieser Parameter misst den Effekt einer Veränderung von xk auf y, falls alle anderen beobachteten und unbeobachteten Faktoren konstant sind ε: Störterm Wesentliche Annahme für den Störterm ε: E(ε|x1 , x 2 , , xk ) = 0 Diese Annahme besagt, dass der Störterm ε im Erwartungswert von den erklärenden Variablen x1, x2, …, xk unabhängig (mean independent) ist. 5 Für die weitere Analyse linearer Regressionsmodelle benötigt man eine Stichprobe vom Umfang n aus der Grundgesamtheit. Multiples lineares Regressionsmodell mit k erklärenden Variablen: {(xi1, xi2,…, xik, yi), i = 1,…, n} Unter Einbeziehung der Beobachtungen i = 1,…, n ergibt sich folgendes lineares Regressionsmodell: y i = β0 + β1x i1 + β 2 x i2 + + β k x ik + ε i Dabei ist z.B. xik der Wert der erklärenden Variablen k bei Beobachtung i. Wesentliche Aufgabe der Regressionsanalyse: Schätzung der unbekannten Regressionsparameter β0, β1, β2,… Optimierungsproblem bei der Methode der kleinsten Quadrate im multiplen linearen Regressionsmodell: n min b0 , b1 , b2 ,..., bk (y - b - b x i 0 1 i1 - b 2 x i2 - - b k x ik ) 2 i=1 6 Daraus folgen die Bedingungen erster Ordnung für die k+1 geschätzten Regressionsparameter: n (y - βˆ - βˆ x i 0 1 i1 - βˆ 2 x i2 - - βˆ k x ik ) = 0 i=1 n x i1 (yi - βˆ 0 - βˆ 1x i1 - βˆ 2 x i2 - - βˆ k x ik ) = 0 i2 (yi - βˆ 0 - βˆ 1x i1 - βˆ 2 x i2 - - βˆ k x ik ) = 0 ik (yi - βˆ 0 - βˆ 1x i1 - βˆ 2 x i2 - - βˆ k x ik ) = 0 i=1 n x i=1 n x i=1 OLS-Regressionswerte („fitted values“) sind geschätzte Werte der abhängigen Variablen: ŷ i = βˆ 0 + βˆ 1x i1 + βˆ 2 x i2 + + βˆ k x ik für i = 1, ,n OLS-Regressionsfunktion: ŷ = βˆ 0 + βˆ 1x1 + βˆ 2 x 2 + + βˆ k x k 7 Interpretation der geschätzten Parameter in multiplen linearen Regressionsmodellen: ŷ = βˆ 0 + βˆ 1x1 + βˆ 2 x 2 + + βˆ k x k ŷ = βˆ 1x1 + βˆ 2 x 2 + + βˆ k x k Falls x2, x3, x4,…, xk konstant gehalten werden, folgt: ŷ = βˆ 1x1 In diesem Fall gibt also der geschätzte Parameter für die erklärende Variable x1 die Veränderung des Regressionswertes an, falls x1 um eine Einheit steigt. Falls x1, x2, x3,…, xk-1 konstant gehalten werden, folgt: Δyˆ = βˆ k Δx k In diesem Fall gibt also der geschätzte Parameter für die erklärende Variable xk die Veränderung des Regressionswertes an, falls xk um eine Einheit steigt Die geschätzten Parameter können somit als geschätzte partielle Effekte interpretiert werden, d.h. bei der Schätzung des Effektes einer Variablen wird für die anderen erklärenden Variablen kontrolliert. Dies ist der große Vorteil der Regressionsanalyse (bzw. allgemein ökonometrischer Analysen), d.h. es kann eine ceteris paribus Betrachtung vorgenommen werden, ohne dass ein entspre8 chendes kontrolliertes Experiment durchgeführt werden muss. Residuen (geschätzte Störterme): Differenz zwischen den tatsächlich beobachteten Werten der abhängigen Variablen und der OLS-Regressionswerte. εˆ i = yi - yˆ i = yi - βˆ 0 - βˆ 1x i1 - βˆ 2 x i2 - - βˆ k x ik für i = 1,…, n Alternative Darstellung linearer Regressionsmodelle: y i = yˆ i + εˆ i = βˆ 0 + βˆ 1x i1 + βˆ 2 x i2 + + βˆ k x ik + εˆ i für i = 1,…, n Gesamte Abweichungsquadratsumme („total sum of squares“) : n SST = 2 (y y) i i=1 Erklärte Abweichungsquadratsumme („explained sum of squares“): n SSE = (yˆ - y)ˆ n 2 i = i=1 (yˆ - y) 2 i i=1 Residualabweichungsquadratsumme („residual sum of squares“): n SSR = (εˆ - ε)ˆ n 2 i i=1 = εˆ 2 i i=1 Es gilt: SST = SSE + SSR SSR SSE + =1 SST SST 9 Bestimmtheitsmaß (Determinationskoeffizient): Anteil der Variation der abhängigen Variablen yi, der durch die OLS-Regressionsfunktion erklärt wird R2 = SSE SSR =1SST SST Das Bestimmtheitsmaß entspricht auch dem quadrierten Korrelationskoeffizienten zwischen den abhängigen Variablen und den OLS-Regressionswerten: 2 2 ˆ ˆ ˆ (y y)(y y) (y y)(y y) i i i i 2 i=1 i=1 R = n = n n n 2 2 2 2 ˆ ˆ ˆ (y y) (y y) (y y) (y y) i i i i i=1 i=1 i=1 i=1 n n Eigenschaften des Bestimmtheitsmaßes: • 0 ≤ R2 ≤ 1 • R2 sinkt niemals, wenn eine weitere (möglicherweise irrelevante) erklärende Variable hinzugefügt wird (da SSR in diesem Fall niemals ansteigt) • Aus diesem Grund ist R2 ein schlechtes Maß zur Beurteilung der Güte eines linearen Regressionsmodells (auch das angepasste Bestimmtheitsmaß, das die Anzahl der erklärenden Variablen berücksichtigt, ist kein generell geeignetes Maß zur Beurteilung der Güte eines linearen Regressionsmodells) 10 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Löhnen (I) Mit Hilfe eines linearen Regressionsmodells soll der Effekt der Ausbildungszeit in Jahren (educ), der Berufserfahrung in Jahren (exper) und der Betriebszugehörigkeit in Jahren (tenure) auf den Logarithmus des Stundenlohns (logwage) untersucht werden: logwage = β0 + β1educ + β 2exper + β3tenure + ε Dabei wurde folgende OLS-Regressionsfunktion geschätzt: ˆ logwage= 0,284 + 0,092educ + 0,0041exper + 0,022tenure Interpretation: • Geschätzter positiver Einfluss der Ausbildungszeit: Falls exper und tenure konstant gehalten werden, führt eine um ein Jahr höhere Ausbildungszeit zu einer geschätzten Erhöhung des Logarithmus des Lohnes um 0,092 • Entsprechend liegen geschätzte positive Effekte von exper und tenure vor, wenn jeweils die anderen erklärenden Variablen konstant gehalten werden --------------------------------------------------------------------------------------------------------- 11 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Löhnen (II) reg logwage educ exper tenure Source | SS df MS -------------+-----------------------------Model | 46.8741806 3 15.6247269 Residual | 101.455582 522 .194359353 -------------+-----------------------------Total | 148.329763 525 .282532881 Number of obs F( 3, 522) Prob > F R-squared Adj R-squared Root MSE = = = = = = 526 80.39 0.0000 0.3160 0.3121 .44086 -----------------------------------------------------------------------------logwage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------educ | .092029 .0073299 12.56 0.000 .0776292 .1064288 exper | .0041211 .0017233 2.39 0.017 .0007357 .0075065 tenure | .0220672 .0030936 7.13 0.000 .0159897 .0281448 _cons | .2843595 .1041904 2.73 0.007 .0796755 .4890435 ------------------------------------------------------------------------------ --------------------------------------------------------------------------------------------------------- 12 0.3 Erwartungswert und Varianz von OLS-Schätzern Annahmen zur Betrachtung des Erwartungswerts von OLS-Schätzern: • Annahme A1: Linearität in den Parametern Der Zusammenhang zwischen der abhängigen Variablen y und den erklärenden Variablen x1, x2,…, xk ist linear in den Parametern, d.h. es gilt also y = β0 + β1x1 + β2x2 +…+ βkxk + ε • Annahme A2: Zufallsstichprobe Es liegt eine zufällige Stichprobe vom Umfang n aus der Grundgesamtheit vor mit {(xi1, xi2,…, xik, yi), i = 1,…, n}, so dass für eine zufällig ausgewählte Beobachtung i gilt: yi = β0 + β1xi1 + β2xi2 +…+ βkxik + εi • Annahme A3: Keine perfekte Kollinearität In der Stichprobe (und daher auch in der Grundgesamtheit) ist keine der erklärenden Variablen konstant und es besteht keine exakte lineare Beziehung zwischen den erklärenden Variablen • Annahme A4: Bedingter Erwartungswert von ε ist null Es gilt also E(ε|x1, x2,…, xk) = 0 Unter diesen vier Annahmen sind alle mit der OLS-Methode geschätzten Parameter erwartungstreu, d.h.: E(βˆ h ) = β h für h = 0, 1,…, k 13 Zu Annahme A4: Unter dieser Annahme liegen exogene erklärende Variablen vor. Falls dagegen A4 verletzt wird, liegen endogene erklärende Variablen bzw. Endogenität vor. • Eine Verletzung von A4 liegt z.B. vor, falls Messfehler in den erklärenden Variablen existieren oder der funktionale Zusammenhang zwischen den abhängigen und erklärenden Variablen fehlspezifiziert ist • Eine der wichtigsten Verletzungen von A4 liegt vor, wenn eine relevante erklärende Variable, die mit den anderen erklärenden Variablen korreliert ist, vernachlässigt wird Mögliche Verzerrungen bei der Vernachlässigung relevanter erklärender Variablen („omitted variable bias“) Es wird das folgende korrekte lineare Regressionsmodell betrachtet (wobei obige Annahmen A1 bis A4 erfüllt sind): y = β0 + β1x1 + β2 x 2 + + βk-1x k-1 + βk x k + ε Geschätzt wird dagegen folgendes fehlspezifizierte lineare Regressionsmodell, das xk vernachlässigt (z.B. aufgrund von Unkenntnis oder fehlender Daten): y = β0 + β1x1 + β2x 2 + + βk-1x k-1 + ε Damit ergeben sich folgende korrekte und fehlspezifizierte OLS-Regressions14 funktionen: ŷ = βˆ 0 + βˆ 1x1 + βˆ 2 x 2 + βˆ k-1x k-1 + βˆ k x k y = β0 + β1x1 + β2 x 2 + β k-1x k-1 Dabei gilt folgender Zusammenhang: β h = βˆ h + βˆ k δ h δh (h = 1,…, k-1) ist der mit OLS geschätzte Steigungsparameter für xh bei einer Regression von xk auf alle anderen erklärenden Variablen (einschließlich einer Konstante). Es ergibt sich: E(β h ) = β h + β k δ h Damit ist die OLS-Schätzung des Steigungsparameters in der Regel nicht erwartungstreu, wobei die Richtung der Verzerrung unklar ist. Es liegt nur dann keine Verzerrung vor, wenn βk or δh null ist. Falls δh null ist, sind xh und xk in der Stichprobe unkorreliert. Dagegen: Die Einbeziehung irrelevanter erklärender Variablen (d.h. einer oder mehrerer erklärender Variablen, die keinen partiellen Effekt auf die abhängige Variable haben) hat keine Auswirkung auf die Erwartungstreue der mit OLS geschätzten Parameter, führt also nicht zu Verzerrungen → Allerdings hat die Einbeziehung irrelevanter erklärender Variablen einen Ein15 fluss auf die Varianz der OLS-Schätzer Annahmen zur Betrachtung der Varianz von OLS-Schätzern: • Annahmen A1 bis A4 • Annahme A5: Homoskedastizität Die bedingte Varianz des Fehlerterms ε ist konstant, d.h. es gilt Var(ε|x1, x2,…, xk) = σ2. Falls dies nicht zutrifft, d.h. wenn die Varianz von den erklärenden Variablen abhängt, liegt Heteroskedastizität vor. → Die Annahmen A1 bis A5 werden (im Falle von Regressionsanalysen mit Querschnittsdaten) auch als Gauss-Markov-Annahmen bezeichnet Damit ergibt sich unter den Annahmen A1 bis A5 für die Varianz der mit OLS geschätzten Steigungsparameter in linearen Regressionsmodellen: Var(βˆ h ) = σ2 n (1-R 2h ) (x ih -x h ) 2 σ2 = (1-R 2h )SSTh für h = 1,…, k i=1 Dabei stellt Rh2 das Bestimmtheitsmaß bei einer Regression von xh auf alle anderen erklärenden Variablen (einschließlich einer Konstante) dar. → Während die Annahme der Homoskedastizität unwesentlich für die Erwartungstreue der geschätzten Parameter ist, gilt obige Varianz nur unter dieser Annahme, nicht aber bei Heteroskedastizität 16 Schätzung der Varianz σ2 des Fehlerterms ε: Die Schätzung von σ2 ist die Grundlage für die Schätzung der Varianz der (mit OLS) geschätzten Regressionsparameter Da σ2 = E(ε2), wäre folgender Schätzer für σ2 denkbar: 1 n 2 SSR ε̂ i = n i=1 n Allerdings ist dieser Schätzer verzerrt. Ein erwartungstreuer Schätzer ergibt sich folgendermaßen: 1 n 2 SSR ˆ σ̂ = ε = i n-k-1 n-k-1 i=1 2 Der entsprechende (zwar nicht erwartungstreue, aber konsistente, siehe später) Schätzer für die Standardabweichung σ des Fehlerterms ε („standard error of the regression, SER“) lautet dann: σˆ = σˆ = 2 1 n 2 εˆ i n-k-1 i=1 17 Damit kann nun die Varianz der mit OLS geschätzten Steigungsparameter in linearen Regressionsmodellen erwartungstreu geschätzt werden: 2 σ̂ ˆ ˆh) = Var(β (1-R 2h )SSTh für h = 1,…, k Standardabweichung der mit OLS geschätzten Steigungsparameter: Var(βˆ h ) = σ 2 h für h = 1,…, k (1-R )SSTh Die Standardabweichung kann dann folgendermaßen geschätzt werden: ˆ ˆh) = Var(β σ̂ 2 h für h = 1,…, k (1-R )SSTh Wichtig ist dabei, dass die Verwendung dieser Schätzer insbesondere auf der Annahme A5 der Homoskedastizität beruht. Bei Heteroskedastizität liegt dagegen eine verzerrte Schätzung für die Varianz der mit OLS geschätzten Steigungsparameter vor (obwohl Heteroskedastizität keinen Einfluss auf die Erwartungstreue der geschätzten Regressionsparameter hat). 18 Falls die Annahmen A1 bis A5 gelten, ergibt sich: Die OLS-Schätzer sind die besten linearen unverzerrten Schätzer der Regressionsparameter in linearen Regressionsmodellen („BLUE, best linear unbiased estimator“) Bestandteile von BLUE: • „Unverzerrt“ bedeutet, dass der Schätzer erwartungstreu ist • „Linear“ bedeutet, dass der Schätzer eine lineare Funktion der Daten und der abhängigen Variablen darstellt • „Beste“ bedeutet, dass der Schätzer die geringste Varianz besitzt Im Einklang mit dem Gauss-Markov-Theorem haben OLS-Schätzer damit in der Klasse aller linearen und unverzerrten Schätzer die geringste Varianz. Voraussetzung für diese Eigenschaft ist aber die Gültigkeit aller zuvor betrachteten Annahmen A1 bis A5. 19 0.4 Testen von Hypothesen über Regressionsparameter Zusätzliche Annahme A6: Normalverteilung Der Störterm ε ist von den erklärenden Variablen x1, x2, …, xk unabhängig und normalverteilt mit einem Erwartungswert von null und einer Varianz von σ2, d.h. es gilt: ε ~ N(0; σ2) → Die Annahmen A1 bis A6 werden auch als klassische lineare Modellannahmen bezeichnet. Der entsprechende Ansatz wird dementsprechend auch als klassisches lineares Regressionsmodell bezeichnet. Mit den Annahmen A1 bis A6 gilt für die abhängige Variable: y|x1 , x 2 ,…, x k N(β0 + β1x1 + β2 x 2 + + βk x k ; σ 2 ) Es ergibt sich: Die OLS-Schätzer sind die besten unverzerrten Schätzer der Regressionsparameter in linearen Regressionsmodellen („BUE, best unbiased estimator“). Damit haben die OLS-Schätzer nicht nur in der Klasse aller linearen unverzerrten Schätzer die geringste Varianz, sondern in der Klasse aller unverzerrten Schätzer. → Allerdings ist die Durchführung von statistischen Tests auch kein Problem, falls der Stöterm nicht normalverteilt ist, aber der Stichprobenumfang n hin20 reichend groß (siehe später) Falls Annahme A6 und damit ein normalverteilter Störterm vorliegt, sind auch die mit OLS geschätzten Steigungsparameter in linearen Regressionsmodellen normalverteilt, d.h. es gilt (h = 1,…, k): βˆ h N[β h ; Var(βˆ h )] bzw. βˆ h σ2 N β h ; n (1-R 2h ) (x ih -x h ) 2 i=1 Damit ergibt sich (h = 1,…, k): βˆ h -β h Var(βˆ h ) βˆ h -β h σ N(0; 1) bzw. N(0; 1) n (1-R ) (x ih -x h ) 2 2 h i=1 Zudem gilt, dass jede lineare Funktion der mit OLS geschätzten Regressionsparameter β0, β1,…, βk auch normalverteilt ist. 21 Allerdings sind die Varianzen oder Standardabweichungen der mit OLS geschätzten Steigungsparameter in linearen Regressionsmodellen in der Regel nicht bekannt und müssen deshalb geschätzt werden. Falls die Annahmen A1 bis A6 gelten, ergibt sich: βˆ h -β h ˆ ˆh) Var(β βˆ h -β h σ̂ t n-k-1 bzw. t n-k-1 n (1-R ) (x ih -x h ) 2 2 h i=1 Dabei ist k+1 die Anzahl der unbekannten Regressionsparameter. Die wichtigste zu testende Nullhypothese in empirischen Anwendungen lautet: H 0 : β h = 0 für h = 1,…, k Die Nullhypothese über den Steigungsparameter βh impliziert, dass die erklärende Variable xh keinen partiellen Effekt auf die abhängige Variable y hat. Als Prüfgröße wird hierzu folgende t-Statistik (t-Wert) betrachtet, die die geschätzte Standardabweichung des geschätzten Parameters einbezieht: t = t βˆ = t h = h β̂ h ˆ ˆh) Var(β 22 Die t-Statistik ist bei Gültigkeit der Nullhypothese t-verteilt mit n-k-1 Freiheitsgraden. In empirischen Analysen wird bei der Überprüfung von H0: βh = 0 in der Regel eine zweiseitige Fragestellung untersucht. Dabei gilt für die Alternativhypothese: H1: β h 0 für h = 1,…, k Die Nullhypothese wird somit verworfen, falls: t > t n-k-1;1-α/2 Verallgemeinerung der Nullhypothese: H 0 : β h = a h für h = 1,…, k Die Nullhypothese wird verworfen, wenn βh deutlich von ah abweicht. Als Prüfgröße wird jetzt folgende allgemeinere t-Statistik betrachtet: t= β̂ h -a h ˆ ˆh) Var(β Bei Gültigkeit von H0: βh = ah ist die t-Statistik wiederum t-verteilt mit n-k-1 Freiheitsgraden. Die Nullhypothese H0: βh = ah wird somit bei einem Signifikanzniveau von α zugunsten der Alternativhypothese H1: βh ≠ ah verworfen, falls: |t| > tn-k-1;1-α/2. 23 --------------------------------------------------------------------------------------------------------Beispiel: Effekt von Luftverschmutzung auf Immobilienpreise (I) Mit einem linearen Regressionsmodell soll mit einer Stichprobe von n = 506 Gemeinden der Effekt des Logarithmus der Stickoxide in der Luft (lognox), des Logarithmus der gewichteten Entfernung zu fünf Beschäftigungszentren (logdist), der durchschnittlichen Anzahl an Räumen in Häusern (rooms) und des Verhältnisses von Lehrern und Schülern in den Schulen (stratio) auf den Logarithmus des Medians der Immobilienpreise (logprice) untersucht werden: logprice = β0 + β1lognox + β 2logdist + β3rooms + β4stratio + ε Dabei wurde folgende OLS-Regressionsfunktion geschätzt (R2 = 0,584): ˆ logprice = 11,084 - 0,954lognox - 0,134logdist + 0,255rooms - 0,052stratio (0,318) (0,117) (0,043) (0,019) (0,006) Aufgrund der recht hohen einfachen t-Werte haben alle erklärenden Variablen bei üblichen Signifikanzniveaus (z.B. 0,05, 0,01) einen signifikanten Effekt. Eine weitere interessante Nullhypothese bezieht sich auf die Überprüfung, ob β1 dem Wert -1 entspricht, d.h. H0: β1 = -1. Dabei ergibt sich t = (-0,954+1)/0,117 = 0,393. Damit kann bei üblichen Signifikanzniveaus die Nullhypothese nicht verworfen werden (d.h. die geschätzte Elastizität unterscheidet sich nicht signifikant vom Wert -1). 24 --------------------------------------------------------------------------------------------------------- --------------------------------------------------------------------------------------------------------Beispiel: Effekt von Luftverschmutzung auf Immobilienpreise (II) reg logprice lognox logdist rooms stratio Source | SS df MS -------------+-----------------------------Model | 49.3987581 4 12.3496895 Residual | 35.1834907 501 .070226528 -------------+-----------------------------Total | 84.5822488 505 .167489602 Number of obs F( 4, 501) Prob > F R-squared Adj R-squared Root MSE = = = = = = 506 175.86 0.0000 0.5840 0.5807 .265 -----------------------------------------------------------------------------logprice | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------lognox | -.9535397 .1167418 -8.17 0.000 -1.182904 -.7241759 logdist | -.13434 .0431032 -3.12 0.002 -.2190254 -.0496547 rooms | .254527 .0185303 13.74 0.000 .2181203 .2909338 stratio | -.0524512 .0058971 -8.89 0.000 -.0640373 -.0408651 _cons | 11.08386 .3181115 34.84 0.000 10.45887 11.70886 ------------------------------------------------------------------------------ --------------------------------------------------------------------------------------------------------- 25 Es lassen sich auch Hypothesen über Linearkombinationen von Regressionsparametern testen. Mit beliebigen Werten r1, r2,…,rk und c kann die Nullhypothese folgendermaßen spezifiziert werden: H 0 : r1β1 + r2β2 + + rkβ k = c bzw. H 0 : r1β1 + r2β 2 + + rkβ k - c = 0 Mit einem entsprechenden Schätzer der Varianz der Linearkombination der Parameter ergibt sich folgende t-Statistik, die bei Gültigkeit der Nullhypothese t-verteilt ist mit n-k-1 Freiheitsgraden: t= r1βˆ 1 + + rkβˆ k - c ˆ 1βˆ 1 + + rkβˆ k ) Var(r Eine häufig betrachtete Nullhypothese ist die Überprüfung der Gleichheit zweier Parameter, z.B.: H 0 : β1 = β 2 bzw. H 0 : β1 - β 2 = 0 Die entsprechende t-Statistik lautet: t= βˆ 1 -βˆ 2 ˆ ˆ 1 -βˆ 2 ) Var(β H0 wird also bei einem Signifikanzniveau von α (in zweiseitigen Fragestellungen) verworfen, falls |t| > tn-k-1;1-α/2. 26 Schließlich lassen sich auch multiple lineare Restriktionen überprüfen. Ausgangspunkt ist folgendes (unrestringiertes) lineares Regressionsmodell: y = β0 + β1x1 + β 2 x 2 + + βkx k + ε Bei der Überprüfung, ob q erklärende Variablen gemeinsam keinen Effekt auf die abhängige Variable haben, gilt für die Nullhypothese: H 0 : β k-q+1 = 0, β k-q+2 = 0, , β k = 0 bzw. H 0 : β k-q+1 = β k-q+2 = = βk = 0 Das unter H0 restringierte lineare Regressionsmodell lautet dann: y = β0 + β1x1 + β2 x 2 + + β k-q x k-q + ε Als Prüfgröße für den F-Test wird folgende F-Statistik (F-Wert) betrachtet: SSR r -SSR ur SSR r -SSR ur n-k-1 q F= = SSR ur SSR ur q n-k-1 Bei Gültigkeit von H0 ist diese Prüfgröße F-verteilt mit q (d.h. der Anzahl der überprüften Ausschlussrestriktionen) und n-k-1 Freiheitsgraden, d.h.: F Fq;n-k-1 H0: βk-q+1 = βk-q+2 =⋯= βk = 0 wird somit bei einem Signifikanzniveau von α zu- 27 gunsten der Alternativhypothese verworfen, falls F > Fq;n-k-1;1-α. Alternative Darstellung der F-Statistik mit den Bestimmtheitsmaßen R2r und R2ur der restringierten und unrestringierten linearen Regressionsmodelle: R 2ur -R 2r R 2ur -R 2r n-k-1 q F= = 2 1-R ur 1-R 2ur q n-k-1 Der am häufigsten betrachtete F-Test bezieht sich auf die Untersuchung der folgenden Nullhypothese: H 0 : β1 = β 2 = = βk = 0 Dadurch ergibt sich folgendes restringiertes lineares Regressionsmodell: y = β0 + ε Für solche restringierten linearen Regressionsmodelle erhält man R2r = 0, so dass sich aufgrund der q = k vorliegenden Ausschlussrestriktionen folgende spezifische F-Statistik ergibt (wobei R2 das gewöhnliche Bestimmtheitsmaß bei einem linearen Regressionsmodell mit k erklärenden Variablen darstellt): R2 R 2 n-k-1 k F= = 2 1-R 1-R 2 k n-k-1 28 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Geburtsgewichten (I) Mit Hilfe eines linearen Regressionsmodells soll der Effekt der durchschnittlichen Anzahl der von der Mutter während der Schwangerschaft täglich gerauchten Zigaretten (cigs), der Geburtsrangfolge des Kindes (parity), des jährlichen Familieneinkommens (faminc) in 1000 Dollar, der Anzahl der Schuljahre der Mutter (motheduc) und der Anzahl der Schuljahre des Vaters (fatheduc) auf das Geburtsgewicht des Kindes (bwght) in ounces untersucht werden: bwght = β0 + β1cigs + β 2 parity + β3faminc + β 4 motheduc + β5fatheduc + ε Dabei soll zu einem Signifikanzniveau von 0,05 die Nullhypothese überprüft werden, dass die elterliche Anzahl der Schuljahre keinen Einfluss auf das Geburtsgewicht hat, d.h. H0: β4 = β5 = 0: • Für n = 1191 Geburten werden das unrestringierte und das restringierte Regressionsmodell mit OLS geschätzt. Dabei ergibt sich R2r = 0,0364 und R2ur = 0,0387. • Da n-k-1 = 1191 - 6 = 1185 und q = 2 ergibt sich für die F-Statistik: F = [(0,0387-0,0364)/(1-0,0387)](1185/2) = 1,42 • Der Schrankenwert aus der F-Verteilung mit 2 und 1185 Freiheitsgraden beträgt F2;1185;0,95 = 3,00. Damit kann die Nullhypothese zum 5%-Signifikanzniveau nicht verworfen werden. 29 --------------------------------------------------------------------------------------------------------- --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Geburtsgewichten (II) reg bwght cigs parity faminc motheduc fatheduc Source | SS df MS -------------+-----------------------------Model | 18705.5567 5 3741.11135 Residual | 464041.135 1185 391.595895 -------------+-----------------------------Total | 482746.692 1190 405.669489 Number of obs F( 5, 1185) Prob > F R-squared Adj R-squared Root MSE = = = = = = 1191 9.55 0.0000 0.0387 0.0347 19.789 -----------------------------------------------------------------------------bwght | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------cigs | -.5959362 .1103479 -5.40 0.000 -.8124352 -.3794373 parity | 1.787603 .6594055 2.71 0.007 .4938709 3.081336 faminc | .0560414 .0365616 1.53 0.126 -.0156913 .1277742 motheduc | -.3704503 .3198551 -1.16 0.247 -.9979957 .2570951 fatheduc | .4723944 .2826433 1.67 0.095 -.0821426 1.026931 _cons | 114.5243 3.728453 30.72 0.000 107.2092 121.8394 ------------------------------------------------------------------------------ --------------------------------------------------------------------------------------------------------- 30 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Geburtsgewichten (III) reg bwght cigs parity faminc Source | SS df MS -------------+-----------------------------Model | 17579.8997 3 5859.96658 Residual | 465166.792 1187 391.884408 -------------+-----------------------------Total | 482746.692 1190 405.669489 Number of obs F( 3, 1187) Prob > F R-squared Adj R-squared Root MSE = = = = = = 1191 14.95 0.0000 0.0364 0.0340 19.796 -----------------------------------------------------------------------------bwght | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------cigs | -.5978519 .1087701 -5.50 0.000 -.8112549 -.3844489 parity | 1.832274 .6575402 2.79 0.005 .5422035 3.122345 faminc | .0670618 .0323938 2.07 0.039 .0035063 .1306173 _cons | 115.4699 1.655898 69.73 0.000 112.2211 118.7187 ------------------------------------------------------------------------------ Testanweisung in STATA (nur direkt nach der OLS-Schätzung im unrestringierten Regressionsmodell möglich, Abweichung ergibt sich durch Rundungen): test motheduc=fatheduc=0 ( 1) ( 2) motheduc - fatheduc = 0 motheduc = 0 F( 2, 1185) = Prob > F = 1.44 0.2380 --------------------------------------------------------------------------------------------------------31 0.5 Asymptotische Eigenschaften Definition von Konsistenz: Falls Wn den Schätzer eines Parameters θ auf der Grundlage einer Stichprobe y1, y2,…,yn darstellt, ist Wn dann ein konsistenter Schätzer von θ, wenn für beliebige ξ > 0 gilt, dass P(|Wn – θ| > ξ) für n → ∞ gegen null konvergiert. In diesem Fall konvergiert Wn stochastisch gegen θ, d.h. plim(Wn) = θ. Konsistenz von OLS-Schätzern: • Falls die Annahmen A1 bis A4 gelten, sind OLS-Schätzer βh (h = 0,1,…, k) in linearen Regressionsmodellen konsistente Schätzer für βh, d.h. plim(βh) = βh • Damit sind für die Konsistenz von OLS-Schätzern dieselben Annahmen wie bei der Erwartungstreue ausreichend, d.h. z.B. A5 (Heteroskedastizität) muss nicht erfüllt sein. Tatsächlich muss für die Konsistenz von OLSSchätzern neben den Annahmen A1 bis A3 lediglich eine Abschwächung von A4 vorliegen, d.h. A4‘: E(ε) = 0 und Cov(xh, ε) = 0 (h = 1, 2,…, k). Inkonsistenz von OLS-Schätzern: • Zur Erinnerung: Falls E(ε|x1, x2,…, xk) ≠ 0, d.h. also A4 nicht gilt, sind die OLS-Schätzer in linearen Regressionsmodellen nicht erwartungstreu • Analog ergibt sich die Inkonsistenz aller OLS-Schätzer, falls ε mit einer beliebigen erklärenden Variablen korreliert ist, d.h. also falls A4‘ nicht gilt 32 Asymptotische Verteilungen bei OLS-Schätzern: Die exakte Normalverteilung der OLS-Schätzer in linearen Regressionsmodellen (und damit die exakte t- und F-Verteilung der t- und F-Statistiken) basiert auf Annahme A6, d.h. ε ~ N(0; σ2). Jedoch kann auch ohne A6 für Funktionen der OLS-Schätzer eine asymptotische Normalverteilung nachgewiesen werden. Falls die Annahmen A1 bis A5 gelten, ergibt sich (auch ohne Annahme A6) für die mit OLS geschätzten Steigungsparameter in linearen Regressionsmodellen: β̂ h -β h ˆ ˆh) Var(β a N(0; 1) Diese Eigenschaft widerspricht nicht der vorherigen Eigenschaft, wonach diese Funktion exakt t-verteilt ist mit n-k-1 Freiheitsgraden, falls die Annahmen A1 bis A6 gelten, da auch analog folgende Darstellung möglich ist (da sich die t-Verteilung bei einer Zunahme der Anzahl an Freiheitsgraden der Standardnormalverteilung annähert): β̂ h -β h ˆ ˆh) Var(β a t n-k-1 33 Folge: Damit können auch für den Fall, dass der Störterm ε nicht normalverteilt ist, die bisher betrachteten t- und F-Tests durchgeführt und Konfidenzintervalle konstruiert werden. Voraussetzung ist aber, dass der Stichprobenumfang n hinreichend groß ist. Bei kleinem n (bzw. kleiner Anzahl an Freiheitsgraden n-k-1) ist z.B. die Approximation der t-Statistik an die Standardnormal- oder t-Verteilung unzureichend. Asymptotische Effizienz: Unter den Gauss-Markov-Annahmen (also unter den Annahmen A1 bis A5) sind OLS-Schätzer βh (h = 0, 1,…, k) in einer Klasse konsistenter Schätzer βh der Regressionsparameter in linearen Regressionsmodellen asymptotisch effizient, d.h. für die asymptotische Varianz Avar gilt: Avar[ n (βˆ h -β h )] Avar[ n (β h -β h )] 34 0.6 Struktur von abhängigen und erklärenden Variablen Logarithmierte und quadrierte Variablen: Lineare Regressionsmodelle können durch die Einbeziehung von (natürlich) logarithmierten und quadrierten Variablen auch nichtlineare Zusammenhänge abbilden Übersicht zur Einbeziehung logarithmierter Variablen: Lineares Regressionsmodell Abhängige Variable Erklärende Variable Interpretation des geschätzten Steigungsparameters Level-level y xh ∆y = βh∆xh Level-log y logxh ∆y ≈ (βh/100)%∆xh Log-level logy xh %∆y ≈ (100βh)∆xh Log-log logy logxh %∆y = βh%∆xh 35 --------------------------------------------------------------------------------------------------------Beispiel: Effekt von Luftverschmutzung auf Immobilienpreise Mit Hilfe eines linearen Regressionsmodells wird nun mit einer Stichprobe von n = 506 Gemeinden der Effekt des Logarithmus der Stickoxide in der Luft (lognox) und der durchschnittlichen Anzahl an Räumen in Häusern (rooms) auf den Logarithmus des Medians der Immobilienpreise (logprice) untersucht. Mit STATA zeigen sich dabei folgende OLS-Schätzergebnisse (R2 = 0,514): reg logprice lognox rooms -----------------------------------------------------------------------------logprice | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------lognox | -.7176732 .0663397 -10.82 0.000 -.8480102 -.5873361 rooms | .3059183 .0190174 16.09 0.000 .268555 .3432816 _cons | 9.233737 .1877406 49.18 0.000 8.864885 9.602589 ------------------------------------------------------------------------------ Damit ergibt sich: • Eine Erhöhung der Stickoxide in der Luft um 1% (d.h. %∆nox = 1) führt zu einer geschätzten Verminderung des Medians der Immobilienpreise um 0,718% (falls rooms konstant gehalten wird) • Eine Erhöhung der durchschnittlichen Anzahl an Räumen in Häusern um eins (d.h. ∆rooms = 1) führt zu einer approximativ geschätzten Erhöhung des Medians der Immobilienpreise um 0,306∙100 = 30,6% (falls nox konstant gehalten wird) 36 --------------------------------------------------------------------------------------------------------- Quadrierte erklärende Variablen: Damit können wachsende oder sinkende (partielle) marginale Effekte in linearen Regressionsmodellen untersucht werden Zur Erinnerung: Falls y auf xh regressiert wird, gibt βh die Veränderung des OLS-Regressionswertes y an, falls xh um eine Einheit steigt (und alle anderen erklärenden Variablen konstant gehalten werden). Damit ist hier der (partielle) marginale Effekt konstant und hängt nicht von xh ab. Einbeziehung einer quadrierten erklärenden Variablen x12 (neben k-1 erklärenden Variablen x1, x2,…, xk-1): y = β0 + β1x1 + β2 x12 + β3x 2 + + β k-1x k-2 + β k x k-1 + ε In diesem Fall beschreibt β1 nicht die Veränderung von y in Bezug auf x1. Die OLS-Regressionsfunktion lautet: ŷ = βˆ 0 + βˆ 1x1 + βˆ 2 x12 + βˆ 3x 2 + + βˆ k-1x k-2 + βˆ k x k-1 Falls x2,…, xk-1 konstant gehalten werden, folgt die Approximation: ŷ (βˆ 1 +2βˆ 2 x1 )x1 bzw. ŷ βˆ 1 + 2βˆ 2 x1 x 1 Damit hängt der geschätzte (partielle) marginale Effekt von x1 auf y auch von β2 und den Werten von x1 ab. 37 Interaktionsterme: Diese Variablen erlauben, dass der partielle Effekt (bzw. die Elastizität oder Semi-Elastizität) einer erklärenden Variablen in linearen Regressionsmodellen von verschiedenen Werten einer anderen erklärenden Variablen abhängt Einbeziehung eines Interaktionsterms von x1 und x2 (neben den k-1 erklärenden Variablen x1, x2,…, xk-1): y = β0 + β1x1 + β 2 x 2 + β3x1x 2 + β 4 x 3 + β k-1x k-2 + β k x k-1 + ε Auch in diesem Fall beschreibt β1 nicht die Veränderung von y in Bezug auf x1. Die OLS-Regressionsfunktion lautet: ŷ = βˆ 0 + βˆ 1x1 + βˆ 2 x 2 + βˆ 3x1x 2 + βˆ 4 x 3 + + βˆ k-1x k-2 + βˆ k x k-1 Falls x2,…, xk-1 konstant gehalten werden, folgt: ŷ = (βˆ 1 +βˆ 3x 2 )x1 bzw. ŷ = βˆ 1 + βˆ 3x 2 x 1 Damit hängt der geschätzte (partielle) marginale Effekt von x1 auf y auch von β3 und x2 ab. Dabei werden generell interessante Werte von x2 untersucht (z.B. arithmetisches Mittel in der Stichprobe). β1 alleine bildet lediglich den geschätzten Effekt von x1 ab, wenn x2 null ist. 38 Qualitative erklärende Variablen: Bisher wurde implizit auf quantitative (d.h. metrisch skalierte) abhängige und erklärende Variablen in linearen Regressionsmodellen fokussiert wie z.B. Löhne, Preise, Ausbildungszeit, Umsätze. In empirischen Untersuchungen spielen aber häufig auch qualitative Faktoren eine wichtige Rolle wie z.B. Geschlecht, Hautfarbe, Besitz eines Produkts, Branchenzugehörigkeit, regionale Effekte usw. Qualitative Variablen: • Qualitative Informationen bei erklärenden Variablen können durch entsprechende binäre oder Dummy-Variablen eingefangen werden, die entweder den Wert null oder den Wert eins annehmen • Die OLS-Schätzung und das Testen von Hypothesen erfolgt bei der Regressionsanalyse mit qualitativen erklärenden Variablen völlig analog zur ausschließlichen Einbeziehung von quantitativen Variablen Einzelne binäre erklärende Variablen: Einbeziehung von qualitativen Variablen mit zwei Ausprägungen Auf Basis eines multiplen linearen Regressionsmodells mit ausschließlich quantitativen erklärenden Variablen wird zusätzlich eine binäre erklärende Variable x0 einbezogen (neben jetzt k-1 quantitativen erklärenden Variablen x1, x2,…, xk-1): 39 y = β0 + β1x 0 + β2x1 + β3x 2 + + βk x k-1 + ε Mit E(ε|x0,x1,x2,…, xk-1) = 0 gilt: E(y|x 0 , x1 , x 2 ,…, x k-1 ) = β0 + β1x 0 + β2x1 + β3x 2 + + βk x k-1 Daraus folgt: β1 = E(y|x 0 = 1, x1 , x 2 , , x k-1 ) - E(y|x 0 = 0, x1 , x 2 , , x k-1 ) β1 ist also die Differenz im Erwartungswert von y zwischen x0 = 1 und x0 = 0, gegeben die gleichen Werte von x1, x2,…, xk-1 und ε. → β0 ist somit die Konstante für x0 = 0. Für x0 = 1 beträgt die Konstante β0 + β1, so dass β1 die Differenz der Konstanten für x0 = 1 und x0 = 0 darstellt. Achtung: Es dürfen für einen Faktor (z.B. Geschlecht) niemals zwei Dummy-Variablen (z.B. eine Variable, die den Wert eins annimmt für Frauen und eine weitere Variable, die den Wert eins annimmt für Männer) gleichzeitig in ein lineares Regressionsmodell einbezogen werden, da dadurch eine perfekte Kollinearität vorliegen würde (einfache Form der „dummy variable trap“) 40 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung (des Logarithmus) von Löhnen Mit Hilfe eines linearen Regressionsmodells wird für n = 526 Personen der Effekt des Geschlechts (female), der Ausbildungszeit in Jahren (educ), der Berufserfahrung in Jahren (exper), der quadrierten Berufserfahrung in Jahren (expersq), der Betriebszugehörigkeit in Jahren (tenure) und der quadrierten Betriebszugehörigkeit in Jahren (tenuresq) auf den Logarithmus des Stundenlohns (logwage) untersucht. Dabei zeigen sich mit STATA folgende OLSSchätzergebnisse (R2 = 0,441): reg logwage female educ exper expersq tenure tenuresq -----------------------------------------------------------------------------logwage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------female | -.296511 .0358055 -8.28 0.000 -.3668524 -.2261696 educ | .0801967 .0067573 11.87 0.000 .0669217 .0934716 exper | .0294324 .0049752 5.92 0.000 .0196584 .0392063 expersq | -.0005827 .0001073 -5.43 0.000 -.0007935 -.0003719 tenure | .0317139 .0068452 4.63 0.000 .0182663 .0451616 tenuresq | -.0005852 .0002347 -2.49 0.013 -.0010463 -.0001241 _cons | .4166909 .0989279 4.21 0.000 .2223425 .6110394 ------------------------------------------------------------------------------ Damit ergibt sich, dass der geschätzte Stundenlohn bei Frauen (bei gleicher Ausbildungszeit, gleicher Berufserfahrung und gleicher Betriebszugehörigkeit) im Durchschnitt approximativ 100∙0,297 = 29,7% geringer ist. 41 --------------------------------------------------------------------------------------------------------- Binäre erklärende Variablen für multiple Kategorien: Einbeziehung von qualitativen Variablen mit mehr als zwei Ausprägungen Auf Basis eines multiplen linearen Regressionsmodells mit ausschließlich quantitativen erklärenden Variablen wird nun zusätzlich eine qualitative (nominale oder ordinale) erklärende Variable (z.B. Branchen- oder regionale Zugehörigkeit) mit q > 2 verschiedenen Ausprägungen betrachtet. Für diesen Fall können (maximal) q-1 Dummy-Variablen x01, x02,…, x0,q-1 (neben den jetzt k-q+1 quantitativen erklärenden Variablen x1, x2,…, xk-q+1) einbezogen werden: y = β0 + β1x 01 + β 2 x 02 + + βq-1x 0,q-1 + βq x1 + βq+1x 2 + + β k x k-q+1 + ε Die q-te Ausprägung der qualitativen Variablen (d.h. die Dummy-Variable x0q) dient dabei als Basiskategorie. Das heißt, die geschätzten Regressionsparameter β1, β2,…, βq-1 zeigen für die jeweilige Gruppe der qualitativen Variablen (d.h. für x01, x02,…, x0,q-1) die geschätzte durchschnittliche Differenz in der abhängigen Variable y im Vergleich zur Basiskategorie, d.h. im Vergleich zu x0q. Achtung: Es dürfen niemals alle q Dummy-Variablen x01, x02,…, x0q gleichzeitig einbezogen werden, da dadurch eine perfekte Kollinearität vorliegen würde (generelle Form der „dummy variable trap“). Viele ökonometrische Programmpakete wie z.B. STATA korrigieren aber einen solchen Fehler automatisch. 42 Interaktionsterme mit binären erklärenden Variablen: Interaktionsterme müssen sich nicht nur auf zwei quantitative erklärende Variablen beziehen, sondern können auch Dummy-Variablen einbeziehen Zusätzliche Einbeziehung eines Interaktionsterms für zwei binäre erklärende Variablen x01 und x02 (neben der separaten Einbeziehung der beiden DummyVariablen und den jetzt k-3 quantitativen erklärenden Variablen x1, x2,…, xk-3): y = β0 + β1x 01 + β2 x 02 + β3x 01x 02 + β4 x1 + β5x 2 + + βk x k-3 + ε Interpretation: • Die Einbeziehung solcher Interaktionsterme ist eine Alternative zur Einbeziehung von drei binären erklärenden Variablen, wenn vier Kategorien untersucht werden • β1 (bzw. β2) zeigt für x02 = 0 (bzw. x01 = 0) die geschätzte durchschnittliche Differenz in der abhängigen Variablen y zwischen x01 = 1 und x01 = 0 (bzw. zwischen x02 = 1 und x02 = 0) • Für x01 = 1 und x02 = 0 (bzw. für x01 = 0 und x02 = 1) ergibt sich eine geschätzte Konstante von β0 + β1 (bzw. β0 + β2) • Für x01 = 1 und x02 = 1 ergibt sich schließlich eine geschätzte Konstante von β0 + β1 + β2 + β3 43 Zusätzliche Einbeziehung eines Interaktionsterms für eine binäre erklärende Variable x0 und eine quantitative erklärende Variable x1 (neben der Dummy-Variablen x0 und den jetzt k-2 quantitativen erklärenden Variablen x1, x2,…, xk-2): y = β0 + β1x 0 + β2x1 + β3x 0x1 + β4x 2 + + βk x k-2 + ε Interpretation: • Hier kann untersucht werden, inwiefern sich der (partielle) Effekt (bzw. die Elastizität oder Semi-Elastizität) der quantitativen erklärenden Variablen x1 bei den beiden Ausprägungen der binären erklärenden Variablen x0 unterscheidet. Falls kein Unterschied vorliegt, gilt β3 = 0. • Falls x0 = 0, gilt für die OLS-Regressionsfunktion: ŷ = βˆ 0 + βˆ 2 x1 + βˆ 4 x 2 + + βˆ k x k-2 Die geschätzte Konstante lautet hier also β0 und der geschätzte (partielle) Effekt von x1 beträgt β2. • Falls x0 = 1, gilt für die OLS-Regressionsfunktion: ŷ = βˆ 0 + βˆ 1 + βˆ 2 x1 + βˆ 3x1 + βˆ 4 x 2 + + βˆ k x k-2 Die geschätzte Konstante lautet hier also β0 + β1 und der geschätzte (partielle) Effekt von x1 beträgt β2 + β3. 44 0.7 Heteroskedastizität Zuvor wurde für die Betrachtung der Varianz von OLS-Schätzern die Annahme 5 der Homoskedastizität diskutiert: • Falls Var(ε|x1, x2,…, xk) ≠ σ2, liegt Heteroskedastizität vor • Im Gegensatz z.B. zur Vernachlässigung relevanter erklärender Variablen, hat die Heteroskedastizität keinen Einfluss auf die Erwartungstreue oder Konsistenz von OLS-Schätzern. Allerdings hat Heteroskedastizität einen Einfluss auf die (geschätzte) Varianz der mit OLS geschätzten Steigungsparameter in linearen Regressionsmodellen. • Es wurde bei Homoskedastizität, d.h. unter den Annahmen A1 bis A5, für die Varianz der geschätzten Steigungsparameter gezeigt (mit Rh2 als Bestimmtheitsmaß einer Regression von xh auf alle anderen erklärenden Variablen): Var(βˆ h ) = σ2 n (1-R 2h ) (x ih -x h ) 2 σ2 = (1-R 2h )SSTh für h = 1,…, k i=1 • Damit ergibt sich bei Homoskedastizität mit einem konsistenten Schätzer der Standardabweichung σ folgende geschätzte Standardabweichung: ˆ ˆh) = Var(β σ̂ 2 h (1-R )SSTh für h = 1,…, k 45 • Da die Varianz lediglich bei Homoskedastizität, nicht aber bei Heteroskedastizität gilt, ist auch diese geschätzte Standardabweichung bei Heteroskedastizität ein verzerrter Schätzer der Standardabweichung der OLS-Schätzer • Damit sind die geschätzten Standardabweichungen bei Heteroskedastizität nicht mehr für die Konstruktion von Konfidenzintervallen und t-Statistiken gültig. Das heißt, die t-Statistiken sind bei Heteroskedastizität (auch bei großen Stichprobenumfängen) nicht mehr t-verteilt. Ebenso sind entsprechende F-Statistiken bei Heteroskedastizität nicht mehr F-verteilt. • Schließlich gilt bei Heteroskedastizität nicht mehr die wünschenswerte BLUE-Eigenschaft (bzw. Effizienz) von OLS-Schätzern sowie die Eigenschaft der asymptotischen Effizienz. Es lassen sich bei Kenntnis der Form der Heteroskedastizität gegenüber den OLS-Schätzern effizientere Schätzer ermitteln. Ein Standardtest zur Überprüfung von Homoskedastizität ist (neben z.B. dem White-Test) der Breusch-Pagan-Test. Die Nullhypothese lautet: H 0 : Var(ε|x1 , x 2 ,…,x k ) = σ 2 bzw. H 0 : E(ε 2 |x1 , x 2 ,…,x k ) = E(ε 2 ) = σ 2 Falls H0 nicht gilt, ist ε2 eine Funktion einer oder mehrerer erklärender Variablen. Bei der Betrachtung aller erklärenden Variablen und einer linearen Funktion ergibt sich in diesem Fall mit einem Störterm v mit (bedingtem) Erwartungswert null: 46 ε 2 = δ0 + δ1x1 + δ 2 x 2 + + δkx k + v Die Nullhypothese für Homoskedastizität lautet dann: H 0 : δ1 = δ 2 = = δk = 0 Da die εi unbekannt sind, werden diese durch die entsprechenden Schätzer ersetzt, d.h. den Residuen εi, so dass diese quadrierten Residuen auf die erklärenden Variablen regressiert werden: ε̂ 2 = δ0 + δ1x1 + δ 2 x 2 + + δkx k + v Ein hohes Bestimmtheitsmaß R2ε2 bei dieser Hilfsregression spricht für die Gültigkeit der Alternativhypothese, d.h. für Heteroskedastizität. Eine Version einer Breusch-Pagan-Teststatistik (die keine Normalverteilung im Störterm annimmt) lautet: BP = nR ε̂22 Bei Gültigkeit der Nullhypothese (d.h. bei Homoskedastizität) gilt: a BP χ 2k Damit wird die Nullhypothese der Homoskedastizität zugunsten der Alternativhypothese der Heteroskedastizität bei einem Signifikanzniveau α verworfen, falls (bei großem Stichprobenumfang n) für die Teststatistik gilt: BP > χ 2k;1-α 47 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Häuserpreisen (I) Mit Hilfe eines linearen Regressionsmodells wird der Effekt der Grundstücksgröße in Quadratfuß (lotsize), der Wohnflächengröße in Quadratfuß (sqrft) und der Anzahl an Schlafzimmern (bdrms) auf Häuserpreise in 1000 Dollar (price) untersucht. Dabei wurde folgende OLS-Regressionsfunktion geschätzt: ˆ = -21,770 + 0,00207lotsize + 0,123sqrft + 13,853bdrms price (29,475) (0,00064) (0,013) (9,010) n = 88; R 2 = 0,672 Mit Hilfe des Breusch-Pagan-Tests wird nun bei einem Signifikanzniveau von 1% die Nullhypothese der Homoskedastizität überprüft: • Zunächst werden die Residuen εi berechnet. Bei der Hilfsregression von ε2 auf lotsize, sqrft und bdrms ergibt sich ein Bestimmtheitsmaß in Höhe von R2ε2 = 0,160. • Für die entsprechende Breusch-Pagan-Teststatistik ergibt sich damit ein Wert von BP = 88∙0,160 = 14,08 • Mit k = 3 lautet der Schrankenwert χ23;0,99 = 11,34. Damit wird die Nullhypothese bei einem Signifikanzniveau von 1% verworfen (der entsprechende pWert beträgt p = 0,0028). 48 --------------------------------------------------------------------------------------------------------- --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Häuserpreisen (II) reg price lotsize sqrft bdrms Source | SS df MS -------------+-----------------------------Model | 617130.702 3 205710.234 Residual | 300723.806 84 3580.04531 -------------+-----------------------------Total | 917854.508 87 10550.0518 Number of obs F( 3, 84) Prob > F R-squared Adj R-squared Root MSE = = = = = = 88 57.46 0.0000 0.6724 0.6607 59.833 -----------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------lotsize | .0020677 .0006421 3.22 0.002 .0007908 .0033446 sqrft | .1227782 .0132374 9.28 0.000 .0964541 .1491022 bdrms | 13.85252 9.010145 1.54 0.128 -4.06514 31.77018 _cons | -21.77031 29.47504 -0.74 0.462 -80.38466 36.84404 ------------------------------------------------------------------------------ Testanweisung und Testergebnisse mit STATA (nur direkt nach Durchführung der OLS-Schätzung möglich, Abweichung ergibt sich durch Rundungen): estat hettest, rhs iid Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: lotsize sqrft bdrms chi2(3) Prob > chi2 = = 14.09 0.0028 --------------------------------------------------------------------------------------------------------- 49 Falls die Nullhypothese bei einem geringen Signifikanzniveau verworfen und damit Heteroskedastizität nachgewiesen wird, sollte darauf entsprechend reagiert werden: • Eine Möglichkeit ist die Verwendung von zu OLS alternativen Schätzverfahren wie z.B. die gewichtete Methode der kleinsten Quadrate („WLS, weighted least squares“). Dazu ist es allerdings notwendig, die genaue Form der Heteroskedastizität zu kennen. • Bei Heteroskedastizität stellt sich aber grundsätzlich die Frage, ob tatsächlich eine zu OLS alternative Schätzmethode angewendet werden sollte: Da die OLS-Schätzer auch bei Heteroskedastizität (unter den Annahmen A1 bis A4) erwartungstreu und konsistent sind, kann die Verwendung von OLS auch in diesem Fall weiterhin nützlich sein. • Für die Konstruktion von Konfidenzintervallen sowie die Durchführung von tund F-Tests sollten bei Heteroskedastizität allerdings dann die geschätzten Standardabweichungen der OLS-Schätzer korrigiert werden Dabei werden die unbekannten Varianzen σi2 der OLS-Schätzer durch die entsprechenden quadrierten Residuen εi2 (die sich aus der ursprünglichen OLSSchätzung ergeben) ersetzt. Im linearen Regressionsmodell ergibt sich allgemein für die geschätzte Varianz der mit OLS geschätzten Steigungsparameter: 50 n ˆ ˆh) = Var(β 2 2 ˆ r ihεˆ i i=1 SSR 2h Dabei bezeichnen rih das Residuum für Beobachtung i, das bei der Regression von xh auf alle anderen erklärenden Variablen entsteht, und SSRh die Residualabweichungsquadratsumme aus dieser Regression. Für die geschätzte Standardabweichung der mit OLS geschätzten Steigungsparameter ergibt sich entsprechend nach White (1980): n ˆ ˆh) = Var(β rˆ εˆ 2 2 ih i i=1 SSR h Auf dieser Grundlage sind verschiedene weitere geschätzte asymptotisch äquivalente Standardabweichungen entwickelt worden. Mit Hilfe dieser geschätzten Standardabweichungen können entsprechende heteroskedastizitäts-robuste Konfidenzintervalle und vor allem t-Statistiken konstruiert werden. 51 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Löhnen (I) Mit Hilfe eines linearen Regressionsmodells wird für n = 526 Personen erneut der Effekt der Ausbildungszeit in Jahren (educ), der Berufserfahrung in Jahren (exper), der quadrierten Berufserfahrung in Jahren (expersq), der Betriebszugehörigkeit in Jahren (tenure), der quadrierten Betriebszugehörigkeit in Jahren (tenuresq) sowie der drei kombinierten Familienstands- und Geschlechtsvariablen für verheiratete Männer (marrmale), verheiratete Frauen (marrfem) und unverheiratete Frauen (singfem) auf den Logarithmus des Stundenlohns (logwage) untersucht. Dabei wurde folgende OLS-Regressionsfunktion geschätzt, wobei jetzt neben den herkömmlichen auch die heteroskedastizitätsrobust geschätzten Standardabweichungen der geschätzten Parameter (eckige Klammern) ausgewiesen werden (R2 = 0,461): ˆ logwage = 0,321 + 0,213 marrmale - 0,198marrfem - 0,110singfem + 0,0789educ (0,100) (0,055) (0,058) (0,056) (0,0067) [0,109] [0,057] [0,058] [0,057] [0,0074] + 0,0268exper - 0,00054expersq + 0,0291tenure - 0,00053tenuresq (0,0055) (0,00011) (0,0068) (0,00023) [0,0051] [0,00011] [0,0069] [0,00024 ] 52 --------------------------------------------------------------------------------------------------------- --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Löhnen (II) reg logwage marrmale marrfem singfem educ exper expersq tenure tenuresq, robust Linear regression Number of obs F( 8, 517) Prob > F R-squared Root MSE = = = = = 526 51.70 0.0000 0.4609 .39329 -----------------------------------------------------------------------------| Robust logwage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------marrmale | .2126756 .0571419 3.72 0.000 .1004167 .3249345 marrfem | -.1982677 .05877 -3.37 0.001 -.3137251 -.0828103 singfem | -.1103502 .0571163 -1.93 0.054 -.2225587 .0018583 educ | .0789103 .0074147 10.64 0.000 .0643437 .0934769 exper | .0268006 .0051391 5.22 0.000 .0167044 .0368967 expersq | -.0005352 .0001063 -5.03 0.000 -.0007442 -.0003263 tenure | .0290875 .0069409 4.19 0.000 .0154516 .0427234 tenuresq | -.0005331 .0002437 -2.19 0.029 -.0010119 -.0000544 _cons | .321378 .109469 2.94 0.003 .1063193 .5364368 ------------------------------------------------------------------------------ --------------------------------------------------------------------------------------------------------- 53 0.8 Lineare Regressionsanalyse mit Zeitreihendaten Besonderheiten von Zeitreihendaten: • Auch ökonomische Zeitreihendaten können als Zufallsvariablen aufgefasst werden. Deren Sequenzen über die Zeit werden als stochastische Prozesse oder Zeitreihenprozesse aufgefasst. Wenn Zeitreihendaten gesammelt werden, erhält man eine Realisation des stochastischen Prozesses. • Im Gegensatz zur Querschnittsanalyse werden bei der Betrachtung von Zeitreihendaten üblicherweise nicht Indizes i = 1,…, n für die einzelnen Beobachtungen verwendet, sondern t = 1,…, n für den stochastischen Prozess {(xt1, xt2,…, xtk, yt)}, wobei n jetzt die Anzahl der Zeitperioden ist Damit ergibt sich folgende Formulierung eines linearen Regressionsmodells: y t = β0 + β1x t1 + β 2 x t2 + + β k x tk + ε t für t = 1,..., n Dabei stellen {εt: t = 1,…, n} die Sequenz von Störtermen dar und xth den Wert der erklärenden Variablen h = 1,…, k in Zeitperiode t. Im Folgenden beinhalten der k-dimensionale Vektor xt = (xt1,…, xtk) die erklärenden Variablen in t sowie die (n×k)-dimensionale Matrix x sämtliche erklärende Variablen über alle Perioden, wobei xt die t-te Zeile von x darstellt. → Die unbekannten Parameter können grundsätzlich ebenfalls mit der OLSMethode geschätzt werden 54 Annahmen zur Betrachtung des Erwartungswerts von OLS-Schätzern: • Annahme B1: Linearität in den Parametern Der Zeitreihenprozess {(xt1,…, xtk, yt): t = 1,…, n} folgt dem linearen Modell yt = β0 + β1xt1 +…+ βkxtk + εt • Annahme B2: Keine perfekte Kollinearität In der Stichprobe (und daher auch im zugrundeliegenden Zeitreihenprozess) ist keine der erklärenden Variablen konstant und es besteht keine exakte lineare Beziehung zwischen den erklärenden Variablen • Annahme B3: Bedingter Erwartungswert von εt ist null Für jede Zeitperiode t ist der bedingte Erwartungswert von εt, gegeben die erklärenden Variablen für alle Perioden t = 1,…, n, null, d.h. E(ε t |x) = 0 für t = 1,..., n Zu Annahme B3 (strikte Exogenität der erklärenden Variablen): • B3 impliziert, dass der Störterm εt in einer Zeitperiode t mit jeder erklärenden Variablen xth (h = 1,…, k) in jeder Periode t = 1,…, n unkorreliert ist. Falls εt unabhängig von x ist und E(εt) = 0, dann gilt dies automatisch. • Insgesamt ist Annahme B3 in Regressionsanalysen mit Zeitreihendaten sehr häufig unrealistisch und gilt nur in recht wenigen Fällen. Dennoch soll diese Annahme zunächst betrachtet werden. 55 Auch unter den drei Annahmen B1 bis B3 sind alle mit der OLS-Methode geschätzten Parameter sowohl unter der Bedingung von x und auch ohne Bedingung erwartungstreu, d.h.: E(βˆ h ) = β h für h = 0, 1,…, k Zu beachten ist dabei, dass für die Erwartungstreue auf Annahme A2 (Zufallsstichprobe) bei Querschnittsanalysen verzichtet werden kann, wenn B3 gilt. Annahmen zur Betrachtung der Varianz von OLS-Schätzern: • Annahmen B1 bis B3 • Annahme B4: Homoskedastizität Die bedingte Varianz des Fehlerterms εt ist konstant über alle Zeitperioden t = 1,…, n, d.h. es gilt Var(εt|x) = Var(εt) = σ2. Falls dies nicht zutrifft, liegt wie bei Querschnittsanalysen Heteroskedastizität vor. • Annahme B5: Keine Autokorrelation Unter der Bedingung von x sind die Störterme für beliebige Zeitperioden unkorreliert, d.h. es gilt Corr(εt,εs|x) = 0 für alle t ≠ s. Bei dieser Annahme wird zur einfacheren Interpretation oft von der Bedingung von x abstrahiert: Corr(ε t ,ε s ) = 0 für alle t s 56 Damit ergibt sich auch unter den Annahmen B1 bis B5 für die bedingte Varianz der mit OLS geschätzten Steigungsparameter: Var(βˆ h |x) = σ2 n (1-R 2h ) (x th -x h ) 2 σ2 = (1-R 2h )SSTh für h = 1,…, k t=1 Dabei stellt Rh2 das Bestimmtheitsmaß bei einer Regression von xh auf alle anderen erklärenden Variablen (einschließlich einer Konstante) dar. Des Weiteren gilt: • Auch unter den Annahmen B1 bis B5 ergibt sich folgender erwartungstreuer Schätzer für die Varianz σ2 des Fehlerterms εt: 1 n 2 SSR ˆ σ̂ = ε = t n-k-1 n-k-1 t=1 2 • Auch unter den Annahmen B1 bis B5 sind die OLS-Schätzer die besten linearen unverzerrten Schätzer unter der Bedingung von x Somit liegen bei den Annahmen B1 bis B5 in Regressionsanalysen mit Zeitreihendaten dieselben wünschenswerten Eigenschaften bei endlichen Stichproben vor wie bei den Annahmen A1 bis A5 in Querschnittsanalysen. 57 Zusätzliche Annahme B6: Normalverteilung • Die Störterme εt sind unabhängig von x und unabhängig und identisch normalverteilt mit einem Erwartungswert null und einer Varianz σ2, d.h. es gilt: εt ~ N(0; σ2). Dabei impliziert B6 die Annahmen B3 bis B5, jedoch ist diese Annahme aufgrund der Unabhängigkeit und Normalverteilung stärker. Auch unter den klassischen linearen Modellannahmen B1 bis B6 in Zeitreihenanalysen ergibt sich: Die OLS-Schätzer sind unter der Bedingung von x normalverteilt, die konventionelle Konstruktion von Konfidenzintervallen ist gültig und unter den entsprechenden Nullhypothesen folgen die t- und F-Statistiken der t- und F-Verteilung Einbeziehung von Dummy-Variablen in Zeitreihenanalysen: Da eine Beobachtungseinheit eine Zeitperiode ist, repräsentieren Dummy-Variablen, ob sich ein spezifisches Ereignis in einzelnen Perioden ergeben hat Es wird nun eine zusätzliche qualitative erklärende Variable mit q verschiedenen Ausprägungen betrachtet. Für diesen Fall können (maximal) q-1 DummyVariablen xt01, xt02,…, xt,0,q-1 (neben den jetzt k-q+1 quantitativen erklärenden Variablen xt1, xt2,…, xt,k-q+1) einbezogen werden : y t = β0 + β1x t01 + β2 x t02 + + βq-1x t,0,q-1 + βq x t1 + βq+1x t2 + + β k x t,k-q+1 + ε t Die q-te Ausprägung der qualitativen Variablen (d.h. die Dummy-Variable xt0q) 58 dient dabei als Basiskategorie. --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Fertilitätsraten Mit Hilfe eines linearen Regressionsmodells soll für die Jahre von 1913 bis 1984 der Effekt des durchschnittlichen Steuerfreibetrags (pe) sowie der Zeitperioden des Zweiten Weltkrieges von 1941 bis 1945 (ww2) und seit Einführung der Antibabypille ab 1963 (pill) auf die Anzahl der Geburten auf 1000 Frauen im gebärfähigen Alter (gfr) in den USA untersucht werden. Dabei zeigen sich mit STATA folgende OLS-Schätzergebnisse (n = 72, R2 =0,473): reg gfr pe ww2 pill -----------------------------------------------------------------------------gfr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------pe | .08254 .0296462 2.78 0.007 .0233819 .1416981 ww2 | -24.2384 7.458253 -3.25 0.002 -39.12111 -9.355686 pill | -31.59403 4.081068 -7.74 0.000 -39.73768 -23.45039 _cons | 98.68176 3.208129 30.76 0.000 92.28003 105.0835 ------------------------------------------------------------------------------ Die geschätzten Regressionsparameter implizieren, dass die Anzahl der Geburten auf 1000 Frauen im gebärfähigen Alter (bei gleichem durchschnittlichen Steuerfreibetrag) während des Zweiten Weltkrieges durchschnittlich um mehr als 24 und seit Einführung der Antibabypille um mehr als 31 geringer war als in den anderen Zeitperioden. --------------------------------------------------------------------------------------------------------59 Achtung: Es dürfen wiederum niemals alle q Dummy-Variablen xt01, xt02,…, xt0,q gleichzeitig einbezogen werden, da dadurch eine perfekte Kollinearität vorliegen würde (generelle Form der „dummy variable trap“) Zeittrends: Zeitreihendaten und somit auch abhängige und erklärende Variablen in linearen Regressionsmodellen können eine sinkende und vor allem wachsende Tendenz über die Zeit haben (z.B. Arbeitsproduktivität, nominale Importe). Falls dies ignoriert wird, können sich falsche geschätzte kausale Effekte ergeben. Einfachstes Modell für lineare Zeittrends eines stochastischen Prozesses {yt}: y t = α 0 + α1t + e t für t = 1, 2, ... Im einfachsten Fall stellt {et} eine unabhängige identisch verteilte zufällige Sequenz mit E(et) = 0 und Var(et) = σe2 dar. Zudem ergibt sich: E(y t ) = α 0 + α1t Bei α1 > 0 liegt im Durchschnitt ein wachsender Trend und bei α1 < 0 ein sinkender Trend vor. Im Gegensatz zum Erwartungswert ist die Varianz von yt konstant über die Zeit. 60 → Falls bei abhängigen und/oder erklärenden Variablen in Regressionsanalysen mit Zeitreihendaten Trends vorliegen, sollten diese einbezogen werden, da ansonsten scheinbare Zusammenhänge („spurious regression“) entstehen. Ohne die Einbeziehung von Trendvariablen könnten sich verzerrte Schätzer der Regressionsparameter ergeben („omitted variable bias“). Zusätzliche Einbeziehung eines linearen Zeittrends (neben jetzt k-1 sonstigen erklärenden Variablen xt1, xt2,…, xt,k-1): y t = β0 + β1x t1 + β2 x t2 + + β k-1x t,k-1 + β k t + ε t Anmerkungen: • Neben linearen Zeittrends können auch quadratische Zeittrends sowie weitere Polynome von t einbezogen werden • Falls der Zeittrend signifikant von null verschieden ist und sich die Schätzergebnisse stark verändern, sollten die geschätzten Regressionsparameter ohne die Einbeziehung der Trendvariablen vorsichtig interpretiert werden • Die Einbeziehung eines Zeittrends als erklärende Variable führt zu einer Trendbereinigung, d.h. die geschätzten Steigungsparameter können als geschätzte Effekte ohne den Zeittrend interpretiert werden • Bestimmtheitsmaße in Regressionsanalysen mit Zeitreihendaten können artifiziell sehr hohe Werte aufweisen, falls die abhängige Variable einen Trend aufweist 61 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Fertilitätsraten Wie zuvor soll erneut mit Hilfe eines linearen Regressionsmodells für die Jahre von 1913 bis 1984 der Effekt des durchschnittlichen Steuerfreibetrags (pe) sowie der Zeitperioden des Zweiten Weltkrieges von 1941 bis 1945 (ww2) und seit Einführung der Antibabypille ab 1963 (pill) auf die Fertilitätsrate (gfr) in den USA untersucht werden. Jetzt wird aber durch die Einbeziehung einer linearen Trendvariable eine Trendbereinigung durchgeführt. Dabei zeigen sich mit STATA folgende OLS-Schätzergebnisse (n = 72, R2 = 0,662): reg gfr pe ww2 pill t -----------------------------------------------------------------------------gfr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------pe | .2788778 .0400199 6.97 0.000 .1989978 .3587578 ww2 | -35.59228 6.297377 -5.65 0.000 -48.1619 -23.02267 pill | .997447 6.26163 0.16 0.874 -11.50082 13.49571 t | -1.149872 .1879038 -6.12 0.000 -1.524929 -.7748145 _cons | 111.7694 3.357765 33.29 0.000 105.0673 118.4716 ------------------------------------------------------------------------------ Der geschätzte sinkende lineare Zeittrend ist hochsignifikant von null verschieden, so dass nun der geschätzte Regressionsparameter für pe mehr als dreimal so groß wie vorher und deutlicher signifikant von null verschieden ist .Vor allem aber hat dadurch nun die Einführung der Antibabypille ab 1963 keinen 62 signifikanten Effekt mehr jenseits des Zeittrends. --------------------------------------------------------------------------------------------------------- Saisonalität: Falls sich Zeitreihendaten auf Monate oder Quartale (bzw. auch Wochen oder Tage) beziehen, kann Saisonalität vorliegen, z.B. Wettereinflüsse bei makroökonomischen Variablen wie Beschäftigungszahlen. Andere Variablen wie z.B. Zins- oder Inflationsraten weisen dagegen selten Saisonalität auf. Daten für einige Variablen mit Saisonalität können bereits im Vorfeld saisonbereinigt sein. Falls Saisonalität bei abhängigen und/oder erklärenden Variablen in Regressionsanalysen mit Zeitreihendaten vorliegt und die Daten noch nicht saisonbereinigt wurden, sollten entsprechende saisonale Dummy-Variablen einbezogen werden. Bei Monatsdaten und der zusätzlichen Einbeziehung von elf DummyVariablen für die Monate Februar (feb) bis Dezember (dec) (neben jetzt k-11 sonstigen erklärenden Variablen xt1, xt2,…, xt,k-11) ergibt sich y t = β0 + β1x t1 + β2 x t2 + + β k-11x t,k-11 + β k-10feb t + + β kdec t + ε t Anmerkungen: • Bei Quartalsdaten können Dummy-Variablen für maximal drei Quartale einbezogen werden • Die Einbeziehung von saisonalen Dummy-Variablen führt zu einer Saisonbereinigung, d.h. die geschätzten Steigungsparameter der erklärenden Variablen können als geschätzte Effekte ohne Saisonalität interpretiert werden • Saisonale Dummy-Variablen können neben Trendvariablen einbezogen wer63 den, so dass eine Saison- und Trendbereinigung durchgeführt wird 0.9 Asymptotische Eigenschaften in Zeitreihenanalysen Die zuvor betrachteten Eigenschaften von OLS-Schätzern bei endlichen Stichprobenumfängen basieren auf Annahmen, die bei Regressionsanalysen mit Zeitreihendaten sehr restriktiv sein können. Deshalb sind asymptotische Eigenschaften unter weniger restriktiven Annahmen bei Zeitreihenanalysen noch wichtiger als bei Querschnittsanalysen. Hierbei spielen die Stationarität und eine geringe serielle Abhängigkeit der Zeitreihe bei schwacher Abhängigkeit von Zeitreihenprozessen eine wesentliche Rolle. Stationärer stochastischer Prozess: Ein solcher Zeitreihenprozess ist dadurch gekennzeichnet, dass seine Wahrscheinlichkeitsverteilungen zeitinvariant sind, d.h. die gemeinsamen Verteilungen einer spezifischen Sequenz von Zeitreihendaten und einer um beliebige g Zeitperioden nach vorne verschobenen Sequenz sind identisch Formale Definition eines (strikt) stationären stochastischen Prozesses: Ein stochastischer Prozess {yt: t = 1,…, n} ist stationär, falls für alle Zeitindizes 1 ≤ t1 < t2 < … < tm und für alle ganze Zahlen g ≥ 1 die gemeinsame Wahrscheinlichkeitsverteilung von (yt1, yt2,…, ytm) identisch mit der gemeinsamen Verteilung von (yt1+g, yt2+g,…, ytm+g) ist. 64 Schwach stationärer (kovarianz-stationärer) stochastischer Prozess: Ein stochastischer Prozess {yt: t = 1,…, n} mit einem endlichen E(yt2) < ∞ ist schwach stationär, falls (i) E(yt) konstant ist, (ii) Var(yt) konstant ist und (iii) für alle t, g ≥ 1 gilt, dass Cov(yt, yt+g) nur von g, nicht aber von t abhängt Schwach abhängige Zeitreihenprozesse: • Eine schwache Abhängigkeit zwischen zwei Werten yt und yt+g bezieht sich auf Restriktionen für die Stärke ihres Zusammenhangs, wenn der zeitliche Abstand g wächst • Ein stationärer Zeitreihenprozess {yt: t = 1,…, n} ist schwach abhängig, falls yt und yt+g „fast unabhängig“ sind, wenn g über alle Grenzen wächst • Ein schwach stationärer Zeitreihenprozess ist schwach abhängig, falls die Korrelation von yt und yt+g „hinreichend schnell“ gegen null konvergiert, wenn g über alle Grenzen wächst. Wenn also die Zufallsvariablen über die Zeit weiter auseinander driften, wird ihre Korrelation immer kleiner, d.h. mit g → ∞ ergibt sich Corr(yt, yt+g) → 0. Der Zeitreihenprozess wird dann als asymptotisch unkorreliert bezeichnet. → Ein unabhängig identisch verteilter (i.i.d.) Zeitreihenprozess ist das triviale Beispiel eines schwach abhängigen Prozesses, da er ja unabhängig ist → Zeitreihenprozesse mit Trends können nicht-stationär, aber schwach abhängig sein (bei Stationarität über den Zeittrend liegt Trendstationarität vor)65 Annahmen zur Betrachtung der Konsistenz von OLS-Schätzern: • Annahme B1‘: Linearität und schwache Abhängigkeit Es gilt Annahme B1, d.h. der Zeitreihenprozess {(xt, yt): t = 1,…, n} folgt dem linearen Modell yt = β0 + β1xt1 +…+ βkxtk + εt. Zusätzlich ist der Zeitreihenprozess aber stationär und schwach abhängig. Das lineare Regressionsmodell kann nun (wegen B3‘) auch zeitlich verzögerte abhängige Variablen als erklärende Variablen beinhalten. Die gegenüber B1 wesentliche zusätzliche Annahme ist weniger die Stationarität, sondern vielmehr die schwache Abhängigkeit, die in vielen Zeitreihenprozessen nicht vorliegt. • Annahme B2‘: Keine perfekte Kollinearität Es gilt also Annahme B2 • Annahme B3‘: Bedingter Erwartungswert von εt ist null Im Gegensatz zu Annahme B3 wird jetzt nicht mehr die strikte Exogenität der erklärenden Variablen, sondern lediglich die kontemporäre Exogenität entsprechend betrachtet, d.h. E(εt|xt) = 0. Häufig wird für die Konsistenzeigenschaft auch lediglich folgendes vorausgesetzt: E(ε t ) = 0, Cov(x th , ε t ) = 0 für h = 1,..., k Unter diesen drei Annahmen sind die OLS-Schätzer βh konsistent (wenngleich nicht unbedingt erwartungstreu), d.h. es gilt plim(βh) = βh für h = 0,1,…, k 66 Die Annahmen zur Ableitung der asymptotischen Normalverteilung von Funktionen von OLS-Schätzern in Zeitreihenanalysen und damit zur Durchführung von Testverfahren sind etwas weniger restriktiv als die klassischen linearen Modellannahmen B1 bis B6: • Annahmen B1‘ bis B3‘ (die bei der Betrachtung der Konsistenz von OLSSchätzern getroffen werden) • Annahme B4‘: Kontemporäre Homoskedastizität der Fehlerterme Die bedingte Varianz des Fehlerterms εt ist konstant und bezieht sich nicht mehr auf die erklärenden Variablen in allen Zeitperioden t = 1,…, n, sondern nur noch in Zeitperiode t: Var(εt|xt) = Var(εt) = σ2. • Annahme B5‘: Keine Autokorrelation der Fehlerterme Für alle t ≠ s gilt E(εtεs|xt, xs) = 0, d.h. es wird nur noch auf die erklärenden Variablen in den Zeitperioden von εt und εs bedingt. Auch bei dieser Annahme wird zur einfacheren Interpretation oft von der Bedingung abstrahiert und lediglich die Unkorreliertheit von εt und εs betrachtet. Unter den Annahmen B1‘ bis B5‘ ergibt sich, dass die OLS-Schätzer asymptotisch effizient sind und für Funktionen der OLS-Schätzer eine asymptotische Normalverteilung vorliegt. Zudem sind die t- und F-Statistiken in diesem Fall asymptotisch t- und F-verteilt. Dadurch können dann die konventionellen t- und F-Tests durchgeführt und Konfidenzintervalle konstruiert werden. 67 0.10 Autokorrelierte Fehlerterme Eigenschaften von OLS-Schätzern bei autokorrelierten Fehlertermen: • Unter den Annahmen B1 bis B3 (insbesondere bei strikter Exogenität der erklärenden Variablen) sind die OLS-Schätzer βh unabhängig von der Stärke der Autokorrelation der Störterme erwartungstreu • Unter den Annahmen B1‘ bis B3‘ (und damit insbesondere bei schwacher Abhängigkeit des Zeitreihenprozesses) sind die OLS-Schätzer βh unabhängig von der Stärke der Autokorrelation der Störterme konsistent • Allerdings werden bei autokorrelierten Fehlertermen nicht mehr die GaussMarkov-Annahmen erfüllt, so dass die OLS-Schätzer in diesem Fall nicht mehr die BLUE-Eigenschaft (bzw. Effizienz) aufweisen • Vor allem aber sind bei autokorrelierten Fehlertermen die konventionellen Schätzer der Varianzen der mit OLS geschätzten Steigungsparameter verzerrt und somit auch die t- und F-Statistiken nicht einmal mehr asymptotisch t- und F-verteilt • Die wichtigste Form autokorrelierter Fehlerterme ergibt sich durch einen entsprechenden AR(1) Prozess, also durch folgende AR(1) Autokorrelation: ε t = ρε t-1 + e t für t = 1, 2,..., n Dabei gilt die Stabilitätsbedingung |ρ| < 1 und die et sind unkorreliert mit Er68 wartungswert null und Varianz σe2. Allgemeiner t-Test auf AR(1) Autokorrelation der Fehlerterme: • Überprüft wird folgende AR(1) Autokorrelation der Fehlerterme: ε t = ρε t-1 + e t für t = 2, 3,..., n Angenommen wird dabei, dass {et} ein i.i.d. Zeitreihenprozess ist, so dass dabei auch Homoskedastizität vorliegt: E(e t |ε t-1 , ε t-2 ,...) = 0 Var(e t |ε t-1 ) = Var(e t ) = σ e2 • Die Nullhypothese lautet: H 0: ρ = 0 • Die Nullhypothese könnte dadurch überprüft werden, dass ein gewöhnlicher t-Test für ρ bei der Regression von εt auf εt-1 sowie allen erklärenden Variablen (die verzögerte abhängige Variablen sein können) und einer Konstante angewendet wird • Allerdings sind die εt unbekannt und werden deshalb durch die entsprechenden OLS-Residuen εt ersetzt • Durch die Einbeziehung der erklärenden Variablen ergibt sich die approximative t-Verteilung der Prüfgröße, selbst wenn die erklärenden Variablen nicht strikt exogen sind (bei strikter Exogenität der erklärenden Variablen genügt eine Regression von εt auf εt-1) 69 • Somit ergibt sich folgendes Vorgehen bei diesem allgemeinen t-Test: (1) Mit Hilfe der OLS-Regressionswerte bei der Regression von yt auf die erklärenden Variablen xt1,…, xtk werden zunächst die Residuen εt für alle t = 1,2,…, n ermittelt (2) Danach werden die εt auf die εt-1 sowie alle erklärenden Variablen einschließlich einer Konstante für alle t = 2,…, n regressiert, der OLSSchätzer ρ für εt-1 abgeleitet und die entsprechende t-Statistik tρ ermittelt (3) Die Teststatistik tρ wird schließlich zur Überprüfung der Nullhypothese H0: ρ = 0 verwendet • Obwohl dieser Test zur Überprüfung von AR(1) Autokorrelationen in den Fehlertermen entwickelt wurde, können damit auch andere Formen von (angrenzenden) Autokorrelationen aufgedeckt werden • Falls keine Homoskedastizität bei {et} vorliegt, können heteroskedastizitätsrobuste t-Statistiken angewendet werden • Ein alternatives in der Vergangenheit populäres Verfahren ist der DurbinWatson-Test auf AR(1) Autokorrelation der Störterme, der allerdings zwingend die strikte Exogenität der erklärenden Variablen voraussetzt (damit kann dieser Test z.B. nicht bei linearen Regressionsmodellen mit verzögerten abhängigen Variablen angewendet werden) 70 --------------------------------------------------------------------------------------------------------Beispiel: Philips-Kurve Ein sehr einfacher Ansatz zum Zusammenhang zwischen Inflationsrate (inf) und Arbeitslosenrate (unem) basiert auf der statischen Philips-Kurve. Für die USA wurde dabei für die Jahre von 1948 bis 1996 folgende OLS-Regressionsfunktion geschätzt (n = 49, R2 = 0,053): infˆt = 1,424 + 0,468unem t (1,719) (0,289) Auf Basis dieser OLS-Schätzung wurden die ut auf die ut-1 (n = 48) regressiert: uˆˆ t = 0,573uˆ t-1 (0,115) Damit ergibt sich tρ = 4,98 und damit eine sehr starke Evidenz für eine AR(1) Autokorrelation der Störterme. Daraus folgt, dass die obige t-Statistik zur Überprüfung des Effektes der Arbeitslosigkeit auf die Inflation nicht zuverlässig ist. → Bei der Untersuchung einer flexibleren Form der Philips-Kurve („expectations augmented Philips curve“), kann dagegen keine Autokorrelation erster Ordnung der Störterme nachgewiesen werden --------------------------------------------------------------------------------------------------------71 --------------------------------------------------------------------------------------------------------Beispiel: Philips-Kurve (STATA-Output) Mit STATA haben sich folgende OLS-Schätzergebnisse gezeigt: tsset year reg inf unem Source | SS df MS -------------+-----------------------------Model | 25.6369586 1 25.6369586 Residual | 460.619776 47 9.80042077 -------------+-----------------------------Total | 486.256735 48 10.1303486 Number of obs = F( 1, 47) = Prob > F = R-squared = Adj R-squared = Root MSE = 49 2.62 0.1125 0.0527 0.0326 3.1306 -----------------------------------------------------------------------------inf | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------unem | .4676257 .2891262 1.62 0.112 -.1140212 1.049273 _cons | 1.42361 1.719015 0.83 0.412 -2.034602 4.881822 ------------------------------------------------------------------------------ predict u, resid reg u l.u, noconstant Source | SS df MS -------------+-----------------------------Model | 150.799931 1 150.799931 Residual | 285.815602 47 6.08118302 -------------+-----------------------------Total | 436.615533 48 9.09615694 Number of obs = 48 F( 1, 47) = 24.80 Prob > F = 0.0000 R-squared = 0.3454 Adj R-squared = 0.3315 Root MSE = 2.466 -----------------------------------------------------------------------------u | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------u | L1. | .5727355 .1150132 4.98 0.000 .3413588 .8041121 ------------------------------------------------------------------------------ 72 Mögliche Ansätze bei autokorrelierten Fehlertermen: • Ein Ansatz ist die Transformation der Variablen durch die Einbeziehung von (z.B. ersten) Differenzen der abhängigen und erklärenden Variablen. Durch diese Transformation können häufig nicht nur die starke Abhängigkeit der Zeitreihenprozesse, sondern oft auch eine Autokorrelation der Störterme ganz vermieden werden. • Ein alternativer Ansatz ist die Anwendung einer zu OLS alternativen Schätzmethode. Beispiele hierfür sind verschiedene verallgemeinerte Methoden der kleinsten Quadrate (GLS) wie z.B. die Cochrane-Orcutt- oder die PraisWinston-Methode. Damit können einzelne Formen autokorrelierter Störterme bei der Parameterschätzung berücksichtigt werden. → Allerdings hat die Anwendung von GLS-Methoden eine Reihe von strengen Anforderungen. So müssen z.B. die erklärenden Variablen strikt exogen sein, da GLS-Schätzer ansonsten nicht einmal konsistent sind. Zudem wird häufig die spezifische AR(1) Autokorrelation der Fehlerterme angenommen. → Aus diesem Grund werden in den letzten Jahren viel häufiger die Regressionsparameter (ineffizient) mit OLS geschätzt, die Schätzer der Varianzen der geschätzten Regressionsparameter aber korrigiert. Damit können in Analogie zur Betrachtung von heteroskedastizitäts-robusten t-Statistiken autokorrelations-robuste Konfidenzintervalle und vor allem t-Statistiken abgeleitet werden. 73 Ausgangspunkt eines Ansatzes zur Ableitung von autokorrelations-robusten Schätzungen der Varianz der geschätzten Regressionsparameter ist das folgende lineare Regressionsmodell: y t = β0 + β1x t1 + + β k x tk + ε t für t = 1,..., n Dabei soll zunächst eine autokorrelations-robuste Schätzung der Standardabweichung des OLS-Schätzers β1 abgeleitet werden. Hierzu wird folgendes Hilfsregressionsmodell betrachtet, das die erste erklärende Variable xt1 als abhängige Variable und alle anderen erklärenden Variablen als erklärende Variablen beinhaltet: x t1 = δ0 + δ1x t2 + + δ k-1x tk + rt1 für t = 1,..., n Dabei hat der Störterm rt1 einen Erwartungswert von null und ist unkorreliert mit den erklärenden Variablen xt2,…, xtk. Für den Schätzer der Standardabweichung des OLS-Schätzers β1 wird im Folgenden weiterhin der Schätzer σ der Standardabweichung σ des Fehlerterms εt betrachtet. Mit rt1 als Residuum der obigen OLS-Schätzung in Zeitperiode t kann mit g > 0 (wobei g kontrolliert, welches Ausmaß an Autokorrelation in die Betrachtung einbezogen wird) folgender Ansatz abgeleitet werden: h n ˆ ˆ ˆ ˆ v̂ = rˆ εˆ + 2 1r ε r ε t1 t t-h,1 t-h g+1 t=1 h=1 t=h+1 g n 2 2 t1 t 74 Je größer g ist, desto mehr Terme werden zur Korrektur der Autokorrelation einbezogen. Im einfachsten Fall mit g = 1 ergibt sich: n v̂ = rˆ εˆ 2 2 t1 t t=1 n + rˆ εˆ rˆ εˆ t1 t t-1,1 t-1 t=2 Damit ergibt sich nun folgender autokorrelations-robuster Schätzer der Standardabweichung von β1: (1-R 2 )SST 1 1 ˆ ˆ1 ) = Var(β σ̂ σ̂ 2 vˆ = vˆ vˆ = (1-R12 )SST1 SSR1 Diese Schätzung kann analog auf beliebige OLS-Schätzer βh angewendet werden (mit Störterm rth). Dabei sind die Schätzungen nicht nur autokorrelationsrobust, sondern auch robust für beliebige Formen der Heteroskedastizität, so dass sie auch als heteroskedastizitäts- und autokorrelations-konsistente (HAC) Schätzungen der Standardabweichung der geschätzten Steigungsparameter bezeichnet werden. Diese Robustheit für Heteroskedastizität zeigt sich, wenn für die Schätzung der Standardabweichung von βh nur der erste Term von v einbezogen wird: 75 n ˆ ˆh) = Var(β rˆ εˆ n 2 2 th t t=1 2 h (1-R )SSTh = 2 2 ˆ r thεˆ t t=1 SSR h Damit ergibt sich die Analogie zur heteroskedastizitäts-robusten Schätzung der Standardabweichung von mit OLS geschätzten Steigungsparametern. Anmerkungen: • Die Einbeziehung der HAC-Schätzung der Standardabweichung der geschätzten Steigungsparameter in t-Statistiken führt zu heteroskedastizitätsund autokorrelations-robusten t-Statistiken • Mit wachsendem n sollte auch die Zahl g wachsen, da bei einer großen Anzahl an Zeitperioden auch das Ausmaß der Autokorrelation der Fehlerterme steigen kann. Faustregeln sind g = 4(n/100)2/9 (nach Newey und West, 1987) oder aber g = n1/4. • Aufgrund von häufig positiver Autokorrelation der Störterme weisen die HAC-Schätzer der Standardabweichung der geschätzten Steigungsparameter oft höhere Werte auf als die konventionellen Schätzer, so dass die HAC t-Statistiken meist kleiner sind • Probleme der HAC-Schätzungen sind, dass sie bei sehr hoher Autokorrelation der Störterme und kleinem n sehr invalide und dass die zugrunde lie- 76 genden OLS-Schätzer sehr ineffizient sein können --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Beschäftigungsraten (I) Mit Hilfe eines linearen Regressionsmodells soll für die Jahre von 1950 bis 1987 der Effekt des Logarithmus der Bedeutung des U.S. Mindestlohnes (logmincov), des Logarithmus des U.S. Bruttosozialprodukts (logusgnp) und des Logarithmus des Bruttosozialprodukts in Puerto Rico (logprgnp) unter Einbeziehung einer linearen Trendvariable auf den Logarithmus der Beschäftigungsrate in Puerto Rico (logprepop) untersucht werden. Bei einem Test auf AR(1) Autokorrelation der Fehlerterme hat sich ein klarer Hinweis auf AR(1) Autokorrelation ergeben, so dass autokorrelations-robuste t-Statistiken betrachtet werden. Ergebnisse: • Der OLS-Schätzer der Elastizität der Beschäftigungsrate in Bezug auf den Mindestlohn beträgt -0,212 und der übliche Schätzwert der Standardabweichung des geschätzten Steigungsparameters beträgt 0,040 • Mit g = 2 ergibt sich ein heteroskedastizitäts- und autokorrelationsrobuster Schätzer der Standardabweichung des Steigungsparameters von 0,046 und ist damit nur geringfügig höher • Die robuste t-Statistik beträgt -4,64, so dass die geschätzte Elastizität weiterhin hoch signifikant von null verschieden ist 77 --------------------------------------------------------------------------------------------------------- --------------------------------------------------------------------------------------------------------Beispiel: Erklärung von Beschäftigungsraten (II) reg logprepop logmincov logusgnp logprgnp t Source | SS df MS -------------+-----------------------------Model | .284429802 4 .071107451 Residual | .035428549 33 .001073592 -------------+-----------------------------Total | .319858351 37 .00864482 Number of obs F( 4, 33) Prob > F R-squared Adj R-squared Root MSE = = = = = = 38 66.23 0.0000 0.8892 0.8758 .03277 -----------------------------------------------------------------------------logprepop | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------logmincov | -.2122611 .0401525 -5.29 0.000 -.293952 -.1305703 logusgnp | .4860416 .2219838 2.19 0.036 .0344121 .937671 logprgnp | .2852399 .0804923 3.54 0.001 .1214771 .4490027 t | -.0266632 .0046267 -5.76 0.000 -.0360764 -.01725 _cons | -6.663407 1.257838 -5.30 0.000 -9.222497 -4.104317 ------------------------------------------------------------------------------ newey logprepop logmincov logusgnp logprgnp t, lag(2) Regression with Newey-West standard errors maximum lag: 2 Number of obs F( 4, 33) Prob > F = = = 38 37.84 0.0000 -----------------------------------------------------------------------------| Newey-West logprepop | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------logmincov | -.2122611 .0457188 -4.64 0.000 -.3052768 -.1192455 logusgnp | .4860416 .2791144 1.74 0.091 -.081821 1.053904 logprgnp | .2852399 .0996364 2.86 0.007 .082528 .4879518 t | -.0266632 .0057559 -4.63 0.000 -.0383736 -.0149528 _cons | -6.663407 1.536445 -4.34 0.000 -9.789328 -3.537485 ------------------------------------------------------------------------------ 78 --------------------------------------------------------------------------------------------------------- 0.11. Modelle mit binären abhängigen Variablen Lineare Wahrscheinlichkeitsmodelle Mit yi (i = 1,…, n) als binäre abhängige Variable, xi = (xi1,…, xik)‘ als Vektor von k erklärenden Variablen (einschließlich Konstante) und mit dem entsprechenden k-dimensionalen Parametervektor β = (β1,…, βk)‘ kann ein ökonometrisches Modell wie ein lineares Regressionsmodell spezifiziert werden: y i = β'x i + ε i Ein solches lineares Regressionsmodell mit einer binären abhängigen Variablen wird als lineares Wahrscheinlichkeitsmodell bezeichnet. Mit E(εi|xi) = 0 folgt: E(y i |x i ) = β'x i Da yi eine binäre Variable ist mit yi = 1 or yi = 0, ist sie Bernoulli verteilt mit Parameter pi und der folgenden Wahrscheinlichkeitsfunktion: f i (y i ; pi ) = pi yi (1-pi )1-yi für y i = 0, 1 Im linearen Wahrscheinlichkeitsmodell folgt: pi = pi (x i , β) = P(yi = 1|x i , β) = E(yi |x i ) = β'x i Interpretation der Steigungsparameter: βh (h = 2,…, k) weist die Veränderung der Wahrscheinlichkeit pi(xi, β), dass yi den Wert eins annimmt, bei einer Erhöhung von xih um eine Einheit (bei quanti79 tativen erklärenden Variablen) aus (ceteris paribus) Falls alle anderen erklärenden Variablen konstant gehalten werden, ergibt sich: pi (x i , β) = ΔP y i = 1|x i , β = β hΔx ih Wie bei der OLS-Schätzung in linearen Regressionsmodellen können die unbekannten Regressionsparameter β1,…, βk auch im linearen Wahrscheinlichkeitsmodell mit der OLS-Methode geschätzt werden. Dies führt zum OLSSchätzer des Parametervektors β = (β1,…, βk). Es folgt: • Der Schätzer der abhängigen Variablen ist yi = β‘xi, das die geschätzte Wahrscheinlichkeit pi(xi, β), dass yi den Wert eins annimmt, darstellt • Der geschätzte Steigungsparameter βh (h = 2,…, k) gibt die Veränderung der geschätzten Wahrscheinlichkeit pi(xi, β) an, falls xih um eine Einheit (bei quantitativen erklärenden Variablen) steigt (ceteris paribus) Problem: Da yi Bernoulli verteilt ist mit dem Parameter pi(xi, β) = P(yi = 1|xi, β) = β‘xi und εi = - β‘xi für yi = 0 und εi = 1 - β‘xi für yi = 1, folgt für die bedingte Varianz von yi und die bedingte Varianz des Störterms εi: Var(y i |x i ) = Var(ε i |x i ) = β'x i (1 - β'x i ) Die bedingte Varianz des Störterms ist damit notwendigerweise nicht konstant, so dass Heteroskedastizität vorliegt. Deshalb sollten zumindest heteroskedastizitäts-robuste t-Statistiken verwendet werden. 80 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung der Erwerbstätigkeit von verheirateten Frauen (I) Mit Hilfe eines linearen Wahrscheinlichkeitsmodells soll der Effekt anderer Einkommen (in 1000 Dollar) einschließlich der des Ehemanns (nwifeinc), der Ausbildungszeit in Jahren (educ), der Berufserfahrung in Jahren (exper), der quadrierten Berufserfahrung in Jahren (expersq), des Alters in Jahren (age) sowie der Anzahl der Kinder unter sechs Jahren (kidslt6) bzw. zwischen sechs und 18 Jahren (kidsge6) auf die Erwerbstätigkeit (inlf) von verheirateten Frauen untersucht werden. Dabei nimmt inlf den Wert eins an, falls die Frau erwerbstätig ist. Die folgende OLS-Regressionsgleichung wurde mit n = 753 Frauen geschätzt, wobei auch heteroskedastizitäts-robust geschätzte Standardabweichungen der geschätzten Parameter (in eckigen Klammern) zusätzlich zu den konventionell geschätzten Standardabweichungen ausgewiesen werden (R2 = 0,264): ˆ = 0,586 - 0,003nwifeinc + 0,038educ + 0,039exper - 0,001expersq inlf (0,154) (0,001) (0,007) (0,006) (0,000) [0,152] [0,002] [0,007] [0,006] [0,000] - 0,016age - 0,262kidslt6 + 0,013kidsge6 (0,002) (0,034) (0,013) [0,002] [0,032] [0,014] 81 --------------------------------------------------------------------------------------------------------- --------------------------------------------------------------------------------------------------------Beispiel: Erklärung der Erwerbstätigkeit von verheirateten Frauen (II) reg inlf nwifeinc educ exper expersq age kidslt6 kidsge6, robust Linear regression Number of obs F( 7, 745) Prob > F R-squared Root MSE = = = = = 753 62.48 0.0000 0.2642 .42713 -----------------------------------------------------------------------------| Robust inlf | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------nwifeinc | -.0034052 .0015249 -2.23 0.026 -.0063988 -.0004115 educ | .0379953 .007266 5.23 0.000 .023731 .0522596 exper | .0394924 .00581 6.80 0.000 .0280864 .0508983 expersq | -.0005963 .00019 -3.14 0.002 -.0009693 -.0002233 age | -.0160908 .002399 -6.71 0.000 -.0208004 -.0113812 kidslt6 | -.2618105 .0317832 -8.24 0.000 -.3242058 -.1994152 kidsge6 | .0130122 .0135329 0.96 0.337 -.013555 .0395795 _cons | .5855192 .1522599 3.85 0.000 .2866098 .8844287 ------------------------------------------------------------------------------ --------------------------------------------------------------------------------------------------------- 82 Bewertung von linearen Wahrscheinlichkeitsmodellen: • Die Parameter sind genauso wie in linearen Regressionsmodellen einfach mit der OLS-Methode zu schätzen und die geschätzten Steigungsparameter sind einfach als partielle Effekte zu interpretieren • Jedoch sind die geschätzten Wahrscheinlichkeiten pi(xi, β) = P(yi = 1|xi, β), dass die abhängigen Variablen yi den Wert eins annehmen, nicht auf das Intervall von null bis eins beschränkt, d.h. für spezifische Werte der erklärenden Variablen können die geschätzten Wahrscheinlichkeiten entgegen der Definition von Wahrscheinlichkeiten negativ oder größer als eins sein • Zudem hängen Wahrscheinlichkeiten für alle denkbaren Werte linear mit einer erklärenden Variablen zusammen. Die vorherige Schätzung impliziert z.B. eine geschätzte Reduktion der Wahrscheinlichkeit der Erwerbstätigkeit um 0,262, falls sich die Anzahl der Kinder unter sechs Jahren von null auf eins erhöht. Diese Reduktion wird genauso bei einer Erhöhung von einem Kind auf zwei Kinder geschätzt, obwohl eine Abschwächung des Rückgangs mit zunehmenden Kinderzahlen realistischer erscheint. Die vorherige Analyse impliziert sogar den definitionsgemäß unmöglichen Fall, dass vier zusätzliche Kinder zu einem geschätzten Rückgang der Wahrscheinlichkeit der Erwerbstätigkeit um 0,262∙4 = 1,048 oder 104,8 Prozentpunkte führen. → Aus diesen Gründen wird das lineare Wahrscheinlichkeitsmodell nur noch sehr selten in empirischen Anwendungen verwendet 83 Binäre Probit- und Logitmodelle Binäre abhängige Variablen yi in einem ökonometrischen Modell mit dem Vektor xi = (xi1,…, xik)‘ von k erklärenden Variablen und dem entsprechenden Parametervektor β = (β1,…, βk)‘ sind generell Bernoulli verteilt mit der folgenden Wahrscheinlichkeitsfunktion (i = 1,…, n): f i y i ; x i , β = pi (x i , β) yi 1 - pi (x i , β) 1-yi = P(y i = 1|x i , β) yi 1 - P(y i = 1|x i , β) 1-yi für y i = 0, 1 Unterschiedliche Modelle mit binären abhängigen Variablen resultieren aus unterschiedlichen Spezifikationen der Wahrscheinlichkeit pi(xi, β) = P(yi = 1|xi), dass die abhängige Variable yi den Wert eins annimmt. Bei linearen Wahrscheinlichkeitsmodellen ist diese Wahrscheinlichkeit identisch mit β‘x, so dass keine Werte zwischen null und eins gewährleistet sind. Diese Werte können durch nichtlineare Funktionen Fi(xi, β) = Fi(β‘xi) und vor allem durch Verteilungsfunktionen beliebiger Zufallsvariablen sichergestellt werden. Bei binären Probitmodellen ist Fi(β‘xi) = Φi(β‘xi) der Wert der Verteilungsfunktion einer standardnormalverteilten Zufallsvariablen bei β‘xi: β'x i Fi (β'x i ) = Φi (β'x i ) = pi (x i , β) = P(y i = 1|x i , β) = - 1 e 2π - t2 2 dt Die Wahrscheinlichkeiten pi(xi, β) in binären Probitmodellen müssen somit durch Integration berechnet werden. 84 Im Fall von binären Logitmodellen ist Fi(β‘xi) = Λi(β‘xi) der Wert der Verteilungsfunktion einer standardlogistischen Verteilung bei β‘xi: eβ'xi Fi (β'x i ) = Λ i (β'x i ) = pi (x i , β) = P(y i = 1|x i , β) = 1 + eβ'xi Im Unterschied zu binären Probitmodellen müssen die Wahrscheinlichkeiten pi(xi, β) in binären Logitmodellen nicht durch Integration ermittelt werden, sondern weisen eine geschlossene Form auf. → Trotz der substanziellen Unterschiede in der funktionalen Form sind die Wahrscheinlichkeiten pi(xi, β) = P(yi = 1|xi, β) in binären Probit- und Logitmodellen (außer für einen konstanten Skalierungsfaktor) sehr ähnlich, so dass die Wahl zwischen den beiden ökonometrischen Modellen in empirischen Untersuchungen wenig Unterschiede macht Interpretation des Parameters βh in Modellen mit binären abhängigen Variablen in Bezug auf den Effekt der erklärenden Variablen xih (h = 2,…, k) auf die Wahrscheinlichkeit pi(xi, β) = P(yi = 1|xi, β), ceteris paribus: • Der Parameter βh kann nicht so einfach wie im linearen Wahrscheinlichkeitsmodell interpretiert werden, d.h. er kann nicht als Veränderung von pi(xi, β) interpretiert werden, falls xih um eine Einheit steigt (für eine quantitative erklärende Variable) 85 • Stattdessen beträgt der marginale Wahrscheinlichkeitseffekt von xih in Modellen mit binären abhängigen Variablen wie folgt (i = 1,…, n): pi (x i , β) F (β‘x i ) dF (β‘x i ) β‘x i = i = i = f i (β‘x i )β h x ih x ih d(β‘x i ) x ih Dabei ist Fi(β‘xi) in binären Probitmodellen die Verteilungsfunktion einer standardnormalverteilten Zufallsvariablen und in binären Logitmodellen die Verteilungsfunktion einer standardlogistisch verteilten Zufallsvariablen. Zudem ist fi(β‘xi) die entsprechende Dichtefunktion. • Falls alle anderen erklärenden Variablen konstant gehalten werden, ergibt sich bei einer Veränderung ∆xih: Δpi (x i , β) f(β‘x i )β h Δx ih Je kleiner die Veränderung ∆xih, desto besser ist die lineare Approximation. Wichtige Aspekte der marginalen Wahrscheinlichkeitseffekte: • Das Vorzeichen des Parameters βh gibt die Richtung des marginalen Wahrscheinlichkeitseffektes von xih an • Die marginalen Wahrscheinlichkeitseffekte sind für β‘xi = 0 maximal, da die Dichtefunktionen an diesem Wert maximal sind • Die marginalen Wahrscheinlichkeitseffekte variieren nicht nur mit unterschiedlichen Werten der erklärenden Variablen xih, sondern auch mit unter-86 schiedlichen Werten der anderen erklärenden Variablen → In empirischen Analysen ist die Betrachtung marginaler Wahrscheinlichkeitseffekte einer erklärenden Variablen xih für eine typische Beobachtung i (z.B. Person, Haushalt, Unternehmen) interessant. Deshalb werden häufig durchschnittliche marginale Wahrscheinlichkeitseffekte über alle i = 1,…, n Beobachtungen geschätzt oder marginale Wahrscheinlichkeitseffekte, die am arithmetischen Mittel der erklärenden Variablen ermittelt werden. Parameterschätzung: • Bei binären Probit- und Logitmodellen ist die Schätzung der Parameter mit der OLS-Methode nicht geeignet, da die wesentlichen Annahmen (Vorliegen eines linearen Regressionsmodells) für günstige Schätzeigenschaften nicht gegeben sind. Aus diesem Grund sollte die OLS-Methode durch alternative Schätzmethoden ersetzt werden. • Der wichtigste Ansatz für binäre Probit- und Logitmodelle ist die Maximum Likelihood Methode (ML), die auf einer parametrischen Verteilung der abhängigen Variablen basiert (siehe später) 87 --------------------------------------------------------------------------------------------------------Beispiel: Erklärung der Erwerbstätigkeit von verheirateten Frauen (I) Wie im vorherigen Beispiel soll der Effekt anderer Einkommen, der Ausbildungszeit in Jahren, der einfachen und quadrierten Berufserfahrung, des Alters sowie der Anzahl der Kinder unter sechs Jahren bzw. zwischen sechs und 18 Jahren auf die Erwerbstätigkeit von n = 753 verheirateten Frauen untersucht werden. Jedoch werden jetzt keine linearen Wahrscheinlichkeitsmodelle, sondern binäre Probit- und Logitmodelle untersucht. Dabei zeigen sich mit STATA folgende ML-Schätzergebnisse im binären Probitmodell: probit inlf nwifeinc educ exper expersq age kidslt6 kidsge6 Probit regression Log likelihood = -401.30219 Number of obs LR chi2(7) Prob > chi2 Pseudo R2 = = = = 753 227.14 0.0000 0.2206 -----------------------------------------------------------------------------inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------nwifeinc | -.0120237 .0048398 -2.48 0.013 -.0215096 -.0025378 educ | .1309047 .0252542 5.18 0.000 .0814074 .180402 exper | .1233476 .0187164 6.59 0.000 .0866641 .1600311 expersq | -.0018871 .0006 -3.15 0.002 -.003063 -.0007111 age | -.0528527 .0084772 -6.23 0.000 -.0694678 -.0362376 kidslt6 | -.8683285 .1185223 -7.33 0.000 -1.100628 -.636029 kidsge6 | .036005 .0434768 0.83 0.408 -.049208 .1212179 _cons | .2700768 .508593 0.53 0.595 -.7267472 1.266901 ------------------------------------------------------------------------------ 88 --------------------------------------------------------------------------------------------------------- --------------------------------------------------------------------------------------------------------Beispiel: Erklärung der Erwerbstätigkeit von verheirateten Frauen (II) Im binären Logitmodell zeigen sich mit STATA dagegen folgende ML-Schätzergebnisse: logit inlf nwifeinc educ exper expersq age kidslt6 kidsge6 Logistic regression Log likelihood = -401.76515 Number of obs LR chi2(7) Prob > chi2 Pseudo R2 = = = = 753 226.22 0.0000 0.2197 -----------------------------------------------------------------------------inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------nwifeinc | -.0213452 .0084214 -2.53 0.011 -.0378509 -.0048394 educ | .2211704 .0434396 5.09 0.000 .1360303 .3063105 exper | .2058695 .0320569 6.42 0.000 .1430391 .2686999 expersq | -.0031541 .0010161 -3.10 0.002 -.0051456 -.0011626 age | -.0880244 .014573 -6.04 0.000 -.116587 -.0594618 kidslt6 | -1.443354 .2035849 -7.09 0.000 -1.842373 -1.044335 kidsge6 | .0601122 .0747897 0.80 0.422 -.086473 .2066974 _cons | .4254524 .8603697 0.49 0.621 -1.260841 2.111746 ------------------------------------------------------------------------------ Die Darstellung sämtlicher Schätzergebnisse im linearen Wahrscheinlichkeitsmodell sowie im binären Probit- und Logitmodell, die typischerweise zumindest die Schätzwerte, die t- bzw. z-Statistiken oder geschätzten Standardabweichungen der geschätzten Parameter sowie Informationen über die Signifikanz des Effektes der erklärenden Variablen enthält, hat z.B. folgendes Aussehen: 89 --------------------------------------------------------------------------------------------------------- --------------------------------------------------------------------------------------------------------Beispiel: Erklärung der Erwerbstätigkeit von verheirateten Frauen (III) ML-Schätzwerte (z-Statistiken), abhängige Variable: Erwerbstätigkeit (inlf) Erklärende Variablen Lineares Wahrscheinlichkeitsmodell Binäres Probitmodell Binäres Logitmodell nwifeinc -0.003** (-2.23) -0.012** (-2.48) -0.021** (-2.53) educ 0.038*** (5.23) 0.131*** (5.18) 0.221*** (5.09) exper 0.039*** (6.80) 0.123*** (6.59) 0.206*** (6.42) expersq -0.001*** (-3.14) -0.002*** (-3.15) -0.003*** (-3.10) age -0.016*** (-6.71) -0.053*** (-6.23) -0.088*** (-6.04) kidslt6 -0.262*** (-8.24) -0.868*** (-7.33) -1.443*** (-7.09) kidsge6 0.013 (0.96) 0.036 (0.83) 0.060 (0.80) Konstante 0.586 (3.85) 0.270 (0.53) 0.425 (0.49) Anmerkung: *** (**, *) bedeutet, dass die entsprechende erklärende Variable zum 1% (5%, 10%) Signifikanzniveau einen Effekt aufweist, n = 753 90 ---------------------------------------------------------------------------------------------------------