-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell

Kapitel 2: Das einfache Regressionsmodell
-2 Das einfache Regressionsmodell
2.1 Ein ökonomisches Modell
 Beispiel: Die Beziehung zwischen Haushaltseinkommen und Lebensmittelausgaben
 Befragung zufällig ausgewählter Haushalte einer Population, z.B. die Bewohner New Yorks, nach
1. dem wöchentlichen Haushaltseinkommen (x)
2. den Lebensmittelausgaben pro Woche und pro Haushaltsmitglied (y).
Quelle: Hill, Griffiths, Lim (2008), S.10.
Lehrstuhl für Wirtschaftspolitik - SS 2011
1
Kapitel 2: Das einfache Regressionsmodell
 Der bedingte Erwartungswert und die bedingte Varianz für x = 1000 werden beschrieben durch:
E( y | x  1000)   y| x
Var( y | x  1000)  2
 Aufstellung eines ökonomischen Modells, aus dem ein ökonometrisches Modell hergeleitet wird, das
Fragen beantworten kann wie zum Beispiel

Wie ändern sich die Lebensmittelausgaben im Durchschnitt, wenn das wöchentliche Einkommen
eines Haushalts um $100 steigt?

Wie hoch sind schätzungsweise die Lebensmittelausgaben für einen Haushalt mit einem
wöchentlichen Einkommen von $2.000?
 Unter der vereinfachenden Annahme einer linearen Beziehung lautet das ökonomische Modell für
Lebensmittelausgaben:
E( y | x)  y|x  1  2 x
(2.1.1)
 Der bedingte Erwartungswert, E(y|x), wird auch einfache Regressionsfunktion genannt.
 Die Parameter β1 und β2 helfen, den genauen Zusammenhang in der Population zu quantifizieren.
Deshalb werden sie auch Populationsparameter genannt (population parameters).
Lehrstuhl für Wirtschaftspolitik - SS 2011
2
Kapitel 2: Das einfache Regressionsmodell
Quelle: Hill, Griffiths, Lim (2008), S.12.
Lehrstuhl für Wirtschaftspolitik - SS 2011
3
Kapitel 2: Das einfache Regressionsmodell
2.2 Ein ökonometrisches Modell
2.2.1 Einleitung
Quelle: Hill, Griffths, Lim (2008), S.13.
Lehrstuhl für Wirtschaftspolitik - SS 2011
4
Kapitel 2: Das einfache Regressionsmodell
2.2.2 Der Fehlerterm
 Kern der Regressionsanalyse ist die Zerlegung der abhängigen Variable y in einen systematischen
und einen zufälligen Teil.
 Der systematische Teil ist E(y). Zufällig ist die Differenz zwischen dem Erwartungswert und dem
tatsächlich beobachteten Wert, die auch als Fehlerterm oder Residuum e bezeichnet wird:
e  y  E ( y)  y  1  2 x
(2.2.1)
 Zentrale Annahme des Modells ist, dass für jedes x der Mittelwert von y bestimmt wird durch
E( y)  1  2 x . Durch Umformen ergibt sich das einfache lineare Regressionsmodell:
Annahme SR1:
y  1  2 x  e
(2.2.2)
y ist hierbei die abhängige (endogene, left-hand side) Variable und x die unabhängige (erklärende,
right-hand side) Variable, auch Regressor genannt. „SR“ steht für Simple Regression (= einfaches
Regressionsmodell).
 (2.2.1) zeigt, dass sich y und e nur um den konstanten Term E(y) unterscheiden. Da y eine
Zufallsvariable ist, muss es der Fehlerterm somit auch sein. D.h., dass die Eigenschaften von y die
Eigenschaften von e bedingen und umgekehrt.
Lehrstuhl für Wirtschaftspolitik - SS 2011
5
Kapitel 2: Das einfache Regressionsmodell
2.2.3 Weitere Annahmen des einfachen linearen Regressionsmodell
SR2:
E(y) = β1 + β2x ↔ E(e) = 0
SR3:
var(y) = var(e) = σ2
SR4:
cov(yi, yj) =cov(ei, ej) = 0
Alternativ: Statistische Unabhängigkeit
SR5:
Die Variable x ist keine Zufallsvariable und nimmt mindestens zwei verschiedene
Ausprägungen an.
SR6:
Optional: Die Werte von y bzw. e sind um ihren Mittelwert normalverteilt:
y ~ N(β1 + β2x, σ2)
bzw.
e ~ N(0, σ2)
Lehrstuhl für Wirtschaftspolitik - SS 2011
6
Kapitel 2: Das einfache Regressionsmodell
2.3 Schätzung der Regressionsparameter
2.3.1 Einleitung
 Beispiel: Befragung von 40 3-Personen-Haushalten nach ihren Lebensmittelausgaben in der
vergangenen Woche und dem wöchentlichen Einkommen, d.h. wir verfügen über 40 Beobachtungen
mit (xi, yi), i=1,2,...,N=40. i ist der Index für die einzelne Beobachtung, N ist die Gesamtzahl der
Beobachtungen. Das Einkommen x wird in $100 gemessen.
 Annahme: Die Daten erfüllen SR1-SR5.
 Darstellung der Beobachtungen in einem Punktdiagramm, Fig. 2.6.
 Problem: Wie bestimmen wir am sinnvollsten Lage und Steigung der Regressionsgeraden? Gesucht
ist eine allgemeine Regel zur Bestimmung von β1 und β2.
Lehrstuhl für Wirtschaftspolitik - SS 2011
7
Kapitel 2: Das einfache Regressionsmodell
Quelle: Hill, Griffths, Lim (2008), S. 19.
Lehrstuhl für Wirtschaftspolitik - SS 2011
8
Kapitel 2: Das einfache Regressionsmodell
2.3.2 Das Prinzip der Methode der kleinsten Quadrate
 Mit b1 und b2 werden jeweils die Schätzer für β1 und β2 bezeichnet, die nach der Methode der
kleinsten Quadrate (KQ-Methode) bestimmt werden.
 Prinzip: Minimierung der Summe der quadrierten vertikalen Abweichungen der tatsächlichen
Werte y vom geschätzten Wert, d.h. der Fehlerterme.
Figure 2.7 a): The relationship among y, ê and the fitted regression line
Quelle: Hill, Griffiths, Lim (2008), S. 20
Lehrstuhl für Wirtschaftspolitik - SS 2011
9
Kapitel 2: Das einfache Regressionsmodell
 Angepasste Regressionsgerade:
ŷ i  b1  b 2 x i
(2.3.1)
 Fehlerterm:
êi  yi  ŷi  yi  b1  b 2 x i
(2.3.2)
 Minimierung der quadrierten Fehlerterme:
N
N
Min! SSE   ê   ( y i  ŷ i ) 2
2
i
i 1
i 1
N
S(b1 , b2 )  (yi  b1  b2 xi )2
(2.3.3)
i1
 Bedingungen 1. Ordnung:
S
2
b 1
 y
i
 x
i y i   x i b 1 
S
2
b 2

 Nb 1   x i b 2  0
 x b   0
2
i
(2.3.4)
2
Lehrstuhl für Wirtschaftspolitik - SS 2011
10
Kapitel 2: Das einfache Regressionsmodell
 Durch Auflösung und Umformung ergibt sich der KQ-Schätzer für b2:
b2 
oder alternativ b 2 
N  x i yi   x i  yi
N  x i2  ( x i ) 2
(2.3.5a)
 ( x  x )( y  y)
 (x  x)
(2.3.5b)
i
i
2
i
 b1 kann geschätzt werden durch:
b1  y  b 2 x ,
wobei y 
y
N
i
,x 
x
N
i
(2.3.5c)
.
 Bei b1 und b2 handelt es sich um Zufallsvariablen!
 Im Englischen wird unterschieden zwischen:

Estimator: allgemeine Formel, ist eine Zufallsvariable;

Estimate: konkrete Werte berechnet mit Hilfe der allgemeinen Formel, Realisationen der ZV
Lehrstuhl für Wirtschaftspolitik - SS 2011
11
Kapitel 2: Das einfache Regressionsmodell
Beispiel: Lebensmittelausgaben
 Einsetzen der Daten der 40 Beobachtungen ergibt:
b2
(x  x)(y  y)


 10,21
 (x  x)
i
i
2
i
und
b1  y  b 2 x  83,42
 Die angepasste Regressionsgerade lautet somit:
ŷi  83,42  10,21x i
(2.3.6)
 Im einfachen Regressionsmodell verläuft die Schätzgerade der KQ-Schätzung immer durch die
Mittelwerte von x und y, ( x, y) .
Lehrstuhl für Wirtschaftspolitik - SS 2011
12
Kapitel 2: Das einfache Regressionsmodell
Quelle: Hill, Griffiths, Lim (2008), S. 23
Lehrstuhl für Wirtschaftspolitik - SS 2011
13
Kapitel 2: Das einfache Regressionsmodell
2.3.3 Interpretation der Schätzwerte
 Der Wert b2=10,21 ist ein Schätzwert für β2: Wir schätzen, dass sich die wöchentlichen
Lebensmittelausgaben um $10,21 erhöhen, wenn das wöchentliche Einkommen um $100 steigt.
 b1=83,42 ein Schätzwert für die wöchentlichen Lebensmittelausgaben eines Haushalts ohne
Einkommen. Problem: Im Datensatz kommen keine Beobachtungen in der Nähe von x =0 vor.
Interpretation als Elastizität:
 Elastizität:

y / y y x


x / x x y
(2.3.7)
 In linearen ökonomischen Modellen gilt:
2 
E ( y )
x
Lehrstuhl für Wirtschaftspolitik - SS 2011
(2.3.8)
14
Kapitel 2: Das einfache Regressionsmodell
 Die Elastizität der durchschnittlichen Ausgaben in Bezug auf das Einkommen ist somit:

E( y) / E( y) E( y) x
x


 2 
E ( y)
x / x
x E( y)
 Zur Schätzung der Elastizität können wir β2 durch b2 = 10,21 ersetzen und x und E(y) werden
häufig durch die Mittelwerte ersetzt, hier: ( x , y)  (19,60;283,57) :
ˆ  b 2 
x
19,60
 10,21 
 0,71
y
283,57
2.3.4 Vorhersage
 Wir möchten die durchschnittlichen wöchentlichen Lebensmittelausgaben für einen Haushalt mit
einem wöchentlichen Einkommen von $2.000 vorhersagen → x = 20:
ŷ i  83,42  10,21x i  83,42  10,21(20)  287,61
Lehrstuhl für Wirtschaftspolitik - SS 2011
15
Kapitel 2: Das einfache Regressionsmodell
2.4 Stichprobeneigenschaften des KQ-Schätzers
2.4.1 Der Schätzer b2
b2 
 ( x  x )( y  y)
 (x  x)
i
i
2
i
(2.3.5b)
 Formulierung als linearer Schätzer:
N
b 2   w i yi
i 1
wobei
wi 
xi  x
 (x i  x) 2
(2.4.1)
(2.4.2)
 Durch Umformung von (2.4.1) ergibt sich:
b 2   2   w i ei
Lehrstuhl für Wirtschaftspolitik - SS 2011
(2.4.3)
16
Kapitel 2: Das einfache Regressionsmodell
2.4.2 Der Erwartungswert von b1 und b2
E(b2 )  E(2   wi ei )  E(2 )   E(wi ei )
 2   wi E(ei )  2
(2.4.4)
 Wenn E(b2)=ß2 gilt, dann spricht man von einem erwartungstreuen bzw. unverzerrten (unbiased)
Schätzer.
 Erwartungstreue bedeutet, dass bei wiederholter Ziehung gleich großer Stichproben b2 im
Durchschnitt „richtig“ ist, also gleich dem unbekannten Parameterwert ß2 ist.
 Erwartungstreue gilt nur, wenn die Annahmen, die wir über den KQ-Schätzer treffen, zutreffen.
Wenn Annahme SR2 nicht gilt, also E(ei) ≠ 0, ist E(b2) ≠ ß2 und somit ist der KQ-Schätzer verzerrt.
 Wenn die Annahmen über den KQ-Schätzer gelten, ist auch b1 ein erwartungstreuer Schätzer von ß1.
Wiederholte Stichproben im Beispiel Lebensmittelausgaben
 In Tabelle 2.2 finden sich die Schätzergebnisse für 10 Stichproben (samples) mit jeweils N =40
zufällig gezogenen Haushalten.
Lehrstuhl für Wirtschaftspolitik - SS 2011
17
Kapitel 2: Das einfache Regressionsmodell
 Die Schätzwerte von b1 und b2 unterscheiden sich für verschiedene Stichproben deutlich, die
Mittelwerte betragen b1  78,74 und b2  9,68 .
Quelle: Hill, Griffiths, Lim (2008), S. 28.
Lehrstuhl für Wirtschaftspolitik - SS 2011
18
Kapitel 2: Das einfache Regressionsmodell
2.4.3 Varianzen und Kovarianz von b1 und b2
 Das Ausmaß der Streuung (also der Varianz) gibt Auskunft über die Verlässlichkeit oder Präzision
eines Schätzers. Je geringer sie ist, desto höher ist die Wahrscheinlichkeit, dass der KQ-Schätzer nahe
am wahren Wert liegt.
 Mithilfe der Gleichung (2.4.3) und unter Berücksichtigung von SR3 und SR4 kann man die Varianz
von b2 herleiten:
2
var(b 2 ) 
 (x i  x)2
(2.4.5)
 Für die Varianz von b1 und die Kovarianz von b1 und b2 gilt:
var(b1 )   2
x
N ( x  x )
2
i
2
i
cov(b1 , b 2 )  2
x
 ( x i  x) 2
(2.4.6)
(2.4.7)
 Von allen erwartungstreuen Schätzern ist der mit der geringsten Varianz der beste.
Lehrstuhl für Wirtschaftspolitik - SS 2011
19
Kapitel 2: Das einfache Regressionsmodell
 Welche Größen bestimmen die Varianzen/Kovarianz?
1. Die Varianz σ2
2.
 (x
i
 x ) 2 (s. Figure 2.11)
3. Die Stichprobengröße N
4.
x
2
i
5. Der Mittelwert
x
Lehrstuhl für Wirtschaftspolitik - SS 2011
20
Kapitel 2: Das einfache Regressionsmodell
Quelle: Hill, Griffiths, Lim (2008), S.31.
Lehrstuhl für Wirtschaftspolitik - SS 2011
21
Kapitel 2: Das einfache Regressionsmodell
2.5 Das Gauss-Markov Theorem
Gauss-Markov
Theorem:
Wenn
die
Annahmen
SR1-SR5
des
linearen
Regressionsmodells gelten, haben die Schätzfunktionen b1 und b2 die kleinste
Varianz aller linearen, erwartungstreuen Schätzer für β1 und β2. Sie werden daher
Best Linear Unbiased Estimator (BLUE) genannt.
2.6 Die Wahrscheinlichkeitsverteilung des KQ-Schätzers
 Wenn der Fehlerterm ei normalverteilt ist, ist auch yi normalverteilt. Da b2 = ∑wiyi und die Summe
normalverteilter
Zufallsvariablen
ebenfalls
normalverteilt
ist,
ist
der
KQ-Schätzer
auch
normalverteilt.

 2  x i2 


b1 ~ N  1 , N ( x  x ) 2 
 i


Lehrstuhl für Wirtschaftspolitik - SS 2011
(2.6.1)
22
Kapitel 2: Das einfache Regressionsmodell
2




2 ,
2
b2 ~ N 
 (xi  x) 
(2.6.2)
 Solange die Annahmen SR1-SR5 gelten, ist die Verteilung der KQ-Schätzer bei ausreichend großer
Stichprobengröße N approximativ die Normalverteilung, auch wenn der Fehlerterm nicht
normalverteilt ist.
2.7 Schätzung der Fehlertermvarianz und der KQ-Schätzer
 Unter SR2, E(ei)=0, gilt, dass die Varianz der Zufallsvariable ei lautet:
var(ei )   2  Eei  E (ei )  E (ei2 )
2
 Da ein Erwartungswert ein Durchschnittswert ist, kann man als Schätzer den Durchschnitt der
quadrierten, beobachtbaren Fehlerterme/Residuen aus der Schätzung nehmen:
Lehrstuhl für Wirtschaftspolitik - SS 2011
23
Kapitel 2: Das einfache Regressionsmodell
ˆ
2
ê


2
i
(2.7.1)
N
 Dieser Schätzer ist allerdings verzerrt und muss modifiziert werden, indem im Nenner noch die
Anzahl der geschätzten Parameter (hier 2: b1 und b2) abgezogen wird.
 Man erhält:
ˆ 2
ê


2
i
(2.7.2)
N2
 Gleichung (2.7.2) beschreibt einen erwartungstreuen, unverzerrten Schätzer, so dass gilt:
E(ˆ 2 )   2
(2.7.3)
Schätzung von Varianzen und Kovarianz der KQ-Schätzer
vâr(b1 )  ˆ
2
x
N (x  x)
2
i
2
, se(b1 )  vâr(b1 )
i
Lehrstuhl für Wirtschaftspolitik - SS 2011
(2.7.4)
24
Kapitel 2: Das einfache Regressionsmodell
ˆ 2
vâr(b 2 ) 
, se(b 2 )  vâr(b 2 )
2
 (x i  x)
(2.7.5)
x
 ( x i  x) 2
(2.7.6)
côv(b1 , b 2 )  ˆ 2
 se(b1) und se(b2) sind die Standardfehler der KQ-Schätzer. „se“ steht für standard error.
Beispiel: Lebensmittelausgaben
 Tabelle 2.3 zeigt die Residuen der ersten fünf Haushalte.
Lehrstuhl für Wirtschaftspolitik - SS 2011
25
Kapitel 2: Das einfache Regressionsmodell
Quelle: Hill, Griffiths, Lim (2008), S.35.
 Nutzt man alle 40 Beobachtungen kommt man zu folgender Varianz:
ˆ
2
ê

2
i
N2

304505,2
 8013,29
38
Lehrstuhl für Wirtschaftspolitik - SS 2011
26
Kapitel 2: Das einfache Regressionsmodell
 Varianzen und Kovarianzen werden in der Regel in einer Matrix dargestellt:
côv(b1 , b 2 ) 1884,442
 vâr(b1 )
côv(b , b ) vâr(b )    85,90316
1
2
2
 

 85,90316
4,381752 
 Die entsprechenden Standardfehler sind:
se(b1 )  vâr(b1 )  1884,442  43,410
se(b 2 )  vâr(b 2 )  4,381752  2,093
Lehrstuhl für Wirtschaftspolitik - SS 2011
27