3. Einfache lineare Regression (Maddala Kapitel 3)

Werbung
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
1
3. Einfache lineare Regression (Maddala Kapitel 3)
Regressionsrechnung: Empirische Analyse der Abhängigkeit einer
Variablen (y) von einem oder mehreren Bestimmungsfaktoren (x1, x2, .. xk).
einfache Regression
multiple Regression
Terminologie:
y:
x:
erklärte Variable
erklärende Variable
abhängige Variable
unabhängige Variable
endogene Variable
exogene Variable
Regressand
Regressor
z.B. Konsumausgaben
Einkommen, Zinssatz
Investitionen
Kapazitätsauslastung, Zinssatz
Exporte
Wirtschaftsentwicklung im Ausland,
Wechselkurs des Frankens
Umsatz
Werbeaufwand
Wahl der Funktionsform:
allgemeine Formulierung:
y  f (x)  u
y i  f ( x i )  ui
i  1, 2 , ... n
y t  f ( x t )  ut
t  1, 2 , ... T (für Zeitreihen)
einfache lineare Regression:
y i     xi  ui
Ansatz mit konstanter Elastizität:
y i  e  x i e ui

ln( y i )     ln( x i )  u i
Quadratische Funktion:
2
y i     1x i   2 x i  u i
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
2
Im Folgenden betrachten wir den Fall der einfachen linearen Regression.
Datengenerierender Prozess ("wahres" Modell):
u i ~ IN (0,  2 )
y i     xi  ui
deterministischer Teil
Störterm: unabhängig normalverteilt mit
2
Mittelwert 0 und Varianz 
Regressionsparameter α und β (Achsenabschnitt und Steigung der
Regressionsgeraden)
2
Das Modell enthält somit drei Parameter:  ,  , 
Stichprobe:
x1 x 2 x 3 .... x n
exogen
y 1 y 2 y 3 .... y n
endogen
2
=> Schätzwerte ˆ , ˆ , ˆ
Die geschätzte Regressionsgleichung lautet somit:
y i  ˆ  ˆ x i  uˆ i
Residuum
Annahmen zum Störterm der Gleichung:
1)
E (u i )  0
2)
var( u i )  E (u i2 )   2 konstant
3)
u i und u j sind unabhängig für alle i und j ( i  j )
4)
u i und x j sind unabhängig für alle i und j , d.h. x ist exogen
5)
u i ist normalvert eilt
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
3
Schätzung der Regressionsparameter nach der Methode der
"kleinsten Quadrate" (Ordinary Least Squares, OLS)
In der geschätzten Regressionsgleichung
y i  ˆ  ˆ x i  uˆ i
werden die Parameter ˆ und ˆ so festgelegt, dass die Summe der
quadrierten Residuen minimal wird.
Summe der quadrierten Residuen (residual sum of squares):
n
RSS 

2
uˆ i 
i 1
y
n
i
 ˆ  ˆ x i

2
 min
i 1
Bei gegebener Stichprobe (Werte für xi und yi) ist RSS eine Funktion von
ˆ und ˆ . Man sucht also das Minimum der Funktion RSS (ˆ , ˆ ).
Diese Minimierung führt zu folgenden Schätzformeln (vgl. Maddala):
ˆ  S x y S x x
und ˆ  y  ˆ x , wobei
x

x 
Sxx 
 x i
 x
Syy 
 y i
 y
Sxy 
 x
 x y i  y 
i
2
i
n
y 
2
y
i
n
Die Schätzformel für ˆ impliziert, dass die Regressionsgerade genau
durch den Punkt ( x , y ) läuft (Stichprobenmittelwert).
Schätzung der Störtermvarianz:
ˆ 2
û


2
i
n2
Man dividiert durch n - 2, weil der Berechnung der Residuen û zwei
geschätzte Parameter zugrunde liegen ( ˆ und ˆ ) und die û deshalb
tendenziell kleiner sind (absolut) als die unbeobachtbaren Störterme u.
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
4
Varianzanalyse
Auf Basis der geschätzten Regressionsgeraden kann man die Varianz der
abhängigen Variablen y aufteilen in einen durch x erklärten Teil (Punkte
auf der Regressionsgeraden) und eine unerklärte Restvarianz
(Abweichungen der Beobachtungspunkte von der Regressionsgeraden).
y
yˆ  ˆ  ˆ x
x
Für diese Aufteilung verwendet man anstelle der Varianzen bequemer die
folgenden Quadratsummen:
 y i
 y  (total sum of squares)
2
yi :
TSS  S y y 
ŷ i :
ESS 
2
ˆ


y

y
 i
(explained sum of squares)
û i :
RSS 
 uˆ
(residual sum of squares)
Es gilt:
i
2
TSS = ESS + RSS (Gesamtvarianz in y gleich erklärte
Varianz plus unerklärte Restvarianz)
2
Das Bestimmtheitsmass R gibt an, welcher Anteil der Varianz von y durch
x erklärt wird:
R 2  ESS TSS  (TSS  RSS ) TSS  1  RSS TSS
2
Die Wurzel aus R entspricht dem (positiven oder negativen) Korrelationskoeffizienten.
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
ESS kann wie folgt berechnet werden:
yˆ i  ˆ  ˆ x i
Punkte auf der Regressionsgeraden
yˆ i  y  ˆ  ˆ x i  y
yˆ i  y  ˆ x i  ˆ x
 ˆ x i  x 
ESS 

da ˆ  y   ˆ x
( yˆ i  y )2  ˆ 2
 xi  x 
 ˆ 2 S x x
 ˆ S
xy
2
da ˆ S x x  S x y
5
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
6
Statistische Aussagen
Welche statistischen Rückschlüsse lassen sich von den geschätzten
Parametern auf die Parameter des datengenerierenden Prozesses ziehen?
Datengenerierender Prozess  Stichprobe
(wahres Modell)

, ,2

ˆ , ˆ , ˆ 2
y
yi  ˆ  ˆ xi  ûi
yi     xi  ui
x
Da die Lage der Beobachtungspunkte einer vorliegenden Stichprobe von
den Zufallsrealisationen des Störtems ui abhängt, weicht die geschätzte
Regressionsgerade mehr oder weniger stark vom wahren Zusammenhang
im datengenerierenden Prozess ab. Die Schätzwerte für die Parameter
haben mit anderen Worten den Charakter von Zufallsvariablen, die einer
bestimmten Stichprobenverteilung unterliegen. Diese leitet sich aus der
unterstellten Normalverteilung des Störterms ui ab.
2
Stichprobenverteilung von ˆ , ˆ und ˆ
2
Vertrauensbereiche und Hypothesentests für  ,  und 
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
7
2
Stichprobenverteilung von ˆ , ˆ und ˆ :
Die mit der Methode der kleinsten Quadrate geschätzten Parameter
ˆ , ˆ und ˆ 2 sind in Relation zu den wahren Parameterwerten wie folgt
verteilt:
2

 
x
2 1
 
ˆ ~ N   ,   

n
S
xx  


2


ˆ ~ N   ,
Sxx

( n  2 ) ˆ 2
2
=> Die Schätzungen ˆ , ˆ sind
normalverteilt, unverzerrt und
konsistent.



2
=> Die Schätzung ˆ ist

RSS
2
Chi-Quadrat-verteilt,
~  n22
unverzerrt und konsistent.
Die Verteilung von ˆ wird in eine Standard-Normalverteilung übergeführt:
ˆ  

2
~ N 0, 1

S xx
Die Störterm-Varianz  2 ist unbekannt und muss durch die Schätzung ̂ 2
ersetzt werden, welche Chi-Quadrat-verteilt ist. Der resultierende Ausdruck
ist das Verhältnis einer standard-normalverteilten und der Wurzel aus einer
gemittelten Chi-Quadrat-verteilten Variablen und ist somit t-verteilt:
ˆ  
2
Sxx
( n  2 )ˆ 2
( n  2 ) 2
Bei
ˆ 2

ˆ  
ˆ 2
S xx

ˆ  
~ tn 2
SE ( ˆ )
S xx handelt es sich um den geschätzten Standardfehler von ˆ ,
wofür kurz auch SE ( ˆ) geschrieben wird.
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
Prognose auf Basis einer einfachen linearen Regression
8
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
9
Der in der Grafik dargestellte 95%-Vertrauensbereich für y ist beim Stichprobenmittel von x am engsten und wird mit zunehmender Entfernung von
x gegenüber dem Stichprobenmittel immer grösser, weil Fehlschätzungen
von β mit zunehmendem Abstand vom Stichprobenmittelwert immer stärker
ins Gewicht fallen.
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
Verschiedene Funktionsformen, die sich als
lineare Regressionen schätzen lassen
a) Linearer Grundansatz:
yt     xt  ut
datengenerierender Prozess
yt  ˆ  ˆ xt  uˆt
Schätzgleichung
yˆt  ˆ  ˆ xt
theoretische Werte auf der Regressionsgeraden
uˆt  yt  yˆt
Residuen
b) Logarithmischer Ansatz:
ln yt     ln xt  ut
yt  A xt e u t
zugrundeliegender multiplikativer Ansatz mit
Elastizität 
ut  0

ut  0.01
ut  0.01
eut  1


eut  1.01
eut  0.99
ln yt  ˆ  ˆ ln xt  uˆt
ln yˆt  ˆ  ˆ ln xt
uˆt  ln yt  ln yˆt  lnyt yˆt   yt yˆt  1 
yt  yˆt
yˆt
relative Abweichung
10
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
11
c) Gleichung in ersten Differenzen:
yt     xt  ut
Differenzengleichung
yt  yt 1     ( xt  xt 1)  ut
yt  yt 1     ( xt  xt 1)  ut
t
yt  (y0   x0 )   t   xt  ui
i 1
yt 

Niveaugleichung
  t   xt  vt
Wenn ut in der Differenzengleichung ein zeitlich unkorrelierte Zufallsvariable ist, dann ist vt in der Niveaugleichung hochgradig autokorreliert,
weil vt. und vt-1 sich nur durch das zuletzt aufaddierte ut unterscheiden.
Umgekehrt folgt daraus, dass man eine ausgeprägte Autokorrelation der
Residuen in einer Niveaugleichung als Resultat einer Kumulation von
Störungen über die Zeit interpretieren kann. Geht man dann zu einer
Differenzengleichung über, so wird diese Kumulation rückgängig gemacht,
d.h. man erhält durch die Differenzenbildung eine Gleichung, in der die
einzelnen Störungen pro Periode voneinander unabhängig sind.
d) Gleichung in ersten Differenzen logarithmierter Variablen:
 ln yt      ln xt  ut
 ln yt  ln yt  ln yt 1  lnyt yt 1  yt yt 1  1 
yt  yt 1
yt 1
Veränderungsrate
analog für  ln x t .
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
12
Spezifikationstests
Datengenerierender Prozess: yi     xi  ui
Annahmen bezüglich des Störterms:
1)
E (u i )  0
2)
var( u i )  E ( ui2 )   2 ist konstant
3)
u i und u j sind unabhängig für alle i  j
4)
ui und x j sind unabhängig für alle i und j
5)
u i ist normalverteilt
Geschätzte Regressionsgleichung:
y i  ˆ  ˆ x i  û i
Die Residuen einer geschätzten Regressionsgleichung können
Aufschluss darüber geben, ob die der Schätzung zugrundeliegende Stichprobe mit dem unterstellten datengenerierenden
Prozess vereinbar ist und die Spezifikation des Modells somit
als adäquat zu betrachten ist:
 Ist es zulässig, von einem linearen Zusammenhang zwischen x
und y auszugehen?
 Sind wichtige Einflussfaktoren vernachlässigt worden?
 Sind die Annahmen bezüglich des Störterms ui - insbesondere
konstante Varianz (2) und keine Autokorrelation (3) - haltbar?
 Beurteilung anhand der berechneten Residuen u i (vgl. die
folgenden Beispiele). Wenn die Annahmen zum datengenerierenden Prozess verletzt sind, so sind die oben hergeleiteten
Eigenschaften der Schätzungen von ˆ , ˆ und ˆ 2 (z.B. die
Eigenschaft, dass ̂ t-verteilt ist) nicht gültig, denn sie
basieren alle auf der Annahme, dass der Störterm der
Gleichung unabhängig normalverteilt ist.
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
Residuen aus verschiedenen Regressionsgleichungen
Nur im Fall 1 erscheint die Modellspezifikation adäquat.
Residuen als Abweichungen von
von der Regressionsgeraden
Residuen über die Zeit
Fall 1:
25
3
20
2
15
1
10
Y
0
5
-1
0
-2
-5
-3
-10
-8
-4
0
4
8
12
1975
16
1980
1985
1990 1995
2000
2005
2000
2005
2000
2005
Residuen
X
Fall 2:
60
20
50
15
40
10
Y
30
20
5
10
0
0
-5
-10
-10
-20
-8
-4
0
4
8
12
1975
16
1980
1985
1990 1995
Residuen
X
Fall 3:
25
10
20
8
6
15
4
10
Y
2
5
0
0
-2
-5
-4
-6
-10
-8
-4
0
4
X
8
12
16
1975
1980
1985
1990 1995
Residuen
13
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
Beispiel: Schätzung einer Konsumfunktion für die Schweiz
Daten: Konsumausgaben und Haushaltseinkommen aus der
Volkswirtschaftlichen Gesamtrechnung der Schweiz
(Jahreswerte 1960 bis 2001)
Konsum und Einkommen
nominell, in Mio Franken
300000
250000
200000
150000
100000
50000
0
60
65
70
75
80
KONSN
85
90
95
00
EINN
Konsum und Einkommen
real, in Mio Franken zu Preisen von 1990, 1960-2001
240000
200000
160000
120000
80000
40000
60
65
70
75
80
KONSR
85
90
EINR
95
00
14
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
15
Konsum und Einkommen
real pro Kopf, in 1000 Franken zu Preisen von 1990
32
28
24
20
16
12
60
65
70
75
80
KONSRK
85
90
95
00
EINRK
Schätzung einer linearen Regression: Zwei Darstellungsarten in EVIEWS
Sample: 1960 2001
Included observations: 42
KONSRK=C(1)+C(2)*EINRK
C(1)
C(2)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Coefficient
Std. Error
t-Statistic
Prob.
2.580351
0.833541
0.545681
0.022067
4.728683
37.77306
0.0000
0.0000
0.972730
0.972048
0.636545
16.20758
-39.59942
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Durbin-Watson stat
22.85573
3.807354
1.980925
2.063671
0.192419
Dependent Variable: KONSRK
Sample: 1960 2001
Included observations: 42
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
EINRK
2.580351
0.833541
0.545681
0.022067
4.728683
37.77306
0.0000
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
0.972730
0.972048
0.636545
16.20758
-39.59942
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Durbin-Watson stat
22.85573
3.807354
1.980925
2.063671
0.192419
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
Tatsächliche Werte von KONSRK ( y ), theoretische Gleichungswerte ( ŷ )
und Residuen ( uˆ  y  yˆ ):
32
28
24
1.5
20
1.0
16
0.5
12
0.0
-0.5
-1.0
60
65
70
75
80
Residual
85
90
Actual
95
00
Fitted
Residuen als Abweichungen der Beobachtungspunkte
von der Regressionsgeraden
30
28
KONSRK
26
24
22
20
18
16
14
16
20
24
EINRK
28
32
16
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
17
Die vorstehende Gleichung erscheint aufgrund der Verteilung der Residuen
fehlspezifiziert. Ignoriert man diesen Umstand, so lässt sich die
Berechnung von Vertrauensintervallen und Hypothesentests am
Beispiel der marginalen Konsumquote β wie folgt demonstrieren:
Punktschätzung und geschätzter Standardfehler:
C(2) = ̂ = 0.833541, SE ( ˆ )  0.022067
Stichprobenverteilung von ̂ :
ˆ  
~ t 40
SE ( ˆ )
t-Verteilung mit 42-2 = 40 Freiheitsgraden
a) 95%-Vertrauensintervall für  :
kritischer t-Wert:
PROB( 2.021 
t* = 2.021
ˆ  
 2.021)  0.95
SE( ˆ )
PROB (0.833541  2.021  0.022067    0.83351  2.021 * 0.022067)  0.95
PROB(0.788944    0.878138)  0.95
b) Hypothesentest H0: β = 0
Vergleich des berechneten t-Wertes mit dem kritischen t-Wert für einen
zweiseitigen Test auf dem 5%-Niveau:
t berechnet 
ˆ  0
 37.77306  t*  2.021
SE ( ˆ )
Berechnung der beobachteten Signifikanzniveaus:
PROB( t  37.77306)  0.0000
Der berechnete t-Wert ist viel grösser als der kritische t-Wert.
Das beobachtete Signifikanzniveau ist praktisch gleich Null.
Das 95%-Vertrauensintervall schliesst den Wert β = 0 nicht ein.
H0 wird
verworfen
3. Einfache lineare Regression
Ökonometrie I - Peter Stalder
18
Herunterladen