Kapitel 3 Stochastische Regressionsanalyse: Eine erste Intuition

Werbung
Kapitel 3
Stochastische Regressionsanalyse:
Eine erste Intuition
“Wer hohe Türme bauen will, muss
lange beim Fundament verweilen.”
(Anton Bruckner, 1824-1896)
3.1
Deskriptive versus stochastische Regressionsanalyse
Bisher haben wir die Regressionsanalyse einzig und allein dazu verwendet, um eine
gegebene Datenmenge kompakt zu beschreiben. Im einführenden Beispiel mit den
Gebrauchtautos haben wir z.B. gezeigt, dass der Zusammenhang zwischen Alter und
Preis von 40 Gebrauchtwagen relativ gut durch die Regressionsgleichung
[ i = 22 961 − 2 562 Alteri
Preis
(n = 40, R2 = 0.91)
(3.1)
beschrieben werden kann (siehe Abbildung 2.1, Kapitel 2).
Jede Forscherin, der die OLS-Formel auf die 40 Beobachtungen anwendet, wird
zum exakt gleichen Resultat kommen, in dieser Beschreibung ist kein Zufallselement
enthalten!
Wann immer die Regressionsanalyse ausschließlich dazu verwendet wird, um den Zusammenhang zwischen zwei Variablen für eine fix gegebene Anzahl von Beobachtungen kompakt zu beschreiben, spricht man von einer deskriptiven Regressionsanalyse.
Ähnlich wie der Mittelwert im univariaten Fall verwendet wird um eine Variable zu
beschreiben, kann die Regressionsfunktion verwendet werden um Zusammenhänge
zwischen zwei (oder mehreren) Variablen kompakt zu beschreiben; das Ziel ist im
Wesentlichen eine Informationsverdichtung.
Tatsächlich wird die Regressionsanalyse eher selten für deskriptive Zwecke eingesetzt. In den meisten Fällen interessieren wir uns nicht für die konkret beobachteten
Einzelfälle, sondern wir interpretieren diese Beobachtungen lediglich als Stichprobe
aus einer unbeobachtbaren Grundgesamtheit, und unser eigentliches Interesse gilt den
1
Empirische Wirtschaftsforschung
2
Zusammenhängen in dieser Grundgesamtheit. Wenn die Regressionsanalyse für diesen Zweck eingesetzt wird spricht man von einer stochastischen Regressionsanalyse.
Ob eine Regressionsanalyse deskriptiv oder stochastisch ist hängt also nicht von den
Daten ab, sondern von unserem Erkenntnisinteresse! Die gleichen Beobachtungen
können mit Hilfe einer deskriptiven Regressionsanalyse einfach beschrieben werden,
oder als Stichprobe aus einer größeren Grundgesamtheit interpretiert werden. Im
zweiten Fall kann mit Hilfe der stochastischen Regressionsanalyse versucht werden,
die Information aus der Stichprobe für Rückschlüsse auf die Grundgesamtheit zu
nützen.
In diesem Kapitel werden wir versuchen eine erste Intuition für das stochastische
Regressionsmodell zu geben. Wir werden uns dabei auf sehr einfache Beispiele beschränken und uns darauf konzentrieren, ein erstes intuitives Verständnis für die
teilweise etwas ‘tieferen’ Konzepte zu vermitteln. In späteren Kapiteln werden wir
viele der Begriffe präziser definieren und einige dieser Konzepte teilweise beträchtlich
verallgemeinern. Aber wir werden feststellen, dass die einfache Intuition erstaunlich
weit trägt.
3.1.1
Grundgesamtheit und Stichprobe
In der stochastischen Regressionsanalyse gehen wir davon aus, dass die Grundgesamtheit unbeobachtbar ist, denn andernfalls würde es sich ja um eine deskriptive
Regressionsanalyse handeln.
Obwohl die Grundgesamtheit unbekannt ist können wir aber davon ausgehen, dass
auch in der Grundgesamtheit ein Zusammenhang zwischen erklärender und abhängiger Variablen besteht, der im einfachsten Fall durch eine lineare Funktion
yi = β1 + β2 xi + εi
zumindest approximiert werden kann.
Da die Grundgesamtheit nicht beobachtet wird können die beiden Koeffizienten β1
und β2 natürlich nicht berechnet werden. Trotzdem wissen wir, dass die unbekannten
Koeffizienten existieren müssen und fixe Zahlen sind, allerdings kennen wir die konkreten Werte nicht. Solche unbekannte Größen der Grundgesamtheit werden häufig
‘Parameter’ genannt.
Das Wort ‘para’-‘meter’ verweist aber auf etwas, das über das Messen hinausgeht
(wie die Parapsychologie auf etwas verweist, was über die Psychologie hinausgeht).
In der Mathematik versteht man darunter spezielle Variablen, die im gegenständlichen Fall als konstant angenommen werden, oder in anderen Worten, die ‘beliebig,
aber fest’ sind. Ganz in diesem Sinne verwenden wir hier den Begriff ‘Parameter’
für Werte, die in einer unbeobachtbaren Grundgesamtheit als konstant angenommen werden. Eine typische Aufgabe der Statistik ist es solche Parameter aus einer
Stichprobe zu schätzen, wie zum Beispiel die Schätzung der unbekannten Parameter
β1 und β2 aus einer Stichprobe.1
1
Der Gebrauch des Begriffs Parameter unterscheidet sich hier übrigens von dem, wie er üblicherweise in der ökonomischen Literatur gebraucht wird. Dort werden unter Parametern häufig
exogene Einflussgrößen verstanden, die entweder bekannt (z.B. Steuersätze) oder unbekannt (z.B.
Zeitpräferenzrate) sein können.
3
Empirische Wirtschaftsforschung
Eine Regressionsfunktion, die den Zusammenhang in der Grundgesamtheit beschreibt, wird im Englischen ‘Population Regression Function’ (PRF) genannt.
Die deutsche Übersetzung ‘Regressionsfunktion der Grundgesamtheit’ oder noch
schlimmer ‘Populationsregressionsfunktion’ klingt leider etwas holprig, deshalb werden wir häufig das englische Akronym ‘PRF’ verwenden. Wir wissen zwar, dass die
PRF existiert, aber wir können sie nicht berechnen, weil die Grundgesamtheit nicht
beobachtet wird.
Aber wenn wir eine Stichprobe aus der Grundgesamtheit beobachten können wir
die OLS-Methode auf diese Stichprobenbeobachtungen anwenden, und das Resultat
als Schätzung für die unbekannte PRF (‘Population Regression Function’ ) verwenden. Genau dies passiert bei der stochastischen Regressionsanalyse. Eine Regressionsfunktion, die man durch Anwendung der OLS Methode auf Stichprobendaten
erhält, wird ‘Stichprobenregressionsfunktion’ (‘Sample Regression Function’, SRF)
genannt.
Notation Weil die Unterscheidung zwischen Grundgesamtheit und Stichprobe von
derart fundamentaler Bedeutung ist, werden für die PRF und SRF unterschiedliche
Symbole verwendet.
Unbekannte Parameter der Grundgesamtheit werden in der Literatur meist mit griechischen Symbolen bezeichnet. Für die unbekannten Parameter der PRF verwenden
wir z.B. die Symbole β1 und β2 , d.h. die Populationsregressionsfunktion schreiben
wir als
PRF: yi = β1 + β2 xi + εi
Dies sind die gleichen Symbole, die wir im letzten Kapitel für die deskriptive Regressionsfunktion verwendet haben, denn dort haben wir allerdings eine beobachtbare
Grundgesamtheit im Sinne der deskriptiven Statistik beschrieben.
Mit der stochastischen Regressionsanalyse wollen wir von einer beobachteten Stichprobe auf eine unbeobachtbare Grundgesamtheit schließen. Für die aus einer Stichprobe geschätzten Koeffizienten der Stichprobenregressionsfunktion (SRF) werden
wir ein Dach über die Koeffizienten setzen.2
Für die SRF schreiben wir also
SRF:
yi = βb1 + βb2 xi + ε̂i
Abbildung 3.1 soll den Unterschied zwischen PRF und SRF verdeutlichen.
Im Unterschied zu den Störtermen εi der PRF bezeichnen wir die ε̂i der SRF als
Residuen.
Während die Störterme εi = yi − β1 − β2 xi der Grundgesamtheit unbeobachtbar
sind, können die Residuen ε̂i = yi − βb1 − βb2 xi aus der Stichprobe berechnet werden,
nachdem die Koeffizienten βb1 und βb2 berechnet wurden.
2
In der Literatur wird manchmal auch eine alternative Notation verwendet; dabei werden für
die geschätzten Koeffizienten der SRF die entsprechenden lateinischen Buchstaben verwendet, z.B.
yi = b1 + b2 xi + ei .
4
Empirische Wirtschaftsforschung
Grundgesamtheit
yi = β1 + β2 xi + εi
Stichprobe
yi = βb1 + βb2 xi + ε̂i
εi ∼ N(0, σ 2 )
Abbildung 3.1: Grundgesamtheit und Stichprobe
Die Berechnung der Koeffizienten βb1 und βb2 der SRF erfolgt vollkommen analog wie
früher, allerdings minimieren wir nun die Quadratsumme der Residuen
min
βb1 ,βb2
n
X
i=1
ε̂i2
= min
βb1 ,βb2
n
X
i=1
(yi − βb1 − βb2 xi )2
Deshalb gelten die Restriktionen der Bedingungen erster Ordnung
P
X
X
∂ i ε̂2i
= 2
yi − βb1 − βb2 xi (−1) = 0 ⇒
ε̂i = 0
∂ βb1
|
{z
}
i
∂
P
i
i
ε̂i
ε̂2i
∂ βb2
= 2
X
yi − βb1 − βb2 xi (−xi ) = 0
{z
}
i |
⇒
ε̂i
X
xi ε̂i = 0
i
nur für die Residuen ε̂i der SRF, aber nicht notwendigerweise für die Störterme εi
der PRF! Deshalb können wir nicht länger garantieren, dass auch die Summe der
Störterme der Grundgesamtheit gleich Null ist, und noch wichtiger, dass auch die
Störterme der Grundgesamtheit unkorreliert sind mit der erklärenden x-Variable.
Dies wird später noch von Bedeutung sein.
Doch vorerst zur Lösung dieses Minimierungsproblems, dieses funktioniert exakt
gleich wie im letzten Kapitel gezeigt, die gesuchten Koeffizienten der SRF sind
cov(x,
c
y)
βb2 =
,
var(x)
c
βb1 = ȳ − βb2 x̄
(3.2)
wobei wir mit dem Dach über dem ‘cov’ bzw. ‘var’ Operator ausdrücken, dass es
sich um die Stichprobenkovarianz bzw. -varianz handelt. Man beachte, dass der
einzige Unterschied zu früher darin besteht, dass wir die gegebenen Daten nun als
Stichprobe interpretieren. Diese Stichprobendaten setzen wir wieder in die üblichen
OLS Funktionen ein.
Wichtig ist zu bemerken, dass die Parameter der Grundgesamtheit β1 und β2 feste,
Empirische Wirtschaftsforschung
5
aber unbekannte Zahlen sind3 , während die geschätzten Koeffizienten βb1 und βb2 sich
von Stichprobe zu Stichprobe unterscheiden.
Wenn wir eine konkrete Stichprobe in die Gleichungen (3.2) einsetzen erhalten wir als
Resultat eine konkrete Zahl für βb1 und für βb2 , es handelt sich um Realisationen. Diese
beiden Zahlen sind Schätzungen (estimates) für die ‘wahren’ – aber unbekannten –
Parameter β1 und β2 der Grundgesamtheit.
Wir können Gleichungen (3.2) aber auch anders interpretieren, nämlich als Funktionen, die jeder möglichen Stichprobe einen Zahlenwert zuordnen. In dieser zweiten
Interpretation beziehen wir uns auf den Zustand vor der Ziehung einer konkreten
Stichprobe. Bevor die Stichprobe gezogen wurde sind viele Ergebnisse möglich, wir
können nicht mit Sicherheit sagen, welche Werte von βb1 und βb2 nach der Ziehung
der Stichprobe tatsächlich realisiert werden.
In dieser zweiten Interpretation werden βb1 und βb2 ‘Schätzfunktionen’ oder kürzer
‘Schätzer’ (estimators) genannt.
Man beachte, dass wir hier – einer ebenso alten wie dummen Tradition folgend –
für zwei völlig verschiedene Dinge das gleiche Symbol verwenden, βb2 (bzw. βb1 ) kann
1. erstens eine Schätzfunktion (oder einfacher Schätzer, ‘estimator’ ) bezeichnen,
d.h. eine Funktion, die jeder möglichen Stichprobe einen Zahlenwert zuordnet. Dies bezieht sich auf den Zustand vor der konkreten Stichprobenziehung,
beschreibt also die Ergebnisse für alle möglichen Stichproben;
Da die Schätzfunktion βb2 jeder möglichen Stichprobe eine Zahl zuordnet ist
diese eine spezielle Zufallsvariable.
2. βb2 kann aber auch eine Schätzung (‘estimate’ ) für eine konkrete Stichprobe
bezeichnen; also den konkreten Zahlenwert den man erhält, wenn man die
bereits gezogene Stichprobe in die OLS-Formel einsetzt. In diesem zweiten
Fall handelt es sich um eine Realisation einer Zufallsvariable und bezieht sich
auf den Zustand nach der Stichprobenziehung.
Wenn wir das Resultat einer statistischen Analyse vorliegen haben, handelt es sich
dabei meist um eine Schätzung, um konkrete Zahlen, die wir für eine gegebene
Stichprobe erhalten.
Für die folgenden theoretischen Überlegungen sind aber die Schätzfunktionen von
größerer Bedeutung. Wir werden später sehen, dass diese Schätzfunktionen ‘Zufallsvariablen’ sind, d.h. spezielle Funktionen, die jedem möglichen Ergebnis eines
Zufallsexperiments (z.B. jeder möglichen Stichprobenziehung) einen Zahlenwert zuordnen. Tatsächlich handelt es sich bei Zufallsvariablen um ziemlich komplexe mathematische Gebilde, mehr dazu später.
Die Unterscheidung zwischen PRF und SRF sowie Schätzern und Schätzungen sind
zentral für alles Folgende. Deshalb werden wir diese einfachen Überlegungen anhand
eines etwas umfangreicheren Beispiels nochmals verdeutlichen.
3
Dies gilt genau genommen nur in einer frequentialistischen Sichtweise. In einer bayesianischen
Sichtweise werden auch die Parameter der Grundgesamtheit als unsicher angenommen, über die
man aber eine a priori Vermutung hat, die anhand der a posteriori Information aus der Stichprobe
revidiert wird. In diesem Manuskript folgen wie ausschließlich einem frequentialistischen Ansatz.
6
Empirische Wirtschaftsforschung
Tabelle 3.1: Grundgesamtheit mit 20 Beobachtungen
Obs.
1
2
3
4
5
6
7
8
9
10
x
1.2
1.3
1.7
1.9
1.9
2.0
2.2
2.4
2.8
2.8
y Stichpr.
0.8
b
2.9
c
0.8
b
0.7
a
3.5
c
3.2
a
2.6
b
3.2
b
3.6
c
1.1
a
Obs.
11
12
13
14
15
16
17
18
19
20
x
3.2
3.3
3.4
3.7
4.1
4.1
4.3
4.4
4.5
4.7
y Stichpr.
1.4
b
2.3
a
2.6
a
2.6
a
3.9
b
2.3
c
2.5
c
3.9
c
4.2
c
4.2
b
Beispiel Angenommen wir haben eine Grundgesamtheit mit insgesamt 20 Beobachtungen gegeben, deren Beobachtungen in Tabelle 3.1 wiedergegeben sind. Abbildung 3.2 zeigt diese Beobachtungspunkte sowie die entsprechende PRF und Störterme εi . Die eingezeichnete PRF beschreibt die Daten bestmöglich im Sinne des OLS
Kriteriums. Im tatsächlichen Forschungsbetrieb ist die Grundgesamtheit und die
dazugehörige PRF natürlich unbeobachtbar, wir wollen sie hier im Sinne eines Gedankenexperiments als “nur für unsere Augen” sichtbar annehmen.
Wir stellen uns nun eine Forscherin vor, die nicht die gesamte Grundgesamtheit
kennt, sondern nur eine Stichprobe daraus, zum Beispiel die sechs Beobachtungen,
die in Tabelle 3.1 als Stichprobe “a” gekennzeichnet sind. Die Aufgabe dieser Forscherin besteht darin, aus diesen sechs Beobachtungen der Stichprobe ‘a’ auf die
‘Population Regression Function’ (PRF) der Grundgesamtheit (d.h. aller 20 Beobachtungen) zu schließen.
Wenn Sie klug ist wird sie die OLS Methode auf die sechs Stichprobenbeobachtungen
anwenden, und erhält als Ergebnis eine ‘Sample Regression Function’ (SRF), die in
Abbildung 3.3 dargestellt ist.
Wie man einfach erkennen kann unterscheiden sich die üblicherweise unbeobachtbaren Störterme εi der PRF und die aus der Stichprobe berechneten Residuen ε̂i der
SRF.
Da unsere Forscherin keinen Zugang zu den Daten der Grundgesamtheit hat sind für
sie die Störterme der Grundgesamtheit ebenso unbekannt wie die wahren Parameter
β1 und β2 der PRF. Sie kann aber mit ihrer Stichprobe die Koeffizienten βb1 und βb2
berechnen, und damit in weiterer Folge die Residuen ε̂i .
Da die Unterscheidung zwischen Störtermen εi und Residuen ε̂i derart wichtig ist,
wird der Unterschied in Abbildung 3.4 noch einmal verdeutlicht.
Machen wir weiter, nehmen wir an, eine andere Forscherin zieht eine andere Stichprobe ‘b’ aus der gleichen Grundgesamtheit, und schätzt aus dieser Stichprobe ‘b’
durch Anwendung der OLS Methode ebenfalls eine SRF. Da die Stichprobe ‘b’ andere Daten enthält als Stichprobe ‘a’ wird sie natürlich auch eine andere SRF erhalten.
Die SRF der zweiten Forscherin ist in Abbildung 3.5 dargestellt.
7
Empirische Wirtschaftsforschung
y
5
b
b
4
b
PRF: yi = 1.03 + 0.53xi + εi
b
b
b
3
b
b
b
b
b
b
b
b
b
2
b
b
1
b
b
b
0
0
1
2
3
5 x
4
Abbildung 3.2: Die ‘Population Regression Function’ (PRF) ist für die Forscher
meist unbeobachtbar. [local www]
Zufalls-Stichprobe “a” (na = 6)
y
5
bc
4
bc
bc
PRF: yi = 1.03 + 0.53xi + εi
bc
bc
bcbc
3
bc
bc
bc
bcbc
bc
bcbc
bcbc
bc
SRF 1: yia = 0.85 + 0.43xi + εbia
bc
2
i
4
6
10
12
13
14
bc
bcbc
1
bc
bc
bcbc
0
0
1
2
3
4
5 x
Abbildung 3.3: ‘Sample Regression Function’ 1
x
1.9
2.0
2.8
3.3
3.4
3.7
y
0.7
3.2
1.1
2.3
2.6
2.6
S
a
a
a
a
a
a
8
Empirische Wirtschaftsforschung
y
PRF
bc
SRF
bc
εi
b
εbi
(xi , yi )
x
Abbildung 3.4: Störterme εi versus Residuen ε̂i
y
Zufalls-Stichprobe “b” (nb = 7)
5
SRF 2: yib = −0.12 + 0.91xi + εbib
bc
4
rsbc
rsbc
PRF: yi = 1.03 + 0.53xi + εi
bc
bc
bc
3
bc
rsbc
bc
rsbc
bc
bc
bc
bc
bc
2
i
1
3
7
8
11
15
20
rsbc
1
bc
rsbc
rsbc
bc
0
0
1
2
3
4
5 x
Abbildung 3.5: ‘Sample Regression Function’ 2
x
1.2
1.7
2.2
2.4
3.2
4.1
4.7
y
0.8
0.8
2.6
3.2
1.4
3.9
4.2
S
b
b
b
b
b
b
b
9
Empirische Wirtschaftsforschung
Zufalls-Stichprobe “c” (nc = 7)
y
5
bc
rs
bc
4
bc
PRF: yi = 1.03 + 0.53xi + εi
rs
bc
bc
rs
rs
bc
bc
3
SRF 3: yic = 3.1 + 0.05xi + εbic
bc
rs
bc
bc
bc
bc
rs
bc
bc
rs
bc
2
i
2
5
9
16
17
18
19
bc
1
bc
bc
bc
bc
0
0
1
2
3
x
1.3
1.9
2.8
4.1
4.3
4.4
4.5
y
2.9
3.5
3.6
2.3
2.5
3.9
4.2
S
c
c
c
c
c
c
c
5 x
4
Abbildung 3.6: ‘Sample Regression Function’ 3
Die SRF einer dritten Stichprobenziehung ‘c’ ist schließlich in Abbildung 3.6 wiedergegeben, und natürlich unterscheidet sich auch diese von den beiden vorhergehenden
‘Sample Regression Functions’.
Abbildung 3.7 zeigt zusammenfassend noch einmal die ‘Population Regression Function’ und die drei unterschiedlichen ‘Sample Regression Functions’, die aus den unterschiedlichen Stichproben geschätzt wurden.
y
5
SRF 2: yib = −0.12 + 0.91xi + εbib
rs
b
4
brs
PRF: yi = 1.03 + 0.53xi + εi
rs
brs
b
rs
rs
b
bc
3
b
SRF 3: yic = 3.1 + 0.05xi + εbic
brs
rs
b
bc
b
SRF 1: yia = 0.85 + 0.43xi + εbia
b
rs
bc
rs
bc
brs
2
brs
bc
1
brs
brs
bc
0
0
1
2
3
4
5 x
Abbildung 3.7: ‘Population und ‘Sample Regression Functions’
Man beachte, diese drei ‘Sample Regression Functions’ (SRF) stellen unterschiedliche Schätzungen für den unbeobachtbaren ‘wahren’ Zusammenhang in der Grundgesamtheit dar, z.B. erhalten wir in diesem Beispiel für den ‘wahren’ Steigungskoeffizienten β2 = 0.53 drei unterschiedliche Schätzungen (Realisationen), nämlich
βb2a = 0.43, βb2b = 0.91 und βb2c = 0.05.
Empirische Wirtschaftsforschung
10
Offensichtlich erhalten wir für jede zufällig gezogene Stichprobe unterschiedliche
Schätzungen (Realisationen) von βb2 und βb1 .
Die Schätzfunktion (bzw. der Schätzer) βb2 = cov(x,
c
y)/var(x)
c
ordnet hingegen jeder
möglichen Stichprobe einen Zahlenwert zu und ist deshalb eine spezielle Zufallsvariable.
Für Zufallsvariablen existiert eine Wahrscheinlichkeit dafür, dass eine Ausprägung
in ein bestimmtes Intervall fällt, d.h. sie haben eine Verteilung.
Da man die OLS-Schätzfunktionen βb2 und βb1 auch als spezielle ‘Stichprobenkennwerte’ ansehen kann, werden die Verteilungen dieser Schätzer Stichprobenkennwertverteilungen (‘sampling distributions’ ) genannt, oder auch einfacher Stichprobenverteilungen.
Auf der Grundidee solcher Stichprobenkennwertverteilungen beruht die statistische
Analyse des stochastischen Regressionsmodells, sie wird uns später die Durchführung
statistischer Tests erlauben.
Allerdings können wir Stichprobenkennwertverteilungen in der Regel nicht direkt beobachten, denn in aller Regel steht uns nur eine einzige Stichprobe zur Verfügung,
d.h. eine einzige Schätzung (Realisation). Aber wir können solche Stichprobenkennwertverteilungen empirisch simulieren, und zwar mit Hilfe so genannter Monte Carlo
Simulationen.
3.1.2
Monte Carlo Simulationen
Wir haben im Beispiel des vorhergehenden Abschnitts drei verschiedene Stichproben
‘a’, ‘b’ und ‘c’ aus einer Grundgesamtheit mit 20 Beobachtungen gezogen, und aus
diesen drei Stichproben drei SRFs mit unterschiedlichen Schätzungen für βb1 und βb2
berechnet. Im Prinzip handelte es sich dabei bereits um eine sehr einfache Monte
Carlo Simulation, allerdings werden für Monte Carlo Simulationen die Zufallsexperimente (z.B. Ziehung einer Zufallsstichprobe) viel öfter durchgeführt. In der Praxis
lässt man diese Arbeit natürlich den Computer machen, der dies sehr viel schneller
und besser kann.
Wenn man z.B. tausend Stichproben zieht, und für jede dieser Stichproben einen
interessierenden Stichprobenkennwert, z.B. den Steigungskoeffizient βb2 , berechnet,
erhält man tausend Schätzungen für den interessierenden Parameter β2 . Diese
Schätzungen werden sich vermutlich von Stichprobe zu Stichprobe unterscheiden.
Wenn man diese tausend Schätzungen βb2 für den interessierenden Parameter β2
in einem Histogramm darstellt, erhält man eine empirische Simulation einer Stichprobenkennwertverteilung (‘sampling distribution’ ). Den Vorgang der wiederholten
Stichprobenziehungen nennt man ‘repeated sampling’.
Die prinzipielle Vorgangsweise ist in Abbildung 3.8 dargestellt.
Der im Appendix wiedergegebene EViews Programmcode führt eine einfache Monte
Carlo Simulation im oben beschriebenen Sinne durch. Das Programm zieht aus der
in Tabelle 3.1 (Seite 6) wiedergegebenen Grundgesamtheit 10 000 Stichproben mit
jeweils 10 Beobachtungen (natürlich mit Zurücklegen). Für jede dieser 10 000 Stichproben wird eine Schätzung βb2i (mit i = 1, . . . , 10 000) berechnet. Die Tabelle links
11
Empirische Wirtschaftsforschung
Daten der Grundgesamtheit
einlesen oder DGP festlegen
Spezifikation der PRF
wiederhole Vorgang sehr oft (z.B. 10,000 Mal)
Beginn
Schleife
Ziehe eine
Zufallsstichprobe
der Größe n
Berechne aus
dieser Stichprobe
die Schätzung
ov(x,y)
βb = cd
var(x)
c
Speichere Schätzergebnis
βb
Ende
Schleife
Zeichne Histogramm
mit allen
Schätzergebnissen βb
Abbildung 3.8: Wiederholte Stichprobenziehungen aus einer Grundgesamtheit
(Monte Carlo Simulation).
12
Empirische Wirtschaftsforschung
Ziehung
βb2
1 −0.0297
2
0.3090
3
0.1681
4
0.6554
..
..
.
.
9999
0.7686
10000
0.7177
Histogramm (N = 10, 10000 Wiederholungen)
1,400
Series: B1
Sample 1 10000
Observations 10000
1,200
1,000
800
600
400
200
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
0.516306
0.529218
2.531646
-1.266001
0.307434
-0.233350
3.728738
Jarque-Bera
Probability
312.0283
0.000000
0
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
Abbildung 3.9: Monte Carlo Simulation, aus Tabelle 3.1 wurden 10 000 Stichproben mit n = 10 gezogen (mit Zurücklegen), für jede Ziehung βb2
berechnet, und ein Histogramm aller 10,000 Schätzungen gezeichnet. Der ‘wahre’ Parameter der Grundgesamtheit ist β2 = 0.53031
in Abbildung 3.9 zeigt die Schätzungen βb2i für die ersten vier und die letzten zwei
Stichprobenziehungen, das Histogramm rechts zeigt die Häufigkeitsverteilung aller
10 000 Realisationen von βb2i . Diese Monte Carlo Simulation liefert uns eine empirische Simulation einer ‘Stichprobenkennwertverteilung’ (sampling distribution).
Das Histogramm in Abbildung 3.9 zeigt uns z.B., dass es sehr unwahrscheinlich
ist für diese Grundgesamtheit eine Schätzung βb2 zu erhalten, die kleiner als −0.5
oder größer als +1.5 ist. Wenn wir die Stichprobenkennwertverteilung genau kennen
würden könnten wir sogar berechnen, mit welcher Wahrscheinlichkeit der Stichprobenkennwert einer noch nicht gezogenen Stichprobe in ein bestimmtes Intervall
fallen wird. Auf dieser grundlegenden Idee beruhen die Hypothesentests, die uns
später noch ausführlicher beschäftigen werden.
Stichprobenkennwertverteilungen haben meist, d.h. unter wenig strengen Annahmen, zwei ganz erstaunliche Eigenschaften, die bereits in Abbildung 3.9 ersichtlich
sind:
1. Offensichtlich liegt der Mittelwert der vielen Schätzungen sehr nahe beim ‘wahren’ Wert der Grundgesamtheit. Dies ist kein Zufall, sondern eine Folge des
Gesetzes der großen Zahl. Das Gesetz der großen Zahl besagt vereinfacht
gesprochen, dass unter sehr allgemeinen Bedingungen der Mittelwert einer
großen Zahl von Zufallsvariablen sich mit steigendem Stichprobenumfang an
den wahren Wert der Grundgesamtheit annähert.
2. Außerdem erkennt man, dass die Verteilung der Schätzwerte einer Glockenform ähnelt. Auch dies ist kein Zufall, sondern eine Folge des Zentralen
Grenzwertsatzes. Der zentrale Grenzwertsatz besagt vereinfacht, dass die
Summe einer großen Zahl von unabhängigen, identisch verteilten, zentrierten
und normierten Zufallsvariablen gegen die Standardnormalverteilung konvergiert, unabhängig von der Verteilung der Grundgesamtheit. Dies erklärt u.a.
die Sonderstellung der Normalverteilung.
Empirische Wirtschaftsforschung
13
Man beachte, Stichprobenkennwertverteilungen existieren unabhängig von Monte
Carlo Simulationen, wir haben hier die Monte Carlo Simulationen nur vorgeführt
um die Grundidee zu veranschaulichen, also aus pädagogischen Gründen, um ein
intuitives Verständnis für Stichprobenkennwertverteilungen zu vermitteln.
In der Realität haben wir meist nur eine einzige Stichprobe zur Verfügung, aus der
wir eine Schätzung für die Parameter der Grundgesamtheit berechnen können. Das
Gedankenexperiment mit den wiederholten Stichprobenziehungen zeigt uns aber,
dass wir unsere Schätzung als eine Realisation aus einer Stichprobenkennwertverteilung interpretieren können, und auf Grundlage dieser Stichprobenkennwertverteilung können wir später statistische Tests durchführen.
3.2
Standardfehler der Koeffizienten
Hinweis: Dieser Abschnitt dient nur für eine erste Orientierung wie ein
Regressionsoutput interpretiert werden kann, die Details werden in den
folgenden Kapiteln ausführlich erläutert. Alles aus diesem Abschnitt sollte bereits aus der ‘Statistischen Datenanalyse’ bekannt sein.
Halten wir fest, die Parameter β1 und β2 beschreiben den Zusammenhang in der
Grundgesamtheit und sind fixe – aber unbekannte – Zahlen. Im Gegensatz dazu
hängen die Werte der Schätzer βb1 und βb2 von der zufälligen Stichprobenziehung
ab, und sind deshalb vor der Ziehung Zufallsvariablen mit einer Stichprobenkennwertverteilung. Mit Hilfe einer Monte Carlo Analyse haben wir versucht zumindest
intuitiv zu veranschaulichen, dass der Mittelwert der Stichprobenkennwertverteilung
ziemlich nahe beim wahren Wert der Grundgesamtheit liegt (vgl. Abbildung 3.9).
Dies ist natürlich kein Zufall, wir werden später zeigen, dass dies unter ziemlich
allgemeinen Bedingungen gilt.
Hier wollen wir auf einen anderen Punkt hinaus, sehr oft interessieren wir uns nicht
nur für den Mittelwert der Stichprobenkennwertverteilung, sondern auch für deren
Streuung. Eine Maßzahl für die Streuung ist die Varianz, bzw. deren Wurzel, die
Standardabweichung. Die Standardabweichung einer Stichprobenkennwertverteilung
werden wir im Folgenden als Standardfehler (‘standard error’ ) bezeichnen.4
Abbildung 3.10 zeigt zwei idealisierte Stichprobenkennwertverteilungen, die dem
Histogramm in Abbildung 3.9 entsprechen, die linke mit einem kleinen und die
rechte mit einem großen Standardfehler. Halten wir uns vor Augen, dass wir bei
einer konkreten Schätzung nur eine einzige Realisation von βb2 und βb1 erhalten, die
Überlegungen anhand der Monte Carlo Simulation haben uns aber gezeigt, dass
diese als eine Realisation aus einer Stichprobenkennwertverteilung wie in Abbildung
3.10 angesehen werden kann.
4
In der Literatur werden die beiden Bezeichnungen ‘Standardfehler’ und ‘Standardabweichungen’ manchmal auch synonym verwendet. Die Bezeichnung Standardfehler ist eigentlich die historisch ältere und geht auf die ‘Theorie der Fehler’ des 18. Jahrhunderts zurück, die Bezeichnung
Standardabweichung wurde erst von Galton (1877) eingeführt (vgl. Spanos, 1999, 379). Wir werden
hier dem heute üblichen Sprachgebrauch folgen und die Standardabweichung einer Stichprobenkennwertverteilung als Standardfehler bezeichnen.
14
Empirische Wirtschaftsforschung
f (βb2 )
f (βb2 )
β2
βb2
β2
βb2
Abbildung 3.10: Stichprobenkennwertverteilungen mit kleiner und großer Streuung; die linke Stichprobenkennwertverteilung hat einen detlich
kleineren Standardfehler als die rechte Stichprobenkennwertverteilung.
Offensichtlich liegen Realisationen aus der linken Stichprobenkennwertverteilung von
Abbildung 3.10 im Durchschnitt näher beim wahren Wert, die Streuung ist geringer, die Verlässlichkeit größer. Ein Maß für diese Streuung ist der Standardfehler
der Stichprobenkennwertverteilung. Der Standardfehler der Stichprobenkennwertverteilung kann deshalb als eine Maßzahl für die Genauigkeit einer Schätzung herangezogen werden. Offensichtlich sind Schätzungen, die auf der im rechten Panel von
Abbildung 3.10 gezeigten Stichprobenkennwertverteilung beruhen, um Durchschnitt
ungenauer, deren Standardfehler ist größer.
Die nächste Frage ist, können wir einen Schätzer für die Standardfehler der Koeffizienten aus einer Stichprobe berechnen? Die empirische Näherung einer Stichprobenkennwertverteilung mittels Monte Carlo Analysen ist in vielen Fällen nicht gangbar
und wäre außerordentlich mühselig.
Glücklicherweise können Schätzer für die Standardfehler der Koeffizienten sehr einfach aus einer Stichprobe berechnet werden, ähnlich wie wir bereits die Koeffizienten
selbst aus den Stichprobendaten berechnet haben.
Die Details sind vorerst nicht wichtig, hier sei nur das Ergebnis vorweggenommen,
die genaue Herleitung werden wir in einem späteren Kapitel ausführlich zeigen. Die
Schätzfunktionen für die Standardfehler von βb2 und βb1 sind
s
s
P
2
σ̂
σ̂ 2 i x2i
b
b
P
se(
b β2 ) = P
,
se(
b β1 ) =
(3.3)
2
n (xi − x̄)2
i (xi − x̄)
mit
σ̂ 2 =
1 X 2
ε̂
n−2 i i
wobei se(
b βb2 ) einen Schätzer für den Standardfehler (‘standard error’) des Steigungskoeffizienten βb√
b βb1 ) einen Schätzer für den Standardfehler des Interzepts be2 und se(
2
zeichnet. σ̂ = σ̂ wird als Standardfehler der Regression bezeichnet. Wenn wir die
Stichprobendaten in diese Schätzfunktionen einsetzen erhalten wir die entsprechenden Schätzungen.
15
Empirische Wirtschaftsforschung
Die konkreten Formeln sind im Moment nicht wichtig, wichtig ist aber zu erkennen,
dass es sich dabei um Schätzer handelt, also wieder um Zufallsvariablen, die selbst
wieder eine Verteilung haben, und dass diese Schätzungen aus den Stichprobendaten
berechnet werden können (wir erinnern uns, dass für die Berechnung der Residuen
ε̂i = yi − βb1 − βb2 xi zuerst die Koeffizienten βb1 und βb2 geschätzt werden müssen).
Da die Standardfehler wichtige Informationen über die ‘Genauigkeit’ der Schätzungen enthalten müssen sie auch bei Publikationen immer (!) gemeinsam mit den
Koeffizienten angegeben werden. Es ist ein absolutes ‘No-Go’ einen Koeffizienten
ohne den dazugehörigen Standardfehler anzugeben!
In der üblichen Darstellungsform werden sie in Klammern unter den Koeffizienten
angegeben, z.B.
y
= 1.498
+ 0.397 x
(1.032)
(0.214)
R2 = 0.534, σ̂ = 1.004, n = 5
(Standardfehler in Klammern)
Man beachte, dass nicht die absolute Größe der Standardfehler entscheidend ist,
sondern wie groß sie im Verhältnis zum Koeffizienten sind. Generell gilt, dass die
Schätzung umso genauer ist, umso größer das Verhältnis Koeffizient zu Standardfehler (βbh /se(
b βbh ) für h = 1, 2) ist!
Wir werden in einem späteren Kapitel ausführlich zeigen, dass die Standardfehler
auch für die Berechnung von Konfidenzintervallen und Hypothesentests verwendet
werden können, hier sei nur ein einfaches Ergebnis vorweggenommen.
Die erste und wichtigste Frage im Rahmen einer Regressionsanalyse ist meistens, ob
überhaupt ein (linearer) Zusammenhang zwischen zwei Variablen x und y besteht.
Falls in der Grundgesamtheit kein Zusammenhang besteht, muss der Steigungskoeffizient β2 in yi = β1 + β2 xi + εi gleich Null sein, d.h. β2 = 0.
Aber selbst wenn in der Grundgesamtheit kein Zusammenhang bestehen sollte wäre
es höchst unwahrscheinlich, in einer SRF yi = βb1 + βb2 xi + ε̂i einen Wert βb2 = 0 zu
finden, allerdings würden wir in diesem Fall einen Wert nahe bei Null erwarten.
Wir werden später zeigen, dass unter bestimmten Bedingungen der Quotient aus
Koeffizient und Standardfehler eine t-verteilte Teststatistik für die Nullhypothese
βh = 0 (für h = 1, 2) ist
H0 : βh = 0
−→
th =
βbh
∼ tn−2
se(
b βbh )
Umso größer der Wert dieser Teststatistik ist, umso unwahrscheinlicher ist es, dass
kein Zusammenhang zwischen x und y besteht.
Als grobe Faustregel kann man sich merken, dass ab einer Stichprobengröße von
30 die Nullhypothese βh = 0 mit einer Wahrscheinlichkeit von mindestens 95%
verworfen werden kann, wann immer der Absolutwert dieser t-Statistik größer als
zwei ist (|th | > 2). Wenn man es genauer wissen möchte, muss man in einer Tabelle
für die t-Statistik nachschlagen.
16
Empirische Wirtschaftsforschung
In älteren Publikationen findet man manchmal noch die Werte dieser t-Statistiken
anstelle der Standardfehler unter den Koeffizienten angegeben. Dies ist heute kaum
noch üblich, und davon ist auch abzuraten, denn dies legt den Fokus auf den Hypothesentest und weniger auf die ‘Genauigkeit’ der Schätzung, obwohl natürlich beide
Maßzahlen die gleiche Information wiedergeben.
Um Leserinnen die Berechnung der t-Statistik und das Nachschlagen in Tabellen
zu ersparen wird häufig mittels hochgestellten Sternen (* ) neben dem Standardfehler kenntlich gemacht, auf welchem Signifikanzniveau α die Nullhypothese βh = 0
verworfen werden kann. Dabei ist es üblich, mit einem Stern (* ) ein erreichtes Signifikanzniveau von 10%, mit zwei Sternen (** ) ein erreichtes Signifikanzniveau 5%
und mit drei Sternen (*** ) ein erreichtes Signifikanzniveau von 1% anzugeben.
Kann die Nullhypothese auf einem Signifikanzniveau von 5% (d.h. α = 0.05) verworfen werden spricht man verkürzt häufig von einem ‘signifikanten’ Zusammenhang;
bei einem Signifikanzniveau von 1% (d.h. α = 0.01) von einem ‘hoch signifikanten’
Zusammenhang.
Das folgende Beispiel zeigt den Preis von Gebrauchtautos einer bestimmten Type
in Abhängigkeit vom Alter der Autos
PREIS
=
23 521.484
(385.394)***
− 2 757.766 ALTER
(128.276)***
R2 = 0.887, σ̂ = 1367.299, n = 61
(Standardfehler in Klammern)
*. . . p < 0.1, **. . . p < 0.05, ***. . . p < 0.01
Häufig werden solche Regressionsgleichungen auch in Tabellenform dargestellt. Folgende Darstellung zeigt die gleiche Regression in dieser alternativen Darstellungsform.
Preis
Const.
Alter
R-squared
n
23521.484∗∗∗
(385.394)
−2757.766∗∗∗
(128.276)
0.887
61
Strikt abzuraten ist davon, in Publikationen direkt den Regressionsoutput des entsprechenden Programms wiederzugeben, wie z.B. in Tabelle 3.2.
Aufgrund dieser Regressionsgleichung würden wir erwarten, dass der Preis eines
neuwertigen Gebrauchtautos (d.h. eines Gebrauchtautos mit Alter = 0) ungefähr
23500.- Euro beträgt, und dass der Preis mit jedem weiteren Jahr um ungefähr
2758.- Euro fällt (d Preis/d Alter ≈ 2758).
Die Standardfehler sind ziemlich klein relativ zu den Koeffizienten, die Schätzung
der Koeffizienten ist also ziemlich genau. Etwas präziser sagen uns die Sterne neben den Standardfehlern, dass sowohl das Interzept als auch der Steigungskoeffizient
17
Empirische Wirtschaftsforschung
Tabelle 3.2: EViews Output
Dependent Variable: PREIS
Method: Least Squares
Included observations: 61
Variable
C
ALTER
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
Coefficient
23521.48
−2757.766
0.886798
0.884880
1367.299
1.10E + 08
−525.9946
462.1931
0.000000
Std. Error t-Statistic
385.3944
61.03224
128.2761 −21.49868
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
Prob.
0.0000
0.0000
16140.16
4029.835
17.31130
17.38051
17.33842
1.952094
hoch signifikant von Null verschieden sind. Wenn also zum Beispiel in der Grundgesamtheit kein Zusammenhang zwischen Preis und Alter bestehen würde, ist die
Wahrscheinlichkeit einen Steigungskoeffizienten βb2 = 2758 zu erhalten kleiner als
ein Prozent (dies ist etwas salopp formuliert, wir werden dies später präzisieren).
Wir könnten auch die empirischen Werte der t-Statistiken berechnen
t1 =
23521.484
= 61.032,
385.394
t2 =
2757.766
= −21.499
128.276
Man kann in einer Tabelle für die t-Verteilung nachschlagen und findet für ein Signifikanzniveau α = 0.005 (zweiseitiger Test) und 59 Freiheitsgrade (n−2 = 61−2 = 59)
einen kritischen Wert von tcrit
59 = 2.66. In diesem Fall sind die empirischen Werte t1
und t2 der t-Statistiken offensichtlich weit größer als dieser kritische Wert tc , wir
könnten die Nullhypothesen also auch auf einem höheren Niveau verwerfen.
Diese Zusatzinformation geben uns die sogenannten p-Werte an, die von allen statistischen Softwarepakete neben Standardfehlern und t-Statistiken ausgegeben werden
(vgl. Tabelle 3.2). Die p-Werte können als Wahrscheinlichkeiten interpretiert werden, und können deshalb nur Werte zwischen Null und Eins annehmen. Ganz grob
kann man die p-Werte als Hinweis dafür interpretieren, wie gut die Daten mit der
Nullhypothese erklärt werden können; umso kleiner der p-Wert ist, umso weniger
sind die Daten mit der Nullhypothese kompatibel.
Etwas salopp kann man sich unter einem p-Wert die Wahrscheinlichkeit vorstellen,
dass bei nochmaliger Durchführung des Zufallsexperiments und bei Gültigkeit der
Nullhypothese das vorliegende oder ein noch extremeres Schätzergebnis erhalten
wird. Umso kleiner der p-Wert, umso stärker kann die Nullhypothese verworfen
werden. Konkret impliziert ein p-Wert p < 0.1, dass die Nullhypothese auf einem
10% Niveau verworfen werden kann, p < 0.05, dass sie auf dem 5% Niveau bzw.
p < 0.01, dass sie auf dem 1% Niveau verworfen werden kann.
Dieser Abschnitt über Standardfehler und einfache Hypothesentests diente nur als
erster intuitiver Einstieg, der es Ihnen ermöglichen sollte zumindest ein grobes
Empirische Wirtschaftsforschung
18
Verständnis für einen typischen Regressionsoutput zu erhalten. Keine Sorge, wenn
Sie nicht alles verstanden haben, alles was hier erwähnt wurde wird in einem späteren Kapitel ausführlich erklärt und begründet.
Empirische Wirtschaftsforschung
3.3
19
Die PRF als Bedingte Erwartungswertfunktion
Wir haben bisher versucht eine erste Intuition für die OLS Methode und das stochastische Regressionsmodell zu schaffen. Für ein tieferes Verständnis benötigen wir
allerdings ein paar methodische Grundlagen, insbesondere eine klare Vorstellung von
Zufallsvariablen, deren Verteilung und insbesondere von bedingten Erwartungswerten.
Üblicherweise wird die OLS Methode angewandt, um eine stetige abhängige Variable
mit Hilfe einer oder mehrerer x Variablen zu erklären. In unserem Auto-Beispiel
waren sowohl die erklärende Variable ‘Alter’ als auch die abhängige Variable ‘Preis’
stetig.5 Außerdem werden wir später regelmäßig davon ausgehen, dass die Stichprobe
aus einer unendlich großen Grundgesamtheit gezogen wird.
Eine umfassende Einführung dieser stochastischen Konzepte für stetige Zufallsvariablen und unendlich große Grundgesamtheiten ist mathematisch etwas anspruchsvoller und könnte leicht den Blick auf das Wesentliche verstellen. Deshalb beginnen wir
diese Konzepte an einem sehr einfachen Beispiel zu erläutern, nämlich für diskrete
Zufallsvariablen und eine endlich große Grundgesamtheit.
• Diskrete Zufallsvariablen können nur endlich viele oder abzählbar unendlich
viele Ausprägungen annehmen.
• Stetige Zufallsvariablen können überabzählbar viele Ausprägungen annehmen.
Wir bleiben bei dem Auto-Beispiel und nehmen an, die in Tabelle 3.3 wiedergegebenen hundert Beobachtungen die Grundgesamtheit darstellen (die Daten wurden
mittels Computer selbst erzeugt). Zur Vereinfachung haben wir das Alter auf ganze
Jahre und die Preise auf 5000 Euro gerundet, um die Anzahl der Ausprägungen
klein zu halten. Da wir davon ausgehen, dass wir diese Grundgesamtheit kennen,
geht es im Folgenden um die PRF (‘Population Regression Function’ ).
Wenn wir die OLS Methode auf diese Grundgesamtheit mit 100 Beobachtungen
anwenden erhalten wir die PRF
Preisi = 24 464.652 − 2 484.161 Alteri + εi
Diese PRF zeigt den ‘wahren’ Zusammenhang in der Grundgesamtheit, der für ‘normal Sterbliche’ üblicherweise unbeobachtbar ist.
Wir wollen nun zeigen, dass wir diese Grundgesamtheit alternativ auch als gemeinsame Wahrscheinlichkeitsverteilung zweier Zufallsvariablen ‘Preis’ und ‘Alter’ darstellen können.
Wir beginnen damit, die Daten von Tabelle 3.3 kompakter darzustellen, indem wir
die Häufigkeiten der unterschiedlichen Ausprägungen der Variablen Alter und Preis
angeben. Wenn wir in Tabelle 3.3 nachzählen, wie oft z.B. die Kombination Alter = 2
5
Für die Anwendung der OLS Methode sollte die abhängige Variable eigentlich immer stetig
sein, für diskrete abhängige Variablen gibt es geeignetere Verfahren, aber dies spielt im Moment
keine Rolle.
20
Empirische Wirtschaftsforschung
Tabelle 3.3: Grundgesamtheit für Alter und Preis von Gebrauchtautos
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Alter (x)
3
3
4
2
4
6
4
4
3
6
3
1
6
3
6
6
3
6
3
3
2
1
4
2
5
4
4
4
3
6
6
6
6
5
4
3
2
3
2
3
2
4
2
5
4
6
5
1
3
4
Preis (y)
15000
15000
15000
20000
15000
10000
15000
15000
15000
10000
15000
20000
10000
15000
10000
10000
20000
10000
15000
20000
20000
25000
15000
20000
10000
15000
15000
15000
15000
10000
10000
5000
10000
10000
15000
15000
25000
15000
20000
20000
25000
15000
20000
10000
10000
5000
15000
20000
20000
15000
Obs
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
Alter (x)
2
1
5
6
4
2
4
4
4
5
4
5
4
2
5
4
6
2
2
3
2
5
4
4
2
2
4
4
4
1
6
6
5
5
5
6
2
2
3
6
4
3
4
4
4
5
6
2
5
2
Preis (y)
20000
20000
15000
10000
15000
20000
15000
15000
15000
10000
15000
10000
15000
20000
10000
10000
15000
15000
20000
20000
20000
10000
10000
15000
20000
20000
15000
15000
15000
20000
10000
10000
15000
15000
10000
10000
20000
20000
15000
10000
15000
20000
15000
15000
15000
15000
10000
15000
10000
20000
21
Empirische Wirtschaftsforschung
Tabelle 3.4: Darstellung der Grundgesamtheit mit 100 Beobachtungen in Form
einer Häufigkeitstabelle.
Alter (x)
1
2
3
4
5
6
Summe
Preis (y)
5000 10000
15000
20000 25000
0
0
0
4
1
0
0
2
15
2
0
0
10
6
0
0
3
25
0
0
0
9
5
0
0
2
15
1
0
0
2
27
43
25
3
Summe
5
19
16
28
14
18
100
Tabelle 3.5: Darstellung der Grundgesamtheit als gemeinsame Verteilung (Wahrscheinlichkeitsfunktion) der Zufallsvariablen Alter und Preis.
Alter (x)
Pr(y)
1
2
3
4
5
6
5000 10000
0
0
0
0
0
0
0
0.03
0
0.09
0.02 0.15
0.02 0.27
Preis (y)
15000
20000 25000
0
0.04
0.01
0.02
0.15
0.02
0.10
0.06
0
0.25
0
0
0.05
0
0
0.01
0
0
0.43
0.25
0.03
Pr(x)
0.05
0.19
0.16
0.28
0.14
0.18
1
und Preis = 20000 vorkommt, so stellen wir fest, dass diese Kombination 15 Mal
vorkommt; die Kombination Alter = 6 und Preis = 15000 kommt hingegen nur ein
Mal vor (Beobachtung 67), die Kombination Alter = 1 und Preis = 5000 kommt
überhaupt nicht vor.
Tabelle 3.4 zeigt diese Häufigkeiten. Selbstverständlich könnten wir aus diesen
Häufigkeiten wieder die Grundgesamtheit in Tabelle 3.3 rekonstruieren, die beiden
Tabellen sind nur verschiedene Darstellungen der gleichen Grundgesamtheit.
Nun dividieren wir die Häufigkeiten in Tabelle 3.4 durch die Anzahl der Beobachtungen (100), das Ergebnis ist in Tabelle 3.5 dargestellt und gibt relative Häufigkeiten an, z.B. weisen 15% der Autos die Merkmalskombination Alter = 2 und
Preis = 20000 auf.
Tabelle 3.5 gibt einfach die Anteile an, aber wir können die Perspektive wechseln
und sie auch als gemeinsame Verteilung zweier Zufallsvariablen ‘Alter’ und ‘Preis’
interpretierten. Hinter Tabelle 3.5 können wir uns auch eine unendlich große Grundgesamtheit vorstellen, und die Anteile in der Tabelle können wir als Wahrscheinlichkeiten interpretieren.
Dazu stellen wir ein Gedankenexperiment an, wir stellen uns vor, dass wir ein zufälliges Auto aus der Grundgesamtheit ziehen. Vor der Ziehung gibt uns Tabelle 3.5 die
Wahrscheinlichkeiten an, mit der eine bestimmte Merkmalskombination (Preis, Alter) gezogen wird, zum Beispiel beträgt die Wahrscheinlichkeit zufällig ein Auto mit
einem Alter von zwei Jahren und einem Preis von 20000 Euro zu ziehen gleich 0.15,
22
Empirische Wirtschaftsforschung
Pr(x,y)
rs
0.3
rs
rs
rs
0.2
b
rs
rs
0.1
b
rs
rs
rs
er 1
Alt 3 2
6
5
4
b
b
rs
b
bc
bc
bc
10’
bc
b
bc
bc
b
b
b
bc
bc
b
rs
20’
bc
b
b
25’
y
bc
bc
bc
bc
b
15’
bc
x
Preis (e1000)
b
5’
bc
bc
Abbildung 3.11: Grafische Darstellung der gemeinsamen Wahrscheinlichkeitsfunktion in Tabelle 3.5 (mit Randverteilungen). Grau eingezeich[ i = 24 465 − 2 484 Alteri .
net die PRF: Preis
bzw. 15%
Pr(Alter = 2, Preis = 25000) = 0.15
In diesem Sinne können wir Tabelle 3.5 als gemeinsame Wahrscheinlichkeitsfunktion
interpretieren.
Die äußerst rechte Spalte von Tabelle 3.5 (Pr(Alter)) gibt die Randwahrscheinlichkeit
der Zufallsvariable ‘Alter’ an, d.h. die Wahrscheinlichkeit bei einer Zufallsziehung
ein Auto mit einem Alter von zwei Jahre zu ziehen – unabhängig vom Preis – beträgt
19%. Man erhält diese Randwahrscheinlichkeit, indem man die Wahrscheinlichkeiten
für Alter = 2 über alle Ausprägungen von Preis aufsummiert Pr(Alter = 2) =
0 + 0 + 0.02 + 0.15 + 0.02 = 0.19, bzw. allgemeiner
Randverteilungen (Marginal Probability Function)
X
Prx (x) =
Pr(x, y)
Randverteilung von x
y
Pry (y) =
X
x
Pr(x, y)
Randverteilung von y
23
Empirische Wirtschaftsforschung
oder konkret für unser Beispiel

0.05




0.19



X
0.16
Pr(Alter) =
Pr(Alter, Preis) =
0.28


Preis


 0.14


0.18,
für
für
für
für
für
für
Alter
Alter
Alter
Alter
Alter
Alter
=
=
=
=
=
=
1;
2;
3;
4;
5;
6.
Würden wir aus der Grundgesamtheit ein zufälliges Auto herauspicken, so ist die
Wahrscheinlichkeit dafür, dass dieses zufällige Auto 3 Jahre alt ist, 16%.
Analog gibt die unterste Zeile von Tabelle 3.5 (Pr(Preis)) die Randwahrscheinlichkeiten für den Preis an

0.02 für Preis = 5000;




 0.27 für Preis = 10000;
X
0.43 für Preis = 15000;
Pr(Preis) =
Pr(Alter, Preis) =


Alter
0.25 für Preis = 20000;



0.03 für Preis = 25000.
Wiederum, würden wir ein zufälliges Auto aus der Grundgesamtheit herauspicken, so
ist die Wahrscheinlichkeit dafür, dass dieses Auto unabhängig vom Alter 5000 Euro
kostet, 2%.
Bedingte Wahrscheinlichkeitsfunktion Wir wollen den Zusammenhang zwischen Alter und Preis beschreiben, deshalb interessieren wir uns dafür, ob wir aus
dem Alter auf den Preis schließen können. Zuerst fragen wir uns, wie groß die Wahrscheinlichkeit für einen bestimmten Preis ist, wenn wir das Alter des Autos vorgeben.
Zum Beispiel, wie groß ist die Wahrscheinlichkeit für Preis = 20000 wenn wir wissen,
dass Alter = 1. Insgesamt haben wir in der Grundgesamtheit 5 Autos mit Alter = 1,
4 davon kosten 20000 Euro, die Wahrscheinlichkeit beträgt also 4/5 bzw. 80%. Wir
können uns auch vorstellen, dass wir nur aus den Autos mit Alter = 1 ein zufälliges
Auto ziehen.
Diese bedingte Wahrscheinlichkeit können wir natürlich auch aus der gemeinsamen Verteilung berechnen, indem wir die gemeinsame Wahrscheinlichkeit Pr(y =
20000, x = 1) durch die Randwahrscheinlichkeit Prx (x = 1) dividieren. Wenn wir
die Zufallsvariablen mit x und y und deren Realisationen mit x und y bezeichnen
schreiben wir die bedingte Wahrscheinlichkeit als
Pr(y = y|x = x) =
Pr(y = y, x = x)
Prx (x = x)
zum Beispiel
0.04
= 0.8
0.05
Dies erlaubt uns gleich ein weiteres zentrales Konzept zu definieren, nämlich stochastische Unabhängigkeit.
Pr(Preis = 20000|Alter = 1) =
24
Empirische Wirtschaftsforschung
Stochastische (bzw. statistische) Unabhängigkeit
und y sind stochastisch unabhängig, wenn
Zwei Zufallsvariablen x
Pr(x = x, y = y) = Prx (x = x) Pry (y = y)
bzw. mit Hilfe der bedingten Wahrscheinlichkeit
Pr(y = y|x = x) = Pry (y = y)
oder in Worten, wenn die gemeinsame Wahrscheinlichkeit gleich der Randwahrscheinlichkeit ist.
Wir haben Tabelle 3.5 als gemeinsame Verteilung der zwei diskreten Zufallsvariablen ‘Alter’ und ‘Preis’ interpretiert. Zufallsvariablen beziehen sich immer auf ein
zugrunde liegendes Zufallsexperiment, z.B. auf die Ziehung eines einzelnen Autos
aus der Grundgesamtheit, und beschreiben alle möglichen Ausgänge dieses Zufallsexperiments (z.B. welche Ausprägungen das Alter annehmen kann, bevor die Ziehung tatsächlich durchgeführt wurde). Eine Zufallsvariable kann also mehrere Ausprägungen annehmen, und für diskrete Zufallsvariablen kann jeder dieser möglichen
Ausprägungen eine Wahrscheinlichkeit zugeordnet werden.
Zufallsvariablen können durch Kennwerte beschrieben werden, die bekanntesten sind
die ersten beiden Momente Erwartungswert und Varianz. Um es einfach zu halten
beginnen wir mit dem univariaten Fall, also den Randwahrscheinlichkeiten.
Erwartungswert Der Erwartungswert einer diskreten Zufallsvariable ist definiert
als die Summe aller der mit den Wahrscheinlichkeiten gewichteten Ausprägungen.
Wenn die diskrete Zufallsvariable x insgesamt m verschiedene Ausprägungen annehmen kann ist der Erwartungswert definiert als
E(x) =
m
X
xj Pr(xj )
j=1
Achtung: Beim Erwartungswert wird über alle möglichen Ausprägungen der Zufallsvariable aufsummiert, gewichtet mit deren Wahrscheinlichkeiten, nicht über Beobachtungen (d.h. Realisationen)! Erwartungswerte beziehen sich auf die Zufallsvariable, niemals auf die Realisationen der Stichprobe!
In diesem Beispiel bezieht sich der Erwartungswert der Zufallsvariable auf die
Grundgesamtheit, der Mittelwert bezieht sich hingegen auf die Realisationen einer
Stichprobe. In diesem Sinne kann man den Mittelwert einer Stichprobe als Analogon
für den Erwartungswert einer Zufallsvariable ansehen, aber diese beiden Konzepte
sind streng zu unterscheiden.
Den Erwartungswert der Zufallsvariable ‘Alter’ können wir unter Verwendung der
Randwahrscheinlichkeiten einfach berechnen
E(Alter) =
6
X
Alterj Pr(Alter = j)
j=1
= 1 × 0.05 + 2 × 0.19 + 3 × 0.16 + 4 × 0.28 + 5 × 0.14 + 6 × 0.18
= 3.81
25
Empirische Wirtschaftsforschung
Würden wir die hundert Beobachtungen der Grundgesamtheit als Stichprobe interpretieren, so könnten wir sagen, das durchschnittliche Alter P
(bzw. der Mittel1
wert) ist 3.81 Jahre. Man beachte, dass der Mittelwert x̄ := n i xi nur für eine
endliche P
Zahl n von Beobachtungen berechnet werden kann, der Erwartungswert
E(x) := j xj Pr(xuj ) ist auch für eine unendlich große Grundgesamtheit definiert.
Rechnen mit Erwartungswerten Der Erwartungswert ist ein linearer Operator, d.h. mit Erwartungswerten kann ‘sehr ähnlich’ gerechnet werden wie mit dem
Summenzeichen. So gilt z.B. für konstante a
E(a) = a
für a = konst., weil
X
Pr(x) = 1
E(ax) = a E(x)
für a const.
E [E(x)] = E(x)
X
für eine Funktion g(·)
E [g(x)] =
g(xj ) Pr(xj )
j
Die Varianz σx2 einer Zufallsvariablen x ist definiert als
var(x) := σx2 = E [x − E(x)]2
bzw. für diskrete Zufallsvariablen
σx2 =
X
j
(xj − µ)2 Pr(xj )
mit µ := E(x)
Die Varianz einer Zufallsvariablen x kann auch folgendermaßen berechnet werden:
σx2 =
=
=
=
also
E [x − E(x)]2 = E(x − µ)2 = E(x2 − 2µx + µ2 )
E(x2 ) − 2µ E(x) + µ2 = E(x2 ) − 2µµ + µ2
E(x2 ) − µ2
E(x2 ) − [E(x)]2
var(x) ≡ σx2 = E [x − E(x)]2 = E(x2 ) − [E(x)]2
Analoges gilt auch für stetige Zufallsvariablen.
Die Kovarianz ist definiert als
cov(x, y) = E [[x − E(x)] [y − E(y)]]
= E [xy − y E(x) − x E(y) + E(x) E(y)]
= E(xy) − E(x) E(y)
26
Empirische Wirtschaftsforschung
y
22.000
b
b
20.000
18.000
b
Preis
16.000
b
14.000
12.000
b
10.000
b
8.000
x
6.000
0
1
2
3
4
5
6
Alter
Abbildung 3.12: Bedingte Erwartungswertfunktion für Auto-Beispiel
3.3.1
Bedingte Erwartungswerte
Wir haben bereits eingangs betont, dass die bedingten Erwartungswerte vermutlich
das wichtigste Konzept für ein tieferes Verständnis der PRF sind.
Für diskrete Zufallsvariablen ist der bedingte Erwartungswert definiert als
X
E(y|x = x) =
y j Pr(y j |x = x)
j=1
zum Beispiel
E(Preis|Alter = 1) = 20000
= 21000
0.04
0.01
+ 25000
0.05
0.05
Die bedingte Erwartungswertfunktion (‘Conditional Expectation Function’,
CEF) einer diskreten Zufallsvariable ordnet jeder Ausprägung einer erklärenden Zufallsvariable x den entsprechenden bedingten Erwartungswert der abhängigen Variable y zu, z.B.

21000
für Alter = 1




20000
für Alter = 2



16875
für Alter = 3
E(Preis|Alter = Alter) =
14464.29
für
Alter = 4




11785.71 für Alter = 5



9722.222 für Alter = 6
27
Empirische Wirtschaftsforschung
In diesem einfachen Beispiel sind die bedingten Erwartungswerte einfach die Mittelwerte der Grundgesamtheit für die entsprechenden Alters-Gruppen, der durchschnittliche Preis von Autos mit Alter = 1 beträgt z.B. 21000 Euro.
Die grafische Abbildung dieser bedingten Erwartungswertfunktion (CEF) sind die
in Abbildung 3.12 eingezeichneten Punkte (Achtung, nicht die auch eingezeichnete
strichlierte Linie).
Man beachte, dass für fixierte x diese bedingten Erwartungswerte keine Zufallsvariablen sind, obwohl y eine Zufallsvariable ist. Wer immer auf Grundlage der gemeinsamen Verteilung (Tabelle 3.5) die bedingten Erwartungswert berechnet wird
das selbe Ergebnis erhalten, es gibt dabei kein Element der Unsicherheit.
Die CEF kann nun verwendet werden, um die y Variable in zwei Teile zu zerlegen,
in einen systematischen Teil E(y|x = x) und in einen Störterm ε
y = E(y|x = x) + ε
und definieren so die Störterme ε = y − E(y|x = x).
Die bedingte Erwartungswertfunktion (CEF) ist ein sehr allgemeines Konzept. Wie
Abbildung 3.12 zeigt müssen die einzelnen Punkte keineswegs auf einer Gerade liegen.
Es gibt zwei Spezialfälle, in denen die Punkte der CEF tatsächlich auf einer Geraden
liegen, nämlich
1. in einem gesättigten Dummy Variablen Modell, mehr dazu später im Kapitel
über Dummy Variablen; und
2. wenn die Variablen gemeinsam normalverteilt sind, dazu müssen die Zufallsvariablen natürlich stetig sein.
Aber auch wenn die Punkte der CEF nicht exakt auf der linearen PRF liegen wie
in diesem Beispiel kann man doch zeigen, dass diese Punkte der CEF durch eine
lineare Regression bestmöglich approximiert werden!
Die eingezeichnete lineare Populationsregressionsfunktion (PRF)
Preisi = 24464.652 − 2484.161 Alteri + εi
kann auch direkt als eine Funktion der Momente der Zufallsvariablen x und y dargestellt werden. Das OLS Prinzip – die Minimierung der Quadratsummen der Störterme – führt uns nämlich zu den altbekannten Ausdrücken
β2 =
E[x − E(x)][y − E(y)]
cov(x, y)
=
,
var(x)
E[x − E(x)]2
β1 = E(y) − β2 E(x)
die die PRF
y = β1 + β2 x + ε
definieren.
Man beachte, dass die Parameter der PRF direkt aus der gemeinsamen Wahrscheinlichkeitsfunktion von x und y in Tabelle 3.5 berechnet werden können. Dies funktioniert auch für eine unendlich große Grundgesamtheit.
28
Empirische Wirtschaftsforschung
Zur Kontrolle:
Wir erinnern uns, dass
cov(x, y) = E[x − E(x)] E[y − E(y)] = E(xy) − E(x) E(y)
var(x) = E[x − E(x)]2 = E(x2 ) − [E(x)]2
Aus Tabelle 3.5 berechnen wir
E(xy) = 51700
E(x) = 3.81
E(x2 ) = 16.71
E(y) = 15000
mit cov(x, y) = 51700 − 3.81 ∗ 15000 = −5450 und var(x) = 16.71 − 3.812 = 2.1939.
Daraus folgt
β2 = −5450/2.1939 = −2484.161 und β1 = 15000 + 2484.161 ∗ 3.81 = 24464.652
Dies sind natürlich exakt die gleichen Werte die wir erhalten, wenn wir die OLS
Methode direkt auf die Daten der Grundgesamtheit in Tabelle 3.3 anwenden.
3.3.2
Stetige Zufallsvariablen
Dies funktioniert im Wesentlichen gleich für stetige Zufallsvariablen, nur ist in diesem Fall die Mathematik etwas aufwändiger. Deshalb beschränken wir uns auf einige
Grafiken, die das Prinzip hoffentlich klar machen.
Abbildungen 3.13 und 3.14 zeigen bedingte Erwartungswertunktionen für zwei normalverteilte Zufallsvariablen x und y.
29
Empirische Wirtschaftsforschung
f (y|x = x)
=
f (x,y)
f (x)
f (x, y)
f (x = x)
x
y
Abbildung 3.13: Gemeinsame Dichtefunktion zweier normalverteilter Zufallsvariablen mit bedingter Wahrscheinlichkeit.
30
Empirische Wirtschaftsforschung
bedingte Wahrscheinlichkeiten
f (x,y)
f (y|x = x) = f (x)
f (x, y)
x
y
Abbildung 3.14: Bedingte Erwartungswertefunktionen von y für verschiedene x.
f (x, y)
x
y
Abbildung 3.15: Population Regression Function für zwei gemeinsam normalverteilte Zufallsvariablen x und y.
Datengenerierender
Prozess (DGP)
f (x, y)
x
n Paare von Zufallsvariablen;
εi identisch & unabhängig verteilt?
y
ε̂1 = y1 − βb1 − βb2 x1 , ε1 ∼ N(0, σ12 )
..
.
induktiv
(Theorie)
ε̂i = yi − βb1 − βb2 xi ,
..
.
..
.
..
.
n→∞
βb2 =
εi ∼ N(0, σi2 )
ε̂n = yn − βb1 − βb2 xn , εn ∼ N(0, σn2 )
. . . Asymptotik
Stichprobenkennwertverteilung
Schätzfunktion
..
.
cd
ov(x,y)
var(x)
c
mit Gauss-M. Ann.
E(βb2 ) = β2
var(βb2 ) =
f (βb2 )
Empirische Wirtschaftsforschung
yi = β1 + β2 xi + εi
nicht beobachtbar
2
P σ̂
i (xi −x̄)
b
0
β2
|
1 βb2
Zustände vor dem Zufallsexperiment (ex ante) sind nicht beobachtbar!
ZUFALLSEXPERIMENT
Nach dem Zufallsexperiment (ex post) existiert kein Zufall (Realisationen)!
y1
x1
y2
x2
...
yi
xi
...
yn
xn
cd
ov(x,y)
var(x)
c
|
0
bc
βb2
Schätzung (Zahl)
c
H.
Stocker
31
Stichprobe (n Realisationen)
βb2 =
beobachtbar
deskriptiv
(Empirie)
Abbildung 3.16: Stochastische Regressionsanalyse.
Stochastische Regressionsanalyse
Empirische Wirtschaftsforschung
32
Literaturverzeichnis
Spanos, A. (1999), Probability Theory and Statistical Inference: Econometric Modeling with Observational Data, Cambridge University Press.
33
Empirische Wirtschaftsforschung
3.A
3.A.1
Appendix
EViews Programmcode für Monte Carlo Simulation
Das folgende Programm zieht aus einer gegebenen Grundgesamtheit wiederholt
Stichproben, berechnet für jede Stichprobe den Koeffizienten β2 und zeichnet ein
Histogramm aller Schätzungen. Das Histogramms in Abbildung 3.9 (Seite 12) wurde mit diesem Programm erzeugt.
Sie können das Programm auch unter
http://www.uibk.ac.at/econometrics/einf/02prg_mc1.prg herunterladen.
’ Ein einfaches Monte Carlo Beispiel
’ Workfile mit Namen MONTECARLO anlegen, undated, 20 Beobachtungen
wfcreate(wf=MONTECARLO) u 20
’ in EViews 4: workfile MONTECARLO u 20
’ Daten für Grundgesamtheit anlegen und einlesen
series Xpop
series Ypop
Xpop.fill 1.2, 1.3, 1.7, 1.9, 1.9, 2.0, 2.2, 2.4, 2.8, 2.8, _
3.2, 3.3, 3.4, 3.7, 4.1, 4.1, 4.3, 4.4, 4.5, 4.7
Ypop.fill 0.8, 2.9, 0.8, 0.7, 3.5, 3.2, 2.6, 3.2, 3.6, 1.1, _
1.4, 2.3, 2.6, 2.6, 3.9, 2.3, 2.5, 3.9, 4.2, 4.2
series Y ’ Datenreihen für SRF anlegen series X
series X
’ Skalare und Vektoren anlegen
!N = 10
’ Stichprobengroesse
!WH = 10000
’ Anzahl der Wiederholungen
vector(!WH) BV
’ Vektor fuer Ergebnisse anlegen
rndseed 123456
’ Zufallsgenerator init.
for !i = 1 to !WH
’
for !j = 1 to !N
!ZUFALL = @floor(@runif(1,21))
X(!j) = Xpop(!ZUFALL)
Y(!j) = Ypop(!ZUFALL)
next
equation tmp.ls Y c X
’
BV(!i) = tmp.@coefs(2)
’
next
’
Beginn Schleife über WH
’ Beginn Schleife N Zufallsziehungen
’ gleichvert. Zufallszahl zw. 1 & 20
’ Zufallsziehungen
’ Ende der Schleife über N
SRF schätzen
b_1 in Vektor schreiben (2. Koeff.)
Ende Schleife über WH
’Grafiken erzeugen und ausgeben
range 1 !WH
smpl @all
mtos(BV,B1)
’ Vektor BV in series BS umwandeln
freeze(B_HIST) B1.hist
’ Histogramm anlegen
B_HIST.addtext(t) Histogramm (N = !N, !WH Wiederholungen)
range 1 20
show B_HIST
’ Histogramm anzeigen
Herunterladen