Kapitel 2 Grundlagen der Regressionsanalyse

Werbung
Kapitel 2
Grundlagen der
Regressionsanalyse
“Physics is like sex. Sure, it may give
some practical results, but that’s not
why we do it.”
(Richard Feynman)
2.1
Einführung
In unserem täglichen Leben sind wir ständig darauf angewiesen Zusammenhänge
zwischen Phänomenen zu erkennen und zu beurteilen. Exakte Zusammenhänge
können einfach mit Hilfe von Funktionen dargestellt werden. Wenn wir zum Beispiel an einer Tankstelle tanken wissen wir, dass sich der zu bezahlende Betrag (y)
als Produkt von Preis und der Anzahl der getankten Liter (x) ergibt.
Dies ist eine einfache lineare Funktion
y = β0 + β1 x
wobei hier y den ‘zu bezahlenden Betrag’ und x die Menge an getankten Litern
bezeichnet. In diesem Spezialfall wäre das Interzept β0 gleich Null, denn wenn wir
nichts tanken (x = 0) müssen wir auch nichts bezahlen. Der Koeffizient β1 ist die
Steigung dieser Geraden und würde in diesem Beispiel dem Preis entsprechen, denn
wenn wir einen zusätzlichen Liter tanken steigt der zu bezahlende Betrag um β1
Euro. Dieser Zusammenhang gilt bei fixen Preisen exakt und für jede beliebige
Menge x.
Sehr viele Zusammenhänge gelten aber nicht exakt, sondern sind nur näherungsweise gültig. Wenn wir zum Beispiel untersuchen möchten, wie die Mietpreise von
Wohnungen von der Größe (Wohnnutzfläche) abhängen, dann erwarten wir zwar
auch einen positiven Zusammenhang, aber dieser Zusammenhang wir kaum exakt
gültig sein, da die Mieten in der Regel von einer Vielzahl von Faktoren abhängen,
die sich zwischen den Wohnungen unterscheiden (z.B. von der Lage und Ausstattung der Wohnungen), nicht nur von der Wohnnutzfläche. Wenn wir die Miete mit
y und die Wohnnutzfläche mit x bezeichnen, können wir nicht wie früher einfach
35
36
Grundlagen der Regressionsanalyse
y = β0 + β1 x
y
yi =β0 + β1 xi + ui
=213 + 3.65xi + ui
y
1200
60
b
1000
800
40
Miete
Betrag
50
30
600
x
0
10
20
30
Liter
40
50
b
b b
b
200
0
b
b
b
10
b
bb
400
20
b
b
b
b
b
b b
b
b
b
b
x
0
0
20 40 60 80 100 120 140 160 180
Wohnnutzfläche
Abbildung 2.1: Links ein exakter Zusammenhang zwischen getankten Litern und
zu bezahlendem Betrag für einen Preis β1 = 1.1. Rechts ein ‘ungefährer’ Zusammenhang zwischen Wohnnutzflächen und Mieten
für eine Stichprobe von 22 Innsbrucker Haushalten (EU-Silc 2008).
y = β0 + β1 x schreiben, denn dieser Zusammenhang gilt möglicherweise für keine
einzige Wohnung exakt.
Abbildung 2.1 soll dies verdeutlichen. Das linke Panel zeigt z.B. den Zusammenhang
zwischen getankter Menge in Litern (x) und dem zu bezahlendem Betrag (y) für
einen Preis β1 = 1.1 und ein Interzept β0 = 0. Da dies für jedes beliebige x exakt
gilt kann man einfach schreiben y = β0 + β1 x.
Das rechte Panel in Abbildung 2.1 zeigt 22 Beobachtungen für Mieten und Wohnnutzflächen für Innsbrucker Haushalte (Quelle: EU-Silc Daten 2008, Statistik Austria).
Offensichtlich werden für größere Wohnungen in der Regel höhere Mieten bezahlt,
aber um diesen ‘ungefähren’ Zusammenhang beschreiben zu können müssen wir die
Abweichungen (Fehler) berücksichtigen. Deshalb benötigen wir eigentlich für jeden
der hier insgesamt 22 Wohnungen eine eigene Funktion
y1 = β0 + β1 x1 + u1
y2 = β0 + β1 x2 + u2
..
.
. = ..
y22 = β0 + β1 x22 + u22
Da diese Darstellung etwas umständlich wäre wird dies häufig kompakter geschrieben als
yi = β0 + β1 xi + ui
für i = 1, 2, . . . , N
(2.1)
wobei N die Anzahl der Beobachtungen bezeichnet (in diesem Beispiel ist N = 22).
Für die Variablen y und x haben sich in der Literatur verschiedene Bezeichnungen
eingebürgert.
Grundlagen der Regressionsanalyse
37
Die links-stehende Variable y Variable (‘left-hand side variable’ ) wird häufig auch
abhängige Variable (‘dependent variable’ ), erklärte Variable (‘explained variable’ ),
Regressand (‘regressand’ ), Antwortvariable (‘response variable) oder Effektvariable
(‘effect variable’ ) genannt.
Für die rechts-stehende x Variable (‘right-hand side variable’ ) haben sich die Bezeichnungen erklärende Variable (‘explanatory variable’ ), Regressor (‘regressor ),
Kontrollvariable (‘control variable) oder Kovariable (‘covariate’, ‘concomitant variable’ ) eingebürgert.
In vielen Lehrbüchern findet sich für die x Variable auch noch die Bezeichnung ‘unabhängige Variable’ (‘independent variable’ ). Während die Bezeichnung ‘abhängige
Variable’ für y durchaus zutreffend und üblich ist, ist die Bezeichnung ‘unabhängige
Variable’ für x ungünstig, da die x Variable in einem weiteren Sinn nicht unabhängig
sein muss. Deshalb werden wir im Folgenden y meist als ‘abhängige Variable’ und x
als ‘erklärende Variable’ bezeichnen. Man beachte, dass die Terminologie ‘abhängige’ und ‘erklärende’ Variable alleine noch nichts über die Kausalität zwischen diesen
Variablen aussagt!
Der letzte Term ui in Gleichung (2.1) bezeichnet den Fehler (‘error’ ) und wird häufig
auch Störterm genannt. In unserem Beispiel erklärt die Wohnungsgröße offensichtlich nur einen Teil der Mietausgaben, der unerklärte Teil findet im Störterm seinen
Niederschlag.
Für das Auftreten solcher Störterme ui sind viele Ursachen denkbar, zum Beispiel
• nicht alle Variablen, die eine Auswirkung auf yi haben, können tatsächlich beobachtet werden oder stehen für eine Auswertung zur Verfügung. Der Einfluss
aller nicht im systematischen Teil vorkommenden Variablen schlägt sich im
Störterm nieder;
• oft ist es schlichtweg unmöglich alle potentiell erklärenden Variablen zu berücksichtigen; um das Modell handhabbar zu halten werden manchmal nur die
wichtigsten Variablen berücksichtigt;1
• prinzipielle Unbestimmtheiten in der Natur und im menschlichen Verhalten;
Dieser Störterm nimmt dabei jeweils den Wert an, sodass die Gleichung exakt erfüllt
ist. Wenn man obige Gleichung umschreibt zu ui = yi − β0 − β1 xi erkennt man,
dass die Werte ui unmittelbar von β0 und β1 abhängen, also gewissermaßen kein
‘Eigenleben’ haben; dazu später mehr.
Man beachte, dass alle Variablen mit einem Subindex i beobachtungsspezifisch sind,
sich also zwischen den Haushalten unterscheiden. In diesem Beispiel sind dies die Variablen Miete yi , Wohnnutzfläche xi und der Störterm ui (wenn keine Missverständnisse zu befürchten sind werden wir manchmal den Subindex i weglassen, also z.B.
y = β0 + β1 x + u schreiben).
Hingegen werden die beiden Größen β0 und β1 als konstant über alle Beobachtungen
angenommen. Sie beschreiben – etwas salopp gesprochen – den ‘durchschnittlichen’
Zusammenhang zwischen den beiden Variablen y und x.
1
“Any fool can make things bigger, more complex, and more violent. It takes a touch of genius
– and a lot of courage – to move in the opposite direction.” (Albert Einstein).
Grundlagen der Regressionsanalyse
38
Es ist wichtig zu erkennen, dass bloß die Variablen y und x direkt beobachtbar sind,
nicht hingegen die Störterme ui und die beiden Größen β0 und β1 .
Da die beiden Größen β0 und β1 nicht unmittelbar beobachtbar sind und weil sie
als konstant angenommen werden, werden sie häufig ‘Parameter’ genannt, oder
manchmal auch auch einfach ‘Koeffizienten’. Dabei bezeichnet β0 das Interzept.2 Die
Bezeichnung Interzept rührt daher, weil dies in der geometrischen Interpretation den
Schnittpunkt der Regressionsgerade mit der y-Achse darstellt, also der der Wert von
y für x = 0. Für das Interzept hat sich auch die Bezeichnung Regressionskonstante’
eingebürgert.
Der Steigungskoeffizient β1 (‘slope’ ) gibt – wie der Name scjhon sagt – die Steigung
der Regressionsgeraden an. In einer inhaltlichen Interpretation misst der Steigungskoeffizient die marginale Reaktion der y Variable auf eine Änderung der x Variable
um eine Einheit, deshalb wird er häufig auch als ‘marginaler Effekt’ bezeichnet.
Beachten Sie bitte, dass die Subindizes i bei den Variablen y, x und u die i-te Beobachtung von insgesamt N Beobachtungen bezeichnen, während die Subindizes 0
und 1 von β bloß angeben, ob es sich um das Interzept oder um den Steigungskoeffizienten handelt.
Kehren wir nochmals kurz zu unserem Beispiel mit den Mieten zurück. Abbildung 2.1
(rechtes Panel) entnehmen wir, dass das Interzept β0 einen Wert von 213 hat, oder in
anderen Worten, dass für eine Wohnung der Größe Null (x = 0) durchschnittlich 213
Euro zu bezahlen sind. Dies ist natürlich unsinnig und bloß eine Folge der Tatsache,
dass die hier unterstellte lineare Funktionsform den tatsächlichen Zusammenhang
nur ungenau beschreibt. In einem späteren Kapitel werden wir sehen, wie solche
nichtlinearen Funktionsformen berücksichtigt werden können.
Der Steigungskoeffizient β1 gibt an, um wieviele Euro die Miete mit jedem zusätzlichen Quadratmeter Wohnnutzfläche steigt. Abbildung 2.1 entnehmen wir, dass im
Jahr 2008 in Innsbruck die Mietausgaben im Durchschnitt mit jedem zusätzlichen
Quadratmeter um ca. 3.65 Euro zunahmen. Wenn Ihnen dieser Wert unplausibel
niedrig erscheint bedenken Sie, dass es sich hierbei größtenteils nicht um Neuvermietungen handelt, sondern mitunter um lang bestehende und oft gesetzlich regulierte
Mietverträge. Selbstverständlich wird auch der Steigungskoeffizient β1 in der Regel
nicht konstant sein, aber häufig kann eine lineare Funktionsform den Zusammenhang
trotzdem ziemlich gut approximieren.
In den beiden Parametern (Koeffizienten) β0 und β1 kommt der systematische Teil
des Zusammenhangs zwischen y und x zum Ausdruck, deshalb ist unser Interesse
im Folgenden hauptsächlich auf diese Parameter gerichtet.
Im nächsten Abschnitt werden wir nun zeigen, wie aus den beobachtbaren Daten
y und x die unbekannten Parameter β0 und β1 berechnet werden können, und wie
sich daraus schließlich die Störterme ui ergeben.
2
Der Grund dafür, warum man häufig auch das Interzept β0 Koeffizient nennt, liegt darin,
dass man sich das Interzept als Koeffizienten eines Einsenvektors vorstellen kann, also β0 1i für
i = 1, . . . , N .
39
Grundlagen der Regressionsanalyse
2.2
Die OLS Methode
Die Bezeichnung OLS steht für ‘Ordinary Least Squares’, auf deutsch Methode der
(Gewöhnlichen) Kleinsten Quadrate. Wir werden hier meist bei dem englischen
Akronym bleiben, da sich dies auch in der deutschsprachigen Literatur zunehmend
durchsetzt, und weil die meisten Befehle der entsprechenden Software auf den englischen Bezeichnungen beruhen.
Unser konkretes Anliegen in diesem Abschnitt ist es eine Formel zu finden, in die
wir die beobachteten Daten y und x einsetzen können, und die uns als Resultat
‘bestmögliche’ Zahlenwerte für die unbeobachtbaren Parameter β0 und β1 einer Geradengleichung yi = β0 + β1 xi + ui liefert. Die OLS Methode wird genau dieses
Problem lösen.
Um diese Methode zu verstehen beginnen wir mit einer vorerst gedanklichen Zerlegung der yi in zwei Teile, in eine systematische Komponente β0 + β1 xi , in der die
den Daten zugrunde liegende Gesetzmäßigkeit zum Ausdruck kommt, und in den
unsystematischen Störterm ui
yi = β0 + β1 xi + ui
| {z } |{z}
systematische
Komponente
Störterm
Wir wollen uns diese Zerlegung anhand von Abbildung 2.2 veranschaulichen. Das
obere Panel zeigt 5 Datenpunkte und eine gedachte Regressionsgerade. Angenommen, wir hätten diese Regressionsgerade bereits, dann könnten wir diese nützen,
um jeden y-Wert in zwei Teile zu zerlegen, in einen Wert, der auf der Regressionsgeraden liegt, und in die Abweichung davon, das heißt den den Störterm. Diese
Zerlegung ist im unteren Panel dargestellt.
Die ‘gefitteten’ Werte, die auf der Regressionsgerade liegen, bezeichnen wir mit ybi
(gesprochen y Dach). Diese hängen nur von den (vorerst noch) unbekannten Parametern β0 und β1 sowie von den xi ab
ybi = β0 + β1 xi
Die systematische Komponente yb beschreibt also den Teil von y, der durch die x
‘erklärt’ wird.
Eine ‘gute’ Regressionsgerade sollte auf Grundlage dieser Überlegungen zwei Bedingungen erfüllen,
1. die ‘systematische’, bzw. ‘erklärte’ Komponente sollte möglichst groß sein, was
impliziert, dass die Störterme einen möglichst kleinen Erklärungsbeitrag liefern
sollten,
2. und die ‘systematische’ Komponente sollte möglichst unkorreliert mit den
Störtermen sein.
Wir werden gleich sehen, dass uns die OLS Methode genau solche Parameterwerte
β0 und β1 liefert, die diese beiden Bedingungen erfüllen.
40
Grundlagen der Regressionsanalyse
y
i
1
2
3
4
5
6
5
x
1.2
3.0
4.5
5.8
7.2
y
2.6
1.6
4.0
3.0
4.9
b
4
b
3
b
b
2
b
1
0
0
1
2
3
4
5
6
7
8
x
y
ybi = 1.5 + 0.4xi
6
yi = ybi + ui
5
b
u5
bc
4
b
bc
u3
u4
bc
3
ybi = 1.5 + 0.4xi
b
bc
b
u1
2
bc
b
y1
yb1
1
y3
u2
yb2
y2
yb3
yb4
y4
y5
yb5
0
0
1
2
3
4
5
6
7
8
x
Abbildung 2.2: Zerlegung von yi in eine systematische Komponente ybi und in einen
unsystematischen Störterm ui [local, www]
41
Grundlagen der Regressionsanalyse
y
6
y
6
5
5
b
4
b
4
b
3
b
3
b
b
b
b
2
2
b
b
1
1
0
0
1
2
3
4
5
6
7
8 x
0
0
1
2
3
4
5
6
7
8 x
Abbildung 2.3: Die Summe der Abweichungen hat in beiden Abbildungen den
gleichen Wert!
Aber warum genügt es nicht einfach,
P die Parameterwerte β0 und β1 derart zu wählen,
dass die Summe der Störterme i ui möglichst klein wird?
Das Problem bei dieser Vorgangsweise besteht darin, dass sich positive und negative
Abweichungen in ihrem Vorzeichen aufheben. Dies führt unter anderem dazu, dass
die Summe der Störterme für jede Gerade Null ist, die durch die Mittelwerte von x
und y gelegt wird, deshalb würde man mit dieser Methode wahrscheinlich eine sehr
schlechte Approximation erhalten.
Abbildung 2.3 veranschaulicht das Problem: die Summe der Abweichungen hat in
der linken und rechten Grafik den gleichen Wert, obwohl die Gerade in der rechten
Grafik die Punkte offensichtlich weit besser approximiert.
Dieses Problem könnte man vermeiden, wenn man den absoluten Wert der Abweichungen minimiert. Dies wirft jedoch zwei Probleme auf: Zum einen ist dieses
Problem numerisch schwieriger zu lösen, zum anderen werden damit größere Abweichungen nicht relativ stärker ‘bestraft’ als kleinere Abweichungen. Tatsächlich sind
die meisten Menschen risikoavers und werden große Fehler lieber überproportional
stärker ‘bestraft’ sehen als kleine Fehler.
Die einfachste Lösung für diese Probleme besteht darin, nicht die absoluten Abweichungen zu minimieren, sondern P
β0 und β1 derart zu wählen, dass die Summe
2
der quadrierten Abweichungen (d.h. N
i=1 ui ) möglichst klein wird, und genau darin
besteht das Prinzip der OLS Methode.
Daher erklärt sich auch der Name Methode der Kleinsten Quadrate (‘Ordinary
Least Squares’ ).
Wir werden nun zeigen, wie man eine Formel formal herleiten kann, die uns die Berechnung der unbeobachtbaren Parameter β0 und β1 aus den beobachtbaren Daten
x und y erlaubt. Sie werden sich sich vielleicht fragen, wozu diese ganze nun folgende ‘Rechnerei’ gut sein soll, wenn die fertigen Formeln selbst in Excel bereits fix
und fertig implementiert sind und denkbar einfach anzuwenden sind. Nun, wir werden im nächsten Kapitel sehen, dass die Anwendung dieser Formel nur unter ganz
42
Grundlagen der Regressionsanalyse
y
6
yi = β0 + β1 xi + ui
ybi = β0 + β1 xi
5
ui = yi − ybi
4
y5
b
u25
y3
yb4
b
u23
3
yb2
y1
b
u21
2
u24
b
y4
u22
bc
yb1
1
yb3
bc
yb5
bc
bc
b
y2
min
P
2
i ui =
P
5
6
i (yi
0
0
1
bc
2
3
4
7
− ybi )2
8 x
Abbildung 2.4: Berechnung von β0 und β1 [local, www]
bestimmten Voraussetzungen zu den gewünschten Ergebnissen führt. Ein Verständnis der Mechanik dieses OLS-Schätzers (auch Kleinstquadratschätzer genannt) wird
es uns erlauben die Grenzen dieses Ansatzes zu verstehen, und in einem weiteren
Schritt geeignete Maßnahmen zu ergreifen, wenn die Annahmen verletzt sind, denn
eine naive Anwendung dieser Methoden führt häufig zu falschen oder zumindest unnotwendig ungenauen Ergebnissen. Um solche Fehler vermeiden zu können ist ein
fundiertes Verständnis der Grundlagen erforderlich.
Wir beginnen damit, das Optimierungsproblem, – die Minimierung der Quadratsumme der Störterme – anzuschreiben. Aus yi = β0 + β1 xi + ui folgt durch Umschreiben
ui = yi − β0 − β1 xi , also lautet das Minimierungsproblem
min
β0 ,β1
N
X
i=1
u2i
= min
β0 ,β1
N
X
(yi − β0 − β1 xi )2
i=1
Gesucht sind die Werte von β0 und β1 , für die die Quadratsumme der Störterme
minimal ist. Dazu leiten wir partiell nach den gesuchten Parametern β0 und β1 ab
und setzen diese beiden Ableitungen gleich Null (Bedingungen erster Ordnung, bzw.
notwendige Bedingungen für ein Minimum).3
3
Man kann zeigen, dass die Bedingungen zweiter Ordnung, d.h. die hinreichenden Bedingungen,
ebenfalls erfüllt sind.
43
Grundlagen der Regressionsanalyse
Dies gibt:
∂
P
i
u2i
= −2
X
(yi − β0 − β1 xi ) = −2
|
{z
}
X
ui = 0
∂β0
i
i
ui
P 2
X
X
∂ i ui
xi ui = 0
= −2
(yi − β0 − β1 xi ) xi = −2
|
{z
}
∂β1
i
i
(2.2)
(2.3)
ui
Die Bedingungen erster Ordnung können umgeformt werden zu
X
X
yi = Nβ0 + β1
xi
X
X
X
yi xi = β0
xi + β1
x2i
(2.4)
(2.5)
Dies sind die sogenannten Normalgleichungen, die wir nach β0 und β1 lösen können.
P
Dazu multiplizieren wirP
die erste Gleichung mit xi und die zweiten Gleichung mit
N (man beachte, dass
xi eine Zahl ist).
X 2
X X
X
xi
yi = Nβ0
xi + β1
xi
X
X
X
N
yi xi = Nβ0
xi + β1 N
x2i
Wir lösen diese beiden Gleichungen nach β1 . Subtraktion der ersten Gleichung von
der zweiten und Umformung liefert eine Formel, die es erlaubt den Wert des Koeffizienten β1 aus den Daten zu berechnen:
β1 =
N
P
P P
yi xi − xi yi
P
P
N x2i − ( xi )2
(2.6)
Wenn wir die Beobachtungen yi und xi in diese Formel einsetzen erhalten wir den
gesuchten Wert für den Steigungskoeffizienten β1 .
Wenn der Parameter β1 ermittelt einmal ist kann auch das Interzept β0 einfach
berechnet werden. Aus der Normalgleichung (2.4) folgt
1 X
1 X
yi = β0 + β1
xi
N
N
bzw.
β0 = ȳ − β1 x̄
(2.7)
Diese beiden Formeln lösen unser Problem bereits, aber insbesondere Gleichung
(2.6) sieht noch etwas unappetitlich kompliziert aus. Für die Ästhetiker unter Ihnen
können wir diese Formel noch etwas weiter vereinfachen.
Wir beginnen damit, Zähler und Nenner von Gleichung (2.6) durch N zu dividieren
P
P P
P
P 1 P yi xi − N N1
xi N
yi
xi yi
yi xi − N1
β1 = P 2
=
P
P
P
2
2
xi − N1 ( xi )
x2i − N N12 ( xi )
44
Grundlagen der Regressionsanalyse
und berücksichtigen,
dass der Mittelwert von x bzw. y definiert ist als4 x̄ =
P
1
bzw. ȳ = N i yi .
1
N
P
i
xi ,
Unter Verwendung der Mittelwerte x̄ und ȳ lässt sich der obige Ausdruck schreiben
als
P
yi xi − N x̄ȳ
β1 = Pi 2
2
i xi − N x̄
Anschließend addieren und subtrahieren wir vom Zähler N x̄ȳ und vom Nenner N x̄2 .
Dies ergibt
P
yi xi − N x̄ȳ − N x̄ȳ + N x̄ȳ
β1 = i P 2
2
2
i xi − 2N x̄ + N x̄
P
Als nächstesP
schreiben wir die P
Definition der Mittelwerte etwas um, aus x̄ = N1 i xi
folgt N x̄ = i xi bzw. N ȳ = i yi , und setzen dies ein
P
P
P
xi − x̄ i yi − ȳ i xi + N x̄ȳ
i yiP
P
β1 =
2
2
i xi − 2x̄
i xi + N x̄
ziehen das Summenzeichen heraus
P
(yi xi − x̄yi − ȳxi + x̄ȳ)
β1 = i P 2
2
i (xi − 2x̄xi + x̄ )
und Faktorisieren
β1 =
P
i
(xi − x̄) (yi − ȳ)
P
2
i (xi − x̄)
(2.8)
Dies sieht schon deutlich einfacher aus! Noch einfacher zu merken ist die Formel,
wenn wir Zähler und Nenner mit 1/N (bzw. 1/(N − 1)) multiplizieren, denn dann
erkennt man, dass Gleichung (2.6) einfacher als Verhältnis von Kovarianz zu Varianz
geschrieben werden kann:
P
1
i (xi − x̄) (yi − ȳ)
N
β1 =
P
2
1
i (xi − x̄)
N
β1 =
2.2.1
Cov(y, x)
Var(x)
(2.9)
Mittelwerttransformation
Dies ist ein günstiger Zeitpunkt eine Datentransformation einzuführen, die sich
später oft als nützlich erweisen wird.
Diese Datentransformation besteht darin, dass von jeder einzelnen
Beobachtung xi
P
einer Datenreihe der Mittelwert dieser Datenreihe (x̄ ≡ N1 i xi ) subtrahiert wird.
4
Ein Querstrich über einer Variablen wird im Folgenden immer den Mittelwert dieser Variablen
bezeichnen. Man beachte, dass die Mittelwerte der Variablen einfache Zahlen sind, und deshalb
keinen Subindex i haben.
45
Grundlagen der Regressionsanalyse
Die resultierende Zeitreihe besteht einfach aus Abweichungen vom Mittelwert, deshalb wird sie Mittelwerttransformation genannt. Wir werden eine derart transformierte Beobachtung oder Datenreihe im Folgenden mit zwei Punkten über dem
betreffenden Symbol kennzeichnen, also z.B.
ẍi ≡ xi − x̄
Abbildung 2.5 zeigt eine grafische Interpretation dieser Mittelwerttransformation.
Durch diese Transformation “Subtraktion des Mittelwertes” werden die Koordinaten
der so transformierten Variable im Verhältnis zu einem neuen Koordinatensystem
gemessen, dessen neuer Nullpunkt der Mittelwert der ursprünglichen Variablen (x̄, ȳ)
ist. Gewissermaßen bewirkt die Subtraktion des Mittelwertes also eine Verschiebung
des Koordinatensystems, so dass der neue Nullpunkt in den Mittelwert der Daten
verschoben wird.
Solche mittelwerttransformierte Daten werden uns wiederholt begegnen, und sind
uns auch schon begegnet; zum Beispiel wird Gleichung (2.8) für β1 aus den mittelwertransformierten Variablen x und y gebildet, d.h.
P
P
ẍi ÿi
i (xi − x̄) (yi − ȳ)
≡ Pi 2
β1 =
P
2
i ẍi
i (xi − x̄)
Man beachte auch, dass der Mittelwert einer mittelwertransformierten Variablen
stets Null ist, denn
1 X
1 X
1 X
1 X
1
ÿi =
(yi − ȳ) =
yi −
ȳ = ȳ − N ȳ = ȳ − ȳ = 0
ÿ¯i ≡
N i
N i
N i
N
N
Daraus folgt zum Beispiel auch, dass
β1 =
Cov(y, x)
Cov(ÿ, ẍ)
=
Var(x)
Var(ẍ)
Das bedeutet, dass es für die Berechnung des Steigungskoeffizienten β1 keine Rolle
spielt, ob man die ursprünglichen Datenreihen oder mittelwerttransformierte Datenreihen verwendet, in beiden Fällen liefert der OLS Schätzer das gleiche Ergebnis.
Allerdings kann aus den mittelwerttransformierten Datenreihen das Interzept β0
nicht mehr unmittelbar berechnet werden, denn dies fällt bei der Mittelwerttransformation weg
yi = β0 + β1 xi + ui
ȳ = β0 + β1 x̄ + ū
/−
yi − ȳ = β0 − β0 + β1 (xi − x̄) + ui − ū
ÿi = β1 ẍi + üi
Dies sollte nicht erstaunen, denn wie wir vorhin gesehen haben entspricht die Mittelwerttransformation grafisch einer Verschiebung des Nullpunkts des Koordinatensystems in den Mittelwert der Variablen, und dort in das Interzept per Definition
Null.
Aber selbstverständlich kann das Interzept aus den nicht-transformierten Daten mit
β0 = ȳ − β1 x̄ wieder einfach berechnet werden.
46
Grundlagen der Regressionsanalyse
y
ÿ
6
5
2
4
1
b
(x̄, ȳ)
3
−3
−2
b
b
bc
−1
A
2
E
1
b
2
ẍ
3
−1
b
B
1
−2
0
0
1
2
3
4
5
6
7
8
x
Daten:
A
B
C
D
E
Mittelwert:
y
2.60
1.60
4.00
3.00
4.90
3.22
x
1.20
3.00
4.50
5.80
7.20
4.34
ÿ
ẍ
−0.62 −3.14
−1.62 −1.34
0.78
0.16
−0.22
1.46
1.68
2.86
0.00
0.00
Abbildung 2.5: Datentransformation, Subtraktion des Mittelwertes. Die Koordinaten des Punktes B im ursprünglichen Koordinatensystem sind
(3.0, 1.6); wenn der Mittelwert subtrahiert wird erhält man die
Koordinaten in Bezug auf ein neues Koordinatensystem, dessen
Ursprung im Mittelwert der Beobachtungen (x̄, ȳ) liegt, für Punkt
B also (−1.34, −1.62). [local, www]
47
Grundlagen der Regressionsanalyse
Beispiel: Zwischen zwei Variablen x und y bestehe ein linearer Zusammenhang
der Form y = β0 + β1 x. Folgende Beobachtungen stehen zur Verfügung:
i
1
2
3
4
5
x
1.2
3.0
4.5
5.8
7.2
y
2.6
1.6
4.0
3.0
4.9
Welche Parameter β0 und β1 beschreiben den systematischen Zusammenhang zwischen x und y am ‘besten’ in dem Sinne, dass sie die Quadratsumme der Störterme
minimieren? Die Antwort liefert uns die Anwendung der OLS-Formel.
Mit unseren Formeln können wir β1 und β0 unmittelbar aus den Daten berechnen.
Dazu erweitern wir die Tabelle um die Spalten x×y und x2 und bilden die jeweiligen
Summen:
i
1
2
3
4
P5
β1
β0
x
y
1.2 2.6
3.0 1.6
4.5 4.0
5.8 3.0
7.2 4.9
21.7 16.1
xy
3.1
4.8
18.0
17.4
35.3
78.6
x2
1.4
9.0
20.3
33.6
51.8
116.2
P
P P
5 × 78.6 − 21.7 × 16.1
yi xi − xi yi
= 0.4
=
P 2
P 2 =
N xi − ( xi )
5 × 116.2 − (21.7)2
= y − β1 x = 16.1/5 − 0.4 × 21.7/5 = 1.5
N
bzw. mit den alternativen Formeln:
i xi − x yi − y
ẍ2i
ẍi ÿi
1
−3.1 −0.6 9.9
1.9
2
−1.3 −1.6 1.8
2.2
3
0.2
0.8 0.0
0.1
4
1.5 −0.2 2.1 −0.3
2.9
1.7 8.2
4.8
P5
0.0
0.0
22.0
8.7
i
P
ẍi ÿi
Cov(ÿ, ẍ)
Cov(y, x)
8.7
β1 = P 2 =
=
=
= 0.4
ẍi
Var(ẍ)
Var(x)
22
Eine grafische Darstellung dieser Lösungen finden Sie in Abbildung 2.6.
48
Grundlagen der Regressionsanalyse
y
6
5
b
bc
4
b
∆b
y
∆x
bc
bc
3
β1 = 0.4
bc
b
ybi = 1.5 + 0.4 xi
= 0.4
b
∆x = 1
2
Berechnung der Störterme:
bc
b
1
0
ui = yi − ybi
ui = yi − 1.5 − 0.4xi
β0 = 1.5
0
1
2
3
4
5
6
7
8
9
x
Abbildung 2.6: Beispiel [local, www]
Übungsbeispiele:
1. Zeigen Sie, dass
P
i
ẍi ÿi =
P
i
ẍi yi .
2. Wir werden im Folgenden häufig annehmen, dass der Mittelwert der Störterme
Null ist.
Leiten Sie für das Modell ÿi = β1 ẍi + ui den OLS Schätzer für β1 her.
2.3
2.3.1
Grundgesamtheit und Stichprobe
Deskriptive Regressionsanalyse, oder die
‘Population Regression Function’ (PRF)
Wir haben im letzten Abschnitt zwei Formeln hergeleitet, die es uns erlauben, aus
beobachteten Daten die Parameter β0 und β1 einer Geradengleichung zu berechnen, die diese Daten ‘bestmöglich’ beschreibt. Bestmöglich bedeutet hier, dass die
durch diese Parameter definierte Geradengleichung die Quadratsumme der Störterme minimiert.5 Deshalb werden wir diese zwei Formeln zur Berechnung von β1 und
β0
Cov(x, y)
β1 =
und
β0 = ȳ − β1 x̄
Var(x)
OLS-Lösungen (für ‘Ordinary Least Squares’ ) nennen.
Es ist naheliegend, die Parameter β0 und β1 (bzw. die dadurch definierte Geradengleichung) für eine kompakte Beschreibung des Zusammenhanges zwischen zwei
Variablen y und x zu verwenden, ganz ähnlich, wie wir den Mittelwert als deskriptives Maß zur Beschreibung einer Variable heranziehen.
5
Wir werden im nächsten Kapitel eine präzisere Definition von ‘bestmöglich’ erarbeiten.
49
Grundlagen der Regressionsanalyse
Tabelle 2.1: Alter und Körpergröße (in cm)
Obs Alter Größe
1
5.0
112
2
6.0
127
3
6.9
131
4
7.1
131
5
8.8
139
6
9.0
146
7
9.3
144
8
9.4
143
9
9.9
149
10 10.1
149
11 10.4
156
12 10.5
150
Obs Alter Größe
13 10.8
159
14 10.8
148
15 11.1
153
16 11.2
168
17 11.4
171
18 11.8
169
19 12.7
174
20 13.7
172
21 13.8
180
22 14.1
189
23 14.2
178
24 14.9
192
Körpergröße
Alter:
6
Series: ALTER
Observations 24
5
Mean
Median
Maximum
Minimum
4
10.53750
10.65000
14.90000
5.000000
7
Series: Groesse
Observations 24
6
Mean
Median
Maximum
Minimum
5
4
155.4167
151.5000
192.0000
112.0000
3
3
2
2
1
1
0
5
6
7
8
9
10
11
12
13
14
15
0
110
120
130
140
150
160
170
180
190
200
Abbildung 2.7: Deskriptive Statistik für die Variablen ‘Alter’ und ‘Körpergröße’
Ein sehr einfaches Beispiel soll die zugrunde liegende Idee verdeutlichen. Stellen wir
uns vor, wir haben eine Gruppe mit 24 Buben im Alter von 5 bis 15 Jahren vor uns.
In Tabelle 2.1 finden Sie die Aufzeichnungen über Alter und Körpergröße dieser 24
Buben.
Die deskriptive Statistik versucht diese Variablen durch Lagemaße, wie z.B. Mittelwert oder Median, möglichst kompakt zu beschreiben. Die Idee dahinter ist eine
Informationsverdichtung, mit der selbstverständlich ein Informationsverlust einhergeht, der allerdings durch dadurch kompensiert wird, dass die kompakten Informationen einfacher verarbeitet werden können. Abbildung 2.7 zeigt neben den üblichen
Lagemaßen auch noch das Histogramm6 für diese beiden Variablen.
Analog dazu kann man eine Regressionsgerade dazu benützen, um den Zusammenhang für gegebene Beobachtungen einfach nur zu beschreiben. Abbildung 2.8 zeigt
das Streudiagramm für die 24 Buben aus dem obigen Beispiel. Ähnlich wie wir den
Mittelwert verwenden um eine einzelne Variable zu beschreiben, können wir die Regressionsgerade verwenden, um den Zusammenhang zwischen Alter und Körpergröße
für diese 24 Buben kompakter zu beschreiben.
6
Ein Histogramm zeigt die Häufigkeitsverteilung von Messwerten, also wie viele Beobachtungen
jeweils in einen bestimmten Bereich fallen.
50
Grundlagen der Regressionsanalyse
Größe
b
190
b
180
b
b
b
170
b
160
b
b
b
b
b
b
150
b
b
140
b
b
b
b
b
b
b
130
b
b
120
b
110
100
Alter
4
5
6
7
8
9
10
11
12
13
14
15
Abbildung 2.8: Streudiagramm (Scatterplot) der Variablen ‘Alter’ und ‘Körpergröße’. Die Regressionsgerade ‘Größe = 76.3+7.5Alter’ beschreibt
diesen Zusammenhang (R2 = 0.94).
Übrigens geht die Bezeichnung Regression auf ein einen ähnlichen Zusammenhang
zurück. Der britische Naturforscher Francis Galton (1822 - 1911), ein Halbcousin von
Charles Darwin, interessierte sich für den Zusammenhang zwischen der Körpergröße
von Söhnen und der Körpergröße von deren Vätern. Die Anwendung dieser Methode
zeigt ihm, dass zwischen diesen Variablen ein negativer Zusammenhang besteht,
dass große Väter im Durchschnitt also kleinere Söhne haben, und Galton sprach in
diesem Zusammenhang von einer “regression towards the mean”. Darauf geht die
heute übliche Bezeichnung ‘Regression’ zurück.7
Die Regressionsgerade kann die Daten – je nach der Beschaffenheit der Daten – mehr
oder weniger gut beschreiben.
Abbildung 2.2 zeigt zwei Extremfälle, im linken Panel liegen die Daten (fast) auf
der Regressionsgerade drauf, d.h. der ‘Fit’ ist sehr sehr gut, und die Daten werden
durch die Regressionsgerade so gut wie vollständig beschrieben (nicht erklärt!) –
der Informationsverlust ist also sehr gering. Im Gegensatz dazu werden die Daten
im rechten Panel durch die Regressionsgerade nur sehr schlecht beschrieben, der
‘Fit’ ist sehr schlecht. Wenn man im zweiten Fall nur die Regressionsgerade kennt,
erhält man eine sehr schlechte Vorstellung von den zugrunde liegenden Daten, der
Informationsverlust ist groß.
Praktisch wäre, wenn wir eine einfache Kennzahl hätten, die uns beschreibt, wie gut
die Anpassung der Regressionsgeraden an die Beobachtungspunkte ist. Eine solche
Kennzahl existiert tatsächlich, nämlich das ‘Bestimmtheitsmaß’ R2 .
Diese Kennzahl R2 kann für normale Regressionen mit Interzept Werte zwischen
Null und Eins annehmen. Umso besser der ‘Fit’ ist, umso näher liegt das Bestimmt7
Daraus folgt allerdings nicht, dass die Engländer über die Jahrhunderte immer kleiner werden,
wie Galton fürchtete, deshalb ging dieses Phänomen als “Galton’s Fallacy” in die Literatur ein.
51
Grundlagen der Regressionsanalyse
R2 = 0.028
R2 = 0.9996
Größe
Größe
190
190
b
b
180
180
170
170
b
b
b
b
b
b
b
160
160
b
b b
150
b b
150
b
140
130
b b
120
b b
b b
b b
b
b
b b
b
b
140
b
b
b
b
130
b
b
120
b b
110
b
b
b
b
b
b
b
110
b
b
b
100
Alter
4
5
6
7
8
9
10
11
12
13
14
15
100
Alter
4
5
6
7
8
9
10
11
12
13
14
15
Tabelle 2.2: Der Zusammenhang zwischen zwei Variablen kann durch eine Regressionsgerade mehr oder weniger gut beschrieben werden.
heitsmaß bei Eins (Abbildung 2.2, linkes Panel); umso schlechter der ‘Fit’ ist, umso
näher liegt es bei Null (Abbildung 2.2, rechtes Panel).
Wir werden das Bestimmtheitsmaß am Ende des Kapitels ausführlich herleiten und
diskutieren, hier sei nur betont, dass das Bestimmtheitsmaß als deskriptives Maß zur
Beurteilung der ‘Güte der Anpassung’ der Regressionsgeraden interpretiert werden
kann.
Kommen wir zurück zum Wichtigen:
Wir haben die Regressionsgerade
Größe = 76.3 + 7.5Alter
bisher ausschließlich dazu benützt, um den Zusammenhang für diese 24 Buben zu
beschreiben.
Sie sagt uns z.B. dass im der der durchschnittliche Zunahme an Körpergröße für
genau diese 24 Buben 7.5 cm pro Jahr betrug. Dies ist eine deskriptive Kennzahl,
ähnlich wie der Mittelwert der Körpergröße, der für diese 24 Buben 155.4167 cm ist
(siehe Abbildung 2.2, rechtes Panel).
Jede Forscherin, die die OLS Formel auf diese 24 Beobachtungen anwendet, wird zu
den exakt gleichen Ergebnissen kommen, in dieser Beschreibung ist also kein Zufallselement enthalten. In diesem Beispiel sind diese 24 sind unsere Grundgesamtheit, die
wir mit Hilfe einer Regressionsgerade nur kompakter beschreiben.
Eine Regressionsgleichung, die den Zusammenhang zwischen zwei Variablen in der
Grundgesamtheit beschreibt, wird Regressionsfunktion der Grundgesamtheit
(‘Population Regression Function’, kurz PRF) genannt.
Eine PRF beschreibt immer den “wahren” Zusammenhang in der Grundgesamtheit,
ist also Teil der deskriptiven Statistik.
Sie werden sich vermutlich schon gefragt haben, was an diesen 24 Buben so besonders ist, dass wir uns für den Mittelwert der Körpergröße und den Mittelwert der
jährlichen Größenzunahme interessieren.
Grundlagen der Regressionsanalyse
52
Richtig – gar nichts! In aller Regel interessieren wir uns nicht für die konkreten
Untersuchungsobjekte, sondern für den allgemeinen Zusammenhang. Wir möchten
eigentlich wissen, wie der Zusammenhang zwischen Alter und Körpergröße generell
für Buben in dieser Altersstufe aussieht. Dies mag auf den ersten Blick wie eine kleine
Spitzfindigkeit erscheinen, aber Vorsicht, dieser feine Unterschied in der Fragestellung ist von großer Bedeutung für alles Folgende, erst hier kommt die schließende
Statistik ins Spiel!
Wenn wir uns für den allgemeinen Zusammenhang interessieren, interpretieren wir
die gleichen 24 Buben nämlich nicht mehr als Grundgesamtheit, die wir nur beschreiben wollen, sondern als Stichprobe aus einer viel größeren Grundgesamtheit, und wir
versuchen aus dieser Stichprobe von 24 Buben auf die viel größere Grundgesamtheit
aller Buben dieser Altersstufe zu schließen!
Erst wenn wir die Daten als Resultat einer Stichprobenziehung interpretieren kommt
ein Zufallselement hinzu, das uns später die Anwendung der Techniken der schließenden Statistik erlauben wird, die uns ihrerseits im übernächsten Kapitel eine Beurteilung der “Verlässlichkeit” der Schätzergebnisse ermöglichen wird.
Tatsächlich werden Regressionsanalysen fast nie zur Beschreibung von Grundgesamtheiten eingesetzt, fast immer versucht man aus den Beobachtungen einer Stichprobe etwas über die Grundgesamtheit zu lernen, bzw. auf Grundlage einer Stichprobe auf die Parameter einer unbeobachtbaren Grundgesamtheit zu schließen.
Diese Unterscheidung zwischen Grundgesamtheit und Stichprobe führt uns weiter
zur Stichprobenregressionsfunktion.
2.3.2
Die Stichprobenregressionsfunktion
(‘Sample Regression Function’, SRF)
Eine Stichprobenregressionsfunktion (SRF) erhält man, wenn man die früher
hergeleiteten OLS-Formel auf Stichprobendaten anwendet mit dem Ziel, eine
möglichst gute Schätzung für die PRF (‘Population Regression Function’ ) zu erhalten.
In dieser Anwendung wird die bekannte OLS-Formel nun OLS-Schätzer (estimator ) genannt, und die Anwendung dieses OLS Schätzers auf Stichprobendaten liefert
uns eine Schätzung (estimation) für die unbekannten Parameter der Grundgesamtheit β0 und β1 .
Wenn wir viele Stichproben ziehen, und aus jeder dieser Stichproben Schätzungen
für β0 und β1 berechnen, so werden wir vermutlich für jede gezogene Stichprobe eine
– hoffentlich nur geringfügig – unterschiedliche Schätzung für die wahren Parameter
der Grundgesamtheit erhalten.
Die aus den Stichproben berechneten Schätzungen für β0 und β1 sind deshalb Zufallsvariablen, während die wahren Parameter β0 und β1 – die die Grundgesamtheit
bestmöglich beschreiben – fixe Zahlen sind, die allerdings in der Regel unbekannt
sind.
Da diese Unterscheidung zwischen Grundgesamtheit und Stichprobe, bzw. zwischen
PRF und SRF, derart wichtig ist, werden wir sie im Folgenden anhand eines umfangreicheren Beispiels ausführlich erläutern.
53
Grundlagen der Regressionsanalyse
Tabelle 2.3: Grundgesamtheit mit 20 Beobachtungen (Obs.): Welcher Zusammenhang besteht zwischen y und x?
Obs.
1
2
3
4
5
6
7
8
9
10
x
1.2
1.3
1.7
1.9
1.9
2.0
2.2
2.4
2.8
2.8
y Stichpr.
0.8
b
2.9
c
0.8
b
0.7
a
3.5
c
3.2
a
2.6
b
3.2
b
3.6
c
1.1
a
Obs.
11
12
13
14
15
16
17
18
19
20
x
3.2
3.3
3.4
3.7
4.1
4.1
4.3
4.4
4.5
4.7
y Stichpr.
1.4
b
2.3
a
2.6
a
2.6
a
3.9
b
2.3
c
2.5
c
3.9
c
4.2
c
4.2
b
y
5
b
4
b
PRF: yi = 1.03 + 0.53xi + ui
b
b
b
3
b
b
b
b
b
b
b
b
b
b
2
b
b
1
b
b
b
0
0
1
2
3
4
5
x
Abbildung 2.9: ‘Population Regression Function’ [local www]
Beispiel: Wir gehen von einer Grundgesamtheit mit insgesamt 20 Beobachtungen
aus. Die Daten sind in Tabelle 2.3 wiedergegeben und in Abbildung 2.9 (inklusive
‘Population Regression Function’ und Störtermen ui ) grafisch dargestellt. Die eingezeichnete Regressionsgerade beschreibt die Daten bestmöglich im Sinne des OLS
Kriteriums.
Wir wollen nun annehmen, eine Forscherin kennt nicht die gesamte Grundgesamtheit, sondern nur eine Stichprobe daraus, zum Beispiel die sechs Beobachtungen, die
in Tabelle 2.3 als Stichprobe “a” gekennzeichnet sind. Die Aufgabe dieser Forscherin
ist, aus diesen 6 Beobachtungen der Stichprobe ‘a’ auf die ‘Population Regression
Function’ (PRF) der Grundgesamtheit (d.h. aller 20 Beobachtungen) zu schließen.
Wenn Sie klug ist wird sie den OLS Schätzer auf die 6 Stichprobenbeobachtungen
anwenden, und erhält als Ergebnis eine ‘Sample Regression Function’ (SRF), die in
Abbildung 2.10 dargestellt ist.
54
Grundlagen der Regressionsanalyse
Zufalls-Stichprobe “a” (N a = 6)
y
5
bc
4
bc
PRF: yi = 1.03 + 0.53xi + ui
bc
bc
bcbc
3
bc
bc
bc
bc
bcbc
bc
bcbc
bcbc
SRF 1: yia = 0.85 + 0.43xi + eai
bc
bc
2
i
4
6
10
12
13
14
bc
bcbc
1
bc
bc
bcbc
0
0
1
2
3
4
5
x
1.9
2.0
2.8
3.3
3.4
3.7
y
0.7
3.2
1.1
2.3
2.6
2.6
S
a
a
a
a
a
a
x
Abbildung 2.10: ‘Sample Regression Function’ 1
Man beachte, dass die Störterme ui der PRF nicht gleich groß sind wie die Abweichungen der Beobachtungspunkte von der SRF, schließlich unterscheiden sich PRF
und SRF. Um diesen Unterschied zu betonen werden wir im Folgenden die Abweichungen der Stichprobenbeobachtungen von der SRF als Residuen bezeichnen.
Die Residuen werden aus der SRF berechnet und heißen Residuen, weil sie gewissermassen ‘übrig bleiben’, wenn man den erklärten (systematischen) Teil von y vom
beobachteten y abzieht
ei = yi − ŷi = yi − b0 − b1 xi
Da unsere Forscherin die PRF nicht kennt, sind für sie auch die Störterme der
Grundgesamtheit so unbekannt wie die wahren Parameter β0 und β1 der PRF. Sie
kann aber aus den Stichprobendaten die SRF berechnen, und kann deshalb für die
Stichprobendaten auch die Residuen berechnen.
Gehen wir weiter und nehmen wir an, eine andere Forscherin zieht eine unterschiedliche Stichprobe ‘b’ aus der gleichen Grundgesamtheit, und schätzt aus dieser Stichprobe ‘ b’ durch Anwendung des OLS Schätzers ebenfalls eine SRF. Da die Stichprobe ‘b’ andere Daten enthält als Stichprobe ‘a’ wird sich natürlich auch die SRF
der ersten Forscherin von der SRF der zweiten Forscherin unterscheiden. Die SRF
der zweiten Forscherin ist in Abbildung 2.11 dargestellt.
Die SRF einer dritten Stichprobenziehung “c” ist schließlich in Abbildung 2.12 wiedergegeben, und natürlich unterscheidet sich auch diese von den beiden vorhergehenden ‘Sample Regression Functions’.
Abbildung 2.13 zeigt zusammenfassend noch einmal die ‘Population Regression
Function’ und die drei unterschiedlichen ‘Sample Regression Functions’, die aus den
unterschiedlichen Stichproben geschätzt wurden.
Man beachte: die ‘Sample Regression Functions’ (SRF) stellen Schätzungen für den
(normalerweise unbeobachtbaren) Zusammenhang in der Grundgesamtheit dar. Ein
wesentlicher Teil der ökonometrischen Arbeit besteht darin, aus Stichprobendaten
auf die zugrundeliegende ‘Population Regression Function’ zu schließen.
55
Grundlagen der Regressionsanalyse
y
5
Zufalls-Stichprobe “b” (N b = 7)
SRF 2: yib = −0.12 + 0.91xi + ebi
rsbc
bc
4
rsbc
bc
bc
bc
3
PRF: yi = 1.03 + 0.53xi + ui
bc
rsbc
bc
rsbc
bc
bc
bc
bc
bc
2
i
1
3
7
8
11
15
20
rsbc
1
bc
rsbc
rsbc
bc
0
0
1
2
3
4
5
x
1.2
1.7
2.2
2.4
3.2
4.1
4.7
y
0.8
0.8
2.6
3.2
1.4
3.9
4.2
S
b
b
b
b
b
b
b
x
Abbildung 2.11: ‘Sample Regression Function’ 2
Zufalls-Stichprobe “c” (N c = 7)
y
5
bc
bc
PRF: yi = 1.03 + 0.53xi + ui
rs
4
bc
rs
bc
bc
rs
bc
SRF 3: yic = 3.1 + 0.05xi + eci
rs
bc
3
bc
rs
bc
bc
bc
bc
rs
bc
bc
rs
bc
2
i
2
5
9
16
17
18
19
bc
1
bc
bc
bc
bc
0
0
1
2
3
4
5
x
Abbildung 2.12: ‘Sample Regression Function’ 3
x
1.3
1.9
2.8
4.1
4.3
4.4
4.5
y
2.9
3.5
3.6
2.3
2.5
3.9
4.2
S
c
c
c
c
c
c
c
56
Grundlagen der Regressionsanalyse
y
5
SRF 2: yib = −0.12 + 0.91xi + ebi
b
rs
4
rsb
rsb
PRF: yi = 1.03 + 0.53xi + ui
rs
b
b
rs
rs
b
bc
3
SRF 3: yic = 3.1 + 0.05xi + eci
rsb
rs
b
bc
SRF 1: yia = 0.85 + 0.43xi + eai
b
b
rs
bc
rs
bc
rsb
2
rsb
bc
1
rsb
rsb
bc
0
0
1
2
3
4
5
x
Abbildung 2.13: ‘Population und ‘Sample Regression Functions’
Grundgesamtheit
yi = β0 + β1 xi + ui
Stichprobe
y i = b0 + b1 x i + e i
ui ∼ N (0, σ 2 )
Abbildung 2.14: Grundgesamtheit und Stichprobe
Notation: Da die Unterscheidung zwischen Grundgesamtheit und Stichprobe,
bzw. PRF und SRF, derart wichtig ist, führen wir dafür unterschiedliche Symbole
ein.
Im Folgenden werden wir Parameter der Grundgesamtheit in aller Regel mit griechischen Buchstaben bezeichnen, die Schätzungen dafür aus der Stichprobe mit lateinischen Buchstaben.
Eine Ausnahme von dieser Regel machen wir bei den Störtermen, bzw. Residuen,
wo wir die (unbeobachtbaren) Störterme der Grundgesamtheit mit ui und die aus
der Stichprobe berechneten (beobachtbaren) Residuen mit ei bezeichnen.
Ein Dach über einer Variablen drückt jeweils aus, dass es sich um einen geschätzten
Wert handelt (ŷi ist der ‘gefittete’ von yi ).
Man bezeichnet übrigens die ui der Grundgesamtheit als Störterme, da sie gewissermaßen den Zusammenhang zwischen den y und x stören, und die aus der Stichprobe
berechneten ei als Residuen, da sie als Differenz zwischen beobachteten Werten yi
und den gefitteten Werten ŷi = b0 + b1 xi berechnet werden, d.h. ei = yi − b0 − b1 xi .
57
Grundlagen der Regressionsanalyse
Für den unbeobachtbaren Zusammenhang in der Grundgesamtheit (die population
regression function PRF) schreiben wir also
yi = β0 + β1 xi + ui
und für den aus der Stichprobe berechneten Zusammenhang (die sample regression
function SRF)8
yi = b0 + b1 xi + ei
Natürlich können wir die bereits für die ‘Population Regression Function’ hergeleiteten OLS-Formeln auch für die Berechnung der ‘Sample Regression Functions’
verwenden, wir setzen einfach die Stichprobendaten in die Formeln ein. Deshalb erhalten wir als Ergebnis nicht den Zusammenhang in der Grundgesamtheit, sondern
Schätzer für die Parameter β1 und β0 der ‘Population Regression Function’ (PRF),
das heißt die Parameter der Stichprobenregressionsfunktion b1 und b0 .
Die Herleitungen der Formeln für die Schätzer b1 und b0 erfolgt vollkommen parallel
wie jene für die Berechnung der Parameter β1 und β0 der PRF (siehe Seite 44),
tatsächlich wird ja nur die alte OLS Formel auf die Stichprobendaten angewandt.
Aber um dies zu verdeutlichen passen wir die Notation an, anstelle der Störterme ui
verwenden wir die Stichproben-Residuen ei , und als Ergebnis erhalten wir die OLS
Schätzer b1 und b0 . Da die Rechenschritte völlig gleich wie die zur Herleitung der
PRF sind (siehe Seite 44) wollen wir hier nur kurz den Ansatz wiederholen:
Für die Residuen
ei = yi − ŷi = yi − b0 − b1 xi
folgen aus der Minimierung
min
b0 ,b1
die Schätzer
b1 =
N
X
e2i = min
i=1
Cov(y, x)
Var(x)
b0 ,b1
X
(yi − b0 − b1 xi )2
und
b0 = ȳ − b1 x̄
Aber man beachte, dass die aus der Stichprobe berechneten Parameter b0 und b1 im
Gegensatz zu den Parametern der PRF β0 und β1 Zufallsvariablen sind!
Mit Hilfe der geschätzten Parameter b0 und b1 können die Residuen ei berechnet
werden, ei = yi − b0 − b1 xi . Daraus folgt, dass die Residuen ‘kein eigenes Leben’
haben, ihr Wert hängt unmittelbar von den geschätzten Parametern b0 und b1 ab!
Die die Koeffizienten b0 und b1 Zufallsvariablen sind, sind selbstverständlich auch
die aus der Stichprobe berechneten Residuen ei stochastisch, also Zufallsvariablen.
Deshalb haben die aus einer Stichprobe geschätzten Koeffizienten b0 und b1 sowie
die Stichproben-Residuen ei ebenso wie die Störterme der Grundgesamtheit ui – wie
alle Zufallsvariablen – eine Verteilung.9
8
In der Literatur wird für die Parameter der SRF häufig anstelle der lateinischen Buchstaben
ein Dach über die griechischen Buchstaben gesetzt, d.h. z.B. β̂1 anstelle von b1 , und für den
Störterm der Grundgesamtheit wird oft εi verwendet, für das Residuum ε̂i . Eine in der Literatur
gebräuchliche Schreibweise für die SRF ist also yi = β̂0 + β̂1 xi + ε̂i .
9
Häufig wird angenommen, dass die Störterme der Grundgesamtheit ui normalverteilt sind. Wir
werden später beweisen, dass in diesem Fall die geschätzten Parameter b0 und b1 t-verteilt sind,
aber dies spielt im Moment noch keine Rolle.
Grundlagen der Regressionsanalyse
58
Diese Verteilungen von b0 und b1 sind sogenannte Stichprobenkennwertverteilungen
(‘sampling distributions’ ), und können mehr oder weniger einfach ermittelt werden.
Darauf beruhen die statistischen Auswertungen des Regressionsmodells. Die zentrale
Grundidee der Stichprobenkennwertverteilungen kann am einfachsten mit Hilfe einer
Monte Carlo Simulation veranschaulicht werden.
2.3.3
Monte Carlo Simulationen und ‘Daten Generierende
Prozesse’ (DGP)
Erinnern wir uns, wir haben im letzten Abschnitt drei verschiedene Stichproben ‘a’,
‘b’ und ‘c’ aus einer Grundgesamtheit gezogen, und aus jeder dieser drei Stichproben
eine SRF (bzw. unterschiedliche b0 und b1 ) berechnet. Dies könnten wir natürlich
öfter als drei Mal machen.
Wenn wir dies viel öfter machen (d.h. sehr viele Stichproben ziehen), daraus jeweils
die SRF berechnen, und die Arbeit den Computer machen lassen, so nennt man dies
eine Monte Carlo Simulation.
Vorsicht: In der Realität haben wir üblicherweise nur eine Stichprobe zur Verfügung,
aus der wir eine Schätzung für die Parameter der Grundgesamtheit berechnen
können. Eine Monte Carlo Simulation können wir als eine Art Gedankenexperiment
interpretieren, das es uns erlaubt, ein intuitives Verständnis für Stichprobenkennwertverteilungen (‘sampling distributions) zu erhalten. Der Grund, warum wir hier
Monte Carlo Simulationen einführen, ist also eher pädagogischer Natur, nicht um
damit Schätzer zu berechnen.
Konkret erzeugt man sich für einer Monte Carlo Simulation eine Grundgesamtheit
mit vorgegebenen Eigenschaften (z.b. einem bekannten β1 ), zieht daraus sehr viele
Stichproben, und berechnet aus jeder Stichprobe den interessierenden Parameter
(z.B. b1 ). Aus den vielen Parameterschätzungen kann man anschließend z.B. Mittelwert und Varianz des Parameters berechnen, und schließlich vergleichen, wie gut der
Mittelwert der Stichprobenschätzungen mit dem bekannten Parameter der Grundgesamtheit übereinstimmt.
Da die Arbeit der Computer durchzuführen soll muss man dem zuerst Computer
Anweisungen geben, d.h. ihn programmieren. Die prinzipielle Vorgangsweise ist in
Abbildung 2.15 dargestellt.
Der im Appendix wiedergegebene EViews Programmcode tut genau dies. Er zieht
aus der Grundgesamtheit der Daten von Tabelle 2.3 (Seite 53) 10,000 Stichproben mit jeweils 10 Beobachtungen (N = 10), berechnet daraus jeweils eine Sample
Regression Function, woraus man 10,000 Berechnungen von b1 erhält. Diese 10,000
unterschiedlichen Realisationen von b1 können z.B. in einem Histogramm dargestellt
werden, siehe Abbildung 2.16.
Der zentrale Punkt dabei ist die Idee der wiederholten Stichprobenziehungen (repeated sampling), aus der die Stichprobenkennwertverteilungen (sampling distributions)
folgen. Für Stichprobenkennwertverteilungen kann man wie für jede andere Verteilung auch Erwartungswert und Varianz berechnen, die wir später unter anderem für
Hypothesentests benötigen werden.
59
Grundlagen der Regressionsanalyse
Daten der Grundgesamtheit
einlesen oder DGP festlegen
Spezifikation der PRF,
weitere Vorarbeiten (Vektoren anlegen, etc.)
wiederhole Vorgang sehr oft (z.B. 10,000 Mal)
Beginn
Schleife
Ziehe eine
Zufallsstichprobe
der Größe N
Berechne aus
dieser Stichprobe
den Parameter
b1 der SRF
Schreibe den geschätzten
Parameter b1 in ein
Element von Vektor VB
Ende
Schleife
Zeichne Histogramm
von Vektor VB
Abbildung 2.15: Wiederholte Stichprobenziehungen aus Grundgesamtheit (Monte
Carlo Simulation).
60
Grundlagen der Regressionsanalyse
Histogramm von b1
(N = 10, 10000 Wiederholungen)
1,400
Series: B1
Sample 1 10000
Observations 10000
1,200
1,000
800
600
400
200
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
0.506045
0.520003
2.417245
-0.796610
0.311739
-0.140627
3.632459
Jarque-Bera
Probability
199.6287
0.000000
0
-0.5
-0.0
0.5
1.0
1.5
2.0
2.5
Abbildung 2.16: Aus den Daten in Tabelle 2.3 wurden 10,000 Stichproben der
Größe 10 (mit Zurücklegen) gezogen, jeweils der Parameter b1 der
SRF berechnet, und ein Histogramm dieser 10,000 Schätzungen
für β1 gezeichnet. Der ‘wahre’ Parameter der Grundgesamtheit
ist β1 = 0.53031
Stichprobenkennwertverteilungen haben meist (d.h. unter wenig strengen Annahmen) zwei ganz erstaunliche Eigenschaften, die bereits in Abbildung 2.16 ersichtlich
sind:
1. Offensichtlich liegt der Mittelwert der vielen Schätzungen sehr nahe beim ‘wahren’ Wert der Grundgesamtheit. Dies ist kein Zufall, sondern eine Folge des
Gesetzes der großen Zahl. Das Gesetz der großen Zahl besagt vereinfacht
gesprochen, dass unter sehr allgemeinen Bedingungen der Mittelwert einer
großen Zahl von Zufallsvariablen sich mit steigendem Stichprobenumfang an
den wahren Wert der Grundgesamtheit annähert.
2. Außerdem erkennt man, dass die Verteilung der Schätzwerte einer Glockenform ähnelt. Auch dies ist kein Zufall, sondern eine Folge des Zentralen
Grenzwertsatzes. Der zentrale Grenzwertsatz besagt vereinfacht, dass die
Summe einer großen Zahl von unabhängigen, identisch verteilten, zentrierten
und normierten Zufallsvariablen gegen die Standardnormalverteilung konvergiert, unabhängig von der Verteilung der Grundgesamtheit. Dies erklärt die
Sonderstellung der Normalverteilung.
Im nächsten Kapitel werden wir zeigen, dass der Erwartungswert und die Varianz
der OLS Regressionskoeffizienten auch ohne Monte Carlo Simulationen auf Grundlage theoretischer Überlegungen sehr allgemein und einfach berechnet werden können.
Zuvor wollen wir allerdings noch kurz die Idee von ‘data generating processes’ streifen.
Grundlagen der Regressionsanalyse
61
Daten Generierende Prozesse (DGP) Wir haben vorhin die Idee von Monte
Carlo Simulationen anhand des Urnenmodells eingeführt. Tatsächlich stehen ÖkonometrikerInnen allerdings nur höchst selten irgendwelche Töpfe mit Grundgesamtheiten zur Verfügung, aus denen sie Zufallsziehungen vornehmen können. Die Vorstellung der Ökonomen geht eher dahin, dass die beobachteten Daten durch die der
Natur und Ökonomie zugrunde liegenden Gesetzmäßigkeiten erzeugt wurden.
Deshalb sprechen ÖkonometrikerInnen selten von der Grundgesamtheit, sondern
meist von datengenerierenden Prozessen (Data Generating Processes, kurz
DGP), in dem die grundlegenden Annahmen des ökonometrischen Modells zusammengefasst werden.
Unter einem datengenerierenden Prozess (DGP) stellt man sich meist eine Art imaginäre Maschine oder einen Mechanismus vor, der die beobachteten Daten erzeugt
hat. Während beim Urnenmodell häufig von einer endlichen Grundgesamtheit ausgegangen wird, hat man bei datengenerierenden Prozessen üblicherweise die Vorstellung einer unendlich großen Grundgesamtheit im Hinterkopf.
Ein typischer (und sehr einfacher) DGP wäre z.B.
yi
E(ui )
Var(ui )
ui
=
=
=
∼
β0 + β1 xi + ui
0
σ2
alle ui sind unabhängig und identisch verteilt (iid) .
für i = 1, 2, . . . , N. Dabei kommt in der ersten Zeile die Art des vermuteten Zusammenhangs zwischen x und y zum Ausdruck, und die folgenden Zeilen enthalten
Annahmen über die Störterme. Diese Annahmen über die Störterme werden häufig
kompakter geschrieben als
ui ∼ iid(0, σ 2 )
wobei das Symbol ∼ ‘verteilt’ bedeutet und iid für independent and identically
distributed steht (also unabhängig und identisch verteilt). In der Schreibweise ui ∼
iid(0, σ 2 ) gibt der erste Wert in Klammern den Erwartungswert an (in diesem Fall
also E(ui ) = 0), und der zweite Wert die Varianz (d.h. Var(ui ) = σ 2 ).
Dieser datengenerierende Prozess impliziert also eine lineare Beziehung zwischen y
und x, einen Störterm ui mit Erwartungswert Null und Varianz σ 2 , sowie dass alle
ui aus der gleichen Verteilung gezogen werden, und dass die einzelnen ui voneinander statistisch unabhängig sind. Wir werden im Laufe der Veranstaltung natürlich
komplexere datengenerierende Prozesse untersuchen. Keine Sorge, wenn Ihnen die
Bedeutung der einzelnen Annahmen derzeit noch nicht klar ist, das Verständnis wird
im Laufe der Veranstaltung wachsen.
Hier wollen wir nur noch kurz festhalten, dass der datengenerierende Prozess in der
Ökonometrie weitgehend die Rolle spielt, die die Grundgesamtheit in der klassischen
Statistik spielt.
Tatsächlich wird bei Monte Carlo Simulationen fast immer von einem genau spezifizierten DGP ausgegangen, und nicht von (nur umständlich zu programmierenden)
Zufallsziehungen aus einer abzählbaren Grundgesamtheit. Dies ist theoretisch plausibler und vereinfacht die Programmierung.
Abbildung 2.17 zeigt noch einmal das Grundprinzip einer sehr einfachen Monte
Carlo Simulation.
62
Grundlagen der Regressionsanalyse
Allgemein:
Beispiel:
Wähle das ‘wahre’ Modell
↓
yi = β0 + β1 xi + ui
↓
Wähle
Daten
für x
Wähle
Parameterwerte
Wähle
Verteilung
für u
x = 1, 2,
3, . . . , 25
β0 = 2
β1 = 0.5
u ist iid &
u ∼ N (0, 1)
↓
‘ökonometrisches’ Modell
↓
yi = 2 + 0.5xi + ui
↓
. ......................................
↓
..........................................
Berechne Werte für y
↓
Berechne Werte für y
↓
P
P
b1 = i ẍi ÿi / i ẍ2i
Schätze Parameter b1
. ......................................
↓
Wiederhole die letzten
zwei Schritte ‘sehr oft’
für unterschiedliche u
und approximiere
Stichprobenverteilung
..........................................
↓
Histogramm von b1 für 10,000 Ziehungen
wenn β1 = 0.5
900
800
700
600
500
400
300
200
100
0
0.35
0.40
0.45
0.50
0.55
0.60
Abbildung 2.17: Das Grundprinzip einer Monte Carlo Simulation
0.65
63
Grundlagen der Regressionsanalyse
Exkurs: Erwartungswert, Mittelwert und Varianzen
Der Erwartungswert E(X) einer Zufallsvariable X ist jener Wert, den man bei oftmaliger Wiederholung des zugrundeliegenden Zufallsexperiments (→ ‘repeated sampling’ ) erwarten würde. Der Erwartungswert bezieht sich also auf die zugrunde liegende Grundgesamtheit.
Manchmal werden die Begriffe Erwartungswert und ‘Mittelwert’ etwas schlampig
synonym verwendet, aber dies ist genau genommen falsch. Der Mittelwert bezieht
sich auf eine konkrete Stichprobe, nicht auf das Ergebnis wiederholter Stichprobenziehungen, er dient häufig als ein Schätzer für den Parameter µ der Grundgesamtheit.
Wenn f (x) die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariable X bezeichnet, dann ist der Erwartungswert E(X) definiert als
X
E(X) ≡
xi f (xi )
i
wobei i über alle möglichen Ausprägungen von X geht, und die Wahrscheinlichkeitsfunktion angibt, mit welcher Wahrscheinlichkeit ein Ereignis eintritt, also
f (x) = P (X = x).
Die Varianz wird allgemein mit Hilfe von Erwartungswerten definiert:
Var(X) ≡ E [X − E(X)]2
Für den einfachsten Fall einer endlichen gleichverteilten Zufallsvariablen ist die
Wahrscheinlichkeitsfunktion
1
f=
N
wobei N die Anzahl der möglichen Ausprägungen von X bezeichnet, ergeben sich
die üblichen Ausdrücke für Mittelwert
X
1 X
E(X) ≡
xi f (xi ) =
xi = X̄
N
i
i
und Varianz
Var(X) = E [X − E(X)]2
2
= E X − X̄
(s.o.)
X
2
=
xi − X̄ f (x)
i
=
2
1 X
xi − X̄
N i
Man beachte, dass dies die Varianz der Zufallsvariable X ist, kein Schätzer für eine
Varianz der Grundgesamtheit!
¶
64
Grundlagen der Regressionsanalyse
Exkurs: Bedingte Wahrscheinlichkeiten und bedingte Erwartungswerte
Zur Vereinfachung gehen wir von zwei diskreten Zufallsvariablen X und Y aus (wie
in der Statistik üblich bezeichnen hier Großbuchstaben die Zufallsvariable und Kleinbuchstaben die Ausprägung einer Zufallsvariable).
Zum Beispiel könnten wir uns für die politische Gesinnung in Abhängigkeit vom
Geschlecht interessieren. Dem Geschlecht X ordnen wir die Ausprägungen X = 1
für weiblich und X = 0 für männlich zu, und der politischen Gesinnung Y ordnen
wir Y = 0 für Lila, Y = 1 für Pink und Y = 2 für Andere zu.
Die bivariate Wahrscheinlichkeitsverteilung f (x, y) sei zum Beispiel
Werte von Y
Lila
Pink
Andere
0
1
2
f (x)
Werte von X
männl. weibl.
0
1
0.1
0.2
0.4
0.1
0.0
0.2
0.5
0.5
f (y)
0.3
0.5
0.2
1
Die Wahrscheinlichkeit, dass eine Frau Pink wählt, beträgt z.B. 0.1, d.h. P (Y =
1, X = 1) = 0.1. f (x) und f (y) bezeichnet die Randwahrscheinlichkeiten.
Die Randwahrscheinlichkeit von Y ist z.B. (für I mögliche Ausprägungen von
X)
I
X
f (y) = P (Y = y) =
P (X = xi , Y = y)
i=1
Die bedingte Wahrscheinlichkeit von Y , gegeben X = x ist
P (Y = y|X = x) =
P (X = x, Y = y)
P (X = x)
bzw. einfacher f (y|x) =
f (x, y)
f (x)
Die Wahrscheinlichkeit, dass eine Person Lila wählt, gegeben diese Person ist ein
Mann, beträgt z.B. P (Y = 0|X = 0) = 0.1/0.5 = 0.2 oder 20%.
Zwei Zufallsvariablen sind stochastisch unabhängig, wenn
P (Y = y, X = x) = P (Y = y) P (X = x) bzw. f (y, x) = f (y)f (x)
oder alternativ, wenn f (y|x) = f (y), d.h. X enthält keine Information über Y .
Der bedingte Erwartungswert von Y , gegeben X, ist schließlich
E(Y |X = x) =
J
X
j=1
yj P (Y = yj , X = x) =
J
X
yj f (yj |x)
j=1
Zum Beispiel ist E(Y |X = 0) = 0 × 0.1 + 1 × 0.4 + 2 × 0.0 = 0.4, oder E(Y |X =
1) = 0.5, oder E(X|Y = 1) = 0.1.
¶
65
Grundlagen der Regressionsanalyse
Tabelle 2.4: Preise von Gebrauchtautos der Marke Toyota Avensis mit unterschiedlichem Alter (in 1000 Euro)
i
Preis
1
20.0
2
19.7
3
19.3
4
19.0
5
18.9
6
18.6
7
17.8
8
17.7
9
16.9
10 15.6
11 14.5
12 17.2
13 16.9
14 15.9
15 15.5
16 15.0
2.3.4
Alter
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
i Preis
17 14.5
18 14.0
19 15.3
20 14.0
21 13.3
22 12.5
23 12.5
24 11.5
25 10.0
26 11.9
27 11.1
28 10.5
29 10.2
30 9.0
31 6.7
Alter
3
3
4
4
4
4
4
4
4
5
5
5
5
5
5
Regressionsmodell und bedingte Erwartungswerte
Da die Regressionskoeffizienten der Stichprobenregressionsfunktion (SRF) selbst Zufallsvariablen sind und eine Stichprobenkennwertverteilung haben, können wir Mittelwert und Varianz dieser Zufallsvariablen berechnen. Dies werden wir im nächsten
Kapitel tun.
In diesem Abschnitt werden wir noch zeigen, dass die mit Hilfe der SRF berechneten
‘gefitteten’ Werte ŷ als bedingte Erwartungswerte von y interpretiert werden können.
Zur Erinnerung, der bedingte Erwartungswert einer diskreten Zufallsvariable Y (mit
I Ausprägungen) ist definiert als
E(Y |X = x) =
I
X
yi f (yi |X = x)
i=1
wobei f (y|X = x) die bedingte Wahrscheinlichkeitsfunktion ist (siehe statistischen
Appendix).
Um dies zu veranschaulichen kehren wir zu unserem Auto-Beispiel aus dem 1. Kapitel zurück. Tabelle 2.4 zeigt die Daten.
Um die Idee der bedingten Erwartungswerte zu veranschaulichen stellen wir die Daten von Tabelle 2.4 in etwas anderer Form dar, nämlich geordnet nach dem Alter
der Autos (siehe Tabelle 2.5).
Wir haben z.B. 5 Beobachtungen für Autos, die
P ein Jahr alt sind; der Mittelwert
für den Preis aller einjährigen Autos 1/5 × (Preise aller einjährigen Autos) =
19.4. Dies können wir für jede Altersgruppe wiederholen und erhalten die bedingten
66
Grundlagen der Regressionsanalyse
Tabelle 2.5: Preise von Gebrauchtautos mit unterschiedlichem Alter (in 1000 Euro).
gebrauchte
Autos
Preise
(y)
Summe
Alter in Jahren (x)
2
3
4
5
18.6 17.2 15.3 11.9
17.8 16.9 14.0 11.1
17.7 15.9 13.3 10.5
16.9 15.5 12.5 10.2
15.6 15.0 12.5 9.0
14.5 14.5 11.5 6.7
14.0 10.0
96.9 101.1 109.0 89.1 59.4
1
20.0
19.7
19.3
19.0
18.9
Tabelle 2.6: Häufigkeiten als Wahrscheinlichkeiten (Daten von Tabelle 2.5)
gebrauchte
Autos
Bedingte
Wahrscheinlichkeiten:
f (y|X = xi )
Alter in Jahren (x)
1 2 3 4
5
1
5
1
5
1
5
1
5
1
5
1
6
1
6
1
6
1
6
1
6
1
6
1
7
1
7
1
7
1
7
1
7
1
7
1
7
1
7
1
7
1
7
1
7
1
7
1
7
1
7
1
6
1
6
1
6
1
6
1
6
1
6
Grundlagen der Regressionsanalyse
67
Mittelwerte, aus denen einfach der durchschnittliche Wertverlust pro Jahr berechnet
werden kann.
Tabelle 2.6 zeigt die Häufigkeiten in der Stichprobe, wie sie etwa in einem Histogramm abgebildet werden, d.h. die empirische Verteilung. In Tabelle 2.7 wird diese
Information für die Berechnung der bedingten Mittelwerte verwendet.
Wenn die Wahrscheinlichkeiten in Tabelle 2.6 für die Grundgesamtheit gelten
würden, wäre dies eine Wahrscheinlichkeitsfunktion. Wenn man sich auf eine theoretische Verteilung bezieht (auf die Verteilung einer Grundgesamtheit), spricht man
üblicherweise vom Erwartungswert.
Mittelwerte werden auf Grundlage der empirischen Verteilung einer Stichprobe berechnet, Erwartungswerte hingegen auf Grundlage der theoretischen Verteilung einer
Grundgesamtheit. Allerdings sind hier viele ÖkonometrikerInnen etwas schlampig im
Sprachgebrauch.
gebrauchte
Autos
P
y
Pi i
i yi f (yi |X = x)
yi f (yi |X = 1)
20.0
1/5
19.7
1/5
19.3
1/5
19.0
1/5
18.9
1/5
96.9
19.4
yi
18.6
17.8
17.7
16.9
15.6
14.5
101.1
16.9
Preise
f (yi |X = 2)
1/6
1/6
1/6
1/6
1/6
1/6
nach Alter in Jahren
yi f (yi |X = 3)
17.2
1/7
16.9
1/7
15.9
1/7
15.5
1/7
15.0
1/7
14.5
1/7
14.0
1/7
109.0
15.6
(x)
yi f (yi |X = 4)
15.3
1/7
14.0
1/7
13.3
1/7
12.5
1/7
12.5
1/7
11.5
1/7
10.0
1/7
89.1
12.7
yi f (yi |X = 5)
11.9
1/6
11.1
1/6
10.5
1/6
10.2
1/6
9.0
1/6
6.7
1/6
Grundlagen der Regressionsanalyse
Tabelle 2.7: Bedingte Mittelwerte (Daten von Tabelle 2.5)
59.4
9.9
68
69
Grundlagen der Regressionsanalyse
Auf Grundlage der Informationen
aus Tabelle 2.7 können wir die bedingten ErwarP
tungswerte E(Y |X = x) = i yi f (yi |X = x) berechnen.
Der bedingte Erwartungswert10 für den Preis einjähriger Autos ist also
1
1
1X
1
E [Preis × f (Preis|Alter = 1)] = 20.0× +19.7× +· · ·+18.9× =
yi = 19.4
5
5
5
5
In Tabelle 2.6 kann man sehen, dass der ‘Durchschnittspreis’ vom ersten auf das
zweite Jahr um 2500 Euro (von 19.400 auf 16.900 Euro) fällt, nach einem weiteren
Jahr um 1300 Euro auf 15.600 Euro usw.
Diese bedingten Mittelwerte liegen normalerweise nicht auf einer Geraden. Abbildung
2.18 zeigt dies, die bedingten Mittelwerte (dargestellt als Kreise) liegen zwar nahe
bei, aber nicht auf der Regressionsgerade.
Aber wenn wir die (manchmal unrealistische) Annahme treffen, dass der Durchschnittspreis mit einer konstanten Rate fällt – die bedingten Erwartungswerte also
auf einer Geraden liegen – können wir dies gewissermaßen erzwingen. Genau dies
passiert bei der OLS Methode, denn bei der Minimierung der Quadratsummen der
Residuen haben wir implizit eine lineare Funktionsform yi = β0 +β1 xi +ui unterstellt
min
b0 ,b1
N
X
i=1
e2i = min
b0 ,b1
X
(yi − b0 − b1 xi )2
Abbildung 2.18 zeigt die Auto-Daten mit der dazugehörigen Regressionsgeraden.
Wieder muss man darauf achten, ob man sich bei der Interpretation auf die Stichprobe oder die Grundgesamtheit bezieht. Wenn man den bedingten Mittelwert der
Stichprobe als ‘Schätzung’ für den ‘wahren’ (aber unbeobachtbaren) Mittelwert der
Grundgesamtheit interpretiert spricht man vom bedingten Erwartungswert.
Die ‘gefitteten’ Werte auf der Regressionsgeraden yˆi ≡ E(y|xi ) können also als
bedingte Erwartungswerte 11 interpretiert werden.
Diese bedingten Erwartungswerte sind natürlich eine Funktion der xi (in unserem
Autobeispiel also vom Alter). Wenn E(y|xi ) linear in den xi ist (wie in den Abbildungen oben) gilt wie vorher
yi = β0 + β1 xi +ui
| {z }
E(y|xi )
Wie bereits mehrmals erwähnt gilt der Zusammenhang E(y|xi ) = yˆi nur im Durchschnitt, nicht für eine einzelne Beobachtung (in unserem Fall Auto). Die Abweichung
des Preises eines spezifischen Autos von dem bedingten Erwartungswert ist natürlich
der Störterm (error term):
yi = E(y|xi ) + ui
= ŷi + ui
10
Wenn man die Daten in Tabelle 2.6 als empirische Verteilung interpretiert bezeichnet man
dieselbe Zahl als bedingten Mittelwert.
11
Vereinfacht ist der Erwartungswert einer Zufallsvariable jener Wert, von dem man sich “erwartet”, dass er sich bei einer oftmaligen Wiederholung des Experiments durchschnittlich ergibt.
70
Grundlagen der Regressionsanalyse
Preis
22
bb
bcbb
20
18
16
b
b
bc
b
b
b
b
b
c
b
b
b
b
b
b
12
b
b
c
bb
b
10
b
14
b
b
b
cb
b
b
8
b
6
4
0
1
2
3
4
5
Alter
Abbildung 2.18: Autopreise als bedingte Erwartungswerte (dargestellt als Kreise)
wobei die ui wieder die ‘wahren’ – aber unbeobachtbaren – Störterme der Grundgesamtheit sind.
Wir werden in den folgenden Kapiteln häufig annehmen, dass der stochastische Teil
von yi , d.h. die Störterme ui normalverteilt sind, wie dies in Abbildung 2.19 zum
Ausdruck kommt. Abbildung 2.19 zeigt die Regressionsgerade in der Grundebene
und die Wahrscheinlichkeiten f (y|X = x) auf der Höhenachse.
Abbildung 2.20 zeigt den gleichen Zusammenhang für unser Auto-Beispiel, wobei wir
uns vorstellen müssen, dass die Höhenachse mit den Wahrscheinlichkeiten senkrecht
auf das Papier steht, d.h. aus dem Papier herausragt.
Zusammenfassend halten wir noch einmal fest, dass die Parameter der Grundgesamtheit β0 und β1 deterministische Größen sind, d.h. keine Zufallsvariablen! Die
Regressionsfunktion der Grundgesamtheit (‘Population Regression Function’) ist ein
Konzept der deskriptiven Statistik, selbst wenn die ui stochastisch sind.
Das Zufallselement kommt erst hinzu, wenn wir aus einer Stichprobe auf eine unbekannte Grundgesamtheit schließen wollen. Für die statistische Beurteilung solcher
induktiver Schlüsse ist die Idee der wiederholten Stichprobenziehungen (‘reapeated
sampling’) essentiell.
Aber bevor wir uns in den nächsten Kapiteln ausführlicher mit der schließenden Statistik beschäftigen, kommen wir zurück auf eine sehr bekannte und wichtige deskriptive Kennzahl, die etwas über die ‘Güte der Anpassung’ (fit) der Regressionsgleichung aussagt, nämlich das Bestimmtheitsmaß R2 . Um das Bestimmtheitsmaß her-
71
Grundlagen der Regressionsanalyse
f (y|x)
f (y|x = 0)
y
bc
bc
f (y|x = 1)
bc
bc
bc
bc
0
bc
f (y|x = 2)
ui
bc
bc
1
f (y|x = 3)
bc
bc
2
bc
bc
bc
bc
E(y|x)
3
x
Abbildung 2.19: Bedingte Erwartungswerte und Verteilung von y für gegebene x.
[local, www]
Preis
y
22
20
b
b
b
bb
b
18
bb
b
b
b
16
b
b
b
b
b
b
b
b
14
b
b
b
12
b
b
b
b
10
b
b
b
8
b
6
4
0
1
2
3
4
5 Alter x
Abbildung 2.20: Autopreise als bedingte Erwartungswerte
72
Grundlagen der Regressionsanalyse
zuleiten benötigen wir einige Resultate, die sich auch in anderen Zusammenhängen
als nützlich erweisen werden.
2.4
Einige nützliche Eigenschaften von OLS
Schätzern
Aus der OLS ‘Mechanik’ folgen einige wichtige Implikationen, die uns später immer
wieder begegnen werden. Bevor wir näher darauf eingehen ein wichtiger Hinweis zur
Notation.
Wir haben bereits im zweiten Abschnitt dieses Kapitels die OLS Formeln für die
PRF (‘Population Regression Function’ ) hergeleitet (siehe Seite 43). Nun hat sich
unser Interesse aber den Stichprobenregressionen (SRF) zugewandt.
Im Kern ist es eine Interpretationsfrage, ob man die gegebenen Beobachtungen als
Stichprobe oder als Grundgesamtheit ansieht, die OLS ‘Mechanik’ funktioniert in
beiden Fällen gleich, aber für die Interpretation und die Schlussfolgerungen macht
es einen Riesenunterschied.
Um dies zu verdeutlichen schreiben wir das Problem nochmals in der für die SRF
korrekten Notation an. Anstelle der wahren Parameter der Grundgesamtheit β0 und
β1 können wir aus der Stichprobe nur Schätzungen b0 und b1 berechnen, und anstelle
der Störterme ui erhalten wir die OLS Residuen ei
Das Minimierungsproblem für die SRF ist also
min
b0 ,b1
N
X
e2i
i=1
= min
b0 ,b1
N
X
(yi − b0 − b1 xi )2
i=1
Gesucht sind die Werte von b0 und b1 , für die die Quadratsumme der Residuen minimal ist. Die Bedingungen erster Ordnung erhalten wir wieder – vollkommen analog
zur PRF – wenn wir die partiellen Ableitungen nach den gesuchten Parametern b0
und b1 ableiten und Null setzen.
∂
∂
P
2
i ei
∂b0
P
2
i ei
∂b1
= −2
X
i
= −2
X
i
(yi − b0 − b1 xi ) = −2
{z
}
|
ei
X
⇒
i
(yi − b0 − b1 xi ) xi = −2
{z
}
|
ei
ei = 0
X
ei = 0
(2.10)
i
X
xi ei = 0
⇒
i
X
xi ei =(2.11)
0
i
Die Lösung dieser beiden Gleichungen definiert die OLS Schätzer
b1 =
Cov(x, y)
,
Var(x)
b0 = ȳ − b1 x̄
Da wir diese Parameter aus der Stichprobe berechnet haben, sind b0 und b1 im
Gegensatz zu β0 und β1 Zufallsvariablen und haben eine Stichprobenkennwertverteilung.
Die zentralen Eigenschaften der OLS Schätzer folgen direkt aus diesen Bedingungen
erster Ordnung.
73
Grundlagen der Regressionsanalyse
1. Die Summe der OLS Residuen – und daher auch deren Mittelwert
– ist immer gleich Null:
X
ei = ē = 0
Dies ist eine unmittelbare Implikation von Gleichung (2.10), der ersten Bedingung erster Ordnung.
Man beachte, dass dies aus Gleichung (2.10) folgt, also der Bedingung, die sich
auf das Interzept b0 bezieht! Für Gleichungen ohne Interzept (yi = b1 xi + ei )
existiert diese Bedingung nicht, deshalb muss die Summe von OLS Residuen,
die aus Gleichungen ohne Interzept geschätzt wurden, diese Bedingung nicht
erfüllen!
¯ ist gleich dem Mittelwert
2. Der Mittelwert der gefitteten y (also ŷ)
der beobachteten y:
¯ = ȳ
ŷ
Dies impliziert auch, dass die Regressionsgerade immer durch den Mittelwert
der y Beobachtungen läuft!
Beweis:
ei = yi − yˆi
X
X
ei =
yi −
yˆi
1 X
1 X
1 X
ei =
yi −
yˆi
N
N
N
ē = ȳ − ŷ¯ = 0
wenn ē = 0 (siehe 1.) gilt weiter
ŷ¯ = ȳ
X
Da wir von ē = 0 Gebrauch gemacht haben gilt dies wiederum nur für
Schätzungen mit Interzept!
3. Die Summe der Produkte der OLS Residuen und der erklärenden x
Variablen ist immer Null, bzw., die OLS Residuen sind mit den x
Variablen unkorreliert:
X
xi ei = 0
Diese Bedingung folgt unmittelbar aus aus Gleichung (2.11), d.h. der zweiten
Bedingung erster Ordnung, die sich auf den Steigungskoeffizienten b1 bezieht.
Diese Bedingung gilt immer, für Gleichungen mit Interzept impliziert sie auch,
dass die Kovarianz (und damit auch die Korrelation) zwischen der erklärenden
Variablen x und den Residuen e gleich Null ist (Cov(xi , ei ) = 0), da
X
X
X
X
(xi − x̄)(ei − ē) =
xi ei − x̄
ei = 0 wenn
ei = ē = 0
i
74
Grundlagen der Regressionsanalyse
4. Die Kovarianz zwischen den gefitteten Werten ŷ und den
Stichproben-Residuen ist in einer OLS-Schätzung mit Interzept immer gleich Null:
Cov(ŷ, e) = 0
Dies folgt unmittelbar aus der vorhergehenden Bedingung und kann einfach
mit Hilfe der Rechenregeln für Varianzen gezeigt werden:
Cov(ŷ, e) = Cov([b0 + b1 x], e) = Cov(b0 , e) + Cov(b1 x, e)
= 0 + b1 Cov(x, e) = 0
Achtung Erinnern Sie sich, wir haben früher (im 2. Abschnitt dieses Kapitels)
für die Schätzung der Parameter der ‘population regression function’ die OLS Formel direkt auf die Daten der Grundgesamtheit
P angewandt, deshalb folgte aus den
Bedingungen
P erster Ordnung unmittelbar i ui = 0 (siehe Gleichung (2.2), Seite
43) und
i xi ui (Gleichung (2.3)); also beides Aussagen über die Störterme der
Grundgesamtheit!
Hier haben wir die OLS Schätzer auf Stichprobendaten angewandt, die Bedingungen
erster Ordnung beziehen sich also nicht mehr auf die Störterme ui , sondern auf die
Stichproben-Residuen ei .
Deshalb können wir zwar sicher sein, dass die resultierenden Stichproben-Residuen
die Bedingungen
X
X
ei = 0
und
xi ei = 0
i
i
erfüllen, aber nichts in der Welt garantiert uns weiterhin, dass die Störterme der
Grundgesamtheit die Bedingungen
X ?
X
?
ui = 0
und
xi ui = 0
i
i
erfüllen! Deshalb werden wir später häufig annehmen müssen, dass diese Bedingungen für die Störterme erfüllt sind, und werden sehen, dass ziemlich schlimme
Konsequenzen zu befürchten sind, wenn diese Annahmen über die ui nicht erfüllt
sind – aber mehr dazu später.
Diese Ergebnisse werden es uns nun auch erleichtern das Bestimmtheitsmaß R2
herzuleiten, das uns bereits bei der Diskussion der PRF begegnet ist (siehe Seite
50).
2.5
Das Bestimmtheitsmaß R2
Das Bestimmtheitsmaß R2 ist eine der bekanntesten Kennziffern zur Beurteilung
der Güte, bzw. des “Fits” einer Regressionsgeraden. Es kann aus einer einfachen
Varianzzerlegung hergeleitet werden.
75
Grundlagen der Regressionsanalyse
Wir haben schon gezeigt, dass sich y in einen systematischen bzw. “erklärten Teil”
(ŷ) und einen stochastischen bzw. “unerklärten Teil” (e) zerlegen lässt.
yi = yˆi + ei
Die Varianz von y ist also
Var(y) = Var(ŷ) + Var(e) + 2Cov(ŷ, e)
Var(y) = Var(ŷ) + Var(e)
da wir gerade gezeigt haben, dass Cov(ŷ, e) = 0 (dies gilt nur, wenn die Regression
ein Interzept (b0 ) enthält).
Also
X
1 X
1 X
¯ 2+ 1
(yi − ȳ)2 =
(ŷi − ŷ)
(ei − ē)2
NX
N
N
X
X
(ŷi − ȳ)2 +
e2i
(da ē = 0)
(yi − ȳ)2 =
{z
}
|
{z
} | {z }
|
TSS
ESS
SSR
wobei TSS für ‘Total Sum Squared’, ESS für ‘Explained Sum Squared’ und SSR für
‘Sum of Squared Residuals’ steht.
Das Bestimmtheitsmaß ist dann einfach definiert als Anteil der erklärten Streuung
ESS an der gesamten Streuung TSS
P
P 2
ESS
SSR
(yi − yˆi )2
ei
2
R =
=1−
=1− P
=1− P
2
TSS
TSS
(yi − ȳ)
(yi − ȳ)2
(vgl. Abb. 2.21).
Das Bestimmtheitsmaß R2 gibt an, welcher Anteil der Streuung von y (bzw. der
Varianz) durch die Regression (bzw. durch die x) erklärt wird.
Da es sich um einen Anteil handelt liegt das Bestimmtheitsmaß für Regressionsgleichungen mit Interzept immer zwischen Null und Eins (dies muss nicht für Regressionsgleichungen ohne Interzept gelten! Warum?).
Abbildung 2.22 zeigt den Fit von Regressionsgeraden für unterschiedlich große R2 .
Die Bedeutung des Bestimmtheitsmaßes R2 sollte nicht überschätzt werden. Insbesondere mit Querschnittsdaten ist das R2 häufig relativ klein (z.B. 0.2), trotzdem
kann die Regression wichtige Zusammenhänge aufzeigen. Mit Zeitreihendaten erhält
man in der Regel ein höheres R2 , aber dies ist häufig nur Ausdruck einer Scheinkorrelation (‘spurious correlation’), denn Zeitreihen folgen häufig einem ähnlichen
Trend.
Es ist darauf zu achten, dass das R2 nur ein Maß für lineare Zusammenhänge ist,
und nicht interpretiert werden darf, wenn die Regression kein Interzept (d.h. keinen
konstanten Term) enthält.
Das Bestimmtheitsmaß R2 ist auch nur sehr eingeschränkt für den Vergleich unterschiedlicher Modelle geeignet. Insbesondere darf es nicht für einen Vergleich unterschiedlicher Modelle verwendet werden, wenn
1. die Modelle eine unterschiedliche abhängige Variable y haben. Die Modelle
yi = b0 + b1 xi + ei und ln(yi ) = b0 + b1 xi + ei können also nicht anhand des R2
verglichen werden!
2. die Regressionen eine unterschiedliche Anzahl erklärende Variablen x haben.
76
Grundlagen der Regressionsanalyse
yi
y
b
ei = yi − ybi
ybi = b0 + b1 xi
yi − y
(Total)
bc
ybi − y
(‘Erklärt durch Regression’)
y
x
xi
x
Abbildung 2.21: Varianzzerlegung und Bestimmtheitsmaß R2 [local, www]
Übungsaufgaben:
1. Gegeben seien folgende Daten:
i:
y:
x:
1
6
1
2 3 4
4 5 3
2 3 4
5
2
5
(a) Berechnen Sie die OLS-Schätzer b0 und b1 für das Modell yi = b0 + b1 xi .
(b) Zeigen Sie an diesem Beispiel, dass die Regressionsgerade yi = b0 + b1 xi
durch den Mittelwert von x und y [d.h. durch (x̄, ȳ)] verläuft.
(c) P
Zeigen Sie für diese Daten, dass die Summe der Residuen Null ist, d.h.
5
i=1 ei = 0.
2. (a) Leiten Sie den OLS-Schätzer β für das Modell y = bx (d.h. ohne Interzept!) allgemein her.
P
(b) Ist die Summe der Residuen wieder Null (d.h. 5i=1 ei = 0), wenn Sie
diesen Schätzer auf obige Daten anwenden?
(c) Verläuft diese Regressionsgerade wieder durch den Mittelwert von x und
y [d.h. durch (x̄, ȳ)]?
3. (a) Leiten Sie den OLS-Schätzer α für das Modell y = α her (α ist eine
Konstante).
P
(b) Berechnen Sie wieder die Summe der Residuen (d.h. 5i=1 ei ) für dieses
Modell.
.
77
Grundlagen der Regressionsanalyse
y
y
R2 = 0.99
R2 = 0.9
b
b
b
b
b b
b
b
b
b
b
b
b
b
b
b
b
bb b
b
bb
b
b b
b
b bb
b
bb
b
b
b
b
b b
b
b
b
b
b
b
b
b
b
b
b b
b
b
b
bb
b
b
b b
b
b
b
b b
b
b
b
b
b
b
b b
b
b
b
b
b
b
b
bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
x
R2 = 0.5
y
b
x
y
R2 = 0.1
b
b
b
b
b
bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b
b
b
b
b
b
b b
b
b
b
b
b
b
b
b
b
x
b
x
Abbildung 2.22: Unterschiedliche R2 , das Bestimmtheitsmaß R2 ist ein Indikator
für die Streuung um die Regressionsgerade.
78
Grundlagen der Regressionsanalyse
4. Zeigen Sie, dass das Bestimmtheitsmaß R2 das Quadrat des (Pearsonschen)
Korrelationskoeffizienten zwischen den beobachteten Werte y und der gefitteten Werte ŷ ist.
Hinweis: Der Pearsonsche Korrelationskoeffizient ist definiert als
Cov(y, ŷ)
ry,ŷ = p
Var(y)Var(ŷ)
Berücksichtigen Sie, dass y = ŷ+e und Cov[x, (y+Z)] = Cov(x, y)+Cov(x, Z).
2.A
2.A.1
Appendix
EViews Programmcode für Monte Carlo Simulation
Das folgende Programm zieht aus einer gegebenen Grundgesamtheit wiederholt
Stichproben, berechnet für jede Stichprobe den Parameter b1 und zeichnet ein Histogramm aller Schätzungen. Das Histogramms in Abbildung 2.16 (Seite 60) wurde
mit diesem Programm erzeugt.
Sie können das Programm auch unter
http://www.uibk.ac.at/econometrics/einf/02prg_mc1.prg herunterladen.
’ Ein einfaches Monte Carlo Beispiel
’ Workfile mit Namen MONTECARLO anlegen, undated, 20 Beobachtungen
wfcreate(wf=MONTECARLO) u 20
’ in EViews 4: workfile MONTECARLO u 20
’ Daten für Grundgesamtheit anlegen und
series Xpop
series Ypop
Xpop.fill 1.2, 1.3, 1.7, 1.9, 1.9, 2.0,
3.2, 3.3, 3.4, 3.7, 4.1, 4.1,
Ypop.fill 0.8, 2.9, 0.8, 0.7, 3.5, 3.2,
1.4, 2.3, 2.6, 2.6, 3.9, 2.3,
series Y ’ Datenreihen für SRF anlegen
series X
’ Skalare und Vektoren anlegen
!N = 10
!WH = 10000
vector(!WH) BV
einlesen
2.2, 2.4,
4.3, 4.4,
2.6, 3.2,
2.5, 3.9,
series X
2.8,
4.5,
3.6,
4.2,
2.8, _
4.7
1.1, _
4.2
’ Stichprobengroesse
’ Anzahl der Wiederholungen
’ Vektor fuer Ergebnisse anlegen
for !i = 1 to !WH
’
for !j = 1 to !N
!ZUFALL = @floor(@runif(1,21))
X(!j) = Xpop(!ZUFALL)
Y(!j) = Ypop(!ZUFALL)
next
equation tmp.ls Y c X
’
Beginn Schleife über WH
’ Beginn Schleife N Zufallsziehungen
’ gleichvert. Zufallszahl zw. 1 & 20
’ Zufallsziehungen
’ Ende der Schleife über N
SRF schätzen
79
Grundlagen der Regressionsanalyse
BV(!i) = tmp.@coefs(2)
’ b_1 in Vektor schreiben (2. Koeff.)
’ Ende Schleife über WH
next
’Grafiken erzeugen und ausgeben
range 1 !WH
smpl @all
mtos(BV,B1)
’ Vektor BV in series BS umwandeln
freeze(B_HIST) B1.hist
’ Histogramm anlegen
B_HIST.addtext(t) Histogramm (N = !N, !WH Wiederholungen)
range 1 20
show B_HIST
’ Histogramm anzeigen
2.A.2
Matlab Programmcode für Monte Carlo Simulation
Der folgende Matlab Programmcode erzeugt das Histogramm in Abbildung 2.16
(Seite 60).
Matlab7 ist am Uni-Server auf K:\Apps\Matlab7\Matlab7.lnk installiert. Mit File –
New – M-File ein leeres Programmfenster öffnen und das Programm unten mit CopyPaste hinein kopieren. Bevor Sie es mir F5 starten müssen Sie die Zeilenumbrüche
beim Einlesen der Daten entfernen (in Zeilen beginnend mit Xpop und Xpop). M-File:
http://www.uibk.ac.at/econometrics/einf/prg_montecarlo_01.m
% Ein einfaches Monte Carlo
clear
clc
Xpop = [1.2; 1.3; 1.7; 1.9;
3.2; 3.3; 3.4; 3.7;
Ypop = [0.8; 2.9; 0.8; 0.7;
1.4; 2.3; 2.6; 2.6;
N=10;
WH=1000;
Beispiel
1.9;
4.1;
3.5;
3.9;
2.0;
4.1;
3.2;
2.3;
2.2;
4.3;
2.6;
2.5;
2.4;
4.4;
3.2;
3.9;
2.8;
4.5;
3.6;
4.2;
2.8;
4.7];
1.1;
4.2];
% Stichprobengröße
% Wiederholungen
for i=1:WH
for j=1:N
ZUFALL=floor(rand(1,1)*20+1);
X(j,1)=Xpop(ZUFALL,1);
Y(j,1)={y}pop(ZUFALL,1);
end
CovMatrix = cov({y},X);
b1 = CovMatrix(1,2)/CovMatrix(2,2);
BV(i,1)=b1;
end
hist(BV,50)
title(’Histogramm’)
’ENDE’
% Zufallszahl zw. 1 & 20
% Ziehung X
% Ziehung {y}
% Var-Cov-Matrix X,{y} (2x2)
% b1 = Cov(X,{y})/Var(X)
% b1 in Vektor schreiben
% Histogramm
80
Grundlagen der Regressionsanalyse
Das
gleiche
nochmals
in
Matrixschreibweise,
wobei
die
Daten
aus
einer
Excel-Datei
eingelesen
werden
(http://www.uibk.ac.at/econometrics/einf/prg_montecarlo_data.xls;
M-File: http://www.uibk.ac.at/econometrics/einf/prg_montecarlo_02.m
clc;
clear all;
XYpop=xlsread(’prg_montecarlo_data.xls’,’Tabelle1’,’A2:B21’);
N=10;
WH=1000;
%sample Size
%WH
for i=1:WH
for j=1:N
zufall=floor(rand(1,1)*20+1);
XYsample(j,:)=XYpop(zufall,:);
end
X=[ones(N,1) X{y}sample(:,1)];
Y=XYsample(:,end);
b = (X’*X)^(-1)*X’*Y;
BV(i,1)=b(2,1);
end
% Zufallszahl zw. 1 und 20
% Ziehung von Zeilenvektor
% X-Matrix mit 1er-Spalte
% Y Vektor
% OLS-Schätzung von b
% b ist ein (2x1) Spaltenvektor
hist(BV,50);
% Histogram mit 50 bins
title([’Histogramm (N = ’,num2str(N),’, ’,num2str(WH),’ Wiederholungen)’])
’ENDE’
Histogramm (N = 10, 1000 Wiederholungen)
140
120
100
80
60
40
20
0
−2
−1.5
−1
−0.5
0
0.5
1
1.5
Herunterladen