Kapitel 3 Eigenschaften des OLS

Werbung
Kapitel 3
Eigenschaften des OLS-Schätzers
“Die Mathematik ist eine Art Spielzeug,
welches die Natur uns zuwarf zum Troste
und zur Unterhaltung in der Finsternis.”
(Jean le Rond d’Alembert, 1717 - 1783)
Im letzten Kapitel haben wir den OLS-Schätzer hergeleitet. Ein Schätzer (‘estimator’ ) ist vereinfacht gesprochen eine Formel, die uns – wenn wir die Stichprobendaten einsetzen – Schätzungen (‘estimations’ ) für die unbeobachtbaren Parameter der
Grundgesamtheit liefert, zum Beispiel die Schätzungen b0 und b1 einer Regressionsgerade yi = b0 + b1 xi + ei für die wahren Parameter der Grundgesamtheit β0 und
β1 .
Wenn wir aus einer Grundgesamtheit (bzw. aus einem datengenerierenden Prozess
DGP) verschiedene Stichproben ziehen erhalten wir für jede Stichprobe unterschiedliche Schätzungen für die wahren Parameter der Grundgesamtheit.
Deshalb können die aus einer Stichprobe geschätzten Parameter (z.B. die Koeffizienten der Stichprobenregressionsfunktion) als Zufallsvariablen angesehen werden, von
denen man die Momente1 berechnen kann. Mit den Verteilungen dieser Zufallsvariablen, den so genannten Stichprobenkennwertverteilungen (‘sampling distributions’ ),
werden wir uns in diesem Kapitel etwas näher beschäftigen.
Im Abschnitt über die Monte Carlo Simulationen haben wir bereits gezeigt, dass die
Idee der wiederholten Stichprobenziehungen (‘repeated sampling’ ) ganz natürlich zur
Idee der Stichprobenkennwertverteilungen führt. Dort haben wir zwar gesehen, dass
aufgrund des Gesetzes der Großen Zahl der Mittelwert der Stichprobenkennwertverteilungen meist ‘ziemlich’ genau dem wahren Wert der Grundgesamtheit entspricht,
und dass aufgrund des Zentralen Grenzwertsatzes bei einer genügend großen Anzahl
von Ziehungen die Stichprobenkennwertverteilung einer Normalverteilung ‘ziemlich’
ähnlich sieht, aber dies gab uns nur eine intuitive Vorstellung, keine ‘hard facts’ mit
denen man rechnen kann.
1
Momente sind Kenngrößen einer Zufallsvariablen, bzw. einer Verteilungsfunktion. Das k-te
zentrale Moment ist definiert als
µk = E[x − E(x)]k
Das zentrale Moment erster Ordnung (für k = 1) ist stets gleich Null (µ1 = 0), da µ1 = E(x−µ)1 =
µ−µ = 0; das zentrale Moment zweiter Ordnung (für k = 2) ist die Varianz (µ2 = E[x−E(x)]2 ), das
zentrale Moment dritter Ordnung ist die Schiefe, das zentrale Moment vierter Ordnung entspricht
der Wölbung bzw. Kurtosis.
89
Eigenschaften des OLS-Schätzers
90
In diesem Kapitel werden wir diese Idee etwas weiter treiben und den Erwartungswert und die Varianz der Stichprobenkennwertverteilungen der geschätzten Koeffizienten b0 und b1 allgemein berechnen. Diese werden uns im nächsten Kapitel schließlich die Durchführung von Hypothesentests erlauben.
Vorher werden wir uns aber noch in diesem Kapitel mit einigen statistischen Eigenschaften des OLS-Schätzers beschäftigen. Wir haben im letzten Kapitel mehrmals
erwähnt, dass OLS-Schätzer ‘bestmögliche’ Schätzer sind, ohne allerdings genauer
zu spezifizieren, was wir darunter verstehen. Dies werden wir in diesem Kapitel
nachholen.
Das Konzept der Stichprobenkennwertverteilungen erlaubt es uns nämlich, die Eigenschaften von Schätzfunktionen etwas präziser zu definieren. Konkret wünschen
wir uns Schätzfunktionen, die ‘im Durchschnitt richtig’ und ‘möglichst genau’ sind.
Mit ‘im Durchschnitt richtig’ meinen wir, dass der Erwartungswert) der Stichprobenkennwertverteilung gleich dem wahren Wert der Grundgesamtheit sein sollte. In
der Sprache der Ökonometrikerinnen wird diese Eigenschaft einer Schätzfunktion
Erwartungstreue genannt. Mit ‘möglichst genau’ meinen wir, dass die Stichprobenkennwertverteilung eine möglichst kleine Varianz haben sollte, oder etwas genauer,
dass die Varianz der Stichprobenkennwertverteilung der OLS Schätzer kleiner sein
sollte als die Varianz der Stichprobenkennwertverteilungen aller vergleichbaren alternativen Schätzfunktionen. Eine Schätzfunktion, die diese zweite Eigenschaft erfüllt,
wird in der Sprache der Ökonometrikerinnen ‘effizient’ genannt.
In diesem Kapitel werden wir zuerst zeigen, dass die OLS-Schätzer unter bestimmten Annahmen tatsächlich erwartungstreu und effizient sind (d.h. genauer sind als
alle anderen vergleichbaren linearen Schätzfunktionen). Dies ist das Ergebnis des bekannten Gauss-Markov Theorems, das in der Ökonometrie eine zentrale Rolle spielt.
Tatsächlich wird sich ein großer Teil dieser Veranstaltung mit der Frage beschäftigen, was zu tun ist, wenn eine oder mehrere der Gauss-Markov Annahmen verletzt
sind. Da das Gauss-Markov Theorem in der Ökonometrie eine derart grundlegende
Rolle spielt, werden wir es etwas ausführlicher beweisen.
Die Erwartungstreue und Effizienz der OLS-Schätzer, die mit Hilfe des GaussMarkov Theorems bewiesen werden, sind sogenannte ‘Kleine Stichprobeneigenschaften’, d.h. sie gelten auch in kleinen Stichproben (oder genauer, unabhängig von der
Stichprobengröße).
Leider lassen sich diese ‘Kleine Stichprobeneigenschaften’ in komplizierteren Fällen
nicht immer beweisen (z.B. wenn einige der Gauss-Markov Annahmen nicht erfüllt
sind). Deshalb werden wir im letzten Abschnitt einige ‘asymptotische Eigenschaften’
diskutieren. Die wichtigste dieser asymptotischen Eigenschaften ist die Konsistenz.
Etwas vereinfachend gesprochen ist eine Schätzfunktion konsistent, wenn sie mit
zunehmender Stichprobengröße ‘immer genauer’ wird.
Schließlich werden wir noch ganz kurz den ‘mittleren quadratischen Fehler’ (mean
square error ) vorstellen.
Nach dieser etwas ausführlichen Vorschau können wir uns nun an die Arbeit machen.
Für alle, denen dieses Kapitel etwas schwierig erscheint, ein kleiner Trost vorab: dieses Kapitel wird im übernächsten Kapitel Schritt für Schritt wiederholt – allerdings
in Matrixschreibweise.
91
Eigenschaften des OLS-Schätzers
3.1
Kleine Stichprobeneigenschaften
Kleine Stichprobeneigenschaften sind – wie bereits erwähnt – unabhängig von der
Stichprobengröße gültig, das heißt, sie gelten auch in kleinen Stichproben. Die beiden
wichtigsten ‘kleine Stichprobeneigenschaften’ sind:
1. Erwartungstreue (Unverzerrtheit): Eine Schätzfunktion b für den wahren Wert
β der Grundgesamtheit ist erwartungstreu (‘unbiased ’), wenn
E(b) = β
und zwar für jeden beliebigen Stichprobenumfang N.
Bei nicht erwartungstreuen Schätzern wird E(b)−β Verzerrung (bias) genannt.
Erinnern wir uns, der Erwartungswert ist einfach ein mit den Wahrscheinlichkeiten gewichtetes Mittel über alle möglichen Ausprägungen einer Zufallsvariable. Erwartungstreue sagt also nichts über das Ergebnis einer einzelnen
Schätzung aus, sondern ist eine Eigenschaft einer Schätzfunktion. Dahinter
steht meist die Vorstellung eines ‘repeated sampling’.
2. Effizienz: Eine Schätzfunktion heißt effizient, wenn sie
• erwartungstreu ist, und
• varianzminimal unter allen vergleichbaren erwartungstreuen Schätzfunktionen ist:
var(b) ≤ var(b∗ )
wobei b∗ jede beliebige lineare und erwartungstreue Schätzfunktion für β
sein kann. Effizienz bezieht sich immer auf die theoretische Varianz und
beruht auf einem Vergleich von Schätzfunktionen, ist also ein relatives
Konzept. Deshalb muss stets angeben werden, innerhalb welcher Klasse
von Schätzfunktionen ein Schätzer effizient ist. In diesem Kapitel werden
wir zeigen, dass der OLS-Schätzer unter einer Reihe von Annahmen innerhalb der Klasse aller unverzerrten linearen Schätzfunktionen effizient
ist.
Wie schon erwähnt, diese Eigenschaften beziehen sich nicht auf eine gegebene Stichprobe, sondern auf Erwartungswerte, d.h. das gemittelte Ergebnis wiederholter
Stichprobenziehungen (repeated sampling)!
3.1.1
Einführung und Wiederholung
Zur Erläuterung starten wir mit einem bekannten Fall aus der einführenden Statistik,
einer univariaten Zufallsvariable y. Dabei wird üblicherweise angenommen, dass alle
Beobachtungen aus der gleichen Verteilung gezogen wurden (also identisch verteilt
sind), und dass die einzelnen yi untereinander statistisch unabhängig sind. Dies
wird üblicherweise mit iid abgekürzt für ‘independent and identically-distributed’.
Zudem nehmen wir an, dass der Erwartungswert von y in der Grundgesamtheit µ
sei (d.h. E(y) = µ), und dass die theoretische Varianz eine endliche Zahl σ 2 sei
92
Eigenschaften des OLS-Schätzers
(d.h. var(y) = σ 2 ). Man beachte, dass die empirische Varianz, die auf Grundlage
von Realisationen berechnet wird, immer eine endliche Zahl ist, dies muss für die
theoretische Varianz aber keineswegs gelten.
Dieser datengenerierende Prozess (DGP) wird kompakt angeschrieben als
yi ∼ iid(µ, σ 2 )
Aus der Statistik wissen wir, dass unter diesen Annahmen der Mittelwert einer
Stichprobe ȳ ein unverzerrter Schätzer für den Mittelwert der Grundgesamtheit µ
ist
E(ȳ) = µ
Die Verteilung dieser Stichprobenmittelwerte ȳ, die man bei wiederholten Stichprobenziehungen erhält, ist eine Stichprobenkennwertverteilung (sampling distribution).
In der einführenden Statistik wird gezeigt, dass die Varianz der Mittelwerte gleich
der Varianz der Grundgesamtheit (var(y) := σ 2 ) dividiert durch die Stichprobengröße N ist:
σ2
var(ȳ) := σȳ2 =
N
Da die Varianz der Grundgesamtheit σ 2 üblicherweise ebensowenig beobachtbar ist
wie der Mittelwert µ der Grundgesamtheit, muss die ‘wahre’ Varianz σ 2 ebenfalls aus
der Stichprobe geschätzt werden. Den Schätzer für die Varianz der Grundgesamtheit
σ 2 bezeichnen wir mit s2 (in der Literatur wird für den Schätzer von σ 2 manchmal
auch das Symbol σ
b2 verwendet, d.h. s2 := σ
b2 ).
In der einführenden Statistik (sowie im statistischen Appendix) wird gezeigt, dass
im Fall univariater Verteilungen der Schätzer
s2 =
1 X
(yi − ȳ)2
N −1 i
ein erwartungstreuer Schätzer für die Varianz der Grundgesamtheit σ 2 ist.
Genau das gleiche wollen wir nun für den bivariaten Fall
yi = b0 + b1 xi + ei
zeigen, nur untersuchen wir anstelle der Stichprobenkennwertverteilung des Mittelwertes ȳ (der als Schätzer für µ verwendet wird) die Stichprobenkennwertverteilungen von b0 und b1 , die als Schätzer für β0 und β1 dienen.
Wir werden im Folgenden annehmen, dass die erklärende Variable x deterministisch
(d.h. nicht stochastisch) ist. Im Zusammenhang mit wiederholten Stichprobenziehungen (‘repeated sampling’) bedeutet dies, dass immer nur neue yi generiert werden,
da bei jedem Durchgang ein neuer Störterm εi gezogen wird, nicht aber die x; d.h.
wir nehmen an, die x sind ‘fixed in repeated sampling’. Konkret nehmen wir im
Folgenden an, dass die x keine Zufallsvariablen sind.
Dies mag vielleicht etwas willkürlich erscheinen, denn tatsächlich gibt es häufig keinen vernünftigen Grund anzunehmen, warum nur die y stochastisch sein sollen und
93
Eigenschaften des OLS-Schätzers
die x nicht, werden doch häufig sowohl die x als auch die y von datengenerierenden
Prozessen (DGP) erzeugt, die außerhalb unserer Einflussnahme stehen.
Wenn wir zum Beispiel eine Konsumfunktion ‘Konsumausgabeni = b0 +
b1 Einkommeni + ei ’ schätzen, so macht es tatsächlich wenig Sinn anzunehmen, dass
die Konsumausgaben stochastisch sind, das Einkommen aber deterministisch sei.
Der einzige Grund für die Annahme deterministischer x ist tatsächlich, dass dies die
folgenden Ableitungen ganz erheblich erleichtern wird. Allerdings ist diese Annahme
nicht ganz so streng wie es auf den ersten Blick scheinen mag. Wir werden später
sehen, dass die meisten Schlussfolgerungen auch für stochastische x gültig bleiben,
wenn (und nur wenn!) die x und die ε in der Grundgesamtheit unkorreliert (oder
genauer, stochastisch unabhängig) sind.
In anderen Worten, das meiste was wir im folgenden zeigen werden gilt asymptotisch
(d.h. für sehr große Stichproben) auch für stochastische x, solange – vereinfacht gesprochen – die Kausalität eindeutig von x zu y läuft, oder in anderen Worten, wenn
der datengenerierende Prozess, der die x erzeugt, unabhängig ist vom datengenerierenden Prozess ist, der die y erzeugt.
3.1.2
Erwartungstreue der geschätzten OLS-Koeffizienten
Wir werden nun zeigen, dass der auf Seite 52 berechnete Schätzer
P
P
P
ẍi yi
(xi − x̄)yi
ẍi ÿi
i
i
b1 = P 2 = P 2 := Pi
2
i ẍi
i ẍi
i (xi − x̄)
(mit i = 1, . . . , N) tatsächlich erwartungstreu ist (zwei Punkte über einer Variable
bezeichnen wieder Abweichungen vom Mittelwert, z.B. ẍi := xi − x̄).
Dazu ist es wichtig zu erkennen, dass diese Schätzfunktion für b1 linear in den yi ist,
d.h. der Schätzer b1 kann auch geschrieben werden als
b1 =
N
X
wi y i
(3.1)
i=1
d.h. b1 ist eine gewichtete Summe der yi mit den Gewichten
ẍi
wi := PN
2
j=1 ẍj
(xi − x̄)
:= P
2
j (xj − x̄)
Dies ist unproblematisch, da die xi annahmegemäß deterministisch sind (‘fixed in repeated sampling). Offensichtlich ist b1 also eine lineare Schätzfunktion; der geschätzte
Parameter b1 ist eine Linearkombination der stochastischen yi , wobei die wi die (deterministischen) Gewichte darstellen, die eine Funktion der x sind.
P
Die Gewichte wi := ẍi / j ẍ2j haben drei wichtige Eigenschaften, die wir gleich
benötigen werden:
1.
X
i
wi = 0 (die Summe der Gewichte ist Null)
94
Eigenschaften des OLS-Schätzers
da
X
wi =
i
2.
X
i
ẍ
Pi 2
j ẍj
!
P
ẍi
= Pi 2 = 0
j ẍj
mit i, j = 1, . .P
. , N, weil
Pdie Summe der Abweichungen vom Mittelwert immer
Null ist, d.h.
ẍi := (xi − x̄) = N x̄ − N x̄ = 0!
X
i
da
wi2 = 1/
X
ẍ2i
i
X
wi2
=
i
ẍ
Pi 2
j ẍj
i
mit i, j = 1, . . . , N.
X
X
3.
wi ẍi =
wi xi = 1
i
X
!2
P
ẍ2
1
= P i 2i 2 = P 2
ẍi
( i ẍi )
i
wir zeigen, dass
P
wi xi = 1
P
X
(xi − x̄)xi
wi xi = P
(xi − x̄)2
P 2
P
xi − x̄ xi
P
= P 2
xi − 2x̄ xi + N x̄2
P 2
x − N x̄2
= P 2 i
x − 2N x̄2 + N x̄2
P 2i
x − N x̄2
= P i2
xi − N x̄2
= 1
i
(da
X
xi = N x̄)
Mit diesen drei Eigenschaften ‘bewaffnet’ können wir uns nun an den eigentlichen
Beweis für die Erwartungstreue machen.
Beweis der Erwartungstreue: Um die Unverzerrtheit (Erwartungstreue) von
b1 zu zeigen müssen wir einen Zusammenhang zwischen der Schätzfunktion b1 und
dem entsprechenden Wert β1 der Grundgesamtheit herstellen, und davon den Erwartungswert bilden.
Dazu wird in der Regel nach dem folgenden Muster vorgegangen: man setzt den wahren Zusammenhang der Grundgesamtheit, yi = β0 + β1 xi + εi , in die Schätzfunktion
(3.1) ein:
X
X
b1 =
wi y i =
wi (β0 + β1 xi + εi )
i
= β0
X
i
= β1 +
i
wi + β1
X
i
X
i
wi εi
wi xi +
X
wi εi
i
(3.2)
95
Eigenschaften des OLS-Schätzers
da wir gerade gezeigt haben, dass
P
wi = 0 und
Nun bilden wir davon den Erwartungswert
E(b1 ) = E
β1 +
= β1 +
X
X
wi εi
i
!
E(wi εi )
i
= β1 +
X
i
= β1 + E
E
P
ẍ ε
Pi i 2
j ẍj
P
wi xi = 1.
(weil E(c) = c)
!
− x)(εi − 0)
2
i (xi − x)
i (x
Pi
(3.3)
Der OLS-Schätzer b1 für β1 ist nur dann erwartungstreu, d.h. E(b1 ) = β1 , wenn die
x mit den Störtermen ε der Grundgesamtheit im Erwartungswert unkorreliert sind,
oder genauer, wenn die erklärenden x Variablen und die Störterme ε der Grundgesamtheit stochastisch unabhängig sind.
Man beachte, dassP
aus der Mechanik des OLS Schätzers (d.h. aus den Bedingungen
1. Ordnung) zwar i xi ei = 0 folgt, dass dies aber nur für die Stichprobe gilt, nicht
notwendigerweise aber für die Störterme εi der Grundgesamtheit!
Wie wir aus Gleichung (3.3) erkennen können, gilt E(b1 ) = β1 nur, wenn die Störterme der Grundgesamtheit nicht mit der erklärenden Variable x korreliert sind! Wann
immer cov(x, ε) 6= 0 ist der OLS Schätzer verzerrt!
Exogenität: x Variablen, die mit den Störtermen ε der Grundgesamtheit unkorreliert sind (oder genauer, stochastisch unabhängig sind), nennt man in der Ökonometrie exogene Regressoren. In anderen Worten, exogene Regressoren sind unkorreliert mit der nicht-systematischen (unbeobachteten) Komponente von y. Umgekehrt
werden x Variablen, die mit dem Störterm ε korreliert sind, endogene Regressoren
genannt.
Wie aus Gleichung (3.3) hervorgeht, führen endogene Regressoren immer zu einem
Bias, d.h. verzerrten Schätzungen.
Leider sind endogene Regressoren ein ziemlich häufiges Problem, es gibt mehrere Ursachen die zu einer stochastischen Abhängigkeit zwischen Störtermen ε und
erklärenden Variablen x führen. Einige Beispiele dafür sind Messfehler in den xVariablen, wenn relevante x Variablen nicht berücksichtigt wurden, oder wenn die
Variablen durch ein simultanes System erzeugt werden.
In solchen Fällen von Endogenität sind – wie wir soeben gesehen haben – die OLSSchätzer systematisch verzerrt! Diese ‘tieferen’ Probleme werden wir erst in späteren
Kapiteln ausführlich diskutieren.
Im Moment wollen wir uns das Leben aber noch einfach machen und deterministische x annehmen. Wenn xi deterministisch ist, ist natürlich auch wi deterministisch
(‘fixed in repeated sampling’ ), also können die wi vor den Erwartungswertoperator
96
Eigenschaften des OLS-Schätzers
geschrieben werden. Für deterministische x reicht die wesentlich weniger strenge
Annahme E(εi ) = 0, damit der Schätzer unverzerrt ist, denn
X
E(b1 ) = β1 +
wi E(εi )
= β1
wenn E(εi ) = 0
Viel einfacher lässt sich zeigen, dass b0 = ȳ − b1 x̄ ebenfalls ein unverzerrter Schätzer
für β0 ist
E(b0 ) = E[(β0 + β1 x̄) − b1 x̄)] = β0
Wir fassen zusammen: b1 = cov(y, x)/ var(x) ist ein erwartungstreuer (unverzerrter)
Schätzer für β1 , wenn die Störterme der Grundgesamtheit εi mit den xi unkorreliert
sind. Bei deterministischen x reicht die wesentlich weniger strenge Annahme E(εi ) =
0.
Wir halten also fest, dass die OLS-Schätzer zumindest bei deterministischen x erwartungstreu sind, wenn E(εi ) = 0!
3.1.3
Die Varianz und Kovarianz der geschätzten OLS Koeffizienten
Wir haben mehrfach betont, dass die geschätzten Koeffizienten b0 und b1 Zufallsvariablen sind. Den Erwartungswert dieser Koeffizienten haben wir bereits berechnet
und festgestellt, dass die OLS-Schätzer zumindest für deterministische x erwartungstreu sind!
Als nächstes wollen wir die Varianzen von b0 und b1 berechnen. Diese Varianzen
werden es uns schließlich erlauben statistische Tests durchzuführen.
Die Varianz von b1 ist definiert
var(b1 ) = E[b1 − E(b1 )]2
= E[b1 − β1 ]2
(da E(b1 ) = β1 , siehe oben)
!2
X
X
= E
wi εi
(da b1 = β1 +
wi εi ; s. Gleichung (3.2))
i
2 2
w1 ε1
2 2
= E
+ w22 ε22 + · · · + wN
εN + · · ·
· · · + 2w1 w2 ε1 ε2 + · · · + 2wN −1 wN εN −1 εN )
(3.4)
Dieser letzte Ausdruck ist mit all den Kreuztermen etwas ‘unappetitlich’ lang, um
hier weiter zukommen benötigen wir zusätzliche Annahmen über die Störterme εi .
Das Problem wird massiv vereinfacht, wenn wir
εi ∼ iid 0, σ 2
annehmen.
Dies ist eine sehr kompakte Schreibweise für εi ist unabhängig und identisch verteilt
(iid steht für ‘independent and identically distributed’ ) mit E(εi ) = 0 und var(εi ) =
97
Eigenschaften des OLS-Schätzers
σ 2 ; das heißt, vor der Klammer steht die Art der Verteilung, das erste Argument
in der Klammer ist der Erwartungswert, das zweite Argument die Varianz (generell
werden in der Klammer die Parameter der Verteilung angegeben, in diesem Fall sind
dies Erwartungswert und Varianz).
Im einzelnen umfasst dies folgende Annahmen:
1. alle Störterme εi sind identisch verteilt (d.h. werden aus der gleichen Verteilung gezogen); dies kommt im zweiten i von iid (identically distributed ) zum
Ausdruck. Die Varianz dieser Verteilungen ist konstant, d.h. eine reelle Zahl
σ 2 . Anders ausgedrückt, alle εi haben die gleiche Varianz σ 2 . Ist diese Annahme erfüllt spricht man von homoskedastischen Störtermen, ist die Annahme
verletzt spricht man von Heteroskedastizität.
2. Unabhängigkeit der Ziehungen, d.h. E(εi εj ) = 0 für i 6= j (dies impliziert auch
cov(εi , εj ) = 0 für i 6= j); dies kommt im ersten i von iid (independent) zum
Ausdruck. Wenn diese Annahme verletzt ist spricht man von Autokorrelation.
3. E(εi ) = 0: Diese Annahme haben wir bereits für den Beweis der Erwartungstreue benötigt. (Wenn die x stochastisch sind wird die wesentlich strengere
Annahme E(εi |x) = 0 benötigt, d.h. der bedingte Erwartungswert der εi muss
Null sein. Damit werden wir uns erst später beschäftigen.)
Um Gleichung (3.4) zu vereinfachen benötigen wir die ersten zwei dieser drei Annahmen, d.h E(ε2i ) = σ 2 und E(εi εj ) = 0 für i 6= j.
Wenn die Annahme E(εi εj ) = 0 erfüllt ist (d.h. keine Autokorrelation vorliegt) fallen
die Kreuzterme in Gleichung (3.4) weg, deshalb gilt bei Gültigkeit dieser Annahme
!
X
2 2
var(b1 ) = E
wi εi
i
Wenn die xi (und damit automatisch auch die wi ) deterministisch sind können die
wi vor den Erwartungswertoperator gezogen werden
X
var(b1 ) =
wi2 E(ε2i )
i
Wenn zusätzlich die erste Annahme E(ε2i ) = σ 2 (keine Heteroskedastizität) erfüllt
ist gilt schließlich
X
X
var(b1 ) =
wi2 σ 2 = σ 2
wi2
i
i
2
da σ ein fixer Parameter der Grundgesamtheit ist.
Nun haben wir bereits vorhin gezeigt (Seite 94), dass
P
wi2
=
Deshalb ist die Varianz des OLS-Schätzers für b1 gleich
σ2
2
i (xi − x̄)
var(b1 ) = P
P
(
P
ẍ2i
ẍ2i )
2
=
P
1
.
(xi −x̄)2
98
Eigenschaften des OLS-Schätzers
yi = 0.5 + 0.7xi + εi ,
ε ∼ N (0, 2)
yi = 0.5 + 0.7xi + εi ,
ε ∼ N (0, 0.5)
y
6
b
y
6
b
b
5
b
b
5
b
b
b
b
b
b
4
4
b
b
b
b
b
3
b
b
b
b
2
3
2
b
b
b
1
b
1
b
0
0
1
b
2
3
4
5
6
7
x
b
b
0
0
1
2
3
4
5
6
7
x
Abbildung 3.1: ‘Wahrer’ Zusammenhang (‘Population Regression Function’)
strichliert) und Stichprobenregessionsfunktionen mit unterschiedlicher Varianz von ε (σ 2 ).
Dies ist ein wichtiges Ergebnis! Die Varianz von b1 ist ein Maß für die ‘Genauigkeit’
des Schätzers, d.h. ein Schätzer ist umso genauer, je kleiner die Varianz von b1
ist. Anhand dieser Formel können wir bereits erkennen, wovon die Präzision des
Schätzers für die Steigung β1 abhängt. Ceteris paribus ist die Varianz von b1 umso
kleiner, . . .
1. . . . je kleiner die Varianz der Grundgesamtheit σ 2 ist. Abbildung 3.1 zeigt zwei
Stichproben, die sich nur in der Varianz der Grundgesamtheit σ 2 unterscheiden
(die ‘Population Regression Function’ oder PRF ist in beiden Fällen yi =
0.5 + 0.7xi + εi , aber im linken Panel ist σ 2 = 0.5, im rechten Panel ist σ 2 = 2).
Offensichtlich ist die Schätzung umso genauer, je kleiner σ 2 ist!
P
2
2. . . . je größer die Streuung der x, d.h.
i (xi − x̄) ist, da diese im Nenner
steht. Abbildung 3.2 zeigt zwei Stichproben mit gleichem σ 2 , die sich nur in
der Streuung der x unterscheiden (im linken Panel liegen die x zwischen 0.5
und 7, im rechten Panel zwischen 2.5 und 4.5. Offensichtlich ist die Schätzung
umso genauer, je größer die Streuung (bzw. Varianz) der x ist!
P
2
3. . . . je größer der Stichprobenumfang N ist, da N
i=1 (xi − x̄) mit dem Stichprobenumfang N zunimmt. Offensichtlich können wir b1 umso genauer schätzen,
je größer die Stichprobe ist.
Ähnlich (wenngleich etwas mühsamer) kann man zeigen, dass die Varianz des
Interzepts b0 folgendermaßen berechnet werden kann:
P 2
x
Pi 2
var(b0 ) = E[b0 − E(b0 )] = σ
N ẍi
2
2
99
Eigenschaften des OLS-Schätzers
yi = 0.5 + 0.7xi + εi ,
εi ∼ N (0, 0.5)
yi = 0.5 + 0.7xi + εi ,
εi ∼ N (0, 0.5)
y
6
y
6
b
b
5
b
4
5
b
b
4
b
b
b
b
b
b
3
b
b
b
2
3
b
b
b b
b
b
b
b
1
b
0
0
b
b
b
2
b
1
b
1
2
3
4
5
6
7
0
x
0
1
2
3
4
5
6
7
x
Abbildung 3.2: Unterschiedliche Varianz der x, ‘Wahrer’ Zusammenhang (Population Regression Function PRF, strichliert) und SRF (Sample
Regression Function, durchgezogen).
Da b0 und b1 Zufallsvariablen sind kann man auch die Kovarianz zwischen den
beiden Schätzern berechnen. Diese ist definiert
cov(b0 , b1 ) = E{[b0 − E(b0 )][b1 − E(b1 )]}
= E[(b0 − β0 )(b1 − β1 )]
Wir erinnern uns, dass b0 = ȳ − b1 x̄ und bei Erwartungstreue von b1 gilt E(b0 ) =
ȳ − β1 x̄. Daraus folgt b0 − E(b0 ) = −x̄(b1 − β1 ).
Wenn wir dies oben einsetzen erhalten wir
cov(b0 , b1 ) = E[(b0 − β0 )(b1 − β1 )]
= −x̄ E(b1 − β1 )2
= −x̄ var(b1 )
Die Kovarianzen zwischen den Koeffizienten werden wir später für Tests von gemeinsamen Hypothesen (‘joint hypothesis’ ) benötigen.
Wir fassen zusammen: unter den bisher getroffenen Annahmen deterministischer x
und εi ∼ iid(0, σ 2 ) gilt
E(b1 ) = β1
var(b1 )
=
E(b0 ) = β0
var(b0 )
=
cov(b0 , b1 ) =
2
P σ
[xi −x̄]2
P 2
σ2
xi
P
N [xi −x̄]2
2
P−x̄σ 2
[xi −x̄]
100
Eigenschaften des OLS-Schätzers
3.1.4
Ein Schätzer für die Varianz des Störterms der Grundgesamtheit σ 2
Nun haben wir zwar einen Schätzer für b0 und b1 sowie eine Formel für deren Varianzen, aber in diesen Formeln für die Varianzen kommt die unbekannte Varianz des
Störterms der Grundgesamtheit σ 2 vor.
Deshalb müssen wir als nächstes einen erwartungstreuen Schätzer s2 (bzw. σ
b2 ) für
das wahre σ 2 der Grundgesamtheit herleiten.
2
Leider
P kommt das σ 2in dem nach der OLS Methode zu minimierenden Ausdruck
min i (yi − b0 − b1 xi ) nicht vor, deshalb müssen wir im folgenden einen indirekten
und teilweise etwas mühsamen Weg gehen, um einen Schätzer für σ 2 zu erhalten.2
Wir erinnern uns, das wahre Modell der Grundgesamtheit ist
yi = β0 + β1 xi + εi
und für die Mittelwerte gilt3
ȳ = β0 + β1 x̄ + ε̄
Das Modell in Abweichungsform ist also
yi − ȳ = β1 (xi − x̄) + (εi − ε̄)
Man beachte, dass das Interzept β0 bei der Differenzenbildung wegfällt.
Wir sind an einem Schätzer für die Varianz der unbeobachtbaren Störterme der
Grundgesamtheit εi interessiert. Da wir diese nicht kennen ist es naheliegend, dazu
von den beobachtbaren Stichprobenresiduen e auszugehen. Deshalb versuchen wir
einen Zusammenhang zwischen den Störtermen ε und den Stichprobenresiduen e
herzustellen (bzw. zwischen deren Varianzen).
Dazu setzen wir den wahren Zusammenhang der Grundgesamtheit ÿi = β1 ẍi +(εi −ε̄)
in den Stichproben-Zusammenhang ei = ÿi − b1 ẍi ein und erhalten
ei = β1 ẍi + (εi − ε̄) − b1 ẍi = (β1 − b1 )ẍi + (εi − ε̄)
Wir sind letztendlich an einer Varianz interessiert, deshalb quadrieren wir diesen
Ausdruck
e2i = (b1 − β1 )2 ẍ2i + (εi − ε̄)2 − 2(b1 − β1 )ẍi (εi − ε̄)
P
und summieren über alle N Beobachtungen auf (beachte, dass N
i=1 ẍi = 0)
X
X
X
X
e2i = (b1 − β1 )2
ẍ2i +
(εi − ε̄)2 − 2(b1 − β1 )
ẍi εi
und nehmen von beiden Seiten den Erwartungswert
hX i
hX
i
h
i
X
X
e2i = E(b1 − β1 )2
ẍ2i + E
E
(εi − ε̄)2 − 2E (b1 − β1 )
ẍi εi
|
{z
} |
{z
} |
{z
}
A
2
3
B
C
Die
P folgenden Ausführungen
P
Phalten sich eng an Gujarati 1995.
i y i = N β0 + β1
i xi +
i εi . Dividieren durch N gibt ȳ = β0 + β1 x̄ + ε̄.
101
Eigenschaften des OLS-Schätzers
Die folgende Rechnerei ist etwas umständlich, sie werden später sehen, dass sich dies
in Matrixschreibweise deutlich einfacher darstellen lässt.
Nun aber ans Werk! Wir haben bereits gezeigt dass
σ2
σ2
var(b1 ) = E(b1 − β1 )2 = P 2 = P
2
ẍi
i (xi − x̄)
Daraus folgt, dass der erste Term A = σ 2 .
P
Der zweite Term B = E [ i (εi − ε̄)2 ] = (N − 1)σ 2 , wenn die εi ∼ iid(0, σ 2 ), denn
"
#
"
#
X
X
2
2
2
E
(εi − ε̄)
= E
(εi − 2εi ε̄ + ε̄ )
i
i
= E
X
i

1 X
εj
N j
ε2i − 2εi
!
+
1 X
εj
N j
!2 


#
X
X
1
E
εj ) +
=
E(εi )2 − 2E
(εi
N
j
i
i
i
!
X 2
X 1 X
E(εi )2 +
E(εj )2
= Nσ 2 −
2
N
N
i
i
j
!
X
X 1 X
2
σ2 +
σ2
= Nσ 2 −
2
N i
N j
i
X
X
"
1 X
εj
N j
!2 

= Nσ 2 − 2σ 2 + σ 2
= (N − 1)σ 2
wobei wiederholt von den Annahmen E(εi )2 = σ 2 und E(εi εj ) = 0 für i 6= j (d.h.
Unabhängigkeit) Gebrauch gemacht wird.
Übungsaufgabe: Zeigen Sie, dass E(ε̄2 ) = σ 2 /N. Welche Annahmen sind dazu
erforderlich?
P
Für den dritten Term C = 2E [(b1 − β1 ) ẍi εi ] berücksichtigen wir, dass
P
P
P
ẍi ÿi
ẍi (β1 ẍi + εi )
ẍi εi
i
i
P 2
b1 = P 2 =
= β1 + Pi 2
i ẍi
i ẍi
i ẍi
P
P 2
P
weshalb
ẍi εi ] unter
i ẍi εi = (b1 − β1 )
i ẍi . Einsetzen in C = 2E [(b1 − β1 )
P
.
. . xi gibt
Berücksichtigung von var(b1 ) = E[b1 − E(b1 )]2 = σ 2 /
i
"
C = 2E (b1 − β1 )
2
X
i
ẍ2i
#
P
2σ 2 i ẍ2i
= P 2 = 2σ 2
i ẍi
Wir fassen nun die Terme A, B und C zusammen
hX i
E
e2i = σ 2 + (N − 1)σ 2 − 2σ 2 = (N − 2)σ 2
102
Eigenschaften des OLS-Schätzers
Daraus können wir wieder einen erwartungstreuen Schätzer für die Varianz der
Grundgesamtheit σ 2 bestimmen, denn aus der letzten Gleichung folgt
P
E( e2i )
= σ2
N −2
Also ist
P 2
ei
2
s :=
N −2
2
ein erwartungstreuer Schätzer für σ , weil E(s2 ) = σ 2 .
Wir können also tatsächlich aus den Stichprobenresiduen ei einen erwartungstreuen Schätzer s2 für die VarianzPder Grundgesamtheit σ 2 berechnen, indem wir die
Quadratsumme der Residuen i e2i durch die Anzahl der Freiheitsgrade N − 2 dividieren.
Die Wurzel dieses erwartungstreuen Schätzers wird in der Literatur Standardfehler
der Regression (‘standard error of regression’ oder ‘standard error of estimate’)
genannt
s := σ
b=
sP
2
i ei
N −2
(3.5)
Man beachte aber, dass wir für die Herleitung wiederholt die Annahme gemacht
haben, dass die Varianz der Störterme konstant ist, E(ε2i ) = σ 2 (d.h. keine Heteroskedastizität vorliegt), und dass die Störterme untereinander unkorreliert sind,
E(εi εj ) = 0 für i 6= j (d.h. keine Autokorrelation vorliegt).
Ist mindestens eine dieser Annahmen verletzt wird der nach obiger Formel berechnete Standardfehler der Regression falsche Ergebnisse liefern, d.h. ein verzerrter
Schätzer für σ 2 sein.4
Freiheitsgrade: Wir haben gesehen, dass wir zur Berechnung eines P
erwartungs2
treuen Schätzers für σ 2 die Quadratsumme der Stichprobenresiduen
i ei durch
N − 2 dividieren müssen, nicht durch N, wie man das ad hoc erwarten würde.
Warum ist das so?
Die Schätzung von Parametern ist eng verbunden mit der jeweils zur Verfügung stehenden Information. Für eine intuitive Erklärung erinnern wir uns an die Herleitung
des OLS-Schätzers. Dazu haben wir folgenden Ausdruck minimiert
min
b0 ,b1
N
X
i=1
e2i
= min
b0 ,b1
N
X
(yi − b0 − b1 xi )2
i=1
Für jeden zu schätzenden Parameter erhalten wir eine Bedingungen erster Ordnung
P
X
X
∂ e2i
= −2
(yi − b0 − b1 xi ) = −2
ei = 0
|
{z
}
∂b0
ei
P 2
X
X
∂ ei
= −2
(yi − b0 − b1 xi ) xi = −2
xi ei = 0
|
{z
}
∂b1
ei
4
Man beachte aber, dass wir diese beiden Annahmen nicht benötigt haben, um die Erwartungstreue der Schätzer b0 und b1 zu zeigen.
103
Eigenschaften des OLS-Schätzers
Diese beiden Gleichungen legen eine Restriktion auf die Residuen. Wenn wir z.B.
nur die Residuen e1 , e2 , . . . , eN −2 kennen würden, könnten wir die beiden fehlenden
P
Residuen
eN −1 und eN mit Hilfe dieser beiden Bedingungen 1. Ordnung i ei =
P
0,
i xi ei = 0 berechnen. Zwei der Residuen sind deshalb nicht ‘frei’, sondern
sind durch die Bedingungen erster Ordnung determiniert, und enthalten deshalb
‘keine Information’ über die Störterme der Grundgesamtheit εi . Da wir für jeden
zu schätzenden Parameter eine Bedingung erster Ordnung haben, verlieren wir mit
jedem geschätzten Parameter einen Freiheitsgrad. In diesem Fall haben wir zwei
Parameter geschätzt (b0 und b1 ), deshalb verlieren wir zwei Freiheitsgrade.
Mit Hilfe des Schätzers s (Standardfehler der Regression) können wir nun die erwartungstreuen Schätzer für die Varianz der Parameter b0 und b1 , d.h. s2b0 und s2b1
aus den Stichprobendaten berechnen, die uns später die Durchführung statistischer
Tests ermöglichen wird.
Wir fassen nochmals zusammen:
b1
=
s2b1
=
b0
s2b0
P
(xi − x̄)(yi − ȳ)
P
(xi − x̄)2
2
s
P
(xi − x̄)2
= ȳ − b1 x̄
P 2
s2
xi
P
=
N (xi − x̄)2
−x̄s2
P
(xi − x̄)2
P 2
ei
2
:= σ̂ =
N −2
cov(b0 , b1 ) =
s2
3.2
Gauss-Markov Theorem
“Beweisen muss ich diesen Käs’,
sonst ist die Arbeit unseriös.”
(F. Wille)
Bisher haben wir uns ausschließlich mit der Erwartungstreue des OLS-Schätzers und
mit der Schätzung von dessen Varianz beschäftigt. In diesem Abschnitt werden wir
nun die Effizienz des OLS-Schätzers beweisen. Das Gauss-Markov Theorem besagt
nämlich, dass der OLS-Schätzer unter bestimmten Annahmen von allen möglichen
linearen und erwartungstreuen Schätzfunktionen die kleinste Varianz hat, bzw.
104
Eigenschaften des OLS-Schätzers
Unter den (Gauss’schen) Annahmen des ‘klassischen linearen Regressionsmodells’ hat der OLS-Schätzer innerhalb der Klasse aller
linearen und erwartungstreuen Schätzfunktionen die kleinste Varianz, oder in anderen Worten, er ist BLUE, d.h. ein Best Linear
Unbiased Estimator.
Die
P OLS-Schätzfunktion
P 2
P ist – wie wir bereits gesehen haben – linear, da z.B. b1 =
( i ẍi / j ẍj ) yi = wi yi .
Wir werden nun zeigen, dass – wenn die unten angeführten Gauss-Markov Annahmen erfüllt sind – der OLS-Schätzer effizient ist, d.h. var(bOLS ) ≤ var(b∗ ) wobei b∗
jede beliebige lineare und erwartungstreue Schätzfunktion für β sein kann.
Das Gauss-Markov Theorem und die zugrunde liegenden Gauss-Markov Annahmen spielen in der Ökonometrie eine ähnlich fundamentale Rolle wie das Modell
vollständiger Konkurrenz in der Mikroökonomik, sie stellen das Referenzmodell
schlechthin dar. Einen Großteil der restlichen Veranstaltung werden wir uns mit
Fällen beschäftigen, wenn die Gauss-Markov Annahmen nicht erfüllt sind. Einige
dieser Annahmen haben wir bereits bei der Herleitung des Schätzers für σ 2 kennen
gelernt, aber wir werden sie nun noch einmal ausführlich und etwas übersichtlicher
zusammenstellen.
3.2.1
Annahmen des ‘klassischen linearen Regressionsmodells’ (CLRM)
Die Annahmen beziehen sich auf die funktionale Spezifikation des Modells (Annahme 1), auf den Störterm (Annahmen 2 – 4) oder auf die erklärenden Variablen x
(Annahmen 5 – 8).
1. Die wahre Beziehung zwischen den erklärenden Variablen x und der zu erklärenden Variablen y (d.h. die ‘Population Regression Function’ ) ist linear in
den Parametern (Wahl der richtigen Funktionsform). Wenn wir K erklärende
x Variablen haben
yi = β0 + β1 x1i + β2 x2i + · · · + βK xKi + εi
Die Parameter der Grundgesamtheit β0 , β1 , . . . , βK gelten für alle N Beobachtungen und sind konstant.
Außerdem sei das Regressionsmodell korrekt spezifiziert, d.h. es wurden die
‘richtigen’ x Variablen gewählt (Wahl der richtigen Variablen). Das bedeutet, es fehlen keine relevanten x Variablen, und die im Modell verwendeten x
Variablen sind nicht irrelevant.
2. Die Störterme ε der Grundgesamtheit haben einen Erwartungswert Null:
E(εi ) = 0
105
Eigenschaften des OLS-Schätzers
Y vs. X
Y vs. X
600
900
500
800
400
700
300
Y
Y
600
200
500
100
400
0
300
-100
200
-200
0
20
40
60
80
100
0
20
X
40
60
80
100
X
Abbildung 3.3: Heteroskedastische Störterme: Die Varianz der Störterme σ 2 ist
nicht konstant.
3. Homoskedastizität: alle εi haben die gleiche konstante Varianz σ 2 :
var(εi ) := E[εi − E(εi )]2 = E(εi )2 = σ 2
Wenn die Residuen diese Annahme verletzen spricht man von Heteroskedastizität. Abbildung 3.3 zeigt zwei Regressionen, bei denen die Annahme einer
konstanten Varianz der Grundgesamtheit offensichtlich verletzt ist, bei denen
also Heteroskedastizität vorliegt.
4. Die Störterme ε der Grundgesamtheit sind nicht autokorreliert, d.h. die Korrelation zwischen den Störtermen εi und εj für i =
6 j ist gleich Null:
E (εi εj ) = 0
für i 6= j
Wie bereits mehrfach erwähnt impliziert diese Annahme auch Cov(εi , εj ) = 0,
aber umgekehrt folgt aus einer Kovarianz von Null nicht notwendigerweise
stochastische Unabhängigkeit, da die Kovarianz nur lineare Abhängigkeiten
misst. Abbildung 3.4 zeigt zwei Fälle mit autokorrelierten Störtermen.
Die drei vorhergehenden Annahmen betreffen den Störterm der Grundgesamtheit und können folgendermaßen kompakt angeschrieben werden
εi ∼ iid(0, σ 2 )
Die restlichen Annahmen betreffen die erklärenden Variablen x.
5. Die erklärenden Variablen x sind deterministisch, d.h. die x werden bei wiederholten Stichprobenziehungen (‘repeated sampling’) als fest gegebene (deterministische) Größen angenommen. Da wir uns für die Parameter β0 , β1 und
σ 2 der bedingten Verteilung f (y|x) interessieren darf die Randverteilung von
x, d.h. f (x) keine Information über β0 , β1 oder σ 2 enthalten. Dies wird der
Fall sein, wenn der datengenerierende Prozess, der die x erzeugt, unabhängig
vom Prozess ist, der die y erzeugt.
106
Eigenschaften des OLS-Schätzers
Positive Autokorrelation: ρ = +0.8
yi = 0.5 + 0.7xi + εi , (strichliert)
εi = 0.8εi−1 + εi , εi ∼ N (0, 1)
Negative Autokorrelation: ρ = −0.9
yi = 0.5 + 0.7xi + εi , (strichliert)
εi = −0.9εi−1 + εi , εi ∼ N (0, 1)
y
6
y
6
‘Wahrer’ Zusammenhang
ŷ = β0 + β1 x
5
‘Wahrer’ Zusammenhang
ŷ = β0 + β1 x
5
b
b
4
b
3
b
2
b
b
b
OLS
ŷ = b0 + b1 x
b
b
b
b
b
b
b
b
3
b
2
b
1
OLS
ŷ = b0 + b1 x
b
4
b
b
1
b
0
0
1
2
3
4
5
6
7
x
0
0
1
2
3
4
5
6
7
x
Abbildung 3.4: Autokorrelierte Störterme: Die Störterme sind untereinander korreliert, d.h. Cov(εi , εj ) 6= 0 (strichlierte Linie:Population Regression Function, durchgezogene Linie:Sample Regression Function).
Wir werden später zeigen, dass die Annahme
E(εi |xi ) = E(εi ) = 0
das heißt, dass die auf x bedingten Erwartungswerte von ε gleich Null sind, stochastische Unabhängigkeit zwischen x und ε impliziert, was auch cov(εi , xi ) =
0 impliziert.
6. Die erklärenden Variablen x sind linear unabhängig (d.h. keine perfekte Multikollinearität).
7. Die Stichprobenvarianz von x, Var(xi ), ist eine positive und endliche Zahl.
8. Die Anzahl der Beobachtungen N ist größer als die Anzahl der zu schätzenden
Parameter K.
3.2.2
Beweis für die Effizienz des OLS-Schätzers
(Gauss-Markov Theorem)
Der Beweis der Effizienz des OLS-Schätzers ist einer der Höhepunkte jeder einführenden Ökonometrie-Veranstaltung, genießen Sie also das Folgende.5 Die Grundidee
dieses Beweises funktioniert folgendermaßen:
1. Wir gehen von einer beliebigen linearen Schätzfunktion aus.
2. Wir ermitteln die notwendigen Bedingungen, unter denen diese lineare Schätzfunktion erwartungstreu ist.
5
Wer mit dem ‘Genießen’ Probleme hat sei getröstet, Sie werden in der Veranstaltung auch
noch ‘Anwendungsorientierteres’ erleben.
107
Eigenschaften des OLS-Schätzers
3. Wir minimieren die Varianz dieser beliebigen linearen Schätzfunktion unter
der Nebenbedingung, dass diese lineare Schätzfunktion erwartungstreu ist.
4. Wir werden sehen, dass die aus der Minimierung resultierende – also varianzminimale – Schätzfunktion genau der OLS-Schätzer ist. Deshalb ist der OLS
Schätzer varianzminimal.
Allerdings werden wir im Laufe der Beweisführung einige Annahmen benötigen, die sogenannten Gauss-Markov Annahmen, die wir im letzten Kapitel
bereits aufgezählt haben, und deshalb gilt der Beweis nur unter Gültigkeit
dieser Annahmen.
Wir beginnen mit dem Steigungsparameter b1 . Um die Effizienz des OLS-Schätzers
b1 zu beweisen minimieren wir nun die Varianz von b1 unter der Nebenbedingung,
dass der Schätzer erwartungstreu sein soll.
Um die Bedingungen für die Erwartungstreue herzuleiten starten wir mit einer beliebigen linearen Schätzfunktion b̃1 (sprich b1 Schlange) für den Steigungsparameter
b̃1 =
N
X
ci y i
i=1
wobei die ci (beliebige) deterministische Gewichte sind und natürlich Funktionen
der xi sein können.
Unverzerrtheit bedeutet
E(b̃1 ) = β1
Einsetzen des obigen Schätzers gibt:
X
E(b̃1 ) = E(
ci y i )
X
=
ci E(yi )
(da ci deterministisch)
X
=
ci (β0 + β1 xi )
[E(εi ) = 0]
X
X
= β0
ci + β1
ci xi
X
X
= β1
wenn
ci = 0 und
ci xi = 1
P
Das
Schätzer für β1 ist müssen die Bedingungen
P heißt, damit
P ci yi ein unverzerrter
6
ci = 0 und
ci xi = 1 erfüllt sein.
Nun minimieren wir die Varianz von b1 unter diesen beiden Nebenbedingungen für
Unverzerrtheit.
Die Varianz von b̃1 ist
6
X
ci y i
var(b̃1 ) = var
X
=
c2i var (yi )
(weil die yi statistisch unabhängig sind)
X
X
=
c2i σ 2 = σ 2
c2i
Man beachte, dass die Gewichte wi = ẍi /
P
j
ẍ2j auf Seite 93 diese Bedingungen erfüllten.
108
Eigenschaften des OLS-Schätzers
da unter den Annahmen deterministischer x und E(εi ) = 0 gilt var(yi ) = var(εi ) =
σ 2 , weil var(yi ) := E[β0 +β1 xi +εi −E(β0 +β1 xi +εi )]2 = E[εi −E(εi )]2 ) = E(εi )2 = σ 2 .
Man beachte, dass wir dabei auch von den Gauss-Markov Annahmen über den
Störterm εi ∼ iid(0, σ 2 ) (d.h. unter anderem, keine Autokorrelation und keine Heteroskedastizität) Gebrauch gemacht haben.
Wir suchen nun P
die Gewichte cP
1 , c2 , . . . , cN , die die Varianz von b̃1 unter den Nebenbedingungen
ci = 0 und
ci xi = 1 (Erwartungstreue) minimieren. Dies ist
eine einfache Minimierungsaufgabe unter Nebenbedingungen und kann z.B. mit der
Lagrange Methode einfach gelöst werden. Da wir zwei Nebenbedingungen haben
benötigen wir zwei Lagrangemultiplikatoren λ1 und λ2 .
Die Lagrangefunktion ist
L(c1 , . . . , cN , λ1 , λ2 ) = σ 2
X
c2i − λ1
X X
ci − λ 2
ci xi − 1
und die Bedingungen erster Ordnung für ein Optimum sind
∂L
= 2c1 σ 2 − λ1 − λ2 x1 = 0
∂c1
∂L
= 2c2 σ 2 − λ1 − λ2 x2 = 0
∂c2
..
.
∂L
= 2cN σ 2 − λ1 − λ2 xN = 0
∂cN
X
∂L
=
ci = 0
∂λ1
X
∂L
=
ci xi − 1 = 0
∂λ2
Aus diesen N + 2 Gleichungen können die Unbekannten c1 , . . . , cN , λ1 und λ2 berechnet werden.
Die ersten N Gleichungen können geschrieben werden als
1
(λ1 + λ2 x1 )
2σ 2
1
=
(λ1 + λ2 x2 )
2σ 2
..
.
1
=
(λ1 + λ2 xN )
2σ 2
c1 =
c2
cN
Aufsummieren dieser Gleichungen gibt
X
i
da
P
i ci
ci = 0 =
X
1
(λ
N
+
λ
xi )
1
2
2σ 2
i
= 0 eine Bedingung erster Ordnung ist.
109
Eigenschaften des OLS-Schätzers
Wir können die erste Gleichung von obigem Gleichungssystem mit x1 , die zweite
mit x2 usw. multiplizieren
1
(λ1 x1 + λ2 x21 )
2
2σ
1
=
(λ1 x2 + λ2 x22 )
2
2σ
..
.
1
=
(λ1 xN + λ2 x2N )
2
2σ
c1 x1 =
c2 x2
cN xN
Aufsummieren gibt
X
i
wobei
P
i ci xi
1
ci xi = 1 = 2
2σ
λ1
X
xi + λ2
i
X
(x2i )
i
!
= 1 wieder eine Bedingung erster Ordnung ist.
Diese beiden Gleichungen können nach λ1 und λ2 gelöst werden (nicht so schüchtern,
versuchen Sie’s ruhig mal!)
P
−2σ 2 xi
P
P
λ1 =
N( x2i ) − ( xi )2
2Nσ 2
P 2
P
λ2 =
N( xi ) − ( xi )2
Diese Gleichungen können schließlich in
ci =
1
(λ1 + λ2 xi )
2σ 2
eingesetzt werden und geben die Lösung
P
Nxi − j xj
(xi − x̄)
ẍi
P 2
P
ci =
=P
=P 2
2
2
N( j xj ) − ( j xj )
j (xj − x̄)
j ẍj
P 2
P 2 P
1
Übungsaufgabe: Zeigen Sie, dass (x
)
−
(
xi ) = P(xi − x̄)2 . P
i
N
P
Hinweis: es ist einfacher zu zeigen, dass (xi − x̄)2 gleich (x2i ) − N1 ( xi )2 ist.
Deshalb ist
b̃1 =
n
X
i=1
P
ẍi yi
ci y i = P 2
ẍi
eine effiziente (d.h. erwartungstreue und varianzminimale) Schätzfunktion. Aber dies
ist genau die Gleichung des OLS-Schätzers (vgl. Seite 52). Damit haben wir gezeigt,
dass der OLS-Schätzer tatsächlich die minimale Varianz unter allen linearen erwartungstreuen Schätzfunktionen hat, wenn die Gauss-Markov Annahmen erfüllt sind.
QED
Dieser Ansatz liefert auch eine alternative Möglichkeit die
P Varianz von b1 zu berechnen, denn wir haben vorhin gezeigt, dass Var(b̃1 ) = σ 2 c2i .
110
Eigenschaften des OLS-Schätzers
Wir multiplizieren
P
Nxi − j xj
P
P
ci =
N( j x2j ) − ( j xj )2
mit ci und Summieren über alle i (für i, j = 1, . . . , N)
P
P P
X
N i (ci xi ) − i ci j xj
2
P
P
ci =
N( j x2j ) − ( j xj )2
Da
folgt
also
X
X
ci = 0
c2i =
N(
und
P
X
ci xi = 1
1
N
P 2 =P 2
− ( xi )
ẍi
x2i )
σ2
var(b̃1 ) = P 2
ẍi
Dies ist wiederum exakt die Varianz des OLS-Schätzers.
Ähnlich kann ein BLU7 Schätzer für b̃0 und dessen Varianz berechnet werden:
b̃0 = ȳ − b̃1 x̄
P
σ 2 ( x2i )
P
var(b̃0 ) =
N ẍ2i
Eine allgemeinere untere Abschätzung der Varianzen einer erwartungstreuen Schätzfunktion erlaubt die Rao-Cramer’sche Ungleichung (siehe z.B. Kmenta 1990, S.
160f, Frohn 1995).
3.3
Asymptotische Eigenschaften (‘Große Stichprobeneigenschaften’)
Wir haben bisher Schätzfunktionen für b0 und b1 hergeleitet, die es uns erlauben
aus den beobachtbaren Daten einer Stichprobe Informationen über interessierende
Parameter einer unbekannten Grundgesamtheit zu ermitteln. Um die Anwendbarkeit dieser Schätzer unter verschiedenen Bedingungen beurteilen zu können, müssen
deren Eigenschaften beurteilt werden können.
Die zwei wichtigsten Eigenschaften von Schätzfunktionen, die wir bisher untersucht
haben, sind die Unverzerrtheit und Effizienz. Diese Eigenschaften gelten unabhängig
von der Stichprobengröße, also auch in kleinen Stichproben. In manchen Fällen sind
auch die Stichprobenkennwertverteilungen von solchen Schätzern bekannt, zum Beispiel die Verteilung der Mittelwerte aus wiederholten Zufallsstichprobenziehungen,
die aus einer normalverteilten Grundgesamtheit gezogen wurden.
7
BLUE bedeutet Best Linear Unbiased Estimator, man spricht also von von einem BLU
Schätzer.
Eigenschaften des OLS-Schätzers
111
Aber oft kennt man die Verteilung der Grundgesamtheit nicht, und manchmal
können diese sogenannten ‘Kleine-Stichproben Eigenschaften’ aufgrund mathematischer Probleme nicht ermittelt werden. In solchen Fällen wird meist auf sogenannte
‘Große-Stichproben Eigenschaften’ (asymptotische Eigenschaften) zurückgegriffen.
Am einfachsten können die grundlegenden asymptotischen Konzepte anhand der
Verteilung des Mittelwertes einer Zufallsvariablen veranschaulicht werden. Sei X eine Zufallsvariable mit unbekannter Dichtefunktion, von der aber bekannt ist, dass
Mittelwert µ und Varianz σ 2 fixe Zahlen sind, d.h. nicht unendlich groß sind. Aus
dieser Verteilung werden N Zahlen gezogen und daraus der Stichprobenmittelwert
x̄N berechnet, wobei das tiefgestellte N angibt, auf wievielen Beobachtungen der
Stichprobenmittelwert beruht. Dieses N bringt zum Ausdruck, dass wir eigentlich
eine Folge von Schätzern untersuchen, denn wenn zusätzliche Beobachtungen dazukommen, ändert sich in der Regel auch die Schätzfunktion. Für den einfachen
Stichprobenmittelwert ist eine solche Folge von Schätzfunktionen z.B.
x1 + x2 + · · · + xN
x1 + x2 x1 + x2 + x3
,
,...,
{x̄}N = x1 ,
2
3
N
Diese Mittelwerte sind natürlich selbst wieder Zufallsvariablen mit einer Dichtefunktion f (x̄N ). Die asymptotische Theorie untersucht z.B., wie sich eine Zufallsvariable
x̄N und deren Verteilung verhält, wenn die Stichprobengröße N gegen Unendlich
geht, d.h. N → ∞.
Asymptotische Eigenschaften sind vor allem in Fällen von Bedeutung,
• in denen sich ‘kleine Stichprobeneigenschaften’ nicht ermitteln lassen, oder
• wenn man wissen möchte, ob sich der Erwartungswert einer verzerrten Schätzfunktion wenigstens mit steigender Stichprobengröße (d.h. für N → ∞) einem
wahren Parameter µ zubewegt.
Da die folgenden Ausführungen ziemlich allgemein gehalten sind schreiben wir θ für
einen beliebigen Parameter einer Verteilung, und mit θ̂ bezeichnen wir wie üblich
die Schätzfunktion für diesen Parameter (θ könnte zum Beispiel der Mittelwert µ
oder der Steigungskoeffizient β1 aus unserem früheren Beispiel sein).
3.3.1
Konsistenz (Consistency )
Die Konsistenz ist vermutlich die für uns wichtigste asymptotische Eigenschaft, da
sie in der Regel am einfachsten zu beweisen ist. Die Grundidee ist ziemlich einfach,
Konsistenz bedeutet einfach, dass ein Schätzer umso genauer werden sollte, umso
größer die Stichprobe ist.
Die formale Definition sieht zunächst etwas schwierig aus:
θ̂N ist eine konsistente Schätzfunktion für θ wenn gilt
h
i
lim P |θ̂N − θ| < δ = 1
δ>0
N →∞
das heißt, dass die Wahrscheinlichkeit(P ), dass mit steigendem Stichprobenumfang
der Absolutbetrag der Differenz zwischen θ̂N und θ kleiner als eine beliebig kleine
Zahl δ wird, gegen 1 konvergiert.
112
Eigenschaften des OLS-Schätzers
f (θ̂)
N = 10000
N = 1000
N = 100
N = 50
N = 10
θ θ̂100
θ̂10
θ̂
Abbildung 3.5: Konsistente Schätzer können in kleinen Stichproben verzerrt
sein, konvergieren aber mit steigendem Stichprobenumfang der
Wahrscheinlichkeit nach gegen den wahren Wert θ.
Etwas ungenau lässt sich dies folgendermaßen ausdrücken: wenn der Stichprobenumfang sehr sehr groß wird, wird es sehr wahrscheinlich, dass der Schätzer sehr nahe
beim wahren Wert θ der Grundgesamtheit liegt.
Wenn der Stichprobenumfang N unendlich groß wird “ kollabiert” die Dichtefunktion
einer konsistenten Schätzfunktion θ̂N im Punkt θ (siehe Abb. 3.5).
Eine hinreichende, aber nicht notwendige Bedingung für Konsistenz ist, dass
lim E(θ̂N ) = θ
N →∞
und
lim var(θ̂N ) = 0
N →∞
d.h. wenn der Schätzer asymptotisch unverzerrt 8 ist und die Varianz gegen Null
geht.
Um die tiefere Bedeutung der Konvergenz zu verstehen benötigt man einige Begriffe
aus der Stochastik, die hier nur ganz kurz gestreift werden.
Konvergenz der Wahrscheinlichkeit nach (‘Convergence in Probability’, auch
Stochastische Konvergenz genannt) ist ein zentrales Konzept zur Klärung des Verhaltens von Zufallsvariablen bei wachsendem Stichprobenumfang. Sie gibt – vereinfacht
gesprochen – an, in welchem Bereich sich im Falle unendlich vieler Experimente die
Zufallsvariable befindet. Das Konzept der stochastischen Konvergenz wird benötigt
um ‘Gesetze der großen Zahl’ zu beweisen.
Gesetze der großen Zahl Generell sind ‘Gesetze der großen Zahlen’ meist Aussagen über das Verhalten von Parametern (Mittelwerten oder anderen Momenten)
einer großen Zahl von Zufallsvariablen.
8
Asymptotische Erwartungstreue (Asymptotic Unbiasedness): θ̂N ist eine asymptotisch erwartungstreue Schätzfunktion für θ wenn gilt: limN →∞ E(θ̂N ) = θ.
113
Eigenschaften des OLS-Schätzers
Beispiel: Für eine unendliche Folge von Zufallsvariablen x1 , x2 , . . ., die alle denselben Erwartungswert µ besitzen, wird folgende Konvergenzaussage als (ein) schwaches Gesetz der großen Zahlen bezeichnet:
Das arithmetische Mittel von N Zufallsvariablen x̄N = (x1 + x2 + · · · + xN )/N
konvergiert stochastisch gegen µ; das bedeutet, für jede positive Zahl δ (beliebig
klein) gilt
lim P (|x̄N − µ| < δ) = 1
N →∞
Dieses schwache Gesetz der großen Zahl gilt beispielsweise, wenn die Zufallsvariablen
x1 , x2 , x3 , . . . endliche Varianzen σ12 , σ22 , . . . haben, die zudem durch eine gemeinsame obere Grenze beschränkt sind, sowie untereinander unkorreliert sind (d.h.,
Cov(xi , xj ) = 0, falls i 6= j).
Konsistenz eines Schätzers bedeutet, dass eine Folge von Schätzfunktionen θ̂N
stochastisch gegen das wahre θ konvergiert, also ein Gesetz der großen Zahl erfüllt
ist, oder in anderen Worten, eine Folge von Schätzfunktionen θ̂N konvergiert in
Wahrscheinlichkeit gegen den wahren Wert θ.
Dies wird oft kürzer geschrieben als
p
θ̂ −→ θ
Dafür hat sich auch die Notation des sogenannten probability-limits (plim) eingebürgert:
plim θ̂N = θ
ist also äquivalent zu
h
i
lim P |θ̂N − θ| < δ = 1
N →∞
δ>0
wobei δ beliebig klein gewählt werden kann.
Die Bedeutung der Konsistenz resultiert wesentlich daraus, dass das Rechnen mit
‘probability-limits’ relativ einfach ist.
Regeln für das Rechnen mit ‘probability-limits’
1. Wenn c eine Konstante ist gilt
plim c = c
2. Wenn θˆ1 und θˆ2 konsistente Schätzfunktionen sind gilt
plim (θ̂1 + θ̂2 ) = plim θ̂1 + plim θ̂2
plim (θ̂1 θ̂2 ) = plim θ̂1 plim θ̂2
plim
θ̂1
θ̂2
=
plim θ̂1
plim θ̂2
(für θ̂2 6= 0, plim θ̂2 6= 0)
Man beachte, dass die letzten beiden Eigenschaften für den Erwartungswertoperator nur dann gelten, wenn θˆ1 und θˆ2 stochastisch unabhängig sind. Aus
diesen Gründen ist Konsistenz üblicherweise einfacher zu beweisen als Erwartungstreue oder Effizienz.
114
Eigenschaften des OLS-Schätzers
3. Slutsky-Theorem: Wenn θ̂ eine konsistente Schätzfunktion für θ ist und h(θ̂)
eine stetige Funktion von θ̂ ist gilt:
plim h(θ̂) = h(θ)
Man sagt auch, dass sich die Konsistenz ‘überträgt’. Wenn θ̂ eine konsistente
Schätzfunktion für θ ist, dann ist z.B. 1/θ̂ auch eine konsistente Schätzfunktion
für 1/θ (für θ̂ 6= 0), oder ln θ̂ ist eine konsistente Schätzfunktion für für ln θ
(für θ̂ > 0). Dies gilt nicht für den Erwartungswertoperator!.
3.3.2
Beispiel: Unverzerrtheit und Konsistenz des OLSSchätzers bei stochastischen Regressoren (x)
Bisher haben wir angenommen, dass die erklärende Variable x deterministisch ist,
d.h. dass bei wiederholten Stichprobenziehungen nur verschiedene y gezogen werden,
aber die x fix gegeben sind.
In diesem Unterabschnitt interessieren uns die Eigenschaften des OLS-Schätzers,
wenn die erklärende Variable x ebenso stochastisch ist. Auf Seite 52 haben die die
Formel für den OLS-Schätzer bereits hergeleitet:
P
ẍi ÿi
b1 = P 2
ẍi
wobei ẍi = xi − x̄ und ÿi = yi − ȳ. Um die Erwartungstreue zu überprüfen setzen wir
wieder den wahren Zusammenhang ÿi = β1 ẍi +εi ein und bilden den Erwartungswert
P
ẍi εi
E[b1 ] = β1 + E P 2
ẍi
Wenn nun die ẍi stochastisch sind hängt die Erwartungstreue von der gemeinsamen Wahrscheinlichkeitsverteilung von ẍi und εi ab (man beachte, dass E(x/y) 6=
E(x)/ E(y)!).
Die Erwartungstreue des Schätzers b1 können wir nur zeigen wenn wir annehmen, dass alle ẍi (d.h. ẍ1 , ẍ2 , . . . ẍN ) stochastisch unabhängig von allen εi (d.h.
ε1 , ε2 , . . . εN ) sind. In diesem Fall gilt
P
X ẍi
ẍi εi
E P 2
=
E P 2 εi
ẍi
ẍi
X ẍi =
E P 2 E(εi )
ẍi
X (xi − x̄) =
E P
E(εi ) = 0
(xi − x̄)2
da E(εi ) = 0.
115
Eigenschaften des OLS-Schätzers
Um die Konsistenz zu zeigen bilden wir das probability-limit und wenden die entsprechenden Rechenregeln an
P
ẍi εi
plim b1 = plim β1 + plim P 2
ẍ
P
i
plim ẍi εi
P
= β1 +
plim ẍ2i
P
plim N1
ẍi εi
P 2
= β1 +
ẍi
plim N1
Wir haben Zähler und Nenner des zweiten Ausdrucks durch N dividiert und erhalten
damit konsistente Schätzer für die Varianz und Kovarianz der Grundgesamtheit.9
Der Schätzer b1 ist also konsistent, wann immer die Störterme der Grundgesamtheit
εi und die erklärenden Variablen ẍi unkorreliert sind, d.h. wenn
X
1
plim
ẍi εi = 0
N
da in diesem Fall
plim b1 = β1 +
0
= β1
σẍ
Im Unterschied zum Beweis für die Erwartungstreue müssen für Konsistenz nicht
alle x1 , x2 , . . . xN mit allen ε1 , ε2 , . . . εN unkorreliert sein, sondern es genügt für Konsistenz, wenn die xi einer Beobachtung oder Zeitperiode mit den entsprechenden εi
der gleichen Beobachtung oder Periode unkorreliert sind!
Wichtig ist aber nach wie vor die Annahme, dass die Störterme der Grundgesamtheit
εi mit dem Regressor xi unkorreliert sind. Ist diese Annahme nicht erfüllt ist der
OLS-Schätzer auch nicht konsistent!
Im wesentlichen verlangen wir von den Regressoren x also, dass sie nur über den
spezifizierten Zusammenhang yi = β0 + β1 xi + εi mit den y verknüpft sind, und
dass es keine anderen nicht spezifizierten Zusammenhänge zwischen x und y gibt –
wie z.B. bei simultanen Gleichungssystemen – da diese anderen nicht spezifizierten
Zusammenhänge eine Korrelation zwischen den ε und x bewirken würden, die zu
systematisch verzerrten Schätzern führt.
3.3.3
Asymptotische Normalverteilung
Ein Schätzer ist asymptotisch normalverteilt, wenn seine Stichprobenkennwertverteilung mit zunehmender Stichprobengröße gegen die Normalverteilung konvergiert.
Das dahinter liegende stochastische Konzept ist eine Konvergenz hinsichtlich der
Verteilung (‘Convergence in Distribution’ ). Vereinfacht gesprochen bedeutet dies,
dass die Verteilung einer Folge von Schätzern θ̂N aus Stichproben des Umfangs N,
die alle derselben Grundgesamtheit entnommen wurden, mit zunehmendem Stichprobenumfang in eine Normalverteilung übergeht, und das unabhängig von der Verteilung der Grundgesamtheit! Beweise der Konvergenz hinsichtlich der Verteilung
führen zu den Zentralen Grenzwertsätzen.
9
Ob wir durch N oder N − 1 dividieren spielt keine Rolle wenn N → ∞.
116
Eigenschaften des OLS-Schätzers
f (θ̂)
verzerrt, aber
kleine Varianz
erwartungstreu, aber
große Varianz
bc
b
θ
θ̂
Abbildung 3.6: Mean Square Error Abwägung zwischen erwartungstreuen
Schätzfunktionen mit großer Varianz und verzerrten Schätzfunktionen mit kleiner Varianz.
3.3.4
Asymptotische Effizienz
θ̂ sei ein Schätzer für θ. Die Varianz der asymptotischen Verteilung von θ̂ heißt
asymptotische Varianz von θ̂. Wenn θ̂ konsistent ist und die asymptotische Varianz
kleiner ist als die aller anderen konsistenten Schätzer, dann heißt θ̂ asymptotisch
effizient.
3.4
Der Mittlere Quadratische Fehler (Mean
Square Error, MSE)
Wir haben uns bisher nur mit erwartungstreuen Schätzfunktionen beschäftigt.
Manchmal ist aber keine erwartungstreue Schätzfunktion verfügbar. In solchen
Fällen wird manchmal auf den ‘Mean Square Error’ (MSE) zurückgegriffen, der
Varianz und Verzerrung zusammenfaßt und sich deshalb besonders zur Beurteilung
nicht erwartungstreuer Schätzfunktionen eignet (siehe Abb. 3.6).
Wir beginnen wieder ganz allgemein und bezeichnen einen interessierenden Parameter einer Verteilung mit θ, und den Schätzer für diesen Parameter mit θ̂. Eine
konkrete Schätzung erhält man, wenn man die Stichprobenbeobachtungen in die
Formel für θ̂ einsetzt.
Folgende Konzepte sind im folgenden von Bedeutung:
117
Eigenschaften des OLS-Schätzers
Stichprobenfehler
Verzerrung
Mean Square Error
Varianz
= θ̂ − θ
= E(θ̂) − θ
= E(θ̂ − θ)2
h
i2
= E θ̂ − E(θ̂)
Der Stichprobenfehler ist einfach der Unterschied zwischen dem Schätzer aus der
Stichprobe und dem wahren Wert der Grundgesamtheit. Die Größe des Stichprobenfehlers wird sich üblicherweise von Stichprobe zu Stichprobe unterscheiden. Die
Verzerrung ist die Differenz zwischen dem Mittelwert der Stichprobenverteilung eines
Schätzers und dem wahren Wert der Grundgesamtheit. Diese ist für einen Schätzer
ein fester Wert der Null oder ungleich Null sein kann, sich aber nicht zwischen
Stichproben unterscheidet.
Der Mean Square Error misst die Streuung der Verteilung eines Schätzers um den
wahren Wert. Er ähnelt darin der Varianz, aber während die Varianz die Streuung um den Erwartungswert der Verteilung misst, gibt der MSE die Streuung um
den wahren Wert an. Für erwartungstreue Schätzfunktionen sind Varianz und MSE
natürlich gleich, aber für nicht erwartungstreue Schätzfunktionen müssen sie unterschieden werden.
Dies kann folgendermaßen gezeigt werden:
E(θ̂ − θ)2
E[θ̂ − E(θ̂) + E(θ̂) − θ]2
E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 + 2 E[θ̂ − E(θ̂)][E(θ̂) − θ]
E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 +
+2{[E(θ̂)]2 − [E(θ̂)]2 − θ E(θ̂) + θ E(θ̂)}
= E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2
= Var(θ̂) + [Verzerrung(θ̂)]2
MSE(θ̂) =
=
=
=
Dieser Zusammenhang gilt für alle Schätzer. Akademische Forscher neigen oft dazu
unverzerrte Schätzer selbst auf Kosten eines größeren MSE zu bevorzugen, da sie
ihre Studie als eine von vielen Studien wahrnehmen und hoffen, dass sich die größere Streuung über die vielen Studien mittelt. In vielen praktischen Anwendungen
gibt es allerdings nur eine Schätzung (Studie), und da spielt es keine Rolle, ob der
Fehler aus einer systematischen Verzerrung oder einer größeren Varianz resultiert –
Fehler ist Fehler. Für Prognosen ist zum Beispiel ein kleiner MSE oft wichtiger als
Unverzerrtheit.
Herunterladen