Kapitel 1 Einige Begriffe aus der Asymptotik

Kapitel 1
Einige Begriffe aus der
Asymptotik
1.1
Wiederholung
Ein wesentlicher Teil der Ökonometrie befasst sich mit der Ermittlung von Schätzern
und deren Eigenschaften. Diese werden benötigt, um aus den beobachtbaren Daten einer Stichprobe Informationen über interessierende Parameter einer unbekannten Grundgesamtheit zu gewinnen. Schätzer (bzw. Schätzfunktionen) werden meist
als Durchschnitte oder gewichtete Durchschnitte von Stichprobendaten berechnet.
Deshalb nimmt die Bestimmung der Verteilung von Mittelwerten oder gewichteten
Durchschnitten in der Ökonometrie einen zentralen Stellenwert ein.
Die grundlegende Vorstellung ist, dass die Stichprobe das Resultat einer Zufallsziehung ist (random sampling). Aus diesem Grund ist z.B. der Mittelwert einer
Stichprobe selbst wieder eine Zufallsvariable, die eine Verteilung hat. Die Verteilung der Mittelwerte (oder anderer Parameter) wird Stichprobenkennwertverteilung
(sampling distribution) genannt.
Gehen wir vom einfachsten Fall einer einfachen Zufallsstichprobe aus. Wenn aus einer
gegebenen Grundgesamtheit eine Stichprobe mit dem Umfang n gezogen wird erhält
man x1 , . . . , xn Realisationen. Vor der tatsächlichen Ziehung ist das Ergebnis aber
noch unbekannt, deshalb kann jedes xi vor der Ziehung als Zufallsvariable betrachtet
werden, denn vor der Ziehung können die einzelnen xi jeden in der Grundgesamtheit
enthaltenen Wert annehmen; erst mit der Ziehung wird ein konkreter Wert für jedes
xi realisiert. Die Annahme, dass sich die Grundgesamtheit während der Ziehungen
nicht verändert impliziert, dass die Xi identisch verteilt sind.
Bei einer reinen Zufallsziehung kann man aus der Beobachtung von z.B. x1 keine
Schlussfolgerung auf den erwarteten Wert von x2 ziehen, die einzelnen Ziehungen
sind untereinander unabhängig. Deshalb sind die einzelnen xi (vor der Ziehung!)
i.i.d.-verteilte Zufallsvariablen (independent and identically distributed ).
Beispiel: Die Verteilung des Stichprobenmittelwertes Der Stichprobenmittelwert x̄ einer Stichprobe des Umfangs n ist
n
1X
x̄ =
xi
n i=1
1
2
Empirische Wirtschaftsforschung
Da jedes xi eine Zufallsvariable ist, ist auch der Stichprobenmittelwert x̄ eine Zufallsvariable, und die Verteilung des Stichprobenmittelwerts ist ein Beispiel für eine
Stichprobenkennwertverteilung. Der Erwartungswert und die Varianz des gewichteten Mittelwerts von x können einfach berechnet werden. Wir bezeichnen den Mittelwert und die Varianz der Grundgesamtheit mit µx und σx2 , d.h.
x ∼ i.i.d.(µx , σx2 )
Der Erwartungswert des Stichprobenmittelwertes ist
!
n
n
1X
1
1X
E(x̄) = E
xi =
E(xi ) = nµx = µx
n i=1
n i=1
n
Der Stichprobenmittelwert ist also ein erwartungstreuer Schätzer für den Mittelwert
der Grundgesamtheit.
Ähnlich kann die Varianz von x̄ berechnet werden
!
n
1X
xi
var(x̄) = var
n i=1
n
n
n
1 X
1 XX
var(xi ) + 2
cov(xi , xj )
=
n2 i=1
n i=1 j=1
i6=j
=
σx2
n
wenn cov(xi , xj ) = 0 und var(xi ) := σx2
Achtung: var(x̄) := σx̄2 ist die Varianz der Stichprobenkennwertverteilung, während
var(xi ) := σx2 die Varianz jeder einzelnen Zufallsvariablen xi bezeichnet.
Dieses Ergebnis gilt immer, wenn die Grundgesamtheit i.i.d. ist. Wenn die xi zusätzlich normalverteilt sind, sind auch auch die Mittelwerte der Stichproben normalverteilt, da die gewichtete Summe normalverteilter Zufallsvariablen selbst wieder
normalverteilt sind. Wenn also x1 , . . . , xn Ziehungen aus einer N(µx , σx2 ) Verteilung
sind, dann ist der Stichprobenmittelwert x̄ ∼ N(µx , σx2 /n).
1.2
Asymptotische Näherungen von Stichprobenkennwertverteilungen
Was vorhin für den Stichprobenmittelwert gezeigt wurde gilt – wenn die entsprechenden Annahmen erfüllt sind – ebenso gut für den OLS Schätzer.
Wir haben schon früher gezeigt, dass unter den Gauss Markov Annahmen der OLS
Schätzer erwartungstreu und effizient ist.
Wenn die Gauss Markov Annahmen erfüllt sind gelten diese Eigenschaften der Erwartungstreue und Effizienz unabhängig von der Stichprobengröße, also auch in
kleinen Stichproben. In vielen Fällen sind auch die Stichprobenkennwertverteilungen von solchen Schätzern bekannt, zum Beispiel die Verteilung der Mittelwerte
aus aus wiederholten Zufallsstichprobenziehungen, die aus einer normalverteilten
Grundgesamtheit gezogen wurden.
Empirische Wirtschaftsforschung
3
Aber oft kennt man die Verteilung der Grundgesamtheit nicht, oder die Gauss
Markov Annahmen sind nicht erfüllt, und oft können diese sogenannten ‘KleineStichproben Eigenschaften’ aufgrund mathematischer Probleme nicht ermittelt werden. In solchen Fällen wird meist auf sogenannte ‘Große-Stichproben Eigenschaften’
(asymptotische Eigenschaften) zurückgegriffen.
Die Idee dabei ist eine Näherung für die Stichprobenkennwertverteilung zu finden,
die umso genauer wird, je größer die Stichprobe wird. Diese werden auch asymptotische Verteilungen genannt, da sie sich asymptotisch der exakten Stichprobenkennwertverteilung annähern, wenn n → ∞.
Im Wesentlichen werden zwei Methoden angewandt um die Näherungen für die
Stichprobenkennwertverteilungen von großen Stichproben zu ermitteln, Gesetze der
großen Zahl und zentrale Grenzwertsätze.
Stark vereinfacht ausgedrückt garantiert das Gesetz der großen Zahl, dass in großen
Stichproben der Stichprobenmittelwert x̄ mit hoher Wahrscheinlichkeit sehr nahe
beim wahren Mittelwert der Grundgesamtheit µx liegt, oder etwas allgemeiner, dass
die Stichprobenmomente der Wahrscheinlichkeit nach gegen die entsprechenden Momente der Grundgesamtheit konvergieren. Ebenso vereinfacht ausgedrückt verspricht
der zentrale Grenzwertsatz, dass sich die Verteilung des standardisierten Mittelwertes (x̄ − µx )/σx̄ mit zunehmender Stichprobengröße der Normalverteilung annähert.
Asymptotische Ergebnisse spielen in der Ökonometrie eine wichtige Rolle, da sie in
vielen Fällen auch für relativ kleine Stichproben noch annehmbare Approximationen
liefern, und auch weil sie häufig sehr viel einfacher zu berechnen sind als die exakten
Stichprobenkennwertverteilungen.
Am einfachsten können die grundlegenden asymptotischen Konzepte wieder anhand
der Verteilung des Mittelwertes einer Zufallsvariablen veranschaulicht werden. Sei
X eine Zufallsvariable mit unbekannter Dichtefunktion, von der aber bekannt ist,
dass Mittelwert µ und Varianz σ 2 fixe Zahlen sind, d.h. nicht unendlich groß sind.1
Aus dieser Verteilung werden n Zahlen gezogen und daraus der Stichprobenmittelwert x̄n berechnet, wobei das tiefgestellte n angibt, auf wievielen Beobachtungen
der Stichprobenmittelwert beruht. Dieses n bringt zum Ausdruck, dass wir eigentlich eine Folge von Schätzern untersuchen, denn wenn zusätzliche Beobachtungen
dazukommen, ändert sich in der Regel auch die Schätzfunktion. Für den einfachen
Stichprobenmittelwert ist eine solche Folge von Schätzfunktionen z.B.
x1 + x2 x1 + x2 + x3
x1 + x2 + · · · + xn
x̄n = x1 ,
,
,...,
2
3
n
Diese Mittelwerte sind natürlich selbst wieder Zufallsvariablen mit einer Dichtefunktion f (x̄n ). Die asymptotische Theorie untersucht z.B., wie sich eine Folge von
Zufallsvariablen {x̄n } und deren Verteilung verhält, wenn die Stichprobengröße n
gegen Unendlich geht, d.h. n → ∞.
1
Die aus einer endlichen Stichprobe berechnete Varianz kann nie unendlich groß werden, sehr
wohl sind aber datengenerierende Prozesse bekannt, für die die Varianz der Grundgesamtheit unendlich groß ist!
4
Empirische Wirtschaftsforschung
1.3
Gesetze der großen Zahl, Konvergenz der
Wahrscheinlichkeit nach, Konsistenz
Generell sind ‘Gesetze der großen Zahl’ meist Aussagen über das Verhalten von
Erwartungswerten (oder anderen Momenten) einer großen Zahl von Zufallsvariablen.
Für eine unendliche Folge von Zufallsvariablen x1 , x2 , . . ., die alle denselben Erwartungswert µ besitzen, wird folgende Konvergenzaussage als schwaches Gesetz der
großen Zahlen bezeichnet:
Das arithmetische Mittel von n Zufallsvariablen x̄n = (x1 + x2 + · · · + xn )/n konvergiert stochastisch gegen µ; das bedeutet, für jede positive Zahl ǫ (beliebig klein)
gilt
lim Pr (|x̄n − µ| < ǫ) = 1
n→∞
Ein schwaches Gesetz der großen Zahl gilt beispielsweise, wenn die Zufallsvariablen
x1 , x2 , x3 , . . . endliche Varianzen σ12 , σ22 , . . . haben (d.h. große Ausreißer unwahrscheinlich sind), die zudem durch eine gemeinsame obere Grenze beschränkt sind,
sowie unkorreliert sind (d.h., cov(xi , xj ) = 0, falls i 6= j).
Der Beweis für das Gesetz der großen Zahl folgt aus Chebychev’s (dt. manchmal
Tschebyschew) Ungleichung.
Auf diesen einfachen Fall angewandt besagt Chebychev’s Ungleichung
Pr (|x̄ − µ| ≥ ǫ) ≤
var(x̄)
ǫ2
wobei x̄ eine Zufallsvariable, µ ein Parameter und ǫ > 0 eine Konstante ist.
Da xi ∼ i.i.d.(µ, σ 2 ) ist die Varianz von x̄ = σ 2 /n, und deshalb für jedes ǫ > 0 die
rechte Seite von Chebychev’s Ungleichung var(x̄)/ǫ2 = σ 2 /(nǫ2 ), und da
σ2
→0
n→∞ (nǫ2 )
lim
folgt auch für die linke Seite von Chebychev’s Ungleichung
lim Pr (|x̄ − µ| > ǫ) → 0
n→∞
Insbesondere kann ǫ auch beliebig klein sein. Dies impliziert also, dass die Wahrscheinlichkeit, dass die Differenz zwischen Stichprobenmittelwert und Mittelwert
der Grundgesamtheit größer als eine beliebig kleine konstante Zahl ist, gegen Null
konvergiert.
Exkurs: Chebychev’s Ungleichung Chebychev’s Ungleichung verwendet die
Varianz einer Zufallsvariablen V um die Wahrscheinlichkeit einzugrenzen, dass V
weiter als ±ǫ vom Erwartungswert µ entfernt liegt, wobei ǫ eine beliebige positive
Konstante ist.
Chebychev’s Ungleichung besagt in diesem Fall
Pr (|V − µ| ≥ ǫ) ≤
var(V )
ǫ2
5
Empirische Wirtschaftsforschung
Um dies zu beweisen definieren wir eine Zufallsvariable W = V − µ; außerdem sei f
die Dichtefunktion von W und ǫ eine beliebige positive Konstante. Dann gilt
2
E(W ) =
Z
+∞
w 2 f (w) dw
−∞
−ǫ
=
Z
2
w f (w) dw +
−∞
−ǫ
Z
Z
+ǫ
2
w f (w) dw +
−ǫ
+∞
w 2 f (w) dw +
+∞
w 2 f (w) dw
+ǫ
Z
w 2 f (w) dw
−∞
+ǫ
Z −ǫ
Z +∞
2
≥ ǫ
f (w) dw +
f (w) dw
−∞
+ǫ
Z
2
= ǫ
f (w) dw = ǫ2 Pr(|W | ≥ ǫ)
≥
Z
(siehe Abb. 1.1)
|W |>ǫ
= ǫ2 Pr(|V − µ| ≥ ǫ)
Die erste Gleichung folgt aus der Definition des Erwartungswertes, die zweite Gleichung folgt weil die Bereiche, über die integriert wird, über die gesamten realen
Zahlen umfasst.
Die erste Ungleichung folgt weil der weggelassene Term immer positiv ist. Die zweite
Ungleichung folgt, weil über den Bereich der Integration w 2 ≥ ǫ2 . Dies folgt aus der
quadratischen Funktionsform, wie man aus Abbildung 1.1 einfach erkennen kann.
w2
ǫ2
bc
bc
bc
bc
−ǫ
+ǫ
w
Abbildung 1.1: Für w ≤ −ǫ und w ≥ +ǫ ist w 2 ≥ ǫ2 .
Die vorletzte Gleichung folgt aus der Definition von Pr(|W | ≥ ǫ). Unter Berücksichtigung von
E(W 2 ) = E[(V − µ)2 ] = var(V )
folgt daraus Chebychev’s Ungleichung
var(V )
≥ Pr (|V − µ| ≥ ǫ)
ǫ2
vgl. Stock & Watson (2007), S. 702f.
6
Empirische Wirtschaftsforschung
Die Eigenschaft, dass mit steigendem Stichprobenumfang die Wahrscheinlichkeit,
mit der z.B. der Stichprobenmittelwert x̄ beliebig nahe beim wahren Wert µx liegt,
gegen Eins konvergiert, wird Konvergenz der Wahrscheinlichkeit nach (stochastische Konvergenz) genannt.
Konsistenz kann man in einem gewissen Sinn als eine Erweiterung des Gesetzes der
Großen Zahl für beliebige Funktionen einer Stichprobe h(X1 , X2 , . . . , Xn ) auffassen
(Spanos, 1999, 616).
Die stochastische Konvergenz ist ein zentrales Konzept zur Klärung des Verhaltens
von Zufallsvariablen bei wachsendem Stichprobenumfang. Sie gibt an, in welchem
Bereich sich im Falle unendlich vieler Experimente die Zufallsvariable befindet.
Sei X eine i.i.d.(µ, σ 2) Zufallsvariable, dann wissen wir bereits
σ2
n
d.h., x̄n ist ein unverzerrter Schätzer für jede Stichprobengröße und die Varianz geht
mit steigendem Stichprobenumfang gegen Null.
Wir können die Wahrscheinlichkeit angeben, mit der x̄n in einem beliebig kleine
ǫ-Intervall liegt
Pr(µ − ǫ < x̄n < µ + ǫ) = Pr(|x̄n − µ| < ǫ)
E(x̄n ) = µ und
var(x̄n ) =
Definition: Eine Zufallsvariable x̄n konvergiert der Wahrscheinlichkeit nach gegen
eine Konstante µ, wenn
lim Pr (|x̄n − µ| < ǫ) = 1
n→∞
oder in Kurzschreibweise
plim x̄n = µ
oder noch kürzer
p
x̄ −→ µx
Dies ist die übliche Definition von Konsistenz, d.h. der Stichprobenmittelwert ist
p
ein konsistenter Schätzer für das wahre µ, da x̄ −→ µx .
Etwas ungenau lässt sich dies folgendermaßen ausdrücken: wenn der Stichprobenumfang sehr sehr groß wird, wird es sehr wahrscheinlich, dass der Schätzer sehr nahe
beim wahren Wert µ der Grundgesamtheit liegt.
Eine hinreichende, aber nicht notwendige, Bedingung für Konsistenz ist, dass
lim E(x̄n ) = µ
n→∞
und
lim var(x̄n ) = 0
n→∞
d.h. wenn der der Schätzer asymptotisch unverzerrt ist und die Varianz mit zunehmendem Stichprobenumfang gegen Null geht.
Beispiel 1: Sei y ∼ i.i.d.(µ, σ 2 ). Ist der Schätzer m = y1 konsistent?
Dieser Schätzer verwendet nur die erste Beobachtung. Er ist erwartungstreu, da
E(m) = E(y1 ) = µ
er ist aber nicht konsistent, da
Pr(|m − µ| ≥ ǫ) = Pr(|y1 − µ| ≥ ǫ)
nicht gegen Null konvergiert wenn n → ∞, da y1 unabhängig von n ist.
7
Empirische Wirtschaftsforschung
Beispiel 2: Asymptotische Unverzerrtheit und Konsistenz sind nicht exakt das
gleiche, wie man sich anhand des folgenden – etwas seltsamen – Schätzer überlegen
kann (vgl. Murray 2006, 498): angenommen, wir möchten µ mit einem Schätzer m
schätzen, der nur zwei Werte annehmen kann, nämlich mit Wahrscheinlichkeit n1 den
Wert µ + 2n, und mit Wahrscheinlichkeit (1 − n1 ) den Wert µ + n1 .
Der Erwartungswert von m ist also
1
1
1
1
1
E(m) = (µ + 2n) + µ +
1−
=µ+2+ − 2
n
n
n
n n
Offensichtlich ist dieser Schätzer selbst dann verzerrt, wenn n gegen Unendlich geht.
Trotzdem ist dieser Schätzer konsistent, da die Wahrscheinlichkeit für die Realisation
von µ + 2n, nämlich 1/n, immer kleiner wird, und die Wahrscheinlichkeit für die
Realisation von µ + n1 zunimmt. Dies ist natürlich ein etwas konstruierter Fall, der
die Idee aber sehr schön zeigt.
Konvergenz im quadratischen Mittel (convergence in mean square oder convergence in quadratic mean) ist eine hinreichende Bedingung für Konsistenz und
häufig einfacher zu zeigen.
Wenn eine Zufallsvariable xn den Erwartungswert µ und die Varianz σ 2 hat, und
der Erwartungswert µ im Grenzwert gegen eine Konstante c geht, und die Varianz
im Grenzwert gegen Null geht, dann konvergiert xn im quadratischen Mittel gegen
c, d.h. plim(xn ) = c.
Hinreichend für die Konsistenz einer (beliebigen) Schätzfunktion θ ist also E(θ̂n ) = θ
und var(θ̂n ) → 0. Der Beweis folgt wieder aus der Chebychev’s Ungleichung.
1.3.1
Regeln für das Rechnen mit ‘probability-limits’
Der Grund, warum die Eigenschaft der Konsistenz soviel leichter zu beweisen ist als
die Unverzerrtheit, liegt v.a. darin, dass die plim’s von Funktionen von Zufallsvariablen viel leichter zu berechnen sind als die Erwartungswerte, so gilt z.B.
1. Wenn c eine Konstante ist gilt
plim c = c
2. Wenn θˆ1 und θˆ2 konsistente Schätzfunktionen sind gilt
plim (θˆ1 + θˆ2 ) = plim θˆ1 + plim θˆ2
plim (θˆ1 θˆ2 ) = plim θˆ1 plim θˆ2
θˆ1
plim θˆ1
plim
=
θˆ2
plim θˆ2
Man beachte, dass die letzten beiden Eigenschaften für den Erwartungswertoperator nur dann gelten, wenn θˆ1 und θˆ2 stochastisch unabhängig sind.
8
Empirische Wirtschaftsforschung
3. Slutsky-Theorem: Wenn θ̂ eine konsistente Schätzfunktion für θ ist und h(θ̂)
eine stetige Funktion von θ̂ ist gilt:
plim h(θ̂) = h(θ)
Man sagt auch, dass sich die Konsistenz ‘überträgt’. Wenn θ̂ eine konsistente
Schätzfunktion für θ ist, dann ist z.B. 1/θ̂ auch eine konsistente Schätzfunktion
für 1/θ, oder ln θ̂ ist eine konsistente Schätzfunktion für für ln θ (dies gilt nicht
für den Erwartungswertoperator!).
Das Slutsky-Theorem gilt auch für Funktionen von Vektoren und Matrizen
von Zufallsvariablen. So kann z.B. die Konsistenz des OLS-Schätzers gezeigt
werden (siehe Greene 2003, S. 66f).
Zusammenfassend halten wir fest, dass der Stichprobenmittelwert unter relativ wenig strengen Bedingungen ein konsistenter Schätzer für den Mittelwert der GrundgeP
samtheit ist, d.h. wenn n gegen Unendlich geht kollabiert die Verteilung von 1/n xi
um E(xi ) = µ.
Dies gilt auch genereller: wenn die Daten aus einer i.i.d. Zufallsstichprobe stammen sind unter wenig strengen Bedingungen die Stichprobenmomente konsistente
Schätzer für die wahren Momente der Grundgesamtheit.
Wenn xi ∼ i.i.d. und das r-te Moment nicht unendlich groß ist, µr ≡ E[(xi − µ)r ] <
∞, dann gilt
!
n
1X
r
(xi − x̄n ) = µr
plim
n i=1
z.B. konvergiert die Stichprobenvarianz stochastisch (der Wahrscheinlichkeit nach)
gegen die wahre Varianz der Grundgesamtheit, die Stichprobenkovarianzen gegen
die Kovarianzen der Grundgesamtheit, usw.
Wir halten also nochmals allgemeiner fest, dass aufgrund des schwachen Gesetzes
der großen Zahl Stichprobenmomente gegen Populationsmomente konvergieren.
Es gibt zahlreiche Gesetze der großen Zahl, die sich vor allem hinsichtlich der erforderlichen Annahmen unterscheiden.
Neben den (einfacheren) ‘schwachen Gesetzen der großen Zahl’, die auf stochastischer Konvergenz beruhen, gibt es auch ‘starke Gesetze der großen Zahlen’, die auf
einem allgemeinerem Konvergenzkonzept beruhen, nämlich der ‘fast sicheren Konvergenz’.
Als starkes Gesetz der großen Zahlen wird folgende Konvergenzaussage für eine unendliche Folge von Zufallsvariablen x1 , x2 , x3 , . . . mit Erwartungswert µ bezeichnet:
Pr lim x̄n = µ = 1
n→∞
d. h., die repräsentative Stichprobe konvergiert fast sicher gegen µ. Das starke Gesetz der großen Zahlen impliziert das schwache Gesetz der großen Zahlen.
Für die Gültigkeit des starken Gesetzes der großen Zahlen ist in der Regel die Annahme erforderlich, dass alle Zufallsvariablen dieselbe Verteilung haben und untereinander unabhängig sind.
Siehe z.B. http://de.wikipedia.org/wiki/Kategorie:Stochastik
9
Empirische Wirtschaftsforschung
1.3.2
Beispiel: Konsistenz des OLS-Schätzers bei stochastischen Regressoren (x)
In diesem Unterabschnitt interessieren uns die Eigenschaften des OLS-Schätzers,
wenn die erklärende Variable x ebenso stochastisch ist. Wir beginnen mit dem bivariaten Fall
P
ẍi ÿi
βb2 = P 2
ẍi
wobei ẍi = xi − x̄ und ÿi = yi − ȳ. Um die Erwartungstreue zu überprüfen setzen wir
wieder den wahren Zusammenhang ÿi = β2 ẍi +εi ein und bilden den Erwartungswert
P
ẍi εi
b
E[β2 ] = β2 + E P 2
ẍi
Wenn nun die ẍi stochastisch sind hängt die Erwartungstreue von der gemeinsamen Wahrscheinlichkeitsverteilung von ẍi und εi ab (man beachte, dass E(x/y) 6=
E(x)/ E(y)!).
Um die Konsistenz zu zeigen bilden wir das probability-limit und wenden die entsprechenden Rechenregeln an
P
ẍi εi
b
plim β2 = plim β2 + plim P 2
ẍ
P
i
plim ẍi εi
P
= β2 +
plim ẍ2i
P
plim n1
ẍi εi
P 2
= β2 +
plim n1
ẍi
Wir haben Zähler und Nenner des zweiten Ausdrucks durch n dividiert und erhalten
damit konsistente Schätzer für die Varianz und Kovarianz der Grundgesamtheit.2
Der Schätzer βb2 ist also konsistent, wann immer die Störterme der Grundgesamtheit
εi und die erklärenden Variablen ẍi unkorreliert sind, d.h. wenn
X
1
plim
ẍi εi = 0
n
P 2
und wenn plim n1
ẍi > 0.
In diesem Fall gilt
plim βb2 = β2 +
0
= β2
σẍ
Im Unterschied zum Beweis für die Erwartungstreue müssen für Konsistenz nicht
alle x1 , x2 , . . . xn mit allen ε1 , ε2 , . . . εn unkorreliert sein, sondern es genügt für Konsistenz, wenn die xi einer Beobachtung oder Zeitperiode mit den entsprechenden εi
der gleichen Beobachtung oder Periode unkorreliert sind!
2
Ob wir durch n oder n − 1 dividieren spielt keine Rolle wenn n → ∞.
10
Empirische Wirtschaftsforschung
Wichtig ist aber nach wie vor die Annahme, dass die Störterme der Grundgesamtheit
εi mit dem Regressor xi unkorreliert sind. Ist diese Annahme nicht erfüllt ist der
OLS-Schätzer auch nicht konsistent!
Im wesentlichen verlangen wir von den Regressoren x also, dass sie nur über den
spezifizierten Zusammenhang yi = β1 + β2 xi + εi mit den y verknüpft sind, und
dass es keine anderen nicht spezifizierten Zusammenhänge zwischen x und y gibt –
wie z.B. bei simultanen Gleichungssystemen – da diese anderen nicht spezifizierten
Zusammenhänge eine Korrelation zwischen den ε und x bewirken würden, die zu
systematisch verzerrten Schätzern führt.
Konsistenz des OLS-Schätzers in Matrixschreibweise
Wir definieren x als einen k × 1 Spaltenvektor derart, dass x′i die i-te Zeile der X
Matrix ist


x1i
x2i 
 
xi =  .. 
 . 

x′1
 x′ 
 2
X =  .. 
 . 

und
x′n
xki
Damit kann y = Xβ + ε beobachtungsweise geschrieben werden als
yi = x′i β + εi
und der OLS Schätzer
′
−1
′
β̂ = (X X) X y =
n
X
i=1
xi x′i
!−1
n
X
xi y i
i=1
Ein häufig angewandter Trick in der Asymptotik besteht darin, den Schätzfehler als
Funktion von Mittelwerten zu schreiben (siehe Greene, 2007, p. 64f)
β̂ − β = (X ′ X)−1 X ′ ε
−1
1 ′
1 ′
=
XX
Xε
n
n


−1
 
x1
ε
 .  1
 .1 
1
x1 , . . . , xn  .. 
=  x1 , . . . , xn  .. 
n
n
xn
εn
!
−1
n
n
1X
1X
′
=
xi xi
xi εi
n i=1
n i=1
Wenn β̂n = (Xn′ Xn )−1 Xn′ yn = β0 + (Xn′ Xn )−1 Xn′ εn der OLS-Schätzer für βn für
eine Stichprobe der Größe n ist, dann ist jedes Element der Folge {β̂n }∞
n=k wieder
eine Zufallsvariable.
Mit stochastischen x benötigen eine Annahme über die Daten
plimn→∞
Xn′ Xn
=Q
n
sei eine positiv definite Matrix.
11
Empirische Wirtschaftsforschung
Der OLS-Schätzer kann geschrieben werden
′ −1 ′ Xε
XX
β̂ = β +
n
n
wenn Q−1 existiert ist
−1
plim β̂ = β + Q
und wenn
plim
X ′ε
n
plim
X ′ε
n
=0
was unter weniger strengen Bedingungen als E(X ′ ε) = 0 gilt, dann ist
plim β̂ = β + Q−1 · 0 = β
1.4
Konvergenz hinsichtlich der Verteilung (Convergence in Distribution)
Für die statistische Absicherung der Schätzungen benötigt man die Verteilung des
Schätzers, d.h. die Stichprobenkennwertverteilung, um z.B. die Konfidenzintervalle
berechnen zu können. Deshalb ist die nächste Frage, wie sich die Verteilung von x̄n
mit steigendem n verhält. Wenn die Verteilung einzelner xi unbekannt ist ist, so ist
z.B. auch die Verteilung des Mittelwerts x̄n – eine Linearkombination der einzelnen
xi – unbekannt.
Aber wenn die Stichprobengröße n gegen Unendlich geht kann man eine asymptotische Stichprobenkennwertverteilung bestimmen.
Auf den ersten Blick scheint es ein Problem zu geben: wenn ein Schätzer konsistent ist, wird mit steigendem Stichprobenumfang die Varianz der Schätzfunktion
im Grenzwert gegen Null gehen, d.h. die die Verteilung kollabiert bei µ; man sagt
auch, die Verteilung ‘degeneriert’.
Wie sollte also eine asymptotische Verteilung aussehen, wenn diese für alle konsistenten Schätzfunktionen degeneriert?
Der Trick besteht darin eine Funktion von x̄n zu suchen, deren Verteilung weder
degeneriert noch explodiert, die sogenannte Grenzverteilung (limiting distribution).
Beispiel: Wir vergleichen zwei Schätzfunktionen βb1 und βb2 mit
E(βb1 ) = β
E(βb2 ) = β
und
σ2
σ2
var(βb1 ) =
var(βb2 ) =
n
n2
Wenn n → ∞ kollabieren beide Verteilungen um β, aber βb2 kollabiert offensichtlich ‘schneller’. Wenn n sehr groß wird, wird es zunehmend schwieriger zwischen
12
Empirische Wirtschaftsforschung
den beiden zu unterscheiden, da beide Varianzen sehr klein werden, man bräuchte
gewissermaßen ein ‘Vergrößerungsglas’.
Man könnte die Schätzfunktionen z.B. mit n multiplizieren, um die Verteilung zu
‘stabilisieren’. Aber wenn n → ∞ explodieren die ersten Momente nβb1 und nβb2 , da
E(nβb1 ) = n E(βb1 ) = nβ
und
E(nβb2 ) = n E(βb2 ) = nβ
Die Lösung dieses Problems besteht darin, dass man die Fehler untersucht, die
weiterhin um Null schwanken
E[n(βb1 − β)] = E[n(βb2 − β)] = nβ − nβ = 0
Was passiert mit der Varianz von βb1 ?
var[n(βb1 − β)] = n2 var(βb1 − β) = n2 var(βb1 ) = n2
σ2
n
= nσ 2
Wenn n → ∞ geht die Varianz von n(βb1 − β) gegen Unendlich, sie explodiert.
Anders für βb2
var[n(βb2 − β)] = n var(βb2 − β) = n var(βb2 ) = n
2
2
2
σ2
n2
= σ2
Wenn n → ∞ konvergiert die Varianz von n(βb2 − β) gegen σ 2 !
Deshalb hat n(βb2 − β) eine stabile asymptotische Verteilung mit Mittelwert Null
und Varianz σ 2 .
Offensichtlich kann man auch die Verteilung von βb1 stabilisieren, wenn man βb1 mit
√
n multipliziert, denn
2
√
σ
= σ2
var[ n(βb1 − β)] = n var(βb1 − β) = n var(βb1 ) = n
n
√
Wenn n → ∞ konvergiert die Varianz von n(βb1 − β) gegen σ 2 , d.h. die asympto√
tische Verteilung von n(βb1 − β) hat einen Mittelwert Null und Varianz σ 2 .
Durch Multiplikation der Fehler b−β mit einer Potenz von n kann die Verteilung also
‘stabilisiert’ werden. Diese ‘stabilisierte’ Verteilung wird Grenzverteilung (‘limiting distribution’ ) genannt. Die Potenz von n, die zu einer stabilen asymptotischen
Verteilung führt, wird ‘Konvergenzrate’
genannt. Die Konvergenzgeschwindigkeit
√
b
von β1 − β ist also Wurzel n ( n), die Konvergenzgeschwindigkeit von βb2 − β ist n.
Offensichtlich konvergiert βb2 schneller als βb1 .
Wenn Schätzer mit der gleichen Konvergenzgeschwindigkeit verglichen werden, dann
heißt der Schätzer mit der kleinsten asymptotischen Varianz asymptotisch effizient
innerhalb der Klasse mit dieser Konvergenzgeschwindigkeit.
13
Empirische Wirtschaftsforschung
Übungsbeispiel:
P
Gegeben seien zwei Schätzfunktionen βb1 und βb2 mit
σ2
b
β1 ∼ N β, 3 P 2
n
xi
!
2
σ
P
βb2 ∼ N β, 3
n 1 − n1 ( x2i )2
x2i → Q mit 1 < Q < ∞ (Q sei eine endliche reelle Zahl größer Eins).
Wie groß ist die Konvergenzgeschwindigkeit von (βb1 − β) und βb2 − β? Welcher
Schätzer ist asymptotisch effizienter?
wobei
Konvergenz hinsichtlich der Verteilung Sei F1 , F2 , . . . , Fn , . . . eine Folge von Verteilungsfunktionen einer entsprechenden Folge von Zufallsvariablen
b1 , b2 , . . . , bn , . . . (z.B. standardisierte Mittelwerte (ȳ − µȳ )/σȳ ), dann konvergiert
d
die Folge der Zufallsvariablen bn der Verteilung nach gegen β, geschrieben bn −→ β,
wenn die Folge der Verteilungsfunktionen Fn gegen F konvergiert, der Verteilung
von β, d.h.
d
bn −→ β wenn und nur wenn lim Fn (t) = F (t)
n→∞
wobei der Grenzwert in allen Punkten t gilt, in denen die Grenzverteilung F stetig
ist. F wird auch die asymptotische Verteilung von bn genannt.
Man beachte die Unterschiede zwischen der Konvergenz der Wahrscheinlichkeit nach
und Konvergenz hinsichtlich der Verteilung. Konvergenz der Wahrscheinlichkeit nach
p
– bn −→ β – bedeutet, dass die Wahrscheinlichkeit dafür, dass bn nahe bei β liegt,
mit zunehmendem n steigt.
d
Konvergenz hinsichtlich der Verteilung – bn −→ β – bedeutet, dass die Verteilung
von bn mit zunehmenden n immer ähnlicher der Verteilung von β wird.
Zentraler Grenzwertsatz
Bei den Zentralen Grenzwertsätzen handelt es sich um eine Familie schwacher Konvergenzaussagen aus der Wahrscheinlichkeitstheorie. Allen gemeinsam ist die Aussage, dass die (normierte) Summe einer großen Zahl von unabhängigen, identisch
verteilten Zufallsvariablen annähernd (standard)normalverteilt ist. Dies erklärt auch
die Sonderstellung der Normalverteilung.
Die wichtigste und bekannteste Aussage wird auch einfach als “Der Zentrale Grenzwertsatz” bezeichnet und befasst sich mit unabhängigen, identisch verteilten Zufallsvariablen, deren Erwartungswert und Varianz endlich sind.
√
Z y
n(x̄n − µ)
1
2
√ e−z /2 dz
lim Pr
≤y =
n→∞
σ
2π
−∞
oder einfacher
√
d
n (x̄ − µx ) −→ N(0, σx2 )
14
Empirische Wirtschaftsforschung
d.h. √
wenn xi ∼ i.i.d.(µ, σ 2 ) und 0 < σ 2 < ∞, dann konvergiert die Verteilung
von n(x̄ − µ) gegen die Normalverteilung mit Mittelwert Null und Varianz σ 2 ,
unabhängig von der Verteilung der xi .
Dies gilt auch für den multivariaten Fall. Seien y1 , . . . yk i.i.d. n × 1 Spaltenvektoren mit den Erwartungswertvektoren E(yk ) = µk und der Kovarianzmatrix
E(yi − µ)(yi − µ)′ = Σ, wobei Σ positiv definit und nicht unendlich groß sei, dann
gilt
√
d
n(ȳ − µ) −→ N(0, Σ)
P
wobei ȳ = n1 ni=1 yi .
Es existieren verschiedene Verallgemeinerungen, für die eine identische Verteilung keine notwendige Voraussetzung ist. Stattdessen wird dann eine andere
Voraussetzung gefordert, die sicher stellt, dass keine der Variablen einen zu
großen Einfluss auf das Ergebnis erhält.3 Darüber hinausgehende Verallgemeinerungen gestatten sogar “schwache” Abhängigkeit der Zufallsvariablen. Siehe:
http://de.wikipedia.org/wiki/Kategorie:Stochastik
Mit Hilfe der zentralen Grenzwertsätze kann auch die asymptotische Normalverteilung des OLS-Schätzers gezeigt werden.
Der OLS-Schätzer ist
β̂ = β +
oder
√
n(β̂ − β) =
X ′X
n
−1 X ′X
n
X ′ε
n
−1 1
√
n
X ′ε
unter einer Reihe von Annahmen (z.B. Unabhängigkeit der Beobachtungen) gilt
1
d
√
X ′ ε → N(0, σ 2 Q)
n
wobei Q = plimn→∞ Xn′ Xn /n eine positiv definite Matrix sei.
und in weiterer Konsequenz
√
d
n(β̂ − β) → N(0, σ 2 Q−1 )
woraus schließlich die asymptotische Verteilung von β̂ für unabhängige Beobachtungen folgt:
Wenn die {εi } unabhängig verteilt sind mit Mittelwert Null und endlicher Varianz
σ 2 , sowie die xik die Grenander Bedingungen (siehe Greene 2003, S. 68) erfüllen,
dann gilt
σ 2 −1
a
β̂ ∼ N β,
Q
n
wobei (1/n)Q−1 mit (X ′ X)−1 und σ 2 mit ε̂′ ε̂/(n − k) geschätzt wird.
3
Siehe Grenander Bedingungen, z.B. Greene 2003, S. 68.
Empirische Wirtschaftsforschung
15
Literaturverzeichnis
Angrist, J. D. and Pischke, J.-S. (2008), Mostly Harmless Econometrics: An Empiricist’s Companion, Princeton University Press.
Greene, W. H. (2007), Econometric Analysis, 6th edn, Prentice Hall. 10
Long, J. S. and Ervin, L. H. (2000), ‘Using heteroscedasticity consistent standard
errors in the linear regression model’, The American Statistician 54(3), 217–224.
URL: http://www.jstor.org/stable/2685594
Spanos, A. (1999), Probability Theory and Statistical Inference: Econometric Modeling with Observational Data, Cambridge University Press. 6