Kapitel 1 Einige Begriffe aus der Asymptotik

Werbung
Kapitel 1
Einige Begriffe aus der
Asymptotik
1.1
Wiederholung
Ein wesentlicher Teil der Ökonometrie befasst sich mit der Ermittlung von Schätzern
und deren Eigenschaften. Diese werden benötigt, um aus den beobachtbaren Daten einer Stichprobe Informationen über interessierende Parameter einer unbekannten Grundgesamtheit zu gewinnen. Schätzer (bzw. Schätzfunktionen) werden meist
als Durchschnitte oder gewichtete Durchschnitte von Stichprobendaten berechnet.
Deshalb nimmt die Bestimmung der Verteilung von Mittelwerten oder gewichteten
Durchschnitten in der Ökonometrie einen zentralen Stellenwert ein.
Die grundlegende Vorstellung ist, dass die Stichprobe das Resultat einer Zufallsziehung ist (random sampling). Aus diesem Grund ist z.B. der Mittelwert einer
Stichprobe selbst wieder eine Zufallsvariable, die eine Verteilung hat. Die Verteilung der Mittelwerte (oder anderer Parameter) wird Stichprobenkennwertverteilung
(sampling distribution) genannt.
Gehen wir vom einfachsten Fall einer einfachen Zufallsstichprobe aus. Wenn aus einer
gegebenen Grundgesamtheit eine Stichprobe mit dem Umfang n gezogen wird erhält
man x1 , . . . , xn Realisationen. Vor der tatsächlichen Ziehung ist das Ergebnis aber
noch unbekannt, deshalb kann jedes xi vor der Ziehung als Zufallsvariable betrachtet
werden, denn vor der Ziehung können die einzelnen xi jeden in der Grundgesamtheit
enthaltenen Wert annehmen; erst mit der Ziehung wird ein konkreter Wert für jedes
xi realisiert. Die Annahme, dass sich die Grundgesamtheit während der Ziehungen
nicht verändert impliziert, dass die Xi identisch verteilt sind.
Bei einer reinen Zufallsziehung kann man aus der Beobachtung von z.B. x1 keine
Schlussfolgerung auf den erwarteten Wert von x2 ziehen, die einzelnen Ziehungen
sind untereinander unabhängig. Deshalb sind die einzelnen xi (vor der Ziehung!)
i.i.d.-verteilte Zufallsvariablen (independent and identically distributed ).
Beispiel: Die Verteilung des Stichprobenmittelwertes Der Stichprobenmittelwert x̄ einer Stichprobe des Umfangs n ist
n
1X
x̄ =
xi
n i=1
1
2
Empirische Wirtschaftsforschung
Da jedes xi eine Zufallsvariable ist, ist auch der Stichprobenmittelwert x̄ eine Zufallsvariable, und die Verteilung des Stichprobenmittelwerts ist ein Beispiel für eine
Stichprobenkennwertverteilung. Der Erwartungswert und die Varianz des gewichteten Mittelwerts von x können einfach berechnet werden. Wir bezeichnen den Mittelwert und die Varianz der Grundgesamtheit mit µx und σx2 , d.h.
x ∼ i.i.d.(µx , σx2 )
Der Erwartungswert des Stichprobenmittelwertes ist
!
n
n
1X
1
1X
E(x̄) = E
xi =
E(xi ) = nµx = µx
n i=1
n i=1
n
Der Stichprobenmittelwert ist also ein erwartungstreuer Schätzer für den Mittelwert
der Grundgesamtheit.
Ähnlich kann die Varianz von x̄ berechnet werden
!
n
1X
xi
var(x̄) = var
n i=1
n
n
n
1 X
1 XX
var(xi ) + 2
cov(xi , xj )
=
n2 i=1
n i=1 j=1
i6=j
=
σx2
n
wenn cov(xi , xj ) = 0 und var(xi ) := σx2
Achtung: var(x̄) := σx̄2 ist die Varianz der Stichprobenkennwertverteilung, während
var(xi ) := σx2 die Varianz jeder einzelnen Zufallsvariablen xi bezeichnet.
Dieses Ergebnis gilt immer, wenn die Grundgesamtheit i.i.d. ist. Wenn die xi zusätzlich normalverteilt sind, sind auch auch die Mittelwerte der Stichproben normalverteilt, da die gewichtete Summe normalverteilter Zufallsvariablen selbst wieder
normalverteilt sind. Wenn also x1 , . . . , xn Ziehungen aus einer N(µx , σx2 ) Verteilung
sind, dann ist der Stichprobenmittelwert x̄ ∼ N(µx , σx2 /n).
1.2
Asymptotische Näherungen von Stichprobenkennwertverteilungen
Was vorhin für den Stichprobenmittelwert gezeigt wurde gilt – wenn die entsprechenden Annahmen erfüllt sind – ebenso gut für den OLS Schätzer.
Wir haben schon früher gezeigt, dass unter den Gauss Markov Annahmen der OLS
Schätzer erwartungstreu und effizient ist.
Wenn die Gauss Markov Annahmen erfüllt sind gelten diese Eigenschaften der Erwartungstreue und Effizienz unabhängig von der Stichprobengröße, also auch in
kleinen Stichproben. In vielen Fällen sind auch die Stichprobenkennwertverteilungen von solchen Schätzern bekannt, zum Beispiel die Verteilung der Mittelwerte
aus aus wiederholten Zufallsstichprobenziehungen, die aus einer normalverteilten
Grundgesamtheit gezogen wurden.
Empirische Wirtschaftsforschung
3
Aber oft kennt man die Verteilung der Grundgesamtheit nicht, oder die Gauss
Markov Annahmen sind nicht erfüllt, und oft können diese sogenannten ‘KleineStichproben Eigenschaften’ aufgrund mathematischer Probleme nicht ermittelt werden. In solchen Fällen wird meist auf sogenannte ‘Große-Stichproben Eigenschaften’
(asymptotische Eigenschaften) zurückgegriffen.
Die Idee dabei ist eine Näherung für die Stichprobenkennwertverteilung zu finden,
die umso genauer wird, je größer die Stichprobe wird. Diese werden auch asymptotische Verteilungen genannt, da sie sich asymptotisch der exakten Stichprobenkennwertverteilung annähern, wenn n → ∞.
Im Wesentlichen werden zwei Methoden angewandt um die Näherungen für die
Stichprobenkennwertverteilungen von großen Stichproben zu ermitteln, Gesetze der
großen Zahl und zentrale Grenzwertsätze.
Stark vereinfacht ausgedrückt garantiert das Gesetz der großen Zahl, dass in großen
Stichproben der Stichprobenmittelwert x̄ mit hoher Wahrscheinlichkeit sehr nahe
beim wahren Mittelwert der Grundgesamtheit µx liegt, oder etwas allgemeiner, dass
die Stichprobenmomente der Wahrscheinlichkeit nach gegen die entsprechenden Momente der Grundgesamtheit konvergieren. Ebenso vereinfacht ausgedrückt verspricht
der zentrale Grenzwertsatz, dass sich die Verteilung des standardisierten Mittelwertes (x̄ − µx )/σx̄ mit zunehmender Stichprobengröße der Normalverteilung annähert.
Asymptotische Ergebnisse spielen in der Ökonometrie eine wichtige Rolle, da sie in
vielen Fällen auch für relativ kleine Stichproben noch annehmbare Approximationen
liefern, und auch weil sie häufig sehr viel einfacher zu berechnen sind als die exakten
Stichprobenkennwertverteilungen.
Am einfachsten können die grundlegenden asymptotischen Konzepte wieder anhand
der Verteilung des Mittelwertes einer Zufallsvariablen veranschaulicht werden. Sei
X eine Zufallsvariable mit unbekannter Dichtefunktion, von der aber bekannt ist,
dass Mittelwert µ und Varianz σ 2 fixe Zahlen sind, d.h. nicht unendlich groß sind.1
Aus dieser Verteilung werden n Zahlen gezogen und daraus der Stichprobenmittelwert x̄n berechnet, wobei das tiefgestellte n angibt, auf wievielen Beobachtungen
der Stichprobenmittelwert beruht. Dieses n bringt zum Ausdruck, dass wir eigentlich eine Folge von Schätzern untersuchen, denn wenn zusätzliche Beobachtungen
dazukommen, ändert sich in der Regel auch die Schätzfunktion. Für den einfachen
Stichprobenmittelwert ist eine solche Folge von Schätzfunktionen z.B.
x1 + x2 x1 + x2 + x3
x1 + x2 + · · · + xn
x̄n = x1 ,
,
,...,
2
3
n
Diese Mittelwerte sind natürlich selbst wieder Zufallsvariablen mit einer Dichtefunktion f (x̄n ). Die asymptotische Theorie untersucht z.B., wie sich eine Folge von
Zufallsvariablen {x̄n } und deren Verteilung verhält, wenn die Stichprobengröße n
gegen Unendlich geht, d.h. n → ∞.
1
Die aus einer endlichen Stichprobe berechnete Varianz kann nie unendlich groß werden, sehr
wohl sind aber datengenerierende Prozesse bekannt, für die die Varianz der Grundgesamtheit unendlich groß ist!
4
Empirische Wirtschaftsforschung
1.3
Gesetze der großen Zahl, Konvergenz der
Wahrscheinlichkeit nach, Konsistenz
Generell sind ‘Gesetze der großen Zahl’ meist Aussagen über das Verhalten von
Erwartungswerten (oder anderen Momenten) einer großen Zahl von Zufallsvariablen.
Für eine unendliche Folge von Zufallsvariablen x1 , x2 , . . ., die alle denselben Erwartungswert µ besitzen, wird folgende Konvergenzaussage als schwaches Gesetz der
großen Zahlen bezeichnet:
Das arithmetische Mittel von n Zufallsvariablen x̄n = (x1 + x2 + · · · + xn )/n konvergiert stochastisch gegen µ; das bedeutet, für jede positive Zahl ǫ (beliebig klein)
gilt
lim Pr (|x̄n − µ| < ǫ) = 1
n→∞
Ein schwaches Gesetz der großen Zahl gilt beispielsweise, wenn die Zufallsvariablen
x1 , x2 , x3 , . . . endliche Varianzen σ12 , σ22 , . . . haben (d.h. große Ausreißer unwahrscheinlich sind), die zudem durch eine gemeinsame obere Grenze beschränkt sind,
sowie unkorreliert sind (d.h., cov(xi , xj ) = 0, falls i 6= j).
Der Beweis für das Gesetz der großen Zahl folgt aus Chebychev’s (dt. manchmal
Tschebyschew) Ungleichung.
Auf diesen einfachen Fall angewandt besagt Chebychev’s Ungleichung
Pr (|x̄ − µ| ≥ ǫ) ≤
var(x̄)
ǫ2
wobei x̄ eine Zufallsvariable, µ ein Parameter und ǫ > 0 eine Konstante ist.
Da xi ∼ i.i.d.(µ, σ 2 ) ist die Varianz von x̄ = σ 2 /n, und deshalb für jedes ǫ > 0 die
rechte Seite von Chebychev’s Ungleichung var(x̄)/ǫ2 = σ 2 /(nǫ2 ), und da
σ2
→0
n→∞ (nǫ2 )
lim
folgt auch für die linke Seite von Chebychev’s Ungleichung
lim Pr (|x̄ − µ| > ǫ) → 0
n→∞
Insbesondere kann ǫ auch beliebig klein sein. Dies impliziert also, dass die Wahrscheinlichkeit, dass die Differenz zwischen Stichprobenmittelwert und Mittelwert
der Grundgesamtheit größer als eine beliebig kleine konstante Zahl ist, gegen Null
konvergiert.
Exkurs: Chebychev’s Ungleichung Chebychev’s Ungleichung verwendet die
Varianz einer Zufallsvariablen V um die Wahrscheinlichkeit einzugrenzen, dass V
weiter als ±ǫ vom Erwartungswert µ entfernt liegt, wobei ǫ eine beliebige positive
Konstante ist.
Chebychev’s Ungleichung besagt in diesem Fall
Pr (|V − µ| ≥ ǫ) ≤
var(V )
ǫ2
5
Empirische Wirtschaftsforschung
Um dies zu beweisen definieren wir eine Zufallsvariable W = V − µ; außerdem sei f
die Dichtefunktion von W und ǫ eine beliebige positive Konstante. Dann gilt
2
E(W ) =
Z
+∞
w 2 f (w) dw
−∞
−ǫ
=
Z
2
w f (w) dw +
−∞
−ǫ
Z
Z
+ǫ
2
w f (w) dw +
−ǫ
+∞
w 2 f (w) dw +
+∞
w 2 f (w) dw
+ǫ
Z
w 2 f (w) dw
−∞
+ǫ
Z −ǫ
Z +∞
2
≥ ǫ
f (w) dw +
f (w) dw
−∞
+ǫ
Z
2
= ǫ
f (w) dw = ǫ2 Pr(|W | ≥ ǫ)
≥
Z
(siehe Abb. 1.1)
|W |>ǫ
= ǫ2 Pr(|V − µ| ≥ ǫ)
Die erste Gleichung folgt aus der Definition des Erwartungswertes, die zweite Gleichung folgt weil die Bereiche, über die integriert wird, über die gesamten realen
Zahlen umfasst.
Die erste Ungleichung folgt weil der weggelassene Term immer positiv ist. Die zweite
Ungleichung folgt, weil über den Bereich der Integration w 2 ≥ ǫ2 . Dies folgt aus der
quadratischen Funktionsform, wie man aus Abbildung 1.1 einfach erkennen kann.
w2
ǫ2
bc
bc
bc
bc
−ǫ
+ǫ
w
Abbildung 1.1: Für w ≤ −ǫ und w ≥ +ǫ ist w 2 ≥ ǫ2 .
Die vorletzte Gleichung folgt aus der Definition von Pr(|W | ≥ ǫ). Unter Berücksichtigung von
E(W 2 ) = E[(V − µ)2 ] = var(V )
folgt daraus Chebychev’s Ungleichung
var(V )
≥ Pr (|V − µ| ≥ ǫ)
ǫ2
vgl. Stock & Watson (2007), S. 702f.
6
Empirische Wirtschaftsforschung
Die Eigenschaft, dass mit steigendem Stichprobenumfang die Wahrscheinlichkeit,
mit der z.B. der Stichprobenmittelwert x̄ beliebig nahe beim wahren Wert µx liegt,
gegen Eins konvergiert, wird Konvergenz der Wahrscheinlichkeit nach (stochastische Konvergenz) genannt.
Konsistenz kann man in einem gewissen Sinn als eine Erweiterung des Gesetzes der
Großen Zahl für beliebige Funktionen einer Stichprobe h(X1 , X2 , . . . , Xn ) auffassen
(Spanos, 1999, 616).
Die stochastische Konvergenz ist ein zentrales Konzept zur Klärung des Verhaltens
von Zufallsvariablen bei wachsendem Stichprobenumfang. Sie gibt an, in welchem
Bereich sich im Falle unendlich vieler Experimente die Zufallsvariable befindet.
Sei X eine i.i.d.(µ, σ 2) Zufallsvariable, dann wissen wir bereits
σ2
n
d.h., x̄n ist ein unverzerrter Schätzer für jede Stichprobengröße und die Varianz geht
mit steigendem Stichprobenumfang gegen Null.
Wir können die Wahrscheinlichkeit angeben, mit der x̄n in einem beliebig kleine
ǫ-Intervall liegt
Pr(µ − ǫ < x̄n < µ + ǫ) = Pr(|x̄n − µ| < ǫ)
E(x̄n ) = µ und
var(x̄n ) =
Definition: Eine Zufallsvariable x̄n konvergiert der Wahrscheinlichkeit nach gegen
eine Konstante µ, wenn
lim Pr (|x̄n − µ| < ǫ) = 1
n→∞
oder in Kurzschreibweise
plim x̄n = µ
oder noch kürzer
p
x̄ −→ µx
Dies ist die übliche Definition von Konsistenz, d.h. der Stichprobenmittelwert ist
p
ein konsistenter Schätzer für das wahre µ, da x̄ −→ µx .
Etwas ungenau lässt sich dies folgendermaßen ausdrücken: wenn der Stichprobenumfang sehr sehr groß wird, wird es sehr wahrscheinlich, dass der Schätzer sehr nahe
beim wahren Wert µ der Grundgesamtheit liegt.
Eine hinreichende, aber nicht notwendige, Bedingung für Konsistenz ist, dass
lim E(x̄n ) = µ
n→∞
und
lim var(x̄n ) = 0
n→∞
d.h. wenn der der Schätzer asymptotisch unverzerrt ist und die Varianz mit zunehmendem Stichprobenumfang gegen Null geht.
Beispiel 1: Sei y ∼ i.i.d.(µ, σ 2 ). Ist der Schätzer m = y1 konsistent?
Dieser Schätzer verwendet nur die erste Beobachtung. Er ist erwartungstreu, da
E(m) = E(y1 ) = µ
er ist aber nicht konsistent, da
Pr(|m − µ| ≥ ǫ) = Pr(|y1 − µ| ≥ ǫ)
nicht gegen Null konvergiert wenn n → ∞, da y1 unabhängig von n ist.
7
Empirische Wirtschaftsforschung
Beispiel 2: Asymptotische Unverzerrtheit und Konsistenz sind nicht exakt das
gleiche, wie man sich anhand des folgenden – etwas seltsamen – Schätzer überlegen
kann (vgl. Murray 2006, 498): angenommen, wir möchten µ mit einem Schätzer m
schätzen, der nur zwei Werte annehmen kann, nämlich mit Wahrscheinlichkeit n1 den
Wert µ + 2n, und mit Wahrscheinlichkeit (1 − n1 ) den Wert µ + n1 .
Der Erwartungswert von m ist also
1
1
1
1
1
E(m) = (µ + 2n) + µ +
1−
=µ+2+ − 2
n
n
n
n n
Offensichtlich ist dieser Schätzer selbst dann verzerrt, wenn n gegen Unendlich geht.
Trotzdem ist dieser Schätzer konsistent, da die Wahrscheinlichkeit für die Realisation
von µ + 2n, nämlich 1/n, immer kleiner wird, und die Wahrscheinlichkeit für die
Realisation von µ + n1 zunimmt. Dies ist natürlich ein etwas konstruierter Fall, der
die Idee aber sehr schön zeigt.
Konvergenz im quadratischen Mittel (convergence in mean square oder convergence in quadratic mean) ist eine hinreichende Bedingung für Konsistenz und
häufig einfacher zu zeigen.
Wenn eine Zufallsvariable xn den Erwartungswert µ und die Varianz σ 2 hat, und
der Erwartungswert µ im Grenzwert gegen eine Konstante c geht, und die Varianz
im Grenzwert gegen Null geht, dann konvergiert xn im quadratischen Mittel gegen
c, d.h. plim(xn ) = c.
Hinreichend für die Konsistenz einer (beliebigen) Schätzfunktion θ ist also E(θ̂n ) = θ
und var(θ̂n ) → 0. Der Beweis folgt wieder aus der Chebychev’s Ungleichung.
1.3.1
Regeln für das Rechnen mit ‘probability-limits’
Der Grund, warum die Eigenschaft der Konsistenz soviel leichter zu beweisen ist als
die Unverzerrtheit, liegt v.a. darin, dass die plim’s von Funktionen von Zufallsvariablen viel leichter zu berechnen sind als die Erwartungswerte, so gilt z.B.
1. Wenn c eine Konstante ist gilt
plim c = c
2. Wenn θˆ1 und θˆ2 konsistente Schätzfunktionen sind gilt
plim (θˆ1 + θˆ2 ) = plim θˆ1 + plim θˆ2
plim (θˆ1 θˆ2 ) = plim θˆ1 plim θˆ2
θˆ1
plim θˆ1
plim
=
θˆ2
plim θˆ2
Man beachte, dass die letzten beiden Eigenschaften für den Erwartungswertoperator nur dann gelten, wenn θˆ1 und θˆ2 stochastisch unabhängig sind.
8
Empirische Wirtschaftsforschung
3. Slutsky-Theorem: Wenn θ̂ eine konsistente Schätzfunktion für θ ist und h(θ̂)
eine stetige Funktion von θ̂ ist gilt:
plim h(θ̂) = h(θ)
Man sagt auch, dass sich die Konsistenz ‘überträgt’. Wenn θ̂ eine konsistente
Schätzfunktion für θ ist, dann ist z.B. 1/θ̂ auch eine konsistente Schätzfunktion
für 1/θ, oder ln θ̂ ist eine konsistente Schätzfunktion für für ln θ (dies gilt nicht
für den Erwartungswertoperator!).
Das Slutsky-Theorem gilt auch für Funktionen von Vektoren und Matrizen
von Zufallsvariablen. So kann z.B. die Konsistenz des OLS-Schätzers gezeigt
werden (siehe Greene 2003, S. 66f).
Zusammenfassend halten wir fest, dass der Stichprobenmittelwert unter relativ wenig strengen Bedingungen ein konsistenter Schätzer für den Mittelwert der GrundgeP
samtheit ist, d.h. wenn n gegen Unendlich geht kollabiert die Verteilung von 1/n xi
um E(xi ) = µ.
Dies gilt auch genereller: wenn die Daten aus einer i.i.d. Zufallsstichprobe stammen sind unter wenig strengen Bedingungen die Stichprobenmomente konsistente
Schätzer für die wahren Momente der Grundgesamtheit.
Wenn xi ∼ i.i.d. und das r-te Moment nicht unendlich groß ist, µr ≡ E[(xi − µ)r ] <
∞, dann gilt
!
n
1X
r
(xi − x̄n ) = µr
plim
n i=1
z.B. konvergiert die Stichprobenvarianz stochastisch (der Wahrscheinlichkeit nach)
gegen die wahre Varianz der Grundgesamtheit, die Stichprobenkovarianzen gegen
die Kovarianzen der Grundgesamtheit, usw.
Wir halten also nochmals allgemeiner fest, dass aufgrund des schwachen Gesetzes
der großen Zahl Stichprobenmomente gegen Populationsmomente konvergieren.
Es gibt zahlreiche Gesetze der großen Zahl, die sich vor allem hinsichtlich der erforderlichen Annahmen unterscheiden.
Neben den (einfacheren) ‘schwachen Gesetzen der großen Zahl’, die auf stochastischer Konvergenz beruhen, gibt es auch ‘starke Gesetze der großen Zahlen’, die auf
einem allgemeinerem Konvergenzkonzept beruhen, nämlich der ‘fast sicheren Konvergenz’.
Als starkes Gesetz der großen Zahlen wird folgende Konvergenzaussage für eine unendliche Folge von Zufallsvariablen x1 , x2 , x3 , . . . mit Erwartungswert µ bezeichnet:
Pr lim x̄n = µ = 1
n→∞
d. h., die repräsentative Stichprobe konvergiert fast sicher gegen µ. Das starke Gesetz der großen Zahlen impliziert das schwache Gesetz der großen Zahlen.
Für die Gültigkeit des starken Gesetzes der großen Zahlen ist in der Regel die Annahme erforderlich, dass alle Zufallsvariablen dieselbe Verteilung haben und untereinander unabhängig sind.
Siehe z.B. http://de.wikipedia.org/wiki/Kategorie:Stochastik
9
Empirische Wirtschaftsforschung
1.3.2
Beispiel: Konsistenz des OLS-Schätzers bei stochastischen Regressoren (x)
In diesem Unterabschnitt interessieren uns die Eigenschaften des OLS-Schätzers,
wenn die erklärende Variable x ebenso stochastisch ist. Wir beginnen mit dem bivariaten Fall
P
ẍi ÿi
βb2 = P 2
ẍi
wobei ẍi = xi − x̄ und ÿi = yi − ȳ. Um die Erwartungstreue zu überprüfen setzen wir
wieder den wahren Zusammenhang ÿi = β2 ẍi +εi ein und bilden den Erwartungswert
P
ẍi εi
b
E[β2 ] = β2 + E P 2
ẍi
Wenn nun die ẍi stochastisch sind hängt die Erwartungstreue von der gemeinsamen Wahrscheinlichkeitsverteilung von ẍi und εi ab (man beachte, dass E(x/y) 6=
E(x)/ E(y)!).
Um die Konsistenz zu zeigen bilden wir das probability-limit und wenden die entsprechenden Rechenregeln an
P
ẍi εi
b
plim β2 = plim β2 + plim P 2
ẍ
P
i
plim ẍi εi
P
= β2 +
plim ẍ2i
P
plim n1
ẍi εi
P 2
= β2 +
plim n1
ẍi
Wir haben Zähler und Nenner des zweiten Ausdrucks durch n dividiert und erhalten
damit konsistente Schätzer für die Varianz und Kovarianz der Grundgesamtheit.2
Der Schätzer βb2 ist also konsistent, wann immer die Störterme der Grundgesamtheit
εi und die erklärenden Variablen ẍi unkorreliert sind, d.h. wenn
X
1
plim
ẍi εi = 0
n
P 2
und wenn plim n1
ẍi > 0.
In diesem Fall gilt
plim βb2 = β2 +
0
= β2
σẍ
Im Unterschied zum Beweis für die Erwartungstreue müssen für Konsistenz nicht
alle x1 , x2 , . . . xn mit allen ε1 , ε2 , . . . εn unkorreliert sein, sondern es genügt für Konsistenz, wenn die xi einer Beobachtung oder Zeitperiode mit den entsprechenden εi
der gleichen Beobachtung oder Periode unkorreliert sind!
2
Ob wir durch n oder n − 1 dividieren spielt keine Rolle wenn n → ∞.
10
Empirische Wirtschaftsforschung
Wichtig ist aber nach wie vor die Annahme, dass die Störterme der Grundgesamtheit
εi mit dem Regressor xi unkorreliert sind. Ist diese Annahme nicht erfüllt ist der
OLS-Schätzer auch nicht konsistent!
Im wesentlichen verlangen wir von den Regressoren x also, dass sie nur über den
spezifizierten Zusammenhang yi = β1 + β2 xi + εi mit den y verknüpft sind, und
dass es keine anderen nicht spezifizierten Zusammenhänge zwischen x und y gibt –
wie z.B. bei simultanen Gleichungssystemen – da diese anderen nicht spezifizierten
Zusammenhänge eine Korrelation zwischen den ε und x bewirken würden, die zu
systematisch verzerrten Schätzern führt.
Konsistenz des OLS-Schätzers in Matrixschreibweise
Wir definieren x als einen k × 1 Spaltenvektor derart, dass x′i die i-te Zeile der X
Matrix ist


x1i
x2i 
 
xi =  .. 
 . 

x′1
 x′ 
 2
X =  .. 
 . 

und
x′n
xki
Damit kann y = Xβ + ε beobachtungsweise geschrieben werden als
yi = x′i β + εi
und der OLS Schätzer
′
−1
′
β̂ = (X X) X y =
n
X
i=1
xi x′i
!−1
n
X
xi y i
i=1
Ein häufig angewandter Trick in der Asymptotik besteht darin, den Schätzfehler als
Funktion von Mittelwerten zu schreiben (siehe Greene, 2007, p. 64f)
β̂ − β = (X ′ X)−1 X ′ ε
−1
1 ′
1 ′
=
XX
Xε
n
n


−1
 
x1
ε
 .  1
 .1 
1
x1 , . . . , xn  .. 
=  x1 , . . . , xn  .. 
n
n
xn
εn
!
−1
n
n
1X
1X
′
=
xi xi
xi εi
n i=1
n i=1
Wenn β̂n = (Xn′ Xn )−1 Xn′ yn = β0 + (Xn′ Xn )−1 Xn′ εn der OLS-Schätzer für βn für
eine Stichprobe der Größe n ist, dann ist jedes Element der Folge {β̂n }∞
n=k wieder
eine Zufallsvariable.
Mit stochastischen x benötigen eine Annahme über die Daten
plimn→∞
Xn′ Xn
=Q
n
sei eine positiv definite Matrix.
11
Empirische Wirtschaftsforschung
Der OLS-Schätzer kann geschrieben werden
′ −1 ′ Xε
XX
β̂ = β +
n
n
wenn Q−1 existiert ist
−1
plim β̂ = β + Q
und wenn
plim
X ′ε
n
plim
X ′ε
n
=0
was unter weniger strengen Bedingungen als E(X ′ ε) = 0 gilt, dann ist
plim β̂ = β + Q−1 · 0 = β
1.4
Konvergenz hinsichtlich der Verteilung (Convergence in Distribution)
Für die statistische Absicherung der Schätzungen benötigt man die Verteilung des
Schätzers, d.h. die Stichprobenkennwertverteilung, um z.B. die Konfidenzintervalle
berechnen zu können. Deshalb ist die nächste Frage, wie sich die Verteilung von x̄n
mit steigendem n verhält. Wenn die Verteilung einzelner xi unbekannt ist ist, so ist
z.B. auch die Verteilung des Mittelwerts x̄n – eine Linearkombination der einzelnen
xi – unbekannt.
Aber wenn die Stichprobengröße n gegen Unendlich geht kann man eine asymptotische Stichprobenkennwertverteilung bestimmen.
Auf den ersten Blick scheint es ein Problem zu geben: wenn ein Schätzer konsistent ist, wird mit steigendem Stichprobenumfang die Varianz der Schätzfunktion
im Grenzwert gegen Null gehen, d.h. die die Verteilung kollabiert bei µ; man sagt
auch, die Verteilung ‘degeneriert’.
Wie sollte also eine asymptotische Verteilung aussehen, wenn diese für alle konsistenten Schätzfunktionen degeneriert?
Der Trick besteht darin eine Funktion von x̄n zu suchen, deren Verteilung weder
degeneriert noch explodiert, die sogenannte Grenzverteilung (limiting distribution).
Beispiel: Wir vergleichen zwei Schätzfunktionen βb1 und βb2 mit
E(βb1 ) = β
E(βb2 ) = β
und
σ2
σ2
var(βb1 ) =
var(βb2 ) =
n
n2
Wenn n → ∞ kollabieren beide Verteilungen um β, aber βb2 kollabiert offensichtlich ‘schneller’. Wenn n sehr groß wird, wird es zunehmend schwieriger zwischen
12
Empirische Wirtschaftsforschung
den beiden zu unterscheiden, da beide Varianzen sehr klein werden, man bräuchte
gewissermaßen ein ‘Vergrößerungsglas’.
Man könnte die Schätzfunktionen z.B. mit n multiplizieren, um die Verteilung zu
‘stabilisieren’. Aber wenn n → ∞ explodieren die ersten Momente nβb1 und nβb2 , da
E(nβb1 ) = n E(βb1 ) = nβ
und
E(nβb2 ) = n E(βb2 ) = nβ
Die Lösung dieses Problems besteht darin, dass man die Fehler untersucht, die
weiterhin um Null schwanken
E[n(βb1 − β)] = E[n(βb2 − β)] = nβ − nβ = 0
Was passiert mit der Varianz von βb1 ?
var[n(βb1 − β)] = n2 var(βb1 − β) = n2 var(βb1 ) = n2
σ2
n
= nσ 2
Wenn n → ∞ geht die Varianz von n(βb1 − β) gegen Unendlich, sie explodiert.
Anders für βb2
var[n(βb2 − β)] = n var(βb2 − β) = n var(βb2 ) = n
2
2
2
σ2
n2
= σ2
Wenn n → ∞ konvergiert die Varianz von n(βb2 − β) gegen σ 2 !
Deshalb hat n(βb2 − β) eine stabile asymptotische Verteilung mit Mittelwert Null
und Varianz σ 2 .
Offensichtlich kann man auch die Verteilung von βb1 stabilisieren, wenn man βb1 mit
√
n multipliziert, denn
2
√
σ
= σ2
var[ n(βb1 − β)] = n var(βb1 − β) = n var(βb1 ) = n
n
√
Wenn n → ∞ konvergiert die Varianz von n(βb1 − β) gegen σ 2 , d.h. die asympto√
tische Verteilung von n(βb1 − β) hat einen Mittelwert Null und Varianz σ 2 .
Durch Multiplikation der Fehler b−β mit einer Potenz von n kann die Verteilung also
‘stabilisiert’ werden. Diese ‘stabilisierte’ Verteilung wird Grenzverteilung (‘limiting distribution’ ) genannt. Die Potenz von n, die zu einer stabilen asymptotischen
Verteilung führt, wird ‘Konvergenzrate’
genannt. Die Konvergenzgeschwindigkeit
√
b
von β1 − β ist also Wurzel n ( n), die Konvergenzgeschwindigkeit von βb2 − β ist n.
Offensichtlich konvergiert βb2 schneller als βb1 .
Wenn Schätzer mit der gleichen Konvergenzgeschwindigkeit verglichen werden, dann
heißt der Schätzer mit der kleinsten asymptotischen Varianz asymptotisch effizient
innerhalb der Klasse mit dieser Konvergenzgeschwindigkeit.
13
Empirische Wirtschaftsforschung
Übungsbeispiel:
P
Gegeben seien zwei Schätzfunktionen βb1 und βb2 mit
σ2
b
β1 ∼ N β, 3 P 2
n
xi
!
2
σ
P
βb2 ∼ N β, 3
n 1 − n1 ( x2i )2
x2i → Q mit 1 < Q < ∞ (Q sei eine endliche reelle Zahl größer Eins).
Wie groß ist die Konvergenzgeschwindigkeit von (βb1 − β) und βb2 − β? Welcher
Schätzer ist asymptotisch effizienter?
wobei
Konvergenz hinsichtlich der Verteilung Sei F1 , F2 , . . . , Fn , . . . eine Folge von Verteilungsfunktionen einer entsprechenden Folge von Zufallsvariablen
b1 , b2 , . . . , bn , . . . (z.B. standardisierte Mittelwerte (ȳ − µȳ )/σȳ ), dann konvergiert
d
die Folge der Zufallsvariablen bn der Verteilung nach gegen β, geschrieben bn −→ β,
wenn die Folge der Verteilungsfunktionen Fn gegen F konvergiert, der Verteilung
von β, d.h.
d
bn −→ β wenn und nur wenn lim Fn (t) = F (t)
n→∞
wobei der Grenzwert in allen Punkten t gilt, in denen die Grenzverteilung F stetig
ist. F wird auch die asymptotische Verteilung von bn genannt.
Man beachte die Unterschiede zwischen der Konvergenz der Wahrscheinlichkeit nach
und Konvergenz hinsichtlich der Verteilung. Konvergenz der Wahrscheinlichkeit nach
p
– bn −→ β – bedeutet, dass die Wahrscheinlichkeit dafür, dass bn nahe bei β liegt,
mit zunehmendem n steigt.
d
Konvergenz hinsichtlich der Verteilung – bn −→ β – bedeutet, dass die Verteilung
von bn mit zunehmenden n immer ähnlicher der Verteilung von β wird.
Zentraler Grenzwertsatz
Bei den Zentralen Grenzwertsätzen handelt es sich um eine Familie schwacher Konvergenzaussagen aus der Wahrscheinlichkeitstheorie. Allen gemeinsam ist die Aussage, dass die (normierte) Summe einer großen Zahl von unabhängigen, identisch
verteilten Zufallsvariablen annähernd (standard)normalverteilt ist. Dies erklärt auch
die Sonderstellung der Normalverteilung.
Die wichtigste und bekannteste Aussage wird auch einfach als “Der Zentrale Grenzwertsatz” bezeichnet und befasst sich mit unabhängigen, identisch verteilten Zufallsvariablen, deren Erwartungswert und Varianz endlich sind.
√
Z y
n(x̄n − µ)
1
2
√ e−z /2 dz
lim Pr
≤y =
n→∞
σ
2π
−∞
oder einfacher
√
d
n (x̄ − µx ) −→ N(0, σx2 )
14
Empirische Wirtschaftsforschung
d.h. √
wenn xi ∼ i.i.d.(µ, σ 2 ) und 0 < σ 2 < ∞, dann konvergiert die Verteilung
von n(x̄ − µ) gegen die Normalverteilung mit Mittelwert Null und Varianz σ 2 ,
unabhängig von der Verteilung der xi .
Dies gilt auch für den multivariaten Fall. Seien y1 , . . . yk i.i.d. n × 1 Spaltenvektoren mit den Erwartungswertvektoren E(yk ) = µk und der Kovarianzmatrix
E(yi − µ)(yi − µ)′ = Σ, wobei Σ positiv definit und nicht unendlich groß sei, dann
gilt
√
d
n(ȳ − µ) −→ N(0, Σ)
P
wobei ȳ = n1 ni=1 yi .
Es existieren verschiedene Verallgemeinerungen, für die eine identische Verteilung keine notwendige Voraussetzung ist. Stattdessen wird dann eine andere
Voraussetzung gefordert, die sicher stellt, dass keine der Variablen einen zu
großen Einfluss auf das Ergebnis erhält.3 Darüber hinausgehende Verallgemeinerungen gestatten sogar “schwache” Abhängigkeit der Zufallsvariablen. Siehe:
http://de.wikipedia.org/wiki/Kategorie:Stochastik
Mit Hilfe der zentralen Grenzwertsätze kann auch die asymptotische Normalverteilung des OLS-Schätzers gezeigt werden.
Der OLS-Schätzer ist
β̂ = β +
oder
√
n(β̂ − β) =
X ′X
n
−1 X ′X
n
X ′ε
n
−1 1
√
n
X ′ε
unter einer Reihe von Annahmen (z.B. Unabhängigkeit der Beobachtungen) gilt
1
d
√
X ′ ε → N(0, σ 2 Q)
n
wobei Q = plimn→∞ Xn′ Xn /n eine positiv definite Matrix sei.
und in weiterer Konsequenz
√
d
n(β̂ − β) → N(0, σ 2 Q−1 )
woraus schließlich die asymptotische Verteilung von β̂ für unabhängige Beobachtungen folgt:
Wenn die {εi } unabhängig verteilt sind mit Mittelwert Null und endlicher Varianz
σ 2 , sowie die xik die Grenander Bedingungen (siehe Greene 2003, S. 68) erfüllen,
dann gilt
σ 2 −1
a
β̂ ∼ N β,
Q
n
wobei (1/n)Q−1 mit (X ′ X)−1 und σ 2 mit ε̂′ ε̂/(n − k) geschätzt wird.
3
Siehe Grenander Bedingungen, z.B. Greene 2003, S. 68.
Empirische Wirtschaftsforschung
15
Literaturverzeichnis
Angrist, J. D. and Pischke, J.-S. (2008), Mostly Harmless Econometrics: An Empiricist’s Companion, Princeton University Press.
Greene, W. H. (2007), Econometric Analysis, 6th edn, Prentice Hall. 10
Long, J. S. and Ervin, L. H. (2000), ‘Using heteroscedasticity consistent standard
errors in the linear regression model’, The American Statistician 54(3), 217–224.
URL: http://www.jstor.org/stable/2685594
Spanos, A. (1999), Probability Theory and Statistical Inference: Econometric Modeling with Observational Data, Cambridge University Press. 6
Herunterladen