Kapitel 3 Eigenschaften des OLS-Schätzers “Die Mathematik ist eine Art Spielzeug, welches die Natur uns zuwarf zum Troste und zur Unterhaltung in der Finsternis.” (Jean le Rond d’Alembert, 1717 - 1783) Im letzten Kapitel haben wir den OLS-Schätzer hergeleitet. Ein Schätzer (‘estimator’ ) ist vereinfacht gesprochen eine Formel, die uns – wenn wir die Stichprobendaten einsetzen – Schätzungen (‘estimations’ ) für die unbeobachtbaren Parameter der Grundgesamtheit liefert, zum Beispiel die Schätzungen b0 und b1 einer Regressionsgerade yi = b0 + b1 xi + ei für die wahren Parameter der Grundgesamtheit β0 und β1 . Wenn wir aus einer Grundgesamtheit (bzw. aus einem datengenerierenden Prozess DGP) verschiedene Stichproben ziehen erhalten wir für jede Stichprobe unterschiedliche Schätzungen für die wahren Parameter der Grundgesamtheit. Deshalb können die aus einer Stichprobe geschätzten Parameter (z.B. die Koeffizienten der Stichprobenregressionsfunktion) als Zufallsvariablen angesehen werden, von denen man die Momente1 berechnen kann. Mit den Verteilungen dieser Zufallsvariablen, den so genannten Stichprobenkennwertverteilungen (‘sampling distributions’ ), werden wir uns in diesem Kapitel etwas näher beschäftigen. Im Abschnitt über die Monte Carlo Simulationen haben wir bereits gezeigt, dass die Idee der wiederholten Stichprobenziehungen (‘repeated sampling’ ) ganz natürlich zur Idee der Stichprobenkennwertverteilungen führt. Dort haben wir zwar gesehen, dass aufgrund des Gesetzes der Großen Zahl der Mittelwert der Stichprobenkennwertverteilungen meist ‘ziemlich’ genau dem wahren Wert der Grundgesamtheit entspricht, und dass aufgrund des Zentralen Grenzwertsatzes bei einer genügend großen Anzahl von Ziehungen die Stichprobenkennwertverteilung einer Normalverteilung ‘ziemlich’ ähnlich sieht, aber dies gab uns nur eine intuitive Vorstellung, keine ‘hard facts’ mit denen man rechnen kann. 1 Momente sind Kenngrößen einer Zufallsvariablen, bzw. einer Verteilungsfunktion. Das k-te zentrale Moment ist definiert als µk = E[x − E(x)]k Das zentrale Moment erster Ordnung (für k = 1) ist stets gleich Null (µ1 = 0), da µ1 = E(x−µ)1 = µ−µ = 0; das zentrale Moment zweiter Ordnung (für k = 2) ist die Varianz (µ2 = E[x−E(x)]2 ), das zentrale Moment dritter Ordnung ist die Schiefe, das zentrale Moment vierter Ordnung entspricht der Wölbung bzw. Kurtosis. 89 Eigenschaften des OLS-Schätzers 90 In diesem Kapitel werden wir diese Idee etwas weiter treiben und den Erwartungswert und die Varianz der Stichprobenkennwertverteilungen der geschätzten Koeffizienten b0 und b1 allgemein berechnen. Diese werden uns im nächsten Kapitel schließlich die Durchführung von Hypothesentests erlauben. Vorher werden wir uns aber noch in diesem Kapitel mit einigen statistischen Eigenschaften des OLS-Schätzers beschäftigen. Wir haben im letzten Kapitel mehrmals erwähnt, dass OLS-Schätzer ‘bestmögliche’ Schätzer sind, ohne allerdings genauer zu spezifizieren, was wir darunter verstehen. Dies werden wir in diesem Kapitel nachholen. Das Konzept der Stichprobenkennwertverteilungen erlaubt es uns nämlich, die Eigenschaften von Schätzfunktionen etwas präziser zu definieren. Konkret wünschen wir uns Schätzfunktionen, die ‘im Durchschnitt richtig’ und ‘möglichst genau’ sind. Mit ‘im Durchschnitt richtig’ meinen wir, dass der Erwartungswert) der Stichprobenkennwertverteilung gleich dem wahren Wert der Grundgesamtheit sein sollte. In der Sprache der Ökonometrikerinnen wird diese Eigenschaft einer Schätzfunktion Erwartungstreue genannt. Mit ‘möglichst genau’ meinen wir, dass die Stichprobenkennwertverteilung eine möglichst kleine Varianz haben sollte, oder etwas genauer, dass die Varianz der Stichprobenkennwertverteilung der OLS Schätzer kleiner sein sollte als die Varianz der Stichprobenkennwertverteilungen aller vergleichbaren alternativen Schätzfunktionen. Eine Schätzfunktion, die diese zweite Eigenschaft erfüllt, wird in der Sprache der Ökonometrikerinnen ‘effizient’ genannt. In diesem Kapitel werden wir zuerst zeigen, dass die OLS-Schätzer unter bestimmten Annahmen tatsächlich erwartungstreu und effizient sind (d.h. genauer sind als alle anderen vergleichbaren linearen Schätzfunktionen). Dies ist das Ergebnis des bekannten Gauss-Markov Theorems, das in der Ökonometrie eine zentrale Rolle spielt. Tatsächlich wird sich ein großer Teil dieser Veranstaltung mit der Frage beschäftigen, was zu tun ist, wenn eine oder mehrere der Gauss-Markov Annahmen verletzt sind. Da das Gauss-Markov Theorem in der Ökonometrie eine derart grundlegende Rolle spielt, werden wir es etwas ausführlicher beweisen. Die Erwartungstreue und Effizienz der OLS-Schätzer, die mit Hilfe des GaussMarkov Theorems bewiesen werden, sind sogenannte ‘Kleine Stichprobeneigenschaften’, d.h. sie gelten auch in kleinen Stichproben (oder genauer, unabhängig von der Stichprobengröße). Leider lassen sich diese ‘Kleine Stichprobeneigenschaften’ in komplizierteren Fällen nicht immer beweisen (z.B. wenn einige der Gauss-Markov Annahmen nicht erfüllt sind). Deshalb werden wir im letzten Abschnitt einige ‘asymptotische Eigenschaften’ diskutieren. Die wichtigste dieser asymptotischen Eigenschaften ist die Konsistenz. Etwas vereinfachend gesprochen ist eine Schätzfunktion konsistent, wenn sie mit zunehmender Stichprobengröße ‘immer genauer’ wird. Schließlich werden wir noch ganz kurz den ‘mittleren quadratischen Fehler’ (mean square error ) vorstellen. Nach dieser etwas ausführlichen Vorschau können wir uns nun an die Arbeit machen. Für alle, denen dieses Kapitel etwas schwierig erscheint, ein kleiner Trost vorab: dieses Kapitel wird im übernächsten Kapitel Schritt für Schritt wiederholt – allerdings in Matrixschreibweise. 91 Eigenschaften des OLS-Schätzers 3.1 Kleine Stichprobeneigenschaften Kleine Stichprobeneigenschaften sind – wie bereits erwähnt – unabhängig von der Stichprobengröße gültig, das heißt, sie gelten auch in kleinen Stichproben. Die beiden wichtigsten ‘kleine Stichprobeneigenschaften’ sind: 1. Erwartungstreue (Unverzerrtheit): Eine Schätzfunktion b für den wahren Wert β der Grundgesamtheit ist erwartungstreu (‘unbiased ’), wenn E(b) = β und zwar für jeden beliebigen Stichprobenumfang N. Bei nicht erwartungstreuen Schätzern wird E(b)−β Verzerrung (bias) genannt. Erinnern wir uns, der Erwartungswert ist einfach ein mit den Wahrscheinlichkeiten gewichtetes Mittel über alle möglichen Ausprägungen einer Zufallsvariable. Erwartungstreue sagt also nichts über das Ergebnis einer einzelnen Schätzung aus, sondern ist eine Eigenschaft einer Schätzfunktion. Dahinter steht meist die Vorstellung eines ‘repeated sampling’. 2. Effizienz: Eine Schätzfunktion heißt effizient, wenn sie • erwartungstreu ist, und • varianzminimal unter allen vergleichbaren erwartungstreuen Schätzfunktionen ist: var(b) ≤ var(b∗ ) wobei b∗ jede beliebige lineare und erwartungstreue Schätzfunktion für β sein kann. Effizienz bezieht sich immer auf die theoretische Varianz und beruht auf einem Vergleich von Schätzfunktionen, ist also ein relatives Konzept. Deshalb muss stets angeben werden, innerhalb welcher Klasse von Schätzfunktionen ein Schätzer effizient ist. In diesem Kapitel werden wir zeigen, dass der OLS-Schätzer unter einer Reihe von Annahmen innerhalb der Klasse aller unverzerrten linearen Schätzfunktionen effizient ist. Wie schon erwähnt, diese Eigenschaften beziehen sich nicht auf eine gegebene Stichprobe, sondern auf Erwartungswerte, d.h. das gemittelte Ergebnis wiederholter Stichprobenziehungen (repeated sampling)! 3.1.1 Einführung und Wiederholung Zur Erläuterung starten wir mit einem bekannten Fall aus der einführenden Statistik, einer univariaten Zufallsvariable y. Dabei wird üblicherweise angenommen, dass alle Beobachtungen aus der gleichen Verteilung gezogen wurden (also identisch verteilt sind), und dass die einzelnen yi untereinander statistisch unabhängig sind. Dies wird üblicherweise mit iid abgekürzt für ‘independent and identically-distributed’. Zudem nehmen wir an, dass der Erwartungswert von y in der Grundgesamtheit µ sei (d.h. E(y) = µ), und dass die theoretische Varianz eine endliche Zahl σ 2 sei 92 Eigenschaften des OLS-Schätzers (d.h. var(y) = σ 2 ). Man beachte, dass die empirische Varianz, die auf Grundlage von Realisationen berechnet wird, immer eine endliche Zahl ist, dies muss für die theoretische Varianz aber keineswegs gelten. Dieser datengenerierende Prozess (DGP) wird kompakt angeschrieben als yi ∼ iid(µ, σ 2 ) Aus der Statistik wissen wir, dass unter diesen Annahmen der Mittelwert einer Stichprobe ȳ ein unverzerrter Schätzer für den Mittelwert der Grundgesamtheit µ ist E(ȳ) = µ Die Verteilung dieser Stichprobenmittelwerte ȳ, die man bei wiederholten Stichprobenziehungen erhält, ist eine Stichprobenkennwertverteilung (sampling distribution). In der einführenden Statistik wird gezeigt, dass die Varianz der Mittelwerte gleich der Varianz der Grundgesamtheit (var(y) := σ 2 ) dividiert durch die Stichprobengröße N ist: σ2 var(ȳ) := σȳ2 = N Da die Varianz der Grundgesamtheit σ 2 üblicherweise ebensowenig beobachtbar ist wie der Mittelwert µ der Grundgesamtheit, muss die ‘wahre’ Varianz σ 2 ebenfalls aus der Stichprobe geschätzt werden. Den Schätzer für die Varianz der Grundgesamtheit σ 2 bezeichnen wir mit s2 (in der Literatur wird für den Schätzer von σ 2 manchmal auch das Symbol σ b2 verwendet, d.h. s2 := σ b2 ). In der einführenden Statistik (sowie im statistischen Appendix) wird gezeigt, dass im Fall univariater Verteilungen der Schätzer s2 = 1 X (yi − ȳ)2 N −1 i ein erwartungstreuer Schätzer für die Varianz der Grundgesamtheit σ 2 ist. Genau das gleiche wollen wir nun für den bivariaten Fall yi = b0 + b1 xi + ei zeigen, nur untersuchen wir anstelle der Stichprobenkennwertverteilung des Mittelwertes ȳ (der als Schätzer für µ verwendet wird) die Stichprobenkennwertverteilungen von b0 und b1 , die als Schätzer für β0 und β1 dienen. Wir werden im Folgenden annehmen, dass die erklärende Variable x deterministisch (d.h. nicht stochastisch) ist. Im Zusammenhang mit wiederholten Stichprobenziehungen (‘repeated sampling’) bedeutet dies, dass immer nur neue yi generiert werden, da bei jedem Durchgang ein neuer Störterm εi gezogen wird, nicht aber die x; d.h. wir nehmen an, die x sind ‘fixed in repeated sampling’. Konkret nehmen wir im Folgenden an, dass die x keine Zufallsvariablen sind. Dies mag vielleicht etwas willkürlich erscheinen, denn tatsächlich gibt es häufig keinen vernünftigen Grund anzunehmen, warum nur die y stochastisch sein sollen und 93 Eigenschaften des OLS-Schätzers die x nicht, werden doch häufig sowohl die x als auch die y von datengenerierenden Prozessen (DGP) erzeugt, die außerhalb unserer Einflussnahme stehen. Wenn wir zum Beispiel eine Konsumfunktion ‘Konsumausgabeni = b0 + b1 Einkommeni + ei ’ schätzen, so macht es tatsächlich wenig Sinn anzunehmen, dass die Konsumausgaben stochastisch sind, das Einkommen aber deterministisch sei. Der einzige Grund für die Annahme deterministischer x ist tatsächlich, dass dies die folgenden Ableitungen ganz erheblich erleichtern wird. Allerdings ist diese Annahme nicht ganz so streng wie es auf den ersten Blick scheinen mag. Wir werden später sehen, dass die meisten Schlussfolgerungen auch für stochastische x gültig bleiben, wenn (und nur wenn!) die x und die ε in der Grundgesamtheit unkorreliert (oder genauer, stochastisch unabhängig) sind. In anderen Worten, das meiste was wir im folgenden zeigen werden gilt asymptotisch (d.h. für sehr große Stichproben) auch für stochastische x, solange – vereinfacht gesprochen – die Kausalität eindeutig von x zu y läuft, oder in anderen Worten, wenn der datengenerierende Prozess, der die x erzeugt, unabhängig ist vom datengenerierenden Prozess ist, der die y erzeugt. 3.1.2 Erwartungstreue der geschätzten OLS-Koeffizienten Wir werden nun zeigen, dass der auf Seite 52 berechnete Schätzer P P P ẍi yi (xi − x̄)yi ẍi ÿi i i b1 = P 2 = P 2 := Pi 2 i ẍi i ẍi i (xi − x̄) (mit i = 1, . . . , N) tatsächlich erwartungstreu ist (zwei Punkte über einer Variable bezeichnen wieder Abweichungen vom Mittelwert, z.B. ẍi := xi − x̄). Dazu ist es wichtig zu erkennen, dass diese Schätzfunktion für b1 linear in den yi ist, d.h. der Schätzer b1 kann auch geschrieben werden als b1 = N X wi y i (3.1) i=1 d.h. b1 ist eine gewichtete Summe der yi mit den Gewichten ẍi wi := PN 2 j=1 ẍj (xi − x̄) := P 2 j (xj − x̄) Dies ist unproblematisch, da die xi annahmegemäß deterministisch sind (‘fixed in repeated sampling). Offensichtlich ist b1 also eine lineare Schätzfunktion; der geschätzte Parameter b1 ist eine Linearkombination der stochastischen yi , wobei die wi die (deterministischen) Gewichte darstellen, die eine Funktion der x sind. P Die Gewichte wi := ẍi / j ẍ2j haben drei wichtige Eigenschaften, die wir gleich benötigen werden: 1. X i wi = 0 (die Summe der Gewichte ist Null) 94 Eigenschaften des OLS-Schätzers da X wi = i 2. X i ẍ Pi 2 j ẍj ! P ẍi = Pi 2 = 0 j ẍj mit i, j = 1, . .P . , N, weil Pdie Summe der Abweichungen vom Mittelwert immer Null ist, d.h. ẍi := (xi − x̄) = N x̄ − N x̄ = 0! X i da wi2 = 1/ X ẍ2i i X wi2 = i ẍ Pi 2 j ẍj i mit i, j = 1, . . . , N. X X 3. wi ẍi = wi xi = 1 i X !2 P ẍ2 1 = P i 2i 2 = P 2 ẍi ( i ẍi ) i wir zeigen, dass P wi xi = 1 P X (xi − x̄)xi wi xi = P (xi − x̄)2 P 2 P xi − x̄ xi P = P 2 xi − 2x̄ xi + N x̄2 P 2 x − N x̄2 = P 2 i x − 2N x̄2 + N x̄2 P 2i x − N x̄2 = P i2 xi − N x̄2 = 1 i (da X xi = N x̄) Mit diesen drei Eigenschaften ‘bewaffnet’ können wir uns nun an den eigentlichen Beweis für die Erwartungstreue machen. Beweis der Erwartungstreue: Um die Unverzerrtheit (Erwartungstreue) von b1 zu zeigen müssen wir einen Zusammenhang zwischen der Schätzfunktion b1 und dem entsprechenden Wert β1 der Grundgesamtheit herstellen, und davon den Erwartungswert bilden. Dazu wird in der Regel nach dem folgenden Muster vorgegangen: man setzt den wahren Zusammenhang der Grundgesamtheit, yi = β0 + β1 xi + εi , in die Schätzfunktion (3.1) ein: X X b1 = wi y i = wi (β0 + β1 xi + εi ) i = β0 X i = β1 + i wi + β1 X i X i wi εi wi xi + X wi εi i (3.2) 95 Eigenschaften des OLS-Schätzers da wir gerade gezeigt haben, dass P wi = 0 und Nun bilden wir davon den Erwartungswert E(b1 ) = E β1 + = β1 + X X wi εi i ! E(wi εi ) i = β1 + X i = β1 + E E P ẍ ε Pi i 2 j ẍj P wi xi = 1. (weil E(c) = c) ! − x)(εi − 0) 2 i (xi − x) i (x Pi (3.3) Der OLS-Schätzer b1 für β1 ist nur dann erwartungstreu, d.h. E(b1 ) = β1 , wenn die x mit den Störtermen ε der Grundgesamtheit im Erwartungswert unkorreliert sind, oder genauer, wenn die erklärenden x Variablen und die Störterme ε der Grundgesamtheit stochastisch unabhängig sind. Man beachte, dassP aus der Mechanik des OLS Schätzers (d.h. aus den Bedingungen 1. Ordnung) zwar i xi ei = 0 folgt, dass dies aber nur für die Stichprobe gilt, nicht notwendigerweise aber für die Störterme εi der Grundgesamtheit! Wie wir aus Gleichung (3.3) erkennen können, gilt E(b1 ) = β1 nur, wenn die Störterme der Grundgesamtheit nicht mit der erklärenden Variable x korreliert sind! Wann immer cov(x, ε) 6= 0 ist der OLS Schätzer verzerrt! Exogenität: x Variablen, die mit den Störtermen ε der Grundgesamtheit unkorreliert sind (oder genauer, stochastisch unabhängig sind), nennt man in der Ökonometrie exogene Regressoren. In anderen Worten, exogene Regressoren sind unkorreliert mit der nicht-systematischen (unbeobachteten) Komponente von y. Umgekehrt werden x Variablen, die mit dem Störterm ε korreliert sind, endogene Regressoren genannt. Wie aus Gleichung (3.3) hervorgeht, führen endogene Regressoren immer zu einem Bias, d.h. verzerrten Schätzungen. Leider sind endogene Regressoren ein ziemlich häufiges Problem, es gibt mehrere Ursachen die zu einer stochastischen Abhängigkeit zwischen Störtermen ε und erklärenden Variablen x führen. Einige Beispiele dafür sind Messfehler in den xVariablen, wenn relevante x Variablen nicht berücksichtigt wurden, oder wenn die Variablen durch ein simultanes System erzeugt werden. In solchen Fällen von Endogenität sind – wie wir soeben gesehen haben – die OLSSchätzer systematisch verzerrt! Diese ‘tieferen’ Probleme werden wir erst in späteren Kapiteln ausführlich diskutieren. Im Moment wollen wir uns das Leben aber noch einfach machen und deterministische x annehmen. Wenn xi deterministisch ist, ist natürlich auch wi deterministisch (‘fixed in repeated sampling’ ), also können die wi vor den Erwartungswertoperator 96 Eigenschaften des OLS-Schätzers geschrieben werden. Für deterministische x reicht die wesentlich weniger strenge Annahme E(εi ) = 0, damit der Schätzer unverzerrt ist, denn X E(b1 ) = β1 + wi E(εi ) = β1 wenn E(εi ) = 0 Viel einfacher lässt sich zeigen, dass b0 = ȳ − b1 x̄ ebenfalls ein unverzerrter Schätzer für β0 ist E(b0 ) = E[(β0 + β1 x̄) − b1 x̄)] = β0 Wir fassen zusammen: b1 = cov(y, x)/ var(x) ist ein erwartungstreuer (unverzerrter) Schätzer für β1 , wenn die Störterme der Grundgesamtheit εi mit den xi unkorreliert sind. Bei deterministischen x reicht die wesentlich weniger strenge Annahme E(εi ) = 0. Wir halten also fest, dass die OLS-Schätzer zumindest bei deterministischen x erwartungstreu sind, wenn E(εi ) = 0! 3.1.3 Die Varianz und Kovarianz der geschätzten OLS Koeffizienten Wir haben mehrfach betont, dass die geschätzten Koeffizienten b0 und b1 Zufallsvariablen sind. Den Erwartungswert dieser Koeffizienten haben wir bereits berechnet und festgestellt, dass die OLS-Schätzer zumindest für deterministische x erwartungstreu sind! Als nächstes wollen wir die Varianzen von b0 und b1 berechnen. Diese Varianzen werden es uns schließlich erlauben statistische Tests durchzuführen. Die Varianz von b1 ist definiert var(b1 ) = E[b1 − E(b1 )]2 = E[b1 − β1 ]2 (da E(b1 ) = β1 , siehe oben) !2 X X = E wi εi (da b1 = β1 + wi εi ; s. Gleichung (3.2)) i 2 2 w1 ε1 2 2 = E + w22 ε22 + · · · + wN εN + · · · · · · + 2w1 w2 ε1 ε2 + · · · + 2wN −1 wN εN −1 εN ) (3.4) Dieser letzte Ausdruck ist mit all den Kreuztermen etwas ‘unappetitlich’ lang, um hier weiter zukommen benötigen wir zusätzliche Annahmen über die Störterme εi . Das Problem wird massiv vereinfacht, wenn wir εi ∼ iid 0, σ 2 annehmen. Dies ist eine sehr kompakte Schreibweise für εi ist unabhängig und identisch verteilt (iid steht für ‘independent and identically distributed’ ) mit E(εi ) = 0 und var(εi ) = 97 Eigenschaften des OLS-Schätzers σ 2 ; das heißt, vor der Klammer steht die Art der Verteilung, das erste Argument in der Klammer ist der Erwartungswert, das zweite Argument die Varianz (generell werden in der Klammer die Parameter der Verteilung angegeben, in diesem Fall sind dies Erwartungswert und Varianz). Im einzelnen umfasst dies folgende Annahmen: 1. alle Störterme εi sind identisch verteilt (d.h. werden aus der gleichen Verteilung gezogen); dies kommt im zweiten i von iid (identically distributed ) zum Ausdruck. Die Varianz dieser Verteilungen ist konstant, d.h. eine reelle Zahl σ 2 . Anders ausgedrückt, alle εi haben die gleiche Varianz σ 2 . Ist diese Annahme erfüllt spricht man von homoskedastischen Störtermen, ist die Annahme verletzt spricht man von Heteroskedastizität. 2. Unabhängigkeit der Ziehungen, d.h. E(εi εj ) = 0 für i 6= j (dies impliziert auch cov(εi , εj ) = 0 für i 6= j); dies kommt im ersten i von iid (independent) zum Ausdruck. Wenn diese Annahme verletzt ist spricht man von Autokorrelation. 3. E(εi ) = 0: Diese Annahme haben wir bereits für den Beweis der Erwartungstreue benötigt. (Wenn die x stochastisch sind wird die wesentlich strengere Annahme E(εi |x) = 0 benötigt, d.h. der bedingte Erwartungswert der εi muss Null sein. Damit werden wir uns erst später beschäftigen.) Um Gleichung (3.4) zu vereinfachen benötigen wir die ersten zwei dieser drei Annahmen, d.h E(ε2i ) = σ 2 und E(εi εj ) = 0 für i 6= j. Wenn die Annahme E(εi εj ) = 0 erfüllt ist (d.h. keine Autokorrelation vorliegt) fallen die Kreuzterme in Gleichung (3.4) weg, deshalb gilt bei Gültigkeit dieser Annahme ! X 2 2 var(b1 ) = E wi εi i Wenn die xi (und damit automatisch auch die wi ) deterministisch sind können die wi vor den Erwartungswertoperator gezogen werden X var(b1 ) = wi2 E(ε2i ) i Wenn zusätzlich die erste Annahme E(ε2i ) = σ 2 (keine Heteroskedastizität) erfüllt ist gilt schließlich X X var(b1 ) = wi2 σ 2 = σ 2 wi2 i i 2 da σ ein fixer Parameter der Grundgesamtheit ist. Nun haben wir bereits vorhin gezeigt (Seite 94), dass P wi2 = Deshalb ist die Varianz des OLS-Schätzers für b1 gleich σ2 2 i (xi − x̄) var(b1 ) = P P ( P ẍ2i ẍ2i ) 2 = P 1 . (xi −x̄)2 98 Eigenschaften des OLS-Schätzers yi = 0.5 + 0.7xi + εi , ε ∼ N (0, 2) yi = 0.5 + 0.7xi + εi , ε ∼ N (0, 0.5) y 6 b y 6 b b 5 b b 5 b b b b b b 4 4 b b b b b 3 b b b b 2 3 2 b b b 1 b 1 b 0 0 1 b 2 3 4 5 6 7 x b b 0 0 1 2 3 4 5 6 7 x Abbildung 3.1: ‘Wahrer’ Zusammenhang (‘Population Regression Function’) strichliert) und Stichprobenregessionsfunktionen mit unterschiedlicher Varianz von ε (σ 2 ). Dies ist ein wichtiges Ergebnis! Die Varianz von b1 ist ein Maß für die ‘Genauigkeit’ des Schätzers, d.h. ein Schätzer ist umso genauer, je kleiner die Varianz von b1 ist. Anhand dieser Formel können wir bereits erkennen, wovon die Präzision des Schätzers für die Steigung β1 abhängt. Ceteris paribus ist die Varianz von b1 umso kleiner, . . . 1. . . . je kleiner die Varianz der Grundgesamtheit σ 2 ist. Abbildung 3.1 zeigt zwei Stichproben, die sich nur in der Varianz der Grundgesamtheit σ 2 unterscheiden (die ‘Population Regression Function’ oder PRF ist in beiden Fällen yi = 0.5 + 0.7xi + εi , aber im linken Panel ist σ 2 = 0.5, im rechten Panel ist σ 2 = 2). Offensichtlich ist die Schätzung umso genauer, je kleiner σ 2 ist! P 2 2. . . . je größer die Streuung der x, d.h. i (xi − x̄) ist, da diese im Nenner steht. Abbildung 3.2 zeigt zwei Stichproben mit gleichem σ 2 , die sich nur in der Streuung der x unterscheiden (im linken Panel liegen die x zwischen 0.5 und 7, im rechten Panel zwischen 2.5 und 4.5. Offensichtlich ist die Schätzung umso genauer, je größer die Streuung (bzw. Varianz) der x ist! P 2 3. . . . je größer der Stichprobenumfang N ist, da N i=1 (xi − x̄) mit dem Stichprobenumfang N zunimmt. Offensichtlich können wir b1 umso genauer schätzen, je größer die Stichprobe ist. Ähnlich (wenngleich etwas mühsamer) kann man zeigen, dass die Varianz des Interzepts b0 folgendermaßen berechnet werden kann: P 2 x Pi 2 var(b0 ) = E[b0 − E(b0 )] = σ N ẍi 2 2 99 Eigenschaften des OLS-Schätzers yi = 0.5 + 0.7xi + εi , εi ∼ N (0, 0.5) yi = 0.5 + 0.7xi + εi , εi ∼ N (0, 0.5) y 6 y 6 b b 5 b 4 5 b b 4 b b b b b b 3 b b b 2 3 b b b b b b b b 1 b 0 0 b b b 2 b 1 b 1 2 3 4 5 6 7 0 x 0 1 2 3 4 5 6 7 x Abbildung 3.2: Unterschiedliche Varianz der x, ‘Wahrer’ Zusammenhang (Population Regression Function PRF, strichliert) und SRF (Sample Regression Function, durchgezogen). Da b0 und b1 Zufallsvariablen sind kann man auch die Kovarianz zwischen den beiden Schätzern berechnen. Diese ist definiert cov(b0 , b1 ) = E{[b0 − E(b0 )][b1 − E(b1 )]} = E[(b0 − β0 )(b1 − β1 )] Wir erinnern uns, dass b0 = ȳ − b1 x̄ und bei Erwartungstreue von b1 gilt E(b0 ) = ȳ − β1 x̄. Daraus folgt b0 − E(b0 ) = −x̄(b1 − β1 ). Wenn wir dies oben einsetzen erhalten wir cov(b0 , b1 ) = E[(b0 − β0 )(b1 − β1 )] = −x̄ E(b1 − β1 )2 = −x̄ var(b1 ) Die Kovarianzen zwischen den Koeffizienten werden wir später für Tests von gemeinsamen Hypothesen (‘joint hypothesis’ ) benötigen. Wir fassen zusammen: unter den bisher getroffenen Annahmen deterministischer x und εi ∼ iid(0, σ 2 ) gilt E(b1 ) = β1 var(b1 ) = E(b0 ) = β0 var(b0 ) = cov(b0 , b1 ) = 2 P σ [xi −x̄]2 P 2 σ2 xi P N [xi −x̄]2 2 P−x̄σ 2 [xi −x̄] 100 Eigenschaften des OLS-Schätzers 3.1.4 Ein Schätzer für die Varianz des Störterms der Grundgesamtheit σ 2 Nun haben wir zwar einen Schätzer für b0 und b1 sowie eine Formel für deren Varianzen, aber in diesen Formeln für die Varianzen kommt die unbekannte Varianz des Störterms der Grundgesamtheit σ 2 vor. Deshalb müssen wir als nächstes einen erwartungstreuen Schätzer s2 (bzw. σ b2 ) für das wahre σ 2 der Grundgesamtheit herleiten. 2 Leider P kommt das σ 2in dem nach der OLS Methode zu minimierenden Ausdruck min i (yi − b0 − b1 xi ) nicht vor, deshalb müssen wir im folgenden einen indirekten und teilweise etwas mühsamen Weg gehen, um einen Schätzer für σ 2 zu erhalten.2 Wir erinnern uns, das wahre Modell der Grundgesamtheit ist yi = β0 + β1 xi + εi und für die Mittelwerte gilt3 ȳ = β0 + β1 x̄ + ε̄ Das Modell in Abweichungsform ist also yi − ȳ = β1 (xi − x̄) + (εi − ε̄) Man beachte, dass das Interzept β0 bei der Differenzenbildung wegfällt. Wir sind an einem Schätzer für die Varianz der unbeobachtbaren Störterme der Grundgesamtheit εi interessiert. Da wir diese nicht kennen ist es naheliegend, dazu von den beobachtbaren Stichprobenresiduen e auszugehen. Deshalb versuchen wir einen Zusammenhang zwischen den Störtermen ε und den Stichprobenresiduen e herzustellen (bzw. zwischen deren Varianzen). Dazu setzen wir den wahren Zusammenhang der Grundgesamtheit ÿi = β1 ẍi +(εi −ε̄) in den Stichproben-Zusammenhang ei = ÿi − b1 ẍi ein und erhalten ei = β1 ẍi + (εi − ε̄) − b1 ẍi = (β1 − b1 )ẍi + (εi − ε̄) Wir sind letztendlich an einer Varianz interessiert, deshalb quadrieren wir diesen Ausdruck e2i = (b1 − β1 )2 ẍ2i + (εi − ε̄)2 − 2(b1 − β1 )ẍi (εi − ε̄) P und summieren über alle N Beobachtungen auf (beachte, dass N i=1 ẍi = 0) X X X X e2i = (b1 − β1 )2 ẍ2i + (εi − ε̄)2 − 2(b1 − β1 ) ẍi εi und nehmen von beiden Seiten den Erwartungswert hX i hX i h i X X e2i = E(b1 − β1 )2 ẍ2i + E E (εi − ε̄)2 − 2E (b1 − β1 ) ẍi εi | {z } | {z } | {z } A 2 3 B C Die P folgenden Ausführungen P Phalten sich eng an Gujarati 1995. i y i = N β0 + β1 i xi + i εi . Dividieren durch N gibt ȳ = β0 + β1 x̄ + ε̄. 101 Eigenschaften des OLS-Schätzers Die folgende Rechnerei ist etwas umständlich, sie werden später sehen, dass sich dies in Matrixschreibweise deutlich einfacher darstellen lässt. Nun aber ans Werk! Wir haben bereits gezeigt dass σ2 σ2 var(b1 ) = E(b1 − β1 )2 = P 2 = P 2 ẍi i (xi − x̄) Daraus folgt, dass der erste Term A = σ 2 . P Der zweite Term B = E [ i (εi − ε̄)2 ] = (N − 1)σ 2 , wenn die εi ∼ iid(0, σ 2 ), denn " # " # X X 2 2 2 E (εi − ε̄) = E (εi − 2εi ε̄ + ε̄ ) i i = E X i 1 X εj N j ε2i − 2εi ! + 1 X εj N j !2 # X X 1 E εj ) + = E(εi )2 − 2E (εi N j i i i ! X 2 X 1 X E(εi )2 + E(εj )2 = Nσ 2 − 2 N N i i j ! X X 1 X 2 σ2 + σ2 = Nσ 2 − 2 N i N j i X X " 1 X εj N j !2 = Nσ 2 − 2σ 2 + σ 2 = (N − 1)σ 2 wobei wiederholt von den Annahmen E(εi )2 = σ 2 und E(εi εj ) = 0 für i 6= j (d.h. Unabhängigkeit) Gebrauch gemacht wird. Übungsaufgabe: Zeigen Sie, dass E(ε̄2 ) = σ 2 /N. Welche Annahmen sind dazu erforderlich? P Für den dritten Term C = 2E [(b1 − β1 ) ẍi εi ] berücksichtigen wir, dass P P P ẍi ÿi ẍi (β1 ẍi + εi ) ẍi εi i i P 2 b1 = P 2 = = β1 + Pi 2 i ẍi i ẍi i ẍi P P 2 P weshalb ẍi εi ] unter i ẍi εi = (b1 − β1 ) i ẍi . Einsetzen in C = 2E [(b1 − β1 ) P . . . xi gibt Berücksichtigung von var(b1 ) = E[b1 − E(b1 )]2 = σ 2 / i " C = 2E (b1 − β1 ) 2 X i ẍ2i # P 2σ 2 i ẍ2i = P 2 = 2σ 2 i ẍi Wir fassen nun die Terme A, B und C zusammen hX i E e2i = σ 2 + (N − 1)σ 2 − 2σ 2 = (N − 2)σ 2 102 Eigenschaften des OLS-Schätzers Daraus können wir wieder einen erwartungstreuen Schätzer für die Varianz der Grundgesamtheit σ 2 bestimmen, denn aus der letzten Gleichung folgt P E( e2i ) = σ2 N −2 Also ist P 2 ei 2 s := N −2 2 ein erwartungstreuer Schätzer für σ , weil E(s2 ) = σ 2 . Wir können also tatsächlich aus den Stichprobenresiduen ei einen erwartungstreuen Schätzer s2 für die VarianzPder Grundgesamtheit σ 2 berechnen, indem wir die Quadratsumme der Residuen i e2i durch die Anzahl der Freiheitsgrade N − 2 dividieren. Die Wurzel dieses erwartungstreuen Schätzers wird in der Literatur Standardfehler der Regression (‘standard error of regression’ oder ‘standard error of estimate’) genannt s := σ b= sP 2 i ei N −2 (3.5) Man beachte aber, dass wir für die Herleitung wiederholt die Annahme gemacht haben, dass die Varianz der Störterme konstant ist, E(ε2i ) = σ 2 (d.h. keine Heteroskedastizität vorliegt), und dass die Störterme untereinander unkorreliert sind, E(εi εj ) = 0 für i 6= j (d.h. keine Autokorrelation vorliegt). Ist mindestens eine dieser Annahmen verletzt wird der nach obiger Formel berechnete Standardfehler der Regression falsche Ergebnisse liefern, d.h. ein verzerrter Schätzer für σ 2 sein.4 Freiheitsgrade: Wir haben gesehen, dass wir zur Berechnung eines P erwartungs2 treuen Schätzers für σ 2 die Quadratsumme der Stichprobenresiduen i ei durch N − 2 dividieren müssen, nicht durch N, wie man das ad hoc erwarten würde. Warum ist das so? Die Schätzung von Parametern ist eng verbunden mit der jeweils zur Verfügung stehenden Information. Für eine intuitive Erklärung erinnern wir uns an die Herleitung des OLS-Schätzers. Dazu haben wir folgenden Ausdruck minimiert min b0 ,b1 N X i=1 e2i = min b0 ,b1 N X (yi − b0 − b1 xi )2 i=1 Für jeden zu schätzenden Parameter erhalten wir eine Bedingungen erster Ordnung P X X ∂ e2i = −2 (yi − b0 − b1 xi ) = −2 ei = 0 | {z } ∂b0 ei P 2 X X ∂ ei = −2 (yi − b0 − b1 xi ) xi = −2 xi ei = 0 | {z } ∂b1 ei 4 Man beachte aber, dass wir diese beiden Annahmen nicht benötigt haben, um die Erwartungstreue der Schätzer b0 und b1 zu zeigen. 103 Eigenschaften des OLS-Schätzers Diese beiden Gleichungen legen eine Restriktion auf die Residuen. Wenn wir z.B. nur die Residuen e1 , e2 , . . . , eN −2 kennen würden, könnten wir die beiden fehlenden P Residuen eN −1 und eN mit Hilfe dieser beiden Bedingungen 1. Ordnung i ei = P 0, i xi ei = 0 berechnen. Zwei der Residuen sind deshalb nicht ‘frei’, sondern sind durch die Bedingungen erster Ordnung determiniert, und enthalten deshalb ‘keine Information’ über die Störterme der Grundgesamtheit εi . Da wir für jeden zu schätzenden Parameter eine Bedingung erster Ordnung haben, verlieren wir mit jedem geschätzten Parameter einen Freiheitsgrad. In diesem Fall haben wir zwei Parameter geschätzt (b0 und b1 ), deshalb verlieren wir zwei Freiheitsgrade. Mit Hilfe des Schätzers s (Standardfehler der Regression) können wir nun die erwartungstreuen Schätzer für die Varianz der Parameter b0 und b1 , d.h. s2b0 und s2b1 aus den Stichprobendaten berechnen, die uns später die Durchführung statistischer Tests ermöglichen wird. Wir fassen nochmals zusammen: b1 = s2b1 = b0 s2b0 P (xi − x̄)(yi − ȳ) P (xi − x̄)2 2 s P (xi − x̄)2 = ȳ − b1 x̄ P 2 s2 xi P = N (xi − x̄)2 −x̄s2 P (xi − x̄)2 P 2 ei 2 := σ̂ = N −2 cov(b0 , b1 ) = s2 3.2 Gauss-Markov Theorem “Beweisen muss ich diesen Käs’, sonst ist die Arbeit unseriös.” (F. Wille) Bisher haben wir uns ausschließlich mit der Erwartungstreue des OLS-Schätzers und mit der Schätzung von dessen Varianz beschäftigt. In diesem Abschnitt werden wir nun die Effizienz des OLS-Schätzers beweisen. Das Gauss-Markov Theorem besagt nämlich, dass der OLS-Schätzer unter bestimmten Annahmen von allen möglichen linearen und erwartungstreuen Schätzfunktionen die kleinste Varianz hat, bzw. 104 Eigenschaften des OLS-Schätzers Unter den (Gauss’schen) Annahmen des ‘klassischen linearen Regressionsmodells’ hat der OLS-Schätzer innerhalb der Klasse aller linearen und erwartungstreuen Schätzfunktionen die kleinste Varianz, oder in anderen Worten, er ist BLUE, d.h. ein Best Linear Unbiased Estimator. Die P OLS-Schätzfunktion P 2 P ist – wie wir bereits gesehen haben – linear, da z.B. b1 = ( i ẍi / j ẍj ) yi = wi yi . Wir werden nun zeigen, dass – wenn die unten angeführten Gauss-Markov Annahmen erfüllt sind – der OLS-Schätzer effizient ist, d.h. var(bOLS ) ≤ var(b∗ ) wobei b∗ jede beliebige lineare und erwartungstreue Schätzfunktion für β sein kann. Das Gauss-Markov Theorem und die zugrunde liegenden Gauss-Markov Annahmen spielen in der Ökonometrie eine ähnlich fundamentale Rolle wie das Modell vollständiger Konkurrenz in der Mikroökonomik, sie stellen das Referenzmodell schlechthin dar. Einen Großteil der restlichen Veranstaltung werden wir uns mit Fällen beschäftigen, wenn die Gauss-Markov Annahmen nicht erfüllt sind. Einige dieser Annahmen haben wir bereits bei der Herleitung des Schätzers für σ 2 kennen gelernt, aber wir werden sie nun noch einmal ausführlich und etwas übersichtlicher zusammenstellen. 3.2.1 Annahmen des ‘klassischen linearen Regressionsmodells’ (CLRM) Die Annahmen beziehen sich auf die funktionale Spezifikation des Modells (Annahme 1), auf den Störterm (Annahmen 2 – 4) oder auf die erklärenden Variablen x (Annahmen 5 – 8). 1. Die wahre Beziehung zwischen den erklärenden Variablen x und der zu erklärenden Variablen y (d.h. die ‘Population Regression Function’ ) ist linear in den Parametern (Wahl der richtigen Funktionsform). Wenn wir K erklärende x Variablen haben yi = β0 + β1 x1i + β2 x2i + · · · + βK xKi + εi Die Parameter der Grundgesamtheit β0 , β1 , . . . , βK gelten für alle N Beobachtungen und sind konstant. Außerdem sei das Regressionsmodell korrekt spezifiziert, d.h. es wurden die ‘richtigen’ x Variablen gewählt (Wahl der richtigen Variablen). Das bedeutet, es fehlen keine relevanten x Variablen, und die im Modell verwendeten x Variablen sind nicht irrelevant. 2. Die Störterme ε der Grundgesamtheit haben einen Erwartungswert Null: E(εi ) = 0 105 Eigenschaften des OLS-Schätzers Y vs. X Y vs. X 600 900 500 800 400 700 300 Y Y 600 200 500 100 400 0 300 -100 200 -200 0 20 40 60 80 100 0 20 X 40 60 80 100 X Abbildung 3.3: Heteroskedastische Störterme: Die Varianz der Störterme σ 2 ist nicht konstant. 3. Homoskedastizität: alle εi haben die gleiche konstante Varianz σ 2 : var(εi ) := E[εi − E(εi )]2 = E(εi )2 = σ 2 Wenn die Residuen diese Annahme verletzen spricht man von Heteroskedastizität. Abbildung 3.3 zeigt zwei Regressionen, bei denen die Annahme einer konstanten Varianz der Grundgesamtheit offensichtlich verletzt ist, bei denen also Heteroskedastizität vorliegt. 4. Die Störterme ε der Grundgesamtheit sind nicht autokorreliert, d.h. die Korrelation zwischen den Störtermen εi und εj für i = 6 j ist gleich Null: E (εi εj ) = 0 für i 6= j Wie bereits mehrfach erwähnt impliziert diese Annahme auch Cov(εi , εj ) = 0, aber umgekehrt folgt aus einer Kovarianz von Null nicht notwendigerweise stochastische Unabhängigkeit, da die Kovarianz nur lineare Abhängigkeiten misst. Abbildung 3.4 zeigt zwei Fälle mit autokorrelierten Störtermen. Die drei vorhergehenden Annahmen betreffen den Störterm der Grundgesamtheit und können folgendermaßen kompakt angeschrieben werden εi ∼ iid(0, σ 2 ) Die restlichen Annahmen betreffen die erklärenden Variablen x. 5. Die erklärenden Variablen x sind deterministisch, d.h. die x werden bei wiederholten Stichprobenziehungen (‘repeated sampling’) als fest gegebene (deterministische) Größen angenommen. Da wir uns für die Parameter β0 , β1 und σ 2 der bedingten Verteilung f (y|x) interessieren darf die Randverteilung von x, d.h. f (x) keine Information über β0 , β1 oder σ 2 enthalten. Dies wird der Fall sein, wenn der datengenerierende Prozess, der die x erzeugt, unabhängig vom Prozess ist, der die y erzeugt. 106 Eigenschaften des OLS-Schätzers Positive Autokorrelation: ρ = +0.8 yi = 0.5 + 0.7xi + εi , (strichliert) εi = 0.8εi−1 + εi , εi ∼ N (0, 1) Negative Autokorrelation: ρ = −0.9 yi = 0.5 + 0.7xi + εi , (strichliert) εi = −0.9εi−1 + εi , εi ∼ N (0, 1) y 6 y 6 ‘Wahrer’ Zusammenhang ŷ = β0 + β1 x 5 ‘Wahrer’ Zusammenhang ŷ = β0 + β1 x 5 b b 4 b 3 b 2 b b b OLS ŷ = b0 + b1 x b b b b b b b b 3 b 2 b 1 OLS ŷ = b0 + b1 x b 4 b b 1 b 0 0 1 2 3 4 5 6 7 x 0 0 1 2 3 4 5 6 7 x Abbildung 3.4: Autokorrelierte Störterme: Die Störterme sind untereinander korreliert, d.h. Cov(εi , εj ) 6= 0 (strichlierte Linie:Population Regression Function, durchgezogene Linie:Sample Regression Function). Wir werden später zeigen, dass die Annahme E(εi |xi ) = E(εi ) = 0 das heißt, dass die auf x bedingten Erwartungswerte von ε gleich Null sind, stochastische Unabhängigkeit zwischen x und ε impliziert, was auch cov(εi , xi ) = 0 impliziert. 6. Die erklärenden Variablen x sind linear unabhängig (d.h. keine perfekte Multikollinearität). 7. Die Stichprobenvarianz von x, Var(xi ), ist eine positive und endliche Zahl. 8. Die Anzahl der Beobachtungen N ist größer als die Anzahl der zu schätzenden Parameter K. 3.2.2 Beweis für die Effizienz des OLS-Schätzers (Gauss-Markov Theorem) Der Beweis der Effizienz des OLS-Schätzers ist einer der Höhepunkte jeder einführenden Ökonometrie-Veranstaltung, genießen Sie also das Folgende.5 Die Grundidee dieses Beweises funktioniert folgendermaßen: 1. Wir gehen von einer beliebigen linearen Schätzfunktion aus. 2. Wir ermitteln die notwendigen Bedingungen, unter denen diese lineare Schätzfunktion erwartungstreu ist. 5 Wer mit dem ‘Genießen’ Probleme hat sei getröstet, Sie werden in der Veranstaltung auch noch ‘Anwendungsorientierteres’ erleben. 107 Eigenschaften des OLS-Schätzers 3. Wir minimieren die Varianz dieser beliebigen linearen Schätzfunktion unter der Nebenbedingung, dass diese lineare Schätzfunktion erwartungstreu ist. 4. Wir werden sehen, dass die aus der Minimierung resultierende – also varianzminimale – Schätzfunktion genau der OLS-Schätzer ist. Deshalb ist der OLS Schätzer varianzminimal. Allerdings werden wir im Laufe der Beweisführung einige Annahmen benötigen, die sogenannten Gauss-Markov Annahmen, die wir im letzten Kapitel bereits aufgezählt haben, und deshalb gilt der Beweis nur unter Gültigkeit dieser Annahmen. Wir beginnen mit dem Steigungsparameter b1 . Um die Effizienz des OLS-Schätzers b1 zu beweisen minimieren wir nun die Varianz von b1 unter der Nebenbedingung, dass der Schätzer erwartungstreu sein soll. Um die Bedingungen für die Erwartungstreue herzuleiten starten wir mit einer beliebigen linearen Schätzfunktion b̃1 (sprich b1 Schlange) für den Steigungsparameter b̃1 = N X ci y i i=1 wobei die ci (beliebige) deterministische Gewichte sind und natürlich Funktionen der xi sein können. Unverzerrtheit bedeutet E(b̃1 ) = β1 Einsetzen des obigen Schätzers gibt: X E(b̃1 ) = E( ci y i ) X = ci E(yi ) (da ci deterministisch) X = ci (β0 + β1 xi ) [E(εi ) = 0] X X = β0 ci + β1 ci xi X X = β1 wenn ci = 0 und ci xi = 1 P Das Schätzer für β1 ist müssen die Bedingungen P heißt, damit P ci yi ein unverzerrter 6 ci = 0 und ci xi = 1 erfüllt sein. Nun minimieren wir die Varianz von b1 unter diesen beiden Nebenbedingungen für Unverzerrtheit. Die Varianz von b̃1 ist 6 X ci y i var(b̃1 ) = var X = c2i var (yi ) (weil die yi statistisch unabhängig sind) X X = c2i σ 2 = σ 2 c2i Man beachte, dass die Gewichte wi = ẍi / P j ẍ2j auf Seite 93 diese Bedingungen erfüllten. 108 Eigenschaften des OLS-Schätzers da unter den Annahmen deterministischer x und E(εi ) = 0 gilt var(yi ) = var(εi ) = σ 2 , weil var(yi ) := E[β0 +β1 xi +εi −E(β0 +β1 xi +εi )]2 = E[εi −E(εi )]2 ) = E(εi )2 = σ 2 . Man beachte, dass wir dabei auch von den Gauss-Markov Annahmen über den Störterm εi ∼ iid(0, σ 2 ) (d.h. unter anderem, keine Autokorrelation und keine Heteroskedastizität) Gebrauch gemacht haben. Wir suchen nun P die Gewichte cP 1 , c2 , . . . , cN , die die Varianz von b̃1 unter den Nebenbedingungen ci = 0 und ci xi = 1 (Erwartungstreue) minimieren. Dies ist eine einfache Minimierungsaufgabe unter Nebenbedingungen und kann z.B. mit der Lagrange Methode einfach gelöst werden. Da wir zwei Nebenbedingungen haben benötigen wir zwei Lagrangemultiplikatoren λ1 und λ2 . Die Lagrangefunktion ist L(c1 , . . . , cN , λ1 , λ2 ) = σ 2 X c2i − λ1 X X ci − λ 2 ci xi − 1 und die Bedingungen erster Ordnung für ein Optimum sind ∂L = 2c1 σ 2 − λ1 − λ2 x1 = 0 ∂c1 ∂L = 2c2 σ 2 − λ1 − λ2 x2 = 0 ∂c2 .. . ∂L = 2cN σ 2 − λ1 − λ2 xN = 0 ∂cN X ∂L = ci = 0 ∂λ1 X ∂L = ci xi − 1 = 0 ∂λ2 Aus diesen N + 2 Gleichungen können die Unbekannten c1 , . . . , cN , λ1 und λ2 berechnet werden. Die ersten N Gleichungen können geschrieben werden als 1 (λ1 + λ2 x1 ) 2σ 2 1 = (λ1 + λ2 x2 ) 2σ 2 .. . 1 = (λ1 + λ2 xN ) 2σ 2 c1 = c2 cN Aufsummieren dieser Gleichungen gibt X i da P i ci ci = 0 = X 1 (λ N + λ xi ) 1 2 2σ 2 i = 0 eine Bedingung erster Ordnung ist. 109 Eigenschaften des OLS-Schätzers Wir können die erste Gleichung von obigem Gleichungssystem mit x1 , die zweite mit x2 usw. multiplizieren 1 (λ1 x1 + λ2 x21 ) 2 2σ 1 = (λ1 x2 + λ2 x22 ) 2 2σ .. . 1 = (λ1 xN + λ2 x2N ) 2 2σ c1 x1 = c2 x2 cN xN Aufsummieren gibt X i wobei P i ci xi 1 ci xi = 1 = 2 2σ λ1 X xi + λ2 i X (x2i ) i ! = 1 wieder eine Bedingung erster Ordnung ist. Diese beiden Gleichungen können nach λ1 und λ2 gelöst werden (nicht so schüchtern, versuchen Sie’s ruhig mal!) P −2σ 2 xi P P λ1 = N( x2i ) − ( xi )2 2Nσ 2 P 2 P λ2 = N( xi ) − ( xi )2 Diese Gleichungen können schließlich in ci = 1 (λ1 + λ2 xi ) 2σ 2 eingesetzt werden und geben die Lösung P Nxi − j xj (xi − x̄) ẍi P 2 P ci = =P =P 2 2 2 N( j xj ) − ( j xj ) j (xj − x̄) j ẍj P 2 P 2 P 1 Übungsaufgabe: Zeigen Sie, dass (x ) − ( xi ) = P(xi − x̄)2 . P i N P Hinweis: es ist einfacher zu zeigen, dass (xi − x̄)2 gleich (x2i ) − N1 ( xi )2 ist. Deshalb ist b̃1 = n X i=1 P ẍi yi ci y i = P 2 ẍi eine effiziente (d.h. erwartungstreue und varianzminimale) Schätzfunktion. Aber dies ist genau die Gleichung des OLS-Schätzers (vgl. Seite 52). Damit haben wir gezeigt, dass der OLS-Schätzer tatsächlich die minimale Varianz unter allen linearen erwartungstreuen Schätzfunktionen hat, wenn die Gauss-Markov Annahmen erfüllt sind. QED Dieser Ansatz liefert auch eine alternative Möglichkeit die P Varianz von b1 zu berechnen, denn wir haben vorhin gezeigt, dass Var(b̃1 ) = σ 2 c2i . 110 Eigenschaften des OLS-Schätzers Wir multiplizieren P Nxi − j xj P P ci = N( j x2j ) − ( j xj )2 mit ci und Summieren über alle i (für i, j = 1, . . . , N) P P P X N i (ci xi ) − i ci j xj 2 P P ci = N( j x2j ) − ( j xj )2 Da folgt also X X ci = 0 c2i = N( und P X ci xi = 1 1 N P 2 =P 2 − ( xi ) ẍi x2i ) σ2 var(b̃1 ) = P 2 ẍi Dies ist wiederum exakt die Varianz des OLS-Schätzers. Ähnlich kann ein BLU7 Schätzer für b̃0 und dessen Varianz berechnet werden: b̃0 = ȳ − b̃1 x̄ P σ 2 ( x2i ) P var(b̃0 ) = N ẍ2i Eine allgemeinere untere Abschätzung der Varianzen einer erwartungstreuen Schätzfunktion erlaubt die Rao-Cramer’sche Ungleichung (siehe z.B. Kmenta 1990, S. 160f, Frohn 1995). 3.3 Asymptotische Eigenschaften (‘Große Stichprobeneigenschaften’) Wir haben bisher Schätzfunktionen für b0 und b1 hergeleitet, die es uns erlauben aus den beobachtbaren Daten einer Stichprobe Informationen über interessierende Parameter einer unbekannten Grundgesamtheit zu ermitteln. Um die Anwendbarkeit dieser Schätzer unter verschiedenen Bedingungen beurteilen zu können, müssen deren Eigenschaften beurteilt werden können. Die zwei wichtigsten Eigenschaften von Schätzfunktionen, die wir bisher untersucht haben, sind die Unverzerrtheit und Effizienz. Diese Eigenschaften gelten unabhängig von der Stichprobengröße, also auch in kleinen Stichproben. In manchen Fällen sind auch die Stichprobenkennwertverteilungen von solchen Schätzern bekannt, zum Beispiel die Verteilung der Mittelwerte aus wiederholten Zufallsstichprobenziehungen, die aus einer normalverteilten Grundgesamtheit gezogen wurden. 7 BLUE bedeutet Best Linear Unbiased Estimator, man spricht also von von einem BLU Schätzer. Eigenschaften des OLS-Schätzers 111 Aber oft kennt man die Verteilung der Grundgesamtheit nicht, und manchmal können diese sogenannten ‘Kleine-Stichproben Eigenschaften’ aufgrund mathematischer Probleme nicht ermittelt werden. In solchen Fällen wird meist auf sogenannte ‘Große-Stichproben Eigenschaften’ (asymptotische Eigenschaften) zurückgegriffen. Am einfachsten können die grundlegenden asymptotischen Konzepte anhand der Verteilung des Mittelwertes einer Zufallsvariablen veranschaulicht werden. Sei X eine Zufallsvariable mit unbekannter Dichtefunktion, von der aber bekannt ist, dass Mittelwert µ und Varianz σ 2 fixe Zahlen sind, d.h. nicht unendlich groß sind. Aus dieser Verteilung werden N Zahlen gezogen und daraus der Stichprobenmittelwert x̄N berechnet, wobei das tiefgestellte N angibt, auf wievielen Beobachtungen der Stichprobenmittelwert beruht. Dieses N bringt zum Ausdruck, dass wir eigentlich eine Folge von Schätzern untersuchen, denn wenn zusätzliche Beobachtungen dazukommen, ändert sich in der Regel auch die Schätzfunktion. Für den einfachen Stichprobenmittelwert ist eine solche Folge von Schätzfunktionen z.B. x1 + x2 + · · · + xN x1 + x2 x1 + x2 + x3 , ,..., {x̄}N = x1 , 2 3 N Diese Mittelwerte sind natürlich selbst wieder Zufallsvariablen mit einer Dichtefunktion f (x̄N ). Die asymptotische Theorie untersucht z.B., wie sich eine Zufallsvariable x̄N und deren Verteilung verhält, wenn die Stichprobengröße N gegen Unendlich geht, d.h. N → ∞. Asymptotische Eigenschaften sind vor allem in Fällen von Bedeutung, • in denen sich ‘kleine Stichprobeneigenschaften’ nicht ermitteln lassen, oder • wenn man wissen möchte, ob sich der Erwartungswert einer verzerrten Schätzfunktion wenigstens mit steigender Stichprobengröße (d.h. für N → ∞) einem wahren Parameter µ zubewegt. Da die folgenden Ausführungen ziemlich allgemein gehalten sind schreiben wir θ für einen beliebigen Parameter einer Verteilung, und mit θ̂ bezeichnen wir wie üblich die Schätzfunktion für diesen Parameter (θ könnte zum Beispiel der Mittelwert µ oder der Steigungskoeffizient β1 aus unserem früheren Beispiel sein). 3.3.1 Konsistenz (Consistency ) Die Konsistenz ist vermutlich die für uns wichtigste asymptotische Eigenschaft, da sie in der Regel am einfachsten zu beweisen ist. Die Grundidee ist ziemlich einfach, Konsistenz bedeutet einfach, dass ein Schätzer umso genauer werden sollte, umso größer die Stichprobe ist. Die formale Definition sieht zunächst etwas schwierig aus: θ̂N ist eine konsistente Schätzfunktion für θ wenn gilt h i lim P |θ̂N − θ| < δ = 1 δ>0 N →∞ das heißt, dass die Wahrscheinlichkeit(P ), dass mit steigendem Stichprobenumfang der Absolutbetrag der Differenz zwischen θ̂N und θ kleiner als eine beliebig kleine Zahl δ wird, gegen 1 konvergiert. 112 Eigenschaften des OLS-Schätzers f (θ̂) N = 10000 N = 1000 N = 100 N = 50 N = 10 θ θ̂100 θ̂10 θ̂ Abbildung 3.5: Konsistente Schätzer können in kleinen Stichproben verzerrt sein, konvergieren aber mit steigendem Stichprobenumfang der Wahrscheinlichkeit nach gegen den wahren Wert θ. Etwas ungenau lässt sich dies folgendermaßen ausdrücken: wenn der Stichprobenumfang sehr sehr groß wird, wird es sehr wahrscheinlich, dass der Schätzer sehr nahe beim wahren Wert θ der Grundgesamtheit liegt. Wenn der Stichprobenumfang N unendlich groß wird “ kollabiert” die Dichtefunktion einer konsistenten Schätzfunktion θ̂N im Punkt θ (siehe Abb. 3.5). Eine hinreichende, aber nicht notwendige Bedingung für Konsistenz ist, dass lim E(θ̂N ) = θ N →∞ und lim var(θ̂N ) = 0 N →∞ d.h. wenn der Schätzer asymptotisch unverzerrt 8 ist und die Varianz gegen Null geht. Um die tiefere Bedeutung der Konvergenz zu verstehen benötigt man einige Begriffe aus der Stochastik, die hier nur ganz kurz gestreift werden. Konvergenz der Wahrscheinlichkeit nach (‘Convergence in Probability’, auch Stochastische Konvergenz genannt) ist ein zentrales Konzept zur Klärung des Verhaltens von Zufallsvariablen bei wachsendem Stichprobenumfang. Sie gibt – vereinfacht gesprochen – an, in welchem Bereich sich im Falle unendlich vieler Experimente die Zufallsvariable befindet. Das Konzept der stochastischen Konvergenz wird benötigt um ‘Gesetze der großen Zahl’ zu beweisen. Gesetze der großen Zahl Generell sind ‘Gesetze der großen Zahlen’ meist Aussagen über das Verhalten von Parametern (Mittelwerten oder anderen Momenten) einer großen Zahl von Zufallsvariablen. 8 Asymptotische Erwartungstreue (Asymptotic Unbiasedness): θ̂N ist eine asymptotisch erwartungstreue Schätzfunktion für θ wenn gilt: limN →∞ E(θ̂N ) = θ. 113 Eigenschaften des OLS-Schätzers Beispiel: Für eine unendliche Folge von Zufallsvariablen x1 , x2 , . . ., die alle denselben Erwartungswert µ besitzen, wird folgende Konvergenzaussage als (ein) schwaches Gesetz der großen Zahlen bezeichnet: Das arithmetische Mittel von N Zufallsvariablen x̄N = (x1 + x2 + · · · + xN )/N konvergiert stochastisch gegen µ; das bedeutet, für jede positive Zahl δ (beliebig klein) gilt lim P (|x̄N − µ| < δ) = 1 N →∞ Dieses schwache Gesetz der großen Zahl gilt beispielsweise, wenn die Zufallsvariablen x1 , x2 , x3 , . . . endliche Varianzen σ12 , σ22 , . . . haben, die zudem durch eine gemeinsame obere Grenze beschränkt sind, sowie untereinander unkorreliert sind (d.h., Cov(xi , xj ) = 0, falls i 6= j). Konsistenz eines Schätzers bedeutet, dass eine Folge von Schätzfunktionen θ̂N stochastisch gegen das wahre θ konvergiert, also ein Gesetz der großen Zahl erfüllt ist, oder in anderen Worten, eine Folge von Schätzfunktionen θ̂N konvergiert in Wahrscheinlichkeit gegen den wahren Wert θ. Dies wird oft kürzer geschrieben als p θ̂ −→ θ Dafür hat sich auch die Notation des sogenannten probability-limits (plim) eingebürgert: plim θ̂N = θ ist also äquivalent zu h i lim P |θ̂N − θ| < δ = 1 N →∞ δ>0 wobei δ beliebig klein gewählt werden kann. Die Bedeutung der Konsistenz resultiert wesentlich daraus, dass das Rechnen mit ‘probability-limits’ relativ einfach ist. Regeln für das Rechnen mit ‘probability-limits’ 1. Wenn c eine Konstante ist gilt plim c = c 2. Wenn θˆ1 und θˆ2 konsistente Schätzfunktionen sind gilt plim (θ̂1 + θ̂2 ) = plim θ̂1 + plim θ̂2 plim (θ̂1 θ̂2 ) = plim θ̂1 plim θ̂2 plim θ̂1 θ̂2 = plim θ̂1 plim θ̂2 (für θ̂2 6= 0, plim θ̂2 6= 0) Man beachte, dass die letzten beiden Eigenschaften für den Erwartungswertoperator nur dann gelten, wenn θˆ1 und θˆ2 stochastisch unabhängig sind. Aus diesen Gründen ist Konsistenz üblicherweise einfacher zu beweisen als Erwartungstreue oder Effizienz. 114 Eigenschaften des OLS-Schätzers 3. Slutsky-Theorem: Wenn θ̂ eine konsistente Schätzfunktion für θ ist und h(θ̂) eine stetige Funktion von θ̂ ist gilt: plim h(θ̂) = h(θ) Man sagt auch, dass sich die Konsistenz ‘überträgt’. Wenn θ̂ eine konsistente Schätzfunktion für θ ist, dann ist z.B. 1/θ̂ auch eine konsistente Schätzfunktion für 1/θ (für θ̂ 6= 0), oder ln θ̂ ist eine konsistente Schätzfunktion für für ln θ (für θ̂ > 0). Dies gilt nicht für den Erwartungswertoperator!. 3.3.2 Beispiel: Unverzerrtheit und Konsistenz des OLSSchätzers bei stochastischen Regressoren (x) Bisher haben wir angenommen, dass die erklärende Variable x deterministisch ist, d.h. dass bei wiederholten Stichprobenziehungen nur verschiedene y gezogen werden, aber die x fix gegeben sind. In diesem Unterabschnitt interessieren uns die Eigenschaften des OLS-Schätzers, wenn die erklärende Variable x ebenso stochastisch ist. Auf Seite 52 haben die die Formel für den OLS-Schätzer bereits hergeleitet: P ẍi ÿi b1 = P 2 ẍi wobei ẍi = xi − x̄ und ÿi = yi − ȳ. Um die Erwartungstreue zu überprüfen setzen wir wieder den wahren Zusammenhang ÿi = β1 ẍi +εi ein und bilden den Erwartungswert P ẍi εi E[b1 ] = β1 + E P 2 ẍi Wenn nun die ẍi stochastisch sind hängt die Erwartungstreue von der gemeinsamen Wahrscheinlichkeitsverteilung von ẍi und εi ab (man beachte, dass E(x/y) 6= E(x)/ E(y)!). Die Erwartungstreue des Schätzers b1 können wir nur zeigen wenn wir annehmen, dass alle ẍi (d.h. ẍ1 , ẍ2 , . . . ẍN ) stochastisch unabhängig von allen εi (d.h. ε1 , ε2 , . . . εN ) sind. In diesem Fall gilt P X ẍi ẍi εi E P 2 = E P 2 εi ẍi ẍi X ẍi = E P 2 E(εi ) ẍi X (xi − x̄) = E P E(εi ) = 0 (xi − x̄)2 da E(εi ) = 0. 115 Eigenschaften des OLS-Schätzers Um die Konsistenz zu zeigen bilden wir das probability-limit und wenden die entsprechenden Rechenregeln an P ẍi εi plim b1 = plim β1 + plim P 2 ẍ P i plim ẍi εi P = β1 + plim ẍ2i P plim N1 ẍi εi P 2 = β1 + ẍi plim N1 Wir haben Zähler und Nenner des zweiten Ausdrucks durch N dividiert und erhalten damit konsistente Schätzer für die Varianz und Kovarianz der Grundgesamtheit.9 Der Schätzer b1 ist also konsistent, wann immer die Störterme der Grundgesamtheit εi und die erklärenden Variablen ẍi unkorreliert sind, d.h. wenn X 1 plim ẍi εi = 0 N da in diesem Fall plim b1 = β1 + 0 = β1 σẍ Im Unterschied zum Beweis für die Erwartungstreue müssen für Konsistenz nicht alle x1 , x2 , . . . xN mit allen ε1 , ε2 , . . . εN unkorreliert sein, sondern es genügt für Konsistenz, wenn die xi einer Beobachtung oder Zeitperiode mit den entsprechenden εi der gleichen Beobachtung oder Periode unkorreliert sind! Wichtig ist aber nach wie vor die Annahme, dass die Störterme der Grundgesamtheit εi mit dem Regressor xi unkorreliert sind. Ist diese Annahme nicht erfüllt ist der OLS-Schätzer auch nicht konsistent! Im wesentlichen verlangen wir von den Regressoren x also, dass sie nur über den spezifizierten Zusammenhang yi = β0 + β1 xi + εi mit den y verknüpft sind, und dass es keine anderen nicht spezifizierten Zusammenhänge zwischen x und y gibt – wie z.B. bei simultanen Gleichungssystemen – da diese anderen nicht spezifizierten Zusammenhänge eine Korrelation zwischen den ε und x bewirken würden, die zu systematisch verzerrten Schätzern führt. 3.3.3 Asymptotische Normalverteilung Ein Schätzer ist asymptotisch normalverteilt, wenn seine Stichprobenkennwertverteilung mit zunehmender Stichprobengröße gegen die Normalverteilung konvergiert. Das dahinter liegende stochastische Konzept ist eine Konvergenz hinsichtlich der Verteilung (‘Convergence in Distribution’ ). Vereinfacht gesprochen bedeutet dies, dass die Verteilung einer Folge von Schätzern θ̂N aus Stichproben des Umfangs N, die alle derselben Grundgesamtheit entnommen wurden, mit zunehmendem Stichprobenumfang in eine Normalverteilung übergeht, und das unabhängig von der Verteilung der Grundgesamtheit! Beweise der Konvergenz hinsichtlich der Verteilung führen zu den Zentralen Grenzwertsätzen. 9 Ob wir durch N oder N − 1 dividieren spielt keine Rolle wenn N → ∞. 116 Eigenschaften des OLS-Schätzers f (θ̂) verzerrt, aber kleine Varianz erwartungstreu, aber große Varianz bc b θ θ̂ Abbildung 3.6: Mean Square Error Abwägung zwischen erwartungstreuen Schätzfunktionen mit großer Varianz und verzerrten Schätzfunktionen mit kleiner Varianz. 3.3.4 Asymptotische Effizienz θ̂ sei ein Schätzer für θ. Die Varianz der asymptotischen Verteilung von θ̂ heißt asymptotische Varianz von θ̂. Wenn θ̂ konsistent ist und die asymptotische Varianz kleiner ist als die aller anderen konsistenten Schätzer, dann heißt θ̂ asymptotisch effizient. 3.4 Der Mittlere Quadratische Fehler (Mean Square Error, MSE) Wir haben uns bisher nur mit erwartungstreuen Schätzfunktionen beschäftigt. Manchmal ist aber keine erwartungstreue Schätzfunktion verfügbar. In solchen Fällen wird manchmal auf den ‘Mean Square Error’ (MSE) zurückgegriffen, der Varianz und Verzerrung zusammenfaßt und sich deshalb besonders zur Beurteilung nicht erwartungstreuer Schätzfunktionen eignet (siehe Abb. 3.6). Wir beginnen wieder ganz allgemein und bezeichnen einen interessierenden Parameter einer Verteilung mit θ, und den Schätzer für diesen Parameter mit θ̂. Eine konkrete Schätzung erhält man, wenn man die Stichprobenbeobachtungen in die Formel für θ̂ einsetzt. Folgende Konzepte sind im folgenden von Bedeutung: 117 Eigenschaften des OLS-Schätzers Stichprobenfehler Verzerrung Mean Square Error Varianz = θ̂ − θ = E(θ̂) − θ = E(θ̂ − θ)2 h i2 = E θ̂ − E(θ̂) Der Stichprobenfehler ist einfach der Unterschied zwischen dem Schätzer aus der Stichprobe und dem wahren Wert der Grundgesamtheit. Die Größe des Stichprobenfehlers wird sich üblicherweise von Stichprobe zu Stichprobe unterscheiden. Die Verzerrung ist die Differenz zwischen dem Mittelwert der Stichprobenverteilung eines Schätzers und dem wahren Wert der Grundgesamtheit. Diese ist für einen Schätzer ein fester Wert der Null oder ungleich Null sein kann, sich aber nicht zwischen Stichproben unterscheidet. Der Mean Square Error misst die Streuung der Verteilung eines Schätzers um den wahren Wert. Er ähnelt darin der Varianz, aber während die Varianz die Streuung um den Erwartungswert der Verteilung misst, gibt der MSE die Streuung um den wahren Wert an. Für erwartungstreue Schätzfunktionen sind Varianz und MSE natürlich gleich, aber für nicht erwartungstreue Schätzfunktionen müssen sie unterschieden werden. Dies kann folgendermaßen gezeigt werden: E(θ̂ − θ)2 E[θ̂ − E(θ̂) + E(θ̂) − θ]2 E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 + 2 E[θ̂ − E(θ̂)][E(θ̂) − θ] E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 + +2{[E(θ̂)]2 − [E(θ̂)]2 − θ E(θ̂) + θ E(θ̂)} = E[θ̂ − E(θ̂)]2 + E[E(θ̂) − θ]2 = Var(θ̂) + [Verzerrung(θ̂)]2 MSE(θ̂) = = = = Dieser Zusammenhang gilt für alle Schätzer. Akademische Forscher neigen oft dazu unverzerrte Schätzer selbst auf Kosten eines größeren MSE zu bevorzugen, da sie ihre Studie als eine von vielen Studien wahrnehmen und hoffen, dass sich die größere Streuung über die vielen Studien mittelt. In vielen praktischen Anwendungen gibt es allerdings nur eine Schätzung (Studie), und da spielt es keine Rolle, ob der Fehler aus einer systematischen Verzerrung oder einer größeren Varianz resultiert – Fehler ist Fehler. Für Prognosen ist zum Beispiel ein kleiner MSE oft wichtiger als Unverzerrtheit.