Kapitel 1: Einführung 1.1 Technische Vorbemerkungen 1.2 Inhaltliche Gliederung und Ziele der Veranstaltung 1.3 Ökonometrie: Was, wozu und wie? 1.4 Illustration Anhang A Wiederholung: Lineare Algebra B Wiederholung: Statistik und Verteilungstheorie C Zusammenstellung von Annahmen 1.1 Lernziele • Was ist und wozu benötigt man die Ökonometrie? • Wie rechnet man mit Vektoren und Matrizen? • Wie lassen sich Zufallsvariablen und ihre Verteilungen beschreiben? 1.2 1.1 Technische Vorbemerkungen • Vorlesung 2 SWS, Übung 2 SWS, Tutorien - Vorlesung, Mo und Mi 8:00 – 09:30 - Übung, 7 Parallelveranstaltungen, siehe Lehrstuhlwebsite - Tutorien: ab November 2010, verschiedene parallele Termine, wöchentlich, zur Klausurvorbereitung • Die Veranstaltung findet geblockt in der ersten Semesterhälfte statt. Dies hat den Vorteil, dass die Klausur vorgezogen, bereits Anfang Januar (7.1.11) durchgeführt werden kann und dass eine weitere hierauf aufbauende Ökonometrieveranstaltung im WS belegt werden kann. 1.3 • Literatur: Marno Verbeek, 2008, A Guide to Modern Econometrics, third edition, John Wiley & Sons Ltd., Chichester UK. Preis (neu): € 39,95 (Stand Sept. 2009). Die Veranstaltung bezieht sich stark auf dieses Lehrbuch. • Die Veranstaltung wird durch eine Klausur abgeschlossen. Hilfsmittel: Taschenrechner, ggf. Wörterbuch, Formelsammlung wird bereitgestellt • Auf die Endnote kann die Note einer freiwilligen Hausaufgabe zu 20 Prozent angerechnet werden. Note verfällt nach dem SS 2011. Bearbeitung in Gruppen von 2-3 Personen ist möglich. Anmeldung bis 29.10.10. bei [email protected]. Ausgabe der Hausarbeitsthemen ab 09.11.10, Abgabe: bis 31.01.11. 1.4 • Leistungs- und Prüfungsanforderungen - alte Klausuren mit Musterlösung im Netz - ca. 33 % wahr/falsch Fragen zu einzelnen Lerninhalten - ca. 67% offene Fragen zur Interpretation und Diskussion von Schätzergebnissen, kritische Diskussion der unterstellten Modelle • Nicht geprüftes Lernziel: Anwenderkenntnis der Statistiksoftware Stata - ermöglicht eigenes empirisches Arbeiten - wichtig für empirische Abschlussarbeiten - vertieft Verständnis für Anwendbarkeit der Methoden • Im Rahmen des Tutoriums werden frühere Klausuraufgaben besprochen. 1.5 • Lerntipps: - Lerngruppe bilden - Veranstaltungen regelmäßig vor- und nachbereiten - am Ende der Kapitel prüfen, ob Fragen offen geblieben sind 1.6 • Empfehlenswerte Literatur: – Greene, William H., 2008, Econometric Analysis, 6th ed., Prentice Hall, New Jersey. – Gujarati, Damodar N., 2008, Basic Econometrics, 4th ed., McGraw Hill, New York. – Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, MIT Press, Cambridge/Mass. – Stock, James H. and Mark W. Watson, 2007, Introduction to Econometrics, 2. Auflage, Pearson, Boston. – Wooldridge, Jeffrey M., 2009, Introductory Econometrics, 4. Auflage, South-Western. 1.7 • Deutschsprachige Vorbereitungsliteratur bspw.: – von Auer, Ludwig, 2007, Ökonometrie. Eine Einführung, Springer Verlag. 1.8 1.2 Inhaltliche Gliederung und Ziele der Veranstaltung • Gliederung: Kapitel im Lehrbuch: 1. Einführung und Wiederholung 1 & Appendix 2. Lineare Regression 2 3. Interpretation und Vergleich von Regressionsmodellen 3 4. Heteroskedastie und Autokorrelation 4 5. Maximum Likelihood und 0/1 abhängige Variablen 6,7 1.9 • Ziel: - Vertiefung der Kenntnis ökonometrischer Methoden - Einführung in die Anwendung der Stata Software - Einüben, empirische Ergebnisse zu interpretieren - Erlernen, eigene und fremde Resultate kritisch zu bewerten - Möglich: Erstellen einer eigenen empirischen Analyse im Rahmen der Hausaufgabe 1.10 1.3 Ökonometrie: Was, wozu und wie? • Definition 1: Econometrics is what econometricians do. • Definition 2: Econometrics is the interaction of economic theory, observed data, and statistical methods. • Ziel: Beziehungen zwischen Größen (z.B. Bildung und Löhnen) überprüfen und quantifizieren. • 4 Kategorien von Beziehungen zwischen Größen: (1) Beziehungen zwischen vergangenen und gegenwärtigen Werten einer einzelnen Größe, Zeitreihenmodelle (z.B. wie hängt die Zins- oder Aktienpreisentwicklung von ihrer Vergangenheit ab). 1.11 (2) Beziehungen zwischen verschiedenen, typischerweise aggregierten ökonomischen Größen über einen Zeitraum (z.B. der Zusammenhang zwischen kurz- und langfristigen Zinssätzen). (3) Beziehungen zwischen Größen, die disaggregierte Einheiten (z.B. Individuen, Haushalte, Unternehmen) zu einem Zeitpunkt beschreiben (z.B. welchen Einfluss hat das Einkommen auf das Sparverhalten der Individuen). Modelle erklären den Unterschied zwischen Beobachtungseinheiten. (4) Beziehungen zwischen Merkmalen disaggregierter Einheiten, die über einen Zeitraum (mindestens zwei Perioden) gemessen werden. Modelle erklären Unterschiede zwischen Beobachtungseinheiten und Änderungen in deren Verhalten über die Zeit. 1.12 • Ökonometriker wählen eine Modellform und Vorgehensweise, um die jeweiligen Beziehungen empirisch zu untersuchen. Oft müssen die Daten beschafft werden (z.B. durch Erhebungen). Hauptaufgabe: geeignete Verfahren wählen und unterstellte Beziehungen durch Tests überprüfen. • Wissenschaftlicher Fortschritt benötigt das empirische Testen von Hypothesen (siehe Karl Poppers kritischen Rationalismus). Ohne Empirie und – für die Wirtschaftswissenschaften – Ökonometrie entwickelt sich der Wissensstand nicht weiter. • Ökonometrische Verfahren nutzt nicht nur der Wissenschaft; sie sind Bestandteil vieler betriebs- und volkswirtschaftlicher Tätigkeiten, beispielsweise in den Bereichen Marktforschung, Finanzmarktanalyse, Geldpolitik, Arbeitsmarkt- und Sozialpolitik, Makroökonomie. 1.13 • Die Verfahren werden ebenfalls in anderen sozialwissenschaftlichen Disziplinen, wie Soziologie und Psychologie, in der Medizinforschung und in ingenieurwissenschaftlichen Bereichen verwendet. 1.14 1.4 Illustration: Finanzieller Nutzen universitärer Ausbildung • Vor dem Hintergrund der demographischen Entwicklung und der doppelten Abiturjahrgänge muss politisch entschieden werden, ob und an welcher Stelle zusätzliche Studienplätze bereit gestellt werden. • Kosten und Nutzen des Studiums an Universitäten und Fachhochschulen sind relevante Größen zur Steuerung zukünftiger Studierendenströme. • Bei der Berechnung des Nutzens eines Studiums unterscheidet man die gesellschaftliche und die individuelle Perspektive. Letztere ist anhand eines Vergleichs der Verdienstentwicklung im Lebenszyklus einfacher zu bewerten. 1.15 • Eine solche Vergleichsstudie haben Riphahn / Eschelbach / Heineck / Müller auf Basis der Daten des Sozioökonomischen Panels (2001-2007) vorgenommen. • Theoretisches Modell auf Basis der Mincer'schen Verdienstfunktion: log ( wi ) = β0 + β1 educi + β2 expi + β3 expi2 + β4 Xi + ei . wi = realer Stundenlohn von Person i educi = Indikator des von i gewählten Bildungsweges expi = Arbeitsmarkterfahrung von i, gemessen in Jahren expi2 = expi ⋅ expi Xi = Vektor von Kontrollvariablen 1.16 ei = Restgröße β0-β4 = unbekannte Parameter. Wenn β1 > 0 ist der Lohn höher bei höherer Bildung. • Stichprobe: Wiederholte Beobachtungen von erwerbstätigen Personen mit einem tertiären Bildungsabschluss, im Alter von 28 – 60 Jahren. 11.879 Personen-Jahr-Beobachtungen von 2614 verschiedenen Personen. 39,7 % haben einen Fachhochschul- und 60,3 % einen Universitätsabschluss. • Abhängige Variable: w = reale Bruttostundenlöhne (in 2005er Euro). Die Verteilung unterscheidet sich bereits zwischen den beiden Gruppen (hier nur Männer): 1.17 1.18 • Erklärende Variablen: Universitätsabschluss (ja/nein), Alter, Alter2, Alter3, männliches Geschlecht, Teilzeit beschäftigt, befristet beschäftigt, im öffentlichen Dienst, verheiratet, nicht deutsch, sowie Betriebszugehörigkeitsdauer, Unternehmensgröße, Branche, Bundesland, Kalenderjahr. • Ergebnis einer linearen Schätzung für Männer und Frauen zusammen, nur für Frauen und nur für Männer (weitere Koeffizienten wurden geschätzt, aber hier nicht dargestellt): 1.19 Universität (0/1) (β1) Alter (β2) Alter^2/100 (β3) Alter^3/1000 Mann (0/1) Teilzeit beschäftigt (0/1) Befristet beschäftigt (0/1) Öffentlicher Dienst (0/1) Verheiratet (0/1) Hat nicht-deutsche Nationalität (0/1) Konstante N R-squared Männer und Frauen (1) 0.153*** (0.016) 0.246*** (0.060) -0.493*** (0.140) 0.032*** (0.011) 0.166*** (0.019) -0.050** (0.021) -0.171*** (0.025) -0.010 (0.013) 0.026 (0.017) -0.138** (0.055) -1.535* (0.831) 11879 0.272 Frauen Männer (2) 0.192*** (0.025) 0.233** (0.095) -0.477** (0.224) 0.031* (0.017) – (3) 0.131*** (0.021) 0.254*** (0.077) -0.501*** (0.179) 0.032** (0.014) – 0.002 (0.024) -0.146*** (0.034) -0.047** (0.019) -0.070*** (0.024) -0.133 (0.090) -1.219 (1.309) 4856 0.243 -0.126** (0.050) -0.191*** (0.033) 0.022 (0.017) 0.087*** (0.023) -0.130* (0.067) -1.592 (1.093) 7023 0.254 1.20 • Interpretation: Ceteris paribus verdienen Männer ca. 13,1 % und Frauen ca. 19,2 % mehr, wenn sie einen Uni- statt einen FH-Abschluss haben. • Es lässt sich anhand der linearen Regression prüfen, ob die Lohnentwicklungen im Lebenszyklus sich für die Absolventengruppen unterscheiden. Die Schätzungen ergaben folgende mittlere Verläufe der logarithmierten Löhne im Lebenszyklus. 1.21 Frauen: 3,4 3,2 Log(Lohn) 3,0 2,8 2,6 2,4 2,2 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 1.22 Männer: 3,4 3,2 Log(Lohn) 3,0 2,8 2,6 2,4 2,2 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 FH Univ. (a) Die Vorhersagen wurden auf Basis von geschlechtsspezifischen Schätzungen erstellt. Hierbei wurde die Modellspezifikation um Interaktionsterme des Alterspolynoms dritter Ordnung mit der Variable "Universitätsabschluss" ergänzt. (b) Die Graphiken zeigen die nach Einzelaltern vorhergesagten mittleren realen logStundenlöhne sowie zugehörige Konfidenzbänder am 90 Prozent Niveau. 1.23 Im Mittel verdienen FH-Absolventen bei Berufseintritt besser, werden dann aber rasch überholt. • Vieles ist bei der Interpretation der Ergebnisse zu beachten: a) heteroskedastische Standardfehler b) korrekte Spezifikation der Schätzgleichung c) Erklärungskraft des Modells d) Selektion in die Stichprobe der Erwerbstätigen e) Korrelation von "Uni-Abschluss" mit dem Störterm f) Anteil der FH-Absolventen unter älteren Erwerbstätigen repräsentativ? g) sonstiges? • Lässt man solche Aspekte unberücksichtigt, ergeben sich oft falsche Interpretationen der empirischen Befunde. 1.24 • Die ökonometrische Methodenlehre zeigt, worauf es ankommt, vermittelt das Werkzeug eigene Studien durchzuführen und die Kenntnis, kritisch mit den Ergebnissen anderer umzugehen. 1.25 A. Anhang Wiederholung: Lineare Algebra A.1 Terminologie • Für unsere Zwecke ist ein Vektor eine Spalte von Zahlen (Spaltenvektor): ⎛ a1 ⎞ ⎜ ⎟ ⎜a ⎟ a=⎜ 2⎟ ⎜ ⎟ ⎜ ⎟ ⎝ an ⎠ • Die Transponierte eines Vektors ist eine Reihe von Zahlen (Zeilenvektor): a' = (a 1, a 2 ,…, a n ) • Eine Matrix ist ein rechteckiges, geordnetes Schema von Zahlen. In der Dimension n × k (n Reihen und k Spalten) wird sie wie folgt dargestellt: 1.26 ⎛ a11 a12 … a1k ⎞ ⎜ ⎟ ⎜ a 21 a 22 … a 2k ⎟ A=⎜ ⎟ ⎜ ⎟ ⎜a a … a ⎟ ⎝ n1 n2 nk ⎠ • Dabei gibt der erste Index jedes Matrixelementes aij an, dass das Element zur i-ten Zeile gehört, der zweite Index bezieht sich auf die j-te Spalte. • Eine Matrix besteht aus k Spaltenvektoren a1 bis ak: A = [a1 a 2 … ak ] • Vertauscht man die Spalten und Reihen einer Matrix, so erhält man die transponierte Matrix: 1.27 ⎛ a11 a 21 … a n1 ⎞ ⎜ ⎟ ⎜ a12 a 22 … a n2 ⎟ A' = ⎜ ⎟ ⎜ ⎟ ⎜a a … a ⎟ ⎝ 1k 2k nk ⎠ • Bei quadratischen Matrizen ist n = k. Eine quadratische Matrix ist symmetrisch, wenn A = A ' . Eine quadratische Matrix ist eine diagonale Matrix, wenn aij = 0 für alle i ≠ j . Jede diagonale Matrix ist auch symmetrisch. Eine Einheitsmatrix I ist eine diagonale Matrix, bei der alle Elemente der Hauptdiagonalen gleich eins sind. 1.28 A.2 Rechnen mit Matrizen • Matrizen und Vektoren mit den gleichen Dimensionen können addiert und subtrahiert werden. Wenn aij und bij die Elemente zweier n × k Matrizen A und B sind, dann gilt: A + B = C, wobei cij = aij + bij A − B = C, wobei cij = aij − bij A +B = B+ A ( A + B ) ' = A '+ B' = B'+ A ' 1.29 • Eine Matrix A mit den Dimensionen n × k und eine Matrix B mit den Dimensionen k × m können multipliziert werden. Ihr Produkt ergibt eine Matrix der Dimension n × m . • Wenn k = 1, ist A = a ' ein Zeilen- und B = b ein Spaltenvektor: AB = a 'b = ( a1,a2 ,…,an ) ⎛ b1 ⎞ ⎜ ⎟ ⎜ b2 ⎟ = a b + a b + … a b 1 1 2 2 n n ⎜ ⎟ ⎜ ⎟ ⎝ bn ⎠ a'b nennt man das Skalarprodukt (inneres Produkt) der Vektoren a und b. Zwei Vektoren a und b werden orthogonal genannt, wenn a'b = 0 . Außer für den Nullvektor gilt für alle Vektoren a, dass a'a > 0 . Das äußere Produkt eines Vektors ist aa' mit der Dimension n × n . 1.30 • Bei der Multiplikation einer Matrix A ( n × k ) mit einem Spaltenvektor b ( k × 1) ergibt sich ein Spaltenvektor, c = Ab mit der Dimension n × 1. Die Elemente von c ergeben sich aus: ci = ai1 b1 + ai2 b2 + … + aik bk und stellen das innere Produkt jedes Zeilenvektors aus A mit dem Spaltenvektor b dar. • Bei der Multiplikation der Matrizen A ( n × k ) und B ( k × m ) ergibt sich eine Matrix C = AB mit der Dimension ( n × m ) . Die Elemente von C sind bestimmt durch cij = ai1 b1j + ai2 b2 j + + aik bkj 1.31 und beschreiben die inneren Produkte der Zeilen von A und der Spalten von B. Das Produkt kann nur bestimmt werden, wenn die Anzahl der Spalten von A und der Zeilen von B übereinstimmen. • Beispiel: ⎛1 2 3 ⎞ A=⎜ ⎟, 4 5 0 ⎝ ⎠ so dass ⎛1 2 ⎞ ⎜ B = ⎜ 3 4 ⎟⎟ , ⎜0 5⎟ ⎝ ⎠ ⎛ 7 25 ⎞ AB = ⎜ ⎟ ⎝ 19 28 ⎠ • Beachte, dass AB ≠ BA , z.B. wenn A ( n × k ) und B ( k × n ) ist, dann hat AB die Dimension ( n × n ) und BA die Dimension ( k × k ) . In unserem Beispiel ergibt sich 1.32 ⎛ 9 12 3 ⎞ BA = ⎜⎜ 19 26 9 ⎟⎟ ⎜ 20 25 0 ⎟ ⎝ ⎠ • Es gilt ( AB ) ' = B' A ' • Da ( A ' ) ' = A folgt, dass A ' A und AA ' existieren und symmetrisch sind. • Multipliziert man eine Matrix A mit einem Skalar c, so wird jedes Element von A mit c multipliziert. Ein Element von cA ist caij. 1.33 A.3 Eigenschaften von Matrizen und Vektoren • Die Linearkombination von Vektoren a1 bis ak mit Skalargewichten c1,…,ck ergibt den Vektor c1a1 + c2 a2 + … + ck ak abgekürzt Ac, mit A = [a1 … ak ] und c = ( c1 …ck ) ' . • Eine Gruppe von Vektoren ist linear abhängig, wenn einer der Vektoren als Linearkombination der anderen beschrieben werden kann, bzw. wenn gilt c1 a1 + c2 a2 + … + ck ak = 0 . • Eine Gruppe von Vektoren ist linear unabhängig, wenn dieser Zusammenhang nur für c1 = c2 = = ck = 0 gilt, d.h. Ac = 0 nur für c = 0. 1.34 • Die Menge aller durch Linearkombination der Vektoren a1,…,ak erzeugbaren Vektoren bildet einen Vektorraum. Sind die Vektoren a1,…,ak linear abhängig, so kann man die Anzahl der Vektoren reduzieren, ohne den Vektorraum zu beeinflussen. Ein Vektorraum hat die Dimension n, wenn er n linear unabhängige Vektoren aufnimmt und wenn Gruppen von mehr als n Vektoren in diesem Raum linear abhängig sind. • Ähnlich definiert man den Spaltenraum einer Matrix als den Raum, der durch ihre Spalten aufgespannt wird. Der Spaltenrang einer Matrix ist die Dimension des durch ihre Spalten aufgespannten Raumes bzw. die Maximalzahl linear unabhängiger Spaltenvektoren. Dabei kann der Spaltenrang nie die Anzahl der Spalten übertreffen. 1.35 • Entspricht der Spaltenrang der Anzahl der Spalten, so hat die Matrix vollen Rang. Der Zeilenrang einer Matrix entspricht der Dimension des durch die Zeilenvektoren aufgespannten Raumes und ist mit dem Spaltenrang identisch. Beide definieren den Rang der Matrix, wobei gilt rank ( A ' ) = rank ( A ' A ) = rank ( AA ' ) 1.36 A.4 Inverse Matrizen • Die Matrix B, für die in Bezug auf die Matrix A gilt, dass AB = I und BA = I ist, heißt Inverse der Matrix A. A hat nur dann eine Inverse, wenn A quadratisch ist und vollen Rang hat. In diesem Fall nennt man A invertierbar oder nicht-singulär. Man definiert B = A-1 so, dass AA−1 = I und A −1 A = I • Dies impliziert, dass A = B-1 und es gilt ( A−1 ) = A . −1 • Wenn A-1 nicht existiert, ist A singulär. • Inverse Matrizen werden wie folgt berechnet: Für diagonale Matrizen gilt 1.37 ⎛ a11 ⎜ ⎜0 ⎜0 ⎝ 0 a22 0 −1 −1 ⎛ a11 0 ⎞ ⎜ ⎟ 0 ⎟ = ⎜0 ⎜0 a33 ⎟⎠ ⎝ 0 −1 a22 0 0 ⎞ ⎟ 0 ⎟ −1 ⎟ a33 ⎠ • Sonst am Beispiel einer 2 × 2 Matrix −1 ⎛ a11 a12 ⎞ ⎛ a22 − a12 ⎞ 1 ⎜ ⎟ = ⎜ ⎟, a a − a a a a − a a ⎝ 21 22 ⎠ 21 11 ⎠ 11 22 12 21 ⎝ wobei a11a22 – a12a21 als Determinante von A, A , bezeichnet wird. Die Determinanten singulärer Matrizen haben den Wert Null. • Inverse Matrizen sind nützlich, um Gleichungssysteme der Form Ac = d nach c aufzulösen, wobei A eine (n × n) Matrix ist und c und d n- dimensionale Spaltenvektoren sind. Wenn A invertierbar ist, gibt 1.38 A−1Ac = c = A−1d die Lösung für die n Unbekannten des Vektors c. Ist A nicht invertierbar, so gibt es entweder mehrere Lösungen für c oder keine. • Es gilt ( A−1 ) ' = ( A ' ) und ( AB ) = B−1A−1 −1 −1 1.39 A.5 Weitere Matrixeigenschaften • Eine Matrix P ist symmetrisch, wenn P = P' . Eine Matrix P heißt idempotent, wenn PP = P. • Eine symmetrische und idempotente Matrix P dient als Projektionsmatrix. Teilt man einen Vektor x mithilfe von P auf in einen Projektionsvektor PX und einen Residualvektor x – PX, x = PX + (x–PX), so liegt PX im Spaltenraum von P, während x – PX zu allen Vektoren im Spaltenraum von P orthogonal ist. • Wenn A eine symmetrische n × n Matrix und c ein Spaltenvektor ist, dann bezeichnet man einen Skalar λ, der Ac = λc erfüllt, als Eigenwert. Allgemein gibt es n Lösungen λ1,…, λn , die jeweils mit n Vektoren c1,…,cn, den 1.40 Eigenvektoren, korrespondieren. Die Eigenvektoren sind orthogonal, d.h. ci 'c j = 0 für alle i ≠ j . • Ist ein Eigenwert Null, dann erfüllt der zugehörige Eigenvektor Ac = 0. Das impliziert, dass A singulär ist und keinen vollen Rang hat. Der Rang einer symmetrischen Matrix entspricht der Anzahl der von Null verschiedenen Eigenwerte. • Eine symmetrische Matrix A ist positiv definit, wenn alle Eigenwerte positiv (> 0) sind. A ist positiv semidefinit, wenn alle Eigenwerte nicht negativ ( ≥ 0 ) sind. • Positiv definite Matrizen sind invertierbar. • Für eine positiv definite Matrix A gilt für jeden Vektor x: x' Ax > 0 1.41 ⎡2 − 3 ⎤ ⎢ ⎥ • Beispiel: A = ⎣3 2 ⎦ ⎛ b1 ⎞ ⎡ 2 − 3 ⎤ ⎛ b1 ⎞ b'Ab = ( b1b2 ) ⎢ = b 2 + b 3 − 3b + 2b [ ] ⎜ ⎟ ⎜ ⎟ 1 2 1 2 2 ⎥⎦ ⎝ b2 ⎠ ⎣3 ⎝ b2 ⎠ = b1 2b1 + b2 3b1 + b2b1 ( −3 ) + b2 ⋅ b2 ⋅ 2 = 2b12 + 2b22 > 0 • Die Determinante einer symmetrischen Matrix A ist das Produkt der n Eigenwerte. Sie ist positiv, wenn A positiv definit ist und Null, wenn A singulär ist. 1.42 A.6 Ableitungen und andere Manipulationen • Wenn c und x n-dimensionale Spaltenvektoren sind, ist c ' x ein Skalar. Ist c ' x eine Funktion des Vektors x, lässt sich nach jedem der Elemente von x ∂c'x ableiten: = c und ergibt den Spaltenvektor c. ∂x ∂ Ax = A' ∂x • Allgemein gilt, wenn A eine Matrix ist: • Wenn A symmetrisch ist: ∂ x ' Ax = 2Ax ∂x • Ist A nicht symmetrisch, so folgt ∂ x ' Ax = ( A + A ') x ∂x • Wenn xi = ( xi1,xi2 ,…,xiK ) ' mit xi1 ≡ 1 und β = ( β1,β2 ,…,βK ) ' , dann 1.43 x 'i β = β1 + β2 xi2 + + βK xiK • Die Operation ⎛ xi1 ⎞ ⎜ ⎟ N N x ' xi xi = ∑ ⎜ i2 ⎟ ( xi1,xi2 ,…,xiK ) ∑ ⎟ i =1 i =1 ⎜ ⎜ ⎟ ⎝ xiK ⎠ ⎛ N 2 xi1 ⎜∑ i =1 ⎜ ⎜ =⎜ ⎜ ⎜ ⎜ N ⎜ ∑ xi1xiK ⎝ i =1 N ∑ xi2 xi1 i =1 N N ∑x i =1 iK xi1 ∑x i =1 2 i2 N ∑x i =1 2 iK ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ 1.44 ergibt eine symmetrische K × K Matrix. • Der Vektor ⎞ ⎛N ⎜ ∑ x i1y i ⎟ ⎟ ⎜ i =1 ⎟ ⎜N N ⎜ ∑ x i2 y i ⎟ ⎟ ∑ xi yi =⎜ i=1 i =1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜N x y ⎜ ∑ iK i ⎟ ⎠ ⎝ i =1 hat K Elemente und die Dimension K × 1. N ⎛ N ⎞ • Daher besteht das System ⎜ ∑ xi x 'i ⎟ b = ∑ xi yi aus K Gleichungen mit K uni =1 ⎝ i =1 ⎠ bekannten Werten b. b hat die Dimension K × 1. 1.45 • Wenn N ∑x x' i =1 i i invertierbar ist, also vollen Rang besitzt, existiert eine eindeu- tige Lösung. Wenn die Matrix keinen vollen Rang hat, sind ihre Spalten und Zeilen linear abhängig. • Überträgt man die Vektoren xi in Matrixnotation mit x12 ⎛x ⎜ 11 X=⎜ ⎜x ⎝ N1 xN2 und x1K ⎞ ⎟ ⎟ xNK ⎟⎠ y = ( y1,y2 ,...,yN ) ' , so lässt sich abkürzen N X ' X = ∑ xi xi ' und i =1 N X ' y = ∑ xi yi . i =1 • X' X ist invertierbar, wenn X vollen Rang besitzt und seine Spalten (unsere späteren Regressoren) nicht linear abhängig sind. 1.46 1.47 B. Wiederholung: Statistik und Verteilungstheorie B.1 Diskrete und stetige Zufallsvariablen • Diskrete Zufallsvariablen: − Wahrscheinlichkeitsfunktion: f(y) = P {Y = y} − Es gilt: ∑f (y ) = 1 j j − Erwartungswert: E { y } = ∑ yj ⋅ f ( yj ) j • Stetige Zufallsvariablen − Wahrscheinlichkeitsdichtefunktion: f ( y ) ≥ 0 − Es gilt: b P { a ≤ Y ≤ b } = ∫ f ( y ) dy a 1.48 ∞ ∫ f ( y ) dy = 1 − Ebenfalls: −∞ − Verteilungsfunktion (kumulative Dichtefunktion): F(y) = P { Y ≤ y } = y ∫ f ( t ) dt −∞ − Es gilt: f(y) = F '(y) P {a ≤ Y ≤ b} = F(b) − F(a) und − Erwartungswert (oder Mittelwert): μ = E { Y } = ∞ ∫ y ⋅ f(y)dy −∞ 1.49 B.2 Erwartungen und Momente • Der Erwartungswert (Moment erster Ordnung) ist ein linearer Operator. Wenn X, Y Zufallsvariablen sind und a, b Konstanten, dann gilt E {aY + bX} = aE {Y} + b E { X} . • Bei nichtlinearen Funktionen, g, gilt nicht E { g ( Y ) } = g (E { Y } ) . • Jensens Ungleichheit besagt für konkave g E { g ( Y ) } ≤ g ( E {Y } ) . Allgemein gilt E { g ( Y ) } = ( d.h. g"(Y) < 0 ) , dass ∞ ∫ g ( y ) f(y)dy. −∞ • Die Varianz ist ein Streuungsmaß von Zufallsvariablen, genannt zentrales Moment zweiter Ordnung: σ2 = V { Y } = E { ( Y − μ ) } = E { Y } − 2 E{Y} ⋅ μ + μ 2 2 2 = E { Y2 } − μ2 1.50 (σ ist die Standardabweichung einer Zufallsvariablen, μ ist der Erwartungswert). • Varianz diskret verteilter Zufallsvariablen: V{ Y } = ∑ (y j j − μ )2 f ( y j ) • Varianz stetig verteilter Zufallsvariablen: V{ Y } = ∞ ∫ ( y − μ ) f ( y ) dy 2 −∞ • Rechenregel: V { aY + b } = a2 V { Y } • Zur besseren Beschreibung der Verteilung einer Zufallsvariablen: k-tes zentk rales Moment, E ( Y − μ ) , k = 1,2,3,… { } 1.51 B.3 Multivariate Verteilungen • Gemeinsame Dichtefunktion zweier Zufallsvariablen: P { a1 < Y < b1,a2 < X < b2 } = b1 b2 a1 a2 ∫ ∫ f ( y, x ) dy dx • Sind Y und X unabhängig, so gilt f ( y,x ) = f(y) ⋅ f(x) und P { a1 < Y < b1, a2 < X < b2 } = P { a1 < Y < b1 } P { a2 < X < b2 } • Marginale Verteilung von Y: ∞ f(y) = ∫ f ( y,x ) dx −∞ so dass E {Y } = ∞ ∞ ∞ −∞ −∞ −∞ ∫ y f(y)dy = ∫ ∫ y f ( y,x ) dx dy 1.52 • Kovarianz als Maß linearer Abhängigkeit: σyx = cov { Y, X } = E { ( Y − μ ) ( X − μ ) }, y x μy = E {Y}, μx = E { X} • Korrelationskoeffizient: ρyx = cov { Y, X } V{ X } ⋅ V{ Y } = σyx σy σx − 1 ≤ ρyx ≤ 1 , • X,Y sind unkorreliert, wenn cov{Y,X} = 0 • Rechenregeln, wenn a,b,c,d Konstante und X, Y Zufallsvariablen sind: cov { aY + b, cX + d } = ac cov { Y, X } cov { aY + bX, X } = a cov { Y, X } + b cov { X, X } = a cov { Y, X } + b V { X } V { aY + bX } = a2 V { Y } + b2 V { X } + 2ab cov { Y, X } 1.53 • Für den Vektor Y = ( Y1,…,YK ) gilt: ' ⎛ E {Y1} ⎞ ⎜ ⎟ E {Y} = ⎜ ⎟ ⎜ E {Y } ⎟ K ⎠ ⎝ und ⎛ V {Y1} ⎜ V {Y} = ⎜ ⎜ cov {Y ,Y } K 1 ⎝ cov { Y1,YK } ⎞ ⎟ ⎟ V {YK } ⎟⎠ • Die Kovarianzmatrix des Vektors Y ist symmetrisch. Für lineare Kombinationen RY, wobei R die Dimension J × K hat und nicht-stochastisch ist, gilt V { RY } = JxK R V {Y } KxK R ' KxJ 1.54 B.4 Bedingte Verteilungen • Es gilt folgender Zusammenhang zwischen bedingter und gemeinsamer f ( y,x ) Verteilung von Zufallsvariablen X und Y: f ( y X = x ) = f ( y x ) = f (x) • Für unabhängige Zufallsvariablen X und Y gilt: f ( y x ) = f ( y ) • Außerdem gilt allgemein: f ( y,x ) = f ( y x ) ⋅ f ( x ) = f (x y) ⋅ f (y) • Für bedingte Erwartungswerte gilt: E {Y X = x } = E {Y x } = ∫ y f ( y x ) dy ∫ ( y − E {Y x }) f ( y x ) dy = E {Y x } − (E {Y x } ) • Die bedingte Varianz ist: V { Y x } = 2 2 2 1.55 • Wenn E{Y} = 0, sind zwei Zufallsvariablen X,Y unkorreliert, wenn gilt E{YX} = cov{Y,X} = 0, da cov{ X,Y} = E ⎡⎣( X − E ( X ) ) ( Y − E ( Y ) ) ⎤⎦ = E ⎡⎣ X ( Y − E ( Y ) ) − E ( X ) ( Y − E ( Y ) ) ⎤⎦ = E ⎡⎣ X ( Y − E ( Y ) ) ⎤⎦ − E ( X ) ⋅ E ( Y − E ( Y ) ) • Wenn E{Y} = 0, sind zwei Zufallsvariablen genau dann "conditional mean independent", wenn gilt E{Y⎮X} = E{Y} = 0. Bei mittlerer bedingter Unab- hängigkeit gilt für jede Funktion g(X), dass E{Y g(X)} = 0. • Statistische Unabhängigkeit ist von allen 3 Maßen des Zusammenhangs zwischen X und Y (Unkorreliertheit, mittlere bedingte Unabhängigkeit, statis- 1.56 tische Unabhängigkeit) das stärkste. Sie impliziert, dass E{g1(X)g2(Y)} = E(g1(X)) ⋅ E(g2(X)) für alle Funktionen g1 und g2. Bei statistischer Unabhängigkeit sind beispielsweise auch die höheren Momente von X und Y voneinander unabhängig. • Zufallsvariablen, die statistisch unabhängig sind, sind auch "conditional mean independent", Zufallsvariablen, die "conditional mean independent" sind, sind unkorreliert, aber nicht notwendigerweise anders herum (Ausnahme: Normalverteilung). • Aus E(X⎮Y) = 0 folgt nicht E(Y⎮X) = 0. • Wenn X statistisch unabhängig von Y ist, dann auch Y von X. 1.57 B.5 Spezielle Verteilungen • Wenn Y ~ N ( μ, σ 2 ) dann f ( y ) = ⎧⎪ 1 ( y − μ )2 ⎫⎪ exp ⎨− ⎬ 2 2πσ2 ⎩⎪ 2 σ ⎭⎪ 1 • Wenn μ = 0 und σ2 = 1, z.B. für Z = mit f ( z ) = φ ( z ) = ⎧ 1 ⎫ ⋅ exp ⎨− z2 ⎬ 2π ⎩ 2 ⎭ 1 Y −μ , dann ist Z standardnormalverteilt σ • Wenn Y~ N ( μ, σ2 ) , dann aY + b ~ N ( aμ + b,a2 σ2 ) • Verteilungsfunktion (kumulative Dichtefunktion) ⎧Y − μ y − μ⎫ ⎛y−μ⎞ P {Y ≤ y} = P ⎨ ≤ ⎬ = Φ⎜ ⎟= σ ⎭ ⎩ σ ⎝ σ ⎠ y −μ σ ∫ φ(t)dt . −∞ • Wegen Symmetrie: Φ ( y ) = 1 − Φ( − y) . 1.58 • Sind zwei Zufallsvariablen Y, X bivariat normalverteilt, so schreibt man ⎛ ⎛ μy ⎞ ⎛ σ2y σyx ⎞ ⎞ ( Y, X ) ~ N ⎜⎜ ⎜ ⎟ , ⎜⎜ ⎟⎟ 2 ⎟ ⎟ μ σ σ ⎝ ⎝ x ⎠ ⎝ yx x ⎠ ⎠ • In diesem Fall sind auch marginale und bedingte Verteilungen normal. • Nur bei bivariater Normalverteilung folgt aus σyx = 0 , dass Y und X unabhängig sind und damit, dass ρyx = 0 . • Lineare Funktionen normalverteilter Zufallsvariablen sind normalverteilt: aY + bX ~ N ( aμy + bμx , a2 σ2y + b2 σ2x + 2abσxy ) • Wenn Y1,…,YJ unabhängig und standardnormalverteilte Zufallsvariablen sind, dann ist 1.59 ξ= J ∑Y j =1 2 j Chi-quadrat verteilt mit J Freiheitsgraden: ξ ~ χ2J • Verallgemeinerung 1: Wenn Y1,…,YJ unabhängig und normalverteilte Zufallsvariablen mit Mittelwert μ und Varianz σ2 sind, folgt ( Y − μ) 2 J ξ=∑ j =1 • Verallgemeinerung 2: Wenn Y j σ 2 ein ~ χ2J Vektor von J Zufallsvariablen Y = ( Y1,...,YJ ) ist, die gemeinsam normalverteilt sind mit dem Mittelwertvek' tor μ und der nicht singulären Kovarianzmatrix Σ, dann ξ = ( Y − μ ) ' Σ−1 ( Y − μ ) ~ χ2J • Die Chi-Quadrat-Verteilung mit J Freiheitsgraden hat E ( ξ ) = J und V ( ξ ) = 2J. 1.60 • Wenn X ~ N(0,1), ξ ~ χ2J und X und ξ unabhängig sind, dann hat t = X ξ/J eine t-Verteilung mit J Freiheitsgraden. • Wenn J → ∞, konvergiert die t-Verteilung zur Normalverteilung. • Wenn ξ1 ~ χJ21 , ξ2 ~ χJ22 und die beiden Zufallsvariablen unabhängig sind, ξ /J dann hat f = 1 1 ~ FJ1J2 eine F-Verteilung mit (J1, J2) Freiheitsgraden. ξ2 / J2 • Für J1 = 1 ist ξ1 eine quadrierte, normalverteilte Zufallsvariable, z.B. ξ1 = X2 , und es ergibt sich ⎛ X 2 t =⎜ ⎜ ξ /J ⎝ 2 2 2 ⎞ ξ1 ~ F1,J2 ⎟ = ⎟ / J ξ 2 2 ⎠ 1.61 • Wenn log Y ~ N ( μ, σ2 ) , dann folgt Y > 0 der Lognormalverteilung. Diese wird häufig genutzt, um Einkommens- oder Renditeverteilungen zu be1 ⎫ ⎧ schreiben. Es gilt E { log Y} = μ , aber E {Y} = exp ⎨μ + σ2 ⎬ . 2 ⎭ ⎩ 1.62 C. Zusammenstellung von Annahmen A1 E{εi } = 0 i = 1,2,...N A2 {x ,… x } und {ε ,… ε } sind unabhängig A3 V { εi A4 cov { εi , εj } = 0 A5 ε ~ N (0,σ2 IN) A 5' εi ~ NID (0,σ2) A6 1 N ∑ xi x 'i N i =1 konvergiert gegen eine finite nichtsinguläre Matrix Σxx. A7 E{xi εi} = 0 Unkorreliertheit 1 N 1 }=σ 2 N i = 1,2,…N i,j = 1,…N, i ≠ j 1.63 A8 xt und εt sind für gegebenes t statistisch unabhängig (stärker als A 7) A9 V {ε x} = σ2 Diag{ hi2 } = σ2 Ψ A 10 E{ε⎮X} = 0 stärker als A 7, schwächer als A 8, A 2. A 11 εt ~ IID (0, σ2) A 12 εt ist über die Zeit unkorreliert, mit Erwartungswert 0. 1.64 Literatur: Verbeek, 2008, Kapitel 1 und Appendix A und B. Greene, 2008, Appendix A und B Riphahn, R.T., M. Eschelbach, G. Heineck und S. Müller, 2010, Kosten und Nutzen der Ausbildung an Tertiärbildungsinstitutionen im Vergleich, Perspektiven der Wirtschaftspolitik. Wooldridge, 2009, Appendix A - D 1.65 Kapitel 2: Einführung in das lineare Regressionsmodell 2.1 Lineare Regression aus algebraischer Sicht 2.2 Das lineare Regressionsmodell 2.3 Eigenschaften des Kleinstquadrateschätzers in kleinen Stichproben 2.4 Schätzgüte 2.5 Hypothesentests 2.6 Asymptotische Eigenschaften des Kleinstquadrateschätzers 2.7 Illustration 2.8 Multikollinearität 2.9 Vorhersage 2.1 Lernziele Kapitel 2: • Wie wird der Kleinstquadrateschätzer abgeleitet? • Was sind seine Eigenschaften, welche Annahmen werden gemacht? • Wie können wir die Erklärungskraft eines Regressionsmodells messen? • Wie lassen sich Hypothesen testen? • Was ist die Bedeutung von Multikollinearität? • Wann können wir präzise Vorhersagen machen? 2.2 2.1 Lineare Regression aus algebraischer Sicht • Ausgangssituation: Information über N Individuen zu Stundenlöhnen (y) und andere Merkmale, z.B. Geschlecht, Alter, Ausbildung (x2, x3,…, xK). Wie lässt sich der Zusammenhang zwischen Stundenlöhnen und Merkmalen beschreiben? Welche Linearkombination von x2,…, xK und einer Konstanten ergibt eine gute Approximation von y? • Wenn β1,…, βK Konstanten sind, könnte das so aussehen: β1 + β2 x2 + … + βK xK . (2.1) • Wir indexieren mit i = 1, 2,…, N und fassen in Vektoren zusammen: xi = (1 xi2 ( xiK ) ' xi3 ) und β = β1,…, βK ' . • Dann können wir abkürzen: 2.3 yi − ⎡⎣β1 + β2 xi2 + … + βK xiK ⎤⎦ = yi − xi ' β . (2.2), (2.3) • Die Approximation von yi durch die Linearkombination xi 'β ist dann gut, wenn diese Differenz klein ist. Das Kleinstquadrateverfahren sucht diejenigen Werte für β , die diese Differenz in quadrierter Form minimieren: ( ) N ( S β ≡ ∑ yi − x 'i β i =1 ) 2 (2.4) () • Wir leiten S β nach β ab und erhalten K Normalgleichungen: N N ∑xx' i =1 i i ) (2.5) N ⎛ N ⎞ ⇔ ⎜ ∑ xi x 'i ⎟ β = ∑ xi yi i =1 ⎝ i =1 ⎠ (2.6) i =1 • Wenn ( −2∑ xi yi − xi ' β = 0 invertierbar ist, ergibt dies eine eindeutige Lösung für β : 2.4 −1 ⎛ N ⎞ b = ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ N ∑xy i i =1 (2.7) i () • Die hinsichtlich der Minimierung von S β beste lineare Approximation von y durch x2, x3, …, xk plus Konstante lautet: ŷi = xi 'b . • Annahme der Nicht-Multikollinearität: Wenn die (K × K ) Matrix N ∑xx' i =1 i i invertierbar ist, kann keiner der xik Werte durch eine Linearkombination der anderen x-Werte bestimmt werden. • Da die Werte von b nur für die Stichprobe berechnet wurden, haben sie keine allgemeine Interpretation. • Wenn wir das ei Residuum definieren als ei = yi − yˆ i = yi − xi 'b , dann lässt sich umformulieren yi = yˆ i + ei = xi 'b + ei (2.8) 2.5 N sowie S(b) = ∑ ei2 , die Summe der quadrierten Residuen. (2.9) i =1 • Aus der Normalgleichung ergibt sich N N ∑ x ( y − x ' b) = ∑ x e i =1 i i i i i =1 i =0 (2.10) d. h. der Vektor der Residuen ist orthogonal zum x-Vektor. • Wenn x1 = 1 (die Konstante) folgt N ∑e i =1 i = 0 , d.h. das mittlere Residuum ist 0. Da yi = x 'i b + ei , folgt für die mittlere Beobachtung y = x 'b (mit y= 1 ⋅ ∑ yi , N x= 1 ⋅ ∑ xi ) . N (2.11) Für die mittlere Beobachtung gibt es keine Abweichung zwischen Vorhersage und beobachtetem Wert. 2.6 • Im einffachsten Fall betrrachten wir w einen Regress sor (x) un nd eine K Konstante e, so dass für jede es i nur ein e y (z.B B. Stunde enlohn) und eine Variable V x (z.B. AlA kannt sin nd, was sich zweid dimension nal abbild den lässtt: ter) bek • Abb. 2..1 Einfacche lineare Regression: Pu unktwolke e und ges schätzte Gerade 2 2.7 • Man erhält die beste lineare Approximation von y durch x und eine Konstante, indem man die Summe der quadrierten Residuen minimiert. • In der Graphik sind das die quadrierten vertikalen Abstände zwischen den Punkten und der Regressionsgeraden. • Alle vorhergesagten Werte von y liegen auf der Regressionsgeraden. • Wenn β aus zwei Unbekannten besteht, lässt sich ableiten: ( ) N ( S β1, β2 = ∑ yi − β1 − β2 xi ( i =1 ∂S β1, β2 ∂β1 ( ∂S β1, β2 ∂β2 ) = −2 ∑(y − β N i i =1 ) = −2 1 ) ) ∑ x (y − β i i (2.12) − β2 xi = 0 N i =1 2 1 ) − β2 xi = 0 (2.13) (2.14) 2.8 • Aus (2.13) folgt b1 = 1 N 1 N y b xi = y − b2 x − ∑ i 2 N∑ N i =1 i =1 (2.15) • b2 lässt sich wie folgt aus (2.14) und (2.15) bestimmen: N ⎛ N 2⎞ − − x y b x ∑ ⎜ ∑ xi ⎟ b2 = 0 i i 1∑ i i =1 i =1 ⎝ i =1 ⎠ N ⇔ ⇔ N ⎛ N 2⎞ − − − x y y b x x ( ) ∑ ∑ ⎜ ∑ xi ⎟ b2 = 0 i i 2 i i =1 i =1 ⎝ i =1 ⎠ N ⎛ N 2 ⎞ − ⋅ ⋅ − x y N x y b x − N x2 ⎟ = 0 , ∑ i i 2 ⎜∑ i i =1 ⎝ i =1 ⎠ N N [da N ⋅ x = ∑ xi ] i =1 N ⇔ b2 = ∑ ( x − x )( y − y ) i =1 i i N ∑(x − x) i =1 2 (2.16) i 2.9 • Hinweis: Erweitert man Zähler und Nenner von (2.16) mit 1 , so ergibt N −1 sich das Verhältnis der Stichprobenkovarianz von x und y zur Stichprobenvarianz von x. • Frage: Was ergibt sich aus (2.15) für das mittlere Residuum? • Beispiel: Stichprobe von 3294 jugendlichen Erwerbstätigen aus den USA von 1987, davon 1569 Frauen. Der mittlere Stundenlohn für Männer ist $ 6,31 und für Frauen $ 5,15. Die Regression der Stundenlöhne auf eine Dummyvariable (xi) für das Geschlecht (1 = männlich, 0 = weiblich) ergibt: ŷi = 5,15 + 1,17xi 2.10 • Interpretation: Approximation des Lohnes für Frauen: $ 5,15 und für Männer 5,15 + 1,17 = $ 6,31. Dies entspricht den beobachteten Mittelwerten, da N b1 = yf und b2 = ym − yf , mit ym = ∑x y i =1 N i i ∑x i =1 N und yf = i ∑ (1 − x ) y i =1 N i i ∑ (1 − x ) i =1 i • Wir benutzen gelegentlich folgende abkürzende Schreibweise: ⎛ 1 x12 ⎜ X =⎜ N×K ⎜1 x N2 ⎝ x1K ⎞ ⎛ x '1 ⎞ ⎟ ⎜ ⎟ ⎟ = ⎜ ⎟, xNK ⎟⎠ ⎜⎝ x 'N ⎟⎠ ⎛ y1 ⎞ ⎜ ⎟ y =⎜ ⎟ N×1 ⎜y ⎟ ⎝ N⎠ 2.11 • Damit: ( ) ( )( ) ∂S ( β ) = −2 ( X ' y − X' Xβ ) = 0 ∂β S β = y − Xβ ' y − Xβ = y ' y − 2y ' Xβ + β ' X' Xβ ⇔ b = ( X ' X ) X' y , −1 (2.17) (2.18) (2.19) vorausgesetzt, X’X ist invertierbar. • Wir können y zerlegen: y = Xb + e N×1 N×K K ×1 (2.20) N×1 • Die Bedingung erster Ordnung (2.18) fordert X'(y − Xb) = 0 ⇔ X' e = 0 , N×K K ×1 (2.21) 2.12 d.h. jede Spalte von X ist orthogonal (linear unabhängig) zum Vektor der Residuen. • Es lässt sich umformen: y = Xb + e = X(X' X)−1 X' y + e = yˆ + e (2.22) ⇒ ŷ = Xb = X(X' X)−1 X' y = Px y . • Die Matrix Px ≡ X(X ' X)−1 X' wird als Projektionsmatrix beschrieben, da sie den Vektor y auf den Spaltenraum von X projiziert. Das Residuum e ist orthogonal zur Projektion von y, X b: e = y – X b =(I – Px) y = Mx y • e repräsentiert die Projektion von y auf einen Vektorraum, der orthogonal zu dem ist, den die Spalten von X aufspannen. 2.13 • Hinweis: Px Px = Px und Mx Mx = Mx aber wegen Orthogonalität Mx Px = 0 • Letztlich sind also ŷ und e, sowie X und e orthogonal. 2.14 2.2 Das lineare Regressionsmodell • Ziel der Analyse ist es normalerweise, allgemeine Aussagen über Zusammenhänge zwischen Variablen abzuleiten, nicht y zu approximieren. • Man unterstellt ein statistisches Modell, das für die Grundgesamtheit gilt: yi = β1 + β2 xi2 + ... + βK xiK + εi (2.24) yi = xi ' β + εi (2.25) • yi, xi sind beobachtbare Variablen, εi ist ein unbeobachtbarer Störterm. β sind die unbekannten, wahren Bevölkerungsparameter. Da wir die Daten nur für eine Zufallsstichprobe vorliegen haben, betrachten wir yi und εi immer und xi manchmal als Zufallsvariablen. In Matrixschreibweise: y = Xb + ε N×1 N×K K ×1 N×1 (2.26) 2.15 • Meist betrachtet man xi als deterministisch, nicht-stochastisch, wie in einem Laborexperiment fest vorgegeben. Jede neue Stichprobe hätte die gleichen x Werte und würde sich nur durch die Werte für εi und yi unterscheiden. • Man unterstellt Zufallsstichproben, die Fehlerterme werden unabhängig für jede Beobachtung aus der Bevölkerungsverteilung gezogen. • Gelegentlich betrachtet man die Werte für xi als stochastisch. Die Zufallsziehung betrifft dann (xi,εi) oder (xi,yi) und es müssen Annahmen dazu getroffen werden, ob die Verteilung der εi von X abhängt. • Eine Annahme an unser statistisches Modell (2.25) besagt, dass die xVariablen exogen sind: E {εi | xi } = 0 , bei jeder Kombination erklärender Variablen ist der erwartete Wert des Störterms Null. Daher folgt: 2.16 E { yi xi } = x 'i β (2.27) • Die Koeffizienten βk beschreiben die Änderung im Erwartungswert von y, wenn xik sich ändert und die anderen Werte von xi konstant bleiben (ceteris paribus). Eine kausale Interpretation ist nicht in allen Fällen gerechtfertigt. • Ein Schätzer (Schätzverfahren, estimator) beschreibt, wie eine Approximation für β bestimmt wird. Der geschätzte Wert für β in einer konkreten Stichprobe (estimate) ist davon zu unterscheiden. • Der Kleinstquadrateschätzer (ein Schätzverfahren) für β lautet: −1 ⎛ N ⎞ b = ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ N ∑xy i =1 i i (2.28) 2.17 • b ist ein Vektor von Zufallsvariablen, da es über eine Stichprobe bestimmt wurde. Es approximiert den Vektor der wahren Werte β. Uns interessiert die Qualität des Schätzverfahrens. 2.18 2.3 Eigenschaften des Kleinstquadrateschätzers in kleinen Stichproben • Gauss-Markov-Annahmen A1: E { εi } = 0 , i = 1,2, …, N A2: { ε1,..., εN } und { x ,...,x } 1 N sind unabhängig. A3: V { εi } = σ2 , i = 1,2, …, N A4: cov { εi , εj } = 0 i,j = 1, …, N, i≠j • Interpretation: Aus A1 folgt, dass die Regressionsgerade im Mittel korrekt ist. A3 besagt, dass alle Fehlerterme die gleiche Varianz haben (Homoskedastie), A4 schließt Autokorrelation aus, da verschiedene Fehlerterme nicht korreliert sind. Diese drei Annahmen können zusammengefasst werden: 2.19 E { ε } = 0 und V { ε} = σ2 IN (N×N) (2.29) • Die Annahme A2 der Unabhängigkeit impliziert E{ ε | X } = E{ ε } = 0 (2.30) V { ε | X } = V { ε } = σ2 IN . (2.31) und Die Gleichheit der bedingten und unbedingten Werte besagt, dass man aus Kenntnis der X-Werte für Erwartungswert und Varianz von ε nichts hinzulernen kann. Das ist automatisch der Fall, wenn X eine deterministische, nichtstochastische Matrix ist. 2.20 • KQ Eigenschaft 1: Unter den Annahmen A1-A4 ist der KQ-Schätzer unverzerrt, d.h. in wiederholten Stichproben nimmt der Schätzer im Mittel den wahren Wert β an: E{b} = β. { ( X ' X ) X ' y } = E { ( X ' X ) X ' ( Xβ + ε ) } = E{ β + ( X ' X) X ' ε } = β + E{ ( X ' X) X ' ε } = β + E{ ( X ' X) X ' } ⋅ E{ ε } = β Beweis: E {b} = E −1 −1 −1 −1 −1 Nur A1 und A2 müssen erfüllt sein, damit dies gilt. 2.21 • KQ-Eigenschaft 2: Die Streuung des KQ Schätzers wird wie folgt beschrieben V { b | X } = σ ( X' X ) 2 −1 −1 ⎛ N ⎞ = σ ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ (2.32) 2 Unterstellt man nicht-stochastische Werte für X, so vereinfacht sich die Schreibweise zu V{b}. Herleitung in Matrixnotation bei nicht-stochastischen X: V { b } = E { (b − β ) (b − β ) ' } = E { ( X' X ) −1 X ' ε ε ' X ( X ' X) −1 } = ( X ' X ) X ' ( σ2 IN ) X(X ' X)−1 = σ2 (X ' X)−1 −1 2.22 • Gauss-Markov-Theorem: Unter den Annahmen A1-A4 ist der KQ-Schätzer der beste, lineare, unverzerrte Schätzer für β (Best Linear Unbiased Estimator, BLUE). − lineare Schätzer lassen sich darstellen als b~ = Ay , A ist eine K x N Matrix − für unverzerrte Schätzer gilt E {Ay} = β (bei KQ: A = (X' X)−1 X' ) − der KQ Schätzer ist der beste im Sinne der kleinsten Varianz: V { bKQ } ≤ V bk k { } • Um V { b} = σ2 (X' X)−1 , die Varianz der Koeffizienten, zu schätzen, brauchen wir einen Schätzer für σ2, die Varianz des Störterms. s2 = 1 N 2 ∑ ei . N − 1 i =1 (2.34) 2.23 ~ s 2 ist ein verzerrter Schätzer für σ2, unverzerrt ist (unter Ann. A1-A4): 1 N 2 s = ∑ ei . N − K i =1 (2.35) 2 Die Freiheitsgrade müssen um die bereits geschätzten K Parameter korrigiert werden. Daher −1 ⎛ N ⎞ V̂ { b } = s (X' X) = s ⎜ ∑ xi x 'i ⎟ . ⎝ i =1 ⎠ 2 −1 2 (2.36) Für jedes Element bk ist seine Varianz s2ckk ein Maß für die Präzision der −1 Schätzung. Dabei ist ckk das (k,k)te Element von ( ∑ xi x 'i ) . Die Wurzel der Varianz ist der Standardfehler se ( bk ) = s ⋅ ckk . • Verteilung der Fehlerterme: Typische Annahme: unabhängig normalverteilte Fehlerterme: 2.24 ε ∼ N(0, σ2IN) A5: A5 schließt A1, A3, A4 mit ein und wird auch wie folgt dargestellt εi ∼ NID(0, σ2) A5’: (NID: Normaly and Independently Distributed). Dies impliziert auch eine Normalverteilung für yi (bei gegebenen oder deterministischen xi). • Unter den Annahmen A2, A5 und deterministischen X folgt b ∼ N ( β, σ2 (X' X)−1 ) , (2.38) da b eine Linearkombination aller εi ist. Es impliziert bk ∼ N ( βk , σ2 ckk ) , (2.39) wobei ckk das (k,k)te Element von (X' X)−1 ist. 2.25 • Beispiel: Statistisches Modell: wagei = β1 + β2 malei + εi wage ist der individuelle Lohn, male eine Dummyvariable für das Geschlecht von i: Unter der Annahme E{εi} = 0 und E{εi|malei} = 0 folgt E{wagei|malei=0} = β1 der erwartete Lohn für Frauen E{wagei|malei=1} = β1 + β2 der erwartete Lohn für Männer. Die Schätzergebnisse unter A1-A4: 2.26 Tab. 2.1 1 KQ-Ergebnisse der Lohn ngleichung Die Ang gaben zu den Stan ndardfehlern erlau uben uns s, Hypothesen zu ttesten. 2.2 27 2.4 Schätzgüte • Wie gut passt die geschätzte Regressionsgerade zu den Daten? Klassisches Maß: Anteil der durch das Modell erklärten Stichprobenvarianz von y, R2: R2 = Vˆ { yˆ i } V̂ { yi } 1 = 1 N (N − 1) ∑ ( yˆ i − y) (N − 1) ∑ ( y − y) i =1 N i =1 wobei ŷi = x 'i b und y = i 2 2 , (2.40) 1 ∑ i yi N • Da yi = x 'i b + ei , lässt sich ableiten: ˆ { x 'i b,ei } Vˆ { yi } = Vˆ { x 'i b + ei } = Vˆ { x 'i b } + Vˆ { ei } + 2 Cov 2.28 • Gemäß Normalgleichung sind xi und εi unabhängig, d.h. N ∑ex i =1 i ik = 0 , k = 1, … K. • Da x 'i b = ŷ , folgt Vˆ { yi } = Vˆ { yˆ i } + Vˆ { ei } (2.41) • Also lässt sich R2 auflösen zu Vˆ ( yˆ i ) Vˆ ( ei ) R2 = = 1− = 1− Vˆ ( yˆ i ) + Vˆ ( ei ) Vˆ ( yi ) 1 1 N (N − 1) ∑ e i =1 N (N − 1) ∑ ( y i =1 i 2 i − y) 2 (2.42) Die Stichprobenvarianz von yi kann in zwei Teile aufgeteilt werden. R2 beschreibt den Anteil der Gesamtvarianz, der durch das Modell erklärt wird. 2.29 • Solange das Modell eine Konstante enthält, gilt 0 ≤ R2 ≤ 1. Ein Modell nur mit Konstante führt zu R2 = 0. Wenn alle ei = 0, dann R2 = 1. • Beispiel: In Tabelle 2.1 wird 3,2% der Variation in y durch das Modell erklärt, anscheinend sind Geschlechterunterschiede kein zentraler Faktor. • Die Größe von R2 hängt ab von der Art der abhängigen Variablen und des Datensatzes. R2 misst nicht die Qualität des Modells, sondern die lineare Anpassung des Spaltenraumes von x an y. • Bei zusätzlichen erklärenden Variablen xik kann das R2 nicht sinken, selbst wenn die zusätzlichen Variablen keinen Erklärungsgehalt haben. Das angepasste R2 berücksichtigt die zur Schätzung benötigten Freiheitsgrade: 2.30 1 R2 = 1 − 1 (N − K ) N ∑e i =1 N (N − 1) ∑ ( y i =1 2 i i (2.45) − y) 2 • Dieses Maß kann sinken und negativ werden, wenn berücksichtigte erklärende Variablen keinen Erklärungsbeitrag leisten. • Sucht man nach einem Modell mit besonders hohem R2, so läuft man Gefahr, ein Modell für die vorliegende Stichprobe zu spezifizieren. 2.31 2.5 Hypothesentests • Unter A1 – A5 ergab sich für den KQ-Schätzer: b ∼ N ( β, σ2 (X' X)−1 ) . • Daraus folgt: z = bk − βk σ ckk ∼ N(0,1); wobei βk und σ unbekannt sind. 1 N 2 • σ kann durch den unverzerrten Schätzer s, mit s = ∑ ei , ersetzt werN − K i =1 2 den. • Die Summe quadrierter, standardnormalverteilter Zufallsvariablen ist Chiquadrat verteilt: 2 ⎛ ei ⎞ 2 ∑ ⎜ σ ⎟ ∼ χN i =1 ⎝ ⎠ N 2.32 • Setzt man für die wahren, unbeobachteten Störterme ei die beobachteten Werte der Stichprobe ein, so folgt: ∑ ê 2 i σ 2 (N − K ) s 2 = σ 2 ~ χN2 −K (2.47) Hier hat die χ2-Verteilung nur N-K Freiheitsgrade, da nur N-K der Störterme statistisch unabhängig sind. • Das Verhältnis von unabhängigen standardnormalverteilten (z) und χ2verteilten Zufallsvariablen ( V ~ χM2 ) ist t-verteilt, wenn man umformt: t= z V /m ~ tm • Für unseren Fall ergibt sich: 2.33 tk = bk − βk s ckk ~ tN−K (2.48) Je größer N-K, umso ähnlicher wird die t- der Normalverteilung. 2.34 2.5.1 Einfacher t-Test • Grundidee: Die t-Verteilung ist symmetrisch um 0 und t-verteilte Zufallsvariablen liegen mit hoher Wahrscheinlichkeit bei 0. Es ist unwahrscheinlich, unter der t-Verteilung sehr hohe oder sehr niedrige Werte vorzufinden. • Beispiel: Bei N – K = 100 – 10 = 90 Freiheitsgraden liegen im Mittel 5% der t-verteilten Zufallsvariablen oberhalb von 1,662 und unterhalb von –1,662, bzw. 1% oberhalb von 2,368 und unterhalb von –2,368. • Beim Testen geht man davon aus, dass die Nullhypothese (H0) gilt. Unter dieser Annahme folgt die t-Teststatistik der t-Verteilung. Wenn nun die berechnete Teststatistik betraglich große Werte annimmt, schließt man, dass die Nullhypothese nicht gilt, da solche Werte unter der t-Verteilung unwahrscheinlich sind. 2.35 • Beispiel: H0 : βk = βk0 ( βk0 sei ein konkreter Wert) bk − βk0 Wenn H0 zutrifft, ist tk = t-verteilt, mit N-K Freiheitsgraden. se ( bk ) Trifft H0 nicht zu, dann gilt die Alternativhypothese, z.B. H1 : βk ≠ βk0 . • Man berechnet tk auf Basis von Schätzergebnissen für bk und se(bk). Nimmt tk hohe Werte an, so wird H0 verworfen. Man bestimmt hierfür „kritische Werte“, die von einem zuvor bestimmten Signifikanzniveau α abhängen. α beschreibt die Wahrscheinlichkeit, mit der unter der unterstellten Verteilung Werte jenseits des kritischen Wertes t α vorkommen: N − K; 2 ⎧ ⎫ P ⎨| tk | > t α ⎬ = α N − K; 2 ⎭ ⎩ 2.36 Für α wird meist 1, 5 oder 10 Prozent gewählt. Am 10% Niveau werden also im Beispiel mit N – K = 90 Freiheitsgraden alle Nullhypothesen verworfen, für die der Betrag der Teststatistik tk größer als 1,662 ist. • Bei zweiseitigen Tests wird die Nullhypothese zugunsten der Alternativhypothese sowohl abgelehnt, wenn tk zu groß ist, als auch wenn es zu klein ist. • Bei einseitigen Tests wird nur eine mögliche Alternative betrachtet, z.B. H0: βk ≤ βk0 H1: βk > βk0 H0 wird nur verworfen, wenn tk zu groß ist (wenn tk negative Werte annimmt, wird H0 nicht verworfen). • Der kritische Wert für einseitige Tests bestimmt sich daher wie folgt: P {tk > tN−K;α } = α 2.37 Bei N – K = 90 Freiheitsgraden verwerfen wir am 5% Signifikanzniveau H0, wenn tk > 1,662 und am 1% Niveau, wenn tk > 2,368. • Die Nullhypothese H0: βk = 0 wird von der Regressionssoftware meist automatisch getestet. Berechnet wird „der t-Wert“ tk = bk − 0 bk = se ( bk ) se ( bk ) Kann man H0 am α-Signifikanzniveau verwerfen, so sagt man, dass bk am αSignifikanzniveau statistisch signifikant (von Null verschieden) ist. • Neben Punktschätzern gibt es auch Intervallschätzer. Diese beschreiben einen Wertebereich für den Parameter βk, der alle βk0 umfasst, für die H0: βk = βk0 nicht verworfen werden kann. Dieses Intervall lässt sich wie folgt ableiten: Unter H0 gilt mit Wahrscheinlichkeit 1–α, dass 2.38 −t α N − K; 2 ⇔ −t N − K; ⇔ bk − t α 2 < bk − βk < t α N − K; se ( bk ) 2 (2.50) ⋅ se ( bk ) < bk − βk < t N − K; N − K; α 2 ⋅ se ( bk ) < βk < bk + t α 2 ⋅ se ( bk ) N − K; α 2 ⋅ se ( bk ) (2.51) • Bei einer hohen Zahl von Freiheitsgraden ist tN−K;0,025 = 1,96 , so dass das 95% Konfidenzintervall für βk so aussieht: ⎡⎣bk − 1,96 ⋅ se ( bk ) ; bk + 1,96 ⋅ se ( bk ) ⎤⎦ (2.52) • Interpretation: Bei wiederholten Stichproben enthalten 95% aller auf diese Weise berechneten Konfidenzintervalle den wahren Wert βk, der eine nichtstochastische, unbekannte Zahl ist. Ein zufällig gewähltes Konfidenzintervall enthält das wahre β mit der Wahrscheinlichkeit von 95%. 2.39 • Für ein konkretes Konfidenzintervall ist die Aussage, dass es β enthält, entweder wahr oder falsch. Eine Wahrscheinlichkeitsaussage ist nur im Zusammenhang mit Zufallsvariablen, nicht mit konkreten Ausprägungen zulässig. 2.40 2.5 5.2 Beisp piel • Tab. 2..1: KQ-Errgebnisse e Lohngle eichung • Wir tes sten die sstatistisch he Signifik kanz des s Koeffizie enten der Variable en male: H0: βmalee = 0 t= H1: βmale ≠ 0 1,1661 1− 0 = 10,38 3 0,1122 2.4 41 • Kritischer t-Wert bei N = 3294 und K = 2 am 5%-Niveau für zweiseitigen Test: t3292; 0,025 = 1,96. • Da 10,38 > 1,96, wird H0 verworfen; es wäre extrem unwahrscheinlich, in einer t-Verteilung den Wert 10,38 anzutreffen. Also ist die Teststatistik vermutlich nicht t-verteilt und die Nullhypothese trifft nicht zu. • Konfidenzintervall: (1,1661 − 1,96 ⋅ 0,1122; 1,1661 + 1,96 ⋅ 0,1122 ) = ( 0,946; 1,386 ) Dies bedeutet nicht, dass βmale tatsächlich in diesem Intervall liegt und auch nicht, dass es mit 95%-Wahrscheinlichkeit in diesem Intervall liegt. Aber mit diesem Verfahren wäre in wiederholten Stichproben in 95% der Fälle das wahre βmale im Intervall enthalten. 2.42 2.5.3 Illustration Priilaid und Rensburg, 2006, Nonlinearity in the hedonic pricing of South African red wines, International Journal of Wine Marketing 18(3), 166-182. • Fragestellung: Was bestimmt den Preis eines Weines? Wie groß ist der Einfluss verschiedener Determinanten? • Daten: 537 Sorten südafrikanischer Rotweine 2004 mit Information zu Preis, Rebsorte, Weinqualitätsmaße (blinde und offene Bewertung) 2.43 • Zusammenhang: Preis und offene Bewertung 2.44 • Zusammenhang: Preis und blinde Bewertung 2.45 K • Schätzgleichung: pricei = α + ∑ bk xk + εi k =1 i = Index der Weine α = Regressionskonstante k = bk = Index der Determinanten Koeffizient des Merkmals k ε = Störterm • Interpretation: Intrinsischer Werti = Preisi – εi K = α + ∑ bk xk k =1 2.46 • Schätzergebnisse lineares Modell: Modell 1 Koeff. t Modell 2 Koeff. t Constant 24.03 3.50 -75.70 -7.04 Cabernet 21.00 4.57 9.45 2.38 Merlot 10.04 2.51 8.74 2.39 Shiraz 21.20 5.04 17.14 4.78 Pinot-Noir 28.53 3.38 37.22 5.23 Pinotage (Referenz) Blind-Bewertung 2.62 5.05 – – Offene Bewertung ("Platter") (Referenz) – 37.58 Adj. R2 13.01 30.35 n 537 537 – 12.58 2.47 2.5.4 Tests der gemeinsamen Signifikanz von Regressionskoeffizienten • Nullhypothese, dass Teilgruppe J der K-1 Steigungsparameter gleich Null ist. (mit J < K): H0: βK-J+1 = … = βK = 0. Alternativhypothese H1: wenigstens einer der J Koeffizienten ist ≠ 0. • Testidee: Vergleiche die Summe der quadrierten Residuen aus der Regression mit J Parametern (S1) mit der des restringierten Modells ohne die J Parameter (S0). Unter der Nullhypothese sollten S0 und S1 ungefähr gleich sein. Teststatistik: f= (S 0 − S1 ) / J S1 / (N − K) ~ FJ,N−K (2.58) • Es lässt sich zeigen, dass f auch wie folgt bestimmt werden kann: 2.48 f= (R 2 1 − R02 ) / J (1 − R12 ) / (N − K) , (2.59) R12 und R02 messen die Schätzgüte für das unrestringierte und restringierte Modell. • Wenn f große Werte annimmt, sollte die H0 verworfen werden. Die kritischen Werte für den F-Test werden einseitig bestimmt, P { f > FJ,N−K;α } = α , wobei α das Signifikanzniveau angibt. so dass gilt = 2,76 . • Beispiel: Für N – K = 60 und J = 3 ist F krit. 3,60; 0,05 • Es ist möglich, dass eine Gruppe von Koeffizienten einzeln insignifikant und gemeinsam signifikant ist, d.h. H0: β2 = 0 und H0: β3 = 0 wird nicht verworfen, aber H0: β2 = β3 = 0 kann verworfen werden. Auch das Gegenteil ist möglich. 2.49 Grund: bei t-Tests wird die Korrelation zwischen Parameterschätzern nicht berücksichtigt, bei F-Tests jedoch sehr wohl. • Häufige Anwendung des F-Tests: H0: β2 = β3 = … = βK = 0 (alle Steigungsparameter). Hier kann die Teststatistik geschrieben werden als f= (S 0 − S1 ) / (K − 1) S1 / (N − K) , (2.60) wobei S1 = ∑ ei2 und S0 die Fehlerquadratsumme eines Modells ist, das lei diglich aus einem Achsenabschnittsparameter besteht: S0 = ∑ ( yi − y ) . Da 2 i hier R02 = 0 , lässt sich die Teststatistik auch wie folgt schreiben: F= R2 / (K − 1) (1 − R2 ) / (N − K) . 2.50 2.5.5 Beispiel • Geschätzt wird das Modell wagei = β1 + β2 malei + β3 schooli + β4 experi + εi , wobei school die Dauer der Schulausbildung abbildet und exper die Arbeitserfahrung in Jahren. Nun werden alle Koeffizienten „ceteris paribus“ interpretiert, d.h. β2 beschreibt den Unterschied im Lohn für Männer und Frauen gleicher Schulausbildung und Arbeitserfahrung. Tab. 2.2: KQ-Ergebnisse Lohngleichung 2.51 Der mittlere Lo ohnunters schied zw wischen Männern n und Frrauen be eträgt nu un 1,34. Alle A drei Steigung gsparame eter sind d einzeln statistis sch signiffikant. Eiin zusätzlliches Scchuljahr erhöht e den Lohn um 0,64, ein e weiteres Jahr Arbeitserfahrung g um 0,12 25. • Die Hy ypothese, dass alle e Steigun ngsparam meter = 0 sind, wird deutlicch verworfen: F3,33290;0,05 = 2 2,60 < 167 7,63 . 2.5 52 • Im Vergleich zum Modell in Tabelle 2.1 ist das R2 deutlich von 0,03 auf 0,13 gestiegen. Ein Test auf gemeinsame Signifikanz der Koeffizienten β3 und β4 lautet daher f= ( 0,1326 − 0,0317 ) / 2 = 191,35 > 3,00 = F (1 − 0,1326 ) / ( 3294 − 4 ) 2,3290;0,05 Somit verbessern die zusätzlichen Variablen den Erklärungsgehalt des Modells signifikant. 2.53 2.5.6 Allgemeine Form des F-Tests • Allgemeine Form für J lineare Restriktionen: Rβ = q, wobei R eine J x K Matrix ist (wir unterstellen Nichtsingularität), q ist ein J dimensionaler Vektor. • Beispiel: Restriktion 1 β2 + β3 +…+ βK = 1 Restriktion 2 β2 = β3 ⎛0 mit J = 2 gilt R = ⎜ ⎝0 1 1 1 ... −1 0 ... ... 1⎞ , 0 ⎟⎠ ⎛ 1⎞ q = ⎜ ⎟. ⎝0⎠ • In den meisten Fällen kann das Modell unter den Restriktionen geschätzt werden, so dass der normale F-Test verwendet werden kann. Wenn dies z.B. wegen der Komplexität der Nullhypothese nicht möglich ist, nutzt man die Tatsache, dass 2.54 ( ) Rb ~ N Rβ, σ2R ( X ' X ) R ' , −1 um über die quadratische Form eine χ 2 -verteilte Teststatistik abzuleiten. Es gilt (Rb − q) ' (R ( X X ) −1 ' ξ= R' ) −1 (Rb − q) σ 2 ~ χ2J • Das unbekannte σ2 muss ersetzt werden durch s2. Nun gibt es zwei Möglichkeiten: Entweder man ersetzt σ2 durch s2, dann ist die Teststatistik approximativ χ2-verteilt (unter der Nullhypothese). Dies wird als Wald Test bezeichnet. 2.55 2 • Alternativ nutzt man, dass (N-K)s2 / σ2 ~ χN-K und leitet unter der Annahme zweier unabhängig χ2-verteilter Zufallsvariablen aus ξ und (2.47) einen fTest ab: (Rb − q) ' ( σ R ( X X ) 2 f = = −1 ' R' ) −1 (Rb − q) / J ⎡⎣(N − K ) s2 / σ2 ⎤⎦ / (N − K ) ( (Rb − q) ' R ( X' X ) R ' −1 Js2 ) −1 (Rb − q) ~ FJ,N−K (unter H0) 2.56 2.5.7 Signifikanz, Teststärke und p-Wert • Fehlertypen beim statistischen Testen von Hypothesen: Typ I Fehler: Die zutreffende Nullhypothese wird verworfen. Typ II Fehler: Die nicht zutreffende Nullhypothese wird nicht verworfen. • Die Wahrscheinlichkeit eines Typ I Fehlers kontrollieren wir mit dem Signifikanzniveau α. Bei einem Test am 5% Signifikanzniveau beträgt die Typ I Fehlerwahrscheinlichkeit 5% (α = size of the test). • Die Wahrscheinlichkeit eines Typ II Fehlers (β) hängt vom wahren Parameterwert ab. Je weiter dieser von der Nullhypothese abweicht, umso kleiner ist die Typ II Fehlerwahrscheinlichkeit. 2.57 Stichprobe Bevölkerung α/2 Typ I α/2 Typ I Typ II (Fehlerwahrscheinlichkeit β) • Man bezeichnet die Wahrscheinlichkeit, dass die Nullhypothese abgelehnt wird, wenn sie falsch ist, als die Teststärke (Power) eines Testes: 1-β. Auch diese ist vom wahren Parameterwert abhängig. • Zusammenhang zwischen Typ I und Typ II Fehlern: Je größer α, umso kleiner β. 2.58 • Je größer die Stichprobe N, umso kleiner die Streuung des geschätzten Parameters. Beim Signifikanztest steigt die Wahrscheinlichkeit, H0 zu verwerfen. Die Wahrscheinlichkeit eines Typ II Fehlers sinkt. Um dies auszugleichen, werden bei großen Stichproben geringere Werte für α festgelegt (geringere α Werte steigern die β Wahrscheinlichkeit). Während bei kleinen Stichproben α = 0,1 relevant ist, betrachtet man bei großen eher α = 0,01. • Eine nicht verworfene Nullhypothese impliziert nicht, dass H0 wahr ist. Es ist möglich, dass verschiedene Nullhypothesen bei gegebener Datenlage nicht verworfen werden können. Dennoch können nicht alle wahr sein. Dies zeigt dann, dass die Tests nicht mächtig sind. • Der p-Wert (probability value) gibt den kleinstmöglichen α Wert an, unter dem eine Nullhypothese noch verworfen würde. Der p-Wert beschreibt unter 2.59 der Nullhypothese die Wahrscheinlichkeit, eine Teststatistik zu finden, die größer als die empirisch auf Basis der Stichprobe bestimmte Teststatistik ist. • Wenn p < α, wird H0 verworfen. • Beispiel: Bei einem Signifikanztest H0: β = 0 mit p = 0,08 würde H0 am α = 10% Niveau verworfen, am α = 5% Niveau nicht. 2.60 2.6 Asymptotische Eigenschaften des KQ Schätzers • Es gibt viele Situationen, in denen die beschriebenen Eigenschaften des KQ Schätzers nicht mehr zutreffen. Ist ε nicht normalverteilt, dann auch nicht b, sind ε und X nicht orthogonal, so ist b kein unverzerrter Schätzer, trifft V {εi } = σ2 nicht zu, ist der KQ Schätzer nicht mehr BLUE. • Um die Eigenschaften von Schätzern außerhalb enger Annahmen beschreiben zu können, definiert man für den Fall von N → ∞ asymptotische Eigenschaften von Schätzern. 2.61 2.6.1 Konsistenz • Im linearen Modell hat der KQ Schätzer die folgenden Momente: E {b} = β (2.65) −1 −1 ⎛ N ⎞ V {b} = σ ⎜ ∑ xi xi' ⎟ = σ2 ( X' X ) ⎝ i =1 ⎠ 2 (2.66) • Ohne Annahme einer Normalverteilung der Störterme lässt sich über die Verteilung von b wenig sagen. • Die Ungleichung von Chebycheff besagt, dass die Wahrscheinlichkeit, dass eine Zufallsvariable z um mehr als den Betrag δ von ihrem Mittelwert abweicht, nicht größer sein kann als die Varianz der Zufallsvariable geteilt durch δ2: 2.62 P { | z − E {z} | > δ} < V {z} für alle δ > 0 δ2 (2.67) • Für KQ-Koeffizienten: P { | bk − βk | > δ} < V {bk } δ2 σ2 ckk = 2 für alle δ > 0, δ wobei ckk das (k,k)te Element von Wenn N → ∞ , wächst ( X' X ) −1 (2.68) −1 ⎛ N ⎞ = ⎜ ∑ xi xi ' ⎟ ⎝ i =1 ⎠ ist. Entscheidend: N ∑ x x ' und Var{bk} fällt. Unter der Annahme, dass i =1 i i 1 N ∑ xi xi ' für N → ∞ gegen eine nichtsinguläre Matrix N i =1 ∑ xx konvergiert, (A6) folgt: lim P { | bk − βk | > δ} = 0 N →∞ für alle δ > 0 (2.69) 2.63 Asymptotisch ist die Wahrscheinlichkeit, dass der KQ-Schätzer sich um mehr als δ von seinem Erwartungswert entfernt, 0. Der Wahrscheinlichkeitsgrenzwert (probability limit, plim) von bk ist βk: plim b = β. (2.70) Schätzer, die zum wahren Wert konvergieren, bzw. deren Wahrscheinlichkeitsgrenzwert dem wahren Wert entspricht, sind konsistent. • Intuition: Je größer die Stichprobe, umso kleiner wird die Streuung des Schätzers um den unbekannten wahren Wert. • Konsistenz ist eine large sample property. Konsistente Schätzer treffen bei ausreichendem Stichprobenumfang N den wahren Wert mit beliebiger Ge- 2.64 nauigkeit. Diese Eigenschaft ist insbesondere dann von Interesse, wenn man die Unverzerrtheit eines Schätzers nicht nachweisen kann. f(bB) f(bA) N1 < N2 < N3 N3 N1 < N2 < N3 N3 N2 N2 N1 N1 β bA β bB Schätzer bA und bB sind konsistent. bA ist unverzerrt, bB ist verzerrt. • Bei plim b = β und für die stetige Funktion g gilt für den Wahrscheinlichkeitsgrenzwert die Rechenregel plim g(b) = g(β). (2.71) 2.65 Dies impliziert z.B. dass, wenn s2 ein konsistenter Schätzer für σ2 ist, s ein konsistenter Schätzer für σ ist, eine Eigenschaft, die für Unverzerrtheit und 2 Erwartungswerte nicht gilt: E {s} ≠ E {s2 } . • Man kann zeigen, dass der KQ Schätzer auch unter schwächeren Annahmen als A1–A4 konsistent ist: −1 ⎛ N ⎞ b = ⎜ ∑ xi xi ' ⎟ ⎝ i =1 ⎠ −1 ⎛1 ⎞ 1 xi yi = ⎜ ∑ xi xi ' ⎟ ∑ xi yi ∑ i =1 ⎝N ⎠ N N (2.72) −1 ⎛1 ⎞ 1 = β + ⎜ ∑ xi xi ' ⎟ ∑ xi εi ⎝N ⎠ N Wenn N groß wird, konvergieren die Mittelwerte von xi xi' und xi εi zum Mittel1 N wert der Grundgesamtheit. Unter der Annahme A6 konvergiert ∑ xi xi ' für N i =1 N → ∞ gegen ∑ xx , so dass 2.66 plim ( b − β ) = ∑ −xx1 E {xi εi } . (2.73) Der KQ Schätzer ist daher konsistent, wenn E {xi εi } = 0. (A7) • Die Konsistenz von KQ-Schätzern ergibt sich bereits aus den Annahmen (A6) und (A7). Diese Bedingungen reichen zum Nachweis der Unverzerrtheit nicht aus. Hierzu benötigt man (A1) – (A4). • Der KQ-Schätzer s2 für die Varianz des Störterms σ2 ist unter den Annahmen (A6), (A7), (A3) und weiteren Regularitätsannahmen ebenfalls konsistent. Je größer die N, umso genauer schätzt b β, umso verlässlicher schätzen die geschätzten Störterme die wahren ε und V{ε} das wahre σ2 . 2.67 2.6.2 Asymptotische Normalverteilung • Ist die Verteilung eines Schätzers für kleine Stichproben unbekannt, so kann man seine asymptotische Verteilung bestimmen. Die meisten Schätzer sind asymptotisch normalverteilt, d.h. für N → ∞ folgt N βˆ − β der Normal- ( ) verteilung. ( ) • Da asymptotisch β̂ = β (bei konsistenten Schätzern) hat β̂ − β eine degenerierte Verteilung, d.h. für N → ∞ ist die gesamte Wahrscheinlichkeitsmasse auf der Null: Es folgt P βˆ − β = 0 = 1. Betrachtet man statt dessen ( {( ) ) } N βˆ − β , erhält man eine nicht degenerierte Normalverteilung mit der Konvergenzrate N . Greene (2008) nennt die Multiplikation mit N eine "stabili- sierende Transformation". 2.68 • Es lässt sich zeigen, dass unter den Annahmen (A1) – (A4) in Kombination mit (A6) N ( b − β ) → N ( 0, σ2 ∑ −xx1 ) , (2.74) man sagt, der KQ-Schätzer ist asymptotisch normalverteilt mit der VarianzKovarianz-Matrix σ2 ∑ −xx1 . • Bei kleineren Stichproben spricht man von approximativer Verteilung: a ( b ~ N β, σ2 ∑ xx /N −1 ) (2.75) Die Varianz-Kovarianz-Matrix wird wie folgt geschätzt: −1 N ⎛ ⎞ ⎞ 2 ⎛ b ~ N ⎜ β, s ⎜ ∑ xi x 'i ⎟ ⎟ ⎝ i =1 ⎠ ⎠ ⎝ a (2.76) 2.69 Dies gilt auch für kleine Stichproben und ist umso genauer, je größer die Stichprobe. • Da der KQ-Schätzer unabhängig von der Verteilung der Störterme asymptotisch normalverteilt ist, sind die Ableitungen der Verteilungen der t- und FStatistiken asymptotisch zutreffend, auch ohne normalverteilte Störterme. • Da die t-Verteilung für N → ∞ zur Normalverteilung konvergiert, werden oft die kritischen Werte der Normalverteilung genutzt, ohne dass für die Störterme die Normalverteilung unterstellt wird. • Auch für FJ,N−K - verteilte Zufallsvariablen f gilt asymptotisch, dass ξ = J ⋅ f χ2J verteilt ist. Um J lineare Restriktionen zu testen, berechnet man also J ⋅ f und wählt die kritischen Werte aus der χ2 -Verteilung. 2.70 • Die Ergebnisse (2.74) und (2.76) gelten auch noch, wenn die Annahme A2 abgeschwächt wird zu xi und εi sind unabhängig, (A8) d.h. für i ≠ j ist Unabhängigkeit von xi und εi nicht erforderlich. A8 impliziert A7, d.h. E { xi εi } = 0. 2.71 2.7 Illustrationen 2.7.1 Illustration 1: Makroökonomische Investitionsfunktion • Frage: Welchen Zusammenhang gibt es zwischen BIP und Investitionen? • Daten: jährliche makroökonomische Daten aus USA (1990 – 2005) • Variablen: Inv_MR = private Investitionen, in Mrd. US-$ von 2000 Inv_M = private Investitonen, in Mio. US-$ von 2000 BIP_MR = Bruttoinlandsprodukt, in Mrd. US-$ von 2000 BIP_M = Bruttoinlandsprodukt, in Mio. US-$ von 2000 2.72 Lineare Regressionsergebnisse: Koeffizienten (Standardfehler) 1 2 3 4 Abh. Var.: Inv_MR Inv_M Inv_MR Inv_M Konstante -926,090 -926 090 -926,090 -926 090 (116,358) (116 358) (116,358) (116 358) 0,2535 - - 253,524 BIP_MR (0,0129) BIP_M - (12,946) 0,2535 0,0002535 (0,01299) (0,0000129) - 2.73 R2 0,9648 0,9648 0,9648 0,9648 In Spalte 1 zeigt sich ein positiv signifikanter Zusammenhang. Der Steigungsparameter in Spalte 2 bleibt identisch, wenn beide Größen mit 1000 multipliziert werden. Die Konstante wächst ebenfalls um den Faktor 1000. Wird lediglich die erklärende Variable skaliert (Spalte 3), so bleibt die Konstante im Vergleich zu Spalte 1 gleich, aber der Steigungsparameter passt sich an. Seine statistische Signifikanz ist von der Skalierung unabhängig. In Spalte 4 wird nur die abhängige Variable skaliert. Dies beeinflusst beide geschätzten Parameter. Weder das R2 noch die t-Statistik werden von Skalierungen beeinflusst. (Quelle: Gujarati / Porter, 2009, S. 156) 2.74 2.7.2 Illustration 2: Stundenlöhne und Bachelorabschluss in USA • Frage: Gibt es einen Zusammenhang zwischen Ausbildung und Löhnen? • Daten: 4000 Vollzeitbeschäftigte im Alter 25 - 34 aus dem Current Population Survey von 1998 • Variablen: AHE mittlere Stundenlöhne in 1998 US-$ (abh. Var.) College 1, wenn Bachelor, 0 wenn High School Female 1, wenn weiblich, 0 wenn männlich Age Alter in Jahren Northeast 1, wenn aus dem Nordosten der USA, 0 sonst Midwest 1, wenn aus dem mittleren Westen der USA, 0 sonst South 1, wenn aus dem Süden der USA, 0 sonst West 1, wenn aus dem Westen der USA, 0 sonst 2.75 Lineare Regressionsergebnisse: Koeffizienten (Standardfehler) College Female 1 2 3 5,46 5,48 5,44 (0,21) (0,21) (0,21) -2,64 -2,62 -2,62 (0,20) (0,20) (0,20) 0,29 0,29 (0,04) (0,04) - 0,69 Age Northeast - (0,30) Midwest - - 0,60 (0,28) South - - -0,27 (0,26) Konstante R 2 F-Test der Regionalen Effekte 12,69 4,40 3,75 (0,14) (1,05) (1,06) 0,176 0,190 0,194 - - 6,10 2.76 • Fragen: Welche Koeffizienten sind am 1-Prozent-Niveau signifikant? Wie unterscheiden sich die Löhne von Männern und Frauen? In welcher Region ist das Lohnniveau am höchsten? Ist die Kontrolle für die Region gemeinsam signifikant? Wie hoch ist der mittlere Lohnunterschied für 25 und 30-Jährige Frauen mit Collegeabschluss? (Quelle: Stock & Watson, 2007, S. 247) 2.77 2.8 Multikollinearität • Bei Multikollinearität führen enge lineare Beziehungen zwischen erklärenden Variablen zu nicht verlässlichen Schätzergebnissen. • Beispiel 1: Regressiere Stundenlöhne auf Alter und Berufserfahrung. Alter und Berufserfahrung sind korreliert und X' X nähert sich damit der Singularität und Nichtinvertierbarkeit. Die Koeffizienten werden unpräzise geschätzt, da die Daten nicht genug Information enthalten, um beide Effekte einzeln zu identifizieren. • Im Extremfall perfekter Multikollinearität ist die X' X -Matrix nicht invertierbar und der KQ-Schätzer ist nicht eindeutig definiert. 2.78 • Ein typischer Fall von Multikollinearität liegt ebenfalls vor, wenn zu viele Dummyvariablen verwendet werden. • Beispiel 2: yi = β0 + β1 malei + β2 femalei + εi , wobei male für Männer mit 1 und Frauen mit 0 und female umgekehrt kodiert werden. Da immer gilt malei + femalei = 1 ist die X' X -Matrix singulär, die Summe der Variablen ergibt die Konstante. Die (analytische) Lösung besteht darin, eine der drei Variablen (Konstante, male, female) auszulassen. Die Konstante sollte im Allgemeinen jedoch beibehalten werden. • Beispiel 3: wagesi = β0 + β1 agei + β2 schoolingi + β3 experiencei + εi 2.79 Da die Arbeitserfahrung (experience) meist nicht als Variable vorliegt, wird sie approximiert (potential experience): experiencei = agei – schoolingi – 6. Hier sind die drei Variablen automatisch kollinear. • Auswirkung von Kollinearität auf KQ-Schätzer: Modell yi = β1 xi1 + β2 xi2 + εi und wir unterstellen y = x1 = x2 = 0 sowie V {xi1} = V {xi2 } = 1 und Korrelationskoeffizient r12. Dann folgt V { b1 } = V { b2 } = σ2 N 1 − r122 Je höher r12, umso größer ist die Varianz und Ungenauigkeit der Regressionskoeffizienten, umso kleiner die t-Werte, umso breiter die Konfidenzintervalle. Positiv korrelierte erklärende Variablen führen zu negativ korrelierten Koeffizienten. 2.80 • Lösung: mehr Daten bzw. Informationen beschaffen, entweder durch größere Stichproben oder durch zusätzliche Restriktionen auf den Parametervektor. • Beispiel: Ob man in der Lohngleichung den Dummy für Männer oder für Frauen berücksichtigt, ist irrelevant. Ohne Konstante kann nur noch das nichtzentrierte R2-Maß präsentiert werden, welches generell größer ist als das Standard R2 (siehe 2.43). 2.81 Tab. 2..6 Alternative Spe ezifikation nen mit Dummyva ariablen 2.8 82 2.9 Vorhersage • Eine Verwendung von Schätzergebnissen besteht im Erstellen von Vorhersagen der abhängigen Variable, wenn Werte für x0 vorgegeben sind: y0 = x '0 β + ε0 . Ein unverzerrter Vorhersagewert für y0 wäre ŷ0 = x '0 b , da E{b} = β. Das heißt E {yˆ 0 − y0 } = 0. • Die Varianz des vorhergesagten Wertes infolge der Schätzung von β ist V { yˆ 0 } = V { x'0 b} = x'0 V { b} x0 = σ2 x'0 ( X'X ) x0 . −1 (2.82) • Die Varianz des Vorhersagefehlers: beträgt y0 − yˆ 0 = x '0 β + ε0 − x '0 b = ε0 − x '0 ( b − β ) (2.83) V { y0 − yˆ 0 } = σ2 + σ2 x'0 ( X'X ) x0 , (2.84) −1 wenn b und ε0 nicht korreliert sind. 2.83 • Im einfachen Regressionsmodell mit einer erklärenden Variable xi gilt ⎛1 V { y0 − yˆ 0 } = σ2 + σ2 ⎜ + ⎜N ⎝ (x − x) ∑ (x − x) 2 0 2 i i ⎞ ⎟. ⎟ ⎠ Je weiter x0 von x entfernt, umso unpräziser wird die Vorhersage. • Das 95%-Vorhersageintervall für y0 ist: ⎡ x ' b − 1,96 ⋅ s ⋅ 1 + x' ( X'X )−1 x ; x' b + 1,96 ⋅ s ⋅ 1 + x' ( X'X )−1 x ⎤ , 0 0 0 0 0 ⎢⎣ 0 ⎥⎦ (2.85) wobei 1,96 der kritische Wert der Standardnormalverteilung ist. Mit 95% Wahrscheinlichkeit enthält das Intervall den wahren, aber unbekannten Wert von y0. 2.84 • Illustration: Priilaid und Rensburg, 2006, Nonlinearity in the hedonic pricing of South African red wines, International Journal of Wine Marketing 18(3), 166-182. • Das in Abschnitt 2.2 präsentierte Modell wird mit einer detaillierteren Spezifikation verglichen. 2.85 • Schätzergebnisse lineares Modell Modell 3 Koeff. t Modell 4 Koeff. t Constant -79.00 -7.22 3.65 0.49 Cabernet 10.65 2.69 13.19 3.27 Merlot 7.68 2.16 8.70 2.52 Shiraz 15.93 4.36 16.98 4.91 Pinot-Noir 35.90 4.99 34.34 4.62 Pinotage (Referenz) (Referenz) Blind-Bewertung 6.11 2.40 – – Offene Bewertung ("Platter") 34.26 10.98 – – Platter 2 Stern – – 47.39 1.36 Platter 3 Stern – – 65.14 1.69 2.86 Platter 4 Stern – – 91.03 2.31 Blind 1 Stern – – -31.41 -0.84 Blind 2 Stern – – -38.87 -1.04 Blind 3 Stern – – -28.25 -0.76 Adj. R2 N 31.80 39.46 537 537 • Keine einheitlichen oder linearen Preissprünge bei steigender Qualität • Vergleich von vorhergesagtem Wert und tatsächlichem Preis (Modell 4): 2.87 K wobei valuei = pricei – εi = α + ∑ bk xk . k =1 2.88 • Entgegen dem "populären Marketing-Mythos", dass Schnäppchen nur im unteren Preissegment existieren, zeigt die Analyse, dass auch hochwertige Weine preiswert sein können: 2.89 • Dies lässt sich auch für konkrete hochwertige Weine zeigen: High priced wines that offer exceptional value-for-money 2004 Price (in Rand) Wine label Kevin Arnold Shiraz 115.00 2001 Wine Platter Linear score score valuation (in Rand) Dummy valuation (in Rand) Linear model: extent of mispricing (%) Dummy model: extent of mispricing (%) 4.5 4.5 118.57 159.10 -3.10 -38.35 95.00 4.0 4.5 115.52 140.06 -21.60 -47.43 Thelema Cabernet 120.00 Sauvignon 2001 4.0 4.5 110.23 136.26 8.14 -13.55 Hartenberg 2001 3.5 4.5 112.46 128.20 -18.38 -34.95 BWC Shiraz 2001 Shiraz 95.00 Es macht in der Bewertung einen erheblichen Unterschied, ob Modell 3 oder 4 geschätzt wurde (vergleiche die beiden letzten Spalten). 2.90 Literatur: Verbeek, 2008, Kapitel 2. Priilaid, D.A. und P. van Rensburg, 2006, Non-linearity in the hedonic pricing of South African red wines, International Journal of Wine Marketing 18(3), 166-182. 2.91 Kapitel 3: Interpretation und Vergleich von Regressionsmodellen 3.1 Interpretation des linearen Modells 3.2 Auswahl der unabhängigen Variablen 3.3 Fehlspezifikation der funktionalen Form 3.4 Illustration: Die Erklärung von Hauspreisen 3.5 Illustration: Die Erklärung individueller Löhne 3.1 Lernziele Kapitel 3: • Welche Möglichkeiten gibt es Koeffizienten linearer Regressionsmodelle zu interpretieren? • Nach welchen Kriterien sollte die Spezifikation von Regressionsmodellen erfolgen? • Wann ist ein Modell fehlspezifiziert? 3.2 3.1 Interpretation des linearen Modells • Hinweis: Verbeek verwendet stets die Notation „log“, aber der natürliche Logarithmus „ln“ ist gemeint. yi = x 'i β + εi • Modell: E { εi X} = 0 oder E { εi xi } = 0 Annahme: (3.1) (3.2) Wenn der Erwartungswert von ε für gegebene X null ist, gibt das Modell den auf X bedingten Erwartungswert von yi an. Beispiel: Der erwartete Lohnsatz (y) für eine Frau (xi1) im Alter 40 (xi2) mit Universitätsabschluss (xi3). • Der Koeffizient βk misst ceteris paribus den Effekt einer Änderung von xik auf den Erwartungswert von y: 3.3 ∂ E {yi xi } ∂ xik = βk (3.3) • Es ist nicht sinnvoll, Koeffizienten einzeln zu betrachten, wenn Polynome der erklärenden Variable geschätzt werden. Wenn yi = … + agei β2 + agei2 β3 + …, wird der marginale Effekt des Alters wie folgt bestimmt: ∂ E {yi xi } ∂ agei = β2 + 2 agei β3 . (3.4) • Der marginale Effekt erklärender Variablen kann auch von anderen Variablen abhängen, z.B. bei Interaktionstermen yi = … + agei β2 + ( agei ⋅ malei ) β3 + … ∂ E {yi xi } ∂ agei = β2 + malei β3 (3.5) 3.4 Der marginale Effekt des Alters beträgt β2 + β3 für Männer und β2 für Frauen. • Elastizitäten lassen sich aus Regressionen direkt ablesen, wenn logarithmierte Variablen betrachtet werden. Ein loglineares Modell lautet: log yi = ( log xi ) ' γ + υi Da ∂ log y ∂y = 1 y ⇔ ∂ log y = ∂E { yi xi } E { yi xi } ∂xik xik = ∂y y , so dass ∂E { yi xi } ∂xik ⋅ ∂ log y ∂ log x = (3.6) ∂y / y ∂x / x = γ folgt hier ∂E {log yi log xi } xik ≈ = γk ∂ log xik E {yi xi } (3.7) Dies impliziert für das lineare Modell, dass die Elastizitäten mit xi variieren: ∂ E { yi xi } ∂xik ⋅ xik βx = k ik x'β E {yi xi } i (3.8) 3.5 • Wenn xi eine Dummyvariable ist, beschreibt der Koeffizient β für logyi = x 'i β + εi , (3.9) um wie viel Prozent sich y bei einer Änderung von xi um eine Einheit ändert. Für kleine β lässt sich dies wegen eβ ≈ 1 + β direkt ablesen. • Beispiel: e0,02 = 1.0202. Für große β berechne ( eβ − 1) ⋅ 100% . • Für die Vorhersage von yi spielt es eine Rolle, ob linear oder loglinear geschätzt wurde. Wenn E { υi log xi } = 0 , ist der vorhergesagte Wert für log yi aus Modell (3.6) genau ( log xi ) ' γˆ . Der vorhergesagte Wert für yi ist nicht { } exp { ( log xi ) ' γ}, denn E {yi xi } ≠ exp E{ log yi xi } . Der Erwartungswert einer nichtlinearen Funktion ist nicht identisch mit der nichtlinearen Funktion eines Erwartungswertes. 3.6 • Das Problem lässt sich nur lösen, wenn man für υi (und damit für yi) Verteilungsannahmen trifft. Unterstellt man υi ~ N ( 0, σ2υ ) , dann ist die Verteilung von yi lognormal. Es gilt dann für Modell (3.6): 1 ⎫ 1 ⎫ ⎧ ⎧ E { yi xi } = exp ⎨E { log yi xi } + σ2υ ⎬ = exp ⎨( log xi ) ' γ + σ2υ ⎬ 2 ⎭ 2 ⎭ ⎩ ⎩ (3.10) • Aus der Annahme E {εi xi } = 0 für das Modell yi = x 'i β + εi folgt nicht, dass yi ausschließlich eine Funktion von xi ist. Daneben kann auch yi = z'i γ + υi mit E { υi zi } = 0 gelten. Die Modelle beschreiben yi als Funktion unterschiedli- cher erklärender Variablen mit E {yi xi } = x 'i β und E {yi zi } = z'i γ . Nur die Formulierungen und E {yi xi ,zi } = z 'i γ E {yi xi ,zi } = x 'i β können nicht gleichzeitig zutreffen (solange nicht xi = –zi und β = −γ ). 3.7 • Illustration: Quelle: Albers, S. und B. Skiera, 2000, in: Herrmann, A. u. C. Homburg (Hrsg.), Marktforschung – Methoden, Anwendungen, Praxisbeispiele, 2. Auflage, Gabler-Verlag, Wiesbaden, S. 957-978. Frage: angemessene Umsatzvorgabe für Außendienstmitarbeiter (ADM) Problem: Regionale Unterschiede, Fairness bei individuellen Vorgaben Lösung: Umsatzreaktionsfunktion zur Bewertung regionaler Faktoren via Regressionsanalyse. a) Operationalisierung des Outputs: Absatzmenge oder Umsatz in €. 3.8 b) Bestimmung von Einflussfaktoren & Datenquellen, z.B. Bevölkerungskonzentration (amtl. Statistik), Anzahl der Kunden (Unternehmensstatistik), regionaler Branchenumsatz (GfK). c) Funktionalen Zusammenhang festlegen: Lineare Form impliziert konstante Grenzerträge, Fehlen von Interaktion. Multiplikative Form flexibler: K yi = α ⋅ Π x ikβk , β gibt Elastizitäten an. k =1 d) Datenbeschreibung (N = 20 regionale Beobachtungen) Variable Mittelwert Minimum Maximum Branchenumsatz (BU) 1354 403 2525 Bevölkerungskonzentration (BK) 0,794 0,673 1,000 115 81 172 3778 2663 5082 Anzahl der Kunden (A) Umsatz (y) 3.9 BU: Branchenumsatz indiziert die Kaufkraft der Region BK: Bevölkerungskonzentration gibt Realisierbarkeit an A: Anzahl der Kunden beschreibt das Marktpotenzial Die Größen sind von ADM nicht beeinflussbar. e) Parameterschätzung: Logarithmierung erlaubt lineare Schätzung: ln ( yi ) = ln α + β1 ln (BUi ) + β2 ln (BKi ) + β3 ln ( Ai ) + εi Coeff. SE T ln(BU) 0,1244 0,0694 1,792 ln(Bk) 1,0935 0,3313 3,301 ln(A) 0,3999 0,1974 2,025 constant 5,705 0,7730 7,381 Variable 3.10 R2 f) = 0,62013 Adj. R2 = 0,54890 F = 8,7065 (p = 0,0012) Ergebnisinterpretation – hoher Erklärungsgehalt des Modells – positive Zusammenhänge zwischen Umsatz und (BU, BK, A). – Elastizität von ca. 0,40 für Anzahl Kunden gibt an, dass Umsatz um 0,4% höher liegt, wenn Kundenstamm um 1% wächst. Wert plausibel, bei wachsendem Kundenstamm kann nicht jeder genauso intensiv betreut werden wie vorher. g) Festlegung der Umsatzvorgaben (für Soll-Ist-Vergleich) für jede Region i: Umsatzi = e5,705 ⋅ BUi0,1244 ⋅ BK1,0935 ⋅ Ai0,3999 i 3.11 3.2 Auswahl der unabhängigen Variablen 3.2.1 Fehlerhafte Auswahl der Regressoren • Eine Fehlspezifikation des Modells liegt sowohl vor, wenn relevante erklärende Variablen ausgeschlossen werden, als auch wenn irrelevante erklärende Variablen berücksichtigt werden. • Unterstellen wir yi = x 'i β + z'i γ + εi (3.12) yi = x 'i β + υi (3.13) −1 • Der KQ-Schätzer aus (3.13) ist: ⎛ N ⎞ b2 = ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ N ∑xy i =1 i i (3.14) Unter der Annahme, dass (3.12) wahr ist, können wir ableiten: 3.12 −1 ⎛ N ⎞ b2 = β + ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ −1 ⎛ N ⎞ x z ' γ + ∑ ⎜ ∑ xi x 'i ⎟ i i i =1 ⎝ i =1 ⎠ N N ∑xε i =1 i i (3.15) • Während der letzte Term in (3.15) unter Modell (3.12) einen Erwartungswert von Null hat, stellt der zweite Term das Ausmaß der Verzerrung dar, wenn zi nicht mitgeschätzt wird (omitted variable bias). • Die Verzerrung entfällt nur, wenn entweder γ = 0 , d.h. die Modelle sind doch N gleich, oder wenn ∑ x z ' = 0 bzw. E { x z ' } = 0 , d.h. wenn xi und zi orthogoi =1 i i i i nal sind. Dies ist selten der Fall und geht – solange xi die Regressionskon- stante enthält – nur, wenn E { zi } = 0 . • Wenn wir (3.12) schätzen, obwohl (3.13) wahr ist, wird ein Koeffizient zuviel geschätzt, der Null ist. Dies erhöht die Varianz der Schätzer. Die Koeffizienten bleiben unverzerrt. 3.13 3.2.2 Auswahl der Regressoren • Statistisch gibt es keine Vorgaben zur Auswahl der Regressoren, wenn das Modell lediglich E(y |x) definiert. Aus ökonomischer Sicht nutzt man theoretische Modelle zur Begründung der Regressorenauswahl. • Erklärende Variablen sollten vor der Schätzung bestimmt werden. Wählt man sie aufgrund von Probeschätzungen, läuft man Gefahr, das Schätzmodell auf eine Stichprobe hin auszurichten (data fishing, data snooping, data mining). • Bei "Spezifikationssuchen" wird mittels Tests entschieden, welche erklärenden Variablen berücksichtigt werden. 3.14 • Auf dem Weg zur endgültigen Modellspezifikation wird in der Regel getestet, ob (1) die Restriktionen der Theorie gelten und ob (2) zusätzlich nicht im Modell enthaltene Restriktionen auferlegt werden können. • Es gibt keinen Grund, warum ein Modell nur signifikante Variablen enthalten sollte. Auch insignifikante Koeffizienten können informativ sein. • Das R2 kann nicht sinken, wenn zusätzliche erklärende Variablen berücksichtigt werden. Daher hat man das korrigierte R2 R2 entwickelt, welches ( ) einen Tradeoff zwischen Erklärungsgehalt und Anzahl der Regressoren (K) berücksichtigt: ⎡⎣1 R2 = 1 − ⎡⎣1 (N − K ) ⎤⎦ N ∑e i =1 N (N − 1) ⎤⎦ ∑ ( y i =1 i 2 i − y) 2 (3.16) 3.15 • Alternative Maße sind Akaikes Informationskriterium (AIC): AIC = log 1 N 2 2K ∑ ei + N N i =1 (3.17) sowie Schwarz’ Bayesianisches Informationskriterium (BIC): 1 N 2 K BIC = log ∑ ei + logN N i =1 N (3.18) • In beiden Fällen sind Modelle dann gut, wenn die Kriteriumswerte klein ausfallen. Die „Strafe“ für zusätzliche Regressoren ist beim BIC größer als beim AIC. Beim Vergleich genesteter Modelle nutzt man meist das R2 oder R2 , bei nicht genesteten Modellen AIC oder BIC. 3.16 • Man kann testen, ob eine R2-Verbesserung statistisch signifikant ist. Dies ist identisch mit einem Test statistischer Signifikanz der Koeffizienten von hinzugefügten erklärenden Variablen: f= (R 2 1 − R02 ) J (1 − R ) (N − K ) 2 1 (3.19) R12 und R02 repräsentieren die R2-Werte mit und ohne zusätzliche J erklären- de Variablen, N – K sind die Freiheitsgrade des unrestringierten Modells. f ist unter H0 F-verteilt. • Die Teststatistik lässt sich ebenfalls als Kombination der R2 darstellen: R12 > R02 genau dann, wenn f > 1. Das impliziert umgekehrt für J = 1, dass R2 genau dann steigt, wenn der t-Wert des Koeffizienten größer als 1 ist (für J = 3.17 1 gilt t2 = f). Gemäß R2 kommt es hier also nicht auf statistische Signifikanz an. • Ebenfalls kann man t- und F-Tests direkt verwenden oder folgenden Zusammenhang zur Auswahl von Regressoren nutzen. Unter H0 : γ = 0 gilt für den KQ-Schätzer γ̂ mit Vˆ { γˆ } , dass −1 ξ = γˆ ' Vˆ {γˆ} γˆ (3.20) asymptotisch χ2 -verteilt ist mit J Freiheitsgraden (s. Wald-Test 2.63). • Zwei einzelne t-Tests können zu anderen Ergebnissen führen als ein gemeinsamer F-Test. Will man 2 Variablen auslassen, sollte das per F-Test geprüft werden. Das Ergebnis der t-Tests kann auch von der Reihenfolge der Tests abhängen. 3.18 3.3 Fehlspezifikation der funktionalen Form 3.3.1 Nichtlineare Modelle • Die Linearitätsannahme hinter E {yi xi } = x'i β kann eine starke Restriktion darstellen. • Nichtlinearitäten können sich durch quadratische Terme (Alteri, Alteri2 ) oder Interaktionen (Alteri ⋅ Geschlechti) ergeben. In diesen Fällen bleibt das Modell linear in Parametern und kann durch KQ geschätzt werden. • Wenn sich Nichtlinearitäten in den Parametern ergeben, hat das gravierendere Konsequenzen. Für E {yi xi } = g ( xi ,β ) sei g(.) nichtlinear in β. Zum Beispiel g ( xi , β ) = β1 + β2 xiβ3 (3.27) 3.19 g ( xi , β ) = β1 xi1β2 xi2β3 . oder (3.28) (3.28) gibt eine Cobb-Douglas-Produktionsfunktion mit zwei Inputs an. Hier lässt sich durch Logarithmieren (und die Annahme β1 > 0) Linearität herstellen, in (3.27) nicht. • Daneben gibt es das Verfahren der nonlinear least squares, bei dem die Zielfunktion () N ( ( )) S β = ∑ yi − g xi ,β i =1 2 hinsichtlich β mit numerischen Verfahren minimiert wird. Voraussetzung für () eine eindeutige konsistente Lösung ist, dass ein globales Minimum für S β existiert. 3.20 3.3.2 Tests der funktionalen Form • Mithilfe von t-, F- und Wald-Tests kann man prüfen, ob die funktionale Form E {yi xi } = x 'i β durch nichtlineare Terme von xi ergänzt werden sollte. • Der RESET-Test (regression equation specification error test) baut auf die Idee auf, dass im vorgegebenen Modell nichtlineare Funktionen von yˆ i = x'i b nicht dazu beitragen sollten, yi zu erklären: In einer Hilfsregression yi = x 'i β + α2 yˆ i2 + α3 yˆ i3 + … + αQ yˆ iQ + υi (3.31) wird überprüft, ob die Koeffizienten αn der Werte von yˆ n mit n ≥ 2 signifikant von 0 verschieden sind. Man nutzt einen F- oder Wald-Test für 3.21 H0 : α2 = … = αQ = 0 . Der Test reagiert sowohl auf unangemessene funktionale Form als auch auf ausgelassene Variablen. • Illustration: Heij, C. et al., 2004, Econometric Methods with Applications in Business and Economics, Oxford Univ. Press, S. 286-289. Problem: Determinanten der Lohnhöhe für 474 Bankangestellte y = log (Jahreseinkommen) EDUC = Schulbildung (in Jahren) FEMALE = 1 für Frauen, 0 für Männer MINORITY = 1 für Nichtweiße, 0 für Weiße 3.22 • Lineares Modell: yi = α +β1 EDUCi +β2 FEMALEi +β3 MINORITYi + εi • Ergebnisse: Koeffizienten, Standardfehler in Klammern constant EDUC FEMALE MINORITY FITTED∧2 FITTED∧3 F-Statistik Modell 1 Modell 2 Modell 3 9.199 (0.059) 0.077 (0.004) 0.261 (0.025) -0.133 (0.029) – – -69.82 (8.971) -1.443 (0.172) -4.877 (0.583) 2.488 (0.298) 0.947 (0.107) – 827.26 (555.86) 10.631 (7.483) 35.894 (25.266) -18.223 (12.836) -14.111 (9.330) 0.484 (0.299) – 77.6 (p = 0.00) 40.2 (p = 0.00) 3.23 RESET-Test in Modell 2 ergibt signifikanten Parameter, in Modell 3 RESETTest mit 2 Koeffizienten: gemeinsame Signifikanz durch F-Test bestätigt Hinweis auf Fehlspezifikation (z.B. linearer Effekt von Bildung, nicht unbedingt zutreffend). Modell könnte erweitert werden um quadratischen Bildungseffekt oder Interaktion des Bildungseffekts mit FEMALE oder MINORITY. 3.24 3.3.3 Strukturbruchtests • Bislang haben wir unterstellt, dass die funktionale Form eines Modells für alle Beobachtungen gleich ist. Über Interaktionsterme kann man prüfen, ob sich marginale Effekte für Teilgruppen unterscheiden. Manchmal vermutet man, dass sich alle Koeffizienten über 2 Teilstichproben (gi = 1 und gi = 0) unterscheiden. yi = x 'i β + ( gi x 'i ) γ + εi (3.32) Für die Gruppe mit gi = 0 trifft der Koeffizient β, für die Gruppe mit gi = 1 β + γ zu. Unter H0 : γ = 0 sind die Gruppen identisch. • Ein für die Nullhypothese angemessener F-Test ist 3.25 f= (S R SUR − SUR ) K (N − 2K ) , wobei K die Anzahl der Regressoren im restringierten Modell ist (einschließlich Achsenabschnitt) und SR und SUR die restringierten und unrestringierten Fehlerquadratsummen darstellen. • Der F-Test wird im Zusammenhang von Strukturbrüchen als Chow-Test bezeichnet. Man kann auch für g = 0 und g = 1 separate Modelle schätzten. Dann ergibt sich SUR = S1 + S0 aus der Summe der jeweiligen Fehlerquadratsummen und SR nach wie vor aus der gepoolten Schätzung. • Der Test kann auch für ausgewählte Koeffizienten statt dem Gesamtvektor ( x ) durchgeführt werden. i 3.26 • In Zeitreihenanalysen hat man normalerweise klare Vorstellungen, zu welchem Zeitpunkt ein Strukturbruch stattfindet. Man kann den Chow-Test jedoch auch nutzen, um alle zeitlichen Möglichkeiten zu überprüfen. In diesem Fall wird nach der größten F-Statistik gesucht. Die größte aus einer Gruppe von F-Statistiken folgt dann allerdings nicht mehr der herkömmlichen FVerteilung. 3.27 3.4 Illustration: Die Erklärung von Hauspreisen • Eine Schätzgleichung, die den Preis eines Gutes auf seine Eigenschaften regressiert und zulässt, daraus den Wert einzelner Eigenschaften abzulesen, nennt man hedonische Preisfunktion. Hedonische Preise sind die mit einzelnen Attributen des Gutes verbundenen Prämien beim Preis. • Beispiel: Die Daten enthalten Informationen zu 546 im Jahr 1987 verkauften Häusern einer kanadischen Stadt. Eine KQ-Regression regressiert den logarithmierten Hauspreis auf die logarithmierte Grundstücksgröße, Zimmerzahl, Badezimmerzahl und das Vorhandensein einer Klimaanlage. 3.28 • Tab. 3..1 KQ-Scchätzerge ebnisse: Hedonisc H che Preisfunktion • Das R2 und alle e t-Werte e sind ho och. Der Koeffizie ent für de en Dumm my zur Kllimaanla age gibt a an, dass Häuser mit m Klima aanlage ceteris c pa aribus ca.. 21% teu urer sind d als ohn ne. Ein um m 10% größeres Grundstü ück führt c. p. zu einem um m 4% höh heren Pre eis, ein weiteres w Z Zimmer z plus 8% zu %. 3.2 29 • Der Preis für ein Haus mit 4 Zimmern, einem Badezimmer, einem Grund von 5000 sq.ft. und ohne Klimaanlage beträgt 7,094 + 0,4 log(5000) + 0,078 · 4 + 0,216 = 11,028 , was einem erwarteten Preis von exp{11,028 + 0,5 · 0,24562} = 63.460 kanad. Dollars entspricht. 0,24562 ist die geschätzte Varianz des als normalverteilt unterstellten Störterms. • Mit dem RESET-Test lässt sich die funktionale Form überprüfen. Hier ergibt der ŷ2 -Term eine t-Statistik von 0,514 (p = 0,61) und die Terme ŷ2 und ŷ3 gemeinsam eine F-Statistik von 0,56 (p = 0,57), es liegt also kein Problem vor. Dennoch kann man weitere Merkmale im Modell berücksichtigen: 3.30 Tab. 3.2 3 KQ-S Schätzerg gebnisse: Hedonis sche Pre eisfunktio on, ausfü ührlichere es Modell 3.3 31 Jetzt steigen das R2 sowie das korrigierte R2 und die t-Statistiken zeigen signifikante Effekte an. Der F-Test auf gemeinsame Signifikanz der zusätzlichen Variablen ergibt auf Basis der R2-Werte ( 0,6865 − 0,5674 ) 7 = 28,99 , (1 − 0,6865 ) ( 546 − 12) was hochsignifikant ist, mit p = 0,000. Man sieht, dass sich durch die zusätzlichen erklärenden Variablen auch die vorherigen Koeffizienten geändert haben. Dies liegt daran, dass die betrachteten Merkmale untereinander korreliert sind. Auch hier zeigt der RESET-Test keine Fehlspezifikation an. Auch dieses erweiterte Modell kann für Vorhersagen des Hauspreises verwendet werden. 3.32 • Alternativ könnte man die Preise selbst statt ihres logarithmierten Wertes betrachten. In diesem Fall (Tabelle 3.3) reflektieren die Koeffizienten absolute statt relative Preisunterschiede. Während in Tabelle 3.2 eine Zufahrt den Hauspreis um 11% erhöhte, schlägt dies absolut mit 6688 Dollars zu Buche. • Die Tabellen erlauben keinen direkten Rückschluss darauf, welche Spezifikation der abhängigen Variable vorzuziehen ist, mit dem R2 kann man hier nicht argumentieren. Ein PE-Test des linearen Modells (siehe 3.2.3) ergibt eine t-Statistik von -6,196, was das lineare Modell verwerfen würde. Testet man das loglineare Modell, so ergibt sich eine Statistik von -0,569, so dass man dieses nicht verwirft. 3.33 Tab. 3.3 3 KQ-S Schätzerg gebnisse e: Hedon nische Preisfunkttion, aussführliche es Modell mit linea arer abhä ängiger Variable 3.3 34 3.5 Illustration: Die Erklärung individueller Löhne • Löhne von 893 Männern und 579 Frauen für eine Zufallsstichprobe mit 1472 Beobachtungen für das Jahr 1994 aus Belgien, mit den Variablen wage = Bruttostundenlohn in € male = 1 wenn männlich, 0 wenn weiblich educ = Bildungsniveau, 1= Grundschule bis 5 = Universitätsabschluss exper = Berufserfahrung in Jahren. Die Betrachtung der Mittelwerte ergibt Lohnunterschiede für Männer und Frauen, die jedoch nicht unbedingt auf Diskriminierung zurückgehen: 3.35 Tab. 3..4 Beschrreibende Statistiken, 1472 2 Individuen 3.3 36 3.5.1 Lineares Modell • Zunächst kann man mit einer Dummyvariablen den Geschlechterlohnunterschied bei gegebenem Niveau an Erfahrung und Bildung ablesen; er entspricht dem mittleren Lohnunterschied recht genau. 3.37 Tab. 3..5 KQ-Scchätzerge ebnisse: Spezifika S ation 1 Die Erg gebnisse e implizie eren, das ss auch bei b gleich her Erfah hrung un nd Bildun ng ein hoc chsignifikkanter Geschlech hterlohnunterschie ed existie ert. Erfah hrung un nd Ausbild dung wirkken lohns steigernd. Das ein nfache Mo odell erkllärt 36% der Varia ation der Löhne. 3.3 38 • Man könnte k ve ermuten, dass der Effektt zusätzllicher Be erufserfah hrung zu unächst groß ist und dann n abfällt. Um das zu prüfen, wird zu usätzlich ein quad der Effekt der Erfa ahrung im m Modell berücksiichtigt, de er einen negative en ratische Koeffiz zienten ha aben sollte. Tab. 3..6 KQ-Scchätzerge ebnisse: Spezifika S ation 2 3.3 39 Dieser zusätzliche Koeffizient ist hochsignifikant von Null verschieden, R2 und R2 steigen. Nun muss der gesamte Effekt der Erfahrung über beide Koeffizienten gemeinsam bestimmt werden, indem man die Lohngleichung nach „exper“ ableitet (siehe (3.4)): ∂ wagei = 0,358 − 0,0044 ⋅ 2 ⋅ exp eri ∂ exp eri Dies zeigt, dass der Effekt eines Jahres Erfahrung vom erreichten Bestand an Berufserfahrung abhängt. Nach Jahr 1 ergibt sich 0,358 – 0,0088 ⋅1 ≅ 0,35, also 35 Cents pro Stunde höherer Lohn für Personen mit einem statt 0 Jahren Berufserfahrung. Nach 30 Jahren ergeben sich 0,358 – 0,0088 ⋅ 30 = 0,094, also 9 Cents. 3.40 Der Lohnunterschied mit 31 statt 30 Jahren Berufserfahrung beträgt bei Berechnung über die Lohngleichung: 0,358 ( 31 − 30 ) − 0,0044 ( 312 − 302 ) = 0,0896 Euro pro Stunde. 3.41 3.5 5.2 Logliineare M Modelle • Nun errgibt sich für das logarithm mierte Mo odell ein anderes R2 sowie e eine an ndere In nterpretattion der Koeffizien K nten. • Tab. 3..7 KQ-Scchätzerge ebnisse: Spezifika S ation 3 • Der Ko oeffizient des Ges schlechte erdummy yies besc chreibt de en relativven Unterschied in den Löhnen, die d für Mä änner um m ca. 12% % höher sind: s Ergibt sich fü ür 3.4 42 eine Frau ein Lohn von w*, so ist für einen sonst identischen Mann der logarithmierte Lohn um 0,118 höher, was im Lohn selbst einen Unterschied von e0,118 = 1,125, also 12,5% macht. Da exp (a) ≈ 1 + a für kleine a, liest man die Prozentunterschiede oft direkt (und approximativ) am Koeffizienten ab, hier 11,8%. • Die Koeffizienten logarithmierter stetiger Variablen können nun als Elastizitäten interpretiert werden. Hätten wir keinen quadratischen Effekt der Berufserfahrung im Modell, so bedeutete der Koeffizient 0,11 der log(exper), dass der Lohn um 0,11% steigt, wenn die Erfahrung um 1% steigt. Mit dem zusätzlichen quadratischen Effekt beträgt die Elastizität jetzt jedoch 0,11 + 2 × 0,026 ⋅ log ( exper ) , d.h. sie ist nicht über alle Werte von exper konstant. 3.43 • Beide log(exper) Koeffizienten sind signifikant am 5%-, aber nicht am 1%Niveau. Um ihre gemeinsame Signifikanz zu bestimmen, nutzt man einen FTest, z.B. auf Basis der R2-Werte des vorliegenden Modells und des Modells ohne die beiden log(exper) Variablen. f= ( 0,3783 − 0,1798 ) 2 = 234,2 (1 − 0,3783 ) (1472 − 5 ) (3.36) Die Nullhypothese wird deutlich verworfen. • Zusätzlich kann man prüfen, ob das Modell mit nur einem Term für log(exper) eine deutlich schlechtere Güte hat, was nicht der Fall ist, das R2 sinkt nur geringfügig: 3.44 Table 3.8 3 KQ-S Schätzerg gebnisse: Spezifik kation 4 • In dies sem Mod dell ist de er Bildun ngseffekt linear im m logarith hmierten Wert de er Bildung gsvariable. Ceteris paribus s beträgt der Log--Lohnuntterschied zwische en Bildung gsstufe 2 und 1 0,437 (ln(2 2) – ln(1))) = 0,437 7 ⋅ 0,693 31 = 0,30, d.h. Personen auf Bildu ungsstufe e 2 verdie enen um 0,3 höhe ere logaritthmierte Löhne alls nen auf B Bildungss stufe 1. Der D Absta and wäch hst auf 0,48, 0,61 und 0,70 0, Person wenn man m die Loglohnd differenz zwischen n Grunds schulabso olventen und noc ch 3.4 45 höher Gebildete G en betrac chtet. Das s Modell ist restriktiv, dadurch dasss ein line earer Efffekt unte erstellt wu urde. Dies se Annah hmen kön nnen wir lockern, indem wir w ein Modell mit D Dummyva ariablen schätzen s n. Dazu wird w eine Referenzzkategoriie ung ausg genomme en, um Multikolline earität zu u vermeid den: von der Schätzu ebnisse: Spezifika S ation 5 Tab. 3..9 KQ-Scchätzerge 3.4 46 • Im Ergebnis sind alle einzelnen Koeffizienten der Bildungsdummies signifikant und bestätigen den steigenden Verlauf, auch wenn einzelne Bildungseffekte anders ausfallen als auf Basis von Spezifikation 4. • Da das Modell aus Tabelle 3.8 grundsätzlich in der allgemeineren Fassung genestet ist, kann man die Modelle aus 3.8 und 3.9 per R2-F-Test gegeneinander testen. f= ( 0,3976 − 0,3761) 3 = 17,358 (1 − 0,3976 ) (1472 − 7 ) (3.37) Dies übersteigt den kritischen F3,1465-Wert am 1%-Niveau (3,78). Daher werden die Restriktionen der Spezifikation aus Tabelle 3.8 verworfen. 3.47 3.5.3 Effekte des Geschlechts • Bislang haben wir unterstellt, dass sich die Löhne von Männern und Frauen lediglich um einen für alle Personen gleichen, konstanten Betrag unterscheiden. Mithilfe von Interaktionsvariablen kann man prüfen, ob einzelne erklärende Variablen für Männer und Frauen den gleichen Effekt haben. Interaktionsvariablen sind hier das Produkt der erklärenden Variablen mit dem Geschlechtsindikator. • Interagiert man das gesamte Modell, so ergibt sich Tabelle 3.10, die man dann auch für den Chow-Test nutzen kann. 3.48 Tab. 3..10 KQ-S Schätzerg gebnisse:: Spezifik kation 6 Die gle eichen Errgebnisse e hätte man m auch h durch getrennte g ung für diie Schätzu beiden Geschle echter errreichen können. Bei getre ennter Schätzung S g sind un n3.4 49 terschiedliche Fehlertermvarianzen für die Teilstichproben möglich, während die gemeinsame Schätzung eine einheitliche Varianz unterstellt. Wenn sich bei getrennter Schätzung deutlich unterschiedliche Standardfehler ergeben, deutet das auf Heteroskedastie hin. Die Koeffizienten selbst sind in beiden Fällen gleich. • Der Unterschied im Erfahrungseffekt für die Geschlechter ist nicht hochsignifikant. Die Bildungseffekte sind für Männer teilweise signifikant kleiner als für Frauen. Der Koeffizienten von „male“ gibt nun nicht mehr den gesamten Unterschied zwischen den Geschlechtern an. Der Lohnunterschied nach 20 Jahren Erfahrung auf Bildungsstufe 2 beträgt: 0,154 + 0,041 log(20) – 0,097 = 0,180 zugunsten der Männer, also ca. 18% höhere Löhne. 3.50 • Ein Test auf die gemeinsame Signifikanz aller interagierten Variablen entspricht dem Chow-Test und lautet auf Basis der R2-Werte: f= ( 0,4032 − 0,3976 ) 5 = 2,7399 , (1 − 0,4032) (1472 − 12) was die H0 nicht am 1%-, aber am 5%-Niveau verwirft. • Schließlich kann man sich noch vorstellen, dass der Berufserfahrungseffekt vom Bildungsstand abhängt. Auch dies kann durch Interaktionsterme überprüft werden. 3.51 Tab. 3.11 KQ-Schätzergebnisse: Spezifikation 7 Die Koeffizienten der Interaktionsterme geben an, wie stark sich etwa der exper-Effekt bei höherer Bildung wandelt. Die Ergebnisse zeigen keine signi- 3.52 fikanten Unterschiede. Auch ein F-Test auf gemeinsame Signifikanz zeigt keine Signifikanz. • Interessanterweise ist in der letzten Spezifikation fast nichts mehr signifikant, obwohl das R2 recht hoch ausfällt. Dies weist auf Multikollinearität hin. Der Test auf Gesamtsignifikanz des Modells generiert einen hoch-signifikanten Wert. Dennoch würde man angesichts der offensichtlichen Multikollinearität vermutlich das Modell aus Tabelle 3.10 bevorzugen. 3.53 3.5.4 Hinweise • Bei der ökonomischen Interpretation der Ergebnisse ist Vorsicht geboten. Der Bildungseffekt gibt oft wieder, welchen Beruf Individuen mit dieser Bildung gewählt haben; er ist nicht „bedingt auf den Beruf“, da Berufe hier nicht herausgerechnet wurden. Daher beschreibt er nicht den Effekt unterschiedlicher Bildung bei gegebenem Beruf, sondern einen Bildungseffekt, der Berufsunterschiede mit einschließt. • Wichtig: Das Modell wurde nur für Erwerbstätige geschätzt. Für Nichterwerbstätige muss das so nicht gelten, insbesondere wenn sich die beiden Gruppen systematisch unterscheiden. Übersieht man diesen Umstand, so leidet die Interpretation unter Selektionsverzerrung. Das Problem kann ökonometrisch angegangen werden. 3.54 • Vorsicht ist geboten, wenn man die Koeffizienten kausal interpretieren will. Dies wäre z.B. dann ein Problem, wenn sich die Gruppen (z.B. Bildung = 2 vs. Bildung = 3) auch durch andere als die hier beobachteten Merkmale unterscheiden (z.B. in unbeobachteten Größen wie Intelligenz und Fähigkeit). Da auch diese Merkmale nicht herausgerechnet werden, schließt der Bildungseffekt ihre Lohnwirkung mit ein und wir können nicht sicher sein, dass der Bildungseffekt auf Bildung statt z.B. auf Intelligenzunterschiede der Gruppe zurückzuführen ist. 3.55 Literatur: Verbeek, 2008, Kap. 3 Albers, S. und B. Skiera, 2000, in: Herrmann, A. u. C. Homburg (Hrsg.), Marktforschung – Methoden, Anwendungen, Praxisbeispiele, 2. Auflage, GablerVerlag, Wiesbaden, S. 957-978. Heij, C. et al., 2004, Econometric Methods with Applications in Business and Economics, Oxford Univ. Press, S. 286-289. 3.56 Kapitel 4: Heteroskedastie und Autokorrelation 4.1 Konsequenzen für den KQ-Schätzer 4.2 Ableitung eines alternativen Schätzverfahrens 4.3 Heteroskedastie 4.4 Heteroskedastie-Tests 4.5 Beispiel: Arbeitsnachfrage 4.6 Autokorrelation 4.7 Tests für Autokorrelation erster Ordnung 4.8 Beispiel: Nachfrage nach Eiscreme 4.9 Alternative Autokorrelationsmuster 4.10 Vorgehensweise bei Vorliegen von Autokorrelation 4.1 Lernziele Kapitel 4: • Warum und wodurch sollte der KQ-Schätzer bei Vorliegen von Heteroskedastie und Autokorrelation ersetzt werden? • Was versteht man unter einem FGLS-Schätzer? • Wann sind Standardfehler robust? • Wie lässt sich auf Heteroskedastie und Autokorrelation testen? • Wie unterscheiden sich AR(1) und MA(1) Prozesse? • Wie kann das Autokorrelationsproblem gelöst werden? 4.2 4.1 Konsequenzen für den KQ-Schätzer • Unser Modell lautet bzw. yi = x'i β + εi (4.1) y = Xβ + ε (4.2) Wir unterstellen die Gauss-Markov-Annahmen A1 – A4, zusammengefasst: E {ε X} = E {ε} = 0 (4.3) V {ε X} = V {ε} = σ2 I. (4.4) Die Störtermverteilung hat Erwartungswert Null, Varianzen sind konstant und die Kovarianzen Null. • Unter Heteroskedastie haben unterschiedliche Beobachtungen unterschiedliche Varianzen, d.h. die Elemente auf der Hauptdiagonalen der VarianzKovarianz-Matrix sind nicht identisch. Unter Autokorrelation sind die Stör4.3 terme z.B. zeitlich benachbarter Beobachtungen korreliert, d.h. die VarianzKovarianz-Matrix ist keine diagonale Matrix. Beide Phänomene widersprechen der Annahme (4.4). • Als allgemeine Schreibweise führen wir ein V { ε X} = σ2 Ψ , (4.5) wobei Ψ eine positiv definite Matrix darstellt, die von X abhängen kann. • Da die Annahme (4.4) für den Beweis der Unverzerrtheit des KQ-Schätzers nicht genutzt wurde, gilt die Unverzerrtheit unabhängig von Ψ. • Lediglich der Ausdruck für die Varianz-Kovarianz-Matrix von b ändert sich mit (4.5) statt (4.4). Da b = ( X ' X ) X ' y = β + ( X ' X ) X ' ε , hängt die Streuung −1 −1 4.4 von b von der Varianz-Kovarianz-Matrix von ε ab. Für gegebenes X erhalten wir { } V {b X} = V ( X ' X ) X ' ε X = ( X ' X ) X ' V {ε X} X ( X ' X ) −1 −1 −1 = σ ( X ' X ) X ' ΨX ( X ' X ) 2 −1 −1 Dies lässt sich nur dann zu σ2 ( X ' X ) −1 (4.6) vereinfachen, wenn Ψ = I. Gilt das nicht, so sind die Standardfehler des KQ-Schätzers falsch berechnet. Dadurch werden t- und F-Tests ungültig. Das Gauss-Markov-Theorem lässt sich nicht mehr beweisen, KQ ist nicht mehr das beste unter allen linearen und erwartungstreuen Schätzverfahren. • Es gibt drei Möglichkeiten, Heteroskedastie- und Autokorrelationsprobleme zu lösen: (a) Ableitung eines neuen BLUE-Schätzers, (b) Korrektur der KQ4.5 Standardfehler, (c) gelegentlich ergeben sich die Probleme durch Fehlspezifikation des Modells, was behoben werden kann. 4.6 4.2 Ableitung eines alternativen Schätzverfahrens • Wir unterstellen (4.5) und dass wir die positiv definite Matrix Ψ kennen. Wir transformieren das Modell so, dass es die Gauss-Markov-Bedingungen wieder erfüllt. • Wir nehmen an, dass es eine quadratische, nichtsinguläre Matrix P gibt, so dass Ψ−1 = P'P • Nun lässt sich schreiben: (4.7) Ψ = (P 'P ) = P−1 (P ')−1 −1 P Ψ P' = P P−1 (P')−1P' = I • Es folgt für den mit P vormultiplizierten Störterm, dass E {P ε X} = P E {ε X} = 0 4.7 V {P ε X} = P V {ε X} P' = σ2P Ψ P' = σ2 I Also erfüllt P ε die Gauss-Markov-Bedingungen und wir können das ganze Modell transformieren zu Py = P X β + Pε bzw. y* = X * β + ε * , (4.8) wobei ε* nun den Gauss-Markov-Bedingungen genügt. Nutzt man den KQSchätzer für das so transformierte Modell, ergibt sich wiederum ein BLUESchätzer für β. Natürlich sieht P unterschiedlich aus, je nachdem, ob ein Heteroskedastie- oder ein Autokorrelationsproblem gelöst wird. • Der Schätzer für β ist −1 −1 βˆ = ( X * ' X * ) X * ' y* = ( X' Ψ−1 X ) X' Ψ−1y (4.9) 4.8 und wird verallgemeinerter KQ- oder GLS- (generalized least squares) Schätzer genannt. Für Ψ = I ergibt sich der KQ-Schätzer. • Um den GLS-Schätzer zu bestimmen, braucht man Ψ, was wir nicht kennen und schätzen müssen. Verwendet man eine Schätzung für Ψ, so spricht man vom feasible-GLS (FGLS oder EGLS, für estimated-GLS) Schätzer. • Man gewinnt GLS-Schätzer oft durch Umkodieren der Variablen und wendet dann KQ an. Dann werden die Varianz-Kovarianz-Matrix von β und die Fehlertermvarianz direkt in korrigierter Form ausgewiesen. {} −1 −1 V βˆ = σ2 ( X * ' X * ) = σ2 ( X ' Ψ−1 X ) , (4.10) wobei σ2 wie folgt geschätzt wird: σ̂2 = ( )( ) ( ) ( ) 1 1 y * − X * βˆ ' y * − X * βˆ = y − Xβˆ ' Ψ−1 y − Xβˆ . N−K N−K (4.11) 4.9 • Da der GLS-Schätzer β̂ BLUE ist, ist seine Varianz kleiner als die korrigierte Varianz des KQ-Schätzers b (4.6). Es lässt sich nachweisen, dass V {b} − V βˆ positiv semi-definit ist. {} 4.10 4.3 Heteroskedastie 4.3.1 Einführung • Man spricht von Heteroskedastie, wenn V {ε X} diagonal ist, aber nicht σ2 ⋅ I entspricht. Die Störterme sind untereinander unkorreliert, aber die Varianz von ε variiert über die Beobachtungen. • Beispiel: Lebensmittelausgaben (yi) werden auf eine Konstante und das verfügbare Einkommen (DPIi) regressiert. Man erhält eine positive Steigung und erwartet, dass die Streuung der Lebensmittelausgaben bei Hochverdienern größer ist als bei Geringverdienern. Diese Form von Heteroskedastie kann wie folgt modelliert werden: { } V εi DPIi = σi2 = σ2 exp {α2 DPIi } = exp {α1 + α2 DPIi } (4.12) Hier wäre α1 = log σ2 und α2 beliebig. 4.11 • Annahme: Die Heteroskedastie folgt der allgemeinen Form: V {εi X} = V {εi xi } = σ2 hi2 , (4.13) wobei alle hi2 bekannt und positiv sind. Unter der Annahme, dass es keine Autokorrelation gibt, lässt sich schreiben V {ε X} = σ2 Diag{ hi2 } = σ2 Ψ (A9) Diag{ hi2 } ist eine diagonale Matrix mit den Elementen h12 ,h22 ,…,hN2 . Die Annahme A9 ersetzt unsere Annahmen A3 und A4. Sobald die Varianz von ε von den erklärenden Variablen abhängt, gilt auch A2, die Annahme der Unabhängigkeit von ε und X nicht mehr. A1 und A2 werden ersetzt durch E {ε X} = 0 (A10) • Wir suchen den BLUE-Schätzer für β im Modell 4.12 yi = x 'i β + εi , i = 1,2,…,N (4.14) unter den Annahmen A9 und A10. Für P wählen wir P = Diag{ hi−1} , (4.15) eine diagonale Matrix mit den Elementen h1−1,…,hN−1. Elemente des Vektors der transformierten Daten sind dann yi* = yi hi , xi* = xi hi , εi* = εi hi . • Man erhält den GLS-Schätzer für β, indem man den KQ-Schätzer auf das transformierte Modell anwendet: yi* = xi* ' β + εi* ⇔ yi ⎛ xi ⎞ ε = ⎜ ⎟ 'β + i hi ⎝ hi ⎠ hi (4.16, 4.17) • Der resultierende Störterm ist nun homoskedastisch (siehe 4.13): 4.13 ⎧ε ⎫ 1 1 V ⎨ i X ⎬ = 2 V {εi X} = 2 ⋅ σ2 ⋅ hi2 = σ2 hi ⎩ hi ⎭ hi und der KQ-Schätzer lautet (als Spezialfall von (4.9)): −1 N ˆβ = ⎛⎜ ∑ h−2 x x ' ⎞⎟ i i i ⎝ i =1 ⎠ N ∑h i =1 −2 i xi yi (4.18) • Dieser Schätzer wird auch als gewichteter KQ-Schätzer bezeichnet (weighted least squares): Jede Beobachtung ist mit einem Faktor gewichtet, der proportional zum reziproken Wert der Fehlervarianz ist. Unter A9 und A10 ist der GLS-Schätzer BLUE. So erhalten Beobachtungen mit großer Varianz in der Schätzung ein kleineres Gewicht als Beobachtungen mit kleiner Fehlertermvarianz. 4.14 • Die Interpretation der geschätzten Koeffizienten bezieht sich auf das Originalmodell, nicht auf das transformierte Modell. Im transformierten Modell 1 wird auch die Konstante transformiert und hier durch die Variable ersetzt. hi Das transformierte Modell wird daher ohne eigentliche Konstante geschätzt. 4.15 4.3.2 Eigenschaften des Schätzers und Hypothesentests • Da GLS ein KQ-Schätzer auf ein transformiertes Modell ist, der die Gauss- Markov-Eigenschaften erfüllt, lassen sich seine Eigenschaften analog zum KQ-Fall ableiten. • Die Varianz-Kovarianz-Matrix von β̂ ergibt sich aus {} −1 ⎛ N ⎞ V βˆ = σ ⎜ ∑ hi−2 xi x 'i ⎟ ⎝ i =1 ⎠ (4.19) 2 Dabei wird σ2 unverzerrt geschätzt durch σˆ 2 = ( 1 N −2 ∑ hi yi − x 'i βˆ N − K i =1 ) 2 (4.20) • Wenn wir wie in A5 normalverteilte Störterme unterstellen, folgt, dass β̂ nor- malverteilt ist mit Erwartungswert β und einer Varianz wie in (4.19). 4.16 • Damit können wir t-Tests legitimieren, z.B. für H0: β2 = 1 gegen H1: β2 ≠ 1 nutzen wir t= βˆ 2 − 1 se βˆ 2 (4.21) ( ) • Ohne die Annahme normalverteilter Störterme folgt diese Teststatistik unter βˆ − 1 wäre dann asymptotisch standardnorH0 nicht der tN-K-Verteilung. 2 se βˆ 2 ( ) malverteilt, was am 5%-Signifikanzniveau zu einem kritischen Wert von 1,96 führt. • Auch F- und Wald-Tests können wie zuvor verwendet werden. Unter H0: Rβ = q und H1: Rβ ≠ q und R mit der Dimension J × K nutzt man den GLS- 4.17 { } {} Schätzer β̂ und seine geschätzte Varianz V Rβˆ = R V βˆ R' zur Ableitung der Waldstatistik ) ( { } ) (R βˆ − q) ~ χ ˆ {βˆ} eine F-Statistik berechnen, für die gilt Es lässt sich ebenfalls mit σ̂ und V ( ξ = Rβˆ − q ' R Vˆ βˆ R ' −1 2 J 2 f = ξ J ~ FJ,N −K . 4.18 4.3.3 Situation unbekannter Varianzen • In (4.13) haben wir unterstellt, dass wir die Störtermvarianzen kennen: V {εi X} = V {εi xi } = σ2 h2i Das ist selten der Fall. • Solange hi2 unbekannt ist, kann der GLS-Schätzer nicht bestimmt werden. Man müsste die unbekannten hi2 -Werte durch unverzerrte oder konsistente Schätzwerte ersetzen und hoffen, dass dies die Eigenschaften des GLSSchätzers nicht beeinträchtigt. Allerdings kann man mit N Beobachtungen nicht N verschiedene hi-Werte verlässlich schätzen. Das geht nur mit zusätzlichen Annahmen etwa hinsichtlich einer funktionalen Form, mit der hi bestimmt wird. 4.19 • So kann die Varianz von ε auch durch mehr als eine exogene Variable be- stimmt werden, und dies auch in nicht-proportionaler Form. z.B. V {εi } = σ2 xikα V {εi } = σ2 ( xikα1 + xilα2 ) oder (4.25) In diesem Fall müssten die Parameter α oder α1 und α2 zunächst geschätzt werden, um dann den GLS-Schätzer auf die geschätzten Werte von hi2 anzuwenden. Hätten wir Schätzwerte α̂1 und α̂2 , so könnten wir ĥi2 als konsistenten Schätzer für hi2 bestimmen und den Feasible GLS (FGLS)-Schätzer für β berechnen: −1 N ˆβ* = ⎛⎜ ∑ hˆ i−2 xi x 'i ⎞⎟ ⎝ i =1 ⎠ N ∑ hˆ i =1 −2 i xi yi (4.26) • Wenn die Werte für hi2 konsistent geschätzt werden, sind FGLS βˆ * und GLS β̂ asymptotisch äquivalent. Allerdings kann man für den FGLS-Schätzer die 4.20 BLUE-Eigenschaften für kleine Stichproben nicht nachweisen. Zumeist ist FGLS auch kein linearer Schätzer, da ĥi2 in nichtlinearer Form von yi abhängt. • Unter A9, A10 und einer Annahme zur Form der Heteroskedastie ist der FGLS-Schätzer für β konsistent und asymptotisch der Beste (asymptotisch effizient, d.h. mit der kleinstmöglichen Varianz). • Die Varianz-Kovarianz-Matrix wird geschätzt als { } −1 ⎛ N ˆ −2 ⎞ ˆ ˆ V β * = σˆ ⎜ ∑ hi xi x 'i ⎟ , ⎝ i =1 ⎠ (4.27) 2 wobei σ̂2 der Schätzer der Fehlervarianz ist (4.20). Dabei wird jetzt β̂ durch βˆ * ersetzt. 4.21 4.3.4 Heteroskedastie-konsistente Standardfehler für KQ-Schätzer • Für unser Modell yi = x 'i β + εi (4.28) mit heteroskedastischen Fehlern gilt E {εi X} = 0 und V {εi X} = σi2 bzw. y = Xβ + ε mit V {ε X} = σ2 Ψ = Diag{σi2 }. Der KQ-Schätzer für β ist unverzerrt und konsistent mit der Varianz-Kovarianz-Matrix V {b X} = ( X' X ) X'Diag{σi2 } X ( X ' X ) −1 −1 (4.29) • Um diese Matrix zu schätzen, benötigt man Schätzer für die σi2 für alle i, was ohne weitere Annahmen nicht möglich ist. • White (1980) hat gezeigt, dass lediglich ein konsistenter Schätzer der K × K- Matrix 4.22 ∑≡ 1 1 N X 'Diag{σi2 } X = ∑ σi2 xi x 'i N N i =1 (4.30) erforderlich ist. Dabei gilt unter allgemeinen Bedingungen, dass S≡ ein konsistenter Schätzer für 1 N 2 ∑ ei xi x 'i N i =1 (4.31) ∑ ist (ei ist der KQ-Störterm). • Deshalb kann V̂ {b} = ( X' X ) −1 N ∑ e x x ' ( X' X) i =1 −1 ⎛ N ⎞ = ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ 2 i −1 i i −1 ⎛ N ⎞ e x x ' x x 'i ⎟ ∑ i i ⎜∑ i i =1 ⎝ i =1 ⎠ N 2 i (4.32) 4.23 als Schätzer der wahren KQ-Varianz genutzt werden – ohne dass wir die wahre Form der Heteroskedastie kennen. Hier wird lediglich die Formel für die Berechnung der Varianz von b ausgetauscht. • Dies ist in den meisten Softwares als Option eingebaut. Wenn die Standard- fehler von b als Wurzel der wie in (4.32) bestimmten Varianz berechnet werden, spricht man von robusten oder heteroskedastie-konsistenten Standardfehlern oder White-Standardfehlern. • Die t- und F-Teststatistiken sind auch bei White-Standardfehlern asympto- tisch angemessen. • Kennte man die genaue Form der Heteroskedastie, so wäre ein FGLS- Schätzer effizienter als der KQ-Schätzer mit White-Standardfehlern. 4.24 4.3.5 Multiplikative Heteroskedastie • Bei multiplikativer Heteroskedastie wird unterstellt, dass die Fehlertermvarianz mit einem J-dimensionalen Vektor zi der exogenen erklärenden Variablen korreliert ist, der – um Positivität zu garantieren – exponentiell berücksichtigt wird: V {εi xi } = σi2 = σ2 exp {α1zi1 + … + αJ ziJ } = σ2 exp {z'i α} (4.36) Typischerweise enthält z einen Teil der Regressoren aus xi oder ihre Transformation. Im letzten Unterkapitel war J = 1 und zi1 der Geschlechtsdummy. • Um den FGLS zu bestimmen, benötigen wir konsistente Schätzer der unbe- kannten Parameter α in hi2 = exp {z 'i α} . Zunächst stellen wir fest, dass log σi2 = log σ2 + z 'i α . Für ei = yi − x 'i b kann man schreiben: 4.25 logei2 = log σ2 + z 'i α + logei2 − log σi2 = log σ + z 'i α + 2 (4.37) νi Da νi keinen Erwartungswert von Null hat, kann die Konstante, logσ2 , nicht konsistent geschätzt werden. Dennoch können mit (4.37) konsistente Schätzergebnisse für α gewonnen werden. • Nun sind 6 Schritte erforderlich, um konsistente Schätzer für β zu erhalten: 1. Schätze das Modell mit KQ, um die konsistenten b-Schätzer zu erhalten. 2. Berechne logei2 = log ( yi − x 'i b ) auf Basis der Residuen. 2 3. Schätze (4.37), um konsistente Schätzer für α zu erhalten. 4. Berechne hˆ i2 = exp {z'i αˆ } , transformiere alle Beobachtungen, und schätze das Modell 4.26 ⎛ε yi ⎛ xi ⎞ = ⎜ ⎟ 'β + ⎜ i ⎜ hˆ hˆ i ⎜⎝ hˆ i ⎟⎠ ⎝ i ⎞ ⎟⎟ ⎠ per KQ (inklusive transformierter Konstante). Dies ergibt den FGLSSchätzer β̂ * für β . 5. σ2 kann konsistent geschätzt werden durch ( y − x ' βˆ * ) 2 σˆ 2 = 1 ∑ N − K i =1 N i i hˆ 2 i 6. Ein konsistenter Schätzer der Varianz-Kovarianz-Matrix von βˆ * ist ⎛ N x x' Vˆ βˆ * = σˆ 2 ⎜ ∑ i 2 i ⎜ i =1 ĥ i ⎝ { } −1 ⎞ ⎟⎟ ⎠ 4.27 Dieser wird bei KQ-Schätzung des transformierten Modells automatisch berechnet. • Illustration: Heij, C. et al., 2004, Econometric Methods with Applications in Business and Economics, Oxford Univ. Press, S. 322-327 und 333-334. Frage: Was ist der Zusammenhang zwischen Zinsen auf US-Schatzanleihen der US-Regierung und den Zinsen von AAA Schuldtiteln privater Schuldner? (Vermutung: positiver Zusammenhang, schwächer im Bereich höherer Zinsen) 4.28 Daten: Durchschnittszins der Schuldtitel von AAA Unternehmen (Moody's Investor Service); Zins auf Schatzanleihen des Bundes (Federal Reserve) Jan. 1950 – Dez. 1999 xi = monatliche Änderung der Zinsen der Schatzanleihen yi = monatliche Änderung der Zinsen der AAA Schuldtitel Regressionsmodell: yi = α + βxi + εi i = 1,2,… 600 Graphische Analyse ergibt über die Zeit steigende Volatilität des Residuums, möglicherweise, weil Volatilität der Zinsen der Schatzanleihen stieg. Modell der Heteroskedastie: E ( εi2 ) = σ2 xi2 , so dass 4.29 ⎛ x12 ⎜ ⎜0 Ω = σ2 ⎜ ⎜ ⎜0 ⎝ 0⎞ ⎟ x 22 … 0 ⎟ ⎟ ⎟ 2 ⎟ 0 … xn ⎠ 0 … Höchste Varianz in Monaten mit großen Änderungen in x, Beobachtungen mit hoher Varianz sind weniger informativ hinsichtlich α und β. Schätzung: Abh. Variable: Änderung der Zinsen auf AAA Bonds Koeff. KQ- t Std.fehler White t Std.fehler Konstante 0,0063 0,006 0,92 0,0069 0,91 Δ US-Schatzanleihe 0,2745 0,014 18,75 0,0228 12,00 R-squared: 0,37 N = 600 Beobachtungen 4.30 Nur kleine Unterschiede in Standardfehlern. Modell zur Heteroskedastie erlaubt gewichtete Schätzung: Wenn E ( εi2 ) = σ2 xi2 , führt folgende Modelltransformation zum effizienten y ε 1 Schätzer: i = α ⋅ + β + εí∗ wobei εí∗ = i , E ( εi∗2 ) = σ2 xi xi xi Ergebnis der gewichteten Schätzung: Koeff. Std.fehler -0,00238 0,0051 0,462 Δ US-Schatzanleihe 0,26226 0,1443 1,818 R-squared (ungewichtet) 0,37 n = 583 Konstante t 4.31 Zusammenhang ist am 5%-Signifikanzniveau nicht signifikant. 17 Beobachtungen verloren, für die x = 0 war. Diese hätten eine Varianz und ein Gewicht von Null. • Modellalternative A für Heteroskedastie, wenn Varianz z.B. vor und nach 1975 unterschiedlich: σi2 = γ1 + γ2Di , ⎧0 wobei Di = ⎨ ⎩1 für Jan. 1950 − Dez. 1974 für Jan. 1975 − Dez. 1999 Varianz nach 1974 um festen Betrag γ2 größer. • Modellalternative B, wenn Varianz nach großen Schocks steigt: σi2 = γ1 + γ2 εi2−1 = γ1 + γ2 ( yi −1 − α − β xi −1 ) 2 4.32 Vorgehensweise: 1) Schätze KQ und bestimme εi 2) Berechne εi2 und schätze γ1 und γ2 der alternativen Modelle, also εi2 = γ1 + γ2Di + ηi 3) Bestimme für jedes i σ̂i2 , also σˆ i2 = γˆ1 + γˆ2Di 4) Gewichte die Daten mit bzw. εi2 = γ1 + γ2 ei2−1 + ηi bzw. σˆ i2 = γˆ1 + γˆ 2 eˆ i2−1 1 und schätze erneut: σˆ i 4.33 Modell A Koeff. Std.fehler Modell B t Koeff. Std.fehler t Konstante 0.013 0.005 2.61 0.009 0.006 1.37 Δ US-Schatzanleihe 0.215 0.014 15.27 0.285 0.015 18.22 Welches der beiden Modelle ist zu bevorzugen? Testen, z.B. Vergleich der Residuen und ihrer Varianz. 4.34 4.4 Heteroskedastie-Tests • Es gibt eine Reihe von Tests auf Heteroskedastie. Wenn sie die Nullhypothese der Homoskedastie verwerfen, kann man entweder einen FGLSSchätzer nutzen, heteroskedastie-konsistente KQ-Standardfehler berechnen oder die Modellspezifikation ändern. 4.35 4.4.1 Test der Gleichheit zweier unbekannter Varianzen (Goldfeld-Quandt Test) • Wenn die Stichprobe aus zwei Teilen A und B besteht, kann die Nullhypothese lauten: H0 : σ2A = σB2 . Der Test baut auf den Zusammenhang s2j (N − K ) σ j 2 j ~ χN2 j −K , j = A,B auf. Wenn s2A und sB2 unabhängig sind, folgt s2A σ2A ~ FNA −K,NB −K sB2 σB2 Unter H0 folgt also s2A λ = 2 ~ FNA −K,NB −K sB (4.42) 4.36 • Bei einer zweiseitigen Alternativhypothese H1 : σ2A ≠ σB2 wird H0 verworfen, wenn das Verhältnis der geschätzten Varianzen zu stark nach oben oder unten von 1 abweicht. Bei einseitiger Alternativhypothese H1 : σ2A > σB2 wird H0 verworfen, wenn λ zu groß ist. Die Alternativhypothese H1 : σ2A < σB2 würde genauso getestet, nachdem man die Benennung der Gruppen vertauscht hat. 4.37 4.4.2 Der Breusch-Pagan-Test • Zuvor haben wir unterstellt, dass σi2 = σ2 exp {z 'i α} . Dies kann auch allgemeiner gefasst werden: σi2 = σ2 h ( z 'i α ) , (4.44) wobei h eine unbekannte, differenzierbare und von i unabhängige Funktion ist, mit h(.) > 0 und h(0) = 1. Für den Spezialfall h(t) = exp{t} erhalten wir unsere Ausgangshypothese. • Der Test prüft H0: α = 0 gegen H1: α ≠ 0 unabhängig davon, welche konkrete Form h annimmt. • Die Teststatistik multipliziert das R2 der Regression von ei2 auf zi und eine Konstante mit N. ξ = N ⋅ R2 ist asymptotisch χ2-verteilt mit J Freiheitsgraden (J = Anzahl der Elemente von zi, ohne Konstante). 4.38 4.4.3 Der White-Test • Der White-Test verallgemeinert den Breusch-Pagan-Test, indem er für die Form der Heteroskedastie keine konkrete Annahme macht. Geprüft wird, ob ei2 durch die ersten und zweiten Momente und Interaktionsterme der ur- sprünglichen Regressoren erklärt werden kann. Man berechnet wieder N ⋅ R2 einer solchen Regression. • Diese Teststatistik ist χ2-verteilt und hat so viele (P) Freiheitsgrade, wie die Hilfsregression von ei2 Regressoren berücksichtigt. • Da in der Hilfsregression mehr Parameter berücksichtigt werden als im Breusch-Pagan-Test, können mit dem White-Test auch allgemeinere Formen von Heteroskedastie aufgespürt werden. Allerdings kann es sich bei den aufgespürten Problemen auch um Fehlspezifikationen handeln. 4.39 4.4.4 Auswahl eines Tests • Welcher Test angemessen ist, hängt davon ab, welche Form der Heteroskedastie vermutet wird. Ein Test ist umso stärker (d.h. er kann die falsche H0 mit umso höherer Wahrscheinlichkeit verwerfen), je konkreter die Nullhypothese ist. Der Nachteil konkreter Nullhypothesen ist, dass bei Vorliegen einer anderen Form von Heteroskedastie diese nicht entdeckt wird. • Der allgemeinste Test, der White-Test, hat bei vielen Alternativen nur eine geringe Teststärke (der β-Fehler ist potentiell hoch). Tests für konkretere Nullhypothesen sind stärker, aber das wiederum nur gegenüber einer begrenzten Zahl von Alternativen. • Oft ist es hilfreich, die Residuen gegenüber ausgewählten exogenen Variablen grafisch darzustellen. 4.40 4.5 Beispiel: Arbeitsnachfrage • Wir betrachten ein einfaches Modell der Arbeitsnachfrage belgischer Unternehmen. Die Daten beschreiben für 569 Unternehmen folgende Variablen für 1996: labour: Gesamtbeschäftigung, Anzahl der Arbeitnehmer capital: Anlagekapital, in Millionen Euro wage: Lohnkosten pro Arbeitnehmer, in Tausend Euro output: Wertschöpfung; in Millionen Euro • In einer einfachen Produktionsfunktion Q = f(K,L) beschreiben Q den Output, K und L den Faktoreneinsatz an Kapital und Arbeit. Die gesamten Produktionskosten sind rK + wL, wobei r und w die Faktorkosten für Kapital und Arbeit abbilden. Über Kostenminimierung bei gegebenem Output lässt sich die 4.41 Arbeits snachfrag gefunktion n ableiten n: L = g(Q Q,r,w). r wird häu ufig durch h K appro oximiert. • Zunäch hst wird e ein lineare es Modell geschä ätzt. Tab. 4..1: KQ-Errgebnisse e, lineare es Modell Alle Ko oeffiziente en haben n die erw warteten Vorzeiche V en: Bei höheren h L Löhnen is st die Bes schäftigung gering ger, höhe erer Outp put erfordert mehr Arbeitse einsatz. 4.4 42 • Bevor wir w die Sttandardfe ehler und d Teststattistiken in nterpretie eren, prüffen wir, ob o Heteroskedastie e vorlie egt. Im Rahm men eines Bre eusch-Pagan-Testts sieren wiir die qua adrierten Störterm me in einer Hilfsre egression n auf Löh hregress ne, Output und Kapital. Tab. 4..2: Hilfsre egression n Breusch h-Pagan--Test • Bei dem m hohen R2-Wertt und sign nifikanten n Koeffizienten istt es unwa ahrschein nlich, da ass die urrsprünglic che Fehlertermva arianz für alle Beo obachtung gen gleic ch 4.4 43 groß ist. Die Teststatistik ist N ⋅ R2 = 569 ⋅ 0,5818 = 331,0 , der kritische χ2Wert für 3 Freiheitsgrade beträgt am 5%-Niveau 7,81. Damit wird die H0 homoskedastischer Fehlerterme klar verworfen. • In Datensätzen, die aus unterschiedlich dimensionierten Beobachtungen bestehen (z.B. große und kleine Länder oder Unternehmen), ist das Verwerfen von Homoskedastie ein typisches Ergebnis. Eine Möglichkeit, dem Problem zu begegnen ist, ein logarithmisches Modell zu schätzen, das sich etwa bei einer Cobb-Douglas Produktionsfunktion Q = A Kα Lβ ergäbe. 4.44 Tab. 4..3: KQ-Errgebnisse e, loglineares Mod dell • Hier kö önnen a alle Koefffizienten als Elastizitäten n interpre etiert we erden. Diie Lohnelastizität der Arbeitsnachffrage istt mit –0,,93 recht hoch. Auch diie ät beträgtt fast 1, die d Erhöh hung des s Outputs s um 1% % erfordert Outputelastizitä ehr Arbeittseinsatz. 1% me 4.4 45 • Wenn man für dieses Modell die Breusch-Pagan-Hilfsregression von oben durchführt, ergibt sich ein R2 von 0,0136, die Teststatistik des χ2-Tests be2 = 7,81 nicht mehr signifikant ist. trägt 7,74, was am 5%-Niveau mit χ3,95% • Man könnte auch einen White-Test durchführen. Dazu regressiert man ei2 auf alle Regressoren, ihre Quadrate und Interaktionsterme: 4.46 Tab. 4..4: Hilfsre egression n White-T Test Bei ein nem R2 vvon 0,102 29 ist die e χ2-Testtstatistik von 58,5 5 noch ho ochsigniffikant. Der D kritiscche Wert am 5%--Niveau mit m 9 Freiheitsgraden beträ ägt 16,92 2. 4.4 47 Offensichtlich isst die Stö örtermva arianz immer noch h eng ko orreliert m mit Outpu ut apital. Ma an sollte also a im Originalm O odell (mindestens s) heterosskedastie eund Ka konsisttente Standardfeh hler berec chnen: Tab. 4..5: KQ-Errgebnisse e, loglineares Mod dell, Whitte Standa ardfehler 4.4 48 • Nun fa allen die Standard dfehler grrößer aus als in Tabelle T 4 4.3, aberr qualitatiiv haben sich die E Ergebnis sse nicht veränder v rt. • Den efffizienten FGLS-S Schätzer kann ma an bestim mmen, we enn man eine kon nkrete Form F der Heteroskedastie unterste ellt, z.B. dass d die Varianz von ε vo on log(wag ge), log(ccapital) und u log(o output) be estimmt wird. Dazu berecchnet ma an zunäch hst die Hilfsregres ssion in Tabelle T 4.6. Tab. 4..6: Hilfsre egression n Multiplik kative He eterosked dastie 4.4 49 • Zwei der erklärenden Variablen sind statistisch signifikant und auch der FWert ließe uns die Nullhypothese der Homoskedastie verwerfen (kritischer Wert bei J = 3 und N – K = 569 – 4 = 565 bei 5% beträgt 2,60). • Um zu prüfen, ob die Heteroskedastie besser durch ein Modell aufgefangen würde, das zusätzlich drei quadratische Terme der erklärenden Variablen enthält, wird das Modell aus Tabelle 4.6 entsprechend erweitert geschätzt. Die H0, dass die drei zusätzlichen Terme Koeffizienten von Null haben, können bei einer Teststatistik von F = 1,85 allerdings nicht verworfen werden (p = 0,137). • Um nun den FGLS-Schätzer der Arbeitsnachfragegleichung zu erhalten, müssen die Daten transformiert werden. Bis auf die Konstante (vgl. (4.39)) sind die Parameter in Tabelle 4.6 konsistent. Mit Hilfe der auf Basis dieser 4.50 Regression vorhergesagten Werte hˆi = hˆi2 mit hˆ i2 = eˆ i2 werden die Originaldaten transformiert. Da die Inkonsistenz der Konstanten der Hilfsregression über die Transformation alle Daten in der Arbeitsnachfragegleichung proportional betrifft, hat sie keinen Einfluss auf die letztendlichen Schätzergebnisse (siehe Tabelle 4.7). 4.51 Tab. 4..7: FGLS-Ergebnisse, logliineares Modell M • Der Ve ergleich d der Standardfehlerr zwische en Tabelle 4.7 (FG GLS) und d 4.5 (Wh hize te-Stan ndardfehler) eigt den groß ßen Efffizienzge ewinn: Stdfehle er (βFGLS ) < Stdfehller (βWhite ) . Ein Veergleich mit den Standarddfehlern in 4.3 isst nicht nützlich, d da letztere e unkorrig giert und damit fa alsch sind d. Die Koe effiziente en haben sich – biis auf den n des Ka apitals – nicht n wes sentlich geändert. g . Letztere er ist jetztt signifika ant. 4.5 52 • Wir prüfen H0: βlog( wage) = −1 gegen H1: βlog( wage) ≠ −1 mit t = (-0,856 + 1)/0.072 = 2,01, was am 1%-Niveau nicht, aber am 5%-Signifikanzniveau noch verworfen wird. • Das R2 in Tabelle 4.7 (FGLS) ist höher als in Tabelle 4.3 (KQ-Schätzer). Allerdings musste in Tabelle 4.7 das nicht-zentrierte R2 berechnet werden, da das Modell ohne (echte) Konstante geschätzt wurde. Außerdem wurde das R2 in Tabelle 4.7 für eine transformierte abhängige Variable bestimmt, umgerechnet auf die Originalvariable würde das R2 sinken. • Würde man in Tabelle 4.7 die Berechnungsart R2 = corr2{yi , yˆ i} nutzen und ŷi = x 'i βˆ * setzen, ergäbe sich R2 = 0,8403, was nur geringfügig unter dem R2 aus Tabelle 4.3 liegt. Der KQ-Schätzer maximiert per definitionem das R2, 4.53 so dass die Verwendung eines anderen Schätzverfahrens nie zu einem höheren Wert für das R2 führen kann. 4.54 4.6 Autokorrelation • Wenn die Kovarianz von Fehlertermen nicht Null ist und statt dessen zwei oder mehr aufeinander folgende Störterme korreliert sind, sprechen wir von Autokorrelation oder serieller Korrelation. Solange E {ε X} = 0 , sind die Konsequenzen von Autokorrelation und Heteroskedastie ähnlich: Der KQSchätzer ist unverzerrt und ineffizient, die Standardfehler sind falsch. • Autokorrelation gibt es typischerweise bei Zeitreihendaten, wo die Beobachtungen (indexiert nun mit t = 1,2,…,T statt mit i = 1,2,…N) geordnet vorliegen. Der Störterm beschreibt den Einfluss von Größen, die nicht im Modell berücksichtigt wurden. Ausgeschlossene Variablen sind ein häufiger Grund für positive Autokorrelation. Insofern weist Autokorrelation auch oft auf Fehlspezifikation hin. 4.55 • Beispiel: Monatliche Nachfrage nach Eiscreme. Der Fehlerterm ε enthält hier den Einfluss des Wetters. Abbildung 4.1 beschreibt die auf Basis eines geschätzten Modells vorhergesagten Werte (Linie) sowie die tatsächlich beobachteten Werte (Punkte). Es gibt jeweils Gruppen positiver und negativer Residuen. Abb. 4.1: Tatsächliche und vorhergesagte Eisnachfrage (März 1951 – Juli 1953) 4.56 • In makroökonomischen Analysen führen Konjunkturzyklen zu ähnlichen Effekten. Positive Autokorrelation ist die Regel, negative ist eher selten (positive und negative Störterme würden abwechseln). 4.57 4.6.1 Autokorrelation erster Ordnung • Jede Form von Autokorrelation führt zu einer anderen Varianz-KovarianzMatrix der Störterme V{ε}. Am häufigsten betrachtet man autoregressive Prozesse erster Ordnung. Der Störterm von yt = x't β + εt folgt dann auf seinen Vorläufer gemäß: εt = ρεt −1 + νt . (4.47) (4.48) Dabei hat νt den Mittelwert 0 und die konstante Varianz σ2ν ohne serielle Korrelation. νt wird in jeder Periode neu und unabhängig von vorherigen Werten bestimmt. Es wird unterstellt, dass xt und alle Störterme statistisch unabhängig sind. ρ und σ2ν sind unbekannt. Wenn ρ = 0 ist, gelten für εt = νt die Standardannahmen A1 – A4. 4.58 • Wir unterstellen typischerweise, dass ε1 einen Erwartungswert von 0 und die gleiche Varianz wie spätere εt hat, sowie dass |ρ| < 1. Wenn |ρ| < 1, sprechen wir von einem stationären autoregressiven Prozess erster Ordnung. Bei stationären Prozessen sind Mittelwert, Varianz und Kovarianz von εt über die Zeit konstant. Aus E {εt } = ρ E {εt −1} + E {νt } folgt, dass E {εt } = 0 und aus V {εt } = V {ρ εt −1 + νt } = ρ2 V {εt −1} + σ2υ ergibt sich σ2ν σ = V {εt } = 1 − ρ2 (4.49) 2 ε • Für nicht-diagonale Elemente der Varianz-Kovarianz-Matrix von ε folgt aus 4.59 σ2ν cov {εt , εt −1} = E {εt εt −1} = ρ E {ε } + E {εt −1νt } = ρ 1 − ρ2 2 t −1 (4.50) Die Kovarianz für Fehlerterme im Abstand von 2 Perioden ist gegeben durch σ2ν E {εt εt − 2 } = ρ E {εt −1 εt − 2 } + E {εt − 2 νt } = ρ 1 − ρ2 2 (4.51) und allgemein gilt für s ≥ 0 σ2ν . E {εt εt − s } = ρ 1 − ρ2 s (4.52) • Somit sind – solange 0 < ρ < 1 – alle Elemente von ε mit steigendem zeitlichem Abstand immer schwächer korreliert. Dabei enthält die VarianzKovarianz-Matrix von ε keine Nullen. Für einen FGLS-Schätzer kann eine entsprechende Transformationsmatrix abgeleitet werden. 4.60 • Da εt = ρεt −1 + νt , generiert eine Transformation wie εt − ρεt −1 homoskedastische, nicht-autokorrelierte Störterme. Das transformierte Modell ist: yt − ρyt −1 = ( xt − ρxt −1 ) ' β + νt t = 2,3,…,T (4.53) und liefert, sofern ρ bekannt ist, bei KQ-Schätzung approximativ den GLSSchätzer. Allerdings kann die erste Beobachtung (t = 1) nicht genutzt werden, was aber – insbesondere wenn T groß ist – nur einen geringen Einfluss auf die Schätzergebnisse hat. • Für t = 1 nutzt man 1 − ρ2 y1 = 1 − ρ2 x ' 1β + 1 − ρ2 ε1 , wobei Var { (4.54) } 1 − ρ2 ε1 = (1 − ρ2 ) ⋅ Var ( ε1 ) = σ2ν (siehe 4.49). 4.61 • Der KQ-Schätzer für die für t = 1 mit (4.54) und für t = 2,3,…T mit (4.53) transformierten Beobachtungen ergibt den GLS-Schätzer β̂ , der die BLUEEigenschaft hat. Ohne t = 1 spricht man vom Cochrane-Orcutt-Schätzer, mit t = 1 vom Prais-Winsten-Schätzer. 4.62 4.6.2 Unbekanntes ρ • Im Normalfall kennt man ρ nicht. Gegeben εt = ρεt −1 + νt , (4.55) lässt sich ρ durch KQ-Regression von εt auf εt-1 schätzen: −1 ⎛ T 2 ⎞ ⎛ T ⎞ ρˆ = ⎜ ∑ et −1 ⎟ ⎜ ∑ et et −1 ⎟ ⎝ t =2 ⎠ ⎝ t =2 ⎠ (4.56) ist konsistent. Nutzt man ρ̂ statt ρ, um den FGLS-Schätzer βˆ * zu erhalten, gilt die BLUE-Eigenschaft nicht mehr. Asymptotisch sind βˆ * und β̂ allerdings äquivalent und man kann ignorieren, dass ρ geschätzt wurde. • Beim iterativen Cochrane-Orcutt-Schätzer schätzt man zunächst KQ und erhält b und ε. Dann schätzt man ρ̂ und erhält βˆ * . Nun erhält man neue Residuen und bestimmt ein neues ρ̂ . Die Prozedur wird so lange wiederholt, bis 4.63 sich ρ̂ und βˆ * nicht mehr ändern. Dadurch wird ρ zunehmend effizienter geschätzt, aber nicht unbedingt auch βˆ * . Da ρ sowieso konsistent geschätzt wurde, ist der Vorteil des Verfahrens gering. Bei kleinen Stichproben kann es günstig sein. • Illlustration: Quelle: Murray, M.P., 2006, Econometrics. A Modern Introduction, Pearson, S. 453, 471. Fragestellung: Was ist der Zusammenhang zwischen Arbeitslosigkeit und Armut? Daten: US-Armutsrate (Bevölkerungsanteil mit Einkommen unter der Armutsgrenze), US-Arbeitslosenquote, 1980 – 2003 (N = 24) 4.64 KQ-Schätzung: Abh. Variable Armutsrate Koeff. Std.fehler t Konstante 9.790 0.611 16.02 Arbeitslosenquote 0.587 0.095 6.19 R2 0.635 N = 24 Hochsignifikanter Zusammenhang, wie erwartet. Vermutung: Autokorrelierte Störterme erster Ordnung, neue Schätzungen: 4.65 Cochrane-Orcutt Prais Winsten Koeff. Std.fehler t Koeff. Std.fehler t Konstante 9.890 0.713 13.87 9.643 0.763 12.64 Arbeitslosenquote 0.583 0.097 5.98 0.563 0.098 5.74 rho 0.807 0.855 Auch bei korrigierenden Schätzverfahren bleibt signifikanter Zusammenhang erhalten. Anstieg der Arbeitslosenquote um 0,01 (ein Prozentpunkt, z.B. von 5 auf 6 Prozent) erhöht Armutsrate um 0,583 ⋅ 0,01 = 0,0058. Da aber nur die Hälfte der Bevölkerung im Arbeitsmarkt aktiv ist, impliziert jeder weitere Arbeitslose ca. 1,2 weitere Personen in Armut; unterstellt wird, dass die Ar- 4.66 mutsrate = Anzahl Arme/Anzahl Einwohner, Alq = Anzahl Arbeitslose/Anzahl der Erwerbspersonen sowie Einwohner ≅ 2 ⋅ Erwerbspersonen. 4.67 4.7 Tests für Autokorrelation erster Ordnung • Solange ρ = 0, ist KQ BLUE. Wenn ρ ≠ 0, sind die KQ-Standardfehler falsch. Daher sind Autokorrelationstests wichtig. 4.68 4.7.1 Asymptotische Tests • Die KQ-Residuen aus yt = x't β + εt enthalten Informationen über Autokorrelation. Ein erster Ansatz ist, εt mit oder ohne Regressionskonstante auf εt-1 zu regressieren. Solange das ursprüngliche Modell keine verzögerten endogenen Variablen aufweist, ist der t-Test für ρ̂ asymptotisch gültig. • Es lässt sich zeigen, dass t ≈ Tρˆ . (4.57) Wir verwerfen H0: ρ = 0 gegen eine zweiseitige Alternative mit ρ ≠ 0, z.B. wenn t > 1,96 am 5%-Niveau. Unterstellt man positive Autokorrelation, so lautet H1: ρ > 0 und die Teststatistik am 5%-Niveau ist 1,64. • Ein anderer Test (Breusch-Godfrey-Test) stützt sich auf das R2 der Hilfsregression mit Konstante εt = α + ρεt −1 + νt für t = 2,3,…T. 4.69 • Hier folgt unter H0: ρ = 0, (T - 1) ⋅ R2 der χ2 – Verteilung mit einem Freiheitsgrad. Je kleiner R2 ist, umso eher gilt ρ = 0. Der Test kann einfach für den Fall von Autokorrelation höherer Ordnungen erweitert werden, indem der Hilfsregression weitere verzögerte Werte hinzugefügt werden, z.B. für Autokorrelation dritter Ordnung: εt = α + ρ1εt −1 + ρ2 εt − 2 + ρ3 εt −3 + νt t = 4,5,…T • Wenn das Modell verzögerte endogene Variablen enthält, ergibt sich entgegen Annahme A2 eine Korrelation der erklärenden Variablen mit dem Störterm: et yt = x't β + yt-1γ + ρet −1 + νt . 4.70 Das gleiche Problem ergibt sich, wenn einzelne Regressoren mit et-1 korreliert sind. Dennoch sind die oben genannten Tests auch in diesen Situationen angemessen, wenn die entsprechende Regressoren yt-1 bzw. xt in der Hilfsgleichung berücksichtigt werden: et = α + x 't β + ρ1et −1 + ρ2 et − 2 + … + ρMet −M + νt . • Vermutet man im Hauptmodell Heteroskedastie, bei der die Varianz der Störterme durch die erklärenden Variablen beeinflusst wird, dann gelten die tTest Formen der Autokorrelationstests nach wie vor, solange heteroskedastie-konsistente White-Standardfehler berechnet werden. 4.71 4.7.2 Der Durbin-Watson-Test • Der Durbin-Watson-Test ist sowohl asymptotisch als auch bei kleinen Stichproben gültig, wenn 2 Annahmen zutreffen: (a) Die Regressoren sind nichtstochastisch, d.h. A2 gilt und es sind keine verzögerten endogenen Variablen im Modell. (b) x enthält die Regressionskonstante. • Die Durbin-Watson-Teststatistik nutzt den KQ-Störterm et: T dw = ∑ (e t =2 t − et −1 ) 2 T ∑e t =1 T da dw = ∑ ( e2t − 2et et −1 + e2t −1 ) t =2 T ∑e t =1 2 t , T ≈ (4.58) 2 t 2 ⋅ ∑ e2t t =2 T ∑e t =2 2 t T − 2∑ et et −1 t =2 T ∑e t =2 ≈ 2 − 2 ⋅ ρˆ (4.59) 2 t −1 4.72 • Ein dw-Wert von ungefähr 2 impliziert, dass ρ ≈ 0. Wenn dw < 2, so ist dies ein Indiz für positive Autokorrelation mit ρ > 0, ist dw > 2, dann ist ρ < 0. • Unter H0: ρ = 0 hängt die Verteilung von dw nicht nur von T und der Anzahl K der Koeffizienten ab, sondern auch von den Werten der xt Variablen. Daher gibt es keine allgemeingültigen kritischen Werte, sondern obere und untere Grenzen für dw, die von T und K abhängen (siehe Tabelle 4.8). 4.73 Tab. 4..8: Obere e und untere Gren nzwerte der d DW-T Teststatisttik für α = 5% Dabei liegt l der wahre krritische Wert W dcrit zwischen z n oberem m (upper) und unte erem Grrenzwert (lower): dL < dcrit < dU und unter H0 gilt am 5%-Nivea 5 au P {dw < dL } ≤ P {dw < dcrit } = 0,05 0 ≤ P {dw < dU } . 4.7 74 α=5% dL dcrit dU dw 2 (ρ=0) ρ<0 ρ>0 • Bei einem einseitigen Test H0: ρ = 0 gegen H1: ρ > 0 ergeben sich drei Möglichkeiten: (a) dw < dL : Ho wird verworfen (b) dw > dU : Ho wird nicht verworfen (c) dL < dw < dU : Keine Aussage möglich, der Test hat kein Ergebnis. • Je größer T, umso kleiner die Region, in der keine Aussage möglich ist. 4.75 Bei K = 5, T = 25 : dL,5% = 1,038 dU,5%= 1,767 Bei K = 5, T = 100 : dL,5% = 1,592 dU,5%= 1,758 • Der Durbin-Watson-Test ist nur anwendbar, wenn die Annahmen A1 – A4 sowie ε ∼ N gelten. Dennoch wird er häufig verwendet. Die asymptotischen Tests jedoch gelten auch bei nicht normal verteilten Störtermen und können bei verzögerten endogenen Regressoren im Modell angewendet werden. • Bei Test auf negative Autokorrelation mit H1: ρ < 0 liegt der kritische Wert zwischen 4 − dU und 4 − dL , so dass die gleichen Tabellen genutzt werden können. 4.76 4.8 Beispiel: Nachfrage nach Eiscreme • Genutzt wird ein klassischer Datensatz mit 30 monatlichen Beobachtungen von 18.3.1951 bis 11.7.1953 für folgende Variablen cons: Pro-Kopf Konsum (Einkauf in pints) income: mittleres Haushaltseinkommen pro Woche (in US $) price: Preis für Eiscreme (pro pint) temp: Durchschnittstemperatur (in Fahrenheit) • Abbildung 4.2 beschreibt die Daten über die Zeit und stützt die Vermutung, dass die Temperatur eine Rolle für die Nachfrage nach Eis spielt. 4.77 Abb. 4..2: Eiskon nsum, Prreis und Tempera T tur (in Fa ahrenheitt/100) • Um die e Determinanten des d Eisko onsums zu z bestim mmen, wirrd ein line eares Mo odell ges schätzt: 4.7 78 Tab. 4.9: KQ-Ergebnisse • Die Koeffizienten haben das erwartete Vorzeichen, das R2 ist hoch und die Durbin-Watson-Statistik beträgt 1,0212. Die Grenzwerte für einen einseitigen Test von H0: ρ ≤ 0 gegen H1: ρ > 0 am 5%-Niveau mit T = 30 und K = 4 sind dL = 1,21 und dU = 1,65. Da 1,0212 < dL, kann H0 verworfen werden. 4.79 • Abb. 4..3: Beoba achteter (Punkte) ( und vorh hergesagter (Linie e) Konsum m • Die Da arstellung g (Abb. 4.3) 4 zeig gt, dass positive und neg gative Re esiduen in i Gruppe en auftretten. Die saisonale s e Schwan nkung de er Nachfrage wird durch diie Variablle temp n noch nich ht vollstän ndig aufgefangen.. 4.8 80 • Der Autokorrelationskoeffizient ρ, in εt = ρεt −1 + νt kann geschätzt werden, wenn man εt ohne Konstante auf εt −1 regressiert. Da E{ε} = 0, sollte eine Konstante in diesem Modell nicht signifikant von Null verschieden sein. • Man erhält ρ̂ = 0,401 und R2 = 0,149. Ein asymptotischer Test von H0: ρ = 0 gegen Autokorrelation erster Ordnung benutzt T ⋅ ρˆ = 2,19 , was größer ist als tkrit, 5% = 1,96, so dass H0 auch mit diesem Test verworfen wird. • Der Breusch-Godfrey-Test auf Basis von R2 führt zu ( T − 1) ⋅ R2 = 4,32 , H0 wird verworfen. • Daher ist KQ nicht BLUE, die Standardfehler in Tabelle 4.9 sind falsch. Ein iteratives Cochrane-Orcutt-Verfahren ergibt die Schätzergebnisse in Tabelle 4.10. 4.81 Tab. 4..10: FGLS S (iterativ ve Cochrrane-Orcu utt) Ergeb bnisse • Die Ric chtung und Größe e der geschätzten n Koeffiz zienten wird w tende enziell be estätigt. Die mit e einem Stern verse ehenen Größen G b beziehen sich auf das trans sformierrte Mode ell und kö önnen nic cht mit den d KQ-E Ergebniss sen in Ta abelle 4..9 4.8 82 verglichen werden. Auch die Durbin-Watson-Statistik des transformierten Modells ist nicht mehr verlässlich. • Autokorrelation kann ein Indikator dafür sein, dass das Modell fehlspezifiziert ist. Daher kann man auch versuchen, das Problem durch Änderung der Spezifikation zu lösen. Man könnte z.B. noch einen verzögerten Wert der Temperatur (tempt-1) ins Modell aufnehmen (siehe Tabelle 4.11). 4.83 Tab. 4..11: KQ-S Schätzun ng, erweitterte Spe ezifikation n • Im Verrgleich zu u Tabelle 4.9 ist die d Durbin n-Watson n-Statistik k mit 1,58 jetzt am m 5%-Niv veau in d der Regio on, in derr keine Aussage A möglich ist (1,14 bis 1,74). Allerdin ngs liegt der Wertt in der Nähe der oberen o G Grenze, so dass die H0 ehe er nicht ve erworfen wird (bspw. am 1%-Nivea 1 au). 4.8 84 • Der verzögerte Wert der Temperatur hat einen signifikant negativen Koeffizienten, während die kontemporäre Temperatur positiv mit der Eiscremenachfrage korreliert. Das kann man so interpretieren, dass bei hohen Temperaturen die Nachfrage steigt. Hält die hohe Temperatur jedoch für mehr als einen Monat an, geht die Nachfrage wieder zurück, vielleicht weil die Vorräte noch nicht aufgebraucht sind. 4.85 4.9 Alternative Autokorrelationsmuster 4.9.1 Autokorrelation höherer Ordnung • Autokorrelation erster Ordnung kommt häufig vor, jedoch ist bei Quartalsoder Monatsdaten auch denkbar, dass es quartals- oder monatsbezogene Störtermkorrelationsmuster gibt, z.B. oder εt = γεt − 4 + νt (4.60) εt = γ1εt −1 + γ2 εt − 2 + γ3 εt −3 + γ4 εt − 4 + νt (4.61) (4.61) nennt man Autokorrelation vierter Ordnung. Die FGLS-Schätzer können – solange kein xt mit dem Störterm korreliert ist – geschätzt werden, indem man mit den KQ-Residuen die Modelle (4.60) bzw. (4.61) schätzt. Anschließend müssen wieder die Daten transformiert werden, wodurch beim Cochrane-Orcutt-Verfahren die ersten vier Beobachtungen verloren gehen. 4.86 4.9.2 Moving-Average-Residuen • Bislang haben wir unterstellt, dass alle Störterme untereinander korreliert sind, wobei der Grad der Korrelation abnimmt, wenn der zeitliche Abstand wächst. Alternativ könnte die Theorie vorgeben, dass nur ausgewählte Störterme korreliert sind; dies kann durch einen moving average Störtermprozess modelliert werden und kann dann auftreten, wenn der Messabstand der Datenpunkte kleiner ist als das Intervall, für das sie definiert sind. • Beispiel 1: Monatliche Daten zum Wert von 3-Monatsfestgeldverträgen. In diesem Fall beeinflusst ein Ereignis im Monat t den Wert der Verträge, die in den Monaten t, t+1 und t+2 fällig werden. Später fällige Verträge sind zum Zeitpunkt t noch nicht ausgegeben, daher wird ihre Wertentwicklung vom Er4.87 eignis zum Zeitpunkt t nicht beeinflusst. Entsprechend erwarten wir eine Korrelation in den Werten von Verträgen, die im Ein- oder Zweimonatsabstand fällig werden, aber nicht darüber hinaus. • Beispiel 2: Halbjährliche Beobachtungen der jährlichen Preissteigerung. Unsere abhängige Variable beschreibt die Preissteigerung der letzten 6 Monate zum Termin 1.1 oder 1.7. und auch die erklärende Variable (z.B. das Geldangebot) sei halbjährlich gemessen. Das wahre Modell ist yt = x't β + νt , t = 1,2,…T (halbjährlich) (4.62) wobei νt den Gauss-Markov-Bedingungen genügt. Für den jährlichen Preisanstieg gilt y*t = yt + yt-1 und y*t = ( xt + xt-1 ) ' β + ν t +νt −1 , t = 1,2,…T (4.63) 4.88 bzw. y*t = x*t ' β + εt , t = 1,2,…T (4.64) mit εt = νt + νt-1 und x*t = xt + xt-1 . Wenn V {νt } = σ2ν , dann folgt für die Eigenschaften des Störterms in (4.64): E {εt } = E {νt } + E {νt −1} = 0 V {εt } = V {νt + νt −1} = 2σν2 cov {εt , εt −1} = cov {νt + νt −1, νt −1 + νt − 2 } = E {νt νt −1} + E {νt νt − 2 } + E {νt −1νt −1} + E {νt −1νt − 2 } = σν2 cov {εt , εt − s } = cov {νt + νt −1, νt − s + νt −1− s } = 0 s = 2,3,… 4.89 • In diesem Fall enthält die Varianz-Kovarianz-Matrix des Störterms zahlreiche Nullen: ⎡2σ ν2 ⎢ 2 ⎢ σν ⎢ 0 E{ε t ε' t } = ⎢ ⎢ ⎢ ⎢0 ⎢ ⎣0 σ ν2 0 0 2σ ν2 σ ν2 0 σ ν2 2σ ν2 0 0 0 2σ ν2 0 0 σ ν2 0 ⎤ ⎥ 0 ⎥ ⎥ 0 ⎥ ⎥ ⎥ σ ν2 ⎥ ⎥ 2σ ν2 ⎦ Dieser Fall wird als moving average Störtermprozess erster Ordnung bezeichnet, wobei in diesem Fall der Korrelationskoeffizient zwischen εt und εt-1 cov ( εt , εt −1 ) σν2 = 2 = 0,5 a priori auf 0,5 festgesetzt ist: corr ( εt , εt −1 ) = Var ( εt ) ⋅ Var ( εt −1 ) 2σν • Der allgemeine Fall eines moving average Prozesses erster Ordnung lautet 4.90 εt = νt + ανt −1 , mit |α| < 1 • Es ist komplizierter, Modelle unter moving average als unter Autokorrelation zu schätzen, da die Transformation, um „Gauss-Markov-Fehler“ zu erhalten, aufwändiger ist. Falls die verwendete Software dazu keine Routine anbietet, ist es einfacher, KQ zu schätzen und anschließend eine Korrektur für Autokorrelation undefinierter Natur durchzuführen. 4.91 4.10 Vorgehensweise bei Vorliegen von Autokorrelation • In vielen Fällen weist Autokorrelation auf die Fehlspezifikation des Modells hin. In solchen Fällen sollte nicht der Schätzer, sondern das Modell geändert werden. Beispielsweise könnte es sich um Fehlspezifikation der Dynamik, ausgelassene Variablen oder Fehlspezifikation der funktionalen Form handeln. 4.92 4.1 10.1 Fehlspezifik kation • Angeno ommen, das wah hre Mode ell lautett yt = β1 + β2 logxt + εt und der Wert von xt steigt über die Ze eit. Würden wir im m Rahme en eines linearen l Modells yt egressierren, ergä äbe sich ein e Bild wie w in Abb bildung 4.4: auf xt re Abb. 4.4 4 Tatsä ächliche (Punkte) ( und line ear vorhe ergesagte e Werte (Linie) fü ür das wa ahre Modell yt = 0,,5 log t + εt 4.9 93 • Die Residuen in dieser Abbildung sind stark korreliert, dw = 0,193. Die Lösung des Problems besteht jedoch nicht darin, den Schätzer zu ändern, sondern die Modellspezifikation, und statt auf xt auf log xt zu regressieren. • Autokorrelation kann sich auch bei Auslassen relevanter erklärender Variablen ergeben, wie wir am Eiscremebeispiel gesehen haben. • Auch eine Fehlspezifikation der Dynamik kann zu Problemen führen. • Beispiel: Wir haben im linearen statischen Modell yt = x't β + εt Autokorrelation erster Ordnung (4.65) εt = ρεt −1 + νt . Das Modell beschreibt E {yt xt } = x 't β . Man könnte aber auch am Erwartungswert von yt vor dem Hintergrund der Werte xt, xt −1 und yt–1 interessiert sein, wobei gilt: 4.94 E {yt xt ,xt −1,yt −1} = x 't β + ρ ( yt −1 − x 't −1 β ) (4.66) Dann lässt sich ein dynamisches Modell wie folgt formulieren: yt = x't β + ρyt −1 - ρx't-1β + νt (4.67) Nun enthält der Störterm keine Autokorrelation. Durch die Erweiterung des Modells um verzögerte exogene und endogene Variablen verschwindet die Autokorrelation. Es gibt auch Fälle, in denen es ausreicht, nur yt-1 oder nur xt-1 ins Modell aufzunehmen. • Es ist eine inhaltliche Frage, ob man sich für das Modell E {yt xt } oder für das Modell E {yt xt ,xt −1,yt −1} interessiert. Letzteres generiert sicher eine bes- sere Anpassung an die Daten. Allerdings ist der Durbin-Watson-Test bei Modellen mit verzögerten endogenen Variablen nicht anwendbar. 4.95 4.10.2 Heteroskedastie- und Autokorrelation – konsistente Standardfehler • Um ein lineares Modell yt = x't β + εt mit autokorreliertem Störterm zu schätzen, kann man entweder GLS verwenden oder beim KQ-Schätzer die Standardfehler korrigieren. • Insbesondere, wenn nach einer gewissen Lag-Länge H die Korrelation zwischen εt und εt-s gegen Null geht oder wenn die Konsistenzbedingungen für den GLS-Schätzer nicht gelten, werden Heteroskedastie- und Autokorrelation-konsistente (HAC) oder Newey-West-Standardfehler bestimmt. • Dabei werden die White-Standardfehler auf den Fall der Autokorrelation erweitert. Die HAC Standardfehler werden auch verwendet, wenn das Autokorrelationsmuster über einen vorbestimmten Lag-Abstand von H hinausgeht. Das Verfahren wurde für große Stichproben entwickelt. 4.96 Literatur: Verbeek, 2004, Kapitel 4. Heij, C. et al., 2004, Econometric Methods with Applications in Business and Economics, Oxford Univ. Press, S. 322-327 und 333-334. Murray, M.P., 2006, Econometrics. A Modern Introduction, Pearson, S. 453, 471. 4.97 Kapitel 5: Maximum Likelihood und 0/1 abhängige Variablen 5.1 Das Maximum Likelihood Verfahren (6.1) 5.2 Inferenz im ML-Rahmen (6.2) 5.3 Binäre abhängige Variablen (7.1) 5–1 Lernziele Kapitel 5: • Was ist die Intuition des Maximum Likelihood Schätzers? • Welche Eigenschaften haben Maximum Likelihood Schätzer? • Welche Testverfahren gibt es im ML-Rahmen? • Wie wird die Schätzgüte von ML-Schätzern gemessen? • Wie gehen Probit- und Logit-Schätzer vor? 5–2 5.1 Das Maximum Likelihood Verfahren 5.1.1 Einführung • Grundlage des Verfahrens ist eine Annahme bezüglich der Verteilung der abhängigen Variable. Bedingt auf Kovariate ist lediglich ein Vektor von Parametern unbekannt, der die Verteilung charakterisiert. Dieser wird so bestimmt, dass die Wahrscheinlichkeit, dass genau die vorliegenden Daten generiert wurden, maximiert wird. • Beispiel: Eine normalverteilte Variable yi könnte durch den Mittelwert β1+β2 xi und die Varianz σ2 charakterisiert werden. 5–3 • Illustration 1: Die Wahrscheinlichkeit aus einer Urne mit Kugeln von denen der Anteil p rot ist (der Rest ist weiß), N1 rote und N-N1 weiße zu ziehen, lautet: P {N1 rote, N − N1 weiße} = pN1 (1 − p ) N − N1 . (6.1) Dieser Ausdruck stellt eine Likelihoodfunktion dar. Die Schätzung bestimmt den Wert für p, der (6.1) maximiert, p̂ . Rechnerisch ist es oft einfacher, den logarithmierten Wert zu maximieren: log L ( p ) = N1 log ( p ) + (N − N1 ) log (1 − p ) d logL ( p ) dp = p̂ = (6.2) N1 N − N1 − =0 p 1− p (6.3) N1 N (6.4) 5–4 p̂ ist der Maximum Likelihood Schätzer und entspricht dem Anteil der roten an allen Bällen. Eine Überprüfung der Bedingungen zweiter Ordnung ergibt, dass ein Maximum vorliegt. • Intuition: Die Wahrscheinlichkeit, die vorliegenden Daten zu beobachten, wird als Funktion der unbekannten Parameter beschrieben, die die Verteilung charakterisieren. Die Likelihoodfunktion wird dann über diese Parameter maximiert. • Illustration 2: Wir unterstellen A.1 – A.4 für yi = β1 + β2 xi + εi, (6.6) d.h. E(εi | x) = 0, V(εi | x) = σ2. Das ML-Verfahren erfordert zusätzlich eine Verteilungsannahme, die wir als εi ∼ NID (0, σ2ε ) treffen. 5–5 Der Beitrag jedes yi zur Likelihoodfunktion wird über die Dichtefunktion der Normalverteilung beschrieben: ⎧⎪ 1 ( yi − β1 − β2 xi )2 ⎫⎪ exp ⎨ − ⎬. 2 2 2 σ 2π σ ⎩⎪ ⎭⎪ 1 f ( yi | xi ; β, σ2 ) = (6.7) Wenn β = (β1, β2)' und alle i = 1, 2, ..., N Beobachtungen unabhängig sind, lautet die auf x bedingte gemeinsame Dichte von y1, ..., yN: f ( y1,...,yN |xi ; β, σ 2 N ) = ∏ f ( y |x ;β, σ ) 2 i i i =1 ⎛ 1 =⎜ ⎜ 2π σ2 ⎝ N ⎞ ⎟ ⎟ ⎠ N ∏ i =1 ⎧⎪ 1 ( yi − β1 − β2 xi )2 ⎫⎪ exp ⎨− ⎬ σ2 ⎪⎩ 2 ⎪⎭ (6.8) Dies ist die Likelihoodfunktion, so dass die Log-Likelihoodfunktion lautet: 5–6 N 1 N 2 log L ( β, σ ) = − log ( 2π σ ) − ∑ 2 2 i =1 2 (y i − β1 − β2 xi ) 2 (6.9) σ2 Nur der letzte Term variiert mit β und er entspricht der Summe der quadrierten Residuen (2.12). Daher sind die ML-Schätzer des linearen Modells identisch mit den KQ-Schätzern. Der ML-Schätzer für σ2 lautet nach erster Ableitung und bei ei = yi − βˆ1 − βˆ 2 xi : σˆ 2 = 1 N 2 ∑ ei N i =1 (6.11) Dies ist konsistent, aber nicht unverzerrt. Der unverzerrte (KQ-) Schätzer lautet: s2 = 1 N 2 ∑ ei , N − K i =1 5–7 wobei K die Anzahl der Steigungsparameter + 1 (für die Konstante) ist. β̂ hat die gleichen Eigenschaften (unverzerrt, konsistent) wie beim KQ-Schätzer. • Allgemein kann für den ML-Schätzer nur Konsistenz und somit asymptotische Effizienz nachgewiesen werden. In den meisten Fällen existiert keine analytische Lösung für die unbekannten Parameter. • Wenn ε nicht-normal verteilt oder heteroskedastisch ist, ist die angegebene Likelihoodfunktion falsch, da sie nicht die wirkliche Verteilung beschreibt. 5–8 5.1.2 Allgemeine Eigenschaften des ML-Verfahrens • Im allgemeinen Fall sei f(yi | xi; θ) die Dichtefunktion für die endogene Größe yi, die durch den K-dimensionalen Parametervektor θ charakterisiert wird. Unter der Annahme unabhängig verteilter y und wenn X = (x1, ..., xN)' lautet die gemeinsame Dichtefunktion: N f ( y1,...,yN | X; θ ) = ∏ f ( yi |xi ; θ ) i =1 • Dies entspricht der Likelihoodfunktion: N N i =1 i =1 L ( θ |y, X ) = ∏ Li ( θ |yi ,xi ) = ∏ f ( yi |xi ; θ ) • Der Beitrag von Individuum i zur Likelihoodfunktion lautet: Li ( θ | yi ,xi ) . • Der ML-Schätzer θ̂ löst: 5–9 N max logL ( θ ) = max ∑ logLi ( θ ) θ θ (6.12) i =1 • Die Bedingungen erster Ordnung werden durch θ = θˆ erfüllt: ∂ logL ( θ ) ∂θ N =∑ θ=θˆ ∂ logLi ( θ ) ∂θ i =1 =0 (6.13) θ=θˆ • Wenn die Log-Likelihoodfunktion global konkav ist, existiert ein eindeutiges globales Maximum. In der Regel lässt sich die Lösung nur numerisch und nicht analytisch bestimmen. • Den Vektor der ersten Ableitungen der Log-Likelihoodfunktion bezeichnet man als score Vektor: s ( θ) ≡ ∂ logL ( θ ) ∂θ N =∑ i =1 ∂ logLi ( θ ) ∂θ N ≡ ∑ si ( θ ) (6.14) i =1 5–10 und für die ersten Ableitungen ergibt sich: () N () s θˆ = ∑ si θˆ = 0 . i =1 • Wenn die Likelihoodfunktion korrekt spezifiziert ist, lassen sich folgende Eigenschaften des ML-Schätzers zeigen: (1) Konsistenz, plimθˆ = θ (2) Asymptotische Effizienz (3) Asymptotische Normalverteilung: ( ) a N θˆ − θ ∼ N ( 0,V ) , wobei V die asymptotische Varianz-Kovarianz-Matrix des Schätzers ist. • V hängt von der Form der Likelihoodfunktion ab. Die Information in Beobachtung i hinsichtlich θ ist definiert als (K x K) Matrix: 5–11 ⎧ ∂2 logLi ( θ ) ⎫ Ii ( θ ) ≡ −E ⎨ ⎬. ∂ θ ∂ θ ' ⎩ ⎭ (6.16) Als Mittelwert über die Stichprobe ergibt sich ⎧ 1 ∂2 logL ( θ ) ⎫ 1 N IN ( θ ) ≡ ∑ Ii ( θ ) = −E ⎨ ⎬. ∂ θ ∂ θ N i =1 N ' ⎩ ⎭ (6.17) Für N → ∞ wird dies als Informationsmatrix bezeichnet: I ( θ ) ≡ Nlim I (θ) →∞ N Wenn alle Beobachtungen iid sind, gilt I i ( θ ) ≡ IN ( θ ) = I ( θ ) . Die asymptotische Varianz-Kovarianz-Matrix des ML-Schätzers ist: V = I( θ) . −1 (6.18) 5–12 Intuitiv gilt, dass die ML-Schätzer umso präziser, d.h. mit kleinerer Varianz bestimmt werden können, je stärker die Krümmung der Log- Likelihoodfunktion an der Stelle θ̂ ist. • Da das ML-Verfahren asymptotisch effizient ist, sagt man, dass die Varianz eine untere Schranke der asymptotischen Kovarianzfunktion erreicht, das sogenannte Cramer-Rao-lower bound. • V kann geschätzt werden: ⎛ 1 N ∂ 2logLi ( θ ) V̂H = ⎜ − ∑ ⎜ N i =1 ∂ θ ∂ θ' ⎝ −1 ⎞ ⎟ ⎟ θ=θˆ ⎠ (6.19) • Alternativ kann genutzt werden, dass das Produkt der Score-Vektoren die Informations-Matrix approximiert: 5–13 J i ( θ ) ≡ E {si ( θ ) si ( θ ) '} = I i ( θ ) (6.20) Die auf Basis des Gradientenvektors geschätzte Varianz-Kovarianzmatrix nutzt diese Approximation: −1 ⎛1 N ⎞ Vˆ G = ⎜ ∑ si θˆ si θˆ ' ⎟ . ⎝ N i =1 ⎠ () () (6.21) 5–14 5.2 Inferenz im ML-Rahmen • Im Rahmen des ML-Verfahrens finden 3 verschiedene Testprinzipien Anwendung. Der Wald-Test ist für alle konsistenten, asymptotisch normalverteilten Schätzer anwendbar. Mit dem Likelihood Ratio-Test lassen sich genestete Modelle vergleichen. Der Lagrange Multiplier (LM) Test wird nach restringierter Schätzung eingesetzt. • Wenn der k-dimensionale Parametervektor θ = (θ1, θ2, ..., θk)' durch eine Log-Likelihoodfunktion geschätzt wird: N max log L ( θ ) = max ∑ log Li ( θ ) , θ θ i =1 lassen sich Restriktionen unter der Nullhypothese wie folgt darstellen: 5–15 H0: Rθ = q, wobei q ein J-dimensionaler Vektor und R eine J x K Matrix ist. Die Tests gehen wie folgt vor: • Wald-Test: Schätze θ ohne Restriktionen und prüfe, ob H0 erfüllt und Rθˆ − q = 0 ist. () () • Likelihood Ratio Test: Schätze θ ohne Restriktion θ̂ , sowie unter H0 θ und prüfe, ob sich die Log-Likelihood-Werte signifikant voneinander unterscheiden: L θˆ − L θ = 0 . () () • Lagrange Multiplier Test: Schätze θ unter H0 und prüfe, ob die Bedingungen erster Ordnung der ∂ logL ( θ ) / ∂ θ |θ=θ = 0 . unregistrierten Likelihoodfunktion erfüllt sind: 5–16 ln L c (θ ) LM lnLU lnL LR c(θ) lnLR W θ̂R θ̂ML θ 5–17 • Da die drei Teststatistiken die gleiche asymptotische Verteilung haben, sagt man, sie sind asymptotisch äquivalent. Man wählt den Test, der am einfachsten durchzuführen ist. • Der Wald Test kann von der asymptotischen Normalverteilung der Parameter abgeleitet werden: ( ) a N θˆ − θ ∼ N ( 0, V ) (6.23) Es folgt, dass auch Rθˆ asymptotisch normalverteilt ist: ( ) a N Rθˆ − Rθ ∼ N ( 0, R V R ' ) (6.24) Die Teststatistik nutzt einen konsistenten Schätzer V̂ von V und ist unter H0 Chi-quadrat verteilt mit J Freiheitsgraden. 5–18 ( ) ξw = N Rθˆ − q ' ⎡⎣R Vˆ R ⎤⎦ −1 (Rθˆ − q) ∼ χ 2 J ( ( )) • Der Likelihood-Ratio-Test nutzt die Log-Likelihoodwerte, die mit logL θ ( ( ) ) Restriktion erzeugt werden. Unter H und ohne logL θˆ 0 sollte die Differenz nicht signifikant von Null verschieden sein: () () ξLR = −2 ⎡log L θ − log L θˆ ⎤ ∼ χJ2 ⎣ ⎦ Der Test ist nur bei genesteten Modellen und dann sehr einfach anwendbar. • Der Lagrange Multiplier Test leitet sich aus der Maximierung unter linearen Nebenbedingungen (Lagrange-Ansatz) ab: log L(θ)* = log L(θ) + λ (Rθ - q) Als Parameterschätzer ergeben sich unter der Restriktion θ, λ : 5–19 ∂ logL ( θ ) * ∂θ ∂ logL ( θ ) * ∂λ = ∂ logL ( θ ) ∂θ ⎛ ∂ (R θ − q ) ⎞ + λ⎜ ⎟=0 ∂θ ⎝ ⎠ = (Rθ − q) = 0 Wenn die Restriktion zutrifft, sollte der Schattenpreis der Restriktion λ nahe ∂ logL ( θ ) * ∂ logL ( θ ) Null sein, da unter H0: . ≈ ∂θ ∂θ Wenn λ groß ist, legt dies nahe, H0 zu verwerfen, da sich in diesem Fall die restringierte (L(θ)*) und die unrestringierte (L(θ)) Likelihoodfunktion deutlich unterscheiden. Die LM-Test Statistik lautet: 5–20 N ξLM = ∑ i =1 () wobei si θ −1 ⎛ N ⎞ si θ ' ⎜ ∑ si θ si θ ' ⎟ ⎝ i =1 ⎠ () ( ) ( ) ∑ s (θ) ∼ χ , N i =1 i 2 J (6.32) die erste Ableitung der unrestringierten Likelihoodfunktion, bewertet am Vektor der unter Restriktion geschätzten θ ist. Weichen die () Werte von si θ deutlich von 0 ab, sollte H0 verworfen werden. 5–21 5.3 Binäre abhängige Variablen (7.1) 5.3.1 Einführung • Man könnte sich fragen, ob das Einkommen damit korreliert ist, dass manche Haushalte Autos besitzen und andere nicht. Definiert yi = 1 für Haushalte i mit Auto und yi = 0 für Haushalte ohne Auto, so lässt sich ein lineares Modell aufstellen, bei dem xi2 das Einkommen misst und xi1 ≡ 1 eine Konstante darstellt, xi = (xi1, xi2)‘ yi = β1 + β2 xi2 + εi = xi ' β + εi . (7.1) • Wenn eine Variable nur die Ausprägungen 0 und 1 annimmt, spricht man von binären, bivariaten, dichotomen oder Dummy-Variablen. • Unter der Standardannahme E {εi | xi} = 0 folgt E {yi | xi} = xi'β sowie 5–22 E {yi | xi } = 1⋅ P {yi = 1 | xi } + 0 ⋅ P {yi = 0 | xi } = P {yi = 1 | xi } = xi ' β (7.2) • Das Modell impliziert, dass xi'β eine Wahrscheinlichkeit beschreibt und zwischen 0 und 1 liegt. Praktisch gilt das nicht immer. • Da yi entweder 0 oder 1 beträgt, kann εi nur zwei mögliche Werte annehmen. εi ist nicht normalverteilt und heteroskedastisch: P {εi = − xi ' β | xi } = P {yi = 0| xi } = 1 − xi ' β P {εi = 1 − xi ' β |xi } = P {yi = 1|xi } = xi ' β (7.3) • Es lässt sich zeigen, dass V ( εi |xi ) = xi ' β (1 − xi ' β ) , 5–23 so dass die Varianz für jedes i unterschiedlich ausfällt. • Diese Probleme lassen sich lösen, wenn die Wahrscheinlichkeit dafür, dass yi = 1 ist, als Funktion von Kovariaten xi modelliert wird: P {yi = 1| xi } = G ( xi , β ) (7.4) Die Funktion G sollte ausschließlich Werte im Intervall [0, 1] annehmen, wobei man sich in der Regel auf die lineare Funktion G ( xi , β ) = F ( xi ' β ) beschränkt. Da F Werte aus [0, 1] annehmen sollte, bieten sich Verteilungsfunktionen an. • Unterstellt man eine Standardnormalverteilung, ergibt sich ein ProbitModell: 5–24 F(w) = Φ (w) = w ∫ −∞ ⎧ 1 ⎫ exp ⎨− t2 ⎬ dt 2π ⎩ 2 ⎭ 1 (7.5) • Unterstellt man eine standard logistische Verteilung, ergibt sich ein LogitModell: ew F(w) = L(w) = 1 + ew (7.6) • Erwartungswert einer standard logistisch verteilten Zufallsvariable: 0, π2 Varianz: . 3 • Die beiden Verteilungsfunktionen sind sehr ähnlich. Im Vergleich zur Normalverteilung hat die logistische Verteilung „dickere Ränder“. Die Schätzergebnisse sind typischerweise sehr ähnlich. 5–25 • Bei geschätzten Koeffizienten lassen sich Vorzeichen und statistische Signifikanz interpretieren. • Um die Stärke der Zusammenhänge zu beschreiben, berechnet man die marginalen Effekte einzelner erklärender Variablen; für kontinuierliche erklärende Variablen xk gilt: Probit: Logit: ∂ Φ ( xi ' β ) ∂ xik ∂ L ( xi ' β ) ∂ xik = φ ( xi ' β ) ⋅ βk = exi ' β (1 + exi ' β ) 2 ⋅ βk , wobei φ (xi ' β) die Dichtefunktion der Standardnormalverteilung repräsentiert und L für die kumulative standard logistische Verteilung steht. 5–26 • Die marginalen Effekte hängen von den Werten für xi ab. Dabei nutzt man entweder für alle xi die Stichprobenmittelwerte oder berechnet die mittleren marginalen Effekte: 1 N ∂ Φ ( xi ' β ) ∑ ∂x N i =1 ik 1 N ∂ L ( xi ' β ) ∑ ∂x N i =1 ik bzw. • Wegen der Nichtlinearität der betrachteten Funktionen können sich die Ergebnisse je nach Art der Berechnung unterscheiden. Das Vorzeichen des marginalen Effekts entspricht stets dem Vorzeichen des Parameters β̂k . • Bei dichotomen (0/1) erklärenden Variablen wird statt des marginalen Effekts oft der Unterschied in den vorhergesagten Wahrscheinlichkeiten bestimmt, wobei alle anderen erklärenden Variablen feste Werte zugewiesen bekommen. 5–27 • Beispiel im Probitfall: P ( yi = 1| malei = 1,xi = x ) − P ( yi = 1| malei = 0,xi = x ) ( ) ( = Φ βˆD ⋅ 1 + x ' βˆ − Φ βˆD ⋅ 0 + x ' βˆ ) • Gleichung (7.4) des Logit-Modells lässt sich umformen zu: log pi = xi ' β, 1 − pi wobei pi = P{yi = 1 | xi}. Den Ausdruck links bezeichnet man als log odds ratio. Ein Wert von 3 würde bedeuten, dass die Wahrscheinlichkeit von yi = 1 dreimal höher ist, als die Wahrscheinlichkeit, dass yi = 0. Hier beschreibt βk den Effekt von xik auf das odds ratio. Wenn βk = 0,1, führt eine Änderung 5–28 von xik um eine Einheit zu einem Anstieg des odds ratios um 10 Prozent (semi-Elastizität). 5–29 5.3.2 Das latente Modell • Bivariate Modelle lassen sich von theoretischen Verhaltensmodellen ableiten. Es wird unterstellt, dass Individuen eine unbeobachtbare Neigung haben, bestimmte Handlungsweisen zu präferieren (z.B. erwerbstätig zu sein). Diese Neigung wird als latente Variable, yi* modelliert: yi * = xi ' β + εi (7.8) • Übersteigt die latente Variable einen unbekannten Schwellenwert, den wir als 0 annehmen, so wählt i yi = 1, sonst yi = 0. Man schreibt: P {yi = 1} = P {yi * > 0} = P {xi ' β + εi > 0} = P {−ε ≤ xi ' β} = F ( xi ' β ) . (7.9) 5–30 Dabei beschreibt F die Verteilungsfunktion von -εi, bzw. bei symmetrischen Funktionen die von εi. Dies ergibt ein binäres Modell, dessen konkrete Form von den Annahmen an die Verteilung von εi abhängt. • Ein Probitmodell auf Basis einer latenten Variablen lässt sich wie folgt vollständig beschreiben: yi * = xi ' β + εi , εi ∼ N ( 0,1) yi = 1 wenn yi * > 0 yi = 0 wenn yi * ≤ 0. (7.10) Unterstellt wird, dass εi von allen xi unabhängig ist. • Die Parameter des Modells werden typischerweise mit Maximum Likelihood geschätzt. 5–31 5.3.3 Schätzung • Die Parameter werden geschätzt, indem die logarithmierte Likelihoodfunkton maximiert wird. • Der Beitrag von Individuum i zur Likelihoodfunktion ist entweder P(yi = 1 | xi; β) oder P(yi = 0 | xi; β), je nachdem ob das Ereignis yi = 1 oder yi = 0 eingetreten ist. • Die Likelihoodfunktion für die Stichprobe lautet: N L ( β ) = ∏ P {yi = 1|xi ; β} i P {yi = 0 |xi ;β} 1− yi y (7.11) i =1 • Nach Logarithmierung und Einsetzen von F(xi‘β): N N i =1 i =1 log L ( β ) = ∑ yi log F ( xi ' β ) + ∑ (1 − yi ) log (1 − F ( xi ' β ) ) (7.12) 5–32 • Die Bedingung erster Ordnung zur Maximierung der log-Likelihoodfunktion lautet: ∂ logL ( β ) ∂β N ⎡ ⎤ yi − F ( xi ' β ) =∑ ⎢ f ( xi ' β ) ⎥ xi = 0 , i =1 ⎣⎢ F ( xi ' β ) (1 − F ( xi ' β ) ) ⎦⎥ (7.13) wobei die Dichtefunktion f die Ableitung von F nach xi ' β ist. • Der Ausdruck in Klammern wird als generalized residual bezeichnet und nimmt entweder die Werte oder f ( xi ' β ) / F ( xi ' β ) für yi = 1 − f ( xi ' β ) / (1 − F ( xi ' β ) ) für yi = 0 an. 5–33 • Die Bedingungen erster Ordnung fordern, dass über die ganze Stichprobe hinweg die Werte von xi nicht mit der generalized residual korreliert sein dürfen, • Im Logit lässt sich vereinfachen ∂ logL ( β ) ∂β ⎡ exp ( xi ' β ) ⎤ = ∑ ⎢ yi − ⎥ xi = 0 1 + exp ( xi ' β ) ⎥⎦ i =1 ⎢⎣ N (7.14) Gegeben β̂ lässt sich P{yi = 1 | xi} berechnen: p̂i = ( exp xi ' βˆ ( ) 1 + exp xi ' βˆ ) Eingesetzt in (7.14) folgt: 5–34 N ∑ i =1 N p̂i xi = ∑ yi xi . (7.16) i =1 • Dies bedeutet, dass solange im Logit-Modell eine Konstante mit geschätzt wird, die vorhergesagte Wahrscheinlichkeit immer exakt identisch mit der beobachteten Wahrscheinlichkeit ist. • Da die log-Likelihoodfunktionen global konkav sind, konvergieren die Schätzungen schnell zum globalen Maximum. 5–35 5.3.4 Schätzgüte • Im Gegensatz zum linearen Modell mit seinem R2 gibt es für binäre Modelle kein eindeutiges, etabliertes Gütemaß. • Im Rahmen von ML-Schätzern wird der Erklärungsgehalt des Modells oft aus dem Vergleich der log-Likelihoodwerte mit (log L1) vs. ohne erklärende Variablen (log L0) bestimmt. Zu erwarten ist: log L1 ≥ log L0. Je besser das Modell umso größer ist L ebenso wie log L. Je größer der Unterschied zwischen log L1 und log L0, umso bedeutender ist der Erklärungsbeitrag des Modells. • Amemiya führte folgendes Maß ein: 5–36 pseudo − R2 = 1 − 1 1 + 2 ( logL1 − logL0 ) / N (7.17) • Das McFadden R2 (auch Likelihood ratio index genannt) lautet: McFadden R2 = 1 − ( logL1 / logL0 ) (7.18) Dieser Wert muß zwischen 0 und 1 liegen; er nimmt im schlechtesten Fall den Wert 0 und im besten Fall den Wert 1 an. Passt das Modell nicht, so gilt log L1 = log L0, passt das Modell perfekt, so gilt L1 = 1, log L1 = 0. • Vielfach wird Modellgüte daran gemessen, welcher Anteil der abhängigen Variablen korrekt vorhergesagt wird. Dazu bestimmt man für alle i F xi 'βˆ ( ) und weist typischerweise einen vorhergesagten Wert von 1 zu, wenn F xi ' βˆ > 0,5 , andernfalls wird ein Wert von 0 vorhergesagt. ( ) 5–37 • Insbesondere bei seltenen Ereignissen (z.B. 5% y = 1, 95% y = 0) ist auf diese Weise kaum ein Modell in der Lage, eine konstante Vorhersage (z.B. y = 0 für alle) zu übertreffen. 5–38 5.3.5 Beispiel: Arbeitslosengeld und Arbeitslosengeldbezug • Stichprobe: N = 4877 amerikanische Arbeiter, die zwischen 1982 und 1991 den Arbeitsplatz verloren. Nicht alle nutzen die Möglichkeit, Arbeitslosengeld zu beziehen, wenngleich alle einen Anspruch haben. Die „Takeup-Rate“ der Stichprobe beträgt 68%. • Der Betrag an Arbeitslosengeld, der einzelnen zusteht, hängt ab von Bundesstaat, Jahr der Arbeitslosigkeit und früherem Verdienst. Die Lohnersatzrate variiert zwischen 33 und 54 Prozent und könnte die takeupEntscheidung beeinflussen. Zusätzlich können weitere persönliche Faktoren (z.B. Bildung, Alter, Geschlecht), Präferenzen oder die Haushaltszusammensetzung eine Rolle spielen. 5–39 • Tabelle 7.2 präsentiert Wahrscheinlichkeitsmodell die Schätzergebnisse (LPM), d.h. KQ für ohne ein lineares Korrektur für Heteroskedastie, sowie Logit und Probit Modelle. • Da das Logit Modell die Parameter entsprechend V = π / 3 skaliert, während Probit von σ = 1 ausgeht, unterscheiden sich die geschätzten Parameter β um ungefähr diesen Faktor. Die Parameter des linearen Modells (linear probability model LPM) sind typischerweise um den Faktor 4 kleiner als die Logitwerte. 5–40 5–41 • Vorzeichen und statistische Signifikanz der Ergebnisse sind vergleichbar. • Auch die quantitativen Ergebnisse unterscheiden sich nicht deutlich zwischen den Modellen. Der Effekt der Lohnersatzrate wurde quadratisch geschätzt und hängt daher davon ab, an welcher Stelle er bewertet wird. Im Probit ergibt sich ∂ Φ ( xi ' β ) ∂ xi,RR = φ ( xi ' β ) ⋅ (1,863 − 2 ⋅ 2,980 ⋅ replacement rate ) Da dieser Wert für unsere Stichprobenwerte der replacement rate meist negativ ist, scheint eine hohe Ersatzrate (kontraintuitiv) die takeupWahrscheinlichkeit zu reduzieren. Andere wichtige Variablen sind, ob die 5–42 Stelle wegen „slack work“ (Unterauslastung) gekündigt wurde, Kinderzahl und Familienstand. Viele Parameter sind insignifikant. • Die Maße der Schätzgüte bestätigen, dass der Erklärungsgehalt der Modelle nicht hoch ist. • Ein Vergleich von Vorhersage und tatsächlichem Wert ergibt: ŷi = 0 ŷi = 1 Gesamt yi = 0 242 1300 1542 yi = 1 171 3164 3335 Gesamt 413 4464 4877 5–43 so dass 242 3164 + = 1,106 , was nicht deutlich besser ist als eine 1542 3335 einheitliche Vorhersage für alle Beobachtungen, die einen Wert von 1 ergibt. 5–44 Literatur: Verbeek, 2008, Kapitel 6, 7.1 Greene, W.H., 2008, Econometric Analysis 6.A, Kapitel 16 und 23.1 – 23.4 Gujarati, D.N. und D.C. Porter, 2009, Basic Econometrics 5.A., Kapitel 4.4 und 15.1-15.9 Johnston, J. und J. DiNardo, 1997, Econometric Methods 4.A, Kapitel 13.1-13.6 Pindyck, R.S. und D.L. Rubinfeld, 1998, Econometric Models and Economic Forecasts 4.A., Kapitel 11 Stock, J.H. und M.W. Watson, 2007, Introduction to Econometrics 2.A., Kapitel 11 Wooldridge, J.M., 2002, Econometric Analysis of Cross Section and Panel Data, Kapitel 13, 15.1-15.6 5–45