Lernziele Kapitel 1: Einführung 1.1 Technische Vorbemerkungen • Was ist und wozu benötigt man die Ökonometrie? 1.2 Inhaltliche Gliederung und Ziele der Veranstaltung • Wie rechnet man mit Vektoren und Matrizen? 1.3 Ökonometrie: Was, wozu und wie? • Wie lassen sich Zufallsvariablen und ihre Verteilungen beschreiben? 1.4 Illustration Anhang A Wiederholung: Lineare Algebra B Wiederholung: Statistik und Verteilungstheorie C Zusammenstellung von Annahmen 1.1 1.2 • Literatur: Marno Verbeek, 2008, A Guide to Modern Econometrics, third edi- 1.1 Technische Vorbemerkungen tion, John Wiley & Sons Ltd., Chichester UK. Preis (neu): € 39,95 (Stand • Vorlesung 2 SWS, Übung 2 SWS, Tutorien Sept. 2009). Die Veranstaltung bezieht sich stark auf dieses Lehrbuch. - Vorlesung, Mo und Mi 8:00 – 09:30 • Die Veranstaltung wird durch eine Klausur abgeschlossen. Hilfsmittel: Ta- - Übung, 7 Parallelveranstaltungen, siehe Lehrstuhlwebsite schenrechner, ggf. Wörterbuch, Formelsammlung wird bereitgestellt - Tutorien: ab November 2010, verschiedene parallele Termine, wöchentlich, zur Klausurvorbereitung • Auf die Endnote kann die Note einer freiwilligen Hausaufgabe zu 20 Prozent angerechnet werden. Note verfällt nach dem SS 2011. Bearbeitung in Grup- • Die Veranstaltung findet geblockt in der ersten Semesterhälfte statt. Dies hat pen von 2-3 Personen ist möglich. den Vorteil, dass die Klausur vorgezogen, bereits Anfang Januar (7.1.11) Anmeldung bis 29.10.10. bei [email protected]. durchgeführt werden kann und dass eine weitere hierauf aufbauende Ausgabe der Hausarbeitsthemen ab 09.11.10, Abgabe: bis 31.01.11. Ökonometrieveranstaltung im WS belegt werden kann. 1.3 1.4 • Leistungs- und Prüfungsanforderungen • Lerntipps: - Lerngruppe bilden - alte Klausuren mit Musterlösung im Netz - Veranstaltungen regelmäßig vor- und nachbereiten - ca. 33 % wahr/falsch Fragen zu einzelnen Lerninhalten - am Ende der Kapitel prüfen, ob Fragen offen geblieben sind - ca. 67% offene Fragen zur Interpretation und Diskussion von Schätzergebnissen, kritische Diskussion der unterstellten Modelle • Nicht geprüftes Lernziel: Anwenderkenntnis der Statistiksoftware Stata - ermöglicht eigenes empirisches Arbeiten - wichtig für empirische Abschlussarbeiten - vertieft Verständnis für Anwendbarkeit der Methoden • Im Rahmen des Tutoriums werden frühere Klausuraufgaben besprochen. 1.5 • Empfehlenswerte Literatur: 1.6 • Deutschsprachige Vorbereitungsliteratur bspw.: – Greene, William H., 2008, Econometric Analysis, 6th ed., Prentice Hall, – von Auer, Ludwig, 2007, Ökonometrie. Eine Einführung, Springer Verlag. New Jersey. – Gujarati, Damodar N., 2008, Basic Econometrics, 4th ed., McGraw Hill, New York. – Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, MIT Press, Cambridge/Mass. – Stock, James H. and Mark W. Watson, 2007, Introduction to Econometrics, 2. Auflage, Pearson, Boston. – Wooldridge, Jeffrey M., 2009, Introductory Econometrics, 4. Auflage, South-Western. 1.7 1.8 • Ziel: 1.2 Inhaltliche Gliederung und Ziele der Veranstaltung • Gliederung: - Vertiefung der Kenntnis ökonometrischer Methoden Kapitel im Lehrbuch: - Einführung in die Anwendung der Stata Software 1. Einführung und Wiederholung 1 & Appendix - Einüben, empirische Ergebnisse zu interpretieren 2. Lineare Regression 2 - Erlernen, eigene und fremde Resultate kritisch zu bewerten 3. Interpretation und Vergleich von Regressionsmodellen 3 - Möglich: Erstellen einer eigenen empirischen Analyse im Rahmen 4. Heteroskedastie und Autokorrelation 4 5. Maximum Likelihood und 0/1 abhängige Variablen 6,7 der Hausaufgabe 1.9 1.10 (2) Beziehungen zwischen verschiedenen, typischerweise aggregierten 1.3 Ökonometrie: Was, wozu und wie? ökonomischen Größen über einen Zeitraum (z.B. der Zusammenhang • Definition 1: Econometrics is what econometricians do. • Definition 2: Econometrics is the interaction of economic theory, observed zwischen kurz- und langfristigen Zinssätzen). (3) Beziehungen zwischen Größen, die disaggregierte Einheiten (z.B. Indi- data, and statistical methods. • Ziel: Beziehungen zwischen Größen (z.B. Bildung und Löhnen) überprüfen und quantifizieren. viduen, Haushalte, Unternehmen) zu einem Zeitpunkt beschreiben (z.B. welchen Einfluss hat das Einkommen auf das Sparverhalten der Individuen). Modelle erklären den Unterschied zwischen Beobachtungseinhei- • 4 Kategorien von Beziehungen zwischen Größen: ten. (1) Beziehungen zwischen vergangenen und gegenwärtigen Werten einer (4) Beziehungen zwischen Merkmalen disaggregierter Einheiten, die über einzelnen Größe, Zeitreihenmodelle (z.B. wie hängt die Zins- oder Ak- einen Zeitraum (mindestens zwei Perioden) gemessen werden. Modelle tienpreisentwicklung von ihrer Vergangenheit ab). erklären Unterschiede zwischen Beobachtungseinheiten und Änderungen in deren Verhalten über die Zeit. 1.11 1.12 • Ökonometriker wählen eine Modellform und Vorgehensweise, um die jewei- • Die Verfahren werden ebenfalls in anderen sozialwissenschaftlichen Diszip- ligen Beziehungen empirisch zu untersuchen. Oft müssen die Daten be- linen, wie Soziologie und Psychologie, in der Medizinforschung und in inge- schafft werden (z.B. durch Erhebungen). Hauptaufgabe: geeignete Verfah- nieurwissenschaftlichen Bereichen verwendet. ren wählen und unterstellte Beziehungen durch Tests überprüfen. • Wissenschaftlicher Fortschritt benötigt das empirische Testen von Hypothesen (siehe Karl Poppers kritischen Rationalismus). Ohne Empirie und – für die Wirtschaftswissenschaften – Ökonometrie entwickelt sich der Wissensstand nicht weiter. • Ökonometrische Verfahren nutzt nicht nur der Wissenschaft; sie sind Bestandteil vieler betriebs- und volkswirtschaftlicher Tätigkeiten, beispielsweise in den Bereichen Marktforschung, Finanzmarktanalyse, Geldpolitik, Arbeitsmarkt- und Sozialpolitik, Makroökonomie. 1.13 1.14 • Eine solche Vergleichsstudie haben Riphahn / Eschelbach / Heineck / Müller 1.4 Illustration: Finanzieller Nutzen universitärer Ausbildung • Vor dem Hintergrund der demographischen Entwicklung und der doppelten Abiturjahrgänge muss politisch entschieden werden, ob und an welcher Stel- auf Basis der Daten des Sozioökonomischen Panels (2001-2007) vorgenommen. • Theoretisches Modell auf Basis der Mincer'schen Verdienstfunktion: le zusätzliche Studienplätze bereit gestellt werden. • Kosten und Nutzen des Studiums an Universitäten und Fachhochschulen sind relevante Größen zur Steuerung zukünftiger Studierendenströme. • Bei der Berechnung des Nutzens eines Studiums unterscheidet man die gesellschaftliche und die individuelle Perspektive. Letztere ist anhand eines Vergleichs der Verdienstentwicklung im Lebenszyklus einfacher zu bewerten. 1.15 log ( wi ) = β0 + β1 educi + β2 expi + β3 expi2 + β4 Xi + ei . wi = realer Stundenlohn von Person i educi = Indikator des von i gewählten Bildungsweges expi = Arbeitsmarkterfahrung von i, gemessen in Jahren expi2 = expi ⋅ expi Xi = Vektor von Kontrollvariablen 1.16 ei = Restgröße β0-β4 = unbekannte Parameter. Wenn β1 > 0 ist der Lohn höher bei höherer Bildung. • Stichprobe: Wiederholte Beobachtungen von erwerbstätigen Personen mit einem tertiären Bildungsabschluss, im Alter von 28 – 60 Jahren. 11.879 Personen-Jahr-Beobachtungen von 2614 verschiedenen Personen. 39,7 % haben einen Fachhochschul- und 60,3 % einen Universitätsabschluss. • Abhängige Variable: w = reale Bruttostundenlöhne (in 2005er Euro). Die Verteilung unterscheidet sich bereits zwischen den beiden Gruppen (hier nur Männer): 1.17 1.18 • Erklärende Variablen: Universitätsabschluss (ja/nein), Alter, Alter2, Alter3, männliches Geschlecht, Teilzeit beschäftigt, befristet beschäftigt, im öffentlichen Dienst, verheiratet, nicht deutsch, sowie Betriebszugehörigkeitsdauer, Universität (0/1) (β1) Unternehmensgröße, Branche, Bundesland, Kalenderjahr. Alter (β2) Alter^2/100 (β3) • Ergebnis einer linearen Schätzung für Männer und Frauen zusammen, nur für Frauen und nur für Männer (weitere Koeffizienten wurden geschätzt, Alter^3/1000 Mann (0/1) Teilzeit beschäftigt (0/1) aber hier nicht dargestellt): Befristet beschäftigt (0/1) Öffentlicher Dienst (0/1) Verheiratet (0/1) Hat nicht-deutsche Nationalität (0/1) Konstante N R-squared 1.19 Männer und Frauen (1) 0.153*** (0.016) 0.246*** (0.060) -0.493*** (0.140) 0.032*** (0.011) 0.166*** (0.019) -0.050** (0.021) -0.171*** (0.025) -0.010 (0.013) 0.026 (0.017) -0.138** (0.055) -1.535* (0.831) 11879 0.272 Frauen Männer (2) 0.192*** (0.025) 0.233** (0.095) -0.477** (0.224) 0.031* (0.017) – (3) 0.131*** (0.021) 0.254*** (0.077) -0.501*** (0.179) 0.032** (0.014) – 0.002 (0.024) -0.146*** (0.034) -0.047** (0.019) -0.070*** (0.024) -0.133 (0.090) -1.219 (1.309) 4856 0.243 -0.126** (0.050) -0.191*** (0.033) 0.022 (0.017) 0.087*** (0.023) -0.130* (0.067) -1.592 (1.093) 7023 0.254 1.20 • Interpretation: Ceteris paribus verdienen Männer ca. 13,1 % und Frauen ca. Frauen: 19,2 % mehr, wenn sie einen Uni- statt einen FH-Abschluss haben. 3,4 • Es lässt sich anhand der linearen Regression prüfen, ob die Lohnentwick3,2 lungen im Lebenszyklus sich für die Absolventengruppen unterscheiden. Die Schätzungen ergaben folgende mittlere Verläufe der logarithmierten Löhne Log(Lohn) im Lebenszyklus. 3,0 2,8 2,6 2,4 2,2 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 1.21 Männer: Im Mittel verdienen FH-Absolventen bei Berufseintritt besser, werden dann aber rasch überholt. 3,4 • Vieles ist bei der Interpretation der Ergebnisse zu beachten: 3,2 Log(Lohn) 1.22 3,0 a) heteroskedastische Standardfehler 2,8 b) korrekte Spezifikation der Schätzgleichung 2,6 c) Erklärungskraft des Modells d) Selektion in die Stichprobe der Erwerbstätigen 2,4 e) Korrelation von "Uni-Abschluss" mit dem Störterm 2,2 f) Anteil der FH-Absolventen unter älteren Erwerbstätigen repräsentativ? 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 FH Univ. g) sonstiges? (a) Die Vorhersagen wurden auf Basis von geschlechtsspezifischen Schätzungen erstellt. Hierbei wurde die Modellspezifikation um Interaktionsterme des Alterspolynoms dritter Ordnung mit der Variable "Universitätsabschluss" ergänzt. (b) Die Graphiken zeigen die nach Einzelaltern vorhergesagten mittleren realen logStundenlöhne sowie zugehörige Konfidenzbänder am 90 Prozent Niveau. 1.23 • Lässt man solche Aspekte unberücksichtigt, ergeben sich oft falsche Interpretationen der empirischen Befunde. 1.24 • Die ökonometrische Methodenlehre zeigt, worauf es ankommt, vermittelt das Werkzeug eigene Studien durchzuführen und die Kenntnis, kritisch mit den Ergebnissen anderer umzugehen. A. Anhang Wiederholung: Lineare Algebra A.1 Terminologie • Für unsere Zwecke ist ein Vektor eine Spalte von Zahlen (Spaltenvektor): ⎛ a1 ⎞ ⎜ ⎟ ⎜a ⎟ a=⎜ 2⎟ ⎜ ⎟ ⎜ ⎟ ⎝ an ⎠ • Die Transponierte eines Vektors ist eine Reihe von Zahlen (Zeilenvektor): a' = (a 1, a 2 ,…, a n ) • Eine Matrix ist ein rechteckiges, geordnetes Schema von Zahlen. In der Dimension n × k (n Reihen und k Spalten) wird sie wie folgt dargestellt: 1.25 ⎛ a a … a1k ⎞ ⎜ 11 12 ⎟ ⎜ a 21 a 22 … a 2k ⎟ A=⎜ ⎟ ⎜ ⎟ ⎜a a … a ⎟ ⎝ n1 n2 nk ⎠ 1.26 ⎛ a a … a n1 ⎞ ⎜ 11 21 ⎟ ⎜ a12 a 22 … a n2 ⎟ A' = ⎜ ⎟ ⎜ ⎟ ⎜a a … a ⎟ ⎝ 1k 2k nk ⎠ • Dabei gibt der erste Index jedes Matrixelementes aij an, dass das Element • Bei quadratischen Matrizen ist n = k. Eine quadratische Matrix ist symmetrisch, wenn A = A ' . Eine quadratische Matrix ist eine diagonale Matrix, wenn zur i-ten Zeile gehört, der zweite Index bezieht sich auf die j-te Spalte. aij = 0 für alle i ≠ j . Jede diagonale Matrix ist auch symmetrisch. Eine Ein- • Eine Matrix besteht aus k Spaltenvektoren a1 bis ak: heitsmatrix I ist eine diagonale Matrix, bei der alle Elemente der Hauptdia- A = [a1 a 2 … ak ] gonalen gleich eins sind. • Vertauscht man die Spalten und Reihen einer Matrix, so erhält man die transponierte Matrix: 1.27 1.28 • Eine Matrix A mit den Dimensionen n × k und eine Matrix B mit den Dimensi- A.2 Rechnen mit Matrizen • Matrizen und Vektoren mit den gleichen Dimensionen können addiert und subtrahiert werden. Wenn aij und bij die Elemente zweier n × k Matrizen A onen k × m können multipliziert werden. Ihr Produkt ergibt eine Matrix der Dimension n × m . • Wenn k = 1, ist A = a ' ein Zeilen- und B = b ein Spaltenvektor: und B sind, dann gilt: A + B = C, wobei cij = aij + bij A − B = C, wobei cij = aij − bij AB = a 'b = ( a1,a2 ,…,an ) A +B = B+ A ⎛ b1 ⎞ ⎜ ⎟ ⎜ b2 ⎟ = a b + a b + … a b 1 1 2 2 n n ⎜ ⎟ ⎜ ⎟ ⎝ bn ⎠ a'b nennt man das Skalarprodukt (inneres Produkt) der Vektoren a und b. ( A + B ) ' = A '+ B' = B'+ A ' Zwei Vektoren a und b werden orthogonal genannt, wenn a'b = 0 . Außer für den Nullvektor gilt für alle Vektoren a, dass a'a > 0 . Das äußere Produkt eines Vektors ist aa' mit der Dimension n × n . 1.29 1.30 • Bei der Multiplikation einer Matrix A ( n × k ) mit einem Spaltenvektor b ( k × 1) und beschreiben die inneren Produkte der Zeilen von A und der Spalten von ergibt sich ein Spaltenvektor, c = Ab mit der Dimension n × 1. Die Elemente B. Das Produkt kann nur bestimmt werden, wenn die Anzahl der Spalten von c ergeben sich aus: von A und der Zeilen von B übereinstimmen. ci = ai1 b1 + ai2 b2 + … + aik bk • Beispiel: und stellen das innere Produkt jedes Zeilenvektors aus A mit dem Spaltenvektor b dar. ⎛1 2 3 ⎞ A=⎜ ⎟, ⎝ 4 5 0⎠ • Bei der Multiplikation der Matrizen A ( n × k ) und B ( k × m ) ergibt sich eine Matrix C = AB mit der Dimension ( n × m ) . Die Elemente von C sind bestimmt durch cij = ai1 b1j + ai2 b2 j + so dass ⎛1 2 ⎞ ⎜ B = ⎜ 3 4 ⎟⎟ , ⎜0 5⎟ ⎝ ⎠ ⎛ 7 25 ⎞ AB = ⎜ ⎟ ⎝ 19 28 ⎠ • Beachte, dass AB ≠ BA , z.B. wenn A ( n × k ) und B ( k × n ) ist, dann hat AB die Dimension ( n × n ) und BA die Dimension ( k × k ) . In unserem Beispiel + aik bkj ergibt sich 1.31 1.32 ⎛ 9 12 3 ⎞ BA = ⎜⎜ 19 26 9 ⎟⎟ ⎜ 20 25 0 ⎟ ⎝ ⎠ A.3 Eigenschaften von Matrizen und Vektoren • Die Linearkombination von Vektoren a1 bis ak mit Skalargewichten c1,…,ck ergibt den Vektor c1a1 + c2 a2 + … + ck ak abgekürzt Ac, mit • Es gilt ( AB ) ' = B' A ' A = [a1 … ak ] und c = ( c1 …ck ) ' . • Da ( A ' ) ' = A folgt, dass A ' A und AA ' existieren und symmetrisch sind. • Multipliziert man eine Matrix A mit einem Skalar c, so wird jedes Element von A mit c multipliziert. Ein Element von cA ist caij. • Eine Gruppe von Vektoren ist linear abhängig, wenn einer der Vektoren als Linearkombination der anderen beschrieben werden kann, bzw. wenn gilt c1 a1 + c2 a2 + … + ck ak = 0 . • Eine Gruppe von Vektoren ist linear unabhängig, wenn dieser Zusammenhang nur für c1 = c2 = = ck = 0 gilt, d.h. Ac = 0 nur für c = 0. 1.33 1.34 • Die Menge aller durch Linearkombination der Vektoren a1,…,ak erzeugbaren • Entspricht der Spaltenrang der Anzahl der Spalten, so hat die Matrix vollen Vektoren bildet einen Vektorraum. Sind die Vektoren a1,…,ak linear abhän- Rang. Der Zeilenrang einer Matrix entspricht der Dimension des durch die gig, so kann man die Anzahl der Vektoren reduzieren, ohne den Vektorraum Zeilenvektoren aufgespannten Raumes und ist mit dem Spaltenrang iden- zu beeinflussen. Ein Vektorraum hat die Dimension n, wenn er n linear un- tisch. Beide definieren den Rang der Matrix, wobei gilt abhängige Vektoren aufnimmt und wenn Gruppen von mehr als n Vektoren rank ( A ' ) = rank ( A ' A ) = rank ( AA ' ) in diesem Raum linear abhängig sind. • Ähnlich definiert man den Spaltenraum einer Matrix als den Raum, der durch ihre Spalten aufgespannt wird. Der Spaltenrang einer Matrix ist die Dimension des durch ihre Spalten aufgespannten Raumes bzw. die Maximalzahl linear unabhängiger Spaltenvektoren. Dabei kann der Spaltenrang nie die Anzahl der Spalten übertreffen. 1.35 1.36 A.4 Inverse Matrizen • Die Matrix B, für die in Bezug auf die Matrix A gilt, dass AB = I und BA = I ⎛ a11 ⎜ ⎜0 ⎜0 ⎝ 0 a22 0 ist, heißt Inverse der Matrix A. A hat nur dann eine Inverse, wenn A quadratisch ist und vollen Rang hat. In diesem Fall nennt man A invertierbar oder A −1 A = I und 0 −1 22 a 0 0 ⎞ ⎟ 0 ⎟ −1 ⎟ a33 ⎠ • Sonst am Beispiel einer 2 × 2 Matrix −1 ⎛ a11 a12 ⎞ ⎛ a22 − a12 ⎞ 1 ⎜ ⎟ = ⎜ ⎟, a a −a21 a11 ⎠ a a − a a ⎝ 21 22 ⎠ 11 22 12 21 ⎝ nicht-singulär. Man definiert B = A-1 so, dass AA−1 = I −1 −1 ⎛ a11 0 ⎞ ⎜ ⎟ 0 ⎟ = ⎜0 ⎜0 a33 ⎟⎠ ⎝ wobei a11a22 – a12a21 als Determinante von A, A , bezeichnet wird. Die De- • Dies impliziert, dass A = B-1 und es gilt ( A−1 ) = A . −1 terminanten singulärer Matrizen haben den Wert Null. • Wenn A-1 nicht existiert, ist A singulär. • Inverse Matrizen sind nützlich, um Gleichungssysteme der Form Ac = d • Inverse Matrizen werden wie folgt berechnet: Für diagonale Matrizen gilt nach c aufzulösen, wobei A eine (n × n) Matrix ist und c und d n- dimensionale Spaltenvektoren sind. Wenn A invertierbar ist, gibt 1.37 A−1Ac = c = A−1d 1.38 A.5 Weitere Matrixeigenschaften die Lösung für die n Unbekannten des Vektors c. Ist A nicht invertierbar, so gibt es entweder mehrere Lösungen für c oder keine. idempotent, wenn PP = P. • Es gilt ( A−1 ) ' = ( A ' ) und ( AB ) = B−1A−1 −1 • Eine Matrix P ist symmetrisch, wenn P = P' . Eine Matrix P heißt −1 • Eine symmetrische und idempotente Matrix P dient als Projektionsmatrix. Teilt man einen Vektor x mithilfe von P auf in einen Projektionsvektor PX und einen Residualvektor x – PX, x = PX + (x–PX), so liegt PX im Spaltenraum von P, während x – PX zu allen Vektoren im Spaltenraum von P orthogonal ist. • Wenn A eine symmetrische n × n Matrix und c ein Spaltenvektor ist, dann bezeichnet man einen Skalar λ, der Ac = λc erfüllt, als Eigenwert. Allgemein gibt es n Lösungen λ1,…, λn , die jeweils mit n Vektoren c1,…,cn, den 1.39 1.40 Eigenvektoren, korrespondieren. Die Eigenvektoren sind orthogonal, d.h. ci 'c j = 0 für alle i ≠ j . ⎡2 − 3 ⎤ ⎢ ⎥ • Beispiel: A = ⎣3 2 ⎦ ⎛ b1 ⎞ ⎡ 2 − 3 ⎤ ⎛ b1 ⎞ b'Ab = ( b1b2 ) ⎢ ⎥ ⎜ b ⎟ = [b1 2 + b2 3 − 3b1 + 2b2 ] ⎜ b ⎟ 3 2 ⎣ ⎦⎝ 2⎠ ⎝ 2⎠ • Ist ein Eigenwert Null, dann erfüllt der zugehörige Eigenvektor Ac = 0. Das impliziert, dass A singulär ist und keinen vollen Rang hat. Der Rang einer = b1 2b1 + b2 3b1 + b2b1 ( −3 ) + b2 ⋅ b2 ⋅ 2 symmetrischen Matrix entspricht der Anzahl der von Null verschiedenen Ei- = 2b12 + 2b22 > 0 genwerte. • Eine symmetrische Matrix A ist positiv definit, wenn alle Eigenwerte positiv • Die Determinante einer symmetrischen Matrix A ist das Produkt der n Ei- (> 0) sind. A ist positiv semidefinit, wenn alle Eigenwerte nicht negativ genwerte. Sie ist positiv, wenn A positiv definit ist und Null, wenn A singulär ( ≥ 0 ) sind. ist. • Positiv definite Matrizen sind invertierbar. • Für eine positiv definite Matrix A gilt für jeden Vektor x: x' Ax > 0 1.41 x 'i β = β1 + β2 xi2 + A.6 Ableitungen und andere Manipulationen • Wenn c und x n-dimensionale Spaltenvektoren sind, ist c ' x ein Skalar. Ist c ' x eine Funktion des Vektors x, lässt sich nach jedem der Elemente von x ∂c'x ableiten: = c und ergibt den Spaltenvektor c. ∂x • Allgemein gilt, wenn A eine Matrix ist: 1.42 ∂ Ax = A' ∂x • Die Operation ⎛ xi1 ⎞ ⎜ ⎟ x xi xi' = ∑ ⎜ i2 ⎟ ( xi1,xi2 ,…,xiK ) ∑ ⎜ ⎟ i =1 i =1 ⎜ ⎟ ⎝ xiK ⎠ N N ⎛ N 2 xi1 ⎜∑ i =1 ⎜ ⎜ =⎜ ⎜ ⎜ ⎜ N ⎜ ∑ xi1xiK ⎝ i =1 ∂ x ' Ax • Wenn A symmetrisch ist: = 2Ax ∂x ∂ x ' Ax • Ist A nicht symmetrisch, so folgt = ( A + A ') x ∂x • Wenn xi = ( xi1,xi2 ,…,xiK ) ' mit xi1 ≡ 1 und β = ( β1,β2 ,…,βK ) ' , dann 1.43 + βK xiK N ∑x i =1 N i2 xi1 N ∑x i =1 iK xi1 ∑x i =1 2 i2 N ∑x i =1 2 iK ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ 1.44 • Wenn ergibt eine symmetrische K × K Matrix. N ∑x x' i =1 • Der Vektor i i invertierbar ist, also vollen Rang besitzt, existiert eine eindeu- tige Lösung. Wenn die Matrix keinen vollen Rang hat, sind ihre Spalten und ⎞ ⎛ ⎜ ∑ x i1y i ⎟ ⎟ ⎜ i =1 ⎟ ⎜N N ⎜ ∑ x i2 y i ⎟ ⎟ ∑ xi yi =⎜ i=1 i =1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜N ⎜ ∑ x iK y i ⎟ ⎠ ⎝ i =1 N Zeilen linear abhängig. • Überträgt man die Vektoren xi in Matrixnotation mit ⎛ x11 x12 ⎜ X=⎜ ⎜ ⎝ xN1 xN2 und hat K Elemente und die Dimension K × 1. x1K ⎞ ⎟ ⎟ xNK ⎟⎠ y = ( y1,y2 ,...,yN ) ' , so lässt sich abkürzen N X ' X = ∑ xi xi ' und i =1 N N ⎛ N ⎞ • Daher besteht das System ⎜ ∑ xi x 'i ⎟ b = ∑ xi yi aus K Gleichungen mit K uni =1 ⎝ i =1 ⎠ bekannten Werten b. b hat die Dimension K × 1. X ' y = ∑ xi yi . i =1 • X' X ist invertierbar, wenn X vollen Rang besitzt und seine Spalten (unsere späteren Regressoren) nicht linear abhängig sind. 1.45 1.46 B. Wiederholung: Statistik und Verteilungstheorie B.1 Diskrete und stetige Zufallsvariablen • Diskrete Zufallsvariablen: − Wahrscheinlichkeitsfunktion: f(y) = P {Y = y} − Es gilt: ∑f (y ) = 1 j j − Erwartungswert: E { y } = ∑ yj ⋅ f ( yj ) j • Stetige Zufallsvariablen − Wahrscheinlichkeitsdichtefunktion: f ( y ) ≥ 0 − Es gilt: b P { a ≤ Y ≤ b } = ∫ f ( y ) dy a 1.47 1.48 ∞ ∫ f ( y ) dy = 1 − Ebenfalls: B.2 Erwartungen und Momente −∞ • Der Erwartungswert (Moment erster Ordnung) ist ein linearer Operator. − Verteilungsfunktion (kumulative Dichtefunktion): F(y) = P { Y ≤ y } = Wenn X, Y Zufallsvariablen sind und a, b Konstanten, dann gilt y E {aY + bX} = aE {Y} + b E { X} . ∫ f ( t ) dt −∞ − Es gilt: f(y) = F '(y) • Bei nichtlinearen Funktionen, g, gilt nicht E { g ( Y ) } = g (E { Y } ) . P {a ≤ Y ≤ b} = F(b) − F(a) und − Erwartungswert (oder Mittelwert): μ = E { Y } = • Jensens Ungleichheit besagt für konkave g ∞ ∫ y ⋅ f(y)dy E { g ( Y ) } ≤ g ( E {Y } ) . Allgemein gilt E { g ( Y ) } = −∞ ( d.h. g"(Y) < 0 ) , dass ∞ ∫ g ( y ) f(y)dy. −∞ • Die Varianz ist ein Streuungsmaß von Zufallsvariablen, genannt zentrales Moment zweiter Ordnung: σ2 = V { Y } = E { ( Y − μ ) } = E { Y } − 2 E{Y} ⋅ μ + μ 2 2 2 = E { Y2 } − μ2 1.49 (σ ist die Standardabweichung einer Zufallsvariablen, μ ist der Erwartungswert). 1.50 B.3 Multivariate Verteilungen • Gemeinsame Dichtefunktion zweier Zufallsvariablen: • Varianz diskret verteilter Zufallsvariablen: V{ Y } = ∑ (y j j P { a1 < Y < b1,a2 < X < b2 } = − μ )2 f ( y j ) ∞ a1 a2 ∫ ∫ f ( y, x ) dy dx P { a1 < Y < b1, a2 < X < b2 } = P { a1 < Y < b1 } P { a2 < X < b2 } ∫ ( y − μ ) f ( y ) dy 2 • Marginale Verteilung von Y: −∞ • Rechenregel: V { aY + b } = a V { Y } 2 ∞ f(y) = • Zur besseren Beschreibung der Verteilung einer Zufallsvariablen: k-tes zentk rales Moment, E ( Y − μ ) , k = 1,2,3,… { b2 • Sind Y und X unabhängig, so gilt f ( y,x ) = f(y) ⋅ f(x) und • Varianz stetig verteilter Zufallsvariablen: V{ Y } = b1 } 1.51 ∫ f ( y,x ) dx −∞ so dass E {Y } = ∞ ∞ −∞ −∞ ∫ y f(y)dy = ∫ ∞ ∫ y f ( y,x ) dx dy −∞ 1.52 • Für den Vektor Y = ( Y1,…,YK ) gilt: ' • Kovarianz als Maß linearer Abhängigkeit: σyx = cov { Y, X } = E { ( Y − μ ) ( X − μ ) }, y ⎛ E {Y1} ⎞ ⎜ ⎟ E {Y} = ⎜ ⎟ ⎜ E {Y } ⎟ K ⎠ ⎝ μy = E {Y}, μx = E { X} x • Korrelationskoeffizient: ρyx = cov { Y, X } V{ X } ⋅ V{ Y } = σyx σy σx , − 1 ≤ ρyx ≤ 1 und ⎛ V {Y1} ⎜ V {Y} = ⎜ ⎜ cov {Y ,Y } K 1 ⎝ • X,Y sind unkorreliert, wenn cov{Y,X} = 0 • Rechenregeln, wenn a,b,c,d Konstante und X, Y Zufallsvariablen sind: cov { aY + b, cX + d } = ac cov { Y, X } cov { Y1,YK } ⎞ ⎟ ⎟ V {YK } ⎟⎠ • Die Kovarianzmatrix des Vektors Y ist symmetrisch. Für lineare Kombinati- cov { aY + bX, X } = a cov { Y, X } + b cov { X, X } = a cov { Y, X } + b V { X } V { aY + bX } = a2 V { Y } + b2 V { X } + 2ab cov { Y, X } onen RY, wobei R die Dimension J × K hat und nicht-stochastisch ist, gilt V { RY } = JxK R V {Y } KxK R ' KxJ 1.53 1.54 • Wenn E{Y} = 0, sind zwei Zufallsvariablen X,Y unkorreliert, wenn gilt B.4 Bedingte Verteilungen • Es gilt folgender Zusammenhang zwischen bedingter und gemeinsamer f ( y,x ) Verteilung von Zufallsvariablen X und Y: f ( y X = x ) = f ( y x ) = f (x) • Für unabhängige Zufallsvariablen X und Y gilt: f ( y x ) = f ( y ) = f (x y) ⋅ f (y) independent", wenn gilt E{Y⎮X} = E{Y} = 0. Bei mittlerer bedingter Unab- hängigkeit gilt für jede Funktion g(X), dass E{Y g(X)} = 0. ) ∫( = E {Y x } − (E {Y x } ) 2 = E ⎡⎣ X ( Y − E ( Y ) ) − E ( X ) ( Y − E ( Y ) ) ⎤⎦ • Wenn E{Y} = 0, sind zwei Zufallsvariablen genau dann "conditional mean • Für bedingte Erwartungswerte gilt: E {Y X = x } = E {Y x } = ∫ y f ( y x ) dy y − E {Y x } da cov{ X,Y} = E ⎡⎣( X − E ( X ) ) ( Y − E ( Y ) ) ⎤⎦ = E ⎡⎣ X ( Y − E ( Y ) ) ⎤⎦ − E ( X ) ⋅ E ( Y − E ( Y ) ) • Außerdem gilt allgemein: f ( y,x ) = f ( y x ) ⋅ f ( x ) • Die bedingte Varianz ist: V { Y x } = E{YX} = cov{Y,X} = 0, 2 f ( y x ) dy • Statistische Unabhängigkeit ist von allen 3 Maßen des Zusammenhangs 2 zwischen X und Y (Unkorreliertheit, mittlere bedingte Unabhängigkeit, statis- 1.55 1.56 tische Unabhängigkeit) das stärkste. Sie impliziert, dass E{g1(X)g2(Y)} = E(g1(X)) ⋅ E(g2(X)) für alle Funktionen g1 und g2. Bei statistischer Unabhängigkeit sind beispielsweise auch die höheren Momente von X und Y voneinander unabhängig. B.5 Spezielle Verteilungen • Wenn Y ~ N ( μ, σ 2 ⎧⎪ 1 ( y − μ )2 ⎫⎪ exp ⎨− ⎬ 2 2πσ2 ⎪⎩ 2 σ ⎪⎭ 1 ) dann f ( y ) = • Wenn μ = 0 und σ2 = 1, z.B. für Z = • Zufallsvariablen, die statistisch unabhängig sind, sind auch "conditional mean independent", Zufallsvariablen, die "conditional mean independent" sind, sind unkorreliert, aber nicht notwendigerweise anders herum (Ausnahme: Normalverteilung). mit f ( z ) = φ ( z ) = ⎧ 1 ⎫ ⋅ exp ⎨− z2 ⎬ 2π ⎩ 2 ⎭ 1 Y −μ , dann ist Z standardnormalverteilt σ • Wenn Y~ N ( μ, σ2 ) , dann aY + b ~ N ( aμ + b,a2 σ2 ) • Verteilungsfunktion (kumulative Dichtefunktion) • Aus E(X⎮Y) = 0 folgt nicht E(Y⎮X) = 0. ⎧Y − μ y − μ⎫ ⎛y−μ⎞ P {Y ≤ y} = P ⎨ ≤ ⎬ = Φ⎜ ⎟= σ ⎭ ⎩ σ ⎝ σ ⎠ • Wenn X statistisch unabhängig von Y ist, dann auch Y von X. y −μ σ ∫ φ(t)dt . −∞ • Wegen Symmetrie: Φ ( y ) = 1 − Φ( − y) . 1.57 1.58 ξ= • Sind zwei Zufallsvariablen Y, X bivariat normalverteilt, so schreibt man J ∑Y j =1 ⎛ ⎛ μy ⎞ ⎛ σ2y σyx ⎞ ⎞ ⎟⎟ ⎟ , ⎜⎜ 2 ⎟ ⎟ ⎝ ⎝ μx ⎠ ⎝ σyx σx ⎠ ⎠ ( Y, X ) ~ N ⎜⎜ ⎜ 2 j Chi-quadrat verteilt mit J Freiheitsgraden: ξ ~ χ2J • Verallgemeinerung 1: Wenn Y1,…,YJ unabhängig und normalverteilte Zufallsvariablen mit Mittelwert μ und Varianz σ2 sind, folgt • In diesem Fall sind auch marginale und bedingte Verteilungen normal. ( Y − μ) 2 J ξ=∑ • Nur bei bivariater Normalverteilung folgt aus σyx = 0 , dass Y und X unabhängig sind und damit, dass ρyx = 0 . j =1 • Verallgemeinerung 2: Wenn Y j σ2 ein ~ χ2J Vektor von J Zufallsvariablen Y = ( Y1,...,YJ ) ist, die gemeinsam normalverteilt sind mit dem Mittelwertvek' • Lineare Funktionen normalverteilter Zufallsvariablen sind normalverteilt: aY + bX ~ N ( aμy + bμx , a2 σ2y + b2 σ2x + 2abσxy ) tor μ und der nicht singulären Kovarianzmatrix Σ, dann • Wenn Y1,…,YJ unabhängig und standardnormalverteilte Zufallsvariablen sind, dann ist 1.59 ξ = ( Y − μ ) ' Σ−1 ( Y − μ ) ~ χ2J • Die Chi-Quadrat-Verteilung mit J Freiheitsgraden hat E ( ξ ) = J und V ( ξ ) = 2J. 1.60 • Wenn X ~ N(0,1), ξ ~ χ2J und X und ξ unabhängig sind, dann hat t = X ξ/J • Wenn log Y ~ N ( μ, σ2 ) , dann folgt Y > 0 der Lognormalverteilung. Diese wird häufig genutzt, um Einkommens- oder Renditeverteilungen zu be1 ⎫ ⎧ schreiben. Es gilt E { log Y} = μ , aber E {Y} = exp ⎨μ + σ2 ⎬ . 2 ⎭ ⎩ eine t-Verteilung mit J Freiheitsgraden. • Wenn J → ∞, konvergiert die t-Verteilung zur Normalverteilung. • Wenn ξ1 ~ χJ21 , ξ2 ~ χJ22 und die beiden Zufallsvariablen unabhängig sind, ξ /J dann hat f = 1 1 ~ FJ1J2 eine F-Verteilung mit (J1, J2) Freiheitsgraden. ξ2 / J2 • Für J1 = 1 ist ξ1 eine quadrierte, normalverteilte Zufallsvariable, z.B. ξ1 = X2 , und es ergibt sich ⎛ X t =⎜ ⎜ ξ /J ⎝ 2 2 2 2 ⎞ ξ1 ~ F1,J2 ⎟ = ⎟ / J2 ξ 2 ⎠ 1.61 C. Zusammenstellung von Annahmen 1.62 A8 xt und εt sind für gegebenes t statistisch unabhängig (stärker als A 7) A9 V {ε x} = σ2 Diag{ hi2 } = σ2 Ψ A1 E{εi } = 0 i = 1,2,...N A2 {x ,… x } und {ε ,… ε } sind unabhängig A 10 E{ε⎮X} = 0 stärker als A 7, schwächer als A 8, A 2. A3 V { εi A 11 εt ~ IID (0, σ2) A4 cov { εi , εj } = 0 A 12 εt ist über die Zeit unkorreliert, mit Erwartungswert 0. A5 ε ~ N (0,σ2 IN) A 5' εi ~ NID (0,σ2) A6 1 N ∑ xi x 'i N i =1 konvergiert gegen eine finite nichtsinguläre Matrix Σxx. A7 E{xi εi} = 0 Unkorreliertheit 1 N 1 }=σ 2 N i = 1,2,…N i,j = 1,…N, i ≠ j 1.63 1.64 Literatur: Verbeek, 2008, Kapitel 1 und Appendix A und B. Greene, 2008, Appendix A und B Riphahn, R.T., M. Eschelbach, G. Heineck und S. Müller, 2010, Kosten und Nutzen der Ausbildung an Tertiärbildungsinstitutionen im Vergleich, Perspektiven der Wirtschaftspolitik. Wooldridge, 2009, Appendix A - D 1.65 Lernziele Kapitel 2: Kapitel 2: Einführung in das lineare Regressionsmodell 2.1 Lineare Regression aus algebraischer Sicht • Wie wird der Kleinstquadrateschätzer abgeleitet? 2.2 Das lineare Regressionsmodell • Was sind seine Eigenschaften, welche Annahmen werden gemacht? 2.3 Eigenschaften des Kleinstquadrateschätzers in kleinen Stichproben • Wie können wir die Erklärungskraft eines Regressionsmodells messen? 2.4 Schätzgüte • Wie lassen sich Hypothesen testen? 2.5 Hypothesentests • Was ist die Bedeutung von Multikollinearität? 2.6 Asymptotische Eigenschaften des Kleinstquadrateschätzers • Wann können wir präzise Vorhersagen machen? 2.7 Illustration 2.8 Multikollinearität 2.9 Vorhersage 2.1 2.2 yi − ⎡⎣β1 + β2 xi2 + … + βK xiK ⎤⎦ = yi − xi ' β . 2.1 Lineare Regression aus algebraischer Sicht (2.2), (2.3) • Ausgangssituation: Information über N Individuen zu Stundenlöhnen (y) und • Die Approximation von yi durch die Linearkombination xi 'β ist dann gut, andere Merkmale, z.B. Geschlecht, Alter, Ausbildung (x2, x3,…, xK). Wie lässt wenn diese Differenz klein ist. Das Kleinstquadrateverfahren sucht diejeni- sich der Zusammenhang zwischen Stundenlöhnen und Merkmalen be- gen Werte für β , die diese Differenz in quadrierter Form minimieren: ( ) schreiben? Welche Linearkombination von x2,…, xK und einer Konstanten ergibt eine gute Approximation von y? (2.1) xiK ) ' ( 2 (2.4) ) und β = β1,…, βK ' . • Wenn • Dann können wir abkürzen: N ∑xx' i =1 2.3 i i ( ) −2∑ xi yi − xi ' β = 0 (2.5) N ⎛ N ⎞ ⇔ ⎜ ∑ xi x 'i ⎟ β = ∑ xi yi i =1 ⎝ i =1 ⎠ (2.6) i =1 • Wir indexieren mit i = 1, 2,…, N und fassen in Vektoren zusammen: xi3 i =1 ) () N xi = (1 xi2 ( • Wir leiten S β nach β ab und erhalten K Normalgleichungen: • Wenn β1,…, βK Konstanten sind, könnte das so aussehen: β1 + β2 x2 + … + βK xK . N S β ≡ ∑ yi − x 'i β invertierbar ist, ergibt dies eine eindeutige Lösung für β : 2.4 −1 ⎛ N ⎞ b = ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ N N ∑xy i =1 i (2.7) i () • Die hinsichtlich der Minimierung von S β beste lineare Approximation von y sowie S(b) = ∑ ei2 , die Summe der quadrierten Residuen. • Aus der Normalgleichung ergibt sich N durch x2, x3, …, xk plus Konstante lautet: ŷi = xi 'b . (K × K ) Matrix i =1 N ∑xx' i =1 i i invertierbar ist, kann keiner der xik Werte durch eine Linearkombination der anderen x-Werte bestimmt werden. das Residuum i i • Wenn x1 = 1 (die Konstante) folgt i definieren als ei = yi − yˆ i = yi − xi 'b , dann lässt sich umformulieren yi = yˆ i + ei = xi 'b + ei (2.8) =0 (2.10) N ∑e i = 0 , d.h. das mittlere Residuum ist 0. Da yi = x 'i b + ei , folgt für die mittlere Beobachtung y = x 'b ei i i =1 d. h. der Vektor der Residuen ist orthogonal zum x-Vektor. ne allgemeine Interpretation. wir i i =1 • Da die Werte von b nur für die Stichprobe berechnet wurden, haben sie kei- • Wenn N ∑ x ( y − x ' b) = ∑ x e • Annahme der Nicht-Multikollinearität: Wenn die (2.9) i =1 y= (mit 1 ⋅ ∑ yi , N x= 1 ⋅ ∑ xi ) . N (2.11) Für die mittlere Beobachtung gibt es keine Abweichung zwischen Vorhersage und beobachtetem Wert. 2.5 2.6 • Im einffachsten Fall betrrachten wir w einen Regress sor (x) un nd eine K Konstante e, • Man erhält die beste lineare Approximation von y durch x und eine Konstan- so dass für jede es i nur ein e y (z.B B. Stunde enlohn) und eine Variable V x (z.B. AlA ter) bek kannt sin nd, was sich zweid dimension nal abbild den lässtt: te, indem man die Summe der quadrierten Residuen minimiert. • In der Graphik sind das die quadrierten vertikalen Abstände zwischen den • Abb. 2..1 Einfacche lineare Regression: Pu unktwolke e und ges schätzte Gerade Punkten und der Regressionsgeraden. • Alle vorhergesagten Werte von y liegen auf der Regressionsgeraden. • Wenn β aus zwei Unbekannten besteht, lässt sich ableiten: ( ) N ( S β1, β2 = ∑ yi − β1 − β2 xi ( i =1 ∂S β1, β2 ∂β1 ( ∂S β1, β2 ∂β2 2 2.7 ) = −2 ∑(y − β N i i =1 ) = −2 1 ) ) N i i (2.12) − β2 xi = 0 ∑ x (y − β i =1 2 1 ) − β2 xi = 0 (2.13) (2.14) 2.8 • Hinweis: Erweitert man Zähler und Nenner von (2.16) mit • Aus (2.13) folgt b1 = 1 N 1 N yi − b2 ∑ xi = y − b2 x ∑ N i =1 N i =1 (2.15) sich das Verhältnis der Stichprobenkovarianz von x und y zur Stichprobenvarianz von x. • b2 lässt sich wie folgt aus (2.14) und (2.15) bestimmen: N ⎛ N N ∑ x y − b ∑ x − ⎜⎝ ∑ x i i =1 i 1 i i =1 i =1 2 i • Frage: Was ergibt sich aus (2.15) für das mittlere Residuum? ⎞ ⎟ b2 = 0 ⎠ • Beispiel: Stichprobe von 3294 jugendlichen Erwerbstätigen aus den USA ⎛ N ⎞ ⇔ ∑ xi yi − ( y − b2 x ) ∑ xi − ⎜ ∑ xi2 ⎟ b2 = 0 i =1 i =1 ⎝ i =1 ⎠ N N von 1987, davon 1569 Frauen. Der mittlere Stundenlohn für Männer ist $ ⎛ N ⎞ ⇔ ∑ xi yi − N ⋅ x ⋅ y − b2 ⎜ ∑ xi2 − N x2 ⎟ = 0 , i =1 ⎝ i =1 ⎠ 6,31 und für Frauen $ 5,15. Die Regression der Stundenlöhne auf eine N N [da N ⋅ x = ∑ xi ] i =1 Dummyvariable (xi) für das Geschlecht (1 = männlich, 0 = weiblich) ergibt: ŷi = 5,15 + 1,17xi N ⇔ b2 = ∑ ( x − x )( y − y ) i i =1 i N (2.16) ∑(x − x) i =1 2 i 2.9 • Interpretation: Approximation des Lohnes für Frauen: $ 5,15 und für Männer 5,15 + 1,17 = $ 6,31. Dies entspricht den beobachteten Mittelwerten, da N b1 = yf und b2 = ym − yf , mit ym = ∑x y i =1 N i i ∑x i =1 N und yf = i ∑ (1 − x ) y i =1 N i i i =1 x1K ⎞ ⎛ x '1 ⎞ ⎟ ⎜ ⎟ ⎟ = ⎜ ⎟, xNK ⎟⎠ ⎜⎝ x 'N ⎟⎠ 2.10 • Damit: ( ) ( )( ) ∂S ( β ) = −2 ( X ' y − X' Xβ ) = 0 ∂β S β = y − Xβ ' y − Xβ = y ' y − 2y ' Xβ + β ' X' Xβ ⇔ b = ( X ' X ) X' y , −1 ∑ (1 − x ) i (2.17) (2.18) (2.19) vorausgesetzt, X’X ist invertierbar. • Wir benutzen gelegentlich folgende abkürzende Schreibweise: ⎛ 1 x12 ⎜ X =⎜ N×K ⎜1 x N2 ⎝ 1 , so ergibt N −1 • Wir können y zerlegen: ⎛ y1 ⎞ ⎜ ⎟ y =⎜ ⎟ N×1 ⎜y ⎟ ⎝ N⎠ y = Xb + e N×1 N×K K ×1 (2.20) N×1 • Die Bedingung erster Ordnung (2.18) fordert X'(y − Xb) = 0 2.11 ⇔ X' e = 0 , N×K K ×1 (2.21) 2.12 d.h. jede Spalte von X ist orthogonal (linear unabhängig) zum Vektor der Residuen. • Hinweis: Px Px = Px und Mx Mx = Mx aber wegen Orthogonalität Mx Px = 0 • Es lässt sich umformen: • Letztlich sind also ŷ und e, sowie X und e orthogonal. y = Xb + e = X(X' X) X' y + e = yˆ + e −1 (2.22) ⇒ ŷ = Xb = X(X' X)−1 X' y = Px y . • Die Matrix Px ≡ X(X ' X)−1 X' wird als Projektionsmatrix beschrieben, da sie den Vektor y auf den Spaltenraum von X projiziert. Das Residuum e ist orthogonal zur Projektion von y, X b: e = y – X b =(I – Px) y = Mx y • e repräsentiert die Projektion von y auf einen Vektorraum, der orthogonal zu dem ist, den die Spalten von X aufspannen. 2.13 • Meist betrachtet man xi als deterministisch, nicht-stochastisch, wie in einem 2.2 Das lineare Regressionsmodell • Ziel der Analyse ist es normalerweise, allgemeine Aussagen über Zusammenhänge zwischen Variablen abzuleiten, nicht y zu approximieren. yi = β1 + β2 xi2 + ... + βK xiK + εi (2.24) yi = xi ' β + εi (2.25) • yi, xi sind beobachtbare Variablen, εi ist ein unbeobachtbarer Störterm. β sind die unbekannten, wahren Bevölkerungsparameter. Da wir die Daten nur für eine Zufallsstichprobe vorliegen haben, betrachten wir yi und εi immer und xi manchmal als Zufallsvariablen. In Matrixschreibweise: y = Xb + ε N×K K ×1 N×1 Laborexperiment fest vorgegeben. Jede neue Stichprobe hätte die gleichen x Werte und würde sich nur durch die Werte für εi und yi unterscheiden. • Man unterstellt Zufallsstichproben, die Fehlerterme werden unabhängig für • Man unterstellt ein statistisches Modell, das für die Grundgesamtheit gilt: N×1 2.14 (2.26) 2.15 jede Beobachtung aus der Bevölkerungsverteilung gezogen. • Gelegentlich betrachtet man die Werte für xi als stochastisch. Die Zufallsziehung betrifft dann (xi,εi) oder (xi,yi) und es müssen Annahmen dazu getroffen werden, ob die Verteilung der εi von X abhängt. • Eine Annahme an unser statistisches Modell (2.25) besagt, dass die xVariablen exogen sind: E {εi | xi } = 0 , bei jeder Kombination erklärender Variablen ist der erwartete Wert des Störterms Null. Daher folgt: 2.16 E { yi xi } = x 'i β (2.27) • Die Koeffizienten βk beschreiben die Änderung im Erwartungswert von y, wenn xik sich ändert und die anderen Werte von xi konstant bleiben (ceteris • b ist ein Vektor von Zufallsvariablen, da es über eine Stichprobe bestimmt wurde. Es approximiert den Vektor der wahren Werte β. Uns interessiert die Qualität des Schätzverfahrens. paribus). Eine kausale Interpretation ist nicht in allen Fällen gerechtfertigt. • Ein Schätzer (Schätzverfahren, estimator) beschreibt, wie eine Approximation für β bestimmt wird. Der geschätzte Wert für β in einer konkreten Stichprobe (estimate) ist davon zu unterscheiden. • Der Kleinstquadrateschätzer (ein Schätzverfahren) für β lautet: −1 ⎛ N ⎞ b = ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ N ∑xy i =1 i (2.28) i 2.17 2.18 E { ε } = 0 und V { ε} = σ2 IN 2.3 Eigenschaften des Kleinstquadrateschätzers in kleinen Stichproben (N×N) • Gauss-Markov-Annahmen A1: E { εi } = 0 , • Die Annahme A2 der Unabhängigkeit impliziert { x ,...,x } 1 N sind unabhängig. A3: V { εi } = σ , i = 1,2, …, N A4: cov { εi , εj } = 0 i,j = 1, …, N, 2 besagt, (2.30) V { ε | X } = V { ε } = σ2 IN . (2.31) und i≠j Die Gleichheit der bedingten und unbedingten Werte besagt, dass man aus • Interpretation: Aus A1 folgt, dass die Regressionsgerade im Mittel korrekt ist. A3 E{ ε | X } = E{ ε } = 0 i = 1,2, …, N A2: { ε1,..., εN } und dass alle (2.29) Fehlerterme die gleiche Varianz haben (Homoskedastie), A4 schließt Autokorrelation aus, da verschiedene Feh- Kenntnis der X-Werte für Erwartungswert und Varianz von ε nichts hinzulernen kann. Das ist automatisch der Fall, wenn X eine deterministische, nichtstochastische Matrix ist. lerterme nicht korreliert sind. Diese drei Annahmen können zusammengefasst werden: 2.19 2.20 • KQ Eigenschaft 1: Unter den Annahmen A1-A4 ist der KQ-Schätzer unverzerrt, d.h. in wiederholten Stichproben nimmt der Schätzer im Mittel den • KQ-Eigenschaft 2: Die Streuung des KQ Schätzers wird wie folgt beschrieben −1 wahren Wert β an: E{b} = β. −1 ⎛ N ⎞ V { b | X } = σ2 ( X' X ) = σ2 ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ { ( X ' X ) X ' y } = E { ( X ' X ) X ' ( Xβ + ε ) } = E{ β + ( X ' X) X ' ε } = β + E{ ( X ' X) X ' ε } = β + E{ ( X ' X) X ' } ⋅ E{ ε } = β Beweis: E {b} = E −1 −1 −1 (2.32) Unterstellt man nicht-stochastische Werte für X, so vereinfacht sich die −1 Schreibweise zu V{b}. −1 Herleitung in Matrixnotation bei nicht-stochastischen X: V { b } = E { (b − β ) (b − β ) ' } = E Nur A1 und A2 müssen erfüllt sein, damit dies gilt. { ( X' X ) −1 X ' ε ε ' X ( X ' X) −1 } = ( X ' X ) X ' ( σ2 IN ) X(X ' X)−1 = σ2 (X ' X)−1 −1 2.21 • Gauss-Markov-Theorem: Unter den Annahmen A1-A4 ist der KQ-Schätzer 2.22 ~ s 2 ist ein verzerrter Schätzer für σ2, unverzerrt ist (unter Ann. A1-A4): der beste, lineare, unverzerrte Schätzer für β (Best Linear Unbiased s2 = Estimator, BLUE). 1 N 2 ∑ ei . N − K i =1 (2.35) − lineare Schätzer lassen sich darstellen als b~ = Ay , A ist eine K x N Matrix Die Freiheitsgrade müssen um die bereits geschätzten K Parameter korri- − für unverzerrte Schätzer gilt E {Ay} = β giert werden. Daher (bei KQ: A = (X' X)−1 X' ) −1 − der KQ Schätzer ist der beste im Sinne der kleinsten Varianz: V { bKQ } ≤ V bk k { } • Um V { b} = σ2 (X' X)−1 , die Varianz der Koeffizienten, zu schätzen, brauchen 1 N 2 ∑ ei . N − 1 i =1 (2.36) Für jedes Element bk ist seine Varianz s2ckk ein Maß für die Präzision der −1 Schätzung. Dabei ist ckk das (k,k)te Element von ( ∑ xi x 'i ) . Die Wurzel der Varianz ist der Standardfehler se ( bk ) = s ⋅ ckk . wir einen Schätzer für σ2, die Varianz des Störterms. s2 = ⎛ N ⎞ V̂ { b } = s2 (X' X)−1 = s2 ⎜ ∑ xi x 'i ⎟ . ⎝ i =1 ⎠ (2.34) • Verteilung der Fehlerterme: Typische Annahme: unabhängig normalverteilte Fehlerterme: 2.23 2.24 A5: ε ∼ N(0, σ2IN) • Beispiel: Statistisches Modell: wagei = β1 + β2 malei + εi A5 schließt A1, A3, A4 mit ein und wird auch wie folgt dargestellt A5’: εi ∼ NID(0, σ2) wage ist der individuelle Lohn, male eine Dummyvariable für das Geschlecht (NID: Normaly and Independently Distributed). Dies impliziert auch eine von i: Unter der Annahme E{εi} = 0 und E{εi|malei} = 0 folgt Normalverteilung für yi (bei gegebenen oder deterministischen xi). E{wagei|malei=0} = β1 der erwartete Lohn für Frauen E{wagei|malei=1} = β1 + β2 der erwartete Lohn für Männer. • Unter den Annahmen A2, A5 und deterministischen X folgt b ∼ N ( β, σ (X' X) 2 −1 ), (2.38) Die Schätzergebnisse unter A1-A4: da b eine Linearkombination aller εi ist. Es impliziert bk ∼ N ( βk , σ2 ckk ) , (2.39) wobei ckk das (k,k)te Element von (X' X)−1 ist. 2.25 Tab. 2.1 1 KQ-Ergebnisse der Lohn ngleichung 2.26 2.4 Schätzgüte • Wie gut passt die geschätzte Regressionsgerade zu den Daten? Klassisches Maß: Anteil der durch das Modell erklärten Stichprobenvarianz von y, R2: R = 2 Vˆ { yˆ i } V̂ { yi } 1 = Die Ang gaben zu den Stan ndardfehlern erlau uben uns s, Hypothesen zu ttesten. 1 N (N − 1) ∑ ( yˆ i − y) (N − 1) ∑ ( y − y) i =1 N i =1 wobei ŷi = x 'i b und y = i 2 2 , (2.40) 1 ∑ i yi N • Da yi = x 'i b + ei , lässt sich ableiten: ˆ { x 'i b,ei } Vˆ { yi } = Vˆ { x 'i b + ei } = Vˆ { x 'i b } + Vˆ { ei } + 2 Cov 2.2 27 2.28 • Gemäß Normalgleichung sind xi und εi unabhängig, d.h. N ∑ex i =1 i ik = 0 , k = 1, … mit Konstante führt zu R2 = 0. Wenn alle ei = 0, dann R2 = 1. K. • Beispiel: In Tabelle 2.1 wird 3,2% der Variation in y durch das Modell er- • Da x 'i b = ŷ , folgt Vˆ { yi } = Vˆ { yˆ i } + Vˆ { ei } (2.41) klärt, anscheinend sind Geschlechterunterschiede kein zentraler Faktor. • Die Größe von R2 hängt ab von der Art der abhängigen Variablen und des • Also lässt sich R2 auflösen zu N R2 = • Solange das Modell eine Konstante enthält, gilt 0 ≤ R2 ≤ 1. Ein Modell nur 1 (N − 1) ∑ e Vˆ ( yˆ i ) Vˆ ( ei ) i =1 = 1− = 1− N 2 Vˆ ( yˆ i ) + Vˆ ( ei ) Vˆ ( yi ) 1 (N − 1) ∑ ( yi − y ) 2 i Datensatzes. R2 misst nicht die Qualität des Modells, sondern die lineare (2.42) Anpassung des Spaltenraumes von x an y. • Bei zusätzlichen erklärenden Variablen xik kann das R2 nicht sinken, selbst i =1 Die Stichprobenvarianz von yi kann in zwei Teile aufgeteilt werden. R2 beschreibt den Anteil der Gesamtvarianz, der durch das Modell erklärt wird. wenn die zusätzlichen Variablen keinen Erklärungsgehalt haben. Das angepasste R2 berücksichtigt die zur Schätzung benötigten Freiheitsgrade: 2.29 1 R = 1− 2 N (N − K ) ∑ e i =1 1 N (N − 1) ∑ ( y i =1 i 2 i − y) 2 (2.45) • Dieses Maß kann sinken und negativ werden, wenn berücksichtigte erklärende Variablen keinen Erklärungsbeitrag leisten. 2.30 2.5 Hypothesentests • Unter A1 – A5 ergab sich für den KQ-Schätzer: b ∼ N ( β, σ2 (X' X)−1 ) . • Daraus folgt: z = bk − βk σ ckk ∼ N(0,1); wobei βk und σ unbekannt sind. • σ kann durch den unverzerrten Schätzer s, mit s2 = • Sucht man nach einem Modell mit besonders hohem R2, so läuft man Gefahr, ein Modell für die vorliegende Stichprobe zu spezifizieren. 1 N 2 ∑ ei , ersetzt werN − K i =1 den. • Die Summe quadrierter, standardnormalverteilter Zufallsvariablen ist Chiquadrat verteilt: 2 ⎛ ei ⎞ 2 ∑ ⎜ ⎟ ∼ χN i =1 ⎝ σ ⎠ N 2.31 2.32 tk = • Setzt man für die wahren, unbeobachteten Störterme ei die beobachteten Werte der Stichprobe ein, so folgt: ∑ ê 2 i σ 2 (N − K ) s 2 = σ 2 ~ χN2 −K (2.47) bk − βk s ckk ~ tN−K (2.48) Je größer N-K, umso ähnlicher wird die t- der Normalverteilung. Hier hat die χ2-Verteilung nur N-K Freiheitsgrade, da nur N-K der Störterme statistisch unabhängig sind. • Das Verhältnis von unabhängigen standardnormalverteilten (z) und χ2verteilten Zufallsvariablen ( V ~ χM2 ) ist t-verteilt, wenn man umformt: t= z V /m ~ tm • Für unseren Fall ergibt sich: 2.33 2.34 • Beispiel: H0 : βk = βk0 2.5.1 Einfacher t-Test • Grundidee: Die t-Verteilung ist symmetrisch um 0 und t-verteilte Zufallsvariablen liegen mit hoher Wahrscheinlichkeit bei 0. Es ist unwahrscheinlich, un- Wenn H0 zutrifft, ist tk = ( βk0 sei ein konkreter Wert) bk − βk0 t-verteilt, mit N-K Freiheitsgraden. se ( bk ) Trifft H0 nicht zu, dann gilt die Alternativhypothese, z.B. H1 : βk ≠ βk0 . ter der t-Verteilung sehr hohe oder sehr niedrige Werte vorzufinden. • Beispiel: Bei N – K = 100 – 10 = 90 Freiheitsgraden liegen im Mittel 5% der • Man berechnet tk auf Basis von Schätzergebnissen für bk und se(bk). Nimmt t-verteilten Zufallsvariablen oberhalb von 1,662 und unterhalb von –1,662, tk hohe Werte an, so wird H0 verworfen. Man bestimmt hierfür „kritische Wer- bzw. 1% oberhalb von 2,368 und unterhalb von –2,368. te“, die von einem zuvor bestimmten Signifikanzniveau α abhängen. α be- • Beim Testen geht man davon aus, dass die Nullhypothese (H0) gilt. Unter dieser Annahme folgt die t-Teststatistik der t-Verteilung. Wenn nun die berechnete Teststatistik betraglich große Werte annimmt, schließt man, dass die Nullhypothese nicht gilt, da solche Werte unter der t-Verteilung unwahr- schreibt die Wahrscheinlichkeit, mit der unter der unterstellten Verteilung Werte jenseits des kritischen Wertes t α vorkommen: N − K; 2 ⎧ ⎫ P ⎨| tk | > t α ⎬ = α N − K; 2 ⎭ ⎩ scheinlich sind. 2.35 2.36 Für α wird meist 1, 5 oder 10 Prozent gewählt. Am 10% Niveau werden also Bei N – K = 90 Freiheitsgraden verwerfen wir am 5% Signifikanzniveau H0, im Beispiel mit N – K = 90 Freiheitsgraden alle Nullhypothesen verworfen, wenn tk > 1,662 und am 1% Niveau, wenn tk > 2,368. für die der Betrag der Teststatistik tk größer als 1,662 ist. • Die Nullhypothese H0: βk = 0 wird von der Regressionssoftware meist auto- • Bei zweiseitigen Tests wird die Nullhypothese zugunsten der Alternativhypo- matisch getestet. Berechnet wird „der t-Wert“ these sowohl abgelehnt, wenn tk zu groß ist, als auch wenn es zu klein ist. tk = • Bei einseitigen Tests wird nur eine mögliche Alternative betrachtet, z.B. Kann man H0 am α-Signifikanzniveau verwerfen, so sagt man, dass bk am α- H0: βk ≤ βk0 H1: βk > βk0 H0 wird nur verworfen, wenn tk zu groß ist (wenn tk negative Werte annimmt, einen Wertebereich für den Parameter βk, der alle βk0 umfasst, für die • Der kritische Wert für einseitige Tests bestimmt sich daher wie folgt: H0: βk = βk0 nicht verworfen werden kann. Dieses Intervall lässt sich wie folgt P {tk > tN−K;α } = α −t N − K; N − K; ⇔ bk − t Signifikanzniveau statistisch signifikant (von Null verschieden) ist. • Neben Punktschätzern gibt es auch Intervallschätzer. Diese beschreiben wird H0 nicht verworfen). ⇔ −t bk − 0 bk = se ( bk ) se ( bk ) α 2 α 2 < ableiten: Unter H0 gilt mit Wahrscheinlichkeit 1–α, dass bk − βk < t α N − K; se ( bk ) 2 ⋅ se ( bk ) < bk − βk < t N − K; N − K; α 2 ⋅ se ( bk ) < βk < bk + t α 2 2.37 2.38 (2.50) • Für ein konkretes Konfidenzintervall ist die Aussage, dass es β enthält, entweder wahr oder falsch. Eine Wahrscheinlichkeitsaussage ist nur im Zu- ⋅ se ( bk ) N − K; α 2 ⋅ se ( bk ) sammenhang mit Zufallsvariablen, nicht mit konkreten Ausprägungen zuläs(2.51) sig. • Bei einer hohen Zahl von Freiheitsgraden ist tN−K;0,025 = 1,96 , so dass das 95% Konfidenzintervall für βk so aussieht: ⎡⎣bk − 1,96 ⋅ se ( bk ) ; bk + 1,96 ⋅ se ( bk ) ⎤⎦ (2.52) • Interpretation: Bei wiederholten Stichproben enthalten 95% aller auf diese Weise berechneten Konfidenzintervalle den wahren Wert βk, der eine nichtstochastische, unbekannte Zahl ist. Ein zufällig gewähltes Konfidenzintervall enthält das wahre β mit der Wahrscheinlichkeit von 95%. 2.39 2.40 • Kritischer t-Wert bei N = 3294 und K = 2 am 5%-Niveau für zweiseitigen 2.5 5.2 Beisp piel Test: t3292; 0,025 = 1,96. • Tab. 2..1: KQ-Errgebnisse e Lohngle eichung • Da 10,38 > 1,96, wird H0 verworfen; es wäre extrem unwahrscheinlich, in einer t-Verteilung den Wert 10,38 anzutreffen. Also ist die Teststatistik vermutlich nicht t-verteilt und die Nullhypothese trifft nicht zu. • Konfidenzintervall: • Wir tes sten die sstatistisch he Signifik kanz des s Koeffizie enten der Variable en male: H0: βmalee = 0 t= (1,1661 − 1,96 ⋅ 0,1122; 1,1661 + 1,96 ⋅ 0,1122 ) = ( 0,946; 1,386 ) Dies bedeutet nicht, dass βmale tatsächlich in diesem Intervall liegt und auch H1: βmale ≠ 0 nicht, dass es mit 95%-Wahrscheinlichkeit in diesem Intervall liegt. Aber mit 1,1661 1− 0 = 10,38 3 0,1122 diesem Verfahren wäre in wiederholten Stichproben in 95% der Fälle das wahre βmale im Intervall enthalten. 2.42 2.4 41 • Zusammenhang: Preis und offene Bewertung 2.5.3 Illustration Priilaid und Rensburg, 2006, Nonlinearity in the hedonic pricing of South African red wines, International Journal of Wine Marketing 18(3), 166-182. • Fragestellung: Was bestimmt den Preis eines Weines? Wie groß ist der Einfluss verschiedener Determinanten? • Daten: 537 Sorten südafrikanischer Rotweine 2004 mit Information zu Preis, Rebsorte, Weinqualitätsmaße (blinde und offene Bewertung) 2.43 2.44 K • Schätzgleichung: pricei = α + ∑ bk xk + εi • Zusammenhang: Preis und blinde Bewertung k =1 i = Index der Weine k α = Regressionskonstante = bk = Index der Determinanten Koeffizient des Merkmals k ε = Störterm • Interpretation: Intrinsischer Werti = Preisi – εi K = α + ∑ bk xk k =1 2.45 • Schätzergebnisse lineares Modell: 2.46 2.5.4 Tests der gemeinsamen Signifikanz von Regressionskoeffizienten Modell 1 Koeff. t Modell 2 Koeff. t Constant 24.03 3.50 -75.70 -7.04 (mit J < K): H0: βK-J+1 = … = βK = 0. Cabernet 21.00 4.57 9.45 2.38 Alternativhypothese H1: wenigstens einer der J Koeffizienten ist ≠ 0. Merlot 10.04 2.51 8.74 2.39 Shiraz 21.20 5.04 17.14 4.78 Pinot-Noir 28.53 3.38 37.22 5.23 Pinotage (Referenz) Blind-Bewertung 2.62 5.05 – – Offene Bewertung ("Platter") 2 • Nullhypothese, dass Teilgruppe J der K-1 Steigungsparameter gleich Null ist. • Testidee: Vergleiche die Summe der quadrierten Residuen aus der Regression mit J Parametern (S1) mit der des restringierten Modells ohne die J Parameter (S0). Unter der Nullhypothese sollten S0 und S1 ungefähr gleich sein. (Referenz) – 37.58 Adj. R 13.01 30.35 n 537 537 Teststatistik: – 12.58 f= (S 0 − S1 ) / J S1 / (N − K) ~ FJ,N−K (2.58) • Es lässt sich zeigen, dass f auch wie folgt bestimmt werden kann: 2.47 2.48 f= (R 2 1 − R02 ) / J (1 − R12 ) / (N − K) , (2.59) Grund: bei t-Tests wird die Korrelation zwischen Parameterschätzern nicht berücksichtigt, bei F-Tests jedoch sehr wohl. R12 und R02 messen die Schätzgüte für das unrestringierte und restringierte Modell. • Häufige Anwendung des F-Tests: H0: β2 = β3 = … = βK = 0 (alle Steigungsparameter). Hier kann die Teststatistik geschrieben werden als • Wenn f große Werte annimmt, sollte die H0 verworfen werden. Die kritischen Werte für den F-Test werden einseitig bestimmt, P { f > FJ,N−K;α } = α , wobei α das Signifikanzniveau angibt. so dass f= (S 0 − S1 ) / (K − 1) S1 / (N − K) gilt , (2.60) wobei S1 = ∑ ei2 und S0 die Fehlerquadratsumme eines Modells ist, das lei = 2,76 . • Beispiel: Für N – K = 60 und J = 3 ist F krit. 3,60; 0,05 diglich aus einem Achsenabschnittsparameter besteht: S0 = ∑ ( yi − y ) . Da • Es ist möglich, dass eine Gruppe von Koeffizienten einzeln insignifikant und hier R02 = 0 , lässt sich die Teststatistik auch wie folgt schreiben: 2 i gemeinsam signifikant ist, d.h. H0: β2 = 0 und H0: β3 = 0 wird nicht verworfen, F= aber H0: β2 = β3 = 0 kann verworfen werden. Auch das Gegenteil ist möglich. 2.49 R2 / (K − 1) (1 − R2 ) / (N − K) . 2.50 2.5.5 Beispiel • Geschätzt wird das Modell wagei = β1 + β2 malei + β3 schooli + β4 experi + εi , wobei school die Dauer der Schulausbildung abbildet und exper die Arbeitserfahrung in Jahren. Nun werden alle Koeffizienten „ceteris paribus“ interpretiert, d.h. β2 beschreibt den Unterschied im Lohn für Männer und Frauen gleicher Schulausbildung und Arbeitserfahrung. Der mittlere Lo ohnunters schied zw wischen Männern n und Frrauen be eträgt nu un 1,34. Alle A drei Steigung gsparame eter sind d einzeln statistis sch signiffikant. Eiin zusätzlliches Scchuljahr erhöht e den Lohn um 0,64, ein e weiteres Jahr Arbeitser- Tab. 2.2: KQ-Ergebnisse Lohngleichung fahrung g um 0,12 25. • Die Hy ypothese, dass alle e Steigun ngsparam meter = 0 sind, wird deutlicch verworfen: F3,33290;0,05 = 2 2,60 < 167 7,63 . 2.51 2.5 52 • Im Vergleich zum Modell in Tabelle 2.1 ist das R2 deutlich von 0,03 auf 0,13 gestiegen. Ein Test auf gemeinsame Signifikanz der Koeffizienten β3 und β4 lautet daher 2.5.6 Allgemeine Form des F-Tests • Allgemeine Form für J lineare Restriktionen: Rβ = q, wobei R eine J x K Matrix ist (wir unterstellen Nichtsingularität), q ist ein J dimensionaler Vektor. ( 0,1326 − 0,0317 ) / 2 f= = 191,35 > 3,00 = F (1 − 0,1326 ) / ( 3294 − 4 ) • Beispiel: 2,3290;0,05 Somit verbessern die zusätzlichen Variablen den Erklärungsgehalt des Modells signifikant. Restriktion 1 β2 + β3 +…+ βK = 1 Restriktion 2 β2 = β3 ⎛0 mit J = 2 gilt R = ⎜ ⎝0 1 1 1 ... −1 0 1⎞ , 0 ⎟⎠ ... ... ⎛ 1⎞ q = ⎜ ⎟. ⎝0⎠ • In den meisten Fällen kann das Modell unter den Restriktionen geschätzt werden, so dass der normale F-Test verwendet werden kann. Wenn dies z.B. wegen der Komplexität der Nullhypothese nicht möglich ist, nutzt man die Tatsache, dass 2.53 ( ) Rb ~ N Rβ, σ2R ( X ' X ) R ' , −1 2.54 2 • Alternativ nutzt man, dass (N-K)s2 / σ2 ~ χN-K und leitet unter der Annahme um über die quadratische Form eine χ 2 -verteilte Teststatistik abzuleiten. Es zweier unabhängig χ2-verteilter Zufallsvariablen aus ξ und (2.47) einen fTest ab: gilt (Rb − q) ' (R ( X X ) −1 ' ξ= σ2 R' ) −1 (Rb − q) (Rb − q) ' ( σ R ( X X ) 2 f ~ χ2J • Das unbekannte σ2 muss ersetzt werden durch s2. Nun gibt es zwei Möglichkeiten: Entweder man ersetzt σ2 durch s2, dann ist die Teststatistik ap- = R' ) −1 (Rb − q) / J ⎡⎣(N − K ) s2 / σ2 ⎤⎦ / (N − K ) (Rb − q) ' (R ( X X ) ' = −1 ' −1 Js2 R' ) −1 (Rb − q) ~ FJ,N−K (unter H0) proximativ χ2-verteilt (unter der Nullhypothese). Dies wird als Wald Test bezeichnet. 2.55 2.56 2.5.7 Signifikanz, Teststärke und p-Wert Stichprobe • Fehlertypen beim statistischen Testen von Hypothesen: Bevölkerung Typ I Fehler: Die zutreffende Nullhypothese wird verworfen. Typ II Fehler: Die nicht zutreffende Nullhypothese wird nicht verworfen. α/2 Typ I • Die Wahrscheinlichkeit eines Typ I Fehlers kontrollieren wir mit dem Typ II (Fehlerwahrscheinlichkeit β) Signifikanzniveau α. Bei einem Test am 5% Signifikanzniveau beträgt die Typ I Fehlerwahrscheinlichkeit 5% (α = size of the test). α/2 Typ I • Man bezeichnet die Wahrscheinlichkeit, dass die Nullhypothese abgelehnt • Die Wahrscheinlichkeit eines Typ II Fehlers (β) hängt vom wahren Parameterwert ab. Je weiter dieser von der Nullhypothese abweicht, umso kleiner ist die Typ II Fehlerwahrscheinlichkeit. wird, wenn sie falsch ist, als die Teststärke (Power) eines Testes: 1-β. Auch diese ist vom wahren Parameterwert abhängig. • Zusammenhang zwischen Typ I und Typ II Fehlern: Je größer α, umso kleiner β. 2.57 2.58 • Je größer die Stichprobe N, umso kleiner die Streuung des geschätzten Pa- der Nullhypothese die Wahrscheinlichkeit, eine Teststatistik zu finden, die rameters. Beim Signifikanztest steigt die Wahrscheinlichkeit, H0 zu verwer- größer als die empirisch auf Basis der Stichprobe bestimmte Teststatistik ist. fen. Die Wahrscheinlichkeit eines Typ II Fehlers sinkt. Um dies auszugleichen, werden bei großen Stichproben geringere Werte für α festgelegt (geringere α Werte steigern die β Wahrscheinlichkeit). Während bei kleinen Stichproben α = 0,1 relevant ist, betrachtet man bei großen eher α = 0,01. • Wenn p < α, wird H0 verworfen. • Beispiel: Bei einem Signifikanztest H0: β = 0 mit p = 0,08 würde H0 am α = 10% Niveau verworfen, am α = 5% Niveau nicht. • Eine nicht verworfene Nullhypothese impliziert nicht, dass H0 wahr ist. Es ist möglich, dass verschiedene Nullhypothesen bei gegebener Datenlage nicht verworfen werden können. Dennoch können nicht alle wahr sein. Dies zeigt dann, dass die Tests nicht mächtig sind. • Der p-Wert (probability value) gibt den kleinstmöglichen α Wert an, unter dem eine Nullhypothese noch verworfen würde. Der p-Wert beschreibt unter 2.59 2.60 2.6 Asymptotische Eigenschaften des KQ Schätzers 2.6.1 Konsistenz • Es gibt viele Situationen, in denen die beschriebenen Eigenschaften des KQ • Im linearen Modell hat der KQ Schätzer die folgenden Momente: Schätzers nicht mehr zutreffen. Ist ε nicht normalverteilt, dann auch nicht b, E {b} = β sind ε und X nicht orthogonal, so ist b kein unverzerrter Schätzer, trifft −1 −1 ⎛ N ⎞ V {b} = σ2 ⎜ ∑ xi xi' ⎟ = σ2 ( X' X ) ⎝ i =1 ⎠ V {εi } = σ2 nicht zu, ist der KQ Schätzer nicht mehr BLUE. • Um die Eigenschaften von Schätzern außerhalb enger Annahmen beschreiben zu können, definiert man für den Fall von N → ∞ asymptotische Eigenschaften von Schätzern. (2.65) (2.66) • Ohne Annahme einer Normalverteilung der Störterme lässt sich über die Verteilung von b wenig sagen. • Die Ungleichung von Chebycheff besagt, dass die Wahrscheinlichkeit, dass eine Zufallsvariable z um mehr als den Betrag δ von ihrem Mittelwert abweicht, nicht größer sein kann als die Varianz der Zufallsvariable geteilt durch δ2: 2.61 P { | z − E {z} | > δ} < V {z} für alle δ > 0 δ2 (2.67) P { | bk − βk | > δ} < δ2 grenzwert (probability limit, plim) von bk ist βk: σ ckk für alle δ > 0, δ2 2 = wobei ckk das (k,k)te Element von Wenn N → ∞ , wächst ( X' X ) −1 (2.68) −1 ⎛ N ⎞ = ⎜ ∑ xi xi ' ⎟ ⎝ i =1 ⎠ ist. Entscheidend: ∑ xi xi ' und Var{bk} fällt. Unter der Annahme, dass ∑ xx konvergiert, (A6) N →∞ für alle δ > 0 Schätzer, die zum wahren Wert konvergieren, bzw. deren Wahrscheinlich- Schätzers um den unbekannten wahren Wert. • Konsistenz ist eine large sample property. Konsistente Schätzer treffen bei folgt: lim P { | bk − βk | > δ} = 0 (2.70) • Intuition: Je größer die Stichprobe, umso kleiner wird die Streuung des i =1 1 ∑ xi xi ' für N → ∞ gegen eine nichtsinguläre Matrix N i =1 plim b = β. keitsgrenzwert dem wahren Wert entspricht, sind konsistent. N N Asymptotisch ist die Wahrscheinlichkeit, dass der KQ-Schätzer sich um mehr als δ von seinem Erwartungswert entfernt, 0. Der Wahrscheinlichkeits- • Für KQ-Koeffizienten: V {bk } 2.62 ausreichendem Stichprobenumfang N den wahren Wert mit beliebiger Ge(2.69) 2.63 2.64 nauigkeit. Diese Eigenschaft ist insbesondere dann von Interesse, wenn Dies impliziert z.B. dass, wenn s2 ein konsistenter Schätzer für σ2 ist, s ein man die Unverzerrtheit eines Schätzers nicht nachweisen kann. konsistenter Schätzer für σ ist, eine Eigenschaft, die für Unverzerrtheit und 2 Erwartungswerte nicht gilt: E {s} ≠ E {s2 } . f(bB) f(bA) N1 < N2 < N3 N1 < N2 < N3 N3 • Man kann zeigen, dass der KQ Schätzer auch unter schwächeren Annah- N3 N2 men als A1–A4 konsistent ist: N2 β A b B −1 ⎛ N ⎞ b = ⎜ ∑ xi xi ' ⎟ ⎝ i =1 ⎠ N1 N1 β A A b B (2.72) −1 ⎛1 ⎞ 1 = β + ⎜ ∑ xi xi ' ⎟ ∑ xi εi ⎝N ⎠ N B Schätzer b und b sind konsistent. b ist unverzerrt, b ist verzerrt. • Bei plim b = β und für die stetige Funktion g gilt für den Wahrscheinlichkeitsgrenzwert die Rechenregel plim g(b) = g(β). −1 ⎛1 ⎞ 1 xi yi = ⎜ ∑ xi xi ' ⎟ ∑ xi yi ∑ i =1 ⎝N ⎠ N N (2.71) Wenn N groß wird, konvergieren die Mittelwerte von xi xi' und xi εi zum Mittel1 N wert der Grundgesamtheit. Unter der Annahme A6 konvergiert ∑ xi xi ' für N i =1 N → ∞ gegen ∑ xx , so dass 2.65 plim ( b − β ) = ∑ −xx1 E {xi εi } . (2.73) 2.6.2 Asymptotische Normalverteilung • Ist die Verteilung eines Schätzers für kleine Stichproben unbekannt, so kann Der KQ Schätzer ist daher konsistent, wenn E {xi εi } = 0. 2.66 (A7) • Die Konsistenz von KQ-Schätzern ergibt sich bereits aus den Annahmen (A6) und (A7). Diese Bedingungen reichen zum Nachweis der Unverzerrtheit nicht aus. Hierzu benötigt man (A1) – (A4). man seine asymptotische Verteilung bestimmen. Die meisten Schätzer sind asymptotisch normalverteilt, d.h. für N → ∞ folgt N βˆ − β der Normal- ( ) verteilung. ( ) • Da asymptotisch β̂ = β (bei konsistenten Schätzern) hat β̂ − β eine degene- • Der KQ-Schätzer s2 für die Varianz des Störterms σ2 ist unter den Annah- rierte Verteilung, d.h. für N → ∞ ist die gesamte Wahrscheinlichkeitsmasse auf der Null: Es folgt P βˆ − β = 0 = 1. Betrachtet man statt dessen men (A6), (A7), (A3) und weiteren Regularitätsannahmen ebenfalls konsis- N βˆ − β , erhält man eine nicht degenerierte Normalverteilung mit der Kon- tent. Je größer die N, umso genauer schätzt b β, umso verlässlicher schätzen die geschätzten Störterme die wahren ε und V{ε} das wahre σ2 . ( {( ) vergenzrate ) } N . Greene (2008) nennt die Multiplikation mit N eine "stabili- sierende Transformation". 2.67 2.68 • Es lässt sich zeigen, dass unter den Annahmen (A1) – (A4) in Kombination mit (A6) Dies gilt auch für kleine Stichproben und ist umso genauer, je größer die Stichprobe. N ( b − β ) → N ( 0, σ 2 ∑ ), −1 xx (2.74) man sagt, der KQ-Schätzer ist asymptotisch normalverteilt mit der VarianzKovarianz-Matrix σ2 ∑ −xx1 . • Da der KQ-Schätzer unabhängig von der Verteilung der Störterme asymptotisch normalverteilt ist, sind die Ableitungen der Verteilungen der t- und FStatistiken asymptotisch zutreffend, auch ohne normalverteilte Störterme. • Da die t-Verteilung für N → ∞ zur Normalverteilung konvergiert, werden oft • Bei kleineren Stichproben spricht man von approximativer Verteilung: a ( b ~ N β, σ2 ∑ xx /N −1 ) (2.75) Die Varianz-Kovarianz-Matrix wird wie folgt geschätzt: −1 a ⎛ ⎛ N ⎞ ⎞ b ~ N ⎜ β, s2 ⎜ ∑ xi x 'i ⎟ ⎟ ⎝ i =1 ⎠ ⎠ ⎝ die kritischen Werte der Normalverteilung genutzt, ohne dass für die Störterme die Normalverteilung unterstellt wird. • Auch für FJ,N−K - verteilte Zufallsvariablen f gilt asymptotisch, dass ξ = J ⋅ f χ2J - (2.76) verteilt ist. Um J lineare Restriktionen zu testen, berechnet man also J ⋅ f und wählt die kritischen Werte aus der χ2 -Verteilung. 2.69 • Die Ergebnisse (2.74) und (2.76) gelten auch noch, wenn die Annahme A2 abgeschwächt wird zu 2.70 2.7 Illustrationen 2.7.1 Illustration 1: Makroökonomische Investitionsfunktion xi und εi sind unabhängig, (A8) d.h. für i ≠ j ist Unabhängigkeit von xi und εi nicht erforderlich. A8 impliziert A7, d.h. E { xi εi } = 0. • Frage: Welchen Zusammenhang gibt es zwischen BIP und Investitionen? • Daten: jährliche makroökonomische Daten aus USA (1990 – 2005) • Variablen: 2.71 Inv_MR = private Investitionen, in Mrd. US-$ von 2000 Inv_M = private Investitonen, in Mio. US-$ von 2000 BIP_MR = Bruttoinlandsprodukt, in Mrd. US-$ von 2000 BIP_M = Bruttoinlandsprodukt, in Mio. US-$ von 2000 2.72 R2 Lineare Regressionsergebnisse: Koeffizienten (Standardfehler) 0,9648 0,9648 0,9648 0,9648 In Spalte 1 zeigt sich ein positiv signifikanter Zusammenhang. Der Steigungsparameter in Spalte 2 bleibt identisch, wenn beide Größen mit 1000 1 2 3 4 Abh. Var.: Inv_MR Inv_M Inv_MR Inv_M Konstante -926,090 -926 090 -926,090 -926 090 stante im Vergleich zu Spalte 1 gleich, aber der Steigungsparameter passt (116,358) (116 358) (116,358) (116 358) sich an. Seine statistische Signifikanz ist von der Skalierung unabhängig. In 0,2535 - - 253,524 BIP_MR (0,0129) BIP_M - (12,946) 0,2535 0,0002535 (0,01299) (0,0000129) - multipliziert werden. Die Konstante wächst ebenfalls um den Faktor 1000. Wird lediglich die erklärende Variable skaliert (Spalte 3), so bleibt die Kon- Spalte 4 wird nur die abhängige Variable skaliert. Dies beeinflusst beide geschätzten Parameter. Weder das R2 noch die t-Statistik werden von Skalierungen beeinflusst. (Quelle: Gujarati / Porter, 2009, S. 156) 2.73 2.7.2 Illustration 2: Stundenlöhne und Bachelorabschluss in USA Lineare Regressionsergebnisse: Koeffizienten (Standardfehler) • Frage: Gibt es einen Zusammenhang zwischen Ausbildung und Löhnen? • Daten: 4000 Vollzeitbeschäftigte im Alter 25 - 34 aus dem Current Population Survey von 1998 1 2 3 5,46 5,48 5,44 (0,21) (0,21) (0,21) -2,64 -2,62 -2,62 (0,20) (0,20) (0,20) Age AHE mittlere Stundenlöhne in 1998 US-$ (abh. Var.) College 1, wenn Bachelor, 0 wenn High School Female 1, wenn weiblich, 0 wenn männlich Northeast Midwest South West 1, wenn aus dem Westen der USA, 0 sonst - 0,69 - - 0,60 - - -0,27 (0,26) 1, wenn aus dem mittleren Westen der USA, 0 sonst 1, wenn aus dem Süden der USA, 0 sonst 0,29 (0,04) (0,28) Alter in Jahren South - 0,29 (0,04) (0,30) Northeast 1, wenn aus dem Nordosten der USA, 0 sonst Midwest College Female • Variablen: Age 2.74 Konstante R2 F-Test der Regionalen Effekte 2.75 12,69 4,40 3,75 (0,14) (1,05) (1,06) 0,176 0,190 0,194 - - 6,10 2.76 • Fragen: Welche Koeffizienten sind am 1-Prozent-Niveau signifikant? 2.8 Multikollinearität • Bei Multikollinearität führen enge lineare Beziehungen zwischen erklärenden Wie unterscheiden sich die Löhne von Männern und Frauen? Variablen zu nicht verlässlichen Schätzergebnissen. In welcher Region ist das Lohnniveau am höchsten? • Beispiel 1: Regressiere Stundenlöhne auf Alter und Berufserfahrung. Alter Ist die Kontrolle für die Region gemeinsam signifikant? Wie hoch ist der mittlere Lohnunterschied für 25 und 30-Jährige Frauen mit Collegeabschluss? und Berufserfahrung sind korreliert und X' X nähert sich damit der Singularität und Nichtinvertierbarkeit. Die Koeffizienten werden unpräzise geschätzt, da die Daten nicht genug Information enthalten, um beide Effekte einzeln zu (Quelle: Stock & Watson, 2007, S. 247) identifizieren. • Im Extremfall perfekter Multikollinearität ist die X' X -Matrix nicht invertierbar und der KQ-Schätzer ist nicht eindeutig definiert. 2.77 2.78 • Ein typischer Fall von Multikollinearität liegt ebenfalls vor, wenn zu viele Da die Arbeitserfahrung (experience) meist nicht als Variable vorliegt, wird Dummyvariablen verwendet werden. sie approximiert (potential experience): experiencei = agei – schoolingi – 6. Hier sind die drei Variablen automatisch kollinear. • Beispiel 2: yi = β0 + β1 malei + β2 femalei + εi , wobei male für Männer mit 1 und Frauen mit 0 und female umgekehrt kodiert werden. Da immer gilt malei + femalei = 1 ist die X' X -Matrix singulär, die Summe der Variablen ergibt die Konstante. Die (analytische) Lösung besteht • Auswirkung von Kollinearität auf KQ-Schätzer: Modell yi = β1 xi1 + β2 xi2 + εi und wir unterstellen y = x1 = x2 = 0 sowie V {xi1} = V {xi2 } = 1 und Korrelationskoeffizient r12. Dann folgt V { b1 } = V { b2 } = darin, eine der drei Variablen (Konstante, male, female) auszulassen. Die Konstante sollte im Allgemeinen jedoch beibehalten werden. σ2 N 1 − r122 Je höher r12, umso größer ist die Varianz und Ungenauigkeit der Regressi- • Beispiel 3: wagesi = β0 + β1 agei + β2 schoolingi + β3 experiencei + εi onskoeffizienten, umso kleiner die t-Werte, umso breiter die Konfidenzintervalle. Positiv korrelierte erklärende Variablen führen zu negativ korrelierten Koeffizienten. 2.79 2.80 • Lösung: mehr Daten bzw. Informationen beschaffen, entweder durch größe- Tab. 2..6 Alternative Spe ezifikation nen mit Dummyva ariablen re Stichproben oder durch zusätzliche Restriktionen auf den Parametervektor. • Beispiel: Ob man in der Lohngleichung den Dummy für Männer oder für Frauen berücksichtigt, ist irrelevant. Ohne Konstante kann nur noch das nichtzentrierte R2-Maß präsentiert werden, welches generell größer ist als das Standard R2 (siehe 2.43). 2.81 2.8 82 • Im einfachen Regressionsmodell mit einer erklärenden Variable xi gilt 2.9 Vorhersage ⎛1 V { y0 − yˆ 0 } = σ2 + σ2 ⎜ + ⎜N ⎝ • Eine Verwendung von Schätzergebnissen besteht im Erstellen von Vorhersagen der abhängigen Variable, wenn Werte für x0 vorgegeben sind: y0 = x '0 β + ε0 . Ein unverzerrter Vorhersagewert für y0 wäre ŷ0 = x '0 b , da E{b} = β. Das heißt E {yˆ 0 − y0 } = 0. 2 0 2 i i ⎞ ⎟. ⎟ ⎠ Je weiter x0 von x entfernt, umso unpräziser wird die Vorhersage. • Das 95%-Vorhersageintervall für y0 ist: • Die Varianz des vorhergesagten Wertes infolge der Schätzung von β ist V { yˆ 0 } = V { x'0 b} = x'0 V { b} x0 = σ x'0 ( X'X ) x0 . 2 −1 (2.82) ⎡ x ' b − 1,96 ⋅ s ⋅ 1 + x' ( X'X )−1 x ; x' b + 1,96 ⋅ s ⋅ 1 + x' ( X'X )−1 x ⎤ , 0 0 0 0 0 ⎢⎣ 0 ⎥⎦ (2.85) wobei 1,96 der kritische Wert der Standardnormalverteilung ist. Mit 95% • Die Varianz des Vorhersagefehlers: beträgt (x − x) ∑ (x − x) y0 − yˆ 0 = x '0 β + ε0 − x '0 b = ε0 − x '0 ( b − β ) (2.83) V { y0 − yˆ 0 } = σ2 + σ2 x'0 ( X'X ) x0 , (2.84) −1 Wahrscheinlichkeit enthält das Intervall den wahren, aber unbekannten Wert von y0. wenn b und ε0 nicht korreliert sind. 2.83 2.84 • Illustration: Priilaid und Rensburg, 2006, Nonlinearity in the hedonic pricing • Schätzergebnisse lineares Modell Modell 3 Koeff. of South African red wines, International Journal of Wine Marketing 18(3), 166-182. • Das in Abschnitt 2.2 präsentierte Modell wird mit einer detaillierteren Spezifikation verglichen. Constant -79.00 -7.22 3.65 0.49 Cabernet 10.65 2.69 13.19 3.27 Merlot 7.68 2.16 8.70 2.52 Shiraz 15.93 4.36 16.98 4.91 Pinot-Noir 35.90 4.99 34.34 4.62 Pinotage (Referenz) – – 91.03 2.31 Blind 1 Stern – – -31.41 -0.84 Blind 2 Stern – – -38.87 -1.04 Blind 3 Stern – – -28.25 -0.76 2 Adj. R N 31.80 39.46 537 537 (Referenz) Blind-Bewertung 6.11 2.40 – – Offene Bewertung ("Platter") 34.26 10.98 – – Platter 2 Stern – – 47.39 1.36 Platter 3 Stern – – 65.14 1.69 2.85 Platter 4 Stern t Modell 4 Koeff. t 2.86 • Keine einheitlichen oder linearen Preissprünge bei steigender Qualität • Vergleich von vorhergesagtem Wert und tatsächlichem Preis (Modell 4): K wobei valuei = pricei – εi = α + ∑ bk xk . k =1 2.87 2.88 • Entgegen dem "populären Marketing-Mythos", dass Schnäppchen nur im un- • Dies lässt sich auch für konkrete hochwertige Weine zeigen: teren Preissegment existieren, zeigt die Analyse, dass auch hochwertige High priced wines that offer exceptional value-for-money Weine preiswert sein können: Wine label 2004 Price (in Rand) Kevin Arnold Shiraz 115.00 2001 BWC Shiraz 2001 Wine Platter Linear score score valuation (in Rand) Dummy valuation (in Rand) Linear model: extent of mispricing (%) Dummy model: extent of mispricing (%) 4.5 4.5 118.57 159.10 -3.10 -38.35 95.00 4.0 4.5 115.52 140.06 -21.60 -47.43 Thelema Cabernet 120.00 Sauvignon 2001 4.0 4.5 110.23 136.26 8.14 -13.55 Hartenberg 2001 3.5 4.5 112.46 128.20 -18.38 -34.95 Shiraz 95.00 Es macht in der Bewertung einen erheblichen Unterschied, ob Modell 3 oder 4 geschätzt wurde (vergleiche die beiden letzten Spalten). 2.89 Literatur: Verbeek, 2008, Kapitel 2. Priilaid, D.A. und P. van Rensburg, 2006, Non-linearity in the hedonic pricing of South African red wines, International Journal of Wine Marketing 18(3), 166-182. 2.91 2.90 Lernziele Kapitel 3: Kapitel 3: Interpretation und Vergleich von Regressionsmodellen • Welche Möglichkeiten gibt es Koeffizienten linearer Regressionsmodelle zu 3.1 Interpretation des linearen Modells interpretieren? 3.2 Auswahl der unabhängigen Variablen • Nach welchen Kriterien sollte die Spezifikation von Regressionsmodellen er- 3.3 Fehlspezifikation der funktionalen Form folgen? 3.4 Illustration: Die Erklärung von Hauspreisen • Wann ist ein Modell fehlspezifiziert? 3.5 Illustration: Die Erklärung individueller Löhne 3.1 3.2 ∂ E {yi xi } 3.1 Interpretation des linearen Modells ∂ xik • Hinweis: Verbeek verwendet stets die Notation „log“, aber der natürliche Lo- Annahme: (3.3) • Es ist nicht sinnvoll, Koeffizienten einzeln zu betrachten, wenn Polynome der garithmus „ln“ ist gemeint. • Modell: = βk yi = x 'i β + εi E { εi X} = 0 oder E { εi xi } = 0 (3.1) (3.2) Wenn der Erwartungswert von ε für gegebene X null ist, gibt das Modell den auf X bedingten Erwartungswert von yi an. erklärenden Variable geschätzt werden. Wenn yi = … + agei β2 + agei2 β3 + …, wird der marginale Effekt des Alters wie folgt bestimmt: ∂ E {yi xi } ∂ agei = β2 + 2 agei β3 . (3.4) • Der marginale Effekt erklärender Variablen kann auch von anderen Variab- Beispiel: Der erwartete Lohnsatz (y) für eine Frau (xi1) im Alter 40 (xi2) mit len abhängen, z.B. bei Interaktionstermen yi = … + agei β2 + ( agei ⋅ malei ) β3 + … Universitätsabschluss (xi3). • Der Koeffizient βk misst ceteris paribus den Effekt einer Änderung von xik auf ∂ E {yi xi } ∂ agei den Erwartungswert von y: 3.3 = β2 + malei β3 (3.5) 3.4 Der marginale Effekt des Alters beträgt β2 + β3 für Männer und β2 für Frauen. • Wenn xi eine Dummyvariable ist, beschreibt der Koeffizient β für logyi = x 'i β + εi , • Elastizitäten lassen sich aus Regressionen direkt ablesen, wenn logarithmierte Variablen betrachtet werden. Ein loglineares Modell lautet: log yi = ( log xi ) ' γ + υi Da ∂ log y ∂y = 1 y ⇔ ∂ log y = ∂E { yi xi } E { yi xi } ∂xik xik = ∂y y , so dass ∂E { yi xi } ∂xik ⋅ ∂ log y ∂ log x = ∂y / y ∂x / x um wie viel Prozent sich y bei einer Änderung von xi um eine Einheit ändert. (3.6) • Für die Vorhersage von yi spielt es eine Rolle, ob linear oder loglinear geschätzt wurde. Wenn E { υi log xi } = 0 , ist der vorhergesagte Wert für log yi (3.7) ∂xik xik βx ⋅ = k ik x'β E {yi xi } i aus Modell (3.6) genau ( log xi ) ' γˆ . Der vorhergesagte Wert für yi ist nicht { } exp { ( log xi ) ' γ}, denn E {yi xi } ≠ exp E{ log yi xi } . Der Erwartungswert einer Dies impliziert für das lineare Modell, dass die Elastizitäten mit xi variieren: ∂ E { yi xi } Für kleine β lässt sich dies wegen eβ ≈ 1 + β direkt ablesen. • Beispiel: e0,02 = 1.0202. Für große β berechne ( eβ − 1) ⋅ 100% . = γ folgt hier ∂E {log yi log xi } xik ≈ = γk ∂ log xik E {yi xi } (3.9) nichtlinearen Funktion ist nicht identisch mit der nichtlinearen Funktion eines (3.8) Erwartungswertes. 3.5 • Das Problem lässt sich nur lösen, wenn man für υi (und damit für yi) Verteilungsannahmen trifft. Unterstellt man υi ~ N ( 0, σ2υ ) , dann ist die Verteilung von yi lognormal. Es gilt dann für Modell (3.6): 1 ⎫ 1 ⎫ ⎧ ⎧ E { yi xi } = exp ⎨E { log yi xi } + σ2υ ⎬ = exp ⎨( log xi ) ' γ + σ2υ ⎬ 2 ⎭ 2 ⎭ ⎩ ⎩ (3.10) ausschließlich eine Funktion von xi ist. Daneben kann auch yi = z'i γ + υi mit E { υi zi } = 0 gelten. Die Modelle beschreiben yi als Funktion unterschiedli- cher erklärender Variablen mit E {yi xi } = x 'i β und E {yi zi } = z'i γ . und • Illustration: Quelle: Albers, S. und B. Skiera, 2000, in: Herrmann, A. u. C. Homburg (Hrsg.), Marktforschung – Methoden, Anwendungen, Praxisbeispiele, 2. Auf- • Aus der Annahme E {εi xi } = 0 für das Modell yi = x 'i β + εi folgt nicht, dass yi Nur die Formulierungen 3.6 lage, Gabler-Verlag, Wiesbaden, S. 957-978. Frage: angemessene Umsatzvorgabe für Außendienstmitarbeiter (ADM) Problem: Regionale Unterschiede, Fairness bei individuellen Vorgaben Lösung: Umsatzreaktionsfunktion zur Bewertung regionaler Faktoren via Regressionsanalyse. E {yi xi ,zi } = z 'i γ a) Operationalisierung des Outputs: Absatzmenge oder Umsatz in €. E {yi xi ,zi } = x 'i β können nicht gleichzeitig zutreffen (solange nicht xi = –zi und β = −γ ). 3.7 3.8 b) Bestimmung von Einflussfaktoren & Datenquellen, z.B. Bevölkerungs- BU: Branchenumsatz indiziert die Kaufkraft der Region konzentration (amtl. Statistik), Anzahl der Kunden (Unternehmenssta- BK: Bevölkerungskonzentration gibt Realisierbarkeit an tistik), regionaler Branchenumsatz (GfK). A: Anzahl der Kunden beschreibt das Marktpotenzial c) Funktionalen Zusammenhang festlegen: Lineare Form impliziert konstante Grenzerträge, Fehlen von Interaktion. Multiplikative Form flexibler: K yi = α ⋅ Π x ikβk , β gibt Elastizitäten an. Die Größen sind von ADM nicht beeinflussbar. e) Parameterschätzung: Logarithmierung erlaubt lineare Schätzung: k =1 ln ( yi ) = ln α + β1 ln (BUi ) + β2 ln (BKi ) + β3 ln ( Ai ) + εi d) Datenbeschreibung (N = 20 regionale Beobachtungen) Variable Mittelwert Variable Minimum Maximum Coeff. SE T Branchenumsatz (BU) 1354 403 2525 ln(BU) 0,1244 0,0694 1,792 Bevölkerungskonzentration (BK) 0,794 0,673 1,000 ln(Bk) 1,0935 0,3313 3,301 115 81 172 ln(A) 0,3999 0,1974 2,025 3778 2663 5082 constant 5,705 0,7730 7,381 Anzahl der Kunden (A) Umsatz (y) 3.9 R2 f) = 0,62013 Adj. R2 = 0,54890 F = 8,7065 (p = 0,0012) 3.10 3.2 Auswahl der unabhängigen Variablen Ergebnisinterpretation 3.2.1 Fehlerhafte Auswahl der Regressoren • Eine Fehlspezifikation des Modells liegt sowohl vor, wenn relevante erklä- – hoher Erklärungsgehalt des Modells – positive Zusammenhänge zwischen Umsatz und (BU, BK, A). – Elastizität von ca. 0,40 für Anzahl Kunden gibt an, dass Umsatz um rende Variablen ausgeschlossen werden, als auch wenn irrelevante erklä- 0,4% höher liegt, wenn Kundenstamm um 1% wächst. Wert plausibel, bei wachsendem Kundenstamm kann nicht jeder genauso inten- rende Variablen berücksichtigt werden. • Unterstellen wir yi = x 'i β + z'i γ + εi (3.12) yi = x 'i β + υi (3.13) −1 siv betreut werden wie vorher. • Der KQ-Schätzer aus (3.13) ist: g) Festlegung der Umsatzvorgaben (für Soll-Ist-Vergleich) für jede Region i: ⎛ N ⎞ b2 = ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ N ∑xy i =1 i i (3.14) Unter der Annahme, dass (3.12) wahr ist, können wir ableiten: Umsatzi = e5,705 ⋅ BUi0,1244 ⋅ BK1,0935 ⋅ Ai0,3999 i 3.11 3.12 −1 ⎛ N ⎞ b2 = β + ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ ⎛ N −1 ⎞ N N ∑ x z ' γ + ⎜⎝ ∑ x x ' ⎟⎠ ∑ x ε i =1 i i i i =1 i i =1 i i (3.15) • Während der letzte Term in (3.15) unter Modell (3.12) einen Erwartungswert von Null hat, stellt der zweite Term das Ausmaß der Verzerrung dar, wenn zi nicht mitgeschätzt wird (omitted variable bias). • Die Verzerrung entfällt nur, wenn entweder γ = 0 , d.h. die Modelle sind doch N gleich, oder wenn ∑ x z ' = 0 bzw. E { x z ' } = 0 , d.h. wenn xi und zi orthogoi =1 i i i i nal sind. Dies ist selten der Fall und geht – solange xi die Regressionskon- stante enthält – nur, wenn E { zi } = 0 . 3.2.2 Auswahl der Regressoren • Statistisch gibt es keine Vorgaben zur Auswahl der Regressoren, wenn das Modell lediglich E(y |x) definiert. Aus ökonomischer Sicht nutzt man theoretische Modelle zur Begründung der Regressorenauswahl. • Erklärende Variablen sollten vor der Schätzung bestimmt werden. Wählt man sie aufgrund von Probeschätzungen, läuft man Gefahr, das Schätzmodell auf eine Stichprobe hin auszurichten (data fishing, data snooping, data mining). • Bei "Spezifikationssuchen" wird mittels Tests entschieden, welche erklären- • Wenn wir (3.12) schätzen, obwohl (3.13) wahr ist, wird ein Koeffizient zuviel den Variablen berücksichtigt werden. geschätzt, der Null ist. Dies erhöht die Varianz der Schätzer. Die Koeffizienten bleiben unverzerrt. 3.13 • Auf dem Weg zur endgültigen Modellspezifikation wird in der Regel getestet, ob (1) die Restriktionen der Theorie gelten und ob (2) zusätzlich nicht im 3.14 • Alternative Maße sind Akaikes Informationskriterium (AIC): AIC = log Modell enthaltene Restriktionen auferlegt werden können. • Es gibt keinen Grund, warum ein Modell nur signifikante Variablen enthalten • Das R2 kann nicht sinken, wenn zusätzliche erklärende Variablen berücksichtigt werden. Daher hat man das korrigierte R2 R2 entwickelt, welches ( ) einen Tradeoff zwischen Erklärungsgehalt und Anzahl der Regressoren (K) berücksichtigt: ⎡⎣1 R2 = 1 − ⎡⎣1 N i =1 (N − 1) ⎤⎦ ∑ ( y i =1 i 1 N 2 K ∑ ei + N logN N i =1 (3.18) • In beiden Fällen sind Modelle dann gut, wenn die Kriteriumswerte klein ausfallen. Die „Strafe“ für zusätzliche Regressoren ist beim BIC größer als beim AIC. Beim Vergleich genesteter Modelle nutzt man meist das R2 oder R2 , bei nicht genesteten Modellen AIC oder BIC. (N − K ) ⎤⎦ ∑ e N (3.17) sowie Schwarz’ Bayesianisches Informationskriterium (BIC): BIC = log sollte. Auch insignifikante Koeffizienten können informativ sein. 1 N 2 2K ∑ ei + N N i =1 2 i − y) 2 (3.16) 3.15 3.16 • Man kann testen, ob eine R2-Verbesserung statistisch signifikant ist. Dies ist identisch mit einem Test statistischer Signifikanz der Koeffizienten von hinzugefügten erklärenden Variablen: f= (R 2 1 − R02 ) J (1 − R ) (N − K ) 2 1 1 gilt t2 = f). Gemäß R2 kommt es hier also nicht auf statistische Signifikanz an. • Ebenfalls kann man t- und F-Tests direkt verwenden oder folgenden Zu- (3.19) sammenhang zur Auswahl von Regressoren nutzen. Unter H0 : γ = 0 gilt für den KQ-Schätzer γ̂ mit Vˆ { γˆ } , dass R12 und R02 repräsentieren die R2-Werte mit und ohne zusätzliche J erklären- de Variablen, N – K sind die Freiheitsgrade des unrestringierten Modells. f ist unter H0 F-verteilt. • Die Teststatistik lässt sich ebenfalls als Kombination der R2 darstellen: R12 > R02 genau dann, wenn f > 1. Das impliziert umgekehrt für J = 1, dass R2 genau dann steigt, wenn der t-Wert des Koeffizienten größer als 1 ist (für J = −1 ξ = γˆ ' Vˆ {γˆ} γˆ (3.20) asymptotisch χ2 -verteilt ist mit J Freiheitsgraden (s. Wald-Test 2.63). • Zwei einzelne t-Tests können zu anderen Ergebnissen führen als ein gemeinsamer F-Test. Will man 2 Variablen auslassen, sollte das per F-Test geprüft werden. Das Ergebnis der t-Tests kann auch von der Reihenfolge der Tests abhängen. 3.17 3.18 g ( xi , β ) = β1 xi1β2 xi2β3 . 3.3 Fehlspezifikation der funktionalen Form oder 3.3.1 Nichtlineare Modelle (3.28) gibt eine Cobb-Douglas-Produktionsfunktion mit zwei Inputs an. • Die Linearitätsannahme hinter E {yi xi } = x'i β kann eine starke Restriktion (3.28) Hier lässt sich durch Logarithmieren (und die Annahme β1 > 0) Linearität herstellen, in (3.27) nicht. darstellen. • Nichtlinearitäten können sich durch quadratische Terme (Alteri, Alteri2 ) oder Interaktionen (Alteri ⋅ Geschlechti) ergeben. In diesen Fällen bleibt das Mo- • Daneben gibt es das Verfahren der nonlinear least squares, bei dem die Zielfunktion () • Wenn sich Nichtlinearitäten in den Parametern ergeben, hat das gravierendere Konsequenzen. Für E {yi xi } = g ( xi ,β ) sei g(.) nichtlinear in β. Zum Beispiel g ( xi , β ) = β1 + β2 xiβ3 N ( ( )) S β = ∑ yi − g xi ,β dell linear in Parametern und kann durch KQ geschätzt werden. i =1 2 hinsichtlich β mit numerischen Verfahren minimiert wird. Voraussetzung für () eine eindeutige konsistente Lösung ist, dass ein globales Minimum für S β existiert. (3.27) 3.19 3.20 H0 : α2 = … = αQ = 0 . Der Test reagiert sowohl auf unangemessene funktionale 3.3.2 Tests der funktionalen Form • Mithilfe von t-, F- und Wald-Tests kann man prüfen, ob die funktionale Form E {yi xi } = x 'i β durch nichtlineare Terme von xi ergänzt werden sollte. Form als auch auf ausgelassene Variablen. • Illustration: • Der RESET-Test (regression equation specification error test) baut auf die Idee auf, dass im vorgegebenen Modell nichtlineare Funktionen von yˆ i = x'i b Heij, C. et al., 2004, Econometric Methods with Applications in Business and Economics, Oxford Univ. Press, S. 286-289. nicht dazu beitragen sollten, yi zu erklären: Problem: Determinanten der Lohnhöhe für 474 Bankangestellte In einer Hilfsregression y = log (Jahreseinkommen) EDUC = Schulbildung (in Jahren) wird überprüft, ob die Koeffizienten αn der Werte von yˆ n mit n ≥ 2 signifikant FEMALE = 1 für Frauen, 0 für Männer von 0 verschieden sind. Man nutzt einen F- oder Wald-Test für MINORITY = 1 für Nichtweiße, 0 für Weiße yi = x 'i β + α2 yˆ i2 + α3 yˆ i3 + … + αQ yˆ iQ + υi (3.31) 3.21 3.22 • Lineares Modell: yi = α +β1 EDUCi +β2 FEMALEi +β3 MINORITYi + εi RESET-Test in Modell 2 ergibt signifikanten Parameter, in Modell 3 RESET- • Ergebnisse: Koeffizienten, Standardfehler in Klammern Test mit 2 Koeffizienten: gemeinsame Signifikanz durch F-Test bestätigt - constant EDUC FEMALE MINORITY FITTED∧2 FITTED∧3 F-Statistik Modell 1 Modell 2 Modell 3 9.199 (0.059) 0.077 (0.004) 0.261 (0.025) -0.133 (0.029) – – -69.82 (8.971) -1.443 (0.172) -4.877 (0.583) 2.488 (0.298) 0.947 (0.107) – 827.26 (555.86) 10.631 (7.483) 35.894 (25.266) -18.223 (12.836) -14.111 (9.330) 0.484 (0.299) – 77.6 (p = 0.00) 40.2 (p = 0.00) Hinweis auf Fehlspezifikation (z.B. linearer Effekt von Bildung, nicht unbedingt zutreffend). Modell könnte erweitert werden um quadratischen Bildungseffekt oder Interaktion des Bildungseffekts mit FEMALE oder MINORITY. 3.23 3.24 f= 3.3.3 Strukturbruchtests • Bislang haben wir unterstellt, dass die funktionale Form eines Modells für alle Beobachtungen gleich ist. Über Interaktionsterme kann man prüfen, ob sich marginale Effekte für Teilgruppen unterscheiden. Manchmal vermutet man, dass sich alle Koeffizienten über 2 Teilstichproben (gi = 1 und gi = 0) (S R SUR − SUR ) K (N − 2K ) , wobei K die Anzahl der Regressoren im restringierten Modell ist (einschließlich Achsenabschnitt) und SR und SUR die restringierten und unrestringierten Fehlerquadratsummen darstellen. • Der F-Test wird im Zusammenhang von Strukturbrüchen als Chow-Test be- unterscheiden. yi = x 'i β + ( gi x 'i ) γ + εi (3.32) Für die Gruppe mit gi = 0 trifft der Koeffizient β, für die Gruppe mit gi = 1 β + γ zu. Unter H0 : γ = 0 sind die Gruppen identisch. zeichnet. Man kann auch für g = 0 und g = 1 separate Modelle schätzten. Dann ergibt sich SUR = S1 + S0 aus der Summe der jeweiligen Fehlerquadratsummen und SR nach wie vor aus der gepoolten Schätzung. • Der Test kann auch für ausgewählte Koeffizienten statt dem Gesamtvektor • Ein für die Nullhypothese angemessener F-Test ist ( x ) durchgeführt werden. i 3.25 • In Zeitreihenanalysen hat man normalerweise klare Vorstellungen, zu wel- 3.26 3.4 Illustration: Die Erklärung von Hauspreisen chem Zeitpunkt ein Strukturbruch stattfindet. Man kann den Chow-Test je- • Eine Schätzgleichung, die den Preis eines Gutes auf seine Eigenschaften doch auch nutzen, um alle zeitlichen Möglichkeiten zu überprüfen. In diesem regressiert und zulässt, daraus den Wert einzelner Eigenschaften abzulesen, Fall wird nach der größten F-Statistik gesucht. Die größte aus einer Gruppe nennt man hedonische Preisfunktion. Hedonische Preise sind die mit ein- von F-Statistiken folgt dann allerdings nicht mehr der herkömmlichen F- zelnen Attributen des Gutes verbundenen Prämien beim Preis. Verteilung. • Beispiel: Die Daten enthalten Informationen zu 546 im Jahr 1987 verkauften Häusern einer kanadischen Stadt. Eine KQ-Regression regressiert den logarithmierten Hauspreis auf die logarithmierte Grundstücksgröße, Zimmerzahl, Badezimmerzahl und das Vorhandensein einer Klimaanlage. 3.27 3.28 • Der Preis für ein Haus mit 4 Zimmern, einem Badezimmer, einem Grund von • Tab. 3..1 KQ-Scchätzerge ebnisse: Hedonisc H che Preisfunktion 5000 sq.ft. und ohne Klimaanlage beträgt 7,094 + 0,4 log(5000) + 0,078 · 4 + 0,216 = 11,028 , was einem erwarteten Preis von exp{11,028 + 0,5 · 0,24562} = 63.460 kanad. Dollars entspricht. 0,24562 ist die geschätzte Varianz des als normalverteilt unterstellten Störterms. • Das R2 und alle e t-Werte e sind ho och. Der Koeffizie ent für de en Dumm my zur Kllimaanla age gibt a an, dass Häuser mit m Klima aanlage ceteris c pa aribus ca.. 21% teu u- • Mit dem RESET-Test lässt sich die funktionale Form überprüfen. Hier ergibt der ŷ2 -Term eine t-Statistik von 0,514 (p = 0,61) und die Terme ŷ2 und ŷ3 rer sind d als ohn ne. Ein um m 10% größeres Grundstü ück führt c. p. zu einem um m gemeinsam eine F-Statistik von 0,56 (p = 0,57), es liegt also kein Problem 4% höh heren Pre eis, ein weiteres w Z Zimmer z plus 8% zu %. vor. Dennoch kann man weitere Merkmale im Modell berücksichtigen: 3.2 29 3.30 Tab. 3.2 3 KQ-S Schätzerg gebnisse: Hedonis sche Pre eisfunktio on, ausfü ührlichere es Jetzt steigen das R2 sowie das korrigierte R2 und die t-Statistiken zeigen sig- Modell nifikante Effekte an. Der F-Test auf gemeinsame Signifikanz der zusätzlichen Variablen ergibt auf Basis der R2-Werte ( 0,6865 − 0,5674 ) 7 = 28,99 , (1 − 0,6865 ) ( 546 − 12) was hochsignifikant ist, mit p = 0,000. Man sieht, dass sich durch die zusätzlichen erklärenden Variablen auch die vorherigen Koeffizienten geändert haben. Dies liegt daran, dass die betrachteten Merkmale untereinander korreliert sind. Auch hier zeigt der RESET-Test keine Fehlspezifikation an. Auch dieses erweiterte Modell kann für Vorhersagen des Hauspreises verwendet werden. 3.3 31 3.32 • Alternativ könnte man die Preise selbst statt ihres logarithmierten Wertes betrachten. In diesem Fall (Tabelle 3.3) reflektieren die Koeffizienten absolute Tab. 3.3 3 KQ-S Schätzerg gebnisse e: Hedon nische Preisfunkttion, aussführliche es Modell mit linea arer abhä ängiger Variable statt relative Preisunterschiede. Während in Tabelle 3.2 eine Zufahrt den Hauspreis um 11% erhöhte, schlägt dies absolut mit 6688 Dollars zu Buche. • Die Tabellen erlauben keinen direkten Rückschluss darauf, welche Spezifikation der abhängigen Variable vorzuziehen ist, mit dem R2 kann man hier nicht argumentieren. Ein PE-Test des linearen Modells (siehe 3.2.3) ergibt eine t-Statistik von -6,196, was das lineare Modell verwerfen würde. Testet man das loglineare Modell, so ergibt sich eine Statistik von -0,569, so dass man dieses nicht verwirft. 3.33 3.3 34 Tab. 3..4 Beschrreibende Statistiken, 1472 2 Individuen 3.5 Illustration: Die Erklärung individueller Löhne • Löhne von 893 Männern und 579 Frauen für eine Zufallsstichprobe mit 1472 Beobachtungen für das Jahr 1994 aus Belgien, mit den Variablen wage = Bruttostundenlohn in € male = 1 wenn männlich, 0 wenn weiblich educ = Bildungsniveau, 1= Grundschule bis 5 = Universitätsabschluss exper = Berufserfahrung in Jahren. Die Betrachtung der Mittelwerte ergibt Lohnunterschiede für Männer und Frauen, die jedoch nicht unbedingt auf Diskriminierung zurückgehen: 3.35 3.3 36 Tab. 3..5 KQ-Scchätzerge ebnisse: Spezifika S ation 1 3.5.1 Lineares Modell • Zunächst kann man mit einer Dummyvariablen den Geschlechterlohnunterschied bei gegebenem Niveau an Erfahrung und Bildung ablesen; er entspricht dem mittleren Lohnunterschied recht genau. Die Erg gebnisse e implizie eren, das ss auch bei b gleich her Erfah hrung un nd Bildun ng ein hoc chsignifikkanter Geschlech hterlohnunterschie ed existie ert. Erfah hrung un nd Ausbild dung wirkken lohns steigernd. Das ein nfache Mo odell erkllärt 36% der Varia ation der Löhne. 3.37 3.3 38 • Man könnte k ve ermuten, dass der Effektt zusätzllicher Be erufserfah hrung zu u- Dieser zusätzliche Koeffizient ist hochsignifikant von Null verschieden, R2 nächst groß ist und dann n abfällt. Um das zu prüfen, wird zu usätzlich ein quad d- und R2 steigen. Nun muss der gesamte Effekt der Erfahrung über beide Ko- ratische er Effekt der Erfa ahrung im m Modell berücksiichtigt, de er einen negative en effizienten gemeinsam bestimmt werden, indem man die Lohngleichung Koeffiz zienten ha aben sollte. nach „exper“ ableitet (siehe (3.4)): ∂ wagei = 0,358 − 0,0044 ⋅ 2 ⋅ exp eri ∂ exp eri Tab. 3..6 KQ-Scchätzerge ebnisse: Spezifika S ation 2 Dies zeigt, dass der Effekt eines Jahres Erfahrung vom erreichten Bestand an Berufserfahrung abhängt. Nach Jahr 1 ergibt sich 0,358 – 0,0088 ⋅1 ≅ 0,35, also 35 Cents pro Stunde höherer Lohn für Personen mit einem statt 0 Jahren Berufserfahrung. Nach 30 Jahren ergeben sich 0,358 – 0,0088 ⋅ 30 = 0,094, also 9 Cents. 3.3 39 3.40 Der Lohnunterschied mit 31 statt 30 Jahren Berufserfahrung beträgt bei Berechnung über die Lohngleichung: 0,358 ( 31 − 30 ) − 0,0044 ( 31 − 30 2 2 3.5 5.2 Logliineare M Modelle • Nun errgibt sich für das logarithm mierte Mo odell ein anderes R2 sowie e eine an n- ) = 0,0896 Euro pro Stunde. dere In nterpretattion der Koeffizien K nten. • Tab. 3..7 KQ-Scchätzerge ebnisse: Spezifika S ation 3 • Der Ko oeffizient des Ges schlechte erdummy yies besc chreibt de en relativven Unterschied in den Löhnen, die d für Mä änner um m ca. 12% % höher sind: s Ergibt sich fü ür 3.41 3.4 42 eine Frau ein Lohn von w*, so ist für einen sonst identischen Mann der loga- • Beide log(exper) Koeffizienten sind signifikant am 5%-, aber nicht am 1%- rithmierte Lohn um 0,118 höher, was im Lohn selbst einen Unterschied von Niveau. Um ihre gemeinsame Signifikanz zu bestimmen, nutzt man einen F- 0,118 e = 1,125, also 12,5% macht. Da exp (a) ≈ 1 + a für kleine a, liest man die Prozentunterschiede oft direkt (und approximativ) am Koeffizienten ab, Test, z.B. auf Basis der R2-Werte des vorliegenden Modells und des Modells ohne die beiden log(exper) Variablen. hier 11,8%. f= • Die Koeffizienten logarithmierter stetiger Variablen können nun als Elastizitäten interpretiert werden. Hätten wir keinen quadratischen Effekt der Berufser- ( 0,3783 − 0,1798 ) 2 = 234,2 (1472 − 5 ) (1 − 0,3783 ) (3.36) Die Nullhypothese wird deutlich verworfen. fahrung im Modell, so bedeutete der Koeffizient 0,11 der log(exper), dass der • Zusätzlich kann man prüfen, ob das Modell mit nur einem Term für Lohn um 0,11% steigt, wenn die Erfahrung um 1% steigt. Mit dem zusätzli- log(exper) eine deutlich schlechtere Güte hat, was nicht der Fall ist, das R2 chen quadratischen Effekt beträgt die Elastizität jetzt jedoch sinkt nur geringfügig: 0,11 + 2 × 0,026 ⋅ log ( exper ) , d.h. sie ist nicht über alle Werte von exper konstant. 3.43 3.44 Table 3.8 3 KQ-S Schätzerg gebnisse: Spezifik kation 4 höher Gebildete G en betrac chtet. Das s Modell ist restriktiv, dadurch dasss ein line earer Efffekt unte erstellt wu urde. Dies se Annah hmen kön nnen wir lockern, indem wir w ein Modell mit D Dummyva ariablen schätzen s n. Dazu wird w eine Referenzzkategoriie ung ausg genomme en, um Multikolline earität zu u vermeid den: von der Schätzu ebnisse: Spezifika S ation 5 Tab. 3..9 KQ-Scchätzerge • In dies sem Mod dell ist de er Bildun ngseffekt linear im m logarith hmierten Wert de er Bildung gsvariable. Ceteris paribus s beträgt der Log--Lohnuntterschied zwische en Bildung gsstufe 2 und 1 0,437 (ln(2 2) – ln(1))) = 0,437 7 ⋅ 0,693 31 = 0,30, d.h. Personen auf Bildu ungsstufe e 2 verdie enen um 0,3 höhe ere logaritthmierte Löhne alls Person nen auf B Bildungss stufe 1. Der D Absta and wäch hst auf 0,48, 0,61 und 0,70 0, wenn man m die Loglohnd differenz zwischen n Grunds schulabso olventen und noc ch 3.4 45 • Im Ergebnis sind alle einzelnen Koeffizienten der Bildungsdummies signifikant und bestätigen den steigenden Verlauf, auch wenn einzelne Bildungseffekte anders ausfallen als auf Basis von Spezifikation 4. 3.4 46 3.5.3 Effekte des Geschlechts • Bislang haben wir unterstellt, dass sich die Löhne von Männern und Frauen lediglich um einen für alle Personen gleichen, konstanten Betrag unterschei- • Da das Modell aus Tabelle 3.8 grundsätzlich in der allgemeineren Fassung 2 den. Mithilfe von Interaktionsvariablen kann man prüfen, ob einzelne erklä- genestet ist, kann man die Modelle aus 3.8 und 3.9 per R -F-Test gegenei- rende Variablen für Männer und Frauen den gleichen Effekt haben. Interakti- nander testen. onsvariablen sind hier das Produkt der erklärenden Variablen mit dem Ge- f= ( 0,3976 − 0,3761) 3 = 17,358 (1472 − 7 ) (1 − 0,3976 ) (3.37) schlechtsindikator. • Interagiert man das gesamte Modell, so ergibt sich Tabelle 3.10, die man Dies übersteigt den kritischen F3,1465-Wert am 1%-Niveau (3,78). Daher wer- dann auch für den Chow-Test nutzen kann. den die Restriktionen der Spezifikation aus Tabelle 3.8 verworfen. 3.47 3.48 terschiedliche Fehlertermvarianzen für die Teilstichproben möglich, während Tab. 3..10 KQ-S Schätzerg gebnisse:: Spezifik kation 6 die gemeinsame Schätzung eine einheitliche Varianz unterstellt. Wenn sich bei getrennter Schätzung deutlich unterschiedliche Standardfehler ergeben, deutet das auf Heteroskedastie hin. Die Koeffizienten selbst sind in beiden Fällen gleich. • Der Unterschied im Erfahrungseffekt für die Geschlechter ist nicht hochsignifikant. Die Bildungseffekte sind für Männer teilweise signifikant kleiner als für Frauen. Der Koeffizienten von „male“ gibt nun nicht mehr den gesamten Unterschied zwischen den Geschlechtern an. Der Lohnunterschied nach 20 Jahren Erfahrung auf Bildungsstufe 2 beträgt: 0,154 + 0,041 log(20) – 0,097 Die gle eichen Errgebnisse e hätte man m auch h durch getrennte g ung für diie Schätzu = 0,180 zugunsten der Männer, also ca. 18% höhere Löhne. beiden Geschle echter errreichen können. Bei getre ennter Schätzung S g sind un n3.50 3.4 49 • Ein Test auf die gemeinsame Signifikanz aller interagierten Variablen ent- Tab. 3.11 KQ-Schätzergebnisse: Spezifikation 7 2 spricht dem Chow-Test und lautet auf Basis der R -Werte: f= ( 0,4032 − 0,3976 ) 5 = 2,7399 , (1 − 0,4032) (1472 − 12) was die H0 nicht am 1%-, aber am 5%-Niveau verwirft. • Schließlich kann man sich noch vorstellen, dass der Berufserfahrungseffekt vom Bildungsstand abhängt. Auch dies kann durch Interaktionsterme überprüft werden. Die Koeffizienten der Interaktionsterme geben an, wie stark sich etwa der exper-Effekt bei höherer Bildung wandelt. Die Ergebnisse zeigen keine signi- 3.51 3.52 fikanten Unterschiede. Auch ein F-Test auf gemeinsame Signifikanz zeigt keine Signifikanz. 3.5.4 Hinweise • Bei der ökonomischen Interpretation der Ergebnisse ist Vorsicht geboten. • Interessanterweise ist in der letzten Spezifikation fast nichts mehr signifikant, 2 Der Bildungseffekt gibt oft wieder, welchen Beruf Individuen mit dieser Bil- obwohl das R recht hoch ausfällt. Dies weist auf Multikollinearität hin. Der dung gewählt haben; er ist nicht „bedingt auf den Beruf“, da Berufe hier nicht Test auf Gesamtsignifikanz des Modells generiert einen hoch-signifikanten herausgerechnet wurden. Daher beschreibt er nicht den Effekt unterschiedli- Wert. Dennoch würde man angesichts der offensichtlichen Multikollinearität cher Bildung bei gegebenem Beruf, sondern einen Bildungseffekt, der Be- vermutlich das Modell aus Tabelle 3.10 bevorzugen. rufsunterschiede mit einschließt. • Wichtig: Das Modell wurde nur für Erwerbstätige geschätzt. Für Nichterwerbstätige muss das so nicht gelten, insbesondere wenn sich die beiden Gruppen systematisch unterscheiden. Übersieht man diesen Umstand, so leidet die Interpretation unter Selektionsverzerrung. Das Problem kann ökonometrisch angegangen werden. 3.53 • Vorsicht ist geboten, wenn man die Koeffizienten kausal interpretieren will. Dies wäre z.B. dann ein Problem, wenn sich die Gruppen (z.B. Bildung = 2 vs. Bildung = 3) auch durch andere als die hier beobachteten Merkmale unterscheiden (z.B. in unbeobachteten Größen wie Intelligenz und Fähigkeit). Da auch diese Merkmale nicht herausgerechnet werden, schließt der Bildungseffekt ihre Lohnwirkung mit ein und wir können nicht sicher sein, dass 3.54 Literatur: Verbeek, 2008, Kap. 3 Albers, S. und B. Skiera, 2000, in: Herrmann, A. u. C. Homburg (Hrsg.), Marktforschung – Methoden, Anwendungen, Praxisbeispiele, 2. Auflage, GablerVerlag, Wiesbaden, S. 957-978. der Bildungseffekt auf Bildung statt z.B. auf Intelligenzunterschiede der Heij, C. et al., 2004, Econometric Methods with Applications in Business and Gruppe zurückzuführen ist. Economics, Oxford Univ. Press, S. 286-289. 3.55 3.56 Lernziele Kapitel 4: Kapitel 4: Heteroskedastie und Autokorrelation • Warum 4.1 Konsequenzen für den KQ-Schätzer und wodurch sollte der KQ-Schätzer bei Vorliegen von Heteroskedastie und Autokorrelation ersetzt werden? 4.2 Ableitung eines alternativen Schätzverfahrens 4.3 Heteroskedastie • Was versteht man unter einem FGLS-Schätzer? 4.4 Heteroskedastie-Tests • Wann sind Standardfehler robust? 4.5 Beispiel: Arbeitsnachfrage • Wie lässt sich auf Heteroskedastie und Autokorrelation testen? 4.6 Autokorrelation 4.7 Tests für Autokorrelation erster Ordnung • Wie unterscheiden sich AR(1) und MA(1) Prozesse? 4.8 Beispiel: Nachfrage nach Eiscreme • Wie kann das Autokorrelationsproblem gelöst werden? 4.9 Alternative Autokorrelationsmuster 4.10 Vorgehensweise bei Vorliegen von Autokorrelation 4.1 4.1 Konsequenzen für den KQ-Schätzer • Unser Modell lautet bzw. 4.2 terme z.B. zeitlich benachbarter Beobachtungen korreliert, d.h. die Varianz- yi = x'i β + εi (4.1) Kovarianz-Matrix ist keine diagonale Matrix. Beide Phänomene widerspre- y = Xβ + ε (4.2) chen der Annahme (4.4). Wir unterstellen die Gauss-Markov-Annahmen A1 – A4, zusammengefasst: E {ε X} = E {ε} = 0 (4.3) V {ε X} = V {ε} = σ2 I. (4.4) Die Störtermverteilung hat Erwartungswert Null, Varianzen sind konstant und • Als allgemeine Schreibweise führen wir ein V { ε X} = σ2 Ψ , (4.5) wobei Ψ eine positiv definite Matrix darstellt, die von X abhängen kann. • Da die Annahme (4.4) für den Beweis der Unverzerrtheit des KQ-Schätzers nicht genutzt wurde, gilt die Unverzerrtheit unabhängig von Ψ. die Kovarianzen Null. • Unter Heteroskedastie haben unterschiedliche Beobachtungen unterschiedliche Varianzen, d.h. die Elemente auf der Hauptdiagonalen der Varianz- • Lediglich der Ausdruck für die Varianz-Kovarianz-Matrix von b ändert sich mit (4.5) statt (4.4). Da b = ( X ' X ) X ' y = β + ( X ' X ) X ' ε , hängt die Streuung −1 −1 Kovarianz-Matrix sind nicht identisch. Unter Autokorrelation sind die Stör4.3 4.4 von b von der Varianz-Kovarianz-Matrix von ε ab. Für gegebenes X erhalten Standardfehler, (c) gelegentlich ergeben sich die Probleme durch Fehlspezi- wir fikation des Modells, was behoben werden kann. { } V {b X} = V ( X ' X ) X ' ε X = ( X ' X ) X ' V {ε X} X ( X ' X ) −1 −1 −1 = σ ( X ' X ) X ' ΨX ( X ' X ) 2 −1 −1 Dies lässt sich nur dann zu σ2 ( X ' X ) −1 (4.6) vereinfachen, wenn Ψ = I. Gilt das nicht, so sind die Standardfehler des KQ-Schätzers falsch berechnet. Dadurch werden t- und F-Tests ungültig. Das Gauss-Markov-Theorem lässt sich nicht mehr beweisen, KQ ist nicht mehr das beste unter allen linearen und erwartungstreuen Schätzverfahren. • Es gibt drei Möglichkeiten, Heteroskedastie- und Autokorrelationsprobleme zu lösen: (a) Ableitung eines neuen BLUE-Schätzers, (b) Korrektur der KQ4.5 V {P ε X} = P V {ε X} P' = σ2P Ψ P' = σ2 I 4.2 Ableitung eines alternativen Schätzverfahrens • Wir unterstellen (4.5) und dass wir die positiv definite Matrix Ψ kennen. Wir transformieren das Modell so, dass es die Gauss-Markov-Bedingungen wie- Also erfüllt P ε die Gauss-Markov-Bedingungen und wir können das ganze Modell transformieren zu Py = P X β + Pε der erfüllt. • Wir nehmen an, dass es eine quadratische, nichtsinguläre Matrix P gibt, so bzw. y* = X * β + ε * , (4.8) wobei ε* nun den Gauss-Markov-Bedingungen genügt. Nutzt man den KQSchätzer für das so transformierte Modell, ergibt sich wiederum ein BLUE- dass Ψ = P'P −1 • Nun lässt sich schreiben: 4.6 (4.7) Ψ = (P 'P ) = P−1 (P ')−1 −1 Schätzer für β. Natürlich sieht P unterschiedlich aus, je nachdem, ob ein Heteroskedastie- oder ein Autokorrelationsproblem gelöst wird. P Ψ P' = P P−1 (P')−1P' = I • Der Schätzer für β ist −1 −1 βˆ = ( X * ' X * ) X * ' y* = ( X' Ψ−1 X ) X' Ψ−1y • Es folgt für den mit P vormultiplizierten Störterm, dass (4.9) E {P ε X} = P E {ε X} = 0 4.7 4.8 und wird verallgemeinerter KQ- oder GLS- (generalized least squares) Schätzer genannt. Für Ψ = I ergibt sich der KQ-Schätzer. • Um den GLS-Schätzer zu bestimmen, braucht man Ψ, was wir nicht kennen • Da der GLS-Schätzer β̂ BLUE ist, ist seine Varianz kleiner als die korrigierte Varianz des KQ-Schätzers b (4.6). Es lässt sich nachweisen, dass V {b} − V βˆ positiv semi-definit ist. {} und schätzen müssen. Verwendet man eine Schätzung für Ψ, so spricht man vom feasible-GLS (FGLS oder EGLS, für estimated-GLS) Schätzer. • Man gewinnt GLS-Schätzer oft durch Umkodieren der Variablen und wendet dann KQ an. Dann werden die Varianz-Kovarianz-Matrix von β und die Fehlertermvarianz direkt in korrigierter Form ausgewiesen. {} −1 −1 V βˆ = σ2 ( X * ' X * ) = σ2 ( X ' Ψ−1 X ) , (4.10) wobei σ2 wie folgt geschätzt wird: σ̂2 = ( )( ) ( ) ( ) 1 1 y * − X * βˆ ' y * − X * βˆ = y − Xβˆ ' Ψ−1 y − Xβˆ . N−K N−K (4.11) 4.9 4.3 Heteroskedastie 4.10 • Annahme: Die Heteroskedastie folgt der allgemeinen Form: 4.3.1 Einführung • Man spricht von Heteroskedastie, wenn V {ε X} diagonal ist, aber nicht σ ⋅ I 2 entspricht. Die Störterme sind untereinander unkorreliert, aber die Varianz von ε variiert über die Beobachtungen. • Beispiel: Lebensmittelausgaben (yi) werden auf eine Konstante und das verfügbare Einkommen (DPIi) regressiert. Man erhält eine positive Steigung und V {εi X} = V {εi xi } = σ2 hi2 , (4.13) wobei alle hi2 bekannt und positiv sind. Unter der Annahme, dass es keine Autokorrelation gibt, lässt sich schreiben V {ε X} = σ2 Diag{ hi2 } = σ2 Ψ (A9) Diag{ hi2 } ist eine diagonale Matrix mit den Elementen h12 ,h22 ,…,hN2 . Die An- erwartet, dass die Streuung der Lebensmittelausgaben bei Hochverdienern nahme A9 ersetzt unsere Annahmen A3 und A4. Sobald die Varianz von ε größer ist als bei Geringverdienern. Diese Form von Heteroskedastie kann von den erklärenden Variablen abhängt, gilt auch A2, die Annahme der Un- wie folgt modelliert werden: abhängigkeit von ε und X nicht mehr. A1 und A2 werden ersetzt durch { } V εi DPIi = σi2 = σ2 exp {α2 DPIi } = exp {α1 + α2 DPIi } (4.12) E {ε X} = 0 (A10) • Wir suchen den BLUE-Schätzer für β im Modell Hier wäre α1 = log σ2 und α2 beliebig. 4.11 4.12 yi = x 'i β + εi , i = 1,2,…,N ⎧ε ⎫ 1 1 V ⎨ i X ⎬ = 2 V {εi X} = 2 ⋅ σ2 ⋅ hi2 = σ2 hi ⎩ hi ⎭ hi (4.14) unter den Annahmen A9 und A10. Für P wählen wir P = Diag{ hi−1} , (4.15) und der KQ-Schätzer lautet (als Spezialfall von (4.9)): −1 ⎛ N ⎞ βˆ = ⎜ ∑ hi−2 xi x 'i ⎟ ⎝ i =1 ⎠ eine diagonale Matrix mit den Elementen h1−1,…,hN−1. Elemente des Vektors der transformierten Daten sind dann yi* = yi hi , xi* = xi hi , εi* = εi hi . • Man erhält den GLS-Schätzer für β, indem man den KQ-Schätzer auf das transformierte Modell anwendet: y ⎛x ⎞ ε yi* = xi* ' β + εi* ⇔ i = ⎜ i ⎟ ' β + i hi ⎝ hi ⎠ hi N ∑h i =1 −2 i (4.18) xi yi • Dieser Schätzer wird auch als gewichteter KQ-Schätzer bezeichnet (weighted least squares): Jede Beobachtung ist mit einem Faktor gewichtet, der proportional zum reziproken Wert der Fehlervarianz ist. Unter A9 und (4.16, 4.17) A10 ist der GLS-Schätzer BLUE. So erhalten Beobachtungen mit großer Varianz in der Schätzung ein kleineres Gewicht als Beobachtungen mit kleiner • Der resultierende Störterm ist nun homoskedastisch (siehe 4.13): Fehlertermvarianz. 4.13 • Die Interpretation der geschätzten Koeffizienten bezieht sich auf das Originalmodell, nicht auf das transformierte Modell. Im transformierten Modell 1 wird auch die Konstante transformiert und hier durch die Variable ersetzt. hi Das transformierte Modell wird daher ohne eigentliche Konstante geschätzt. 4.14 4.3.2 Eigenschaften des Schätzers und Hypothesentests • Da GLS ein KQ-Schätzer auf ein transformiertes Modell ist, der die Gauss- Markov-Eigenschaften erfüllt, lassen sich seine Eigenschaften analog zum KQ-Fall ableiten. • Die Varianz-Kovarianz-Matrix von β̂ ergibt sich aus −1 {} ⎛ N ⎞ V βˆ = σ2 ⎜ ∑ hi−2 xi x 'i ⎟ ⎝ i =1 ⎠ (4.19) Dabei wird σ2 unverzerrt geschätzt durch σˆ 2 = ( 1 N −2 ∑ hi yi − x 'i βˆ N − K i =1 ) 2 (4.20) • Wenn wir wie in A5 normalverteilte Störterme unterstellen, folgt, dass β̂ nor- malverteilt ist mit Erwartungswert β und einer Varianz wie in (4.19). 4.15 4.16 • Damit können wir t-Tests legitimieren, z.B. für H0: β2 = 1 gegen H1: β2 ≠ 1 nutzen wir { } {} Schätzer β̂ und seine geschätzte Varianz V Rβˆ = R V βˆ R' zur Ableitung der Waldstatistik βˆ − 1 t= 2 se βˆ 2 (4.21) ( ) ) ( { } ) (R βˆ − q) ~ χ ˆ {βˆ} eine F-Statistik berechnen, für die gilt Es lässt sich ebenfalls mit σ̂ und V ( ξ = Rβˆ − q ' R Vˆ βˆ R ' −1 2 J 2 • Ohne die Annahme normalverteilter Störterme folgt diese Teststatistik unter βˆ − 1 H0 nicht der tN-K-Verteilung. 2 wäre dann asymptotisch standardnorse βˆ 2 f = ξ J ~ FJ,N −K . ( ) malverteilt, was am 5%-Signifikanzniveau zu einem kritischen Wert von 1,96 führt. • Auch F- und Wald-Tests können wie zuvor verwendet werden. Unter H0: Rβ = q und H1: Rβ ≠ q und R mit der Dimension J × K nutzt man den GLS- 4.17 4.3.3 Situation unbekannter Varianzen 4.18 • So kann die Varianz von ε auch durch mehr als eine exogene Variable be- • In (4.13) haben wir unterstellt, dass wir die Störtermvarianzen kennen: stimmt werden, und dies auch in nicht-proportionaler Form. V {εi X} = V {εi xi } = σ h 2 z.B. V {εi } = σ2 xikα 2 i V {εi } = σ2 ( xikα1 + xilα2 ) oder (4.25) In diesem Fall müssten die Parameter α oder α1 und α2 zunächst geschätzt Das ist selten der Fall. • Solange hi2 unbekannt ist, kann der GLS-Schätzer nicht bestimmt werden. Man müsste die unbekannten hi2 -Werte durch unverzerrte oder konsistente Schätzwerte ersetzen und hoffen, dass dies die Eigenschaften des GLSSchätzers nicht beeinträchtigt. Allerdings kann man mit N Beobachtungen nicht N verschiedene hi-Werte verlässlich schätzen. Das geht nur mit zusätzlichen Annahmen etwa hinsichtlich einer funktionalen Form, mit der hi bestimmt wird. werden, um dann den GLS-Schätzer auf die geschätzten Werte von hi2 anzuwenden. Hätten wir Schätzwerte α̂1 und α̂2 , so könnten wir ĥi2 als konsistenten Schätzer für hi2 bestimmen und den Feasible GLS (FGLS)-Schätzer für β berechnen: −1 ⎛ N ⎞ βˆ * = ⎜ ∑ hˆ i−2 xi x 'i ⎟ ⎝ i =1 ⎠ N ∑ hˆ i =1 −2 i xi yi (4.26) • Wenn die Werte für hi2 konsistent geschätzt werden, sind FGLS βˆ * und GLS β̂ asymptotisch äquivalent. Allerdings kann man für den FGLS-Schätzer die 4.19 4.20 BLUE-Eigenschaften für kleine Stichproben nicht nachweisen. Zumeist ist FGLS auch kein linearer Schätzer, da ĥi2 in nichtlinearer Form von yi ab- 4.3.4 Heteroskedastie-konsistente Standardfehler für KQ-Schätzer • Für unser Modell yi = x 'i β + εi hängt. • Unter A9, A10 und einer Annahme zur Form der Heteroskedastie ist der (4.28) mit heteroskedastischen Fehlern gilt E {εi X} = 0 und V {εi X} = σi2 bzw. y = FGLS-Schätzer für β konsistent und asymptotisch der Beste (asymptotisch Xβ + ε mit V {ε X} = σ2 Ψ = Diag{σi2 }. Der KQ-Schätzer für β ist unverzerrt effizient, d.h. mit der kleinstmöglichen Varianz). und konsistent mit der Varianz-Kovarianz-Matrix V {b X} = ( X' X ) X'Diag{σi2 } X ( X ' X ) −1 • Die Varianz-Kovarianz-Matrix wird geschätzt als −1 { } ⎛ N ⎞ Vˆ βˆ * = σˆ 2 ⎜ ∑ hˆ i−2 xi x 'i ⎟ , ⎝ i =1 ⎠ (4.27) −1 (4.29) • Um diese Matrix zu schätzen, benötigt man Schätzer für die σi2 für alle i, was ohne weitere Annahmen nicht möglich ist. wobei σ̂2 der Schätzer der Fehlervarianz ist (4.20). Dabei wird jetzt β̂ durch βˆ * ersetzt. • White (1980) hat gezeigt, dass lediglich ein konsistenter Schätzer der K × K- Matrix 1 1 N ∑ ≡ N X 'Diag{σ } X = N ∑ σ x x ' 2 i 2 i i =1 i i 4.21 4.22 (4.30) als Schätzer der wahren KQ-Varianz genutzt werden – ohne dass wir die wahre Form der Heteroskedastie kennen. Hier wird lediglich die Formel für erforderlich ist. Dabei gilt unter allgemeinen Bedingungen, dass 1 N S ≡ ∑ ei2 xi x 'i N i =1 ein konsistenter Schätzer für die Berechnung der Varianz von b ausgetauscht. (4.31) • Dies ist in den meisten Softwares als Option eingebaut. Wenn die Standard- fehler von b als Wurzel der wie in (4.32) bestimmten Varianz berechnet wer- ∑ ist (ei ist der KQ-Störterm). den, spricht man von robusten oder heteroskedastie-konsistenten Stan- • Deshalb kann dardfehlern oder White-Standardfehlern. V̂ {b} = ( X' X ) −1 N ∑ e x x ' ( X' X) i =1 −1 ⎛ N ⎞ = ⎜ ∑ xi x 'i ⎟ ⎝ i =1 ⎠ 2 i N −1 i • Die t- und F-Teststatistiken sind auch bei White-Standardfehlern asympto- i ⎛ i =1 2 i i i i =1 tisch angemessen. −1 ⎞ N ∑ e x x ' ⎜⎝ ∑ x x ' ⎟⎠ i i (4.32) • Kennte man die genaue Form der Heteroskedastie, so wäre ein FGLS- Schätzer effizienter als der KQ-Schätzer mit White-Standardfehlern. 4.23 4.24 logei2 = log σ2 + z 'i α + logei2 − log σi2 4.3.5 Multiplikative Heteroskedastie • Bei multiplikativer Heteroskedastie wird unterstellt, dass die Fehlertermvarianz mit einem J-dimensionalen Vektor zi der exogenen erklärenden Variablen korreliert ist, der – um Positivität zu garantieren – exponentiell berücksichtigt wird: V {εi xi } = σi2 = σ2 exp {α1zi1 + … + αJ ziJ } = σ2 exp {z'i α} (4.36) = log σ2 + z 'i α + (4.37) νi Da νi keinen Erwartungswert von Null hat, kann die Konstante, logσ2 , nicht konsistent geschätzt werden. Dennoch können mit (4.37) konsistente Schätzergebnisse für α gewonnen werden. • Nun sind 6 Schritte erforderlich, um konsistente Schätzer für β zu erhalten: Typischerweise enthält z einen Teil der Regressoren aus xi oder ihre Transformation. Im letzten Unterkapitel war J = 1 und zi1 der Geschlechtsdummy. • Um den FGLS zu bestimmen, benötigen wir konsistente Schätzer der unbe- kannten Parameter α in hi2 = exp {z 'i α} . Zunächst stellen wir fest, dass log σi2 = log σ2 + z 'i α . Für ei = yi − x 'i b kann man schreiben: 1. Schätze das Modell mit KQ, um die konsistenten b-Schätzer zu erhalten. 2. Berechne logei2 = log ( yi − x 'i b ) auf Basis der Residuen. 2 3. Schätze (4.37), um konsistente Schätzer für α zu erhalten. 4. Berechne hˆ i2 = exp {z'i αˆ } , transformiere alle Beobachtungen, und schätze das Modell 4.25 ⎛ε yi ⎛ xi ⎞ = ⎜ ⎟ 'β + ⎜ i ⎜ ⎟ ⎜ hˆ hˆ i ⎝ hˆ i ⎠ ⎝ i ⎞ ⎟⎟ ⎠ Dieser wird bei KQ-Schätzung des transformierten Modells automatisch berechnet. per KQ (inklusive transformierter Konstante). Dies ergibt den FGLSSchätzer β̂ * für β . ( ˆ 1 N yi − x 'i β * ∑ N − K i =1 hˆ i2 Economics, Oxford Univ. Press, S. 322-327 und 333-334. ) 2 Frage: Was ist der Zusammenhang zwischen Zinsen auf US-Schatzanleihen der US-Regierung und den Zinsen von AAA Schuldtiteln privater 6. Ein konsistenter Schätzer der Varianz-Kovarianz-Matrix von βˆ * ist ⎛ N x x' Vˆ βˆ * = σˆ 2 ⎜ ∑ i 2 i ⎜ i =1 ĥ i ⎝ { } • Illustration: Heij, C. et al., 2004, Econometric Methods with Applications in Business and 5. σ2 kann konsistent geschätzt werden durch σˆ 2 = 4.26 Schuldner? (Vermutung: positiver Zusammenhang, schwächer im Bereich höherer Zinsen) −1 ⎞ ⎟⎟ ⎠ 4.27 4.28 ⎛ x2 ⎜ 1 ⎜0 Ω = σ2 ⎜ ⎜ ⎜0 ⎝ Daten: Durchschnittszins der Schuldtitel von AAA Unternehmen (Moody's Investor Service); Zins auf Schatzanleihen des Bundes (Federal Reserve) 0⎞ ⎟ … 0⎟ ⎟ ⎟ 2 ⎟ 0 … xn ⎠ 0 … x 22 Jan. 1950 – Dez. 1999 Höchste Varianz in Monaten mit großen Änderungen in x, Beobachtungen xi = monatliche Änderung der Zinsen der Schatzanleihen mit hoher Varianz sind weniger informativ hinsichtlich α und β. yi = monatliche Änderung der Zinsen der AAA Schuldtitel Regressionsmodell: yi = α + βxi + εi Schätzung: Abh. Variable: Änderung der Zinsen auf AAA Bonds i = 1,2,… 600 Koeff. Graphische Analyse ergibt über die Zeit steigende Volatilität des Residuums, möglicherweise, weil Volatilität der Zinsen der Schatzanleihen stieg. Modell der Heteroskedastie: E ( ε 2 i ) = σ x , so dass 2 2 i KQ- t Std.fehler White t Std.fehler Konstante 0,0063 0,006 0,92 0,0069 0,91 Δ US-Schatzanleihe 0,2745 0,014 18,75 0,0228 12,00 R-squared: 0,37 N = 600 Beobachtungen 4.29 4.30 Nur kleine Unterschiede in Standardfehlern. Zusammenhang ist am 5%-Signifikanzniveau nicht signifikant. 17 Beobach- Modell zur Heteroskedastie erlaubt gewichtete Schätzung: tungen verloren, für die x = 0 war. Diese hätten eine Varianz und ein Ge- Wenn E ( εi2 ) = σ2 xi2 , führt folgende Modelltransformation zum effizienten y ε 1 Schätzer: i = α ⋅ + β + εí∗ wobei εí∗ = i , E ( εi∗2 ) = σ2 xi xi xi wicht von Null. Ergebnis der gewichteten Schätzung: Koeff. Std.fehler -0,00238 0,0051 0,462 Δ US-Schatzanleihe 0,26226 0,1443 1,818 R-squared (ungewichtet) 0,37 n = 583 Konstante • Modellalternative A für Heteroskedastie, wenn Varianz z.B. vor und nach 1975 unterschiedlich: σi2 = γ1 + γ2Di , t ⎧0 wobei Di = ⎨ ⎩1 für Jan. 1950 − Dez. 1974 für Jan. 1975 − Dez. 1999 Varianz nach 1974 um festen Betrag γ2 größer. • Modellalternative B, wenn Varianz nach großen Schocks steigt: σi2 = γ1 + γ2 εi2−1 = γ1 + γ2 ( yi −1 − α − β xi −1 ) 2 4.31 4.32 Modell A Vorgehensweise: Koeff. 1) Schätze KQ und bestimme εi 2) Berechne εi2 und schätze γ1 und γ2 der alternativen Modelle, also εi2 = γ1 + γ2Di + ηi 3) Bestimme für jedes i σ̂i2 , also σˆ i2 = γˆ1 + γˆ2Di 4) Gewichte die Daten mit bzw. εi2 = γ1 + γ2 ei2−1 + ηi bzw. σˆ i2 = γˆ1 + γˆ 2 eˆ i2−1 Std.fehler Modell B t Koeff. Std.fehler t Konstante 0.013 0.005 2.61 0.009 0.006 1.37 Δ US-Schatzanleihe 0.215 0.014 15.27 0.285 0.015 18.22 Welches der beiden Modelle ist zu bevorzugen? Testen, z.B. Vergleich der Residuen und ihrer Varianz. 1 und schätze erneut: σˆ i 4.33 4.4 Heteroskedastie-Tests 4.34 4.4.1 Test der Gleichheit zweier unbekannter Varianzen (Goldfeld-Quandt • Es gibt eine Reihe von Tests auf Heteroskedastie. Wenn sie die Nullhypothese der Homoskedastie verwerfen, kann man entweder einen FGLSSchätzer nutzen, heteroskedastie-konsistente KQ-Standardfehler berechnen Test) • Wenn die Stichprobe aus zwei Teilen A und B besteht, kann die Nullhypothese lauten: H0 : σ2A = σB2 . Der Test baut auf den Zusammenhang s2j oder die Modellspezifikation ändern. (N − K ) σ j 2 j ~ χN2 j −K , j = A,B auf. Wenn s2A und sB2 unabhängig sind, folgt s2A σ2A ~ FNA −K,NB −K sB2 σB2 Unter H0 folgt also λ= 4.35 s2A ~ FNA −K,NB −K sB2 (4.42) 4.36 • Bei einer zweiseitigen Alternativhypothese H1 : σ2A ≠ σB2 wird H0 verworfen, wenn das Verhältnis der geschätzten Varianzen zu stark nach oben oder unten von 1 abweicht. Bei einseitiger Alternativhypothese H1 : σ2A > σB2 wird H0 4.4.2 Der Breusch-Pagan-Test • Zuvor haben wir unterstellt, dass σi2 = σ2 exp {z 'i α} . Dies kann auch allgemeiner gefasst werden: σi2 = σ2 h ( z 'i α ) , verworfen, wenn λ zu groß ist. Die Alternativhypothese H1 : σ < σ würde 2 A 2 B genauso getestet, nachdem man die Benennung der Gruppen vertauscht hat. (4.44) wobei h eine unbekannte, differenzierbare und von i unabhängige Funktion ist, mit h(.) > 0 und h(0) = 1. Für den Spezialfall h(t) = exp{t} erhalten wir unsere Ausgangshypothese. • Der Test prüft H0: α = 0 gegen H1: α ≠ 0 unabhängig davon, welche konkrete Form h annimmt. • Die Teststatistik multipliziert das R2 der Regression von ei2 auf zi und eine Konstante mit N. ξ = N ⋅ R2 ist asymptotisch χ2-verteilt mit J Freiheitsgraden (J = Anzahl der Elemente von zi, ohne Konstante). 4.37 4.4.3 Der White-Test 4.38 4.4.4 Auswahl eines Tests • Der White-Test verallgemeinert den Breusch-Pagan-Test, indem er für die • Welcher Test angemessen ist, hängt davon ab, welche Form der Form der Heteroskedastie keine konkrete Annahme macht. Geprüft wird, ob Heteroskedastie vermutet wird. Ein Test ist umso stärker (d.h. er kann die e durch die ersten und zweiten Momente und Interaktionsterme der ur- falsche H0 mit umso höherer Wahrscheinlichkeit verwerfen), je konkreter die sprünglichen Regressoren erklärt werden kann. Man berechnet wieder N ⋅ R2 Nullhypothese ist. Der Nachteil konkreter Nullhypothesen ist, dass bei Vor- einer solchen Regression. liegen einer anderen Form von Heteroskedastie diese nicht entdeckt wird. 2 i • Diese Teststatistik ist χ2-verteilt und hat so viele (P) Freiheitsgrade, wie die Hilfsregression von ei2 Regressoren berücksichtigt. • Der allgemeinste Test, der White-Test, hat bei vielen Alternativen nur eine geringe Teststärke (der β-Fehler ist potentiell hoch). Tests für konkretere • Da in der Hilfsregression mehr Parameter berücksichtigt werden als im Breusch-Pagan-Test, können mit dem White-Test auch allgemeinere Formen von Heteroskedastie aufgespürt werden. Allerdings kann es sich bei den aufgespürten Problemen auch um Fehlspezifikationen handeln. Nullhypothesen sind stärker, aber das wiederum nur gegenüber einer begrenzten Zahl von Alternativen. • Oft ist es hilfreich, die Residuen gegenüber ausgewählten exogenen Variablen grafisch darzustellen. 4.39 4.40 4.5 Beispiel: Arbeitsnachfrage Arbeits snachfrag gefunktion n ableiten n: L = g(Q Q,r,w). r wird häu ufig durch h K appro o- • Wir betrachten ein einfaches Modell der Arbeitsnachfrage belgischer Unternehmen. Die Daten beschreiben für 569 Unternehmen folgende Variablen für 1996: ximiert. • Zunäch hst wird e ein lineare es Modell geschä ätzt. Tab. 4..1: KQ-Errgebnisse e, lineare es Modell labour: Gesamtbeschäftigung, Anzahl der Arbeitnehmer capital: Anlagekapital, in Millionen Euro wage: Lohnkosten pro Arbeitnehmer, in Tausend Euro output: Wertschöpfung; in Millionen Euro • In einer einfachen Produktionsfunktion Q = f(K,L) beschreiben Q den Output, K und L den Faktoreneinsatz an Kapital und Arbeit. Die gesamten Produktionskosten sind rK + wL, wobei r und w die Faktorkosten für Kapital und Ar- Alle Ko oeffiziente en haben n die erw warteten Vorzeiche V en: Bei höheren h L Löhnen is st beit abbilden. Über Kostenminimierung bei gegebenem Output lässt sich die die Bes schäftigung gering ger, höhe erer Outp put erfordert mehr Arbeitse einsatz. 4.41 4.4 42 • Bevor wir w die Sttandardfe ehler und d Teststattistiken in nterpretie eren, prüffen wir, ob o groß ist. Die Teststatistik ist N ⋅ R2 = 569 ⋅ 0,5818 = 331,0 , der kritische χ2- Heteroskedastie e vorlie egt. Im Rahm men eines Bre eusch-Pagan-Testts regress sieren wiir die qua adrierten Störterm me in einer Hilfsre egression n auf Löh hne, Output und Kapital. Wert für 3 Freiheitsgrade beträgt am 5%-Niveau 7,81. Damit wird die H0 homoskedastischer Fehlerterme klar verworfen. • In Datensätzen, die aus unterschiedlich dimensionierten Beobachtungen bestehen (z.B. große und kleine Länder oder Unternehmen), ist das Verwerfen egression n Breusch h-Pagan--Test Tab. 4..2: Hilfsre von Homoskedastie ein typisches Ergebnis. Eine Möglichkeit, dem Problem zu begegnen ist, ein logarithmisches Modell zu schätzen, das sich etwa bei einer Cobb-Douglas Produktionsfunktion Q = A Kα Lβ ergäbe. • Bei dem m hohen R2-Wertt und sign nifikanten n Koeffizienten istt es unwa ahrschein nlich, da ass die urrsprünglic che Fehlertermva arianz für alle Beo obachtung gen gleic ch 4.4 43 4.44 • Wenn man für dieses Modell die Breusch-Pagan-Hilfsregression von oben Tab. 4..3: KQ-Errgebnisse e, loglineares Mod dell durchführt, ergibt sich ein R2 von 0,0136, die Teststatistik des χ2-Tests be2 = 7,81 nicht mehr signifikant ist. trägt 7,74, was am 5%-Niveau mit χ3,95% • Man könnte auch einen White-Test durchführen. Dazu regressiert man ei2 auf alle Regressoren, ihre Quadrate und Interaktionsterme: • Hier kö önnen a alle Koefffizienten als Elastizitäten n interpre etiert we erden. Diie Lohnelastizität der Arbeitsnachffrage istt mit –0,,93 recht hoch. Auch diie Outputelastizitä ät beträgtt fast 1, die d Erhöh hung des s Outputs s um 1% % erfordert ehr Arbeittseinsatz. 1% me 4.46 4.4 45 Tab. 4..4: Hilfsre egression n White-T Test Offensichtlich isst die Stö örtermva arianz immer noch h eng ko orreliert m mit Outpu ut apital. Ma an sollte also a im Originalm O odell (mindestens s) heterosskedastie eund Ka konsisttente Standardfeh hler berec chnen: Tab. 4..5: KQ-Errgebnisse e, loglineares Mod dell, Whitte Standa ardfehler Bei ein nem R2 vvon 0,102 29 ist die e χ2-Testtstatistik von 58,5 5 noch ho ochsigniffikant. Der D kritiscche Wert am 5%--Niveau mit m 9 Freiheitsgraden beträ ägt 16,92 2. 4.4 47 4.4 48 • Nun fa allen die Standard dfehler grrößer aus als in Tabelle T 4 4.3, aberr qualitatiiv • Zwei der erklärenden Variablen sind statistisch signifikant und auch der FWert ließe uns die Nullhypothese der Homoskedastie verwerfen (kritischer haben sich die E Ergebnis sse nicht veränder v rt. • Den efffizienten FGLS-S Schätzer kann ma an bestim mmen, we enn man eine kon n- Wert bei J = 3 und N – K = 569 – 4 = 565 bei 5% beträgt 2,60). krete Form F der Heteroskedastie unterste ellt, z.B. dass d die Varianz von ε vo on • Um zu prüfen, ob die Heteroskedastie besser durch ein Modell aufgefangen log(wag ge), log(ccapital) und u log(o output) be estimmt wird. Dazu berecchnet ma an würde, das zusätzlich drei quadratische Terme der erklärenden Variablen zunäch hst die Hilfsregres ssion in Tabelle T 4.6. enthält, wird das Modell aus Tabelle 4.6 entsprechend erweitert geschätzt. Tab. 4..6: Hilfsre egression n Multiplik kative He eterosked dastie Die H0, dass die drei zusätzlichen Terme Koeffizienten von Null haben, können bei einer Teststatistik von F = 1,85 allerdings nicht verworfen werden (p = 0,137). • Um nun den FGLS-Schätzer der Arbeitsnachfragegleichung zu erhalten, müssen die Daten transformiert werden. Bis auf die Konstante (vgl. (4.39)) sind die Parameter in Tabelle 4.6 konsistent. Mit Hilfe der auf Basis dieser 4.50 4.4 49 Regression vorhergesagten Werte hˆi = hˆi2 mit hˆ i2 = eˆ i2 werden die Original- Tab. 4..7: FGLS-Ergebnisse, logliineares Modell M daten transformiert. Da die Inkonsistenz der Konstanten der Hilfsregression über die Transformation alle Daten in der Arbeitsnachfragegleichung proportional betrifft, hat sie keinen Einfluss auf die letztendlichen Schätzergebnisse (siehe Tabelle 4.7). • Der Ve ergleich d der Standardfehlerr zwische en Tabelle 4.7 (FG GLS) und d 4.5 (Wh hite-Stan ndardfehler) eigt den groß ßen Efffizienzge ewinn: Stdfehle er ze FGLS White (β ) < Stdfehller (β ) . Ein Veergleich mit den Standarddfehlern in 4.3 isst nicht nützlich, d da letztere e unkorrig giert und damit fa alsch sind d. Die Koe effiziente en n des Ka apitals – nicht n wes sentlich geändert. g . Letztere er haben sich – biis auf den ant. ist jetztt signifika 4.51 4.5 52 • Wir prüfen H0: βlog( wage) = −1 gegen H1: βlog( wage) ≠ −1 mit t = (-0,856 + 1)/0.072 = 2,01, was am 1%-Niveau nicht, aber am 5%-Signifikanzniveau noch verwor- so dass die Verwendung eines anderen Schätzverfahrens nie zu einem höheren Wert für das R2 führen kann. fen wird. • Das R2 in Tabelle 4.7 (FGLS) ist höher als in Tabelle 4.3 (KQ-Schätzer). Allerdings musste in Tabelle 4.7 das nicht-zentrierte R2 berechnet werden, da das Modell ohne (echte) Konstante geschätzt wurde. Außerdem wurde das R2 in Tabelle 4.7 für eine transformierte abhängige Variable bestimmt, umgerechnet auf die Originalvariable würde das R2 sinken. • Würde man in Tabelle 4.7 die Berechnungsart R2 = corr2{yi , yˆ i} nutzen und ŷi = x 'i βˆ * setzen, ergäbe sich R2 = 0,8403, was nur geringfügig unter dem R2 aus Tabelle 4.3 liegt. Der KQ-Schätzer maximiert per definitionem das R2, 4.53 4.6 Autokorrelation 4.54 • Beispiel: Monatliche Nachfrage nach Eiscreme. Der Fehlerterm ε enthält • Wenn die Kovarianz von Fehlertermen nicht Null ist und statt dessen zwei hier den Einfluss des Wetters. Abbildung 4.1 beschreibt die auf Basis eines oder mehr aufeinander folgende Störterme korreliert sind, sprechen wir von Autokorrelation oder serieller Korrelation. Solange E {ε X} = 0 , sind die geschätzten Modells vorhergesagten Werte (Linie) sowie die tatsächlich be- Konsequenzen von Autokorrelation und Heteroskedastie ähnlich: Der KQ- Residuen. Schätzer ist unverzerrt und ineffizient, die Standardfehler sind falsch. obachteten Werte (Punkte). Es gibt jeweils Gruppen positiver und negativer Abb. 4.1: Tatsächliche und vorhergesagte Eisnachfrage (März 1951 – Juli • Autokorrelation gibt es typischerweise bei Zeitreihendaten, wo die Beobach- 1953) tungen (indexiert nun mit t = 1,2,…,T statt mit i = 1,2,…N) geordnet vorliegen. Der Störterm beschreibt den Einfluss von Größen, die nicht im Modell berücksichtigt wurden. Ausgeschlossene Variablen sind ein häufiger Grund für positive Autokorrelation. Insofern weist Autokorrelation auch oft auf Fehlspezifikation hin. 4.55 4.56 4.6.1 Autokorrelation erster Ordnung • Jede Form von Autokorrelation führt zu einer anderen Varianz-KovarianzMatrix der Störterme V{ε}. Am häufigsten betrachtet man autoregressive Prozesse erster Ordnung. Der Störterm von yt = x't β + εt (4.47) folgt dann auf seinen Vorläufer gemäß: εt = ρεt −1 + νt . • In makroökonomischen Analysen führen Konjunkturzyklen zu ähnlichen Effekten. Positive Autokorrelation ist die Regel, negative ist eher selten (positive und negative Störterme würden abwechseln). (4.48) Dabei hat νt den Mittelwert 0 und die konstante Varianz σ2ν ohne serielle Korrelation. νt wird in jeder Periode neu und unabhängig von vorherigen Werten bestimmt. Es wird unterstellt, dass xt und alle Störterme statistisch unabhängig sind. ρ und σ2ν sind unbekannt. Wenn ρ = 0 ist, gelten für εt = νt die Standardannahmen A1 – A4. 4.57 • Wir unterstellen typischerweise, dass ε1 einen Erwartungswert von 0 und die 4.58 cov {εt , εt −1} = E {εt εt −1} = ρ E {ε2t −1} + E {εt −1νt } = ρ gleiche Varianz wie spätere εt hat, sowie dass |ρ| < 1. Wenn |ρ| < 1, sprechen wir von einem stationären autoregressiven Prozess erster Ordnung. Bei stationären Prozessen sind Mittelwert, Varianz und Kovarianz von εt über E {εt εt − 2 } = ρ E {εt −1 εt − 2 } + E {εt − 2 νt } = ρ2 σ2ν 1 − ρ2 (4.51) und allgemein gilt für s ≥ 0 folgt, dass E {εt } = 0 und aus E {εt εt − s } = ρs V {εt } = V {ρ εt −1 + νt } = ρ V {εt −1} + σ 2 (4.50) Die Kovarianz für Fehlerterme im Abstand von 2 Perioden ist gegeben durch die Zeit konstant. Aus E {εt } = ρ E {εt −1} + E {νt } σ2ν 1 − ρ2 2 υ σ2ν . 1 − ρ2 (4.52) • Somit sind – solange 0 < ρ < 1 – alle Elemente von ε mit steigendem zeitli- ergibt sich chem Abstand immer schwächer korreliert. Dabei enthält die Varianzσ2ν σ2ε = V {εt } = 1 − ρ2 (4.49) Kovarianz-Matrix von ε keine Nullen. Für einen FGLS-Schätzer kann eine entsprechende Transformationsmatrix abgeleitet werden. • Für nicht-diagonale Elemente der Varianz-Kovarianz-Matrix von ε folgt aus 4.59 4.60 εt − ρεt −1 • Der KQ-Schätzer für die für t = 1 mit (4.54) und für t = 2,3,…T mit (4.53) homoskedastische, nicht-autokorrelierte Störterme. Das transformierte Mo- transformierten Beobachtungen ergibt den GLS-Schätzer β̂ , der die BLUE- dell ist: Eigenschaft hat. Ohne t = 1 spricht man vom Cochrane-Orcutt-Schätzer, • Da εt = ρεt −1 + νt , generiert eine Transformation yt − ρyt −1 = ( xt − ρxt −1 ) ' β + νt t = 2,3,…,T wie (4.53) mit t = 1 vom Prais-Winsten-Schätzer. und liefert, sofern ρ bekannt ist, bei KQ-Schätzung approximativ den GLSSchätzer. Allerdings kann die erste Beobachtung (t = 1) nicht genutzt werden, was aber – insbesondere wenn T groß ist – nur einen geringen Einfluss auf die Schätzergebnisse hat. • Für t = 1 nutzt man 1 − ρ2 y1 = 1 − ρ2 x ' 1β + 1 − ρ2 ε1 , wobei Var { (4.54) } 1 − ρ2 ε1 = (1 − ρ2 ) ⋅ Var ( ε1 ) = σ2ν (siehe 4.49). 4.61 4.6.2 Unbekanntes ρ 4.62 sich ρ̂ und βˆ * nicht mehr ändern. Dadurch wird ρ zunehmend effizienter geschätzt, aber nicht unbedingt auch βˆ * . Da ρ sowieso konsistent geschätzt • Im Normalfall kennt man ρ nicht. Gegeben εt = ρεt −1 + νt , (4.55) günstig sein. lässt sich ρ durch KQ-Regression von εt auf εt-1 schätzen: −1 ⎛ T ⎞ ⎛ T ⎞ ρˆ = ⎜ ∑ e2t−1 ⎟ ⎜ ∑ et et −1 ⎟ ⎝ t =2 ⎠ ⎝ t =2 ⎠ wurde, ist der Vorteil des Verfahrens gering. Bei kleinen Stichproben kann es (4.56) • Illlustration: Quelle: Murray, M.P., 2006, Econometrics. A Modern Introduction, Pearson, ist konsistent. Nutzt man ρ̂ statt ρ, um den FGLS-Schätzer βˆ * zu erhalten, gilt die BLUE-Eigenschaft nicht mehr. Asymptotisch sind βˆ * und β̂ allerdings äquivalent und man kann ignorieren, dass ρ geschätzt wurde. S. 453, 471. Fragestellung: Was ist der Zusammenhang zwischen Arbeitslosigkeit und Armut? • Beim iterativen Cochrane-Orcutt-Schätzer schätzt man zunächst KQ und erhält b und ε. Dann schätzt man ρ̂ und erhält βˆ * . Nun erhält man neue Residuen und bestimmt ein neues ρ̂ . Die Prozedur wird so lange wiederholt, bis 4.63 Daten: US-Armutsrate (Bevölkerungsanteil mit Einkommen unter der Armutsgrenze), US-Arbeitslosenquote, 1980 – 2003 (N = 24) 4.64 Cochrane-Orcutt KQ-Schätzung: Abh. Variable Armutsrate Koeff. Std.fehler t Konstante 9.790 0.611 16.02 Arbeitslosenquote 0.587 0.095 6.19 R2 0.635 N = 24 Prais Winsten Koeff. Std.fehler t Koeff. Std.fehler t Konstante 9.890 0.713 13.87 9.643 0.763 12.64 Arbeitslosenquote 0.583 0.097 5.98 0.563 0.098 5.74 rho 0.807 0.855 Hochsignifikanter Zusammenhang, wie erwartet. Vermutung: Autokorrelierte Störterme erster Ordnung, neue Schätzungen: Auch bei korrigierenden Schätzverfahren bleibt signifikanter Zusammenhang erhalten. Anstieg der Arbeitslosenquote um 0,01 (ein Prozentpunkt, z.B. von 5 auf 6 Prozent) erhöht Armutsrate um 0,583 ⋅ 0,01 = 0,0058. Da aber nur die Hälfte der Bevölkerung im Arbeitsmarkt aktiv ist, impliziert jeder weitere Arbeitslose ca. 1,2 weitere Personen in Armut; unterstellt wird, dass die Ar- 4.65 mutsrate = Anzahl Arme/Anzahl Einwohner, Alq = Anzahl Arbeitslose/Anzahl 4.66 4.7 Tests für Autokorrelation erster Ordnung • Solange ρ = 0, ist KQ BLUE. Wenn ρ ≠ 0, sind die KQ-Standardfehler falsch. der Erwerbspersonen sowie Einwohner ≅ 2 ⋅ Erwerbspersonen. Daher sind Autokorrelationstests wichtig. 4.67 4.68 4.7.1 Asymptotische Tests • Hier folgt unter H0: ρ = 0, (T - 1) ⋅ R2 der χ2 – Verteilung mit einem Freiheits- • Die KQ-Residuen aus yt = x't β + εt enthalten Informationen über Autokorrelation. Ein erster Ansatz ist, εt mit oder ohne Regressionskonstante auf εt-1 zu regressieren. Solange das ursprüngliche Modell keine verzögerten endogenen Variablen aufweist, ist der t-Test für ρ̂ asymptotisch gültig. • Es lässt sich zeigen, dass grad. Je kleiner R2 ist, umso eher gilt ρ = 0. Der Test kann einfach für den Fall von Autokorrelation höherer Ordnungen erweitert werden, indem der Hilfsregression weitere verzögerte Werte hinzugefügt werden, z.B. für Autokorrelation t ≈ Tρˆ . (4.57) dritter Ordnung: εt = α + ρ1εt −1 + ρ2 εt − 2 + ρ3 εt −3 + νt Wir verwerfen H0: ρ = 0 gegen eine zweiseitige Alternative mit ρ ≠ 0, z.B. wenn t > 1,96 am 5%-Niveau. Unterstellt man positive Autokorrelation, so lautet H1: ρ > 0 und die Teststatistik am 5%-Niveau ist 1,64. t = 4,5,…T • Wenn das Modell verzögerte endogene Variablen enthält, ergibt sich entgegen Annahme A2 eine Korrelation der erklärenden Variablen mit dem • Ein anderer Test (Breusch-Godfrey-Test) stützt sich auf das R2 der Hilfsre- Störterm: et gression mit Konstante εt = α + ρεt −1 + νt yt = x't β + yt-1γ + ρet −1 + νt . für t = 2,3,…T. 4.69 Das gleiche Problem ergibt sich, wenn einzelne Regressoren mit et-1 korre- 4.70 4.7.2 Der Durbin-Watson-Test liert sind. Dennoch sind die oben genannten Tests auch in diesen Situatio- • Der Durbin-Watson-Test ist sowohl asymptotisch als auch bei kleinen Stich- nen angemessen, wenn die entsprechende Regressoren yt-1 bzw. xt in der proben gültig, wenn 2 Annahmen zutreffen: (a) Die Regressoren sind nicht- Hilfsgleichung berücksichtigt werden: stochastisch, d.h. A2 gilt und es sind keine verzögerten endogenen Variab- et = α + x 't β + ρ1et −1 + ρ2 et − 2 + … + ρMet −M + νt . len im Modell. (b) x enthält die Regressionskonstante. • Vermutet man im Hauptmodell Heteroskedastie, bei der die Varianz der Stör- • Die Durbin-Watson-Teststatistik nutzt den KQ-Störterm et: T terme durch die erklärenden Variablen beeinflusst wird, dann gelten die tTest Formen der Autokorrelationstests nach wie vor, dw = solange ∑ (e t =2 t − et −1 ) 2 T ∑e heteroskedastie-konsistente White-Standardfehler berechnet werden. t =1 T da dw = ∑ (e t =2 2 t − 2et et −1 + e2t −1 ) T ∑e t =1 4.71 2 t , T ≈ (4.58) 2 t 2 ⋅ ∑ e2t t =2 T ∑e t =2 2 t T − 2∑ et et −1 t =2 T ∑ e2t −1 ≈ 2 − 2 ⋅ ρˆ (4.59) t =2 4.72 • Ein dw-Wert von ungefähr 2 impliziert, dass ρ ≈ 0. Wenn dw < 2, so ist dies Tab. 4..8: Obere e und untere Gren nzwerte der d DW-T Teststatisttik für α = 5% ein Indiz für positive Autokorrelation mit ρ > 0, ist dw > 2, dann ist ρ < 0. • Unter H0: ρ = 0 hängt die Verteilung von dw nicht nur von T und der Anzahl K der Koeffizienten ab, sondern auch von den Werten der xt Variablen. Daher gibt es keine allgemeingültigen kritischen Werte, sondern obere und untere Grenzen für dw, die von T und K abhängen (siehe Tabelle 4.8). Dabei liegt l der wahre krritische Wert W dcrit zwischen z n oberem m (upper) und unte erem Grrenzwert (lower): dL < dcrit < dU und unter H0 gilt am 5%-Nivea 5 au P {dw < dL } ≤ P {dw < dcrit } = 0,05 0 ≤ P {dw < dU } . 4.73 Bei K = 5, T = 25 : dL,5% = 1,038 dU,5%= 1,767 Bei K = 5, T = 100 : dL,5% = 1,592 dU,5%= 1,758 • Der Durbin-Watson-Test ist nur anwendbar, wenn die Annahmen A1 – A4 α=5% dL dcrit 4.7 74 dU ρ>0 sowie ε ∼ N gelten. Dennoch wird er häufig verwendet. Die asymptotischen dw 2 (ρ=0) Tests jedoch gelten auch bei nicht normal verteilten Störtermen und können bei verzögerten endogenen Regressoren im Modell angewendet werden. ρ<0 • Bei einem einseitigen Test H0: ρ = 0 gegen H1: ρ > 0 ergeben sich drei Möglichkeiten: (a) dw < dL : Ho wird verworfen (b) dw > dU : Ho wird nicht verworfen • Bei Test auf negative Autokorrelation mit H1: ρ < 0 liegt der kritische Wert zwischen 4 − dU und 4 − dL , so dass die gleichen Tabellen genutzt werden können. (c) dL < dw < dU : Keine Aussage möglich, der Test hat kein Ergebnis. • Je größer T, umso kleiner die Region, in der keine Aussage möglich ist. 4.75 4.76 4.8 Beispiel: Nachfrage nach Eiscreme Abb. 4..2: Eiskon nsum, Prreis und Tempera T tur (in Fa ahrenheitt/100) • Genutzt wird ein klassischer Datensatz mit 30 monatlichen Beobachtungen von 18.3.1951 bis 11.7.1953 für folgende Variablen cons: Pro-Kopf Konsum (Einkauf in pints) income: mittleres Haushaltseinkommen pro Woche (in US $) price: Preis für Eiscreme (pro pint) temp: Durchschnittstemperatur (in Fahrenheit) • Abbildung 4.2 beschreibt die Daten über die Zeit und stützt die Vermutung, dass die Temperatur eine Rolle für die Nachfrage nach Eis spielt. • Um die e Determinanten des d Eisko onsums zu z bestim mmen, wirrd ein line eares Mo odell ges schätzt: 4.77 4.7 78 • Abb. 4..3: Beoba achteter (Punkte) ( und vorh hergesagter (Linie e) Konsum m Tab. 4.9: KQ-Ergebnisse • Die Koeffizienten haben das erwartete Vorzeichen, das R2 ist hoch und die Durbin-Watson-Statistik beträgt 1,0212. Die Grenzwerte für einen einseitigen Test von H0: ρ ≤ 0 gegen H1: ρ > 0 am 5%-Niveau mit T = 30 und K = 4 sind dL = 1,21 und dU = 1,65. Da 1,0212 < dL, kann H0 verworfen werden. • Die Da arstellung g (Abb. 4.3) 4 zeig gt, dass positive und neg gative Re esiduen in i Gruppe en auftretten. Die saisonale s e Schwan nkung de er Nachfrage wird durch diie Variablle temp n noch nich ht vollstän ndig aufgefangen.. 4.79 4.8 80 • Der Autokorrelationskoeffizient ρ, in εt = ρεt −1 + νt kann geschätzt werden, Tab. 4..10: FGLS S (iterativ ve Cochrrane-Orcu utt) Ergeb bnisse wenn man εt ohne Konstante auf εt −1 regressiert. Da E{ε} = 0, sollte eine Konstante in diesem Modell nicht signifikant von Null verschieden sein. • Man erhält ρ̂ = 0,401 und R2 = 0,149. Ein asymptotischer Test von H0: ρ = 0 gegen Autokorrelation erster Ordnung benutzt T ⋅ ρˆ = 2,19 , was größer ist als tkrit, 5% = 1,96, so dass H0 auch mit diesem Test verworfen wird. • Der Breusch-Godfrey-Test auf Basis von R2 führt zu ( T − 1) ⋅ R2 = 4,32 , H0 wird verworfen. • Daher ist KQ nicht BLUE, die Standardfehler in Tabelle 4.9 sind falsch. Ein iteratives Cochrane-Orcutt-Verfahren ergibt die Schätzergebnisse in Tabelle 4.10. • Die Ric chtung und Größe e der geschätzten n Koeffiz zienten wird w tende enziell be estätigt. Die mit e einem Stern verse ehenen Größen G b beziehen sich auf das trans sformierrte Mode ell und kö önnen nic cht mit den d KQ-E Ergebniss sen in Ta abelle 4..9 4.81 verglichen werden. Auch die Durbin-Watson-Statistik des transformierten 4.8 82 Tab. 4..11: KQ-S Schätzun ng, erweitterte Spe ezifikation n Modells ist nicht mehr verlässlich. • Autokorrelation kann ein Indikator dafür sein, dass das Modell fehlspezifiziert ist. Daher kann man auch versuchen, das Problem durch Änderung der Spezifikation zu lösen. Man könnte z.B. noch einen verzögerten Wert der Temperatur (tempt-1) ins Modell aufnehmen (siehe Tabelle 4.11). • Im Verrgleich zu u Tabelle 4.9 ist die d Durbin n-Watson n-Statistik k mit 1,58 jetzt am m 5%-Niv veau in d der Regio on, in derr keine Aussage A möglich ist (1,14 bis 1,74). Allerdin ngs liegt der Wertt in der Nähe der oberen o G Grenze, so dass die H0 ehe er nicht ve erworfen wird (bspw. am 1%-Nivea 1 au). 4.83 4.8 84 • Der verzögerte Wert der Temperatur hat einen signifikant negativen Koeffi- 4.9 Alternative Autokorrelationsmuster zienten, während die kontemporäre Temperatur positiv mit der Eiscreme- 4.9.1 Autokorrelation höherer Ordnung nachfrage korreliert. Das kann man so interpretieren, dass bei hohen Tem- • Autokorrelation erster Ordnung kommt häufig vor, jedoch ist bei Quartals- peraturen die Nachfrage steigt. Hält die hohe Temperatur jedoch für mehr oder Monatsdaten auch denkbar, dass es quartals- oder monatsbezogene als einen Monat an, geht die Nachfrage wieder zurück, vielleicht weil die Vor- Störtermkorrelationsmuster gibt, z.B. εt = γεt − 4 + νt (4.60) εt = γ1εt −1 + γ2 εt − 2 + γ3 εt −3 + γ4 εt − 4 + νt (4.61) räte noch nicht aufgebraucht sind. oder (4.61) nennt man Autokorrelation vierter Ordnung. Die FGLS-Schätzer können – solange kein xt mit dem Störterm korreliert ist – geschätzt werden, indem man mit den KQ-Residuen die Modelle (4.60) bzw. (4.61) schätzt. Anschließend müssen wieder die Daten transformiert werden, wodurch beim Cochrane-Orcutt-Verfahren die ersten vier Beobachtungen verloren gehen. 4.85 4.9.2 Moving-Average-Residuen eignis zum Zeitpunkt t nicht beeinflusst. Entsprechend erwarten wir eine Kor- • Bislang haben wir unterstellt, dass alle Störterme untereinander korreliert sind, wobei der Grad der Korrelation abnimmt, wenn der zeitliche Abstand wächst. Alternativ könnte die Theorie vorgeben, dass nur ausgewählte Störterme korreliert sind; dies 4.86 kann durch einen moving average Störtermprozess modelliert werden und kann dann auftreten, wenn der Messabstand der Datenpunkte kleiner ist als das Intervall, für das sie definiert sind. relation in den Werten von Verträgen, die im Ein- oder Zweimonatsabstand fällig werden, aber nicht darüber hinaus. • Beispiel 2: Halbjährliche Beobachtungen der jährlichen Preissteigerung. Unsere abhängige Variable beschreibt die Preissteigerung der letzten 6 Monate zum Termin 1.1 oder 1.7. und auch die erklärende Variable (z.B. das Geldangebot) sei halbjährlich gemessen. Das wahre Modell ist yt = x't β + νt , • Beispiel 1: Monatliche Daten zum Wert von 3-Monatsfestgeldverträgen. In diesem Fall beeinflusst ein Ereignis im Monat t den Wert der Verträge, die in den Monaten t, t+1 und t+2 fällig werden. Später fällige Verträge sind zum Zeitpunkt t noch nicht ausgegeben, daher wird ihre Wertentwicklung vom Er4.87 t = 1,2,…T (halbjährlich) (4.62) wobei νt den Gauss-Markov-Bedingungen genügt. Für den jährlichen Preisanstieg gilt y*t = yt + yt-1 und y*t = ( xt + xt-1 ) ' β + ν t +νt −1 , t = 1,2,…T (4.63) 4.88 • In diesem Fall enthält die Varianz-Kovarianz-Matrix des Störterms zahlreiche bzw. y = x ' β + εt , * t * t t = 1,2,…T (4.64) Nullen: ⎡2σ ν2 ⎢ 2 ⎢ σν ⎢ 0 E{ε t ε' t } = ⎢ ⎢ ⎢ ⎢0 ⎢ ⎣0 mit εt = νt + νt-1 und x*t = xt + xt-1 . Wenn V {νt } = σ2ν , dann folgt für die Eigenschaften des Störterms in (4.64): E {εt } = E {νt } + E {νt −1} = 0 V {εt } = V {νt + νt −1} = 2σν2 cov {εt , εt −1} = cov {νt + νt −1, νt −1 + νt − 2 } = 0 2σ ν2 σ ν2 0 σ ν2 2σ ν2 0 0 0 2σ ν2 0 0 σ ν2 0 0 ⎤ ⎥ 0 ⎥ ⎥ 0 ⎥ ⎥ ⎥ 2 σν ⎥ ⎥ 2σ ν2 ⎦ Dieser Fall wird als moving average Störtermprozess erster Ordnung be- E {νt νt −1} + E {νt νt − 2 } + E {νt −1νt −1} + E {νt −1νt − 2 } = σν2 cov {εt , εt − s } = cov {νt + νt −1, νt − s + νt −1− s } = 0 σ ν2 zeichnet, wobei in diesem Fall der Korrelationskoeffizient zwischen εt und εt-1 cov ( εt , εt −1 ) σ2 = ν2 = 0,5 a priori auf 0,5 festgesetzt ist: corr ( εt , εt −1 ) = Var ( εt ) ⋅ Var ( εt −1 ) 2σν s = 2,3,… • Der allgemeine Fall eines moving average Prozesses erster Ordnung lautet 4.89 εt = νt + ανt −1 , mit |α| < 1 4.90 4.10 Vorgehensweise bei Vorliegen von Autokorrelation • Es ist komplizierter, Modelle unter moving average als unter Autokorrelation • In vielen Fällen weist Autokorrelation auf die Fehlspezifikation des Modells zu schätzen, da die Transformation, um „Gauss-Markov-Fehler“ zu erhalten, hin. In solchen Fällen sollte nicht der Schätzer, sondern das Modell geändert aufwändiger ist. Falls die verwendete Software dazu keine Routine anbietet, werden. Beispielsweise könnte es sich um Fehlspezifikation der Dynamik, ist es einfacher, KQ zu schätzen und anschließend eine Korrektur für Auto- ausgelassene Variablen oder Fehlspezifikation der funktionalen Form han- korrelation undefinierter Natur durchzuführen. deln. 4.91 4.92 4.1 10.1 Fehlspezifik kation • Die Residuen in dieser Abbildung sind stark korreliert, dw = 0,193. Die Lö- • Angeno ommen, das wah hre Mode ell lautett yt = β1 + β2 logxt + εt und der Wert von xt steigt über die Ze eit. Würden wir im m Rahme en eines linearen l Modells yt egressierren, ergä äbe sich ein e Bild wie w in Abb bildung 4.4: auf xt re sung des Problems besteht jedoch nicht darin, den Schätzer zu ändern, sondern die Modellspezifikation, und statt auf xt auf log xt zu regressieren. • Autokorrelation kann sich auch bei Auslassen relevanter erklärender Variab- Abb. 4.4 4 Tatsä ächliche (Punkte) ( und line ear vorhe ergesagte e Werte (Linie) fü ür das wa ahre Modell yt = 0,,5 log t + εt len ergeben, wie wir am Eiscremebeispiel gesehen haben. • Auch eine Fehlspezifikation der Dynamik kann zu Problemen führen. • Beispiel: Wir haben im linearen statischen Modell yt = x't β + εt Autokorrelation erster Ordnung (4.65) εt = ρεt −1 + νt . Das Modell beschreibt E {yt xt } = x 't β . Man könnte aber auch am Erwartungswert von yt vor dem Hintergrund der Werte xt, xt −1 und yt–1 interessiert sein, wobei gilt: 4.94 4.9 93 E {yt xt ,xt −1,yt −1} = x 't β + ρ ( yt −1 − x 't −1 β ) (4.66) • Um ein lineares Modell yt = x't β + εt mit autokorreliertem Störterm zu schät- Dann lässt sich ein dynamisches Modell wie folgt formulieren: yt = x't β + ρyt −1 - ρx't-1β + νt 4.10.2 Heteroskedastie- und Autokorrelation – konsistente Standardfehler (4.67) Nun enthält der Störterm keine Autokorrelation. Durch die Erweiterung des zen, kann man entweder GLS verwenden oder beim KQ-Schätzer die Standardfehler korrigieren. Modells um verzögerte exogene und endogene Variablen verschwindet die • Insbesondere, wenn nach einer gewissen Lag-Länge H die Korrelation zwi- Autokorrelation. Es gibt auch Fälle, in denen es ausreicht, nur yt-1 oder nur schen εt und εt-s gegen Null geht oder wenn die Konsistenzbedingungen für xt-1 ins Modell aufzunehmen. den GLS-Schätzer nicht gelten, werden Heteroskedastie- und Autokorre- • Es ist eine inhaltliche Frage, ob man sich für das Modell E {yt xt } oder für das Modell E {yt xt ,xt −1,yt −1} interessiert. Letzteres generiert sicher eine bes- lation-konsistente (HAC) oder Newey-West-Standardfehler bestimmt. • Dabei werden die White-Standardfehler auf den Fall der Autokorrelation er- sere Anpassung an die Daten. Allerdings ist der Durbin-Watson-Test bei weitert. Die HAC Standardfehler werden auch verwendet, wenn das Autokor- Modellen mit verzögerten endogenen Variablen nicht anwendbar. relationsmuster über einen vorbestimmten Lag-Abstand von H hinausgeht. Das Verfahren wurde für große Stichproben entwickelt. 4.95 4.96 Literatur: Verbeek, 2004, Kapitel 4. Heij, C. et al., 2004, Econometric Methods with Applications in Business and Economics, Oxford Univ. Press, S. 322-327 und 333-334. Murray, M.P., 2006, Econometrics. A Modern Introduction, Pearson, S. 453, 471. 4.97 Lernziele Kapitel 5: Kapitel 5: Maximum Likelihood und 0/1 abhängige Variablen 5.1 Das Maximum Likelihood Verfahren (6.1) • Was ist die Intuition des Maximum Likelihood Schätzers? 5.2 Inferenz im ML-Rahmen (6.2) • Welche Eigenschaften haben Maximum Likelihood Schätzer? 5.3 Binäre abhängige Variablen (7.1) • Welche Testverfahren gibt es im ML-Rahmen? • Wie wird die Schätzgüte von ML-Schätzern gemessen? • Wie gehen Probit- und Logit-Schätzer vor? 5–1 5–2 • Illustration 1: Die Wahrscheinlichkeit aus einer Urne mit Kugeln von denen 5.1 Das Maximum Likelihood Verfahren der Anteil p rot ist (der Rest ist weiß), N1 rote und N-N1 weiße zu ziehen, 5.1.1 Einführung lautet: • Grundlage des Verfahrens ist eine Annahme bezüglich der Verteilung der P {N1 rote, N − N1 weiße} = pN1 (1 − p ) N − N1 abhängigen Variable. Bedingt auf Kovariate ist lediglich ein Vektor von . (6.1) Parametern unbekannt, der die Verteilung charakterisiert. Dieser wird so Dieser Ausdruck stellt eine Likelihoodfunktion dar. Die Schätzung bestimmt bestimmt, dass die Wahrscheinlichkeit, dass genau die vorliegenden Daten den Wert für p, der (6.1) maximiert, p̂ . Rechnerisch ist es oft einfacher, den generiert wurden, maximiert wird. logarithmierten Wert zu maximieren: log L ( p ) = N1 log ( p ) + (N − N1 ) log (1 − p ) • Beispiel: Eine normalverteilte Variable yi könnte durch den Mittelwert d logL ( p ) β1+β2 xi und die Varianz σ2 charakterisiert werden. dp = p̂ = 5–3 (6.2) N1 N − N1 − =0 p 1− p (6.3) N1 N (6.4) 5–4 p̂ ist der Maximum Likelihood Schätzer und entspricht dem Anteil der roten Der Beitrag jedes yi zur Likelihoodfunktion wird über die Dichtefunktion der an allen Bällen. Eine Überprüfung der Bedingungen zweiter Ordnung ergibt, Normalverteilung beschrieben: dass ein Maximum vorliegt. f ( yi | xi ; β, σ2 ) = • Intuition: Die Wahrscheinlichkeit, die vorliegenden Daten zu beobachten, ⎧⎪ 1 ( yi − β1 − β2 xi )2 ⎫⎪ exp ⎨ − ⎬. σ2 2π σ2 ⎩⎪ 2 ⎭⎪ 1 (6.7) wird als Funktion der unbekannten Parameter beschrieben, die die Wenn β = (β1, β2)' und alle i = 1, 2, ..., N Beobachtungen unabhängig sind, Verteilung charakterisieren. Die Likelihoodfunktion wird dann über diese lautet die auf x bedingte gemeinsame Dichte von y1, ..., yN: Parameter maximiert. N f ( y1,...,yN |xi ; β, σ2 ) = ∏ f ( yi |xi ;β, σ2 ) i =1 • Illustration 2: Wir unterstellen A.1 – A.4 für yi = β1 + β2 xi + εi, ⎛ 1 =⎜ ⎜ 2π σ2 ⎝ (6.6) N ⎞ ⎟ ⎟ ⎠ N ∏ i =1 ⎧⎪ 1 ( yi − β1 − β2 xi )2 ⎫⎪ exp ⎨− ⎬ σ2 ⎪⎩ 2 ⎪⎭ (6.8) 2 d.h. E(εi | x) = 0, V(εi | x) = σ . Das ML-Verfahren erfordert zusätzlich eine Verteilungsannahme, die wir als εi ∼ NID (0, σ2ε ) treffen. Dies ist die Likelihoodfunktion, so dass die Log-Likelihoodfunktion lautet: 5–5 5–6 log L ( β, σ2 ) = − N 1 N log ( 2π σ2 ) − ∑ 2 2 i =1 (y i − β1 − β2 xi ) 2 σ2 wobei K die Anzahl der Steigungsparameter + 1 (für die Konstante) ist. β̂ hat (6.9) die gleichen Eigenschaften (unverzerrt, konsistent) wie beim KQ-Schätzer. Nur der letzte Term variiert mit β und er entspricht der Summe der quadrierten Residuen (2.12). Daher sind die ML-Schätzer des linearen kann für den ML-Schätzer nur Konsistenz und somit existiert keine analytische Lösung für die unbekannten Parameter. Der ML-Schätzer für σ2 lautet nach erster Ableitung und bei ei = yi − βˆ1 − βˆ 2 xi : 1 N 2 ∑ ei N i =1 • Allgemein asymptotische Effizienz nachgewiesen werden. In den meisten Fällen Modells identisch mit den KQ-Schätzern. σˆ 2 = • Wenn ε nicht-normal verteilt oder heteroskedastisch ist, ist die angegebene (6.11) Likelihoodfunktion falsch, da sie nicht die wirkliche Verteilung beschreibt. Dies ist konsistent, aber nicht unverzerrt. Der unverzerrte (KQ-) Schätzer lautet: s2 = 1 N 2 ∑ ei , N − K i =1 5–7 5–8 N max logL ( θ ) = max ∑ logLi ( θ ) 5.1.2 Allgemeine Eigenschaften des ML-Verfahrens θ • Im allgemeinen Fall sei f(yi | xi; θ) die Dichtefunktion für die endogene Größe yi, die durch den K-dimensionalen Parametervektor θ charakterisiert wird. θ • Die Bedingungen erster Ordnung werden durch θ = θˆ erfüllt: ∂ logL ( θ ) Unter der Annahme unabhängig verteilter y und wenn X = (x1, ..., xN)' lautet ∂θ =0 (6.13) θ=θˆ nicht analytisch bestimmen. • Dies entspricht der Likelihoodfunktion: i =1 ∂θ i =1 globales Maximum. In der Regel lässt sich die Lösung nur numerisch und i =1 i =1 ∂ logLi ( θ ) • Wenn die Log-Likelihoodfunktion global konkav ist, existiert ein eindeutiges N f ( y1,...,yN | X; θ ) = ∏ f ( yi |xi ; θ ) N N =∑ θ=θˆ die gemeinsame Dichtefunktion: N (6.12) i =1 L ( θ |y, X ) = ∏ Li ( θ |yi ,xi ) = ∏ f ( yi |xi ; θ ) • Den Vektor der ersten Ableitungen der Log-Likelihoodfunktion bezeichnet man als score Vektor: • Der Beitrag von Individuum i zur Likelihoodfunktion lautet: Li ( θ | yi ,xi ) . s ( θ) ≡ ∂ logL ( θ ) ∂θ • Der ML-Schätzer θ̂ löst: N =∑ ∂ logLi ( θ ) ∂θ i =1 N ≡ ∑ si ( θ ) (6.14) i =1 5–9 5–10 ⎧ ∂2 logLi ( θ ) ⎫ Ii ( θ ) ≡ −E ⎨ ⎬. ⎩ ∂ θ∂ θ' ⎭ und für die ersten Ableitungen ergibt sich: () N () s θˆ = ∑ si θˆ = 0 . i =1 Als Mittelwert über die Stichprobe ergibt sich • Wenn die Likelihoodfunktion korrekt spezifiziert ist, lassen sich folgende IN ( θ ) ≡ Eigenschaften des ML-Schätzers zeigen: (1) Konsistenz, plimθˆ = θ ⎧ 1 ∂2 logL ( θ ) ⎫ 1 N I E θ = − ⎨ ⎬. ∑ i( ) N i =1 ⎩N ∂ θ ∂ θ ' ⎭ (6.17) Für N → ∞ wird dies als Informationsmatrix bezeichnet: I ( θ ) ≡ Nlim I (θ) →∞ N (2) Asymptotische Effizienz (3) Asymptotische Normalverteilung: (6.16) ( ) a N θˆ − θ ∼ N ( 0,V ) , wobei V die Wenn alle Beobachtungen iid sind, gilt I i ( θ ) ≡ IN ( θ ) = I ( θ ) . Die asymptotische Varianz-Kovarianz-Matrix des ML-Schätzers ist: asymptotische Varianz-Kovarianz-Matrix des Schätzers ist. V = I( θ) . −1 • V hängt von der Form der Likelihoodfunktion ab. Die Information in (6.18) Beobachtung i hinsichtlich θ ist definiert als (K x K) Matrix: 5–11 5–12 J i ( θ ) ≡ E {si ( θ ) si ( θ ) '} = I i ( θ ) Intuitiv gilt, dass die ML-Schätzer umso präziser, d.h. mit kleinerer Varianz bestimmt werden können, je stärker die Krümmung der Log- Likelihoodfunktion an der Stelle θ̂ ist. (6.20) Die auf Basis des Gradientenvektors geschätzte Varianz-Kovarianzmatrix nutzt diese Approximation: • Da das ML-Verfahren asymptotisch effizient ist, sagt man, dass die Varianz −1 ⎛1 N ⎞ Vˆ G = ⎜ ∑ si θˆ si θˆ ' ⎟ . ⎝ N i =1 ⎠ () () eine untere Schranke der asymptotischen Kovarianzfunktion erreicht, das (6.21) sogenannte Cramer-Rao-lower bound. • V kann geschätzt werden: ⎛ 1 N ∂ 2logLi ( θ ) V̂H = ⎜ − ∑ ⎜ N i =1 ∂ θ ∂ θ' ⎝ −1 ⎞ ⎟ ⎟ θ=θˆ ⎠ (6.19) • Alternativ kann genutzt werden, dass das Produkt der Score-Vektoren die Informations-Matrix approximiert: 5–13 5–14 H0: Rθ = q, 5.2 Inferenz im ML-Rahmen • Im Rahmen des ML-Verfahrens finden 3 verschiedene Testprinzipien wobei q ein J-dimensionaler Vektor und R eine J x K Matrix ist. Die Tests gehen wie folgt vor: Anwendung. Der Wald-Test ist für alle konsistenten, asymptotisch normalverteilten Schätzer anwendbar. Mit dem Likelihood Ratio-Test lassen sich genestete Modelle vergleichen. Der Lagrange Multiplier (LM) • Wald-Test: Schätze θ ohne Restriktionen und prüfe, ob H0 erfüllt und Rθˆ − q = 0 ist. () Test wird nach restringierter Schätzung eingesetzt. () • Likelihood Ratio Test: Schätze θ ohne Restriktion θ̂ , sowie unter H0 θ • Wenn der k-dimensionale Parametervektor θ = (θ1, θ2, ..., θk)' durch eine und prüfe, ob sich die Log-Likelihood-Werte signifikant voneinander unterscheiden: L θˆ − L θ = 0 . () () Log-Likelihoodfunktion geschätzt wird: N max log L ( θ ) = max ∑ log Li ( θ ) , θ θ • Lagrange Multiplier Test: Schätze θ unter H0 und prüfe, ob die Bedingungen i =1 erster Ordnung der ∂ logL ( θ ) / ∂ θ |θ=θ = 0 . lassen sich Restriktionen unter der Nullhypothese wie folgt darstellen: 5–15 unregistrierten Likelihoodfunktion erfüllt sind: 5–16 ln L c (θ ) • Da die drei Teststatistiken die gleiche asymptotische Verteilung haben, sagt LM man, sie sind asymptotisch äquivalent. Man wählt den Test, der am einfachsten durchzuführen ist. lnLU lnL • Der Wald Test kann von der asymptotischen Normalverteilung der LR Parameter abgeleitet werden: ( lnLR a (6.23) Es folgt, dass auch Rθˆ asymptotisch normalverteilt ist: W θ̂R ) N θˆ − θ ∼ N ( 0, V ) c(θ) ( ) a N Rθˆ − Rθ ∼ N ( 0, R V R ' ) θ θ̂ML (6.24) Die Teststatistik nutzt einen konsistenten Schätzer V̂ von V und ist unter H0 Chi-quadrat verteilt mit J Freiheitsgraden. 5–17 5–18 ( ) ξw = N Rθˆ − q ' ⎡⎣R Vˆ R ⎤⎦ −1 (Rθˆ − q) ∼ χ ∂ logL ( θ ) * 2 J ( ∂θ ( )) • Der Likelihood-Ratio-Test nutzt die Log-Likelihoodwerte, die mit logL θ ( ( )) und ohne logL θˆ ∂ logL ( θ ) * Restriktion erzeugt werden. Unter H0 sollte die Differenz nicht signifikant von Null verschieden sein: ξLR () ∂λ = ∂ logL ( θ ) ∂θ ⎛ ∂ (R θ − q ) ⎞ + λ⎜ ⎟=0 ∂θ ⎝ ⎠ = (Rθ − q) = 0 Wenn die Restriktion zutrifft, sollte der Schattenpreis der Restriktion λ nahe ∂ logL ( θ ) * ∂ logL ( θ ) Null sein, da unter H0: . ≈ ∂θ ∂θ () = −2 ⎡log L θ − log L θˆ ⎤ ∼ χJ2 ⎣ ⎦ Der Test ist nur bei genesteten Modellen und dann sehr einfach anwendbar. Wenn λ groß ist, legt dies nahe, H0 zu verwerfen, da sich in diesem Fall die • Der Lagrange Multiplier Test leitet sich aus der Maximierung unter linearen restringierte (L(θ)*) und die unrestringierte (L(θ)) Likelihoodfunktion deutlich Nebenbedingungen (Lagrange-Ansatz) ab: unterscheiden. log L(θ)* = log L(θ) + λ (Rθ - q) Die LM-Test Statistik lautet: Als Parameterschätzer ergeben sich unter der Restriktion θ, λ : 5–19 5–20 −1 N ⎛ N ⎞ ξLM = ∑ si θ ' ⎜ ∑ si θ si θ ' ⎟ i =1 ⎝ i =1 ⎠ () () wobei si θ ( ) ( ) ∑ s (θ) ∼ χ , N i =1 i 2 J (6.32) 5.3 Binäre abhängige Variablen (7.1) 5.3.1 Einführung die erste Ableitung der unrestringierten Likelihoodfunktion, • Man könnte sich fragen, ob das Einkommen damit korreliert ist, dass bewertet am Vektor der unter Restriktion geschätzten θ ist. Weichen die () manche Haushalte Autos besitzen und andere nicht. Definiert yi = 1 für Werte von si θ deutlich von 0 ab, sollte H0 verworfen werden. Haushalte i mit Auto und yi = 0 für Haushalte ohne Auto, so lässt sich ein lineares Modell aufstellen, bei dem xi2 das Einkommen misst und xi1 ≡ 1 eine Konstante darstellt, xi = (xi1, xi2)‘ yi = β1 + β2 xi2 + εi = xi ' β + εi . (7.1) • Wenn eine Variable nur die Ausprägungen 0 und 1 annimmt, spricht man von binären, bivariaten, dichotomen oder Dummy-Variablen. • Unter der Standardannahme E {εi | xi} = 0 folgt E {yi | xi} = xi'β sowie 5–21 5–22 E {yi | xi } = 1⋅ P {yi = 1 | xi } + 0 ⋅ P {yi = 0 | xi } = P {yi = 1 | xi } = xi ' β so dass die Varianz für jedes i unterschiedlich ausfällt. (7.2) • Diese Probleme lassen sich lösen, wenn die Wahrscheinlichkeit dafür, dass • Das Modell impliziert, dass xi'β eine Wahrscheinlichkeit beschreibt und yi = 1 ist, als Funktion von Kovariaten xi modelliert wird: zwischen 0 und 1 liegt. Praktisch gilt das nicht immer. P {yi = 1| xi } = G ( xi , β ) • Da yi entweder 0 oder 1 beträgt, kann εi nur zwei mögliche Werte Die Funktion G sollte ausschließlich Werte im Intervall [0, 1] annehmen, annehmen. εi ist nicht normalverteilt und heteroskedastisch: wobei man sich in der Regel auf die lineare Funktion G ( xi , β ) = F ( xi ' β ) P {εi = − xi ' β | xi } = P {yi = 0| xi } = 1 − xi ' β P {εi = 1 − xi ' β |xi } = P {yi = 1|xi } = xi ' β (7.4) beschränkt. Da F Werte aus [0, 1] annehmen sollte, bieten sich (7.3) Verteilungsfunktionen an. • Unterstellt man eine Standardnormalverteilung, ergibt sich ein Probit- • Es lässt sich zeigen, dass V ( εi |xi ) = xi ' β (1 − xi ' β ) , Modell: 5–23 5–24 F(w) = Φ (w) = w ∫ −∞ ⎧ 1 ⎫ exp ⎨− t2 ⎬ dt 2π ⎩ 2 ⎭ 1 • Bei geschätzten Koeffizienten lassen sich Vorzeichen und statistische (7.5) Signifikanz interpretieren. • Unterstellt man eine standard logistische Verteilung, ergibt sich ein LogitModell: • Um die Stärke der Zusammenhänge zu beschreiben, berechnet man die marginalen Effekte einzelner erklärender Variablen; für kontinuierliche ew F(w) = L(w) = 1 + ew erklärende Variablen xk gilt: (7.6) Probit: • Erwartungswert einer standard logistisch verteilten Zufallsvariable: 0, π2 Varianz: . 3 Logit: • Die beiden Verteilungsfunktionen sind sehr ähnlich. Im Vergleich zur ∂ Φ ( xi ' β ) = φ ( xi ' β ) ⋅ βk ∂ xik ∂ L ( xi ' β ) ∂ xik = exi ' β (1 + e ) xi ' β 2 ⋅ βk , Normalverteilung hat die logistische Verteilung „dickere Ränder“. Die wobei φ (xi ' β) die Dichtefunktion der Standardnormalverteilung repräsentiert Schätzergebnisse sind typischerweise sehr ähnlich. und L für die kumulative standard logistische Verteilung steht. 5–25 5–26 • Beispiel im Probitfall: • Die marginalen Effekte hängen von den Werten für xi ab. Dabei nutzt man entweder für alle xi die Stichprobenmittelwerte oder berechnet die mittleren P ( yi = 1| malei = 1,xi = x ) − P ( yi = 1| malei = 0,xi = x ) marginalen Effekte: = Φ βˆD ⋅ 1 + x ' βˆ − Φ βˆD ⋅ 0 + x ' βˆ 1 ∑ N i =1 N ∂ Φ ( xi ' β ) ∂ xik bzw. 1 ∑ N i =1 N ( ∂ L ( xi ' β ) ) ( ) • Gleichung (7.4) des Logit-Modells lässt sich umformen zu: ∂ xik log • Wegen der Nichtlinearität der betrachteten Funktionen können sich die Ergebnisse je nach Art der Berechnung unterscheiden. Das Vorzeichen des pi = xi ' β, 1 − pi wobei pi = P{yi = 1 | xi}. Den Ausdruck links bezeichnet man als log odds marginalen Effekts entspricht stets dem Vorzeichen des Parameters β̂k . ratio. Ein Wert von 3 würde bedeuten, dass die Wahrscheinlichkeit von yi = 1 • Bei dichotomen (0/1) erklärenden Variablen wird statt des marginalen dreimal höher ist, als die Wahrscheinlichkeit, dass yi = 0. Hier beschreibt βk Effekts oft der Unterschied in den vorhergesagten Wahrscheinlichkeiten den Effekt von xik auf das odds ratio. Wenn βk = 0,1, führt eine Änderung bestimmt, wobei alle anderen erklärenden Variablen feste Werte zugewiesen bekommen. 5–27 5–28 von xik um eine Einheit zu einem Anstieg des odds ratios um 10 Prozent 5.3.2 Das latente Modell (semi-Elastizität). • Bivariate Modelle lassen sich von theoretischen Verhaltensmodellen ableiten. Es wird unterstellt, dass Individuen eine unbeobachtbare Neigung haben, bestimmte Handlungsweisen zu präferieren (z.B. erwerbstätig zu sein). Diese Neigung wird als latente Variable, yi* modelliert: yi * = xi ' β + εi (7.8) • Übersteigt die latente Variable einen unbekannten Schwellenwert, den wir als 0 annehmen, so wählt i yi = 1, sonst yi = 0. Man schreibt: P {yi = 1} = P {yi * > 0} = P {xi ' β + εi > 0} = P {−ε ≤ xi ' β} = F ( xi ' β ) . 5–29 (7.9) 5–30 Dabei beschreibt F die Verteilungsfunktion von -εi, bzw. bei symmetrischen Funktionen die von εi. Dies ergibt ein binäres Modell, dessen konkrete Form maximiert wird. • Ein Probitmodell auf Basis einer latenten Variablen lässt sich wie folgt • Der Beitrag von Individuum i zur Likelihoodfunktion ist entweder P(yi = 1 | xi; vollständig beschreiben: β) oder P(yi = 0 | xi; β), je nachdem ob das Ereignis yi = 1 oder yi = 0 εi ∼ N ( 0,1) yi = 1 wenn yi * > 0 yi = 0 wenn yi * ≤ 0. 5.3.3 Schätzung • Die Parameter werden geschätzt, indem die logarithmierte Likelihoodfunkton von den Annahmen an die Verteilung von εi abhängt. yi * = xi ' β + εi , eingetreten ist. • Die Likelihoodfunktion für die Stichprobe lautet: (7.10) N L ( β ) = ∏ P {yi = 1|xi ; β} i P {yi = 0 |xi ;β} Unterstellt wird, dass εi von allen xi unabhängig ist. 1− yi y (7.11) i =1 • Nach Logarithmierung und Einsetzen von F(xi‘β): • Die Parameter des Modells werden typischerweise mit Maximum Likelihood N N i =1 i =1 log L ( β ) = ∑ yi log F ( xi ' β ) + ∑ (1 − yi ) log (1 − F ( xi ' β ) ) geschätzt. 5–31 (7.12) 5–32 • Die Bedingung erster Ordnung zur Maximierung der log-Likelihoodfunktion • Die Bedingungen erster Ordnung fordern, dass über die ganze Stichprobe lautet: hinweg die Werte von xi nicht mit der generalized residual korreliert sein ∂ logL ( β ) ∂β N ⎡ ⎤ yi − F ( xi ' β ) =∑ ⎢ f ( xi ' β ) ⎥ xi = 0 , i =1 ⎣⎢ F ( xi ' β ) (1 − F ( xi ' β ) ) ⎦⎥ dürfen, (7.13) • Im Logit lässt sich vereinfachen ∂ logL ( β ) wobei die Dichtefunktion f die Ableitung von F nach xi ' β ist. ∂β • Der Ausdruck in Klammern wird als generalized residual bezeichnet und (7.14) Gegeben β̂ lässt sich P{yi = 1 | xi} berechnen: nimmt entweder die Werte oder N ⎡ exp ( xi ' β ) ⎤ = ∑ ⎢ yi − ⎥ xi = 0 1 + exp ( xi ' β ) ⎦⎥ i =1 ⎣⎢ f ( xi ' β ) / F ( xi ' β ) für yi = 1 − f ( xi ' β ) / (1 − F ( xi ' β ) ) für yi = 0 an. p̂i = ( exp xi ' βˆ ( ) 1 + exp xi ' βˆ ) Eingesetzt in (7.14) folgt: 5–33 5–34 N ∑ i =1 N p̂i xi = ∑ yi xi . (7.16) 5.3.4 Schätzgüte i =1 • Im Gegensatz zum linearen Modell mit seinem R2 gibt es für binäre Modelle • Dies bedeutet, dass solange im Logit-Modell eine Konstante mit geschätzt kein eindeutiges, etabliertes Gütemaß. wird, die vorhergesagte Wahrscheinlichkeit immer exakt identisch mit der • Im Rahmen von ML-Schätzern wird der Erklärungsgehalt des Modells oft beobachteten Wahrscheinlichkeit ist. • Da die log-Likelihoodfunktionen global konkav sind, konvergieren die Schätzungen schnell zum globalen Maximum. aus dem Vergleich der log-Likelihoodwerte mit (log L1) vs. ohne erklärende Variablen (log L0) bestimmt. Zu erwarten ist: log L1 ≥ log L0. Je besser das Modell umso größer ist L ebenso wie log L. Je größer der Unterschied zwischen log L1 und log L0, umso bedeutender ist der Erklärungsbeitrag des Modells. • Amemiya führte folgendes Maß ein: 5–35 5–36 pseudo − R2 = 1 − 1 1 + 2 ( logL1 − logL0 ) / N • Insbesondere bei seltenen Ereignissen (z.B. 5% y = 1, 95% y = 0) ist auf (7.17) diese Weise kaum ein Modell in der Lage, eine konstante Vorhersage (z.B. y • Das McFadden R2 (auch Likelihood ratio index genannt) lautet: McFadden R = 1 − ( logL1 / logL0 ) 2 = 0 für alle) zu übertreffen. (7.18) Dieser Wert muß zwischen 0 und 1 liegen; er nimmt im schlechtesten Fall den Wert 0 und im besten Fall den Wert 1 an. Passt das Modell nicht, so gilt log L1 = log L0, passt das Modell perfekt, so gilt L1 = 1, log L1 = 0. • Vielfach wird Modellgüte daran gemessen, welcher Anteil der abhängigen Variablen korrekt vorhergesagt wird. Dazu bestimmt man für alle i F xi 'βˆ ( ) und weist typischerweise einen vorhergesagten Wert von 1 zu, wenn F xi ' βˆ > 0,5 , andernfalls wird ein Wert von 0 vorhergesagt. ( ) 5–37 5–38 • Tabelle 5.3.5 Beispiel: Arbeitslosengeld und Arbeitslosengeldbezug 7.2 präsentiert Wahrscheinlichkeitsmodell • Stichprobe: N = 4877 amerikanische Arbeiter, die zwischen 1982 und 1991 die Schätzergebnisse (LPM), d.h. KQ für ohne ein lineares Korrektur für Heteroskedastie, sowie Logit und Probit Modelle. den Arbeitsplatz verloren. Nicht alle nutzen die Möglichkeit, Arbeitslosengeld • Da das Logit Modell die Parameter entsprechend zu beziehen, wenngleich alle einen Anspruch haben. Die „Takeup-Rate“ der V = π / 3 skaliert, während Probit von σ = 1 ausgeht, unterscheiden sich die geschätzten Stichprobe beträgt 68%. Parameter β um ungefähr diesen Faktor. Die Parameter des linearen • Der Betrag an Arbeitslosengeld, der einzelnen zusteht, hängt ab von Modells (linear probability model LPM) sind typischerweise um den Faktor 4 Bundesstaat, Jahr der Arbeitslosigkeit und früherem Verdienst. Die Lohn- kleiner als die Logitwerte. ersatzrate variiert zwischen 33 und 54 Prozent und könnte die takeupEntscheidung beeinflussen. Zusätzlich können weitere persönliche Faktoren (z.B. Bildung, Alter, Geschlecht), Präferenzen oder die Haushaltszusammensetzung eine Rolle spielen. 5–39 5–40 • Vorzeichen und statistische Signifikanz der Ergebnisse sind vergleichbar. • Auch die quantitativen Ergebnisse unterscheiden sich nicht deutlich zwischen den Modellen. Der Effekt der Lohnersatzrate wurde quadratisch geschätzt und hängt daher davon ab, an welcher Stelle er bewertet wird. Im Probit ergibt sich ∂ Φ ( xi ' β ) ∂ xi,RR = φ ( xi ' β ) ⋅ (1,863 − 2 ⋅ 2,980 ⋅ replacement rate ) Da dieser Wert für unsere Stichprobenwerte der replacement rate meist negativ ist, scheint eine hohe Ersatzrate (kontraintuitiv) die takeupWahrscheinlichkeit zu reduzieren. Andere wichtige Variablen sind, ob die 5–41 5–42 so dass Stelle wegen „slack work“ (Unterauslastung) gekündigt wurde, Kinderzahl und Familienstand. Viele Parameter sind insignifikant. 242 3164 + = 1,106 , was nicht deutlich besser ist als eine 1542 3335 einheitliche Vorhersage für alle Beobachtungen, die einen Wert von 1 ergibt. • Die Maße der Schätzgüte bestätigen, dass der Erklärungsgehalt der Modelle nicht hoch ist. • Ein Vergleich von Vorhersage und tatsächlichem Wert ergibt: ŷi = 0 ŷi = 1 Gesamt yi = 0 242 1300 1542 yi = 1 171 3164 3335 Gesamt 413 4464 4877 5–43 5–44 Literatur: Verbeek, 2008, Kapitel 6, 7.1 Greene, W.H., 2008, Econometric Analysis 6.A, Kapitel 16 und 23.1 – 23.4 Gujarati, D.N. und D.C. Porter, 2009, Basic Econometrics 5.A., Kapitel 4.4 und 15.1-15.9 Johnston, J. und J. DiNardo, 1997, Econometric Methods 4.A, Kapitel 13.1-13.6 Pindyck, R.S. und D.L. Rubinfeld, 1998, Econometric Models and Economic Forecasts 4.A., Kapitel 11 Stock, J.H. und M.W. Watson, 2007, Introduction to Econometrics 2.A., Kapitel 11 Wooldridge, J.M., 2002, Econometric Analysis of Cross Section and Panel Data, Kapitel 13, 15.1-15.6 5–45