Kapitel 1: Einführung und Repetitorium 1.1 Technische Bemerkungen 1.2 Einführung: Ökonometrie und Daten APPENDIX A Mathematische Grundlagen B Grundlagen der Wahrscheinlichkeitsrechnung C Statistische Grundlagen 1–1 Leitfragen und Lernziele Kapitel 1: • Womit beschäftigt sich die Ökonometrie, wie geht man bei empirischen Analysen vor? • Welche Datenstrukturen gibt es? • Wie unterscheiden sich Kausalität und Korrelation? • Welche Vorkenntnisse werden vorausgesetzt? 1–2 1.1 Technische Bemerkungen 1.1.1 Vorlesung Termin: siehe www.lsw.wiso.uni-erlangen.de Sprechstunde: (i) Nach Vorlesung (ii) Nicht per E-Mail Klausur: Termin setzt Prüfungsamt Dauer: 90 Minuten (ca. 50 Punkte offene Fragen, 1–3 ca. 40 Punkte w/f, MC) Hilfsmittel: - Nicht programmierbarer Taschenrechner - Wörterbuch für ausländische Studierende - Formelsammlung wird bereitgestellt Folien: Download unter: www.lsw.wiso.uni-erlangen.de → Studium → Bachelor → Praxis d. emp. W. Praxisvorträge: Gegen Ende des Semesters bieten wir Ihnen im Rahmen der Vorlesung Kurzvorträge zur Bedeutung empirischen Arbeitens in der Praxis an. 1–4 1.1.2 Übungen Teil 1: PC Übungen – Anmeldung erforderlich Teil 2: Termine: Hörsaal Übungen siehe www.lsw.wiso.uni-erlangen.de Tipp: - Suchen Sie sich eine Übung mit kleiner Studierendenzahl - Parallelveranstaltungen, gleiches Programm - 1. Semesterwoche: keine Übungen - Woche 2 – 4: Lehrveranstaltungen im PC-Pool, siehe Aushang und Webseite 1–5 1.1.3 Tutorien Ab Semestermitte werden parallele klausurvorbereitende Tutorien angeboten. Bitte Aushang und Webseite beachten 1–6 1.1.4 Lehrbuch Die Veranstaltung folgt dem Lehrbuch: Jeffrey M. Wooldridge, Introductory Econometrics. A Modern Approach, 4. Auflage, 2009, South-Western CENGAGE Learning 1–7 1.1.5 Hausarbeit • Durch das Erstellen einer freiwilligen empirischen Hausarbeit können Sie Ihre SPSS Kenntnisse vertiefen und erste Erfahrungen im Arbeiten mit Daten sammeln. Bei Notenverbesserung wird die Note der Hausarbeit zu 20% auf Ihre Gesamtnote (unabhängig vom Ausgang der Klausur) angerechnet. • Die Note wird angerechnet, wenn Sie die Klausur im laufenden oder im folgenden Semester antreten. Anschließend verfällt die Note; die Hausarbeit kann dann neu angefertigt werden. 1–8 • Sie können sich in Gruppen bis zu 2 Personen bis zum 7.5.2011 zur Hausarbeit anmelden. Die Themen werden ab dem 31.5.2011 vergeben. Abgabetermin ist der 30.7.2011. (s. Detailinformationen im Netz) • Die Bearbeitung der Hausarbeit erfordert, dass Sie selbständig mit SPSS umgehen und sich diesbezügliche Problemlösungskompetenzen aneignen. Die Hausarbeiten setzen teilweise die Vorlesungsinhalte der letzten Semesterwochen voraus, so dass die sofortige Lösung nicht immer optimal ist. 1–9 • Die Hausarbeiten umfassen im Normalfall 2 – 3 Seiten. Die Antworten sollten im Fließtext (keine Stichworte) verfasst sein. 1–10 1.1.6 Lerntipps • Lesen Sie voraus • Arbeiten Sie in Kleingruppen • Wiederholen Sie den Stoff frühzeitig, um Lücken zu erkennen • Hilfsmittel: Leitfragen der Kapitel Schlüsselbegriffe am Kapitelende Fragen im Lehrbuch (mit Antworten im Anhang F) 1–11 1.1.7 Ziele der Veranstaltung Ziel 1: Interesse am empirischen Arbeiten wecken Ziel 2: Vermittlung von Grundkenntnissen zu (1) Datenverarbeitung am PC (2) Intuition und Vorgehensweise des Kleinstquadrateverfahrens (3) Eigenschaften von Schätzverfahren (4) Anwendungsspektrum des KQ Schätzers (5) Fehlerquellen beim empirischen Arbeiten 1–12 Motivation: (1) Empirisches Arbeiten macht Spaß (2) Methode ist gängiges Instrumentarium in Wissenschaft und Praxis (3) Mit empirischen Verfahren lassen sich Fragen beantworten, theoretisch abgeleitete Hypothesen testen (Stichwort: kritischer Rationalismus), Prognosen erstellen, Evaluationen durchführen 1–13 1.1.8 Gliederung der Veranstaltung 1. Einführung und Repetitorium 2. Das einfache Regressionsmodell 3. Multiple Regression: Schätzung 4. Multiple Regression: Inferenz 5. Asymptotische Eigenschaften des KQ Schätzers 6. Anwendungen des KQ Schätzers 7. Binäre Variablen 8. Heteroskedastie 1–14 1.1.9 Anforderungen der Veranstaltung • Englischsprachiges Lehrbuch • Überblick über „Ökonometrie“ verschaffen (Fortsetzungsveranstaltung folgt im Wintersemester) • PC-Kompetenz erwerben, insbes. SPSS • Schlüsselbegriffe und Methoden verstehen • Grundverständnis für empirisches Arbeiten erwerben • Teilweise werden Konzepte aus der Veranstaltung "Statistik" wiederholt und vertieft. 1–15 1.2 Einführung: Ökonometrie und Daten 1.2.1 Ökonometrie und empirische Analyse • Ökonometrie nutzt statistische Methoden, um ökonomische oder soziale Zusammenhänge zu quantifizieren, Theorien zu testen, Prognosen zu erstellen, Regierungs- und Geschäftspolitiken zu evaluieren. • Die Anwendungen finden sich in zahlreichen Gebieten. • Im Normalfall liegen Beobachtungsdaten vor, die vom Forscher gesammelt werden (Gegenteil: im Labor erhobene Experimentaldaten). 1–16 • Vorgehensweise der „Empirischen“ Analyse (1) Präzise Frage formulieren (2) Ökonomisches Modell ableiten, um Verhalten zu erklären z.B.: y = f ( x1, x2, …, x7 ), crime = f ( legaler Lohn, illegaler Lohn, … ) (3) Ökonometrisches Modell aufstellen, d.h. Konkretisieren von f und allen Variablen. Nicht alle Faktoren sind beobachtbar, eine Restgröße (u) bleibt immer. 1–17 Beispiel 1: crime = β0 + β1 legaler Lohn + β2 illegaler Lohn + … + u u wird Störterm, Residuum oder Fehlerterm genannt. β0, β1, β2 sind konstante Parameter des Modells, geben Art und Ausmaß der Zusammenhänge zwischen crime und Lohn an. Beispiel 2: Konkretisierung einer allgemeinen Gleichung für den Stundenlohn: wage = f ( educ, exper, female ): wage = β0 + β1 educ + β2 exper + β3 female + … + u 1–18 Beispiel 3: Zusammenhang zwischen Einkommen der Generationen einer Familie: Einkommen_Kind = β0 + β1 Einkommen_Eltern + ... + u Beispiel 4: Rolle von Korruption für nationales Wirtschaftswachstum: Wachstum = β0 + β1 Korruptionsintensität + β2 Bildung + ... + u (4) Hypothesen formulieren 1–19 z.B.1: Lohn der legalen Beschäftigung hat keinen Einfluss auf kriminelle Aktivität: β1 = 0 z.B.2: Die Löhne von Frauen und Männern sind im Mittel gleich: β3 = 0 z.B.3: Je höher das Einkommen der Eltern, umso höher das ihrer Kinder: β1 > 0 z.B.4: Korruption ist für das Wachstum schädlich: β1 < 0 (5) Daten sammeln (6) Modell ökonometrisch schätzen und Hypothesen testen 1–20 (7) Gelegentlich: Ergebnisse für Prognosen nutzen 1–21 1.2.2 Datenstrukturen 1.2.2.1 Querschnittsdaten • Querschnittsdaten beschreiben eine Stichprobe von Beobachtungen zu einem Zeitpunkt. • Typische Annahme: Zufallsstichprobe aus der Grundgesamtheit. • Mikrodatenbeispiel für Querschnittsdaten: 1–22 1–23 1.2.2.2 Zeitreihendaten • Zeitreihendaten beschreiben die Entwicklung einzelner Variablen über die Zeit • Vergangenheit beeinflusst die Gegenwart, Zeit ist ein relevanter Faktor, Reihenfolge der Beobachtungen bedeutsam • Messfrequenz kann sehr verschieden sein: minutengenaue Aktienpreise, wöchentliche Umsätze, Jahresinflation, … • Besonderheit: Saisonalität • Zeitreihendatenbeispiel 1–24 1–25 1.2.2.3 Gepoolte Querschnitte • Kombination von Querschnittserhebungen verschiedener Zeitpunkte • Erlaubt, Wirkung von Änderungen zu messen, z.B. Auswirkung der Änderung der Grundsteuer auf die Immobilienpreise: 1–26 1–27 1.2.2.4 Paneldaten • Wiederholte Messungen für jede Beobachtungseinheit (z.B. Individuen, Firmen, Regionen) • Beispiel: 2-Jahres-Panel für 150 Städte (300 Beobachtungen), je eine Beobachtung von 1986 und eine von 1990. 1–28 1–29 1.2.3 Kausalität und die ceteris paribus Interpretation • Häufig von zentralem Interesse: Kausaler Effekt der Variable X auf Variable Y. Nicht jede Korrelation beschreibt einen kausalen Zusammenhang! • Die ceteris paribus Interpretation beschreibt den kausalen Effekt einer Größe X auf Y unter der Annahme, dass alle anderen Einflussfaktoren konstant bleiben. Beispiel: Effekt von PKW-Preisen auf die PKW-Nachfrage, bei gegebenen Preisen für Benzin, Versicherung, andere PKWTypen 1–30 • Wenn es gelingt, alle anderen relevanten Faktoren konstant zu halten, lässt sich der ceteris paribus Effekt als kausale Wirkung interpretieren. Man kann sich aber selten sicher sein, dass alle relevanten Faktoren erfasst wurden. • Hilfreich, um kausale Effekte zu etablieren: Experimente • Beispiel 1: Effekt von Düngung auf Sojabohnenernte → Experiment denkbar 1–31 • Beispiel 2: Auswirkung von Schulbildung auf Löhne → Experiment schwierig • Problem bei nicht-experimentellen bzw. Beobachtungsdaten: (a) Individuen wählen Schulbildung. (b) Bei langer Bildung wenig Berufserfahrung, muss herausgerechnet werden. (c) Hohe Fähigkeiten führen zu Bildung und hohen Löhnen. • Beispiel 3: Führt die Zahl der Streifenpolizisten zur Vermeidung von Kriminalität? – Simultanitätsproblem 1–32 • Beispiel 4: Auswirkung von Mindestlöhnen auf die Arbeitslosigkeit? – Experiment in Verbindung mit Zeitreihendaten denkbar 1–33 APPENDIX A Mathematische Grundlagen A.1 Das Summenzeichen und deskriptive Statistiken • Die Summe einer Reihe von n Werten einer Variable X lässt 1 = i ∑ xn + . . . + x2 + x1 ≡ xi n sich schreiben als • (A.1) Für eine Konstante c ergibt sich 1–34 n ∑c = n ⋅c (A.2) i=1 • n Sowie n ∑ c ⋅ xi = c ∑ xi i=1 • i=1 Für Zahlenpaare X und Y sowie Konstanten a und b gilt n ∑ (a xi + b yi ) i =1 • (A.3) n n = a∑ x i + b∑ y i i =1 (A.4) i =1 Der Durchschnitt oder Mittelwert aus n Zahlen {xi: i =1,…,n} berechnet sich als 1–35 1 n x = ∑ xi n i=1 • (A.5) Der Stichprobenmittelwert ist eine beschreibende Statistik für eine bestimmte Variable. • Für Mittelwerte gilt n ∑ (xi - x) = 0 , (A.6) i=1 da n n n n n i=1 i=1 i=1 i=1 i=1 ∑ di = ∑ (xi - x) = ∑ xi - ∑ x = ∑ xi - nx = nx - nx = 0 1–36 n ⎛1 n ⎞ n = ∑ xi - n ⎜ ∑ xi ⎟ = ∑ x i -∑ xi = 0 i=1 i=1 ⎝ n i=1 ⎠ i=1 n • Eine häufig verwendete Umformung ist n n ∑ (xi - x) = ∑ xi2 - n(x)2 , 2 i=1 (A.7) i=1 was sich wie folgt ergibt: n n ∑ (xi - x) = ∑ (xi2 - 2xi x + x 2 i=1 2 ) i=1 1–37 n n = ∑ xi - 2x ∑ xi + n(x)2 2 i=1 n i=1 n = ∑ xi - 2n(x) + n(x) =∑ xi2 - n(x)2 2 2 2 i=1 Ebenso lässt sich für 2 Variablen {(xi,yi): i =1,…,n} zeigen: y yi xi ) 1 = i ∑ y × x n yi xi ︶ n 1 = i ︵ ∑ = yi x xi = n i=1 )=∑ ( 1 = i ∑ ( xi − x ) ( y yi n n • i=1 (A.8) 1–38 A.2 Eigenschaften linearer Funktionen • Wenn der Zusammenhang zwischen Variablen x und y dargestellt werden kann als y = β0 + β1 x, (A.9) ist y eine lineare Funktion von x und die Parameter β0 und β1 beschreiben die Beziehung zwischen x und y. β0 heißt Achsenabschnitt, β1 Steigungsparameter. • Eine Änderung von x ändert y um den Faktor β1: ∆y = β1 ∆ x1 (A.10) 1–39 β1 ist hier der konstante, marginale Effekt von x auf y. • Beispiel: Zusammenhang Mietausgaben – Einkommen: housing expenditure = 164 + 0,27 income, (A.11) von jedem zusätzlich verdienten Euro Einkommen geht im Mittel ein Betrag von 27 Cent in die Miete. • Lineare Beziehungen lassen sich auch für mehr als zwei Variablen darstellen: y = β0 + β1 x1 + β2 x2 (A.12) β0 ist der Achsenabschnitt, β1 und β2 sind Steigungsparameter. 1–40 β1 (β2) beschreibt, wie stark y auf Änderungen in x1 (x2) reay x1 Δ Δ = β1 giert. , wenn ∆x2= 0 und y Δ = 2 β 2 x Δ • , wenn ∆x1= 0 Beispiel: Die Nachfrage nach CDs hängt ab von deren Preis und dem individuellen Einkommen: quantity = 120 – 9,8 price + 0,03 income, 1–41 wobei price in $ pro CD und income in $ gemessen ist. Bei gegebenem Einkommen reduziert ein Preisanstieg um einen $ die Nachfrage nach CDs um 9,8 Stück. Bei einem um 100 $ höheren Einkommen steigt die Nachfrage - bei gegebenen Preisen um 3 Stück. 1–42 A.3 Anteile und Prozentgrößen • Anteilswerte lassen sich durch Multiplikation mit 100 als Prozentgrößen ausdrücken und umgekehrt. Beispiel: 82 = 0,82 ist der Anteil der Erwachsenen mit Schul100 • Relative Änderung über die Zeit: x Δ x0 = x0 - x0 x1 abschluss, d.h. 0,82 · 100 = 82% (A.14) den kann: % ∆x = 100 · x 0 Δ x ist ein Anteilswert, der zu einer Prozentgröße umformuliert wer(A.15) 1–43 • Beispiel: Einkommensanstieg von 30 000 auf 33 750 Euro pro Jahr: 3750 / 30 000 = 0,125, d.h. 100 · 0,125 = 12,5% • Wichtig: Korrekte Ausdrucksweise, wenn die betrachtete Größe selbst eine Prozentgröße ist: Absolute Änderung: ∆x = x1 – x0, Änderung in Prozentpunkten, Relative Änderung: Δx · 100, Änderung in Prozent. x0 1–44 • Beispiel: Anstieg der Mehrwertsteuer von 15 % auf 18 % um 3 (18 − 15 ) = 0,2 → um 20 Prozent Prozentpunkte, bzw. 15 1–45 A.4 Eigenschaften wichtiger Funktionen • Um fallende Grenzerträge abbilden zu können, benötigt man quadratische Funktionen y = β0 + β1 x + β2 x2 . (A.16) Wenn β1 > 0, β2 < 0 ergibt sich eine umgekehrt U-förmige Parabel, mit einem Maximum an der Stelle x= β1 . -2β2 (A.17) 1–46 • In diesem Fall ist der marginale Effekt von x auf y davon abhängig, an welcher Ausprägung von x man sich befindet. Die Steigung fällt mit wachsendem x, solange β2 < 0: Steigung = • Δy = β1 + 2 β2 x Δx Beispiel: wage = 5,25 + 0,48 exper – 0,008 exper2 Maximum der Lohnkurve bei: exper = • (A.18) 0,48 = 30 2 ⋅ 0,008 Wir verwenden im Regelfall den natürlichen Logarithmus, hier geschrieben als y = log(x) (A.21) 1–47 und definiert für x > 0. Auch hier ergeben sich abnehmende Grenzerträge von x bezüglich y, wobei der marginale Effekt von x nie negativ wird. Charakteristika: log(x) < 0, wenn 0 < x < 1 log(1) = 0 log(x) > 0, wenn x > 1 • Rechenregeln: log(x1 · x2) = log(x1) + log(x2), x1,x2 > 0 log(x1 / x2) = log(x1) – log(x2), x1,x2 > 0 log(xc) = c log(x), x > 0, c beliebig 1–48 • Approximation für kleine Werte x: log(1 + x) ≈ x • Beispiel: log(1,02) = 0,01980 log(1,05) = 0,04879 log(1,20) = 0,18232 • Für kleine Änderungen in x gilt: Δ log ( x ) = log(x1 ) − log(x 0 ) ≈ (x1 − x 0 ) Δx = x0 x0 100 ⋅ Δ log( x ) ≈ %Δx (A.22) (A.23) 1–49 • Beispiel 1: x0 = 40 x1 = 41 Anstieg um 1 ⋅ 100 = 2,5% 40 log(41) – log(40) = 0,0247, gute Approximation, ∆x klein • Beispiel 2: x0 = 40 x1 = 60 Anstieg um 20 ⋅ 100 = 50% 40 log(60) – log(40) ≅ 0,4055, schlechte Approximation, ∆x groß Δy • Elastizität: Δx y x = %Δy %Δx (A.24) Wenn y = β0 + β1 x, dann ist die Elastizität 1–50 Δy x x x ⋅ = β1 ⋅ = β1 ⋅ Δx y y β0 + β1x (A.25) und somit abhängig vom jeweiligen Wert x. • Modell konstanter Elastizität: Wegen (A.23) lässt sich die Δ log( y ) Elastizität durch approximieren und als β1 schätzen Δ log( x ) durch • log(y) = β0 + β1 log(x) (A.26) Es gibt zwei weitere Verwendungsarten des Logarithmus im linearen Modell. • Alternative 1: log(y) = β0 + β1 x (A.27) 1–51 In diesem Fall gilt ∆ log(y) = β1 ∆x, so dass 100 · ∆ log(y) = (100 · β1) · ∆x und % ∆y = (100 · β1) · ∆x (A.28) β1 gibt die Semi-Elastizität an: Ändert sich x um eine Einheit, so ändert sich y um β1· 100 Prozent. • Beispiel: log(wage) = 2,78 + 0,094 educ Eine Änderung in educ (= Schuljahre) um 1 erhöht den Lohn um 9,4% (Rendite auf Schulbildung). 1–52 • Alternative 2: y = β0 + β1 log(x), x>0 (A.29) ⎛ β ⎞ Hier gilt Δy = β1 Δlog(x) ⇔ Δy = ⎜ 1 ⎟ ⋅ [ Δlog(x) ⋅ 100] ⎝ 100 ⎠ so dass Δy = Ändert sich x um ein Prozent, so ändert sich y um (A.30) 0 0 β11 β1 ⋅ % Δx 100 Einhei- ten. • Beispiel: hours = 33 + 45,1 log(wage) 1–53 Ein Prozent höhere Löhne erhöhen die Stundenzahl (das Arbeitsangebot) um 0,451 Stunden oder knapp 30 Minuten. • Exponentialfunktion: y = exp(x), wobei gilt: - exp(0) = 1 und exp(1) = 2,7183 - log(y) = β0 + β1 x ⇔ y = exp(β0 + β1 x) - exp(x1 + x2) = exp(x1) · exp(x2) - exp[ c · log(x) ] = xc. 1–54 A.5 Differentialrechnung Wenn y = f(x), dann gilt für kleine Änderungen in x x Δ f x d d ≈ y Δ • ⋅ , (A.31) df die am Ausgangspunkt x0 bewertete Ableitung von f dx dy df ist. Wir schreiben auch statt . dx dx wobei Verschiedene Ableitungen: - wenn y = log(x), dann dy = dx 1 x • 1–55 Eingesetzt in (A.31) folgt: Δy ≈ 1 ⋅ Δx . x0 g o l Δ (x) x Δ x0 = Da hier Δy durch Δlog(x) ersetzt werden kann, gilt: . - wenn y = β0 + β1 x , dann dy = β1 dx - wenn y = xc , dann dy = c · xc-1 dx 1–56 • - d(f(x) + g(x)) df(x) dg(x) = + dx dx dx - d(c ⋅ f(x)) ⎛ df(x) ⎞ = c ⋅⎜ ⎟ dx ⎝ dx ⎠ Partielle Ableitungen spielen eine Rolle, wenn y von 2 erklä- renden Variablen abhängt: Dann sind ∂y ∂x1 x y = f (x1,x2) . und 2 kons tan t ∂y ∂x 2 (A.32) x1 kons tan t die partiellen Ableitungen. 1–57 • Beispiel: Lohn als Funktion von Schulbildung und Erfahrung wage = 3,10 + 0,41 educ + 0,19 exper – 0,004 exper2 e g a w ∂ + 0,007 educ · exper (A.35) r e p x e ∂ = 0,19 – 0,008 exper + 0,007 educ Die Lohnwirkung eines Jahres Arbeitsmarkterfahrung ist abhängig von Bildung und Arbeitsmarkterfahrung. 1–58 B Grundlagen der Wahrscheinlichkeitsrechnung B.1 Zufallsvariablen und ihre Wahrscheinlichkeitsverteilung • Experiment: Charakterisiert durch unendlich oft wiederholbare Vorgehensweise und klar definierte Ergebnisse. • Zufallsvariable: Eine Variable mit numerischen Werten, deren Ausprägung durch ein Experiment bestimmt wird; hier beschrieben mit Großbuchstaben X, Y, Z; Realisationen werden durch Kleinbuchstaben beschrieben x, y, z. • Wir betrachten binäre, diskrete und stetige Zufallsvariablen. 1–59 • Bernoulli (Binäre) Zufallsvariable: Nimmt Werte von 0 oder 1 an. Notation für Bernoulli-Variablen: X ~ Bernoulli (θ) • Bernoulli Zufallsvariable kann durch Eintrittswahrscheinlichkeit θ von X = 1 vollständig beschrieben werden: P(X=1) = θ • P(X=0) = 1 – θ (B.1, B.2) Diskrete Zufallsvariable: Zufallsvariable mit abzählbar vielen Ausprägungen • Zuordnung aller möglichen Realisationen zu ihren Eintrittswahrscheinlichkeiten beschreibt diskrete Zufallsvariablen. 1–60 X nimmt die Werte { x1, …, xk } mit Wahrscheinlichkeit p1, …, pk an, wobei • pj = P(X = xj), j = 1,2, …, k (B.3) mit 0 ≤ pj ≤ 1 und p1 + p2 + … + pk = 1. (B.4) Wahrscheinlichkeitsdichtefunktion f beschreibt für jedes x die Wahrscheinlichkeit, mit der die Zufallsvariable X den Wert x annimmt: f(xj) = pj , j = 1,2, …, k (B.5) 1–61 • Mithilfe von f lässt sich die Wahrscheinlichkeit von Ereignissen berechnen. • Beispiel: Anzahl von Korbtreffern bei 2 Basketballfreiwürfen wenn f(0) = 0,20, f(1) = 0,44, f(2) = 0,36. (Summe = 1) Wahrscheinlichkeit für mindestens einen Korb: P(X ≥ 1) = P(X = 1) + P(X = 2) = 0,44 + 0,36 = 0,80 1–62 Grafisch: 1–63 • Eine Variable X ist eine stetige Zufallsvariable, wenn sie jeden einzelnen Wert mit der Wahrscheinlichkeit 0 annimmt, da es unendlich viele mögliche Realisationen gibt. • Die Wahrscheinlichkeitsdichtefunktion beschreibt für jedes X die Wahrscheinlichkeit in einem Intervall [a, b] zu liegen. P( a ≤ X ≤ b) beschreibt die Fläche unter der Funktion f: 1–64 1–65 • Kumulative Verteilungsfunktion: F(x) ≡ P(X ≤ x) (B.6) - für diskrete Zufallsvariablen die Summe über f(xj), xj ≤ x - für stetige Zufallsvariablen die Fläche unter f links von x. • • Für jede Zahl c gilt: P(X > c) = 1 – F(c). (B.7) Für alle Zahlen a < b: P(a < X ≤ b) = F(b) – F(a). (B.8) Bei stetigen Zufallsvariablen gilt P(X ≥ c) = P(X > c) und (B.9) P(a < X < b)= P(a ≤ X ≤ b)= P(a ≤ X < b)= P(a< X ≤ b) (B.10) 1–66 B.2 Gemeinsame Verteilungen, bedingte Verteilungen und Unabhängigkeit • Wenn X und Y diskrete Zufallsvariablen sind, lässt sich ihre gemeinsame Verteilungsfunktion fx,y wie folgt schreiben fx,y(x,y) = P(X = x, Y = y) • (B.11) Die Wahrscheinlichkeitsdichtefunktionen fX und fY heißen auch marginale Wahrscheinlichkeitsdichtefunktionen (Randver- teilung). 1–67 • Beispiel: männlich • weiblich Rechtshänder 0,40 0,30 0,70 Linkshänder 0,15 0,15 0,30 0,55 0,45 Zufallsvariablen sind unabhängig, wenn gilt: fX,Y(x,y) = fX(x)⋅fY(y) (B.12) 1–68 • Im diskreten Fall gilt bei Unabhängigkeit: P(X = x, Y = y) = P(X = x)⋅P(Y = y) • (B.13) Beispiel: 2 Freiwürfe beim Basketball. Wenn die Trefferwahr- scheinlichkeit 70% ist und 2 Würfe unabhängig voneinander sind, ist die Wahrscheinlichkeit für 2 Treffer: P(X = 1, Y = 1) = 0,7 · 0,7 = 0,49. Wenn der Erfolg des zweiten Wurfs vom Erfolg des ersten Wurfs abhängt, sind die Ereignisse nicht unabhängig und die Berechnung ist nicht zutreffend. 1–69 • Wenn die Zufallsvariablen X und Y unabhängig voneinander sind, dann sind auch die Zufallsvariablen g(X) und h(Y) unabhängig. • Gemeinsame Wahrscheinlichkeitsfunktionen werden auch für mehr als zwei Zufallsvariablen, X1, X2, …, Xn betrachtet. Das Konzept der Unabhängigkeit gilt hier genauso. • Bedingte Wahrscheinlichkeitsfunktion von Y gegeben X, fY X (y x) = fX,Y (x,y) fX (x) (B.15) bzw. bei diskreten X,Y: 1–70 fY X (y x) = P(Y = y X = x) , (B.16) beschreibt die Wahrscheinlichkeit, dass Y den Wert y annimmt, gegeben, dass X den Wert x annimmt. • Wenn X und Y unabhängig sind, heißt das, dass Kenntnis von X nichts dazu beiträgt, etwas über Y zu lernen: fY X (y x) = • fX,Y (x,y) fX (x)fY (y) = = fY (y) fX (x) fX (x) Beispiel: 2 Basketballfreiwürfe fY X (1 1) = 0,85 fY X (0 1) = 0,15 1–71 fY X (1 0) = 0,70 fY X (0 0) = 0,30 Die Wahrscheinlichkeit, den zweiten Wurf zu verwandeln, hängt vom Ergebnis des ersten Wurfs ab, d.h. die Ereignisse sind nicht unabhängig. Was ist die gemeinsame Dichte für P(X = 1, Y = 1)? Wenn P(X = 1) = 0,80 , dann folgt P(X = 1, Y = 1) = P(Y = 1│X = 1) · P(X = 1) = 0,85 · 0,80 = 0,68. 1–72 B.3 Eigenschaften von Wahrscheinlichkeitsverteilungen B.3.1 Erwartungswert • Wenn X eine Zufallsvariable ist, dann ist der Erwartungswert von X, E(X), μx oder μ, der gewichtete Durchschnitt aller möglichen Werte von X. Die Gewichte ergeben sich aus der Dichtefunktion. Diskrete Zufallsvariable: E(X) = x1 f(x1) + x2 f(x2) + … + xk f(xk) k ≡ ∑ x j f(x j ) j=1 (B.17) 1–73 • Beispiel: Werte -1, 0, 2 mit Wahrscheinlichkeit E(X) = −1⋅ • • 1 1 3 5 + 0⋅ + 2⋅ = 8 2 8 8 Stetige Zufallsvariable: ∞ E( X) = ∫ xf (x )dx 1 1 3 , und . 8 2 8 (B.18) −∞ Wenn X eine Zufallsvariable ist, dann auch g(X) (z.B. X2 oder log(X)). Dann k E [ g(X)] = ∑ g(x j ) fX (x j ) x diskret (B.19) x stetig. (B.20) ∞ j=1 - ∞ E [ g(X)] = ∫ g(x) fX (x)dx 1–74 • Beispiel: ( ) E X 2 = (− 1) ⋅ 2 1 1 3 1 12 13 + 0 2 ⋅ + 22 ⋅ = + = 8 2 8 8 8 8 ⎛5⎞ Dies zeigt auch, dass E [g(X)] ≠ g [E(x)], hier = ⎜ ⎟ ⎝8⎠ • 2 Ebenfalls gilt für diskrete Zufallsvariablen X, Y mit der gemeinsamen Dichte fX,Y : k m E [ g(X,Y)] = ∑∑ g(xn ,y j ) ⋅ fX,Y (xn ,y j ) n=1 j=1 1–75 • Eigenschaften von Erwartungswerten: E1: Für eine Konstante c: E(c) = c E2: Für Konstanten a und b: E(aX + b) = a E(X) + b E3: Wenn { a1, a2, … an } Konstanten sind und { X1, X2, … Xn } Zufallsvariablen, dann E(a1X1+a2X2+… anXn)= a1E(X1)+ a2E(X2)+…+ anE(Xn) 1–76 ⎛ n ⎞ n E ⎜ ∑ ai Xi ⎟ = ∑ ai E(Xi ) bzw. ⎝ i=1 ⎠ i=1 n ⎛ ⎞ n und (für ai =1): E ⎜ ∑ Xi ⎟ = ∑ E(Xi ) ⎝ i=1 ⎠ i=1 • (B.21) (B.22) Beispiel: X1, X2 und X3 sind die Anzahl der verkauften kleinen, mittleren und großen Pizzen. Die Erwartungswerte sind E(X1) = 25, E(X2) = 57, E(X3) = 40, die jeweiligen Preise sind 5,50, 7,60 und 9,15 €. Der erwartete Umsatz ist dann E(5,50 · X1 + 7,60 · X2 + 9,15 · X3) = 5,50 · E(X1) + 7,60 · E(X2) + 9,15 · E(X3) 1–77 = 5,50 · 25 + 7,60 · 57 + 9,15 · 40 = 936,70 1–78 B.3.2 Dispersionsmaße • Die Zufallsvariablen X und Y haben eine unterschiedliche Streuung: 1–79 • Bei einer Zufallsvariable X mit μ = E(X) interessiert, wie stark sich X im Mittel von seinem Erwartungswert entfernt (X – μ) (wenig = geringe Streuung, viel = hohe Streuung). Die Varianz beschreibt die erwartete quadrierte Streuung: Var(X) ≡ E [(X – μ)2] = σ2 (B.23) Dabei gilt: σ2= E(x2–2x μ+ μ2)= E(X2)–2 μ2+ μ2= E(X2)–μ2 (B.24) (vergleiche A.7) • Eigenschaften von Varianzen: Var1: Die Varianz einer Konstanten ist 0. 1–80 Var2: Bei Konstanten a, b gilt Var(aX + b) = a2 Var(X) 2 σ = Eigenschaften von Standardabweichungen: x r a V • = x σ = Die Standardabweichung einer Zufallsvariable, sd(X), ist die Wurzel der Varianz: (x) (x) d s • SD1: Die Standardabweichung einer Konstanten ist 0. SD2: Bei Konstanten a und b gilt: sd(aX + b) = a sd(X) 1–81 Eine Zufallsvariable X mit Erwartungswert μ und Standardabweichung σ lässt sich standardisieren: μ - σ X = Z • , (B.25) so dass E(Z) = 0 und Var(Z) = 1. 1–82 B.4 Merkmale von gemeinsamen u. bedingten Verteilungen • Die Kovarianz von zwei Zufallsvariablen ist definiert als Cov(X,Y) ≡ E [(X – μx) (Y – μy)] = σXY (B.26) Wenn σXY>0, spricht man von positiver Kovarianz, wenn σXY< 0 von negativer. • Es lässt sich zeigen: Cov(X,Y) = E [(X – μx) (Y – μy)] = E [(X – μy) Y ] = E [ X (Y – μy)] = E(X Y) – μx μy (B.27) 1–83 (vergleiche A.8) • Wenn E(X) = 0 oder E(Y) = 0, folgt Cov(X,Y) = E(XY). • Die Kovarianz misst den linearen Zusammenhang zwischen Zufallsvariablen. • Eigenschaften der Kovarianz: Cov1: Wenn Zufallsvariablen X und Y unabhängig sind, dann Cov(X,Y) = 0. Der Umkehrschluss gilt nicht, da Kovarianz nur lineare Zusammenhänge misst. So haben X 1–84 und X2 eine Kovarianz von 0, obwohl sie nicht unabhängig sind. Cov2: Für Konstanten a1, a2, b1 und b2 gilt: Cov(a1X + b1, a2Y + b2) = a1a2 Cov(X Y), (B.28) Skalieren der Variable beeinflusst die Kovarianz. Cov3: Cov(X,Y) ≤ sd(X) sd(Y) 1–85 Das Maß der Kovarianz kann auf Werte zwischen -1 und +1 standardisiert werden. Der Korrelationskoeffizient ist definiert σ Cov(X,Y) = XY = ρ XY Corr(X,Y) ≡ als: (B.29) sd(X)sd(Y) σ X σ Y • Bei Unabhängigkeit folgt aus Cov(X,Y)=0, dass Corr(X,Y)=0. Auch der Korrelationskoeffizient beschreibt lineare Zusammenhänge. • Eigenschaften der Korrelationskoeffizienten: Corr1: -1 ≤ Corr(X,Y) ≤ 1 1–86 Werte von +1 bzw. -1 implizieren perfekte positive bzw. negative lineare Zusammenhänge Corr2: Bei Konstanten a1, a2, b1, b2 mit a1⋅a2 > 0 gilt: Corr(a1X + b1, a2Y + b2) = Corr(X,Y) bzw. bei a1⋅a2 < 0: Corr(a1X + b1, a2Y + b2) = -Corr(X,Y) Skalieren beeinflusst den Korrelationskoeffizienten nicht. • Weitere Eigenschaften von Varianzen: 1–87 Var3: Bei Konstanten a, b gilt: Var(aX + bY) = a2 Var(X) + b2 Var(Y) + 2ab Cov(X,Y) Wenn X, Y unkorreliert, folgt Cov(X,Y) = 0 und Var(X + Y) = Var(X) + Var(Y) (B.30) Var(X – Y) = Var(X) + Var(Y) (B.31) Zufallsvariablen { X1, … Xn } sind paarweise unkorreliert, wenn jede Variable mit jeder anderen unkorreliert ist, d.h. Cov(Xi, Xj) = 0 für alle i ≠ j. 1–88 Var4: Wenn { X1, …, Xn } paarweise unkorrelierte Zufallsvariablen sind und ai eine Konstante, dann Var(a1X1 + … + anXn) = a12 Var(X1) + … + an2 Var(Xn), bzw. ⎛ n ⎞ n 2 Var ⎜ ∑ ai Xi ⎟ = ∑ ai Var(Xi ) ⎝ i=1 ⎠ i=1 (B.32) und ⎛ n ⎞ n Var ⎜ ∑ Xi ⎟ = ∑ Var(Xi ) ⎝ i=1 ⎠ i=1 (B.33) Sind die Zufallsvariablen nicht paarweise unkorreliert, so müssen alle Kovarianzen berücksichtigt werden. 1–89 • Will man die Variable Y mit Hilfe der Variable X erklären, so ist das Konzept der bedingten Erwartungen von Interesse. Diese x Y E = x = X Y E beschreibt den Erwartungswert von Y gegeben, dass die Variable X den Wert X = x annimmt: ( ) ( ) • Ist Y diskret mit Werten { y1, …, ym }, dann m E(Y x) = ∑ yi fY X (yi x) j=1 Ist Y stetig, dann ∞ E(Y x) = ∫ y fY X (y x)dy −∞ 1–90 Es handelt sich um den gewichteten Durchschnitt von y für gegebene Werte von X. • Beispiel: Y = Lohnsatz, X = Jahre der Schulbildung E( Y X = 12) = mittlerer Lohn der Personen mit 12 Jahren Schulbildung. Da X viele Werte annehmen kann, bietet sich eine verkürzte Darstellung an, die für beliebige Werte von X gilt: E(Y X) = 1,05 + 0,45 X • Bedingte Erwartungen können auch nichtlinear sein. CE1: E ⎡⎣c(X) X ⎤⎦ = c(X) für jede Funktion c(X). 1–91 Wenn X bekannt ist, ist hier auch c(X) bekannt und konstant, z.B. E x 2 x = x 2 ( ) CE2: Bei Funktionen a(X) und b(X): E ⎡⎣a(X)Y + b(X) X ⎤⎦ = a(X)E(Y X) + b(X) Beispiel: E ⎡⎣ XY + 2X2 X ⎤⎦ = X ⋅ E(Y X) + 2X2 CE3: Wenn X und Y unabhängig sind, dann E(Y X) = E(Y) , da X für Y keine Rolle spielt. Wenn U und X unabhängig sind und E(U) = 0 , dann folgt E(U X) = 0 1–92 CE4: Law of iterated expectations E X ⎡⎣E(Y X)⎤⎦ = E(Y) Der Erwartungswert von y lässt sich berechnen, wenn man sowohl die Beziehung zwischen X und Y kennt als auch die Eigenschaften der Verteilung von X. • Beispiel 1: Angenommen, man sucht den durchschnittlichen IQ der Bevölkerung, hat aber nur Durchschnittswerte für Männer und Frauen getrennt. Dann lässt sich der Gesamtdurchschnitt als gewichteter Durchschnitt zwischen Männern und Frauen bestimmen: 1–93 E ⎡⎣E(IQ Geschlecht)⎤⎦ = E(IQ Männer) ⋅ P(Mann) + E(IQ Frau) ⋅ (1- P(Mann)) = E(IQ) • Beispiel 2: Y = Lohn, X = Bildung Wir wissen E(Y X) = 4 + 0,6 · X und E(X) = 11,5 Dann: E(Y) = E(4 + 0,6 X) = 4 + 0,6 E(X) = 4 + 0,6·11,5 = 10,90 CE5: Wenn E(Y X) = E(Y) , dann gilt Cov(X,Y) = 0 und Corr(X,Y) = 0, 1–94 und jede Funktion von X ist unkorreliert mit Y. Wenn die Kenntnis von X den E(Y) nicht beeinflusst, müssen die Größen unkorreliert sein. Wenn X und Y korreliert sind, muss E(Y X) mit X variieren. • Es folgt: Wenn U und X Zufallsvariablen sind und E(U X) = 0 , dann ist E(U) = 0 und U und X sind nicht korreliert. • Auch die Varianz von Y kann bedingt auf X beschrieben werden: Var(Y X = x) = E(Y 2 x) − [E(Y x)] 2 . • Eigenschaft CV1: 1–95 Wenn X und Y unabhängig sind, dann Var(Y X) = Var(Y). 1–96 B.5 Spezielle Verteilungsfunktionen • Einige Verteilungsfunktionen sind für die Ökonometrie besonders wichtig. • Normalverteilte Zufallsvariablen sind stetig mit der Dichte- funktion ⎧ (x - μ)2 ⎫ , f(x) = exp ⎨2 ⎬ 2σ σ 2π ⎩ ⎭ 1 −∞ < x < ∞ , (B.34) wobei μ = E(X) und σ2 = Var(X). Man schreibt X~ Normal(μ,σ2) Die Normalverteilung ist symmetrisch, daher ist μ auch der Median. Die Verteilungsfunktion entspricht einer Glockenkurve: 1–97 • Wenn Y = log(X) einer Normalverteilung folgt, sagen wir, dass X lognormal verteilt ist. 1–98 • Die Normalverteilung mit μ = 0 und σ2 = 1 heißt Standardnormalverteilung, mit der Dichtefunktion: ⎛ -z2 ⎞ φ(z) = exp ⎜ ⎟ 2 2π ⎝ ⎠ 1 −∞ < z < ∞ (B.35) Kumulative Verteilungsfunktion: Φ( z) , Fläche unter Φ( z ) bis z Φ( z) = P(Z < z), in Verteilungstabellen aufgeführt, wobei und P(Z > z) = 1 – Φ( z) (B.36) P(Z < z) = Φ( z ) (B.37) P(a ≤ Z ≤ b) = Φ(b) – Φ(a) (B.38) 1–99 1–100 • Eigenschaften der Normalverteilung: • Normal 1: Wenn X ∼ Normal (μ, σ2), dann (X - μ)/σ ∼ Normal (0, 1) • Beispiel 1: X ~Normal (4,9) und wir suchen P(2 < X ≤ 6). P(2 < X ≤ Schritt 1: Standardisieren ≤ ⎛2-4 x-4 6-4⎞ 6) = P ⎜ < < 3 3 ⎟⎠ ⎝ 3 2⎞ ⎛ 2 = P⎜- < Z 3 ⎟⎠ ⎝ 3 = Φ ( +0,67 ) - Φ ( -0,67 ) 1–101 • 8 9 4 , 0 = 1 5 2 , 0 9 4 7 , 0 = Schritt 2: aus Tabelle G1 ablesen: Beispiel 2: Berechne P( X > 2) = P(X > 2) + P(X < -2) ⎛ X-4 2-4⎞ ⎛ X - 4 -2 - 4 ⎞ = P⎜ > + P ⎜ 3 < 3 ⎟ 3 ⎟⎠ ⎝ 3 ⎝ ⎠ ⎡ ⎛ −2 ⎞ ⎤ = ⎢1 − Φ ⎜ ⎟ ⎥ + Φ( −2) = 1 − 0,251 + 0,023 = 0,772 ⎝ 3 ⎠⎦ ⎣ • Normal2: Wenn X ~ Normal(μ,σ2), dann aX + b ~ Normal(aμ + b, a2 σ2) 1–102 • Normal3: Wenn X und Y gemeinsam normalverteilt sind, sind sie genau dann unabhängig, wenn Cov(X,Y) = 0. Hier stellt die Normalverteilung eine Ausnahme dar. • Normal4: Eine lineare Kombination von unabhängigen, identisch verteilten normalen Zufallsvariablen hat eine Normalverteilung. • Dies impliziert, dass für den Mittelwert von n unabhängigen, normalverteilten Zufallsvariablen Y1, Y2, … Yn, die jeweils ⎛ σ2 ⎞ 2 ~ Normal μ, σ ,gilt: Y ~ Normal ⎜ μ, ⎟ (B.40) n ⎝ ⎠ ( ) 1–103 • Wenn Z standardnormalverteilte Zufallsvariablen sind, dann n folgt X = ∑ Zi2 der Chi-Quadrat (χ2 ) Verteilung mit n Frei- • n heitsgraden: X ~ χ 2 i=1 (B.41) Die Chi-Quadrat-Verteilung ist nicht negativ, nicht symmetrisch und hat einen Erwartungswert = n und eine Varianz = 2n. 1–104 1–105 Die t-Verteilung ergibt sich aus der Standardnormal- und der χ -Verteilung. Wenn Z ~ Normal (0,1) und X ~ χ und X und Z 2 2 • n = T • tn ~ n Z X unabhängig sind, dann: (B.42) Die Dichtefunktion der t-Verteilung ähnelt der Normalverteilung rianz ist 2 n n mit etwas dickeren Rändern. Der Erwartungswert ist 0, die Vafür n > 2. Mit steigendem n konvergiert die t- Verteilung gegen die Normalverteilung. 1–106 1–107 • Die F-Verteilung ergibt sich aus zwei unabhängigen 2 ︶ ︶ k , 1 ︵ ︵ Fk ~ k1k2 / / 1 X X2 = F χ2 -verteilten Zufallsvariablen X1 ~ χk12 , X2 ~ χk2 2 mit: (B.43) Man unterscheidet Zähler- (k1) und Nennerfreiheitsgrade (k2). • Die F-Verteilung nimmt nur positive Werte an und ist nicht symmetrisch. 1–108 1–109 C Statistische Grundlagen C.1 Bevölkerung, Parameter und Zufallsstichprobe • Mit Hilfe der statistischen Inferenz (dem statistischen Schließen o. Schlussfolgern) lernt man auf Basis einer Stichprobe etwas über die Eigenschaften der unterliegenden Bevölkerung oder Grundgesamtheit. • Beispiel: Wie wirkt sich in Deutschland im Mittel ein Jahr Schulbildung auf den Stundenlohn aus ("Bildungsrendite")? Dies lässt sich auf Basis einer Stichprobe als Punktschätzung punktgenau schätzen (z.B. plus 7,5% pro Jahr) oder in einem 1–110 Intervall als Intervallschätzer eingrenzen (z.B. zwischen 5,6 und 9,4 %). • Unter Parametern versteht man konstante Größen, die in der Grundgesamtheit die interessierenden Zusammenhänge charakterisieren. • Y sei eine Zufallsvariable, die in der Grundgesamtheit gemäß der Dichtefunktion f(y;θ) verteilt sei, wobei der unbekannte Parameter θ die sonst bekannte Dichtefunktion charakterisiert. Um etwas über θ zu lernen, kann man verschiedene Stichproben aus der Grundgesamtheit betrachten. 1–111 • Wenn Y1, Y2, …, Yn unabhängige Zufallsvariablen mit einer gemeinsamen Dichtefunktion f(y;θ) sind, dann ist {Y1, Y2, …, Yn} eine Zufallsstichprobe der durch f(y;θ) charakterisierten Grundgesamtheit. • Die Zufallsvariablen heißen i.i.d. verteilt (independent and identically distributed, unabhängig und identisch), wenn sie zufällig gezogen und mit der gleichen Dichtefunktion verteilt sind. • Eine Stichprobe ist zufällig, wenn vor der Ziehung nicht feststeht, welche Elemente berücksichtigt werden, alle Bevölke1–112 rungselemente die gleiche Ziehungswahrscheinlichkeit haben und jede Ziehung unabhängig von allen anderen stattfindet. 1–113 C.2 Eigenschaften von Schätzverfahren in kleinen Stichproben • Man unterscheidet Eigenschaften, die sogar in kleinen Stichproben (finite samples) gelten, von asymptotischen Eigenschaften, die nur gelten, wenn die Stichprobengröße gegen unendlich konvergiert (large samples). • Ein Schätzverfahren (estimator) ist eine Regel, die auf Basis von Stichprobendaten einen Schätzwert (estimate) für unbekannte Bevölkerungsparameter bestimmt. Das Verfahren kann auf jede Stichprobe angewendet werden. 1–114 • Beispiel: Zufallsstichprobe {Y1, Y2, …, Yn} aus der Bevölkerung mit dem unbekannten Mittelwert μ. μ lässt sich als Stichprobenmittelwert schätzen. 1 n Y = ∑ Yi n i =1 (C.1) Der Schätzwert für konkrete Daten einer konkreten Stichprobe 1 ist dann y = ( y1 + y 2 + " + yn ) n • Allgemein lässt sich ein Schätzverfahren W für einen Parameter θ als Funktion h von Zufallsvariablen darstellen: W = h (Y1, Y2, …, Yn) (C.2) 1–115 Da W von der Zufallsstichprobe abhängt, ist es selbst eine Zufallsvariable. Für den konkreten Schätzwert schreiben wir w = h (y1, y2, …, yn). • Um verschiedene Schätzverfahren vergleichen zu können, betrachten wir deren Eigenschaften. 1–116 C.2.1 Eigenschaft der Unverzerrtheit • Ein Schätzer W des Parameters θ heißt unverzerrt, wenn für alle θ gilt E (W) = θ • (C.3) Bei unverzerrten Schätzern ist nicht jeder Schätzwert mit dem wahren Wert identisch, aber über viele Zufallsstichproben hinweg entspricht der Mittelwert von W dem wahren θ. • Bei verzerrten Schätzern für θ beträgt die Verzerrung (Bias) Bias (W) ≡ E (W) - θ (C.4) 1–117 • Beispiel für verzerrten und unverzerrten Schätzer: 1–118 1– –119 • Um Verzerrung zu vermeiden, muss man die Schätzfunktion h angemessen wählen. Für manche Schätzverfahren lässt sich die Unverzerrtheit leicht zeigen. • Beispiel: Schätzer Y für den Mittelwert der Grundgesamtheit, µ: ⎛1 n ⎞ 1 ⎛ n ⎞ 1 n E ( Y ) = E ⎜ ∑ Yi ⎟ = E ⎜ ∑ Yi ⎟ = ∑ E ( Yi ) ⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 1⎛ n ⎞ 1 = ⎜ ∑ μ ⎟ = × ( nμ) = μ n ⎝ i=1 ⎠ n 1–120 • Die Stichprobenvarianz S2 ist ein unverzerrter Schätzer für die unbekannte Varianz der Grundgesamtheit (σ2): 1 n 2 ( ) S = Y − Y ∑ i i n − 1 i =1 2 (C.5) Man dividiert durch n-1 statt n, da der Mittelwert μ der Grundgesamtheit durch Y geschätzt wird. Wäre μ bekannt, könnte man durch n teilen und berechnen ~2 1 n 2 S = ∑ (Yi − μ ) . n i =1 1–121 • Unverzerrtheit ist manchmal ein problematisches Kriterium, da gute Schätzverfahren z.T. verzerrt sind und manche unverzerrten Schätzer schlechte Schätzverfahren darstellen. • Beispiel: Wählt man als Schätzer für μ: W ≡ Y1, also nur den ersten Wert der Stichprobe, so gilt E(Y1) = μ. 1–122 C.2.2 Eigenschaft der Effizienz • Neben dem Erwartungswert eines Schätzverfahrens interessiert uns die Streuung, wobei unter den unverzerrten Schätzern die mit kleiner Streuung präziser sind. 1–123 1– –124 • Die Streuung eines Schätzers wird durch seine Varianz beschrieben. • Beispiel: ⎛1 n ⎞ 1 Var ( Y ) = Var ⎜ ∑ Yi ⎟ = 2 Var ⎝ n i=1 ⎠ n 1 ⎛ n 2⎞ 1 = 2 ⎜ ∑ σ ⎟ = 2 n ⋅ σ2 = n ⎝ i=1 ⎠ n ⎛ n ⎞ 1 ⎜ ∑ Yi ⎟ = 2 ⎝ i=1 ⎠ n n ∑ Var ( Yi ) i=1 1 2 σ n (C.6) 1–125 Der Erwartungswert von Y als Schätzer für μ entspricht dem Mittel der Grundgesamtheit, die Varianz ist die der Grundgesamtheit geteilt durch n (d.h. je größer n, umso kleiner Var(Y)). • Als Schätzer für μ sind sowohl Y als auch Y1 unverzerrt, aber Y σ2 eine kleinere Varianz als Y1 mit σ2. Daher ist Y als hat mit n Schätzer vorzuziehen. • Wenn W1 und W2 zwei unverzerrte Schätzer einer Gruppe von Parametern θ sind, dann nennt man W1 im Vergleich zu W2 ef- 1–126 fizient, wenn Var (W1) ≤ Var (W2) für alle Werte von θ mit einer strikten Ungleichheit für mindestens ein θ. • Im Beispiel ist Y effizient relativ zu Y1, da Var (Y) < Var (Y1) sobald n >1. • Ein Vergleich der Varianz ist meist nur für unverzerrte Schätzer relevant (jede Konstante hat eine Varianz von 0, kann aber völlig falsch sein). 1–127 Schlüsselbegriffe Kapitel 1 & Appendix: Beobachtungsdaten Diskrete Zufallsvariable Ökonometrie Empirische Analyse Ökonomisches Modell Ökonometrisches Modell Querschnittsdaten Zeitreihendaten Gepoolter Querschnitt Paneldaten Kausaler Effekt Ceteris paribus Interpretation Mittelwert Lineare Funktion Achsenabschnitt Effizient Experimentaldaten Stetige Zufallsvariable Bernoulli (binäre) Zufallsvariable Eintrittswahrscheinlichkeit Wahrscheinlichkeitsdichtefunktion Kumulative Verteilungsfunktion Gemeinsame Verteilungsfunktion Unabhängige Zufallsvariablen Marginale Wahrscheinlichkeitsdichtefunktion Bedingte Wahrscheinlichkeitsdichtefunktion Gemeinsame Dichte Erwartungswert Varianz Standardabweichung Standardisieren Kovarianz 1–128 Steigungsparameter Marginaler Effekt Prozentpunkt, Prozent Natürlicher Logarithmus Elastizität Modell konstanter Elastizitäten Semielastizität Exponentialfunktion Partielle Ableitung Experiment Zufallsvariable Statistische Inferenz Bevölkerung Parameter iid – verteilt Normalverteilung Asymptotische Eigenschaft Schätzwert (estimate) Verzerrung (Bias) Skalieren der Variable Korrelationskoeffizient Paarweise unkorreliert Bedingter Erwartungswert Law of iterated expectations Normalverteilte Zufallsvariable Lognormalverteilte Zufallsvariable Standardnormalverteilung Chi-Quadrat-Verteilung t-Verteilung F-Verteilung Stichprobe Grundgesamtheit Zufallsvariable Bernoulliverteilung Finite sample Schätzverfahren (estimator) Unverzerrt Stichprobenvarianz 1–129 Literatur Kapitel 1: • Wooldridge, Kapitel 1, Appendix A, B, C • Von Auer, Kapitel 1, Kapitel 2 • Hill/Griffiths/Judge, Kapitel 1, Kapitel 2 • Gujarati,1999, Essentials of Econometrics, McGraw Hill, Singapur, Kapitel 1 – Kapitel 3 • Stock/Watson, 2007, Introduction to Econometrics, 2. Auflage, Pearson Education Inc., Kapitel 1 – Kapitel 3 1–130 Kapitel 2: Das einfache Regressionsmodell 2.1 Definitionen 2.2 Herleitung der Kleinstquadrate-Schätzung 2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte 2.4 Erwartungswerte und Varianzen 2.5 Regression durch den Ursprung 2.6 Regression mit logarithmierten Werten 2–1 Leitfragen und Lernziele Kapitel 2: • Wie lässt sich der Zusammenhang zwischen zwei Zufallsvariablen empirisch schätzen? • Wie funktioniert das Kleinstquadrate(KQ)-Verfahren? • Was sind die Eigenschaften des KQ-Verfahrens? • Welche Annahmen müssen getroffen werden? 2–2 2.1 Definitionen • Ziel: Beziehung zwischen zwei Variablen beschreiben, z.B. Dünger und Erntemenge, Ausbildung und Lohn, Polizeibeamte und Kriminalität. • Dabei zu klären: (a) Können auch andere Faktoren Ernte, Lohn bzw. Kriminalität beeinflussen? (b) In welchem funktionalen Verhältnis stehen die Variablen zueinander? 2–3 (c) Wie kann man sicher sein, eine ceteris paribus Beziehung zu beschreiben? • Einfachste Darstellung: y = β0 + β1 x + u (2.1) Dies ist der Regressionszusammenhang, den wir für die Grundgesamtheit unterstellen. • Begriffe für y: Abhängige Variable, erklärte Variable, endogene Variable, Regressand • Begriffe für x: Unabhängige Variable, erklärende Variable, exogene Variable, Kovariate, Regressor 2–4 • u: Der Fehler- oder Störterm umfasst alle Faktoren, die y beeinflussen, außer dem beobachteten x (unbeobachtete Faktoren). • Unterstellt: Linearer Zusammenhang zwischen y und x. Gegeben die Störgröße (d.h. ∆u = 0), ändert sich y bei Änderung von x um ∆x um β1 · ∆x: ∆y = β1 · ∆x bei • ∆u = 0 (2.2) β1 = Steigungsparameter, β0 = Achsenabschnittsparameter, Konstante. 2–5 • Beispiel: Ernte = β0 + β1 · Dünger + u (2.3) β1 beschreibt, wie sich eine Änderung in der Düngermenge auf die Ernte auswirkt. • Lineare Form impliziert, dass Änderung von x um eine Einheit die gleiche Wirkung auf y hat, egal wie hoch x ist; manchmal unrealistisch (z.B. bei fallenden Grenzerträgen). • β1 misst den Effekt von x auf y, aber es muss nicht der kausale sein. Noch haben wir alle anderen Faktoren ignoriert. Um den ceteris paribus Effekt zu beschreiben, sind Annahmen erforderlich. 2–6 • E(u) = 0 Annahme 1: (2.5) Unterstellt, dass alle ausgelassenen Faktoren, die z.B. die Ernte beeinflussen, einen Mittelwert von Null in der Grundgesamtheit haben. Dies ist unproblematisch, solange eine Konstante (β0) mitgeschätzt wird. • Eine weitere Annahme beschreibt den Zusammenhang zwischen x und u. Wenn die beiden Zufallsvariablen unkorreliert sind, bedeutet dies nur, dass es zwischen ihnen keinen linearen Zusammenhang gibt. 2–7 • Für die Regressionsanalyse und um eine ceteris paribus Interpretation zu legitimieren, benötigen wir die stärkere Annahme, dass der auf x bedingte Erwartungswert von u gleich Null ist. Das heißt, dass der Durchschnitt von u nicht von x abhängt und für alle Werte von x gleich ist (mittlere bedingte Unabhängigkeit). • Annahme 2: E(u x) = E(u) = 0 (2.6) Beispiel: wage = β0 + β1 · educ + u (2.4) β1 beschreibt, um wie viel € sich der Stundenlohn ändert, wenn sich die Anzahl der Ausbildungsjahre (educ) um eins erhöht. 2–8 Wir unterstellen, dass alle anderen relevanten Faktoren konstant gehalten werden. Dazu gehört z.B. die Fähigkeit einer Person. Annahme 2.6 besagt, dass der Erwartungswert der Fähigkeit für Personen mit verschiedenen Werten für educ gleich sein muss. Man würde das nicht unbedingt so erwarten. • Ebenso darf sich im Düngerbeispiel z.B. die unbeobachtete Landqualität nicht nach Düngermenge unterscheiden. 2–9 • Frage: Wenn die Klausurpunkte (score) von der Anwesenheit in der Vorlesung (attend) und unbeobachteten Faktoren beeinflusst wird: score = β0 + β1 · attend + u (2.7) Wann gilt Annahme 2.6? • Bedeutung von Annahme 2.6: E ( u x ) = 0 : a) An jedem einzelnen Wert von x ist E(u) = 0 b) Für alle x ist E(u) identisch c) Bei E ( u x ) = 0 sind u und x unkorreliert, d.h. cov(x,u) = 0 2–10 d) u repräsentiert alle Faktoren w, die neben x das y beeinflussen. Es kann nur dann E ( u x ) = 0 , wenn cov(x,w) = 0. • Trifft Annahme 2 nicht zu, so kann β1 nicht kausal interpretiert werden. • Unter Annahme 2 lautet der auf x bedingte Erwartungswert von y: E(y x) = E(β0 + β1x + u x) = E(β0 x) + E(β1x x) + E(u x) = β0 + β1x + 0 (2.8) 2–11 • Die Bevölkerungs-Regressionsfunktion, E(y x), ist linear in x. Eine Änderung von x um 1 verschiebt den Erwartungswert von y um β1. • Für jede Ausprägung von x ergibt sich so eine Verteilung von y, die um E(y x) konzentriert ist: 2–12 2–13 • Die beobachteten Werte von y lassen sich in zwei Teile zerlegen: y = β0 + β1x + u = E(y x ) + u • Der erste Teil ist systematisch durch x erklärbar. Unter Annahme 2 ist der zweite Teil, u, nicht durch x erklärbar. 2–14 2.2 Herleitung der Kleinstquadrate-Schätzung • Wir unterstellen eine Stichprobe der Größe n aus der Grundgesamtheit: {(xi,yi): i = 1,…,n}. • Für jede Beobachtung i gilt: yi = β0 + β1 xi + ui (2.9) Dabei ist ui der Störterm für Beobachtung i, der alle für yi relevanten Faktoren - außer xi - abbildet. • Beispiel: n = 15 Beobachtungen zu Ersparnissen (y) und Jah- reseinkommen (x). 2–15 2–16 • Aus Annahme 2 folgt, dass x und u in der Grundgesamtheit unkorreliert sind. Die Kovarianz von unkorrelierten Größen ist Null (vgl. B.29). • • Es gilt also: E(u) = 0 (Ann.1) (2.10) und Cov(x,u) = E(xu) = 0 (wg. Ann.2) (2.11) da Cov(x,u) = E(xu) – E(x) E(u) Dies lässt sich auch wie folgt schreiben: und E(u) = E(y – β0 – β1 x) = 0 (2.12) E(xu) = E[x (y – β0 – β1 x)] = 0 (2.13) 2–17 • Mit diesen Bedingungen lassen sich Schätzwerte für β0 und β1 ableiten. Dabei sucht man diejenigen β̂0 und β̂1 Werte, die die Gleichungen der Grundgesamtheit (2.12) und (2.13) für die Stichprobe lösen: 1 n (yi - βˆ 0 - βˆ 1 xi ) = 0 ∑ n i=1 (2.14) 1 n xi (yi - βˆ 0 - βˆ 1 xi ) = 0 ∑ n i=1 (2.15) 2–18 0 = xi β1 n ∑ˆ 1 = i ∑ˆ 1 = i 1 = i 1 n β0 n n ∑ 1 n yi (2.14) lässt sich umformen: 1 n • y = βˆ 0 +βˆ 1 x , • (2.16) 1 n wobei y = ∑ yi n i=1 1 n x = ∑ xi n i=1 und Daraus folgt: βˆ 0 = y - βˆ 1 x (2.17) (2.15) lässt sich umformen: n ∑ xi (yi - (y - βˆ 1 x) - βˆ 1xi ) = 0 i=1 2–19 n ∑ xi (yi - y + βˆ 1(x - xi )) = 0 i=1 n n i=1 i=1 ∑ xi (yi - y) = ∑ xiβˆ 1(xi - x) Da n ∑ xi (xi - x) = ∑ (xi2 - xi x) = ∑ (xi - x)2 i=1 und n n i=1 i=1 ∑ xi (yi - y) = ∑ (xi - x)(yi - y) gilt für β̂1, solange n ∑ (x i -x)2 > 0 : (2.18) i=1 2–20 n β̂1 = ∑ (xi - x)(yi - y) i=1 n ∑ (xi - x)2 . (2.19) i=1 • Dies ist das Verhältnis der Stichprobenkovarianz von x und y zur Stichprobenvarianz von x. Wenn x und y positiv korreliert sind, dann ist auch β̂1 positiv und umgekehrt. • Annahme (2.18) gilt nicht, wenn alle Beobachtungen für xi den gleichen Wert annehmen, z.B. wenn Stundenlöhne nur für Personen mit gleichen Werten für „educ“ beobachtet werden. 2–21 • Mit (2.17) und (2.19) werden die Kleinstquadrateschätzwerte für β0 und β1 berechnet. Nach Anwendung des Berechnungsverfahrens verwendet man die ^-Schreibweise. • Der vorhergesagte Wert von y an der Stelle x = xi ist: ŷi = βˆ 0 + βˆ 1xi Das geschätzte Residuum für Beobachtung i ist: xi β1 β0 yi = yi yi = ui • (2.20) ˆ ˆ ˆ ˆ (2.21) 2–22 2–23 • Man kann β̂0 und β̂1 so wählen, dass die Summe der quadrierten Residuen minimiert wird: n ∑ ûi i=1 2 n = ∑ (yi − βˆ 0 − βˆ 1xi )2 = S (2.22) i=1 Leitet man diesen Ausdruck nach β̂0 und β̂1 ab, so ergeben sich die Gleichungen (2.14) und (2.15) als Bedingungen erster Ordnung, die durch (2.17) und (2.19) gelöst werden: 2–24 • n ∂S = −2∑ (yi − βˆ 0 − βˆ 1 xi ) = 0 ˆ ∂β0 i=1 (2.22a) n ∂S = −2∑ xi (yi − βˆ 0 − βˆ 1 xi ) = 0 ˆ ∂β1 i=1 (2.22b) KQ-Regressionsgleichung (Stichproben-Regressionsfunktion): ŷ = βˆ 0 + βˆ 1 x , (2.23) wobei ŷ den vorhergesagten Wert angibt; β̂0 ist der vorhergesagte Wert von y, wenn x = 0, was oft nicht sinnvoll ist. • Die Stichproben-Regressionsfunktion (2.23) ist die geschätzte Version der Bevölkerungs-Regressionsfunktion 2–25 (2.8) E(y x) = β0 + β1x, die unbekannt bleibt. Jede Stichprobe generiert mit β̂0 und β̂1 eine andere Stichproben- Regressionsfunktion. • Mit β̂1 lässt sich für jede Änderung von x (∆x) die erwartete geschätzte Änderung von y (∆y) bestimmen. • Beispiel 1: Gehalt des Vorstandsvorsitzenden (salary) als Funktion der Rendite (ROE). Salary gemessen in 1000 $ (z.B. 856,3), ROE gemessen in Prozentpunkten (z.B. 10) salary = β0 + β1 ROE + u 2–26 Auf Basis von Daten für 209 Vorstandsvorsitzende ergibt sich: salary = 963,1 + 18,5 ROE (2.26) Gehalt bei Rendite von 0: 963.100 $ Gehalt bei Rendite von 1 Prozent: um 18,5 (Tausend $) höher. Gehalt bei Rendite von 30 Prozent: 963,1 + 18,5 · 30 = 1518,2 Tausend $, d.h. 1.518.200 Dollar. • Beispiel 2: Stundenlohn (wage) als Funktion der Ausbildungs- jahre (educ). Daten für 526 Personen ergeben: wage = –0,90 + 0,54 educ (2.27) 2–27 0 Jahre Ausbildung: Stundenlohn negativ: Nicht sinnvoll, aber kommt in Daten auch nicht vor (out of sample prediction). 8 Jahre Ausbildung: wage = –0,90 + 0,54 · 8 = 3,42 $ Jedes Ausbildungsjahr erhöht den Lohn im Mittel um 54 Cent, egal wie hoch die Bildung schon war. • Frage: Was ist die Konsequenz eines Anstiegs von educ = 8 auf educ = 10? • Sprachregelung: Man regressiert y auf x, also die abhängige auf die unabhängige Variable. 2–28 2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte • Jeder vorhergesagte Wert von y, ŷ , liegt auf der Regressionsgerade, die tatsächlichen Datenpunkte im Normalfall nicht. Wenn û positiv ist, wird y unterschätzt, wenn û negativ ist, wird y überschätzt (vgl. Abb. 2.4). • Summe und Durchschnittswert der KQ-Residuen ist Null: n ∑ ûi = 0 (2.30) i=1 2–29 Dies folgt sowohl aus Annahme 1 (2.5) als auch aus der Bedingung erster Ordnung für die Minimierung von n ∑ ûi2 (2.22a). i=1 • Die Stichprobenkovarianz zwischen xi und ûi ist Null: n ∑ xiuˆ i = 0 (2.31) i=1 Dies folgt aus Annahme 2 und der Bedingung (2.15). • Der Punkt ( x, y ) liegt auf der Regressionsgeraden, d.h. setzt man x in die Regressionsgleichung ein, so ergibt sich y . 2–30 • yi lässt sich als Summe von Vorhersage und Residuum abbily i = ŷ i + ûi den: (2.32) Da die ûi im Mittel Null sind, folgt ŷ = y . • Man definiert die gesamte (totale, SST), erklärte (SSE) und reSST ∑ (yi - y)2 (2.33) i=1 n ∑ (yˆ i - y)2 (2.34) i=1 n ≡ SSR n ≡ SSE ≡ siduale (SSR) Quadratsumme: ∑ uˆ i2 (2.35) i=1 2–31 • SST beschreibt die gesamte Variation in y. Sie lässt sich aufteilen: R S S + E S S = T S S • (2.36) Solange die Konstante β0 mit geschätzt wurde, kann man das R T S S S S 1 = E T S S S S = 2 R R2 als Maß der Schätzgüte verwenden: , 0 ≤ R2 ≤ 1 (2.38) Es gibt den Anteil der durch x erklärten Stichprobenvariation von y an und wird meist als Prozentgröße beschrieben. Wenn 2–32 R2 = 1, liegen alle Punkte auf der Regressionsgeraden. In diesem Fall ist SSR = 0, es gibt keine Residuen. • Der Wert des R2 entspricht dem Quadrat des Stichprobenkorre2 lationskoeffizienten zwischen yi und ŷ i , R2 = ⎡⎣corr ( yi ,yˆ i ) ⎤⎦ . • Beispiel: salary = 963,1 +18,5 ROE, n=209 R2=0,0132 (2.39) Hier wird nur ein Anteil von 1,32 Prozent der gesamten Streuung von salary durch ROE erklärt. Dennoch kann die Schätzung nützlich sein. 2–33 2.4 Erwartungswerte und Varianzen 2.4.1 Unverzerrtheit des KQ-Schätzers • Annahme SLR.1: Im Modell für die Grundgesamtheit sind y, x und der Störterm u verbunden als: y = β0 + β1 x + u, (2.47) mit β0 und β1 als Achsenabschnitts- und Steigungsparameter. • y, x und u sind Zufallsvariablen. • Annahme SLR.2: Unsere Zufallsstichprobe der Größe n {(xi,yi): i= 1,2,…,n} folgt Modell (2.47). 2–34 • Für die Beobachtung i der Zufallsstichprobe lässt sich (2.47) wie folgt schreiben: yi = β0 + β1 xi + ui, • i=1,2,…,n (2.48) ui ist der Störterm für Beobachtung i und enthält alle unbeobachteten Größen, die yi beeinflussen. • Da β0 und β1 ohne Variation in x nicht definiert sind (vgl. 2.18), unterstellen wir: • Annahme SLR.3: Die Realisationen von xi in der Stichprobe, {xi, i= 1,…,n} sind nicht alle identisch. 2–35 • Frage: Bei welchen Werten für die Varianz oder Standardab- weichung von xi in der Stichprobe trifft die Annahme nicht zu? • Annahme SLR.4: Der Erwartungswert des Fehlers u ist für jeden Wert der erklärenden Variablen x gleich Null: E(u x) = 0 • Für jedes Element i der Zufallsstichprobe gilt: E(ui xi ) = 0 . • Wir betrachten die KQ-Eigenschaften bedingt auf die konkreten xi in unserer Stichprobe. 2–36 n • In (2.19) hatten wir gezeigt, dass β̂1 = n i=1 i=1 n β̂1 = n ∑ (xi - x)2 i=1 ∑ (xi - x)(yi - y) = ∑ (xi - x)yi schreiben als i=1 n , β1 da n ∑ (xi - x)(yi - y) (vgl. A8), lässt sich ˆ auch n ∑ (xi - x)yi ∑ (xi - x)yi ∑ (xi - x)(β0 + β1xi + ui ) i=1 n ∑ (xi - x)2 = i=1 SSTx = i=1 SSTx i=1 (2.49,50) 2–37 • β̂1 ist eine Zufallsvariable, die je nach Stichprobe anders ausfallen kann. • Der Zähler lässt sich wie folgt umformen: n n n i=1 i=1 i=1 ∑ (xi - x)β0 + ∑ (xi - x)β1xi + ∑ (xi - x)ui (2.51) n n n i=1 i=1 i=1 = β0 ∑ (xi - x) + β1 ∑ (xi - x)xi + ∑ (xi - x)ui 2–38 n = β1 ⋅ SSTx + ∑ (xi - x)ui , i=1 da der erste Term gleich Null ist. SSTx ist die Variation in x. ui di 1 = i ∑ , (2.52) x i x = i d wobei n ˆ • ︶ Tx 1 S S + β1 = ui 1 = i + β1 = β1 ︵ ∑ x Tx - S xi S n Einsetzen in 2.50: . Der Schätzer ergibt den Bevölkerungspara- meter plus eine lineare Kombination der Störterme {u1,u2,…,un}. Wären alle Störterme gleich Null, ergäbe sich β1. 2–39 • Theorem 2.1 (Unverzerrtheit von KQ): Unter den Annahmen SLR.1 bis SLR.4 gilt: und E(βˆ ) = β E(βˆ ) = β 0 0 1 (2.53) 1 für alle Werte von β0 und β1. Die KQ-Schätzer sind unverzerrt. • Beweis: Hier bedingt auf die tatsächlich beobachteten Werte x (alternativ: Unter Annahme nicht-stochastischer x): (a) ⎡ 1 E(βˆ 1 ) = β1 + E ⎢ ⎣ SSTx 1 = β1 + SSTx ⎤ 1 du = β + ∑ i i ⎥ 1 SST i=1 x ⎦ n n ∑ E(dui i ) i=1 n ∑ dE(u i i ) = β1, i=1 2–40 da E(u x) = 0 unter SLR.2 und SLR.4. (b) βˆ 0 = y - βˆ 1 x = ( β0 + β1 x + u ) - βˆ 1 x = β0 + (β1 - βˆ 1 )x + u E(βˆ 0 ) = β0 + E[(β1 - βˆ 1 )x] + E(u) = β0 + E[(β1 - βˆ 1 )]x = β0 , da E(u) = u = 0 und E(βˆ 1 ) = β1. • Unverzerrtheit ist eine Eigenschaft des Schätzverfahrens, nicht einzelner Schätzwerte. Ob eine konkrete Stichprobe zu zutreffenden Schätzergebnissen führt, weiß man nicht. • Alle 4 Annahmen müssen zutreffen, d.h. Linearität, Zufallsstichprobe, Varianz in x, mittlere bedingte Unabhängigkeit von 2–41 u und x, sonst sind die Schätzer verzerrt. Annahme 4 trifft gelegentlich nicht zu. • Beispiel: Regressiere Mathenoten auf Schulmahlzeiten- Förderung: math = β0 + β1 lnchprg + u (2.54) n = 408 Schulen, lnchprg = Anteil der Schüler mit Subvention (0 - 100), math = Anteil der Schüler, die Matheprüfung bestehen (0 - 100). math = 32,14 – 0,319 lnchprg R2 = 0,171 2–42 Je mehr gefördert wird, umso schlechter die Matheerfolge. Anteil lnchprg plus 10 Prozentpunkte, Anteil Matheerfolg minus 3,2 Prozentpunkte. Kausaler Effekt nicht glaubhaft. • Wenn u mit x korreliert, ist β1 verzerrt geschätzt. u könnte ausgelassene Variablen wie Armutsrate oder Schulqualität enthalten, die mit lnchprg korreliert sind. Dann ist β̂1 verzerrt. • Lösungen werden in der Veranstaltung Empirische Wirtschaftsforschung II besprochen. 2–43 2.4.2 Varianz der KQ-Schätzer • Wie stark streuen die Parameterschätzer um den Erwartungswert? Wie präzise sind die Schätzer? • Annahme SLR.5: Der Störterm u hat für jeden Wert der erkläVar(u x) = σ 2 renden Variable die gleiche Varianz: (Homoskedastie). • Annahme SLR.5 ist für Beweis der Unverzerrtheit nicht erforderlich. 2–44 • Die Annahmen SLR.4 und SLR.5 können auch in Bezug auf y dargestellt werden (siehe Abb. 2.8): E(y x) = β0 + β1x (linearer Erwartungswert) (2.55) Var(y x) = σ 2 (2.56) (konstante Varianz) 2–45 2–46 • Wenn Var(u x ) von x abhängt, spricht man von Heteroskedastie, die sich wegen Var(u x ) = Var(y x ) auch auf y überträgt. 2–47 2–48 • Theorem 2.2 (Stichprobenvarianz der KQ-Schätzer): Unter den Annahmen SLR.1 – SLR.5 gilt (bedingt auf die Stichprobenwerte x): Var(βˆ 1 ) = σ2 n ∑ (xi - x)2 σ2 = SSTx (2.57) i=1 1 n 2 σ ∑ xi n i=1 2 Var(βˆ 0 ) = n ∑ (xi - x)2 (2.58) i=1 2–49 • Determinanten von Var(β̂1 ) : - Je größer σ2, umso größer ist Var(β̂1 ) - Je größer die Streuung von x, umso kleiner ist Var(β̂1 ) - Je größer die Stichprobe, umso größer ist SSTx, umso klei- ner Var(β̂1 ) • Für Konfidenzintervalle und Teststatistiken benötigen wir die Standardabweichungen von β̂0 und β̂1: sd(β̂0 ) und sd(β̂1), als Wurzel der Varianzen. 2–50 • Je kleiner Var(β̂1), umso präziser ist der Zusammenhang zwischen y und x beschreibbar. 2–51 2.4.3 Die Varianz des Fehlerterms • Zur Berechnung der Parametervarianzen benötigen wir σ2, das mit Hilfe der Daten geschätzt werden kann. • Unterscheidung: Im Bevölkerungsmodell yi = β0 + β1 xi + ui stellen die ui Fehler für die Beobachtung i dar, die man aber nie messen kann, da die wahren β0, β1 unbekannt sind. • Nach der Schätzung ergibt y i = β̂0 + β̂1x i + ûi die auf Basis der Stichprobe bestimmten Residuen ûi . 2–52 • Die Residuen lassen sich als Funktion der wahren unbeobachteten Fehler darstellen: ûi = yi - βˆ 0 - βˆ 1xi = (β0 + β1xi + ui ) - βˆ 0 - βˆ 1xi = ui - (βˆ 0 - β0 ) - (βˆ 1 - β1 )x i (2.59) Bei unverzerrten Parameterschätzern ist E(ûi ) = ui . • 1 n 2 Da σ = E(u ), wäre ∑ ui ein geeignetes Schätzverfahren für n i=1 2 2 σ 2 , allerdings sind die ui2 nicht beobachtbar. Wenn wir stattdes- 2–53 2 sen ûi nutzen, ist der Schätzer bestimmbar, aber noch ver1 n 2 SSR zerrt: ∑ ûi = n n i=1 • Die Verzerrung ergibt sich, da die ûi selbst das Ergebnis der Schätzung von 2 Parametern (β̂0 , β̂1 ) sind, die auf Basis der vorliegenden Information bestimmt wurden. Dadurch verringert sich die Zahl der Freiheitsgrade um 2, was bei einem unverzerrten Schätzer berücksichtigt werden muss (vgl. C.5): σˆ 2 = 1 (n - 2) n ∑ uˆ i2 = i=1 SSR (n - 2) (2.61) 2–54 • Theorem 2.3 (Unverzerrte Schätzung von σ2): Unter den Annahmen SLR.1 – SLR.5 gilt: E(σ̂ 2 ) = σ 2 • σ̂ 2 kann in (2.57) und (2.58) genutzt werden, um unverzerrte Schätzer von Var(β̂0 ) und Var(β̂1 ) zu bestimmen. • Ein Schätzer der Standardabweichung von ui ist σ̂ = σ̂ 2 , genannt Standardfehler der Regression (SER). Es ist ein Schätzer für die auf x bedingte Streuung von u und y. 2–55 • Die Standardabweichung (standard deviation) der Parameσ ter: sd(βˆ 1) = lässt sich auf Basis der Streuung in der SSTx Stichprobe als Standardfehler von β̂1 schätzen: se(βˆ 1) = σˆ = SSTx σˆ n ∑ (xi − x)2 i=1 • Da σ̂ von Stichprobe zu Stichprobe variiert, sind se(β̂1 ) und se(β̂0 ) Zufallsvariablen. 2–56 2.5 Regression durch den Ursprung • Es gibt Fälle, in denen bei x = 0 auch y = 0 sein soll (z.B. Steuereinnahmen als Funktion des Einkommens). Hier lautet das Modell: (2.63) y = β 1x . • Da kein Achsenabschnittsparameter geschätzt wird, spricht man von einer Regression „durch den Ursprung“, die Regressionslinie verläuft durch den Punkt (x,y) = (0,0). • Das Kleinstquadrateverfahren minimiert in diesem Fall (vgl. 2.22): 2–57 n ∑ (yi - β 1xi )2 = 0 (2.64) i=1 Bedingung erster Ordnung: n ∑ xi (yi - β 1xi ) = 0 , (2.65) i=1 n so dass β 1 = ∑ xi yi i=1 n ∑ xi2 , (2.66) i=1 solange nicht alle xi den Wert 0 annehmen. 2–58 n • Vergleiche dies mit β̂1 = ∑ (xi - x)yi i=1 n ∑ (xi - x)2 ~ . β1 und β̂1 sind nur dann i=1 identisch, wenn x = 0 . • (2.49) ~ ~ Schätzt man β1 obwohl β0 ≠ 0, so ist β1 verzerrt. 2–59 2.6 Regression mit logarithmierten Werten • Im linearen Modell beschreibt β1, um welchen absoluten Betrag sich y bei Änderung von x um eine Einheit ändert. Um zu beschreiben, um wie viel Prozent sich y ändert, schätzt man das Modell mit logarithmiertem y. • Hinweis: Auch wenn die Notation "log" verwendet wird, ist der natürliche Logarithmus gemeint. • Beispiel: log(wage) = β0 + β1 educ +u (2.42) % ∆wage ≅ (100 · β1) ∆educ (2.43) 2–60 • Jetzt gibt 100 · β1 an, um wie viel Prozent sich y (bzw. der Lohn) ändert, wenn sich x (bzw. educ) um eine Einheit ändert (Semi-Elastizität) (vgl. A.28). Nun ist die absolute Änderung von y nicht mehr über alle Werte von educ konstant. • Ergebnis: log(wage) = 0,584 + 0,083 educ (2.44) Mit jedem zusätzlichen Ausbildungsjahr (educ) steigt der Lohn um circa 8,3 Prozent. • Mit dem Schätzverfahren lassen sich auch konstante Elastizitäten schätzen (vgl. A.26). 2–61 • Beispiel: log(salary) = β0 + β1 log(sales) + u (2.45) Hier ist β1 die Elastizität des Gehalts des CEO in Bezug auf den Umsatz. Schätzung wie zuvor: log(salary)= 4,822 + 0,257 log(sales) (2.46) n=209, R2= 0,211. Ein Anstieg der Umsätze um 1 Prozent erhöht das Gehalt um 0,257 Prozent. • Schließlich lässt sich abschätzen, wie hoch der absolute Effekt einer relativen Änderung ist. 2–62 • Beispiel: hours = β0 + β1 log(wage) + u β1/100 beschreibt die absolute Änderung in hours bei einer Änderung von wage um ein Prozent. hours = 33 + 45,1 log(wage) ∆hours ≈ (45,1 / 100) % ∆wage Ein Anstieg der Löhne um ein Prozent erhöht die Stundenzahl um 0,451, d.h. 0,451 · 60 = 27,06 Minuten. 2–63 • Warum „lineares Regressionsmodell“? Die Regressionsgleichung y = β0 + β1 x + u ist linear in den Parametern β0 und β1. Logarithmische Variablen sind ebenso zulässig wie Polynome 2–64 oder x oder sin(x). Skalierungen beeinflussen nicht die Schätzung, aber die Interpretation. • Modelle, die nicht-linear in Parametern sind, sind z.B.: 1 oder y = β0 + xβ1 + u +u y= β0 + β1x Solche Modelle behandeln wir nicht. 2–65 Schlüsselbegriffe Kapitel 2: Ceteris paribus Beziehung Einfache Regression Abhängige, erklärte, endogene Variable Regressand Fehlerterm, Störterm Unabhängige, erkl., exogene Variable Regressor Linearer Zusammenhang Steigungsparameter Achsenabschnittsparameter Konstante Mittlere bedingte Unabhängigkeit Ausgelassene Faktoren Grundgesamtheit Bedingter Erwartungswert Bevölkerungs-Regressionsfunktion Gesamte Quadratsumme Erklärte Quadratsumme Residuale Quadratsumme Variation R2 Schätzgüte Stichprobenvariation Stichprobenkorrelationskoeffizient Skalieren Semi-Elastizität Lineares Regressionsmodell Nicht-linear in Parametern Unverzerrtheit Nicht-stochastisch Schätzverfahren vs. –wert 2–66 Systematisch erklärbarer Teil Stichprobe Stichprobenkovarianz Stichprobenvarianz KQ-Schätzwert Residuum Stichproben-Regressionsfunktion Regressionsgerade Vorhersage Homoskedastie Heteroskedastie Konfidenzintervall Teststatistik Standardabweichung Standardfehler der Regression Standardfehler Regression durch den Ursprung Linear in Parametern 2–67 Literatur Kapitel 2: • Wooldridge, Kapitel 2 • Von Auer, Kapitel 3, Kapitel 4 • Hill/Griffiths/Judge, Kapitel 3, Kapitel 4 • Stock/Watson, Kapitel 4 2–68 Kapitel 3: Multiple Regression: Schätzung 3.1 Motivation 3.2 Mechanik und Interpretation des KQ-Schätzers 3.3 Erwartungswert des KQ-Schätzers 3.4 Varianz des KQ-Schätzers 3.5 Gauss-Markov Theorem 3–1 Leitfragen und Lernziele Kapitel 3: • Was spricht gegen die ceteris paribus Interpretation im einfachen Regressionsmodell? • Wie lässt sich das einfache Regressionsmodell auf viele erklärende Variablen hin erweitern? • Welche Eigenschaften hat das KQ-Verfahren und warum ist es so verbreitet? 3–2 3.1 Motivation • Nachteil der einfachen Regressionsanalyse: Annahme SLR.4, E(u X ) = 0 , ist unrealistisch. Daher ist die ceteris paribus Interpretation problematisch. • Multiple Regressionsanalyse berücksichtigt viele Kontrollvariablen, so dass kausale bzw. ceteris paribus Schlussfolgerungen plausibler werden. • Mit mehreren erklärenden Variablen lässt sich eine abhängige Variable besser erklären und voraussagen. 3–3 • Beispiel 1: wage = β0 + β1 · educ + β2 · exper + u (3.1) Nun wird der Effekt der Arbeitsmarkterfahrung (exper) aus dem Störterm herausgelöst und separat mit dem Koeffizienten β2 berücksichtigt. Jetzt kann β1 bei gegebenem Wert für die Arbeitsmarkterfahrung geschätzt werden. • Beispiel 2: avgscore = β0 + β1 · expend + β2 · avginc + u (3.2) Gesucht ist β1, die Auswirkung von Ausgaben der Schulen pro Schüler auf Testerfolge. Da beide Größen vom mittleren Familieneinkommen beeinflusst werden könnten, ist es sinnvoll, den Effekt des Einkommens (avginc) herauszurechnen (β2). 3–4 • Allgemeines Modell mit zwei erklärenden Variablen: y = β0 + β1 x1 + β2 x2 + u (3.3) Wieder misst β0 den Achsenabschnitt, β1 die Änderung in y wenn sich x1 ändert (gegeben x2, d.h. Δx2 = 0) und β2 die Änderung in y wenn sich x2 ändert (gegeben x1, d.h. Δx1 = 0). • Auf diese Weise lassen sich auch nicht-lineare Zusammenhänge abbilden, z.B. cons = β0 + β1 · inc + β2 · inc2 + u , (3.4) cons = Konsumausgaben und inc = Einkommen. Hier können β1 und β2 nicht getrennt voneinander interpretiert werden. Man bestimmt den Gesamteffekt von inc auf cons 3–5 durch die erste Ableitung: Δcons ≈ β1 + 2β2 inc Δinc Beide Parameter sowie das Einkommen spielen eine Rolle. Obwohl cons in nicht-linearer Form von inc abhängt, ist (3.4) ein (in den Parametern) lineares Regressionsmodell. • Zentrale Annahme im Modell mit zwei erklärenden Variablen: E( u x1 ,x 2 ) = 0 , (3.5) d.h. für jedes mögliche Wertepaar (x1, x2) soll der erwartete Wert von u einheitlich Null sein und alle unbeobachteten Determinanten von y hängen nicht mit x1 und x2 zusammen. Diese Annahme ist nicht immer realistisch. Im Beispiel 1 könnten un3–6 beobachtete Fähigkeiten („ability“) sowohl mit dem Lohn als auch mit educ zusammenhängen. Dann wäre der KQ-Schätzer verzerrt. • Frage: Anzahl Kapitalverbrechen = β0 + β1 · Verurteilungswahrscheinlichkeit + β2 · Haftdauer + u. Was könnte in u enthalten sein? Hält Annahme (3.5)? • Allgemeines multiples Regressionsmodell: y = β0 + β1 x1 + β2 x2 + β3 x3 + … + βk xk + u (3.6) Das Modell berücksichtigt k erklärende Variablen und enthält k+1 unbekannte Parameter. Man unterscheidet Achsenab3–7 schnitts- (β0) und Steigungsparameter (β1 bis βk). u enthält alle nicht berücksichtigten Determinanten von y. • Zentrale Annahme ist wieder: E(u x1 ,x 2 ,...,xk ) = 0 (3.8) d.h., dass der Störterm u mit allen erklärenden Variablen unkorelliert ist. Nur dann ist KQ ein unverzerrter Schätzer für die unbekannten Parameter. 3–8 3.2 Mechanik und Interpretation des KQ-Schätzers 3.2.1 Ableitung der KQ-Schätzer • Schreibweise für eine KQ-Schätzung mit 2 erklärenden Variabŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 (3.9) len: • Ableitung des Kleinstquadrate-Schätzers durch Minimieren der quadrierten Residuen. Bei n Beobachtungen werden die Werte für β̂0 , β̂1 und β̂ 2 gesucht, die n ∑ (yi - βˆ 0 - βˆ 1 xi1 - βˆ 2 xi2 )2 (3.10) i=1 minimieren. i ist der Index für die n Beobachtungen. 3–9 • Im allgemeinen Fall sucht man die Parameter β̂0 , β̂1,…, β̂k für ŷi = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 +... + βˆ k xk (3.11) durch Minimieren von (s. Appendix 3A.1): n ∑ (yi - βˆ 0 - βˆ 1 xi1 - βˆ 2 xi2 - ... - βˆ k xik )2 . (3.12) i=1 • Es ergeben sich k+1 Bedingungen erster Ordnung: n ∑ (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0 i=1 n ∑ xi1(yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0 i=1 n ∑ xi2 (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0 i=1 3–10 . . . n ∑ xik (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0 (3.13) i=1 • Diese Bedingungen lassen sich auch über die Annahmen (3.8), E(u)=0 und E(xju)=0 für j=1,2,…,k ableiten, wenn die Bedingungen in (3.13) durch n dividiert werden. In diesem Fall spricht man von einem Momentenschätzer (vgl. Anhang C4). • Momentenschätzer erhält man, wenn man unterstellt, dass Bedingungen, die in der Grundgesamtheit gelten (z.B. Ann. (3.5) 3–11 und (3.8)) auch in der Stichprobe zutreffen. Man spricht von Momentenbedingungen. • Wir erhalten hier die Schätzer für β0,…, βk dadurch, dass wir die k+1 Gleichungen in (3.13) nach den k+1 Parametern anhand der Stichprobendaten auflösen. • Gleichung (3.11) wird als KQ-Regressionsgerade oder Stichproben-Regressionsfunktion bezeichnet. Es ist Standard, einen Achsenabschnittsparameter, β0, mit zu schätzen. 3–12 3.2.2 Interpretation der KQ-Regressionsgleichung • Zwei erklärende Variablen: ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 (3.14) β̂0 ergibt den y-Wert, wenn x1 = x2 = 0 (selten sinnvoll). Die Steigungsparameter beschreiben Δyˆ = βˆ 1 Δx1 + βˆ 2 Δx 2 d.h. wie stark sich y bei Änderungen von x1 und x2 ändert. Bei gegebenem x2, d.h. Δx2 = 0, folgt Δy = βˆ 1 Δx1, bei gegebenem x1, d.h. Δx1 = 0, folgt Δy = βˆ 2 Δx 2 als Partialeffekt von x1 bzw. x2. 3–13 • k erklärende Variablen: ŷ = βˆ 0 + βˆ 1 x1 +... + βˆ k xk (3.16) bzw. Δyˆ = βˆ 1 Δx1 + ... + βˆ k Δxk (3.17) β̂1 beschreibt die Änderung in y, wenn x1 ceteris paribus um eine Einheit steigt oder fällt, Δy = βˆ 1 Δx1 , (3.18) d.h. bei gegebenen Werten für x2, x3,…, xk. • Beispiel: log(wage) = 0.284 + 0.092 educ + 0.0041 exper + 0.022 tenure (3.19) 3–14 educ = Ausbildungsjahre exper = Jahre Arbeitsmarkterfahrung tenure = Jahre Betriebszugehörigkeitsdauer Da die abhängige Variable logarithmiert ist, (Hinweis: Gemeint ist der natürliche Logarithmus) haben die Koeffizienten eine (approximative) Prozentinterpretation. Bei gegebener exper und tenure erhöht ein weiteres Ausbildungsjahr log(wage) um 0,092 bzw. den Lohn um 9,2 Prozent. Dies ist der mittlere Lohnunterschied zweier Personen mit gleichem exper und tenure und mit einem Bildungsunterschied von einem Jahr. 3–15 • Auch der Effekt einer gleichzeitigen Änderung von zwei Variablen lässt sich bestimmen: ∆log(wage) = 0,0041 ∆exper + 0,022 ∆tenure = 0,0041 + 0,022 = 0,0261 hier ca. 2,6 Prozent Lohnzuwachs, wenn sich exper und tenure gleichzeitig um eins ändern. 3–16 3.2.3 Vorhersage • Für jede Beobachtung i ergibt sich nach der Schätzung der vorhergesagte y-Wert wie folgt: ŷi = βˆ 0 + βˆ 1 xi1 + βˆ 2 xi2 +... + βˆ k xik • (3.20) Dies weicht vom beobachteten Wert yi im Ausmaß des Vorhersagefehlers ab. Der KQ-Schätzer minimiert den durchschnittli- chen Vorhersagefehler, das Residuum ûi : uˆ i = yi - yˆ i (3.21) Wenn ûi > 0, wird yi unterschätzt, wenn ûi < 0, überschätzt. 3–17 • Eigenschaften von KQ-Vorhersagen: (1) Der Stichprobendurchschnitt der Residuen ist Null und daher y = ŷ (siehe 3.13) (2) Die Stichprobenkovarianz zwischen jeder unabhängigen Variable und den KQ-Residuen ist Null, daher auch die zwischen den vorhergesagten Werten und den KQ-Residuen (siehe 3.13) (3) Der Punkt ( x 1, x 2,…, x k, y ) liegt immer auf der Regressionsgerade y = βˆ 0 + βˆ 1 x 1 +βˆ 2 x 2 +... + βˆ k x k (wegen (1)). 3–18 • Frage: Eine Schätzung der Collegenote (colGPA) ergibt colGPA = 1,29 + 0,453 hsGPA + 0,0094 ACT, wobei hsGPA = Note Highschool ACT = Testergebnis. Wenn im Mittel hsGPA = 3,4 und ACT = 24,1, wie lautet die mittlere Collegenote? 3–19 3.2.4 KQ-Koeffizienten als partielle Effekte • Eine häufig verwendete Darstellung der Steigungskoeffizienten lautet z.B. für den Fall ŷ = βˆ 0 + βˆ 1x1 + βˆ 2 x 2 n n ˆβ1 = ⎛⎜ ∑ rˆi1yi ⎞⎟ / ⎛⎜ ∑ rˆi12 ⎞⎟ , ⎝ i=1 ⎠ ⎝ i=1 ⎠ (3.22) wobei r̂i1 das Residuum einer Regression von x1 auf x2 ist. • (3.22) besagt, dass sich der Steigungsparameter β̂1 im multiplen Modell als Ergebnis einer Regression von yi auf dieses r̂i1 bestimmen lässt. Dabei beschreibt r̂i1 den Teil der x1 – Variable, 3–20 der nicht durch x2 abgebildet wird. β̂1 beschreibt die partielle Korrelation von x1 mit y, nachdem x2 herausgerechnet wurde. • Auch im allgemeinen Fall mit k erklärenden Variablen gilt (3.22), wobei hier dann r̂i1 das Residuum der Regression von x1 auf alle anderen x2, x3, …, xk bezeichnet. 3–21 3.2.5 Vergleich von einfacher und multipler Regression • Einfache Regression: Multiple Regression : • ~ Grundsätzlich unterscheiden sich β1 und β̂1 , wobei gilt β 1 = βˆ 1 + βˆ 2 δ 1 . (3.23) ~ δ1 ist der Steigungsparameter der einfachen Regression von xi2 auf xi1: • y = β 0 + β 1 x1 ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 xi2 = δ0 + δ1 xi1 + ui ~ β1 und β̂1 sind identisch, wenn entweder β̂2 = 0 , d.h. x2 hat kei~ nen Einfluss auf ŷ oder wenn δ1 = 0 , d.h. x1 und x2 sind in der Stichprobe unkorreliert. 3–22 • Beispiel: Eine Schätzung der Beteiligung von Arbeitnehmern im Pensionsplan eines Unternehmens ergibt prate = 80,12 + 5,52 mrate + 0,243 age n = 1534 prate = Anteil der Beschäftigten, die teilnehmen (0–100) mrate = Rate der Kofinanzierung durch Arbeitgeber (0–1) age = Alter des Pensionsplans (Mittel 13,2) Die Koeffizienten sind wie erwartet positiv. Schätzt man ohne age: prate = 83,08 + 5,86 mrate , ändert sich β̂mrate nur wenig, da die Korrelation zwischen mrate und age klein ist. 3–23 • Bei k erklärenden Variablen ist der Steigungsparameter β1 der einfachen und der multiplen Regression gleich, wenn (a) entweder die Koeffizienten der anderen erklärenden Variablen alle Null sind oder (b) wenn x1 mit keiner der anderen Variablen korreliert ist. Wenn die Koeffizienten oder Korrelationen klein aus~ fallen, kann der Unterschied zwischen β1 und β̂1 klein sein. 3–24 3.2.6 Schätzgüte total sum of squares SSR ∑ (yi - y)2 (3.24) i=1 n ∑ (yˆ i - y)2 (3.25) i=1 n ≡ residual sum of squares SSE n ≡ explained sum of squares SST ≡ • Wie zuvor lässt sich definieren: ∑ uˆ i2 (3.26) • Und es gilt R S S + E S S = T S S i=1 , (3.27) d.h. die gesamte Variation in yi ist die Summe der Variation in ŷ i und in û i . 3–25 Wie zuvor ist R T S S S S 1 = E T S S S S ≡ 2 R • (3.28) der Anteil der durch die KQ-Regression erklärten Variation von y. R2 entspricht dem quadrierten Korrelationskoeffizient zwischen yi und ŷ i . 2 ⎛ n ⎞ ˆ ˆ (y y)(y y) ⎜∑ i ⎟ i i=1 ⎝ ⎠ 2 R = . n n ⎛ ⎞ 2⎞ ⎛ ˆ 2⎟ ⎜ ∑ (yi - y) ⎟ ⎜ ∑ (yˆ i - y) ⎝ i=1 ⎠ ⎝ i=1 ⎠ • (3.29) Werden zusätzliche erklärende Variablen berücksichtigt, kann R2 nie fallen, da der erklärte Anteil von SST nicht fallen kann. 3–26 Daher ist das R2 kein gutes Kriterium, um über die Aufnahme zusätzlicher erklärender Variablen zu entscheiden. Stattdessen prüft man, ob zusätzliche Variablen einen von Null verschiedenen Effekt haben (dazu Kapitel 4). • Beispiel: CollegeNote = 1,29 + 0,453 SchulNote + 0,0094 Test n=141, R2=0,176. Das Modell erklärt 17,6 Prozent der beobachteten Streuung von Collegenoten. • Selbst bei kleinen R2 Werten kann KQ präzise und informative ceteris paribus Effekte bestimmen. 3–27 3.2.7 Schätzung ohne Regressionskonstante • Wird das lineare Modell ohne Regressionskonstante geschätzt, so spricht man von einer Regression durch den Ursprung. Implizit wird β0 gleich Null gesetzt. • Da für den Fall, dass x1 = 0, x2 = 0, …, xk = 0, nimmt ŷ dann den Wert Null an. • Wenn keine Regressionskonstante geschätzt wird, ist nicht mehr gewährleistet, dass der Mittelwert der Residuen Null ist. 3–28 • R2 kann nun negativ werden, wenn es als Anteil 1− SSR defiSST niert ist. Dies lässt sich durch Berechnung von R2 mittels (3.29) vermeiden. • Lässt man β0 irrtümlich aus, können alle Steigungsparameter verzerrt sein. Berücksichtigt man β0, obwohl es eigentlich Null ist, so steigt die Streuung der geschätzten Steigungsparameter. 3–29 3.3 Erwartungswert des KQ-Schätzers 3.3.1 Annahmen und Theorem • Wir betrachten Eigenschaften des KQ-Schätzverfahrens (nicht: von konkreten Schätzergebnissen), wenn mittels Stichprobendaten unbekannte Parameter der Grundgesamtheit geschätzt werden. u + xk βk + . . . + x2 β2 + x1 β1 + β0 = y • Annahme MLR.1: Das Modell für die Grundgesamtheit lautet: , (3.31) 3–30 wobei β0, β1,…, βk konstante unbekannte Parameter und u ein unbeobachtbarer Zufallsfehler oder Störterm ist. • Das Modell ist linear in Parametern. y und die erklärenden Variablen können beliebige Funktionen der zugrundeliegenden Variablen sein (z.B. y = log(wage), x2 = educ2). • Annahme MLR.2: Die Zufallsstichprobe mit n Beobachtungen {(xi1, xi2,…, xik, yi): i= 1,2,…,n} folgt dem Bevölkerungsmodell. ui + k xi βk + . . . + 2 xi β2 + 1 xi β1 + β0 = yi • Für eine zufällige Beobachtung i gilt (3.32) 3–31 • Annahme MLR.3: In Stichprobe und Grundgesamtheit ist keine unabhängige Variable konstant und zwischen den erklärenden Variablen gibt es keine exakten linearen Zusammenhänge (keine perfekte Kollinearität). • Bei perfekter Kollinearität ist KQ-Schätzung nicht möglich. Bei hoher (aber nichtperfekter) Korrelation ist der KQ-Schätzer durchführbar, aber oft unpräzise. • Perfekte Kollinearität ergibt sich beispielsweise, wenn die gleiche Variable in verschiedenen Einheiten verwendet wird. 3–32 • Beispiel: - Eisumsatz = β0 + β1 Grad C + β2 Grad F + … - Lohn = β0 + β1 Jahre Studium + β2 Semester Studium +… - PKW Umsatz = β0 + β1 Werbungskosten in € + β2 Werbungskosten in $ + … • Quadratische Berücksichtigung von erklärenden Variablen (s.o. x1 = income, x2 = income2) ist unproblematisch, da hier x2 keine lineare Funktion von x1 ist. 3–33 • Perfekte Kollinearität ergibt sich auch, wenn mehrere Variablen linear abhängig sind, z.B. wenn x1 + x2 = x3. Lösung: eine der drei Variablen auslassen. • Beispiel: - Lohn = β0 + β1 Alter + β2 Geburtsjahr + β3 Kalenderjahr + u Da Kalenderjahr – Geburtsjahr = Alter, so nicht schätzbar. • Ebenfalls nicht schätzbar, wenn n < k+1. • MLR.3 kann auch zufällig, durch unglückliche Datenkonstellation nicht zutreffen. 3–34 • Annahme MLR.4: Der Fehlerterm u hat – bedingt auf alle erklärenden Variablen – einen Erwartungswert von 0. E(u x1 ,x 2 ,...,xk ) = 0 (3.36) • Annahme MLR.4 trifft nicht zu, wenn (a) funktionale Form falsch spezifiziert ist und der Störterm z.B. noch x12 enthält, (b) log und lineare Form nicht angemessen berücksichtigt sind, (c) wichtige erklärende Variablen ausgelassen werden, die mit den berücksichtigten Variablen korreliert sind, 3–35 (d) Messfehler in einer erklärenden Variable vorliegen. Trifft MLR.4 zu, so sprechen wir von exogenen erklärenden Variablen. Ist xj mit u korreliert, so ist xj endogen. • Theorem 3.1 (Unverzerrtheit des KQ-Schätzers): Unter MLR.1 – MLR.4 gilt E(β̂ j ) = β j , j= 0,1,…,k (3.37) für alle Werte des Bevölkerungsparameters βj, d.h. KQSchätzer sind unverzerrt. • Wichtigste Annahme: MLR.4, aber nicht überprüfbar. 3–36 • Unverzerrtheit beschreibt das Verfahren, nicht konkrete Ergebnisse. 3–37 3.3.2 Auswirkungen von Fehlspezifikationen • Berücksichtigung irrelevanter erklärender Variablen (mit Bevölkerungsparameter von 0): geschätzt: y = β0 + β1 x1 + β2 x 2 + β3 x3 + u ; (3.38) wenn β3 = 0, dann E(y x1 ,x 2 ,x3 ) = E(y x1,x 2 ) =β0 + β1 x1 + β2 x 2 . • β0, β1 und β2 werden unverzerrt geschätzt, aber mit zu großen Varianzen. 3–38 • Auslassen relevanter erklärender Variablen führt zu verzerrten KQ-Schätzern. • Wahres Modell: u + x2 β2 + x1 β1 + β0 = y erfüllt MLR.1-4 (3.40) (3.41) Geschätztes Modell: y = β 0 + β 1 x1 β 1 = βˆ 1 + βˆ 2 δ 1, wobei β̂1 und β̂ 2 geschätzte Wir wissen Steigungsparameter der multiplen Regression von yi auf xi1 und xi2, i = 1, 2, …, n sind. • δ 1 ist der Steigungsparameter der Regression von xi2 auf xi1. 3–39 ~ • Unter der Annahme, dass δ1 fix ist und KQ β̂1 und β̂ 2 unverzerrt schätzt, folgt E(β 1) = E(βˆ 1 + βˆ 2 δ 1 ) = E(βˆ 1 ) + E(βˆ 2 ) ⋅ δ 1 = β1 + β2 ⋅ δ 1 Bias(β ) = E(β ) - β = β ⋅ δ , so dass 1 1 1 2 1 (3.45) (3.46) was als „omitted variable bias“ bezeichnet wird. ~ • Nur wenn β2 = 0 oder δ1 = 0, d.h. wenn x2 nicht ins Modell gehört oder nicht mit x1 korreliert ist, führt Auslassen nicht zu Verzerrung. • Die Richtung der Verzerrung ergibt sich aus Tabelle 3.2: 3–40 • Vorzeichen von β2 in der Regel unbekannt, aber ebenso ab~ schätzbar wie das von δ1. • Beispiel 1: wage = β0 + β1 educ + β2 ability + u Vermutung: β2>0 und corr(educ,ability)>0. β1 aus Schätzung: 3–41 wage = β0 + β1 educ + ν sollte im Mittel über viele Stichproben überschätzt sein. • Beispiel 2: avgscore = β0 + β1 expend + β2 povertyrate + u: geschätzt wurde: avgscore = β0 + β1 expend + ν Vermutung: β2<0 und corr(expend,povrate)<0. Vermutlich β1 überschätzt (z.B. Effekt positiv, wenn eigentlich = 0). • Multiples Regressionsmodell mit k>2: Korrelation zwischen erklärender Variable und Fehler führt im Normalfall zu Verzerrung für alle KQ-Parameter: 3–42 • Beispiel: Ann. wahres Modell: y = β0 + β1 x1 + β2 x 2 + β3 x3 + u Geschätztes Modell: y = β 0 + β 1 x1 + β 2 x 2 (3.49) (3.50) • Wenn x3 und x1 korreliert sind, ist β 1 verzerrt. Wenn x3 und x2 nicht korreliert sind, ist β 2 dann verzerrt, wenn lediglich x2 mit x1 korreliert ist. • Bei k > 2 ist es schwierig, die Richtung der Verzerrung zu bestimmen. 3–43 3.4 Varianz des KQ-Schätzers • Ziel: Aussagen zur Streuung der geschätzten Parameter β̂ j . • Große Varianz impliziert geringe Präzision und breite Konfidenzintervalle. • Annahme MLR.5: Der Fehlerterm u hat für alle Werte der erklärenden Variablen die gleiche Varianz (Homoskedastie), Var(u x1 ,..., x k ) = σ2 . • Variiert die Varianz von u mit einer der erklärenden Variablen, spricht man von Heteroskedastie. 3–44 • Die Annahmen MLR.1–5 werden als Gauss-Markov Annahmen bezeichnet. • Theorem 3.2 (Stichprobenvarianz des KQ-Steigungsparameters): Unter MLR.1–5 und bedingt auf die Stichprobenwerte der erklä2 σ , renden Variablen gilt Var(βˆ j ) = SSTj (1- R2j ) n für j = 1,2,…k, wobei SSTj = ∑ (xij - x j )2 die Stichprobenvai=1 riation von xj ist und Rj2 der R2-Wert einer Regression von xj 3–45 auf alle anderen unabhängigen Variablen (einschließlich eines Achsenabschnittsparameters). • Einflussfaktor σ 2 : Je größer die unbekannte Streuung von u in der Grundgesamtheit, umso größer Var(β̂ j ) . Bei gegebenem y lässt sich σ 2 nur reduzieren, indem weitere relevante erklärende Variablen ins Modell und damit aus dem Fehlerterm genommen werden. • Einflussfaktor SSTj: Je größer die Streuung von xj, umso kleiner Var(β̂ j ) . Die Variation von xj wächst mit steigendem Stichprobenumfang. 3–46 • Frage: Könnte SSTj = 0 sein? • Einflussfaktor Rj2: Ein hoher Rj2-Wert zeigt an, dass ein großer Teil der Variation in xj durch die anderen erklärenden Variablen im Modell erklärt werden kann. Daher leistet xj dann nur einen geringen zusätzlichen Beitrag zur Erklärung von y. βj hat die kleinstmögliche Varianz und größtmögliche Präzision, wenn Rj2 = 0, d.h. wenn xj nicht durch die anderen unabhängigen Variablen linear abgebildet werden kann. Rj2 = 1 ist nach Annahme MLR.3 nicht zulässig (perfekte Multikollinearität), bei Rj2 „nahe 1“ spricht man von Multikollinearität, was zulässig ist. 3–47 • Bei Multikollinearität können die Parameter nicht präzise geschätzt werden, d.h. die Standardfehler sind groß. • Multikollinearität kann durch größere Stichproben oder gekürzte Modellspezifikationen behoben werden. • Frage: Welchen Einfluss hat eine hohe Korrelation zwischen den Variablen x2 und x3 auf die Varianz der Schätzung von β1? • Berücksichtigung irrelevanter Variablen erhöht die Varianz der ~ geschätzten Parameter. Vorausgesetzt β1 und β̂1 sind unver~ zerrt, sagen wir β1 ist effizienter als β̂1, wenn gilt 3–48 ( ) ( ) Var β 1 |x < Var βˆ 1 |x . • Schätzung von σ 2 : Für einen unverzerrten Schätzer von σ 2 auf Basis der quadrierten Störterme ist eine Korrektur der Freiheitsgrade erforderlich, da nicht die Störterme der Bevölkerung, 1 R k S S n = 1 2i u k 1n = i n = 2 σ sondern die geschätzten Residuen einer Stichprobe vorliegen: ˆ ∑ˆ (3.56) • Theorem 3.3 (Unverzerrte Schätzung von σ2): Unter den Gauss-Markov Annahmen MLR.1–5 gilt: E(σˆ 2 ) = σ 2 . 3–49 • σ̂ wird als Standardfehler der Regression bezeichnet (SER). • Standardabweichung (standard deviation) von β̂ j : σ sd(βˆ j ) = 1 2 ⎡SSTj (1- R j )⎤ 2 ⎣ ⎦ Standardfehler (standard error) von β̂ j : σ̂ se(βˆ j ) = 1 2 2 ⎡SSTj (1- R j )⎤ ⎣ ⎦ (3.58) Der Standardfehler von β̂ j ist (ebenso wie β̂ j selbst) eine Zufallsvariable mit Verteilungseigenschaften. 3–50 • (3.58) ist nicht gültig, wenn die Homoskedastieannahme MLR.5 verletzt ist. Unter Heteroskedastie sind die KQ- Parameterschätzer unverzerrt, aber die nach (3.58) berechneten KQ-Standardfehler sind falsch. 3–51 3.5 Gauss-Markov Theorem • Begründet Verwendung des KQ-Schätzers. Unter MLR.1–4 ist KQ unverzerrt, aber es gibt viele Schätzverfahren mit dieser Eigenschaft. • Theorem 3.4 (Gauss-Markov Theorem): β̂0 , β̂1,…, β̂k benennen die KQ-Schätzer im Modell y = β0 + β1 x1 + β2 x2 +…+ βk xk +u. Unter den Annahmen MLR.1–5 sind β̂0 , β̂1,…, β̂k die besten linearen unverzerrten Schätzer für β0, β1,…, βk (BLUE). 3–52 • Unter den Annahmen MLR.1–5 ist KQ das beste, lineare, un- verzerrte Schätzverfahren (best linear unbiased estimator = BLUE), d.h. der lineare, unverzerrte Schätzer mit der kleinsten Varianz. • MLR.1–5 werden Gauss-Markov Annahmen (für Querschnitts- analysen) genannt. 3–53 Schlüsselbegriffe Kapitel 3: Multiple Regression Lineares Regressionsmodell Bedingungen erster Ordnung Momentenschätzer Momentenbedingungen Stichproben-Regressionsfunktion Partialeffekt Kontrollvariable Vorhersagefehler Residuum SST, SSE, SSR R2 Schätzgüte Regression durch den Ursprung Bevölkerungsparameter Unverzerrtheit Irrelevante erklärende Variable Omitted variable bias Präzision Konfidenzintervall Homoskedastie Heteroskedastie Gauss-Markov Theorem Stichprobenvariation (Perfekte) Multikollinearität Effizient Standardfehler der Regression Standardabweichung von β̂ j Bevölkerungsmodell Standardfehler von β̂ j 3–54 Perfekte Kollinearität Lineare Abhängigkeit Messfehler Exogene erklärende Variable Endogende erklärende Variable Gauss-Markov Theorem Best linear unbiased estimator BLUE Linearer Schätzer Partielle Effekte 3–55 Literatur Kapitel 3: • Wooldridge, Kapitel 3 • Von Auer, Kapitel 8, Kapitel 9 • Hill / Griffiths / Judge, Kapitel 7 • Stock / Watson, Kapitel 6 3–56 Kapitel 4: Multiple Regression: Inferenz 4.1 Stichprobenverteilung des KQ-Schätzers 4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test 4.3 Konfidenzintervalle 4.4 Hypothesentests zu Linearkombinationen von Parametern 4.5 F-Tests für mehrere lineare Restriktionen 4.6 Präsentation von Schätzergebnissen 4–1 Leitfragen und Lernziele Kapitel 4: • Wie kommt man auf Basis von KQ-Schätzungen zu weiterführenden Aussagen über die Grundgesamtheit? • Wie führt man Hypothesentests durch und welche Gestaltungsmöglichkeiten ergeben sich dafür? • Worin unterscheiden sich Punkt- und Intervallschätzer? • Was ist bei der Darstellung von Schätzergebnissen zu beachten? 4–2 4.1 Stichprobenverteilung des KQ-Schätzers • Kapitel 3 behandelte Erwartungswert (Stichwort: Verzerrung) und Varianz (Stichwort: Präzision und Effizienz) von KQSchätzern, nicht die vollständige Verteilungsfunktion. • Die Stichprobenverteilung des KQ-Schätzers folgt der Verteilung der Störterme. Daher: • Annahme MLR.6: Der Störterm der Grundgesamtheit, u, ist unabhängig von den erklärenden Variablen x1, x2,…, xk und normalverteilt mit Erwartungswert Null und Varianz σ2: u ~ Normal(0, σ2). 4–3 • Die Annahme der Unabhängigkeit ist sehr stark und schließt die Aussagen von E(u x1 ,...,xk ) = E(u) = 0 MLR.4: MLR.5: • Var(u x1 ,..., xk ) = Var(u) = σ 2 sowie ein. Wenn u von x1, x2,…, xk unabhängig ist, hat u an jeder Ausprägung von x1, x2,…, xk die gleiche Verteilung. • MLR.1–MLR.6 werden als Annahmen des klassischen linearen Modells (CLM) bezeichnet, d.h. Gauss-Markov Annahmen plus Normalverteilung. 4–4 • Unter den CLM-Annahmen hat der KQ-Schätzer für β̂0 , β̂1,…, β̂k die kleinste Varianz aller unverzerrten Schätzer, die Linearitätsrestriktion des Gauss-Markov Theorems kann entfallen. • Theorem 4.1 (Normalverteilung): Unter den Annahmen MLR.1–MLR.6 und bedingt auf die tatsächlich beobachteten Werte der unabhängigen Variablen, ist (4.1) βˆ j ~ Normal(β j ,Var(βˆ j )) Für standardisierte Schätzer gilt: (βˆ j - β j ) sd(βˆ j ) ~ Normal(0,1), wobei sd für Standardabweichung (standard deviation) steht. 4–5 • Frage: Angenommen, u ist von den erklärenden Variablen unabhängig und nimmt mit gleicher Wahrscheinlichkeit 1/5 die Werte -2, -1, 0, 1 und 2 an. Verletzt dies die Gauss-Markov Annahmen? Verletzt es die CLM-Annahmen? 4–6 4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test 4.2.1 Allgemeines u + xk βk + . . . + x1 β1 + β0 = y • Bevölkerungsmodell: • Ann.: CLM-Annahmen treffen zu. Dann erzeugt KQ unverzerrte (4.2) Schätzer für βj. • Um Hypothesen bezüglich der wahren, aber unbekannten Bevölkerungsparameter zu testen, benötigen wir: 4–7 • Theorem 4.2 (t-Verteilung standardisierter Schätzer): Unter den Annahmen MLR.1–MLR.6 gilt (βˆ j - β j ) se(βˆ j ) ~ tn-k-1 , (4.3) wobei k+1 die Anzahl der unbekannten Parameter im Bevölkerungsmodell sind (k Steigungs- und ein Achsenabschnittsparameter, β0). • Theorem 4.2 unterscheidet sich von 4.1, da û und σ̂ 2 statt der wahren Bevölkerungswerte u und σ2 verwendet werden. Die so standardisierten Parameterschätzer folgen nicht der Normal-, sondern der t-Verteilung. 4–8 • Hypothesentests beginnen mit der Nullhypothese, z.B.: H0: βj = 0 (4.4) Sie besagt hier, dass ceteris paribus, d.h. nach Kontrolle der anderen betrachteten erklärenden Variablen (x1, x2, …, xj-1, xj+1, …, xk), xj keinen partiellen Effekt auf y hat. • Die Nullhypothese wird so formuliert, dass man etwas lernt, indem man sie verwirft. H0: „xj hat einen Effekt“ wäre nicht informativ. • Sie bezieht sich auf den wahren, unbekannten Bevölkerungsparameter. 4–9 • Beispiel: log(wage) = β0 + β1 educ + β2 exper + β3 tenure + u Hier besagt H0: β2 = 0, dass ceteris paribus die Arbeitsmarkterfahrung keinen Einfluss auf den Lohn hat. Falls β2 > 0, wirkt sich höhere Erfahrung bspw. durch höhere Produktivität auf den Lohn aus. • Um die Nullhypothese (4.4) zu testen, benötigen wir eine Test- ≡ statistik. In diesem Fall nutzen wir die t-Statistik, den t-Wert tβˆ βˆ j se(βˆ j ) (4.5) von β̂j : j Die Berechnung ist einfach und wird meist schon von der Software vorgenommen. 4–10 • Der Schätzwert von β̂ j wird nie genau Null sein, daher stellt sich die Frage, ab wann β̂ j weit genug von Null entfernt ist, um H0 zu verwerfen. Der t-Wert beschreibt, um wie viele Standardfehler von β̂ j der Schätzwert von Null entfernt ist. Je größer t, umso unwahrscheinlicher wird, dass H0 gilt. • Um eine Ablehnungsregel für H0 festlegen zu können, müssen wir das Signifikanzniveau, die Verteilung der Teststatistik und die Alternativhypothese kennen. • Bei Hypothesentests kann man zwei Arten von Fehlern machen: Verwirft man H0, obwohl H0 zutrifft, spricht man vom Typ 4–11 1-Fehler. Verwirft man H0 nicht, obwohl H0 falsch ist, spricht man vom Typ 2-Fehler. • Ob ein Fehler vorliegt, lässt sich mit Stichprobendaten nicht feststellen. Die Wahrscheinlichkeit von Typ 1- und Typ 2Fehlern lässt sich jedoch beschreiben. Die Wahrscheinlichkeit eines Typ 1-Fehlers nennt man Signifikanzniveau α: α = P (reject H0 H0 true) (C.30) α wird vor einem Test auf Werte wie 0,10, 0,05 oder 0,01 festgelegt. 4–12 • Wählt man α = 0,05, so ist man bereit, in 5% aller Fälle die H0 zu verwerfen, obgleich sie zutrifft. • Um die Ablehnungsregel für H0 formulieren zu können, müssen wir wissen, wie der t-Wert in Stichproben verteilt ist, wenn H0 wahr ist. Theorem 4.2 besagt, dass der wie in (4.5) berechnete t-Wert der tn-k-1-Verteilung folgt. • Die Ablehnungsregel hängt von der Alternativhypothese (H1) ab, für die wir zwei Fälle unterscheiden, einseitige und zweiseitige Alternativhypothesen. 4–13 4.2.2 Tests gegen einseitige Alternativhypothesen • Eine einseitige Alternativhypothese ist z.B.: H1: βj > 0 (4.6) Man schließt aus, dass der wahre Wert βj < 0 sein könnte (oder formuliert H0: βj ≤ 0). • Nun ist die Ablehnungsregel zu wählen. Unterstellen wir zunächst α = 0,05, d.h. mit einer Wahrscheinlichkeit von 5% begehen wir einen Typ 1-Fehler. • Unter H0: βj = 0 (bzw. H0: βj ≤ 0) folgt t β̂ j der t-Verteilung mit Erwartungswert Null. Unter H1: βj > 0 ist der Erwartungswert von 4–14 t β̂ j > 0. Ab einem bestimmten kritischen positiven Wert von t β̂ j ist es sehr unwahrscheinlich, dass H0 zutrifft. Wir verwerfen H0 zugunsten von H1, wenn t β̂ j diesen positiven kritischen Wert übersteigt. Ist t β̂ j negativ, stützt das nicht die Alternativhypothese. • Unter der Annahme von α = 0,05 liegt der kritische Wert, den wir c nennen, am 95. Perzentil der tn-k-1-Verteilung. • Verteilung der t-Statistik unter H0: βj ≤ 0, H1: βj > 0 bei α = 0,05: 4–15 4–16 • Die Ablehnungsregel lautet: Verwerfe H0 zugunsten von H1 am 5% Signifikanzniveau, wenn t β̂ j > c. (4.7) Die Regel besagt, dass wir – selbst wenn H0 zutrifft – die Nullhypothese für 5 Prozent aller Stichproben verwerfen. • Um c zu berechnen, brauchen wir α und n-k-1. • Beispiel 1: α = 0,05 n-k-1 = 28, dann ergibt sich aus Tabelle G.2: cα=0,05;28 = 1.701 4–17 Tabelle G.2 Critical Values of the t Distribution Significance Level Degees of Freedom 1-Tailed: 2-Tailed: .10 .20 .05 .10 .025 .05 .01 .02 .005 .01 1 2 3 4 5 6 7 8 9 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 26 27 28 29 30 40 60 90 120 ∞ 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.291 1.289 1.282 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.662 1.658 1.645 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.987 1.980 1.960 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.368 2.358 2.326 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.632 2.617 2.576 4–18 Wenn t β̂ j < 1,701, kann H0 am 5%-Niveau nicht zugunsten von H1 verworfen werden (z.B. bei allen negativen Werten für t β̂ j ). • Graphische Darstellung der t-Verteilung mit kritischem Wert für einseitigen Test, bei α = 0,05 und n – k – 1 = 28: 4–19 4–20 • • Beispiel 2: α = 0,1 n-k-1 = 27 jetzt c = 1,314. α = 0,01 n-k-1 = 27 jetzt c = 2,473. Der kritische Wert c wird umso höher, je kleiner α (in Abbildung 4.2 verschiebt sich c nach rechts). Dadurch sinkt die Wahrscheinlichkeit, H0 (fälschlicherweise) zu verwerfen. Eine Nullhypothese, die am 10%-Niveau verworfen wurde, muss am 5%Niveau nicht verworfen werden. Aber eine H0, die bereits am 5%-Niveau verworfen wurde, wird immer auch am 10%-Niveau verworfen. 4–21 • Je höher n-k-1, umso ähnlicher wird die t-Verteilung der Normalverteilung. • Beispiel: Wir erhalten als Schätzergebnis (Standardfehler in Klammern) (beachte: der natürliche Logarithmus ist gemeint) log(wage) = 0,284 + 0,092 educ + 0,0041 exper + 0,022 tenure (0,104) (0,007) (0,0017) (0,003) n = 526, R2 = 0,316 H0: βexper ≤ 0 H1: βexper > 0 n-k-1 = 526 – 3 – 1 = 522 0,0041 ≈ 2,41 texper = 0,0017 cα=0,05 = 1,645 cα=0,01 = 2,326 4–22 Da texper > cα=0,01, muss H0 verworfen werden. βexper ist am 1%Niveau größer als Null, auch wenn der Koeffizient nicht groß ist. Ceteris paribus erhöht ein Jahr Erfahrung den log-Lohn um 0,0041 und den Lohn um 0,41 Prozent. • H1: βj < 0 Einseitige Tests mit (4.8) werden genauso durchgeführt. Die Ablehnungsregion der H0 ist nun auf der linken Seite der t-Verteilung und die Ablehnungsre- t β̂ < -c (statt tβˆ j > c ), gel lautet (4.9) j wobei c wieder der kritische Wert ist, den wir als positiven Wert unterstellen. 4–23 • Beispiel : α = 0,05 n-k-1 = 18 H0: βj = 0 (bzw. H0: βj ≥ 0) cα=0,05;18 = 1,734 H1: βj < 0 Ablehnungsregel: t β̂ < -1,734 j Wenn t positiv ist, kann H0 nicht verworfen werden. • Graphische Darstellung: 4–24 4–25 4.2.3 Tests gegen zweiseitige Alternativen • Wir prüfen, ob sich βj signifikant von Null unterscheidet, ohne die Richtung der Abweichung festzulegen. H0: βj = 0 gegen H1: βj ≠ 0 (4.10) • Ablehnungsregel jetzt: • Wählt man α = 0,05, so wird bei zweiseitigen Tests c so ge- t β̂ > c j (4.11) wählt, dass auf jeder Seite der t-Verteilung die Ablehnungsregion 2,5% umfasst. c hat den Wert des 97,5. Perzentils der tVerteilung. 4–26 • Beispiel: α = 0,05 n-k-1 = 25 cα=0,05;25 = 2,060 (vgl. oben, Tabelle G.2) • Graphische Darstellung: 4–27 4–28 • Sprachregelung: Verwirft man die H0: βj = 0 am α-Signifikanzniveau im zweiseitigen Test, so sagt man: xj ist am α-Niveau statistisch signifikant (von Null verschieden). Wird H0 nicht verworfen, sagt man xj ist insignifikant (am α-Niveau). • Beispiel : colGPA = 1,39 + 0,412 hsGPA + 0,015 ACT – 0,083 skipped (0,33) (0,094) (0,011) (0,026) n = 141, R2 = 0,234 colGPA = Notendurchschnitt College hsGPA = Notendurchschnitt Highschool 4–29 ACT = Ergebnis eines Uni-Zugangstests skipped = Anzahl verpasster Vorlesungen Welche erklärenden Variablen sind am 5% Niveau signifikant? cα=0,05 ≅ 1,96 (cα=0,01 ≅ 2,576) 0,412 = 4,38 > c hochsignifikant auch am 1% Niveau, 0,094 0,015 = = 1,36 < 1,96 insignifikant und kleiner Effekt. 0,011 0,0833 = = 3,19 > 2,576 hochsignifikanter negativer Ef0,026 thsGPA = tACT t skipped fekt. 10 verpasste Vorlesungen reduzieren – ceteris paribus – den Notendurchschnitt um 0,83. 4–30 4.2.4 Andere Hypothesen zu βj • Gelegentlich interessiert nicht nur statistische Signifikanz, sondern, ob βj einen konkreten Wert aj annimmt, z.B. βj = 1. H0: βj = aj • (4.12) In diesem Fall lautet die t-Statistik, die wieder misst, um wie viele Standardabweichungen β̂ j vom unterstellten Wert entfernt (βˆ j - a j ) ist: t β̂ = j se(βˆ j ) Unter H0 folgt t βˆ der t-Verteilung mit n-k-1 Freiheitsgraden. j 4–31 • Der Test wird genau wie zuvor durchgeführt, nur die Berechnung der t-Statistik ändert sich: Einseitig z.B.: H0: βj ≤ 1 gegen H1: βj > 1 (βˆ j − 1) . tβˆ = j se(βˆ j ) Wird H0 verworfen, sagt man β̂ j ist signifikant größer als 1. H0: βj = -1 gegen H1: βj ≠ -1 1 j + β e βj s = j tβ Zweiseitig z.B.: ˆ (ˆ ) (ˆ ). 4–32 H0 verwerfen, wenn t > c, dann ist β̂ j signifikant von -1 verschieden. • Beispiel: log(price) = 11,08 – 0,954 log(nox) – 0,134 log(dist) (0,32) (0,117) (0,043) + 0,255 rooms – 0,052 stratio (0,019) (0,006) n = 506 (Stadtviertel in Boston), R2 = 0,581 price = Median Hauspreis im Stadtviertel nox = Ausmaß der Luftverschmutzung dist = mittlere Distanz zu 5 Arbeitgebern 4–33 rooms = mittlere Hausgröße stratio = Schüler-Lehrer-Verhältnis der Schule β1: Elastizität der Hauspreise bezüglich Luftverschmutzung H0: β1 = -1 gegen H1: β1 ≠ -1, cα=0,05; 501 ≈ 1,96 t = (-0,954 + 1) / 0,117 = 0,393 < c H0 kann nicht verworfen werden, die Elastizität ist nicht signifikant von -1 verschieden. 4–34 4.2.5 p-Werte • Bislang haben wir willkürlich α festgelegt und daraufhin c bestimmt. Die Wahl der α-Werte kann manipuliert sein. Will man z.B. stützen, dass βj = 0 ist, so wählt man ein möglichst kleines α (hohes Signifikanzniveau), da dann die Wahrscheinlichkeit sinkt, H0: βj = 0 zu verwerfen. • Der p-Wert gibt an, was der kleinstmögliche α-Wert bzw. das größtmögliche Signifikanzniveau wäre, zu dem H0: βj = 0 gerade noch verworfen würde. Wenn im Beispiel H0 bei α = 0,1 ver4–35 worfen wird, bei α = 0,05 nicht, könnte der p-Wert 0,07 betragen. • Der p-Wert ist das Signifikanzniveau des Tests, bei dem der berechnete tatsächliche t-Wert der kritische Wert ist. • Beispiel: n-k-1 = 40 H0: βj = 0 H1: βj ≠ 0 t β̂ j = 1,85 Wenn α/2 = 0,025, dann cα=0,05;40 = 2,021; H0 nicht verworfen. Wenn α/2 = 0,05, dann cα=0,1;40 = 1,684; H0 verworfen. 4–36 4–37 • p-Werte werden in der Regel von der Software für H0: βj = 0 angegeben oder lassen sich berechnen. Es gilt p = P( T > t ), (4.15) d.h. p ist die Wahrscheinlichkeit, dass eine t-verteilte Zufallsvariable T betragsmäßig den empirischen t-Wert übersteigt. • Beispiel: p-Wert = P( T > 1,85) = 2 · P(T > 1,85) = 2 · 0,0359 = 0,0718 Unter H0 beobachtet man einen t-Wert mit dem Betrag von mindestens 1,85 in 7,18 Prozent aller Fälle. • Kleine p-Werte sind Evidenz gegen H0, große gegen H1. 4–38 • p-Werte lassen sich auch für einseitige Hypothesentests berechnen. • Beispiel: H0: βj ≤ 0 gegen H1: βj > 0 Wenn β̂ j < 0, muss p > 0,50 und H0 kann nicht verworfen werden. Wenn β̂ j > 0, dann t > 0 und p ist die Wahrscheinlichkeit, eine Realisation der t-verteilten Zufallsvariable oberhalb dieses Wertes zu finden. • Frage: Angenommen, β̂1 = 0,56 und der p-Wert für H0: β1 = 0 gegen H1: β1 ≠ 0 beträgt 0,086. 4–39 Wie lautet der p-Wert für H0: β1 = 0 (bzw. H0: β1 ≤ 0) gegen H1: β1 > 0 ? • Sprachregelung: Nullhypothesen werden verworfen oder nicht verworfen, nie akzeptiert. Begründung: Eine nicht verworfene Nullhypothese muss nicht korrekt sein (Typ 2-Fehler), daher sollte man sie nicht „akzeptieren“. • Im Beispiel der Hauspreise haben wir H0: β1 = -1 nicht verworfen. Aber genauso wenig könnten wir H0: β1 = -0,9 verwerfen. Dann: t = (-0,954 + 0,9) / 0,117 = -0,462 < c. 4–40 4.2.6 Bedeutung von Signifikanz • Statistische Signifikanz ergibt sich, wenn der Koeffizient im Verhältnis zu seinem Standardfehler ausreichend groß ist (entweder, weil β̂ j groß, oder se(β̂ j ) klein ist). Man spricht von ökonomischer Signifikanz, wenn der Koeffizient groß ausfällt, un- abhängig davon, wie präzise er geschätzt wurde. • Die Größe der Standardfehler wird auch von der Stichprobengröße bestimmt. Große Stichproben führen in der Regel zu präzisen Schätzern mit kleinen Standardfehlern und großen tStatistiken (vgl. 3-58). Das bedeutet nicht, dass alle Variablen 4–41 „wichtig“ sind. Um die Bedeutung eines xj für y zu beurteilen, muss man βj, den marginalen Effekt, betrachten. Manche Wissenschaftler wählen bei steigenden Stichprobengrößen kleinere α-Werte. • Beispiel: Bachelor-Jahreseinkommen (in 1000€) = 22,3 + 13,7 BWL + 0,72 SoWi + 17,2 empWifo (2,2) (10,1) (0,01) (1,4) H1: βj ≠ 0 α = 0,05 n = 1200 c = 1,96 H0: βj = 0 tBWL = 13,7 = 1,356 nicht statistisch, aber ökonomisch signifikant 10,1 4–42 tSoWi = 0,72 = 72 statistisch, aber nicht ökonomisch signifikant tempWifo 0,01 = 17,2 = 12,29 statistisch und ökonomisch signifikant 1,4 4–43 4.3 Konfidenzintervalle • Konfidenzintervalle um die Punktschätzer für die Bevölke- rungsparameter βj sind Intervallschätzer und lassen sich unter den Annahmen MLR.1–MLR.6 wie folgt ableiten. Am Signifikanzniveau α erwarten wir, dass folgende Aussage mit 2 j ≤ ≤ Wahrscheinlichkeit 1-α zutrifft: β̂ j - β j -t α ,n-k-1 se(βˆ ) tα 2 ,n-k-1 4–44 β̂ j - β j se(βˆ ) ≤ ≤ -c c j • ≤ ≤ βˆ j - c ⋅ se(βˆ j ) β j βˆ j + c ⋅ se(βˆ j ) Konfidenzintervalle sind vorsichtig zu interpretieren: Würde man die Berechnung der Intervallgrenzen für viele Stichproben wiederholen, dann würde in 1-α Prozent aller Fälle der wahre Bevölkerungsparameter βj innerhalb der Intervallgrenzen liegen. Für einzelne, konkret berechnete Konfidenzintervalle gilt diese Aussage nicht. 4–45 • Die Berechnung ist unkompliziert: Wenn n-k-1 = 25, α = 0,05 ergibt sich cα=0,05;25 = 2,06, so dass [β̂ j − 2,06 ⋅ se(β̂ j ), β̂ j + 2,06 ⋅ se(β̂ j )]. • Je größer α, umso enger ist das Konfidenzintervall, d.h. Konfidenzintervall bei α = 0,1 ist enger als bei α = 0,01. • Intervallschätzer sind nur informativ, wenn Folgendes beachtet wird: (a) ausgelassene erklärende Variablen verzerren β̂ j , 4–46 (b) bei Heteroskedastie sind die se(β̂ j ) falsch, (c) ohne Normalverteilung stimmen die Werte für c nicht. 4–47 4.4 Hypothesentests zu Linearkombinationen von Parametern • Gelegentlich beziehen sich einzelne Hypothesen auf mehr als ein βj. • Beispiel: Haben Junior-College (jc) und Universitätsabschlüsse die gleiche Lohnwirkung? log(wage) = β0 + β1 jc + β2 univ + β3 exper + u jc (4.17) = Ausbildungsjahre am Junior-College univ = Ausbildungsjahre an der Universität exper = Monate Arbeitsmarkterfahrung 4–48 H0: β1 = β2 , (bzw. H0: β1 ≥ β2 ) (4.18) H1: β1 < β2 (4.19) Die t-Statistik lässt sich auch für 2 Parameter aufstellen: βˆ 1 - βˆ 2 t= (4.20) ˆ ˆ se(β - β ) 1 2 Der Zähler lässt sich mit den Schätzergebnissen leicht berechnen, problematisch ist der Nenner. log(wage) = 1,472 + 0,0667 jc + 0,0769 univ + 0,0049 exper (0,021) (0,0068) (0,0023) (0,0002) (4.21) n = 6763, R2 = 0,222 β̂1 – β̂ 2 = 0,0667 – 0,0769 = -0,0102, 4–49 d.h. ein Jahr Uni erhöht die Löhne im Mittel und ceteris paribus um 1,02 Prozentpunkte mehr als ein Jahr Junior-College. Den Standardfehler der Differenz müssen wir über ihre Varianz berechnen: Var(βˆ 1 - βˆ 2 ) = Var(βˆ 1 ) + Var(βˆ 2 ) - 2 Cov(βˆ 1, βˆ 2 ) { } se(βˆ 1 - βˆ 2 ) = Var(βˆ 1 ) + Var(βˆ 2 ) - 2 Cov(βˆ 1, βˆ 2 ) (4.22) 1 2 (4.23) Das ist aufwändig, einfacher ist eine andere Vorgehensweise: Teste H0: θ1 = β1 – β2 = 0 gegen H1: θ1 < 0 (4.24) mittels eines t-Tests. Dazu benötigt man se( θ̂1), was sich durch Umformulieren der Gleichung ergibt. 4–50 Da θ1 = β1 – β2 ⇔ β1 = θ1 + β2 log(wage) = β0 + (θ1 + β2) jc + β2 univ + β3 exper + u = β0 + θ1 jc + β2 (jc + univ) + β3 exper + u (4.25) Mit dem Koeffizienten für jc erhält man θ̂1 und se( θ̂1). log(wage) = 1,472 – 0,0102 jc + 0,0769 totcoll + 0,0049 exper (0,021) (0,0069) n = 6763, (0,0023) (0,0002)(4.27) R2 = 0,222 Im einseitigen t-Test: t = − 0,0102 = -1,48. Dies liegt zwischen 0,0069 den kritischen Werten am 5 (-1,645) und 10 (-1,282) Prozentni4–51 veau, mit p = 0,07. Die Evidenz gegen H0: β1 = β2 ist nicht stark. 4–52 4.5 F-Tests für mehrere lineare Restriktionen 4.5.1 Test auf die gemeinsame Signifikanz mehrerer Variablen • Beispiel: log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg + β4 hrunsyr + β5 rbisyr + u salary = Jahresgehalt 1993 von Baseballspielern years = Jahre in MLB (major league baseball) (4.28) gamesyr = durchschnittl. Zahl von Spielen pro Jahr bavg = batting average hrunsyr = Anzahl home runs pro Jahr rbisyr = runs batted in pro Jahr 4–53 • Spielen bavg, hrunsyr, rbisyr ceteris paribus eine Rolle? H0: β3 = 0, β4 = 0, β5 = 0 „joint hypothesis“ (4.29). Wir prüfen, ob drei Variablen vom Modell ausgeschlossen werden können, „Ausschlussrestriktionen“. H1: H0 trifft nicht zu. • Die Schätzung ergibt: 4–54 log(salary) = 11,9 + 0,0689 years + 0,0126 gamesyr (0,29) (0,0121) (4.31) (0,0026) + 0,00098 bavg + 0,0144 hrunsyr + 0,0108 rbisyr (0,00110) n = 353 • (0,0161) SSR = 183.186 (0,0072) R2 = 0,6278 Einfache t-Tests würden H0 nicht ablehnen. SSR = Summe quadrierter Residuen. • Der gemeinsame Test von H0 prüft, wie stark sich SSR erhöht, wenn die drei betrachteten Variablen aus dem Modell ausge4–55 schlossen werden. Da KQ SSR minimiert, muss SSR wachsen, wenn weniger Variablen betrachtet werden. • • Neues, restringiertes Modell ((4.28) war unrestringiert). log(salary) = β0 + β1 years + β2 gamesyr + u (4.32) log(salary) = 11,22 + 0,0713 years + 0,0202 gamesyr (4.33) (0,11) (0,0125) n = 353 • (0,0013) SSR = 198.311 R2 = 0,5971 R2 ist gefallen, SSR gestiegen. Der Test prüft, ob die Änderungen signifikant sind. 4–56 • Allgemeine Schreibweise: Unrestringiertes Modell mit k+1 Parametern: • y = β0 + β1 x1 +... + βk xk + u H0 benennt q Ausschlussrestriktionen: H0: βk-q+1 = 0, …, βk = 0 • H1: H0 falsch (4.35) Restringiertes Modell mit k+1-q Parametern: y = β0 + β1 x1 + ... + βk-q xk-q + u Teststatistik des F-Tests: (SSRr - SSRu ) / q , F SSRu / (n - k - 1) ≡ • (4.34) (4.36) (4.37) wobei SSR die Fehlerquadratsummen des restringierten (r) und 4–57 unrestringierten (u) Modells angeben. Da SSRr ≥ SSRu, ist F nie negativ. Zähler- und Nennerfreiheitsgrade lauten im Beispiel: q = 3 • n-k-1 = 353 – 5 – 1 = 347 Verteilung: Unter H0 und MLR.1–MLR.6 folgt F der F-Verteilung F ~ Fq,n-k-1 . Wenn F groß ist, unterscheiden sich SSRr und SSRu stark und H0 trifft nicht zu. Der kritische F-Wert ist in der Tabelle G.3 abzulesen. • Beispiel: 4–58 q = 3, n-k-1 = 60, α = 0,05, dann cα=0,05;3;60 = 2,76 (G.3b) α = 0,01, dann cα=0,01;3;60 = 4,13 (G.3c) 4–59 4–60 • H0 wird verworfen, wenn F > c. • Wird H0 verworfen, so sagen wir xk-q+1, xk-q+2, …, xk sind ge- (4.40) meinsam statistisch signifikant, sonst insignifikant. Zwischen den einzelnen Variablen können wir nicht unterscheiden. • Beispiel bei q = 3 und n-k-1 = 347 ergibt sich cα=0,01;3;347 = 3,78 und cα=0,05;3;347 = 2,60. Der empirische Wert beträgt (198.311 − 183.186) / 3 F= ≅ 9,55 183.186 / 347 • H0 wird also verworfen, obwohl die individuellen Koeffizienten insignifikant waren. Das kann daran liegen, dass 4–61 Multikollinearität die Standardfehler erhöht hat. Für den F-Test spielt das keine Rolle. 4–62 4.5.2 F- und t-Statistik und R2 • Der F-Test kann auch verwendet werden, um Hypothesen bezüglich einzelner Parameter zu testen. In dem Fall gilt F1,n-k-1 = t2n-k-1. Bei zweiseitigen Alternativen führen beide Tests zum gleichen Ergebnis. • Es ist möglich, dass einzelne Variablen allein statistisch signifikant sind, aber in einer Gruppe nicht mehr. • Für einen einzelnen Koeffizienten ist die Wahrscheinlichkeit eines Typ 2-Fehlers (H0 nicht ablehnen, obwohl falsch) beim F4–63 Test höher als beim t-Test. Man sagt, die Teststärke (Power) des t-Tests ist für diese H0 größer als die des F-Tests. • Die F-Statistik kann sowohl mittels SSR als auch R2 berechnet werden. Es lässt sich ersetzen: SSRr = SST (1 – Rr2 ), SSRu = SST (1 – Ru2 ): (Ru2 - Rr2 ) / q F= (1- Ru2 ) / (n - k - 1) • (4.41) Da immer R2, aber selten SSR angegeben wird, ist diese Version besser handhabbar. 4–64 F= (0,6278 − 0,5971) / 3 ≅ 9,54 (1 − 0,6278) / 347 • Beispiel: • Auch für die F-Statistik lassen sich p-Werte ausweisen, die die Wahrscheinlichkeit angeben, unter der F-Verteilung bei gegebenen Freiheitsgraden einen größeren als den vorgefundenen F-Wert zu beobachten. Wenn z.B. p = 0,016, wird H0 am 5% Niveau verworfen, nicht jedoch am 1%-Niveau. 4–65 4.5.3 Gesamtsignifikanz einer Regression und allgemeine Anwendung • Standardtest: gemeinsame Signifikanz aller erklärenden Variablen H0: β1 = β2 = … = βk = 0 (4.44) H1 besagt, dass mindestens eine Variable einen von Null verschiedenen Koeffizienten hat. H0 kann auch formuliert werden als: H0: E( y x 1, x2, …, xk) = E(y). Das restringierte Modell lautet y = β0 + u (4.45) 4–66 • • Der Rr2 -Wert ist nun 0, so dass die Teststatistik lautet: R2 / k F= (1- R2 ) / (n - k -1) (4.46) Dieser Test beschreibt die Gesamtsignifikanz des Modells. Auch kleine R2-Werte können hier zum Verwerfen von H0 führen. • Der F-Test lässt sich auch auf andere als Ausschlussrestriktionen anwenden. • Beispiel: log(price) = β0 + β1 log(assess) + β2 log(lotsize) + β3 log(sqrft) + β4 bedrooms + u (4.47) 4–67 price = Hauspreis assess = offiziell geschätzter Hauspreis lotsize = Grundstücksgröße sqrft = Grundfläche des Hauses bedrooms = Anzahl der Zimmer. Wenn der Verkaufspreis rational zustande kommt, sollte die Elastizität bzgl. des assess-Wertes 1 betragen und ceteris paribus die anderen Faktoren keine Rolle mehr spielen: H0: β1 = 1, β2 = 0, β3 = 0, β4 = 0 (4.48) 4–68 • Das Modell wird zunächst ohne Restriktion geschätzt: y = β0 + β1 x1 + β2 x 2 + β3 x3 + β4 x 4 + u , (4.49) anschließend werden die Restriktionen eingefügt: y = β0 + x1 + u, was sich wie folgt schätzen lässt: y – x1 = β0 + u (4.50) SSRr lässt sich berechnen, so dass F= (SSRr - SSRu ) / 4 SSRu / (n - 5) 4–69 Da sich in diesem Fall die abhängigen Variablen unterscheiden, kann der F-Test nicht in seiner R2-Version genutzt werden. • Bei SSRu = 1.822 folgt F= SSRr = 1.880 q=4 (1.880 − 1.822) / 4 = 0,661 1.822 / 83 n = 88 n-k-1 = 83 Fα=0,05;4;83 = 2,5 H0 wird nicht verworfen. Über den geschätzten Preis hinaus haben die Merkmale des Hauses keine Bedeutung. 4–70 4.6 Präsentation von Schätzergebnissen • KQ-Koeffizienten werden mit Standardfehlern angegeben und für die zentralen Variablen interpretiert. • R2 und die Zahl der benutzten Beobachtungen werden angegeben. • Meist sieht man die Darstellung in Tabellen. Dabei werden die abhängige Variable über der Tabelle und die erklärenden Variablen in der ersten Spalte angegeben. In Spalten findet man alternative Modellspezifikationen. 4–71 4–72 Schlüsselbegriffe Kapitel 4: Verteilungsfunktion Unabhängigkeit CLM-Annahmen Zentraler Grenzwertsatz Nullhypothese Teststatistik Alternativhypothese Signifikanzniveau Typ 1-Fehler Typ 2-Fehler Ablehnungsregel Einseitige H1 Zweiseitige H1 Kritischer Wert Statistische Signifikanz Insignifikant p-Wert Ökonomische Signifikanz Konfidenzintervall Intervallschätzer t-Test F-Test Anschlussrestriktion SSR Restringiertes Modell Unrestringiertes Modell Fehlerquadratsumme Zählerfreiheitsgrade Nennerfreiheitsgrade Gemeinsame Signifikanz Teststärke (Power) Gesamtsignifikanz Alternative Modellspezifikation 4–73 Literatur Kapitel 4: • Wooldridge, Kapitel 4, Appendix C5, C6 • Von Auer, Kapitel 10 • Hill / Griffiths / Judge, Kapitel 7, Kapitel 8 • Stock / Watson, Kapitel 7 4–74 Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers 5.1 Einführung (einschließlich Appendix C3) 5.2 Konsistenz 5.3 Asymptotische Normalverteilung und Inferenz 5.4 Asymptotische Effizienz 5–1 Leitfragen und Lernziele Kapitel 5: • Welche Eigenschaften können Schätzverfahren haben? • Unter welchen Annahmen hat KQ welche Eigenschaften? • Welche praktische Bedeutung hat die Annahme der Normalverteilung? 5–2 5.1 Einführung • Wir haben die Eigenschaften des KQ-Schätzers unter bestimmten Annahmen betrachtet. - Unter MLR.1–MLR.4 ist der KQ-Schätzer unverzerrt. - Unter MLR.1–MLR.5 gilt das Gauss-Markov Theorem (BLUE). - Unter MLR.1–MLR.6 hat der KQ-Schätzer unter allen unverzerrten Schätzern die kleinste Varianz und er folgt der Normalverteilung (legitimiert t- und F-Tests). 5–3 • Die Eigenschaften der Unverzerrtheit, Effizienz und exakten Verteilung werden unabhängig von der Stichprobengröße abgeleitet. Sie gelten – als Eigenschaften des Schätzverfahrens – auch, wenn die Stichprobe klein ist. Deswegen werden sie als finite sample properties bezeichnet. • Für manche, sehr brauchbare Schätzverfahren ist es schwierig oder unmöglich, diese Eigenschaften „für kleine n“ nachzuweisen. In diesen Fällen prüft man die Eigenschaften für den hypothetischen Fall, dass die Stichprobengröße beliebig, d.h. unendlich groß wird. 5–4 • Die Eigenschaften von Schätzverfahren, die für n → ∞ gezeigt werden können, nennt man large sample properties oder asymptotic properties, also asymptotische Eigenschaften, (Konsistenz, asymptotische Normalverteilung und asymptotische Effizienz). 5–5 5.2 Konsistenz • Die asymptotische Eigenschaft der Konsistenz betrachtet, wie weit ein Schätzer bei unendlich großer Stichprobe vom wahren Wert entfernt liegt. 2 zentrale Aspekte: Bei konsistenten Schätzverfahren (a) sinkt die Varianz des Schätzers, je größer n. (b) liegt der Schätzer umso näher am wahren Wert (θ), je größer die Stichprobe. 5–6 5–7 • Definition: Es sei Wn ein Schätzverfahren für den unbekannten Parameter θ auf Basis der Stichprobe Y1, Y2, …, Yn mit n Beobachtungen. Wn ist ein konsistentes Schätzverfahren, wenn für jedes (beliebig kleine) ε > 0 gilt lim P( Wn − θ > ε) → 0 n→∞ • (C.7) Wenn ein Schätzer Wn nicht konsistent ist, nennen wir ihn inkonsistent. Konsistenz ist eine Mindestbedingung für Schätzer. 5–8 • Andere Darstellungsform: Wahrscheinlichkeitsgrenzwert (probability limit): Wenn Wn konsistent ist, ist sein Wahrscheinlichkeitsgrenzwert θ: • plim(Wn) = θ Je größer n, umso enger ist die Verteilung eines konsistenten Wn um θ konzentriert. • Es gibt verzerrte Schätzer, die konsistent sind (z.B. σ̂ ohne Freiheitsgradkorrektur) und es gibt unverzerrte Schätzer, die inkonsistent sind (z.B. die Varianz von Y1, der ersten Beobachtung in einer Stichprobe, als Schätzer für μ bleibt konstant σ2. 1 Die Varianz von Y hingegen geht mit n → ∞ gegen Null: σ 2 ). n 5–9 • Es gilt: Ein unverzerrter Schätzer Wn ist dann konsistent, wenn Var(Wn) → 0 bei n → ∞ . Nur dann gilt plim(Wn) = θ. • β̂ j sei ein KQ-Schätzer für den Parameter βj. Bei jeder Stich- probengröße n hat β̂ j eine Wahrscheinlichkeitsverteilung. Da β̂ j unter den Annahmen MLR.1–MLR.4 unverzerrt ist, hat jede dieser Verteilungen den Mittelwert βj. Wenn β̂ j konsistent ist, wird die Verteilung um βj immer enger, je größer n. 5–10 5–11 • Theorem 5.1 (Konsistenz von KQ): Unter den Annahmen MLR.1–MLR.4 ist der KQ-Schätzer β̂ j für βj konsistent für alle j=0,1,…, k. • Es lässt sich zeigen, dass gilt plimβˆ 1 = β1 + Cov(x1,u) / Var(x1 ) = β1, (5.3) da wegen MLR.4 x1 und u unkorreliert sind. Unterstellt wurde 0 < Var(x 1 ) < ∞ . • Die Annahme MLR.4 E(u x1,x 2 ,...,xk ) = 0 (mittlere bedingte Unabhängigkeit) impliziert, dass Cov(xj,u) = 0, aber nicht um5–12 gekehrt. Kovarianz und Korrelation beschreiben ausschließlich lineare Zusammenhänge, während MLR.4 auch jeden Zusammenhang zwischen u und einer nicht-linearen Funktion von xj ausschließt. Eine abgeschwächte Form von MLR.4 ist also: • Annahme MLR.4′ : E(u) = 0 und Cov(xj,u) = 0 für alle j=1,2,…, k • Konsistenz von KQ erfordert lediglich MLR.4′ , Unverzerrtheit erfordert MLR.4. • Auch wenn nur einer der k Regressoren mit u korreliert ist, sind im Normalfall die KQ-Schätzer für alle k Parameter des Modells verzerrt und inkonsistent. 5–13 • Die Inkonsistenz für β̂1 beträgt plim β̂1 − β1 = Cov(x1, u) / Var(x1 ) (5.4) Dies erlaubt, Richtung und Ausmaß der Inkonsistenz einzuschätzen, da Var(x1) > 0. Beispiel: Für den Fall ausgelassener, relevanter Variablen hat- ν + x2 β2 + x1 β1 + β0 = y • ten wir in Kapitel 3 für das Modell geE(β 1 ) = β1 + β2 δ 1, (3.45) zeigt: ~ ~ wobei β1 ohne Kontrolle für x2 geschätzt war und δ1 der geschätzte Koeffizient einer Regression von x2 auf x1 war. Nun gilt (wieder unter Annahme von MLR.1–MLR.4): 5–14 plim β 1 = β1 + β2 δ1, (5.5) wobei jetzt δ1 den Bevölkerungsparameter einer Regression von x2 auf x1 darstellt. Sind x1 und x2 in der Bevölkerung ~ unkorreliert, ist β1 konsistent. Ausmaß und Richtung der Inkonsistenz lassen sich also abschätzen. • Beispiel: price price = β0 + β1 distance + β2 quality + u = Hauspreis distance = Abstand Müllverbrennungsanlage (Erwartung: β1>0) quality = Qualität des Hauses (Erwartung: β2>0) Wenn bessere Häuser weiter von Müllverbrennungsanlagen 5–15 entfernt sind, dann δ1 > 0. Dann führt Auslassen der Variable quality zur Überschätzung des wahren β1, da β2 · δ1 > 0. • Im Fall von k erklärenden Variablen führt Cov(xj,u) ≠ 0 für nur ein j zur Inkonsistenz aller k+1 Parameter. Einzige Ausnahme: Ein anderer Steigungsparameter βm ist bei Inkonsistenz von βj noch konsistent, wenn xm nicht mit xj korreliert ist und keine weiteren erklärenden Variablen im Modell sind (vgl. die Situation bei ausgelassenen Variablen, Kapitel 3). 5–16 5.3 Asymptotische Normalverteilung und Inferenz • Unter der Annahme MLR.6 konnten wir t- und F-Tests ableiten. Sind u1, u2, …, un nicht normalverteilt, so sind t- und F-Tests nicht gültig, aber Unverzerrtheit und BLUE-Eigenschaft gelten nach wie vor. • Gegeben die erklärenden Variablen, überträgt sich die Normalverteilungsannahme von u auf die abhängige Variable und die geschätzten Parameter. Allerdings kennen wir viele Situationen, in denen y nicht normalverteilt ist. 5–17 • Beispiel: Anteil der Arbeitnehmer eines Unternehmens (prate), die an einem Pensionssparplan teilnehmen: 5–18 • Selbst wenn y nicht normalverteilt ist, ergibt sich aus dem Zentralen Grenzwertsatz, dass die KQ-Schätzer asymptotisch normalverteilt sind und t- und F-Tests asymptotisch zutreffen. Dazu benötigen wir: • Definition: Wenn {Zj : j = 1,2,…, n } eine Folge von Zufallsvariablen ist und für alle Zahlen z gilt P(Zj ≤ z) → Φ (z) wenn n → ∞ , (C.11) dann ist Zj asymptotisch standardnormalverteilt. Φ (z) beschreibt die kumulative Standardnormalverteilung. a Man schreibt: Zj ~ Normal(0,1). 5–19 • D.h. mit wachsender Stichprobengröße nähert sich die Verteilung der Standardnormalverteilung an. Der zentrale Grenzwertsatz besagt, dass der standardisierte Mittelwert jeder Zufallsstichprobe zur Standardnormalverteilung konvergiert: • Zentraler Grenzwertsatz: Es sei {Y1, Y2, …, Yn} eine Zufallsstichprobe mit Mittelwert μ und Varianz σ2. Dann folgt Zn = Yn - μ σ n = n (Yn - μ) σ (C.12) asymptotisch der Standardnormalverteilung. 5–20 • σ2 Zn ist der standardisierte Mittelwert von Y, wobei Var(Y) = . n • Die meisten Schätzverfahren können als Funktion von Stichprobenmittelwerten dargestellt werden, daher ist C.12 extrem nützlich. Für KQ ergibt sich: • Theorem 5.2 (asymptotische Normalverteilung des KQ- Schätzers) Unter den Annahmen MLR.1–MLR.5 gilt: 5–21 (i) β̂ j ist asymptotisch normalverteilt, mit ⎛ σ2 ⎞ n(βˆ j - β j )~ Normal ⎜ 0, 2 ⎟ , ⎜ a ⎟ j ⎠ ⎝ a σ2 wobei 2 > 0 die asymptotische Varianz von n(βˆ j - β j ) aj ist. Für die Steigungsparameter gilt a2j = plim(n -1 n ∑ rˆij2 ). i=1 r̂ij sind die Residuen einer Regression von xj auf die anderen erklärenden Variablen; (ii) σ̂ 2 ist ein konsistenter Schätzer für σ 2 = Var(u); 5–22 (βˆ j - β j ) a (iii) ~ Normal(0,1) se(βˆ ) für alle j, (5.7) j wobei se(β̂ j ) der KQ-Standardfehler von β̂ j ist. • Da die t-Verteilung für n-k-1 → ∞ gegen die Standardnormal(βˆ j - β j ) a ~ tn-k-1 . (5.8) verteilung konvergiert, gilt ebenso: ˆ se(β ) j • Somit können auch ohne MLR.6 t-Tests durchgeführt und Konfidenzintervalle berechnet werden. Sie gelten jetzt asymptotisch statt exakt. Je größer n, umso besser ist die Approximation. 5–23 • Wenn MLR.6 nicht gilt, nennt man se(β̂ j ) den asymptotischen Standardfehler von β̂ j und man spricht von der asymptotischen t-Verteilung. Auch F-Tests gelten approximativ. 5–24 5.4 Asymptotische Effizienz • Unter zwei unverzerrten Schätzern für einen Parametervektor θ heißt derjenige relativ effizient, dessen Varianz für alle Elemente des geschätzten Parametervektors nie größer ist als die des anderen Schätzers und für mindestens ein Element aus θ strikt kleiner ist. • Unter den Annahmen MLR.1–MLR.5 hat der KQ-Schätzer unter allen linearen unverzerrten Schätzern die kleinste Varianz. Er ist effizient. 5–25 • Ein Schätzer ist asymptotisch effizient, wenn er unter allen konsistenten, asymptotisch normalverteilten Schätzern die kleinste asymptotische Varianz hat. • Theorem 5.3 (asymptotische Effizienz von KQ): Unter den Gauss-Markov Annahmen (MLR.1–MLR.5) ist der KQ-Schätzer asymptotisch effizient. 5–26 Schlüsselbegriffe Kapitel 5: Finite sample property Large sample property Asymptotische Eigenschaft Konsistenz, Inkonsistenz Asymptotische Normalverteilung Wahrscheinlichkeitsgrenzwert Zentraler Grenzwertsatz Asymptotischer Standardfehler Asymptotische t-Verteiliung Relativ effizient Asymptotisch effizient Score test 5–27 Literatur Kapitel 5: • Wooldridge, Kapitel 5 und C3 • Von Auer, Kapitel 20.1 • Hill / Griffiths / Judge, Kapitel 13.2 • Stock / Watson, Kapitel 2.6, Kapitel 18.2 5–28 Kapitel 6: Anwendungen des KQ-Schätzers 6.1 Auswirkung von Skalierung 6.2 Alternative funktionale Formen 6.3 Schätzgüte und Auswahl der Regressoren 6.4 Vorhersage und Analyse der Residuen 6–1 Leitfragen und Lernziele Kapitel 6: • Wie reagieren die Parameter auf geänderte Definitionen der Variablen? • Welche Variablen sollten im Regressionsmodell berücksichtigt werden? • Wie lassen sich Vorhersagen und ihre Streuung bestimmen? • Wann sind Schätzergebnisse intern und extern valide? 6–2 6.1 Auswirkung von Skalierung • Bei Umskalierung von Variablen passen sich Koeffizienten, Standardfehler, Konfidenzintervalle, t- und F-Statistiken so an, dass alle Effekte und Testergebnisse erhalten bleiben. • Eine Umskalierung wird oft verwendet, um die Darstellungsweise der Ergebnisse zu vereinheitlichen (z.B. β̂1 = 14.201,0 und β̂ 2 = 0,3752; multipliziert man x1 mit 1000 erhält man β̂1 = 1,4201). 6–3 • Beispiel: bwght = β̂0 + β̂1 cigs + β̂ 2 faminc (6.1) bwght = Geburtsgewicht (in ounces = ca. 28,35 g) cigs = Anzahl der von der Mutter in der Schwangerschaft gerauchten Zigaretten faminc = Jahreseinkommen der Familie (in 1000 $) 6–4 6–5 • Schätzergebnisse in Spalte (1): Pro Zigarette sinkt das Gewicht signifikant um 0,46 Unzen (= ounces). • Skalierung der abhängigen Variablen in pounds statt ounces, wobei 1 pound (lbs.) = 16 ounces. Dadurch sinken alle geschätzten Parameter um den Faktor 16: β̂ bwght β̂0 β̂1 = + cigs + 2 faminc . 16 16 16 16 • Schätzergebnisse in Spalte (2): Jede Zigarette reduziert nun das Gewicht um 0,0289 pounds, 0,0289 · 16 = 0,46 ounces, was dem Effekt aus Spalte (1) entspricht. 6–6 • Umskalieren führt auch zu geänderten Standardfehlern. Die Standardfehler in Spalte (1) sind 16-mal größer als die in Spalte (2), t-Werte und Signifikanzniveaus bleiben somit konstant. • Auch die Konfidenzintervalle für Parameter ändern sich um den Faktor 16. • Da das Residuum in Spalte (1) 16-mal größer ist als das Residuum in Spalte (2), ist SSR von Spalte (1) 162 = 256-mal so groß wie das in Spalte (2). • Das R2 ist durch die Skalierung nicht beeinflusst. 6–7 • Bei Umskalierung der erklärenden Variable ändert sich lediglich der zugehörige Koeffizient. So können je 20 Zigaretten als 1 Päckchen gezählt werden: bwght = β̂0 + (20 β̂1) (cigs/20) + β̂ 2 faminc = β̂0 + (20 β̂1) packs + β̂ 2 faminc Vgl. Spalte (1) und (3): 20 · (-0,4634) = -9,268. Gleiches gilt für die Standardfehler, so dass die t-Statistik gleich bleibt. • Betrachtet man cigs und packs gleichzeitig in einer Regression, ergibt sich perfekte Multikollinearität. 6–8 • Frage: Was passiert mit β̂ 2 , wenn man faminc in Dollar misst: fincdol = 1000 · faminc? Welche Messweise ist vorzuziehen? • Ist die abhängige Variable logarithmiert (natürlicher Logarithmus), hat ihre Skalierung keinen Effekt auf die Steigungsparameter, lediglich der Achsenabschnittsparameter passt sich an, da log(c1· y) = log(c1) + log(y), β̂neu = β̂alt 0 0 + log(c1) für c1 > 0 6–9 • Gleiches gilt für logarithmierte erklärende Variablen: aus log( x ) = log(x/100) = log(x) – log(100); ŷ = β̂0 + β̂1 log(x) wird nach Umskalieren mit log ( x ) = log (100 ) + log ( x ) z.B. ŷ = (β̂0 + β̂1 log(100)) + β̂1 log( x ) 6–10 6.2 Alternative funktionale Formen 6.2.1 Verwendung des Logarithmus • Beispiel: log(price) = 9,23 – 0,718 log (nox) + 0,306 rooms (0,19) (0,066) (0,019) R2 = 0,514 n = 506 Der Koeffizient von log(nox) gibt eine Elastizität an. Steigt nox um ein Prozent, so fällt der mittlere Hauspreis um 0,718 Prozent. Der Koeffizient von rooms gibt eine Semielastizität an. Steigt die Anzahl der Zimmer um eins, so steigt der Hauspreis approximativ um 100 · 0,306 = 30,6 Prozent. 6–11 • Je größer die Semielastizität, umso unpräziser ist die Approximation der Prozentberechnung. Zur präzisen Berechnung verwendet man: %Δyˆ = 100 ⋅ [exp(βˆ j Δx j ) − 1] (6.8) bzw. wenn Δxj = 1 %Δyˆ = 100 ⋅ [exp(βˆ j ) − 1] • (6.9) Beispiel: Wenn β̂ 2 = 0,306 ergibt sich eine Preisänderung von [exp(0,306) – 1] · 100 = 35,8% für jedes zusätzliche Zimmer. 6–12 • Vorteile logarithmierter Variablen: (a) Interessante Interpretationen. (b) Für y > 0 passt die logarithmierte Variable oft besser zu CLM-Annahmen. Andernfalls häufig Heteroskedastie oder schiefe Verteilung. (c) Logarithmierte Werte sind weniger breit gestreut als nicht logarithmierte, Ausreißer-Beobachtungen verlieren an Einfluss. • Wichtig, die Auswirkung auf die Interpretation zu beachten. 6–13 • Beispiel: log(wage) = 0,3 – 0,05 · unemployment rate + … log(wage) = 0,3 – 0,05 · log(unemployment rate) + … Wenn unemployment rate von 0-100 kodiert ist, sagt die erste Gleichung, dass eine um einen Prozentpunkt höhere Arbeitslosenrate (z.B. 9 statt 8 Prozent) die Löhne ceteris paribus um approximativ 5 Prozent senkt. Die zweite Gleichung besagt, dass eine Änderung der Arbeitslosenrate um ein Prozent (z.B. 8,08 statt 8 Prozent) die Löhne ceteris paribus um 0,05 Prozent senkt. 6–14 • Variablen mit Ausprägungen ≤ 0 können nicht logarithmiert werden. Gelegentlich wird dann statt der Variable selbst ihr Wert plus 1 logarithmiert, d.h. für Ausprägungen y = 0 wird log(y+1) statt log(y) genutzt. • Frage: Warum können die R2-Werte von Modellen mit der ab- hängigen Variable y nicht mit solchen der abhängigen Variable log(y) verglichen werden? 6–15 6.2.2 Quadratische Spezifikationen • Mit quadratischen Spezifikationen lassen sich steigende oder fallende marginale Effekte beschreiben. • Beispiel: Produktivitätsfortschritt (y = wage) durch Arbeitser- fahrung (x = exper): • ŷ = βˆ 0 + βˆ 1 x + βˆ 2 x 2 Der marginale Effekt von x auf y variiert hier mit β̂1 , β̂2 und x Δŷ ˆ (6.11) Δŷ ≈ (βˆ 1 + 2 βˆ 2 x) ⋅ Δx ⇔ ≈ β1 + 2 βˆ 2 x Δx Typischerweise wird der marginale Effekt von x auf y am Mittelwert der Daten x berechnet. 6–16 • Wenn β̂1 > 0 und β̂2 < 0, erhält man einen konkaven Verlauf. • Beispiel: wage = 3,73 + 0,298 exper – 0,0061 exper2 (0,35) (0,041) n = 526 (0,0009) (6.12) R2 = 0,093 Die Lohnsteigerung von exper = 0 auf exper = 1 beträgt β̂1 + 2 β̂2 x = 0,298 – 2 · 0,0061 · 0 = 0,298, also 0,298 Dollar. Beim Übergang von 10 auf 11 bleibt nur noch 0,298 – 2 · 0,0061 · 10 = 0,176. Bei konkavem Verlauf lässt sich der Punkt berechnen, ab dem der Lohnzuwachs bei zusätzlicher Erfahrung negativ wird: 6–17 −βˆ βˆ ∂y ˆ = β1 + 2 βˆ 2 x* = 0 ⇔ x* = 1 = 1 . 2 βˆ 2 2 βˆ 2 ∂x (6.13) Hier: x* = exper* = 0,298 / (2 · 0,0061) = 24,4 Jahre 6–18 6–19 • Wenn β̂1 < 0 und β̂2 > 0, ist der Verlauf u-förmig (konvex) und hat ein Minimum x*. • Beispiel: log(price) = 13,39 – 0,902 log(nox) – 0,087 log(dist) (0,57) (0,115) (0,043) – 0,545 rooms + 0,062 rooms2 – 0,048 stratio (0,165) n = 506 (0,013) (0,006) R2 = 0,603 Der Koeffizient von rooms2 ist hochsignifikant. Bei kleiner Zahl von Zimmern scheint ein weiteres Zimmer den Hauspreis zu senken, bis das Minimum erreicht ist: 6–20 x* = −βˆ 1 0,545 = ≈ 4,4 2 βˆ 2 2 ⋅ 0,062 6–21 6–22 Der negative Effekt für Häuser mit weniger als 4 Zimmern ist unrealistisch. In der Stichprobe sind weniger als 1% der Beobachtungen davon betroffen. Marginaler Effekt: Δ log(price) ≈ {−0,545 + 2 ⋅ 0,062 ⋅ rooms} ⋅ Δrooms %Δprice ≈ 100 ⋅ {−0,545 + 2 ⋅ 0,062 ⋅ rooms} ⋅ Δrooms ≈ ( −54,5 + 12,4 ⋅ rooms) ⋅ Δrooms Hat man bereits rooms = 5, so erhöht ein weiteres Zimmer den Preis approximativ um -54,5 + 12,4 · 5 = 7,5%. Der Effekt 6–23 wächst bei größeren Häusern sehr stark. Bereits bei 6 ergibt sich -54,5 + 12,4 · 6 = 19,9%. • Haben bei quadratischen Effekten beide Koeffizienten das gleiche Vorzeichen, so gibt es keine Richtungsänderung im Zusammenhang zwischen y und x. • Bei quadrierten logarithmierten erklärenden Variablen können sich nicht-konstante Elastizitäten ergeben: log(y) = β0 + β1 log(x) + β2 (log(x))2 + u %Δy = [β1 + β2 2 ⋅ log(x)] %Δx (6.16) 6–24 • Gelegentlich wählt man eine flexiblere als die quadratische Form, z.B. ein Polynom 3. (oder auch 4.) Ordnung: y = β0 + β1 x + β2 x 2 + β3 x 3 + u Wieder berechnet man zur Interpretation marginale Effekte. 6–25 6.2.3 Modelle mit Interaktionstermen • Gelegentlich hängt der partielle Effekt einer Variablen vom Wert einer anderen ab. Dies modelliert man durch Interaktionsterme. • Beispiel 1: Der Produktivitätseffekt von Arbeitserfahrung kann je nach Bildungstand unterschiedlich ausfallen. Statt: wage = β0 + β1 educ + β2 exp er + u nun: wage = β0 + β1 educ + β2 exp er + β3 ( educ ⋅ exper ) + u 6–26 Jetzt • Δwage = β2 + β3 ⋅ educ . Δ exp er Beispiel 2: price = β0 + β1 sqft + β2 bdrms + β3 sqft · bdrms + β4 bathrms + u Δprice = β 2 + β3 sqft Δbdrms (6.17) Wenn β3 > 0, ist der Preisaufschlag pro Zimmer (=bedroom) in Häusern mit großer Wohnfläche (sqft) höher als in kleinen. β2 ergibt den Preisaufschlag für Häuser mit sqft = 0. 6–27 price β 2 + β3 sqft1 sqft1 > sqft 0 , β2 > 0, β3 > 0 β 2 + β3 sqft 0 bedrooms Wenn β3 = 0, spielt die Wohnfläche für den Preisaufschlag durch die Zahl der Zimmer keine Rolle. 6–28 6.3 Schätzgüte und Auswahl der Regressoren 6.3.1 R2 und R 2 • R2 beschreibt den Anteil der Variation in y, der durch das Modell erklärt wird. • Auch bei kleinem R2 lassen sich präzise und unverzerrte Koeffizienten schätzen. • R2 kann nicht sinken, wenn zusätzliche erklärende Variablen im Modell berücksichtigt werden. Es ist üblich, neben R2 ein angepasstes R2, R 2 , zu betrachten, welches mit der Zahl der 6–29 verwendeten Regressoren schwankt: SSR R2 = 1SST SSR / (n - k - 1) σˆ 2 2 R = 1= 1SST / (n - 1) SST / (n - 1) • (6.21) Aufnahme eines Regressors reduziert SSR, aber auch n-k-1. Daher kann das R 2 steigen, gleich bleiben oder auch fallen, wenn eine zusätzliche erklärende Variable berücksichtigt wird. Man verwendet das R 2 , um z.B. Modifikationen einer gegebenen Modellspezifikation zu bewerten. 6–30 • Interessant: R 2 steigt, sobald der Betrag des t-Wertes einer zusätzlichen Variable ≥ 1 ist und wenn die F-Statistik für die Signifikanz einer Gruppe von Variablen ≥ 1 ist. Damit steigt der (korrigierte) Erklärungsgehalt auch ohne statistische Signifikanz. • Es gilt folgende Umrechnung: R 2 = 1- (1- R 2 ) • Beispiel: R2 = 0,30 n -1 n - k -1 n = 51 (6.22) k = 10 R 2 = 1 – 0,70 · 50/40 = 0,125 6–31 • R 2 kann negativ werden. R 2 hat nicht die gleiche Interpretation wie R2 und kann nicht unmittelbar zur Berechnung des F-Tests genutzt werden. • R 2 wird verwendet, um nicht genestete Modelle für eine gegebene abhängige Variable zu vergleichen, insbesondere wenn sie unterschiedlich viele Parameter verwenden. Modelle sind nicht genestet, wenn sie nicht durch lineare Restriktionen ineinander überführt werden können. • Beispiel 1 (Gehalt der Baseballspieler): (a) log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg 6–32 + β4 hrunsyr + u1 (b) log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg + β4 rbisyr + u2 Da die Variablen hrunsyr und rbisyr hochkorreliert sind, ist die Frage, welche einen höheren Beitrag leistet. Die Modelle sind nicht genestet. (a) ergibt R 2 = 0,6211 und (b) R 2 = 0,6226, ein kleiner Vorteil für (b). Dies ließe sich auch mit R2 vergleichen, da hier die gleiche Anzahl Parameter geschätzt wurde. • Beispiel 2: R&D-Intensität und Umsatz: (a) rdintens = β0 + β1 log(sales) + u1 (6.23) 6–33 (b) rdintens = β0 + β1 sales + β2 sales2 + u2 (6.24) Die Modelle sind nicht genestet. Da unterschiedlich viele erklärende Variablen verwendet werden, ist R2 für den Vergleich nicht informativ. R a2 = 0,061 R b2 = 0,148. Das angepasste R 2 nimmt für den zusätzlichen Parameter eine Korrektur vor (n = 32), Ra2 = 0,03 Rb2 = 0,09. Auch mit Korrektur ist Modell (b) überlegen. • Weder R2 noch R 2 kann verwendet werden, um zwischen Modellen mit unterschiedlichen abhängigen Variablen zu wählen, da sich die SST unterscheiden. 6–34 • Beispiel 3: CEO-Gehalt als Funktion von Umsatz und Rendite salary = 830,63 + 0,0163 sales + 19,63 roe (223,90) (0,0089) n = 209 (11,08) R 2 = 0,029 (6.25) R 2 = 0,020 lsalary = 4,36 + 0,275 lsales + 0,0179 roe (0,24) (0,033) n = 209 (0,0040) R2 = 0,282 (6.26) R 2 = 0,275 Wenngleich Modell (6.26) besser zu den Daten zu passen scheint als Modell (6.25), sind R2 und R 2 keine relevanten Vergleichskriterien, da sie sich auf unterschiedliche abhängige Variablen beziehen. 6–35 6.3.2 Auswahl von Regressoren • Es ist möglich, durch Berücksichtigung von zu vielen Regressoren die beabsichtigte ceteris paribus Interpretation zu verfälschen. Plausibilität des „konstant Haltens“ muss im Einzelfall geprüft werden. • Beispiel 1: Reduziert eine höhere Biersteuer die Zahl der Verkehrstoten? Vermutung: Bei höherer Steuer weniger Bierkonsum, dadurch sicherere Fahrweise. Modell: Unfalltote = β0 + β1 Steuersatz + β2 gefahrene Meilen + β3 Anteil männlich + β4 Bevölkerungsanteil 16-21 + … 6–36 Was, wenn zusätzlich noch Bierkonsum kontrolliert wird? Unfalltote = β0 + β1 Steuersatz + β2 Bierkonsum … Jetzt misst β1 den Steuereffekt auf Unfallopfer bei gegebenem Bierkonsum, das ist nicht mehr sinnvoll zu interpretieren. • Beispiel 2: Hauspreis als Funktion des geschätzten Wertes und der Hausmerkmale. Modell: log(price) = β0 + β1 log(assess) + β2 log(lotsize) + β3 log(sqft) + β4 bdrms +… Geeignet, um Rationalität der Preisfindung via H0: β1 = 1 zu testen. Kontrolle für geschätzten Preis nicht sinnvoll, wenn man 6–37 Preiswirkung der Hausmerkmale in einer hedonischen Preisfunktion bestimmen will. Dann geeignetes Modell: log(price) = β0 + β1 log(lotsize) + β2 log(sqft) + β3 bdrms + … Zweites Modell hat niedrigeres R2, aber gesuchte Interpretation. • Einzelfallentscheidungen zwischen omitted variable bias und over-controlling. • Es kann sinnvoll sein, zusätzliche erklärende Variablen ins Modell aufzunehmen, die nicht mit den bereits berücksichtigten korreliert sind und keine omitted variable bias abbauen: Je größer der erklärte Teil der Gesamtvariation der abhängigen Vari6–38 able, umso kleiner ist die Fehlertermvarianz, umso kleiner die Streuung der Parameter und umso präziser die Schätzung. • Allerdings besteht immer das Risiko von Multikollinearität. 6–39 6.4 Vorhersage und Analyse der Residuen 6.4.1 Konfidenzintervalle von Vorhersagen • Vorhersagen werden mittels KQ-Schätzer erzeugt. Da letztere Zufallsvariablen sind, überträgt sich diese Eigenschaft auch auf die vorhergesagten Werte. ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 +... + βˆ k xk • Geschätzt: • Setzt man Werte c1, …, ck für x1, …, xk ein, so lässt sich der Pa- (6.27) rameter θ0 als Schätzer des zugehörigen y bestimmen: wahr: θ0 = β0 + β1 c1 + β2 c 2 + ... + βk c k (6.28) 6–40 • 2 geschätzt: ck = xk , . . . , c2 = x , c1 = x1 y E = ( ) θˆ 0 = βˆ 0 + βˆ 1 c1 + βˆ 2 c 2 +... + βˆ k c k (6.29) Hat man θ̂0 , so lässt sich bei großer Zahl von Freiheitsgraden ein 95%-Konfidenzintervall als: θ̂0 ± 1,96 se(θ̂0 ) bestimmen. • Frage: Was ist bei einer kleinen Zahl von Freiheitsgraden an- ders? • Wie lässt sich se( θ̂0 ) bestimmen? Trick: Schritt 1: β0 = θ0 - β1 c1 - β2 c 2 - ... - βk c k Schritt 2: Einsetzen in y = β0 + β1 x1 + β2 x 2 + ... + βk xk + u 6–41 Schritt 3: ergibt y = θ0 + β1 (x1 - c1 ) + β2 (x 2 - c 2 ) +... + βk (xk - ck ) + u (6.30) Für jedes i wird xij ersetzt durch xij – cj. Dieses Modell lässt sich schätzen. Nun sind der Achsenabschnitt und sein Standardfehler Schätzer für θ̂0 und se( θ̂0 ). • Die Varianz des vorhergesagten Wertes ( θ̂0 ) ist am kleinsten, wenn alle erklärenden Variablen an ihrem Stichprobenmittelwert betrachtet werden, d.h. wenn cj = x j. Je weiter sich die cj von x j entfernen, umso größer wird die Varianz der Vorhersage. 6–42 • Alternativ zur fiktiven oder durchschnittlichen Beobachtung c kann auch die Vorhersage mit Vorhersageintervall für eine tatsächliche Beobachtung interessieren. In diesem Fall ist auch der Störterm relevant: 0 u + 0k x βk + . . . + 02 x β2 + 01 x β1 + β0 = 0 y Modell für Beobachtung 0: (6.33) Vorhersage: ŷ 0 = βˆ 0 + βˆ 1 x10 + βˆ 2 x 02 + ... + βˆ k xk0 Vorhersagefehler: eˆ 0 = y 0 − yˆ 0 = (β0 + β1 x10 + β2 x 02 + ... + βk xk0 ) + u0 − yˆ 0 (6.34) 6–43 • Da β̂ j unverzerrt ist, folgt E(yˆ 0 ) = y 0 und E(eˆ 0 ) = 0 , gegeben die beobachteten Daten. • Var(eˆ 0 ) = Var(y 0 − yˆ 0 ) = Var(u0 − yˆ 0 ) Von allen Bestandteilen von y0 ist nur u0 stochastisch, βj und x0j sind Konstante (vergleiche 6.33). Der wahre Fehler u0 ist mit den Daten der Stichprobe unkorreliert, daher auch mit β̂ j und x0j und somit ŷ 0 . Daher 6–44 Var(eˆ 0 ) = Var(u0 - yˆ 0 ) (6.35) 0 = Var(u ) + Var(yˆ 0 ) = σ 2 + Var(yˆ 0 ) σ2 ist konstant und Var(ŷ 0 ) hängt z.B. von der Stichprobengröße ab, die die Varianz von β̂ j bestimmt. Da σ2 und Var(ŷ 0 ) geschätzt werden können, ergibt sich { se(eˆ 0 ) = σˆ 2 + [se(yˆ 0 )]2 • } 12 (6.36) Wie im Fall von β̂ j gilt: ê0 se(ê0 ) ~ t n − k −1. Dadurch ergibt sich für das Konfidenzintervall P[ − t α /2 ê0 ≤ ≤ t α /2 ] = 1- α se(eˆ 0 ) Einsetzen ergibt das Konfidenzintervall für y0: 6–45 P[ − t α /2 y 0 − yˆ 0 ≤ ≤ t α /2 ] = 1- α se(eˆ 0 ) P[yˆ 0 − t α /2 ⋅ se(eˆ 0 ) ≤ y 0 ≤ yˆ 0 + t α /2 ⋅ se(eˆ 0 )] = 1- α • (6.37) Beispiel: Schätzung der Streuung einer Vorhersage für eine vorgegebene Merkmalskombination: colGPA = 1,493 + 0,00149 sat – 0,01386 hsperc (0,075) (0,00007) (0,00056) – 0,06088 hsize + 0,00546 hsizesq (0,01650) n = 4137, R2 = 0,278, (0,002277) R 2 = 0,277, (6.32) σ2 = 0,560 6–46 colGPA = College Note sat = Testpunkte hsperc = High School Rang hsize = High School Größe (in 100 Schülern) Vorhergesagter Wert, wenn sat = 1200, hsperc = 30, hsize = 5: colGPA = 2,70. Zur Bestimmung des Standardfehlers und Konfidenzintervalls Variablen umkodieren (vgl. 6.30): sat0 = sat -1200, hsperc0 = hsperc -30, hsize0 = hsize -5, hsizesq0 = hsizesq -25. 6–47 Neuschätzung ergibt: colGPA = 2,700 + 0,00149 sat0 – 0,01386 hsperc0 (0,020) (0,00007) (0,00056) – 0,06088 hsize0 + 0,00546 hsizesq0 (0,01650) n = 4137, R2 = 0,278, (0,00227) R 2 = 0,277, σ̂ = 0,560 Der Achsenabschnitt entspricht dem vorhergesagten Wert θ̂0 und 0,020 ist sein Standardfehler, se( θ̂0 ). Konfidenzintervall: 2,70 ± 1,96 ⋅ (0,020), somit [2,66; 2,74], was wegen der großen Stichprobengröße sehr eng ausfällt. 6–48 6.4.2 Analyse der Residuen und log(y) als abhängige Variable • Es kann informativ sein, die beobachtungsspezifischen Abweichungen vom vorhergesagten Wert anzuschauen, uˆ i = yi - yˆ i . • Dies kann über wichtige ausgelassene Faktoren informieren. Wenn yi den Preis von Gut i angibt und ûi < 0 ist, erkennt man preiswerte Güter. Auch logarithmierte abhängige Variablen lassen sich vorhersagen: xk βk + . . . x2 β2 + x1 β1 + β0 = y g o l • ˆ ˆ ˆ ˆ (6.39) 6–49 • Allerdings ist es falsch, den Wert für y daraus durch einfaches Exponentieren zu gewinnen: ŷ = exp(logy). • Es gilt: Wenn u ~ Normal(0,σ2), dann ist E(exp(u)) = exp(σ2/2). • Unter CLM-Annahmen (MLR.1–MLR.6) gilt daher für 6.39: E(y x ) = exp(σ 2 2)× exp(β0 + β1 x1 + β2 x 2 +... + βk xk ), wobei x die unabhängigen Variablen beschreibt und σ2 die Varianz von u ist. • Zur Vorhersage von y nutzt man also ŷ = exp(σˆ 2 2) ⋅ exp(logy) , (6.40) 6–50 wobei σ̂ 2 ein unverzerrter Schätzer von σ2 ist. Da σ̂ 2 > 0, exp( σ̂ 2 /2) > 1. • Unter MLR.6 ergibt (6.40) konsistente Vorhersagen ŷ . • Ohne MLR.6 gilt E(y x) = α0 exp(β0 + β1 x1 + β2 x 2 +... + βk xk ) , (6.41) wobei α0 = E(exp(u)). Hat man α̂0 , so lässt sich vorhersagen ŷ = αˆ 0 exp(logy) (6.42) 6–51 • Vorgehensweise zur Vorhersage von y, wenn die abhängige Variable log(y) ist: (i) Bestimme nach der KQ-Schätzung log yi (ii) Berechne für jedes i m̂i = exp(logy i ) (iii) Regressiere y auf m̂ ohne Achsenabschnitt. Der Koeffizient dieser Regression durch den Ursprung ist ein Schätzer für α0. (iv) Mit log yi und α̂0 lässt sich gemäß (6.42) ŷ bestimmen. 6–52 • Ein Maß für die Schätzgüte der Regression von log(y) für y ist das Quadrat der Stichprobenkorrelation von ŷi aus Schritt (iv) mit dem tatsächlichen yi. • Beispiel: log(salary) = β0 + β1 log(sales) + β2 log(mktval) + β3 ceoten +u salary = Gehalt des CEO in Tausend $ sales = Umsatz in Mio $ mktval = Marktwert des Unternehmens ceoten = Betriebszugehörigkeitsdauer des CEO (in Jahren) 6–53 lsalary = 4,504 + 0,163 lsales + 0,109 lmktval + 0,0117 ceoten (0,257) (0,039) n = 177, R2 = 0,318 (0,0053) (0,0053) (6.45) Eine Regression von salary auf m̂i = exp(lsalaryi) ergibt α̂0 ≈ 1,117 . Für sales = 5000, mktval = 10 000 und ceoten = 10 ergibt sich: 4,504 + 0,163 log(5000) + 0,109 log(10 000) + 0,0117 · 10 ≈ 7,013. Somit ist der vorhergesagte Wert 1,117· exp(7,013) = 1240,967 bzw. 1,2 Mio $. Die Corr(salaryi, salaryi) = 0,493, so dass wir 6–54 einen quadrierten Wert von 0,243 erhalten. Dieser ist höher als das R2 von 0,201 aus dem nicht-logarithmierten Modell. Insofern kann man das logarithmierte Modell wegen besserer Schätzgüte, aber auch wegen leichter zu interpretierender Parameter vorziehen. 6–55 Schlüsselbegriffe Kapitel 6: Skalierung Standardisierung Semielastizität Interaktionsterm 2 2 Angepasstes R , R ability bias over-controlling Hedonische Preisfunktion Genestetes Model Vorhersage-Konfidenzintervall 6–56 Literatur Kapitel 6: • Wooldridge, Kapitel 6 • Von Auer, Kapitel 11, 13, 14 • Hill / Griffiths / Judge, Kapitel 6, 10 • Stock / Watson, Kapitel 8, 9 6–57 Kapitel 7: Binäre Variablen 7.1 Qualitative Information und einfache Dummy-Variablen 7.2 Dummy-Variablen für Kategorien 7.3 Interaktion mit Dummy-Variablen 7.4 Binäre Variablen als abhängige Variablen: Lineares Wahrscheinlichkeitsmodell 7–1 Leitfragen und Lernziele Kapitel 7: • Welche Kontrollvariablen lassen sich als Dummy-Variablen repräsentieren? • Wie kann man Achsenabschnitts- und Steigungsparameter gruppenspezifisch bestimmen? • Wie ist mit Dummy-Variablen als abhängigen Variablen zu verfahren? 7–2 7.1 Qualitative Information und einfache Dummy-Variablen • Wir unterscheiden quantitative und qualitative Variablen. Erstere werden in der Regel stetig (Beispiel: Alter, Lohnsatz), letztere z.B. binär kodiert (Beispiel: Geschlecht männlich ja/nein, Hausbesitzer ja/nein). • Man spricht von binären, Dummy-, dichotomen, Null-Eins- oder Indikator-Variablen. • Konvention ist, dass die Variable nach der zutreffenden Kategorie benannt ist und diese mit 1 kodiert ist, so dass 1 = ja und 7–3 0 = nein (Beispiel: weiblich, Besitzer, erwerbstätig). Ein Variablenname „Geschlecht“ ist nicht informativ. • Die Kodierung mit den Werten 0 und 1 ist willkürlich (1 und 2 oder -1 und 1 wären auch möglich), hat aber Interpretationsvorteile. • Beispiel 1: wage = β0 + δ0 female + β1 educ + u (7.1) Die Variable female hat für Frauen den Wert 1, für Männer den Wert 0. δ0 gibt den mittleren Lohnunterschied für Männer und Frauen an, wenn Bildungsunterschiede konstant gehalten. Wenn δ0 < 0, verdienen Frauen weniger als Männer. 7–4 Wenn E(u | female,educ ) = 0, dann δ0 = E ( wage | female = 1,educ ) – E ( wage|female = 0,educ ) bzw. δ0 = E ( wage | female,educ ) – E ( wage | male,educ ) (7.2) • Grafisch verschiebt der Dummy-Koeffizient den Achsenabschnitt β0 um δ0: Geradengleichung für Männer: wage = β0 + β1 educ Geradengleichung für Frauen: wage = (β0 + δ0) + β1 educ 7–5 7–6 • Frage: Warum nicht: wage = β0 + δ0 female + δ1 male + β1 educ + u ? Antwort: Modell wäre perfekt multikollinear (dummy variable trap). Der Wert der Konstante (=1) ergibt sich als Linearkombination, Konstante = female + male. Außerdem: Mit zwei Gruppen (männlich/weiblich) brauchen wir zwei Achsenabschnittswerte und die lassen sich mit einer Dummy-Variable und der Konstanten bereits erzeugen. 7–7 • Die Gruppe, für die die Dummy-Variable mit Null kodiert ist, nennt man Basis- oder Referenzgruppe, sie ist der Vergleichsmaßstab bei der Interpretation des Koeffizienten δ0. • Ersetzt man die Variable female durch die Variable male, verschieben sich β0 um δ1, aber die zentralen Aussagen bleiben gleich. Wenn: wage = β0 + δ0 female + β1educ + u und wage = α0 + γ0 male + β1 educ + u ergibt sich für Frauen: α0 = β0 + δ0 und für Männer β0 = α0 + γ0. 7–8 • Alternativ zur Formulierung mit Konstante und Dummy vermeidet auch die Formulierung wage = β0 male + α0 female + … die „dummy variable trap“. Allerdings lässt sich der Geschlechtsunterschied schwerer interpretieren und ohne Konstante ist R2 nicht definiert. • Beispiel 1: wage = -1,57 – 1,81 female + 0,572 educ (0,72) (0,26) (0,049) + 0,025 exper + 0,141 tenure (0,012) (0,021) (7.4) 7–9 n = 526, R2 = 0,364 Der negative Achsenabschnitt (hier für Männer und Frauen) ist nur für den Fall relevant, in dem alle erklärenden Variablen Null sind. Bei gleichen Werten für educ, exper, tenure verdienen Frauen im Mittel 1,81 $ (Daten von 1976) pro Stunde weniger als Männer. Dies liegt also nicht an Unterschieden in Bildung, Erfahrung oder Betriebszugehörigkeitsdauer, sondern am Geschlecht bzw. Faktoren, die damit korreliert und sonst nicht kontrolliert sind (z.B. Beruf). Ohne Kontrollvariablen: wage = 7,10 – 2,51 female (0,21) (0,30) (7.5) 7–10 n = 526, R2 = 0,116 Nach dieser Schätzung verdienen Frauen im Mittel 2,51 $ weniger als Männer. Der mittlere Verdienst für Männer ist 7,10 $. Der Koeffizient für Frauen ist signifikant: t = -2,51/0,30 = -8,37. • Mit der einfachen Regression lässt sich prüfen, ob es zwischen zwei Gruppen einen signifikanten Unterschied gibt. Der t-Test ist nur unter der Annahme MLR.5 (Homoskedastie) gültig. • Der Lohnunterschied zwischen den Geschlechtern ist in (7.4) kleiner als in (7.5). Dies zeigt, dass er teilweise auf Unterschie7–11 de in educ, exper und tenure zurück geht. Es belegt, dass in (7.5) relevante Faktoren nicht konstant gehalten werden und keine ceteris paribus Interpretation vorliegt. Allerdings kann auch (7.4) noch zu wenig Kontrollvariablen aufweisen, um kausal interpretierbare Effekte zu generieren (Bsp.: Beruf, körperlicher Anspruch des Jobs, Weiterbildung, Engagement, Motivation, etc.). • Beispiel 2: Kausaler Effekt von PC-Nutzung auf Collegenoten? colGPA = β0 + δ0 PC + β1 hsGPA + β2 ACT + u PC = 1, wenn Student über PC verfügt, sonst = 0 7–12 ⎧> ⎫ δ0 ⎨ ⎬ 0 je nachdem, ob PCs die Produktivität erhöhen oder ⎩< ⎭ reduzieren colGPA = 1,26 + 0,157 PC + 0,447 hsGPA + 0,0087 ACT (0,33) (0,057) n = 141, (0,094) (0,0105) R2 = 0,219 (7.6) Gegeben Schulnoten und Testergebnisse (ACT), sind die Noten von PC-Besitzern im Mittel signifikant (tPC = 0,157/0,057 = 2,75) um 0,157 Notenpunkte höher als die von Nicht-PCBesitzern. Es ist denkbar, dass PC-Besitz mit hsGPA oder ACT 7–13 korreliert. Dann ergibt sich ohne Kontrolle für hsGPA und ACT ein anderes δ0. Tatsächlich ändert sich wenig δ̂0 = 0,17 mit se( δ̂0 ) = 0,063. • Unter der Annahme E(u PC, hsGPA, ACT) = 0 lässt sich der Koeffizient δ̂0 als kausaler Effekt interpretieren. Dies gilt aber z.B. dann nicht, wenn Einkommen oder Bildung der Eltern sowohl PC als auch colGPA beeinflusst. Man könnte sich vorstellen, dass E(u PC = 1, hsGPA, ACT) > E(u PC = 0, hsGPA, ACT) , 7–14 wenn Kinder reicher Eltern sowohl eher einen PC haben, als auch bessere Förderung erhalten und z.B. weniger Zeit für Erwerbstätigkeit verwenden. Die kausale Interpretation ist also nicht immer plausibel. • Dummy-Variablen werden auch zur Politikevaluation eingesetzt. Man unterscheidet die Nichtteilnehmer (control group) von den Teilnehmern (treatment group) einer Maßnahme (z.B. Arbeitsförderung). Wenn durch multiple Regression alle Faktoren kontrolliert werden können, die zur Zuteilung auf eine der Gruppen geführt haben, kann der 7–15 Koeffizient einer Variable "treatment" als kausaler Effekt interpretiert werden. • Beispiel 3: Wirkung von Weiterbildungssubventionen hrsemp = 46,67 + 26,25 grant - 0,98 log(sales) (43,41) (5,59) (3,54) - 6,07 log(employ) (3,88) n = 105 Unternehmen, (7.7) R2 = 0,237 hrsemp = Weiterbildungsstunden pro Mitarbeiter (Mittelwert 17) grant = 1, wenn Unternehmen Subventionen erhält, sonst 0 7–16 sales = Jahresumsatz des Unternehmens employ = Anzahl der Beschäftigten Subvention (treatment hier) hat statistisch und ökonomisch signifikanten Effekt von 26 Stunden. Umsatz insignifikant, größere Arbeitgeber bilden weniger weiter, mit -6,07/3,88 = -1,56, t103, 10% = 1,65. • Kausaler Effekt? Vielleicht hätten Subventionsempfänger sowieso weitergebildet: Dann E(u | grant = 1,x) > E(u | grant = 0,x). Auswahl der Subventionsempfänger relevant. Wenn Zufall 7–17 (unkorreliert), dann eher kausaler Effekt, als wenn systematische Auswahl. • Beispiel 4: Interpretation von Dummies bei log-abhängigen Va- riablen (immer: natürlicher Logarithmus) log(price) = 5,56 + 0,168 log(lotsize) + 0,707 log(sqrft) (0,65) (0,038) (0,093) + 0,27 bdrms + 0,054 colonial (0,029) (0,045) (7.8) 7–18 R2 = 0,649 n = 88, price = Hauspreis lotsize = Grundstücksgröße sqrft = Wohnfläche bdrms = Anzahl Zimmer colonial = 1, Haus im Kolonialstil, = 0 nicht • Bei großen Koeffizienten berechnet man (exp(β) – 1) · 100, d.h. hier exp(0,054) - 1 = 0,055 (7.10) log(price) unterscheidet sich ceteris paribus um 0,054, wenn im Kolonialstil. Kleiner Effekt kann als Prozentgröße interpretiert werden, d.h. 5,4% Preisaufschlag, wenn Kolonialstil. 7–19 • zurück zu Beispiel 1: log(wage) = 0,417 – 0,297 female + 0,080 educ (0,099) (0,036) (0,007) + 0,029 exper – 0,00058 exper2 (0,005) (0,00010) + 0,032 tenure – 0,00059 tenure2 (0,007) n = 526, (0,00023) R2 = 0,441 Lohnabschlag für Frauen approximativ 29,7%. 7–20 Genauer: log(wageF) – log(wageM) = -0,297 Exponenzieren, dann minus 1: wageF wageM −1= (wageF − wageM ) = exp( −0,297) − 1 wageM ≈ 0,743 − 1 = −0,257 Ceteris paribus Lohnabschlag beträgt 25,7%, nicht 29,7%. 7–21 7.2 Dummy-Variablen für Kategorien • Man kann auch mehrere Dummy-Variablen in einer Schätzung haben. Ergänzt man die Lohnregression um die Variable married, so erhält sie einen positiven Koeffizienten von 0,053 (0,041) und der female Dummy sinkt auf -0,290 (0,036). Interessant wäre, ob sich der „Verheiratetenzuschlag“ nach dem Geschlecht unterscheidet. • Man kann 4 Gruppen bilden: verheiratete Männer, verheiratete Frauen und je unverheiratet. 3 von diesen Gruppen werden in der Regression kontrolliert, die vierte (hier unverheiratete Män7–22 ner) ist die Referenzgruppe: log(wage) = 0,321 + 0,213 marrmale – 0,198 marrfem (0,100) (0,055) (0,056) – 0,110 singfem + 0,079 educ + 0,027 exper (0,056) (0,007) (0,005) – 0,00054 exper2 + 0,029 tenure (0,00011) (0,007) – 0,00053 tenure2 (0,00023) n = 526, (7.11) R2 = 0,461 7–23 Alle Koeffizienten sind am 5%-Niveau signifikant. Die Gruppenindikatoren werden relativ zur Referenzgruppe interpretiert. Verheiratete Männer verdienen approximativ 21,3% mehr als nicht verheiratete, verheiratete Frauen verdienen approximativ 19,8% weniger und nicht verheiratete Frauen ca. 11% weniger. Mit den Koeffizienten können die Lohnunterschiede zwischen Gruppen bestimmt werden. • Zum Test auf Signifikanz der Unterschiede zwischen Teilgruppen ist eine Neuschätzung mit einer anderen Referenzgruppe am einfachsten, z.B. 7–24 log(wage) = 0,123 + 0,411 marrmale + 0,198 singmale (0,106) (0,056) (0,058) + 0,088 singfem + … (0,052) Unterschied verheiratete/unverheiratete Frauen wie zuvor 0,088, aber nicht signifikant. Unterschied verheiratete Männer vs. verheiratete Frauen größer und signifikant. Lohnabstände zwischen Teilgruppen sind konstant und unabhängig von der Referenzgruppe. 7–25 • Bei g Gruppen verwendet man g-1 Indikatorvariablen plus Konstante. • Ordinale Informationen können ebenfalls über Dummy- Variablen in der Schätzgleichung berücksichtigt werden (z.B. gut, mittel, schlecht). • Frage: In einer Regression des Gehalts von Fußballspielern soll für die Position des Spielers kontrolliert werden. Im Datensatz wird Angriff, Mittelfeld und Verteidigung unterschieden. Welche Dummyvariablen würden Sie im Modell berücksichtigen? 7–26 • Beispiel: Löhne und Schönheit Attraktivität in 3 Kategorien erfasst (unter Durchschnitt = belavg, Durchschnitt = avg, über Durchschnitt = abvavg): Männer: log(wage) = β̂0 – 0,164 belavg + 0,016 abvavg + … (0,046) n = 700, Frauen: (0,033) R2 = 0,403 log(wage) = β̂0 – 0,124 belavg + 0,035 abvavg + … (0,066) n = 409, (0,046) R2 = 0,330 7–27 Lohnabschlag wenn unattraktiv für Männer größer als für Frauen. Lohnzuschlag in beiden Fällen positiv, aber insignifikant (Referenz ist Durchschnitt). • Frage: Wie würden Sie die Hypothese testen, dass das Ausse- hen für die Bezahlung von Männern keine Rolle spielt? • Hat eine ordinale Variable zu viele Kategorien, um diese einzeln zu schätzen, kann man sie in Gruppen zusammenfassen, z.B. Kinderzahl 0-1, Kinder 2-3, Kinder 4-5, Kinder 6-7, Kinder ≥ 8. 7–28 7.3 Interaktion mit Dummy-Variablen 7.3.1 Interaktion zwischen Dummy-Variablen • Bei stetigen Variablen hatten wir Interaktionen genutzt, um die Abhängigkeit partieller Effekte von erklärenden Variablen zuzulassen (vgl. Kapitel 6.2). Man verwendet dabei entweder andere Variablen oder Polynome, d.h. Interaktion mit der gleichen erklärenden Variable (Bsp.: β1 income + β2 income2 +…). • Auch die partiellen Effekte von Dummy-Variablen können von anderen Größen, auch anderen Dummies abhängen, z.B. variiert der Verheiratetenzuschlag beim Lohn mit dem Geschlecht. 7–29 Dies berücksichtigt man in der Regel durch das Hinzufügen eines Interaktionseffektes zu den einzelnen Haupteffekten. • Beispiel: log(wage) = 0,321 – 0,110 female + 0,213 married (0,100) (0,056) (0,055) – 0,301 female · married + … (0,072) (7.14) Auch mit dieser Spezifikation lässt sich der Lohnunterschied für die oben beschriebenen 4 Gruppen abbilden: Wenn female = 0 und married = 0, erhalten wir den Lohn für unverheiratete Männer, d.h. hier die Konstante. Female = 1 und married = 0 ergibt 7–30 den Lohn für unverheiratete Frauen: 0,321 – 0,110. Female = 0, married = 1 für verheiratete Männer: 0,321 + 0,213 und female = 1, married = 1 für verheiratete Frauen: 0,321 – 0,110 + 0,213 – 0,301. Die Vorhersagen sind exakt wie zuvor und beschreiben verschiedene Achsenabschnitte für die vier Gruppen. • Ein Vorteil der Spezifikation mit Interaktionsterm ist, dass man direkt die Signifikanz des Interaktionsterms testen kann, z.B. ob der Effekt des Geschlechts mit dem Familienstand variiert und umgekehrt. 7–31 7.3.2 Interaktion von Dummy- mit stetigen Variablen • Interaktionen können nicht nur dazu genutzt werden, unterschiedliche Achsenabschnitte zu bestimmen, sondern auch, um die Steigungsparameter nach Gruppen getrennt auszuweisen. • Beispiel: log(wage) = (β0 + δ0 female) + (β1 + δ1 female) · educ + u (7.16) Für Männer log(wage) = β0 + β1 educ + u Für Frauen log(wage) = (β0 + δ0) + (β1 + δ1) · educ + u Wenn δ0 und δ1 signifikant von Null verschieden sind, unterscheidet sich das Modell für beide Gruppen. 7–32 7–33 • Das Modell wird wie folgt geschätzt: log(wage) = β0 + δ0 female + β1 educ + δ1 (female · educ) + u (7.17) Wenn δ0 = 0 und δ1 ≠ 0, unterscheidet sich lediglich der partielle Effekt von educ für die Geschlechter, der Achsenabschnitt ist gleich. Wenn δ0 ≠ 0 und δ1 = 0, unterscheidet sich lediglich der Achsenabschnitt und der partielle Effekt von educ ist für beide Gruppen identisch. Mit einem F- (oder LM-) Test lässt sich H0: δ0 = 0, δ1 = 0 testen. 7–34 • Beispiel: Hautfarbe und Gehalt von Baseballspielern log(salary) = 10,34 + 0,0673 years + 0,0089 gamesyr (2,18) (0,0129) (0,0034) + 0,00095 bavg + 0,0146 hrunsyr + 0,0045 rbisyr (0,00151) (0,0164) (0,0076) + 0,0072 runsyr + 0,0011 fldperc + 0,0075 allstar (0,0046) (0,0021) (0,0029) – 0,198 black – 0,190 hispan + 0,0125 black · percblack (0,125) (0,153) (0,0050) 7–35 + 0,0201 hispan · perchisp (0,0098) n = 330 Spieler, R2 = 0,638 years = Jahre in Major League games = Spiele/Jahr in Major Leage bavg = career batting average hrunsyr = home runs per year fldperc = career fielding percent allstar = percent of years an all-star black = 1, Spieler ist schwarz, 0 nicht (7.19) 7–36 hispan = 1, Spieler ist hispanic, 0 nicht percblack = Bevölkerungsanteil Schwarzer in Stadt des Teams (0 – 100) perchisp = Bevölkerungsanteil Hispanics in Stadt des Teams (0 – 100) Teste ob die vier Ethnie-Indikatoren gemeinsam signifikant sind, R2restr. = 0,626. F= (0,638 − 0,626) / 4 0,003 = = 2,63 (1 − 0,638) / (330 − 13) 0,0011 F4, 317, 5% ≈ 2,37, H0 verworfen, Indikatoren am 5%-Niveau gemeinsam signifi7–37 kant. Wenn percblack = 0, erhält ein schwarzer Spieler im Mittel ca. 19,8% weniger Gehalt als ein weißer. Gehalt steigt, wenn Anteil Schwarzer in der Stadt steigt; bei 10% ist Gehaltsunterschied: -0,198 + 0,0125 · 10 = -0,073, Abschlag nur noch 7,3% bei gleicher Qualität der Spieler. Wenn percblack = 20, Aufschlag von 5,2% (beobachteter max. percblack-Wert = 74%). Wenn perchisp = 0, Abschlag von ca. 19% für Hispanics gegenüber weißen Spielern. Ab 9,45% Hispanics Abschlag ausgeglichen. Nicht unterscheidbar, ob Diskriminierung oder evtl. die besten und somit höchstverdienenden schwarzen Spieler in Städten mit schwarzer Bevölkerung spielen wollen. 7–38 • Frage: Wie würden Sie im Modell (7.19) die Hypothese testen, dass der Lohneffekt von years von der Hautfarbe abhängt? 7–39 7.3.3 Gruppenspezifische Unterschiede in der Regressionsfunktion • Mit Interaktionstermen lässt sich prüfen, ob ganze Regressionsgleichungen nach Gruppen unterschiedlich ausfallen. • Beispiel: Collegenoten für männliche und weibliche Sportler cumgpa = β0 + β1 sat + β2 hsperc + β3 tothrs + u cumgpa = kumulierter Grad Point Average sat = SAT-Testpunkte hsperc = Rang der Highschool tothrs = SWS 7–40 • Vollständig interagiertes Modell erlaubt Geschlechterunter- schiede für jeden der Parameter. cumgpa = β0 + δ0 female + β1 sat + δ1 female · sat + β2 hsperc + δ2 female · hsperc + β3 tothrs + δ3 female · tothrs + u (7.20) Gleiches Modell für beide Geschlechter, wenn H0: δ0 = 0, δ1 = 0, δ2 = 0, δ3 = 0 gilt. Schätzergebnis: cumgpa = 1,48 – 0,353 female + 0,0011 sat (0,21) (0,411) (0,0002) 7–41 + 0,00075 female · sat (0,00039) - 0,0085 hsperc – 0,00055 female · hsperc (0,0014) (0,00316) + 0,0023 tothrs (0,0009) n = 366, - 0,00012 female · tothrs (0,00163) R2 = 0,406, (7.22) R 2 = 0,394 Nur ein Interaktionsterm statistisch signifikant. Restringiertes Modell ergibt R2 = 0,352, so dass F = 8,14 mit p < 0,0001. H0 ist klar verworfen. Interpretation der Geschlechterunterschiede schwierig, da viele Effekte gleichzeitig: 7–42 Wenn sat = 1100, hsperc = 10, tothrs = 50, haben Frauen um 0,461 bessere Noten: -0,353 + 0,00075 · 1100 – 0,00055 · 10 – 0,00012 · 50 = 0,461. • F-Test für H0 aufwändig, wenn viele erklärende Variablen. Alternative Formulierung über SSR. • Allgemein: k erklärende Variablen und zwei Gruppen g = 1,2: y = βg,0 + βg,1 x1 + βg,2 x 2 + ... + βg,k xk + u (7.23) 7–43 • H0: βj,g=1 = βj,g=2 mit j = 0, …, k ergibt k+1 Restriktionen. Unrestringiertes Modell hat n–2·(k+1) Freiheitsgrade. • Neu: SSRu kann als Summe der SSR von zwei getrennt geschätzten Regressionen (z.B. eine für Männer, eine für Frauen) bestimmt werden, mit n1 und n2 Beobachtungen. Dann SSRu = SSR1 + SSR2. SSRP bezeichnet die SSR der "gepoolten" Regression unter der Annahme, dass H0 gilt. F= [SSRP − (SSR1 + SSR2 )] /(k + 1) (SSR1 + SSR2 ) / [n − 2(k + 1)] (7.24) 7–44 Dies ist die Teststatistik für den Chow-Test; gültig unter der Annahme, dass beide Gruppen eine identische Fehlertermvarianz haben. • Beispiel: SSRP = 85,515 SSRu = 78,355 F= SSR1 = 19,603 n1 = 90 SSR2 = 58,752 n2 = 276. [85,515 − 78,355] / 4 = 8,18 78,355 / [366 − 2(3 + 1)] > 2,37 = F4,358,5% H0 verworfen. • Alternativ kann das restringierte Modell auch nur einen Teil der Parameter = 0 setzen. Tests sind möglich: (a) Wie in (7.24) ge7–45 trennte Schätzungen, aber das gepoolte Modell enthält auch solche Variablen, für die einheitliche Koeffizienten unterstellt werden. (b) Standard F-Test mit SSRR und SSRu. 7–46 7.4 Binäre Variable als abhängige Variable: Lineares Wahrscheinlichkeitsmodell (LWM) • Ziel: Dichotome Zustände erklären, Beispiel: Abgeschlossene Schulbildung, Drogenmissbrauch, Unternehmensübernahme • Wenn y dichotom, ändert sich Interpretation von βj. Unter MLR.4 gilt immer noch E(u x1,..., xk ) = 0 . Es folgt daher E(y x ) = β0 + β1 x1 + β2 x 2 + ... + βk xk , wobei P(y = 1 x ) = E(y x ) so dass P(y = 1 x ) = β0 + β1 x1 + β2 x 2 + ... + βk xk . (7.27) 7–47 Die Wahrscheinlichkeit, dass y = 1, ist eine lineare Funktion von x1,...,xk. Daher spricht man vom linearen Wahrscheinlichkeitsmodell (LWM). Es gilt: ΔP(y = 1 x ) = β j Δx j • (7.28) In diesem Fall gibt die Prognose ŷ die Wahrscheinlichkeit des Ereignisses y = 1 an. 7–48 • Beispiel: Erwerbstätigkeit von Frauen (1975) inlf = 0,586 – 0,0034 nwifeinc + 0,038 educ + 0,039 exper (0,154) (0,0014) (0,007) (0,006) – 0,00060 exper2 – 0,016 age – 0,262 kidslt6 (0,00018) (0,002) (0,034) + 0,0130 kidsge6 (0,0132) n = 753, inlf (7.29) R2 = 0,264 = 1, wenn erwerbstätig, sonst = 0 nwifeinc = Einkommen des Ehemanns in 1000 $ educ = Jahre Ausbildung 7–49 exper = Arbeitsmarkterfahrung (in Jahren) age = Alter kidslt6 = Anzahl Kinder unter 6 Jahren kidsge6 = Anzahl Kinder ab 6 Jahren Fast alle Variablen signifikant und Vorzeichen entsprechen Erwartungen. Ein Ausbildungsjahr erhöht die Wahrscheinlichkeit um 0,038, d.h. 3,8 Prozentpunkte. Verdient der Ehemann 10.000 $ mehr, so sinkt die Wahrscheinlichkeit der Erwerbstätigkeit der Frau um 0,034 bzw. 3,4 Prozentpunkte. Ein weiteres Jahr Arbeitsmarkterfahrung ändert die Wahrscheinlichkeit, dass 7–50 y = 1 um 0,039 – 2 · 0,0006 · exper, d.h. das Maximum wird nach exper* = 0,0039 / 2 · 0,0006 = 32,5 Jahren erreicht. • Schwächen des LWM: (a) Es ist möglich, dass vorhergesagte Werte außerhalb des (0,1) Intervalls liegen. (b) Es ist oft unplausibel, dass einzelne Variablen über ihren gesamten Wertebereich linear mit der abhängigen Variable zusammen hängen. Beispielsweise reduzieren 4 Kinder unter 6 Jahren die Wahrscheinlichkeit um 4 · 0,262 = 1,048, d.h. um 7–51 über 100 Prozentpunkte! Problem über andere Kodierung lösbar. (c) Das Modell ist heteroskedastisch. Unverzerrtheit bleibt erhalten, aber Standardfehler fehlerhaft und t- und F-Test nicht anwendbar. • Selbstverständlich können lineare Wahrscheinlichkeitsmodelle Dummies als erklärende Variablen verwenden. Die Koeffizienten beschreiben den ceteris paribus Unterschied in der Wahrscheinlichkeit, dass y = 1 für die beiden Gruppen. 7–52 Schlüsselbegriffe Kapitel 7: Qualitative, binäre, dichotome Variable Dummy-Variable dummy variable trap Referenzgruppe control group treatment group Ordinale Information Interaktion Interaktionseffekt Haupteffekt Vollständig interagiertes Modell Chow-Test 7–53 Literatur Kapitel 7: • Wooldridge, Kapitel 7 • Hill / Griffiths / Judge, Kapitel 9 und 18.2 • Stock / Watson, Kapitel 11 7–54 Kapitel 8: Heteroskedastie 8.1 Heteroskedastie und ihre Auswirkungen 8.2 Heteroskedastie-robuste Inferenz 8.3 Tests auf Heteroskedastie 8.4 Gewichtete KQ-Schätzung 8.5 Zum linearen Wahrscheinlichkeitsmodell 8–1 Leitfragen und Lernziele Kapitel 8: • Wie wirkt sich Heteroskedastie auf KQ-Schätzer aus und wie kann man damit umgehen? • Welche formalen Tests gibt es? • Was ist der BLUE-Schätzer bei Heteroskedastie? • Wie kann man im linearen Wahrscheinlichkeitsmodell das Heteroskedastieproblem lösen? 8–2 8.1 Heteroskedastie und ihre Auswirkungen • Homoskedastie: Die Varianz des Störterms u ist – bedingt auf die erklärenden Variablen – konstant und für alle Stichprobenelemente gleich. Dies ist nicht immer plausibel. • Beispiel: Wir prüfen, wie das Haushaltseinkommen (x) die Lebensmittelausgaben (y) beeinflusst. Die Schätzung ergibt ŷ = 40,768 + 0,1283 x. 8–3 Dabei zeigt die Graphik, dass mit steigendem Einkommen die Datenpunkte weiter und weiter von der Regressionsgerade abweichen. • Unter den Annahmen MLR.1–MLR.4 ist der KQ-Schätzer des linearen Modells unverzerrt und konsistent. Dafür ist Annahme 8–4 MLR.5: Var(u x1,x 2 ,...,xk ) = σ 2 nicht erforderlich. KQ-Schätzer sind auch bei Heteroskedastie unverzerrt und konsistent. • Bei Heteroskedastie bleiben R2 und R 2 interpretierbar. • Heteroskedastie führt zu verzerrten Schätzern von Var(β̂ j ), se ( βˆ j ) und so zu falschen t-Statistiken. Auch die F-Statistik folgt nicht mehr der F- und die LM-Statistik nicht mehr asymptotisch der Chi2-Verteilung. • Wenn die Var(u x ) nicht konstant ist, ist KQ nicht BLUE. KQ ist nicht mehr asymptotisch effizient in der Gruppe der konsistenten Schätzer. 8–5 8.2 Heteroskedastie-robuste Inferenz • Die KQ-Standardfehler der geschätzten Parameter lassen sich anpassen, so dass sie auch bei Heteroskedastie unbekannten Ursprungs gültig sind. Man spricht dann von Heteroskedastierobusten Standardfehlern. • Schätzung von Var(β̂ j ) bei Heteroskedastie: Einfaches Modell: y i = β0 + β1 x i + ui , Ann.: MLR.1–MLR.4 gelten, aber Var(ui xi ) = σi2 . 8–6 n • ∑ (xi - x) ui i=1 n β̂1 = β1 + KQ ergibt: ∑ (xi - x)2 i=1 n Daraus ergibt sich Var(βˆ 1 ) = ∑ (xi - x)2 σi2 i=1 n SSTx2 , SSTx = ∑ (xi - x)2 wobei (8.2) i=1 2 σ . Wenn σ = σ , folgt: Var(βˆ 1 ) = SSTx 2 i 2 8–7 • Nach White lässt sich die Varianz bei Heteroskedastie beliebiger Form wie folgt mit KQ schätzen: n Var(βˆ 1 ) = • ∑ (xi - x)2 uˆ i2 i=1 SSTx2 (8.3) Für das allgemeine lineare Modell y = β0 + β1 x1 + β2 x 2 + ... + βk xk + u lautet der White-Schätzer für die Parametervarianz unter den Annahmen MLR.1–MLR.4: 8–8 n Var(βˆ j ) = ∑ rˆij2 uˆ i2 i=1 (8.4) SSR2j Dabei ist r̂ij das Residuum für Beobachtung i, wenn xj auf alle anderen erklärenden Variablen regressiert wird. SSRj ist die Summe der quadrierten Residuen aus dieser Regression. Man nennt die Wurzel von Var(β̂ j ) den Heteroskedastie-robusten Standardfehler von β̂ j (Huber-White-Eicker Standardfehler). Man spricht von Heteroskedastie-robusten t-Werten, wenn sie mit robusten Standardfehlern berechnet wurden. 8–9 • Beispiel: Lohngleichung mit robusten Standardfehlern log(wage) = 0,321 + 0,213 marrmale – 0,198 marrfem (0,100) (0,055) (0,058) [0,109] [0,057] [0,058] – 0,110 singfem + 0,0789 educ + 0,0268 exper (0,056) (0,0067) (0,0055) [0,057] [0,0074] [0,0051] – 0,00054 exper2 + 0,0291 tenure – 0,00053 tenure2 (0,00011) (0,0068) (0,00023) [0,00011] [0,0069] [0,00024] n = 526, R2 = 0,461 (8.6) 8–10 In runden Klammern die herkömmlichen, in eckigen Klammern die robusten Standardfehler. Die Unterschiede sind hier nicht groß und können in beide Richtungen gehen. Normalerweise sind die robusten Standardfehler größer. Wir wissen noch nicht, ob Heteroskedastie vorliegt. • Unter Homoskedastie sind die Originalstandardfehler vorzuziehen, die Teststatistiken folgen exakt der t- oder F-Verteilung. • Bei großen Stichproben ist die asymptotische Legitimation der robusten Standardfehler zutreffender als in kleinen. 8–11 8.3 Der Breusch-Pagan Test auf Heteroskedastie • Lineares Modell y = β0 + β1 x1 + β2 x 2 + ... + βk x k + u (8.10) Ann.: MLR.1–MLR.4 gelten, insbesondere E(u x1,x 2 , ...,xk ) = 0 , so dass KQ unverzerrt und konsistent ist. • H0: Var(u x1,x 2 ,...,xk ) = σ 2 (8.11) da E(u x1,x 2 , ...,xk ) = 0 folgt Var(u x ) = E(u2 x ) , so dass H0: E(u2 x1,x 2 , ...,xk ) = E(u2 ) = σ 2 8–12 • Wir prüfen, ob u2 mit erklärenden Variablen korreliert ist. Dann gilt H0 nicht. • Wenn u2 = δ0 + δ1 x1 + δ2 x 2 + ... + δk xk + ν (8.12) dann folgt unter Homoskedastie H0: δ1 = δ2 = … = δk = 0. (8.13) Es wird unterstellt, dass ν von x1, x2, …, xk unabhängig ist. Um (8.13) zu testen, können wir den F- oder LM-Test verwenden. Man approximiert u2 durch û2 , schätzt: û2 = δ0 + δ1 x1 + δ2 x 2 + ... + δk xk + Fehler (8.14) und berechnet die F- oder LM-Teststatistiken, z.B. via Rû22 : 8–13 F= Rû22 / k (1- Rû22 ) / (n - k - 1) . (8.15) Diese F-Statistik wird nach der Schätzung von (8.14) stan2k χ ~ 22 u R n = M L dardmäßig ausgewiesen. Die LM-Statistik lautet ⋅ ˆ (8.16) und wird Breusch-Pagan-Test auf Heteroskedastie genannt. • Beispiel: Hauspreis-Regression und Heteroskedastie price = -21,77 + 0,00207 lotsize + 0,123 sqrft + 13,85 bdrms (29,48) (0,00064) n = 88, R2 = 0,672 (0,013) (9,01) (8.17) 8–14 Man sieht der Gleichung nicht an, ob Heteroskedastie vorliegt. Eine Regression von û2 auf die erklärenden Variablen ergibt 0,1601 84 ⋅ = 5,34 Rû22 = 0,1601, was bei n = 88 und k = 3 F = 1 − 0,1601 3 ergibt mit p = 0,002. Der LM-Test mit 88 · 0,1601 = 14,09 ergibt p = 0,0028, so dass Homoskedastie verworfen werden kann. • Frage: Wie lautet im Beispiel H0? Alternativ kann man eine logarithmische Formulierung wählen: 8–15 log(price) = -1,30 + 0,168 log(lotsize) + 0,700 log(sqrft) (0,65) (0,038) (0,093) + 0,037 bdrms (0,028) n = 88, R2 = 0,643 (8.18) Hier ergibt sich Rû22 = 0,048, F = 1,41 mit p = 0,245 und LM = 4,22 mit p = 0,239, so dass Homoskedastie nicht verworfen werden kann. Dies ist ein häufiger Vorteil logarithmischer Formulierungen. 8–16 • Vermutet man, dass Heteroskedastie auf ganz bestimmte erklärende Variablen zurückgeht, so lässt sich der Breusch-PaganTest modifizieren, indem man û2 direkt nur auf diese relevanten Variablen regressiert und einen F- oder LM-Test oder sogar tTest durchführt. Die Freiheitsgrade variieren mit der Anzahl der Regressoren in der Gleichung für û2 . • Es existieren eine Reihe alternativer Testverfahren. 8–17 8.4 Gewichtete KQ-Schätzung • Kennt man die Ursache der Heteroskedastie, so gibt es Korrekturverfahren für die KQ-Schätzung, die zu effizienteren Schätzern als KQ führen und zu exakt t- und F-verteilten t- und FStatistiken. 8–18 8.4.1 Heteroskedastie als multiplikativer Faktor • Es wird unterstellt, dass h(x) eine Funktion aller erklärenden Variablen ist, wobei h(x) bekannt ist und h(x) > 0, und dass (8.21) Var(u | x ) = σ 2 h( x ) Für jede Beobachtung i gilt: σi2 = Var(ui x i ) = σ2 h( x i ) = σ2 hi , wobei x alle erklärenden Variablen repräsentiert. • sav i = β0 + β1 inc i + ui Beispiel: (8.22) Var(ui | inc i ) = σ 2 ⋅ inc i (8.23) Die Störtermvarianz ist proportional zum Einkommen, d.h. je höher das Einkommen, umso unsicherer ist der Sparbetrag, 8–19 wobei dieser bei β1 > 0 im Mittel mit dem Einkommen steigt. Da inc > 0, ist die Varianz von u stets positiv. • Um eine Schätzung mit homoskedastischen Fehlern zu erzeugen, wird die Originalgleichung transformiert. Statt yi = β0 + β1 xi1 + β2 xi2 + ... + βk xik + ui (8.24) wird nun jede Variable einschließlich der Konstanten transformiert und man schätzt: yi ( ) ( hi = β0 1 hi + β1 xi1 bzw. ) ( hi + ... + βk xik ) ( hi + ui hi ∗ ∗ y∗i = β0 xi0 + β1 xi1∗ + β2 xi2 + ... + βk xik∗ + ui∗ ) (8.25) (8.26) 8–20 • Zuvor hatten wir: Var(u x ) = σ2h( x ) Jetzt folgt: Var(u∗ x ) = Var(u h x) = 1 ⋅ Var(u x ) = σ 2 h und damit gilt Homoskedastie. • Da x ∗i0 = 1 h i , wird das Modell ohne echte Konstante ge- schätzt. Alle Variablen werden durch hi geteilt. Die Parameter des ursprünglichen Modells werden nun effizient geschätzt und auf Basis von (8.24) interpretiert. 8–21 • Beispiel: Das transformierte Modell ist sav i inc i = β0 1 inc i + β1 inc i + ui∗ , ( ) β1 ist nach wie vor die marginale Sparrate. • Wenn das Originalmodell mit Ausnahme der Homoskedastie die Annahmen MLR.1–MLR.6 erfüllt, so auch das transformierte Modell. • Schätzt man (8.26) mit KQ, so nennt man diesen Schätzer den generalized least squares (GLS) oder verallgemeinerten KQ-Schätzer. Standardfehler, t- und F-Statistik sind korrekt und der Schätzer für σ2 unverzerrt. GLS-Schätzer sind BLUE 8–22 und damit effizienter als KQ. Das R2 aus (8.26) kann für FTests verwendet werden, ist aber ansonsten wenig informativ. • Die Anwendung des GLS-Verfahrens auf den Fall der Heteroskedastiekorrektur bezeichnet man als weighted least squares (WLS) oder gewichteten KQ-Schätzer. Hier werden die Parameter so gewählt, dass sie die gewichtete Summe der quadrierten Residuen minimieren. Das individuelle Gewicht beträgt in der Zielfunktion 1 / hi . Dadurch ist das Gewicht von Beobachtungen mit kleiner Varianz hoch und das Gewicht von Beobachtungen mit hoher Varianz niedrig. KQ verwendet hin8–23 gegen für alle i das gleiche Gewicht. WLS minimiert n ∑ (yi − β0 − β1 xi1 − β2 xi2 − ... − βk xik )2 i=1 n hi ∗ ∗ = ∑ (y∗i − β0 xi0 − β1 xi1∗ − β2 xi2 − ... − βk xik∗ )2 . (8.27) i=1 • Der WLS-Schätzer, der (8.27) minimiert, ist der KQ-Schätzer aus (8.26). Die quadrierten Residuen in (8.27) sind mit 1 / hi gewichtet, während die einzelnen Variablen in (8.26) mit der Wurzel, 1 hi , gewichtet sind. 8–24 • WLS-Schätzer können für beliebige Gewichte bestimmt werden. Der effiziente GLS-Schätzer gewichtet jedes quadrierte Residuum mit der inversen und auf xi bedingten Varianz von ui. • Die Programmierung von Hand kann aufwändig sein, ist aber bei den meisten Statistikprogrammen nicht erforderlich. Die Interpretation von WLS nutzt das Originalmodell (8.24). • Beispiel: Schätzung der Sparfunktion (3.A.) 8–25 8–26 Die marginale Sparneigung in der einfachen KQ-Schätzung beträgt 0,147 mit einem t-Wert von 2,53. Bei WLS-Schätzung steigt der Koeffizient auf 0,172 und t auf 3,02. KQ- und WLSStandardfehler sind sehr ähnlich. Die Konstanten für WLS sind nicht zu interpretieren und das R2 ist nicht mit dem von KQ zu vergleichen. In Spalten 3 und 4 werden zusätzliche erklärende Variablen berücksichtigt, die einzeln ebenso wie gemeinsam insignifikant sind. Insofern scheint die Spezifikation der Spalten 1 und 2 ausreichend. 8–27 • Frage: Regressiert man û2 aus Spalte (1) auf inc, so ergibt sich ein t-Wert von 0,96. Sollte man WLS verwenden? • Bislang haben wir unterstellt, dass wir die wahre Form der Heteroskedastie (8.21) kennen. • Wenn die wahre Form aber anders aussieht, ist WLS nach wie vor unverzerrt und konsistent, aber die Standardfehler, t- und FStatistiken sind falsch. Man kann auch nach WLS-Schätzung noch robuste Standardfehler bestimmen. 8–28 • Beispiel: Statt Var(ui inc i ) = σ 2 ⋅ inc i könnte gelten Var(ui inc i ) = σ 2 ⋅ inc i2 oder Var(ui inc i ) = σ 2 ⋅ (inc + α0 educ + α1 age) • Der Effizienzvorteil von WLS trifft nur zu, wenn die Hypothese zur Ursache der Heteroskedastie stimmt. 8–29 8.4.2 Feasible GLS: Wenn Heteroskedastie unbestimmt ist • Wir unterstellen Var ( u x ) = σ2 h ( x ) . Im Normalfall weiß man nicht, wie h(xi) aussieht. Es lässt sich jedoch schätzen und die Transformation anschließend mit ĥi statt hi durchführen. Man spricht vom feasible GLS (FGLS) oder estimated GLS (EGLS) Schätzer. • Ein flexibler Ansatz, h zu schätzen, ist Var(u x ) = σ2 exp(δ0 + δ1 x1 + δ2 x 2 + ... + δk xk ) (8.30) wobei x1,…, xk die erklärenden Variablen des Modells und δj unbekannte Parameter sind. Vorteil der Exponentialfunktion ist, 8–30 dass sich immer positive Werte zur Berechnung der Varianz ergeben. • Um die Parameter δ0 – δk aus den Daten zu bestimmen, schreiben wir zunächst wobei x ν E u2 = σ2 exp( δ0 + δ1 x1 + δ2 x 2 + ... + δk xk ) ⋅ ν , ( ) = 1. Wenn ν von x unabhängig ist, können wir schreiben log(u2 ) = α 0 + δ1 x1 + δ2 x 2 + ... + δk xk + e , (8.31) wobei E(e x ) = 0 . Da die Gauss-Markov Annahmen zutreffen, lässt sich (8.31) unverzerrt schätzen. Wir ersetzen u durch û 8–31 und regressieren log(û2 ) auf x1, x2, …, xk, was konsistente Parameterschätzer ergibt. Der vorhergesagte Wert ist ĝi , so dass hˆ i = exp(gˆ i ) (8.33) 1 Dies lässt sich als Gewicht in der WLS-Schätzung einsetzen. ĥ • Hätte man die wahren hi, so ergäbe WLS BLUE-Schätzer, vorausgesetzt, dass die Heteroskedastie zutreffend modelliert ist. • Mit FGLS und ĥi ist der Schätzer nicht mehr unverzerrt - also auch nicht BLUE - aber konsistent und asymptotisch effizienter als KQ. Insbesondere bei großen n ist FGLS präziser als KQ. Auch hier lassen sich noch robuste Standardfehler ausweisen. 8–32 • Anstatt wie in (8.31) log(û2 ) auf die erklärenden Variablen zu regressieren, lassen sich die Gewichte und die vorhergesagten Werte von ĝi auch aus der Regression von log(û2 ) auf yˆ und yˆ 2 bestimmen. • Frage: Angenommen wir nutzen Modell (8.30) für die WLS Schätzung, aber (8.30) trifft nicht zu. Was ist die Auswirkung und was kann man tun? • Beispiel: Nachfrage nach Zigaretten (KQ-Standardfehler) cigs = -3,64 + 0,880 log(income) – 0,751 log(cigpric) (24,08) (0,728) (5,773) 8–33 – 0,501 educ + 0,771 age – 0,009 age2 – 2,83 restaurn (0,167) n = 807, (0,160) (0,0017) (1,11) R2 = 0,0526 cigs = Anzahl tatsächlich gerauchter Zigaretten income = Jahreseinkommen cigpric = Preis pro Päckchen (in cents) educ = Jahre der Ausbildung age = Alter in Jahren (8.35) restaurn = 1, wenn im Bundesland gesetzliche Regeln gegen Rauchen in Restaurants vorliegen, sonst 0. 8–34 Einkommen und Preis haben kleine insignifikante Effekte. Bei einem um 1% höheren Einkommen würden zusätzlich im Mittel ca. 0,0088 Zigaretten mehr pro Tag vorhergesagt. Bildung reduziert (ceteris paribus) signifikant den Zigarettenkonsum. Im Mittel steigt der Zigarettenkonsum bis Alter 42,83 an, dann fällt er. Die gesetzliche Regelung scheint effektiv zu sein und den mittleren Zigarettenkonsum um fast 3 pro Tag zu reduzieren. Breusch-Pagan-Test: û2 auf erklärende Variablen regressiert generiert Rû22 = 0,04, damit ist LM = 807 · 0,04 = 32,28 und Homoskedastie wird klar verworfen. 8–35 Eine WLS-Schätzung ergibt cigs = 5,64 + 1,30 log(income) – 2,94 log(cigpric) (17,80) (0,44) (4,46) – 0,463 educ + 0,482 age – 0,0056 age2 – 3,46 restaurn (0,120) n = 807, (0,097) R2 = 0,1134 (0,0009) (0,80) (8.36) Nun ist der Einkommenseffekt größer und signifikant, der Preiseffekt ist deutlich größer. Die anderen Effekte haben sich nicht substantiell geändert. 8–36 • Wenngleich KQ konsistent ist, können sich die Schätzergebnisse bei KQ und WLS wegen des Stichprobenfehlers besonders bei kleinen n unterscheiden. Wenn sich die Ergebnisse grundlegend unterscheiden, liegen typischerweise noch andere Probleme vor, bspw. mit Annahme MLR.4. Dann sind KQ und WLS verzerrt und inkonsistent. 8–37 8.4.3 Konsequenz fehlspezifizierter Heteroskedastie • Solange MLR.4 gilt, führt eine unzutreffende Korrektur mit Var ( y x ) ≠ σ2 h ( x ) nicht zu verzerrten oder inkonsistenten Schätzern. ( Solange ) E (u x ) = 0, ist auch E u / h ( x ) x / h ( x ) = 0. • Wenn h allerdings Parameterschätzer enthält, z.B. h ( x,δˆ ) , so kann die Unverzerrtheit verloren gehen. Die Konsistenz der WLS-Schätzer bleibt erhalten. 8–38 • Fehlspezifizierte Heteroskedastie führt zu falschen Standardfehlern und Teststatistiken. In diesem Fall können Heteroskedastie-robuste Standardfehler ausgewiesen werden. • Wenn die Heteroskedastie fehlspezifiziert ist, muss WLS nicht effizienter sein als KQ. Allerdings bringt WLS in den meisten Fällen eine Verbesserung und die robusten Standardfehler von WLS sind effizienter als die des KQ-Schätzers. 8–39 8.5 Zum linearen Wahrscheinlichkeitsmodell • Wenn y eine binäre abhängige Variable ist, ergibt sich automatisch Heteroskedastie. Man kann robuste Standardfehler ausweisen. Da die Form der Heteroskedastie bekannt ist, lässt sich auch ein FGLS-Schätzer bestimmen. • Wir wissen Var(y x) = p(x) [1- p(x)] (8.45) wobei p(x) = β0 + β1 x1 + ... + βk xk (8.46) die Wahrscheinlichkeit von y = 1 angibt. Mit Hilfe der KQSchätzer lässt sich ŷ als Schätzer der Wahrscheinlichkeitsfunk- 8–40 tion p(x) und damit die Var ( yi x i ) schätzen: hˆ = yˆ (1- yˆ ) i i (8.47) i Damit lässt sich nun wie zuvor FGLS schätzen. Allerdings kann passieren, dass ŷi < 0 oder ŷi > 1, was zu negativem ĥi führt. Da WLS ĥi benötigt, ist das Verfahren dann nicht anwendbar. In solchen Fällen gibt man robuste Standardfehler an und führt keine FGLS-Schätzung durch. • Beispiel: Determinanten von PC-Besitz Die abhängige Variable (0/1) beschreibt, ob ein Studierender einen PC besitzt. 8–41 PC = -0,0004 + 0,065 hsGPA + 0,0006 ACT + 0,221 parcoll (0,4905) (0,137) (0,0155) (0,093) [0,4888] [0,139] [0,0158] [0,087] n = 141, R2 = 0,0415 (8.48) hsGPA = High School Notendurchschnitt ACT = Leistungstest Ergebnis parcoll = 1, wenn Eltern Collegebildung hatten, sonst 0 (8.48) gibt KQ- und robuste Standardfehler, die sich kaum unterscheiden. Führt man eine WLS-Schätzung durch (alle 141 Vorhersagen fielen hier in das (0,1) Intervall), so ergeben sich 8–42 ebenfalls keine wesentlichen Unterschiede: PC = 0,026 + 0,033 hsGPA + 0,0043 ACT + 0,215 parcoll (0,477) (0,130) n = 141, R2 = 0,0464 (0,0155) (0,086) (8.49) 8–43 Schlüsselbegriffe Kapitel 8: Homoskedastie Heteroskedastie-robuste Standardfehler Huber-White-Eicker-Standardfehler Breusch-Pagan-Test Gewichtete KQ-Schätzung Verallgemeinerte KQ-Schätzer Gewichteter KQ-Schätzer estimated GLS (EGLS) Heteroskedastie White-Schätzer Heteroskedastie-robuste t-Werte generalized least squares (GLS) weighted least squars (WLS) feasible GLS (FGLS) 8–44 Literatur Kapitel 8: • Wooldridge, Kapitel 8 • Von Auer, Kapitel 17 • Hill / Griffiths / Judge, Kapitel 11 • Stock / Watson, Kapitel 5.4 8–45