Leitfragen und Lernziele Kapitel 1: Kapitel 1: Einführung und Repetitorium • 1.1 Technische Bemerkungen Womit beschäftigt sich die Ökonometrie, wie geht man bei empirischen Analysen vor? 1.2 Einführung: Ökonometrie und Daten APPENDIX A Mathematische Grundlagen • Welche Datenstrukturen gibt es? • Wie unterscheiden sich Kausalität und Korrelation? • Welche Vorkenntnisse werden vorausgesetzt? B Grundlagen der Wahrscheinlichkeitsrechnung C Statistische Grundlagen 1–1 1–2 Hilfsmittel: 1.1 Technische Bemerkungen - Wörterbuch für ausländische Studierende 1.1.1 Vorlesung Termin: - Formelsammlung wird bereitgestellt Montag, 9:45-11:15 H4, ab 15.4.2013 Folien: nicht: 15.7. Ersatztermine: 26.4. 9:45-11:15 H4. Sprechstunde: Klausur: - Nicht programmierbarer Taschenrechner (i) Nach Vorlesung (ii) Nicht per E-Mail Download unter: www.lsw.wiso.uni-erlangen.de → Studium → Bachelor → Praxis d. emp. W. Praxisvorträge: Gegen Ende des Semesters bieten wir Ihnen im Rahmen der Vorlesung Kurzvorträge zur Bedeutung empirischen Arbeitens in der Berufspraxis Termin setzt Prüfungsamt Dauer: 90 Minuten (ca. 50 Punkte offene Fragen, an. ca. 40 Punkte w/f, MC) 1–3 1–4 1.1.3 Tutorien 1.1.2 Übungen Anmeldung über StudOn erforderlich Ab Semestermitte werden parallele klausurvorbereitende Tutorien Teil 1: PC Übungen angeboten. Bitte Aushang und Webseite beachten Teil 2: Termine: Hörsaal Übungen siehe www.lsw.wiso.uni-erlangen.de Tipp: - Suchen Sie sich eine Übung mit kleiner Studierendenzahl - Parallelveranstaltungen, gleiches Programm - Beginn: 17. Kalenderwoche (ab 23.4.) - Lehrveranstaltungen im PC-Pool, siehe Aushang, Webseite 1–5 1–6 1.1.4 Lehrbuch 1.1.5 Hausarbeit Die Veranstaltung folgt dem Lehrbuch: Jeffrey M. Wooldridge, • Durch das Erstellen einer freiwilligen empirischen Hausarbeit Introductory Econometrics. A Modern Approach, 5. Auflage, 2013, können Sie Ihre SPSS Kenntnisse vertiefen und erste Erfah- South-Western CENGAGE Learning rungen im Arbeiten mit Daten sammeln. Bei Notenverbesserung wird die Note der Hausarbeit zu 20% auf Ihre Gesamtnote (unabhängig vom Ausgang der Klausur) angerechnet. • Die Note wird angerechnet, wenn Sie die Klausur im laufenden oder im folgenden Semester antreten. Anschließend verfällt die Note; die Hausarbeit kann dann neu angefertigt werden. 1–7 1–8 • Sie können sich in Gruppen von bis zu 3 Personen bis zum 8.5.2013 zur Hausarbeit anmelden. Die Themen werden ab • Lesen Sie voraus Detailinformationen im Netz). • Arbeiten Sie die Folien mehrfach durch Die Bearbeitung der Hausarbeit erfordert, dass Sie selbständig • Arbeiten Sie in Kleingruppen mit SPSS umgehen und sich diesbezügliche Problem- • Wiederholen Sie den Stoff frühzeitig, um Lücken zu erkennen • Hilfsmittel: Leitfragen der Kapitel dem 13.5.2013 vergeben. Abgabetermin ist der 12.08.2013. (s. • lösungskompetenzen aneignen. Die Hausarbeiten setzen teilweise die Vorlesungsinhalte der letzten Semesterwochen vo- • 1.1.6 Lerntipps raus, so dass die sofortige Lösung nicht immer optimal ist. Schlüsselbegriffe am Kapitelende Die Hausarbeiten umfassen im Normalfall 2 bis 3 Seiten. Die Fragen im Lehrbuch (mit Antworten im Anhang F) Antworten sollten im Fließtext (keine Stichworte) verfasst sein. 1–9 1.1.7 Ziele der Veranstaltung 1–10 Motivation: Ziel 1: Interesse am empirischen Arbeiten wecken (Gastvorträge, Auswertung Ihrer Daten) (1) Empirisches Arbeiten macht Spaß (2) Methode ist gängiges Instrumentarium in Wissenschaft und Ziel 2: Vermittlung von Grundkenntnissen zu Praxis (1) Datenverarbeitung am PC (3) Mit empirischen Verfahren lassen sich Fragen beantworten, (2) Intuition und Vorgehensweise des Kleinstquadrateverfahrens theoretisch abgeleitete Hypothesen testen (Stichwort: kritischer Rationalismus), Prognosen erstellen, Evaluationen (3) Eigenschaften von Schätzverfahren und Anwendungen durchführen (4) Fehlerquellen beim empirischen Arbeiten 1–11 1–12 1.1.8 Gliederung der Veranstaltung 1.1.9 Anforderungen der Veranstaltung 1. Einführung und Repetitorium • Englischsprachiges Lehrbuch 2. Das einfache Regressionsmodell • Überblick über „Ökonometrie“ verschaffen (Fortsetzungsveran- 3. Multiple Regression: Schätzung 4. Multiple Regression: Inferenz • PC-Kompetenz erwerben, insbes. SPSS 5. Asymptotische Eigenschaften des KQ Schätzers • Schlüsselbegriffe und Methoden verstehen 6. Anwendungen des KQ Schätzers • Grundverständnis für empirisches Arbeiten erwerben 7. Binäre Variablen • Teilweise werden Konzepte aus der Veranstaltung "Statistik" staltung folgt im Wintersemester) wiederholt und vertieft. 1–13 1–14 Kapitel 1: Einführung und Repetitorium 1.2 Einführung: Ökonometrie und Daten 1.1 Technische Bemerkungen 1.2.1 Ökonometrie und empirische Analyse 1.2 Einführung: Ökonometrie und Daten • Ökonometrie nutzt statistische Methoden, um ökonomische oder soziale Zusammenhänge zu quantifizieren, Theorien zu APPENDIX testen, Prognosen zu erstellen, Regierungs- und Geschäftspoli- A Mathematische Grundlagen tiken zu evaluieren. B Grundlagen der Wahrscheinlichkeitsrechnung • Die Anwendungen finden sich in zahlreichen Gebieten. C Statistische Grundlagen • Im Normalfall liegen Beobachtungsdaten vor, die vom Forscher gesammelt werden (Gegenteil: im Labor erhobene Experimentaldaten). 1–15 1–16 • Beispiel 1: crime = β0 + β1 legaler Lohn Vorgehensweise der „Empirischen“ Analyse (1) Präzise Frage formulieren + β2 illegaler Lohn + … + u (2) Ökonomisches Modell ableiten, um Verhalten zu erklä- u wird Störterm, Residuum oder Fehlerterm genannt. ren z.B.: y = f ( x1, x2, …, x7 ), β0, β1, β2 sind konstante Parameter des Modells, geben Art und Ausmaß der Zusammenhänge zwischen crime crime = f ( legaler Lohn, illegaler Lohn, … ) (3) und Lohn an. Ökonometrisches Modell aufstellen, d.h. Konkretisieren von f und allen Variablen. Nicht alle Faktoren sind Beispiel 2: Konkretisierung einer allgemeinen Gleichung beobachtbar, eine Restgröße (u) bleibt immer. für den Stundenlohn: wage = f ( educ, exper, female ): wage = β0 + β1 educ + β2 exper + β3 female + u 1–17 Beispiel 3: Zusammenhang zwischen Einkommen der Generationen einer Familie: 1–18 (4) Hypothesen formulieren z.B.: Lohn der legalen Beschäftigung hat keinen Einfluss Einkommen_Kind = β0 + β1 Einkommen_Eltern + ... + u Beispiel 4: Rolle von Korruption für nationales Wirt- auf kriminelle Aktivität: β1 = 0 z.B.: Die Löhne von Frauen und Männern sind im Mittel gleich: β3 = 0 schaftswachstum: Wachstum = β0 + β1 Korruptionsintensität + β2 Bildung + z.B.: Je höher das Einkommen der Eltern, umso höher das ihrer Kinder: β1 > 0 ... + u z.B.: Korruption ist für das Wachstum schädlich: β1 < 0 (5) Daten sammeln (6) Modell ökonometrisch schätzen und Hypothesen testen 1–19 1–20 (7) Gelegentlich: Ergebnisse für Prognosen nutzen 1.2.2 Datenstrukturen 1.2.2.1 Querschnittsdaten • Querschnittsdaten beschreiben eine Stichprobe von Beobachtungen zu einem Zeitpunkt. • Typische Annahme: Zufallsstichprobe aus der Grundgesamtheit. • Mikrodatenbeispiel für Querschnittsdaten: 1–21 1–22 1.2.2.2 Zeitreihendaten • Zeitreihendaten beschreiben die Entwicklung einzelner Variablen über die Zeit • Vergangenheit beeinflusst die Gegenwart, Zeit ist ein relevanter Faktor, Reihenfolge der Beobachtungen bedeutsam • Messfrequenz kann sehr verschieden sein: minutengenaue Aktienpreise, wöchentliche Umsätze, Jahresinflation, … 1–23 • Besonderheit: Saisonalität • Zeitreihendatenbeispiel 1–24 1.2.2.3 Gepoolte Querschnitte • Kombination von Querschnittserhebungen verschiedener Zeitpunkte • Erlaubt, Wirkung von Änderungen zu messen, z.B. Auswirkung der Änderung der Grundsteuer auf die Immobilienpreise: 1–25 1–26 1.2.2.4 Paneldaten • Wiederholte Messungen für jede Beobachtungseinheit (z.B. Individuen, Firmen, Regionen) • Beispiel: 2-Jahres-Panel für 150 Städte (300 Beobachtungen), je eine Beobachtung von 1986 und eine von 1990. 1–27 1–28 1.2.3 Kausalität und die ceteris paribus Interpretation • Häufig von zentralem Interesse: Kausaler Effekt der Variable X auf Variable Y. Nicht jede Korrelation beschreibt einen kausalen Zusammenhang! • Die ceteris paribus Interpretation beschreibt den kausalen Effekt einer Größe X auf Y unter der Annahme, dass alle anderen Einflussfaktoren konstant bleiben. Beispiel: Effekt von PKW-Preisen auf die PKW-Nachfrage, bei gegebenen Preisen für Benzin, Versicherung, andere PKWTypen 1–29 • Wenn es gelingt, alle anderen relevanten Faktoren konstant zu 1–30 • halten, lässt sich der ceteris paribus Effekt als kausale Wirkung Problem bei nicht-experimentellen bzw. Beobachtungsdaten: (a) Individuen wählen Schulbildung. interpretieren. (b) Bei langer Bildung wenig Berufserfahrung, muss heraus- Man kann sich aber selten sicher sein, dass alle relevanten gerechnet werden. Faktoren erfasst wurden. • Hilfreich, um kausale Effekte zu etablieren: Experimente • Beispiel 1: Effekt von Düngung auf Sojabohnenernte (c) Hohe Fähigkeiten führen zu Bildung und hohen Löhnen. • dung von Kriminalität? – Simultanitätsproblem → Experiment denkbar • Beispiel 3: Führt die Zahl der Streifenpolizisten zur Vermei- • Beispiel 2: Auswirkung von Schulbildung auf Löhne Beispiel 4: Auswirkung von Mindestlöhnen auf die Arbeitslosigkeit? – Experiment in Verbindung mit Zeitreihendaten denk- → Experiment schwierig bar 1–31 1–32 Kapitel 1: Einführung und Repetitorium APPENDIX 1.1 Technische Bemerkungen A Mathematische Grundlagen 1.2 Einführung: Ökonometrie und Daten A.1 Das Summenzeichen und deskriptive Statistiken APPENDIX • Die Summe einer Reihe von n Werten einer Variable X lässt sich schreiben als ∑ (A.1) 1 = i B Grundlagen der Wahrscheinlichkeitsrechnung xn + . . . + x2 + x1 ≡ xi n A Mathematische Grundlagen C Statistische Grundlagen • Für eine Konstante c ergibt sich n ∑c = n ⋅c (A.2) i=1 1–33 • n Sowie n ∑ c ⋅ xi = c ∑ xi i=1 • Für Mittelwerte gilt n ∑ (xi - x) = 0 Für Zahlenpaare X und Y sowie Konstanten a und b gilt n i =1 n n = a∑ x i + b∑ y i i =1 (A.4) i =1 Der Durchschnitt oder Mittelwert aus n Zahlen {xi: i =1,…,n} x= 1 n ∑ xi n i=1 , (A.6) i=1 berechnet sich als • • i=1 ∑ (a xi + b yi ) • (A.3) 1–34 da n n n n i=1 i=1 i=1 i=1 n ∑ di = ∑ (xi - x) = ∑ xi - ∑ x = ∑ xi - nx = nx - nx = 0 i=1 n ⎛1 ⎞ n = ∑ xi - n ⎜ ∑ xi ⎟ = ∑ x i -∑ xi = 0 i=1 i=1 ⎝ n i=1 ⎠ i=1 n n (A.5) Der Stichprobenmittelwert ist eine beschreibende Statistik für eine bestimmte Variable. 1–35 1–36 • Eine häufig verwendete Umformung ist n ∑ ( xi − x ) ( n i=1 i=1 y × x n yi xi n ∑ 1 = i i=1 2 ︶ n i=1 ∑ (xi - x)2 = ∑ (xi2 - 2xi x + x 1 = i n ) = yi x xi = ︵ ∑ was sich wie folgt ergibt: n )=∑ ( n i=1 i=1 1 = i i=1 (A.7) y yi xi n ∑ (xi - x)2 = ∑ xi2 - n(x)2 , y yi n Ebenso lässt sich für 2 Variablen {(xi,yi): i =1,…,n} zeigen: n • (A.8) ) = ∑ xi2 - 2x ∑ xi + n(x)2 n n i=1 i=1 = ∑ xi2 - 2n(x)2 + n(x)2 =∑ xi2 - n(x)2 1–37 • Beispiel: Zusammenhang Mietausgaben – Einkommen: A.2 Eigenschaften linearer Funktionen • Wenn der Zusammenhang zwischen Variablen x und y dargestellt werden kann als y = β0 + β1 x, 1–38 housing expenditure = 164 + 0,27 income, (A.11) von jedem zusätzlich verdienten Euro Einkommen geht im Mit(A.9) tel ein Betrag von 27 Cent in die Miete. ist y eine lineare Funktion von x und die Parameter β0 und β1 beschreiben die Beziehung zwischen x und y. β0 heißt Achsenabschnitt, β1 Steigungsparameter. • Eine Änderung von x ändert y um den Faktor β1: ∆y = β1 ∆ x1 (A.10) β1 ist hier der konstante, marginale Effekt von x auf y. 1–39 1–40 • Lineare Beziehungen lassen sich auch für mehr als zwei Variablen darstellen: y = β0 + β1 x1 + β2 x2 • Beispiel: Die Nachfrage nach CDs hängt ab von deren Preis und dem individuellen Einkommen: (A.12) quantity = 120 – 9,8 price + 0,03 income, β0 ist der Achsenabschnitt, β1 und β2 sind Steigungsparameter. wobei price in $ pro CD und income in $ gemessen ist. Bei ge- giert. gebenem Einkommen reduziert ein Preisanstieg um einen $ die y x2 y x1 Δ Δ Δ Δ = = β2 β1 β1 (β2) beschreibt, wie stark y auf Änderungen in x1 (x2) rea- , wenn ∆x2= 0 Nachfrage nach CDs um 9,8 Stück. Bei einem um 100 $ höhe- und ren Einkommen steigt die Nachfrage - bei gegebenen Preisen um 3 Stück. , wenn ∆x1= 0 1–41 • A.3 Anteile und Prozentgrößen • 1–42 selbst eine Prozentgröße ist: Anteilswerte lassen sich durch Multiplikation mit 100 als Pro- Absolute Änderung: ∆x = x1 – x0, Änderung in Prozentpunk- zentgrößen ausdrücken und umgekehrt. Beispiel: 82 100 Relative Änderung über die Zeit: x Δ x0 = x0 - x0 x1 • Relative Änderung: (A.14) x Δ ist ein Anteilswert, der zu einer Prozentgröße umformuliert wer0 x den kann: % ∆x = 100 · • ten, = 0,82 ist der Anteil der Erwachsenen mit Schul- abschluss, d.h. 0,82 · 100 = 82% Wichtig: Korrekte Ausdrucksweise, wenn die betrachtete Größe (A.15) • Δx · 100, Änderung in Prozent. x0 Beispiel: Anstieg der Mehrwertsteuer von 15 % auf 18 % um 3 (18 − 15 ) = 0,2 → um 20 Prozent Prozentpunkte, bzw. 15 Beispiel: Einkommensanstieg von 30 000 auf 33 750 Euro pro Jahr: 3750 / 30 000 = 0,125, d.h. 100 · 0,125 = 12,5% 1–43 1–44 Steigung = A.4 Eigenschaften wichtiger Funktionen • Um fallende Grenzerträge abbilden zu können, benötigt man quadratische Funktionen 2 y = β0 + β1 x + β2 x . • Δy = β1 + 2 β2 x Δx Beispiel: wage = 5,25 + 0,48 exper – 0,008 exper2 Maximum der Lohnkurve bei: exper = (A.16) (A.18) 0,48 = 30 2 ⋅ 0,008 Wenn β1 > 0, β2 < 0 ergibt sich eine umgekehrt U-förmige Parabel, mit einem Maximum an der Stelle x= • β1 . -2β2 (A.17) In diesem Fall ist der marginale Effekt von x auf y davon abhängig, an welcher Ausprägung von x man sich befindet. Die Steigung fällt mit wachsendem x, solange β2 < 0: 1–45 • Wir verwenden im Regelfall den natürlichen Logarithmus, hier geschrieben als y = log(x) 1–46 • Rechenregeln: log(x1 · x2) = log(x1) + log(x2), x1,x2 > 0 (A.21) log(x1 / x2) = log(x1) – log(x2), x1,x2 > 0 und definiert für x > 0. Auch hier ergeben sich abnehmende log(xc) Grenzerträge von x bezüglich y, wobei der marginale Effekt von = c log(x), x > 0, c beliebig x nie negativ wird. • Approximation für kleine Werte x: log(1 + x) ≈ x Charakteristika: log(x) < 0, wenn 0 < x < 1 • Beispiel: log(1,02) = 0,01980 log(1) = 0 log(1,05) = 0,04879 log(x) > 0, wenn x > 1 log(1,20) = 0,18232 1–47 1–48 • • Δy Für kleine Änderungen in x gilt: • (x − x 0 ) Δx Δ log ( x ) = log(x1 ) − log(x 0 ) ≈ 1 = x0 x0 (A.22) 100 ⋅ Δ log( x ) ≈ %Δx (A.23) Beispiel 1: x0 = 40 x1 = 41 Anstieg um • Beispiel 2: x0 = 40 x1 = 60 Anstieg um Δx y x = %Δy %Δx (A.24) Wenn y = β0 + β1 x, dann ist die Elastizität Δy x x x ⋅ = β1 ⋅ = β1 ⋅ Δx y y β0 + β1x 1 ⋅ 100 = 2,5% 40 (A.25) und somit abhängig vom jeweiligen Wert x. • log(41) – log(40) = 0,0247, gute Approximation, ∆x klein Elastizität: 20 ⋅ 100 = 50% 40 Modell konstanter Elastizität: Wegen (A.23) lässt sich die Δ log( y ) approximieren und als β1 schätzen Elastizität durch Δ log( x ) durch log(y) = β0 + β1 log(x) (A.26) log(60) – log(40) ≅ 0,4055, schlechte Approximation, ∆x groß 1–49 • Es gibt zwei weitere Verwendungsarten des Logarithmus im li- 1–50 • nearen Modell. • Eine Änderung in educ (= Schuljahre) um 1 erhöht den Lohn Alternative 1: log(y) = β0 + β1 x • 100 · ∆ log(y) = (100 · β1) · ∆x x>0 (A.29) (A.28) so dass Δy = β1 ⋅ % Δx 100 β1 gibt die Semi-Elastizität an: Ändert sich x um eine Einheit, Ändert sich x um ein Prozent, so ändert sich y um so ändert sich y um β1· 100 Prozent. ten. 1–51 (A.30) 0 0 β11 % ∆y = (100 · β1) · ∆x Alternative 2: y = β0 + β1 log(x), ⎛ β ⎞ Hier gilt Δy = β1 Δlog(x) ⇔ Δy = ⎜ 1 ⎟ ⋅ [ Δlog(x) ⋅ 100] ⎝ 100 ⎠ ∆ log(y) = β1 ∆x, und um 9,4% (Rendite auf Schulbildung). (A.27) In diesem Fall gilt so dass Beispiel: log(wage) = 2,78 + 0,094 educ Einhei- 1–52 • Beispiel: hours = 33 + 45,1 log(wage) A.5 Differentialrechnung Ein Prozent höhere Löhne erhöhen die Stundenzahl (das Ar- • x Δ f x d d ≈ y Δ Wenn y = f(x), dann gilt für kleine Änderungen in x beitsangebot) um 0,451 Stunden oder knapp 30 Minuten. • ⋅ Exponentialfunktion: y = exp(x), wobei gilt: exp(0) = 1 und exp(1) = 2,7183 - log(y) = β0 + β1 x ⇔ y = exp(β0 + β1 x) - exp(x1 + x2) = exp(x1) · exp(x2) - exp[ c · log(x) ] = xc. (A.31) df die am Ausgangspunkt x0 bewertete Ableitung von f dx dy df ist. Wir schreiben auch statt . dx dx wobei • Verschiedene Ableitungen: - wenn y = log(x), dann dy = dx Eingesetzt in (A.31) folgt: Δy ≈ 1 x - , 1 ⋅ Δx . x0 1–53 Da hier Δy durch Δlog(x) ersetzt werden kann, gilt: • x 0 Δ x = g o l Δ (x) 1–54 Partielle Ableitungen spielen eine Rolle, wenn y von 2 erklä- renden Variablen abhängt: . - wenn y = β0 + β1 x , dann dy = β1 dx - wenn y = xc , dann dy = c · xc-1 dx - d(f(x) + g(x)) df(x) dg(x) = + dx dx dx - d(c ⋅ f(x)) ⎛ df(x) ⎞ = c ⋅⎜ ⎟ dx ⎝ dx ⎠ Dann sind ∂y ∂x1 x und 2 kons tan t y = f (x1,x2) . ∂y ∂x 2 (A.32) x1 kons tan t die partiellen Ableitungen. 1–55 1–56 • Beispiel: Lohn als Funktion von Schulbildung und Erfahrung Kapitel 1: Einführung und Repetitorium wage = 3,10 + 0,41 educ + 0,19 exper – 0,004 exper2 e g a w ∂ + 0,007 educ · exper 1.1 Technische Bemerkungen (A.35) r e p x e ∂ = 0,19 – 0,008 exper + 0,007 educ 1.2 Einführung: Ökonometrie und Daten APPENDIX Die Lohnwirkung eines Jahres Arbeitsmarkterfahrung ist abhängig von Bildung und Arbeitsmarkterfahrung. A Mathematische Grundlagen B Grundlagen der Wahrscheinlichkeitsrechnung C Statistische Grundlagen 1–57 1–58 • B Grundlagen der Wahrscheinlichkeitsrechnung keit θ von X = 1 vollständig beschrieben werden: B.1 Zufallsvariablen und ihre Wahrscheinlichkeitsverteilung • P(X=1) = θ Experiment: Charakterisiert durch unendlich oft wiederholbare • Vorgehensweise und klar definierte Ergebnisse. • Bernoulli Zufallsvariable kann durch Eintrittswahrscheinlich- (B.1, B.2) Diskrete Zufallsvariable: Zufallsvariable mit abzählbar vielen Ausprägungen Zufallsvariable: Eine Variable mit numerischen Werten, deren Ausprägung durch ein Experiment bestimmt wird; hier be- P(X=0) = 1 – θ • Zuordnung aller möglichen Realisationen zu ihren Eintritts- schrieben mit Großbuchstaben X, Y, Z; Realisationen werden wahrscheinlichkeiten durch Kleinbuchstaben beschrieben x, y, z. X nimmt die Werte { x1, …, xk } mit Wahrscheinlichkeit p1, …, pk • Wir betrachten binäre, diskrete und stetige Zufallsvariablen. an, wobei • Bernoulli (Binäre) Zufallsvariable: Nimmt Werte von 0 oder 1 pj = P(X = xj), j = 1,2, …, k (B.3) an. Notation für Bernoulli-Variablen: X ~ Bernoulli (θ) mit 0 ≤ pj ≤ 1 und p1 + p2 + … + pk = 1. (B.4) 1–59 beschreibt diskrete Zufallsvariablen. 1–60 • Wahrscheinlichkeitsdichtefunktion f beschreibt für jedes x Grafisch: die Wahrscheinlichkeit, mit der die Zufallsvariable X den Wert x annimmt: f(xj) = pj , j = 1,2, …, k • (B.5) Mithilfe von f lässt sich die Wahrscheinlichkeit von Ereignissen berechnen. • Beispiel: Anzahl von Korbtreffern bei 2 Basketballfreiwürfen wenn f(0) = 0,20, f(1) = 0,44, f(2) = 0,36. (Summe = 1) • Wahrscheinlichkeit für mindestens einen Korb: Eine Variable X ist eine stetige Zufallsvariable, wenn sie jeden einzelnen Wert mit der Wahrscheinlichkeit 0 annimmt, da P(X ≥ 1) = P(X = 1) + P(X = 2) = 0,44 + 0,36 = 0,80 es unendlich viele mögliche Realisationen gibt. 1–61 • Die Wahrscheinlichkeitsdichtefunktion beschreibt für jedes X 1–62 • die Wahrscheinlichkeit in einem Intervall [a, b] zu liegen. Kumulative Verteilungsfunktion: F(x) ≡ P(X ≤ x) (B.6) - für diskrete Zufallsvariablen die Summe über f(xj), xj ≤ x P( a ≤ X ≤ b) beschreibt die Fläche unter der Funktion f: - für stetige Zufallsvariablen die Fläche unter f links von x. • • Für jede Zahl c gilt: P(X > c) = 1 – F(c). (B.7) Für alle Zahlen a < b: P(a < X ≤ b) = F(b) – F(a). (B.8) Bei stetigen Zufallsvariablen gilt P(X ≥ c) = P(X > c) und (B.9) P(a < X < b)= P(a ≤ X ≤ b)= P(a ≤ X < b)= P(a< X ≤ b) 1–63 (B.10) 1–64 B.2 Gemeinsame Verteilungen, bedingte Verteilungen und • Beispiel: Unabhängigkeit • männlich Wenn X und Y diskrete Zufallsvariablen sind, lässt sich ihre gemeinsame Verteilungsfunktion fx,y wie folgt schreiben fx,y(x,y) = P(X = x, Y = y) • (B.11) weiblich Rechtshänder 0,40 0,30 0,70 Linkshänder 0,15 0,15 0,30 0,55 0,45 Die Wahrscheinlichkeitsdichtefunktionen fX und fY heißen auch marginale Wahrscheinlichkeitsdichtefunktionen (Randver- teilung). • Zufallsvariablen sind unabhängig, wenn gilt: fX,Y(x,y) = fX(x)⋅fY(y) (B.12) 1–65 • • • Im diskreten Fall gilt bei Unabhängigkeit: P(X = x, Y = y) = P(X = x)⋅P(Y = y) Beispiel: 2 Freiwürfe beim Basketball. Wenn die Trefferwahr- sind, ist die Wahrscheinlichkeit für 2 Treffer: P(X = 1, Y = 1) = 0,7 · 0,7 = 0,49. Wenn der Erfolg des zweiten Wurfs vom Erfolg des ersten Wurfs abhängt, sind die Ereignisse nicht unabhän- Gemeinsame Wahrscheinlichkeitsfunktionen werden auch für mehr als zwei Zufallsvariablen, X1, X2, …, Xn betrachtet. Das (B.13) scheinlichkeit 70% ist und 2 Würfe unabhängig voneinander Konzept der Unabhängigkeit gilt hier genauso. • Bedingte Wahrscheinlichkeitsfunktion von Y gegeben X, fY X (y x) = fX,Y (x,y) fX (x) (B.15) bzw. bei diskreten X,Y: fY X (y x) = P(Y = y X = x) , gig und die Berechnung ist nicht zutreffend. • 1–66 (B.16) Wenn die Zufallsvariablen X und Y unabhängig voneinander beschreibt die Wahrscheinlichkeit, dass Y den Wert y annimmt, sind, dann sind auch die Zufallsvariablen g(X) und h(Y) unab- gegeben, dass X den Wert x annimmt. hängig. 1–67 1–68 • Wenn X und Y unabhängig sind, heißt das, dass Kenntnis von Was ist die gemeinsame Dichte für P(X = 1, Y = 1)? X nichts dazu beiträgt, etwas über Y zu lernen: Wenn P(X = 1) = 0,80 , dann folgt P(X = 1, Y = 1) = P(Y = 1│X = 1) · P(X = 1) fY X (y x) = • fX,Y (x,y) fX (x)fY (y) = = fY (y) fX (x) fX (x) = 0,85 · 0,80 = 0,68. Beispiel: 2 Basketballfreiwürfe fY X (1 1) = 0,85 fY X (0 1) = 0,15 fY X (1 0) = 0,70 fY X (0 0) = 0,30 Die Wahrscheinlichkeit, den zweiten Wurf zu verwandeln, hängt vom Ergebnis des ersten Wurfs ab, d.h. die Ereignisse sind nicht unabhängig. 1–69 1–70 • B.3 Eigenschaften von Wahrscheinlichkeitsverteilungen E(X) = −1⋅ B.3.1 Erwartungswert • Beispiel: Werte -1, 0, 2 mit Wahrscheinlichkeit Wenn X eine Zufallsvariable ist, dann ist der Erwartungswert von X, E(X), μx oder μ, der gewichtete Durchschnitt aller möglichen Werte von X. Die Gewichte ergeben sich aus der Dichte- 1 1 3 5 + 0⋅ + 2⋅ = 8 2 8 8 ∞ 1 1 3 , und . 8 2 8 • Stetige Zufallsvariable: • Wenn X eine Zufallsvariable ist, dann auch g(X) (z.B. X2 oder E( X) = ∫ xf (x )dx (B.18) −∞ log(X)). Dann funktion. k Diskrete Zufallsvariable: E(X) = x1 f(x1) + x2 f(x2) + … + xk f(xk) j=1 x diskret (B.19) x stetig. (B.20) j=1 (B.17) ∞ k ≡ ∑ x j f(x j ) E [ g(X)] = ∑ g(x j ) fX (x j ) - 1–71 ∞ E [ g(X)] = ∫ g(x) fX (x)dx 1–72 • • Beispiel: E ( X2 ) = ( −1) ⋅ 2 1 1 3 1 12 13 + 02 ⋅ + 22 ⋅ = + = 8 2 8 8 8 8 ⎛5⎞ Dies zeigt auch, dass E [g(X)] ≠ g [E(x)], hier = ⎜ ⎟ ⎝8⎠ • E1: Für eine Konstante c: 2 E(c) = c E2: Für Konstanten a und b: Ebenfalls gilt für diskrete Zufallsvariablen X, Y mit der gemein- E(aX + b) = a E(X) + b samen Dichte fX,Y : k Eigenschaften von Erwartungswerten: m E [ g(X,Y)] = ∑∑ g(xn ,y j ) ⋅ fX,Y (xn ,y j ) n=1 j=1 1–73 E3: Wenn { a1, a2, … an } Konstanten sind und { X1, X2, … Xn } Zufallsvariablen, dann ⎛ n ⎞ n E ⎜ ∑ ai Xi ⎟ = ∑ ai E(Xi ) ⎝ i=1 ⎠ i=1 ⎛ n ⎞ n und (für ai =1): E ⎜ ∑ Xi ⎟ = ∑ E(Xi ) ⎝ i=1 ⎠ i=1 • Beispiel: X1, X2 und X3 sind die Anzahl der verkauften kleinen, mittleren und großen Pizzen. Die Erwartungswerte sind E(a1X1+a2X2+… anXn)= a1E(X1)+ a2E(X2)+…+ anE(Xn) bzw. 1–74 E(X1) = 25, E(X2) = 57, E(X3) = 40, die jeweiligen Preise sind 5,50, 7,60 und 9,15 €. Der erwartete Umsatz ist dann (B.21) E(5,50 · X1 + 7,60 · X2 + 9,15 · X3) (B.22) = 5,50 · E(X1) + 7,60 · E(X2) + 9,15 · E(X3) = 5,50 · 25 + 7,60 · 57 + 9,15 · 40 = 936,70 1–75 1–76 • B.3.2 Dispersionsmaße • Bei einer Zufallsvariable X mit μ = E(X) interessiert, wie stark Die Zufallsvariablen X und Y haben eine unterschiedliche sich X im Mittel von seinem Erwartungswert entfernt (X – μ) Streuung: (wenig = geringe Streuung, viel = hohe Streuung). Die Varianz beschreibt die erwartete quadrierte Streuung: Var(X) ≡ E [(X – μ)2] = σ2 (B.23) Dabei gilt: σ2= E(x2–2x μ+ μ2)= E(X2)–2 μ2+ μ2= E(X2)–μ2 (B.24) (vergleiche A.7) • Eigenschaften von Varianzen: Var1: Die Varianz einer Konstanten ist 0. Var2: Bei Konstanten a, b gilt Var(aX + b) = a2 Var(X) 1–77 2 σ = x r a V B.4 Merkmale von gemeinsamen u. bedingten Verteilungen • Eigenschaften von Standardabweichungen: Die Kovarianz von zwei Zufallsvariablen ist definiert als Cov(X,Y) ≡ E [(X – μx) (Y – μy)] = σXY (B.26) SD1: Die Standardabweichung einer Konstanten ist 0. Wenn σXY>0, spricht man von positiver Kovarianz, wenn σXY< 0 SD2: Bei Konstanten a und b gilt: sd(aX + b) = a sd(X) von negativer. Eine Zufallsvariable X mit Erwartungswert μ und Standardabweichung σ lässt sich standardisieren: μ - σ X = Z • = x σ = • Die Standardabweichung einer Zufallsvariable, sd(X), ist die Wurzel der Varianz: (x) (x) d s • 1–78 , • (B.25) Es lässt sich zeigen: Cov(X,Y) = E [(X – μx) (Y – μy)] = E [(X – μy) Y ] so dass E(Z) = 0 und Var(Z) = 1. = E [ X (Y – μy)] = E(X Y) – μx μy (B.27) (vergleiche A.8) • 1–79 Wenn E(X) = 0 oder E(Y) = 0, folgt Cov(X,Y) = E(XY). 1–80 • • Die Kovarianz misst den linearen Zusammenhang zwischen Cov3: Cov(X,Y) ≤ sd(X) sd(Y) Zufallsvariablen. Das Maß der Kovarianz kann auf Werte zwischen -1 und +1 Eigenschaften der Kovarianz: standardisiert werden. Der Korrelationskoeffizient ist definiert σ Cov(X,Y) = XY = ρ XY Corr(X,Y) ≡ (B.29) als: sd(X)sd(Y) σ X σ Y Cov1: Wenn Zufallsvariablen X und Y unabhängig sind, dann Cov(X,Y) = 0. Der Umkehrschluss gilt nicht, da Kovarianz nur lineare Zusammenhänge misst. So haben X • Bei Unabhängigkeit folgt aus Cov(X,Y)=0, dass Corr(X,Y)=0. Auch der Korrelationskoeffizient beschreibt lineare Zusammen- und X2 eine Kovarianz von 0, obwohl sie nicht unabhän- hänge. gig sind. Cov2: Für Konstanten a1, a2, b1 und b2 gilt: Cov(a1X + b1, a2Y + b2) = a1a2 Cov(X Y), (B.28) Skalieren der Variable beeinflusst die Kovarianz. 1–81 • 1–82 • Eigenschaften der Korrelationskoeffizienten: Corr1: -1 ≤ Corr(X,Y) ≤ 1 Weitere Eigenschaften von Varianzen: Var3: Bei Konstanten a, b gilt: Werte von +1 bzw. -1 implizieren perfekte positive bzw. Var(aX + bY) = a2 Var(X) + b2 Var(Y) + 2ab Cov(X,Y) negative lineare Zusammenhänge Wenn X, Y unkorreliert, folgt Cov(X,Y) = 0 und Corr2: Bei Konstanten a1, a2, b1, b2 mit a1⋅a2 > 0 gilt: Corr(a1X + b1, a2Y + b2) = Corr(X,Y) Var(X + Y) = Var(X) + Var(Y) (B.30) Var(X – Y) = Var(X) + Var(Y) (B.31) bzw. bei a1⋅a2 < 0: Zufallsvariablen Corr(a1X + b1, a2Y + b2) = -Corr(X,Y) unkorreliert, wenn jede Variable mit jeder anderen Skalieren beeinflusst den Korrelationskoeffizienten nicht. 1–83 { X1, … Xn } sind paarweise unkorreliert ist, d.h. Cov(Xi, Xj) = 0 für alle i ≠ j. 1–84 Var4: Wenn { X1, …, Xn } paarweise unkorrelierte Zufallsvariablen sind und ai eine Konstante, dann • (B.32) und ⎛ n ⎞ n Var ⎜ ∑ Xi ⎟ = ∑ Var(Xi ) ⎝ i=1 ⎠ i=1 (B.33) x Y E = x = X Y E ⎛ n ⎞ n Var ⎜ ∑ ai Xi ⎟ = ∑ ai2 Var(Xi ) ⎝ i=1 ⎠ i=1 das Konzept der bedingten Erwartungen von Interesse. Diese beschreibt den Erwartungswert von Y gegeben, dass die Variable X den Wert X = x annimmt: ( ) ( ) Var(a1X1 + … + anXn) = a12 Var(X1) + … + an2 Var(Xn), bzw. Will man die Variable Y mit Hilfe der Variable X erklären, so ist Sind die Zufallsvariablen nicht paarweise unkorreliert, so müssen alle Kovarianzen berücksichtigt werden. 1–85 • • Ist Y diskret mit Werten { y1, …, ym }, dann m Beispiel: Y = Lohnsatz, X = Jahre der Schulbildung E(Y X = 12) = mittlerer Lohn der Personen mit 12 Jahren Schul- E(Y x) = ∑ yi fY X (yi x) j=1 bildung. Da X viele Werte annehmen kann, bietet sich eine verkürzte Darstellung an, die für beliebige Werte von X gilt: E(Y X) = 1,05 + 0,45 X Ist Y stetig, dann ∞ E(Y x) = 1–86 ∫ y fY X (y x)dy −∞ Es handelt sich um den gewichteten Durchschnitt von y für gegebene Werte von X. 1–87 1–88 • CE3: Wenn X und Y unabhängig sind, dann E(Y X) = E(Y) , Bedingte Erwartungen können auch nichtlinear sein. da X für Y keine Rolle spielt. CE1: E ⎡⎣c(X) X ⎤⎦ = c(X) für jede Funktion c(X). Wenn U und X unabhängig sind und E(U) = 0 , dann folgt E(U X) = 0 Wenn X bekannt ist, ist hier auch c(X) bekannt und konstant, z.B. E x 2 x = x 2 ( ) CE4: Law of iterated expectations E X ⎡⎣E(Y X)⎤⎦ = E(Y) CE2: Bei Funktionen a(X) und b(X): Der Erwartungswert von y lässt sich berechnen, wenn man so- E ⎡⎣a(X)Y + b(X) X ⎤⎦ = a(X)E(Y X) + b(X) wohl die Beziehung zwischen X und Y kennt als auch die Ei- Beispiel: E ⎣⎡ XY + 2X2 X ⎦⎤ = X ⋅ E(Y X) + 2X2 genschaften der Verteilung von X. 1–89 • 1–90 CE5: Wenn E(Y X) = E(Y) , dann gilt Beispiel 1: Angenommen, man sucht den durchschnittlichen IQ der Bevölkerung, hat aber nur Durchschnittswerte für Männer Cov(X,Y) = 0 und Corr(X,Y) = 0, und Frauen getrennt. Dann lässt sich der Gesamtdurchschnitt und jede Funktion von X ist unkorreliert mit Y. als gewichteter Durchschnitt zwischen Männern und Frauen bestimmen: Wenn die Kenntnis von X den E(Y) nicht beeinflusst, E ⎡⎣E(IQ Geschlecht)⎤⎦ müssen die Größen unkorreliert sein. Wenn X und Y korreliert sind, muss E(Y X) mit X variieren. = E(IQ Männer) ⋅ P(Mann) + E(IQ Frau) ⋅ (1- P(Mann)) = E(IQ) • • Beispiel 2: Y = Lohn, X = Bildung Es folgt: Wenn U und X Zufallsvariablen sind und E(U X) = 0 , dann ist E(U) = 0 und U und X sind nicht korreliert. Wir wissen E(Y X) = 4 + 0,6 · X und E(X) = 11,5 • Dann: E(Y) = E(4 + 0,6 X) = 4 + 0,6 E(X) = 4 + 0,6·11,5 = Auch die Varianz von Y kann bedingt auf X beschrieben werden: Var(Y X = x) = E(Y 2 x) − [E(Y x)] 2 . 10,90 1–91 1–92 • Eigenschaft CV1: B.5 Spezielle Verteilungsfunktionen Wenn X und Y unabhängig sind, dann Var(Y X) = Var(Y). • Einige Verteilungsfunktionen sind für die Ökonometrie besonders wichtig. • Normalverteilte Zufallsvariablen sind stetig mit der Dichte- funktion ⎧ (x - μ)2 ⎫ f(x) = exp ⎨, 2 ⎬ σ 2π ⎩ 2σ ⎭ 1 −∞ < x < ∞ , (B.34) wobei μ = E(X) und σ2 = Var(X). Man schreibt X~ Normal(μ,σ2) Die Normalverteilung ist symmetrisch, daher ist μ auch der Median. Die Verteilungsfunktion entspricht einer Glockenkurve: 1–93 1–94 • Die Normalverteilung mit μ = 0 und σ2 = 1 heißt Standardnormalverteilung, mit der Dichtefunktion: φ(z) = ⎛ -z2 ⎞ exp ⎜ ⎟ 2π ⎝ 2 ⎠ 1 −∞ < z < ∞ (B.35) Kumulative Verteilungsfunktion: Φ( z) , Fläche unter Φ( z) bis z Φ( z ) = P(Z < z), in Verteilungstabellen aufgeführt, wobei • Wenn Y = log(X) einer Normalverteilung folgt, sagen wir, dass X lognormal verteilt ist. und 1–95 P(Z > z) = 1 – Φ( z) (B.36) P(Z < z) = Φ( z) (B.37) P(a ≤ Z ≤ b) = Φ(b) – Φ(a) (B.38) 1–96 • Eigenschaften der Normalverteilung: • Normal 1: Wenn X ∼ Normal (μ, σ2), dann (X - μ)/σ ∼ Normal (0, 1) • Beispiel 1: X ~Normal (4,9) und wir suchen P(2 < X ≤ 6). P(2 < X ≤ Schritt 1: Standardisieren ≤ ⎛2-4 x-4 6-4⎞ 6) = P ⎜ < < 3 3 ⎟⎠ ⎝ 3 2⎞ ⎛ 2 = P⎜- < Z 3 ⎟⎠ ⎝ 3 = Φ ( +0,67 ) - Φ ( -0,67 ) 1–97 • lung. • ⎡ ⎛ −2 ⎞ ⎤ = ⎢1 − Φ ⎜ ⎟ ⎥ + Φ( −2) = 1 − 0,251 + 0,023 = 0,772 ⎝ 3 ⎠⎦ ⎣ Dies impliziert, dass für den Mittelwert von n unabhängigen, normalverteilten Zufallsvariablen Y1, Y2, … Yn, die jeweils ⎛ σ2 ⎞ ~ Normal μ, σ2 ,gilt: Y ~ Normal ⎜ μ, ⎟ (B.40) ⎝ n ⎠ ( Normal2: Wenn X ~ Normal(μ,σ2), dann aX + b ~ Normal(aμ + b, a2 σ2) • Normal4: Eine lineare Kombination von unabhängigen, identisch verteilten normalen Zufallsvariablen hat eine Normalvertei- P( X > 2) = P(X > 2) + P(X < -2) ⎛ X-4 2-4⎞ ⎛ X - 4 -2 - 4 ⎞ = P⎜ > +P⎜ < ⎟ 3 ⎠ 3 ⎟⎠ ⎝ 3 ⎝ 3 • 1–98 • Beispiel 2: Berechne 8 9 4 , 0 = 1 5 2 , 0 9 4 7 , 0 = Schritt 2: aus Tabelle G1 ablesen: • Normal3: Wenn X und Y gemeinsam normalverteilt sind, sind ) Wenn Z standardnormalverteilte Zufallsvariablen sind, dann n folgt X = ∑ Zi2 der Chi-Quadrat (χ2 ) Verteilung mit n Frei- 1–99 heitsgraden: X ~ χ n Hier stellt die Normalverteilung eine Ausnahme dar. 2 i=1 sie genau dann unabhängig, wenn Cov(X,Y) = 0. (B.41) 1–100 • Die t-Verteilung ergibt sich aus der Standardnormal- und der χ -Verteilung. Wenn Z ~ Normal (0,1) und X ~ χ und X und Z 2 Die Chi-Quadrat-Verteilung ist nicht negativ, nicht symmetrisch 2 • n und hat einen Erwartungswert = n und eine Varianz = 2n. = T • tn ~ n Z X unabhängig sind, dann: (B.42) Die Dichtefunktion der t-Verteilung ähnelt der Normalverteilung rianz ist 2 n n mit etwas dickeren Rändern. Der Erwartungswert ist 0, die Vafür n > 2. Mit steigendem n konvergiert die t- Verteilung gegen die Normalverteilung. 1–101 1–102 • Die F-Verteilung ergibt sich aus zwei unabhängigen 2 ︶ ︶ k , 1 ︵ ︵ Fk ~ k1k2 / / 1 X X2 = F χ2 -verteilten Zufallsvariablen X1 ~ χk12 , X2 ~ χk2 2 mit: (B.43) Man unterscheidet Zähler- (k1) und Nennerfreiheitsgrade (k2). • Die F-Verteilung nimmt nur positive Werte an und ist nicht symmetrisch. 1–103 1–104 Kapitel 1: Einführung und Repetitorium 1.1 Technische Bemerkungen 1.2 Einführung: Ökonometrie und Daten APPENDIX A Mathematische Grundlagen B Grundlagen der Wahrscheinlichkeitsrechnung C Statistische Grundlagen 1–105 1–106 • C Statistische Grundlagen Schulbildung auf den Stundenlohn aus ("Bildungsrendite")? C.1 Bevölkerung, Parameter und Zufallsstichprobe • Beispiel: Wie wirkt sich in Deutschland im Mittel ein Jahr Dies lässt sich auf Basis einer Stichprobe als Punktschätzung Mit Hilfe der statistischen Inferenz (dem statistischen Schlie- punktgenau schätzen (z.B. plus 7,5% pro Jahr) oder in einem ßen o. Schlussfolgern) lernt man auf Basis einer Stichprobe Intervall als Intervallschätzer eingrenzen (z.B. zwischen 5,6 und etwas über die Eigenschaften der unterliegenden Bevölkerung oder Grundgesamtheit. 9,4 %). • Unter Parametern versteht man konstante Größen, die in der Grundgesamtheit die interessierenden Zusammenhänge charakterisieren. 1–107 1–108 • Y sei eine Zufallsvariable, die in der Grundgesamtheit gemäß • Eine Stichprobe ist zufällig, wenn vor der Ziehung nicht fest- der Dichtefunktion f(y;θ) verteilt sei, wobei der unbekannte Pa- steht, welche Elemente berücksichtigt werden, alle Bevölke- rameter θ die sonst bekannte Dichtefunktion charakterisiert. Um rungselemente die gleiche Ziehungswahrscheinlichkeit haben etwas über θ zu lernen, kann man verschiedene Stichproben und jede Ziehung unabhängig von allen anderen stattfindet. aus der Grundgesamtheit betrachten. • Wenn Y1, Y2, …, Yn unabhängige Zufallsvariablen mit einer gemeinsamen Dichtefunktion f(y;θ) sind, dann ist {Y1, Y2, …, Yn} eine Zufallsstichprobe der durch f(y;θ) charakterisierten Grundgesamtheit. • Die Zufallsvariablen heißen i.i.d. verteilt (independent and identically distributed, unabhängig und identisch), wenn sie zufällig gezogen und mit der gleichen Dichtefunktion verteilt sind. 1–109 C.2 Eigenschaften von Schätzverfahren in kleinen Stichproben • Man unterscheidet Eigenschaften, die sogar in kleinen Stichproben (finite samples) gelten, von asymptotischen Eigenschaften, die nur gelten, wenn die Stichprobengröße gegen unendlich konvergiert (large samples). • Ein Schätzverfahren (estimator) ist eine Regel, die auf Basis von Stichprobendaten einen Schätzwert (estimate) für unbe- 1–110 • Beispiel: Zufallsstichprobe {Y1, Y2, …, Yn} aus der Bevölkerung mit dem unbekannten Mittelwert μ. μ lässt sich als Stichprobenmittelwert schätzen. Y= 1n ∑ Yi n i =1 (C.1) Der Schätzwert für konkrete Daten einer konkreten Stichprobe 1 ist dann y = ( y1 + y 2 + " + yn ) n kannte Bevölkerungsparameter bestimmt. Das Verfahren kann auf jede Stichprobe angewendet werden. 1–111 1–112 • Allgemein lässt sich ein Schätzverfahren W für einen Parameter θ als Funktion h von Zufallsvariablen darstellen: W = h (Y1, Y2, …, Yn) (C.2) C.2.1 Eigenschaft der Unverzerrtheit • Ein Schätzer W des Parameters θ heißt unverzerrt, wenn für alle θ gilt Da W von der Zufallsstichprobe abhängt, ist es selbst eine Zu- E (W) = θ fallsvariable. Für den konkreten Schätzwert schreiben wir • w = h (y1, y2, …, yn). • (C.3) Bei unverzerrten Schätzern ist nicht jeder Schätzwert mit dem wahren Wert identisch, aber über viele Zufallsstichproben hin- Um verschiedene Schätzverfahren vergleichen zu können, betrachten wir deren Eigenschaften. weg entspricht der Mittelwert von W dem wahren θ. • Bei verzerrten Schätzern für θ beträgt die Verzerrung (Bias) Bias (W) ≡ E (W) - θ • (C.4) Beispiel für verzerrten und unverzerrten Schätzer: 1–113 1–114 • Um Verzerrung zu vermeiden, muss man die Schätzfunktion h angemessen wählen. Für manche Schätzverfahren lässt sich die Unverzerrtheit leicht zeigen. • Beispiel: Schätzer Y für den Mittelwert der Grundgesamtheit, µ: ⎛1 n ⎞ 1 ⎛ n ⎞ 1 n E ( Y ) = E ⎜ ∑ Yi ⎟ = E ⎜ ∑ Yi ⎟ = ∑ E ( Yi ) ⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 1⎛ n ⎞ 1 = ⎜ ∑ μ ⎟ = × ( nμ) = μ n ⎝ i=1 ⎠ n 1– –115 1–116 • Die Stichprobenvarianz S2 ist ein unverzerrter Schätzer für die unbekannte Varianz der Grundgesamtheit (σ2): S2 = 1 n (Yi − Yi )2 ∑ n − 1 i =1 • Beispiel: Wählt man als Schätzer für μ: W ≡ Y1, also nur den ersten Wert der Stichprobe, so gilt E(Y1) = μ. (C.5) Man dividiert durch n-1 statt n, da der Mittelwert μ der Grundgesamtheit durch Y geschätzt wird. Wäre μ bekannt, könnte man durch n teilen und berechnen 1 n ~ 2 S2 = ∑ (Yi − μ ) . n i =1 • Unverzerrtheit ist manchmal ein problematisches Kriterium, da gute Schätzverfahren z.T. verzerrt sind und manche unverzerrten Schätzer schlechte Schätzverfahren darstellen. 1–117 1–118 C.2.2 Eigenschaft der Effizienz • Neben dem Erwartungswert eines Schätzverfahrens interessiert uns die Streuung, wobei unter den unverzerrten Schätzern die mit kleiner Streuung präziser sind. 1–119 1– –120 • • Die Streuung eines Schätzers wird durch seine Varianz be- Der Erwartungswert von Y als Schätzer für μ entspricht dem schrieben. Mittel der Grundgesamtheit, die Varianz ist die der Grundge- Beispiel: samtheit geteilt durch n (d.h. je größer n, umso kleiner Var(Y)). ⎛1 n ⎞ 1 ⎛ n ⎞ 1 Var ( Y ) = Var ⎜ ∑ Yi ⎟ = 2 Var ⎜ ∑ Yi ⎟ = 2 ⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n n ⎞ 1 1 ⎛ 1 = 2 ⎜ ∑ σ2 ⎟ = 2 n ⋅ σ2 = σ2 n n ⎝ i=1 ⎠ n • n ∑ Var ( Yi ) i=1 Als Schätzer für μ sind sowohl Y als auch Y1 unverzerrt, aber Y σ2 hat mit eine kleinere Varianz als Y1 mit σ2. Daher ist Y als n Schätzer vorzuziehen. • (C.6) Wenn W1 und W2 zwei unverzerrte Schätzer einer Gruppe von Parametern θ sind, dann nennt man W1 im Vergleich zu W2 effizient, wenn Var (W1) ≤ Var (W2) für alle Werte von θ mit einer strikten Ungleichheit für mindestens ein θ. 1–121 • Im Beispiel ist Y effizient relativ zu Y1, da Var (Y) < Var (Y1) sobald n >1. • Ein Vergleich der Varianz ist meist nur für unverzerrte Schätzer relevant (jede Konstante hat eine Varianz von 0, kann aber völlig falsch sein). 1–123 1–122 Schlüsselbegriffe Kapitel 1 & Appendix: Beobachtungsdaten Diskrete Zufallsvariable Ökonometrie Empirische Analyse Ökonomisches Modell Ökonometrisches Modell Querschnittsdaten Zeitreihendaten Gepoolter Querschnitt Paneldaten Kausaler Effekt Ceteris paribus Interpretation Mittelwert Lineare Funktion Achsenabschnitt Effizient Steigungsparameter Marginaler Effekt Prozentpunkt, Prozent Experimentaldaten Stetige Zufallsvariable Bernoulli (binäre) Zufallsvariable Eintrittswahrscheinlichkeit Wahrscheinlichkeitsdichtefunktion Kumulative Verteilungsfunktion Gemeinsame Verteilungsfunktion Unabhängige Zufallsvariablen Marginale Wahrscheinlichkeitsdichtefunktion Bedingte Wahrscheinlichkeitsdichtefunktion Gemeinsame Dichte Erwartungswert Varianz Standardabweichung Standardisieren Kovarianz Skalieren der Variable Korrelationskoeffizient Paarweise unkorreliert 1–124 Natürlicher Logarithmus Elastizität Modell konstanter Elastizitäten Semielastizität Exponentialfunktion Partielle Ableitung Experiment Zufallsvariable Statistische Inferenz Bevölkerung Parameter iid – verteilt Normalverteilung Asymptotische Eigenschaft Schätzwert (estimate) Verzerrung (Bias) Bedingter Erwartungswert Law of iterated expectations Normalverteilte Zufallsvariable Lognormalverteilte Zufallsvariable Standardnormalverteilung Chi-Quadrat-Verteilung t-Verteilung F-Verteilung Stichprobe Grundgesamtheit Zufallsvariable Bernoulliverteilung Finite sample Schätzverfahren (estimator) Unverzerrt Stichprobenvarianz Literatur Kapitel 1: • Wooldridge, Kapitel 1, Appendix A, B, C • Von Auer, Kapitel 1, Kapitel 2 • Hill/Griffiths/Judge, Kapitel 1, Kapitel 2 • Gujarati,1999, Essentials of Econometrics, McGraw Hill, Singapur, Kapitel 1 – Kapitel 3 • Stock/Watson, 2007, Introduction to Econometrics, 2. Auflage, Pearson Education Inc., Kapitel 1 – Kapitel 3 1–125 1–126 Leitfragen und Lernziele Kapitel 2: Kapitel 2: Das einfache Regressionsmodell • 2.1 Definitionen Wie lässt sich der Zusammenhang zwischen zwei Zufallsvariablen empirisch schätzen? 2.2 Herleitung der Kleinstquadrate-Schätzung • Wie funktioniert das Kleinstquadrate(KQ)-Verfahren? 2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte • Was sind die Eigenschaften des KQ-Verfahrens? 2.4 Erwartungswerte und Varianzen • Welche Annahmen müssen getroffen werden? 2.5 Regression durch den Ursprung 2.6 Regression mit logarithmierten Werten 2–1 • 2.1 Definitionen • 2–2 (2.1) Grundgesamtheit unterstellen. Dünger und Erntemenge, Ausbildung und Lohn, Polizeibeamte • y = β 0 + β1 x + u Dies ist der Regressionszusammenhang, den wir für die Ziel: Beziehung zwischen zwei Variablen beschreiben, z.B. • und Kriminalität. Einfachste Darstellung: Begriffe für y: Abhängige Variable, erklärte Variable, endogene Variable, Regressand Dabei zu klären: (a) Können auch andere Faktoren Ernte, Lohn bzw. Kriminali- • Begriffe für x: Unabhängige Variable, erklärende Variable, exogene Variable, Kovariate, Regressor tät beeinflussen? (b) In welchem funktionalen Verhältnis stehen die Variablen • u: Der Fehler- oder Störterm umfasst alle Faktoren, die y beeinflussen, außer dem beobachteten x (unbeobachtete Faktoren). zueinander? (c) Wie kann man sicher sein, eine ceteris paribus Beziehung zu beschreiben? 2–3 2–4 • Unterstellt: Linearer Zusammenhang zwischen y und x. Ge- die gleiche Wirkung auf y hat, egal wie hoch x ist; manchmal von x um ∆x um β1 · ∆x: unrealistisch (z.B. bei fallenden Grenzerträgen). ∆u = 0 (2.2) • Beispiel: Ernte = β0 + β1 · Dünger + u (2.3) β1 beschreibt, wie sich eine Änderung in der Düngermenge auf β1 misst den Effekt von x auf y, aber es muss nicht der kausale sein. Noch haben wir alle anderen Faktoren ignoriert. Um den β1 = Steigungsparameter, β0 = Achsenabschnittsparameter, ceteris paribus Effekt zu beschreiben, sind Annahmen erforder- Konstante. • Lineare Form impliziert, dass Änderung von x um eine Einheit geben die Störgröße (d.h. ∆u = 0), ändert sich y bei Änderung ∆y = β1 · ∆x bei • • lich. • E(u) = 0 Annahme 1: (2.5) Unterstellt, dass alle ausgelassenen Faktoren, die z.B. die Ern- die Ernte auswirkt. te beeinflussen, einen Mittelwert von Null in der Grundgesamtheit haben. Dies ist unproblematisch, solange eine Konstante (β0) mitgeschätzt wird. 2–5 • Eine weitere Annahme beschreibt den Zusammenhang zwi- 2–6 • Beispiel: wage = β0 + β1 · educ + u (2.4) schen x und u. Wenn die beiden Zufallsvariablen unkorreliert β1 beschreibt, um wie viel € sich der Stundenlohn ändert, wenn sind, bedeutet dies nur, dass es zwischen ihnen keinen linea- sich die Anzahl der Ausbildungsjahre (educ) um eins erhöht. ren Zusammenhang gibt. Wir unterstellen, dass alle anderen relevanten Faktoren kon- • Für die Regressionsanalyse und um eine ceteris paribus Inter- stant gehalten werden. Dazu gehört z.B. die Fähigkeit einer pretation zu legitimieren, benötigen wir die stärkere Annahme, Person. Annahme 2 besagt, dass der Erwartungswert der Fä- dass der auf x bedingte Erwartungswert von u gleich Null ist. higkeit für Personen mit verschiedenen Werten für educ gleich Das heißt, dass der Durchschnitt von u nicht von x abhängt und sein muss. Man würde das nicht unbedingt so erwarten. für alle Werte von x gleich ist (mittlere bedingte Unabhängig- Ebenso darf sich im Düngerbeispiel z.B. die unbeobachtete Landqualität nicht nach Düngermenge unterscheiden. keit). Annahme 2: • E(u x) = E(u) = 0 (2.6) 2–7 2–8 • Frage: Wenn die Klausurpunkte (score) von der Anwesenheit in der Vorlesung (attend) und unbeobachteten Faktoren beeinflusst wird: score = β0 + β1 attend + u (2.7) Wann gilt Annahme 2? • Trifft Annahme 2 nicht zu, so kann β1 nicht kausal interpretiert werden. • Unter Annahme 2 lautet der auf x bedingte Erwartungswert von y: E(y x) = E(β0 + β1x + u x) = E(β0 x) + E(β1x x) + E(u x) • Bedeutung von Annahme 2: E ( u x ) = 0 : = β0 + β1x + 0 a) An jedem einzelnen Wert von x ist E(u) = 0 (2.8) • Die Bevölkerungs-Regressionsfunktion, E(y x) , ist linear in b) Für alle x ist E(u) identisch x. Eine Änderung von x um 1 verschiebt den Erwartungswert c) Bei E ( u x ) = 0 sind u und x unkorreliert, d.h. cov(x,u) = 0 von y um β1. d) u repräsentiert alle Faktoren w, die neben x das y beeinflussen. Es kann nur dann E ( u x ) = 0 , wenn cov(x,w) = 0. • Für jede Ausprägung von x ergibt sich so eine Verteilung von y, die um E(y x) konzentriert ist: 2–9 2–10 • Die beobachteten Werte von y lassen sich in zwei Teile zerlegen: y = β 0 + β1 x + u = E(y x ) + u • Der erste Teil ist systematisch durch x erklärbar. Unter Annahme 2 ist der zweite Teil, u, nicht durch x erklärbar. 2–11 2–12 2.2 Herleitung der Kleinstquadrate-Schätzung Kapitel 2: Das einfache Regressionsmodell • 2.1 Definitionen Wir unterstellen eine Stichprobe der Größe n aus der Grundgesamtheit: {(xi,yi): i = 1,…,n}. 2.2 Herleitung der Kleinstquadrate-Schätzung 2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte • Für jede Beobachtung i gilt: yi = β0 + β1 xi + ui 2.4 Erwartungswerte und Varianzen (2.9) Dabei ist ui der Störterm für Beobachtung i, der alle für yi rele- 2.5 Regression durch den Ursprung vanten Faktoren - außer xi - abbildet. • 2.6 Regression mit logarithmierten Werten Beispiel: n = 15 Beobachtungen zu Ersparnissen (y) und Jahreseinkommen (x). 2–13 2–14 • Aus Annahme 2 folgt, dass x und u in der Grundgesamtheit unkorreliert sind. Die Kovarianz von unkorrelierten Größen ist Null (vgl. B.29). • • Es gilt also: E(u) = 0 (Ann.1) und Cov(x,u) = E(xu) = 0 (wg. Ann.2) (2.11) da Cov(x,u) = E(xu) – E(x) E(u) Dies lässt sich auch wie folgt schreiben: und 2–15 (2.10) E(u) = E(y – β0 – β1 x) = 0 (2.12) E(xu) = E[x (y – β0 – β1 x)] = 0 (2.13) 2–16 0 = xi β1 1 = i (2.15) n • wobei y = 1 n ∑ xi (yi - βˆ 0 - βˆ 1 xi ) = 0 n i=1 ∑ˆ 1 = i 1 = i lösen: (2.14) ∑ˆ y = βˆ 0 +βˆ 1 x , gen der Grundgesamtheit (2.12) und (2.13) für die Stichprobe 1 n ∑ (yi - βˆ 0 - βˆ 1 xi ) = 0 n i=1 n ∑ Appendix A1 lassen sich Schätzwerte für β0 und β1 ableiten. Dabei sucht man diejenigen β̂0 und β̂1 Werte, die die Gleichun- 1 n β0 (2.14) lässt sich umformen: 1 n yi • n Mit diesen Bedingungen und den Rechenregeln aus Kapitel 1 – 1 n • 1 n ∑ yi n i=1 und (2.16) x= 1 n ∑ xi n i=1 βˆ 0 = y - βˆ 1 x Daraus folgt: (2.17) Nach Anwendung des Berechnungsverfahrens verwendet man die ^-Schreibweise. 2–17 • 2–18 n (2.15) lässt sich umformen: β̂1 = n ∑ xi (yi - (y - βˆ 1 x) - βˆ 1xi ) = 0 i=1 ∑ xi (yi - y + βˆ 1(x - xi )) = 0 i=1 ∑ (xi - x) . (2.19) 2 n n zur Stichprobenvarianz von x. Wenn x und y positiv korreliert i=1 i=1 sind, dann ist auch β̂1 positiv und umgekehrt. n ∑ xi (xi - x) = ∑ (xi2 - xi x) = ∑ (xi - x)2 • i=1 n n i=1 i=1 n ∑ (x i -x)2 > 0 : Annahme (2.18) gilt nicht, wenn alle Beobachtungen für xi den gleichen Wert annehmen, z.B. wenn Stundenlöhne nur für Per- ∑ xi (yi - y) = ∑ (xi - x)(yi - y) gilt für β̂1, solange n • Dies ist das Verhältnis der Stichprobenkovarianz von x und y ∑ xi (yi - y) = ∑ xiβˆ 1(xi - x) und i=1 i=1 n Da ∑ (xi - x)(yi - y) sonen mit gleichen Werten für „educ“ beobachtet werden. (2.18) i=1 2–19 • Mit (2.17) und (2.19) werden die Kleinstquadrateschätzwerte für β0 und β1 berechnet. 2–20 • Der vorhergesagte Wert von y an der Stelle x = xi ist: ŷi = βˆ 0 + βˆ 1xi Das geschätzte Residuum für Beobachtung i ist: xi β1 β0 yi = yi yi = ui • (2.20) ˆ ˆ ˆ ˆ (2.21) 2–21 • Man kann β̂0 und β̂1 so wählen, dass die Summe der quadrier- 2–22 • KQ-Regressionsgleichung (Stichproben-Regressionsfunktion): ten Residuen minimiert wird: n n i=1 i=1 ∑ ûi2 = ∑ (yi − βˆ 0 − βˆ 1xi )2 = S ŷ = βˆ 0 + βˆ 1 x , (2.22) Leitet man diesen Ausdruck nach β̂0 und β̂1 ab, so ergeben sich die Gleichungen (2.14) und (2.15) als Bedingungen erster Ord- wobei ŷ den vorhergesagten Wert angibt; β̂0 ist der vorhergesagte Wert von y, wenn x = 0, was oft nicht sinnvoll ist. • (2.22a) n ∂S = −2∑ xi (yi − βˆ 0 − βˆ 1 xi ) = 0 ∂βˆ 1 i=1 (2.22b) Die Stichproben-Regressionsfunktion (2.23) ist die geschätzte Version der Bevölkerungs-Regressionsfunktion (2.8) E(y x) = β0 + β1x , die unbekannt bleibt. Jede Stichprobe nung, die durch (2.17) und (2.19) gelöst werden: n ∂S = −2∑ (yi − βˆ 0 − βˆ 1 xi ) = 0 ∂βˆ 0 i=1 (2.23) generiert mit β̂0 und β̂1 eine andere Stichproben- Regressionsfunktion. • Mit β̂1 lässt sich für jede Änderung von x (∆x) die erwartete geschätzte Änderung von y (∆y) bestimmen. 2–23 2–24 • Beispiel 1: Gehalt des Vorstandsvorsitzenden (salary) als • Funktion der Rendite (ROE). Salary gemessen in 1000 $ (z.B. Beispiel 2: Stundenlohn (wage) als Funktion der Ausbildungs- jahre (educ). Daten für 526 Personen ergeben: 856,3), ROE gemessen in Prozent (z.B. 10) wage = –0,90 + 0,54 educ salary = β0 + β1 ROE + u 0 Jahre Ausbildung: Stundenlohn negativ: Nicht sinnvoll, aber kommt in Daten auch nicht vor (out of sample prediction). Auf Basis von Daten für 209 Vorstandsvorsitzende ergibt sich: salary = 963,1 + 18,5 ROE 8 Jahre Ausbildung: wage = –0,90 + 0,54 · 8 = 3,42 $ (2.26) Jedes Ausbildungsjahr erhöht den Lohn im Mittel um 54 Cent, Gehalt bei Rendite von 0: 963.100 $ Gehalt bei Rendite von 1 Prozent: um 18,5 (Tausend $) höher. Gehalt bei Rendite von 30 Prozent: 963,1 + 18,5 · 30 = 1518,2 egal wie hoch die Bildung schon war. • Frage: Was ist die Konsequenz eines Anstiegs von educ = 8 auf educ = 10? Tausend $, d.h. 1.518.200 Dollar. 2–25 • (2.27) Sprachregelung: Man regressiert y auf x, also die abhängige 2–26 Kapitel 2: Das einfache Regressionsmodell auf die unabhängige Variable. 2.1 Definitionen 2.2 Herleitung der Kleinstquadrate-Schätzung 2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte 2.4 Erwartungswerte und Varianzen 2.5 Regression durch den Ursprung 2.6 Regression mit logarithmierten Werten 2–27 2–28 2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätz- • Die Stichprobenkovarianz zwischen xi und û i ist Null: n ∑ xiuˆ i = 0 güte • Jeder vorhergesagte Wert von y, ŷ , liegt auf der Regressionsgerade, die tatsächlichen Datenpunkte im Normalfall nicht. Wenn û positiv ist, wird y unterschätzt, wenn û negativ ist, wird Dies folgt aus Annahme 2 und der Bedingung (2.15). • • Summe und Durchschnittswert der KQ-Residuen ist Null: yi lässt sich als Summe von Vorhersage und Residuum abbilden: n ∑ ûi = 0 Der Punkt ( x, y ) liegt auf der Regressionsgeraden, d.h. setzt man x in die Regressionsgleichung ein, so ergibt sich y . y überschätzt (vgl. Abb. 2.4). • (2.31) i=1 (2.30) y i = ŷ i + ûi (2.32) Da die ûi im Mittel Null sind, folgt ŷ = y . i=1 Dies folgt sowohl aus Annahme 1 (2.5) als auch aus der Bedinn gung erster Ordnung für die Minimierung von ∑ ûi2 (2.22a). i=1 2–29 • Man definiert die gesamte (totale, SST), erklärte (SSE) und re- 2–30 • R2 als Maß der Schätzgüte verwenden: R T S S S S 1 = E T S S S S = 2 R (2.33) , 0 ≤ R2 ≤ 1 i=1 n ∑ (yˆ i - y)2 ∑ uˆ i2 (2.38) Es gibt den Anteil der durch x erklärten Stichprobenvariation (2.34) i=1 n ≡ SSR n ∑ (yi - y)2 ≡ SSE ≡ siduale (SSR) Quadratsumme: SST Solange die Konstante β0 mit geschätzt wurde, kann man das von y an und wird meist als Prozentgröße beschrieben. Wenn (2.35) R2 = 1, liegen alle Punkte auf der Regressionsgeraden. In die- i=1 sem Fall ist SSR = 0, es gibt keine Residuen. • SST beschreibt die gesamte Variation in y. Sie lässt sich auftei• len: R S S + E S S = T S S (2.36) 2–31 Der Wert des R2 entspricht dem Quadrat des Stichprobenkorre2 lationskoeffizienten zwischen yi und ŷ i , R2 = ⎡⎣corr ( yi ,yˆ i ) ⎤⎦ . 2–32 • Beispiel: salary = 963,1 +18,5 ROE, n=209 R2=0,0132 (2.39) Hier wird nur ein Anteil von 1,32 Prozent der gesamten Streuung von salary durch ROE erklärt. Dennoch kann die Schät- Kapitel 2: Das einfache Regressionsmodell 2.1 Definitionen 2.2 Herleitung der Kleinstquadrate-Schätzung zung nützlich sein. 2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte 2.4 Erwartungswerte und Varianzen 2.5 Regression durch den Ursprung 2.6 Regression mit logarithmierten Werten 2–33 2–34 • 2.4 Erwartungswerte und Varianzen bachteten Größen, die yi beeinflussen. 2.4.1 Unverzerrtheit des KQ-Schätzers • Annahme SLR.1: Im Modell für die Grundgesamtheit sind y, x und der Störterm u verbunden als: y = β0 + β1 x + u, • • Annahme SLR.3: Die Realisationen von xi in der Stichprobe, {xi, i= 1,…,n} sind nicht alle identisch. • y, x und u sind Zufallsvariablen. • Annahme SLR.2: Unsere Zufallsstichprobe der Größe n {(xi,yi): • Für die Beobachtung i der Zufallsstichprobe lässt sich (2.47) • Annahme SLR.4: Der Erwartungswert des Fehlers u ist für jeden Wert der erklärenden Variablen x gleich Null: E(u x) = 0 • Für jedes Element i der Zufallsstichprobe gilt: E(ui xi ) = 0 . wie folgt schreiben: i=1,2,…,n (2.48) 2–35 Frage: Bei welchen Werten für die Varianz oder Standardab- weichung von xi in der Stichprobe trifft die Annahme nicht zu? i= 1,2,…,n} folgt Modell (2.47). yi = β0 + β1 xi + ui, Da β0 und β1 ohne Variation in x nicht definiert sind (vgl. 2.18), unterstellen wir: (2.47) mit β0 und β1 als Achsenabschnitts- und Steigungsparameter. • ui ist der Störterm für Beobachtung i und enthält alle unbeo- 2–36 • Wir betrachten die KQ-Eigenschaften bedingt auf die konkreten n In (2.19) hatten wir gezeigt, dass β̂1 = da ∑ (xi - x)(yi - y) = ∑ (xi - x)yi n ∑ (xi - x) • , Der Zähler lässt sich wie folgt umformen: n n n i=1 i=1 i=1 ∑ (xi - x)β0 + ∑ (xi - x)β1xi + ∑ (xi - x)ui 2 (vgl. A8), lässt sich ˆ n n ∑ (xi - x)yi i=1 n ∑ (xi - x)2 i=1 n = ∑ (xi - x)yi i=1 SSTx n n i=1 i=1 n n = (2.51) = β0 ∑ (xi - x) + β1∑ (xi - x)xi + ∑ (xi - x)ui auch i=1 schreiben als β̂1 = i=1 i=1 n i=1 ∑ (xi - x)(yi - y) 1 β n β̂1 ist eine Zufallsvariable, die je nach Stichprobe anders ausfallen kann. xi in unserer Stichprobe. • • = β1 ⋅ SSTx + ∑ (xi - x)ui , ∑ (xi - x)(β0 + β1xi + ui ) i=1 i=1 SSTx da der erste Term gleich Null ist. SSTx ist die Variation in x. i=1 Einsetzen in 2.50: (2.49,50) 2–37 1 = i ∑ ui di n Tx 1 S S + β1 = ui ︶ , • Beweis: Hier bedingt auf die tatsächlich beobachteten Werte x (2.52) x xi = di wobei 1 = i ˆ x Tx - S xi S n + β1 = β1 • ︵ ∑ 2–38 . Der Schätzer ergibt den Bevölkerungsparame- (alternativ: Unter Annahme nicht-stochastischer x): (a) ter plus eine lineare Kombination der Störterme {u1,u2,…,un}. = β1 + Wären alle Störterme gleich Null, ergäbe sich β1. • Theorem 2.1 (Unverzerrtheit von KQ): 0 1 1 SSTx ⎤ 1 ∑ dui i ⎥ = β1 + SST i=1 x ⎦ n n ∑ E(dui i ) i=1 n ∑ dE(u i i ) = β1, i=1 da E(u x) = 0 unter SLR.2 und SLR.4. Unter den Annahmen SLR.1 bis SLR.4 gilt: E(βˆ ) = β E(βˆ ) = β und 0 ⎡ 1 E(βˆ 1 ) = β1 + E ⎢ ⎣ SSTx 1 (2.53) für alle Werte von β0 und β1. Die KQ-Schätzer sind unverzerrt. (b) βˆ 0 = y - βˆ 1 x = ( β0 + β1 x + u ) - βˆ 1 x = β0 + (β1 - βˆ 1 )x + u E(βˆ 0 ) = β0 + E[(β1 - βˆ 1 )x] + E(u) = β0 + E[(β1 - βˆ 1 )]x = β0 , da E(u) = u = 0 und E(βˆ 1 ) = β1. 2–39 2–40 • Unverzerrtheit ist eine Eigenschaft des Schätzverfahrens, nicht • Beispiel: einzelner Schätzwerte. Ob eine konkrete Stichprobe zu zutref- Mathenoten auf Schulmahlzeiten- Förderung: math = β0 + β1 lnchprg + u fenden Schätzergebnissen führt, weiß man nicht. • Regressiere (2.54) Alle 4 Annahmen müssen zutreffen, d.h. Linearität, Zufalls- n = 408 Schulen, lnchprg = Anteil der Schüler mit Subvention stichprobe, Varianz in x, mittlere bedingte Unabhängigkeit von (0 - 100), math = Anteil der Schüler, die Matheprüfung beste- u und x, sonst sind die Schätzer verzerrt. Annahme 4 trifft gele- hen (0 - 100). gentlich nicht zu. math = 32,14 – 0,319 lnchprg R2 = 0,171 Je mehr gefördert wird, umso schlechter die Matheerfolge. Anteil lnchprg plus 10 Prozentpunkte, Anteil Matheerfolg minus 3,2 Prozentpunkte. Kausaler Effekt nicht glaubhaft. 2–41 • Wenn u mit x korreliert, ist β1 verzerrt geschätzt. u könnte aus- 2.4.2 Varianz der KQ-Schätzer gelassene Variablen wie Armutsrate oder Schulqualität enthal- • ten, die mit lnchprg korreliert sind. Dann ist β̂1 verzerrt. • 2–42 Wie stark streuen die Parameterschätzer um den Erwartungswert? Wie präzise sind die Schätzer? Lösungen werden in der Veranstaltung Empirische Wirtschafts- • forschung II besprochen. Annahme SLR.5: Der Störterm u hat für jeden Wert der erkläVar(u x) = σ 2 renden Variable die gleiche Varianz: (Homoskedastie). • Annahme SLR.5 ist für Beweis der Unverzerrtheit nicht erforderlich. • Die Annahmen SLR.4 und SLR.5 können auch in Bezug auf y dargestellt werden (siehe Abb. 2.8): E(y x) = β0 + β1x (linearer Erwartungswert) 2–43 (2.55) 2–44 Var(y x) = σ 2 (konstante Varianz) (2.56) • Wenn Var(u x ) von x abhängt, spricht man von Heteroskedastie, die sich wegen Var(u x ) = Var(y x ) auch auf y überträgt. 2–45 2–46 • Theorem 2.2 (Stichprobenvarianz der KQ-Schätzer): Unter den Annahmen SLR.1 – SLR.5 gilt (bedingt auf die Stichprobenwerte x): Var(βˆ 1 ) = σ2 n ∑ (xi - x) 2 σ2 = SSTx (2.57) i=1 Var(βˆ 0 ) = σ2 n 1 n 2 ∑x n i=1 i ∑ (xi - x) (2.58) 2 i=1 2–47 2–48 • Determinanten von Var(β̂1 ) : 2.4.3 Die Varianz des Fehlerterms - Je größer σ2, umso größer ist Var(β̂1 ) • mit Hilfe der Daten geschätzt werden kann. - Je größer die Streuung von x, umso kleiner ist Var(β̂1 ) - Je größer die Stichprobe, umso größer ist SSTx, umso klei- • Für Konfidenzintervalle und Teststatistiken benötigen wir die Standardabweichungen von β̂ 0 und β̂1: sd(β̂ 0 ) und sd(β̂1), als messen kann, da die wahren β0, β1 unbekannt sind. • Nach der Schätzung ergibt y i = β̂0 + β̂1x i + ûi die auf Basis der Stichprobe bestimmten Residuen ûi . Wurzel der Varianzen. • Unterscheidung: Im Bevölkerungsmodell yi = β0 + β1 xi + ui stellen die ui Fehler für die Beobachtung i dar, die man aber nie ner Var(β̂1 ) • Zur Berechnung der Parametervarianzen benötigen wir σ2, das Je kleiner Var(β̂1), umso präziser ist der Zusammenhang zwischen y und x beschreibbar. 2–49 • Die Residuen lassen sich als Funktion der wahren unbeobach- 2–50 • Schätzung von 2 Parametern (β̂0 , β̂1 ) sind, die auf Basis der teten Fehler darstellen: vorliegenden Information bestimmt wurden. Dadurch verringert ûi = yi - βˆ 0 - βˆ 1xi = (β0 + β1xi + ui ) - βˆ 0 - βˆ 1xi = ui - (βˆ 0 - β0 ) - (βˆ 1 - β1 )x i sich die Zahl der Freiheitsgrade um 2, was bei einem unver- (2.59) zerrten Schätzer berücksichtigt werden muss (vgl. C.5): Bei unverzerrten Parameterschätzern ist E(ûi ) = ui . • 2 σˆ 2 = n 1 Da σ = E(u ), wäre ∑ ui2 ein geeignetes Schätzverfahren für n i=1 2 Die Verzerrung ergibt sich, da die û i selbst das Ergebnis der σ 2 , allerdings sind die ui2 nicht beobachtbar. Wenn wir statt2 dessen ûi nutzen, ist der Schätzer bestimmbar, aber noch ver1 n 2 SSR zerrt: ∑ ûi = n n i=1 2–51 • 1 (n - 2) n SSR ∑ uˆ i2 = (n - 2) Theorem 2.3 (Unverzerrte Schätzung von σ2): Unter den Annahmen SLR.1 – SLR.5 gilt: • (2.61) i=1 E(σ̂ 2 ) = σ 2 σ̂ 2 kann in (2.57) und (2.58) genutzt werden, um unverzerrte Schätzer von Var(β̂0 ) und Var(β̂1 ) zu bestimmen. 2–52 • Ein Schätzer der Standardabweichung von ui ist σ̂ = σ̂ 2 , Kapitel 2: Das einfache Regressionsmodell genannt Standardfehler der Regression (SER). Es ist ein • Schätzer für die auf x bedingte Streuung von u und y. 2.1 Definitionen Die Standardabweichung (standard deviation) der Parameσ ter: sd(βˆ 1) = lässt sich auf Basis der Streuung in der SSTx 2.2 Herleitung der Kleinstquadrate-Schätzung Stichprobe als Standardfehler von β̂1 schätzen: 2.4 Erwartungswerte und Varianzen se(βˆ 1) = σˆ = SSTx σˆ 2.5 Regression durch den Ursprung n ∑ (xi − x)2 2.6 Regression mit logarithmierten Werten i=1 • 2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte Da σ̂ von Stichprobe zu Stichprobe variiert, sind se(β̂1 ) und se(β̂0 ) Zufallsvariablen. 2–53 • 2.5 Regression durch den Ursprung • 2–54 Es gibt Fälle, in denen bei x = 0 auch der Wert von y null sein Das Kleinstquadrateverfahren minimiert in diesem Fall (vgl. 2.22): n ∑ (yi - βˆ 1xi )2 = 0 soll (z.B. Steuereinnahmen als Funktion des Einkommens). y = β 1x . Hier lautet das Modell: Bedingung erster Ordnung: (2.63) • (2.64) i=1 n ∑ xi (yi - βˆ 1xi ) = 0 , Da kein Achsenabschnittsparameter geschätzt wird, spricht man von einer Regression „durch den Ursprung“, die Regressionslinie verläuft durch den Punkt (x,y) = (0,0). (2.65) i=1 n so dass ˆ β 1 = ∑ xi yi i=1 n ∑ , (2.66) xi2 i=1 solange nicht alle xi den Wert 0 annehmen. 2–55 2–56 n • Vergleiche dies mit β̂1 = ∑ (xi - x)yi i=1 n ∑ (xi - x)2 ˆ . β1 und β̂1 sind nur dann 2.1 Definitionen i=1 identisch, wenn x = 0 . • Kapitel 2: Das einfache Regressionsmodell (2.49) ˆ ˆ Schätzt man β1 obwohl β0 ≠ 0, so ist β1 verzerrt. 2.2 Herleitung der Kleinstquadrate-Schätzung 2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte 2.4 Erwartungswerte und Varianzen 2.5 Regression durch den Ursprung 2.6 Regression mit logarithmierten Werten 2–57 • 2.6 Regression mit logarithmierten Werten • sich y bei Änderung von x um eine Einheit ändert. Um zu be- (Semi-Elastizität) (vgl. A.28). Nun ist die absolute Änderung schreiben, um wie viel Prozent sich y ändert, schätzt man das von y nicht mehr über alle Werte von educ konstant. • Hinweis: Die verwendeten Rechenregeln sind in Kapitel 1 – Beispiel: (2.44) um circa 8,3 Prozent. • Mit dem Schätzverfahren lassen sich auch konstante Elastizitäten schätzen (vgl. A.26). Appendix A4 erläutert. • Ergebnis: log(wage) = 0,584 + 0,083 educ Mit jedem zusätzlichen Ausbildungsjahr (educ) steigt der Lohn Hinweis: Auch wenn die Notation "log" verwendet wird, ist der natürliche Logarithmus gemeint. • Jetzt gibt 100 · β1 an, um wie viel Prozent sich y (bzw. der Lohn) ändert, wenn sich x (bzw. educ) um eine Einheit ändert Im linearen Modell beschreibt β1, um welchen absoluten Betrag Modell mit logarithmiertem y. • 2–58 log(wage) = β0 + β1 educ +u (2.42) % ∆wage ≅ (100 · β1) ∆educ (2.43) 2–59 2–60 • Beispiel: log(salary) = β0 + β1 log(sales) + u (2.45) • hours = β0 + β1 log(wage) + u Hier ist β1 die Elastizität des Gehalts des CEO in Bezug auf den β1/100 beschreibt die absolute Änderung in hours bei einer Än- Umsatz. Schätzung wie zuvor: derung von wage um ein Prozent. log(salary)= 4,822 + 0,257 log(sales) (2.46) hours = 33 + 45,1 log(wage) 2 n=209, R = 0,211. • Beispiel: ∆hours ≈ (45,1 / 100) % ∆wage Ein Anstieg der Umsätze um 1 Prozent erhöht das Gehalt um Ein Anstieg der Löhne um ein Prozent erhöht die Stundenzahl 0,257 Prozent. um 0,451, d.h. 0,451 · 60 = 27,06 Minuten. Schließlich lässt sich abschätzen, wie hoch der absolute Effekt einer relativen Änderung ist. 2–61 2–62 • Modelle, die nicht-linear in Parametern sind, sind z.B.: 1 oder y= +u y = β0 + xβ1 + u β0 + β1x Solche Modelle behandeln wir nicht. • Warum „lineares Regressionsmodell“? Die Regressionsgleichung y = β0 + β1 x + u ist linear in den Parametern β0 und β1. Logarithmische Variablen sind ebenso zulässig wie Polynome oder x oder sin(x). Skalierungen beeinflussen nicht die Schätzung, aber die Interpretation. 2–63 2–64 Schlüsselbegriffe Kapitel 2: Ceteris paribus Beziehung Einfache Regression Abhängige, erklärte, endogene Variable Regressand Fehlerterm, Störterm Unabhängige, erkl., exogene Variable Regressor Linearer Zusammenhang Steigungsparameter Achsenabschnittsparameter Konstante Mittlere bedingte Unabhängigkeit Ausgelassene Faktoren Grundgesamtheit Bedingter Erwartungswert Bevölkerungs-Regressionsfunktion Systematisch erklärbarer Teil Stichprobe Stichprobenkovarianz Gesamte Quadratsumme Erklärte Quadratsumme Residuale Quadratsumme Variation R2 Schätzgüte Stichprobenvariation Stichprobenkorrelationskoeffizient Skalieren Semi-Elastizität Lineares Regressionsmodell Nicht-linear in Parametern Unverzerrtheit Nicht-stochastisch Schätzverfahren vs. –wert Stichprobenvarianz KQ-Schätzwert Residuum Stichproben-Regressionsfunktion Regressionsgerade Vorhersage Teststatistik Standardabweichung Standardfehler der Regression Standardfehler Regression durch den Ursprung Linear in Parametern Homoskedastie Heteroskedastie Konfidenzintervall 2–65 Literatur Kapitel 2: • Wooldridge, Kapitel 2 • Von Auer, Kapitel 3, Kapitel 4 • Hill/Griffiths/Judge, Kapitel 3, Kapitel 4 • Stock/Watson, Kapitel 4 2–67 2–66 Leitfragen und Lernziele Kapitel 3: Kapitel 3: Multiple Regression: Schätzung • 3.1 Motivation Was spricht gegen die ceteris paribus Interpretation im einfachen Regressionsmodell? 3.2 Mechanik und Interpretation des KQ-Schätzers • 3.3 Erwartungswert des KQ-Schätzers Wie lässt sich das einfache Regressionsmodell auf viele erklärende Variablen hin erweitern? 3.4 Varianz des KQ-Schätzers • Welche Eigenschaften hat das KQ-Verfahren und warum ist es so verbreitet? 3.5 Gauss-Markov Theorem 3–1 • 3.1 Motivation • 3–2 (3.1) Störterm herausgelöst und separat mit dem Koeffizienten β2 berücksichtigt. Jetzt kann β1 bei gegebenem Wert für die Arbeits- Multiple Regressionsanalyse berücksichtigt viele Kontrollvariablen, so dass kausale bzw. ceteris paribus Schlussfolgerun- markterfahrung geschätzt werden. • Beispiel 2: avgscore = β0 + β1 · expend + β2 · avginc + u (3.2) Gesucht ist β1, die Auswirkung von Ausgaben der Schulen pro gen plausibler werden. • wage = β0 + β1 · educ + β2 · exper + u Nun wird der Effekt der Arbeitsmarkterfahrung (exper) aus dem Nachteil der einfachen Regressionsanalyse: Annahme SLR.4, E(u X ) = 0 , ist unrealistisch. Daher ist die ceteris paribus Interpretation problematisch. • Beispiel 1: Mit mehreren erklärenden Variablen lässt sich eine abhängige Variable besser erklären und voraussagen. Schüler auf Testerfolge. Da beide Größen vom mittleren Familieneinkommen beeinflusst werden könnten, ist es sinnvoll, den Effekt des Einkommens (avginc) herauszurechnen (β2). 3–3 3–4 • Allgemeines Modell mit zwei erklärenden Variablen: y = β0 + β1 x1 + β2 x2 + u • Auf diese Weise lassen sich auch nicht-lineare Zusammenhänge abbilden, z.B. cons = β0 + β1 · inc + β2 · inc2 + u , (3.3) (3.4) Wieder misst β0 den Achsenabschnitt, β1 die Änderung in y cons = Konsumausgaben und inc = Einkommen. wenn sich x1 ändert (gegeben x2, d.h. Δx2 = 0 sowie gegeben u, Hier können β1 und β2 nicht getrennt voneinander interpretiert d.h. Δu = 0) und β2 die Änderung in y wenn sich x2 ändert (ge- werden. Man bestimmt den Gesamteffekt von inc auf cons Δcons durch die erste Ableitung: ≈ β1 + 2β2 inc Δinc geben x1, d.h. Δx1 = 0 sowie gegeben u, d.h. Δu = 0). Beide Parameter sowie das Einkommen spielen eine Rolle. Obwohl cons in nicht-linearer Form von inc abhängt, ist (3.4) ein (in den Parametern) lineares Regressionsmodell. 3–5 • Zentrale Annahme im Modell mit zwei erklärenden Variablen: E(u x1 ,x 2 ) = 0 , (3.5) • Allgemeines multiples Regressionsmodell: y = β0 + β1 x1 + β2 x2 + β3 x3 + … + βk xk + u (3.6) d.h. für jedes mögliche Wertepaar (x1, x2) soll der erwartete Das Modell berücksichtigt k erklärende Variablen und enthält Wert von u einheitlich Null sein und alle unbeobachteten De- k+1 unbekannte Parameter. Man unterscheidet Achsenab- terminanten von y hängen nicht mit x1 und x2 zusammen. Diese schnitts- (β0) und Steigungsparameter (β1 bis βk). u enthält alle Annahme ist nicht immer realistisch. Im Beispiel 1 könnten un- nicht berücksichtigten Determinanten von y. beobachtete Fähigkeiten („ability“) sowohl mit dem Lohn als auch mit educ zusammenhängen. Dann wäre der KQ-Schätzer verzerrt. • 3–6 • Zentrale Annahme ist wieder: E(u x1 ,x 2 ,...,xk ) = 0 (3.8) d.h., dass der Störterm u mit allen erklärenden Variablen Frage: Anzahl Kapitalverbrechen = unkorelliert ist. Nur dann ist KQ ein unverzerrter Schätzer für β0 + β1 · Verurteilungswahrscheinlichkeit + β2 · Haftdauer + u. die unbekannten Parameter. Was könnte in u enthalten sein? Hält Annahme (3.5)? 3–7 3–8 3.2 Mechanik und Interpretation des KQ-Schätzers Kapitel 3: Multiple Regression: Schätzung 3.2.1 Ableitung der KQ-Schätzer 3.1 Motivation 3.2 Mechanik und Interpretation des KQ-Schätzers 3.3 Erwartungswert des KQ-Schätzers • Schreibweise für eine KQ-Schätzung mit 2 erklärenden Variabŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 len: (3.9) • Ableitung des Kleinstquadrate-Schätzers durch Minimieren der 3.4 Varianz des KQ-Schätzers quadrierten Residuen. Bei n Beobachtungen werden die Werte für β̂ 0 , β̂1 und β̂2 gesucht, die 3.5 Gauss-Markov Theorem n ∑ (yi - βˆ 0 - βˆ 1 xi1 - βˆ 2 xi2 )2 (3.10) i=1 minimieren. i ist der Index für die n Beobachtungen. 3–9 • Im allgemeinen Fall sucht man die Parameter β̂ 0 , β̂1,…, β̂k für ŷi = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 + ... + βˆ k xk 3–10 • E(u)=0 und E(xju)=0 für j=1,2,…,k ableiten, wenn die Bedin- (3.11) gungen in (3.13) durch n dividiert werden. In diesem Fall spricht durch Minimieren von (s. Appendix A.1): n ∑ (yi - βˆ 0 - βˆ 1 xi1 - βˆ 2 xi2 - ... - βˆ k xik )2 . man von einem Momentenschätzer. (3.12) • i=1 • Es ergeben sich k+1 Bedingungen erster Ordnung: ∑ (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0 und (3.8)) auch in der Stichprobe zutreffen. Man spricht von i=1 n Momentenbedingungen. ∑ xi1(yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0 • i=1 n ∑ xi2 (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0 Wir erhalten hier die Schätzer für β0,…, βk dadurch, dass wir die k+1 Gleichungen in (3.13) nach den k+1 Parametern an- i=1 n Momentenschätzer erhält man, wenn man unterstellt, dass Bedingungen, die in der Grundgesamtheit gelten (z.B. Ann. (3.5) n ∑ xik (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0 Diese Bedingungen lassen sich auch über die Annahmen (3.8), (3.13) hand der Stichprobendaten auflösen. i=1 3–11 3–12 • Gleichung (3.11) wird als KQ-Regressionsgerade oder Stichproben-Regressionsfunktion bezeichnet. Es ist Standard, einen Achsenabschnittsparameter, β0, mit zu schätzen. 3.2.2 Interpretation der KQ-Regressionsgleichung • Zwei erklärende Variablen: ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 (3.14) β̂ 0 ergibt den y-Wert, wenn x1 = x2 = 0 (selten sinnvoll). Die Steigungsparameter beschreiben Δyˆ = βˆ 1 Δx1 + βˆ 2 Δx 2 d.h. wie stark sich y bei Änderungen von x1 und x2 ändert. Bei gegebenem x2, d.h. Δx2 = 0, folgt Δy = βˆ 1 Δx1, bei gegebenem x1, d.h. Δx1 = 0, folgt Δy = βˆ 2 Δx 2 als Partialeffekt von x1 bzw. x2. 3–13 • k erklärende Variablen: ŷ = βˆ 0 + βˆ 1 x1 + ... + βˆ k xk (3.16) bzw. Δyˆ = βˆ 1 Δx1 + ... + βˆ k Δxk (3.17) 3–14 • Beispiel: log(wage) = 0.284 + 0.092 educ + 0.0041 exper + 0.022 tenure β̂1 beschreibt die Änderung in y, wenn x1 ceteris paribus um ei- educ = Ausbildungsjahre ne Einheit steigt oder fällt, Δy = βˆ 1 Δx1 , exper = Jahre Arbeitsmarkterfahrung (3.18) (3.19) tenure = Jahre Betriebszugehörigkeitsdauer d.h. bei gegebenen Werten für x2, x3,…, xk. Da die abhängige Variable logarithmiert ist, (Hinweis: Gemeint ist der natürliche Logarithmus) haben die Koeffizienten eine (approximative) Prozentinterpretation. Bei gegebener exper und tenure erhöht ein weiteres Ausbildungsjahr log(wage) um 0,092 bzw. den Lohn um 9,2 Prozent. Dies ist der mittlere 3–15 3–16 • Lohnunterschied zweier Personen mit gleichem exper und 3.2.3 Vorhersage tenure und mit einem Bildungsunterschied von einem Jahr. • Auch der Effekt einer gleichzeitigen Änderung von zwei Variab- Für jede Beobachtung i ergibt sich nach der Schätzung der vorhergesagte y-Wert wie folgt: len lässt sich bestimmen: ŷi = βˆ 0 + βˆ 1 xi1 + βˆ 2 xi2 + ... + βˆ k xik ∆log(wage) = 0,0041 ∆exper + 0,022 ∆tenure • = 0,0041 + 0,022 Dies weicht vom beobachteten Wert yi im Ausmaß des Vorhersagefehlers ab. Der KQ-Schätzer minimiert den durchschnittli- = 0,0261 chen Vorhersagefehler, das Residuum ûi : hier ca. 2,6 Prozent Lohnzuwachs, wenn sich exper und tenure uˆ i = yi - yˆ i gleichzeitig um eins ändern. (3.21) Wenn ûi > 0, wird yi unterschätzt, wenn ûi < 0, überschätzt. 3–17 • (3.20) 3–18 • Eigenschaften von KQ-Vorhersagen: (1) Der Stichprobendurchschnitt der Residuen ist Null und daher y = ŷ (siehe 3.13) Frage: Eine Schätzung der Collegenote (colGPA) ergibt colGPA = 1,29 + 0,453 hsGPA + 0,0094 ACT, wobei hsGPA = Note Highschool (2) Die Stichprobenkovarianz zwischen jeder unabhängigen Variable und den KQ-Residuen ist Null, daher auch die zwischen den vorhergesagten Werten und den KQ-Residuen (siehe 3.13) ACT = Testergebnis. Wenn im Mittel hsGPA = 3,4 und ACT = 24,1, wie lautet die mittlere Collegenote? (3) Der Punkt ( x 1, x 2,…, x k, y ) liegt immer auf der Regressionsgerade y = βˆ 0 + βˆ 1 x 1 +βˆ 2 x 2 +... + βˆ k x k (wegen (1)). 3–19 3–20 • 3.2.4 KQ-Koeffizienten als partielle Effekte • (3.22), wobei hier dann r̂i1 das Residuum der Regression von x1 Eine häufig verwendete Darstellung der Steigungskoeffizienten lautet z.B. für den Fall ŷ = βˆ 0 + βˆ 1x1 + βˆ 2 x 2 ⎛ n ⎞ ⎛ n ⎞ βˆ 1 = ⎜ ∑ rˆi1yi ⎟ / ⎜ ∑ rˆi12 ⎟ , ⎝ i=1 ⎠ ⎝ i=1 ⎠ Auch im allgemeinen Fall mit k erklärenden Variablen gilt auf alle anderen x2, x3, …, xk bezeichnet. (3.22) wobei r̂i1 das Residuum einer Regression von x1 auf x2 ist. • (3.22) besagt, dass sich der Steigungsparameter β̂1 im multiplen Modell als Ergebnis einer Regression von yi auf dieses r̂i1 bestimmen lässt. Dabei beschreibt r̂i1 den Teil der x1 – Variable, der nicht durch x2 abgebildet wird. β̂1 beschreibt die partielle Korrelation von x1 mit y, nachdem x2 herausgerechnet wurde. 3–21 • 3.2.5 Vergleich von einfacher und multipler Regression • Einfache Regression: Multiple Regression : • • Beispiel: Eine Schätzung der Beteiligung von Arbeitnehmern im Pensionsplan eines Unternehmens ergibt y = β 0 + β 1 x1 ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 prate = 80,12 + 5,52 mrate + 0,243 age ~ Grundsätzlich unterscheiden sich β1 und β̂ 1 , wobei gilt β 1 = βˆ 1 + βˆ 2 δ 1 . (3.23) ~ δ1 ist der Steigungsparameter der einfachen Regression von xi2 auf xi1: 3–22 xi2 = δ0 + δ1 xi1 + ui ~ β1 und β̂1 sind identisch, wenn entweder β̂2 = 0 , d.h. x2 hat kei~ nen Einfluss auf ŷ oder wenn δ1 = 0 , d.h. x1 und x2 sind in der n = 1534 prate = Anteil der Beschäftigten, die teilnehmen (0–100) mrate = Rate der Kofinanzierung durch Arbeitgeber (0–1) age = Alter des Pensionsplans (Mittel 13,2) Die Koeffizienten sind wie erwartet positiv. Schätzt man ohne age: prate = 83,08 + 5,86 mrate , ändert sich β̂mrate nur wenig, da die Korrelation zwischen mrate und age klein ist. Stichprobe unkorreliert. 3–23 3–24 • 3.2.6 Schätzgüte einfachen und der multiplen Regression gleich, wenn (a) ent- • Wie zuvor lässt sich definieren: weder die Koeffizienten der anderen erklärenden Variablen alle total sum of squares explained sum of squares residual sum of squares SSE SSR ∑ (yi - y)2 (3.24) i=1 n ∑ (yˆ i - y)2 (3.25) i=1 n ≡ reliert ist. Wenn die Koeffizienten oder Korrelationen klein aus~ fallen, kann der Unterschied zwischen β1 und β̂1 klein sein. n ≡ Null sind oder (b) wenn x1 mit keiner der anderen Variablen kor- SST ≡ Bei k erklärenden Variablen ist der Steigungsparameter β1 der ∑ uˆ i2 (3.26) • Und es gilt R S S + E S S = T S S i=1 , (3.27) d.h. die gesamte Variation in yi ist die Summe der Variation in ŷ i und in ûi . 3–25 Wie zuvor ist R T S S S S 1 = E T S S S S ≡ 2 R • (3.28) 3–26 • R2 nie fallen, da der erklärte Anteil von SST nicht fallen kann. der Anteil der durch die KQ-Regression erklärten Variation von Daher ist das R2 kein gutes Kriterium, um über die Aufnahme y. R2 entspricht dem quadrierten Korrelationskoeffizient zwischen yi und ŷ i . zusätzlicher erklärender Variablen zu entscheiden. Stattdessen prüft man, ob zusätzliche Variablen einen von Null verschiede- 2 ⎛ n ⎞ ˆ ⎟ ⎜ ∑ (yi - y)(yˆ i - y) ⎝ i=1 ⎠ R2 = . n ⎛ n ⎞ ⎛ ⎞ 2 ˆ 2⎟ ⎜ ∑ (yi - y) ⎟ ⎜ ∑ (yˆ i - y) ⎝ i=1 ⎠ ⎝ i=1 ⎠ Werden zusätzliche erklärende Variablen berücksichtigt, kann (3.29) nen Effekt haben (dazu Kapitel 4). • Beispiel: CollegeNote = 1,29 + 0,453 SchulNote + 0,0094 Test n=141, R2=0,176. Das Modell erklärt 17,6 Prozent der beobachteten Streuung von Collegenoten. • Selbst bei kleinen R2 Werten kann KQ präzise und informative ceteris paribus Effekte bestimmen. 3–27 3–28 • 3.2.7 Schätzung ohne Regressionskonstante • Lässt man β0 irrtümlich aus, können alle Steigungsparameter Wird das lineare Modell ohne Regressionskonstante geschätzt, verzerrt sein. Berücksichtigt man β0, obwohl es eigentlich Null so spricht man von einer Regression durch den Ursprung. Im- ist, so steigt die Streuung der geschätzten Steigungsparameter. plizit wird β0 gleich Null gesetzt. • Da für den Fall, dass x1 = 0, x2 = 0, …, xk = 0, nimmt ŷ dann den Wert Null an. • Wenn keine Regressionskonstante geschätzt wird, ist nicht mehr gewährleistet, dass der Mittelwert der Residuen Null ist. • R2 kann nun negativ werden, wenn es als Anteil 1− SSR defiSST niert ist. Dies lässt sich durch Berechnung von R2 mittels (3.29) vermeiden. 3–29 3–30 3.3 Erwartungswert des KQ-Schätzers Kapitel 3: Multiple Regression: Schätzung 3.3.1 Annahmen und Theorem 3.1 Motivation • 3.2 Mechanik und Interpretation des KQ-Schätzers Wir betrachten Eigenschaften des KQ-Schätzverfahrens (nicht: von konkreten Schätzergebnissen), wenn mittels Stichproben- 3.3 Erwartungswert des KQ-Schätzers daten unbekannte Parameter der Grundgesamtheit geschätzt 3.4 Varianz des KQ-Schätzers werden. • Annahme MLR.1: Das Modell für die Grundgesamtheit lautet: u + xk βk + . . . + x2 β2 + x1 β1 + β0 = y 3.5 Gauss-Markov Theorem , (3.31) wobei β0, β1,…, βk konstante unbekannte Parameter und u ein unbeobachtbarer Zufallsfehler oder Störterm ist. 3–31 3–32 • Das Modell ist linear in Parametern. y und die erklärenden Va- • Bei perfekter Kollinearität ist KQ-Schätzung nicht möglich. Bei riablen können beliebige Funktionen der zugrundeliegenden hoher (aber nichtperfekter) Korrelation ist der KQ-Schätzer 2 Variablen sein (z.B. y = log(wage), x2 = educ ). durchführbar, aber oft unpräzise. • Annahme MLR.2: Die Zufallsstichprobe mit n Beobachtungen • Perfekte Kollinearität ergibt sich beispielsweise, wenn die gleiche Variable in verschiedenen Einheiten verwendet wird. {(xi1, xi2,…, xik, yi): i= 1,2,…,n} folgt dem Bevölkerungsmodell. ui + k xi βk + . . . + 2 xi β2 + 1 xi β1 + β0 = yi • Für eine zufällige Beobachtung i gilt (3.32) • Annahme MLR.3: In Stichprobe und Grundgesamtheit ist keine unabhängige Variable konstant und zwischen den erklärenden Variablen gibt es keine exakten linearen Zusammenhänge (keine perfekte Kollinearität). 3–33 • Beispiel: • Beispiel: - Eisumsatz = β0 + β1 Grad C + β2 Grad F + … - Lohn 3–34 Lohn=β0 + β1 Alter + β2 Geburtsjahr + β3 Beobachtungsjahr + u = β0 + β1 Jahre Studium + β2 Semester Studium +… - PKW Umsatz = β0 + β1 Werbungskosten in € + β2 Werbungskosten in $ + … Da Beobachtungsjahr–Geburtsjahr = Alter, so nicht schätzbar. • Ebenfalls nicht schätzbar, wenn n < k+1. • MLR.3 kann auch zufällig, durch unglückliche Datenkonstellati- • Quadratische Berücksichtigung von erklärenden Variablen (s.o. x1 = income, x2 = income2) ist unproblematisch, da hier x2 keine lineare Funktion von x1 ist. • Perfekte Kollinearität ergibt sich auch, wenn mehrere Variablen on nicht zutreffen. • Annahme MLR.4: Der Fehlerterm u hat – bedingt auf alle erklärenden Variablen – einen Erwartungswert von 0. E(u x1 ,x 2 ,...,xk ) = 0 (3.36) linear abhängig sind, z.B. wenn x1 + x2 = x3. Lösung: eine der drei Variablen auslassen. 3–35 3–36 • Annahme MLR.4 trifft nicht zu, wenn • Theorem 3.1 (Unverzerrtheit des KQ-Schätzers): E(β̂ j ) = β j , (a) funktionale Form falsch spezifiziert ist und der Störterm z.B. Unter MLR.1 – MLR.4 gilt noch x12 enthält, für alle Werte des Bevölkerungsparameters βj, d.h. KQ- (b) log und lineare Form nicht angemessen berücksichtigt sind, Schätzer sind unverzerrt. j= 0,1,…,k (3.37) (c) wichtige erklärende Variablen ausgelassen werden, die mit • Wichtigste Annahme: MLR.4, aber nicht überprüfbar. den berücksichtigten Variablen korreliert sind, • Unverzerrtheit beschreibt das Verfahren, nicht konkrete Ergebnisse. (d) Messfehler in einer erklärenden Variable vorliegen. Trifft MLR.4 zu, so sprechen wir von exogenen erklärenden Variablen. Ist xj mit u korreliert, so ist xj endogen. 3–37 3–38 • Wahres Modell: 3.3.2 Auswirkungen von Fehlspezifikationen u + x2 β2 + x1 β1 + β0 = y • Berücksichtigung irrelevanter erklärender Variablen (mit Be- erfüllt MLR.1-4 völkerungsparameter von 0): geschätzt: y = β0 + β1 x1 + β2 x 2 + β3 x3 + u ; (3.40) (3.41) Geschätztes Modell: y = β 0 + β 1 x1 β 1 = βˆ 1 + βˆ 2 δ 1, wobei β̂1 und β̂2 geschätzte Wir wissen (3.38) wenn β3 = 0, Steigungsparameter der multiplen Regression von yi auf xi1 und dann E(y x1 , x 2 , x 3 ) = E(y x1,x 2 ) =β0 + β1 x1 + β2 x 2 . xi2, i = 1, 2, …, n sind. • β0, β1 und β2 werden unverzerrt geschätzt, aber mit zu großen • δ 1 ist der Steigungsparameter der Regression von xi2 auf xi1. Varianzen. • Auslassen relevanter erklärender Variablen führt zu verzerrten KQ-Schätzern. 3–39 3–40 ~ • Unter der Annahme, dass δ1 fix ist und KQ β̂1 und β̂2 unverzerrt schätzt, folgt E(β 1) = E(βˆ 1 + βˆ 2 δ 1 ) = E(βˆ 1 ) + E(βˆ 2 ) ⋅ δ 1 = β1 + β2 ⋅ δ 1 Bias(β ) = E(β ) - β = β ⋅ δ , so dass 1 1 1 2 1 (3.45) (3.46) was als „omitted variable bias“ bezeichnet wird. ~ • Nur wenn β2 = 0 oder δ1 = 0, d.h. wenn x2 nicht ins Modell gehört oder nicht mit x1 korreliert ist, führt Auslassen nicht zu Ver- • Vorzeichen von β2 in der Regel unbekannt, aber ebenso ab~ schätzbar wie das von δ1. zerrung. • Beispiel 1: wage = β0 + β1 educ + β2 ability + u Vermutung: β2>0 und corr(educ,ability)>0. β1 aus Schätzung: • Die Richtung der Verzerrung ergibt sich aus Tabelle 3.2: wage = β0 + β1 educ + ν sollte im Mittel über viele Stichproben überschätzt sein. • Beispiel 2: 3–41 3–42 avgscore = β0 + β1 expend + β2 povertyrate + u: • Wenn x3 und x1 korreliert sind, ist β 1 verzerrt. Wenn x3 und x2 geschätzt wurde: avgscore = β0 + β1 expend + ν nicht korreliert sind, ist β 2 dann verzerrt, wenn lediglich x2 mit x1 Vermutung: β2<0 und corr(expend,povrate)<0. Vermutlich β1 korreliert ist. überschätzt (z.B. Effekt positiv, wenn eigentlich = 0). • Bei k > 2 ist es schwierig, die Richtung der Verzerrung zu be- • Multiples Regressionsmodell mit k>2: Korrelation zwischen er- stimmen. klärender Variable und Fehler führt im Normalfall zu Verzerrung für alle KQ-Parameter: • Beispiel: Ann. wahres Modell: y = β0 + β1 x1 + β2 x2 + β3 x3 + u Geschätztes Modell: y = β 0 + β 1 x1 + β 2 x 2 (3.49) (3.50) 3–43 3–44 3.4 Varianz des KQ-Schätzers Kapitel 3: Multiple Regression: Schätzung • Ziel: Aussagen zur Streuung der geschätzten Parameter β̂ j . 3.1 Motivation • Große 3.2 Mechanik und Interpretation des KQ-Schätzers Varianz impliziert geringe Präzision und breite Konfidenzintervalle. 3.3 Erwartungswert des KQ-Schätzers • Annahme MLR.5: Der Fehlerterm u hat für alle Werte der er- 3.4 Varianz des KQ-Schätzers klärenden Variablen die gleiche Varianz (Homoskedastie), Var(u x1 ,...,xk ) = σ2 . 3.5 Gauss-Markov Theorem • Variiert die Varianz von u mit einer der erklärenden Variablen, spricht man von Heteroskedastie. • Die Annahmen MLR.1–5 werden als Gauss-Markov Annahmen bezeichnet. 3–45 3–46 • Theorem 3.2 (Stichprobenvarianz des KQ-Steigungsparame- • Einflussfaktor σ 2 : Je größer die unbekannte Streuung von u in der Grundgesamtheit, umso größer Var(β̂ j ) . Bei gegebenem y ters): Unter MLR.1–5 und bedingt auf die Stichprobenwerte der erkläσ2 , renden Variablen gilt Var(βˆ j ) = SSTj (1- R2j ) n für j = 1,2,…k, wobei SSTj = ∑ (xij - x j )2 die Stichprobenvai=1 riation von xj ist und Rj2 der R2-Wert einer Regression von xj auf alle anderen unabhängigen Variablen (einschließlich eines lässt sich σ 2 nur reduzieren, indem weitere relevante erklärende Variablen ins Modell und damit aus dem Fehlerterm genommen werden. • Einflussfaktor SSTj: Je größer die Streuung von xj, umso kleiner Var(β̂ j ) . Die Variation von xj wächst mit steigendem Stichprobenumfang. • Frage: Könnte SSTj = 0 sein? Achsenabschnittsparameters). 3–47 3–48 • Einflussfaktor Rj2: Ein hoher Rj2-Wert zeigt an, dass ein großer Teil der Variation in xj durch die anderen erklärenden Variablen im Modell erklärt werden kann. Daher leistet xj dann nur einen geringen zusätzlichen Beitrag zur Erklärung von y. βj hat die kleinstmögliche Varianz und größtmögliche Präzision, wenn Rj2 = 0, d.h. wenn xj nicht durch die anderen unabhängigen Variablen linear abgebildet werden kann. Rj2 = 1 ist nach Annahme MLR.3 nicht zulässig (perfekte Multikollinearität), bei Rj2 „nahe • Multikollinearität kann durch größere Stichproben oder gekürzte Modellspezifikationen behoben werden. • Frage: Welchen Einfluss hat eine hohe Korrelation zwischen den Variablen x2 und x3 auf die Varianz der Schätzung von β1? • Berücksichtigung irrelevanter Variablen erhöht die Varianz der ~ geschätzten Parameter. Vorausgesetzt β1 und β̂1 sind unver~ zerrt, sagen wir β1 ist effizienter als β̂1, wenn gilt ( ) ( ) Var β 1 |x < Var βˆ 1 |x . 1“ spricht man von Multikollinearität, was zulässig ist. • Bei Multikollinearität können die Parameter nicht präzise geschätzt werden, d.h. die Standardfehler sind groß. 3–49 • Schätzung von σ 2 : Für einen unverzerrten Schätzer von σ 2 auf Basis der quadrierten Störterme ist eine Korrektur der Freiheitsgrade erforderlich, da nicht die Störterme der Bevölkerung, 3–50 • Standardabweichung (standard deviation) von β̂ j : σ sd(βˆ j ) = 1 ⎡SSTj (1- R2j )⎤ 2 ⎣ ⎦ 1 R k S S n = 1 2i u k 1n = i n = 2 σ sondern die geschätzten Residuen einer Stichprobe vorliegen: ˆ ∑ˆ (3.56) • Theorem 3.3 (Unverzerrte Schätzung von σ2): Unter den Gauss-Markov Annahmen MLR.1–5 gilt: E(σˆ 2 ) = σ 2 . • Standardfehler (standard error) von β̂ j : σ̂ se(βˆ j ) = 1 ⎡SSTj (1- R2j )⎤ 2 ⎣ ⎦ (3.58) Der Standardfehler von β̂ j ist (ebenso wie β̂ j selbst) eine Zufallsvariable mit Verteilungseigenschaften. σ̂ wird als Standardfehler der Regression bezeichnet (SER). 3–51 3–52 • (3.58) ist nicht gültig, wenn die Homoskedastieannahme MLR.5 verletzt ist. Unter Heteroskedastie sind die Kapitel 3: Multiple Regression: Schätzung KQ- Parameterschätzer unverzerrt, aber die nach (3.58) berechne- 3.1 Motivation ten KQ-Standardfehler sind falsch. 3.2 Mechanik und Interpretation des KQ-Schätzers 3.3 Erwartungswert des KQ-Schätzers 3.4 Varianz des KQ-Schätzers 3.5 Gauss-Markov Theorem 3–53 3–54 • Unter den Annahmen MLR.1–5 ist KQ das beste, lineare, un- 3.5 Gauss-Markov Theorem • Begründet Verwendung des KQ-Schätzers. Unter MLR.1–4 ist KQ unverzerrt, aber es gibt viele Schätzverfahren mit dieser Ei- verzerrte Schätzverfahren (best linear unbiased estimator = BLUE), d.h. der lineare, unverzerrte Schätzer mit der kleinsten Varianz. genschaft. • MLR.1–5 werden Gauss-Markov Annahmen (für Querschnitts- • Theorem 3.4 (Gauss-Markov Theorem): analysen) genannt. β̂0 , β̂1,…, β̂k benennen die KQ-Schätzer im Modell y = β0 + β1 x1 + β2 x2 +…+ βk xk +u. Unter den Annahmen MLR.1–5 sind β̂0 , β̂1,…, β̂k die besten linearen unverzerrten Schätzer für β0, β1,…, βk (BLUE). 3–55 3–56 Exogene erklärende Variable Endogende erklärende Variable Schlüsselbegriffe Kapitel 3: Multiple Regression Lineares Regressionsmodell Bedingungen erster Ordnung Momentenschätzer Momentenbedingungen Stichproben-Regressionsfunktion Partialeffekt Kontrollvariable Vorhersagefehler Residuum SST, SSE, SSR R2 Schätzgüte Regression durch den Ursprung Bevölkerungsparameter Unverzerrtheit Irrelevante erklärende Variable Omitted variable bias Präzision Konfidenzintervall Homoskedastie Heteroskedastie Gauss-Markov Theorem Stichprobenvariation (Perfekte) Multikollinearität Effizient Standardfehler der Regression Standardabweichung von β̂ j Bevölkerungsmodell Perfekte Kollinearität Lineare Abhängigkeit Messfehler Standardfehler von β̂ j Gauss-Markov Theorem Best linear unbiased estimator BLUE 3–57 Literatur Kapitel 3: • Wooldridge, Kapitel 3 • Von Auer, Kapitel 8, Kapitel 9 • Hill / Griffiths / Judge, Kapitel 7 • Stock / Watson, Kapitel 6 3–59 Linearer Schätzer Partielle Effekte 3–58 Leitfragen und Lernziele Kapitel 4: Kapitel 4: Multiple Regression: Inferenz • 4.1 Stichprobenverteilung des KQ-Schätzers Wie kommt man auf Basis von KQ-Schätzungen zu weiterführenden Aussagen über die Grundgesamtheit? 4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test • 4.3 Konfidenzintervalle Wie führt man Hypothesentests durch und welche Gestaltungsmöglichkeiten ergeben sich dafür? 4.4 Hypothesentests zu Linearkombinationen von Parametern • Worin unterscheiden sich Punkt- und Intervallschätzer? 4.5 F-Tests für mehrere lineare Restriktionen • Was ist bei der Darstellung von Schätzergebnissen zu beachten? 4.6 Präsentation von Schätzergebnissen 4–1 • 4.1 Stichprobenverteilung des KQ-Schätzers • 4–2 Aussagen von E(u x1 ,...,xk ) = E(u) = 0 MLR.4: Kapitel 3 behandelte Erwartungswert (Stichwort: Verzerrung) und Varianz (Stichwort: Präzision und Effizienz) von KQ- MLR.5: Schätzern, nicht die vollständige Verteilungsfunktion. • Die Stichprobenverteilung des KQ-Schätzers folgt der Vertei- • Var(u x1 ,...,xk ) = Var(u) = σ 2 sowie ein. Wenn u von x1, x2,…, xk unabhängig ist, hat u an jeder Ausprägung von x1, x2,…, xk die gleiche Verteilung. lung der Störterme. Daher: • Die Annahme der Unabhängigkeit ist sehr stark und schließt die Annahme MLR.6: Der Störterm der Grundgesamtheit, u, ist unabhängig von den erklärenden Variablen x1, x2,…, xk und normalverteilt mit Erwartungswert Null und Varianz σ2: • MLR.1–MLR.6 werden als Annahmen des klassischen linearen Modells (CLM) bezeichnet, d.h. Gauss-Markov Annahmen plus Normalverteilung. u ~ Normal(0, σ2). 4–3 4–4 • • Unter den CLM-Annahmen hat der KQ-Schätzer für β̂ 0 , β̂1,…, • Frage: Angenommen, u ist von den erklärenden Variablen un- β̂k die kleinste Varianz aller unverzerrten Schätzer, die Lineari- abhängig und nimmt mit gleicher Wahrscheinlichkeit 1/5 die tätsrestriktion des Gauss-Markov Theorems kann entfallen. Werte -2, -1, 0, 1 und 2 an. Verletzt dies die Gauss-Markov Annahmen? Verletzt es die CLM-Annahmen? Theorem 4.1 (Normalverteilung): Unter den Annahmen MLR.1–MLR.6 und bedingt auf die tatsächlich beobachteten Werte der unabhängigen Variablen, ist (4.1) βˆ j ~ Normal(β j ,Var(βˆ j )) Für standardisierte Schätzer gilt: (βˆ j - β j ) sd(βˆ j ) ~ Normal(0,1), wobei sd für Standardabweichung (standard deviation) steht. 4–5 4–6 4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test 4.1 Stichprobenverteilung des KQ-Schätzers 4.2.1 Allgemeines 4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test • Bevölkerungsmodell: 4.3 Konfidenzintervalle • Ann.: CLM-Annahmen treffen zu. Dann erzeugt KQ unverzerrte u + xk βk + . . . + x1 β1 + β0 = y Kapitel 4: Multiple Regression: Inferenz (4.2) Schätzer für βj. 4.4 Hypothesentests zu Linearkombinationen von Parametern • 4.5 F-Tests für mehrere lineare Restriktionen Um Hypothesen bezüglich der wahren, aber unbekannten Bevölkerungsparameter zu testen, benötigen wir: 4.6 Präsentation von Schätzergebnissen 4–7 4–8 • • Theorem 4.2 (t-Verteilung standardisierter Schätzer): Unter den Annahmen MLR.1–MLR.6 gilt (βˆ j - β j ) se(βˆ j ) ~ tn-k-1 , Hypothesentests beginnen mit der Nullhypothese, z.B.: H0: βj = 0 Sie besagt hier, dass ceteris paribus, d.h. nach Kontrolle der (4.3) wobei k+1 die Anzahl der unbekannten Parameter im Bevölke- anderen betrachteten erklärenden Variablen (x1, x2, …, xj-1, xj+1, rungsmodell sind (k Steigungs- und ein Achsenabschnittspara- …, xk), xj keinen partiellen Effekt auf y hat. • meter, β0). mativ. wahren Bevölkerungswerte u und σ2 verwendet werden. Die so standardisierten Parameterschätzer folgen nicht der Normal-, Die Nullhypothese wird so formuliert, dass man etwas lernt, indem man sie verwirft. H0: „xj hat einen Effekt“ wäre nicht infor- • Theorem 4.2 unterscheidet sich von 4.1, da û und σ̂ 2 statt der • Sie bezieht sich auf den wahren, unbekannten Bevölkerungsparameter. sondern der t-Verteilung. 4–9 • • (4.4) Beispiel: log(wage) = β0 + β1 educ + β2 exper + β3 tenure + u 4–10 • Der Schätzwert von β̂ j wird nie genau Null sein, daher stellt Hier besagt H0: β2 = 0, dass ceteris paribus die Arbeitsmarkter- sich die Frage, ab wann β̂ j weit genug von Null entfernt ist, um fahrung keinen Einfluss auf den Lohn hat. Falls β2 > 0, wirkt sich höhere Erfahrung bspw. durch höhere Produktivität auf H0 zu verwerfen. Der t-Wert beschreibt, um wie viele Standardfehler von β̂ j der Schätzwert von Null entfernt ist. Je größer t, den Lohn aus. umso unwahrscheinlicher wird, dass H0 gilt. Um die Nullhypothese (4.4) zu testen, benötigen wir eine Test- • statistik. In diesem Fall nutzen wir die t-Statistik, den t-Wert tβˆ βˆ j se(βˆ j ) von β̂j , der definiert ist als: (4.5) ≡ wir das Signifikanzniveau, die Verteilung der Teststatistik und die Alternativhypothese kennen. j Die Berechnung ist einfach und wird meist schon von der Software vorgenommen. Um eine Ablehnungsregel für H0 festlegen zu können, müssen • Bei Hypothesentests kann man zwei Arten von Fehlern machen: Verwirft man H0, obwohl H0 zutrifft, spricht man vom Typ 1-Fehler. Verwirft man H0 nicht, obwohl H0 falsch ist, spricht man vom Typ 2-Fehler. 4–11 4–12 • • Ob ein Fehler vorliegt, lässt sich mit Stichprobendaten nicht • Um die Ablehnungsregel für H0 formulieren zu können, müssen feststellen. Die Wahrscheinlichkeit von Typ 1- und Typ 2- wir wissen, wie der t-Wert in Stichproben verteilt ist, wenn H0 Fehlern lässt sich jedoch beschreiben. Die Wahrscheinlichkeit wahr ist. Theorem 4.2 besagt, dass der wie in (4.5) berechnete eines Typ 1-Fehlers nennt man Signifikanzniveau α: α = P (reject H0 H0 true) t-Wert der tn-k-1-Verteilung folgt. (C.30) • Die Ablehnungsregel hängt von der Alternativhypothese (H1) α wird vor einem Test auf Werte wie 0,10, 0,05 oder 0,01 fest- ab, für die wir zwei Fälle unterscheiden, einseitige und zweisei- gelegt. tige Alternativhypothesen. Wählt man α = 0,05, so ist man bereit, in 5% aller Fälle die H0 zu verwerfen, obgleich sie zutrifft. 4–13 • 4.2.2 Tests gegen einseitige Alternativhypothesen • 4–14 wartungswert Null. Unter H1: βj > 0 ist der Erwartungswert von t β̂ j > 0. Ab einem bestimmten kritischen positiven Wert von t β̂ j Eine einseitige Alternativhypothese ist z.B.: H1: βj > 0 (4.6) ist es sehr unwahrscheinlich, dass H0 zutrifft. Wir verwerfen H0 zugunsten von H1, wenn t β̂ j diesen positiven kritischen Wert Man schließt aus, dass der wahre Wert βj < 0 sein könnte (oder formuliert H0: βj ≤ 0). • übersteigt. Ist t β̂ j negativ, stützt das nicht die Alternativhypothe- Nun ist die Ablehnungsregel zu wählen. Unterstellen wir zunächst α = 0,05, d.h. mit einer Wahrscheinlichkeit von 5% begehen wir einen Typ 1-Fehler. Unter H0: βj = 0 (bzw. H0: βj ≤ 0) folgt t β̂ j der t-Verteilung mit Er- se. • Unter der Annahme von α = 0,05 liegt der kritische Wert, den wir c nennen, am 95. Perzentil der tn-k-1-Verteilung. • 4–15 Verteilung der t-Statistik unter H0: βj ≤ 0, H1: βj > 0 bei α = 0,05: 4–16 • Die Ablehnungsregel lautet: Verwerfe H0 zugunsten von H1 am 5% Signifikanzniveau, wenn t β̂ j > c. (4.7) Die Regel besagt, dass wir – selbst wenn H0 zutrifft – die Nullhypothese für 5 Prozent aller Stichproben verwerfen. • Um c zu berechnen, brauchen wir α und n-k-1. • Beispiel 1: α = 0,05 n-k-1 = 28, dann ergibt sich aus Tabelle G.2: cα=0,05;28 = 1.701 4–17 Tabelle G.2 Critical Values of the t Distribution • Significance Level Degees of Freedom 1-Tailed: 2-Tailed: 4–18 .10 .20 .05 .10 .025 .05 .01 .02 .005 .01 1 2 3 4 5 6 7 8 9 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 26 27 28 29 30 40 60 90 120 ∞ 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.291 1.289 1.282 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.662 1.658 1.645 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.987 1.980 1.960 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.368 2.358 2.326 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.632 2.617 2.576 Graphische Darstellung der t-Verteilung mit kritischem Wert für einseitigen Test, bei α = 0,05 und n – k – 1 = 28: Wenn t β̂ j < 1,701, kann H0 am 5%-Niveau nicht zugunsten von H1 verworfen werden (z.B. bei allen negativen Werten für t β̂ j ). 4–19 4–20 • • Beispiel 2: α = 0,1 n-k-1 = 27 jetzt c = 1,314. α = 0,01 n-k-1 = 27 jetzt c = 2,473. Der kritische Wert c wird umso höher, je kleiner α (in Abbildung 4.2 verschiebt sich c nach rechts). Dadurch sinkt die Wahrscheinlichkeit, H0 (fälschlicherweise) zu verwerfen. Eine Nullhypothese, die am 10%-Niveau verworfen wurde, muss am 5%Niveau nicht verworfen werden. Aber eine H0, die bereits am 5%-Niveau verworfen wurde, wird immer auch am 10%-Niveau verworfen. • Je höher n-k-1, umso ähnlicher wird die t-Verteilung der Normalverteilung. 4–21 • Beispiel: Wir erhalten als Schätzergebnis (Standardfehler in 4–22 • Einseitige Tests mit H1: βj < 0 (4.8) Klammern) (beachte: der natürliche Logarithmus ist gemeint) werden genauso durchgeführt. Die Ablehnungsregion der H0 ist log(wage) = 0,284 + 0,092 educ + 0,0041 exper + 0,022 tenure nun auf der linken Seite der t-Verteilung und die Ablehnungsre- (0,104) (0,007) (0,0017) n = 526, R = 0,316 H0: βexper ≤ 0 texper = 0,0041 ≈ 2,41 0,0017 (4.9) j wobei c wieder der kritische Wert ist, den wir als positiven Wert H1: βexper > 0 n-k-1 = 526 – 3 – 1 = 522 t β̂ < -c (statt t βˆ j > c ), gel lautet (0,003) 2 unterstellen. cα=0,05 = 1,645 cα=0,01 = 2,326 Da texper > cα=0,01, muss H0 verworfen werden. βexper ist am 1%Niveau größer als Null, auch wenn der Koeffizient nicht groß ist. Ceteris paribus erhöht ein Jahr Erfahrung den log-Lohn um 0,0041 und den Lohn um 0,41 Prozent. 4–23 • Beispiel : α = 0,05 n-k-1 = 18 H0: βj = 0 (bzw. H0: βj ≥ 0) cα=0,05;18 = 1,734 H1: βj < 0 Ablehnungsregel: tβ̂ < -1,734 j Wenn t positiv ist, kann H0 nicht verworfen werden. 4–24 • Graphische Darstellung: 4.2.3 Tests gegen zweiseitige Alternativen • Wir prüfen, ob sich β̂j signifikant von Null unterscheidet, ohne die Richtung der Abweichung festzulegen. H0: βj = 0 gegen H1: βj ≠ 0 (4.10) • Ablehnungsregel jetzt: • Wählt man α = 0,05, so wird bei zweiseitigen Tests c so ge- t β̂ > c (4.11) j wählt, dass auf jeder Seite der t-Verteilung die Ablehnungsregion 2,5% umfasst. c hat den Wert des 97,5. Perzentils der tVerteilung. • Beispiel: α = 0,05 n-k-1 = 25 cα=0,05;25 = 2,060 (vgl. oben, Tabelle G.2) 4–25 • 4–26 • Graphische Darstellung: Sprachregelung: Verwirft man die H0: βj = 0 am α-Signifikanzniveau im zweiseitigen Test, so sagt man: xj ist am α-Niveau statistisch signifikant (von Null verschieden). Wird H0 nicht verworfen, sagt man xj ist insignifikant (am α-Niveau). 4–27 4–28 • 0,412 = 4,38 > c hochsignifikant auch am 1% Niveau, 0,094 0,015 = = 1,36 < 1,96 insignifikant und kleiner Effekt. 0,011 0,0833 = = 3,19 > 2,576 hochsignifikanter negativer Ef0,026 thsGPA = Beispiel : colGPA = 1,39 + 0,412 hsGPA + 0,015 ACT – 0,083 skipped (0,33) (0,094) (0,011) tACT (0,026) n = 141, R2 = 0,234 t skipped colGPA = Notendurchschnitt College fekt. 10 verpasste Vorlesungen reduzieren – ceteris paribus – hsGPA = Notendurchschnitt Highschool den Notendurchschnitt um 0,83. ACT = Ergebnis eines Uni-Zugangstests skipped = Anzahl verpasster Vorlesungen Welche erklärenden Variablen sind am 5% Niveau signifikant? cα=0,05 ≅ 1,96 (cα=0,01 ≅ 2,576) 4–29 • 4.2.4 Andere Hypothesen zu βj • Gelegentlich interessiert nicht nur statistische Signifikanz, son- Der Test wird genau wie zuvor durchgeführt, nur die Berechnung der t-Statistik ändert sich: Einseitig z.B.: dern, ob βj einen konkreten Wert aj annimmt, z.B. βj = 1. H0: βj = aj 4–30 (4.12) H0: βj ≤ 1 gegen H1: βj > 1 tβˆ = j • In diesem Fall lautet die t-Statistik, die wieder misst, um wie Wird H0 verworfen, sagt man β̂ j ist signifikant größer als 1. Zweiseitig z.B.: H0: βj = -1 gegen H1: βj ≠ -1 1 j + β e βj s = j tβ viele Standardabweichungen β̂ j vom unterstellten Wert entfernt (βˆ j - a j ) ist: t β̂ = j se(βˆ j ) (βˆ j − 1) . se(βˆ j ) ˆ Unter H0 folgt t βˆ der t-Verteilung mit n-k-1 Freiheitsgraden. j (ˆ ) (ˆ ). H0 verwerfen, wenn t > c, dann ist β̂ j signifikant von -1 verschieden. 4–31 4–32 • Beispiel: log(price) = 11,08 – 0,954 log(nox) – 0,134 log(dist) (0,32) (0,117) t = (-0,954 + 1) / 0,117 = 0,393 < c (0,043) H0 kann nicht verworfen werden, die Elastizität ist nicht signifi- + 0,255 rooms – 0,052 stratio (0,019) kant von -1 verschieden. (0,006) 2 n = 506 (Stadtviertel in Boston), R = 0,581 price = Median Hauspreis im Stadtviertel nox = Ausmaß der Luftverschmutzung dist = mittlere Distanz zu 5 Arbeitgebern rooms = mittlere Hausgröße stratio = Schüler-Lehrer-Verhältnis der Schule β1: Elastizität der Hauspreise bezüglich Luftverschmutzung H0: β1 = -1 gegen H1: β1 ≠ -1, cα=0,05; 501 ≈ 1,96 4–33 • 4.2.5 p-Werte • z.B. stützen, dass βj = 0 ist, so wählt man ein möglichst kleines Der p-Wert ist das Signifikanzniveau des Tests, bei dem der berechnete tatsächliche t-Wert der kritische Wert ist. Bislang haben wir willkürlich α festgelegt und daraufhin c bestimmt. Die Wahl der α-Werte kann manipuliert sein. Will man • 4–34 • Beispiel: n-k-1 = 40 H0: βj = 0 H1: βj ≠ 0 tβ̂ = 1,85 j α (hohes Signifikanzniveau), da dann die Wahrscheinlichkeit Wenn α/2 = 0,025, dann cα=0,05;40 = 2,021; H0 nicht verworfen. sinkt, H0: βj = 0 zu verwerfen. Wenn α/2 = 0,05, dann cα=0,1;40 = 1,684; H0 verworfen. Der p-Wert gibt an, was der kleinstmögliche α-Wert bzw. das größtmögliche Signifikanzniveau wäre, zu dem H0: βj = 0 gerade noch verworfen würde. Wenn im Beispiel H0 bei α = 0,1 verworfen wird, bei α = 0,05 nicht, könnte der p-Wert 0,07 betragen. 4–35 4–36 • p-Werte werden in der Regel von der Software für H0: βj = 0 angegeben oder lassen sich berechnen. Es gilt p = P( T > t ), (4.15) d.h. p ist die Wahrscheinlichkeit, dass eine t-verteilte Zufallsvariable T betragsmäßig den empirischen t-Wert übersteigt. • Hinweis: Siehe Erläuterung der t-Verteilung in Kapitel 1 - Appendix B5. • Beispiel: p-Wert = P( T > 1,85) = 2 · P(T > 1,85) = 2 · 0,0359 = 0,0718 Unter H0 beobachtet man einen t-Wert mit dem Betrag von mindestens 1,85 in 7,18 Prozent aller Fälle. 4–37 4–38 • Frage: Angenommen, β̂1 = 0,56 und der p-Wert für H0: β1 = 0 • Kleine p-Werte sind Evidenz gegen H0, große gegen H1. • p-Werte lassen sich auch für einseitige Hypothesentests be- gegen H1: β1 ≠ 0 beträgt 0,086. rechnen. Wie lautet der p-Wert für H0: β1 = 0 (bzw. H0: β1 ≤ 0) gegen H1: • Beispiel: β1 > 0 ? H0: βj ≤ 0 gegen H1: βj > 0 Wenn β̂ j < 0, muss p > 0,50 und H0 kann nicht verworfen wer- • verworfen, nie akzeptiert. Begründung: Eine nicht verworfene den. Wenn β̂ j > 0, dann t > 0 und p ist die Wahrscheinlichkeit, Nullhypothese muss nicht korrekt sein (Typ 2-Fehler), daher eine Realisation der t-verteilten Zufallsvariable oberhalb dieses Wertes zu finden. Sprachregelung: Nullhypothesen werden verworfen oder nicht sollte man sie nicht „akzeptieren“. • Im Beispiel der Hauspreise haben wir H0: β1 = -1 nicht verworfen. Aber genauso wenig könnten wir H0: β1 = -0,9 verwerfen. Dann: t = (-0,954 + 0,9) / 0,117 = -0,462 < c. 4–39 4–40 • 4.2.6 Bedeutung von Signifikanz • Statistische Signifikanz ergibt sich, wenn der Koeffizient im Verhältnis zu seinem Standardfehler ausreichend groß ist (entweder, weil β̂ j groß, oder se(β̂ j ) klein ist). Man spricht von Die Größe der Standardfehler wird auch von der Stichprobengröße bestimmt. Große Stichproben führen in der Regel zu präzisen Schätzern mit kleinen Standardfehlern und großen tStatistiken (vgl. 3-58). Das bedeutet nicht, dass alle Variablen ökonomischer Signifikanz, wenn der Koeffizient groß ausfällt, „wichtig“ sind. Um die Bedeutung eines xj für y zu beurteilen, unabhängig davon, wie präzise er geschätzt wurde. muss man βj, den marginalen Effekt, betrachten. Manche Wissenschaftler wählen bei steigenden Stichprobengrößen kleinere α-Werte. 4–41 • Beispiel: Bachelor-Jahreseinkommen (in 1000€) Kapitel 4: Multiple Regression: Inferenz = 22,3 + 13,7 BWL + 0,72 SoWi + 17,2 empWifo (2,2) (10,1) (0,01) 4–42 (1,4) H0: βj = 0 H1: βj ≠ 0 α = 0,05 n = 1200 c = 1,96 13,7 = 1,356 nicht statistisch, aber ökonomisch signifikant tBWL = 10,1 tSoWi = 0,72 = 72 statistisch, aber nicht ökonomisch signifikant 0,01 tempWifo = 17,2 = 12,29 statistisch und ökonomisch signifikant 1,4 4.1 Stichprobenverteilung des KQ-Schätzers 4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test 4.3 Konfidenzintervalle 4.4 Hypothesentests zu Linearkombinationen von Parametern 4.5 F-Tests für mehrere lineare Restriktionen 4.6 Präsentation von Schätzergebnissen 4–43 4–44 • 4.3 Konfidenzintervalle • Konfidenzintervalle sind vorsichtig zu interpretieren: Würde man die Berechnung der Intervallgrenzen für viele Stichproben Konfidenzintervalle um die Punktschätzer für die Bevölke- wiederholen, dann würde in 1-α Prozent aller Fälle der wahre rungsparameter βj sind Intervallschätzer und lassen sich unter Am Bevölkerungsparameter βj innerhalb der Intervallgrenzen lie- Signifikanzniveau α erwarten wir, dass folgende Aussage mit gen. Für einzelne, konkret berechnete Konfidenzintervalle gilt Wahrscheinlichkeit 1-α zutrifft: β̂ j - β j -t α ,n-k-1 se(βˆ ) diese Aussage nicht. den Annahmen MLR.1–MLR.6 β̂ j - β j se(βˆ ) ableiten. tα 2 • ,n-k-1 Die Berechnung ist unkompliziert: Wenn n-k-1 = 25, α = 0,05 ergibt sich cα=0,05;25 = 2,06, so dass ≤ ≤ -c folgt ≤ ≤ j 2 wie [β̂ j − 2,06 ⋅ se(β̂ j ), β̂ j + 2,06 ⋅ se(β̂ j )]. c j • ≤ ≤ βˆ j - c ⋅ se(βˆ j ) β j Je größer α, umso enger ist das Konfidenzintervall, d.h. Konfidenzintervall bei α = 0,1 ist enger als bei α = 0,01. βˆ j + c ⋅ se(βˆ j ) 4–45 • Intervallschätzer sind nur informativ, wenn Folgendes beachtet wird: 4–46 Kapitel 4: Multiple Regression: Inferenz 4.1 Stichprobenverteilung des KQ-Schätzers (a) ausgelassene erklärende Variablen verzerren β̂ j , 4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test (b) bei Heteroskedastie sind die se(β̂ j ) falsch, 4.3 Konfidenzintervalle (c) ohne Normalverteilung stimmen die Werte für c nicht. 4.4 Hypothesentests zu Linearkombinationen von Parametern 4.5 F-Tests für mehrere lineare Restriktionen 4.6 Präsentation von Schätzergebnissen 4–47 4–48 4.4 Hypothesentests zu Linearkombinationen von Parametern • Gelegentlich beziehen sich einzelne Hypothesen auf mehr als ein βj. t= (4.20) Der Zähler lässt sich mit den Schätzergebnissen leicht berechnen, problematisch ist der Nenner. • Beispiel: Haben Junior-College (jc) und Universitätsabschlüsse log(wage) = 1,472 + 0,0667 jc + 0,0769 univ + 0,0049 exper die gleiche Lohnwirkung? (0,021) (0,0068) log(wage) = β0 + β1 jc + β2 univ + β3 exper + u jc βˆ 1 - βˆ 2 se(βˆ 1 - βˆ 2 ) (4.17) (0,0023) (0,0002) (4.21) n = 6763, R2 = 0,222 = Ausbildungsjahre am Junior-College β̂1 – β̂2 = 0,0667 – 0,0769 = -0,0102, univ = Ausbildungsjahre an der Universität d.h. ein Jahr Uni erhöht die Löhne im Mittel und ceteris paribus exper = Monate Arbeitsmarkterfahrung um 1,02 Prozentpunkte mehr als ein Jahr Junior-College. H0: β1 = β2 , (bzw. H0: β1 ≥ β2 ) (4.18) Den Standardfehler der Differenz müssen wir über ihre Varianz H1: β1 < β2 (4.19) berechnen: Die t-Statistik lässt sich auch für 2 Parameter aufstellen: 4–49 Var(βˆ 1 - βˆ 2 ) = Var(βˆ 1 ) + Var(βˆ 2 ) - 2 Cov(βˆ 1, βˆ 2 ) { } se(βˆ 1 - βˆ 2 ) = Var(βˆ 1 ) + Var(βˆ 2 ) - 2 Cov(βˆ 1, βˆ 2 ) (4.22) 1 2 (4.23) Das ist aufwändig, einfacher ist eine andere Vorgehensweise: Teste H0: θ1 = β1 – β2 = 0 gegen H1: θ1 < 0 4–50 (0,021) (0,0069) n = 6763, Im einseitigen t-Test: t = (0,0023) (0,0002)(4.27) R2 = 0,222 −0,0102 = -1,48. Dies liegt zwischen 0,0069 (4.24) den kritischen Werten am 5 (-1,645) und 10 (-1,282) Prozentni- mittels eines t-Tests. Dazu benötigt man se( θ̂1), was sich durch veau, mit p = 0,07. Die Evidenz gegen H0: β1 = β2 ist nicht stark. Umformulieren der Gleichung ergibt. Da θ1 = β1 – β2 ⇔ β1 = θ1 + β2 log(wage) = β0 + (θ1 + β2) jc + β2 univ + β3 exper + u = β0 + θ1 jc + β2 (jc + univ) + β3 exper + u Mit dem Koeffizienten für jc erhält man θ̂1 und se( θ̂1). (4.25) log(wage) = 1,472 – 0,0102 jc + 0,0769 totcoll + 0,0049 exper 4–51 4–52 Kapitel 4: Multiple Regression: Inferenz 4.5 F-Tests für mehrere lineare Restriktionen 4.1 Stichprobenverteilung des KQ-Schätzers 4.5.1 Test auf die gemeinsame Signifikanz mehrerer Variablen 4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test • Hinweis: siehe Erläuterung der F-Verteilung 4.3 Konfidenzintervalle • Beispiel: log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg + β4 hrunsyr + β5 rbisyr + u 4.4 Hypothesentests zu Linearkombinationen von Parametern salary = Jahresgehalt 1993 von Baseballspielern 4.5 F-Tests für mehrere lineare Restriktionen years = Jahre in MLB (major league baseball) 4.6 Präsentation von Schätzergebnissen gamesyr = durchschnittl. Zahl von Spielen pro Jahr bavg (4.28) = batting average hrunsyr = Anzahl home runs pro Jahr rbisyr = runs batted in pro Jahr 4–53 • • 4–54 Spielen bavg, hrunsyr, rbisyr ceteris paribus eine Rolle? • Einfache t-Tests würden H0 nicht ablehnen. H0: β3 = 0, β4 = 0, β5 = 0 • Der gemeinsame Test von H0 prüft, wie stark sich SSR (= „joint hypothesis“ (4.29). Wir prüfen, ob drei Variablen vom Modell ausgeschlossen wer- Summe quadrierter Residuen) erhöht, wenn die drei betrachte- den können, „Ausschlussrestriktionen“. ten Variablen aus dem Modell ausgeschlossen werden. Da KQ H1: H0 trifft nicht zu. SSR minimiert, muss SSR wachsen, wenn weniger Variablen Die Schätzung ergibt: betrachtet werden. log(salary) = 11,9 + 0,0689 years + 0,0126 gamesyr (0,29) (0,0121) (4.31) (0,0026) + 0,00098 bavg + 0,0144 hrunsyr + 0,0108 rbisyr (0,00110) n = 353 • (0,0161) SSR = 183.186 (0,0072) • Neues, restringiertes Modell ((4.28) war unrestringiert). log(salary) = β0 + β1 years + β2 gamesyr + u (4.32) log(salary) = 11,22 + 0,0713 years + 0,0202 gamesyr (4.33) (0,11) (0,0125) R2 = 0,6278 n = 353 4–55 (0,0013) SSR = 198.311 R2 = 0,5971 4–56 • • R2 ist gefallen, SSR gestiegen. Der Test prüft, ob die Änderun- wobei SSR die Fehlerquadratsummen des restringierten (r) und gen signifikant sind. unrestringierten (u) Modells angeben. Da SSRr ≥ SSRu, ist F Allgemeine Schreibweise: Unrestringiertes Modell mit k+1 Pa- nie negativ. Zähler- und Nennerfreiheitsgrade lauten im Bei- rametern: • y = β0 + β1 x1 +... + βk xk + u • H1: H0 falsch ≡ • Teststatistik des F-Tests: (SSRr - SSRu ) / q , F SSRu / (n - k - 1) n-k-1 = 353 – 5 – 1 = 347 Verteilung: Unter H0 und MLR.1–MLR.6 folgt F der F-Verteilung F ~ Fq,n-k-1 . (4.35) Wenn F groß ist, unterscheiden sich SSRr und SSRu stark und Restringiertes Modell mit k+1-q Parametern: y = β0 + β1 x1 + ... + βk-q xk-q + u • • H0 benennt q Ausschlussrestriktionen: H0: βk-q+1 = 0, …, βk = 0 spiel: q = 3 (4.34) (4.36) H0 trifft nicht zu. Der kritische F-Wert ist in der Tabelle G.3 abzulesen. (4.37) 4–57 4–58 4–59 4–60 Beispiel: q = 3, n-k-1 = 60, α = 0,05, dann cα=0,05;3;60 = 2,76 (G.3b) α = 0,01, dann cα=0,01;3;60 = 4,13 (G.3c) • H0 wird verworfen, wenn F > c. • Wird H0 verworfen, so sagen wir xk-q+1, xk-q+2, …, xk sind ge- • (4.40) • Der F-Test kann auch verwendet werden, um Hypothesen be- meinsam statistisch signifikant, sonst insignifikant. Zwischen züglich einzelner Parameter zu testen. In dem Fall gilt F1,n-k-1 = den einzelnen Variablen können wir nicht unterscheiden. t2n-k-1. Bei zweiseitigen Alternativen führen beide Tests zum gleichen Ergebnis. Beispiel bei q = 3 und n-k-1 = 347 ergibt sich cα=0,01;3;347 = 3,78 • und cα=0,05;3;347 = 2,60. Der empirische Wert beträgt (198.311 − 183.186) / 3 F= ≅ 9,55 183.186 / 347 • 4.5.2 F- und t-Statistik und R2 kant sind, aber in einer Gruppe nicht mehr oder umgekehrt einzelne statistisch signifikant sind, aber die ganze Gruppe ge- H0 wird also verworfen, obwohl die individuellen Koeffizienten insignifikant waren. Das kann daran liegen, Es ist möglich, dass einzelne Variablen allein statistisch signifi- dass Multikollinearität die Standardfehler erhöht hat. Für den F-Test meinsam nicht. • Exkurs: Für einen einzelnen Koeffizienten ist die Wahrscheinlichkeit eines Typ 2-Fehlers (H0 nicht ablehnen, obwohl falsch) spielt das keine Rolle. 4–61 beim F-Test höher als beim t-Test. Man sagt, die Teststärke 4–62 • Auch für die F-Statistik lassen sich p-Werte ausweisen, die die Wahrscheinlichkeit angeben, unter der F-Verteilung bei gege- den. • Die F-Statistik kann sowohl mittels SSR als auch R2 berechnet werden. Es lässt sich ersetzen: SSRr = SST (1 – Rr2 ), SSRu = SST (1 – Ru2 ): F= • (0,6278 − 0,5971) / 3 ≅ 9,54 (1 − 0,6278) / 347 Beispiel: (Power) des t-Tests ist für diese H0 größer als die des F-Tests. Daher sollte für einzelne Hypothesen der t-Test gewählt wer- F= • (Ru2 - Rr2 ) / q (1- Ru2 ) / (n - k - 1) benen Freiheitsgraden einen größeren als den vorgefundenen F-Wert zu beobachten. Wenn z.B. p = 0,016, wird H0 am 5% Niveau verworfen, nicht jedoch am 1%-Niveau. (4.41) Da immer R2, aber selten SSR angegeben wird, ist diese Version besser handhabbar. 4–63 4–64 4.5.3 Gesamtsignifikanz einer Regression und allgemeine An- • Auch kleine R2-Werte können hier zum Verwerfen von H0 füh- wendung • Dieser Test beschreibt die Gesamtsignifikanz des Modells. ren. Standardtest: gemeinsame Signifikanz aller erklärenden Vari• ablen H0: β1 = β2 = … = βk = 0 Der F-Test lässt sich auch auf andere als Ausschlussrestriktionen anwenden. (4.44) H1 besagt, dass mindestens eine Variable einen von Null verschiedenen Koeffizienten hat. H0 kann auch formuliert werden als: H0: E( y x 1, x2, …, xk) = E(y). Das restringierte Modell lautet y = β0 + u • (4.45) Der Rr2 -Wert ist nun 0, so dass die Teststatistik lautet: R2 / k F= (1- R2 ) / (n - k -1) (4.46) 4–65 • Beispiel: log(price) = β0 + β1 log(assess) + β2 log(lotsize) + β3 log(sqrft) + β4 bedrooms + u (4.47) price = Hauspreis assess = offiziell geschätzter Hauspreis lotsize = Grundstücksgröße sqrft = Grundfläche des Hauses • Das Modell wird zunächst ohne Restriktion geschätzt: y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x 4 + u , (4.49) anschließend werden die Restriktionen eingefügt: y = β0 + x1 + u, was sich wie folgt schätzen lässt: y – x1 = β0 + u bedrooms = Anzahl der Zimmer. (4.50) SSRr lässt sich berechnen, so dass Wenn der Verkaufspreis rational zustande kommt, sollte die Elastizität bzgl. des assess-Wertes 1 betragen und ceteris paribus die anderen Faktoren keine Rolle mehr spielen: H0: β1 = 1, β2 = 0, β3 = 0, β4 = 0 4–66 (4.48) 4–67 F= (SSRr - SSRu ) / 4 SSRu / (n - 5) Da sich in diesem Fall die abhängigen Variablen unterscheiden, kann der F-Test nicht in seiner R2-Version genutzt werden. 4–68 • Bei SSRu = 1.822 folgt F= SSRr = 1.880 q=4 (1.880 − 1.822) / 4 = 0,661 1.822 / 83 n = 88 n-k-1 = 83 Fα=0,05;4;83 = 2,5 Kapitel 4: Multiple Regression: Inferenz 4.1 Stichprobenverteilung des KQ-Schätzers H0 wird nicht verworfen. Über den geschätzten Preis hinaus haben die Merkmale des Hauses keine Bedeutung. 4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test 4.3 Konfidenzintervalle 4.4 Hypothesentests zu Linearkombinationen von Parametern 4.5 F-Tests für mehrere lineare Restriktionen 4.6 Präsentation von Schätzergebnissen 4–69 4–70 4.6 Präsentation von Schätzergebnissen • KQ-Koeffizienten werden mit Standardfehlern angegeben und für die zentralen Variablen interpretiert. • R2 und die Zahl der benutzten Beobachtungen werden angegeben. • Meist sieht man die Darstellung in Tabellen. Dabei werden die abhängige Variable über der Tabelle und die erklärenden Variablen in der ersten Spalte angegeben. In Spalten findet man alternative Modellspezifikationen. 4–71 4–72 Schlüsselbegriffe Kapitel 4: Verteilungsfunktion Unabhängigkeit CLM-Annahmen Zentraler Grenzwertsatz Nullhypothese Teststatistik Alternativhypothese Signifikanzniveau Typ 1-Fehler Typ 2-Fehler Ablehnungsregel Einseitige H1 Zweiseitige H1 Kritischer Wert Statistische Signifikanz Insignifikant p-Wert Literatur Kapitel 4: Ökonomische Signifikanz Konfidenzintervall Intervallschätzer t-Test F-Test Anschlussrestriktion SSR Restringiertes Modell Unrestringiertes Modell Fehlerquadratsumme Zählerfreiheitsgrade Nennerfreiheitsgrade Gemeinsame Signifikanz Teststärke (Power) Gesamtsignifikanz Alternative Modellspezifikation 4–73 • Wooldridge, Kapitel 4, Appendix C5, C6 • Von Auer, Kapitel 10 • Hill / Griffiths / Judge, Kapitel 7, Kapitel 8 • Stock / Watson, Kapitel 7 4–74 Leitfragen und Lernziele Kapitel 5: Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers 5.1 Einführung (einschließlich Appendix C3) 5.2 Konsistenz 5.3 Asymptotische Normalverteilung und Inferenz • Welche Eigenschaften können Schätzverfahren haben? • Unter welchen Annahmen hat KQ welche Eigenschaften? • Welche praktische Bedeutung hat die Annahme der Normalverteilung? 5.4 Asymptotische Effizienz 5–1 5–2 5.1 Einführung leitet. Sie gelten – als Eigenschaften des Schätzverfahrens – • auch, wenn die Stichprobe klein ist. Deswegen werden sie als Wir haben die Eigenschaften des KQ-Schätzers unter bestimm- finite sample properties bezeichnet. ten Annahmen betrachtet. • - Unter MLR.1–MLR.4 ist der KQ-Schätzer unverzerrt. - Unter MLR.1–MLR.5 gilt das Gauss-Markov Theorem (BLUE). Für manche, sehr brauchbare Schätzverfahren ist es schwierig oder unmöglich, diese Eigenschaften „für kleine n“ nachzuweisen. In diesen Fällen prüft man die Eigenschaften für den hypothetischen Fall, dass die Stichprobengröße beliebig, d.h. un- - Unter MLR.1–MLR.6 hat der KQ-Schätzer unter allen un- endlich groß wird. verzerrten Schätzern die kleinste Varianz und er folgt der Normalverteilung (legitimiert t- und F-Tests). • Die Eigenschaften der Unverzerrtheit, Effizienz und exakten Verteilung werden unabhängig von der Stichprobengröße abge5–3 5–4 • Die Eigenschaften von Schätzverfahren, die für n → ∞ gezeigt werden können, nennt man large sample properties oder asymptotic properties, also asymptotische Eigenschaften, Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers 5.1 Einführung (einschließlich Appendix C3) (Konsistenz, asymptotische Normalverteilung und asymptoti- 5.2 Konsistenz sche Effizienz). 5.3 Asymptotische Normalverteilung und Inferenz 5.4 Asymptotische Effizienz 5–5 5–6 5.2 Konsistenz • Die asymptotische Eigenschaft der Konsistenz betrachtet, wie weit ein Schätzer bei unendlich großer Stichprobe vom wahren Wert entfernt liegt. 2 zentrale Aspekte: Bei konsistenten Schätzverfahren (a) sinkt die Varianz des Schätzers, je größer n. (b) liegt der Schätzer umso näher am wahren Wert (θ), je größer die Stichprobe. 5–7 5–8 • Definition: Es sei Wn ein Schätzverfahren für den unbekannten • Parameter θ auf Basis der Stichprobe Y1, Y2, …, Yn mit n Beobachtungen. Wn ist ein konsistentes Schätzverfahren, wenn für jedes (beliebig kleine) ε > 0 gilt lim P( Wn − θ > ε) → 0 n→∞ • Wn um θ konzentriert. • inkonsistent sind (z.B. die Varianz von Y1, der ersten Beobachtung in einer Stichprobe, als Schätzer für μ bleibt konstant σ2. 1 Die Varianz von Y hingegen geht mit n → ∞ gegen Null: σ 2 ). n Wenn ein Schätzer Wn nicht konsistent ist, nennen wir ihn inkonsistent. Konsistenz ist eine Mindestbedingung für Schät- • Andere Darstellungsform: • Wahrscheinlichkeitsgrenzwert (probability limit): Wenn Wn konsistent ist, ist sein Wahrscheinlichkeitsgrenzwert θ: Es gilt: Ein unverzerrter Schätzer Wn ist dann konsistent, wenn Var(Wn) → 0 bei n → ∞ . Nur dann gilt plim(Wn) = θ. plim(Wn) = θ 5–9 • Es gibt verzerrte Schätzer, die konsistent sind (z.B. σ̂ ohne Freiheitsgradkorrektur) und es gibt unverzerrte Schätzer, die (C.7) zer. Je größer n, umso enger ist die Verteilung eines konsistenten 5–10 β̂ j sei ein KQ-Schätzer für den Parameter βj. Bei jeder Stich- probengröße n hat β̂ j eine Wahrscheinlichkeitsverteilung. Da β̂ j unter den Annahmen MLR.1–MLR.4 unverzerrt ist, hat jede dieser Verteilungen den Mittelwert βj. Wenn β̂ j konsistent ist, wird die Verteilung um βj immer enger, je größer n. 5–11 5–12 • • Theorem 5.1 (Konsistenz von KQ): Unabhängigkeit) impliziert, dass Cov(xj,u) = 0, aber nicht um- Unter den Annahmen MLR.1–MLR.4 ist der KQ-Schätzer β̂ j für gekehrt. Kovarianz und Korrelation beschreiben ausschließlich βj konsistent für alle j=0,1,…, k. • lineare Zusammenhänge, während MLR.4 auch jeden Zusam- Es lässt sich zeigen, dass gilt plimβˆ 1 = β1 + Cov(x1,u) / Var(x1 ) = β1 , Die Annahme MLR.4 E(u x1,x 2 ,...,xk ) = 0 (mittlere bedingte menhang zwischen u und einer nicht-linearen Funktion von xj ausschließt. Eine abgeschwächte Form von MLR.4 ist also: (5.3) da wegen MLR.4 x1 und u unkorreliert sind. Unterstellt wurde 0 < Var(x 1 ) < ∞ . • Annahme MLR.4′ : E(u) = 0 und Cov(xj,u) = 0 für alle j=1,2,…, k • Konsistenz von KQ erfordert lediglich MLR.4′ , Unverzerrtheit erfordert MLR.4. 5–13 Auch wenn nur einer der k Regressoren mit u korreliert ist, sind im Normalfall die KQ-Schätzer für alle k Parameter des Modells ten wir in Kapitel 3 für das Modell E(β ) = β + β δ , zeigt: 1 Die Inkonsistenz für β̂1 beträgt plim β̂1 − β1 = Cov(x1,u) / Var(x1 ) Beispiel: Für den Fall ausgelassener, relevanter Variablen hatge- (3.45) ~ wobei β 1 ohne Kontrolle für x2 geschätzt war und δ1 der ge- verzerrt und inkonsistent. • • ν + x2 β2 + x1 β1 + β0 = y • 5–14 (5.4) 1 2 1 schätzte Koeffizient einer Regression von x2 auf x1 war. Nun gilt Dies erlaubt, Richtung und Ausmaß der Inkonsistenz einzu- (wieder unter Annahme von MLR.1–MLR.4): plim β 1 = β1 + β2 δ1, schätzen, da Var(x1) > 0. wobei jetzt δ1 den Bevölkerungsparameter einer Regression (5.5) von x2 auf x1 darstellt. Sind x1 und x2 in der Bevölkerung unkorreliert, ist β 1 konsistent. Ausmaß und Richtung der Inkonsistenz lassen sich also abschätzen. 5–15 5–16 • Beispiel: price • price = β0 + β1 distance + β2 quality + u = Hauspreis Im Fall von k erklärenden Variablen führt Cov(xj,u) ≠ 0 für nur ein j zur Inkonsistenz aller k+1 Parameter. Einzige Ausnahme: distance = Abstand Müllverbrennungsanlage (Erwartung: β1>0) Ein anderer Steigungsparameter βm ist bei Inkonsistenz von βj quality noch konsistent, wenn xm nicht mit xj korreliert ist und keine = Qualität des Hauses (Erwartung: β2>0) Wenn bessere Häuser weiter von Müllverbrennungsanlagen weiteren erklärenden Variablen im Modell sind (vgl. die Situati- entfernt sind, dann δ1 > 0. Dann führt Auslassen der Variable on bei ausgelassenen Variablen, Kapitel 3). quality zur Überschätzung des wahren β1, da β2 · δ1 > 0. 5–17 5–18 Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers 5.3 Asymptotische Normalverteilung und Inferenz 5.1 Einführung (einschließlich Appendix C3) • Unter der Annahme MLR.6 konnten wir t- und F-Tests ableiten. Sind u1, u2, …, un nicht normalverteilt, so sind t- und F-Tests 5.2 Konsistenz nicht gültig, aber Unverzerrtheit und BLUE-Eigenschaft gelten 5.3 Asymptotische Normalverteilung und Inferenz nach wie vor. 5.4 Asymptotische Effizienz • Gegeben die erklärenden Variablen, überträgt sich die Normalverteilungsannahme von u auf die abhängige Variable und die geschätzten Parameter. Allerdings kennen wir viele Situationen, in denen y nicht normalverteilt ist. • Beispiel: Anteil der Arbeitnehmer eines Unternehmens (prate), die an einem Pensionssparplan teilnehmen: 5–19 5–20 • Selbst wenn y nicht normalverteilt ist, ergibt sich aus dem Zentralen Grenzwertsatz, dass die KQ-Schätzer asymptotisch normalverteilt sind und t- und F-Tests asymptotisch zutreffen. Dazu benötigen wir: • Definition: Wenn {Zj : j = 1,2,…, n } eine Folge von Zufallsvariablen ist und für alle Zahlen z gilt P(Zj ≤ z) → Φ (z) wenn n → ∞ , (C.11) dann ist Zj asymptotisch standardnormalverteilt. Φ (z) beschreibt die kumulative Standardnormalverteilung. a Man schreibt: Zj ~ Normal(0,1). 5–21 • D.h. mit wachsender Stichprobengröße nähert sich die Vertei- • Die meisten Schätzverfahren können als Funktion von Stich- lung der Standardnormalverteilung an. Der zentrale Grenzwert- probenmittelwerten dargestellt werden, daher ist C.12 extrem satz besagt, dass der standardisierte Mittelwert jeder Zufalls- nützlich. Für KQ ergibt sich: stichprobe zur Standardnormalverteilung konvergiert: • 5–22 • Zentraler Grenzwertsatz: Es sei {Y1, Y2, …, Yn} eine Zufallsstichprobe mit Mittelwert μ und Varianz σ2. Dann folgt Zn = Yn - μ σ n (Yn - μ) = σ n Theorem 5.2 (asymptotische Normalverteilung des KQ- Schätzers) Unter den Annahmen MLR.1–MLR.5 gilt: (C.12) (i) β̂ j ist asymptotisch normalverteilt, mit a ⎛ σ2 ⎞ n(βˆ j - β j )~ Normal ⎜ 0, 2 ⎟ , ⎜ a ⎟ j ⎠ ⎝ asymptotisch der Standardnormalverteilung. • Zn ist der standardisierte Mittelwert von Y, wobei Var(Y) = σ2 . n 5–23 wobei σ2 > 0 die asymptotische Varianz von n(βˆ j - β j ) a 2j 5–24 n ist. Für die Steigungsparameter gilt a2j = plim(n-1∑ rˆij2 ) . • i=1 Konfidenzintervalle berechnet werden. Sie gelten jetzt asympto- r̂ij sind die Residuen einer Regression von xj auf die tisch statt exakt. Je größer n, umso besser ist die Approximati- anderen erklärenden Variablen; on. 2 2 (ii) σ̂ ist ein konsistenter Schätzer für σ = Var(u); (iii) (βˆ j - β j ) a ~ Normal(0,1) se(βˆ ) Somit können auch ohne MLR.6 t-Tests durchgeführt und für alle j, • Wenn MLR.6 nicht gilt, nennt man se(β̂ j ) den asymptotischen Standardfehler von β̂ j und man spricht von der asymptoti- (5.7) schen t-Verteilung. Auch F-Tests gelten approximativ. j wobei se(β̂ j ) der KQ-Standardfehler von β̂ j ist. • Da die t-Verteilung für n-k-1 → ∞ gegen die Standardnormal(βˆ j - β j ) a ~ tn-k-1 . (5.8) verteilung konvergiert, gilt ebenso: se(βˆ ) j 5–25 5–26 Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers 5.4 Asymptotische Effizienz 5.1 Einführung (einschließlich Appendix C3) • Unter zwei unverzerrten Schätzern für einen Parametervektor θ heißt derjenige relativ effizient, dessen Varianz für alle Ele- 5.2 Konsistenz mente des geschätzten Parametervektors nie größer ist als die 5.3 Asymptotische Normalverteilung und Inferenz des anderen Schätzers und für mindestens ein Element aus θ 5.4 Asymptotische Effizienz strikt kleiner ist. • Unter den Annahmen MLR.1–MLR.5 hat der KQ-Schätzer unter allen linearen unverzerrten Schätzern die kleinste Varianz. Er ist effizient. 5–27 5–28 • Ein Schätzer ist asymptotisch effizient, wenn er unter allen konsistenten, asymptotisch normalverteilten Schätzern die kleinste asymptotische Varianz hat. • Theorem 5.3 (asymptotische Effizienz von KQ): Unter den Gauss-Markov Annahmen (MLR.1–MLR.5) ist der KQ-Schätzer asymptotisch effizient. 5–29 Literatur Kapitel 5: • Wooldridge, Kapitel 5 und C3 • Von Auer, Kapitel 20.1 • Hill / Griffiths / Judge, Kapitel 13.2 • Stock / Watson, Kapitel 2.6, Kapitel 18.2 5–31 Schlüsselbegriffe Kapitel 5: Finite sample property Large sample property Asymptotische Eigenschaft Konsistenz, Inkonsistenz Asymptotische Normalverteilung Wahrscheinlichkeitsgrenzwert Zentraler Grenzwertsatz Asymptotischer Standardfehler Asymptotische t-Verteiliung Relativ effizient Asymptotisch effizient Score test 5–30 Leitfragen und Lernziele Kapitel 6: Kapitel 6: Anwendungen des KQ-Schätzers • 6.1 Auswirkung von Skalierung Wie reagieren die Parameter auf geänderte Definitionen der Variablen? 6.2 Alternative funktionale Formen • 6.3 Schätzgüte und Auswahl der Regressoren Welche Variablen sollten im Regressionsmodell berücksichtigt werden? 6.4 Vorhersage und Analyse der Residuen • Wie lassen sich Vorhersagen und ihre Streuung bestimmen? 6.5 Überblick • Wann sind Schätzergebnisse intern und extern valide? 6–1 • 6.1 Auswirkung von Skalierung • 6–2 Bei Umskalierung von Variablen passen sich Koeffizienten, Standardfehler, Konfidenzintervalle, t- und F-Statistiken so an, Beispiel: bwght = β̂0 + β̂1 cigs + β̂2 faminc bwght = Geburtsgewicht (in ounces = ca. 28,35 g) cigs = Anzahl der von der Mutter in der Schwangerschaft pro Tag gerauchten Zigaretten dass alle Effekte und Testergebnisse erhalten bleiben. • (6.1) Eine Umskalierung wird oft verwendet, um die Darstellungswei- faminc = Jahreseinkommen der Familie (in 1000 $) se der Ergebnisse zu vereinheitlichen (z.B. β̂1 = 14.201,0 und β̂ 2 = 0,3752; multipliziert man x1 mit 1000 erhält man β̂1 = 14,201). 6–3 6–4 • Skalierung der abhängigen Variablen in pounds statt ounces, wobei 1 pound (lbs.) = 16 ounces. Dadurch sinken alle geschätzten Parameter um den Faktor 16: bwght β̂0 β̂1 β̂ = + cigs + 2 faminc . 16 16 16 16 • Schätzergebnisse in Spalte (2): Jede Zigarette reduziert nun das Gewicht um 0,0289 pounds, 0,0289 · 16 = 0,46 ounces, was dem Effekt aus Spalte (1) entspricht. • Umskalieren führt auch zu geänderten Standardfehlern. Die Standardfehler in Spalte (1) sind 16-mal größer als die in Spalte • (2), t-Werte und Signifikanzniveaus bleiben somit konstant. Schätzergebnisse in Spalte (1): Pro Zigarette sinkt das Gewicht signifikant um 0,46 Unzen (= ounces). 6–5 • Auch die Konfidenzintervalle für Parameter ändern sich um den 6–6 • Faktor 16. • der zugehörige Koeffizient. So können je 20 Zigaretten als 1 Päckchen gezählt werden: Da das Residuum in Spalte (1) 16-mal größer ist als das Resi- bwght = β̂0 + (20 β̂1) (cigs/20) + β̂ 2 faminc duum in Spalte (2), ist SSR von Spalte (1) 162 = 256-mal so = β̂0 + (20 β̂1) packs + β̂ 2 faminc groß wie das in Spalte (2). • Bei Umskalierung der erklärenden Variable ändert sich lediglich Vgl. Spalte (1) und (3): 20 · (-0,4634) = -9,268. Gleiches gilt für Das R2 ist durch die Skalierung nicht beeinflusst. die Standardfehler, so dass die t-Statistik gleich bleibt. • Betrachtet man cigs und packs gleichzeitig in einer Regression, ergibt sich perfekte Multikollinearität. • Frage: Was passiert mit β̂ 2 , wenn man faminc in Dollar misst: fincdol = 1000 · faminc? Welche Messweise ist vorzuziehen? 6–7 6–8 • Ist die abhängige Variable logarithmiert (natürlicher Logarith- Kapitel 6: Anwendungen des KQ-Schätzers mus), hat ihre Skalierung keinen Effekt auf die Steigungsparameter, lediglich der Achsenabschnittsparameter passt sich an, 6.1 Auswirkung von Skalierung da 6.2 Alternative funktionale Formen log(c1· y) = log(c1) + log(y), β̂ • neu 0 für c1 > 0 6.3 Schätzgüte und Auswahl der Regressoren alt 0 = β̂ + log(c1) 6.4 Vorhersage und Analyse der Residuen Gleiches gilt für logarithmierte erklärende Variablen: log( x ) = log(x/100) = log(x) – log(100); ŷ = β̂0 + β̂1 log(x) aus wird nach Umskalieren mit log ( x ) = log (100 ) + log ( x ) z.B. ŷ = (β̂0 + β̂1 log(100)) + β̂1 log( x ) 6–9 6–10 • 6.2 Alternative funktionale Formen Approximation 6.2.1 Verwendung des Logarithmus • n = 506 der Prozentberechnung. Zur präzisen Berechnung verwendet man: Beispiel: log(price) = 9,23 – 0,718 log (nox) + 0,306 rooms (0,19) (0,066) Je größer die Semielastizität, umso unpräziser ist die %Δyˆ = 100 ⋅ [exp(βˆ j Δx j ) − 1] (0,019) (6.8) bzw. wenn Δxj = 1 R2 = 0,514 %Δyˆ = 100 ⋅ [exp(βˆ j ) − 1] Der Koeffizient von log(nox) gibt eine Elastizität an. Steigt nox um ein Prozent, so fällt der mittlere Hauspreis um 0,718 Prozent. Der Koeffizient von rooms gibt eine Semielastizität an. Steigt die An- • (6.9) Beispiel: Wenn β̂2 = 0,306 ergibt sich eine Preisänderung von [exp(0,306) – 1] · 100 = 35,8% für jedes zusätzliche Zimmer. zahl der Zimmer um eins, so steigt der Hauspreis approximativ um 100 · 0,306 = 30,6 Prozent. 6–11 6–12 • • Vorteile logarithmierter Variablen: log(wage) = 0,3 – 0,05 · unemployment rate + … (a) Interessante Interpretationen. log(wage) = 0,3 – 0,05 · log(unemployment rate) + … (b) Für y > 0 passt die logarithmierte Variable oft besser zu Wenn unemployment rate von 0-100 kodiert ist, sagt die erste CLM-Annahmen. Andernfalls häufig Heteroskedastie oder Gleichung, dass eine um einen Prozentpunkt höhere schiefe Verteilung. • Beispiel: Arbeitslosenrate (z.B. 9 statt 8 Prozent) die Löhne ceteris (c) Logarithmierte Werte sind weniger breit gestreut als nicht paribus um approximativ 5 Prozent senkt. Die zweite Gleichung logarithmierte, Ausreißer-Beobachtungen verlieren an Einfluss. besagt, dass eine Änderung der Arbeitslosenrate um ein Wichtig, die Auswirkung auf die Interpretation zu beachten. Prozent (z.B. 8,08 statt 8 Prozent) die Löhne ceteris paribus um 0,05 Prozent senkt. 6–13 • 6–14 Variablen mit Ausprägungen ≤ 0 können nicht logarithmiert 6.2.2 Quadratische Spezifikationen werden. Gelegentlich wird dann statt der Variable selbst ihr • Wert plus 1 logarithmiert, d.h. für Ausprägungen y = 0 wird log(y+1) statt log(y) genutzt. • Frage: Warum können die R2-Werte von Modellen mit der ab- fallende marginale Effekte beschreiben. • Beispiel: Produktivitätsfortschritt (y = wage) durch Arbeitserfahrung (x = exper): hängigen Variable y nicht mit solchen der abhängigen Variable • log(y) verglichen werden? Mit quadratischen Spezifikationen lassen sich steigende oder ŷ = βˆ 0 + βˆ 1 x + βˆ 2 x 2 Der marginale Effekt von x auf y variiert hier mit β̂1 , β̂2 und x Δŷ ˆ (6.11) Δŷ ≈ (βˆ 1 + 2 βˆ 2 x) ⋅ Δx ⇔ ≈ β1 + 2 βˆ 2 x Δx Typischerweise wird der marginale Effekt von x auf y am Mittelwert der Daten x berechnet. • 6–15 Wenn β̂1 > 0 und β̂2 < 0, erhält man einen konkaven Verlauf. 6–16 • Beispiel: wage = 3,73 + 0,298 exper – 0,0061 exper2 (0,35) (0,041) (0,0009) (6.12) 2 n = 526 R = 0,093 Die Lohnsteigerung von exper = 0 auf exper = 1 beträgt β̂1 + 2 β̂2 x = 0,298 – 2 · 0,0061 · 0 = 0,298, also 0,298 Dollar. Beim Übergang von 10 auf 11 bleibt nur noch 0,298 – 2 · 0,0061 · 10 = 0,176. Bei konkavem Verlauf lässt sich der Punkt berechnen, ab dem der Lohnzuwachs bei zusätzlicher Erfahrung negativ wird: −βˆ βˆ ∂y ˆ = β1 + 2 βˆ 2 x* = 0 ⇔ x* = 1 = 1 . ∂x 2 βˆ 2 2 βˆ 2 (6.13) Hier: x* = exper* = 0,298 / (2 · 0,0061) = 24,4 Jahre 6–17 • 6–18 Wenn β̂1 < 0 und β̂2 > 0, ist der Verlauf u-förmig (konvex) und hat ein Minimum x*. • Beispiel: log(price) = 13,39 – 0,902 log(nox) – 0,087 log(dist) (0,57) (0,115) (0,043) – 0,545 rooms + 0,062 rooms2 – 0,048 stratio (0,165) n = 506 (0,013) (0,006) 2 R = 0,603 Der Koeffizient von rooms2 ist hochsignifikant. Bei kleiner Zahl von Zimmern scheint ein weiteres Zimmer den Hauspreis zu senken, bis das Minimum erreicht ist: x* = −βˆ 1 0,545 = ≈ 4,4 2 βˆ 2 2 ⋅ 0,062 6–19 6–20 Der negative Effekt für Häuser mit weniger als 4 Zimmern ist • Haben bei quadratischen Effekten beide Koeffizienten das glei- unrealistisch. In der Stichprobe sind weniger als 1% der Be- che Vorzeichen, so gibt es keine Richtungsänderung im Zu- obachtungen davon betroffen. sammenhang zwischen y und x. • Marginaler Effekt: n ≈ {−0,545 + 2 ⋅ 0,062 ⋅ rooms} ⋅ Δrooms Δlog(price) n %Δ price ≈ 100 ⋅ {−0,545 + 2 ⋅ 0,062 ⋅ rooms} ⋅ Δrooms Bei quadrierten logarithmierten erklärenden Variablen können sich nicht-konstante Elastizitäten ergeben: log(y) = β0 + β1 log(x) + β2 (log(x))2 + u %Δy = [β1 + β2 2 ⋅ log(x)] %Δx ≈ ( −54,5 + 12,4 ⋅ rooms) ⋅ Δrooms Hat man bereits rooms = 5, so erhöht ein weiteres Zimmer den • Gelegentlich wählt man eine flexiblere als die quadratische Preis approximativ um -54,5 + 12,4 · 5 = 7,5%. Der Effekt Form, z.B. ein Polynom 3. (oder auch 4.) Ordnung: wächst bei größeren Häusern sehr stark. Bereits bei 6 ergibt y = β0 + β1 x + β2 x 2 + β3 x 3 + u sich -54,5 + 12,4 · 6 = 19,9%. Wieder berechnet man zur Interpretation marginale Effekte. 6–21 Gelegentlich hängt der partielle Effekt einer Variablen vom Wert einer anderen ab. Dies modelliert man durch Interaktionster- • 6–22 • 6.2.3 Modelle mit Interaktionstermen • (6.16) Beispiel 2: price = β0 + β1 sqft + β2 bdrms + β3 sqft · bdrms + β4 bathrms + u Δprice = β2 + β3 sqft Δbdrms (6.17) me. Wenn β3 > 0, ist der Preisaufschlag pro Zimmer (=bedroom) in Beispiel 1: Der Produktivitätseffekt von Arbeitserfahrung kann Häusern mit großer Wohnfläche (sqft) höher als in kleinen. β2 je nach Bildungstand unterschiedlich ausfallen. ergibt den Preisaufschlag für Häuser mit sqft = 0. Statt: wage = β0 + β1 educ + β2 exp er + u nun: wage = β0 + β1 educ + β2 exp er + β3 ( educ ⋅ exper ) + u Jetzt Δwage = β2 + β3 ⋅ educ . Δ exp er 6–23 6–24 Kapitel 6: Anwendungen des KQ-Schätzers price β 2 + β3 sqft1 sqft1 > sqft 0 , 6.1 Auswirkung von Skalierung β2 > 0, β3 > 0 6.2 Alternative funktionale Formen 6.3 Schätzgüte und Auswahl der Regressoren β 2 + β3 sqft 0 6.4 Vorhersage und Analyse der Residuen bedrooms Wenn β3 = 0, spielt die Wohnfläche für den Preisaufschlag durch die Zahl der Zimmer keine Rolle. 6–25 6–26 • 6.3 Schätzgüte und Auswahl der Regressoren Modell berücksichtigt werden. Es ist üblich, neben R2 ein an- 6.3.1 R2 und R 2 • gepasstes R2, R 2 , zu betrachten, welches mit der Zahl der 2 R beschreibt den Anteil der Variation in y, der durch das Mo- verwendeten Regressoren schwankt: SSR R2 = 1SST SSR / (n - k -1) σˆ 2 2 R = 1= 1SST / (n -1) SST / (n -1) dell erklärt wird. • R2 kann nicht sinken, wenn zusätzliche erklärende Variablen im Auch bei kleinem R2 lassen sich präzise und unverzerrte Koeffizienten schätzen. • (6.21) Aufnahme eines Regressors reduziert SSR, aber auch n-k-1. Daher kann das R 2 steigen, gleich bleiben oder auch fallen, wenn eine zusätzliche erklärende Variable berücksichtigt wird. Man verwendet das R 2 , um z.B. Modifikationen einer gegebenen Modellspezifikation zu bewerten. 6–27 6–28 • Interessant: R 2 steigt, sobald der Betrag des t-Wertes einer zu- wie R2 und kann nicht unmittelbar zur Berechnung des F-Tests fikanz einer Gruppe von Variablen ≥ 1 ist. Damit steigt der (kor- genutzt werden. • Es gilt folgende Umrechnung: Beispiel: 2 sie unterschiedlich viele Parameter verwenden. Modelle sind 2 R = 0,30 n = 51 R 2 wird verwendet, um nicht genestete Modelle für eine gegebene abhängige Variable zu vergleichen, insbesondere wenn n -1 R = 1- (1- R ) n - k -1 2 • R 2 kann negativ werden. R 2 hat nicht die gleiche Interpretation sätzlichen Variable ≥ 1 ist und wenn die F-Statistik für die Signirigierte) Erklärungsgehalt auch ohne statistische Signifikanz. • • nicht genestet, wenn sie nicht durch lineare Restriktionen inein- (6.22) ander überführt werden können. k = 10 R = 1 – 0,70 · 50/40 = 0,125 2 6–29 • 6–30 • Beispiel 1 (Gehalt der Baseballspieler): (a) log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg + β4 hrunsyr + u1 Beispiel 2: R&D-Intensität und Umsatz: (a) rdintens = β0 + β1 log(sales) + u1 (6.23) (b) rdintens = β0 + β1 sales + β2 sales2 + u2 (6.24) (b) log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg Die Modelle sind nicht genestet. Da unterschiedlich viele erklä- + β4 rbisyr + u2 rende Variablen verwendet werden, ist R2 für den Vergleich Da die Variablen hrunsyr und rbisyr hochkorreliert sind, ist die nicht informativ. Frage, welche einen höheren Beitrag leistet. Die Modelle sind Ra2 = 0,061 nicht genestet. (a) ergibt R2 = 0,6211 und (b) R2 = 0,6226, ein sätzlichen Parameter eine Korrektur vor (n = 32), Ra2 = 0,03 Rb2 kleiner Vorteil für (b). Dies ließe sich auch mit R2 vergleichen, da hier die gleiche Anzahl Parameter geschätzt wurde. Rb2 = 0,148. Das angepasste R2 nimmt für den zu- = 0,09. Auch mit Korrektur ist Modell (b) überlegen. • Weder R2 noch R 2 kann verwendet werden, um zwischen Modellen mit unterschiedlichen abhängigen Variablen zu wählen, da sich die SST unterscheiden. 6–31 6–32 • Beispiel 3: CEO-Gehalt als Funktion von Umsatz und Rendite n = 830,63 + 0,0163 sales + 19,63 roe salary (223,90) (0,0089) n = 209 (11,08) R = 0,029 2 (6.25) R = 0,020 2 6.3.2 Auswahl von Regressoren • Es ist möglich, durch Berücksichtigung von zu vielen Regressoren die beabsichtigte ceteris paribus Interpretation zu verfälschen. Plausibilität des „konstant Haltens“ muss im Einzelfall n = 4,36 + 0,275 lsales + 0,0179 roe lsalary lsalary geprüft werden. = 4,36 + 0,275 lsales + 0,0179 roe (0,24) (0,033) n = 209 2 (0,0040) R = 0,282 (6.26) R = 0,275 2 Wenngleich Modell (6.26) besser zu den Daten zu passen scheint als Modell (6.25), sind R2 und R2 keine relevanten Vergleichskriterien, da sie sich auf unterschiedliche abhängige Variablen beziehen. 6–33 6–34 • Beispiel 1: Reduziert eine höhere Biersteuer die Zahl der Ver- • Beispiel 2: Hauspreis als Funktion des geschätzten Wertes kehrstoten? Vermutung: Bei höherer Steuer weniger Bierkon- und der Hausmerkmale. sum, dadurch sicherere Fahrweise. Modell: Modell: log(price) = β0 + β1 log(assess) + β2 log(lotsize) + β3 Unfalltote = β0 + β1 Steuersatz + β2 gefahrene Meilen + β3 An- log(sqft) + β4 bdrms +… teil männlich + β4 Bevölkerungsanteil 16-21 + … Geeignet, um Rationalität der Preisfindung via H0: β1 = 1 zu tes- Was, wenn zusätzlich noch Bierkonsum kontrolliert wird? ten. Kontrolle für geschätzten Preis nicht sinnvoll, wenn man Unfalltote = β0 + β1 Steuersatz + β2 Bierkonsum … Preiswirkung der Hausmerkmale in einer hedonischen Preis- Jetzt misst β1 den Steuereffekt auf Unfallopfer bei gegebenem funktion bestimmen will. Dann geeignetes Modell: Bierkonsum, das ist nicht mehr sinnvoll zu interpretieren. log(price) = β0 + β1 log(lotsize) + β2 log(sqft) + β3 bdrms + … Zweites Modell hat niedrigeres R2, aber gesuchte Interpretation. 6–35 6–36 • Einzelfallentscheidungen zwischen omitted variable bias und Kapitel 6: Anwendungen des KQ-Schätzers over-controlling. • Es kann sinnvoll sein, zusätzliche erklärende Variablen ins Mo- 6.1 Auswirkung von Skalierung dell aufzunehmen, die nicht mit den bereits berücksichtigten 6.2 Alternative funktionale Formen korreliert sind und keine omitted variable bias abbauen: Je grö- 6.3 Schätzgüte und Auswahl der Regressoren ßer der erklärte Teil der Gesamtvariation der abhängigen Variable, umso kleiner ist die Fehlertermvarianz, umso kleiner die 6.4 Vorhersage und Analyse der Residuen Streuung der Parameter und umso präziser die Schätzung. • Allerdings besteht immer das Risiko von Multikollinearität. 6–37 6–38 • 6.4 Vorhersage und Analyse der Residuen rameter θ0 als Schätzer des zugehörigen y bestimmen: 6.4.1 Konfidenzintervalle von Vorhersagen wahr: θ0 = β0 + β1 c1 + β2 c 2 + ... + βk c k geschätzt: θˆ 0 = βˆ 0 + βˆ 1 c1 + βˆ 2 c 2 + ... + βˆ k c k die vorhergesagten Werte. • Geschätzt: ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 + ... + βˆ k xk (6.27) • ( 2 Zufallsvariablen sind, überträgt sich diese Eigenschaft auch auf ck = xk , . . . , c2 = Vorhersagen werden mittels KQ-Schätzer erzeugt. Da letztere x , c1 = x1 y E = • Setzt man Werte c1, …, ck für x1, …, xk ein, so lässt sich der Pa- ) (6.28) (6.29) Hat man θ̂0 , so lässt sich bei großer Zahl von Freiheitsgraden ein 95%-Konfidenzintervall als: θ̂0 ± 1,96 se(θ̂0 ) bestimmen. • Frage: Was ist bei einer kleinen Zahl von Freiheitsgraden an- ders? 6–39 6–40 • Wie lässt sich se( θ̂0 ) bestimmen? Trick: Schritt 1: • wenn alle erklärenden Variablen an ihrem Stichprobenmittel- β0 = θ0 - β1 c1 - β2 c 2 - ... - βk c k wert betrachtet werden, d.h. wenn cj = x j. Je weiter sich die cj Schritt 2: Einsetzen in y = β0 + β1 x1 + β2 x 2 + ... + βk xk + u von x j entfernen, umso größer wird die Varianz der Vorhersa- Schritt 3: ergibt y = θ0 + β1 (x1 - c1 ) + β2 (x 2 - c 2 ) + ... + βk (xk - c k ) + u Die Varianz des vorhergesagten Wertes ( θ̂0 ) ist am kleinsten, ge. (6.30) Für jedes i wird xij ersetzt durch xij – cj. Dieses Modell lässt sich schätzen. Nun sind der Achsenabschnitt und sein Standardfehler Schätzer für θ̂0 und se( θ̂0 ). 6–41 • Alternativ zur fiktiven oder durchschnittlichen Beobachtung c 6–42 • kann auch die Vorhersage mit Vorhersageintervall für eine tatsächliche Beobachtung interessieren. In diesem Fall ist auch Da β̂ j unverzerrt ist, folgt E(yˆ 0 ) = y 0 und E(eˆ 0 ) = 0 , gegeben die beobachteten Daten. • Var(eˆ 0 ) = Var(y 0 − yˆ 0 ) = Var(u0 − yˆ 0 ) Von allen Bestandteilen von y0 ist nur u0 stochastisch, βj und x 0j Konfidenzintervalls des vorhergesagten Wertes beachtet werden: sind Konstante (vergleiche 6.33). Der wahre Fehler u0 ist mit den Daten der Stichprobe unkorreliert, daher auch mit β̂ j und Modell für Beobachtung 0: x 0j und somit ŷ 0 . 0 u + 0k x βk + . . . + 02 x β2 + 01 x β1 + β0 = 0 y der Störterm relevant und muss bei der Bestimmung des (6.33) Vorhersage: ŷ 0 = βˆ 0 + βˆ 1 x10 + βˆ 2 x 02 + ... + βˆ k xk0 Vorhersagefehler: eˆ 0 = y 0 − yˆ 0 = (β0 + β1 x10 + β2 x 02 + ... + βk xk0 ) + u0 − yˆ 0 Daher Var(eˆ 0 ) = Var(u0 - yˆ 0 ) = Var(u0 ) + Var(yˆ 0 ) = σ 2 + Var(yˆ 0 ) (6.34) 6–43 (6.35) σ2 ist konstant und Var( ŷ 0 ) hängt z.B. von der Stichprobengrö6–44 ße ab, die die Varianz von β̂ j bestimmt. 2 • 0 Da σ und Var( ŷ ) geschätzt werden können, ergibt sich { 0 2 0 se(eˆ ) = σˆ + [se(yˆ )] • } 2 12 Beispiel: Schätzung der Streuung einer Vorhersage für eine vorgegebene Merkmalskombination: (6.36) colGPA = 1,493 + 0,00149 sat – 0,01386 hsperc (0,075) (0,00007) Wie im Fall von β̂ j gilt: ê 0 se( ê 0 ) ~ t n − k −1. Dadurch ergibt sich für – 0,06088 hsize + 0,00546 hsizesq das Konfidenzintervall P[ − t α /2 ≤ (0,01650) ê0 ≤ t α /2 ] = 1- α se(eˆ 0 ) n = 4137, Einsetzen ergibt das Konfidenzintervall für y0: y 0 − yˆ 0 P[ − t α /2 ≤ ≤ t α /2 ] = 1- α se(eˆ 0 ) P[yˆ 0 − t α /2 ⋅ se(eˆ 0 ) ≤ y 0 ≤ yˆ 0 + t α /2 ⋅ se(eˆ 0 )] = 1- α (0,00056) R2 = 0,278, (0,002277) R2 = 0,277, (6.32) σ̂2 = 0,560 colGPA = College Note sat (6.37) = Testpunkte hsperc = High School Rang hsize = High School Größe (in 100 Schülern) Vorhergesagter Wert, wenn sat = 1200, hsperc = 30, hsize = 5: 6–45 6–46 Der Achsenabschnitt entspricht dem vorhergesagten Wert θ̂0 colGPA = 2,70. Zur Bestimmung des Standardfehlers und Konfidenzintervalls und 0,020 ist sein Standardfehler, se( θ̂0 ). Variablen umkodieren (vgl. 6.30): Konfidenzintervall: 2,70 ± 1,96 ⋅ (0,020), somit [2,66; 2,74], was sat0 = sat -1200, hsperc0 = hsperc -30, hsize0 = hsize -5, wegen der großen Stichprobengröße sehr eng ausfällt. 0 hsizesq = hsizesq -25. Neuschätzung ergibt: colGPA = 2,700 + 0,00149 sat0 – 0,01386 hsperc0 (0,020) (0,00007) (0,00056) 0 – 0,06088 hsize + 0,00546 hsizesq0 (0,01650) n = 4137, R2 = 0,278, (0,00227) R2 = 0,277, σ̂ = 0,560 6–47 6–48 6.4.2 Analyse der Residuen und log(y) als abhängige Variable • • • Unter CLM-Annahmen (MLR.1–MLR.6) gilt daher für 6.39: E(y x ) = exp(σ 2 2)× exp(β0 + β1 x1 + β2 x 2 +... + βk xk ), Wenn yi den Preis von Gut i angibt und ûi < 0 ist, erkennt man wobei x die unabhängigen Variablen beschreibt und σ2 die Va- preiswerte Güter. rianz von u ist. Auch logarithmierte abhängige Variablen lassen sich vorhersagen: • Es gilt: Wenn u ~ Normal(0,σ2), dann ist E(exp(u)) = exp(σ2/2). Dies kann über wichtige ausgelassene Faktoren informieren. xk βk + . . . x2 β2 + x1 β1 + β0 = y g o l • Es kann informativ sein, die beobachtungsspezifischen Abweichungen vom vorhergesagten Wert anzuschauen, uˆ i = y i - yˆ i . • ˆ ˆ ˆ ˆ • (6.39) Zur Vorhersage von y nutzt man also ŷ = exp(σˆ 2 2) ⋅ exp(logy) , (6.40) wobei σ̂ 2 ein unverzerrter Schätzer von σ2 ist. Da σ̂ 2 > 0, Allerdings ist es falsch, den Wert für y daraus durch einfaches exp( σ̂ 2 /2) > 1. Exponentieren zu gewinnen: ŷ = exp(logy). • Unter MLR.6 ergibt (6.40) konsistente Vorhersagen ŷ . 6–50 6–49 • Ohne MLR.6 gilt E(y x) = α0exp(β0 + β1 x1 + β2 x 2 +... + βk xk ) , • (6.41) das Quadrat der Stichprobenkorrelation von ŷi aus Schritt (iv) wobei α0 = E(exp(u)). Hat man α̂ 0 , so lässt sich vorhersagen ŷ = αˆ 0 exp(logy) • Ein Maß für die Schätzgüte der Regression von log(y) für y ist mit dem tatsächlichen yi. (6.42) • Beispiel: log(salary) = β0 + β1 log(sales) + β2 log(mktval) Vorgehensweise zur Vorhersage von y, wenn die abhängige Variable log(y) ist: (i) + β3 ceoten +u salary = Gehalt des CEO in Tausend $ Bestimme nach der KQ-Schätzung log yi sales = Umsatz in Mio $ (ii) Berechne für jedes i m̂i = exp(logy i ) mktval = Marktwert des Unternehmens (iii) Regressiere y auf m̂ ohne Achsenabschnitt. ceoten = Betriebszugehörigkeitsdauer des CEO (in Jahren) Der Koeffizient dieser Regression durch den Ursprung ist ein Schätzer für α0. (iv) Mit log yi und α̂ 0 lässt sich gemäß (6.42) ŷ bestimmen. 6–51 lsalary = 4,504 + 0,163 lsales + 0,109 lmktval + 0,0117 ceoten (0,257) (0,039) n = 177, 2 R = 0,318 (0,0053) (0,0053) (6.45) 6–52 Eine Regression von salary auf m̂i = exp(lsalaryi) ergibt α̂0 ≈ 1,117 . 6.5. Überblick • Für sales = 5000, mktval = 10 000 und ceoten = 10 ergibt sich: Bei der Verwendung von Logarithmen zu beachten 1. Koeffizienten sind als relative, d.h. prozentuale Änderungen 4,504 + 0,163 log(5000) + 0,109 log(10 000) + 0,0117 · 10 ≈ zu interpretieren; andere Maßeinheiten spielen keine Rolle. 7,013. 2. Typischerweise werden Geldbeträge oder Variablen mit ho- Somit ist der vorhergesagte Wert 1,117· exp(7,013) = 1240,967 her Streuung logarithmiert, seltener Jahres- oder Anteils- bzw. 1,2 Mio $. Die Corr(salaryi, salaryi) = 0,493, so dass wir maße. 3. Logarithmierte einen quadrierten Wert von 0,243 erhalten. Dieser ist höher als 2 abhängige Variablen ergeben häufiger homoskedastische und normalverteilte Störterme. das R von 0,201 aus dem nicht-logarithmierten Modell. Insofern kann man das logarithmierte Modell wegen besserer 4. Logarithmieren der abhängigen Variable reduziert die Be- Schätzgüte, aber auch wegen leichter zu interpretierender Pa- deutung von Ausreisserbeobachtungen. Bei y-Werten nahe rameter vorziehen. 0 kann log(y) höhere Streuung haben als y. 6–53 5. Logarithmieren ist nicht möglich, wenn y=0 sein kann. Oft wird hier log(1+y) genutzt. • Bei Verwendung von Interaktionstermen zu beachten: 1. Hier kann der partielle Effekt einer Variable x1 vom Wert ei- 6. Vorhersagen mit log(y) sind komplexer als mit y. • 6–54 ner Variable x2 abhängen. Bei Verwendung quadratischer Terme zu beachten: 2. Es kann zur Interpretation hilfreich sein, vor der Schätzung 1. Quadrierte erklärende Variablen erlauben steigende und fal- die Variablen um relevante Werte zu zentrieren; sonst misst der Koeffizient der Haupteffekte den partiellen Effekt von x1 lende Effekte. 2. Maximal- und Minimalstellen sollten berechnet und überprüft wenn die interagierte Variable x2 den Wert x2=0 annimmt. 3. Statistische Signifikanz von Interaktionstermen ergibt sich werden. 3. Bei quadrierten erklärenden Variablen können auch kleine aus t-Tests, ökonomische Signifikanz aus dem Vergleich verschiedener vorhergesagter Werte. Koeffizienten einflussreich sein. 6–55 6–56 Schlüsselbegriffe Kapitel 6: Literatur Kapitel 6: Skalierung Standardisierung Semielastizität Interaktionsterm 2 2 Angepasstes R , R ability bias over-controlling Hedonische Preisfunktion Genestetes Model Vorhersage-Konfidenzintervall • Wooldridge, Kapitel 6 • Von Auer, Kapitel 11, 13, 14 • Hill / Griffiths / Judge, Kapitel 6, 10 • Stock / Watson, Kapitel 8, 9 6–57 6–58 Leitfragen und Lernziele Kapitel 7: Kapitel 7: Binäre Variablen • 7.1 Qualitative Information und einfache Dummy-Variablen Welche Kontrollvariablen lassen sich als Dummy-Variablen repräsentieren? 7.2 Dummy-Variablen für Kategorien • 7.3 Interaktion mit Dummy-Variablen Wie kann man Achsenabschnitts- und Steigungsparameter gruppenspezifisch bestimmen? 7.4 Binäre Variablen als abhängige Variablen: Lineares • Wahrscheinlichkeitsmodell Wie ist mit Dummy-Variablen als abhängigen Variablen zu verfahren? 7–1 • 7.1 Qualitative Information und einfache Dummy-Variablen • 7–2 Wir unterscheiden quantitative und qualitative Variablen. Erstere werden in der Regel stetig (Beispiel: Alter, Lohnsatz), Die Kodierung mit den Werten 0 und 1 ist willkürlich (1 und 2 oder -1 und 1 wären auch möglich), hat aber Interpretationsvorteile. letztere z.B. binär kodiert (Beispiel: Geschlecht männlich ja/nein, Hausbesitzer ja/nein). • Man spricht von binären, Dummy-, dichotomen, Null-Eins- oder Indikator-Variablen. • Konvention ist, dass die Variable nach der zutreffenden Kategorie benannt ist und diese mit 1 kodiert ist, so dass 1 = ja und 0 = nein (Beispiel: weiblich, Besitzer, erwerbstätig). Ein Variablenname „Geschlecht“ ist nicht informativ. 7–3 7–4 • Beispiel 1: wage = β0 + δ0 female + β1 educ + u (7.1) • Grafisch verschiebt der Dummy-Koeffizient den Achsenabschnitt β0 um δ0: Die Variable female hat für Frauen den Wert 1, für Männer den Geradengleichung für Männer: wage = β0 + β1 educ Wert 0. δ0 gibt den mittleren Lohnunterschied für Männer und Geradengleichung für Frauen: wage = (β0 + δ0) + β1 educ Frauen an, wenn Bildung konstant gehalten wird. Wenn δ0 < 0, verdienen Frauen weniger als Männer. Wenn E(u | female,educ ) = 0, dann δ0 = E (wage | female = 1,educ) – E (wage | female = 0,educ) bzw. δ0 = E ( wage | female,educ ) – E (wage | male,educ) (7.2) 7–5 7–6 • Frage: Warum nicht: wage = β0 + δ0 female + δ1 male + β1 educ + u ? Antwort: Modell wäre perfekt multikollinear (dummy variable trap). Der Wert der Konstante (=1) ergibt sich als Linearkombination, Konstante = female + male. Außerdem: Mit zwei Gruppen (männlich/weiblich) brauchen wir zwei Achsenabschnittswerte und die lassen sich mit einer Dummy-Variable und der Konstanten bereits erzeugen. • Die Gruppe, für die die Dummy-Variable mit Null kodiert ist, nennt man Basis- oder Referenzgruppe, sie ist der Vergleichsmaßstab bei der Interpretation des Koeffizienten δ0. 7–7 7–8 • Ersetzt man die Variable female durch die Variable male, ver- • schieben sich β0 um δ1, aber die zentralen Aussagen bleiben det auch die Formulierung gleich. Wenn: Alternativ zur Formulierung mit Konstante und Dummy vermei- wage = β0 male + α0 female + … wage = β0 + δ0 female + β1educ + u und die „dummy variable trap“. Allerdings lässt sich der Geschlechtsunterschied schwerer interpretieren und ohne Kon- wage = α0 + γ0 male + β1 educ + u stante ist R2 nicht definiert. ergibt sich für Frauen: α0 = β0 + δ0 und für Männer β0 = α0 + γ0. 7–9 • 7–10 Beispiel 1: wage = -1,57 – 1,81 female + 0,572 educ (0,72) (0,26) trolliert sind (z.B. Beruf). Ohne Kontrollvariablen: (0,049) wage = 7,10 – 2,51 female + 0,025 exper + 0,141 tenure (0,012) (0,021) (0,21) (0,30) (7.4) n = 526, (7.5) R2 = 0,116 R2 = 0,364 Nach dieser Schätzung verdienen Frauen im Mittel 2,51 $ we- Der negative Achsenabschnitt (hier für Männer und Frauen) ist niger als Männer. Der mittlere Verdienst für Männer ist 7,10 $. nur für den Fall relevant, in dem alle erklärenden Variablen Null Der geschätzte Koeffizient für Frauen ist signifikant: t = - sind. Bei gleichen Werten für educ, exper, tenure verdienen 2,51/0,30 = -8,37. n = 526, Frauen im Mittel 1,81 $ (Daten von 1976) pro Stunde weniger • Mit der einfachen Regression lässt sich prüfen, ob es zwischen als Männer. Dies liegt also nicht an Unterschieden in Bildung, zwei Gruppen einen signifikanten Unterschied gibt. Der t-Test Erfahrung oder Betriebszugehörigkeitsdauer, sondern am Ge- ist nur unter der Annahme MLR.5 (Homoskedastie) gültig. schlecht bzw. Faktoren, die damit korreliert und sonst nicht kon7–11 7–12 • Der Lohnunterschied zwischen den Geschlechtern ist in (7.4) • Beispiel 2: Kausaler Effekt von PC-Nutzung auf Collegenoten? kleiner als in (7.5). Dies zeigt, dass er teilweise auf Unterschie- colGPA = β0 + δ0 PC + β1 hsGPA + β2 ACT + u de in educ, exper und tenure zurück geht. Es belegt, dass in PC = 1, wenn Student über PC verfügt, sonst = 0 (7.5) relevante Faktoren nicht konstant gehalten werden und ⎧> ⎫ δ0 ⎨ ⎬ 0 je nachdem, ob PCs die Produktivität erhöhen oder ⎩< ⎭ keine ceteris paribus Interpretation vorliegt. Allerdings kann reduzieren auch (7.4) noch zu wenig Kontrollvariablen aufweisen, um kau- colGPA = 1,26 + 0,157 PC + 0,447 hsGPA + 0,0087 ACT sal interpretierbare Effekte zu generieren (Bsp.: Beruf, körperli- (0,33) (0,057) cher Anspruch des Jobs, Weiterbildung, Engagement, Motivati- n = 141, on, etc.). (0,094) (0,0105) 2 R = 0,219 (7.6) Gegeben Schulnoten und Testergebnisse (ACT), sind die Noten von PC-Besitzern im Mittel signifikant (tPC = 0,157/0,057 = 2,75) um 0,157 Notenpunkte höher als die von Nicht-PCBesitzern. Es ist denkbar, dass PC-Besitz mit hsGPA oder ACT 7–13 korreliert. Dann ergibt sich ohne Kontrolle für hsGPA und ACT 7–14 • Unter der Annahme E(u PC, hsGPA, ACT) = 0 lässt sich der ein anderes δ0. Tatsächlich ändert sich wenig δ̂0 = 0,17 mit Koeffizient δ̂0 als kausaler Effekt interpretieren. Dies gilt aber se( δ̂0 ) = 0,063. z.B. dann nicht, wenn Einkommen oder Bildung der Eltern sowohl PC als auch colGPA beeinflusst. Man könnte sich vorstellen, dass E(u PC = 1, hsGPA, ACT) > E(u PC = 0, hsGPA, ACT) , wenn Kinder reicher Eltern sowohl eher einen PC haben, als auch bessere Förderung erhalten und z.B. weniger Zeit für Erwerbstätigkeit verwenden. Die kausale Interpretation ist also nicht immer plausibel. 7–15 7–16 • Dummy-Variablen werden auch zur Politikevaluation ein- • Beispiel 3: Wirkung von Weiterbildungssubventionen gesetzt. Man unterscheidet die Nichtteilnehmer (control group) von den Teilnehmern (treatment hrsemp = 46,67 + 26,25 grant - 0,98 log(sales) group) einer (43,41) (5,59) (3,54) Maßnahme (z.B. Arbeitsförderung). Wenn durch multiple - 6,07 log(employ) Regression alle Faktoren kontrolliert werden können, die zur (3,88) Zuteilung auf eine der Gruppen geführt haben, kann der (7.7) 2 n = 105 Unternehmen, Koeffizient einer Variable "treatment" als kausaler Effekt R = 0,237 hrsemp = Weiterbildungsstunden pro Mitarbeiter (Mittelwert 17) interpretiert werden. grant = 1, wenn Unternehmen Subventionen erhält, sonst 0 sales = Jahresumsatz des Unternehmens employ = Anzahl der Beschäftigten 7–17 Subvention (treatment hier) hat statistisch und ökonomisch signifikanten Effekt von 26 Stunden. Umsatz insignifikant, größere Arbeitgeber bilden weniger weiter, mit • Beispiel 4: Interpretation von Dummies bei log-abhängigen Variablen (immer: natürlicher Logarithmus) log(price) = 5,56 + 0,168 log(lotsize) + 0,707 log(sqrft) -6,07/3,88 = -1,56, t103, 10% = 1,65. • 7–18 (0,65) (0,038) (0,093) + 0,27 bdrms + 0,054 colonial Kausaler Effekt? Vielleicht hätten Subventionsempfänger so- (0,029) wieso weitergebildet: Dann E(u | grant = 1,x) > E(u | grant = (0,045) (7.8) R2 = 0,649 0,x). Auswahl der Subventionsempfänger relevant. Wenn Zufall n = 88, (unkorreliert), dann eher kausaler Effekt, als wenn systemati- price = Hauspreis lotsize = Grundstücksgröße sqrft = Wohnfläche bdrms = Anzahl Zimmer sche Auswahl. colonial = 1, Haus im Kolonialstil, = 0 nicht 7–19 7–20 • • Bei großen Koeffizienten berechnet man (exp(β) – 1) · 100, d.h. hier exp(0,054) - 1 = 0,055 (7.10) zurück zu Beispiel 1: log(wage) = 0,417 – 0,297 female + 0,080 educ (0,099) (0,036) log(price) unterscheidet sich ceteris paribus um 0,054, wenn im (0,007) + 0,029 exper – 0,00058 exper2 Kolonialstil. Kleiner Effekt kann als Prozentgröße interpretiert (0,005) werden, d.h. 5,4% Preisaufschlag, wenn Kolonialstil. (0,00010) + 0,032 tenure – 0,00059 tenure2 (0,007) n = 526, (0,00023) R2 = 0,441 Lohnabschlag für Frauen approximativ 29,7%. Genauer: log(wageF) – log(wageM) = -0,297 Exponenzieren, dann minus 1: 7–21 n wage F n wage M −1= n − wage n) (wage F M 7–22 Kapitel 7: Binäre Variablen = exp( −0,297) − 1 n wage M 7.1 Qualitative Information und einfache Dummy-Variablen ≈ 0,743 − 1 = −0,257 7.2 Dummy-Variablen für Kategorien Ceteris paribus Lohnabschlag beträgt 25,7%, nicht 29,7%. 7.3 Interaktion mit Dummy-Variablen 7.4 Binäre Variablen als abhängige Variablen: Lineares Wahrscheinlichkeitsmodell 7–23 7–24 • 7.2 Dummy-Variablen für Kategorien • Man kann 4 Gruppen bilden: verheiratete Männer, verheiratete Frauen und je unverheiratet. 3 von diesen Gruppen werden in Man kann auch mehrere Dummy-Variablen in einer Schätzung der Regression kontrolliert, die vierte (hier unverheiratete Män- haben. Ergänzt man die Lohnregression um die Variable ner) ist die Referenzgruppe: married, so erhält sie einen positiven Koeffizienten von 0,053 log(wage) = 0,321 + 0,213 marrmale – 0,198 marrfem (0,041) und der female Dummy sinkt auf -0,290 (0,036). Inte- (0,100) (0,055) ressant wäre, ob sich der „Verheiratetenzuschlag“ nach dem (0,056) – 0,110 singfem + 0,079 educ + 0,027 exper Geschlecht unterscheidet. (0,056) (0,007) (0,005) 2 – 0,00054 exper + 0,029 tenure (0,00011) (0,007) 2 – 0,00053 tenure (0,00023) (7.11) 7–25 n = 526, R2 = 0,461 7–26 • Zum Test auf Signifikanz der Unterschiede zwischen Teilgruppen ist eine Neuschätzung mit einer anderen Referenzgruppe Alle Koeffizienten sind am 5%-Niveau signifikant. Die Gruppenindikatoren werden relativ zur Referenzgruppe interpretiert. Verheiratete Männer verdienen approximativ 21,3% mehr als nicht verheiratete, verheiratete Frauen verdienen approximativ 19,8% weniger und nicht verheiratete Frauen ca. 11% weniger. Mit den Koeffizienten können die Lohnunterschiede zwischen Gruppen bestimmt werden. am einfachsten, z.B. log(wage) = 0,123 + 0,411 marrmale + 0,198 singmale (0,106) (0,056) (0,058) + 0,088 singfem + … (0,052) Unterschied verheiratete/unverheiratete Frauen wie zuvor 0,088, aber nicht signifikant. Unterschied verheiratete Männer vs. verheiratete Frauen größer und signifikant. Lohnabstände zwischen Teilgruppen sind konstant und unabhängig von der Referenzgruppe. 7–27 7–28 • Bei g Gruppen verwendet man g-1 Indikatorvariablen plus Konstante. • • Beispiel: Löhne und Schönheit Attraktivität in 3 Kategorien erfasst (unter Durchschnitt = Ordinale Informationen können ebenfalls über DummyVariablen in der Schätzgleichung berücksichtigt werden (z.B. belavg, Durchschnitt = avg, über Durchschnitt = abvavg): Männer: log(wage) = β̂0 – 0,164 belavg + 0,016 abvavg + … gut, mittel, schlecht). • (0,046) n = 700, Frage: In einer Regression des Gehalts von Fußballspielern soll für die Position des Spielers kontrolliert werden. Im Daten- Frauen: R = 0,403 log(wage) = β̂0 – 0,124 belavg + 0,035 abvavg + … satz wird Angriff, Mittelfeld und Verteidigung unterschieden. Welche Dummyvariablen würden Sie im Modell berücksichti- (0,033) 2 (0,066) n = 409, (0,046) 2 R = 0,330 gen? 7–29 Lohnabschlag wenn unattraktiv für Männer größer als für Frau- 7–30 Kapitel 7: Binäre Variablen en. Lohnzuschlag in beiden Fällen positiv, aber insignifikant • • (Referenz ist Durchschnitt). 7.1 Qualitative Information und einfache Dummy-Variablen Frage: Wie würden Sie die Hypothese testen, dass das Ausse- 7.2 Dummy-Variablen für Kategorien hen für die Bezahlung von Männern keine Rolle spielt? 7.3 Interaktion mit Dummy-Variablen Hat eine ordinale Variable zu viele Kategorien, um diese ein- 7.4 Binäre Variablen als abhängige Variablen: Lineares zeln zu schätzen, kann man sie in Gruppen zusammenfassen, Wahrscheinlichkeitsmodell z.B. Kinderzahl 0-1, Kinder 2-3, Kinder 4-5, Kinder 6-7, Kinder ≥ 8. 7–31 7–32 • 7.3 Interaktion mit Dummy-Variablen anderen Größen, auch anderen Dummies abhängen, z.B. vari- 7.3.1 Interaktion zwischen Dummy-Variablen • Auch die partiellen Effekte von Dummy-Variablen können von iert der Verheiratetenzuschlag beim Lohn mit dem Geschlecht. Bei stetigen Variablen hatten wir Interaktionen genutzt, um die Dies berücksichtigt man in der Regel durch das Hinzufügen ei- Abhängigkeit partieller Effekte von erklärenden Variablen zuzu- nes Interaktionseffektes zu den einzelnen Haupteffekten. lassen (vgl. Kapitel 6.2). Man verwendet dabei entweder andere Variablen oder Polynome, d.h. Interaktion mit der gleichen erklärenden Variable (Bsp.: β1 income + β2 income2 +…). • Beispiel: 7–33 7–34 log(wage) = 0,321 – 0,110 female + 0,213 married + 0,213 – 0,301. Die Vorhersagen sind exakt wie zuvor und be- (0,100) (0,056) (0,055) schreiben verschiedene Achsenabschnitte für die vier Gruppen. – 0,301 female · married + … (0,072) (7.14) Auch mit dieser Spezifikation lässt sich der Lohnunterschied für die oben beschriebenen 4 Gruppen abbilden: Wenn female = 0 • Ein Vorteil der Spezifikation mit Interaktionsterm ist, dass man direkt die Signifikanz des Interaktionsterms testen kann, z.B. ob der Effekt des Geschlechts mit dem Familienstand variiert und umgekehrt. und married = 0, erhalten wir den Lohn für unverheiratete Männer, d.h. hier die Konstante. Female = 1 und married = 0 ergibt den Lohn für unverheiratete Frauen: 0,321 – 0,110. Female = 0, married = 1 für verheiratete Männer: 0,321 + 0,213 und female = 1, married = 1 für verheiratete Frauen: 0,321 – 0,110 7–35 7–36 7.3.2 Interaktion von Dummy- mit stetigen Variablen • Interaktionen können nicht nur dazu genutzt werden, unterschiedliche Achsenabschnitte zu bestimmen, sondern auch, um die Steigungsparameter nach Gruppen getrennt auszuweisen. • Beispiel: log(wage) = (β0 + δ0 female) + (β1 + δ1 female) · educ + u (7.16) Für Männer log(wage) = β0 + β1 educ + u Für Frauen log(wage) = (β0 + δ0) + (β1 + δ1) · educ + u Wenn δ̂0 und δ̂1 signifikant von Null verschieden sind, unterscheidet sich das Modell für beide Gruppen. 7–37 • • Das Modell wird wie folgt geschätzt: log(wage) = β0 + δ0 female + β1 educ + δ1 (female · educ) + u 7–38 Beispiel: Hautfarbe und Gehalt von Baseballspielern log(salary) = 10,34 + 0,0673 years + 0,0089 gamesyr (7.17) Wenn δ0 = 0 und δ1 ≠ 0, unterscheidet sich lediglich der partielle Effekt von educ für die Geschlechter, der Achsenabschnitt ist gleich. Wenn δ0 ≠ 0 und δ1 = 0, unterscheidet sich lediglich der Achsenabschnitt und der partielle Effekt von educ ist für beide Gruppen identisch. (2,18) (0,0129) (0,0034) + 0,00095 bavg + 0,0146 hrunsyr + 0,0045 rbisyr (0,00151) (0,0164) (0,0076) + 0,0072 runsyr + 0,0011 fldperc + 0,0075 allstar (0,0046) (0,0021) (0,0029) – 0,198 black – 0,190 hispan + 0,0125 black · percblack Mit einem F- (oder LM-) Test lässt sich H0: δ0 = 0, δ1 = 0 tes- (0,125) (0,153) (0,0050) ten. + 0,0201 hispan · perchisp 7–39 7–40 (0,0098) n = 330 Spieler, perchisp R2 = 0,638 (0 – 100) (7.19) years = Jahre in Major League Teste ob die vier Ethnie-Indikatoren gemeinsam signifikant games = Spiele/Jahr in Major Leage sind, R2restr. = 0,626. bavg = career batting average hrunsyr = home runs per year F= fldperc = career fielding percent H0 verworfen, Indikatoren am 5%-Niveau gemeinsam signifi- allstar = percent of years an all-star kant. Wenn percblack = 0, erhält ein schwarzer Spieler im Mittel black = 1, Spieler ist schwarz, 0 nicht ca. 19,8% weniger Gehalt als ein weißer. Gehalt steigt, wenn hispan = 1, Spieler ist hispanic, 0 nicht Anteil Schwarzer in der Stadt steigt; bei 10% ist Gehaltsunter- (0,638 − 0,626) / 4 0,003 = = 2,63 (1 − 0,638) / (330 − 13) 0,0011 F4, 317, 5% ≈ 2,37, schied: -0,198 + 0,0125 · 10 = -0,073, Abschlag nur noch 7,3% percblack = Bevölkerungsanteil Schwarzer in Stadt des Teams bei gleicher Qualität der Spieler. Wenn percblack = 20, Auf- (0 – 100) 7–41 7–42 schlag von 5,2% (beobachteter max. percblack-Wert = 74%). 7.3.3 Gruppenspezifische Unterschiede in der Regressions- Wenn perchisp = 0, Abschlag von ca. 19% für Hispanics ge- funktion genüber weißen Spielern. Ab 9,45% Hispanics Abschlag aus- • geglichen. Nicht unterscheidbar, ob Diskriminierung oder evtl. die besten und somit höchstverdienenden schwarzen Spieler in Städten mit schwarzer Bevölkerung spielen wollen. • = Bevölkerungsanteil Hispanics in Stadt des Teams Mit Interaktionstermen lässt sich prüfen, ob ganze Regressionsgleichungen nach Gruppen unterschiedlich ausfallen. • Beispiel: Collegenoten für männliche und weibliche Sportler cumgpa = β0 + β1 sat + β2 hsperc + β3 tothrs + u Frage: Wie würden Sie im Modell (7.19) die Hypothese testen, cumgpa = kumulierter Grad Point Average dass der Lohneffekt von years von der Hautfarbe abhängt? sat = SAT-Testpunkte hsperc = Rang der Highschool tothrs 7–43 = SWS 7–44 • - 0,0085 hsperc – 0,00055 female · hsperc Vollständig interagiertes Modell erlaubt Geschlechterunter- (0,0014) schiede für jeden der Parameter. + 0,0023 tothrs cumgpa = β0 + δ0 female + β1 sat + δ1 female · sat - 0,00012 female · tothrs (0,0009) + β2 hsperc + δ2 female · hsperc + β3 tothrs + δ3 female · tothrs + u (0,00316) n = 366, (7.20) (0,00163) R2 = 0,406, (7.22) R 2 = 0,394 Gleiches Modell für beide Geschlechter, wenn H0: Nur ein Interaktionsterm statistisch signifikant. Restringiertes δ0 = 0, δ1 = 0, δ2 = 0, δ3 = 0 gilt. Modell ergibt R2 = 0,352, so dass F = 8,14 mit p < 0,0001. H0 ist klar verworfen. Interpretation der Geschlechterunterschiede Schätzergebnis: schwierig, da viele Effekte gleichzeitig: cumgpa = 1,48 – 0,353 female + 0,0011 sat (0,21) (0,411) Wenn sat = 1100, hsperc = 10, tothrs = 50, haben Frauen um (0,0002) 0,461 bessere Noten: + 0,00075 female · sat (0,00039) 7–45 -0,353 + 0,00075 · 1100 – 0,00055 · 10 – 0,00012 · 50 = F-Test für H0 aufwändig, wenn viele erklärende Variablen. Alternative Formulierung über SSR. • Allgemein: k erklärende Variablen und zwei Gruppen g = 1,2: y = βg,0 + βg,1 x1 + βg,2 x 2 + ... + βg,k xk + u • H0: βj,g=1 = βj,g=2 mit j = 0, …, k • Neu: SSRu kann als Summe der SSR von zwei getrennt geschätzten Regressionen (z.B. eine für Männer, eine für Frauen) 0,461. • 7–46 (7.23) ergibt k+1 Restriktionen. Unrestringiertes Modell hat n–2·(k+1) Freiheitsgrade. bestimmt werden, mit n1 und n2 Beobachtungen. Dann SSRu = SSR1 + SSR2. SSRP bezeichnet die SSR der "gepoolten" Regression unter der Annahme, dass H0 gilt. F= [SSRP − (SSR1 + SSR2 )] /(k + 1) (SSR1 + SSR2 ) / [n − 2(k + 1)] (7.24) Dies ist die Teststatistik für den Chow-Test; gültig unter der Annahme, dass beide Gruppen eine identische Fehlertermvarianz haben. 7–47 7–48 • Beispiel: SSRP = 85,515 SSRu = 78,355 F= SSR1 = 19,603 n1 = 90 SSR2 = 58,752 n2 = 276. [85,515 − 78,355] / 4 = 8,18 78,355 / [366 − 2(3 + 1)] > 2,37 = F4,358,5% Kapitel 7: Binäre Variablen 7.1 Qualitative Information und einfache Dummy-Variablen 7.2 Dummy-Variablen für Kategorien H0 verworfen. 7.3 Interaktion mit Dummy-Variablen 7.4 Binäre Variablen als abhängige Variablen: Lineares Wahrscheinlichkeitsmodell 7–49 7.4 Binäre Variable als abhängige Variable: Lineares Wahr- 7–50 • scheinlichkeitsmodell (LWM) • Wenn y dichotom, ändert sich Interpretation von βj. Unter MLR.4 gilt immer noch E(u x1,..., x k ) = 0 . Es folgt daher E(y x ) = β0 + β1 x1 + β2 x 2 + ... + βk xk , Ziel: Dichotome Zustände erklären, Beispiel: Abgeschlossene Schulbildung, Drogenmissbrauch, Unternehmensübernahme wobei P(y = 1 x ) = E(y x ) so dass P(y = 1 x ) = β0 + β1 x1 + β2 x 2 + ... + βk xk . (7.27) Die Wahrscheinlichkeit, dass y = 1, ist eine lineare Funktion von x1,...,xk. Daher spricht man vom linearen Wahrscheinlichkeitsmodell (LWM). Es gilt: ΔP(y = 1 x ) = β j Δx j • (7.28) In diesem Fall gibt die Prognose ŷ die Wahrscheinlichkeit des Ereignisses y = 1 an. 7–51 7–52 • Beispiel: Erwerbstätigkeit von Frauen (1975) inlf = 0,586 – 0,0034 nwifeinc + 0,038 educ + 0,039 exper (0,154) (0,0014) (0,007) (0,006) – 0,00060 exper – 0,016 age – 0,262 kidslt6 (0,002) inlf = Anzahl Kinder unter 6 Jahren wartungen. Ein Ausbildungsjahr erhöht die Wahrscheinlichkeit um 0,038, d.h. 3,8 Prozentpunkte. Verdient der Ehemann + 0,0130 kidsge6 n = 753, kidslt6 Fast alle Variablen signifikant und Vorzeichen entsprechen Er- (0,034) (0,0132) = Alter kidsge6 = Anzahl Kinder ab 6 Jahren 2 (0,00018) age 10.000 $ mehr, so sinkt die Wahrscheinlichkeit der Erwerbstä- (7.29) R2 = 0,264 tigkeit der Frau um 0,034 bzw. 3,4 Prozentpunkte. Ein weiteres Jahr Arbeitsmarkterfahrung ändert die Wahrscheinlichkeit, dass = 1, wenn erwerbstätig, sonst = 0 nwifeinc = Einkommen des Ehemanns in 1000 $ y = 1 um 0,039 – 2 · 0,0006 · exper, d.h. das Maximum wird educ = Jahre Ausbildung nach exper* = 0,0039 / 2 · 0,0006 = 32,5 Jahren erreicht. exper = Arbeitsmarkterfahrung (in Jahren) 7–53 • 7–54 Schwächen des LWM: (c) Das Modell ist heteroskedastisch. Unverzerrtheit bleibt er- (a) Es ist möglich, dass vorhergesagte Werte außerhalb des halten, aber Standardfehler fehlerhaft und t- und F-Test nicht (0,1) Intervalls liegen. anwendbar. (b) Es ist oft unplausibel, dass einzelne Variablen über ihren • Selbstverständlich können lineare Wahrscheinlichkeitsmodelle gesamten Wertebereich linear mit der abhängigen Variable zu- Dummies als erklärende Variablen verwenden. Die Koeffizien- sammen hängen. Beispielsweise reduzieren 4 Kinder unter 6 ten beschreiben den ceteris paribus Unterschied in der Wahr- Jahren die Wahrscheinlichkeit um 4 · 0,262 = 1,048, d.h. um scheinlichkeit, dass y = 1 für die beiden Gruppen. über 100 Prozentpunkte! Problem über andere Kodierung lösbar. 7–55 7–56 Schlüsselbegriffe Kapitel 7: Literatur Kapitel 7: Qualitative, binäre, dichotome Variable Dummy-Variable dummy variable trap Referenzgruppe control group treatment group Ordinale Information Interaktion Interaktionseffekt Haupteffekt Vollständig interagiertes Modell Chow-Test • Wooldridge, Kapitel 7 • Hill / Griffiths / Judge, Kapitel 9 und 18.2 • Stock / Watson, Kapitel 11 7–57 7–58