Datenanalyse mit Excel und Gretl Dozent: Christoph Hindermann [email protected] Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 1 Datenanalyse mit Excel und Gretl Teil 2: Gretl Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 2 Datenanalyse mit Excel und Gretl Modellannahmen Damit wir mit Hilfe der Kleinsten-Quadrate-Methode (OLS) konsistente und unverzerrte Schätzergebnisse erhalten, müssen folgende Modellannahmen erfüllt sein: A1. Erwartungstreue: Im Erwartungswert ist der Fehlerterm ε gleich null. E(ε) = 0 A2. Homoskedastie: Jeder Fehlerterm ε folgt einer Verteilung mit der Varianz σ2. Var(ε) = σ2 A3. Unkorrelierte Fehlerterme: Die Kovarianz der Fehlerterme beträgt null. Cov(εi,εj) = 0 A4. Normalverteilung: Wir nehmen weiterhin an, dass die Fehlerterme normalverteilt sind. ε ~ N(0,σ2) → siehe auch Zusatzmaterial_Annahmen_Regression.pdf Weitere Annahmen: A5. Keine Multikollinearität: Die einzelnen unabhängigen Variablen dürfen keine linearen Funktionen darstellen (sprich es darf keine lineare Abhängigkeit vorliegen). Folglich muss in einem Modell Y = β0 + β1X1 + β2X2 + ε gelten, dass X1 ≠ λX2. A6. Keine Endogenität: Liegt vor, wenn eine exogene Variable mit dem Fehlerterm korreliert. Cov(εi,xi) ≠ 0 Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 3 Datenanalyse mit Excel und Gretl Multiple Regression I Burger Eine Burger-Kette möchte herausfinden, welchen Einfluss ihre Preis- und Werbestrategie auf ihre Verkaufserlöse hat. Zu diesem Zweck hat sie die Verkaufserlöse, die Preise und die Werbeausgaben aus 75 verschiedenen Filialen zusammengetragen. Die beiden zentralen Fragen lauten: • Führen niedrigere Preise zu höheren Verkaufserlösen? • Führen zusätzliche Werbeausgaben zu zusätzlichen Erlösen, die höher als die Werbeausgaben sind? Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Zusammenhang zwischen Erlösen, Preisen und Werbeausgaben am besten durch folgendes Modell beschreiben lässt: SALES = β0 + β1PRICE + β2ADVERT + β3ADVERT2 + ε (SALES = Erlöse in Tausend $, PRICE = Preis pro Burger in $, ADVERT = Werbeausgaben in Tausend $) 1. Öffnen Sie die Datei andy.gdt mit Gretl und schätzen zunächst die folgende Gleichung SALES = β0+ β1ADVERT + ε. 2. Interpretieren Sie die geschätzten Koeffizienten β0 und β1. Ist die Interpretation von β0 ökonomisch sinnvoll? Wie können wir β1 interpretieren? Was wäre zunächst die Schlussfolgerung für die optimalen Werbeausgaben? Welche Aussagen können Sie zur Signifikanz der Koeffizienten treffen? Was sind die zugrundeliegenden Hypothesen? 3. Nehmen Sie an, dass der Einfluss der Werbeausgaben mit zunehmenden Ausgaben sinkt (abnehmender Ertrag der Werbung). Schätzen Sie zu diesem Zweck die Koeffizienten des Modells SALES = β0 + β1ADVERT + β2ADVERT2 + ε. 4. Interpretieren Sie das Ergebnis erneut. Wie hoch wären nun die umsatzmaximierenden Werbeausgaben? (Hinweis: Überführen Sie die Ergebnisse in eine Funktion und leiten Sie ab!) Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 4 Datenanalyse mit Excel und Gretl Multiple Regression I Burger Eine Burger-Kette möchte herausfinden, welchen Einfluss ihre Preis- und Werbestrategie auf ihre Verkaufserlöse hat. Zu diesem Zweck hat sie die Verkaufserlöse, die Preise und die Werbeausgaben aus 75 verschiedenen Filialen zusammengetragen. Die beiden zentralen Fragen lauten: • Führen niedrigere Preise zu höheren Verkaufserlösen? • Führen zusätzliche Werbeausgaben zu zusätzlichen Erlösen, die höher als die Werbeausgaben sind? Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Zusammenhang zwischen Erlösen, Preisen und Werbeausgaben am besten durch folgendes Modell beschreiben lässt: SALES = β0 + β1PRICE + β2ADVERT + β3ADVERT2 + ε (SALES = Erlöse in Tausend $, PRICE = Preis pro Burger in $, ADVERT = Werbeausgaben in Tausend $) 5. Schätzen Sie nun folgendes Modell: SALES = β0 + β1PRICE + ε. Wie können wir den Koeffizienten β1 interpretieren? Finden Sie das Modell sinnvoll? 6. Definieren Sie nun eine neue Variable MENGE = SALES/PRICE. Schätzen Sie nun folgendes Modell: MENGE = β0 + β1PREIS + ε. Wie können wir den Koeffizienten β1 interpretieren? Was für eine Funktion haben wir nun geschätzt? 7. Schätzen Sie nun das vorgeschlagene Gesamtmodell SALES = β0 + β1PRICE + β2ADVERT + β3ADVERT2 + ε. Geben Sie eine abschließende Interpretation aller Koeffizienten! Schätzen Sie auch das Modell MENGE = β0 + β1PRICE + β2ADVERT + β3ADVERT2 + ε. Welches Modell bevorzugen Sie? 8. Können Sie eine Aussage darüber treffen, ob der Fehlerterm normalverteilt ist? Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 5 Datenanalyse mit Excel und Gretl Dummy-Variablen und Interaktionsterme Neben metrischen Variablen können wir auf nominale bzw. ordinale Variablen in unser Regressionsmodell (OLS) als unabhängige Variablen aufnehmen. (Hinweis: Die abhängige Variable darf jedoch nicht nominal oder ordinal sein. In diesem Fall müssten wir andere Modelle heranziehen!) Hierzu müssen wir diese Variablen jedoch zunächst binär kodieren. In diesem Fall spricht man auch von Dummy-Variablen („ja-nein-Variablen“). 1, wenn Ausprägung vorliegt (z.B. Student, Nicht Älter als 50 Jahre) X= 0, wenn Ausprägung nicht vorliegt (z.B. nicht Student, Älter als 50 Jahre) Falls eine Variable mit n sich ausschließenden Kategorien vorliegt (z.B. Student, Berufstätig, Rentner, Schüler), müssen zuvor n-1 Dummy-Variablen erstellt werden. In unserem Beispiel also: 1, Berufstätig 1, Student X1 = 0, sonst X2 = 0, sonst 1, Rentner X3 = 0, sonst Die Auswirkung der letzten Kategorie (Schüler) drückt sich dann in der Konstanten der Regressionsgleichung aus (in dem Fall sind X1=0; X2=0 und X3=0). Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 6 Datenanalyse mit Excel und Gretl Dummy-Variablen und Interaktionsterme Neben einfachen Dummy-Variablen können noch sogenannte Interaktionsterme in die Regressionsgleichung mit aufgenommen werden. Beispielsweise wollen wir den Einfluss von Geschlecht (männlich/weiblich) und Hautfarbe (schwarz/weiß) auf die Löhne ermitteln. Beide Variablen können zunächst als Dummy-Variable verstanden werden. 1, schwarz 1, weiblich X1 = 0, sonst X2 = 0, sonst Die Regressionsgleichung könnte zunächst wie folgt aussehen: WAGE = β0 + β1FEMALE + β2BLACK + ε Zudem können wir nun noch einen Interaktionsterm BLACK*FEMALE einfügen. Jener gibt uns an, welche Auswirkungen das gleichzeitige Auftreten beider Merkmale auf den Lohn hat. WAGE = β0 + β1FEMALE + β2BLACK + β3BLACK*FEMALE + ε Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 7 Datenanalyse mit Excel und Gretl Dummy-Variablen und Interaktionsterme II Immobilien Eine Immobilienfirma möchte die Häuserpreise einer US-amerikanischen Universitätsstadt in Abhängigkeit von den Eigenschaften der Häuser erklären. Folgende erklärende Variablen werden verwendet: • • • • • UTOWN: Ist das Haus weniger als 3 Meilen von der Universität entfernt? (1 ja; 0 nein) SQFT: Größe des Hauses in Hundert Quadratfuß AGE: Alter des Hauses POOL: Hat das Haus einen Pool? (1 ja; 0 nein) FPLACE: Hat das Haus einen Kamin? (1 ja; 0 nein) Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Hauspreis durch folgendes Modell beschreiben lässt: PRICE = β0 + β1UTOWN + β2SQFT + β3(SQFT x UTOWN) + β4AGE + β5POOL + β6FPLACE + ε 1. Öffnen Sie die Datei 2_Immobilien.gdt mit gretl und schätzen Sie zunächst mit Hilfe der Kleinste-Quadrate Methode den folgenden Zusammenhang: PRICE = β0 + β1UTOWN + β2SQFT + β3AGE + β4POOL + β5FPLACE + ε . Interpretieren sie die geschätzten Koeffizienten. Wie können die Dummy-Variablen interpretiert werden? Welche Merkmale müsste ein Haus aufweisen, damit es einen besonders hohen Preis hat? Welche Merkmale hingegen, damit es einen sehr geringen Wert hat? Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 8 Datenanalyse mit Excel und Gretl Dummy-Variablen und Interaktionsterme II Immobilien Eine Immobilienfirma möchte die Häuserpreise einer US-amerikanischen Universitätsstadt in Abhängigkeit von den Eigenschaften der Häuser erklären. Folgende erklärende Variablen werden verwendet: • • • • • UTOWN: Ist das Haus weniger als 3 Meilen von der Universität entfernt? (1 ja; 0 nein) SQFT: Größe des Hauses in Hundert Quadratfuß AGE: Alter des Hauses POOL: Hat das Haus einen Pool? (1 ja; 0 nein) FPLACE: Hat das Haus einen Kamin? (1 ja; 0 nein) Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Hauspreis durch folgendes Modell beschreiben lässt: PRICE = β0 + β1UTOWN + β2SQFT + β3(SQFT x UTOWN) + β4AGE + β5POOL + β6FPLACE + ε 2. Schätzen Sie nun mit Hilfe der Kleinste-Quadrate Methode den folgenden Zusammenhang: PRICE = β0 + β1UTOWN + β2SQFT + β3(SQFT x UTOWN) + β4AGE + β5POOL + β6FPLACE + ε Interpretieren sie die geschätzten Koeffizienten erneut. Wie können Sie den Interaktionsterm interpretieren? Ist die Annahme, dass die Fehlerterme normalverteilt sind, erfüllt? Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 9 Datenanalyse mit Excel und Gretl Dummy-Variablen und Interaktionsterme III Lohn und Diskriminierung Sie möchten herausfinden, ob Menschen bei der Gehaltsfindung aufgrund ihrer Hautfarbe oder ihres Geschlechts benachteiligt werden. Zu diesem Zweck verwenden Sie das folgende Modell: WAGE = β0 + β1EDUC + β2BLACK + β3FEMALE + β4(BLACK x FEMALE) + ε (WAGE = Stundenlohn in $; EDUC = Ausbildungsjahre; BLACK = Dummy für Hautfarbe, 1 dunkelhäutig; FEMALE = Dummy für Geschlecht, 1 weiblich) 1. Öffnen Sie die Datei 3_Lohn_und_Diskriminierung.gdt mit gretl und schätzen Sie obigen Zusammenhang mit Hilfe der KleinsteQuadrate Methode. Gehen Sie dabei insbesondere auf die Dummy-Variablen ein sowie auf den Interaktionsterm ein. Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 10 Datenanalyse mit Excel und Gretl Dummy-Variablen und Interaktionsterme IV Ökonometrie Eine wirtschaftswissenschaftliche Fakultät möchte herausfinden, ob Studenten, die eine gute statistische Ausbildung haben und Ökonometrie-Kurse besucht haben, ein höheres Einstiegsgehalt bekommen als Studenten, die keine Ökonometrie-Kurse besucht haben. Hierzu soll zunächst folgende Schätzung durchgeführt werden: SAL = β0 + β1GPA + β2METRICS + ε (SALARY = Stundenlohn in $; GPA = Durchschnittsnote auf einer 4-Punkte Skala (je höher, desto besser); METRICS = Dummy für Besuch von Ökonometrie-Kursen, 1 Ökonometriekurse besucht) 1. Öffnen Sie die Datei 4_Ökonometrie.gdt mit gretl und schätzen Sie obigen Zusammenhang mit Hilfe der KleinsteQuadrate Methode. Interpretieren Sie zunächst Ihr Ergebnis! 2. Wie kann die Gleichung verändert werden, um herauszufinden, ob Frauen einen geringeres Einstiegseinkommen als Männer haben? Schätzen Sie die Gleichung und interpretieren Sie das Ergebnis! 3. Wie kann die Gleichung abschließend verändert werden, um herauszufinden, ob der Wert für Ökonometrie auf das Einstiegsgehalt unabhängig vom Geschlecht ist? Schätzen Sie die Gleichung und interpretieren Sie das Ergebnis! Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 11 Datenanalyse mit Excel und Gretl Dummy-Variablen und Interaktionsterme Interpretation von R2 in einem Modell ohne Konstante Wenn wir die Konstante bei der Schätzung des Modells weglassen, führt dies tendenziell dazu, dass das Bestimmheitsmaß (R2) ansteigt. Dies bedeutet jedoch nicht, dass unser Modell nun mehr Varianz erklärt. Dies ist bereits an der folgenden Grafik zu erkennen: Regressionsgerade ohne Konstante Regressionsgerade mit Konstante Die Begründung für den Anstieg von R2 liegt in dessen Konstruktion, wonach das Weglassen der Konstante R2 gegen den Wert 1 hin verzerrt. Für eine genauere und mathematischere Begründung sei auf folgenden Artikel verwiesen: http://www.ats.ucla.edu/stat/mult_pkg/faq/general/noconstant.htm Für uns ist zunächst nur wichtig: R2 kann in einem Modell ohne Konstante nicht interpretiert werden, da es gegen den Wert 1 verzerrt ist. Datenanalyse mit Excel und Gretl TeilTitel 2: Gretl 12