Datenauswertung mit Excel und Gretl_Teil 2_Gretl_nur_Aufgaben

Datenanalyse mit Excel und Gretl
Dozent: Christoph Hindermann
[email protected]
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
1
Datenanalyse mit Excel und Gretl
Teil 2: Gretl
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
2
Datenanalyse mit Excel und Gretl
Modellannahmen
Damit wir mit Hilfe der Kleinsten-Quadrate-Methode (OLS) konsistente und unverzerrte
Schätzergebnisse erhalten, müssen folgende Modellannahmen erfüllt sein:
A1. Erwartungstreue: Im Erwartungswert ist der Fehlerterm ε gleich null. E(ε) = 0
A2. Homoskedastie: Jeder Fehlerterm ε folgt einer Verteilung mit der Varianz σ2. Var(ε) = σ2
A3. Unkorrelierte Fehlerterme: Die Kovarianz der Fehlerterme beträgt null. Cov(εi,εj) = 0
A4. Normalverteilung: Wir nehmen weiterhin an, dass die Fehlerterme normalverteilt sind. ε ~ N(0,σ2)
→ siehe auch Zusatzmaterial_Annahmen_Regression.pdf
Weitere Annahmen:
A5. Keine Multikollinearität: Die einzelnen unabhängigen Variablen dürfen keine linearen Funktionen
darstellen (sprich es darf keine lineare Abhängigkeit vorliegen). Folglich muss in einem
Modell Y = β0 + β1X1 + β2X2 + ε gelten, dass X1 ≠ λX2.
A6. Keine Endogenität: Liegt vor, wenn eine exogene Variable mit dem Fehlerterm korreliert.
Cov(εi,xi) ≠ 0
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
3
Datenanalyse mit Excel und Gretl
Multiple Regression
I Burger
Eine Burger-Kette möchte herausfinden, welchen Einfluss ihre Preis- und Werbestrategie auf ihre Verkaufserlöse hat. Zu diesem
Zweck hat sie die Verkaufserlöse, die Preise und die Werbeausgaben aus 75 verschiedenen Filialen zusammengetragen. Die beiden
zentralen Fragen lauten:
• Führen niedrigere Preise zu höheren Verkaufserlösen?
• Führen zusätzliche Werbeausgaben zu zusätzlichen Erlösen, die höher als die Werbeausgaben sind?
Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Zusammenhang
zwischen Erlösen, Preisen und Werbeausgaben am besten durch folgendes Modell beschreiben lässt:
SALES = β0 + β1PRICE + β2ADVERT + β3ADVERT2 + ε
(SALES = Erlöse in Tausend $, PRICE = Preis pro Burger in $, ADVERT = Werbeausgaben in Tausend $)
1. Öffnen Sie die Datei andy.gdt mit Gretl und schätzen zunächst die folgende Gleichung SALES = β0+ β1ADVERT + ε.
2. Interpretieren Sie die geschätzten Koeffizienten β0 und β1. Ist die Interpretation von β0 ökonomisch sinnvoll? Wie können wir β1
interpretieren? Was wäre zunächst die Schlussfolgerung für die optimalen Werbeausgaben?
Welche Aussagen können Sie zur Signifikanz der Koeffizienten treffen? Was sind die zugrundeliegenden Hypothesen?
3. Nehmen Sie an, dass der Einfluss der Werbeausgaben mit zunehmenden Ausgaben sinkt (abnehmender Ertrag der Werbung).
Schätzen Sie zu diesem Zweck die Koeffizienten des Modells SALES = β0 + β1ADVERT + β2ADVERT2 + ε.
4. Interpretieren Sie das Ergebnis erneut. Wie hoch wären nun die umsatzmaximierenden Werbeausgaben? (Hinweis: Überführen
Sie die Ergebnisse in eine Funktion und leiten Sie ab!)
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
4
Datenanalyse mit Excel und Gretl
Multiple Regression
I Burger
Eine Burger-Kette möchte herausfinden, welchen Einfluss ihre Preis- und Werbestrategie auf ihre Verkaufserlöse hat. Zu diesem
Zweck hat sie die Verkaufserlöse, die Preise und die Werbeausgaben aus 75 verschiedenen Filialen zusammengetragen. Die beiden
zentralen Fragen lauten:
• Führen niedrigere Preise zu höheren Verkaufserlösen?
• Führen zusätzliche Werbeausgaben zu zusätzlichen Erlösen, die höher als die Werbeausgaben sind?
Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Zusammenhang
zwischen Erlösen, Preisen und Werbeausgaben am besten durch folgendes Modell beschreiben lässt:
SALES = β0 + β1PRICE + β2ADVERT + β3ADVERT2 + ε
(SALES = Erlöse in Tausend $, PRICE = Preis pro Burger in $, ADVERT = Werbeausgaben in Tausend $)
5. Schätzen Sie nun folgendes Modell: SALES = β0 + β1PRICE + ε. Wie können wir den Koeffizienten β1 interpretieren? Finden Sie
das Modell sinnvoll?
6. Definieren Sie nun eine neue Variable MENGE = SALES/PRICE. Schätzen Sie nun folgendes Modell: MENGE = β0 + β1PREIS
+ ε. Wie können wir den Koeffizienten β1 interpretieren? Was für eine Funktion haben wir nun geschätzt?
7. Schätzen Sie nun das vorgeschlagene Gesamtmodell SALES = β0 + β1PRICE + β2ADVERT + β3ADVERT2 + ε. Geben Sie eine
abschließende Interpretation aller Koeffizienten! Schätzen Sie auch das Modell MENGE = β0 + β1PRICE + β2ADVERT +
β3ADVERT2 + ε. Welches Modell bevorzugen Sie?
8. Können Sie eine Aussage darüber treffen, ob der Fehlerterm normalverteilt ist?
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
5
Datenanalyse mit Excel und Gretl
Dummy-Variablen und Interaktionsterme
Neben metrischen Variablen können wir auf nominale bzw. ordinale Variablen in unser
Regressionsmodell (OLS) als unabhängige Variablen aufnehmen. (Hinweis: Die abhängige Variable
darf jedoch nicht nominal oder ordinal sein. In diesem Fall müssten wir andere Modelle heranziehen!)
Hierzu müssen wir diese Variablen jedoch zunächst binär kodieren. In diesem Fall spricht man auch
von Dummy-Variablen („ja-nein-Variablen“).
1, wenn Ausprägung vorliegt (z.B. Student, Nicht Älter als 50 Jahre)
X=
0, wenn Ausprägung nicht vorliegt (z.B. nicht Student, Älter als 50 Jahre)
Falls eine Variable mit n sich ausschließenden Kategorien vorliegt (z.B. Student, Berufstätig, Rentner,
Schüler), müssen zuvor n-1 Dummy-Variablen erstellt werden. In unserem Beispiel also:
1, Berufstätig
1, Student
X1 =
0, sonst
X2 =
0, sonst
1, Rentner
X3 =
0, sonst
Die Auswirkung der letzten Kategorie (Schüler) drückt sich dann in der Konstanten der
Regressionsgleichung aus (in dem Fall sind X1=0; X2=0 und X3=0).
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
6
Datenanalyse mit Excel und Gretl
Dummy-Variablen und Interaktionsterme
Neben einfachen Dummy-Variablen können noch sogenannte Interaktionsterme in die
Regressionsgleichung mit aufgenommen werden.
Beispielsweise wollen wir den Einfluss von Geschlecht (männlich/weiblich) und Hautfarbe
(schwarz/weiß) auf die Löhne ermitteln.
Beide Variablen können zunächst als Dummy-Variable verstanden werden.
1, schwarz
1, weiblich
X1 =
0, sonst
X2 =
0, sonst
Die Regressionsgleichung könnte zunächst wie folgt aussehen:
WAGE = β0 + β1FEMALE + β2BLACK + ε
Zudem können wir nun noch einen Interaktionsterm BLACK*FEMALE einfügen. Jener gibt uns an,
welche Auswirkungen das gleichzeitige Auftreten beider Merkmale auf den Lohn hat.
WAGE = β0 + β1FEMALE + β2BLACK + β3BLACK*FEMALE + ε
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
7
Datenanalyse mit Excel und Gretl
Dummy-Variablen und Interaktionsterme
II Immobilien
Eine Immobilienfirma möchte die Häuserpreise einer US-amerikanischen Universitätsstadt in Abhängigkeit von den Eigenschaften
der Häuser erklären. Folgende erklärende Variablen werden verwendet:
•
•
•
•
•
UTOWN: Ist das Haus weniger als 3 Meilen von der Universität entfernt? (1 ja; 0 nein)
SQFT: Größe des Hauses in Hundert Quadratfuß
AGE: Alter des Hauses
POOL: Hat das Haus einen Pool? (1 ja; 0 nein)
FPLACE: Hat das Haus einen Kamin? (1 ja; 0 nein)
Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Hauspreis durch
folgendes Modell beschreiben lässt:
PRICE = β0 + β1UTOWN + β2SQFT + β3(SQFT x UTOWN) + β4AGE + β5POOL + β6FPLACE + ε
1. Öffnen Sie die Datei 2_Immobilien.gdt mit gretl und schätzen Sie zunächst mit Hilfe der Kleinste-Quadrate Methode den
folgenden Zusammenhang:
PRICE = β0 + β1UTOWN + β2SQFT + β3AGE + β4POOL + β5FPLACE + ε .
Interpretieren sie die geschätzten Koeffizienten. Wie können die Dummy-Variablen interpretiert werden? Welche Merkmale
müsste ein Haus aufweisen, damit es einen besonders hohen Preis hat? Welche Merkmale hingegen, damit es einen sehr
geringen Wert hat?
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
8
Datenanalyse mit Excel und Gretl
Dummy-Variablen und Interaktionsterme
II Immobilien
Eine Immobilienfirma möchte die Häuserpreise einer US-amerikanischen Universitätsstadt in Abhängigkeit von den Eigenschaften
der Häuser erklären. Folgende erklärende Variablen werden verwendet:
•
•
•
•
•
UTOWN: Ist das Haus weniger als 3 Meilen von der Universität entfernt? (1 ja; 0 nein)
SQFT: Größe des Hauses in Hundert Quadratfuß
AGE: Alter des Hauses
POOL: Hat das Haus einen Pool? (1 ja; 0 nein)
FPLACE: Hat das Haus einen Kamin? (1 ja; 0 nein)
Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Hauspreis durch
folgendes Modell beschreiben lässt:
PRICE = β0 + β1UTOWN + β2SQFT + β3(SQFT x UTOWN) + β4AGE + β5POOL + β6FPLACE + ε
2. Schätzen Sie nun mit Hilfe der Kleinste-Quadrate Methode den folgenden Zusammenhang:
PRICE = β0 + β1UTOWN + β2SQFT + β3(SQFT x UTOWN) + β4AGE + β5POOL + β6FPLACE + ε
Interpretieren sie die geschätzten Koeffizienten erneut. Wie können Sie den Interaktionsterm interpretieren?
Ist die Annahme, dass die Fehlerterme normalverteilt sind, erfüllt?
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
9
Datenanalyse mit Excel und Gretl
Dummy-Variablen und Interaktionsterme
III Lohn und Diskriminierung
Sie möchten herausfinden, ob Menschen bei der Gehaltsfindung aufgrund ihrer Hautfarbe oder ihres Geschlechts benachteiligt
werden. Zu diesem Zweck verwenden Sie das folgende Modell:
WAGE = β0 + β1EDUC + β2BLACK + β3FEMALE + β4(BLACK x FEMALE) + ε
(WAGE = Stundenlohn in $; EDUC = Ausbildungsjahre; BLACK = Dummy für Hautfarbe, 1 dunkelhäutig; FEMALE = Dummy für
Geschlecht, 1 weiblich)
1. Öffnen Sie die Datei 3_Lohn_und_Diskriminierung.gdt mit gretl und schätzen Sie obigen Zusammenhang mit Hilfe der KleinsteQuadrate Methode. Gehen Sie dabei insbesondere auf die Dummy-Variablen ein sowie auf den Interaktionsterm ein.
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
10
Datenanalyse mit Excel und Gretl
Dummy-Variablen und Interaktionsterme
IV Ökonometrie
Eine wirtschaftswissenschaftliche Fakultät möchte herausfinden, ob Studenten, die eine gute statistische Ausbildung haben und
Ökonometrie-Kurse besucht haben, ein höheres Einstiegsgehalt bekommen als Studenten, die keine Ökonometrie-Kurse besucht
haben. Hierzu soll zunächst folgende Schätzung durchgeführt werden:
SAL = β0 + β1GPA + β2METRICS + ε
(SALARY = Stundenlohn in $; GPA = Durchschnittsnote auf einer 4-Punkte Skala (je höher, desto besser); METRICS = Dummy
für Besuch von Ökonometrie-Kursen, 1 Ökonometriekurse besucht)
1. Öffnen Sie die Datei 4_Ökonometrie.gdt mit gretl und schätzen Sie obigen Zusammenhang mit Hilfe der KleinsteQuadrate Methode. Interpretieren Sie zunächst Ihr Ergebnis!
2. Wie kann die Gleichung verändert werden, um herauszufinden, ob Frauen einen geringeres Einstiegseinkommen als Männer
haben? Schätzen Sie die Gleichung und interpretieren Sie das Ergebnis!
3. Wie kann die Gleichung abschließend verändert werden, um herauszufinden, ob der Wert für Ökonometrie auf das
Einstiegsgehalt unabhängig vom Geschlecht ist? Schätzen Sie die Gleichung und interpretieren Sie das Ergebnis!
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
11
Datenanalyse mit Excel und Gretl
Dummy-Variablen und Interaktionsterme
 Interpretation von R2 in einem Modell ohne Konstante
Wenn wir die Konstante bei der Schätzung des Modells weglassen, führt dies tendenziell dazu, dass das
Bestimmheitsmaß (R2) ansteigt. Dies bedeutet jedoch nicht, dass unser Modell nun mehr Varianz erklärt. Dies ist
bereits an der folgenden Grafik zu erkennen:
Regressionsgerade ohne Konstante
Regressionsgerade mit Konstante
Die Begründung für den Anstieg von R2 liegt in dessen Konstruktion, wonach das Weglassen der Konstante R2
gegen den Wert 1 hin verzerrt. Für eine genauere und mathematischere Begründung sei auf folgenden Artikel
verwiesen:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/noconstant.htm
Für uns ist zunächst nur wichtig: R2 kann in einem Modell ohne Konstante nicht interpretiert werden, da
es gegen den Wert 1 verzerrt ist.
Datenanalyse mit Excel und Gretl
TeilTitel
2: Gretl
12