Statistik II – Übung 2: Multivariate lineare Regression

Werbung
Statistik II – Übung 2: Multivariate lineare Regression
Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz,
dem Passagieraufkommen und der Marktkonzentration. Verwenden Sie dazu den Datensatz
“Flugpreise.sav“. Die abhängige Variable „Preis“ misst den durchschnittlichen Flugpreis einer
bestimmten Strecke in den USA im Jahr 2000, die unabhängigen Variablen „Passagiere“, „Distanz“
und „Konzentration“ messen das durchschnittliche Passagieraufkommen pro Tag, die Distanz in
Meilen bzw. die Marktkonzentration (d.h. Marktanteil des grössten Anbieters, vobei 0=0% und
1=100%) für eine bestimmte Strecke. Bitte bearbeiten Sie Aufgaben 1-5 in Gruppen von bis zu 4
Studierenden (vergessen Sie nicht die Namen!) und reichen Sie die Lösungen VOR der 2. PC Übung
ein.
1. Argumentieren Sie, warum die unabhängigen Variablen einen Einfluss auf den Flugpreis
haben könnten. (Hinweis: es gibt hier keine strikt richtigen oder falschen Antworten.)
Die zurückgelegte Distanz hat einen positiven Einfluss auf den Flugpreis, weil für längere Strecken der
Kerosinverbrauch höher ist. Eine Fluggesellschaft muss vermutlich auch den Piloten mehr für längere
Arbeitsstunden bezahlen. Diese (flexiblen) Kosten sind vermutlich im Flugpreis berücksichtigt.
Das Passagieraufkommen könnte einen positiven Zusammenhang mit dem Flugpreis haben. Die
Fluggesellschaften setzen die Preise für bestimmten Flüge wie folgt an: wenn viele Passagiere zur
selben Zeit reisen wollen, erhöht eine Fluggesellschaft den Preis. Sobald eine bestimmte Anzahl der
Plätze in einem Flugzeug verkauft worden sein, wird der Preis jedes zusätzlichen Platzes erhöht.
Andererseits könnte ein hohes Passagieraufkommen auch dazu führen, dass mehr Fluggesellschaften
Flüge auf dieser Strecke anbieten. Dadurch steigt die Konkurrenz und der Preis sinkt. Somit ist unklar,
ob sich ein hohes Passagieraufkommen positiv oder negativ auf den Preis auswirkt.
Die Konzentration in unserem Datensatz ist eine Kennzahl, die den Marktanteil des grössten
Anbieters angibt (wobei 0=0% und 1=100%). Je höher diese Kennzahl, desto weniger Wettbewerb
gibt es auf einer bestimmten Flugstrecke. Die mikroökonomische (Standard-)Theorie legt nahe, dass
ein positiver Einfluss von Konzentration auf die Flugpreise besteht, weil Monopole (oder auch
Oligopole) mehr Marktmacht besitzen, als Unternehmen auf
einem (vollständigen)
Wettbewerbsmarkt, und deshalb leichter höhere Preise durchsetzen können.
2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für „Preis“,
„Passagiere“, „Distanz“ und „Konzentration“ und kommentieren Sie diese kurz.
Analyze > Descriptive Statistics > Descriptives
Descriptive Statistics
N
Minimum
Maximum
Mean
Std. Deviation
Distanz
1149
95
2724
989.74
612.031
Passagiere
1149
2
8497
670.91
847.343
Preis
1149
62
522
188.02
76.842
Konzentration
1149
0
1
.60
.197
Valid N (listwise)
1149
1
Die Distanz variiert zwischen 95 und 2724 Meilen, mit dem Mittelwert von fast 990 Meilen
und einer Standartabweichung von ca. 600 Meilen.
Das Passagieraufkommen misst das durchschnittliche Passagieraufkommen auf einer Flugstrecke pro
Tag. Der Mittelwert beträgt 670 Passagiere. Es besteht viel Variation im Passagieraufkommen: die
Standartabweichung beträgt 847 Passagiere.
Der Preis variiert zwischen 62 und 522 US Dollar. Der Mittelwert des Preises beträgt 188 Dollar mit
einer Standartabweichung von fast 77 Dollar.
Die Marktkonzentration liegt zwischen 0 und 1, wobei 1 einem reinen Monopol entspricht (d.h. alle
Flüge werden nur von einer einzigen Fluggesellschaft durchgeführt) und 0 einem perfekten
Wettbewerbsmarkt entspricht. Der Mittelwert der Konzentration ist 0,6. Im Durchschnitt führt die
grösste Fluggesellschaft einer Strecke 60% der Flüge durch. Die Standartabweichung beträgt
ungefähr 0,2.
3. Untersuchen Sie den Zusammenhang zwischen „Preis“ und „Distanz“ visuell anhand eines
Streudiagramms (mit „Preis“ auf der Y-Achse und „Distanz“ auf der X-Achse). Fügen Sie auch
eine lineare Regressionslinie zu Ihrem Streudiagramm hinzu. Welchen Zusammenhang
können Sie erkennen?
Graphs > Legacy Dialogs > Scatter/Dot > Simple Scatter > Y Axis: Preis > X Axis: Distanz
Doppelklick auf die Grafik, passendes Icon wählen und eine Regressionsgerade hinzufügen
Es besteht ein positiver Zusammenhang zwischen der Distanz und dem Preis. Je höher die Distanz,
umso höher der Flugpreis.
2
4. Regressieren Sie „Preis“
Regressionskoeffizienten.
(linear)
auf
„Distanz“
und
interpretieren
Sie
die
Analyze > regression > linear > Dependent: Preis > Independent: Distanz
Mit einer zusätzlichen Meile der Flugdistanz steigt der Flugpreis um 0,075 US Dollar. Der geschätzte
Koeffizient ist statistisch signifikant auf dem 1% Niveau.
Im Regressionsmodell erklärt die unabhängige Variable Distanz 36% der Variation in der abhängigen
Variable Flugpreis. Für ein univariates Regressionsmodell (d.h. mit nur einer erklärenden Variable) ist
das R-Quadrat ziemlich hoch.
Coefficients
a
Standardized
Unstandardized Coefficients
Model
1
B
(Constant)
Coefficients
Std. Error
Beta
113.547
3.453
.075
.003
Distanz
t
.599
Sig.
32.884
.000
25.356
.000
a. Dependent Variable: Preis ; b. Predictors: (Constant), Distanz
Model Summary
Model
1
Adjusted R
Std. Error of the
Square
Estimate
R Square
R
.599
a
.359
.359
61.539
a. Predictors: (Constant), Distanz
5. Regressieren Sie „Preis“ (linear) auf „Passagiere“, „Distanz“ und „Konzentration“
interpretieren Sie die Regressionskoeffizienten. Kommentieren Sie das R2.
Coefficients
a
Standardized
Unstandardized Coefficients
Model
1
B
(Constant)
Distanz
Passagiere
Konzentration
Std. Error
70.421
9.363
.085
.003
-.005
61.417
Coefficients
Beta
t
Sig.
7.522
.000
.677
24.627
.000
.002
-.058
-2.438
.015
10.783
.157
5.696
.000
a. Dependent Variable: Preis
Model Summary
3
und
Model
1
R Square
R
.619
a
.383
Adjusted R
Std. Error of the
Square
Estimate
.382
60.415
a. Predictors: (Constant), Konzentration, Passagiere, Distanz
Mit jeder zusätzlichen Meile steigt der Flugpreis ceteris paribus um 0,085 US Dollar. Der geschätzte
Koeffizient ist statistisch signifikant auf dem 1% Niveau.
Mit jenem zusätzlichen Passagier geht der Flugpreis ceteris paribus um 0,005 US Dollar zurück. Der
Beta-Koeffizient ist auf 5% Niveau signifikant.
Wenn das Konzentrationsmass um 0.01 (oder um 1% Punkt) steigt, geht der Flugpreis ceteris paribus
um 0,61 US Dollar nach oben.
Nach der Aufnahme der zusätzlichen Regressoren steigt das R-Quadrat ein wenig. Es beträgt jetzt
38%. Das impliziert, dass die zusätzlichen Variablen nicht wesentlich mehr Variation im Preis
erklären, als Distanz alleine.
6. Wie erklären Sie sich die Veränderung im Koeffizienten von „Distanz“ zwischen Aufgaben 4
und 5?
Durch die partielle Korrelation von „Distanz“ mit den anderen erklärenden Variablen. Siehe Folie 5
im Foliensatz 6.
7. Diskutieren Sie die Annahmen des multivariaten linearen Regressionsmodells.
Diskutiere Annahme 1 (lineares Modell); 2 (zufällige Stichprobe); 3 ( E(u|x)=0 - Exogenität); 4 keine
perfekte Multikollinearität.
Die erste Annahme besagt, dass die abhängige Variable linear in den erklärenden Variablen ist (also y
steigt immer um die gleiche Menge an, wenn eine bestimmte Variable x um eine Einheit erhöht wird,
egal welchen Wert x aufweist).
Die zweite Annahme besagt, dass die Stichprobe zufällig gezogen wurde. D.h. die Beobachtungen
wurden zufällig aus der Population ausgewählt. Es gibt keine systematische Selektion (z.B.
hinsichtlich Bildung etc.) in die Stichprobe.
Die dritte Annahme unterstellt Exogenität. Unter dieser Annahme ist der bedingte Erwartungswert
des Fehlerterms (d.h. der Mittelwert des Fehlerterms für jeden Wert/jede mögliche Kombination
von Werten der Regressoren) gleich Null. Man kann dies auch wie folgt interpretieren: es gibt keinen
Zusammenhang zwischen den Regressoren und den unberücksichtigten/unbeobachteten Faktoren,
die einen Einfluss auf die abhängige Variable haben.
Die letzte Annahme schliesst perfekte Multikollinearität aus. Das heisst, es gibt Variation in allen
Regressoren und letztere sind keine exakte lineare Kombination voneinander (z.B. x1=2*x2), sodass
es keine perfekte Korrelation (Korrelationkoeffizient=1 oder =-1) zwischen den Regressoren gibt.
4
Unter diesen vier Annahmen ist der OLS Schätzer unverzerrt (auch „erwartungstreu“ genannt).
Es gibt noch eine fünfte Annahme: Homoskedastizität. Letzteres bedeutet, dass die Varianz des
Fehlerterms konstant ist, d.h. für jeden Wert der Regressoren gleich: 𝑣𝑎𝑟(𝑢|𝑥) = 𝜎 2 . Unter der
Annahme der Homoskedastizität ist der OLS Schätzer effizient, d.h. er hat die kleinstmögliche
Varianz. Unter Annahmen 1-5 entspricht die Varianz der Koeffizienten der Formel wie in Folie 9 von
Foliensatz 6 dargestellt.
8. Generieren Sie eine neue Variable „Distanz2“
Transform > compute variable > Target variable: Distanz2 > Numeric expression: Distanz*Distanz
Transform > compute variable > Target variable: Distanz2 > Numeric expression: Distanz**2
9. Regressieren Sie „Preis“ auf „Passagiere“, „Distanz“, „Distanz2“ und „Konzentration“.
Berechnen Sie den partiellen Effekt von Distanz. Inwiefern unterscheidet sich Ihr Modell von
jenem in Aufgabe 5?
Coefficients
a
Standardized
Unstandardized Coefficients
Model
1
B
(Constant)
Std. Error
11.479
.064
.012
-.006
t
Sig.
7.173
.000
.513
5.361
.000
.002
-.063
-2.635
.009
58.193
10.922
.149
5.328
.000
7.929E-6
.000
.165
1.791
.074
Passagiere
Distanz2
Beta
82.340
Distanz
Konzentration
Coefficients
a. Dependent Variable: Preis
Model Summary
Model
1
R
.621
Adjusted R
Std. Error of the
Square
Estimate
R Square
a
.385
.383
60.357
a. Predictors: (Constant), D2, Passagiere, Konzentration, Distanz
In diesem Regressionsmodell wird ein nichtlinearer Zusammenhang zwischen Preis und Distanz
angenommen. Der Koeffizient von Distanz entspricht nicht mehr dem Partialeffekt (d.h. ceteris
paribus Effekt). Um den Partialeffekt von Distanz auf den Preis zu berechnen, muss man die partielle
Ableitung vom Preis (y) nach der Distanz (𝑥1 ) berechnen. Regressionsgleichung:
𝑦 = 𝛽0 + 𝜷𝟏 𝒙𝟏 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜷𝟒 𝐱𝟏𝟐
𝜕𝑦
Wir berechnen: 𝜕𝑥 = 𝜷𝟏 + 𝟐𝜷𝟒 𝒙𝟏 = ,064 + 2*(7,929E-6) 𝒙𝟏 =0,064+0,00001586𝒙𝟏
1
5
Dazu verwenden wir folgende Ableitungsregeln:
Potenzregel
Faktorregel
Die Ableitung der Konstanten 𝛽0 nach 𝑥1 ist null (weil 𝑥1 nicht vorkommt); ebenso für 𝛽2 𝑥2 + 𝛽3 𝑥3.
Die Ableitung von 𝜷𝟏 𝒙𝟏 nach 𝒙𝟏 ist 𝜷𝟏 . Die Ableitung von 𝜷𝟒 𝐱𝟏𝟐 ist 𝟐𝜷𝟒 𝒙𝟏 .
Die Koeffizienten der anderen unabhängigen Variablen haben sich wegen ihrer Korrelation mit
Distanz2 ein wenig verändert. Das R2 bleibt aber fast gleich wie davor.
10. Ist der Koeffizient von „Distanz2“ signifikant auf (a) dem 5% Niveau und (b) dem 10% Niveau?
Was schliessen Sie daraus hinsichtlich des nichtlinearen Zusammenhangs zwischen „Preis“
und „Distanz“?
Auf dem 5% Niveau ist der Koeffizient von „Distanz2“ nicht signifikant (P-Wert höher als 5% bzw.
0,05). Auf dem 10% Niveau ist der Koeffizient von Distanz2 statistisch signifikant (P-Wert 0,074<0,1
bzw. 7,4%< 10%).
Diese Ergebnisse können wir wie folgt interpretieren: Auf dem 5% Niveau kann die Nullhypothese
eines linearen Zusammenhangs nicht verworfen werden. Auf dem 10% Niveau kann ein linearer
Zusammenhang verworfen werden.
11. Was besagt das Gauss-Markov-Theorem?
Gauss-Markov-Theorem: unter den Annahmen 1) eines linearen Modells, 2) einer zufälligen
Stichprobe, 3) Exogenität, 4) von keiner perfekten Multikollinearität und 5) Homoskedastizität ist OLS
der beste unverzerrte lineare Schätzer unter allen möglichen unverzerrten Schätzern (auf Englisch
BLUE= best linear unbiased estimator).



Der beste: höchste Effizienz, d.h. der Schätzer mit kleinstmöglicher Varianz unter allen
unverzerrten Schätzern
Linear: der Effekt von x auf y ist immer der gleiche für verschiedene Werte von x
Unverzerrt: es gibt keine Verzerrung. Wenn wir viele, z.B. 1000 Stichproben aus der
Population ziehen, den B-Koeffizient von x in jeder Stichprobe schätzen und den Mittelwert
von allen geschätzten B-Koeffizienten berechnen, trifft dieser Mittelwert den B-Koeffizient in
der Population.
12. Warum kann das R2 nie fallen, wenn in ein bestehendes Regressionsmodell eine zusätzliche
Variable aufgenommen wird (z.B. „Distanz2“ zusätzlich zu „Distanz“)?
Das R-Quadrat gibt den Teil der Variation in y an, der durch die Variation in x erklärt wird. Mit
mehreren in der Regression aufgenommenen erklärenden Variablen können wir nur etnweder
mehr oder zumindest gleich viel, aber nie weniger Variation in y erklären als mit weniger
erklärenden Variablen. (Das bedeutet, dass die Summe der quadrierten Residuen kleiner wird
6
oder maximal gleich bleibt, wenn wir zusätzliche Regressoren verwenden, aber nicht steigen
kann.)
13. Erklären Sie die Begriffe Unter- und Überspezifikation.
Unterspezifikation: 1 oder mehrere erklärende Variablen wurden im Modell nicht berücksichtigt
(vergessen, nicht beobachtet etc.);
Überspezifikation: Variablen ohne Erklärungsgehalt werden im Modell inkludiert.
Überspezifikation ist im Prinzip weniger problematisch als Unterspezifikation. Die Konsequenz
der Überspezifikation ist eine mögliche höhere Varianz des Schätzers.
𝜎
𝑣𝑎𝑟(𝛽̂𝑗 ) = 𝑺𝑺𝑻 (𝟏−𝑹𝟐)
𝒋
𝒋
wobei 𝑅𝑗2 = 𝑅 2 der Regression von xj auf alle anderen Regressoren und Konstante. Mit
zusätzlichen Regressoren ohne Erklärungsgehalt steigt unter Umständen das 𝑅𝑗2 und deshalb
auch 𝑣𝑎𝑟(𝛽̂𝑗 ), nämlich dann wenn xj mit den Regressoren ohne Erklärungsgehalt korreliert ist.
14. Welche Probleme kann Unterspezifikation hinsichtlich der Unverzerrtheit der erklärenden
Variable(n) mit sich bringen?
Der Koeffizient der erklärenden Variable ist verzerrt, falls die unberücksichtigte Variable mit der
erklärenden Variable und der abhängigen Variable korreliert ist. Siehe die Formel für die
Verzerrung auf Folie 5 von Foliensatz 6.
7
Herunterladen