Statistik II – Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden Sie dazu den Datensatz “Flugpreise.sav“. Die abhängige Variable „Preis“ misst den durchschnittlichen Flugpreis einer bestimmten Strecke in den USA im Jahr 2000, die unabhängigen Variablen „Passagiere“, „Distanz“ und „Konzentration“ messen das durchschnittliche Passagieraufkommen pro Tag, die Distanz in Meilen bzw. die Marktkonzentration (d.h. Marktanteil des grössten Anbieters, vobei 0=0% und 1=100%) für eine bestimmte Strecke. Bitte bearbeiten Sie Aufgaben 1-5 in Gruppen von bis zu 4 Studierenden (vergessen Sie nicht die Namen!) und reichen Sie die Lösungen VOR der 2. PC Übung ein. 1. Argumentieren Sie, warum die unabhängigen Variablen einen Einfluss auf den Flugpreis haben könnten. (Hinweis: es gibt hier keine strikt richtigen oder falschen Antworten.) Die zurückgelegte Distanz hat einen positiven Einfluss auf den Flugpreis, weil für längere Strecken der Kerosinverbrauch höher ist. Eine Fluggesellschaft muss vermutlich auch den Piloten mehr für längere Arbeitsstunden bezahlen. Diese (flexiblen) Kosten sind vermutlich im Flugpreis berücksichtigt. Das Passagieraufkommen könnte einen positiven Zusammenhang mit dem Flugpreis haben. Die Fluggesellschaften setzen die Preise für bestimmten Flüge wie folgt an: wenn viele Passagiere zur selben Zeit reisen wollen, erhöht eine Fluggesellschaft den Preis. Sobald eine bestimmte Anzahl der Plätze in einem Flugzeug verkauft worden sein, wird der Preis jedes zusätzlichen Platzes erhöht. Andererseits könnte ein hohes Passagieraufkommen auch dazu führen, dass mehr Fluggesellschaften Flüge auf dieser Strecke anbieten. Dadurch steigt die Konkurrenz und der Preis sinkt. Somit ist unklar, ob sich ein hohes Passagieraufkommen positiv oder negativ auf den Preis auswirkt. Die Konzentration in unserem Datensatz ist eine Kennzahl, die den Marktanteil des grössten Anbieters angibt (wobei 0=0% und 1=100%). Je höher diese Kennzahl, desto weniger Wettbewerb gibt es auf einer bestimmten Flugstrecke. Die mikroökonomische (Standard-)Theorie legt nahe, dass ein positiver Einfluss von Konzentration auf die Flugpreise besteht, weil Monopole (oder auch Oligopole) mehr Marktmacht besitzen, als Unternehmen auf einem (vollständigen) Wettbewerbsmarkt, und deshalb leichter höhere Preise durchsetzen können. 2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für „Preis“, „Passagiere“, „Distanz“ und „Konzentration“ und kommentieren Sie diese kurz. Analyze > Descriptive Statistics > Descriptives Descriptive Statistics N Minimum Maximum Mean Std. Deviation Distanz 1149 95 2724 989.74 612.031 Passagiere 1149 2 8497 670.91 847.343 Preis 1149 62 522 188.02 76.842 Konzentration 1149 0 1 .60 .197 Valid N (listwise) 1149 1 Die Distanz variiert zwischen 95 und 2724 Meilen, mit dem Mittelwert von fast 990 Meilen und einer Standartabweichung von ca. 600 Meilen. Das Passagieraufkommen misst das durchschnittliche Passagieraufkommen auf einer Flugstrecke pro Tag. Der Mittelwert beträgt 670 Passagiere. Es besteht viel Variation im Passagieraufkommen: die Standartabweichung beträgt 847 Passagiere. Der Preis variiert zwischen 62 und 522 US Dollar. Der Mittelwert des Preises beträgt 188 Dollar mit einer Standartabweichung von fast 77 Dollar. Die Marktkonzentration liegt zwischen 0 und 1, wobei 1 einem reinen Monopol entspricht (d.h. alle Flüge werden nur von einer einzigen Fluggesellschaft durchgeführt) und 0 einem perfekten Wettbewerbsmarkt entspricht. Der Mittelwert der Konzentration ist 0,6. Im Durchschnitt führt die grösste Fluggesellschaft einer Strecke 60% der Flüge durch. Die Standartabweichung beträgt ungefähr 0,2. 3. Untersuchen Sie den Zusammenhang zwischen „Preis“ und „Distanz“ visuell anhand eines Streudiagramms (mit „Preis“ auf der Y-Achse und „Distanz“ auf der X-Achse). Fügen Sie auch eine lineare Regressionslinie zu Ihrem Streudiagramm hinzu. Welchen Zusammenhang können Sie erkennen? Graphs > Legacy Dialogs > Scatter/Dot > Simple Scatter > Y Axis: Preis > X Axis: Distanz Doppelklick auf die Grafik, passendes Icon wählen und eine Regressionsgerade hinzufügen Es besteht ein positiver Zusammenhang zwischen der Distanz und dem Preis. Je höher die Distanz, umso höher der Flugpreis. 2 4. Regressieren Sie „Preis“ Regressionskoeffizienten. (linear) auf „Distanz“ und interpretieren Sie die Analyze > regression > linear > Dependent: Preis > Independent: Distanz Mit einer zusätzlichen Meile der Flugdistanz steigt der Flugpreis um 0,075 US Dollar. Der geschätzte Koeffizient ist statistisch signifikant auf dem 1% Niveau. Im Regressionsmodell erklärt die unabhängige Variable Distanz 36% der Variation in der abhängigen Variable Flugpreis. Für ein univariates Regressionsmodell (d.h. mit nur einer erklärenden Variable) ist das R-Quadrat ziemlich hoch. Coefficients a Standardized Unstandardized Coefficients Model 1 B (Constant) Coefficients Std. Error Beta 113.547 3.453 .075 .003 Distanz t .599 Sig. 32.884 .000 25.356 .000 a. Dependent Variable: Preis ; b. Predictors: (Constant), Distanz Model Summary Model 1 Adjusted R Std. Error of the Square Estimate R Square R .599 a .359 .359 61.539 a. Predictors: (Constant), Distanz 5. Regressieren Sie „Preis“ (linear) auf „Passagiere“, „Distanz“ und „Konzentration“ interpretieren Sie die Regressionskoeffizienten. Kommentieren Sie das R2. Coefficients a Standardized Unstandardized Coefficients Model 1 B (Constant) Distanz Passagiere Konzentration Std. Error 70.421 9.363 .085 .003 -.005 61.417 Coefficients Beta t Sig. 7.522 .000 .677 24.627 .000 .002 -.058 -2.438 .015 10.783 .157 5.696 .000 a. Dependent Variable: Preis Model Summary 3 und Model 1 R Square R .619 a .383 Adjusted R Std. Error of the Square Estimate .382 60.415 a. Predictors: (Constant), Konzentration, Passagiere, Distanz Mit jeder zusätzlichen Meile steigt der Flugpreis ceteris paribus um 0,085 US Dollar. Der geschätzte Koeffizient ist statistisch signifikant auf dem 1% Niveau. Mit jenem zusätzlichen Passagier geht der Flugpreis ceteris paribus um 0,005 US Dollar zurück. Der Beta-Koeffizient ist auf 5% Niveau signifikant. Wenn das Konzentrationsmass um 0.01 (oder um 1% Punkt) steigt, geht der Flugpreis ceteris paribus um 0,61 US Dollar nach oben. Nach der Aufnahme der zusätzlichen Regressoren steigt das R-Quadrat ein wenig. Es beträgt jetzt 38%. Das impliziert, dass die zusätzlichen Variablen nicht wesentlich mehr Variation im Preis erklären, als Distanz alleine. 6. Wie erklären Sie sich die Veränderung im Koeffizienten von „Distanz“ zwischen Aufgaben 4 und 5? Durch die partielle Korrelation von „Distanz“ mit den anderen erklärenden Variablen. Siehe Folie 5 im Foliensatz 6. 7. Diskutieren Sie die Annahmen des multivariaten linearen Regressionsmodells. Diskutiere Annahme 1 (lineares Modell); 2 (zufällige Stichprobe); 3 ( E(u|x)=0 - Exogenität); 4 keine perfekte Multikollinearität. Die erste Annahme besagt, dass die abhängige Variable linear in den erklärenden Variablen ist (also y steigt immer um die gleiche Menge an, wenn eine bestimmte Variable x um eine Einheit erhöht wird, egal welchen Wert x aufweist). Die zweite Annahme besagt, dass die Stichprobe zufällig gezogen wurde. D.h. die Beobachtungen wurden zufällig aus der Population ausgewählt. Es gibt keine systematische Selektion (z.B. hinsichtlich Bildung etc.) in die Stichprobe. Die dritte Annahme unterstellt Exogenität. Unter dieser Annahme ist der bedingte Erwartungswert des Fehlerterms (d.h. der Mittelwert des Fehlerterms für jeden Wert/jede mögliche Kombination von Werten der Regressoren) gleich Null. Man kann dies auch wie folgt interpretieren: es gibt keinen Zusammenhang zwischen den Regressoren und den unberücksichtigten/unbeobachteten Faktoren, die einen Einfluss auf die abhängige Variable haben. Die letzte Annahme schliesst perfekte Multikollinearität aus. Das heisst, es gibt Variation in allen Regressoren und letztere sind keine exakte lineare Kombination voneinander (z.B. x1=2*x2), sodass es keine perfekte Korrelation (Korrelationkoeffizient=1 oder =-1) zwischen den Regressoren gibt. 4 Unter diesen vier Annahmen ist der OLS Schätzer unverzerrt (auch „erwartungstreu“ genannt). Es gibt noch eine fünfte Annahme: Homoskedastizität. Letzteres bedeutet, dass die Varianz des Fehlerterms konstant ist, d.h. für jeden Wert der Regressoren gleich: 𝑣𝑎𝑟(𝑢|𝑥) = 𝜎 2 . Unter der Annahme der Homoskedastizität ist der OLS Schätzer effizient, d.h. er hat die kleinstmögliche Varianz. Unter Annahmen 1-5 entspricht die Varianz der Koeffizienten der Formel wie in Folie 9 von Foliensatz 6 dargestellt. 8. Generieren Sie eine neue Variable „Distanz2“ Transform > compute variable > Target variable: Distanz2 > Numeric expression: Distanz*Distanz Transform > compute variable > Target variable: Distanz2 > Numeric expression: Distanz**2 9. Regressieren Sie „Preis“ auf „Passagiere“, „Distanz“, „Distanz2“ und „Konzentration“. Berechnen Sie den partiellen Effekt von Distanz. Inwiefern unterscheidet sich Ihr Modell von jenem in Aufgabe 5? Coefficients a Standardized Unstandardized Coefficients Model 1 B (Constant) Std. Error 11.479 .064 .012 -.006 t Sig. 7.173 .000 .513 5.361 .000 .002 -.063 -2.635 .009 58.193 10.922 .149 5.328 .000 7.929E-6 .000 .165 1.791 .074 Passagiere Distanz2 Beta 82.340 Distanz Konzentration Coefficients a. Dependent Variable: Preis Model Summary Model 1 R .621 Adjusted R Std. Error of the Square Estimate R Square a .385 .383 60.357 a. Predictors: (Constant), D2, Passagiere, Konzentration, Distanz In diesem Regressionsmodell wird ein nichtlinearer Zusammenhang zwischen Preis und Distanz angenommen. Der Koeffizient von Distanz entspricht nicht mehr dem Partialeffekt (d.h. ceteris paribus Effekt). Um den Partialeffekt von Distanz auf den Preis zu berechnen, muss man die partielle Ableitung vom Preis (y) nach der Distanz (𝑥1 ) berechnen. Regressionsgleichung: 𝑦 = 𝛽0 + 𝜷𝟏 𝒙𝟏 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜷𝟒 𝐱𝟏𝟐 𝜕𝑦 Wir berechnen: 𝜕𝑥 = 𝜷𝟏 + 𝟐𝜷𝟒 𝒙𝟏 = ,064 + 2*(7,929E-6) 𝒙𝟏 =0,064+0,00001586𝒙𝟏 1 5 Dazu verwenden wir folgende Ableitungsregeln: Potenzregel Faktorregel Die Ableitung der Konstanten 𝛽0 nach 𝑥1 ist null (weil 𝑥1 nicht vorkommt); ebenso für 𝛽2 𝑥2 + 𝛽3 𝑥3. Die Ableitung von 𝜷𝟏 𝒙𝟏 nach 𝒙𝟏 ist 𝜷𝟏 . Die Ableitung von 𝜷𝟒 𝐱𝟏𝟐 ist 𝟐𝜷𝟒 𝒙𝟏 . Die Koeffizienten der anderen unabhängigen Variablen haben sich wegen ihrer Korrelation mit Distanz2 ein wenig verändert. Das R2 bleibt aber fast gleich wie davor. 10. Ist der Koeffizient von „Distanz2“ signifikant auf (a) dem 5% Niveau und (b) dem 10% Niveau? Was schliessen Sie daraus hinsichtlich des nichtlinearen Zusammenhangs zwischen „Preis“ und „Distanz“? Auf dem 5% Niveau ist der Koeffizient von „Distanz2“ nicht signifikant (P-Wert höher als 5% bzw. 0,05). Auf dem 10% Niveau ist der Koeffizient von Distanz2 statistisch signifikant (P-Wert 0,074<0,1 bzw. 7,4%< 10%). Diese Ergebnisse können wir wie folgt interpretieren: Auf dem 5% Niveau kann die Nullhypothese eines linearen Zusammenhangs nicht verworfen werden. Auf dem 10% Niveau kann ein linearer Zusammenhang verworfen werden. 11. Was besagt das Gauss-Markov-Theorem? Gauss-Markov-Theorem: unter den Annahmen 1) eines linearen Modells, 2) einer zufälligen Stichprobe, 3) Exogenität, 4) von keiner perfekten Multikollinearität und 5) Homoskedastizität ist OLS der beste unverzerrte lineare Schätzer unter allen möglichen unverzerrten Schätzern (auf Englisch BLUE= best linear unbiased estimator). Der beste: höchste Effizienz, d.h. der Schätzer mit kleinstmöglicher Varianz unter allen unverzerrten Schätzern Linear: der Effekt von x auf y ist immer der gleiche für verschiedene Werte von x Unverzerrt: es gibt keine Verzerrung. Wenn wir viele, z.B. 1000 Stichproben aus der Population ziehen, den B-Koeffizient von x in jeder Stichprobe schätzen und den Mittelwert von allen geschätzten B-Koeffizienten berechnen, trifft dieser Mittelwert den B-Koeffizient in der Population. 12. Warum kann das R2 nie fallen, wenn in ein bestehendes Regressionsmodell eine zusätzliche Variable aufgenommen wird (z.B. „Distanz2“ zusätzlich zu „Distanz“)? Das R-Quadrat gibt den Teil der Variation in y an, der durch die Variation in x erklärt wird. Mit mehreren in der Regression aufgenommenen erklärenden Variablen können wir nur etnweder mehr oder zumindest gleich viel, aber nie weniger Variation in y erklären als mit weniger erklärenden Variablen. (Das bedeutet, dass die Summe der quadrierten Residuen kleiner wird 6 oder maximal gleich bleibt, wenn wir zusätzliche Regressoren verwenden, aber nicht steigen kann.) 13. Erklären Sie die Begriffe Unter- und Überspezifikation. Unterspezifikation: 1 oder mehrere erklärende Variablen wurden im Modell nicht berücksichtigt (vergessen, nicht beobachtet etc.); Überspezifikation: Variablen ohne Erklärungsgehalt werden im Modell inkludiert. Überspezifikation ist im Prinzip weniger problematisch als Unterspezifikation. Die Konsequenz der Überspezifikation ist eine mögliche höhere Varianz des Schätzers. 𝜎 𝑣𝑎𝑟(𝛽̂𝑗 ) = 𝑺𝑺𝑻 (𝟏−𝑹𝟐) 𝒋 𝒋 wobei 𝑅𝑗2 = 𝑅 2 der Regression von xj auf alle anderen Regressoren und Konstante. Mit zusätzlichen Regressoren ohne Erklärungsgehalt steigt unter Umständen das 𝑅𝑗2 und deshalb auch 𝑣𝑎𝑟(𝛽̂𝑗 ), nämlich dann wenn xj mit den Regressoren ohne Erklärungsgehalt korreliert ist. 14. Welche Probleme kann Unterspezifikation hinsichtlich der Unverzerrtheit der erklärenden Variable(n) mit sich bringen? Der Koeffizient der erklärenden Variable ist verzerrt, falls die unberücksichtigte Variable mit der erklärenden Variable und der abhängigen Variable korreliert ist. Siehe die Formel für die Verzerrung auf Folie 5 von Foliensatz 6. 7