Institut für Haushalts- und Konsumökonomik Statistische und ökonometrische Haushaltsanalyse Arbeitsblatt 5 – OLS Annahmen 1) OLS: Annahmeverletzungen Datensatz: zbe_2.sav • Führen Sie eine lineare Regression aus mit der Erwerbsarbeitszeit in Minuten (zh1) als abhängige Variable und dem Alter (age) als unabhängige, erklärende Variable! Wie lautet die Regressionsgleichung? Interpretieren Sie die Regressionskoeffizienten. Wie viel der Varianz wird durch das eigene Alter aufgeklärt? Ist dieses Modell auch in der Grundgesamtheit gültig? • Linearität: Nur für lineare Beziehung kann eine eindeutige, optimale Regressionsgleichung geschätzt werden. Um bivariate nicht-lineare Beziehungen zu identifizieren, eignet sich die SPSS-Prozedur Kurvenanpassung (Curve Estimation). Welcher Funktionstyp eignet sich am besten zur Beschreibung des Zusammenhangs zwischen der abhängigen Variable zh1 und der unabhängigen Variablen Alter? tset newvar=none. Curvefit /var = depvar with indepvar /model=linear…. /plot fit. [Analyze / Regression / curve estimation …] • Transformieren Sie die Variable Alter gemäß dem in Aufgabenteil b) aufgefundenen Funktionszusammenhang in eine lineare Form und berechnen Sie das bivariate Regressionsmodell mit dieser transformierten Variable. Wie verändert sich der Modellfit? Hilfestellung: Um den Effekt des Einkommens auf die Haushaltsarbeitszeit zu erfassen, gehen bei einer quadratischen Form 2 Variablen in das Modell ein: Alter, Alter2; Bei einer kubischen Form entsprechend 3 Variablen: Alter, Alter2 und Alter3. • Multikollinearität: Eine zentrale Voraussetzung der Regressionsanalyse besagt, dass zwischen den unabhängigen Variablen keine extremen linearen Abhängigkeiten (keine hohe Multikollinearität) bestehen. Um unabhängige Variablen auf Multikollinearität zu testen, rechnet man den VIF-Faktor (variance inflation) aus. VIFWerte nahe 1 indizieren keine Multikollinearität. VIF-Werte größer 4 weisen auf ernsthafte Multikollinearität hin • Berechnen Sie ein Regressionsmodell mit der abhängigen Variablen Haushaltsarbeitszeit (zh3) und den unabhängigen Variablen Alter (age), Geschlecht (sex) und Erwerbstätigkeit in 4 Klassen (erwerb_4kl). Lassen Sie sich dabei die VIF-Werte ausgeben. Regression… /statistics tol… . [Analyze / Regression / Linear / …] [Statistics…: Collinearity diagnostics] • Homoskedastizität: Die Homoskedastizität ist eine weitere wichtige Annahme, deren Verletzung zu ineffizienten Schätzern führt. Um Heteroskedastizität (die Verletzung der Homoskedastizität) zu identifizieren, plottet man die geschätzten Fehler gegen den vorhergesagten Wert der unabhängigen Variablen. Trichterförmige Muster bedeuten Heteroskedastizität. Da die geschätzten Residuenwerte immer auch von den dazugehörigen x-Werten abhängen, werden hierfür die studentisierten Residuen verwendet, deren Varianz konstant ist. • Nehmen Sie die Regression aus Aufgabe d) und lassen Sie sich den entsprechenden Scatterplot zur Überprüfung auf Heteroskedastizität ausgeben. Regression… /scatterplot=(*ZPRED ,*SRESID ) . [Analyze / Regression / Linear / …] [Plots…: X: *zpred, y: *sresid] Bitte als SPSS-Syntax kodieren.