Statistische und ökonometrische Haushaltsanalyse

Institut für Haushalts- und Konsumökonomik
Statistische und ökonometrische Haushaltsanalyse
Arbeitsblatt 5 – OLS Annahmen
1) OLS: Annahmeverletzungen
Datensatz: zbe_2.sav
•
Führen Sie eine lineare Regression aus mit der Erwerbsarbeitszeit in Minuten
(zh1) als abhängige Variable und dem Alter (age) als unabhängige, erklärende
Variable! Wie lautet die Regressionsgleichung? Interpretieren Sie die Regressionskoeffizienten. Wie viel der Varianz wird durch das eigene Alter aufgeklärt? Ist dieses Modell auch in der Grundgesamtheit gültig?
•
Linearität:
Nur für lineare Beziehung kann eine eindeutige, optimale Regressionsgleichung geschätzt werden. Um bivariate nicht-lineare Beziehungen zu identifizieren, eignet sich die SPSS-Prozedur Kurvenanpassung (Curve Estimation).
Welcher Funktionstyp eignet sich am besten zur Beschreibung des Zusammenhangs zwischen der abhängigen Variable zh1 und der unabhängigen Variablen Alter?
tset newvar=none.
Curvefit
/var = depvar with indepvar
/model=linear….
/plot fit.
[Analyze / Regression / curve estimation …]
•
Transformieren Sie die Variable Alter gemäß dem in Aufgabenteil b) aufgefundenen Funktionszusammenhang in eine lineare Form und berechnen Sie das
bivariate Regressionsmodell mit dieser transformierten Variable. Wie verändert sich der Modellfit?
Hilfestellung:
Um den Effekt des Einkommens auf die Haushaltsarbeitszeit zu erfassen, gehen bei einer quadratischen Form 2 Variablen in das Modell ein:
Alter, Alter2;
Bei einer kubischen Form entsprechend 3 Variablen:
Alter, Alter2 und Alter3.
•
Multikollinearität:
Eine zentrale Voraussetzung der Regressionsanalyse besagt, dass zwischen
den unabhängigen Variablen keine extremen linearen Abhängigkeiten (keine
hohe Multikollinearität) bestehen. Um unabhängige Variablen auf Multikollinearität zu testen, rechnet man den VIF-Faktor (variance inflation) aus. VIFWerte nahe 1 indizieren keine Multikollinearität. VIF-Werte größer 4 weisen
auf ernsthafte Multikollinearität hin
•
Berechnen Sie ein Regressionsmodell mit der abhängigen Variablen Haushaltsarbeitszeit (zh3) und den unabhängigen Variablen Alter (age), Geschlecht
(sex) und Erwerbstätigkeit in 4 Klassen (erwerb_4kl). Lassen Sie sich dabei
die VIF-Werte ausgeben.
Regression…
/statistics tol… .
[Analyze / Regression / Linear / …]
[Statistics…: Collinearity diagnostics]
•
Homoskedastizität:
Die Homoskedastizität ist eine weitere wichtige Annahme, deren Verletzung
zu ineffizienten Schätzern führt. Um Heteroskedastizität (die Verletzung der
Homoskedastizität) zu identifizieren, plottet man die geschätzten Fehler gegen
den vorhergesagten Wert der unabhängigen Variablen. Trichterförmige Muster
bedeuten Heteroskedastizität. Da die geschätzten Residuenwerte immer auch
von den dazugehörigen x-Werten abhängen, werden hierfür die studentisierten Residuen verwendet, deren Varianz konstant ist.
•
Nehmen Sie die Regression aus Aufgabe d) und lassen Sie sich den entsprechenden Scatterplot zur Überprüfung auf Heteroskedastizität ausgeben.
Regression…
/scatterplot=(*ZPRED ,*SRESID ) .
[Analyze / Regression / Linear / …]
[Plots…: X: *zpred, y: *sresid]
Bitte als SPSS-Syntax kodieren.