Prüfung der Modellprämissen

Werbung
Lehrveranstaltung „Empirische Forschung und Politikberatung“
Sommersemester 2011
Regressionsanalyse
----10. Juni 2011
Stefan Koscheck,
Bundesinstitut für Berufsbildung,
AB 2.2: „Qualifikation, berufliche Integration und Erwerbstätigkeit“
®
Problemstellung
• Analyse von Kausalbeziehungen zwischen einer
metrisch abhängigen Variablen/Regressand und
– einer unabhängige Variable/Regressor (binäre Regression –
monokausale Beziehung)
Y = f(X)
– oder mehreren unabhängige Variablen (multiple Regression) mit
metrischem oder nominalen Skalenniveau (Dummy)
Y = f(X1, X2, …, Xj, …, XJ)
• Tatsächliche Kausalitäten lassen sich jedoch nicht
zweifelsfrei nachweisen.
®
Problemstellung
• Anwendungsbereiche der Regressionsanalyse:
– Ursachenanalyse: Wie stark ist Einfluss von UV auf AV?
– Wirkungsprognosen: Wie verändert sich AV bei Änderung von UV?
– Zeitreihenanalysen: Wie verändert sich die AV im Zeitablauf?
Y=f(t)
• Bei nominalskalierter abhängige Variable: logistische
Regression
®
Verwendung der Regression in der Berufsforschung
• Als Randgebiet der Arbeitsmarktforschung wird die
lineare Regression hauptsächlich zur Bestimmung des
Einkommens verwendet.
– z.B.: Wie wirken sich Bildungsinvestitionen auf die Höhe des
Einkommens aus?
•
•
•
•
Beispiel hier anhand der Erwerbstätigenbefragung 2006:
Höhe des monatlichen Bruttoverdienstes? [f518]
Vereinbarte Wochenarbeitszeit ohne Überstunden [f200]
Erweiterung um Berufsabschluss [max1202]
®
Vorgehensweise
• Beispiel anhand einer einfachen/binären linearen
Regression:
(1) Modellformulierung
(2) Schätzung der Regressionsfunktion
(3) Prüfung der Regressionsfunktion
(4) Prüfung der Regressionskoeffizienten
(5) Prüfung der Modellprämissen
®
Modellbildung
• Bei OLS-Schätzung sollte Regressand metrisches
Skalenniveau aufweisen. Typisches Beispiel:
Einkommen
• In ETB 2006:
– f518 „Höhe des monatlichen Bruttoverdienstes“
– exp_wage_imp_extr „Imputierter Lohn für Extremwerte/ fehlende
Lohnangabe (entlogarithmiert)
• Einteilung in abhängige und unabhängige Variable
anhand theoretischer und sachlogischer Überlegungen
– Ursache-Wirkungs-Beziehung muss möglichst vollständig
modelliert sein.
– Hier: Das Einkommen ist abhängig von der geleisteten
Arbeitszeit (f200)
®
Modellbildung
Dateninspektion Einkommen/Bruttoverdienst:
RECODE f518 (99999=SYSMIS) (99998=SYSMIS).
EXECUTE.
DESCRIPTIVES VARIABLES=f518
/STATISTICS=MEAN STDDEV MIN MAX.
DESCRIPTIVES VARIABLES=exp_wage_imp_extr
/STATISTICS=MEAN STDDEV MIN MAX.
GRAPH
/HISTOGRAM=f518.
GRAPH
/HISTOGRAM=exp_wage_imp_extr.
®
Modellbildung
Generierung einer neuen Variablen aus f518 & exp_wage_imp_extr :
f518_imp
compute f518_imp = exp_wage_imp_extr.
if (missing(exp_wage_imp_extr)) f518_imp = f518.
VARIABLE LABELS f518_imp Höhe des monatlichen Bruttoverdienstes
inklusive imputierter Werte.
DESCRIPTIVES VARIABLES=f518_imp
/STATISTICS=MEAN STDDEV MIN MAX.
GRAPH
/HISTOGRAM=f518_imp.
®
Modellbildung
Dateninspektion Arbeitszeit:
RECODE f200 (97=SYSMIS) (99=SYSMIS).
EXECUTE.
DESCRIPTIVES VARIABLES=f200
/STATISTICS=MEAN STDDEV MIN MAX.
GRAPH
/HISTOGRAM=f200.
®
Modellbildung
Ausschluss von Personen in öffentlich geförderten Stellen (z.B.
Ein-Euro-Jobber) und mit Stundenlohn unter 2,75 Euro
http://www.boeckler.de/show_mindestlohn.html bzw. über 200 Euro
if (f508 = 1) f518_imp = 0.
COMPUTE stdlohn=f518_imp/4.345/f200.
EXECUTE.
VARIABLE LABELS stdlohn Stundenlohn.
GRAPH
/HISTOGRAM stdlohn.
DESCRIPTIVES VARIABLES=stdlohn
/STATISTICS=ALL.
SELECT IF (stdlohn ge 2.75 and stdlohn le 200).
®
Modellbildung
GRAPH
/HISTOGRAM=f518_imp.
®
Modellbildung
Prüfung eines vermuteten linearen Zusammenhangs anhand
grafischer Darstellung: Scatterplot GRAPH
/SCATTERPLOT (bivariate) = f200 with f518_imp.
®
Schätzung der Regressionsfunktion
•
•
Fragestellung der Analyse: Schätzung der Wirkung der Arbeitszeit auf das
monatliche Bruttoeinkommen.
Zur Schätzung der abhängigen Variable Y (Einkommen) spezifizieren wir
demnach folgende Funktion
^
Y = b0 + b1X + E
wobei
^
Y = Schätzung der abhängigen Variablen Y (Einkommen)
b0 = konstantes Glied
b1 = Regressionskoeffizient
X = unabhängige Variable (Arbeitszeit)
E = Residualvariable, die die Abweichungen einzelner Realisationen
der abhängigen Variable vom jeweiligen Prognosewert erfasst.
^
Für einzelne Werte von Y und X schreiben wir:
^
yk = b0 + b1xk + ek
(k = 1, 2, …, K)
®
Schätzung der Regressionsfunktion
• Die Funktion bildet eine Gerade und wird deshalb auch
als Regressionsgerade bezeichnet. Sie ist durch 2
Parameter bestimmt:
– Das konstante Glied b0
• Schnittpunkt der Geraden mit Y-Achse
– Den Regressionskoeffizienten b1
• Gibt geometrisch gesehen die Steigung oder Neigung der Geraden wieder.
• Wichtige inhaltliche Bedeutung, da er angibt um wie viel Einheiten sich Y
vermutlich ändert, wenn sich X um eine Einheit ändert.
• Die Residualgröße e
– Die in der Regressionsgleichung nicht erfassten Einflussgrößen
der empirischen Y-Werte schlagen sich in Abweichungen von
der Regressionsgerade nieder, welche als Residuen e
bezeichnet werden.
• Unberücksichtigte Einflussgrößen
• Fehler in den Daten: Messfehler, Auswahlfehler
• Ziel: Summe der quadrierten Residuen = min! (OLS)
®
Schätzung der Regressionsfunktion
yk
ek
^
yk
®
Schätzung der Regressionsfunktion
Berechnung der Regressionsfunktion
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA CI
/NOORIGIN
/DEPENDENT f518_imp
/METHOD=ENTER f200.
®
Schätzung der Regressionsfunktion
•
Deskriptive Statistik:
•
Einfache Korrelation der Variablen.
®
Schätzung der Regressionsfunktion
Modell
1
(Konstante)
Vereinbarte
Wochenarbeitszeit ohne
Überstunden
Nicht standardisierte
Standardisierte
Koeffizienten
Koeffizienten
RegressionskoeffizientB Standardfehler
Beta
-9,566
36,921
74,625
1,045
,486
Interpretation der Koeffizienten
•
•
Regressionskoeffizient b stellt den durchschnittlichen Betrag dar, den die
abhängige Variable zunimmt, wenn die unabhängige Variable um eine Einheit
ansteigt und alle anderen unabhängigen Variablen konstant gehalten werden.
=> Steigung der Regressionsgeraden
Bei mehr als einer unabhängigen Variablen handelt es sich um den partiellen
Regressionskoeffizient.
– In unserem Beispiel: Die Erhöhung der Wochenarbeitszeit um eine Stunde
würde zu einer Steigerung des Bruttomonatslohnes um 74,63 Euro führen.
®
Schätzung der Regressionsfunktion
Modell
1
(Konstante)
Vereinbarte
Wochenarbeitszeit ohne
Überstunden
Standardisierte
Nicht standardisierte
Koeffizienten
Koeffizienten
RegressionskoeffizientB Standardfehler
Beta
-9,566
36,921
74,625
1,045
,486
Interpretation der Koeffizienten
• Die Größe des Regressionskoeffizienten kann nicht als Maß für die Wichtigkeit
der betreffenden Variablen angesehen werden, da sie auch von der Skala
abhängig sind, auf der die Variable Xj gemessen wurde.
• Nur die standardisierten Regressionskoeffizienten (Beta-Werte) sind für einen
Vergleich der Wichtigkeit der unabhängigen Variablen geeignet.
• Der standardisierte Regressionskoeffizeint berechnet sich, indem der nicht
standardisierte Koeffizient mit dem Verhältnis von (Standardabweichung von Xj /
Standardabweichung von Y) multipliziert wird.
®
Prüfung der Regressionsfunktion
Prüfung der Modellgüte
• Wie gut passt sich das Modell an die Daten an? R²
• Wie gut ist die Regressionsfunktion als Modell der
Realität geeignet?
a. Prüfung der Regressionsfuktion F-Statistik
b. Prüfung der Regressionskoeffizienten T-Statistik
®
Prüfung der Regressionsfunktion
Aufgenomme/Entfernte Variablen:
• Hier : Einschlußverfahren => auch schrittweise
(explorativ) möglich.
Modellgüte:
• R² (multiple Determinationskoeffizient) = Anteil
der Varianz in der abhängigen Variable, die
durch die unabhängige/n Variable/n erklärt
wird. Wertebereich zwischen 0 und 1.
• Adjusted R² = korrigiert für die Anzahl der verwendeten unabhängigen Variablen.
Kommt jedoch eher bei kleinen Fallzahlen zu tragen.
• Standardfehler des Schätzers (Standard Error of Estimate (SEE)) stellt die
Standardabweichung der Residuen dar. In einem guten Model ist der
Standardfehler des Schätzers kleiner als die Standardabweichung der
abhängigen Variable. In einem guten Modell sollte der Mittelwert der abhängigen
Variable auch < 2*SEE sein.
®
Prüfung der Regressionsfunktion
Signifikanztest des Gesamtmodells (F-Test)
•
•
•
Der F-Test dient der Prüfung der Signifikanz von R². Wenn die Signifikanz von
R²<0.05 ist, dann kann darauf geschlossen werden, dass das Model einen
Zusammenhang erklärt, der nicht zufällig sein kann, d.h. der auch in der
Grundgesamtheit geben ist.
Die Nullhypothese, dass kein linearer Zusammenhang zwischen der unabhängigen
und abhängigen Variablen existiert, kann demnach verworfen werden. Der
Signifikanztest von R² ist somit zugleich ein Signifikanztest des Modells.
Der empirische F-Wert ist das Verhältnis zwischen der Mittel der Quadrate des
Modells (Regression) geteilt durch das Mittel der Quadrate des Fehlers (Residuen)
hier also 7519000000/1473307,357=5103,576. Der ermittelte empirische F-Wert wird
daraufhin mit einem theoretischen F-Wert (abhängig von Irrtumswahrscheinlichkeit
und Freiheitsgraden) verglichen.
®
Prüfung der Regressionskoeffizienten
95,0% Konfidenzintervalle für B
T
Sig.
-,259
71,439
,796
,000
Untergrenze
-81,936
72,578
Obergrenze
62,804
76,673
Signifikanztest der Regressionskoeffizienten (T-Test)
•
•
•
•
•
Die t-Statistik wird verwendet, um zu testen ob der individuelle
Regressionskoeffizient signifikant von 0 verschieden ist.
Weicht der empirische t-Wert (bj / Standardfehler von bj ) stark von 0 ab und
ist der Absolutbetrag größer als der theoretische t-Wert unter Vorgabe einer
bestimmten Vertrauenswahrscheinlichkeit, dann kann die Nullhypothese
verworfen werden.
Das jeweilige Signifikanzniveau gibt an, wie wahrscheinlich der berechnete
Regressionskoeffizient von 0 verschieden ist.
Beachte: Einseitiger oder zweiseitiger t-Test ist abhängig vom Model
Für Dummy-Variablen sagt der t-Test nichts aus!
®
Prüfung der Regressionskoeffizienten
95,0% Konfidenzintervalle für B
T
Sig.
-,259
71,439
,796
,000
Untergrenze
-81,936
72,578
Obergrenze
62,804
76,673
Signifikanztest der Regressionskoeffizienten (T-Test)
• Das Konfidenzintervall ist folgendermaßen zu interpretieren:
• Mit einer Vertrauenswahrscheinlichkeit von …Prozent liegt der wahre
Regressionskoeffizient der Variable Wochenstunden zwischen den Werten
von 72,6 und 76,7 Euro.
• Je größer das Konfidenzintervall, desto unsicherer ist die Schätzung des
Regressionskoeffizienten für die Grundgesamtheit.
®
Prüfung der Modellprämissen
Die Güte der Schätzung für die Regressionsparameter, die sich mittels der KleinsteQuadrate-Methode erzielen lassen, sowie auch die Anwendbarkeit der Tests zur
Überprüfung der Güte hängen von gewissen Annahmen ab:
J
yk = ß + ∑ßj * xjk + uk
j=1
(1)
(2)
(3)
(4)
(5)
Die Störgrößen uk haben den Erwartungswert Null.
Es besteht keine Korrelation zwischen den erklärenden Variablen und der Störgröße
Die Störgrößen haben eine konstante Varianz (Homoskedastizität)
Die Störgrößen sind unkorreliert (keine Autokorrelation),
Zwischen den erklärenden Variablen Xj besteht keine lineare Abhängigkeit (keine
perfekte Multikollinearität)
(6) Das Modell ist richtig spezifiziert, d.h.
(1) Es ist linear in den Parametern β0 und βj
(2) Es enthält die relevanten erklärenden Variablen,
(3) Die Zahl der zu Schätzenden Paramter (J+1) ist kleiner als die Zahl der vorliegenden
Beobachtungen (K).
(7) Die Störgrößen sind normalverteilt (Wichtig für Signifikanztests).
®
Prüfung der Modellprämissen
Unter den ersten sechs Annahmen liefert die Kleinste-Quadrate-Methode
(OLS) lineare Schätzfunktionen für die Regressionsparameter, die alle
wünschenswerten Eigenschaften von Schätzern besitzen,
• d.h. sie sind unverzerrt (erwartungstreu) und effizient
• BLUE (Best Linear Unbiased Estimators)
®
Prüfung der Modellprämissen
(1) Störgrößen haben den Erwartungswert Null.
– Die Existenz der Störgröße ist auf unberücksichtigte
Einflussgrößen sowie Fehler in den Daten (Messfehler &
Auswahlfehler) zurückzuführen.
– Wenn im Regressionsmodell alle systematischen Einflussgrößen
explizit berücksichtigt werden, dann umfasst die Störvariable nur
zufällige Effekte, die positive und negative Abweichungen
zwischen beobachteten und geschätzten Werten verursachen.
– Es wird erwartet, dass sich die Schwankungen im Mittel
ausgleichen, d.h. Erwartungswert = 0.
– Verletzung bei systematischen Messfehlern: Da der Störterm in
der Regression erzwungenermaßen gleich 0 ist, führen
Messfehler zu einer Verzerrung des geschätzten Konstante
(bzw. der Regressionskoeffizienten wenn keine Konstante
spezifiziert wird).
®
Prüfung der Modellprämissen
(2) Es besteht keine Korrelation zwischen den erklärenden
Variablen und der Störgröße.
−
−
−
−
Aus dem Fehlen relevanter Einflussgrößen (underfitting) im
Regressionsmodell kann eine Verzerrung der Schätzwerte
resultieren.
Wenn keine Korrelation zwischen den berücksichtigten
erklärenden Variablen und der Störgröße besteht ist dies relativ
unproblematisch: Erwartungswert Störgröße ~= 0, d.h.
Auswirkungen lediglich auf die Konstante.
Wenn dagegen Cov(xjk, ek) > 0, d.h. eine positive Korrelation
zwischen Variable j und der Störgröße besteht, werden die
Koeffizienten für die unabhängigen Variablen überschätzt.
Denn der Teil der Variation von Y, der vom Störterm kommt,
würde fälschlich Variable Xj zugeordnet.
®
Prüfung der Modellprämissen
(3) Die Störgrößen haben eine konstante Varianz
(Homoskedastizität)
– Residuen müssen zufällig um die geschätzte unabhängige
Variable verteilt sein. D.h. die Varianz der Residuen muss für
alle Werte der unabhängigen Variablen konstant sein.
– Ist dies nicht der Fall, wird die Schätzung ineffizient und der
Standardfehler des Regressionskoeffizienten verfälscht.
Schätzung des Konfidenzintervalls des t-Tests wird ungenau.
– Ursachen können sein:
• Ein Interaktionseffekt zwischen der gemessenen unabhängigen
Variablen und einer nicht gemessenen, nicht in das Modell
integrierten Variable
• Zunehmende Messfehler in einer Reihe von Beobachtungen, etwa
durch nachlassende Aufmerksamkeit
• Nichtlinearität
• Einige der unabhängigen Variablen sind verzerrt
®
Prüfung der Modellprämissen
e
e
Homoskedastizität
Heteroskedastizität
0
0
Ŷ
Ŷ
®
Prüfung der Modellprämissen
Aufdecken von Heteroskedastizität
•
•
Visuelle Inspektion der Residuen (Scatterplot gegen geschätzte
Werte von Y)
Goldfeld/Quandt-Test (testet, ob Varianzen der Residuen in zwei
Unterstichproben identisch sind)
Lösung bei Heteroskedastizität
•
•
•
•
Transformation der abhängigen Variablen bzw. der gesamten
Regressionsbeziehung, z.B. Logarithmierung
Gewichtete Kleinste Quadrate Schätzung (WLS) (kleine Residuen
werden bei der Berechnung der b-Koeffizienten stärker gewichtet) =Y
Variable, die Ursache ist für Heteroskedastizität wird als Gewicht
benutzt.
Berechnung eigener Modelle für unterschiedliche Abschnitte der
abhängigen Variable (etwa separat für niedriges, mittleres und hohes
Einkommen)
Regression generell aber robustes Verfahren
®
Prüfung der Modellprämissen
Für visuelle Inspektion:
Erneute Berechnung der Regression unter Speichern der
vorhergesagten Werte und Residuen in eigene Variablen
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/NOORIGIN
/DEPENDENT f518_imp
/METHOD=ENTER f200
/SAVE PRED RESID.
®
Prüfung der Modellprämissen
Plot der Schätzer der abhängigen Variable (PRE_1) auf der X-Achse gegen
die Residuen (RES_1) auf der Y Achse
GRAPH
/SCATTERPLOT PRE_1 with RES_1.
®
Prüfung der Modellprämissen
• Mit steigendem vorhergesagtem Einkommen nehmen die Residuen
zu (typisches Dreiecksmuster der Heteroskedastizizät).
• Zudem existieren Ausreißer mit großen Residuen, welche die
Resultate verfälschen.
• Lösung:
• Transformation der Variablen, welche die Ausreißer näher in die
Mitte nehmen (Wurzel, Logarithmus, Inverse (x = 1/x))
• Ausschluss aus der Regression und Erklärung in einem separaten
Modell
• Ausreißer können über Einflussstatistiken identifiziert werden:
• DfBeta
• Standardisiertes DfBeta
• Zentrierte Hebel-Statistik (leverage)
• Mahalanobis Distanz
• Cook‘s Distance
®
Prüfung der Modellprämissen
(4) Die Störgrößen sind unkorreliert
• Autokorrelation: Die Annahme einer linearen
Regression ist, dass die Residuen in der
Grundgesamtheit unkorreliert sind. Trifft dies nicht zu,
spricht man von Autokorrelation.
• Vor allem bei Zeitreihen möglich: Abweichungen nicht
zufällig, sondern abhängig von vorangegangenem
Beobachtungswert
• Folge von Autokorrelation: Verzerrung des
Standardfehlers der Regressionskoeffizienten und
deren Konfidenzintervalle.
®
Prüfung der Modellprämissen
Aufdeckung von Autokorrelation:
– Visuelle Inspektion durch Residualplot: Bei positiver
Autokorrelation liegen aufeinander folgende Werte der Residuen
nahe beieinander, bei negativer starke Schwankungen
e
e
Positive Autokorrelation
0
Negative Autokorrelation
0
Ŷ
Ŷ
®
Prüfung der Modellprämissen
Aufdeckung von Autokorrelation:
– Rechnerisch mit Durbin-Watson Test, d.: 0<d<4. Bezieht sich
auf Aufeinanderfolge der Residuen beobachteter Werte
– Nahe 0 extrem positive Autokorrelation (d.h. Werte liegen nahe
beieinander)
– Nahe 4 extrem negative Werte (d.h. starke Sprünge in
Residuen).
– Um 2 keine Autokorrelation
®
Prüfung der Modellprämissen
Durbin-Watson-Test (aber: keine Zeitreihe)
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/NOORIGIN
/DEPENDENT f518_imp
/METHOD=ENTER f200
/RESIDUALS DURBIN.
®
Prüfung der Modellprämissen
(5) Zwischen den erklärenden Variablen Xj besteht keine
lineare Abhängigkeit (keine perfekte Multikollinearität)
• Das lineare Regressionsmodell basiert auf der Annahme,
dass die Regressoren nicht exakt linear abhängig sind.
• D. h. ein Regressor darf sich nicht als lineare Funktion der
übrigen Regressoren darstellen lassen.
• In Praxis kaum perfekte Multikollinearität.
−
Beispiele: Alter und Geburtsjahr, Aufnahme aller Dummy-Variablen bei
Umwandlung einer kategorialen Variable
• Ein hoher Grad an Multikollinearität wirkt sich auf die
Reliabilität aus:
• Da sich der Standardfehler der Regressionskoeffizienten
vergrößert, werden die Schätzungen unzuverlässiger
®
Prüfung der Modellprämissen
•
Bei Multikollinearität überschneiden sich die Streuungen der unabhängigen
Variablen, was einerseits zu Redundanz in den Daten und damit weniger
Information führt. Andererseits lassen sich die vorhandenen Informationen
nicht mehr eindeutig den Variablen zuordnen.
Venn-Diagramm
•
Anzeichen für Multikollinearität:
− Signifikantes Bestimmtheitsmaß R² aber insignifikante Koeffizienten.
− Starke Veränderung der Regressionskoeffizienten bei Erweiterung oder
Reduktion des Modells
®
Prüfung der Modellprämissen
Verdacht auf Multikollinearität: Wie begegnen?
• Identifikation der betroffenen Variablen
−
−
−
−
−
•
Entfernung der identifizierten Variable(n) aus dem Regressionsmodell
−
•
•
Durch Korrelationsmatrix: Hohe Korrelationskoeffizienten zwischen
unabhängigen Variaben. Aber: Nur paarweise Abhängigkeiten, nicht
zwischen mehreren Variablen
Tatsächliche Aufdeckung von Multikollinearität indem eine Regression
jeder UV auf die übrigen UV‘s durchgeführt wird.
Bei R²j = 1 oder nahe 1 kann die Variable durch die anderen erzeugt
werden und ist überflüssig,
Oder auch die sogenannte „Toleranz“ = Tj = 1 –R²j
Der Kehrwert der Toleranz ist der „Variance Inflation Faktor“ = VIFj = 1/(1R²j), der nach Daumenregel nicht größer als 4 sein sollte.
Problematisch jedoch bei zentralen Variablen der Untersuchung
Erhöhung des Stichprobenumfangs
Transformationen oder Ersetzen von Variablen durch Faktoren mittels
Faktorenanalyse
®
Prüfung der Modellprämissen
(6) Das Modell ist richtig spezifiziert
a) Es ist linear in den Parametern
• Linearität: Wenn eine lineare Prozedur auf einen nicht-linearen
Zusammenhang angewandt wird, werden die Schätzwerte der
Parameter verzerrt
• Nicht-Linearität lässt sich häufig schon bei Betrachtung des
Punktediagramms identifizieren
• Durch Transformation kann die Beziehung linearisiert werden
(z.B. Logarithmierung)
• Im Mehrvariablenfall kann Nicht-Linearität dadurch auftreten,
dass sich die Wirkungen von unabhängigen Variablen nichtadditiv verknüpfen. Dies kann über Interaktionseffekte zwischen
Variablen modelliert werden.
®
Prüfung der Modellprämissen
Transformation durch Logarithmierung:
compute lnf518_imp = ln(f518_imp).
VARIABLE LABELS lnf518_imp logarithmiertes Bruttoeinkommen im Monat.
compute lnf200 = ln(f200).
VARIABLE LABELS lnf200 logarithmierte durchschnittliche Wochenarbeitszeit.
GRAPH
/SCATTERPLOT lnf200 with lnf518_imp.
®
• Neue Schätzung mit
lny = β0 + β1lnx + e
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/NOORIGIN
/DEPENDENT lnf518_imp
/METHOD=ENTER lnf200
/RESIDUALS DURBIN
/SAVE PRED RESID.
®
Modellzusammenfassung
Modell
1
Modell
1
Regression
Nicht standardisierte
Residuen
Gesamt
Modell
1
(Konstante)
logarithmierte
durchschnittliche
Wochenarbeitszeit
StandardKorrigiertes
fehler des
R
R-Quadrat
R-Quadrat
Schätzers
,683
,466
,466
,47473
ANOVAb
QuadratMittel der
summe
df
Quadrate
F
3237,639
1
3237,639
14365,814
3712,087
16471
,225
6949,726
DurbinWatsonStatistik
1,941
Sig.
,000
16472
Koeffizientena
Standardisiert
Nicht standardisierte
e
Koeffizienten
Koeffizienten
Regressions- Standardfehle
koeffizientB
r
Beta
3,333
,036
1,245
,010
,683
T
91,741
119,857
Sig.
,000
,000
Interpretation Koeffizient: Wenn man die Wochenarbeitszeit um ein Prozent
erhöht, verändert sich das Einkommen um 1,245%
®
• Interpretation wenn Variablen logarithmiert sind:
Abhängige
Variable
Unabhängige
Variable
Interpretation
y
x
Wenn man x um eine Einheit erhöht,
verändert sich y um β1 Einheiten
y
ln x
Wenn man x um ein Prozent erhöht,
verändert sich y um β1/100 Einheiten
ln y
x
Wenn man x um eine Einheit erhöht,
verändert sich y um 100β1 Prozent (SemiElastizität)
ln y
ln x
Wenn man x um ein Prozent erhöht,
verändert sich y um β1 Prozent (Elastizität)
®
Residualplot zur Prüfung von Homoskedastizität
GRAPH
/SCATTERPLOT PRE_2 with RES_2.
logarithmiert
Originalvariablen
®
Prüfung der Modellprämissen
b) Es enthält die relevanten erklärenden Variablen
• Das korrekt spezifizierte Regressionsmodell sollte alle
relevanten Einflussgrößen von Y enthalten.
• Eine Unvollständigkeit des Modells (Underfitting) kann folgende
Auswirkungen haben:
•
•
•
Sofern keine Korrelation von nicht berücksichtigten Variablen mit
im Model berücksichtigten Variablen besteht hat dies nur
Auswirkungen einer Verzerrung von b0, da der Erwartungswert der
Störgröße nicht mehr Null ist (wie bei Messfehler).
Größeres Problem bei positiver Korrelation zwischen
berücksichtigten Variablen und Störterm (Cov(xjk, ek) > 0):
Schätzung für b würde zu groß ausfallen, da die Variation der abh.
Variable, die vom Störterm kömmt, fälschlich Xj zugeordnet wird
Verletzung von (2) Keine Korrelation zwischen erklärenden
Variablen und Störgröße
®
Prüfung der Modellprämissen
•
Overfitting: Neben der Vernachlässigung relevanter Variablen
kann es auch vorkommen, dass ein Modell zu viele erklärende
Variablen enthält
•
•
•
•
•
Gefahr, Modell ohne sachlogische Prüfung zu überfrachten ->
Modellsparsamkeit
Folge sind ineffiziente Schätzer: Die Varianz der Schätzer ist nicht
mehr minimal.
Relevante Einflussfaktoren können nicht signifikant erscheinen, da
die Wirkung nicht mehr präzise ermittelt werden kann
Irrelevante Variablen können irrtümlich statistisch signifikant
erscheinen, obgleich sie nur zufällig mit der abhängigen Variable
korrelieren
Ausschlaggebend bei der Analyse sind theoretische und
sachlogische Überlegungen
®
Verbesserung des Modells
Anzunehmen ist, dass auch die Höhe des
Berufsabschlusses über das Einkommen mitbestimmt
FREQUENCIES VARIABLES=max1202
/ORDER=ANALYSIS.
Dummyvariablen, da kategorial
COMPUTE lehre = max1202.
Execute.
IF (max1202 EQ 2) lehre = 1.
if (max1202 EQ 1 OR max1202 EQ 3 OR max1202 EQ 4 OR max1202 EQ 9)
lehre = 0.
Execute.
Für Meister, Hochschule und ohne Ausbildung analog
®
Verbesserung des Modells
COMPUTE meister = max1202.
Execute.
IF (max1202 EQ 3) meister = 1.
IF (max1202 EQ 1 OR max1202 EQ 2 OR max1202 EQ 4 OR max1202 EQ 9) meister = 0.
Execute.
COMPUTE hochschule = max1202.
Execute.
IF (max1202 EQ 4) hochschule = 1.
IF (max1202 EQ 1 OR max1202 EQ 2 OR max1202 EQ 3 OR max1202 EQ 9) hochschule = 0.
Execute.
COMPUTE ohne = max1202.
Execute.
IF (max1202 EQ 1) ohne = 1.
IF (max1202 EQ 2 OR max1202 EQ 3 OR max1202 EQ 4 OR max1202 EQ 9) ohne = 0.
Execute.
FREQUENCIES VARIABLES=lehre meister hochschule ohne
/ORDER=ANALYSIS.
®
Verbesserung des Modells
Neuberechnung des Regressionsmodells zusätzlich mit
Berufsabschluss
• Referenzkategorie sollte interpretierbar und groß genug sein.
Hier: Personen ohne beruflichen Abschluss.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA COLLIN TOL
/NOORIGIN
/DEPENDENT lnf518_imp
/METHOD=ENTER lnf200 lehre meister hochschule
/RESIDUALS DURBIN
/SAVE PRED RESID.
®
Verbesserung des Modells
Modellzusammenfassungb
Modell
Korrigiertes R- Standardfehler Durbin-WatsonR
R-Quadrat
Quadrat
des Schätzers
Statistik
,753
,567
,567
,42760
1,935
1
ANOVAb
Modell
1
Regression
Nicht
standardisierte
Residuen
Gesamt
Quadratsumme
3938,779
3010,241
6949,021
Mittel der
df
Quadrate
4
984,965
16464
,183
F
5385,620
Sig.
,000
16468
®
Verbesserung des Modells
Koeffizientena
Modell
1 (Konstante)
logarithmierte
durchschnittliche
Wochenarbeitszeit
lehre
meister
hochschule
Nicht standardisierte
Koeffizienten
Regressions StandardkoeffizientB
fehler
3,225
,034
1,185
,009
,205
,438
,638
,013
,018
,014
Standardisierte
Koeffizienten
Beta
T
96,137
,650 124,943
,154
,164
,432
15,720
24,106
45,785
Sig.
,000
,000
,000
,000
,000
Interpretation
– Wenn man die Wochenarbeitszeit um ein Prozent erhöht, verändert sich das
Einkommen um 1,185%
– Im Vergleich zu Personen ohne beruflichen Abschluss haben Personen mit einer
Lehre ein um 100*0,2= 20 Prozent höheres Einkommen.
– Das Einkommen von Personen mit einem Hochschulabschluss ist 64% höher als das
von Personen ohne Berufsabschluss.
– Nicht jedoch: Das Einkommen von Personen mit einem Hochschulabschluss ist 20%
höher als das von Meistern!
®
Verbesserung des Modells
Homoskedastizität über Residualplot
GRAPH
/SCATTERPLOT PRE_3 with RES_3.
®
Verbesserung des Modells
• Besteht Multikollinearität?
Modell
1
(Konstante)
logarithmierte
durchschnittliche
Wochenarbeitszeit
lehre
meister
hochschule
Nicht standardisierte
Koeffizienten
Regressionsko StandardeffizientB
fehler
3,225
,034
1,185
,009
,204
,437
,637
,013
,018
,014
Kollinearitätsstatistik
Toleranz
VIF
,973
1,027
,273
,566
,296
3,663
1,768
3,382
®
Verbesserung des Modells
• Signifikanztest von Berufsabschluss:
• Merke: t-Test ist nicht für Dummy-Variablen geeignet, wenn diese
aus einer kategorialen Variable gebildet wurden.
• Stattdessen sollte deren Signifikanz mittels der R²-Change-Methode
überprüft werden. Dabei wird ein zusammengehöriger Block von
Dummy-Variablen gegen das Restmodell getestet
Erneute Berechnung ohne Wochenarbeitszeit:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE
/NOORIGIN
/DEPENDENT lnf518_imp
/METHOD=ENTER lnf200
/METHOD=ENTER lehre meister hochschule
/RESIDUALS DURBIN.
®
Verbesserung des Modells
Modellzusammenfassungc
Modell
Änderungsstatistiken
1
Standard- Änderung
RKorrigiertes fehler des
in RÄnderung in
R
Quadrat R-Quadrat Schätzers Quadrat
F
,683
,466
,466
,47478
,466 14361,105
2
,753
,567
,567
,42760
,101
1279,123
1
Sig.
Änderung
df2
in F
16467
,000
3
16464
df1
,000
DurbinWatsonStatistik
1,935
Der Einfluss des Berufsabschlusses auf das Einkommen ist signifikant
Regressionsanalyse gegenüber kleineren Verletzungen der
Modellprämissen relativ unempfindliches Verfahren
®
Übung
• Welche Faktoren könnten noch einen Einfluss auf das
Einkommen haben?
− z.B. Berufserfahrung
− Branche/Wirtschaftsbereich
− alte/neue Länder
®
Herunterladen