Lehrveranstaltung „Empirische Forschung und Politikberatung“ Sommersemester 2011 Regressionsanalyse ----10. Juni 2011 Stefan Koscheck, Bundesinstitut für Berufsbildung, AB 2.2: „Qualifikation, berufliche Integration und Erwerbstätigkeit“ ® Problemstellung • Analyse von Kausalbeziehungen zwischen einer metrisch abhängigen Variablen/Regressand und – einer unabhängige Variable/Regressor (binäre Regression – monokausale Beziehung) Y = f(X) – oder mehreren unabhängige Variablen (multiple Regression) mit metrischem oder nominalen Skalenniveau (Dummy) Y = f(X1, X2, …, Xj, …, XJ) • Tatsächliche Kausalitäten lassen sich jedoch nicht zweifelsfrei nachweisen. ® Problemstellung • Anwendungsbereiche der Regressionsanalyse: – Ursachenanalyse: Wie stark ist Einfluss von UV auf AV? – Wirkungsprognosen: Wie verändert sich AV bei Änderung von UV? – Zeitreihenanalysen: Wie verändert sich die AV im Zeitablauf? Y=f(t) • Bei nominalskalierter abhängige Variable: logistische Regression ® Verwendung der Regression in der Berufsforschung • Als Randgebiet der Arbeitsmarktforschung wird die lineare Regression hauptsächlich zur Bestimmung des Einkommens verwendet. – z.B.: Wie wirken sich Bildungsinvestitionen auf die Höhe des Einkommens aus? • • • • Beispiel hier anhand der Erwerbstätigenbefragung 2006: Höhe des monatlichen Bruttoverdienstes? [f518] Vereinbarte Wochenarbeitszeit ohne Überstunden [f200] Erweiterung um Berufsabschluss [max1202] ® Vorgehensweise • Beispiel anhand einer einfachen/binären linearen Regression: (1) Modellformulierung (2) Schätzung der Regressionsfunktion (3) Prüfung der Regressionsfunktion (4) Prüfung der Regressionskoeffizienten (5) Prüfung der Modellprämissen ® Modellbildung • Bei OLS-Schätzung sollte Regressand metrisches Skalenniveau aufweisen. Typisches Beispiel: Einkommen • In ETB 2006: – f518 „Höhe des monatlichen Bruttoverdienstes“ – exp_wage_imp_extr „Imputierter Lohn für Extremwerte/ fehlende Lohnangabe (entlogarithmiert) • Einteilung in abhängige und unabhängige Variable anhand theoretischer und sachlogischer Überlegungen – Ursache-Wirkungs-Beziehung muss möglichst vollständig modelliert sein. – Hier: Das Einkommen ist abhängig von der geleisteten Arbeitszeit (f200) ® Modellbildung Dateninspektion Einkommen/Bruttoverdienst: RECODE f518 (99999=SYSMIS) (99998=SYSMIS). EXECUTE. DESCRIPTIVES VARIABLES=f518 /STATISTICS=MEAN STDDEV MIN MAX. DESCRIPTIVES VARIABLES=exp_wage_imp_extr /STATISTICS=MEAN STDDEV MIN MAX. GRAPH /HISTOGRAM=f518. GRAPH /HISTOGRAM=exp_wage_imp_extr. ® Modellbildung Generierung einer neuen Variablen aus f518 & exp_wage_imp_extr : f518_imp compute f518_imp = exp_wage_imp_extr. if (missing(exp_wage_imp_extr)) f518_imp = f518. VARIABLE LABELS f518_imp Höhe des monatlichen Bruttoverdienstes inklusive imputierter Werte. DESCRIPTIVES VARIABLES=f518_imp /STATISTICS=MEAN STDDEV MIN MAX. GRAPH /HISTOGRAM=f518_imp. ® Modellbildung Dateninspektion Arbeitszeit: RECODE f200 (97=SYSMIS) (99=SYSMIS). EXECUTE. DESCRIPTIVES VARIABLES=f200 /STATISTICS=MEAN STDDEV MIN MAX. GRAPH /HISTOGRAM=f200. ® Modellbildung Ausschluss von Personen in öffentlich geförderten Stellen (z.B. Ein-Euro-Jobber) und mit Stundenlohn unter 2,75 Euro http://www.boeckler.de/show_mindestlohn.html bzw. über 200 Euro if (f508 = 1) f518_imp = 0. COMPUTE stdlohn=f518_imp/4.345/f200. EXECUTE. VARIABLE LABELS stdlohn Stundenlohn. GRAPH /HISTOGRAM stdlohn. DESCRIPTIVES VARIABLES=stdlohn /STATISTICS=ALL. SELECT IF (stdlohn ge 2.75 and stdlohn le 200). ® Modellbildung GRAPH /HISTOGRAM=f518_imp. ® Modellbildung Prüfung eines vermuteten linearen Zusammenhangs anhand grafischer Darstellung: Scatterplot GRAPH /SCATTERPLOT (bivariate) = f200 with f518_imp. ® Schätzung der Regressionsfunktion • • Fragestellung der Analyse: Schätzung der Wirkung der Arbeitszeit auf das monatliche Bruttoeinkommen. Zur Schätzung der abhängigen Variable Y (Einkommen) spezifizieren wir demnach folgende Funktion ^ Y = b0 + b1X + E wobei ^ Y = Schätzung der abhängigen Variablen Y (Einkommen) b0 = konstantes Glied b1 = Regressionskoeffizient X = unabhängige Variable (Arbeitszeit) E = Residualvariable, die die Abweichungen einzelner Realisationen der abhängigen Variable vom jeweiligen Prognosewert erfasst. ^ Für einzelne Werte von Y und X schreiben wir: ^ yk = b0 + b1xk + ek (k = 1, 2, …, K) ® Schätzung der Regressionsfunktion • Die Funktion bildet eine Gerade und wird deshalb auch als Regressionsgerade bezeichnet. Sie ist durch 2 Parameter bestimmt: – Das konstante Glied b0 • Schnittpunkt der Geraden mit Y-Achse – Den Regressionskoeffizienten b1 • Gibt geometrisch gesehen die Steigung oder Neigung der Geraden wieder. • Wichtige inhaltliche Bedeutung, da er angibt um wie viel Einheiten sich Y vermutlich ändert, wenn sich X um eine Einheit ändert. • Die Residualgröße e – Die in der Regressionsgleichung nicht erfassten Einflussgrößen der empirischen Y-Werte schlagen sich in Abweichungen von der Regressionsgerade nieder, welche als Residuen e bezeichnet werden. • Unberücksichtigte Einflussgrößen • Fehler in den Daten: Messfehler, Auswahlfehler • Ziel: Summe der quadrierten Residuen = min! (OLS) ® Schätzung der Regressionsfunktion yk ek ^ yk ® Schätzung der Regressionsfunktion Berechnung der Regressionsfunktion REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA CI /NOORIGIN /DEPENDENT f518_imp /METHOD=ENTER f200. ® Schätzung der Regressionsfunktion • Deskriptive Statistik: • Einfache Korrelation der Variablen. ® Schätzung der Regressionsfunktion Modell 1 (Konstante) Vereinbarte Wochenarbeitszeit ohne Überstunden Nicht standardisierte Standardisierte Koeffizienten Koeffizienten RegressionskoeffizientB Standardfehler Beta -9,566 36,921 74,625 1,045 ,486 Interpretation der Koeffizienten • • Regressionskoeffizient b stellt den durchschnittlichen Betrag dar, den die abhängige Variable zunimmt, wenn die unabhängige Variable um eine Einheit ansteigt und alle anderen unabhängigen Variablen konstant gehalten werden. => Steigung der Regressionsgeraden Bei mehr als einer unabhängigen Variablen handelt es sich um den partiellen Regressionskoeffizient. – In unserem Beispiel: Die Erhöhung der Wochenarbeitszeit um eine Stunde würde zu einer Steigerung des Bruttomonatslohnes um 74,63 Euro führen. ® Schätzung der Regressionsfunktion Modell 1 (Konstante) Vereinbarte Wochenarbeitszeit ohne Überstunden Standardisierte Nicht standardisierte Koeffizienten Koeffizienten RegressionskoeffizientB Standardfehler Beta -9,566 36,921 74,625 1,045 ,486 Interpretation der Koeffizienten • Die Größe des Regressionskoeffizienten kann nicht als Maß für die Wichtigkeit der betreffenden Variablen angesehen werden, da sie auch von der Skala abhängig sind, auf der die Variable Xj gemessen wurde. • Nur die standardisierten Regressionskoeffizienten (Beta-Werte) sind für einen Vergleich der Wichtigkeit der unabhängigen Variablen geeignet. • Der standardisierte Regressionskoeffizeint berechnet sich, indem der nicht standardisierte Koeffizient mit dem Verhältnis von (Standardabweichung von Xj / Standardabweichung von Y) multipliziert wird. ® Prüfung der Regressionsfunktion Prüfung der Modellgüte • Wie gut passt sich das Modell an die Daten an? R² • Wie gut ist die Regressionsfunktion als Modell der Realität geeignet? a. Prüfung der Regressionsfuktion F-Statistik b. Prüfung der Regressionskoeffizienten T-Statistik ® Prüfung der Regressionsfunktion Aufgenomme/Entfernte Variablen: • Hier : Einschlußverfahren => auch schrittweise (explorativ) möglich. Modellgüte: • R² (multiple Determinationskoeffizient) = Anteil der Varianz in der abhängigen Variable, die durch die unabhängige/n Variable/n erklärt wird. Wertebereich zwischen 0 und 1. • Adjusted R² = korrigiert für die Anzahl der verwendeten unabhängigen Variablen. Kommt jedoch eher bei kleinen Fallzahlen zu tragen. • Standardfehler des Schätzers (Standard Error of Estimate (SEE)) stellt die Standardabweichung der Residuen dar. In einem guten Model ist der Standardfehler des Schätzers kleiner als die Standardabweichung der abhängigen Variable. In einem guten Modell sollte der Mittelwert der abhängigen Variable auch < 2*SEE sein. ® Prüfung der Regressionsfunktion Signifikanztest des Gesamtmodells (F-Test) • • • Der F-Test dient der Prüfung der Signifikanz von R². Wenn die Signifikanz von R²<0.05 ist, dann kann darauf geschlossen werden, dass das Model einen Zusammenhang erklärt, der nicht zufällig sein kann, d.h. der auch in der Grundgesamtheit geben ist. Die Nullhypothese, dass kein linearer Zusammenhang zwischen der unabhängigen und abhängigen Variablen existiert, kann demnach verworfen werden. Der Signifikanztest von R² ist somit zugleich ein Signifikanztest des Modells. Der empirische F-Wert ist das Verhältnis zwischen der Mittel der Quadrate des Modells (Regression) geteilt durch das Mittel der Quadrate des Fehlers (Residuen) hier also 7519000000/1473307,357=5103,576. Der ermittelte empirische F-Wert wird daraufhin mit einem theoretischen F-Wert (abhängig von Irrtumswahrscheinlichkeit und Freiheitsgraden) verglichen. ® Prüfung der Regressionskoeffizienten 95,0% Konfidenzintervalle für B T Sig. -,259 71,439 ,796 ,000 Untergrenze -81,936 72,578 Obergrenze 62,804 76,673 Signifikanztest der Regressionskoeffizienten (T-Test) • • • • • Die t-Statistik wird verwendet, um zu testen ob der individuelle Regressionskoeffizient signifikant von 0 verschieden ist. Weicht der empirische t-Wert (bj / Standardfehler von bj ) stark von 0 ab und ist der Absolutbetrag größer als der theoretische t-Wert unter Vorgabe einer bestimmten Vertrauenswahrscheinlichkeit, dann kann die Nullhypothese verworfen werden. Das jeweilige Signifikanzniveau gibt an, wie wahrscheinlich der berechnete Regressionskoeffizient von 0 verschieden ist. Beachte: Einseitiger oder zweiseitiger t-Test ist abhängig vom Model Für Dummy-Variablen sagt der t-Test nichts aus! ® Prüfung der Regressionskoeffizienten 95,0% Konfidenzintervalle für B T Sig. -,259 71,439 ,796 ,000 Untergrenze -81,936 72,578 Obergrenze 62,804 76,673 Signifikanztest der Regressionskoeffizienten (T-Test) • Das Konfidenzintervall ist folgendermaßen zu interpretieren: • Mit einer Vertrauenswahrscheinlichkeit von …Prozent liegt der wahre Regressionskoeffizient der Variable Wochenstunden zwischen den Werten von 72,6 und 76,7 Euro. • Je größer das Konfidenzintervall, desto unsicherer ist die Schätzung des Regressionskoeffizienten für die Grundgesamtheit. ® Prüfung der Modellprämissen Die Güte der Schätzung für die Regressionsparameter, die sich mittels der KleinsteQuadrate-Methode erzielen lassen, sowie auch die Anwendbarkeit der Tests zur Überprüfung der Güte hängen von gewissen Annahmen ab: J yk = ß + ∑ßj * xjk + uk j=1 (1) (2) (3) (4) (5) Die Störgrößen uk haben den Erwartungswert Null. Es besteht keine Korrelation zwischen den erklärenden Variablen und der Störgröße Die Störgrößen haben eine konstante Varianz (Homoskedastizität) Die Störgrößen sind unkorreliert (keine Autokorrelation), Zwischen den erklärenden Variablen Xj besteht keine lineare Abhängigkeit (keine perfekte Multikollinearität) (6) Das Modell ist richtig spezifiziert, d.h. (1) Es ist linear in den Parametern β0 und βj (2) Es enthält die relevanten erklärenden Variablen, (3) Die Zahl der zu Schätzenden Paramter (J+1) ist kleiner als die Zahl der vorliegenden Beobachtungen (K). (7) Die Störgrößen sind normalverteilt (Wichtig für Signifikanztests). ® Prüfung der Modellprämissen Unter den ersten sechs Annahmen liefert die Kleinste-Quadrate-Methode (OLS) lineare Schätzfunktionen für die Regressionsparameter, die alle wünschenswerten Eigenschaften von Schätzern besitzen, • d.h. sie sind unverzerrt (erwartungstreu) und effizient • BLUE (Best Linear Unbiased Estimators) ® Prüfung der Modellprämissen (1) Störgrößen haben den Erwartungswert Null. – Die Existenz der Störgröße ist auf unberücksichtigte Einflussgrößen sowie Fehler in den Daten (Messfehler & Auswahlfehler) zurückzuführen. – Wenn im Regressionsmodell alle systematischen Einflussgrößen explizit berücksichtigt werden, dann umfasst die Störvariable nur zufällige Effekte, die positive und negative Abweichungen zwischen beobachteten und geschätzten Werten verursachen. – Es wird erwartet, dass sich die Schwankungen im Mittel ausgleichen, d.h. Erwartungswert = 0. – Verletzung bei systematischen Messfehlern: Da der Störterm in der Regression erzwungenermaßen gleich 0 ist, führen Messfehler zu einer Verzerrung des geschätzten Konstante (bzw. der Regressionskoeffizienten wenn keine Konstante spezifiziert wird). ® Prüfung der Modellprämissen (2) Es besteht keine Korrelation zwischen den erklärenden Variablen und der Störgröße. − − − − Aus dem Fehlen relevanter Einflussgrößen (underfitting) im Regressionsmodell kann eine Verzerrung der Schätzwerte resultieren. Wenn keine Korrelation zwischen den berücksichtigten erklärenden Variablen und der Störgröße besteht ist dies relativ unproblematisch: Erwartungswert Störgröße ~= 0, d.h. Auswirkungen lediglich auf die Konstante. Wenn dagegen Cov(xjk, ek) > 0, d.h. eine positive Korrelation zwischen Variable j und der Störgröße besteht, werden die Koeffizienten für die unabhängigen Variablen überschätzt. Denn der Teil der Variation von Y, der vom Störterm kommt, würde fälschlich Variable Xj zugeordnet. ® Prüfung der Modellprämissen (3) Die Störgrößen haben eine konstante Varianz (Homoskedastizität) – Residuen müssen zufällig um die geschätzte unabhängige Variable verteilt sein. D.h. die Varianz der Residuen muss für alle Werte der unabhängigen Variablen konstant sein. – Ist dies nicht der Fall, wird die Schätzung ineffizient und der Standardfehler des Regressionskoeffizienten verfälscht. Schätzung des Konfidenzintervalls des t-Tests wird ungenau. – Ursachen können sein: • Ein Interaktionseffekt zwischen der gemessenen unabhängigen Variablen und einer nicht gemessenen, nicht in das Modell integrierten Variable • Zunehmende Messfehler in einer Reihe von Beobachtungen, etwa durch nachlassende Aufmerksamkeit • Nichtlinearität • Einige der unabhängigen Variablen sind verzerrt ® Prüfung der Modellprämissen e e Homoskedastizität Heteroskedastizität 0 0 Ŷ Ŷ ® Prüfung der Modellprämissen Aufdecken von Heteroskedastizität • • Visuelle Inspektion der Residuen (Scatterplot gegen geschätzte Werte von Y) Goldfeld/Quandt-Test (testet, ob Varianzen der Residuen in zwei Unterstichproben identisch sind) Lösung bei Heteroskedastizität • • • • Transformation der abhängigen Variablen bzw. der gesamten Regressionsbeziehung, z.B. Logarithmierung Gewichtete Kleinste Quadrate Schätzung (WLS) (kleine Residuen werden bei der Berechnung der b-Koeffizienten stärker gewichtet) =Y Variable, die Ursache ist für Heteroskedastizität wird als Gewicht benutzt. Berechnung eigener Modelle für unterschiedliche Abschnitte der abhängigen Variable (etwa separat für niedriges, mittleres und hohes Einkommen) Regression generell aber robustes Verfahren ® Prüfung der Modellprämissen Für visuelle Inspektion: Erneute Berechnung der Regression unter Speichern der vorhergesagten Werte und Residuen in eigene Variablen REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /NOORIGIN /DEPENDENT f518_imp /METHOD=ENTER f200 /SAVE PRED RESID. ® Prüfung der Modellprämissen Plot der Schätzer der abhängigen Variable (PRE_1) auf der X-Achse gegen die Residuen (RES_1) auf der Y Achse GRAPH /SCATTERPLOT PRE_1 with RES_1. ® Prüfung der Modellprämissen • Mit steigendem vorhergesagtem Einkommen nehmen die Residuen zu (typisches Dreiecksmuster der Heteroskedastizizät). • Zudem existieren Ausreißer mit großen Residuen, welche die Resultate verfälschen. • Lösung: • Transformation der Variablen, welche die Ausreißer näher in die Mitte nehmen (Wurzel, Logarithmus, Inverse (x = 1/x)) • Ausschluss aus der Regression und Erklärung in einem separaten Modell • Ausreißer können über Einflussstatistiken identifiziert werden: • DfBeta • Standardisiertes DfBeta • Zentrierte Hebel-Statistik (leverage) • Mahalanobis Distanz • Cook‘s Distance ® Prüfung der Modellprämissen (4) Die Störgrößen sind unkorreliert • Autokorrelation: Die Annahme einer linearen Regression ist, dass die Residuen in der Grundgesamtheit unkorreliert sind. Trifft dies nicht zu, spricht man von Autokorrelation. • Vor allem bei Zeitreihen möglich: Abweichungen nicht zufällig, sondern abhängig von vorangegangenem Beobachtungswert • Folge von Autokorrelation: Verzerrung des Standardfehlers der Regressionskoeffizienten und deren Konfidenzintervalle. ® Prüfung der Modellprämissen Aufdeckung von Autokorrelation: – Visuelle Inspektion durch Residualplot: Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander, bei negativer starke Schwankungen e e Positive Autokorrelation 0 Negative Autokorrelation 0 Ŷ Ŷ ® Prüfung der Modellprämissen Aufdeckung von Autokorrelation: – Rechnerisch mit Durbin-Watson Test, d.: 0<d<4. Bezieht sich auf Aufeinanderfolge der Residuen beobachteter Werte – Nahe 0 extrem positive Autokorrelation (d.h. Werte liegen nahe beieinander) – Nahe 4 extrem negative Werte (d.h. starke Sprünge in Residuen). – Um 2 keine Autokorrelation ® Prüfung der Modellprämissen Durbin-Watson-Test (aber: keine Zeitreihe) REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /NOORIGIN /DEPENDENT f518_imp /METHOD=ENTER f200 /RESIDUALS DURBIN. ® Prüfung der Modellprämissen (5) Zwischen den erklärenden Variablen Xj besteht keine lineare Abhängigkeit (keine perfekte Multikollinearität) • Das lineare Regressionsmodell basiert auf der Annahme, dass die Regressoren nicht exakt linear abhängig sind. • D. h. ein Regressor darf sich nicht als lineare Funktion der übrigen Regressoren darstellen lassen. • In Praxis kaum perfekte Multikollinearität. − Beispiele: Alter und Geburtsjahr, Aufnahme aller Dummy-Variablen bei Umwandlung einer kategorialen Variable • Ein hoher Grad an Multikollinearität wirkt sich auf die Reliabilität aus: • Da sich der Standardfehler der Regressionskoeffizienten vergrößert, werden die Schätzungen unzuverlässiger ® Prüfung der Modellprämissen • Bei Multikollinearität überschneiden sich die Streuungen der unabhängigen Variablen, was einerseits zu Redundanz in den Daten und damit weniger Information führt. Andererseits lassen sich die vorhandenen Informationen nicht mehr eindeutig den Variablen zuordnen. Venn-Diagramm • Anzeichen für Multikollinearität: − Signifikantes Bestimmtheitsmaß R² aber insignifikante Koeffizienten. − Starke Veränderung der Regressionskoeffizienten bei Erweiterung oder Reduktion des Modells ® Prüfung der Modellprämissen Verdacht auf Multikollinearität: Wie begegnen? • Identifikation der betroffenen Variablen − − − − − • Entfernung der identifizierten Variable(n) aus dem Regressionsmodell − • • Durch Korrelationsmatrix: Hohe Korrelationskoeffizienten zwischen unabhängigen Variaben. Aber: Nur paarweise Abhängigkeiten, nicht zwischen mehreren Variablen Tatsächliche Aufdeckung von Multikollinearität indem eine Regression jeder UV auf die übrigen UV‘s durchgeführt wird. Bei R²j = 1 oder nahe 1 kann die Variable durch die anderen erzeugt werden und ist überflüssig, Oder auch die sogenannte „Toleranz“ = Tj = 1 –R²j Der Kehrwert der Toleranz ist der „Variance Inflation Faktor“ = VIFj = 1/(1R²j), der nach Daumenregel nicht größer als 4 sein sollte. Problematisch jedoch bei zentralen Variablen der Untersuchung Erhöhung des Stichprobenumfangs Transformationen oder Ersetzen von Variablen durch Faktoren mittels Faktorenanalyse ® Prüfung der Modellprämissen (6) Das Modell ist richtig spezifiziert a) Es ist linear in den Parametern • Linearität: Wenn eine lineare Prozedur auf einen nicht-linearen Zusammenhang angewandt wird, werden die Schätzwerte der Parameter verzerrt • Nicht-Linearität lässt sich häufig schon bei Betrachtung des Punktediagramms identifizieren • Durch Transformation kann die Beziehung linearisiert werden (z.B. Logarithmierung) • Im Mehrvariablenfall kann Nicht-Linearität dadurch auftreten, dass sich die Wirkungen von unabhängigen Variablen nichtadditiv verknüpfen. Dies kann über Interaktionseffekte zwischen Variablen modelliert werden. ® Prüfung der Modellprämissen Transformation durch Logarithmierung: compute lnf518_imp = ln(f518_imp). VARIABLE LABELS lnf518_imp logarithmiertes Bruttoeinkommen im Monat. compute lnf200 = ln(f200). VARIABLE LABELS lnf200 logarithmierte durchschnittliche Wochenarbeitszeit. GRAPH /SCATTERPLOT lnf200 with lnf518_imp. ® • Neue Schätzung mit lny = β0 + β1lnx + e REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /NOORIGIN /DEPENDENT lnf518_imp /METHOD=ENTER lnf200 /RESIDUALS DURBIN /SAVE PRED RESID. ® Modellzusammenfassung Modell 1 Modell 1 Regression Nicht standardisierte Residuen Gesamt Modell 1 (Konstante) logarithmierte durchschnittliche Wochenarbeitszeit StandardKorrigiertes fehler des R R-Quadrat R-Quadrat Schätzers ,683 ,466 ,466 ,47473 ANOVAb QuadratMittel der summe df Quadrate F 3237,639 1 3237,639 14365,814 3712,087 16471 ,225 6949,726 DurbinWatsonStatistik 1,941 Sig. ,000 16472 Koeffizientena Standardisiert Nicht standardisierte e Koeffizienten Koeffizienten Regressions- Standardfehle koeffizientB r Beta 3,333 ,036 1,245 ,010 ,683 T 91,741 119,857 Sig. ,000 ,000 Interpretation Koeffizient: Wenn man die Wochenarbeitszeit um ein Prozent erhöht, verändert sich das Einkommen um 1,245% ® • Interpretation wenn Variablen logarithmiert sind: Abhängige Variable Unabhängige Variable Interpretation y x Wenn man x um eine Einheit erhöht, verändert sich y um β1 Einheiten y ln x Wenn man x um ein Prozent erhöht, verändert sich y um β1/100 Einheiten ln y x Wenn man x um eine Einheit erhöht, verändert sich y um 100β1 Prozent (SemiElastizität) ln y ln x Wenn man x um ein Prozent erhöht, verändert sich y um β1 Prozent (Elastizität) ® Residualplot zur Prüfung von Homoskedastizität GRAPH /SCATTERPLOT PRE_2 with RES_2. logarithmiert Originalvariablen ® Prüfung der Modellprämissen b) Es enthält die relevanten erklärenden Variablen • Das korrekt spezifizierte Regressionsmodell sollte alle relevanten Einflussgrößen von Y enthalten. • Eine Unvollständigkeit des Modells (Underfitting) kann folgende Auswirkungen haben: • • • Sofern keine Korrelation von nicht berücksichtigten Variablen mit im Model berücksichtigten Variablen besteht hat dies nur Auswirkungen einer Verzerrung von b0, da der Erwartungswert der Störgröße nicht mehr Null ist (wie bei Messfehler). Größeres Problem bei positiver Korrelation zwischen berücksichtigten Variablen und Störterm (Cov(xjk, ek) > 0): Schätzung für b würde zu groß ausfallen, da die Variation der abh. Variable, die vom Störterm kömmt, fälschlich Xj zugeordnet wird Verletzung von (2) Keine Korrelation zwischen erklärenden Variablen und Störgröße ® Prüfung der Modellprämissen • Overfitting: Neben der Vernachlässigung relevanter Variablen kann es auch vorkommen, dass ein Modell zu viele erklärende Variablen enthält • • • • • Gefahr, Modell ohne sachlogische Prüfung zu überfrachten -> Modellsparsamkeit Folge sind ineffiziente Schätzer: Die Varianz der Schätzer ist nicht mehr minimal. Relevante Einflussfaktoren können nicht signifikant erscheinen, da die Wirkung nicht mehr präzise ermittelt werden kann Irrelevante Variablen können irrtümlich statistisch signifikant erscheinen, obgleich sie nur zufällig mit der abhängigen Variable korrelieren Ausschlaggebend bei der Analyse sind theoretische und sachlogische Überlegungen ® Verbesserung des Modells Anzunehmen ist, dass auch die Höhe des Berufsabschlusses über das Einkommen mitbestimmt FREQUENCIES VARIABLES=max1202 /ORDER=ANALYSIS. Dummyvariablen, da kategorial COMPUTE lehre = max1202. Execute. IF (max1202 EQ 2) lehre = 1. if (max1202 EQ 1 OR max1202 EQ 3 OR max1202 EQ 4 OR max1202 EQ 9) lehre = 0. Execute. Für Meister, Hochschule und ohne Ausbildung analog ® Verbesserung des Modells COMPUTE meister = max1202. Execute. IF (max1202 EQ 3) meister = 1. IF (max1202 EQ 1 OR max1202 EQ 2 OR max1202 EQ 4 OR max1202 EQ 9) meister = 0. Execute. COMPUTE hochschule = max1202. Execute. IF (max1202 EQ 4) hochschule = 1. IF (max1202 EQ 1 OR max1202 EQ 2 OR max1202 EQ 3 OR max1202 EQ 9) hochschule = 0. Execute. COMPUTE ohne = max1202. Execute. IF (max1202 EQ 1) ohne = 1. IF (max1202 EQ 2 OR max1202 EQ 3 OR max1202 EQ 4 OR max1202 EQ 9) ohne = 0. Execute. FREQUENCIES VARIABLES=lehre meister hochschule ohne /ORDER=ANALYSIS. ® Verbesserung des Modells Neuberechnung des Regressionsmodells zusätzlich mit Berufsabschluss • Referenzkategorie sollte interpretierbar und groß genug sein. Hier: Personen ohne beruflichen Abschluss. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL /NOORIGIN /DEPENDENT lnf518_imp /METHOD=ENTER lnf200 lehre meister hochschule /RESIDUALS DURBIN /SAVE PRED RESID. ® Verbesserung des Modells Modellzusammenfassungb Modell Korrigiertes R- Standardfehler Durbin-WatsonR R-Quadrat Quadrat des Schätzers Statistik ,753 ,567 ,567 ,42760 1,935 1 ANOVAb Modell 1 Regression Nicht standardisierte Residuen Gesamt Quadratsumme 3938,779 3010,241 6949,021 Mittel der df Quadrate 4 984,965 16464 ,183 F 5385,620 Sig. ,000 16468 ® Verbesserung des Modells Koeffizientena Modell 1 (Konstante) logarithmierte durchschnittliche Wochenarbeitszeit lehre meister hochschule Nicht standardisierte Koeffizienten Regressions StandardkoeffizientB fehler 3,225 ,034 1,185 ,009 ,205 ,438 ,638 ,013 ,018 ,014 Standardisierte Koeffizienten Beta T 96,137 ,650 124,943 ,154 ,164 ,432 15,720 24,106 45,785 Sig. ,000 ,000 ,000 ,000 ,000 Interpretation – Wenn man die Wochenarbeitszeit um ein Prozent erhöht, verändert sich das Einkommen um 1,185% – Im Vergleich zu Personen ohne beruflichen Abschluss haben Personen mit einer Lehre ein um 100*0,2= 20 Prozent höheres Einkommen. – Das Einkommen von Personen mit einem Hochschulabschluss ist 64% höher als das von Personen ohne Berufsabschluss. – Nicht jedoch: Das Einkommen von Personen mit einem Hochschulabschluss ist 20% höher als das von Meistern! ® Verbesserung des Modells Homoskedastizität über Residualplot GRAPH /SCATTERPLOT PRE_3 with RES_3. ® Verbesserung des Modells • Besteht Multikollinearität? Modell 1 (Konstante) logarithmierte durchschnittliche Wochenarbeitszeit lehre meister hochschule Nicht standardisierte Koeffizienten Regressionsko StandardeffizientB fehler 3,225 ,034 1,185 ,009 ,204 ,437 ,637 ,013 ,018 ,014 Kollinearitätsstatistik Toleranz VIF ,973 1,027 ,273 ,566 ,296 3,663 1,768 3,382 ® Verbesserung des Modells • Signifikanztest von Berufsabschluss: • Merke: t-Test ist nicht für Dummy-Variablen geeignet, wenn diese aus einer kategorialen Variable gebildet wurden. • Stattdessen sollte deren Signifikanz mittels der R²-Change-Methode überprüft werden. Dabei wird ein zusammengehöriger Block von Dummy-Variablen gegen das Restmodell getestet Erneute Berechnung ohne Wochenarbeitszeit: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE /NOORIGIN /DEPENDENT lnf518_imp /METHOD=ENTER lnf200 /METHOD=ENTER lehre meister hochschule /RESIDUALS DURBIN. ® Verbesserung des Modells Modellzusammenfassungc Modell Änderungsstatistiken 1 Standard- Änderung RKorrigiertes fehler des in RÄnderung in R Quadrat R-Quadrat Schätzers Quadrat F ,683 ,466 ,466 ,47478 ,466 14361,105 2 ,753 ,567 ,567 ,42760 ,101 1279,123 1 Sig. Änderung df2 in F 16467 ,000 3 16464 df1 ,000 DurbinWatsonStatistik 1,935 Der Einfluss des Berufsabschlusses auf das Einkommen ist signifikant Regressionsanalyse gegenüber kleineren Verletzungen der Modellprämissen relativ unempfindliches Verfahren ® Übung • Welche Faktoren könnten noch einen Einfluss auf das Einkommen haben? − z.B. Berufserfahrung − Branche/Wirtschaftsbereich − alte/neue Länder ®