Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 1 Einführung in die Grundlagen der Regressionsanalyse Da die Regressionsanalyse auf den bereits bekannten Konzepten der Varianz und Kovarianz beruht, empfiehlt es sich diese grundlegenden statistischen Maße kurz zu wiederholen. Hierbei gehen wir bei den entsprechenden Formeln von Stichprobenbefunden aus, die mit Hilfe der Inferenzstatistik auf die zugehörige Grundgesamtheit verallgemeinert werden können. Um die Formeln zu veranschaulichen, werten wir auf Länderebene die EUROBAROMETER-Untersuchung Nr. 30 zur Fremdenfeindlichkeit in Europa 1988 aus. Als abhängige Variable dient hierbei der Prozentsatz der befragten “Inländer”, welche die Ansicht vertreten haben, dass zu viele Ausländer im Lande leben. Zur Erklärung der Zustimmungsunterschiede dienen die “objektiven Indikatoren” Anteil der EG-Ausländer, Anteil der Nicht-EG-Ausländer sowie die Arbeitslosenquote 1988. Zu ihnen gesellt sich als “weicher“ Faktor der in derselben Untersuchung ermittelte Anteil der Postmaterialisten im Sinne Ingleharts. Tab.1: Subjektive Bewertung der Größe der Ausländerpopulation durch Inländer in der Europäischen Gemeinschaft 1988 Frage: "Was würden Sie - ganz allgemein gesehen- zur Anzahl der Menschen anderer Nationen in unserem Lande sagen: sind das zu viele, viele, aber nicht zu viele - oder nicht viele ?" LAND B DK D F GR GB IRL I L NL P E PZUVIELE 45,00 37,00 49,00 46,00 22,00 47,00 8,00 36,00 31,00 31,00 15,00 20,00 PEGAUSL 5,50 0,50 2,30 2,90 1,10 1,30 1,90 0,20 24,30 1,10 0,20 0,50 PNEGAUSL 3,20 2,00 5,30 3,90 0,80 1,80 0,50 0,40 2,00 2,80 0,60 0,40 PPOSTMAT 13,10 19,70 25,30 16,10 9,00 18,30 10,20 12,30 13,10 24,20 5,60 13,50 Quellen: EUROBAROMETER Nr. 30 (1988) und EUROSTAT ARBEITSL 8,10 7,40 5,10 9,00 7,50 6,40 15,60 9,80 1,60 8,10 4,60 16,10 Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 2 Mit Hilfe des arithmetrischen Mittels und der Varianz können wir die univariate Verteilung einer intervall-oder ratioskalierten Variablen beschreiben: 1. a) Beschreibung der zentralen Tendenz: Der Arithmetrischer Mittelwert n x b) M xi i 1 n Beschreibung der Streuung um den Mittelwert: Die Varianz als die durchschnittliche quadrierte Abweichung vom arithmetrischen Mittelwert n S2 c) 2 M ( xi x ) i 1 n1 Die Standardabweichung: Die durchschnittliche Abweichung vom arithmetrischen Mittelwert S S2 Zur Beschreibung des Zusammenhang zweier metrischer Variablen verwenden wir die Kovariation, die Kovarianz sowie die Korrelation. Während die Kovariation lediglich auf der Ebene der Wertepaare das Produkt seiner Abweichung in X und Y vom jeweiligen Mittelwert aufsummiert, standardisiert die Kovarianz diese Summe zusätzlich am Stichprobenumfang. Beide Maße besitzen weder definierte Unter- noch Obergrenzen, so dass die Stärke des Zusammenhanges zwischen beiden Merkmalen nicht normiert ist. Daher lassen sich auch keine Aussagen darüber zu, ob dieser Zusammenhang stark oder schwach ausgeprägt ist. Erst der von Karl Pearson zusammen mit Francis Galton 1890 entwickelte Produkt-Moment-Korrelations-Koeffizient lässt diese Aussagen zu, da er die Kovarianz am Produkt der Standardabweichungen von X und Y standardisiert und somit über einen definierten Wertebereich von [-1; +1] verfügt. Sein Vorzeichen gibt jeweils die Richtung der Beziehung an. Hierbei setzen wir aber voraus, dass es sich um einen linearen Zusammenhang handelt. Erhalten wir einen Koeffizienten von Null, so besagt dies lediglich, dass die Linearitätsannahme nicht erfüllt ist. Ob überhaupt kein Zusammenhang vorliegt oder ob er einen kurvenlinearen Verlauf annimmt, können wir mit Hilfe des von Galton entwickelten Streudiagramm feststellen. Hierzu tragen wir alle Wertepaare in einem zweiachsigen Koordinatensystem ab. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV 2. a) WS 2002/2003 - 3 Die Kovariation von Y und X: N Kovariation (y,x) ( xi x ) ( yi y ) i 1 b) Die Kovarianz von Y und X: N Kovarianz (y,x) c) ( xi x ) ( yi y ) i 1 n 1 Die Pearsonsche Produkt-Moment-Korrelation r: N ( xi x ) i 1 sx Pearsons Korrelation ry,x ( yi y ) sy n 1 Kovarianz (y,x) [ 1; 1] sx sy Um zu überprüfen, ob ein linearer Zusammenhang zwischen den Merkmalen Prozentsatz der Zustimmung “zu viele Ausländer im Land” und dem Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung besteht, zeichnen wir zunächst ein Streudiagramm beider Merkmale auf Länderebene. Wir gehen hierbei von der Forschungshypothese aus, dass je höher der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung ausfällt, desto höher ist die Furcht vor “Überfremdung”. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 4 60 Prozentsatz zu viele Ausländer 50 D GB 40 B F DK I L NL 30 GR E 20 P 10 IRL 0 0 1 2 3 4 5 6 Prozentsatz Nicht-EG-Ausländer Abb.1: Streudiagramm: Prozentsatz “Zu viele Ausländer “ auf Anteil der Nicht-EG -Ausländer an der Wohnbevölkerung (Quelle: EUROBAROMETER 30) Die Betrachtung der Abbildung 1 zeigt, dass erstens zwischen beiden Merkmalen ein linearer, Zusammenhang besteht. Zweitens bildet die ihn repräsentierende Gerade die Verteilung der Punkte im Euklidischen Raum nicht vollständig ab. Mit Hilfe der zuvor dargestellten Kontingenzmaße können wir die Stärke des Zusammenhangs numerisch bestimmen. Hierzu dient die folgende Arbeitstabelle, wobei wir auf Ländebene die Produkte der absoluten Abweichungen vom jeweiligen Mittelwert berechnet haben. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV Tab. 2: LAND WS 2002/2003 - 5 Berechnung der Kovariation, Kovarianz und Korrelation zwischen %-Zuviele-Ausländer und %-Nicht-EG-Ausländer 1988 PNEGAUSL: PZUVIELE: X Y B DK D F GR GB IRL I LUX NL P H 3,2 2,0 5,3 3,9 0,8 1,8 0,5 0,4 2,0 2,8 0,6 0,4 45 37 49 46 22 47 8 36 31 31 15 20 = 1,98 s(x) = 1,58 ( Xi X ) 1,22 0,02 3,32 1,92 -1,18 -0,18 -1,48 -1,58 0,02 0,82 -1,38 -1,58 ( Yi Y ) ( Xi X ) ( Y i Y ) 12,75 4,75 16,75 13,75 -10,25 14,75 -24,25 3,75 -1,25 -1,25 -17,25 -12,25 15,56 0,1 55,61 26,4 12,1 -2,66 35,89 -5,93 -0,03 -1,03 23,81 19,36 32,25 Kovariation = 179,18 13,59 Kovarianz = Korrelation= 16,29 0,76 Im Durchschnitt stimmten 32,25 % der Befragten dem Statement “Es gibt zu viele Ausländer im Land” zu, wobei die durchschnittliche Abweichung von dieser Tendenz rd. 13,6% beträgt. Hingegen stellen die Nicht-EG-Ausländer im Durchschnitt rd. 2 % der Wohnbevölkerung. Dieser Anteil schwankt auf der Ebene der 12 EG-Staaten im Durchschnitt um rd. 1,6 %. Beide Merkmale verfügen über sehr unterschiedliche Streuungen, was bei der Betrachtung der Zusammenhangsstärke kontrolliert werden muß. Für die Kovariation bzw. Kovarianz haben wir Koeffizienten von 179,18, bzw. 16,29 ermittelt. Der Pearsonsche Produkt-Moment-Korrelation beträgt +0,76. Auf letzteren stützt sich die inhaltliche Interpretation der Effektsstärke, da er neben dem Stichprobenumfang auch die unterschiedlichen Streuungen beider Merkmale berücksichtigt. Ein Koeffizient von +0,76 besagt, dass, wenn sich der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung um eine Standardabweichung von X erhöht, d.h., wenn er um 1,59 % steigt, dann nimmt die Zustimmung zum Item “Es gibt zu viele Ausländer” im Durchschnitt um 0,76 Standardabweichungen von Y (0,76*13,59 % = 10,33%) zu. Die Pearsonsche Korrelation belegt zwar einen starken Zusammenhang beider Merkmale, hierbei haben wir aber zu beachten, dass es sich um eine “ökologische Korrelation” handelt, die keinerlei Aufschluss über die Variation innerhalb der Länder zulässt. Da sich die Wohnsitze der ausländischen Bevölkerung nicht gleichermaßen auf die drei Siedlungstypen Ballungszentren, Verdichtungsgebiete und ländlicher Raum verteilen, sondern sie vor allem in Kernstädten zu finden sind, müssen wir dies bei der späteren Datenanalyse berücksichtigen, um “ökologische Fehlschlüsse” zu vermeiden. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV 3. WS 2002/2003 - 6 Das bivariate Regressionsmodell Im Gegensatz zur Korrelationsanalyse unterscheidet das Regressionsmodell zwischen dem abhängigen Merkmal (Kriterium) und den unabhängigen Merkmalen (Prädiktoren). Es geht daher immer von einer Kausalbeziehung zwischen Y und X aus, wobei es die Variation der abhängigen Variablen Y auf diejenige der unabhängigen Variablen X zurückführt. Da dies nicht vollständig leistbar ist, beinhaltet das Modell einen zusätzlichen Fehlerterm e, der den Einfluss aller nicht im Modell explizit enthaltenen Faktoren erfasst. Gleichung des bivariaten linearen Modellregressionsmodells: yi a b xi ei yi: Vektor der abhängigen Variable xi: Vektor der unabhängige Variable a: Regressionskonstante (Ordinatenabschnitt) b: unstandardisierter Regressionskoeffizient (Steigung) ei: Residuum Die uns unbekannten Koeffizienten a und b lassen sich mit der Hilfe der Kleinsten-Quadrate-Methode (Best Linear Unbiased Estimates -Schätzer) eindeutig bestimmen, wobei die Vorgehensweise zwei Schritte umfasst: 1. Zunächst zerlegen wir die Abweichungsquadrate der abhängigen Variablen in die Summen der durch das Regressionsmodell gebundenen und derjenigen der Fehlerquadrate (Zerlegung der quadrierten Distanzen). 2 2 2 M (yȳ) M (ŷȳ) M (yŷ) SSTotal SSRegression SSErrors Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV Abb.2: 2. WS 2002/2003 - 7 Zerlegung der Abweichungsquadrate im bivariaten Regressionsmodell (Greene 1993², S. 152) Anschließend bestimmen wir die Koeffizienten mit Hilfe der Kleinsten-QuadrateSchätzung dergestalt, dass die Summe der quadrierten Abweichungen zwischen den beobachteten und den geschätzten Werten der abhängigen Variablen ihr Minimum erreicht. 2 ei [ yi (a b#xi ) ]2 [ yi ŷ i]2 Minimum Im bivariaten Fall erfüllen die beiden folgenden Formel für die Regressionskonstante (Ordinatenabschnitt) und den Regressionskoeffizienten (Steigung) diese Bedingung: Berechnung der Regressionskonstante a (auch als b 0 abgekürzt ): Regressionskonstante a ȳ b # x̄ Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 8 Berechnung des unstandardisierten Regressionskoeffizienten b (der Steigung): n M (xi x )#(yi y ) i 1 Regressionskoeffizient b (n1) n 2 M ( xix ) Kovarianzy,x Varianzx i 1 (n1) Modellannahmen: 1. 2. 3. 4. 5. 6. Wir unterstellen einen linear-additiven Zusammenhang zwischen Y und X: Y=a+bx+0 Der Erwartungswert des Fehlerterms ist Null: E(0) = 0. Die Fehlerterme 0 verfügen über eine konstante Varianz (Homoskedastizität) Die Fehlerterme 0 korrelieren nicht über die Beobachtungen hinweg. D.h., sie sind seriell voneinander unabhängig. Die Fehlerterme 0 sind unabhängig vom linearen Prädiktor b’X. Die Fehlerterme 0 sind normalverteilt mit einem Erwartungswert Null und einer Varianz 12. 0i ~ N [0;1²] Abb. 3: Darstellung der Annahmen zum Fehlerterm im klassischen Regressionsmodell (Greene 1993, S. 144) Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 9 In unserem EUROBAROMETER-30-Datensatz dient der Prozentsatz der Zustimmung zum Item “Es gibt zu viele Ausländer im Land” als abhängige Variable. Zur Erklärung ihrer Variation wird der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung herangezogen. Die wichtigsten Bestandteile für die Formeln des Steigungskoeffizienten und des Ordinatenabschnittes haben wir bereits in Tab. 2 berechnet, so dass wir sie nur noch an der entsprechenden Stelle einsetzen müssen. Regressionskoeffizient b 16,289 1.5782 16.289 6.542 2,490 Regressionskonstante a 32,250 b #1,975 32,250 6,542#1,975 19,328 Formal gesehen gibt der “unstandardisierte Regressionskoeffizient” an, um wie viele absolute Einheiten sich Y ändert, wenn X um genau eine Einheit zunimmt. In unserem Fall bedeutet dies inhaltlich, dass die Zustimmung zur “fremdenfeindlichen Aussage” sich im Durchschnitt um rd. 6,5 Prozentpunkte erhöht, wenn der Anteil der Anteil der Nicht-EG-Ausländer um 1 % zunimmt. Hingegen gibt die Regressionskonstante formal gesehen an, welchen Wert Y im Durchschnitt annimmt, wenn X Null ist. In unserem Fall bedeutet dies, dass wir im Durchschnitt eine Zustimmungsrate von 19,33 % erwarten, wenn kein Nicht-EG-Ausländer im jeweiligen Land lebt. Die geschätzten Werte für Y erhalten wir, indem wir die Werte des Y-Abschnitts und der Steigung in die Regressionsgleichung einsetzen und für jede Beobachtung von X den zugehörigen geschätzten YWert berechnen. Berechnung der geschätzten Werte von Y: Ŷ Yˆ i a b # Xi Ŷ i 19,328 6,542 # Xi Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 10 60 Prozentsatz zu viele Ausländer 50 D GB 40 B F DK I L NL 30 GR E 20 P 10 IRL 0 R-Qu. = 0,5775 0 1 2 3 4 5 6 Prozentsatz Nicht-EG-Ausländer Abb. 4 : Prozentsatz der Zustimmung “Zu viele Ausländer” auf Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung mit geschätzter Regressionsgeraden Nachteil des unstandardisierten Regressionskoeffizienten b : Formal gesehen gibt der unstandardisierte Regressionskoeffizient an, um wie viele Einheiten sich Y schätzungsweise im Durchschnitt ändert, wenn X um eine absolute Einheit zunimmt. Deshalb ist der Regressionskoeffizient selbst von den Maßeinheiten von X und Y abhängig. Daher liegt eine Standardisierung wie beim Korrelationskoeffizienten r nicht vor. Messen wir beispielsweise zwei unabhängige Variablen in unterschiedlichen Maßeinheiten, so können wir die beiden unstandardisierten Regressionskoeffizienten nicht miteinander vergleichen. In unserem Fall träfe dies zu, wenn wir den Ausländeranteil in Prozent und den “Wohlstand des Landes” über das Bruttoinlandsprodukt pro Kopf in Euro messen. Verwenden wir beide Merkmale zur “Erklärung” der Fremdenfeindlichkeit jeweils in einem getrennten Regressionsmodell, so können ihre Effektstärken (Steigungskoeffizienten) nicht vergleichen. Einen Ausweg aus diesem Dilemma bietet der standardisierte Regressionskoeffizient, der sich aus dem Produkt der Steigung mit dem Quotienten der Standardabweichungen des Prädiktors und des Kriteriums ergibt. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 11 Berechnung des standardisierten Regressionskoeffizienten ß: Standardisierter Regressionskoeffizient b # Umkehrung: b # sy sx sx sy < [1;1] < ursprüngliche Wertebereich Vorteile: 1. Der standardisierte Regressionskoeffizient verfügt über einen von den ursprünglichen Maßeinheiten unabhängigen Wertebereich, der sich auf das Intervall [-1;+1] beschränkt. 2. Hierdurch lässt sich der standardisierte Regressionskoeffizient sowohl der Richtung als auch der Stärke nach eindeutig interpretieren. Ein Wert von Null bedeutet hierbei, dass kein linearer Zusammenhang vorhanden ist. Hingegen kennzeichnet ein Wert von + 1 den perfekten positiven Zusammenhang in dem Sinne, dass, wenn die unabhängige Variable X um eine Standardabweichung sx zunimmt, der Wert der abhängigen Variablen Y ebenfalls um eine Standardabweichung sy steigt. Ein standardisierter Koeffizient von - 1 belegt eine perfekte inverse Beziehung beider Merkmale, d. h., wenn X um eine Standardabweichung sX zunimmt, führt dies zu einer Verminderung von Y um eine Standardabweichung sY Nachteile: Der standardisierte Regressionskoeffizient eignet sich erstens nicht für den Vergleich desselben Modells in verschieden Stichproben, da in seine Berechnung die jeweils stichprobenabhängigen Standardabweichungen von X und Y einfließen. Daher greifen wir beim Vergleich desselben Regressionsmodells in verschiedenen Stichproben auf die unstandardisierten Regressionskoeffizienten zurück. Für Dummyvariablen darf zweitens der standardisierte Regressionskoeffizient ebenfalls nicht berechnet werden, da diese sich nicht um eine Standardabweichung ihrer selbst ändern können. Vielmehr nehmen sie stets um einen ganzen Wert von Null auf Eins zu. Ihr Steigungskoeffizient erfasst unmittelbar den geschätzten Gruppenunterschied der Kriteriumsvariablen zwischen der betrachteten Effektgruppe (1) und ihrer zugehörigen Vergleichsgruppe (0). Für unseren Beispieldatensatz berechnen wir den standardisierten Regressionskoeffizienten ß für den Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung zunächst über seine Formel. Da er im bivariaten Regressionsmodell identisch mit dem von Pearson entwickelten Produkt-Moment-Korrelationskoeffizienten r ist, ist diese Berechnung eigentlich nicht erforderlich. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV 6,542 # WS 2002/2003 - 12 1,578 0,760 13,586 Wie gut beschreibt das lineare Modell die Daten ? Die Güte der Modellpassung lässt sich mit Hilfe des Standardfehlers der Regression und des Determinationskoeffizienten R2 bestimmen. Den Standardfehler der Regression selbst interpretieren wir als das modellimmanent geschätzte durchschnittliche Residuum . Er gibt an, wie groß im Durchschnitt die Abweichung der Datenpunkte von der Regressionslinie ausfällt. Je größer der Betrag des Standardfehlers ist, desto schlechter beschreibt die Regressionsgerade die Verteilung der Datenpunkte. 1. Berechnung des Standardfehlers der Regression: n Standardfehler der Regression (yi ŷi)2 i 1 (n k 1) SSError (n k 1) n: Stichprobenumfang k: Anzahl der unabhängigen Variablen Hingegen handelt es sich beim Determinationskoeffizienten R2 um ein Maß der Proportionalen Fehlerreduktion (Proportional Reduction of Error), das angibt, wie viel Prozent der Varianz (Variation) von Y durch das unabhängige Merkmale X “gebunden” oder “erklärt” wird. Guttman (1977, S. 98) weist auf die Missverständlichkeit des Terminus “Erklärung” hin, indem er anmerkt, daß “proportion (or percentage) of variance is never explained. ... None of these words [ explanation, determination or causation, W.L.] has any theoretical meaning; their use represents wishful thinkings about the relative predictability of a variable in a given context, such thinking generally leading to percentages of “explanation” that add up to many times 100 per cent for the variable in question .” Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 13 Aus formaler Sicht gibt uns der Determinationskoeffizient R² an, wie viele Fehler wir bei der Vorhersage des Kriteriums Y weniger machen, wenn wir den Prädiktor X berücksichtigen. Wir zerlegen hierfür die Varianz von Y in zwei Bestandteile, demjenigen der auf die Kovarianz mit X entfällt und demjenigen des Residualanteil. Um ihn zu bestimmen, müssen wir neben der Gesamtanzahl der Vorhersagefehler die Vorhersagefehler des Regressionsmodells bestimmen. Die Gesamtzahl der Vorhersagefehler als Fehlermenge E1 ermitteln wir, indem wir jeden Y-Wert auf der Basis des Mittelswerts von Y vorhersagen. Die Summe der quadrierten Abweichungen vom Mittelwert Y bildet die Gesamtzahl aller möglichen Fehler. Die Fehlermenge des Regressionsmodells als zweite Fehlersumme E2 ermitteln über die Summe der quadrierten Abweichung zwischen dem jeweiligen Beobachtungswert von Y und dem modellimmanent vorhergesagten Y-Wert. Hierbei folgt der Determinationskoeffizient der allgemeinen Logik für Maßzahlen der Proportionalen Fehlerreduktion. Der Determinationskoeffizient als Maß der Proportionalen Fehlerreduktion: n R 2 E1 E2 E1 n (yiȳ ) (yiŷ )2 2 i 1 i 1 n (yi ȳ )2 i 1 SSTotal SSError SSTotal 1 SSErrors SSTotal SSRegression SSTotal [0;1] SS: Summe der Abweichungsquadrate Um in unserem EUROBAROMETER-Beispiel die Modellanpassung zu bestimmen, müssen wir zunächst die Abweichungsquadrate des Kriteriums in diejenigen der Regression und des Residuums zerlegen. Hierzu berechnen wir zunächst die geschätzten Werte für die Zustimmung zum Item “Es leben zu viele Ausländer im Land” und anschließend die Abweichungsquadrate der Regression sowie des Residuums pro Mitgliedsland. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV Tab. 3: LAND - 14 Zerlegung der Abweichungsquadrate von Y im bivariaten Regressionsmodell: EB 30 Länderdaten. PNEGAUSL: PZUVIELE: X B DK D F GR GB IRL I LUX NL P E Mittelwert = s (x) = a = 19,33 WS 2002/2003 SSRegression (Yˆ Y )2 Yˆ Y 3,2 2,0 5,3 3,9 0,8 1,8 0,5 0,4 2,0 2,8 0,6 0,4 45 37 49 46 22 47 8 36 31 31 15 20 1,98 1,58 32,25 13,59 40,26 32,41 54,00 44,84 24,56 31,10 22,60 21,94 32,41 37,65 23,25 21,94 b = 6,54 64,20 0,03 473,09 158,55 59,11 1,31 93,14 106,20 0,03 29,11 80,94 106,20 857,83 n 1 1 22,44 21,05 25,01 1,34 6,56 252,70 213,13 197,55 1,99 44,16 68,12 3,78 SSTotal ( Y Y )2 162,56 22,56 280,56 189,06 105,06 217,56 588,06 14,06 1,56 1,56 297,56 150,06 Zerlegung der Abweichungsquadrate: SSTotal = 2030,25 SSReg = 1171,91 SSError = 857,83 Standardfehler der Regression SSError ( Y Yˆ )2 SSError nk1 857,83 9,26 10 Die durchschnittliche Abweichung der Datenpunkte von der Regressionslinie beträgt 9,26-%-Punkte. Diese Information ist aber wenig aussagekräftig, da uns eine eindeutige Vergleichsbasis fehlt. Erst der Determinationskoeffizient R² erlaubt uns eine präzise Aussage darüber, wie gut die Regressionslinie die Verteilung der Datenpunkte beschreibt. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV R2 1 WS 2002/2003 - 15 857,83 1171,91 0,5772 2030,25 2030,25 R 2in % 0,5772100 57,72 % In unserem Beispiel gehen wir davon aus, dass die Berücksichtigung der Anteils der Nicht-EGAusländer zu einer Verbesserung der Vorhersage der “Fremdenfeindlichkeit” um 57,72 % führt. Der Anteil der durch das unabhängige Merkmal gebundenen Varianz beträgt somit 57,72 %. Ziehen wir die Quadratwurzel aus dem Determinationskoeffizienten, so erhalten wir das sogenannte “multiple r”, das in bivariaten Fall von seinem Betrag her mit dem Pearson-Produkt-Moment-Korrelationskoeffizienten identisch ist. Multiples r R 2 < [0;1] EB 30 Länderdaten: Multiples r 0,5772 0,76 Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV 4. WS 2002/2003 - 16 Das multiple lineare Regressionsmodell: Das Ziel der multiplen linearen Regression besteht darin, die Variation des abhängigen Merkmals auf die Variationen einer Vielzahl von unabhängigen Merkmalen zurückzuführen, wobei diese untereinander statistisch kontrolliert (auspartialisiert) werden. Dieses Vorgehen erlaubt die Bestimmung des Nettoeinflusses / Nettoerklärungsbeitrags jeder einzelnen unabhängigen Variablen. Diese Erweiterung des bivariaten Regressionsmodells lässt sich mit Hilfe von Pfeil- und Venndiagrammen veranschaulichen. Lineares Regressionsmodell: Bivariates Modell: Multiples Modell: X1 X Y Pfeildiagramme: Y X2 Nettoeffekt X1 X1 Y Venndiagramme: X Y X2 Nettoeffekt X2 Interkorrelation X1 und X2 Abb.5: Die bivariate bzw. multiple lineare Regression als Pfeil- bzw. Venndiagramm Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 17 Modellgleichung des trichotomen Falls: yi a b1 x1i b2 x2i ei yi: Vektor der abhängigen Variable x1i: Vektor der 1. unabhängigen Variablen x2i: Vektor der 2. unabhängigen Variablen a: Regressionskonstante b1: unstandardisierter Regressionskoeffizient für X1 b2: unstandardisierter Regressionskoeffizient für X2 ei: Residuum Erweiterung der Modellannahmen im multiplen Fall: 7. Die exogenen Merkmale X1 und X2 sind statistisch unabhängig voneinander. Als Kriterium für das Vorliegen von Multikollinearität gelten Interkorrelationen zwischen 0,60 und 0,80, je nach Rigidität des methodologischen Standpunktes. 8. Die X-Matrix der exogenen Merkmale hat vollen Spaltenrang. D.h., dass die Anzahl der Beobachtungen n mindestens so groß sein muss wie die Anzahl der zu schätzenden Parameter k. Mit Hilfe der Kleinsten-Quadrate-Methode lassen sich die Koeffizienten a, b1 und b2 der obigen Gleichung dergestalt bestimmen, dass die Summe der quadrierten Abstände der Datenpunkte von der im dreidimensionalen Raum aufgespannten Regressionsebene ihr Minimum erreicht. Dies lässt sich im geometrischen Sinne folgendermaßen veranschaulichen: Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV Abb. 6: WS 2002/2003 - 18 Geometrische Darstellung der multiplen linearen Regression (Urban 1982, S.76) Berechnung der Regressionskonstanten a (b0): Regressionskonstante a ȳ b1 # x̄1 b2 # x̄2 Verwendet man anstatt der ursprünglichen unabhängigen Variablen X1 und X2 jeweils ihre z-standardisierten Werte, so lassen sich die standardisierten Regressionskoeffizienten ß1 und ß2 direkt aus den bivariaten Korrelationen der drei Merkmale berechnen (Lösung der Normalgleichungen). Sie müssen anschließend in unstandardisierte Regressionskoeffizienten umgerechnet werden: yx .x 1 1 2 yx .x 2 2 1 ry x ry x #rx 1 2 1 x2 2 1 rx1 x2 ry x ry x #rx 2 1 2 1 rx1 x2 1 x2 Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 19 Umrechnung in unstandardisierte Regressionskoeffizienten: b1 1 # sy sx 1 b2 2 # sy sx 2 Die unstandardisierten Koeffizienten b1 und b2 setzen wir anschließend in die Formel für die Berechnung der Regressionskonstanten ein. Anhand unseres bisherigen 12-Länder-Beispiels lässt sich die Vorgehensweise der multiplen Regression mit zwei unabhängigen Variablen demonstrieren. In Tab. 1 finden wir neben dem Anteil der NichtEG-Ausländer ebenfalls den Prozentsatz der bei der Befragung ermittelten Postmaterialisten im Sinne der Inglehartschen Wertetypologie. Letzterer kann uns als Indikator für das Ausmaß der “Liberalität” im Lande dienen. Wir gehen hiebei von der konkurrierenden Hypothese aus, dass je liberaler ein Land ist, desto geringer fällt der Anteil der Befürworter des Xenophobieitems aus. Wir vereinbaren für das Kriterium und die beiden Prädiktoren die folgenden Abkürzungen: Y: X1: X2: Anteil der Befragten, die meinen, es gäbe zu viele Ausländer in ihrem Land Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung Anteil der “sich bekennenden Postmaterialisten” Um die standardisierten Regressionskoeffizienten zu berechnen, benötigen wir lediglich die Korrelationsmatrix der Merkmale und ihre jeweiligen Standardabweichungen. Die Standardabweichung für den Prozentsatz der Postmaterialisten (X2) beträgt 5,947. Korrelationsmatrix: Y X1 X2 1,000 0,760 1,000 0,645 0,726 1,000 Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV 1 2 0,760 0,645#0,726 1 0,726 2 0,645 0,760#0,726 1 0,726 2 WS 2002/2003 - 20 0,617 0,197 Umrechnung in unstandardisierte Regressionskoeffizienten: b1 0,617 # 13,586 1,578 0,617#8,610 5,312 b2 0,197 # 13,586 5,947 0,197#2,285 0,450 Berechnung der Regressionskonstanten a: a 32,250 5,312#1,975 0,450#15,033 14,994 Die ermittelten unstandardisierten Regressionskoeffizienten interpretieren wir folgendermaßen: b1: Unter der Kontrolle des Anteils der Postmaterialisten steigt der Anteil derjenigen Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt um 5,31%, wenn der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung um 1 % zunimmt. b2: Unter der Kontrolle des Anteils der Nicht-EG-Ausländer an der Wohnbevölkerung steigt der Anteil der Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt um 0,45 %, wenn der Anteil der Postmaterialisten um 1 % steigt. a: Gäbe es weder Nicht-EG-Ausländer noch Postmaterialisten im Lande, so liegt der geschätzte Anteil der Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, bei 14,99 %. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 21 Die standardisierten Regressionskoeffizienten interpretieren wir wie folgt: ß1: Unter der Kontrolle des Anteils der Postmaterialisten steigt der Anteil derjenigen Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt um 0,617 Standardabweichungen von Y, wenn der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung um eine Standardabweichung von X1 zunimmt. ß2: Unter der Kontrolle des Anteils der Nicht-EG-Ausländer an der Wohnbevölkerung steigt der Anteil der Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt um 0,197 Standardabweichungen (sy), wenn der Anteil der Postmaterialisten um eine Standardabweichung von X2 zunimmt. Damit wird unsere zweite Hypothese eindeutig widerlegt, da das ermittelte nicht dem erwarteten Vorzeichen entspricht. Der Vergleich der beiden standardisierten Regressionskoeffizienten ergibt, dass der Anteil der NichtEG-Ausländer an der Wohnbevölkerung einen rd. dreimal so großen Einfluss auf die Fremdenfeindlichkeit ausübt wie der Anteil der Postmaterialisten. Da beide Koeffizienten größer als Betrag 0,10 ausfallen, gehen wir davon aus, dass beide einen kausalen Einfluss ausüben. Offen bleibt aber, ob diese “ökologische Befunde” ebenfalls für Individualdaten gelten. Am obigen Befund löst Erstaunen aus. Erstens ermittelt das multiple Regressionsmodell ein Vorzeichen für den Effekt der Liberalität, welches konträr zum erwarteten Vorzeichen ausfällt. Zweitens wird der Einfluss der Liberalität mit einem standardisierten Regressionskoeffizienten von +0,197 sehr viel niedriger eingestuft als aufgrund der bivariaten Korrelation von 0,645 zu erwarten wäre. Dies ist darauf zurückzuführen, dass die Korrelation zwischen beiden Prädiktoren + 0,726 beträgt, was auf ein hohes Maß an Multikollinearität hinweist. Sie verstößt gegen die Grundannahme der nichtkorrelierten Prädiktoren. Da das multiple Regressionsmodell die Zusammenhänge der Prädiktoren untereinander kontrolliert, in der Statistik spricht man von “Auspartialisierung”, kann Multikollinearität zu instabilen Schätzern führen, die sowohl ihr Vorzeichen als auch ihren Betrag wechseln können. In diesem Fall sollte man auf einen dieser hoch korrelierenden Prädiktoren verzichten. Die Güte der Modellanpassung unseres multiplen Regressionsmodells ermitteln wir über die bereits dargestellte Zerlegung der Abweichungsquadrate von Y. Hierzu benötigen wir die folgende Arbeitstabelle, bei der wir die geschätzten Werte für Y durch das Einsetzen der unstandardisierten Regressionskoeffizienten sowie der Beobachtungswerte von X1 und X2 in die Modellgleichung erhalten. Berechnung der geschätzten Werte von Y: Yˆ Ŷ i a b1 X1i b2 X2i 14,994 5,312 X1i 0,450 X2i Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 22 Tab. 4: Zerlegung der Abweichungsquadrate von Y im multiplen linearen Regressionsmodell LAND PZUVIELE PNEGAUSL PPOSTMAT Y B DK D F GR GB IRL I L NL P E 45,00 37,00 49,00 46,00 22,00 47,00 8,00 36,00 31,00 31,00 15,00 20,00 a= b1= b2= 14,994 5,312 0,450 Y 32,25 X1 Yˆ X2 3,20 2,00 5,30 3,90 0,80 1,80 0,50 0,40 2,00 2,80 0,60 0,40 13,10 19,70 25,30 16,10 9,00 18,30 10,20 12,30 13,10 24,20 5,60 13,50 SSRegression ( Yˆ Y )2 37,89 34,48 54,53 42,96 23,29 32,79 22,24 22,65 31,51 40,76 20,7 23,19 Summe der Quadrate = Standardfehler der Regression = Determinationskoeffizient R2 = R2 in % = SSError ˆ2 ( Y Y) SSTotal ( Y Y )2 31,81 4,97 496,40 114,70 80,28 0,29 100,20 92,16 0,55 72,42 133,40 82,08 50,55 6,35 30,58 9,24 1,66 201,92 202,78 178,22 0,26 95,26 32,49 10,18 162,56 22,56 280,56 189,06 105,06 217,56 588,06 14,06 1,56 1,56 297,56 150,06 1209,27 819,50 2030,25 9,54 0,5956 59,56 Der multiple Determinationskoeffizient R² belegt, dass durch die Einbeziehung der beiden Prädiktoren fast 60% der Varianz von Y gebunden werden. Damit weist unser Regressionsmodell eine “sehr gute” Anpassung an die empirischen Verteilung von Y auf. Dies belegt ebenfalls der Standardfehler der Regression, der angibt, dass die Datenpunkte im Durchschnitt rd. 9,5 Prozentpunkte von der Regressionsebene entfernt liegen. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 23 Erweiterung des multiplen linearen Regressionsmodells auf mehr als 2 Prädiktoren: Modellgleichung des multiplen linearen Regressionsmodells: Y i b0 b1 x1i ... bk xki 0i Die unstandardisierten Regressionskoeffizienten lassen sich nur mit Hilfe der Matrixalgebra berechnen, wobei das Regressionsmodell folgender Matrixnotation entspricht: y1 1 x11 . . xk1 b0 01 y2 1 x12 . . xk2 b1 02 . . yn . . . . . . . . . . 1 xkn . . xkn y X × × . . . . bk 0k b 0 Die Matrixlösung der Kleinsten-Quadrate-Schätzung (OLS) lautet: b(OLS) (X ´ X)1 X ´ y Um den Vektor der unstandardisierten Regressionskoeffizienten zu berechnen, absolvieren wir vier Schritte. Im ersten Schritt multiplizieren wir die Matrix der unabhängigen Variablen mit ihrer Transponierten. Die Transponierte erhalten wir, indem wir die Zeilen- und Spaltenindizes der Ausgangsmatrix X miteinander vertauschen. Im zweiten Schritt berechnen wir die Inverse dieser Produktmatrix. Bei ihr handelt es sich um diejenige Matrix, deren Multiplikation mit der (X ´X) - Matrix die Einheitsmatrix ergibt. Bei der Einheitsmatrix ist die Hauptdiagonale mit Einsen besetzt, die übrigen Zellen weisen Nullen auf. Im dritten Schritt multiplizieren wir zunächst die Transponierte der Datenmatrix X´ mit dem Vektor der abhängigen Variablen Y. Im vierten Schritt berechnen wir anschließend das Produkt aus der letzten Matrixmultiplikation und der Inversen der X´X-Matrix. Da diese Matrixoperationen sehr aufwendig sind, empfiehlt es sich, sie dem jeweiligen Statistikprogramm Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 24 zu überlassen. Programme wie SPSSfWin oder LIMDEP bieten darüber hinaus die Möglichkeit, entweder sich die Zwischenergebnisse der Matrixoperationen ausgeben zu lassen oder die entsprechenden Rechenschritte selbst zu programmieren. 5. Maße der “ statistischen Signifikanz ” : Ziel: Schluss vom Stichprobenbefund auf die Grundgesamtheit Globaler F-Test: Nullhypothese: Alle Steigungskoeffizienten sind Null. H0: b1 b2 .. bk 0 oder alternativ: H0: R 2 0 Globaler FTest(D.F.1;D.F.2) , wobei R2 / k 2 (1R ) / (nk1) D.F.1=k D.F.2=n-k-1 n: k: SSRegression / k SSError / (nk1) folgt F Verteilung Anzahl der unabhängigen Variablen k Stichprobenumfang abzüglich Anzahl unabhängiger Variablen abzüglich Eins. Stichprobenumfang Anzahl der unabhängigen Variablen (geschätzten Steigungskoeffizienten) Ist der empirische F-Wert größer oder gleich dem kritischen F-Wert bei D.F.1 respektive D.F.2 Freiheitsgeraden, so muss die Nullhypothese mit der gewählten Irrtumswahrscheinlichkeit . verworfen werden. D.h., die Gesamtheit der Prädiktoren "erklärt" in statistisch signifikantem Ausmaße die Variation des endogenen Merkmals. Üblicherweise wird die F-Verteilung für die Sicherheitsniveaus von 95 und 99 % tabelliert. Dies entspricht einer Irrtumswahrscheinlichkeit von 5 bzw. 1 % . Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 25 Partieller F-Test: Anwendung für eine hierarchische Folge von Regressionsmodellen, für die gilt: M1 G M2,, d.h., M1 ist eine echte Teilmenge von M2 Beispiel: M1: M2: Nullhypothese: X1,X2 X1,X2,X3,X4 Die in M2 im Vergleich zu M1 zusätzlich enthaltenen Prädiktoren X3 und X4 üben keinen statistisch bedeutsamen Einfluss auf Y aus. H0: b3 b4 0 oder alternativ: 2 2 2 H0: RM2 RM1 û RM2 , M1 0 Partieller FTest(D.F.1;D.F.2) û SSRegression ( M 1 , M2 ) /ûk SS Error ( M ) / (nk1)( M 2 2) 2 , wobei û RM2 , M1 / û k ( 1R D.F.1: D.F.2: ûk: n: k M 2: 2 M2 ) / ( nkM 1 ) folgt F Verteilung 2 Differenz der Anzahl unabhängiger Variablen in M2 und M1 Stichprobenumfang abzüglich Anzahl unabhängiger Variablen von M 2 abzüglich Eins. Differenz der Anzahl der Steigungskoeffizienten in M 2 und M1 Stichprobenumfang Anzahl der Steigungskoeffizienten von M 2 Ist der empirische partielle F-Wert größer oder gleich dem kritischen F-Wert bei D.F.1 respektive D.F.2 -Freiheitsgeraden, so muss die Nullhypothese mit der gewählten Irrtumswahrscheinlichkeit Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 26 verworfen werden. D.h., die Gesamtheit der neu einbezogenen Prädiktoren "erklärt" zusätzlich in statistisch signifikantem Ausmaße die Variation des endogenen Merkmals. T-Test Nullhypothese H0 : bX = 0 Schätzer bH 0 T-Test(D.F.) = Standardfehler bx - 0 S.E.b x folgt T - Verteilung , wobei sich die zugehörigen Freiheitsgrade (D.F.) aus der Differenz von Stichprobenumfang minus 2 (n-2) ergeben. Ist der empirische Testwert mindestens so groß wir der zum gewählten Signifikanzniveau . gehörende kritische T-Wert(D.F.), so übt das betrachtete Merkmal einen statistisch signifikanten Einfluss aus. Als "Daumenregel" gilt hierbei, dass der Parameter mindestens 1,96mal so groß wie sein Standardfehler sein muss, damit er das übliche Signifikanzniveau . von 5% erreicht. Schätzung des Standardfehlers des unstandardisierten Regressionskoeffizienten b im bivariaten Regressionsmodell: ˆ (b) Standardfehlerb Varianz n ( yi ŷi )2 i 1 n2 n ( X i x )2 i 1 Standardfehler der Regression VariationX Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 27 Schätzung des Standardfehlers der Regressionskonstante a (b0) bei der bivariaten Regression: ˆ (a) Standardfehler a Varianz n ( yi ŷi )2 i 1 (n2) x̄x 2 1 n n (xi xx )2 ( n 1 ) i 1 (n1) n ( yi ŷi )2 i 1 (n2) 1 n x̄x 2 n ( x i x x )2 i 1 Abkürzung: n: Stichprobenumfang Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 28 Schätzung des Standardfehlers der partiellen Steigungskoeffizienten b1 und b2 des multiplen linearen Regressionsmodells mit zwei unabhängigen Variablen X1 und X2: Standardfehler b YX1.X2 ˆ (b Varianz YX .X ) 1 2 n ( yi ŷi )2 n i 1 n k 1 ( X1 x1 )2 (1 r 2X i 1 n i 1 ( yi ŷi )2 / ( n k 1 ) i 1 , X2 n ) ( X1 x1 )2 (1 r 2X i 1 i 1 , X2 ) Standardfehler der Regression VariationX ( 1 r 2X 1 Standardfehler b YX2.X1 1 , X2 ) ˆ (b Varianz YX .X ) 2 1 n ( yi ŷi )2 n i 1 n k 1 ( X2 x2 )2 (1 r 2X i 1 , X2 ) Standardfehler der Regression VariationX ( 1 r 2X 2 i 1 n i 1 ( yi ŷi )2 / ( n k 1 ) 1 , X2 ) n ( X2 x2 )2 (1 r 2X i 1 i 1 , X2 ) Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV 7. WS 2002/2003 - 29 Maße der “praktischen Signifikanz”: Der Determinationskoeffizient als Maß der Proportionalen Fehlerreduktion: n R 1 2 (yiŷ)2 i 1 n (yiȳ) 1 2 SSErrors SSTotal i 1 SSRegression SSTotal [0;1] Korrektur des R² im Hinblick auf die Größe des Stichprobenumfangs und der Anzahl exogener Merkmale: Adjustiertes R 2 1 n: k: Stichprobenumfang Anzahl der unabhängigen Variablen (n1) × 1R 2 (nk) Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV 8. WS 2002/2003 - 30 Strategien des Testens beim Regressionsmodell: Partielles R²: In einer hierarchischen Modellfolge M1 G M2 lassen sich die vorgestellten Bestimmtheitsmaße ebenfalls partiell zerlegen. Dies bedeutet, dass die Differenz der Determinationskoeffizienten zweier hierarchischer Modelle M1 und M2 dem Anteil praktischer Signifikanz entspricht, der auf die nicht in M1 enthaltenen Prädiktoren von M2 entfällt. û R 2(K) R 2(M 2 mit K) R 2(M 1 ohne K) , wobei K das im Teilmodell M1 nicht enthaltene exogene Merkmal symbolisiert. Teststrategien: 1. Hierarchischer Modelltest Vom Nullmodell ausgehend, wird das zu schätzende Regressionsmodell jeweils um eine Variable erweitert. Die Zunahme des Bestimmtheitsmaßes wird dieser Variablen gutgeschrieben. Problem der hierarchischen Modelltests: Beim hierarchischen Modelltest wird die Interkorrelation der unabhängigen Variablen der zuvor getesteten Modelle mit denjenigen der nachfolgenden nicht kontrolliert. 2. Partieller Modelltest Mit dem saturierten Modell, das alle unabhängigen Variablen enthält, wird jeweils ein Regressionsmodell verglichen, das bis auf eine ausgeschlossene Variable jeweils alle anderen unabhängigen Variablen enthält. Die Verschlechterung der Modellanpassung wird dann der ausgeschlossenen Variablen zu geschrieben. Problem des partiellen Modelltests: Beim partiellen Modelltest wird zwar die Interkorrelation aller unabhängigen Variablen kontrolliert, die Summe der partiellen R² entspricht aber nicht dem Determinationskoeffizienten des Gesamtmodells. Die Differenz entspricht dem gemeinsamen Effekt der betrachteten unabhängigen Merkmale im Sinne ihrer Interaktion. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 31