Bivariate lineare Regression Statistik für SozialwissenschaftlerInnen II – p.154 Grundidee und Typen der Regression Die Regressionsanalyse dient zur Quantifizierung des Zusammenhangs und der statistisch kausalen Verbindung zwischen metrischen Variablen. • Grundidee der Regression: Die Ausprägung abhängigen Variablen lässt sich durch eine mathematische Funktion der unabhängige(n) Variablen ausdrücken: y = f (x) Allgemein lassen sich zwei Grundtypen der Regression unterscheiden: • Die lineare Regression, bei der ein linearer Zusammenhang unterstellt wird: y =a+b∗x • Die nicht-lineare Regression, bei der nicht-lineare (z.b. gemischt-quadratische) Funktionen zur Beschreibung des Zusammenhangs genutzt werden. Statistik für SozialwissenschaftlerInnen II – p.155 Beispiel: Regressionsgerade 54 52 CDU: Anteil an gueltigen Stimmen 50 48 46 44 42 40 38 36 30 40 50 60 70 80 90 100 Katholiken'87: Anteil an Bevoelkerung Zusammenhang zwischen CDU-Wähleranteil und Katholikenrate (Rheinland-Pfalz) yb = 33, 305 + 0, 194 ∗ x Statistik für SozialwissenschaftlerInnen II – p.156 Interpretation der Koeffizienten • Die Konstante a Entspricht mathematisch dem y -Achsenabschnitt. Sie kann beliebige Werte annehmen und lässt sich als unabhängiger, konstanter“ Grundwert interpretieren. ” • Der Regressionskoeffizient b Entspricht mathematisch der Steigung der Geraden und kann zwischen −∞ und +∞ schwanken. 0“ bedeutet ” keinen Einfluss der Unabhängigen, negative Werte einen negativen Einfluss und positive Werte einen positiven Einfluss Statistik für SozialwissenschaftlerInnen II – p.157 Beispiel: Schätzfehler Wie hoch schätzen wir das Wahlergebnis im WK Kaiserslautern? Der Katholikenanteil liegt bei 34,89 %. • Schätzung des Wahlergebnisses: 33, 305 + 0, 194 ∗ 34, 89 = 40, 06 Schätzwert: yb = 40, 06 % • Tatsächlicher Anteil der CDU in Kaiserslautern: y = 37, 68 • Schätzfehler (Residuum): e = −2, 38 • Statistik für SozialwissenschaftlerInnen II – p.158 Schätzfehler – Residuen Wie das Beispiel des WK Kaiserslauern zeigt, kann es bei der Schätzung von y -Werten anhand einer Regression zu Fehlern kommen. • Nahezu alle Schätzungen sind mit Fehlern behaftet • Je stärker die empirische Verteilung der y -Werte von einer Geraden abweicht, desto größer ist die (quadrierte) Summe der Residuen • Legt man eine Gerade durch einen Punkteschwarm, gibt es Geraden, die den Punkteschwarm besser (geringe Residuen) oder auch schlechter (hohe Residuen) repräsentieren • Berechnung der Residuen: e = yi − ybi Statistik für SozialwissenschaftlerInnen II – p.159 Die Ermittlung der Regressionsgeraden Üblicherweise ist die Regressionsgerade, also die Werte für a und b, unbekannt und soll anhand der Daten geschätzt werden. • Kriterium für die Schätzung der Regressionsgeraden: Möglichst geringe Schätzfehler • Gesucht ist also die Gerade, zu der alle Punkte den geringstmöglichen (quadrierten) Abstand besitzen • Methode der kleinsten Quadrate“: ” n X (yi − ybi )2 = min! i=1 Statistik für SozialwissenschaftlerInnen II – p.160 Berechnung der Regressionskoeffizienten Durch partielles Ableiten der Gleichung nach a und b kann berechnet werden, welche Werte von a und b die Beziehung (y − yb)2 minimieren. Es ergeben sich folgende Berechnungsformeln: a = ȳ − b ∗ x̄ sxy Kovarianz xy b= 2 = sx Varianz x mit sxy = s2x = 1 n−1 1 n−1 n X (xi − x̄)(yi − ȳ) i=1 n X (xi − x̄)2 i=1 Statistik für SozialwissenschaftlerInnen II – p.161 Beispiel: Regressionskoeffizienten Wahlkreis Neuwied Ahrweiler Koblenz Cochem Kreuznach Bitburg Trier Montabaur Mainz Worms Frankenthal Ludwigshafen Neustadt - Sp Kaiserslautern Pirmasens Südpfalz P x y xi − x̄ 55,55 81,99 73,14 70,78 32,6 91,4 87,97 50,76 51,36 32,81 31,98 38,01 45,61 34,89 45,98 55,07 44,21 50,13 46,6 50,94 39,1 52,68 44,82 43,42 40,86 37,99 39,71 40,86 46,48 37,68 42,79 45,09 0,56 27 18,15 15,79 −22,39 36,41 32,98 −4,23 −3,63 −22,18 −23,01 −16,98 −9,38 −20,1 −9,01 0,08 879,9 x̄ = 54, 99 703,36 ȳ = 43, 96 (xi − x̄)2 yi − ȳ 0,31 729 329,42 249,32 501,31 1325,68 1087,68 17,89 13,18 491,95 529,46 288,32 87,98 404,01 81,18 0,01 0,25 6,17 2,64 6,98 −4,86 8,72 0,86 −0,54 −3,1 −5,97 −4,25 −3,1 2,52 −6,28 −1,17 1,13 6136,72 a = ȳ − b ∗ x̄ = 43, 96 − 0, 194 ∗ 54, 99 = 33, 29 1189,14/15 sxy b = s2x = 6136,72/15 = 0, 194 (xi − x̄) ∗ (yi − ȳ) 0,14 166,59 47,92 110,21 108,82 317,50 28,36 2,28 11,25 132,41 97,79 52,64 −23,64 126,23 10,54 0,09 1189,14 Statistik für SozialwissenschaftlerInnen II – p.162 Der Determinationskoeffizient R 2 • Gibt Auskunft darüber, wwelcher Anteil der Streuung der abhängigen Variable durch die Regression erklärt wird • Ausgangspunkt ist eine Varianzanalyse: SAQges = SAQerklärt + SAQunerklärt • Die erklärte Streuung ist die Abweichung der Schätzwerte vom Mittelwert, die nicht-erklärte Streuung die Abweichung der empirischen Werte von den Schätzwerten: X 2 (yi − ȳ) = X 2 (b yi − ȳ) + X (yi − ybi )2 • R2 ist das Verhältnis der erklärten Streuung zur Gesamtstreuung: n X erklärte Streuung = i=1 R = n X Gesamtstreuung 2 (b yi − ȳ)2 (yi − ȳ)2 i=1 Statistik für SozialwissenschaftlerInnen II – p.163 Beispiel R Wahlkreis Neuwied Ahrweiler Koblenz Cochem Kreuznach Bitburg Trier Montabaur Mainz Worms Frankenthal Ludwigshafen Neustadt - Sp Kaiserslautern Pirmasens Südpfalz P R2 = yi (yi − ȳ) (yi − ȳ)2 44,21 50,13 46,6 50,94 39,1 52,68 44,82 43,42 40,86 37,99 39,71 40,86 46,48 37,68 42,79 45,09 0,25 6,17 2,64 6,98 −4,86 8,72 0,86 −0,54 −3,1 −5,97 −4,25 −3,1 2,52 −6,28 −1,17 1,13 0,06 38,07 6,97 48,72 23,62 76,04 0,74 0,29 9,61 35,64 18,06 9,61 6,35 39,44 1,37 1,28 703,36 43,96 Pn 2 (b y i −ȳ) i=1 Pn 2 i=1 (yi −ȳ) = 315,87 230,40 315,87 2 y bi 44,07 49,19 47,48 47,02 39,62 51,01 50,35 43,14 43,26 39,66 39,50 40,67 42,14 40,06 42,21 43,98 (b yi − ȳ) (b yi − ȳ)2 0,11 5,23 3,52 3,06 −4,34 7,05 6,39 −0,82 −0,70 −4,30 −4,46 −3,29 −1,82 −3,90 −1,75 0,02 0,01 27,36 12,36 9,36 18,83 49,77 40,83 0,67 0,50 18,47 19,88 10,83 3,30 15,17 3,05 0,00 230,40 = 0, 73 Statistik für SozialwissenschaftlerInnen II – p.164 Signifikanztest der Regression • Überprüft, ob sich der Regressionskoeffizient β in der Grundgesamtheit von 0 unterscheidet: H0 : β = 0 ; H1 : β 6= 0 (ungerichtet) H0 : β ≤ 0 ; H1 : β > 0 (positiv gerichtet) • Die Hypothese wird mit folgender t-Verteilter Prüfgröße berechnet (mit k =Anzahl der unabhängigen Variablen; hier 1): temp b = mit df = n − k − 1 sb • wobei der Standardfehler des Regressionskoeffizienten sb v P u n y i )2 u i=1 (yi −b t sb = Pn n−2 2 i=1 (xi − x̄) Statistik für SozialwissenschaftlerInnen II – p.165 Beispiel Signifikanztest Hypothese: Je höher der Anteil der Katholiken in einerm Landkreis, desto besser das Wahlergebnis der CDU. H1 : β > 0 ; H0 : β ≤ 0 Berechnung von temp : t= b sb Alle zur Werte, die zur Berechnung des Standardfehlers notwendig sind, wurden bereits berechnet: v P s u n 2 (y −b y ) i i 230,40 u i=1 t P n−2 14 = 0, 00518 = sb = n 2 6136, 72 i=1 (xi − x̄) und damit temp = 0,194/0,00518 = 37, 45 Da tkrit = 1, 76 und temp > tkrit , kann die H0 verworfen werden. Statistik für SozialwissenschaftlerInnen II – p.166