Eine kleine Wiederholung Unterscheidung zwischen: (1) Korrelationsanalyse (2) Lineare Regressionsanalyse Korrelationsanalyse Beispiel: Korrelationsanalyse X1 rX1X2 X2 X1 und X2 sind metrisch Anwendungsbeispiel: • Es wird der Zusammenhang zwischen der Anzahl bisheriger Arbeitgeber (X1) und dem Einkommen (X2) untersucht (ungerichteter Zusammenhang). Lineare Regressionsanalyse Beispiel: Einfache und multiple lineare Regressionsanalyse b1 X1 X2 b2 b3 Y Y ist metrisch X1, X2 und X3 sind metrisch oder dummysiert (nein = 0/ ja = 1) --------------------------------------------------------------------------------------------------------------- X3 Y = Kriterium, Regressand X = Prädiktor, Regressor Anwendungsbeispiel: • Es wird der Einfluss der Anzahl bisheriger Arbeitgeber (X1) sowie weiterer Variablen (X2 = Alter, X3 = Nationalität) auf das Einkommen (Y) untersucht (gerichteter Zusammenhang). Einfache lineare Regressionsanalyse X1 b1 Y • Bei b1 bzw. b handelt es sich um einen Steigungsparameter. Es gilt eine Regressionsgerade zu lokalisieren, • die die empirischen Werte am besten repräsentiert • um die die Punkte im Streudiagramm minimal abweichen/streuen • Gerade steht als Repräsentant für die Beziehung zwischen X und Y • Gerade wird auch als die Linie der kleinsten Quadrate gezeichnet, die Vorgehensweise nennt man auch Ordinary Least Squares (OLS, Methode der kleinsten Quadrate) Darstellung einer linearen Beziehung a) Geometrische Darstellung Regressionsgerade b) Algebraische Darstellung Regressionsgleichung y'i a b xi a = Regressionskonstante bzw. Schnittpunkt der Geraden y’i mit der Y-Achse • Das ist jener (Erwartungs-)Wert von Y, wenn X = 0 ist b = Steigung der Geraden • +b = Es besteht eine positive Beziehung zwischen X und Y (Gerade verläuft im Streudiagramm von links unten nach rechts oben) • -b = Es besteht eine negative Beziehung zwischen X und Y (Gerade verläuft im Streudiagramm von links oben nach rechts unten) xi yi Fiktives Beispiel: 0 0 1 2 y-Variable 2 4 3 6 Regressionsgerade: y’i = 2x [a = 0, b =2] 5 3 1 x-Variable 1 3 5 xi yi Fiktives Beispiel: 0 4 1 3 2 2 3 1 4 0 y-Variable 5 Regressionsgerade: y’i = 4 - x 3 [a = 4, b =-1] 1 x-Variable 1 3 5 Wie legt man die Gerade am besten in die Punktewolke? ? y ? x Die Methode der kleinsten Quadrate y Die beste Gerade ist diejenige, bei der wir den geringsten Fehler in der Vorhersage der Y-Werte auf der Basis der X-Werte begehen y i y i' sollte für jede Messung so gering wie möglich sein y 3' y1' y 2' x Person 1 Person 2 Person 3 Positive und negative Abweichungen von den vorhergesagten Werten sollen sich nicht zu Null addieren. Die Messwertabweichungen werden folglich quadriert, die Summe aller Abweichungen minimiert: ' 2 (y y i i ) min Varianzzerlegung (1) Gesamtvari ation E1 (yi y) 2 bzw. Gesamtvari anz E1 2 (y y ) i N s 2y Nicht erklärte Variation E 2 (y i y' i ) 2 e i2 bzw. Nicht erklärte Varianz E 2 2 (y y' ) i i N 2 e i Regressionsresiduum ei N • Wenn eine Beziehung zwischen X und Y besteht, dann muss der Vorhersagefehler E2 kleiner sein als E1. • Wenn E2 = E1, dann besteht zwischen X und Y kein Zusammenhang. Varianzzerlegung (2) Inhaltliche Bedeutung des Residuums: • Regressionsresiduen enthalten die Anteile der Kriteriumsvariablen Y, die durch die Prädiktorvariable X nicht erfasst werden. • In diesen Anteilen sind Messfehler der Kriteriumsvariablen enthalten, aber vor allem auch Bestandteile des Kriteriums, die durch andere, mit der Prädiktorvariablen nicht zusammenhängende Merkmale erklärt werden können. Des Weiteren berechnen wir die Erklärte Variation (y' i y) 2 bzw. Erklärte Varianz 2 (y' y ) i N Varianzzerlegung (3) Gesamtvariation (E1) = Nicht erklärte Variation (E2) + Erklärte Variation bzw. Gesamtvarianz (E1) = Nicht erklärte Varianz (E2) + Erklärte Varianz 2 2 2 (y y ) (y y' ) (y' y ) i i i i bzw. 2 (y y ) i N s 2y 2 (y y' ) i i N 2 (y' y ) i N Die Varianz der y-Werte (Gesamtvarianz) setzt sich additiv aus der Varianz der Regressionsresiduen (Nicht erklärte Varianz) und der Varianz der vorhergesagten (geschätzten) y’-Werte (Erklärte Varianz) zusammen. Varianzzerlegung (4) Es gilt: • Die Varianz der Residuen ist bei perfekter Korrelation (r = 1) gleich Null und für r = 0 identisch mit der Varianz der y-Werte, d.h. E2 = E1. • Hierzu gegenläufig verändert sich die Varianz der vorhergesagten y-Werte (Erklärte Varianz). Sie entspricht der Varianz der y-Werte (Gesamtvarianz), wenn r = 1 ist, und sie ist gleich Null, wenn kein Zusammenhang besteht. Berechnung der Regressionskoeffizienten a und b (zur Bestimmung der Regressionsgeraden und der vorhergesagten y’-Werte): (x x)(y y) b (x x) +b besagt, dass mit der Zunahme (Abnahme) der X-Variablen um 1 Einheit, die Y-Variable um b Einheiten steigt (sinkt). Wertebereich ist [-∞; +∞] -b besagt, dass mit der Zunahme (Abnahme) der X-Variablen um 1 Einheit, die Y-Variable um b Einheiten sinkt (steigt). i i 2 i a b 0 y b x a spiegelt den Erwartungswert der YVariablen wider, unter der Bedingung, dass die X-Variable den Wert Null annimmt. Exkurs: Wie kommt es zu b und a? Die Regressionsgerade muss so gewählt werden, dass die Differenz der beobachteten Werte von den vorhergesagten minimal wird: n n i 1 i 1 Q(b) (yi yi' ) 2 (y i a byi' ) 2 min Die Regressionskoeffizienten a und b sind dann das Resultat der partiellen Ableitungen („Normalengleichungen“): n ! Q(b) 2 (y i a bx i )( 1) 0 a i 1 n ! Q(b) 2 (y i a bx i )( x i ) 0 b i 1 Ein Beispiel: X = Alter, Y = Einkommen (in 100 Euro) Person A B C D E F G H I J ∑ xi yi xi - x 22 28 32 36 40 44 48 52 56 62 420 12 24 14 26 18 28 32 16 30 20 220 -20 -14 -10 -6 -2 2 6 10 14 20 0 x 420 / 10 42 (xi - x )2 yi - y 400 196 100 36 4 4 36 100 196 400 1.472 i 2 i 200 -28 80 -24 8 12 60 -60 112 -40 320 Wie ermittelt wir a und b? y 220 / 10 22 (x x)(y y) 320 b 0,217 1.472 (x x) i -10 2 -8 4 -4 6 10 -6 8 -2 0 (x i - x ) · (y i - y ) a y b x 22 0,217 42 12,870 Wie zerlegen wir die Varianz? Person A B C D E F G H I J ∑ xi yi 22 12 28 24 32 14 36 26 40 18 44 28 48 32 52 16 56 30 62 20 420 220 y’i 17,65 18,96 19,83 20,70 21,57 22,43 23,30 24,17 25,04 26,35 220 y 220 / 10 22 ei = yi - y’i y’i + ei (yi - y’i)2 (yi - y )2 (y’i - y )2 -5,65 5,04 -5,83 5,30 -3,57 5,57 8,70 -8,17 4,96 -6,35 0 12 24 14 26 18 28 32 16 30 20 220 31,92 25,40 33,99 28,09 12,74 31,02 75,69 66,75 24,60 40,32 370,43 100 4 64 16 16 36 100 36 64 4 440 18,92 9,24 4,71 1,69 0,18 0,18 1,69 4,71 9,24 18,92 69,56 Nicht erklärte Variation Gesamtv. Erklärte Variation Regressionsgleichung: y'i a b x i 12,870 0,217 x i yi = a + b ∙ xi + ei yi = y’i + ei Maße der einfachen linearen Regressionsanalyse: 1) Koeffizient r2: • wird auch Proportionale Fehlerreduktion, Erklärter Variationsanteil, Determinationskoeffizient und Bestimmtheitsmaß genannt. 2 2 (y y ) (y y' ) E E Erklärte Variation i i i 2 1 2 r 2 E1 Gesamtvari ation (yi y) Interpretation: r2 besagt, dass die Variable X .... % (r2 ∙ 100) der Variation der Variable Y linear erklärt bzw. determiniert. Der Wertebereich ist [0; 1]. In unserem Beispiel: r2 69,565 0,158 440,00 Koeffizient der Nichtdetermination (1 - r2): • Der Wert des Koeffizienten besagt, dass .... % der Variation der Variable Y nicht mit der Variable X linear erklärt werden kann (wird in SPSS nicht berechnet). • Die Variation der Variablen Y wird durch andere Faktoren (Variablen), die unbekannt sind, determiniert. Es gilt: r2 + (1 - r2) = 1 In unserem Beispiel: 1 - r2 = 1 - 0,158 = 0,842 2) Korrektur des r2-Wertes: (erst relevant in der multiplen Regressionsanalyse) 2 J (1 R ) 2 2 R korr R K J1 K = Anzahl der Fälle J = Anzahl der unabhängigen Variablen K - J - 1 = Freiheitsgrade (df) Warum? • Das Bestimmtheitsmaß wird in seiner Größe durch die Anzahl der Regressoren (unabhängigen Variablen) beeinflusst. Daher wird der Kennwert korrigiert. 2 In unserem Beispiel: R korr 0,158 1 (0,842) 0,842 0,158 0,158 0,105 0,053 10 1 1 8 3) Pearsonsche Produkt-Moment-Korrelationskoeffizient r: r r2 1. Berechnungsmöglichkeit: Nachteil: Der Wert des Korrelationskoeffizienten ist hier grundsätzlich vorzeichenlos (Berechnung in SPSS). r 2. Berechnungsmöglichkeit: (x i x)(y i y) 2 2 (x x ) (y y ) i i Der Wertebereich ist hier [-1; +1]. In unserem Beispiel nach Formel (1): r 0,158 0,398 In Lehrbüchern findet man folgende Hinweise: über 0 bis 0,2 0,2 bis 0,4 0,4 bis 0,7 0,7 bis 0,9 0,9 bis unter 1 1 Zur Stärke der Beziehung schwach über 0 bis 0,2 1 niedrig 0,2 bis 0,4 mäßig 0,4 bis 0,6 hoch 0,6 bis 0,8 sehr hoch 0,8 bis unter 1 sehr schwach schwach mittelmäßig stark sehr stark Brosius, Felix (2002): SPSS 11.0. Bonn: mitp-Verlag, S. 501. 4) Kovarianz: • Die Kovarianz ( cov(x,y) ) ist ein Maß für den Grad des miteinander Variierens bzw. Kovariierens der Messwertreihen von X und Y (wird in SPSS im Rahmen der Regressionsanalyse nicht berechnet) (x x)(y y) cov(x, y) i i N Je höher die Kovarianz ist, desto enger ist der Zusammenhang zwischen den Variablen. Nachteil: Die Kovarianz ist abhängig vom Maßstab der zugrunde liegenden Variablen bzw. von deren Varianz. Es gilt: cov(x,y)max = ± sx· sy In unserem Beispiel: cov(x,y) = 320/10 = 32 , cov(x,y)max = 12,13 · 6,63 = 80,46 In SPSS erhält man für cov(x,y) = 320/10 - 1 = 35,556 Wertebereich Interpretation cov(x,y) > 0 Positive Kovarianz -Ein überdurchschnittlicher (unterdurchschnittlicher) Wert der Variablen X entspricht einem überdurchschnittlichen (unterdurchschnittlichen) Wert in Y cov(x,y) = 0 Keine Kovarianz (keine lineare Beziehung) cov(x,y) < 0 Negative Kovarianz -Ein überdurchschnittlicher (unterdurchschnittlicher) Wert der Variablen X entspricht einem unterdurchschnittlichen (überdurchschnittlichen) Wert in Y Zusammenhang zwischen cov(x, y) und r: (xi x)(yi y) cov(x, y) r s x s y (xi x)2 (yi y)2 b (x x)(y y) cov(x, y) s (x x) i i 2 i 2 x • Normiert man die Kovarianz durch die beiden Standardabweichungen von X und Y, dann erhält man den Korrelationskoeffizienten r. • Die Division der Kovarianz durch das Produkt der Standardabweichungen hat zur Folge, dass Maßstabs- bzw. Streuungsunterschiede zwischen den Variablen kompensiert werden. • Die Korrelation zweier Variablen entspricht der Kovarianz der z-transformierten Variablen bzw. dem durchschnittlichen Produkt korrespondierender z-Werte. Exkurs: Z-Transformation von X und Y Person A B C D E F G H I J ∑ xi yi xi - x zxi yi - y zyi 22 28 32 36 40 44 48 52 56 62 420 12 24 14 26 18 28 32 16 30 20 220 -20 -14 -10 -6 -2 2 6 10 14 20 0 -1,65 -1,15 -0,82 -0,49 -0,16 0,16 0,49 0,82 1,15 1,65 0 -10 2 -8 4 -4 6 10 -6 8 -2 0 -1,51 0,30 -1,21 0,60 -0,60 0,90 1,51 -0,90 1,21 -0,30 0 x 420 / 10 42 y 220 / 10 22 sx = 12,13, sy = 6,63 z = 0, sz = 1 z xi xi x sx z yi yi y sy Berechnung von Beta (Standardisierter Steigungskoeffizient): • Beta repräsentiert den Steigungskoeffizienten b der z-transformierten Variablen X und Y. D.h. der Steigungskoeffizient b wird bei Standardisierung der Variablen X und Y zu Beta. sx Beta b sy Der Wertebereich ist [-1; +1] (x x)(y y) b (x x) i i 2 i Warum wird b standardisiert? • b wird durch die Messeinheit der Variablen beeinflusst und ent-zieht sich damit einer direkten Vergleichbarkeit im Rahmen der multiplen Regressionsanalyse. Dort wird für jeden b-Wert (bj) ein Beta-Wert berechnet (Betaj). Der Wertebereich ist [-∞; +∞]. In der einfachen Regressionsanalyse ist Beta = r (redundante Information). In unserem Beispiel: Beta = 0,217 12,13 0,398 , r = 0,398 6,63 Das ist kein Zufall. Für die einfache Regressionsanalyse gilt immer: • b = Beta = r = cov(x,y), wenn X und Y z-transformiert sind • Standardisierte Regressionskonstante a = 0 (gilt auch für die multiple Regressionsanalyse) Warum ist das so? a = 0, da a y b x 0 b 0 Jede z-transformierte Variable besitzt immer einen Mittelwert von Null und eine Standardabweichung von Eins (also s = 1). b = Beta = r = cov(x,y), da (x x)(y y) cov(x, y) b s (x x) i i 2 i 2 x und s x cov(x, y) s x cov(x, y) und r cov(x, y) Beta b 2 s x s y sy sx sy sx sy Verkürzt: cov(x, y) bs2x betasxsy rsxsy , wobei sx = 1 und sy = 1 Standardschätzfehler/Standardfehler des Schätzers: • Der Standardschätzfehler kennzeichnet die Streuung der y-Werte um die Regressionsgerade und ist damit ein Gütemaß für die Genauigkeit der Regressionsvorhersage. • Die Genauigkeit der Regressionsvorhersage wächst mit kleiner werdendem Standardschätzfehler. • Der Standardschätzfehler ermittelt sich aus der Wurzel des Mittels der Quadrate der Residuen. (y y' ) i 2 i K J1 K = Anzahl der Fälle J = Anzahl der unabhängigen Variablen K - J - 1 = Freiheitsgrade (df) Ohne den Korrekturfaktor K-J-1 hätten wir keine erwartungstreue Schätzung, die Streuung der y-Werte um die vorhergesagten Werte würde unterschätzt. In unserem Beispiel: 370,435 46,304 6,805 10 1 1 F-Test: • Der F-Test prüft die Güte der Vorhersage der Daten durch die Regressionsgleichung (Globale Prüfung der Regressionsfunktion). • Es wird die Nullhypothese geprüft, dass die unbekannten, wahren Regressions-/Steigungsparameter β1 sich nicht von Null unterscheiden. • Die Nullhypothese H0 lautet: β1 = 0 Es liegt kein Einfluss in der Grundgesamtheit vor • Die Alternativhypothese H1 lautet: β1 ≠ 0 (β0 bzw. a ist in der Hypothese nicht eingeschlossen) Fempirisch Erklärte Variation/ J Nicht erklärte Variation/ (K J 1) K - J - 1 = df , K = Anzahl der Fälle, J = Anzahl der unabhängigen Variablen Ermittlung des theoretischen F-Wertes (Ftheoretisch), ein Auszug aus der F-Tabelle: df/J 1 2 3 4 5 6 7 8 9 10 1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 … … … … … … … … … … … 30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 • Wenn Fempirisch > Ftheoretisch, dann wird H0 zugunsten H1 verworfen. • Der Zusammenhang ist dann statistisch signifikant. In unserem Beispiel: Fempirisch 69,565 / 1 69,565 1,502 , Ftheoretisch = 5,32 370,435 / 8 46,304 H0 wird beibehalten. Der Zusammenhang ist auf dem 5%-Niveau nicht signifikant. Standardfehler (standard error, s.e. bzw. sb): • Der Standardfehler kennzeichnet die Streuung der Regressionskoeffizienten a und b um den Populationsparameter und ist damit ein Gütemaß für die Genauigkeit der Parameterschätzung. • Die Genauigkeit des Regressionskoeffizienten wächst mit kleiner werdendem Standardfehler. • Er bildet darüber hinaus die Basis für die Berechnung des Konfidenzintervalls für a und b. 2 (y y' ) i Der Standardfehler von b (sb) = In unserem Beispiel: s b Varianz von b 46,304 0,177 147,2 10 i K J1 s 2x n T-Test: • Der T-Test prüft, ob die Regressionskoeffizienten a und b in der Grundgesamtheit signifikant von Null verschieden sind. • Es wird die Nullhypothese geprüft, dass die unbekannten, wahren Regressionskoeffizienten β0 bzw. a und β1 sich nicht von Null unterscheiden. • Die Nullhypothese H0 lautet: β0 = 0, β1 = 0 • Die Alternativhypothese H1 lautet: β0 ≠ 0, β1 ≠ 0 t empirisch b sb In unserem Beispiel: Je größer der Standardfehler (sb) ist, desto kleiner fällt der empirische T-Wert aus. D.h. es ist um so wahrscheinlicher, dass H0 nicht abgelehnt wird. Der empirische T-Wert sollte > ± 1,96 sein, damit H0 abgelehnt wird. t empirisch 0,217 1,226 0,177 Ermittlung des theoretischen T-Wertes (Ttheoretisch), ein Auszug aus der Student-Tabelle: df/α 1 2 3 … 7 8 9 10 Irrtumswahrscheinlichkeit α für zweiseitige Fragestellung 0.20 0.10 0.050 0.020 0.010 0.0010 3.078 6.314 12.706 31.821 63.657 318.309 1.886 2.920 4.303 6.965 9.925 22.327 1.638 2.353 3.182 4.541 5.841 10.215 … … … … … … 1.415 1.895 2.365 2.998 3.499 4.785 1.397 1.860 2.306 2.896 3.355 4.501 1.383 1.833 2.262 2.821 3.250 4.297 1.372 1.812 2.228 2.764 3.169 4.144 • Wenn tempirisch > ttheoretisch, dann wird H0 zugunsten H1 verworfen. • Der Zusammenhang ist dann statistisch signifikant. In unserem Beispiel: tempirisch = 1,226, ttheoretisch = 2,306 H0 wird beibehalten. Der Zusammenhang ist auf dem 5%-Niveau nicht signifikant. F-Test und T-Test: • Bei nur einer unabhängigen Variablen ist der F-Test für das Modell auch ein Test der einen Variablen, deren Einfluss hier durch den T-Test geprüft wird. • Im Fall der einfachen linearen Regression reicht es aus, nur einen dieser beiden Tests durchzuführen. F-Test in der multiplen Regressionsanalyse: H0: β1 = β2 = … = βj = 0 H1: mindestens ein β-Parameter ≠ 0 (β0 ist nicht eingeschlossen) T-Test in der multiplen Regressionsanalyse: H0: β0 = 0, β1 = 0, …, βj = 0 H1: β0 ≠ 0, β1 ≠ 0, …, βj ≠ 0 Konfidenzintervall: • Das Konfidenzintervall gibt Aufschluss darüber, in welchem Intervall der unbekannte Populationsparameter β0 und β1 liegt. • Es wird der Frage nachgegangen, welchen Wert die unbekannten, wahren Regressionskoeffizienten annehmen? b t s b β b t s b • • Je größer das Konfidenzintervall ist, desto ungenauer ist die Parameterschätzung in der Grundgesamtheit bzw. desto unzuverlässiger ist die gefundene Regressionsfunktion bezüglich dieses Parameters. Die Breite des Konfidenzintervalls hängt insbesondere von der Höhe des Standardfehlers (sb) ab. Je größer sb ist, desto größer fällt das Konfidenzintervall aus und beinhaltet um so wahrscheinlicher den Wert „Null“. In unserem Beispiel erhalten wir für β1 (95%-Konfidenzintervall): 0,217 2,306 0,177 β1 0,217 2,306 0,177 0,192 β1 0,626 Wie sieht das Ganze in SPSS aus? Modellzusammenfassung (b) Modell 1 R ,398 (a) Korrigiertes R-Quadrat ,053 R-Quadrat ,158 Standardfehler des Schätzers 6,805 a Einflußvariablen : (Konstante), Alter b Abhängige Variable: Einkommen (in 100 Euro) Modell 1 Regression Residuen Gesamt ANOVA (b) QuadratMittel der summe df Quadrate 69,565 1 69,565 370,435 8 46,304 440,000 9 F Signifikanz 1,502 ,255 (a) a Einflußvariablen : (Konstante), Alter b Abhängige Variable: Einkommen (in 100 Euro) F-Test: Da der p-Wert > α (= 0,05) ist, wird H0 nicht abgelehnt Koeffizienten (a) Modell 1 (Konstante) Alter Nicht standardisierte Koeffizienten StandardB fehler 12,870 7,754 ,217 ,177 Standardisierte Koeffizienten a Abhängige Variable: Einkommen (in 100 Euro) T Signifikanz Beta ,398 1,660 1,226 ,136 ,255 95%-Konfidenzintervall für B UnterObergrenze grenze -5,011 30,750 -,192 ,626 T-Test für β0 und β1: Da der p-Wert > α (0,05) ist, wird H0 nicht abgelehnt