Kovarianz, Korrelation und Regression Bivariate Regressionsanalyse Jost Reinecke Universität Bielefeld 15. März 2005 Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Kovarianz, Korrelation und Regression Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Kovarianz, Korrelation und Regression Ausgangspunkt ist folgende Datenmatrix: Statistische Einheiten 1 2 3 4 5 . . . NOBS 1 x11 x21 x31 . . . . . xN1 Variablen 2 ... x12 . . . x22 . . . x32 . . . . . . . . . . . . . xN2 . . . Jost Reinecke NI x1k x2k x3k . . . . . xNk Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression 1. Kovarianz zwischen xi und xj : PN (xi − x̄i ) ∗ (xj − x̄j ) cov (xi , xj ) = 1 N mit x̄i = PN (xi ) N 1 PN (1) (2) (xj ) (3) N Erklärung: Summe der korrespondierenden Abweichungen von ihrem Mittelwert. Die Werte der Kovarianz sind abhängig von der Skalierung der Variablen. x̄j = 1 Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression 2. Produkt-Moment Korrelation zwischen xi und xj (Pearson Korrelation): cov (xi , xj ) (4) rij = s xi ∗ s xj mit s xi = s PN 1 (xi − x̄i )2 N (5) s xj = s PN (xj − x̄j )2 N (6) 1 Erklärung: Kovarianz zwischen xi und xj , dividiert durch das Produkt der Standardabweichungen. Die Werte des Korrelationskoeffizienten liegen zwischen −1 und +1. Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Korrelation als standardisiertes Zusammenhangsmaß: zi = xi − x i s xi zj = xj − x j s xj mit z i = 0 und szi = 1 mit z j = 0 und szj = 1 r xi xj = P (xi − x i )(xj − x j ) 1 X zi · z j = N s xi · s xj N Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression 1. Jede der Variablen ist standardisiert. 2. Für jede Untersuchungseinheit wird das Produkt der Standardwerte z1 und z2 gebildet. 3. Die Produkte werden aufsummiert. 4. Die Summe wird durch N dividiert, d.h. es wird der Mittelwert der Produkte gebildet. Der Korrelationskoeffizient beschreibt die Stärke des linearen Zusammenhangs zwischen zwei Merkmalen. Der Wertebereich liegt zwischen −1 und +1: −1: perfekter negativer Zusammenhang +1: perfekter positiver Zusammenhang Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression xj 6 u u u u u u u u u u u u u u u u - xi Graphische Darstellung einer positiven Korrelation Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression xj 6 u u u u u u u u u u u u u u u u - xi Graphische Darstellung einer negativen Korrelation Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression xj 6 u u u u u u u u u u u u u u u u u - u xi Graphische Darstellung einer 0-Korrelation Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Eine Gerade, die den Zusammenhang zwischen den Variablen möglichst gut beschreibt, lät sich durch eine lineare Funktionsgleichung angeben: xj = a + bxi (7) I a = Achsenabschnitt (Schnittpunkt der Geraden mit der y-Achse) I b = Steigung der Geraden Da aber kein perfekter linearer Zuammenhang zwischen xi und xj besteht, sind die Vorhersagewerte fehlerbehaftet: x̂j = a + bxi + e wobei gilt: xj = x̂j + e ⇔ e = xj − x̂j Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression xj 6 u u u u u u u u u u x̄j u u x̂j u u u u - xi x̄i Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Die Güte der Approximation der xj -Werte durch die geschätzten Werte wird über eine quadratische Fehlerfunktion festgestellt: x̂j = a + bxi + e Q(e) := X −→ e2 = e = x̂j − bxi − a X −→ (x̂j − bxi − a)2 Es wird die Gerade gesucht, bei der die Summe der quadrierten Abweichungen am kleinsten ist: X ei2 = f (a, b) P 2 Die Bestimmung der Werte für a und b, bei denen ei minimal ist, erfolgt über partielle Ableitungen: P P ∂ ( ei2 ) ∂ ( ei2 ) = 0; =0 ∂a ∂b Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Der Regressionskoeffizient b ist demnach: b= Cov (xi , xj ) sx2i Danach läßt sich auch a berechnen: a = xj − b · xi Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Beispiel: Variablen und Daten des ALLBUS 1994 Variable Variable Variable Variable V175: V176: V261: V263: Treimanberufsprestige-Skala Magnitudeberufsprestige-Skala Einkommen Haushaltsgröße Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Univariate Statistik: Mittelwerte und Standardabweichungen Variable V175 N 929 x̄ 37,903 sx 11,234 V176 929 52,495 25,265 V261 929 1156,904 1071,652 V263 929 2,482 1,335 Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Bivariate Statistik: Korrelationskoeffizienten V175 V176 V261 V263 V175 1,0000 ,8542 ,2500 ,0027 V176 ,8542 1,0000 ,2428 ,0243 V261 ,2500 ,2428 1,0000 -,3049 V263 ,0027 ,0243 -,3049 1,0000 Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Plot of V175 with V176 80 60 Tre im a n p re s tig e 40 20 0 0 100 200 Magnitudeprestige Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Plot of V261 with V263 14000 12000 10000 8000 Ein kom m e n 6000 4000 2000 0 0 10 20 Haushaltsgroesse Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Varianzzerlegung im linearen Regressionsmodell Die Summe der quadrierten Abweichungen der Beobachtungswerte vom arithmetischen Mittel (Gesamtvariation) kann zerlegt werden in 1. die Summe der quadrierten Abweichungen der Beobachtungswerte von den Regressionswerten (nicht erklärte Variation) und in 2. die Summe der quadrierten Abweichungen der Regressionswerte vom arithmetischen Mittel (erklärte Variation) Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression xj 6 t t t t t t x¯j ¾ t xˆj − x¯j © t xˆj t t txj − xˆj t xj − x¯j t - x¯i Jost Reinecke xi Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression 1. Die Differenz xj − x̄j ist die Abweichung des Meßwertes xj vom Mittelwert x̄j , der auch als zu erklärende Abweichung bezeichnet wird. 2. Die Differenz xj − x̂j ist die Abweichung des Meßwertes xj vom Wert der Regressionsgeraden x̂j , der auch als nicht erklärte Abweichung bezeichnet wird. 3. Die Differenz x̂j − x̄j ist die Abweichung des Wertes der Regressionsgeraden x̂j vom Mittelwerte x̄j , der auch als erklärte Abweichung bezeichnet wird. Jost Reinecke Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression xj − x̄j = (x̂j − x̄j ) + (xj − x̂j ) GVar. = EVar. + NEVar. P 2 (xj −x̄j ) P 2 (xj −x̄j ) = P 2 (x̂j −x̄j ) P 2 (xj −x̄j ) erkl.-SAQ Gesamt-SAQ + P 2 (xj −x̂j ) P 2 (xj −x̄j ) n.-erkl.-SAQ Gesamt-SAQ Gesamt-SAQ Gesamt-SAQ = 1 = r2 + 1 − r2 GV = EV + NEV Jost Reinecke + Bivariate Regressionsanalyse Kovarianz, Korrelation und Regression Der Vorhersagewert für die Variable xj ist der Mittelwert x̄j . Nach Auswertung der Information über die Variable xi , d.h. nach Bestimmung der Regressionsgeraden, wird der Regressionswert x̂j berechnet. Die Gesamtabweichung zwischen Meß- und Vorhersagewert (Mittelwert) xj − x̄j wird in einen erklärten Anteil (x̂j − x̄j ) und einen nicht erklärten Anteil (xj − x̂j ) zerlegt. Jost Reinecke Bivariate Regressionsanalyse