Bivariate Regressionsanalyse

Werbung
Kovarianz, Korrelation und Regression
Bivariate Regressionsanalyse
Jost Reinecke
Universität Bielefeld
15. März 2005
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Kovarianz, Korrelation und Regression
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Kovarianz, Korrelation und Regression
Ausgangspunkt ist folgende Datenmatrix:
Statistische
Einheiten
1
2
3
4
5
.
.
.
NOBS
1
x11
x21
x31
.
.
.
.
.
xN1
Variablen
2
...
x12 . . .
x22 . . .
x32 . . .
.
.
.
.
.
.
.
.
.
.
xN2 . . .
Jost Reinecke
NI
x1k
x2k
x3k
.
.
.
.
.
xNk
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
1. Kovarianz zwischen xi und xj :
PN
(xi − x̄i ) ∗ (xj − x̄j )
cov (xi , xj ) = 1
N
mit
x̄i =
PN
(xi )
N
1
PN
(1)
(2)
(xj )
(3)
N
Erklärung: Summe der korrespondierenden Abweichungen
von ihrem Mittelwert. Die Werte der Kovarianz sind
abhängig von der Skalierung der Variablen.
x̄j =
1
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
2. Produkt-Moment Korrelation zwischen xi und xj (Pearson
Korrelation):
cov (xi , xj )
(4)
rij =
s xi ∗ s xj
mit
s xi =
s
PN
1
(xi − x̄i )2
N
(5)
s xj =
s
PN
(xj − x̄j )2
N
(6)
1
Erklärung: Kovarianz zwischen xi und xj , dividiert durch
das Produkt der Standardabweichungen. Die Werte des
Korrelationskoeffizienten liegen zwischen −1 und +1.
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Korrelation als standardisiertes Zusammenhangsmaß:
zi =
xi − x i
s xi
zj =
xj − x j
s xj
mit z i = 0 und szi = 1
mit z j = 0 und szj = 1
r xi xj =
P
(xi − x i )(xj − x j )
1 X
zi · z j
=
N s xi · s xj
N
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
1. Jede der Variablen ist standardisiert.
2. Für jede Untersuchungseinheit wird das Produkt der
Standardwerte z1 und z2 gebildet.
3. Die Produkte werden aufsummiert.
4. Die Summe wird durch N dividiert, d.h. es wird der
Mittelwert der Produkte gebildet.
Der Korrelationskoeffizient beschreibt die Stärke des linearen
Zusammenhangs zwischen zwei Merkmalen. Der Wertebereich
liegt zwischen −1 und +1:
−1: perfekter negativer Zusammenhang
+1: perfekter positiver Zusammenhang
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
xj 6
u u
u
u
u
u
u
u
u
u
u
u
u
u
u
u
-
xi
Graphische Darstellung einer positiven Korrelation
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
xj 6
u
u
u
u
u
u
u
u
u
u
u
u
u
u
u
u
-
xi
Graphische Darstellung einer negativen Korrelation
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
xj 6
u
u
u
u
u
u
u
u
u
u u
u
u
u
u
u
u
-
u
xi
Graphische Darstellung einer 0-Korrelation
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Eine Gerade, die den Zusammenhang zwischen den Variablen
möglichst gut beschreibt, lät sich durch eine lineare
Funktionsgleichung angeben:
xj = a + bxi
(7)
I
a = Achsenabschnitt (Schnittpunkt der Geraden mit der
y-Achse)
I
b = Steigung der Geraden
Da aber kein perfekter linearer Zuammenhang zwischen xi und
xj besteht, sind die Vorhersagewerte fehlerbehaftet:
x̂j = a + bxi + e
wobei gilt:
xj = x̂j + e ⇔ e = xj − x̂j
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
xj 6
u u
u
u
u
u
u
u
u
u
x̄j
u
u
x̂j
u
u
u
u
-
xi
x̄i
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Die Güte der Approximation der xj -Werte durch die
geschätzten Werte wird über eine quadratische Fehlerfunktion
festgestellt:
x̂j = a + bxi + e
Q(e) :=
X
−→
e2 =
e = x̂j − bxi − a
X
−→
(x̂j − bxi − a)2
Es wird die Gerade gesucht, bei der die Summe der
quadrierten Abweichungen am kleinsten ist:
X
ei2 = f (a, b)
P 2
Die Bestimmung der Werte für a und b, bei denen
ei
minimal ist, erfolgt über partielle Ableitungen:
P
P
∂ ( ei2 )
∂ ( ei2 )
= 0;
=0
∂a
∂b
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Der Regressionskoeffizient b ist demnach:
b=
Cov (xi , xj )
sx2i
Danach läßt sich auch a berechnen:
a = xj − b · xi
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Beispiel: Variablen und Daten des ALLBUS 1994
Variable
Variable
Variable
Variable
V175:
V176:
V261:
V263:
Treimanberufsprestige-Skala
Magnitudeberufsprestige-Skala
Einkommen
Haushaltsgröße
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Univariate Statistik: Mittelwerte und Standardabweichungen
Variable
V175
N
929
x̄
37,903
sx
11,234
V176
929
52,495
25,265
V261
929
1156,904
1071,652
V263
929
2,482
1,335
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Bivariate Statistik: Korrelationskoeffizienten
V175
V176
V261
V263
V175
1,0000
,8542
,2500
,0027
V176
,8542
1,0000
,2428
,0243
V261
,2500
,2428
1,0000
-,3049
V263
,0027
,0243
-,3049
1,0000
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Plot of V175 with V176
80
60
Tre im a n p re s tig e
40
20
0
0
100
200
Magnitudeprestige
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Plot of V261 with V263
14000
12000
10000
8000
Ein kom m e n
6000
4000
2000
0
0
10
20
Haushaltsgroesse
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Varianzzerlegung im linearen Regressionsmodell
Die Summe der quadrierten Abweichungen der
Beobachtungswerte vom arithmetischen Mittel
(Gesamtvariation) kann zerlegt werden in
1. die Summe der quadrierten Abweichungen der
Beobachtungswerte von den Regressionswerten (nicht
erklärte Variation) und in
2. die Summe der quadrierten Abweichungen der
Regressionswerte vom arithmetischen Mittel (erklärte
Variation)
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
xj 6
t t
t
t
t
t
x¯j
¾
t
xˆj − x¯j ©
t
xˆj
t
t
txj − xˆj
t


xj − x¯j

t
-
x¯i
Jost Reinecke
xi
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
1. Die Differenz xj − x̄j ist die Abweichung des Meßwertes xj
vom Mittelwert x̄j , der auch als zu erklärende
Abweichung bezeichnet wird.
2. Die Differenz xj − x̂j ist die Abweichung des Meßwertes xj
vom Wert der Regressionsgeraden x̂j , der auch als nicht
erklärte Abweichung bezeichnet wird.
3. Die Differenz x̂j − x̄j ist die Abweichung des Wertes der
Regressionsgeraden x̂j vom Mittelwerte x̄j , der auch als
erklärte Abweichung bezeichnet wird.
Jost Reinecke
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
xj − x̄j
= (x̂j − x̄j )
+ (xj − x̂j )
GVar.
= EVar.
+ NEVar.
P
2
(xj −x̄j )
P
2
(xj −x̄j )
=
P
2
(x̂j −x̄j )
P
2
(xj −x̄j )
erkl.-SAQ
Gesamt-SAQ
+
P
2
(xj −x̂j )
P
2
(xj −x̄j )
n.-erkl.-SAQ
Gesamt-SAQ
Gesamt-SAQ
Gesamt-SAQ
=
1
= r2
+ 1 − r2
GV
= EV
+ NEV
Jost Reinecke
+
Bivariate Regressionsanalyse
Kovarianz, Korrelation und Regression
Der Vorhersagewert für die Variable xj ist der Mittelwert x̄j .
Nach Auswertung der Information über die Variable xi , d.h.
nach Bestimmung der Regressionsgeraden, wird der
Regressionswert x̂j berechnet. Die Gesamtabweichung
zwischen Meß- und Vorhersagewert (Mittelwert) xj − x̄j wird in
einen erklärten Anteil (x̂j − x̄j ) und einen nicht erklärten Anteil
(xj − x̂j ) zerlegt.
Jost Reinecke
Bivariate Regressionsanalyse
Zugehörige Unterlagen
Herunterladen