Multiple Regression Multiple Regression

Werbung
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN
MATHEMATIK UND STATISTIK
INFORMATIONS- UND DOKUMENTATIONSZENTRUM
Multiple Regression
R. KRAFT
Multiple Regression in Matrizenschreibweise
Biometrische und Ökonometrische Methoden I
WS 99/00
Multiples Regressionsmodell
Eindimensionale Regression in Matrizenschreibweise
Multiple Regression in Matrizenschreibweise
Multiples Bestimmtheitsmaß
Tafel der Varianzanalyse
Vertrauensintervalle
Vertrauensintervall für die Schätzwerte
Individuelle Vertrauensintervalle für die Koeffizienten
Vertrauensellipsoid für den Koeffizientenvektor
Prüfung des Regressionsmodells
Multiple Regression
Partialtest der multiplen Regressionskoeffizienten
Test des multiplen Bestimmtheitsmaßes
Residuenanalyse
Spezielle Methoden der multiplen Regression
Standardisierte partielle Regressionskoeffizienten
Multiple Standard-Regressionsgleichung
Sequentielle SQ-Werte
Partielles Bestimmtheitsmaß
Partieller F-Test
Verallgemeinerter partieller F-Test
Korrigiertes Bestimmtheitsmaß
Multiple Regression
KRAFT
Multiple Regression
KRAFT
Preis - Motorleistung - Hubraum - Zins
Hersteller
Modell
Leistung
[kW]
Audi
Audi
Audi
Audi
BMW
BMW
BMW
BMW
BMW
A4 1.6
A4 1.8
A4 2.6
A4 2.8
316i
318i
320i
323i
328i
074
092
110
142
075
085
110
125
142
Preis - Motorleistung - Hubraum - Zins
Dreidimensionale Regression
Hubraum
[cm3]
Zins
[%]
Preis
[DM]
1595
1781
2598
2771
1596
1796
1991
2494
2793
3.9
3.9
3.9
3.9
2.9
2.9
2.9
2.9
2.9
38000
41600
48100
53600
38600
42100
48600
52200
57200
MTB > Regress 'DM' 3 'kW' 'cm^3' '%'.
Regression Analysis
The regression equation is
DM = 25535 + 199 kW + 3.08 cm^3 - 1998 %
Predictor
Constant
kW
cm^3
%
S = 835.5
Coef
25535
199.43
3.084
-1997.8
StDev
2305
36.80
1.939
597.0
R-Sq = 99.1%
T
11.08
5.42
1.59
-3.35
P
0.000
0.003
0.173
0.020
R-Sq(adj) = 98.5%
Analysis of Variance
Source
DF
SS
MS
F
P
Regression 3 378649349 126216450 180.79 0.000
Error
5
3490651
698130
Total
8 382140000
2.9%
3.9%
60000
Source
kW
cm^3
%
50000
DM
40000
2500
70
80
2000
90 100
kW
Multiple Regression
110
120
130
cm^3
DF
Seq SS
1 370670207
1
161605
1
7817536
1500
140
KRAFT
Multiple Regression
KRAFT
Multiples Regressionsmodell
Eindimensionale Regression
in Matrizenschreibweise
Meßwerte
Matrizen
n Tupel (x1i,x2i,...,xmi, yi)
y1
Lineares Modell
y
y i 0 1x1i 2x2i ÿ mxmi ei
y2
1 x1
e2
e
yn
0, 1, 2,...,m unbekannte Parameter
ei normalverteilt mit E(ei) = 0 und Var(ei) = .2, unkorreliert
e1
en
n×1
0
1
X
2×1
1 x2
1 xn
n×1
Design-Matrix
n×2
n Modellgleichungen 6 Vektorgleichung
Regressionshyperebene in der Grundgesamtheit
0 1x1 e1
y1
E(y) 0 1x1 2x2 ÿ mx m
y i 0 1xi e i für (1 1,2,ÿ,n):
Erwartungswerte E(y i) liegen auf einer Hyperebene
y2
yn
0 1x2 e2
0 1x n en
Parameterschätzung
Unbekannte wahre Parameter werden durch empirische
Parameter geschätzt
y1
ˆ 0 b0 , ˆ 1 b1 , ˆ 2 b2 ,..., ˆ m b m
y2
Schätzung der Erwartungswerte
yn
ŷ(x) b0 b1x1 b2x2 ÿ b mxm
kurz:
ŷ Schätzwert für E(y)
Multiple Regression
Matrizengleichung der Regression
KRAFT
e1
1 x1
1 x2
1 xn
@
0
1
e2
en
y X @ e bzw. E(y) X @ Multiple Regression
KRAFT
i'1
&1
b X T@X
n
i'1
1
j xi
n i'1
2
j (x i x)(yi y)
i'1
n
2
j (xi x)
SPxy
SQ x
sxy
2
sx
i'1
@X T@y
Multiple Regression
KRAFT
KRAFT
y T ( y ny
2
n1
n2
SQRest
sR
2
MQRest
MQRegression
2
SQ
n2
FG
MQ
2
2
n
Multiple Regression
j
2
xi j yi
2
ˆ
sR (X T ( X)&1
Varianz-Kovarianz-Matrix: Var(b)
n
n
Total
i'1
1
j xi
n i'1
y T(yb T(X T(y
b1 n
j x iy i n
n
Rest
n
b T ( X T ( y ny
n
1
1
b0 j yi b1 j xi y b1x
n i'1
n i'1
Regression
Regressionskoeffizienten
Variationsursache
X @X@bX @y
SQRest SQTotal SQRegression y T ( y b T ( X T ( y
i'1
2
i'1
T
2
i'1
T
i'1
n
2
j x i b0 j x i b1 j x i y i
n
i'1
n
i'1
i'1
n
n
n
2
n
nb0 j xi b1 j y i
2
Normalgleichungssystem
2
SQ(b) (y X @ b) @ (y X @ b) 6 Minimum
(y X @ b)T @ (y X @ b) y T @ y y T @ X @ b b T @ X T @ y b T @ X T @ X @ b
MSQ(b)
X T @ y X T @ y 2 X T @ X @ b 2 X T @ y 2 X T @ X @ b 0
Mb
n
i'1
T
SQTotal SQ y j (yi y)2 j yi ny y T ( y ny
i'1
Streuungen und Tafel der Varianzanalyse
i'1
SQRegression
n
i'1
n
2
i'1
n
SQ(b0,b1) j ei j (y i ŷi)2 j (yi b0 b1x i)2 6 Minimum
1
Gaußsches Prinzip der kleinsten Quadrate
SQRegression j (ŷi y)2 j ŷi ny (X ( b)T ( (X ( b) ny b T ( X T ( X ( b ny b T ( X T ( y ny
2
F0
Bestimmung der empirischen
Regressionskoeffizienten
0 1x1n 2x2n ÿ mxmn e n
yn
Matrizengleichung der Regression
1 x11 x21 þ xm1
y1
y2
yn
kurz:
1 x12 x22 þ xm2
1 x1n x2n þ xmn
0
@
1
m
e1
e2
en
y X @ e bzw. E(y) X @ Multiple Regression
KRAFT
MQRest
m
KRAFT
MQRegression
SQRegression
SQTotal
2
n!1
nm1
SQRest
n!m!1
SQRegression
B
sR
Multiple Regression
2
y T @ y ny
für (i 1,2,ÿ,n):
0 1x12 2x22 ÿ mxm2 e2
Total
y2
y T@yb T@X T@y
y i 0 1xi e i
Rest
0 1x11 2x21 ÿ mxm1 e1
y1
m
n Modellgleichungen 6 Vektorgleichung
2
n×(m%1)
b T @ X T @ y ny
1 x1n x2n þ xmn
(m%1)×1
Regression
F0
MQ
FG
SQ
m
n×1
Variationsursache
en
n×1
1 x12 x22 þ xm2
Tafel der Varianzanalyse:
X
Multiples Bestimmtheitsmaß:
yn
1
2
ˆ
sR (X T @ X)&1
Var(b)
e2
Varianz-Kovarianz-Matrix:
e
b X T @ X &1 @ X T @ y
y2
Schätzung der multiplen oder partiellen Regressionskoeffizienten:
y
1 x11 x21 þ xm1
0
e1
Multiple Regression in Matrizenschreibweise
y1
yX@e
Matrizen
Modell:
Multiple Regression
in Matrizenschreibweise
Vertrauensintervalle
Test der multiplen Regressionskoeffizienten
Partialtests
Vertrauensintervall für die Schätzwerte
ŷi ±tn&m&1;1&"/2 @ sR @
(
T
X i @ (X T @ X)&1 @ X i
1&"
Testgröße:
Xi: i-te Zeile der Designmatrix X
Individuelle Vertrauensintervalle für die Koeffizienten
bk ±tn&m&1;1&"/2 @ sR @ d kk
dkk: k-tes Diagonalelement von (X T @ X)&1
sb
k
(
k k | die anderen Regressoren
sind in der Gleichung
H1:
Ablehnung von H0 , wenn:
(
t0 > tn&m&1;1& "
(
t0 < tn&m&1;1& "
(
|t0| > tn&m&1;1& "/2
k < k
k … k
Vertrauensellipsoid des Koeffizientenvektors
bk b k
H0:
k > k
1&"
t0 2
(b )T @ X T @ X @ (b ) # Fm%1,n&m&1;1&" @ (m 1) @ sR
1
Test des multiplen Bestimmtheitsmaßes
Globaltest
VI1- "
außerhalb
( b0 , b1 )
innerhalb
MQRegression
(n m 1) B
m (1 B)
SQRest / (n m 1)
F0
H0:
H1:
B 0 bzw. 1 2 ÿ k 0 œk 1,2,ÿ,m
B > 0 bzw. ›k: k … 0 (k 1,2,ÿ,m)
MQRest
SQRegression / m
Testgröße:
Ablehnung von H0 , wenn:
VI1- "
Multiple Regression
0
KRAFT
F0 > Fm,n&m&1;1& "
Multiple Regression
KRAFT
Mais NPK
Mais NPK - Grafik
MTB > Print 'N' 'P' 'K' 'Ertrag'.
62.9750
Ertrag
Data Display
32.1250
Row
N
P
K
Ertrag
75
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
0
0
0
0
0
0
0
0
0
50
50
50
50
50
50
50
50
50
100
100
100
100
100
100
100
100
100
0
0
0
75
75
75
150
150
150
0
0
0
75
75
75
150
150
150
0
0
0
75
75
75
150
150
150
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
30.2
39.6
40.7
16.7
33.1
53.0
42.0
34.6
36.7
34.9
27.7
41.9
36.8
59.6
41.3
54.3
40.8
56.3
51.9
54.2
44.7
54.9
49.4
78.4
77.4
58.7
62.8
25
N
112.5
P
37.5
75
K
25
50
50
.97
.12
62
32
25
75
.5
37
2 .5
11
25
75
MTB > Correlation 'Ertrag' 'N' 'P' 'K'.
Correlations (Pearson)
Ertrag
0.669
0.000
N
P
0.318
0.106
0.000
1.000
K
0.184
0.358
0.000
1.000
N
P
0.000
1.000
Cell Contents: Correlation
P-Value
Multiple Regression
KRAFT
Multiple Regression
KRAFT
Mais NPK - Regression
Mais NPK - Varianz-Kovarianz-Matrix
MTB > Name c5 = 'Fits' c6 = 'Resid'
MTB > Name K1 = 'MQ_Rest' m1 = '(X^TX)^(-1)'
MTB > Regress 'Ertrag' 3 'N' 'P' 'K';
SUBC>
Fits 'Fits';
SUBC>
Residuals 'Resid';
SUBC>
MSE 'MQ_Rest';
SUBC>
XPXInverse '(X^TX)^(-1)';
SUBC>
DW.
MTB > Print 'MQ_Rest' '(X^TX)^(-1)'.
Data Display
MQ_Rest
Matrix (X^TX)^(-1)
Regression Analysis
The regression equation is
Ertrag = 26.4 + 0.229 N + 0.0724 P + 0.0630 K
Predictor
Constant
N
P
K
S = 9.78
Coef
26.376
0.22867
0.07244
0.06300
StDev
4.414
0.04611
0.03074
0.04611
R-Sq = 58.2%
T
5.97
4.96
2.36
1.37
P
0.000
0.000
0.027
0.185
R-Sq(adj) = 52.7%
Analysis of Variance
Source
Regression
Error
Total
DF
3
23
26
SS
3063.0
2200.3
5263.3
Source
N
P
K
DF
1
1
1
Seq SS
2353.0
531.4
178.6
MS
1021.0
95.7
F
10.67
P
0.000
0.203704 -0.001111 -0.000741 -0.001111
-0.001111 0.000022 0.000000 0.000000
-0.000741 0.000000 0.000010 -0.000000
-0.001111 0.000000 -0.000000 0.000022
MTB > Name m2 'Var(b)'
MTB > Multiply 'MQ_Rest' '(X^TX)^(-1)' 'Var(b)'.
MTB > Print 'Var(b)'.
Data Display
Matrix Var(b)
19.4873
-0.1063
-0.0709
-0.1063
MTB
MTB
MTB
MTB
>
>
>
>
-0.1063
0.0021
0.0000
0.0000
-0.0709
0.0000
0.0009
-0.0000
-0.1063
0.0000
-0.0000
0.0021
Diagonal 'Var(b)' c7.
Let C7 = SQRT(C7)
Name c7 'StDev(b)'
Print 'StDev(b)'.
Data Display
StDev(b)
4.41444
Durbin-Watson statistic = 2.04
Multiple Regression
95.6649
KRAFT
Multiple Regression
0.04611
0.03074
0.04611
KRAFT
Mais NPK - Regression über Matrizen
MTB >
MTB >
DATA>
DATA>
MTB >
MTB >
Mais NPK - Regression über Matrizen
Name m3 'X'
Set c8
1( 1 : 1 / 1 )27
End.
Copy C8 'N' 'P' 'K' 'X'.
Print 'X'.
MTB > Name m4 'X^T'
MTB > Transpose 'X' 'X^T'.
MTB > Name m5 'y'
MTB > Copy 'Ertrag' 'y'.
MTB > Name m6 'X^TX'
MTB > Multiply 'X^T' 'X' 'X^TX'.
Data Display
Matrix X
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
50
50
50
50
50
50
50
50
50
100
100
100
100
100
100
100
100
100
Multiple Regression
MTB > Invert 'X^TX' '(X^TX)^(-1)'.
0
0
0
75
75
75
150
150
150
0
0
0
75
75
75
150
150
150
0
0
0
75
75
75
150
150
150
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
0
50
100
MTB > Name m7 '(X^TX)^(-1)X^T'
MTB > Multiply '(X^TX)^(-1)' 'X^T' &
CONT> '(X^TX)^(-1)X^T'.
MTB > Name m8 'b'
MTB > Multiply '(X^TX)^(-1)X^T' 'y' 'b'.
MTB > Print 'b'.
Data Display
Matrix b
26.3759
0.2287
0.0724
0.0630
MTB > Name c8 'Koeff'
MTB > Copy 'b' 'Koeff'.
MTB > Print 'Koeff'.
Data Display
Koeff
26.3759
KRAFT
Multiple Regression
0.2287
0.0724
0.0630
KRAFT
KRAFT
Standardisierte Regression
-3.0SL=-28.64
)
bk bk @
1
m
65
Fit
45
25
35
1
-10
0
10
20
Preis - Motorleistung - Hubraum - Zins
Standardisierte Regression
Descriptive Statistics
0
-15 -10
-5
MTB > Describe 'DM' 'kW' 'cm^3' '%'.
Residual
5
10
Histogram of Residuals
15
2
0
-1
Variable
DM
kW
cm^3
%
0
1
2
3
4
5
6
-10
0
-2
Normal Score
1
Normal Plot of Residuals
10
sy
ŷ ȳ
) x x̄
) x x̄
) x x̄
b1 @ 1 1 b2 @ 2 2 ÿ b m @ m m
sy
sx
sx
sx
Frequency
Multiple Regression
Residual
20
(k 1,2,ÿ,m)
k
Multiple Standard-Regressionsgleichung
55
Residuals vs. Fits
20
-30
-20
0
-10
10
20
0
10
Observation Number
I Chart of Residuals
30
Residual
Residual Model Diagnostics
sx
Residual
Mais NPK - Grafische Residuenanalyse
30
X=0.000
3.0SL=28.64
Standardisierte partielle Regressionskoeffizienten
N
Mean Median TrMean StDev SE Mean
9 46667 48100 46667 6911
2304
9 106.11 110.00 106.11 26.47
8.82
9
2157
1991
2157
502
167
9 3.344 2.900 3.344 0.527
0.176
ˆ 25535 199 @ kW 3.08 @ cm3 1998 @ %
DM
ˆ 46667
DM
kW 106
cm3 2157
% 3.34
199 @
3.08 @
1998 @
6911
26
0.53
502
Multiple Regression
KRAFT
Preis - Motorleistung - Hubraum - Zins
Standardisierte multiple Regressionsgleichung
MTB
MTB
MTB
MTB
>
>
>
>
Name
Name
Name
Name
c20
c21
c22
c23
Sequentielle SQ-Werte
SQ-Anteil an SQRegression, der zusätzlich von einer einzelnen Variablen erklärt wird
'DMs'
'kWs'
'cm^3s'
'%s'
seq
SQbk SQb |b ,b ,ÿ,b
k
0
1
k&1
seq
(k 1,2,ÿ,m)
seq
seq
SQRegression|b SQb1|b0 SQb2|b0,b1 ÿ SQbm|b0,b1,ÿ,bm&1
MTB > Center 'DM' - '%' 'DMs' - '%s'.
0
MTB > Regress 'DMs' 3 'kWs' 'cm^3s' '%s'.
Regression Analysis
The regression equation is
DMs = 0.00 + 0.76 kWs + 0.22 cm^3s - 0.15 %s
Predictor
Constant
kWs
cm^3s
%s
Coef
0.00000
0.7639
0.2242
-0.15235
StDev
0.04030
0.1410
0.1410
0.04553
S = 0.1209
R-Sq = 99.1%
T
0.00
5.42
1.59
-3.35
Preis - Motorleistung - Hubraum - Zins
Sequentielle SQ-Werte
P
1.000
0.003
0.173
0.020
Analysis of Variance
R-Sq(adj) = 98.5%
Analysis of Variance
Source
DF
Regression 3
Residual
5
Total
8
SS
7.9269
0.0731
8.0000
Source
kWs
cm^3s
%s
Seq SS
7.7599
0.0034
0.1637
DF
1
1
1
MS
2.6423
0.0146
F
180.79
P
0.000
Source
DF
Regression 3
Residual
5
Total
8
SS
7.9269
0.0731
8.0000
MS
F
2.6423 180.79
0.0146
Source
kWs
cm^3s
%s
DF
1
1
1
Seq SS
7.7599
0.0034
0.1637
Reihenfolge kWs cm^3s %s
Source
cm^3s
kWs
%s
DF
1
1
1
Regression
Multiple Regression
KRAFT
Multiple Regression
P
0.000
Seq SS Reihenfolge cm^3s kWs %s
7.0529
0.7110
0.1637
-------7.9269
KRAFT
Partielles Bestimmtheitsmaß
Partieller F-Test
Anteil der durch Einflußgröße erklärten Gesamtvariation, wenn
Einfluß der anderen Größen eliminiert ist
Quadrat des partiellen Korrelationskoeffizienten
zweidimensional:
part
2
Byx2.x1 ryx2.x1 1
Welchen zusätzlichen Anteil an der Abweichungsquadratsumme erklärt ein Regressor,
unter der Voraussetzung, daß alle anderen
Regressoren bereits in der Regressionsgleichung sind?
2
ryx ryx @ rx x
2
Fragestellung:
1 2
2
2
(1 rx1x2) @ (1 ryx1)
Verbessert die Aufnahme eines Regressors
xk zu den übrigen bereits vorhandenen Regressoren x1, x2 ,..., xk-1 das Bestimmtheitsmaß wesentlich?
H0: k 0 | ŷ b0 b1x1 b2x2 ÿ bkx k
Preis - Motorleistung - Hubraum - Zins
Partielle Bestimmtheitsmaße
(k)
F0
Analysis of Variance
Source
DF
Regression 3
Residual
5
Total
8
SS
7.9269
0.0731
8.0000
Source
kWs
cm^3s
%s
Seq SS
7.7599
0.0034
0.1637
DF
1
1
1
seq
MS
F
2.6423 180.79
0.0146
P
0.000
SQbk|b0,b1,ÿ,bk&1
SQRest / (n m 1)
(B Bk&1)
seq
SQbk|b0,b1,ÿ,bk&1
MQRest
B
(1 B) / (n m 1) (1 B) / (n m 1)
Annahme der Alternative H1: k … 0 | ŷ b0 b1x1 b2x2 ÿ bkx k ,
(k)
wenn F0 > F1,n&m&1;1&"
Partieller F-Test ist identisch mit partiellem t-Test des letzten
Regressors, da
BDMs,kWs
= 7.7599 / 8 = 0.9700 = 97.00%
BDMs,cm^3s|kWs
= 0.0731 / 8 = 0.0004 = 00.04%
BDMs,%s|cm^3s,kWs = 0.1637 / 8 = 0.0205 = 02.05%
(k)
t0 B = 97.00% + 0.04% + 2.05% = 99.09% = 99.1%
Multiple Regression
durch letzten Regressor erklärte zusätzliche Var.
unerklärte Variation / (nm1)
KRAFT
bk
sb
(k)
F0
und
tn&m&1;1&"/2 F1,n&m&1;1&"
k
Multiple Regression
KRAFT
Verallgemeinerter partieller F-Test
Fragestellung:
Korrigiertes Bestimmtheitsmaß
Welchen zusätzlichen Anteil an der Abweichungsquadratsumme erklären die letzten r
Regressoren, unter der Voraussetzung, daß
alle anderen Regressoren bereits in der Regressionsgleichung sind?
Verbessert die Aufnahme der letzten r Regressoren das Bestimmtheitsmaß wesentlich?
H0: k&r%1 ÿ k 0 | ŷ b0 b1x1 ÿ bkx k
(r)
F0
seq
r
SQRest / (n m 1)
(B Bk&r) / r
(1 B) / (n m 1)
r
MQRest
SQTotal
1
SQRest
SQTotal
Bei jedem zusätzlichen Regressor verringert sich SQRest. Dadurch
wird das Bestimmtheitsmaß größer, auch wenn eigentlich kein
wesentlicher Einfluß auf die Regression vorhanden ist. Auch die
Freiheitsgrade des Fehlers werden kleiner.
Das korrigierte Bestimmtheitsmaß berücksichtigt die Anzahl
der Regressoren:
SQRest / (n m 1)
SQTotal / (n 1)
Es dient zum Vergleich der Güte verschieden dimensionaler
Regressionsmodelle.
seq
j SQletzte r Regressoren / r
SQRegression
Bkorr Badj 1 durch letzte r Regressoren erkl. zusätzl. Var. / r
unerklärte Variation / (nm1)
j SQletzte r Regressoren / r
B
Das korrigierte Bestimmtheitsmaß ist immer kleiner als das unkorrigierte Bestimmtheitsmaß, da m > 0. Es kann bei zusätzlicher
Aufnahme einer Variablen sogar kleiner werden.
B
(1 B) / (n m 1)
(r)
Vergleich von F0 mit Fr,n&m&1;1&"
Multiple Regression
KRAFT
Multiple Regression
KRAFT
Herunterladen