TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM Multiple Regression R. KRAFT Multiple Regression in Matrizenschreibweise Biometrische und Ökonometrische Methoden I WS 99/00 Multiples Regressionsmodell Eindimensionale Regression in Matrizenschreibweise Multiple Regression in Matrizenschreibweise Multiples Bestimmtheitsmaß Tafel der Varianzanalyse Vertrauensintervalle Vertrauensintervall für die Schätzwerte Individuelle Vertrauensintervalle für die Koeffizienten Vertrauensellipsoid für den Koeffizientenvektor Prüfung des Regressionsmodells Multiple Regression Partialtest der multiplen Regressionskoeffizienten Test des multiplen Bestimmtheitsmaßes Residuenanalyse Spezielle Methoden der multiplen Regression Standardisierte partielle Regressionskoeffizienten Multiple Standard-Regressionsgleichung Sequentielle SQ-Werte Partielles Bestimmtheitsmaß Partieller F-Test Verallgemeinerter partieller F-Test Korrigiertes Bestimmtheitsmaß Multiple Regression KRAFT Multiple Regression KRAFT Preis - Motorleistung - Hubraum - Zins Hersteller Modell Leistung [kW] Audi Audi Audi Audi BMW BMW BMW BMW BMW A4 1.6 A4 1.8 A4 2.6 A4 2.8 316i 318i 320i 323i 328i 074 092 110 142 075 085 110 125 142 Preis - Motorleistung - Hubraum - Zins Dreidimensionale Regression Hubraum [cm3] Zins [%] Preis [DM] 1595 1781 2598 2771 1596 1796 1991 2494 2793 3.9 3.9 3.9 3.9 2.9 2.9 2.9 2.9 2.9 38000 41600 48100 53600 38600 42100 48600 52200 57200 MTB > Regress 'DM' 3 'kW' 'cm^3' '%'. Regression Analysis The regression equation is DM = 25535 + 199 kW + 3.08 cm^3 - 1998 % Predictor Constant kW cm^3 % S = 835.5 Coef 25535 199.43 3.084 -1997.8 StDev 2305 36.80 1.939 597.0 R-Sq = 99.1% T 11.08 5.42 1.59 -3.35 P 0.000 0.003 0.173 0.020 R-Sq(adj) = 98.5% Analysis of Variance Source DF SS MS F P Regression 3 378649349 126216450 180.79 0.000 Error 5 3490651 698130 Total 8 382140000 2.9% 3.9% 60000 Source kW cm^3 % 50000 DM 40000 2500 70 80 2000 90 100 kW Multiple Regression 110 120 130 cm^3 DF Seq SS 1 370670207 1 161605 1 7817536 1500 140 KRAFT Multiple Regression KRAFT Multiples Regressionsmodell Eindimensionale Regression in Matrizenschreibweise Meßwerte Matrizen n Tupel (x1i,x2i,...,xmi, yi) y1 Lineares Modell y y i 0 1x1i 2x2i ÿ mxmi ei y2 1 x1 e2 e yn 0, 1, 2,...,m unbekannte Parameter ei normalverteilt mit E(ei) = 0 und Var(ei) = .2, unkorreliert e1 en n×1 0 1 X 2×1 1 x2 1 xn n×1 Design-Matrix n×2 n Modellgleichungen 6 Vektorgleichung Regressionshyperebene in der Grundgesamtheit 0 1x1 e1 y1 E(y) 0 1x1 2x2 ÿ mx m y i 0 1xi e i für (1 1,2,ÿ,n): Erwartungswerte E(y i) liegen auf einer Hyperebene y2 yn 0 1x2 e2 0 1x n en Parameterschätzung Unbekannte wahre Parameter werden durch empirische Parameter geschätzt y1 ˆ 0 b0 , ˆ 1 b1 , ˆ 2 b2 ,..., ˆ m b m y2 Schätzung der Erwartungswerte yn ŷ(x) b0 b1x1 b2x2 ÿ b mxm kurz: ŷ Schätzwert für E(y) Multiple Regression Matrizengleichung der Regression KRAFT e1 1 x1 1 x2 1 xn @ 0 1 e2 en y X @ e bzw. E(y) X @ Multiple Regression KRAFT i'1 &1 b X T@X n i'1 1 j xi n i'1 2 j (x i x)(yi y) i'1 n 2 j (xi x) SPxy SQ x sxy 2 sx i'1 @X T@y Multiple Regression KRAFT KRAFT y T ( y ny 2 n1 n2 SQRest sR 2 MQRest MQRegression 2 SQ n2 FG MQ 2 2 n Multiple Regression j 2 xi j yi 2 ˆ sR (X T ( X)&1 Varianz-Kovarianz-Matrix: Var(b) n n Total i'1 1 j xi n i'1 y T(yb T(X T(y b1 n j x iy i n n Rest n b T ( X T ( y ny n 1 1 b0 j yi b1 j xi y b1x n i'1 n i'1 Regression Regressionskoeffizienten Variationsursache X @X@bX @y SQRest SQTotal SQRegression y T ( y b T ( X T ( y i'1 2 i'1 T 2 i'1 T i'1 n 2 j x i b0 j x i b1 j x i y i n i'1 n i'1 i'1 n n n 2 n nb0 j xi b1 j y i 2 Normalgleichungssystem 2 SQ(b) (y X @ b) @ (y X @ b) 6 Minimum (y X @ b)T @ (y X @ b) y T @ y y T @ X @ b b T @ X T @ y b T @ X T @ X @ b MSQ(b) X T @ y X T @ y 2 X T @ X @ b 2 X T @ y 2 X T @ X @ b 0 Mb n i'1 T SQTotal SQ y j (yi y)2 j yi ny y T ( y ny i'1 Streuungen und Tafel der Varianzanalyse i'1 SQRegression n i'1 n 2 i'1 n SQ(b0,b1) j ei j (y i ŷi)2 j (yi b0 b1x i)2 6 Minimum 1 Gaußsches Prinzip der kleinsten Quadrate SQRegression j (ŷi y)2 j ŷi ny (X ( b)T ( (X ( b) ny b T ( X T ( X ( b ny b T ( X T ( y ny 2 F0 Bestimmung der empirischen Regressionskoeffizienten 0 1x1n 2x2n ÿ mxmn e n yn Matrizengleichung der Regression 1 x11 x21 þ xm1 y1 y2 yn kurz: 1 x12 x22 þ xm2 1 x1n x2n þ xmn 0 @ 1 m e1 e2 en y X @ e bzw. E(y) X @ Multiple Regression KRAFT MQRest m KRAFT MQRegression SQRegression SQTotal 2 n!1 nm1 SQRest n!m!1 SQRegression B sR Multiple Regression 2 y T @ y ny für (i 1,2,ÿ,n): 0 1x12 2x22 ÿ mxm2 e2 Total y2 y T@yb T@X T@y y i 0 1xi e i Rest 0 1x11 2x21 ÿ mxm1 e1 y1 m n Modellgleichungen 6 Vektorgleichung 2 n×(m%1) b T @ X T @ y ny 1 x1n x2n þ xmn (m%1)×1 Regression F0 MQ FG SQ m n×1 Variationsursache en n×1 1 x12 x22 þ xm2 Tafel der Varianzanalyse: X Multiples Bestimmtheitsmaß: yn 1 2 ˆ sR (X T @ X)&1 Var(b) e2 Varianz-Kovarianz-Matrix: e b X T @ X &1 @ X T @ y y2 Schätzung der multiplen oder partiellen Regressionskoeffizienten: y 1 x11 x21 þ xm1 0 e1 Multiple Regression in Matrizenschreibweise y1 yX@e Matrizen Modell: Multiple Regression in Matrizenschreibweise Vertrauensintervalle Test der multiplen Regressionskoeffizienten Partialtests Vertrauensintervall für die Schätzwerte ŷi ±tn&m&1;1&"/2 @ sR @ ( T X i @ (X T @ X)&1 @ X i 1&" Testgröße: Xi: i-te Zeile der Designmatrix X Individuelle Vertrauensintervalle für die Koeffizienten bk ±tn&m&1;1&"/2 @ sR @ d kk dkk: k-tes Diagonalelement von (X T @ X)&1 sb k ( k k | die anderen Regressoren sind in der Gleichung H1: Ablehnung von H0 , wenn: ( t0 > tn&m&1;1& " ( t0 < tn&m&1;1& " ( |t0| > tn&m&1;1& "/2 k < k k k Vertrauensellipsoid des Koeffizientenvektors bk b k H0: k > k 1&" t0 2 (b )T @ X T @ X @ (b ) # Fm%1,n&m&1;1&" @ (m 1) @ sR 1 Test des multiplen Bestimmtheitsmaßes Globaltest VI1- " außerhalb ( b0 , b1 ) innerhalb MQRegression (n m 1) B m (1 B) SQRest / (n m 1) F0 H0: H1: B 0 bzw. 1 2 ÿ k 0 k 1,2,ÿ,m B > 0 bzw. k: k 0 (k 1,2,ÿ,m) MQRest SQRegression / m Testgröße: Ablehnung von H0 , wenn: VI1- " Multiple Regression 0 KRAFT F0 > Fm,n&m&1;1& " Multiple Regression KRAFT Mais NPK Mais NPK - Grafik MTB > Print 'N' 'P' 'K' 'Ertrag'. 62.9750 Ertrag Data Display 32.1250 Row N P K Ertrag 75 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 0 0 0 0 0 0 0 0 0 50 50 50 50 50 50 50 50 50 100 100 100 100 100 100 100 100 100 0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 30.2 39.6 40.7 16.7 33.1 53.0 42.0 34.6 36.7 34.9 27.7 41.9 36.8 59.6 41.3 54.3 40.8 56.3 51.9 54.2 44.7 54.9 49.4 78.4 77.4 58.7 62.8 25 N 112.5 P 37.5 75 K 25 50 50 .97 .12 62 32 25 75 .5 37 2 .5 11 25 75 MTB > Correlation 'Ertrag' 'N' 'P' 'K'. Correlations (Pearson) Ertrag 0.669 0.000 N P 0.318 0.106 0.000 1.000 K 0.184 0.358 0.000 1.000 N P 0.000 1.000 Cell Contents: Correlation P-Value Multiple Regression KRAFT Multiple Regression KRAFT Mais NPK - Regression Mais NPK - Varianz-Kovarianz-Matrix MTB > Name c5 = 'Fits' c6 = 'Resid' MTB > Name K1 = 'MQ_Rest' m1 = '(X^TX)^(-1)' MTB > Regress 'Ertrag' 3 'N' 'P' 'K'; SUBC> Fits 'Fits'; SUBC> Residuals 'Resid'; SUBC> MSE 'MQ_Rest'; SUBC> XPXInverse '(X^TX)^(-1)'; SUBC> DW. MTB > Print 'MQ_Rest' '(X^TX)^(-1)'. Data Display MQ_Rest Matrix (X^TX)^(-1) Regression Analysis The regression equation is Ertrag = 26.4 + 0.229 N + 0.0724 P + 0.0630 K Predictor Constant N P K S = 9.78 Coef 26.376 0.22867 0.07244 0.06300 StDev 4.414 0.04611 0.03074 0.04611 R-Sq = 58.2% T 5.97 4.96 2.36 1.37 P 0.000 0.000 0.027 0.185 R-Sq(adj) = 52.7% Analysis of Variance Source Regression Error Total DF 3 23 26 SS 3063.0 2200.3 5263.3 Source N P K DF 1 1 1 Seq SS 2353.0 531.4 178.6 MS 1021.0 95.7 F 10.67 P 0.000 0.203704 -0.001111 -0.000741 -0.001111 -0.001111 0.000022 0.000000 0.000000 -0.000741 0.000000 0.000010 -0.000000 -0.001111 0.000000 -0.000000 0.000022 MTB > Name m2 'Var(b)' MTB > Multiply 'MQ_Rest' '(X^TX)^(-1)' 'Var(b)'. MTB > Print 'Var(b)'. Data Display Matrix Var(b) 19.4873 -0.1063 -0.0709 -0.1063 MTB MTB MTB MTB > > > > -0.1063 0.0021 0.0000 0.0000 -0.0709 0.0000 0.0009 -0.0000 -0.1063 0.0000 -0.0000 0.0021 Diagonal 'Var(b)' c7. Let C7 = SQRT(C7) Name c7 'StDev(b)' Print 'StDev(b)'. Data Display StDev(b) 4.41444 Durbin-Watson statistic = 2.04 Multiple Regression 95.6649 KRAFT Multiple Regression 0.04611 0.03074 0.04611 KRAFT Mais NPK - Regression über Matrizen MTB > MTB > DATA> DATA> MTB > MTB > Mais NPK - Regression über Matrizen Name m3 'X' Set c8 1( 1 : 1 / 1 )27 End. Copy C8 'N' 'P' 'K' 'X'. Print 'X'. MTB > Name m4 'X^T' MTB > Transpose 'X' 'X^T'. MTB > Name m5 'y' MTB > Copy 'Ertrag' 'y'. MTB > Name m6 'X^TX' MTB > Multiply 'X^T' 'X' 'X^TX'. Data Display Matrix X 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 50 50 50 50 50 50 50 50 50 100 100 100 100 100 100 100 100 100 Multiple Regression MTB > Invert 'X^TX' '(X^TX)^(-1)'. 0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 MTB > Name m7 '(X^TX)^(-1)X^T' MTB > Multiply '(X^TX)^(-1)' 'X^T' & CONT> '(X^TX)^(-1)X^T'. MTB > Name m8 'b' MTB > Multiply '(X^TX)^(-1)X^T' 'y' 'b'. MTB > Print 'b'. Data Display Matrix b 26.3759 0.2287 0.0724 0.0630 MTB > Name c8 'Koeff' MTB > Copy 'b' 'Koeff'. MTB > Print 'Koeff'. Data Display Koeff 26.3759 KRAFT Multiple Regression 0.2287 0.0724 0.0630 KRAFT KRAFT Standardisierte Regression -3.0SL=-28.64 ) bk bk @ 1 m 65 Fit 45 25 35 1 -10 0 10 20 Preis - Motorleistung - Hubraum - Zins Standardisierte Regression Descriptive Statistics 0 -15 -10 -5 MTB > Describe 'DM' 'kW' 'cm^3' '%'. Residual 5 10 Histogram of Residuals 15 2 0 -1 Variable DM kW cm^3 % 0 1 2 3 4 5 6 -10 0 -2 Normal Score 1 Normal Plot of Residuals 10 sy ŷ ȳ ) x x̄ ) x x̄ ) x x̄ b1 @ 1 1 b2 @ 2 2 ÿ b m @ m m sy sx sx sx Frequency Multiple Regression Residual 20 (k 1,2,ÿ,m) k Multiple Standard-Regressionsgleichung 55 Residuals vs. Fits 20 -30 -20 0 -10 10 20 0 10 Observation Number I Chart of Residuals 30 Residual Residual Model Diagnostics sx Residual Mais NPK - Grafische Residuenanalyse 30 X=0.000 3.0SL=28.64 Standardisierte partielle Regressionskoeffizienten N Mean Median TrMean StDev SE Mean 9 46667 48100 46667 6911 2304 9 106.11 110.00 106.11 26.47 8.82 9 2157 1991 2157 502 167 9 3.344 2.900 3.344 0.527 0.176 ˆ 25535 199 @ kW 3.08 @ cm3 1998 @ % DM ˆ 46667 DM kW 106 cm3 2157 % 3.34 199 @ 3.08 @ 1998 @ 6911 26 0.53 502 Multiple Regression KRAFT Preis - Motorleistung - Hubraum - Zins Standardisierte multiple Regressionsgleichung MTB MTB MTB MTB > > > > Name Name Name Name c20 c21 c22 c23 Sequentielle SQ-Werte SQ-Anteil an SQRegression, der zusätzlich von einer einzelnen Variablen erklärt wird 'DMs' 'kWs' 'cm^3s' '%s' seq SQbk SQb |b ,b ,ÿ,b k 0 1 k&1 seq (k 1,2,ÿ,m) seq seq SQRegression|b SQb1|b0 SQb2|b0,b1 ÿ SQbm|b0,b1,ÿ,bm&1 MTB > Center 'DM' - '%' 'DMs' - '%s'. 0 MTB > Regress 'DMs' 3 'kWs' 'cm^3s' '%s'. Regression Analysis The regression equation is DMs = 0.00 + 0.76 kWs + 0.22 cm^3s - 0.15 %s Predictor Constant kWs cm^3s %s Coef 0.00000 0.7639 0.2242 -0.15235 StDev 0.04030 0.1410 0.1410 0.04553 S = 0.1209 R-Sq = 99.1% T 0.00 5.42 1.59 -3.35 Preis - Motorleistung - Hubraum - Zins Sequentielle SQ-Werte P 1.000 0.003 0.173 0.020 Analysis of Variance R-Sq(adj) = 98.5% Analysis of Variance Source DF Regression 3 Residual 5 Total 8 SS 7.9269 0.0731 8.0000 Source kWs cm^3s %s Seq SS 7.7599 0.0034 0.1637 DF 1 1 1 MS 2.6423 0.0146 F 180.79 P 0.000 Source DF Regression 3 Residual 5 Total 8 SS 7.9269 0.0731 8.0000 MS F 2.6423 180.79 0.0146 Source kWs cm^3s %s DF 1 1 1 Seq SS 7.7599 0.0034 0.1637 Reihenfolge kWs cm^3s %s Source cm^3s kWs %s DF 1 1 1 Regression Multiple Regression KRAFT Multiple Regression P 0.000 Seq SS Reihenfolge cm^3s kWs %s 7.0529 0.7110 0.1637 -------7.9269 KRAFT Partielles Bestimmtheitsmaß Partieller F-Test Anteil der durch Einflußgröße erklärten Gesamtvariation, wenn Einfluß der anderen Größen eliminiert ist Quadrat des partiellen Korrelationskoeffizienten zweidimensional: part 2 Byx2.x1 ryx2.x1 1 Welchen zusätzlichen Anteil an der Abweichungsquadratsumme erklärt ein Regressor, unter der Voraussetzung, daß alle anderen Regressoren bereits in der Regressionsgleichung sind? 2 ryx ryx @ rx x 2 Fragestellung: 1 2 2 2 (1 rx1x2) @ (1 ryx1) Verbessert die Aufnahme eines Regressors xk zu den übrigen bereits vorhandenen Regressoren x1, x2 ,..., xk-1 das Bestimmtheitsmaß wesentlich? H0: k 0 | ŷ b0 b1x1 b2x2 ÿ bkx k Preis - Motorleistung - Hubraum - Zins Partielle Bestimmtheitsmaße (k) F0 Analysis of Variance Source DF Regression 3 Residual 5 Total 8 SS 7.9269 0.0731 8.0000 Source kWs cm^3s %s Seq SS 7.7599 0.0034 0.1637 DF 1 1 1 seq MS F 2.6423 180.79 0.0146 P 0.000 SQbk|b0,b1,ÿ,bk&1 SQRest / (n m 1) (B Bk&1) seq SQbk|b0,b1,ÿ,bk&1 MQRest B (1 B) / (n m 1) (1 B) / (n m 1) Annahme der Alternative H1: k 0 | ŷ b0 b1x1 b2x2 ÿ bkx k , (k) wenn F0 > F1,n&m&1;1&" Partieller F-Test ist identisch mit partiellem t-Test des letzten Regressors, da BDMs,kWs = 7.7599 / 8 = 0.9700 = 97.00% BDMs,cm^3s|kWs = 0.0731 / 8 = 0.0004 = 00.04% BDMs,%s|cm^3s,kWs = 0.1637 / 8 = 0.0205 = 02.05% (k) t0 B = 97.00% + 0.04% + 2.05% = 99.09% = 99.1% Multiple Regression durch letzten Regressor erklärte zusätzliche Var. unerklärte Variation / (nm1) KRAFT bk sb (k) F0 und tn&m&1;1&"/2 F1,n&m&1;1&" k Multiple Regression KRAFT Verallgemeinerter partieller F-Test Fragestellung: Korrigiertes Bestimmtheitsmaß Welchen zusätzlichen Anteil an der Abweichungsquadratsumme erklären die letzten r Regressoren, unter der Voraussetzung, daß alle anderen Regressoren bereits in der Regressionsgleichung sind? Verbessert die Aufnahme der letzten r Regressoren das Bestimmtheitsmaß wesentlich? H0: k&r%1 ÿ k 0 | ŷ b0 b1x1 ÿ bkx k (r) F0 seq r SQRest / (n m 1) (B Bk&r) / r (1 B) / (n m 1) r MQRest SQTotal 1 SQRest SQTotal Bei jedem zusätzlichen Regressor verringert sich SQRest. Dadurch wird das Bestimmtheitsmaß größer, auch wenn eigentlich kein wesentlicher Einfluß auf die Regression vorhanden ist. Auch die Freiheitsgrade des Fehlers werden kleiner. Das korrigierte Bestimmtheitsmaß berücksichtigt die Anzahl der Regressoren: SQRest / (n m 1) SQTotal / (n 1) Es dient zum Vergleich der Güte verschieden dimensionaler Regressionsmodelle. seq j SQletzte r Regressoren / r SQRegression Bkorr Badj 1 durch letzte r Regressoren erkl. zusätzl. Var. / r unerklärte Variation / (nm1) j SQletzte r Regressoren / r B Das korrigierte Bestimmtheitsmaß ist immer kleiner als das unkorrigierte Bestimmtheitsmaß, da m > 0. Es kann bei zusätzlicher Aufnahme einer Variablen sogar kleiner werden. B (1 B) / (n m 1) (r) Vergleich von F0 mit Fr,n&m&1;1&" Multiple Regression KRAFT Multiple Regression KRAFT