TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN WS 97/98 MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Biometrische und Ökonometrische Methoden I ! Lösungen 6 1. a) MTB > Read "H:\STUDENT\MINITAB\CNP.DAT" c1-c3. Entering data from file: H:\STUDENT\MINITAB\CNP.DAT 306 rows read. MTB > name c1 'C' c2 'N' c3 'P' MTB > Save 'I:\CNP.MTW'; SUBC> Replace. Saving worksheet in file: I:\CNP.MTW MTB > Describe 'C'-'P'. Descriptive Statistics Variable C N P N 306 306 306 Mean 15.275 1.5343 9.060 Median 14.650 1.4800 7.900 Tr Mean 14.770 1.4930 8.423 Variable C N P Min 6.800 0.7700 0.400 Max 51.100 4.3500 41.500 Q1 13.100 1.3000 5.700 Q3 16.025 1.6300 10.500 StDev 4.562 0.4294 6.013 b) MTB > MatrixPlot 'C'-'P'; SUBC> Symbol. C und N sind eng korreliert, C und P sowie N und P dagegen nicht. Dies sieht man auch die Korrelationsmatrix unten. 40.025 C 17.875 3.455 N 1.665 31.225 P 10.675 875 17. MTB > Correlation 'C'-'P'. Correlations (Pearson) N P C 0.960 -0.029 N -0.044 025 40. 65 1.6 55 3.4 675 10. 225 31. SE Mean 0.261 0.0245 0.344 Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 6 Seite 2 c) MTB > Regress 'C' 2 'N' 'P'; SUBC> Constant. Regression Analysis The regression equation is C = - 0.486 + 10.2 N + 0.0107 P Predictor Constant N P Coef -0.4865 10.2092 0.01072 S = 1.272 StDev 0.2962 0.1698 0.01212 R-Sq = 92.3% T -1.64 60.13 0.88 P 0.102 0.000 0.377 R-Sq(adj) = 92.2% Analysis of Variance Source Regression Error Total DF 2 303 305 SS 5856.3 490.3 6346.5 MS 2928.1 1.6 F 1809.67 P 0.000 d) Test des Bestimmtheitsmaßes H0: B = 0 gegen H1: B > 0. Der globale F-Test mit der Testgröße F0 = MSRegression / MSError = 1809.67 und p = 0.000 auf drei Nachkommastellen liefert Signifikanz auf " = 1%, d.h. es liegt eine hochsignifikante Regression vor. e) Test der partiellen Regressionskoeffizienten H0: $i = 0 gegen H1: $i … 0 für i = 0,1,2. tTest mit der Testgröße t0 = t-ratio = Coef/StDev. Für $0 ist t0 = !1.64 bei einem p-Wert von 0.102. H0 kann auf " = 1% nicht abgelehnt werden, d.h. der Kohlenstoffgehalt bei fehlendem Stickstoff und Phosphor ist nicht signifikant verschieden von 0. Für $1 ist t0 = 60.13 bei einem p-Wert von 0.000 auf drei Nachkommastellen. H0 wird auf " = 1% abgelehnt, d.h. der N-Gehalt hat signifikanten Einfluß auf den C-Gehalt. Für $2 ist t0 = !0.88 bei einem p-Wert von 0.377. H0 kann auf " = 1% nicht abgelehnt werden. Aufgrund des hohen p-Werts kann man schließen, daß der C-Gehalt praktisch nicht vom P-Gehalt abhängt. f) B = R-Sq = 92.3%. g) Die Koeffizienten und das Bestimmtheitsmaß werden sich kaum verändern, da der PGehalt im zweidimensionalen Modell praktisch keinen Einfluß auf den C-Gehalt hat. MTB > Regress 'C' 1 'N'; SUBC> Constant. Regression Analysis The regression equation is C = - 0.379 + 10.2 N Predictor Constant N S = 1.272 Coef -0.3791 10.2026 StDev 0.2701 0.1695 R-Sq = 92.3% T -1.40 60.18 P 0.161 0.000 R-Sq(adj) = 92.2% Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 6 Seite 3 h) Der Regressionskoeffizient b1 = 10.2 kann als das durchschnittliche C/N-Verhältnis interpretiert werden. Er unterscheidet sich vom mittleren C/N-Verhältnis der Einzelwerte von 9.98. MTB > name c4 'C/N' MTB > Let 'C/N' = C / N MTB > Describe 'C/N'. Descriptive Statistics Variable C/N N 306 Mean 9.9834 Median 9.8400 Tr Mean 9.9098 Variable C/N Min 7.8481 Max 16.8293 Q1 9.5077 Q3 10.2735 StDev 0.9247 SE Mean 0.0529 Läge ein N-Gehalt von 0 vor, so würde bei der Berechnung der einzelnen C/N-Verhälnisse eine Division durch 0 auftreten. Bei beiden Berechnungsarten liegt das C/N-Verhältnis jedoch bei ca. 10. 2. a) MTB > Retrieve 'H:\STUDENT\MINITAB\ALTER.MTW'. Retrieving worksheet from file: H:\STUDENT\MINITAB\ALTER.MTW Worksheet was saved on 12/ 5/1996 MTB > MatrixPlot 'Alter' 'Groesse' 'Gewicht'; SUBC> Symbol. Es ist ein linearer Trend von höheren Lebensdauern in Richtung geringerer Gewichte zu erkennen. 77 Alter 71 181 Groesse 175 90.5 Gewicht 81.5 71 77 5 17 1 18 5 81. 5 90. Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 6 Seite 4 b) MTB > Regress 'Alter' 2 'Groesse' 'Gewicht'; SUBC> Constant. Regression Analysis The regression equation is Alter = 129 - 0.046 Groesse - 0.538 Gewicht Predictor Constant Groesse Gewicht Coef 128.98 -0.0464 -0.5384 S = 2.680 StDev 35.71 0.2227 0.1864 R-Sq = 61.4% T 3.61 -0.21 -2.89 P 0.009 0.841 0.023 R-Sq(adj) = 50.4% Analysis of Variance Source Regression Error Total DF 2 7 9 SS 80.114 50.286 130.400 MS 40.057 7.184 F 5.58 P 0.036 c) MTB > Correlation 'Groesse'-'Alter'. Correlations (Pearson) Gewicht Alter Groesse 0.447 -0.393 Gewicht -0.782 Die einfache Korrelation gibt die Abhängigkeit der Zielgröße von einer Einflußgröße an, ohne die Einflüsse aller anderen Variablen auf die Einflußgröße zu beachten. Nach obiger Korrelationsmatrix ist die Lebensdauer negativ mit dem Gewicht korreliert, d.h. mit steigendem Gewicht sinkt die Lebensdauer. Auch zwischen Lebensdauer und Größe besteht eine negative Korrelation. Diese ist jedoch mit der positiven Korrelation der Größe zum Gewicht zu erklären, was auch logisch ist, da größere Menschen i.a. auch schwerer sind. Die multiple Korrelation beschreibt die Abhängigkeit der Zielgröße von mehreren Einflußgrößen zusammen. Sie ist die Wurzel aus dem Bestimmtheitsmaß B = R-sq = 0.614, also betragsmäßig gleich 0.784. Dies ist gleichzeitig die Korrelation zwischen der Zielgröße und den Schätzwerten, also Alter und FITS. d) Die partielle Korrelation ist ein Maß für die Abhängigkeit der Zielgröße von einer Einflußgröße bei Elimination der eventuellen Einflüsse anderer Variablen auf die Einflußgröße. r(y,x1.x2) ' !0.782%0.393·0.447 2 ' !0.737 2 (1!0.393 )·(1!0.447 ) Die partielle Korrelation zwischen Alter und Gewicht nach Elimination der Größe ist also etwas geringer als die einfache Korrelation zwischen Alter und Größe. e) Test des der Nullhypothese H0: B = 0 gegen die Alternativhypothese H1: B > 0. Der globale F-Test mit der Testgröße F0 = MSRegression / MSError = 5.58 und dem zugehörigen p-Wert von 0.036 liefert Signifikanz auf " = 5% aber keine Signifikanz auf " = 1%, d.h. es liegt eine signifikante, aber keine hochsignifikante Regression vor. Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 6 Seite 5 f) Test der partiellen Regressionskoeffizienten H0: $i = 0 gegen H1: $i … 0 für i = 1,2. t-Test mit Testgröße t0 = t-ratio = Coef/StDev. Für $1 ist t0 = !0.21 bei einem p-Wert von 0.841. H0 kann auf " = 5% nicht abgelehnt werden. Aufgrund des hohen p-Werts kann man schließen, daß die Körpergröße praktisch überhaupt keinen Einfluß auf die Lebensdauer hat. Für $2 ist t0 = !2.89 bei einem p-Wert von 0.023. H0 wird auf " = 5% abgelehnt, d.h. das Gewicht hat einen signifikanten Einfluß auf die Lebensdauer. Diese Testergebnisse entsprechen durchaus den Tatsachen. Während Übergewicht durchaus die Lebensdauer negativ beeinflussen kann, hat die Körpergröße i.a. keinen Einfluß. g) MTB > Regress 'Alter' 2 SUBC> Constant; SUBC> Predict 180 40. 'Groesse' 'Gewicht'; Regression Analysis [ ... ] Fit StDev Fit 95.0% CI 95.0% PI 99.099 8.652 (78.634, 119.565) (77.674, 120.524) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Ein 1.80 m großer und 40 kg schwerer Mann würde also nach dieser Schätzgleichung etwa 99 Jahre alt werden. Dies ist sicherlich unrealistisch, denn erstens wird sowieso kaum jemand so alt und zweitens schon gar nicht so ein federleichter Hüne. Dieses Ergebnis zeigt wieder deutlich, daß eine Regressionsgleichung nur in einem bestimmten Bereich ein sinnvolles und erlaubtes Modell für natürliche Sachverhalte und Abhängigkeiten darstellt. Man beachte die Warnungen X und XX, die von MINITAB ausgegeben werden.