Lösungen - Technische Universität München

Werbung
TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN
WS 97/98
MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM
Biometrische und Ökonometrische Methoden I ! Lösungen 6
1. a) MTB > Read "H:\STUDENT\MINITAB\CNP.DAT" c1-c3.
Entering data from file: H:\STUDENT\MINITAB\CNP.DAT
306 rows read.
MTB > name c1 'C' c2 'N' c3 'P'
MTB > Save 'I:\CNP.MTW';
SUBC>
Replace.
Saving worksheet in file: I:\CNP.MTW
MTB > Describe 'C'-'P'.
Descriptive Statistics
Variable
C
N
P
N
306
306
306
Mean
15.275
1.5343
9.060
Median
14.650
1.4800
7.900
Tr Mean
14.770
1.4930
8.423
Variable
C
N
P
Min
6.800
0.7700
0.400
Max
51.100
4.3500
41.500
Q1
13.100
1.3000
5.700
Q3
16.025
1.6300
10.500
StDev
4.562
0.4294
6.013
b) MTB > MatrixPlot 'C'-'P';
SUBC>
Symbol.
C und N sind eng
korreliert, C und P
sowie N und P dagegen nicht. Dies
sieht man auch die
Korrelationsmatrix
unten.
40.025
C
17.875
3.455
N
1.665
31.225
P
10.675
875
17.
MTB > Correlation 'C'-'P'.
Correlations (Pearson)
N
P
C
0.960
-0.029
N
-0.044
025
40.
65
1.6
55
3.4
675
10.
225
31.
SE Mean
0.261
0.0245
0.344
Biometrische und Ökonometrische Methoden I
Lösungen zu Aufgabenblatt 6
Seite 2
c) MTB > Regress 'C' 2 'N' 'P';
SUBC>
Constant.
Regression Analysis
The regression equation is
C = - 0.486 + 10.2 N + 0.0107 P
Predictor
Constant
N
P
Coef
-0.4865
10.2092
0.01072
S = 1.272
StDev
0.2962
0.1698
0.01212
R-Sq = 92.3%
T
-1.64
60.13
0.88
P
0.102
0.000
0.377
R-Sq(adj) = 92.2%
Analysis of Variance
Source
Regression
Error
Total
DF
2
303
305
SS
5856.3
490.3
6346.5
MS
2928.1
1.6
F
1809.67
P
0.000
d) Test des Bestimmtheitsmaßes H0: B = 0 gegen H1: B > 0. Der globale F-Test mit der
Testgröße F0 = MSRegression / MSError = 1809.67 und p = 0.000 auf drei Nachkommastellen
liefert Signifikanz auf " = 1%, d.h. es liegt eine hochsignifikante Regression vor.
e) Test der partiellen Regressionskoeffizienten H0: $i = 0 gegen H1: $i … 0 für i = 0,1,2. tTest mit der Testgröße t0 = t-ratio = Coef/StDev.
Für $0 ist t0 = !1.64 bei einem p-Wert von 0.102. H0 kann auf " = 1% nicht abgelehnt
werden, d.h. der Kohlenstoffgehalt bei fehlendem Stickstoff und Phosphor ist nicht
signifikant verschieden von 0. Für $1 ist t0 = 60.13 bei einem p-Wert von 0.000 auf drei
Nachkommastellen. H0 wird auf " = 1% abgelehnt, d.h. der N-Gehalt hat signifikanten
Einfluß auf den C-Gehalt. Für $2 ist t0 = !0.88 bei einem p-Wert von 0.377. H0 kann auf
" = 1% nicht abgelehnt werden. Aufgrund des hohen p-Werts kann man schließen, daß
der C-Gehalt praktisch nicht vom P-Gehalt abhängt.
f) B = R-Sq = 92.3%.
g) Die Koeffizienten und das Bestimmtheitsmaß werden sich kaum verändern, da der PGehalt im zweidimensionalen Modell praktisch keinen Einfluß auf den C-Gehalt hat.
MTB > Regress 'C' 1 'N';
SUBC>
Constant.
Regression Analysis
The regression equation is
C = - 0.379 + 10.2 N
Predictor
Constant
N
S = 1.272
Coef
-0.3791
10.2026
StDev
0.2701
0.1695
R-Sq = 92.3%
T
-1.40
60.18
P
0.161
0.000
R-Sq(adj) = 92.2%
Biometrische und Ökonometrische Methoden I
Lösungen zu Aufgabenblatt 6
Seite 3
h) Der Regressionskoeffizient b1 = 10.2 kann als das durchschnittliche C/N-Verhältnis
interpretiert werden. Er unterscheidet sich vom mittleren C/N-Verhältnis der Einzelwerte
von 9.98.
MTB > name c4 'C/N'
MTB > Let 'C/N' = C / N
MTB > Describe 'C/N'.
Descriptive Statistics
Variable
C/N
N
306
Mean
9.9834
Median
9.8400
Tr Mean
9.9098
Variable
C/N
Min
7.8481
Max
16.8293
Q1
9.5077
Q3
10.2735
StDev
0.9247
SE Mean
0.0529
Läge ein N-Gehalt von 0 vor, so würde bei der Berechnung der einzelnen C/N-Verhälnisse eine Division durch 0 auftreten.
Bei beiden Berechnungsarten liegt das C/N-Verhältnis jedoch bei ca. 10.
2. a) MTB > Retrieve 'H:\STUDENT\MINITAB\ALTER.MTW'.
Retrieving worksheet from file: H:\STUDENT\MINITAB\ALTER.MTW
Worksheet was saved on 12/ 5/1996
MTB > MatrixPlot 'Alter' 'Groesse' 'Gewicht';
SUBC>
Symbol.
Es ist ein linearer
Trend von höheren
Lebensdauern in
Richtung geringerer
Gewichte zu erkennen.
77
Alter
71
181
Groesse
175
90.5
Gewicht
81.5
71
77
5
17
1
18
5
81.
5
90.
Biometrische und Ökonometrische Methoden I
Lösungen zu Aufgabenblatt 6
Seite 4
b) MTB > Regress 'Alter' 2 'Groesse' 'Gewicht';
SUBC>
Constant.
Regression Analysis
The regression equation is
Alter = 129 - 0.046 Groesse - 0.538 Gewicht
Predictor
Constant
Groesse
Gewicht
Coef
128.98
-0.0464
-0.5384
S = 2.680
StDev
35.71
0.2227
0.1864
R-Sq = 61.4%
T
3.61
-0.21
-2.89
P
0.009
0.841
0.023
R-Sq(adj) = 50.4%
Analysis of Variance
Source
Regression
Error
Total
DF
2
7
9
SS
80.114
50.286
130.400
MS
40.057
7.184
F
5.58
P
0.036
c) MTB > Correlation 'Groesse'-'Alter'.
Correlations (Pearson)
Gewicht
Alter
Groesse
0.447
-0.393
Gewicht
-0.782
Die einfache Korrelation gibt die Abhängigkeit der Zielgröße von einer Einflußgröße an,
ohne die Einflüsse aller anderen Variablen auf die Einflußgröße zu beachten. Nach
obiger Korrelationsmatrix ist die Lebensdauer negativ mit dem Gewicht korreliert, d.h.
mit steigendem Gewicht sinkt die Lebensdauer. Auch zwischen Lebensdauer und
Größe besteht eine negative Korrelation. Diese ist jedoch mit der positiven Korrelation
der Größe zum Gewicht zu erklären, was auch logisch ist, da größere Menschen i.a.
auch schwerer sind.
Die multiple Korrelation beschreibt die Abhängigkeit der Zielgröße von mehreren
Einflußgrößen zusammen. Sie ist die Wurzel aus dem Bestimmtheitsmaß B = R-sq =
0.614, also betragsmäßig gleich 0.784. Dies ist gleichzeitig die Korrelation zwischen der
Zielgröße und den Schätzwerten, also Alter und FITS.
d) Die partielle Korrelation ist ein Maß für die Abhängigkeit der Zielgröße von einer Einflußgröße bei Elimination der eventuellen Einflüsse anderer Variablen auf die Einflußgröße.
r(y,x1.x2) '
!0.782%0.393·0.447
2
' !0.737
2
(1!0.393 )·(1!0.447 )
Die partielle Korrelation zwischen Alter und Gewicht nach Elimination der Größe ist also
etwas geringer als die einfache Korrelation zwischen Alter und Größe.
e) Test des der Nullhypothese H0: B = 0 gegen die Alternativhypothese H1: B > 0. Der
globale F-Test mit der Testgröße F0 = MSRegression / MSError = 5.58 und dem zugehörigen
p-Wert von 0.036 liefert Signifikanz auf " = 5% aber keine Signifikanz auf " = 1%, d.h.
es liegt eine signifikante, aber keine hochsignifikante Regression vor.
Biometrische und Ökonometrische Methoden I
Lösungen zu Aufgabenblatt 6
Seite 5
f) Test der partiellen Regressionskoeffizienten H0: $i = 0 gegen H1: $i … 0 für i = 1,2. t-Test
mit Testgröße t0 = t-ratio = Coef/StDev.
Für $1 ist t0 = !0.21 bei einem p-Wert von 0.841. H0 kann auf " = 5% nicht abgelehnt
werden. Aufgrund des hohen p-Werts kann man schließen, daß die Körpergröße
praktisch überhaupt keinen Einfluß auf die Lebensdauer hat. Für $2 ist t0 = !2.89 bei
einem p-Wert von 0.023. H0 wird auf " = 5% abgelehnt, d.h. das Gewicht hat einen
signifikanten Einfluß auf die Lebensdauer.
Diese Testergebnisse entsprechen durchaus den Tatsachen. Während Übergewicht
durchaus die Lebensdauer negativ beeinflussen kann, hat die Körpergröße i.a. keinen
Einfluß.
g) MTB > Regress 'Alter' 2
SUBC>
Constant;
SUBC>
Predict 180 40.
'Groesse' 'Gewicht';
Regression Analysis
[ ... ]
Fit StDev Fit
95.0% CI
95.0% PI
99.099
8.652 (78.634, 119.565) (77.674, 120.524) XX
X denotes a row with X values away from the center
XX denotes a row with very extreme X values
Ein 1.80 m großer und 40 kg schwerer Mann würde also nach dieser Schätzgleichung
etwa 99 Jahre alt werden. Dies ist sicherlich unrealistisch, denn erstens wird sowieso
kaum jemand so alt und zweitens schon gar nicht so ein federleichter Hüne. Dieses
Ergebnis zeigt wieder deutlich, daß eine Regressionsgleichung nur in einem bestimmten Bereich ein sinnvolles und erlaubtes Modell für natürliche Sachverhalte und Abhängigkeiten darstellt. Man beachte die Warnungen X und XX, die von MINITAB ausgegeben werden.
Herunterladen