Lösungen - Technische Universität München

Werbung
TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN
SS 98
MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM
Biometrische und Ökonometrische Methoden II ! Lösungen 6
a) Die Marken 1, 2, 8 aus Spalte C1 werden in C12 mit dem Wert 1 eingetragen, 3, 7, 9, 10, 11
mit 2 und 4, 5, 6 mit 3.
MTB > Retrieve 'H:\STUDENT\MINITAB\MARGDISK.MTW'.
Retrieving worksheet from file: H:\STUDENT\MINITAB\MARGDISK.MTW
Worksheet was saved on 6/ 9/1997
MTB > name c12 'Gruppe'
MTB > Code (1 2 8) 1 (3 7 9 10 11) 2 (4 5 6) 3 'Marke' 'Gruppe'
MTB > Save 'I:MARGDISK.MTW';
SUBC>
Replace.
Saving worksheet in file: I:\MARGDISK.MTW
b) MTB > name c13 'Kontroll'
MTB > Set 'Kontroll'
DATA>
42( 1 1 1 1 2 )1
DATA>
End.
MTB
MTB
MTB
MTB
>
>
>
>
name
name
name
name
c21
c24
c27
c30
'Marke-p' c22 'Streich-p' c23 'Preis-p'
'Halt-p' c25 'UngFett-p' c26 'Back-p'
'Geschm.-p' c28 'Kalorien-p' c29 'TierFett-p'
'Vitamin-p' c31 'Natur-p' c32 'Gruppe-p' c32
MTB > Unstack ('Marke'-'Gruppe')('Marke'-'Gruppe') &
('Marke-p'-'Gruppe-p');
SUBC>
Subscripts 'Kontroll'.
Der Set-Befehl erzeugt eine Spalte Kontroll mit dem Inhalt 1 1 1 1 2 1 1 1 1 2
.... Unstack mit dieser Spalte im Subscripts-Subkommando kopiert dann alle Zeilen des
Ausgangsblocks (c1-c12), die eine 1 in der Kontrollspalte haben, wiederum in die Spalten
c21-c32 und überschreibt diese. Alle Zeilen mit einer 2 in der Kontrollspalte erscheinen im
Prüfblock c21-c32. Somit sind die Daten in der gewünschten Form geteilt.
Biometrische und Ökonometrische Methoden II
Lösungen zu Aufgabenblatt 6
Seite 2
c) MTB > Discriminant 'Gruppe' 'Streich'-'Natur'.
Discriminant Analysis
Linear Method for Response:
Predictors: Streich Preis
TierFett Vitamin Natur
Group
Count
1
43
2
82
Gruppe
Halt UngFett
Back
Geschm.
Kalorien
3
43
Summary of Classification
Put into
Group
1
2
3
Total N
N Correct
Proportion
N =
168
....True Group....
1
2
3
31
17
3
11
55
6
1
10
34
43
82
43
31
55
34
0.721
0.671
0.791
N Correct =
120
Proportion Correct = 0.714
Von den 43 Befragungsergebnissen zur Markengruppe 1 wurden 31 richtig in Markengruppe
1 eingeordnet, 11 verkehrt in Markengruppe 2 und 1 verkehrt in Markengruppe 3. Dies
entspricht eienm richtig klassifizierten Anteil von 72.1%. Analoges folgt für die beiden anderen
Markengruppen. Insgesamt wurden von 168 Befragungsergebnissen 120 richtig eingeordnet,
d.h. es wurden 71.4 % der Befragungen richtig klassifiziert. Bei zufälliger Klassifizierung wäre
die Trefferwahrscheinlichkeit nur 33.3 %.
Squared Distance Between Groups
1
2
3
1
0.00000 1.96587 6.64017
2
1.96587 0.00000 5.29989
3
6.64017 5.29989 0.00000
Die Mahalanobis -Distanzen zwischen den Gruppencentroiden werden in Form obiger Matrix
ausgegeben.
Linear Discriminant Function for Group
1
2
3
Constant -21.815 -18.934 -22.423
Streich
2.065
1.877
1.980
Preis
1.101
0.798
0.851
Halt
2.479
2.334
1.470
UngFett
1.060
1.051
0.562
Back
-0.063
0.546
0.187
Geschm.
0.566
0.350
1.196
Kalorien
0.977
1.383
1.698
TierFett
0.355
0.388
0.973
Vitamin
0.277
-0.233
-0.488
Natur
1.082
0.863
1.521
Dies sind die Koeffizienten der 3 linearen Diskriminanzfunktionen. Bei der Entscheidung, zu
welcher Markengruppe ein weiteres Befragungsergebnis zugeordnet wird, werden diese drei
Funktionen mit den Werten der neuen Beobachtung ausgewertet. Die Befragung wird dann
der Markengruppe zugeordnet, die den größten Wert der Diskriminanzfunktion liefert.
Biometrische und Ökonometrische Methoden II
Lösungen zu Aufgabenblatt 6
Seite 3
Summary of Misclassified Observations
Observation
2 **
4 **
8 **
12 **
:
:
159 **
164 **
True Pred Group Squared Probability
Group Group
Distance
1
3
1
27.080
0.013
2
25.560
0.028
3
18.520
0.958
1
2
1
11.033
0.134
2
7.431
0.809
3
12.739
0.057
1
2
1
12.090
0.192
2
9.738
0.623
3
12.171
0.185
1
2
1
12.430
0.333
2
11.070
0.659
3
19.990
0.008
:
:
:
:
:
:
:
:
:
:
2
3
1
8.433
0.155
2
6.470
0.413
3
6.377
0.433
2
3
1
10.878
0.111
2
8.218
0.419
3
7.986
0.470
Mit dem obigen linearen Diskriminanzfunktionen werden die Befragungsergebnisse nachträglich klassifiziert. Die Klassifikationsergebnisse der fehlklassifizierten Werte werden hier
von MINITAB mit einigen zusätzlichen Werten ausgegeben. Z.B. Beobachtung 2 gehört zur
Markengruppe 1, hat jedoch mit 18.52 zur Klassifikationsgruppe 3 den kleinsten quadratischen Abstand, wird somit auch in Markengruppe 3 klassifiziert. Hinter den quadrierten
Abständen stehen dann noch die A-Posteriori-Wahrscheinlichkeiten, daß die Beobachtung
zur jeweiligen Gruppe gehört. Aus Platzgründen wurden in der Lösung nur 6 von den 48
fehlklassifizierten Beobachtungen angegeben.
d) MTB > Discriminant 'Gruppe' 'Streich'-'Natur';
SUBC>
XVal;
SUBC>
Brief 3.
Zusätzlich zur Klassifikationsmatrix ohne Kreuzvalidierung in c) wird anschließend die
Klassifikationsmatrix mit Kreuzvalidierung ausgegeben.
Summary of Classification with Cross-validation
Put into
Group
1
2
3
Total N
N Correct
Proportion
N =
168
....True Group....
1
2
3
28
22
3
11
49
6
4
11
34
43
82
43
28
49
34
0.651
0.598
0.791
N Correct =
111
Proportion Correct = 0.661
Das Klassifikationsergebnis mit Kreuzvalidierung ist etwas schlechter als ohne, weil das
Befragungsergebnis, das im letzten Schritt probeklassifiziert wird, nicht mit in die Erstellung
der Diskriminanzfunktionen eingeht.
Biometrische und Ökonometrische Methoden II
Variable
Streich
Preis
Halt
UngFett
Back
Geschm.
Kalorien
TierFett
Vitamin
Natur
Variable
Streich
Preis
Halt
UngFett
Back
Geschm.
Kalorien
TierFett
Vitamin
Natur
Lösungen zu Aufgabenblatt 6
Pooled
Mean
4.5952
4.2857
4.1548
3.6250
3.9762
4.3869
4.0238
2.9167
3.9167
4.0774
Means for Group
1
2
5.3953
4.5976
4.7442
3.8780
4.6279
4.3293
3.8837
3.6463
3.3023
4.2439
4.4419
3.8780
3.1395
3.9390
1.8372
2.1463
4.3023
3.5976
4.1163
3.5732
3
3.7907
4.6047
3.3488
3.3256
4.1395
5.3023
5.0698
5.4651
4.1395
5.0000
Pooled
StDev
1.520
1.632
1.139
1.515
1.661
1.299
1.578
2.373
1.379
1.385
StDev for Group
1
2
1.664
1.174
1.663
1.241
1.254
0.982
1.789
1.337
1.767
1.470
1.368
1.137
1.656
1.558
2.104
2.352
1.611
1.174
1.451
1.324
3
1.909
2.173
1.289
1.539
1.885
1.505
1.534
2.649
1.489
1.431
Seite 4
Dies sind die Mittelwerte und Standardabweichungen der Merkmalsvariablen gepoolt und
nach Gruppen getrennt. Die Zusammenstellung der fehlklassifizierten Beobachtungen
unterscheidet sich von der aus c).
Summary of Misclassified Observations
Observation
2 **
4 **
7 **
8 **
12 **
:
:
159 **
164 **
167 **
True Pred X-val Group
Group Group Group
1
3
3
1
2
3
1
2
2
1
2
3
1
1
3
1
2
3
1
2
2
1
2
3
1
2
2
1
2
3
:
:
:
:
:
:
:
:
2
3
3
1
2
3
2
3
3
1
2
3
2
2
1
1
2
3
Squared
Pred
27.080
25.560
18.520
11.033
7.431
12.739
15.990
18.820
16.940
12.090
9.738
12.171
12.430
11.070
19.990
:
:
8.433
6.470
6.377
10.878
8.218
7.986
6.759
6.679
7.953
Dist. Probability
X-val
Pred X-val
33.910 0.01 0.00
30.170 0.03 0.01
1.220 0.96 0.99
12.340 0.13 0.09
7.836 0.81 0.85
13.147 0.06 0.06
18.490 0.54 0.38
20.550 0.13 0.14
18.010 0.33 0.48
13.618 0.19 0.13
10.337 0.62 0.66
12.615 0.18 0.21
14.040 0.33 0.24
11.780 0.66 0.75
20.980 0.01 0.01
:
:
:
:
:
:
8.648 0.15 0.15
6.863 0.41 0.38
6.428 0.43 0.47
11.284 0.11 0.11
8.816 0.42 0.37
8.129 0.47 0.52
6.928 0.39 0.40
7.094 0.40 0.37
8.043 0.21 0.23
Pooled Covariance Matrix
Streich
Preis
Halt
Streich
2.30979
Preis
0.08949 2.66209
Halt
0.40807 0.18867 1.29651
UngFett
0.04992 0.24072 -0.01937
Back
-0.09597 0.09780 0.60096
Geschm.
0.03748 0.62291 0.37471
Kalorien -0.24095 0.24916 -0.07374
TierFett -1.08010 0.27018 -0.02747
Vitamin
0.14446 0.01014 0.37945
Natur
0.01174 0.20007 0.17203
UngFett
Back
2.29457
0.04625
0.23297
0.33305
0.64799
0.39932
0.31032
2.75972
0.89019
0.30295
0.50545
0.82595
0.75773
Geschm. Kalorien TierFett
Vitamin
Natur
1.68761
0.28989
0.51824
0.86920
0.82741
1.90274
0.86911
1.91806
2.48878
0.44432
0.51367
0.29193
5.62910
0.61912
0.26628
Dies ist die gepoolte Kovarianzmatrix, die in die Berechnung der Mahalanobis-Distanz eingeht. Es folgen die Kovarianzmatrizen für die einzelnen
Gruppen. Aus Platzgründen wurde die Kovarianzmatrix der Gruppe 3 im Output nachträglich entfernt.
Covariance Matrix
Streich
Streich
2.76855
Preis
0.53212
Halt
0.17442
UngFett
0.21373
Back
-0.57475
Geschm.
0.13068
Kalorien -0.24695
TierFett -0.62458
Vitamin
0.09192
Natur
0.00055
for Group 1
Preis
Covariance Matrix
Streich
Streich
1.37925
Preis
0.13550
Halt
0.22057
UngFett
0.27567
Back
0.07468
Geschm.
0.27130
Kalorien 0.03689
TierFett -0.22433
Vitamin
0.32987
Natur
0.23351
for Group 2
Preis
Halt
UngFett
2.76633
-0.04983 1.57254
-0.00664 -0.49668 3.20044
-0.18272 0.56755 -0.01163
0.21096 0.69214 0.10022
-0.46346 -0.13732 0.30233
-0.49502 0.03322 -0.04319
-0.23034 0.59136 0.20266
-0.30288 0.09192 0.32337
1.54050
0.06534
0.33905
-0.00693
0.23186
0.19000
-0.13008
-0.21018
0.02138
Back
Geschm. Kalorien TierFett
Vitamin
Natur
4.42525
2.02658
1.04319
2.59690
1.15449
2.10520
Geschm. Kalorien TierFett
Vitamin
Natur
1.29359
0.02951
0.26498
0.39476
0.51521
1.37925
0.46808
1.75384
3.12071
1.24419 1.87154
0.45681 -0.27741 2.74197
1.88372 0.90698 -0.26246
1.52547 1.17276 0.43300
0.65449 0.61406 -0.25471
Halt
UngFett
Back
0.96432
0.16727
0.67179
0.21349
0.02033
0.60554
0.17118
0.21635
1.78696
0.45769
0.31436
0.23743
0.78079
0.74481
0.34101
2.16200
0.69678
0.36073
0.60584
0.51912
0.71033
2.42833
0.53990 5.53388
0.20973 0.31888
0.10945 -0.07257
Biometrische und Ökonometrische Methoden II
Lösungen zu Aufgabenblatt 6
Seite 6
e) MTB > Discriminant 'Gruppe' 'Streich'-'Natur';
SUBC>
Predict 'Streich-p'-'Natur-p';
SUBC>
Brief 0.
Prediction for Test Observations
Observation
1
Pred Group
1
2
2
3
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
1
1
1
2
2
2
1
3
3
3
3
3
3
2
1
3
3
1
2
2
2
2
3
2
2
2
1
1
2
1
1
2
2
2
2
2
2
2
2
From Group Sqrd Distnc Probability
1
13.010
0.990
2
22.386
0.009
3
27.023
0.001
1
12.202
0.479
2
12.195
0.481
3
17.202
0.039
1
7.589
0.196
2
4.794
0.792
3
13.229
0.012
Ab hier verkürzte Ausgabe!
In der Spalte Pred Group steht das Klassifikationsergebnis jeder einzelnen Befragung aus
den unter Subkommando Predict angegebenen Spalten.
Biometrische und Ökonometrische Methoden II
Lösungen zu Aufgabenblatt 6
Seite 7
In Spalte Gruppe-p (c32) steht die wirkliche Gruppe jeder Probe-Befragung.
MTB > Print 'Gruppe-p'.
Data Display
Gruppe-p
1
3
2
2
2
1
3
2
2
2
1
3
2
2
1
3
2
2
1
3
2
2
2
3
1
2
2
3
1
2
2
3
1
2
2
3
1
2
2
3
2
2
Wenn man nun diese mit den vorher ausgegbenen klassifizierten Gruppen vergleicht, so stellt
man fest, daß von 42 Fällen im Probedatensatz 14 fehlklassifiziert wurden. Somit wurden ca.
66% richtig klassifiziert, was auch in etwa der Klassifikationsrate mit Kreuzvalidierung
entspricht.
f) MTB > Table 'Gruppe'.
Tabulated Statistics
Rows: Gruppe
Count
1
2
3
All
43
82
43
168
Das Verältnis der 3 Gruppen ist ungefähr 1 : 2 : 1, also werden die A-priori-Wahrscheinlichkeiten auf 25%, 50% und 25% festgesetzt.
MTB > Discriminant 'Gruppe' 'Streich'-'Natur';
SUBC>
Priors 0.25 0.5 0.25;
SUBC>
Brief 1.
Discriminant Analysis
Group
Count
Prior
1
43
0.250
2
82
0.500
3
43
0.250
Summary of Classification
Put into
Group
1
2
3
Total N
N Correct
Proportion
N =
168
....True Group....
1
2
3
25
6
1
17
71
9
1
5
33
43
82
43
25
71
33
0.581
0.866
0.767
N Correct =
129
Proportion Correct = 0.768
Es werden nun wesentlich mehr Beobachtungen in die Gruppe 2 richtig klassifiziert.
Herunterladen