TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN SS 98 MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Biometrische und Ökonometrische Methoden II ! Lösungen 6 a) Die Marken 1, 2, 8 aus Spalte C1 werden in C12 mit dem Wert 1 eingetragen, 3, 7, 9, 10, 11 mit 2 und 4, 5, 6 mit 3. MTB > Retrieve 'H:\STUDENT\MINITAB\MARGDISK.MTW'. Retrieving worksheet from file: H:\STUDENT\MINITAB\MARGDISK.MTW Worksheet was saved on 6/ 9/1997 MTB > name c12 'Gruppe' MTB > Code (1 2 8) 1 (3 7 9 10 11) 2 (4 5 6) 3 'Marke' 'Gruppe' MTB > Save 'I:MARGDISK.MTW'; SUBC> Replace. Saving worksheet in file: I:\MARGDISK.MTW b) MTB > name c13 'Kontroll' MTB > Set 'Kontroll' DATA> 42( 1 1 1 1 2 )1 DATA> End. MTB MTB MTB MTB > > > > name name name name c21 c24 c27 c30 'Marke-p' c22 'Streich-p' c23 'Preis-p' 'Halt-p' c25 'UngFett-p' c26 'Back-p' 'Geschm.-p' c28 'Kalorien-p' c29 'TierFett-p' 'Vitamin-p' c31 'Natur-p' c32 'Gruppe-p' c32 MTB > Unstack ('Marke'-'Gruppe')('Marke'-'Gruppe') & ('Marke-p'-'Gruppe-p'); SUBC> Subscripts 'Kontroll'. Der Set-Befehl erzeugt eine Spalte Kontroll mit dem Inhalt 1 1 1 1 2 1 1 1 1 2 .... Unstack mit dieser Spalte im Subscripts-Subkommando kopiert dann alle Zeilen des Ausgangsblocks (c1-c12), die eine 1 in der Kontrollspalte haben, wiederum in die Spalten c21-c32 und überschreibt diese. Alle Zeilen mit einer 2 in der Kontrollspalte erscheinen im Prüfblock c21-c32. Somit sind die Daten in der gewünschten Form geteilt. Biometrische und Ökonometrische Methoden II Lösungen zu Aufgabenblatt 6 Seite 2 c) MTB > Discriminant 'Gruppe' 'Streich'-'Natur'. Discriminant Analysis Linear Method for Response: Predictors: Streich Preis TierFett Vitamin Natur Group Count 1 43 2 82 Gruppe Halt UngFett Back Geschm. Kalorien 3 43 Summary of Classification Put into Group 1 2 3 Total N N Correct Proportion N = 168 ....True Group.... 1 2 3 31 17 3 11 55 6 1 10 34 43 82 43 31 55 34 0.721 0.671 0.791 N Correct = 120 Proportion Correct = 0.714 Von den 43 Befragungsergebnissen zur Markengruppe 1 wurden 31 richtig in Markengruppe 1 eingeordnet, 11 verkehrt in Markengruppe 2 und 1 verkehrt in Markengruppe 3. Dies entspricht eienm richtig klassifizierten Anteil von 72.1%. Analoges folgt für die beiden anderen Markengruppen. Insgesamt wurden von 168 Befragungsergebnissen 120 richtig eingeordnet, d.h. es wurden 71.4 % der Befragungen richtig klassifiziert. Bei zufälliger Klassifizierung wäre die Trefferwahrscheinlichkeit nur 33.3 %. Squared Distance Between Groups 1 2 3 1 0.00000 1.96587 6.64017 2 1.96587 0.00000 5.29989 3 6.64017 5.29989 0.00000 Die Mahalanobis -Distanzen zwischen den Gruppencentroiden werden in Form obiger Matrix ausgegeben. Linear Discriminant Function for Group 1 2 3 Constant -21.815 -18.934 -22.423 Streich 2.065 1.877 1.980 Preis 1.101 0.798 0.851 Halt 2.479 2.334 1.470 UngFett 1.060 1.051 0.562 Back -0.063 0.546 0.187 Geschm. 0.566 0.350 1.196 Kalorien 0.977 1.383 1.698 TierFett 0.355 0.388 0.973 Vitamin 0.277 -0.233 -0.488 Natur 1.082 0.863 1.521 Dies sind die Koeffizienten der 3 linearen Diskriminanzfunktionen. Bei der Entscheidung, zu welcher Markengruppe ein weiteres Befragungsergebnis zugeordnet wird, werden diese drei Funktionen mit den Werten der neuen Beobachtung ausgewertet. Die Befragung wird dann der Markengruppe zugeordnet, die den größten Wert der Diskriminanzfunktion liefert. Biometrische und Ökonometrische Methoden II Lösungen zu Aufgabenblatt 6 Seite 3 Summary of Misclassified Observations Observation 2 ** 4 ** 8 ** 12 ** : : 159 ** 164 ** True Pred Group Squared Probability Group Group Distance 1 3 1 27.080 0.013 2 25.560 0.028 3 18.520 0.958 1 2 1 11.033 0.134 2 7.431 0.809 3 12.739 0.057 1 2 1 12.090 0.192 2 9.738 0.623 3 12.171 0.185 1 2 1 12.430 0.333 2 11.070 0.659 3 19.990 0.008 : : : : : : : : : : 2 3 1 8.433 0.155 2 6.470 0.413 3 6.377 0.433 2 3 1 10.878 0.111 2 8.218 0.419 3 7.986 0.470 Mit dem obigen linearen Diskriminanzfunktionen werden die Befragungsergebnisse nachträglich klassifiziert. Die Klassifikationsergebnisse der fehlklassifizierten Werte werden hier von MINITAB mit einigen zusätzlichen Werten ausgegeben. Z.B. Beobachtung 2 gehört zur Markengruppe 1, hat jedoch mit 18.52 zur Klassifikationsgruppe 3 den kleinsten quadratischen Abstand, wird somit auch in Markengruppe 3 klassifiziert. Hinter den quadrierten Abständen stehen dann noch die A-Posteriori-Wahrscheinlichkeiten, daß die Beobachtung zur jeweiligen Gruppe gehört. Aus Platzgründen wurden in der Lösung nur 6 von den 48 fehlklassifizierten Beobachtungen angegeben. d) MTB > Discriminant 'Gruppe' 'Streich'-'Natur'; SUBC> XVal; SUBC> Brief 3. Zusätzlich zur Klassifikationsmatrix ohne Kreuzvalidierung in c) wird anschließend die Klassifikationsmatrix mit Kreuzvalidierung ausgegeben. Summary of Classification with Cross-validation Put into Group 1 2 3 Total N N Correct Proportion N = 168 ....True Group.... 1 2 3 28 22 3 11 49 6 4 11 34 43 82 43 28 49 34 0.651 0.598 0.791 N Correct = 111 Proportion Correct = 0.661 Das Klassifikationsergebnis mit Kreuzvalidierung ist etwas schlechter als ohne, weil das Befragungsergebnis, das im letzten Schritt probeklassifiziert wird, nicht mit in die Erstellung der Diskriminanzfunktionen eingeht. Biometrische und Ökonometrische Methoden II Variable Streich Preis Halt UngFett Back Geschm. Kalorien TierFett Vitamin Natur Variable Streich Preis Halt UngFett Back Geschm. Kalorien TierFett Vitamin Natur Lösungen zu Aufgabenblatt 6 Pooled Mean 4.5952 4.2857 4.1548 3.6250 3.9762 4.3869 4.0238 2.9167 3.9167 4.0774 Means for Group 1 2 5.3953 4.5976 4.7442 3.8780 4.6279 4.3293 3.8837 3.6463 3.3023 4.2439 4.4419 3.8780 3.1395 3.9390 1.8372 2.1463 4.3023 3.5976 4.1163 3.5732 3 3.7907 4.6047 3.3488 3.3256 4.1395 5.3023 5.0698 5.4651 4.1395 5.0000 Pooled StDev 1.520 1.632 1.139 1.515 1.661 1.299 1.578 2.373 1.379 1.385 StDev for Group 1 2 1.664 1.174 1.663 1.241 1.254 0.982 1.789 1.337 1.767 1.470 1.368 1.137 1.656 1.558 2.104 2.352 1.611 1.174 1.451 1.324 3 1.909 2.173 1.289 1.539 1.885 1.505 1.534 2.649 1.489 1.431 Seite 4 Dies sind die Mittelwerte und Standardabweichungen der Merkmalsvariablen gepoolt und nach Gruppen getrennt. Die Zusammenstellung der fehlklassifizierten Beobachtungen unterscheidet sich von der aus c). Summary of Misclassified Observations Observation 2 ** 4 ** 7 ** 8 ** 12 ** : : 159 ** 164 ** 167 ** True Pred X-val Group Group Group Group 1 3 3 1 2 3 1 2 2 1 2 3 1 1 3 1 2 3 1 2 2 1 2 3 1 2 2 1 2 3 : : : : : : : : 2 3 3 1 2 3 2 3 3 1 2 3 2 2 1 1 2 3 Squared Pred 27.080 25.560 18.520 11.033 7.431 12.739 15.990 18.820 16.940 12.090 9.738 12.171 12.430 11.070 19.990 : : 8.433 6.470 6.377 10.878 8.218 7.986 6.759 6.679 7.953 Dist. Probability X-val Pred X-val 33.910 0.01 0.00 30.170 0.03 0.01 1.220 0.96 0.99 12.340 0.13 0.09 7.836 0.81 0.85 13.147 0.06 0.06 18.490 0.54 0.38 20.550 0.13 0.14 18.010 0.33 0.48 13.618 0.19 0.13 10.337 0.62 0.66 12.615 0.18 0.21 14.040 0.33 0.24 11.780 0.66 0.75 20.980 0.01 0.01 : : : : : : 8.648 0.15 0.15 6.863 0.41 0.38 6.428 0.43 0.47 11.284 0.11 0.11 8.816 0.42 0.37 8.129 0.47 0.52 6.928 0.39 0.40 7.094 0.40 0.37 8.043 0.21 0.23 Pooled Covariance Matrix Streich Preis Halt Streich 2.30979 Preis 0.08949 2.66209 Halt 0.40807 0.18867 1.29651 UngFett 0.04992 0.24072 -0.01937 Back -0.09597 0.09780 0.60096 Geschm. 0.03748 0.62291 0.37471 Kalorien -0.24095 0.24916 -0.07374 TierFett -1.08010 0.27018 -0.02747 Vitamin 0.14446 0.01014 0.37945 Natur 0.01174 0.20007 0.17203 UngFett Back 2.29457 0.04625 0.23297 0.33305 0.64799 0.39932 0.31032 2.75972 0.89019 0.30295 0.50545 0.82595 0.75773 Geschm. Kalorien TierFett Vitamin Natur 1.68761 0.28989 0.51824 0.86920 0.82741 1.90274 0.86911 1.91806 2.48878 0.44432 0.51367 0.29193 5.62910 0.61912 0.26628 Dies ist die gepoolte Kovarianzmatrix, die in die Berechnung der Mahalanobis-Distanz eingeht. Es folgen die Kovarianzmatrizen für die einzelnen Gruppen. Aus Platzgründen wurde die Kovarianzmatrix der Gruppe 3 im Output nachträglich entfernt. Covariance Matrix Streich Streich 2.76855 Preis 0.53212 Halt 0.17442 UngFett 0.21373 Back -0.57475 Geschm. 0.13068 Kalorien -0.24695 TierFett -0.62458 Vitamin 0.09192 Natur 0.00055 for Group 1 Preis Covariance Matrix Streich Streich 1.37925 Preis 0.13550 Halt 0.22057 UngFett 0.27567 Back 0.07468 Geschm. 0.27130 Kalorien 0.03689 TierFett -0.22433 Vitamin 0.32987 Natur 0.23351 for Group 2 Preis Halt UngFett 2.76633 -0.04983 1.57254 -0.00664 -0.49668 3.20044 -0.18272 0.56755 -0.01163 0.21096 0.69214 0.10022 -0.46346 -0.13732 0.30233 -0.49502 0.03322 -0.04319 -0.23034 0.59136 0.20266 -0.30288 0.09192 0.32337 1.54050 0.06534 0.33905 -0.00693 0.23186 0.19000 -0.13008 -0.21018 0.02138 Back Geschm. Kalorien TierFett Vitamin Natur 4.42525 2.02658 1.04319 2.59690 1.15449 2.10520 Geschm. Kalorien TierFett Vitamin Natur 1.29359 0.02951 0.26498 0.39476 0.51521 1.37925 0.46808 1.75384 3.12071 1.24419 1.87154 0.45681 -0.27741 2.74197 1.88372 0.90698 -0.26246 1.52547 1.17276 0.43300 0.65449 0.61406 -0.25471 Halt UngFett Back 0.96432 0.16727 0.67179 0.21349 0.02033 0.60554 0.17118 0.21635 1.78696 0.45769 0.31436 0.23743 0.78079 0.74481 0.34101 2.16200 0.69678 0.36073 0.60584 0.51912 0.71033 2.42833 0.53990 5.53388 0.20973 0.31888 0.10945 -0.07257 Biometrische und Ökonometrische Methoden II Lösungen zu Aufgabenblatt 6 Seite 6 e) MTB > Discriminant 'Gruppe' 'Streich'-'Natur'; SUBC> Predict 'Streich-p'-'Natur-p'; SUBC> Brief 0. Prediction for Test Observations Observation 1 Pred Group 1 2 2 3 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 1 1 1 2 2 2 1 3 3 3 3 3 3 2 1 3 3 1 2 2 2 2 3 2 2 2 1 1 2 1 1 2 2 2 2 2 2 2 2 From Group Sqrd Distnc Probability 1 13.010 0.990 2 22.386 0.009 3 27.023 0.001 1 12.202 0.479 2 12.195 0.481 3 17.202 0.039 1 7.589 0.196 2 4.794 0.792 3 13.229 0.012 Ab hier verkürzte Ausgabe! In der Spalte Pred Group steht das Klassifikationsergebnis jeder einzelnen Befragung aus den unter Subkommando Predict angegebenen Spalten. Biometrische und Ökonometrische Methoden II Lösungen zu Aufgabenblatt 6 Seite 7 In Spalte Gruppe-p (c32) steht die wirkliche Gruppe jeder Probe-Befragung. MTB > Print 'Gruppe-p'. Data Display Gruppe-p 1 3 2 2 2 1 3 2 2 2 1 3 2 2 1 3 2 2 1 3 2 2 2 3 1 2 2 3 1 2 2 3 1 2 2 3 1 2 2 3 2 2 Wenn man nun diese mit den vorher ausgegbenen klassifizierten Gruppen vergleicht, so stellt man fest, daß von 42 Fällen im Probedatensatz 14 fehlklassifiziert wurden. Somit wurden ca. 66% richtig klassifiziert, was auch in etwa der Klassifikationsrate mit Kreuzvalidierung entspricht. f) MTB > Table 'Gruppe'. Tabulated Statistics Rows: Gruppe Count 1 2 3 All 43 82 43 168 Das Verältnis der 3 Gruppen ist ungefähr 1 : 2 : 1, also werden die A-priori-Wahrscheinlichkeiten auf 25%, 50% und 25% festgesetzt. MTB > Discriminant 'Gruppe' 'Streich'-'Natur'; SUBC> Priors 0.25 0.5 0.25; SUBC> Brief 1. Discriminant Analysis Group Count Prior 1 43 0.250 2 82 0.500 3 43 0.250 Summary of Classification Put into Group 1 2 3 Total N N Correct Proportion N = 168 ....True Group.... 1 2 3 25 6 1 17 71 9 1 5 33 43 82 43 25 71 33 0.581 0.866 0.767 N Correct = 129 Proportion Correct = 0.768 Es werden nun wesentlich mehr Beobachtungen in die Gruppe 2 richtig klassifiziert.