EDV III – Faktorenanalyse (Kurs 4/2003) Ziel: Es sollen aus einer Vielzahl möglicher Variablen die voneinander unabhängigen Einflussfaktoren herauskristallisiert werden (Entdeckung von untereinander unabhängigen Beschreibungs- und Erklärungsvariablen), die dann weiteren Analysen zugrunde gelegt werden können. Annahmen und Vorgehen: 1. Unabhängigkeit der Datensätze (z.B. ist die Beurteilung der Margarine X unabhängig von der Beurteilung der Margarine Y) 2. Mittelwertbildung z.B. über alle befragte Personen zu einer Variablen (Streuung – Varianz – der Ausprägung zwischen den Objekten geht verloren). 3. Annahme hinsichtlich Korrelationen. Mögliche Interpretationen von Korrelationen: a) Je-desto-Beziehung zwischen den Variablen X1 und X2. Je mehr X1, desto mehr X2 b) Je-desto-Beziehung zwischen den Variablen X2 und X1. Je mehr X2, desto mehr X1 c) Für die Korrelation zwischen X1 und X2 ist eine hinter den beiden Variablen stehende Größe kausal verantwortlich. Die Faktorenanalyse unterstellt, dass immer die Interpretationsvariante c) zutrifft. (X1 z.B. Fettsäuren, X2 z.B. Vitamingehalt) Bezeichnungen: Kommunalität: Umfang der Varianzerklärung, den die Faktoren gemeinsam für eine Ausgangsvariable liefern. Faktorextraktionsmethode: Methode der Faktorenermittlung Faktorladung: Korrelation zwischen Faktor und ursprünglichen Variablen Abfolge der Faktorenanalyse: (1) Variablenauswahl und Errechnung der Korrelationsmatrix (2) Extraktion der Faktoren (3) Bestimmung der Kommunalitäten (4) Zahl der Faktoren (5) Faktorinterpretation (6) Bestimmung der Faktorwerte Aufgabe 1: Es sind 11 Emulsionsfette (Butter und Margarine) beurteilt worden (vgl. Kurs 3 – Clusteranalyse). 1=Sanella 2=Homa 3=SB 4=Delicado 5=Holländische Markenbutter 6=Weihnachtsbutter 7=Du darfst 8=Becel 9=Botteram 10=Flora 11=Rama Die Merkmalsvariablen sind: 1=Streichfähigkeit 2=Preis 3= Haltbarkeit 4=Anteil ungesättigter Fettsäuren 5=Back- und Brateignung 6=Geschmack 7=kaloriengehalt 8=Anteil tierischer Fette 9=Vitamingehalt 10=Natürlichkeit a. Laden Sie die Datei margarine.sav und speichern Sie diese auf Ihrem persönlichen Laufwerk ab. (Hinweis: Es handelt sich um andere Daten als in dem Beispiel von Backhaus et al. Deshalb ergibt sich auch ein davon abweichendes Ergebnis). b. Gespeichert sind die arithmetischen Mittelwerte der subjektiven Beurteilung der Merkmale durch 32 Probanden. Die Probanden hatten ihr Urteil zu jeder Merkmalsvariablen in eine siebenstufige Intervallskala einzutragen (1=sehr schlecht; 7=sehr gut) Aufgabe 2: Standardisieren Sie zunächst die Variablen (Standardisierung: Division der Differenz aus beobachtetem Wert einer Variablen und Mittelwert der betreffenden Variablen durch die Standardabweichung der Variablen): Analysieren -> Deskriptive Statistiken -> Deskriptive Statistiken -> übernehmen Sie die Variablen und wählen Sie die Option „standardisierte Werte als Variable speichern“. Die standardisierten Variablen werden dann mit dem Präfix z in der Datenmatrix gespeichert. Aufgabe 3: Wählen Sie unter dem Menüpunkt Analysieren: Analysieren -> Dimensionsreduktion -> Faktorenanalyse Übernehmen Sie die standardisierten Werte als Datenbasis und wählen Sie unter 1) dem Button „Deskriptive Statistik“: Statistik: Univariate Statistiken Anfangslösung Korrelationsmatrix: Koeffizienten Signifikanzniveaus Inverse Anti-Image. 2) dem Button „Extraktion“ Methode: Hauptkomponenten Analysieren: Korrelationsmatrix Anzeigen: Nicht rotierte Faktorlösung und Screeplot Extrahieren: Eigenwerte größer als 1 Lassen Sie sich nun eine Faktorenanalyse erstellen. Variablenauswahl und Errechnung der Korrelationsmatrix Korrelationsmatrix ZWert(ST REICHF) Korrelation Z-Wert(STREICHF) Z-Wert(PREIS) Z-Wert(HALTBARK) Z-Wert(UNGESAET) Z-Wert(BACKBRAT) Z-Wert(GESCHM) Z-Wert(KALORIE) Z-Wert(TIERANT) Z-Wert(VITAMIN) Z-Wert(NATUERL) Signifikanz (1-seitig) Z-Wert(HALTBARK) Z-Wert(UNGESAET) Z-Wert(BACKBRAT) Z-Wert(GESCHM) Z-Wert(KALORIE) Z-Wert(TIERANT) Z-Wert(VITAMIN) Z-Wert(NATUERL) ZWert(HA LTBARK ) ZWert(UN GESAET ) ZWert(BA CKBRAT ) ZWert(GE SCHM) ZWert(KA LORIE) ZWert(TIE RANT) ZWert(VIT AMIN) ZWert(NA TUERL) 1,000 -,385 ,680 -,022 -,107 -,572 -,002 -,653 -,187 -,625 -,385 1,000 -,319 -,402 ,103 ,016 -,682 ,032 -,106 ,143 ,680 -,319 1,000 -,301 -,008 -,428 -,055 -,361 ,031 -,323 -,022 -,402 -,301 1,000 -,258 ,244 ,247 ,044 -,252 -,061 -,107 ,103 -,008 -,258 1,000 -,397 -,238 ,200 ,076 ,491 -,572 ,016 -,428 ,244 -,397 1,000 ,297 ,619 ,158 ,230 -,002 -,682 -,055 ,247 -,238 ,297 1,000 ,118 ,165 -,159 -,653 ,032 -,361 ,044 ,200 ,619 ,118 1,000 ,585 ,848 -,187 -,106 ,031 -,252 ,076 ,158 ,165 ,585 1,000 ,469 -,625 ,143 -,323 -,061 ,491 ,230 -,159 ,848 ,469 1,000 ,121 ,011 ,475 ,377 ,033 ,497 ,015 ,291 ,020 ,170 ,110 ,381 ,481 ,010 ,463 ,378 ,337 ,184 ,491 ,095 ,436 ,138 ,464 ,166 ,222 ,235 ,232 ,449 ,227 ,429 ,113 ,241 ,278 ,412 ,063 ,188 ,021 ,321 ,248 ,365 ,314 ,320 ,029 ,000 Z-Wert(STREICHF) Z-Wert(PREIS) ZWert(PR EIS) ,121 ,011 ,170 ,475 ,110 ,184 ,377 ,381 ,491 ,222 ,033 ,481 ,095 ,235 ,113 ,497 ,010 ,436 ,232 ,241 ,188 ,015 ,463 ,138 ,449 ,278 ,021 ,365 ,291 ,378 ,464 ,227 ,412 ,321 ,314 ,029 ,020 ,337 ,166 ,429 ,063 ,248 ,320 ,000 ,073 ,073 Korrelation: Es treten kaum sehr hohe Korrelationen (>0,7) auf (weist darauf hin, dass die Datenmatrix für die Faktorenanalyse möglicherweise nicht so geeignet ist) Signifikanzniveaus der Korrelationen: H0-Hypothese: Es besteht kein Zusammenhang zwischen den Variablen. Das Signifikanzniveau berechnet anschließend, mit welcher Irrtumswahrscheinlichkeit diese Nullhypothese abgelehnt werden kann. Ein Signifikanzniveau von 0,00 bedeutet z.B., dass mit dieser Irrtumswahrscheinlichkeit die Nullhypothese abgelehnt werden kann. Zu 0% wird sich der Anwender täuschen, wenn er von einem Zusammenhang ungleich Null zwischen den Variablen ausgeht. (bzw. mit einer Wahrscheinlichkeit von 100% wird sich die Korrelation von Null unterscheiden). Im o.g. Beispiel gehen niedrige Signifikanzwerte mit vergleichsweise hohen Korrelationen einher. Beispiel: Die Korrelation zwischen „Streichfähigkeit“ und „ungesätt. Fettsäuren“ ist mit 0,022 niedrig. Das Signifikanzniveau beträgt 0,475. Das bedeutet, dass die Korrelation zwischen beiden Variablen sich nur mit einer Wahrscheinlichkeit von (1-0,475)*100 = 52,5 % von Null unterscheidet. Inverse Korrelationsmatrix Z-Wert(STREICHF) Z-Wert(PREIS) ZWert(HALTBARK) ZWert(UNGESAET) ZWert(BACKBRAT) Z-Wert(GESCHM) Z-Wert(KALORIE) Z-Wert(TIERANT) Z-Wert(VITAMIN) Z-Wert(NATUERL) ZWert(STR EICHF) ZWert(PREI S) ZWert(HAL TBARK) ZWert(UNG ESAET) ZWert(BAC KBRAT) ZWert(GES CHM) 5,144 2,288 2,288 5,465 -1,048 ,103 ,203 2,885 1,735 2,143 ,540 1,652 -1,048 1,735 2,842 1,373 ,395 ,103 2,143 1,373 2,428 ,203 ,540 ,395 ,739 2,885 1,652 ,695 ,775 1,799 3,841 1,188 1,134 -3,289 -3,487 -1,502 ,179 ,769 ,284 4,781 3,901 1,076 ZWert(KAL ORIE) ZWert(TIER ANT) ZWert(VITA MIN) ZWert(NAT UERL) 1,799 -3,289 ,179 4,781 3,841 -3,487 ,769 3,901 ,695 1,188 -1,502 ,284 1,076 ,739 ,775 1,134 -2,007 1,065 1,192 2,540 2,305 ,211 -2,278 1,046 -,080 2,305 8,482 1,305 -12,050 2,442 8,032 ,211 1,305 4,154 -3,688 ,223 4,306 -2,007 -2,278 -12,050 -3,688 24,178 -4,908 -17,052 1,065 1,046 2,442 ,223 -4,908 2,827 1,954 1,192 -,080 8,032 4,306 -17,052 1,954 16,262 Eine Korrelationsmatrix ist dann für die Faktorenanalyse geeignet, wenn die Inverse (annähernd) eine Diagonalmatrix darstellt, d.h. die Nicht-Diagonalelemente der inversen Korrelationsmatrix sollen möglichst nahe bei Null liegen. Ausreißer z.B. die Variablen „Natuerlichkeit“ und „Anteil tier. Fette“. Problem: Es existiert kein allgemeingültiges Kriterium, wie stark und wie häufig die Nichtdiagonal-Elemente von Null abweichen dürfen. KMO- und Bartlett-Test Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. ,447 Bartlett-Test auf Sphärizität Ungefähres Chi-Quadrat df Signifikanz nach Bartlett 47,650 45 ,365 Der Bartlett-Test (Voraussetzung: Variablen sind normalverteilt; wurde noch nicht geprüft) überprüft die Hypothese, ob die Stichprobe aus einer Grundgesamtheit entstammt, in der die Variablen unkorreliert sind. H0: Die Variablen der Erhebungsgesamtheit sind unkorreliert Der Bartlett-Test im o.g. Beispiel errechnet ein Signifikanzniveau von 0,365. D.h., dass mit einer Wahrscheinlichkeit von (1-0,365)*100 = 63,5% davon auszugehen ist, dass die Variablen der Erhebungsgesamtheit korreliert sind (bei einer kritischen Irrtumswahrscheinlichkeit von 5 % wäre demnach die Nullhypothese anzunehmen. Die Korrelationen wäre nur zufällig von der Einheitsmatrix verschieden). Kaiser-Meyer-Olkin-Kriterium (=MSA-Kriterium = measure of samling adequacy): Dieses Kriterium wird in der Litartur als das beste zur Verfügung stehende Verfahren betrachtet. MSA >= 0,9 MSA >= 0,8 MSA >= 0,7 MSA >= 0,6 MSA >= 0,5 MSA < 0,5 Marvellous Meritorious Middling Mediocre Miserable Unacceptable Erstaunlich Verdienstvoll Ziemlich gut Mittelmäßig Kläglich Untragbar Mit den Daten unseres Beispiels dürften wir demnach keine Faktorenanalyse durchführen. Anti-Image-Matrizen Anti-ImageKovarianz ZWert(STRE ICHF) ZWert(PREI S) ZWert(HALT BARK) ZWert(UNGE SAET) ZWert(BACK BRAT) ZWert(GESC HM) ZWert(KALO RIE) ZWert(TIER ANT) ,194 ,081 -,072 ,008 ,016 ,066 ,084 -,026 ,012 ,057 ,081 ,183 ,112 ,162 ,039 ,036 ,169 -,026 ,050 ,044 ZWert(HALTBARK) -,072 ,112 ,352 ,199 ,055 ,029 ,101 -,022 ,035 ,023 ZWert(UNGESAET) ,008 ,162 ,199 ,412 ,120 ,038 ,112 -,034 ,155 ,030 ZWert(BACKBRAT) ,016 ,039 ,055 ,120 ,394 ,107 ,020 -,037 ,146 -,002 ,066 ,036 ,029 ,038 ,107 ,118 ,037 -,059 ,102 ,058 ,084 ,169 ,101 ,112 ,020 ,037 ,241 -,037 ,019 ,064 -,026 -,026 -,022 -,034 -,037 -,059 -,037 ,041 -,072 -,043 ,012 ,050 ,035 ,155 ,146 ,102 ,019 -,072 ,354 ,042 ,057 ,044 ,023 ,030 -,002 ,058 ,064 -,043 ,042 ,061 ,650(a) ,431 -,274 ,029 ,056 ,437 ,389 -,295 ,047 ,523 ,431 ,344(a) ,440 ,588 ,145 ,243 ,806 -,303 ,196 ,414 ZWert(HALTBARK) -,274 ,440 ,583(a) ,523 ,147 ,142 ,346 -,181 ,100 ,158 ZWert(UNGESAET) ,029 ,588 ,523 ,309(a) ,297 ,171 ,357 -,262 ,406 ,190 ZWert(BACKBRAT) ,056 ,145 ,147 ,297 ,486(a) ,497 ,065 -,291 ,391 -,012 ,437 ,243 ,142 ,171 ,497 ,387(a) ,220 -,841 ,499 ,684 ,389 ,806 ,346 ,357 ,065 ,220 ,328(a) -,368 ,065 ,524 -,295 -,303 -,181 -,262 -,291 -,841 -,368 ,472(a) -,594 -,860 ,047 ,196 ,100 ,406 ,391 ,499 ,065 -,594 ,409(a) ,288 ,523 ,414 ,158 ,190 -,012 ,684 ,524 -,860 ,288 ,462(a) Z-Wert(STREICHF) Z-Wert(PREIS) Z-Wert(GESCHM) Z-Wert(KALORIE) Z-Wert(TIERANT) Z-Wert(VITAMIN) Z-Wert(NATUERL) Anti-ImageKorrelation Z-Wert(STREICHF) Z-Wert(PREIS) Z-Wert(GESCHM) Z-Wert(KALORIE) Z-Wert(TIERANT) Z-Wert(VITAMIN) Z-Wert(NATUERL) ZWert(VITA MIN) ZWert(NATU ERL) a Maß der Stichprobeneignung Die Anti-Image-Korrelations-Matrix zeigt, dass in keinem Fall die Variablen mehr als mittelmäßig für die Faktorenanalyse geeignet sind. Anti-Image: Annahme, dass sich die Varianz einer Variablen in zwei Teile zerlegen lässt: 1) das Image (der Anteil der Varianz, der sich durch die verbleibenden Variablen erklären lässt) 2) das Anti-Image (der Teil der Varianz, der unabhängig von den anderen Variablen ist). Variablen sind dann für die Faktorenanalyse geeignet, wenn das Anti-Image der Variablen möglichst gering ausfällt (= die Nicht-diagonal-Elemente sollen möglicht nahe bei Null liegen). Dziuban und Shirkey schlagen vor, dass die Forderung nach einer Diagonalmatrix erfüllt ist, wenn der Anteil der Nicht-diagonal-Elemente, die ungleich Null sind (> 0,09), weniger als 25 % beträgt. Unsere Datenmatrix wäre demnach ungeeignet. Extraktion der Faktoren und Bestimmung der Kommunalitäten Kommunalitäten: Umfang der Varianzerklärung, den die Faktoren gemeinsam für eine Ausgangsvariable liefern. Niedrige Werte (<0,6) würden darauf Kommunalitäten Anfänglich Extraktion Z-Wert(STREICHF) 1,000 ,844 Z-Wert(PREIS) 1,000 ,938 Z-Wert(HALTBARK) 1,000 ,766 Z-Wert(UNGESAET) 1,000 ,789 Z-Wert(BACKBRAT) 1,000 ,878 Z-Wert(GESCHM) 1,000 ,845 Z-Wert(KALORIE) 1,000 ,734 Z-Wert(TIERANT) 1,000 ,927 Z-Wert(VITAMIN) 1,000 ,796 hindeuten, dass die Variablen nicht gut zu den Faktoren „passen“ und deshalb von der Analyse ausgeschlossen werden sollten. Z-Wert(NATUERL) 1,000 ,908 Extraktionsmethode: Hauptkomponentenanalyse. Die Faktorladung gibt an, wie viel ein Faktor mit einer Ausgangsvariablen zu tun hat = Korrelationskoeffizient zwischen Faktor und Variablen. Faktorextraktionsverfahren: 1. Hauptkomponentenanalyse. Annahme: Die Varianz einer Ausgangsvariablen kann vollständig durch die Extraktion von Faktoren erklärt werden. 2. Hauptachsenanalyse. Annahme: Die Varianz einer Variablen lässt sich in Kommunalität und Einzelrestvarianz aufteilen. Zahl der Faktoren 1) Vorgabe eigener Anzahl 2) Bestimmung durch SPSS (Eigenwerte > 1) Eigenwert: Summe der quadrierten Faktorladungen eines Faktors über alle Variablen. Sie sind ein Maßstab für die durch den jeweiligen Faktor erklärte Varianz der Beobachtungswerte. 3) Faktorinterpretation Komponentenmatrix(a) Komponente Z-Wert(STREICHF) Z-Wert(PREIS) 1 -,873 2 ,023 ,262 -,682 Z-Wert(HALTBARK) -,636 -,138 Z-Wert(UNGESAET) ,035 Z-Wert(BACKBRAT) ,199 ,652 -,601 Z-Wert(GESCHM) ,635 ,527 Z-Wert(KALORIE) ,026 ,788 Z-Wert(TIERANT) ,915 ,087 Z-Wert(VITAMIN) ,474 -,006 Nicht so eindeutig einem Faktor zuzuordnen Z-Wert(NATUERL) ,832 -,269 Extraktionsmethode: Hauptkomponentenanalyse. a 2 Komponenten extrahiert Faktor 1: Geringe Streichfähigkeit Geringe Haltbarkeit Guter Geschmack Hoher Anteil tierischer Fette Hoher Anteil an Vitaminen Hohe Natürlichkeit Faktor 2: Geringer Preis Viele ungesättigte Fettsäuren Wenig geeignet für’s Backen und Braten Viele Kalorien Wie könnte man die beiden Faktoren unter jeweils einem Begriff zusammenfassen? Bestimmung der Faktorwerte