Beschreibung

Werbung
EDV III – Faktorenanalyse
(Kurs 4/2003)
Ziel:
Es sollen aus einer Vielzahl möglicher Variablen die voneinander unabhängigen
Einflussfaktoren herauskristallisiert werden (Entdeckung von untereinander
unabhängigen Beschreibungs- und Erklärungsvariablen), die dann weiteren
Analysen zugrunde gelegt werden können.
Annahmen und Vorgehen:
1. Unabhängigkeit der Datensätze (z.B. ist die Beurteilung der Margarine X
unabhängig von der Beurteilung der Margarine Y)
2. Mittelwertbildung z.B. über alle befragte Personen zu einer Variablen
(Streuung – Varianz – der Ausprägung zwischen den Objekten geht verloren).
3. Annahme hinsichtlich Korrelationen. Mögliche Interpretationen von
Korrelationen:
a) Je-desto-Beziehung zwischen den Variablen X1 und X2. Je mehr X1,
desto mehr X2
b) Je-desto-Beziehung zwischen den Variablen X2 und X1. Je mehr X2,
desto mehr X1
c) Für die Korrelation zwischen X1 und X2 ist eine hinter den beiden
Variablen stehende Größe kausal verantwortlich.
Die Faktorenanalyse unterstellt, dass immer die Interpretationsvariante c)
zutrifft.
(X1 z.B. Fettsäuren, X2 z.B. Vitamingehalt)
Bezeichnungen:
Kommunalität: Umfang der Varianzerklärung, den die Faktoren gemeinsam für eine
Ausgangsvariable liefern.
Faktorextraktionsmethode: Methode der Faktorenermittlung
Faktorladung: Korrelation zwischen Faktor und ursprünglichen Variablen
Abfolge der Faktorenanalyse:
(1) Variablenauswahl und Errechnung der Korrelationsmatrix
(2) Extraktion der Faktoren
(3) Bestimmung der Kommunalitäten
(4) Zahl der Faktoren
(5) Faktorinterpretation
(6) Bestimmung der Faktorwerte
Aufgabe 1:
Es sind 11 Emulsionsfette (Butter und Margarine) beurteilt worden (vgl. Kurs 3 –
Clusteranalyse).
1=Sanella
2=Homa
3=SB
4=Delicado
5=Holländische Markenbutter
6=Weihnachtsbutter
7=Du darfst
8=Becel
9=Botteram
10=Flora
11=Rama
Die Merkmalsvariablen sind:
1=Streichfähigkeit
2=Preis
3= Haltbarkeit
4=Anteil ungesättigter Fettsäuren
5=Back- und Brateignung
6=Geschmack
7=kaloriengehalt
8=Anteil tierischer Fette
9=Vitamingehalt
10=Natürlichkeit
a. Laden Sie die Datei margarine.sav und speichern Sie diese auf Ihrem
persönlichen Laufwerk ab. (Hinweis: Es handelt sich um andere
Daten als in dem Beispiel von Backhaus et al. Deshalb ergibt sich
auch ein davon abweichendes Ergebnis).
b. Gespeichert sind die arithmetischen Mittelwerte der subjektiven
Beurteilung der Merkmale durch 32 Probanden. Die Probanden hatten
ihr Urteil zu jeder Merkmalsvariablen in eine siebenstufige
Intervallskala einzutragen (1=sehr schlecht; 7=sehr gut)
Aufgabe 2:
Standardisieren Sie zunächst die Variablen (Standardisierung: Division der Differenz
aus beobachtetem Wert einer Variablen und Mittelwert der betreffenden Variablen
durch die Standardabweichung der Variablen):
Analysieren -> Deskriptive Statistiken -> Deskriptive Statistiken -> übernehmen Sie
die Variablen und wählen Sie die Option „standardisierte Werte als Variable
speichern“. Die standardisierten Variablen werden dann mit dem Präfix z in der
Datenmatrix gespeichert.
Aufgabe 3:
Wählen Sie unter dem Menüpunkt Analysieren:
Analysieren -> Dimensionsreduktion -> Faktorenanalyse
Übernehmen Sie die standardisierten Werte als Datenbasis und wählen Sie unter
1) dem Button „Deskriptive Statistik“:
Statistik:
 Univariate Statistiken
 Anfangslösung
Korrelationsmatrix:
 Koeffizienten
 Signifikanzniveaus
 Inverse
 Anti-Image.
2) dem Button „Extraktion“
 Methode: Hauptkomponenten
 Analysieren: Korrelationsmatrix
 Anzeigen: Nicht rotierte Faktorlösung und Screeplot
 Extrahieren: Eigenwerte größer als 1
Lassen Sie sich nun eine Faktorenanalyse erstellen.
Variablenauswahl und Errechnung der Korrelationsmatrix
Korrelationsmatrix
ZWert(ST
REICHF)
Korrelation
Z-Wert(STREICHF)
Z-Wert(PREIS)
Z-Wert(HALTBARK)
Z-Wert(UNGESAET)
Z-Wert(BACKBRAT)
Z-Wert(GESCHM)
Z-Wert(KALORIE)
Z-Wert(TIERANT)
Z-Wert(VITAMIN)
Z-Wert(NATUERL)
Signifikanz
(1-seitig)
Z-Wert(HALTBARK)
Z-Wert(UNGESAET)
Z-Wert(BACKBRAT)
Z-Wert(GESCHM)
Z-Wert(KALORIE)
Z-Wert(TIERANT)
Z-Wert(VITAMIN)
Z-Wert(NATUERL)
ZWert(HA
LTBARK
)
ZWert(UN
GESAET
)
ZWert(BA
CKBRAT
)
ZWert(GE
SCHM)
ZWert(KA
LORIE)
ZWert(TIE
RANT)
ZWert(VIT
AMIN)
ZWert(NA
TUERL)
1,000
-,385
,680
-,022
-,107
-,572
-,002
-,653
-,187
-,625
-,385
1,000
-,319
-,402
,103
,016
-,682
,032
-,106
,143
,680
-,319
1,000
-,301
-,008
-,428
-,055
-,361
,031
-,323
-,022
-,402
-,301
1,000
-,258
,244
,247
,044
-,252
-,061
-,107
,103
-,008
-,258
1,000
-,397
-,238
,200
,076
,491
-,572
,016
-,428
,244
-,397
1,000
,297
,619
,158
,230
-,002
-,682
-,055
,247
-,238
,297
1,000
,118
,165
-,159
-,653
,032
-,361
,044
,200
,619
,118
1,000
,585
,848
-,187
-,106
,031
-,252
,076
,158
,165
,585
1,000
,469
-,625
,143
-,323
-,061
,491
,230
-,159
,848
,469
1,000
,121
,011
,475
,377
,033
,497
,015
,291
,020
,170
,110
,381
,481
,010
,463
,378
,337
,184
,491
,095
,436
,138
,464
,166
,222
,235
,232
,449
,227
,429
,113
,241
,278
,412
,063
,188
,021
,321
,248
,365
,314
,320
,029
,000
Z-Wert(STREICHF)
Z-Wert(PREIS)
ZWert(PR
EIS)
,121
,011
,170
,475
,110
,184
,377
,381
,491
,222
,033
,481
,095
,235
,113
,497
,010
,436
,232
,241
,188
,015
,463
,138
,449
,278
,021
,365
,291
,378
,464
,227
,412
,321
,314
,029
,020
,337
,166
,429
,063
,248
,320
,000
,073
,073
Korrelation: Es treten kaum sehr hohe Korrelationen (>0,7) auf (weist darauf hin, dass die
Datenmatrix für die Faktorenanalyse möglicherweise nicht so geeignet ist)
Signifikanzniveaus der Korrelationen:
H0-Hypothese: Es besteht kein Zusammenhang zwischen den Variablen.
Das Signifikanzniveau berechnet anschließend, mit welcher Irrtumswahrscheinlichkeit diese
Nullhypothese abgelehnt werden kann.
Ein Signifikanzniveau von 0,00 bedeutet z.B., dass mit dieser Irrtumswahrscheinlichkeit die
Nullhypothese abgelehnt werden kann. Zu 0% wird sich der Anwender täuschen, wenn er von
einem Zusammenhang ungleich Null zwischen den Variablen ausgeht. (bzw. mit einer
Wahrscheinlichkeit von 100% wird sich die Korrelation von Null unterscheiden).
Im o.g. Beispiel gehen niedrige Signifikanzwerte mit vergleichsweise hohen Korrelationen
einher.
Beispiel: Die Korrelation zwischen „Streichfähigkeit“ und „ungesätt. Fettsäuren“ ist mit 0,022
niedrig. Das Signifikanzniveau beträgt 0,475. Das bedeutet, dass die Korrelation zwischen
beiden Variablen sich nur mit einer Wahrscheinlichkeit von (1-0,475)*100 = 52,5 % von Null
unterscheidet.
Inverse Korrelationsmatrix
Z-Wert(STREICHF)
Z-Wert(PREIS)
ZWert(HALTBARK)
ZWert(UNGESAET)
ZWert(BACKBRAT)
Z-Wert(GESCHM)
Z-Wert(KALORIE)
Z-Wert(TIERANT)
Z-Wert(VITAMIN)
Z-Wert(NATUERL)
ZWert(STR
EICHF)
ZWert(PREI
S)
ZWert(HAL
TBARK)
ZWert(UNG
ESAET)
ZWert(BAC
KBRAT)
ZWert(GES
CHM)
5,144
2,288
2,288
5,465
-1,048
,103
,203
2,885
1,735
2,143
,540
1,652
-1,048
1,735
2,842
1,373
,395
,103
2,143
1,373
2,428
,203
,540
,395
,739
2,885
1,652
,695
,775
1,799
3,841
1,188
1,134
-3,289
-3,487
-1,502
,179
,769
,284
4,781
3,901
1,076
ZWert(KAL
ORIE)
ZWert(TIER
ANT)
ZWert(VITA
MIN)
ZWert(NAT
UERL)
1,799
-3,289
,179
4,781
3,841
-3,487
,769
3,901
,695
1,188
-1,502
,284
1,076
,739
,775
1,134
-2,007
1,065
1,192
2,540
2,305
,211
-2,278
1,046
-,080
2,305
8,482
1,305
-12,050
2,442
8,032
,211
1,305
4,154
-3,688
,223
4,306
-2,007
-2,278
-12,050
-3,688
24,178
-4,908
-17,052
1,065
1,046
2,442
,223
-4,908
2,827
1,954
1,192
-,080
8,032
4,306
-17,052
1,954
16,262
Eine Korrelationsmatrix ist dann für die Faktorenanalyse geeignet, wenn die Inverse
(annähernd) eine Diagonalmatrix darstellt, d.h. die Nicht-Diagonalelemente der inversen
Korrelationsmatrix sollen möglichst nahe bei Null liegen.
Ausreißer z.B. die Variablen „Natuerlichkeit“ und „Anteil tier. Fette“.
Problem: Es existiert kein allgemeingültiges Kriterium, wie stark und wie häufig die Nichtdiagonal-Elemente von Null abweichen dürfen.
KMO- und Bartlett-Test
Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin.
,447
Bartlett-Test auf Sphärizität
Ungefähres Chi-Quadrat
df
Signifikanz nach Bartlett
47,650
45
,365
Der Bartlett-Test (Voraussetzung: Variablen sind normalverteilt; wurde noch nicht geprüft)
überprüft die Hypothese, ob die Stichprobe aus einer Grundgesamtheit entstammt, in der die
Variablen unkorreliert sind.
H0: Die Variablen der Erhebungsgesamtheit sind unkorreliert
Der Bartlett-Test im o.g. Beispiel errechnet ein Signifikanzniveau von 0,365. D.h., dass mit
einer Wahrscheinlichkeit von (1-0,365)*100 = 63,5% davon auszugehen ist, dass die
Variablen der Erhebungsgesamtheit korreliert sind (bei einer kritischen
Irrtumswahrscheinlichkeit von 5 % wäre demnach die Nullhypothese anzunehmen. Die
Korrelationen wäre nur zufällig von der Einheitsmatrix verschieden).
Kaiser-Meyer-Olkin-Kriterium (=MSA-Kriterium = measure of samling adequacy):
Dieses Kriterium wird in der Litartur als das beste zur Verfügung stehende Verfahren
betrachtet.
MSA >= 0,9
MSA >= 0,8
MSA >= 0,7
MSA >= 0,6
MSA >= 0,5
MSA < 0,5
Marvellous
Meritorious
Middling
Mediocre
Miserable
Unacceptable
Erstaunlich
Verdienstvoll
Ziemlich gut
Mittelmäßig
Kläglich
Untragbar
Mit den Daten unseres Beispiels dürften wir demnach keine Faktorenanalyse durchführen.
Anti-Image-Matrizen
Anti-ImageKovarianz
ZWert(STRE
ICHF)
ZWert(PREI
S)
ZWert(HALT
BARK)
ZWert(UNGE
SAET)
ZWert(BACK
BRAT)
ZWert(GESC
HM)
ZWert(KALO
RIE)
ZWert(TIER
ANT)
,194
,081
-,072
,008
,016
,066
,084
-,026
,012
,057
,081
,183
,112
,162
,039
,036
,169
-,026
,050
,044
ZWert(HALTBARK)
-,072
,112
,352
,199
,055
,029
,101
-,022
,035
,023
ZWert(UNGESAET)
,008
,162
,199
,412
,120
,038
,112
-,034
,155
,030
ZWert(BACKBRAT)
,016
,039
,055
,120
,394
,107
,020
-,037
,146
-,002
,066
,036
,029
,038
,107
,118
,037
-,059
,102
,058
,084
,169
,101
,112
,020
,037
,241
-,037
,019
,064
-,026
-,026
-,022
-,034
-,037
-,059
-,037
,041
-,072
-,043
,012
,050
,035
,155
,146
,102
,019
-,072
,354
,042
,057
,044
,023
,030
-,002
,058
,064
-,043
,042
,061
,650(a)
,431
-,274
,029
,056
,437
,389
-,295
,047
,523
,431
,344(a)
,440
,588
,145
,243
,806
-,303
,196
,414
ZWert(HALTBARK)
-,274
,440
,583(a)
,523
,147
,142
,346
-,181
,100
,158
ZWert(UNGESAET)
,029
,588
,523
,309(a)
,297
,171
,357
-,262
,406
,190
ZWert(BACKBRAT)
,056
,145
,147
,297
,486(a)
,497
,065
-,291
,391
-,012
,437
,243
,142
,171
,497
,387(a)
,220
-,841
,499
,684
,389
,806
,346
,357
,065
,220
,328(a)
-,368
,065
,524
-,295
-,303
-,181
-,262
-,291
-,841
-,368
,472(a)
-,594
-,860
,047
,196
,100
,406
,391
,499
,065
-,594
,409(a)
,288
,523
,414
,158
,190
-,012
,684
,524
-,860
,288
,462(a)
Z-Wert(STREICHF)
Z-Wert(PREIS)
Z-Wert(GESCHM)
Z-Wert(KALORIE)
Z-Wert(TIERANT)
Z-Wert(VITAMIN)
Z-Wert(NATUERL)
Anti-ImageKorrelation
Z-Wert(STREICHF)
Z-Wert(PREIS)
Z-Wert(GESCHM)
Z-Wert(KALORIE)
Z-Wert(TIERANT)
Z-Wert(VITAMIN)
Z-Wert(NATUERL)
ZWert(VITA
MIN)
ZWert(NATU
ERL)
a Maß der Stichprobeneignung
Die Anti-Image-Korrelations-Matrix zeigt, dass in keinem Fall die Variablen mehr als
mittelmäßig für die Faktorenanalyse geeignet sind.
Anti-Image: Annahme, dass sich die Varianz einer Variablen in zwei Teile zerlegen lässt:
1) das Image (der Anteil der Varianz, der sich durch die verbleibenden Variablen
erklären lässt)
2) das Anti-Image (der Teil der Varianz, der unabhängig von den anderen Variablen ist).
Variablen sind dann für die Faktorenanalyse geeignet, wenn das Anti-Image der Variablen
möglichst gering ausfällt (= die Nicht-diagonal-Elemente sollen möglicht nahe bei Null
liegen).
Dziuban und Shirkey schlagen vor, dass die Forderung nach einer Diagonalmatrix erfüllt ist,
wenn der Anteil der Nicht-diagonal-Elemente, die ungleich Null sind (> 0,09), weniger als 25
% beträgt.
Unsere Datenmatrix wäre demnach ungeeignet.
Extraktion der Faktoren und Bestimmung der
Kommunalitäten
Kommunalitäten: Umfang der Varianzerklärung, den die Faktoren gemeinsam für eine
Ausgangsvariable liefern.
Niedrige Werte (<0,6) würden darauf
Kommunalitäten
Anfänglich
Extraktion
Z-Wert(STREICHF)
1,000
,844
Z-Wert(PREIS)
1,000
,938
Z-Wert(HALTBARK)
1,000
,766
Z-Wert(UNGESAET)
1,000
,789
Z-Wert(BACKBRAT)
1,000
,878
Z-Wert(GESCHM)
1,000
,845
Z-Wert(KALORIE)
1,000
,734
Z-Wert(TIERANT)
1,000
,927
Z-Wert(VITAMIN)
1,000
,796
hindeuten, dass die Variablen nicht gut
zu den Faktoren „passen“ und deshalb
von der Analyse ausgeschlossen
werden sollten.
Z-Wert(NATUERL)
1,000
,908
Extraktionsmethode: Hauptkomponentenanalyse.
Die Faktorladung gibt an, wie viel ein Faktor mit einer Ausgangsvariablen zu tun hat =
Korrelationskoeffizient zwischen Faktor und Variablen.
Faktorextraktionsverfahren:
1. Hauptkomponentenanalyse. Annahme: Die Varianz einer Ausgangsvariablen
kann vollständig durch die Extraktion von Faktoren erklärt werden.
2. Hauptachsenanalyse. Annahme: Die Varianz einer Variablen lässt sich in
Kommunalität und Einzelrestvarianz aufteilen.
Zahl der Faktoren
1) Vorgabe eigener Anzahl
2) Bestimmung durch SPSS (Eigenwerte > 1)
Eigenwert: Summe der quadrierten Faktorladungen eines Faktors über alle Variablen. Sie sind
ein Maßstab für die durch den jeweiligen Faktor erklärte Varianz der Beobachtungswerte.
3)
Faktorinterpretation
Komponentenmatrix(a)
Komponente
Z-Wert(STREICHF)
Z-Wert(PREIS)
1
-,873
2
,023
,262
-,682
Z-Wert(HALTBARK)
-,636
-,138
Z-Wert(UNGESAET)
,035
Z-Wert(BACKBRAT)
,199
,652
-,601
Z-Wert(GESCHM)
,635
,527
Z-Wert(KALORIE)
,026
,788
Z-Wert(TIERANT)
,915
,087
Z-Wert(VITAMIN)
,474
-,006
Nicht so eindeutig einem
Faktor zuzuordnen
Z-Wert(NATUERL)
,832
-,269
Extraktionsmethode: Hauptkomponentenanalyse.
a 2 Komponenten extrahiert
Faktor 1:
Geringe Streichfähigkeit
Geringe Haltbarkeit
Guter Geschmack
Hoher Anteil tierischer Fette
Hoher Anteil an Vitaminen
Hohe Natürlichkeit
Faktor 2:
Geringer Preis
Viele ungesättigte Fettsäuren
Wenig geeignet für’s Backen und Braten
Viele Kalorien
Wie könnte man die beiden Faktoren unter jeweils einem Begriff zusammenfassen?
Bestimmung der Faktorwerte
Herunterladen