15 Mehr-Weg-Varianzanalyse (Für SPSS 6.x)

Werbung
Janssen/Laatz: Ergänzung aus früheren Auflagen
15 Mehr-Weg-Varianzanalyse (Für SPSS 6.x)
Die Mehr-Weg-Varianzanalyse unterscheidet sich von der Ein-Weg-Varianzanalyse dadurch, daß
nicht ein, sondern zwei und mehr Faktoren zur Erklärung der Kriteriumsvariablen verwendet
werden. Dadurch ist zweierlei möglich:
Der Beitrag jeder dieser Faktorvariablen zur Erklärung der Gesamtvariation kann für sich alleine
genommen untersucht werden. Es kann aber auch die Wirkung ihrer spezifischen
Kombinationen miteinander (Interaktion) mit geprüft werden. Den Beitrag der Hauptvariablen
(ohne Berücksichtigung ihrer Interaktion) nennt man Haupteffekte (Main Effects). Effekte, die
auf spezifische Kombinationen der Faktoren zurückzuführen sind, bezeichnet man als Interaktionseffekte (Interactions). Es gibt neben den Haupteffekten gegebenenfalls Interaktionen auf
mehreren Ebenen. Die Zahl der Ebenen errechnet sich durch m − 1. Dabei ist m die Zahl der
einbezogenen Faktoren. So gibt es bei einer Zwei-Weg-Varianzanalyse mit den Faktoren A und
B, neben den Haupteffekten A und B, nur eine Interaktionsebene (2-Weg-Interaktion) mit der
Interaktion AB, bei einer Drei-Weg-Analyse mit den Faktoren A, B und C dagegen, neben den
Haupteffekten A, B und C, die 2-Weg-Interaktionen AB, AC und BC sowie die 3-Weg
Interaktion ABC. Wie man sieht, steigt die Zahl möglicher Interaktionen mit der Zahl der
Faktoren überproportional stark an.
Jeder dieser Beiträge kann mit Hilfe des F-Tests auf Signifikanz geprüft werden. Es gilt aber: Ist
eine Interaktion signifikant, sind alle F-Test der Haupteffekte hinfällig, weil das
Berechnungsmodell für die Haupteffekte dann nicht mehr zutrifft. Es muß also zuerst, nach der
Prüfung des Gesamtmodells, immer die Signifikanz der Interaktionen geprüft werden. So wie
man auf ein signifikantes Ergebnis trifft, sind alle weiteren Signifikantests obsolet.
Man unterscheidet faktorielle Designs mit gleichen und ungleichen Zellhäufigkeiten. Dieser
Unterschied hat Konsequenzen für die Berechnung der Effekte. Ist der Design orthogonal, d.h. sind
alle Zellen mit der gleichen Zahl der Fälle besetzt, dann sind die Effekte alle wechselseitig
voneinander unabhängig. Dann kann die klassische Berechnung der verschiedenen Statistiken der
Varianzanalyse uneingeschränkt benutzt werden. Bis zu einem gewissen Grade gilt das auch, wenn
die Zellenbesetzung proportional der Randverteilung ist. Dann sind zumindest die Haupteffekte
voneinander unabhängig. Sind dagegen die Zellen ungleich besetzt, wird davon die Berechnung der
verschiedenen Komponenten und die Interpretation der Resultate berührt. Die Effekte korrelieren
miteinander, sind nicht statistisch unabhängig. Dadurch addieren z.B. die "Komponenten
Abweichungsquadratsummen" (d.h. der Haupt- und Interaktionseffekte), wenn sie separat berechnet
werden, nicht auf die "Totale Abweichungsquadratsumme". Um das zu verhindern, wird nur ein
Teil der Abweichungsquadratsummen separat berechnet. Andere werden dagegen durch
Differenzbildung zu den vorher berechneten gebildet. Man muß entsprechend eine Hierarchie der
verschiedenen Effekte festlegen, um die Art der Berechnung der einzelnen Effekte zu bestimmen. Je
nachdem, wie dies genau geschieht, können erheblich unterschiedliche Ergebnisse ermittelt werden.
SPSS hält dafür drei verschiedene Verfahren bereit ( Kap. 15.2).
332
Fehler! Formatvorlage nicht definiert.
15.1 Faktorielle Designs mit gleicher Zellhäufigkeit
Beispiel. Zur Erläuterung eines Designs mit gleicher Zahl der Fälle in den Zellen sei das
konstruierte Beispiel aus der Einweg-Varianzanalyse ( Kap. 14.1) erweitert. Es war so
konstruiert, daß die Kriteriumsvariable "Einkommen" (EINK) vom Faktor "Schulbildung"
(SCHUL) beeinflußt war, und zwar führte höhere Schulbildung zu einem Aufschlag gegenüber dem
Durchschnittseinkommen der Mittelschüler und geringere zu einem Abschlag. Dabei waren in jeder
Gruppe fünf Fälle. Es sei jetzt die Zahl der Fälle verdoppelt, und es werde als weiterer Faktor
"Geschlecht" (GESCHL) eingeführt. Je die Hälfte der Fälle jeder Schulbildungsgruppe seien
männlichen und weiblichen Geschlechts. Daher sind in jeder Schulbildungsgruppe jetzt fünf Männer
und fünf Frauen bzw. jede Kombination von Schulbildung und Geschlecht trifft für fünf Fälle zu.
Das Beispiel wird so verändert, daß weibliches Geschlecht gegenüber dem Durchschnittswert einer
Schulbildungskategorie zu einem Abschlag von 300 DM Einkommen führt, das männliche dagegen
zu einem Zuschlag von 300 DM. Das gilt aber nicht für die Abiturienten. In dieser
Schulbildungsgruppe haben Männer und Frauen dasselbe Einkommen. Durch die letzte Festlegung
wird ein Interaktionseffekt produziert. Die Wirkung der Schulbildung ist jetzt nämlich nicht mehr
unabhängig davon, welche Kategorie des Geschlechts vorliegt (bzw. des Geschlechts, welche
Schulbildung), sondern es kommt auf die spezifische Kombination an. Die Daten des Beispiels
(VARIANZ2.SAV) sind in Tabelle 15.1 enthalten. Außerdem sind die wichtigsten für die
Varianzanalyse benötigten Statistiken bereits berechnet: die Mittelwerte, Summierten
Abweichungsquadrate (SAQ), Varianzen und Fallzahlen.
Die Berechnungen der Varianzanalyse erfolgen - mit Ausnahme der Interaktionen - genau wie bei
der Ein-Weg-Analyse. Allerdings werden die Bezeichnungen etwas verändert. Die Summe der
Abweichungsquadrate bzw. Varianzen innerhalb der Gruppen werden als "Sum of Squares
2
Residual" und "Mean Squares Residual" (SAQResidual und s Residual) bezeichnet. Die
2
2
entsprechenden Werte zwischen den Gruppen werden als SAQA und s A , SAQB und s B usw.
bezeichnet und als Haupteffekte ("Main Effects") ausgewiesen.
Tabelle 15.1. Einkommen nach Schulabschluß und Geschlecht (fiktive Daten)
Variable B:
Schulabschluß
Hauptschulabschluß
Variable A: Geschlecht
männlich
weiblich
2.100
2.200
2.300
2.400
2.500
1.500
1.600
1.700
1.800
1.900
gesamt
333
Fehler! Formatvorlage nicht definiert.
x mH =2.300
x wH =1.700
x H =2.000
SAQmH=100.000
nmH=5
SAQwH=100.000
nwH=5
nH=10
2.600
2.700
2.800
2.900
3.000
Mittlere
Reife
2.000
2.100
2.200
2.300
2.400
x mM =2.800
x wM =2.200
x M =2.500
SAQmM = 100.000
nmM=5
SAQwM = 100.000
nwM=5
nM=10
2.800
2.900
3.000
3.100
3.200
Abitur
2.800
2.900
3.000
3.100
3.200
x mA =3.000
x wA =3.000
x A =3.000
SAQmA=100.000
nmA=5
SAQwA=100.000
nwA=5
nA=10
x m =2.700
x w =2.300
xT =2.500
nm=15
nw=15
SAQT=7.400.000
Insgesamt
s2T =255.172,41
n T =30
Die Abweichungsquadratsummen insgesamt für alle Daten SAQTotal und die daraus errechneten
2
Varianz s Total sind in der untersten Zeile der Tabelle enthalten.
Zur Berechnung der entsprechenden Angaben für jede der beiden Variablen führt man praktisch
zwei Einweg-Varianz-Analysen durch. Man betrachtet die entsprechend vereinfachten Tabellen,
deren Werte jeweils als Randverteilung der angegebenen Tabelle vorliegen.
Tabelle 15.2. Ausgabe einer Zwei-Weg-Varianzanalyse
UNIQUE sums of squares
All effects entered simultaneously
Source of Variation
Main Effects
GESCHL
SCHUL
2-Way Interactions
Sum of
Squares
DF
Mean
Square
6200000,000
1200000,000
5000000,000
3
1
2
2066666,667
1200000,000
2500000,000
82,667
48,000
100,000
,000
,000
,000
600000,000
2
300000,000
12,000
,000
F
Sig
of F
334
Fehler! Formatvorlage nicht definiert.
GESCHL
Explained
Residual
Total
SCHUL
600000,000
2
300000,000
12,000
,000
6800000,000
5
1360000,000
54,400
,000
600000,000
24
25000,000
7400000,000
29
255172,414
30 cases were processed.
0 cases (,0 pct) were missing.
Für die Variable A (Geschlecht) können gemäß Gleichung 14.9 SAQzwischen bzw.
den Angaben am unteren Rand der Tabelle errechnet werden:
SAQA =
s2 zwischen aus
15 ⋅ ( 2.700 − 2.500 )2 + 15 ⋅ ( 2.300 − 2.500 )2 = 1.200.000, df = 2-1 = 1 und
s2 A = 1200.000 : 1 = 1.200.000.
Die entsprechenden Werte für die Variable B (Schulabschluß) werden analog aus den Angaben in
der rechten Randspalte berechnet:
10 ⋅ ( 2.000 − 2.500 )2 + 10 ⋅ ( 2.500 − 2.500 )2 + 10 ⋅ (3.000 − 2.500 )2 =
5.000.000, df = 3 − 1 = 2 und s2B = 5.000.000 : 2 = 2.500.000.
SAQB =
Die
Abweichungsquadratsumme
der
Haupteffekte
A
und
B
zusammen
ist
SAQMain Effects = 1.200.000 + 5.000.000 = 6.200.000, df = 1 + 2 = 3 und
s 2Main Effects = 6.200.000 : 3 = 2.066.666,67.
Die AbweichungsquadratsummeResidual errechnet sich aus den Abweichungsquadratsummen der
Zellen wie folgt:
SAQ Re sidual = 100.000 + 100.000 + 100.000 + 100.000 + 100.000 + 100.000 = 600.000
Das Besondere liegt jetzt in der Berechnung der entsprechenden Werte für die Interaktionen.
Interaktion. Bevor wir auf die Berechnung eingehen, soll die Bedeutung von Interaktion anhand
einer grafischen Darstellung verdeutlicht werden. Abb. 15.1 und 15.2 sind jeweils Darstellungen des
Zusammenhanges zwischen der Kriteriumsvariablen "Einkommen" und den beiden Faktoren
"Schulabschluß" und "Geschlecht". Dabei bilden die drei Schulabschlüsse "Hauptschulabschluß",
"Mittlere Reife" und "Abitur" jeweils eine Zeile in der Tabelle 15.1 und sind in der Grafik auf der
x-Achse abgetragen. Die Ausprägungen der Variablen Geschlecht, "weiblich" und "männlich",
entsprechen den Spalten der Tabelle. In der Grafik ist das durch zwei unterschiedliche
Einkommenskurven für Männer und Frauen repräsentiert. Das Ergebnis der jeweiligen
Wertekombination von Schulabschluß und Geschlecht im Einkommen ergibt in einer Tabelle einen
Zellenwert, in der Grafik einen Punkt auf einer dieser Kurven. Die durchschnittliche Einkommensgröße entspricht dem Abstand zwischen x-Achse und diesem Punkt. Die entsprechende Skala ist auf
der y-Achse abgetragen.
Fehler! Formatvorlage nicht definiert.
335
Abb. 15.1. Darstellung einer additiven linearen Wirkung von Schulabschluß und Geschlecht auf das
Einkommen
In Abb. 15.1 ist eine rein additive Wirkung der beiden Variablen "Schulabschluß" und "Geschlecht"
dargestellt. Zudem sind die Beziehungen auch noch linear. Daß die Zeilenvariable "Schulbildung"
einen Einfluß besitzt, zeigt sich darin, daß die Kurve nicht als Gerade parallel zur x-Achse verläuft.
Dies wäre der Fall, wenn die Zeilenvariablen keinen Einfluß hätte. Besitzt sie einen Einfluß, steigt
oder fällt die Kurve. Sie kann auch in verschiedenen Abschnitten unterschiedlich verlaufen, aber
nicht als Parallele zur x-Achse. Hat die Spaltenvariable (hier: Geschlecht) dagegen keinen Einfluß,
müssen die Kurven, die für die verschiedenen Kategorien dieser Variablen stehen, zusammenfallen.
Dies ist aber im Beispiel nicht der Fall. Die Kurve der Männer verläuft oberhalb derjenigen der
Frauen. Das zeigt, daß die Variable Geschlecht einen Einfluß hat. Verlaufen die verschiedenen
Kurven parallel - wie im Beispiel -, dann besteht ein additiver Zusammenhang. Linear sind die
Beziehungen, da die Kurven als Geraden verlaufen. Das ist aber keine Bedingung für additive
Beziehungen.
Abbildung 15.2 ist dagegen die Darstellung des oben beschriebenen Beispiels. Dort besteht - wie
beschrieben - insofern eine Interaktion, als bei den "Hauptschulabsolventen" und den Personen mit
"Mittlerer Reife" das Geschlecht einen Einfluß auf das Einkommen hat, bei den "Abiturienten" aber
nicht. Das schlägt sich darin nieder, daß die beiden Kurven für Männer und Frauen am Anfang
parallel verlaufen, am Ende aber nicht. Immer wenn eine Interaktion vorliegt, verlaufen die Kurven
zumindest in Teilbereichen nicht parallel. Sie können sich voneinander entfernen, sich nähern oder
überschneiden.
336
Fehler! Formatvorlage nicht definiert.
Abb. 15.2. Darstellung einer interaktiven Wirkung von Schulabschluß und Geschlecht auf das
Einkommen
Wir haben also drei Kennzeichen: Differenzen zwischen den auf der Abszisse abgetragenen
Kategorien zeigen sich im "nicht-horizontalen" Verlauf der Kurve. Das zweite Kriterium ist
"Abstand zwischen den Linien". Abstand ist ein Zeichen für die Differenz zwischen den Kategorien,
die die Linien konstituieren. Das dritte Kriterium ist "Konstanz des Abstands" zwischen den Linien.
Bleibt dieser konstant, besteht keine Interaktion, verändert er sich, ist das ein Zeichen von Interaktion.
Kommen wir jetzt zur Berechnung von Interaktionseffekten. In unserem Beispiel kommt nur die
Interaktion AB in Frage. Diese Berechnung geht von relativ komplizierten Überlegungen aus, die
hier nur angedeutet werden können. Sie basiert zunächst auf einem Vergleich der tatsächlich
beobachteten Abweichung der arithmetischen Mittelwerte der Zellen x z (der Index z steht hier für
Zelle, d.h. für alle Wertekombinationen der Variablen A und B) vom Gesamtmittelwert x mit der
T
Abweichung, die erwartet würde, wenn keine Interaktion existierte. Dann müßte diese nämlich
gleich der Summe der Abweichungen der dazugehörigen Reihen- und Spaltenmittelwerte vom
Gesamtmittelwert sein: ( x r − x ) + ( x s − x ) .
T
T
Die Abweichung beider Werte voneinander ist dann:
d r*s = ( x z − x T ) - [ ( x r − x T ) + ( x s − x T ) ] = x z − x r − x s + x T
(15.1)
Um zur Varianz zu kommen, werden diese Abweichungsmaße quadriert, mit der Zahl der Fälle in
den Zellen nz gewichtet und summiert. Es ergibt sich:
∑ d 2r∗s
= Fehler! Verweisquelle konnte nicht gefunden werden. nz (
x z − x r − x s + x T )2.
(15.2)
Das
erste
Glied
in
dieser
Summe
wird
demnach
berechnet:
5 ⋅ ( 2.300 − 2.000 − 2.700 + 2.500 )2 = 50.000 . Und insgesamt ergibt sich:
∑ d 2r∗s
= SAQAB =
50.000 + 50.000 + 50.000 + 50.000 + 200.000 + 200.000 = 600.000.
Fehler! Formatvorlage nicht definiert.
337
Dies ist der Wert, den Sie in Tabelle 15.2. als Sum of Squares2-Way Interactions finden. Teilt man
den Betrag durch die zugehörige Zahl der Freiheitsgrade (= 2), so erhält man die Varianz s22-Way
Interactions = 300.000.
Abb. 15.3. Dialogbox "Einfache mehrfaktorielle ANOVA"
Um den in Tabelle 15.2 angegebenen Output zu erhalten, gehen Sie wie folgt vor:
> Wählen Sie "Statistik" "ANOVA Modelle > ", "Einfach mehrfaktoriell...". Die Dialogbox
>
>
>
>
>
"Einfache mehrfaktorielle ANOVA" erscheint ( Abb. 15.3).
Wählen Sie die abhängige Variable (hier: EINK) aus der Variablenliste, und übertragen Sie
diese in das Eingabefeld "Abh.Variable:".
Wählen Sie die beiden Faktoren (hier: GESCHL und SCHUL) aus der Variablenliste, und
übertragen Sie diese in das Eingabefeld "Faktore(n):".
Markieren Sie den ersten Faktor (GESCHL). Klicken Sie auf die Schaltfläche "Bereich def. ...",
und geben Sie in der sich öffnenden Dialogbox "Einfache mehrfaktorielle ANOVA: Bereich"
den niedrigsten (Minimum) und den höchsten (Maximum) als Gruppe in die Analyse
einbezogenen Wert für diesen Faktor ein (hier: 1 und 2). Bestätigen Sie mit "Weiter".
Wiederholen Sie dasselbe für den zweiten Faktor SCHUL.
Starten Sie den Befehl mit "OK".
15.2 Faktorielle Designs mit ungleicher Zellhäufigkeit
Dieselbe Analyse soll jetzt für die Daten der Datei ALLBUS90.SAV wiederholt werden. Hier sind
aber die einzelnen Zellen, gemäß den Verhältnissen in der Realität, nicht gleich besetzt.
Schulbildung der verschiedenen Kategorien ist unterschiedlich weit verbreitet. Aber auch
Proportionalität zur Randverteilung ist nicht gegeben, denn Geschlecht und Schulbildung
korrelieren miteinander. Es liegt demnach ein nicht-orthogonaler Design vor. Dies führt zu
338
Fehler! Formatvorlage nicht definiert.
unterschiedlichen Ergebnissen, je nach Wahl des Analyseverfahrens. Außerdem soll die Variable
"Alter" (ALT) als Kovariate eingeführt werden.
Kovarianzanalyse. Die Einführung einer Kovariate heißt, daß zusätzlich zu den kategorialen
Faktoren eine metrisch gemessene unabhängige Variable in die Analyse eingeführt wird. Dabei muß
vorausgesetzt werden, daß zwischen Kovariate und Faktoren keine Korrelation besteht. (Zum Test
dieser Voraussetzung verwenden Sie gegebenenfalls die Optionen des Menüs "Korrelation" Kap.
16). Die Einbeziehung der Kovariate kann hierarchisch auf dreierlei Weise geschehen:
Vor Effekten ("Before effects"). Hier wird die Kovariate vor den Faktoren eingeführt. Zuerst
wird eine Regressionsanalyse mit der Kovariaten durchgeführt, dann eine konventionelle
Varianzanalyse. Dieses Verfahren sollte man wählen, wenn die Kovariaten dazu dienen, die
durch sie hervorgerufene (extraneous) störende externe Variation der abhängigen Variablen zu
beseitigen. Durch eine vorgeschobene Regressionsanalyse können dann die bereinigten Werte
der abhängigen Variablen für die Ermittlung der eigentlich interessierenden Effekte der Faktoren
benutzt werden.
Mit Effekten ("With effects"). Die Kovariate werden zusammen mit den Faktoren eingeführt.
Dies wählt man, wenn die Faktoren und die Kovariate gleichermaßen als unabhängige Variablen
von Interesse sind. Dann wird der Effekt jedes einzelnen Faktors und jeder einzelnen Kovariaten
korrigiert um den aller anderen berechnet. (Entspricht dem Ergebnis einer Regressionsanalyse
mit nicht-metrischen Daten als Dummy Variablen, Kap. 17.3.)
Nach Effekten ("After Effects"). In diesem Falle wird zuerst die Varianzanalyse mit den
Faktoren und anschließend eine Regressionsanalyse für die Kovariate durchgeführt. Diesen
Ansatz wählt man, wenn die Kovariate von primärem Interesse sind, ihre Effekte aber korrigiert
um die Effekte einer oder mehrerer nicht-metrischer Variablen errechnet werden sollen.
In unserem Beispiel soll das zweite Verfahren gewählt werden. Alter kann als gleichwertige
unabhängige Variable neben "Geschlecht" und "Schulbildung" bei der Bestimmung des
Einkommens gelten. Zur Durchführung der Analyse gehen Sie wie folgt vor:
> Wählen Sie zunächst die Befehlsfolge "Statistik", "ANOVA Modelle > ", "Einfach
mehrfaktoriell...". Es öffnet sich die bekannte Dialogbox ( Abb. 15.3).
> Geben Sie dann - wie oben beschrieben - die Faktoren (hier GESCHL und SCHUL2) ein, und
>
>
definieren Sie deren höchsten und niedrigsten Wert zur Festlegung der analysierten Gruppen (im
Beispiel 1 bis 2 bzw. 2 bis 4).
Wählen Sie die als Kovariate benutzte Variable aus der Variablenliste (hier: ALT), und
übertragen Sie diese in das Eingabefeld "Kovariate(n)".
Klicken Sie auf die Schaltfläche "Optionen...". Die Dialogbox "Einfache mehrfaktorielle
ANOVA: Optionen" öffnet sich ( Abb. 15.4).
Fehler! Formatvorlage nicht definiert.
339
Abb. 15.4. Dialogbox "Einfache mehrfaktorielle ANOVA: Optionen"
> Durch Anklicken einer der drei Optionsschalter in der Gruppe "Methode" bestimmen Sie, nach
welcher Methode die Effekte berechnet werden. (Beachten Sie, daß bei der Methode
"Regression" die Reihenfolge der Einführung der Kovariate nicht beeinflußbar ist. Ebenso sind
nicht alle Statistiken abrufbar.) Verfügbare Methoden sind:
Regression ("Unique"). Wird auch als Regressions-Modell bezeichnet. Alle Effekte werden
simultan auf ihren Einfluß untersucht. Eine Reihenfolge der Effekte kann daher nicht
festgelegt werden. Von den Statistiken sind nur Kovarianzkoeffizienten abrufbar. Dieses
Verfahren ist voreingestellt.
Hierarchisch. Es gibt eine hierarchische Reihenfolge von Faktoren und Kovariaten. Alle drei
Reihenfolgen der Einführung von Kovariaten sind möglich. Wenn die Voreinstellung der
Reihenfolge benutzt wird ("Vor Effekten"), werden die Kovariate nur um die Effekte der
ihnen in der Liste vorangehenden anderen Kovariate korrigiert, die Haupteffekte nur um die
der in der Liste vorangehenden Kovariate und Haupteffekte. Die Interaktionseffekte werden
nicht hierarchisch berechnet, sondern korrigiert um alle Effekte der gleichen oder niedrigerer
Ordnung.
Experimentell. Differiert vom hierarchischen Ansatz bei der Behandlung der Kovariate und
der Haupteffekte, nicht der Interaktionen. (Wird die Voreinstellung "Vor Effekten" benutzt,
erfolgt die Berechnung in der Reihenfolge Kovariate, Haupteffekte, 2-Weg-Interaktion usw.)
Kovariate werden nur hinsichtlich anderer Kovariate, Haupteffekte nur hinsichtlich der
Effekte der Kovariaten (im Unterschied zum hierarchischen aber aller und nicht nur der in
der Liste vorangehenden) und anderer Haupteffekte (im Unterschied zum hierarchischen
aber aller und nicht nur der in der Liste vorangehenden) korrigiert.
> Durch Anklicken einer der Optionsschalter der Gruppe "Wechselwirkungen bis" ( Abb. 15.4)
bestimmen Sie, bis zu welcher Ebene höchstens Interaktionen berechnet werden.
Im Beispiel wird das hierarchische Modell verwendet. Als maximale Interaktionsebene ist "2-fach"
ausgewählt. Das ist bei zwei Faktoren sowieso die höchste, nämlich die einzige, Interaktionsebene.
Würde eine höhere gewählt, würde SPSS von selbst nur bis zu dieser Ebene berechnen. Den Output
sehen Sie in Tabelle 15.3.
Die Ergebnisse zeigen zunächst in der Zeile "2-Way Interactions", daß keine signifikanten
Interaktionen vorliegen (Sig of F > α = 0 , 05 ). Daher ist die Signifikanzprüfung der Haupteffekte
340
Fehler! Formatvorlage nicht definiert.
sinnvoll. Diese haben in ihrer Kombination (Zeile: "Main Effects") eine signifikante Wirkung.
Ebenso sind die Haupteffekte der beiden Faktoren Geschlecht (Zeile: "GESCHL") und
Schulbildung (Zeile: "SCHUL2") signifikant. Keine signifikante Wirkung hat dagegen die
Kovariate Alter (Zeile: "ALT").
Zur Erläuterung der Unterschiede der drei mit "Methode" wählbaren Verfahren sind die
Ergebnisse der drei Verfahren für dieselbe Analyse - ohne Kovariate - in Tabelle 15.4
nebeneinander gestellt.
Wie man sieht, unterscheiden sich die Ergebnisse bei der erklärten Variation (" Sum of Squares
Explained") und der entsprechenden F-Statistik nicht. Ebensowenig beim unerklärten Rest ("Sum of
Squares Residual"). Dasselbe gilt auch für die 2-Weg-Interaktion. Diese wird ja auch bei allen drei
Verfahren gleich berechnet, nämlich nicht hierarchisch, sondern um alle Effekte korrigiert.
Unterschiede zeigen sich aber bei den Haupteffekten insgesamt ("Main Effects") sowie den beiden
Haupteffekten für die Faktoren GESCHL (Variable A) und SCHUL2 (Variable B). Wie die
Unterschiede entstehen, kann zunächst durch einen Vergleich des experimentellen und
hierarchischen Modells erklärt werden. Beide Modelle berechnen zunächst auf gleiche Weise die
durch die Variablen A und B und Interaktion gemeinsam erklärte Abweichungsquadratsumme. Im
experimentellen Modell (Tab. 15.5) wird dann die Abweichungsquadratsumme für A und B
gemeinsam berechnet. Sodann die Abweichungsquadratsummen für A und B separat. Die korrigierten Abweichungsquadratsummen von A und B ergeben sich schließlich durch Differenzbildung.
Die
korrigierte
Abweichungsquadratsumme
von
A
=
Tabelle 15.3. Ergebnisse einer hierarchischen Varianzanalyse für die Beziehung zwischen
Einkommen, Schulabschluß und Geschlecht
* * *
A N A L Y S I S
O F
V A R I A N C E * * *
EINK
BEFR.: MONATLICHES NETTOEINKOMMEN
by
GESCHL
GESCHLECHT, BEFRAGTE<R>
SCHUL2
Schulbildung recodet
with ALT
ALTER, BEFRAGTE<R>
HIERARCHICAL sums of squares
Covariates entered WITH main effects
Source of Variation
Sum of
Squares
DF
Mean
Square
Main Effects
GESCHL
SCHUL2
ALT
(Covar)
42333132
30919670
11203697
209765
4
1
2
1
10583283,076
30919670,355
5601848,650
209764,649
10,233
29,897
5,417
,203
,000
,000
,005
,653
91479
91479
2
2
45739,382
45739,382
,044
,044
,957
,957
42424611
6
7070768,511
6,837
,000
139619197
135
1034216,273
2-Way Interactions
GESCHL
SCHUL2
Explained
Residual
F
Sig
of F
341
Fehler! Formatvorlage nicht definiert.
Total
182043808
141
1291090,836
Tabelle 15.4. Ergebnisse der drei Modelle der Mehr-Weg-Varianzanalyse für die Beziehung
zwischen Einkommen, Schulabschluß und Geschlecht
Hierarchical
Experimental
Unique
Model
Model
Model
Source of Variation
F
Main Effects
13,656
GESCHL
27,730
SCHUL2
5,448
2-Way Interactions
,040
GESCHL
SCHUL2
,040
Explained
Sum of
Squares
F
Sum of
Squares
Sum of
Squares
F
40046906
12,983
42123368 13,656
42123368
25215720
24,524
30919670 30,071
28512606
10559924
5,135
11203697
5,448
11203697
82652
,040
82652
,040
82652
82652
,040
82652
,040
82652
42206020
8,210
42206020
8,210
42206020
Residual
139837788
139837788
139837788
Total
182043808
182043808
182043808
Gemeinsame Abweichungsquadratsumme von A und B minus Abweichungsquadratsumme von B.
Umgekehrt für B.
Tabelle 15.5. Berechnungsschema experimentelles Modell
Quelle der Variation
(1) SAQ verursacht von A , B und A*B
(saturiertes Modell)
(2) SAQ verursacht von A und B (additives Modell)
(a) SAQ verursacht durch A, korrigiert nach B
(b) SAQ verursacht durch B, korrigiert nach A
(3) AQ verursacht durch A*B-Interaktion
(4) SAQ residual
Abweichungsquadratsumme
SAQA,B,AB
SAQA,B
SAQ A ,B − SAQ B
SAQ A ,B − SAQ A
SAQ A ,B,AB − SAQ A ,B
SAQ T − SAQ A ,B,AB
342
Fehler! Formatvorlage nicht definiert.
Dagegen werden im hierarchischen Ansatz die von A verursachten Abweichungsquadrate
unkorrigiert berechnet und nur die von B verursachten Abweichungsquadrate korrigiert. Die
Abweichungsquadrate für A unterscheiden sich deshalb, die für B nicht. Für A fallen sie beim
hierarchischen Ansatz höher aus. Beide addieren in diesem Ansatz auf den Wert der Haupteffekte
insgesamt, weil ja der Wert von B einfach durch Differenzbildung zwischen dem Wert für A und
des Haupteffekts insgesamt zustande kam. Dagegen trifft das beim klassischen Modell nicht zu.
Denn hier wurden zwei verschiedene Werte vom Wert der Haupteffekte insgesamt abgezogen. Der
entsprechend veränderte Ausschnitt aus dem Berechnungsschema für das hierarchische Modell sieht
dann wie folgt aus:
Quelle der Variation
(2) SAQ verursacht von A und B (additives Modell)
(a) SAQ verursacht durch A
(b) SAQ verursacht durch B, korrigiert nach A
Abweichungsquadratsumme
SAQAB
SAQA
SAQ A ,B − SAQ A
Dem Unique Modell (Regressionsmodell) dagegen liegt folgendes Berechnungsschema zugrunde:
Quelle der Variation
(2) SAQ verursacht von A und B (additives Modell),
korrigiert nach AB
(a) SAQ verursacht durch A, korrigiert nach B und AB
(b) SAQ verursacht durch B, korrigiert nach A und AB
(3) SAQ verursacht durch A*B-Interaktion, korrigiert nach A
und B
Abweichungsquadratsumme
SAQ A ,B,AB − SAQ AB
SAQ A ,B,AB − SAQ B,AB
SAQ A ,B,AB − SAQ A ,AB
SAQ A ,B,AB − SAQ A ,B
15.3 Multiple Klassifikationsanalyse (MCA)
Die ANOVA-Tabelle ermöglicht zunächst generelle Signifikanztests für die einzelnen Effekte. Ein
signifikanter Wert besagt allerdings lediglich, daß wenigstens eine der Kategorien des Faktors vom
Gesamtmittelwert signifikant abweicht. Um die genaueren Einflußbeziehungen zu klären, sind
dagegen genauere Betrachtungen des Beziehungsgeflechtes nötig. Dazu bietet ANOVA das
Instrument der multiplen Klassifikationsanalyse (MCA) an. (Beim Regressionsansatz nicht verfügbar.) Anders als bei den multiplen Vergleichsprozeduren von "Einfaktorielle ANOVA", werden
aber nicht Mittelwertdifferenzen von Gruppen auf Signifikanz überprüft, sondern es geht lediglich
um eine erleichterte Beurteilung der Mittelwertdifferenzen der einzelnen Gruppen vom
Gesamtmittelwert. Zum zweiten ermöglicht die ANOVA-Tabelle eine Einschätzung des durch die
einzelnen Effekte und die Effekte insgesamt erklärten Anteils der Varianz. Die für letzteren Zweck
benötigten Eta- bzw. Beta-Werte werden aber nur auf zusätzliche Anforderung zusammen mit der
multiplen Klassifikationsanalyse ausgegeben.
Sowohl die Mittelwertabweichungen als auch die Eta- bzw. Beta-Werte werden sowohl in
unkorrigierter Form als auch in korrigierter Form, d.h. unter Konstanthaltung der anderen
(möglicherweise als Störvariablen fungierenden) Variablen angeboten. Wenn ein nicht-orthogonaler
Design vorliegt, die Faktoren also nicht von vornherein unabhängig wirken, ist die Veränderung der
Ergebnisse zwischen unkorrigierten und korrigierten Werten von besonderem Interesse. Es läßt sich
Fehler! Formatvorlage nicht definiert.
343
daraus entnehmen, inwiefern die Einflüsse der Faktoren (und der Kovariaten) voneinander
unabhängig sind oder sich gegenseitig überlagern.
Es soll für unser Beispiel (inklusive Kovariate "Alter") eine multiple Klassifikationsanalyse
durchgeführt werden. Um die multiple Klassifikationsanalyse anzufordern, gehen Sie wie folgt vor:
> Klicken
>
Sie in der Dialogbox "Einfache mehrfaktorielle ANOVA:
( Abb. 15.4) in der Box "Statistiken" auf das Kontrollkästchen "MCA".
Bestätigen Sie mit "Weiter" und "OK".
Optionen"
Für unser Beispiel ergibt sich der Output von Tabelle 15.6. Wie man sehen kann, werden in diesem
Output wichtige Angaben über die Faktoren zusammengefaßt. Für die Kovariate finden sich keine
Angaben. Sie gehen ebenso wie die Interaktionen nur in Form von Korrekturen für die Haupteffekte
in die Tabelle ein. Es werden für die Haupteffekte in den Spalten zwei Informationen ausgegeben.
Die Abweichung jedes einzelnen Gruppenmittelwertes vom Gesamtmittelwert ("Dev'n").
Dann die jeweiligen Eta- bzw. Beta-Werte für den jeweiligen Haupteffekt.
Beides wird zunächst unkorrigiert ("Unadjusted"), dann korrigiert um die Einflüsse der anderen
unabhängigen Variablen ("Adjusted for Independents") und zuletzt korrigiert um die zusätzlichen
Einflüsse der Kovariaten ("Adjusted for Independents + Covariates") dargestellt. Anstelle der
unkorrigierten Eta-Werten treten dabei die korrigierten Beta-Werte.
Betrachten wir zunächst die unkorrigierten Abweichungen. Man erkennt, daß die Einkommen der
Männer um 410,79 DM positiv vom Gesamtmittelwert, die der Frauen um 530,06 DM negativ
davon abweichen. Das Geschlecht hat also einen Einfluß auf das Einkommen. Dasselbe folgt für die
Schulbildung. Da weicht das Einkommen der Personen mit Hauptschulabschluß negativ, das der
Personen mit "Mittlerer Reife" und mit "Abitur/Fachhochschulreife" positiv vom Gesamtmittelwert
ab. Das Einkommen der Personen mit "Abitur/Fachhochschulreife" ist aber etwas geringer.
Tabelle 15.6. Tabelle der multiplen Klassifikationsanalyse für die Beziehung zwischen
Einkommen, Schulbildung und Geschlecht bei Verwendung des hierarchischem Modells und der
Berechnung der Kovariaten mit Effekten
* * M U L T I P L E
S * *
EINK
GESCHL
SCHUL2
with ALT
by
Grand Mean =
C L A S S I F I C A T I O N
A N A L Y S I
BEFR.: MONATLICHES NETTOEINKOMMEN
GESCHLECHT, BEFRAGTE<R>
Schulbildung recodet
ALTER, BEFRAGTE<R>
2091,83
Adjusted for
Adjusted for
Independents
Unadjusted
Covariates
Independents +
344
Fehler! Formatvorlage nicht definiert.
Variable + Category
Beta
GESCHL
1 MAENNLICH
2 WEIBLICH
N
Dev'n
80
62
410,79
-530,06
Eta
Dev'n
395,78
-510,68
,41
,40
SCHUL2
2 Hauptschulabschluß u
3 Mittlere Reife
4 Abitur/Fachhochschul
74
33
35
Beta
-284,51
440,74
185,97
400,08
-516,23
,40
-263,80
374,59
204,57
,27
Dev'n
-281,66
388,63
229,09
,25
,26
Multiple R Squared
,233
Multiple R
,482
,231
,481
Wie wir wissen, können sich bei korrelierten Variablen Einflüsse überlagern. Es können daher
falsche Eindrücke über die Ursache-Wirkungs-Verhältnisse entstehen. Deshalb ist es sinnvoll, bei
der Analyse der Zusammenhänge mögliche Störvariablen unter Kontrolle zu halten. Das geschieht
zunächst für den Einfluß der jeweils anderen unabhängigen Variablen, später auch unter
Einbeziehung der Kovariaten. Interessant ist die Beobachtung, ob und gegebenenfalls wie sich dann
die Beziehungen verändern. Wird die andere unabhängige Variable kontrolliert (Spalte : "Adjusted
for Independents Dev´n), sehen wir, daß beim Geschlecht die Abweichungen vom
Gesamtmittelwert etwas geringer ausfallen. Daraus können wir schließen, daß ein kleiner Teil der
zwischen den Geschlechtern festgestellten Einkommensunterschiede nicht direkt auf das
Geschlecht, sondern auf die etwas unterschiedliche Ausbildungsstruktur von Männern und Frauen
zurückzuführen ist. Was die Bedeutung des Schulabschlusses betrifft, sinkt die Differenz bei
"Hauptschulabsolventen" und Personen mit "Mittlerer Reife". Daraus kann geschlossen werden, daß
ein kleiner Teil der Abweichung dieser Gruppen vom Gesamtmittelwert nicht auf die Schulbildung,
sondern die unterschiedliche Zusammensetzung nach Geschlecht zurückzuführen ist. Bei den
Personen mit "Abitur/Fachhochschulreife" steigt dagegen die Differenz sogar noch. Auch hier hatte
demnach die Geschlechtszusammensetzung eine gewisse Bedeutung. Anders ausgedrückt, in der
ersten und letzten Gruppe sind wohl überproportional viele Frauen enthalten. Deshalb ist z.T. ihr
Einkommen etwas niedriger. Betrachtet man sie als wären die Frauen und Männer gleich verteilt,
steigt bei beiden Gruppen das Einkommen im Durchschnitt. Die erste Gruppe nähert sich dadurch
mehr dem Gesamtdurchschnitt, die letztere entfernt sich dadurch etwas mehr von diesem. In der
mittleren Gruppe sind Männer etwas stärker vertreten. Wird sie betrachtet, als seien die
Geschlechter proportional vertreten, fällt das Durchschnittseinkommen etwas und nähert sich mehr
dem Gesamtdurchschnitt.
Kommt jetzt das Alter als Kovariate hinzu, verändern sich die Werte wiederum etwas, wie man
in Spalte "Adjusted for Independents + Covariates Dev´n" sieht. Das liegt daran, daß das Alter
Fehler! Formatvorlage nicht definiert.
345
sowohl mit dem Geschlecht der Erwerbstätigen als auch der Schulbildung korreliert und ebenfalls
einen gewissen Einfluß auf das Einkommen hat.
Kürzer zusammengefaßt kann man das anhand der Eta- bzw. Beta-Koeffizienten sehen. Diese
geben jeweils ein Maß für die Enge des Zusammenhanges zwischen einem Faktor und der
Kriteriumsvariablen (Korrelationskoeffizient). Eta ist der unkorrigierte Koeffizient. BetaKoeffizienten sind spezielle partielle Korrelationskoeffizienten, die für die korrigierten
Zusammenhänge dasselbe ausdrücken wie Eta für die unkorrigierten. Quadriert man Eta bzw. Beta,
so bekommt man zwei unterschiedliche Determinationskoeffizienten. Diese geben den Anteil der
erklärten Varianz an (Eta2 aus den unkorrigierten Werten berechnet, Beta2 aus den korrigierten).
Berechnen lassen sich die Eta-Koeffizienten nach der Formel:
Eta 2 =
SAQ Effekt
SAQgesamt
(15.3)
Setzten wir die Daten aus der ANOVA-Tabelle für das hierarchische Modell ein, so ist etwa
Eta2Geschlecht = 30919670 : 182043808 = 0,1698 und Eta = 0,41. (Beachten Sie, daß bei diesem
Modell nur der Einfluß von Geschlecht unkorrigiert berechnet ist. Deshalb kann man nicht dasselbe
für die Schulbildung wiederholen.)
Wichtige Informationen ergibt der Vergleich der unkorrigiert berechneten Eta- mit den korrigierten
Beta-Koeffizienten. Gegenüber dem Eta-Koeffizienten sinkt bei Konstanthaltung der
Einflußvariablen "Schulbildung" der Beta-Koeffizient für den Zusammenhang zwischen
"Geschlecht" und "Einkommen" etwas von 0,41 auf 0,40. Beim Faktor "Schulbildung" sinkt der
Wert bei Konstanthaltung von "Geschlecht" etwas von 0,27 auf 0,25 und steigt bei zusätzlicher
Konstanthaltung von "Alter" wieder etwas auf 0,26 an. Aus diesem Vergleich kann man zweierlei
entnehmen:
Die wechselseitige Korrelation der Variablen wirkt sich nur geringfügig aus. Die beiden
Faktoren wirken praktisch unabhängig voneinander.
Die Wirkung des Faktors "Geschlecht" ist stärker als die des Faktors "Schulbildung".
Abschließend sind noch das multiple R bzw. das multiple R2 ("Multiple R Squared") zu betrachten.
Sie geben dieselben Informationen für das Gesamtmodell, d.h. die kombinierte Wirkung aller
Faktoren, und zwar bei korrigierter Berechnung. Die Werte für die beiden Korrekturarten
unterscheiden sich nur minimal. Alter hat praktisch keine verzerrende Wirkung. Das multiple R
beträgt 0,481. Es ergibt sich also keinesfalls aus der Addition der Beta-Werte für die beiden
einzelnen Komponenten, sondern der Erklärungswert des Modells insgesamt ist geringer. Insgesamt
werden durch das Modell ca. 23 % der Gesamtvarianz erklärt ("Multiples R Squared").
Weitere Optionen in der Gruppe "Statistiken"
Mittelwert und Anzahl. Mit dieser Option kann eine übersichtliche Ausgabe der Mittelwerte der
Gruppen und der Fallzahlen in den Gruppen angefordert werden.
Koeffizienten der Kovariaten. Bei Anforderung dieser Option werden unter der ANOVA-Tabelle
die (nicht standardisierten) Regressionskoeffizienten für die Kovariate angegeben.
Weitere Möglichkeiten bei Verwenden der Befehlssyntax
Mit dem Befehl /MISSING=INCLUDE kann festgelegt werden, daß die fehlenden Werte in die
Analyse einbezogen werden sollen.
346
Fehler! Formatvorlage nicht definiert.
Mit dem VARIABLES-Kommando kann eine Liste von mehreren abhängigen Variablen
angegeben werden. (Jeweils eine wird allerdings nur in die Analyse einbezogen.) Außerdem
können, durch Schrägstriche (/) getrennt, mehrere Designs spezifiziert werden.
Herunterladen