Janssen/Laatz: Ergänzung aus früheren Auflagen 15 Mehr-Weg-Varianzanalyse (Für SPSS 6.x) Die Mehr-Weg-Varianzanalyse unterscheidet sich von der Ein-Weg-Varianzanalyse dadurch, daß nicht ein, sondern zwei und mehr Faktoren zur Erklärung der Kriteriumsvariablen verwendet werden. Dadurch ist zweierlei möglich: Der Beitrag jeder dieser Faktorvariablen zur Erklärung der Gesamtvariation kann für sich alleine genommen untersucht werden. Es kann aber auch die Wirkung ihrer spezifischen Kombinationen miteinander (Interaktion) mit geprüft werden. Den Beitrag der Hauptvariablen (ohne Berücksichtigung ihrer Interaktion) nennt man Haupteffekte (Main Effects). Effekte, die auf spezifische Kombinationen der Faktoren zurückzuführen sind, bezeichnet man als Interaktionseffekte (Interactions). Es gibt neben den Haupteffekten gegebenenfalls Interaktionen auf mehreren Ebenen. Die Zahl der Ebenen errechnet sich durch m − 1. Dabei ist m die Zahl der einbezogenen Faktoren. So gibt es bei einer Zwei-Weg-Varianzanalyse mit den Faktoren A und B, neben den Haupteffekten A und B, nur eine Interaktionsebene (2-Weg-Interaktion) mit der Interaktion AB, bei einer Drei-Weg-Analyse mit den Faktoren A, B und C dagegen, neben den Haupteffekten A, B und C, die 2-Weg-Interaktionen AB, AC und BC sowie die 3-Weg Interaktion ABC. Wie man sieht, steigt die Zahl möglicher Interaktionen mit der Zahl der Faktoren überproportional stark an. Jeder dieser Beiträge kann mit Hilfe des F-Tests auf Signifikanz geprüft werden. Es gilt aber: Ist eine Interaktion signifikant, sind alle F-Test der Haupteffekte hinfällig, weil das Berechnungsmodell für die Haupteffekte dann nicht mehr zutrifft. Es muß also zuerst, nach der Prüfung des Gesamtmodells, immer die Signifikanz der Interaktionen geprüft werden. So wie man auf ein signifikantes Ergebnis trifft, sind alle weiteren Signifikantests obsolet. Man unterscheidet faktorielle Designs mit gleichen und ungleichen Zellhäufigkeiten. Dieser Unterschied hat Konsequenzen für die Berechnung der Effekte. Ist der Design orthogonal, d.h. sind alle Zellen mit der gleichen Zahl der Fälle besetzt, dann sind die Effekte alle wechselseitig voneinander unabhängig. Dann kann die klassische Berechnung der verschiedenen Statistiken der Varianzanalyse uneingeschränkt benutzt werden. Bis zu einem gewissen Grade gilt das auch, wenn die Zellenbesetzung proportional der Randverteilung ist. Dann sind zumindest die Haupteffekte voneinander unabhängig. Sind dagegen die Zellen ungleich besetzt, wird davon die Berechnung der verschiedenen Komponenten und die Interpretation der Resultate berührt. Die Effekte korrelieren miteinander, sind nicht statistisch unabhängig. Dadurch addieren z.B. die "Komponenten Abweichungsquadratsummen" (d.h. der Haupt- und Interaktionseffekte), wenn sie separat berechnet werden, nicht auf die "Totale Abweichungsquadratsumme". Um das zu verhindern, wird nur ein Teil der Abweichungsquadratsummen separat berechnet. Andere werden dagegen durch Differenzbildung zu den vorher berechneten gebildet. Man muß entsprechend eine Hierarchie der verschiedenen Effekte festlegen, um die Art der Berechnung der einzelnen Effekte zu bestimmen. Je nachdem, wie dies genau geschieht, können erheblich unterschiedliche Ergebnisse ermittelt werden. SPSS hält dafür drei verschiedene Verfahren bereit ( Kap. 15.2). 332 Fehler! Formatvorlage nicht definiert. 15.1 Faktorielle Designs mit gleicher Zellhäufigkeit Beispiel. Zur Erläuterung eines Designs mit gleicher Zahl der Fälle in den Zellen sei das konstruierte Beispiel aus der Einweg-Varianzanalyse ( Kap. 14.1) erweitert. Es war so konstruiert, daß die Kriteriumsvariable "Einkommen" (EINK) vom Faktor "Schulbildung" (SCHUL) beeinflußt war, und zwar führte höhere Schulbildung zu einem Aufschlag gegenüber dem Durchschnittseinkommen der Mittelschüler und geringere zu einem Abschlag. Dabei waren in jeder Gruppe fünf Fälle. Es sei jetzt die Zahl der Fälle verdoppelt, und es werde als weiterer Faktor "Geschlecht" (GESCHL) eingeführt. Je die Hälfte der Fälle jeder Schulbildungsgruppe seien männlichen und weiblichen Geschlechts. Daher sind in jeder Schulbildungsgruppe jetzt fünf Männer und fünf Frauen bzw. jede Kombination von Schulbildung und Geschlecht trifft für fünf Fälle zu. Das Beispiel wird so verändert, daß weibliches Geschlecht gegenüber dem Durchschnittswert einer Schulbildungskategorie zu einem Abschlag von 300 DM Einkommen führt, das männliche dagegen zu einem Zuschlag von 300 DM. Das gilt aber nicht für die Abiturienten. In dieser Schulbildungsgruppe haben Männer und Frauen dasselbe Einkommen. Durch die letzte Festlegung wird ein Interaktionseffekt produziert. Die Wirkung der Schulbildung ist jetzt nämlich nicht mehr unabhängig davon, welche Kategorie des Geschlechts vorliegt (bzw. des Geschlechts, welche Schulbildung), sondern es kommt auf die spezifische Kombination an. Die Daten des Beispiels (VARIANZ2.SAV) sind in Tabelle 15.1 enthalten. Außerdem sind die wichtigsten für die Varianzanalyse benötigten Statistiken bereits berechnet: die Mittelwerte, Summierten Abweichungsquadrate (SAQ), Varianzen und Fallzahlen. Die Berechnungen der Varianzanalyse erfolgen - mit Ausnahme der Interaktionen - genau wie bei der Ein-Weg-Analyse. Allerdings werden die Bezeichnungen etwas verändert. Die Summe der Abweichungsquadrate bzw. Varianzen innerhalb der Gruppen werden als "Sum of Squares 2 Residual" und "Mean Squares Residual" (SAQResidual und s Residual) bezeichnet. Die 2 2 entsprechenden Werte zwischen den Gruppen werden als SAQA und s A , SAQB und s B usw. bezeichnet und als Haupteffekte ("Main Effects") ausgewiesen. Tabelle 15.1. Einkommen nach Schulabschluß und Geschlecht (fiktive Daten) Variable B: Schulabschluß Hauptschulabschluß Variable A: Geschlecht männlich weiblich 2.100 2.200 2.300 2.400 2.500 1.500 1.600 1.700 1.800 1.900 gesamt 333 Fehler! Formatvorlage nicht definiert. x mH =2.300 x wH =1.700 x H =2.000 SAQmH=100.000 nmH=5 SAQwH=100.000 nwH=5 nH=10 2.600 2.700 2.800 2.900 3.000 Mittlere Reife 2.000 2.100 2.200 2.300 2.400 x mM =2.800 x wM =2.200 x M =2.500 SAQmM = 100.000 nmM=5 SAQwM = 100.000 nwM=5 nM=10 2.800 2.900 3.000 3.100 3.200 Abitur 2.800 2.900 3.000 3.100 3.200 x mA =3.000 x wA =3.000 x A =3.000 SAQmA=100.000 nmA=5 SAQwA=100.000 nwA=5 nA=10 x m =2.700 x w =2.300 xT =2.500 nm=15 nw=15 SAQT=7.400.000 Insgesamt s2T =255.172,41 n T =30 Die Abweichungsquadratsummen insgesamt für alle Daten SAQTotal und die daraus errechneten 2 Varianz s Total sind in der untersten Zeile der Tabelle enthalten. Zur Berechnung der entsprechenden Angaben für jede der beiden Variablen führt man praktisch zwei Einweg-Varianz-Analysen durch. Man betrachtet die entsprechend vereinfachten Tabellen, deren Werte jeweils als Randverteilung der angegebenen Tabelle vorliegen. Tabelle 15.2. Ausgabe einer Zwei-Weg-Varianzanalyse UNIQUE sums of squares All effects entered simultaneously Source of Variation Main Effects GESCHL SCHUL 2-Way Interactions Sum of Squares DF Mean Square 6200000,000 1200000,000 5000000,000 3 1 2 2066666,667 1200000,000 2500000,000 82,667 48,000 100,000 ,000 ,000 ,000 600000,000 2 300000,000 12,000 ,000 F Sig of F 334 Fehler! Formatvorlage nicht definiert. GESCHL Explained Residual Total SCHUL 600000,000 2 300000,000 12,000 ,000 6800000,000 5 1360000,000 54,400 ,000 600000,000 24 25000,000 7400000,000 29 255172,414 30 cases were processed. 0 cases (,0 pct) were missing. Für die Variable A (Geschlecht) können gemäß Gleichung 14.9 SAQzwischen bzw. den Angaben am unteren Rand der Tabelle errechnet werden: SAQA = s2 zwischen aus 15 ⋅ ( 2.700 − 2.500 )2 + 15 ⋅ ( 2.300 − 2.500 )2 = 1.200.000, df = 2-1 = 1 und s2 A = 1200.000 : 1 = 1.200.000. Die entsprechenden Werte für die Variable B (Schulabschluß) werden analog aus den Angaben in der rechten Randspalte berechnet: 10 ⋅ ( 2.000 − 2.500 )2 + 10 ⋅ ( 2.500 − 2.500 )2 + 10 ⋅ (3.000 − 2.500 )2 = 5.000.000, df = 3 − 1 = 2 und s2B = 5.000.000 : 2 = 2.500.000. SAQB = Die Abweichungsquadratsumme der Haupteffekte A und B zusammen ist SAQMain Effects = 1.200.000 + 5.000.000 = 6.200.000, df = 1 + 2 = 3 und s 2Main Effects = 6.200.000 : 3 = 2.066.666,67. Die AbweichungsquadratsummeResidual errechnet sich aus den Abweichungsquadratsummen der Zellen wie folgt: SAQ Re sidual = 100.000 + 100.000 + 100.000 + 100.000 + 100.000 + 100.000 = 600.000 Das Besondere liegt jetzt in der Berechnung der entsprechenden Werte für die Interaktionen. Interaktion. Bevor wir auf die Berechnung eingehen, soll die Bedeutung von Interaktion anhand einer grafischen Darstellung verdeutlicht werden. Abb. 15.1 und 15.2 sind jeweils Darstellungen des Zusammenhanges zwischen der Kriteriumsvariablen "Einkommen" und den beiden Faktoren "Schulabschluß" und "Geschlecht". Dabei bilden die drei Schulabschlüsse "Hauptschulabschluß", "Mittlere Reife" und "Abitur" jeweils eine Zeile in der Tabelle 15.1 und sind in der Grafik auf der x-Achse abgetragen. Die Ausprägungen der Variablen Geschlecht, "weiblich" und "männlich", entsprechen den Spalten der Tabelle. In der Grafik ist das durch zwei unterschiedliche Einkommenskurven für Männer und Frauen repräsentiert. Das Ergebnis der jeweiligen Wertekombination von Schulabschluß und Geschlecht im Einkommen ergibt in einer Tabelle einen Zellenwert, in der Grafik einen Punkt auf einer dieser Kurven. Die durchschnittliche Einkommensgröße entspricht dem Abstand zwischen x-Achse und diesem Punkt. Die entsprechende Skala ist auf der y-Achse abgetragen. Fehler! Formatvorlage nicht definiert. 335 Abb. 15.1. Darstellung einer additiven linearen Wirkung von Schulabschluß und Geschlecht auf das Einkommen In Abb. 15.1 ist eine rein additive Wirkung der beiden Variablen "Schulabschluß" und "Geschlecht" dargestellt. Zudem sind die Beziehungen auch noch linear. Daß die Zeilenvariable "Schulbildung" einen Einfluß besitzt, zeigt sich darin, daß die Kurve nicht als Gerade parallel zur x-Achse verläuft. Dies wäre der Fall, wenn die Zeilenvariablen keinen Einfluß hätte. Besitzt sie einen Einfluß, steigt oder fällt die Kurve. Sie kann auch in verschiedenen Abschnitten unterschiedlich verlaufen, aber nicht als Parallele zur x-Achse. Hat die Spaltenvariable (hier: Geschlecht) dagegen keinen Einfluß, müssen die Kurven, die für die verschiedenen Kategorien dieser Variablen stehen, zusammenfallen. Dies ist aber im Beispiel nicht der Fall. Die Kurve der Männer verläuft oberhalb derjenigen der Frauen. Das zeigt, daß die Variable Geschlecht einen Einfluß hat. Verlaufen die verschiedenen Kurven parallel - wie im Beispiel -, dann besteht ein additiver Zusammenhang. Linear sind die Beziehungen, da die Kurven als Geraden verlaufen. Das ist aber keine Bedingung für additive Beziehungen. Abbildung 15.2 ist dagegen die Darstellung des oben beschriebenen Beispiels. Dort besteht - wie beschrieben - insofern eine Interaktion, als bei den "Hauptschulabsolventen" und den Personen mit "Mittlerer Reife" das Geschlecht einen Einfluß auf das Einkommen hat, bei den "Abiturienten" aber nicht. Das schlägt sich darin nieder, daß die beiden Kurven für Männer und Frauen am Anfang parallel verlaufen, am Ende aber nicht. Immer wenn eine Interaktion vorliegt, verlaufen die Kurven zumindest in Teilbereichen nicht parallel. Sie können sich voneinander entfernen, sich nähern oder überschneiden. 336 Fehler! Formatvorlage nicht definiert. Abb. 15.2. Darstellung einer interaktiven Wirkung von Schulabschluß und Geschlecht auf das Einkommen Wir haben also drei Kennzeichen: Differenzen zwischen den auf der Abszisse abgetragenen Kategorien zeigen sich im "nicht-horizontalen" Verlauf der Kurve. Das zweite Kriterium ist "Abstand zwischen den Linien". Abstand ist ein Zeichen für die Differenz zwischen den Kategorien, die die Linien konstituieren. Das dritte Kriterium ist "Konstanz des Abstands" zwischen den Linien. Bleibt dieser konstant, besteht keine Interaktion, verändert er sich, ist das ein Zeichen von Interaktion. Kommen wir jetzt zur Berechnung von Interaktionseffekten. In unserem Beispiel kommt nur die Interaktion AB in Frage. Diese Berechnung geht von relativ komplizierten Überlegungen aus, die hier nur angedeutet werden können. Sie basiert zunächst auf einem Vergleich der tatsächlich beobachteten Abweichung der arithmetischen Mittelwerte der Zellen x z (der Index z steht hier für Zelle, d.h. für alle Wertekombinationen der Variablen A und B) vom Gesamtmittelwert x mit der T Abweichung, die erwartet würde, wenn keine Interaktion existierte. Dann müßte diese nämlich gleich der Summe der Abweichungen der dazugehörigen Reihen- und Spaltenmittelwerte vom Gesamtmittelwert sein: ( x r − x ) + ( x s − x ) . T T Die Abweichung beider Werte voneinander ist dann: d r*s = ( x z − x T ) - [ ( x r − x T ) + ( x s − x T ) ] = x z − x r − x s + x T (15.1) Um zur Varianz zu kommen, werden diese Abweichungsmaße quadriert, mit der Zahl der Fälle in den Zellen nz gewichtet und summiert. Es ergibt sich: ∑ d 2r∗s = Fehler! Verweisquelle konnte nicht gefunden werden. nz ( x z − x r − x s + x T )2. (15.2) Das erste Glied in dieser Summe wird demnach berechnet: 5 ⋅ ( 2.300 − 2.000 − 2.700 + 2.500 )2 = 50.000 . Und insgesamt ergibt sich: ∑ d 2r∗s = SAQAB = 50.000 + 50.000 + 50.000 + 50.000 + 200.000 + 200.000 = 600.000. Fehler! Formatvorlage nicht definiert. 337 Dies ist der Wert, den Sie in Tabelle 15.2. als Sum of Squares2-Way Interactions finden. Teilt man den Betrag durch die zugehörige Zahl der Freiheitsgrade (= 2), so erhält man die Varianz s22-Way Interactions = 300.000. Abb. 15.3. Dialogbox "Einfache mehrfaktorielle ANOVA" Um den in Tabelle 15.2 angegebenen Output zu erhalten, gehen Sie wie folgt vor: > Wählen Sie "Statistik" "ANOVA Modelle > ", "Einfach mehrfaktoriell...". Die Dialogbox > > > > > "Einfache mehrfaktorielle ANOVA" erscheint ( Abb. 15.3). Wählen Sie die abhängige Variable (hier: EINK) aus der Variablenliste, und übertragen Sie diese in das Eingabefeld "Abh.Variable:". Wählen Sie die beiden Faktoren (hier: GESCHL und SCHUL) aus der Variablenliste, und übertragen Sie diese in das Eingabefeld "Faktore(n):". Markieren Sie den ersten Faktor (GESCHL). Klicken Sie auf die Schaltfläche "Bereich def. ...", und geben Sie in der sich öffnenden Dialogbox "Einfache mehrfaktorielle ANOVA: Bereich" den niedrigsten (Minimum) und den höchsten (Maximum) als Gruppe in die Analyse einbezogenen Wert für diesen Faktor ein (hier: 1 und 2). Bestätigen Sie mit "Weiter". Wiederholen Sie dasselbe für den zweiten Faktor SCHUL. Starten Sie den Befehl mit "OK". 15.2 Faktorielle Designs mit ungleicher Zellhäufigkeit Dieselbe Analyse soll jetzt für die Daten der Datei ALLBUS90.SAV wiederholt werden. Hier sind aber die einzelnen Zellen, gemäß den Verhältnissen in der Realität, nicht gleich besetzt. Schulbildung der verschiedenen Kategorien ist unterschiedlich weit verbreitet. Aber auch Proportionalität zur Randverteilung ist nicht gegeben, denn Geschlecht und Schulbildung korrelieren miteinander. Es liegt demnach ein nicht-orthogonaler Design vor. Dies führt zu 338 Fehler! Formatvorlage nicht definiert. unterschiedlichen Ergebnissen, je nach Wahl des Analyseverfahrens. Außerdem soll die Variable "Alter" (ALT) als Kovariate eingeführt werden. Kovarianzanalyse. Die Einführung einer Kovariate heißt, daß zusätzlich zu den kategorialen Faktoren eine metrisch gemessene unabhängige Variable in die Analyse eingeführt wird. Dabei muß vorausgesetzt werden, daß zwischen Kovariate und Faktoren keine Korrelation besteht. (Zum Test dieser Voraussetzung verwenden Sie gegebenenfalls die Optionen des Menüs "Korrelation" Kap. 16). Die Einbeziehung der Kovariate kann hierarchisch auf dreierlei Weise geschehen: Vor Effekten ("Before effects"). Hier wird die Kovariate vor den Faktoren eingeführt. Zuerst wird eine Regressionsanalyse mit der Kovariaten durchgeführt, dann eine konventionelle Varianzanalyse. Dieses Verfahren sollte man wählen, wenn die Kovariaten dazu dienen, die durch sie hervorgerufene (extraneous) störende externe Variation der abhängigen Variablen zu beseitigen. Durch eine vorgeschobene Regressionsanalyse können dann die bereinigten Werte der abhängigen Variablen für die Ermittlung der eigentlich interessierenden Effekte der Faktoren benutzt werden. Mit Effekten ("With effects"). Die Kovariate werden zusammen mit den Faktoren eingeführt. Dies wählt man, wenn die Faktoren und die Kovariate gleichermaßen als unabhängige Variablen von Interesse sind. Dann wird der Effekt jedes einzelnen Faktors und jeder einzelnen Kovariaten korrigiert um den aller anderen berechnet. (Entspricht dem Ergebnis einer Regressionsanalyse mit nicht-metrischen Daten als Dummy Variablen, Kap. 17.3.) Nach Effekten ("After Effects"). In diesem Falle wird zuerst die Varianzanalyse mit den Faktoren und anschließend eine Regressionsanalyse für die Kovariate durchgeführt. Diesen Ansatz wählt man, wenn die Kovariate von primärem Interesse sind, ihre Effekte aber korrigiert um die Effekte einer oder mehrerer nicht-metrischer Variablen errechnet werden sollen. In unserem Beispiel soll das zweite Verfahren gewählt werden. Alter kann als gleichwertige unabhängige Variable neben "Geschlecht" und "Schulbildung" bei der Bestimmung des Einkommens gelten. Zur Durchführung der Analyse gehen Sie wie folgt vor: > Wählen Sie zunächst die Befehlsfolge "Statistik", "ANOVA Modelle > ", "Einfach mehrfaktoriell...". Es öffnet sich die bekannte Dialogbox ( Abb. 15.3). > Geben Sie dann - wie oben beschrieben - die Faktoren (hier GESCHL und SCHUL2) ein, und > > definieren Sie deren höchsten und niedrigsten Wert zur Festlegung der analysierten Gruppen (im Beispiel 1 bis 2 bzw. 2 bis 4). Wählen Sie die als Kovariate benutzte Variable aus der Variablenliste (hier: ALT), und übertragen Sie diese in das Eingabefeld "Kovariate(n)". Klicken Sie auf die Schaltfläche "Optionen...". Die Dialogbox "Einfache mehrfaktorielle ANOVA: Optionen" öffnet sich ( Abb. 15.4). Fehler! Formatvorlage nicht definiert. 339 Abb. 15.4. Dialogbox "Einfache mehrfaktorielle ANOVA: Optionen" > Durch Anklicken einer der drei Optionsschalter in der Gruppe "Methode" bestimmen Sie, nach welcher Methode die Effekte berechnet werden. (Beachten Sie, daß bei der Methode "Regression" die Reihenfolge der Einführung der Kovariate nicht beeinflußbar ist. Ebenso sind nicht alle Statistiken abrufbar.) Verfügbare Methoden sind: Regression ("Unique"). Wird auch als Regressions-Modell bezeichnet. Alle Effekte werden simultan auf ihren Einfluß untersucht. Eine Reihenfolge der Effekte kann daher nicht festgelegt werden. Von den Statistiken sind nur Kovarianzkoeffizienten abrufbar. Dieses Verfahren ist voreingestellt. Hierarchisch. Es gibt eine hierarchische Reihenfolge von Faktoren und Kovariaten. Alle drei Reihenfolgen der Einführung von Kovariaten sind möglich. Wenn die Voreinstellung der Reihenfolge benutzt wird ("Vor Effekten"), werden die Kovariate nur um die Effekte der ihnen in der Liste vorangehenden anderen Kovariate korrigiert, die Haupteffekte nur um die der in der Liste vorangehenden Kovariate und Haupteffekte. Die Interaktionseffekte werden nicht hierarchisch berechnet, sondern korrigiert um alle Effekte der gleichen oder niedrigerer Ordnung. Experimentell. Differiert vom hierarchischen Ansatz bei der Behandlung der Kovariate und der Haupteffekte, nicht der Interaktionen. (Wird die Voreinstellung "Vor Effekten" benutzt, erfolgt die Berechnung in der Reihenfolge Kovariate, Haupteffekte, 2-Weg-Interaktion usw.) Kovariate werden nur hinsichtlich anderer Kovariate, Haupteffekte nur hinsichtlich der Effekte der Kovariaten (im Unterschied zum hierarchischen aber aller und nicht nur der in der Liste vorangehenden) und anderer Haupteffekte (im Unterschied zum hierarchischen aber aller und nicht nur der in der Liste vorangehenden) korrigiert. > Durch Anklicken einer der Optionsschalter der Gruppe "Wechselwirkungen bis" ( Abb. 15.4) bestimmen Sie, bis zu welcher Ebene höchstens Interaktionen berechnet werden. Im Beispiel wird das hierarchische Modell verwendet. Als maximale Interaktionsebene ist "2-fach" ausgewählt. Das ist bei zwei Faktoren sowieso die höchste, nämlich die einzige, Interaktionsebene. Würde eine höhere gewählt, würde SPSS von selbst nur bis zu dieser Ebene berechnen. Den Output sehen Sie in Tabelle 15.3. Die Ergebnisse zeigen zunächst in der Zeile "2-Way Interactions", daß keine signifikanten Interaktionen vorliegen (Sig of F > α = 0 , 05 ). Daher ist die Signifikanzprüfung der Haupteffekte 340 Fehler! Formatvorlage nicht definiert. sinnvoll. Diese haben in ihrer Kombination (Zeile: "Main Effects") eine signifikante Wirkung. Ebenso sind die Haupteffekte der beiden Faktoren Geschlecht (Zeile: "GESCHL") und Schulbildung (Zeile: "SCHUL2") signifikant. Keine signifikante Wirkung hat dagegen die Kovariate Alter (Zeile: "ALT"). Zur Erläuterung der Unterschiede der drei mit "Methode" wählbaren Verfahren sind die Ergebnisse der drei Verfahren für dieselbe Analyse - ohne Kovariate - in Tabelle 15.4 nebeneinander gestellt. Wie man sieht, unterscheiden sich die Ergebnisse bei der erklärten Variation (" Sum of Squares Explained") und der entsprechenden F-Statistik nicht. Ebensowenig beim unerklärten Rest ("Sum of Squares Residual"). Dasselbe gilt auch für die 2-Weg-Interaktion. Diese wird ja auch bei allen drei Verfahren gleich berechnet, nämlich nicht hierarchisch, sondern um alle Effekte korrigiert. Unterschiede zeigen sich aber bei den Haupteffekten insgesamt ("Main Effects") sowie den beiden Haupteffekten für die Faktoren GESCHL (Variable A) und SCHUL2 (Variable B). Wie die Unterschiede entstehen, kann zunächst durch einen Vergleich des experimentellen und hierarchischen Modells erklärt werden. Beide Modelle berechnen zunächst auf gleiche Weise die durch die Variablen A und B und Interaktion gemeinsam erklärte Abweichungsquadratsumme. Im experimentellen Modell (Tab. 15.5) wird dann die Abweichungsquadratsumme für A und B gemeinsam berechnet. Sodann die Abweichungsquadratsummen für A und B separat. Die korrigierten Abweichungsquadratsummen von A und B ergeben sich schließlich durch Differenzbildung. Die korrigierte Abweichungsquadratsumme von A = Tabelle 15.3. Ergebnisse einer hierarchischen Varianzanalyse für die Beziehung zwischen Einkommen, Schulabschluß und Geschlecht * * * A N A L Y S I S O F V A R I A N C E * * * EINK BEFR.: MONATLICHES NETTOEINKOMMEN by GESCHL GESCHLECHT, BEFRAGTE<R> SCHUL2 Schulbildung recodet with ALT ALTER, BEFRAGTE<R> HIERARCHICAL sums of squares Covariates entered WITH main effects Source of Variation Sum of Squares DF Mean Square Main Effects GESCHL SCHUL2 ALT (Covar) 42333132 30919670 11203697 209765 4 1 2 1 10583283,076 30919670,355 5601848,650 209764,649 10,233 29,897 5,417 ,203 ,000 ,000 ,005 ,653 91479 91479 2 2 45739,382 45739,382 ,044 ,044 ,957 ,957 42424611 6 7070768,511 6,837 ,000 139619197 135 1034216,273 2-Way Interactions GESCHL SCHUL2 Explained Residual F Sig of F 341 Fehler! Formatvorlage nicht definiert. Total 182043808 141 1291090,836 Tabelle 15.4. Ergebnisse der drei Modelle der Mehr-Weg-Varianzanalyse für die Beziehung zwischen Einkommen, Schulabschluß und Geschlecht Hierarchical Experimental Unique Model Model Model Source of Variation F Main Effects 13,656 GESCHL 27,730 SCHUL2 5,448 2-Way Interactions ,040 GESCHL SCHUL2 ,040 Explained Sum of Squares F Sum of Squares Sum of Squares F 40046906 12,983 42123368 13,656 42123368 25215720 24,524 30919670 30,071 28512606 10559924 5,135 11203697 5,448 11203697 82652 ,040 82652 ,040 82652 82652 ,040 82652 ,040 82652 42206020 8,210 42206020 8,210 42206020 Residual 139837788 139837788 139837788 Total 182043808 182043808 182043808 Gemeinsame Abweichungsquadratsumme von A und B minus Abweichungsquadratsumme von B. Umgekehrt für B. Tabelle 15.5. Berechnungsschema experimentelles Modell Quelle der Variation (1) SAQ verursacht von A , B und A*B (saturiertes Modell) (2) SAQ verursacht von A und B (additives Modell) (a) SAQ verursacht durch A, korrigiert nach B (b) SAQ verursacht durch B, korrigiert nach A (3) AQ verursacht durch A*B-Interaktion (4) SAQ residual Abweichungsquadratsumme SAQA,B,AB SAQA,B SAQ A ,B − SAQ B SAQ A ,B − SAQ A SAQ A ,B,AB − SAQ A ,B SAQ T − SAQ A ,B,AB 342 Fehler! Formatvorlage nicht definiert. Dagegen werden im hierarchischen Ansatz die von A verursachten Abweichungsquadrate unkorrigiert berechnet und nur die von B verursachten Abweichungsquadrate korrigiert. Die Abweichungsquadrate für A unterscheiden sich deshalb, die für B nicht. Für A fallen sie beim hierarchischen Ansatz höher aus. Beide addieren in diesem Ansatz auf den Wert der Haupteffekte insgesamt, weil ja der Wert von B einfach durch Differenzbildung zwischen dem Wert für A und des Haupteffekts insgesamt zustande kam. Dagegen trifft das beim klassischen Modell nicht zu. Denn hier wurden zwei verschiedene Werte vom Wert der Haupteffekte insgesamt abgezogen. Der entsprechend veränderte Ausschnitt aus dem Berechnungsschema für das hierarchische Modell sieht dann wie folgt aus: Quelle der Variation (2) SAQ verursacht von A und B (additives Modell) (a) SAQ verursacht durch A (b) SAQ verursacht durch B, korrigiert nach A Abweichungsquadratsumme SAQAB SAQA SAQ A ,B − SAQ A Dem Unique Modell (Regressionsmodell) dagegen liegt folgendes Berechnungsschema zugrunde: Quelle der Variation (2) SAQ verursacht von A und B (additives Modell), korrigiert nach AB (a) SAQ verursacht durch A, korrigiert nach B und AB (b) SAQ verursacht durch B, korrigiert nach A und AB (3) SAQ verursacht durch A*B-Interaktion, korrigiert nach A und B Abweichungsquadratsumme SAQ A ,B,AB − SAQ AB SAQ A ,B,AB − SAQ B,AB SAQ A ,B,AB − SAQ A ,AB SAQ A ,B,AB − SAQ A ,B 15.3 Multiple Klassifikationsanalyse (MCA) Die ANOVA-Tabelle ermöglicht zunächst generelle Signifikanztests für die einzelnen Effekte. Ein signifikanter Wert besagt allerdings lediglich, daß wenigstens eine der Kategorien des Faktors vom Gesamtmittelwert signifikant abweicht. Um die genaueren Einflußbeziehungen zu klären, sind dagegen genauere Betrachtungen des Beziehungsgeflechtes nötig. Dazu bietet ANOVA das Instrument der multiplen Klassifikationsanalyse (MCA) an. (Beim Regressionsansatz nicht verfügbar.) Anders als bei den multiplen Vergleichsprozeduren von "Einfaktorielle ANOVA", werden aber nicht Mittelwertdifferenzen von Gruppen auf Signifikanz überprüft, sondern es geht lediglich um eine erleichterte Beurteilung der Mittelwertdifferenzen der einzelnen Gruppen vom Gesamtmittelwert. Zum zweiten ermöglicht die ANOVA-Tabelle eine Einschätzung des durch die einzelnen Effekte und die Effekte insgesamt erklärten Anteils der Varianz. Die für letzteren Zweck benötigten Eta- bzw. Beta-Werte werden aber nur auf zusätzliche Anforderung zusammen mit der multiplen Klassifikationsanalyse ausgegeben. Sowohl die Mittelwertabweichungen als auch die Eta- bzw. Beta-Werte werden sowohl in unkorrigierter Form als auch in korrigierter Form, d.h. unter Konstanthaltung der anderen (möglicherweise als Störvariablen fungierenden) Variablen angeboten. Wenn ein nicht-orthogonaler Design vorliegt, die Faktoren also nicht von vornherein unabhängig wirken, ist die Veränderung der Ergebnisse zwischen unkorrigierten und korrigierten Werten von besonderem Interesse. Es läßt sich Fehler! Formatvorlage nicht definiert. 343 daraus entnehmen, inwiefern die Einflüsse der Faktoren (und der Kovariaten) voneinander unabhängig sind oder sich gegenseitig überlagern. Es soll für unser Beispiel (inklusive Kovariate "Alter") eine multiple Klassifikationsanalyse durchgeführt werden. Um die multiple Klassifikationsanalyse anzufordern, gehen Sie wie folgt vor: > Klicken > Sie in der Dialogbox "Einfache mehrfaktorielle ANOVA: ( Abb. 15.4) in der Box "Statistiken" auf das Kontrollkästchen "MCA". Bestätigen Sie mit "Weiter" und "OK". Optionen" Für unser Beispiel ergibt sich der Output von Tabelle 15.6. Wie man sehen kann, werden in diesem Output wichtige Angaben über die Faktoren zusammengefaßt. Für die Kovariate finden sich keine Angaben. Sie gehen ebenso wie die Interaktionen nur in Form von Korrekturen für die Haupteffekte in die Tabelle ein. Es werden für die Haupteffekte in den Spalten zwei Informationen ausgegeben. Die Abweichung jedes einzelnen Gruppenmittelwertes vom Gesamtmittelwert ("Dev'n"). Dann die jeweiligen Eta- bzw. Beta-Werte für den jeweiligen Haupteffekt. Beides wird zunächst unkorrigiert ("Unadjusted"), dann korrigiert um die Einflüsse der anderen unabhängigen Variablen ("Adjusted for Independents") und zuletzt korrigiert um die zusätzlichen Einflüsse der Kovariaten ("Adjusted for Independents + Covariates") dargestellt. Anstelle der unkorrigierten Eta-Werten treten dabei die korrigierten Beta-Werte. Betrachten wir zunächst die unkorrigierten Abweichungen. Man erkennt, daß die Einkommen der Männer um 410,79 DM positiv vom Gesamtmittelwert, die der Frauen um 530,06 DM negativ davon abweichen. Das Geschlecht hat also einen Einfluß auf das Einkommen. Dasselbe folgt für die Schulbildung. Da weicht das Einkommen der Personen mit Hauptschulabschluß negativ, das der Personen mit "Mittlerer Reife" und mit "Abitur/Fachhochschulreife" positiv vom Gesamtmittelwert ab. Das Einkommen der Personen mit "Abitur/Fachhochschulreife" ist aber etwas geringer. Tabelle 15.6. Tabelle der multiplen Klassifikationsanalyse für die Beziehung zwischen Einkommen, Schulbildung und Geschlecht bei Verwendung des hierarchischem Modells und der Berechnung der Kovariaten mit Effekten * * M U L T I P L E S * * EINK GESCHL SCHUL2 with ALT by Grand Mean = C L A S S I F I C A T I O N A N A L Y S I BEFR.: MONATLICHES NETTOEINKOMMEN GESCHLECHT, BEFRAGTE<R> Schulbildung recodet ALTER, BEFRAGTE<R> 2091,83 Adjusted for Adjusted for Independents Unadjusted Covariates Independents + 344 Fehler! Formatvorlage nicht definiert. Variable + Category Beta GESCHL 1 MAENNLICH 2 WEIBLICH N Dev'n 80 62 410,79 -530,06 Eta Dev'n 395,78 -510,68 ,41 ,40 SCHUL2 2 Hauptschulabschluß u 3 Mittlere Reife 4 Abitur/Fachhochschul 74 33 35 Beta -284,51 440,74 185,97 400,08 -516,23 ,40 -263,80 374,59 204,57 ,27 Dev'n -281,66 388,63 229,09 ,25 ,26 Multiple R Squared ,233 Multiple R ,482 ,231 ,481 Wie wir wissen, können sich bei korrelierten Variablen Einflüsse überlagern. Es können daher falsche Eindrücke über die Ursache-Wirkungs-Verhältnisse entstehen. Deshalb ist es sinnvoll, bei der Analyse der Zusammenhänge mögliche Störvariablen unter Kontrolle zu halten. Das geschieht zunächst für den Einfluß der jeweils anderen unabhängigen Variablen, später auch unter Einbeziehung der Kovariaten. Interessant ist die Beobachtung, ob und gegebenenfalls wie sich dann die Beziehungen verändern. Wird die andere unabhängige Variable kontrolliert (Spalte : "Adjusted for Independents Dev´n), sehen wir, daß beim Geschlecht die Abweichungen vom Gesamtmittelwert etwas geringer ausfallen. Daraus können wir schließen, daß ein kleiner Teil der zwischen den Geschlechtern festgestellten Einkommensunterschiede nicht direkt auf das Geschlecht, sondern auf die etwas unterschiedliche Ausbildungsstruktur von Männern und Frauen zurückzuführen ist. Was die Bedeutung des Schulabschlusses betrifft, sinkt die Differenz bei "Hauptschulabsolventen" und Personen mit "Mittlerer Reife". Daraus kann geschlossen werden, daß ein kleiner Teil der Abweichung dieser Gruppen vom Gesamtmittelwert nicht auf die Schulbildung, sondern die unterschiedliche Zusammensetzung nach Geschlecht zurückzuführen ist. Bei den Personen mit "Abitur/Fachhochschulreife" steigt dagegen die Differenz sogar noch. Auch hier hatte demnach die Geschlechtszusammensetzung eine gewisse Bedeutung. Anders ausgedrückt, in der ersten und letzten Gruppe sind wohl überproportional viele Frauen enthalten. Deshalb ist z.T. ihr Einkommen etwas niedriger. Betrachtet man sie als wären die Frauen und Männer gleich verteilt, steigt bei beiden Gruppen das Einkommen im Durchschnitt. Die erste Gruppe nähert sich dadurch mehr dem Gesamtdurchschnitt, die letztere entfernt sich dadurch etwas mehr von diesem. In der mittleren Gruppe sind Männer etwas stärker vertreten. Wird sie betrachtet, als seien die Geschlechter proportional vertreten, fällt das Durchschnittseinkommen etwas und nähert sich mehr dem Gesamtdurchschnitt. Kommt jetzt das Alter als Kovariate hinzu, verändern sich die Werte wiederum etwas, wie man in Spalte "Adjusted for Independents + Covariates Dev´n" sieht. Das liegt daran, daß das Alter Fehler! Formatvorlage nicht definiert. 345 sowohl mit dem Geschlecht der Erwerbstätigen als auch der Schulbildung korreliert und ebenfalls einen gewissen Einfluß auf das Einkommen hat. Kürzer zusammengefaßt kann man das anhand der Eta- bzw. Beta-Koeffizienten sehen. Diese geben jeweils ein Maß für die Enge des Zusammenhanges zwischen einem Faktor und der Kriteriumsvariablen (Korrelationskoeffizient). Eta ist der unkorrigierte Koeffizient. BetaKoeffizienten sind spezielle partielle Korrelationskoeffizienten, die für die korrigierten Zusammenhänge dasselbe ausdrücken wie Eta für die unkorrigierten. Quadriert man Eta bzw. Beta, so bekommt man zwei unterschiedliche Determinationskoeffizienten. Diese geben den Anteil der erklärten Varianz an (Eta2 aus den unkorrigierten Werten berechnet, Beta2 aus den korrigierten). Berechnen lassen sich die Eta-Koeffizienten nach der Formel: Eta 2 = SAQ Effekt SAQgesamt (15.3) Setzten wir die Daten aus der ANOVA-Tabelle für das hierarchische Modell ein, so ist etwa Eta2Geschlecht = 30919670 : 182043808 = 0,1698 und Eta = 0,41. (Beachten Sie, daß bei diesem Modell nur der Einfluß von Geschlecht unkorrigiert berechnet ist. Deshalb kann man nicht dasselbe für die Schulbildung wiederholen.) Wichtige Informationen ergibt der Vergleich der unkorrigiert berechneten Eta- mit den korrigierten Beta-Koeffizienten. Gegenüber dem Eta-Koeffizienten sinkt bei Konstanthaltung der Einflußvariablen "Schulbildung" der Beta-Koeffizient für den Zusammenhang zwischen "Geschlecht" und "Einkommen" etwas von 0,41 auf 0,40. Beim Faktor "Schulbildung" sinkt der Wert bei Konstanthaltung von "Geschlecht" etwas von 0,27 auf 0,25 und steigt bei zusätzlicher Konstanthaltung von "Alter" wieder etwas auf 0,26 an. Aus diesem Vergleich kann man zweierlei entnehmen: Die wechselseitige Korrelation der Variablen wirkt sich nur geringfügig aus. Die beiden Faktoren wirken praktisch unabhängig voneinander. Die Wirkung des Faktors "Geschlecht" ist stärker als die des Faktors "Schulbildung". Abschließend sind noch das multiple R bzw. das multiple R2 ("Multiple R Squared") zu betrachten. Sie geben dieselben Informationen für das Gesamtmodell, d.h. die kombinierte Wirkung aller Faktoren, und zwar bei korrigierter Berechnung. Die Werte für die beiden Korrekturarten unterscheiden sich nur minimal. Alter hat praktisch keine verzerrende Wirkung. Das multiple R beträgt 0,481. Es ergibt sich also keinesfalls aus der Addition der Beta-Werte für die beiden einzelnen Komponenten, sondern der Erklärungswert des Modells insgesamt ist geringer. Insgesamt werden durch das Modell ca. 23 % der Gesamtvarianz erklärt ("Multiples R Squared"). Weitere Optionen in der Gruppe "Statistiken" Mittelwert und Anzahl. Mit dieser Option kann eine übersichtliche Ausgabe der Mittelwerte der Gruppen und der Fallzahlen in den Gruppen angefordert werden. Koeffizienten der Kovariaten. Bei Anforderung dieser Option werden unter der ANOVA-Tabelle die (nicht standardisierten) Regressionskoeffizienten für die Kovariate angegeben. Weitere Möglichkeiten bei Verwenden der Befehlssyntax Mit dem Befehl /MISSING=INCLUDE kann festgelegt werden, daß die fehlenden Werte in die Analyse einbezogen werden sollen. 346 Fehler! Formatvorlage nicht definiert. Mit dem VARIABLES-Kommando kann eine Liste von mehreren abhängigen Variablen angegeben werden. (Jeweils eine wird allerdings nur in die Analyse einbezogen.) Außerdem können, durch Schrägstriche (/) getrennt, mehrere Designs spezifiziert werden.