Einführung in die Kovarianzanalyse (ANCOVA)

Werbung
Arbeitsunterlage
Einführung in die Kovarianzanalyse
(ANCOVA)
ARGE-Bildungsforschung
Jänner 2009
Klaus SAMAC
2
Einführung in die Kovarianzanalyse (ANCOVA)1
Die Varianzanalyse ist ein Verfahren, das die Wirkung einer (oder mehrerer) unabhängiger
Variable auf eine (oder mehrere) abhängige Variable untersucht. Für die unabhängige Variable wird dabei lediglich Nominalskalierung verlangt, während die abhängige Variable metrisches Skalenniveau aufweisen muss. Die Varianzanalyse ist das wichtigste Analyseverfahren
zur Auswertung von Experimenten. Typische Anwendungsbeispiele sind:
-
Verbessern Brain-Gym-Übungen aus dem Programm der Edu-Kinestetik die Konzentrationsfähigkeit von Volksschülern?
Unterscheiden sich die Englischleistungen von Buben und Mädchen in Stadthauptschulen, Landhauptschulen und Gymnasien?
Haben attraktive Zusatzangebote von Schulen einen Einfluss auf das von Schülern
wahrgenommene Sozialklima, die Schulleistungen, sowie die Elternzufriedenheit?
Gemeinsam ist allen Beispielen, dass ihnen eine Vermutung über die Wirkungsrichtung der
Variablen zugrunde liegt. Wie in der Regressionsanalyse, die einen Erklärungszusammenhang
der Art
Y = f(X1 , X2 , …, X J )
über metrische Variable herstellt, formuliert auch die Varianzanalyse einen solchen Zusammenhang, allein mit dem Unterschied, dass die Variablen X1, X2, …, XJ nominal skaliert sein
dürfen. Die Beispiele verdeutlichen dies.
So nimmt man im ersten Beispiel an, dass ein bestimmtes Treatment als unabhängige Variable mit den beiden Ausprägungen „Übungsprogramm“ und „kein Übungsprogramm“ einen
Einfluss auf die Konzentrationsfähigkeit hat. Die Ausprägungen der unabhängigen Variablen
beschreiben dabei stets alternativ Zustände. Demgegenüber ist die abhängige Variable, hier
die Konzentrationsfähigkeit metrisch skaliert. Gemeinsam ist weiterhin allen Anwendungsbeispielen, dass sie experimentelle Situationen beschreiben: Feldexperimente im zweiten und
dritten Beispiel, ein Laborexperiment im ersten Beispiel. Die Varianzanalyse ist das klassische Verfahren zur Analyse von Experimenten mit Variablen des bezeichneten Skalenniveaus.
Die genannten Beispiele unterscheiden sich durch die Zahl der Variablen. So wird im ersten
Beispiel die Wirkung einer unabhängigen Variablen (Treatment) auf eine abhängige Variable
(Konzentrationsfähigkeit) untersucht. Im zweiten Beispiel wird demgegenüber die Wirkung
von zwei unabhängigen Variablen (Schulart und Geschlecht) auf eine abhängige Variable
(Englischleistungen) analysiert. Im dritten Beispiel gilt das Interesse ausschließlich der Wirkung einer unabhängigen Variablen (attraktive Zusatzangebote) auf drei abhängige Variablen
(Sozialklima, Schulleistungen, Elternzufriedenheit).
Die unabhängigen Variablen werden als Faktoren bezeichnet, die einzelnen Ausprägungen als
Faktorstufen. Die Typen der Varianzanalyse lassen sich nach der Zahl der Faktoren differenzieren. Wenn eine abhängige Variable und eine unabhängige gegeben sind, spricht man von
einfaktorieller, entsprechend bei zwei unabhängigen von zweifaktorieller Varianzanalyse usw.
Bei mehr als einer abhängigen Variablen spricht man von mehrdimensionaler (multivariater)
Varianzanalyse.
1
Textteile entnommen aus: BACKHAUS, Klaus, ERICHSON, Bernd, PLINKE, Wulff, WEIBER, Rolf (2008): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung (12., vollst. überarb. Auflage). Berlin: Springer, S. 151-178
Jänner 2009
Klaus SAMAC
3
Exemplarisches Beispiel
Problem
Der Leiter einer Supermarktkette will die Wirkung verschiedener Arten der Warenplatzierung
überprüfen. Er wählt dazu Margarine in der Becherverpackung aus, wobei ihm drei Möglichkeiten der Regalplatzierung offen stehen:
-
Platzierung im Normalregal der Frischwarenabteilung
Platzierung im Normalregal der Frischwarenabteilung und Zweitplatzierung im
Fleischmarkt
Platzierung im Kühlregal der Frischwarenabteilung
Anschließend wird folgendes experimentelle Design entworfen:
Aus den insgesamt vorhandenen Supermärkten werden drei weitgehend vergleichbare Supermärkte des Unternehmens ausgewählt, die sich durch unterschiedliche Präsentation von Margarine unterscheiden. In einem Zeitraum von 5 Tagen wird in jedem der drei Supermärkte
jeweils eine Form der Margarine-Präsentation durchgeführt. Die Auswirkungen der Maßnahmen werden jeweils in der Größe „kg Margarineabsatz pro 1.000 Kassenvorgänge“ erfasst.
Die folgende Tabelle zeigt die Ergebnisse der Datenerhebung:
Platzierung in
3 Supermärkten
Montag
Dienstag
Mittwoch
Donnerstag
Freitag
Normalregal
47
39
40
46
45
Zweitplatzierung
68
65
63
59
67
Kühlregal
59
50
51
48
53
Aufgabe 1
1. Definieren Sie für das o.a. Problem eine passende Datenmatrix in SPSS.
2. Tragen Sie die Daten der Tabelle ein.
3. Berechnen Sie die Mittelwerte (gesamt und getrennt nach Platzierung).
Lösung
Sie erhalten drei Teilstichproben mit jeweils genau fünf Beobachtungswerten; die Teilstichproben haben also den gleichen Umfang. Es fällt ins Auge, dass die drei Supermärkte unterschiedliche Erfolge im Margarineabsatz aufweisen. Die Mittelwerte zeigt folgende Tabelle:
Platzierung der Margarine
Mittelwert der Absatzmenge
Normalregal
43,40
Zweitplatzierung
64,40
Kühlregal
52,20
Gesamt
53,33
Der Leiter des Unternehmens will nun wissen, ob die unterschiedlichen Absatzergebnisse in
den drei Supermärkten auf die Variation der Warenplatzierung zurückzuführen sind. Nehmen
wir zur Vereinfachung an, dass keine Einflussgrößen „von außen“ (d. h. außerhalb der experimentellen Anordnung, wie z. B. Preiseinflüsse, Konkurrenzeinflüsse, Standorteinflüsse) das
Ergebnis mitbestimmt haben. Dann dürften, wenn kein Einfluss der Art der Warenplatzierung
auf den Absatz bestünde, auch keine größeren Unterschiede zwischen den Mittelwerten der
Jänner 2009
Klaus SAMAC
4
drei Supermärkte auftreten. Umgekehrt kann bei Vorliegen von Mittelwertunterschieden auf
das Wirksamwerden der unterschiedlichen Warenplatzierung geschlossen werden.
Platzierung in
3 Supermärkten
Montag
Dienstag
Mittwoch
Donnerstag
Freitag
Mittelwert
Normalregal
47
39
40
46
45
43,40
Zweitplatzierung
68
65
63
59
67
64,40
Kühlregal
59
50
51
48
53
52,20
Streuung der Beobachtungswerte
Nun zeigen die einzelnen Beobachtungswerte, dass sie deutlich um den Mittelwert je Supermarkt streuen. Diese Streuung ist allein auf andere absatzwirksame Einflussgrößen als die
Warenplatzierung zurückzuführen.
Absatzmenge
80
Zweitplatzierung
kg pro 1000 Kassenvorgänge
70
60
Kühlregal
50
Normalregal
40
30
20
10
0
1
2
3
4
5
Tag
Streng genommen muss die vereinfachende Annahme „keine Einflussgrößen von außen“ also
genauer formuliert werden: Es gibt Einflüsse „von außen“, jedoch geht die Varianzanalyse
davon aus, dass diese Einflüsse bis auf zufällige Abweichungen in allen drei Supermärkten
gleich sind.
Wenn nun der Frage nachgegangen wird, ob die Warenplatzierung einen signifikanten Einfluss auf den Absatz hat, dann müssen die im Modell nicht erfassten Einflüsse von den im
Modell erfassten Einflüssen getrennt werden. Dies geschieht, indem gefragt wird, ob sich ein
bestimmter Beobachtungswert, z. B. der Wert y11 = 47, „zufällig“ (d.h. nur durch nicht erfasste äußere Einflüsse erklärt) oder „systematisch“ (d.h. durch die Warenplatzierung erklärt) vom
Gesamtmittelwert 53,33 unterscheidet.
Wenn die im Modell nicht erfassten Einflüsse sich in allen drei Supermärkten bis auf zufällige
Abweichungen gleich stark auswirken, dann drückt sich in den Abweichungen der Mittelwerte je Supermarkt vom Gesamtmittelwert die untersuchte Einflussgröße „Warenplatzierung“
aus.
Jänner 2009
Klaus SAMAC
5
Grafische Erläuterung
Die obige Grafik lässt sich auch so interpretieren: Der Prognosewert für den Margarineabsatz
ist yM, wenn kein Einfluss der Warenplatzierung vorhanden wäre. Nimmt man einen Einfluss
der Warenplatzierung auf den Absatz an, dann ist der Prognosewert für den Margarineabsatz
je nach Art der Platzierung y1, y2 oder y3. Die Abweichungen vom Prognosewert sind auf zufällige äußere Einflüsse zurückzuführen und somit nicht erklärt. Die Gesamtabweichung der
Mittelwerte lässt sich also in zwei Komponenten zerlegen (sog. Streuungszerlegung ! Varianzanalyse):
Gesamtabweichung = erklärte Abweichung + nicht erklärte Abweichung
Analyse der Abweichungsquadrate (Quadrate der Abweichungen vom Mittelwert)
Diese Zerlegung der Gesamtabweichung je Beobachtung lässt sich in der Varianzanalyse auf
die Summe der Gesamtabweichungen aller Beobachtungen übertragen (SS = sum of squares).
Gesamtabweichung
=
erklärte Abweichung
Summe der quadrierten
Gesamtabweichungen
=
Summe der quadrierten
Abweichungen zwischen
den Faktorstufen
SSt(otal)
= SSb(etween)
+
nicht erklärte Abweichung
+
Summe der quadrierten
Abweichungen innerhalb
der Faktorstufen
+
SSw(ithin)
Die Quadratsumme der Abweichungen als Maß für die Streuung wird um so größer, je größer
die Zahl der Einzelwerte ist. Um eine aussagefähigere Schätzgröße für die Streuung zu erhalten, wird die SS durch die Zahl der Einzelwerte vermindert um 1 geteilt. Somit erhält man die
Varianz, die unabhängig von der Zahl der Beobachtungswerte ist. Allgemein ist die (empirische) Varianz definiert als mittlere quadratische Abweichung (MS „mean sum of squares“):
Varianz MS =
Jänner 2009
SS
Zahl der Beobachtungen − 1
Klaus SAMAC
6
Freiheitsgrade
Die Größe im Nenner ist die Zahl der Freiheitsgrade df (degrees of freedom). Der Wert ergibt
sich aus der Zahl der Beobachtungswerte vermindert um 1, weil der Mittelwert, von dem die
Abweichungen berechnet wurden, aus den Beobachtungswerten selbst errechnet wurde. Demnach lässt sich immer einer der Beobachtungswerte aus den anderen Beobachtungswerten und
dem geschätzten Mittelwert errechnen, d.h. er ist nicht mehr „frei“. So wie die Gesamtquadratsumme in SSb und SSw aufgeteilt wurde, können auch die Freiheitsgrade aufgeteilt werden.
In unserem Beispiel haben wir 3 Faktorstufen mit je 5 Beobachtungen, d.h. 15 Beobachtungen
insgesamt. dft ist demnach 15 – 1 = 14. Da nun jede Faktorstufe 5 Beobachtungen enthält, von
denen nur 5 – 1 frei variieren können, ergeben sich bei drei Faktorstufen 3 · (5 – 1) Freiheitsgrade. Der Wert für dfw ist demnach 12. Bei 3 vorhandenen Faktorstufenmittelwerten können
nur 3 – 1 frei variieren. Demnach ist dfb = 2. Mit Hilfe der verschiedenen Freiheitsgrade können nun die Varianzen (a) zwischen den Faktorstufen und (b) innerhalb der Faktorstufen sowie (c) die Gesamtvarianz bestimmt werden.
Ausgehend von den bisher gesetzten vereinfachenden Annahmen über das Wirksamwerden
von den im Modell erfassten und von den im Modell nicht erfassten Einflussgrößen kann nun
gefolgert werden, dass SSb von der Warenplatzierung und SSw von den nicht erfassten Einflüssen bestimmt wird.
Ein Vergleich beider Größen kann Auskunft über die Bedeutung der unabhängigen Variablen
im Vergleich zu den nicht erfassten Einflüssen geben. Wenn bei gegebener Gesamtvarianz
(MSt(otal)) MSw Null wäre, dann könnte gefolgert werden, dass MSt allein durch die experimentelle Variable erklärt wird. Je größer MSw ist, desto geringer muss gemäß dem Grundprinzip
der Streuungszerlegung (SSt = SSb + SSw) der Erklärungsanteil der experimentellen Variablen
sein. Je größer demnach MSb im Verhältnis zu MSw ist, desto eher ist eine Wirkung der unabhängigen Variablen anzunehmen.
Aufgabe 2
1. Führen Sie im SPSS mit den Daten aus Aufgabe 1 eine Varianzanalyse durch.
2. Berechnen Sie die Effektgröße (Eta-Quadrat).
3. Interpretieren Sie die Ergebnisse.
Lösung
Abhängige Variable: Absatzmenge Margarine
Quelle
Quadratsumme
vom Typ III
df
Mittel der Quadrate
F
Signifikanz
Partielles
Eta-Quadrat
Korrigiertes Modell
1112,133
a
2
556,067
38,087
,000
,864
Konstanter Term
42666,667
1
42666,667
2922,374
,000
,996
1112,133
2
556,067
38,087
,000
,864
175,200 12
14,600
REGAL
Fehler
Gesamt
Korrigierte Gesamtvariation
43954,000 15
1287,333 14
a. R-Quadrat = ,864 (korrigiertes R-Quadrat = ,841)
In unserem Beispiel übersteigt MSb = 556,07 den Wert für MSw = 14,6 erheblich, so dass ein
Einfluss der unabhängigen Variablen Warenplatzierung vermutet werden kann. Die ermittelten mittleren quadratischen Abweichungen zwischen den und innerhalb der Faktorstufen können also dahingehend interpretiert werden, dass ein Einfluss des Faktors Warenplatzierung
vermutet werden kann. Um diese interpretierende Aussage über die Wirkung des Faktors statistisch prüfen zu können, werden MSb und MSw in folgende Beziehung gesetzt:
Jänner 2009
Klaus SAMAC
7
Femp =
MS b
556,067
(empirischer F-Wert) =
= 38,087
14,6
MS w
Den Maßstab zur Beurteilung des empirischen F-Wertes bildet die theoretische F-Verteilung.
Die F-Verteilung oder FISHER-Verteilung (nach Ronald Aylmer FISHER) ist die Wahrscheinlichkeitsverteilung einer stetigen Zufallsvariable n und ergibt sich als Quotient zweier ChiQuadrat-verteilter Zufallsvariablen. Sie besitzt zwei unabhängige Freiheitsgrade als Parameter
und bildet so selbst eine zwei-Parameter-Verteilungsfamilie. Als Test wird die F-Verteilung
verwendet, um festzustellen, ob die Grundgesamtheiten zweier oder mehrerer Stichproben die
gleiche Varianz haben (Varianzanalyse).
Ausgangspunkt der Prüfung ist die Nullhypothese (Ho): Es bestehen bezüglich des Margarineabsatzes keine Unterschiede in der Wirkung durch die Art der Warenplatzierung. Die Alternativhypothese H1 lautet: Es besteht bezüglich des Margarineabsatzes ein Unterschied in
den Wirkungen alternativer Arten der Warenplatzierung.
Die Prüfung erfolgt anhand eines Vergleichs des empirischen F-Wertes mit dem theoretischen
F-Wert lt. Tabelle. Die Tabelle der theoretischen F-Werte zeigt für jeweilige Vertrauenswahrscheinlichkeit einen Prüfwert. Seine Höhe hängt von der Zahl der Freiheitsgrade im Zähler
und von der Zahl der Freiheitsgrade im Nenner ab. Die Ermittlung des theoretischen F-Wertes
in unserem Beispiel führt zu df = 2 im Zähler und df = 12 im Nenner, d.h. zu dem theoretischen Wert 6, 93 (muss in einer Tabelle nachgeschlagen werden).
Empirischer und theoretischer F-Wert werden verglichen. Ist der empirische Wert größer als
der theoretische, dann kann die Nullhypothese verworfen werden, d.h. es kann ein Einfluss
des Faktors gefolgert werden. Theoretische F-Werte werden üblicherweise für Vertrauenswahrscheinlichkeiten von 90%, 95% und 99% in Tabellenform aufbereitet. Die materielle
Bedeutung der Vertrauenswahrscheinlichkeiten ist die Erfassung der grundsätzlich verbleibenden Restunsicherheit, dass eine Wirkung der unabhängigen Variablen angenommen wird,
obwohl tatsächlich der Einfluss nur zufälliger Natur ist.
Jänner 2009
Klaus SAMAC
8
Im Beispiel überschreitet der empirische F-Wert von 38,09 den theoretischen2 von 6,93 erheblich, so dass im Rahmen der gesetzten Annahmen die Nullhypothese verworfen, d.h. (mit einer Vertrauenswahrscheinlichkeit von 99 %) der Schluss gezogen werden kann, dass die Platzierung Einfluss auf die Absatzmenge hat. SPSS gibt die Irrtumswahrscheinlichkeit (α-Fehler,
Fehler 1. Art) an, mit der man sich irrt, wenn man die Alternativhypothese H1 annimmt, obwohl in der Wirklichkeit die Nullhypothese H0 gilt. In unserem Beispiel ist die Signifikanz
p < 0,001. Somit kann von einem signifikanten (bedeutsamen) statistischen Unterschied zwischen den 3 Platzierungen der Margarine hinsichtlich der Absatzmenge ausgegangen werden.
Die Effektgröße wird bei der nächsten Aufgabe behandelt.
Zweifaktorielle Varianzanalyse
Problem
Der Leiter der Supermarktkette will nicht nur wissen welchen Einfluss (1) die Warenplatzierung auf den Absatz hat, sondern auch, ob (2) die Verpackungsart den Absatz mitbestimmt.
Dazu wird das Experiment erweitert.
Bei drei Platzierungsarten und zwei Verpackungsarten („Becher“ und „Papier“) ergeben sich
genau 3 x 2 experimentelle Kombinationen der Faktorstufen. Dies ist daher ein 3x2-faktorielles Design. Die notwendige Zahl von Teilstichproben im Experiment erhöht sich also auf
sechs. Demnach werden sechs annähernd gleiche Supermärkte ausgesucht und wiederum wird
die vereinfachende Annahme gesetzt, dass mögliche äußere Einflüsse bis auf Zufallsabweichungen jeweils einen gleich starken Einfluss auf die 6 Teilstichproben haben. Folgende Absatzmengen in kg pro 1.000 Kassenvorgängen in sechs Supermärkten wurden erhoben:
Platzierung
Tag
Normalregal
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
Zweitplatzierung
Kühlregal
Verpackung
Becher
Papier
47
40
39
39
40
35
46
36
45
37
68
59
65
57
63
54
59
56
67
53
59
53
50
47
51
48
48
50
53
51
2
In einer F-Werte-Tabelle würde man bei einem Signifikanzniveau von 1 % und bei 2 Freiheitsgraden im Zähler
und 12 Freiheitsgraden im Nenner den theoretischen F-Wert von 6,93 ablesen können.
Jänner 2009
Klaus SAMAC
9
Aufgabe 3
1. Erweitern Sie Ihre SPSS-Datei mit den in der o.a. Tabelle stehenden Daten.
2. Suchen Sie Antworten auf die drei Fragen:
(a) Hat die Warenplatzierung Einfluss auf den Absatz? Wie groß ist der Effekt?
(b) Hat die Verpackung Einfluss auf den Absatz? Wie groß ist der Effekt?
(c) Besteht eine Wechselwirkung zwischen Verpackung und Warenplatzierung? Wie
groß ist der Effekt?
Lösung
Die Fragestellung der Varianzanalyse ist im faktoriellen Design gegenüber der einfachen Varianzanalyse erweitert. Zunächst werden die beiden Faktoren betrachtet. Falls für jede Kombination von Faktorausprägungen mehr als eine Beobachtung vorliegt (K > 1), erlaubt die
zweifaktorielle Varianzanalyse gegenüber der einfaktoriellen zusätzlich die Erfassung des
gleichzeitigen Wirksamwerdens zweier Faktoren, indem das Vorliegen von Wechselwirkungen (Interaktionen) zwischen den Faktoren getestet wird. So mag beispielsweise die Vermutung gerechtfertigt erscheinen, dass der durchschnittliche Absatz von Margarine in Becherform anders auf die Variation der Platzierung reagiert als die Papierverpackung, etwa, weil
ein Weichwerden der Margarine im „Normalregal“ eher auffällt als im Kühlregal.
Eine einfache und sehr anschauliche Methode, das Vorhandensein von Interaktion zu prüfen
ist ein Plot der Faktorstufenmittelwerte.
Keine Interaktionen liegen vor, wenn die Verbindungslinien der Mittelwerte (die hier nur zur
Verdeutlichung eingezeichnet sind) parallel laufen. Nichtparallele Verläufe sind ein klares
Indiz für das Vorhandensein und die Stärke von Interaktionen. Im vorliegenden Fall bietet
sich ein Anhaltspunkt für eine schwache Interaktion von Verpackung und Platzierung, da der
Wirkungsunterschied zwischen Becher und Papier im Kühlregal im Analyseergebnis nahezu
verschwindet, möglicherweise, weil dort von den Käufern ein Unterschied nicht wahrgenommen wird.
Jänner 2009
Klaus SAMAC
10
Analyse der Abweichungsquadrate (Quadrate der Abweichungen vom Mittelwert)
Die Absatzmenge wird bestimmt vom (1) Einfluss des Faktors Platzierung, (2) Einfluss des
Faktors Verpackungsart, (3) Einfluss der Interaktion zwischen den beiden Faktoren sowie (4)
Zufallseffekt nicht kontrollierter Einflüsse. Die Gesamtstreuung teilt sich im zweifaktoriellen
Design folgendermaßen auf:
Gesamtstreuung
SSt
Streuung zwischen den
Gruppen
SSb
(1) Streuung durch
Platzierung
SSA
(4) Streuung innerhalb der
Gruppen
SSw
(2) Streuung durch
Verpackung
SSB
(3) Streuung durch Wechselwirkung
von Platzierung und Verpackung
SSAxB
Berechnung mit SPSS
Anzahl der Fälle je Faktorstufe:
Faktoren
Faktorstufen
N
Verpackungsart
Becher
15
Papier
15
Normalregal
10
Zweitplatzierung
10
Kühlregal
10
Platzierung
Abhängige Variable: Absatzmenge
Quelle
Quadratsumme
vom Typ III
df
Mittel der
Quadrate
Korrigiertes Modell
2233,500a
5
Konstanter Term
76507,500
1
240,833
1
240,833
1944,200
2
972,100
VERPACK
REGAL
VERPACK * REGAL
Fehler
Gesamt
Korrigierte Gesamtvariation
446,700
F
Signifikanz
Partielles
Eta-Quadrat
45,045
,000
,904
76507,500 7715,042
,000
,997
24,286
,000
,503
98,027
,000
,891
2,444
,108
,169
48,467
2
24,233
238,000
24
9,917
78979,000
30
2471,500
29
a. R-Quadrat = ,904 (korrigiertes R-Quadrat = ,884)
Varianzzerlegung
SSt (Gesamtstreuung) = 2471,5
SSA (Streuung erklärt durch Platzierung – Haupteffekt Platzierung) = 1944,2
SSB (Streuung erklärt durch Verpackung – Haupteffekt Verpackung) = 240,833
SSAxB (Streuung erklärt durch Wechselwirkung – Interaktionseffekt) = 48,467
SSw (Reststreuung, innerhalb der Zellen) = 238,0
SSb (Abweichungen zwischen den Gruppenmitteln und dem Gesamtmittel) = 2233,5
Jänner 2009
Klaus SAMAC
11
Die Gesamtstreuung teilt sich im konkreten zweifaktoriellen Design folgendermaßen auf:
Gesamtstreuung
SSt = 2471,5
Streuung zwischen den
Gruppen
SSb = 2233,5
Streuung durch
Platzierung
SSA = 1944,2
Streuung innerhalb der
Gruppen
SSw = 238,0
Streuung durch
Verpackung
SSB = 240,833
Streuung durch Wechselwirkung von
Platzierung und Verpackung
SSAxB = 48,467
Die empirischen Varianzen (MS = „mean (sum of) squares“, mittlere quadratische Abweichung) werden berechnet, indem die Streuungen durch die Zahl der Freiheitsgrade dividiert
werden:
MSRegal =
1944,2
= 972,1
2
Die Ermittlung des empirischen F-Wertes erfolgt durch Division der MS der betrachteten Faktoren durch die MS der Reststreuung:
F=
972,1
= 98,027
9,917
Übersteigt der empirische F-Wert den theoretischen F-Wert, kann die Nullhypothese verworfen werden. SPSS gibt den p-Wert der Signifikanzprüfung gleich mit aus. In unserem Fall ist
für den Faktor Platzierung p < 0,001. Die Nullhypothese darf also zugunsten der Alternativhypothese verworfen werden.
Antworten
Hat die Warenplatzierung Einfluss auf den Absatz?
Ja, die Warenplatzierung hat einen signifikanten Einfluss auf den Absatz. Der alleinige
Faktor Platzierung klärt 89,1% der Absatzvarianz auf.
Hat die Verpackung Einfluss auf den Absatz?
Ja, die Verpackungsart hat einen signifikanten Einfluss auf den Absatz. Der alleinige
Faktor Verpackungsart klärt 50,3% der Absatzvarianz auf.
Besteht eine Wechselwirkung zwischen Verpackung und Warenplatzierung?
Nein, es lässt sich keine signifikante Interaktion zwischen den beiden Faktoren Platzierung und Verpackungsart nachweisen (Irrtumswahrscheinlichkeit p = 10,8%).
Mit dem gesamten Modell können 90,4% Varianz der abhängigen Variablen Absatzmenge
aufgeklärt werden.
Jänner 2009
Klaus SAMAC
12
Kovarianzanalyse
Eine Erweiterung der Varianzanalyse liegt in der Einbeziehung von Kovariaten in die Analyse
((M)ANCOVA, (Multivariate) Analysis of Covariance). Kovariaten sind metrisch skalierte
unabhängige, d.h. erklärende Variablen in einem faktoriellen Design. Häufig ist dem Forscher
bewusst, dass es außer den Faktoren Einflussgrößen auf die abhängige Variable gibt, deren
Einbeziehung sinnvoll und notwendig sein kann. Wenn in unserem Margarine-Beispiel der
Absatzpreis in den 6 Zellen der Erhebung unterschiedlich ist (z. B. aufgrund unterschiedlicher
Preise je Verpackungsart oder aufgrund unterschiedlicher Preise für Zweitplatzierung), dann
würde die Reststreuung nicht nur zufällige, sondern auch systematische Einflüsse enthalten.
Indem der Preis als Kovariate eingeführt wird, kann ein Teil der Gesamtvarianz möglicherweise auf die Variation des Preises zurückgeführt werden, was sich bei Nichterfassung in einer erhöhten Reststreuung (SSW) ausdrücken würde.
Üblicherweise geht die Varianzanalyse bei einem Untersuchungsdesign mit Kovariaten („Kovarianzanalyse“) so vor, dass zunächst der auf die Kovariaten entfallende Varianzanteil ermittelt wird. Dieses entspricht im Prinzip einer vorgeschalteten Regressionsanalyse. Die Beobachtungswerte der abhängigen Variablen werden um den durch die Regressionsanalyse ermittelten Einfluss korrigiert und anschließend der Varianzanalyse unterzogen. Dadurch wird
rechnerisch der Einfluss der Kovariaten bereinigt.
Problem
Der Leiter der Supermarktkette gibt keine Ruhe. Nun will er zusätzlich überprüfen, ob nicht
außer den Faktoren (1) Verpackungsart und (2) Platzierung auch (3) der Verkaufspreis sowie
(4) die durchschnittliche Temperatur im Supermarkt die nachgefragte Menge erklärt.
Aufgabe 4
1. Erweitern Sie Ihren Datensatz mit den u.a. Beobachtungswerten.
2. Berechnen Sie den Einfluss aller Faktoren bzw. Variablen auf die Absatzmenge.
3. Interpretieren Sie die Ergebnisse.
Verpackung
Platzierung
Tag
Normalregal
1
2
3
4
5
Zweitregal
1
2
3
4
5
Kühlregal
1
2
3
4
5
Jänner 2009
Absatz
47
39
40
46
45
68
65
63
59
67
59
50
51
48
53
Becher
Preis
1,89
1,89
1,89
1,84
1,84
2,09
2,09
1,99
1,99
1,99
1,99
1,98
1,98
1,89
1,89
Temp.
16
21
19
24
25
18
19
21
21
19
20
21
23
24
20
Absatz
40
39
35
36
37
59
57
54
56
53
53
47
48
50
51
Papier
Preis
2,13
2,13
2,13
2,09
2,09
2,09
1,99
1,99
2,09
2,09
2,19
2,19
2,19
2,13
2,13
Temp.
22
24
21
21
20
18
19
18
18
18
19
20
17
18
18
Klaus SAMAC
13
Lösung
Die Aufnahme der Kovariaten PREIS und TEMP in das Modell erfolgt wiederum im Dialogfeld „Univariat“ durch Übertragen dieser Variablen in das Feld „Kovariate“. Durch den erneuten Aufruf der Prozedur und eine neue Analyse zeigt sich folgendes Ergebnis:
Abhängige Variable: Absatzmenge
Quadratsumme
vom Typ III
df
2247,511a
7
321,073
31,536
,000
,909
Konstanter Term
8,815
1
8,815
,866
,362
,038
PREIS
5,010
1
5,010
,492
,490
,022
TEMP
4,884
1
4,884
,480
,496
,021
1207,881
2
603,941
59,319
,000
,844
82,605
1
82,605
8,113
,009
,269
,649
,532
,056
Quelle
Korrigiertes Modell
REGAL
VERPACK
REGAL * VERPACK
Fehler
Gesamt
Korrigierte Gesamtvariation
Mittel der
Quadrate
13,220
2
6,610
223,989
22
10,181
78979,000
30
2471,500
29
F
Signifikanz
Partielles
Eta-Quadrat
a. R-Quadrat = ,909 (korrigiertes R-Quadrat = ,881)
Wiederum finden wir in der ersten Spalte der Tabelle die Zerlegung der Gesamtstreuung in
die erklärte Streuung (Korrigiertes Modell) und in die Reststreuung (Fehler). Die mittleren
Zeilen zeigen nunmehr in der ersten Spalte eine Aufteilung der durch die Kovariaten und
durch die Faktoren erklärten Streuung (Korrigiertes Modell) in ihre jeweiligen Einzelbeiträge
(PREIS, TEMP, REGAL, VERPACK, REGAL*VERPACK). Die übrigen Spalten enthalten
die Freiheitsgrade (df), die empirischen F-Werte (F), das Signifikanzniveau der F-Statistik
(Signifikanz) sowie die partiellen Eta2-Werte (Partielles Eta-Quadrat).
Antwort
Der SPSS-Output verdeutlicht, dass
(1) die Platzierung der Margarine den größten Einfluss auf die Absatzmenge hat (84%
Varianzaufklärung, höchst signifikant),
(2) die Verpackungsart einen deutlichen, aber geringeren Einfluss auf die Absatzmenge
hat (27% Varianzaufklärung, sehr signifikant),
(3) kein signifikanter Interaktionseffekt zwischen Verpackungsart und Platzierung nachweisbar ist,
(4) für eine gegebene Vertrauenswahrscheinlichkeit von 95% der Einfluss der Kovariaten
(a) Preis und (b) Temperatur im Supermarkt auf die abhängige Variable Absatzmenge
als nicht signifikant einzustufen ist,
(5) das Modell insgesamt 91% der Varianz aufklärt und somit mit sehr gut beurteilt werden kann.
Jänner 2009
Klaus SAMAC
Herunterladen