Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

Werbung
Forschungspraktikum
Gruppenbezogene Menschenfeindlichkeit
Lineare Regression
• Statistisches Modell
• Realisierung mit der SPSS-Prozedur Regression
Lineare Regression
Statistische Zusammenhangsanalyse
Um zu untersuchen, ob eine erklärende Variable X Einfluss auf eine abhängige Variable Y hat,
wird die gemeinsame Verteilung der beiden Variablen untersucht.
Aus der Definition statistischer Unabhängigkeit zweier Ereignisse folgt, dass zwischen zwei
Variablen ein statistischer Zusammenhang besteht, wenn sich die bedingten Verteilungen der
abhängigen Variablen Y bei verschiedenen Ausprägungen der erklärenden Variablen X voneinander unterscheiden.
Um dies zu prüfen, wird in einer Kreuztabellen die bivariate Verteilung von X und Y berechnet.
Als Beispiel soll aus den Trenddaten des GMF der Mittelwert über die Items zur
Erfassung von Fremdenfeindlicheit durch die Links-Rechts-Selbsteinstufung erklärt
werden.
GET FILE='C:\... \trend.sav'.
compute FFmean=mean.1(ff03d to ff08d).
var lab FFmean
'Fremdenfeindlichkeit mean.1(ff03,ff04,ff05,ff08)'.
cross FFmean by po01.
Forschungspraktikum GMF
1
Statistische Zusammenhangsanalyse
FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08) * po01 Politische Einstellung Kreuztabelle
Anzahl
FFmean
(Y) 1.00
Fremdenfeindlichkeit.
1.25
mean.1(ff03,ff04,ff05,ff08) 1.33
1.50
1.67
1.75
2.00
2.25
2.33
2.50
2.67
2.75
3.00
3.25
3.33
3.50
3.67
3.75
4.00
Gesamt
1 links
35
12
0
35
1
13
68
35
6
64
8
71
146
65
7
99
2
57
166
890
po01 Politische Einstellung (X)
3 genau in
2 eher links
4 eher rechts
der Mitte
59
416
117
26
143
44
2
19
4
74
482
107
4
33
7
58
278
70
186
727
181
159
540
126
12
52
6
318
957
191
15
52
8
286
653
93
635
1168
117
270
372
44
17
26
1
330
400
45
9
16
4
170
164
11
331
316
28
2961
6814
1204
5 rechts
59
14
1
36
2
24
36
21
0
38
1
5
29
4
0
8
2
2
8
290
Gesamt
686
239
26
734
47
443
1198
881
76
1568
84
1108
2095
755
51
882
33
404
849
12159
Zur Interpretation müssen allerdings die relativen Häufigkeiten bzw. Prozentwerte der abhängigen Variable (allgemein meist als Y bezeichnet) bei unterschiedlichen Ausprägungen der
erklärenden Variablen (X) verglichen werden:
cross FFmean by po01 /cells col.
Forschungspraktikum GMF
2
Statistische Zusammenhangsanalyse
FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08) * po01 Politische Einstellung Kreuztabelle
% von po01 Politische Einstellung
FFmean
(Y) 1.00
Fremdenfeindlichkeit.
1.25
mean.1(ff03,ff04,ff05,ff08) 1.33
1.50
1.67
1.75
2.00
2.25
2.33
2.50
2.67
2.75
3.00
3.25
3.33
3.50
3.67
3.75
4.00
Gesamt
1 links
3.9%
1.3%
3.9%
.1%
1.5%
7.6%
3.9%
.7%
7.2%
.9%
8.0%
16.4%
7.3%
.8%
11.1%
.2%
6.4%
18.7%
100.0%
po01 Politische Einstellung (X)
3 genau in
der Mitte
2 eher links
4 eher rechts
2.0%
6.1%
9.7%
.9%
2.1%
3.7%
.1%
.3%
.3%
2.5%
7.1%
8.9%
.1%
.5%
.6%
2.0%
4.1%
5.8%
6.3%
10.7%
15.0%
5.4%
7.9%
10.5%
.4%
.8%
.5%
10.7%
14.0%
15.9%
.5%
.8%
.7%
9.7%
9.6%
7.7%
21.4%
17.1%
9.7%
9.1%
5.5%
3.7%
.6%
.4%
.1%
11.1%
5.9%
3.7%
.3%
.2%
.3%
5.7%
2.4%
.9%
11.2%
4.6%
2.3%
100.0%
100.0%
100.0%
5 rechts
20.3%
4.8%
.3%
12.4%
.7%
8.3%
12.4%
7.2%
13.1%
.3%
1.7%
10.0%
1.4%
2.8%
.7%
.7%
2.8%
100.0%
Gesamt
5.6%
2.0%
.2%
6.0%
.4%
3.6%
9.9%
7.2%
.6%
12.9%
.7%
9.1%
17.2%
6.2%
.4%
7.3%
.3%
3.3%
7.0%
100.0%
Wenn sich die relativen Häufigkeiten einer Ausprägung der abhängigen Variablen bei verschiedenen Ausprägungen der erklärenden Variable unterscheiden, spricht dies für einen Zusammenhang.
Haben die Variablen sehr viele Ausprägungen, sind die resultierenden Tabellen allerdimgs sehr
unübersichtlicht und aufgrund zu geringer Fallzahlen in den einzelnen Tabellenzellen kaum zu
interpretieren.
Forschungspraktikum GMF
3
Berechnung bedingter Mittelwerte: SPSS-Prozedur Means
Bei einer metrischen abhängigen Variablen werden daher nur die bedingten Mittelwerte (bzw.
bedingten Erwartungswerte) der abhängigen Variable über die Werte der erklärenden Variablen
verglichen.
In SPSS können die bedingten Mittelwerte mit der SPSS-Prozedur "Means" berechnet werden,
die formal wie die Prozedur crosstabs aufgebaut ist:
MEANS varlist BY varlist evtl. BY varlist ... /varlist ...
/MISSING= INCLUDE oder DEPENDENT
/CELLS= MEAN COUNT STDDEV DEFAULT ALL NONE
SEMEAN SUM MIN MAX RANGE VARIANCE
MEDIAN GMEDIAN KURT SEKURT SKEW SESKEW
FIRST LAST NPCT SPCT NPCT(var) SPCT(var)
HARMONIC GEOMETRIC
/STATISTICS=ANOVA ALL
Wie bei der Prozedur "crosstabs" werden zunächst die Dimensionen von mehrdimensionalen Kreuzztabellen definiert, wobei vor dem ersten "BY" die abhängigen Variablen, hinter
dem ersten "BY" die unabhängigen Variablen und nach jeweils weiteren "BY" Kontrollvariablen
definiert werden.
Standardmäßig werden Fälle mit ungültigen Werten bei einer Variablen ausgeschlossen. Mit der
Option "/mis inc" werden benutzerdefinierte ungültige Werte als gültig in die Berechnungen
aufgenommen bei "/mis dep" werden nur die benutzerdefinierten ungültigen Werte der erklärenden Variablen als gültig betrachtet.
Forschungspraktikum GMF
4
Berechnung bedingter Mittelwerte: SPSS-Prozedur Means
Anstelle von Häufigkeiten werden für jede Zelle der definierten multivariaten Kreuztabellen
Statistiken berechnet und ausgedruckt. Welche Statistiken berechnet werden, wird durch die
Option "/cells=" defniert:
/CELLS=COUNT MEAN STDDEV DEFAULT ALL NONE
SEMEAN SUM MIN MAX RANGE VARIANCE MEDIAN GMEDIAN
KURT SEKURT SKEW SESKEW NPCT SPCT NPCT(var) SPCT(var)
HARMONIC GEOMETRIC
Ohne die Option "/cells" werden die Defaults-Statistiken Fallzahl jeder Zelle ("count"),
Mittelwert ("mean") und Standardabweichung ("stddev") ausgegeben, ansonsten nur die
hinter der Option angeforderten Statistiken. Neben den genannten Parametern steht "semean"
für den Standardfehler des Mittelwertes bei einfacher Zufallsauswahl, "sum" für die Summe
über alle Fälle, "min", "max" und "range" für kleinsten bzw. größten Wert und Spannweite,
"variance", "median" und "gmedian" für Varianz, median und gruppierten Median
(berechnet über Summenkurve), "kurt", "sekurt", "skew", "seskew" für Steilheit bzw,
Schiefe und deren Standardfehler, "npct" und "spct" für den Prozentwert der Fälle bzw. der
summierten Werte an der gesammten Fallzahl bzw. Summe und bei einer nachfolgenden Variablennennung in Klammern bezogen auf diese Variable, wobei die Variable als erklärende bzw.
Kontrollvariable aufgeführt sein muss.
Mit der Option "/stat anova oder all" können univariate Varinanzanalysen (mit Linearitätsprüfung beim Schlüsselwort "all" angefordert werden, wobei die Variablen nach dem
ersten "by" als Faktoren dienen.
Forschungspraktikum GMF
5
Berechnung bedingter Mittelwerte: SPSS-Prozedur Means
Werden die Mittelwerte von FFmean für die gültigen Ausprägungen der Links-RechtsSelbsteinstufung berechnet, ergibt sich folgendes Bild:
means FFmean by po01 /cells mean.
Bericht
Mittelwert
1 links
FFmean
Fremdenfe
indlichkeit.
mean.
1(ff03,ff04,f
f05,ff08)
2.9623
2 eher links
2.9319
po01 Politische Einstellung
3 genau in der Mitte 4 eher rechts
2.5153
2.2499
5 rechts
2.0092
Insgesamt
2.6111
Im Beispiel zeigt sich, dass der Mittelwert der vier Items um so geringer wird, je weiter rechts
sich eine Person einordnet.
Die bedingten Mittelwerte können mathematisch als eine Funktion der erklärenden Variablen
aufgefasst werden. Diese Funktion heißt Regressionsfunktion.
Von einer linearen Regression spricht man, wenn die Regressionsfunktion in der Population
eine Gerade ist.
Forschungspraktikum GMF
6
Regressionsfunktion
FFmean
Lineare Regressionskurve
Empirische Regressionskurve
4.0
4.0
3.0
3.0
2.0
2.0
1.0
1.0
0.0
0.0
1
2
3
4
5
1
Links-Rechts
2
3
4
5
Links-Rechts
Die empirische Regressionskurve der bedingten Stichprobenmittelwerte ist eine Schätzung der
nicht beobachtbaren Regressionsfunktion in der Population.
Es ist sehr unwahrscheinlich, dass die empirische Regressionsfunktion tatsächlich eine Gerade
ergibt. Abweichungen von einer Regressionsgeraden können jedoch auch Folge von Stichprobenfehlern sein. Dann kann versucht werdne, eine unterstellte Regressionserade aus den Stichprobendaten zu schätzen.
Forschungspraktikum GMF
7
Das lineare Regressionsmodell
4.0
β1
FFmean
3.0
2.0
2·β1
3·β1
4·β1
Wenn sich zwei Werte der erklärenden
Variable um +1 Einheit unterscheiden,
dann unterscheiden sich die bedingten
Erwartungswerte um den Wert β1.
5·β1
β0
Bei einer kausalen Interpretation wird
davon ausgegangen, dass die Veränderung in X um +1 Einheit, eine Veränderung des Mittelwerts der abhängigen
Variablen Y um β1 bewirkt.
1.0
0.0
0
1
2
3
4
5
6
Links-Rechts
Eine Regressionsgrade lässt sich algebraisch durch eine einfache Funktion beschreiben:
μ Y X = β0 + β1 ⋅ x
Die Lage der Regressionsgerade wird durch die beiden Regressionskoeffizienten β0 und β1
bestimmt.
Die Regressionskonstante β0 gibt den bedingten Erwartungswert wieder, wenn die erklärende
Variable den Wert 0 aufweist.
Das Regressionsgewicht β1 gibt die Steigung der Regressionsgerade an.
Forschungspraktikum GMF
8
Das lineare Regressionsmodell
4.0
FFmean
3.0
2.0
1.0
0.0
0
1
2
3
4
5
6
Links-Rechts
Da Populationsdaten in ihrer Gesamtheit nicht verfügbar sind, werden die Regressionkoeffizienten β0 und β1 aus Stichprobendaten geschätzt:
μˆ = βˆ + βˆ ⋅ X
YX
0
1
Ŷ = bo + b1 ⋅ X
Für die Schätzung der Regressionskoeffizienten benötigt man
• empirische (Stichproben-) Daten, auf die das Modell angewendet werden kann
• und eine geeignete Schätzmethode zur Bestimmung der Regressionskoeffizienten.
Forschungspraktikum GMF
9
OLS-Schätzung der Regressionskoeffizienten
Die klassische Methode zur Bestimmung der Regressionskoeffizienten ist die (ungewichtete)
Kleinstquadratmethode (engl: ordinary least squares, OLS).
Bei der OLS-Schätzung werden die Regressionskoeffizienten so bestimmt, dass die Summe der
quadrierten Differenzen der empirischen Realisierungen von der geschätzten Regressionsfunktion minimal ist:
n
n
n
QOLS ( b 0 , b1 ) = ∑ ( yi − ( b 0 + b1 ⋅ x i ) ) = ∑ ( yi − yˆ i ) = ∑ e = min
2
i =1
i =1
7
6
Ŷ=1+1⋅X
5
4
3
ei = yi –(1+1·xi)
2
1
0
0
1
2
3
2
4
5
X
1
2
2
2.5
3
3
3.5
4
4
6
5
∑ 30
i =1
2
i
!
Y Ŷ = 1 + 1 ⋅ X
2
2
1
3
5
3
1
3.5
2
4
6
4
7
4.5
3
5
7
5
6
6
40
40
Forschungspraktikum GMF
E
0
–2
2
–2.5
–2
2
2.5
–2
2
0
0
E2
0
4
4
6.25
4
4
6.25
4
4
0
36.5
10
OLS-Schätzung der Regressionskoeffizienten
FFmean
3.5
2.5
1.5
1
2
3
4
5
Links-Rechts
Die mit der OLS-Schätzung bestimmte lineare Regressionsfunktion beträgt bei den GMFDaten:
μˆ Y X = βˆ 0 + βˆ 1 ⋅ X
Ŷ = b0 + b1 ⋅ X = 3.407 − 0.289 ⋅ X
Die geschätzten bedingten Mittelwerte werden üblicherweise als Vorhersagewerte (oder YDach) bezeichnet und durch ein Dach (^) über der abhängigen Variablen gekennzeichnet.
Die Berechnung der Koeffizienten erfolgt mit der SPSS-Prozedur "Regression".
Forschungspraktikum GMF
11
OLS-Schätzung der Regressionsfunktion: SPSS-Prozedur Regression
Die SPSS-Prozedur "Regression" hat sehr viele Optionen.
Im einfachten Fall benötgt man aber nur die Angabe von abhängigen Variablen in der Option
"/dependent" und die Angabe der erklärenden Variablen hinter dem Schlüsselwort "/enter":
REGRESSION /DEPENDENT=varlist /ENTER varlist
reg dependent=FFmean /enter po01 .
Koeffizientena
Modell
1
(Konstante)
po01 Politische
Einstellung
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
3.407
.024
-.289
Standardisie
rte
Koeffizienten
Beta
.008
-.298
T
140.919
Signifikanz
.000
-34.359
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
Das bivariate Regressionsmodell lässt sich leicht zum multiplen Regressionsmodell mit
mehreren erklärenden Variablen verallgemeinern:
K
μ Y x1 ,x 2 ,",x K = β0 + ∑ βk ⋅ x k
k =1
Forschungspraktikum GMF
12
OLS-Schätzung der Regressionsfunktion: SPSS-Prozedur Regression
Mit OLS-werden die Koeffizienten wieder aus Stichprobendaten geschätzt. Die geschätzte
Modellgleichung lautet:
K
ˆ
μˆ
= β + βˆ ⋅ X
Y x1 ,x 2 ,",x K
0
∑
k =1
k
k
K
Ŷ = b 0 + ∑ b k ⋅ X k = b 0 + b1 ⋅ X1 + b 2 ⋅ X 2 + ... + b K ⋅ X K
k =1
Im Beispiel wird zusätzlich zur Links-Rechts-Selbstpositionierung die Region, in der eine befragte Person lebt, zur Vorhersage herangezogen.
Wenn der Wert 1 der Region für die alten und der Wert 2 für die neuen Bundesländer steht,
ergibt die OLS-Regression mit SPSS folgende Koeffizientenschätzung:
reg dep=FFmean /ent po01 westost.
Koeffizientena
Modell
1
(Konstante)
po01 Politische
Einstellung
westost Befragte
in West- und
Ostdeutschland
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
3.843
.032
Standardisie
rte
Koeffizienten
Beta
T
121.104
Signifikanz
.000
-.303
.008
-.312
-36.494
.000
-.299
.014
-.177
-20.717
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
Forschungspraktikum GMF
13
OLS-Schätzung der Regressionsfunktion: SPSS-Prozedur Regression
Das lineare Regressionsmodells wurde über die bedingten Erwartungswerte der abhängigen
Variablen definiert.
Alternativ kann die abhängige Variable Y als lineare Funktion der erklärenden Variablen X und
einer (unbeobachteten) Residualvariable ζ dargestellt werden:
ˆ +ζ
Y =β +β ⋅X + ζ = Y
0
1
Die Berechnung eines Regressionsmodells soll vor allem folgende fünf Fragen beantworten:
(1) Besteht ein Zusammenhang zwischen der abhängigen Variable auf der einen Seite und den
Prädiktoren auf der anderen Seite, d.h. unterscheiden sich die bedingten Mittelwerte der
abhängigen Variable bei unterschiedlichen Werten der Prädiktoren?
(2) Wenn ein Zusammenhang besteht, wie stark ist der Zusammenhang?
(3) Wenn es einen Zusammenhang gibt, stellt sich die Frage, ob ein spezifischer Prädiktor
Xk bzw. eine spezifische Teilmenge aller Prädiktoren einen Effekt auf die bedingten
Mittelwerte der abhängigen Variable hat?
(4) Für jeden Prädiktor bzw. jede erklärende Variable Xk stellt sich die Frage, wie diese
Variable die bedingten Mittelwerte beeinflusst, d.h. primär, ob ein positiver oder ein
negativer Effekt besteht und wie stark dieser Effekt ist?
(5) Wenn in einem Modell mehrere erklärende Variablen spezifiziert sind, stellt sich schließlich die Frage nach der relativen Effektstärke, d.h. ist der Effekt einer Variable stärker als
der einen anderen Variable?
Forschungspraktikum GMF
14
Der F-Test zur Prüfung der Signifikanz der Erklärungskraft eines Regressionsmodells
(1) Besteht ein Zusammenhang zwischen der abhängigen Variable und den Prädiktoren?
Wenn die erklärenden Variablen (auch als Prädiktoren bezeichnet) keinen Einfluss auf die abhängige Variable haben, sind alle Regressionsgewichte β1, β2, ..., βK in der Population null.
Selbst wenn die Regressionsgewichte in der Stichprobe auf einen Zusammenhang hinweisen,
ist es denkbar, dass es in der Population keinen Zusammenhang gibt und der beobachtete Zusammenhang nur in der zufälligen Datenkonstellation der Stichprobe besteht.
Mit Hilfe eines F-Tests wird bei der OLS-Regression eines linearen Regressionsmodells geprüft, ob der Zusammenhang auch in der Population besteht.
ANOVAb
Modell
1
Ŷ Regression
E Residuen
Gesamt
Quadrats
umme
920.721
6777.885
7698.606
df
2
12156
12158
Mittel der
Quadrate
460.361
.558
F
825.647
Signifikanz
.000a
a. Einflußvariablen : (Konstante), westost Befragte in West- und Ostdeutschland,
po01 Politische Einstellung
F=
=
SSŶ / K
SSE / ( n − K − 1)
920.721/ 2
6777.885 /12156
b. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
Die empirische Signifikanz von 0.000 des F-Werts 825.647 besagt, dass die Wahrscheinlichkeit <0.001 ist, dass in der Grundgesamtheit alle Regressionsgewichte null sind, wenn die aus
Stichprobendaten berechneten Koeffizienten oder noch weiter von Null entfernte Werte vorkommen. Selbst bei einer Irrtumswahrscheinlichkeit von 0.1% ist demnach die Nullhypothese,
dass keine Beziehung zwischen der abhängigen Variablen und den erklärenden Variablen besteht, zu verwerfen.
Forschungspraktikum GMF
15
Determinationskoeffizient R2
(2) Wenn ein Zusammenhang besteht, wie stark ist der Zusammenhang?
Für die zweite Frage wird der Determinationskoeffizient R2 betrachtet:
Modellzusammenfassung
Modell
1
R
R-Quadrat
a
.346
.120
Korrigiertes
R-Quadrat
.119
Standardf
ehler des
Schätzers
.74671
a. Einflußvariablen : (Konstante), westost Befragte in
West- und Ostdeutschland, po01 Politische
Einstellung
Der Determinationskoeffizient (R-Quadrat) von 0.120 oder 12% besagt, dass knapp 12% der
Variation der Fremdenfeindlichkeit werden durch die Links-Rechts-Selbsteinstufung und die
Region erklärt.
Diese Interpretation basiert auf der Eigenschaft der OLS-Regression, dass die Variation der abhängigen Variable die Summe der Variation der Vorhersagewerte plus der Variation der Residuen ist, wobei die Residuen die Differenzen der abhängigen Variable von den Vorhersagewerten sind:
K
yi = b 0 + ∑ b k ⋅ x k,i + ei = yˆ i + ei
k =1
n
n
n
SSY = ∑ ( yi − y ) = ∑ ( yˆ i − y ) + ∑ ei2 = SSYˆ + SSE
i =1
2
i =1
2
i =1
Forschungspraktikum GMF
16
Determinationskoeffizient R2
Modellzusammenfassung
Modell
1
Korrigiertes
R-Quadrat
.119
R
R-Quadrat
.346a
.120
Standardf
ehler des
Schätzers
.74671
a. Einflußvariablen : (Konstante), westost Befragte in
West- und Ostdeutschland, po01 Politische
Einstellung
Der Determinationskoeffizient (R-Quadrat) ist als Quotient der Variation der Vorhersagewerte
zur Variation der abhängigen Variable definiert.
SS ˆ
SS
SSY = SSYˆ + SSE → R 2 = Y = 1 − E
SSY
SSY
Bezogen auf alle Fälle der Population ist der Determinationskoeffizient der Anteil der Varianz
einer abhängigen Variable Y, der durch die Varianzen der Prädiktoren bedingt ist:
2
σ2 μ Y X1 ,X2 ,...,XK
σ
ζ
R 2Pop. =
=1− 2
σ2Y
σY
(
)
Die (positive) Quadratwurzel R des Determinationskoeffizienten wird als "Multiple Korrelation" bezeichnet und ist die Produkt-Moment-Korrelation der Vohersagewerte mit der abhängigen Variablen:
ˆ
R = R 2 = r Y, Y
(
)
Forschungspraktikum GMF
17
Determinationskoeffizient R2
Modellzusammenfassung
Modell
1
R
R-Quadrat
.346a
.120
Korrigiertes
R-Quadrat
.119
Standardf
ehler des
Schätzers
.74671
a. Einflußvariablen : (Konstante), westost Befragte in
West- und Ostdeutschland, po01 Politische
Einstellung
920.721
6777.885
=1−
7698.606
7698.606
6777.885 /12156
= 0.119 = 1 −
7698.606 /12158
R 2 = 0.120 =
2
R adj
Der Determinationskoeffizient (R-Quadrat) überschätzt den Anteil der erklärten Varianz in der
Gesamtpopulation.
Diese Verzerrung wird durch den korrigierten oder adjustierten Determinationskoeffizienten
reduziert, der sich aus den Quotienten der Populationsschätzungen der Varianzen der abhängigen Variablen Y und der Residualvariable ζ ergibt.
2
ˆ
σ
SS
SS / ( n − K − 1)
SS
ˆ
2
= 1 − 2ζ = 1 − E
R 2 = Y = 1 − E ; R adj
σˆ Y
SSY
SSY
SSY / ( n − 1)
ANOVAb
Modell
1
Regression
Residuen
Gesamt
Quadrats
umme
920.721
6777.885
7698.606
df
2
12156
12158
Mittel der
Quadrate
460.361
.558
F
825.647
Signifikanz
.000a
a. Einflußvariablen : (Konstante), westost Befragte in West- und Ostdeutschland,
po01 Politische Einstellung
b. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
Forschungspraktikum GMF
18
Determinationskoeffizient R2
ANOVAb
Modell
1
Regression
Residuen
Gesamt
Quadrats
umme
920.721
6777.885
7698.606
df
2
12156
12158
Mittel der
Quadrate
460.361
.558
F
825.647
Signifikanz
.000a
a. Einflußvariablen : (Konstante), westost Befragte in West- und Ostdeutschland,
po01 Politische Einstellung
b. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
Modellzusammenfassung
Modell
1
R
R-Quadrat
.346a
.120
Korrigiertes
R-Quadrat
.119
Standardf
ehler des
Schätzers
.74671
a. Einflußvariablen : (Konstante), westost Befragte in
West- und Ostdeutschland, po01 Politische
Einstellung
Der "Standardfehler des Schätzers" ist die Quadratwurzel aus der Schätzung der Residualvarianz:
σˆ ζ = SSE / ( n − K − 1) = 0.558 = 0.746
Forschungspraktikum GMF
19
Signifikanztests von Regressionskoeffizienten
(3) Hat ein spezifischer Prädiktor Xk einen Effekt auf die abhängige Variable?
Koeffizientena
Modell
1
(Konstante)
po01 Politische
Einstellung
westost Befragte
in West- und
Ostdeutschland
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
3.843
.032
Standardisie
rte
Koeffizienten
Beta
T
121.104
Signifikanz
.000
-.303
.008
-.312
-36.494
.000
-.299
.014
-.177
-20.717
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
Für die dritte Frage wird geprüft, ob ein Regressionsgewicht signifikant ist.
In der Tabelle mit den geschätzten Koeffizienten ist für jede erklärende Variable (und zusätzlich für die Regressionskonstante) die Test-Statistik T, das ist der Quotient aus dem Koeffizienten geteilt durch seinen Standardfehler, und die empirische Signifikanz der Prüfung der
Nullhypothese aufgeführt, dass der entsprechende Koeffizient in der Population Null ist.
bi
βi = 0 ⇒ T =
∼ t df = n − K −1
σˆ ( bi )
Den Signifikanzwerten ist zu entnehmen, dass alle drei Regressionskoeffizienten signifikant von
Null verschieden sind.
Forschungspraktikum GMF
20
F-Test auf Veränderung der Erklärungskraft
Eine Alternative zum T-Test ist ein F-Test auf Erhöhung der Erklärungskraft in einer schrittweisen Regression.
Zwei Regressionsmodelle sind hierarchisch ineinander geschachtelt, wenn:
(a) das restriktive Modell M0 Restriktionen über das weniger restriktive oder liberalere Modell
M1 postuliert und
(b) die Schätzung beider Modelle auf der gleichen Stichprobe (d.h. den gleichen Fällen) beruht.
Wenn M0 das restriktive Modell bezeichnet und M1 das weniger restriktive Modell, dann ist die
Teststatistik
SSE ( M o ) − SSE ( M1 ) ) / ( df 0 − df1 )
(
F=
SSE ( M1 ) / df1
f-verteilt, wenn die Restriktionen des Modells M0 in der Population zutreffen.
Die Freiheitsgrade im Zähler sind zum einen die Differenz der Freiheitsgrade der beiden Modelle und zum anderen die Freiheitsgrade des liberaleren Modells, wobei die Freiheitsgrade eines
Modells gleich der Fallzahl minus der Zahl der nicht restringierten zu schätzenden Regressionskoeffizienten ist.
Forschungspraktikum GMF
21
F-Test auf Veränderung der Erklärungskraft
Die beiden als Beispiel geschätzten Regressionsmodelle sind ineinander hierarchisch geschachtelt:
M0: Ffmean = β0 + β1· po01 + 0 · westost + E0
M1: Ffmean = β0 + β1· po01 + β2 · westost + E1
Restriktion: β2 = 0.
Die Modelle können daher mit F-Tests gegeneinander getestet werden, wenn die Schätzungen
auf gleicher Fallzahl beruhen. Dies wird sichergestellt, wenn die Spezifikation der Modelle im
selben SPSS-Befehl erfolgt:
reg dep=FFmean /ent po01 /ent westost /remove po01.
Mit dem Befehl wird eine schrittweise Regression angefordert:
Schritt 1: Regression von FFmean auf po01.
Schritt 2: Zusätzliche Aufnahme von westost als weitere erklärende Variable.
Schritt 3: Entfernen ("remove") von po01 als erklärende Variable.
Die Modelle aus Schritt 1 und Schritt 3 sind hierarchisch in das Modell aus Schritt 2 geschachtelt.
Modell 1 und Modell 3 sind dagegen nicht ineinander geschachtelt.
Forschungspraktikum GMF
22
F-Test auf Veränderung der Erklärungskraft
ANOVAd
Modell
1
2
3
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Quadrats
umme
681.423
7017.183
7698.606
920.721
6777.885
7698.606
178.137
7520.470
7698.606
df
1
12157
12158
2
12156
12158
1
12157
12158
Mittel der
Quadrate
681.423
.577
F
1180.540
Signifikanz
.000a
460.361
.558
825.647
.000b
178.137
.619
287.962
.000c
a. Einflußvariablen : (Konstante), po01 Politische Einstellung
b. Einflußvariablen : (Konstante), po01 Politische Einstellung, westost Befragte in
West- und Ostdeutschland
c. Einflußvariablen : (Konstante), westost Befragte in West- und Ostdeutschland
d. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
Die F-Teststatistiken von po01 und westost berechnen sich dann nach.
FM1vs.M 2 =
FM3vs.M 2 =
( 7017.183 − 6777.885) / (12157 − 12156 )
6777.885 /12156
( 7520.470 − 6777.885) / (12157 − 12156 )
6777.885 /12156
= 429.176
= 1331.811
Die Freiheitsgrade sind in beiden Fällen df1=1 und df2=21156.
Forschungspraktikum GMF
23
F-Test auf Veränderung der Erklärungskraft
Diese F-Werte ergeben sich (bis auf Rundungsfehler) auch, wenn man den Parameter "F" in der
Options "Statistics" der SPSS-Prozedur "Regression" verwendet:
reg stat default F /dep=FFmean /ent po01 westost.
Koeffizientena
Modell
1
(Konstante)
po01 Politische
Einstellung
westost Befragte
in West- und
Ostdeutschland
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
3.843
.032
Standardisie
rte
Koeffizienten
Beta
F
14666.125
Signifikanz
.000
-.303
.008
-.312
1331.810
.000
-.299
.014
-.177
429.176
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
Durch den Paramter "cha" in der Option "Statistics" werden die F-Tests auf Veränderung
der Erklärungskraft bei schrittweiser Regression berechnet:
reg stat default cha /dep=FFmean
/ent po01 /rem westost.
Forschungspraktikum GMF
24
F-Test auf Veränderung der Erklärungskraft
Modellzusammenfassung
Änderungsstatistiken
Modell
1
2
3
R
R-Quadrat
a
.298
.089
b
.346
.120
c
.152
.023
Korrigiertes
R-Quadrat
.088
.119
.023
Standardf
ehler des
Schätzers
.75975
.74671
.78652
Änderung in
R-Quadrat
.089
.031
-.096
Änderung in F
1180.540
429.176
1331.810
df1
1
1
1
df2
12157
12156
12156
Änderung in
Signifikanz
von F
.000
.000
.000
a. Einflußvariablen : (Konstante), po01 Politische Einstellung
b. Einflußvariablen : (Konstante), po01 Politische Einstellung, westost Befragte in West- und Ostdeutschland
c. Einflußvariablen : (Konstante), westost Befragte in West- und Ostdeutschland
Der F-Test, der die Nullhypothese prüft, ob überhaupt ein Zusammenhang besteht, basiert auf
der gleichen Logik.
Geprüft wird, ob das liberalere Modell mit allen Prädiktoren signifikant besser ist als ein restriktives Modell, dass nur die Regressionskonstante beinhaltet.
Sichtbar wird dies, wenn mit der Option "/origin" der Prozedur "Regression" schrittweise
Modelle geschätzt werden, die keine automatische Konstante enthalten, und stattdessen eine generierte Konstante als Variable "C" verwendet wird:
comp C=1.
reg stat default cha /origin /dep=FFmean
/ent C /ent po01 westost.
Forschungspraktikum GMF
25
F-Test auf Veränderung der Erklärungskraft
Modellzusammenfassung
Änderungsstatistiken
Modell
1
2
a
R
R-Quadrat
b
.957
.915
c
.962
.925
Korrigiertes
R-Quadrat
.915
.925
Standardf
ehler des
Schätzers
.79575
.74671
Änderung in
R-Quadrat
.915
.010
Änderung in F
130916.390
825.647
df1
1
2
df2
12158
12156
Änderung in
Signifikanz
von F
.000
.000
a. Bei der Regression durch den Ursprung (Modell ohne konstanten Term) mißt das R-Quadrat den Anteil der Variabilität in der
abhängigen Variable durch den Ursprung, der durch Regression erklärt werden kann. Dieses Verfahren KANN NICHT mit dem
R-Quadrat bei Modellen verglichen werden, die einen konstanten Term enthalten.
b. Einflußvariablen: C
c. Einflußvariablen: C, westost Befragte in West- und Ostdeutschland, po01 Politische Einstellung
Koeffizientena,b
Modell
1
2
C
C
po01 Politische
Einstellung
westost Befragte
in West- und
Ostdeutschland
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
2.611
.007
3.843
.032
Standardisie
rte
Koeffizienten
Beta
.957
1.408
T
361.824
121.104
Signifikanz
.000
.000
-.303
.008
-.319
-36.494
.000
-.299
.014
-.155
-20.717
.000
Bei einer Regression
durch de Ursprung
können nur die unstandisierten Regressionskoeffizienten, deren
Standardfehler und
Teststatistiken interpretiert werden.
a. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
b. Lineare Regression durch den Ursprung
Forschungspraktikum GMF
26
Einseitige Tests von Regressionskoeffizienten
Koeffizientena
Modell
1
(Konstante)
po01 Politische
Einstellung
westost Befragte
in West- und
Ostdeutschland
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
3.843
.032
Standardisie
rte
Koeffizienten
Beta
T
121.104
Signifikanz
.000
-.303
.008
-.312
-36.494
.000
-.299
.014
-.177
-20.717
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
Die F-Statistik eines einzelnen Koeffizienten ist das Quadrat der T-Statistik:
t(b1) = –36.494; F(b1) = 3131.810 = (–36.494)2.
Der Vorteil der T-Statistik besteht darin, dass auch einseitige Hypothesen über einen Regressionskoeffizienten geprüft werden können.
H0: βi ≥ γ vs. H1: βi < γ bzw. H0: βi ≤ γ vs. H1: βi > γ
wobei γ ein durch die Nullhypothese postulierter Minimal- bzw. Maximalwert ist.
Die Nullhypothese wird mit der Irrtumswahrscheinlichkeit α jeweils abgelehnt, wenn
b −γ
T= i
σˆ ( bi )
kleiner als das α-Quantil bzw, größer als das (1–α)-Quantil der T-Verteilung mit df=n-K-1
Freiheitsgraden ist.
Forschungspraktikum GMF
27
Interpretation der Effekte
Koeffizientena
Modell
1
(Konstante)
po01 Politische
Einstellung
westost Befragte
in West- und
Ostdeutschland
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
3.843
.032
Standardisie
rte
Koeffizienten
Beta
T
121.104
Signifikanz
.000
-.303
.008
-.312
-36.494
.000
-.299
.014
-.177
-20.717
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit. mean.1(ff03,ff04,ff05,ff08)
(4) Welchen Effekt hat ein spezifischer Prädiktor Xk?
Die Interpretation der Regressionsgewichte ergibt sich aus der Vorhersagegleichung:
μˆ Y = 3.843 − 0.303 ⋅ po01 − 0.299 ⋅ westost
Die negativen Vorzeichen, weisen darauf hin, dass der bedingte Mittelwert von FFmean geringer
ist, wenn die Werte von po01 und westost ansteigen.
Aus der Kodierung der drei Variablen folgt,
• dass pro Einheit weiter rechts Befragte um 0.303 Einheiten eher fremdenfeindlichen Items
zustimmen.
• dass im Befragte aus dem Osten um 0.299 Einheiten eher fremdenfeindlichen Items
zustimmen als Personen aus dem Westen.
Forschungspraktikum GMF
28
Leichtere Interpretation der Effekte durch Rekodierung
Ungünstig ist, dass kleine Werte bei der abhängigen Variable für hohe Fremdenfeindlichkeit und
große Werte für geringe Fremdenfeindlichkeit stehen, obwohl die Variable "Fremdenfeindlichkeit" und nicht "Fremdenfreundlichkeit" erfassen soll.
Es ist daher sinnvoll, die Variable vor der Analyse umzupolen, so dass der Wert 1 für "stimme
gar nicht zu" und der Wert 4 für "stimme voll und ganz zu" steht.
Außerdem sollte das Label von "po01" die Bedeutung dieser Variable beschreiben.
if (not missing(FFmean))FFmean=5-FFmean.
var lab FFmean 'Fremdenfeindlichkeit 5-mean(ff03 to ff08)'.
var lab po01 'Links-Rechts-Selbsteinstufung'.
reg dep=FFmean /ent po01 westost.
Koeffizientena
Modell
1
(Konstante)
po01
Links-RechtsSelbsteinstufung
westost Befragte
in West- und
Ostdeutschland
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
1.157
.032
Standardisie
rte
Koeffizienten
Beta
T
36.455
Signifikanz
.000
.303
.008
.312
36.494
.000
.299
.014
.177
20.717
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Forschungspraktikum GMF
29
Interpretation der Effekte
(5) Welche Variable hat den relativ stärksten Effekt?
Da die beiden erklärenden Variablen auf unterschiedlichen Antwortskalen gemessen werden,
macht es wenig Sinn, die unstandardisierten Regressionsgewichte zu vergleichen.
Um dennoch Aussagen über die relative Effektstärke treffen zu können, werden die sogenannten standardisierten Regressonsgewichte betrachtet.
Ein standardisierter Effekt ergibt sich dadurch, dass anstelle der erklärenden Variablen die ztransformierten (standardisierten) Werte der Variablen als Prädiktor in die Regressionsgleichung
aufgenommen werden.
Werden alle erklärenden Variablen und die abhängige Variable standardisiert, dann ist die Regressionskonstante notwendige null.
Ein standardisiertes Regressionsgewicht gibt dann an, um wie viele Standardabweichungen der
abhängigen Variable der bedingte Mittelwert ansteigt (bei positiven Werten) bzw. sinkt (bei
negativen Werten), wenn die jeweilige erklärende Variable um +1 Standardabweichung ansteigt.
Formal berechnen sich die standardisierten Effekte b* aus den unstandardisierten durch die
Gleichung:
σˆ ( X i )
b = bi ⋅
= bi ⋅
s(Y)
σˆ ( Y )
*
i
s ( Xi )
Forschungspraktikum GMF
30
Interpretation der Effekte
Die standardisierten Effekte oder Regressionsgewichte werden im SPSS-Ausdruck als "Beta"
bezeichnet.
Koeffizientena
Modell
1
(Konstante)
po01
Links-RechtsSelbsteinstufung
westost Befragte
in West- und
Ostdeutschland
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
1.157
.032
Standardisie
rte
Koeffizienten
Beta
T
36.455
Signifikanz
.000
.303
.008
.312
36.494
.000
.299
.014
.177
20.717
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Im Beispiel ist der Effekt von "po01" mit einem standardisierten Regressionsgewicht von 0.312
deutlich höher als der Effekt der Region mit einem Wert von 0.177.
Forschungspraktikum GMF
31
Komplexere Regressionsfunktionen
Wenn unterstellt wird, dass die Regressionsfunktion nicht-linear ist, lässt sie sich trotzdem über
eine lineare OLS-Regression schätzen, falls es möglich ist, die Variablen vor der Berechnung
der Regressionskoeffizienten so zu transformieren, dass alle Prädiktoren linear in die Gleichung
eingehen.
Als Beispiel wird angenommen, dass Alter mit einem quadratischen Effekt auf Fremdenfeindlichkeit wirkt, so dass ältere Befragte fremdenfeindlicher sind als jüngere, der Anstieg
aber flacher wird.
Formal lässt sich dies durch folgende Regressionsfunktion darstellen:
μ FFmean = β0 + β1 ⋅ age + β2 ⋅ age 2
Wenn die Erwartung zutrifft, sollte β1 ein positives und β2 ein negatives Vorzeichen aufweisen.
Wenn Alter und das quadrierte Alter als zwei Prädiktoren in die Regressionsgleichung einfließen, lässt sich die Vermutung über ein lineares Regressionsmodell schätzen:
compute age=jahr-gebj.
compute age2=age**2.
reg dep=FFmean /ent age age2.
Forschungspraktikum GMF
32
Komplexere Regressionsfunktionen
Koeffizientena
Modell
1
(Konstante)
age
age2
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
2.334
.051
-.006
.002
.000
.000
Standardisie
rte
Koeffizienten
Beta
-.120
.278
T
45.334
-2.569
5.954
Signifikanz
.000
.010
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Die Vorzeichen sind zwar tatsächlich umgekehrt aber entgegen den Erwartungen. Aufgrund der
Kodierung sind die unstandardisierten Effekte aber sehr klein.
Misst man Alter nicht in Jahren, sondern in Jahrhunderten, ergeben sich höhere Werte:
compute agejhd=age/100.
compute agejhd2=agejhd**2.
reg dep=FFmean /ent agejhd agejhd2.
Koeffizientena
Modell
1
(Konstante)
agejhd
agejhd2
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
2.334
.051
-.592
.230
1.427
.240
Standardisie
rte
Koeffizienten
Beta
-.120
.278
T
45.334
-2.569
5.954
Signifikanz
.000
.010
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Forschungspraktikum GMF
33
Komplexere Regressionsfunktionen
Mit Hilfe der Option "/scatterplot (varY,varX)" läst sich eine Grafik der Vorhersagewerte nach dem Alter berechnen.
Wenn Alter keine erklärende Variable ist, muss diese Variable mit allen Modellvariablen in der
Option "variables= varlist" aufgenommen worden sein:
reg variables=FFmean age agejhd agejhd2
/dep=FFmean /ent agejhd agejhd2 /sca (*pred,age).
Sichtbar wird, dass entgegen der Vermutung bei zunehmendem Alter der
Effekt auf Fremdenfeindlichkeit zunimmt.
Tatsächlich ist der lineare Anteil der
Regressionsfunktion negativ, der quadratische positiv. Da Alter nur Werte
>0 aufweist, bedeutet dies, dass mit
größeren Werten der positive quadratische Anstieg gegenüber dem negativen linearen Abfall immer größeres Gewicht erhält.
Forschungspraktikum GMF
34
Regression auf nominalskalierte erklärende Variablen: Varianzanalyse
Da ein Regressionsgewicht angibt, wie sich der bedingte Mittelwert der abhängigen Variable
ändert, wenn ein Prädiktor um +1 Einheit ansteigt, wird implizit unterstellt, dass alle Prädiktoren metrisches Messniveau aufweisen.
Bei einer nominalskalierten erklärenden Variablen mit J Ausprägungen werden daher zunächst
J–1 Designvariablen gebildet und diese dann als Prädiktoren in das Regressionsmodell aufgenommen.
Als Beispiel soll Fremdenfeindlichkeit durch Bildungsabschluss mit den Ausprägungen "kein
Abschluss", "Hauptschulabschluss", "mittlere Reife", "Hochschulreife" und "Hochschulabschluss" vorhergesagt werden.
Zunächst werden aus der Bildungsvariable 0/1-kodierte Designvaiablen (Dummy-Variablen)
berechnet, die den Wert 1 aufweisen, wenn der entsprechende Bildungsabschluss als höchster
Abschluss erreicht wird.
Diese Dummy-Variablen dienen dann als Prädiktoren, wobei ein Abschluss als Referenzkategorie ausgelassen wird.
recode educ (missing=sysmis)(1=1)(else=0) into NoHS.
recode educ (missing=sysmis)(2,3,4=1)(else=0) into HS.
recode educ (missing=sysmis)(5,6=1)(else=0) into MR.
recode educ (missing=sysmis)(7=1)(else=0) into Abi.
recode educ (missing=sysmis)(8=1)(else=0) into Uni.
reg dep=FFmean /ent HS MR Abi Uni.
Forschungspraktikum GMF
35
Regression auf nominalskalierte erklärende Variablen: Varianzanalyse
Koeffizientena
Modell
1
(Konstante)
HS
MR
Abi
Uni
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
2.349
.072
.326
.073
.180
.073
-.190
.073
-.246
.073
Standardisie
rte
Koeffizienten
Beta
.170
.108
-.096
-.126
T
32.778
4.457
2.480
-2.595
-3.358
Signifikanz
.000
.000
.013
.009
.001
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Das Auslassen einer Referenzkategorie, im Beispiel "kein Abschluss" ist notwendig, da bereits
die übrigen 4 Dummy-Variablen alle Informationen über den Bildungsabschluss enthalten.
"Kein Bildungsabschluss" liegt vor, wenn alle Dummy-Variablen den Wert "0" aufweisen. Die
Regressionskonstante gibt daher die durchschnittliche vorhergesagte Fremdenfeindlichkeit von
Befragten ohne Abschluss an.
Die Regressionsgewichte der spezifizerten Dumy-Variablen erfassen die Distanz der jeweiligen
Gruppe zur Referenzkategorie. Befragte mit Hauptschulabschluss haben also einen um 0.326
höheren Mittelwert, Befragte mit mittlerer Reife einen um 0.180 höheren wert, Abiturienten
einen um 0.190 geringeren und Hochschulabsolventen einen um 0.246 geringeren Wert als Personen ohne Schulabschluss.
Forschungspraktikum GMF
36
Multikollinearität
Generell lassen sich Regressionsgewichte nur dann eindeutig schätzen, wenn die Prädiktoren
nicht perfekt miteinander korrelieren, da ansonsten mindestens ein Prädiktor keine zusätzliche
Information enthält.
Selbt wenn die Prädiktoren nicht perfekt, aber sehr hoch untereinander korrelieren, kann es
Schätzprobleme geben. Diese drücken sich dadurch aus, dass standardisierte Regressionsgewichte größer 1 bzw. kleiner –1 sind, dass die Standardfehler sehr groß sind und dass die Schätzung der Korrelationen der Kennwerteverteilungen der Schätzer sehr hoch sind.
SPSS berechnet vor einer Aufnahme in die Modellgleichung für jede Variable die Toleranz, das
ist eins minus dem Determinationskoeffizienten der Regression eines Pädiktors auf alle anderen
Prädiktoren. Wenn die Toleranz größer einem Minimalswert ist, wird der Prädiktor nicht berückichtigt.
Die Inverse der Toleranz wird als "VIF" (variance inflation factor) bezeichnet und gibt an, um
welchen Faktor die quadrierten Standardfehler ansteigen, wenn ein Prädiktor nicht unkorreliert
ist.
Mit den Parametern "bcov" "tol" und "collin" in der Options "/Statistics" werden
die Varianzen und Kovarianzen der Schätzerverteilungen und Kollinearitätsstatistiken ausgedruckt. Neben Toleranz und VIF wird dazu eine Hauptkomponentenanalyse der Prädiktoren
berechnet.
reg /stat def bcov collin tol
/dep=FFmean /ent NoHS to Uni .
Forschungspraktikum GMF
37
Multikollinearität
Aufgenommene/Entfernte Variablenb
Modell
1
Aufgenomme
ne Variablen
Uni, NoHS,
a
Abi, HS
Entfernte
Variablen
.
Modellzusammenfassung
Methode
Eingeben
a. Toleranz = .000 erreichte Grenzen.
b. Abhängige Variable: FFmean
Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Modell
1
R
R-Quadrat
a
.289
.083
Korrigiertes
R-Quadrat
.083
Standardf
ehler des
Schätzers
.76531
a. Einflußvariablen : (Konstante), Uni, NoHS, Abi, HS
Koeffizientena
Modell
1
(Konstante)
NoHS
HS
Abi
Uni
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
2.529
.012
-.180
.073
.146
.019
-.370
.019
-.426
.019
Standardisie
rte
Koeffizienten
Beta
-.021
.076
-.186
-.218
Kollinearitätsstatistik
T
219.464
-2.480
7.865
-19.360
-22.625
Signifikanz
.000
.013
.000
.000
.000
Toleranz
.984
.790
.798
.794
VIF
1.016
1.266
1.253
1.260
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Forschungspraktikum GMF
38
Multikollinearität
Modell
1
Ausgeschlossene Variablenb
Beta In
T
.a
MR
.
Signifikanz
.
Partielle
Korrelation
.
Kollinearitätsstatistik
Minimale
Toleranz
VIF
Toleranz
.000
.
.000
a. Einflußvariablen im Modell: (Konstante), Uni, NoHS, Abi, HS
b. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Korrelation der Koeffizientena
Modell
1
Korrelationen
Kovarianzen
Uni
1.000
.097
.369
.380
.000
.000
.000
.000
Uni
NoHS
Abi
HS
Uni
NoHS
Abi
HS
NoHS
.097
1.000
.096
.099
.000
.005
.000
.000
Abi
.369
.096
1.000
.374
.000
.000
.000
.000
HS
.380
.099
.374
1.000
.000
.000
.000
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Kollinearitätsdiagnosea
Modell
1
Dimension
1
2
3
4
5
Eigenwert
1.804
1.000
1.000
1.000
.196
Kondition
sindex
1.000
1.343
1.343
1.343
3.031
(Konstante)
.10
.00
.00
.00
.90
Varianzanteile
NoHS
HS
.00
.06
.37
.26
.37
.14
.21
.00
.04
.54
Abi
Uni
.06
.01
.25
.18
.51
.06
.11
.00
.31
.52
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Forschungspraktikum GMF
39
Interaktionseffekte
Wenn ein Regressionsmodell als Prädiktoren nur Designvariablen für nominalskalierte erklärende Variablen aufweist, spricht man auch von Varianzanalyse. Die nominalskalierten erklärenden Variablen heißen dann auch Faktoren.
Von Interaktionseffekten spricht man, wenn davon ausgegangen wird, dass der Effekt eines
Prädiktors in Abhängigkeit von den Ausprägungen der übrigen Variablen unterschiedlich ausfällt. Modelliert werden (lineare) Effekte dadurch, dass man Produkte von erklärenden Variablen als Prädiktoren berücksichtigt. In der Varianzanalyse werden dazu alle Designvariablen
verschiedener Faktoren miteinander multipliziert.
Als Beispiel wird eine 2-faktorielle Varianzanalyse mit Interaktionseffekten aus der Bildung
und Region geschätzt:
recode westost (1=0)(2=1) into Ost.
do repeat #1=HS MR Abi Uni
/#2=HSOst MROst AbiOst UniOst.
compute #2=#1*Ost.
end repeat print.
reg /stat def cha /dep=FFmean
/ent Ost HS MR Abi Uni
/ent HSOst MROst AbiOst UniOst.
Forschungspraktikum GMF
40
Interaktionseffekte
Modellzusammenfassung
Änderungsstatistiken
Modell
1
2
R
R-Quadrat
.327a
.107
.330b
.109
Korrigiertes
R-Quadrat
.106
.108
Standardf
ehler des
Schätzers
.75546
.75461
Änderung in
R-Quadrat
.107
.002
Änderung in F
297.541
7.980
df1
5
4
df2
12446
12442
Änderung in
Signifikanz
von F
.000
.000
a. Einflußvariablen : (Konstante), Uni, Ost, Abi, HS, MR
b. Einflußvariablen : (Konstante), Uni, Ost, Abi, HS, MR, AbiOst, HSOst, UniOst, MROst
ANOVAc
Modell
1
2
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Quadrats
umme
849.059
7103.154
7952.213
867.236
7084.977
7952.213
df
5
12446
12451
9
12442
12451
Mittel der
Quadrate
169.812
.571
96.360
.569
F
297.541
Signifikanz
.000a
169.218
.000b
a. Einflußvariablen : (Konstante), Uni, Ost, Abi, HS, MR
b. Einflußvariablen : (Konstante), Uni, Ost, Abi, HS, MR, AbiOst, HSOst, UniOst,
MROst
c. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Forschungspraktikum GMF
41
Interaktionseffekte
Modell
1
2
Koeffizientena
(Konstante)
Ost
HS
MR
Abi
Uni
(Konstante)
Ost
HS
MR
Abi
Uni
HSOst
MROst
AbiOst
UniOst
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
2.257
.071
.264
.015
.352
.072
.168
.072
-.165
.072
-.247
.072
2.429
.088
-.227
.148
.173
.089
-.032
.089
-.314
.089
-.398
.090
.521
.152
.563
.150
.401
.152
.432
.151
Standardisie
rte
Koeffizienten
Beta
.155
.183
.101
-.083
-.126
-.133
.090
-.019
-.158
-.204
.149
.244
.111
.143
T
31.813
18.101
4.881
2.349
-2.285
-3.420
27.690
-1.533
1.936
-.365
-3.516
-4.447
3.430
3.756
2.637
2.857
Signifikanz
.000
.000
.000
.019
.022
.001
.000
.125
.053
.715
.000
.000
.001
.000
.008
.004
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Referenzgruppe sind Befragte ohne Schulabschluss im Westen.
Die signifikanten Interaktionseffekte weisen darauf hin, dass Region und Schulabschluss
miteinander interagieren.
Forschungspraktikum GMF
42
Statistische Eigenschaften der OLS-Schätzer
Die aus Stichprobendaten berechneten Kenngrößen sollen Aussagen über die Regression in der
Population erlauben. Tatsächlich führt die OLS-Schätzung eines (linearen) Regressionsmodells
unter bestimmten Bedingungen zu statistisch optimalen Ergebnissen.
Wenn nämlich gilt:
(1) die Stichprobendaten sind eine (einfache) Zufallsauswahl aus einer Zielpopulation,
(2) die Regressionsfunktion ist korrekt spezifiziert, d.h. die bedingten Populationsmittelwerte
der abhängigen Variablen folgen der in der Vorhersagegleichung formulierten Funktion
dann sind die berechneten unstandardisierten Regressionsgewichte Realisationen von
(a) konsistenten und
(b) erwartungstreuen Schätzern,
d.h. mit steigendem Stichprobenumfang sinkt die Wahrscheinlichkeit großer Abweichungen
zwischen Schätzungen und zu schätzenden Populationswerten und der Erwartungswert aller
denkbaren Schätzungen ist mit den zu schätzenden Populationswerten identisch.
Forschungspraktikum GMF
43
Statistische Eigenschaften der OLS-Schätzer
Wenn zusätzlich gilt, dass
(3) die Residualvarianz, d.h. die bedingten Populationsvarianzen von Y gegeben X konstant
sind,
dann gilt folgendes:
(c) Die Kennwerteverteilung der Regresseionskoeffizienten ist asymptotisch um die Populationswerte multinormalverteilt,
(d) und die Residualvarianz in der Population und die Varianzen und Kovarianzen der Kennwerteverteilungen der Regressionskoeffizienten lassen sich konsistent und erwartungstreu
schätzen.
Wenn zusätzlich gilt,
(4) dass die Populationsresiduen normalverteilt sind,
dann sind
(e) die Kennwerteverteilungen der Regressionskoeffizienten auch bei kleinen Fallzahlen exakt
normalverteilt.
Die oben vorgestellten F- und T-Tests unterstellen die Gültigkeit aller vier Annahmen, wobei
bei großen Fallzahlen aufgrund der asymptotischen Annäherung an die Normalverteilung die
Tests auch ohne Normalverteilugsannahme asymptotisch gültig sind.
Forschungspraktikum GMF
44
Statistische Eigenschaften der OLS-Schätzer
Anstelle der Annahmen(1) bis (4) werden oft folgende Annahmen unterstellt:
(1) Die Werte von X sind fest vorgegeben ("fixed-X"), X ist dann keine Zufallsvariable.
(2) Die Residuen werden als Realisierungen von Zufallsvariablen aufgefasst, wobei der Erwartungswert jedes Residuums null ist.
(3) Alle Residuen sind unabhängig und identisch verteilt (engl: independent and identical
distributed): iid-Annahme.
(4) Die Residuen sind normalverteilt.
Anstelle von Annahme (1) reicht eine Konsequenz aus (1) aus:
(1/) Die Residualvariable ist nicht mit der erklärenden Variablen korreliert.
Anstelle der Annahme (3) reichen ebenfalls zwei ihrer Konsequenzen aus:
(3a) Die Varianzen der Residuen sind gleich (Homoskedastizitätsannahme)
(3b) Die Residuen sind untereinander unkorreliert (keine Autokorrelation).
Es kann gezeigt werden, dass unter der fixed-X-Annahme die Berechnungsformeln der Regressionskoeffizienten lineare Funktionen der Populationsresiduen sind. Die OLS-Schätzer
sind bei dieser Sichtweise lineare Schätzer.
Dann gilt zudem, dass die OLS-Schätzer optimal in dem Sinne sind, dass es keine erwartungstreuen linearen Schätzer mit geringeren Varianzen der Kennwerteverteilung gibt. Die OLSRegression weist daher die BLU-Eigenschaft auf, wobei BLU für "best linear unbiased" steht.
Forschungspraktikum GMF
45
Prüfung der Anwendungsvoraussetzungen der Regression
Da die positiven Eigenschaften der OLS-Schätzung an Bedingungen geknüpft ist, sollte versucht werden, die Gültigkeit der Anwendungsvoraussetzungen zu prüfen.
Als Beispiel wird die Regression von FFmean auf Links-Rechts-Selbsteinstufung, Bildung,
Alter, Region und Erhebungsjahr berechnet, wobei Bildung und Alter und Erhebungsjahr
jeweils linear und als metrische Variable in das Modell eingehen:
recode educ (missing=sysmis)(1=0)(2,3,4=1)
(5,6=2)(7=3)(8=4) into Bildung.
val lab Bildung 0'kein Abschluss' 1'Hauptschulabschluss'
2'mittl. Reife' 3'(Fach-)Hochschulreife'
4'Hochschulabschluss'
/Ost 0'Westen' 1'Osten'.
compute Welle=jahr-2002.
freq FFmean po01 Bildung age Ost Welle
/form notab /stat min max mean std.
reg descriptives /dep=FFmean
/ent po01 Bildung age Ost Welle.
Die Option "/descriptives" berechnet zunächst für alle Modellvariablen desktiptive
Statistiken.
Forschungspraktikum GMF
46
Prüfung der Anwendungsvoraussetzungen der Regression
Deskriptive Statistiken
FFmean
Fremdenfeindlichkeit
5-mean(ff03 to ff08)
po01
Links-RechtsSelbsteinstufung
Bildung
age
Ost
Welle
Mittelwert
Standardab
weichung
2.3875
.79593
11960
2.76
.819
11960
2.3991
45.2576
.3282
1.7624
1.07609
16.19906
.46957
1.37149
11960
11960
11960
11960
N
Korrelationen
Korrelation nach Pearson
FFmean
Fremdenfeindlichkeit
5-mean(ff03 to ff08)
po01
Links-RechtsSelbsteinstufung
Bildung
age
Ost
Welle
FFmean
Fremdenfei
ndlichkeit
5-mean(ff0
3 to ff08)
po01
LinksRechtsSelbstein
stufung
1.000
.300
-.269
.150
.152
.070
.300
1.000
-.152
.044
-.077
-.026
-.269
.150
.152
.070
-.152
.044
-.077
-.026
1.000
-.080
.027
.059
-.080
1.000
.053
-.029
.027
.053
1.000
-.029
.059
-.029
-.029
1.000
Forschungspraktikum GMF
Bildung
age
Ost
Welle
47
Prüfung der Anwendungsvoraussetzungen der Regression
ANOVAb
Modellzusammenfassung
Modell
1
R
R-Quadrat
.442a
.195
Korrigiertes
R-Quadrat
.195
Standardf
ehler des
Schätzers
.71425
Modell
1
a. Einflußvariablen : (Konstante), Welle, po01
Links-Rechts-Selbsteinstufung, age, Ost, Bildung
Regression
Residuen
Gesamt
Quadrats
umme
1477.761
6098.396
7576.157
df
5
11954
11959
Mittel der
Quadrate
295.552
.510
F
579.338
Signifikanz
.000a
a. Einflußvariablen : (Konstante), Welle, po01 Links-Rechts-Selbsteinstufung, age,
Ost, Bildung
b. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Koeffizientena
Modell
1
(Konstante)
po01
Links-RechtsSelbsteinstufung
Bildung
age
Ost
Welle
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
1.601
.036
Standardisie
rte
Koeffizienten
Beta
T
44.394
Signifikanz
.000
.268
.008
.276
33.151
.000
-.169
.006
.299
.057
.006
.000
.014
.005
-.228
.113
.177
.099
-27.372
13.739
21.415
12.001
.000
.000
.000
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Forschungspraktikum GMF
48
Prüfung der Anwendungsvoraussetzungen: Korrekte Modellspezifikation
Zur Beurteilung der Gültigkeit der Modellspezifikation können die Residuen gegen die Werte
der abhängigen Variable geplottet werden. Oft werden auch sogenannte Partialplots berechnet,
bei denen die Residuen der abhängigen und einer erklärenden Variable betrachtet werden, wobei beide Variablen jeweils auf die übrigen erklärenden Variablen regrediert sind.
reg /dep=FFmean /ent po01 Bildung age Ost Welle
/sca (*resid age) /part age.
Forschungspraktikum GMF
49
Prüfung der Anwendungsvoraussetzungen: Korrekte Modellspezifikation
Die Punktewolken weisen nicht darauf hin, dass der (partielle) Zusammenhang nichtlinear ist.
Als weitere Kontrolle können die Residuen auch in die aktive Datenmatrix gespeichert werden
und z.B. bedingte Mittelwerte gegen eine (gruppierte) erklärende Variable berechnet werden.
Forschungspraktikum GMF
50
Prüfung der Anwendungsvoraussetzungen: Korrekte Modellspezifikation
recode age (lo thru 25=1)(25 thru 35=2)(35 thru 45=4)
(45 thru 55=5)(55 thru 65=6)(65 thru hi=7)
into agegroup.
reg /dep=FFmean /ent po01 Bildung age Ost Welle
/save resid(e1).
means e1 by agegroup /stat all.
Bericht
e1 Unstandardized Residual
agegroup
1.00
2.00
4.00
5.00
6.00
7.00
Insgesamt
Mittelwert
.0196486
.0024980
-.0018241
-.0168107
-.0357572
.0454913
.0000000
N
1490
2004
2969
2191
1753
1553
11960
Standardab
weichung
.67424632
.68713032
.68782006
.73245450
.74318487
.77091394
.71410222
Die Mittelwerte der Residuen weisen Werte nahe
null auf, wobei die Mittelwerte an den Rändern
eher unter- und an den Extremen eher überschätzt
werden.
Die Mittelwertdifferenzen sind zwar bei 5%, aber
nicht bei 1% signifikant. Aufgrund der hohen
Fallzahl sollte α maximal 1% sein.
ANOVA-Tabelle
e1 Unstandardized
Residual * agegroup
Zwischen den
Gruppen
Innerhalb der Gruppen
Insgesamt
(Kombiniert)
Linearität
Abweichung von der
Linearität
Quadrats
umme
6.672
.052
5
1
Mittel der
Quadrate
1.334
.052
F
2.619
.102
Signifikanz
.023
.749
6.620
4
1.655
3.248
.011
6091.724
6098.396
11954
11959
.510
Forschungspraktikum GMF
df
51
Prüfung der Anwendungsvoraussetzungen: Korrekte Modellspezifikation
Es besteht auch die Möglichkeit, Nichtlinearität über eine nichtlineare Regression zu testen:
reg /dep=FFmean /ent po01 Bildung age Ost Welle age2.
Koeffizientena
Modell
1
(Konstante)
po01
Links-RechtsSelbsteinstufung
Bildung
age
Ost
Welle
age2
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
1.681
.055
Standardisie
rte
Koeffizienten
Beta
T
30.310
Signifikanz
.000
.268
.008
.276
33.140
.000
-.167
.002
.299
.057
4.26E-005
.006
.002
.014
.005
.000
-.226
.032
.177
.098
.083
-26.872
.724
21.418
11.967
1.893
.000
.469
.000
.000
.058
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Bei Kontrolle der übrigen Variablen ist der nichtlineare Alterseffekt selbst bei einer Irrtumswahrscheinlichkeit von 5% nicht signifikant.
Bei erklärenden Variablen mit wenigen (J) Ausprägungen (wie bei der Bildung) kann die Linearitätsannahme durch zusätzliche Dummy-Variablen für J–2 Ausprägungen überprüft werden:
reg stat def cha /dep=FFmean
/ent po01 Bildung age Ost Welle /ent NoHS Abi Uni.
Forschungspraktikum GMF
52
Prüfung der Anwendungsvoraussetzungen: Korrekte Modellspezifikation
Modellzusammenfassung
Änderungsstatistiken
Modell
1
2
R
R-Quadrat
.442a
.195
.447b
.200
Standardf
ehler des
Schätzers
.71425
.71236
Korrigiertes
R-Quadrat
.195
.199
Änderung in
R-Quadrat
.195
.004
Änderung in F
579.338
22.174
df1
5
3
df2
11954
11951
Änderung in
Signifikanz
von F
.000
.000
a. Einflußvariablen : (Konstante), Welle, po01 Links-Rechts-Selbsteinstufung, age, Ost, Bildung
b. Einflußvariablen : (Konstante),
Welle, po01 Links-Rechts-Selbsteinstufung, age, Ost, Bildung, NoHS, Abi, Uni
Koeffizientena
Modell
1
2
(Konstante)
po01
Links-RechtsSelbsteinstufung
Bildung
age
Ost
Welle
(Konstante)
po01
Links-RechtsSelbsteinstufung
Bildung
age
Ost
Welle
NoHS
Abi
Uni
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
1.601
.036
Standardisie
rte
Koeffizienten
Beta
T
44.394
Signifikanz
.000
.268
.008
.276
33.151
.000
-.169
.006
.299
.057
1.528
.006
.000
.014
.005
.048
-.228
.113
.177
.099
-27.372
13.739
21.415
12.001
32.162
.000
.000
.000
.000
.000
.265
.008
.273
32.797
.000
-.098
.005
.289
.057
-.272
-.179
-.194
.018
.000
.014
.005
.077
.030
.047
-.132
.111
.170
.099
-.032
-.091
-.100
-5.285
12.833
20.494
12.058
-3.548
-5.951
-4.123
.000
.000
.000
.000
.000
.000
.000
Die Analyse zeigt, dass Bildung nicht
als linearer Effekt modelliert werden
sollte, sondern besser als nominalskalierte Variable in das Modell aufzunehmen ist:
reg /dep=FFmean
/ent po01 age Ost Welle
NoHS MR Abi Uni.
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Forschungspraktikum GMF
53
Prüfung der Anwendungsvoraussetzungen: Korrekte Modellspezifikation
ANOVAb
Modellzusammenfassung
Modell
1
R
R-Quadrat
.447a
.200
Korrigiertes
R-Quadrat
.199
Standardf
ehler des
Schätzers
.71236
a. Einflußvariablen : (Konstante), Uni, Ost, NoHS, Welle,
age, po01 Links-Rechts-Selbsteinstufung, Abi, MR
Modell
1
Regression
Residuen
Gesamt
Quadrats
umme
1511.518
6064.639
7576.157
df
8
11951
11959
Mittel der
Quadrate
188.940
.507
F
372.325
Signifikanz
.000a
a. Einflußvariablen : (Konstante), Uni, Ost, NoHS, Welle, age, po01
Links-Rechts-Selbsteinstufung, Abi, MR
b. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Koeffizientena
Modell
1
(Konstante)
po01
Links-RechtsSelbsteinstufung
age
Ost
Welle
NoHS
MR
Abi
Uni
Nicht standardisierte
Koeffizienten
Standardf
ehler
B
1.431
.036
Standardisie
rte
Koeffizienten
Beta
T
39.386
Signifikanz
.000
.265
.008
.273
32.797
.000
.005
.289
.057
-.174
-.098
-.375
-.487
.000
.014
.005
.071
.018
.021
.020
.111
.170
.099
-.021
-.059
-.190
-.251
12.833
20.494
12.058
-2.454
-5.285
-17.822
-24.091
.000
.000
.000
.014
.000
.000
.000
a. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Forschungspraktikum GMF
54
Prüfung der Anwendungsvoraussetzungen: Kontrolle auf Inhomogenität
Ein Regressionmodell ist vermutlich nicht korrekt spezifziert, wenn wenige Ausreißerfälle die
Regressionsfunktion stark beeinflussen. Dies könnte für eine Verletzung der iid-Annahme
sprechen.
Eine Möglichkeit, mögliche Ausreißerfälle zu kontrollieren ist die Berechnung und Ausgabe
von Cooks Distanzen:
reg dep=FFmean /ent po01 age Ost Welle NoHS MR Abi Uni
/sca (*cook,*pred).
Der Plot von Cooks Distanzen
nach den Vorhersagewertten
weist nicht auf besonders einflussreiche Fälle hin: alle Werte
der Distanzen sind kleiner 0.01.
Forschungspraktikum GMF
55
Prüfung der Anwendungsvoraussetzungen: Kontrolle auf Homoskedastizität
Da die Standardfehler der Residuen an den Rändern der Verteilung kleiner werden, sind die
Stichprobenresiduen selbst dann nicht homoskedastisch, haben also variierende Varianzen,
wenn die Populationsresiduen homoskedastisch wären.
Zur Kontrolle werden daher die Residuen durch ihre geschätzten Populationsstandardabweichungen geteilt. Zur Unterscheidung von Z-Werten werden diese Quotienten in SPSS als studentisierte Residuen bezeichnet.
reg dep=FFmean /ent po01 age Ost Welle NoHS MR Abi Uni
/sca (*sresid,*pred).
Zwar sind die Bandbreiten der
Residuen in etwa gleich groß;
es fällt jedoch auf, dass bei kleinen Vorhersagewerten eher positive und bei großen eher negative studentisierte Residuen
auftreten.
Dies ist eine Folge des begrenzten Wertbereichs der abhängigen
Variable.
Forschungspraktikum GMF
56
Prüfung der Anwendungsvoraussetzungen: Kontrolle auf Autokorrelation
Für eine gewisse Kontrolle der Autokorrelation der Residuen (zwischen zwei benachbarten
Fällen) kann in der Option "/Residuals" die Durbin-Watson-Statistik zur Prüfung auf Autokorrelation berechnet werden. Werte um 2 weisen auf keine Autokorrelation, Werte nahe Null
auf negative und Werte nahe 4 auf positive Autorkorrelation hin:
reg dep=FFmean /ent po01 age Ost Welle NoHS MR Abi Uni
/resid def durbin.
Modellzusammenfassungb
Modell
1
R
R-Quadrat
.447a
.200
Korrigiertes
R-Quadrat
.199
Standardf
ehler des
Schätzers
.71236
DurbinWatsonStatistik
1.983
a. Einflußvariablen : (Konstante), Uni, Ost, NoHS, Welle, age, po01
Links-Rechts-Selbsteinstufung, Abi, MR
b. Abhängige Variable: FFmean Fremdenfeindlichkeit 5-mean(ff03 to ff08)
Der berechnete Wert nahe 2 weist darauf hin, dass es vermutlich keine Verletzung der Annahme gibt, dass die Residuen nicht autokorreliert sind.
Forschungspraktikum GMF
57
Prüfung der Anwendungsvoraussetzungen: Kontrolle auf Normalverteilung
Mit den Default-Parametern "NORMPROB(ZRESID)" und "HISTOGRAM(ZRESID)" der Option "/residuals", werden QQ-Plots der z-transformierten Residuen gegen eine Normalverteilung und ein Histogramm der Residuen angefordert, anhand derer deutliche Abweichungen
von der Normalverteilungsannahme entdeckt werden können.
Forschungspraktikum GMF
58
Prüfung der Anwendungsvoraussetzungen: Kontrolle auf Normalverteilung
Die Abbildungen weisen nicht auf außergewöhnlichen Abweichungen von der Normalverteilungsannahme hin.
Forschungspraktikum GMF
59
Syntax der SPSS-Prozedur Regression
REGRESSION Variables=varlist
/DESCRIPTIVES= DEFAULTS MEAN STDDEV CORR COV VARIANCE
XPROD N
/SELECT=varname relation value
/MISSING=INCLUDE PAIRWISE MEANSUBSTITUTION
/REGWGT=varname
/STATISTICS=DEFAULTS R COEFF ANOVA OUTS ZPP LABEL CHA CI
F BCOV SES XTX COLLIN TOL ALL
/CRITERIA=TOL(zahl)PIN(zahl)POUT(zahl)FIN(zahl)FOUT(zahl}CIN(zahl)
/ORIGIN
/DEPENDENT=varlist /METHOD=ENTER varlist oder REMOVE varlist
oder FORWARD varlist oder BACKWARD varlist
oder STEPWISE varlist
/RESIDUALS=DEFAULTS DURBIN OUTLIERS(ZRESID) ID(varname)
NORMPROB(ZRESID) HISTOGRAM(ZRESID)
/CASEWISE=DEFAULTS All oder OUTLIERS(3)
PLOT(ZRESID) DEPENDENT PRED RESID tempvars
/SCATTERPLOT (varname,varname) ...
/PARTIALPLOT=ALL oder varlist
/SAVE=tempvar(newname) ... .
Die Optionen werden einzeln vorgestellt.
Forschungspraktikum GMF
60
Syntax der SPSS-Prozedur Regression
/DESCRIPTIVES= DEFAULTS MEAN STDDEV CORR COV VARIANCE
XPROD N
Berechnung deskriptiver Statistiken:
"defaults": Mittelwert ("mean"), Standardabweichung ("stddev") und Korrelationen
("corr"). Bei Nennung von Parametern werden nur diese aufgeführt, wobei neben den
Defaults "variance" für die geschätzte Populationsvarianzen, "cov" für die Varianzen und
Kovarianzen, "xprod" für die Variationen und Kovariationen und "N" für eine Tabelle mit den
verwendeten Fällen bei der Berechnung der Korrelationen steht.
Bei "cov", "var" und "std" wird durch Fallzahl minus 1 geteilt.
/SELECT=varname relation value
Mit der Option können Fälle für die Berechnung ausgewählt werden.
Vorhersagewerte, Residualstatistiken und temopräre Variablen werden getrennt für ausgewählte und nichtausgewählte Fälle berechnet.
• "varname" darf nicht in der Option "variables" vorkommen;
• "relation" steht für "EQ", "NE", "LT", "LE", "GT", or "GE". Andere Symbole sind unzulässig.
• Die Schätzung erfolgt auf der Basis der Fälle, bei denen die Bedingung in "/select" erfüllt
ist.
/REGWGT=varname
Mit der Option können Fälle über die aufgeführte Variable gewichtet werden, um Heteroskedastizität auszugleichen.
Forschungspraktikum GMF
61
Syntax der SPSS-Prozedur Regression
/MISSING=INCLUDE PAIRWISE MEANSUBSTITUTION
Voreingestellt ist fallweiser Ausschluss bei mindestens einem ungültigen Wert bei einer Modellvariable. Mit "include" werden benutzerdefinierte Missing Values als gültig betrachtet,
bei "pairweise" werden Fälle paarweise ausgeschlossen und bei "meansubstitution"
werden fehlende Fälle durch den Mittelwert der Variable ersetzt.
/STATISTICS=R COEFF ANOVA OUTS DEFAULTS ALL
ZPP LABEL CHA CI F BCOV SES XTX COLLIN TOL
Mit Statisik wird die Ausgabe der Regressionsschätzung gesteuert; "default" umfasst "R"
für die Berechnung der multiplen Korrelation, des einfachen und adjustierten Determinationskoeffizienten und die Wurzel aus der geschätzten Residulavarianz, "coeff" für die Regressionskoeffizienten, deren Standardfehler, T-Werte und zweiseitigen empirischen Signifikanzen,
sowie den standard. Regressionsgewichten, "anova" für die Variationszerlegung und F-Test
von R-Quadrat und "outs" für das stand. gewicht, T-Test und minimale Toleranz für Variablen, die nicht in die Modellgleichung aufgenommen wurden.
"ZPP" berechnet die einfachen, partiellen und semipartiellen Korrelationen eines Prädiktors
mit der abhängigen Variablen, "CI" Konfidenzintervalle für die unstandardisierten Koeffizienten, "cha" Differenzen der Determinationskoeffizienten und zugehörige F-Tests bei schrittweisen Regressionen, "F" F-Tests statt T-tests, "bcov" Varianzen und Kovarianzen der geschätzten Koeffizien-ten, "SES" asymptotische Standardfähler für die standardisierten Regressionsgewichte, "collin" Kollinearitätsstatistiken (Eigenwerte und VIF), "tol" Toleranzen und
"all" alle verfügbaren Statistiken.
Forschungspraktikum GMF
62
Syntax der SPSS-Prozedur Regression
/ORIGIN
Die Option "origin" berechnet eine Regressionslinie durch den Ursprung ohne Regressionskonstante.
Bei der Berechnung werden Rohmomente anstelle von Momenten um den Mittelwert genutzt.
/DEPENDENT=varlist
Spezifikation einer oder mehrerer abhängiger Variablen.
/METHOD=ENTER varlist oder REMOVE varlist oder FORWARD varlist
oder BACKWARD varlist oder STEPWISE varlist
Das Schlüsselwort "method" kann ausgelassen werden.
"enter varlist":
Alle aufgeführten Variablen werden (zusätzlich) in die Regressionsgleichung aufgenommen, soweit sie nicht den kritischen Toleranzwert unterschreiten.
Alle aufgeführten Variablen werden aus der Modellgleichung entfernt.
"remove varlist":
"backward varlist": Automatischer Ausschluss, solange die Werte von "fout" unter- bzw.
"pout" überschritten werden.
"forward varlist": Automatischer schrittweiser Einschluss, solange die Werte von "fint"
über- bzw. "pint" unterschreiten.
"stepwise varlist": = Abwechselnd "backward" und "forward" bis keine Variable
mehr aufgenommen und keine mehr entfernt werden kann.
Forschungspraktikum GMF
63
Syntax der SPSS-Prozedur Regression
Die Prozedur Regression kann eine Reihe temporärer Variablen generieren, die für die Modellbeurteilung benötigt und auch in den aktiven Datensatz aufgenommen werden können:
"pred":
unstandardisierte Vorhersagewerte,
"sepred": Standardfehler eines Vorhersagewertes
"zpred":
standardisierte Vorhersagewerte,
"adjpred": adjustierte Vorhersagewerte, das sind Vorhersagewerte, wenn der betrachtete
Fall bei der Schätzung der Modellgleichung ignoriert wird,
Differenz aus "pred" und "adjpred",
"dffit":
unstandardisierte Residuen,
"resid":
"zresid": standardisierte Residuen,
"sresid": studentisierte Residuen, das sind Residuen, die durch ihre geschätzte Populationsstandardabweichung geteilt sind,
"dresid": Differenz zwischen abhängiger Variable und adjustierten Vorhersagewert,
"sdresid": standardisiertes "dresid",
Hebelwert (leverage) eines Falles,
"lever":
Cooks Distanzwerte,
"cook":
"dffit":
Differenz aus "pred" und "adjpred",
"mcin" und
"icin":
Grenzen von Konfidenzintervallen für geschätzte Mittelwerte bzw. individuelle
Vorhersagewerte.
Forschungspraktikum GMF
64
Syntax der SPSS-Prozedur Regression
/RESIDUALS=DEFAULTS DURBIN OUTLIERS(ZRESID) ID(varname)
NORMPROB(ZRESID) HISTOGRAM(ZRESID)
"durbin" berechnet die Durbin-Watson-Statistik zur Prüfung auf Autokorrelation. Werte um
2 weisen auf keine Autokorrelation, Werte nahe Null auf negative und Werte nahe
4 auf positive Autorkorrelation hin.
"out(zres)" Die 10 Fälle mit den größten Werten der temporären Variable in der Klammer
werden ausgegegen. Neben "zresid" können "resid", "sredid", "dresid",
"sdresid" und "cook" angegeben werden.
Für jeden gelistetenFall wird die Fallnummer aus "$casenum" mit ausgegeben. Wird zusätzlich mit "ID(varname)" eine belibige Variable aus dem
Datensatz genannt, wird auch deren jeweilige Realisierung mit ausgegeben.
"normprob(zres)" druckt ein QQ-Plot gegen die Normalverteilung aus. Neben "zresid"
können "zpred" und "sdresid" geplottet werden.
"hist(zres)": Histogramme der aufgeführten temopären Variable werden erzeugt.
Neben "zresid" können "resid", "sresid", "dresid", "sdresid", "pred",
"zpred", "adjpred", "sepred", "lever" und "cook" angegeben werden.
= "durb out norm hist"
"Default":
Forschungspraktikum GMF
65
Syntax der SPSS-Prozedur Regression
/CASEWISE=DEFAULTS All oder OUTLIERS(3)
PLOT(ZRESID) DEPENDENT PRED RESID tempvars
Die Option "casewise" berechnet fallweise Statistiken entweder für alle Fälle ("ALL") oder
für die Fälle, für die der Absolutwert der im Parameter "plot" aufgeführten Variable mindestens
den Wert in der Klammer hinter "outliers" hat.
Für diese Fälle könen die Werte der abhängigen Variable ("dependent"), der Vorhersagewerte
("pred"), der Residuen ("resid") sowie aller anderen temporären Variablen aufgeistet werden.
Wenn in der Option "/residuals" im Parameter "id" eine Variable aufgeführt wird, wird
diese neben der stets ausgedruckten Variable "$casenum" mit ausgegegben.
/SCATTERPLOT (varname,varname) ...
Die Option "scatterplot" erzeugt Punktewolken der aufgeführten Variablenpaare.
Angesprochen werden können alle Variablen, die in der Option "variables=" aufgeführt
sind, sowie die temporären Variablen "pred", "zpred", "adjpred", "sepref", "resid", "zresid",
"sresid", "dresid", "sdresid", "lever" und "cook". Um diese Variablen von benutzererzeugten zu
unterscheiden, werden sie durch "*" am Anfang gekennzeichnet, z.B. "(*resid,*pred)".
/PARTIALPLOT=ALL oder varlist
Die Option "partialplot" erzeugt Punktewolken der Residuen der abhängigen Variable
gegen die Residuen der in "varlist" aufgeführten erklärenden Variablen, wobei abhängige und
unabhängige Variable jeweils auf alle anderen erklärenden Variablen regrediert worden sind.
Forschungspraktikum GMF
66
Syntax der SPSS-Prozedur Regression
/SAVE=tempvar(newname) ...
Mit der Option "/save" können die aufgeführten temporären Variablen (z.B. "pred" und
"resid" als zusätzliche Variablen an die Datenmatrix des aktiven Datensatzes angehängt
werden. In Klammern können Variablennamen für die temporären Variablen vergeben
werden. Ansonsten generiert SPSS Variablennamen.
Voraussetzung für die Aufnahme in den Datensatz ist, dass in "/dependent" nur eine
abhängige Variable definiert ist.
Forschungspraktikum GMF
67
Herunterladen