Die Analyse der Residuen des Regressionsmodells

Werbung
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
1
Die Analyse der Residuen des Regressionsmodells
Die Analyse der Residuen eines geschätzten Regressionsmodells verfolgt drei Ziele, bei denen
jeweils die Modellannahmen überprüft werden:
1.
Streuen die Residuen gleichmäßig um die Regressionsgerade bzw. Ebene ? Hierbei wird
die Varianzhomogenität der Residuen - ihre Homoskedastizität - überprüft.
2.
Können wir bei der empirischen Verteilung der betrachteten Variablen jeweils einen
linearen Zusammenhang unterstellen ? Hierbei wird die Linearitätsannahme für die
betrachteten empirischen Zusammenhänge untersucht.
3.
Welche Datenpunkte liegen besonders weit von der Regressionsgeraden entfernt und
stellen damit einflussreiche “Ausreißer” dar ?
Wie der folgenden Grafik zu entnehmen ist, unterstellt das Regressionsmodell stets einen
linearen Zusammenhang, wie er in Beispiel ( a ) vorliegt. Selbst wenn ein nichtlinearer Zusammenhang wie im Beispiel ( b ) existiert, legt das Regressionsverfahren eine Gerade durch
die umgekehrte Parabel. Daher wissen wir nicht, worauf eine schlechte Modellanpassung
zurückzuführen ist. Besteht wirklich kein Zusammenhang zwischen beiden Merkmalen oder ist
dieser Zusammenhang nur nicht linear ? Die Beispiele ( c ) und ( d ) veranschaulichen den
Einfluß von “Ausreißern” auf die Lage der Regressionsgeraden. Im Beispiel ( c ) zieht der
“Ausreißer” die Regressionsgerade nach oben, im zweiten Beispiel konstituiert der Ausreißer
einen Scheinzusammenhang. Ohne ihn läge im Beispiel ( d ) kein Zusammenhang vor, da alle
Beobachtungen über identische X-Werte verfügen und somit keine Varianz aufweisen. (Fox
1991, S. 4)
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
2
Die Linearität bivariater Zusammenhänge lässt sich mit Hilfe einfacher Streudiagramme
überprüfen. Als inhaltliches Beispiel bietet sich hierfür die Analyse der Säuglingssterblichkeit
in der dritten Welt an, für die wir einen Aggregatdatensatz der Weltgesundheitsorganisation
(WHO) der Vereinten Nationen verwenden. Er liegt auf unserem Kursverzeichnis
“G:\DATEN\METH4". Die zugehörige Datei heißt “WHO.SAV”. Wir betrachten hierbei die
Zusammenhänge der folgenden vier Indikatoren:
V7:
V8:
Säuglingssterblichkeit pro 1000. Lebendgeborene ( in Promille)
Medizinische Versorgungsdichte: Durchschnittliche Anzahl der Einwohner pro praktizierenden Arzt.
V10: Ernährungssituation: Mittlere tägliche Kalorienmenge in Kcal pro Person
V11: Alphabetisierungsgrad: Anteil der Personen über 15 Jahre an der Bevölkerung, die
Lesen und Schreiben können.
Hierbei testen wir die folgenden drei Hypothesen:
1.
2.
3.
Je schlechter der medizinische Versorgungsgrad ist, desto höher ist die Säuglingssterblichkeit. D.h., je mehr Patienten im Landesdurchschnitt von einem Arzt betreut werden
müssen, desto höher fällt die Säuglingssterblichkeit aus.
Je besser die Ernährungssituation ist, desto niedriger ist die Säuglingssterblichkeit.
Je höher der Alphabetisierungsgrad ist, desto niedriger ist die Säuglingssterblichkeit.
Um die Linearität der Zusammenhänge zu überprüfen, erzeugen wir zunächst mit SPSSfWin
eine Matrix bivariater Streudiagramme, wobei wir die Datenpunkte dergestalt kennzeichnen,
dass der jeweilige Kontinent über die Gruppenvariable V2 erkennbar ist.
SPSSfWin-Menü:
Grafik - Scatterplot - Matrix: Definieren
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
3
SPSSfWin-Syntax:
GRAPH
/SCATTERPLOT(MATRIX)=v7 v8 v10 v11 BY v2
/MISSING=LISTWISE .
SPSSfWin-Grafik: Matrix der bivariaten Streudiagramme
KINDERSTER
EINW. / ARZT
KONTINENT:
Asien/Europa
ERNÄHRUNG
Ozeanien
Europa
Asien
BILDUNG
Amerika
Afrika
Total Population
Abb. 1:
Matrix-Streugramm der betrachteten Variablen. (WHO-Daten 1983)
Die obige Matrix von Streudiagrammen ist symmetrisch aufgebaut, wobei die abhängige
Variable jeweils auf der Y-Achse und die unabhängige auf der X-Achse abgetragen wird. Die
Hauptdiagonale enthält die zugehörigen Variablennamen bzw. Etiketten, die im Grafikeditor
auch geändert werden können. Die Herkunftskontinente der Länder lassen sich über die
Symbole der Legende identifizieren. Über die Grafik-Option des Untermenüs “Bearbeiten”
legen wir eine Regressionsgerade durch den jeweiligen Punktschwarm, wodurch sich die
Linearitätsannahme des Regressionsmodells direkt überprüfen läßt. Eine genauere Betrachtung
der Punktschwärme ergibt, dass einige “nichtlineare” Zusammenhänge vorliegen. Die klarste
Abweichung von der Geraden als “funktionalem Zusammenhang” liegt zwischen der Säuglingssterblichkeit und der medizinischen Versorgungsdichte vor, wobei erstens offensichtlich ein
logarithmischer Zusammenhang in der Form besteht, dass mit zunehmender Einwohneranzahl
pro Arzt sich der Anstieg der Säuglingssterblichkeit deutlich abflacht. Zweitens weichen drei
Ausreißer deutlich von diesem Trend ab. Letztere markieren wir in einem separaten bivariaten
Streudiagramm mit Hilfe des speziellen Cursors für die Auswahl von Datenpunkten.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
4
Wie Abb. 2 zu entnehmen ist, handelt es sich bei ihnen um Kampuchea, Gambia und die
Seychellen.
300
KINDERSTERBLICHKEIT in 0/00
Kampuchea
eychellen
Gambia
200
Tschad
Burkina-Faso
Äquatorial-Guinea
Äthiopien
100
0
0
20000
40000
60000
80000
EINWOHNER PRO ARZT:Zahl der Einwohner auf 1 praktizierenden Arzt
Abb.2:
Säuglingssterblichkeit auf medizinische Versorgungsdichte (WHO 1983)
Berechnng der zugehörigen bivariaten Korrelationen:
SPSSfWin-Menü: Statistik - Korrelationen
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
5
SPSSfWin-Syntax:
CORRELATIONS
/VARIABLES=v7 v8 v10 v11
/PRINT=TWOTAIL SIG
/MISSING=LISTWISE .
SPSSfWin-Ausgabeprotokoll:
- V7
Correlation Coefficients
V8
V10
- -
V11
V7
1,0000
( 104)
P= ,
,6079
( 104)
P= ,000
-,6708
( 104)
P= ,000
-,8604
( 104)
P= ,000
V8
,6079
( 104)
P= ,000
1,0000
( 104)
P= ,
-,5406
( 104)
P= ,000
-,6391
( 104)
P= ,000
V10
-,6708
( 104)
P= ,000
-,5406
( 104)
P= ,000
1,0000
( 104)
P= ,
,6436
( 104)
P= ,000
V11
-,8604
( 104)
P= ,000
-,6391
( 104)
P= ,000
,6436
( 104)
P= ,000
1,0000
( 104)
P= ,
(Coefficient / (Cases) / 2-tailed Significance)
" , " is printed if a coefficient cannot be computed
Der bereits in der Streudiagrammmatrix erkennbare nichtlineare Zusammenhang zwischen der
Säuglingssterblichkeit und der medizinischen Versorgungsdichte weist in der obigen Matrix den
niedrigsten Korrelationskoeffizienten auf. Sowohl die Ernährungslage als auch der Bildungsgrad
üben einen deutlich stärkeren Einfluß aus.
Wie können wir diesen nichtlinearen, logarithmischen Zusammenhang zwischen Säuglingssterblichkeit und medizinischer Versorgungsdichte in unserem linearen Regressionsmodell
zunächst identifizieren und anschließend durch eine geeignete Datentransformation “linearisieren” ?
Hierfür berechnen wir zunächst ein bivariates Regressionsmodell mit SPSSfWin und lassen uns
anschließend die standardisierten Residuen gegen die standardisierten geschätzten Werte für Y
plotten. Dies kann entweder direkt aus dem Regression-Menü oder im nachhinein über einen
separaten Grafik-Streudiagramm-Befehl erfolgen. Durch die Verwendung der Z-standardisierten
Werte erreichen wir eine höhere Kompaktheit der graphischen Darstellung, wobei die Konfiguration der Datenpunkte als solche erhalten bleibt.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
ZStandardisierung der geschätzten Werte Ŷ i:
ZŶ Ŷ i Ŷ
sŶ
i
ZStandardisierung der Residuen ei: ei Y i Ŷ i
Ze i
SPSSfWin-Menü:
ei e
se
ei 0
se
Statistik - Regression - Linear
ei
se
-
6
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
SPSSfWin-UnterMenü:
-
7
Grafiken ...
Zusätzlich zu unserem Streudiagramm der z-standardisierten Residuen vs. die ebenfalls zstandardisierten vorhergesagten Werte von Y fordern wir eine Auflistung der Fälle (Länder) an,
die mehr als 2 Standardabweichungen (sy) von der Regressionsgeraden entfernt liegen. Um im
bivariaten Streudiagramm die “Ausreißer” leichter zu identifizieren, geben wir zusätzlich als
“Identifikationsvariable” V1 mit den Ländernamen an.
SPSSfWin-Syntax:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT v7
/METHOD=ENTER v8
/SCATTERPLOT=(*ZRESID ,*ZPRED )
/RESIDUALS ID(v1 )
/CASEWISE PLOT(ZRESID) OUTLIERS(2) .
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
SPSSfWin-Ausgabeprotokoll:
Multiple R
R Square
Adjusted R Square
Standard Error
,58851
,34634
,34204
46,27155
Analysis of Variance
DF
1
152
Regression
Residual
F =
Sum of Squares
172436,52421
325440,54073
80,53807
Signif F =
Mean Square
172436,52421
2141,05619
,0000
------------------ Variables in the Equation -----------------Variable
V8
(Constant)
B
SE B
Beta
T
Sig T
,002745
54,668365
3,0586E-04
4,400991
,588510
8,974
12,422
,0000
,0000
Casewise Plot of Standardized Residual
Outliers = 2,
Case #
14
16
18
40
114
150
V1
114
116
118
141
308
349
*: Selected
M: Missing
-5,
-2, 2,
5,
O:.......: :.......:O
.
*..
.
.
.. *
.
.
..*
.
.
..
*
.
.
..
*
.
.
..*
.
V7
155
204
172
215
260
170
*PRED
253,8975
86,5969
76,9019
60,7675
96,6569
72,8642
6 Outliers found.
Residuals Statistics:
Min
*PRED
*RESID
*ZPRED
*ZRESID
Max
Mean
Std Dev
N
55,3820 253,8976
-98,8975 163,3431
-,6037
5,3095
-2,1373
3,5301
75,6494
,0000
,0000
,0000
33,5714
46,1201
1,0000
,9967
154
154
154
154
Total Cases =
215
*RESID
-98,8975
117,4031
95,0981
154,2325
163,3431
97,1358
8
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
9
Interpretation der Ergebnisse:
Unter der Annahme, dass zwischen der Säuglingssterblichkeit und der medizinischen Versorgungsdichte ein linearer Zusammenhang besteht, erklären wir rd. 34,4% der Varianz des
Kriteriums. Die Regressionskoeffizienten lassen sich folgendermaßen interpretieren: Befänden
wir uns in einer “Ärzterepublik ohne sonstige Patienten”, so läge die Säuglingssterblichkeit im
Durchschnitt bei geschätzten 54,7 Promille. Mit einer Zunahme der Einwohnanzahl um jeweils
1000 Personen steigt die geschätzte Mortalität im Durchschnitt um jeweils 2,75 Promille. Die
Auflistung der Residuen ergibt, dass insgesamt sechs Länder mehr als zwei Standardabweichungen von der Regressionsgeraden abweichen. Bei ihnen handelt es sich um Äthiopien,
Gambia, Guinea, die Seychellen, Kampuchea sowie den Nordjemen. Da das Regressionsmodell
mit 34,4% “erklärter Varianz” eine für Aggregatdaten schlechte Anpassung aufweist, müssen
wir überprüfen , ob die unterstellte Linearitätsannahme verletzt ist. Hierfür betrachten wir das
Streudiagramm der z-transformierten geschätzten Werte von Y und ihrer Residuen. Um die Interpretation zu erleichtern, lassen wir uns die zum Regressionsmodell gehörende Gerade als
“Mittelwertslinie” der Residuen darstellen.
Eine genaue Betrachtung der Residuen in Abb. 3 zeigt, dass sie bumerangartig um die Regressionsgerade streuen. Vergleichen wir diese Form mit der empirischen Verteilung in Abb. 2, so
fällt auf, dass beide von der Form her gesehen sehr ähnlich sind. Dies bedeutet, dass wir auch
im Nachhinein durch die Betrachtung der Residuen des Regressionsmodells Verstöße gegen die
Linearitätsannahme identifiziert werden können. Dies gilt ebenfalls für die Ausreißer, deren
Positionen in beiden Abbildungen nahezu übereinstimmen. Des weiteren fällt auf, dass die
Residuen sehr unterschiedlich über den Wertebereich von Y streuen. Dies weist daraufhin, dass
die Annahme homogener Fehlervarianzen verletzt ist.
Wie können wir diesen offensichtlich nichtlinearen Zusammenhang im “linearen” Regressionsmodell berücksichtigen?
Dies kann durch die Transformation der beobachteten Variablen X und Y geschehen. Urban
(1982, S. 168) hat die wichtigsten nichtlinearen Funktion und ihre für die Linearisierung
notwendigen Transformationen zusammengestellt.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
Abb. 3:
-
10
Nichtlineare Funktionen und ihre “Linearisierung” im Rahmen des Regressionsmodells (Urban 1982, S. 168f.)
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
4
Regression Standardisiertes Residuum
11
Kampuchea
Seychellen
3
-
Gambia
Guinea
2
1
0
-1
Äthiopien
-2
-3
-1
0
1
2
3
4
5
6
Regression Standardisierter geschätzter Wert
Abb. 4:
Streudiagramm der z-standardisierten Residuen vs. geschätzte Werte der
Säuglingssterblichkeit mit Kennzeichnung der “Ausreißer”
Die gemeinsame empirische Verteilung der Säuglingssterblichkeit und der medizinischen
Versorgungsdichte entspricht am ehesten dem Funktionsverlauf in Abb. 35c., der logarithmischen Transformation der unabhängigen Variablen. Bei ihr müssen wir uns entscheiden, ob
wir den Logarithmus zur Basis e=2,72, der Eulerschen Zahl (“natürlicher Logarithmus”), oder
zur Basis 10 (“Gaußsche Zehnerlogarithmus”) berechnen. Letztere bietet sich aufgrund seiner
einfacheren Interpretierbarkeit in den Sozial- und Wirtschaftswissenschaften an. Der zugehörige
Regressionskoeffizient misst dann diejenige Veränderung von Y, die im Durchschnitt durch die
Zunahme der unabhängigen Variablen um eine Zehnerpotenz bewirkt wird. Hierbei entsprechen
die Maßeinheiten auf der X-Achse den Zehnerpotenzen der unabhängigen Variablen. Den
Werten 0, 1, 2, 3 , 4 sowie 5 entsprechen in unserem Beispiel 1, 10, 100, 1.000, 10.000 bzw.
100.000 Einwohner pro Arzt.
Sollte die unabhängige Variable den Wert 0 enthalten, so haben wir ihn durch eine Eins zu
ersetzen, da der Logarithmus von Null nicht definiert ist. Dies kann entweder direkt in der
Datenmatrix oder bei der Transformation durch das Addieren einer Eins zum Beobachtungswert erfolgen.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
SPSSfWin-Menü:
-
12
Transformieren - Berechnen ...
SPSSfWin-Syntax:
COMPUTE v8log10 = LG10(v8) .
VARIABLE LABELS v8log10 'Log10 Einwohner pro Arzt' .
EXECUTE .
Die Linearität des Zusammenhangs beider Merkmale lässt sich nun mit Hilfe eines weiteren
Streudiagramm der Säuglingssterblichkeit und der logarithmierten Einwohneranzahl pro Arzt
überprüfen.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
13
300
KINDERSTERBLICHKEIT in 0/00
Kampuchea
Seychellen
Gambia
200
Malawi
Äthiopie
Libyen
100
Sowjetunion
0
2,0
2,5
3,0
3,5
4,0
4,5
5,0
Log10 Einwohner pro praktizierenden Arzt
Abb. 5:
Säuglingssterblichkeit auf logarithmierte Einwohnanzahl pro praktizierenden
Arzt (WHO 1983): R2 = 56,81 %.
Für das zugehörige bivariate Regressionsmodell hat SPSSfWin die folgenden Koeffizienten
ermittelt:
SPSSfWin- Ausgabeprotokoll:
Multiple R
R Square
Adjusted R Square
Standard Error
,77196
,59592
,59326
36,38079
Analysis of Variance
DF
Regression
1
Residual
152
F =
224,16462
Sum of Squares
296695,69181
201181,37313
Signif F =
Mean Square
296695,69181
1323,56167
,0000
------------------ Variables in the Equation -----------------Variable
V8LOG10
(Constant)
B
SE B
Beta
T
Sig T
70,501246
-167,580855
4,708833
16,507935
,771960
14,972
-10,152
,0000
,0000
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
14
Casewise Plot of Standardized Residual
Outliers = 2,
Case #
16
24
40
93
114
136
V1
116
125
141
237
308
331
*: Selected
M: Missing
-5,
-2, 2,
5,
O:.......: :.......:O
.
.. *
.
.
..*
.
.
..
* .
.
.. *
.
.
..
*
.
.
..*
.
V7
204
107
215
141
260
135
*PRED
119,0528
31,2005
68,3688
55,9265
127,4391
56,7229
*RESID
84,9472
75,7995
146,6312
85,0735
132,5609
78,2771
6 Outliers found.
Residuals Statistics:
Min
*PRED
*RESID
*ZPRED
*ZRESID
Max
Mean
Std Dev
N
2,6778 175,1136
-68,1460 146,6312
-1,6571
2,2587
-1,8731
4,0305
75,6494
,0000
,0000
,0000
44,0362
36,2617
1,0000
,9967
154
154
154
154
Interpretation:
Im Vergleich zum vorherigen Regressionsmodell hat sich die Modellanpassung mit rd. 59,6 %
vs. 34,6 % deutlich verbessert. Dies ist ebenfalls am standardisierten Regressionskoeffizienten
ß erkennbar, der +0,77 beträgt. Bei der inhaltlichen Interpretation der unstandardisierten
Regressionskoeffizienten haben wir daran zu denken, dass sie nun die durch die logarithmierte
Einwohneranzahl induzierte Änderung der Säuglingssterblichkeit messen. In unserem Fall
bedeutet dies, dass die Zunahme der Einwohneranzahl um eine 10er Potenz zu einer durchschnittlichen Steigerung der Säuglingssterblichkeit um rd. 70,5 Promille führt. Die Regressionskonstante ist inhaltlich nicht definiert, da der Fall eines Eins-zu-Eins-Verhältnisses von Einwohnern und Arzt rein hypothetisch ist.
Mit Hilfe des Streudiagramms der standardisierten vorhergesagten und Residualwerte läßt sich
nun im nachhinein die Linearitäts- und Varianzhomogenitätsanahme überprüfen.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
15
Regression Standardisiertes Residuum
5
Seychellen
4
Kampuchea
3
Libyen
Gambia
Peru
Jemen (Nord-)
2
1
0
Äthiopien
-1
-2
-2
-1
0
1
2
3
Regression Standardisierter geschätzter Wert
Abb. 6:
Streudiagramm der z-standardisierten vorhersagten und Residualwerte der
Säuglingssterblichkeit mit dem logarithmierten Einwohner Pro Arzt-Ratio
(WHO 1983) und identifizierten “Ausreißern”
Sieht man von den “Ausreißern” ab, so streuen die Länder in Abb.6 relativ gleichmäßig um die
Regressionsgerade. Eine systematische Abweichung wie in Abb. 2 ist nicht mehr erkennbar.
Daher dürften die beiden Modellannahmen der Linearität und Varianzhomogenität der Residuen
für dieses Regressionsmodell gelten.
Im multiplen linearen Regressionsmodell ist die Überprüfung dieser Modellannahmen schwieriger, da wir bei der Betrachtung des “funktionalen Zusammenhang” zusätzlich noch die Interkorrelationen mit den anderen Prädiktoren zu berücksichtigen haben. Dies geschieht im multiplen
linearen Regressionsmodell durch die wechselseitige Auspartialisierung der Einflüsse der
unabhängigen Variablen untereinander und ihrer jeweiligen Effekte auf die abhängige Variable.
Dies veranschaulichen die folgenden sechs Venndiagramme. Den Modellen a), b), d) sowie e)
entspricht jeweils ein bivariates Regressionsmodell mit der ersten Variablen als Kriterium und
der zweiten als Prädiktor. Nach der Schätzung des Regressionsmodells werden die Residuen des
Kriteriums berechnet und gespeichert. Dies entspricht der Restmengenbestimmung der Wahrscheinlichkeitsrechnung, die mit dem Mengenoperator “\” gekennzeichnet wird. Im Beispiel a)
bedeutet “X1 \ X2" die Bildung der Restmenge (Residualvarianz) von X1, wobei X2 auspartialisiert wird. Um im multiplen Regressionsmodell die funktionale Form der Zusammenhänge
zwischen dem Kriterium und jeder unabhängigen Variablen zu bestimmen, müssen wir zuvor
alle anderen unabhängigen Variablen jeweils aus dem betreffenden Prädiktor und dem Kriterium auspartialisieren. Bei mehr als zwei unabhängigen Variablen benötigen wir hierzu multiple
lineare Regressionsmodelle, die jeweils alle anderen Prädiktoren aus dem betrachtetem Merkmal und aus dem Kriterium herausnehmen.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
16
Betrachten wir nun die Linearität der Zusammenhänge im WHO-Beispiel. Als zusätzliche
Prädiktoren verwenden wir die mittlere Kalorienmenge pro Tag und Person (V10) sowie die
Alphabetisierungsrate (V11).
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
SPSSfWin-Menü:
-
17
Statistik - Regression - Linear
Neben den univariaten Statistiken fordern wir über das UnterMenü “Grafiken...” zusätzlich die
partiellen Streudiagramme an, die in der Abb. 7 den Venndiagrammen c) und f) entsprechen.
SPSSfWin-Menü: Statistik - Regression - Linear - Grafiken
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
SPSSfWin-Syntax:
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT v7
/METHOD=ENTER v8log10 v10 v11
/PARTIALPLOT ALL
/RESIDUALS ID(v1 )
/SCATTERPLOT=(*ZRESID ,*ZPRED )
/CASEWISE PLOT(ZRESID) OUTLIERS(2) .
SPSSfWin-Ausgabeprotokoll:
* * * *
M U L T I P L E
R E G R E S S I O N
* * * *
Listwise Deletion of Missing Data
V7
V8LOG10
V10
V11
Mean
Std Dev
Label
67,990
3,388
2729,673
66,817
54,569
,597
562,433
28,708
Kindersterblichkeit:je 1000 Lebendgeborene
Lg10 Patienten pro Arzt
ERNÄRUNG:Mittl. tägliche Energieaufnahme
ALPHABETISIERUNGSGRAD %
N of Cases =
104
Correlation, 1-tailed Sig:
V7
V8LOG10
V10
V11
1,000
,
,754
,000
-,671
,000
-,860
,000
,754
,000
1,000
,
-,820
,000
-,766
,000
V10
-,671
,000
-,820
,000
1,000
,
,644
,000
V11
-,860
,000
-,766
,000
,644
,000
1,000
,
V7
V8LOG10
Multiple R
R Square
Adjusted R Square
Standard Error
,87601
,76739
,76042
26,70995
18
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
Analysis of Variance
DF
Regression
3
Residual
100
F =
Sum of Squares
235364,86486
71342,12552
109,97003
Signif F =
-
19
Mean Square
78454,95495
713,42126
,0000
------------------ Variables in the Equation -----------------Variable
V8LOG10
V10
V11
(Constant)
B
SE B
Beta
T
Sig T
11,640364
-,012479
-1,292681
148,994066
9,181615
,008187
,142714
52,859273
,127361
-,128615
-,680070
1,268
-1,524
-9,058
2,819
,2078
,1306
,0000
,0058
Casewise Plot of Standardized Residual
Outliers = 2,
Case #
16
40
64
84
93
148
*: Selected
M: Missing
-5,
-2, 2,
5,
O:.......: :.......:O
.
..*
.
.
..
*.
.
..*
.
.
* ..
.
.
.. *
.
.
.. *
.
V7
204
215
138
23
141
131
*PRED
142,5970
81,8802
79,6045
89,0352
65,4610
59,3577
*RESID
61,4030
133,1198
58,3955
-66,0352
75,5390
71,6423
6 Outliers found.
Residuals Statistics:
Min
*PRED
*RESID
*ZPRED
*ZRESID
Max
Mean
Std Dev
N
4,3625 168,8924
-66,0352 133,1198
-1,3311
2,1108
-2,4723
4,9839
67,9904
,0000
,0000
,0000
47,8027
26,3181
1,0000
,9853
104
104
104
104
Interpretation:
Mit rd. 76,7 % “erklärter Varianz” weist unser Modell eine sehr gute Anpassung auf. Zu
beachten sind aber die sehr hohen Korrelationen zwischen den Prädiktoren V10 und V11 mit
V8LOG10, die Koeffizienten von -0,766 bzw. -0,820 aufweisen.
Bei den Steigungsangaben handelt es um partielle Koeffizienten, die uns die Effektstärke des
Prädiktors unter Konstanthaltung aller anderen angeben. Für die medizinische Versorgungsdichte bedeutet dies, dass unter Kontrolle der Ernährungslage und des Bildungsniveaus pro
Zehnerpotenz zu versorgender Patienten die Säuglingssterblichkeit im Durchschnitt um 11,6
Promille steigt. Erhöht sich unter Konstanthaltung der anderen Prädiktoren die mittlere Nahrungsmenge pro Kopf um 1000 Kcal, so sinkt im Durchschnitt die Mortalität um rd. 12,5
Promille. Ebenfalls hypothesenkonform sinkt die Mortalität mit zunehmenden Bildungsniveau.
Bei der gleichzeitigen Kontrolle der beiden anderen Prädiktoren erwarten wir pro zusätzlichem
Prozent von Schreib- und Lesekundiger im Durchschnitt eine Abnahme der Mortalität um rd.
1,3 Promille. Für die Betrachtung der relativen Effektstärken bieten sich die standardisierten
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
20
Regressionskoeffizienten an, die auf den Wertebereich von [-1;+1] begrenzt sind. Mit einem ßGewicht von -0,68 übt der Alphabetisierungsgrad den stärksten Einfluß auf die Säuglingssterblichkeit aus. Hingegen folgen weit abgeschlagen der medizinische Versorgungsgrad und das
Ernährungsniveau mit Koeffizienten von +0,13 und -0,13.
Ob die Annahmen zur Varianzhomogenität der Residuen und der Linearität der Zusammenhänge erfüllt sind, läßt sich anhand der Residual- und partiellen Regressionsplots entscheiden.
6
Regression Standardisierte Residuen
Seychellen
4
Peru
Türkei
Gambia
Bolivien
Swaziland
2
0
-2
Honduras
-4
-1,5
-1,0
-,5
0,0
,5
1,0
1,5
2,0
2,5
Regression Standardisierter geschätzter Wert
Abb. 8:
Streudiagramm der z-standardisierten geschätzten und Residualwerte der
Säuglingssterblichkeit im multiplen Regressionsmodell (WHO-Daten 1983)
Sieht man von den sechs “Ausreißern” ab, die namentlich gekennzeichnet sind, so streuen die
Residuen relativ homogen um die Regressionsgerade.
Die Linearität der Zusammenhänge überprüfen wir mit Hilfe der partiellen Regressionsplot, bei
denen die Residuen des jeweiligen Prädiktors und des Kriteriums gegeneinander abgetragen
werden, nachdem zuvor aus beiden die anderen Prädiktoren auspartialisiert worden sind.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
21
Partiell. Residuum-Plot: KINDERSTERBLICHKEIT R² = 1,58 %
KINDERSTERBLICHKEIT (Residuen)
200
Seychellen
100
Türkei
Gambia
Peru
Bolivien
Swaziland
0
Honduras
-100
-,8
-,6
-,4
-,2
0,0
,2
,4
,6
,8
Lg10 Patienten pro Arzt (Residuen)
Abb. 9:
Partieller Residualplot der Säuglingssterblichkeit auf das logarithmierte
Einwohner pro Arzt-Verhältnis
Partiell. Residuum-Plot: KINDERSTERBLICHKEIT R² = 2,27 %
KINDERSTERBLICHKEIT (Residuen)
200
Seychellen
100
Peru
Bolivien
Gambia
Türkei
0
Honduras
-100
-1000
0
1000
ERNÄHRUNG:Mittl. tägliche Energieaufnahme je Einw. (Residuen)
Abb. 10:
Partieller Residualplot der Säuglingssterblichkeit auf die tägliche mittlere
Energieaufnahme
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
-
22
Partiell. Residuum-Plot: KINDERSTERBLICHKEIT R² = 45,1 %
KINDERSTERBLICHKEIT (Residuen)
200
Seychellen
100
Libyen
Jemen (Nord-)
Gambia
Peru
Ägypten
0
Honduras
-100
-60
-40
-20
0
20
40
60
ALPHABETISIERUNGSGRAD % (Residuen)
Abb. 11:
Partieller Residualplot der Säuglingssterblichkeit auf den Alphabetisierungsgrad
Die Betrachtung der drei partiellen Residualplots ergibt, dass wir zwischen dem Kriterium und
den drei Prädiktoren jeweils einen linearen Zusammenhang unterstellen können, der gelegentlich durch einige Ausreißer verzerrt wird. Bei der medizinischen Versorgungsdichte und der
täglichen Nahrungsmenge ist dieser Zusammenhang nur sehr schwach ausgeprägt. Angesichts
der bisherigen bivariaten Ergebnisse erstaunt dies sehr. Betrachtet man die Interkorrelationen
der exogenen Merkmale genauer, so zeigt sich, dass medizinische Versorgungsdichte sehr hoch
negativ mit der Ernährungslage und dem Alphabetisierungsgrad korreliert. Beide Prädiktoren
korrelieren ebenfalls mit der Säuglingssterblichkeit hoch negativ. Ob sich dahinter eine
“Scheinkausalität” oder Multikollinearität verbirgt, lässt sich nur mit Hilfe theoretischer
Annahmen klären. Ebenfalls denkbar wäre, dass die drei Indikatoren nicht wechselseitige
Ursachen darstellen, sondern dass sie alle drei dasselbe theoretische Konstrukt “Unterentwicklung” messen. Im Rahmen der Ausführungen zur Faktorenanalyse werden wir sehen, wie wir
erstens diese Messhypothese überprüfen und zweitens durch eine geeignete Indexkonstruktion
in das Regressionsmodell aufnehmen können.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003
Literaturangaben:
Fox, John:
Regression Diagnostics.
Newbury Park, Ca: 1991
(Quantitative Applications in the Social Sciences; Nr. 79)
Norušis, Marija J.:
SPSS 7.5. Guide to Data Analysis.
Upper Saddle River, N.J.: Prentice-Hall, 1997
Urban, Dieter:
Regressionstheorie und Regressionstechnik.
Stuttgart: Teubner, 1982
(Teubner Studienskripte Soziologie, Nr. 36)
-
23
Herunterladen