Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 1 Die Analyse der Residuen des Regressionsmodells Die Analyse der Residuen eines geschätzten Regressionsmodells verfolgt drei Ziele, bei denen jeweils die Modellannahmen überprüft werden: 1. Streuen die Residuen gleichmäßig um die Regressionsgerade bzw. Ebene ? Hierbei wird die Varianzhomogenität der Residuen - ihre Homoskedastizität - überprüft. 2. Können wir bei der empirischen Verteilung der betrachteten Variablen jeweils einen linearen Zusammenhang unterstellen ? Hierbei wird die Linearitätsannahme für die betrachteten empirischen Zusammenhänge untersucht. 3. Welche Datenpunkte liegen besonders weit von der Regressionsgeraden entfernt und stellen damit einflussreiche “Ausreißer” dar ? Wie der folgenden Grafik zu entnehmen ist, unterstellt das Regressionsmodell stets einen linearen Zusammenhang, wie er in Beispiel ( a ) vorliegt. Selbst wenn ein nichtlinearer Zusammenhang wie im Beispiel ( b ) existiert, legt das Regressionsverfahren eine Gerade durch die umgekehrte Parabel. Daher wissen wir nicht, worauf eine schlechte Modellanpassung zurückzuführen ist. Besteht wirklich kein Zusammenhang zwischen beiden Merkmalen oder ist dieser Zusammenhang nur nicht linear ? Die Beispiele ( c ) und ( d ) veranschaulichen den Einfluß von “Ausreißern” auf die Lage der Regressionsgeraden. Im Beispiel ( c ) zieht der “Ausreißer” die Regressionsgerade nach oben, im zweiten Beispiel konstituiert der Ausreißer einen Scheinzusammenhang. Ohne ihn läge im Beispiel ( d ) kein Zusammenhang vor, da alle Beobachtungen über identische X-Werte verfügen und somit keine Varianz aufweisen. (Fox 1991, S. 4) Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 2 Die Linearität bivariater Zusammenhänge lässt sich mit Hilfe einfacher Streudiagramme überprüfen. Als inhaltliches Beispiel bietet sich hierfür die Analyse der Säuglingssterblichkeit in der dritten Welt an, für die wir einen Aggregatdatensatz der Weltgesundheitsorganisation (WHO) der Vereinten Nationen verwenden. Er liegt auf unserem Kursverzeichnis “G:\DATEN\METH4". Die zugehörige Datei heißt “WHO.SAV”. Wir betrachten hierbei die Zusammenhänge der folgenden vier Indikatoren: V7: V8: Säuglingssterblichkeit pro 1000. Lebendgeborene ( in Promille) Medizinische Versorgungsdichte: Durchschnittliche Anzahl der Einwohner pro praktizierenden Arzt. V10: Ernährungssituation: Mittlere tägliche Kalorienmenge in Kcal pro Person V11: Alphabetisierungsgrad: Anteil der Personen über 15 Jahre an der Bevölkerung, die Lesen und Schreiben können. Hierbei testen wir die folgenden drei Hypothesen: 1. 2. 3. Je schlechter der medizinische Versorgungsgrad ist, desto höher ist die Säuglingssterblichkeit. D.h., je mehr Patienten im Landesdurchschnitt von einem Arzt betreut werden müssen, desto höher fällt die Säuglingssterblichkeit aus. Je besser die Ernährungssituation ist, desto niedriger ist die Säuglingssterblichkeit. Je höher der Alphabetisierungsgrad ist, desto niedriger ist die Säuglingssterblichkeit. Um die Linearität der Zusammenhänge zu überprüfen, erzeugen wir zunächst mit SPSSfWin eine Matrix bivariater Streudiagramme, wobei wir die Datenpunkte dergestalt kennzeichnen, dass der jeweilige Kontinent über die Gruppenvariable V2 erkennbar ist. SPSSfWin-Menü: Grafik - Scatterplot - Matrix: Definieren Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 3 SPSSfWin-Syntax: GRAPH /SCATTERPLOT(MATRIX)=v7 v8 v10 v11 BY v2 /MISSING=LISTWISE . SPSSfWin-Grafik: Matrix der bivariaten Streudiagramme KINDERSTER EINW. / ARZT KONTINENT: Asien/Europa ERNÄHRUNG Ozeanien Europa Asien BILDUNG Amerika Afrika Total Population Abb. 1: Matrix-Streugramm der betrachteten Variablen. (WHO-Daten 1983) Die obige Matrix von Streudiagrammen ist symmetrisch aufgebaut, wobei die abhängige Variable jeweils auf der Y-Achse und die unabhängige auf der X-Achse abgetragen wird. Die Hauptdiagonale enthält die zugehörigen Variablennamen bzw. Etiketten, die im Grafikeditor auch geändert werden können. Die Herkunftskontinente der Länder lassen sich über die Symbole der Legende identifizieren. Über die Grafik-Option des Untermenüs “Bearbeiten” legen wir eine Regressionsgerade durch den jeweiligen Punktschwarm, wodurch sich die Linearitätsannahme des Regressionsmodells direkt überprüfen läßt. Eine genauere Betrachtung der Punktschwärme ergibt, dass einige “nichtlineare” Zusammenhänge vorliegen. Die klarste Abweichung von der Geraden als “funktionalem Zusammenhang” liegt zwischen der Säuglingssterblichkeit und der medizinischen Versorgungsdichte vor, wobei erstens offensichtlich ein logarithmischer Zusammenhang in der Form besteht, dass mit zunehmender Einwohneranzahl pro Arzt sich der Anstieg der Säuglingssterblichkeit deutlich abflacht. Zweitens weichen drei Ausreißer deutlich von diesem Trend ab. Letztere markieren wir in einem separaten bivariaten Streudiagramm mit Hilfe des speziellen Cursors für die Auswahl von Datenpunkten. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 4 Wie Abb. 2 zu entnehmen ist, handelt es sich bei ihnen um Kampuchea, Gambia und die Seychellen. 300 KINDERSTERBLICHKEIT in 0/00 Kampuchea eychellen Gambia 200 Tschad Burkina-Faso Äquatorial-Guinea Äthiopien 100 0 0 20000 40000 60000 80000 EINWOHNER PRO ARZT:Zahl der Einwohner auf 1 praktizierenden Arzt Abb.2: Säuglingssterblichkeit auf medizinische Versorgungsdichte (WHO 1983) Berechnng der zugehörigen bivariaten Korrelationen: SPSSfWin-Menü: Statistik - Korrelationen Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 5 SPSSfWin-Syntax: CORRELATIONS /VARIABLES=v7 v8 v10 v11 /PRINT=TWOTAIL SIG /MISSING=LISTWISE . SPSSfWin-Ausgabeprotokoll: - V7 Correlation Coefficients V8 V10 - - V11 V7 1,0000 ( 104) P= , ,6079 ( 104) P= ,000 -,6708 ( 104) P= ,000 -,8604 ( 104) P= ,000 V8 ,6079 ( 104) P= ,000 1,0000 ( 104) P= , -,5406 ( 104) P= ,000 -,6391 ( 104) P= ,000 V10 -,6708 ( 104) P= ,000 -,5406 ( 104) P= ,000 1,0000 ( 104) P= , ,6436 ( 104) P= ,000 V11 -,8604 ( 104) P= ,000 -,6391 ( 104) P= ,000 ,6436 ( 104) P= ,000 1,0000 ( 104) P= , (Coefficient / (Cases) / 2-tailed Significance) " , " is printed if a coefficient cannot be computed Der bereits in der Streudiagrammmatrix erkennbare nichtlineare Zusammenhang zwischen der Säuglingssterblichkeit und der medizinischen Versorgungsdichte weist in der obigen Matrix den niedrigsten Korrelationskoeffizienten auf. Sowohl die Ernährungslage als auch der Bildungsgrad üben einen deutlich stärkeren Einfluß aus. Wie können wir diesen nichtlinearen, logarithmischen Zusammenhang zwischen Säuglingssterblichkeit und medizinischer Versorgungsdichte in unserem linearen Regressionsmodell zunächst identifizieren und anschließend durch eine geeignete Datentransformation “linearisieren” ? Hierfür berechnen wir zunächst ein bivariates Regressionsmodell mit SPSSfWin und lassen uns anschließend die standardisierten Residuen gegen die standardisierten geschätzten Werte für Y plotten. Dies kann entweder direkt aus dem Regression-Menü oder im nachhinein über einen separaten Grafik-Streudiagramm-Befehl erfolgen. Durch die Verwendung der Z-standardisierten Werte erreichen wir eine höhere Kompaktheit der graphischen Darstellung, wobei die Konfiguration der Datenpunkte als solche erhalten bleibt. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 ZStandardisierung der geschätzten Werte Ŷ i: ZŶ Ŷ i Ŷ sŶ i ZStandardisierung der Residuen ei: ei Y i Ŷ i Ze i SPSSfWin-Menü: ei e se ei 0 se Statistik - Regression - Linear ei se - 6 Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 SPSSfWin-UnterMenü: - 7 Grafiken ... Zusätzlich zu unserem Streudiagramm der z-standardisierten Residuen vs. die ebenfalls zstandardisierten vorhergesagten Werte von Y fordern wir eine Auflistung der Fälle (Länder) an, die mehr als 2 Standardabweichungen (sy) von der Regressionsgeraden entfernt liegen. Um im bivariaten Streudiagramm die “Ausreißer” leichter zu identifizieren, geben wir zusätzlich als “Identifikationsvariable” V1 mit den Ländernamen an. SPSSfWin-Syntax: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT v7 /METHOD=ENTER v8 /SCATTERPLOT=(*ZRESID ,*ZPRED ) /RESIDUALS ID(v1 ) /CASEWISE PLOT(ZRESID) OUTLIERS(2) . Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - SPSSfWin-Ausgabeprotokoll: Multiple R R Square Adjusted R Square Standard Error ,58851 ,34634 ,34204 46,27155 Analysis of Variance DF 1 152 Regression Residual F = Sum of Squares 172436,52421 325440,54073 80,53807 Signif F = Mean Square 172436,52421 2141,05619 ,0000 ------------------ Variables in the Equation -----------------Variable V8 (Constant) B SE B Beta T Sig T ,002745 54,668365 3,0586E-04 4,400991 ,588510 8,974 12,422 ,0000 ,0000 Casewise Plot of Standardized Residual Outliers = 2, Case # 14 16 18 40 114 150 V1 114 116 118 141 308 349 *: Selected M: Missing -5, -2, 2, 5, O:.......: :.......:O . *.. . . .. * . . ..* . . .. * . . .. * . . ..* . V7 155 204 172 215 260 170 *PRED 253,8975 86,5969 76,9019 60,7675 96,6569 72,8642 6 Outliers found. Residuals Statistics: Min *PRED *RESID *ZPRED *ZRESID Max Mean Std Dev N 55,3820 253,8976 -98,8975 163,3431 -,6037 5,3095 -2,1373 3,5301 75,6494 ,0000 ,0000 ,0000 33,5714 46,1201 1,0000 ,9967 154 154 154 154 Total Cases = 215 *RESID -98,8975 117,4031 95,0981 154,2325 163,3431 97,1358 8 Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 9 Interpretation der Ergebnisse: Unter der Annahme, dass zwischen der Säuglingssterblichkeit und der medizinischen Versorgungsdichte ein linearer Zusammenhang besteht, erklären wir rd. 34,4% der Varianz des Kriteriums. Die Regressionskoeffizienten lassen sich folgendermaßen interpretieren: Befänden wir uns in einer “Ärzterepublik ohne sonstige Patienten”, so läge die Säuglingssterblichkeit im Durchschnitt bei geschätzten 54,7 Promille. Mit einer Zunahme der Einwohnanzahl um jeweils 1000 Personen steigt die geschätzte Mortalität im Durchschnitt um jeweils 2,75 Promille. Die Auflistung der Residuen ergibt, dass insgesamt sechs Länder mehr als zwei Standardabweichungen von der Regressionsgeraden abweichen. Bei ihnen handelt es sich um Äthiopien, Gambia, Guinea, die Seychellen, Kampuchea sowie den Nordjemen. Da das Regressionsmodell mit 34,4% “erklärter Varianz” eine für Aggregatdaten schlechte Anpassung aufweist, müssen wir überprüfen , ob die unterstellte Linearitätsannahme verletzt ist. Hierfür betrachten wir das Streudiagramm der z-transformierten geschätzten Werte von Y und ihrer Residuen. Um die Interpretation zu erleichtern, lassen wir uns die zum Regressionsmodell gehörende Gerade als “Mittelwertslinie” der Residuen darstellen. Eine genaue Betrachtung der Residuen in Abb. 3 zeigt, dass sie bumerangartig um die Regressionsgerade streuen. Vergleichen wir diese Form mit der empirischen Verteilung in Abb. 2, so fällt auf, dass beide von der Form her gesehen sehr ähnlich sind. Dies bedeutet, dass wir auch im Nachhinein durch die Betrachtung der Residuen des Regressionsmodells Verstöße gegen die Linearitätsannahme identifiziert werden können. Dies gilt ebenfalls für die Ausreißer, deren Positionen in beiden Abbildungen nahezu übereinstimmen. Des weiteren fällt auf, dass die Residuen sehr unterschiedlich über den Wertebereich von Y streuen. Dies weist daraufhin, dass die Annahme homogener Fehlervarianzen verletzt ist. Wie können wir diesen offensichtlich nichtlinearen Zusammenhang im “linearen” Regressionsmodell berücksichtigen? Dies kann durch die Transformation der beobachteten Variablen X und Y geschehen. Urban (1982, S. 168) hat die wichtigsten nichtlinearen Funktion und ihre für die Linearisierung notwendigen Transformationen zusammengestellt. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 Abb. 3: - 10 Nichtlineare Funktionen und ihre “Linearisierung” im Rahmen des Regressionsmodells (Urban 1982, S. 168f.) Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 4 Regression Standardisiertes Residuum 11 Kampuchea Seychellen 3 - Gambia Guinea 2 1 0 -1 Äthiopien -2 -3 -1 0 1 2 3 4 5 6 Regression Standardisierter geschätzter Wert Abb. 4: Streudiagramm der z-standardisierten Residuen vs. geschätzte Werte der Säuglingssterblichkeit mit Kennzeichnung der “Ausreißer” Die gemeinsame empirische Verteilung der Säuglingssterblichkeit und der medizinischen Versorgungsdichte entspricht am ehesten dem Funktionsverlauf in Abb. 35c., der logarithmischen Transformation der unabhängigen Variablen. Bei ihr müssen wir uns entscheiden, ob wir den Logarithmus zur Basis e=2,72, der Eulerschen Zahl (“natürlicher Logarithmus”), oder zur Basis 10 (“Gaußsche Zehnerlogarithmus”) berechnen. Letztere bietet sich aufgrund seiner einfacheren Interpretierbarkeit in den Sozial- und Wirtschaftswissenschaften an. Der zugehörige Regressionskoeffizient misst dann diejenige Veränderung von Y, die im Durchschnitt durch die Zunahme der unabhängigen Variablen um eine Zehnerpotenz bewirkt wird. Hierbei entsprechen die Maßeinheiten auf der X-Achse den Zehnerpotenzen der unabhängigen Variablen. Den Werten 0, 1, 2, 3 , 4 sowie 5 entsprechen in unserem Beispiel 1, 10, 100, 1.000, 10.000 bzw. 100.000 Einwohner pro Arzt. Sollte die unabhängige Variable den Wert 0 enthalten, so haben wir ihn durch eine Eins zu ersetzen, da der Logarithmus von Null nicht definiert ist. Dies kann entweder direkt in der Datenmatrix oder bei der Transformation durch das Addieren einer Eins zum Beobachtungswert erfolgen. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 SPSSfWin-Menü: - 12 Transformieren - Berechnen ... SPSSfWin-Syntax: COMPUTE v8log10 = LG10(v8) . VARIABLE LABELS v8log10 'Log10 Einwohner pro Arzt' . EXECUTE . Die Linearität des Zusammenhangs beider Merkmale lässt sich nun mit Hilfe eines weiteren Streudiagramm der Säuglingssterblichkeit und der logarithmierten Einwohneranzahl pro Arzt überprüfen. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 13 300 KINDERSTERBLICHKEIT in 0/00 Kampuchea Seychellen Gambia 200 Malawi Äthiopie Libyen 100 Sowjetunion 0 2,0 2,5 3,0 3,5 4,0 4,5 5,0 Log10 Einwohner pro praktizierenden Arzt Abb. 5: Säuglingssterblichkeit auf logarithmierte Einwohnanzahl pro praktizierenden Arzt (WHO 1983): R2 = 56,81 %. Für das zugehörige bivariate Regressionsmodell hat SPSSfWin die folgenden Koeffizienten ermittelt: SPSSfWin- Ausgabeprotokoll: Multiple R R Square Adjusted R Square Standard Error ,77196 ,59592 ,59326 36,38079 Analysis of Variance DF Regression 1 Residual 152 F = 224,16462 Sum of Squares 296695,69181 201181,37313 Signif F = Mean Square 296695,69181 1323,56167 ,0000 ------------------ Variables in the Equation -----------------Variable V8LOG10 (Constant) B SE B Beta T Sig T 70,501246 -167,580855 4,708833 16,507935 ,771960 14,972 -10,152 ,0000 ,0000 Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 14 Casewise Plot of Standardized Residual Outliers = 2, Case # 16 24 40 93 114 136 V1 116 125 141 237 308 331 *: Selected M: Missing -5, -2, 2, 5, O:.......: :.......:O . .. * . . ..* . . .. * . . .. * . . .. * . . ..* . V7 204 107 215 141 260 135 *PRED 119,0528 31,2005 68,3688 55,9265 127,4391 56,7229 *RESID 84,9472 75,7995 146,6312 85,0735 132,5609 78,2771 6 Outliers found. Residuals Statistics: Min *PRED *RESID *ZPRED *ZRESID Max Mean Std Dev N 2,6778 175,1136 -68,1460 146,6312 -1,6571 2,2587 -1,8731 4,0305 75,6494 ,0000 ,0000 ,0000 44,0362 36,2617 1,0000 ,9967 154 154 154 154 Interpretation: Im Vergleich zum vorherigen Regressionsmodell hat sich die Modellanpassung mit rd. 59,6 % vs. 34,6 % deutlich verbessert. Dies ist ebenfalls am standardisierten Regressionskoeffizienten ß erkennbar, der +0,77 beträgt. Bei der inhaltlichen Interpretation der unstandardisierten Regressionskoeffizienten haben wir daran zu denken, dass sie nun die durch die logarithmierte Einwohneranzahl induzierte Änderung der Säuglingssterblichkeit messen. In unserem Fall bedeutet dies, dass die Zunahme der Einwohneranzahl um eine 10er Potenz zu einer durchschnittlichen Steigerung der Säuglingssterblichkeit um rd. 70,5 Promille führt. Die Regressionskonstante ist inhaltlich nicht definiert, da der Fall eines Eins-zu-Eins-Verhältnisses von Einwohnern und Arzt rein hypothetisch ist. Mit Hilfe des Streudiagramms der standardisierten vorhergesagten und Residualwerte läßt sich nun im nachhinein die Linearitäts- und Varianzhomogenitätsanahme überprüfen. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 15 Regression Standardisiertes Residuum 5 Seychellen 4 Kampuchea 3 Libyen Gambia Peru Jemen (Nord-) 2 1 0 Äthiopien -1 -2 -2 -1 0 1 2 3 Regression Standardisierter geschätzter Wert Abb. 6: Streudiagramm der z-standardisierten vorhersagten und Residualwerte der Säuglingssterblichkeit mit dem logarithmierten Einwohner Pro Arzt-Ratio (WHO 1983) und identifizierten “Ausreißern” Sieht man von den “Ausreißern” ab, so streuen die Länder in Abb.6 relativ gleichmäßig um die Regressionsgerade. Eine systematische Abweichung wie in Abb. 2 ist nicht mehr erkennbar. Daher dürften die beiden Modellannahmen der Linearität und Varianzhomogenität der Residuen für dieses Regressionsmodell gelten. Im multiplen linearen Regressionsmodell ist die Überprüfung dieser Modellannahmen schwieriger, da wir bei der Betrachtung des “funktionalen Zusammenhang” zusätzlich noch die Interkorrelationen mit den anderen Prädiktoren zu berücksichtigen haben. Dies geschieht im multiplen linearen Regressionsmodell durch die wechselseitige Auspartialisierung der Einflüsse der unabhängigen Variablen untereinander und ihrer jeweiligen Effekte auf die abhängige Variable. Dies veranschaulichen die folgenden sechs Venndiagramme. Den Modellen a), b), d) sowie e) entspricht jeweils ein bivariates Regressionsmodell mit der ersten Variablen als Kriterium und der zweiten als Prädiktor. Nach der Schätzung des Regressionsmodells werden die Residuen des Kriteriums berechnet und gespeichert. Dies entspricht der Restmengenbestimmung der Wahrscheinlichkeitsrechnung, die mit dem Mengenoperator “\” gekennzeichnet wird. Im Beispiel a) bedeutet “X1 \ X2" die Bildung der Restmenge (Residualvarianz) von X1, wobei X2 auspartialisiert wird. Um im multiplen Regressionsmodell die funktionale Form der Zusammenhänge zwischen dem Kriterium und jeder unabhängigen Variablen zu bestimmen, müssen wir zuvor alle anderen unabhängigen Variablen jeweils aus dem betreffenden Prädiktor und dem Kriterium auspartialisieren. Bei mehr als zwei unabhängigen Variablen benötigen wir hierzu multiple lineare Regressionsmodelle, die jeweils alle anderen Prädiktoren aus dem betrachtetem Merkmal und aus dem Kriterium herausnehmen. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 16 Betrachten wir nun die Linearität der Zusammenhänge im WHO-Beispiel. Als zusätzliche Prädiktoren verwenden wir die mittlere Kalorienmenge pro Tag und Person (V10) sowie die Alphabetisierungsrate (V11). Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 SPSSfWin-Menü: - 17 Statistik - Regression - Linear Neben den univariaten Statistiken fordern wir über das UnterMenü “Grafiken...” zusätzlich die partiellen Streudiagramme an, die in der Abb. 7 den Venndiagrammen c) und f) entsprechen. SPSSfWin-Menü: Statistik - Regression - Linear - Grafiken Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - SPSSfWin-Syntax: REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT v7 /METHOD=ENTER v8log10 v10 v11 /PARTIALPLOT ALL /RESIDUALS ID(v1 ) /SCATTERPLOT=(*ZRESID ,*ZPRED ) /CASEWISE PLOT(ZRESID) OUTLIERS(2) . SPSSfWin-Ausgabeprotokoll: * * * * M U L T I P L E R E G R E S S I O N * * * * Listwise Deletion of Missing Data V7 V8LOG10 V10 V11 Mean Std Dev Label 67,990 3,388 2729,673 66,817 54,569 ,597 562,433 28,708 Kindersterblichkeit:je 1000 Lebendgeborene Lg10 Patienten pro Arzt ERNÄRUNG:Mittl. tägliche Energieaufnahme ALPHABETISIERUNGSGRAD % N of Cases = 104 Correlation, 1-tailed Sig: V7 V8LOG10 V10 V11 1,000 , ,754 ,000 -,671 ,000 -,860 ,000 ,754 ,000 1,000 , -,820 ,000 -,766 ,000 V10 -,671 ,000 -,820 ,000 1,000 , ,644 ,000 V11 -,860 ,000 -,766 ,000 ,644 ,000 1,000 , V7 V8LOG10 Multiple R R Square Adjusted R Square Standard Error ,87601 ,76739 ,76042 26,70995 18 Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 Analysis of Variance DF Regression 3 Residual 100 F = Sum of Squares 235364,86486 71342,12552 109,97003 Signif F = - 19 Mean Square 78454,95495 713,42126 ,0000 ------------------ Variables in the Equation -----------------Variable V8LOG10 V10 V11 (Constant) B SE B Beta T Sig T 11,640364 -,012479 -1,292681 148,994066 9,181615 ,008187 ,142714 52,859273 ,127361 -,128615 -,680070 1,268 -1,524 -9,058 2,819 ,2078 ,1306 ,0000 ,0058 Casewise Plot of Standardized Residual Outliers = 2, Case # 16 40 64 84 93 148 *: Selected M: Missing -5, -2, 2, 5, O:.......: :.......:O . ..* . . .. *. . ..* . . * .. . . .. * . . .. * . V7 204 215 138 23 141 131 *PRED 142,5970 81,8802 79,6045 89,0352 65,4610 59,3577 *RESID 61,4030 133,1198 58,3955 -66,0352 75,5390 71,6423 6 Outliers found. Residuals Statistics: Min *PRED *RESID *ZPRED *ZRESID Max Mean Std Dev N 4,3625 168,8924 -66,0352 133,1198 -1,3311 2,1108 -2,4723 4,9839 67,9904 ,0000 ,0000 ,0000 47,8027 26,3181 1,0000 ,9853 104 104 104 104 Interpretation: Mit rd. 76,7 % “erklärter Varianz” weist unser Modell eine sehr gute Anpassung auf. Zu beachten sind aber die sehr hohen Korrelationen zwischen den Prädiktoren V10 und V11 mit V8LOG10, die Koeffizienten von -0,766 bzw. -0,820 aufweisen. Bei den Steigungsangaben handelt es um partielle Koeffizienten, die uns die Effektstärke des Prädiktors unter Konstanthaltung aller anderen angeben. Für die medizinische Versorgungsdichte bedeutet dies, dass unter Kontrolle der Ernährungslage und des Bildungsniveaus pro Zehnerpotenz zu versorgender Patienten die Säuglingssterblichkeit im Durchschnitt um 11,6 Promille steigt. Erhöht sich unter Konstanthaltung der anderen Prädiktoren die mittlere Nahrungsmenge pro Kopf um 1000 Kcal, so sinkt im Durchschnitt die Mortalität um rd. 12,5 Promille. Ebenfalls hypothesenkonform sinkt die Mortalität mit zunehmenden Bildungsniveau. Bei der gleichzeitigen Kontrolle der beiden anderen Prädiktoren erwarten wir pro zusätzlichem Prozent von Schreib- und Lesekundiger im Durchschnitt eine Abnahme der Mortalität um rd. 1,3 Promille. Für die Betrachtung der relativen Effektstärken bieten sich die standardisierten Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 20 Regressionskoeffizienten an, die auf den Wertebereich von [-1;+1] begrenzt sind. Mit einem ßGewicht von -0,68 übt der Alphabetisierungsgrad den stärksten Einfluß auf die Säuglingssterblichkeit aus. Hingegen folgen weit abgeschlagen der medizinische Versorgungsgrad und das Ernährungsniveau mit Koeffizienten von +0,13 und -0,13. Ob die Annahmen zur Varianzhomogenität der Residuen und der Linearität der Zusammenhänge erfüllt sind, läßt sich anhand der Residual- und partiellen Regressionsplots entscheiden. 6 Regression Standardisierte Residuen Seychellen 4 Peru Türkei Gambia Bolivien Swaziland 2 0 -2 Honduras -4 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0 2,5 Regression Standardisierter geschätzter Wert Abb. 8: Streudiagramm der z-standardisierten geschätzten und Residualwerte der Säuglingssterblichkeit im multiplen Regressionsmodell (WHO-Daten 1983) Sieht man von den sechs “Ausreißern” ab, die namentlich gekennzeichnet sind, so streuen die Residuen relativ homogen um die Regressionsgerade. Die Linearität der Zusammenhänge überprüfen wir mit Hilfe der partiellen Regressionsplot, bei denen die Residuen des jeweiligen Prädiktors und des Kriteriums gegeneinander abgetragen werden, nachdem zuvor aus beiden die anderen Prädiktoren auspartialisiert worden sind. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 21 Partiell. Residuum-Plot: KINDERSTERBLICHKEIT R² = 1,58 % KINDERSTERBLICHKEIT (Residuen) 200 Seychellen 100 Türkei Gambia Peru Bolivien Swaziland 0 Honduras -100 -,8 -,6 -,4 -,2 0,0 ,2 ,4 ,6 ,8 Lg10 Patienten pro Arzt (Residuen) Abb. 9: Partieller Residualplot der Säuglingssterblichkeit auf das logarithmierte Einwohner pro Arzt-Verhältnis Partiell. Residuum-Plot: KINDERSTERBLICHKEIT R² = 2,27 % KINDERSTERBLICHKEIT (Residuen) 200 Seychellen 100 Peru Bolivien Gambia Türkei 0 Honduras -100 -1000 0 1000 ERNÄHRUNG:Mittl. tägliche Energieaufnahme je Einw. (Residuen) Abb. 10: Partieller Residualplot der Säuglingssterblichkeit auf die tägliche mittlere Energieaufnahme Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 22 Partiell. Residuum-Plot: KINDERSTERBLICHKEIT R² = 45,1 % KINDERSTERBLICHKEIT (Residuen) 200 Seychellen 100 Libyen Jemen (Nord-) Gambia Peru Ägypten 0 Honduras -100 -60 -40 -20 0 20 40 60 ALPHABETISIERUNGSGRAD % (Residuen) Abb. 11: Partieller Residualplot der Säuglingssterblichkeit auf den Alphabetisierungsgrad Die Betrachtung der drei partiellen Residualplots ergibt, dass wir zwischen dem Kriterium und den drei Prädiktoren jeweils einen linearen Zusammenhang unterstellen können, der gelegentlich durch einige Ausreißer verzerrt wird. Bei der medizinischen Versorgungsdichte und der täglichen Nahrungsmenge ist dieser Zusammenhang nur sehr schwach ausgeprägt. Angesichts der bisherigen bivariaten Ergebnisse erstaunt dies sehr. Betrachtet man die Interkorrelationen der exogenen Merkmale genauer, so zeigt sich, dass medizinische Versorgungsdichte sehr hoch negativ mit der Ernährungslage und dem Alphabetisierungsgrad korreliert. Beide Prädiktoren korrelieren ebenfalls mit der Säuglingssterblichkeit hoch negativ. Ob sich dahinter eine “Scheinkausalität” oder Multikollinearität verbirgt, lässt sich nur mit Hilfe theoretischer Annahmen klären. Ebenfalls denkbar wäre, dass die drei Indikatoren nicht wechselseitige Ursachen darstellen, sondern dass sie alle drei dasselbe theoretische Konstrukt “Unterentwicklung” messen. Im Rahmen der Ausführungen zur Faktorenanalyse werden wir sehen, wie wir erstens diese Messhypothese überprüfen und zweitens durch eine geeignete Indexkonstruktion in das Regressionsmodell aufnehmen können. Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 Literaturangaben: Fox, John: Regression Diagnostics. Newbury Park, Ca: 1991 (Quantitative Applications in the Social Sciences; Nr. 79) Norušis, Marija J.: SPSS 7.5. Guide to Data Analysis. Upper Saddle River, N.J.: Prentice-Hall, 1997 Urban, Dieter: Regressionstheorie und Regressionstechnik. Stuttgart: Teubner, 1982 (Teubner Studienskripte Soziologie, Nr. 36) - 23