Konfidenzintevalle und Test von Vorhersagen Konfidenzintervalle und Tests können sich nicht nur auf Regressionskoeffizierten, sondern auch auf die bedingten Mittelwerte (Vorhersagewerte) beziehen. Da ŷ k = a + b ⋅ x k , folgt nach den Regeln für Linearkombinationen von zwei Zufallsvariablen (hier: die Schätzer der Regressionskoeffizienten „a“ und „b“) bei gegebenem (als Konstante betrachteten) Wert xk: σ μˆ Y X = x k = σ ( a + x k ⋅ b ) = σa2 + x 2k ⋅ σ 2b + 2 ⋅ x k ⋅ σab ( ) Werden in der Gleichung die Varianzen und Kovarianzen der Kennwerteverteilung der OLSSchätzer a und b eingesetzt und statt der unbekannten Populationsvarianz der Residuen die geschätzte Residualvarianz in der Population verwendet, ergibt sich nach Umformen folgende Schätzung des Standardfehlers des bedingten Mittelwerts: ( σˆ μˆ Y X = x k ) ⎛ ⎞ 2 ⎜1 xk − x ) ⎟ 2 ( ⎟ ⋅ σˆ U = σˆ U ⋅ h k = ⎜ + n 2 ⎟ ⎜n x x − ( ) ∑ i ⎜ ⎟ i =1 ⎝ ⎠ Der in der Klammer stehende Faktor hk wird in der Literatur als Hebelwert (engl: leverage) bezeichnet. Vorlesung Statistik 2 1 Standardfehler eines bedingten Mittelwerts ( σˆ μˆ Y X = x k ) 1 = σˆ U ⋅ + n ( xk − x ) n 2 ∑ ( xi − x ) 2 = σˆ U ⋅ h k i =1 Die Standardfehler werden um so größer, je weiter eine Ausprägung xk vom Mittelwert der erklärenden Variablen entfernt ist, da im Zähler der quadrierte Abstand zum Mittelwert auftaucht. Nachvollziehbar wird dies, wenn die Formel zur Berechnung der Vorhersagewerte umgeformt wird: ŷ k = a + b ⋅ x k = ( y − b ⋅ x ) + b ⋅ x k = y + b ⋅ ( x k − x ) Wenn xk gleich dem Mittelwert der erklärenden Variable ist, dann reduziert sich der Vorhersagewert auf den Mittelwert der abhängigen Variablen. Dieser Wert lässt sich relativ genau schätzen. Der Standardfehler ist dann gleich dem Standardfehler geteilt durch die Wurzel aus der Fallzahl. Je weiter xk vom Mittelwert entfernt ist, desto stärker muss berücksichtig werden, dass das geschätzte Regressionsgewicht möglicherweise vom tatsächlichen Regressionsgewicht abweicht, weil die mögliche Differenz zwischen der tatsächlichen Regressionsgeraden und der geschätzten Regressionsgeraden größer wird, je stärker man sich den Rändern der Verteilung nähert. Der Standardfehler eines Vorhersagewertes wird daher an den Rändern der Verteilung immer größer. Vorlesung Statistik 2 2 Konfidentintervall und Test von Vorhersagen Soll dass (1−α)-Konfidenzintervall eines bedingten Mittelwerts berechnet werden, ergibt es sich somit als: c.i. μ Y X = x k = yˆ k ± σˆ μˆ Y X = x k ⋅ t df = n − 2;1−α / 2 ( ) ( ) Der geschätzte Standardfehler kann auch verwendet werden, um einen bedingten Mittelwert zu testen. Die Vorgehensweise entspricht dem Test eines Regressionskoeffizienten. Von der Schätzung eines bedingten Mittelwertes zu unterscheiden ist die Schätzung eines individuellen Wertes der abhängigen Variable. Bei der Punktschätzung sind bedingter Mittelwert und individuelle Vorhersage gleich, weil die beste Vorhersage der bedingte Mittelwert ist. Bei der Intervallschätzung oder dem Tests eines individuellen Vorhersagewertes ist dagegen zu berücksichtigen, dass die einzelnen Realisationen um die Regressionskurve streuen. Bei der Prognose eines individuellen Wertes geschieht dies, indem zusätzlich zum Standardfehler des bedingten Mittelwertes die Streuung um diesen Wert, also der Standardfehler der Residuen addiert wird: ( σˆ ( yˆ k ) = σˆ 2 μˆ Y Xk Vorlesung Statistik 2 ) ⎛ ⎞ 2 ⎜ 1 xk − x ) ⎟ 2 ( 2 ⎟ ⋅ σˆ U = σˆ U ⋅ 1 + h k + σˆ U = ⎜1 + + n 2 ⎟ ⎜ n − x x ( ) ∑ i ⎜ ⎟ i =1 ⎝ ⎠ 3 Konfidentintervall und Test von Vorhersagen ( σˆ μˆ Y X = x k ) 1 = σˆ U ⋅ + n ( xk − x ) n 2 ∑ ( xi − x ) 1 σ ( yˆ k ) = σˆ U ⋅ 1 + + n 2 i =1 ) n 2 ∑ ( xi − x ) 2 i =1 Konfidenzintervall eines bedingten Mittelwerts: ( ( xk − x ) ( ) c.i. μ Y X = x k = yˆ k ± σˆ μˆ Y X = x k ⋅ t df = n − 2;1−α / 2 Konfidenzintervall einer individuellen Vorhersage: c.i.( yˆ 0 ) = yˆ k ± σˆ ( yˆ k ) ⋅ t df = n − 2;1−α / 2 Die folgende Abbildung zeigt die Grenzen der Konfidenzintervalle sowohl der bedingten Mittelwerte wie der individuellen Vorhersagewerte für die 185 Fälle der Allbus-Stichprobe. Die Grenzen für die einzelnen Realisationen sind deutlich weiter von der Regressionsgerade entfernt als die Grenzen der Intervalle für die Mittelwerte. Bei 5% Irrtumswahrscheinlichkeit sollten auch nur etwa 5% der 185 Fälle, also zwischen 9 und 10 Fälle außerhalb der Grenzen der Konfidenzintervalle liegen. Tatsächlich liegen 12 (=6.5%) aller Stichprobenfälle außerhalb der Intervallgrenzen, was darauf hinweist, dass die Standardfehler möglicherweise leicht unterschätzt werden. Dies kann dadurch verursacht sein, dass die Allbus-Stichprobe keine einfache Zufallsauswahl, sondern eine stratifizierte mehrstufige Auswahl ist. Vorlesung Statistik 2 4 Konfidentintervall von Vorhersagen Intervallgrenze für die Vorhersage von Populationsmittelwerten Alter der Frau 80 70 60 50 40 30 Intervallgrenze für die Vorhersage individueller Fälle 20 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Alter des Mannes Daten: Allbus 1996 Abbildung aus Kühnel/Krebs, 2001: 440 Vorlesung Statistik 2 5 Tests von Hypothesen über Kovarianzen, Korrelationen und Determinationskoeffizienten Da sich die Fallzahlen bei der Berechnung des Regressionsgewicht herauskürzen gilt: b= SPXY SSX SPXY SPXY s s XY s Y sY 2 sY n − 1 = σˆ XY = n = XY = ⋅ = ⋅ = ⋅ = r R XY SSX σˆ X2 s X2 sX ⋅ sY sX sX s X SSX n n −1 Wenn das Regressionsgewicht b null ist, ist daher auch die Kovarianz, die Korrelation und ihr Quadrat, der Determinationskoeffizient, null. Der Test des Regressionsgewichts mit β0 = 0 prüft also gleichzeitig auch die Hypothese, dass die Kovarianz, die Korrelation und der Determinationskoeffizient null sind. Vorlesung Statistik 2 6 Kontrolle der Anwendungsvoraussetzungen Die Eigenschaften der OLS-Schätzung des linearen Regressionsmodells sind an Anwendungsvoraussetzung bzw. -annahmen gebunden: (1) Linearitätsannahme: In der Population besteht ein linearer Zusammenhang zwischen der erklärenden Variable X und der abhängigen Variablen Y; (2) Unkorreliertheit von Populationsresiduen und erklärender Variablen. (3) Die Residualvarianzen sind bei allen Ausprägungen von X gleich (homoskedastisch); (4) Die Populationsresiduen korrelieren nicht miteinander (keine Autokorrelation); (5) Die Residuen sind normalverteilt. Die letzte Annahme ist nur für die Gültigkeit der T-Verteilung in Konfidenzintervallen und Tests notwendig. Auf sie kann bei hinreichend großen Fallzahlen (n≥30 besser ≥50) verzichtet werden, da dann die Schätzer nach dem zentralen Grenzwertsatz asymptotisch normalverteilt sind und daher die Standardnormalverteilung anstelle einer T-Verteilung herangezogen werden kann. Im Sinne eines vorsichtigen Vorgehens wird unabhängig von Annahme (5) oft die TVerteilung anstelle der Normalverteilung verwendet, da die Quantile der T-Verteilung zu größeren Konfidenzinetrvallen und kleineren Ablehnungsbereichen der Nullhypothese führen. Für die Kontrolle der Anwendungsvoraussetzungen können spezielle Analysen durchgeführt werden, die meist auf den Stichprobenresiduen der OLS-Schätzung basieren. Diese werden anstelle der unbeobachteten Populationsresiduen verwendet. Vorlesung Statistik 2 7 Kontrolle der Anwendungsvoraussetzungen der Regression Da anstelle der Populationskoeffizienten α und β nur deren Schätzungen a und b vorliegen, können nämlich anstelle der Realisierungen ui von U nur die Stichprobenresiduen ei von E betrachtet werden. Wenn die Modellannahmen erfüllt sind, sollten die Realisationen der Residualariable U bei allen Ausprägungen der erklärenden Variable X bzw. der Vorhersagewerte • Erwartungswerte von null aufweisen (Linearitätsannahme), • nicht mit den erklärenden Variablen korrelieren (Unkorreliertheit), • die gleiche Varianz aufweisen (Homoskedastizitätsannahme), • voneinander unabhängig sein (keine Autokorrelation) und • möglichst normalverteilt sein (Normalverteilungsannahme). Betrachtet man die Stichprobenresiduen anstelle der Populationsresiduen folgt jedoch aus den Eigenschaften der OLS-Schätzung, • dass der Mittelwert der Stichprobenresiduen null ist und • dass die Stichprobenresiduen nicht mit der erklärenden Variablen korrelieren. Hinzu kommt, dass die Stichprobenresiduen zwangsläufig bei verschiedenen Ausprägungen der erklärenden Variablen unterschiedliche Varianzen aufweisen müssen, selbst wenn die Populationsresiduen homoskedastisch sind. Dies liegt daran, dass die Ausprägungen yi der abhängigen Variablen Y die Summe der Vorhersagewerte und der Stichprobenresiduen sind: yi = yˆ i + ei Vorlesung Statistik 2 8 Kontrolle der Anwendungsvoraussetzungen der Regression yi = yˆ i + ei Wenn die Homoskedastizitätsannahme zutrifft, ist die bedingte Varianz eines Falles yi bei einfacher Zufallsauswahl gleich der Populationsvarianz der Residualvariable U: σ 2 ( yi x i ) = σ 2U Die Varianz eines Vorhersagewertes ist das Quadrat des Standardfehlers. Dann gilt also: σ2U = σ 2 ( yi x i ) = σ 2 (ei ) + σ 2 (μ Y X = xi ) = σ 2 (ei ) + h i ⋅ σ 2U Daraus folgt für die Varianz eines Residuums ei: ⎛ ⎞ 2 ⎜ 1 ⎟ x x − ( ) i 2 2 2 2 2 2 2 ⎟ σ (ei ) = σ U − σ (μ Y X = xi ) = σ U − h i ⋅ σ U = σ U ⋅ (1 − h i ) = σ U ⋅ ⎜1 − − n 2 ⎜ n ⎟ − x x ( ) ∑ j ⎜ ⎟ = j 1 ⎝ ⎠ Die Varianz eines Stichprobenresiduums ei ist also um so kleiner, je weiter der zugeordnete Wert xi vom Mittelwert der erklärenden Variablen entfernt ist. Vorlesung Statistik 2 9 Kontrolle der Anwendungsvoraussetzungen der Regression Ersetzt man die Populationsvarianz von U durch den erwartungstreuen Schätzer dieser Varianz und zieht die Wurzel aus der Varianz, ergibt sich der geschätzte Standardfehler eines Residuums ei: ⎛ ⎞ 2 ⎜1 xi − x ) ⎟ ( ⎟= σˆ ( ei ) = σˆ U ⋅ 1 − h i = σˆ U ⋅ 1 − ⎜ + n 2 ⎟ ⎜n x x − ( ) ∑ j ⎜ ⎟ = j 1 ⎝ ⎠ ⎛ ⎞ 2 ⎜ 1 xi − x ) ⎟ ( j =1 ⎟ ⋅ ⎜1 − − n 2 ⎟ n−2 ⎜ n x x − ( ) ∑ j ⎜ ⎟ = j 1 ⎝ ⎠ n ∑e 2 j Bei der Kontrolle von Modellannahmen werden daher meist anstelle der Stichprobenresiduen E die standardisierten Residuen E* betrachtet, die sich ergeben, wenn jedes Residuum ei durch seinen Standardfehler dividiert wird: e ei e*i = i = n σˆ ( ei ) ⎞ 2 ⎛ e 2 ∑ j ⎜ xi − x ) ⎟ ( 1 j =1 ⎟ ⋅ ⎜1 − − n 2 n−2 ⎜ n ⎟ x x − ( ) ∑ j ⎜ ⎟ j =1 ⎝ ⎠ Zur Unterscheidung von einer Standardisierung über die Z-Transformation werden die durch ihren Standardfehler geteilten Residuen auch als studentisierte Residuen bezeichnet. Vorlesung Statistik 2 10 Kontrolle der Linearitätsannahme 5 Einen ungefähren Eindruck über die Angemessenheit der Linearitätsannahme gibt ein Streudiagramm der (standardisierten) Residuen nach den Werten der abhängigen Variablen. Standardisierte Resiuen 4 3 2 1 0 -1 -2 -3 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Abhängige Variable Zwischen der abhängiger Variable und standardisierten Residuen besteht notwendigerweise eine positive Korrelation, da die abhängige Variable eine Funktion der unstandardisierten Residuen ist. Auf Nichtlinearität weist ein Streudiagramm hin, bei dem die Punktewolke nicht gleichmäßig ansteigt. So besteht möglicherweise im Beispiel an den Rändern der Verteilung eine leichte Abweichung von der linearen Zunahme. Vorlesung Statistik 2 11 Kontrolle der Linearitätsannahme Eine andere Kontrolle der Linearitätsannahme besteht darin, die abhängige Variable zu gruppieren und die Mittelwerte der standardisierten Residuen in den Gruppen zu betrachten. Standardized Residual * Alter der Partnerin (gruppiert) Standardized Residual Alter der Partnerin (gruppiert) bis 20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70 ab 71 Insgesamt Mittelwert -.4942949 -.1206064 -5.1E-02 -.3485271 1.62E-02 .1265506 .7038620 .3121954 .9924353 .8679651 1.0756006 1.1765388 9.54E-17 1.5 N 36 49 28 16 9 8 14 8 8 4 1 4 185 Standardab weichung .6022805 .5272793 .8391817 1.2660343 1.4752204 .7049125 1.8334303 1.1860818 .4890400 .5131495 . .1235232 .9972789 2 y = 6E-05x + 0.0242x - 0.9002 1 0.5 0 -0.5 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Im Beispiel zeigt sich hierbei ein primär linearer Trend. Insofern scheint für die Beispieldaten die Linearitätsannahme nicht gravierend verletzt zu sein. Vorlesung Statistik 2 12 Kontrolle der Homoskedastizitätsannahme 5 Das Streudiagramm der standardisierten Residuen gegen die Vorhersagewerte (bzw. die Werte der erklärenden Variablen) sollte bei homoskedastischen Residuen entlang der wagerechten Achse gleichmäßig um den Wert null streuen. Standardisierte Resiuen 4 3 2 1 0 -1 -2 -3 15 20 25 30 35 40 45 50 55 60 65 70 75 Vorhersagewerte Dass es im Streudiagramm für die Beispieldaten mehr Fälle bei niedrigen als bei hohen Vorhersagewerten gibt, spricht nicht gegen die Homoskedastizitätsannahme. Auf der anderen Seite scheinen aber vor allem bei mittleren und hohen Vorhersagewerten standardisierte Residuen aufzutreten, die mehr als 2 Standardabweichungen von null abweichen. Dies könnte ein Hinweis darauf sein, dass bei höherem Alter die Residualvarianzen zunehmen, die individuellen Vorhersagen also ungenauer werden. Ein deutlich sichtbarer Zusammenhang zwischen den Vorhersagewerten und den Streuungen der Residuen scheint allerdings nicht zu bestehen. Vorlesung Statistik 2 13 Kontrolle von Autokorrelation Für die Prüfung der Autokorrelation der Residuen gibt es spezielle Testverfahren. Da im Beispiel die Daten aus einer Bevölkerungsumfrage kommen, bei der die Respondenten unabhängig voneinander in die Stichprobe aufgenommen worden sind, ist nicht mit autokorrelierten Residuen zu rechnen. Autokorrelationen treten vor allem bei Zeitreihendaten und anderen zeitbezogenen Daten auf. Kontrolle der Normalverteilungsannahme Obwohl die Normalvereilungsannahme relativ unproblematisch ist, ist es möglich, sie zu untersuchen. Dazu wird oft ein sogenanntes Q-Q-Plot betrachtet, bei denen die standardisierten Residuen gegen Quantile der Standardnormalverteilung (z-Werte) abgetragen werden, die aus der kumulierten Häufigkeitsverteilung der Residuen berechnet werden. Die z-Werte berechnen sich nach: 0.5 ⎞ ⎛ zi = Φ −1 ⎜ cpi − ⎟ n ⎠ ⎝ Im Beispiel der Regression des Alters der Partnerin auf das Alter des Partners ergibt sich für das kleinste der 185 Residuen eine kumulierte relative Häufigkeit von 1/185. Der z-Wert für dieses Residuum ist dann der Quantilwert der Standardnormalverteilung, der der relativen Häufigkeit von 0.0027 (=1/185 − 0.5/185)entspricht. Der zehntkleinste Wert korrespondiert entsprechend mit dem z-Wert zum relativen Anteil 0.0514 (=10/185 − 0.5/185). Vorlesung Statistik 2 14 Kontrolle der Normalverteilungsannahme Standardisierte Residuen 5 4 3 2 1 0 -1 -2 -3 -3 -2 -1 0 1 2 3 z-Werte der kumulierten Residuen (aus: Kühnel/Krebs 2001: 447) Wenn die Residuen normalverteilt sind, sollte das Q-Q-Plot eine Punktewolke zeigen, die relativ eng entlang der 45°-Gerade im Streudiagramm verläuft. Die Abbildung zeigt, dass dies weitgehend der Fall ist. Nur an den Rändern der Verteilung gibt es deutliche Abweichungen. Vorlesung Statistik 2 15 Ausreißer und einflussreiche Fälle Eine implizite Annahme aller statistischer Analysen ist, dass die Population, aus der die Fälle kommen, homogen ist. Wenn die Stichprobe nämlich Fälle enthält, die von den übrigen Fällen deutlich abweichen, kann es zu Verzerrungen der Ergebnisse kommen. So fällt in den Streudiagrammen stets ein (rot eingezeichneter) Punkt auf, der ein sehr hohes standardisiertes Residuum aufweist. Es handelt sich hier um ein Paar, bei dem der Mann 17 Jahre, seine Partnerin 46 Jahre alt ist. Da dieser Fall sehr deutlich von den übrigen Datenpunkten abweicht, ist es möglich, dass er die Lage der Regressionskurve stärker beeinflusst als andere Fälle. Wenn es sich dann um einen „Datenfehler“ handelt, kann dadurch die Regressionsgerade verzerrt sein. Generell haben Datenpunkte, die weit vom Schwerpunkt der Punktewolke der abhängigen und unabhängigen Variablen entfernt sind, ein größeres Gewicht bei der Bestimmung der Regressionsgeraden, was daran liegt, das die Regressionsgerade immer durch den Schwerpunkt der Punktewolke verläuft und gleichzeitig die Summe der quadrierten Abweichungen von der Gerade minimiert werden, große Abweichungen also stärker einfließen als kleine Abweichungen. Sichtbar wird dies an den Hebelwerten hi, die in die Berechnung der standardisierten Residuen einfließen. Je größer ein Hebelwert ist, desto stärker bestimmt der entsprechende Fall die Lage der Regressionsfunktion. Vorlesung Statistik 2 16 Henelkraft-Werte und Cook‘s Distanzen Ausreißer und einflussreiche Fälle In der Abbildung ist die Kurve der Hebelwerte hi und Cooks Distanzen Di nach den Werten der unabhängigen Variablen Y als Streudiagramm eingezeichnet. Deutlich sichtbar ist der uförmige Verlauf der Hebelkraftwerte. 0.15 0.10 0.05 0.00 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 (aus: Kühnel/Krebs 2001: 447) Erklärende Variable Neben der Hebelkraft bestimmt auch der Wert des Residuums ei den Einfluss, den ein Fall i auf die Regressionsgerade hat. Das nach dem Statistiker Cook benannte Maß Cooks Distanz D gibt für jeden Fall die Einflussstärke an. Die Berechnung erfolgt nach der Gleichung Di = Vorlesung Statistik 2 ( e*i ) 2 2 ⋅ hi 1 − hi 17 Henelkraft-Werte und Cook‘s Distanzen Ausreißer und einflussreiche Fälle Interessanter sind Cooks Distanzen. Während die meisten Werte recht klein sind, gibt, es doch einige auffallende Ausreißer. Am größten ist der Wert für das bereits erwähnte Paar des 17-jährigen Mannes und seiner 46-jährigen Partnerin. 0.15 0.10 0.05 0.00 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 (aus: Kühnel/Krebs 2001: 447) Erklärende Variable Wird dieser Fall von der Analyse ausgeschlossen und die Regression für die verbleibenden 184 Fälle berechnet, so ergibt sich als neue Vorhersagegleichung: ˆ = 2.13 + 0.87 ⋅ X anstelle von Y ˆ = 2.80 + 0.85 ⋅ X Y Der Ausschluss des Falles hat also eine Senkung der Regressionskonstante um immerhin 0.67 (von 2.80 auf 2.13) bewirkt. Gleichzeitig ist das Regressionsgewicht um 0.02 (von 0.85 auf 0.87) angestiegen. Auch hat sich die Korrelation von X und Y um 0.91 auf 0.92 erhöht. Vorlesung Statistik 2 18 Ausreißer und einflussreiche Fälle Der Ausschluss dieses Ausreißerpaares hat also einen sichtbaren Effekt auf die Regression. Dieser Effekt allein sollte allerdings nicht als hinreichender Grund genommen werden, den Fall tatsächlich von der Analyse auszuschließen. Wenn es sich nämlich nicht um einen Datenfehler handelt, kann der Ausschluss abweichender Fälle zur Missachtung besonders interessanter Informationen führen. Eine bessere Strategie besteht daher darin, sich solche abweichenden Fälle näher anzusehen.. Konsequenzen von Verletzungen der Modellannahmen Um zu demonstrieren, welche Auswirkungen es hat, wenn die Anwendungsvoraussetzungen nicht erfüllt sind, können Simulationsstudien durchgeführt werden. Diese führen zu folgenden Ergebnissen: (1) Die Verletzung der Normalverteilungsannahme hat auf die Schätzung der Regressionskoeffizienten und Standardfehler keine Auswirkungen. (2) Ist dagegen die Linearitätsannahme verletzt, schätzt die OLS-Regression eine lineare Trendlinie, die im Sinne der kleinsten Quadrate die bestmögliche lineare Annäherung an die tatsächliche nichtlineare Regressionsfunktion ist. Die Standardfehler der Koeffizienten der Trendlinie können allerdings verzerrt sein, weil selbst bei einer homoskedastischen Residualarianz der nichtlinearen Regression die Abweichungen von der Trendlinie heteroskedastisch sind. Vorlesung Statistik 2 19 Konsequenzen von Verletzungen der Modellannahmen (3) Sind die Residuen mit der erklärenden Variable korreliert, sind die Schätzer der Koeffizienten der datengenerierenden linearen Gleichung verzerrt. Geschätzt wird auch hier eine optimale Trendlinie. Wenn die Korrelation zwischen den Residuen und der erklärenden Variable durch eine lineare Beziehung hervorgerufen wird, ist diese Trendlinie gleichzeitig die zutreffende lineare Regression von Y auf X (allerdings nicht die zutreffende kausale Beziehung zwischen Y und X). Falls die Residuen homoskedastisch sind, werden die Standardfehler der Koeffizienten der Trendlinie unverzerrt geschätzt. (4) Bei heteroskedastischen Residuen werden die Regressionskoeffizienten unverzerrt geschätzt. Die geschätzte Residualvarianz in der Population und die Standardfehler der Regressionskoeffizienten können jedoch stark verzerrt sein, wodurch auch Konfidenzintervalle und Tests unbrauchbar werden. Wenn allerdings die Fallzahlen bei allen Ausprägungen der erklärenden Variablen gleich (und größer 1) sind, werden die Standardfehler recht robust geschätzt. (5) Autokorrelation unter den Residuen hat die gleichen Konsequenzen wie heteroskedastische Residualvarianzen: die Regressionskoeffizienten werden unverzerrt geschätzt, die Standardfehler sind dagegen verzerrt und werden bei positiven Autokorrelationen unterschätzt. Vorlesung Statistik 2 20 Drittvariablenkontrolle in der Tabellenanalyse Mit der Tabellenanalyse können Zusammenhänge zwischen zwei nominal- oder ordinalskalierten Variablen mit nicht zu vielen Ausprägungen analysiert werden. Bei einer kausalen Interpretation besteht allerdings die Gefahr von Fehlinterpretationen, wie das folgende empirische Beispiel zeigt. Bewertung von Schwangerschaftsabbrüchen in Abhängigkeit von Telefonanschluss im Haushalt Abtreibung, wenn die Frau es will, ... ... sollte verboten sein ... sollte erlaubt sein Telefonanschluss im Haushalt? ja nein 54.7% 33.0% 45.3% 67.0% (2331) (782) In Haushalten, die 1992 über einen Telefonanschluss verfügten, war der Anteil der Abtreibungsgegner um 21.7 (54.7% − 33.0%) Prozentpunkte höher als in Haushalten, die über kein Telefon verfügen! (Quelle: ALLBUS 1992) Es erscheint nicht sehr plausibel, dass das Verfügen über einen Telefonanschluss dazu führt, dass die Haltung zu Schwangerschaftsabbrüchen regider wird. Tatsächlich handelt es sich bei der beobachteten empirischen Beziehung um ein Artefakt, dass dadurch zustande kommt, dass 1992 sowohl die Telefondichte in den alten und den neuen Bundesländern, als auch die Haltung zu Schwangerschaftsabbrüchen sehr unterschiedlich war. Vorlesung Statistik 2 21 Drittvariablenkontrolle in der Tabellenanalyse Deutlich wird dies, wenn der Zusammenhang für die alten und neuen Bundesländer getrennt betrachtet wird. Bewertung von Schwangerschaftsabbrüchen in Abhängigkeit von Telefonanschluss im Haushalt Abtreibung, wenn die Frau es will, ... ... sollte verboten sein ... sollte erlaubt sein Alte Länder Telefonanschluss im Haushalt? ja nein 58.5% 62.8% 41.5% 37.2% (2026) (78) Neue Länder Telefonanschluss im Haushalt ja nein 28.9% 29.7% 71.1% 70.3% (305) (704) (Quelle: ALLBUS 1992) Die gleichzeitige Betrachtung von drei Variablen (Telefonbesitz X, Haltung zu Schwangerschaftsabbrüchen (Y) und Region (Z) ermöglicht es, die Fehlinterpretation des bivariaten Zusammenhangs zu vermeiden. Die sogenannte Drittvariablenkontrolle ist daher für statistische Zusammenhangsanalysen äußerst wichtig. In der Tabellenanalyse werden bei Drittvariablenkontrolle mehrdimensionale Kreuztabellen analysiert. Vorlesung Statistik 2 22 Aufbau einer trivariaten Kreuztabelle Die trivariate Kreuztabelle zeigt die gemeinsame Verteilung von drei Variablen. Die Ausprägungen der dritten Variablen definieren Partialtabellen, d.h. bivariate Tabellen bei vorgegebenem Wert einer dritten Variablen, dessen Ausprägung für alle Fälle der Partialtabelle konstant ist. Drittvariablenkontrolle wird daher oft mit Konstanthalten der Ausprägung einer Drittvariablen gleichgesetzt. z1 X Y y1 y2 ... YI ∑ x1 n111 n211 ... nI11 n•11 x2 n121 n221 ... nI21 n•21 ... ... ... ... ... ... xJ n1I1 n2I1 ... nIJ1 n•J1 ∑ n1•1 n2•1 ... nI•1 n••1 x1 n112 n212 ... nI12 n•12 Z z2 X x2 n122 n222 ... nI22 n•22 .... ... ... ... ... ... ... xJ n1I2 n2I2 ... nII2 n•I2 ∑ n1•2 n2•2 ... nI•2 n••2 ... ... ... ... ... x1 n11K n21K ... nI1K n•1K zK X x2 n12K n22K ... nI2K n•2K ... ... ... ... ... ... xJ n1IK n2IK ... nIIK n•IK ∑ n1•K n2•K ... nI•K n••K Die formale Kennzeichnung der absoluten Häufigkeiten erfolgt in einer trivariaten Tabelle analog zu der in bivariaten Tabellen: • „n“ steht für die absoluten Häufigkeiten; • die ersten beiden Indizes von n stehen für die Ausprägungen der Zeilenvariable (X) und der Spaltenvariable (Y) in einer Partialtabelle; der zusätzliche dritte Index steht für die Ausprägung der Dritt- oder Kontrollvariable (Z). Vorlesung Statistik 2 23 Randtabellen Bivariate Tabellen ergeben sich aus der trivariaten Kreuztabelle analog der Bildung univariater Randverteilung bei bivariaten Tabellen durch Aggregation (Aufsummieren) über die Werte einer der drei Variablen und werden daher hier als Randtabellen bezeichnet. Als Beispiel wird der Zusammenhang zischen der Bewertung der eigenen und der allgemeinen Wirtschaftslage bei Kontrolle der Erwerbstätigkeit betrachtet: Trivariate Kreuztabelle: Erwerbstätigkeit (Z) Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) ja (z1) Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) n111 = 170 n121 = 751 n211 = 72 n221 = 928 nein (z2) Allgemeine Wirtschafslage (X) gut (x1) nicht gut (x2) n112 = 168 n122 = 614 n212 = 54 n222 = 732 (Quelle: Allbus 1996) Randtabelle Y nach X durch Aggregation über Kontrollvariable (Z): Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) Summe Vorlesung Statistik 2 Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) n11+ = 170 +168 = 338 n12+ = 751 + 614 = 1365 n21+ = 72 + 54 = 126 n22+ = 928 + 732 = 1660 n+1+ = 464 n+2+ = 3025 Summe n1++ = 1703 n2++ = 1786 n+++ = 3489 24 Randtabellen Trivariate Kreuztabelle: Erwerbstätigkeit (Z) Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) ja (z1) Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) n111 = 170 n121 = 751 n211 = 72 n221 = 928 nein (z2) Allgemeine Wirtschafslage (X) gut (x1) nicht gut (x2) n112 = 168 n122 = 614 n212 = 54 n222 = 732 (Quelle: Allbus 1996) Randtabelle Y nach Z durch Aggregation über Spaltenvariable (X): Erwerbstätigkeit (Z) Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) Summe ja (z1) n1+1 = 170 +751 = 921 n2+1 = 72 +928 = 1000 n+1+ = 1921 nein (z2) n1+2 = 168 + 614 = 782 n2+2 = 54 + 732 = 786 n+2+ = 1568 Summe n++1 = 1703 n++2 = 1786 n+++ = 3489 Randtabelle X nach Z durch Aggregation über Zeilenvariable (Y): Erwerbstätigkeit (Z) Allgem. Wirtschaftslage (X) gut (x1) nicht gut (x2) Summe Vorlesung Statistik 2 ja (z1) n+11 = 170 + 72 = 242 n+21 = 751 +928 = 1679 n++1 = 1921 nein (z2) n+12 = 168 + 54 = 222 n+22 = 614 + 732 = 1346 n++2 = 1568 Summe n+1+ = 464 n+2+ = 3025 n+++ = 3489 25 Anteile und Prozentuierungen Für die Interpretation werden üblicherweise Anteile bzw. Prozentwerte berechnet. Eher selten werden allerdings Anteile bezogen auf die gesamte dreidimensionale Kreuztabelle berechnet. n n n n n n n pijk = ijk ; piji = iji ; pi i k = i i k ; p i jk = i jk ; pi ii = i ii ; pi ji = i ji ; pii k = ii k n iii n iii n iii n iii n iii n iii n iii Eher beziehen sich Anteile auf die Partialtabellen: nur Erwerbstätige (z1) Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) Total nur Nichterwerbstätige (z2) Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) Total Vorlesung Statistik 2 pij(k ) = pijk pii k = n ijk n ii k Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) p11(1) = 170/1921 p12(1) = 751/1921 = 0.088 = 0.391 p21(1) = 72/1921 p22(1) = 928/1921 = 0.037 = 0.483 p+1(1) = 0.126 p+2(1) = 0.874 Total p1+(1) = 921/1921 = 0.479 p2+(1) = 1000/1921 = 0.521 p++(1) = 1.000 Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) p11(2) = 168/1568 p12(2) = 614/1568 = 0.107 = 0.392 p21(2) = 54/1568 p22(2) = 732/1568 = 0.034 = 0.467 p+1(2) = 0.142 p+2(2) = 0.858 Total p1+(2) = 782/1568 = 0.499 p2+(2) = 768/1568 = 0.501 p++(2) = 1.000 26 Anteile und Prozentuierungen In der Regel werden bedingte relative Häufigkeiten in den Partialtabellen berechnet. Zur Unterschiedung von bedingender Variable und Kontrollvariable wird zwischen erklärender Variablen und Kontrollvariablen ein Punkt gesetzt: pY(X.Z) bezeichnet die bedingten Anteile von Y gegeben X in den durch die Ausprägungen von Z definierten Partialtabellen p n pi( j.k ) = ijk = ijk p jk n jk nur Erwerbstätige (z1) Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) Total nur Nichterwerbstätige (z2) Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) Total Vorlesung Statistik 2 Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) p1(1.1) = 170/242 p1(2.1) = 751/1679 = 0.702 = 0.447 p2(1.1) = 72/242 p2(2.1) = 928/1679 = 0.298 = 0.553 p+(1.1) = 1.000 (242) p+(2.1) = 1.000(1679) Total p1(+.1) = 921/1921 = 0.479 p2(+.1) = 1000/1921 = 0.521 p+(+.1) = 1.000 (1921) Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) Total p1(1.2) = 168/222 p1(2.2) = 614/1346 p1(+.2) = 782/1568 = 0.757 = 0.456 = 0.499 p2(1.2) = 54/222 p2(2.2) = 732/1346 p2(+.2) = 786/1568 = 0.243 = 0.544 = 0.501 p+(1.2) = 1.000 (222) p+(2.2) = 1.000 (1346) p+(+.2) = 1.000 (1568) 27 Konditionale Zusammenhangsmaße Zusammenhangsmaße in Partialtabellen geben die bedingten Zusammenhänge bei gegebenem Wert der Kontrollvariable an und sind daher konditionale Zusammenhangsmaße. Nur Erwerbstätige (z1) Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) Total 70.2% (170) 44.7% ( 751) 47.9% ( 921) 29.8% ( 72) 55.3% ( 928) 52.1% (1000) (242) (1679) (1921) nur Nichterwerbstätige (z2) Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) Total 75.7% (168) 45.6% ( 614) 49.9% ( 782) dYX(Z=2)% = 30.1 Punkte 24.3% ( 54) 54.4% ( 732) 50.1% ( 786) ΦYX(Z=2) = 0.210 (222) (1346) (1568) dYX(Z=1)% = 25.5 Punkte ΦYX(Z=1) = 0.169 bivariater Zusammenhang: Alle Eigene Wirtschaftslage (Y) gut (y1) nicht gut (y2) Vorlesung Statistik 2 Allgemeine Wirtschaftslage (X) gut (x1) nicht gut (x2) Total 72.8% (338) 45.1% (1365) 48.8% (1703) 27.2% (126) 54.9% (1660) 51.2% (1786) (464) (3025) (3489) dYX% = 27.7 Punkte ΦYX = 0.188 28 Unterschiede zwischen konditionalen und bivariaten Effekten Der Vergleich von konditionalen Effekten bei Drittvariablenkontrolle und korrespondierenden bivariaten Effekten in Partialtabellen kann zu ganz unterschiedlichen Ergebnissen führen: • Verglichen mit der bivariaten Beziehung kann ein konditionaler Zusammenhang geringer ausfallen als der korrespondierende bivariate Zusammenhang. • Verglichen mit der bivariaten Beziehung kann ein konditionaler Zusammenhang ganz verschwinden. • Das Vorzeichen der Beziehung zwischen abhängiger und unabhängier Variable kann sich bei konditionaler und bivariater Berechnung umdrehen. • Die konditionalen Beziehungen in den Partialtabellen können sich unterscheiden. • Verglichen mit der bivariaten Beziehung kann ein konditionaler Zusammenhang größer ausfallen als der korrespondierende bivariate Zusammenhang. • Obwohl bivariat keine Beziehung besteht, zeigt sich in den Partialtabellen eine Beziehung zwischen abhängiger und erklärender Variable. Ursache dieser Differenzen sind verschiedenen Möglichkeiten von Kausalbeziehungen zwischen drei Variablen. Im folgenden werden solche Möglichkeiten jeweils an einem fiktiven Datenbeispiel demonstriert. Vorlesung Statistik 2 29 Additive Effekte bei unkorrelierten erklärenden Variablen Sowohl X als auch Z wirken jeweils für sich auf Y. Bei unkorrelierten, additiven Effekten sind bivariate und konditionale Prozentsatzdifferenzen gleich groß. Z = z1 X X Y Z Z = z2 X Y x1 x2 x1 x2 y1 62% (155) 46% (115) 54% (135) 38% ( 95) y2 38% ( 95) 54% (135) 46% (115) 62% (155) Total (250) (250) (250) (250) dY.X(Z=1)% = 16.0 dX.Y(Z=1)% = 16.1 ΦXY(Z=1) = 0.161 X Y x1 x2 Total y1 58% (290) 42% (210) 50% ( 500) y2 42% (210) 58% (290) 50% ( 500) Total (500) (500) (1000) dY.X% = 16.0, dX.Y% = 16.0 ΦXY = 0.160 dY.X(Z=2)% = 16.0 dX.Y(Z=2)% = 16.1 ΦXY(Z=2) = 0.161 Z Y z1 z2 Total y1 54% (270) 46% (230) 50% ( 500) y2 46% (230) 54% (270) 50% ( 500) Total (500) (500) (1000) dY.Z% = 8.0, dZ.Y% = 8.0 ΦYZ = 0.080 Z X z1 z2 Total x1 50% (250) 50% (250) 50% ( 500) x2 50% (250) 50% (250) 50% ( 500) Total (500) (500) (1000) Vorlesung Statistik 2 dX.Z% = 0, dZ.X% = 0 ΦXZ = 0 30 Additive Effekte bei korrelierten erklärenden Variablen: Konfundierung Eine bivariater Effekt von X auf Y ist konfundiert, wenn er aufgrund einer Beziehung zwischen Kontrollvariable und erklärender Variable andere (und sehr oft höhere) Werte aufweist als die korrespondierenden konditionalen Effekte. Z = z1 X X Y Z Z = z2 X Y x1 x2 x1 x2 y1 80% (320) 70% ( 70) 40% ( 40) 30% (120) y2 20% ( 80) 30% ( 30) 60% ( 60) 70% (280) Total (400) (100) (100) (400) X Y x1 x2 Total y1 72% (360) 38% (190) 55% ( 550) y2 28% (140) 62% (310) 45% ( 450) Total (500) (500) (1000) dY.X% = 34.0, dX.Y% = 34.3 ΦXY = 0.342 dY.X(Z=1)% = 10.0 dX.Y(Z=1)% = 9.3 ΦXY(Z=1) = 0.097 dY.X(Z=2)% = 10.0 dX.Y(Z=2)% = 7.3 ΦXY(Z=2) = 0.857 Z Y z1 z2 Total y1 78% (390) 32% (160) 55% ( 550) y2 22% (110) 68% (340) 45% ( 450) Total (500) (500) (1000) dY.Z% = 46.0, dZ.Y% = 46.5 ΦYZ = 0.462 Z X z1 z2 Total x1 80% (400) 20% (100) 50% ( 500) x2 20% (100) 80% (400) 50% ( 500) Total (500) (500) (1000) Vorlesung Statistik 2 dX.Z% = 60.0, dZ.X% = 60.0 ΦXZ = 0.600 31 Additive Effekte bei korrelierten erklärenden Variablen: Scheinbare Nichtbeziehung Zwischen X und Y besteht eine scheinbare Nichtbeziehung, wenn erst durch die Drittvariablenkontrolle eine Beziehung sichtbar wird. Z = z1 X Y x1 x2 x1 x2 y1 78% (117) 62% (217) 38% (133) 22% ( 33) y2 22% ( 33) 38% (133) 62% (217) 78% (117) Total (150) (350) (350) (150) Y x1 x2 Total y1 50% (250) 50% (250) 50% ( 500) y2 50% (250) 50% (250) 50% ( 500) Total (500) (500) (1000) dY.X% = 0, dX.Y% = 0 ΦXY = 0 dY.X(Z=1)% = 16.0 dX.Y(Z=1)% = 15.2 ΦXY(Z=1) = 0.156 + Y – Z Z = z2 X X X + dY.X(Z=2)% = 16.0 dX.Y(Z=2)% = 15.2 ΦXY(Z=2) = 0.156 Z Y z1 y1 66.8% (334) y2 33.2% (166) Total (500) z2 33.2% (166) 66.8% (334) (500) Total 50% ( 500) 50% ( 500) (1000) dY.Z% = 33.6, dZ.Y% = 33.6 ΦYZ = 0.336 Z X z1 z2 Total x1 30% (150) 70% (350) 50% ( 500) x2 70% (350) 30% (150) 50% ( 500) Total (500) (500) (1000) Vorlesung Statistik 2 dX.Z% = –40.0, dZ.X% = –40.0 ΦXZ = –0.400 32 Additive Effekte bei korrelierten erklärenden Variablen: Verzerrung Die bivariate Beziehung zwischen X und Y ist verzerrt, wenn das Vorzeichen der bivariaten Beziehung umgekehrt zu den konditionalen Beziehungen ist. Z = z1 X X X Y x1 x2 Total y1 48% (240) 58% (290) 53% ( 530) y2 52% (260) 42% (210) 47% ( 470) Total (500) (500) (1000) dY.X% = –10.0, dX.Y% = –10.0 ΦXY = –0.100 Y + Z Z = z2 X Y x1 x2 x1 x2 y1 40% (160) 30% ( 45) 80% ( 80) 70% (245) y2 60% (240) 20% (105) 20% ( 20) 30% (105) Total (400) (150) (100) (350) dY.X(Z=1)% = 10.0 dX.Y(Z=1)% = 8.5 ΦXY(Z=1) = 0.092 – + – dY.X(Z=2)% = 10.0 dX.Y(Z=2)% = 8.6 ΦXY(Z=2) = 0.093 Z Y z1 y1 37.3% (205) y2 62.7% (345) Total (550) z2 72.2% (325) 27.8% (125) (450) Total 53% ( 530) 47% ( 470) (1000) dY.Z% = –34.9, dZ.Y% = –34.7 ΦYZ = –0.348 X Z x1 z1 80% (400) z2 20% (100) Total (500) Vorlesung Statistik 2 x2 Total 30% (150) 50% ( 550) 70% (350) 50% ( 450) (500) (1000) dZ.X% = 50.0, dX.Z% = 50.5 ΦXZ = 0.503 33 Scheinkausalität Wenn eine bivariate Beziehung zwischen zwei Variablen X und Y dadurch hervorgerufen wird, dass eine Drittvariable auf X und Y wirkt, dann liegt eine Scheinkausalität vor. Z = z1 X Y Z Z = z2 X Y x1 x2 x1 x2 y1 70% (280) 70% ( 70) 30% ( 30) 30% (120) y2 30% (120) 30% ( 30) 70% ( 70) 70% (280) Total (400) (100) (100) (400) X X dY.X(Z=1)% = 0 dX.Y(Z=1)% = 0 ΦXY(Z=1) = 0 dY.X(Z=2)% = 0 dX.Y(Z=2)% = 0 ΦXY(Z=2) = 0 Z Y x1 x2 Total y1 62% (310) 38% (190) 50% ( 500) y2 38% (190) 62% (310) 50% ( 500) Total (500) (500) (1000) Y z1 z2 Total y1 70% (350) 30% (150) 50% ( 500) y2 30% (150) 70% (350) 50% ( 500) Total (500) (500) (1000) dY.X% = 24.0, dX.Y% = 24.0 ΦXY = 0.240 dY.Z% = 40.0, dZ.Y% = 40.0 ΦYZ = 0.400 Z X z1 z2 Total x1 80% (400) 20% (100) 50% ( 500) x2 20% (100) 80% (400) 50% ( 500) Total (500) (500) (1000) Vorlesung Statistik 2 dX.Z% = 60.0, dZ.X% = 60.0 ΦXZ = 0.600 34 Mediation über eine intervenierende Variable Wenn der Effekt einer erklärenden Variable über eine dritte intervenierende Variable (auch als Mediator bezeichnet) vermittelt wird, spricht man von Mediation. X Y Z Z = z1 X Z = z2 X Y x1 x2 x1 x2 y1 70% (280) 70% (105) 20% ( 20) 20% ( 70) y2 30% (120) 30% ( 45) 80% ( 80) 80% (280) Total (400) (150) (100) (350) dY.X(Z=1)% = 0 dX.Y(Z=1)% = 0 ΦXY(Z=1) = 0 dY.X(Z=2)% = 0 dX.Y(Z=2)% = 0 ΦXY(Z=2) = 0 Z X Y x1 x2 Total y1 60% (300) 35% (175) 47.5% ( 475) y2 40% (200) 65% (325) 52.5% ( 525) Total (500) (500) (1000) Y z1 z2 Total y1 70% (385) 20% ( 90) 47.5% ( 475) y2 30% (165) 80% (360) 52.5% ( 525) Total (550) (450) (1000) dY.Z% = 50.0, dZ.Y% = 49.6 ΦYZ = 0.498 dY.X% = 25.0, dX.Y% = 25.1 ΦXY = 0.250 X Z x1 z1 80.0% (400) z2 20.0% (100) Total (500) Vorlesung Statistik 2 x2 30.0% (150) 70.0% (350) (500) Total 55% ( 550) 45% ( 450) (1000) dZ.X% = 50.0, dX.Z% = 50.5 ΦXZ = 0.503 35 Interaktionseffekt Ein Interaktionseffekt liegt vor, wenn sich die konditionalen Effekte bei verschiedenen Ausprägungen einer Drittvariable unterscheiden. Z = z1 X X • Z Z = z2 X Y x1 x2 x1 x2 y1 70% (175) 50% (125) 50% (125) 70% (175) y2 30% ( 75) 50% (125) 50% (125) 30% ( 75) Total (250) (250) (250) (250) dY.X(Z=1)% = 20.0 dX.Y(Z=1)% = 20.8 ΦXY(Z=1) = 0.204 dY.X% = 0, dX.Y% = 0 ΦXY = 0 dY.X(Z=2)% = –20.0 dX.Y(Z=2)% = –20.8 ΦXY(Z=2) = 0.204 Z X Y x1 x2 Total y1 60% (300) 60% (300) 60% ( 600) y2 40% (200) 40% (200) 40% ( 400) Total (500) (500) (1000) Y Y z1 z2 Total y1 60% (300) 60% (300) 60% ( 600) y2 40% (200) 40% (200) 40% ( 400) Total (500) (500) (1000) dY.Z% = 0, dZ.Y% = 0 ΦYZ = 0 Z X z1 x1 50% (250) x2 50% (250) Total (500) Vorlesung Statistik 2 z2 Total 50% (250) 50% ( 500) 50% (250) 50% ( 500) (500) (1000) dX.Z% = 0, dZ.X% = 0 ΦYZ = 0 36 Direkte, indirekte, korrelierte und totale Effekte Die unterschiedlichen Beziehungsmuster lassen sich leichter nachvollziehen, wenn zwischen direkten und indirekten Beziehungen unterschieden wird. X 0.1 Y 0.6 Z dY.X(Z=1) = 0.100 dY.X(Z=2) = 0.100 dY.Z(X=1) = 0.400 dY.Z(X=2) = 0.400 dX.Z = 0.600 dY.Z = 0.460 dY.X = 0.340 0.4 Im Beispiel wirkt X auf Y, wobei die Anteilsdifferenzen dY.X(Z) bei Kontrolle von Z jeweils 0.1 betragen. Außerdem wirkt auch Z auf Y, wobei die Anteilsdifferenzen dY.Z(X) bei Kontrolle von X hier jeweils 0.4 betragen. Schließlich wirkt Z auch auf X, wobei hier die Anteilsdifferenz dX.Z 0.6 beträgt. Da außer Z keine weitere Variable auf X wirkt, kann hier der bivariate Effekt betrachtet werden. Alle drei Effekte sind direkte Effekte, da die Erklärungsvariable ohne “Umweg” auf die jeweilige abhängige Variable wirkt. Im Beispiel hat Z zusätzlich noch einen indirekten Effekt über X auf Y: Wenn der Wert von Z sich ändert, ändert sich der Wert von X, was wiederum eine Änderung von Y auslöst. Im additiven Modell von Anteilsveränderungen ist der indirekte Effekt gleich dem Produkt aller direkten Effekte auf dem Pfad von Z über X auf Y, hier also 0.6×0.1 = 0.06 Vorlesung Statistik 2 37 Direkte, indirekte, korrelierte und totale Effekte X 0.1 Y 0.6 Z dY.X(Z=1) = 0.100 dY.X(Z=2) = 0.100 dY.Z(X=1) = 0.400 dY.Z(X=2) = 0.400 dX.Z = 0.600 dY.Z = 0.460 dY.X = 0.340 0.4 Der totale Effekt von Z auf Y ist die Summe des direkten Effekts und aller indirekten Effekte, im Beispiel also 0.4 + 0.06 = 0.46. Dieser Wert ist hier gerade gleich dem bivariaten Effekt dY.Z von Z auf Y. Da Z sowohl X als auch Y beeinflusst, haben X und Y (zum Teil) eine gemeinsame Ursache, was zu einem Zusammenhang zwischen X und Y führt, der unabhängig von dem Effekt von X auf Y ist. Dieser durch die gemeinsame erklärende Variable Z hervorgerufene Zusammenhang wird korrelierter Effekt genannt. Im Beispiel ist der korrelierte Effekt das Produkt des Effekts von Z auf X und von Z auf Y, also 0.6×0.4 = 0.24 Der bivariate Effekt von X auf Y ist Folge des direkten Effekts von X auf Z plus dem korrelierten Effekt von Z auf X und von Z auf Y, hier also 0.1 + 0.24 = 0.34. Konfundierung tritt bei additiven Beziehungen immer dann auf, wenn es neben direkten auch indirekte oder korrelierte Effekte gibt. Vorlesung Statistik 2 38 Direkte, indirekte, korrelierte und totale Effekte X 0.16 Y Z dY.X(Z=1) = 0.160 dY.X(Z=2) = 0.160 dY.Z(X=1) = 0.080 dY.Z(X=2) = 0.080 dX.Z = 0 dY.Z = 0.080 dY.X = 0.160 0.08 Wenn es weder indirekte noch korrelierte Effekte gibt, sind die bivariaten und die konditinalen Effekte identisch. Dies ist oben im Beispiel der additiven Effekte bei unkorrelierten erklärenden Variablen der Fall. X 0.16 –0.4 Z X dY.Z(X=1) = 0.400 dY.Z(X=2) = 0.400 dX.Z = –0.400 dY.Z = 0.336 dY.X = 0 Y dY.X(Z=1) = 0.100 dY.X(Z=2) = 0.100 dY.Z(X=1) = –0.400 dY.Z(X=2) = –0.400 dZ.X = 0.500 dY.Z = –0.349 dY.X = –0.100 0.4 0.1 0.5 Z Y dY.X(Z=1) = 0.160 dY.X(Z=2) = 0.160 –0.4 Wenn direkte und indirekte Effekte in entgegengesetzte Richtung wirken, sind die bivariaten Effekte geringer als die konditionalen Effekte. Man bezeichnet dies auch als Suppression des Effekts durch eine Suppressorvariable. Als Folge von Suppression kann es bivariate zu einer scheinbaren Nichtbeziehung oder zu einer Verzerrung der Beziehungsrichtung kommen. Vorlesung Statistik 2 39 Direkte, indirekte, korrelierte und totale Effekte X Y 0.6 Z dY.X(Z=1) = 0 dY.X(Z=2) = 0 dY.Z(X=1) = 0.400 dY.Z(X=2) = 0.400 dX.Z = 0.400 dY.Z = 0.400 dY.X = 0.240 0.4 Wenn es weder direkte noch indirekte Effekte zwischen zwei Variablen giebt, sondern nur korrelierte Effekte, dann darf die bivariate Beziehung nicht als kausale Beziehung missverstanden werden. Man spricht daher von Scheinkausalität. X Y 0.5 Z dY.X(Z=1) = 0 dY.X(Z=2) = 0 dY.Z(X=1) = 0.500 dY.Z(X=2) = 0.500 dZ.X = 0.500 dY.Z = 0.500 dY.X = 0.250 0.5 Wenn es nur indirekte Effekte über eine intervenierende Variable gibt, liegt ein Mediatoreffekt vor, bei dem der bivariate Effekt durch die Kausalkette der intervenierenden oder mediierenden Variablen interpretiert wird. Bei Scheinkausalität wie Mediation sind die konditionalen Effekte null, wenn die gemeinsame Ursache bei Scheinkausalität bzw. die intervenierende Variable bei Mediation als Kontrollvariable verwendet wird. Vorlesung Statistik 2 40 Interaktionseffekte X • Y dY.X(Z=1) = +0.200 dY.X(Z=2) = –0.200 dY.Z(X=1) = +0.400 dY.Z(X=2) = –0.400 dX.Z = 0 dY.Z = 0 dY.X = 0 Z Z = z1 X Z = z2 X Y x1 x2 x1 x2 y1 70% (175) 50% (125) 50% (125) 70% (175) y2 30% ( 75) 50% (125) 50% (125) 30% ( 75) Total (250) (250) (250) (250) Bei einem Interaktionseffekt wirken zwei (oder mehr) erklärende Variablen gemeinsam auf eine abhängige Variable. Die Effekte sind dann nicht additiv. Bei Interaktionseffekten sind die konditionalen Effekte stets verschieden. Bei Interaktionseffekten macht es daher keinen Sinn, vom Effekt einer Variable auf eine andere zu sprechen. Sinnvoll ist nur die Betrachtung der konditionalen Effekte, im Beispiel von X auf Y bei gegebenen Z bzw. von Z auf Y bei gegebenen Z. Da sich im Beispiel die konditionalen Effekte gegenseitig aufheben, sind die bivariaten Effekt auf Y null. Eine scheinbare Nichtbeziehung kann daher auch Folge von Interaktionseffekten sein. Da im Beispiel auch die beiden erklärenden Variablen X und Z unabhängig voneinander sind, zeigt das Beispiel, dass es möglich ist, dass Variablen wechselseitig voneinander unabhängig sind und es gleichwohl eine (nicht additive) Beziehung zwischen ihnen geben kann. Vorlesung Statistik 2 41 Korrelation und Kausalität Durch die statistische Analyse von Zusammenhängen einschließlich Drittvariablenkontrolle ist es möglich, die Stärke kausaler Effekte zu untersuchen. Darüber hinaus ist es auch möglich, Konfundierung, Mediation, Scheinkausalitäten, scheinbare Nichtbeziehungen, Verzerrungen und Interaktionseffekte zu analysieren. Es ist allerdings nicht möglich, ohne zusätzliche Informationen die Kausalrichtung festzutellen. Ob etwa eine Mediation vorliegt oder eine Scheinkausalität, lasst sich an den Daten allein nicht sehen. Erst wenn durch ein experimentelles oder quasiexperimentelles Design sichergestellt ist, dass eine Kausalrichtung nicht umgekehrt ist, können über statistische Analysen mit einiger Sicherheit auch Effektstärken korrekt erfasst werden. Es ist allerdings möglich, postulierte kausale Beziehungen auszuschließen, wenn die Datenanalyse zeigt, dass bei Modellierung der postulierten Kausalstruktur die Effekte nicht in erwarteter Höhe und/oder Richtung auftreten. Vorlesung Statistik 2 42 Fehlspezifikation Das eine statistische Analyse bei einer Fehlspezifikation der Kausalrichtung in die Irre leiten kann, zeigen das folgende Beispiel. Die Daten sind so generiert, dass zwei statisch unabhängige Variablen X und Z eine abhängige Variable Y beeinflussen. Wenn fälschlicherweise die Rolle von Kontrollvariable Z und abhängiger Variable Y vertauscht wird, ergeben sich vollkommen falsche Effekte: Z = z1 X Z = z2 X Y x1 x2 x1 x2 y1 90% (216) 50% (180) 50% ( 80) 10% ( 24) y2 10% ( 24) 50% (180) 50% ( 80) 90% (216) Total (240) (360) (160) (240) dY.X(Z=1)% = 40.0 Y = y1 X Z x1 x2 z1 73.0%(216) 88.2%(180) z2 27.0%( 80) 11.8%( 24) Total (296) (204) dZ.X(Y=1)% = –15.3 Vorlesung Statistik 2 X 0.40 Y Z 0.40 tatsächliche Kausalstruktur dY.X(Z=2)% = 40.0 Y = y2 X x1 x2 23.1%( 24) 45.5%(180) 76.9%( 80) 54.5%(216) (104) (396) dZ.X(Y=2)% = –22.4 dZ.Y(X=1)% = 49.9 dZ.Y(X=2)% = 42.8 dX.Y% = 38.4 dY.X% = 40.0 dZ.X% = 0 dX.Z% = 0 43 Aufgaben Aufgabe 1: In der linearen Regression des Alters der Frau auf das Alter des Mannes wurde anhand der Daten des Allbus 2006 folgende Regressionsgleichung geschätzt: Y = 1.863 + 0.884 · X * E. Hier noch einmal die Mittelwerte, Variationen und Kovariationen der 254 Realisierunge der beiden Variablen: Variable Mittelwert Alter des männl. Partners 38.5039 Alter der Partnerin 35.8898 n = 254 (Ko-) Variation 40921.496 36163.110 38372.913 a) Berechnen Sie für männliche Partner im Alter von 30 Jahren, 38.5039 Jahren und von 45 Jahren 90%-Konfidenzintervalle für den bedingten Mittelwert der Partnerin sowie für das vorhergesagte Alter der jeweiligen Partnerin. b) Angenommen, die Partnerin eines Mannes von 30 bzw, von 45 Jahren sei 36 Jahre alt. Berechnen Sie jeweils die Werte der Residuen, der z-transformierten und der studentisierten Residuen. Vorlesung Statistik 2 44 Aufgaben Aufgabe 2: Die sozialpsychologische Theorie des Wahlverhaltens der Michigan-Schule geht davon aus, dass die Wahlentscheidung u.a. durch die Parteineigung und die Kandidatenpräferenz bestimmt wird. In der Bundesrepublik Deutschland wird die Parteineigung üblicherweise durch die Frage erfasst: „In Deutschland neigen viele Leute längere Zeit einer bestimmten politischen Partei zu, obwohl sie auch ab und zu eine andere Partei wählen. Wie ist das bei Ihnen: Neigen Sie - ganz allgemein gesprochen - einer bestimmten Partei zu? Wenn ja, welcher?“ In Wahlumfragen zur Bundestagswahl 1998 wurde des weiteren nach dem bevorzugten Kanzler gefragt: „Wenn Helmut Kohl und Gerhard Schröder kandidieren, wer wäre Ihnen dann als Bundeskanzler lieber?“ Als dritte Frage ist hier die Wahlabsicht (Sonntagsfrage, siehe Kapitel 2) interessant. Wenn bei der Parteineigung und der Wahlabsicht nur die Anhänger bzw. potentiellen Wähler von CDU/ CSU und SPD berücksichtigt werden, dann kann aus den Daten der Umfragen des ZDF-Politbarometers zur Bundestagswahl 1998 folgende trivariate Häufigkeitsverteilung erstellt werden: Parteineigung bevorzugter Kandidat Wahlabsicht CDU/CSU SPD Vorlesung Statistik 2 CDU/CSU Kohl Schröder 2016 47 287 194 SPD Kohl Schröder 21 76 34 2896 45 Aufgabe Parteineigung bevorzugter Kandidat Wahlabsicht CDU/CSU SPD CDU/CSU Kohl Schröder 2016 47 287 194 SPD Kohl Schröder 21 76 34 2896 a) Es wird vermutet, dass der (langfristige) Effekt der Parteineigung nur vermittelt (indirekt) über den (kurzfristigen) Effekt der Kandidatenpräferenz auf die Wahlabsicht wirkt. Welches ist bei dieser Fragestellung der konditionale Effekt? b) Welche Konsequenz erwarten Sie bei Gültigkeit dieser Hypothese für den konditionalen Effekt? Vorlesung Statistik 2 46