Konfidenzintevalle und Test von Vorhersagen

Werbung
Konfidenzintevalle und Test von Vorhersagen
Konfidenzintervalle und Tests können sich nicht nur auf Regressionskoeffizierten, sondern
auch auf die bedingten Mittelwerte (Vorhersagewerte) beziehen.
Da ŷ k = a + b ⋅ x k , folgt nach den Regeln für Linearkombinationen von zwei Zufallsvariablen
(hier: die Schätzer der Regressionskoeffizienten „a“ und „b“) bei gegebenem (als Konstante
betrachteten) Wert xk:
σ μˆ Y X = x k = σ ( a + x k ⋅ b ) = σa2 + x 2k ⋅ σ 2b + 2 ⋅ x k ⋅ σab
(
)
Werden in der Gleichung die Varianzen und Kovarianzen der Kennwerteverteilung der OLSSchätzer a und b eingesetzt und statt der unbekannten Populationsvarianz der Residuen die geschätzte Residualvarianz in der Population verwendet, ergibt sich nach Umformen folgende
Schätzung des Standardfehlers des bedingten Mittelwerts:
(
σˆ μˆ Y X = x k
)
⎛
⎞
2
⎜1
xk − x ) ⎟ 2
(
⎟ ⋅ σˆ U = σˆ U ⋅ h k
= ⎜ + n
2 ⎟
⎜n
x
x
−
(
)
∑
i
⎜
⎟
i =1
⎝
⎠
Der in der Klammer stehende Faktor hk wird in der Literatur als Hebelwert (engl: leverage) bezeichnet.
Vorlesung Statistik 2
1
Standardfehler eines bedingten Mittelwerts
(
σˆ μˆ Y X = x k
)
1
= σˆ U ⋅
+
n
( xk − x )
n
2
∑ ( xi − x )
2
= σˆ U ⋅ h k
i =1
Die Standardfehler werden um so größer, je weiter eine Ausprägung xk vom Mittelwert der erklärenden Variablen entfernt ist, da im Zähler der quadrierte Abstand zum Mittelwert auftaucht.
Nachvollziehbar wird dies, wenn die Formel zur Berechnung der Vorhersagewerte umgeformt
wird:
ŷ k = a + b ⋅ x k = ( y − b ⋅ x ) + b ⋅ x k = y + b ⋅ ( x k − x )
Wenn xk gleich dem Mittelwert der erklärenden Variable ist, dann reduziert sich der Vorhersagewert auf den Mittelwert der abhängigen Variablen. Dieser Wert lässt sich relativ genau
schätzen. Der Standardfehler ist dann gleich dem Standardfehler geteilt durch die Wurzel aus
der Fallzahl.
Je weiter xk vom Mittelwert entfernt ist, desto stärker muss berücksichtig werden, dass das geschätzte Regressionsgewicht möglicherweise vom tatsächlichen Regressionsgewicht abweicht,
weil die mögliche Differenz zwischen der tatsächlichen Regressionsgeraden und der geschätzten Regressionsgeraden größer wird, je stärker man sich den Rändern der Verteilung nähert.
Der Standardfehler eines Vorhersagewertes wird daher an den Rändern der Verteilung immer
größer.
Vorlesung Statistik 2
2
Konfidentintervall und Test von Vorhersagen
Soll dass (1−α)-Konfidenzintervall eines bedingten Mittelwerts berechnet werden, ergibt es
sich somit als:
c.i. μ Y X = x k = yˆ k ± σˆ μˆ Y X = x k ⋅ t df = n − 2;1−α / 2
(
)
(
)
Der geschätzte Standardfehler kann auch verwendet werden, um einen bedingten Mittelwert zu
testen. Die Vorgehensweise entspricht dem Test eines Regressionskoeffizienten.
Von der Schätzung eines bedingten Mittelwertes zu unterscheiden ist die Schätzung eines individuellen Wertes der abhängigen Variable.
Bei der Punktschätzung sind bedingter Mittelwert und individuelle Vorhersage gleich, weil die
beste Vorhersage der bedingte Mittelwert ist.
Bei der Intervallschätzung oder dem Tests eines individuellen Vorhersagewertes ist dagegen zu
berücksichtigen, dass die einzelnen Realisationen um die Regressionskurve streuen.
Bei der Prognose eines individuellen Wertes geschieht dies, indem zusätzlich zum Standardfehler des bedingten Mittelwertes die Streuung um diesen Wert, also der Standardfehler der
Residuen addiert wird:
(
σˆ ( yˆ k ) = σˆ 2 μˆ Y Xk
Vorlesung Statistik 2
)
⎛
⎞
2
⎜ 1
xk − x ) ⎟ 2
(
2
⎟ ⋅ σˆ U = σˆ U ⋅ 1 + h k
+ σˆ U = ⎜1 + + n
2 ⎟
⎜ n
−
x
x
(
)
∑
i
⎜
⎟
i =1
⎝
⎠
3
Konfidentintervall und Test von Vorhersagen
(
σˆ μˆ Y X = x k
)
1
= σˆ U ⋅
+
n
( xk − x )
n
2
∑ ( xi − x )
1
σ ( yˆ k ) = σˆ U ⋅ 1 + +
n
2
i =1
)
n
2
∑ ( xi − x )
2
i =1
Konfidenzintervall eines bedingten Mittelwerts:
(
( xk − x )
(
)
c.i. μ Y X = x k = yˆ k ± σˆ μˆ Y X = x k ⋅ t df = n − 2;1−α / 2
Konfidenzintervall einer individuellen Vorhersage:
c.i.( yˆ 0 ) = yˆ k ± σˆ ( yˆ k ) ⋅ t df = n − 2;1−α / 2
Die folgende Abbildung zeigt die Grenzen der Konfidenzintervalle sowohl der bedingten
Mittelwerte wie der individuellen Vorhersagewerte für die 185 Fälle der Allbus-Stichprobe.
Die Grenzen für die einzelnen Realisationen sind deutlich weiter von der Regressionsgerade
entfernt als die Grenzen der Intervalle für die Mittelwerte.
Bei 5% Irrtumswahrscheinlichkeit sollten auch nur etwa 5% der 185 Fälle, also zwischen 9 und
10 Fälle außerhalb der Grenzen der Konfidenzintervalle liegen.
Tatsächlich liegen 12 (=6.5%) aller Stichprobenfälle außerhalb der Intervallgrenzen, was darauf
hinweist, dass die Standardfehler möglicherweise leicht unterschätzt werden. Dies kann dadurch verursacht sein, dass die Allbus-Stichprobe keine einfache Zufallsauswahl, sondern eine
stratifizierte mehrstufige Auswahl ist.
Vorlesung Statistik 2
4
Konfidentintervall von Vorhersagen
Intervallgrenze für die Vorhersage
von Populationsmittelwerten
Alter der Frau
80
70
60
50
40
30
Intervallgrenze für die Vorhersage
individueller Fälle
20
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
Alter des Mannes
Daten: Allbus 1996
Abbildung aus Kühnel/Krebs, 2001: 440
Vorlesung Statistik 2
5
Tests von Hypothesen über Kovarianzen, Korrelationen und Determinationskoeffizienten
Da sich die Fallzahlen bei der Berechnung des Regressionsgewicht herauskürzen gilt:
b=
SPXY
SSX
SPXY
SPXY
s
s XY s Y
sY
2 sY
n − 1 = σˆ XY
= n = XY
=
⋅
=
⋅
=
⋅
=
r
R
XY
SSX
σˆ X2
s X2
sX ⋅ sY sX
sX
s X SSX
n
n −1
Wenn das Regressionsgewicht b null ist, ist daher auch die Kovarianz, die Korrelation und ihr
Quadrat, der Determinationskoeffizient, null.
Der Test des Regressionsgewichts mit β0 = 0 prüft also gleichzeitig auch die Hypothese, dass
die Kovarianz, die Korrelation und der Determinationskoeffizient null sind.
Vorlesung Statistik 2
6
Kontrolle der Anwendungsvoraussetzungen
Die Eigenschaften der OLS-Schätzung des linearen Regressionsmodells sind an Anwendungsvoraussetzung bzw. -annahmen gebunden:
(1) Linearitätsannahme: In der Population besteht ein linearer Zusammenhang zwischen der
erklärenden Variable X und der abhängigen Variablen Y;
(2) Unkorreliertheit von Populationsresiduen und erklärender Variablen.
(3) Die Residualvarianzen sind bei allen Ausprägungen von X gleich (homoskedastisch);
(4) Die Populationsresiduen korrelieren nicht miteinander (keine Autokorrelation);
(5) Die Residuen sind normalverteilt.
Die letzte Annahme ist nur für die Gültigkeit der T-Verteilung in Konfidenzintervallen und
Tests notwendig. Auf sie kann bei hinreichend großen Fallzahlen (n≥30 besser ≥50) verzichtet
werden, da dann die Schätzer nach dem zentralen Grenzwertsatz asymptotisch normalverteilt
sind und daher die Standardnormalverteilung anstelle einer T-Verteilung herangezogen werden
kann. Im Sinne eines vorsichtigen Vorgehens wird unabhängig von Annahme (5) oft die TVerteilung anstelle der Normalverteilung verwendet, da die Quantile der T-Verteilung zu größeren Konfidenzinetrvallen und kleineren Ablehnungsbereichen der Nullhypothese führen.
Für die Kontrolle der Anwendungsvoraussetzungen können spezielle Analysen durchgeführt
werden, die meist auf den Stichprobenresiduen der OLS-Schätzung basieren. Diese werden
anstelle der unbeobachteten Populationsresiduen verwendet.
Vorlesung Statistik 2
7
Kontrolle der Anwendungsvoraussetzungen der Regression
Da anstelle der Populationskoeffizienten α und β nur deren Schätzungen a und b vorliegen,
können nämlich anstelle der Realisierungen ui von U nur die Stichprobenresiduen ei von E
betrachtet werden.
Wenn die Modellannahmen erfüllt sind, sollten die Realisationen der Residualariable U bei
allen Ausprägungen der erklärenden Variable X bzw. der Vorhersagewerte
• Erwartungswerte von null aufweisen (Linearitätsannahme),
• nicht mit den erklärenden Variablen korrelieren (Unkorreliertheit),
• die gleiche Varianz aufweisen (Homoskedastizitätsannahme),
• voneinander unabhängig sein (keine Autokorrelation) und
• möglichst normalverteilt sein (Normalverteilungsannahme).
Betrachtet man die Stichprobenresiduen anstelle der Populationsresiduen folgt jedoch aus den
Eigenschaften der OLS-Schätzung,
• dass der Mittelwert der Stichprobenresiduen null ist und
• dass die Stichprobenresiduen nicht mit der erklärenden Variablen korrelieren.
Hinzu kommt, dass die Stichprobenresiduen zwangsläufig bei verschiedenen Ausprägungen
der erklärenden Variablen unterschiedliche Varianzen aufweisen müssen, selbst wenn die
Populationsresiduen homoskedastisch sind. Dies liegt daran, dass die Ausprägungen yi der
abhängigen Variablen Y die Summe der Vorhersagewerte und der Stichprobenresiduen sind:
yi = yˆ i + ei
Vorlesung Statistik 2
8
Kontrolle der Anwendungsvoraussetzungen der Regression
yi = yˆ i + ei
Wenn die Homoskedastizitätsannahme zutrifft, ist die bedingte Varianz eines Falles yi bei
einfacher Zufallsauswahl gleich der Populationsvarianz der Residualvariable U:
σ 2 ( yi x i ) = σ 2U
Die Varianz eines Vorhersagewertes ist das Quadrat des Standardfehlers. Dann gilt also:
σ2U = σ 2 ( yi x i ) = σ 2 (ei ) + σ 2 (μ Y X = xi ) = σ 2 (ei ) + h i ⋅ σ 2U
Daraus folgt für die Varianz eines Residuums ei:
⎛
⎞
2
⎜ 1
⎟
x
x
−
(
)
i
2
2
2
2
2
2
2
⎟
σ (ei ) = σ U − σ (μ Y X = xi ) = σ U − h i ⋅ σ U = σ U ⋅ (1 − h i ) = σ U ⋅ ⎜1 − − n
2
⎜ n
⎟
−
x
x
(
)
∑
j
⎜
⎟
=
j
1
⎝
⎠
Die Varianz eines Stichprobenresiduums ei ist also um so kleiner, je weiter der zugeordnete
Wert xi vom Mittelwert der erklärenden Variablen entfernt ist.
Vorlesung Statistik 2
9
Kontrolle der Anwendungsvoraussetzungen der Regression
Ersetzt man die Populationsvarianz von U durch den erwartungstreuen Schätzer dieser Varianz
und zieht die Wurzel aus der Varianz, ergibt sich der geschätzte Standardfehler eines Residuums ei:
⎛
⎞
2
⎜1
xi − x ) ⎟
(
⎟=
σˆ ( ei ) = σˆ U ⋅ 1 − h i = σˆ U ⋅ 1 − ⎜ + n
2 ⎟
⎜n
x
x
−
(
)
∑
j
⎜
⎟
=
j
1
⎝
⎠
⎛
⎞
2
⎜ 1
xi − x ) ⎟
(
j =1
⎟
⋅ ⎜1 − − n
2 ⎟
n−2 ⎜ n
x
x
−
(
)
∑
j
⎜
⎟
=
j
1
⎝
⎠
n
∑e
2
j
Bei der Kontrolle von Modellannahmen werden daher meist anstelle der Stichprobenresiduen E
die standardisierten Residuen E* betrachtet, die sich ergeben, wenn jedes Residuum ei durch
seinen Standardfehler dividiert wird:
e
ei
e*i = i =
n
σˆ ( ei )
⎞
2 ⎛
e
2
∑
j ⎜
xi − x ) ⎟
(
1
j =1
⎟
⋅ ⎜1 − − n
2
n−2 ⎜ n
⎟
x
x
−
(
)
∑
j
⎜
⎟
j =1
⎝
⎠
Zur Unterscheidung von einer Standardisierung über die Z-Transformation werden die durch
ihren Standardfehler geteilten Residuen auch als studentisierte Residuen bezeichnet.
Vorlesung Statistik 2
10
Kontrolle der Linearitätsannahme
5
Einen ungefähren Eindruck
über die Angemessenheit der
Linearitätsannahme gibt ein
Streudiagramm der (standardisierten) Residuen nach
den Werten der abhängigen
Variablen.
Standardisierte Resiuen
4
3
2
1
0
-1
-2
-3
15 20 25 30 35 40 45 50 55 60 65 70 75 80
Abhängige Variable
Zwischen der abhängiger Variable und standardisierten Residuen besteht notwendigerweise
eine positive Korrelation, da die abhängige Variable eine Funktion der unstandardisierten Residuen ist.
Auf Nichtlinearität weist ein Streudiagramm hin, bei dem die Punktewolke nicht gleichmäßig
ansteigt. So besteht möglicherweise im Beispiel an den Rändern der Verteilung eine leichte
Abweichung von der linearen Zunahme.
Vorlesung Statistik 2
11
Kontrolle der Linearitätsannahme
Eine andere Kontrolle der Linearitätsannahme besteht darin, die abhängige Variable zu gruppieren und die Mittelwerte der standardisierten Residuen in den Gruppen zu betrachten.
Standardized Residual * Alter der Partnerin (gruppiert)
Standardized Residual
Alter der Partnerin
(gruppiert)
bis 20
21-25
26-30
31-35
36-40
41-45
46-50
51-55
56-60
61-65
66-70
ab 71
Insgesamt
Mittelwert
-.4942949
-.1206064
-5.1E-02
-.3485271
1.62E-02
.1265506
.7038620
.3121954
.9924353
.8679651
1.0756006
1.1765388
9.54E-17
1.5
N
36
49
28
16
9
8
14
8
8
4
1
4
185
Standardab
weichung
.6022805
.5272793
.8391817
1.2660343
1.4752204
.7049125
1.8334303
1.1860818
.4890400
.5131495
.
.1235232
.9972789
2
y = 6E-05x + 0.0242x - 0.9002
1
0.5
0
-0.5
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Im Beispiel zeigt sich hierbei ein primär linearer Trend. Insofern scheint für die Beispieldaten
die Linearitätsannahme nicht gravierend verletzt zu sein.
Vorlesung Statistik 2
12
Kontrolle der Homoskedastizitätsannahme
5
Das Streudiagramm der standardisierten Residuen gegen die Vorhersagewerte (bzw. die Werte der erklärenden Variablen) sollte bei homoskedastischen Residuen entlang der
wagerechten Achse gleichmäßig um
den Wert null streuen.
Standardisierte Resiuen
4
3
2
1
0
-1
-2
-3
15 20 25 30 35 40 45 50 55 60 65 70 75
Vorhersagewerte
Dass es im Streudiagramm für die Beispieldaten mehr Fälle bei niedrigen als bei hohen Vorhersagewerten gibt, spricht nicht gegen die Homoskedastizitätsannahme.
Auf der anderen Seite scheinen aber vor allem bei mittleren und hohen Vorhersagewerten standardisierte Residuen aufzutreten, die mehr als 2 Standardabweichungen von null abweichen.
Dies könnte ein Hinweis darauf sein, dass bei höherem Alter die Residualvarianzen zunehmen,
die individuellen Vorhersagen also ungenauer werden. Ein deutlich sichtbarer Zusammenhang
zwischen den Vorhersagewerten und den Streuungen der Residuen scheint allerdings nicht zu
bestehen.
Vorlesung Statistik 2
13
Kontrolle von Autokorrelation
Für die Prüfung der Autokorrelation der Residuen gibt es spezielle Testverfahren. Da im Beispiel die Daten aus einer Bevölkerungsumfrage kommen, bei der die Respondenten unabhängig
voneinander in die Stichprobe aufgenommen worden sind, ist nicht mit autokorrelierten Residuen zu rechnen. Autokorrelationen treten vor allem bei Zeitreihendaten und anderen zeitbezogenen Daten auf.
Kontrolle der Normalverteilungsannahme
Obwohl die Normalvereilungsannahme relativ unproblematisch ist, ist es möglich, sie zu untersuchen. Dazu wird oft ein sogenanntes Q-Q-Plot betrachtet, bei denen die standardisierten Residuen gegen Quantile der Standardnormalverteilung (z-Werte) abgetragen werden, die aus der
kumulierten Häufigkeitsverteilung der Residuen berechnet werden.
Die z-Werte berechnen sich nach:
0.5 ⎞
⎛
zi = Φ −1 ⎜ cpi −
⎟
n ⎠
⎝
Im Beispiel der Regression des Alters der Partnerin auf das Alter des Partners ergibt sich für
das kleinste der 185 Residuen eine kumulierte relative Häufigkeit von 1/185. Der z-Wert für
dieses Residuum ist dann der Quantilwert der Standardnormalverteilung, der der relativen
Häufigkeit von 0.0027 (=1/185 − 0.5/185)entspricht. Der zehntkleinste Wert korrespondiert
entsprechend mit dem z-Wert zum relativen Anteil 0.0514 (=10/185 − 0.5/185).
Vorlesung Statistik 2
14
Kontrolle der Normalverteilungsannahme
Standardisierte Residuen
5
4
3
2
1
0
-1
-2
-3
-3
-2
-1
0
1
2
3
z-Werte der kumulierten Residuen
(aus: Kühnel/Krebs 2001: 447)
Wenn die Residuen normalverteilt sind, sollte das Q-Q-Plot eine Punktewolke zeigen, die relativ eng entlang der 45°-Gerade im Streudiagramm verläuft. Die Abbildung zeigt, dass dies weitgehend der Fall ist. Nur an den Rändern der Verteilung gibt es deutliche Abweichungen.
Vorlesung Statistik 2
15
Ausreißer und einflussreiche Fälle
Eine implizite Annahme aller statistischer Analysen ist, dass die Population, aus der die Fälle
kommen, homogen ist. Wenn die Stichprobe nämlich Fälle enthält, die von den übrigen Fällen
deutlich abweichen, kann es zu Verzerrungen der Ergebnisse kommen. So fällt in den Streudiagrammen stets ein (rot eingezeichneter) Punkt auf, der ein sehr hohes standardisiertes Residuum aufweist. Es handelt sich hier um ein Paar, bei dem der Mann 17 Jahre, seine Partnerin 46
Jahre alt ist. Da dieser Fall sehr deutlich von den übrigen Datenpunkten abweicht, ist es möglich, dass er die Lage der Regressionskurve stärker beeinflusst als andere Fälle. Wenn es sich
dann um einen „Datenfehler“ handelt, kann dadurch die Regressionsgerade verzerrt sein.
Generell haben Datenpunkte, die weit vom Schwerpunkt der Punktewolke der abhängigen und
unabhängigen Variablen entfernt sind, ein größeres Gewicht bei der Bestimmung der Regressionsgeraden, was daran liegt, das die Regressionsgerade immer durch den Schwerpunkt der
Punktewolke verläuft und gleichzeitig die Summe der quadrierten Abweichungen von der Gerade minimiert werden, große Abweichungen also stärker einfließen als kleine Abweichungen.
Sichtbar wird dies an den Hebelwerten hi, die in die Berechnung der standardisierten Residuen
einfließen. Je größer ein Hebelwert ist, desto stärker bestimmt der entsprechende Fall die Lage
der Regressionsfunktion.
Vorlesung Statistik 2
16
Henelkraft-Werte und
Cook‘s Distanzen
Ausreißer und einflussreiche Fälle
In der Abbildung ist die
Kurve der Hebelwerte hi
und Cooks Distanzen Di
nach den Werten der unabhängigen Variablen Y als
Streudiagramm eingezeichnet.
Deutlich sichtbar ist der
uförmige Verlauf der Hebelkraftwerte.
0.15
0.10
0.05
0.00
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
(aus: Kühnel/Krebs 2001: 447)
Erklärende Variable
Neben der Hebelkraft bestimmt auch der Wert des Residuums ei den Einfluss, den ein Fall i auf
die Regressionsgerade hat. Das nach dem Statistiker Cook benannte Maß Cooks Distanz D gibt
für jeden Fall die Einflussstärke an. Die Berechnung erfolgt nach der Gleichung
Di =
Vorlesung Statistik 2
( e*i )
2
2
⋅
hi
1 − hi
17
Henelkraft-Werte und
Cook‘s Distanzen
Ausreißer und einflussreiche Fälle
Interessanter sind Cooks
Distanzen. Während die
meisten Werte recht klein
sind, gibt, es doch einige
auffallende Ausreißer.
Am größten ist der Wert für
das bereits erwähnte Paar
des 17-jährigen Mannes und
seiner 46-jährigen Partnerin.
0.15
0.10
0.05
0.00
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
(aus: Kühnel/Krebs 2001: 447)
Erklärende Variable
Wird dieser Fall von der Analyse ausgeschlossen und die Regression für die verbleibenden 184
Fälle berechnet, so ergibt sich als neue Vorhersagegleichung:
ˆ = 2.13 + 0.87 ⋅ X anstelle von Y
ˆ = 2.80 + 0.85 ⋅ X
Y
Der Ausschluss des Falles hat also eine Senkung der Regressionskonstante um immerhin 0.67
(von 2.80 auf 2.13) bewirkt. Gleichzeitig ist das Regressionsgewicht um 0.02 (von 0.85 auf
0.87) angestiegen. Auch hat sich die Korrelation von X und Y um 0.91 auf 0.92 erhöht.
Vorlesung Statistik 2
18
Ausreißer und einflussreiche Fälle
Der Ausschluss dieses Ausreißerpaares hat also einen sichtbaren Effekt auf die Regression.
Dieser Effekt allein sollte allerdings nicht als hinreichender Grund genommen werden, den Fall
tatsächlich von der Analyse auszuschließen.
Wenn es sich nämlich nicht um einen Datenfehler handelt, kann der Ausschluss abweichender
Fälle zur Missachtung besonders interessanter Informationen führen.
Eine bessere Strategie besteht daher darin, sich solche abweichenden Fälle näher anzusehen..
Konsequenzen von Verletzungen der Modellannahmen
Um zu demonstrieren, welche Auswirkungen es hat, wenn die Anwendungsvoraussetzungen
nicht erfüllt sind, können Simulationsstudien durchgeführt werden. Diese führen zu folgenden
Ergebnissen:
(1) Die Verletzung der Normalverteilungsannahme hat auf die Schätzung der Regressionskoeffizienten und Standardfehler keine Auswirkungen.
(2) Ist dagegen die Linearitätsannahme verletzt, schätzt die OLS-Regression eine lineare
Trendlinie, die im Sinne der kleinsten Quadrate die bestmögliche lineare Annäherung an
die tatsächliche nichtlineare Regressionsfunktion ist.
Die Standardfehler der Koeffizienten der Trendlinie können allerdings verzerrt sein, weil
selbst bei einer homoskedastischen Residualarianz der nichtlinearen Regression die Abweichungen von der Trendlinie heteroskedastisch sind.
Vorlesung Statistik 2
19
Konsequenzen von Verletzungen der Modellannahmen
(3) Sind die Residuen mit der erklärenden Variable korreliert, sind die Schätzer der Koeffizienten der datengenerierenden linearen Gleichung verzerrt. Geschätzt wird auch hier eine
optimale Trendlinie.
Wenn die Korrelation zwischen den Residuen und der erklärenden Variable durch eine
lineare Beziehung hervorgerufen wird, ist diese Trendlinie gleichzeitig die zutreffende
lineare Regression von Y auf X (allerdings nicht die zutreffende kausale Beziehung zwischen Y und X).
Falls die Residuen homoskedastisch sind, werden die Standardfehler der Koeffizienten
der Trendlinie unverzerrt geschätzt.
(4) Bei heteroskedastischen Residuen werden die Regressionskoeffizienten unverzerrt geschätzt. Die geschätzte Residualvarianz in der Population und die Standardfehler der
Regressionskoeffizienten können jedoch stark verzerrt sein, wodurch auch Konfidenzintervalle und Tests unbrauchbar werden.
Wenn allerdings die Fallzahlen bei allen Ausprägungen der erklärenden Variablen gleich
(und größer 1) sind, werden die Standardfehler recht robust geschätzt.
(5) Autokorrelation unter den Residuen hat die gleichen Konsequenzen wie heteroskedastische Residualvarianzen: die Regressionskoeffizienten werden unverzerrt geschätzt, die
Standardfehler sind dagegen verzerrt und werden bei positiven Autokorrelationen unterschätzt.
Vorlesung Statistik 2
20
Drittvariablenkontrolle in der Tabellenanalyse
Mit der Tabellenanalyse können Zusammenhänge zwischen zwei nominal- oder ordinalskalierten Variablen mit nicht zu vielen Ausprägungen analysiert werden.
Bei einer kausalen Interpretation besteht allerdings die Gefahr von Fehlinterpretationen, wie das
folgende empirische Beispiel zeigt.
Bewertung von Schwangerschaftsabbrüchen in
Abhängigkeit von Telefonanschluss im Haushalt
Abtreibung, wenn
die Frau es will, ...
... sollte verboten sein
... sollte erlaubt sein
Telefonanschluss
im Haushalt?
ja
nein
54.7%
33.0%
45.3%
67.0%
(2331)
(782)
In Haushalten, die 1992 über
einen Telefonanschluss verfügten,
war der Anteil der Abtreibungsgegner um 21.7 (54.7% − 33.0%)
Prozentpunkte höher als in
Haushalten, die über kein Telefon
verfügen!
(Quelle: ALLBUS 1992)
Es erscheint nicht sehr plausibel, dass das Verfügen über einen Telefonanschluss dazu führt,
dass die Haltung zu Schwangerschaftsabbrüchen regider wird.
Tatsächlich handelt es sich bei der beobachteten empirischen Beziehung um ein Artefakt, dass
dadurch zustande kommt, dass 1992 sowohl die Telefondichte in den alten und den neuen
Bundesländern, als auch die Haltung zu Schwangerschaftsabbrüchen sehr unterschiedlich war.
Vorlesung Statistik 2
21
Drittvariablenkontrolle in der Tabellenanalyse
Deutlich wird dies, wenn der Zusammenhang für die alten und neuen Bundesländer getrennt
betrachtet wird.
Bewertung von Schwangerschaftsabbrüchen in Abhängigkeit von
Telefonanschluss im Haushalt
Abtreibung, wenn
die Frau es will, ...
... sollte verboten sein
... sollte erlaubt sein
Alte Länder
Telefonanschluss
im Haushalt?
ja
nein
58.5%
62.8%
41.5%
37.2%
(2026)
(78)
Neue Länder
Telefonanschluss
im Haushalt
ja
nein
28.9%
29.7%
71.1%
70.3%
(305)
(704)
(Quelle: ALLBUS 1992)
Die gleichzeitige Betrachtung von drei Variablen (Telefonbesitz X, Haltung zu Schwangerschaftsabbrüchen (Y) und Region (Z) ermöglicht es, die Fehlinterpretation des bivariaten Zusammenhangs zu vermeiden.
Die sogenannte Drittvariablenkontrolle ist daher für statistische Zusammenhangsanalysen
äußerst wichtig.
In der Tabellenanalyse werden bei Drittvariablenkontrolle mehrdimensionale Kreuztabellen
analysiert.
Vorlesung Statistik 2
22
Aufbau einer trivariaten Kreuztabelle
Die trivariate Kreuztabelle zeigt die gemeinsame Verteilung von drei Variablen. Die Ausprägungen der dritten Variablen definieren Partialtabellen, d.h. bivariate Tabellen bei vorgegebenem Wert einer dritten Variablen, dessen Ausprägung für alle Fälle der Partialtabelle konstant ist. Drittvariablenkontrolle wird daher oft mit Konstanthalten der Ausprägung einer
Drittvariablen gleichgesetzt.
z1
X
Y
y1
y2
...
YI
∑
x1
n111
n211
...
nI11
n•11
x2
n121
n221
...
nI21
n•21
...
...
...
...
...
...
xJ
n1I1
n2I1
...
nIJ1
n•J1
∑
n1•1
n2•1
...
nI•1
n••1
x1
n112
n212
...
nI12
n•12
Z
z2
X
x2
n122
n222
...
nI22
n•22
....
...
...
...
...
...
...
xJ
n1I2
n2I2
...
nII2
n•I2
∑
n1•2
n2•2
...
nI•2
n••2
...
...
...
...
...
x1
n11K
n21K
...
nI1K
n•1K
zK
X
x2
n12K
n22K
...
nI2K
n•2K
...
...
...
...
...
...
xJ
n1IK
n2IK
...
nIIK
n•IK
∑
n1•K
n2•K
...
nI•K
n••K
Die formale Kennzeichnung der absoluten Häufigkeiten erfolgt in einer trivariaten Tabelle
analog zu der in bivariaten Tabellen:
• „n“ steht für die absoluten Häufigkeiten;
• die ersten beiden Indizes von n stehen für die Ausprägungen der Zeilenvariable (X) und der
Spaltenvariable (Y) in einer Partialtabelle;
der zusätzliche dritte Index steht für die Ausprägung der Dritt- oder Kontrollvariable (Z).
Vorlesung Statistik 2
23
Randtabellen
Bivariate Tabellen ergeben sich aus der trivariaten Kreuztabelle analog der Bildung univariater
Randverteilung bei bivariaten Tabellen durch Aggregation (Aufsummieren) über die Werte
einer der drei Variablen und werden daher hier als Randtabellen bezeichnet.
Als Beispiel wird der Zusammenhang zischen der Bewertung der eigenen und der
allgemeinen Wirtschaftslage bei Kontrolle der Erwerbstätigkeit betrachtet:
Trivariate Kreuztabelle:
Erwerbstätigkeit (Z)
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
ja (z1)
Allgemeine Wirtschaftslage (X)
gut (x1)
nicht gut (x2)
n111 = 170
n121 = 751
n211 = 72
n221 = 928
nein (z2)
Allgemeine Wirtschafslage (X)
gut (x1) nicht gut (x2)
n112 = 168
n122 = 614
n212 = 54
n222 = 732
(Quelle: Allbus 1996)
Randtabelle Y nach X durch Aggregation über Kontrollvariable (Z):
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
Summe
Vorlesung Statistik 2
Allgemeine Wirtschaftslage (X)
gut (x1)
nicht gut (x2)
n11+ = 170 +168 = 338
n12+ = 751 + 614 = 1365
n21+ = 72 + 54 = 126
n22+ = 928 + 732 = 1660
n+1+ = 464
n+2+ = 3025
Summe
n1++ = 1703
n2++ = 1786
n+++ = 3489
24
Randtabellen
Trivariate Kreuztabelle:
Erwerbstätigkeit (Z)
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
ja (z1)
Allgemeine Wirtschaftslage (X)
gut (x1)
nicht gut (x2)
n111 = 170
n121 = 751
n211 = 72
n221 = 928
nein (z2)
Allgemeine Wirtschafslage (X)
gut (x1) nicht gut (x2)
n112 = 168
n122 = 614
n212 = 54
n222 = 732
(Quelle: Allbus 1996)
Randtabelle Y nach Z durch Aggregation über Spaltenvariable (X):
Erwerbstätigkeit (Z)
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
Summe
ja (z1)
n1+1 = 170 +751 = 921
n2+1 = 72 +928 = 1000
n+1+ = 1921
nein (z2)
n1+2 = 168 + 614 = 782
n2+2 = 54 + 732 = 786
n+2+ = 1568
Summe
n++1 = 1703
n++2 = 1786
n+++ = 3489
Randtabelle X nach Z durch Aggregation über Zeilenvariable (Y):
Erwerbstätigkeit (Z)
Allgem. Wirtschaftslage (X)
gut (x1)
nicht gut (x2)
Summe
Vorlesung Statistik 2
ja (z1)
n+11 = 170 + 72 = 242
n+21 = 751 +928 = 1679
n++1 = 1921
nein (z2)
n+12 = 168 + 54 = 222
n+22 = 614 + 732 = 1346
n++2 = 1568
Summe
n+1+ = 464
n+2+ = 3025
n+++ = 3489
25
Anteile und Prozentuierungen
Für die Interpretation werden üblicherweise Anteile bzw. Prozentwerte berechnet.
Eher selten werden allerdings Anteile bezogen auf die gesamte dreidimensionale Kreuztabelle
berechnet.
n
n
n
n
n
n
n
pijk = ijk ; piji = iji ; pi i k = i i k ; p i jk = i jk ; pi ii = i ii ; pi ji = i ji ; pii k = ii k
n iii
n iii
n iii
n iii
n iii
n iii
n iii
Eher beziehen sich Anteile auf die Partialtabellen:
nur Erwerbstätige (z1)
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
Total
nur Nichterwerbstätige (z2)
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
Total
Vorlesung Statistik 2
pij(k ) =
pijk
pii k
=
n ijk
n ii k
Allgemeine Wirtschaftslage (X)
gut (x1)
nicht gut (x2)
p11(1) = 170/1921
p12(1) = 751/1921
= 0.088
= 0.391
p21(1) = 72/1921
p22(1) = 928/1921
= 0.037
= 0.483
p+1(1) = 0.126
p+2(1) = 0.874
Total
p1+(1) = 921/1921
= 0.479
p2+(1) = 1000/1921
= 0.521
p++(1) = 1.000
Allgemeine Wirtschaftslage (X)
gut (x1)
nicht gut (x2)
p11(2) = 168/1568
p12(2) = 614/1568
= 0.107
= 0.392
p21(2) = 54/1568
p22(2) = 732/1568
= 0.034
= 0.467
p+1(2) = 0.142
p+2(2) = 0.858
Total
p1+(2) = 782/1568
= 0.499
p2+(2) = 768/1568
= 0.501
p++(2) = 1.000
26
Anteile und Prozentuierungen
In der Regel werden bedingte relative Häufigkeiten in den Partialtabellen berechnet.
Zur Unterschiedung von bedingender Variable und Kontrollvariable wird zwischen erklärender
Variablen und Kontrollvariablen ein Punkt gesetzt: pY(X.Z) bezeichnet die bedingten Anteile von
Y gegeben X in den durch die Ausprägungen von Z definierten Partialtabellen
p
n
pi( j.k ) = ijk = ijk
p jk n jk
nur Erwerbstätige (z1)
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
Total
nur Nichterwerbstätige (z2)
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
Total
Vorlesung Statistik 2
Allgemeine Wirtschaftslage (X)
gut (x1)
nicht gut (x2)
p1(1.1) = 170/242
p1(2.1) = 751/1679
= 0.702
= 0.447
p2(1.1) = 72/242
p2(2.1) = 928/1679
= 0.298
= 0.553
p+(1.1) = 1.000 (242) p+(2.1) = 1.000(1679)
Total
p1(+.1) = 921/1921
= 0.479
p2(+.1) = 1000/1921
= 0.521
p+(+.1) = 1.000 (1921)
Allgemeine Wirtschaftslage (X)
gut (x1)
nicht gut (x2)
Total
p1(1.2) = 168/222
p1(2.2) = 614/1346
p1(+.2) = 782/1568
= 0.757
= 0.456
= 0.499
p2(1.2) = 54/222
p2(2.2) = 732/1346
p2(+.2) = 786/1568
= 0.243
= 0.544
= 0.501
p+(1.2) = 1.000 (222) p+(2.2) = 1.000 (1346) p+(+.2) = 1.000 (1568)
27
Konditionale Zusammenhangsmaße
Zusammenhangsmaße in Partialtabellen geben die bedingten Zusammenhänge bei gegebenem
Wert der Kontrollvariable an und sind daher konditionale Zusammenhangsmaße.
Nur Erwerbstätige (z1)
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
Allgemeine Wirtschaftslage (X)
gut (x1) nicht gut (x2)
Total
70.2% (170) 44.7% ( 751) 47.9% ( 921)
29.8% ( 72) 55.3% ( 928) 52.1% (1000)
(242)
(1679)
(1921)
nur Nichterwerbstätige (z2)
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
Allgemeine Wirtschaftslage (X)
gut (x1) nicht gut (x2)
Total
75.7% (168) 45.6% ( 614) 49.9% ( 782) dYX(Z=2)% = 30.1 Punkte
24.3% ( 54) 54.4% ( 732) 50.1% ( 786) ΦYX(Z=2) = 0.210
(222)
(1346)
(1568)
dYX(Z=1)% = 25.5 Punkte
ΦYX(Z=1) = 0.169
bivariater Zusammenhang:
Alle
Eigene Wirtschaftslage (Y)
gut (y1)
nicht gut (y2)
Vorlesung Statistik 2
Allgemeine Wirtschaftslage (X)
gut (x1) nicht gut (x2)
Total
72.8% (338) 45.1% (1365) 48.8% (1703)
27.2% (126) 54.9% (1660) 51.2% (1786)
(464)
(3025)
(3489)
dYX% = 27.7 Punkte
ΦYX = 0.188
28
Unterschiede zwischen konditionalen und bivariaten Effekten
Der Vergleich von konditionalen Effekten bei Drittvariablenkontrolle und korrespondierenden
bivariaten Effekten in Partialtabellen kann zu ganz unterschiedlichen Ergebnissen führen:
• Verglichen mit der bivariaten Beziehung kann ein konditionaler Zusammenhang geringer
ausfallen als der korrespondierende bivariate Zusammenhang.
• Verglichen mit der bivariaten Beziehung kann ein konditionaler Zusammenhang ganz
verschwinden.
• Das Vorzeichen der Beziehung zwischen abhängiger und unabhängier Variable kann sich
bei konditionaler und bivariater Berechnung umdrehen.
• Die konditionalen Beziehungen in den Partialtabellen können sich unterscheiden.
• Verglichen mit der bivariaten Beziehung kann ein konditionaler Zusammenhang größer
ausfallen als der korrespondierende bivariate Zusammenhang.
• Obwohl bivariat keine Beziehung besteht, zeigt sich in den Partialtabellen eine Beziehung
zwischen abhängiger und erklärender Variable.
Ursache dieser Differenzen sind verschiedenen Möglichkeiten von Kausalbeziehungen
zwischen drei Variablen.
Im folgenden werden solche Möglichkeiten jeweils an einem fiktiven Datenbeispiel
demonstriert.
Vorlesung Statistik 2
29
Additive Effekte bei unkorrelierten erklärenden Variablen
Sowohl X als auch Z wirken jeweils für sich auf Y.
Bei unkorrelierten, additiven Effekten sind bivariate und konditionale
Prozentsatzdifferenzen gleich groß.
Z = z1
X
X
Y
Z
Z = z2
X
Y
x1
x2
x1
x2
y1
62% (155) 46% (115) 54% (135) 38% ( 95)
y2
38% ( 95) 54% (135) 46% (115) 62% (155)
Total
(250)
(250)
(250)
(250)
dY.X(Z=1)% = 16.0
dX.Y(Z=1)% = 16.1
ΦXY(Z=1) = 0.161
X
Y
x1
x2
Total
y1
58% (290) 42% (210) 50% ( 500)
y2
42% (210) 58% (290) 50% ( 500)
Total
(500)
(500)
(1000)
dY.X% = 16.0, dX.Y% = 16.0
ΦXY = 0.160
dY.X(Z=2)% = 16.0
dX.Y(Z=2)% = 16.1
ΦXY(Z=2) = 0.161
Z
Y
z1
z2
Total
y1
54% (270) 46% (230) 50% ( 500)
y2
46% (230) 54% (270) 50% ( 500)
Total
(500)
(500)
(1000)
dY.Z% = 8.0, dZ.Y% = 8.0
ΦYZ = 0.080
Z
X
z1
z2
Total
x1
50% (250) 50% (250) 50% ( 500)
x2
50% (250) 50% (250) 50% ( 500)
Total
(500)
(500)
(1000)
Vorlesung Statistik 2
dX.Z% = 0, dZ.X% = 0
ΦXZ = 0
30
Additive Effekte bei korrelierten erklärenden Variablen: Konfundierung
Eine bivariater Effekt von X auf Y ist konfundiert, wenn er aufgrund einer
Beziehung zwischen Kontrollvariable und erklärender Variable andere (und
sehr oft höhere) Werte aufweist als die korrespondierenden konditionalen
Effekte.
Z = z1
X
X
Y
Z
Z = z2
X
Y
x1
x2
x1
x2
y1
80% (320) 70% ( 70) 40% ( 40) 30% (120)
y2
20% ( 80) 30% ( 30) 60% ( 60) 70% (280)
Total
(400)
(100)
(100)
(400)
X
Y
x1
x2
Total
y1
72% (360) 38% (190) 55% ( 550)
y2
28% (140) 62% (310) 45% ( 450)
Total
(500)
(500)
(1000)
dY.X% = 34.0, dX.Y% = 34.3
ΦXY = 0.342
dY.X(Z=1)% = 10.0
dX.Y(Z=1)% = 9.3
ΦXY(Z=1) = 0.097
dY.X(Z=2)% = 10.0
dX.Y(Z=2)% = 7.3
ΦXY(Z=2) = 0.857
Z
Y
z1
z2
Total
y1
78% (390) 32% (160) 55% ( 550)
y2
22% (110) 68% (340) 45% ( 450)
Total
(500)
(500)
(1000)
dY.Z% = 46.0, dZ.Y% = 46.5
ΦYZ = 0.462
Z
X
z1
z2
Total
x1
80% (400) 20% (100) 50% ( 500)
x2
20% (100) 80% (400) 50% ( 500)
Total
(500)
(500)
(1000)
Vorlesung Statistik 2
dX.Z% = 60.0, dZ.X% = 60.0
ΦXZ = 0.600
31
Additive Effekte bei korrelierten erklärenden Variablen: Scheinbare Nichtbeziehung
Zwischen X und Y besteht eine scheinbare Nichtbeziehung, wenn erst durch
die Drittvariablenkontrolle eine Beziehung sichtbar wird.
Z = z1
X
Y
x1
x2
x1
x2
y1
78% (117) 62% (217) 38% (133) 22% ( 33)
y2
22% ( 33) 38% (133) 62% (217) 78% (117)
Total
(150)
(350)
(350)
(150)
Y
x1
x2
Total
y1
50% (250) 50% (250) 50% ( 500)
y2
50% (250) 50% (250) 50% ( 500)
Total
(500)
(500)
(1000)
dY.X% = 0, dX.Y% = 0
ΦXY = 0
dY.X(Z=1)% = 16.0
dX.Y(Z=1)% = 15.2
ΦXY(Z=1) = 0.156
+
Y
–
Z
Z = z2
X
X
X
+
dY.X(Z=2)% = 16.0
dX.Y(Z=2)% = 15.2
ΦXY(Z=2) = 0.156
Z
Y
z1
y1
66.8% (334)
y2
33.2% (166)
Total
(500)
z2
33.2% (166)
66.8% (334)
(500)
Total
50% ( 500)
50% ( 500)
(1000)
dY.Z% = 33.6, dZ.Y% = 33.6
ΦYZ = 0.336
Z
X
z1
z2
Total
x1
30% (150) 70% (350) 50% ( 500)
x2
70% (350) 30% (150) 50% ( 500)
Total
(500)
(500)
(1000)
Vorlesung Statistik 2
dX.Z% = –40.0, dZ.X% = –40.0
ΦXZ = –0.400
32
Additive Effekte bei korrelierten erklärenden Variablen: Verzerrung
Die bivariate Beziehung zwischen X und Y ist verzerrt, wenn das Vorzeichen
der bivariaten Beziehung umgekehrt zu den konditionalen Beziehungen ist.
Z = z1
X
X
X
Y
x1
x2
Total
y1
48% (240) 58% (290) 53% ( 530)
y2
52% (260) 42% (210) 47% ( 470)
Total
(500)
(500)
(1000)
dY.X% = –10.0, dX.Y% = –10.0
ΦXY = –0.100
Y
+
Z
Z = z2
X
Y
x1
x2
x1
x2
y1
40% (160) 30% ( 45) 80% ( 80) 70% (245)
y2
60% (240) 20% (105) 20% ( 20) 30% (105)
Total
(400)
(150)
(100)
(350)
dY.X(Z=1)% = 10.0
dX.Y(Z=1)% = 8.5
ΦXY(Z=1) = 0.092
–
+
–
dY.X(Z=2)% = 10.0
dX.Y(Z=2)% = 8.6
ΦXY(Z=2) = 0.093
Z
Y
z1
y1
37.3% (205)
y2
62.7% (345)
Total
(550)
z2
72.2% (325)
27.8% (125)
(450)
Total
53% ( 530)
47% ( 470)
(1000)
dY.Z% = –34.9, dZ.Y% = –34.7
ΦYZ = –0.348
X
Z
x1
z1
80% (400)
z2
20% (100)
Total
(500)
Vorlesung Statistik 2
x2
Total
30% (150) 50% ( 550)
70% (350) 50% ( 450)
(500)
(1000)
dZ.X% = 50.0, dX.Z% = 50.5
ΦXZ = 0.503
33
Scheinkausalität
Wenn eine bivariate Beziehung zwischen zwei Variablen X und Y dadurch
hervorgerufen wird, dass eine Drittvariable auf X und Y wirkt, dann liegt eine
Scheinkausalität vor.
Z = z1
X
Y
Z
Z = z2
X
Y
x1
x2
x1
x2
y1
70% (280) 70% ( 70) 30% ( 30) 30% (120)
y2
30% (120) 30% ( 30) 70% ( 70) 70% (280)
Total
(400)
(100)
(100)
(400)
X
X
dY.X(Z=1)% = 0
dX.Y(Z=1)% = 0
ΦXY(Z=1) = 0
dY.X(Z=2)% = 0
dX.Y(Z=2)% = 0
ΦXY(Z=2) = 0
Z
Y
x1
x2
Total
y1
62% (310) 38% (190) 50% ( 500)
y2
38% (190) 62% (310) 50% ( 500)
Total
(500)
(500)
(1000)
Y
z1
z2
Total
y1
70% (350) 30% (150) 50% ( 500)
y2
30% (150) 70% (350) 50% ( 500)
Total
(500)
(500)
(1000)
dY.X% = 24.0, dX.Y% = 24.0
ΦXY = 0.240
dY.Z% = 40.0, dZ.Y% = 40.0
ΦYZ = 0.400
Z
X
z1
z2
Total
x1
80% (400) 20% (100) 50% ( 500)
x2
20% (100) 80% (400) 50% ( 500)
Total
(500)
(500)
(1000)
Vorlesung Statistik 2
dX.Z% = 60.0, dZ.X% = 60.0
ΦXZ = 0.600
34
Mediation über eine intervenierende Variable
Wenn der Effekt einer erklärenden Variable über eine dritte intervenierende
Variable (auch als Mediator bezeichnet) vermittelt wird, spricht man von
Mediation.
X
Y
Z
Z = z1
X
Z = z2
X
Y
x1
x2
x1
x2
y1
70% (280) 70% (105) 20% ( 20) 20% ( 70)
y2
30% (120) 30% ( 45) 80% ( 80) 80% (280)
Total
(400)
(150)
(100)
(350)
dY.X(Z=1)% = 0
dX.Y(Z=1)% = 0
ΦXY(Z=1) = 0
dY.X(Z=2)% = 0
dX.Y(Z=2)% = 0
ΦXY(Z=2) = 0
Z
X
Y
x1
x2
Total
y1
60% (300) 35% (175) 47.5% ( 475)
y2
40% (200) 65% (325) 52.5% ( 525)
Total
(500)
(500)
(1000)
Y
z1
z2
Total
y1
70% (385) 20% ( 90) 47.5% ( 475)
y2
30% (165) 80% (360) 52.5% ( 525)
Total
(550)
(450)
(1000)
dY.Z% = 50.0, dZ.Y% = 49.6
ΦYZ = 0.498
dY.X% = 25.0, dX.Y% = 25.1
ΦXY = 0.250
X
Z
x1
z1
80.0% (400)
z2
20.0% (100)
Total
(500)
Vorlesung Statistik 2
x2
30.0% (150)
70.0% (350)
(500)
Total
55% ( 550)
45% ( 450)
(1000)
dZ.X% = 50.0, dX.Z% = 50.5
ΦXZ = 0.503
35
Interaktionseffekt
Ein Interaktionseffekt liegt vor, wenn sich die konditionalen Effekte bei
verschiedenen Ausprägungen einer Drittvariable unterscheiden.
Z = z1
X
X
•
Z
Z = z2
X
Y
x1
x2
x1
x2
y1
70% (175) 50% (125) 50% (125) 70% (175)
y2
30% ( 75) 50% (125) 50% (125) 30% ( 75)
Total
(250)
(250)
(250)
(250)
dY.X(Z=1)% = 20.0
dX.Y(Z=1)% = 20.8
ΦXY(Z=1) = 0.204
dY.X% = 0, dX.Y% = 0
ΦXY = 0
dY.X(Z=2)% = –20.0
dX.Y(Z=2)% = –20.8
ΦXY(Z=2) = 0.204
Z
X
Y
x1
x2
Total
y1
60% (300) 60% (300) 60% ( 600)
y2
40% (200) 40% (200) 40% ( 400)
Total
(500)
(500)
(1000)
Y
Y
z1
z2
Total
y1
60% (300) 60% (300) 60% ( 600)
y2
40% (200) 40% (200) 40% ( 400)
Total
(500)
(500)
(1000)
dY.Z% = 0, dZ.Y% = 0
ΦYZ = 0
Z
X
z1
x1
50% (250)
x2
50% (250)
Total
(500)
Vorlesung Statistik 2
z2
Total
50% (250) 50% ( 500)
50% (250) 50% ( 500)
(500)
(1000)
dX.Z% = 0, dZ.X% = 0
ΦYZ = 0
36
Direkte, indirekte, korrelierte und totale Effekte
Die unterschiedlichen Beziehungsmuster lassen sich leichter nachvollziehen, wenn zwischen
direkten und indirekten Beziehungen unterschieden wird.
X
0.1
Y
0.6
Z
dY.X(Z=1) = 0.100
dY.X(Z=2) = 0.100
dY.Z(X=1) = 0.400
dY.Z(X=2) = 0.400
dX.Z = 0.600
dY.Z = 0.460
dY.X = 0.340
0.4
Im Beispiel wirkt X auf Y, wobei die Anteilsdifferenzen dY.X(Z) bei Kontrolle von Z jeweils 0.1
betragen.
Außerdem wirkt auch Z auf Y, wobei die Anteilsdifferenzen dY.Z(X) bei Kontrolle von X hier
jeweils 0.4 betragen.
Schließlich wirkt Z auch auf X, wobei hier die Anteilsdifferenz dX.Z 0.6 beträgt.
Da außer Z keine weitere Variable auf X wirkt, kann hier der bivariate Effekt betrachtet
werden.
Alle drei Effekte sind direkte Effekte, da die Erklärungsvariable ohne “Umweg” auf die
jeweilige abhängige Variable wirkt.
Im Beispiel hat Z zusätzlich noch einen indirekten Effekt über X auf Y: Wenn der Wert von Z
sich ändert, ändert sich der Wert von X, was wiederum eine Änderung von Y auslöst.
Im additiven Modell von Anteilsveränderungen ist der indirekte Effekt gleich dem Produkt aller
direkten Effekte auf dem Pfad von Z über X auf Y, hier also 0.6×0.1 = 0.06
Vorlesung Statistik 2
37
Direkte, indirekte, korrelierte und totale Effekte
X
0.1
Y
0.6
Z
dY.X(Z=1) = 0.100
dY.X(Z=2) = 0.100
dY.Z(X=1) = 0.400
dY.Z(X=2) = 0.400
dX.Z = 0.600
dY.Z = 0.460
dY.X = 0.340
0.4
Der totale Effekt von Z auf Y ist die Summe des direkten Effekts und aller indirekten Effekte,
im Beispiel also 0.4 + 0.06 = 0.46.
Dieser Wert ist hier gerade gleich dem bivariaten Effekt dY.Z von Z auf Y.
Da Z sowohl X als auch Y beeinflusst, haben X und Y (zum Teil) eine gemeinsame Ursache,
was zu einem Zusammenhang zwischen X und Y führt, der unabhängig von dem Effekt von X
auf Y ist. Dieser durch die gemeinsame erklärende Variable Z hervorgerufene Zusammenhang
wird korrelierter Effekt genannt.
Im Beispiel ist der korrelierte Effekt das Produkt des Effekts von Z auf X und von Z auf Y, also
0.6×0.4 = 0.24
Der bivariate Effekt von X auf Y ist Folge des direkten Effekts von X auf Z plus dem
korrelierten Effekt von Z auf X und von Z auf Y, hier also 0.1 + 0.24 = 0.34.
Konfundierung tritt bei additiven Beziehungen immer dann auf, wenn es neben direkten auch
indirekte oder korrelierte Effekte gibt.
Vorlesung Statistik 2
38
Direkte, indirekte, korrelierte und totale Effekte
X
0.16
Y
Z
dY.X(Z=1) = 0.160
dY.X(Z=2) = 0.160
dY.Z(X=1) = 0.080
dY.Z(X=2) = 0.080
dX.Z = 0
dY.Z = 0.080
dY.X = 0.160
0.08
Wenn es weder indirekte noch korrelierte Effekte gibt, sind die bivariaten und die konditinalen
Effekte identisch. Dies ist oben im Beispiel der additiven Effekte bei unkorrelierten erklärenden
Variablen der Fall.
X
0.16
–0.4
Z
X
dY.Z(X=1) = 0.400
dY.Z(X=2) = 0.400
dX.Z = –0.400
dY.Z = 0.336
dY.X = 0
Y
dY.X(Z=1) = 0.100
dY.X(Z=2) = 0.100
dY.Z(X=1) = –0.400
dY.Z(X=2) = –0.400
dZ.X = 0.500
dY.Z = –0.349
dY.X = –0.100
0.4
0.1
0.5
Z
Y
dY.X(Z=1) = 0.160
dY.X(Z=2) = 0.160
–0.4
Wenn direkte und indirekte Effekte in entgegengesetzte Richtung wirken, sind die bivariaten
Effekte geringer als die konditionalen Effekte. Man bezeichnet dies auch als Suppression des
Effekts durch eine Suppressorvariable. Als Folge von Suppression kann es bivariate zu einer
scheinbaren Nichtbeziehung oder zu einer Verzerrung der Beziehungsrichtung kommen.
Vorlesung Statistik 2
39
Direkte, indirekte, korrelierte und totale Effekte
X
Y
0.6
Z
dY.X(Z=1) = 0
dY.X(Z=2) = 0
dY.Z(X=1) = 0.400
dY.Z(X=2) = 0.400
dX.Z = 0.400
dY.Z = 0.400
dY.X = 0.240
0.4
Wenn es weder direkte noch indirekte Effekte zwischen zwei Variablen giebt, sondern nur
korrelierte Effekte, dann darf die bivariate Beziehung nicht als kausale Beziehung missverstanden werden. Man spricht daher von Scheinkausalität.
X
Y
0.5
Z
dY.X(Z=1) = 0
dY.X(Z=2) = 0
dY.Z(X=1) = 0.500
dY.Z(X=2) = 0.500
dZ.X = 0.500
dY.Z = 0.500
dY.X = 0.250
0.5
Wenn es nur indirekte Effekte über eine intervenierende Variable gibt, liegt ein Mediatoreffekt
vor, bei dem der bivariate Effekt durch die Kausalkette der intervenierenden oder mediierenden
Variablen interpretiert wird.
Bei Scheinkausalität wie Mediation sind die konditionalen Effekte null, wenn die gemeinsame
Ursache bei Scheinkausalität bzw. die intervenierende Variable bei Mediation als Kontrollvariable verwendet wird.
Vorlesung Statistik 2
40
Interaktionseffekte
X
•
Y
dY.X(Z=1) = +0.200
dY.X(Z=2) = –0.200
dY.Z(X=1) = +0.400
dY.Z(X=2) = –0.400
dX.Z = 0
dY.Z = 0
dY.X = 0
Z
Z = z1
X
Z = z2
X
Y
x1
x2
x1
x2
y1
70% (175) 50% (125) 50% (125) 70% (175)
y2
30% ( 75) 50% (125) 50% (125) 30% ( 75)
Total
(250)
(250)
(250)
(250)
Bei einem Interaktionseffekt wirken
zwei (oder mehr) erklärende Variablen gemeinsam auf eine abhängige
Variable. Die Effekte sind dann
nicht additiv.
Bei Interaktionseffekten sind die konditionalen Effekte stets verschieden.
Bei Interaktionseffekten macht es daher keinen Sinn, vom Effekt einer Variable auf eine andere
zu sprechen. Sinnvoll ist nur die Betrachtung der konditionalen Effekte, im Beispiel von X auf
Y bei gegebenen Z bzw. von Z auf Y bei gegebenen Z.
Da sich im Beispiel die konditionalen Effekte gegenseitig aufheben, sind die bivariaten Effekt
auf Y null. Eine scheinbare Nichtbeziehung kann daher auch Folge von Interaktionseffekten
sein.
Da im Beispiel auch die beiden erklärenden Variablen X und Z unabhängig voneinander sind,
zeigt das Beispiel, dass es möglich ist, dass Variablen wechselseitig voneinander unabhängig
sind und es gleichwohl eine (nicht additive) Beziehung zwischen ihnen geben kann.
Vorlesung Statistik 2
41
Korrelation und Kausalität
Durch die statistische Analyse von Zusammenhängen einschließlich Drittvariablenkontrolle ist
es möglich, die Stärke kausaler Effekte zu untersuchen.
Darüber hinaus ist es auch möglich, Konfundierung, Mediation, Scheinkausalitäten, scheinbare
Nichtbeziehungen, Verzerrungen und Interaktionseffekte zu analysieren.
Es ist allerdings nicht möglich, ohne zusätzliche Informationen die Kausalrichtung festzutellen.
Ob etwa eine Mediation vorliegt oder eine Scheinkausalität, lasst sich an den Daten allein nicht
sehen.
Erst wenn durch ein experimentelles oder quasiexperimentelles Design sichergestellt ist, dass
eine Kausalrichtung nicht umgekehrt ist, können über statistische Analysen mit einiger Sicherheit auch Effektstärken korrekt erfasst werden.
Es ist allerdings möglich, postulierte kausale Beziehungen auszuschließen, wenn die Datenanalyse zeigt, dass bei Modellierung der postulierten Kausalstruktur die Effekte nicht in
erwarteter Höhe und/oder Richtung auftreten.
Vorlesung Statistik 2
42
Fehlspezifikation
Das eine statistische Analyse bei einer Fehlspezifikation der Kausalrichtung in die Irre leiten
kann, zeigen das folgende Beispiel.
Die Daten sind so generiert, dass zwei statisch unabhängige Variablen X und Z eine abhängige
Variable Y beeinflussen.
Wenn fälschlicherweise die Rolle von Kontrollvariable Z und abhängiger Variable Y vertauscht
wird, ergeben sich vollkommen falsche Effekte:
Z = z1
X
Z = z2
X
Y
x1
x2
x1
x2
y1
90% (216) 50% (180) 50% ( 80) 10% ( 24)
y2
10% ( 24) 50% (180) 50% ( 80) 90% (216)
Total
(240)
(360)
(160)
(240)
dY.X(Z=1)% = 40.0
Y = y1
X
Z
x1
x2
z1
73.0%(216) 88.2%(180)
z2
27.0%( 80) 11.8%( 24)
Total
(296)
(204)
dZ.X(Y=1)% = –15.3
Vorlesung Statistik 2
X
0.40
Y
Z
0.40
tatsächliche Kausalstruktur
dY.X(Z=2)% = 40.0
Y = y2
X
x1
x2
23.1%( 24) 45.5%(180)
76.9%( 80) 54.5%(216)
(104)
(396)
dZ.X(Y=2)% = –22.4
dZ.Y(X=1)% = 49.9
dZ.Y(X=2)% = 42.8
dX.Y% = 38.4
dY.X% = 40.0
dZ.X% = 0
dX.Z% = 0
43
Aufgaben
Aufgabe 1:
In der linearen Regression des Alters der Frau auf das Alter des Mannes wurde anhand der
Daten des Allbus 2006 folgende Regressionsgleichung geschätzt:
Y = 1.863 + 0.884 · X * E.
Hier noch einmal die Mittelwerte, Variationen und Kovariationen der 254 Realisierunge der
beiden Variablen:
Variable
Mittelwert
Alter des männl. Partners 38.5039
Alter der Partnerin
35.8898
n = 254
(Ko-) Variation
40921.496
36163.110 38372.913
a) Berechnen Sie für männliche Partner im Alter von 30 Jahren, 38.5039 Jahren und von 45
Jahren 90%-Konfidenzintervalle für den bedingten Mittelwert der Partnerin sowie für das
vorhergesagte Alter der jeweiligen Partnerin.
b) Angenommen, die Partnerin eines Mannes von 30 bzw, von 45 Jahren sei 36 Jahre alt.
Berechnen Sie jeweils die Werte der Residuen, der z-transformierten und der studentisierten
Residuen.
Vorlesung Statistik 2
44
Aufgaben
Aufgabe 2:
Die sozialpsychologische Theorie des Wahlverhaltens der Michigan-Schule geht davon aus,
dass die Wahlentscheidung u.a. durch die Parteineigung und die Kandidatenpräferenz bestimmt
wird.
In der Bundesrepublik Deutschland wird die Parteineigung üblicherweise durch die Frage erfasst: „In Deutschland neigen viele Leute längere Zeit einer bestimmten politischen Partei zu,
obwohl sie auch ab und zu eine andere Partei wählen. Wie ist das bei Ihnen: Neigen Sie - ganz
allgemein gesprochen - einer bestimmten Partei zu? Wenn ja, welcher?“
In Wahlumfragen zur Bundestagswahl 1998 wurde des weiteren nach dem bevorzugten Kanzler
gefragt: „Wenn Helmut Kohl und Gerhard Schröder kandidieren, wer wäre Ihnen dann als Bundeskanzler lieber?“
Als dritte Frage ist hier die Wahlabsicht (Sonntagsfrage, siehe Kapitel 2) interessant. Wenn bei
der Parteineigung und der Wahlabsicht nur die Anhänger bzw. potentiellen Wähler von CDU/
CSU und SPD berücksichtigt werden, dann kann aus den Daten der Umfragen des ZDF-Politbarometers zur Bundestagswahl 1998 folgende trivariate Häufigkeitsverteilung erstellt werden:
Parteineigung
bevorzugter Kandidat
Wahlabsicht
CDU/CSU
SPD
Vorlesung Statistik 2
CDU/CSU
Kohl
Schröder
2016
47
287
194
SPD
Kohl
Schröder
21
76
34
2896
45
Aufgabe
Parteineigung
bevorzugter Kandidat
Wahlabsicht
CDU/CSU
SPD
CDU/CSU
Kohl
Schröder
2016
47
287
194
SPD
Kohl
Schröder
21
76
34
2896
a) Es wird vermutet, dass der (langfristige) Effekt der Parteineigung nur vermittelt (indirekt)
über den (kurzfristigen) Effekt der Kandidatenpräferenz auf die Wahlabsicht wirkt.
Welches ist bei dieser Fragestellung der konditionale Effekt?
b) Welche Konsequenz erwarten Sie bei Gültigkeit dieser Hypothese für den konditionalen
Effekt?
Vorlesung Statistik 2
46
Herunterladen