Einführung in die Grundlagen der Regressionsanalyse

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
1
Einführung in die Grundlagen der Regressionsanalyse
Da die Regressionsanalyse auf den bereits bekannten Konzepten der Varianz und Kovarianz beruht,
empfiehlt es sich diese grundlegenden statistischen Maße kurz zu wiederholen. Hierbei gehen wir bei
den entsprechenden Formeln von Stichprobenbefunden aus, die mit Hilfe der Inferenzstatistik auf die
zugehörige Grundgesamtheit verallgemeinert werden können.
Um die Formeln zu veranschaulichen, werten wir auf Länderebene die EUROBAROMETER-Untersuchung Nr. 30 zur Fremdenfeindlichkeit in Europa 1988 aus. Als abhängige Variable dient hierbei
der Prozentsatz der befragten “Inländer”, welche die Ansicht vertreten haben, dass zu viele Ausländer
im Lande leben. Zur Erklärung der Zustimmungsunterschiede dienen die “objektiven Indikatoren”
Anteil der EG-Ausländer, Anteil der Nicht-EG-Ausländer sowie die Arbeitslosenquote 1988. Zu ihnen
gesellt sich als “weicher“ Faktor der in derselben Untersuchung ermittelte Anteil der Postmaterialisten
im Sinne Ingleharts.
Tab.1:
Subjektive Bewertung der Größe der Ausländerpopulation durch Inländer in der Europäischen Gemeinschaft 1988
Frage:
"Was würden Sie - ganz allgemein gesehen- zur Anzahl der Menschen
anderer Nationen in unserem Lande sagen: sind das zu viele, viele, aber
nicht zu viele - oder nicht viele ?"
LAND
B
DK
D
F
GR
GB
IRL
I
L
NL
P
E
PZUVIELE
45,00
37,00
49,00
46,00
22,00
47,00
8,00
36,00
31,00
31,00
15,00
20,00
PEGAUSL
5,50
0,50
2,30
2,90
1,10
1,30
1,90
0,20
24,30
1,10
0,20
0,50
PNEGAUSL
3,20
2,00
5,30
3,90
0,80
1,80
0,50
0,40
2,00
2,80
0,60
0,40
PPOSTMAT
13,10
19,70
25,30
16,10
9,00
18,30
10,20
12,30
13,10
24,20
5,60
13,50
Quellen: EUROBAROMETER Nr. 30 (1988) und EUROSTAT
ARBEITSL
8,10
7,40
5,10
9,00
7,50
6,40
15,60
9,80
1,60
8,10
4,60
16,10
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
2
Mit Hilfe des arithmetrischen Mittels und der Varianz können wir die univariate Verteilung einer
intervall-oder ratioskalierten Variablen beschreiben:
1.
a)
Beschreibung der zentralen Tendenz: Der Arithmetrischer Mittelwert
n
x b)
M xi
i
1
n
Beschreibung der Streuung um den Mittelwert: Die Varianz als die durchschnittliche quadrierte Abweichung vom arithmetrischen Mittelwert
n
S2 c)
2
M ( xi x )
i
1
n1
Die Standardabweichung: Die durchschnittliche Abweichung vom arithmetrischen Mittelwert
S S2
Zur Beschreibung des Zusammenhang zweier metrischer Variablen verwenden wir die Kovariation,
die Kovarianz sowie die Korrelation. Während die Kovariation lediglich auf der Ebene der Wertepaare das Produkt seiner Abweichung in X und Y vom jeweiligen Mittelwert aufsummiert, standardisiert die Kovarianz diese Summe zusätzlich am Stichprobenumfang. Beide Maße besitzen weder
definierte Unter- noch Obergrenzen, so dass die Stärke des Zusammenhanges zwischen beiden
Merkmalen nicht normiert ist. Daher lassen sich auch keine Aussagen darüber zu, ob dieser Zusammenhang stark oder schwach ausgeprägt ist. Erst der von Karl Pearson zusammen mit Francis
Galton 1890 entwickelte Produkt-Moment-Korrelations-Koeffizient lässt diese Aussagen zu, da er die
Kovarianz am Produkt der Standardabweichungen von X und Y standardisiert und somit über einen
definierten Wertebereich von [-1; +1] verfügt. Sein Vorzeichen gibt jeweils die Richtung der Beziehung an. Hierbei setzen wir aber voraus, dass es sich um einen linearen Zusammenhang handelt.
Erhalten wir einen Koeffizienten von Null, so besagt dies lediglich, dass die Linearitätsannahme nicht
erfüllt ist. Ob überhaupt kein Zusammenhang vorliegt oder ob er einen kurvenlinearen Verlauf
annimmt, können wir mit Hilfe des von Galton entwickelten Streudiagramm feststellen. Hierzu tragen
wir alle Wertepaare in einem zweiachsigen Koordinatensystem ab.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
2.
a)
WS 2002/2003
-
3
Die Kovariation von Y und X:
N
Kovariation (y,x) ( xi x ) ( yi y )
i
1
b)
Die Kovarianz von Y und X:
N
Kovarianz (y,x) c)
( xi x ) ( yi y )
i
1
n 1
Die Pearsonsche Produkt-Moment-Korrelation r:
N
( xi x )
i
1
sx
Pearsons Korrelation ry,x ( yi y )
sy
n 1
Kovarianz (y,x)
[ 1; 1]
sx sy
Um zu überprüfen, ob ein linearer Zusammenhang zwischen den Merkmalen Prozentsatz der Zustimmung “zu viele Ausländer im Land” und dem Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung besteht, zeichnen wir zunächst ein Streudiagramm beider Merkmale auf Länderebene. Wir
gehen hierbei von der Forschungshypothese aus, dass je höher der Anteil der Nicht-EG-Ausländer an
der Wohnbevölkerung ausfällt, desto höher ist die Furcht vor “Überfremdung”.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
4
60
Prozentsatz zu viele Ausländer
50
D
GB
40
B
F
DK
I
L
NL
30
GR
E
20
P
10
IRL
0
0
1
2
3
4
5
6
Prozentsatz Nicht-EG-Ausländer
Abb.1:
Streudiagramm: Prozentsatz “Zu viele Ausländer “ auf Anteil der Nicht-EG
-Ausländer an der Wohnbevölkerung (Quelle: EUROBAROMETER 30)
Die Betrachtung der Abbildung 1 zeigt, dass erstens zwischen beiden Merkmalen ein linearer,
Zusammenhang besteht. Zweitens bildet die ihn repräsentierende Gerade die Verteilung der Punkte im
Euklidischen Raum nicht vollständig ab. Mit Hilfe der zuvor dargestellten Kontingenzmaße können
wir die Stärke des Zusammenhangs numerisch bestimmen. Hierzu dient die folgende Arbeitstabelle,
wobei wir auf Ländebene die Produkte der absoluten Abweichungen vom jeweiligen Mittelwert
berechnet haben.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
Tab. 2:
LAND
WS 2002/2003
-
5
Berechnung der Kovariation, Kovarianz und Korrelation zwischen %-Zuviele-Ausländer und %-Nicht-EG-Ausländer 1988
PNEGAUSL:
PZUVIELE:
X
Y
B
DK
D
F
GR
GB
IRL
I
LUX
NL
P
H
3,2
2,0
5,3
3,9
0,8
1,8
0,5
0,4
2,0
2,8
0,6
0,4
45
37
49
46
22
47
8
36
31
31
15
20
=
1,98
s(x) =
1,58
( Xi X )
1,22
0,02
3,32
1,92
-1,18
-0,18
-1,48
-1,58
0,02
0,82
-1,38
-1,58
( Yi Y )
( Xi X ) ( Y i Y )
12,75
4,75
16,75
13,75
-10,25
14,75
-24,25
3,75
-1,25
-1,25
-17,25
-12,25
15,56
0,1
55,61
26,4
12,1
-2,66
35,89
-5,93
-0,03
-1,03
23,81
19,36
32,25
Kovariation =
179,18
13,59
Kovarianz =
Korrelation=
16,29
0,76
Im Durchschnitt stimmten 32,25 % der Befragten dem Statement “Es gibt zu viele Ausländer im
Land” zu, wobei die durchschnittliche Abweichung von dieser Tendenz rd. 13,6% beträgt. Hingegen
stellen die Nicht-EG-Ausländer im Durchschnitt rd. 2 % der Wohnbevölkerung. Dieser Anteil
schwankt auf der Ebene der 12 EG-Staaten im Durchschnitt um rd. 1,6 %. Beide Merkmale verfügen
über sehr unterschiedliche Streuungen, was bei der Betrachtung der Zusammenhangsstärke kontrolliert werden muß. Für die Kovariation bzw. Kovarianz haben wir Koeffizienten von 179,18, bzw.
16,29 ermittelt. Der Pearsonsche Produkt-Moment-Korrelation beträgt +0,76. Auf letzteren stützt sich
die inhaltliche Interpretation der Effektsstärke, da er neben dem Stichprobenumfang auch die unterschiedlichen Streuungen beider Merkmale berücksichtigt. Ein Koeffizient von +0,76 besagt, dass,
wenn sich der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung um eine Standardabweichung
von X erhöht, d.h., wenn er um 1,59 % steigt, dann nimmt die Zustimmung zum Item “Es gibt zu viele
Ausländer” im Durchschnitt um 0,76 Standardabweichungen von Y (0,76*13,59 % = 10,33%) zu. Die
Pearsonsche Korrelation belegt zwar einen starken Zusammenhang beider Merkmale, hierbei haben
wir aber zu beachten, dass es sich um eine “ökologische Korrelation” handelt, die keinerlei Aufschluss
über die Variation innerhalb der Länder zulässt. Da sich die Wohnsitze der ausländischen Bevölkerung nicht gleichermaßen auf die drei Siedlungstypen Ballungszentren, Verdichtungsgebiete und
ländlicher Raum verteilen, sondern sie vor allem in Kernstädten zu finden sind, müssen wir dies bei
der späteren Datenanalyse berücksichtigen, um “ökologische Fehlschlüsse” zu vermeiden.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
3.
WS 2002/2003
-
6
Das bivariate Regressionsmodell
Im Gegensatz zur Korrelationsanalyse unterscheidet das Regressionsmodell zwischen dem abhängigen
Merkmal (Kriterium) und den unabhängigen Merkmalen (Prädiktoren). Es geht daher immer von einer
Kausalbeziehung zwischen Y und X aus, wobei es die Variation der abhängigen Variablen Y auf
diejenige der unabhängigen Variablen X zurückführt. Da dies nicht vollständig leistbar ist, beinhaltet
das Modell einen zusätzlichen Fehlerterm e, der den Einfluss aller nicht im Modell explizit enthaltenen Faktoren erfasst.
Gleichung des bivariaten linearen Modellregressionsmodells:
yi a b xi ei
yi: Vektor der abhängigen Variable
xi: Vektor der unabhängige Variable
a: Regressionskonstante (Ordinatenabschnitt)
b: unstandardisierter Regressionskoeffizient (Steigung)
ei: Residuum
Die uns unbekannten Koeffizienten a und b lassen sich mit der Hilfe der Kleinsten-Quadrate-Methode
(Best Linear Unbiased Estimates -Schätzer) eindeutig bestimmen, wobei die Vorgehensweise zwei
Schritte umfasst:
1.
Zunächst zerlegen wir die Abweichungsquadrate der abhängigen Variablen in die Summen der
durch das Regressionsmodell gebundenen und derjenigen der Fehlerquadrate (Zerlegung der
quadrierten Distanzen).
2
2
2
M (yȳ) M (ŷȳ) M (yŷ)
SSTotal SSRegression SSErrors
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
Abb.2:
2.
WS 2002/2003
-
7
Zerlegung der Abweichungsquadrate im bivariaten
Regressionsmodell (Greene 1993², S. 152)
Anschließend bestimmen wir die Koeffizienten mit Hilfe der Kleinsten-QuadrateSchätzung dergestalt, dass die Summe der quadrierten Abweichungen zwischen den
beobachteten und den geschätzten Werten der abhängigen Variablen ihr Minimum
erreicht.
2
ei [ yi (a b#xi ) ]2 [ yi ŷ i]2 Minimum
Im bivariaten Fall erfüllen die beiden folgenden Formel für die Regressionskonstante (Ordinatenabschnitt) und den Regressionskoeffizienten (Steigung) diese Bedingung:
Berechnung der Regressionskonstante a (auch als b 0 abgekürzt ):
Regressionskonstante a ȳ b # x̄
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
8
Berechnung des unstandardisierten Regressionskoeffizienten b (der Steigung):
n
M (xi x )#(yi y )
i
1
Regressionskoeffizient b (n1)
n
2
M ( xix )
Kovarianzy,x
Varianzx
i
1
(n1)
Modellannahmen:
1.
2.
3.
4.
5.
6.
Wir unterstellen einen linear-additiven Zusammenhang zwischen Y und X:
Y=a+bx+0
Der Erwartungswert des Fehlerterms ist Null: E(0) = 0.
Die Fehlerterme 0 verfügen über eine konstante Varianz (Homoskedastizität)
Die Fehlerterme 0 korrelieren nicht über die Beobachtungen hinweg. D.h., sie sind seriell
voneinander unabhängig.
Die Fehlerterme 0 sind unabhängig vom linearen Prädiktor b’X.
Die Fehlerterme 0 sind normalverteilt mit einem Erwartungswert Null und einer Varianz 12.
0i ~ N [0;1²]
Abb. 3:
Darstellung der Annahmen zum Fehlerterm im
klassischen Regressionsmodell (Greene 1993, S. 144)
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
9
In unserem EUROBAROMETER-30-Datensatz dient der Prozentsatz der Zustimmung zum Item “Es
gibt zu viele Ausländer im Land” als abhängige Variable. Zur Erklärung ihrer Variation wird der
Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung herangezogen. Die wichtigsten Bestandteile
für die Formeln des Steigungskoeffizienten und des Ordinatenabschnittes haben wir bereits in Tab. 2
berechnet, so dass wir sie nur noch an der entsprechenden Stelle einsetzen müssen.
Regressionskoeffizient b 16,289
1.5782
16.289
6.542
2,490
Regressionskonstante a 32,250 b #1,975
32,250 6,542#1,975 19,328
Formal gesehen gibt der “unstandardisierte Regressionskoeffizient” an, um wie viele absolute
Einheiten sich Y ändert, wenn X um genau eine Einheit zunimmt. In unserem Fall bedeutet dies
inhaltlich, dass die Zustimmung zur “fremdenfeindlichen Aussage” sich im Durchschnitt um rd. 6,5
Prozentpunkte erhöht, wenn der Anteil der Anteil der Nicht-EG-Ausländer um 1 % zunimmt. Hingegen gibt die Regressionskonstante formal gesehen an, welchen Wert Y im Durchschnitt annimmt,
wenn X Null ist. In unserem Fall bedeutet dies, dass wir im Durchschnitt eine Zustimmungsrate von
19,33 % erwarten, wenn kein Nicht-EG-Ausländer im jeweiligen Land lebt.
Die geschätzten Werte für Y erhalten wir, indem wir die Werte des Y-Abschnitts und der Steigung in
die Regressionsgleichung einsetzen und für jede Beobachtung von X den zugehörigen geschätzten YWert berechnen.
Berechnung der geschätzten Werte von Y: Ŷ
Yˆ i a b # Xi
Ŷ i 19,328 6,542 # Xi
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
10
60
Prozentsatz zu viele Ausländer
50
D
GB
40
B
F
DK
I
L
NL
30
GR
E
20
P
10
IRL
0
R-Qu. = 0,5775
0
1
2
3
4
5
6
Prozentsatz Nicht-EG-Ausländer
Abb. 4 :
Prozentsatz der Zustimmung “Zu viele Ausländer” auf Anteil der Nicht-EG-Ausländer
an der Wohnbevölkerung mit geschätzter Regressionsgeraden
Nachteil des unstandardisierten Regressionskoeffizienten b :
Formal gesehen gibt der unstandardisierte Regressionskoeffizient an, um wie viele Einheiten sich Y
schätzungsweise im Durchschnitt ändert, wenn X um eine absolute Einheit zunimmt. Deshalb ist der
Regressionskoeffizient selbst von den Maßeinheiten von X und Y abhängig. Daher liegt eine Standardisierung wie beim Korrelationskoeffizienten r nicht vor. Messen wir beispielsweise zwei unabhängige Variablen in unterschiedlichen Maßeinheiten, so können wir die beiden unstandardisierten
Regressionskoeffizienten nicht miteinander vergleichen. In unserem Fall träfe dies zu, wenn wir den
Ausländeranteil in Prozent und den “Wohlstand des Landes” über das Bruttoinlandsprodukt pro Kopf
in Euro messen. Verwenden wir beide Merkmale zur “Erklärung” der Fremdenfeindlichkeit jeweils in
einem getrennten Regressionsmodell, so können ihre Effektstärken (Steigungskoeffizienten) nicht
vergleichen.
Einen Ausweg aus diesem Dilemma bietet der standardisierte Regressionskoeffizient, der sich aus
dem Produkt der Steigung mit dem Quotienten der Standardabweichungen des Prädiktors und des
Kriteriums ergibt.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
11
Berechnung des standardisierten Regressionskoeffizienten ß:
Standardisierter Regressionskoeffizient b #
Umkehrung: b #
sy
sx
sx
sy
< [1;1]
< ursprüngliche Wertebereich
Vorteile:
1.
Der standardisierte Regressionskoeffizient verfügt über einen von den ursprünglichen Maßeinheiten unabhängigen Wertebereich, der sich auf das Intervall [-1;+1] beschränkt.
2.
Hierdurch lässt sich der standardisierte Regressionskoeffizient sowohl der Richtung als auch
der Stärke nach eindeutig interpretieren.
Ein Wert von Null bedeutet hierbei, dass kein linearer Zusammenhang vorhanden ist. Hingegen
kennzeichnet ein Wert von + 1 den perfekten positiven Zusammenhang in dem Sinne, dass, wenn die
unabhängige Variable X um eine Standardabweichung sx zunimmt, der Wert der abhängigen Variablen Y ebenfalls um eine Standardabweichung sy steigt. Ein standardisierter Koeffizient von - 1 belegt
eine perfekte inverse Beziehung beider Merkmale, d. h., wenn X um eine Standardabweichung sX
zunimmt, führt dies zu einer Verminderung von Y um eine Standardabweichung sY
Nachteile:
Der standardisierte Regressionskoeffizient eignet sich erstens nicht für den Vergleich desselben
Modells in verschieden Stichproben, da in seine Berechnung die jeweils stichprobenabhängigen
Standardabweichungen von X und Y einfließen. Daher greifen wir beim Vergleich desselben Regressionsmodells in verschiedenen Stichproben auf die unstandardisierten Regressionskoeffizienten
zurück. Für Dummyvariablen darf zweitens der standardisierte Regressionskoeffizient ebenfalls nicht
berechnet werden, da diese sich nicht um eine Standardabweichung ihrer selbst ändern können.
Vielmehr nehmen sie stets um einen ganzen Wert von Null auf Eins zu. Ihr Steigungskoeffizient
erfasst unmittelbar den geschätzten Gruppenunterschied der Kriteriumsvariablen zwischen der
betrachteten Effektgruppe (1) und ihrer zugehörigen Vergleichsgruppe (0).
Für unseren Beispieldatensatz berechnen wir den standardisierten Regressionskoeffizienten ß für den
Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung zunächst über seine Formel. Da er im
bivariaten Regressionsmodell identisch mit dem von Pearson entwickelten Produkt-Moment-Korrelationskoeffizienten r ist, ist diese Berechnung eigentlich nicht erforderlich.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
6,542 #
WS 2002/2003
-
12
1,578
0,760
13,586
Wie gut beschreibt das lineare Modell die Daten ?
Die Güte der Modellpassung lässt sich mit Hilfe des Standardfehlers der Regression und des Determinationskoeffizienten R2 bestimmen. Den Standardfehler der Regression selbst interpretieren wir
als das modellimmanent geschätzte durchschnittliche Residuum . Er gibt an, wie groß im Durchschnitt
die Abweichung der Datenpunkte von der Regressionslinie ausfällt. Je größer der Betrag des Standardfehlers ist, desto schlechter beschreibt die Regressionsgerade die Verteilung der Datenpunkte.
1.
Berechnung des Standardfehlers der Regression:
n
Standardfehler der Regression (yi ŷi)2
i
1
(n k 1)
SSError
(n k 1)
n: Stichprobenumfang
k: Anzahl der unabhängigen Variablen
Hingegen handelt es sich beim Determinationskoeffizienten R2 um ein Maß der Proportionalen
Fehlerreduktion (Proportional Reduction of Error), das angibt, wie viel Prozent der Varianz (Variation) von Y durch das unabhängige Merkmale X “gebunden” oder “erklärt” wird. Guttman (1977, S. 98)
weist auf die Missverständlichkeit des Terminus “Erklärung” hin, indem er anmerkt, daß “proportion
(or percentage) of variance is never explained. ... None of these words [ explanation, determination
or causation, W.L.] has any theoretical meaning; their use represents wishful thinkings about the
relative predictability of a variable in a given context, such thinking generally leading to percentages
of “explanation” that add up to many times 100 per cent for the variable in question .”
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
13
Aus formaler Sicht gibt uns der Determinationskoeffizient R² an, wie viele Fehler wir bei der Vorhersage des Kriteriums Y weniger machen, wenn wir den Prädiktor X berücksichtigen. Wir zerlegen
hierfür die Varianz von Y in zwei Bestandteile, demjenigen der auf die Kovarianz mit X entfällt und
demjenigen des Residualanteil. Um ihn zu bestimmen, müssen wir neben der Gesamtanzahl der
Vorhersagefehler die Vorhersagefehler des Regressionsmodells bestimmen. Die Gesamtzahl der
Vorhersagefehler als Fehlermenge E1 ermitteln wir, indem wir jeden Y-Wert auf der Basis des
Mittelswerts von Y vorhersagen. Die Summe der quadrierten Abweichungen vom Mittelwert Y bildet
die Gesamtzahl aller möglichen Fehler. Die Fehlermenge des Regressionsmodells als zweite Fehlersumme E2 ermitteln über die Summe der quadrierten Abweichung zwischen dem jeweiligen Beobachtungswert von Y und dem modellimmanent vorhergesagten Y-Wert. Hierbei folgt der Determinationskoeffizient der allgemeinen Logik für Maßzahlen der Proportionalen Fehlerreduktion.
Der Determinationskoeffizient als Maß der Proportionalen Fehlerreduktion:
n
R 2
E1 E2
E1
n
(yiȳ ) (yiŷ )2
2
i
1
i
1
n
(yi ȳ )2
i
1
SSTotal SSError
SSTotal
1 SSErrors
SSTotal
SSRegression
SSTotal
[0;1]
SS: Summe der Abweichungsquadrate
Um in unserem EUROBAROMETER-Beispiel die Modellanpassung zu bestimmen, müssen wir
zunächst die Abweichungsquadrate des Kriteriums in diejenigen der Regression und des Residuums
zerlegen. Hierzu berechnen wir zunächst die geschätzten Werte für die Zustimmung zum Item “Es
leben zu viele Ausländer im Land” und anschließend die Abweichungsquadrate der Regression sowie
des Residuums pro Mitgliedsland.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
Tab. 3:
LAND
-
14
Zerlegung der Abweichungsquadrate von Y im bivariaten Regressionsmodell:
EB 30 Länderdaten.
PNEGAUSL: PZUVIELE:
X
B
DK
D
F
GR
GB
IRL
I
LUX
NL
P
E
Mittelwert =
s (x) =
a = 19,33
WS 2002/2003
SSRegression
(Yˆ Y )2
Yˆ
Y
3,2
2,0
5,3
3,9
0,8
1,8
0,5
0,4
2,0
2,8
0,6
0,4
45
37
49
46
22
47
8
36
31
31
15
20
1,98
1,58
32,25
13,59
40,26
32,41
54,00
44,84
24,56
31,10
22,60
21,94
32,41
37,65
23,25
21,94
b = 6,54
64,20
0,03
473,09
158,55
59,11
1,31
93,14
106,20
0,03
29,11
80,94
106,20
857,83
n 1 1
22,44
21,05
25,01
1,34
6,56
252,70
213,13
197,55
1,99
44,16
68,12
3,78
SSTotal
( Y Y )2
162,56
22,56
280,56
189,06
105,06
217,56
588,06
14,06
1,56
1,56
297,56
150,06
Zerlegung der Abweichungsquadrate:
SSTotal =
2030,25
SSReg =
1171,91
SSError =
857,83
Standardfehler der Regression SSError
( Y Yˆ )2
SSError
nk1
857,83
9,26
10
Die durchschnittliche Abweichung der Datenpunkte von der Regressionslinie beträgt 9,26-%-Punkte.
Diese Information ist aber wenig aussagekräftig, da uns eine eindeutige Vergleichsbasis fehlt. Erst der
Determinationskoeffizient R² erlaubt uns eine präzise Aussage darüber, wie gut die Regressionslinie
die Verteilung der Datenpunkte beschreibt.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
R2 1 WS 2002/2003
-
15
857,83
1171,91
0,5772
2030,25
2030,25
R 2in % 0,5772100 57,72 %
In unserem Beispiel gehen wir davon aus, dass die Berücksichtigung der Anteils der Nicht-EGAusländer zu einer Verbesserung der Vorhersage der “Fremdenfeindlichkeit” um 57,72 % führt. Der
Anteil der durch das unabhängige Merkmal gebundenen Varianz beträgt somit 57,72 %.
Ziehen wir die Quadratwurzel aus dem Determinationskoeffizienten, so erhalten wir das sogenannte
“multiple r”, das in bivariaten Fall von seinem Betrag her mit dem Pearson-Produkt-Moment-Korrelationskoeffizienten identisch ist.
Multiples r R 2 < [0;1]
EB 30 Länderdaten: Multiples r 0,5772 0,76
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
4.
WS 2002/2003
-
16
Das multiple lineare Regressionsmodell:
Das Ziel der multiplen linearen Regression besteht darin, die Variation des abhängigen Merkmals auf
die Variationen einer Vielzahl von unabhängigen Merkmalen zurückzuführen, wobei diese untereinander statistisch kontrolliert (auspartialisiert) werden. Dieses Vorgehen erlaubt die Bestimmung des
Nettoeinflusses / Nettoerklärungsbeitrags jeder einzelnen unabhängigen Variablen. Diese Erweiterung
des bivariaten Regressionsmodells lässt sich mit Hilfe von Pfeil- und Venndiagrammen veranschaulichen.
Lineares Regressionsmodell:
Bivariates Modell:
Multiples Modell:
X1
X
Y
Pfeildiagramme:
Y
X2
Nettoeffekt X1
X1
Y
Venndiagramme:
X
Y
X2
Nettoeffekt X2
Interkorrelation X1 und X2
Abb.5:
Die bivariate bzw. multiple lineare Regression als Pfeil- bzw. Venndiagramm
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
17
Modellgleichung des trichotomen Falls:
yi a b1 x1i b2 x2i ei
yi: Vektor der abhängigen Variable
x1i: Vektor der 1. unabhängigen Variablen
x2i: Vektor der 2. unabhängigen Variablen
a: Regressionskonstante
b1: unstandardisierter Regressionskoeffizient für X1
b2: unstandardisierter Regressionskoeffizient für X2
ei: Residuum
Erweiterung der Modellannahmen im multiplen Fall:
7.
Die exogenen Merkmale X1 und X2 sind statistisch unabhängig voneinander. Als Kriterium
für das Vorliegen von Multikollinearität gelten Interkorrelationen zwischen 0,60 und 0,80, je
nach Rigidität des methodologischen Standpunktes.
8.
Die X-Matrix der exogenen Merkmale hat vollen Spaltenrang. D.h., dass die Anzahl der
Beobachtungen n mindestens so groß sein muss wie die Anzahl der zu schätzenden Parameter
k.
Mit Hilfe der Kleinsten-Quadrate-Methode lassen sich die Koeffizienten a, b1 und b2 der obigen
Gleichung dergestalt bestimmen, dass die Summe der quadrierten Abstände der Datenpunkte von der
im dreidimensionalen Raum aufgespannten Regressionsebene ihr Minimum erreicht. Dies lässt sich
im geometrischen Sinne folgendermaßen veranschaulichen:
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
Abb. 6:
WS 2002/2003
-
18
Geometrische Darstellung der multiplen linearen
Regression (Urban 1982, S.76)
Berechnung der Regressionskonstanten a (b0):
Regressionskonstante a ȳ b1 # x̄1 b2 # x̄2
Verwendet man anstatt der ursprünglichen unabhängigen Variablen X1 und X2 jeweils ihre z-standardisierten Werte, so lassen sich die standardisierten Regressionskoeffizienten ß1 und ß2 direkt aus
den bivariaten Korrelationen der drei Merkmale berechnen (Lösung der Normalgleichungen). Sie
müssen anschließend in unstandardisierte Regressionskoeffizienten umgerechnet werden:
yx .x 1 1 2
yx .x 2 2 1
ry x ry x #rx
1
2
1 x2
2
1 rx1 x2
ry x ry x #rx
2
1
2
1 rx1 x2
1 x2
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
19
Umrechnung in unstandardisierte Regressionskoeffizienten:
b1 1 #
sy
sx
1
b2 2 #
sy
sx
2
Die unstandardisierten Koeffizienten b1 und b2 setzen wir anschließend in die Formel für die Berechnung der Regressionskonstanten ein.
Anhand unseres bisherigen 12-Länder-Beispiels lässt sich die Vorgehensweise der multiplen Regression mit zwei unabhängigen Variablen demonstrieren. In Tab. 1 finden wir neben dem Anteil der NichtEG-Ausländer ebenfalls den Prozentsatz der bei der Befragung ermittelten Postmaterialisten im Sinne
der Inglehartschen Wertetypologie. Letzterer kann uns als Indikator für das Ausmaß der “Liberalität”
im Lande dienen. Wir gehen hiebei von der konkurrierenden Hypothese aus, dass je liberaler ein Land
ist, desto geringer fällt der Anteil der Befürworter des Xenophobieitems aus. Wir vereinbaren für das
Kriterium und die beiden Prädiktoren die folgenden Abkürzungen:
Y:
X1:
X2:
Anteil der Befragten, die meinen, es gäbe zu viele Ausländer in ihrem Land
Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung
Anteil der “sich bekennenden Postmaterialisten”
Um die standardisierten Regressionskoeffizienten zu berechnen, benötigen wir lediglich die Korrelationsmatrix der Merkmale und ihre jeweiligen Standardabweichungen. Die Standardabweichung für
den Prozentsatz der Postmaterialisten (X2) beträgt 5,947.
Korrelationsmatrix:
Y
X1
X2
1,000
0,760 1,000
0,645 0,726 1,000
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
1 2 0,760 0,645#0,726
1 0,726
2
0,645 0,760#0,726
1 0,726
2
WS 2002/2003
-
20
0,617
0,197
Umrechnung in unstandardisierte Regressionskoeffizienten:
b1 0,617 #
13,586
1,578
0,617#8,610 5,312
b2 0,197 #
13,586
5,947
0,197#2,285 0,450
Berechnung der Regressionskonstanten a:
a 32,250 5,312#1,975 0,450#15,033 14,994
Die ermittelten unstandardisierten Regressionskoeffizienten interpretieren wir folgendermaßen:
b1:
Unter der Kontrolle des Anteils der Postmaterialisten steigt der Anteil derjenigen Personen, die
meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt um 5,31%, wenn der
Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung um 1 % zunimmt.
b2:
Unter der Kontrolle des Anteils der Nicht-EG-Ausländer an der Wohnbevölkerung steigt der
Anteil der Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt
um 0,45 %, wenn der Anteil der Postmaterialisten um 1 % steigt.
a:
Gäbe es weder Nicht-EG-Ausländer noch Postmaterialisten im Lande, so liegt der geschätzte
Anteil der Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, bei 14,99 %.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
21
Die standardisierten Regressionskoeffizienten interpretieren wir wie folgt:
ß1:
Unter der Kontrolle des Anteils der Postmaterialisten steigt der Anteil derjenigen Personen, die
meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt um 0,617 Standardabweichungen von Y, wenn der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung um eine
Standardabweichung von X1 zunimmt.
ß2:
Unter der Kontrolle des Anteils der Nicht-EG-Ausländer an der Wohnbevölkerung steigt der
Anteil der Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt
um 0,197 Standardabweichungen (sy), wenn der Anteil der Postmaterialisten um eine Standardabweichung von X2 zunimmt. Damit wird unsere zweite Hypothese eindeutig widerlegt, da das
ermittelte nicht dem erwarteten Vorzeichen entspricht.
Der Vergleich der beiden standardisierten Regressionskoeffizienten ergibt, dass der Anteil der NichtEG-Ausländer an der Wohnbevölkerung einen rd. dreimal so großen Einfluss auf die Fremdenfeindlichkeit ausübt wie der Anteil der Postmaterialisten. Da beide Koeffizienten größer als Betrag 0,10
ausfallen, gehen wir davon aus, dass beide einen kausalen Einfluss ausüben. Offen bleibt aber, ob
diese “ökologische Befunde” ebenfalls für Individualdaten gelten.
Am obigen Befund löst Erstaunen aus. Erstens ermittelt das multiple Regressionsmodell ein Vorzeichen für den Effekt der Liberalität, welches konträr zum erwarteten Vorzeichen ausfällt. Zweitens wird
der Einfluss der Liberalität mit einem standardisierten Regressionskoeffizienten von +0,197 sehr viel
niedriger eingestuft als aufgrund der bivariaten Korrelation von 0,645 zu erwarten wäre. Dies ist
darauf zurückzuführen, dass die Korrelation zwischen beiden Prädiktoren + 0,726 beträgt, was auf ein
hohes Maß an Multikollinearität hinweist. Sie verstößt gegen die Grundannahme der nichtkorrelierten
Prädiktoren. Da das multiple Regressionsmodell die Zusammenhänge der Prädiktoren untereinander
kontrolliert, in der Statistik spricht man von “Auspartialisierung”, kann Multikollinearität zu instabilen
Schätzern führen, die sowohl ihr Vorzeichen als auch ihren Betrag wechseln können. In diesem Fall
sollte man auf einen dieser hoch korrelierenden Prädiktoren verzichten.
Die Güte der Modellanpassung unseres multiplen Regressionsmodells ermitteln wir über die bereits
dargestellte Zerlegung der Abweichungsquadrate von Y. Hierzu benötigen wir die folgende Arbeitstabelle, bei der wir die geschätzten Werte für Y durch das Einsetzen der unstandardisierten Regressionskoeffizienten sowie der Beobachtungswerte von X1 und X2 in die Modellgleichung erhalten.
Berechnung der geschätzten Werte von Y: Yˆ
Ŷ i a b1 X1i b2 X2i
14,994 5,312 X1i 0,450 X2i
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
22
Tab. 4: Zerlegung der Abweichungsquadrate von Y im multiplen linearen Regressionsmodell
LAND
PZUVIELE PNEGAUSL PPOSTMAT
Y
B
DK
D
F
GR
GB
IRL
I
L
NL
P
E
45,00
37,00
49,00
46,00
22,00
47,00
8,00
36,00
31,00
31,00
15,00
20,00
a=
b1=
b2=
14,994
5,312
0,450
Y
32,25
X1
Yˆ
X2
3,20
2,00
5,30
3,90
0,80
1,80
0,50
0,40
2,00
2,80
0,60
0,40
13,10
19,70
25,30
16,10
9,00
18,30
10,20
12,30
13,10
24,20
5,60
13,50
SSRegression
( Yˆ Y )2
37,89
34,48
54,53
42,96
23,29
32,79
22,24
22,65
31,51
40,76
20,7
23,19
Summe der Quadrate =
Standardfehler der Regression =
Determinationskoeffizient R2 =
R2 in % =
SSError
ˆ2
( Y Y)
SSTotal
( Y Y )2
31,81
4,97
496,40
114,70
80,28
0,29
100,20
92,16
0,55
72,42
133,40
82,08
50,55
6,35
30,58
9,24
1,66
201,92
202,78
178,22
0,26
95,26
32,49
10,18
162,56
22,56
280,56
189,06
105,06
217,56
588,06
14,06
1,56
1,56
297,56
150,06
1209,27
819,50
2030,25
9,54
0,5956
59,56
Der multiple Determinationskoeffizient R² belegt, dass durch die Einbeziehung der beiden Prädiktoren
fast 60% der Varianz von Y gebunden werden. Damit weist unser Regressionsmodell eine “sehr gute”
Anpassung an die empirischen Verteilung von Y auf. Dies belegt ebenfalls der Standardfehler der
Regression, der angibt, dass die Datenpunkte im Durchschnitt rd. 9,5 Prozentpunkte von der Regressionsebene entfernt liegen.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
23
Erweiterung des multiplen linearen Regressionsmodells auf mehr als 2 Prädiktoren:
Modellgleichung des multiplen linearen Regressionsmodells:
Y i b0 b1 x1i ... bk xki 0i
Die unstandardisierten Regressionskoeffizienten lassen sich nur mit Hilfe der Matrixalgebra berechnen, wobei das Regressionsmodell folgender Matrixnotation entspricht:
y1
1 x11 . . xk1
b0
01
y2
1 x12 . . xk2
b1
02
.
.
yn
.
.
. .
.
.
.
. .
.
1 xkn . . xkn
y X ×
×
.
.
.
.
bk
0k
b 0
Die Matrixlösung der Kleinsten-Quadrate-Schätzung (OLS) lautet:
b(OLS) (X ´ X)1 X ´ y
Um den Vektor der unstandardisierten Regressionskoeffizienten zu berechnen, absolvieren wir vier
Schritte. Im ersten Schritt multiplizieren wir die Matrix der unabhängigen Variablen mit ihrer
Transponierten. Die Transponierte erhalten wir, indem wir die Zeilen- und Spaltenindizes der Ausgangsmatrix X miteinander vertauschen. Im zweiten Schritt berechnen wir die Inverse dieser Produktmatrix. Bei ihr handelt es sich um diejenige Matrix, deren Multiplikation mit der (X ´X) - Matrix die
Einheitsmatrix ergibt. Bei der Einheitsmatrix ist die Hauptdiagonale mit Einsen besetzt, die übrigen
Zellen weisen Nullen auf. Im dritten Schritt multiplizieren wir zunächst die Transponierte der
Datenmatrix X´ mit dem Vektor der abhängigen Variablen Y. Im vierten Schritt berechnen wir
anschließend das Produkt aus der letzten Matrixmultiplikation und der Inversen der X´X-Matrix. Da
diese Matrixoperationen sehr aufwendig sind, empfiehlt es sich, sie dem jeweiligen Statistikprogramm
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
24
zu überlassen. Programme wie SPSSfWin oder LIMDEP bieten darüber hinaus die Möglichkeit,
entweder sich die Zwischenergebnisse der Matrixoperationen ausgeben zu lassen oder die entsprechenden Rechenschritte selbst zu programmieren.
5.
Maße der “ statistischen Signifikanz ” :
Ziel: Schluss vom Stichprobenbefund auf die Grundgesamtheit
Globaler F-Test:
Nullhypothese:
Alle Steigungskoeffizienten sind Null.
H0: b1 b2 .. bk 0
oder alternativ:
H0: R 2 0
Globaler FTest(D.F.1;D.F.2) , wobei
R2 / k
2
(1R ) / (nk1)
D.F.1=k
D.F.2=n-k-1
n:
k:
SSRegression / k
SSError / (nk1)
folgt F Verteilung
Anzahl der unabhängigen Variablen k
Stichprobenumfang abzüglich Anzahl unabhängiger
Variablen abzüglich Eins.
Stichprobenumfang
Anzahl der unabhängigen Variablen (geschätzten
Steigungskoeffizienten)
Ist der empirische F-Wert größer oder gleich dem kritischen F-Wert bei D.F.1 respektive D.F.2 Freiheitsgeraden, so muss die Nullhypothese mit der gewählten Irrtumswahrscheinlichkeit . verworfen werden. D.h., die Gesamtheit der Prädiktoren "erklärt" in statistisch signifikantem Ausmaße die
Variation des endogenen Merkmals. Üblicherweise wird die F-Verteilung für die Sicherheitsniveaus
von 95 und 99 % tabelliert. Dies entspricht einer Irrtumswahrscheinlichkeit von 5 bzw. 1 % .
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
25
Partieller F-Test:
Anwendung für eine hierarchische Folge von Regressionsmodellen, für die gilt:
M1 G M2,, d.h., M1 ist eine echte Teilmenge von M2
Beispiel:
M1:
M2:
Nullhypothese:
X1,X2
X1,X2,X3,X4
Die in M2 im Vergleich zu M1 zusätzlich enthaltenen Prädiktoren
X3 und X4 üben keinen statistisch bedeutsamen Einfluss auf Y aus.
H0: b3 b4 0
oder alternativ:
2
2
2
H0: RM2 RM1 û RM2 , M1 0
Partieller FTest(D.F.1;D.F.2) û SSRegression ( M
1 , M2 )
/ûk
SS Error ( M ) / (nk1)( M
2
2)
2
, wobei
û RM2 , M1 / û k
( 1R
D.F.1:
D.F.2:
ûk:
n:
k M 2:
2
M2 )
/ ( nkM 1 )
folgt F Verteilung
2
Differenz der Anzahl unabhängiger Variablen in M2 und M1
Stichprobenumfang abzüglich Anzahl unabhängiger Variablen von M 2 abzüglich Eins.
Differenz der Anzahl der Steigungskoeffizienten in M 2 und
M1
Stichprobenumfang
Anzahl der Steigungskoeffizienten von M 2
Ist der empirische partielle F-Wert größer oder gleich dem kritischen F-Wert bei D.F.1 respektive
D.F.2 -Freiheitsgeraden, so muss die Nullhypothese mit der gewählten Irrtumswahrscheinlichkeit
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
26
verworfen werden. D.h., die Gesamtheit der neu einbezogenen Prädiktoren "erklärt" zusätzlich in
statistisch signifikantem Ausmaße die Variation des endogenen Merkmals.
T-Test
Nullhypothese H0 : bX = 0
Schätzer bH
0
T-Test(D.F.) = Standardfehler bx - 0
S.E.b
x
folgt T - Verteilung
, wobei sich die zugehörigen Freiheitsgrade (D.F.) aus der Differenz von Stichprobenumfang minus
2 (n-2) ergeben.
Ist der empirische Testwert mindestens so groß wir der zum gewählten Signifikanzniveau . gehörende
kritische T-Wert(D.F.), so übt das betrachtete Merkmal einen statistisch signifikanten Einfluss aus. Als
"Daumenregel" gilt hierbei, dass der Parameter mindestens 1,96mal so groß wie sein Standardfehler
sein muss, damit er das übliche Signifikanzniveau . von 5% erreicht.
Schätzung des Standardfehlers des unstandardisierten Regressionskoeffizienten b im
bivariaten Regressionsmodell:
ˆ (b)
Standardfehlerb Varianz
n
( yi ŷi )2
i
1
n2
n
( X i x )2
i
1
Standardfehler der Regression
VariationX
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
27
Schätzung des Standardfehlers der Regressionskonstante a (b0) bei der bivariaten
Regression:
ˆ (a)
Standardfehler a Varianz
n
( yi ŷi )2
i 1
(n2)
x̄x 2
1
n
n
(xi xx )2
( n 1 ) i 1
(n1)
n
( yi ŷi )2
i 1
(n2)
1
n
x̄x 2
n
( x i x x )2
i 1
Abkürzung:
n:
Stichprobenumfang
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
28
Schätzung des Standardfehlers der partiellen Steigungskoeffizienten b1 und b2 des
multiplen linearen Regressionsmodells mit zwei unabhängigen Variablen X1 und X2:
Standardfehler b
YX1.X2
ˆ (b
Varianz
YX .X )
1
2
n
( yi ŷi )2
n
i 1
n k 1
( X1 x1 )2 (1 r 2X
i 1
n
i 1
( yi ŷi )2 / ( n k 1 )
i
1 , X2
n
)
( X1 x1 )2 (1 r 2X
i 1
i
1 , X2
)
Standardfehler der Regression
VariationX ( 1 r 2X
1
Standardfehler b
YX2.X1
1 , X2
)
ˆ (b
Varianz
YX .X )
2
1
n
( yi ŷi )2
n
i 1
n k 1
( X2 x2 )2 (1 r 2X
i
1 , X2
)
Standardfehler der Regression
VariationX ( 1 r 2X
2
i 1
n
i 1
( yi ŷi )2 / ( n k 1 )
1 , X2
)
n
( X2 x2 )2 (1 r 2X
i 1
i
1 , X2
)
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
7.
WS 2002/2003
-
29
Maße der “praktischen Signifikanz”:
Der Determinationskoeffizient als Maß der Proportionalen Fehlerreduktion:
n
R 1 2
(yiŷ)2
i
1
n
(yiȳ)
1 2
SSErrors
SSTotal
i
1
SSRegression
SSTotal
[0;1]
Korrektur des R² im Hinblick auf die Größe des Stichprobenumfangs und der Anzahl
exogener Merkmale:
Adjustiertes R 2 1 n:
k:
Stichprobenumfang
Anzahl der unabhängigen Variablen
(n1)
× 1R 2
(nk)
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
8.
WS 2002/2003
-
30
Strategien des Testens beim Regressionsmodell:
Partielles R²:
In einer hierarchischen Modellfolge M1 G M2 lassen sich die vorgestellten Bestimmtheitsmaße
ebenfalls partiell zerlegen. Dies bedeutet, dass die Differenz der Determinationskoeffizienten zweier
hierarchischer Modelle M1 und M2 dem Anteil praktischer Signifikanz entspricht, der auf die nicht in
M1 enthaltenen Prädiktoren von M2 entfällt.
û R 2(K) R 2(M
2
mit K)
R 2(M
1
ohne K)
, wobei K das im Teilmodell M1 nicht enthaltene exogene Merkmal symbolisiert.
Teststrategien:
1.
Hierarchischer Modelltest
Vom Nullmodell ausgehend, wird das zu schätzende Regressionsmodell jeweils um eine Variable
erweitert. Die Zunahme des Bestimmtheitsmaßes wird dieser Variablen gutgeschrieben.
Problem der hierarchischen Modelltests:
Beim hierarchischen Modelltest wird die Interkorrelation der unabhängigen Variablen der zuvor
getesteten Modelle mit denjenigen der nachfolgenden nicht kontrolliert.
2.
Partieller Modelltest
Mit dem saturierten Modell, das alle unabhängigen Variablen enthält, wird jeweils ein Regressionsmodell verglichen, das bis auf eine ausgeschlossene Variable jeweils alle anderen unabhängigen
Variablen enthält. Die Verschlechterung der Modellanpassung wird dann der ausgeschlossenen
Variablen zu geschrieben.
Problem des partiellen Modelltests:
Beim partiellen Modelltest wird zwar die Interkorrelation aller unabhängigen Variablen kontrolliert,
die Summe der partiellen R² entspricht aber nicht dem Determinationskoeffizienten des Gesamtmodells. Die Differenz entspricht dem gemeinsamen Effekt der betrachteten unabhängigen Merkmale im
Sinne ihrer Interaktion.
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV
WS 2002/2003
-
31

Einführung in die Grundlagen der Regressionsanalyse

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können