Bivariate lineare Regression

Werbung
Bivariate lineare Regression
Statistik für SozialwissenschaftlerInnen II – p.154
Grundidee und Typen der Regression
Die Regressionsanalyse dient zur Quantifizierung des Zusammenhangs und
der statistisch kausalen Verbindung zwischen metrischen Variablen.
• Grundidee der Regression: Die Ausprägung abhängigen Variablen
lässt sich durch eine mathematische Funktion der unabhängige(n)
Variablen ausdrücken:
y = f (x)
Allgemein lassen sich zwei Grundtypen der Regression unterscheiden:
• Die lineare Regression, bei der ein linearer Zusammenhang unterstellt
wird:
y =a+b∗x
• Die nicht-lineare Regression, bei der nicht-lineare (z.b.
gemischt-quadratische) Funktionen zur Beschreibung des
Zusammenhangs genutzt werden.
Statistik für SozialwissenschaftlerInnen II – p.155
Beispiel: Regressionsgerade
54
52
CDU: Anteil an gueltigen Stimmen
50
48
46
44
42
40
38
36
30
40
50
60
70
80
90
100
Katholiken'87: Anteil an Bevoelkerung
Zusammenhang zwischen CDU-Wähleranteil und Katholikenrate
(Rheinland-Pfalz)
yb = 33, 305 + 0, 194 ∗ x
Statistik für SozialwissenschaftlerInnen II – p.156
Interpretation der Koeffizienten
•
Die Konstante a
Entspricht mathematisch dem y -Achsenabschnitt. Sie
kann beliebige Werte annehmen und lässt sich als
unabhängiger, konstanter“ Grundwert interpretieren.
”
•
Der Regressionskoeffizient b
Entspricht mathematisch der Steigung der Geraden und
kann zwischen −∞ und +∞ schwanken. 0“ bedeutet
”
keinen Einfluss der Unabhängigen, negative Werte einen
negativen Einfluss und positive Werte einen positiven
Einfluss
Statistik für SozialwissenschaftlerInnen II – p.157
Beispiel: Schätzfehler
Wie hoch schätzen wir das Wahlergebnis im WK
Kaiserslautern? Der Katholikenanteil liegt bei 34,89 %.
• Schätzung des Wahlergebnisses:
33, 305 + 0, 194 ∗ 34, 89 = 40, 06
Schätzwert: yb = 40, 06 %
• Tatsächlicher Anteil der CDU in Kaiserslautern:
y = 37, 68
• Schätzfehler (Residuum): e = −2, 38
•
Statistik für SozialwissenschaftlerInnen II – p.158
Schätzfehler – Residuen
Wie das Beispiel des WK Kaiserslauern zeigt, kann es bei der
Schätzung von y -Werten anhand einer Regression zu Fehlern
kommen.
• Nahezu alle Schätzungen sind mit Fehlern behaftet
• Je stärker die empirische Verteilung der y -Werte von
einer Geraden abweicht, desto größer ist die (quadrierte)
Summe der Residuen
• Legt man eine Gerade durch einen Punkteschwarm, gibt
es Geraden, die den Punkteschwarm besser (geringe
Residuen) oder auch schlechter (hohe Residuen)
repräsentieren
• Berechnung der Residuen:
e = yi − ybi
Statistik für SozialwissenschaftlerInnen II – p.159
Die Ermittlung der Regressionsgeraden
Üblicherweise ist die Regressionsgerade, also die Werte für a
und b, unbekannt und soll anhand der Daten geschätzt
werden.
• Kriterium für die Schätzung der Regressionsgeraden:
Möglichst geringe Schätzfehler
• Gesucht ist also die Gerade, zu der alle Punkte den
geringstmöglichen (quadrierten) Abstand besitzen
• Methode der kleinsten Quadrate“:
”
n
X
(yi − ybi )2 = min!
i=1
Statistik für SozialwissenschaftlerInnen II – p.160
Berechnung der Regressionskoeffizienten
Durch partielles Ableiten der Gleichung nach a und b kann
berechnet werden, welche Werte von a und b die Beziehung
(y − yb)2 minimieren. Es ergeben sich folgende
Berechnungsformeln:
a = ȳ − b ∗ x̄
sxy
Kovarianz xy
b= 2 =
sx
Varianz x
mit
sxy =
s2x =
1
n−1
1
n−1
n
X
(xi − x̄)(yi − ȳ)
i=1
n
X
(xi − x̄)2
i=1
Statistik für SozialwissenschaftlerInnen II – p.161
Beispiel: Regressionskoeffizienten
Wahlkreis
Neuwied
Ahrweiler
Koblenz
Cochem
Kreuznach
Bitburg
Trier
Montabaur
Mainz
Worms
Frankenthal
Ludwigshafen
Neustadt - Sp
Kaiserslautern
Pirmasens
Südpfalz
P
x
y
xi − x̄
55,55
81,99
73,14
70,78
32,6
91,4
87,97
50,76
51,36
32,81
31,98
38,01
45,61
34,89
45,98
55,07
44,21
50,13
46,6
50,94
39,1
52,68
44,82
43,42
40,86
37,99
39,71
40,86
46,48
37,68
42,79
45,09
0,56
27
18,15
15,79
−22,39
36,41
32,98
−4,23
−3,63
−22,18
−23,01
−16,98
−9,38
−20,1
−9,01
0,08
879,9
x̄ = 54, 99
703,36
ȳ = 43, 96
(xi − x̄)2
yi − ȳ
0,31
729
329,42
249,32
501,31
1325,68
1087,68
17,89
13,18
491,95
529,46
288,32
87,98
404,01
81,18
0,01
0,25
6,17
2,64
6,98
−4,86
8,72
0,86
−0,54
−3,1
−5,97
−4,25
−3,1
2,52
−6,28
−1,17
1,13
6136,72
a = ȳ − b ∗ x̄ = 43, 96 − 0, 194 ∗ 54, 99 = 33, 29
1189,14/15
sxy
b = s2x = 6136,72/15 = 0, 194
(xi − x̄) ∗ (yi − ȳ)
0,14
166,59
47,92
110,21
108,82
317,50
28,36
2,28
11,25
132,41
97,79
52,64
−23,64
126,23
10,54
0,09
1189,14
Statistik für SozialwissenschaftlerInnen II – p.162
Der Determinationskoeffizient R
2
• Gibt Auskunft darüber, wwelcher Anteil der Streuung der abhängigen
Variable durch die Regression erklärt wird
• Ausgangspunkt ist eine Varianzanalyse:
SAQges = SAQerklärt + SAQunerklärt
• Die erklärte Streuung ist die Abweichung der Schätzwerte vom
Mittelwert, die nicht-erklärte Streuung die Abweichung der
empirischen Werte von den Schätzwerten:
X
2
(yi − ȳ) =
X
2
(b
yi − ȳ) +
X
(yi − ybi )2
• R2 ist das Verhältnis der erklärten Streuung zur Gesamtstreuung:
n
X
erklärte Streuung
= i=1
R =
n
X
Gesamtstreuung
2
(b
yi − ȳ)2
(yi − ȳ)2
i=1
Statistik für SozialwissenschaftlerInnen II – p.163
Beispiel R
Wahlkreis
Neuwied
Ahrweiler
Koblenz
Cochem
Kreuznach
Bitburg
Trier
Montabaur
Mainz
Worms
Frankenthal
Ludwigshafen
Neustadt - Sp
Kaiserslautern
Pirmasens
Südpfalz
P
R2 =
yi
(yi − ȳ)
(yi − ȳ)2
44,21
50,13
46,6
50,94
39,1
52,68
44,82
43,42
40,86
37,99
39,71
40,86
46,48
37,68
42,79
45,09
0,25
6,17
2,64
6,98
−4,86
8,72
0,86
−0,54
−3,1
−5,97
−4,25
−3,1
2,52
−6,28
−1,17
1,13
0,06
38,07
6,97
48,72
23,62
76,04
0,74
0,29
9,61
35,64
18,06
9,61
6,35
39,44
1,37
1,28
703,36
43,96
Pn
2
(b
y
i −ȳ)
i=1
Pn
2
i=1 (yi −ȳ)
=
315,87
230,40
315,87
2
y
bi
44,07
49,19
47,48
47,02
39,62
51,01
50,35
43,14
43,26
39,66
39,50
40,67
42,14
40,06
42,21
43,98
(b
yi − ȳ)
(b
yi − ȳ)2
0,11
5,23
3,52
3,06
−4,34
7,05
6,39
−0,82
−0,70
−4,30
−4,46
−3,29
−1,82
−3,90
−1,75
0,02
0,01
27,36
12,36
9,36
18,83
49,77
40,83
0,67
0,50
18,47
19,88
10,83
3,30
15,17
3,05
0,00
230,40
= 0, 73
Statistik für SozialwissenschaftlerInnen II – p.164
Signifikanztest der Regression
• Überprüft, ob sich der Regressionskoeffizient β in der
Grundgesamtheit von 0 unterscheidet:
H0 : β = 0 ; H1 : β 6= 0 (ungerichtet)
H0 : β ≤ 0 ; H1 : β > 0 (positiv gerichtet)
• Die Hypothese wird mit folgender t-Verteilter Prüfgröße berechnet
(mit k =Anzahl der unabhängigen Variablen; hier 1):
temp
b
=
mit df = n − k − 1
sb
• wobei der Standardfehler des Regressionskoeffizienten sb
v P
u
n
y i )2
u
i=1 (yi −b
t
sb = Pn n−2
2
i=1 (xi − x̄)
Statistik für SozialwissenschaftlerInnen II – p.165
Beispiel Signifikanztest
Hypothese: Je höher der Anteil der Katholiken in einerm Landkreis, desto
besser das Wahlergebnis der CDU.
H1 : β > 0 ; H0 : β ≤ 0
Berechnung von temp :
t=
b
sb
Alle zur Werte, die zur Berechnung des Standardfehlers notwendig sind,
wurden bereits berechnet:
v P
s
u
n
2
(y
−b
y
)
i
i
230,40
u
i=1
t P n−2
14
= 0, 00518
=
sb =
n
2
6136, 72
i=1 (xi − x̄)
und damit temp = 0,194/0,00518 = 37, 45
Da tkrit = 1, 76 und temp > tkrit , kann die H0 verworfen werden.
Statistik für SozialwissenschaftlerInnen II – p.166
Herunterladen