Bivariate Regression

Werbung
Analyse von
Querschnittsdaten
Bivariate Regression
Warum geht es in den folgenden
Sitzungen?
Datum
Kontinuierliche Variablen
Deskriptive Modelle
kategoriale Variablen
Vorlesung
18.10.2006
Einführung
18.10.2006
Beispiele
25.10.2006
Daten
08.11.2006
Variablen
15.11.2006
Bivariate Regression
22.11.2006
Kontrolle von Drittvariablen
29.11.2006
Multiple Regression
06.12.2006
Statistische Inferenz
13.12.2006
Signifikanztests I
20.12.2006
Signifikanztests II
10.01.2007
Spezifikation der unabhängigen Variablen
17.01.2007
Spezifikation der Regressionsfunktion
24.01.2007
Heteroskedastizität
31.01.2007
Regression mit Dummy-Variablen
07.02.2007
Logistische Regression
Gliederung
1. Deskriptive statistische Modelle
2. Lineare Einfachregression (bivariate
Regression)
3. Nicht-lineare Beziehungen
4. Regression und Korrelation
Zielsetzung
• Finde eine Statistik, die das Typische der
vorliegenden Daten beschreibt, so dass die
einzelnen Daten möglichst wenig von dieser
Statistik abweichen.
• einzelne Zielvariable y (unbedingte Verteilung)
– y = typisch + Rest
• Zusammenhang mit einer anderen Variablen x
(bedingte Verteilung)
– y = typisch|x + Rest
• Die Reste werden auch als Residuen r
bezeichnet, die typischen Werte auch als
Prognosen ŷ
Beispiel 1: Was ist das Typische der
folgenden Stimmenanteile der CDU?
Neuwied
Ahrweiler
Koblenz
Cochem
Bad Kreuznach
Bitburg
Trier
Montabaur
Mainz
Worms
Frankenthal
Ludwigshafen
Neustadt-Speyer
Kaiserslautern
Pirmasens
Südpfalz
44.21
50.13
46.60
50.94
39.10
52.68
44.82
43.42
40.86
37.99
39.71
40.86
46.48
37.68
42.79
45.09
• Sie betragen im Durchschnitt
43,96%.
• Die Summe der „Abweichungen“
aller Datenwerte von dieser Zahl
ist minimal.
• Anders ausgedrückt: Es gibt
keine andere Statistik, bei der die
Summe der „Abweichungen“ aller
Datenwerte kleiner ist.
• Definition Abweichung: quadrierte
Differenz (xi – 43,96)².
• Statistik: arithmetisches Mittel
Beispiel 2: Was ist das Typische der
folgenden Stimmenanteile der CDU?
Kaiserslautern
Worms
Bad Kreuznach
Frankenthal
Mainz
Ludwigshafen
Pirmasens
Montabaur
Neuwied
Trier
Südpfalz
Neustadt-Speyer
Koblenz
Ahrweiler
Cochem
Bitburg
37.68
37.99
39.10
39.71
40.86
40.86
42.79
43.42
44.21
44.82
45.09
46.48
46.60
50.13
50.94
52.68
• Die Hälfte der Wahlkreise hat
einen Stimmenanteil unter
43,815%
• Die Summe der „Abweichungen“
aller Datenwerte von dieser Zahl
ist minimal.
• Anders ausgedrückt: Es gibt
keine andere Statistik, bei der die
Summe der „Abweichungen“ aller
Datenwerte kleiner ist.
• Definition Abweichung: absolute
Differenz |xi – 43,815|.
• Statistik: Median
50
CDU-Anteil in %
45
CDU
44.21
50.13
46.60
50.94
39.10
52.68
44.82
43.42
40.86
37.99
39.71
40.86
46.48
37.68
42.79
45.09
40
Katholiken
55.55
81.99
73.14
70.78
32.60
91.40
87.97
50.76
51.36
32.81
31.98
38.01
45.61
34.89
45.98
55.07
35
Wahlkreis
Neuwied
Ahrweiler
Koblenz
Cochem
Bad Kreuznach
Bitburg
Trier
Montabaur
Mainz
Worms
Frankenthal
Ludwigshafen
Neustadt-Speyer
Kaiserslautern
Pirmasens
Südpfalz
55
Beispiel 3: Was ist je nach Katholikenanteil das Typische?
20
40
60
Katholikenanteil in %
80
100
Gliederung
1. Deskriptive statistische Modelle
2. Lineare Einfachregression (bivariate Regression)
a. Annahmen
b. Minimierungsfunktion
•
•
Kleinste-Quadrate Methode
Kleinste-Absolutwerte Methode
c. Regressionskoeffizienten
d. Determinationskoeffizient
e. Interpretation
3. Nicht-lineare Beziehungen
4. Regression und Korrelation
Annahmen
• y und x sind kontinuierliche Variablen im
mathematischen Sinne
– Wertebereich von -∞ bis +∞
– Zwischen zwei Werten a<b ist auch jeder
Zwischenwert im Intervall [a, b] möglich, sei
dieses Intervall auch noch so klein.
• Linearer Zusammenhang
– y = typisch | x + Rest = yˆ + r = β 0 + β1 x + r
– β0 und β1 heißen Regressionskoeffizienten
Minimierungsfunktion
• Berechne die typischen Werte als lineare
Funktion von x; und zwar so, dass
• Möglichkeit A:
– die Summe der quadrierten Reste minimal ist
(Kleinste-Quadrate Methode)
• Möglichkeit B:
– die Summe der Absolutwerte der Reste
minimal ist (Kleinste-Absolutwerte Methode)
A: Kleinste-Quadrate Methode (1)
• Regressionskoeffizienten, Prognosen und
Residuen errechnen sich wie folgt:
n
βˆ1 =
∑ ( x − x )( y
i
i =1
i
− y)
=
n
∑ (x − x)
i =1
βˆ0 = y − βˆ1 x
yˆ i = βˆ0 + βˆ1 xi
rˆi = yi − yˆ i
i
2
SAPyx
SAQx
Beispiel 3: Arbeitstabelle
1189,07
ˆ
β1 =
= 0,194
6136,72
βˆ = 43,96 − 0,194 ⋅ 54,99 = 33,3
0
A: Kleinste-Quadrate Methode (2)
n
• Der Determinationskoeffizient errechnet
sich wie folgt:
SST total sum of squares
SSE explained sum of squares
SSR residual sum of squares
SST = ∑ ( yi − y ) 2
i =1
n
SSE = ∑ ( yˆ i − y ) 2
i =1
n
n
i =1
i =1
SSR = ∑ ( yˆ i − yi ) 2 = ∑ rˆi
SST = SSE + SSR
SSE
SSR
= 1−
R =
SST
SST
2
2
Beispiel 3: Arbeitstabelle
SSE E.SAQ y 230,96
=
=
= 0,73
R =
315,96
SST
SAQ y
2
Output eines Statistik-Programms
SST
SSR SSE
R2
. reg cdu kathol
Source |
SS
df
MS
-------------+-----------------------------Model |
230.42425
1
230.42425
Residual | 85.4443289
14 6.10316635
-------------+-----------------------------Total | 315.868579
15 21.0579053
Number of obs
F( 1,
14)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
16
37.75
0.0000
0.7295
0.7102
2.4705
-----------------------------------------------------------------------------cdu |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------kathol |
.1937741
.0315362
6.14
0.000
.1261357
.2614125
_cons |
33.30363
1.840984
18.09
0.000
29.35512
37.25215
------------------------------------------------------------------------------
βˆ0
βˆ1
Interpretation
ˆ U = 33,3 + 0,194 ⋅ Katholiken
• CD
n = 16, R 2 = 0,729
• Es wurden Daten aus insgesamt 16 Wahlkreisen
ausgewertet.
• 73% der Variation (der Varianz) der Stimmenanteile der
CDU kann mit dem Katholikenanteil erklärt werden.
• Nimmt der Katholikenanteil um zehn Prozentpunkte zu,
erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.
• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein
sinnvoller Wert ist.
Das Typische der Daten
ˆ U = 33,3 + 0,194 ⋅ Katholiken
• CD
n = 16, R 2 = 0,729
• Es wurden Daten aus insgesamt 16 Wahlkreisen
ausgewertet.
• 73% der Variation (der Varianz) der Stimmenanteile der
CDU kann mit dem Katholikenanteil erklärt werden.
• Nimmt der Katholikenanteil um zehn Prozentpunkte zu,
erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.
• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein
sinnvoller Wert ist.
Passung (Fit) der Beschreibung
ˆ U = 33,3 + 0,194 ⋅ Katholiken
• CD
n = 16, R 2 = 0,729
• Es wurden Daten aus insgesamt 16 Wahlkreisen
ausgewertet.
• 73% der Variation (der Varianz) der Stimmenanteile der
CDU kann mit dem Katholikenanteil erklärt werden.
• Nimmt der Katholikenanteil um zehn Prozentpunkte zu,
erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.
• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein
sinnvoller Wert ist.
B: Methode der kleinsten Absolutwerte
• CDˆ U = 32,5 + 0,215 ⋅ Katholiken n = 16, R 2 = 0,5724
• Eine andere Minimierungsfunktion liefert einen
leicht veränderten Zusammenhang.
• Kleinste-Quadrate Methode wird üblicherweise
vorgezogen, weil die Kleinste-Absolutwerte
Methode Nachteile hat:
– keine analytische Lösung (iterative Berechnung
notwendig)
– inferenzstatistische Eigenschaften nicht so gut
55
Was erklärt die Unterschiede?
50
Kleinste Absolutwerte
35
40
CDU-Anteil in %
45
Kleinste Quadrate
20
40
60
Katholikenanteil in %
80
100
Gliederung
1. Deskriptive statistische Modelle
2. Lineare Einfachregression (bivariate
Regression)
3. Nicht-lineare Beziehungen
4. Regression und Korrelation
Linearität
15
y
10
5
0
0
1
2
3
4
5
4
5
x
nicht-linear: y = √(x)
1.5
y
1
.5
0
¾ Unabhängigkeit von
der Größe von x
2
2.5
• Der Effekt der
unabhängigen
Variablen x ist immer
gleich groß, egal
welchen Wert die
Variable x aufweist.
20
linear: y = 2 + 3*x
0
1
2
3
x
Beispiel 4: Absentismus
• Es werden insgesamt 12 Beschäftigte
untersucht. Folgende Variablen wurden
erhoben:
y: Anzahl der Tage, an denen die Person fehlte.
x1: (Negative) Einstellung gegenüber dem Betrieb
(1=sehr positiv, 13=sehr negativ).
x2: Beschäftigungsdauer in dem Betrieb in Jahren.
x3: Nettoeinkommen in DM.
x4: Anforderungen der ausgeübten Tätigkeit (1=niedrig,
2=schwierig).
Überprüfe Linearitätsannahme
0
5
10
2000
3000
4000
5000
15
10
Anzahl
Fehltage
5
0
10
Negative
Einstellung
zu Betrieb
5
0
10
Beschaeftigungsdauer
in Jahren
5
0
5000
4000
Nettoeinkommen
in Euro
3000
2000
10
Anforderungen
der
Taetigkeit
5
0
0
5
10
15
0
5
10
0
5
10
Lineare Einfachregressionen
Regression
R2
Konstante
Steigung
Variable x
y mit x1
0,90
-2,31
1,37
NEGATIV
y mit x2
0,79
-1,72
1,62
DAUER
y mit x3
0,92
25,20
-0,0053
EINKOMM
y mit x4
0,001
6,71
-0,08
ANFORD
0
5
Anzahl Fehltage
10
15
Nicht-linearer Zusammenhang
2
4
6
Anforderungen der Taetigkeit
8
10
Gliederung
1. Deskriptive statistische Modelle
2. Lineare Einfachregression (bivariate
Regression)
3. Nicht-lineare Beziehungen
4. Regression und Korrelation
50
CDU-Anteil in %
45
CDU
44.21
50.13
46.60
50.94
39.10
52.68
44.82
43.42
40.86
37.99
39.71
40.86
46.48
37.68
42.79
45.09
40
Katholiken
55.55
81.99
73.14
70.78
32.60
91.40
87.97
50.76
51.36
32.81
31.98
38.01
45.61
34.89
45.98
55.07
35
Wahlkreis
Neuwied
Ahrweiler
Koblenz
Cochem
Bad Kreuznach
Bitburg
Trier
Montabaur
Mainz
Worms
Frankenthal
Ludwigshafen
Neustadt-Speyer
Kaiserslautern
Pirmasens
Südpfalz
55
Noch einmal Beispiel 3
20
40
60
Katholikenanteil in %
80
100
Kovarianz
n
Cov( x, y ) =
∑ ( x − x )( y
i =1
i
n −1
i
− y)
Korrelationskoeffizient
• Kovarianz ist um so größer, je mehr die beiden Variablen
x und y streuen.
• Korrelationskoeffizient (nach Pearson) ist eine
standardisierte Kovarianz
n
∑ ( x − x )( y
i =1
Cov( x, y )
=
r=
sx ⋅ s y
i
i
− y)
n −1
n
=
n
∑ (x − x) ∑ ( y
2
i =1
i
n −1
n
i =1
i
− y)
2
∑ ( x − x )( y
i
i =1
n
i
− y)
=
n
∑ (x − x) ∑ ( y
2
i =1
i
i =1
i
− y)
2
SAPxy
SAQx ⋅ SAQ y
n −1
• Achtung: Symbol r nicht verwechseln mit Residuum r
Korrelation und bivariate Regression
r=
βˆ1 =
SAPxy
SAQx ⋅ SAQ y
SAPyx
SAQx
=
SAPyx
SAQx SAQx
⋅
SAQ y
SAQ y
SAQ y
βˆ1 =
SAPyx
SAQx SAQ y
⋅
n −1 = r sy
sx
SAQx
n −1
Korrelation und bivariate Regression
Für den Determinationskoeffizienten gilt
2
2
R =r
Zum Schluss
Literatur
• Wooldridge, J. (2003): Introductory econometrics: a
modern approach. South Western College Publishing.
– Kapitel 2 gibt eine Einführung in die lineare
Einfachregression. Allerdings beginnt Wooldridge sofort
mit inferenzstatistischen Überlegungen und unterscheidet
zwischen Grundgesamtheit und Stichprobe. Das werden
wir erst in späteren Sitzungen behandeln. Wir betrachten
Regression zunächst nur als eine Methode zur
Beschreibung von Variablenzusammenhängen. Dies
erklärt auch unsere leicht abweichende Notation (z.B.
Residuum r statt Fehlerterm u). Bitte die entsprechenden
Passagen (vor allem Abschnitt 2.5) zunächst ignorieren.
Es genügt, die Abschnitte bis einschließlich 2.3 zu lesen
(WO 22-41).
Zusammenfassung
Analyseziel
finde eine Statistik, die die Daten gut beschreibt, d.h.,
von der die Einzelwerte möglichst wenig abweichen.
Minimierungs- • Summe der Quadrate der Abweichungen
funktion
• Summe der Absolutwerte der Abweichungen
Bivariate
Analyse
mache eine möglichst gute Prognose von y für
unterschiedliche Werte von x
Lineare
Funktion
der Effekt der unabhängigen Variablen x ist immer
gleich groß, egal welchen Wert die Variable x aufweist.
Annahmen
überprüfe Annahme der Linearität durch
Streudiagramm
Regression
Regressionskoeffizienten, Determinationskoeffizient
Korrelation
ergibt sich aus Regressionskoeffizient durch
Multiplikation mit den Standardabweichungen von x
und y
Wichtige Fachausdrücke
Deutsch
Englisch
Deutsch
Englisch
Kleinste
Quadrate
(ordinary) least
squares
(OLS)
Korrelationskoeffizient
correlation
coefficient
Kleinste
Absolutwerte
least absolute
values (LAV)
Regressionskoeffizient
regression
coefficient
Determinations
-koeffizient
coefficient of
determination
Stata-Befehle
reg y x
Regression von y auf x (KleinsteQuadrate Methode)
qreg y x
Regression von y auf x (KleinsteAbsolutwerte Methode)
graph twoway scatter y x
Streudiagramm
graph twoway lfit y x
Graphik linearer Regression
graph twoway scatter y x || lfit y x beides in einer Graphik
graph matrix x1-x5
Matrix von Streudiagrammen (jede
Variable mit jeder anderen)
corr y x
Korrelation von y und x
Herunterladen