pi04_6

Werbung
Statistik: 10.3.04
Mehr zur Regression
Beispiel: Wohnungsmarkt
Für 16 Angebote von Eigentumswohnungen wurden
registriert:


Fläche der Wohnung (m2)
Angebotspreis (1000 EUR)
Fläche
122
71
125
45
100
63
194
85
Preis
530
410
480
170
315
455
885
400
Fläche
164
119
140
109
40
62
84
65
Preis
900
550
790
810
390
440
300
385
10.3.04
PI Statistik, SS 2004 (6)
2
Lineare Regression
Gerade, die die Datenwolke im Streudiagramm bzw.
die Beziehung zwischen den dargestellten Merkmalen
möglichst gut repräsentiert
1000
800
Preis (1000 EUR)
Wohnungsmarkt:
Daten und
Regressionsgerade
600
400
200
0
0
50
100
150
200
250
Fläche (m2)
10.3.04
PI Statistik, SS 2004 (6)
3
Regression in EXCEL:
Ausgabe: Zusammenfassung
Regressions-Statistik
Multipler Korrelationskoeffizient
0,826
Bestimmtheitsmaß
0,682
Adj. Bestimmtheitsmaß
0,659
Standardfehler
128,12
Beobachtungen
16
Koeffizi
enten
Standard
fehler
t-Statistik
P-Wert
Schnittpunkt
97,59
82,39
1,18
0,256
X Variable 1
4,19
0,76
5,47
8,2E-05
10.3.04
PI Statistik, SS 2004 (6)
4
Regression
Schätzen und Bewerten
Schätzen der Koeffizienten: Methode der
kleinsten Quadrate
Bewerten der erhaltenen Regressionsbeziehung
Anwenden der Kriterien
 Bestimmtheitsmaß
 t-Statistik
Analyse der Residuen
10.3.04
PI Statistik, SS 2004 (6)
5
Modell: lineare Regression
Y: Abhängiges Merkmal, endogene Variable
X: Unabhängiges Merkmal, exogene Variable
einfaches lineares Regressionsmodell (statisches
Modell)
Yi  a  bX i  ui
b: Koeffizient von X
a: Interzept
u: Zufallsfehler, Störgröße, Störterm, „Noise“
Yt  b1  b2 X 2t  b3 X 3t  ...  bk X kt  ut
10.3.04
PI Statistik, SS 2004 (6)
6
Dynamische Modelle
einfaches dynamisches Modell
Yt  a  bX t 1  ut
autoregressives (AR-)Modell
Yt  a  bYt 1  ut
allgemeines dynamisches Modell
Yt  b1  Yt 1  b2 X 2t  ...  bk X kt  ut
ADL-Modell
Yt  b1  Yt 1  b2 X t  b3 X t 1  ut
10.3.04
PI Statistik, SS 2004 (6)
7
Mehrgleichungsmodelle
Mit gemeinsamen Regressoren
Y1t  b1  b2 X1t  b3 X 2t  u1t
Y2t  1   2 X1t   3 X 2t  u2t
Interdependentes Mehrgleichungsmodell
Y1t  b1  b2 X1t  b3Y2t  u1t
Y2t  1   2 X1t   3 X 2t   4Y1t  u2t
10.3.04
PI Statistik, SS 2004 (6)
8
Lineare & nichtlineare Modelle
(in den Parametern) lineare Modelle
Yt  b1  b2 X t
2
Yt  b1  b2 X t  b3 X t
Nichtlineares, aber linearisierbares Modell
Qt  aL K  ln Qt  ln a  b ln Lt  c ln K t
b
t
c
t
Lineare Approximation ist oft lokal gut
brauchbar
10.3.04
PI Statistik, SS 2004 (6)
9
Prinzip der Kleinsten Quadrate
Modell:
Yi  a  bX i  ui
Beobachtungen: ( X i , Yi ) , i  1,..., n
Summe der Fehlerquadrate
n
n
S (a, b)   u   [Yi  (a  bX i )]
i 1
2
i
2
i 1
Prinzip der Kleinsten Quadrate: Minimiere
S (a, b)
unter Variation von a, b
10.3.04
PI Statistik, SS 2004 (6)
10
Normalgleichungen
partielles Ableiten von S (a, b) und Nullsetzen der
Ableitungen gibt die Normalgleichungen
an  b  i X i   i Yi
ai X i  bi X i2  i X iYi
Beachte! Die Normalgleichungen sind linear in a und b!
10.3.04
PI Statistik, SS 2004 (6)
11
Kleinste-Quadrate Schätzer
auch OLS-Schätzer (ordinary least squares)
b
mit
sxy
s
2
x
, a  Y bX
n
1
sx2   ( X i  X )2
n i 1
1 n
sxy   ( X i  X )(Yi  Y )
n i 1
10.3.04
PI Statistik, SS 2004 (6)
12
Interpretation von b
Modell:
Yi  a  bX i  ui
OLS-Anpassung ergibt
Yˆi  a  bX i
b: mittlere Änderung von Y, wenn DX = 1
10.3.04
PI Statistik, SS 2004 (6)
13
Eigenschaften von Schätzern
Wünschenswerte Eigenschaften:




10.3.04
Erwartungstreue: E{b}  b
minimale Varianz
Konsistenz
asymptotisch minimale Varianz
PI Statistik, SS 2004 (6)
14
OLS-Schätzer: Eigenschaften
Modell:
Yi  a  bX i  ui
Für die OLS-Schätzer a und b gilt:
1. Sie sind erwartungstreu
2. Ihre Varianzen
2


2
1
X
2
V (b)  2 , V (a)     2 
nsx
 n sx 
sind minimal in der Klasse der linearen erwartungstreuen Schätzer [Gauss-Markov]
 2 = V (u)
10.3.04
PI Statistik, SS 2004 (6)
15
Residuen
ei  Yi  (a  bX i )
Schätzung der Störgrößenvarianz 2
1
2
s 
e
 i
n2 i
2
e
Streuungszerlegung
10.3.04
PI Statistik, SS 2004 (6)
16
Streuungszerlegung
TSS   (Yi  Y )2
  (Yˆi  Y )2   ei2  ESS  RSS
TSS: Gesamtvariation (total sum of squares)
ESS: (durch die Regression) erklärte Variation
(explained sum of squares)
RSS: residuale oder nicht erklärte Variation
(residual sum of squares)
10.3.04
PI Statistik, SS 2004 (6)
17
Bestimmtheitsmaß
2
s
ESS
RSS
2
R 
 1
 1  e2
TSS
TSS
sy
Anteil der durch das Modell erklärten Varianz an der
Gesamtvarianz der Y
Es gilt 0 ≤ R2 ≤ 1
R2 = 0 bedeutet: Modell erklärt nichts, Yˆt  Y
R2 ist das Quadrat der Korrelation zwischen Yˆ und Y
10.3.04
PI Statistik, SS 2004 (6)
18
Adjustiertes
Bestimmtheitsmaß
2
s
n 1 e
2
R  1
2
n  k sy
k: Anzahl der Regressoren (k =2 bei einfacher
Regression)
R2 wird mit der Anzahl der Regressoren tendenziell
größer
Zum Vergleich von Modellen mit unterschiedlicher
2
Anzahl von Regressoren ist R vorzuziehen
10.3.04
PI Statistik, SS 2004 (6)
19
Bewertung von Modellen
Kriterien zum Bewerten von Regressionsbeziehungen:
t-Test
F-Test
Durbin-Watson Test
10.3.04
PI Statistik, SS 2004 (6)
20
t-Test
Bei Annahme von normalverteilten Störgrößen
gilt für den OLS-Schätzer b (k: Anzahl der Regressoren):
bi  bi
T
sb
t (n  k )
T folgt der t-Verteilung mit n-k Freiheitsgraden
Zum Test der Nullhypothese Ho: b = 0:
Berechnung des p-Wertes zu b
Die Nullhypothese Ho: b = 0 bedeutet: Die
Regressorvariable hat keinen Erklärungsbeitrag
für Y
Ähnlich der F –Test bei mehreren Regressoren
10.3.04
PI Statistik, SS 2004 (6)
21
Spezifikationstests
auch Adäquatheitstests genannt; ein Beispiel ist der
Durbin-Watson Test auf serielle Korrelation der
n
Störgrößen
2
DW 
 (e  e
i 2
i
i 1
)
n
2
e
i
i 1
10.3.04
PI Statistik, SS 2004 (6)
22
Wohnungsmarkt
Regression
Preis = a + b Fläche + u
Daten und
Regressionsgerade
1000
Preis (1000 EUR)
800
600
400
200
0
0
50
100
150
200
250
Fläche (m2)
10.3.04
PI Statistik, SS 2004 (6)
23
Regression in EXCEL:
Ausgabe: Zusammenfassung
Regressions-Statistik
Multipler Korrelationskoeffizient
0,826
Bestimmtheitsmaß
0,682
Adj. Bestimmtheitsmaß
0,659
Standardfehler
128,12
Beobachtungen
Preis = 97.59 + 4.19 Fläche
16
Koeffizi
enten
Standard
fehler
t-Statistik
P-Wert
Schnittpunkt
97,59
82,39
1,18
0,256
X Variable 1
4,19
0,76
5,47
8,2E-05
10.3.04
PI Statistik, SS 2004 (6)
24
Wohnungsmarkt,
Forts.
Geschätzte Regressionsgerade
1000
Preis (1000 EUR)
800
600
400
200
Preis = 97.59 + 4.19 Fläche
0
0
50
100
150
200
250
Fläche (m2)
10.3.04
PI Statistik, SS 2004 (6)
25
Wohnungsmarkt,
Forts.
Geschätzte Regressionsgerade
Preis = 97.59 + 4.19 Fläche
• Je m2 muss man im Durchschnitt mit Kosten von
4.19 Euro rechnen;
• dazu kommt ein fixer Betrag von im Durchschnitt
97.59 Euro
10.3.04
PI Statistik, SS 2004 (6)
26
Wohnungsmarkt,
Forts.
Fläche Kurvenanpassung
1000
Preis
800
600
Preis
400
Schätzung für Preis
200
0
0
50
100
150
200
250
Fläche
10.3.04
PI Statistik, SS 2004 (6)
27
Wohnungsmarkt
• Residuen:
Yi  (a  bX i )
• zur Beurteilung der Qualität der Erklärung der Daten
durch die Regressionsgerade, insb. des Effekts von
einzelnen Beobachtungen
10.3.04
PI Statistik, SS 2004 (6)
28
Wohnungsmarkt: Residuen
Fläche Residuenplot
300
200
Residuen
100
0
0
50
100
150
200
250
-100
-200
-300
Fläche
10.3.04
PI Statistik, SS 2004 (6)
29
Herunterladen