Stichprobenmodell der linearen Einfachregression

Werbung
Stichprobenmodell der linearen
Einfachregression
¾Stichprobenmodell der linearen Einfachregression
¾Verteilung der Stichprobenkoeffizienten
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
1
Bibliografie:
¾
Prof. Dr. Kück
Universität Rostock
Statistik, Vorlesungsskript. Abschnitt 8.4.1 und 8.4.2
¾
Bleymüller / Gehlert / Gülicher
Verlag Vahlen 2004
Statistik für Wirtschaftswissenschaftler
¾
http://www.wiwi.uni-rostock.de/~stat/download.htm
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
2
1
Lineare Einfachregression
-Beschreibendes ModellGrundgesamtheit
(xi, yi)
i=1, . . . , N
KQ - Regressionskoeffizienten
N
b1 =
N
N
N
∑x ∑y −∑x ∑x y
i =1
2
i
i =1
i
i =1
i
i =1
⎛ N ⎞
N ∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
N
i
N
i
b2 =
2
N
N
i =1
i =1
N ∑ xi y i − ∑ xi ∑ y i
i =1
⎛ N ⎞
N ∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
2
Bei einer per Annahme fest umrissenen Gesamtheit interessiert nur die Beschreibung des
Zusammenhanges zwischen den Merkmalen X und Y für diese definierte Gesamtheit.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
3
Lineare Einfachregression
-StichprobenmodellGrundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n<N
Bei einer als Stichprobe gewonnenen Teilgesamtheit interessiert bei der Untersuchung
eines linearen einfachen Zusammenhanges, ob dieser generell, d. h. auch in der
übergeordneten Grundgesamtheit, existiert. Die Regressionskoeffizienten β1 und β2
sind feste Parameter der Grundgesamtheit. Sie lassen sich mit Hilfe von Stichproben
schätzen. Statistische Tests der Parameterwerte sind auch durchzuführen.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
4
2
Zufälliger Charakter des Merkmals Y
beim Stichprobenmodell
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n<N
Nehmen wir an, dass zwischen den Merkmalen X und Y in der Grundgesamtheit ein
perfekter linearer Zusammenhang besteht. Die bivariate Verteilung (X, Y) wird an
bestimmten festen Stellen xi (i=1, 2, . . . , p) des Merkmals X beobachtet, d. h. X wäre in
diesem Zusammenhang keine Zufallsvariable. Denkbar ist, dass in einer Stichprobenziehung zwischen dem beobachteten Wert yi und dem theoretischen Wert y‘i an der
Stelle xi eine bestimmte zufällige Abweichung ui auftritt. Die Werte ui und damit die
Werte yi können als Realisationen der Zufallsvariablen Ui (Störvariable) bzw. Yi (zu
erklärende Variable) angesehen werden. Die Verteilung der Zufallsvariablen Yi hängt je i
von der Verteilung der Störvariablen Ui ab. Man schreibt:
Yi = β 1 + β 2 x i +
U
{i
142 4
3
systematis che
Komponente
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
zufällige
Komponente
5
Lineare Einfachregression
Beschreibendes Modell
Grundgesamtheit
(Gesamtheit)
(xi, yi)
i=1, . . . , N
Stichprobenmodell
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n<N
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
6
3
Beispiel: Lineare Einfachregression
- Beschreibendes ModellPreis [Euro]
120000
Grundgesamtheit
(250 Fahrzeuge)
(Leistung, Preis)
100000
yˆ i = b1 + b2 ⋅ xi
80000
60000
40000
20000
Beobachtet
N
b1 =
b2 =
N
N
N
∑x ∑y −∑x ∑x y
2
i
i =1
i =1
i
i =1
i
i
i =1
⎛ N ⎞
N ∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
N
N
N
N
i =1
i =1
i =1
⎛ N ⎞
N ∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
2
Linear
0
i
100
200
300
400
Leistung [PS]
= −5311,03
2
N ∑ xi y i − ∑ xi ∑ y i
n
0
yˆ i = -5311,03 + 216,03 ⋅ xi
r 2 = 0,839
n
= 216,03
r2 = B = 1−
SQR
= 1−
SQT
∑(y
i =1
n
i
− yˆ i )²
∑ ( yi − y )²
= 0,839
i =1
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
7
Regression III
Beispiel: Lineare Einfachregression
- StichprobenmodellPreis [Euro]
Grundgesamtheit
(Alle Fahrzeuge)
120000
100000
80000
Zufallsstichprobe
250 Fahrzeuge
60000
40000
20000
Beobachtet
Linear
0
0
100
200
300
400
Leistung [PS]
Yi = β 1 + β 2 ⋅ xi + U i
βˆ1 = b1 = −5311,03
y = E (Y / xi ) = β 1 + β 2 ⋅ xi
'
i
βˆ 2 = b2 = 216,03
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
yˆ i' = -5311,03 + 216,03 ⋅ xi
ρˆ 2 = r 2 = 0,839
Regression III
8
4
Beispiel: Lineare Einfachregression
- Beschreibendes und StichprobenmodellBeschreibendes Modell
Preis [Euro]
yˆ i = b1 + b2 ⋅ xi
120000
100000
Grundgesamtheit
(250 Fahrzeuge)
(Leistung, Preis)
80000
yˆ i = -5311,03 + 216,03 ⋅ xi
60000
40000
20000
Beobachtet
Linear
0
0
100
200
300
r 2 = 0,839
400
Leistung [PS]
Stichprobenmodell
Yi = β 1 + β 2 ⋅ xi + U i
Grundgesamtheit
(Alle Fahrzeuge)
?Schätzung der
Parameter?
yi' = E (Y / xi ) = β 1 + β 2 ⋅ xi
βˆ1 = b1 = −5311,03
Zufallsstichprobe
250 Fahrzeuge
βˆ 2 = b2 = 216,03
ρˆ 2 = r 2 = 0,839
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
9
Regression III
Annahmen des einfachen
linearen Stichprobenmodells
Yi = β 1 + β 2 ⋅ xi + U i
Stichprobenmodell
E (Yi ) = β 1 + β 2 xi
Annahme 1:
E (U i ) = 0
Annahme 2:
Var (U i ) = σ U2
Annahme 3:
Cov (U i , U j ) = 0
Annahme 4:
U i ~ N (0, σ U2 )
Für alle i
Annahme 5:
Cov ( X , U i ) = 0
Für alle i
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Für alle i
Gleichheit der Varianzen,
Homoskedastizität
Für alle i und alle j
mit i≠j
Regression III
Für alle i
Die Störvariablen sollen
unkorreliert bzw. unabhängig
von einander sein
Die Störvariablen sollen
normalverteilt sein.
Die Variable X und die Störvariablen
sollen unkorreliert sein.
10
5
Auswirkung der Annahme 1
Yi = β 1 + β 2 ⋅ xi + U i
Annahme 1:
Stichprobenmodell
E (U i ) = 0
y i' = E (Yi / xi ) = β 1 + β 2 xi
Für alle i
Inhaltlich bedeutet diese Voraussetzung, dass das mittlere Niveau der Variablen Y
bei einem fest vorgegebenen Wert der Variablen X nur durch die
Regressionsfunktion und die darin enthaltene erklärende Variable X bestimmt ist.
Die anderen Einflüsse auf die Variable Y, die in der zufälligen Störvariablen Ui
enthalten sind, werden bei der Mittelung ausgeschaltet.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
11
Auswirkung der Annahme 2
Yi = β 1 + β 2 ⋅ xi + U i
Annahme 2:
Stichprobenmodell
Var (U i ) = σ U2
Für alle i
Diese Eigenschaft der Störvariablen U wird als Homoskedastizität bezeichnet. Sie
unterstellt, dass die aufgrund des zufälligen Charakters in der Störvariablen
(noch) enthaltenen Verursachungsfaktoren von Beobachtungsobjekt zu
Beobachtungsobjekt in gleicher Weise wirken.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
12
6
Auswirkung der Annahme 3
Yi = β 1 + β 2 ⋅ xi + U i
Stichprobenmodell
Cov (U i , U j ) = 0
Annahme 3:
Für alle i und alle j mit i≠j
Die Störvariablen Ui und Uj auf verschiedenem Niveau der Variablen X sollen
nicht miteinander korreliert sein. Sie sollen im wahrscheinlichkeitstheoretischen
Sinne voneinander unabhängig sein.
f (u i , u j ) = f U i (u i ) ⋅ f U j (u j )
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
13
Regression III
Auswirkung der Annahme 4
Yi = β 1 + β 2 ⋅ xi + U i
Annahme 4:
Stichprobenmodell
U i ~ N (0, σ U2 )
Yi ~ N ( β 1 + β 2 xi , σ U2 )
Für alle i
Die Störvariablen sollen normalverteilt sein. Diese Voraussetzung unterstellt, dass die
Störvariable U keine wesentlichen Einflussfaktoren auf die Variable Y enthält, sondern
eine Vielzahl von unbedeutenden, nicht korrelierten Zufallseinflüssen. Diese Annahme
bedeutet aufgrund des Beziehungsgefüges zwischen den Variablen gleichzeitig, dass
die Zufallsvariablen Y1, . . . , Yn normalverteilt sind. Solche Verteilungsannahmen
werden für Intervallschätzungen und Tests benötigt.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
14
7
Auswirkung der Annahme 5
Yi = β 1 + β 2 ⋅ xi + U i
Annahme 5:
Stichprobenmodell
Cov ( X , U i ) = 0
Für alle i
Die erklärende Variable X soll nicht mit der Störvariablen U korreliert sein.
In dieser Voraussetzung kommt auch zum Ausdruck, dass die Variable X die
Variable Y erklärt, aber nicht umgekehrt. Es wird also eine einseitige
Abhängigkeit der Variablen Y von der Variablen X vorausgesetzt.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
15
Veranschaulichung des
Annahmenkomplexes
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
16
8
KQ-Schätzungen der Regressionskoeffizienten
für eine konkrete Stichprobe
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n
βˆ1 = b1 =
n
n
n
∑x ∑y −∑x ∑x y
2
i
i =1
i =1
i
i =1
i
i =1
2
i
i
n
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
βˆ 2 = b2 =
n<N
n
n
n∑ xi y i − ∑ xi ∑ y i
i =1
i =1
i =1
⎛
⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
n
2
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
17
KQ-Schätzungen der Regressionskoeffizienten
für eine 2. konkrete Stichprobe
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n
βˆ1 = b1 =
n
n
n
∑x ∑y −∑x ∑x y
2
i
i =1
i =1
i
i =1
i
i =1
2
i
i
n
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
βˆ 2 = b2 =
n<N
n
n
i =1
i =1
n∑ xi y i − ∑ xi ∑ y i
i =1
⎛ n ⎞
n∑ x − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
2
2
i
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
18
9
KQ-Schätzer der Regressionskoeffizienten
als Stichprobenfunktionen
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n
n
n<N
n
n
∑ x ∑Y − ∑ x ∑ x Y
βˆ1 = B1 =
2
i
i =1
i =1
i
i =1
i
i =1
2
i i
n
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
βˆ 2 = B2 =
n
n
n
i =1
i =1
i =1
n∑ xi Yi − ∑ xi ∑ Yi
n
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
2
Die Schätzer B1 und B2 der wahren Regressionskoeffizienten können als Stichprobenfunktionen
(Zufallsvariablen) betrachtet werden. Die Schätzungen
b1 und b2 für jede konkrete ausgewählte Stichprobe sind
Realisationen dieser Zufallsvariablen.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
19
Regression III
Aufgabenstellung bei der
Stichprobenregression
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
Yi = β1 + β2 x i +
1424
3
systematische
Komponente
n<N
U
{i
zufällige
Komponente
¾ Verteilung von Regressions- und Korrelationskoeffizienten,
¾ Vertrauensgrenzen von Regressions- und Korrelationskoeffizienten
¾ Vertrauensgrenzen der Regresswerte,
¾ Vertrauensgrenzen einer einzelnen Beobachtung für das Merkmal Y,
¾ Statistische Prüfung von Korrelationskoeffizienten
¾ Statistische Prüfung des Bestimmtheitsmaßes
¾ Statistische Prüfung von Regressionsparametern
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Regression III
20
10
Eigenschaften der Stichprobenkoeffizienten
bei linearer Einfachregression
Grundgesamtheit i=1, . . . , N
Yi = β 1 + β 2 xi + U i
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
KQ - Regressionskoeffizienten
n
βˆ1 = B1 =
n
n
n
∑ x ∑Y − ∑ x ∑ x Y
i =1
2
i
i =1
i
i =1
i
i =1
2
i i
βˆ 2 = B2 =
n
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
n
n
i =1
i =1
i =1
n∑ xi Yi − ∑ xi ∑ Yi
n
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
2
1. Erwartungstreu:
E ( B j / xi ) = E ( B j ) = β j
2. Effizient:
E ( B j − β j ) 2 ≤ E ( B *j − β j ) 2
3. Konsistent:
1.
2.
lim [ E ( B
n→∞
j
lim Var ( B
n→∞
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
n<N
)− βj]= 0
j
)=
lim
n→∞
Für j=1, 2
Für jedes andere B*j
Asymptotisch unverzerrt
E(B j − β j ) 2 = 0
Asymptotisch effizient
21
Regression III
Verteilung der Stichprobenkoeffizienten
bei bekannten Varianzen
Bei Erfüllung der Annahmen über die Störvariable U sind die Schätzer der Regressionskoeffizienten des Stichprobenmodells als Stichprobenfunktionen normalverteilt mit dem
Erwartungswert βj und der Varianz σ²Bj. Sind die Varianzen σ²Bj bekannt, dann gelten:
B j ~ N ( β j , σ B2 j )
KQ - Regressionskoeffizienten
βˆ 2 = B2
βˆ1 = B1
Z=
0,5
U i ~ N (0, σ )
0,4
E (U i ) = 0 Var (U i ) = σ U2
0,2
2
U
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
σB
~ N(0, 1)
j
Für j=1, 2
Annahmen
Cov (U i , U j ) = 0
Bj − β j
fN(z)
0,3
0,1
0
-4
-3
-2
Regression III
-1
0
1
2
3
z
4
22
11
Verteilung der Stichprobenkoeffizienten
bei unbekannten Varianzen
Bei Erfüllung der Annahmen über die Störvariable U und unbekannten Varianzen σ²Bj der
Schätzer der Regressionskoeffizienten des Stichprobenmodells gelten:
KQ - Regressionskoeffizienten
βˆ1 = B1
βˆ 2 = B2
t=
B j ~ N( β j , σ B2 j )
Bj − β j
sBj
Für j=1, 2
n
∑x
Annahmen
U i ~ N(0, σ U2 )
σˆ
2
B1
=s
2
B1
=
i =1
2
i
n
n∑ ( xi − x )²
i =1
E (U i ) = 0 Var (U i ) = σ U2
mit
s E2 =
Cov(U i , U j ) = 0
=
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
~ t (n -2)
Regression III
s
2
E
σˆ B2 = s B2 =
2
12
s E2
n
∑ (x
i =1
i
− x )²
1 n 2
1 n
ei =
∑
∑ ( yi − yˆ i )²
n − 2 i =1
n − 2 i =1
n
n
1 ⎡ n
⎤
y i − b1 ∑ y i − b2 ∑ xi y i ⎥
∑
⎢
n − 2 ⎣ i =1
i =1
i =1
⎦
23
12
Herunterladen