Schätzverfahren bei der linearen Einfachregression

Werbung
Schätzverfahren bei der linearen
Einfachregression
¾Konfidenzintervalle der Regressionskoeffizienten
¾Konfidenzintervalle der Prognosewerte
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
1
Regression IV
Bibliografie:
¾
Prof. Dr. Kück
Universität Rostock
Statistik, Vorlesungsskript. Abschnitt 8.3.3 und 8.3.4
¾
Bleymüller / Gehlert / Gülicher
Verlag Vahlen 2004
Statistik für Wirtschaftswissenschaftler
¾
http://www.wiwi.uni-rostock.de/~stat/download.htm
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
2
Regression IV
1
KQ-Schätzungen der Regressionskoeffizienten
bei einer linearen Einfachregression
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n
n
n<N
n
n
∑x ∑y −∑x ∑x y
βˆ1 = b1 =
2
i
i =1
i
i =1
i
i =1
i =1
2
i
i
n
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
βˆ 2 = b2 =
n
n
i =1
i =1
n∑ xi y i − ∑ xi ∑ y i
i =1
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
2
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
3
Regression IV
Beispiel: Punktschätzung der Regressionskoeffizienten bei der linearen Einfachregression
Yi = β 1 + β 2 ⋅ xi + U i
Preis [Euro]
120000
100000
yi' = E (Y / xi ) = β 1 + β 2 ⋅ xi
Grundgesamtheit
(Alle Fahrzeuge)
80000
60000
Zufallsstichprobe
250 Fahrzeuge
40000
yˆ i' = -5311,03 + 216,03 ⋅ xi
20000
Beobachtet
0
Linear
0
100
200
300
400
Leistung [PS]
Punktschätzung
n
βˆ1 = b1 =
n
n
n
∑x ∑y −∑x ∑x y
i =1
2
i
i =1
i
i =1
i
i =1
2
⎛ n ⎞
n ∑ x − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
i
n
i
= −5311,03
βˆ 2 = b2 =
2
i
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
n
n
i =1
i =1
n∑ xi y i − ∑ xi ∑ y i
i =1
⎛ n ⎞
n∑ x − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
2
= 216,03
2
i
4
Regression IV
2
KQ-Schätzer der Regressionskoeffizienten als
Stichprobenfunktionen
Preis [Euro]
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
Yi = β 1 + β 2 ⋅ xi + U i
120000
yi' = E (Y / xi ) = β 1 + β 2 ⋅ xi
100000
80000
n<N
60000
40000
n
βˆ1 = B1 =
n
i =1
i =1
i
n
i =1
i
i =1
2
n
n
n
n∑ xi Yi − ∑ xi ∑ Yi
i =1
i =1
i =1
⎛
⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
n
20000
Beobachtet
i i
⎛
⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
n
βˆ 2 = B2 =
n
∑ x ∑Y − ∑ x ∑ x Y
2
i
2
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Linear
0
0
100
200
300
400
Leistung [PS]
Die wahren Regressionskoeffizienten β1 und β2 in der
Grundgesamtheit sind unbekannt und können mittels
einer Stichprobe geschätzt werden. Für
unterschiedliche Stichproben bekommt man i. d. R.
unterschiedliche Punktschätzungen. Die Werte b1 und
b2 können als Realisationen der Zufallsvariablen B1
und B2 (Stichprobenfunktionen) angesehen werden.
5
Regression IV
Intervallschätzung
¾ Bei einer Punktschätzung erhält man für den unbekannten Parameter einen Schätzwert.
Bei jeder konkret ausgewählten Stichprobe erhält man einen entsprechenden Schätzwert
des Parameters aus der Stichprobenrealisation.
¾ Selbst wenn die Schätzfunktion „gute" Eigenschaften aufweist, ist die Wahrscheinlichkeit,
dass der Schätzwert mit dem wahren Wert des Parameters in der Grundgesamtheit
übereinstimmt, im Allgemeinen gleich Null oder sehr klein.
¾ Um diese Unzulänglichkeit abzuschwächen und um die Genauigkeit des Schätzverfahrens
einzubeziehen, geht man meist zu einer Intervallschätzung über.
¾ Mit einer Intervallschätzung wird ein unbekannter Parameter der Grundgesamtheit
derart geschätzt, dass
ƒ ein Intervall entsteht und
ƒ die Wahrscheinlichkeit dafür angegeben werden kann, dass der wahre
Parameterwert der Grundgesamtheit in diesem Intervall liegt. Diese Aussage erfolgt
unter dem Vorbehalt einer Irrtumswahrscheinlichkeit α.
ƒ Ein solches Intervall wird als Konfidenz- oder Vertrauensintervall bezeichnet.
Die Wahrscheinlichkeit w=1 - α heißt Konfidenzniveau bzw.
Aussagewahrscheinlichkeit.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
6
Regression IV
3
Verteilung der Stichprobenkoeffizienten
bei unbekannten Varianzen der Schätzfunktionen
Bei Erfüllung der Annahmen über die Störvariable U und unbekannte Varianzen σ²Bj der
Schätzer der Regressionskoeffizienten des Stichprobenmodell gelten:
KQ - Regressionskoeffizienten
βˆ1 = B1
βˆ 2 = B2
B j ~ N( β j , σ B2 j )
Für j=1, 2
t=
σˆ B2 = sB2
j
Annahmen
Bj − β j
sBj
~ t (n-2)
j
U i ~ N(0, σ U2 )
f(t)
E (U i ) = 0 Var (U i ) = σ U2
Cov (U i , U j ) = 0
-4
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
-3
-2
-1
0
1
2
3
4
t
7
Regression IV
Konfidenzintervalle der Regressionskoeffizienten bei linearer Einfachregression
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n<N
Yi = β 1 + β 2 xi + U i
KQ - Regressionskoeffizienten
βˆ 2 = B2
βˆ1 = B1
Bj − β j
t=
sBj
σˆ B2 = s B2
j
~ t (n -2)
j
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
W (−t
1−
α
2
; n−2
≤
Bj − β j
W (− B j − S B j ⋅ t
SBj
1−
W (+ B j + S B j ⋅ t
α
1−
W [B j − S Bj ⋅ t
2
α
2
1−
≤t
1−
α
2
; n−2
) = 1−α
; n−2
≤ −β j ≤ −B j + S Bj ⋅ t
; n−2
≥ +β j ≥ +B j − S Bj ⋅ t
α
2
; n−2
≤ β j ≤ B j + SBj ⋅ t
1−
α
2
1−
α
1−
; n−2
2
α
2
; n−2
; n−2
) = 1−α
) = 1−α
] = 1−α
8
Regression IV
4
Abhängigkeit des Vertrauensbereiches vom
Stichprobenumfang
W [B j − S Bj ⋅ t
1−
α
2
; n−2
≤ β j ≤ B j + S Bj ⋅ t
1−
α
2
; n−2
] = 1−α
Breite des Vertrauensbereiches:
⎞
⎞ ⎛
⎛
⎟
⎟ − ⎜ B − S ⋅t
2e = ⎜ B j + S B j ⋅ t α
j
Bj
α
⎜
1− ; n − 2 ⎟ ⎜
1− ; n − 2 ⎟
2
2
⎠
⎠ ⎝
⎝
=
2 ⋅ SBj ⋅t
1−
α
; n−2
2
Je größer der Stichprobenumfang n und
damit die Anzahl der Freiheitsgrade
(n-2), desto kleiner ist unter sonst
gleichen Bedingungen (Konfidenzniveau
w=1-α und Streuung SBj der
Stichprobenskoeffizienten) der t-Wert und
damit der Vertrauensbereich.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
9
Regression IV
Abhängigkeit des Vertrauensbereiches von
der Streuung der Stichprobenkoeffizienten
W [B j − S Bj ⋅ t
1−
α
2
; n−2
≤ β
j
≤ B j + S Bj ⋅t
Breite des Vertrauensbereiches 2e für:
n
s
2
B1
=
∑x
i =1
n
2
i
n∑ ( xi − x )²
i =1
s E2
s B22 =
1−
α
2
; n−2
] =1−α
s E2 =
s X2 =
1 n
∑ ( xi − x )²
n − 1 i =1
1 n
∑ ( yi − yˆ i )²
n − 2 i =1
s E2
n
∑ (x
n
∑ ( xi − x )²
i =1
i =1
i
− x )² = (n − 1) ⋅ s X2
¾ Je kleiner die Standardabweichung SB der Stichprobenregressionsparameter Bj, desto
j
kleiner ist unter sonst gleichen Bedingungen (Stichprobenumfang n und Konfidenzniveau
w=1-α) der Vertrauensbereich.
¾ Da die Standardabweichung von der Residualstreuung SE und der Streuung der
erklärenden Variablen S²X abhängt, kann man feststellen: Je kleiner die Streuung der
Restgröße S²E und je größer die Streuung S²X der erklärenden Variablen, desto kleiner ist
unter sonst gleichen Bedingungen (Stichprobenumfang n, Konfidenzniveau 1-α) die
Standardabweichung SB des Stichprobenregressionsparameter Bj und damit der
j
Vertrauensbereich.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
10
Regression IV
5
Berechnung der Standardfehler der
Stichprobenkoeffizienten
s
∑ xi2
=
2
B1
i =1
n
n∑ ( xi − x )²
s
s
2
E
n
∑ (x
i =1
s E2
=
n
∑ (x
i =1
i
∑ (x
2
X
i =1
2
B2
n
1 n
s =
∑ ( xi − x )²
n − 1 i =1
n
i =1
n
n
n
i =1
i =1
i =1
− x )² = ∑ xi2 − 2∑ xi ⋅ x + ∑ x ²
i
n
n
i =1
i =1
− x )²
= ∑ xi2 − 2 x ∑ xi + nx ²
n
= ∑ xi2 − 2 x nx ² + nx ²
1
∑(yi −yˆi )²
n−2 i=1
= ∑x
− x )² = ( n − 1) ⋅ s X2
n
∑ (x
i =1
i
− x )² = ( n − 1) ⋅ s X2
n
= ∑ xi2 − nx ²
i =1
n
sE2 =
i
i =1
n
n
i =1
2
i
(n − 1) ⋅ s X2 = ∑ xi2 − nx ²
− 2nx ² + nx ²
i =1
n
= ∑ xi2 − nx ²
n
∑x
i =1
i =1
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
2
i
= (n − 1) ⋅ s X2 + nx ²
11
Regression IV
Beispiel: Berechnung der Standardfehler für die
Regressionskoeffizienten aller Autos
Zerlegung der Abweichungsquadratsummeb
Modell
1
Regression
Residuen
Gesamt
Quadratsu
mme
3,831E+10
7,349E+09
4,566E+10
Deskriptive Statistik
Mittel der
Quadrate
3,83E+10
29634224
df
1
248
249
N
Leistung [PS]
n
b. Abhängige Variable: PREIS in EURO
erklärende Variable: LEISTUNG in PS
∑ (x
i =1
s E2 =
1 n
∑ ( yi − yˆ i )² = 29634224
n − 2 i =1
W [B j − S Bj ⋅ t
1−
i
n
i =1
2
; n−2
≤ β j ≤ B j + S Bj ⋅ t
2
i
s B1 =
s
2
B1
=
i =1
2
i
n
n ∑ ( x i − x )²
s
2
E
1−
= 828,20
s B2 =
α
2
; n−2
] = 1−α
s B2 2 =
s E2
n
∑ ( xi − x )²
= 6,01
i =1
i =1
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Standardab
-weichung
57,4177
= ( n − 1) ⋅ s X2 + nx ² = 4750501,64
n
∑x
Mittelwert
125,372
− x ) 2 = (n − 1) ⋅ s X2 = 249 ⋅ 57,42 = 820967,04
∑x
α
250
12
Regression IV
6
Beispiel: Konfidenzintervalle für die
Regressionskoeffizienten aller Autos
W [B
j
− S
B
j
⋅t
1−
α
2
;n−2
≤ β
j
≤ B
j
+ S
B
⋅t
j
1−
α
2
;n−2
n
s B1 = s
2
B1
=
∑x
i =1
2
i
n
n∑ ( xi − x )²
s = 828,20
2
E
s B2 = s
2
B2
=
i =1
t0975 ; 248 = 1,96
] = 1−α
s E2
n
∑ ( xi − x )²
= 6,01
i =1
Koeffizientena
Modell
1
(Konstante)
Leistung [PS]
Nicht standardisierte
Koeffizienten
StandardB
fehler
-5311,035
828,224
216,035
6,008
95%-Konfidenzintervall für B
Untergrenze
-6942,285
204,201
Obergrenze
-3679,786
227,869
a. Abhängige Variable: PREIS in EURO
erklärende Variable: LEISTUNG in PS
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
13
Regression IV
Beispiel: Konfidenzintervalle für die
Regressionskoeffizienten aller Autos
Koeffizientena
Modell
1
(Konstante)
Leistung [PS]
Nicht standardisierte
Koeffizienten
Standardfehler
B
-5311,035
828,224
216,035
6,008
95%-Konfidenzintervall für B
Untergrenze
-6942,285
204,201
Obergrenze
-3679,786
227,869
a. Abhängige Variable: PREIS in EURO
erklärende Variable: LEISTUNG in PS
Interpretation:
Für ein PS mehr Leistung muss man im Anschaffungspreis
mit 204 bis 228 Euro mehr rechnen!
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
14
Regression IV
7
Beispiel: Konfidenzintervalle für die Regressionskoeffizienten
aller Autos mit Schrägheck (SH)
Grundgesamtheit
(Alle SH Fahrzeuge)
Deskriptive Statistik
Zufallsstichprobe
SH Fahrzeuge der
Datei Auto_250
Leistung [PS]
PREIS [EURO]
N
117
117
Minimum Maximum Mittelwert
42
210
93,97
6637,89 36229,90 14675,71
Standardabweichung
37,03
5670,1055
Koeffizientena,b
Nicht standardisierte
Koeffizienten
Modell
1
B
1407,303
141,205
(Konstante)
Leistung [PS]
95%-Konfidenzintervall für
B
Standardfehler Untergrenze Obergrenze
557,744
302,520
2512,086
5,526
130,260
152,150
R ² = 0,850
a. Abhängige Variable: PREISEUR
b. Ausschließliche Auswahl von Fällen, bei denen Karosserieform = SH
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
15
Regression IV
Beispiel: Konfidenzintervalle für die Regressionskoeffizienten
aller Autos mit Schrägheck (SH)
Koeffizienten a,b
Nicht standardisierte
Koeffizienten
Modell
1
(Konstante)
Leistung [PS]
B
1407,303
141,205
Standardfehler
557,744
5,526
95%-Konfidenzintervall für
B
Untergrenze
302,520
130,260
Obergrenze
2512,086
152,150
a. Abhängige Variable: PREISEUR
b. Ausschließliche Auswahl von Fällen, bei denen Karosserieform = SH
Interpretation:
Für ein PS mehr Leistung muss man im Anschaffungspreis
mit 130 bis 152 Euro mehr rechnen!
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
16
Regression IV
8
Konfidenzintervalle von Prognosewerten
-AufgabenstellungenGrundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n<N
¾ Vertrauensgrenzen des Regresswertes
E (Y0 ) = E (Y / x = x0 ) = β 1 + β 2 ⋅ x0
¾ Vertrauensgrenzen eines individuellen Wertes yo
y 0 = β 1 + β 2 ⋅ x0 + u 0
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
17
Regression IV
Verteilungen des Stichprobenregresswertes
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
n<N
Regresswert in der Grundgesamtheit
Verteilungen:
E (Y0 ) = E (Y / x = x0 ) = β 1 + β 2 ⋅ x0
Z=
Regresswert als Stichprobenfunktion:
Yˆ0 − E (Y0 )
σ Yˆ
Standardnormalverteilung
0
Yˆ0 = Eˆ (Y0 ) = B1 + B2 ⋅ x0
T=
Erwartungswert und Varianz
E (Yˆ0 ) = E (Y0 ) = β 1 + β 2 ⋅ x0
Var (Yˆ0 ) = σ Y2ˆ
Yˆ0 − E (Y0 )
sYˆ
0
σˆ Yˆ = sYˆ = s E ⋅
0
0
(x − x)2
1
+ n 0
n
∑ ( xi − x ) 2
s E2 =
1 n
∑ ( yi − yˆ i )²
n − 2 i =1
i =1
0
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Studentverteilung mit
ν=n-2 Freiheitsgraden
18
Regression IV
9
Vertauensgrenzen der Regresswerte
W [Yˆ0 − S Yˆ ⋅ t
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
0
1−
α
2
; n−2
≤ E (Y0 ) ≤ Yˆ0 + S Yˆ ⋅ t
0
1−
α
2
; n−2
] = 1−α
Standardfehler des durchschnittlichen
Prognosewertes:
n<N
Regresswert in der
Grundgesamtheit:
(x − x)2
1
+ n 0
n
∑ ( xi − x ) 2
σˆ Yˆ = sYˆ = s E ⋅
0
0
i =1
E (Y0 ) = E (Y / x = x0 ) = β 1 + β 2 ⋅ x0
Punktschätzung des
Regresswertes:
Varianz der
Residuen:
Yˆ0 = Eˆ (Y0 ) = B1 + B2 ⋅ x0
yˆ 0 = b1 + b2 ⋅ x0
s E2 =
1 n
∑ ( yi − yˆ i )²
n − 2 i =1
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
19
Regression IV
Beispiel: Konfidenzintervall für den zu
erwartenden Preis eines Autos
Konfidenzintervall (95 %) für den mittleren Preis eines Autos
der Leistung x0=125,37 PS
Grundgesamtheit
(Alle Fahrzeuge)
Deskriptive Statistik
Zufallsstichprobe
250 Fahrzeuge
N
Leistung [PS]
PREISEUR
yˆ i = -5311,03 + 216,03 ⋅ xi
250
250
W [Yˆ0 − S Yˆ ⋅ t
yˆ 0 = -5311,03 + 216,03 ⋅ 125,37 = 21773,68
Regression
Residuen
Gesamt
s E2 =
Quadrat
summe
4,E+10
7,E+09
5,E+10
df
1
248
249
Mittel der
Quadrate
3,83E+10
29634224
1 n
∑ ( yi − yˆ i )² = 29634224
n − 2 i =1
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Minimum
42
6637,89
0
sYˆ = s E ⋅
0
1−
α
2
Maximum
367
110371,91
; n−2
Standardab
weichung
57,42
13541,7902
Mittelwert
125,37
21773,68
≤ E (Y0 ) ≤ Yˆ0 + S Yˆ ⋅ t
(x − x ) 2
1
+ n 0
n
∑ (xi − x)2
0
t
1−
α
2
; n−2
1−
α
2
; n−2
] = 1−α
= t 0,975 ; 248 = 1,96
i =1
= 29634224 ⋅
1
= 344,29
250
[ 21098,27
≤ E ( Y 0 ) ≤ 22447,90 ]
20
Regression IV
10
Vertrauensgrenzen eines individuellen Wertes
(Näherungsverfahren)
Mittlere absolute Abweichung:
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
a =
1
n
n
∑
i =1
y i − yˆ i
Prognosebereich (Nährungsverfahren):
n<N
[ yˆ 0 − a ≤ y 0 ≤ yˆ 0 + a ]
Individueller Wert:
y0 = β1 + β2 ⋅ x0 +u0
Vorteil: Die Vertauensgrenzen sind leicht zu
berechnen.
Nachteil: Die Vertauensgrenzen lassen sich
nicht wahrscheinlichkeitstheoretisch
interpretieren.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
21
Regression IV
Vertrauensgrenzen eines individuellen Wertes
(Wahrscheinlichkeitstheoretisches Verfahren)
Grundgesamtheit i=1, . . . , N
Zufallsstichprobe
(xi, yi)
i=1, . . . , n
Prognosebereich (Konfidenzintervall):
W [Yˆ0 − S F ⋅ t
n<N
1−
α
2
; n−2
≤ y 0 ≤ Yˆ0 + S F ⋅ t
Yˆ0 = Eˆ (Y0 ) = B1 + B2 ⋅ x0
1−
α
2
; n−2
] = 1−α
yˆ 0 = b1 + b2 ⋅ x0
Individueller Wert:
y 0 = β 1 + β 2 ⋅ x0 + u 0
Für individuelle Werte
Standardfehler des
individuellen Prognosewertes:
Für mittlere Werte
sF = sE ⋅ 1 +
(x − x)
1
+ n 0
n
∑ ( xi − x ) 2
2
Varianz der Residuen:
i =1
s E2 =
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
1 n
∑ ( yi − yˆ i )²
n − 2 i =1
22
Regression IV
11
Beispiel: Konfidenzintervall für den individuellen
Wert (Preis eines Autos)
Grundgesamtheit
(Alle Fahrzeuge)
Konfidenzintervall (95 %) für den individuellen Preis eines
Autos der Leistung x0=125,37 PS
Deskriptive Statistik
Zufallsstichprobe
250 Fahrzeuge
yˆ i = -5311,03 + 216,03 ⋅ xi
N
Leistung [PS]
PREIS [EURO]
yˆ 0 = -5311,03 + 216,03 ⋅ 125,37 = 21773,68
s E2 =
1 n
∑ ( yi − yˆ i )² = 29634224
n − 2 i =1
sF = sE ⋅ 1 +
250
250
Minimum
42
6637,89
W [Yˆ0 − S F ⋅ t
Maximum
367
110371,91
1−
α
2
; n−2
Mittelwert
125,372
21773,68
≤ y 0 ≤ Yˆ0 + S F ⋅ t
Standardabweichung
57,4177
13541,7902
1−
α
2
; n−2
] = 1−α
[11082,05 ≤ E (Y0 ) ≤ 32464,12 ]
(x − x)
1
+ n 0
n
∑ ( xi − x ) 2
2
t 0 ,975 ; 248 = 1,96
i =1
= 29634224 ⋅ 1 +
1
= 5454,6091
250
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
23
Regression IV
Beispiel: Vergleich der Genauigkeit der Schätzung für
den mittleren und den individuellen Wert (Preis)
Grundgesamtheit
(Alle Fahrzeuge)
Genauigkeit der Schätzung
(Breite des Vertrauensbereiches )
Zufallsstichprobe
250 Fahrzeuge
2e = Obere Grenze - Untere Grenze
Konfidenzintervall (95 %) für den mittleren
Preis eines Autos der Leistung x0=125,37 PS
W [Yˆ0 − S Yˆ ⋅ t
0
1−
α
2
; n−2
≤ E (Y0 ) ≤ Yˆ0 + S Yˆ ⋅ t
0
1−
α
2
; n−2
] = 1−α
Konfidenzintervall (95 %) für den
individuellen Preis eines Autos der Leistung
x0=125,37 PS
W [Yˆ0 − S F ⋅ t
1−
α
2
; n−2
≤ y 0 ≤ Yˆ0 + S F ⋅ t
1−
α
2
; n−2
] = 1−α
[ 21098,27 ≤ E (Y0 ) ≤ 22447,90 ] [11082,05≤ E( y0 ) ≤ 32464,12]
[2e = 22447,90 - 2109827 = 1349,62
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
2e = 32464,12 - 11082,05 = 21382,07
24
Regression IV
12
Beispiel: Konfidenzbreite (Konfidenniveau 95 %) des
Mittelwertes des Preises für bestimmte PS
Deskriptive Statistik
Grundgesamtheit
(Alle Fahrzeuge)
N
Leistung [PS]
PREISEUR
Zufallsstichprobe
250 Fahrzeuge
s E2 =
x0
= 29634224
0
y0-Dach
367
Mittelwert
125,37
21773,68
≤ E(Y0 ) ≤ Yˆ0 + SYˆ ⋅ t
0
Standardfehler
Untere
Grenze
α
Standardab
weichung
57,42
13541,7902
1− ; n −2
2
Obere
Grenze
] = 1−α
Breite
3762,23
607,8168
2570,91
4953,55
2382,64
344,2919
21098,27
22447,90
1349,63
110371,90
1491,9824
71047,69
76896,27
5848,58
125,372
(x − x)
1
+ n 0
n
∑ ( xi − x ) 2
Maximum
367
110371,91
21773,68
42
2
α
1− ; n−2
2
0
1 n
∑ ( yi − yˆ i )²
n − 2 i =1
sYˆ = s E ⋅
250
250
W[Yˆ0 − SYˆ ⋅ t
yˆ i = -5311,03 + 216,03 ⋅ xi
Minimum
42
6637,89
i =1
n
n
1
s =
⋅ ∑ ( xi − x ) 2 ⇒ ∑ ( xi − x ) 2 = (n − 1) ⋅ s X2 = 249 ⋅ 57,42 = 820967,04
n − 1 i =1
i =1
2
X
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
25
Regression IV
Beispiel: Konfidenzbereiche (Konfidenzniveau 95 %) für
den Mittelwert und für individuelle Werte
sYˆ = s E ⋅
120000,00
0
sF = sE ⋅ 1 +
i =1
100000,00
Preis in EURO
(x − x)2
1
+ n 0
n
∑ ( xi − x ) 2
(x − x)2
1
+ n 0
n
∑ ( xi − x ) 2
i =1
80000,00
2e = 2 ⋅ S ⋅ t
α
1− ; n−2
2
60000,00
40000,00
n
∑ (x
20000,00
i =1
i
− x ) 2 = 820967,04
0,00
-20000,00
0
50
100
150
200
250
300
350
400
Leistung in PS
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
26
Regression IV
13
Beispiel: Klausuraufgabe Juli 2002
4. Aufgabe
Ein Reifenhersteller prüft den Zusammenhang zwischen Profiltiefe X (in mm) und
Bremsweg Y (in m) bei nasser Fahrbahn aus einer Geschwindigkeit von 100 km/h. Bei
25 Versuchen mit Profiltiefen zwischen 4 und 8 mm gelangt er zu folgenden Ergebnissen:
Σxi = 150
Σyi = 1.850
Σxi yi = 10.996
Σ(xi)² = 952
Σ(yi)² = 137.204
4.1 Bestimmen und interpretieren Sie die Koeffizienten der linearen
Regressionsfunktion.
4.2 Ermitteln Sie ein 95 %-Konfidenzintervall für den Regressionskoeffizienten ß2.
4.3 Berechnen Sie das Bestimmtheitsmaß, testen Sie es gegen Null (α = 0,05) und
interpretieren Sie die Testentscheidung.
4.4 In welchem Bereich liegt ein einzelner Bremsweg mit Reifen der Profiltiefe 4,5 mm?
Verwenden Sie für diese Angabe ein Konfidenzniveau von 95 Prozent.
Noch nicht lösbar, erst mit den Kenntnissen der nächsten Vorlesung!
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
27
Regression IV
Beispiel: Klausuraufgabe Juli 2002 (Lösung 4.1)
4. Aufgabe
Ein Reifenhersteller prüft den Zusammenhang zwischen Profiltiefe X (in mm) und
Bremsweg Y (in m) bei nasser Fahrbahn aus einer Geschwindigkeit von 100 km/h. Bei
25 Versuchen mit Profiltiefen zwischen 4 und 8 mm gelangt er zu folgenden Ergebnissen:
Σxi = 150
Σyi = 1.850
Σxi yi = 10.996
Σ(xi)² = 952
Σ(yi)² = 137.204
4.1 Bestimmen und interpretieren Sie die Koeffizienten der linearen
Regressionsfunktion.
b2 =
n
n
n
i =1
i =1
i =1
n ∑ x i y i − ∑ xi ∑ y i
⎛ n ⎞
n∑ x − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
2
=
25 ⋅ 10996 − 150 ⋅ 1850
2
i
25 ⋅ 952 − (150 )
2
b1 = y − b2 x =
= −2,0
1850
150
− (−2) ⋅
= 86
25
25
yˆ = 86 − 2 x
b2: Bei Zunahme der Profiltiefe um 1 mm sinkt der Bremsweg um 2 m.
b1: Es wäre der Bremsweg 86 m bei Profiltiefe 0 mm, das ist hier ohne praktische Bedeutung.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
28
Regression IV
14
Beispiel: Klausuraufgabe Juli 2002 (Lösung 4.2)
4. Aufgabe
Ein Reifenhersteller prüft den Zusammenhang zwischen Profiltiefe X (in mm) und
Bremsweg Y (in m) bei nasser Fahrbahn aus einer Geschwindigkeit von 100 km/h. Bei
25 Versuchen mit Profiltiefen zwischen 4 und 8 mm gelangt er zu folgenden Ergebnissen:
Σxi = 150
Σyi = 1.850
Σxi yi = 10.996
Σ(xi)² = 952
Σ(yi)² = 137.204
4.2 Ermitteln Sie ein 95 %-Konfidenzintervall für den Regressionskoeffizienten ß2.
W [B j − S Bj ⋅ t
b2 − S B2 ⋅ t
1−
α
2
1−
α
2
; n−2
; n −2
yˆ = 86 − 2 x
t
1−
α
2
; n−2
≤ β j ≤ B j + SBj ⋅ t
≤ β 2 ≤ b2 + S B2 ⋅ t
1−
α
2
; n−2
] = 1−α
n
∑ (x
i =1
1−
α
2
; n−2
n
i
− x )² = ∑ xi2 − nx ²
i =1
150
= 952 − 25 ⋅ (
)² = 52
25
b2 = −2
= t 0,975 ; 23 = 2,069
s E2
s B2 = s B22 =
n
n
1 ⎡n 2
⎤
s =
y j − b1 ∑ y i − b 2 ∑ x i y i ⎥
∑
⎢
n − 2 ⎣ i =1
i =1
i =1
⎦
n
∑ (x
2
E
i =1
i
= 0,2833
− x )²
− 2 − 0,2833 ⋅ 2,069 ≤ β 2 ≤ −2 + 0,2833 ⋅ 2,069
1
= [137204 − 86 ⋅ 1850 + 2 ⋅ 10996] = 4,1739
23
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
− 2 , 59 ≤ β
2
≤ − 1, 41
29
Regression IV
Beispiel: Klausuraufgabe Juli 2002 (Lösung 4.4)
4. Aufgabe
Ein Reifenhersteller prüft den Zusammenhang zwischen Profiltiefe X (in mm) und
Bremsweg Y (in m) bei nasser Fahrbahn aus einer Geschwindigkeit von 100 km/h. Bei
25 Versuchen mit Profiltiefen zwischen 4 und 8 mm gelangt er zu folgenden Ergebnissen:
Σxi = 150
Σyi = 1.850
Σxi yi = 10.996
Σ(xi)² = 952
Σ(yi)² = 137.204
4.4 In welchem Bereich liegt ein einzelner Bremsweg mit Reifen der Profiltiefe 4,5 mm?
Verwenden Sie für diese Angabe ein Konfidenzniveau von 95 Prozent.
W [Yˆ0 − S F ⋅ t
yˆ 0 − S F ⋅ t
t
1−
α
2
; n−2
1−
α
2
1−
α
2
; n−2
; n−2
≤ y 0 ≤ Yˆ0 + S F ⋅ t
≤ y 0 ≤ yˆ 0 + S F ⋅ t
1−
α
2
1−
α
2
; n−2
] = 1−α
sF = sE ⋅ 1 +
i =1
; n−2
= t 0,975 ; 23 = 2,069
1
= 4,1739 ⋅ 1 +
+
25
yˆ 0 = 86 − 2 ⋅ 4,5 = 77
s E2 =
n
n
1 ⎡ n 2
⎤
y j − b1 ∑ y i − b2 ∑ xi y i ⎥ = 4,1739
∑
⎢
n − 2 ⎣ i =1
i =1
i =1
⎦
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
(x − x)2
1
+ n 0
n
∑ ( xi − x ) 2
150
)²
25 = 2,1264
150²
952 −
25
( 4,5 −
77 − 2,1264 ⋅ 2,069 ≤ y 0 ≤ 77 + 2,1264 ⋅ 2,069
72 , 6 ≤ y 0 ≤ 81 , 4
30
Regression IV
15
Herunterladen