Schätzverfahren bei der linearen Einfachregression ¾Konfidenzintervalle der Regressionskoeffizienten ¾Konfidenzintervalle der Prognosewerte Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 1 Regression IV Bibliografie: ¾ Prof. Dr. Kück Universität Rostock Statistik, Vorlesungsskript. Abschnitt 8.3.3 und 8.3.4 ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen 2004 Statistik für Wirtschaftswissenschaftler ¾ http://www.wiwi.uni-rostock.de/~stat/download.htm Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 2 Regression IV 1 KQ-Schätzungen der Regressionskoeffizienten bei einer linearen Einfachregression Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n n n<N n n ∑x ∑y −∑x ∑x y βˆ1 = b1 = 2 i i =1 i i =1 i i =1 i =1 2 i i n ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n βˆ 2 = b2 = n n i =1 i =1 n∑ xi y i − ∑ xi ∑ y i i =1 ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n 2 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 3 Regression IV Beispiel: Punktschätzung der Regressionskoeffizienten bei der linearen Einfachregression Yi = β 1 + β 2 ⋅ xi + U i Preis [Euro] 120000 100000 yi' = E (Y / xi ) = β 1 + β 2 ⋅ xi Grundgesamtheit (Alle Fahrzeuge) 80000 60000 Zufallsstichprobe 250 Fahrzeuge 40000 yˆ i' = -5311,03 + 216,03 ⋅ xi 20000 Beobachtet 0 Linear 0 100 200 300 400 Leistung [PS] Punktschätzung n βˆ1 = b1 = n n n ∑x ∑y −∑x ∑x y i =1 2 i i =1 i i =1 i i =1 2 ⎛ n ⎞ n ∑ x − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n i n i = −5311,03 βˆ 2 = b2 = 2 i Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik n n i =1 i =1 n∑ xi y i − ∑ xi ∑ y i i =1 ⎛ n ⎞ n∑ x − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n 2 = 216,03 2 i 4 Regression IV 2 KQ-Schätzer der Regressionskoeffizienten als Stichprobenfunktionen Preis [Euro] Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n Yi = β 1 + β 2 ⋅ xi + U i 120000 yi' = E (Y / xi ) = β 1 + β 2 ⋅ xi 100000 80000 n<N 60000 40000 n βˆ1 = B1 = n i =1 i =1 i n i =1 i i =1 2 n n n n∑ xi Yi − ∑ xi ∑ Yi i =1 i =1 i =1 ⎛ ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n n 20000 Beobachtet i i ⎛ ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n n βˆ 2 = B2 = n ∑ x ∑Y − ∑ x ∑ x Y 2 i 2 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Linear 0 0 100 200 300 400 Leistung [PS] Die wahren Regressionskoeffizienten β1 und β2 in der Grundgesamtheit sind unbekannt und können mittels einer Stichprobe geschätzt werden. Für unterschiedliche Stichproben bekommt man i. d. R. unterschiedliche Punktschätzungen. Die Werte b1 und b2 können als Realisationen der Zufallsvariablen B1 und B2 (Stichprobenfunktionen) angesehen werden. 5 Regression IV Intervallschätzung ¾ Bei einer Punktschätzung erhält man für den unbekannten Parameter einen Schätzwert. Bei jeder konkret ausgewählten Stichprobe erhält man einen entsprechenden Schätzwert des Parameters aus der Stichprobenrealisation. ¾ Selbst wenn die Schätzfunktion „gute" Eigenschaften aufweist, ist die Wahrscheinlichkeit, dass der Schätzwert mit dem wahren Wert des Parameters in der Grundgesamtheit übereinstimmt, im Allgemeinen gleich Null oder sehr klein. ¾ Um diese Unzulänglichkeit abzuschwächen und um die Genauigkeit des Schätzverfahrens einzubeziehen, geht man meist zu einer Intervallschätzung über. ¾ Mit einer Intervallschätzung wird ein unbekannter Parameter der Grundgesamtheit derart geschätzt, dass ein Intervall entsteht und die Wahrscheinlichkeit dafür angegeben werden kann, dass der wahre Parameterwert der Grundgesamtheit in diesem Intervall liegt. Diese Aussage erfolgt unter dem Vorbehalt einer Irrtumswahrscheinlichkeit α. Ein solches Intervall wird als Konfidenz- oder Vertrauensintervall bezeichnet. Die Wahrscheinlichkeit w=1 - α heißt Konfidenzniveau bzw. Aussagewahrscheinlichkeit. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 6 Regression IV 3 Verteilung der Stichprobenkoeffizienten bei unbekannten Varianzen der Schätzfunktionen Bei Erfüllung der Annahmen über die Störvariable U und unbekannte Varianzen σ²Bj der Schätzer der Regressionskoeffizienten des Stichprobenmodell gelten: KQ - Regressionskoeffizienten βˆ1 = B1 βˆ 2 = B2 B j ~ N( β j , σ B2 j ) Für j=1, 2 t= σˆ B2 = sB2 j Annahmen Bj − β j sBj ~ t (n-2) j U i ~ N(0, σ U2 ) f(t) E (U i ) = 0 Var (U i ) = σ U2 Cov (U i , U j ) = 0 -4 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik -3 -2 -1 0 1 2 3 4 t 7 Regression IV Konfidenzintervalle der Regressionskoeffizienten bei linearer Einfachregression Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n<N Yi = β 1 + β 2 xi + U i KQ - Regressionskoeffizienten βˆ 2 = B2 βˆ1 = B1 Bj − β j t= sBj σˆ B2 = s B2 j ~ t (n -2) j Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik W (−t 1− α 2 ; n−2 ≤ Bj − β j W (− B j − S B j ⋅ t SBj 1− W (+ B j + S B j ⋅ t α 1− W [B j − S Bj ⋅ t 2 α 2 1− ≤t 1− α 2 ; n−2 ) = 1−α ; n−2 ≤ −β j ≤ −B j + S Bj ⋅ t ; n−2 ≥ +β j ≥ +B j − S Bj ⋅ t α 2 ; n−2 ≤ β j ≤ B j + SBj ⋅ t 1− α 2 1− α 1− ; n−2 2 α 2 ; n−2 ; n−2 ) = 1−α ) = 1−α ] = 1−α 8 Regression IV 4 Abhängigkeit des Vertrauensbereiches vom Stichprobenumfang W [B j − S Bj ⋅ t 1− α 2 ; n−2 ≤ β j ≤ B j + S Bj ⋅ t 1− α 2 ; n−2 ] = 1−α Breite des Vertrauensbereiches: ⎞ ⎞ ⎛ ⎛ ⎟ ⎟ − ⎜ B − S ⋅t 2e = ⎜ B j + S B j ⋅ t α j Bj α ⎜ 1− ; n − 2 ⎟ ⎜ 1− ; n − 2 ⎟ 2 2 ⎠ ⎠ ⎝ ⎝ = 2 ⋅ SBj ⋅t 1− α ; n−2 2 Je größer der Stichprobenumfang n und damit die Anzahl der Freiheitsgrade (n-2), desto kleiner ist unter sonst gleichen Bedingungen (Konfidenzniveau w=1-α und Streuung SBj der Stichprobenskoeffizienten) der t-Wert und damit der Vertrauensbereich. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 9 Regression IV Abhängigkeit des Vertrauensbereiches von der Streuung der Stichprobenkoeffizienten W [B j − S Bj ⋅ t 1− α 2 ; n−2 ≤ β j ≤ B j + S Bj ⋅t Breite des Vertrauensbereiches 2e für: n s 2 B1 = ∑x i =1 n 2 i n∑ ( xi − x )² i =1 s E2 s B22 = 1− α 2 ; n−2 ] =1−α s E2 = s X2 = 1 n ∑ ( xi − x )² n − 1 i =1 1 n ∑ ( yi − yˆ i )² n − 2 i =1 s E2 n ∑ (x n ∑ ( xi − x )² i =1 i =1 i − x )² = (n − 1) ⋅ s X2 ¾ Je kleiner die Standardabweichung SB der Stichprobenregressionsparameter Bj, desto j kleiner ist unter sonst gleichen Bedingungen (Stichprobenumfang n und Konfidenzniveau w=1-α) der Vertrauensbereich. ¾ Da die Standardabweichung von der Residualstreuung SE und der Streuung der erklärenden Variablen S²X abhängt, kann man feststellen: Je kleiner die Streuung der Restgröße S²E und je größer die Streuung S²X der erklärenden Variablen, desto kleiner ist unter sonst gleichen Bedingungen (Stichprobenumfang n, Konfidenzniveau 1-α) die Standardabweichung SB des Stichprobenregressionsparameter Bj und damit der j Vertrauensbereich. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 10 Regression IV 5 Berechnung der Standardfehler der Stichprobenkoeffizienten s ∑ xi2 = 2 B1 i =1 n n∑ ( xi − x )² s s 2 E n ∑ (x i =1 s E2 = n ∑ (x i =1 i ∑ (x 2 X i =1 2 B2 n 1 n s = ∑ ( xi − x )² n − 1 i =1 n i =1 n n n i =1 i =1 i =1 − x )² = ∑ xi2 − 2∑ xi ⋅ x + ∑ x ² i n n i =1 i =1 − x )² = ∑ xi2 − 2 x ∑ xi + nx ² n = ∑ xi2 − 2 x nx ² + nx ² 1 ∑(yi −yˆi )² n−2 i=1 = ∑x − x )² = ( n − 1) ⋅ s X2 n ∑ (x i =1 i − x )² = ( n − 1) ⋅ s X2 n = ∑ xi2 − nx ² i =1 n sE2 = i i =1 n n i =1 2 i (n − 1) ⋅ s X2 = ∑ xi2 − nx ² − 2nx ² + nx ² i =1 n = ∑ xi2 − nx ² n ∑x i =1 i =1 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 2 i = (n − 1) ⋅ s X2 + nx ² 11 Regression IV Beispiel: Berechnung der Standardfehler für die Regressionskoeffizienten aller Autos Zerlegung der Abweichungsquadratsummeb Modell 1 Regression Residuen Gesamt Quadratsu mme 3,831E+10 7,349E+09 4,566E+10 Deskriptive Statistik Mittel der Quadrate 3,83E+10 29634224 df 1 248 249 N Leistung [PS] n b. Abhängige Variable: PREIS in EURO erklärende Variable: LEISTUNG in PS ∑ (x i =1 s E2 = 1 n ∑ ( yi − yˆ i )² = 29634224 n − 2 i =1 W [B j − S Bj ⋅ t 1− i n i =1 2 ; n−2 ≤ β j ≤ B j + S Bj ⋅ t 2 i s B1 = s 2 B1 = i =1 2 i n n ∑ ( x i − x )² s 2 E 1− = 828,20 s B2 = α 2 ; n−2 ] = 1−α s B2 2 = s E2 n ∑ ( xi − x )² = 6,01 i =1 i =1 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Standardab -weichung 57,4177 = ( n − 1) ⋅ s X2 + nx ² = 4750501,64 n ∑x Mittelwert 125,372 − x ) 2 = (n − 1) ⋅ s X2 = 249 ⋅ 57,42 = 820967,04 ∑x α 250 12 Regression IV 6 Beispiel: Konfidenzintervalle für die Regressionskoeffizienten aller Autos W [B j − S B j ⋅t 1− α 2 ;n−2 ≤ β j ≤ B j + S B ⋅t j 1− α 2 ;n−2 n s B1 = s 2 B1 = ∑x i =1 2 i n n∑ ( xi − x )² s = 828,20 2 E s B2 = s 2 B2 = i =1 t0975 ; 248 = 1,96 ] = 1−α s E2 n ∑ ( xi − x )² = 6,01 i =1 Koeffizientena Modell 1 (Konstante) Leistung [PS] Nicht standardisierte Koeffizienten StandardB fehler -5311,035 828,224 216,035 6,008 95%-Konfidenzintervall für B Untergrenze -6942,285 204,201 Obergrenze -3679,786 227,869 a. Abhängige Variable: PREIS in EURO erklärende Variable: LEISTUNG in PS Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 13 Regression IV Beispiel: Konfidenzintervalle für die Regressionskoeffizienten aller Autos Koeffizientena Modell 1 (Konstante) Leistung [PS] Nicht standardisierte Koeffizienten Standardfehler B -5311,035 828,224 216,035 6,008 95%-Konfidenzintervall für B Untergrenze -6942,285 204,201 Obergrenze -3679,786 227,869 a. Abhängige Variable: PREIS in EURO erklärende Variable: LEISTUNG in PS Interpretation: Für ein PS mehr Leistung muss man im Anschaffungspreis mit 204 bis 228 Euro mehr rechnen! Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 14 Regression IV 7 Beispiel: Konfidenzintervalle für die Regressionskoeffizienten aller Autos mit Schrägheck (SH) Grundgesamtheit (Alle SH Fahrzeuge) Deskriptive Statistik Zufallsstichprobe SH Fahrzeuge der Datei Auto_250 Leistung [PS] PREIS [EURO] N 117 117 Minimum Maximum Mittelwert 42 210 93,97 6637,89 36229,90 14675,71 Standardabweichung 37,03 5670,1055 Koeffizientena,b Nicht standardisierte Koeffizienten Modell 1 B 1407,303 141,205 (Konstante) Leistung [PS] 95%-Konfidenzintervall für B Standardfehler Untergrenze Obergrenze 557,744 302,520 2512,086 5,526 130,260 152,150 R ² = 0,850 a. Abhängige Variable: PREISEUR b. Ausschließliche Auswahl von Fällen, bei denen Karosserieform = SH Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 15 Regression IV Beispiel: Konfidenzintervalle für die Regressionskoeffizienten aller Autos mit Schrägheck (SH) Koeffizienten a,b Nicht standardisierte Koeffizienten Modell 1 (Konstante) Leistung [PS] B 1407,303 141,205 Standardfehler 557,744 5,526 95%-Konfidenzintervall für B Untergrenze 302,520 130,260 Obergrenze 2512,086 152,150 a. Abhängige Variable: PREISEUR b. Ausschließliche Auswahl von Fällen, bei denen Karosserieform = SH Interpretation: Für ein PS mehr Leistung muss man im Anschaffungspreis mit 130 bis 152 Euro mehr rechnen! Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 16 Regression IV 8 Konfidenzintervalle von Prognosewerten -AufgabenstellungenGrundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n<N ¾ Vertrauensgrenzen des Regresswertes E (Y0 ) = E (Y / x = x0 ) = β 1 + β 2 ⋅ x0 ¾ Vertrauensgrenzen eines individuellen Wertes yo y 0 = β 1 + β 2 ⋅ x0 + u 0 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 17 Regression IV Verteilungen des Stichprobenregresswertes Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n<N Regresswert in der Grundgesamtheit Verteilungen: E (Y0 ) = E (Y / x = x0 ) = β 1 + β 2 ⋅ x0 Z= Regresswert als Stichprobenfunktion: Yˆ0 − E (Y0 ) σ Yˆ Standardnormalverteilung 0 Yˆ0 = Eˆ (Y0 ) = B1 + B2 ⋅ x0 T= Erwartungswert und Varianz E (Yˆ0 ) = E (Y0 ) = β 1 + β 2 ⋅ x0 Var (Yˆ0 ) = σ Y2ˆ Yˆ0 − E (Y0 ) sYˆ 0 σˆ Yˆ = sYˆ = s E ⋅ 0 0 (x − x)2 1 + n 0 n ∑ ( xi − x ) 2 s E2 = 1 n ∑ ( yi − yˆ i )² n − 2 i =1 i =1 0 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Studentverteilung mit ν=n-2 Freiheitsgraden 18 Regression IV 9 Vertauensgrenzen der Regresswerte W [Yˆ0 − S Yˆ ⋅ t Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n 0 1− α 2 ; n−2 ≤ E (Y0 ) ≤ Yˆ0 + S Yˆ ⋅ t 0 1− α 2 ; n−2 ] = 1−α Standardfehler des durchschnittlichen Prognosewertes: n<N Regresswert in der Grundgesamtheit: (x − x)2 1 + n 0 n ∑ ( xi − x ) 2 σˆ Yˆ = sYˆ = s E ⋅ 0 0 i =1 E (Y0 ) = E (Y / x = x0 ) = β 1 + β 2 ⋅ x0 Punktschätzung des Regresswertes: Varianz der Residuen: Yˆ0 = Eˆ (Y0 ) = B1 + B2 ⋅ x0 yˆ 0 = b1 + b2 ⋅ x0 s E2 = 1 n ∑ ( yi − yˆ i )² n − 2 i =1 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 19 Regression IV Beispiel: Konfidenzintervall für den zu erwartenden Preis eines Autos Konfidenzintervall (95 %) für den mittleren Preis eines Autos der Leistung x0=125,37 PS Grundgesamtheit (Alle Fahrzeuge) Deskriptive Statistik Zufallsstichprobe 250 Fahrzeuge N Leistung [PS] PREISEUR yˆ i = -5311,03 + 216,03 ⋅ xi 250 250 W [Yˆ0 − S Yˆ ⋅ t yˆ 0 = -5311,03 + 216,03 ⋅ 125,37 = 21773,68 Regression Residuen Gesamt s E2 = Quadrat summe 4,E+10 7,E+09 5,E+10 df 1 248 249 Mittel der Quadrate 3,83E+10 29634224 1 n ∑ ( yi − yˆ i )² = 29634224 n − 2 i =1 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Minimum 42 6637,89 0 sYˆ = s E ⋅ 0 1− α 2 Maximum 367 110371,91 ; n−2 Standardab weichung 57,42 13541,7902 Mittelwert 125,37 21773,68 ≤ E (Y0 ) ≤ Yˆ0 + S Yˆ ⋅ t (x − x ) 2 1 + n 0 n ∑ (xi − x)2 0 t 1− α 2 ; n−2 1− α 2 ; n−2 ] = 1−α = t 0,975 ; 248 = 1,96 i =1 = 29634224 ⋅ 1 = 344,29 250 [ 21098,27 ≤ E ( Y 0 ) ≤ 22447,90 ] 20 Regression IV 10 Vertrauensgrenzen eines individuellen Wertes (Näherungsverfahren) Mittlere absolute Abweichung: Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n a = 1 n n ∑ i =1 y i − yˆ i Prognosebereich (Nährungsverfahren): n<N [ yˆ 0 − a ≤ y 0 ≤ yˆ 0 + a ] Individueller Wert: y0 = β1 + β2 ⋅ x0 +u0 Vorteil: Die Vertauensgrenzen sind leicht zu berechnen. Nachteil: Die Vertauensgrenzen lassen sich nicht wahrscheinlichkeitstheoretisch interpretieren. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 21 Regression IV Vertrauensgrenzen eines individuellen Wertes (Wahrscheinlichkeitstheoretisches Verfahren) Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n Prognosebereich (Konfidenzintervall): W [Yˆ0 − S F ⋅ t n<N 1− α 2 ; n−2 ≤ y 0 ≤ Yˆ0 + S F ⋅ t Yˆ0 = Eˆ (Y0 ) = B1 + B2 ⋅ x0 1− α 2 ; n−2 ] = 1−α yˆ 0 = b1 + b2 ⋅ x0 Individueller Wert: y 0 = β 1 + β 2 ⋅ x0 + u 0 Für individuelle Werte Standardfehler des individuellen Prognosewertes: Für mittlere Werte sF = sE ⋅ 1 + (x − x) 1 + n 0 n ∑ ( xi − x ) 2 2 Varianz der Residuen: i =1 s E2 = Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 1 n ∑ ( yi − yˆ i )² n − 2 i =1 22 Regression IV 11 Beispiel: Konfidenzintervall für den individuellen Wert (Preis eines Autos) Grundgesamtheit (Alle Fahrzeuge) Konfidenzintervall (95 %) für den individuellen Preis eines Autos der Leistung x0=125,37 PS Deskriptive Statistik Zufallsstichprobe 250 Fahrzeuge yˆ i = -5311,03 + 216,03 ⋅ xi N Leistung [PS] PREIS [EURO] yˆ 0 = -5311,03 + 216,03 ⋅ 125,37 = 21773,68 s E2 = 1 n ∑ ( yi − yˆ i )² = 29634224 n − 2 i =1 sF = sE ⋅ 1 + 250 250 Minimum 42 6637,89 W [Yˆ0 − S F ⋅ t Maximum 367 110371,91 1− α 2 ; n−2 Mittelwert 125,372 21773,68 ≤ y 0 ≤ Yˆ0 + S F ⋅ t Standardabweichung 57,4177 13541,7902 1− α 2 ; n−2 ] = 1−α [11082,05 ≤ E (Y0 ) ≤ 32464,12 ] (x − x) 1 + n 0 n ∑ ( xi − x ) 2 2 t 0 ,975 ; 248 = 1,96 i =1 = 29634224 ⋅ 1 + 1 = 5454,6091 250 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 23 Regression IV Beispiel: Vergleich der Genauigkeit der Schätzung für den mittleren und den individuellen Wert (Preis) Grundgesamtheit (Alle Fahrzeuge) Genauigkeit der Schätzung (Breite des Vertrauensbereiches ) Zufallsstichprobe 250 Fahrzeuge 2e = Obere Grenze - Untere Grenze Konfidenzintervall (95 %) für den mittleren Preis eines Autos der Leistung x0=125,37 PS W [Yˆ0 − S Yˆ ⋅ t 0 1− α 2 ; n−2 ≤ E (Y0 ) ≤ Yˆ0 + S Yˆ ⋅ t 0 1− α 2 ; n−2 ] = 1−α Konfidenzintervall (95 %) für den individuellen Preis eines Autos der Leistung x0=125,37 PS W [Yˆ0 − S F ⋅ t 1− α 2 ; n−2 ≤ y 0 ≤ Yˆ0 + S F ⋅ t 1− α 2 ; n−2 ] = 1−α [ 21098,27 ≤ E (Y0 ) ≤ 22447,90 ] [11082,05≤ E( y0 ) ≤ 32464,12] [2e = 22447,90 - 2109827 = 1349,62 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 2e = 32464,12 - 11082,05 = 21382,07 24 Regression IV 12 Beispiel: Konfidenzbreite (Konfidenniveau 95 %) des Mittelwertes des Preises für bestimmte PS Deskriptive Statistik Grundgesamtheit (Alle Fahrzeuge) N Leistung [PS] PREISEUR Zufallsstichprobe 250 Fahrzeuge s E2 = x0 = 29634224 0 y0-Dach 367 Mittelwert 125,37 21773,68 ≤ E(Y0 ) ≤ Yˆ0 + SYˆ ⋅ t 0 Standardfehler Untere Grenze α Standardab weichung 57,42 13541,7902 1− ; n −2 2 Obere Grenze ] = 1−α Breite 3762,23 607,8168 2570,91 4953,55 2382,64 344,2919 21098,27 22447,90 1349,63 110371,90 1491,9824 71047,69 76896,27 5848,58 125,372 (x − x) 1 + n 0 n ∑ ( xi − x ) 2 Maximum 367 110371,91 21773,68 42 2 α 1− ; n−2 2 0 1 n ∑ ( yi − yˆ i )² n − 2 i =1 sYˆ = s E ⋅ 250 250 W[Yˆ0 − SYˆ ⋅ t yˆ i = -5311,03 + 216,03 ⋅ xi Minimum 42 6637,89 i =1 n n 1 s = ⋅ ∑ ( xi − x ) 2 ⇒ ∑ ( xi − x ) 2 = (n − 1) ⋅ s X2 = 249 ⋅ 57,42 = 820967,04 n − 1 i =1 i =1 2 X Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 25 Regression IV Beispiel: Konfidenzbereiche (Konfidenzniveau 95 %) für den Mittelwert und für individuelle Werte sYˆ = s E ⋅ 120000,00 0 sF = sE ⋅ 1 + i =1 100000,00 Preis in EURO (x − x)2 1 + n 0 n ∑ ( xi − x ) 2 (x − x)2 1 + n 0 n ∑ ( xi − x ) 2 i =1 80000,00 2e = 2 ⋅ S ⋅ t α 1− ; n−2 2 60000,00 40000,00 n ∑ (x 20000,00 i =1 i − x ) 2 = 820967,04 0,00 -20000,00 0 50 100 150 200 250 300 350 400 Leistung in PS Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 26 Regression IV 13 Beispiel: Klausuraufgabe Juli 2002 4. Aufgabe Ein Reifenhersteller prüft den Zusammenhang zwischen Profiltiefe X (in mm) und Bremsweg Y (in m) bei nasser Fahrbahn aus einer Geschwindigkeit von 100 km/h. Bei 25 Versuchen mit Profiltiefen zwischen 4 und 8 mm gelangt er zu folgenden Ergebnissen: Σxi = 150 Σyi = 1.850 Σxi yi = 10.996 Σ(xi)² = 952 Σ(yi)² = 137.204 4.1 Bestimmen und interpretieren Sie die Koeffizienten der linearen Regressionsfunktion. 4.2 Ermitteln Sie ein 95 %-Konfidenzintervall für den Regressionskoeffizienten ß2. 4.3 Berechnen Sie das Bestimmtheitsmaß, testen Sie es gegen Null (α = 0,05) und interpretieren Sie die Testentscheidung. 4.4 In welchem Bereich liegt ein einzelner Bremsweg mit Reifen der Profiltiefe 4,5 mm? Verwenden Sie für diese Angabe ein Konfidenzniveau von 95 Prozent. Noch nicht lösbar, erst mit den Kenntnissen der nächsten Vorlesung! Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 27 Regression IV Beispiel: Klausuraufgabe Juli 2002 (Lösung 4.1) 4. Aufgabe Ein Reifenhersteller prüft den Zusammenhang zwischen Profiltiefe X (in mm) und Bremsweg Y (in m) bei nasser Fahrbahn aus einer Geschwindigkeit von 100 km/h. Bei 25 Versuchen mit Profiltiefen zwischen 4 und 8 mm gelangt er zu folgenden Ergebnissen: Σxi = 150 Σyi = 1.850 Σxi yi = 10.996 Σ(xi)² = 952 Σ(yi)² = 137.204 4.1 Bestimmen und interpretieren Sie die Koeffizienten der linearen Regressionsfunktion. b2 = n n n i =1 i =1 i =1 n ∑ x i y i − ∑ xi ∑ y i ⎛ n ⎞ n∑ x − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n 2 = 25 ⋅ 10996 − 150 ⋅ 1850 2 i 25 ⋅ 952 − (150 ) 2 b1 = y − b2 x = = −2,0 1850 150 − (−2) ⋅ = 86 25 25 yˆ = 86 − 2 x b2: Bei Zunahme der Profiltiefe um 1 mm sinkt der Bremsweg um 2 m. b1: Es wäre der Bremsweg 86 m bei Profiltiefe 0 mm, das ist hier ohne praktische Bedeutung. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 28 Regression IV 14 Beispiel: Klausuraufgabe Juli 2002 (Lösung 4.2) 4. Aufgabe Ein Reifenhersteller prüft den Zusammenhang zwischen Profiltiefe X (in mm) und Bremsweg Y (in m) bei nasser Fahrbahn aus einer Geschwindigkeit von 100 km/h. Bei 25 Versuchen mit Profiltiefen zwischen 4 und 8 mm gelangt er zu folgenden Ergebnissen: Σxi = 150 Σyi = 1.850 Σxi yi = 10.996 Σ(xi)² = 952 Σ(yi)² = 137.204 4.2 Ermitteln Sie ein 95 %-Konfidenzintervall für den Regressionskoeffizienten ß2. W [B j − S Bj ⋅ t b2 − S B2 ⋅ t 1− α 2 1− α 2 ; n−2 ; n −2 yˆ = 86 − 2 x t 1− α 2 ; n−2 ≤ β j ≤ B j + SBj ⋅ t ≤ β 2 ≤ b2 + S B2 ⋅ t 1− α 2 ; n−2 ] = 1−α n ∑ (x i =1 1− α 2 ; n−2 n i − x )² = ∑ xi2 − nx ² i =1 150 = 952 − 25 ⋅ ( )² = 52 25 b2 = −2 = t 0,975 ; 23 = 2,069 s E2 s B2 = s B22 = n n 1 ⎡n 2 ⎤ s = y j − b1 ∑ y i − b 2 ∑ x i y i ⎥ ∑ ⎢ n − 2 ⎣ i =1 i =1 i =1 ⎦ n ∑ (x 2 E i =1 i = 0,2833 − x )² − 2 − 0,2833 ⋅ 2,069 ≤ β 2 ≤ −2 + 0,2833 ⋅ 2,069 1 = [137204 − 86 ⋅ 1850 + 2 ⋅ 10996] = 4,1739 23 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik − 2 , 59 ≤ β 2 ≤ − 1, 41 29 Regression IV Beispiel: Klausuraufgabe Juli 2002 (Lösung 4.4) 4. Aufgabe Ein Reifenhersteller prüft den Zusammenhang zwischen Profiltiefe X (in mm) und Bremsweg Y (in m) bei nasser Fahrbahn aus einer Geschwindigkeit von 100 km/h. Bei 25 Versuchen mit Profiltiefen zwischen 4 und 8 mm gelangt er zu folgenden Ergebnissen: Σxi = 150 Σyi = 1.850 Σxi yi = 10.996 Σ(xi)² = 952 Σ(yi)² = 137.204 4.4 In welchem Bereich liegt ein einzelner Bremsweg mit Reifen der Profiltiefe 4,5 mm? Verwenden Sie für diese Angabe ein Konfidenzniveau von 95 Prozent. W [Yˆ0 − S F ⋅ t yˆ 0 − S F ⋅ t t 1− α 2 ; n−2 1− α 2 1− α 2 ; n−2 ; n−2 ≤ y 0 ≤ Yˆ0 + S F ⋅ t ≤ y 0 ≤ yˆ 0 + S F ⋅ t 1− α 2 1− α 2 ; n−2 ] = 1−α sF = sE ⋅ 1 + i =1 ; n−2 = t 0,975 ; 23 = 2,069 1 = 4,1739 ⋅ 1 + + 25 yˆ 0 = 86 − 2 ⋅ 4,5 = 77 s E2 = n n 1 ⎡ n 2 ⎤ y j − b1 ∑ y i − b2 ∑ xi y i ⎥ = 4,1739 ∑ ⎢ n − 2 ⎣ i =1 i =1 i =1 ⎦ Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik (x − x)2 1 + n 0 n ∑ ( xi − x ) 2 150 )² 25 = 2,1264 150² 952 − 25 ( 4,5 − 77 − 2,1264 ⋅ 2,069 ≤ y 0 ≤ 77 + 2,1264 ⋅ 2,069 72 , 6 ≤ y 0 ≤ 81 , 4 30 Regression IV 15