Stichprobenmodell der linearen Einfachregression ¾Stichprobenmodell der linearen Einfachregression ¾Verteilung der Stichprobenkoeffizienten Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 1 Bibliografie: ¾ Prof. Dr. Kück Universität Rostock Statistik, Vorlesungsskript. Abschnitt 8.4.1 und 8.4.2 ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen 2004 Statistik für Wirtschaftswissenschaftler ¾ http://www.wiwi.uni-rostock.de/~stat/download.htm Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 2 1 Lineare Einfachregression -Beschreibendes ModellGrundgesamtheit (xi, yi) i=1, . . . , N KQ - Regressionskoeffizienten N b1 = N N N ∑x ∑y −∑x ∑x y i =1 2 i i =1 i i =1 i i =1 ⎛ N ⎞ N ∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ N i N i b2 = 2 N N i =1 i =1 N ∑ xi y i − ∑ xi ∑ y i i =1 ⎛ N ⎞ N ∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n 2 Bei einer per Annahme fest umrissenen Gesamtheit interessiert nur die Beschreibung des Zusammenhanges zwischen den Merkmalen X und Y für diese definierte Gesamtheit. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 3 Lineare Einfachregression -StichprobenmodellGrundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n<N Bei einer als Stichprobe gewonnenen Teilgesamtheit interessiert bei der Untersuchung eines linearen einfachen Zusammenhanges, ob dieser generell, d. h. auch in der übergeordneten Grundgesamtheit, existiert. Die Regressionskoeffizienten β1 und β2 sind feste Parameter der Grundgesamtheit. Sie lassen sich mit Hilfe von Stichproben schätzen. Statistische Tests der Parameterwerte sind auch durchzuführen. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 4 2 Zufälliger Charakter des Merkmals Y beim Stichprobenmodell Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n<N Nehmen wir an, dass zwischen den Merkmalen X und Y in der Grundgesamtheit ein perfekter linearer Zusammenhang besteht. Die bivariate Verteilung (X, Y) wird an bestimmten festen Stellen xi (i=1, 2, . . . , p) des Merkmals X beobachtet, d. h. X wäre in diesem Zusammenhang keine Zufallsvariable. Denkbar ist, dass in einer Stichprobenziehung zwischen dem beobachteten Wert yi und dem theoretischen Wert y‘i an der Stelle xi eine bestimmte zufällige Abweichung ui auftritt. Die Werte ui und damit die Werte yi können als Realisationen der Zufallsvariablen Ui (Störvariable) bzw. Yi (zu erklärende Variable) angesehen werden. Die Verteilung der Zufallsvariablen Yi hängt je i von der Verteilung der Störvariablen Ui ab. Man schreibt: Yi = β 1 + β 2 x i + U {i 142 4 3 systematis che Komponente Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III zufällige Komponente 5 Lineare Einfachregression Beschreibendes Modell Grundgesamtheit (Gesamtheit) (xi, yi) i=1, . . . , N Stichprobenmodell Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n<N Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 6 3 Beispiel: Lineare Einfachregression - Beschreibendes ModellPreis [Euro] 120000 Grundgesamtheit (250 Fahrzeuge) (Leistung, Preis) 100000 yˆ i = b1 + b2 ⋅ xi 80000 60000 40000 20000 Beobachtet N b1 = b2 = N N N ∑x ∑y −∑x ∑x y 2 i i =1 i =1 i i =1 i i i =1 ⎛ N ⎞ N ∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ N N N N i =1 i =1 i =1 ⎛ N ⎞ N ∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ 2 Linear 0 i 100 200 300 400 Leistung [PS] = −5311,03 2 N ∑ xi y i − ∑ xi ∑ y i n 0 yˆ i = -5311,03 + 216,03 ⋅ xi r 2 = 0,839 n = 216,03 r2 = B = 1− SQR = 1− SQT ∑(y i =1 n i − yˆ i )² ∑ ( yi − y )² = 0,839 i =1 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 7 Regression III Beispiel: Lineare Einfachregression - StichprobenmodellPreis [Euro] Grundgesamtheit (Alle Fahrzeuge) 120000 100000 80000 Zufallsstichprobe 250 Fahrzeuge 60000 40000 20000 Beobachtet Linear 0 0 100 200 300 400 Leistung [PS] Yi = β 1 + β 2 ⋅ xi + U i βˆ1 = b1 = −5311,03 y = E (Y / xi ) = β 1 + β 2 ⋅ xi ' i βˆ 2 = b2 = 216,03 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik yˆ i' = -5311,03 + 216,03 ⋅ xi ρˆ 2 = r 2 = 0,839 Regression III 8 4 Beispiel: Lineare Einfachregression - Beschreibendes und StichprobenmodellBeschreibendes Modell Preis [Euro] yˆ i = b1 + b2 ⋅ xi 120000 100000 Grundgesamtheit (250 Fahrzeuge) (Leistung, Preis) 80000 yˆ i = -5311,03 + 216,03 ⋅ xi 60000 40000 20000 Beobachtet Linear 0 0 100 200 300 r 2 = 0,839 400 Leistung [PS] Stichprobenmodell Yi = β 1 + β 2 ⋅ xi + U i Grundgesamtheit (Alle Fahrzeuge) ?Schätzung der Parameter? yi' = E (Y / xi ) = β 1 + β 2 ⋅ xi βˆ1 = b1 = −5311,03 Zufallsstichprobe 250 Fahrzeuge βˆ 2 = b2 = 216,03 ρˆ 2 = r 2 = 0,839 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 9 Regression III Annahmen des einfachen linearen Stichprobenmodells Yi = β 1 + β 2 ⋅ xi + U i Stichprobenmodell E (Yi ) = β 1 + β 2 xi Annahme 1: E (U i ) = 0 Annahme 2: Var (U i ) = σ U2 Annahme 3: Cov (U i , U j ) = 0 Annahme 4: U i ~ N (0, σ U2 ) Für alle i Annahme 5: Cov ( X , U i ) = 0 Für alle i Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Für alle i Gleichheit der Varianzen, Homoskedastizität Für alle i und alle j mit i≠j Regression III Für alle i Die Störvariablen sollen unkorreliert bzw. unabhängig von einander sein Die Störvariablen sollen normalverteilt sein. Die Variable X und die Störvariablen sollen unkorreliert sein. 10 5 Auswirkung der Annahme 1 Yi = β 1 + β 2 ⋅ xi + U i Annahme 1: Stichprobenmodell E (U i ) = 0 y i' = E (Yi / xi ) = β 1 + β 2 xi Für alle i Inhaltlich bedeutet diese Voraussetzung, dass das mittlere Niveau der Variablen Y bei einem fest vorgegebenen Wert der Variablen X nur durch die Regressionsfunktion und die darin enthaltene erklärende Variable X bestimmt ist. Die anderen Einflüsse auf die Variable Y, die in der zufälligen Störvariablen Ui enthalten sind, werden bei der Mittelung ausgeschaltet. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 11 Auswirkung der Annahme 2 Yi = β 1 + β 2 ⋅ xi + U i Annahme 2: Stichprobenmodell Var (U i ) = σ U2 Für alle i Diese Eigenschaft der Störvariablen U wird als Homoskedastizität bezeichnet. Sie unterstellt, dass die aufgrund des zufälligen Charakters in der Störvariablen (noch) enthaltenen Verursachungsfaktoren von Beobachtungsobjekt zu Beobachtungsobjekt in gleicher Weise wirken. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 12 6 Auswirkung der Annahme 3 Yi = β 1 + β 2 ⋅ xi + U i Stichprobenmodell Cov (U i , U j ) = 0 Annahme 3: Für alle i und alle j mit i≠j Die Störvariablen Ui und Uj auf verschiedenem Niveau der Variablen X sollen nicht miteinander korreliert sein. Sie sollen im wahrscheinlichkeitstheoretischen Sinne voneinander unabhängig sein. f (u i , u j ) = f U i (u i ) ⋅ f U j (u j ) Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 13 Regression III Auswirkung der Annahme 4 Yi = β 1 + β 2 ⋅ xi + U i Annahme 4: Stichprobenmodell U i ~ N (0, σ U2 ) Yi ~ N ( β 1 + β 2 xi , σ U2 ) Für alle i Die Störvariablen sollen normalverteilt sein. Diese Voraussetzung unterstellt, dass die Störvariable U keine wesentlichen Einflussfaktoren auf die Variable Y enthält, sondern eine Vielzahl von unbedeutenden, nicht korrelierten Zufallseinflüssen. Diese Annahme bedeutet aufgrund des Beziehungsgefüges zwischen den Variablen gleichzeitig, dass die Zufallsvariablen Y1, . . . , Yn normalverteilt sind. Solche Verteilungsannahmen werden für Intervallschätzungen und Tests benötigt. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 14 7 Auswirkung der Annahme 5 Yi = β 1 + β 2 ⋅ xi + U i Annahme 5: Stichprobenmodell Cov ( X , U i ) = 0 Für alle i Die erklärende Variable X soll nicht mit der Störvariablen U korreliert sein. In dieser Voraussetzung kommt auch zum Ausdruck, dass die Variable X die Variable Y erklärt, aber nicht umgekehrt. Es wird also eine einseitige Abhängigkeit der Variablen Y von der Variablen X vorausgesetzt. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 15 Veranschaulichung des Annahmenkomplexes Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 16 8 KQ-Schätzungen der Regressionskoeffizienten für eine konkrete Stichprobe Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n βˆ1 = b1 = n n n ∑x ∑y −∑x ∑x y 2 i i =1 i =1 i i =1 i i =1 2 i i n ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n βˆ 2 = b2 = n<N n n n∑ xi y i − ∑ xi ∑ y i i =1 i =1 i =1 ⎛ ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n n 2 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 17 KQ-Schätzungen der Regressionskoeffizienten für eine 2. konkrete Stichprobe Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n βˆ1 = b1 = n n n ∑x ∑y −∑x ∑x y 2 i i =1 i =1 i i =1 i i =1 2 i i n ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n βˆ 2 = b2 = n<N n n i =1 i =1 n∑ xi y i − ∑ xi ∑ y i i =1 ⎛ n ⎞ n∑ x − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n 2 2 i Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 18 9 KQ-Schätzer der Regressionskoeffizienten als Stichprobenfunktionen Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n n n n<N n n ∑ x ∑Y − ∑ x ∑ x Y βˆ1 = B1 = 2 i i =1 i =1 i i =1 i i =1 2 i i n ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ βˆ 2 = B2 = n n n i =1 i =1 i =1 n∑ xi Yi − ∑ xi ∑ Yi n ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ 2 Die Schätzer B1 und B2 der wahren Regressionskoeffizienten können als Stichprobenfunktionen (Zufallsvariablen) betrachtet werden. Die Schätzungen b1 und b2 für jede konkrete ausgewählte Stichprobe sind Realisationen dieser Zufallsvariablen. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 19 Regression III Aufgabenstellung bei der Stichprobenregression Grundgesamtheit i=1, . . . , N Zufallsstichprobe (xi, yi) i=1, . . . , n Yi = β1 + β2 x i + 1424 3 systematische Komponente n<N U {i zufällige Komponente ¾ Verteilung von Regressions- und Korrelationskoeffizienten, ¾ Vertrauensgrenzen von Regressions- und Korrelationskoeffizienten ¾ Vertrauensgrenzen der Regresswerte, ¾ Vertrauensgrenzen einer einzelnen Beobachtung für das Merkmal Y, ¾ Statistische Prüfung von Korrelationskoeffizienten ¾ Statistische Prüfung des Bestimmtheitsmaßes ¾ Statistische Prüfung von Regressionsparametern Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression III 20 10 Eigenschaften der Stichprobenkoeffizienten bei linearer Einfachregression Grundgesamtheit i=1, . . . , N Yi = β 1 + β 2 xi + U i Zufallsstichprobe (xi, yi) i=1, . . . , n KQ - Regressionskoeffizienten n βˆ1 = B1 = n n n ∑ x ∑Y − ∑ x ∑ x Y i =1 2 i i =1 i i =1 i i =1 2 i i βˆ 2 = B2 = n ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n n n i =1 i =1 i =1 n∑ xi Yi − ∑ xi ∑ Yi n ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ 2 1. Erwartungstreu: E ( B j / xi ) = E ( B j ) = β j 2. Effizient: E ( B j − β j ) 2 ≤ E ( B *j − β j ) 2 3. Konsistent: 1. 2. lim [ E ( B n→∞ j lim Var ( B n→∞ Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik n<N )− βj]= 0 j )= lim n→∞ Für j=1, 2 Für jedes andere B*j Asymptotisch unverzerrt E(B j − β j ) 2 = 0 Asymptotisch effizient 21 Regression III Verteilung der Stichprobenkoeffizienten bei bekannten Varianzen Bei Erfüllung der Annahmen über die Störvariable U sind die Schätzer der Regressionskoeffizienten des Stichprobenmodells als Stichprobenfunktionen normalverteilt mit dem Erwartungswert βj und der Varianz σ²Bj. Sind die Varianzen σ²Bj bekannt, dann gelten: B j ~ N ( β j , σ B2 j ) KQ - Regressionskoeffizienten βˆ 2 = B2 βˆ1 = B1 Z= 0,5 U i ~ N (0, σ ) 0,4 E (U i ) = 0 Var (U i ) = σ U2 0,2 2 U Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik σB ~ N(0, 1) j Für j=1, 2 Annahmen Cov (U i , U j ) = 0 Bj − β j fN(z) 0,3 0,1 0 -4 -3 -2 Regression III -1 0 1 2 3 z 4 22 11 Verteilung der Stichprobenkoeffizienten bei unbekannten Varianzen Bei Erfüllung der Annahmen über die Störvariable U und unbekannten Varianzen σ²Bj der Schätzer der Regressionskoeffizienten des Stichprobenmodells gelten: KQ - Regressionskoeffizienten βˆ1 = B1 βˆ 2 = B2 t= B j ~ N( β j , σ B2 j ) Bj − β j sBj Für j=1, 2 n ∑x Annahmen U i ~ N(0, σ U2 ) σˆ 2 B1 =s 2 B1 = i =1 2 i n n∑ ( xi − x )² i =1 E (U i ) = 0 Var (U i ) = σ U2 mit s E2 = Cov(U i , U j ) = 0 = Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik ~ t (n -2) Regression III s 2 E σˆ B2 = s B2 = 2 12 s E2 n ∑ (x i =1 i − x )² 1 n 2 1 n ei = ∑ ∑ ( yi − yˆ i )² n − 2 i =1 n − 2 i =1 n n 1 ⎡ n ⎤ y i − b1 ∑ y i − b2 ∑ xi y i ⎥ ∑ ⎢ n − 2 ⎣ i =1 i =1 i =1 ⎦ 23 12