Regressionsanalyse ¾ Einführung, Allgemeines ¾ Methode der kleinsten Quadrate zur Bestimmung der Parameter der linearen Einfachregression ¾ Eigenschaften der linearen KleinstQuadrate-Einfachregression ¾ Lineares Bestimmtheitsmaß Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 1 Regression I Bibliografie: ¾ Prof. Dr. Kück Universität Rostock Statistik, Vorlesungsskript, Abschnitt 8.3.1 ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen 2004 Statistik für Wirtschaftswissenschaftler ¾ http://www.wiwi.uni-rostock.de/~stat/download.htm Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 2 Regression I 1 Regressionsanalyse -AufgabenstellungUnabhängige Merkmale (Regressoren) Aufgabe: Bestimmung einer mathematischen Funktion f, welche die durchschnittliche Tendenz der Abhängigkeit der Variablen Y von den Variablen X1, X2, . . . , Xk möglichst gut beschreibt. X1 Abhängiges Merkmal (Regressand) Mathematische Funktion (Regressionsfunktion) X2 Y Yˆ = f ( X 1 , X 2 , K , X k ) . . . Xk lineare Einfachregression Yˆ = β 1 + β 2 X lineare Mehrfachregression nichtlineare Regression Yˆ = β 1 + β 2 X 2 + β 3 X 3 + K + β k X k Linearisierbar Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Nicht linearisierbar 3 Regression I Beispiel: Zusammenhang zwischen Verkaufsfläche und Umsatz Umsatz (Y) (in Mill. EUR) 1 150 3 2 180 8 3 420 19 4 480 22 5 660 31 6 1000 42 7 1300 48 8 1500 52 9 1600 54 10 1710 61 9000 340 900 34 Summe Mittelwert Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Streudiagram 70 Umsatz in Mill. EUR Verkaufsfläche (in m²) Filialnr. 60 50 40 30 20 10 0 0 200 400 600 800 1000 1200 1400 1600 1800 Fläche in m² Man erkennt eine starken linearen Zusammenhang zwischen Verkaufsfläche und Umsatz. Yˆ = f ( X ) = β0 + β1 X 4 Regression I 2 Beispiel: Abhängigkeit zwischen Geburtsgewicht und Körperhöhe der Mutter Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 5 Regression I Beispiel: Abhängigkeit zwischen Geburtsgewicht und Körpergewicht der Mutter Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 6 Regression I 3 Beispiel: Abhängigkeit zwischen Geburtsgewicht und Alter der Mutter Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 7 Regression I Beispiel: Zusammenhang zwischen Verbrauch und Leistung Enger Zusammenhang zwischen Verbrauch des Autos und Leistung des Motors in (grafischer) Auswertung der 250 Fahrzeuge. Welche mathematische Funktion beschreibt am besten die Abhängigkeit des Verbrauches von der Leistung des Motors? Kraftstoffverbrauch durchschnittlich [l/100km] 16 14 12 10 8 6 4 0 100 200 300 400 Daten: auto_250.sav Leistung [PS] Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 8 Regression I 4 Beispiel: Abhängigkeit zwischen Verbrauch und Leistung Kraftstoffverbrauch durchschnittlich [l/100km] 16 yˆ = f1 ( x) = b1 + b2 x 14 yˆ = f 2 ( x) = b1 + b2 x + b3 x ² 12 yˆ = f 3 ( x) = b1 + b2 ln x 10 8 Beobachtet Linear 6 4 0 100 200 300 Logarithmisch Regression Rsq (B) Quadratisch Linear 0,759 Quadratisch 0,770 Logarithmisch 0,744 400 Leistung [PS] Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 9 Regression I Beispiel: Zusammenhang zwischen Preis und Leistung 140000 Enger Zusammenhang zwischen Preis des Autos und Leistung des Motors in (grafischer) Auswertung der 250 Fahrzeuge. Welche mathematische Funktion beschreibt am besten die Abhängigkeit des Preises von der Leistung des Motors? 120000 100000 80000 Preis [EURO] 60000 40000 20000 0 0 100 200 Leistung [PS] Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 300 400 Daten: auto_250.sav 10 Regression I 5 Beispiel: Abhängigkeit zwischen Preis und Leistung Preis [EURO] 140000 yˆ = f 1 ( x ) = b1 + b 2 x 120000 yˆ = f2(x) =b1 +b2x+b3x² 100000 80000 60000 Beobachtet 40000 20000 0 0 100 200 300 yˆ = f 3 ( x) = e b1 +b2 x Linear Regression Rsq (B) Quadratisch Linear 0,839 Exponentiell Quadratisch 0,897 Exponential 0,859 400 Leistung [PS] Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 11 Regression I Lineare Einfachregression Residuen : Abweichungen zwischen Beobachtungen und geschätzten Werten P ( xi , y i ) yi ei = y i − yˆ i ŷ i Regressionsgerade yˆ = f ( x ) = b1 + b2 x b1: Ordinatenabschnitt b2: Steigung b 2 = tan θ Regressionsfunktion θ xi x[1] x[n] b1 und b2 : Koeffizienten oder Parameter der Regression Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 12 Regression I 6 Methode der kleinsten Quadrate (MKQ) ei = y i − yˆ i Residuenquadrat P ( xi , y i ) Residuen yi yˆ = b1 + b2 x ŷ i Minimierung der Summe der Abweichungsquadrate SAQ n n i =1 i =1 SAQ(b1 , b2 ) = ∑ ei2 = ∑ ( y i − yˆ i ) 2 n x[1] xi Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik x[n] = ∑ ( y i − b1 − b2 xi ) 2 i =1 13 Regression I Normalgleichungen der MKQ Minimierung der Summe der Abweichungsquadrate SAQ n n i =1 i =1 yˆ i = b1 + b2 xi n SAQ(b1 , b2 ) = ∑ ei2 = ∑ ( y i − yˆ i ) 2 = ∑ ( y i − b1 − b2 xi ) 2 i =1 δSAQ(b1 , b2 ) δSAQ(b1 , b2 ) = =0 δb1 δb2 Notwendige Bedingung Normalgleichungen: n n n n n δSAQ(b1 , b2 ) = −2∑ ( y i − b1 − b2 xi ) = 0 ⇒ ∑ y i − nb1 − b2 ∑ xi = 0 ⇒ nb1 + b2 ∑ xi = ∑ y i δb1 i =1 i =1 i =1 i =1 i =1 n n n n δSAQ(b1 , b2 ) = −2∑ xi ( y i − b1 − b2 xi ) = 0 ⇒ ∑ xi y i − b1 ∑ xi − b2 ∑ xi2 = 0 δb2 i =1 i =1 i =1 i =1 n n n i =1 i =1 i =1 ⇒ b1 ∑ xi + b2 ∑ xi2 = ∑ xi y i Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 14 Regression I 7 Lösung des Normalgleichungssystems n n n i =1 i =1 ∑y nb1 + b2 ∑ xi = ∑ y i ⇒ b1 = n n i =1 n i − b2 n n ∑x i =1 i = y − b2 x n n n n i =1 i =1 i =1 b1 ∑ xi + b2 ∑ xi2 = ∑ xi y i ⇒ ( y − b2 x )∑ xi + b2 ∑ xi2 = ∑ xi y i i =1 i =1 i =1 n n n n n n n n i =1 i =1 i =1 i =1 i =1 i =1 i =1 i =1 ⇒ y ∑ xi − b2 x ∑ xi + b2 ∑ xi2 = ∑ xi y i ⇒ −b2 x ∑ xi + b2 ∑ xi2 = ∑ xi y i − y ∑ xi n n n n i =1 i =1 i =1 i =1 ⇒ b2 (∑ xi2 − x ∑ xi ) = ∑ xi y i − y ∑ xi n n ⇒ b2 = n ∑ xi y i − y ∑ xi i =1 n ∑x i =1 i =1 n 2 i − x ∑ xi n = ∑ xi yi − n ∑y ∑x i i =1 n i =1 i =1 i =1 n ∑x ∑x i =1 n ∑ xi2 − Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik i =1 i i =1 n = n n i n n i =1 i =1 2 n∑ xi y i − ∑ y i ∑ x i i =1 ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n i 15 Regression I Andere Formeln für die Parameter der linearen Einfachregression yˆ = b1 + b2 x n b1 = Für den Ordinatenschnittpunkt: ∑ i =1 b1 = y − b 2 x Für die Steigung: b2 = Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik n i =1 i =1 n n∑ i =1 n n n i =1 i =1 i =1 n∑ xi yi − ∑ xi ∑ yi n ⎛ n ⎞ n∑ xi2 − ⎜ ∑ xi ⎟ i =1 ⎝ i=1 ⎠ 2 n n x i2 ∑ y i − ∑ x i ∑ x i y i b2 = i =1 ⎛ ⎞ x − ⎜ ∑ xi ⎟ ⎝ i =1 ⎠ n 2 2 i sy xy−x⋅ y sxy = 2 =r⋅ sx x2 −x2 sx 16 Regression I 8 Beispiel: Zusammenhang zwischen Verkaufsfläche und Umsatz Für 10 Filialen einer Handelskette soll untersucht werden, welcher Zusammenhang zwischen Verkaufsfläche (in m²) und Umsatz (in Mill. EUR) besteht. Fläche Umsatz (Y) Streudiagram 1 150 3 2 180 8 3 420 19 4 480 22 5 660 31 6 1000 42 7 1300 48 8 1500 52 9 1600 54 10 Summe Mittelwert 1710 61 9000 340 900 34 70 Umsatz in Mill. EUR Filialnr. 60 50 40 yˆ = b1 + b2 x 30 20 10 0 0 200 400 600 800 1000 1200 1400 1600 1800 Fläche in m² rxy = 0,916 Man erkennt eine starken linearen Zusammenhang zwischen Verkaufsfläche und Umsatz. Diese Abhängigkeit lässt sich durch lineare Einfachregression erklären. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 17 Regression I Beispiel: Berechnung der Parameter der Einfachregression Filiale Nr. Fläche (xi) Umsatz (yi) 1 150 3 x²i 22500 y²i xiyi 9 450 2 180 8 32400 64 1440 3 420 19 176400 361 7980 4 480 22 230400 484 10560 5 660 31 435600 6 7 1000 42 1300 48 8 1500 9 10 Summe Mittelwert 961 20460 1000000 1764 42000 1690000 2304 62400 52 2250000 2704 78000 1600 54 2560000 2916 86400 1710 61 2924100 3721 104310 9000 340 11321400 15288 414000 900 34 yˆ = b1 + b 2 x n b2 = n n i =1 i =1 n ∑ xi y i − ∑ x i ∑ y i i =1 ⎛ n ⎞ n∑ x − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n 2 2 i = 10 ⋅ 414000 − 9000 ⋅ 340 10 ⋅ 11321400 − (9000 ) 2 = 0,0335 b1 = y − b2 x = 34 − 0,0335 ⋅ 900 = 3,8268 yˆ = 3,8268 + 0,0335 x Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 18 Regression I 9 Eigenschaften der linearen KleinstQuadrate-Einfachregression (1) 1. Die Summe der Residuen ist Null n n n δSAQ(b1 , b2 ) = −2∑ ( y i − b1 − b2 xi ) = 0 ⇒ ∑ ( y i − yˆ i ) = ∑ ei = 0 δb1 i =1 i =1 i =1 2. Die Summe der Produkte xiei (i=1, 2, . . . , n) ist Null n n n δSAQ(b1 , b2 ) = −2∑ xi ( y i − b1 − b2 xi ) = 0 ⇒ ∑ xi ( y i − yˆ i ) = ∑ xi ei = 0 δb2 i =1 i =1 i =1 3. Das arithmetische Mittel der beobachteten Werte yi ist gleich dem arithmetischen Mittel der geschätzten Werte yi-Dach n n n ∑e = ∑(y i =1 i i =1 i n n n n i =1 i =1 i =1 i =1 − yˆ i ) = 0 ⇒ ∑ y i − ∑ yˆ i = 0 ⇒ ∑ y i = ∑ yˆ i ⇒ Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik ∑y i =1 n n i = ∑ yˆ i =1 i n ⇒ y = yˆ 19 Regression I Eigenschaften der linearen KleinstQuadrate-Einfachregression (2) 4. Die Regressionsgerade verläuft durch den Datenschwerpunkt n x= ∑x i =1 i y i − yˆ i = ei ⇒ y i = b1 + b2 xi + ei n n y= ∑y i =1 n n i =1 i =1 ⇒ ∑ y i = nb1 + b2 ∑ xi + ∑ ei ⇒ y = b1 + b2 x n i =1 i Streudiagram n y = 34 Umsatz in Mill. EUR 70 P ( x, y) 60 50 40 30 20 10 0 0 200 400 600 800 x = 900 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 1000 1200 1400 1600 1800 Fläche in m² 20 Regression I 10 Zerlegung der Abweichungsquadratsumme yi − y P ( xi , y i ) yi yˆ i − y ŷ i y Residuen oder nichterklärte Abweichungen X Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Durch das Modell erklärte Abweichung ei = yi − yˆi yˆ = f ( x ) = b1 + b2 x xi Zu erklärende Abweichung 21 Regression I Zerlegung der Abweichungsquadratsumme n n ∑( y n − y)² = ∑( yi − yˆ i )² + ∑( yˆ i − y)² i =1 i =1 14243 1 4243 1 4243 i =1 yi i SQT SQR SQE ŷ i y SQT: Quadratsumme der zu erklärenden Abweichung (SQy) = SQR: Quadratsumme der nicht erklärten Abweichung (Restabweichung, Residuen) + SQE: Quadratsumme der durch die Regression erklärten Abweichung Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 22 Regression I 11 Zerlegung der Abweichungsquadratsumme y i − y = y i − yˆ i + yˆ i − y ⇒ ( y i − y )² = ( y i − yˆ i )² + 2( y i − yˆ i )( yˆ i − y ) + ( yˆ i − y )² n n n n ⇒ ∑ ( y i − y )² = ∑ ( y i − yˆ i )² + 2∑ ( y i − yˆ i )( yˆ i − y ) + ∑ ( yˆ i − y )² i =1 i =1 i =1 1 1 4243 1 4243 1i =4 4424443 1 4243 SQT 2 A= 0 SQR n n i =1 i =1 (a + b)² = a ² + 2ab + b ² A = ∑ ( y i − yˆ i )( yˆ i − y ) = ∑ ei ( yˆ i − y ) n n n n i =1 i =1 i =1 i =1 SQE 1. Eigenschaft = ∑ ei yˆ i − y ∑ ei =∑ ei yˆ i − 0 = ∑ ei yˆ i n ∑ i =1 2. Eigenschaft n ∑ i =1 n n n i =1 i =1 i =1 = ∑ ei (b1 + b2 xi ) = b1 ∑ ei +b2 ∑ ei xi = 0 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Geschätzte Werte ei = 0 xi ei = 0 yˆ i = b 1 + b 2 x i 23 Regression I Bestimmtheitsmaß der Einfachregression n n SQT = SQR + SQE n ( y i − y )² = ∑ ( y i − yˆ i )² + ∑ ( yˆ i − y )² ∑ i =1 i =1 i =1 1 4243 1 4243 1 4243 SQT SQR n B= SQE = SQT ∑ ( yˆ i − y )² ∑(y i − y )² i =1 n i =1 B= SQE = SQT − SQR SQE n SQT − SQR SQR B= = 1− = 1− SQT SQT ∑(y i =1 n i ∑(y i =1 i − yˆ i )² − y )² durch die Regression erklärte Abweichungsquadratsumme zu erklärende gesamte Abweichungsquadratsumme Interpretation: Das Bestimmtheitsmaß ist der Anteil der durch die Regressionsfunktion erklärten Abweichungsquadratsumme an der zu erklärenden gesamten Abweichungsquadratsumme. Es kann auch als Prozentwert angegeben werden. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 24 Regression I 12 Bestimmtheitsmaß der Einfachregression Wertebereich des Bestimmtheitsmaßes 0≤B≤1 Wird die Summe der Abweichungsquadrate für den Fehler (SQR) unmittelbar im Zähler der Verhältniszahl verwendet, dann drückt dieses Verhältnis die Unbestimmtheit aus. Unbestimmtheitsmaß n Das Quadrat des Korrelationskoeffizienten ist das Bestimmtheitsmaß (B = r²). Linearer Korrelationskoeffizient Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik SQR = U= SQT ∑( y i =1 n ∑( y i =1 r xy = Vorzeichen (b − yˆ i )² i i − y )² )⋅ 2 B 25 Regression I Beispiel: Berechnung des linearen Bestimmtheitsmaßes Filiale Nr. i Fläche (xi) Umsatz (yi) Residuen y²i ŷ i y i − yˆ i ( y i − yˆ i )² 1 150 3 9 8,8557 -5,8557 34,2887 2 180 8 64 9,8614 -1,8614 3,4649 3 420 19 361 17,9076 1,0924 1,1933 4 480 22 484 19,9192 2,0808 4,3299 5 660 31 961 25,9538 5,0462 25,4640 6 1000 42 1764 37,3526 4,6474 21,5985 0,3477 7 1300 48 2304 47,4103 0,5897 8 1500 52 2704 54,1155 -2,1155 4,4752 9 1600 54 2916 57,4681 -3,4681 12,0274 10 1710 61 3721 61,1559 -0,1559 0,0243 9000 340 15288 900 34 Summe Mittelwert yˆ = 3,8268 + 0,0335 x n Residuen² 107,2140 Berechnung mit Excel, gerundet B = 1− SQR = 1− SQT ∑(y i =1 n ∑(y i =1 n = 1− = 1− ∑(y i =1 i i i − yˆ i )² − y )² − yˆ i )² ⎛ n ⎞ ⎜ ∑ yi ⎟ n ⎝ i =1 ⎠ 2 y − ∑ i n i =1 2 107,2140 15288 − (340)2 10 = 1 − 0,0288 = 0,9712 Interpretation: 97,71 % der gesamten Abweichungsquadratsumme ist durch die lineare Einfachregression erklärt. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 26 Regression I 13 Vielen Dank für Ihre Aufmerksamkeit! Bananenschalen, Papier und … herunter gefallen? Dann schnell aufheben und in die Tonne damit! Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 27 Regression I 14