Statistik II für Betriebswirte Vorlesung 11 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 18. Januar 2017 Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 1 7. Regressionsanalyse 7.1. Einleitung I Während bei der Korrelationsanalyse eine qualitative Analyse von Zusammenhängen zwischen Merkmalen im Vordergrund stand, führt man bei der Regressionsanalyse eine quantitative Analyse von derartigen Zusammenhängen durch. I Insbesondere sucht man im Rahmen einer Regressionsanalyse z.B. auf der Basis von Beobachtungen (x1 , y1 ), . . . (xn , yn ) nach einem konkreten funktionalen Zusammenhang, der die Abhängigkeit eines Merkmals Y von einer Merkmalsgröße X (einfache Regression) (bei der multiplen Regression von mehreren Größen X1 , . . . , Xk ) möglichst gut beschreibt, wobei ein Zufallseinfluss und damit eine Streuung der Werte mit berücksichtigt wird. I Eine ganz andere Aufgabenstellung wäre z.B. die Bestimmung eines Interpolationspolynoms durch die gegebenen Punkte, bei dem man aber einen Zufallseinfluss in der Formel unberechtigterweise verewigen“ würde und oft sehr viele Parameter bestimmen muss. ” Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 2 Die Methode der kleinsten Quadrate I Eine grundlegende Methode für die Regressionsanalyse ist die Methode der kleinsten Quadrate. I Gegeben seien z.B. Punkte (x1 , y1 ), . . . , (xn , yn ) und eine Klasse R von möglichen Regressionsfunktionen, so dass die funktionale Abhängigkeit der Größe y von der Größe x voraussichtlich gut durch eine Funktion aus dieser Klasse beschreibbar ist. I Die Methode der kleinsten Quadrate besteht dann darin, aus R diejenige Funktion y = f (x) als empirische Regressionsfunktion zu den Daten auszuwählen, für die die Summe der Quadrate der Abstände zwischen den theoretischen Funktionswerten f (xi ) und den beobachteten Funktionswerten yi (jeweils bei den Argumenten xi , i = 1, . . . , n), d.h. die Summe der Abweichungsquadrate oder n X Residual-Quadratsumme d = (yi − f (xi ))2 minimal wird. i=1 Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 3 Weitere Bezeichnungen und Bemerkungen I Die Abweichungen yi − f (xi ) (bei einer gewählten Funktion f (x)) nennt man Residuen. I Ist eine funktionale Abhängigkeit der Größe Y von der Größe X gesucht, nennt man X auch Regressor, exogene Variable oder Einflussgröße. Die Größe Y wird auch Regressand, endogene Variable oder Wirkungsgröße genannt. I Der Name Regression“ ( Rückschritt“) geht auf Galton zurück. ” ” Ausgangspunkt war damals eine Untersuchung der Größe der Söhne (Variable Y ) im Zusammenhang mit der Größe der Väter (Variable X ) von Pearson. Galton schrieb damals: Each peculiarity in a ” man is shared by his kinsmen but on the average in a less degree.“ Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 4 7.2. Einfache lineare Regression I I I Gegeben seien Punkte (x1 , y1 ), . . . , (xn , yn ) . Die Abhängigkeit der y −Werte von den x−Werten soll bei der einfachen linearen Regression durch eine (affin-)lineare Funktion y = f (x) = a + bx beschrieben werden. Die Grafik der mit der Methode der kleinsten Quadrate geschätzten Regressionsfunktion nennt man dann Ausgleichsgerade oder Regressionsgerade. Zur Bestimmung der geschätzten Regressionsfunktion muss die Quadratsumme QS = QS(a, b) als Funktion der beiden Parameter (Variablen) minimiert werden, QS = QS(a, b) = n X i=1 I 2 (yi − f (xi )) = n X (yi − a − bxi )2 . i=1 Als notwendige Bedingung müssen für die optimalen Werte (die Schätzwerte) â und b̂ die ersten partiellen Ableitungen der Funktion QS(a, b) nach a und b Null werden. Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 5 Die Regressionsgerade I Man erhält als Schätzwerte der Koeffizienten n n P P xi yi − nx y (xi − x)(yi − y ) s i=1 i=1 = n b̂ = = Y rX ,Y , n P P sX (xi − x)2 xi2 − nx 2 i=1 â = y − b̂ x i=1 und damit die Gleichung der geschätzten Regressionsgeraden ŷ = â + b̂ x . I Dann gelten mit den Schätzwerten ŷi = â + b̂ xi I I I I Pn die Summe der Residuen ist Null, i=1 (yi − yˆi ) = 0 ; Pn die Summe i=1 xi (yi − yˆi ) ist Null; das arithmetische Mittel y der beobachteten y −Werte ist gleich dem arithmetischen Mittel der geschätzten y −Werte ŷi = â + b̂xi ; die Regressionsgerade verläuft durch den Schwerpunkt der Punktwolke mit den Koordinaten (x, y ) . Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 6 Beispiel 1 Jahresumsatz und Verkaufsfläche I I I Daten aus Bleymüller et al, Statistik für Wirtschaftswissenschaftler, 2004, Kap. 20. i xi yi Filiale Verkaufsfläche in Tsd. qm Jahresumsatz in Mio. e i xi yi i xi yi 1 0.31 2.93 7 0.78 4.33 2 0.98 5.27 8 0.94 5.77 3 1.21 6.85 9 1.29 7.68 4 1.29 7.01 10 0.48 3.16 5 1.12 7.02 11 0.24 1.52 6 1.49 8.35 12 0.55 3.15 Berechnung de Regressionsgeraden in Statgraphics unter: Relate → One Factor → Simple Regression (Beziehungen → Ein Faktor → Einfache Regression). Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 7 Regressionsgerade im Beispiel 1 (Statgraphics) Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 8 Streuungszerlegung I Es gilt die Streuungszerlegung SST = SSE + SSR mit n X SST = (yi − y )2 , der Totalvariabilität (Totalvarianz); i=1 SSE = n X i=1 SSR = (ŷi − y )2 , der erklärten“ Variabilität (erklärte Varianz); ” n X (yi − ŷi )2 , der Restvariabilität (Restvarianz). i=1 I I I SSE SSR =1− heißt Bestimmtheitsmaß. SST SST Es gelten 0 ≤ B ≤ 1 und B = rX2,Y mit dem gewöhnlichen empirischen Korrelationskoeffizienten rX ,Y . Das Verhältnis B = Liegt der Wert des Bestimmtheitsmaßes nahe bei 1, deutet dies auf eine gute Beschreibung der Punktwolke durch die Regressionsgerade hin. Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 9 Das stochastische Modell I Weiterführende statistische Aussagen, wie Konfidenzintervalle oder statistische Test, basieren auf einem geeigneten stochastischen Modell. I Üblicherweise nimmt man in dieser Situation an, dass Yi = a + b xi + εi , i = 1, . . . , n, gilt, wobei die Werte xi (zunächst) deterministische, einstellbare Werte sind und die zufälligen Schwankungen durch unabhängige normalverteilte Zufallsgrößen εi ( zufällige Fehler“) mit Eεi = 0 ” und Varεi = σ 2 (unbekannt, aber konstant) verursacht werden. I Unter diesen Bedingungen sind â bzw. b̂ erwartungstreue und konsistente Schätzfunktionen für die Modellparameter a bzw. b . I Die Standardabweichung σ der Fehler kann geschätzt werden durch r SSR σ̂ = sRest = . n−2 Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 10 Tests für die Parameter a und b I Hypothesen: bzw. H0 : a = a0 , H0 : b = b 0 , I Testgrößen: Ta = â − a0 sa HA : a 6= a0 ; HA : b 6= b0 . v u u u x2 u 1 σ̂ mit sa = u + n P t n 2 (xi − x) i=1 bzw. Tb = b̂ − b0 σ̂ σ̂ mit sb = s =√ . sb n n − 1 sx P 2 (xi − x) i=1 Die Testgrößen sind unter H0 t−verteilt mit n − 2 Freiheitsgraden. I Kritischer Bereich (Niveau α) : K = {t ∈ R : |t| > tn−2;1−α/2 } . I Analog können einseitige Tests durchgeführt werden. Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 11 Tests mit α = 0.05 im Beispiel 1 I Zweiseitiger t−Test mit H0 : a = 0 : â = 0.605675 , p = 0.0623 ⇒ H0 wird nicht abgelehnt, d.h., man kann nicht darauf schließen, dass der Koeffizient a signifikant von 0 verschieden ist. I Zweiseitiger t−Test mit H0 : b = 0 : b̂ = 5.22209 , p = 0.0000 ⇒ H0 wird abgelehnt, d.h., der Koeffizient b ist signifikant von 0 verschieden. I F −Test für das Modell (Varianzanalyse): H0 : b = 0 , HA : b 6= 0, p = 0.0000 ⇒ H0 wird abgelehnt, d.h., der Koeffizient b ist signifikant von 0 verschieden. Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 12 Statgraphics-Ergebnisse Tests im Beispiel 1 Simple Regression - Jahresumsatz vs. Verkaufsfläche Dependent variable: Jahresumsatz (Mio Euro) Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X Coefficients Parameter Intercept Slope Least Squares Estimate 0,605675 5,22209 Analysis of Variance Source Sum of Squares Model 51,8297 Residual 1,66612 Total (Corr.) 53,4959 Standard Error 0,288656 0,296079 Df 1 10 11 T Statistic 2,09826 17,6375 Mean Square 51,8297 0,166612 P-Value 0,0623 0,0000 F-Ratio 311,08 P-Value 0,0000 Correlation Coefficient = 0,984304 R-squared = 96,8855 percent R-squared (adjusted for d.f.) = 96,5741 percent Standard Error of Est. = 0,408182 Mean absolute error = 0,318697 Durbin-Watson statistic = 2,05563 (P=0,4737) Lag 1 residual autocorrelation = -0,209423 The StatAdvisor The output shows the results of fitting a linear model to describe the relationship between Jahresumsatz and Verkaufsfläche. The equation of the fitted model is Jahresumsatz = 0,605675 + 5,22209*Verkaufsfläche Since the P-value in the ANOVA table is less than 0,05, there is a statistically significant relationship between Jahresumsatz and Verkaufsfläche at the 95,0% confidence level. The R-Squared statistic indicates that the model as fitted explains 96,8855% of the variability in Jahresumsatz. The correlation coefficient equals 0,984304, indicating a relatively strong relationship between the variables. The standard error of the estimate shows the standard deviation of the residuals to be 0,408182. This value can be used to construct prediction limits for new observations by selecting the Forecasts option from the text menu. The mean absolute error (MAE) of 0,318697 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the P-value is greater than 0,05, there is no indication of serial autocorrelation in the residuals at the 95,0% confidence level. Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 13 Konfidenzintervalle zum Niveau 1 − α für die Parameter I Ein Konfidenzintervall für a ist [â − sa tn−2;1−α/2 ; â + sa tn−2;1−α/2 ] . I Ein Konfidenzintervall für b ist [b̂ − sb tn−2;1−α/2 ; b̂ + sb tn−2;1−α/2 ] . I Ein σ 2 ist " Konfidenzintervall für die#Fehlervarianz " # (n − 2)σ̂ 2 (n − 2)σ̂ 2 SSR SSR ; = ; . χ2n−2;1−α/2 χ2n−2;α/2 χ2n−2;1−α/2 χ2n−2;α/2 I Simultane Konfidenzintervalle sind die folgenden. Das erste Intervall überdeckt a , das zweite b , wobei insgesamt das Niveau 1 − α eingehalten wird : q q â − 2sa2 F2;n−2;1−α ; â + 2sa2 F2;n−2;1−α q q 2 2 b̂ − 2sb F2;n−2;1−α ; b̂ + 2sb F2;n−2;1−α . Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 14 Konfidenzintervalle für die Regressionsgerade I I Häufig möchte man jedoch Konfidenzintervalle für den Wert der Regressionsgerade an einer Stelle x (oder für ein Intervall von x−Werten) bestimmen, d.h. für EY (x) = a + bx . Ein solches Konfidenzintervall zum Niveau 1 − α kann berechnet werden durch [ ŷ (x) − d(x) ; ŷ (x) + d(x) ] mit ŷ (x) = â + b̂ x und v u1 (x − x)2 u d(x) = σ̂ · tn−2,1−α/2 u + n . P tn 2 (xi − x) i=1 I Für unterschiedliche Werte x erhält man unterschiedliche Abstände zwischen der oberen und unteren Grenze. Für alle x−Werte betrachtet ergibt sich ein Konfidenzstreifen (Konfidenzschlauch), der an der Stelle x = x am schmalsten ist. Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 15 Konfidenzstreifen im Beispiel (Statgraphics) Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 16 Prognoseintervalle für Y (x) I Berechnet man ein zufälliges Intervall, welches mit einer vorgegebenen Wahrscheinlichkeit 1 − α eine Realisierung von Y (x) = a + bx + ε überdeckt, erhält man ein sogenanntes Prognoseintervall für Y (x) zum Niveau 1 − α . I Unter den gemachten Voraussetzungen berechnet man [ ŷ (x) − d(x) ; ŷ (x) + d(x) ] mit ŷ (x) = â + b̂ x d(x) = sRest und v u 1 (x − x)2 u . · tn−2,1−α/2 u1 + + n P t n (xi − x)2 i=1 I Bei Betrachtung beliebiger x−Werte erhält man wieder einen Streifen um die Regressionsgerade, den Prognosestreifen. Er ist breiter als der zugehörige Kondidenzstreifen zum selben Niveau. Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 17 Prognosestreifen im Beispiel (Statgraphics) Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 18 Konfidenz- und Prognosestreifen im Beispiel (Statgraphics) Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 19 Residualanalyse zur Überprüfung des Modells I Ist der Modellansatz, insbesondere die Normalverteilungsannahme der zufälligen Fehler εi , i = 1, . . . , n , richtig, dann sind die Residuen ε̂i = Yi − ŷi näherungsweise unabhängig und identisch normalverteilt. I Diese Eigenschaft kann anschaulich grafisch überprüft oder durch Anwendung statistischer Tests untersucht werden. I Die grafische Darstellung der Residuen kann dabei bezüglich der Fallnummern, der xi −Werte oder der geschätzten Werte ŷi erfolgen. I Bei bestimmten typischen Mustern in den Grafiken kann man dann unter Umständen auf spezielle Modellfehler schließen (siehe Literatur). Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 20 Residuendiagramm 1 im Beispiel (Statgraphics) Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 21 Residuendiagramm 2 im Beispiel (Statgraphics) Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 22 Residuendiagramm 3 im Beispiel (Statgraphics) Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 23 Einfache lineare Regression durch den Koordinatenursprung I Bei bestimmten Problemstellungen ist es sinnvoll zu fordern, dass die Regressionsgerade durch den Koordinatenursprung geht. Man spricht dann auch von einer Regression ohne Absolutglied oder einer eigentlich-linearen Regression. I Man erhält nun als Modellansatz Yi = b xi + εi , i = 1, . . . , n ; als Schätzung für den Parameter b Pn xi yi b̂ = Pi=1 n 2 i=1 xi und als Schätzung für die Varianz der zufälligen Fehler n σ̂ 2 = 1 X (yi − ŷi )2 n−1 mit ŷi = b̂ xi . i=1 Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 24 Regressionsgerade ohne Absolutglied im Beispiel 1 (Statgraphics) Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 25 Transformationen auf Linearität I Ist die gesuchte Abhängigkeitsfunktion eine nichtlineare Funktion (eine Gerade ist schlecht an die Daten anpassbar), kann man mitunter durch geeignete Variablentransformationen die Aufgabenstellung in eine der einfachen linearen Regression transformieren. Diese ist dann aber nicht äquivalent zur ursprünglichen Aufgabenstellung. I Nichtlineare, in lineare transformierbare Funktionen sind z.B. y = αx β ⇒ ln y = ln α + β ln x y = αe y = (α + βx)−1 y = x(α + βx)−1 ⇒ ⇒ ⇒ ln y = ln α + βx y −1 = α + βx y −1 = αx −1 + β y = αeβ/x ⇒ ln y = ln α + βx −1 ⇒ y −1 = α + βe−x βx y = α + βe−x Prof. Dr. Hans-Jörg Starkloff −1 Statistik II für Betriebswirte Vorlesung 11 Version: 16. Januar 2017 26