Statistik II für Betriebswirte Vorlesung 11

Werbung
Statistik II für Betriebswirte
Vorlesung 11
Prof. Dr. Hans-Jörg Starkloff
TU Bergakademie Freiberg
Institut für Stochastik
18. Januar 2017
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
1
7. Regressionsanalyse
7.1. Einleitung
I
Während bei der Korrelationsanalyse eine qualitative Analyse von
Zusammenhängen zwischen Merkmalen im Vordergrund stand, führt
man bei der Regressionsanalyse eine quantitative Analyse von
derartigen Zusammenhängen durch.
I
Insbesondere sucht man im Rahmen einer Regressionsanalyse z.B.
auf der Basis von Beobachtungen (x1 , y1 ), . . . (xn , yn ) nach einem
konkreten funktionalen Zusammenhang, der die Abhängigkeit eines
Merkmals Y von einer Merkmalsgröße X (einfache Regression)
(bei der multiplen Regression von mehreren Größen X1 , . . . , Xk )
möglichst gut beschreibt, wobei ein Zufallseinfluss und damit eine
Streuung der Werte mit berücksichtigt wird.
I
Eine ganz andere Aufgabenstellung wäre z.B. die Bestimmung eines
Interpolationspolynoms durch die gegebenen Punkte, bei dem man
aber einen Zufallseinfluss in der Formel unberechtigterweise
verewigen“ würde und oft sehr viele Parameter bestimmen muss.
”
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
2
Die Methode der kleinsten Quadrate
I
Eine grundlegende Methode für die Regressionsanalyse ist die
Methode der kleinsten Quadrate.
I
Gegeben seien z.B. Punkte (x1 , y1 ), . . . , (xn , yn ) und eine Klasse R
von möglichen Regressionsfunktionen, so dass die funktionale
Abhängigkeit der Größe y von der Größe x voraussichtlich gut
durch eine Funktion aus dieser Klasse beschreibbar ist.
I
Die Methode der kleinsten Quadrate besteht dann darin, aus R
diejenige Funktion y = f (x) als empirische Regressionsfunktion zu
den Daten auszuwählen, für die die Summe der Quadrate der
Abstände zwischen den theoretischen Funktionswerten f (xi ) und
den beobachteten Funktionswerten yi (jeweils bei den Argumenten
xi , i = 1, . . . , n), d.h. die Summe der Abweichungsquadrate oder
n
X
Residual-Quadratsumme d =
(yi − f (xi ))2 minimal wird.
i=1
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
3
Weitere Bezeichnungen und Bemerkungen
I
Die Abweichungen yi − f (xi ) (bei einer gewählten Funktion f (x))
nennt man Residuen.
I
Ist eine funktionale Abhängigkeit der Größe Y von der Größe X
gesucht, nennt man X auch Regressor, exogene Variable oder
Einflussgröße. Die Größe Y wird auch Regressand, endogene
Variable oder Wirkungsgröße genannt.
I
Der Name Regression“ ( Rückschritt“) geht auf Galton zurück.
”
”
Ausgangspunkt war damals eine Untersuchung der Größe der Söhne
(Variable Y ) im Zusammenhang mit der Größe der Väter (Variable
X ) von Pearson. Galton schrieb damals: Each peculiarity in a
”
man is shared by his kinsmen but on the average in a less degree.“
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
4
7.2. Einfache lineare Regression
I
I
I
Gegeben seien Punkte (x1 , y1 ), . . . , (xn , yn ) .
Die Abhängigkeit der y −Werte von den x−Werten soll bei der
einfachen linearen Regression durch eine (affin-)lineare Funktion
y = f (x) = a + bx beschrieben werden. Die Grafik der mit der
Methode der kleinsten Quadrate geschätzten Regressionsfunktion
nennt man dann Ausgleichsgerade oder Regressionsgerade.
Zur Bestimmung der geschätzten Regressionsfunktion muss die
Quadratsumme QS = QS(a, b) als Funktion der beiden Parameter
(Variablen) minimiert werden,
QS = QS(a, b) =
n
X
i=1
I
2
(yi − f (xi )) =
n
X
(yi − a − bxi )2 .
i=1
Als notwendige Bedingung müssen für die optimalen Werte (die
Schätzwerte) â und b̂ die ersten partiellen Ableitungen der
Funktion QS(a, b) nach a und b Null werden.
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
5
Die Regressionsgerade
I
Man erhält als Schätzwerte der Koeffizienten
n
n
P
P
xi yi − nx y
(xi − x)(yi − y )
s
i=1
i=1
= n
b̂ =
= Y rX ,Y ,
n
P
P
sX
(xi − x)2
xi2 − nx 2
i=1
â = y − b̂ x
i=1
und damit die Gleichung der geschätzten Regressionsgeraden
ŷ = â + b̂ x .
I
Dann gelten mit den Schätzwerten ŷi = â + b̂ xi
I
I
I
I
Pn
die Summe der Residuen ist Null,
i=1 (yi − yˆi ) = 0 ;
Pn
die Summe
i=1 xi (yi − yˆi ) ist Null;
das arithmetische Mittel y der beobachteten y −Werte ist gleich
dem arithmetischen Mittel der geschätzten y −Werte ŷi = â + b̂xi ;
die Regressionsgerade verläuft durch den Schwerpunkt der
Punktwolke mit den Koordinaten (x, y ) .
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
6
Beispiel 1 Jahresumsatz und Verkaufsfläche
I
I
I
Daten aus Bleymüller et al, Statistik für
Wirtschaftswissenschaftler, 2004, Kap. 20.
i
xi
yi
Filiale
Verkaufsfläche in Tsd. qm
Jahresumsatz in Mio. e
i
xi
yi
i
xi
yi
1
0.31
2.93
7
0.78
4.33
2
0.98
5.27
8
0.94
5.77
3
1.21
6.85
9
1.29
7.68
4
1.29
7.01
10
0.48
3.16
5
1.12
7.02
11
0.24
1.52
6
1.49
8.35
12
0.55
3.15
Berechnung de Regressionsgeraden in Statgraphics unter:
Relate → One Factor → Simple Regression
(Beziehungen → Ein Faktor → Einfache Regression).
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
7
Regressionsgerade im Beispiel 1 (Statgraphics)
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
8
Streuungszerlegung
I
Es gilt die Streuungszerlegung SST = SSE + SSR mit
n
X
SST =
(yi − y )2 , der Totalvariabilität (Totalvarianz);
i=1
SSE =
n
X
i=1
SSR =
(ŷi − y )2 , der erklärten“ Variabilität (erklärte Varianz);
”
n
X
(yi − ŷi )2 , der Restvariabilität (Restvarianz).
i=1
I
I
I
SSE
SSR
=1−
heißt Bestimmtheitsmaß.
SST
SST
Es gelten 0 ≤ B ≤ 1 und B = rX2,Y mit dem gewöhnlichen
empirischen Korrelationskoeffizienten rX ,Y .
Das Verhältnis B =
Liegt der Wert des Bestimmtheitsmaßes nahe bei 1, deutet dies auf
eine gute Beschreibung der Punktwolke durch die Regressionsgerade
hin.
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
9
Das stochastische Modell
I
Weiterführende statistische Aussagen, wie Konfidenzintervalle oder
statistische Test, basieren auf einem geeigneten stochastischen
Modell.
I
Üblicherweise nimmt man in dieser Situation an, dass
Yi = a + b xi + εi ,
i = 1, . . . , n,
gilt, wobei die Werte xi (zunächst) deterministische, einstellbare
Werte sind und die zufälligen Schwankungen durch unabhängige
normalverteilte Zufallsgrößen εi ( zufällige Fehler“) mit Eεi = 0
”
und Varεi = σ 2 (unbekannt, aber konstant) verursacht werden.
I
Unter diesen Bedingungen sind â bzw. b̂ erwartungstreue und
konsistente Schätzfunktionen für die Modellparameter a bzw. b .
I
Die Standardabweichung σ der Fehler kann geschätzt werden durch
r
SSR
σ̂ = sRest =
.
n−2
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
10
Tests für die Parameter a und b
I
Hypothesen:
bzw.
H0 : a = a0 ,
H0 : b = b 0 ,
I
Testgrößen:
Ta =
â − a0
sa
HA : a 6= a0 ;
HA : b 6= b0 .
v

u
u
u

x2
u 1
 σ̂
mit sa = u
+
n

P
t n
2
(xi − x)
i=1
bzw. Tb =
b̂ − b0
σ̂
σ̂
mit sb = s
=√
.
sb
n
n − 1 sx
P
2
(xi − x)
i=1
Die Testgrößen sind unter H0 t−verteilt mit n − 2 Freiheitsgraden.
I
Kritischer Bereich (Niveau α) : K = {t ∈ R : |t| > tn−2;1−α/2 } .
I
Analog können einseitige Tests durchgeführt werden.
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
11
Tests mit α = 0.05 im Beispiel 1
I
Zweiseitiger t−Test mit H0 : a = 0 : â = 0.605675 , p = 0.0623 ⇒
H0 wird nicht abgelehnt, d.h., man kann nicht darauf schließen, dass
der Koeffizient a signifikant von 0 verschieden ist.
I
Zweiseitiger t−Test mit H0 : b = 0 : b̂ = 5.22209 , p = 0.0000 ⇒
H0 wird abgelehnt, d.h., der Koeffizient b ist signifikant von 0
verschieden.
I
F −Test für das Modell (Varianzanalyse): H0 : b = 0 , HA : b 6= 0,
p = 0.0000 ⇒ H0 wird abgelehnt, d.h., der Koeffizient b ist
signifikant von 0 verschieden.
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
12
Statgraphics-Ergebnisse Tests im Beispiel 1
Simple Regression - Jahresumsatz vs. Verkaufsfläche
Dependent variable: Jahresumsatz (Mio Euro)
Independent variable: Verkaufsfläche (1000 qm)
Linear model: Y = a + b*X
Coefficients
Parameter
Intercept
Slope
Least Squares
Estimate
0,605675
5,22209
Analysis of Variance
Source
Sum of Squares
Model
51,8297
Residual
1,66612
Total (Corr.)
53,4959
Standard
Error
0,288656
0,296079
Df
1
10
11
T
Statistic
2,09826
17,6375
Mean Square
51,8297
0,166612
P-Value
0,0623
0,0000
F-Ratio
311,08
P-Value
0,0000
Correlation Coefficient = 0,984304
R-squared = 96,8855 percent
R-squared (adjusted for d.f.) = 96,5741 percent
Standard Error of Est. = 0,408182
Mean absolute error = 0,318697
Durbin-Watson statistic = 2,05563 (P=0,4737)
Lag 1 residual autocorrelation = -0,209423
The StatAdvisor
The output shows the results of fitting a linear model to describe the relationship between Jahresumsatz and Verkaufsfläche. The equation of the
fitted model is
Jahresumsatz = 0,605675 + 5,22209*Verkaufsfläche
Since the P-value in the ANOVA table is less than 0,05, there is a statistically significant relationship between Jahresumsatz and Verkaufsfläche at
the 95,0% confidence level.
The R-Squared statistic indicates that the model as fitted explains 96,8855% of the variability in Jahresumsatz. The correlation coefficient equals
0,984304, indicating a relatively strong relationship between the variables. The standard error of the estimate shows the standard deviation of the
residuals to be 0,408182. This value can be used to construct prediction limits for new observations by selecting the Forecasts option from the text
menu.
The mean absolute error (MAE) of 0,318697 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine
if there is any significant correlation based on the order in which they occur in your data file. Since the P-value is greater than 0,05, there is no
indication of serial autocorrelation in the residuals at the 95,0% confidence level.
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
13
Konfidenzintervalle zum Niveau 1 − α für die Parameter
I
Ein Konfidenzintervall für a ist
[â − sa tn−2;1−α/2 ; â + sa tn−2;1−α/2 ] .
I
Ein Konfidenzintervall für b ist
[b̂ − sb tn−2;1−α/2 ; b̂ + sb tn−2;1−α/2 ] .
I
Ein
σ 2 ist
" Konfidenzintervall für die#Fehlervarianz
"
#
(n − 2)σ̂ 2
(n − 2)σ̂ 2
SSR
SSR
;
=
;
.
χ2n−2;1−α/2
χ2n−2;α/2
χ2n−2;1−α/2
χ2n−2;α/2
I
Simultane Konfidenzintervalle sind die folgenden. Das erste Intervall
überdeckt a , das zweite b , wobei insgesamt das Niveau 1 − α
eingehalten
wird :
q
q
â − 2sa2 F2;n−2;1−α ; â + 2sa2 F2;n−2;1−α
q
q
2
2
b̂ − 2sb F2;n−2;1−α ; b̂ + 2sb F2;n−2;1−α .
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
14
Konfidenzintervalle für die Regressionsgerade
I
I
Häufig möchte man jedoch Konfidenzintervalle für den Wert der
Regressionsgerade an einer Stelle x (oder für ein Intervall von
x−Werten) bestimmen, d.h. für EY (x) = a + bx .
Ein solches Konfidenzintervall zum Niveau 1 − α kann berechnet
werden durch
[ ŷ (x) − d(x) ; ŷ (x) + d(x) ]
mit
ŷ (x) = â + b̂ x
und
v
u1
(x − x)2
u
d(x) = σ̂ · tn−2,1−α/2 u + n
.
P
tn
2
(xi − x)
i=1
I
Für unterschiedliche Werte x erhält man unterschiedliche Abstände
zwischen der oberen und unteren Grenze. Für alle x−Werte
betrachtet ergibt sich ein Konfidenzstreifen (Konfidenzschlauch), der
an der Stelle x = x am schmalsten ist.
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
15
Konfidenzstreifen im Beispiel (Statgraphics)
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
16
Prognoseintervalle für Y (x)
I
Berechnet man ein zufälliges Intervall, welches mit einer
vorgegebenen Wahrscheinlichkeit 1 − α eine Realisierung von
Y (x) = a + bx + ε überdeckt, erhält man ein sogenanntes
Prognoseintervall für Y (x) zum Niveau 1 − α .
I
Unter den gemachten Voraussetzungen berechnet man
[ ŷ (x) − d(x) ; ŷ (x) + d(x) ]
mit
ŷ (x) = â + b̂ x
d(x) = sRest
und
v
u
1
(x − x)2
u
.
· tn−2,1−α/2 u1 + + n
P
t
n
(xi − x)2
i=1
I
Bei Betrachtung beliebiger x−Werte erhält man wieder einen
Streifen um die Regressionsgerade, den Prognosestreifen. Er ist
breiter als der zugehörige Kondidenzstreifen zum selben Niveau.
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
17
Prognosestreifen im Beispiel (Statgraphics)
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
18
Konfidenz- und Prognosestreifen im Beispiel (Statgraphics)
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
19
Residualanalyse zur Überprüfung des Modells
I
Ist der Modellansatz, insbesondere die Normalverteilungsannahme
der zufälligen Fehler εi , i = 1, . . . , n , richtig, dann sind die
Residuen ε̂i = Yi − ŷi näherungsweise unabhängig und identisch
normalverteilt.
I
Diese Eigenschaft kann anschaulich grafisch überprüft oder durch
Anwendung statistischer Tests untersucht werden.
I
Die grafische Darstellung der Residuen kann dabei bezüglich der
Fallnummern, der xi −Werte oder der geschätzten Werte ŷi
erfolgen.
I
Bei bestimmten typischen Mustern in den Grafiken kann man dann
unter Umständen auf spezielle Modellfehler schließen (siehe
Literatur).
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
20
Residuendiagramm 1 im Beispiel (Statgraphics)
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
21
Residuendiagramm 2 im Beispiel (Statgraphics)
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
22
Residuendiagramm 3 im Beispiel (Statgraphics)
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
23
Einfache lineare Regression durch den Koordinatenursprung
I
Bei bestimmten Problemstellungen ist es sinnvoll zu fordern, dass
die Regressionsgerade durch den Koordinatenursprung geht. Man
spricht dann auch von einer Regression ohne Absolutglied oder einer
eigentlich-linearen Regression.
I
Man erhält nun als Modellansatz
Yi = b xi + εi ,
i = 1, . . . , n ;
als Schätzung für den Parameter b
Pn
xi yi
b̂ = Pi=1
n
2
i=1 xi
und als Schätzung für die Varianz der zufälligen Fehler
n
σ̂ 2 =
1 X
(yi − ŷi )2
n−1
mit
ŷi = b̂ xi .
i=1
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
24
Regressionsgerade ohne Absolutglied im Beispiel 1
(Statgraphics)
Prof. Dr. Hans-Jörg Starkloff
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
25
Transformationen auf Linearität
I
Ist die gesuchte Abhängigkeitsfunktion eine nichtlineare Funktion
(eine Gerade ist schlecht an die Daten anpassbar), kann man
mitunter durch geeignete Variablentransformationen die
Aufgabenstellung in eine der einfachen linearen Regression
transformieren. Diese ist dann aber nicht äquivalent zur
ursprünglichen Aufgabenstellung.
I
Nichtlineare, in lineare transformierbare Funktionen sind z.B.
y = αx β
⇒
ln y = ln α + β ln x
y = αe
y = (α + βx)−1
y = x(α + βx)−1
⇒
⇒
⇒
ln y = ln α + βx
y −1 = α + βx
y −1 = αx −1 + β
y = αeβ/x
⇒
ln y = ln α + βx −1
⇒
y −1 = α + βe−x
βx
y = α + βe−x
Prof. Dr. Hans-Jörg Starkloff
−1
Statistik II für Betriebswirte Vorlesung 11
Version: 16. Januar 2017
26
Herunterladen