Regressionsanalyse

Werbung
Regressionsanalyse
¾ Einführung, Allgemeines
¾ Methode der kleinsten Quadrate zur
Bestimmung der Parameter der linearen
Einfachregression
¾ Eigenschaften der linearen KleinstQuadrate-Einfachregression
¾ Lineares Bestimmtheitsmaß
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
1
Regression I
Bibliografie:
¾
Prof. Dr. Kück
Universität Rostock
Statistik, Vorlesungsskript, Abschnitt 8.3.1
¾
Bleymüller / Gehlert / Gülicher
Verlag Vahlen 2004
Statistik für Wirtschaftswissenschaftler
¾
http://www.wiwi.uni-rostock.de/~stat/download.htm
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
2
Regression I
1
Regressionsanalyse -AufgabenstellungUnabhängige Merkmale
(Regressoren)
Aufgabe: Bestimmung einer mathematischen
Funktion f, welche die durchschnittliche Tendenz der
Abhängigkeit der Variablen Y von den Variablen X1,
X2, . . . , Xk möglichst gut beschreibt.
X1
Abhängiges Merkmal
(Regressand)
Mathematische Funktion
(Regressionsfunktion)
X2
Y
Yˆ = f ( X 1 , X 2 , K , X k )
.
.
.
Xk
lineare Einfachregression
Yˆ = β 1 + β 2 X
lineare Mehrfachregression
nichtlineare Regression
Yˆ = β 1 + β 2 X 2 + β 3 X 3 + K + β k X k
Linearisierbar
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Nicht linearisierbar
3
Regression I
Beispiel: Zusammenhang zwischen Verkaufsfläche
und Umsatz
Umsatz (Y)
(in Mill. EUR)
1
150
3
2
180
8
3
420
19
4
480
22
5
660
31
6
1000
42
7
1300
48
8
1500
52
9
1600
54
10
1710
61
9000
340
900
34
Summe
Mittelwert
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Streudiagram
70
Umsatz in Mill. EUR
Verkaufsfläche
(in m²)
Filialnr.
60
50
40
30
20
10
0
0
200
400
600
800
1000
1200
1400
1600
1800
Fläche in m²
Man erkennt eine starken linearen
Zusammenhang zwischen Verkaufsfläche
und Umsatz.
Yˆ = f ( X ) = β0 + β1 X
4
Regression I
2
Beispiel: Abhängigkeit zwischen Geburtsgewicht und
Körperhöhe der Mutter
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
5
Regression I
Beispiel: Abhängigkeit zwischen Geburtsgewicht
und Körpergewicht der Mutter
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
6
Regression I
3
Beispiel: Abhängigkeit zwischen Geburtsgewicht
und Alter der Mutter
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
7
Regression I
Beispiel: Zusammenhang zwischen Verbrauch
und Leistung
Enger Zusammenhang zwischen
Verbrauch des Autos und Leistung des
Motors in (grafischer) Auswertung der
250 Fahrzeuge. Welche mathematische
Funktion beschreibt am besten die
Abhängigkeit des Verbrauches von der
Leistung des Motors?
Kraftstoffverbrauch durchschnittlich [l/100km]
16
14
12
10
8
6
4
0
100
200
300
400
Daten: auto_250.sav
Leistung [PS]
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
8
Regression I
4
Beispiel: Abhängigkeit zwischen Verbrauch und
Leistung
Kraftstoffverbrauch durchschnittlich [l/100km]
16
yˆ = f1 ( x) = b1 + b2 x
14
yˆ = f 2 ( x) = b1 + b2 x + b3 x ²
12
yˆ = f 3 ( x) = b1 + b2 ln x
10
8
Beobachtet
Linear
6
4
0
100
200
300
Logarithmisch
Regression
Rsq (B)
Quadratisch
Linear
0,759
Quadratisch
0,770
Logarithmisch
0,744
400
Leistung [PS]
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
9
Regression I
Beispiel: Zusammenhang zwischen Preis und
Leistung
140000
Enger Zusammenhang zwischen Preis
des Autos und Leistung des Motors in
(grafischer) Auswertung der 250
Fahrzeuge. Welche mathematische
Funktion beschreibt am besten die
Abhängigkeit des Preises von der
Leistung des Motors?
120000
100000
80000
Preis [EURO]
60000
40000
20000
0
0
100
200
Leistung [PS]
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
300
400
Daten: auto_250.sav
10
Regression I
5
Beispiel: Abhängigkeit zwischen Preis und
Leistung
Preis [EURO]
140000
yˆ = f 1 ( x ) = b1 + b 2 x
120000
yˆ = f2(x) =b1 +b2x+b3x²
100000
80000
60000
Beobachtet
40000
20000
0
0
100
200
300
yˆ = f 3 ( x) = e b1 +b2 x
Linear
Regression
Rsq (B)
Quadratisch
Linear
0,839
Exponentiell
Quadratisch
0,897
Exponential
0,859
400
Leistung [PS]
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
11
Regression I
Lineare Einfachregression
Residuen : Abweichungen zwischen
Beobachtungen und geschätzten Werten
P ( xi , y i )
yi
ei = y i − yˆ i
ŷ i
Regressionsgerade
yˆ = f ( x ) = b1 + b2 x
b1: Ordinatenabschnitt
b2: Steigung
b 2 = tan θ
Regressionsfunktion
θ
xi
x[1]
x[n]
b1 und b2 : Koeffizienten oder Parameter der Regression
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
12
Regression I
6
Methode der kleinsten Quadrate (MKQ)
ei = y i − yˆ i
Residuenquadrat
P ( xi , y i )
Residuen
yi
yˆ = b1 + b2 x
ŷ i
Minimierung der Summe der
Abweichungsquadrate SAQ
n
n
i =1
i =1
SAQ(b1 , b2 ) = ∑ ei2 = ∑ ( y i − yˆ i ) 2
n
x[1]
xi
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
x[n]
= ∑ ( y i − b1 − b2 xi ) 2
i =1
13
Regression I
Normalgleichungen der MKQ
Minimierung der Summe der Abweichungsquadrate SAQ
n
n
i =1
i =1
yˆ i = b1 + b2 xi
n
SAQ(b1 , b2 ) = ∑ ei2 = ∑ ( y i − yˆ i ) 2 = ∑ ( y i − b1 − b2 xi ) 2
i =1
δSAQ(b1 , b2 ) δSAQ(b1 , b2 )
=
=0
δb1
δb2
Notwendige Bedingung
Normalgleichungen:
n
n
n
n
n
δSAQ(b1 , b2 )
= −2∑ ( y i − b1 − b2 xi ) = 0 ⇒ ∑ y i − nb1 − b2 ∑ xi = 0 ⇒ nb1 + b2 ∑ xi = ∑ y i
δb1
i =1
i =1
i =1
i =1
i =1
n
n
n
n
δSAQ(b1 , b2 )
= −2∑ xi ( y i − b1 − b2 xi ) = 0 ⇒ ∑ xi y i − b1 ∑ xi − b2 ∑ xi2 = 0
δb2
i =1
i =1
i =1
i =1
n
n
n
i =1
i =1
i =1
⇒ b1 ∑ xi + b2 ∑ xi2 = ∑ xi y i
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
14
Regression I
7
Lösung des Normalgleichungssystems
n
n
n
i =1
i =1
∑y
nb1 + b2 ∑ xi = ∑ y i ⇒ b1 =
n
n
i =1
n
i
− b2
n
n
∑x
i =1
i
= y − b2 x
n
n
n
n
i =1
i =1
i =1
b1 ∑ xi + b2 ∑ xi2 = ∑ xi y i ⇒ ( y − b2 x )∑ xi + b2 ∑ xi2 = ∑ xi y i
i =1
i =1
i =1
n
n
n
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
⇒ y ∑ xi − b2 x ∑ xi + b2 ∑ xi2 = ∑ xi y i ⇒ −b2 x ∑ xi + b2 ∑ xi2 = ∑ xi y i − y ∑ xi
n
n
n
n
i =1
i =1
i =1
i =1
⇒ b2 (∑ xi2 − x ∑ xi ) = ∑ xi y i − y ∑ xi
n
n
⇒ b2 =
n
∑ xi y i − y ∑ xi
i =1
n
∑x
i =1
i =1
n
2
i
− x ∑ xi
n
=
∑ xi yi −
n
∑y ∑x
i
i =1
n
i =1
i =1
i =1
n
∑x ∑x
i =1
n
∑ xi2 −
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
i =1
i
i =1
n
=
n
n
i
n
n
i =1
i =1
2
n∑ xi y i − ∑ y i ∑ x i
i =1
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
i
15
Regression I
Andere Formeln für die Parameter der
linearen Einfachregression
yˆ = b1 + b2 x
n
b1 =
Für den Ordinatenschnittpunkt:
∑
i =1
b1 = y − b 2 x
Für die Steigung:
b2 =
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
n
i =1
i =1
n
n∑
i =1
n
n
n
i =1
i =1
i =1
n∑ xi yi − ∑ xi ∑ yi
n
⎛ n ⎞
n∑ xi2 − ⎜ ∑ xi ⎟
i =1
⎝ i=1 ⎠
2
n
n
x i2 ∑ y i − ∑ x i ∑ x i y i
b2 =
i =1
⎛
⎞
x − ⎜ ∑ xi ⎟
⎝ i =1 ⎠
n
2
2
i
sy
xy−x⋅ y sxy
= 2 =r⋅
sx
x2 −x2 sx
16
Regression I
8
Beispiel: Zusammenhang zwischen Verkaufsfläche
und Umsatz
Für 10 Filialen einer Handelskette soll untersucht werden, welcher Zusammenhang
zwischen Verkaufsfläche (in m²) und Umsatz (in Mill. EUR) besteht.
Fläche
Umsatz (Y)
Streudiagram
1
150
3
2
180
8
3
420
19
4
480
22
5
660
31
6
1000
42
7
1300
48
8
1500
52
9
1600
54
10
Summe
Mittelwert
1710
61
9000
340
900
34
70
Umsatz in Mill. EUR
Filialnr.
60
50
40
yˆ = b1 + b2 x
30
20
10
0
0
200
400
600
800
1000
1200
1400
1600
1800
Fläche in m²
rxy = 0,916
Man erkennt eine starken linearen
Zusammenhang zwischen Verkaufsfläche und
Umsatz. Diese Abhängigkeit lässt sich durch
lineare Einfachregression erklären.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
17
Regression I
Beispiel: Berechnung der Parameter der
Einfachregression
Filiale Nr.
Fläche
(xi)
Umsatz
(yi)
1
150
3
x²i
22500
y²i
xiyi
9
450
2
180
8
32400
64
1440
3
420
19
176400
361
7980
4
480
22
230400
484
10560
5
660
31
435600
6
7
1000
42
1300
48
8
1500
9
10
Summe
Mittelwert
961
20460
1000000
1764
42000
1690000
2304
62400
52
2250000
2704
78000
1600
54
2560000
2916
86400
1710
61
2924100
3721
104310
9000
340
11321400
15288
414000
900
34
yˆ = b1 + b 2 x
n
b2 =
n
n
i =1
i =1
n ∑ xi y i − ∑ x i ∑ y i
i =1
⎛ n ⎞
n∑ x − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
2
2
i
=
10 ⋅ 414000 − 9000 ⋅ 340
10 ⋅ 11321400 − (9000 )
2
= 0,0335
b1 = y − b2 x
= 34 − 0,0335 ⋅ 900 = 3,8268
yˆ = 3,8268 + 0,0335 x
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
18
Regression I
9
Eigenschaften der linearen KleinstQuadrate-Einfachregression (1)
1.
Die Summe der Residuen ist Null
n
n
n
δSAQ(b1 , b2 )
= −2∑ ( y i − b1 − b2 xi ) = 0 ⇒ ∑ ( y i − yˆ i ) = ∑ ei = 0
δb1
i =1
i =1
i =1
2.
Die Summe der Produkte xiei (i=1, 2, . . . , n) ist Null
n
n
n
δSAQ(b1 , b2 )
= −2∑ xi ( y i − b1 − b2 xi ) = 0 ⇒ ∑ xi ( y i − yˆ i ) = ∑ xi ei = 0
δb2
i =1
i =1
i =1
3.
Das arithmetische Mittel der beobachteten Werte yi ist gleich
dem arithmetischen Mittel der geschätzten Werte yi-Dach
n
n
n
∑e = ∑(y
i =1
i
i =1
i
n
n
n
n
i =1
i =1
i =1
i =1
− yˆ i ) = 0 ⇒ ∑ y i − ∑ yˆ i = 0 ⇒ ∑ y i = ∑ yˆ i ⇒
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
∑y
i =1
n
n
i
=
∑ yˆ
i =1
i
n
⇒ y = yˆ
19
Regression I
Eigenschaften der linearen KleinstQuadrate-Einfachregression (2)
4.
Die Regressionsgerade verläuft durch den Datenschwerpunkt
n
x=
∑x
i =1
i
y i − yˆ i = ei ⇒ y i = b1 + b2 xi + ei
n
n
y=
∑y
i =1
n
n
i =1
i =1
⇒ ∑ y i = nb1 + b2 ∑ xi + ∑ ei ⇒ y = b1 + b2 x
n
i =1
i
Streudiagram
n
y = 34
Umsatz in Mill. EUR
70
P ( x, y)
60
50
40
30
20
10
0
0
200
400
600
800
x = 900
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
1000
1200
1400
1600
1800
Fläche in m²
20
Regression I
10
Zerlegung der Abweichungsquadratsumme
yi − y
P ( xi , y i )
yi
yˆ i − y
ŷ i
y
Residuen
oder
nichterklärte
Abweichungen
X
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Durch das Modell
erklärte Abweichung
ei = yi − yˆi
yˆ = f ( x ) = b1 + b2 x
xi
Zu erklärende
Abweichung
21
Regression I
Zerlegung der Abweichungsquadratsumme
n
n
∑( y
n
− y)² = ∑( yi − yˆ i )² + ∑( yˆ i − y)²
i =1
i =1
14243 1
4243 1
4243
i =1
yi
i
SQT
SQR
SQE
ŷ i
y
SQT: Quadratsumme der zu erklärenden
Abweichung (SQy)
=
SQR: Quadratsumme der nicht erklärten
Abweichung (Restabweichung, Residuen)
+
SQE: Quadratsumme der durch die
Regression erklärten Abweichung
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
22
Regression I
11
Zerlegung der Abweichungsquadratsumme
y i − y = y i − yˆ i + yˆ i − y ⇒ ( y i − y )² = ( y i − yˆ i )² + 2( y i − yˆ i )( yˆ i − y ) + ( yˆ i − y )²
n
n
n
n
⇒ ∑ ( y i − y )² = ∑ ( y i − yˆ i )² + 2∑ ( y i − yˆ i )( yˆ i − y ) + ∑ ( yˆ i − y )²
i =1
i =1
i =1
1
1
4243 1
4243 1i =4
4424443 1
4243
SQT
2 A= 0
SQR
n
n
i =1
i =1
(a + b)² = a ² + 2ab + b ²
A = ∑ ( y i − yˆ i )( yˆ i − y ) = ∑ ei ( yˆ i − y )
n
n
n
n
i =1
i =1
i =1
i =1
SQE
1. Eigenschaft
= ∑ ei yˆ i − y ∑ ei =∑ ei yˆ i − 0 = ∑ ei yˆ i
n
∑
i =1
2. Eigenschaft
n
∑
i =1
n
n
n
i =1
i =1
i =1
= ∑ ei (b1 + b2 xi ) = b1 ∑ ei +b2 ∑ ei xi = 0
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
Geschätzte
Werte
ei = 0
xi ei = 0
yˆ i = b 1 + b 2 x i
23
Regression I
Bestimmtheitsmaß der Einfachregression
n
n
SQT = SQR + SQE
n
( y i − y )² = ∑ ( y i − yˆ i )² + ∑ ( yˆ i − y )²
∑
i =1
i =1
i =1
1
4243 1
4243 1
4243
SQT
SQR
n
B=
SQE
=
SQT
∑ ( yˆ
i
− y )²
∑(y
i
− y )²
i =1
n
i =1
B=
SQE = SQT − SQR
SQE
n
SQT − SQR
SQR
B=
= 1−
= 1−
SQT
SQT
∑(y
i =1
n
i
∑(y
i =1
i
− yˆ i )²
− y )²
durch die Regression erklärte Abweichungsquadratsumme
zu erklärende gesamte Abweichungsquadratsumme
Interpretation: Das Bestimmtheitsmaß ist der Anteil der durch die
Regressionsfunktion erklärten Abweichungsquadratsumme an der zu
erklärenden gesamten Abweichungsquadratsumme. Es kann auch als
Prozentwert angegeben werden.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
24
Regression I
12
Bestimmtheitsmaß der Einfachregression
Wertebereich des Bestimmtheitsmaßes
0≤B≤1
Wird die Summe der Abweichungsquadrate für den Fehler (SQR) unmittelbar
im Zähler der Verhältniszahl verwendet, dann drückt dieses Verhältnis die
Unbestimmtheit aus.
Unbestimmtheitsmaß
n
Das Quadrat des Korrelationskoeffizienten
ist das Bestimmtheitsmaß (B = r²).
Linearer
Korrelationskoeffizient
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
SQR
=
U=
SQT
∑( y
i =1
n
∑( y
i =1
r xy = Vorzeichen
(b
− yˆ i )²
i
i
− y )²
)⋅
2
B
25
Regression I
Beispiel: Berechnung des linearen Bestimmtheitsmaßes
Filiale Nr.
i
Fläche
(xi)
Umsatz
(yi)
Residuen
y²i
ŷ i
y i − yˆ i
( y i − yˆ i )²
1
150
3
9
8,8557
-5,8557
34,2887
2
180
8
64
9,8614
-1,8614
3,4649
3
420
19
361
17,9076
1,0924
1,1933
4
480
22
484
19,9192
2,0808
4,3299
5
660
31
961
25,9538
5,0462
25,4640
6
1000
42
1764
37,3526
4,6474
21,5985
0,3477
7
1300
48
2304
47,4103
0,5897
8
1500
52
2704
54,1155
-2,1155
4,4752
9
1600
54
2916
57,4681
-3,4681
12,0274
10
1710
61
3721
61,1559
-0,1559
0,0243
9000
340
15288
900
34
Summe
Mittelwert
yˆ = 3,8268 + 0,0335 x
n
Residuen²
107,2140
Berechnung mit Excel, gerundet
B = 1−
SQR
= 1−
SQT
∑(y
i =1
n
∑(y
i =1
n
= 1−
= 1−
∑(y
i =1
i
i
i
− yˆ i )²
− y )²
− yˆ i )²
⎛ n ⎞
⎜ ∑ yi ⎟
n
⎝ i =1 ⎠
2
y
−
∑
i
n
i =1
2
107,2140
15288 −
(340)2
10
= 1 − 0,0288 = 0,9712
Interpretation: 97,71 % der gesamten Abweichungsquadratsumme ist durch die lineare Einfachregression erklärt.
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
26
Regression I
13
Vielen Dank für Ihre Aufmerksamkeit!
Bananenschalen, Papier und …
herunter gefallen? Dann schnell aufheben
und in die Tonne damit!
Prof. Kück / Dr. Ricabal Delgado
Lehrstuhl Statistik
27
Regression I
14
Herunterladen