Regressionsrechnung: Die Methode der kleinsten Quadrate

Universität Basel
Wirtschaftswissenschaftliches Zentrum
Regressionsrechnung:
Die Methode der kleinsten Quadrate
Dr. Thomas Zehrt
Inhalt:
1. Einstimmung
2. Problemstellung
3. Die Methode der kleinsten Quadrate
4. Lineare Regression
5. Quadratische Regression
Teil 1
Einstimmung
Aufgabe: Untersuchung des Zusammenhangs zwischen Werbungskosten und Absatz
Daten einer Stichprobe:
xi 1 2 3
yi 2 3 4.5
• xi - Werbungskosten je Kunde (in 1′000.−)
• yi - Absatz je Kunde (in 100′000.−)
Frage:
Welcher Absatz ist bei Werbungskosten
von 8′000.− zu erwarten???
Darstellung in einem Streuungsdiagramm
(Punktwolke)
y
x
Mathematische Modellbildung:
Es scheint zwischen beiden Merkmalen
einen linearen Zusammenhang zu geben,
der durch verschiedene Einflüsse leicht verfälscht ist.
Linearer Modellansatz:
y = f (x) = a + b x
Problem:
Wie sollen die Zahlen a und b gewählt
werden, d.h. welche Gerade kommt unserer Punktwolke am nächsten?
Welche Gerade ist die Beste?
y
x
Methode der kleinsten Quadrate
• Für jede Gerade y = f (x; a, b) = a + b x
führen wir in zwei Schritten ein Strafmass für deren Abweichung von der Punktwolke ein.
• Dieses Strafmass wird eine Funktion F (a, b)
sein, die von den beiden Parametern a
und b abhängt.
• Wir minimieren diese Funktion F , d.h.
wir suchen die Werte â und b̂ die die
Funktion (global) minimieren.
1. Schritt
Abweichung der Geraden im Punkt xi:
ei = yi − |(a +{zb xi}) ∈ R
f (xi;a,b)
y
a + bx1
e1
e3
e2
y1
y = a + bx
x1
x2
x3
e1 = 2 − (a + b) = 2 − a − b
e2 = 3 − (a + b2) = 3 − a − 2b
e3 = 4.5 − (a + b3) = 4.5 − a − 3b
x
2. Schritt
Gesamtstrafe für die Gerade y = a + b x
F
{z b)} =
| (a,
≥0
n
X
i=1
e2i
|{z}
≥0
Für unser Beispiel:
F (a, b)
= (2 − a − b)2 + (3 − a − 2b)2 + (4.5 − a − 3b)2
= 3a2 + 14b2 + 12ab − 19a − 43b + 33.25
3. Schritt
Bestimmung der Extremalstellen der
Funktion F (a, b)
Notwendige Bedingungen:
∂
∂
0 = F (a, b) und 0 = F (a, b)
∂a
∂b
Für unser Beispiel:
0 = 6a + 12b − 19 und 0 = 12a + 28b − 43
oder
6 12
a
19
=
12 28
b
43
Lösung: â = 23 und b̂ = 54
Das sind die Koordinaten des einzigen lokalen (und globalen) Minimums der Funktion F (a, b)!
Optimale Gerade: y = 23 + 45 x
Antwort:
Bei Werbungskosten von 8′000.− ist ein
Absatz von 32 + 45 8 ≈ 10.7 also 1′070′000.−
zu erwarten!
Teil 2
Problemstellung
Seien X und Y (bzw. X1, . . . , Xn und Y )
zwei (bzw. n + 1) quantitative Merkmale.
Die Regressionsrechnung untersucht die
Form des Zusammenhangs dieser Merkmale.
Wir benötigen eine Modellgleichung zwischen den Merkmalen:
y = f (x; a, b, c, . . .)
y = f (x1, . . . , xn; a, b, c, . . .)
mit einer (an das Problem angepassten)
Funktion f , mit noch zu bestimmenden
Parametern a, b, c, . . ..
X bzw. X1, . . . , Xn heissen Ursache und Y
Wirkung.
Modell 1:
• Merkmal Y :
Absatz(menge) eines Produktes
• Merkmal X:
Werbungskosten
• Zusammenhangsmodell:
y = a + bx
• gesucht:
a, b
Modell 2:
• Merkmal Y :
Nachfrage nach einem Gut (y = qd)
• Merkmal X:
Preis (x = p)
• Zusammenhangsmodell:
qd = a − b |{z}
p
|{z}
y
• gesucht:
a, b > 0
x
Modell 3:
• Merkmal Y :
Angebot eines Gutes (y = qs)
• Merkmal X:
Preis (x = p)
• Zusammenhangsmodell:
qs = −c + d |{z}
p
|{z}
y
• gesucht:
a, b > 0
x
Modell 4:
• Merkmal Y :
Nachfrage nach einem Gut (y = q)
• Merkmal X:
persönliches Einkommen (x = E)
• Zusammenhangsmodell(Engel-Funktion
für ein normales Gut):
q = q(E) = s 1 − EE0
• gesucht:
s, E
Modell 5:
• Merkmal Y :
Nachfrage nach einem Gut (y = q)
• Merkmal X:
persönliches Einkommen (x = E)
• Zusammenhangsmodell(Engel-Funktion
für ein inferiores Gut):
q = q(E) = Ea
• gesucht:
a
Modell 6:
• Merkmal Y :
Nachfrage nach einem Gut (y = q)
• Merkmal X:
persönliches Einkommen (x = E)
• Zusammenhangsmodell:
q = q(E) = A eb/E
• gesucht:
A, b
Modell 7:
• Merkmal Y :
Produktionskosten (y = K)
• Merkmal X:
Output (x)
• Zusammenhangsmodell:
K = K(x) = k0 + k1x + k2x2 + k3x3
• gesucht:
k0, k1, k2, k3
Modell 8:
• Merkmal Y :
Konsum (y = C)
• Merkmal X:
Volkseinkommen (x = Y )
• Zusammenhangsmodelle:
C = C(Y ) = C0 + cY
C = C(Y ) = C0 + b(1 − e−aY )
• gesucht:
C0, c bzw. C0, b, a
Modell 9:
• Merkmal Y :
Nachfrage nach Gut G1 (y = q1)
• Merkmal X1:
Preis von Gut G1 (x1 = p1)
• Merkmal X2:
Preis von Gut G2 (x2 = p2)
• Zusammenhangsmodelle:
Konkurrierende Güter
q1 = q1(p1, p2) = a − bp1 + cp2
β
p2
q1 = q1(p1, p2) = k pα
1
• gesucht:
a, b, c bzw. k, α, β
Modell 10:
• Merkmal Y :
Nachfrage nach Gut G1 (y = q1)
• Merkmal X1:
Preis von Gut G1 (x1 = p1)
• Merkmal X2:
Preis von Gut G2 (x2 = p2)
• Zusammenhangsmodelle:
Komplementäre Güter
q1 = q1(p1, p2) = a − bp1 − cp2
q1 = q1(p1, p2) = k α1 β
p1 p2
• gesucht:
a, b, c bzw. k, α, β
Modell 11:
• Merkmal Y :
Kosten für die Produktion von 2 Gütern
G1 und G2 (y = C)
• Merkmal X1:
Menge von G1 (x1 = q1)
• Merkmal X2:
Menge von G2 (x2 = q2)
• Zusammenhangsmodelle:
C = C(q1, q2) = aq12 +bq1q2 +cq22 +dq1 +eq2 +f
• gesucht:
a, b, c, d, e, f
Modell 12:
• Merkmal Y :
Produktionsergebnis (y = Q)
• Merkmal X1:
1. Produktionsfaktor (x1 = K)
• Merkmal X2:
2. Produktionsfaktor (x2 = A)
• Zusammenhangsmodelle:
Q = Q(K, A) = c K αAβ
• gesucht:
c, α, β
Modell 13:
• Merkmal Y :
Produktionsergebnis (y = Q)
• Merkmal X1:
1. Produktionsfaktor (x1 = K)
• Merkmal X2:
2. Produktionsfaktor (x2 = A)
• Zusammenhangsmodelle:
Q = Q(K, A) = (a K ρ + b Aρ)1/ρ
• gesucht:
a, b, ρ
Nun werden n Messungen beider Merkmale durchgeführt.
Ergebnis: n Messwertepaare (-tripel, ...)
(x1, y1), (x2, y2), . . . , (xn, yn)
die (z.B. auf Grund von Messfehlern) nicht
genau auf einer dem Modell entsprechenden Kurve (Fläche) liegen werden.
Ziel der Regressionsrechnung:
Aus der Vielzahl aller möglichen Modellkurven (Modellflächen) soll die ,,Beste”
ausgewählt werden.
Weg:
Die Methode der kleinsten Quadrate
Teil 3
Die Methode der kleinsten Quadrate
gegeben
• Modellgleichung zwischen den Merkmalen X und Y
y = f (x; a, b, c, . . .)
• n Messwertpaare
(x1, y1), (x2, y2), . . . , (xn, yn)
Problem:
Für jede (erlaubte) Wahl der Parameter
a, b, c, . . . entsteht eine Funktion, die in das
Modell passt. Welche approximiert meine
Messwerte am Besten?
Lösung:
Jeder möglichen Modellkurve (d.h. jeder
Wahl der Parameter) wird das Strafmass
F (a, b, c, . . .) =
n
X
i=1
(y|i − f (xi{z
; a, b, c, . . .)})2
ei
zugeordnet, dessen Grösse die Abweichung
dieser Kurve von den Messwerten ausdrückt.
Dann suchen wir die Parameter â, b̂, ĉ, . . .
die diese Straffunktion minimieren.
Notwendige Bedingungen:
∂
F (a, b, c, . . .)
0 =
∂a
∂
0 = F (a, b, c, . . .)
∂b
∂
0 = F (a, b, c, . . .)
∂c
..
..
..
..
Vektorschreibweise
 
1
y1
x1
1
 y2 
 x2 





x= .  y= .  u=
 .. 
.
.
1
yn
xn








e1
y1 − f (x1, a, b, c, · · ·)
 e2   y2 − f (x2, a, b, c, · · ·) 
=

e=
.
.
 .  

.
en
yn − f (xn, a, b, c, · · ·)
Teil 4
Lineare Regression
gegeben
• lineare Modellgleichung zwischen den
Merkmalen X und Y
y = f (x; a, b) = a + bx
• n Messwertpaare
(x1, y1), (x2, y2), . . . , (xn, yn)
oder
 
1
y1
x1
1
 y2 
 x2 
 y=  u= 
x=
.
 .. 
 .. 
 . 
1
yn
xn








e1
y1 − a − bx1
 e2   y2 − a − bx2 
=

e=
.
.
 .  

.
en
yn − a − bxn
= y − au − bx
Straffunktion
F (a, b) =
n
X
e2i = e • e
i=1
= (y − au − bx) • (y − au − bx)
= y • y − 2a u • y − 2b x • y
+a2 u • u + 2ab u • x + b2 x • x
Notwendige Bedingungen für ein Extrema
∂
0 = F (a, b) = 2a u • u + 2b u • x − 2u • y
∂a
∂
0 = F (a, b) = 2a u • x + 2b x • x − 2x • y
∂b
Als lineares Gleichungssystem
u•u
u•x
u•x
a
u•y
=
x•x
b
x•y
Nach Berechnung der Skalarprodukte

n
 n
P
i=1
xi

 n

P
xi  yi 

a
i=1

 i=1

=
n
n
P

P 2 b
xi
xi y i
n
P
i=1
i=1
Lösung mittels Cramerscher Regel:
n
P
â = i=1
n
P
yi ·
n
i=1
n
P
i=1
n·
b̂ =
n
P
i=1
n
x2i −
n
P
i=1
i=1
x2i −
xi ·
n
P
x2i −
xi y i −
n
P
xi
i=1
n
P
i=1
xi ·
n
P
i=1
i=1
!2
n
P
i=1
!2
xi
n
P
yi
xi y i
Aufgabe:
Finden Sie eine einfache Bedingung dafür, dass
das lineare Regressionsproblem
u•u u•x
a
u•y
=
u•x x•x
b
x•y
für jede rechte Seite eindeutig lösbar ist.
Hinweis:
Erinnern Sie sich zunächst unter welchen Bedingungen ein lineares Gleichungssystem eindeutig lösbar ist. Berechnen Sie dann
det
u•u
u•x
u•x
x•x
Aufgabe 1:
Die Werte
xi 1 2 3 4
yi 6 7 9 10
liegen ungefähr auf einer Geraden. Bestimmen
Sie die Gerade, die diese Daten bestmöglich approximiert.
10
9
8
7
6
1,0
1,5
2,0
2,5
3,0
3,5
4,0
Aufgabe 2:
Gegeben sind die Daten
4
xi 0 1 2 3
yi 3 1 0.5 0.2 0.05
Bestimmen Sie mit den Techniken der linearen
Regression eine Funktion der Form f (x) = aebx,
die diese Daten gut approximiert.
3,0
2,5
2,0
1,5
1,0
0,5
0,0
0
1
2
3
4
Teil 5
Quadratische Regression
gegeben
• quadratische Modellgleichung zwischen
den Merkmalen X und Y
y = f (x; a, b, c) = a + bx + cx2
• n Messwertpaare
(x1, y1), (x2, y2), . . . , (xn, yn)
oder
 
1
y1
x1
1
 y2 
 x2 
 y=  u= 
x=
.
 .. 
 .. 
 . 
1
yn
xn








2
y1 − a − bx1 − cx1
e1
 e2   y2 − a − bx2 − cx2 
=
2 
e=
.
.
 .  

.
en
yn − a − bxn − cx2n
Straffunktion
F (a, b, c) =
n
X
(yi − a − bxi − cx2i )2
i=1
Notwendige Bedingungen für ein Extrema
n
X
∂
0 = F (a, b, c) = −2
(yi − a − bxi − cx2i )
∂a
∂
0 = F (a, b, c) = −2
∂b
∂
0 = F (a, b, c) = −2
∂c
i=1
n
X
i=1
n
X
i=1
xi(yi − a − bxi − cx2i )
x2i (yi − a − bxi − cx2i )
Als lineares Gleichungssystem

n

P
 n x

i
 i=1
P
 n 2
xi
i=1
n
P
i=1
n
P
i=1
n
P
i=1
xi
x2i
x3i
n
P
i=1
n
P
i=1
n
P
i=1


n
P

yi 
x2i 

 
 i=1

 a
P

n

xi y i 
x3i 
 b  = 


 i=1

 c
P

n



x4i
x2i yi
i=1
Aufgabe 3:
Gegeben sind die Daten
xi −1 0 1 2 3
yi 3 2 9 21 49
Bestimmen Sie eine quadratische Funktion, die
diese Daten gut approximiert.
50
40
30
20
10
0
−1
0
1
2
3
Lösung:
Daten
xi −1 0 1 2 3
yi 3 2 9 21 49
Arbeitstabelle:
xi
−1
0
1
2
P 3
5
yi
3
2
9
21
49
84
x2i
1
0
1
4
9
15
x3i
−1
0
1
8
27
35
x4i
1
0
1
16
81
99
xiyi x2i yi
−3
3
0
0
9
9
42 84
147 441
195 537
Lösung:
Daten
xi −1 0 1 2 3
yi 3 2 9 21 49
Arbeitstabelle:
xi
−1
0
1
2
P 3
5
yi
3
2
9
21
49
84
x2i
1
0
1
4
9
15
x3i
−1
0
1
8
27
35
x4i
1
0
1
16
81
99
xiyi x2i yi
−3
3
0
0
9
9
42 84
147 441
195 537
Als lineares Gleichungssystem


 
84
5 5 15
a
 5 15 35   b  =  195 
537
15 35 99
c

Lösungen des linearen Gleichungssystems
â = 1.2
b̂ = 2.1
ĉ = 4.5
Die quadratische Funktion
f (x) = 1.2 + 2.1x + 4.5x2
approximiert die Datenmenge bestmöglich!
50
40
30
20
10
0
−1
0
1
2
x
3