Statistics, Data Analysis, and Simulation SS 2017

Werbung
Statistics, Data Analysis, and Simulation
SS 2017
08.128.730 Statistik, Datenanalyse und Simulation
Dr. Michael O. Distler
<[email protected]>
Mainz, 1. Juni 2017
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
1 / 38
Methode der kleinsten Quadrate
Geschichte: Von Legendre, Gauß und Laplace zu Beginn des
19. Jahrhunderts eingeführt.
Die Methode der kleinsten Quadrate ist damit älter als die
allgemeinere Maximum Likelihood-Methode.
In diesem Kapitel werden direkte Messwerte mit der
Eigenschaft von Zufallsvariablen (Daten) durchweg mit yi
bezeichnet.
n-malige Messung einer Größe x liefert also y1 , y2 , . . . , yn :
yi = x + i
i ist die Abweichung yi ↔ x (Messfehler).
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
2 / 38
Methode der kleinsten Quadrate
Die gemessenen Werte weichen von dem wahren Wert um
einen Betrag ab, der durch die Standardabweichung σ
beschrieben wird.
Im Sinne der Statistik sind die yi eine Stichprobe, welcher
eine Wahrscheinlichkeitsdichte zugrunde liegt.
Es soll eine funktionelle Beziehung (Modell) für die wahren
Werte vorliegen.
Dieses Modell kann von zusätzlichen Variablen aj
(Parametern) abhängen.
Für diese Parameter gibt es keine direkte Messung.
Das Modell wird durch eine oder mehrere Gleichungen der
Form
f (a1 , a2 , . . . , ap , y1 , y2 , . . . , yn ) = 0
beschrieben. Diese Gleichungen heißen Bedingungen.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
3 / 38
Methode der kleinsten Quadrate
Das Modell kann benutzt werden, um Korrekturen ∆yi für die
Messwerte yi zu finden, so dass die korrigierten Werte die
Bedingungen exakt erfüllen.
Das Prinzip der kleinsten Quadrate verlangt, dass die Summe
der Quadrate der Residuen ∆yi den kleinstmöglichen Wert
annimmt.
Im einfachsten Fall unkorrelierter Daten, die alle die gleiche
Standardabweichung haben, entspricht das der Forderung:
S=
n
X
∆yi2 = Minimum
i=1
Man kann so Werte für die nicht gemessenen Parameter unter
allgemeinen Bedingungen ermitteln −→ indirekte Messung
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
4 / 38
Methode der kleinsten Quadrate
Die Methode der kleinsten Quadrate hat einige optimale
statistische Eigenschaften und führt oft zu einfachen
Lösungen.
Andere Vorschriften sind denkbar, führen aber im allgemeinen
zu komplizierten Lösungen.
n
X
|∆yi | = Minimum
oder
max |∆yi | = Minimum
i=1
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
5 / 38
Methode der kleinsten Quadrate
Allgemeiner Fall:
Daten werden beschrieben durch n-Vektor y.
Verschiedene Standardabweichungen und mit
Korrelationen, beschrieben durch die Kovarianzmatrix V.
Bedingung der kleinsten Quadrate in Matrixform:
S = ∆yT V−1 ∆y
Hierbei ist ∆y der Residuenvektor.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
6 / 38
Lineare kleinste Quadrate
Beispiel: Im Weinanbau werden die jeweils im Herbst geernteten
Erträge in Tonnen je 100 m2 (t/ar) gemessen. Es ist bekannt, dass
der Jahresertrag bereits im Juli ziemlich gut prognostiziert werden
kann, und zwar durch die Bestimmung der mittleren Anzahl von
Beeren, die je Traube gebildet worden sind.
Ertrag (yi )
5,6
3,2
4,5
4,2
5,2
2,7
4,8
4,9
4,7
4,1
4,4
5,4
Cluster (xi )
116,37
82,77
110,68
97,50
115,88
80,19
125,24
116,15
117,36
93,31
107,46
122,30
Dr. Michael O. Distler <[email protected]>
6
5.5
5
Ertrag/(t/ar) y
Jahr
1971
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
4.5
4
3.5
3
2.5
80
90
100
Clusterzahl x
110
120
Statistics, Data Analysis, and Simulation – SS 2017
7 / 38
Lineare kleinste Quadrate
Anpassung einer Geraden f (x) = a + b · x mit Hilfe von gnuplot:
degrees of freedom (FIT_NDF) : 10
rms of residuals (FIT_STDFIT) = sqrt(WSSR/ndf) :
0.364062
variance of residuals (reduced chisquare) =
WSSR/ndf : 0.132541
Final set of parameters Asymptotic Standard Error
======================= ==========================
a = -1.0279 +/- 0.7836 (76.23%)
b = 0.0513806 +/- 0.00725 (14.11%)
correlation matrix of the fit parameters:
a
b
a 1.000
b -0.991 1.000
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
8 / 38
Bestimmung von Parameterwerten
Bestimmung von Parameterwerten a aus Messungen anhand
eines linearen Modells.
Der Vektor a der Parameter hat p Elemente a1 , a2 , . . . , ap .
Die Messwerte bilden den Vektor y von n Zufallsvariablen mit
Elementen y1 , y2 , . . . , yn .
Der Erwartungswert von y ist gegeben als Funktion der
Variablen x der Form:
y (x) = f (x, a) = a1 f1 (x) + a2 f2 (x) + . . . + ap fp (x).
Damit ist der Erwartungswert jeder Einzelmessung yi gegeben
durch
E[yi ] = f (xi , ā) = ȳi
wobei die Elemente von ā die wahren Werte des Parameters a
sind.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
9 / 38
Bestimmung von Parameterwerten
Die Residuen
ri = yi − f (xi , a)
haben für a = ā die Eigenschaften
E[ri ] = 0
E[ri2 ] = V [ri ] = σi2 .
Die einzigen Annahmen hier sind Unverzerrtheit und eine
endliche Varianz der Wahrscheinlichkeitsdichte der Residuen.
Insbesondere ist es nicht zwingend nötig, dass sie gauß-verteilt
ist.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
10 / 38
Normalgleichungen im Fall gleicher Fehler
Alle Daten sollen die gleiche Varianz haben und unkorreliert
sein.
Nach dem Prinzip der kleinsten Quadrate muss die Summe der
Quadrate der Residuen in Bezug auf die Parameter
a1 , a2 , . . . , ap minimiert werden:
S=
n
X
ri2
=
i=1
n
X
(yi − a1 f1 (xi ) − a2 f2 (xi ) − . . . − ap fp (xi ))2
i=1
Bedingungen für das Minimum:
n
X
∂S
= 2
f1 (xi ) (a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ) = 0
∂a1
i=1
...
...
n
X
∂S
= 2
fp (xi ) (a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ) = 0
∂ap
i=1
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
11 / 38
Normalgleichungen im Fall gleicher Fehler
Die Bedingung kann in Form der sogenannten
Normalgleichungen geschrieben werden
P
P
P
a1 P f1 (xi )2
+ . . . + ap P f1 (xi )fp (xi ) = P yi f1 (xi )
yi f2 (xi )
a1 f2 (xi )f1 (xi ) + . . . + ap f2 (xi )fp (xi ) =
...
P
P
P
a1 fp (xi )f1 (xi ) + . . . + ap fp (xi )2
=
yi fp (xi )
Die Schätzwerte von a1 , a2 , . . . , ap nach kleinsten Quadraten
folgen als die Lösung dieser Normalgleichung.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
12 / 38
Matrixschreibweise
Matrixschreibweise und Matrixalgebra vereinfachen die
Formulierung wesentlich.
Die n × p Werte fj (xi ) werden als Elemente einer n × p Matrix
aufgefasst. Die p Parameter aj und die n Messwerte yi bilden
Spaltenvektoren.






f1 (x1 ) f2 (x1 ) . . . fp (x1 )
y1
a
1
 f1 (x2 ) f2 (x2 ) . . . fp (x2 ) 
 y2 


 a2 


a=



A=
 ...

 ...  y =  ... 
 ...

 ... 
ap
f1 (xn ) f2 (xn ) . . . fp (xn )
yn
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
13 / 38
Matrixschreibweise
Der n-Vektor der Resudien ist damit
r = y − Aa.
Die Summe S ist
S = rT r = (y − Aa)T (y − Aa)
= yT y − 2aT AT y + aT AT Aa
Bedingung für das Minimum
−2AT y + 2AT Aâ = 0
oder in der Matrixform der Normalgleichungen
(AT A)â = AT y
Die Lösung kann mit Standardverfahren der Matrixalgebra
berechnet werden:
â = (AT A)−1 AT y
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
14 / 38
Kovarianzmatrix der Parameter
Die Kovarianzmatrix ist die quadratische n × n-Matrix

var(y1 )
cov(y1 , y2 ) . . . cov(y1 , yn )
 cov(y2 , y1 )
var(y2 )
. . . cov(y2 , yn )
V[y] = 

...
...
...
cov(yn , y1 ) cov(yn , y2 ) . . .
var(yn )




Hier ist die Kovarianzmatrix eine Diagonalmatrix:
 2

σ
0 ... 0
 0 σ2 . . . 0 

V[y] = 
 ... ...
... 
0
0 . . . σ2
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
15 / 38
Kovarianzmatrix der Parameter
Für eine lineare Beziehung â = By gilt die Standardformel der
Fehlerfortpflanzung:
V[â] = BV[y]BT
mit B = (AT A)−1 AT wird daraus
V[â] = (AT A)−1 AT V[y]A(AT A)−1
oder für den vorliegenden Fall gleicher Fehler einfach
V[â] = σ 2 (AT A)−1
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
16 / 38
Quadratsumme der Residuen
Die Summe Ŝ der Quadrate der Residuen im Minimum ist
Ŝ = yT y − 2âT AT y + âT AT A(AT A)−1 AT y = yT y − âT AT y.
Der Erwartungswert E[Ŝ] ist
E[Ŝ] = σ 2 (n − p) .
Ist die Varianz der Messdaten nicht bekannt, so erhält man aus
Ŝ den Schätzwert
σ̂ 2 = Ŝ/(n − p).
Dies ist für große Werte von (n − p) eine gute Schätzung.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
17 / 38
Korrektur der Datenwerte
Nach Berechnung der Parameter mit linearen kleinsten
Quadraten können Werte der Funktion f (x) für beliebige x
bestimmt werden durch
ŷ (x) = f (x, â) =
p
X
âj fj (x).
j=1
Speziell für die Werte xi , die zu den Messwerten yi gehören,
ergeben sich die korrigierten Datenpunkte zu
ŷ = Aâ.
Fehlerfortplanzung liefert die Kovarianzmatrix
V[ŷ] = AV[a]AT = σ 2 A(AT A)−1 AT
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
18 / 38
Der Fall unterschiedlicher Fehler
Wenn die einzelnen Datenpunkte statistisch unabhängig sind,
dann ist die Kovarianzmatrix

 2
σ1 0 . . . 0
 0 σ2 . . . 0 
2

V[y] = 
 ... ...
... 
0
0 . . . σn2
Der Ausdruck für die Summe der Residuenquadrate lautet nun:
X r2
i
S=
= Minimum
2
σ
i
i
Man führt die Gewichtsmatrix W(y) ein als inverse Matrix der
Kovarianzmatrix


1/σ12
0
...
0
 0
1/σ22 . . .
0 

W(y) = V[y]−1 = 
 ...
...
... 
0
0
. . . 1/σn2
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
19 / 38
Der Fall unterschiedlicher Fehler
Die Summe der Quadrate der gewichteten Residuen
S = rT W(y)r = (y − Aa)T W(y)(y − Aa)
muss nun bezüglich der Parameter minimiert werden. Es ergibt
sich:
â = (AT WA)−1 AT Wy
V[â] = (AT WA)−1
Die Summe der Residuenquadrate für a = â hat die Form
Ŝ = yT Wy − âT AT Wy
und den Erwartungswert E[Ŝ] = n − p .
Die Kovarianzmatrix der korrigierten Datenpunkte ist
V[ŷ] = A(AT WA)−1 AT
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
20 / 38
Kleinste Quadrate in der Praxis: Geradenanpassung
Geradenanpassung mit der Funktion y = f (x, a) = a1 + a2 x.
Messwerte yi liegen an den genau bekannten Punkten xi vor.



A=


1
1
1
...
1
x1
x2
x3









V=


xn

a=
a1
a2


y=


y1
y2
y3
...
yn
Dr. Michael O. Distler <[email protected]>
σ12 0 0 . . . 0
0 σ22 0
0
0 0 σ32
0
...
...
0 0 0 . . . σn2












W = V−1
wii =
1
σi2
Statistics, Data Analysis, and Simulation – SS 2017
21 / 38
Kleinste Quadrate in der Praxis: Geradenanpassung
Lösung:
AT WA =
P
w
P i
wi xi
P
wx
S1 Sx
P i 2i
=
Sx Sxx
wi xi
P
S
w
y
y
i
i
=
A Wy = P
wi xi yi
Sxy
S1 Sx
a1
Sy
=
Sx Sxx
a2
Sxy
T
â = (AT WA)−1 AT Wy
V[â] = (AT WA)−1
S1 Sx
Sx Sxx
−1
1
=
D
Sxx
−Sx
Dr. Michael O. Distler <[email protected]>
−Sx
S1
mit D = S1 Sxx − Sx2
Statistics, Data Analysis, and Simulation – SS 2017
22 / 38
Kleinste Quadrate in der Praxis: Geradenanpassung
Die Lösung ist
â1 = (Sxx Sy − Sx Sxy )/D
â2 = (−Sx Sy − S1 Sxy )/D
und die Kovarianzmatrix ist
1
V[â] =
D
Sxx
−Sx
−Sx
S1
.
Weiterhin ist die Summe der Residuenquadrate
Ŝ = Syy − â1 Sy − â2 Sxy
Für einen Wert ŷ = â1 + â2 x, berechnet an der Stelle x, ist die
Standardabweichung die Wurzel aus der Varianz:
V [ŷ ] = V [â1 ] + x 2 V [â2 ] + 2xV [â1 , â2 ] = (Sxx − 2xSx + x 2 S1 )/D
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
23 / 38
Lineare kleinste Quadrate
Beispiel: Im Weinanbau werden die jeweils im Herbst geernteten
Erträge in Tonnen je 100 m2 (t/ar) gemessen. Es ist bekannt, dass
der Jahresertrag bereits im Juli ziemlich gut prognostiziert werden
kann, und zwar durch die Bestimmung der mittleren Anzahl von
Beeren, die je Traube gebildet worden sind.
yield (yi )
5,6
3,2
4,5
4,2
5,2
2,7
4,8
4,9
4,7
4,1
4,4
5,4
cluster (xi )
116,37
82,77
110,68
97,50
115,88
80,19
125,24
116,15
117,36
93,31
107,46
122,30
Dr. Michael O. Distler <[email protected]>
6
5.5
5
yield/(t/ar) y
year
1971
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
4.5
4
3.5
3
2.5
80
90
100
clusters x
110
120
Statistics, Data Analysis, and Simulation – SS 2017
24 / 38
Lineare kleinste Quadrate: Weinbau-Beispiel
6
5.5
yield/(t/ar) y
5
4.5
4
3.5
3
2.5
80
90
100
clusters x
110
120
a1 = −1,0279 ± 0,7836
a2 = 0,0513806 ± 0,00725
Fehlerband : err (x) = −1,02790 + 0,0513806x
p
± 5,2561 · 10−5 x 2 − 0,011259x + 0,61395
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
25 / 38
Herunterladen