Statistische Datenanalyse und Optimierung

Werbung
Statistische Datenanalyse, Optimierung
Statistische Datenanalyse
und
Optimierung
GS
11.01.2002
1
Statistische Datenanalyse, Optimierung
Gliederung
Verteilungsfunktionen
Normalverteilung
Normalverteilung mehrerer Vayriablen
Abgeleitete Verteilungen: χ2-Verteilung, Student-t-Verteilung
Statistische Tests
Fehlerfortpflanzung
Datenanpassung
Lineare Optimierung
Singulärwert-Zerlegung SVD
Nicht-lineare Optimierung
Allgemeine Optimierung mit Fehlern der Messgrößen
Robuste Schätzer
GS
11.01.2002
2
Statistische Datenanalyse, Optimierung
Verteilungsfunktion
• Gemessene Daten: xi aus einer Stichprobe (statistics) vom Umfang n
einer kontinuierlichen Zufallsvariablen x.
• Jeder Wert der Zufallsvariablen ist mit einem Fehler behaftet.
• Innerhalb der Stichprobe sind die Zufallsvariablen entsprechend einer
Verteilungsfunktion F(x) verteilt
F ( x) = P( x < x)
F (−∞) = 0
F ( ∞) = 1
P( x ≥ x) = 1 − P( x < x)
•
GS
F(x) : stetig,
monoton steigend,
stetig differenzierbar
11.01.2002
F(x)
x
3
Statistische Datenanalyse, Optimierung
Wahrscheinlichkeitsdichte
•
Wahrscheinlichkeitsdichte:
f ( x) =
•
dF ( x)
> 0 Normierung
dx
∞
∫
f ( x) dx = 1
−∞
Berechnung der Wahrscheinlichkeit für ein Ereignis x
a
P ( x < a ) = F (a ) = ∫ f ( x)dx
−∞
b
P (a ≤ x < b) = ∫ f ( x) dx = F (b) − F (a )
a
a
P (−a ≤ x < a ) = ∫ f ( x) dx = F (a ) − F (−a )
−a
•
GS
{= 2 F (a) − 1} für symmetrische
Verteilungen
Berechnung der Extremwerte a (bzw. -a) einer Zufallsvariable x für gegebene
Wahrscheinlichkeit P
Einseitige oder zweiseitige Berechnung ⇒ Statistische Testverfahren
11.01.2002
4
Statistische Datenanalyse, Optimierung
Zufallsvariable
Erwartungswert einer Zufallsvariablen
∞
E { x} = xˆ =
∫
x ⋅ f ( x)dx
Mittelwert der Variablen x über der Grundgesamtheit
−∞
E { x + y } = E { x} + E { y }
Eine Funktion y einer Zufallsvariablen x, y = H(x) ist selbst wieder eine Zufallsvariable
∞
E {H ( x)} = yˆ =
∫ H ( x) ⋅ f ( x)dx
−∞
Momente um c vom Grad l
H ( x ) = ( x − c )l
l
αl = E { x − c}
σ x2 = Varianz von x,
wenn c = E { x} = xˆ ⇒
σ = σ x2 = Standardabweichung
l
µl = E { x − xˆ } ⇒ l. Moment um Mittelwert E {( x − xˆ )( x − xˆ )} = 0,
i
j
µ0 = 1;
GS
µ1 = 0;
11.01.2002
2
µ2 = E { x − xˆ } = σ x2
falls xi und x j unkorreliert
5
Statistische Datenanalyse, Optimierung
Verteilungsfunktionen
Häufigste Wahrscheinlichkeitsdichte
• Gaußsche - oder Normal-Verteilung
N ( xˆ , σ )
 ( x − xˆ )2 
1
 = φ( x)
f ( x) =
exp −
2

2
σ
2πσ


• Standardnormalverteilung N(0,1), wenn xˆ = 0 und σ = 1
 x2 
1
f ( x) = φ0 ( x) =
exp − 
 2
2π


• Transformation:
 u2 
u = x − xˆ und σ = 1 ⇒ f ( x) = φ0 (u ) =
exp − 
 2
2π


1
GS
11.01.2002
6
Statistische Datenanalyse, Optimierung
Normal-Verteilung
Symmetrische Glockenkurve
• Wahrscheinlichkeitsdichte
2

ˆ
−
x
x
(
)
1
 = φ( x)
f ( x) =
exp −
2
2σ 
2πσ


•
Wahrscheinlichkeit
x
Φ( x ) = ∫
−∞
•
 ( x − xˆ )2 
1
 = P( x < x)
exp −
2

2σ 
2πσ


φ(x) = N(0,1)
Φ(x)
Grenzwertsatz der Statistik:
lim f ( x) = N ( xˆ , σ ) = φ( x)
n →∞
GS
11.01.2002
7
Statistische Datenanalyse, Optimierung
Normalverteilung mehrerer Variablen
x T = ( x1 , x2 ,… xm )
xi sei normalverteilt um ai
a T = (a1 , a2 ,…am ) ai = xˆi und σi2 = E{( xi − ai ) 2 }
Falls xi nicht statistisch unabhängig:
E{( xi − ai )( x j − a j )} = cov( xi , x j )
cov( xi , x j ) = 0
falls xi und x j statistisch unabhängig
Kovarianzmatrix
C x = E{( x − a )( x − a )T }
φ( x ) =
 1

exp − ( x − a )T C−1 ( x − a )
m
 2

( 2π ) C
1
Cx-1 = Gx = Gewichtsmatrix der Zufallsvariablen = Inverse der Kovarianzmatrix
Normierte Kovarianzmatrix = Korrelationsmatrix
GS
11.01.2002
8
Statistische Datenanalyse, Optimierung
Normalverteilung mehrerer Variablen
Endliche Stichproben:
∑g x
x=
∑g
i i
• Statt wahrem Wert x̂ nur Mittelwert
n
bekannt, mit: E { x } = xˆ
i
gi : statistisches Gewicht der Messung xi
n
x ist eine unverzerrte Schätzung von x̂
• Statt Standardabweichung s nur Streuung: s 2 =
s2 ist eine unverzerrte Schätzung von σ2
1
2
x
−
x
, E {s 2 } = σ 2
(
)
∑
i
n −1 n
Wahrscheinlichkeitsverteilungen beider Größen von Zahl der Freiheitsgrade f
abhängig
GS
11.01.2002
9
Statistische Datenanalyse, Optimierung
Erwartungswert von s2
1 n
2
=
−
s
x
x
(
)
∑ i
n −1 i
n

 n
2
1
1



2
2

E {s } =
E ∑ ( xi − x )  =
E ∑ ( xi − xˆ − ( x − xˆ )) 
 n − 1  i

n − 1  i
2
n
n

1


2
2

=
E ∑ ( xi − xˆ ) − 2( x − xˆ ) ∑ ( xi − xˆ ) + n ( x − xˆ ) 

n −1 
i
 i

 n

2
E ∑ ( xi − xˆ )  = nσ x2
 i

n
∑ ( x − xˆ ) = n( x − xˆ )
i
i
1  2
2
ˆ
σ
−
−
E {s } =
n
nE
x
x
(
)
 x
n −1 
{
2
Nebenrechnung:
2
 = 1  nσ 2 − n σ x  = 1  nσ 2 − σ 2  = σ 2
x
x
x
x

n − 1 
n  n − 1 
}
2
2
2



n
n
n












1
1
2











E ( x − xˆ ) = E ∑ xi n − xˆ   = 2 E ∑ xi − nxˆ   = 2 E ∑ ( xi − xˆ ) 
 i
  n  i
  n  i
 






 1
 1 
σ x2
1  n
2
2

= 2 E ∑ ( xi − xˆ )  + 2 E ∑ ( xi − xˆ )( x j − xˆ ) = 2 nσ x =
 n  i , j
 n
n  i
n
{
GS
11.01.2002
}
10
Statistische Datenanalyse, Optimierung
Student-t-Verteilung
Wahrscheinlichkeitsdichte, falls nur ein Mittelwert t und ein
Schätzwert st2 der Varianz σt2 der Stichprobe vom
Umfang f bekannt sind
f t (t , f ) =
 f + 1
Γ 
 2 
 f +1

 2 

 f   t

f π ⋅ Γ   ⋅  + 1
 2   f

2
Rot
Grün
Blau
Magenta
Schwarz
f=1
f=2
f=5
f = 10
N(0,1)
E{t} = 0
σ 2 (t ( f )) =
f
f −2
f : Anzahl Freiheitsgrade
t-Verteilung geht für große f in
Normalverteilung über
GS
11.01.2002
11
Statistische Datenanalyse, Optimierung
χ2-Quadrat-Verteilung
Verteilung des Schätzwertes der Varianz s2
s2
χ = f 2 >0
σ
f 2
 1 
 
 f − 2 

 2 
 1 
2
2  2 
⋅ (χ )
⋅ exp − χ 2 
f (χ , f ) =
f
 2 
Γ  
 2 
2
E{χ 2 } = f und σ 2 (χ 2 ) = 2 f
f : Anzahl Freiheitsgrade
χ2-Verteilung geht für große f in
Normalverteilung über
Rot
Blau
f=1
f=2
Grün
Gelb
Magenta
Schwarz
f=3
f=4
f=5
f = 10
Γ( z ) = Gammafunktion
∞
Γ( z ) = ∫ u z −1 exp[−u ] du
0
GS
11.01.2002
12
Statistische Datenanalyse, Optimierung
Statistische Tests
Konfidenzintervalle:
• Zweiseitiger Test:
Die mit dem zentralen Wert µ und der Abweichung σ normierte
Zufallsvariable x muss innerhalb der Grenzen a einer definierten Verteilung
mit der beidseitigen Ausschlusswahrscheinlichkeit α/2 (Signifikanz-Niveau
= 1 - α/2) liegen :
 1 
 1 
x−µ

−a  α < y =
< a  α
 2 
 2 
σ
• Wenn µ = wahrer Wert, σ = Standardabweichung und y innerhalb der
Grenzen der Standardnormalverteilung mit Signifikanzniveau ⇒
Hypothese H0, dass x nicht normalverteilt ist, muss abgelehnt werden
• Bestimmung der Grenzen einer Zufallsvariablen x mit wahrem Wert µ
und Standardabweichung σ bei gegebenem Signifikanzniveau:
1 
1 
µ − σ ⋅ a  α < x < µ + σ ⋅ a  α
 2 
 2 
GS
11.01.2002
13
Statistische Datenanalyse, Optimierung
Statistische Tests
Konfidenzintervalle:
• Zweiseitiger Test:
Wenn µ der Mittelwert x und σ die Streuung s ist, dann
ist a die Grenze der Student-Verteilung zu gegebenem Freiheitsgrad f bei
dem Signifikanz-Niveau (1- α/2):
 1 
 1 
x − s ⋅ t  f ; α < x < x + s ⋅ t  f ; α
 2 
 2 
• Einseitiger Test:
Varianz verschiedener Messwerte ∑
i
mit dem Erwartungswert f
∑
i
GS
11.01.2002
2
( xi − x )
σ
2
i
folgt einer χ2-Verteilung
2
( xi − x )
σi2
≤ χ2 ( f )
14
Statistische Datenanalyse, Optimierung
Fehlerfortpflanzung
y = a0 + a1 x
Lineare Transformation:
E { y} = E {a0 + a1 x} = a0 + a1E { x} = a0 + a1 xˆ = yˆ
{
2
}
{
2
}
{
2
}
E ( y − yˆ ) = E (a0 + a1 x − a0 − a1 xˆ ) = a12 E ( x − xˆ ) = a12σ x2 = σ 2y
σ x2 =
1 2
σy
a12
y = a0 + T x
Mehrdimensionale Variable
yi = a0,i + t1i x1 + t2i x2 + t3i x3 +
T: Transformationsmatrix
+ tni xn
E { y } = yˆ = a0 + Txˆ
{( y − yˆ )( y − yˆ ) } = E {(a + Tx − a − Txˆ )(a + Tx − a − Txˆ ) }
= E {T ( x − xˆ )( x − xˆ ) T } = TE {( x − xˆ )( x − xˆ ) } T = TC T
E
T
T
0
T
T
0
0
0
T
T
T
x
Cx: Kovarianzmatrix
GS
11.01.2002
15
Statistische Datenanalyse, Optimierung
Datenanpassung
Simultane Messung zweier oder mehrerer Zufallsvariablen y, x: yi, xi
• Problem 1: Korrelationsanalyse
Besteht zwischen y und x ein statistisch gesicherter Zusammenhang?
• Problem 2: Regressionsanalyse
Es soll ein funktionaler Zusammenhang zwischen y und x bestehen.
y = f (a ; x )
Gesucht sind die Parameter a der Funktion so, dass die Funktion möglichst
kleine Abweichung von den Zufallsdaten hat.
• xi und yi: Stichproben der jeweiligen Grundgesamtheiten
•
•
•
•
•
GS
Keine Mehrfachmessungen
Jeder Wert yi gehorcht einer Normalverteilung
xi sei fehlerfrei
Es werden n Messungen durchgeführt
Die Anzahl der unbekannten Parameter ist p
11.01.2002
16
Statistische Datenanalyse, Optimierung
Datenanpassung
Regressionsanalyse
Lineare Optimierung:
y = T ⋅ a yi = a0 + xi1 ⋅ a1 + xi 2 ⋅ a2 + xi21 ⋅ a3 + xi 3 ⋅ a4
Ti1 = 1; Ti 2 = xi1; Ti 3 = xi 2 ; Ti 4 = xi21; Ti 5 = xi 3
a : p -Vektor der Parameter
y : n-Vektor der abhängigen Zufallsvariable
T : n × p -Matrix der linearen Abhängigkeiten
C : n × n-Matrix der Varianzen der Messgrößen = E
{( y − yˆ )( y − yˆ ) }
T
G : n × n-Gewichtsmatrix = C−1
Normalverteilung aller n Messgrößen
 y g − yb 2 
 1
1
1
 ( i
i ) 
b T
b 


exp
exp
G
y
y
y
y
−
=
−
−
−
φ=


(
)
(
)
∏
2
 2

2σi


2π C i =1
2π C


n
GS
11.01.2002
17
Statistische Datenanalyse, Optimierung
Datenanpassung
Lineare Optimierung :
 y g − yb 2 
 1
1
1
 ( i
i ) 
b T
b 


y
y
y
y
exp
exp
G
−
=
−
−
−
φ=


(
)
(
)
∏
2
 2

2σi


2π C i =1
2π C


n
Wahrscheinlichkeitsdichte ist abhängig von den Parametern ai der Funktion
T
1
φ sei maximal ⇒ ( y − y b ) G ( y − y b ) sei minimal
2

d 1
T
 ( y − T ⋅ a ) G ( y − T ⋅ a ) = 0

da  2
TT ⋅ G ( y − T ⋅ a ) = 0
TT ⋅ G ⋅ T ⋅ a = TT ⋅ G ⋅ y
• Normalgleichung
−1
a = (TT ⋅ G ⋅ T) ⋅ TT ⋅ G ⋅ y • Lösungsvektor der Parameter
TT ⋅ G ⋅ T = N
GS
11.01.2002
• Normalmatrix
18
Statistische Datenanalyse, Optimierung
Datenanpassung
Lineare Optimierung :
• Kovarianzmatrix der Parameter Ca
{(
)(
Ca = E a − aˆ a − aˆ
((T ⋅ G ⋅ T)
−1
T
)}
T
=E
{(
−1
⋅ T ⋅ G ⋅ y − (T ⋅ G ⋅ T )
T
T
 T
−1
= E (T ⋅ G ⋅ T) ⋅ TT ⋅ G y − yˆ

−1
T
−1
T
= (T ⋅ G ⋅ T ) ⋅ T ⋅ G ⋅ E
T
−1
)
−1
(TT ⋅ G ⋅ T) ⋅ TT ⋅ G ⋅ y − (TT ⋅ G ⋅ T) ⋅ TT ⋅ G ⋅ yˆ ⋅

⋅ T ⋅ G ⋅ yˆ 

)
T
T
(
)((T
{(
)(
T
−1
⋅ G ⋅ T)
y − yˆ y − yˆ
)}
T
(
T
⋅ T ⋅ G y − yˆ
))
T



−1
G ⋅ T ⋅ (TT ⋅ G ⋅ T)
−1
−1
= (T ⋅ G ⋅ T ) ⋅ T ⋅ G ⋅ C ⋅ G ⋅ T ⋅ ( T ⋅ G ⋅ T ) = (T ⋅ G ⋅ T )
T
T
T
σa2 = Diagonalelemente von Ca
GS
11.01.2002
19
Statistische Datenanalyse, Optimierung
Datenanpassung
Lineare Optimierung :
• Konstanter Fehler in y:
C = σ 2y ⋅ I; G =
1
⋅I
2
σy
• Normalgleichung:
−1
−1
1
a = 2 (TT ⋅ I ⋅ T) ⋅ TT ⋅ σ 2y ⋅ I ⋅ y = (TT ⋅ T) ⋅ TT ⋅ y
σy
• Kovarianzmatrix der Parameter
−1
1
Ca = 2 (TT ⋅ T)
σy
σa2 = diag (Ca )
• Konstanthalten eines Parameters ai:
• Spalte i und Zeile i der Normalmatrix N werden zu Null gesetzt
• Diagonalelement Nii wird auf 1 gesetzt
GS
11.01.2002
20
Statistische Datenanalyse, Optimierung
Datenanpassung
Lineare Optimierung
Summe der Abweichungsquadrate S:
T
S = ( y − T⋅ a) G( y − T⋅ a)
= y T ⋅ G ⋅ y − 2a T ⋅ TT ⋅ G ⋅ y + a T ⋅ TT ⋅ G ⋅ T ⋅ a
= y T ⋅ G ⋅ y − 2a T ⋅ b + a T ⋅ N ⋅ a
• Generalisierte quadratische Funktion in den Parametern a
• Varianzellipsoid der Parameter, da Normalmatrix positiv definit
• Zentrumskoordinaten entsprechen den Parametern a
• Varianzellipsoid liegt in einem Quader mit Mittelpunkt a und den Seitenlängen
2sa
GS
11.01.2002
21
Statistische Datenanalyse, Optimierung
Datenanpassung
Lineare Optimierung
Konfidenzintervalle für die berechneten Parameter
Bei gegebenem Freiheitsgrad f = (n - p) und einem beidseitigen
Signifikanzniveau von 95% (α = 0.025) gilt
ai − σai ⋅ t ( f ;0.025) < ai < ai + σai ⋅ t ( f ;0.025)
Konfidenzintervall der Standardabweichung
Bei gegebenem Freiheitsgrad f = (n - p) und einem Signifikanzniveau von 95%
(α = 0,05) gilt
T
S = ( y − T ⋅ a ) G ( y − T ⋅ a ) ≤ χ 2 ( f ;0.05)
Falls Bedingung erfüllt, sind Parameter und Fehler normalverteilt
GS
11.01.2002
22
Statistische Datenanalyse, Optimierung
Datenanpassung
Lineare Optimierung
• Potenzreihenpolynom:
y=
p0 + p
∑a
k
k = p0
⋅ xk
< 0

p0 : = 0

> 0
• Linear in den Parametern
• Eigenwerte λ der Normalmatrix stark verschieden
(N − λ I ) = 0
• Konditionszahl Cond = λmax/ λmin
• Wenn 1/Cond ≈ kleinste mögliche Dezimalstelle ⇒ Matrixinversion
numerisch instabil
• Parameter sind abhängig voneinander.
Normalmatrix enthält Nicht-Diagonalelemente
Alle Parameter ändern sich mit der Wahl der Parameterzahl p
GS
11.01.2002
23
Statistische Datenanalyse, Optimierung
Datenanpassung
Lineare Optimierung
Möglichkeiten der Verbesserung der numerischen Stabilität:
• Transformation der x-Koordinate auf -1 ≤ x ≤ 1 oder 0 ≤ x ≤ 1
• Verwendung von Orthogonalpolynomen
- Tschebycheff-Polynome T(x) nach Transformation auf -1 ≤ x ≤ 1
- Orthonormierte Polynome
p
y = ∑ Tk ⋅ ak
k =0
Ti T ⋅ T j = δij
Normalmatrix ist dann Einheitsmatrix
Parameter sind linear unabhängig
GS
11.01.2002
24
Statistische Datenanalyse, Optimierung
Datenanpassung
Lineare Optimierung
Untersuchung der Residuen:
• Residuen sollen bezüglich ihrer Vorzeichen möglichst statistisch verteilt sein
• Residuen werden entsprechend der monoton ansteigenden
Führungsvariable geordnet
• Folgen von Residuen mit gleichem Vorzeichen bilden Phasen
h = Gesamtzahl der Phasen - 2
• Prüfgröße nach Wallis-Moore:
2n − 7
h−
3
zˆ =
für n ≥ 30
16n − 29
90
2n − 7 1
h−
−
3
2
für 10 ≤ n < 30
zˆ =
16n − 29
90
GS
11.01.2002
25
Statistische Datenanalyse, Optimierung
Datenanpassung
Lineare Optimierung
Untersuchung der Residuen:
• Nullhypothese H0: Phasen seien statistisch verteilt:
zˆ < a { N (0,1) = 0.95} = 1.96
Falls Nullhypothese erfüllt ist, ist die Prüfvariable z normalverteilt, und die Residuen
sind in ihren Vorzeichen statistisch verteilt.
GS
11.01.2002
26
Statistische Datenanalyse, Optimierung
Datenanpassung
Singulärwert-Zerlegung SVD
• Wenn n > p, ist das Gleichungssystem y = T ⋅ a überbestimmt
• Jede Matrix lässt sich einer Spektralzerlegung unterziehen
T = U ⋅ S ⋅ VT
U : Orthogonale n×n-Matrix: UT = U-1 und UT·U = I
V : Orthogonale p×p-Matrix: VT = V-1 und VT·V = I
S : n×p-Matrix: die obere p×p-Unter-Matrix ist eine Diagonalmatrix D
die untere (n-p)×p-Matrix enthält 0
• Spektralzerlegung ist immer über Orthogonaltransformationen möglich.
• Falls der Rang k von T kleiner als p, muss D auf eine linke obere k×k-Matrix
reduziert werden.
GS
11.01.2002
27
Statistische Datenanalyse, Optimierung
Datenanpassung
Singulärwert-Zerlegung SVD
y = T ⋅ a = U ⋅ S ⋅ VT ⋅ a
UT ⋅ y = S ⋅ V T ⋅ a
g 
U T ⋅ y = g =  1  g1 = k -Vektor, g 2 = (n − k )-Vektor
 g 2 
 p1 
V ⋅ a = p =   p1 = k -Vektor, p2 = ( p − k )-Vektor
 p2 
T
S⋅ p = g
Aber:
D ⋅ p1 = g1 und 0 ⋅ p2 = g 2
p1 = D−1 ⋅ g1
Lösung ist eindeutig für k = p
GS
11.01.2002
28
Statistische Datenanalyse, Optimierung
Datenanpassung
Singulärwert-Zerlegung SVD
• Es existiert eine minimale Lösung für a mit k ≤ p
 p1 
p =  
anstelle p2 = 0−1 ⋅ g 2 wird p2 = 0 gesetzt
 0 
 p1 
a = V ⋅   und y = U ⋅ g
 0 
a = V ⋅ D−1 ⋅ g1
• Residuen:
 g1 
 p1  U ⋅ g1 − U ⋅ D ⋅ p1  0
T

r = y − T ⋅ a = U ⋅   − U ⋅ S ⋅ V ⋅ V   = 
=
 g 2 
U ⋅ g 2
U ⋅ g2
 p2  

• Kovarianzmatrix:
C = r ⋅ r T = U ⋅ g 2 ⋅ g 2T ⋅ UT
GS
11.01.2002
29
Statistische Datenanalyse, Optimierung
Datenanpassung
Singulärwert-Zerlegung SVD
• Numerisch sehr stabil, da
• Spektralzerlegung über Orthogonaltransformationen
• Matrix D: Diagonalmatrix mit mindestens k nicht verschwindenden
Diagonalelementen ⇒ Inversion durch Kehrwertbildung der
Diagonalelemente
• Die Diagonalelemente von D entsprechen als Singulärwerte den Wurzeln
der Eigenwerte der Matrix T
• Diagonalelemente Dii sind der Größe nach geordnet;
unterhalb einer Schwelle ε entsprechen sie Rauschen ⇒
ε legt die Anzahl Parameter fest.
• Liefert bei nicht-pathologischen Fällen das gleiche Ergebnis wie die Lösung der
Normagleichung, sonst ist es diesem überlegen.
GS
11.01.2002
30
Statistische Datenanalyse, Optimierung
Datenanpassung
Nicht-Lineare Optimierung
Falls Funktion y = f (a ; x ) in den Parametern a nicht linear:
• Die partiellen Ableitungen ∂f/ ∂a enthalten die Parameter a selbst
• Bei der Bildung der Ableitungen müssen Werte von a bekannt sein
• In bestimmten Fällen kann die Funktion um geeignete Startwerte von a in
Reihe entwickelt werden
p 
df i 
( 0)

 a j − a(j0) ⇒ y = y (0) + Fa ⋅ ∆a
yi = yi + ∑ 
j =1 
 da j 
(
)
0
• In der Regel begnügt man sich mit dem linearen Glied
Fa ist die Matrix der partiellen Ableitungen
• Da linearisierte Funktion unvollständig, ist Iteration mit neuen Parameterwerten
notwendig
GS
11.01.2002
31
Statistische Datenanalyse, Optimierung
Datenanpassung
Nicht-Lineare Optimierung
1
b T
G ( y − y b ) sei minimal
y
y
−
(
)
2
T
d 1
( 0)
 y − y − Fa ⋅ ∆a G y − y (0) − Fa ⋅ ∆a
da  2
(
) (
(
)
Fa ⋅ G ⋅ Fa ⋅ a = Fa ⋅ G ⋅ ( y − y ( ) )
∆a = (Fa ⋅ G ⋅ Fa) ⋅ Fa ⋅ G ⋅ ( y − y ( ) )

=0

)
FaT ⋅ G y − y ( ) − Fa ⋅ ∆a = 0
0
T
0
T
T
−1
0
T
a ( ) = a ( ) + ∆a ; y ( ) = f ( x ; a ( ) )
1
Iteration bis
0
1
1
( y − y ) ⋅ ( y − y ) − ( y − y ) ⋅ ( y − y( ) )
≤ε
( )
( )
( y − y ) ⋅( y − y )
(k )
T
(k )
(k −1)
k
GS
11.01.2002
T
T
k −1
k
32
Statistische Datenanalyse, Optimierung
Datenanpassung
Nicht-Lineare Optimierung
Probleme:
−1
• Da Funktion abgebrochen ist, ist (FaT ⋅ G ⋅ Fa) keine unverzerrte Schätzung
der Kovarianzmatrix der Parameter; umso besser, je linearer Funktion um
Parameterschätzwerte ist
• Konvergenz nur, wenn Startwerte schon im Konvergenzbereich liegen
• Probleme des Auffindens vernünftiger Startwerte
Versuche zur Verminderung der Probleme:
• Da die ersten Parameterveränderungen groß sein können, sollten sie nur zu
einem Bruchteil in die neuen Parameter eingehen
a (k ) + ∆a (k ) (10 − 2k ) 1 ≤ k ≤ 4
= 
a
(k )
(k )

a
a
k ≥5
+
∆

• Minimumsuche mit Simplex oder anderen Verfahren
(k +1)
GS
11.01.2002
33
Statistische Datenanalyse, Optimierung
Datenanpassung
Nicht-Lineare Optimierung
Versuche zur Verminderung der Probleme:
• Marquardt-Verfahren:
Zur Normalmatrix wird eine Diagonalmatrix λ⋅D addiert
(TT ⋅ G ⋅ T + λ ⋅ D)⋅ a = TT ⋅ G ⋅ y
; D = diag (TT ⋅ G ⋅ T) bzw. D = I
Je größer λ, umso stärker Berechnung entlang der Hauptdiagonale = Gradient
1
a ⇒ D−1 ⋅ TT ⋅ G ⋅ y
λ
Konvergenzbereich vergrößert, aber langsame Konvergenz: (1/λ)
Strategie:
• Beginn mit großem λ
• Falls Quadratsumme abnimmt, Verkleinerung von λ
• Sonst Vergrößerung
• Falls Konvergenzbereich erreicht ist oder λ unter ein ε fällt, wird λ auf 0
gesetzt
GS
11.01.2002
34
Statistische Datenanalyse, Optimierung
Datenanpassung
Allgemeine Optimierung mit Fehlern in den Messgrößen
Sowohl x als auch y seien fehlerbehaftet:
rx = ( x − x b )
ry = ( y − y b )
 1 T

T
exp − (rx ⋅ Gx ⋅ rx + ry ⋅ Gy ⋅ ry )
φ ==
 2

2π C
1
S = rxT ⋅ Gx ⋅ rx + ryT ⋅ Gy ⋅ r sei minimal
Generalisierte Kovarianzmatrix der Messwerte
C
Zielfunktion F:
Fi = yiobs − f i (rxi , ryi ; a ) = 0
Linearisierung:
obs
i
Fi = y
GS
11.01.2002
calc
i
−y
p
dFi
dFi
dF
rx −
ry − ∑ i ra j
−
∂rx
∂ry
j =1 ∂a j
35
Statistische Datenanalyse, Optimierung
Datenanpassung
Allgemeine Optimierung mit Fehlern in den Messgrößen
Mit:
dFi
dF
= − i = −Fxii ,
∂rx
∂x
dFi
dF
dFi
dF
= − i = −Fy ii und
= i = Faij
∂ry
∂y
∂ra j
∂a j
gilt:
F = ∆y + Fx ⋅ rx + Fy ⋅ ry − Fa ⋅ ∆a = 0
S muss minimal werden mit der Neben-Bedingung, dass F erfüllt ist:
Φ = S + F T ⋅ λ = rxT ⋅ Gx ⋅ rx + ryT ⋅ Gy ⋅ r + F T ⋅ λ
sei minimal
∂Φ
= 0 ⇒ 2Gx ⋅ rx − FxT ⋅ λ = 0
∂rx
∂Φ
= 0 ⇒ 2Gy ⋅ ry − Fy T ⋅ λ = 0
∂ry
∂Φ
= 0 ⇒ FaT ⋅ λ = 0
∂ra
λ ist der Vektor der Lagrange-Multiplikatoren
GS
11.01.2002
36
Statistische Datenanalyse, Optimierung
Datenanpassung
Allgemeine Optimierung mit Fehlern in den Messgrößen
4 Bestimmungsgleichungen
T
2rx = Cx ⋅ Fx ⋅ λ
T
2ry = Cy ⋅ Fy ⋅ λ
T
Fa ⋅ λ = 0
F = ∆y + Fx ⋅ rx + Fy ⋅ ry − Fa ⋅ ∆a = 0
Einsetzen ergibt:
1
1
∆y + Fx ⋅ Cx ⋅ FxT ⋅ λ + Fy ⋅ Cy ⋅ Fy T ⋅ λ − Fa ⋅ ∆a = 0
2
2
Mit Cxy = Fx ⋅ Cx ⋅ FxT + Fy ⋅ Cy ⋅ Fy T
1
∆y + Cxy ⋅ λ − Fa ⋅ ∆a = 0
2
Auflösen nach λ:
λ = 2Cxy −1 (Fa ⋅ ∆a − ∆y )
GS
11.01.2002
37
Statistische Datenanalyse, Optimierung
Datenanpassung
Allgemeine Optimierung mit Fehlern in den Messgrößen
T
Einsetzen in Fa ⋅ λ = 0 ergibt:
FaT ⋅ Cxy −1 ⋅ Fa ⋅ ∆a = FaT ⋅ Cxy −1 ⋅ ∆y
Dies ist wieder eine Normalgleichung mit spezieller Kovarianzmatrix:
Cxy −1 = Gxy
T
Fa ⋅ Gxy ⋅ Fa = N
Gewichtmatrix der Messpunkte
Normalmatrix
Cxyii ⇒ Kovarianzellipse des Messpunktes (xi, yi)
Lösung der Normalgleichung
−1
∆a = (FaT ⋅ Cxy −1 ⋅ Fa) ⋅ FaT ⋅ Cxy −1 ⋅ ∆y
• Enthält alle Sonderfälle fehlender Varianz in den Messgrößen
• Ist prinzipiell nicht-linear in den Parametern
• Muss iterativ gelöst werden
GS
11.01.2002
38
Statistische Datenanalyse, Optimierung
Datenanpassung
Allgemeine Optimierung mit Fehlern in den Messgrößen
Verbesserung der Messungen
rz = Cz ⋅ Fz T ⋅ Cxy −1 ⋅ (Fa ⋅ N−1 ⋅ FaT ⋅ Cxy −1 − I )⋅ ∆y
mit
z = x, y
Kovarianzmatrix der angepassten Messungen
Cz = Cz − Cz ⋅ FzT ⋅ Cxy −1 ⋅ Fz ⋅ Cz + Cz ⋅ FzT ⋅ Cxy −1 ⋅ Fa ⋅ N−1 ⋅ FaT ⋅ Cxy −1 ⋅ Fz ⋅ Cz
Minimumfunktion
T
M = (Fx ⋅ rx ) ⋅ Cxy −1 ⋅ (Fx ⋅ rx ) + (Fy ⋅ ry ) ⋅ Cxy −1 ⋅ (Fy ⋅ ry )
T
folgt einer χ2 -Verteilung mit f = (n - p) Freiheitsgraden
GS
11.01.2002
39
Statistische Datenanalyse, Optimierung
Datenanpassung
Datenanpassung bei nicht-normalverteilten Stichproben
Robuste Schätzer
Bisher:
• Normalverteilung
 y g − yb 2 
1
 ( i
i ) 
L=φ=
exp
−


∏
2
2
σ


2π C i =1
i


n
Jetzt
• Allgemeine Verteilung
n
L = k ∏ exp −ρ ( yi , y ( xi ; a ))


i =1
ρ ( yi , y ( xi ; a )) = − ln ( f )
f : Wahrscheinlichkeitsdichte der Verteilung
n
l = ln ( L) = −∑ ρ ( yi , y ( xi ; a ))
sei maximal
i =1
n
M = ∑ ρ ( yi , y ( xi ; a ))
sei minimal bezüglich der Parameter
i =1
GS
11.01.2002
40
Statistische Datenanalyse, Optimierung
Datenanpassung
Datenanpassung bei nicht-normalverteilten Stichproben
Robuste Schätzer
• Transformation der Wahrscheinlichkeitsdichte:
zi =
yig − y ( xi ; a )
⇒ ρ ( yi , y ( xi ; a )) = ρ ( zi )
σi
• Minimum der Funktion M bezüglich der Parameter a
n
∂ρ ( z i ) ∂ z i
∂M
=∑
⋅
=0
z
a
∂ak
∂
∂
i =1
i
k
∂ρ ( z )
∂z
= ψ( z )
1 ∂y ( xi ; a )
∂z i
=− ⋅
∂ak
∂ak
σi
∂y ( xi ; a )
1
⋅
⋅
=0
ψ
(
z
)
∑
∂ak
i =1 σi
n
• Verallgemeinerte Normalgleichung.
• ψ(z) Wichtungsgröße der partiellen Ableitungen nach a
GS
11.01.2002
41
Statistische Datenanalyse, Optimierung
Datenanpassung
Datenanpassung bei nicht-normalverteilten Stichproben
Robuste Schätzer
• Normalverteilung:
 z2 
L ≅ exp − 
 2


ψ ( z ) = z mit
⇒ ρ( z) =
1 2
z ;
2
ψ(z)
p
yi = ∑ a j ⋅ Tij
j =1
n
0=∑
i =1
1 ( yi − y ( xi ; a ))
⋅
⋅ Tij
σi
σi
z
⇒ TT ⋅ G y ⋅ y = TT ⋅ G y ⋅ T ⋅ a
• In Normalverteilung tritt z als Wichtungsparameter auf
• Punkte mit großer Abweichung gehen stark in Rechnung ein
• Ausreißer werden stark berücksichtigt
GS
11.01.2002
42
Statistische Datenanalyse, Optimierung
Datenanpassung
Datenanpassung bei nicht-normalverteilten Stichproben
Robuste Schätzer
• Absolutabweichung in Wahrscheinlichkeitsdichte:
L ≅ exp − z 
n
0=∑
i =1
⇒ ρ ( z ) = z ; ψ ( z ) = sign ( z )
ψ(z)
1
⋅ sign ( zi ) ⋅ Tij
σi
p
mit
yi = ∑ a j ⋅ Tij
z
j =1
⇒ TT ⋅ (G y )
1 2
⋅ sign ( z ) = 0
• Wichtung der Messpunkte entsprechend ihrem Vorzeichen
• Ausreißer werden nicht überbewertet
GS
11.01.2002
43
Statistische Datenanalyse, Optimierung
Datenanpassung
Datenanpassung bei nicht-normalverteilten Stichproben
Robuste Schätzer
• Lorentz-Verteilung:
1
L≅
2
1  yi − y ( xi )

1+ 

σ
2 
 1 
⇒ ρ ( z ) = ln 1 + z 2  ;
 2 
ψ(z)
i
n
1
z
z
∂y
⋅ i
ψ( z) =
;0 = ∑ ⋅
1
1
i =1 σi 1 + z 2 ∂a j
1+ z2
2
2
p
n
1
z
⇒ ∑ ⋅
⋅ Tij = 0 mit yi = ∑ a j ⋅ Tij
1
i =1 σi 1 + z 2
j =1
2
z
• Wichtung der Messpunkte zuerst ähnlich wie Gauss-Verteilung
• Wichtung verläuft durch Maximum
• Ausreißer werden umso weniger berücksichtigt, je weiter weg
GS
11.01.2002
44
Statistische Datenanalyse, Optimierung
Datenanpassung
Datenanpassung bei nicht-normalverteilten Stichproben
Robuste Schätzer
• Vorteile der robusten Schätzer
• Robust gegenüber großer Streuung
• Nachteile
• Wichtungsfunktion bei Lorentz-Verteilung nicht linear
Kleine Änderungen in a können ψ in asymptotischen Bereich treiben
Unempfindlich gegenüber notwendigen Änderungen
Zuerst Minimusuche mit anderen Methoden
• Signum-Funktion unstetig
GS
11.01.2002
45
Statistische Datenanalyse, Optimierung
Datenanpassung
Literatur:
• Peter Gans, Data Fitting in the Chemical Science, Wiley, New York, 1992
• Sigmund Brandt, Datenanalyse 4. Aufl., Spektrum Akademischer Verlag,
Heidelberg 1999
• William H. Press et al, Numerical Recipes, The Art of Scientific Computing,
Cambridge University Press, New York, 1986
• Ludwig Fahrmeir, Alfred Hammerle, Multivariate statistische Verfahren, W. de
Gruyter Verlag, Berlin, 1984
• Curtis F. Gerald, Patrick O. Wheatley, Applied Numerical Analysis, AddisonWesley, Reading, 1984
• George E. P. Box, William G. Hunter, J. Stuart Hunter, Statistics for Experimenters, Wiley, New York, 1978
• Yonathan Bard, Nonlinear Parameter Estimation, Academic Press, New York,
1974
GS
11.01.2002
46
Herunterladen