Statistische Datenanalyse, Optimierung Statistische Datenanalyse und Optimierung GS 11.01.2002 1 Statistische Datenanalyse, Optimierung Gliederung Verteilungsfunktionen Normalverteilung Normalverteilung mehrerer Vayriablen Abgeleitete Verteilungen: χ2-Verteilung, Student-t-Verteilung Statistische Tests Fehlerfortpflanzung Datenanpassung Lineare Optimierung Singulärwert-Zerlegung SVD Nicht-lineare Optimierung Allgemeine Optimierung mit Fehlern der Messgrößen Robuste Schätzer GS 11.01.2002 2 Statistische Datenanalyse, Optimierung Verteilungsfunktion • Gemessene Daten: xi aus einer Stichprobe (statistics) vom Umfang n einer kontinuierlichen Zufallsvariablen x. • Jeder Wert der Zufallsvariablen ist mit einem Fehler behaftet. • Innerhalb der Stichprobe sind die Zufallsvariablen entsprechend einer Verteilungsfunktion F(x) verteilt F ( x) = P( x < x) F (−∞) = 0 F ( ∞) = 1 P( x ≥ x) = 1 − P( x < x) • GS F(x) : stetig, monoton steigend, stetig differenzierbar 11.01.2002 F(x) x 3 Statistische Datenanalyse, Optimierung Wahrscheinlichkeitsdichte • Wahrscheinlichkeitsdichte: f ( x) = • dF ( x) > 0 Normierung dx ∞ ∫ f ( x) dx = 1 −∞ Berechnung der Wahrscheinlichkeit für ein Ereignis x a P ( x < a ) = F (a ) = ∫ f ( x)dx −∞ b P (a ≤ x < b) = ∫ f ( x) dx = F (b) − F (a ) a a P (−a ≤ x < a ) = ∫ f ( x) dx = F (a ) − F (−a ) −a • GS {= 2 F (a) − 1} für symmetrische Verteilungen Berechnung der Extremwerte a (bzw. -a) einer Zufallsvariable x für gegebene Wahrscheinlichkeit P Einseitige oder zweiseitige Berechnung ⇒ Statistische Testverfahren 11.01.2002 4 Statistische Datenanalyse, Optimierung Zufallsvariable Erwartungswert einer Zufallsvariablen ∞ E { x} = xˆ = ∫ x ⋅ f ( x)dx Mittelwert der Variablen x über der Grundgesamtheit −∞ E { x + y } = E { x} + E { y } Eine Funktion y einer Zufallsvariablen x, y = H(x) ist selbst wieder eine Zufallsvariable ∞ E {H ( x)} = yˆ = ∫ H ( x) ⋅ f ( x)dx −∞ Momente um c vom Grad l H ( x ) = ( x − c )l l αl = E { x − c} σ x2 = Varianz von x, wenn c = E { x} = xˆ ⇒ σ = σ x2 = Standardabweichung l µl = E { x − xˆ } ⇒ l. Moment um Mittelwert E {( x − xˆ )( x − xˆ )} = 0, i j µ0 = 1; GS µ1 = 0; 11.01.2002 2 µ2 = E { x − xˆ } = σ x2 falls xi und x j unkorreliert 5 Statistische Datenanalyse, Optimierung Verteilungsfunktionen Häufigste Wahrscheinlichkeitsdichte • Gaußsche - oder Normal-Verteilung N ( xˆ , σ ) ( x − xˆ )2 1 = φ( x) f ( x) = exp − 2 2 σ 2πσ • Standardnormalverteilung N(0,1), wenn xˆ = 0 und σ = 1 x2 1 f ( x) = φ0 ( x) = exp − 2 2π • Transformation: u2 u = x − xˆ und σ = 1 ⇒ f ( x) = φ0 (u ) = exp − 2 2π 1 GS 11.01.2002 6 Statistische Datenanalyse, Optimierung Normal-Verteilung Symmetrische Glockenkurve • Wahrscheinlichkeitsdichte 2 ˆ − x x ( ) 1 = φ( x) f ( x) = exp − 2 2σ 2πσ • Wahrscheinlichkeit x Φ( x ) = ∫ −∞ • ( x − xˆ )2 1 = P( x < x) exp − 2 2σ 2πσ φ(x) = N(0,1) Φ(x) Grenzwertsatz der Statistik: lim f ( x) = N ( xˆ , σ ) = φ( x) n →∞ GS 11.01.2002 7 Statistische Datenanalyse, Optimierung Normalverteilung mehrerer Variablen x T = ( x1 , x2 ,… xm ) xi sei normalverteilt um ai a T = (a1 , a2 ,…am ) ai = xˆi und σi2 = E{( xi − ai ) 2 } Falls xi nicht statistisch unabhängig: E{( xi − ai )( x j − a j )} = cov( xi , x j ) cov( xi , x j ) = 0 falls xi und x j statistisch unabhängig Kovarianzmatrix C x = E{( x − a )( x − a )T } φ( x ) = 1 exp − ( x − a )T C−1 ( x − a ) m 2 ( 2π ) C 1 Cx-1 = Gx = Gewichtsmatrix der Zufallsvariablen = Inverse der Kovarianzmatrix Normierte Kovarianzmatrix = Korrelationsmatrix GS 11.01.2002 8 Statistische Datenanalyse, Optimierung Normalverteilung mehrerer Variablen Endliche Stichproben: ∑g x x= ∑g i i • Statt wahrem Wert x̂ nur Mittelwert n bekannt, mit: E { x } = xˆ i gi : statistisches Gewicht der Messung xi n x ist eine unverzerrte Schätzung von x̂ • Statt Standardabweichung s nur Streuung: s 2 = s2 ist eine unverzerrte Schätzung von σ2 1 2 x − x , E {s 2 } = σ 2 ( ) ∑ i n −1 n Wahrscheinlichkeitsverteilungen beider Größen von Zahl der Freiheitsgrade f abhängig GS 11.01.2002 9 Statistische Datenanalyse, Optimierung Erwartungswert von s2 1 n 2 = − s x x ( ) ∑ i n −1 i n n 2 1 1 2 2 E {s } = E ∑ ( xi − x ) = E ∑ ( xi − xˆ − ( x − xˆ )) n − 1 i n − 1 i 2 n n 1 2 2 = E ∑ ( xi − xˆ ) − 2( x − xˆ ) ∑ ( xi − xˆ ) + n ( x − xˆ ) n −1 i i n 2 E ∑ ( xi − xˆ ) = nσ x2 i n ∑ ( x − xˆ ) = n( x − xˆ ) i i 1 2 2 ˆ σ − − E {s } = n nE x x ( ) x n −1 { 2 Nebenrechnung: 2 = 1 nσ 2 − n σ x = 1 nσ 2 − σ 2 = σ 2 x x x x n − 1 n n − 1 } 2 2 2 n n n 1 1 2 E ( x − xˆ ) = E ∑ xi n − xˆ = 2 E ∑ xi − nxˆ = 2 E ∑ ( xi − xˆ ) i n i n i 1 1 σ x2 1 n 2 2 = 2 E ∑ ( xi − xˆ ) + 2 E ∑ ( xi − xˆ )( x j − xˆ ) = 2 nσ x = n i , j n n i n { GS 11.01.2002 } 10 Statistische Datenanalyse, Optimierung Student-t-Verteilung Wahrscheinlichkeitsdichte, falls nur ein Mittelwert t und ein Schätzwert st2 der Varianz σt2 der Stichprobe vom Umfang f bekannt sind f t (t , f ) = f + 1 Γ 2 f +1 2 f t f π ⋅ Γ ⋅ + 1 2 f 2 Rot Grün Blau Magenta Schwarz f=1 f=2 f=5 f = 10 N(0,1) E{t} = 0 σ 2 (t ( f )) = f f −2 f : Anzahl Freiheitsgrade t-Verteilung geht für große f in Normalverteilung über GS 11.01.2002 11 Statistische Datenanalyse, Optimierung χ2-Quadrat-Verteilung Verteilung des Schätzwertes der Varianz s2 s2 χ = f 2 >0 σ f 2 1 f − 2 2 1 2 2 2 ⋅ (χ ) ⋅ exp − χ 2 f (χ , f ) = f 2 Γ 2 2 E{χ 2 } = f und σ 2 (χ 2 ) = 2 f f : Anzahl Freiheitsgrade χ2-Verteilung geht für große f in Normalverteilung über Rot Blau f=1 f=2 Grün Gelb Magenta Schwarz f=3 f=4 f=5 f = 10 Γ( z ) = Gammafunktion ∞ Γ( z ) = ∫ u z −1 exp[−u ] du 0 GS 11.01.2002 12 Statistische Datenanalyse, Optimierung Statistische Tests Konfidenzintervalle: • Zweiseitiger Test: Die mit dem zentralen Wert µ und der Abweichung σ normierte Zufallsvariable x muss innerhalb der Grenzen a einer definierten Verteilung mit der beidseitigen Ausschlusswahrscheinlichkeit α/2 (Signifikanz-Niveau = 1 - α/2) liegen : 1 1 x−µ −a α < y = < a α 2 2 σ • Wenn µ = wahrer Wert, σ = Standardabweichung und y innerhalb der Grenzen der Standardnormalverteilung mit Signifikanzniveau ⇒ Hypothese H0, dass x nicht normalverteilt ist, muss abgelehnt werden • Bestimmung der Grenzen einer Zufallsvariablen x mit wahrem Wert µ und Standardabweichung σ bei gegebenem Signifikanzniveau: 1 1 µ − σ ⋅ a α < x < µ + σ ⋅ a α 2 2 GS 11.01.2002 13 Statistische Datenanalyse, Optimierung Statistische Tests Konfidenzintervalle: • Zweiseitiger Test: Wenn µ der Mittelwert x und σ die Streuung s ist, dann ist a die Grenze der Student-Verteilung zu gegebenem Freiheitsgrad f bei dem Signifikanz-Niveau (1- α/2): 1 1 x − s ⋅ t f ; α < x < x + s ⋅ t f ; α 2 2 • Einseitiger Test: Varianz verschiedener Messwerte ∑ i mit dem Erwartungswert f ∑ i GS 11.01.2002 2 ( xi − x ) σ 2 i folgt einer χ2-Verteilung 2 ( xi − x ) σi2 ≤ χ2 ( f ) 14 Statistische Datenanalyse, Optimierung Fehlerfortpflanzung y = a0 + a1 x Lineare Transformation: E { y} = E {a0 + a1 x} = a0 + a1E { x} = a0 + a1 xˆ = yˆ { 2 } { 2 } { 2 } E ( y − yˆ ) = E (a0 + a1 x − a0 − a1 xˆ ) = a12 E ( x − xˆ ) = a12σ x2 = σ 2y σ x2 = 1 2 σy a12 y = a0 + T x Mehrdimensionale Variable yi = a0,i + t1i x1 + t2i x2 + t3i x3 + T: Transformationsmatrix + tni xn E { y } = yˆ = a0 + Txˆ {( y − yˆ )( y − yˆ ) } = E {(a + Tx − a − Txˆ )(a + Tx − a − Txˆ ) } = E {T ( x − xˆ )( x − xˆ ) T } = TE {( x − xˆ )( x − xˆ ) } T = TC T E T T 0 T T 0 0 0 T T T x Cx: Kovarianzmatrix GS 11.01.2002 15 Statistische Datenanalyse, Optimierung Datenanpassung Simultane Messung zweier oder mehrerer Zufallsvariablen y, x: yi, xi • Problem 1: Korrelationsanalyse Besteht zwischen y und x ein statistisch gesicherter Zusammenhang? • Problem 2: Regressionsanalyse Es soll ein funktionaler Zusammenhang zwischen y und x bestehen. y = f (a ; x ) Gesucht sind die Parameter a der Funktion so, dass die Funktion möglichst kleine Abweichung von den Zufallsdaten hat. • xi und yi: Stichproben der jeweiligen Grundgesamtheiten • • • • • GS Keine Mehrfachmessungen Jeder Wert yi gehorcht einer Normalverteilung xi sei fehlerfrei Es werden n Messungen durchgeführt Die Anzahl der unbekannten Parameter ist p 11.01.2002 16 Statistische Datenanalyse, Optimierung Datenanpassung Regressionsanalyse Lineare Optimierung: y = T ⋅ a yi = a0 + xi1 ⋅ a1 + xi 2 ⋅ a2 + xi21 ⋅ a3 + xi 3 ⋅ a4 Ti1 = 1; Ti 2 = xi1; Ti 3 = xi 2 ; Ti 4 = xi21; Ti 5 = xi 3 a : p -Vektor der Parameter y : n-Vektor der abhängigen Zufallsvariable T : n × p -Matrix der linearen Abhängigkeiten C : n × n-Matrix der Varianzen der Messgrößen = E {( y − yˆ )( y − yˆ ) } T G : n × n-Gewichtsmatrix = C−1 Normalverteilung aller n Messgrößen y g − yb 2 1 1 1 ( i i ) b T b exp exp G y y y y − = − − − φ= ( ) ( ) ∏ 2 2 2σi 2π C i =1 2π C n GS 11.01.2002 17 Statistische Datenanalyse, Optimierung Datenanpassung Lineare Optimierung : y g − yb 2 1 1 1 ( i i ) b T b y y y y exp exp G − = − − − φ= ( ) ( ) ∏ 2 2 2σi 2π C i =1 2π C n Wahrscheinlichkeitsdichte ist abhängig von den Parametern ai der Funktion T 1 φ sei maximal ⇒ ( y − y b ) G ( y − y b ) sei minimal 2 d 1 T ( y − T ⋅ a ) G ( y − T ⋅ a ) = 0 da 2 TT ⋅ G ( y − T ⋅ a ) = 0 TT ⋅ G ⋅ T ⋅ a = TT ⋅ G ⋅ y • Normalgleichung −1 a = (TT ⋅ G ⋅ T) ⋅ TT ⋅ G ⋅ y • Lösungsvektor der Parameter TT ⋅ G ⋅ T = N GS 11.01.2002 • Normalmatrix 18 Statistische Datenanalyse, Optimierung Datenanpassung Lineare Optimierung : • Kovarianzmatrix der Parameter Ca {( )( Ca = E a − aˆ a − aˆ ((T ⋅ G ⋅ T) −1 T )} T =E {( −1 ⋅ T ⋅ G ⋅ y − (T ⋅ G ⋅ T ) T T T −1 = E (T ⋅ G ⋅ T) ⋅ TT ⋅ G y − yˆ −1 T −1 T = (T ⋅ G ⋅ T ) ⋅ T ⋅ G ⋅ E T −1 ) −1 (TT ⋅ G ⋅ T) ⋅ TT ⋅ G ⋅ y − (TT ⋅ G ⋅ T) ⋅ TT ⋅ G ⋅ yˆ ⋅ ⋅ T ⋅ G ⋅ yˆ ) T T ( )((T {( )( T −1 ⋅ G ⋅ T) y − yˆ y − yˆ )} T ( T ⋅ T ⋅ G y − yˆ )) T −1 G ⋅ T ⋅ (TT ⋅ G ⋅ T) −1 −1 = (T ⋅ G ⋅ T ) ⋅ T ⋅ G ⋅ C ⋅ G ⋅ T ⋅ ( T ⋅ G ⋅ T ) = (T ⋅ G ⋅ T ) T T T σa2 = Diagonalelemente von Ca GS 11.01.2002 19 Statistische Datenanalyse, Optimierung Datenanpassung Lineare Optimierung : • Konstanter Fehler in y: C = σ 2y ⋅ I; G = 1 ⋅I 2 σy • Normalgleichung: −1 −1 1 a = 2 (TT ⋅ I ⋅ T) ⋅ TT ⋅ σ 2y ⋅ I ⋅ y = (TT ⋅ T) ⋅ TT ⋅ y σy • Kovarianzmatrix der Parameter −1 1 Ca = 2 (TT ⋅ T) σy σa2 = diag (Ca ) • Konstanthalten eines Parameters ai: • Spalte i und Zeile i der Normalmatrix N werden zu Null gesetzt • Diagonalelement Nii wird auf 1 gesetzt GS 11.01.2002 20 Statistische Datenanalyse, Optimierung Datenanpassung Lineare Optimierung Summe der Abweichungsquadrate S: T S = ( y − T⋅ a) G( y − T⋅ a) = y T ⋅ G ⋅ y − 2a T ⋅ TT ⋅ G ⋅ y + a T ⋅ TT ⋅ G ⋅ T ⋅ a = y T ⋅ G ⋅ y − 2a T ⋅ b + a T ⋅ N ⋅ a • Generalisierte quadratische Funktion in den Parametern a • Varianzellipsoid der Parameter, da Normalmatrix positiv definit • Zentrumskoordinaten entsprechen den Parametern a • Varianzellipsoid liegt in einem Quader mit Mittelpunkt a und den Seitenlängen 2sa GS 11.01.2002 21 Statistische Datenanalyse, Optimierung Datenanpassung Lineare Optimierung Konfidenzintervalle für die berechneten Parameter Bei gegebenem Freiheitsgrad f = (n - p) und einem beidseitigen Signifikanzniveau von 95% (α = 0.025) gilt ai − σai ⋅ t ( f ;0.025) < ai < ai + σai ⋅ t ( f ;0.025) Konfidenzintervall der Standardabweichung Bei gegebenem Freiheitsgrad f = (n - p) und einem Signifikanzniveau von 95% (α = 0,05) gilt T S = ( y − T ⋅ a ) G ( y − T ⋅ a ) ≤ χ 2 ( f ;0.05) Falls Bedingung erfüllt, sind Parameter und Fehler normalverteilt GS 11.01.2002 22 Statistische Datenanalyse, Optimierung Datenanpassung Lineare Optimierung • Potenzreihenpolynom: y= p0 + p ∑a k k = p0 ⋅ xk < 0 p0 : = 0 > 0 • Linear in den Parametern • Eigenwerte λ der Normalmatrix stark verschieden (N − λ I ) = 0 • Konditionszahl Cond = λmax/ λmin • Wenn 1/Cond ≈ kleinste mögliche Dezimalstelle ⇒ Matrixinversion numerisch instabil • Parameter sind abhängig voneinander. Normalmatrix enthält Nicht-Diagonalelemente Alle Parameter ändern sich mit der Wahl der Parameterzahl p GS 11.01.2002 23 Statistische Datenanalyse, Optimierung Datenanpassung Lineare Optimierung Möglichkeiten der Verbesserung der numerischen Stabilität: • Transformation der x-Koordinate auf -1 ≤ x ≤ 1 oder 0 ≤ x ≤ 1 • Verwendung von Orthogonalpolynomen - Tschebycheff-Polynome T(x) nach Transformation auf -1 ≤ x ≤ 1 - Orthonormierte Polynome p y = ∑ Tk ⋅ ak k =0 Ti T ⋅ T j = δij Normalmatrix ist dann Einheitsmatrix Parameter sind linear unabhängig GS 11.01.2002 24 Statistische Datenanalyse, Optimierung Datenanpassung Lineare Optimierung Untersuchung der Residuen: • Residuen sollen bezüglich ihrer Vorzeichen möglichst statistisch verteilt sein • Residuen werden entsprechend der monoton ansteigenden Führungsvariable geordnet • Folgen von Residuen mit gleichem Vorzeichen bilden Phasen h = Gesamtzahl der Phasen - 2 • Prüfgröße nach Wallis-Moore: 2n − 7 h− 3 zˆ = für n ≥ 30 16n − 29 90 2n − 7 1 h− − 3 2 für 10 ≤ n < 30 zˆ = 16n − 29 90 GS 11.01.2002 25 Statistische Datenanalyse, Optimierung Datenanpassung Lineare Optimierung Untersuchung der Residuen: • Nullhypothese H0: Phasen seien statistisch verteilt: zˆ < a { N (0,1) = 0.95} = 1.96 Falls Nullhypothese erfüllt ist, ist die Prüfvariable z normalverteilt, und die Residuen sind in ihren Vorzeichen statistisch verteilt. GS 11.01.2002 26 Statistische Datenanalyse, Optimierung Datenanpassung Singulärwert-Zerlegung SVD • Wenn n > p, ist das Gleichungssystem y = T ⋅ a überbestimmt • Jede Matrix lässt sich einer Spektralzerlegung unterziehen T = U ⋅ S ⋅ VT U : Orthogonale n×n-Matrix: UT = U-1 und UT·U = I V : Orthogonale p×p-Matrix: VT = V-1 und VT·V = I S : n×p-Matrix: die obere p×p-Unter-Matrix ist eine Diagonalmatrix D die untere (n-p)×p-Matrix enthält 0 • Spektralzerlegung ist immer über Orthogonaltransformationen möglich. • Falls der Rang k von T kleiner als p, muss D auf eine linke obere k×k-Matrix reduziert werden. GS 11.01.2002 27 Statistische Datenanalyse, Optimierung Datenanpassung Singulärwert-Zerlegung SVD y = T ⋅ a = U ⋅ S ⋅ VT ⋅ a UT ⋅ y = S ⋅ V T ⋅ a g U T ⋅ y = g = 1 g1 = k -Vektor, g 2 = (n − k )-Vektor g 2 p1 V ⋅ a = p = p1 = k -Vektor, p2 = ( p − k )-Vektor p2 T S⋅ p = g Aber: D ⋅ p1 = g1 und 0 ⋅ p2 = g 2 p1 = D−1 ⋅ g1 Lösung ist eindeutig für k = p GS 11.01.2002 28 Statistische Datenanalyse, Optimierung Datenanpassung Singulärwert-Zerlegung SVD • Es existiert eine minimale Lösung für a mit k ≤ p p1 p = anstelle p2 = 0−1 ⋅ g 2 wird p2 = 0 gesetzt 0 p1 a = V ⋅ und y = U ⋅ g 0 a = V ⋅ D−1 ⋅ g1 • Residuen: g1 p1 U ⋅ g1 − U ⋅ D ⋅ p1 0 T r = y − T ⋅ a = U ⋅ − U ⋅ S ⋅ V ⋅ V = = g 2 U ⋅ g 2 U ⋅ g2 p2 • Kovarianzmatrix: C = r ⋅ r T = U ⋅ g 2 ⋅ g 2T ⋅ UT GS 11.01.2002 29 Statistische Datenanalyse, Optimierung Datenanpassung Singulärwert-Zerlegung SVD • Numerisch sehr stabil, da • Spektralzerlegung über Orthogonaltransformationen • Matrix D: Diagonalmatrix mit mindestens k nicht verschwindenden Diagonalelementen ⇒ Inversion durch Kehrwertbildung der Diagonalelemente • Die Diagonalelemente von D entsprechen als Singulärwerte den Wurzeln der Eigenwerte der Matrix T • Diagonalelemente Dii sind der Größe nach geordnet; unterhalb einer Schwelle ε entsprechen sie Rauschen ⇒ ε legt die Anzahl Parameter fest. • Liefert bei nicht-pathologischen Fällen das gleiche Ergebnis wie die Lösung der Normagleichung, sonst ist es diesem überlegen. GS 11.01.2002 30 Statistische Datenanalyse, Optimierung Datenanpassung Nicht-Lineare Optimierung Falls Funktion y = f (a ; x ) in den Parametern a nicht linear: • Die partiellen Ableitungen ∂f/ ∂a enthalten die Parameter a selbst • Bei der Bildung der Ableitungen müssen Werte von a bekannt sein • In bestimmten Fällen kann die Funktion um geeignete Startwerte von a in Reihe entwickelt werden p df i ( 0) a j − a(j0) ⇒ y = y (0) + Fa ⋅ ∆a yi = yi + ∑ j =1 da j ( ) 0 • In der Regel begnügt man sich mit dem linearen Glied Fa ist die Matrix der partiellen Ableitungen • Da linearisierte Funktion unvollständig, ist Iteration mit neuen Parameterwerten notwendig GS 11.01.2002 31 Statistische Datenanalyse, Optimierung Datenanpassung Nicht-Lineare Optimierung 1 b T G ( y − y b ) sei minimal y y − ( ) 2 T d 1 ( 0) y − y − Fa ⋅ ∆a G y − y (0) − Fa ⋅ ∆a da 2 ( ) ( ( ) Fa ⋅ G ⋅ Fa ⋅ a = Fa ⋅ G ⋅ ( y − y ( ) ) ∆a = (Fa ⋅ G ⋅ Fa) ⋅ Fa ⋅ G ⋅ ( y − y ( ) ) =0 ) FaT ⋅ G y − y ( ) − Fa ⋅ ∆a = 0 0 T 0 T T −1 0 T a ( ) = a ( ) + ∆a ; y ( ) = f ( x ; a ( ) ) 1 Iteration bis 0 1 1 ( y − y ) ⋅ ( y − y ) − ( y − y ) ⋅ ( y − y( ) ) ≤ε ( ) ( ) ( y − y ) ⋅( y − y ) (k ) T (k ) (k −1) k GS 11.01.2002 T T k −1 k 32 Statistische Datenanalyse, Optimierung Datenanpassung Nicht-Lineare Optimierung Probleme: −1 • Da Funktion abgebrochen ist, ist (FaT ⋅ G ⋅ Fa) keine unverzerrte Schätzung der Kovarianzmatrix der Parameter; umso besser, je linearer Funktion um Parameterschätzwerte ist • Konvergenz nur, wenn Startwerte schon im Konvergenzbereich liegen • Probleme des Auffindens vernünftiger Startwerte Versuche zur Verminderung der Probleme: • Da die ersten Parameterveränderungen groß sein können, sollten sie nur zu einem Bruchteil in die neuen Parameter eingehen a (k ) + ∆a (k ) (10 − 2k ) 1 ≤ k ≤ 4 = a (k ) (k ) a a k ≥5 + ∆ • Minimumsuche mit Simplex oder anderen Verfahren (k +1) GS 11.01.2002 33 Statistische Datenanalyse, Optimierung Datenanpassung Nicht-Lineare Optimierung Versuche zur Verminderung der Probleme: • Marquardt-Verfahren: Zur Normalmatrix wird eine Diagonalmatrix λ⋅D addiert (TT ⋅ G ⋅ T + λ ⋅ D)⋅ a = TT ⋅ G ⋅ y ; D = diag (TT ⋅ G ⋅ T) bzw. D = I Je größer λ, umso stärker Berechnung entlang der Hauptdiagonale = Gradient 1 a ⇒ D−1 ⋅ TT ⋅ G ⋅ y λ Konvergenzbereich vergrößert, aber langsame Konvergenz: (1/λ) Strategie: • Beginn mit großem λ • Falls Quadratsumme abnimmt, Verkleinerung von λ • Sonst Vergrößerung • Falls Konvergenzbereich erreicht ist oder λ unter ein ε fällt, wird λ auf 0 gesetzt GS 11.01.2002 34 Statistische Datenanalyse, Optimierung Datenanpassung Allgemeine Optimierung mit Fehlern in den Messgrößen Sowohl x als auch y seien fehlerbehaftet: rx = ( x − x b ) ry = ( y − y b ) 1 T T exp − (rx ⋅ Gx ⋅ rx + ry ⋅ Gy ⋅ ry ) φ == 2 2π C 1 S = rxT ⋅ Gx ⋅ rx + ryT ⋅ Gy ⋅ r sei minimal Generalisierte Kovarianzmatrix der Messwerte C Zielfunktion F: Fi = yiobs − f i (rxi , ryi ; a ) = 0 Linearisierung: obs i Fi = y GS 11.01.2002 calc i −y p dFi dFi dF rx − ry − ∑ i ra j − ∂rx ∂ry j =1 ∂a j 35 Statistische Datenanalyse, Optimierung Datenanpassung Allgemeine Optimierung mit Fehlern in den Messgrößen Mit: dFi dF = − i = −Fxii , ∂rx ∂x dFi dF dFi dF = − i = −Fy ii und = i = Faij ∂ry ∂y ∂ra j ∂a j gilt: F = ∆y + Fx ⋅ rx + Fy ⋅ ry − Fa ⋅ ∆a = 0 S muss minimal werden mit der Neben-Bedingung, dass F erfüllt ist: Φ = S + F T ⋅ λ = rxT ⋅ Gx ⋅ rx + ryT ⋅ Gy ⋅ r + F T ⋅ λ sei minimal ∂Φ = 0 ⇒ 2Gx ⋅ rx − FxT ⋅ λ = 0 ∂rx ∂Φ = 0 ⇒ 2Gy ⋅ ry − Fy T ⋅ λ = 0 ∂ry ∂Φ = 0 ⇒ FaT ⋅ λ = 0 ∂ra λ ist der Vektor der Lagrange-Multiplikatoren GS 11.01.2002 36 Statistische Datenanalyse, Optimierung Datenanpassung Allgemeine Optimierung mit Fehlern in den Messgrößen 4 Bestimmungsgleichungen T 2rx = Cx ⋅ Fx ⋅ λ T 2ry = Cy ⋅ Fy ⋅ λ T Fa ⋅ λ = 0 F = ∆y + Fx ⋅ rx + Fy ⋅ ry − Fa ⋅ ∆a = 0 Einsetzen ergibt: 1 1 ∆y + Fx ⋅ Cx ⋅ FxT ⋅ λ + Fy ⋅ Cy ⋅ Fy T ⋅ λ − Fa ⋅ ∆a = 0 2 2 Mit Cxy = Fx ⋅ Cx ⋅ FxT + Fy ⋅ Cy ⋅ Fy T 1 ∆y + Cxy ⋅ λ − Fa ⋅ ∆a = 0 2 Auflösen nach λ: λ = 2Cxy −1 (Fa ⋅ ∆a − ∆y ) GS 11.01.2002 37 Statistische Datenanalyse, Optimierung Datenanpassung Allgemeine Optimierung mit Fehlern in den Messgrößen T Einsetzen in Fa ⋅ λ = 0 ergibt: FaT ⋅ Cxy −1 ⋅ Fa ⋅ ∆a = FaT ⋅ Cxy −1 ⋅ ∆y Dies ist wieder eine Normalgleichung mit spezieller Kovarianzmatrix: Cxy −1 = Gxy T Fa ⋅ Gxy ⋅ Fa = N Gewichtmatrix der Messpunkte Normalmatrix Cxyii ⇒ Kovarianzellipse des Messpunktes (xi, yi) Lösung der Normalgleichung −1 ∆a = (FaT ⋅ Cxy −1 ⋅ Fa) ⋅ FaT ⋅ Cxy −1 ⋅ ∆y • Enthält alle Sonderfälle fehlender Varianz in den Messgrößen • Ist prinzipiell nicht-linear in den Parametern • Muss iterativ gelöst werden GS 11.01.2002 38 Statistische Datenanalyse, Optimierung Datenanpassung Allgemeine Optimierung mit Fehlern in den Messgrößen Verbesserung der Messungen rz = Cz ⋅ Fz T ⋅ Cxy −1 ⋅ (Fa ⋅ N−1 ⋅ FaT ⋅ Cxy −1 − I )⋅ ∆y mit z = x, y Kovarianzmatrix der angepassten Messungen Cz = Cz − Cz ⋅ FzT ⋅ Cxy −1 ⋅ Fz ⋅ Cz + Cz ⋅ FzT ⋅ Cxy −1 ⋅ Fa ⋅ N−1 ⋅ FaT ⋅ Cxy −1 ⋅ Fz ⋅ Cz Minimumfunktion T M = (Fx ⋅ rx ) ⋅ Cxy −1 ⋅ (Fx ⋅ rx ) + (Fy ⋅ ry ) ⋅ Cxy −1 ⋅ (Fy ⋅ ry ) T folgt einer χ2 -Verteilung mit f = (n - p) Freiheitsgraden GS 11.01.2002 39 Statistische Datenanalyse, Optimierung Datenanpassung Datenanpassung bei nicht-normalverteilten Stichproben Robuste Schätzer Bisher: • Normalverteilung y g − yb 2 1 ( i i ) L=φ= exp − ∏ 2 2 σ 2π C i =1 i n Jetzt • Allgemeine Verteilung n L = k ∏ exp −ρ ( yi , y ( xi ; a )) i =1 ρ ( yi , y ( xi ; a )) = − ln ( f ) f : Wahrscheinlichkeitsdichte der Verteilung n l = ln ( L) = −∑ ρ ( yi , y ( xi ; a )) sei maximal i =1 n M = ∑ ρ ( yi , y ( xi ; a )) sei minimal bezüglich der Parameter i =1 GS 11.01.2002 40 Statistische Datenanalyse, Optimierung Datenanpassung Datenanpassung bei nicht-normalverteilten Stichproben Robuste Schätzer • Transformation der Wahrscheinlichkeitsdichte: zi = yig − y ( xi ; a ) ⇒ ρ ( yi , y ( xi ; a )) = ρ ( zi ) σi • Minimum der Funktion M bezüglich der Parameter a n ∂ρ ( z i ) ∂ z i ∂M =∑ ⋅ =0 z a ∂ak ∂ ∂ i =1 i k ∂ρ ( z ) ∂z = ψ( z ) 1 ∂y ( xi ; a ) ∂z i =− ⋅ ∂ak ∂ak σi ∂y ( xi ; a ) 1 ⋅ ⋅ =0 ψ ( z ) ∑ ∂ak i =1 σi n • Verallgemeinerte Normalgleichung. • ψ(z) Wichtungsgröße der partiellen Ableitungen nach a GS 11.01.2002 41 Statistische Datenanalyse, Optimierung Datenanpassung Datenanpassung bei nicht-normalverteilten Stichproben Robuste Schätzer • Normalverteilung: z2 L ≅ exp − 2 ψ ( z ) = z mit ⇒ ρ( z) = 1 2 z ; 2 ψ(z) p yi = ∑ a j ⋅ Tij j =1 n 0=∑ i =1 1 ( yi − y ( xi ; a )) ⋅ ⋅ Tij σi σi z ⇒ TT ⋅ G y ⋅ y = TT ⋅ G y ⋅ T ⋅ a • In Normalverteilung tritt z als Wichtungsparameter auf • Punkte mit großer Abweichung gehen stark in Rechnung ein • Ausreißer werden stark berücksichtigt GS 11.01.2002 42 Statistische Datenanalyse, Optimierung Datenanpassung Datenanpassung bei nicht-normalverteilten Stichproben Robuste Schätzer • Absolutabweichung in Wahrscheinlichkeitsdichte: L ≅ exp − z n 0=∑ i =1 ⇒ ρ ( z ) = z ; ψ ( z ) = sign ( z ) ψ(z) 1 ⋅ sign ( zi ) ⋅ Tij σi p mit yi = ∑ a j ⋅ Tij z j =1 ⇒ TT ⋅ (G y ) 1 2 ⋅ sign ( z ) = 0 • Wichtung der Messpunkte entsprechend ihrem Vorzeichen • Ausreißer werden nicht überbewertet GS 11.01.2002 43 Statistische Datenanalyse, Optimierung Datenanpassung Datenanpassung bei nicht-normalverteilten Stichproben Robuste Schätzer • Lorentz-Verteilung: 1 L≅ 2 1 yi − y ( xi ) 1+ σ 2 1 ⇒ ρ ( z ) = ln 1 + z 2 ; 2 ψ(z) i n 1 z z ∂y ⋅ i ψ( z) = ;0 = ∑ ⋅ 1 1 i =1 σi 1 + z 2 ∂a j 1+ z2 2 2 p n 1 z ⇒ ∑ ⋅ ⋅ Tij = 0 mit yi = ∑ a j ⋅ Tij 1 i =1 σi 1 + z 2 j =1 2 z • Wichtung der Messpunkte zuerst ähnlich wie Gauss-Verteilung • Wichtung verläuft durch Maximum • Ausreißer werden umso weniger berücksichtigt, je weiter weg GS 11.01.2002 44 Statistische Datenanalyse, Optimierung Datenanpassung Datenanpassung bei nicht-normalverteilten Stichproben Robuste Schätzer • Vorteile der robusten Schätzer • Robust gegenüber großer Streuung • Nachteile • Wichtungsfunktion bei Lorentz-Verteilung nicht linear Kleine Änderungen in a können ψ in asymptotischen Bereich treiben Unempfindlich gegenüber notwendigen Änderungen Zuerst Minimusuche mit anderen Methoden • Signum-Funktion unstetig GS 11.01.2002 45 Statistische Datenanalyse, Optimierung Datenanpassung Literatur: • Peter Gans, Data Fitting in the Chemical Science, Wiley, New York, 1992 • Sigmund Brandt, Datenanalyse 4. Aufl., Spektrum Akademischer Verlag, Heidelberg 1999 • William H. Press et al, Numerical Recipes, The Art of Scientific Computing, Cambridge University Press, New York, 1986 • Ludwig Fahrmeir, Alfred Hammerle, Multivariate statistische Verfahren, W. de Gruyter Verlag, Berlin, 1984 • Curtis F. Gerald, Patrick O. Wheatley, Applied Numerical Analysis, AddisonWesley, Reading, 1984 • George E. P. Box, William G. Hunter, J. Stuart Hunter, Statistics for Experimenters, Wiley, New York, 1978 • Yonathan Bard, Nonlinear Parameter Estimation, Academic Press, New York, 1974 GS 11.01.2002 46