Mathematik für Physiker II, SS 2015 Freitag 10.7 $Id: mtaylor.tex,v 1.8 2015/07/10 11:14:04 hk Exp $ §9 Ableitungen höherer Ordnung Schon in §1.1 hatten wir partielle Ableitungen höherer Ordnung eingeführt und eine Funktionen f : U → R definiert auf einer offenen Menge U ⊆ Rn wurde r-fach partiell differenzierbar genannt wenn alle partiellen Ableitungen der Funktion f bis zur Ordnung r auf ganz U existieren. Diesen Begriff können wir auf vektorwertige Funktionen f : U → Rm verallgemeinern indem wir eine solche Funktion r-fach partiell differenzierbar nennen wenn dies auf alle Komponenten fj für 1 ≤ j ≤ m zutrifft. Sind zusätzlich diese sämtlichen Ableitungen auch noch stetig, so nennen wir f dann rfach stetig partiell differenzierbar. In dieser Terminologie haben wir im letzten Kapitel gezeigt, dass eine Funktion f : U → Rm genau dann stetig differenzierbar ist wenn sie stetig partiell differenzierbar ist. Auch mehrfache Differenzierbarkeit können wir induktiv definieren. Für eine differenzierbare Funktion f : U → Rm mit U ⊆ Rn offen ist die Ableitung eine Funktion f 0 : U → Rm×n = Rmn . Ist auch diese differenzierbar so nennen wir f zweifach differenzierbar und haben eine zweite Ableitung 2 f 00 : U → Rmn . So fortfahrend ergibt sich: Definition 9.1 (Höhere Ableitungen) Seien n, m ∈ N mit n, m ≥ 1, U ⊆ Rn offen und f : U → Rm eine Funktion. Weiter sei r ∈ N mit r ≥ 2 und die (r − 1)-fache Differenzierbarkeit von f sowie die (r − 1)-te r−1 Ableitung f (r−1) : U → Rmn seien bereits definiert. Wir nennen f dann in einem Punkt x ∈ U r-fach differenzierbar wenn f (r − 1)-fach differenzierbar ist und f (r−1) in x differenzierbar ist. Die r-te Ableitung von f in x definieren wir in diesem Fall als r f (r) (x) := (f (r−1) )0 (x) ∈ Rmn . Ist f dann in jedem Punkt x ∈ U stets r-fach differenzierbar, so heißt f eine r-fach differenzierbare Abbildung und die obige Formel definiert eine Funktion f (r) : U → r Rmn , genannt die r-te Ableitung von f . Schlieslich heißt f r-fach stetig differenzierbar wenn f r-fach differenzierbar ist und die r-te Ableitung f (r) stetig ist. Nach §8.Lemma 4 sind die Komponenten von f 0 gerade die partiellen Ableitung ∂fj /∂xi . Eine weitere Anwendung dieses Lemmas liefert das das Komponenten von f 00 = (f 0 )0 die partiellen Ableitungen ∂ ∂fk ∂2f = (1 ≤ k ≤ m, 1 ≤ i, j ≤ n) ∂xi ∂xj ∂xi ∂xj 23-1 Mathematik für Physiker II, SS 2015 Freitag 10.7 zweiter Ordnung sind. So fortfahrend sind die Komponenten von f (r) die partiellen Ableitungen r-ter Ordnung. Für die erste Ableitung r = 1 wissen wir aus §8 auch das stetige Differenzierbarkeit gleichwertig zu stetiger partieller Differenzierbarkeit ist, und wenden wir diese Tatsache mehrfach an, so ergibt sich das folgende Lemma. Lemma 9.1: Seien n, m, r ∈ N mit n, m, r ≥ 1, U ⊆ Rn offen und f : U → Rm eine Funktion. Dann ist f genau dann r-fach stetig differenzierbar wenn f r-fach stetig partiell differenzierbar ist. Beweis: Klar durch iterierte Anwendung des entsprechenden Resultats für r = 1. Während r-fache Differenzierbarkeit also ein etwas diffiziler Begriff ist, ist die r-fache stetige Differenzierbarkeit vergleichsweise einfach zu entscheiden, man muss sich nur die partiellen Ableitungen bis zu r-ter Ordnung anschauen. Um mit diesen höheren partiellen Ableitungen gut umgehen zu können, müssen wir wissen das diese für ausreichend gutartige Funktionen nicht von der Reihenfolge abhängen in der die partiellen Ableitungen ausgeführt werden. Für zu allgemeine Funktionen ist dies falsch, wie wir schon in der allerersten Aufgabe (1) dieses Semesters gesehen haben. Wir werden sehen das die zweifache Differenzierbarkeit ausreicht um das Vertauschen zweifacher partieller Ableitungen zu ermöglichen. Hierzu beginnen wir mit einer Vorbemerkung. Seien n ∈ N mit n ≥ 1, eine offene Menge U ⊆ Rn und eine differenzierbare Funktion f : U → R gegeben. Die Ableitung von f ist dann als Jacobi-Matrix interpretiert ∂f ∂f 0 f (x) = (x), . . . , (x) ∂x1 ∂xn für jedes x ∈ U . Ist f jetzt in einem Punkt x ∈ U sogar zweifach differenzierbar, so ist die Ableitung f 00 (x) eine lineare Abbildung f 00 (x) : Rn → Rn . Haben wir also zwei Vektoren u, v ∈ Rn , so ist f 00 (x)(u) ∈ Rn aufgefasst als Zeilenvektor, und wir können f 00 (x)(u)v ∈ R bilden. Wir benötigen eine etwas konkretere Beschreibung dieser Abbildung. Hierzu führen wir die lineare Abbildung φ : R1×n → R; w 7→ wv ein, und erhalten mit der Kettenregel §8.Satz 7 und wegen φ0 (y) = φ für jedes y ∈ R1×n auch f 00 (x)(u)v = φ(f 00 (x)u) = φ0 (f 0 (x))(f 00 (x)u) = (φ0 (f 0 (x)) ◦ f 00 (x))u = (φ ◦ f 0 )0 (x)u. Für jedes y ∈ U gilt dabei n X ∂f (φ ◦ f )(y) = φ(f (y)) = f (y)v = (y)vi , ∂xi i=1 0 0 0 also wird n X ∂ 00 0 0 f (x)(u)v = (φ ◦ f ) (x)u = ∂xj x j=1 ! n X X ∂f ∂2f v i uj = (x)vi uj . ∂xi ∂xj ∂xi i=1 1≤i,j≤n 23-2 Mathematik für Physiker II, SS 2015 Führen wir also die n × n-Matrix H := Freitag 10.7 ∂2f (x) ∂x21 ··· ... ∂2f (x) ∂xn ∂x1 ··· .. . ∂2f (x) ∂xn ∂x1 .. . ∂2f (x) ∂x2 n ein, so haben wir (Hu) · v = ∂2f (x)vi uj = f 00 (x)(u)v. ∂x ∂x j i 1≤i,j≤n X Die Matrix H wird uns später noch einmal begegnen, daher wollen wir ihr hier noch keinen eigenen Namen geben. Dass die Reihenfolge der zweiten partiellen Ableitungen keine Rolle spielt, bedeutet genau das die Matrix H symmetrisch ist. Weiter haben wir zu Beginn des §6 gesehen, dass H genau dann symmetrisch ist, wenn (Hu) · v = u·(Hv) = (Hv)·u für alle u, v ∈ Rn gilt, d.h. die Vertauschbarkeit der zweiten partiellen Ableitungen bedeutet das f 00 (x)(u)v = f 00 (x)(v)u für alle u, v ∈ Rn gilt. Mit dieser Beobachtung sind wir zum Beweis des nächsten Satzes bereit. Satz 9.2 (Lemma von Schwarz) Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen und f : U → R eine differenzierbare Funktion. Weiter sei f in einem Punkt x ∈ U zweifach differenzierbar. Dann gilt ∂2f ∂2f (x) = (x) ∂xi ∂xj ∂xj ∂xi für alle 1 ≤ i, j ≤ n. Beweis: Wir weisen dies in der eingangs hergeleiteten Form nach. Seien also u, v ∈ Rn gegeben. Wir behaupten das dann f 00 (x)(v)u = lim s↓0 f (x + su + sv) − f (x + su) − f (x + sv) + f (x) s2 gilt. Sei also > 0 vorgegeben. Die zweifache Differenzierbarkeit von f in x bedeutet das es ein δ1 > 0 mit Bδ1 (x) ⊆ U gibt so, dass wir für alle h ∈ Rn mit ||h|| < δ1 f 0 (x + h) = f 0 (x) + f 00 (x)h + τ (h) haben, wobei limh→0 ||τ (h)||/||h|| = 0 ist. Insbesondere existiert ein δ2 > 0 mit δ2 ≤ δ1 und ||τ (h)|| < ||h|| 1 + ||u||(2||u|| + ||v||) 23-3 Mathematik für Physiker II, SS 2015 Freitag 10.7 für alle h ∈ Rn mit 0 < ||h|| < δ2 , also ||τ (h)|| ≤ ||h|| 1 + ||u||(2||u|| + ||v||) für alle h ∈ Rn mit ||h|| < δ2 . Setze δ := δ2 /(1 + ||u|| + ||v||) > 0. Sei jetzt s ∈ R mit 0 < s < δ gegeben. Für jedes 0 ≤ t ≤ 1 sind dann ||tsu + sv|| ≤ s(t||u|| + ||v||) ≤ s(||u|| + ||v||) ≤ δ(||u|| + ||v||) < δ2 ≤ δ1 und ||tsu|| = ts||u|| ≤ s||u|| ≤ s(||u|| + ||v||) < δ2 ≤ δ1 , und insbesondere x + tsu + sv, x + tsu ∈ Bδ1 (x) ⊆ U . Damit ist die reelle Funktion g : [0, 1] → R; t 7→ f (x + tsu + sv) − f (x + tsu) wohldefiniert, und nach der Kettenregel §8.Satz 7 ist g differenzierbar mit g 0 (t) = s f 0 (x + tsu + sv) − f 0 (x + tsu) u für alle t ∈ [0, 1]. Nach dem Mittelwertsatz I.§12.Satz 10 existiert ein ξ ∈ (0, 1) mit f (x + su + sv) − f (x + su) − f (x + sv) + f (x) = g(1) − g(0) = g 0 (ξ) = s f 0 (x + ξsu + sv) − f 0 (x + ξsu) u. Weiter sind ||ξsu + sv|| ≤ ξs||u|| + s||v|| ≤ s(||u|| + ||v||) < δ2 ≤ δ1 und ||ξsu|| = ξs||u|| ≤ ξs||u|| + s||v|| < δ2 ≤ δ1 , also haben wir f 0 (x + ξsu + sv) − f 0 (x) = sf 00 (x)(ξu + v) + τ (ξsu + sv), f 0 (x + ξsu) − f 0 (x) = sf 00 (x)(ξu) + τ (ξsu), und dies ergibt f 0 (x + ξsu + sv) − f 0 (x + ξsu) = (f 0 (x + ξsu + sv) − f 0 (x)) − (f 0 (x + ξsu) − f 0 (x)) = sf 00 (x)(v) + τ (ξsu + sv) − τ (ξsu). Setzen wir dies in die obige Formel ein, so folgt weiter f (x + su + sv) − f (x + su) − f (x + sv) + f (x) = s2 f 00 (x)(v)u + sτ (ξsu + sv)u − sτ (ξsu)u. Damit ist schließlich f (x + su + sv) − f (x + su) − f (x + sv) + f (x) 00 − f (x)(v)u s2 τ (ξsu + sv)u τ (ξsu)u ||τ (ξsu + sv)u|| ||τ (ξsu)u|| ≤ − + = s s s s ||τ (ξsu + sv)|| ||τ (ξsu)|| ||u|| ≤ + ||u|| ≤ (2||u|| + ||v||) < . s s 1 + ||u||(2||u|| + ||v||) 23-4 Mathematik für Physiker II, SS 2015 Freitag 10.7 Somit ist tatsächlich f 00 (x)(v)u = lim s↓0 f (x + su + sv) − f (x + su) − f (x + sv) + f (x) . s2 Die rechte Seite dieser Gleichung ändert sich nicht bei Vertauschen von u und v, d.h. wir haben f 00 (x)(v)u = f 00 (x)(u)v für alle u, v ∈ Rn , und dies war zu zeigen. Durch mehrfache Anwendung des Lemmas kann man einen allgemeinen Vertauschungssatz für partielle Ableitungen beweisen. Zunächst kann man vektorwertige Funktionen behandeln indem Satz 2 auf jede einzelne Komponentenfunktion angewandt wird. Ein allgemeines Vertauschen einer p-fachen partiellen Ableitung kann man durch mehrere Vertauschungen direkt aufeinanderfolgender partieller Ableitungen erreichen, und dass diese Einzelschritte möglich sind wissen wir bereits. Verwenden wir zusätzlich das p-fache stetige Differenzierbarkeit gleichwertig zu p-facher partieller, stetiger Differenzierbarkeit ist, so ergibt sich das folgende allgemeine Vertauschungslemma für partielle Ableitungen. Korollar 9.3 (Vertauschbarkeit partieller Ableitungen) Seien n, m ∈ N mit n, m ≥ 1, U ⊆ Rn offen, p ∈ N mit p ≥ 1 und f : U → Rm eine p-fach stetig differenzierbare Funktion. Dann kann man die die Reihenfolge partieller Ableitungen bis zu Ordnung p beliebig umordnen, d.h. sind 1 ≤ r ≤ p, 1 ≤ i1 , . . . , ir ≤ n und ist π ∈ Sr eine Permutation, so gilt ∂rf ∂rf (x) = (x) ∂xi1 · · · ∂xir ∂xiπ(1) · · · ∂xiπ(r) für alle x ∈ U . Beweis: Wie schon gesehen folgt dies durch iterierte Anwendung von Satz 2. Bei uns sind die Voraussetzungen des Korollars eigentlich immer erfüllt, ist die Funktion f durch explizite Formeln aus den Grundfunktionen zusammengesetzt, so existieren alle partiellen Ableitungen beliebiger Ordnung und sind auch stetig, also lassen sich partielle Ableitungen in dieser Situation nach dem Satz beliebig umordnen. 9.1 Multiindizes Wir haben schon früher mehrfache partielle Ableitungen nach derselben Variable in Potenzschreibweise“ zusammengefasst, also beispielsweise ” ∂2f ∂2f ∂3f ∂3f ∂3f ∂3f = , = , = ,... ∂x∂x ∂x2 ∂y∂y∂y ∂y 3 ∂x∂y∂y ∂x∂y 2 23-5 Mathematik für Physiker II, SS 2015 Freitag 10.7 Sind die Voraussetzungen des Korollar 3 erfüllt, so können wir diese Schreibweise mit dem Umordnen partieller Ableitungen kombinieren, beispielsweise ∂3f ∂3f ∂3f = = . ∂x∂y∂x ∂x∂x∂y ∂x2 ∂y Damit können wir unter den Voraussetzungen von Korollar 3 die höheren partiellen Ableitungen einer Funktion f immer in Standardform ∂ k1 +···+kr f ∂xki11 · · · ∂xkirr mit 1 ≤ i1 < i2 < . . . < ir ≤ n schreiben. Lassen wir hier auch nullte Potenzen zu, so können wir diese Schreibweise noch etwas weiter vereinfachen zu ∂ k1 +···+kn f . ∂xk11 · · · ∂xknn Dabei bedeutet eine nullfache partielle Ableitung ∂x0i natürlich einfach nur gar nicht abzuleiten. Für eine Funktion f (x, y, z) in drei Variablen ist etwa ∂4f ∂4f ∂4f = . = ∂x∂z∂x∂z ∂x2 ∂z 2 ∂x2 ∂y 0 ∂z 2 Um diese Schreibweise zu systematisieren werden nun die sogenannten Multiindizes eingeführt. Ein Multiindex ist einfach ein Tupel α = (α1 , . . . , αn ) natürlicher Zahlen, d.h. α1 , . . . , αn ∈ N. Für eine Funktion f in n Variablen schreiben wir dann ∂ α1 +···+αn f ∂ α1 +···+αn f := . ∂xα ∂xα1 1 · · · ∂xαnn Damit ist die Notation schon fast wie im eindimensionalen Fall, nur der Ausdruck α + · · · + αn“ stört noch etwas. Auch diese Unschönheit können wir durch Einführung ” 1 einer weiteren Abkürzung umgehen, wir setzen für jeden Multiindex α der Länge n einfach |α| := α1 + · · · + αn , und können die obige partielle Ableitung dann als ∂ |α| f ∂xα schreiben. Zwei weitere Schreibweisen sind hilfreich α! := α1 ! · . . . · αn !, (x − a)α := (x1 − a1 )α1 · . . . · (xn − an )αn 23-6 Mathematik für Physiker II, SS 2015 Freitag 10.7 für jeden Multiindex α und alle a, x ∈ Rn . Beispielsweise sind |α| 3 α = (2, 0, 1) : |α| = 3, α! = 2, (x − a)α = (x1 − a1 )2 (x3 − a3 ), ∂ xα f = ∂x∂ 2f∂z , 5f |β| β = (2, 3) : |β| = 5, β! = 12, (x − a)β = (x1 − a1 )2 (x2 − a2 )3 , ∂∂xβf = ∂x∂2 ∂y 3 Für zwei Multiindizes α, β gleicher Länge n können wir noch α + β := (α1 + β1 , . . . , αn + βn ), α ≤ β :⇐⇒ α1 ≤ β1 ∧ . . . ∧ αn ≤ βn definieren, und im Fall α ≤ β sei auch noch β − α := (β1 − α1 , . . . , βn − αn ). Die Fakultätsschreibweise α! wird sich zur Formulierung der Taylorformel als nützlich erweisen. Die Taylorformel wird wieder von Taylorpolynomen handeln, und daher müssen wir jetzt auch noch Polynome in mehreren Variablen einführen. Ein Polynom in einer Variablen ist ja einfach eine Funktion der Form p(x) = a0 + a1 x + a2 x2 + · · · , also konstanter Term“ + linearer Term“ + quadratischer Term“ + · · · ” ” ” Genauso soll es für Polynome in mehreren Variablen sein. Was dabei ein konstanter Term ist, ist wieder klar. Aber schon die Bedeutung des linearen Terms erfordert eine Anpassung, wir haben ja nicht nur eine Variable x“ zu berücksichtigen, sondern gleich ” n Stück x1 , . . . , xn . Der lineare Term des Polynoms soll dann die Form a1 x1 +· · ·+an xn haben. Was der quadratische Term werden soll ist schon etwas feinsinniger. Man ist zunächst versucht nur a1 x21 +· · ·+an x2n anzusetzen, aber das ist nicht ausreichend. Zum Beispiel soll das Produkt von zwei Polynomen ja sicherlich ein Polynom sein, und damit brauchen wir beispielsweise Zweierprodukte xi xj von Variablen. Der quadratische Term soll dann eine Summe von Vielfachen all dieser Zweierprodukte sein. Die Quadrate fallen dann ebenfalls unter diese Zweierprodukte, es ist ja x2i = xi xi . Entsprechend geht es weiter für die Terme höherer Ordnung, und ein Polynom in n Variablen wird damit eine Funktion der Form p(x1 , . . . , xn ) = a0 + a11 x1 + · · · + a1n xn +a211 x21 + a212 x1 x2 + · · · + a21n x1 xn + a221 x2 x1 + · · · + a2nn x2n +a3111 x31 + a3112 x21 x2 + · · · + a3nnn x3m + · · · Da diese Art Polynome hinzuschreiben aber hoffnungslos unübersichtlich ist, erinnern wir uns wieder an die Multiindex Notation xα = xα1 1 · . . . · xαnn , 23-7 Mathematik für Physiker II, SS 2015 Freitag 10.7 und schreiben den obigen Ausdruck in der Form p(x) = p(x1 , . . . , xn ) = X aα x α |α|≤N wobei für jeden Multiindex α mit |α| ≤ N die Konstante aα ∈ R als ein Koeffizient von f bezeichnet wird. Konkrete Beispiele solcher Polynome sind f (x, y) = 2 + x + y 2 + 3yx − 7x3 , g(x, y, z) = xyz + 2x2 z 2 − y 5 , . . . Der Grad eines Monoms xα = xα1 · · · xαnn wird als α1 + · · · + αn = |α| definiert, also als die Summe aller auftretenden Exponenten. Dann bezeichnet die Zahl N“ gerade den ” maximal auftretenden Grad, und das minimale mögliche N nennt man den Grad des Polynoms, d.h. der Grad eines Polynoms ist der größte Grad eines mit Koeffizient 6= 0 auftretenden Monoms. Beispielsweise x7 − y 2 z 4 + xyz x3 y 3 z + x2 y 2 z 3 − xy hat Grad 7, hat Grad 7 = 3 + 3 + 1 = 2 + 2 + 3. Polynome in mehreren Variablen sind unendlich oft differenzierbar und es ist auch leicht ihre Ableitungen auszurechnen. Der Übersichtlichkeit halber erinnern wir uns erst einmal an Ableitungen eines Polynoms in einer Variablen (xk )0 = kxk−1 , (xk )00 = k(k − 1)xk−2 , . . . , (xk )(l) = k(k − 1) · · · (k − l + 1)xk−l k(k − 1) · · · (k − l + 1)(k − l) · · · 1 k−l k! = x = xk−l (k − l) · · · 1 (k − l)! für l ≤ k und (xk )(l) = 0 für l > k. Für je zwei Multiindizes α, β der Länge n mit α ≤ β folgt damit β1 ! βn ! ∂ |α| xβ = xβ1 1 −α1 · . . . · xβn −αn α ∂x (β1 − α1 )! (βn − αn )! n β! β1 ! · . . . · βn ! xβ1 1 −α1 xβnn −αn = xβ−α . = (β1 − α1 )! · . . . · (βn − αn )! (β − α)! Im Fall α 6≤ β ist dagegen αi > βi für ein 1 ≤ i ≤ n und somit ist ∂xβ /∂xα = 0. 9.2 Die Taylor Entwicklung in mehreren Variablen Wir wollen jetzt die Taylorformel auf den Fall von Funktionen in mehreren Variablen übertragen. Wir kennen zwei Varianten der eindimensionalen Taylorformel, einmal die Darstellung mit Lagrangeschen Restglied aus I.§12.Satz 16 und zum anderen die Variante mit einer Integraldarstellung des Approximationsfehlers aus §2.Satz 21. Beide Varianten lassen sich auf den n-dimensionalen Fall übertragen. Tatsächlich werden wir 23-8 Mathematik für Physiker II, SS 2015 Freitag 10.7 die Taylorformel in n Variablen durch Rückführung auf den Fall einer Variable herleiten. Wir schauen uns zunächst einmal an wie man das macht. Seien also n ∈ N mit n ≥ 1, eine offene Menge U ⊆ Rn , eine Funktion f : U → R und ein Entwicklungspunkt x0 ∈ U gegeben. Wir wollen das Taylorpolynom p-ten Grades behandeln, wobei p ∈ N mit p ≥ 1 ist, und hierzu setzen wir voraus das f mindestens (p + 1)-fach stetig differenzierbar ist. Da U offen ist, finden wir einen Radius r > 0 mit Br (x0 ) ⊆ U . Sei x ∈ Br (x0 ). Dann betrachten wir die Hilfsfunktion h : [0, 1] → R; t 7→ f (x0 + t(x − x0 )) mit h(0) = f (x0 ) und h(1) = f (x). Auf diese Funktion wollen wir die eindimensionale Taylorformel mit dem Entwicklungspunkt t0 = 0 anwenden. Hierzu müssen wir zunächst einmal die ersten p Ableitungen von h berechnen. Mit der Kettenregel haben wir n X ∂f h (t) = (x0 + t(x − x0 )) · (xi − x0,i ), ∂xi i=1 X ∂2f h00 (t) = (x0 + t(x − x0 )) · (xi − x0,i )(xj − x0,j ), ∂xi ∂xj 1≤i,j≤n 0 X 000 h (t) = 1≤i1 ,i2 ,i3 ∂3f (x0 + t(x − x0 )) · (xi1 − x0,i1 )(xi2 − x0,i2 )(xi3 − x0,i3 ), ∂xi1 ∂xi2 ∂xi3 ≤n und so fortfahrend ergibt sich die k-te Ableitung für 1 ≤ k ≤ p + 1 als h(k) (t) = X 1≤i1 ,...,ik ∂kf (x0 + t(x − x0 )) · (xi1 − x0,i1 ) . . . (xik − x0,ik ), ∂xi1 . . . ∂xik ≤n jeweils für alle t ∈ [0, 1]. Jeder Summand (i1 , . . . , in ) definiert einen Multiindex α durch αj := Anzahl der 1 ≤ q ≤ k mit iq = j mit |α| = k und der entsprechende Summand nimmt dann die Form ∂ |α| f (x0 + t(x − x0 )) · (x − x0 )α ∂xα an. Leider können verschiedene Indizes zum selben Multiindex führen, und jeder Multiindex α mit |α| = k tritt in der Summe zur Berechnung von h(k) (t) so oft auf, wie es zu ihm passende Multiindizes gibt. Dies Zahl können wir leicht ermitteln. Zunächst einmal wählen wir irgendeine passende Indexkombination und alle anderen ergeben sich dann durch Permutationen dieser k Indizes. Für diese Permutationen gibt es nach I.§8.Lemma 1 genau k! Möglichkeiten. Allerdings können verschiedene Permutationen 23-9 Mathematik für Physiker II, SS 2015 Freitag 10.7 zu den selben Indizes führen, nämlich dann wenn sie nur Indizes mit gleichem Wert vertauschen. Da es für 1 ≤ j ≤ n stets αj viele Indizes mit Wert j gibt, tritt dies genau α1 ! · . . . · αn ! = α! oft auf. Die Anzahl der zu α passenden Multiindizes ist also k!/α! und somit wird h(k) (t) = X k! ∂ k f (x0 + t(x − x0 )) · (x − x0 )α α! ∂xα |α|=k für jedes t ∈ [0, 1]. Das p-te Taylorpolynom von h zum Entwicklungspunkt t0 = 0 ist also Tp h(t) = p X h(k) (0) k=0 k! tk = X 1 ∂ |α| f (x0 ) · (x − x0 )α t|α| . α! ∂xα |α|≤p Werten wir dieses Polynom in t = 1 aus, so ergibt sich das Taylorpolynom der Funktion f , also: Definition 9.2 (Taylorpolynom in n Variablen) Seien n, p ∈ N mit n, p ≥ 1, U ⊆ Rn offen, a ∈ U und f : U → R eine p-fach stetig differenzierbare Funktion. Das p-te Taylorpolynom von f mit Entwicklungspunkt a ist dann das Polynom Tp f (x) := X 1 ∂ |α| f · (a) · (x − a)α . α! ∂xα |α|≤p In anderen Worten ist das Taylorpolynom Tp f das Polynom von Grad höchstens p dessen sämtliche partiellen Ableitungen bis zu Ordnung p in a mit denen von f übereinstimmen. Beispielsweise haben wir im Fall n = p = 2 und dem Entwicklungspunkt a = 0 das quadratische Taylorpolynom T (x, y) = f (0) + ∂f 1 ∂2f 1 ∂2f ∂2f ∂f 2 2 (0)x + (0)y + (0)x + (0)y + (0)xy. ∂x ∂y 2 ∂x2 2 ∂y 2 ∂x∂y Rechnen wir als ein Beispiel einmal das quadratische Taylorpolynom der Funktion f (x, y) = (3x + 4y)e−x 23-10 2 −y 2 Mathematik für Physiker II, SS 2015 Freitag 10.7 aus. Alle relevanten partiellen Ableitungen haben wir bereits berechnet ∂f ∂x ∂f ∂y ∂2f ∂x2 ∂2f ∂y∂x ∂2f ∂x∂y ∂2f ∂y 2 = (3 − 6x2 − 8xy)e−x = (4 − 8y 2 − 6xy)e−x 2 −y 2 2 −y 2 , , = (−18x − 8y + 12x3 + 16x2 y)e−x 2 −y 2 = (−8x − 6y + 12x2 y + 16xy 2 )e−x 2 −y 2 = (−6y − 8x + 16xy 2 + 12x2 y)e−x 2 −y 2 = (−6x − 24y + 16y 3 + 12xy 2 )e−x 2 −y 2 , , , , und damit gelten ∂f ∂f (0, 0) = 3, (0, 0) = 4, ∂x ∂y und die vier partiellen Ableitungen zweiter Ordnung sind alle Null. Das quadratische Taylorpolynom mit Entwicklungspunkt Null ist damit f (0, 0) = 0, T2 f (x, y) = 3x + 4y. Für das Taylorpolynom dritten Grades müssen wir die dritten partiellen Ableitungen von f berechnen ∂3f = ∂x3 = 3 ∂ f = ∂x2 ∂y ∂3f = ∂x∂y 2 ∂3f = ∂y 3 = (−18 + 36x2 + 32xy + 36x2 + 16xy − 24x4 − 32x3 y)e−x (−18 + 72x2 + 48xy − 24x4 − 32x3 y)e−x 2 −y 2 , (−8 + 16x2 + 36xy + 16y 2 − 24x3 y − 32x2 y 2 )e−x 2 −y 2 (−6 + 12y 2 + 12x2 + 48xy − 32xy 3 − 24x2 y 2 )e−x 2 −y 2 , , (−24 + 48y 2 + 24xy + 12xy + 48y 2 − 32y 4 − 24xy 3 )e−x (−24 + 96y 2 + 36xy − 32y 4 − 24xy 3 )e−x 2 −y 2 2 −y 2 2 −y 2 und in (0, 0) auswerten ∂3f ∂3f ∂3f ∂3f (0, 0) = −8, (0, 0) = −18, (0, 0) = −6, (0, 0) = −24. ∂x3 ∂x2 ∂y ∂x∂y 2 ∂y 3 Das dritte Taylorpolynom ist damit gleich T3 f (x, y) = 3x + 4y − 3x3 − 4x2 y − 3xy 2 − 4y 3 . 23-11 Mathematik für Physiker II, SS 2015 Freitag 10.7 Wie im eindimensionalen Fall approximieren die Taylorpolynome die gegebene Funktion, und zwar umso besser je höher der Grad des Taylorpolynoms ist. Es gibt auch wieder eine Formel, die den Approximationsfehler explizit angibt. Satz 9.4 (Taylorformel im Rn ) Seien n, p ∈ N mit n, p ≥ 1, U ⊆ Rn offen und f : U → R sei (p + 1)-fach stetig differenzierbar. Seien weiter a ∈ U und r > 0 mit B r (a) ⊆ U . Dann gilt für jedes x ∈ B r (a) die Taylorformel f (x) = X 1 ∂ |α| f · (a) · (x − a)α + τ (x − a) α! ∂xα |α|≤p wobei τ (h) für ||h|| ≤ r der Approximationsfehler ist. Für ||h|| ≤ r ist dann X τ (h) = (p + 1) |α|=p+1 1 α! Z 1 p∂ (1 − t) 0 p+1 f ∂xα (a + th) dt · hα und es gibt ein ξ ∈ (0, 1) mit τ (h) = X |α|=p+1 1 ∂ p+1 f (a + ξh)hα . α α! ∂x Beweis: Beide Aussagen folgen sofort durch Anwendung der eindimensionalen Taylorformeln I.§12.Satz 16 und §2.Satz 21 auf die oben besprochene Hilfsfunktion h. Aus diesen Formeln kann man auch leicht die Größenordnung des Approximationsfehlers in Abhängigkeit von h bestimmen. Da f als (p + 1)-fach stetig differenzierbar vorausgesetzt ist, sind alle partiellen Ableitungen ∂ p+1 f /∂xα für |α| = p + 1 stetig, also auf der kompakten Menge B r (a) nach §8.Lemma 23.(d) beschränkt, d.h. p+1 ∂ f <∞ A := max sup (x) α |α|=p+1 x∈B (a) ∂x r ist endlich. Weiter behaupten wir das für alle m, r ∈ N mit m ≥ 1 stets X 1 mr = α! r! α∈Nm |α|=r ist. Dies kann man beispielsweise durch Induktion nach m einsehen. Für m = 1 ist die Formel klar. Sei nun weiter m ∈ N mit m ≥ 1 und für jedes r ∈ N gelte die Formel. Sei r ∈ N. Für jedes α ∈ Nm+1 mit |α| = r ist 0 ≤ αm+1 ≤ r und schreiben wir α = (β, k) 23-12 Mathematik für Physiker II, SS 2015 Freitag 10.7 so sind damit 0 ≤ k ≤ r und |β| = r − k. Mit der binomischen Formel I.§1.Lemma 7 und der Induktionsannahme folgt damit r r r X 1 X X 1 X 1 mr−k 1X r (m + 1)r = = = mr−k = . α! k=0 k! α∈Nm α! k=0 k!(r − k)! r! k=0 k r! m+1 α∈N |α|=r |α|=r−k Per vollständiger Induktion ist diese Behauptung damit bewiesen. In der Situation der Taylorformel erhalten wir für h ∈ B r (0) ein ξ ∈ (0, 1) mit τ (h) = X |α|=p+1 1 ∂ p+1 f (a + ξh)hα α! ∂xα und wegen a + ξh ∈ B r (a) ist damit X 1 ∂ p+1 f X 1 Anp+1 · |hα | ≤ A||h||p+1 |τ (h)| ≤ (a + ξh) = ||h||p+1 ∞ ∞ . α α! ∂x α! (p + 1)! |α|=p+1 |α|=p+1 Setzen wir also p+1 ∂ f np+1 (x) , max sup C := α (p + 1)! |α|=p+1 x∈B r (a) ∂x so ist |τ (h)| ≤ C||h||p+1 für alle h ∈ B r (0). Verwenden wir das in §1.1 eingeführte ∞ Landau Symbol, so schreibt sich die Taylorformel damit als f (x) = X 1 ∂ |α| f (a) · (x − a)α + O(||x − a||p+1 · ∞ ). α! ∂xα |α|≤p 9.3 Lokale Extrema Seien wieder U ⊆ Rn eine offene Menge und f : U → R eine dreimal stetig differenzierbare Funktion. In §8.Satz 12 hatten wir gesehen, dass jedes lokale Extremum a ∈ U von f auch ein kritischer Punkt von f ist, das also grad f (a) = 0 gilt. Ausgerüstet mit der Taylorentwicklung des Satz 4 können wir nun auch die Frage untersuchen, wann ein kritischer Punkt umgekehrt ein lokales Extremum ist. Sei also a ∈ U ein kritischer Punkt von f . Das quadratische Taylorpolynom von f mit Entwicklungspunkt a hat dann wegen ∂f /∂xi (a) = 0 für i = 1, . . . , n die Form X 1 ∂2 (a)(x − a)α T2 (x) = f (a) + α α! ∂x |α|=2 n X = f (a) + i=1 X ∂2f 1 ∂2f 2 (a)(x − a ) + (a)(xi − ai )(xj − aj ) i i 2 ∂x2i ∂xi ∂xj 1≤i<j≤n = f (a) + 23-13 1 X ∂2f (a)(x − ai )(x − aj ). 2 1≤i,j≤n ∂xi ∂xj Mathematik für Physiker II, SS 2015 Freitag 10.7 Dies ist nun eine quadratische Funktion im Sinne des §6.3, und kann daher in Matrixform als 1 T2 (x) = f (a) + (H(x − a)) · (x − a) 2 geschrieben werden, wobei H die aus den zweiten partiellen Ableitungen gebildete n × n Matrix ist. Die Matrix H wird dann auch als die Hesse Matrix von f im Punkt a bezeichnet: Definition 9.3 (Die Hesse-Matrix) Seien U ⊆ Rn offen, f : U → R eine zweifach differenzierbare Funktion und a ∈ U . Die Hesse Matrix H von f in a ist dann die Matrix ∂2f ∂2f (a) (a) · · · 2 ∂x1 ∂xn ∂x1. .. . . . . H= . . . 2 2 ∂ f ∂ f (a) · · · (a) ∂xn ∂x1 ∂x2 n Nach Satz 2 ist die Hesse Matrix H symmetrisch, tatsächlich wurde Satz 2 bewiesen indem die Symmetrie von H nachgewiesen wurde. Kommen wir zu unserem kritischen Punkt a ∈ U zurück. Nahe bei a haben wir dann 1 f (x) = f (a) + (H(x − a)) · (x − a) + τ, 2 wobei wir den Approximationsfehler τ ausreichend nahe bei a erst einmal ignorieren werden. Als symmetrische Matrix hat die Hesse Matrix H nach §6.Satz 7 nur reelle Eigenwerte λ1 , . . . , λn und bezüglich eines geeigneten Koordinatensystems können wir nach dem Satz §6.Korollar 11 über die Hauptachsentransformation auch n X f (x) = f (a) + λi (xi − ai )2 + τ i=1 schreiben. An dieser Darstellung ist direkt ersichtlich ob in a ein lokales Extremum vorliegt. 0 18 16 14 –0.5 12 8 6 10 4 8 –1 2 6 0 –2 4 –1.5 –4 2 –6 –3 –8 0 –2 3 –2 –1 2 x 0 1 0 2 –3 –2 –1 1 0 y x2 + y 2 2 3 0 x 1 –1 –2 2 –2 –1 y 0 y 1 0.5 x2 − y 2 23-14 –0.5 0 x –3 3 −x2 − y 2 –1 Mathematik für Physiker II, SS 2015 Freitag 10.7 Sind alle Eigenwerte λ1 , . . . , λn > 0, so sieht T2 im wesentlichen wie ein nach oben geöffnetes Paraboloid aus, und wir haben ein lokales Minimum. Im Fall λ1 , . . . , λn < 0 haben wir entsprechend ein nach unten geöffnetes Paraboloid und ein lokales Maximum. Gibt es Eigenwerte λi > 0, λj < 0, so hat f wie die Sattelfläche in der Mitte in a überhaupt kein lokales Extremum. Nach §6.Satz 12 bedeutet λ1 , . . . , λn > 0 genau das die Hesse Matrix H positiv definit ist, der Fall λ1 , . . . , λn < 0 bedeutet das H negativ definit ist und bei Eigenwerten mit verschiedenen Vorzeichen ist H indefinit. Dies führt auf den gleich folgenden Satz über lokale Extrema. In unserer bisherigen Argumentation haben wir die quadratische Taylorentwicklung verwendet und mussten dafür dreifache stetige Differenzierbarkeit voraussetzen. Tatsächlich gilt der Satz auch wenn die Funktion nur als zweifach stetig differenzierbar vorausgesetzt wird, wir müssen unseren Beweis aber ein klein wenig abändern. Zunächst benötigen wir eine kleine Vorbemerkung über positiv definite Matrizen. Wir betrachten die Menge S := {A ∈ Rn×n |At = A} aller symmetrischen n × n-Matrizen über R als Untervektorraum des Rn×n . Wir behaupten das die Menge P+ aller positiv definiten n × n-Matrizen über R eine offene Teilmenge von S ist. Die Stetigkeit der Determinante ergibt, dass die Menge a11 · · · a1k a · · · a 11 1n .. . . . . . . . . .. > 0 Pk := . . .. : .. a ak1 · · · akk n1 · · · ann für jedes 1 ≤ k ≤ n offen in S ist, und nach §4.Lemma 17.(g) und §6.Satz 14 ist damit auch n \ Pk P+ := k=1 offen in S. Weiter ist damit auch die Menge P− := {A ∈ S|A ist negativ definit} = {A ∈ S| − A ∈ P+ } aller negativ definiten Matrizen offen in S. Damit kommen wir zu unserem Satz über lokale Extrema einer zweifach stetig differenzierbaren Funktion. Satz 9.5 (Kriterium für lokale Extrema) Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen, f : U → R eine zweifach stetig differenzierbare Funktion und a ∈ U ein kritischer Punkt von f , also grad f (a) = 0. Sei H die Hesse Matrix von f in a. (a) Ist H positiv definit, so hat f in a ein lokales Minimum. (b) Ist H negativ definit, so hat f in a ein lokales Maximum. 23-15 Mathematik für Physiker II, SS 2015 Freitag 10.7 (c) Ist H indefinit, so hat f in a kein lokales Extremum. Beweis: Wähle einen Radius r > 0 mit B r (0) ⊆ R. Da wir voraussetzen das die zweiten partiellen Ableitungen von f stetig sind, ist auch die Hesse-Matrix H : U → Rn×n als Funktion von x ∈ U eine stetige Funktion. (a) Da die Menge der positiv definiten Matrizen offen in der Menge aller symmetrischen Matrizen ist gibt es ein δ > 0 mit δ ≤ r so, dass für jedes x ∈ U mit ||x − a|| < δ auch die Hesse-Matrix H(x) positiv definit ist. Sei jetzt h ∈ Rn mit 0 < ||h|| < δ gegeben. Nach Satz 4 gibt es ein ξ ∈ (0, 1) mit f (a + h) = f (a) + (H(a + ξh)h) · h, und wegen ||a + ξh − a|| = ξ||h|| < δ ist H(a + ξh) positiv definit und somit f (a + h) = f (a) + (H(a + ξh)h) · h > f (a). Also ist f (x) > f (a) für alle a 6= x ∈ Bδ (a) und somit hat f in a ein lokales Minimum. (b) Analog zu (a). (c) Es gibt Vektoren u1 , u2 ∈ Rn mit ||u1 || = ||u2 || = 1, (Hu1 ) · u1 > 0 und (Hu2 ) · u2 < 0. Sei i ∈ {1, 2}. Da die Abbildung A 7→ (Aui ) · ui stetig ist, gibt es ein δi > 0 mit δi ≤ r so, dass |(H(x)ui ) · ui − (Hui ) · ui | < |(Hui ) · ui | für alle x ∈ Bδ (a) ist und dann ist auch sign((H(x)ui ) · ui ) = sign((Hui ) · ui ) für alle x ∈ Bδ (a). Setze δ := min{δ1 , δ2 } > 0. Sei t ∈ (0, δ). Sei i ∈ {1, 2}. Dann ist ||tui || = t < δ ≤ r, also existiert nach Satz 4 ein ξ ∈ (0, 1) mit f (a + tui ) = f (a) + t2 (H(a + ξtui )ui ) · ui und wegen ||ξtui || = ξt ≤ t < δi ist sign((H(a + ξtui )ui ) · ui ) = sign((Hui ) · ui ). Dies zeigt f (a+tu1 ) > f (a) und f (a+tu2 ) < f (a). Damit hat f in a kein lokales Extremum. Beachte das die Fallunterscheidung im Satz nicht vollständig ist, es gibt symmetrische Matrizen H, die weder positiv definit, negativ definit noch indefinit sind. Dies passiert wenn H den Eigenwert 0 hat, also nicht invertierbar ist. In dieser Situation sagt der Satz nichts aus, und man muss sich den jeweils vorliegenden Spezialfall anschauen. Wir rechnen jetzt einige Beispiele. Zunächst sei f die schon mehrfach betrachtete Funktion f (x, y) = x2 y + y 2 − 2y − xy. Alle relevanten Ableitungen hatten wir bereits früher ausgerechnet ∂f ∂f ∂2f ∂2f ∂2f = 2xy − y, = x2 − x + 2y − 2, 2 = 2y, = 2x − 1, 2 = 2. ∂x ∂y ∂x ∂x∂y ∂y Wir hatten auch bereits alle kritischen Punkte von f berechnet, und genau drei solche gefunden. Gehen wir diese drei kritischen Punkte einmal durch: 23-16 Mathematik für Physiker II, SS 2015 Freitag 10.7 1. Der Punkt (x, y) = (1/2, 9/8). Die Hesse Matrix in diesem Punkt ist ∂2f 1 9 ! ∂2f 1 9 9 , , 0 2 ∂x 2 8 ∂x∂y 2 8 4 = . H= ∂2f ∂2f 1 9 1 9 0 2 , , ∂x∂y 2 8 ∂y 2 2 8 Diese Matrix ist positiv definit, wir haben also ein lokales Minimum. 2. Der Punkt (x, y) = (−1, 0). Diesmal wird die Hesse Matrix zu 0 −2 H= . −2 2 Da der Eintrag links oben Null ist, ist H weder positiv noch negativ definit. Um zu entscheiden ob H indefinit ist, berechnen wir die Eigenwerte von H √ √ χH (x) = x2 − 2x − 4 =⇒ λ = 1 ± 1 + 4 = 1 ± 5. √ √ Wegen 1 − 5 < 0, 1 + 5 > 0 ist die Hesse Matrix H indefinit, und in (x, y) = (−1, 0) ist kein lokales Extremum. 3. Der letzte kritische Punkt ist (x, y) = (2, 0). Diesmal gilt 0 3 H= . 3 2 Wir rechnen wieder √ √ χH (x) = x2 − 2x − 9 =⇒ λ = 1 ± 1 + 9 = 1 ± 10 √ √ und wegen 1 − 10 < 0, 1 + 10 > 0 haben wir wieder kein lokales Extremum. Wir wollen noch ein allerletztes Beispiel rechnen, nämlich die ebenfalls schon in §8 behandelte Funktion f (x, y, z) = x2 + 4y 2 − 2xyz + sin(πz). Die relevanten partiellen Ableitungen sind ∂f ∂x ∂2f ∂x2 ∂2f ∂y 2 = 2x − 2yz, = 2, = 8, ∂f ∂y ∂2f ∂x∂y ∂2f ∂y∂z = 8y − 2xz, = −2z, = −2x, ∂f ∂z ∂2f ∂x∂z ∂2f ∂z 2 = −2xy + π cos(πz), = −2y, = −π 2 sin(πz). In einem Beispiel in §8 hatten wir bereits ausgerechnet, dass es nur einen kritischen Punkt (x, y, z) mit y 6= 0 gibt, nämlich √ 1√ (x, y, z) = π, π, 2 . 2 23-17 Mathematik für Physiker II, SS 2015 Freitag 10.7 Die Hesse Matrix von f in diesem kritischen Punkt ist √ 2 −4 −√π −4 H= √ √ 8 −2 π . − π −2 π 0 Wegen 2 −4 =0 −4 8 ist H nach dem Determinanten Kriterium §6.Satz 14 nicht positiv definit. Die Matrix H kann auch nicht negativ definit sein, und wegen √ 2 −4 −√π −4 8 −2 π det H = √ − π −2√π 0 2 −4 1 2 −4 1 = π −8 16 0 = π −4 8 2 1 1 2 0 2 0 −8 16 = −32π = π 1 2 ist H invertierbar. Damit ist H indefinit und es liegt kein lokales Extremum vor. Die kritischen Punkte (x, 0, z) sind durch die Gleichungen 2x = 0, −2xz = 0 und π cos(πz) = 0 gegeben, also (x, y, z) = Wegen mit n ∈ Z. π = (−1)n 2 2 wird die Hesse Matrix in diesem kritischen Punkt zu 2 −(2n + 1) 0 . 8 0 H = −(2n + 1) n+1 2 0 0 (−1) π sin π 1 0, 0, + n 2 + nπ = (−1)n sin Dabei gilt 2 −(2n + 1) −(2n + 1) 8 = 16 − (2n + 1)2 = −4 n2 + n − 15 . 4 Die Nullstellen von x2 + x − 15/4 sind r 1 1 15 1 5 3 − + + = − ± 2 also x = − und x = . 2 4 4 2 2 2 23-18 Mathematik für Physiker II, SS 2015 Freitag 10.7 Die Matrix H ist damit invertierbar und somit positiv definit oder indefinit. Weiter ist nach dem Determinanten Kriterium §6.Satz 14 15 < 0 und (−1)n+1 π > 0 4 ⇐⇒ n ∈ {−2, −1, 0, 1} und n ungerade ⇐⇒ n = ±1. H ist positiv definit ⇐⇒ n2 + n − In den kritischen Punkten (x, y, z) = 1 0, 0, − 2 und (x, y, z) = 3 0, 0, 2 hat f also ein lokales Minimum und in den anderen kritischen Punkten liegt kein lokales Extremum vor. 23-19