VII.1. Taylorentwicklung 143 VII. Taylorreihen In diesem Kapitel werden wir eine Methode kennenlernen, differenzierbare Funktionen lokal durch Polynome zu approximieren. Im gleichen Sinne wie die Differenzierbarkeit einer Funktion es erlaubt, sie lokal durch eine affine Funktion anzunähern, werden wir sehen, dass die n -malige Differenzierbarkeit die lokale Approximierbarkeit durch Polynome n -ten Grades liefert. Die Methoden dieses Abschnitts sind eine zentrale Grundlage für viele Anwendungen der Analysis, da sie es erlauben, mit Näherungen zu rechnen, wenn die exakten Formeln zu kompliziert werden. In diesem Abschnitt steht D immer für ein Intervall in R , das mindestens zwei Punkte enthält. VII.1. Taylorentwicklung Um die Grundidee der Taylorentwicklung zu verstehen, betrachten wir zunächst Pn eine Polynomfunktion f (x) = k=0 ak (x − p)k auf R . Durch m -faches Ableiten erhalten wir f [m] (x) = = n X ak · k(k − 1)(k − 2) · · · (k − m + 1) · (x − p)k−m k=0 n X k=m k ak m! · (x − p)k−m . m Insbesondere ist f [m] (p) = am · m! . Daher ist (1.1) f (x) = n X f [k] (p) k=0 k! (x − p)k . Diese Formel zeigt insbesondere, dass jedes Polynom vom Grade ≤ n eindeutig durch seine Ableitungen bis zur Ordnung n im Punkte p bestimmt ist. Pn Beachte: Dass wir das Polynom f direkt in der Gestalt f (x) = k=0 ak (x−p)k geschrieben haben, stellt keine Einschränkung der Allgemeinheit dar. Denn ist 144 VII. Taylorreihen zunächst f (x) = f (x) = Pn k k=0 bk x , n X so erhalten wir bk (x − p) + p k = k=0 = 31. Oktober 2007 n X k=0 n X n X j=0 k=0 bk k X k j j=0 (x − p)j · pk−j ! k k−j bk p (x − p)j . j Jedes Polynom in x lässt sich also auch als Polynom in x − p schreiben. In diesem Abschnitt werden wir uns mit dem Problem beschäftigen, zu einer n -mal differenzierbaren Funktion f : D → R ein Polynom vom Grade n zu finden, das sich in einem Punkt p ∈ D möglichst gut an f anschmiegt. Die Formel (1.1) zeigt uns, wie wir das zu tun haben. Definition VII.1.1. Sei f : D → R eine n -mal differenzierbare Funktion und p ∈ D . Dann heißt Tpn (f )(t) := n X f [k] (p) k! k=0 tk das n-te Taylorpolynom von f bei p. Ist f in einer Umgebung von p beliebig oft differenzierbar, so heißt die Potenzreihe Tp∞ (f )(t) := ∞ X f [k] (p) k=0 k! tk die Taylorreihe von f bei p. Bemerkung VII.1.2. Das n -te Taylorpolynom Tpn (f ) ist das eindeutig bestimmte Polynom vom Grad ≤ n mit Tpn (f )[k] (0) = f [k] (p) für k = 0, . . . , n. Dies bedeutet, dass die Ableitungen bis zur Ordnung n des Restgliedes rn (x) := f (x) − Tpn (f )(x − p) in p verschwinden. Für n = 1 ist Tp1 (f )(x − p) = f (p) + (x − p) · f 0 (p) diejenige affine Funktion, die sich in p am besten an f in dem Sinne anschmiegt, dass sie in p den gleichen Wert und die gleichen Ableitungen bis zur Ordnung n besitzt. 145 VII.1. Taylorentwicklung rn (x) := f (x) − Tpn (f )(x − p) heißt das n-te Restglied Definition VII.1.3. [k] von f bei p. Beachte, dass für k = 0, . . . , n die Beziehung rn (p) = 0 gilt. Satz von Taylor—Taylorformel Satz VII.1.4. Seien n ∈ N0 und f eine (n + 1) -mal stetig differenzierbare Funktion f : D → R sowie p, x ∈ D . Dann gilt f (x) = Tpn (f )(x − p) + rn (x) 1 rn (x) = n! mit Z x (x − t)n · f [n+1] (t) dt. p Beweis. Es ist nur die Integraldarstellung des Restglieds rn (x) zu beweisen. [n+1] [k] [n+1] Zunächst ist rn (p) = 0 für k = 0, . . . , n , und wegen Tpn ≡ 0 ist rn = [n+1] f . Wir berechnen das Integral durch partielle Integration: Z x n [n+1] (x − t) f Z (t) dt = p x (x − t)n rn[n+1] (t) dt p h n = (x − t) · ix rn[n] (t) Z + p x n(x − t)n−1 rn[n] (t) dt. p [n] Ist n > 0 , so ist (x − x)n = 0 und rn (p) = 0 , also Z x (x − t)n rn[n+1] (t) dt p Induktiv erhalten wir: Z x Z n [n+1] (x − t) · rn (t) dt = n! Bemerkung VII.1.5. (x − t)n−1 rn[n] (t) dt. =n p p x Z x rn0 (t) dt = n! rn (x) − rn (p) = n!rn (x). p Für n = 0 liefert der Taylorsche Satz VII.1.4 Z f (x) = f (p) + x f 0 (t) dt, p was wir schon aus dem Hauptsatz der Differential- und Integralrechnung kennen. Die einfachste Darstellung des Restglieds ist die folgende. Sie ist für viele Abschätzungen sehr wichtig. 146 VII. Taylorreihen 31. Oktober 2007 Restglieddarstellung nach Lagrange Satz VII.1.6. Mit den Bezeichnungen und Voraussetzungen aus VII.1.4 existiert ein ξ zwischen x und p mit (x − p)n+1 [n+1] rn (x) = f (ξ). (n + 1)! Beweis. Sei zunächst p ≤ x. Nach dem Mittelwertsatz der Integralrechnung VI.1.14 existiert ein ξ ∈ [p, x] mit 1 rn (x) = n! x Z n p (x − t) f | {z } [n+1] (t) dt = f [n+1] 1 (ξ) · n! Z x (x − t)n dt p ≥0 = f [n+1] (ξ) · (x − p)n+1 . (n + 1)! Für x < p ist (t − x)n ≥ 0 und somit der Mittelwertsatz der Integralrechnung auch anwendbar. Beachte: Das Lagrange-Restglied hat dieselbe Gestalt wie alle anderen Glieder des Taylorpolynoms, nur dass f [n+1] nicht an p sondern in ξ ausgewertet wird. Bemerkung VII.1.7. Unter den Voraussetzungen von Satz VII.1.4 folgt direkt aus Satz VII.1.6 wegen der Stetigkeit von f [n+1] in p : rn (x) f [n+1] (p) = . x→p (x − p)n+1 (n + 1)! lim Die Abbildung rn (x) , falls x 6= p (x − p)n+1 ψ(x) := f [n+1] (p) , falls x = p (n + 1)! ist also stetig und es gilt f (x) = Tpn (f )(x − p) + (x − p)n+1 ψ(x). Beachte, dass dies für n = 1 analog zur Definition der Differenzierbarkeit ist (vgl. Lemma V.1.5). Der folgende Satz ist eine Verschärfung der Restglieddarstellung von Lagrange, denn hier wird f [n+1] nicht als stetig vorausgesetzt und θx liegt im offenen Intervall ] 0, 1 [. 147 VII.1. Taylorentwicklung Satz VII.1.8. (Verschärfte Restglieddarstellung von Lagrange) Die Funktion f sei im Intervall [p, p + x] mindestens (n + 1) -mal differenzierbar. Dann existiert ein θx ∈ ] 0, 1 [ mit f (p + x) = Tpn (f )(x) + Beweis. f [n+1] (p + θx · x) n+1 x . (n + 1)! Wir wenden den allgemeinen Mittelwertsatz (Satz V.3.1) mit r(x) = f (p + x) − Tpn (f )(x) und g(x) = xn+1 an. Wir erhalten hiermit induktiv r(x) r0 (θ1 x) r00 (θ1 θ2 x) = = xn+1 (n + 1)(θ1 x)n (n + 1)n(θ1 θ2 x)n−1 = ... = r[n+1] (θ1 . . . θn+1 x) f [n+1] (p + θx · x) = (n + 1)! (n + 1)! mit θx := θ1 · · · θn+1 ∈ ] 0, 1 [. Beispiel VII.1.9. Die Taylorentwicklung kann man insbesondere zur effizienten Berechnung von Grenzwerten verwenden. Wir diskutieren hierzu ein Beispiel. x Gesucht sei limx→0 1−cos . x2 Setze f (x) := 1 − cos x. Dann ist f (0) = 0 = f 0 (0) und f 00 (0) = cos 0 = 1 . Es folgt f (x) = 1 − cos x = 12 x2 + x3 · ψ(x) mit einer stetigen Funktion ψ (Folgerung VII.1.7). Also ist lim x→0 1 f (x) 1 1 = + lim xψ(x) = + 0 · ψ(0) = 2 x→0 x 2 2 2 Das Konvergenzverhalten von Taylorreihen ist in der Regel sehr schlecht. Ist f in einer Umgebung von p beliebig oft differenzierbar, so muß die Taylorreihe Tp∞ f (x − p) = ∞ X f [k] (p) k=0 k! (x − p)k trotzdem nicht konvergieren. Und wenn sie konvergiert, so muß sie nicht gegen f (x) konvergieren! Man betrachte hierzu die Taylorreihe T0∞ (f ) der Funktion f ∈ C ∞ (R) aus Bemerkung V.2.10. In diesem Fall verschwindet die Taylorreihe, aber trotzdem ist f (x) > 0 für alle x > 0 . Der folgende Satz von Borel zeigt sogar, dass jede Folge als Koeffizientenfolge einer Taylorreihe auftreten kann. Satz von Borel: Für jede Folge reeller Zahlen (an )n∈N existiert eine Funktion f ∈ C ∞ (R) mit f [n] (0) = n!an für alle n ∈ N . Für den Beweis verweisen wir auf Satz 4.5 in Th. Bröcker’s Analysis I“. ” Der folgende Satz zeigt wenigstens, dass Funktionen, die durch konvergente Potenzreihen dargestellt werden, mit ihrer Taylorreihe übereinstimmen. 148 VII. Taylorreihen 31. Oktober 2007 Satz VII.1.10. Ist f in einer Umgebung von p durch eine konvergente Potenzreihe dargestellt, so stimmt diese mit der Taylorreihe von f in p überein. P∞ Beweis. Ist f (x) = k=0 ak (x − p)k für |x − p| < r , so ist gemäß Satz VI.3.5: f [n] (x) = ∞ X ak · k · (k − 1) · · · (k − n + 1) · (x − p)k−n , k=n also f [n] (p) = n! an und somit an = Satz VII.1.11. f [n] (p) n! . Sei f auf D beliebig oft differenzierbar und M > 0 mit supx∈D |f [n] (x)| ≤ M für alle n ∈ N. Dann gilt f (x) = Tp∞ (f )(x − p) für alle x ∈ D , d.h., die Funktion f wird durch ihre Taylorreihe dargestellt. Beweis. Mit Satz VII.1.6 erhalten wir |rn (x)| = da e|x−p| = P∞ 1 n=0 n! |x |x − p|n+1 |x − p|n+1 n+1 f (ξ) ≤ M · → 0, (n + 1)! (n + 1)! − p|n konvergiert. Also gilt f (x) = lim Tpn (f )(x − p) = Tp∞ (f )(x − p). n→∞ Beispiel VII.1.12. (1) Für f (x) = cos(x) gilt f [4n] (x) = cos x, f [4n+1] (x) = − sin x und f [4n+2] (x) = − cos x und f [4n+3] (x) = sin x. Die Voraussetzungen von Satz VII.1.11 sind also erfüllt, und wir haben für alle x ∈ R: cos x = T0∞ (cos)(x) ∞ ∞ ∞ X cos[n] (0) n X cos[2n] (0) 2n X (−1)n 2n = x = x = x . n! 2n! (2n)! n=0 n=0 n=0 (2) Analog deutet man die Reihenentwicklung der Sinusfunktion: ∞ X (−1)n 2n+1 sin x = x . (2n + 1)! n=0 Satz VII.1.13. α (Die binomische Reihe) Für |x| < 1 und α ∈ R gilt (1 + x) = ∞ X α k=0 k k x mit α α(α − 1) · · · (α − k + 1) = . k! k VII.1. Taylorentwicklung 149 α−k xa . Wegen x Beweis. Für ak := αk xk ist ak+1 = α−k k k+1 k+1 → |x| folgt die Konvergenz für |x| < 1 aus dem Quotientenkriterium. Wir setzen P∞der Reihe f (x) := k=0 αk xk für |x| < 1 . Dann ist f gliedweise differenzierbar (Satz VI.3.5), also gilt 0 (1 + x) · f (x) = (1 + x) ∞ X α k=1 ∞ X k k · xk−1 α(α − 1) · · · (α − k + 1) k−1 x (k − 1)! k=1 ∞ X α − 1 k−1 = α(1 + x) x k−1 k=1 ! ∞ ∞ X α−1 k X α−1 k =α x + x k k−1 k=0 k=1 ! ∞ X α−1 α−1 =α 1+ + xk k k−1 k=1 ! ∞ X α k =α 1+ x = α · f (x). k = (1 + x) k=1 Wir erhalten (1 + x) · f 0 (x) = α · f (x) . Weiter ist f (0) = 1 = (1 + 0)α . Für f (x) g(x) := (1+x) α gilt daher g(0) = 1 und f 0 (x)(1 + x)α − α(1 + x)α−1 f (x) g (0) = (1 + x)2α αf (x)(1 + x)α−1 − αf (x)(1 + x)α−1 = = 0. (1 + x)2α 0 Die differenzierbare Funktion g ist also auf dem Intervall D =]−1, 1[ konstant 1 . Daher gilt f (x) = (1 + x)α für |x| < 1 . Beachte: Ist α ∈ N0 , so ist (1 + x)α ein Polynom. Die Reihe bricht nach dem (α + 1) -ten Glied ab, da αk = 0 für k > α gilt. Spezialfälle sind: ∞ ∞ X 1 −1 n X −1 • = (1 + x) = x = (−1)n xn = 1 − x + x2 − x3 + . . . 1+x n n=0 n=0 ∞ ∞ X 1 −2 n X −2 • = (1 + x) = x = (−1)n (n + 1)xn (1 + x)2 n n=0 n=0 ∞ 1 X √ 2 xn = 1 + 1 x − 1 x2 + 1 · 3 x3 − 1 · 3 · 5 x4 ± . . ., • 1+x= n 2 2·4 2·4·6 2·4·6·8 n=0 150 VII. Taylorreihen denn 1 2 n 31. Oktober 2007 · ( 12 − 1) · · · ( 12 − n + 1) (n − 32 )(n − 25 ) · · · 23 · = (−1)n−1 n! n! 1 (2n − 3)(2n − 5) · · · 3 · 1 = (−1)n−1 n 2 n! (2n − 3)(2n − 5) · · · 3 · 1 = (−1)n−1 (2n)(2n − 2)(2n − 4) · · · 2 = 1 2 1 2 · 1 2 Man erhält aus der obigen Diskussion eine brauchbare Näherungsformel für die Wurzelfunktion: √ 1+x≈1+ x 2 für ” kleine“ x. Insbesondere in der Speziellen Relativitätstheorie werden oft Näherungen des Typs 1 v2 v 2 − 21 ≈1+ 1− 2 c 2 c2 verwendet. Beispiel VII.1.14. Für die Funktion arcsin : [−1, 1] → [− π2 , π2 ] erhalten wir für |x| < 1 : ∞ 1 ∞ X X −2 n − 21 2n 1 2 − 12 n 2n arcsin (x) = √ = (−1) x = x . = (1 − x ) n n 1 − x2 n=0 n=0 0 Wegen arcsin(0) = 0 erhalten wir aus Satz VI.3.2 damit die Entwicklung arcsin x = ∞ X n− 1 2 n=0 n 1 x2n+1 . 2n + 1 Und wegen n− n 1 2 (n − 21 )(n − 32 ) · · · 12 1 1 (2n − 1)(2n − 3) · · · 3 · 1 = = 2n + 1 n(n − 1) · · · 2 · 1 2n + 1 (2n + 1)(2n)(2n − 2) · · · 4 · 2 ist arcsin x = x + 1 3 1·3 5 1·3·5 7 x + x + x + ··· . 2·3 2·4·5 2·4·6·7 151 VII.2. Rechnen mit Taylorreihen VII.2. Rechnen mit Taylorreihen Für eine Funktion f : D → R mit 0 ∈ D , die im Nullpunkt mindestens n -mal differenzierbar ist, setzen wir T n (f ) := T0n (f ) (das n -te Taylorpolynom in 0 ). Ist f beliebig oft differenzierbar, so setzen wir T (f ) := T0∞ (f ) . Die allgemeine Produktregel/Leibnizformel Satz VII.2.1. R , so gilt Sind f und g beide n -mal differenzierbare Funktionen auf D ⊆ [n] (f · g) = n X n k=0 Beweis. k f [k] · g [n−k] . Übung. Satz VII.2.2. Sind f und g im Nullpunkt mindestens n -mal differenzierbar, so gelten (1) T n (f + g) = T n (f ) + T n (g) und (2) T n (f · g) = T n T n (f ) · T n (g) . Beweis. (1) Dies folgt sofort aus (f +g)[k] (0) = f [k] (0)+g [k] (0) für 0 ≤ k ≤ n . (2) Es gilt T n (f )(x) T n (g)(x) n n X f [k] (0) k X g [l] (0) l = x x k! l! k=0 = l=0 X f [k] (0) g [l] (0) xk+l + k! l! k+l≤n n X 1 = m! m=0 m X m k=0 k 2n X ... m=n+1 | {z } Terme höherer Ordnung ! f [k] (0) · g [m−k] (0) · xm + 2n X ... m=n+1 | {z } Terme höherer Ordnung Mit der allgemeinen Produktregel (Satz VII.2.1) erhalten wir also T n n X 1 T (f ) · T (g) (x) = (f · g)[m] (0) · xm = T n (f · g)(x). m! m=0 n n Anschaulich bedeutet Teil (2) des vorigen Satzes, dass man das Taylorpolynom von f · g erhält, indem man die Taylorpolynome T n (f ) und T n (g) 152 VII. Taylorreihen 31. Oktober 2007 multipliziertP und anschließend alle Terme der Ordnung ≥ n + 1 weglässt: Für Pn 1 [k] n 1 [k] f (p)xk und Tpn (g)(x) = k=0 k! g (p)xk ist Tpn (f )(x) = k=0 k! n X 1 Tpn (f · g)(x) = m! m=0 n X m X m=0 k=0 = m X m k=0 k ! f [k] (p) · g [m−k] (p) f [k] (p) g [m−k] (p) k! (m − k)! · xm ! · xm . Beispiel VII.2.3. (a) Gesucht ist die Taylorreihe von x 7→ log(1 + x) 1+x in p = 0 . Für |x| < 1 haben wir schon gesehen, dass log(1 + x) = ∞ X k=1 (−1)k xk k ∞ und X 1 = (−1)k xk (geometrische Reihe) 1+x k=0 gilt, wobei die Reihen absolut konvergieren. Wegen Satz VII.2.1 und der absoluten Konvergenz der Reihen, dürfen wir die Taylorreihe des Produktes mit der Cauchy-Produktformel berechnen und erhalten daher ! ! ∞ n ∞ n k+1 X X X X (−1) 1 log(1 + x) = (−1)n−k · xn = (−1)n+1 · xn . 1+x k k n=0 n=0 k=0 k=0 (b) Hat die Funktion f (x) := x(1 + x − cos x) ein Extremum am Nullpunkt? Hierzu berechnen wir das Taylorpolynom zweiter Ordnung von f . k P∞ 2k Für g(x) = 1 + x − cos x ist T0 (g)(x) = 1 + x − k=0 (−1) (2k)! x , also 2 T02 (g)(x) = x + x2 . Ferner ist T02 (h)(x) = x für h(x) = x. Durch Zusammensetzen erhält man T02 (f )(x) = T02 (g · h)(x) = T02 T02 (g) · T02 (h) (x) = x2 , 2 3 da (x + x2 )x = x2 + x2 . Man erkennt also, dass f (0) = 0 = f 0 (0) und f 00 (0) = 2 > 0 ist, so dass f im Nullpunkt ein isoliertes Minimum besitzt. Beispiel VII.2.4. (Methode der unbestimmten Koeffizienten) Genügt eine Funktion f einer Gleichung oder einer Differentialgleichung (dies ist eine Gleichung, Ableitungen von f vorkommen), so kann man f als PotenzreiP∞in der auch n he n=0 an x ansetzen und bestimmt hieraus die Koeffizienten an , soweit dies möglich ist. Danach bestimmt man den Konvergenzbereich der so erhaltenen Potenzreihe. (a) Gesucht ist die Taylorentwicklung des Tangens im Nullpunkt. Wir haben die Differentialgleichung tan0 = 1 + tan2 ; ferner wissen wir tan(0) = 0 . 153 VII.2. Rechnen mit Taylorreihen P∞ Wir machen nun den Ansatz f (x) = n=0 an xn mit f (0) = 0 und f 0 = 1 + f 2 . Aus f (0) = 0 erhalten wir a0 = 0. Durch gliedweises Ableiten erhalten wir weiter ∞ ∞ X X f 0 (x) = n · an · xn−1 = (n + 1)an+1 xn . n=1 n=0 Die rechte Seite der Differentialgleichung f 0 = 1 + f 2 liefert ! ∞ n X X 1 + f (x)2 = 1 + ak · an−k · xn . n=0 k=0 Falls f der Differentialgleichung genügt, müssen diese beiden Reihen übereinstimmen, weswegen wir einen Koeffizientenvergleich für die an anstellen können. Wir erhalten für n = 0 die Beziehung a1 = 1 + a20 = 1 und ferner eine Rekursionsgleichung für die Koeffizienten mit höherem Index: an+1 = n−1 1 X ak · an−k n+1 für n ≥ 1. k=1 Die sechs ersten Koeffizienten errechnen sich mit Hilfe dieser Rekursionsgleichung zu a0 = 0, a1 = 1, a2 = 12 (a0 a1 + a1 a0 ) = 0, a3 = 1 1 (a0 a2 + a21 + a2 a0 ) = , 3 3 1 2 (a1 a3 + a3 a1 ) = . 5 15 Wir stellen nun zwei Behauptungen auf. (1) Es gilt a2n = 0 für alle n ∈ N . Dies zeigt man durch Induktion: Wir wissen schon, dass a0 = 0 ist. Für n ≥ 0 ist 2n 1 X ak · a2n+1−k . a2n+2 = 2n + 2 a4 = 0, a5 = k=1 Ist in dieser Summe der Index k ungerade, so ist 2n+1−k gerade und umgekehrt. Damit ist die ganze Summe 0 , da nach der Induktionsannahme a2k = 0 für alle k = 0, . . . , n − 1 gilt. (2) Für alle n ∈ N gilt 0 ≤ an ≤ 1 . Aus der Rekursionsformel folgt sofort 0 ≤ an für alle n ; speziell ist 0 ≤ a0 ≤ 1 . Ist nun 0 ≤ ak ≤ 1 für k = 0, . . . , n , so folgt auch an+1 n−1 n−1 1 X 1 X n = ak an−k ≤ 1= ≤ 1. n+1 n+1 n+1 k=0 k=0 p Damit ist insbesondere auch lim n→∞ n |an | ≤ 1 und somit der Konvergenzradius der Reihe ≥ 1 . Wir erhalten also eine Funktion f : ] − 1, 1[ → R durch f (x) = 154 VII. Taylorreihen 31. Oktober 2007 P∞ an xn . Gemäß unserer Konstruktion ist f (0) = 0 und f 0 = 1 + f 2 ≥ 1 (Satz VI.3.2). Damit ist f streng monoton wachsend, also f : ] − 1, 1[ → f ( ]−1, 1[ ) umkehrbar mit differenzierbarer Umkehrfunktion f −1 : f ( ]−1, 1[ ) → ] − 1, 1[ , und es gilt k=0 0 f −1 (x) = 1 f 0 (f −1 (x)) = 1 1 = . 1 + f (f −1 (x))2 1 + x2 R x dt Wegen f −1 (0) = 0 ist damit f −1 (x) = 0 1+t 2 = arctan x und folglich f (x) = tan x für |x| < 1 . Wir haben also gesehen, dass sich die Tangensfunktion auf dem Intervall ] − 1, 1[ durch eine Potenzreihe tan x = ∞ X an xn n=1 darstellen lässt. Die Koeffizienten erhält man aus der obigen Rekursionsformel. (b) Wir betrachten die Funktion ex −1 x , f : R → R, x 7→ 1, falls x 6= 0 sonst. Für x 6= 0 ist also ∞ ∞ ∞ 1 X 1 n X 1 n−1 X xn ex − 1 = x = x = f (x) = x x n=1 n! n! (n + 1)! n=1 n=0 1 und ebense f (0) = 1! = 1 . Also ist f auf ganz R durch eien konvergente Potenzreihe darstellbar und daher beliebig oft differenzierbar (Satz VI.3.2). Für alle x ∈ R ist f (x) 6= 0 , und folglich ist 1 g(x) := = f (x) x ex −1 , 1, falls x 6= 0 sonst eine beliebig oft differenzierbare Funktion. Wir setzen nun für die Funktion g wie oben eine Potenzreihe an: T0 (g)(x) = ∞ X βn n x . n! n=0 Die Koeffizienten βn = g [n] (0) heißen Bernoulli-Zahlen. Die Gleichung g(x)f (x) = 1 liefert g(x)(ex −1) = x, also T0 (g)·T0 (ex −1) = x, das heißt n−1 X βk 1 1, n = 1 = 0, sonst. k! (n − k)! k=0 155 VII.2. Rechnen mit Taylorreihen Somit ergibt sich β0 = g(0) = 1 . Für n ≥ 2 erhält man aus der Summe eine Rekursionsgleichung für βn−1 : βn−1 = −(n − 1)! n−2 X k=0 1 βk . k! (n − k)! Damit können wir weitere Bernoulli-Zahlen berechnen: β0 1 1 1 1 1 1 1 1 β1 = − = − , β2 = −2! − = −2 − = − = 2 2 3! 2 · 2! 6 4 2 3 6 und β4 = −4! 1 1 1 − + 5! 2 · 4! 6 · 2! 3! =− 1 1 1 − + 5 2 3 =− 1 . 30 Für alle k ∈ N gilt β2k+1 = 0 : Hierzu betrachten wir die um β1 x modifizierte Funktion g . x · 1 + 21 (ex − 1) x 1 1 g(x) + 2 x = x + x= e −1 2 ex − 1 x x x x x e 2 (e 2 + e− 2 ) x cosh( x2 ) xe +1 = = . = x x x 2 ex − 1 2 e 2 (e 2 − e− 2 ) 2 sinh( x2 ) Hierbei sind die Funktionen sinh und cosh jeweils definiert durch cosh(x) = ex + e−x 2 und sinh(x) = ex − e−x . 2 Wir schließen hieraus, dass g(x) + 12 x eine gerade Funktion ist. Also gilt g [2k+1] (0) = β2k+1 = 0 Bemerkung VII.2.6. für alle k ∈ N0 . Es gilt ∞ X 22n (22n − 1) tan x = (−1)n+1 β2n x2n−1 (2n)! n=1 für |x| < π . 2 Die Bernoullizahlen liefern also auch die Entwicklung der Tangensfunktion (sogar für |x| < π2 ). Wir wenden uns nun einer Verallgemeinerung der Kettenregel zu. Die Kettenregel macht eine Aussage über die Ableitung einer Komposition von Funktionen: 0 g ◦ f = (g 0 ◦ f ) · f 0 Die Ableitung einer Funktion bekommt man aus ihrem Taylorpolynom erster Ordnung. Man kann die Kettenregel wie folgt mit Taylorpolynomen schreiben: Tp1 (g ◦ f ) = Tf1(p) (g) · Tp1 (f ). Diese Regel lässt sich verallgemeinern. 156 VII. Taylorreihen 31. Oktober 2007 Allgemeine Kettenregel Satz VII.2.7. Gegeben seien n -mal differenzierbare Funktionen f : D → B ⊆ R, g:B→R und ein Punkt p ∈ D mit f (p) = q . Dann gilt Tpn (g ◦ f ) = T0n Tqn (g) ◦ (Tpn (f ) − q) . Beweis. Ersetzen wir f durch x 7→ f (p + x) − q und g durch x 7→P g(x + q) , n so dürfen wir p = q = 0 annehmen. Für den Spezialfall, dass g(y) = `=0 a` y ` eine Polynomfunktion vom Grad ≤ n ist, liefert Satz VII.2.2(2) ! n n n X X X T0n (g ◦ f ) = a` · T0n (f ` ) = aj · T0n T0n (f )` = T0n a` · T0n (f )` = `=0 T0n g◦ T0n (f ) = `=0 T0n `=0 T0n (g) ◦ T0n (f ) , da g = T0n (g)) ist. Für eine allgemeine Funktion g setzen wir ge := g − T0n (g) . Dann ist T0n (g) eine Polynomfunktion vom Grad ≤ n , und wir erhalten T0n (g ◦ f ) = T0n T0n (g) ◦ f + T0n (e g ◦ f ) = T0n T0n (g) ◦ T0n (f ) + T0n (e g ◦ f ). Wir behaupten nun, dass T0n (e g ◦ f ) = 0 ist. Dies zeigen wir, indem wir durch Induktion nach k nachweisen, dass aus h[j] (0) = 0 für j = 0, 1, . . . , k ≤ n die Beziehung T0k (h ◦ f ) = 0 folgt. Diese Aussage können wir dann auf h = ge anwenden. (A) Für k = 0 ist T00 (h ◦ f )(0) = h(f (0)) = h(0) = 0 . (S) k → k + 1 : Für k < n haben wir h◦f [k+1] [k] [k] (0) = (h ◦ f )0 (0) = (h0 ◦ f ) · f 0 (0) k X [m] k = h0 ◦ f (0) ·f [k+1−m] (0), m {z } | m=0 =0 denn wir können die Induktionsvoraussetzung auf die Funktion h0 anwenden, deren Ableitungen bis zur Ordnung k in 0 verschwindet. Damit ist h◦f Die Induktion zeigt jetzt, dass h ◦ f T0n (h ◦ f ) = 0 . Wir haben also [k+1] [k] (0) = 0. (0) = 0 für alle k = 0, . . . , n gilt, folglich T0n (g ◦ f ) = T0n T0n (g) ◦ T0n (f ) gezeigt. 157 VII.2. Rechnen mit Taylorreihen Beispiel VII.2.8. Wie berechnet man die dritte Ableitung von g ◦ f ? Man [j] schreibt Tq3 (g)(y) = a0 + a1 y + a2 y 2 + a3 y 3 , wobei aj = g j!(q) ist, und Tp3 (f )(x) − q = b1 x + b2 x2 + b3 x3 mit bj = f [j] (p) . j! Die gerade bewiesene Aussage entspricht dann Tp3 (g ◦ f ) = T03 Tq3 (g) ◦ (Tp3 (f ) − q) . Den Term dritter Ordnung erhält man durch Einsetzen: a1 b3 + 2a2 b1 b2 + a3 b31 = (g ◦ f )000 (p) . 3! Die allgemeine Formel lautet: 3 (g ◦ f )000 (p) = g 0 (q)f 000 (p) + 3g 00 (q)f 0 (p)f 00 (p) + g 000 (q) f 0 (p) . 158 VIII. Uneigentliche Integrale 31. Oktober 2007 VIII. Uneigentliche Integrale In diesem Abschnitt werden wir die Integration verwenden, um die Konvergenz von Reihen zu untersuchen. Hierbei wird sich eine interessante Analogie zwischen unendlichen Reihen und den sogenannten uneigentlichen Integralen zeigen. Aus dieser Korrespondenz lassen sich sehr feine Resultate über das Konvergenzverhalten von Reihen gewinnen, da uns nun der Kalkül der Differentialrechnung zur Verfügung steht. Definition VIII.1. Sei a ∈ R und b ∈ ]a, ∞] . Weiter sei f : [a, b[ → R eine Funktion, sodass für alle x ∈ [a, b[ die Einschränkung f|[a,x] Riemann-integrabel ist. Falls er existiert, heißt der Grenzwert Z b Z x f (t)dt := lim f (t) dt x→b x<b a a Rx das uneigentliche Integral von f auf [a, b[ . Die Integrale F (x) := a f (t) dt heißen Partialintegrale (analog zu den Partialsummen von Reihen). Analog definiert man uneigentliche Integrale für a ∈ R ∪ {−∞}, wenn f auf allen Intervallen [x, b] , x ∈]a, b] Riemann-integrabel ist. Bemerkung VIII.2. Ist F : [a, b[ → R stetig differenzierbar, Rso ist nach dem x Hauptsatz der Differential- und Integralrechnung F (x)−F (a) = a F 0 (t) dt . Die Rb 0 Existenz des uneigentlichen Integrals a F (t) dt ist also äquivalent zur Existenz des Grenzwerts limx%b F (x) . Der folgende Satz zeigt, dass wir Reihen als eine spezielle Form von uneigentlichen Integralen ansehen dürfen. P∞ Satz VIII.3. Ist k=0 ak eine Reihe, so definieren wir f : [0, ∞[ → R, t 7→ ak für k ≤ t < k + 1. P∞ Reihe k=0 ak konvergiert genau dann, wenn das uneigentliche Integral RDie ∞ f (t) dt existiert. In diesem Fall sind beide Werte gleich. 0 Rx Beweis. Für F (x) := 0 f (t) dt und n ≤ x < n + 1 ist Z F (x) = n Z x f (t) dt + 0 f (t) dt = n n−1 X k=0 ak + (x − n) · an . 159 VIII. Uneigentliche Integrale Pn−1 ist F (n) = k=0 ak . Existiert nun das uneigentliche Integral RInsbesondere ∞ f (t) dt , so existiert auch 0 ∞ X k=0 Z ak = lim F (n) = n→∞ ∞ f (t) dt. 0 P∞ Konvergiert andererseits die Reihe k=0 ak , so ist für ausreichend große n ∈ N und x ∈ [n, n + 1[: ∞ ∞ ∞ X X X ak < ε. ak ≤ |an | + ak = (x − n)an − F (x) − k=0 k=n k=n Wegen obiger Bemerkung verwundert es nicht, dass sich einige Konvergenzsätze für Reihen auf uneigentliche Integrale übertragen lassen. Satz über die monotone Konvergenz Satz VIII.4. Ist f ≥ 0 und f | [a,x] ∈ Rax für alle x ∈ [a, b[, so existiert das Rb uneigentliche Integral a f (t) dt genau dann, wenn die Funktion F : [a, b[ → Rx R, x 7→ a f (t) dt beschränkt ist. Beweis. Wir setzen s := sup F ([a, b[) . Wir nehmen zuerst s < ∞ an. Da das Partialintegral F monoton wächst (beachte f ≥ 0 ) und für ein x ∈ [a, b[ die Beziehung F (x) > s − ε gilt, erhalten wir F (y) > s − ε für alle y ∈ [x, b[ . Also ist |s − F (y)| < ε für alle y ∈ [x, b[ . Hieraus folgt limx→b F (x) = s. Ist s = ∞, so folgt analog limx→b F (x) = ∞, d.h., das uneigentliche Rb Integral a f (t) dt existiert nicht. Majorantenkriterium Satz VIII.5. Ist 0 ≤ f ≤ g und existiert das uneigentliche Integral Rb so existiert auch a f (t) dt. Rx Rx Rb Beweis. Dies folgt wegen a f ≤ a g ≤ a g aus Satz VIII.4. Rb a g(t) dt , Sei a = 1 , b = ∞ und f (x) = x−α mit α > 0 . Dann ist Z x 1−x1−α −α α−1 , falls α 6= 1 F (x) = t dt = log x, falls α = 1. 1 R∞ Für α < 1 ist 1 − α > 0 und folglich limx→∞ x−α+1 = ∞, d.h. 1 t−α dt R∞ existiert nicht. Für α = 1 existiert 1 dt t ebenfalls nicht, da limx→∞ log x = ∞. Für α > 1 jedoch ist 1 − α < 0 und daher limx→∞ x−α+1 = 0 . In diesem Fall existiert das Integral, und es gilt für α > 1 : Z ∞ dt 1 = . α t α−1 1 Beispiel VIII.6. 160 VIII. Uneigentliche Integrale 31. Oktober 2007 Man beachte, dass diese Rechnung viel einfacher war als diejenige, die wir P∞ gemacht haben, um die Reihen n=1 n1α auf Konvergenz zu untersuchen. Man sieht also, dass der Kalkül der Differential- und Integralrechnung vieles einfacher macht. Wie man Ergebnisse über Reihen aus solchen für uneigentliche Integrale direkt gewinnen kann, zeigt der folgende Satz: Satz VIII.7. Sei f : [1, ∞[ → R eine nichtnegative monoton fallende Funktion. Dann ist die Folge (an )n∈N mit Z n+1 n X an := f (t) dt f (k) − 1 k=1 nicht negativ, monoton wachsend, und sie konvergiert mit 0 ≤ lim an ≤ f (1). n→∞ Insbesondere konvergiert das uneigentliche Integral P∞ die Reihe k=1 f (k) konvergiert. R∞ 1 f (t) dt genau dann, wenn Beweis. Da f monoton fallend ist, ist f | [1,x] für alle x ≥ 1 integrabel (vgl. Satz VI.1.10). Aus der Monotonie ergibt sich Z k+1 (7.1) f (k + 1) ≤ f (t) dt ≤ f (k). k Also ist insbesondere ak − ak−1 ≥ 0 und mit a0 = 0 sehen wir, dass die Folge (ak ) nichtnegativ und monoton wachsend ist. Weiter erhalten wir aus (7.1) durch Summation an ≤ n X k=1 f (k) − n+1 X f (k) = f (1) − f (n + 1) ≤ f (1). k=2 Aus dem Satz von der monotonen Konvergenz folgt nun, dass limn→∞ an existiert. Die Beziehung 0 ≤ lim an ≤ f (1) n→∞ folgt aus 0 ≤ an ≤ f (1) für alle n ∈ N , und der Rest der Behauptung direkt aus dem Bewiesenen und Satz VIII.4. Beispiel VIII.8. (a) Wir wenden Satz VIII.7 auf die Funktion f : x 7→ x−α an (α > 0 ). Dann existiert das Integral Z ∞ Z ∞ dt f (t) dt = tα 1 1 nach Beispiel VIII.6 genau dann, wenn α > 1 ist. Nach dem vorstehenden Satz ist dies genau dann der Fall, wenn die Reihe ∞ X k=1 ∞ X 1 f (k) = kα k=1 161 VIII. Uneigentliche Integrale konvergiert. Wir erhalten sogar die Abschätzung Z ∞ ∞ ∞ X dt X 1 1 1 − ≤ − ≤ f (1) = 1, 0≤ α α α k t k α−1 1 k=1 k=1 das heißt ∞ X 1 1 1 α ≤ ≤ +1= . α α−1 k α−1 α−1 k=1 Für α > 1 schreibt man ∞ X 1 . ζ(α) := kα k=1 Die Funktion ζ : ] 1, ∞ [ → R heißt Riemannsche Zetafunktion. Sie spielt in der Zahlentheorie, als Funktion im Komplexen, eine zentrale Rolle. 1 α Wegen ζ(α) ≥ 11α = 1 und α−1 ≤ ζ(α) ≤ α−1 ist lim ζ(α) = 1 α→∞ lim ζ(α) = ∞. und α→1 (b) Für α = 1 erhalten wir wie im Beweis von Satz VIII.7: Z n+1 log(n + 1) = 1 n n k=1 k=2 X1 dt X 1 ≤ ≤1+ ≤ 1 + log n. t k k Die nach Satz VIII.7 konvergente Folge an := n X 1 k ! − log n k=1 hat als Grenzwert die Euler-Mascheronische Konstante c := lim 1 + n→∞ 1 2 + ... + 1 n − log n = 0,5772 . . . , d.h., die harmonische Reihe wächst genauso wie log n . Wir übertragen jetzt noch einige Konvergenzkriterien für Reihen auf uneigentliche Integrale. Satz VIII.9. (Cauchykriterium) Sei F : D → R eine Funktion, b ∈ R∪{±∞}, und es gebe mindestens eine Folge (xn )n∈N in D , die gegen b konvergiert. Dann existiert limx→b F (x) genau dann, wenn gilt: (1) b 6= ±∞: (∀ε > 0)(∃δ > 0)(∀x, z ∈ Uδ (b) ∩ D) : |F (x) − F (z)| < ε. (2) b = ∞: (∀ε > 0)(∃N ∈ N)(∀x, z ∈ D, x, z > N ) : |F (x) − F (z)| ≤ ε . (3) b = −∞: (∀ε > 0)(∃N ∈ N)(∀x, z ∈ D, x, z < −N ) : |F (x) − F (z)| ≤ ε . Beweis. Sei zunächst b 6= ±∞. 162 VIII. Uneigentliche Integrale 31. Oktober 2007 Wir nehmen zuerst an, dass a := limx→b F (x) existiert. Dann existiert ein δ > 0 mit |F (x) − a| < 2ε und |F (z) − a| < 2ε für x, z ∈ D ∩ Uδ (b) . Damit ist |F (x) − F (z)| ≤ |F (x) − a| + |a − F (z)| ≤ ε ε + = ε. 2 2 Sei nun (1) erfüllt und (xn )n∈N eine Folge in D mit xn → b . Weiter sei ε > 0 und δ > 0 gemäß (1) gewählt. Wegen xn → b existiert ein Nδ ∈ N mit |xn − b| < δ für alle n > Nδ . Damit ist |F (xn ) − F (xm )| < ε für alle n, m > Nδ . Die Folge F (xn ) n∈N ist also eine Cauchyfolge und daher konvergent. Sei a := limn→∞ F (xn ) . Ist (yn )n∈N eine weitere Folge in D mit yn → b , so konvergiert auch die Folge (zn )n∈N := (x1 , y1 , x2 , y2 , x3 , y3 , . . .) gegen b . Also ist lim F (yn ) = lim F (zn ) = lim F (xn ) = a. n→∞ n→∞ n→∞ Der Grenzwert hängt also nicht von der gewählten Folge ab, d.h. limx→b F (x) = b. Die Fälle b = ±∞ behandelt man analog. Wir wollen das Cauchysche Konvergenzkriterium insbesondere auf uneigentliche Integrale anwenden, d.h., wir betrachten Z x F (x) = f (t) dt, x ∈ D = [a, b[. a Definition VIII.10. Das uneigentliche Integral Rb vergent, wenn das Integral a |f (t)| dt konvergiert. Rb a f (t) dt heißt absolut kon- Satz VIII.11. Ein absolut konvergentes uneigentliches Integral konvergiert. Rx Rx Beweis. Für x ≥ a sei F (x) := a f (x) dx und G(x) := a |f (x)| dx . Dann gilt für z ≤ x: Z z Z z |F (z) − F (x)| = f (t) dt ≤ |f (t)| dt = G(z) − G(x). x x Die Behauptung folgt nun, indem wir das Cauchysche Konvergenzkriterium VIII.9 verwenden, um die Existenz des Grenzwertes limx→b F (x) einzusehen. Folgerung VIII.12. Sei f : [a, ∞[ → R eine Funktion, die von höherer als erster Ordnung in ∞ verschwindet, d.h. es existieren α > 1 , ein c > a und ein K > 0, so dass für alle t ≥ c gilt |f (t)| ≤ tKα . Dann konvergiert das Integral R∞ f (t) dt absolut. Gilt dagegen f (t) ≥ Kt für ein K > 0 und alle t ≥ c, so a divergiert das Integral. Beweis. Ist f (t) ≥ Kt für t ≥ c ≥ a, so würden wir aus der Konvergenz des R∞ R∞ Integrals c f (t) dt nach dem Majorantenkriterium die Konvergenz von c dt t R∞ R∞ folgern können. Folglich ist das Integral c f (t) dt und damit auch a f (t) dt divergent. 163 VIII. Uneigentliche Integrale Gilt hingegenR |f (t)| ≤ tKα für α > 1 und alle t ≥ c, so folgt die Konver∞ genz des Integrals c |f (t)| dt aus dem Majorantenkriterium, Satz VIII.11 und Beispiel VIII.6, d.h., das Integral Z ∞ Z c Z ∞ f (t) dt = f (t) dt + f (t) dt a a c ist absolut konvergent. 1 1 Beispiel VIII.13. Wegen 1+x für x ≥ 1 konvergiert das Integral 2 ≤ x2 R ∞ dt R ∞ dt . Wir wissen schon, dass 0 1+t2 = limt→∞ arctan t = π2 ist. 0 1+t2 Natürlich betrachtet man auch Integrale, die an beiden Integralenden un” eigentlich“ sind. Allgemein definieren wir Z c Z b Z c Z ∞ Z 0 Z ∞ f, f+ f= f und f+ f := −∞ −∞ a a 0 b für a < b < c , wenn es sich an den Intervallenden a, c ∈ R ∪ {±∞} um uneigentliche Integrale handelt. Beispiel VIII.14. Integral (Die Gammafunktion) Für jedes t > 0 konvergiert das Z Γ(t) := ∞ xt−1 · e−x dx 0 (die Gamma-Funktion), wobei das Integral an beiden Intervallenden als uneigentliches Integral zu verstehen ist. Für alle x ≥ 0 ist xt−1 e−x ≤ xt−1 , und somit existiert das folgende uneigentliche Integral nach dem Majorantenkriterium Z 1 Z 1 t−1 −x x e dx = lim xt−1 e−x dx, y→0 0 denn es gilt Z 1 t−1 x 0 Z 1 dx = lim x→0 t−1 s x y st ds = lim x→0 t 1 = x 1 xt 1 − lim = . t x→0 t t Weiter gilt: x2 · (xt−1 e−x ) = xt+1 e−x −→ 0. x→∞ Nach den de l’Hospitalschen Regeln ist nämlich xt+1 xt = lim (t + 1) x→∞ ex x→∞ ex t−1 x = lim (t + 1) · t x = 0, falls t ∈]0, 1] ist, da xt−1 ≤ 1 x→∞ e xt−2 = lim (t + 1) · t · (t − 1) x = 0, falls t ∈]1, 2] ist, da xt−2 ≤ 1 x→∞ e ···. lim 164 VIII. Uneigentliche Integrale 31. Oktober 2007 Damit existiert also ein K >R 0 , so dass xt−1 · e−x ≤ xK2 für alle x ≥ 1 gilt, und ∞ daher existiert das Integral 1 xt−1 e−x dx nach dem Majorantenkriterium. Eigenschaften der Gammafunktion: Es gilt die Funktionalgleichung der Gammafunktion (∀t > 1) Γ(t) = (t − 1)Γ(t − 1). Dies beweisen wir mittels partieller Integration: Z ∞ Γ(t) = xt−1 e−x dx 0 = lim −y t−1 −y y→∞ e − lim y y→0 ∞ Z t−1 −y e (t − 1)xt−2 e−x dx + 0 = 0 + 0 + (t − 1)Γ(t − 1), da y t−1 → 0 wegen t > 1 gilt. Für natürliche Zahlen n ∈ N erhalten wir speziell: Z ∞ y Γ(1) = e−x dx = lim −e−x 0 = lim 1 − e−y = 1, y→∞ y→∞ 0 und für alle n ∈ N folgt aus der Funktionalgleichung Γ(n + 1) = n! Dies erhält man durch Induktion: Für n = 0 haben wir Γ(0 + 1) = 0! = 1 . Beim Induktionsschluss verwenden wir die Funktionalgleichung und rechnen Γ(n+1) = n · Γ(n) = n · (n − 1)! = n!. Beispiel VIII.15. (Fresnelsche Integrale) Durch Anwendung des Transforma√ tionssatzes mit t = ϕ(u) = u rechnet man Z ∞ Z 2 sin(t ) dt = lim x→∞ 0 0 x Z 1 sin(t ) dt = lim x→∞ 2 2 x2 0 1 sin u √ du = lim x→∞ 2 u Z 0 x sin u √ du u √ = ϕ0 (u) · du ). Wir fragen nach der Konvergenz dieses Integrals. (mittels 2du u Hierzu rufen wir uns zunächst in Erinnerung, dass für alle k ∈ N und alle u zwischen 2kπ und (2k + 1)π der Wert sin(u) ≥ 0 ist; zwischen (2k + 1)π und (2k + 2)π ist sin(u) ≤ 0 . Weiter ist Z (2k+2)π − (2k+1)π Z (2k+1)π sin u sin(u + π) √ du = − √ du u u+π 2kπ Z (2k+1)π Z (2k+1)π sin u sin u √ √ du. = du ≤ u u+π 2kπ 2kπ Analog erhält man Z (2k+1)π 2kπ sin u √ du ≤ − u Z 2kπ (2k−1)π sin u √ du. u 165 VIII. Uneigentliche Integrale R (n+1)π sin u √ du nichtnegativ, monoton fallend, Somit ist die Folge an := (−1)n nπ u und es gilt Z (n+1)π du 1 √ ≤√ |an | ≤ → 0. u nπ nπ Nach dem Leibnizkriterium existiert daher n X lim n→∞ Sei nun F (x) := Rx 0 (−1) ak = lim n→∞ k=0 sin √u u (n+1)π Z k 0 sin u √ du. u du. Für nπ ≤ x ≤ (n + 1)π ist dann Z F (x) − F (nπ) = x nπ Z (n+1)π sin u du 1 √ du ≤ √ ≤√ → 0, u u nπ nπ und somit existiert das uneigentliche Integral ∞ Z lim F (x) = x→∞ 0 sin u √ du u nach dem Cauchykriterium VIII.9. Es sei bemerkt, dass der ursprüngliche Integrand t 7→ sin(t2 ) für t → ∞ nicht gegen Null konvergiert. Wir haben sogar Z ∞ ∞ Z 2 2t · sin(t4 ) dt sin(u ) du = 0 0 (über die Transformationsformel mit ϕ(t) = t2 und ϕ0 (t) dt = 2t dt ), und der Integrand ist in diesem Fall sogar unbeschränkt. Beispiel VIII.16. Wir betrachten das folgende uneigentliche Integral: Z 0 1 dt √ = 1 − t2 Z π 2 du = 0 π . 2 Hierzu verwendet man die Transformationsformel mit ϕ(t) = arcsin t , also ϕ0 (t) = √ 1 1 − t2 für 0 ≤ t < 1 (Bemerkung V.4.17). Daher folgt Z 0 1 dt √ = lim x→1 1 − t2 Z 0 x ϕ0 (t) dt = lim arcsin x = x→1 π . 2 166 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 IX. Die Geometrie des n-dimensionalen Raumes Im weiteren Verlauf der Analysis-Vorlesung beschäftigen wir uns mit Funktionen von einem Bereich des Rn in den Rm , d.h. Funktionen von n Argumenten, deren Werte m Komponenten besitzen. Wir werden solche Funktionen auf Stetigkeit untersuchen, einen geeigneten Differenzierbarkeitsbegriff kennenlernen und sehen, wie man n -dimensionale Integrale und Volumina berechnet. Zuerst müssen wir uns dazu mit der geometrischen Struktur des Rn auseinandersetzen. IX.1. Der n-dimensionale normierte Raum Im folgenden steht K immer für einen der Körper R oder C . Konvexe Funktionen Definition IX.1.1. Sei D ⊆ R ein Intervall. Eine Funktion f : D → R heißt konvex, wenn für alle a, b ∈ D und alle 0 < λ < 1 gilt: f ((1 − λ)a + λb) ≤ (1 − λ)f (a) + λf (b). Die Funktion f heißt konkav, wenn −f konvex ist. Geometrisch läßt sich die Eigenschaft der Konvexität so interpretieren, dass für a < b in D der Graph von f unterhalb des Graphen der Sekanten durch die Punkte (a, f (a)) und (b, f (b)) verläuft. In der Tat ist diese Sekante der Graph der affinen Funktion S(x) = Für λ = x−a b−a b−x x−a f (a) + f (b). b−a b−a und x ∈]a, b[ ist λ ∈]0, 1[ , x = (1 − λ)a + λb und S(x) = (1 − λ)f (a) + λf (b). Satz IX.1.2. Sei D ⊆ R ein Intervall und f : D → R differenzierbar. Dann ist f genau dann konvex, wenn f 0 monoton wachsend ist. Ist f sogar zweimal differenzierbar, so ist f genau dann konvex, wenn f 00 ≥ 0 ist. IX.1. Der n-dimensionale normierte Raum 167 Beweis. Ist f zweimal differenzierbar, so ist f 0 differenzierbar und da D ein Intervall ist, ist f 0 genau dann monoton wachsend, wenn f 00 ≥ 0 ist (Folgerung V.2.3). Wir haben daher nur die erste Behauptung zu zeigen. Zuerst nehmen wir an, dass f 0 monoton wachsend ist und zeigen, dass dies die Konvexität von f zur Folge hat. Sei dazu o.B.d.A. a < b und 0 < λ < 1 . Wir setzen c := (1 − λ)a + λb , so dass a < c < b gilt. Nach dem Mittelwertsatz der Differentialrechnung existieren ξ1 ∈]a, c[ und ξ2 ∈]c, b[ mit f (b) − f (c) f (c) − f (a) = f 0 (ξ1 ) ≤ f 0 (ξ2 ) = . c−a b−c Wegen c − a = λ(b − a) und b − c = (1 − λ)(b − a) folgt daraus (1 − λ)(f (c) − f (a)) ≤ λ(f (b) − f (c)) und durch Umstellen der Ungleichung erhalten wir f (c) ≤ (1 − λ)f (a) + λf (b). Also ist f konvex. Jetzt nehmen wir an, f sei konvex und zeigen, dass f 0 (a) ≤ f 0 (b) für a < b in D gilt. Aus f ((1 − λ)a + λb) − f (a) λ(f (b) − f (a)) f (b) − f (a) ≤ = λ(b − a) λ(b − a) b−a erhalten wir f ((1 − λ)a + λb) − f (a) f (b) − f (a) ≤ . λ→0 λ(b − a) b−a f 0 (a) = lim Analog erhalten wir mit f (b) − f ((1 − λ)a + λb) (1 − λ)(f (b) − f (a)) f (b) − f (a) ≥ = (1 − λ)(b − a) λ(b − a) b−a für λ → 1 die Beziehung f 0 (b) ≥ f (b) − f (a) ≥ f 0 (a). b−a Folgerung IX.1.3. Seien p, q ∈ ]1, ∞[ mit p1 + 1q = 1 . Dann gilt für alle x, y ≥ 0 die Ungleichung 1 1 x y xp · y q ≤ + . p q Beweis. Für x = 0 oder y = 0 ist die Behauptung trivial. Seien also x, y > 0 . Dann ist die Behauptung äquivalent zu 1 1 1 1 1 1 x y x p y q = e p log x e q log y = e p log x+ q log y ≤ + . p q Wegen exp00 = exp > 0 ist die Exponentialfunktion konvex und mit λ = 1q und 1−λ = p1 ergibt sich daher die gewünschte Ungleichung sofort aus der Konvexität der Exponentialfunktion. 168 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 Aufgabe IX.1.1. Sei D ⊆ R ein Intervall und f : D → R . (a) Zeigen Sie zunächst durch Rechnung: Ist f affin, d.h. existieren c, d ∈ R mit f (x) = cx + d für alle x ∈ D , so ist f sowohl konvex als auch konkav. (b) Warum folgt dies aus der geometrischen Interpretation der Konvexität? (c) Ist f konvex und konkav, so ist f affin. (d) Die Funktion f ist genau dann affin, wenn für alle a, b ∈ D und alle 0 < λ < 1 gilt: f ((1 − λ)a + λb) = (1 − λ)f (a) + λf (b). (e) Sind f1 und f2 konvex, so ist f1 + f2 konvex. (f) Ist f konvex und λ ≥ 0 , so ist λf konvex. Aufgabe IX.1.2. Zeigen Sie: (a) Ist D ein offenes Intervall und f : D → R konvex sowie x0 ∈ D ein globales Maximum, so ist f konstant. Gehen Sie hierzu in folgenden Schritten vor: (1) Es existieren x1 < x0 < x2 in D mit f (x1 ), f (x2 ) ≤ f (x0 ) . (2) f (x1 ) = f (x2 ) = f (x0 ) . Hinweis: Wir schreiben x0 als x0 = λx2 + (1 − λ)x1 . (3) x0 ist ein globales Minimum: Ist x < x0 , so schreibe man x0 = λx2 +(1−λ)x und wende die Definition an. Es ergibt sich f (x) ≥ f (x0 ) . Analog verfährt man für x > x0 . (4) f ist konstant. (b) Auf dem Intervall D := [0, 1] existiert eine konvexe Funktion mit einem globalen Maximum, die nicht konstant ist. (c) Ist f : R → R nach oben beschränkt und konvex, so ist f konstant. Hinweis: Sei f ≤ M und x1 < x2 ∈ R . Zu λ ∈]0, 1[ wähle x3 so, dass x2 = λx3 +(1−λ)x1 gilt. Hieraus ergibt sich f (x2 ) ≤ (1 − λ)f (x1 ) + λM . Für λ → 0 ergibt sich f (x2 ) ≤ f (x1 ) . Die umgekehrte Ungleichung erhält man durch ein ähnliches Argument. Normen auf Kn Definition IX.1.4. Für p ≥ 1 definieren wir auf Kn : kxkp := |x1 |p + |x2 |p + . . . + |xn |p p1 und kxk∞ := max{|x1 |, . . . , |xn |} für x = (x1 , . . . , xn ) ∈ Kn . Wir wollen zeigen, dass k · kp eine Norm auf Kn ist. Dazu benötigen wir einige wichtige Ungleichungen. IX.1. Der n-dimensionale normierte Raum 169 Höldersche Ungleichung Satz IX.1.5. Seien p, q ∈ ]1, ∞[ mit (y1 , . . . , yn ) ∈ Kn gilt n X 1 p + 1q = 1. Für alle x = (x1 , . . . , xn ), y = |xj ·yj | ≤ kxkp ·kykq = |x1 |p +|x2 |p +. . .+|xn |p p1 |y1 |q +|y2 |q +. . .+|yn |q q1 . j=1 Beweis. Ist kxkp = 0 , so ist x = 0 und die Behauptung trivial. Wir dürfen also kxkp 6= 0 und kykq 6= 0 annehmen. Wir setzen αj := |xj |p kxkpp und βj := |yj |q . kykqq Pn Pn Dann ist j=1 αj = 1 = j=1 βj . Wenden wir Folgerung IX.1.3 auf αj und βj an, so ergibt sich 1 1 |xj | |yj | αj βj · = αjp · βjq ≤ + . kxkp kykq p q Durch Summation über j erhalten wir n X 1 1 1 |xj | · |yj | ≤ + = 1. kxkp kykq j=1 p q Bemerkung IX.1.6. (a) Für p = q = 2 ergibt sich die Cauchy-Schwarzsche Ungleichung: n n X X xj · yj ≤ |xj | · |yj | ≤ kxk2 · kyk2 . j=1 j=1 (b) Für p = 1 und q = ∞ gilt trivialerweise n X j=1 |xj · yj | ≤ kxk∞ · n X |yj | = kxk∞ · kyk1 . j=1 Minkowskische Ungleichung Satz IX.1.7. Für p ∈ [1, ∞] gilt für alle x, y ∈ Kn : kx + ykp ≤ kxkp + kykp . Beweis. Wir dürfen o.B.d.A. annehmen, dass x, y und x + y jeweils nicht 0 sind, denn sonst ist die Ungleichung trivial. Dann gilt insbesondere kxkp , kykp , kx + ykp > 0. 170 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 Für p = 1 und p = ∞ folgt dies sofort aus |xj +yj | ≤ |xj |+|yj | für j = 1, . . . , n . Sei nun p ∈]1, ∞[ und q definiert durch 1q + p1 = 1 . Sei zj := |xj + yj |p−1 . Dann p/q ist zjq = |xj + yj |pq−q = |xj + yj |p , also kzkq = kx + ykp . Nach der Hölderschen Ungleichung gilt daher kx + ykpp = n X |xj + yj | · |zj | ≤ j=1 n X |xj | · |zj | + j=1 n X |yj | · |zj | j=1 ≤ kxkp kzkq + kykp kzkq = kxkp + kykp · kx + ykp/q p p−p/q Also ist kx + ykp = kx + ykp ≤ kxkp + kykp . Für den folgenden Satz erinnern wir uns an den Begriff der Norm (Definition IV.2.5). Satz IX.1.8. Die Funktionen k · kp : Kn → R sind für alle p ∈ [1, ∞] Normen, d.h. sie haben die Normeigenschaften: (N1) (∀x ∈ Kn ) kxkp ≥ 0 und kxkp = 0 ⇐⇒ x = 0. (N2) Positive Homogenität: kλ · xkp = |λ| · kxkp für alle x ∈ Kn und λ ∈ K. (N3) Subadditivität: kx + ykp ≤ kxkp + kykp für alle x, y ∈ Kn . Beweis. Für p = ∞ ist die Behauptung trivial. Für p < ∞ sind die Aussagen (N1) und (N2) ebenfalls trivial. Der einzige nichttriviale Teil ist die Subadditivität und das ist die Minkowski-Ungleichung. Für jedes p ≥ 1 erhalten wir also auf Kn die Struktur eines normierten Raumes (Kn , k · kp ) , und aus Lemma IV.2.7 erhalten wir somit Metriken auf Kn durch p1 dp (x, y) := kx − ykp = |x1 − y1 |p + |x2 − y2 |p + . . . + |xn − yn |p und d∞ (x, y) := kx − yk∞ = max{|x1 − y1 |, . . . , |xn − yn |} für x, y ∈ Kn . Die Norm kxk∞ = max{|x1 |, . . . , |xn |} heißt Maximumnorm. qP n 2 Die Norm kxk2 = j=1 |xj | heißt euklidische Norm. Die zugehörige Metrik qP n 2 d2 (x, y) := kx − yk2 = j=1 |xj − yj | heißt euklidischer Abstand. Bezüglich der p -Normen sehen die Einheitskugeln“ im R2 , d.h. die Men” gen B1 = {x ∈ R2 : kxkp = 1} , recht verschieden aus. Um das einzusehen, skizziere man sie für p = 1 , p = 2 und p = ∞ und für jeweils ein weiteres p ∈]1, 2[ bzw. p > 2 . Für viele Zwecke ist die euklidische Norm am zweckmäßigsten, beispielsweise für geometrische Überlegungen. Für komplexe Zahlen haben wir p |x + iy| = k(x, y)k2 = x2 + y 2 . 171 IX.2. Mehr über metrische Räume Satz IX.1.9. Sei 1 ≤ p ≤ ∞. (1) Eine Folge in (Kn , dp ) konvergiert genau dann, wenn sie komponentenweise konvergiert. Insbesondere hängt dies nicht von p ab. (2) (Kn , k · kp ) ist ein Banachraum, d.h. jede Cauchy-Folge konvergiert. Beweis. (1) Sei (z (m) )m∈N eine Folge in Kn und (m) z (m) = (z1 (m) , z2 , . . . , zn(m) ). Gilt limm→∞ z (m) = z , d.h. kz (m) − zkp → 0 , so gilt für alle j die Beziehung (m) (m) |zj − zj | ≤ kz (m) − zkp → 0 , also zj → zj für jedes j , d.h., die Folge konvergiert komponentenweise. (m) Gilt andererseits zj → zj für jedes j , so gilt auch kz (m) − zkp = n X (m) |zj p − zj | p1 → 0, j=1 d.h. limm→∞ z (m) = z . (2) Sei (z (m) )m∈N eine Cauchy-Folge in (Kn , k · kp ) . Wegen (m) |zj (n) − zj | ≤ kz (m) − z (n) kp (m) für alle m, n ∈ N ist dann auch jede Komponentenfolge (zj )m∈N eine CauchyFolge in K, also konvergent (Folgerung III.2.33). Wegen (1) ist damit auch die Folge (z (m) )m∈N konvergent. Beispiele IX.1.10. (a) Die Folge (x(m) )m∈N in R2 mit x(m) = 21m , 1 − 21m konvergiert komponentenweise gegen (0, 1) , also auch bzgl. jeder der Normen k · kp . 1 (b) Die Folge (x(m) )m∈N in R2 mit x(m) = 2m , 1 + m konvergiert nicht komponentenweise, denn die erste Komponentenfolge kovergiert nicht. Also konvergiert sie bzgl. keiner der Normen k · kp . IX.2. Mehr über metrische Räume Im nächsten Abschnitt werden wir das grundlegende Konzept der Kompaktheit kennenlernen, das hinter vielen Existenzsätzen der Analysis steht. Um dieses Konzept in der angemessenen Allgemeinheit einführen zu können, müssen wir unsere Kenntnisse über metrische Räume etwas vertiefen. Definition IX.2.1. (Vgl. Definition III.1.5) Sei (X, d) ein metrischer Raum. (a) Für p ∈ X und ε > 0 heißt Uε (p) := {x ∈ X: d(x, p) < ε} 172 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 die ε -Umgebung von p oder die offene Kugel vom Radius ε um p . (b) Eine Umgebung von p ist eine Teilmenge U ⊆ X , für die ein ε > 0 mit Uε (p) ⊆ U existiert. Man beachte, dass für jede Umgebung U des Punkte p auch jede Obermenge V ⊇ U eine Umgebung von p ist. (c) Eine Teilmenge U ⊆ X heißt offen, wenn sie Umgebung aller ihrer Punkte ist, d.h. (∀p ∈ U )(∃ε > 0) Uε (p) ⊆ U. (d) Eine Teilmenge F ⊆ X heißt abgeschlossen, wenn X \ F offen ist. Bemerkung IX.2.2. (1) Ist (V, k·k) ein normierter Raum, so sind die offenen Kugeln bzgl. der zugehörigen Metrik d(x, y) := kx − yk gegeben durch Uε (p) = {x ∈ V : kx − pk < ε}. (2) Offene Kugeln, d.h. Mengen der Gestalt Ur (p) , r > 0 , in einem metrischen Raum (X, d) sind offen im Sinne von Definition IX.2.1(d) (Lemma III.1.6). Satz IX.2.3. (Eigenschaften offener Mengen, Satz III.1.7) Sei (X, d) ein metrischer Raum. Dann gelten folgende Aussagen: (O1) Ø und X sind offen. (O2) Sind U1 , . . . , Un offene Mengen, so ist auch U1 ∩ . . . ∩ Un offen. S (O3) Ist (Uj )j∈J eine Familie offener Teilmengen von X , so ist auch j∈J Uj offen. Folgerung IX.2.4. (Eigenschaften abgeschlossener Mengen) Sei (X, d) ein metrischer Raum. (A1) Ø und X sind abgeschlossen. (A2) Sind A1 , . . . , An ⊆ X abgeschlossen, so ist auch A1 ∪. . .∪An abgeschlossen. (A3) T Ist (Aj )j∈J eine Familie abgeschlossener Teilmengen von X , so ist auch j∈J Aj abgeschlossen. Beweis. Man wendet IX.2.3 auf die Komplemente an. Wir führen beispielhaft einen Beweis von (A2). Sind die Mengen A1 , . . . , An abgeschlossen, so sind die Mengen Uj := X \ Aj , j = 1, . . . , n , offen. Nach (O2) ist dann U1 ∩ . . . ∩ Un = X \ (A1 ∪ . . . ∪ An ) offen, also A1 ∪ . . . ∪ An abgeschlossen. (A1) ist trivial, und (A3) zeigt man analog zum gerade durchgeführten Beweis von (A2). Beispiel IX.2.5. (a) Die Intervalle Un := ] − n1 , 1 + n1 [ ⊆ R sind offen, aber T∞ ihr Schnitt n=1 Un = [0, 1] ist nicht offen in R . Die Bedingung (O2) gilt also im allgemeinen nicht für unendliche Durchschnitte. S∞ (b) Die Intervalle An := [ n1 , 1− n1 ] ⊆ R sind abgeschlossen, aber n=1 An = ]0, 1[ ist nicht abgeschlossen. Die Bedingung (F2) gilt also im allgemeinen nicht für unendliche Vereinigungen. IX.2. Mehr über metrische Räume Definition IX.2.6. (a) Die Menge 173 Sei (X, d) ein metrischer Raum M ⊆ X eine Teilmenge. M := \ {F ⊆ X: F abgeschlossen, M ⊆ F } heißt Abschluß von M. Wegen (A3) ist M abgeschlossen. Die Menge M ist die kleinste abgeschlossene Menge, die M enthält. Man nennt sie daher auch die abgeschlossene Hülle von M. (b) Die Menge [ M ◦ := {U ⊆ X: U offen, U ⊆ X} heißt das Innere oder der offene Kern von M. Nach (O3) ist M ◦ eine offene Teilmenge von X . Sie ist die größte offene Teilmenge, die in M enthalten ist. (c) Die Menge ∂M := M \ M ◦ heißt Rand von M. Mit den obigen Definitionen gelten folgende Beziehungen: M ◦ ⊆ M ⊆ M = M ◦ ∪ ∂M, M offen ⇐⇒ M = M ◦ ⇐⇒ ∂M ∩ M = Ø und M abgeschlossen ⇐⇒ M = M ⇐⇒ ∂M ⊆ M. Satz IX.2.7. Sei M eine Teilmenge des metrischen Raumes (X, d) und p ∈ X . Dann gelten: (1) p ∈ M ⇐⇒ jede Umgebung von p schneidet M . (2) p ∈ M ◦ ⇐⇒ M ist Umgebung von p . (3) p ∈ ∂M ⇐⇒ jede Umgebung von p schneidet M und X \ M . Beweis. (1) Ist x 6∈ M , so ist X \ M eine offene Menge, die x enthält, und damit eine Umgebung von x, die M nicht schneidet. Ist andererseits x ∈ X ein Punkt, der eine Umgebung U besitzt, die M nicht schneidet, so existiert ein δ > 0 mit Uδ (x) ⊆ U . Da Uδ (x) offen ist, ist X \ Uδ (x) eine abgeschlossene Menge, die M enthält, und daher ist M ⊆ X \ Uδ (x) . Insbesondere ist x 6∈ M . (2) Ist p ∈ M ◦ , so ist die offene Menge M ◦ eine Umgebung von p , also M ebenfalls. Für die Umkehrung sei M Umgebung von p . Dann existiert ein ε > 0 mit Uε (p) ⊆ M . Da Uε (p) offen ist, gilt Uε (p) ⊆ M ◦ . Folglich ist p ∈ M ◦ . (3) Wegen ∂M = M \ M ◦ und (1) und (2) besteht ∂M aus denjenigen Punkten p von X , für die jede Umgebung die Menge M schneidet, aber nicht in M enthalten ist, d.h. auch X \ M schneidet. 174 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 Folgerung IX.2.8. Es gilt genau dann p ∈ M , wenn eine Folge (xn )n∈N in M existiert mit limn→∞ xn = p . Beweis. ⇒“: Ist p ∈ M , so existiert nach Satz IX.2.7(1) zu jeder Zahl n ∈ N ” ein Punkt xn ∈ U1/n (p) ∩ M . Damit ist d(xn , p) < n1 , also limn→∞ xn = p . ⇐“: Ist p ∈ / M , so existiert nach Satz IX.2.7(1) ein ε > 0 mit Uε (p) ∩ M = Ø. ” Also kann in M keine Folge (xn ) existieren, die gegen p konvergiert. Beispiele IX.2.9. (1) Wir betrachten zunächst den metrischen Raum X = R mit d(x, y) = |x − y|. (a) Für die Menge M = [0, 1[ verifiziert man direkt mit Satz X.2.7: M 0 =]0, 1[, M = [0, 1] ∂M = {0, 1}. und (b) Für die Menge M = [0, 1] erhalten wir ebenfalls mit Satz X.2.7: M 0 =]0, 1[, M = [0, 1] = M und ∂M = {0, 1}. (c) Für die Menge M = R erhalten wir M 0 = R, M =R und ∂M = Ø. (d) FürM = { n1 : n ∈ N} ist M 0 = Ø, M = M ∪ {0} und ∂M = M. (2) Die Konzepte: Inneres, Rand, Abschluß hängen ganz wesentlich von dem Raum X ab, in dem man die Menge M betrachtet. Hier ist ein instruktives Beispiel: In dem metrischen Raum X = [0, 1] mit der Metrik d(x, y) = |x − y| erhalten wir für die Teilmenge M = X : M = M0 = M und ∂M = Ø. Für dieselbe Menge M , betrachtet als Teilmenge des metrischen Raums (R, d) , haben wir unter (b) ganz andere Eigenschaften terhalten. (3) Für X = R2 mit d(a, b) = ka − bk∞ = max(|a1 − b1 |, |a2 − b2 |) und M = {(x, y) ∈ R2 : 0 ≤ x < 1, 0 ≤ y < 1} = [0, 1[×[0, 1[ (Skizze!), erhalten wir M 0 = {(x, y) ∈ R2 : 0 < x < 1, 0 < y < 1} =]0, 1[×]0, 1[ M = {(x, y) ∈ R2 : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1} = [0, 1] × [0, 1] ∂M = {(x, y) ∈ R2 : (|x| ≤ 1, |y| = 1) oder (|x| = 1, |y| ≤ 1)}. IX.3. Kompaktheit Aufgabe IX.2.1. 175 Ist (V, k · k) ein normierter Raum und B = {v ∈ V : kvk ≤ 1}, so gelten B ◦ = U1 (0) = {v ∈ V : kvk < 1}, B = B und ∂B = {v ∈ V : kvk = 1} . Aufgabe IX.2.2. (a) Für X = R gilt ∂Q = R und für X = Q gilt ∂Q = Ø. (b) Für X = R und a < b gelten [a, b]◦ = ]a, b[ und [a, b[ = [a, b] . Aufgabe IX.2.3. so gilt Ist (X, d) ein metrischer Raum und M ⊆ X eine Teilmenge, X \ M = (X \ M )0 . Aufgabe IX.2.4. Eine Folge (xn )n∈N in einem metrischen Raum (X, d) konvergiert genau dann gegen p ∈ X , wenn für jede Umgebung U von p ein NU ∈ N existiert, so dass xn ∈ U für alle n > NU gilt. Aufgabe IX.2.5. Sind A ⊆ Rk und B ⊆ Rm abgeschlossen, so ist die Menge A × B ⊆ Rk+m abgeschlossen. Aufgabe IX.2.6. Sei A eine abgeschlossen Teilmenge des metrischen Raums (X, dX ) und B eine abgeschlossene Teilmenge des metrischen Raums (A, dA ) , wobei dA := d |A×A die eingeschränkte Metrik ist. Dann ist B auch in (X, d) abgeschlossen. IX.3. Kompaktheit In diesem Abschnitt behandeln wir den Begriff der kompakten Teilmenge eines metrischen Raumes und das Verhalten von stetigen Funktionen auf kompakten Mengen (Satz vom Maximum, gleichmäßige Stetigkeit). Wir erhalten hierbei von einem abstrakten Standpunkt aus Sätze, die wir schon für den Spezialfall von Funktionen auf abgeschlossenen beschränkten Intervallen in der Analysis I kennengelernt haben. Definition IX.3.1. Sei A eine Teilmenge des metrischen Raums (X, d) . (a) Eine offene Überdeckung von A ist eine Familie (Uj )j∈J offener Teilmengen S von X mit j∈J Uj ⊇ A . (b) A heißt kompakt, wenn zu jederSoffenen Überdeckung (Uj )j∈J von A eine endliche Teilmenge F ⊆ J mit j∈F Uj ⊇ A existiert. Man nennt (Uj )j∈F dann eine endliche Teilüberdeckung. Man beachte, dass in der Definition der Kompaktheit nicht verlangt wird, dass A eine endliche offene Überdeckung besitzt, sondern dass jede offene Überdeckung eine solche enthält. Die Eigenschaft, die unter (b) von einer kompakten Menge gefordert wird, heißt die Heine-Borelsche Überdeckungseigenschaft. Wir machen uns zuerst etwas mit dem Kompaktheitsbegriff vertraut. 176 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 Satz IX.3.2. Sei (X, d) ein metrischer Raum und (xn )n∈N eine Folge in X , die gegen p ∈ X konvergiert. Dann ist die Menge A := {xn : n ∈ N} ∪ {p} kompakt. Beweis. Sei (Uj )j∈J eine offene Überdeckung von A. Dann existiert ein j0 ∈ J mit p ∈ Uj0 . Da Uj0 eine Umgebung von p ist, existiert ein ε > 0 mit Uε (p) ⊆ Uj0 und weiter ein Nε ∈ N mit xn ∈ Uε (p) ⊆ Uj0 für alle n ≥ Nε . Wir wählen nun zu jedem n < n0 ein jn mit xn ∈ Ujn . Für F := {jn : n < n0 } ∪ {j0 } S ist dann A ⊆ j∈F Uj . Wir haben somit gezeigt, dass jede offene Überdeckung von A eine endliche Teilüberdeckung enthält. Also ist A kompakt. Beispiel IX.3.3. Der Satz besagt insbesondere, dass die Teilmenge n1 n o : n ∈ N ∪ {0} ⊆ R kompakt ist. Beachte dabei, dass die Menge { n1 : n ∈ N} in R nicht kompakt ist: Die Intervalle ( ]ε, 2[ )ε>0 bilden eine offene Überdeckung, die keine endliche Teilüberdeckung enthält. Definition IX.3.4. Wir betrachten auf dem Rn die Norm k · k∞ und die zugehörige Metrik d∞ (x, y) := kx − yk∞ . Für a, b ∈ Rn mit aj ≤ bj für alle j = 1 . . . , n heißt [a, b] := {x ∈ Rn : (∀j = 1, . . . , n) aj ≤ xj ≤ bj } ein Quader. Die Menge [(−1, 1), (1, 2)] = {x ∈ R2 : −1 ≤ x1 ≤ 1, 1 ≤ x2 ≤ 2} ist ein Beispiel eines Quaders. Für eine Teilmenge A des metrischen Raums (X, d) heißt diam(A) := sup{d(x, y): x, y ∈ A} ∈ [0, ∞] der Durchmesser von A (engl.: diameter). Die Mente A heißt beschränkt, wenn ihr Durchmesser endlich ist. Ist [a, b] ein Quader in (Rn , d∞ ) , so ist diam([a, b]) = kb − ak∞ = max{bj − aj : j = 1 . . . n}, denn für alle x, y ∈ [a, b] und alle j = 1 . . . , n gilt xj , yj ∈ [aj , bj ] , also |xj −yj | ≤ bj −aj für alle j und daher kx−yk∞ ≤ kb−ak∞ . Man verifiziert leicht, dass jeder Quader Q eine abgeschlossene Teilmenge des Rn ist (vgl. Folgerung IX.2.8). Nach diesen Vorbereitungen kommen wir zu einem wichtigen Lemma. 177 IX.3. Kompaktheit Lemma IX.3.5. In (Rn , d∞ ) ist jeder Quader [a, b] kompakt. Beweis. Wie beweisen die Kompaktheit von [a, b] indirekt. Sei dazu (Uj )j∈J eine offene Überdeckung von Q0 := [a, b] , von der wir annehmen, dass sie keine endliche Teilüberdeckung besitzt. Wie werden induktiv eine Folge Qm , m ∈ N , von Quadern mit diam(Qm ) = 21m kb − ak∞ konstruieren, die sich nicht durch endlich viele Uj überdecken lassen und ineinander liegen, d.h. Q0 ⊇ Q1 ⊇ . . . ⊇ Qm−1 ⊇ Qm ⊇ . . . gelten. Sei Qm schon konstruiert und Qm = [c, d] . Wir zerlegen Qm in 2n Teilquader der gleichen Größe: 1 ,...,εn ) Q(ε := [cε , dε ], m ε = (ε1 , . . . , εn ) ∈ {0, 1}n . Dabei sei dj − cj dj − cj und dεj := cεj + . 2 2 Nach Induktionsvoraussetzung läßt sich Qm nicht durch endlich viele Uj überdecken; also existiert auch ein Qεm0 mit dieser Eigenschaft, denn sonst würde sich [ Qm = Qεm cεj := cj + εj ε entgegen der Voraussetzung mit endlichen vielen Mengen Uj überdecken lassen. Wir setzen Qm+1 := Qεm0 und beachten diam(Qm+1 ) = 1 1 diam(Qm ) = m+1 kb − ak∞ . 2 2 Die Folge (Qm )m∈N , die wir so induktiv erhalten, besitzt nun die gewünschten Eigenschaften. Sei jetzt xm ∈ Qm beliebig. Dann ist (xm )m∈N eine Cauchy-Folge im metrischen Raum (Rn , d∞ ) , denn für n ≥ m ist d∞ (xn , xm ) ≤ diam(Qm ) ≤ 1 kb − ak∞ . 2m Wegen Satz IX.1.9 über die Vollständigkeit von (Rn , d∞ ) konvergiert diese Folge gegen ein x ∈ Rn . Da alle Qm abgeschlossen sind (Aufgabe IX.2.5), gilt x = limn→∞ xn ∈ Qm , da xn ∈ Qm für alle n ≥ m . Sei nun j0 ∈ J mit x ∈ Uj0 . Da Uj0 offen ist, existiert ein ε > 0 mit Uε (x) ⊆ Uj0 . Für diam(Qm ) < ε ist dann auch Qm ⊆ Uε (x) ⊆ Uj0 , was einen Widerspruch zur Konstruktion von Qm darstellt. Satz IX.3.6. Sei (X, d) ein metrischer Raum. (1) Ist A ⊆ X kompakt, so ist A beschränkt und abgeschlossen. (2) Ist (X, d) kompakt und A ⊆ X abgeschlossen, so ist A kompakt. 178 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 Beweis. (1) Sei o.B.d.A. A 6= Ø und a ∈ A . Dann ist das System Un (a) n∈N der offenen Kugeln vom Radius n um a eine offene Überdeckung von A, hat also eine endliche Teilüberdeckung: Es gibt n1 , . . . , nk mit A ⊆ Un1 (a)∪. . .∪Unk (a) . Für n := max{n1 , . . . , nk } gilt dann sogar A ⊆ Un (a) . Insbesondere ist diam(A) ≤ 2n, d.h., A ist beschränkt. Um die Abgeschlossenheit von A zu zeigen, sei a 6∈ A. Wir zeigen a 6∈ A; hieraus folgt dann A ⊆ A und somit die Abgeschlossenheit von A. Das System der Mengen Vn := {x ∈ X: d(x, a) > n1 } ist eine offene Überdeckung von A, hat also eine endliche Teilüberdeckung. Da diese Mengen alle ineinander enthalten sind, gibt es folglich eine Zahl n0 mit A ⊆ Vn0 . Dann ist U1/n0 (a) ∩ A = Ø und daher a ∈ / A; es folgt A ⊆ A und damit die Abgeschlossenheit von A . (2) Sei (Uj )j∈J eine offene Überdeckung von A. Da A abgeschlossen ist, ist S X \ A offen, also (X \ A) ∪ j∈J Uj = X , d.h. X \ A bildet zusammen mit den Mengen Uj , j ∈ J , eine offene Überdeckung von X . Da S X kompakt ist, existiert eine endliche Teilmenge F ⊆ J mit X = (X \ A) ∪ j∈F Uj . Damit ist (Uj )j∈F eine endliche Teilüberdeckung von A . Folgerung IX.3.7. beschränkt. In einem metrischen Raum ist jede konvergente Folge Beweis. Sei (xn )n∈N eine konvergente Folge mit Grenzwert x. Nach Satz IX.3.2 ist A := {xn : n ∈ N}∪{x} kompakt, also beschränkt nach Satz IX.3.6. Satz von Heine-Borel Theorem IX.3.8. Eine Teilmenge A des metrischen Raums (Rn , d∞ ) ist genau dann kompakt, wenn sie abgeschlossen und beschränkt ist. Beweis. Ist A kompakt, so ist A nach Satz IX.3.6(1) abgeschlossen und beschränkt. Ist andererseits A beschränkt, so ist A in einem ausreichend großen Quader Q enthalten. Ist A zusätzlich in (Rn , d∞ ) abgeschlossen, so ist A in (Q, d∞ ) abgeschlossen (Aufgabe IX.2.6), also kompakt nach Satz IX.3.6(2), da (Q, d∞ ) nach Lemma IX.3.5 kompakt ist. Der folgende Satz ist die abstrakte Version des Satzes von Bolzano-Weierstraß, den wir schon für R kennen. Satz von Bolzano-Weierstraß Satz IX.3.9. Sei A eine kompakte Teilmenge des metrischen Raums (X, d). Dann hat jede Folge (xn )n∈N in A eine Teilfolge, die gegen einen Punkt a ∈ A konvergiert. Beweis. Wir führen einen indirekten Beweis. Angenommen, keine Teilfolge der Folge (xn )n∈N konvergiert gegen ein a ∈ A . Wir behaupten, dass für jedes IX.3. Kompaktheit 179 a ∈ A eine Umgebung Ua existiert, für die die Menge {n ∈ N: xn ∈ Ua } endlich ist. Ist dies für ein a ∈ A nicht der Fall, so finden wir zu jedem m ∈ N ein nm > m mit xnm ∈ U1/m (a) . Dann bilden diese xnm eine gegen a konvergente Teilfolge, was nach unserer Annahme nicht sein kann. S Nun ist A ⊆ a∈A Ua , und da A kompakt ist, existieren a1 , . . . , an ∈ A mit A ⊆ Ua1 ∪ . . . ∪ Uan . Damit liegen in A nur endlich viele Folgenglieder, und dies ist ein Widerspruch. Von Satz IX.3.9 gilt auch die Umkehrung: Eine Teilmenge K eines metrischen Raumes (X, d) ist genau dann kompakt, wenn jede Folge in K eine in K konvergente Teilfolge besitzt (siehe J. Jost, “Postmodern Analysis”, Theorem 7.38). Folgerung IX.3.10. konvergente Teilfolge. Jede beschränkte Folge (xn )n∈N in (Rn , d∞ ) hat eine Beweis. Das folgt aus Satz IX.3.9, da die Folge in einem (ausreichend großen) Quader enthalten ist, und dieser nach Lemma IX.3.5 kompakt ist. Kompaktheit und Stetigkeit Wir kommen nun zu den Anwendungen des Konzepts der Kompaktheit auf stetige Abbildungen. Zuerst eine kleine Wiederholung zur Stetigkeit (siehe Satz IV.1.3 und Satz IV.1.4). Satz IX.3.11. (a) Für eine Funktion f : X → Y zwischen metrischen Räumen (X, dX ) und (Y, dY ) sind äquivalent: (1) Die Funktion f ist stetig in p . (2) (∀ε > 0) (∃δ > 0) f Uδ (p) ⊆ Uε f (p) . (3) Aus limn→∞ xn = p in X folgt limn→∞ f (xn ) = f (p) in Y . (b) f ist genau dann stetig, wenn für jede offene Teilmenge U ⊆ Y das Urbild f −1 (U ) ⊆ X offen ist. Satz IX.3.12. Ist f : X → Y stetig und A ⊆ X kompakt, so ist auch f (A) ⊆ Y kompakt. Beweis. Sei (Uj )j∈J eine offene Überdeckung von f (A) . Dann ist die Familie f −1 (Uj ) j∈J in X eine offene Überdeckung von A (beachte, dass f −1 (Uj ) wegen der Stetigkeit eine endliche Teilmenge S von f offen ist). Damit existiert S S F ⊆ J mit A ⊆ j∈F f −1 (Uj ) . Dann ist f (A) ⊆ j∈F f f −1 (Uj ) ⊆ j∈F Uj , d.h., das System (Uj )j∈F ist eine endliche Teilüberdeckung von f (A) . Lemma IX.3.13. Ist Ø 6= A ⊆ R eine kompakte Menge, so besitzt A ein Minimum und ein Maximum. 180 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 Beweis. Nach dem Satz von Heine-Borel ist A abgeschlossen und beschränkt. Wir zeigen nun sup A, inf A ∈ A. Für jedes ε > 0 existiert ein a ∈ A mit a > sup A − ε . Also ist a ∈ Uε (sup A) und somit sup A ∈ A = A (Satz IX.2.7(1)). Für das Infimum argumentiert man analog. Aufgabe IX.3. mit D = [a, b]. Sei D ⊆ R ein kompaktes Intervall. Dann existieren a, b ∈ R Satz vom Maximum Satz IX.3.14. Ist (X, d) ein kompakter metrischer Raum und f : X → R stetig, so nimmt die Funktion f ein Maximum und ein Minimum an, d.h., es existieren Elemente x, y ∈ X mit f (x) = min f (X) und f (y) = max f (X). Beweis. (Siehe Satz IV.1.12) Nach Satz IX.3.12 ist f (X) ⊆ R kompakt, besitztat also nach Lemma IX.3.13 Maximum und Minimum. Folgerung IX.3.15. Sei A ⊆ X kompakt und a ∈ X . Dann enthält A einen Punkt x kleinsten Abstands von a, d.h., es gilt d(a, x) = min{d(a, y): y ∈ A}. Beweis. Wir betrachten die Funktion f : A → R, y 7→ d(a, y) . Dann ist f stetig, da |f (y1 ) − f (y2 )| = |d(a, y1 ) − d(a, y2 )| ≤ d(y1 , y2 ) gilt (Aufgabe III.1.1). Also nimmt f nach Satz IX.3.14 ein Minimum an. Bemerkung IX.3.16. (a) Ist A nicht abgeschlossen (und damit auch nicht kompakt), so wird die Behauptung von Satz IX.3.14 in der Regel falsch, denn für jeden Punkt p ∈ A \ A ist d(p, x) > 0 für alle x ∈ A. Also ist f : A → R, x 7→ 1 d(x, p) eine stetige Funktion, die auf A unbeschränkt ist, denn es existiert eine Folge (xn )n∈N in A mit xn → p , d.h. d(p, xn ) → 0 . (b) Punkte kleinsten Abstands von einer Menge sind in der Regel nicht eindeutig. Hierzu betrachten wir X = R2 mit der Metrik d(x, y) = kx − yk∞ und A = {x ∈ Rn : kxk∞ ≤ 1} sowie den Punkt a = (2, 0) . Man verifiziert leicht, dass d(a, x) ≥ 1 für alle x ∈ A gilt. Für alle Punkt x = (1, x2 ) mit |x2 | ≤ 1 ist allerdings x ∈ A und d(x, a) = 1 . Warum tritt dieser Effekt nicht für die Metriken dp , p ∈]1, ∞[ auf? Man konstruiere ein ähnliches Beispiel für p = 1 . Wir erinnern uns, dass eine Funktion f : X → Y zwischen zwei metrischen Räumen gleichmäßig stetig heißt, wenn gilt (∀ε > 0) (∃δ > 0) (∀p, q ∈ X) dX (p, q) < δ =⇒ dY f (p), f (q) < ε. Ist die Funktion f Lipschitz-stetig, d.h. existiert ein L ≥ 0 , so dass für alle p, q ∈ X gilt dY f (p), f (q) ≤ L · dX (p, q), so ist f gleichmäßig stetig (setze δ := ε L ). 181 IX.3. Kompaktheit Lemma IX.3.17. Ist k · k eine Norm auf dem K-Vektorraum V , so gilt: kxk − kyk ≤ kx − yk für alle x, y ∈ V. Beweis. Da d(x, y) = kx − yk eine Metrik auf V definiert, folgt dies aus |d(x, 0) − d(y, 0)| ≤ d(x, y) (Aufgabe III.1.1). Bemerkung IX.3.18. (a) Ist (V, k · k) ein normierter Raum, so ist die Normfunktion f : V → R, v 7→ kvk Lipschitz-stetig mit L = 1 , denn wegen Lemma IX.3.17 gilt f (v) − f (w) ≤ kv − wk . (b) Sei D ⊆ R ein Intervall und f : D → R differenzierbar mit |f 0 (x)| ≤ M für alle x ∈ D . Dann ist f Lipschitz-stetig. Dies folgt aus dem Mittelwertsatz; ihm zufolge gibt es zu x < y in D ein z ∈ ]x, y[ mit |f (y) − f (x)| = |f 0 (z)| · |y − x| ≤ M |y − x|. (c) Ist (X, d) ein metrischer Raum und A ⊆ X eine Teilmenge, so betrachten wir die Distanzfunktion dA (x) := inf{d(x, a): a ∈ A}. Wir behaupten, dass dA Lipschitz-stetig mit Konstante L = 1 ist. Für x, y ∈ X und a ∈ A gilt zunächst d(x, a) ≤ d(y, a) + d(x, y) und daher dA (x) ≤ d(y, a)+d(x, y) , somit dA (x) ≤ dA (y)+d(x, y) . Aus Symmetriegründen gilt auch dA (y) ≤ dA (x) + d(x, y) und daher |dA (x) − dA (y)| ≤ d(x, y). Also ist dA Lipschitz-stetig mit Konstante L = 1 , insbesondere gleichmäßig stetig. Satz von der gleichmäßigen Stetigkeit Satz IX.3.19. Ist X ein kompakter metrischer Raum und f : X → Y eine stetige Funktion, so ist f gleichmäßig stetig. Beweis. Sei ε > 0 . Da f stetig ist, existiert zu jedem x ∈ X ein δx > 0 mit dY f (x), f (y) < 2ε für dX (x, y) < δx . Nun ist Uδx /2 (x) x∈X eine offene Überdeckung von X . Da X kompakt ist, existieren x1 , . . . , xn ∈ X mit X⊆ n [ Uδxj /2 (xj ). j=1 Sei δ := 21 min{δx1 , . . . , δxn } und y, z ∈ X mit dX (y, z) < δ . Dann existiert ein j ∈ {1, . . . , n} mit dX (y, xj ) < 21 δxj . Also ist auch dX (z, xj ) < δ + dX (y, xj ) < 2 21 δxj = δxj . Somit sind y, z ∈ Uδxj (xj ) . Es folgt nun ε ε dY f (y), f (z) ≤ dY f (y), f (xj ) + dY f (xj ), f (z) < + = ε. 2 2 182 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 IX.4. Stetige Funktionen und lineare Abbildungen In diesem Abschnitt werden wir zunächst einige spezielle Aspekte stetiger Abbildungen in mehreren Veränderlichen diskutieren. Danach werden wir die Stetigkeitseigenschaften linearer Abbildungen betrachten. Stetige Funktionen auf Kn Definition IX.4.1. Seien (X, dX ) und (Y, dY ) metrische Räume sowie f : X → Y eine Funktion. Wir haben in Satz IV.1.3(3) das Folgenkriterium für die Stetigkeit von f kennengelernt: Die Abbildung f ist genau dann stetig in p ∈ X , wenn für jede Folge (xn )n∈N in X mit limn→∞ xn = p die Beziehung limn→∞ f (xn ) = f (p) in Y gilt. Im folgenden schreiben wir dies abkürzend als: lim f (x) = f (p). x→p Lemma IX.4.2. Sei (X, d) ein metrischer Raum, und Km sei versehen mit einer der Metriken dp , p ∈ [1, ∞]. Eine Abbildung f = (f1 , . . . , fm ): X → Km ist genau dann stetig, wenn alle Komponentenfunktionen fj : X → K, j = 1, . . . , m , stetig sind. Beweis. Die Stetigkeit von f in x ∈ X ist gleichbedeutend mit lim f (xn ) = f (x) für alle Folgen (xn ) in X mit xn → x. Wegen Satz IX.1.9 ist lim f (xn ) = f (x) gleichbedeutend mit lim fj (xn ) = fj (x) und hieraus folgt die Behauptung sofort. Lemma IX.4.3. Sei K× := K \ {0}. Folgende Abbildungen sind stetig: (i) add: K × K → K, (x, y) 7→ x + y . (ii) mult: K × K → K, (x, y) 7→ xy . (iii) quot: K × K× → K, (x, y) 7→ xy −1 . Beweis. Da die Projektionen K2 → K, (x, y) 7→ x und (x, y) 7→ y beide stetig sind (Lemma IX.4.2), folgt dies aus Satz IV.1.7. Ebenfalls aus Satz IV.1.7 ergibt sich: Folgerung IX.4.4. Ist (X, d) ein metrischer Raum und sind f, g, h: X → K stetig mit h(X) ⊆ K× , so sind die Funktionen f + g: X → K, stetig. f · g: X → K und f :X → K h IX.4. Stetige Funktionen und lineare Abbildungen Beispiel IX.4.5. Funktion 183 Sei α = (α1 , . . . , αn ) ∈ Nn0 und |α| := α1 + . . . + αn . Die αn 1 f (x) = xα := xα 1 · . . . · xn f : Kn → K, heißt Monom vom Exponenten α . Eine Funktion der Gestalt X P (x) = cα xα |α|≤k heißt Polynomfunktion vom Grad k , wenn ein α mit |α| = k und cα 6= 0 existiert. Durch sukzessives Anwenden von Folgerung IX.4.4 erhalten wir unmittelbar die Stetigkeit aller Polynomfunktionen f : Kn → K. Bemerkung IX.4.6. (Richtungsgrenzwerte und Stetigkeit) Sei U ⊆ Rn , f : U → Rm eine Funktion und p ∈ U ◦ ein innerer Punkt von U . Sei 0 6= v ∈ Rn . Dann existiert ein ε > 0 mit Uε (p) ⊆ U , und folglich gilt p + hv ∈ U für ε |h| < kvk . Falls er existiert, heißt lim f (p + hv) h→0 h>0 der Richtungsgrenzwert von f in Richtung v . Ist f stetig, so folgt aus hn → 0 sofort p + hn v → p , und wir erhalten lim f (p + hv) = f (p) h→0 h>0 für alle Richtungen v . Man könnte nun glauben, dass die Existenz und Gleichheit der Richtungsgrenzwerte mit f (p) für alle Richtungen auch umgekehrt die Stetigkeit der Funktion f im Punkt p impliziert. Das ist aber falsch, wie das folgende Beispiel zeigt. Wir betrachten hierzu auf U = R2 die Funktion 0 falls (x, y) = (0, 0) oder y 6= x2 2 f : R → R, f (x, y) := 1 falls y = x2 6= 0. Für p = (0, 0) ist dann f (0, 0) = 0 und lim f (hv) = 0 = f (0, 0) h→0 h>0 für alle v ∈ R2 \ {(0, 0)} , denn ist v = (v1 , v2 ) , so gilt hv2 6= h2 v12 für alle ausreichend kleinen h (Nachweis!). Andererseits ist die Funktion f in p nicht stetig, da 1 1 1=f , 6→ f (0, 0) = 0 n n2 gilt. 184 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 Beispiel IX.4.7. Wir betrachten die Funktion xy falls (x, y) 6= (0, 0) 2 2 2 f : R → R, f (x, y) := x +y 0 falls (x, y) = (0, 0). Diese Funktion ist in (0, 0) unstetig, denn 1 1 1 = 6= f (0, 0) = 0. , lim f n→∞ n n 2 Für diese Funktion existieren die Richtungsgrenzwerte für alle Richtungen 0 6= v ∈ R2 : lim f (hv) = lim h→0 h>0 h→0 h>0 v1 v2 v1 v2 h2 v1 v2 = lim 2 = 2 , 2 2 2 2 2 h→0 v + v h v1 + h v2 v1 + v22 1 2 h>0 d.h., der Richtungsgrenzwert hängt von der Richtung ab und stimmt in der Regel nicht mit dem Funktionswert f (0, 0) überein. Stetigkeit und lineare Abbildungen Definition IX.4.8. Zwei Normen k · k1 und k · k2 auf einem Vektorraum V heißen äquivalent, k · k1 ∼ k · k2 , wenn (∃c, C > 0)(∀v ∈ V ) ckvk1 ≤ kvk2 ≤ Ckvk1 . Aufgabe IX.4.1. Sei V ein Vektorraum. Zeigen Sie, dass durch ∼ auf der Menge N aller Normen auf V eine Äquivalenzrelation gegeben ist. Satz IX.4.9. Alle Normen auf Rn sind äquivalent. Beweis. Es reicht zu zeigen, dass alle Normen zu k · k∞ äquivalent sind, denn die Äquivalenz von Normen ist eine Äquivalenzrelation (Aufgabe IX.4.1). Sei ej := (0, . . . , 0, 1, 0, . . . , 0) derjenige Vektor, der an der j -ten Stelle eine 1 besitzt, und e1 , . . . , en die kanonische Basis des Rn . Sei weiter k · k eine Norm auf Rn . Dann ist X X n n X n xj · ej ≤ |xj | · kej k ≤ kxk∞ kej k. kxk = j=1 Sei C := Pn j=1 j=1 j=1 kej k. Die Norm k · k : (Rn , d∞ ) → R ist stetig, denn es gilt kxk − kyk ≤ kx − yk ≤ C · kx − yk∞ . Die Menge S := {x ∈ Rn : kxk∞ = 1} = ∂U1∞ (0) ist abgeschlossen und beschränkt, also nach dem Satz von Heine-Borel kompakt. Da k · k auf S stetig ist, existiert c := min{kyk : kyk∞ = 1} > 0 . Für y 6= 0 ist dann y y ≥ kyk∞ · c. kyk = · kyk∞ = kyk∞ · kyk∞ kyk∞ Insgesamt folgt ∀y ∈ Rn : ckyk∞ ≤ kyk ≤ C · kyk∞ . IX.4. Stetige Funktionen und lineare Abbildungen 185 Folgerung IX.4.10. (i) Der Raum Rn ist bezüglich jeder Norm vollständig. (ii) Alle Normen liefern auf Rn die gleichen offenen Mengen. (iii) Die Stetigkeit einer Abbildung f : X → Rn oder g : Rn → Y , wobei X und Y metrische Räume sind, hängt nicht von der Wahl der Norm auf Rn ab. Beweis. (i) Zwei äquivalente Normen haben die gleichen Cauchy-Folgen. Die Behauptung folgt also aus der Vollständigkeit von (Rn , k · k∞ ) und Satz IX.4.9. (ii) Wir zeigen, dass äquivalente Normen die gleichen Umgebungen und daher auch die gleichen offenen Mengen definieren: Es gelte ckxk ≤ kxk∗ ≤ Ckxk für alle x ∈ Rn . Ist U Umgebung von p bezüglich k · k, so existiert ein ε > 0 mit Uε (p) ⊆ U . Dann ist auch ∗ Ucε (p) := {q ∈ Rn : kq − pk∗ < c · ε} ⊆ Uε (p) ⊆ U, d.h., U ist Umgebung von p bezüglich k · k∗ . Die Umkehrung folgt aus der Symmetrie der Äquivalenzrelation. (iii) folgt aus (ii) und der Tatsache, dass eine Abbildung f genau dann stetig ist, wenn die Urbilder offener Mengen unter f offen sind (Satz IV.1.4). Aufgabe IX.4.2. Zeigen Sie, dass sich Satz IX.4.9 und Folgerung IX.4.10 auch auf den C n übertragen lassen. Definition IX.4.11. Seien (V, k · kV ) und (W, k · kW ) normierte Räume und Hom(V, W ) der Raum der linearen Abbildungen von V nach W . Wir definieren für A ∈ Hom(V, W ) die Operatornorm kAk := sup{kAvkW : v ∈ V, kvkV ≤ 1} ∈ [0, ∞], und wir setzen L(V, W ) := {A ∈ Hom(V, W ) : kAk < ∞}. Satz IX.4.12. Für eine lineare Abbildung A : V → W zwischen normierten Räumen sind äquivalent: (1) Es ist A ∈ L(V, W ), d.h. kAk < ∞. (2) Es existiert ein C ≥ 0 mit kAvk ≤ C · kvk für alle v ∈ V . (3) A ist stetig. (4) A ist im Nullpunkt stetig. kvk v v Beweis. (1) ⇒ (2): Ist v 6= 0 , so ist k kvk k = kvk = 1 und daher kA kvk k≤ kAk . Folglich gilt kAvk ≤ kAk · kvk für alle v ∈ V . (2) ⇒ (3): Für v, w ∈ V gilt kAv −Awk ≤ Ckv −wk, also ist A sogar Lipschitzstetig und insbesondere stetig. (3) ⇒ (4): Das ist trivial. (4) ⇒ (1): Sei ε > 0 und δ > 0 mit kAvk < ε für kvk ≤ δ . Dann ist kA(δv)k < ε für kvk ≤ 1 , also kAk ≤ δε < ∞. 186 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 Lemma IX.4.13. Seien V, W und U normierte Räume. (a) Die Menge L(V, W ) ist bezüglich der Operatornorm ein normierter Raum. (b) Für A ∈ L(V, W ) und B ∈ L(W, U ) ist BA := B ◦ A ∈ L(V, U ), und es gilt kBAk ≤ kAk · kBk . Beweis. Übung! Beispiele IX.4.14. (a) Sei [a, b] ⊆ R ein Intervall und C([a, b]) der Vektorraum der stetigen Funktionen f : [a, b] → R , versehen mit der Supremumsnorm kf k := sup{|f (x)|: a ≤ x ≤ b}. Wir betrachten die lineare Abbildung Z I: C([a, b]) → R, b f (x) dx, I(f ) = a die durch das Riemann-Integral gegeben ist. Dann ist I stetig, denn wir haben die Abschätzung Z |I(f )| ≤ b |f (x)| dx ≤ (b − a)kf k für alle f ∈ C([a, b]), a d.h. kIk ≤ b − a. (Wieso gilt hier sogar Gleichheit?) (b) Sei C 1 ([0, 1]) der Vektorraum der stetig differenzierbaren Funktionen f : [0, 1] → R , ebenfalls versehen mit der Supremumsnorm. Wir betrachten die lineare Abbildung D: C 1 ([0, 1]) → C([0, 1]), D(f ) = f 0 , die durch die Ableitung gegeben ist. Dann ist D unstetig, denn für die Funktionen fn (x) = xn auf [0, 1] gilt kfn k = 1 und kD(fn )k = kfn0 k = n . Folglich ist kDk ≥ sup{kD(fn )k: n ∈ N} = ∞. (c) Wir versehen Rn mit der Norm k · k∞ und betrachten eine lineare Abbildung A: Rn → Rm , die bezüglich der kanonischen Basis durch die Matrix (ajk )j,k gegeben sei. Für x ∈ Rn gilt dann kA(x)k∞ n n X X = max ajk xk ≤ kxk∞ max |ajk |, j=1,...,m j=1,...,m k=1 also kAk ≤ max j=1,...,m n X k=1 |ajk |. k=1 187 IX.4. Stetige Funktionen und lineare Abbildungen Wir zeigen, dass sogar Gleichheit gilt. Ist A = 0 , so ist dies trivial. Wir nehmen daher A 6= 0 an. Nun wählen wir j0 so, dass max n X j=1,...,m |ajk | = k=1 n X |aj0 k | k=1 gilt, und betrachten den Vektor x ∈ Rn mit xk = sgn(aj0 k ) . Da mindestens ein k mit aj0 k 6= 0 existiert, ist kxk∞ = 1 . Weiter ist kAk ≥ kA(x)k∞ ≥ X aj0 k xk = X k |aj0 k | = max j=1,...,m k und wir erhalten kAk = max j=1,...,m n X n X |ajk |, k=1 |ajk |. k=1 Theorem IX.4.15. Alle linearen Abbildungen zwischen endlichdimensionalen normierten Räumen sind stetig. Beweis. Da jeder endlichdimensionale reelle Vektorraum V zu Rn mit n = dim V isomorph ist (Lineare Algebra), können wir uns auf lineare Abbildungen A : Rn → Rm beschränken. Wegen Folgerung IX.4.10(iii) dürfen P wir weiter m annehmen, dass beide Räume mit k · k∞ versehen sind. Für Aej = i=1 aij ei gilt dann wegen Beispiel IX.4.14: kAk = max j=1,...,m n X |ajk | < ∞, k=1 insbesondere ist A stetig. Sind V1 , V2 , W Vektorräume, so nennen wir eine Abbildung A: V1 × V2 → W bilinear, wenn die Abbildungen v2 7→ A(v1 , v2 ) bzw. v1 7→ A(v1 , v2 ) für alle v1 ∈ V1 bzw. v2 ∈ V2 linear sind. Beispiele IX.4.16. (für bilineare Abbildungen) (a) Sind V und W Vektorräume, so ist die Abbildung Hom(V, W ) × V → W, bilinear. (A, v) 7→ A(v) 188 IX. Die Geometrie des n-dimensionalen Raumes 31. Oktober 2007 (b) Ist Mn,m (R) der Raum der reellen n × m -Matrizen, so ist die Multiplikationsabbildung Mn,m (R) × Mm,k (R) → Mn,k (R), (A, B) 7→ A ◦ B bilinear. (c) Das Skalarprodukt n n R × R → R, (x, y) 7→ hx, yi := n X xj yj j=1 ist bilinear. Sind p, q ∈ [1, ∞] mit 1 p + 1 q = 1 , so besagt die Hölder-Ungleichung |hx, yi| ≤ kxkp · kykq . Man vergleiche dies mit der Aussage von Satz IX.4.17. Satz IX.4.17. Es seien V1 , V2 und W normierte Räume und A: V1 ×V2 → W eine bilineare Abbildung. Wir versehen V1 × V2 mit der Norm k(v1 , v2 )k := max{kv1 k, kv2 k}. Dann sind äquivalent: (1) Die Abbildung A ist stetig. (2) Die Abbildung A ist im Nullpunkt stetig. (3) Es existiert eine Zahl C > 0 , so dass für alle (v1 , v2 ) ∈ V1 × V2 gilt kA(v1 , v2 )k ≤ C · kv1 k · kv2 k. Beweis. (1) ⇒ (2) ist trivial. (2) ⇒ (3): Sei ε > 0 und δ > 0 so, dass für alle Paare (v1 , v2 ) mit k(v1 , v2 )k ≤ δ die Ungleichung kA(v1 , v2 )k ≤ ε erfüllt ist. Dann gilt A(v1 , v2 ) = 0 , falls v1 = 0 oder v2 = 0 , und sonst kv1 k · kv2 k v v ε 1 2 · A δ kA(v1 , v2 )k = , δ ≤ 2 kv1 k · kv2 k, 2 kv1 k kv2 k δ δ v v da δ kv11 k , δ kv22 k = δ ist. (3) ⇒ (1): Wir rechnen kA(v1 , v2 ) − A(v10 , v20 )k ≤ kA(v1 , v2 ) − A(v1 , v20 )k + kA(v1 , v20 ) − A(v10 , v20 )k = kA(v1 , v2 − v20 )k + kA(v1 − v10 , v20 )k ≤ C · kv1 k · kv2 − v20 k + C · kv1 − v10 k · kv20 k. Hieraus folgt, dass A stetig ist. Analog zu Theorem IX.4.15 zeigt man: Satz IX.4.18. Sind V1 , V2 und W endlichdimensionale normierte Räume, so ist jede bilineare Abbildung A : V1 × V2 → W stetig. Folgerung IX.4.19. Sind V1 , V2 und V3 endlichdimensionale normierte Räume, so ist die Kompositionsabbildung Hom(V1 , V2 ) × Hom(V2 , V3 ) → Hom(V1 , V3 ), stetig. Es gilt sogar kB ◦ Ak ≤ kBk · kAk . (A, B) 7→ B ◦ A X.1. Kurven im Rn 189 X. Differentialrechnung mehrerer Veränderlicher In diesem Kapitel wenden wir uns der Differentialrechnung von vektorwertigen Funktionen zu, die zudem von mehreren Argumenten abhängen, d.h., wir werden Funktionen f : U → Rm betrachten, wobei U ⊆ Rn in der Regel eine offene Teilmenge sein wird. In Abschnitt X.1 diskutieren wir zunächst differenzierbare Kurven, d.h. den Fall n = 1, und in Abschnitt X.2 wenden wir uns dem allgemeinen Fall zu. X.1. Kurven im Rn Nach den eher abstrakten Überlegungen des vorangegangenen Kapitels wenden wir uns nun konkreten geometrischen Objekten zu, nämlich Kurven im Rn . Wir definieren Tangenten an eine Kurve und die Bogenlänge einer Kurve. Definition X.1.1. Seien a < b reelle Zahlen und γ : [a, b] → Rn , t 7→ γ(t) = γ1 (t), . . . , γn (t) eine Abbildung. (a) Ist γ stetig, so heißt γ eine stetige Kurve oder ein Weg in Rn . (b) Der Weg γ heißt (stetig) differenzierbar, wenn alle Komponenten γj , j = 1, . . . , n , (stetig) differenzierbar sind. Er heißt stückweise stetig differenzierbar, wenn γ stetig ist und eine Zerlegung a = t0 < t1 < . . . < tk = b existiert, so dass die Kurven γ |[ti ,ti+1 ] stetig differenzierbar sind. (c) Ist γ in t differenzierbar, so heißt γ̇(t) := γ 0 (t) := γ10 (t), . . . , γn0 (t) die Ableitung oder der Geschwindigkeitsvektor von γ bei t . Die Zahl kγ̇(t)k2 := n X j=1 |γj0 (t)|2 21 190 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 heißt Geschwindigkeit von γ in t . (Wir lassen den Index bei kγ̇(t)k2 meistens weg, wenn dadurch keine Verwechslungen möglich sind.) (d) Ist D = [a, b], so heißt γ(a) Anfangspunkt und γ(b) Endpunkt der Kurve. (e) Ist γ komponentenweise integrierbar auf [a, b] , so setzen wir Z b Z b Z b γ(t) dt := γ1 (t) dt, . . . , γn (t) dt ∈ Rn . a Beispiel X.1.2. a a (a) Die Abbildung γ : [0, 2π] → R2 , t 7→ p + r(cos t, sin t) beschreibt eine Kreiskurve vom Radius r um den Punkt p ∈ R2 . (b) Eine Ellipse um den Ursprung mit den Halbachsen a und b läßt sich durch die Kurve γ : [0, 2π] → R2 , t 7→ (a cos t, b sin t) beschreiben. (c) Die einfachsten Kurven sind (affine) Geraden: γ : R → Rn , t 7→ p + tv, wobei p, v ∈ Rn sind. Dann ist γ̇(t) = v konstant. (d) Die Neilsche Parabel γ : R → R2 , t 7→ (t2 , t3 ) ist überall differenzierbar, auch wenn ihr Bild im Nullpunkt eine Spitze besitzt. Es gilt γ̇(0) = 0 . (e) Eine Schraubenlinie im R3 läßt sich durch die Kurve γ : R → R3 , γ(t) = (cos t, sin t, t) beschreiben. Definition X.1.3. Die Gesamtbogenlänge einer stückweise stetig differenzierbaren Kurve γ : [a, b] → R ist s(γ) := k−1 X Z tj+1 j=0 kγ̇(t)k2 dt, tj wenn a = t0 < t1 < . . . tk = b eine Unterteilung ist, für die γ | [tj ,tj+1 ] für alle j = 0, . . . , k − 1, stetig differenzierbar ist. Dieses Integral existiert, weil die Integranden jeweils stetig sind. Die Funktion s : [a, b] → R, t 7→ s(γ |[a,t] ) wird Bogenlängenfunktion genannt. Sie ist eine stetige, monoton wachsende Funktion (Nachweis!). Ist γ stetig differenzierbar, so auch s, und es gilt (nach dem Hauptsatz) s0 (t) = kγ̇(t)k2 . X.1. Kurven im Beispiel X.1.4. Rn 191 (a) Wir betrachten das Geradenstück γ : [0, 1] → Rn , t 7→ a + t(b − a). Dann ist Z 1 1 Z kb − ak dt = kb − ak. kγ̇(t)k dt = s(γ) = 0 0 (b) Für den Kreisbogen γ : [0, 2π] → R, t 7→ (r cos t, r sin t) gilt kγ̇(t)k = k(−r sin t, r cos t)k = r, also 2π Z r dt = 2πr. s(γ) = 0 (c) Wir können für stückweise stetig differenzierbare Funktionen f : [a, b] → R die Bogenlänge des Funktionsgraphen γ : [a, b] → R2 , t 7→ (t, f (t)) berechnen. Mit γ̇(t) = (1, f 0 (t)) erhalten wir Z s(γ) = b p 1 + f 0 (t)2 dt. a Für den Viertel-Einheitskreis erhalten wir so aus f (t) = −t : und f 0 (t) = √1−t 2 r p 1 + f 0 (t)2 = 1+ √ 1 − t2 für 0 ≤ t ≤ 1 t2 1 =√ = arcsin0 (t), 2 1−t 1 − t2 und hieraus Z 0 1 Z p 0 2 1 + f (t) dt = 0 1 arcsin0 (t) dt = arcsin(1) − arcsin(0) = π . 2 Man beachte, dass dieses Integral an der Stelle 1 uneigenlich ist, da der Integrand dort unbeschränkt ist. Nachdem wir die Zahl π in der Analysis I durch die Nullstellen der Cosinusfunktion definiert haben, zeigt uns obige Rechnung, dass die geometrische Interpretation der Zahl π als die Bogenlänge der halben Einheitskreislinie mit unserer Definition konsistent ist. Definition X.1.5. Ist γ: [a, b] → Rn eine stückweise stetig differenzierbare Kurve und ϕ : [c, d] → [a, b] stückweise stetig differenzierbar, so ist die Komposition γ ◦ ϕ : [c, d] → Rn wieder stückweise stetig differenzierbar. Ist ϕ bijektiv mit ϕ0 ≥ 0 , so heißt ϕ eine Umparametrisierung. Insbesondere ist dann ϕ(c) = a und ϕ(d) = b . 192 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Satz X.1.6. Ist ϕ eine Umparametrisierung der stückweise stetig differenzierbaren Kurve γ : [a, b] → Rn , so gilt s(γ) = s(γ ◦ ϕ), d.h. Umparametrisieren erhält die Bogenlänge. Beweis. Sei t0 = a < t1 < . . . < tn = b eine Zerlegung, für die alle Wege γ |[ti ,ti+1 ] stetig differenzierbar sind. Da ϕ : [c, d] → [a, b] bijektiv und monoton wachsend ist, gilt c = ϕ−1 (t0 ) < ϕ−1 (t1 ) < . . . < ϕ−1 (tn ) = d . Wenden wir die Kettenregel komponentenweise an, so folgt (γ ◦ ϕ)0 (t) = γ̇(ϕ(t)) · ϕ0 (t) und daher wegen ϕ0 (t) ≥ 0 : Z ϕ−1 (ti+1 ) Z 0 ϕ−1 (ti+1 ) k(γ ◦ ϕ) (t)k dt = kγ̇(ϕ(t))k · ϕ0 (t) dt ϕ−1 (ti ) Z ti+1 ϕ−1 (ti ) kγ̇(τ )k dτ = s(γ |[ti ,ti+1 ] ). = ti Durch Zusammensetzen der Stücke erhält man die Behauptung. Bemerkung X.1.7. Oft ist es bequem, eine Kurve auf ihre Bogenlänge zu parametrisieren. Ist γ : [a, b] → Rn stetig differenzierbar mit γ̇(t) 6= 0 für alle t ∈ [a, b], so ist die Bogenlänge s : [a, b] → R stetig differenzierbar mit s0 (t) = kγ̇(t)k > 0 , also eine Bijektion s : [a, b] → [0, s(γ)] mit einer stetig differenzierbaren Umkehrfunktion s−1 (vgl. den Satz über die Differenzierbarkeit der Umkehrfunktion V.1.11). Die Kurve γ e := γ ◦ s−1 : [0, s(γ)] → Rn ist daher stetig differenzierbar mit γ e˙ (t) = γ̇(s−1 (t)) · (s−1 )0 (t) = γ̇(s−1 (t)) 1 s0 (s−1 (t)) = γ̇(s−1 (t)) . kγ̇(s−1 (t))k Dies ist offensichtlich ein Einheitsvektor. Es gilt also kγ e˙ k = 1 für alle t ∈ [0, s(γ)] . Daher heißt γ e über die Bogenlänge parametrisiert. Definition X.1.8. (Kurvenintegral) Sei γ : [a, b] → X ⊆ Rn stückweise stetig differenzierbar und f : X → Rk eine Funktion, für die die Komposition f ◦ γ integrabel ist. Dann heißt Z Z b f := f (γ(t)) · kγ̇(t)k dt ∈ Rk γ a das Integral von f längs γ . Hierbei beachten wir, dass das Produkt der beiden integrablen Funktionen f ◦ γ und kγ̇k ebenfalls integrabel ist (Lemma VI.1.13). R Bemerkung X.1.9. (a) Man beachte, dass γ f ein Punkt im Rk ist. R (b) Die Bogenlänge der Kurve γ läßt sich mit dieser Definition als s(γ) = γ 1 schreiben. R (c) Wir zeigen in den Übungen, dass das Integral γ f von der Parametrisierung von γ unabhängig ist. R Rb (d) Ist speziell γ = id[a,b] (als Kurve in R ), so ist γ f = a f (t) dt . X.1. Kurven im Rn 193 Integralabschätzung Satz X.1.10. Sei X ⊆ Rn eine Teilmenge, γ : [a, b] → X stückweise stetig differenzierbar und f : X → Rk eine stetige Funktion. Dann ist Z Z kf k2 ≤ s(γ) · supa≤t≤b kf (γ(t))2 . f ≤ 2 γ γ Für γ = id[a,b] und X = [a, b] erhalten wir insbesondere für jede Kurve f : [a, b] → Rk die Abschätzung b Z a Z f (t) dt ≤ 2 b kf (t)k2 dt ≤ M (b − a). a Pn Beweis. Sei hu, vi = j=1 uj vj das euklidische Skalarprodukt von u, v ∈ Rk . Die Cauchy–Schwarzsche Ungleichung (Bemerkung IX.1.6) besagt dann |hu, vi| ≤ kuk2 kvk2 . Für v ∈ Rk und integrable Kurven ϕ : [a, b] → Rk gilt dann wegen der Linearität des Integrals Z b Z hϕ(t), vi dt = a n bX ϕj (t)vj dt = a j=1 Für v := R γ n Z X j=1 b Z ϕj (t) dt · vj = h a b ϕ(t) dt, vi. a f ergibt sich damit aus der Cauchy–Schwarzschen Ungleichung kvk22 Z Z b = h f, vi = hf ◦ γ(t), vikγ̇(t)k2 dt γ a Z ≤ kvk2 b Z kf (γ(t))k2 · kγ̇(t)k2 dt = kvk2 a kf k2 , γ also Z kvk2 ≤ Z kf k2 = γ b b Z kf (γ(t))k2 · kγ̇(t)k2 dt ≤ a Folgerung X.1.11. Kurve, so gilt kγ̇(t)k2 dt · supa≤t≤b kf (γ(t))k. a Ist γ: [a, b] → Rn eine stückweise stetig differenzierbare s(γ) ≥ kγ(b) − γ(a)k. Die Geraden sind also die kürzesten Verbindungen zweier Punkte. Beweis. Wir wenden den zweiten Teil von Satz X.1.10 an und erhalten Z Z b b kγ(b) − γ(a)k = γ̇(t) dt ≤ kγ̇(t)k dt = s(γ). a a 194 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Satz X.1.12. (Rechenregeln Pn für Ableitungen von Skalarprodukten) Sei D ⊆ R ein Intervall und hx, yi := j=1 xj yj das Skalarprodukt auf dem Rn . (1) Sind γ, ϕ : D → Rn in einem Punkt t ∈ D differenzierbar, so ist auch hγ, ϕi : D → R, t 7→ hγ(t), ϕ(t)i in t differenzierbar, und es gilt hγ, ϕi0 (t) = hγ̇(t), ϕ(t)i + hγ(t), ϕ̇(t)i. (2) Sind γ : D → Rn und ϕ : D → R wie oben, so ist ϕ · γ : D → Rn , t 7→ ϕ(t)γ(t) in t differenzierbar mit (ϕ · γ)0 (t) = ϕ̇(t)γ(t) + ϕ(t)γ̇(t). Beweis. Wir wenden die Produktregel komponentenweise an (Übung). X.2. Differenzierbare Abbildungen In diesem Abschnitt werden wir sehen, wie sich das Konzept der Differenzierbarkeit in geeigneter Weise auf Funktionen in mehreren Veränderlichen übertragen lässt. Der begriffliche Aufwand wird hier dadurch etwas höher als im Eindimensionalen, dass die Ableitung einer Funktion f : U → Rm , U ⊆ Rn offen, in einem Punkt p jetzt eine lineare Abbildung df (p): Rn → Rm ist. Im Eindimensionalen kann man lineare Abbildungen R → R mit Zahlen identifizieren, so dass die Ableitung wieder eine Funktion f 0 : U → R wird, aber in der allgemeinen Situation erhalten wir eine Funktion df : U → Hom(Rn , Rm ), und der Raum Hom(Rn , Rm ) , den wir mit dem Raum Mm,n (R) der (m × n) Matrizen identifizieren können, hat die Dimension nm . Im folgenden betrachten wir nur die euklidische Norm k · k := k · k2 auf n R . Da alle Normen auf dem Rn äquivalent sind, spielt es keine Rolle, welche Norm wir hier verwenden. Definition X.2.1. Sei U ⊆ Rn offen und f : U → Rm eine Funktion. (a) Die Funktion f heißt in x ∈ U differenzierbar, wenn eine lineare Abbildung A ∈ Hom(Rn , Rm ) existiert, so dass (2.1) f (x + h) = f (x) + A(h) + ϕ(h) ϕ(h) =0 h→0 khk mit lim gilt. Die Abbildung h 7→ f (x) + A(h) ist eine affine Abbildung, die f im Sinne von (2.1) in x von erster Ordnung approximiert. 195 X.2. Differenzierbare Abbildungen (b) Ist f in x differenzierbar, so möchte man auch von der Ableitung von f in x reden. Hierzu hat man die Eindeutigkeit der linearen Abbildung A zu verifizieren. Sei dazu (2.1) erfüllt und v ∈ Rn . Für ausreichend kleine t ∈ R ist dann x + tv ∈ U , und wir erhalten A(tv) + ϕ(tv) ϕ(tv) f (x + tv) − f (x) = lim = Av + lim = Av. t→0 t→0 t→0 t t t lim Also ist die lineare Abbildung A eindeutig durch f bestimmt. Abbildung df (x) := A ∈ Hom(Rn , Rm ) Die lineare heißt Ableitung oder Differential von f im Punkt x. Für v ∈ Rn heißt (2.2) df (x)(v) = lim t→0 f (x + tv) − f (x) t die Richtungsableitung von f in x in Richtung v . (c) Die Funktion f heißt in U differenzierbar, wenn sie in allen Punkten x ∈ U differenzierbar ist. (d) Sie heißt in U stetig differenzierbar, wenn f in U differenzierbar und die Funktion df : U → Hom(Rn , Rm ) ∼ = Mm,n (R) ∼ = Rnm stetig ist. Die Menge der stetig differenzierbaren Funktionen f : U → Rm bezeichnet man mit C 1 (U, Rm ) . Bemerkung X.2.2. (a) Wir müssen den Begriff der Differenzierbarkeit im Mehrdimensionalen anders definieren als im Eindimensionalen, da der Ausdruck f (x + h) − f (x) h für Vektoren h ∈ Rn keinen Sinn ergibt. (b) Die Definition X.2.1 passt jedoch gut mit der eindimensionalen Situation zusammen: Für n = 1 ist f eine Kurve und f (x + h) − f (x) f˙(x) = lim = df (x)(1). h→0 h Beachte dabei, dass df (x) : R → Rn eine lineare Abbildung ist, die Größe f˙(x) = df (x)(1) ∈ Rm also ein Vektor. Lemma X.2.3. Ist U ⊆ Rn offen und f : U → Rm eine Funktion, so ist f in x ∈ U genau dann differenzierbar, wenn dies für alle Komponentenfunktionen fj : U → R , j = 1, . . . , m , gilt. Beweis. Sei zunächst f in x differenzierbar und A ∈ Hom(Rn , Rm ) mit f (x + h) = f (x) + A(h) + ϕ(h) ϕ(h) = 0. h→0 khk mit lim 196 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Sind Aj ∈ Hom(Rn , R) die Komponentenfunktionen der linearen Abbildung A, so erhalten wir für die Komponentenfunktionen von f (2.3) ϕj (h) = 0, h→0 khk fj (x + h) = fj (x) + Aj (h) + ϕj (h) mit lim denn da Konvergenz mit komponentenweiser Konvergenz gleichbedeutend ist ϕj (h) (Satz IX.1.9), ist insbesondere limh→0 ϕ(h) khk = 0 äquivalent zu limh→0 khk = 0 für alle j ∈ {1, . . . , m}. Also ist jede Komponentenfunktion fj in x differenzierbar. Ist dies umgekehrt der Fall und gilt (2.3) für alle j , so betrachten wir die lineare Abbildung A = (A1 , . . . , Am ): Rn → Rm und erhalten mit ϕ = (ϕ1 , . . . , ϕm ) die Beziehung ϕ(h) = 0. h→0 khk f (x + h) = f (x) + A(h) + ϕ(h) mit lim Das obige Lemma macht deutlich, dass die höhere Komplexität von Funktionen f : U → Rm bzgl. Differenzierbarkeitseigenschaften weniger von der Anzahl m der Komponenten im Bildbereich kommt, als vielmehr von der Anzahl n der Komponenten im Urbildbereich. Lemma X.2.4. Ist U ⊆ Rn offen und f : U → Rm in x ∈ U differenzierbar, so ist f in x stetig. Beweis. Gemäß (2.1) haben wir f (x + h) = f (x) + df (x)(h) + ϕ(h) ϕ(h) = 0. h→0 khk mit lim Aus der Stetigkeit der linearen Abbildung df (x) (Theorem IX.4.15) folgt lim df (x)(h) = 0, h→0 und weiter ist limh→0 ϕ(h) = limh→0 ϕ(h) khk khk = 0 . Also erhalten wir lim f (x + h) − f (x) = 0, h→0 d.h., f ist in x stetig. Wir kommen nun zu einer Charakterisierung der Differenzierbarkeit, die im folgenden einige Beweise vereinfacht. Satz X.2.5. Die Abbildung f : U → Rm ist genau dann in x ∈ U differenzierbar, wenn eine Abbildung Φ : U → Hom(Rn , Rm ) 197 X.2. Differenzierbare Abbildungen so existiert, dass Φ im Punkt x stetig ist und die Beziehung f (x + h) = f (x) + Φ(x + h)(h) für x + h ∈ U gilt. In diesem Fall ist df (x) = Φ(x). Beweis. Sei zunächst f (x + h) = f (x) + Φ(x + h)(h), wobei Φ in x stetig ist. Für A := Φ(x) und ϕ(h) := Φ(x + h) − Φ(x) (h) = Φ(x + h)(h) − A(h) gilt dann f (x + h) = f (x) + A(h) + ϕ(h) sowie h ϕ(h) = 0, = lim Φ(x + h) − Φ(x) h→0 khk h→0 khk lim da für h 6= 0 die Beziehung h h ) ≤ Φ(x + h) − Φ(x) · Φ(x + h) − Φ(x) ( khk khk = kΦ(x + h) − Φ(x)k −→ 0 h→0 gilt. Sei jetzt f in x differenzierbar und (2.1) erfüllt. Wir definieren Φ(x + h) ∈ Hom(Rn , Rm ) durch A(v) für h = 0 Φ(x + h)(v) := ϕ(h) A(v) + hh, vi khk2 für h 6= 0. Dann gilt für h 6= 0 : f (x + h) = f (x) + A(h) + ϕ(h) = f (x) + A(h) + hh, hi ϕ(h) khk2 = f (x) + Φ(x + h)(h). Die Stetigkeit von Φ in x erhalten wir mit der Cauchy–Schwarzschen Ungleichung: Zunächst ist kΦ(x + h)(v) − Φ(x)(v)k = |hh, vi| kϕ(h)k kϕ(h)k kϕ(h)k ≤ khk · kvk = kvk 2 2 khk khk khk für alle v ∈ Rn . Für kvk ≤ 1 erhalten wir also kΦ(x + h) − Φ(x)k ≤ Damit ist Φ in x stetig. kϕ(h)k −→ 0. khk h→0 198 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Satz X.2.6. (Rechenregeln für Ableitungen) (a) Sind f, g : U → Rm in einem Punkt x ∈ U ⊆ Rn differenzierbare Funktionen, so ist die Funktion λf + µg für alle λ, µ ∈ R in x differenzierbar, und es gilt d(λf + µg)(x) = λ · df (x) + µ · dg(x) (Linearität). (b) Seien U ⊆ Rn und V ⊆ Rm offene Mengen, f : U → V im Punkte x ∈ U differenzierbar und g : V → Rk im Punkte f (x) ∈ V differenzierbar. Dann ist die Funktion g ◦ f : U → Rk in x differenzierbar, und es gilt die Kettenregel d(g ◦ f )(x) = dg f (x) ◦ df (x). Beweis. (a) Mit Satz X.2.5 erhalten wir Funktionen Φ, Ψ: U → Hom(Rn , Rm ) , die in x stetig sind, so dass folgende Beziehungen für x + u ∈ U gelten: f (x + h) = f (x) + Φ(x + h)(h) und g(x + h) = g(x) + Ψ(x + h)(h). Dann ist (λf + µg)(x + h) = (λf + µg)(x) + (λΦ + µΨ)(x + h)(h), und die Funktion λΦ + µΨ: U → Hom(Rn , Rm ) ist in x stetig. Hieraus folgt die Differenzierbarkeit von f in x und d(λf + µg)(x) = λΦ(x) + µΨ(x) = λ df (x) + µ dg(x). (b) Mit Satz X.2.5 erhalten wir eine Funktion Φ: U → Hom(Rn , Rm ) , die in x stetig ist, und eine Funktion Ψ: V → Hom(Rm , Rk ) , die in f (x) stetig ist, so dass folgende Beziehungen gelten: f (x+h) = f (x)+Φ(x+h)(h), und g(f (x)+k) = g f (x) +Ψ(f (x)+k)(k). Dann ist f (x + h) = f (x) + k mit k = Φ(x + h)(h) und daher (g ◦ f )(x + h) = g f (x) + Ψ f (x + h) Φ(x + h)(h) . Wir haben Ψ f (x + h) ◦ Φ(x + h) ∈ Hom(Rn , Rk ) und lim Ψ f (x + h) ◦ Φ(h + x) = Ψ f (x) ◦ Φ(x), h→0 da f in x stetig ist (Lemma X.2.4) und die Komposition Hom(Rm , Rk ) × Hom(Rn , Rm ) → Hom(Rn , Rk ), (A, B) 7→ A ◦ B wegen kA ◦ Bk ≤ kAk · kBk stetig ist, denn sie ist eine bilineare Abbildung (Satz IX.4.18). Also ist g ◦ f in x differenzierbar, und das Differential ist gegeben durch d(g ◦ f )(x) = Ψ f (x) ◦ Φ(x) = dg f (x) ◦ df (x). X.2. Differenzierbare Abbildungen Beispiel X.2.7. 199 (a) Für eine affine Abbildung f : Rn → Rm , x 7→ A(x) + b ist df (x) = A für alle x ∈ Rn (vgl. Def. X.2.1). Allgemeine Produktregel (b) Ist f : Rn × Rm ∼ = Rn+m → Rk bilinear, so ist f überall differenzierbar mit df (x, y)(v, w) = f (x, w) + f (v, y). Hierbei schreiben wir Elemente aus Rn × Rm ∼ = Rn+m jeweils als Paare (x, y) bzw. (v, w) mit x, v ∈ Rn und y, w ∈ Rm . Für den Beweis schreiben wir f (x + h, y + k) = f (x, y) + f (x, k) + f (h, y) + f (h, k). Da f stetig ist, existiert wegen Satz IX.4.17 ein C > 0 mit kf (h, k)k ≤ Ckhk · kkk für (h, k) ∈ Rn × Rm . Für das quadratische Restglied f (h, k) ergibt sich daher kf (h, k)k khk · kkk ≤C ≤ Ckkk, k(h, k)k k(h, k)k also lim(h,k)→(0,0) kf (h,k)k k(h,k)k = 0 . Da die Abbildung Rn × R m → Rk , (h, k) 7→ f (x, k) + f (h, y) linear ist, ergibt sich hieraus die Differenzierbarkeit von f in (x, y) sowie die Formel für df (x, y) . Definition X.2.8. Ist f : U → Rm im Punkt x ∈ U ⊆ Rn differenzierbar, so ist df (x) ∈ Hom(Rn , Rm ) durch eine Matrix darstellbar. Wir wollen ihre Komponenten berechnen. Sei dazu f1 (x) · f (x) = · · fm (x) mit fi : U → R , i = 1, . . . , m . Ist ej ∈ Rn , j = 1, . . . , n , der j -te kanonische Basisvektor des Rn (die einzige Komponente ungleich 0 ist eine 1 an der i-ten Stelle), so heißt ∂f 1 Dj f (x) := (x) := lim f (x + tej ) − f (x) = df (x)(ej ) t→0 t ∂xj ∂fi die j-te partielle Ableitung von f in x ∈ U . Entsprechend definiert man (x) . ∂xj Die Matrix ∂f1 ∂f1 (x) · · · (x) ∂x ∂xn ∂f21 ∂f2 (x) · · · ∂fi ∂x1 ∂xn (x) (x) = Jx (f ) := .. .. ∂xj i=1,...,m . . j=1,...,n ∂fm ∂fm ∂x1 (x) · · · ∂xn (x) heißt Jacobimatrix von f in x. 200 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Ist U ⊆ Rn offen und die Funktion f : U → Rm in p ∈ U ∂fi differenzierbar, so existieren alle partiellen Ableitungen in p , und die lineare ∂xj Abbildung df (p) wird bzgl. der kanonischen Basen in Rn und Rm durch die Jacobimatrix Jp (f ) dargestellt. Satz X.2.9. Beweis. Die Existenz der partiellen Ableitungen wurde in Definition X.2.1 gezeigt. Ist df1 (p)(v) f1 (x) · · · f (x) = · , so ist df (p)(v) = ∈ Rm , · · dfm (p)(v) fm (x) Pn wenn v ∈ Rn ist (siehe Lemma X.2.3). Für v = j=1 vj ej folgt hieraus n X n X ∂fi dfi (p)(v) = dfi (p)(ej ) · vj = (p)vj , ∂xj j=1 j=1 also df (p)(v) = ∂f1 ∂x1 (x) ∂f2 ∂x1 (x) ··· ··· .. . ∂fm ∂x1 (x) ··· ∂f1 ∂xn (x) ∂f2 ∂xn (x) v1 v2 . = Jp (f ) · v, . .. . . ∂fm v n (x) ∂xn d.h., das Differential df (p) wird durch die Jacobimatrix Jp (f ) dargestellt. In diesem Sinne können wir f (x + h) − f (x) = df (x)(h) + ϕ(h) wie folgt durch Matrizen und Vektoren beschreiben: f (x + h) − f (x) 1 1 f2 (x + h) − f2 (x) .. . fm (x + h) − fm (x) Beispiel X.2.10. = ∂f1 ∂x1 (x) ∂f2 ∂x1 (x) ··· ··· .. . ∂fm ∂x1 (x) ··· ∂f1 ∂xn (x) ∂f2 ∂xn (x) ϕ (h) h1 1 h2 ϕ2 (h) . + . . . . .. . . . ∂fm h ϕm (h) n (x) ∂xn Wir betrachten die Funktion x·y 3 2 f : R → R , (x, y, z) 7→ . sin x + cos y Dann ist f1 (x, y, z) = xy und f2 (x, y, z) = sin x + cos y. Die partiellen Ableitungen sind ∂f1 (x, y, z) = y, ∂x ∂f1 (x, y, z) = x, ∂y ∂f2 (x, y, z) = cos x, ∂x 201 X.2. Differenzierbare Abbildungen ∂f2 (x, y, z) = − sin y, ∂y und ∂f1 ∂f2 (x, y, z) = (x, y, z) = 0. ∂z ∂z Damit wird das Differential von f in (x, y, z) durch die Matrix J(x,y,z) (f ) = ∂f1 ∂x (x, y, z) ∂f2 ∂x (x, y, z) ∂f1 ∂y (x, y, z) ∂f2 ∂y (x, y, z) ∂f1 ∂z (x, y, z) ∂f2 ∂z (x, y, z) ! = y x cos x − sin y 0 0 dargestellt. Bemerkung X.2.10b. Ist g ◦ f eine Komposition differenzierbarer Abbilm dungen f : U → R und g: V → Rk , wobei U ⊆ Rn offen ist, so erhalten wir aus der Kettenregel die Beziehung d(g ◦ f )(p) = dg(f (p)) ◦ df (p) für die Ableitungen. Auf der Ebene der zugehörigen Jacobi-Matrizen wird hieraus die Produktformel Jp (g ◦ f ) = Jf (p) (g) · Jp (f ), wobei · für das Produkt einer (k×m) -Matrix mit einer (m×n) -Matrix steht. Für die partiellen Ableitungen der Komposition g ◦ f ergibt sich damit insbesondere m X ∂g ∂(g ◦ f ) ∂f` (p) = (f (p)) (p), ∂xj ∂x` ∂xj `=1 wenn man sich überlegt, wie die Einträge der Produktmatrix aussehen. Ein wichtiger Spezialfall hiervon ergibt sich für n = 1 . Dann sind f : U → Rm und g ◦ f : U → Rk Kurven und wir erhalten (g ◦ f )0 (t) = d(g ◦ f )(t)(1) = dg(f (t))df (t)(1) = dg(f (t))(f 0 (t)) bzw. (g ◦ f )0 (t) = m X ∂g (f (p))f`0 (t). ∂x` `=1 Definition X.2.11. Ist f : U → R , U ⊆ Rn offen, im Punkt x ∈ U differenzierbar, so heißt der (Zeilen-)Vektor ∂f ∂f grad f (x) := ∇f (x) = D1 f (x), · · · , Dn f (x) = Jx (f ) = (x), · · · , (x) ∂x1 ∂xn der Gradient von f in x. 202 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Für jedes v ∈ Rn ist die Ableitung in Richtung v dann durch df (x)(v) = h∇f (x), vi = n X Dj f (x) · vj j=1 gegeben. Für alle Vektoren v ∈ Rn mit kvk = 1 gilt mit der Cauchy–Schwarzschen Ungleichung |df (x)(v)| = |h∇f (x), vi| ≤ k∇f (x)k . Für den speziellen ∇f (x) Einheitsvektor v = k∇f (x)k gilt sogar ohne k · k Gleichheit: h∇f (x), vi = k∇f (x)k2 = k∇f (x)k k∇f (x)k (falls ∇f (x) 6= 0). Der Gradient zeigt also in die Richtung des steilsten Anstiegs der Funktion f im Punkt x. Für den Fall n = 2 nennt man die Teilmengen Hc := {x ∈ U : f (x) = c} Höhenlinien der Funktion f . Man kann diese Linien verwenden, um sich das Verhalten der Funktion f zu veranschaulichen (Man denke zum Beispiel an eine Landkarte, die den Bereich U beschreibt, auf der man die Höhe des jeweiligen Punktes durch Höhenlinien einträgt). Ist nun D ⊆ R ein Intervall und γ: D → U eine Kurve, die in einer Höhenlinie verläuft, d.h. γ(D) ⊆ Hc bzw. f (γ(t)) = c für alle t ∈ D , so erhalten wir durch Ableiten mit der Kettenregel 0= d f (γ(t)) = h∇f (γ(t)), γ̇(t)i. dt Geometrisch interpretiert man dies so, dass die Geschwindigkeit der Kurve γ senkrecht zum Gradienten ∇f (γ(t)) in dem Punkt γ(t) ist. Die Höhenlinien verlaufen also in jedem Punkt senkrecht zum Gradienten. Beschreibt f die Höhenfunktion einer Landkarte und ist γ: D → U ein Weg, den ein Wanderer durchläuft, so bedeutet f (γ(t)) = c, dass der Wanderer auf einem Höhenweg entlangläuft. Das ist zwar nicht anstrengend, er legt dabei aber auch keinen Höhenunterschied zurück. Ein Bergsteiger würde eher einen Weg mit γ̇(t) = ∇f (γ(t)), einen sogenannten Gradientenweg, vorziehen. ∂fi (x) ist zwar ∂xj notwendig, aber nicht hinreichend für die Differenzierbarkeit (Stetigkeit) im Punkt x. Als Beispiel betrachten wir die Funktion 0, falls (x, y) = 0 2 f : R → R, (x, y) 7→ xy , sonst. Beispiel X.2.12. Die Existenz der partiellen Ableitungen x2 +y 2 Im Punkt (x, y) = (0, 0) ist dann ∂f 1 (0, 0) = lim f (t, 0) − f (0, 0) = 0 und t→0 t ∂x ∂f (0, 0) = 0. ∂y X.2. Differenzierbare Abbildungen 203 Aber die Funktion f ist im Nullpunkt unstetig, da für alle t 6= 0 gilt t2 1 = . t2 + t 2 2 Setzt man etwas stärkere Regularität der partiellen Ableitungen voraus, so lässt sich die Differenzierbarkeit allerdings doch durch die partiellen Ableitungen nachprüfen. f (t, t) = Satz X.2.13. Die Funktion f : U → Rm sei überall partiell differenzierbar, und die partiellen Ableitungen seien in x ∈ U stetig. Dann ist f in x differenzierbar. Beweis. Wir dürfen o.B.d.A. Pn m = 1 annehmen (vgl. Lemma X.2.3). Wir schreiben h ∈ Rn als h = j=1 hj ej . Dann ist f (x + h) − f (x) = n X f (x1 + h1 , . . . , xk−1 + hk−1 , xk + hk , xk+1 , . . . , xn ) k=1 − f (x1 + h1 , . . . , xk−1 + hk−1 , xk , xk+1 , . . . , xn ). Wenden wir den Mittelwertsatz der Differentialrechnung auf jeden Summanden (als Funktion von hk ) an, so finden wir Zahlen ϑj ∈ ]0, 1[ , j = 1, . . . , n , mit n X f (x+h)−f (x) = Dk f (x1 +h1 , . . . , xk−1 +hk−1 , xk +ϑk hk , xk+1 , . . . , xn )·hk . k=1 Wir definieren nun Φ(x + h) ∈ Hom(Rn , Rm ) durch n X Φ(x + h)(v) := Dk f (x1 + h1 , . . . , xk−1 + hk−1 , xk + ϑk hk , xk+1 , . . . , xn ) · vk . k=1 Dann erhalten wir f (x + h) − f (x) = Φ(x + h)(h). Da lim Φk (x + h) = lim (Dk f )(x1 + h1 , . . . , xk−1 + hk−1 , xk + ϑk hk , xk+1 , . . . , xn ) h→0 h→0 = Dk f (x) = Φk (x) nach Voraussetzung gilt, ist Φ in x stetig und daher f in x differenzierbar. Mittelwertsatz Satz X.2.14. Sei U ⊆ Rn offen und f : U → R differenzierbar. Sei x+th ∈ U für alle t ∈ [0, 1]. Dann existiert ein ϑ ∈ ]0, 1[ mit f (x + h) − f (x) = df (x + ϑh)(h). Beweis. Wir betrachten die differenzierbare Funktion g : [0, 1] → R, t 7→ f (x + th) mit g 0 (t) = df (x + th)(h). Nach dem Mittelwertsatz der Differentialrechnung V.2.2 existiert ein ϑ ∈ ]0, 1[ mit f (x + h) − f (x) = g(1) − g(0) = g 0 (ϑ) = df (x + ϑh)(h), wobei die letzte Gleichung aus der Kettenregel folgt. 204 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Bemerkung X.2.15. Für Funktionen : U → Rm mit m ≥ 2 gilt der Mittelwertsatz im allgemeinen nicht. Als Beispiel hierzu betrachten wir die Spiralkurve: γ : R → R3 , t 7→ (cos t, sin t, t). Dann ist γ(0) = (1, 0, 0) , γ(2π) = (1, 0, 2π) und γ̇(t) = dγ(t)(1) = (− sin t, cos t, 1). Für 0 < t < 2π zeigt γ̇(t) nie in Richtung von γ(2π) − γ(0) , also ist γ(2π) − γ(0) 6= γ̇(t) · 2π für alle t ∈ [0, 2π]. Für m ≥ 2 ist die folgende Version des Mittelwertsatzes die nächstbeste und sehr nützlich: Satz vom endlichen Zuwachs Satz X.2.16. Sei U ⊆ Rn offen und f : U → Rm stetig differenzierbar sowie x + th ∈ U für alle t ∈ [0, 1]. Dann ist 1 Z f (x + h) − f (x) = df (x + th)(h) dt. 0 Ist kdf (x + th)k ≤ M für alle t ∈ [0, 1], so gilt kf (x + h) − f (x)k ≤ M · khk. Beweis. Für g(t) := f (x + th) gilt g 0 (t) = df (x + th)(h) (Bemerkung X.2.10b) und daher Z f (x + h) − f (x) = g(1) − g(0) = 1 0 1 Z g (t) dt = df (x + th)(h) dt, 0 0 womit die erste Aussage schon gezeigt wäre. Für die zweite wenden wir die Integralabschätzung aus Satz X.1.9 auf γ = id[0,1] an und erhalten so: kf (x + h) − f (x)k = 1 Z Z Z df (x + th)(h) dtk ≤ 0 1 M · khk dt = M · khk. = 0 1 kdf (x + h)(h)k dt 0 205 X.3. Höhere partielle Ableitungen und Taylorentwicklung X.3. Höhere partielle Ableitungen und Taylorentwicklung In diesem Abschnitt werden wir den Taylorschen Satz für differenzierbare Funktionen von mehreren Veränderlichen kennenlernen. Nachdem wir uns überlegt haben, wie wir die vielen Glieder, die in der Taylorentwicklung auftreten, geschickt bezeichnen, werden wir sehen, dass man im Prinzip genauso wie im Eindimensionalen vorgehen kann. Es seien U ⊆ Rn eine offene Menge und f : U → Rm eine Funktion. Wir ∂f (x) für alle x ∈ U nehmen an, dass die partiellen Ableitungen Dj f (x) = ∂xj und j ∈ {1, . . . , n} existieren. Für jedes j ∈ {1, . . . , n} ist dann Dj f eine Funktion Dj f : U → Rm . Definition X.3.1. (a) Sind die Funktionen Dj f : U → Rm , j ∈ {1, . . . , n} wieder partiell differenzierbar, so können wir für alle x ∈ U die höheren partiellen Ableitungen ∂2f (x) Di Dj f (x) := Di Dj f (x) =: ∂xi ∂xj definieren. Die Funktion f heißt dann zweimal partiell differenzierbar. (b) Die Funktion f heißt k-mal partiell differenzierbar (k ≥ 2 ), wenn sie (k − 1) mal partiell differenzierbar ist und alle partiellen Ableitungen Dik−1 Dik−2 . . . Di1 f := Dik−1 Dik−2 . . . (Di1 f ) · · · wieder partiell differenzierbar sind. Für jedes k -Tupel (i1 , . . . , ik ) ∈ {1, . . . , n}k erhalten wir dann wieder Funktionen Dik Dik−1 . . . Di1 f = ∂kf : U → Rm , ∂xik · · · ∂xi1 die k-ten partiellen Ableitungen von f. (c) Die Funktion f heißt k-mal stetig partiell differenzierbar, falls sie k -mal partiell differenzierbar ist und alle partiellen Ableitungen k -ter Ordnung stetig sind. Als Beispiel betrachten wir die Funktion f : R2 → R, f (x, y) = 3x2 y + y 3 . Dann ist f zweimal stetig partiell differenzierbar mit den partiellen Ableitungen: D1 f (x, y) = 6xy, D1 D1 f (x, y) = 6y, D2 f (x, y) = 3x2 + 3y 2 , D2 D2 f (x, y) = 6y, D1 D2 f (x, y) = 6x = D2 D1 f (x, y). dass die gemischten“ Ableitungen in der letzten Zeile übereinstimmen, ist kein ” Zufall: 206 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Satz von Schwarz Satz X.3.2. 1 Sei U ⊆ Rn offen und f : U → Rm zweimal stetig partiell differenzierbar. Dann gilt für alle i, j ∈ {1, . . . , n} Di Dj f = Dj Di f. Beweis. Wir dürfen o.B.d.A. m = 1 annehmen, da wir die Komponenten von f getrennt behandeln können. Sei u ∈ U . Da U offen ist, existiert ein ε > 0 , so dass u + sei + tej ∈ U für alle Zahlen s und t mit |s|, |t| < ε gilt. Sei U 0 :=] − ε, ε[×] − ε, ε[⊆ R2 und ϕ: U 0 → R, ϕ(s, t) := f (u + sei + tej ). Dann besagt die Voraussetzung insbesondere, dass D1 D2 ϕ existiert und stetig ist. Zu zeigen ist nun (Di Dj f )(u) = (D1 D2 ϕ)(0, 0) = (D2 D1 ϕ)(0, 0) = (Dj Di f )(u). Nach Definition ist ϕ(s, t) − ϕ(0, t) d lim dt t=0 s→0 s 1 s ϕ(s, t) − ϕ(0, t) − = lim lim t→0 s→0 t D2 D1 ϕ(0, 0) = 1 s ϕ(s, 0) − ϕ(0, 0) . Wir wenden den Mittelwertsatz der Differentialrechnung auf die zweite Variable dieses Ausdrucks an und erhalten so 1 (D2 ϕ)(s, ϑs,t t) − (D2 ϕ)(0, ϑs,t t) t→0 s→0 s D2 D1 ϕ(0, 0) = lim lim für ein ϑs,t ∈ ]0, 1[, das von t und s abhängt. Auf den so entstandenen Ausdruck wenden wir den Mittelwertsatz noch einmal an, diesmal für die erste Variable, und erhalten D2 D1 ϕ(0, 0) = lim lim D1 D2 ϕ(ϑes,t s, ϑs,t t) t→0 s→0 mit 0 < ϑs,t , ϑes,t < 1 . Da D1 D2 ϕ nach Voraussetzung stetig ist, folgt somit D2 D1 ϕ(0, 0) = D1 D2 ϕ(0, 0). 1 Hermann Amandus Schwarz (1843-1921), deutscher Mathematiker. Schüler von Kum- mer und Weierstraß in Berlin. Er war Professor in Halle, Zürich, Göttingen und der Berliner Akademie der Wissenschaften. Schwarz beschäftigte sich insbesondere mit der Funktionentheorie und zeigte vielfache Anwendungsmöglichkeiten auf. Nach ihm benannt sind die CauchySchwarz-Ungleichung und der Satz von Schwarz. X.3. Höhere partielle Ableitungen und Taylorentwicklung 207 Beispiel X.3.3. Der Satz von Schwarz hat eine interessante Konsequenz für die Existenz von Stammfunktionen“ von Funktionen in mehreren Veränderlichen. ” Gegeben sei eine stetig partiell differenzierbare Funktion v : R2 → R2 (ein sogenanntes Vektorfeld) und gesucht sei eine zweimal stetig partiell differenzierbare Funktion f : R2 → R mit v = grad f = (D1 f, D2 f ), d.h., f ist eine Lösung der partiellen Differentialgleichung ∂f = v1 , ∂x1 ∂f = v2 . ∂x2 Der Satz von Schwarz liefert eine notwendige Bedingung für die Funktion v . Ist obige Gleichung erfüllt, so erhalten wir D2 v1 = D2 D1 f = D1 D2 f = D1 v2 . Wir betrachten hierzu ein konkretes Beispiel: Für die Funktion v : R2 → R2 , (x, y) 7→ (−y, x) ist D2 v1 (x, y) = −1 6= 1 = D1 v2 (x, y) , also existiert keine Funktion f mit v = grad f . In diesem Sinn hat das Vektorfeld v keine Potentialfunktion (es ist kein Gradientenfeld). Dies ist gleichbedeutend zu der Tatsache, dass es keine stetig differenzierbare Funktion f : R2 → R gibt, die die beiden Gleichungen ∂f (x, y) = −y ∂x und ∂f (x, y) = x ∂y erfüllt. Wir führen einige Bezeichnungen ein, die uns in diesem Abschnitt sehr viel Schreibarbeit ersparen werden. Definition X.3.4. (a) • Ein n -Tupel α = (α1 , . . . , αn ) ∈ Nn0 heißt Multi-Index. • Die Zahl |α| := α1 + . . . + αn heißt Ordnung von α . • Die Zahl α! := α1 ! · . . . · αn ! heißt α -Fakultät. Qn β • Die Zahl α := j=1 αβjj heißt Binomialkoeffizient. αn 1 • Die Funktion Rn → R, x 7→ xα := xα 1 · . . . · xn heißt Monom vom Exponenten α . P α • Ist P (x) = ein Polynom (die Summe sei endlich), so α cα x definieren wir seinen Grad durch deg P := max{|α|: cα 6= 0} . Auf der Menge der Multiindizes definiert man Addition und Subtraktion sowie eine partielle Ordnung: 208 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 • Wir definieren β ≤ α : ⇐⇒ βi ≤ αi für alle i ∈ {1, . . . , n} , und • α ± β := (α1 ± β1 , . . . , αn ± βn ) , wobei α − β nur für β ≤ α definiert ist. ∂k 0 (b) Für k ∈ N sei Dik f := Di (Dik−1 f ) =: ∂x k f und Di f := f . Nun definieren i wir eine Kurzschreibweise für höhere gemischte Ableitungen. Für α ∈ Nn0 sei Dα f := D1α1 D2α2 · · · Dnαn f =: 1 ∂xα 1 ∂ |α| f, n · · · ∂xα n D0 f := f. (c) Eine Funktion f : U → Rm heißt C k -Funktion oder k -mal stetig differenzierbar, kurz: f ∈ C k (U, Rm ) , falls sie k -mal stetig partiell differenzierbar ist (vgl. Satz X.2.13). Weiter sei ∞ m C (U, R ) := ∞ \ C k (U, Rm ). k=0 Man beachte, dass sich für f ∈ C k (U, Rm ) jede partielle Ableitung der Ordnung ≤ k als ein Dα f schreiben lässt (Satz von Schwarz). Schließlich setzen wir noch C k (U ) := C k (U, R). Beispiel X.3.5. gilt Ist β ∈ Nn0 und fβ : Rn → R, fβ (x) = xβ = xβ1 1 · . . . · xβnn , so β! β−α , (β−α)! x falls α ≤ β 0, sonst. Um dies einzusehen, wendet man mehrfach die Produktregel an und erhält α D fβ (x) = Dα xβ = (D1α1 xβ1 1 ) · . . . · (Dnαn xβnn ) β1 −α1 β1 ! n! · . . . · (βnβ−α xβn −αn = (β1 −α1 )! x1 n )! n 0 für α ≤ β sonst für alle α ≤ β . An der Stelle x = 0 erhalten wir insbesondere 0, falls α 6= β α β (D x )(0) = α!, sonst. Definition X.3.6. Sei f : U → Rm eine k -mal stetig differenzierbare Funktion. Das k-te Taylorpolynom von f bei u ∈ U ist das Polynom X (Dα f )(u) Tuk (f )(x) = xα α! |α|≤k = f (u) + (D1 f )(u)x1 + (D2 f )(u)x2 1 1 + (D12 f )(u)x21 + (D22 f )(u)x22 + (D1 D2 f )(u)x1 x2 + . . . . 2 2 Man beachte dabei, dass (Dα f )(u) jeweils ein Vektor in Rm ist. Wir erhalten die gleiche Charakterisierung des Taylorpolynoms wie in Kapitel VIII: X.3. Höhere partielle Ableitungen und Taylorentwicklung 209 Bemerkung X.3.7. (a) Das Polynom Tuk (f ) hat in 0 bis zur Ordnung k die gleichen Ableitungen wie f in u , d.h., für alle α mit |α| ≤ k gilt Dα (Tuk (f ))(0) = (Dα f )(u). Dies folgt aus Beispiel X.3.5: β D f (u) β x (0) Dα (Tnk (f ))(0) = Dα β! |β|≤k X Dβ f (u) Dα f (u) α β = D x (0) = α! = Dα f (u). β! α! X |β|≤k (b) Diese ist P Eigenschaft bestimmt das k -te Taylorpolynom eindeutig, denn p(x) = |α|≤k aα · xα mit aα ∈ Rm ein Polynom mit Dα p (0) = Dα f (u) für alle α mit |α| ≤ k , so ist Dα p (0) Dα f (u) = = aα . α! α! Rechenregeln für Taylorpolynome Analog zum Fall n = m = 1 leiten wir die folgenden Rechenregeln ab. Satz X.3.8. Sei U ⊆ Rn offen und u ∈ U . (a) Sind f, g ∈ C k (U, Rm ), λ, µ ∈ R und u ∈ U , so gilt Tuk (λf + µg) = λTuk (f ) + µTuk (g). (b) Ist f ∈ C k (U ) und g ∈ C k (U, Rm ), so gilt die Produktregel: Tuk (f · g) = T0k Tuk (f ) · Tuk (g) . (c) Ist V ⊆ Rm offen und g ∈ C k (U, Rm ) mit g(U ) ⊆ V sowie f ∈ C k (V, R` ), so gilt für g(u) = v die allgemeine Kettenregel Tuk (f ◦ g) = T0k Tvk (f ) ◦ (Tuk (g) − v) . Beweis. (a) Dies folgt aus der Linearität der Abbildungen Dα : C k (U, Rm ) → C k−|α| (U, Rm ). (b) Nach Verschieben um u dürfen wir o.B.d.A. u = 0 annehmen. Wir setzen k α k ϕ(x) := f (x) − T0 (f )(x) und ψ(x) := g(x) − T0 (g)(x) . Dann ist D ϕ (0) = α D ψ (0) = 0 für alle α mit |α| ≤ k und (3.1) (f · g)(x) = T0k (f )(x) · T0k (g)(x) + ϕ(x) · T0k (g)(x) + f (x) · ψ(x). 210 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Wir erinnern uns nun an die Leibnizformel [n] (h1 · h2 ) = n X n k=0 k [k] [n−k] h1 · h2 für die Ableitung von Produkten von Funktionen einer Veränderlichen (Satz VII.2.1). Diese Formel lässt sich leicht auf den Fall von mehreren Veränderlichen verallgemeinern: α1 X αn X α1 αn D (h1 · h2 ) = ··· ··· Dβ (h1 )Dα−β (h2 ) β1 βn β1 =0 βn =0 X α = Dβ (h1 )Dα−β (h2 ), β α (3.2) β≤α α indem man die Faktoren Dj j von Dα nacheinander anwendet. An (3.2) lesen wir nun unmittelbar ab, dass Dα (ϕ · T0k (g))(0) = Dα (f · ψ)(0) = 0 für alle α mit |α| ≤ k gilt, d.h., die Restglieder in (3.1) liefern keinen Beitrag zum k -ten Taylorpolynom. Also gilt (b). (c) Nach Ersetzen von g durch die Funktion ge(x) := g(u + x) − v und f durch die Funktion fe(x) := f (v + x) , dürfen wir o.B.d.A. annehmen, dass u = v = 0 ist, denn die verschobenen Funktionen haben, bis auf den konstanten Term, die gleichen Taylorpolynome. Insbesondere ist dann g(0) = 0 . Nun vereinfacht sich die Behauptung zu T0k (f ◦ g) = T0k T0k (f ) ◦ T0k (g) . Fall 1: Wir zeigen zuerst durch Induktion nach k , dass aus T0k (f ) = 0 schon T0k (f ◦ g) = 0 folgt. Für k = 0 folgt dies aus (f ◦ g)(0) = f (g(0)) = f (0) = 0 . Wir nehmen nun an, dass die Behauptung für k − 1 gilt, d.h., T0k−1 (fe) = 0 impliziert T0k−1 (fe ◦ g) = 0 für C k−1 -Funktionen fe ∈ C k−1 (V, R` ) . Ist nun |α| = k und αj > 0 , so erhalten wir mit der Kettenregel (Bemerkung X.2.10b) und der Leibnizformel: α D (f ◦ g)(0) = D α−ej Dj (f ◦ g)(0) = n X Dα−ej (Di (f ) ◦ g) · Dj (gi ) (0) i=1 = n X X α − ej Dβ (Di (f ) ◦ g)(0) ·Dα−β (gi )(0), {z } | β i=1 β≤α−ej =0 denn wir können die Induktionsvoraussetzung auf die Funktionen Di (f ) anwenden, deren partielle Ableitungen bis zur Ordnung k−1 in 0 verschwinden. Damit X.3. Höhere partielle Ableitungen und Taylorentwicklung 211 ist Dα (f ◦ g)(0) = 0 . Für |α| < k folgt Dα (f ◦ g)(0) = 0 ohnehin aus der Induktionsvoraussetzung. Daher ist T0k (f ◦ g) = 0 . Wir haben also 0 = T0k (f ◦ g) = T0k T0k (f ) ◦T0k (g) | {z } =0 gezeigt. Fall 2: Allgemein setzen wir ϕ := f − T0k (f ) und beachten T0k (ϕ) = 0 . Dann können wir (1) anwenden und erhalten mit Fall 1: T0k (f ◦ g) = T0k T0k (f ) ◦ g + ϕ ◦ g = T0k T0k (f ) ◦ g . Da T0k (f ) ein Polynom ist, erhalten wir durch mehrmaliges Anwenden von (a) und (b): T0k (f ◦ g) = T0k T0k (f ) ◦ T0k (g) . Beispiel X.3.9. Gesucht sei das Taylorpolynom T02 (f ) der Funktion f : R2 → R, 2 f (x1 , x2 ) = ex1 +cos x2 . Wir wollen die allgemeine Kettenregel Satz X.3.8(c) anwenden und schreiben dazu f = g ◦ h für g: R → R, g(x) = ex und h: R2 → R, h(x1 , x2 ) = x21 + cos x2 . In unserem Fall ist u = (0, 0) und v = h(u) = 1 . Wir haben also T02 (f ) = T02 T12 (g) ◦ (T02 (h) − 1) . Über die Reihenentwicklung der Kosinusfunktion erhalten wir direkt T02 (h)(x) = x21 + 1 − x22 , 2 denn alle Terme höherer Ordnung tragen nichts zu den Ableitungen bis zur Ordnung 2 in 0 bei. Weiter ist 1 1 T12 (g)(y) = g(1) + g 0 (1)y + g 00 (1) = e + ey + ey 2 . 2 2 Wir erhalten also 1 1 T12 (g) ◦ (T02 (h) − 1) = e + e(x21 − x22 ) + e2 (x21 − x22 )2 . 2 2 Das Taylorpolynom der Ordnung 2 von diesem Polynom an der Stelle u = 0 erhalten wir durch Weglassen der Terme höherer Ordnung: 1 T02 (f )(x) = T02 T02 (g) ◦ (T12 (h) − 1) (x) = e + e(x21 − x22 ). 2 212 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Bemerkung X.3.10. Sei U ⊆ Rn offen und f ∈ C k (U ) . Weiter sei x + sh ∈ U für s ∈ [0, 1]. Wir betrachten die Funktion g: [0, 1] → Rn , s 7→ x + sh. Für k ≥ 1 und τ ∈ [0, 1] gilt dann Tτk (g)(t) = g(τ ) + t · h , also Tτk (g)(t) − g(τ ) = t · h . k Mit Satz X.3.8(c) und der Tatsache, dass Tg(τ ) (f )(th) schon ein Polynom der Ordnung ≤ k in t ist, erhalten wir X (Dα f )(g(τ )) k k (f )(th) = T (f )(th) = hα · t|α| . Tτk (f ◦ g)(t) = T0k Tg(τ ) g(τ ) α! |α|≤k Aus Tτk (f k X (f ◦ g)[m] (τ ) m t ◦ g)(t) = m! m=0 (der Formel für das Taylorpolynom von f ◦ g: D → R ) folgt daher durch Koeffizientenvergleich (3.3) Dα f (x + τ h) α h . α! X 1 dm (f ◦ g)[m] (τ ) f (x + sh) = = m! m! dsm s=τ |α|=m Nach diesen Vorbereitungen wenden wir uns der Taylorschen Formel zu, die angibt, wie gut eine Funktion durch ihr Taylorpolynom der Ordnung k approximiert wird. Die wesentliche Idee ist, dass wir die Taylorformel für eine Veränderliche auf die Verbindungsstrecke von x und x + h anwenden. Satz von Taylor Satz X.3.11. Sei U ⊆ Rn offen, f ∈ C k+1 (U ), und die Verbindungsstrecke {x + sh | 0 ≤ s ≤ 1} sei in U enthalten. Dann existiert ein θ ∈ ]0, 1[ mit f (x + h) = Txk (f )(h) + X |α|=k+1 Dα f (x + θh) α h . α! Beweis. Sei ϕ(s) := f (x + sh) für 0 ≤ s ≤ 1 . Dann besagt die Taylorformel mit der Restglieddarstellung nach Lagrange (VII.1.6) ϕ(1) = k X 1 [j] 1 ϕ (0) + ϕ[k+1] (θ) j! (k + 1)! j=0 für ein θ ∈ ]0, 1[. Setzen wir (3.3) hier ein, so ergibt sich f (x + h) = ϕ(1) = X |α|≤k Dα f (x) α h + α! X |α|=k+1 Dα f (x + θh) α h . α! 213 X.4. Das lokale Verhalten von Funktionen Satz X.3.12. (Restgliedabschätzung) Für f ∈ C k+1 (U ) gilt f (x + h) = Txk+1 (f )(h) + ϕ(h) ϕ(h) = 0. h→0 khkk+1 mit lim Beweis. Da U offen ist, dürfen wir annehmen, daß Uε (x) ⊆ U ist und khk < ε. Nach Satz X.3.11 gilt für ein τ ∈]0, 1[ : ϕ(h) := f (x + h) − Txk+1 (f )(h) = f (x + h) − Txk (f )(h) − X |α|=k+1 X = |α|=k+1 (Dα f )(x) α h α! Dα f (x + τ h) − Dα f (x) α h . α! Wegen |hj | ≤ khk = khk2 erhalten wir |hα | = |h1 |α1 · . . . · |hn |αn ≤ khkα1 +...+αn = khk|α| = khkk+1 und daher |hα | khkk+1 ≤ 1 . Der Ausdruck Dα f (x + τ h) − Dα f (x) α! in der obigen Summe geht für h → 0 gegen Null, da f ∈ C k+1 (U ) ist. Hiermit ϕ(h) erhalten wir limh→0 khk k+1 = 0 . Man beachte, dass diese Restgliedabschätzung die Approximation f (x + h) = f (x) + df (x)(h) + ϕ(x) mit ϕ(h) −→ 0 khk verallgemeinert, die zur Differenzierbarkeit äquivalent ist. In der Tat erhalten wir für k = 0 das Taylorpolynom Tx1 (f )(h) = f (x) + df (x)(h) = f (x) + n X (Di f )(x)hi . j=1 X.4. Das lokale Verhalten von Funktionen In diesem Abschnitt werden wir Extrema von differenzierbaren reellwertigen Funktionen studieren, die auf offenen Teilmengen des Rn definiert sind. Wir werden hierbei sehen, dass das Verhalten der Funktion in Bezug auf Extrema im wesentlichen durch das Taylorpolynom zweiter Ordnung bestimmt wird. 214 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Sei U ⊆ Rn eine offene Teilmenge und f ∈ C 2 (U, R) . Dann ist das Taylorpolynom zweiter Ordnung in u ∈ U gegeben durch Tu2 (f )(x) = f (u) + = f (u) + n X i=1 n X i=1 n 1 X Di Dj f (u)xi xj Di f (u) · xi + 2 i,j=1 n ∂f 1 X ∂2f (u) · xi + (u)xi xj . ∂xi 2 i,j=1 ∂xi ∂xj Hierbei beachten wir, dass jeder Multiindex α vom Grad 1 die Gestalt (0, . . . , 0, 1, 0, . . . , 0) (eine 1 an der i-ten Stelle) besitzt. Multiindizes vom Grad haben die Gestalt (0, . . . , 0, 2, 0, . . . , 0) oder (0, . . . , 0, 1, 0, . . . , 0, 1, 0, . . . , 0). In diesem Abschnitt werden wir das Taylorpolynom der Ordnung 2 einer Funktion verwenden, um ihr lokales Verhalten zu beschreiben. Definition X.4.1. Ist f ∈ C 2 (U, R) und u ∈ U , so heißt 2 ∂ f Hu (f ) := (u) ∂xi ∂xj i,j=1,...,n die Hessematrix von f in u . Nach dem Satz von Schwarz ist Hu (f ) eine symmetrische Matrix. Die Abbildung e u (f ) : Rn → R, x 7→ hHu (f )x, xi = H n X ∂2f (u)xi xj ∂x ∂x i j i,j=1 heißt Hesseform von f in u . Sie ist eine quadratische Form auf Rn . Mit der obigen Definition gilt für das Taylorpolynom zweiter Ordnung einer Funktion f ∈ C 2 (U, R) e u (f )(h) = f (u) + Ju (f )h + 1 h> Hu (f )h Tu2 (f )(h) = f (u) + df (u)(h) + 12 H 2 und f (u + h) = Tu2 (f )(h) + ϕ(h) mit |ϕ(h)| khk2 −→ 0 für h → 0 (vgl. X.3.11). Definition X.4.2. Sei U ⊆ Rn offen und f ∈ C 1 (U ) . Ein Punkt u ∈ U heißt kritischer Punkt, wenn df (u) = 0 ist. In diesem Fall heißt f (u) kritischer Wert von f . Wir beachten, dass u genau dann kritischer Punkt ist, wenn alle partiellen Ableitungen von f in u verschwinden, d.h. D1 (f )(u) = . . . = Dn (f )(u) = 0 gilt. X.4. Das lokale Verhalten von Funktionen 215 Definition X.4.3. Sei f : U → R differenzierbar. (a) Ein Punkt u ∈ U heißt ein (isoliertes) lokales Maximum von f , wenn ein ε > 0 so existiert, dass Uε (u) ⊆ U und f (u + h) ≤ f (u) (f (u + h) < f (u) ) für alle h mit 0 6= khk < ε gilt. Der Begriff des (isolierten) lokalen Minimums wird analog definiert. Die Funktion f hat in u ein lokales Extremum, wenn sie in u ein lokales Maximum oder ein lokales Minimum hat. (b) Der Punkt u heißt globales Maximum bzw. globales Minimum, falls für alle v ∈ U gilt f (v) ≤ f (u) (bzw. f (v) ≥ f (u) ). Notwendige Bedingung für Extrema Lemma X.4.4. Hat f ∈ C 1 (U ) in u ein lokales Extremum, so ist u ein kritischer Punkt. Beweis. Sei u ∈ U ein lokales Extremum von f und v ∈ Rn . Wir haben zu zeigen, dass df (u)(v) = 0 gilt. Hierzu wählen wir δ > 0 so klein, dass u+tv ∈ U für |t| ≤ δ gilt (die Existenz folgt aus der Offenheit von U ). Wir betrachten nun die Funktion ϕv : [−δ, δ] → R, t 7→ f (u + tv). Diese Funktion hat im Nullpunkt ein lokales Extremum und daher ist 0 = ϕ0v (0) = df (u)(v). Beispiel X.4.5. (a) Sei f : R2 → R, f (x, y) = x2 + y 2 . Dann ist ∇f (x, y) = (2x, 2y) = 0 genau dann, wenn (x, y) = (0, 0) ist. Daher ist der Nullpunkt der einzige kritische Punkt, und es liegt dort ein globales Minimum vor. (b) Genauso hat die Funktion f (x, y) = −x2 − y 2 im Nullpunkt ein globales Maximum. (c) Die Funktion f : R2 → R, (x, y) 7→ x2 − y 2 hat zwar in (0, 0) einen kritischen Punkt, aber trotzdem kein Extremum. Der Nullpunkt ist ein sogenannter Sattelpunkt. Definition X.4.6. (Wiederholung aus der linearen Algebra) Sei A eine symmetrische (n × n) -Matrix. (a) A heißt positiv definit, wenn hAx, xi > 0 für alle x 6= 0 gilt. (b) A heißt positiv semidefinit, wenn hAx, xi ≥ 0 für alle x ∈ Rn gilt. (c) A heißt negativ (semi-)definit, wenn −A positiv (semi-)definit ist. (d) A heißt indefinit, wenn es x, y ∈ Rn gibt, so dass hAx, xi > 0 und hAy, yi < 0 gelten. 216 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Hauptachsentransformation Bemerkung X.4.7. (a) Zu jeder symmetrischen Matrix A existiert eine Orthonormalbasis v1 , . . . , vn von Rn aus Eigenvektoren von A ,P d.h., dass für n jedes j = 1, . . . , n ein λj ∈ R mit Avj = λj vj existiert. Für x = j=1 xj vj gilt dann n X hAx, xi = x2j λj . j=1 Daraus folgt, dass A genau dann positiv (semi-)definit ist, wenn alle Eigenwerte λj > 0 ( λj ≥ 0 ) sind. Die Matrix ist genau dann indefinit, wenn es sowohl positive als auch negative Eigenwerte gibt. (b) Ist A eine positiv definite symmetrische Matrix und B ∈ GLn (R) eine invertierbare Matrix, so ist A genau dann positiv definit, wenn B > AB positiv definit ist. Für v ∈ Rn haben wir nämlich hB > ABv, vi = hABv, Bvi, und da Multiplikation mit B bijektiv ist, ist dieser Ausdruck genau dann für all 0 6= v ∈ Rn positiv, wenn hA.w, wi > 0 für alle 0 6= w ∈ Rn gilt. Also ist A genau dann positiv definit, wenn dies für B > AB der Fall ist. Hurwitzkriterium Satz X.4.8. 1 Eine symmetrische n × n -Matrix A ist genau dann positiv definit, wenn alle Hauptminoren positiv sind, d.h. wenn für alle k ∈ {1, . . . , n} gilt a11 . . . a1k . .. det .. > 0. . ak1 Beweis. ... akk Für k ≤ n setzen wir a11 . Ak := .. ak1 ... a1k .. . . ... akk Notwendigkeit der Bedingung: Ist A positiv definit, so sind auch alle Matrizen Ak positiv definit. In der Tat, für 0 6= x ∈ Rk sei x e = (x1 , . . . , xk , 0, . . . , 0) n der zugehörige Vektor im R . Dann ist hAk x, xi = hAe x, x ei > 0. 1 Adolf Hurwitz (1859–1919), deutscher Mathematiker. Er studierte bei Felix Klein in München und bei Kummer, Kronecker und Weierstraß in Berlin. Professor in Königsberg und Zürich. Er beschäftigte sich vor allem mit Zahlentheorie, aber auch mit Funktionentheorie, wo er das Geschlecht von Riemannschen Flächen untersuchte. Nach ihm sind z.B. das Hurwitzpolynom und das Hurwitzkriterium aus der Stabilitätstheorie dynamischer Systeme benannt; Satz X.4.8 ist eine Variation davon. 217 X.4. Das lokale Verhalten von Funktionen Insbesondere sind dann alle Eigenwerte von Ak positiv, also auch det Ak > 0 . Die Bedingung ist hinreichend: Wir zeigen dies durch Induktion nach n . Für n = 1 ist die Behauptung trivial. Sei nun n > 1 . Nach Induktionsvoraussetzung ist die Matrix An−1 dann positiv definit. Also existiert eine orthogonale (n − 1) × (n − 1) -Matrix S (d.h. SS > = S > S = 1) mit α1 . . . 0 . .. S > An−1 S = .. , α1 , . . . , αn−1 > 0. . 0 . . . αn−1 Sei Se die n × n -Matrix, die durch Se = S 0 0 1 gegeben ist. Dann ist Se ebenfalls orthogonal und wir erhalten α1 . . . 0 b1 .. .. .. . . . . B := Se> ASe = 0 ... α bn−1 n−1 b1 . . . bn−1 bn Nach Voraussetzung ist det B = det A > 0 . Wir setzen 1 ... 0 c1 .. .. .. . . . mit cj := − bj T := 0 ... 1 c αj n−1 0 ... 0 1 und erhalten α1 .. . C := T > BT = 0 0 ... 0 .. . 0 .. . 0 . . . αn−1 ... 0 mit αn = bn − b2 b21 − . . . − n−1 . α1 αn−1 αn Wegen det T = 1 ist die Determinante dieser Matrix α1 · · · αn positiv und somit e )> AST e positiv definit und somit auch A αn > 0 . Daher ist die Matrix C = (ST (Bemerkung X.4.7(b)). Das Hurwitzkriterium lässt sich nicht analog zu einem Kriterium für die positive Semidefinitheit verallgemeinern. Für die Matrix 0 0 0 A = 0 0 0 0 0 −1 gilt det(0) ≥ 0, det 0 0 0 0 ≥0 und det A ≥ 0, aber A ist nicht positiv semidefinit. Der Vorteil des Hurwitzkriteriums ist, dass man die Eigenwerte nicht kennen muss, um auszurechnen, ob eine Matrix positiv oder negativ definit ist. 218 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Folgerung X.4.9. Sei A = (aij ) eine symmetrische (2 × 2)-Matrix. (1) Ist det A < 0, so ist A indefinit. (2) Ist det A > 0 und a11 > 0 , so ist A positiv definit. (3) Ist det A > 0 und a11 < 0 , so ist A negativ definit. Beweis. (1) Ist det(A) < 0 , so haben die beiden Eigenwerte von A verschiedene Vorzeichen. Also ist A indefinit. (2), (3) folgen direkt aus dem Hurwitzkriterium. Hinreichende Bedingung für Extrema Satz X.4.10. Sei U ⊆ Rn eine offene Menge, f ∈ C 2 (U, R) und x ∈ U ein kritischer Punkt von f . Dann gilt: (a) Ist die Hessematrix Hx (f ) positiv definit, so ist x ein isoliertes lokales Minimum. (b) Ist Hx (f ) negativ definit, so ist x ein isoliertes lokales Maximum. (c) Ist Hx (f ) indefinit, so handelt es sich bei x nicht um einen Extremalpunkt. Kritische Punkte, die keine lokalen Extrema sind, nennt man Sattelpunkte. Beweis. Nach Definition X.4.1 gilt 1 f (x + h) = f (x) + df (x)(h) + hHx (f )(h), hi + ϕ(h) 2 1 = f (x) + hHx (f )(h), hi + ϕ(h) 2 ϕ(h) mit limh→0 khk 2 = 0 . Zu jedem ε > 0 existiert also ein δ > 0 mit Uδ (x) ⊆ U und |ϕ(h)| ≤ ε · khk2 für alle h mit khk < δ . (a) Sei A := 21 Hx (f ) positiv definit und λ1 > 0 der kleinste Eigenwert Pn von A. Ist v1 , . . . , vn eine Orthonormalbasis aus Eigenvektoren und h = j=1 hj vj , so ist n X hAh, hi = |hj |2 λj ≥ λ1 khk2 j=1 für alle h ∈ Rn . Sei nun ε := λ1 2 und δ wie oben. Für khk < δ gilt dann f (x + h) = f (x) + hAh, hi + ϕ(h) λ1 λ1 ≥ f (x) + λ1 khk2 − khk2 = f (x) + khk2 . 2 2 Also ist x ein isoliertes lokales Minimum. (b) Wende (a) auf −f an. (c) Ist v ∈ Rn ein Vektor mit hAv, vi > 0 , so ist f (x + tv) = f (x) + t2 hAv, vi + ϕ(tv) mit ϕ(tv) −→ 0. t2 t→0 Ist t so klein, dass ϕ(tv) > −hAv, vi gilt, so ist f (x + tv) > f (x) . Analog t2 zeigt man für einen Vektor w mit hAw, wi < 0 die Existenz eines δ > 0 mit f (x + tw) < f (x) für |t| < δ . Folglich ist x ein Sattelpunkt. 219 X.4. Das lokale Verhalten von Funktionen Aus dem Beweis von (c) erhalten wir eine wichtige Folgerung, die wir als notwendige Bedingung für Extrema verstehen können: Folgerung X.4.11. Sei U ⊆ Rn eine offene Menge, f ∈ C 2 (U, R) und x ∈ U ein kritischer Punkt von f . Dann gilt: (a) Ist x ein lokales Minimum, so ist Hx (f ) positiv semidefinit. (b) Ist x ein lokales Maximum, so ist Hx (f ) negativ semidefinit. Beweis. (a) Ist Hx (f ) nicht positiv semidefinit und hHx (f )v, vi < 0 , so folgt aus dem Beweis von Satz X.4.10(c) die Existenz eines δ > 0 , so dass f (x + tv) < f (x) für alle t mit |t| < δ gilt. Also kann x kein lokales Minimum sein. (b) Wir wenden (a) auf −f an. Bemerkung X.4.12. Ist die Hessematrix semidefinit, so lassen sich keine allgemeinen Aussagen machen. Die Funktionen fj : R2 → R : f1 (x, y) = x2 + y 4 , f2 (x, y) = x2 f3 (x, y) = x2 + y 3 und besitzen alle im Nullpunkt die Hessematrix H0 (f1 ) = H0 (f2 ) = H0 (f3 ) = 2 0 0 0 . Die Funktion f1 hat im Nullpunkt ein isoliertes Minimum; f2 hat dort ein (nichtisoliertes) Minimum, und f3 besitzt kein Extremum. Beispiel X.4.13. Wir wollen für die Funktion f : R2 → R, f (x, y) = 3x + 4y + sin(xy) 2x + y − (cos x)(1 − cos y) das lokale Verhalten im Nullpunkt bestimmen. Dazu berechnen wir ihr Taylorpolynom der Ordnung 2 (siehe die Bemerkung unten): T02 (f )(x, y) x2 y 2 = 3x + 4y + xy 2x + y − (1 − )(1 − (1 − )) 2 2 = (3x + 4y)(2x + y) = 6x2 + 8xy + 3xy + 4y 2 = 6x2 + 11xy + 4y 2 , T02 d.h., die Hessematrix ergibt sich zu H0 (f ) = 12 11 11 8 . Daher ist der Nullpunkt wegen 12 > 0 und det H0 (f ) = 96 − 121 < 0 ein Sattelpunkt. Bemerkung zur Berechnung der Taylorpolynome: Zunächst wissen wir, dass die Funktion sin sich auf R durch eine Potenzreihe darstellen lässt: ∞ X (−1)k 2k+1 x . sin x = (2k + 1)! k=0 220 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Da sich konvergente Potenzreihen gliedweise differenzieren lassen, stimmt diese Reihe mit der Taylorreihe T0 (sin) überein. Betrachten wir nun die Funktion f : R2 → R, f (x, y) = sin(xy) , so ist f beliebig oft partiell differenzierbar und hat die Reihenentwicklung (†) ∞ X (−1)k 2k+1 2k+1 x y . f (x, y) = (2k + 1)! k=0 Halten wir jeweils x oder y fest, so ergibt sich eine überall konvergente Potenzreihe in einer Variablen, die wir gemäß Satz VI.5.3 gliedweise differenzieren dürfen. Wir erhalten daher sukzessive für die partiellen Ableitungen: ∞ X (−1)k = D1m (x2k+1 )D2k (y 2k+1 ). (2k + 1)! D1m D2k f (x, y) k=0 Hieraus erkennen wir insbesondere, dass († ) mit der Taylorreihe der Funktion f übereinstimmt. Insbesondere ist T02 (f )(x, y) = xy, was wir oben verwendet haben. Alternativ kann man mit der Kettenregel für Taylorpolynome argumentieren (Satz X.3.8(c)). X.5. Vertauschbarkeit von Ableitung und Integral In diesem kurzen Abschnitt lernen wir eine wichtige Rechenmethode kennen, die das Vertauschen von Ableiten und Integration betrifft, sofern verschiedene Variablen betroffen sind. Satz X.5.1. Sei U ⊆ Rn eine offene Menge und D = [a, b] ⊆ R ein Intervall. Die Funktion f : D × U → R sei stetig. Dann ist die Funktion b Z F : U → R, x 7→ f (t, x) dt a ∂f : D × U → R , i = 1, . . . , n , so ist stetig. Hat f stetige partielle Ableitungen ∂x i auch F stetig nach xi differenzierbar, und es gilt ∂ ∂xi Z b Z f (t, x) dt = a a b ∂f (t, x) dt. ∂xi Beweis. (a) Sei x ∈ U . Da U offen ist, existiert ein r > 0 mit U2r (x) ⊆ U . Die Menge D × Ur (x) = D × {y ∈ Rn : ky − xk ≤ r} ⊆ Rn+1 X.5. Vertauschbarkeit von Ableitung und Integral 221 ist nach dem Satz von Heine–Borel kompakt, denn sie ist abgeschlossen und beschränkt, also ist f auf D × Ur (x) gleichmäßig stetig (Satz IX.3.19). Zu jedem ε > 0 existiert also ein δ ∈]0, r[ mit |f (t, x + h) − f (t, x)| < ε für alle h mit khk < δ. b−a Es folgt b Z |F (x + h) − F (x)| ≤ |f (t, x + h) − f (t, x)| dt ≤ a ε (b − a) = ε b−a für alle h mit khk < δ , d.h., F ist stetig. (b) Für x ∈ U und h ∈ R mit x + hei ∈ U definieren wir ( f (t,x+hei )−f (t,x) , falls h 6= 0 h g(t, x, h) := ∂f falls h = 0. ∂xi (t, x), Wir behaupten, dass diese Funktion auf der Menge e := {(t, x, h) ∈ D × U × R: x + hei ⊆ U } U stetig ist. In allen Punkten (x, y, h) mit h 6= 0 ist dies klar. Wir müssen die Stetigkeit also nur in den Punkten der Gestalt (x, y, 0) nachweisen. Nach dem Mittelwertsatz der Differentialrechnung ist f (t, x + hei ) − f (t, x) ∂f = (t, x + ϑh hei ) h ∂xi für ein ϑh ∈]0, 1[, falls x + [0, 1]hei ⊆ U ist. Gilt (tn , xn , hn ) → (t0 , x0 , 0) , so auch ϑhn hn −→ 0 . Für ausreichend große n ist xn + [0, 1]hn ⊆ U . Für solche n erhalten wir daher ∂f f (tn , xn + hn ei ) − f (tn , xn ) = (tn , xn + ϑn hn ei ) h ∂xi ∂f −→ (t0 , x0 ) = g(t0 , x0 , 0), ∂xi g(tn , xn , hn ) = d.h., die Funktion g ist stetig. Es gilt also wegen (a) Z b Z b Z b ∂F ∂f (a) (x) = lim g(t, x, h) dt = g(t, x, 0) dt = (t, x) dt, h→0 ∂xi a a a ∂xi h6=0 und diese Funktion hängt nach dem ersten Teil stetig von x ab. Bemerkung X.5.2. so sieht man induktiv Hat f stetige partielle Ableitungen der Ordnung ≤ k , α Z D F (x) = b D(0,α) f (t, x) dt a für alle |α| ≤ k , wobei (0, α) = (0, α1 , . . . , αn ) ∈ Nn+1 ist. 0 222 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 X.6. Kurvenintegrale und Pfaffsche Formen In diesem Abschnitt lernen wir eine neue Variation zu dem Thema Kurvenintegrale kennen. Die Kurvenintegrale, die wir in Abschnitt X.1 behandelt haben, waren von dem Typ Z Z b f (γ(t))kγ̇(t)k dt, f= a γ wobei γ: [a, b] → Rn eine Kurve war. Der Nachteil dieser Kurvenintegrale ist, dass hier der Geschwindigkeitsvektor der Kurve nur als Skalar eingeht und nicht als vektorielle Größe. Will man zum Beispiel die Arbeit modellieren, die man entlang eines Weges in einem Kraftfeld verrichtet, so sollte das Ergebnis eine skalare Größe sein, auch wenn das Kraftfeld eine vektorielle Funktion ist. Den angemessenen Rahmen für solche Integrale bildet der Kalkül der Differentialformen. Die Differentialformen, die bei den Kurvenintegralen auftreten, nennt man Pfaffsche Formen bzw. Differentialformen erster Ordnung oder 1 -Formen. Mit ihnen lässt sich zum Beispiel die Frage danach, ob ein gegebenes Vektorfeld ein Gradient einer Funktion ist, in der ihr angemessenen Allgemeinheit diskutieren. In der Sprache der Pfaffschen Formen ist es die Frage nach der Existenz einer Stammfunktion einer gegebenen Pfaffschen Form. Diese wiederum lässt sich durch das Verschwinden von Integralen der Pfaffschen Form entlang geschlossener Wege charakterisieren. Definition X.6.1. Sei U ⊆ Rn offen. (a) Eine Pfaffsche Form auf U ist eine Funktion ω: U → Hom(Rn , R), d.h., für jedes x ∈ U ist ω(x): Rn → R eine lineare Abbildung. Wir schreiben Ω1 (U ) für den Raum der Pfaffschen Formen auf U . Um die (1 × n) -Matrix zu erhalten, die die lineare Abbildung ω(p) bzgl. der kanonischen Basis des Rn darstellt, betrachten wir die Funktionen fj : U → R, fj (p) := ω(p)(ej ) und erhalten die darstellende Zeilenmatrix ( f1 (p), · · · , fn (p) ) . (b) Jeder differenzierbaren Funktion F : U → R können wir eine Pfaffsche Form zuordnen, denn die Ableitung dF : U → Hom(Rn , R) ordnet jedem Punkt x ∈ U eine lineare Abbildung dF (x): Rn → R zu. Die Pfaffsche Form dF nennen wir das totale Differential von F . X.6. Kurvenintegrale und Pfaffsche Formen 223 (c) Ist γ: [a, b] → U eine stetig differenzierbare Kurve und ω auf U eine stetige Pfaffsche Form mit den Komponentenfunktionen fj (x) := ω(x)(ej ) , so definieren wir das Integral von ω über γ wir folgt: Z Z b Z bX n ω := ω γ(t) γ̇(t) dt = fj γ(t) γj0 (t) dt. γ a a j=1 Ist γ lediglich stückweise stetig differenzierbar und a = x0 < x1 < . . . < xm = b eine Unterteilung, so dass die Wege γj := γ |[xj ,xj+1 ] : [xj , xj+1 ] → U stetig differenzierbar sind, so definieren wir Z m−1 XZ ω := γ j=0 ω. γj Möchte man konkret mit Pfaffschen Formen rechnen, so erweist es sich als praktisch, sie in den natürlichen Koordinaten des Rn zu beschreiben. Für jedes j ∈ {1, . . . , n} betrachten wir dazu die Funktion xj : Rn → R, p = (p1 , . . . , pn ) 7→ pj . Da xj stetig differenzierbar ist, erhalten wir Pfaffsche Formen dxj ∈ Ω1 (Rn ) , j = 1, . . . , n . Für jedes p ∈ Rn ist dann dxj (p)(h) = hj , d.h., dxj : Rn → Hom(Rn , R) ist die konstante Abbildung, die jedem p die lineare Abbildung xj zuordnet. In diesem Sinn haben wir dxj (p) = xj für alle p ∈ Rn . Es ist klar, dass die linearen Abbildungen x1 , . . . , xn eine Basis des n -dimensionalen Vektorraums Hom(Rn , R) bilden. Ist nun ω ∈ Ω1 (U ) eine Pfaffsche Form und definieren wir die Funktionen fj : U → R durch fj (p) := ω(p)(ej ) , so erhalten wir für jedes p ∈ U : ω(p) = n X fj (p) · dxj (p), j=1 also (6.1) ω= n X fj dxj . j=1 Wir können daher jede Pfaffsche Form wie in (6.1) darstellen, und diese Darstellung ist eindeutig. Ist ω = dF das totale Differential einer stetig differenzierbaren Funktion, so erhalten wir insbesondere n X ∂F dxj (6.2) dF (x) = ∂xj j=1 (man vergleiche dies mit der Kettenregel). 224 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Verhalten bei Parametertransformation Natürlich müssen wir uns überlegen, in welcher Form das Integral einer Pfaffschen Form über eine Kurve von ihrer Parametrisierung abhängt. P Sei ω = j fj dxj eine stetige Pfaffsche Form in der offenen Menge U ⊆ Rn und γ: [a, b] → U eine stetig differenzierbare Kurve. Weiter sei ϕ: [c, d] → [a, b] stetig differenzierbar mit ϕ(c) = a und ϕ(d) = b . Dann ist γ ◦ ϕ: [c, d] → U ebenfalls eine stetig differenzierbare Kurve mit dem gleichen Bild sowie dem gleichen Anfangs- und Endpunkt wie γ . Lemma X.6.2. R ω= R ω (Parametrisierungsinvarianz). Beweis. Nach der Kettenregel gilt (γ ◦ ϕ)0 (t) = ϕ0 (t)γ 0 ϕ(t) . Aus der Transformationsformel für eindimensionale Integrale (Substitutionsregel) ergibt sich daher Z Z d ω γ ◦ ϕ(t) (γ ◦ ϕ)0 (t) dt ω= γ γ◦ϕ γ◦ϕ c Z d ω γ ϕ(t) γ 0 ϕ(t) ϕ0 (t) dt = c Z = b ω γ(s) γ 0 (s) ds = a Z ω. γ Bemerkung X.6.3. Analog zeigt man, dass für eine stetig differenzierbare Bijektion ϕ: [c, d] → [a, b] mit ϕ(c) = b und ϕ(d) = a die Beziehung Z Z ω=− γ◦ϕ ω γ gilt. Wir stellen hier ein interessantes Phänomen fest: durch die Umkehrung der Orientierung ändert das Kurvenintegral sein Vorzeichen. Anschaulich bedeutet dies, dass beim Durchlaufen der Kurve in umgekehrter Richtung das Kurvenintegral sein Vorzeichen umkehrt. Wir berechnen nun das Kurvenintegral eines totalen Differentials. Satz X.6.4. Sei U ⊆ Rn offen und F : U → R stetig differenzierbar sowie γ: [a, b] → U eine stückweise stetig differenzierbare Kurve. Dann gilt Z dF = F (γ(b)) − F (γ(a)). γ X.6. Kurvenintegrale und Pfaffsche Formen 225 Beweis. Wir nehmen zuerst an, dass γ stetig differenzierbar ist. Aus der Kettenregel und dem Hauptsatz der Differential- und Integralrechnung folgt Z b Z dF γ(t) γ 0 (t) dt = dF = γ a Z b (F ◦ γ)0 (t) dt a = (F ◦ γ)(b) − (F ◦ γ)(a) = F (γ(b)) − F (γ(a)). Der allgemeine Fall eines stückweise stetig differenzierbaren Weges ergibt sich nun durch Zusammensetzen der einzelnen Integrale, was zu einer Teleskopsumme führt. Satz X.6.4 besagt insbesondere, dass das Integral eines totalen Differentials NUR von Anfangs- und Endpunkt des Weges abhängt. Ist γ ein geschlossener Weg, d.h. gilt γ(a) = γ(b) , so erhalten wir insbesondere Z dF = 0. γ Beispiel X.6.5. In U := R2 \ {0} betrachten wir die Pfaffsche Form ω(x, y) = − x2 x y dx + 2 dy 2 +y x + y2 und den geschlossenen Weg γ: [0, 2π] → U, t 7→ (cos t, sin t). Dann ist γ 0 (t) = (− sin t, cos t) und daher Z Z ω= γ 0 2π (sin t)2 + (cos t)2 dt = (sin t)2 + (cos t)2 Z 2π 1 dt = 2π. 0 Wir sehen insbesondere, dass ω kein totales Differential sein kann, da das Integral über die geschlossene Kurve γ nicht verschwindet. Ein Einschub über Zusammenhang In diesem Unterabschnitt werden wir kurz einige Aspekte des Zusammenhangsbegriffs diskutieren. Definition X.6.6. (a) Ein metrischer Raum (U, d) heißt zusammenhängend, wenn er nicht disjunkte Vereinigung von zwei offenen nichtleeren Teilmengen ist. D.h., sind U1 , U2 ⊆ U offen mit (6.3) U = U1 ∪ U2 und U1 ∩ U2 = Ø, 226 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 so ist eine der Mengen Uj leer. Ist eine Zerlegung wie in (6.3) gegeben, so ist ist U1c = U \ U1 = U2 offen, also ist U1 auch abgeschlossen. Man überlegt sich leicht, dass die Zerlegungen wie in (6.3) genau denjenigen Mengen entsprechen, die gleichzeitig offen und abgeschlossen sind. Triviale Fälle erhalten wir für U1 = Ø oder U1 = U . Der Raum U ist also genau dann zusammenhängend, wenn Ø und X die einzigen Teilmengen sind, die gleichzeitig offen und abgeschlossen sind. (b) Man nennt einen metrischen Raum (U, d) bogenzusammenhängend, wenn für jedes Paar x, y ∈ U eine stetige Kurve γ: [a, b] → U mit γ(a) = x und γ(b) = y existiert, d.h., x und y lassen sich durch die Kurve γ verbinden. Das folgende Lemma ist von grundlegender Bedeutung für die Analysis. Es liefert eine topologische Charakterisierung der Intervalle in R . Lemma X.6.7. Eine Teilmenge I ⊆ R ist genau dann zusammenhängend, wenn sie ein Intervall ist. Beweis. Ist I kein Intervall, so existieren a < b in I und ein c ∈]a, b[\I . Dann sind die Mengen U1 := {x ∈ I: x < c} und U2 := {x ∈ I: x > c} nichtleer, offen und disjunkt mit U1 ∪U2 = I . Also ist I nicht zusammenhängend. Wir haben noch zu zeigen, dass jedes Intervall zusammenhängend ist. Dazu argumentieren wir indirekt. Wir nehmen an, dass I = U1 ∪ U2 eine Zerlegung in zwei nichtleere disjunkte Mengen ist, die in dem metrischen Raum I jeweils offen sind. Dann existieren a ∈ U1 und b ∈ U2 und wir dürfen o.B.d.A. annehmen, dass a < b gilt. Wir betrachten die disjunkten Teilmengen J1 := U1 ∩ [a, b] und J2 := U2 ∩ [a, b] des Intervalls [a, b]. Wegen [a, b] ⊆ I ist J1 ∪ J2 = [a, b] . Wegen U1 = I \ U2 und U2 = I \ U1 sind die beiden Teilmengen Ui auch abgeschlossen in I , so dass auch die Teilmengen Ji von [a, b] jeweils offen und abgeschlossen sind. Sei c := sup J1 . Da J2 in [a, b] offen ist und b enthält, ist c < b. Andrerseits ist c ∈ J1 , da jede Umgebung von c die Menge J1 schneidet (vgl. Lemma IX.3.13). Da J1 auch in [a, b] offen ist, existiert ein ε > 0 mit ]c−ε, c+ε[⊆ J1 , im Widerspruch zur Definition von c. Damit ist unser indirekter Beweis abgeschlossen. Lemma X.6.8. Ist f : X → Y eine stetige Abbildunge zwischen metrischen Räumen und X (bogen-)zusammenhängend, so ist auch die Teilmenge f (X) ⊆ Y (bogen-)zusammenhängend. Beweis. Bogenzusammenhang: Sei X bogenzusammenhängend und p, q ∈ f (X) . Dann existieren Punkte x, y ∈ X mit f (x) = p und f (y) = q . Aus dem Bogenzusammenhang von X folgt die Existenz einer stetigen Kurve γ: [a, b] → X X.6. Kurvenintegrale und Pfaffsche Formen 227 mit γ(a) = x und γ(b) = y . Dann ist f ◦ γ: [a, b] → f (X) eine stetige Kurve, die p und q verbindet. Also ist f (X) bogenzusammenhängend. Zusammenhang: Sei X zusammenhängend und seien U1 , U2 ⊆ f (X) offene Teilmengen mit f (X) = U1 ∪ U2 und U1 ∩ U2 = Ø. Dann sind Oi := f −1 (Ui ) offene Teilmengen von X mit X = O1 ∪ O2 und O1 ∩ O2 = Ø. Da X zusammenhängend ist, ist eine der Mengen Oi leer. Dann ist aber auch Ui = f (Oi ) leer. Hieraus folgt, dass f (X) zusammenhängend ist. Lemma X.6.9. Ist (U, d) ein bogenzusammenhängender metrischer Raum, so ist (U, d) auch zusammenhängend. Beweis. Sei U = U1 ∪ U2 eine disjunkte Zerlegung in nichtleere offene Teilmengen. Dann existieren x ∈ U1 und y ∈ U2 , und wir finden eine stetige Kurve γ: [a, b] → U mit γ(a) = x und γ(b) = y . Dann ist γ([a, b]) = γ([a, b]) ∩ U1 ∪ (γ([a, b]) ∩ U2 ) eine Zerlegung von γ([a, b]) in zwei paarweise disjunkte offene Teilmengen, was im Widerspruch zum Zusammenhang von γ([a, b]) steht (Lemma X.6.7 und Lemma X.6.8). Definition X.6.10. (a) Ist U eine offene Teilmenge von Rn , so ist jede offene Teilmenge von U auch eine offene Teilmenge von Rn (Nachweis!). D.h., U ist genau dann zusammenhängend, wenn keine zwei nichtleeren offenen Teilmengen U1 , U2 ⊆ Rn so existieren, dass U = U1 ∪ U2 und U1 ∩ U2 = Ø. Eine nichtleere offene zusammenhängende Teilmenge U ⊆ Rn nennen wir ein Gebiet. (b) Wir nennen eine Teilmenge U ⊆ Rn sternförmig bzgl. p ∈ U , wenn für jeden Punkt q ∈ U die ganze Verbindungsstrecke [p, q] := {λp + (1 − λ)q: λ ∈ [0, 1]} in U liegt. Ist U sternförmig bzgl. dem Punkt p , so ist U auch wegzusammenhängend, denn sind x und y Punkte in U , so kann man sie durch eine Kurve verbinden, die zuerst die Strecke [x, p] und dann die Strecke [p, y] durchläuft (Übung). (c) Ist U ⊆ Rn konvex, d.h., liegt mit x, y ∈ U auch deren Verbindungsstrecke [x, y] in U , so ist U sternförmig bzgl. jedem Punkt p ∈ U , insbesondere also auch zusammenhängend. (d) Die Menge U :=]0, 1[∪]1, 2[⊆ R ist nicht zusammenhängend. 228 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Lemma X.6.11. Ist U ⊆ Rn ein Gebiet, d.h. offen und zusammenhängend, sowie x, y ∈ U , so existiert eine stückweise stetig differenzierbare Kurve γ: [0, 1] → U mit γ(0) = x und γ(1) = y . Beweis. Wir betrachten die Teilmenge Ux aller Punkte p ∈ U , für die eine stückweise stetig differenzierbare Kurve η: [0, 1] → U mit η(0) = x und η(1) = p existiert. Ux ist offen: Ist p ∈ Ux , so folgt aus der Offenheit von U die Existenz eines ε > 0 , so dass die Kugel Uε (p) ganz in U enthalten ist. Sei q ∈ Uε (p) und η: [0, 1] → U eine stückweise stetig differenzierbare Kurve mit η(0) = x und η(1) = p . Wir verlängern nun diese Kurve wie folgt: ηe: [0, 1] → U, t 7→ η(2t) für t ∈ [0, 21 ], p + (2t − 1)(q − p) für t ∈] 12 , 1]. Dann ist ηe eine stückweise stetig differenzierbare Kurve in U , die x mit q verbindet. Also ist Uε (p) ⊆ Ux , folglich ist Ux offen. U \Ux ist offen: Ist p 6∈ Ux , so finden wir wie oben ein ε > 0 mit Uε (p) ⊆ U . Wäre ein Punkt q ∈ Uε (p) in der Menge Ux enthalten, so könnten wir die Kurve von x nach q durch ein Streckenstück, das q in Uε (p) mit p verbindet, verlängern und würden so wie oben eine stückweise stetig differenzierbare Kurve von x nach p erhalten, ein Widerspruch. Also ist Uε (p) ganz in U \Ux enthalten und U \ Ux somit offen. Nun ist U = Ux ∪ (U \ Ux ) eine Zerlegung von U in zwei offene disjunkte Teilmengen. Da Ux nicht leer ist und U zusammenhängend, muss U \ Ux leer sein. Also ist U = Ux . Insbesondere ist y ∈ Ux , und dies war zu zeigen. Lokal konstante Funktionen Definition X.6.12. Eine Funktion f : X → R auf einem metrischen Raum (X, d) heißt lokal konstant, wenn für jedes p ∈ X ein ε > 0 existiert, so dass f auf der Kugel Uε (p) konstant ist. Bemerkung X.6.13. Für eine lokal konstante Funktion ist jede Niveaumenge f −1 (c) , c ∈ R , offen und wegen f −1 (c) = X \ [ f −1 (d) d6=c auch abgeschlossen. Hieraus folgt insbesondere, dass auf einem zusammenhängenden metrischen Raum alle lokal konstanten Funktionen schon konstant sind. Ist umgekehrt X.6. Kurvenintegrale und Pfaffsche Formen 229 ˙ 2 eine disjunkte Zerlegung in zwei X nicht zusammenhängend und X = U1 ∪U nichtleere offene Teilmengen, so wird durch f : X → R, f (x) := 1 2 für x ∈ U1 für x ∈ U2 eine lokal konstante Funktion auf X definiert, die nicht konstant ist. Satz X.6.14. Sei U ⊆ Rn ein Gebiet. Eine stetig differenzierbare Funktion F : U → R ist genau dann konstant, wenn dF = 0 gilt. Beweis. Ist F konstant, so gilt trivialerweise dF = 0 . Wir nehmen nun an, dass dF = 0 gilt, und fixieren einen Punkt x ∈ U . Nach Lemma X.6.11 existiert zu jedem y ∈ U eine stückweise stetig differenzierbare Kurve γ: [a, b] → U mit γ(a) = x und γ(b) = y . Mit Satz X.6.4 ergibt sich nun Z Z F (y) − F (x) = dF = 0 = 0. γ γ Also ist F konstant. Folgerung X.6.15. Ist U ⊆ Rn offen und F : U → R differenzierbar, so ist F genau dann lokal konstant, wenn dF = 0 ist. Beweis. Ist F lokal konstant, so gilt trivialerweise dF = 0 . Ist andererseits dF = 0 und p ∈ U , so existiert ein ε > 0 mit Uε (p) ⊆ U . Da die offene Kugel Uε (p) zusammenhängend ist, also ein Gebiet, folgt aus Satz X.6.14, dass F auf Uε (p) konstant ist. Folglich ist F lokal konstant. Beispiel X.6.16. Die Teilmenge U :=]0, 1[∪]1, 2[⊆ R ist offen, aber kein Gebiet. Die Funktion 0 für x ∈]0, 1[ F : U → R, F (x) := 1 für x ∈]1, 2[ ist beliebig oft differenzierbar, und es gilt dF = 0, aber sie ist nicht konstant. Stammfunktionen Pfaffscher Formen Definition X.6.17. Sei ω eine stetige Pfaffsche Form auf der offenen Teilmenge U ⊆ Rn . Eine stetig differenzierbare Funktion F : U → R heißt Stammfunktion von ω , wenn dF = ω gilt. Bemerkung X.6.18. (a) Ist F eine Stammfunktion von ω und c: U → R, p 7→ c die konstante Funktion mit Wert c, so ist auch F + c eine Stammfunktion von ω , da d(F + c) = dF + dc = dF = ω gilt. 230 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Sind umgekehrt F1 und F2 zwei Stammfunktionen von ω , so gilt die Beziehung d(F1 − F2 ) = 0 . Ist U ein Gebiet, so schließen wir mit Satz X.6.14, dass F1 − F2 konstant ist. Auf einem Gebiet U sind Stammfunktionen also bis auf eine additive Konstante eindeutig bestimmt, sofern sie existieren. (b) Sei n = 1 und U ein offenes Intervall. Ist ω eine stetige Pfaffsche Form auf U , so können wir ω schreiben als ω = f · dx. Ist F : U → R eine stetig differenzierbare Funktion, so ist dF = F 0 · dx. Also ist F genau dann eine Stammfunktion der Pfaffschen Form ω , wenn F eine Stammfunktion der Funktion f im Sinne der Differentialrechnung einer Veränderlichen ist (Satz VI.2.2). Insbesondere folgt aus dem Hauptsatz der Differential- und Integralrechnung die Existenz einer Stammfunktion für jede stetige Pfaffsche Form ω auf einem Intervall. Man bekommt sie zum Beispiel durch Z x F (x) := f (t) dt, x0 wobei x0 ∈ U ein fester Punkt ist . (c) Im Gegensatz zum eindimensionalen Fall existiert für n = 2 nicht für jede stetige Pfaffsche Form eine Stammfunktion. Ein Gegenbeispiel hierzu liefert für U := R2 \ {0} die Pfaffsche Form ω=− x2 x y dx + 2 dy 2 +y x + y2 aus Beispiel X.6.5. RWir haben gesehen, dass eine geschlossene Kurve existiert, für die das Integral γ ω nicht verschwindet. Also hat ω keine Stammfunktion. Kriterium für die Existenz von Stammfunktionen Satz X.6.19. Genau dann besitzt die stetige Pfaffsche Form ω auf dem Gebiet U eine Stammfunktion, wenn für jeden geschlossenen Weg γ in U das Integral von ω über γ verschwindet. Beweis. Die Notwenigkeit der Bedingung, dass Integrale über geschlossene Kurven verschwinden, folgt aus Satz X.6.4. Wir nehmen nun an, dass diese Bedingung erfüllt ist. Wir wählen einen festen Punkt p ∈ U . Zu jedem Punkt q ∈ U existiert dann eine stückweise stetig differenzierbare Kurve γ: [0, 1] → U mit γ(0) = p und γ(1) = q (Lemma X.6.11). Wir definieren Z Fγ (q) := ω. γ 231 X.6. Kurvenintegrale und Pfaffsche Formen Um so eine Funktion auf U definieren zu können, müssen wir einsehen, dass Fγ (p) nicht von der Wahl der Kurve γ abhängt. Sei also η: [0, 1] → U eine weitere stückweise stetig differenzierbare Kurve mit η(0) = p und η(1) = q . Wir betrachten die Kurve α: [0, 2] → U, t 7→ γ(t), für t ∈ [0, 1] η(2 − t), für t ∈]1, 2]. Dann ist α eine stückweise stetig differenzierbare Kurve mit α(0) = γ(0) = p = η(0) = α(2) , d.h., α ist geschlossen. Gemäß unserer Voraussetzung ist daher Z Z 0= Z ω− ω= α ω, γ η da im zweiten Teilstück von α die Kurve η rückwärts durchlaufen wird (siehe Bemerkung X.6.3). Hieraus ergibt sich Z Z Fγ (q) = ω= ω = Fη (q). γ η Wir können daher durch F : U → R, q 7→ Fγ (q) eine Funktion definieren. Da es nicht auf die Kurve ankommt, die p und q verbindet, schreiben wir Z q Z F (q) = ω := ω, p γ wobei γ irgendeine Kurve von p nach q ist. Wir zeigen Pn jetzt, dass F eine Stammfunktion von ω ist. Dazu schreiben wir ω = j=1 fj dxj mit stetigen Funktionen fj : U → R . Wir haben zu zeigen, dass F stetig differenzierbar ist mit ∂F = fj , j = 1, . . . , n. ∂xj Sei dazu x ∈ U und ε > 0 mit Uε (x) ⊆ U . Für khk < ε haben wir dann Z F (x + h) = x+h Z ω= p x Z x+h ω+ p Z x+h ω = F (x) + x ω. x Da die Verbindungsstrecke der Punkte x und x + h ganz in Uε (x) und damit auch in U liegt, können wir den Weg γh : [0, 1] → U, t 7→ x + th 232 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 betrachten, der x und x + h verbindet. Damit erhalten wir mit γ̇h (t) = h für alle t : Z x+h Z Z 1 F (x + h) − F (x) = ω= ω= ω(x + th)(h) dt x = γh n Z X j=1 0 1 fj (x + th)hj dt = 0 n Z X j=1 1 fj (x + th) dt · hj . 0 Für die Ableitungen ergibt sich hieraus mit Satz X.5.1: 1 ∂F (x) = lim F (x + hj ej ) − F (x) hj →0 hj ∂xj Z 1 1 fj (x + thj ej ) dt · hj = lim hj →0 hj 0 Z 1 Z 1 = lim fj (x + thj ej ) dt = fj (x) dt = fj (x). hj →0 0 0 Beispiel X.6.20. In einem Gebiet U ⊆ R3 sei das Vektorfeld F : U → R3 gegeben. Wir denken uns F als ein zeitlich konstantes Kraftfeld, z.B. ein elektrisches Feld. Sind F1 , F2 , F3 die Komponenten dieses Feldes, so können wir diese auch als eine Pfaffsche Form interpretieren: ω := F1 · dx1 + F2 · dx2 + F3 · dx3 . Ist nun γ: [a, b] → U eine stückweise stetig differenzierbare Kurve, so interpretieren wir das Integral Z Z ω= γ b X Fj γ(t) γj0 (t) dt = a j=1 Z b hF γ(t) , γ̇(t)i dt a als die Arbeit, die man aufwenden muss, um sich von dem Punkt γ(a) zum Punkt γ(b) entlang des Weges γ zu bewegen. Das ist dadurch gerechtfertigt, dass man für ein kleines Stück des Weges näherungsweise annehmen kann, dass F konstant ist und γ(t) = γ(ti ) + t − ti γ(ti+1 ) − γ(ti ) ti+1 − ti gilt. Dann ist hF γ(t) , γ̇(t)i · (ti+1 − ti ) = hF γ(ti ) , γ(ti+1 ) − γ(ti )i. Dieser Ausdruck ist proportional zu der Länge des Weges, die hier durch die Differenz γ(ti+1 ) − γ(ti ) gegeben ist, zu der Größe des Kraftfelds F im Punkt X.6. Kurvenintegrale und Pfaffsche Formen 233 γ(ti ) und zum Kosinus cos α des Winkels α zwischen diesen beiden Vektoren, da hF γ(ti ) , γ(ti+1 ) − γ(ti )i = cos α · kF γ(ti ) k · kγ(ti+1 ) − γ(ti )k gilt. Ist das Kraftfeld senkrecht zur Richtung des Weges, so wird keine Arbeit verrichtet; ist es dagegen parallel zum Weg, so kommt es auf seine Richtung an, ob Energie notwendig ist, um dagegen anzukämpfen, oder ob potentielle Energie dadurch frei wird, dass man in Richtung des Feldes gezogen wird. (a) Ist F = E ein elektrostatisches Feld, so ist die Arbeit, die man zum Verschieben einer Ladung entlang eines Weges γ verrichten muss, aus physikalischen Gründen nur abhängig von Anfangs- und Endpunkt des Weges, denn sonst würde sich Energie dadurch billig gewinnen lassen, dass man eine Ladung auf eine geschlossene Bahn schickt, auf der sie Energie gewinnen kann. Man spricht daher auch von konservativen Kraftfeldern. R In diesem Fall hängt das Integral γ ω also nur vom Anfangs- und Endpunkt des Weges ab und verschwindet insbesondere für geschlossene Wege. Nach Satz X.6.19 hat die Pfaffsche Form ω daher auf jedem Gebiet U eine Stammfunktion, die gegeben ist durch Z p Φ(p) := ω, p0 wobei p0 ∈ U ein fest gewählter Punkt ist. Die Funktion −Φ nennt man ein Potential des Kraftfelds, das durch ω beschrieben wird. Ist γ eine Kurve von p nach q , so ist Z ω = Φ(q) − Φ(p), γ d.h., die Differenz der Werte der Potentialfunktion Φ gibt die Arbeit an, die entlang des Weges verrichtet wurde. (b) Ein besonders einfaches Feld ist das elektrische Feld einer Punktladung im R3 . Ist eine Ladung der Größe q im Punkt p0 ∈ R3 positioniert, so ist das zugehörige elektrische Feld gegeben durch x − p0 q , E: R3 \ {p0 } → R3 , E(x) = 4πε0 kx − p0 k3 wobei ε0 die elektrische Feldkonstante ist. Wir behaupten, dass die Funktion q 1 Φ: R3 \ {p0 } → R, Φ(x) = 4πε0 kx − p0 k eine Potentialfunktion dieses Vektorfeldes ist. In der Tat haben wir ∂ 1 1 1 1 =− 2x1 = − x1 , 3 ∂x1 kx − p0 k 2 kx − p0 k kx − p0 k3 1 1 1 1 ∂ ∂ =− x , = − x3 2 ∂x2 kx − p0 k kx − p0 k3 ∂x3 kx − p0 k kx − p0 k3 und daher ∇Φ = −E. Das Gravitationsfeld einer Masse im R3 lässt sich vollkommen analog behandeln, da es die gleiche Struktur besitzt. 234 X. Differentialrechnung mehrerer Veränderlicher 31. Oktober 2007 Geschlossene Pfaffsche Formen Die Bedingung, dass die Integrale einer Pfaffschen Form über alle geschlossenen Kurven verschwinden, kann man in der Regel nicht so leicht nachprüfen. Die folgende Bedingung ist eng damit verwandt, lässt sich aber sehr leicht verifizieren. Definition X.6.21. Sei U P ⊆ Rn eine offene Teilmenge. Eine stetig differenzierbare Pfaffsche Form ω = j fj dxj auf U heißt geschlossen, wenn für alle j, k ∈ {1, . . . , n} gilt: ∂fj ∂fk = . ∂xj ∂xk Besitzt die stetig differenzierbare Pfaffsche Form ω auf U eine Stammfunktion, so ist ω geschlossen, denn aus ω = dF = X ∂F X dxj = fj dxj ∂xj j j folgt ∂2F ∂2F ∂fj ∂fk = = = ∂xj ∂xj ∂xk ∂xk ∂xj ∂xk aus dem Satz von Schwarz X.3.2. Die Geschlossenheit einer Pfaffschen Form ist also notwendig für die Existenz einer Stammfunktion. In der Regel ist sie aber nicht hinreichend. Für U := R2 \ {0} und die Pfaffsche Form y x ω=− 2 dx + 2 dy 2 x +y x + y2 ist f1 (x, y) = − x2 y + y2 und f2 (x, y) = x2 x . + y2 Damit ergibt sich 1 2y 2 2y 2 − x2 − y 2 y 2 − x2 ∂f1 =− 2 + = = ∂y x + y2 (x2 + y 2 )2 (x2 + y 2 )2 (x2 + y 2 )2 und 2x2 x2 + y 2 − 2x2 y 2 − x2 ∂f2 1 = 2 − 2 = = 2 . ∂x x + y2 (x + y 2 )2 (x2 + y 2 )2 (x + y 2 )2 Also ist ω geschlossen. Andererseits haben wir schon mehrfach gesehen, dass ω keine Stammfunktion besitzt. Ob die Geschlossenheit einer Pfaffschen Form für die Existenz einer Stammfunktion hinreichend ist, entscheidet sich an der geometrischen bzw. topologischen Struktur des Gebietes U . Hierüber kann man in einer Vorlesung über Algebraische Topologie“ mehr lernen. Wir diskutieren hier nur eine einfache ” Bedingung. 235 X.6. Kurvenintegrale und Pfaffsche Formen Satz X.6.22. Ist U ein Gebiet, das sternförmig bzgl. dem Punkt p ∈ U ist, so besitzt jede geschlossene Pfaffsche Form auf U eine Stammfunktion. Beweis.PNach Translation des Gebiets dürfen wir o.B.d.A. p = 0 annehmen. Sei ω = j fj dxj . Wir definieren eine Funktion F : U → R durch das Integral 1 Z F (x) := n X 0 Z fj (tx)xj dt = ω, γx j=1 wobei wir γx : [0, 1] → U, γx (t) = tx, setzen. Man beachte, dass wegen der Sternförmigkeit von U bzgl. 0 das Bild der Kurve γx in U liegt. Mit Satz X.5.1 sehen wir zunächst, dass F differenzierbar ist, und dass wir die Ableitungen erhalten durch n X ∂F (x) = ∂xk j=1 1 Z 0 n Z X ∂ fj (tx)xj dt ∂xk n Z 1 X ∂fj (tx) ∂xj = txj dt + fj (tx) dt ∂xk ∂xk j=1 0 j=1 0 Z 1X Z 1 n ∂fk (tx) = txj dt + fk (tx) dt. ∂xj 0 j=1 0 1 Setzen wir L(t) := fk (tx) , so folgt aus der Kettenregel L0 (t) = n X ∂fk (tx) j=1 ∂xj xj , und wir erhalten ∂F (x) = ∂xk Z 1 0 Z L (t)t dt + 0 Z = 1 L(t) dt 0 1 0 tL(t) dt = 1 · L(1) − 0 · L(0) = L(1) = fk (x). 0 Beispiel X.6.23. Wir kommen nochmal auf das Beispiel X.6.5 zurück. Natürlich ist das Gebiet U = R2 \ {0} nicht sternförmig bzgl. einem seiner Punkte. Nehmen wir allerdings einen ganzen Strahl, zum Beispiel ]−∞, 0]×{0} = −R+ e1 heraus, so ist das Restgebiet U1 := R2 \ ] − ∞, 0] × {0}) sternförmig bzgl. dem Punkt (1, 0) . Nach Satz X.6.22 hat ω daher auf dem kleineren Gebiet U1 eine Stammfunktion. 236 XI. Der Satz über die Umkehrfunktion 31. Oktober 2007 XI. Der Satz über die Umkehrfunktion In diesem Kapitel werden wir sehen, wie man die differenzierbare Version des Satzes über die Umkehrfunktion auf Funktionen in mehreren Veränderlichen verallgemeinert. In der eindimensionalen Situation konnten wir die Ordnungsstruktur von R ausnutzen, da stetige Funktionen auf Intervallen genau dann injektiv sind, wenn sie monoton sind. Im Mehrdimensionalen wird die Situation komplizierter. Der entsprechende Satz über die Umkehrfunktion ist ein zentrales Ergebnis der Differentialrechnung mehrerer Veränderlicher. Er hat wichtige Anwendungen auf die Beschreibung von Lösungsmengen von Gleichungen, der wir uns im nächsten Kapitel zuwenden. XI.1. Der Banachsche Fixpunktsatz Wir betrachten auf dem metrischen Raum Rn immer die euklidische Norm n X 12 kxk := kxk2 := x2j . j=1 n m Auf dem Raum Hom(R , R ) der linearen Abbildungen von Rn nach Rm betrachten wir die zugehörige Operatornorm kAk := sup{kAxk : x ∈ Rn , kxk ≤ 1}. Wir werden oft den linearen Abbildungen A ∈ Hom(Rn , Rm ) ihre Matrix bzgl. der kanonischen Basen in Rn und Rm zuordnen. Wir erhalten so eine bijektive lineare Abbildung m X Hom(Rn , Rm ) → Mm,n (R), A 7→ (aij ), wobei A(ej ) = aij ei i=1 gilt. Definition XI.1.1. Es sei n ∈ N . Dann heißt die Menge n GL(R ) := Aut(Rn ) = {A ∈ End(Rn ) : A invertierbar } die allgemeine lineare Gruppe (general linear group). Identifizieren wir lineare Endomorphismen von Rn mit ihren Matrizen bzgl. der kanonischen Basis, so führt diese zu einer Identifikation von End(Rn ) mit dem Raum Mn (R) der (n × n) -Matrizen. In diesem Sinn schreiben wir auch GLn (R) für die Menge der invertierbaren (n × n) -Matrizen. 237 XI.1. Der Banachsche Fixpunktsatz Bemerkung XI.1.2. (a) Für A ∈ End(Rn ) ist A ∈ GL(Rn ) ⇐⇒ det A 6= 0. (b) Die Abbildung 2 det : Mn (R) ∼ = Rn → R, A = (aij ) 7→ det A = X sgn(σ)a1,σ(1) · · · an,σ(n) σ∈Sn ist eine stetige Funktion. Sie ist ein Polynom des Grades n . Hierbei ist Sn die n! -elementige Gruppe der Permutationen der Menge {1, . . . , n} (vgl. Bemerkung I.4.5). Aufgabe XI.1.1. Sei U ⊆ Rn offen und k ∈ N . Ist f ∈ C k (U, Rm ) und g ∈ C k (U ) mit g(x) 6= 0 für alle x ∈ U , so ist g1 f ∈ C k (U, Rm ) . Die entsprechende Aussage gilt auch für k = ∞. Satz XI.1.3. (a) Die Gruppe GL(Rn ) ist eine offene Teilmenge von End(Rn ). (b) Die Inversion GL(Rn ) → GL(Rn ) ⊆ End(Rn ) ist beliebig oft differenzierbar. Beweis. Für den Beweis identifizieren wir lineare Abbildungen mit Matrizen. (a) Nach Teil (a) von Bemerkung XI.1.2 ist GLn (R) = det−1 (R \ {0}). Da R \ {0} in R offen ist und det stetig, ist GLn (R) offen (vgl. Satz IV.1.4). (b) Dies folgt aus der expliziten Formel zur Berechnung der Inversen. Die Cramersche Regel besagt A−1 = 1 (−1)i+j det Aji , det A wobei Aji die Matrix ist, die durch Streichen der j -ten Zeile und der i-ten Spalte entsteht. Insbesondere ist jeder Eintrag der inversen Matrix A−1 eine beliebig oft differenzierbare Funktion der Einträge der Matrix A, denn wegen det(A) 6= 0 ist der Nenner immer 6= 0 (siehe Aufgabe XI.1.1). Die folgende Aufgabe enthält eine wichtige Verallgemeinerung des Weierstraßschen Konvergenzkriteriums, das wir im Kontext der gleichmäßigen Konvergenz von Funktionenreihen kennengelernt hatten. Aufgabe XI.1.2. (Allgemeines Majorantenkriterium) Sei (V, k·k) ein BanachP∞ raum. Ist (vn )n∈N eine Folge in V mit n=1 kvn k < ∞, so ist die Reihe ∞ X k=1 vk := lim n→∞ n X vk k=1 konvergent. Hinweis: Die Folge der Teilsummen ist eine Cauchy-Folge. 238 XI. Der Satz über die Umkehrfunktion 31. Oktober 2007 Satz XI.1.4. Ist A ∈ End(Rn ) mit kAk < 1 und 1 := idRn , so ist 1 − A invertierbar und die Neumannsche Reihe −1 (1 − A) = ∞ X Ak k=0 konvergiert. Beweis. Wegen der Submultiplikativität der Norm ist kAk k ≤ kAkk für alle k ∈ N0 . Es folgt ∞ ∞ X X 1 k . kA k ≤ kAkk = 1 − kAk k=0 k=0 P∞ k n Also ist die Reihe k=0 A in (End(R ), k · k) nach dem Majorantenkriterium konvergent (Aufgabe XI.1.2). Weiter ist (1 − A) ∞ X k A = k=0 also P∞ k=0 ∞ X k A − k=0 ∞ X Ak = 1, k=1 Ak = (1 − A)−1 . Der Banachsche Fixpunktsatz Definition XI.1.5. Sei (X, d) ein metrischer Raum. Eine Abbildung f : X → X heißt Kontraktion mit Kontraktionskonstante λ < 1 , wenn für alle x, y ∈ X die Beziehung d f (x), f (y) ≤ λ · d(x, y) gilt. Da Kontraktionen Lipschitz-stetig sind, sind sie insbesondere stetig. Banachscher Fixpunktsatz Satz XI.1.6. Ist (X, d) ein nichtleerer vollständiger metrischen Raum, so hat jede Kontraktion f : X → X genau einen Fixpunkt, d.h. es existiert genau ein x ∈ X mit f (x) = x. Es gilt sogar x = lim f n (y) n→∞ für jeden beliebigen Punkt y ∈ X . Beweis. Sei λ < 1 die Kontraktionskonstante. Eindeutigkeit: Seien x und y Fixpunkte. Dann gilt d(x, y) = d f (x), f (y) ≤ λ · d(x, y), XI.1. Der Banachsche Fixpunktsatz 239 woraus d(x, y) = 0 folgt, d.h. x = y . Existenz: Wir zeigen zuerst, dass für beliebiges y ∈ X die Folge f n (y) n∈N konvergiert. Da X nach Voraussetzung vollständig ist, haben wir zu zeigen, dass dies eine Cauchy-Folge ist. Durch vollständige Induktion erhalten wir zunächst, dass für alle n ∈ N und a, b ∈ X die Beziehung d f n (a), f n (b) ≤ λn · d(a, b) gilt. Für n, k ∈ N folgt hieraus durch wiederholtes Anwenden der Dreiecksungleichung d f n+k (y), f n (y) ≤ λn · d f k (y), y k k−1 k−1 k−2 n (y) + d f (y), f (y) + . . . + d f (y), y ≤ λ d f (y), f ≤ λn λk−1 d f (y), y + . . . + λd f (y), y + d f (y), y = λn (λk−1 + . . . + λ + 1) · d f (y), y 1 − λk λn = λn · d f (y), y ≤ · d f (y), y . 1−λ 1−λ Wegen λn → 0 für n → ∞ ist die Folge f n (y) n∈N eine Cauchy-Folge und konvergiert daher gegen ein x ∈ X . Dann gilt wegen der Stetigkeit von f f (x) = f lim f n (y) = lim f n+1 (y) = x. n→∞ n→∞ Also ist x ein Fixpunkt von f . Der Banachsche Fixpunktsatz ist ein wichtiges Werkzeug der Analysis, das uns auch in anderen Situationen wieder begegnen wird. Des öfteren wird dabei X eine Kugel im Rn sein, oder auch eine Teilmenge eines Funktionenraums (z.B. in der Vorlesung über Differentialgleichungen). Insbesondere in der numerischen Mathematik ist der Banachsche Fixpunktsatz ein Instrument, mit dem sich die Konvergenz von Approximationsverfahren bzw. von numerischen Lösungsmethoden in vielen Fällen beweisen lässt. Kriterium für Vollständigkeit Lemma XI.1.7. Ist (X, d) ein vollständiger metrischer Raum, so ist eine Teilmenge A ⊆ X genau dann abgeschlossen, wenn der metrische Raum (A, d |A×A ) vollständig ist. Beweis. “ ⇒” Ist A abgeschlossen und (xn )n∈N eine Cauchy-Folge in A, so ist sie auch eine Cauchy-Folge in X . Daher existiert ein x ∈ X mit x = limn→∞ xn . Dann ist x ∈ A = A, da A abgeschlossen ist. Folglich konvergiert (xn )n∈N in A. “ ⇐” Sei andererseits A nicht abgeschlossen und x ∈ A \ A . Dann existiert eine Folge in A, die gegen x konvergiert. Dies ist dann eine Cauchy-Folge in A, die in A nicht konvergiert. Somit ist A nicht vollständig. 240 XI. Der Satz über die Umkehrfunktion 31. Oktober 2007 Bemerkung XI.1.8. Der Banachsche Fixpunktsatz hat eine anschauliche Konsequenz, die man leicht selbst beobachten kann. Hierzu sei X das Stadtgebiet Darmstadts, das wir als abgeschlossene Teilmenge des R2 auffassen. Dann ist X ein vollständiger metrischer Raum (Lemma IX.1.7). Wir breiten nun einen Stadtplan von Darmstadt an irgendeiner Stelle auf dem Boden in Darmstadt aus und betrachten die Abbildung f : X → X , die jedem Punkt x ∈ X denjenigen Punkt f (x) zuordnet, über dem das Bild des Punktes x auf dem Stadtplan liegt. Ist der Stadtplan eine Karte im Maßstab 1 : n , so ist f eine Kontraktion des metrischen Raumes X mit der Kontraktionskonstante λ = n1 < 1 . Nach dem Banachschen Fixpunktsatz gibt es also genau einen Punkt x ∈ X im Darmstädter Stadtgebiet für den f (x) = x gilt, d.h. x liegt genau unter demjenigen Punkt des Stadtplans, der diesen Punkt abbildet. Bemerkung XI.1.9. (a) Die Bedingung der Vollständigkeit ist wesentlich. So ist beispielsweise der metrische Unterraum X = ]0, 1] von R bzgl. der üblichen Metrik nicht vollständig, da er nicht abgeschlossen ist. Die Abbildung f : X → X , f (x) = 21 x ist eine Kontraktion, die in X keinen Fixpunkt besitzt. (b) Sei A ∈ End(Rn ) , y ∈ Rn und kAk < 1 . Wir wollen die Gleichung (1 − A)x = y (†) lösen. Hierzu betrachten wir die Abbildung f : Rn → Rn , z 7→ Az + y. Die Fixpunkte dieser Abbildung sind dann genau die Lösungen der Gleichung (†) . Es gilt kf (z1 ) − f (z2 )k = kA(z1 − z2 )k ≤ kAk · kz1 − z2 k mit kAk < 1 , das heißt, f ist eine Kontraktion. Damit hat f genau einen Fixpunkt in Rn , d.h., die Gleichung (†) hat genau eine Lösung. Wir erhalten aus dem Beweis des Banachschen Fixpunktsatzes sogar ein Verfahren, mit dem wir die Lösung näherungsweise berechnen können. Die Folge f n (y) n∈N ist gegeben durch f 0 (y) = y, f 1 (y) = Ay + y, f 2 (y) = A(Ay + y) + y = A2 y + Ay + y, und für allgemeine n ist n f (y) = n X Ak y, k=0 was man leicht per Induktion beweist. Es folgt (1 − A)−1 y = x = lim f n (y) = n→∞ ∞ X Ak y. k=0 Insbesondere erhalten wir so einen neuen Beweis für Satz XI.1.4. XI.2. Der Satz über die Umkehrfunktion 241 XI.2. Der Satz über die Umkehrfunktion Definition XI.2.1. Seien U ⊆ Rn und V ⊆ Rm offen. Eine Abbildung f : U → V heißt C k -Diffeomorphismus, wenn sie eine C k -Abbildung ist, bijektiv und ihre Umkehrabbildung f −1 : V → U ebenfalls C k ist. Lemma XI.2.2. Seien U ⊆ Rn und V ⊆ Rm offen und f : U → V ein C 1 -Diffeomorphismus mit f ∈ C k (U, Rm ). Dann gelten folgende Aussagen: (a) Für jedes u ∈ U ist das Differential df (u) ∈ Hom(Rn , Rm ) invertierbar mit df (u)−1 = d(f −1 )(f (u)). (b) m = n . (c) Die Abbildung f −1 : V → Rn ist k -mal stetig differenzierbar. Beweis. (a) Sei u ∈ U und v = f (u) . Dann folgt aus f −1 ◦ f = idU und f ◦ f −1 = idV mit der Kettenregel d f −1 f (u) ◦ df (u) = d(f −1 ◦ f )(u) = idRn df f −1 (v) ◦ d f −1 (v) = d(f ◦ f −1 )(v) = idRm , −1 also d f −1 f (u) = df (u) , und df (u) ist eine invertierbare lineare Abbildung. (b) Dies folgt sofort aus der Invertierbarkeit von df (u) (Lineare Algebra). (c) Wir erinnern uns, dass die Inversion GL(Rn ) → GL(Rn ), g 7→ g −1 , beliebig oft differenzierbar ist (Satz XI.1.3(b)). Ist f ∈ C k und f −1 ∈ C ` , wobei 0 ≤ ` ≤ k − 1 , so ist die Funktion d(f −1 ) : V → GL(Rn ), −1 v 7→ df f −1 (v) `-mal stetig differenzierbar, also f −1 mindestens `+1 mal stetig differenzierbar. Induktiv ergibt sich also f −1 ∈ C k (V, Rn ) . Bemerkung XI.2.3. Sei f : U → V eine stetig differenzierbare, surjektive Funktion, deren Differential df (x) in allen Punkten x ∈ U invertierbar ist. Kann man hieraus schon schließen, dass f ein Diffeomorphismus ist? Sind U, V ⊆ R offene Intervalle, so ist dies richtig, denn die Invertierbarkeit des Differentials df (x) ist im Eindimensionalen genau die Bedingung, dass f 0 (x) 6= 0 ist. Ist dies für alle x ∈ U der Fall, so ist f streng monoton, insbesondere also injektiv. Im Mehrdimensionalen trifft dies jedoch nicht mehr zu. Hierzu betrachten wir die Funktion f : ]0, ∞[ ×R → R2 \ {(0, 0)} (r, ϕ) 7→ (r cos ϕ, r sin ϕ). 242 XI. Der Satz über die Umkehrfunktion Die Jacobimatrix J(r,ϕ) (f ) = cos ϕ sin ϕ 31. Oktober 2007 −r sin ϕ r cos ϕ ist wegen det J(r,ϕ) (f ) = r 6= 0 immer invertierbar. Die Funktion f ist auch surjektiv. Wegen f (r, 2π + ϕ) = f (r, ϕ) für alle (r, ϕ) ist sie nicht injektiv, also kein Diffeomorphismus. Trotzdem hat f lokale Umkehrfunktionen“: Ist beispielsweise ” U := ]0, ∞[ × ]ϕ0 − π, ϕ0 + π[ für ein ϕ0 ∈ R , so ist f |U : U → f (U ) injektiv, und V := f (U ) = R2 \ R+ · (cos(ϕ0 + π), sin(ϕ0 + π)) ist offen in R2 . Man kann also eine Umkehrfunktion f −1 : V → U definieren. Im folgenden werden wir uns der Frage zuwenden, wie es mit den Differenzierbarkeitseigenschaften solcher Umkehrfunktionen steht. Definition XI.2.4. Eine C k -Abbildung f : U → Rn heißt lokal um u ∈ U invertierbar, wenn es offene Umgebungen U1 von u und V1 von f (u) derart gibt, dass f |U1 : U1 → V1 ein Diffeomorphismus ist. Die Abbildung f |U1 −1 : V1 → U1 heißt dann lokale Umkehrfunktion von f . Ist f in jedem Punkt u ∈ U lokal invertierbar, so heißt f lokaler Diffeomorphismus. Satz über die Umkehrfunktion Theorem XI.2.5. Sei U ⊆ Rn offen, u ∈ U und f : U → Rn eine C k Abbildung. Genau dann ist f um u lokal invertierbar, wenn df (u) invertierbar ist. Die lokale Umkehrfunktion ist dann ebenfalls eine C k -Abbildung. Beweis. Ist f um u lokal invertierbar, so ist df (u) = d(f | U1 )(u) nach Lemma XI.2.2 invertierbar. Sei nun umgekehrt df (u) invertierbar. Wir zeigen, dass f lokal um u invertierbar ist. Dazu reduzieren wir die Situation zunächst auf eine einfachere. Zunächst können wir wegen Lemma XI.2.2(c) annehmen, dass k = 1 ist. Ferner können wir u = 0, f (u) = 0 und df (0) = 1 = idRn annehmen, indem wir die Funktion f durch fe(x) := df (u)−1 f (u + x) − f (u) ersetzen. Dann ist f (x) = df (u) fe(x − u) + f (u) für x∈U XI.2. Der Satz über die Umkehrfunktion 243 e := U − u invertierbar sein sollte, erhalten und falls fe auf einer Teilmenge von U wir direkt eine Umkehrfunktion der entsprechenden Einschränkung von f durch f −1 (y) = fe−1 df (u)−1 (y − f (u)) + u indem wir die Formel für f nach y = f (x) auflösen. Nun wollen wir also für kleine“ y die Gleichung f (x) = y nach x auflösen. ” Definieren wir gy : U → Rn , x 7→ y + x − f (x) , so entspricht dies der Fixpunktgleichung x = gy (x) = y + x − f (x) . Wir suchen also Fixpunkte der Abbildungen gy . Wir müssen eine offene Menge finden, so dass für alle y aus dieser Menge die Abbildung gy eine Kontraktion ist, denn dann wissen wir nach dem Banachschen Fixpunktsatz, dass gy in jeder abgeschlossenen Teilmenge von U , die unter gy invariant ist, genau einen Fixpunkt besitzt. Zunächst betrachten wir y = 0 . Für g(x) := g0 (x) = x − f (x) gilt g(0) = 0 und dg(0) = id − id = 0 . Wegen g ∈ C 1 (U, Rn ) existiert ein r > 0 mit U2r (0) ⊆ U und kdg(x)k ≤ 12 für alle x mit kxk ≤ r (ε - δ -Stetigkeit von df ). Aus dem Satz vom endlichen Zuwachs X.2.16 folgt damit kg(x) − g(x0 )k ≤ 12 kx − x0 k für alle x und x0 mit kxk, kx0 k ≤ r . Insbesondere erhalten wir für x0 = 0 die Beziehung kg(x)k ≤ 2r für kxk ≤ r . Sei X := {x ∈ Rn : kxk ≤ r} . Dann ist gy : X → X, für alle y mit kyk ≤ r 2 gy (x) := g(x) + y ebenfalls eine Kontraktion, denn wir haben für x ∈ X : kgy (x)k = ky + g(x)k ≤ kyk + kg(x)k ≤ r r + = r. 2 2 Da X in dem vollständigen metrischen Raum (Rn , d2 ) abgeschlossen ist, also nach Lemma XI.1.7 ein vollständiger metrischer Raum, folgt die Existenz genau eines x ∈ X mit gy (x) = x aus dem Banachschen Fixpunktsatz XI.1.6. Wir haben also gezeigt, dass zu jedem y mit kyk ≤ 2r genau ein x mit kxk ≤ r und f (x) = y existiert. Sei U1 := {x ∈ Rn : kxk < r, kf (x)k < r } = Ur (0) ∩ f −1 (U r2 (0)). 2 Da f stetig ist, ist diese Menge offen (Urbilder offener Mengen sind offen). Sei weiter V1 := f (U1 ) . Für zwei Punkte x, x0 ∈ Ur (0) erhalten wir kx − x0 k = kg(x) + f (x) − g(x0 ) + f (x0 ) k ≤ kg(x) − g(x0 )k + kf (x) − f (x0 )k ≤ 12 kx − x0 k + kf (x) − f (x0 )k, 244 XI. Der Satz über die Umkehrfunktion 31. Oktober 2007 woraus sich kx − x0 k ≤ 2kf (x) − f (x0 )k ergibt. Für x0 = 0 folgt speziell kxk < r , wenn kf (x)k < 2r ist. Damit ist V1 = f (U1 ) = {y ∈ Rn : kyk < 2r } ; diese Menge ist offen. Ferner sehen wir, dass f | U1 : U1 → V1 bijektiv ist. Also existiert −1 eine Umkehrabbildung ϕ := f |U1 : V1 → U1 , und mit obiger Abschätzung erhalten wir kϕ(y) − ϕ(y 0 )k ≤ 2ky − y 0 k, indem man x = ϕ(y) und x0 = ϕ(y 0 ) setzt. Die Funktion ϕ ist also stetig. Nun zeigen wir, dass df (x) für alle x ∈ U1 invertierbar ist. Wir wissen, dass für alle x ∈ U1 die Beziehung kdf (x) − 1k = kdg(x)k ≤ 1 2 gilt, und nach Satz XI.1.4 ist daher df (x) invertierbar. ϕ ist stetig differenzierbar: Sei v ∈ V1 ; dann ist v = f (u) für ein u ∈ U1 . Da f in u differenzierbar ist, existiert eine in u stetige Funktion Φ : U1 → End(Rn ) mit f (u + h) − f (u) = Φ(u + h)(h) für alle u + h ∈ U1 . Wegen der Invertierbarkeit von Φ(u) = df (u) und der Stetigkeit von Φ existiert ein δ > 0 mit Φ(u + h) ∈ GL(Rn ) für alle h ∈ Rn mit khk < δ , denn GL(Rn ) ist in End(Rn ) offen und für stetige Abbildungen sind Urbilder offener Mengen offen. Für solche h ist dann ϕ f (u + h) − ϕ f (u) = u + h − u = h = Φ(u + h)−1 f (u + h) − f (u) . Da ϕ stetig ist, ist die Menge {y ∈ V1 : kϕ(y) − uk < δ} = ϕ−1 (Uδ (0)) in Rn offen. Für y ∈ V1 setzen wir h := ϕ(y) − u . Dann ist y = f (u + h) , also −1 ϕ(y) − ϕ(v) = Φ ϕ(y) (y − v), −1 und die Abbildung y 7→ Φ ϕ(y) ist in v stetig, da ϕ stetig ist und die Invern sion in GL(R ) ebenfalls. Damit haben wir bewiesen, dass ϕ in v differenzierbar ist mit −1 −1 dϕ(v) = Φ ϕ(v) = Φ(u)−1 = df (u)−1 = df ϕ(v) . Da dϕ auch stetig ist, erhalten wir ϕ ∈ C 1 (V1 , Rn ). Folgerung XI.2.6. Sei U ⊆ Rn offen und f : U → Rn eine stetig differenzierbare Funktion sowie p ∈ U und r > 0 mit Ur (p) ⊆ U und kdf (x) − 1k ≤ Dann gilt: 1 2 für x ∈ Ur (p). 245 XI.2. Der Satz über die Umkehrfunktion (a) Zu jedem y mit ky − f (p)k ≤ 2r existiert genau ein x ∈ Ur (p) mit f (x) = y , und es gilt für alle x, x0 ∈ Ur (p): kx − x0 k ≤ 2kf (x) − f (x0 )k. Insbesondere ist f auf Ur (p) injektiv. (b) Ist ρ < 3r , so gilt U ρ2 f (p) ⊆ f Uρ (p) ⊆ U r2 (f (p)) und f |Uρ (p) ist ein Diffeomorphismus auf eine offene Bildmenge. Beweis. (a) folgt sofort aus dem ersten Teil des Beweises. (b) Ist y ∈ U ρ2 (f (p)) , so erhalten wir mit (a) sofort ein x ∈ Ur (p) mit f (x) = y . Weiter ist kx − pk ≤ 2kf (x) − f (p)k = 2ky − f (p)k < ρ, also U ρ2 f (p) ⊆ f Uρ (p) . Um die zweite Inklusion einzusehen, beachten wir, dass für alle x ∈ Ur (p) gilt kdf (x)k ≤ kdf (x) − 1k + k1k ≤ 3 , 2 also nach dem Satz vom endlichen Zuwachs X.2.16 die Beziehung kf (x)−f (p)k ≤ 3 kx − pk . Daher ist f (U (p)) ⊆ U f (p) . Dass die Einschränkung von f ρ r/2 2 auf Uρ (p) ein Diffeomorphismus auf eine offene Bildmenge ist, folgt aus dem Beweis des Satz über die Umkehrfunktion (alternativ kann man Folgerung XI.2.7 verwenden, da df (x) für x ∈ Uρ (p) invertierbar ist und f auf dieser Menge injektiv). Der Vorteil der Folgerung XI.2.6 ist, dass man nur wissen muss, dass kdf (x) − 1k ≤ 1 2 für alle x ∈ U3ρ (u) gilt. Dann kann man direkt eine Umgebung von u angeben, auf der f injektiv ist, und mit Folgerung XI.2.6 eine Umgebung von f (u) , die ganz im Bild von f liegt. Der Satz über die Umkehrfunktion ist ein wichtiges Werkzeug der Analysis. Er dient beispielsweise dazu, in vielen Situationen geeignete Koordinaten“ ” einzuführen. Hierbei denken wir uns lokal invertierbare Abbildungen als Ko” ordinatenwechsel“, genau wie die Basistransformationen in der Linearen Algebra. Die folgende Konsequenz aus dem Satz über die Umkehrfunktion findet häufige Anwendung, da sie es erlaubt, sich den Nachweis der Differenzierbarkeit der Umkehrfunktion zu ersparen. Man hat nur Daten zu betrachten, die unmittelbar durch die Funktion f selbst gegeben sind. 246 XI. Der Satz über die Umkehrfunktion 31. Oktober 2007 Folgerung XI.2.7. Sei k ∈ N ∪ {∞}, U ⊆ Rn offen und f ∈ C k (U, Rn ) injektiv, so dass df (x) für alle x ∈ U invertierbar ist. Dann ist f (U ) ⊆ Rn offen und f −1 ∈ C k (f (U ), Rn ), d.h. die Umkehrfunktion ist automatisch eine C k -Funktion. Beweis. Aus dem Satz über die Umkehrfunktion folgt sofort, dass für jedes x ∈ U die Menge f (U ) eine Umgebung von f (x) ist. Also ist V := f (U ) ⊆ Rn offen. Da f : U → V nach Voraussetzung bijektiv ist, existiert eine Umkehrfunktion f −1 : V → U . Ist v = f (u) ∈ V , so finden wir mit dem Satz über die Umkehrfunktion offene Umgebungen U1 von u in U und V1 von v in V , so dass f |U1 : U1 → V1 ein C k -Diffeomorphismus ist. Also ist f −1 |V1 = (f |U1 )−1 eine C k -Abbildung und somit ist f −1 ∈ C k (V, Rn ) . XII.1. Der Satz über implizite Funktionen 247 XII. Gleichungen und Mannigfaltigkeiten Es ist eines der Grundanliegen der Mathematik, Gleichungen der Gestalt F (x) = y für eine gegebene rechte Seite y zu lösen, bzw. die Struktur ihrer Lösungsmengen zu beschreiben. In diesem Kapitel werden wir den Fall behandeln, wo F : U → Rm eine stetig differenzierbare Funktion und U ⊆ Rn offen ist. Der Satz über implizite Funktionen, den wir in Abschnitt XII.1 behandeln, ist eine wichtige Folgerung aus dem Satz über die Umkehrfunktion. Er gibt uns die Möglichkeit, die Lösungsmenge {x ∈ U : F (x) = y} geeignet zu parametrisieren. Insbesondere werden wir hierdurch auf den Begriff der Untermannigfaltigkeit des Rn geführt. In Abschnitt XII.2 wenden wir uns einer weiteren wichtigen Klasse von Problemen zu, die in vielen Anwendungen eine Rolle spielt: den Extremwertaufgaben mit Nebenbedingungen, die durch Gleichungen gegeben sind. XII.1. Der Satz über implizite Funktionen Um den folgenden Satz besser zu verstehen, betrachten wir zuerst das folgende lineare Problem. Sei hierzu f : Rn+k → Rk eine lineare Abbildung. Wir schreiben die Elemente von Rn+k als Paare (x, y) mit x ∈ Rn und y ∈ Rk . Wir möchten nun die Gleichung f (x, y) = 0 nach y auflösen. Da f linear ist, existieren lineare Abbildungen f1 : Rn → Rk und f2 : Rk → Rk mit f (x, y) = f1 (x) + f2 (y) für (x, y) ∈ Rn+k . In dieser Darstellung von f sehen wir, dass sich die Gleichung 0 = f (x, y) = f1 (x) + f2 (y) eindeutig nach y auflösen lässt, wenn die lineare Abbildung f2 invertierbar ist. In diesem Fall erhalten wir y = −f2−1 (f1 (x)) ⇐⇒ f (x, y) = 0. 248 XII. Gleichungen und Mannigfaltigkeiten 31. Oktober 2007 Der Satz über implizite Funktion ist eine Verallgemeinerung dieser Beobachtung auf nichtlineare Abbildungen. Wegen der Nichtlinearität erhält man allerdings nur eine lokale Aussage. Satz über implizite Funktionen Theorem XII.1.1. Seien U ⊆ Rn und V ⊆ Rk offen und f : U × V → Rk eine C m -Abbildung. Für (x, y) ∈ U × V spalten wir das Differential df von f in zwei Bestandteile auf: df (x, y) = d1 f (x, y), d2 f (x, y) , mit d1 f (x, y) = df (x, y) |Rn ×{0} ∈ Hom(Rn , Rk ), d2 f (x, y) = df (x, y) |{0}×Rk ∈ End(Rk ) . Ist (x0 , y0 ) ∈ U ×V mit f (x0 , y0 ) = 0 und d2 f (x0 , y0 ) invertierbar, so existieren offene Umgebungen U1 von x0 in U und V1 von y0 in V sowie eine C m Abbildung η : U1 → V1 mit η(x0 ) = y0 und {(x, y) ∈ U1 × V1 : f (x, y) = 0} = { x, η(x) : x ∈ U1 }. Insbesondere gilt f x, η(x) = 0 für alle x ∈ U1 . Beweis. Die Abbildung ϕ : U × V → Rn × Rk , (x, y) 7→ x, f (x, y) hat die Jacobimatrix 1 J(x,y) (ϕ) = 0 0 .. . 1 ∂fi (x, y) ∂xl i,l 0 ... 0 .. .. . . 0 ... 0 ∂fi (x, y) ∂yj , i,j das heißt, det J(x0 ,y0 ) (ϕ) = det ∂fi (x0 , y0 ) = det((d2 f )(x0 , y0 )) 6= 0. ∂yj Das Differential dϕ(x0 , y0 ) ist also invertierbar. Nach dem Satz über die Umkehrfunktion existiert daher eine Umgebung W von (x0 , y0 ) , so dass ϕ |W : W → ϕ(W ) ⊆ Rn × Rk ein C 1 -Diffeomorphismus ist. Die Umkehrfunktion ψ := (ϕ |W )−1 : ϕ(W ) → W hat dann die Gestalt ψ(x, y) = x, g(x, y) mit einer C 1 -Abb. g: ϕ(W ) → Rk . XII.1. Der Satz über implizite Funktionen 249 Wir definieren η: {x ∈ Rn : (x, 0) ∈ ϕ(W )} → Rk , η(x) := g(x, 0). Dann ist ψ(x, 0) = (x, g(x, 0)) = (x, η(x)) und daher (x, 0) = ϕ(ψ(x, 0)) = ϕ x, η(x) = x, f (x, η(x)) , d.h. f (x, η(x)) = 0 . Ist andererseits f (x, y) = 0 für (x, y) ∈ W , so ist ϕ(x, y) = (x, 0) und daher (x, y) = ψ(x, 0) = (x, η(x)) , also y = η(x) . Wir haben also gezeigt, dass (1.1) {(x, y) ∈ W : f (x, y) = 0} = {(x, η(x)) ∈ W : (x, 0) ∈ ϕ(W )}. Wir wählen jetzt offene Umgebungen U10 von x0 und V1 von y0 zunächst so klein, dass U10 × V1 ⊆ W gilt. Wegen der Stetigkeit von η finden wir eine offene Umgebung U1 ⊆ U10 von x0 mit η(U1 ) ⊆ V1 . Da η |U1 ∈ C m (U1 , Rk ) aus dem Satz über die Umkehrfunktion folgt, ist damit wegen (1.1) alles gezeigt. Bemerkung XII.1.2. (a) Die Voraussetzung von Theorem XII.1.1 lässt sich wie folgt nachprüfen. Wir schreiben hierzu x = (x1 , . . . , xn , y1 , . . . , yk ) für die Elemente von Rn+k . Dann ist die Matrix der linearen Abbildung d2 f (x, y) gegeben durch ∂f ∂fi (x, y) := (x, y) . ∂y ∂yj i,j=1,...,k Man hat also die Invertierbarkeit dieser Matrix zu überprüfen. Ist diese Bedingung an einer Stelle (x0 , y0 ) erfüllt, so garantiert der Satz über implizite Funktionen lokal die Auflösbarkeit der Gleichung f (x, y) = 0 auf U1 × V1 nach y durch die Funktion η , denn für (x, y) ∈ U1 × V1 mit f (x, y) = 0 gilt y = η(x) . Man kann dies auch so interpretieren, dass der Schnitt von U1 × V1 mit der Nullstellenmenge von f der Graph der Funktion η ist. Die Bedingung ∂f det (x0 , y0 ) 6= 0 ∂y denkt man sich daher als eine hinreichende Bedingung für die lokale Auflösbarkeit der Gleichung f (x, y) = 0 nach y . (b) Ist diese Bedingung in einem Punkt (x0 , y0 ) mit c := f (x0 , y0 ) 6= 0 erfüllt, so beschreibt sie eine hinreichende Bedinung für die Auflösbarkeit der Gleichung f (x, y) = c nach y , denn man kann statt f die Funktion f − c betrachten. 250 XII. Gleichungen und Mannigfaltigkeiten 31. Oktober 2007 (c) Eine notwendige Bedingung für die Anwendbarkeit von Theorem XII.1.1 ist, dass die lineare Abbildung df (x0 , y0 ): Rn+k → Rk den Rang k besitzt, d.h. surjektiv ist. Es kann allerdings durchaus passieren, dass dies der Fall ist, ohne dass d2 f (x0 , y0 ) invertierbar ist. Wir nehmen an, dass df (x0 , y0 ) den Rang k besitzt, also surjektiv ist und schreiben x = (x1 , . . . , xn , xn+1 , . . . , xn+k ) für die Elemente von Rn+k . Dann existieren verschiedene Indizes r1 , . . . , rk ∈ {1, . . . , n + k} , so dass die Matrix ∂fi (x0 , y0 ) ∂xrj i,j=1,...,k invertierbar ist. In diesem Fall schreiben wir Rn+k = E1 ⊕E2 , mit E1 = span{ei : (∀j)i 6= rj }, E2 = span{erj : j = 1, . . . , k}. Dann ist E1 ∼ = Rn und E2 ∼ = Rk . Wir schreiben die Elemente von E1 als (z1 , . . . , zn ) und die Elemente von E2 als (zn+1 , . . . , zn+k ) bzgl. einer Basis, die durch eine Permutation aus der kanonischen Basis entsteht, die die Menge der Indizes {r1 , . . . , rk } auf {n+1, . . . , n+k} abbildet. So erhalten wir die Situation aus Theorem XII.1.1, denn nun ist ∂fi (x0 , y0 ) 6= 0 det ∂zn+j i,j=1,...,k i (x , y ) invertierbar. und daher ∂z∂f 0 0 n+j i,j=1,...,k Insbesondere spielt es keine Rolle, wie wir den Rn+k aufteilen. Wichtig ist, dass man in zwei Unterräume E1 und E2 aufteilt, so dass df (x0 , y0 ) |E2 : E2 → Rk invertierbar ist. Beispiel XII.1.3. Wir betrachten die Funktion: 2 x − y2 3 2 f : R → R , f (x, y, z) = x2 − z 2 mit der Jacobimatrix J(x,y,z) (f ) = 2x −2y 2x 0 0 −2z . In diesem Fall ist k = 2 und n = 1 . Die lokale Auflösbarkeitsbedingung nach (y, z) ist erfüllt, wenn ∂f −2y0 0 (x0 , y0 , z0 ) = det = 4y0 z0 6= 0 det 0 −2z0 ∂(y, z) ist. In diesem Fall existieren offene Umgebungen U von x0 und V von (y0 , z0 ) in R2 sowie eine Funktion η: U → R2 (eine Kurve), so dass für ein Tripel (x, y, z) ∈ U × V die Gleichung f (x, y, z) = f (x0 , y0 , z0 ) XII.1. Der Satz über implizite Funktionen 251 genau dann erfüllt ist, wenn (y, z) = η(x) ist, d.h., wenn der Punkt (x, y, z) auf dem Graphen der Kurve η liegt. Ist obige Lösungsbedingung nicht erfüllt, d.h. y0 = 0 , z0 6= 0 und x0 6= 0 , so ist ∂f 2x0 0 (x0 , y0 , z0 ) = det det = −4x0 z0 6= 0 2x0 −2z0 ∂(x, z) und wir erhalten entsprechend lokale Auflösbarkeit nach dem Variablenpaar (x, z) . Der Satz über implizite Funktionen ermöglicht uns, die Nullstellenmenge einer Funktion f lokal als Graph einer Funktion η zu beschreiben, wenn die Bedingung an das Differential erfüllt ist. Betrachtet man beispielsweise den Einheitskreis, d.h. die Nullstellenmenge von f : R2 → R, f (x, y) = x2 + y 2 − 1, so ist die lokale Lösbarkeitsbedingung nach y für U = V = R gegeben durch 0 6= ∂f (x0 , y0 ) = 2y0 , ∂y d.h., in den Punkten mit y0 = 0 kann √ √ man kein η finden. Für y0 > 0 findet 2 man η(x) = 1 − x , und η(x) = − 1 − x2 für y0 < 0 . Um die Punkte (1, 0) und (−1, 0) ist der Kreisbogen nicht als Graph einer Funktion beschreibbar. Allerdings kann man hier die in Bemerkung XII.1.2(c) beschriebene Methode verwenden. Die Bedingung für die Auflösbarkeit der Gleichung nach x ist 0 6= ∂f (x0 , y0 ) = 2x0 ∂x und ist p in den Punkten (±1, 0) erfüllt. Entsprechend erhalten wir Funktionen p 2 2 η(y) = 1 − y für x0 > 0 und η(y) = − 1 − y für x0 < 0 . Bemerkung XII.1.5. (a) Es ist instruktiv, sich klarzumachen, wie der Satz über implizite Funktionen im Kontext der Linearen Algebra aussieht. In diesem Fall ist f : Rn × Rk → Rk eine lineare Abbildung. Gesucht ist eine Parametrisierung von ker f = {v ∈ Rn+k : f (v) = 0}. Die Bedingung aus Theorem XII.1.1 bedeutet, dass f |{0}×Rk surjektiv ist. Für die zugehörige Matrix bedeutet dies, dass die letzten k Spalten linear unabhängig sind. In diesem Fall ist η: Rn → Rk eine lineare Abbildung, deren Graph {(x, η(x)): x ∈ Rn } der Kern von f ist. Die Vektoren (ej , η(ej )) , j = 1, . . . , n , bilden also eine Basis des Kerns. Im allgemeinen kann man nicht erwarten, dass die Lösungsbedingung erfüllt ist, wenn man nicht vorher die Koordinaten geeignet permutiert. 252 XII. Gleichungen und Mannigfaltigkeiten 31. Oktober 2007 (b) Theorem XII.1.1 besagt letztendlich, dass die nichtlineare Gleichung f (x, y) = 0 in einer Umgebung von (x0 , y0 ) eindeutig und stetig differenzierbar nach y auflösbar ist, falls ihre lineare Approximation 0 = df (x0 , y0 )(u, v) = d1 f (x0 , y0 )(u) + d2 f (x0 , y0 )(v) eindeutig nach v auflösbar ist (siehe die Diskussion vor Theorem XII.1.1). Wir beachten hierbei, dass die Bedingung der Invertierbarkeit von d2 f (x0 , y0 ) im allgemeinen nicht notwendig ist. So hat zum Beispiel für f : R2 → R, f (x, y) = (x − y)2 die Gleichung f (x, y) = 0 die eindeutige Lösung y = η(x) = x; aber für x0 = y0 gilt J(x0 ,y0 ) (f ) = 2(x0 − y0 ), 2(y0 − x0 ) = (0, 0). Anwendung XII.1.6. (Algebraische Funktionen) Ein traditionelles Problem der Algebra ist das Auflösen von Polynomgleichungen. Wir schauen uns jetzt an, was uns der Satz über implizite Funktionen hierüber sagt. Sei f : Rn × R → R das Polynom n f (x, t) = t + n X xk tn−k = tn + x1 tn−1 + . . . + xn−1 t + xn . k=1 Dann ist f (x, P t) = 0 genau dann, wenn t eine Nullstelle des Polynoms fx (t) := n f (x, t) = tn + k=1 xk tn−k ist. Sei t0 ∈ R eine einfache Nullstelle von fx0 , d.h. fx0 0 (t) 6= 0 . Dann ist ∂f (x0 , t0 ) = fx0 0 (t0 ) 6= 0. ∂t Dies entspricht der Lösbarkeitsbedingung nach t im Satz über implizite Funktionen XII.1.1. Es existieren also eine Umgebung U von x0 = (x0,1 , . . . ,x0,n ) und eine beliebig oft differenzierbare Funktion η ∈ C ∞ (U ) mit f x, η(x) = 0 für alle x ∈ U und η(x0 ) = t0 . Damit haben wir folgende bemerkenswerte Aussage bewiesen: Die einfachen Nullstellen eines Polynoms hängen lokal beliebig oft differenzierbar von seinen Koeffizienten ab. Funktionen wie das oben beschriebene η nennt man algebraische Funktionen, weil sie Lösungen von polynomialen Gleichungen sind. Als Beispiel sei für n = 2 das Polynom f (x, y, t) = t2 + xt + y angeführt. Die Bedingung für die lokale Auflösbarkeit der Gleichung f (x, y, t) = 0 nach t an der Stelle (x0 , y0 , t0 ) mit f (x0 , y0 , t0 ) ist 2t0 + x0 6= 0 . Wegen f (x, y, t) = t + x2 x 2 +y− 2 4 XII.1. Der Satz über implizite Funktionen 253 bedeutet dies, dass t0 keine zweifache Nullstelle des Polynoms t2 + x0 t + y0 ist, x2 d.h. y0 < 40 . Wir nehmen zuerst r x20 x0 t0 = − + − y0 2 4 an. Eine hierzu passende Funktion η ist dann gegeben durch r x2 x η(x, y) = − + −y 2 4 2 auf der Menge U1 := {(x, y): x4 > y}. Gilt r x20 x0 − y0 , t0 = − − 2 4 so erhalten wir r x x2 η(x, y) = − − −y 2 4 2 auf der Menge U1 := {(x, y): x4 > y} . Man kann dies so interpretieren, dass über jedem Punkt (x, y) der offenen Menge U1 genau zwei Lösungen der Gleichung 2 f (x, y, t) = 0 liegen. Über den Randpunkten (x, y) ∈ ∂U1 gilt x4 = y , und über diesen liegt nur eine Lösung. Die Lösungsmenge sieht also aus wie eine Fläche, die man an der Kurve ∂U1 (eine Parabel) über sich selbst gefaltet hat. Implizites Differenzieren Bemerkung XII.1.7. (Die Ableitung von η ) Die Voraussetzungen seien wie im Satz über implizite Funktionen. Wir schreiben wieder df (x, y) = d1 f (x, y), d2 f (x, y) , mit d1 f (x, y) ∈ Hom(Rn , Rk ) und d2 f (x, y) ∈ End(Rk ) . Aus f x, η(x) = 0 für x ∈ U1 folgt dann mit der Kettenregel 0 = df x, η(x) ◦ id, dη(x) = d1 f x, η(x) + d2 f x, η(x) ◦ dη(x) Ist d2 f x, η(x) invertierbar, so ergibt sich hieraus −1 dη(x) = −d2 f x, η(x) ◦ d1 f x, η(x) . Speziell ergibt sich für n = k = 1 : η 0 (x) = − für f x, η(x) = 0 , falls ∂f ∂y ∂f ∂x ∂f ∂y x, η(x) x, η(x) x, η(x) 6= 0 ist. Wir betrachten die Funktion η : U1 → V1 als eine lokale Parametrisierung der Lösungsmenge der Gleichung f (x, y) = 0 . Letztere wird somit lokal als Graph der Funktion η dargestellt. Der folgende Begriff beschreibt allgemein Teilmengen des Rn , die sich so beschreiben lassen, unabhängig davon, ob sie Lösungsmenge einer Gleichung sind oder nicht. 254 XII. Gleichungen und Mannigfaltigkeiten 31. Oktober 2007 Untermannigfaltigkeiten des Rn Definition XII.1.8. Eine Teilmenge M ⊆ Rn heißt k -dimensionale C m Untermannigfaltigkeit, wenn folgende Bedingung erfüllt ist. Für jeden Punkt p ∈ M existiert eine offene Umgebung U ⊆ Rn , eine offene Teilmenge U 0 ⊆ Rn und ein C m -Diffeomorphismus ϕ : U → U 0 ⊆ Rn mit ϕ(U ∩ M ) = U 0 ∩ Rk × {0} . Eine solche Abbildung heißt Umgebungskarte von M. Eine Familie (ϕj )j∈J von 0 k Umgebungskarten S ϕj : Uj → Uj ∩ R × {0} von M heißt Umgebungsatlas von M, wenn M ⊆ j∈J Uj ist. Eine Untermannigfaltigkeit ist also eine Menge, die in geeigneten krummlinigen Koordinaten (beschrieben durch ϕ ) lokal wie Rk in Rn aussieht. Beispiel XII.1.9. (a) (Funktionsgraphen) Sei n = m + k , V ⊆ Rk offen und f : V → Rm eine stetig differenzierbare Funktion. Wir zeigen, dass M := Γ(f ) = {(x, f (x)): x ∈ V } eine k -dimensionale C 1 -Untermannigfaltigkeit von Rm+k ist. Hierzu sei U := V × Rm . Dies ist eine offene Menge, die Umgebung aller Punkte in M ist. Wir betrachten die Abbildung ϕ: U → U ⊆ Rn , ϕ(x, y) = x, y − f (x) . Dann ist ϕ ein C 1 -Diffeomorphismus der Menge U mit der inversen Abbildung −1 ϕ (x, y) = x, y + f (x) . Weiter gilt ϕ(U ∩ M ) = ϕ(M ) = V × {0} = U ∩ (Rk × {0}). Die Abbildunge ϕ liefert also einen einelementigen Umgebungsatlas von M . (b) (Die n -Sphäre) Wir betrachten die n -Sphäre n S := x ∈ R n+1 n n o X n+1 : kxk2 = 1} = x ∈ R : x2j = 1 . j=1 Wir zeigen, dass Sn eine n -dimensionale Untermannigfaltigkeit von Rn+1 ist. Für jeden Index j ∈ {1, . . . , n + 1} betrachten wir die offenen Mengen n o X Uj± = x ∈ Rn+1 : x2i < 1, ±xj > 0 . i6=j 255 XII.1. Der Satz über implizite Funktionen Jede der Mengen Uj± ist offen, und diese Mengen überdecken Sn . Wir betrachten die Abbildungen ± ϕ± j : Uj →R n+1 , ϕ± j (x) = x1 , . . . , xj−1 , xj+1 , . . . , xn , xj ∓ 1 − X x2i 21 . i6=j ± ± Dann ist ϕ± j ein Diffeomorphismus auf ϕj (Uj ) (Nachweis als Übung!), und es gilt ± ± ± n ϕ± j (Uj ∩ M ) = ϕj (Uj ) ∩ (R × {0}). Hiermit sieht man, dass die 2(n + 1) Umgebungskarten ϕ± j , j = 1, . . . , n + 1 einen Umgebungsatlas von Sn bilden. Aufgabe XII.1. Sei M ⊆ Rn eine Teilmenge. Zeigen Sie: Die Eigenschaft von M , eine k -dimensionale C m -Untermannigfaltigkeit zu sein, ist in dem folgenden Sinne lokal. Die Teilmenge M ist genau dann eine k -dimensionale C m Untermannigfaltigkeit von Rn , wenn für jeden Punkt p ∈ M eine offene Umgebung U existiert, so dass U ∩M eine k -dimensionale C m -Untermannigfaltigkeit ist. Bemerkung XII.1.10. (a) Erfüllt f : U × V → Rk (U ⊆ Rn , V ⊆ Rk ) in (x0 , y0 ) die Voraussetzung des Satzes über implizite Funktionen XII.1.1, d.h., ist d2 f (x0 , y0 ) invertierbar, so besagt Definition XII.1.8, dass die Menge M := {(x, y) ∈ U1 × V1 : f (x, y) = 0} eine k -dimensionale Untermannigfaltigkeit von Rn+k ist, denn sie ist ein Funktionsgraph. Die Abbildung ϕ : U1 × V1 → Rn+k aus dem Beweis ist eine Umgebungskarte. Möchte man zeigen, dass die gesamte f := {(x, y) ∈ U × V : f (x, y) = 0} eine Untermannigfaltigkeit Lösungsmenge M f eine Umgebungskarte zu ist, so hat man allerdings für jeden Punkt (x0 , y0 ) ∈ M finden (vgl. Beispiel XII.1.4). (b) Ist speziell f : Rn → Rk eine surjektive lineare Abbildung, so ist M := ker f eine (n − k) -dimensionale Untermannigfaltigkeit von Rn (vgl. Rangsatz: dim ker f = dim Rn − dim im f = n − dim im f ). Definition XII.1.11. Funktion, so heißt Ist U ⊆ Rn offen und f : U → Rk eine differenzierbare rgu (f ) := rg df (u) der Rang von f in u . Der Punkt u heißt kritischer Punkt, wenn rgu (f ) < k ist. In diesem Fall heißt f (u) ∈ Rk kritischer Wert. Ein Punkt y ∈ Rk heißt regulärer Wert, wenn y kein kritischer Wert ist, d.h., wenn die Menge f −1 (y) keine kritischen Punkte enthält. Beachte, dass alle Punkte y ∈ / f (U ) reguläre −1 Werte sind, weil f (y) = Ø ist. 256 XII. Gleichungen und Mannigfaltigkeiten 31. Oktober 2007 Den folgenden Satz kann man als eine globale Version des Satz über implizite Funktionen verstehen, denn er gibt nicht nur Auskunft über die lokale Struktur der Lösungsmenge einer Gleichung, sondern über ihre globale Struktur. Rangsatz Satz XII.1.12. Sei U ⊆ Rn offen und f : U → Rk eine C m -Abbildung. Ist w ∈ f (U ) ⊆ Rk ein regulärer Wert von f , so ist das Urbild f −1 (w) eine (n − k)-dimensionale C m -Untermannigfaltigkeit von Rn . Für n = 2 und k = 1 heißen die Mengen f −1 (w) Höhenlinien von f . Im allgemeinen spricht man von Niveaumengen oder Niveauflächen. Beweis. Sei u ∈ f −1 (w) . Wegen der Regularität von u ist rgu (f ) = k . Also k ist die Abbildung g : U → R , x 7→ f (x) − w im Punkt u regulär, d.h., es ∂gi gilt rg (u) = k . Nach geeigneter Umnumerierung der Koordinaten ∂xj i=1...,k j=1,...,n dürfen wir o.B.d.A. annehmen, dassdie ersten k Spalten der Matrix Ju (g) linear ∂gi unabhängig sind, d.h., es ist det 6= 0 (vgl. die Diskussion in ∂xj i,j=1...,k Bemerkung XII.1.2). Sei nun ϕ : U → Rn , x 7→ g1 (x), . . . , gk (x), xk+1 , . . . , xn . Dann ist ∂gi ∂xj i=1...,k j=1,...,n 1 ··· 0 .. . 0 ··· 1 ∂gi eine (n × n) -Matrix mit det Ju (ϕ) = det 6= 0 . Nach dem Satz ∂xj i,j=1...,k über die Umkehrfunktion gibt es also eine offene Umgebung V von u , so dass ϕ |V : V → ϕ(V ) ein Diffeomorphismus ist. Dann ist Ju (ϕ) = 0 ··· 0 .. . 0 ··· 0 ϕ f −1 (w) ∩ V = ϕ g −1 (0) ∩ V = {0} × Rn−k ∩ ϕ(V ). Also ist ϕ eine Umgebungskarte von f −1 (w) um u , und dim f −1 (w) = n−k . Beispiel XII.1.13. (a) Sei A ∈ GLn (R) eine invertierbare symmetrische Matrix und f : Rn → R gegeben durch f (x) = hAx, xi = x> Ax. Nach der Produktregel ist dann df (x)(h) = 2hAx, hi, also Jx (f ) = 2x> A (Nachweis als Übung). Ein Punkt x ∈ Rn ist genau dann ein kritischer Punkt, wenn Ax = 0 ist. Da A invertierbar ist, gilt dies genau dann, wenn x = 0 ist. Der einzige kritische Wert ist also t = 0 . Somit XII.2. Extrema mit Nebenbedingungen 257 ist die Menge f −1 (t) für alle t 6= 0 eine Untermannigfaltigkeit von Rn . Für A = diag(λ1 , . . . , λn ) , λi > 0 , ergeben sich Ellipsoide: n n o X f −1 (t) = x ∈ Rn : λj x2j = t . j=1 Für A = 1 erhalten wir einen neuen Beweis dafür, dass die Sphäre Sn−1 := {x ∈ Rn : kxk = 1} eine (n−1) -dimensionale Untermannigfaltigkeit des Rn ist (Beispiel XII.1.9(b)). (b) Sei f : R2 → R, (x, y) 7→ x4 − y 4 . Dann ist ∇f (x, y) = (4x3 , −4y 3 ) . Also ist (x, y) genau dann kritischer Punkt, wenn (x, y) = (0, 0) ist, und der einzige kritische Wert ist t = 0. Für t 6= 0 sind also alle Höhenlinien von f Untermannigfaltigkeiten von R2 . Für t = 0 ist die zugehörige Höhenlinie keine Untermannigfaltigkeit, da sie aus zwei Geraden besteht, die sich im Nullpunkt schneiden. (c) Ist f : Rn → Rk eine lineare Abbildung, so ist ein Punkt w ∈ f (Rn ) ⊆ Rk genau dann ein regulärer Wert, wenn rg(f ) = k ist (beachte, dass f = df (u) für alle u ∈ Rn gilt, so dass rgu (f ) = rg df (u) = rg(f ) von u unabhängig ist). Dann ist für jeden Punkt w ∈ Rk die Menge f −1 (w) ein affiner Unterraum von Rn : Ist f (x) = w , so ist f −1 (w) = x + ker f . Dies sind spezielle Untermannigfaltigkeiten der Dimension dim(ker f ) = n − k . Aufgabe XII.1. Sei 1 < p < ∞. Wir betrachten die Einheitssphäre M := {x ∈ Rn : kxkp = 1} = {x ∈ Rn : |x1 |p + . . . + |xn |p = 1}. Für welche p ist die Funktion f (x) := |x1 |p + . . . + |xn |p auf Rn stetig differenzierbar? Wie hoch ist die Differenzierbarkeitsordnung? Diskutieren sie zuerst die Funktion R → R, x 7→ |x|p . Für welche k ist M eine C k -Untermannigfaltigkeit? XII.2. Extrema mit Nebenbedingungen Nachdem wir in Abschnitt X.4 Extrema von Funktionen studiert haben, die auf offenen Mengen U ⊆ Rn definiert sind, wenden wir uns nun einer Situation zu, die in praktischen Problemen viel häufiger zu finden ist. Wir werden Extrema mit Nebenbedingungen studieren, d.h. Extrema von Funktionen auf Untermannigfaltigkeiten M ⊆ Rn . Der wesentliche Punkt hierbei ist, dass man dies nicht direkt durch eine Parametrisierung der Untermannigfaltigkeit auf die Situation von Abschnitt X.4 zurückführen möchte, da dies im allgemeinen recht kompliziert sein kann. Vielmehr möchte man direkter notwendige Bedingungen ableiten, die sich mit Daten formulieren lassen, die sich aus der Funktion g ergeben, die die Untermannigfaltigkeit als Niveaumenge g −1 (0) beschreibt. 258 XII. Gleichungen und Mannigfaltigkeiten 31. Oktober 2007 Definition XII.2.1. Sei M ⊆ Rn eine k -dimensionale Untermannigfaltigkeit und p ∈ M . Ein Vektor v ∈ Rn heißt Tangentialvektor an M in p, wenn eine stetig differenzierbare Kurve γ : ] − ε, ε[ → M ⊆ Rn mit γ(0) = p und γ̇(0) = v existiert. Die Menge Tp (M ) aller Tangentialvektoren von M in p heißt Tangentialraum von M in p. Die Menge p + Tp (M ) heißt Tangente an p. Satz XII.2.2. Der Tangentialraum Tp (M ) ist ein k -dimensionaler Untervektorraum von Rn . Beschreiben kann man ihn wie folgt: (a) Ist ϕ : U → U 0 ⊆ Rn eine Umgebungskarte um p mit ϕ(p) = 0 und k ϕ(U ∩ M ) = ϕ(U ) ∩ R × {0} , so ist −1 k Tp (M ) = dϕ(p) R × {0} = d ϕ−1 (0) Rk × {0} . (b) Ist U ⊆ Rn offen, g : U → Rn−k eine stetig differenzierbare Funktion, w ∈ Rn−k ein regulärer Wert von g und M := g −1 (w) = {x ∈ U : g(x) = w} = 6 Ø, so ist Tp (M ) = ker dg(p) . Es ist klar, dass aus (a) und (b) jeweils folgt, dass Tp (M ) ein Vektor- Beweis. raum ist. Zuerst führen wir (b) auf (a) zurück. In der Situation von (b) sei ϕ(x) = x1 , . . . , xk , g(x) wie im Beweis von Theorem XII.1.12, wobei die Matrix ∂gi (p) ∂xj i=1,...,n−k,j=k+1,...,n invertierbar ist. Dann liefert ϕ eine Umgebungskarte um p in M und 1k 0 1 0 k = Jp (ϕ) = ∂gi Jp (g) (p) ∂xj i,j wobei 1k die (k × k) -Einheitsmatrix ist. Dann ist −1 k dϕ(p) R × {0} = ker dg(p). Nun beweisen wir (a). Ist γ : ]−ε, ε[ → M ⊆ Rn eine stetig differenzierbare Kurve mit γ(0) = p und γ̇(0) = v , so ist 0 ϕ ◦ γ (0) = dϕ γ(0) γ̇(0) ∈ Rk × {0}, −1 k d.h., v = γ̇(0) ∈ dϕ(p) R × {0} . Ist umgekehrt −1 k v ∈ dϕ(p) R × {0} und ist ε > 0 , so dass t · dϕ(p)(v) ∈ ϕ(U ) für alle t mit |t| < ε gilt, so definieren wir γ : ] − ε, ε[ → M, t 7→ ϕ−1 t · dϕ(p)(v) . Dann ist γ stetig differenzierbar mit γ(0) = ϕ−1 (0) = p und −1 γ̇(0) = d ϕ−1 (0) dϕ(p)(v) = dϕ(p) ◦ dϕ(p) (v) = v. −1 k Es folgt Tp (M ) = dϕ(p) R × {0} . 259 XII.2. Extrema mit Nebenbedingungen Wir fassen zusammen: (a) Lokal sieht eine Untermannigfaltigkeit M aus wie eine verbogene Kopie einer offenen Teilmenge von Rk im Rn . Der Tangentialraum Tp (Rk ) an Rk ist in allen Punkten p gleich Rk selbst; entsprechend überträgt sich der Tangentialraum durch das Differential der Parametrisierungsabbildung auf die Mannigfaltigkeit. (b) Wird M durch die Gleichung g(x) = 0 beschrieben, so wird der Tangentialraum Tp (M ) durch die Gleichung dg(p)(v) = 0 beschrieben. Ist speziell g : U → R , U ⊆ Rn , so ist M = g −1 (w) eine Niveaufläche der Funktion g . Ist w ein regulärer Wert, so ist Tp (M ) = ker dg(p) = {v ∈ Rn : h∇g(p), wi = 0}. Der Gradient ist also orthogonal zu den Niveauflächen bzw. dem Tangentialraum. Beispiel XII.2.3. (a) Sei M = Sn−1 ⊆ Rn die Einheitssphäre. Man kann sie als Nullstellenmenge der Funktion g(x) = kxk2 −1 = hx, xi−1 beschreiben, d.h., es ist M = g −1 (0) . Null ist ein regulärer Wert. Wegen ∇g(x) = 2x ist Tp (M ) = {v ∈ Rn : hv, pi = 0}, und die Tangente in p ist gleich p + Tp (M ) = {v ∈ Rn : hv, pi = 1}. (b) Sei U ⊆ Rn eine offene Menge und f : U → Rk eine C m -Abbildung. Dann ist der Funktionsgraph M := Γ(f ) := x, f (x) : x ∈ U ⊆ U × Rk eine n -dimensionale Untermannigfaltigkeit, denn für g : U × Rk → R k , g(x, y) := y − f (x) ist M = g −1 (0) und J(x,y) (g) = −Jx (f ) | {z n } 1 0 .. . |0 {z k }1 k , d.h., für alle p ∈ M gilt die Beziehung rgp (g) = k ; insbesondere ist 0 ein regulärer Wert. Um den Tangentialraum zu berechnen, verwenden wir, dass genau dann dg(x, y)(v, w) = −df (x)(v) + w = 0 gilt, wenn w = df (x)(v) ist. Damit erhalten wir T(x,f (x)) (M ) = v, df (x)(v) : v ∈ Rn = Γ df (x) ; 260 XII. Gleichungen und Mannigfaltigkeiten die Tangente als ” 31. Oktober 2007 affine Approximation“ von M ist dann x, f (x) + T(x,f (x)) (M ) = x + v, f (x) + df (x)(v) : v ∈ Rn . Passenderweise ist sie also der Graph der affinen Funktion Tx1 (f )(v) = f (x) + df (x)(v). Definition XII.2.4. Sei M eine C 1 -Untermannigfaltigkeit der offenen Teilmenge U ⊆ Rn und f : U → R eine stetig differenzierbare Funktion. Dann heißt p ∈ M kritischer Punkt von f |M , wenn df (p) |Tp (M ) = 0 gilt. Er heißt dann ein kritischer Punkt unter der Nebenbedingung M . Wir fügen an dieser Stelle einen Satz ein, der eigentlich in die lineare Algebra gehört; wir brauchen ihn im Beweis des nachfolgenden Satzes. Satz XII.2.5. Ist V ein Vektorraum, und sind α, β1 , . . . , βn : V → R lineare Abbildungen, so ist die Bedingung n \ ker α ⊇ ker βj (2.1) j=1 äquivalent zur Existenz von λ1 , . . . , λn ∈ R mit α = λ1 β1 + . . . + λn βn . (2.2) Beweis. Die Richtung (2.2) ⇒ (2.1) ist trivial. Zum Beweis der Richtung (2.1) ⇒ (2.2) betrachten wir die lineare Abbildung ϕ : V → Rn , v 7→ β1 (v), . . . , βn (v) . Dann ist ker ϕ = Tn i=1 ker βi . Wegen α(ker ϕ) = {0} wird durch α e : ϕ(V ) → R, ϕ(v) 7→ α(v) eine lineare Abbildung definiert, die sich zu einer linearen Abbildung α e : Rn → R mit e ◦ ϕ = α fortsetzen lässt. Nun existieren Zahlen λ1 , . . . , λn mit α e(x) = P Pn α n n λ β (v) für alle λ x für alle x ∈ R . Dann gilt α(v) = α e ϕ(v) = i i=1 i i i=1 i v ∈ V , d.h., α = λ1 β1 + . . . + λn βn . XII.2. Extrema mit Nebenbedingungen 261 Satz XII.2.6. Sei U ⊆ Rm+n eine offene Teilmenge, und die m-dimensonale C 1 -Untermannigfaltigkeit M ⊆ U sei durch M := {x ∈ U : g(x) = 0} gegeben, wobei g : U → Rn eine stetig differenzierbare Funktion und 0 ein regulärer Wert sei. (a) Dann ist p ∈ M genau dann ein kritischer Punkt von f ∈ C 1 (U ) unter der Nebenbedingung g = 0 , wenn Zahlen λ1 , . . . , λn ∈ R so existieren, dass n X df (p) = λj dgj (p) j=1 gilt, d.h. df (p) ist von den dgj (p) linear abhängig. Notwendige Bedingung für Extrema (b) Hat f in p ∈ M ein lokales Extremum unter der Nebenbedingung g = 0, so ist p ein kritischer Punkt von f |M . Dass p ein lokales Maximum ist, bedeutet in diesem Kontext, dass ein δ > 0 so existiert, dass f (x) ≤ f (p) für alle x ∈ M mit kx − pk ≤ δ gilt. Beweis. (b) Sei p ein lokales Extremum von f | M . Es ist zu zeigen, dass df (p) |Tp (M ) = 0 gilt, dass also Tp (M ) ⊆ ker df (p) ist. Sei v ∈ Tp (M ) . Dann existiert eine Kurve γ : ] − ε, ε[ → M mit γ(0) = p und γ̇(0) = v . Nun ist 0 ein lokales Extremum der Funktion ] − ε, ε[→ R, t 7→ f γ(t) , also gilt d 0= f γ(0) = df γ(0) γ̇(0) = df (p)(v). dt t=0 Damit ist Tp (M ) ⊆ ker df (p) , also p ein kritischer Punkt von f |M . (a) Nach Satz XII.2.2 ist n \ Tp (M ) = ker dg(p) = ker dgi (p) für g = (g1 , . . . , gn ). i=1 Tn Die Bedingung, dass p kritischer Punkt ist, ist also zu ker df (p) ⊇ i=1 ker dgi (p) äquivalent. Nach Satz XII.2.5 bedeutet dies, dass Zahlen λ1 , . . . , λn ∈ R mit n X df (p) = λi dgi (p) i=1 existieren. Methode der Lagrange-Multiplikatoren Die Zahlen λ1 , . . . , λm in Satz XII.2.6 heißen Lagrange-Multiplikatoren. Will man die lokalen Extrema von f |M bestimmen, so hat man also die 2n + m Gleichungen n X g(x) = 0 und df (x) − λi dgi (p) = 0 i=1 zu lösen. In ihnen kommen 2n + m Unbekannte vor, nämlich x1 , . . . , xm+n und λ1 , . . . , λ n . 262 XII. Gleichungen und Mannigfaltigkeiten 31. Oktober 2007 Beispiel XII.2.7. (a) Sei M = Sk−1 ⊆ Rk die Einheitskugel, also die Nullstellenmenge von g(x) = kxk2 − 1 , und f (x) = hAx, xi für eine symmetrische Matrix A. Wir suchen die kritischen Punkte von f | M . Hier ist n = 1 und m = k − 1 , also m + 2n = k + 1 . Es ist ∇f (x) = 2Ax und ∇g(x) = 2x. Die Gleichungen, die wir lösen müssen, sind also g(x) = 0 und ∇f (x)−λ·∇g(x) = 0 , d.h. kxk2 = 1 und Ax − λx = 0. Ein Punkt x ∈ M ist also genau dann kritischer Punkt von f | M , wenn er Eigenvektor von A zum Eigenwert λ ist. Wegen f (x) = hAx, xi ergibt sich als zugehöriger Funktionswert in x ∈ Sk−1 : f (x) = hAx, xi = λhx, xi = λ. Folglich ist x genau dann ein Minimum von f |M , wenn x Eigenvektor zum minimalen Eigenwert von A ist und ein Maximum genau dann, wenn x Eigenvektor zum maximalen Eigenwert ist. Man beachte: Aus dem Satz vom Maximum folgt die Existenz eines Maximums von f auf der kompakten Menge M = Sk−1 , was bedeutet, dass A mindestens einen reellen Eigenwert hat! Induktiv schließt man hieraus leicht, dass die nach Voraussetzung symmetrische Matrix A reell diagonalisierbar ist (Lineare Algebra II). (b) Sei M = {x ∈ U : g(x) = 0} ⊆ Rn eine Untermannigfaltigkeit, wobei 0 ein regulärer Wert der stetig differenzierbaren Funktion g: U → R ist. Weiter sei p ∈ Rn \ M . Wir suchen in M einen Punkt minimalen Abstands von p . Wir betrachten dazu die Funktion n X f : U → R, f (x) = kx − pk2 = (xj − pj )2 . j=1 Wir nehmen an, dass x ∈ M ein lokales Minimum der Funktion f unter der Nebenbedingung g = 0 ist. Nun ist ∇f (x) = 2(x − p), so dass genau dann ein λ ∈ R mit df (x) + λdg(x) = 0 existiert, wenn df (x) kollinear zu dg(x) ist. Da der Tangentialraum Tx (M ) mit ker dg(x) übereinstimmt, bedeutet dies, dass (x − p) ⊥ Tx (M ) gilt. Wir finden also die notwendige Bedingung, dass die Verbindungsstrecke von p und x senkrecht zu Tp (M ) ist, d.h., diese Verbindungsstrecke trifft orthogonal auf die Untermannigfaltigkeit M . Aufgabe XII.2. Gegeben sei die Untermannigfaltigkeit M = {(x, y, z) ∈ R3 : z = y 2 + x2 } und p = (0, 0, t) . Bestimmen sie (in Abhängigkeit von t ), alle Punkte auf M , die von p minimalen Abstand haben. XIII.1. Das mehrdimensionale Riemann–Integral 263 XIII. Integralrechnung mehrerer Veränderlicher In diesem letzten Kapitel der Analysis in mehreren Veränderlichen werden wir uns noch kurz der Integrationstheorie zuwenden. Für eine ausführliche Diskussion der Integralrechnungen in mehreren Veränderlichen reicht die uns verbleibende Zeit hier nicht aus und dafür ist ohnehin die Vorlesung Mehrfachintegration“ ” vorgesehen. Wir werden daher nur kurz die wichtigsten Eckpfeiler der Theorie kennenlernen (im wesentlichen ohne Beweise) und sehen, dass man damit durchaus für viele praktische Zwecke genug weiß, um konkrete Integrale berechnen zu können. XIII.1. Das mehrdimensionale Riemann–Integral Wie in der eindimensionalen Integrationstheorie betrachten wir nur beschränkte Funktionen f : [a, b] := {x ∈ Rn : (∀i) ai ≤ xi ≤ bi } → R, die auf Quadern [a, b] in Rn definiert sind. Auch hier beginnen wir mit dem Konzept einer Stufenfunktion, das allerdings durch die höhere Dimension etwas komplizierter wird. Definition XIII.1.1. Sei Q = [a, b] ⊆ Rn ein Quader. (a) Eine Menge Z = {Q1 , . . . , Qm } von nicht überlappenden Quadern Qj heißt Zerlegung von Q, wenn m [ Q= Qj . j=1 Mit “nicht überlappend” meinen wir hier, dass der Schnitt Qi ∩ Qj zwar nicht leer sein muss, aber keine inneren Punkte enthalten darf (vgl. Aufgabe 1.1). (b) Die Zahl n Y voln (Q) := µ(Q) := bi − ai i=1 heißt Maß oder n -dimensionales Volumen von Q. 264 XIII. Integralrechnung mehrerer Veränderlicher 31. Oktober 2007 (c) Die Zahl δ(Q) := kb − ak∞ heißt Durchmesser von Q. Ist δ(Qk ) der Durchmesser von Qk , so heißt kZk := max δ(Qk ) 1≤k≤m Norm der Zerlegung. Aufgabe 1.1. Dann ist (Durchschnitte von Quadern) Seinen a ≤ b und c ≤ d in Rn . [a, b] ∩ [c, d] = [max(a, c), min(b, d)] wieder ein Quader. Hierbei ist max(a, c) := (max(a1 , c1 ), . . . , max(an , cn )) und min(b, d) := (min(b1 , d1 ), . . . , min(bn , dn )). Definition XIII.1.2. Eine Funktion f : [a, b] → R heißt Treppenfunktion, wenn es eine Zerlegung Z = (Q1 , . . . , Qm ) von [a, b] und Zahlen c1 , . . . , cm ∈ R gibt mit f (x) = ck für x ∈ Q0k . Wir sprechen dann von einer Treppenfunktion bzgl. der Zerlegung Z . Von den Funktionswerten an den Rändern der Quader Qk wird nichts verlangt. Wir schreiben Tab für die Menge der Treppenfunktionen f : [a, b] → R . Wie im Eindimensionalen stellt man leicht fest, dass Tab ein Vektorraum ist und dass man auf Tab einen wohldefinierten (also von der Zerlegungn unabhängigen) Integralbegriff durch Z Z f := [a,b] f (x) dx := [a,b] m X f (ξi )µ(Qi ) i=1 definieren kann, wobei ξi ∈ Q0i ist und die Funktion f auf dem Innern Q0i des Zerlegungsquaders Qi konstant ist. Unmittelbar aus der Definition folgt, dass das Integral auf Tab monoton und linear ist. Definition XIII.1.3. (a) Ist f : [a, b] → R eine beschränkte Funktion, so definieren wir das Oberintegral Z f := inf [a,b] und das Unterintegral Z f := sup [a,b] nZ ψ: f ≤ ψ, ψ ∈ Tab o [a,b] nZ [a,b] o ϕ: ϕ ≤ f, ϕ ∈ Tab . 265 XIII.1. Das mehrdimensionale Riemann–Integral Um die Endlichkeit dieser Werte einzusehen, beachten wir, dass aus der Beschränktheit von f die Existenz von m, M ∈ R mit m ≤ f ≤ M folgt. b Insbesondere solche Paare gilt R R existieren ϕ, ψ ∈ Ta mit ϕ ≤ f ≤ ψ . Für b ϕ ≤ [a,b] ψ wegen der Monotonie des Integrals auf Ta . Insbesondere sind R[a,b] R f und f reelle Zahlen mit [a,b] [a,b] Z Z f≤ f. [a,b] [a,b] (b) Eine beschränkte Funktion f : [a, b] → R heißt Riemann-integrabel (Riemann-integrierbar), wenn Z Z f f= [a,b] [a,b] b gilt, Rd.h., wenn R zu jedem ε > 0 Treppenfunktionen ϕ, ψ ∈ Ta mit ϕ ≤ f ≤ ψ und [a,b] ϕ − [a,b] ψ ≤ ε existieren. In diesem Fall definieren wir das RiemannIntegral von f durch Z Z Z f := [a,b] f= [a,b] f [a,b] Die Menge der Riemann-integrablen Funktionen auf [a, b] bezeichnen wir mit Rab . Wir bemerken, dass Tab ⊆ Rab trivialerweise gilt. Wie im Eindimensionalen zeigt man nun, dass auch Rab ein Vektorraum ist und das Integral darauf eine monotone lineare Abbildung. Sind f und g Riemann-integrabel, so auch max(f, g), min(f, g), f ± g, f ·g und |f |. Von zentraler Bedeutung ist allerdings, dass alle stetigen Funktionen Riemann-integrabel sind: Satz XIII.1.4. Jede stetige Funktion f : [a, b] → R ist Riemann-integrabel. Beweis. Sei ε > 0 . Nach Satz IX.3.19 ist f gleichmäßig stetig. Es existiert also ein δ > 0 mit |f (x) − f (y)| ≤ ε für alle x, y mit kx − yk∞ ≤ δ . Wir wählen −ai nun ein N ∈ N , so dass bi N < δ für alle i gilt. Für j ∈ Nn0 mit 0 ≤ ji ≤ N − 1 bilden die Quader n ji (bi − ai ) (ji + 1)(bi − ai ) o Qj := Q(j1 ,...,jn ) := x ∈ Rn : (∀i) ai + ≤ xi ≤ ai + N N dann eine Zerlegung Z von [a, b] mit kZk ≤ δ . In der Tat erhalten wir N n Quader des Durchmessers N1 δ([a, b]) = N1 kb − ak∞ . Für jedes j sei mj := inf f (Qj ) und Mj := sup f (Qj ). 266 XIII. Integralrechnung mehrerer Veränderlicher 31. Oktober 2007 Sei ϕ ≤ f eine Treppenfunktion, die auf Q0j den Wert mj annimmt und ψ ≥ f eine Treppenfunktion, die auf Q0j den Wert Mj annimmt. Dann ist ϕ ≤ f ≤ ψ und aus δ(Z) ≤ δ folgt Mj − mj ≤ ε für alle j , also ψ − ϕ ≤ ε . Hieraus ergibt sich Z Z Z Z f− [a,b] f≤ [a,b] ψ− [a,b] ϕ ≤ εµ([a, b]). [a,b] Da ε beliebig war, folgt die Gleichheit von Ober- und Unterintegral, also die Integrabilität von f . Definition XIII.1.5. (a) Eine beschränke Teilmenge S ⊆ Rn , die natürlich in einem ausreichend großen Quader Q liegt, heißt Riemann-messbar, wenn ihre charakteristische Funktion 1 für x ∈ S χS (x) := 0 für x 6∈ S Riemann-integrabel ist. Ist dies der Fall, so heißt Z µ(S) := µn (S) := χS (x) dx Q das n -dimensionale Volumen der Menge S . (b) Eine Riemannsche Nullmenge ist eine Riemann-messbare Menge N , für die µn (N ) = 0 ist. Zunächst einmal wissen wir recht wenig über Riemann-messbare Mengen, so dass es gar nicht so einfach ist, eine solche zu erkennen bzw. RiemannMessbarkeit einer gegebenen Menge nachzuweisen. Wir stellen hierzu einige Hilfsmittel zusammen. Satz XIII.1.6. Eine beschränkte Teilmenge S ⊆ Rn ist genau dann Riemannmessbar, wenn ihr Rand ∂S eine Riemannsche Nullmenge ist. Ein typisches Beispiel einer nicht Riemann-messbaren Teilmenge von R ist die Menge [0, 1] ∩ Q der rationalen Zahlen zwischen 0 und 1 . Der Rand dieser Menge ist das ganze Intervall [0, 1] , also keine Nullmenge. Analog sieht man, dass ([0, 1] ∩ Q)n eine nicht Riemann messbare Teilmenge von Rn ist. Satz XIII.1.6 reduziert das Problem der Riemann-Messbarkeit auf das Problem zu erkennen, ob gewissen Menge Riemannsche Nullmengen sind. Lemma XIII.1.7. (a) Endliche Vereinigungen und Teilmengen Riemannscher Nullmengen sind Riemannsche Nullmengen. (b) Jede kompakte Teilmenge einer affinen Hyperbene in Rn ist eine Riemannsche Nullmenge. (c) Ist K ⊆ Rn−1 kompakt und f : K → R eine stetige Funktion, so ist der Graph Γ(f ) ⊆ Rn eine Riemannsche Nullmenge. XIII.2. Berechnung von mehrdimensionalen Integralen 267 XIII.2. Berechnung von mehrdimensionalen Integralen In diesem Abschnitt lernen wir Methoden kennen, mit denen man mehrdimensionale Integrale berechnen kann. Im Eindimensionalen besteht die Hauptmethode zur Berechnung von Integralen darin, den Hauptsatz der Differentialund Integralrechnung anzuwenden, also durch Bestimmung einer Stammfunktion Integrale auszuwerten. Im Mehrdimensionalen wiederum besteht die wichtigste Methode darin, Mehrfachintegrale auf einfache Integrale zurückzuführen. Die wichtigsten Werkzeuge hierzu sind der Satz von Fubini und das Prinzip von Cavalieri. Wir beginnen mit dem zweidimensionalen Fall des Satzes von Fubini: Satz XIII.2.1. (Fubini) Sei n = 2 und die Funktion f : [a, b] → R sei integrierbar. Für jedes x ∈ [a1 , b1 ] existiere das Integral Z b2 f (x, y) dy. F (x) := a2 Dann existiert das iterierte Integral Z b1 Z b2 Z b1 f (x, y) dy dx = a1 a2 F (x) dx a1 und stimmt mit dem Riemann-Integral Z f (x, y) d(x, y) [a,b] überein. Bemerkung XIII.2.2. (a) Man beachte, dass wir bei Satz XIII.2.1 voraussetzen, dass die Funktion f Riemann-integrabel ist und dass dies i.a. nicht aus der Existenz des interierten Integrals folgt. (b) Existieren beide iterierten Integrale, so folgt aus Satz XIII.2.1 insbesondre, dass sie den gleichen Wert haben. (c) Ist die Funktion in Satz XIII.2.1 stetig, so ist sie gemäß Satz XIII.1.4 integrierbar. In diesem Fall existieren alle Integrale F (x) und definieren eine stetige Funktion auf [a1 , b1 ] (Satz X.5.1). Hieraus folgt insbesondere, dass wir das Integral von f über [a, b] als Doppelintegral berechnen können. Bemerkung XIII.2.3. Mit dem Satz von Fubini können wir einsehen, dass die Deutung des Integrals einer Riemann-integrierbaren Funktion konsistent mit unserer Definition des zweidimensionalen Volumens (Flächeninhalts) ist. 268 XIII. Integralrechnung mehrerer Veränderlicher 31. Oktober 2007 Sei dazu f : [a, b] → [0, M ] eine beschränkte Riemann-integrable Funktion. Man sieht sehr leicht ein, dass die Menge S := {(x, y) ∈ R2 : a ≤ x ≤ b, 0 ≤ y ≤ f (x)} eine Riemann-messbare Menge ist. Mit dem Satz von Fubini erhalten wir daher Z b M Z b Z Z f (x) a 0 a Beispiel XIII.2.4. 0 b f (x) dx. dy dx = χS (x, y) dy dx = µ2 (S) = Z a Auf Q := {(x, y) ∈ R2 : 0 ≤ x ≤ 1, 1 ≤ y ≤ 2} betrachten wir die durch f (x, y) := xy = ey log x definierte stetige Funktion (Nachweis der Stetigkeit als Übung!). Wegen der Stetigkeit ist f Riemann-integrabel und wir erhalten mit dem Satz von Fubini Z Z 2Z 1 Z 2 h y+1 i1 x y f (x, y) dx dy = dy x dx dy = y+1 0 Q 1 0 1 Z 2 1 3 dy = [log(1 + y)]21 = log(3) − log(2) = log . = 2 1 y+1 Im folgenden führen wir für x = (x1 , . . . , xn ) ∈ Rn und k ∈ {1, . . . , n} die abkürzende Schreibweise x0 = (x1 , . . . , x ck , . . . , xn ) := (x1 , . . . , xk−1 , xk+1 , . . . , xn ) ein. Satz XIII.2.5. (Fubini) Die Funktion f : [a, b] → R sei integrierbar. (a) Für ein k ∈ {1, . . . , n} sei [a, b]k = {(x1 , . . . , x bk , . . . , xn ) ∈ Rn−1 : (∀i) ai ≤ xi ≤ bi }. Existiert für jedes xk ∈ [ak , bk ] das Integral Z F (xk ) := f (x1 , . . . , xk−1 , xk , xk+1 , . . . , xn ) d(x1 , . . . , x bk , . . . , xn ), [a,b]k so existiert das iterierte Integral mann-Integral Z R bk ak F (xk ) dxk und stimmt mit dem Rie- f (x) dx [a,b] XIII.2. Berechnung von mehrdimensionalen Integralen 269 überein. (b) Existiert für jedes x0 ∈ [a, b]k das Integral Z 0 bk G(x ) := f (x1 , . . . , xk−1 , xk , xk+1 , . . . , xn ) dxk , ak so existiert das iterierte Integral Z G(x0 ) dx0 [a,b]k und stimmt mit dem Riemann-Integral R f (x) dx überein. [a,b] Bemerkung XIII.2.6. Ist f : [a, b] → R stetig, so auch alle Einschränkungen auf die (n−1) -dimensionalen Quader [a, b]k , und aus Satz XIII.1.4 folgt die Existenz aller Integrale. Aus Satz X.5.1 folgt sogar die Stetigkeit der Funktionen F bzw. G . Beispiel XIII.2.7. Sei Q := {(x, y, z) ∈ R3 : 0 ≤ x ≤ 2, 0 ≤ y ≤ 1, 2 ≤ z ≤ 4} = [(0, 0, 2), (2, 1, 4)] und f : Q → R, f (x, y, z) := x + y + z. Da f stetig ist, ist f Riemann-integrabel. Mit Q3 = [(0, 0), (2, 1)] ergibt sich aus dem Satz von Fubini XIII.2.5 induktiv Z Z 4 Z f (x, y, z) d(x, y, z) = Q Z 4 (x + y + z) d(x, y) dz 2 Z 1 Z Q3 2 = (x + y + z) dx dy dz 2 Z 0 4 Z = 2 Z = 2 0 1 0 2 x [ + x(y + z)]20 dy dz = 2 Z 4 Z 1 2 + 2(y + z) dy dz 2 0 4 2 + 2z + 1 dz = 6 + [z 2 ]42 = 6 + 16 − 4 = 18. 270 XIII. Integralrechnung mehrerer Veränderlicher 31. Oktober 2007 Bemerkung XIII.2.8. Im Eindimensionalen erhält man direkt aus der Substitutionsregel die Formel Z b Z cb c f (ct) dt = f (x) dx. a ca Ist der Satz von Fubini anwendbar, d.h., die iterierten Integrale existieren, dann lässt sich das n -dimensionale Integral als iteriertes Riemann-Integral berechnen, so dass wir für c > 0 direkt die Formel Z Z n c f (cx) dx = f (x) dx [a,b] [ca,cb] erhalten. Ist f = χS die charakteristische Funktion einer Riemann-messbaren Menge S ⊆ [a, b] , so ist χcS (x) = χS (c−1 x) und daher Z Z −1 n µn (cS) = χS (c x) dx = c χS (x) dx = cn µn (S), [ca,cb] [a,b] also µn (cS) = cn µn (S). (2.1) Für die Berechnung n -dimensionaler Volumina ist das Prinzip von Cavalieri sehr nützlich: Satz XIII.2.9. (Cavalieri) Sei S ⊆ [a, b] ⊆ Rn eine beschränkte Riemannmessbare Menge. Sei k ∈ {1, . . . , n} und für alle t ∈ [ak , bk ] die Menge St := {x ∈ S: xk = t} im (n − 1)-dimensionalen Raum At := {x ∈ Rn : xk = t} ∼ = Rn−1 Riemann-messbar mit dem (n − 1)-dimensionalen Volumen µn−1 (St ). Dann ist Z bk µn (S) = µn−1 (St ) dt. ak Beweis. Nach Satz XIII.2.5 ist Z Z µn (S) = χS (x) dx = [a,b] Z bk ak bk = Z [a,b]k Z bk µn−1 (St ) dt. µn−1 (Sxk ) dxk = ak χS (x) d(x1 , . . . , x bk , . . . , xn ) dxk ak 271 XIII.2. Berechnung von mehrdimensionalen Integralen Aufgabe 1.2. Sei B ⊆ Rn eine beschränkte Teilmenge. Wir definieren den Kegel über der Basis B durch K(B) := { (1 − t)x, t ∈ Rn × R: 0 ≤ t ≤ 1, x ∈ B}. Sind B und K(B) Riemann-messbar, so gilt µn+1 K(B) = 1 µn (B). n+1 Kommt Ihnen diese Formel aus der Schule bekannt vor? Vergleichen Sie insbesondere mit den bekannten Formeln für das Volumen eines Kegels, einer Pyramide oder die Fläche eines Dreiecks. Das Volumen der n -dimensionalen Kugel Beispiel XIII.2.10. Sei Bn := {x ∈ Rn : kxk ≤ 1} die n -dimensionale Einheitskugel und cn := µn (Bn ) ihr Volumen. Aus Bemerkung XIII.2.8 wissen wir schon, dass µn ({x ∈ Rn : kxk ≤ R}) = µn (RBn ) = cn Rn (2.2) gilt, so dass es in der Tat ausreicht, das Volumen cn der Einheitskugel zu bestimmen, um die Volumina beliebiger Kugeln zu kennen. Wir kennen schon c1 = 2 (denn B1 = [−1, 1] hat die Länge 2 ) und wissen vielleicht auch noch aus der Schule, welche Werte wir für c2 und c3 erwarten. Wir gehen nach dem Cavalierischen Prinzip vor und zerschneiden die Kugel Bn für −1 ≤ s ≤ 1 in die Scheiben Bn,s = {x0 ∈ Rn−1 : (x0 , s) ∈ Bn } p p = {x0 ∈ Rn−1 : kx0 k2 ≤ 1 − s2 } = 1 − s2 Bn−1 . Mit dem Cavalierischen Prinzip erhalten wir für n > 1 mit (2.2): Z 1 cn = Z 1 µn−1 (Bn,s ) ds = −1 p 1− s2 n−1 Z 1 cn−1 ds = cn−1 −1 p 1 − s2 n−1 ds. −1 Damit ist die rekursive Berechnung von cn auf die Berechnung des Integrals Z 1 In := p n−1 1 − s2 ds −1 reduziert. Substituieren wir mit h π πi s: − , → [−1, 1], 2 2 s(t) = sin t, 272 XIII. Integralrechnung mehrerer Veränderlicher so erhalten wir Z Z 1p n−1 2 1−s ds = In = π 2 p 1− s(t)2 31. Oktober 2007 Z n−1 0 (cos t)n dt. s (t) dt = −π 2 −1 π 2 −π 2 Diese Integrale lassen sich nun durch partielle Integration rekursiv berechnen. Für n > 1 haben wir Z π2 In = (cos t)(cos t)n−1 dt −π 2 n−1 = [(sin t)(cos t) Z π 2 π 2 Z π 2 |− π − 2 2 = (n − 1) (sin t)(n − 1)(cos t)n−2 (−(sin t)) dt −π 2 n−2 (sin t) (cos t) Z π 2 dt = (n − 1) −π 2 (1 − (cos t)2 )(cos t)n−2 dt −π 2 = (n − 1)In−2 − (n − 1)In . Damit ergibt sich für n > 1 die Rekursionsformel (2.3) In = n−1 In−2 . n Aus I0 = π und I1 = 2 erhalten wir allgemein I2n (n − 12 )(n − 23 ) · · · 32 · 12 (2n − 1)(2n − 3) · · · 3 · 1 = π= π= 2n(2n − 2) · · · 2 n(n − 1) · · · 1 n− n 1 2 π und I2n+1 (2n)(2n − 2) · · · 2 n(n − 1) · · · 1 = 2= 2= (2n + 1)(2n − 1) · · · 3 (n + 21 )(n − 12 ) · · · 23 n+ n 1 −1 2 2. Hieraus ergibt sich I2n+1 I2n = 2π 2n + 1 und I2n I2n−1 = π . n Damit erhalten wir c2n = I2n c2n−1 = I2n I2n−1 c2n−2 = π π n−1 c2n−2 = . . . = c2 n n···2 π n−1 π n−1 π πn = I2 c1 = 2= n···2 n···2 2 n! und analog c2n+1 = I2n+1 I2n c2n−1 = 2n π n 2n+1 π n 2π c2n−1 = c1 = . 2n + 1 (2n + 1) · · · 3 (2n + 1) · · · 3 XIII.2. Berechnung von mehrdimensionalen Integralen 273 Für n = 2 ergibt sich insbesondere die bekannte Formel c2 = π für die Fläche der Einheitskreisscheibe. Für n = 3 erhalten wir für das Volumen der dreidimensionalen Einheitskugel: 4 π. 3 c3 = Verwendet man die Gamma-Funktion: ∞ Z Γ: ]0, ∞[→ R, tx−1 e−t dt, x 7→ 0 so kann man die Formel für cn wie folgt einheitlich schreiben: n π2 . cn = Γ( n2 + 1) (2.4) Hierzu erinnern wir uns an die Funktionalgleichung der Gamma-Funktion Γ(x + 1) = xΓ(x) für x > 0, aus der insbesondere Γ(n) = (n − 1)! für n ∈ N folgt. Für n = 2k folgt (2.4) aus πk πk = = c2k . Γ(k + 1) k! Für n = 2k + 1 erhalten wir für die rechte Seite: √ √ πk π πk π = . Γ(k + 1 + 21 ) (k + 12 )(k − 12 ) · · · 12 Γ( 21 ) Es bleibt also nur noch einzusehen, dass Γ( 12 ) Z = 0 ∞ √ e−t √ dt = π t gilt. Diese Formel werden wir erst später beweisen, wenn uns die Transformationsformel zur Verfügung steht (Beispiel XIII.3.8). 274 XIII. Integralrechnung mehrerer Veränderlicher 31. Oktober 2007 Beispiel XIII.2.11. Wir wollen das Volumen V eines dreidimensionalen Kugelsegments der Höhe h bestimmen, für das die Basiskreisscheibe den Radius r besitzt. Ist R der Radius der Kugel, so betrachten wir also eine Menge der Gestalt S = {x ∈ R3 : kxk2 ≤ R, x3 ≥ R − h}, wobei R2 = r2 + (R − h)2 ist, also r2 − 2Rh + h2 = 0 bzw. R = r 2 + h2 . 2h Die Hyperebene x3 = t , R − h ≤ t ≤ R , schneidet dieses Segment in der Menge St = {(x1 , x2 , t): x21 + x22 ≤ R2 − t2 }, √ einer Kreisscheibe vom Radius R2 − t2 . Mit c2 = π erhalten wir daher Z R Z µ3 (S) = π(R2 − t2 ) dt = πR2 h − µ2 (St ) dt = R−h R−h = πR2 h − Mit Rh = R r 2 +h2 2 π 3 (R − (R − h)3 ) 3 π h3 (3R2 h − 3Rh2 + h3 ) = π Rh2 − . 3 3 ergibt sich µ3 (S) = πh πh 2 (3(r2 + h2 ) − 2h2 ) = (3r − h2 ). 6 6 Für h = R = r ist S eine Halbkugel und wir erhalten µ3 (S) = 2 3 πR . 3 Hier erkennen wir insbesondere eine Einsicht, die schon auf Archimedes zurückgeht, nämlich, dass das Verhältnis des Volumens einer Halbkugel zum Volumen des Kreiszylinders von Radius und Höhe R (in den die Halbkugel gerade hineinpasst) 32 ist. XIII.3. Die Transformationsformel für Mehrfachintegrale Bisher haben wir im wesentlichen nur Integrale über Quader berechnet, wobei der Satz von Fubini eine bequeme Methode bereitstellt, durch die man solche Integrale durch sukzessive eindimensionale Integrale berechnen kann. Für viele Problemstellungen reicht dieser Ansatz nicht aus, denn oft hat man über Bereiche des Rn zu integrieren, die sich in kartesischen Koordinaten nur mühsam XIII.3. Die Transformationsformel für Mehrfachintegrale 275 beschreiben lassen. Ebenso kann es vorkommen, das zwar die Integrationsbereiche unproblematisch sind, dafür aber die zu integrierenden Funktionen in kartesischen Koordinaten unangemessen kompliziert, was ihre Integration erschweren kann. Aus diesen Gründen führt man oft dem Problem angemessene neue Koordinaten ein, indem man mit einem geeigneten C 1 -Diffeomorphismus transformiert. Dieser Abschnitt ist dem mehrdimensionalen Analogon der Substitutionsregel, der Transformationsformel, gewidmet. Die Transformation eines mehrdimensionalen wird Integrals dadurch komplizierter als im Eindimensionalen, dass man schon für die Transformation des Volumens einer Menge nicht nur die Länge eines Bildintervalls messen muss, sondern durchaus geometrisch recht komplizierte Bildmengen haben kann. Die Koordinatentransformationen, die man zur Berechnung von Mehrfachintegralen heranzieht, sind immer Einschränkungen von C 1 -Diffeomorphismen ϕ: U → ϕ(U ) = V ⊆ Rn , wobei U ⊆ Rn offen ist. Da ϕ ein Diffeomorphismus ist, ist die lineare Abbildung dϕ(x) , die durch die Jacobimatrix Jx (ϕ) beschrieben wird, für alle x ∈ U invertierbar, und es gilt det(dϕ(x)) = det(Jx (ϕ)). Transformationsformel Satz XIII.3.1. Sei K ⊆ Rn eine kompakte Riemann-messbare Teilmenge. Auf einer offenen Obermenge U ⊇ K sei ϕ: U → ϕ(U ) ein C 1 -Diffeomorphismus. Ist f : ϕ(K) → R stetig, so gilt dann Z Z (3.1) f (ϕ(x))| det dϕ(x)| dx = f (y) dy. K ϕ(K) Diese Formel wird in einem wesentlich allgemeineren Kontext in der Vorlesung Mehrfachintegration“ bewiesen. Wir wollen uns aber trotzdem etwas ” klarmachen, was sie bedeutet. Wendet man (3.1) auf die konstante Funktion 1 an, so ergibt sich Z (3.2) µn (ϕ(K)) = | det dϕ(x)| dx K für das Volumen des Bildes einer kompakten Riemannn-meßbaren Menge K unter ϕ . Ist die Funktion | det dϕ(x)| konstant c, so spezialisiert sich dies weiter zu µn ϕ(K) = c · µn (K). D.h. die Konstante c bzw. | det dϕ(x)| ist ein Verzerrungsfaktor, der angibt, wie sich das Volumen einer Menge verändert, wenn man ϕ anwendet. Einen besonders einfachen Fall erhält man, wenn ϕ = T |U für eine lineare Abbildung T : Rn → Rn gilt. Dann ist dϕ(x) = T für alle x ∈ Rn und somit µn T (K) = | det T | · µn (K). 276 XIII. Integralrechnung mehrerer Veränderlicher 31. Oktober 2007 Ein wichtiger Spezialfall ist T (x) = cx, und in diesem Fall ergibt sich die Formel (2.1) in Bemerkung XIII.2.8. Für U = Rn und den Einheitswürfel W = [0, 1]n = {x ∈ Rn : (∀j) 0 ≤ xj ≤ 1} ergibt sich mit µn T (W ) = | det T | gerade die anschauliche Bedeutung der Determinante als ein Maß für das Volumen des Bildes des Einheitswürfels. Eine Menge der Gestalt T (W ) nennt man ein Paralleltop oder Spat. Für n = 2 erhalten wir Parallelogramme. Man kann sie beschreiben als n nX o X [0, 1]aj = xj aj : 0 ≤ xj ≤ 1 , j=1 j wobei a1 , . . . , an ∈ Rn Vektoren sind, die man als die Bilder der kanonischen Basisvektoren unter T , d.h. die Spalten der zugehörigen Matrix erhält. Wir halten noch eine wichtige Folgerung aus der Transformationsformel fest. Eine affine Abbildung der Gestalt ϕ(x) = M · x + v , wobei M eine orthogonale Matrix ist, nennen wir eine Bewegung des Rn . Folgerung XIII.3.2. ϕ des Rn gilt (Bewegungsinvarianz des Integrals) Für jede Bewegung µn ϕ(K) = µn (K) für jede Riemann-messbare kompakte Menge K . Beweis. Wir schreiben ϕ(x) = M · x + v mit einer orthogonalen Matrix M . Dann ist M M > = 1 (M > steht für die transponierte Matrix), so dass wir für die Determinanten 1 = det M det M > = (det M )2 erhalten. Also ist | det M | = 1 , und die Behauptung folgt aus der Transformationsformel. Da wir das Riemann-Integral zunächst basisabhängig konstruiert haben, da es durch seine Werte auf Quadern festgelegt wurde, ist seine Invarianz unter Drehungen bei weitem nicht evident. Die Bewegungsinvarianz des RiemannIntegrals zeigt, dass seine Konstruktion nicht von der Wahl der Orthonormalbasis in Rn abhängt, durch die man Koordinaten einführt. Allgemeiner folgt mit dem gleichen Argument, dass man jede Basis nehmen darf, die Bild der kanonischen Basis unter einer linearen Abbildung T mit | det T | = 1 ist, d.h. für die der zugehörige Spat (das Bild des Einheitswürfels) das Volumen 1 hat. Beispiel XIII.3.3. (Polarkoordinaten in der Ebene) Wir betrachten die Abbildung P : [0, ∞[×[0, 2π] → R2 , (r, ϕ) 7→ (r cos ϕ, r sin ϕ). Die Jacobimatrix von P ist gegeben durch cos ϕ −r sin ϕ , J(r,ϕ) (P ) = sin ϕ r cos ϕ XIII.3. Die Transformationsformel für Mehrfachintegrale 277 so dass wir für die Determinante erhalten: det(dP (r, ϕ)) = det J(r,ϕ) (P ) = r cos2 ϕ + r sin2 ϕ = r. Man beachte, dass nur die Einschränkung von P auf die offene Menge ]0, ∞[×]0, 2π[ einen Diffeomorphismus auf die Menge R2 \ (R+ × {0}) liefert (Nachweis!). Beispiel XIII.3.4. (Zylinderkoordinaten im Raum) Wir betrachten die Abbildung P : [0, ∞[×[0, 2π] × R → R3 (r, ϕ, z) 7→ (r cos ϕ, r sin ϕ, z). Die Jacobimatrix von P ist gegeben durch cos ϕ J(r,ϕ,z) (P ) = sin ϕ 0 −r sin ϕ r cos ϕ 0 0 0 1 und daher det dP (r, ϕ, z) = det(J(r,ϕ,z) (P )) = r. Die Einschränkung von P auf die offene Menge ]0, ∞[×]0, 2π[×R ist ein Diffeomorphismus auf die Menge R3 \ (R+ × {0} × R) . Beispiel XIII.3.5. (Sphärische Polarkoordinaten im Raum) Wir betrachten die Abbildung Q: [0, ∞[×[0, 2π] × [0, π] → R3 , (r, ϕ, θ) 7→ (r cos ϕ sin θ, r sin ϕ sin θ, r cos θ). Die Jacobimatrix von Q ist gegeben durch cos ϕ sin θ J(r,ϕ,θ) (Q) = sin ϕ sin θ cos θ −r sin ϕ sin θ r cos ϕ sin θ 0 r cos ϕ cos θ r sin ϕ cos θ , −r sin θ so dass wir für die Determinante erhalten: det J(r,ϕ,θ) (Q) = −r2 (sin θ)(cos θ)2 − r2 (sin θ)(sin θ)2 = −r2 sin θ. Die Einschränkung von Q auf die offene Menge ]0, ∞[×]0, 2π[×]0, π[ ist ein Diffeomorphismus auf die Menge R3 \ (R+ × {0} × R) . Die ϕ -Koordinate entspricht auf den Sphären vom Radius r jeweils der geographischen Länge und π2 − θ entspricht der geographischen Breite. 278 XIII. Integralrechnung mehrerer Veränderlicher Beispiel XIII.3.6. Abbildung 31. Oktober 2007 (Polarkoordinaten im Rn , n ≥ 3 ) Wir definieren eine Pn : [0, ∞[×[0, 2π] × [0, π]n−2 → Rn , die induktiv festgelegt ist durch (r, ϕ, θ1 , . . . , θn−2 ) 7→ (sin θn−2 )Pn−1 r, ϕ, θ1 , . . . , θn−3 ), r cos θn−2 ), wobei man für n = 2 die Polarkoordinaten in der Ebene zugrunde legt. Die Jacobimatrix von Pn ist für θ = (θ1 , . . . , θn−2 ) und θ0 = (θ1 , . . . , θn−3 ) gegeben durch (sin θn−2 )J(r,ϕ,θ0 ) (Pn−1 ) (cos θn−2 )Pn−1 (r, ϕ, θ0 ) . J(r,ϕ,θ) (Pn ) = cos θn−2 0 0 . . . 0 −r sin θn−2 Um diese Determinante berechnen zu können, beachten wir zuerst Pn−1 (r, ϕ, θ0 ) = rPn−1 (1, ϕ, θ0 ), was man direkt durch Induktion erhält. Damit ist ∂Pn−1 (r, ϕ, θ0 ) = Pn−1 (1, ϕ, θ0 ) = r−1 Pn−1 (r, ϕ, θ0 ). ∂r Folglich stimmt die erste Spalte der Jacobimatrix von Pn−1 mit r−1 Pn−1 überein. Die Determinante der (n−1)×(n−1) -Untermatrix, die man durch Streichen der ersten Spalte und der der letzten Zeile von J(r,ϕ,θ) (Pn ) erhält, ist daher gegeben durch (−1)n−2 (sin θn−2 )n−2 (cos θn−2 ) · r · det J(r,ϕ,θ0 ) (Pn−1 ) . Bei dieser Rechnung hat man zu beachten, dass die fehlende erste Spalte der Matrix, versehen mit den jeweiligen Faktoren, in der letzten Spalte der Restmatrix auftaucht. Hiermit erhalten wir schließlich durch Entwicklung der Determinante nach der letzten Zeile: det J(r,ϕ,θ) (Pn ) = − r(sin θn−2 )n det J(r,ϕ,θ0 ) (Pn−1 ) + (−1)n−1 (cos θn−2 )2 (sin θn−2 )n−2 r(−1)n−2 det J(r,ϕ,θ0 ) (Pn−1 ) = − r(sin θn−2 )n−2 det(J(r,ϕ,θ0 ) )(Pn−1 ) . Induktiv ergibt sich also det J(r,ϕ,θ) (Pn ) = (−1)n rn−1 (sin θn−2 )n−2 (sin θn−3 )n−3 · · · sin θ1 . Einen Diffeomorphismus mit offenem Bild liefert die Abbildung Pn nur auf der offenen Teilmenge ]0, ∞[×]0, 2π[×]0, π[n−2 . Die Menge, die man hierbei herausnehmen muss, schneidet jeden Quader in einer Riemannschen Nullmenge und das gleiche gilt im Bildbereich. Man kann daher zeigen, dass die Transformationsformel trotzdem richtig bleibt. XIII.3. Die Transformationsformel für Mehrfachintegrale 279 In der Physik spielen rotationssymmetrische Massenverteilungen im R3 eine wichtige Rolle. Hierbei treten Integrale der Gestalt Z ρ(x) dx Rn kxk auf. Diese Integrale wollen wir jetzt etwas genauer studieren. Seien 0 ≤ R1 < R2 und Satz XIII.3.7. K := {x ∈ Rn : R1 ≤ kxk ≤ R2 } die zugehörige Kugelschale sowie h: [R1 , R2 ] → R eine stetig Funktion. Dann ist Z Z R2 h(r)rn−1 dr, h(kxk) dx = ncn K R1 wobei cn das Volumen der n -dimensionalen Einheitskugel ist. Beweis. Wir verwenden sphärische Polarkoordinaten im Rn und beachten, dass K = Pn ([R1 , R2 ] × [0, 2π] × [0, π]n−2 ) gilt. Für 0 < ε < π betrachten wir die kompakte Menge Kε := Pn ([R1 + ε, R2 ] × [ε, 2π − ε] × [ε, π − ε]n−2 ), so dass Pn ein Diffeomorphismus auf einer offenen Umgebung von Kε ist (Übung). Aus der Beschränktheit von h (Satz vom Maximum) und lim µn (Kε ) = µn (K) ε→0 folgt nun leicht, dass Z Z h(kxk) dx = lim ε→0 K h(kxk) dx Kε gilt, so dass wir aus der Transformationsformel mit anschließendem Grenzübergang ε → 0 erhalten: Z h(kxk) dx Z K R2 Z 2π Z π Z π h(r)| det dPn (r, ϕ, θ) | dr dϕ dθ1 · · · dθn−2 ··· = R1 R2 Z 0 Z 0 2π Z 0 π Z π ··· = R1 0 Z 0 0 R2 = 2π R1 h(r)rn−1 (sin θn−2 )n−2 (sin θn−3 )n−3 · · · sin θ1 h(r)rn−1 dr · Z 0 π dr dϕ dθ1 · · · dθn−2 Z π n−2 (sin θn−2 ) dθn−2 · · · sin θ1 dθ1 . 0 280 XIII. Integralrechnung mehrerer Veränderlicher 31. Oktober 2007 Für R1 = 0 und R2 = 1 und h ≡ 1 ergibt sich das Volumen cn der Einheitskugel Bn , also 1 Z cn = 2π r n−1 n−2 dr · (sin θn−2 ) 0 2π = n π Z Z dθn−2 · · · sin θ1 dθ1 0 0 π Z π n−2 (sin θn−2 ) π Z dθn−2 · · · 0 sin θ1 dθ1 . 0 Daher ist Z R2 Z h(r)rn−1 dr. h(kxk) dx = ncn K R1 Es seien a0 , . . . , an ∈ Rn . Man nennt die Menge Aufgabe III.2.1. S(a0 , . . . , an ) := n nX X λj aj : 0 ≤ λj ≤ 1, j=0 λj = 1 o j das von a0 , . . . , an aufgespannte Simplex. Zeigen Sie: (a) Ein Simplex ist Riemann-messbar. Hinweis: Satz XIII.1.6, Lemma XIII.1.7. (b) Zeige: 1 µn S(a0 , . . . , an ) = | det(a1 − a0 , . . . , an − a0 )|. n! Hinweis: Man betrachte den Fall, dass die Vektoren aj − a0 , j = 1, . . . , n , linear abhängig sind, separat. Beispiel XIII.3.8. Ein eindrucksvolles Beispiel, das die Nützlichkeit der Polarkoordinaten demonstriert, ist das folgende. Wir möchten das eindimensionale uneigentliche Integral Z ∞ 2 e−x dx −∞ berechnen. Hierzu betrachten wir die Funktion f : R2 → R, 2 (x, y) 7→ e−x −y 2 . Für die Kreisscheibe KR := {(x, y) ∈ R2 : x2 + y 2 ≤ R} erhalten wir in Polarkoordinaten mit Satz XIII.3.7 und anschließender Substitution u = r2 : Z Z R Z f (x, y) dx dy = KR −r 2 e 0 = 2π Z r dϕdr = 2π 0 2 π[−e−u |R 0 = π(1 − e ). −r 2 e 0 −R2 R Z r dr = π 0 R2 e−u du XIII.3. Die Transformationsformel für Mehrfachintegrale 281 Mit dem Satz von Fubini erhalten wir andererseits für das Quadrat QR := {(x, y) ∈ R2 : |x|, |y| ≤ R} Z Z R Z R e f (x, y) dx dy = −R R QR Z = Z −x2 −y 2 e dx dy = −R −x2 e R −R Z R dx −R −y 2 e dy = Z −R R Z 2 2 e−x dx e−y dy −R R −x2 e 2 dx . −R Wegen KR ⊆ QR ⊆ K√2R gilt weiterhin Z Z f (x, y) d(x, y) ≤ KR Z f (x, y) d(x, y) ≤ also −R2 π(1 − e )≤ f (x, y) d(x, y), K√2R QR Z R 2 2 2 e−x dx ≤ π(1 − e−2R ). −R Für R → ∞ erhalten wir daher das uneigentliche Integral Z ∞ −x2 e −∞ Z R dx = lim R→∞ 2 e−x dx = √ π. −R Wir haben in diesem kurzen Abriss der mehrdimensionalen Integrationstheorie den Riemannschen Zugang verfolgt. In der Vorlesung Mehrfachinteg” ration“ werden Sie den Lebegueschen Zugang zur Integrationstheorie kennenlernen, der gegenüber dem Riemannschen sehr viele Vorteile besitzt. Es ist damit sehr viel leichter, Integrierbarkeit von Funktionen nachzuweisen, man hat sehr einfach anzuwendende Sätz für Vertauschung von Integration und Grenzübergängen und man kann die Theorie unmittelbar auf unbeschränkte Funktionen und Integrationsbereiche anwenden. Darüber hinaus hat man eine größere Klasse von Nullmengen, so dass z.B. die Transformationsformel für Lebesgue-Integrale sehr viel leichter zu handhaben ist als die Riemannsche Variante, die wir hier kennen gelernt haben. Ende