Scriptum zur Vorlesung Analysis II Prof. W. Hoffmann Universität Bielefeld WS 2011/12 Index ε-Netz, 33 Überdeckung, 29 äquivalente Metriken, 38 äquivalente Normen, 6 Gradient, 56 Grenzwert einer Abbildung, 17 Grenzwert einer Folge, 8 Häufungspunkt, 8 höhere Ableitung, 63 Hölder-Ungleichung, 2 Hauptzweig, 88 Hessesche Form, 77 homöomorph, 23 Homöomorphismus, 23 homogene lineare Differentialgleichung, 102, 109 abgeschlossene Teilmenge, 8 Adjunkte, 61 affine Abbildung, 61 affiner Raum, 61 Anfangsbedingung, 99 Atlas, 138 Banachscher Fixpunktsatz, 24 bilinear, 58 Immersion, 135 Cauchy-Schwarz-Bunjakowski-Unglei- implizit, 90 chung, 3 implizite Differentiation, 92 indefinit, 75 Determinante, 61 Diffeomorphismus, 68 Differentialgleichung, 98 differenzierbar, 52 Divergenz, 56 Durchmesser einer Menge, 31 Jacobi-Matrix, 54 Karte, 138 Kartesisches Blatt, 136 Kern, 92 Kofaktor, 61 kompakt, 30 Kontraktion, 23 Kurve, 45 exp, 116 explizit, 89 explizite Differentialgleichung, 99 folgenkompakt, 28 Fundamentalmatrix, 111 Funktionalgleichung, 98 Funktionalmatrix, 54 Länge einer Kurve, 45 Lösung, 98 Lösungs-Fundamentalsystem, 111 Lagrange-Multiplikatoren, 95 Laplace-Operator, 67 getrennte Variablen, 100 gewichtetes arithmetisches Mittel, 3 lineare Differentialgleichung, 102, 109 Lipschitz-stetig, 16 gewichtetes geometrisches Mittel, 3 gewöhnliche Differentialgleichung, 99 logarithmische Ableitung, 61 lokales Extremum, 73 gleichmäßig konvergent, 14 lokales Maximum, 73 gleichmäßig stetig, 38 i lokales Minimum, 73 Topologie, 12 topologischer Raum, 12 totale Ableitung, 52 trilinear, 62 Metrik, 6 metrischer Raum, 7 Minkowski-Ungleichung, 2 multilinear, 65 Untermannigfaltigkeit, 138 Nabla-Operator, 56 Nebenbedingung, 92 negativ definit, 74 Newtonverfahren, 84 Niveaufläche, 21 Norm, 1 Norm einer linearen Abbildung, 38 Variation, 43 Variation der Konstanten, 103, 112 Variationsgleichung, 132 Vektorprodukt, 57 vollständiger metrischer Raum, 12 Weg, 25 wegzusammenhängend, 25 Wronski-Matrix, 120 offene Teilmenge, 8 Parametrisierung, 45 partialle Differentialgleichung, 99 partielle Ableitung, 51 Picard-Iteration, 106 Polarkoordinaten, 89 positiv definit, 74 Punkt, 7 Young-Ungleichung, 4 zusammenhängend, 25 Zweig, 89 rektifizierbar, 45 Restglied, 69 Richtungsableitung, 51 Rotation, 56 Satz von Picard-Lindelöf, 104 Satz von Schwarz, 65 Skalarprodukt, 3 stationärer Punkt, 73 stetig, 16 Submersion, 136 Supremumsnorm, 14 symmetrisch, 67 Tangentialraum, 140 Tangentialvektor, 140 Taylor-Polynom, 68 Taylorsche Formel, 68 ii 1 Metrische Räume Nachdem wir in der Vorlesung Analysis I Funktionen auf Teilmengen eines Körpers K mit Absolutbetrag untersucht haben, wollen wir uns in der Vorlesung Analysis II mit Funktionen auf Teilmengen des Raumes K n = |K × K × {z . . . × K} n der n-Tupel x = (x1 , x2 , . . . , xn ) von Elementen xi aus K befassen. Diese lassen sich addieren und mit Elementen aus K multiplizieren: x + y = (x1 + y1 , x2 + y2 , . . . , xn + yn ), ax = (ax1 , ax2 , . . . , axn ). Mitunter werden auch allgemeinere Räume auftreten. 1.1 Normen Es sei K der Körper R der reellen Zahlen oder der Körper C der komplexen Zahlen. Anstelle des Absolutbetrages benötigen wir im Fall einer beliebigen Zahl von Variablen den folgenden Begriff. Definition 1. Eine Norm auf einem K-Vektorraum1 V ist eine Abbildung V → R (deren Wert an der Stelle x wir mit kxk bezeichnen), die folgenden Eigenschaften für alle x, y ∈ V und a ∈ K hat: (i) kaxk = |a| · kxk, (ii) kx + yk ≤ kxk + kyk (Dreiecksungleichung), (iii) wenn kxk = 0, dann x = 0. Aus (i) folgt die Umkehrung von (iii), nämlich k0k = k0 · 0k = |0| · k0k = 0, wobei man zwischen 0 ∈ K und 0 ∈ K n unterscheiden muss, und daraus sowie aus (ii) und (i) folgt 0 = kx − xk ≤ kxk + k − xk = 2kxk, so dass eine Norm nur nichtnegative Werte annehmen kann. Der folgende Satz liefert Beispiele von Normen auf K n . 1 Teilnehmer, die noch keine Vektorräume kennen, mögen sich unter V die Menge K n vorstellen. 1 Satz 1. Für eine reelle Zahl p > 0 und x ∈ K n sei 1/p kxkp = |x1 |p + . . . + |xn |p , kxk∞ = lim kxkp . p→∞ Dies ist für alle p ∈ [1, ∞] eine Norm2 . Für alle p und q mit der Eigenschaft 1 + 1q = 1 gilt die Hölder-Ungleichung p n X i=1 |xi yi | ≤ kxkp kykq . Bemerkungen. Mit dem Einschließungskriterium erhält man kxk∞ = max |xi | : i ∈ {1, 2, . . . , n} . Die Bedingungen q > 0 und p1 + 1q = 1 erzwingen p > 1 für die HölderUngleichung, aber durch Grenzübergang erhält man auch n X i=1 |xi yi | ≤ kxk1 kyk∞ , was sich auch leicht direkt nachprüfen lässt. Im Fall p < 1 ist die Eigenschaft (ii) einer Norm nicht erfüllt, wie man am Beispiel x = (1, 0), y = (0, 1) sieht. Für das Skalarprodukt n X hx, yi = xi ȳi i=1 n zweier Elemente x und y von K (wobei die komplexe Konjugation im Fall K = R unnötig ist) gilt offensichtlich hx, xi = kxk22 , und aus der Dreiecksungleichung für Summen sowie der Hölderungleichung im Fall p = q = 2 folgt die Cauchy-Schwarz-Bunjakowski-Ungleichung |hx, yi| ≤ kxk2 kyk2 . Zum Beweis von Satz 1 benötigen wir weitere Ungleichungen. In Verallgemeinerung eines bekannten Begriffs nennen wir m 1 x1 + . . . + m k xk m 2 Die Dreiecksungleichung für diese Norm heißt auch Minkowski-Ungleichung. 2 das gewichtete arithmetische Mittel der Zahlen x1 , . . . , xk mit den positiven Gewichten m1 , . . . , mk , wobei m = m1 + . . . + mk , und für positive xi nennen wir mk 1/m 1 xm 1 · · · xk das gewichtete geometrische Mittel dieser Zahlen. Lemma 1. Das gewichtete geometrische Mittel ist nicht größer als das gewichtete arithmetische Mittel mit den selben Gewichten, wobei Gleichheit genau dann eintritt, wenn die Zahlen xi gleich sind. Beweis. Sind die Gewichte mi ganze Zahlen, so folgt die Behauptung aus der Ungleichung zwischen dem gewöhnlichen geometrischen und arithmetischen Mittel der Zahlen x1 , . . . , x1 , x2 , . . . , x2 , . . . xk , . . . , xk . | {z } | {z } | {z } m1 m2 mk Da sich das gewichtete arithmetische bzw. geometrische Mittel nicht ändert, wenn man alle mi durch die selbe positive Zahl dividiert, folgt die Behauptung auch für rationale Gewichte. Sind schließlich die Gewichte mi beliebige positive reelle Zahlen, so wählen wir für jedes i eine Folge mij von positiven rationalen Zahlen, so dass mij → mi für j → ∞. Die Ungleichung gilt bereits für jedes j, und nach Satz3 I.26 bleibt sie gültig, wenn wir auf beiden Seiten zum Grenzwert j → ∞ übergehen. Nach den Rechenregeln existieren diese Grenzwerte und sind gleich dem geometrischen bzw. arithmetischen Mittel mit den Gewichten mi . Folgerung 1. Für beliebige positive relle Zahlen a1 , . . . , ak und p1 , . . . , pk mit der Eigenschaft p11 + . . . + p1k = 1 gilt die Young-Ungleichung ap11 apkk a1 · · · ak ≤ + ... + . p1 pk Dazu setzen wir einfach xi = api i und mi = 1 . pi Beweis von Satz 1. Wir beginnen mit der Hölder-Ungleichung, wobei wir zunächst annehmen, dass kxkp = kykq = 1. Nach dem Spezialfall k = 2 der Young-Ungleichung gilt für jedes i |xi |p |yi |q |xi yi | ≤ + , p q 3 Nummern, die mit I beginnen, beziehen sich auf das Skript Analysis I. 3 und durch Summation über i erhalten wir wegen p1 + 1q die Behauptung. Sind x und y beliebig, aber von 0 verscheiden, so können wir das Bewiesene auf die Vektoren y x , kxkp kykq anwenden und erhalten mit dem Distributivgesetz n X 1 |xi yi | ≤ 1. kxkp kykq i=1 Ist schließlich x = 0 oder y = 0, so ist die Behauptung offensichtlich. Nun beweisen wir die Eigenschaften einer Norm für 1 < p < ∞. Hierzu gibt es ein eindeutig bestimmtes q, so dass p1 + 1q = 1, und mit der HölderUngleichung folgt X 1q n n X p−1 (p−1)q |xi ||xi + yi | ≤ kxkp |xi + yi | . i=1 Wegen 1 q =1− 1 p i=1 p−1 p = n X |xi ||xi + yi |p−1 ≤ kxkp kx + ykp−1 p n X |yi ||xi + yi |p−1 ≤ kykp kx + ykp−1 p . i=1 und analog bedeutet dies i=1 Addieren wir beide Ungleichungen und benutzen wir die Dreiecksungleichung für den Absolutbetrag, so folgt kx + ykpp ≤ n X i=1 (|xi | + |yi |)|xi + yi |p−1 ≤ (kxkp + kykp )kx + ykp−1 p . Für kx + ykp = 0 ist nichts zu beweisen, und andernfalls können wir durch kx + ykp−1 dividieren. Damit ist die Minkowski-Ungleichung (ii) bewiesen. p Behauptung (i) folgt aus der analogen Eigenschaft des Absolutbetrages und dem Distributivgesetz. Zum Beweis von (iii) betrachten wir ein Element x mit der Eigenschaft kxkp = 0. Durch Bilden der pten Potenz erhalten wir |x1 |p + . . . + |xn |p = 0, und da alle Summanden nicht negativ sind, folgt |xi |p = 0, also xi = 0, für alle i. Der Beweis in den Fällen p = 1 und p = ∞ ist einfacher und wird den Teilnehmern als Übungsaufgabe überlassen. Die Minkowski-Ungleichung folgt natürlich auch durch Grenzübergang. 4 Definition 2. Zwei Normen k . k und k . k′ auf einem Vektorraum V heißen äquivalent, wenn es Konstanten c und c′ gibt, so dass für alle x ∈ V gilt kxk′ ≤ ckxk, kxk ≤ c′ kxk′ . Lemma 2. Für alle p ∈ ]1, ∞[ und x ∈ K n gilt kxk∞ ≤ kxkp ≤ kxk1 ≤ nkxk∞ , die Normen k . kp für p ∈ [1, ∞] auf K n sind also sämtlich äquivalent. Beweis. Ersetzen wir in x alle Koordinaten außer der betragsmäßig größten durch Null, so verkleinert sich kxkp , und es folgt kxk∞ ≤ kxkp . Schreiben wir hingegen x als Summe der Vektoren (0, . . . , 0, xi , 0, . . . , 0), so ergibt sich aus der Minkowskiungleichung kxkp ≤ kxk1 . Ersetzen wir schließlich in x alle Koordinaten durch die betragsmäßig größte, so ergibt sich kxk1 ≤ nkxk∞ . Mit Hilfe der Jensen-Ungleichung kann man sogar zeigen, dass für beliebige p ≥ q gilt kxkp ≤ kxkq . 1.2 Metriken Viele Objekte der realen Welt lassen sich nicht durch Vektorräume beschreiben. Trotzdem kann man Abstände zwischen Punkten betrachten. Definition 3. Es sei X eine Menge. Eine Funktion d : X × X → R heißt Metrik, wenn für alle x, y und z ∈ X gilt: (i) d(x, y) = d(y, x), (ii) d(x, z) ≤ d(x, y) + d(y, z) (Dreiecksungleichung), (iii) genau dann d(x, y) = 0, wenn x = y. Eine Menge, die mit einer Metrik versehen ist, nennt man metrischen Raum4 , ihre Elemente nennt man Punkte. Durch Anwendung der Eigenschaften (iii), (ii) und (i) sehen wir, dass 0 = d(x, x) ≤ d(x, y) + d(y, x) = 2d(x, y), d. h. dass eine Metrik nur nichtnegative Werte annimmt. 4 Strenggenommen ist ein metrischer Raum ein geordnetes Paar (X, d). 5 Beispiel. Ist V ein Vektorraum mit einer Norm, so ist d(x, y) = kx − yk eine Metrik auf V . Die Norm k . k2 auf Rn liefert die euklidische Metrik. ⊳ Beispiel. Ist d eine Metrik auf der Menge X und Y eine Teilmenge von X, so ist die Einschränkung d|Y ×Y eine Metrik auf Y , genannt die von d induzierte Metrik. Die Menge Y , versehen mit dieser Metrik, nennt man einen metrischen Teilraum von X. Betrachtet man z. B. die Erdoberfläche eine Teilmenge des euklidischen Raumes, so beschreibt d(x, y) die Länge der Sehne durch das Erdinnere, die x und y verbindet. ⊳ Beispiel. Es sei A eine Menge und d : An × An → R gegeben durch d(x, y) = i ∈ {1, 2, . . . , n} : xi 6= yi . Dann ist d eine Metrik auf An . Man kann sich A als ein Alphabet und An als Menge der Zeichenketten vorstellen. Dann gibt d(x, y) an, an wie vielen Stellen sich die Zeichenketten x und y unterscheiden. In An kann man die Teilmenge Y der sinnvollen Wörter betrachten. ⊳ Metrische Räume bilden einen passenden Rahmen für die Analysis. Definition 4. Es sei X ein metrischer Raum. (i) Ein Punkt a von X heißt Grenzwert der Folge von Punkten xk von X, wenn es für jede positive reelle Zahl ε eine natürliche Zahl k0 gibt, so dass für alle natürlichen Zahlen k mit der Eigenschaft k ≥ k0 gilt d(xk , a) < ε. (ii) Ein Punkt a von X heißt Häufungspunkt der Folge von Punkten xk von X, wenn es für jede positive reelle Zahl ε und jede natürliche Zahl k0 eine natürliche Zahl k gibt, so dass k ≥ k0 und d(xk , a) < ε. (ii) Eine Teilmenge A von X heißt abgeschlossen in X, wenn jeder Häufungspunkt einer Folge von Elementen von A ebenfalls in A liegt. (iii) Eine Teilmenge U von X heißt offen in X, wenn es für jedes Element a von U eine positive reelle Zahl ε gibt, so dass alle Elemente x von X mit der Eigenschaft d(x, a) < ε in U liegen. 6 In dem Spezialfall, dass X ein Körper mit Absolutbetrag ist, stimmen diese Begriffe mit den früher betrachteten überein. Die Sätze I.14, I.15, I.35 und I.38 übertragen sich einschließlich ihrer Beweise. Wir fassen die Versionen für metrische Räume hier zusammen: Satz 2. (i) Konvergiert eine Folge sowohl gegen a als auch gegen b, so ist a = b. (ii) Jede konvergente Folge ist beschränkt, d. h. es gibt eine Zahl c > 0, so dass für alle k und l gilt d(xk , xl ) ≤ c. (ii) Ein Punkt a ist genau dann Häufungspunkt einer Folge, wenn er Grenzwert einer ihrer Teilfolgen ist. (iv) Eine Menge A ist genau dann abgeschlossen in X, wenn ihr Komplement X \ A offen in X ist. Eine offene Menge in X, die den Punkt a enthält, nennt man eine Umgebung von a in X. Damit kann man die Definitionen von Grenzwert und Häufungspunkt anschaulicher formulieren. Satz 3. (i) Für jedes ε > 0 ist die Menge Uε (a) = {x ∈ X | d(x, a) < ε} eine Umgebung von a, genannt ε-Umgebung von a. (ii) Der Punkt a ist genau dann Grenzwert der Folge xk , wenn es für jede Umgebung U von a ein k0 gibt, so dass für alle k mit der Eigenschaft k ≥ k0 gilt xk ∈ U . (iii) Der Punkt a ist genau dann Häufungspunkt der Folge xk , wenn es für jede Umgebung U von a und jedes k0 ein k gibt, so dass k ≥ k0 und xk ∈ U . Beweis. (i) Es sei b ∈ Uε (a), also d(b, a) < ε. Setzen wir δ = ε − d(b, a), so ist δ > 0, und es gilt für jedes x ∈ X mit d(x, b) < δ, dass d(x, a) ≤ d(x, b) + d(b, a) < δ + d(b, a) = ε, also x ∈ Uε (a). (ii) Angenommen, die Folge xk konvergiert gegen a. Ist U eine Umgebung von a, so gibt es nach Definition der Offenheit ein ε > 0, so dass alle x ∈ X mit d(x, a) < ε in U liegen. Wegen der Konvergenz gibt es dann ein k0 , so dass für alle k ≥ k0 gilt d(xk , a) < ε. Für diese k ist somit xk ∈ U . Die Umkehrung ist offensichtlich, denn wenn eine Eigenschaft für alle Umgebungen gilt, so gilt sie insbesondere für alle ε-Umgebungen. Der Beweis von (iii) ist ähnlich. 7 Bemerkungen. (i) Metriken auf einem Vektorraum, die von äquivalenten Normen induziert werden, definieren den selben Begriff der Konvergenz sowie der Offenheit und Abgeschlossenheit. (ii) In Analogie zu Satz I.32(i) gilt: Eine Folge von Elementen xk = (x1k , . . . , xnk ) von K n konvergiert (bezüglich einer der in Satz 1 betrachteten Normen) genau dann gegen einen Punkt a = (a1 , . . . , an ), wenn jede der Koordinatenfolgen xik gegen die jeweilige Koordinate ai von a konvergiert. Ist nämlich kxk − ak∞ eine Nullfolge, so sind offensichtlich die |xik − ai | Nullfolgen, und sind umgekehrt die |xik − ai | Nullfolgen, so ist offensichtlich kxk − ak1 eine Nullfolge. Satz 4. Es sei X ein metrischer Raum. (i) Die Mengen X und ∅ sind offen in X. (ii) Sind U und V offen in X, so ist auch der Durchschnitt U ∩ V offen in X. (iii) Ist für jeden Index i aus einer Menge I eine offene Teilmenge Ui von X gegeben, so ist die Vereinigung [ U= Ui i∈I offen in X. Beweis. (i) Der gesamte Raum X ist offen, da für jeden Punkt x gilt U1 (x) ⊆ X, und ∅ ist offen, da es keinen Punkt gibt, für den eine Bedingung zu erfüllen wäre. (ii) Ist x ∈ U ∩ V , so gibt es wegen der Offenheit von U und V Zahlen ε > 0 und δ > 0, so dass Uε (x) ⊆ U und Uδ (x) ⊆ V . Setzen wir η = min{ε, δ}, so gilt Uη (x) ⊆ U ∩ V . (iii) Ist x Element der Vereinigung, so gibt es einen Index i ∈ I, so dass x ∈ Ui . Da Ui offen ist, gibt es ein ε > 0, so dass Uε (x) ⊆ Ui , also Uε (x) ⊆ U . Bemerkung. Für das Komplement5 B c = X \ B gelten die de Morganschen Regeln !c !c [ \ \ [ Bic . Bi = Bic , Bi = i∈I 5 i∈I i∈I i∈I Bei dieser Schreibweise muss X aus dem Zusammenhang erkennbar sein. 8 Angesichts von Satz 2(iv) kann man also Satz 4 auch durch abgeschlossene Mengen ausdrücken. Ist Y ein metrischer Teilraum von X, so braucht eine offene Teilmenge U von Y nicht offen in X und eine abgeschlossene Teilmenge A von Y nicht abgeschlossen in X zu sein. Man betrachte z. B. X = R, Y = U = A = [0, 1[. Satz 5. Es sei Y ein metrischer Teilraum von X. (i) Die in Y offenen Mengen sind genau die Mengen der Form U ∩ Y , wobei U eine offene Menge in X ist. (ii) Die in Y abgeschlossenen Mengen sind genau die Mengen der Form A ∩ Y , wobei A eine abgeschlossene Menge in X ist. Beweis. Wegen Y \(A∩Y ) = Y ∩(X \A) genügt es angesichts von Satz 2(iv), die Aussage (i) zu beweisen. Zuvor bemerken wir: Sind UεX (b) und UεY (b) die ε-Umgebung eines Punktes b ∈ Y in den Räumen X bzw. Y , so ist UεX (b) ∩ Y = UεY (b). Ist U offen in X und b ∈ U ∩ Y , so gibt es ein ε > 0, so dass UεX (b) ∈ U , und dann ist UεY (b) ∈ U ∩ Y . Also ist U ∩ Y offen in Y . Nun sei V eine offene Teilmenge von Y . Für jedes b ∈ V gibt es ein εb > 0, so dass UεYb (b) ⊆ V . Nach Satz 3(i) und 4(iii) ist die Menge U= [ UεXb (b) b∈V offen in X. Es gilt U ∩ Y ⊆ V , und für jedes b ∈ V ist b ∈ Uεb (b) ∩ Y ⊆ U ∩ Y , also V ⊆ U ∩ Y . Eine Familie von Teilmengen einer beliebigen Menge X, die die Eigenschaften der Familie der offenen Mengen aus Satz 4 hat, nennt man übrigens eine Topologie auf X. Eine Menge X, die mit einer Topologie versehen ist, nennt man topologischen Raum. Für solche Räume betrachtet man die Aussagen (ii) und (iii) von Satz 3 und den Satz 5 als Definitionen. 1.3 Vollständigkeit Wie schon im Fall von Körpern spielt der Begriff der Vollständigkeit auch für metrische Räume eine wichtige Rolle. Definition 5. Eine Folge von Elementen xk eines metrischen Raumes X heißt Cauchy-Folge, wenn es für jede positive Zahl ε eine natürliche Zahl k0 9 gibt, so dass für alle natürlichen Zahlen k und l mit der Eigenschaft k ≥ k0 und l ≥ k0 gilt d(xk , xl ) < ε. Ein metrischer Raum heißt vollständig, wenn jede Cauchy-Folge in diesem Raum konvergent ist. Wegen d(xk , xl ) ≤ d(xk , a) + d(a, xl ) ist jede konvergente Folge eine Cauchy-Folge. In Analogie zu Satz I.32(ii) gilt: Eine Folge von Elementen xk = (x1k , . . . , xnk ) von K n ist eine Cauchy-Folge (bezüglich einer der in Satz 1 betrachteten Normen) genau dann, wenn jede der Koordinatenfolgen xik eine CauchyFolge ist. Da die Körper R und C nach Satz I.23 und Satz I.32(iii) vollständig sind, erhalten wir Folgerung 2. Die Vektorräume Rn und Cn sind bezüglich jeder der Normen k . kp vollständig. Lemma 3. Ein abgeschlossener Teilraum Y eines vollständigen metrischen Raumes X ist vollständig. Ein vollständiger Teilraum von X ist abgeschlossen in X. Beweis. Angenommen, Y ist abgeschlossen in X. Ist yk eine Cauchyfolge in Y , so ist sie auch eine Cauchyfolge in X, hat dort also einen Grenzwert a. Da Y abgeschlossen ist, gilt a ∈ Y , also ist die Folge konvergent in Y . Angenommen, Y ist vollständig. Ist yk eine Folge in Y , die gegen einen Punkt a von X konvergiert, so ist sie eine Cauchy-Folge in X, also auch eine Cauchy-Folge in Y . Wegen der Vollständigkeit von Y hat sie einen Grenzwert b in Y , und nach Satz 2(i) ist a = b. Beispiel. Wir definieren kf k1 = Z b a |f (x)| dx für jede integrierbare Funktion f auf dem beschränkten Intervall [a, b]. Dies ist keine Norm auf dem Vektorraum solcher Funktionen, weil z. B. für die Funktion ( 1, wenn x = a, f (x) = 0 sonst 10 gilt kf k1 = 0. (Dem kann man abhelfen, in dem man den Raum der Äquivalenzklassen von Funktionen betrachtet, wobei f ∼ g, wenn kf − gk1 = 0.) Die Einschränkung von k . k1 auf den Unterraum der stetigen Funktionen ist nach den Sätzen I.86 und I.87 eine Norm. Betrachten wir nun auf [−1, 1] die Funktionen fk (x) = kx . |kx| + 1 Weil die Funktionen ungerade sind, ist Z 1 kfk − sgn k1 = 2 (sgn x − fk (x)) dx, 0 und durch die Substitution u = kx + 1 erhalten wir Z u−1 ln(k + 1) 2 k+1 . 1− du = 2 kfk − sgn k1 = k 1 u k Die Folge konvergiert also im Raum der Äquivalenzklassen gegen die Signumfunktion. Der Unterraum der stetigen Funktionen ist somit nicht abgeschlossen und folglich auch nicht vollständig bezüglich der Norm k . k1 . Der Raum der Äquivalenzklassen integrierbarer Funktionen ist übrigens auch nicht vollständig. ⊳ Definition 6. Es sei X eine Menge und K = R oder K = C. Für jede beschränkte Funktion f : X → K nennen wir kf k = sup |f | die Supremumsnorm von f . Eine Folge, die bezüglich der Supremumsnorm konvergiert, nennen wir gleichmäßig konvergent. Lemma 4. Der Raum der beschränkten Funktionen auf einer beliebigen Menge ist bezüglich der Supremumsnorm vollständig. Beweis. Es sei fn eine Cauchy-Folge. Für jedes Element x von X gilt |fk (x) − fl (x)| ≤ kfk − fl k, also ist fk (x) eine Cauchyfolge. Wegen der Vollständigkeit von K hat diese einen Grenzwert, den wir mit f (x) bezeichnen. So erhalten wir eine Funktion f : X → K. 11 Nun sei ε > 0. Dann gibt es ein k0 , so dass für k ≥ k0 und l ≥ k0 gilt kfk − fl k < ε, also für jedes x ∈ X |fk (x) − fl (x)| < ε. Durch Grenzübergang l → ∞ folgt |fk (x) − f (x)| ≤ ε, und mit der Dreiecksungleichung |f (x)| ≤ |f (x) − fk (x)| + |fk (x)| ≤ ε + kfk k. Da x beliebig war, ist f beschränkt und kfk (x) − f (x)k ≤ ε. Da ε beliebig war, konvergiert die Folge fk gleichmäßig gegen f . Man kann die Supremumsnorm auch für Funktionen mit Werten in einem Vektorraum V definieren, wenn auf diesem eine Norm definiert ist. Ist V vollständig, so gilt das Lemma auch hier. Noch allgemeiner kann man Abbildungen mit Werten in einem metrischen Raum Y mit einer Metrik e betrachten. Eine solche Abbildung heißt beschränkt, wenn ihr Bild (Wertevorrat) beschränkt ist, d. h. wenn es eine Zahl c gibt, so dass für alle u, v ∈ X gilt e(f (u), f (v)) ≤ c. Auf dem Raum aller beschränkten Abbildungen X → Y definiert man die Supremumsmetrik d(f, g) = sup{e(f (x), g(x)) | x ∈ X}. Die allgemeine Version des Lemmas besagt, dass d vollständig ist, wenn e vollständig ist. Lässt man für Metriken den Wert ∞ zu, dann kann man sogar die Bedingung der Beschränktheit fallen lassen. 1.4 Stetigkeit Der Begriff der Stetigkeit von Abbildungen ist eine offensichtliche Verallgemeinerung des Begriffs der Stetigkeit von Funktionen. Definition 7. Es seien X und Y metrische Räume mit Metriken d bzw. e, es sei a ∈ X und f eine Abbildung von X in Y . (i) Die Funktion f heißt stetig an der Stelle a, wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für alle x ∈ X mit der Eigenschaft d(x, a) < δ gilt e(f (x), f (a)) < ε. 12 (ii) Die Abbildung f heißt stetig, wenn sie an jeder Stelle stetig ist. (iii) Die Abbildung f heißt Lipschitz-stetig, wenn es eine Zahl c gibt, so dass für alle Punkte u und v von X gilt e(f (u), f (v)) ≤ c d(u, v). Bemerkungen. (i) Wird die Metrik d oder e von einer Norm induziert, so ändert sich der Begriff der Stetigkeit nicht, wenn man zu einer äquivalenten Norm übergeht. (ii) Jede Lipschitz-stetige Funktion ist stetig. Für jeden Punkt a ist die Funktion f (x) = d(x, a) Lipschitz-stetig, denn aus der Dreiecksungleichung folgt |d(u, a) − d(v, a)| ≤ d(u, v). (iii) Ist f eine Abbildung von einer Menge X in den Raum K n , so ist für jedes x ∈ X das Element f (x) ein n-Tupel, das wir mit (f1 (x), . . . , fn (x)) bezeichnen. Auf diese Weise erhalten wir aus einer Abbildung f : X → K n Koordinatenfunktionen fi : X → K und umgekehrt. (iv) Eine Abbildung f von einem metrischen Raum X in den Raum K n ist genau dann stetig, wenn ihre Koordinatenfunktionen stetig sind, denn es gilt für jedes i ∈ {1, . . . , n} |fi (x) − fi (a)| ≤ kf (x) − f (a)k∞ ≤ kf (x) − f (a)k1 ≤ n X j=1 |fj (x) − fj (a)|. Der Begriff der Stetigkeit hängt eng mit dem des Grenzwertes zusammen. Definition 8. Es seien X und Y metrische Räume mit Metriken d bzw. e. (i) Der Punkt a heißt Häufungspunkt der Teilmenge D von X, wenn in jeder Umgebung von a ein Punkt von D \ {a} liegt. 13 (ii) Es sei a ein Häufungspunkt der Menge D und f : D → Y . Der Punkt b von Y heißt Grenzwert der Abbildung f an der Stelle a, abgekürzt f (x) → b (x → a), wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für alle x ∈ D \ {a} mit der Eigenschaft d(x, a) < δ gilt e(f (x), b) < ε. Bemerkungen. (i) Weil a Häufungspunkt von D ist, kann in Analogie zu Satz 2(i) eine Abbildung f an einer Stelle a nur einen Grenzwert haben. Wir bezeichnen ihn mit lim f (x). x→a (ii) Ein Punkt von D, der kein Häufungspunkt von D ist, hießt isolierter Punkt von D. Er ist trotzdem Häufungspunkt einer Folge in D, z. B. a, a, a, . . . (iii) Die Begriffe Grenzwert und Stetigkeit hängen wie folgt zusammen. Ist a∈ / D, so gilt für eine Abbildung f : D → Y genau dann f (x) → b (x → a), wenn die durch g(x) = ( f (x), wenn x 6= a, b, wenn x = a definiere Abbildung g : D ∪ {a} → Y an der Stelle a stetig ist. Dabei wird D ∪ {a} als metrischer Teilraum von X betrachtet. Beispiel. Es sei f : R2 \ {(0, 0)} → R definiert durch x1 x2 f (x1 , x2 ) = 2 . x1 + x22 Für festes x2 gilt lim f (x1 , x2 ) = 0, x1 →0 und für festes x1 gilt lim f (x1 , x2 ) = 0. x2 →0 Würde der Grenzwert lim f (x) = b x→(0,0) existieren, dann müsste es für jedes ε > 0 ein δ > 0 geben, so dass für k(t, 0)k < δ und k(t, t)k < δ gilt |f (t, 0) − b| < ε und |f (t, t) − b| < ε. Wir haben aber 1 f (t, 0) = 0, f (t, t) = , 2 1 und für ε = 4 ergibt sich ein Widerspruch. Der besagte Grenzwert existiert also nicht. ⊳ 14 Satz 6. Die Abbildungen K × K → K, die durch (x1 , x2 ) 7→ x1 + x2 , bzw. (x1 , x2 ) 7→ x1 · x2 gegeben sind, sind stetig. Beweis. Die erste Abbildung ist sogar Lipschitz-stetig, denn nach der Dreiecksungleichung gilt |(u1 + u2 ) − (v1 + v2 )| = |(u1 − v1 ) + (u2 − v2 )| ≤ ku − vk1 . Bei der zweiten Abbildung haben wir |x1 x2 − a1 a2 | = |(x1 − a1 )x2 + a1 (x2 − a2 )| ≤ |x1 − a1 ||x2 | + |a1 ||x2 − a2 |. n o ε ε 2 Zu gegebenem a ∈ K und ε > 0 wählen wir δ = min 1, 2|a1 | , 2(1+|a2 |) . Dann gilt für kx − ak∞ < δ |x2 | ≤ |x2 − a2 | + |a2 | ≤ δ + |a2 | ≤ 1 + |a2 | und somit |x1 x2 − a1 a2 | ≤ δ(|a2 | + 1) + |a1 |δ ≤ ε ε + = ε. 2 2 Also ist die Abbildung stetig an der Stelle a = (a1 , a2 ). In Analogie zu Satz I.61 gilt das Folgenkriterium: Satz 7. Eine Abbildung f : X → Y ist genau dann stetig an der Stelle a, wenn für jede Folge xk in X mit dem Grenzwert a die Folge f (xk ) in Y gegen f (a) konvergiert. Beweis. Angenommen, f ist nicht stetig an der Stelle a. Dann gibt es ein ε > 0, so dass für jedes δ > 0 ein x ∈ X existiert, so dass d(x, a) < δ, aber e(f (x), f (a)) ≥ ε. Insbesondere gibt es also für jedes k ∈ N ein xk , so dass d(xk , a) < k1 , aber e(f (xk ), f (a)) ≥ ε. Dies bedeutet, dass xk gegen a, aber f (xk ) nicht gegen f (a) konvergiert. Das Folgenkriterium ist also nicht erfüllt. Die Umkehrung ist einfach. Man kann die Stetigkeit einer Abbildung f : X → Y zwischen metrischen Räumen auch mit Hilfe von Umgebungen in Analogie zu Satz 3 ausdrücken. Dazu definieren wir das Bild einer Teilmenge A von X und das Urbild einer Teilmenge B von Y durch f (A) = {f (x) | x ∈ a}, f −1 (B) = {x ∈ X | f (x) ∈ B}. 15 Satz 8. (i) f ist genau dann stetig an der Stelle a, wenn es für jede Umgebung V von f (a) eine Umgebung U von a gibt, so dass f (U ) ⊆ V . (ii) f ist genau dann stetig, wenn für jede offene Menge V in Y das Urbild f −1 (V ) offen in X ist. Beweis. (i) Es sei V eine Umgebung von f (a). Dann gibt es ein ε > 0, so dass UεY (f (a)) ⊆ V . Ist f stetig an der Stelle a, so gibt es ein δ > 0, so dass f (UδX (a)) ⊆ UεY (f (a)). Also ist das Kriterium mit U = UδX (a) erfüllt. Ist umgekehrt das Kriterium erfüllt und ε > 0 gegeben, so wenden wir es auf V = UεY (f (a)) an und erhalten eine Umgebung U von a, so dass f (U ) ⊆ UεY (f (a)). Wegen der Offenheit von U gibt es ein δ > 0, so dass UδX (a) ⊆ U . Somit gilt f (UδX (a)) ⊆ UεY (f (a)), d. h. f ist stetig an der Stelle a. (ii) Angenommen, f ist stetig. Für eine offene Menge V von Y wollen wir zeigen, dass f −1 (V ) offen ist. Ist a in diesem Urbild, so ist f (a) ∈ V , und nach Teil (i) gibt es eine Umgebung U von a, so dass f (U ) ⊆ V . Das bedeutet U ⊂ f −1 (V ), und da a in der Menge f −1 (V ) beliebig gewählt war, ist sie offen. Umgekehrt sei das Kriterium erfüllt. Ist nun a ∈ X, so ist für jede Umgebung V von f (a) die Menge U = f −1 (V ) eine Umgebung von a mit der Eigenschaft f (U ) ⊆ V . Somit ist f nach Teil (i) an der Stelle a stetig. Bemerkung. Wegen f −1 (Y \ V ) = X \ f −1 (V ) sehen wir unter Verwendung von Satz 2(iv), dass eine Abbildung genau dann stetig ist, wenn die Urbilder aller abgeschlossenen Mengen abgeschlossen sind. Beispiel. Ist f : X → R eine stetige Funktion, so ist für jedes c ∈ R die Menge {x ∈ X | f (x) < c} = f −1 ]−∞, c[ offen und die sogenannte Niveaufläche {x ∈ X | f (x) = c} = f −1 ({c}) abgeschlossen. Wenden wir dies auf eine Norm auf einem Vektorraum an, so erhalten wir eine offene Einheitskugel {x ∈ V | kxk < 1} und eine abgeschlossene Einheitssphäre {x ∈ V | kxk = 1}. ⊳ Für die Verkettung gilt in Analogie zu Satz I.56: Satz 9. Ist die Abbildung f : X → Y stetig an der Stelle a und die Abbildung g : Y → Z stetig an der Stelle b = f (a), so ist die Abbildung g ◦ f : X → Z stetig an der Stelle a. 16 Beweis. Ist W eine Umgebung von g(f (a)) = g(b) in Z, so gibt es wegen der Stetigkeit von g an der Stelle b eine Umgebung V von b in Y , so dass g(V ) ⊆ W , und wegen der Stetigkeit von f an der Stelle a gibt es eine Umgebung U von a in X, so dass f (U ) ⊆ V . Es folgt g ◦ f (U ) ⊆ W , und weil W beliebig war, ist g ◦ f an der Stelle a stetig. Alternativ hätte man den Beweis von Satz I.56 kopieren oder Satz 7 benutzen können. Aus den Sätzen I.55, 6 und 9 ergibt sich: Folgerung 3. Jede Abbildung D → K n , deren Koordinatenfunktionen auf D durch Terme gegeben sind, in denen nur arithmetische Operationen und stetige Funktionen vorkommen, ist stetig. Nun kommen wir auf die Frage nach der Vollständigkeit von Funktionenräumen zurück. Satz 10. Ist fk : X → K n eine Folge stetiger Abbildungen, die gleichmäßig gegen eine Abbildung f : X → K n konvergiert, so ist f stetig. Beweis. Ist ε > 0, so gibt es wegen der gleichmäßigen Konvergenz eine natürliche Zahl k0 , so dass für k ≥ k0 gilt ε sup kfk (x) − f (x)k < . 3 x∈X Nun sei a ∈ X. Wegen der Stetigkeit von fk0 gibt es ein δ > 0, so dass für x ∈ Uδ (a) gilt ε kfk0 (x) − fk0 (a)k < . 3 Für x ∈ Uδ (a) folgt nun mit der Dreiecksungleichung kf (x) − f (a)k ≤ kf (x) − fk0 (x)k + kfk0 (x) − fk0 (a)k + kfk0 (a) − f (a)k ≤ ε. Es folgt die Stetigkeit von f an der Stelle a. Der selbe Beweis liefert, dass für eine Folge stetiger Abbildungen fk : X → Y zwischen metrischen Räumen, die bezüglich der Supremumsmetrik gleichmäßig gegen eine Abbildung f : X → Y konvergiert, die Abbildung f stetig ist. Nach dem Satz ist der Raum der stetigen beschränkten Funktionen X → n K abgeschlossen im Raum aller beschränkten Funktionen X → K n . In Verbindung mit Lemma 3 und Lemma 4 erhalten wir: Folgerung 4. Der Raum der beschränkten stetigen Funktionen auf einem metrischen Raum mit Werten in Rn oder Cn ist vollständig. 17 Die Umkehrabbildung einer bijektiven stetigen Abbildung braucht natürlich nicht stetig zu sein. Definition 9. Eine Abbildung f : X → Y zwischen metrischen Räumen heißt Homöomorphismus, wenn sie eine stetige Umkehrabbildung besitzt. Zwei metrische Räume heißen homöomorph, wenn es zwischen ihnen einen Homöomorphismus gibt. Beispiel. Es sei k . k eine Norm auf einem endlichdimensionalen Vektorraum V und x f (x) = . 1 + kxk für x ∈ V . Dann ist kf (x)k = kxk < 1, 1 + kxk wir erhalten also eine Abbildung f : V → B = {x ∈ V | kxk < 1}. Außerdem folgt 1 1 − kf (x)k = . 1 + kxk Wir können nun die Definition von f nach x auflösen. Setzen wir für y ∈ B g(y) = y , 1 − kyk so ist g die Umkehrabbildung von f . Da die Norm Lipschitz-stetig ist, sind f und g stetig, und somit sind V und B homöomorph. ⊳ 1.5 Kontraktionen Folgender Begriff hängt mit dem der Lipschitz-Stetigkeit zusammen. Definition 10. Eine Abbildung f : X → Y zwischen metrischen Räumen heißt Kontraktion, wenn es eine Zahl c ∈ [0, 1[ gibt, so dass für alle u, v ∈ X gilt e(f (u), f (v)) ≤ c d(u, v). Der folgende Satz zeigt die Nützlichkeit des Begriffs der Vollständigkeit. Satz 11 (Banachscher Fixpunktsatz). Ist f : X → X eine Kontraktion von einem nichtleeren vollständigen metrischen Raum X in sich selbst, so hat f einen Fixpunkt, d. h. einen Punkt a ∈ X, so dass f (a) = a. 18 Ist b ebenfalls ein Fixpunkt, so gilt d(a, b) = d(f (a), f (b)) ≤ c d(a, b), also d(a, b) = 0 und somit a = b. Es kann also nur einen Fixpunkt geben. Die Beweisidee kennen wir schon vom Konvergenzbeweis des Heronverfahrens (vgl. Satz I.13). Beweis. Wegen X 6= ∅ gibt es einen Punkt x0 ∈ X. Wir definieren eine Folge xk rekursiv durch xk+1 = f (xk ). Wir beweisen durch vollständige Induktion nach k, dass d(xk+1 , xk ) ≤ ck d(x1 , x0 ). Dies gilt offenbar für k = 0, und gilt es für eine Zahl k, so folgt d(xk+2 , xk+1 ) = d(f (xk+1 ), f (xk )) ≤ c d(xk+1 , xk ) ≤ ck+1 d(x1 , x0 ). Für l ≥ k folgt mit der Dreiecksungleichung d(xl , xk ) ≤ l−1 X i=k d(xi+1 , xi ) ≤ l−1 X i=k ci d(x1 , x0 ) ≤ ck d(x1 , x0 ). 1−c Wegen |c| < 1 konvergiert die rechte Seite für k → ∞ gegen Null, und somit ist xk eine Cauchyfolge. Da X vollständig ist, konvergiert sie gegen einen Punkt a. Wegen der Lipschitz-Stetigkeit von f folgt aus der Rekursionsformel durch Grenzübergang, dass a = f (a). 1.6 Zusammenhang Wir wollen nun den Zwischenwertsatz verallgemeinern. Definition 11. Es sei X ein metrischer Raum und a, b Punkte von X. Ein Weg von a nach b in X ist eine stetige Abbildung g : [0, 1] → X, so dass g(0) = a und g(1) = b. Der Raum X heißt wegzusammenhängend6 , wenn es für beliebige Punkte a und b einen Weg von a nach b in X gibt. Ist ein Raum nicht wegzusammenhängend, so ist das schwer unmittelbar nachzuweisen. Einfacher geht das mit folgendem Begriff. Definition 12. Ein metrischer Raum X heißt unzusammenhängend, wenn er zwei offene nichtleere Teilmengen A und B besitzt, so dass A ∪ B = X und A ∩ B = ∅. Andernfalls heißt er zusammenhängend7 . 6 7 auch bogenzusammenhängend oder linear zusammenhängend genannt auch Hausdorff-zusammenhängend genannt 19 Wegen Satz 2(iv) hätte man genauso gut verlangen können, dass A und B abgeschlossen sind oder dass A offen und abgeschlossen ist. Lemma 5. Ein metrischer Teilraum von R ist genau dann zusammenhängend, wenn er ein Intervall ist. Beweis. Ist X ⊆ R kein Intervall, so gibt es a, b ∈ X und c ∈ R \ X, so dass a < c < b. Die Mengen A = ]−∞, c[ ∩ X, B = ]c, ∞[ ∩ X sind nach Satz 5 offen in X, es gilt a ∈ A, b ∈ B, und man sieht, dass X unzusammenhängend ist. Nun sei I ein Intervall. Angenommen, I = A∪B, wobei A und B disjunkt, nicht leer und abgeschlossen im Teilraum I sind. Es sei b ein innerer Punkt von I. Nach eventueller Umbenennung können wir annehmen, dass b ∈ B ist, und nach eventueller Multiplikation mit −1 können wir annehmen, dass A ∩ ]−∞, b] nicht leer ist und folglich ein Supremum a besitzt. Für jedes ε > 0 gibt es ein Element x ∈ A mit a − ε < x ≤ a, und da A abgeschlossen ist, folgt a ∈ A. Insbesondere folgt a < b, und für jedes ε > 0 gibt es ein y ∈ B mit a < y < a + ε. Da B abgeschlossen ist, folgt a ∈ B, und wir haben einen Widerspruch zur Disjunktheit von A und B. Satz 12. Jeder wegzusammenhängende metrische Raum ist zusammenhängend. Beweis. Angenommen, wir haben eine Zerlegung X = A ∪ B in disjunkte nichtleere abgeschlossene Teilmengen. Dann wählen wir a ∈ A und b ∈ B. Ist X wegzusammenhängend, so gibt es einen Weg g von a nach b, und die Mengen g −1 (A) und g −1 (B) sind offensichtlich disjunkt und nach Satz 8 offen. Wegen 0 ∈ g −1 (A) und 1 ∈ g −1 (B) sind sie nicht leer, was Lemma 5 widerspricht. Es gibt zusammenhängende metrische Räume, die nicht wegzusammenhängend sind. Beispiel. Die Teilräume n 1o Y = (x, y) ∈ R2 x > 0, y = sin , x Z = {(0, 0)} von R2 sind offensichtlich wegzusammenhängend und somit zusammenhängend. Wir behaupten, dass der Teilraum X = Y ∪ Z zusammenhängend ist. Hätten wir nämlich eine Zerlegung X = A ∪ B in nichtleere disjunkte offene 20 Teilmengen, so wäre Y = (Y ∩A)∪(Y ∩B) eine Zerlegung in disjunkte offene Teilmengen. Da Y zusammenhängend ist, muss dann einer der beiden Teile leer sein, also Y ⊆ A oder Y ⊆ B. Das Gleiche gilt für Z, so dass nur A = Y , B = Z oder umgekehrt in Frage kommt. Die Menge Y ist zwar offen in X, die Menge Z jedoch nicht, denn der Punkt (0, 0) ist z. B. Grenzwert der Folge 1 , 0 in Y . Damit ist bewiesen, dass der Raum X zusammenhängend ist. kπ Er ist aber nicht wegzusammenhängend (Aufgabe 20). ⊳ Der Zwischenwertsatz verallgemeinert sich wie folgt. Satz 13. Es sei f : X → Y eine stetige Abbildung. (i) Ist X wegzusammenhängend, so auch f (X). (ii) Ist X zusammenhängend, so auch f (X). Hier betrachten wir f (X) als Teilraum von Y . Beweis. (i) Für a, b ∈ f (X) gibt es u, v ∈ X, so dass f (u) = a und f (v) = b. Ist X wegzusammenhängend, so gibt es einen Weg g von u nach v, und dann ist f ◦ g nach Satz 9 ein Weg von a nach b. (ii) Ist f (X) nicht zusammenhängend, so gibt es eine Zerlegung Y = A ∪ B wie in der Definition. Nach Satz 5 ist A = U ∩ f (X) und B = V ∩ f (X) mit offenen Mengen U und V von Y . Nun sind die Mengen f −1 (A) = f −1 (U ) und f −1 (B) = f −1 (V ) nach Satz 8 offen und bilden eine Zerlegung von X, die zeigt, dass auch X nicht zusammenhängend ist. Als Anwendung beweisen wir die Starrheit von K-analytischen Funktionen, wobei K = R oder K = C. Satz 14. Es sei f eine K-analytische Funktion auf einer zusammenhängenden offenen Teilmenge U von K. Hat die Nullstellenmenge von f einen Häufungspunkt in U , so ist f (x) = 0 für alle x ∈ U . Beweis. Es sei N die Nullstellenmenge von f und A die Menge der Häufungspunkte von N . Dann ist A abgeschlossen (vgl. die Lösung von Aufgabe 9b). Nach Voraussetzung ist A nicht leer. Laut Satz I.48 ist jeder Punkt von A ein innerer Punkt von N und somit auch von A. Also ist A offen. Da U zusammenhängend ist, muss A = U sein, also auch N = U . 21 1.7 Kompaktheit Definition 13. Eine Teilmenge A eines metrischen Raumes heißt folgenkompakt, wenn jede Folge in A einen Häufungspunkt in A besitzt. Offensichtlich ist A genau dann folgenkompakt in X, wenn A in dem metrischen Teilraum A von X folgenkompakt ist. Im Unterschied zur Offenheit und Abgeschlossenheit hätte es also genügt, die Folgenkompaktheit als Eigenschaft eines metrischen Raumes zu definieren. Aus Analysis I kennen wir: Satz 15 (Bolzano-Weierstraß). Jedes beschränkte abgeschlossene Intervall ist folgenkompakt. Wir wollen hier den klassischen Beweis angeben. Beweis. Es sei eine Folge xk in dem Intervall I0 = [a, b] gegeben. Es sei m = a+b . Dann muss wenigstens eines der Teilintervalle [a, m] und [m, b] unendlich 2 viele Glieder der Folge enthalten. Wir bezeichnen dieses Teilintervall mit I1 . Durch fortgesetzte Halbierung und Auswahl erhalten wir Intervalle I0 ⊃ I1 ⊃ I2 ⊃ . . . , hat und unendlich viele Folgeglieder enthält. Für so dass Il die Länge b−a 2l jedes l können wir also ein Glied xkl ∈ Il wählen. Für l ≤ m ist xkl , xkm ∈ Il , also b−a |xkl − xkm | ≤ , 2l und xkl ist eine Cauchyfolge. Wegen der Vollständigkeit von R hat sie einen Grenzwert, der in der abgeschlossenen Menge I0 liegen muss. Hier sind einige Eigenschaften folgenkompakter Mengen: Satz 16. (i) Jeder folgenkompakte metrische Raum ist vollständig. (ii) Jede folgenkompakte Teilmenge in einem metrischen Raum X ist abgeschlossen in X. Beweis. (i) Es sei xk eine Cauchy-Folge in X. Ist ε > 0 gegeben, so gibt es ein k0 , so dass für k, l ≥ k0 gilt d(xk , xl ) < 2ε . Ist X folgenkompakt, so hat xk einen Häufungspunkt a. Also kann man l so wählen, dass d(xl , a) < 2ε . Mit der Dreiecksungleichung folgt d(xk , a) < ε. Da ε beliebig war, ist xk → a (k → ∞). (ii) Ist A folgenkompakt, so ist A nach (i) vollständig und nach Lemma 3 abgeschlossen in X. 22 Man bevorzugt einen anderen Begriff der Kompaktheit, der durch folgende Frage motiviert wird, die bei der Grundlegung der Maßtheorie auftauchte: Frage. Kann man ein Intervall der Länge l durch Teilintervalle der Längen l1 , l2 , . . . überdecken, so dass l1 + l2 + . . . < l? Definition 14. Eine Überdeckung der Menge A ist eine Menge8 U von Mengen, deren Vereinigung A enthält, d. h. für jedes x ∈ A existiert ein U ∈ U, so dass x ∈ U . Beispiel. Es gilt [−1, 1] = [−1, 0] ∪ 1 2 , 1 ∪ 31 , 12 ∪ 41 , 31 ∪ . . . , die Intervalle auf der rechten Seite bilden also eine Überdeckung des Intervalls auf der Linken. ⊳ Beispiel. Es gilt ]0, 1[ = 12 , 1 ∪ 31 , 1 ∪ 41 , 1 ∪ . . . , und wir erhalten eine Überdeckung von ]0, 1[ durch offene Intervalle. ⊳ Beispiel. Wir nummerieren die Elemente der abzählbaren Menge A = Q ∩ [0, 1] als r1 , r2 , . . . und wählen für jedes k ein offenes Intervall Ik der Länge 2−k−1 , so dass rk ∈ Ik . Dann bilden die Ik eine Überdeckung von A, und die Summe ihrer Längen ist 21 . Sollten sie auch eine Überdeckung von [0, 1] bilden, so hätten wir die verwirrende Antwort Ja“ auf die obige Frage. ⊳ ” Wenn man aus jeder Überdeckung eine endliche Teilüberdeckung auswählen könnte, so könnte man leicht zeigen, dass die Antwort Nein“ lautet. Das ” ist aber bei beliebigen Überdeckungen nicht zu erwarten, wie das erste Beispiel zeigt. Wir betrachten daher offene Überdeckungen, d. h. Überdeckungen durch offene Mengen. Definition 15. Eine Teilmenge A eines metrischen Raumes X heißt kompakt, wenn man aus jeder offenen Überdeckung von A eine Teilfamilie auswählen kann, die immer noch eine Überdeckung von A ist. Wegen Satz 5 ist A genau dann kompakt im metrischen Raum X, wenn A kompakt im metrischen Teilraum A von X ist. Es hätte also genügt, den Begriff der Kompaktheit nur für metrische Räume einzuführen. Hier ist der erste Hinweis, dass die beiden Kompaktheitsbegriffe zusammenhängen: 8 Zur Vermeidung der Phrase Menge von Mengen sagt man oft Familie von Mengen. 23 Satz 17. Ist A kompakt, so ist A beschränkt und folgenkompakt. Beweis. Ist a ∈ A, so bilden die Mengen Ur (a) mit r > 0 eine offene Überdeckung von A. Da A kompakt ist, gibt es r1 , . . . , rs , so dass Ur1 (a) ∪ . . . ∪ Urs (a) ⊇ A, und ist r = max{r1 , . . . , rs }, so folgt d(x, a) < r für alle x ∈ A. Angenommen, es gibt eine Folge xk in A ohne Häufungspunkt in A. Jeder Punkt a von A hat also eine Umgebung Ua , die nur endlich viele Glieder der Folge enthält. Die Mengen Ua bilden eine offene Überdeckung von A, und wegen der Kompaktheit von A können wir endlich viele Punkte a1 , . . . , as wählen, so dass Ua1 ∪ . . . ∪ Uas ⊇ A. Dann enthält A nur endlich viele Folgeglieder – Widerspruch. Der Beweis von (ii) hätte nicht funktioniert, wenn wir in der Kompaktheitsdefinition nur abzählbare Überdeckungen betrachtet hätten. Eine Menge A in X ist offenbar genau dann beschränkt, wenn ihr Durchmesser diam A = sup{d(x, y) | x, y ∈ A} endlich ist. Das dritte Beispiel oben zeigt, dass offene Intervalle nicht kompakt sind. Satz 18. (i) Eine kompakte Teilmenge eines metrischen Raumes ist abgeschlossen. (ii) Eine abgeschlossene Teilmenge eines kompakten metrischen Raumes X ist kompakt. Beweis. Ist die Teilmenge A kompakt, so ist A nach Satz 17 folgenkompakt und nach Satz 16(ii) abgeschlossen in X. Nun sei A abgeschlossen und U eine offene Überdeckung von A. Dann ist U ∪ {Ac } eine offene Überdeckung von X. Wegen der Kompaktheit von X gibt es davon eine Teilmenge {U1 , . . . , Us , Ac }, die X überdeckt, wobei Ui 6= Ac . Die Familie {U1 , . . . , Us } ist dann eine Teilfamilie von U, die A überdeckt. Bisher kennen wir noch keine kompakte Menge. Satz 19 (Heine-Borel). Eine Teilmenge von Rn ist genau dann kompakt bezüglich einer der Normen k . kp , wenn sie abgeschlossen und beschränkt ist. 24 Der Beweis ähnelt dem des Satzes von Bolzano-Weierstraß. Beweis. Jede kompakte Teilmenge von Rn ist nach Satz 17 beschränkt und nach Satz 18 abgeschlossen. Umgekehrt sei A eine beschränkte abgeschlossene Teilmenge von Rn . Dann gibt es eine Zahl r > 0, so dass A ⊆ [−r, r]n . Wegen Satz 18 genügt es zu zeigen, dass A0 = [−r, r]n kompakt ist. Angenommen, es gibt eine Überdeckung U von A0 , so dass A0 von keiner endlichen Teilfamilie von U überdeckt wird. Wir werden abgeschlossene Teilmengen A0 ⊃ A1 ⊃ A2 ⊃ . . . finden, von denen keine durch eine endliche Teilfamilie von U überdeckt wird, wobei diam Ak = 22rk bezüglich k .k∞ . n Die Menge A0 ist die Vereinigung von 2n Translaten der Menge − 2r , 2r . Wenn jede dieser Mengen durch eine endliche Teilfamilie von U überdeckt würde, wäre das auch bei A0 der Fall im Widerspruch zur Annahme. Also wird wenigstens eine dieser Teilmengen nicht von einer Teilfamilie von U überdeckt. Wir nennen diese Teilmenge A1 . Verfahren wir mit A1 ebenso, erhalten wir eine Teilmenge A2 usw., und es ist diam Ak = 22rk . Wählen wir Punkte ak ∈ Ak , so gilt für k ≤ l d(ak , al ) ≤ diam Ak = 2r , 2k also ist ak eine Cauchy-Folge und hat nach Folerung 2 einen Grenzwert a. Für jedes k liegen alle al mit l ≥ k in der abgeschlossenen Menge Ak , also ist a ∈ Ak . Insbesondere ist a ∈ A0 , also gibt es ein U ∈ U, so dass a ∈ U . Wegen der Offenheit von U gibt es ein ε > 0, so dass Uε (a) ⊆ U , und für 2r < ε folgt Ak ⊆ U . Damit wird Ak von der endlichen Teilfamilie {U } von 2k U überdeckt – Widerspruch. In Verallgemeinerung des Satzes von Heine-Borel gilt folgendes Kompaktheitskriterium. Satz 20. Ein metrischer Raum X ist genau dann kompakt, wenn er folgende Eigenschaften hat: (i) X ist vollständig. (ii) Für jedes ε > 0 gibt es ein endliches ε-Netz in X, d. h. eine endliche Teilmenge {x1 , . . . , xs } ⊆ X, so dass Uε (x1 ) ∪ . . . ∪ Uε (xs ) = X. Der Beweis folgt dem Schema des vorigen Beweises: 25 Beweis. Angenommen, X ist kompakt. Dann folgt (i) aus Folgerung 16 und (ii) aus der Definition, angewendet auf die offene Überdeckung durch die Mengen Uε (a). Umgekehrt seien (i) und (ii) erfüllt. Da es in X ein 1-Netz gibt, ist X beschränkt. Es sei diam X = 2r. Angenommen, U ist eine offene Überdeckung von X, aber X wird durch keine endliche Teilfamilie von U überdeckt. Wir werden abgeschlossene Teilmengen A1 ⊇ A2 ⊇ . . . mit der Eigenschaft diam Ak ≤ 2r k konstruieren, von denen keine durch eine endliche Teilfamilie von U überdeckt wird. Wir setzen A1 = X. Dies hat die geforderten Eigenschaften. Haben wir A1 , . . . , Ak−1 bereits gefunden, so wählen wir ein kr -Netz {x1 , . . . , xs }. Die Vereinigung der Mengen Ur/k (xi ) ∩ Ak−1 = x ∈ Ak−1 | d(x, xi ) ≤ kr mit i von 1 bis s ist Ak−1 . Ließe sich jede von ihnen durch eine endliche Teilfamilie von U überdecken, so wäre dies auch für Ak−1 der Fall im Widerspruch zur Induktionsvoraussetzung. Also lässt sich eine von ihnen nicht durch eine endliche Teilfamilie überdecken, und diese nennen wir Ak . Nach Konstruktion ist Ak abgeschlossen, und diam Ak ≤ diam Ur/k (xi ) ≤ 2r k . Nun wählen wir Punkte ak ∈ Ak . Für k ≤ l gilt d(ak , al ) ≤ diam Ak ≤ 2r , k also bilden die ak eine Cauchyfolge, die wegen (i) einen Grenzwert a besitzt. Da alle al mit l ≥ k in der abgeschlossenen Menge Ak liegen, ist a ∈ Ak , wobei k beleibig ist. Da U eine Überdeckung ist, gibt es eine Menge U ∈ U , so dass a ∈ U , und da U offen ist, gibt es ein ε > 0, so dass Uε (a) ⊆ U . Für 2d k < ε ist Ak ⊂ U , d. h. Ak lässt sich durch die endliche Teilfamilie {U } überdecken – Widerspruch. Der Satz gilt nicht für unendlichdimensionale Vektorräume. So hat z. B. im Raum der beschränkten Zahlenfolgen x = (x0 , x1 , x2 , . . . ) die Folge der Punkte (1, 0, 0, 0, . . . ), (0, 1, 0, 0, . . . ), (0, 0, 1, 0, . . . ), ... keinen Häufungspunkt, obwohl sie bezüglich der Supremumsnorm beschränkt ist. Für metrische Räume sind Kompaktheit und Folgenkompaktheit äquivalent: Satz 21. Jeder folgenkompakte metrische Raum ist kompakt. Beweis. Ist X folgenkompakt, so ist X nach Satz 16(i) vollständig. Angenommen, X hat für ein gewisses ε > 0 kein ε-Netz. Wir konstruieren eine Folge von Punkten xk , so dass für alle k und l gilt d(xk , xl ) ≥ ε. Dazu wählen wir x1 beliebig. Sind bereits x1 , . . . , xk mit der angegebenen Eigenschaft gefunden, so können sie kein ε-Netz bilden, also ist Uε (x1 ) ∪ · · · ∪ Uε (xk ) 26 eine echte Teilmenge von X, und wir können xk+1 in ihrem Komplement wählen. In der 2ε -Umgebung eines beliebigen Punktes a kann höchstens ein Glied der Folge liegen, also ist a kein Häufungspunkt. Dies widerspricht der Folgenkompaktheit. Somit war unsere Annahme falsch, und X ist nach Satz 20 kompakt. Nun kommen wir zu den Anwendungen der Kompaktheit. Satz 22. Ist X ein metrischer Raum, A eine kompakte Teilmenge von X und f : X → Y eine stetige Abbildung, so ist f (A) kompakt. Beweis. Es sei U eine Überdeckung von f (A) durch offene Mengen in Y . Nach Satz 8(ii) ist {f −1 (U ) | U ∈ U} eine offene Überdeckung von A. Wegen der Kompaktheit von A gibt es eine endliche Teilfamilie {U1 , . . . , Us } ⊆ U, so dass A ⊆ f −1 (U1 ) ∪ f −1 (Us ). Es folgt f (A) ⊆ U1 ∪ · · · ∪ Us . Folgerung 5. Ist X ein kompakter metrischer Raum und f : X → R eine stetige Funktion, so besitzt f ein Maximum und ein Minimum, d. h. es gibt a, b ∈ X, so dass f (a) ≤ f (x) ≤ f (b) für alle x ∈ X. Beweis. Nach Satz 22 und Satz 19 ist f (X) beschränkt und abgeschlossen in R. Also existieren sup f = sup f (X) und inf f = inf f (X), und weil diese Zahlen Häufungspunkte von f (X) sind (vgl. Aufgabe 1 der ersten Klausur), gehören sie zu f (X). Folgerung 6. Ist f : X → Y eine bijektive stetige Abbildung und X kompakt, so ist f ein Homöomorphismus. Beweis. Ist A eine offene Teilmenge von X, so ist A nach Satz 18 kompakt, und nach Satz 22 ist f (A) kompakt. Mit Satz 2(iv) folgt, dass jede offene Teilmenge von X ein offenes Bild unter f , also ein offenes Urbild unter f −1 hat. Somit ist f −1 stetig. Definition 16. Es sei X ein metrischer Raum. Für Punkte x und Teilmengen A und B von X definieren wir d(x, B) = d(B, x) = inf{d(x, y) | y ∈ B}, d(A, B) = inf{d(x, y) | x ∈ A, y ∈ B}. Beispiel. Für die Teilmengen A = N \ {0} und B = {k − k1 | k ∈ A} von R gilt d(A, B) = 0, obwohl sie abgeschlossen und disjunkt sind. ⊳ 27 Satz 23. Es sei X ein metrischer Raum. (i) Für jede Teilmenge B ist die durch f (x) = d(x, B) definierte Funktion f : X → R Lipschitz-stetig. (ii) Ist A abgeschlossen, B kompakt und A ∩ B = ∅, so ist d(A, B) > 0. Beweis. (i) Für alle x, y, z ∈ X gilt nach der Dreiecksungleichung d(x, z) ≤ d(x, y) + d(y, z). Bilden wir das Infimum über alle z ∈ B, so folgt d(x, B) ≤ d(x, y) + d(y, B). Durch Vertauschung von x und y ergibt sich eine weitere Ungleichung. Fassen wir beide zusammen, so erhalten wir |d(x, B) − d(y, B)| ≤ d(x, y). (ii) Wegen {d(x, y) | x ∈ A, y ∈ B} = [ y∈B {d(x, y) | x ∈ A} gilt d(A, B) = inf{d(A, y) | y ∈ B}. Ist B kompakt, so gibt es nach Folgerung 5 ein b ∈ B, so dass d(A, B) = d(A, b). Ist A abgeschlossen, so gibt es wegen b ∈ / A ein ε > 0, so dass Uε (b) ∩ A = ∅. Also gilt d(A, b) ≥ ε und somit d(A, B) ≥ ε. Satz 24. Es sei K = R oder K = C. (i) Alle Normen auf einem K-Vektorraum sind äquivalent. (ii) Jede K-lineare Abbildung zwischen K-Vektorräumen ist Lipschitz-stetig. Beweis. (i) Die Menge S = {x ∈ Rn | kxk∞ = 1} ist als Urbild einer abgeschlossenen Menge abgeschlossen und offensichtlich beschränkt, also nach Satz 19 kompakt. Ist k . k′ eine beliebige Norm auf Rn , so finden wir wie in Lemma 2 ein c, so dass für alle x ∈ V gilt kxk′ ≤ ckxk∞ . Die Norm k . k′ ist also bezüglich k . k∞ Lipschitz-stetig, und ihre Einschränkung auf S hat nach Satz 5 ein Minimum ε, welches nach Eigenschaft (iii) der Norm positiv ist. Ist x 6= 0 und t = kxk∞ , so ist t−1 x ∈ S, also kxk′ = tkt−1 xk′ ≥ tε, 28 und mit c′ = 1 ε folgt kxk∞ ≤ c′ kxk′ . Dies gilt offensichtlich auch für x = 0, also ist jede Norm auf Rn äquivalent zu k . k∞ . Da jeder endlichdimensionale R-Vektorraum V isomorph zu Rn ist, sind somit sind alle Normen auf V äquivalent. Das Selbe gilt auch für einen beliebigen C-Vektorraum W , denn jede Norm auf W ist auch eine Norm bezüglich der unterliegenden Struktur9 eines R-Vektorraums. (ii) Es sei f : K n → K m K-linear. Dann gibt es Elemente aij ∈ K, so dass die Koordinatenfunktionen von f gegeben sind durch fi (x) = n X aij xj . j=1 Nun gilt kf (x)k1 ≤ kxk∞ m X n X i=1 j=1 |aij |, also ist f Lipschitz-stetig bezüglich gewisser Normen. Mit Teil (i) folgt die Behauptung für beliebige Normen auf beliebigen endlichdimensionalen KVektorräumen. Definition 17. Man nennt die Lipschitz-Konstante kf (x)k′ kxk x∈V \{0} kf k = sup die Norm der linearen Abbildung f : V → V ′ bezüglich der gegebenen Normen auf V und V ′ . Auch der Begriff der gleichmäßigen Stetigkeit verallgemeinert sich auf metrische Räume. Definition 18. Eine Abbildung f : X → Y zwischen metrischen Räumen heißt gleichmäßig stetig, wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für alle u, v ∈ X gilt d(u, v) < δ =⇒ e(f (u), f (v)) < ε. Zwei Metriken d und d∗ auf einer Menge heißen äquivalent, wenn die identischen Abbildungen (X, d) → (X, d∗ ) und (X, d∗ ) → (X, d) gleichmäßig stetig sind. 9 Diese Struktur besteht aus der selben Addition und aus der Skalarmultiplikation lediglich mit Elementen des Teilkörpers R. 29 Offensichtlich bildet eine gleichmäßig stetige Abbildung konvergente Folgen auf konvergente Folgen und Cauchy-Folgen auf Cauchy-Folgen ab. Diese Begriffe ändern sich also nicht, wenn man zu einer äquivalenten Metrik übergeht. Aufgabe 7 liefert ein Beispiel äquivalenter Metriken. Beispiel. Sind X1 , . . . , Xn metrische Räume, so wird eine Metrik auf X1 × . . . × Xn durch d(u, v) = d1 (u1 , v1 ), . . . , dn (un , vn ) gegeben, wobei k . k eine beliebige Norm auf Rn ist. Äquivalente Normen ergeben äquivalente Metriken. ⊳ Auch Satz I.65 verallgemeinert sich. Satz 25. Ist X kompakt und f : X → Y stetig, so ist f gleichmäßig stetig. Beweis. Es sei ε > 0 gegeben. Wegen der Stetigkeit gibt es für jedes a ∈ X ein δa > 0, so dass für x ∈ U2δa (a) gilt d(f (x), f (a)) < 2ε . Da X kompakt ist, gibt es a1 , . . . , as ∈ X, so dass Uδa1 (a1 ) ∪ · · · ∪ Uδas (as ) = X. Wir setzen δ = min{δa1 , . . . , δas }. Sind nun u, v ∈ X mit d(u, v) < δ, so gibt es ein i mit u ∈ Uδai (ai ), also v ∈ U2δai (ai ), und somit e(f (u), f (v)) ≤ e(f (u), f (ai )) + e(f (ai ), f (v)) < 2 2.1 ε ε + = ε. 2 2 Differentiation und Integration vektorwertiger Funktionen Definition und Eigenschaften Der Begriff der Ableitung verallgemeinert sich auf Funktionen mit Werten in einem K Vektorraum V , wobei K = R oder K = C. Definition 19. Es sei D ⊂ K und a ∈ D ein Häufungspunkt von D. Eine Funktion f : D → V heißt differenzierbar an der Stelle a, wenn der Grenzwert 1 f ′ (a) = lim (f (x) − f (a)) x→a x − a existiert. 30 Bisher kennen wir nur das Integral von Funktionen f : [a, b] → K. Dort haben wir für Teilungen T = {x0 , . . . , xm } von [a, b] und zugehörige Mengen Z = {z1 , . . . , zm } von Stützstellen für T betrachtet, d. h. a = x0 ≤ z1 ≤ x1 ≤ z2 ≤ x2 ≤ . . . ≤ zm ≤ xm = b. Unter der Feinheit von T verstehen wir max xk − xk−1 | k ∈ {1, . . . , m} . Die Riemannsche Summe m X S(f, T, Z) = (xk − xk−1 )f (zk ) k=1 ergibt auch für vektorwertige Funktionen einen Sinn, und in Anlehnung an Definition I.58 setzen wir fest: Definition 20. Es sei V ein endlichdimensionaler Vektorraum über K und f : [a, b] → V . Ein Element I ∈ V heißt Integral der Funktion f über das Intervall [a, b], wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für jede Teilung T von [a, b] mit einer Feinheit kleiner als δ und für jede Menge von Stützstellen Z für T gilt kS(f, T, Z) − Ik < ε. Die Funktion f heißt integrierbar, wenn ein Integral existiert. Wenn f integrierbar R b ist, so gibt es offenbar nur ein Integral I, und wir bezeichnen es mit a f (x) dx. Am einfachsten, wenn auch nicht besonders elegant, ist es, alles auf den skalaren Fall zurückzuführen. Lemma 6. (i) Eine Funktion f : D → K n ist genau dann differenzierbar an der Stelle a, wenn ihre Koordinatenfunktionen f1 , . . . , fn : D → K an der Stelle a differenzierbar sind, und dann ist f ′ (a) = f1′ (a), . . . , fn′ (a) . (ii) Eine Funktion f : [a, b] → K n ist genau dann integrierbar, wenn ihre Koordinatenfunktionen integrierbar sind, und dann ist Z b Z b Z b f (x) dx = f1 (x) dx . f1 (x) dx, . . . , a a a Beweis. Nach den Definitionen gilt 1 fn (x) − fn (a) f1 (x) − f1 (a) (f (x) − f (a)) = ,..., , x−a x−a x−a S(f, T, Z) = S(f1 , T, Z), . . . , S(fn , T, Z) , und die Behauptungen folgen aus den früheren Bemerkungen über Grenzwerte vektorwertiger Funktionen. 31 Die Sätze I.67, I.82, I.84 und I.86 verallgemeinern sich ohne Schwierigkeiten. Satz 26. (i) Sind f , g : D → V an der Stelle a differenzierbar und ist c ∈ K, so sind f + g und c · f an der Stelle a differenzierbar, und (f + g)′ (a) = f ′ (a) + g ′ (a), (cf )′ (a) = cf ′ (a). (ii) Jede stetige Funktion auf einem kompakten Intervall ist integrierbar. (iii) Ist a ≤ b ≤ c, so ist eine Funktion f : [a, c] → V genau dann integrierbar, wenn f |[a,b] und f |[b,c] integrierbar sind, und dann gilt Z c Z b Z c f (x) dx. f (x) dx + f (x) dx = b a a (iv) Sind f , g : [a, b] → V integrierbar und l : V → W eine lineare Abbildung, so sind auch f + g, l ◦ f und kf k integrierbar, und es gilt Z b Z b Z b g(x) dx, f (x) dx + (f (x) + g(x)) dx = a a a Z b Z b l(f (x)) dx = l f (x) dx , a a Z b Z b ≤ kf (x)k dx. f (x) dx a a (v) Ist f ′ (x) = 0 für alle x ∈ [a, b], so ist f konstant auf [a, b]. Beweis. Teil (ii) folgt mit Lemma 6 aus der Tatsache, dass die Koordinatenfunktionen einer gleichmäßig stetigen Funktion gleichmäßig stetig sind. Beim Beweis der Integrierbarkeit von kf k in Teil (iii) benutzt man, dass sup kf k1 − inf kf k1 ≤ (sup f1 − inf f1 ) + . . . + (sup fn − inf fn ), wobei die Funktionen jeweils auf die Teilintervalle von T eingeschränkt werden, so dass S(kf k1 , T ) − S(kf k1 , T ) ≤ n X j=1 S(fj , T ) − S(fj , Z) . Aussage (v) folgt mit Lemma 6 aus Folgerung I.34, obwohl der Mittelwertsatz für n > 1 nicht gilt. Ansonsten sind die Beweise identisch mit den früheren. 32 Rb Auf Grund von Satz 26(iii) können wir a f (x) dx auch wieder ohne die Voraussetzung a ≤ b definieren. Der Hauptsatz der Infinitesimalrechnung hat ebenfalls eine vektorwertige Version: Satz 27. Ist f : [a, b] → V stetig differenzierbar, so gilt Z b f ′ (x) dx = f (b) − f (a). a Der Beweis der Sätze I.89, I.90 überträgt sich wortwörtlich. 2.2 Variation Die Bewegung eines Punktes in einem Raum X während eines Zeitintervalls I kann man durch eine Abbildung f : I → X beschreiben. Wir interessieren uns für die Länge des zurückgelegten Weges. Definition 21. Ist I ein Intervall, X ein metrischer Raum und f : I → X, so setzen wir für jede Teilung T = {t0 , . . . , tm } eines Teilintervalls [a, b] ⊆ I V (f, T ) = m X d(f (xk−1 ), f (xk )). k=1 Wir nennen Varba (f ) = sup{V (f, T ) | T ist Teilung von [a, b].} die Variation von f über [a, b]. Wir sagen, dass f von beschränkter Variation ist, wenn Varba (f ) < ∞ für alle a ≤ b in I. Beispiel. Die Abbildung f : [0, ∞[ → C sei durch ( t · ei/t , wenn t 6= 0, f (t) = 0 wenn t = 0 gegeben. Nach dem Einschließungskriterium ist lim f (t) = 0, also ist f stetig. t→0 Es gilt k−1 (−1)k 1 (−1) 1 2 1 f = = 1 + −f − > , kπ (k − 1)π kπ (k − 1)π kπ (k − 1)π kπ also m 1 1 2X1 1 , ,..., ,1 > , V f, 0, mπ (m − 1)π π π k=2 k und wegen der Divergenz der harmonischen Reihe ist Var10 (f ) = ∞. 33 ⊳ Satz 28. Es sei X ein metrischer Raum, I ein Intervall und f : I → X. (i) Sind I und I ′ kompakte Intervalle und g : I ′ → I monoton und bijektiv, so ist g(b) Varba (f ◦ g) = Varg(a) f. (ii) Für alle a, b, c ∈ I, wobei a ≤ b ≤ c ist, gilt Varba f + Varcb f = Varca f. (iii) Ist X = V ein K-Vektorraum, so gilt für f , g : I → V und c ∈ K Varba (f + g) ≤ Varba (f ) + Varba (g), Varba (c · f ) = |c| Varba (f ). (iv) Ist X = K n , so ist f genau dann von beschränkter Variation, wenn alle Koordinatenfunktionen fj von beschränkter Variation sind. Beweis. (i) Ist T eine Teilung von [g(a), g(b)], so ist T ′ = g −1 (T ) eine Teilung von [a, b], und ist T ′ eine Teilung von [a, b], so ist T = g(T ′ ) eine von [g(a), g(b)]. In beiden Fällen gilt V (f ◦ g, T ′ ) = V (f, T ). Wir haben also das Supremum der selben Menge zu bilden. (ii) Sind T1 und T2 Teilungen von [a, b] bzw. [b, c], so ist T = T1 ∪ T2 eine Teilung von [a, c], und V (f, T1 ) + V (f, T2 ) = V (f, T ). Nun folgt die Behauptung ähnlich wie bei Satz I.84. (iii) Laut Dreiecksungleichung und Eigenschaft (i) der Norm gilt V (f + g, T ) ≤ V (f, T ) + V (g, T ), V (cf, T ) = |c|V (f, T ). (iv) Ist f bezüglich einer Norm auf K n von beschränkter Variation, so auch bezüglich jeder äquivalenten Norm. Im Falle k . k1 ist V (f, T ) = V (f1 , T ) + . . . + V (fn , T ), und die linke Seite ist genau dann unabhängig von T beschränkt, wenn es jeder Summand auf der rechten Seite ist. Wie schon bei Satz I.84 bleibt die Behauptung von Satz 28(ii) ohne die Voraussetzung a ≤ b ≤ c gültig, wenn wir für a ≥ b definieren Varba (f ) = − Varab (f ). 34 Definition 22. Es sei X ein metrischer Raum. (i) Zwei auf Intervallen definierte stetige Abbildungen f1 : I1 → X und f2 : I2 → X heißen äquivalent, wenn es eine monotone bijektive Abbildung g : I1 → I2 gibt, so dass f1 = f2 ◦ g. (ii) Unter einer Kurve C in X verstehen wir eine Äquivalenzklasse von solchen Abbildungen, und jeden Repräsentanten nennen wir eine Parametrisierung der Kurve. (iii) Wird eine Kurve C durch eine Abbildung f : [a, b] → X parametrisiert, so nennen wir Varba (f ) die Länge von C. Eine Kurve von endlicher Länge nennt man rektifizierbar. Die beschriebene Relation ist tatsächlich eine Äquivalenzrelation. Man beachte, dass Abbildungen g wie in (i) nach Satz I.57 stetig sind. Ist eine Parametrisierung von C auf einem kompakten Intervall definiert, so nach Satz 22 auch jede andere Parametrisierung. Satz 28(i) zeigt, dass die Länge einer Kurve nicht von der Parametrisierung abhängt. Satz 29. Ist V ein endlichdimensionaler Vektorraum und f : [a, b] → V stetig differenzierbar, so gilt Z b b kf ′ (t)k dt, Vara (f ) = a wobei auf beiden Seiten die selbe Norm zu benutzen ist. Beweis. Es sei ε > 0. Da f ′ nach Satz 25 gleichmäßig stetig ist, gibt es ein ε δ1 > 0, so dass für u, v ∈ [a, b] mit |u − v| < δ1 gilt kf ′ (u) − f ′ (v)k < 2(b−a) . Nun sei T = {t0 , . . . , tm } eine Teilung von [a, b] mit einer Feinheit kleiner als δ1 und dazu Z = {z1 , . . . , zm } eine Menge von Stützpunkten. Nach Satz 27 gilt Z ′ f (tk ) − f (tk−1 ) − (tk − tk−1 )f (zk ) = tk tk−1 (f ′ (t) − f ′ (zk )) dt. Mit der Dreiecksungleichung und Satz 26(iv) folgt kf (tk ) − f (tk−1 )k − (tk − tk−1 )kf ′ (zk )k ≤ kf (tk ) − f (tk−1 ) − (tk − tk−1 )f ′ (zk )k Z tk tk − tk−1 kf ′ (t) − f ′ (zk )k dt ≤ ε · ≤ . 2(b − a) tk−1 35 Durch Summation ergibt sich V (f, T ) − S(kf ′ k, T, Z) ≤ ε . 2 Nach Definition des Integrals gibt es ein δ2 > 0, so dass Z b ε ′ < , S(kf ′ k, T, Z) − kf (x)k dx 2 a wenn die Feinheit von T kleiner als δ2 ist. Ist sie kleiner als δ = min{δ1 , δ2 }, so folgt mit der Dreiecksungleichung Z b ′ < ε. V (f, T ) − kf (x)k dx a Ist T ′ eine beliebige Teilung, so gibt es eine Verfeinerung T ⊇ T ′ mit einer Feinheit kleiner als δ, und V (f, T ) ≥ V (f, T ′ ). Also ist Varba (f ) gleich dem Supremum über alle Teilungen mit einer Feinheit kleiner als δ, und es folgt Z b b ′ Vara (f ) − ≤ ε. kf (x)k dx a Da ε beliebig war, folgt die Behauptung. Man beachte, dass eine Funktion von beschränkter Variation nicht stetig zu sein braucht. Satz 30. Es sei I ein Intervall. Eine Funktion f : I → R ist genau dann von beschränkter Variation, wenn es eine monoton wachsende Funktion g und eine monoton fallende Funktion h auf I gibt, so dass f = g + h. Beweis. Ist g monoton wachsend und h monoton fallend, so gilt offenbar Varba (g) = g(b) − g(a), Varba (h) = h(a) − h(b), und nach Satz 28(iii) ist g + h von beschränkter Variation. Ist umgekehrt f von beschränkter Variation und a ∈ I, so ist g(t) = Varta (f ) monoton wachsend, denn für s ≤ t in I gilt nach Satz 28(ii) g(t) − g(s) = Varts (f ) ≥ 0. Genauer gilt Varts (f ) ≥ V (f, {s, t}) = |f (t) − f (s)| ≥ f (t) − f (s). Setzen wir also h = f − g, so folgt h(s) ≥ h(t). 36 Diese Idee ist auch für rektifizierbare Kurven C in beliebigen metrischen Räumen X von Nutzen. Ist f : I → X eine Parametrisierung und a ∈ I, so ist g(t) = Varta (f ) monoton wachsend. Gilt für zwei Zahlen u, v ∈ I die Gleichheit g(u) = g(v), so gilt auch f (u) = f (v). Somit gibt es eine Abbildung h : J → X, so dass h ◦ g = f , wobei J = g(I). Man nennt h eine natürliche Parametrisierung von C, weil für beliebige s, t ∈ J gilt Varts (h) = t − s. Ist h̃ : J˜ eine weitere natürliche Parametrisierung, so gibt es Zahlen ˜ c ∈ {1, −1} und d ∈ R, so dass h̃(s) = h(cs + d) für alle s ∈ J. 2.3 Parameterabhängige Integrale I Wenn eine Funktion f von vielen Variablen abhängt, so hält man oft einige Variablen fest und betrachtet f nur als Funktion der übrigen Variablen. Die festgehaltenen Variablen, im Folgenden mit t bezeichnet, nennt man Parameter. Im Folgenden sei T ein metrischer Raum, [a, b] ein kompaktes Intervall und V ein endlichdimensionaler Vektorraum über R oder C. Wir wollen wissen, welche Bedingungen wir an eine Funktion f : [a, b] × T → V stellen müssen, damit durch Z b f (x, t) dx I(t) = a eine stetige Funktion I auf T definiert wird. Wir setzen F (t)(x) = f (x, t), d. h. der Wert F (t) der Funktion F an der Stelle t ist seinerseits eine Funktion10 auf [a, b] mit Werten in V . Natürlich muss letztere Funktion auf [a, b] integrierbar sein. Satz 31. Es sei F eine Abbildung von T in den Raum der integrierbaren Funktionen [a, b] → V . Ist F an einer Stelle u ∈ T stetig bezüglich der Supremumsnorm, so ist die oben definierte Funktion I stetig an der Stelle u. Beweis. Aus der Stetigkeit von F an der Stelle u folgt, dass es für jedes ε > 0 ein δ > 0 gibt, so dass für alle t ∈ T mit der Eigenschaft d(t, u) < δ ε gilt kF (t) − F (u)k < b−a , d. h. |f (x, t) − f (x, u)| < ε b−a für alle x ∈ [a, b]. Nach Satz 26(iv) ist Z b (f (x, t) − f (x, u)) dx, I(t) − I(u) = a 10 Dies hängt mit der Gleichmächtigkeit V X×T ∼ = (V X )T aus Aufgabe I.10* zusammen. 37 und für d(t, u) < δ folgt kI(t) − I(u)k ≤ Z b a kf (x, t) − f (x, u)k dx < ε. Man kann die Stetigkeit von I an der Stelle u auch durch I(t) → I(u) (t → u) ausdrücken. Wir fragen nun nach der Existenz dieses Grenzwertes, wenn I(u) noch gar nicht definiert ist. Statt des Parameters t betrachten wir der Einfachheit halber einen Parameter k ∈ N. Satz 32. Konvergiert die Folge von integrierbaren Funktionen fk : [a, b] → V gleichmäßig gegen eine Funktion f : [a, b] → V , so ist auch f integrierbar, und Z b Z b lim fk (x) dx = f (x) dx. k→∞ a a Beweis. Wir bezeichnen das Integral auf der linken Seite mit Ik . Da die Folge fk eine Cauchy-Folge bezüglich der Supremumsnorm ist, gibt es für jedes ε > 0 ein k0 , so dass für k ≥ k0 und l ≥ k0 und alle x ∈ [a, b] gilt kfk (x) − fl (x)k < ε , b−a und wie im vorigen Beweis folgt kIk − Il k < ε. Die Folge Ik ist also auch eine Cauchy-Folge und hat wegen der Vollständigkeit von V einen Grenzwert I. Außerdem konvergiert nach Voraussetzung fk gleichmäßig gegen f . Es gibt also für jedes ε > 0 ein k, so dass ε ε kfk (x) − f (x)k < kIk − Ik < , 3 3(b − a) für alle x ∈ [a, b]. Daraus folgt, dass für alle Teilungen T von [a, b] und alle zugehörigen Mengen Z von Stützstellen gilt ε kS(fk , T, Z) − S(f, T, Z)k < . 3 Laut Definition von Ik gibt es schließlich ein δ > 0, so dass ε kS(fk , T, Z) − Ik k < , 3 falls T eine Feinheit kleiner als δ hat. Mit der Dreiecksungleichung erhalten wir für solche Teilungen T ε ε ε kS(f, T, Z) − Ik < + + = ε. 3 3 3 38 Da ε beliebig war, folgt die Integrierbarkeit von f und Z b f (x) dx = I. a Damit ist alles bewiesen. Beispiel. Die durch ( g(x) = 1 , q 0 falls x = pq mit teilerfremden p, q ∈ Z, q > 0, falls x ∈ /Q definierte Funktion g : R → R ist auf jedem kompakten Intervall [a, b] integrierbar, weil es für jedes ε > 0 nur endlich viele x ∈ [a, b] gibt, so dass √ g(x) > ε. Das Gleiche gilt für die Funktionen fk = k g mit k ∈ N \ {0}. Die Folge konvergiert für k → ∞ punktweise gegen die Funktion ( 1, falls x ∈ Q, f (x) = 0 andernfalls, die nicht integrierbar ist. 3 3.1 ⊳ Differentiation von Funktionen von mehreren Variablen Definition der Ableitung Es sei wieder K = R oder K = C. Wir betrachten Funktionen, deren Definitionsbereich D eine Teilmenge von K n ist. Durch Einschränkung erhält man Funktionen von einer Variablen und kann die bekannten Begriffe übertragen. Definition 23. Es sei D eine Teilmenge von K n und a ∈ D. Die partielle Ableitung einer Funktion f : D → K m nach dem jten Argument ist die Ableitung der Funktion von einer Variablen xj 7→ f (a1 , . . . , aj−1 , xj , aj+1 , . . . , an ) an der Stelle aj . Wir bezeichnen sie mit ∂j f (a). Wenn sie existiert, heißt f an der Stelle a partiell differenzierbar nach dem jten Argument. 39 Schreiben wir xj = aj + h, so erhalten wir f (a + hej ) − f (a) , h→0 h ∂j f (a) = lim wobei ej ∈ K n den jten Vektor der Standardbasis bezeichnet. Damit ∂j f (a) definiert ist, muss insbesondere a ein Häufungspunkt der Menge {a + hej ∈ D | h ∈ K} sein. ∂f , wobei die Stelle a nicht vermerkt Die traditionelle Bezeichnung ist ∂x j wurde und das jte Argument immer mit der selben Variablen bezeichnet werden musste.11 p Beispiel. Es sei K = R und f (x) = x21 + . . . + x2n . Dann ist für x ∈ Rn \{0} 1 1 xj . ∂j f (x) = (x21 + . . . + x2n )− 2 · 2xj = 2 f (x) ⊳ In einem K-Vektorraum V ist im Allgemeinen keine Standardbasis ausgezeichnet. Definition 24. Es sei D eine Teilmenge eines K-Vektorraumes V und W ein weiterer K-Vektorraum. Die Richtungsableitung einer Funktion f : D → W bezüglich eines Vektors v ∈ V an der Stelle a ∈ D ist f (a + hv) − f (a) . h→0 h ∂v f (a) = lim Offensichtlich gilt ∂tv f (a) = t∂v f (a) für t ∈ K. Damit ∂v f (a) definiert ist, muss insbesondere a ein Häufungspunkt der Menge {a+hv ∈ D | h ∈ K} sein. Beispiel. Es sei f wie oben und v = (v1 , . . . , vn ). Dann ist ∂v f (x) die Ableitung von p (x1 + hv1 )2 + . . . + (xn + hvn )2 als Funktion von h an der Stelle 0, also gilt für x 6= 0 1 hx, vi 1 . ∂v f (x) = (x21 + . . . + x2n )− 2 (2x1 v1 + . . . + 2xn vn ) = 2 f (x) ⊳ Erinnert man sich, dass die Ableitung einer Funktion von einer Variablen die Steigung der Tangente an den Graphen angibt, so sollte die Ableitung einer Funktionen von mehreren Variablen etwas mit der Tangentialebene an den Graphen zu tun haben. 11 Der Buchstabe ∂ ist übrigens ein kursives kyrillisches d. 40 Definition 25. Es seien V und W endlichdimensionale K-Vektorräume, D eine Teilmenge von V und a ein innerer Punkt von D. Eine lineare Abbildung l : V → W heißt (totale) Ableitung einer Funktion f : D → W an der Stelle a, wenn f (a + v) − f (a) − l(v) → 0 (v → 0). kvk Die Funktion f heißt K-differenzierbar an der Stelle a, wenn eine Ableitung l existiert. Bemerkung. Wenn wir den Zähler mit r(v) bezeichnen, so können wir die Bedingung auch in der Form kr(v)k → 0 (v → 0) schreiben. Wegen kvk f (a + v) = f (a) + l(v) + r(v) gibt das Restglied r(v) an, wie gut f (a+v) durch f (a)+l(v) angenähert wird. Da alle Normen auf V äquivalent sind, hängt die Differenzierbarkeit nicht von der Wahl einer Norm ab. Eine an der Stelle a differenzierbare Funktion ist dort offenbar auch stetig. Bemerkung. Ist f an der Stelle a differenzierbar, so existieren dort die Richtungsableitungen bezüglich aller Vektoren v ∈ V , denn f (a + hv) ist für h in einer Umgebung der Null definiert, und l(hv) + r(hv) r(hv) = l(v) + lim = l(v), h→0 h→0 h h ∂v f (a) = lim was für v = 0 offensichtlich ist, während für v 6= 0 nach Definition gilt r(hv) kr(hv)k h = kvk khvk → 0 (h → 0). Somit ist die Ableitung l von f an einer Stelle a eindeutig bestimmt, und wir bezeichnen sie mit f ′ (a). Für eine lineare Abbildung l : V → W schreibt man oft lv an Stelle von l(v), und die Menge solcher Abbildungen bezeichnet man mit Hom(V, W ). Die Formel für die Richtungsableitungen lautet also ∂v f (a) = f ′ (a)v. Bemerkung. Eine Abbildung f : D → K m ist genau dann differenzierbar an der Stelle a, wenn alle ihre Koordinatenfunktionen an dieser Stelle differenzierbar sind. Sind nämlich die Koordinatenfunktionen fj differenzierbar, so gibt es lineare Abbildungen lj : D → K, so dass fj (a + v) − fj (a) − lj (v) → 0 (v → 0). kvk 41 Setzen wir l(v) = (l1 (v), . . . , lm (v)), so folgt die Existenz des Grenzwertes in der Definition. Die Umkehrung zeigt man analog. Bemerkung. Im Falle V = K n ist l(v) = l(v1 e1 + . . . + vn en ) = l(e1 )v1 + . . . + l(en )vn , also mit den obigen Bezeichnungen f ′ (a)v = ∂1 f (a)v1 + . . . + ∂n f (a)vn . Eine traditionalle Schreibweise hierfür ist df = ∂f ∂f dx1 + . . . + dxn , ∂x1 ∂xn wobei man die linke Seite als totales Differential bezeichnet. Ist außerdem W = K m und schreiben wir die Elemente von V und W als Spaltenvektoren, so erhalten wir v1 ∂1 f1 (a) . . . ∂n f1 (a) f1 (x) .. . . . ′ .. .. f (a)v = f (x) = . , .. . vn ∂1 fm (a) . . . ∂n fm (a) fm (x) Die Matrix auf der rechten Seite nennt man Funktionalmatrix oder JacobiMatrix ; wir werden sie ebenfalls mit f ′ (a) bezeichnen. Satz 33. Ist D ⊆ Rn und hat f : D → W in ganz D partielle Ableitungen bezüglich aller Argumente, die in einem inneren Punkt a von D stetig sind, so ist f an der Stelle a differenzierbar. Beweis. Es genügt, den Fall W = R zu betrachten. Wir müssen zeigen, dass die lineare Abbildung n X l(v) = ∂j f (a)vj j=1 die Ableitung von f an der Stelle a ist. Wegen a ∈ D̊ gibt es ein η > 0, so dass Uη (a) ⊂ D. Für v ∈ Rn mit kvk < η liegen die Punkte a0 = a, a1 = a0 + v 1 e 1 , a2 = a1 + v 2 e 2 , ..., an = an−1 + vn en in D, ebenso die Verbindungsstrecken [aj−1 , aj ]. Wenden wir den Mittelwertsatz der Differentialrechnung auf f (aj−1 + hej ) als Funktion von h ∈ [0, vj ] an, so erhalten wir ein bj ∈ [aj−1 , aj ], so dass f (aj ) − f (aj−1 ) = ∂j f (bj )vj . 42 Durch Summation erhalten wir f (a + v) − f (a) = n X ∂j f (bj )vj , (1) j=1 wobei die Punkte bj von v abhängen, aber immer gilt kbj − ak < kvk. Wegen der Stetigkeit der partiellen Ableitungen gibt es für jedes ε > 0 ein δ > 0, so dass für kx − ak < δ gilt |∂j f (x) − ∂j f (a)| < ε. Ist kvk < δ, so gilt dies insbesondere für x = bj , also ist nach der Dreiecksungleichung n X ∂j f (bj ) − ∂j f (a) vj < εkvk1 . |f (a + v) − f (a) − l(v)| ≤ j=1 Wir können annehmen, dass k . k = k . k1 . Da ε beliebig war, folgt |f (a + v) − f (a) − l(v)| →0 kvk (v → 0). Man kann den Satz auch im Fall K = C beweisen, indem man an Stelle des Mittelwertsatzes die Sätze 27 und 26 benutzt. Definition 26. Es seien V und W Vektorräme über K und U eine offene Teilmenge von V . Eine Abbildung f : U → W heißt K-differenzierbar, wenn sie an jeder Stelle von U K-differenzierbar ist, und sie heißt stetig K-differenzierbar, wenn sie differenzierbar ist und die Funktion f ′ : U → Hom(V, W ) stetig ist. Aus Satz 33 und dem vorher erwähnten Zusammenhang zwischen totaler Ableitung und partiellen Ableitungen erhalten wir: Folgerung 7. Sind alle partiellen Ableitungen von f auf der offenen Teilmenge U ⊆ Rn stetig, so ist f auf U stetig differenzierbar. In der Physik sind folgende Differentialoperatoren von Bedeutung. Beispiel. Ist auf dem Vektorraum V ein Skalarprodukt gegeben und die Kwertige Funktion f auf D ⊆ V an der Stelle a ∈ D̊ differenzeirbar, so ist der Gradient grad f (a) ∈ V charakterisiert durch hgrad f (a), vi = f ′ (a)v 43 für alle v ∈ V . Im Fall V = Rn mit dem Standardskalarprodukt erhalten wir ∂1 f (a) grad f (a) = ... . ∂n f (a) Mit Hilfe des Nabla-Operators ∂1 .. ∇=. ∂n schreibt man dies symbolisch in der Form grad f = ∇f . ⊳ Beispiel. Ist X ein Vektorfeld auf D ⊆ Rn , also X : D → Rn , das an der Stelle a ∈ D̊ differenzierbar ist, so definiert man die Divergenz div X(a) ∈ R durch div X(a) = ∂1 X1 (a) + . . . + ∂n Xn (a). Dies drückt man auch symbolisch durch div X = h∇, Xi aus. ⊳ Beispiel. Ist X ein Vektorfeld auf D ⊆ R3 an der Stelle a ∈ D̊ differenzierbar, so definiert man die Rotation rot X(a) ∈ R3 durch ∂2 X3 (a) − ∂3 X2 (a) rot X(a) = ∂3 X1 (a) − ∂1 X3 (a) . ∂1 X2 (a) − ∂2 X1 (a) Dies drückt man symbolisch durch rot X = ∇ × X aus, wobei × das Vektorprodukt bezeichnet. ⊳ Bezeichnen wir die rechte Seite der Gleichung (1) im Beweis von Satz 33 mit f˜(a + v)v, so gilt f (x) − f (a) = f˜(x)(x − a), und im Fall n = 1 ist f˜(x) nichts anderes als der Differenzenquotient. Ein solcher verallgemeinerter Differenzenquotient existiert immer, ist aber im Allgemeinen nicht eindeutig bestimmt. Lemma 7. Es sei a ein innerer Punkt einer Teilmenge D ⊆ V . Eine Abbildung f : D → W ist genau dann differenzierbar an der Stelle a, wenn eine Abbildung f˜ : D → Hom(V, W ) existiert, die an der Stelle a stetig ist, so dass f (x) = f (a) + f˜(x)(x − a). 44 Beweis. Angenommen, f˜ existiert. Setzen wir l = f˜(a), so gilt r(v) = (f˜(a + v) − f˜(a))v, kr(v)k ≤ kf˜(a + v) − f˜(a)kkvk im Sinne von Definition 17, und aus der Stetigkeit von f˜ an der Stelle a folgt kr(v)k →0 kvk (v → 0), also ist f an der Stelle a differenzierbar. Nun sei umgekehrt f an der Stelle a differenzierbar mit Ableitung l. Wir können annehmen, dass kvk2 = hv, vi für ein Skalarprodukt auf V . Für u, v ∈ V mit der Eigenschaft a + v ∈ D setzen wir ( l(u) + hu,vi r(v), wenn v 6= 0, kvk2 f˜(a + v)u = l(u), wenn v = 0. Dann ist f˜(a + v) ∈ Hom(V, W ) und f˜(a + v)v = l(v) + r(v) = f (a + v) − f (a). Außerdem gilt hu, vi (f˜(a + v) − f˜(a))u = r(v), kvk2 also nach der Cauchy-Schwarz-Ungleichung kr(v)k kuk. k(f˜(a + v) − f˜(a))uk ≤ kvk Laut Definition der Norm einer linearen Abbildung folgt kr(v)k , kf˜(a + v) − f˜(a)k ≤ kvk also ist f˜ an der Stelle a stetig. Genau wie im eindimensionalen Fall gelten Rechenregeln. Dazu werden wir die Beweise der Sätze I.67 und I.68 verallgemeinern. Satz 34. Es seien T , U , V und W Vektorräume über K. (i) Ist D ⊆ V und sind f , g : D → W an der Stelle a ∈ D̊ differenzierbar, so ist auch f + g an der Stelle a differenzierbar, und es gilt (f + g)′ (a) = f ′ (a) + g ′ (a). 45 (ii) Ist b : U × V → W eine K-bilineare Abbildung, ist D ⊆ T und sind f : D → U , g : D → V an der Stelle a ∈ D̊ differenzierbar, so ist auch b(f, g) an der Stelle a differenzierbar, und es gilt b(f, g)′ (a) = b(f ′ (a), g(a)) + b(f (a), g ′ (a)). (iii) Es sei D ⊆ U , E ⊆ V . Ist f : D → E an der Stelle a ∈ D̊ und g : E → W an der Stelle f (a) ∈ E̊ differenzierbar, so ist g ◦ f an der Stelle a differenzierbar, und es gilt (g ◦ f )′ (a) = g ′ (f (a))f ′ (a). Beweis. (i) Nach Lemma 7 existieren Abbildungen f˜, g̃ : D → Hom(V, W ), die an der Stelle a stetig sind, so dass für v ∈ V mit der Eigenschaft a+v ∈ D gilt f (a + v) = f (a) + f˜(a + v)v, g(a + v) = g(a) + g̃(a + v)v, also f (a + v) + g(a + v) = f (a) + g(a) + (f˜(a + v) + g̃(a + v))v. Eine Abbildung D → Hom(V, W ) × Hom(V, W ) ist genau dann stetig, wenn ihre Komponenten D → Hom(V, W ) stetig sind, und wie in Satz 6 sieht man, dass die Addition Hom(V, W ) × Hom(V, W ) → Hom(V, W ) nach der Dreiecksungleichung Lipschitz-stetig ist. Die Abbildung f] + g = f˜+ g̃ ist also an der Stelle a stetig, und sie hat dort den Wert f ′ (a) + g ′ (a). Nun folgt die Behauptung nach Lemma 7. (ii) Diesmal haben wir f˜ : D → Hom(T, U ), g̃ : D → Hom(T, V ), und wegen der Bilinearität von b folgt ^ b(f (a + t), g(a + t)) = b(f (a), g(a)) + b(f, g)(a + t)t, wobei für alle s ∈ T gilt ^ b(f, g)(a + t)s = b(f˜(a + t)s, g(a)) + b(f (a) + f˜(a + t)t, g̃(a + t)s). Die Abbildung b kann man als Element von Hom(U, Hom(V, W )) auffassen, und durch zweimalige Anwendung von Satz 24 finden wir ein c > 0, so dass kb(u, v)k ≤ ckukkvk. Laut Definition der Norm von linearen Abbildungen folgt, dass für l ∈ Hom(T, U ) und m ∈ Hom(U, V ) gilt kb(l, m)k ≤ cklkkmk. 46 Wie in Satz 6 sieht man nun, dass die Abbildung (l, m) 7→ b(l, m) stetig ist. ^ Die Abbildung b(f, g) ist also an der Stelle a stetig, und ^ b(f, g)(a)s = b(f˜(a)s, g(a)) + b(f (a), g̃(a)s). Die Behauptung folgt wieder mit Lemma 7. (iii) Diesmal ist f˜ : D → Hom(U, V ), g̃ : E → Hom(V, W ), und wobei g(f (a + u)) = g f (a) + f˜(a + u)u = g(f (a)) + g] ◦ f (a + u)u, g] ◦ f (a + u) = g̃ f (a) + f˜(a + u)u f˜(a + u). Da für lineare Abbildungen l : U → V und m : V → W gilt km ◦ lk ≤ kmkklk, sieht man wie in Satz 6, dass die Verkettung eine stetige Abbildung Hom(V, W ) × Hom(U, V ) → Hom(U, W ) ist. Außerdem ist v 7→ g̃(f (a) + f˜(a + u)u) nach Satz 9 an der Stelle 0 stetig. Es folgt, dass g] ◦ f an der Stelle ˜ a stetig ist und den Wert g̃(f (a))f (a) hat. Die Behauptung folgt wieder mit Lemma 7. Wir benötigen keine neue Quotientenregel, weil 1/f nur für skalarwertige Funktionen f definiert ist und als Verkettung von f mit der Kehrwertfunktion angesehen werden kann. Folgerung 8. Für eine offene Menge D von K n ist jede Abbildung D → K m differenzierbar, deren Koordinatenfunktionen auf D durch Terme gegeben sind, in denen nur arithmetische Operationen und differenzierbare Funktionen vorkommen. Beispiel. Es sei F : D → Hom(K n , K n ) = End(K n ) eine matrixwertige Funktion, deren Einträge fij : D → K differenzierbar sind. Dann ist auch die Verkettung det F differenzierbar. Bei der Berechnung ihrer Ableitung hilft Satz 34 wenig, da wir die Ableitung der Determinante noch nicht kennen. Statt dessen erinnern wir uns, dass man die inverse Matrix darstellen kann als F −1 = (det F )−1 F̃ , wobei F̃ (x) die Adjunkte von F (x) bezeichnet. (Man erhält den Kofaktor (−1)i+j f˜ji (x) als Determinante der Untermatrix von F (x), die nach Streichung der iten Zeile und jten Spalte zurückbleibt.) Aus der Leibniz-Formel X det F = sgn(σ)f1,σ(1) · · · fn,σ(n) σ 47 folgt (det F )′ = n X fij′ f˜ji = tr(F ′ F̃ ) = tr(F̃ F ′ ), i,j=1 und wir erhalten für die logarithmische Ableitung der Determinante auf der offenen Teilmenge {x ∈ D | det F 6= 0} von D (det F )′ = tr(F −1 F ′ ) = tr(F ′ F −1 ). det F ⊳ Die Differentialrechnung entstand aus den Bedürfnissen der Newtonschen Mechanik. Diese findet allerdings nicht in einem Vektorraum statt. Definition 27. Ein affiner Raum ist eine Menge A zusammen mit einem Vektorraum V und einer Abbildung A × V → A, geschrieben (a, v) 7→ a + v, mit folgenden Eigenschaften: (a) Für alle a ∈ A und u, v ∈ V gilt a + (u + v) = (a + u) + v. (b) Für beliebige Punkte a, b ∈ A gibt es genau einen Vektor v ∈ V , so dass a + v = b. → − (Man bezeichnet v mit ab.) Die Dimension des affinen Raumes A ist die Dimension des zugehörigen Vektorraumes V , dessen Elemente man Translationen von A nennt. Sind A und B affine Räume mit den Vektorräumen von Translationen V bzw. W , so heißt g : A → B affine Abbildung, wenn es eine lineare Abbildung g ′ : V → W gibt, so dass für alle a ∈ A und v ∈ V gilt g(a + v) = g(a) + g ′ v. In dieser Situation werden durch Normen auf V und W Metriken d bzw. e auf A und B definiert. Ist D ⊆ A, so kann man die Richtungsableitung einer Funktion f : D → B bezüglich v ∈ V an einer Stelle a ∈ D̊ als Element von W definieren: 1 −−−−−−−−−−→ f (a)f (a + hv). h→0 h ∂v f (a) = lim Die totale Ableitung f ′ (a) ∈ Hom(V, W ) ist charakterisiert durch −−−−−−−−−→ f (a)f (a + v) = f ′ (a)v + r(v), wobei r(v) kvk → 0 (v → 0). Betrachtet man die durch g(a + v) = f (a) + f ′ (a)v gegebene affine Abbildung g : D → W , so kann man dies auch durch e(f (x), g(x)) →0 d(x, a) (x → a) ausdrücken, d. h. f wird in der Umgebung von a durch die affine Abbildung g angenähert. 48 3.2 Höhere Ableitungen Ist f auf einer offenen Teilmenge D eines Vektorraums V differenzierbar, so erhalten wir eine Abbildung f ′ : D → Hom(V, W ). Ist diese wiederum an einer Stelle a differenzierbar, so bezeichnen wir ihre ihre Ableitung mit f ′′ (a) ∈ Hom(V, Hom(V, W )). Anstelle von f ′ (x) kann man auch die Abbildung f ′ (x)u = ∂u f (x) für festes u nach Satz 34(ii) ableiten und erhält f ′′ (a)u. Somit ergibt sich (f ′′ (a)u)v = ∂v ∂u f (a). Statt (f ′′ (a)u)v schreiben wir f ′′ (a)(u, v), was bilinear von u, v ∈ V abhängt. Ist z. B. V = K n , so gilt f ′′ (a)(u, v) = n X ∂j ∂i f (a)ui vj . i,j=1 Analog ist f ′′′ (a) eine trilineare Abbildung V 3 → W usw. Die traditionelle Schreibweise ist ∂j ∂i f = ∂2f , ∂xj ∂xi ∂i ∂i f = ∂2f , ∂x2i ∂i2 ∂j f = ∂3f , ∂x2i ∂xj ... In Analogie zu Definition I.52 legen wir fest: Definition 28. Es seien V und W Vektorräume über K und D eine offene Teilmenge von V . Wir bezeichnen mit F (D, W ) die Menge aller Abbildung D → W und mit C(D, W ) die Teilmenge der stetigen Abbildungen. Für jede natürliche Zahl k definieren wir die Menge F k (D, W ) aller k Mal differenzierbaren Abbildungen und die Menge C k (D, W ) aller k Mal stetig differenzierbaren Abbildungen rekursiv: F 0 (D, W ) = F (D, W ), C 0 (D, W ) = C(D, W ), F k+1 (D, W ) = {f : D → W | f ist differenzierbar, f ′ ∈ F k (D, Hom(V, W ))}, C k+1 (D, W ) = {f : D → W | f ist differenzierbar, f ′ ∈ C k (D, Hom(V, W ))}. Wir definieren die kte Ableitung einer Abbildung f ∈ F k (D, W ) rekursiv durch f (0) = f, f (k+1) = (f ′ )(k) . Schließlich nennen wir die Elemente von ∞ C (D, W ) = ∞ \ k=0 49 C k (D, W ) unendlich oft12 differenzierbare Abbildungen. Da jede differenzierbare Abbildung stetig ist, erhalten wir in Analogie zu Folgerung I.39 durch vollständige Induktion F k+1 (D, W ) ⊆ C k (D, W ) ⊆ F k (D, W ). Würden wir also die Menge F ∞ (D, W ) analog definieren, so wäre sie gleich C ∞ (D, W ). Auch Satz I.75 und Satz I.76(i) übertragen sich problemlos. Satz 35. Es seien T , U , V und W Vektorräume über K. (i) Ist D offen in V und sind f , g ∈ C k (D, W ), so auch f + g, und (f + g)(k) = f (k) + g (k) . (ii) Ist b : U × V eine bilineare Abbildung, ist D offen in T und ist f ∈ C k (D, U ), g ∈ C k (D, V ), so ist b(f, g) ∈ C k (D, W ). (iii) Es sei D offen in U und E offen in V . Ist f ∈ C k (D, V ), f (D) ⊆ E und g ∈ C k (E, W ), so ist g ◦ f ∈ C k (D, W ). Analoge Aussagen gelten für F k an Stelle von C k . Beweis. Wir führen nur den Induktionsbeweis von Aussage (ii) vor. Im Laufe des Beweises von Satz 34(ii) wurde gezeigt, dass b stetig ist. Damit folgt die Behauptung imr Fall k = 0. Angenommen, sie gilt für eine gewisse natürliche Zahl k. Nun sei f ∈ C k+1 (D, U ) und g ∈ C k+1 (D, V ). Nach Satz 34(ii) ist b(f, g)′ = b(f ′ , g) + b(f, g ′ ). Nach Induktionsvoraussetzung und Teil (i) ist die rechte Seite in C k (D, W ), also laut Definition b(f, g) ∈ C k+1 (D, W ). Auch die anderen Behauptungen werden wie bei den Sätzen I.75 und I.76(i) beweisen. Da die Skalarmultiplikation K × W → W bilinear ist, sind die Mengen F (D, W ) und C k (D, W ) nach Satz 35(i), (ii) Unterräume des K-Vektorraumes F (D, W ). Man kann auch für einen einzelnen inneren Punkt a einer beliebigen Teilmenge D ⊆ V rekursiv definieren, wann eine Abbildung f an dieser Stelle k + 1 Mal differenzierbar ist. Dazu muss f in einer Umgebung U ⊆ D von a differenzierbar sein und die Funktion f ′ : U → Hom(V, W ) an der Stelle a k mal differenzierbar sein. Auch Satz 35 überträgt sich sinngemäß, aber wir verzichten auf weitere Einzelheiten. k 12 Richtiger wäre beliebig oft“. ” 50 Für f ∈ F k (D, W ) und a ∈ D ist f (k) (a) eine multilineare Abbildung, und es gilt f (k) (a)(v1 , . . . , vk ) = ∂vk · · · ∂v1 f (a). Im Fall V = K n erhalten wir für Vektoren vj = (vj,1 , . . . , vj,n ) ∈ K n f (k) (a)(v1 , . . . , vk ) = n X i1 ,...,ik =1 ∂ik . . . ∂i1 f (a)v1,i1 · · · vk,ik . (2) Bezeichnen wir den Vektorraum der multilinearen Abbildungen V k → W mit Multk (V, W ) (was allerdings keine Standardbezeichnung ist) und setzt Mult0 (V, W ) = W , so zeigt man wie in Präsenzaufgabe I.48 durch vollständige Induktion nach k, dass F k+l (D, W ) = {f ∈ F k (D, W ) | f (k) ∈ F l (D, Multk (V, W ))}, C k+l (D, W ) = {f ∈ C k (D, W ) | f (k) ∈ C l (D, Multk (V, W ))} und dass für Elemente dieser Mengen gilt f (k+l) = (f (k) )(l) . Satz 36 (Schwarz). Angenommen, D ist offen in Rn und alle partiellen Ableitungen von f : D → W bis zur zweiten Ordnung existieren und sind stetig auf D. Dann gilt ∂i ∂j f = ∂j ∂i f. Beweis. Wir können annehmen, dass W = Rm ist. Die Koordinaten der partiellen Ableitung sind die partiellen Ableitungen der Koordinatenfunktionen, also genügt es, den Fall W = R zu betrachten. Es genügt auch, die Gleichheit in einem festen Punkt a zu zeigen, wobei wir a = 0 annehmen können. Da in der Definition von ∂i ∂j f (0) nur Werte von f an Stellen x mit der Eigenschaft xk = 0 für alle k ∈ / {i, j} vorkommen, können wir annehmen, dass n = 2, i = 1, j = 2. Da D offen ist, gibt es ein η > 0, so dass die η-Umgebung von 0 bezüglich k . k∞ in D enthalten ist. Wenden wir für x ∈ Uη (0) den Mittelwertsatz auf F (h) = f (h, x2 ) − f (h, 0) an, so erhalten wir ein b1 ∈ ]0, x1 [, so dass F (x1 ) − F (0) = F ′ (b1 )x1 , d. h. f (x1 , x2 ) − f (x1 , 0) − f (0, x2 ) + f (0, 0) = ∂1 f (b1 , x2 ) − ∂1 f (b1 , 0) x1 . 51 Dabei hängt b1 von x ab. Wenden wir den Mittelwertsatz auf die Funktion ∂1 f (b1 , h) an, so erhalten wir ein b2 ∈ ]0, x2 [, so dass ∂1 f (b1 , x2 ) − ∂1 f (b1 , 0) = ∂2 ∂1 f (b1 , b2 )x2 , wobei b2 von b1 und x1 , also letztlich von x abhängt. Wir erhalten also für jedes x ∈ Uη (0) ein b ∈ V , so dass kbk < kxk und f (x1 , x2 ) − f (x1 , 0) − f (0, x2 ) + f (0, 0) = ∂2 ∂1 f (b1 , b2 )x1 x2 . Vertauschen wir die Rollen von x1 und x2 , so erhalten wir für jedes x ∈ Uη (0) ein c ∈ V , so dass kck < kxk und f (x1 , x2 ) − f (0, x2 ) − f (x1 , 0) + f (0, 0) = ∂1 ∂2 f (c1 , c2 )x1 x2 . Für x1 6= 0 und x2 6= 0 folgt ∂2 ∂1 f (b) = ∂1 ∂2 f (c), wobei b und c von x abhängen und nach dem Einschließungskriterium gilt b → 0, c→0 (x → 0). Wegen der Stetigkeit der partiellen Ableitung folgt ∂2 ∂1 f (0) = ∂1 ∂2 f (0). Folgerung 9. Ist f ∈ C k (D, W ) mit D ⊆ Rn , so gilt für jede Permutation σ von {1, . . . , k} und alle i1 , . . . , ik ∈ {1, . . . , n} ∂i1 · · · ∂ik f = ∂iσ(1) · · · ∂iσ(k) f. Für D in einem abstrakten R-Vektorraum V und v1 , . . . , vk ∈ V gilt analog ∂v1 · · · ∂vk f = ∂vσ(1) · · · ∂vσ(k) f, d. h. f (k) (a) ist eine symmetrische Multilinearform V k → W . Für l < k ist nämlich ∂il+2 · · · ∂ik f ∈ C l+1 (D, Multk−l−1 (V, W )), und wir können ∂il und ∂il+1 vertauschen. Jede Permutation σ lässt sich aus Transpositionen zusammensetzen. Die zweite Behauptung folgt aus der ersten, indem man in Gleichung (2) ij durch iσ(j) substituiert. Satz 36 folgt natürlich umgekehrt aus der Aussage der Folgerung 9. Beides gilt übrigens auch für komplexe Ableitungen. Jede C-lineare Abbildung zwischen C-Vektorräumen ist auch eine R-lineare Abbildung bezüglich der unterliegenden Struktur von R-Vektorräumen, 52 also ist die C-Ableitung, wenn sie existiert, gleich der R-Ableitung. Durch Iteration folgt das auch für höhere Ableitungen. Beispiel. Ist D offen in R3 und f ∈ C 2 (D), so gilt ∂2 ∂3 f − ∂3 ∂2 f rot grad f = ∂3 ∂1 f − ∂1 ∂3 f = 0. ∂1 ∂2 f − ∂2 ∂1 f Ist X ∈ C 2 (D, R3 ), so gilt div rot X = ∂1 (∂2 X3 − ∂2 X2 ) + ∂2 (∂3 X1 − ∂1 X3 ) + ∂3 (∂1 X2 − ∂2 X1 ) = 0. Ein Gradientenfeld ist also rotationsfrei und die Rotation eines Vektorfeldes ist divergenzfrei. ⊳ Man definiert den Laplace-Operator auf einer offenen Teilmenge D von n R durch ∆f = div grad f für f ∈ C 2 (D). Dann gilt also ∆f = ∂12 f + . . . + ∂n2 f. Zum Abschluss führen wir noch eine Verallgemeinerung des Begriffs des Homöomorphismus ein. Definition 29. Eine bijektive Abbildung f zwischen offenen Teilmengen von endlichdimensionalen Vektorräumen heißt Diffeomorphismus der Klasse C k , wenn die Abbildung f und ihre Umkehrabbildung k Mal stetig differenzierbar sind. Aufgabe 32 liefert ein Beispiel für einen Diffeomorphismus der Klasse C ∞ . 3.3 Die Taylorsche Formel Wir wollen Satz I.78 auf vektorwertige Funktionen von mehreren Variablen verallgemeinern. Satz 37. Es seien V und W Vektorräume über K sowie D eine offene Teilmenge von V . Weiter sei k ∈ N, f ∈ C k+1 (D, W ), a ∈ D und v ∈ V , so dass die Strecke [a, a + v] in D enthalten ist. Dann gilt Z 1 k X 1 j (1 − h)k k+1 f (a + v) = ∂v f (a) + ∂v f (a + hv) dh. j! k! 0 j=0 53 Dies ist eine Version der Taylorschen Formel. Für festes a nennt man die Summe auf der rechten Seite das Taylor-Polynom der Ordnung k von f an der Stelle a. Bezeichnen wir es mit pk (v), so hat die Formel die Gestalt f (a + v) = pk (v) + rk (v), Beide Seiten hängen nur von den Werten von f auf der Strecke [a, a + v] = {a + hv | h ∈ [0, 1]} ab, insofern lässt sich dieser Satz auf eine Taylorsche Formel für Funktionen von einer Variablen zurückführen. Da wir aber vektorwertige Funktionen betrachten, kann das Restglied rk (v) nicht mehr durch einen Mittelwert ausgedrückt werden, sondern erscheint in Integralform. Beweis. Wir halten a, k und v fest und betrachten die durch g(h) = k X (1 − h)j j=0 j! ∂vj f (a + hv) definierte Hilfsfunktion g : [0, 1] → W . Dann ist g stetig differenzierbar, g(0) = pk (v), g(1) = f (a + v) und ′ g (h) = k X (1 − h)j j=0 j! ∂vj+1 f (a + hv) − k X (1 − h)j−1 j=1 (j − 1)! ∂vj f (a + hv). Wenn wir in der zweiten Summe eine Substitution vornehmen, so kürzen sich alle Terme bis auf einen, und wir erhalten g ′ (h) = (1 − h)k k+1 ∂v f (a + hv). k! Nach Satz 27 gilt g(1) − g(0) = und die Behauptung folgt. Z 1 g ′ (h) dh, 0 Die Form des Restgliedes scheint vom Himmel zu fallen. Es gibt auch einen Beweis durch vollständige Induktion, bei dem sich das Restglied von selbst ergibt, aber dazu benötigt man die Vertauschbarkeit von Mehrfachintegralen. 54 Wie wir wissen, lässt sich die im Satz auftretende mehrfache Richtungsableitung durch die totale Ableitung ausdrücken, nämlich ∂vk f (a) = f (k) (a)(v, . . . , v ). | {z } k Das Restglied r1 stimmt mit dem Restglied in der Definition 25 überein. 1 (v) Ist also f an der Stelle a differenzierbar, so gilt rkvk → 0 (v → 0). Wir wollen eine analoge Aussage für beliebige k beweisen. Satz 38. Es seien V und W Vektorräume über K, D ⊆ V , und f : D → W sei k Mal differenzierbar in dem inneren Punkt a von D, wobei k ≥ 1. Dann gilt für v in einer Umgebung von 0 in V rk (v) →0 kvkk f (a + v) = pk (v) + rk (v), (v → 0). Beweis. Da die Behauptung für k = 1 nach Definition bereits gilt, sei nun k > 1. Laut Definition muss f (k−1) in einer Umgebung U von a existieren und an der Stelle a differenzierbar sein. Es gibt ein η > 0, so dass für kvk < η gilt a + v ∈ U , also auch [a, a + v] ⊆ U . Da f (k−2) auf U stetig ist, können wir Satz 37 mit k − 2 an Stelle von k anwenden und erhalten Z 1 (1 − h)k−2 k−1 ∂ f (a + hv) dh. f (a + v) = pk−2 (v) + (k − 2)! v 0 Wegen der Differenzierbarkeit von f (k−1) : U → Multk−1 (V, W ) an der Stelle a gilt für kuk < η f (k−1) (a + u) = f (k−1) (a) + f (k) (a)u + r(u), r(u) →0 kuk (u → 0), wobei f (k) (a) ∈ Hom(V, Multk−1 (V, W )) = Multk (V, W ). Setzen wir u = hv, so folgt ∂vk−1 f (a + hv) = ∂vk−1 f (a) + h∂vk f (a) + r(hv)(v, . . . , v ). | {z } k−1 Beim Einsetzen ergeben angesichts von Satz 26(iv) und Z 1 Z 1 (1 − h)k−2 1 1 h(1 − h)k−2 dh = , dh = (k − 2)! (k − 1)! (k − 2)! k! 0 0 55 (vgl. Aufgabe 3) die ersten beiden Terme gerade die beiden restlichen Glieder von pk (v), und es folgt Z 1 (1 − h)k−2 rk (v) = r(hv)(v, . . . , v) dh. (k − 2)! 0 Nach Satz 26 ist krk (v)k ≤ Z 1 0 (1 − h)k−2 kr(hv)(v, . . . , v)k dh. (k − 2)! Verallgemeinern wir die Ungleichung aus dem Beweis von Satz 34(ii) (vgl. Präsenzübung 21) durch vollständige Induktion, so folgt für v1 , . . . , vk−1 ∈ V kr(u)(v1 , . . . , vk−1 )k ≤ kr(u)kkv1 k · · · kvk−1 k. Somit ist krk (v)k ≤ kvkk Z 1 0 (1 − h)k−2 kr(hv)k · dh. (k − 2)! kvk Für jedes ε > 0 gibt es ein δ > 0, so dass für kuk < δ gilt kr(u)k < k!ε. kuk Setzen wir u = hv mit kvk < δ und h ∈ [0, 1], so ist dies erfüllt, und es folgt Z 1 h(1 − h)k−2 krk (v)k < k!ε dh = ε. kvkk (k − 2)! 0 Ist V = Rn , so können wir die in der Taylorschen Formel vorkommenden mehrfachen Richtungsableitungen bezüglich eines Vektors v = (v1 , . . . , vn ) durch partielle Ableitungen ausdrücken. Gleichung (2) spezialisiert sich nämlich zu n X k ∂v f (a) = ∂ik · · · ∂i1 f (a)vi1 · · · vik . i1 ,...,ik =1 Ist f eine k Mal stetig differenzierbare Funktion in einer Umgebung von a, so können wir die partiellen Ableitungen nach Satz 36 umordnen und gleiche Ableitungen zusammenfassen. Ist αi die Anzahl, wie oft die Zahl i unter den Zahlen i1 , . . . , ik vorkommt, so ist jedem k-Tupel (i1 , . . . , ik ) ein n-Tupel (α1 , . . . , αn ) mit der Eigenschaft α1 + . . . + αn = k 56 zugeordnet. Ein n-Tupel (α1 , . . . , αn ) entsteht aus k! α1 ! · · · αn ! verschiedenen k-Tupeln (i1 , . . . , ik ), und es folgt X 1 k ∂v f (a) = k! α +...+α 1 n ∂1α1 · · · ∂nαn f (a) α1 v1 · · · vnαn . α ! · · · α ! 1 n =k Im Spezialfall n = 1 erhalten wir den selben Ausdruck für das Taylorpolynom wie in Satz I.78. 3.4 Lokale Extrema Wir wollen die Kriterien für lokale Extrema auf den Fall von Funktionen von mehreren Variablen verallgemeinern. Definition 30. Es sei f eine reellwertige Funktion auf einem metrischen Raum X und a ein Punkt von X. (i) Die Funktion f hat an der Stelle a ein lokales Minimum, wenn es eine Umgebung U von a in X gibt, so dass für alle x ∈ U gilt f (x) ≥ f (a). (ii) Die Funktion f hat an der Stelle a ein striktes lokales Minimum, wenn es eine Umgebung U von a gibt, so dass für x ∈ U \{a} gilt f (x) > f (a). (iii) Analog definiert man ein (striktes) lokales Maximum. (iv) Wir sagen, dass f an der Stelle a ein lokales Extremum hat, wenn f dort ein lokales Minimum oder ein lokales Maximum hat. Im Folgenden sei D eine Teilmenge eines reellen Vektorraums V . Wir formulieren nun ein notwendiges Kriterium. Satz 39. Die Funktion f : D → R habe an der Stelle a ∈ D̊ ein lokales Extremum. Existiert die Richtungsableitung bezüglich eines Vektors v, so ist ∂v f (a) = 0. Ist f an der Stelle a differenzierbar, so gilt f ′ (a) = 0. Beweis. Es sei g(h) = f (a + hv). Da die Abbildung h 7→ a + hv stetig ist, ist g in einer Umgebung der Stelle 0 definiert und hat dort ein lokales Extremum. Nach Satz I.70 gilt g ′ (0) = 0, und die erste Behauptung folgt. Wegen f ′ (a)v = ∂v f (a) folgt die zweite. 57 Einen Punkt a, in dem die Richtungsableitungen von f bezüglich aller Vektoren verschwinden, nennt man stationären Punkt von f . Im Fall V = Rn müssen dazu notwendigerweise alle partiellen Ableitungen verschwinden. Ist f an der Stelle a differenzierbar, so ist das auch hinreichend für das Vorliegen eines stationären Punktes. Beispiel. Die Funktion f : R2 → R sei gegeben durch f (x, y) = ey cos x + ex cos y. Die ersten partiellen Ableitungen sind ∂f = −ey sin x + ex cos y, ∂x ∂f ∂y f (x, y) = = ey cos x − ex sin y. ∂y ∂x f (x, y) = Ist (a, b) ein stationärer Punkt von f , so gilt also ea cos b = eb sin a, ea sin b = eb cos a. Zur Lösung dieses nichtlinearen Gleichungssystems könnte man z. B. eb mit Hilfe einer Gleichung aus der anderen eliminieren und dann ea kürzen. Da man nicht durch 0 dividieren kann, wäre dazu eine Fallunterscheidung nötig. Eleganter ist es, beide Gleichungen zu quadrieren: e2a cos2 b = e2b sin2 a, e2a sin2 b = e2b cos2 a. Addieren wir beide Gleichungen, so folgt e2a = e2b , also wegen der Injektivität der Exponentialfunktion a = b. Weiter folgt sin a = cos a und somit a = π + kπ, k ∈ Z. Eine Probe zeigt, dass die stationären Punkte von f genau 4 die Punkte π + kπ, π4 + kπ 4 mit k ∈ Z sind. ⊳ Wir wollen nun ein hinreichendes Kriterium für lokale Extrema formulieren. Definition 31. Eine Multilinearform m ∈ Multk (V, R) heißt positiv definit13 , wenn für alle v ∈ V \ {0} gilt m(v, . . . , v) > 0. Analog definiert man, wann eine Multilinearform negativ definit ist. Eine Multilinearform m heißt indefinit, wenn es sowohl Vektoren v ∈ V mit der Eigenschaft m(v, . . . , v) > 0 als auch solche mit der Eigenschaft m(v, . . . , v) < 0 gibt. 13 Dies ist das lateinische Partizip von definire (bestimmen). 58 Wegen m(tv, . . . , tv) = tk m(v, . . . , v) für t ∈ R kann es definite Multilinearformen vom Grad k nur geben, wenn k gerade ist. Satz 40. Die Funktion f : D → R sei an der Stelle a ∈ D̊ k Mal differenzierbar, wobei k ≥ 2, und es sei f ′ (a) = 0, ..., f (k−1) (a) = 0. (i) Ist f (k) (a) positiv (bzw. negativ) definit, so hat f an der Stelle a ein lokales Minimum (bzw. Maximum). (ii) Ist f (k) (a) indefinit, so hat f an der Stelle a kein lokales Extremum. Beweis. Nach Satz 38 gilt für a + v ∈ D f (a + v) = f (a) + m(v, . . . , v) + rk (v), rk (v) → 0 (v → 0), kvkk wobei m = k!1 f (k) (a) ist und die Terme der Ordnung 1 bis k − 1 nach Voraussetzung verschwinden. Nun sei z. B. m positiv definit. Wir setzen c = inf{m(v, . . . , v) | v ∈ V, kvk = 1}. Da m(v, . . . , v) stetig von v abhängt und die Menge {v ∈ V | kvk = 1} nach Satz 19 kompakt ist, wird der Wert c auf dieser Menge angenommen, so dass c > 0. Es gibt also ein δ > 0, so dass für a + v ∈ D und kvk < δ gilt c |rk (v)| < kvkk . 2 Für v mit diesen Eigenschaften folgt v v f (a + v) − f (a) = m kvkk + rk (v) ≥ ckvkk − |rk (v)|, ,..., kvk kvk also c f (a + v) ≥ f (a) + kvkk , 2 und für v 6= 0 ist die rechte Seite größer als f (a). Nun sei m indefinit. Dann gibt es Vektoren u und v, so dass m(u, . . . , u) < 0 und m(v, . . . , v) > 0. Definieren wir g(t) = f (a + tu) und h(t) = f (a + tv), so gilt g ′ (0) = h′ (0) = · · · = g (k−1) (0) = h(k−1) (0) = 0, g (k) (0) < 0, h(k) (0) > 0. Nach Satz I.80 bzw. dem bereits bewiesenen Teil (i) hat g an der Stelle 0 ein lokales Maximum und h an der Stelle 0 ein lokales Minimum. Folglich hat f an der Stelle a kein lokales Extremum. 59 Beispiel. Es sei f wie oben. Die zweiten partiellen Ableitungen sind ∂ 2f = −ey cos x + ex cos y, ∂x2 ∂ 2f ∂x ∂y f (x, y) = = −ey sin x − ex sin y, ∂x∂y ∂ 2f = ey cos x − ex cos y. ∂y2 f (x, y) = ∂y 2 ∂x2 f (x, y) = Die totale zweite Ableitung in einem Punkt (a, b) ∈ R2 ist f (2) (a, b) (( uv ) , ( uv )) = ∂x2 f (a, b)u2 +∂x ∂y f (a, b)uv+∂y ∂x f (a, b)vu+∂y2 f (a, b)v 2 , wobei ∂x ∂y f = ∂y ∂x f nach Satz 36. Die Bilinearform m = 21 f (2) (a, a) im stationären Punkt (a, a) mit a = π4 + kπ ergibt beim Einsetzen des selben Vektors ( uv ) in beiden Argumenten die quadratische Form √ π m (( uv ) , ( uv )) = (−1)k 2e 4 +kπ uv. Diese ist indefinit, denn 1 1 m (( −1 ) , ( −1 )) = −m (( 11 ) , ( 11 )) 6= 0, und somit liegt kein lokales Extremum vor. ⊳ In den Anwendungen ist f meist in einer Umgebung des stationären Punktes k Mal stetig differenzierbar, so dass f (k) nach Folgerung 9 eine symmetrische Multilinearform ist. Die Bilinearform f ′′ (a) nennt man übrigens die Hessesche Form von f an der Stelle a. Bei symmetrischen Multilinearformen m von beliebigem Grad k ist die Definitheit schwer zu entscheiden, aber im Fall k = 2 (wenn also m = b eine symmetrische Bilinearform ist) gibt es einen einfachen Algorithmus. Es genügt, die zugehörige quadratische Form q(v) = b(v, v) zu betrachten, aus der sich die Bilinearform durch sogenannte Polarisierung 2b(u, v) = q(u + v) − q(u) − q(v) zurückgewinnen lässt. Die Methode von Gram-Schmidt liefert eine Basis e1 , . . . , en von V , so dass b(ei , ej ) = 0 für i 6= j, b(ei , ei ) ∈ {1, −1, 0}. Daran lässt sich die Definitheit leicht ablesen. 60 An Stelle dieser Methode beschreiben wir die analoge Methode der quadratischen Ergänzung. Ist V durch Wahl einer Basis bereits mit Rn identifiziert, so ist b in Matrizenschreibweise durch a11 a12 . . . a1n v1 a21 a22 . . . a2n .. b(u, v) = u1 . . . un .. .. .. . . . . vn an1 an2 . . . ann und q in der Form q(v) = a11 v12 + a12 v1 v2 + · · · + a1n v1 vn +a21 v2 v1 + a22 v22 + · · · + a2n v2 vn ... +an1 vn v1 + an2 vn v2 + · · · + a2n vn2 gegeben, wobei aij = aji . Man kann aij vi vj und aji vj vi für i 6= j zu 2aij vi vj zusammenfassen. Ist a11 6= 0, so gehen wir zu den Koordinaten u1 , v2 , . . . , vn über, wobei a1n a12 v2 + . . . + vn . u1 = v 1 + a11 a11 Ist hingegen a11 = 0, so vertauschen wir die Nummerierung der Variablen, um in die obige Situation zu kommen. Verschwinden alle aii (wie in unserem Beispiel), so hilft das nichts. In diesem Fall wählen wir Indizes i 6= j, so dass aij 6= 0, und ersetzen die Koordinaten vi und vj durch vi′ = vi + vj , vj′ = vi − vj . 2vi = vi′ + vj′ , 2vj = vi′ − vj′ , Dann ist also aij ′2 (v − vj′2 ). 2 i Nun können wir die obige Substitution vornehmen. Im Ergebnis kommt u1 nur in dem einen Term a11 u21 vor, und die übrigen Terme bilden eine quadratische Form in den restlichen Variablen, auf die man die selbe Methode rekursiv anwenden kann. Schließlich erhält man eine quadratische Form b1 u21 + . . . + bn u2n . p Substituieren wir schließlich wi = |bi |ui für bi 6= 0 und wi = ui für bi = 0, so erhalten wir eine quadratische Form 2aij vi vj = sgn(b1 )w12 + . . . + sgn(bn )wn2 . 61 3.5 Parameterabhängige Integrale II Wir untersuchen jetzt, wann die durch ein parameterabhängiges Integral definierte Funktion Z b f (x, t) dx I(t) = a für feste reelle Zahlen a ≤ b differenzierbar vom Parameter t abhängt. Dabei sei K = R oder K = C, alle Vektorräume seien K-Vektorräume, und Differenzierbarkeit bedeute K-Differenzierbarkeit. Satz 41. Es sei W ein endlichdimensionaler Vektorraum und U eine offene Teilmenge von K. Die Funktion f : [a, b] × U → W sei nach der Variablen t partiell differenzierbar, und ∂t f : [a, b] × U → W sei stetig. Dann ist I stetig differenzierbar, und Z b I ′ (t) = ∂t f (x, t) dx. a Beweis. Wir halten eine Stelle u ∈ U fest und definieren g : [a, b] × U → W durch f (x, t) − f (x, u) , falls t 6= u, g(x, t) = t−u ∂ f (x, u), falls t = u. t Nach den Rechenregeln ist g für t 6= u stetig, und laut Definition der partiellen Ableitung ist g(c, t) für festes c ∈ [a, b] als Funktion von t stetig. Wir benötigen aber die Stetigkeit von g als Funktion aller Variablen an den Stellen der Form (c, u). Offensichtlich ist die Ableitung von f (x, u + h(t − u)) als Funktion von h gleich ∂t f (x, u + h(t − u))(t − u). Mit Satz 27 folgt für t in einer Umgebung von u, aber verschieden von u, dass Z 1 g(x, t) = ∂t f (x, u + h(t − u)) dh, 0 und dies gilt offensichtlich auch für h = 0. Ist nun ε > 0, so gibt es wegen der Stetigkeit von ∂t f ein δ > 0, so dass für (x, t) ∈ [a, b] × U mit den Eigenschaften |x − c| < δ und |t − u| < δ gilt k∂t f (x, t) − ∂t f (c, u)k < ε. Für diese (x, t) folgt dann nach Satz 26 Z 1 kg(x, t) − g(c, u)k ≤ k∂t f (x, u + h(t − u)) − ∂t f (c, u)k dh < ε. 0 62 Da ε beleibig war, ist g an der Stelle (c, u) stetig. Wenden wir Aufgabe 26 und Satz 31 auf g an, so folgt Z b Z b lim g(x, u) dx. g(x, t) dx = t→u a a Setzen wir die Definition von g ein, so ergibt sich Z b I(t) − I(u) lim ∂t f (x, u) dx, = t→u t−u a also ist I an der Stelle u differenzierbar, und die behauptete Formel gilt. Aus dieser folgt die Stetigkeit von I mit Satz 31. Beispiel. Die Funktion ln(x + t) x 2 ist stetig auf {(x, t) ∈ R | x 6= 0, x + t > 0}. Für feste a ≤ b ist die Funktion Z b ln(x + t) dx I(t) = x a f (x, t) = für t > −a definiert. Man kann beweisen, dass I keine elementare Funktion ist. Mit Satz 41 folgt Z a dx ′ I (t) = . 1 x(x + t) Für t 6= 0 ist x=b Z 1 ln x − ln(x + t) 1 a(t + b) 1 a 1 ′ − , dx = = ln I (t) = t 1 x x+t t t b(t + a) x=a während ′ I (0) = ′ Z b a x=b 1 1 1 dx = − . =− 2 x x x=a a b Nach dem Satz ist I stetig, was sich natürlich auch aus den Rechenregeln für Grenzwerte ergibt. ⊳ Ein Integral kann auch von mehreren Parametern abhängen. Folgerung 10. Es seien V und W endlichdimensionale Vektorräume und U eine offene Teilmenge von V . Für alle x ∈ [a, b] existiere die kte Ableitung von f nach der Variablen t ∈ U , und die entstehende Funktion ∂tk f : [a, b] × U → Multk (V, W ) sei stetig. Dann ist I ∈ C k (U, W ), und es gilt Z b (k) ∂tk f (x, t) dx. I (t) = a 63 Beweis. Für k = 0 folgt dies aus Satz 31. Nun sei k = 1. Für festes u ∈ U und v ∈ V können wir Satz 41 auf f (u + hv) als Funktion von h anwenden und erhalten Z b ∂v f (x, u) dx. ∂v I(u) = a Dies gilt für alle u ∈ U , und da ∂v f stetig ist, folgt mit Satz 31 die Stetigkeit von ∂v I. Dies gilt für alle v, und mit Satz 33 folgt die Stetigkeit von I ′ sowie die Formel für k = 1. Den Beweis für beliebige k führen wir durch vollständige Induktion. Angenommen, die Behauptung gilt für eine Zahl k. Wenn f nun k + 1 Mal bezüglich t differenzierbar und ∂tk+1 f stetig ist, so ist nach dem Bewiesenen zunächst Z b I ′ (t) = ∂t f (x, t) dx. a Da die Funktion ∂t f nun k Man stetig nach t differenzierbar ist, können wir die Induktionsvoraussetzung darauf anwenden. Die Funktion I ′ ist also k Mal stetig differenzierbar, und Z b ′ (k) ∂tk ∂t f (x, t) dx. (I ) (t) = a Damit gilt die Behauptung auch für k + 1. Beispiel. Durch das Eulersche Integral Z 1 xp−1 (1 − x)q−1 dx B(p, q) = 0 wird die Betafunktion14 definiert. Nach Aufgabe 3 (auf komplexwertige Funktionen verallgemeinert) ist B auf der offenen Teilmenge {(p, q) ∈ C2 | Re p > 0, Re q > 0} von C2 definiert, und nach Folgerung 10 ist B unendlich oft C-differenzierbar. In der Lösung von Aufgabe 3 wurde durch partielle Integration gezeigt, dass pB(p, q + 1) = qB(p + 1, q), und durch Substitution sieht man, dass B(p, q) = B(q, p). ⊳ In Lemma 7 haben wir den verallgemeinerten Differenzenquotienten an einer festen Stelle a betrachtet, der bekanntlich nicht eindeutig bestimmt ist. In späteren Anwendungen benötigen wir eine Version, die differenzierbar von a abhängt. 14 Der Buchstabe B ist ein großes Beta. 64 Lemma 8 (Hadamard). Es seien V und W endlichdimensionale Vektorräume und U eine offene Teilmenge von V . Weiter sei f ∈ C k+1 (U, W ) und Ũ = {(x, y) ∈ U × U | [x, y] ⊆ U }. Dann gibt es eine Funktion f˜ ∈ C k (Ũ , Hom(V, W )), so dass für (x, y) ∈ Ũ gilt f (x) − f (y) = f˜(x, y)(x − y). Beweis. Wir definieren für (x, y) ∈ Ũ und v ∈ V Z 1 ˜ ∂v f (y + h(x − y)) dh. f (x, y)v = 0 Nach Satz 35 ist der Integrand in C k (Ũ , W ), und die Differenzierbarkeit von f˜ ergibt sich aus Folgerung 10. Im Fall v = x − y ist der Integrand gleich der Ableitung von f (y + h(x − y)) als Funktion von h, und die behauptete Formel folgt aus Satz 27. Die Identität aus dem Lemma mit der expliziten Form von f˜ aus dem Beweis ist nichts anderes als die Taylorsche Formel aus Satz 37 im Fall k = 0. 4 4.1 Nichtlineare Gleichungen Das Newtonverfahren Eine nichtlineare Gleichung mit n Unbekannten kann man in der Form f (x1 , . . . , xn ) = 0 schreiben, wobei f eine Funktion von n Variablen ist. Ihre Lösungen zu finden bedeutet, das Urbild der Null zu bestimmen. Wir fassen die Variablen zu einem Punkt x ∈ K n zusammen. Fragt man nach den Lösungen von f (x) = y für gegebenes y, so ist dies zwar nicht allgemeiner, aber man kann die Abhängigkeit von y untersuchen. Auch ein System von nichtlinearen Gleichungen kann man in der selben Weise verstehen, wenn man vektorwertige Funktionen f zulässt. Wir wollen zunächst Bedingungen finden, unter denen die Lösung in einer Teilmenge des Definitionsbereichs von f eindeutig ist. Systeme von linearen Gleichungen kann man in der Form l(x) = y 65 schreiben, wobei l : V → W eine lineare Abbildung ist. In diesem Fall ist aus der linearen Algebra bekannt, dass die Lösung nur eindeutig sein kann, wenn l invertierbar ist, und dazu müssen V und W die selbe Dimension haben. Wir wollen den Fall differenzierbarer Abbildungen f : D → W betrachten, wobei D eine offene Teilmenge von V ist. Für einen Punkt a ∈ D, in dem f ′ (a) ∈ Hom(V, W ) invertierbar ist, ersetzen wir f durch die affine Abbildung f (a) + f ′ (a)(x − a). Die Lösung der linearisierten Gleichung f (a) + f ′ (a)(x − a) = y ist dann x1 = a + f ′ (a)−1 (y − f (a)). Dies ist zwar im allgemeinen keine Lösung der Ausgangsgleichung, aber wir hoffen, dass wir der Lösung näherkommen. Durch Iteration erhält man das Newtonverfahren: Man definiert rekursiv eine Folge xk durch x0 = a, xk+1 = xk + f ′ (xk )−1 (y − f (xk )) (solange xk ∈ D ist). Beispiel. Wir suchen eine Lösung der Gleichung x2 = y. Hier ist f ′ (a) = 2a, also x1 = a + y − a2 1 y = a+ . 2a 2 a Das Newtonverfahren ist also in diesem Fall nichts anderes als das Heronverfahren. ⊳ In der Praxis ist das Invertieren einer linearen Abbildung sehr aufwendig. Darum benutzt man manchmal das modifizierte Newtonverfahren xk+1 = xk + f ′ (a)−1 (y − f (xk )). Lemma 9. Die Funktion f : D → W sei auf der offenen Teilmenge D von V stetig differenzierbar, und f ′ (a) sei invertierbar. Dann gibt es eine Umgebung U von b = f (a) und eine Teilmenge X von D, so dass für alle y ∈ U genau eine Lösung der Gleichung f (x) = y in X̊ existiert und das modifizierte Newtonverfahren mit Anfangswert x0 ∈ X gegen diese Lösung konvergiert. 66 Beweis. Zur Abkürzung sei f ′ (a)−1 = l ∈ Hom(W, V ). Wir schreiben die Rekursionsformel im modifizierten Newtonverfahren in der Form xk+1 = hy (xk ), wobei die Abbildung hy : D → V für jedes y ∈ W durch hy (x) = x + l(y − f (x)) gegeben ist. Ein Punkt x ∈ D ist genau dann Fixpunkt von hy , wenn f (x) = y ist. Nach Satz 34 ist hy stetig differenzierbar, und h′y (x) = id − f ′ (a)−1 f ′ (x). Offensichtlich ist h′y (a) = 0. Wegen der Offenheit von D und der Stetigkeit von h′y existiert ein δ > 0, so dass für x ∈ V mit der Eigenschaft kx − ak ≤ δ gilt 1 x ∈ D, kh′y (x)k ≤ . 2 Es sei X = {x ∈ V | kx − ak ≤ δ}. Für x1 , x2 ∈ X können wir Satz 27 und Satz 26(iv) auf hy (x1 + t(x2 − x1 )) anwenden und erhalten 1 khy (x1 ) − hy (x2 )k ≤ kx1 − x2 k. 2 Um zu sehen, ob hy die Menge X in sich selbst abbildet, schreiben wir hy (x) − a = (hy (x) − hy (a)) + l(y − b). Setzen wir U = {y ∈ W | ky − bk < δ }, 2klk so folgt für x ∈ X und y ∈ U 1 khy (x) − ak ≤ kx − ak + klkky − bk < δ, 2 also hy (x) ∈ X̊. Somit ist hy für y ∈ U eine Kontraktion von X. Da X nach Satz 19 kompakt und nach den Sätzen 17 und 16 vollständig ist, hat hy nach Satz 11 genau einen Fixpunkt in X, der offenbar in X̊ liegt. Nach dem Beweis von Satz 11 konvergiert das modifizierte Newtonverfahren gegen diesen Fixpunkt. Wir können nun endlich Satz I.69 auf Funktionen von mehreren Variablen verallgemeinern. 67 Satz 42. Es seien V und W Vektorräume, D eine offene Teilmenge von V und k ≥ 1. Weiter sei f ∈ C k (D, W ) und a ∈ D, wobei f ′ (a) invertierbar ist. Dann gibt es Umgebungen U1 von a in V und U von b = f (a) in W , so dass U1 von f bijektiv auf U abgebildet wird und die Umkehrabbildung in C k (U, V ) ist. Beweis. Es seien U und X wie in Lemma 9. Da es für jedes y ∈ U genau eine Lösung von f (x) = y in X̊ gibt, wird U1 = f −1 (U ) ∩ X̊ bijektiv auf U abgebildet. Es sei g : U → U1 die Umkehrabbildung. Für x1 , x2 ∈ X gilt laut Definition von hy x1 − x2 = hy (x1 ) − hy (x2 ) + l(f (x1 ) − f (x2 )), also 1 kx1 − x2 k ≤ kx1 − x2 k + klkkf (x1 ) − f (x2 )k 2 und schließlich kx1 − x2 k ≤ 2klkkf (x1 ) − f (x2 )k. Sind y1 , y2 ∈ U und setzen wir xi = g(yi ), so folgt kg(y1 ) − g(y2 )k ≤ 2klkky1 − y2 k. Somit ist g auf U Lipschitz-stetig. Wegen der Differenzierbarkeit von f an einer beliebigen Stelle c ∈ X gibt es nach Lemma 7 eine Funktion f˜ : D → Hom(V, W ), die an der Stelle c stetig ist, so dass f (x) − f (c) = f˜(x)(x − c). Sind nun d, y ∈ U , so folgt durch Anwendung auf c = g(d) und x = g(y) y − d = f˜(g(y))(g(y) − g(d)). Die Teilmenge der invertierbaren Elemente von Hom(V, W ) ist offen (Übungsaufgabe), also eine Umgebung von f˜(c) = f ′ (c). Nach Satz 8 gibt es eine Umgebung Uc von c in D, so dass f˜(x) für x ∈ Uc invertierbar ist. Für y in der Umgebung g −1 (Uc ) von d folgt g(y) − g(d) = f˜(g(y))−1 (y − d), und f˜ ◦ g ist nach Satz 9 an der Stelle d stetig. Nach Lemma 7 ist g also an der Stelle d differenzierbar. Wegen f˜(c) = f ′ (c) folgt g ′ (d) = f ′ (g(d))−1 . 68 Da die Abbildung, die jeder invertierbaren linearen Abbildung V → W ihr Inverses zuordnet, stetig ist (Übungsaufgabe), folgt mit Satz 34(iii), dass g ∈ C 1 (U, V ). Wir beweisen nun durch vollständige Induktion, dass aus f ∈ C k (D, W ) folgt g ∈ C k (U, V ). Der Induktionsanfang k = 1 ist bereits erledigt. Angenommen, die Aussage gilt für eine Zahl k. Ist nun f ∈ C k+1 (D, W ), so ist nach Definition f ′ ∈ C k (D, Hom(V, W )) und nach Induktionsvoraussetzung g ∈ C k (U, V ). Da die Abbildung, die jeder invertierbaren Abbildung V → W ihr Inverses zuordnet, beliebig oft differenzierbar ist, folgt aus der obigen Formel mit Satz 35, dass g ′ ∈ C k (U, Hom(W, V ), also g ∈ C k+1 (U, V ). Man kann die Aussage des Satzes auch so ausdrücken, dass f ein Diffeomorphismus der Klasse C k von U1 auf U ist. Differenzieren wir die Funktion g ◦ f = id, so folgt mit Satz 34 g ′ (b)f ′ (a) = id. Daraus ergibt sich g ′ (b) = f ′ (g(b))−1 wie schon in Analysis I. Beispiel. Die durch f (x) = x2 gegebene Funktion f : K → K hat die Ableitung f ′ (x) = 2x, die für x 6= 0 invertierbar ist. Also hat jeder Punkt a ∈ K \ {0} eine Umgebung U1 , so dass die Einschränkung von f auf U1 invertierbar ist. Die Lösung der Gleichung x2 = y ist bis auf das Vorzeichen bestimmt. Während man im Fall K = R üblicherweise U1 = ]0, ∞[ wählt, so dass nur ein Zweig der Parabel den Graphen der Wurzelfunktion darstellt, gibt es im Fall K = C mehrere naheliegende Möglichkeiten. Wählt man die offene rechte Halbebene als U1 , so erhält man den sogenannten Hauptzweig der Wurzel. ⊳ Beispiel. Die Funktion exp : K → K hat die Ableitung exp, die in jedem Punkt invertierbar ist. Während die Exponentialfunktion im Fall K = R injektiv ist, ist die Lösung der Gleichung exp z = w für gegebenes w ∈ C\{0} nach Satz I.60 nur bis auf Addition von Vielfachen von 2πi bestimmt. Ist die Einschränkung von exp auf eine offene Teilmenge U1 ⊆ C injektiv und stetig, so nennt man ihre Umkehrfunktion einen Zweig des Logarithmus. Den Hauptzweig erhält man bei der Wahl von U1 = {z ∈ C | Im z| < π}. ⊳ Beispiel. Jede C-differenzierbare Abbildung ist ja auch R-differenzierbar. Schreiben wir im vorigen Beispiel w = x + iy und z = s + it, so erhalten wir x = es cos t, y = es sin t. 69 Bezeichnet man noch es = r, so erhält man eine unendlich oft differenzierbare Abbildung ]0, ∞[ × R → R2 \ {(0, 0)}. Durch Einschränkung auf eine Teilmenge U1 erhält man einen Diffeomorphismus auf eine Teilmenge U . Man nennt (r, t) dann die Polarkoordinaten des Punktes (x, y) ∈ U . ⊳ 4.2 Implizite Funktionen Wir wollen nun Gleichungen betrachten, die sich nicht einmal lokal eindeutig lösen lassen. Dieses Phänomen tritt schon bei linearen Gleichungssystemen auf. Dort stellt sich heraus, dass man einen Teil der Variablen frei wählen kann und dann die restlichen Variablen eindeutig bestimmt sind. Wir wollen dieses Ergebnis auf nichtlineare Gleichungen verallgemeinern. Beispiel. Betrachten wir die Gleichung x2 + y 2 = 1, √ so gibt es für gegebenes x ∈ ]−1, 1[ genau zwei Lösungen y = ± 1 − x2 . Wählt man ein Vorzeichen aus, so erhält man y als stetige Funktion von x. Für diese Funktion haben wir eine explizite Formel. ⊳ Beispiel. Bei der Gleichung exy = x2 + y können wir die Lösung (0, 1) erraten, aber es ist unmöglich, die Gleichung explizit nach y aufzulösen. ⊳ Allgemein betrachten wir Gleichungen der Form G(x, y) = 0. Finden wir für jedes x in einer Menge D1 (beispielsweise mit Hilfe des (modifizierten) Newtonverfahrens) ein y, so dass (x, y) eine Lösung ist, dann erhalten wir eine Funktion auf D1 . Man sagt, dass diese Funktion implizit durch die Gleichung G(x, y) = 0 gegeben ist. Wir fragen uns, ob man die Lösungen y jeweils so wählen kann, dass diese Funktion stetig oder sogar differenzierbar ist. Satz 43. Es seien U , V und W Vektorräume, D eine offene Teilmenge von U × V und k ≥ 1. Weiter sei G ∈ C k (D, W ) und (a, b) ∈ D, so dass G(a, b) = 0 und ∂y G(a, b) ∈ Hom(V, W ) invertierbar ist. Dann gibt es Umgebungen D1 von a und D2 von b und eine Abbildung f ∈ C k (D1 , V ), so dass D1 × D2 ⊆ D und {(x, y) ∈ D1 × D2 | G(x, y) = 0} = {(x, f (x)) | x ∈ D1 }. Hier bezeichnet ∂y G wie schon in Folgerung 10 die partiell totale Ableitung bezüglich der V -Komponente y des Argumentes (x, y) ∈ U × V . Ist eine Funktion g : V → U gegeben und wenden wir den Satz auf die Funktion G(x, y) = g(y) − x 70 an, so erhalten wir Satz 42 (mit vertauschten Bezeichnungen f (x) und g(y)) als Spezialfall. Man könnte den damaligen Beweis auf die jetzige Situation verallgemeinern, aber durch einen Kunstgriff können wir uns diese Arbeit ersparen. Beweis. Wir definieren eine Abbildung F : D → U × W durch F (x, y) = (x, G(x, y)). Nach Satz 35 ist F ∈ C k (D, U × W ), und nach Satz 34 gilt F ′ (a, b)(u, v) = (u, ∂x G(a, b)u + ∂y G(a, b)v). Ist dieser Wert vorgegeben, so bestimmt man aus der ersten Komponente zunächst u, und wegen der Invertierbarkeit von ∂y G(a, b) ist auch v bestimmt. Die Abbildung F ′ (a, b) ist also invertierbar. Nach Satz 42 ist die Einschränkung von F auf eine geeignete Umgebung von (a, b) in D ein Diffeomorphismus der Klasse C k . Wählen wir die Norm k(x, y)k = max{kxk, kyk} auf U × V , so sieht man, dass diese Umgebung von (a, b) eine Menge der Form E1 × D2 enthält, wobei E1 eine Umgebung von a und D2 eine Umgebung von b ist. Die Umkehrabbildung von F |E1 ×D2 bezeichnen wir mit H. Nach Satz 35 ist H ∈ C k (F (E1 × D2 ), U × V ). Es sei D1 = {x ∈ E1 | (x, 0) ∈ F (E1 × D2 )}. Dies ist eine Umgebung von a, denn (a, 0) = F (a, b). Für x ∈ D1 bezeichnen wir die V -Komponente von H(x, 0) ∈ D1 × D2 ⊆ U × V mit f (x). Dann ist f ∈ C k (D1 , V ) und f (D1 ) ⊆ D2 . Ist (x, y) ∈ D1 × D2 derart, dass G(x, y) = 0 ist, so ist F (x, y) = (x, 0), also (x, y) = H(x, 0) und f (x) = y. Ist umgekehrt x ∈ D1 und y = f (x), so ist H(x, 0) = (x, y), also F (x, y) = (x, 0) und G(x, y) = 0. Bemerkung. Bilden wir in den Bezeichnungen des Satzes die Ableitung von G(x, f (x)) = 0 als Funktion von x, so ergibt sich nach Satz 34 ∂x G(a, b) + ∂y G(a, b)f ′ (a) = 0. Man kann also f ′ (a) = −∂y G(a, b)−1 ∂x G(a, b) bestimmen, auch wenn man keine explizite Formel für f hat. Dieses Verfahren, das sich auf höhere Ableitungen verallgemeinern lässt, nennt man implizite Differentiation. Beispiel. Für die durch G(x, y) = exy − x2 − y 71 gegebene Funktion G : R2 → R ist ∂x G(x, y) = yexy − 2x, ∂y G(x, y) = xexy − 1. Insbesondere ist ∂y G(0, 1) = −1 invertierbar, also gibt es Zahlen δ1 > 0, δ2 > 0 und eine Funktion f : ]−δ1 , δ1 [ → R, so dass für |x| < δ1 genau dann f (x) = y gilt, wenn exy = x2 + y, |y − 1| < δ2 . Außerdem ist f ′ (0) = −∂y G(0, 1)−1 ∂x G(0, 1) = 1. 4.3 ⊳ Stationäre Punkte unter Nebenbedingungen Wir suchen nach lokalen Extrema der Einschränkung einer Funktion f auf die Lösungsmenge eines Gleichungssystems der Form g(x) = 0. Hierfür ist das Kriterium aus Satz 39 nicht anwendbar. Bevor wir den geeigneten Begriff einführen, erinnern wir daran, dass man das Urbild des Nullvektors unter einer linearen Abbildung l den Kern von l nennt und mit Ker l abkürzt. Dies ist ein linearer Unterraum. Es gilt genau dann Ker l = {0}, wenn l injektiv ist. Definition 32. Es seien V und W Vektorräume über K und D eine offene Teilmenge von V . Weiter seien Abbildungen f : D → K und g : D → W gegeben, die an einer Stelle a ∈ D differenzierbar sind. Ein Punkt a ∈ D heißt stationärer Punkt von f unter der Nebenbedingung g, wenn g(a) = 0, Ker g ′ (a) ⊆ Ker f ′ (a). Wir werden diesen Begriff nur im Fall K = R benötigen. Satz 44. Es seien V und W reelle Vektorräume und D eine offene Teilmenge von V . Weiter seien Abbildungen f : D → R und g ∈ C 1 (D, W ) gegeben. Hat die Einschränkung von f auf die Menge X = {x ∈ D | g(x) = 0} an der Stelle a ein lokales Extremum und ist f an dieser Stelle differenzierbar sowie g ′ (a) : V → W surjektiv, so ist a ein stationärer Punkt von f unter der Nebenbedingung g. Beweis. Es sei a wie im Satz und V1 = Ker g ′ (a). Dann gibt es einen Unterraum V2 von V , so dass die lineare Abbildung V1 ×V2 → V , (v1 , v2 ) 7→ v1 +v2 , ein Isomorphismus ist. Indem wir f und g mit diesem Isomorphismus verketten, erhalten wir Abbildungen mit den selben Differenzierbarkeitseigenschaften. Wir können also annehmen, dass V selbst die Form V1 × V2 hat und 72 g ′ (a)(v1 , v2 ) = ∂2 g(a)v2 ist, wobei die partiell totale Ableitung ∂2 g(a) : V2 → W den Kern {0} hat und somit injektiv ist. Da sie ebenso wie g ′ (a) nach Voraussetzung surjektiv ist, ist sie umkehrbar. Schreiben wir a = (a1 , a2 ), so existiert nach Satz 43 eine Umgebung D1 von a1 sowie eine stetig differenzierbare Abbildung h : D1 → V2 , so dass h(a1 ) = a2 und {(x1 , h(x1 )) | x1 ∈ D1 } ⊆ X. Außerdem ist h′ (a1 ) = −∂2 g(a)−1 ∂1 g(a) = 0. Nun sei v ∈ Ker g ′ (a). Dann ist v = (v1 , 0), und die Menge Uv = {t ∈ R | a1 + tv1 ∈ D1 } ist nach Satz 8 eine Umgebung der Null. Setzen wir fv (t) = f (a1 + tv1 , h(a1 + tv1 )), so erhalten wir eine Abbildung fv : Uv → X. Nach Satz 34 ist sie an der Stelle t = 0 differenzierbar, und fv′ (0) = ∂1 f (a)v1 + ∂2 f (a)h′ (a1 )v1 = ∂1 f (a)v1 . Außerdem hat fv an der Stelle t = 0 ein lokales Extremum, und laut Satz I.70 ist fv′ (0) = 0. Es folgt f ′ (a)v = ∂1 f (a)v1 = 0. Da v ∈ Ker g ′ (a) beliebig war, haben wir bewiesen, dass Ker g ′ (a) ⊆ Ker f ′ (a). Um stationäre Punkte unter Nebenbedingungen zu finden, benutzt man folgende Aussage aus der linearen Algebra. Satz 45. Es seien V und W Vektorräume über K sowie l : V → K und m : V → W lineare Abbildungen, wobei m surjektiv ist. Es ist genau dann Ker m ⊆ Ker l, wenn es eine lineare Abbildung λ : W → K mit der Eigenschaft l = λ ◦ m gibt. Beweis. Es sei Ker m ⊆ Ker l. Für jedes w ∈ W gibt es wegen der Surjektivität von m ein v ∈ V , so dass m(v) = w. Wir behaupten, dass l(v) nur von w abhängt. Gilt nämlich für v ′ ∈ V ebenfalls m(v ′ ) = w, so ist m(v − v ′ ) = 0, also l(v − v ′ ) = 0 und schließlich l(v) = l(v ′ ). Wir setzen λ(w) = l(v). Verfahren wir so für alle w, erhalten wir eine Abbildung λ mit der Eigenschaft l = λ ◦ m. Sind w1 , w2 ∈ W gegeben, so können wir v1 , v2 ∈ V mit der Eigenschaft m(v1 ) = w1 , m(v2 ) = w2 wählen, und dann gilt m(v1 + v2 ) = w1 + w2 , also λ(w1 + w2 ) = l(v1 + v2 ) = l(v1 ) + l(v2 ) = λ(w1 ) + λ(w2 ). 73 Analog beweist man, dass für w ∈ W und c ∈ K gilt λ(cw) = cλ(w), und somit ist λ linear. Die Umkehrung ist offensichtlich. Ist f ∈ F 1 (D, K), g ∈ C 1 (D, W ) und g ′ (x) für alle x ∈ D surjektiv, so findet man die stationären Punkte von f unter der Nebenbedingung g, indem man das Gleichungssystem λg ′ (x) = f ′ (a), g(x) = 0 mit den Unbekannten x ∈ D und λ ∈ Hom(V, K) löst. Im Spezialfall V = Rn und W = Rm gibt es für jedes λ Zahlen λ1 , . . . , λm , so dass für jeden Vektor w = (w1 , . . . , wm ) gilt λ(w) = λ1 w1 + . . . + λm wm . Wenn wir die Koordinaten von x mit xi und die Koordinatenfunktionen von g mit gj bezeichnen, so erscheint unser Gleichungssystem in der Form λ1 ∂1 g1 (x1 , . . . , xn ) + . . . + λm ∂1 gm (x1 , . . . , xn ) = ∂1 f (x1 , . . . , xn ), .. . λ1 ∂n g1 (x1 , . . . , xn ) + . . . + λm ∂n gm (x1 , . . . , xn ) = ∂n f (x1 , . . . , xn ), g1 (x1 , . . . , xn ) = 0, .. . gm (x1 , . . . , xn ) = 0 mit m + n Unbekannten und ebenso vielen Gleichungen. Für jede Lösung (x1 , . . . , xn , λ1 , . . . , λm ) ist (x1 , . . . , xn ) ein stationärer Punkt unter den Nebenbedingungen g1 (x1 , . . . , xn ) = 0, . . . , gn (x1 , . . . , xn ) = 0. Die Hilfsgrößen λ1 , . . . , λm nennt man Lagrange-Multiplikatoren. Beispiel. Wir suchen die Punkte in X = {(x, y) ∈ R2 | x4 + y 4 = 4xy + 8}, die den größten bzw. kleinsten Abstand vom Koordinatenursprung haben (vgl. T. Bröcker, Analysis II, Aufgabe II.15). Dazu setzen wir f (x, y) = x2 + y 2 , g(x, y) = x4 + y 4 − 4xy − 8. Es gilt ∂x f = 2x, ∂y f = 2y, ∂x g = 4x3 − 4y, ∂y g = 4y 3 − 4x, 74 und g ′ (x, y) ist nur dann nicht invertierbar, wenn x3 = y, y 3 = x. Dies impliziert x9 = x, also (x, y) = (0, 0) oder (x, y) = ±(1, 1). Diese Punkte liegen aber nicht in X. Wir erhalten das Gleichungssystem λ(4x3 − 4y) = 2x, λ(4y 3 − 4x) = 2y, x4 + y 4 = 4xy + 8. Ist λ = 0, so ist (x, y) = (0, 0), und die dritte Gleichung ist nicht erfüllt. Multiplizieren wir die erste Gleichung mit y und die zweite mit x, so erhalten wir nach Subtraktion und Kürzen von 4λ (x3 − y)y − (y 3 − x)x = 0, also (x + y)(x − y)(xy + 1) = 0. Ist x + y = 0, so erhalten wir aus der dritten Gleichung 2(x2 )2 + 4x2 − 8 = 0, also x2 = √ 5 − 1. Ist x − y = 0, so folgt hingegen 2(x2 )2 − 4x2 − 8 = 0, also x2 = √ 5 + 1. Ist schließlich xy + 1 = 0, so folgt x4 + x−4 − 4 = 0, also (x4 )2 − 4x4 + 1 = 0 und somit x4 = 2 ± 75 √ 3. Die stationären Punkte unter der Nebenbedingung g(x, y) = 0 sind also p√ p√ p√ p√ ± 5 + 1, 5+1 , ± 5 − 1, 5−1 , p p p p √ √ √ √ 4 4 4 4 ± 2 − 3, ∓ 2 + 3 . ± 2 + 3, ∓ 2 − 3 , Wir behaupten, dass X beschränkt ist. Für (x, y) ∈ X gilt nämlich 8 = x4 + y 4 − 4xy ≥ x4 + y 4 − 2x2 − 2y 2 , und wegen y 4 − 2y 2 = (y 2 − 1)2 − 1 ≥ −1 folgt x4 − 2x2 ≤ 9. Für x ≥ 2 ist also 2 x4 4 9≥x 1− 2 ≥ , x 2 √ √ d. h. |x| ≤ 3 2 und analog |y| ≤ 3 2. Außerdem ist X abgeschlossen, also kompakt, und somit besitzt die Einschränkung von f auf X ein Maximum und ein Minimum. Die Werte von f in den stationären Punkten sind p p √ √ √ √ 2( 5 + 1), 2( 5 − 1), 2 + 3 + 2 − 3, und ihre Quadrate sind √ 5 5.1 5), 4(6 − √ 5), 6. √ √ √ √ Wegen p20 < 81, d. h. 2 5 < 9, ist 6 < 4(6 − 5). Der größte Abstand √ √ ist also 2 + 2 5, der kleinste ist 4 6. ⊳ 4(6 + Gewöhnliche Differentialgleichungen Der Begriff der Differentialgleichung Im vorigen Kapitel haben wir uns mit der Lösung von Gleichungen befasst, in denen die unbekannten Größen Zahlen waren. Nun wenden wir uns Gleichungen zu, in denen unbekannte Funktionen vorkommen. Da wir mehrere Funktionen zu einer vektorwertigen Funktion zusammenfassen können, bedeutet es keine Einschränkung, wenn wir nur von einer unbekannten Funktion f sprechen. Auch könnnen wir Gleichungssysteme durch eine einzige Gleichung zwischen Vektoren ausdrücken. Am naheliegendsten ist der Begriff der Funktionalgleichung, in der die Werte der gesuchten Funktion an mehreren Stellen vorkommen können. So hat z. B. das System von Funktionalgleichungen f (x + y) = f (x) + f (y), f (cx) = cf (x), 76 die für alle x, y und c erfüllt sein sollen, als Lösung gerade die linearen Abbildungen. Wir wollen uns hier mit Differentialgleichungen befassen, in denen der Wert der gesuchten Funktion f und ihrer Ableitungen an ein und der selben Stelle x vorkommen. Da wir alle Terme auf die linke Seite bringen können, hat eine Differentialgleichung der Ordnung k die Form G(x, f (x), f ′ (x), . . . , f (k) (x)) = 0 mit einer gegebenen Funktion G auf einer offenen Teilmenge von V × W × Hom(V, W ) × . . . × Multk (V, W ), wobei V und W Vektorräume sind. Eine Lösung ist eine k mal stetig differenzierbare Funktion f : E → W , für die die Gleichung an allen Stellen der offenen Teilmenge E von V gilt. Insbesondere muss für alle x ∈ E dann (x, f (x), f ′ (x), . . . , f (k) (x)) im Definitionsbereich von G liegen. Hat eine Differentialgleichung mehrere Lösungen, so kann man nicht alle mit f bezeichnen. Darum schreibt man die Gleichung in der traditionellen Form G(x, y, y ′ , . . . , y (k) ) = 0. Ist E = A ∪ B für disjunkte offene Mengen A und B, so setzen sich Lösungen auf A und B zu einer Lösung auf E zusammensetzen. Wir brauchen also nur den Fall zu betrachten, dass E zusammenhängend ist. Wir werden nur explizite Differentialgleichungen betrachten, d. h. solche der Form y (k) = F (x, y, y ′ , . . . , y (k−1) ) mit einer gegebenen Funktion F . (Satz 43 zeigt, dass viele implizite Differentialgleichungen äquivalent zu expliziten Differentialgleichungen sind.) Oft gibt man einen Punkt (x0 , y0 , y1 , . . . , yk−1 ) im Definitionsbereich D von F vor und sucht nach Lösungen, die den sogenannten Anfangsbedingungen f (x0 ) = y0 , f ′ (x0 ) = y1 , ..., f (k−1) (x0 ) = yk−1 genügen. Da der Graph von (f, f ′ , . . . , f k−1 ) zusammenhängend ist, genügt es, den Fall zu betrachten, dass die offene Menge D zusammenhängend ist. Differentialgleichungen, in denen die gesuchte Funktion f von mehreren Variablen abhängt, nennt man partielle Differentialgleichungen, weil man hier die totalen Ableitungen f (j) meist durch partielle Ableitungen ausdrückt. 77 Ein Beispiel ist die Wellengleichung aus Aufgabe 34. Wir werden im Folgenden nur gewöhnliche Differentialgleichungen betrachten, d. h. solche, in denen f von nur einer reellen Variablen abhängt. Dann ist E = I ein offenes Intervall. Beispiel. Wir betrachten eine explizite Differentialgleichung erster Ordnung, in der F nicht von y abhängt, also y ′ = F (x), wobei die Werte von F und der gesuchten Funktion in einem Vektorraum W liegen. Dann kann man annehmen, dass der Definitionsbereich von F ein Intervall I ist. Die Lösungen sind nun gerade die Stammfunktionen von F . Ist also F integrierbar und W 6= {0}, so gibt es nach Satz 27 unendlich viele Lösungen, aber für jedes x0 ∈ I und jedes y0 ∈ W gibt es nur eine Lösung, die der Anfangsbedingung f (x0 ) = y0 genügt, nämlich f (x) = y0 + 5.2 Z x F (t) dt. ⊳ x0 Elementare Lösungsmethoden Wir behandeln nun spezielle Typen von Differentialgleichungen erster Ordnung, deren Lösung sich durch Integration gewinnen lässt. 5.2.1 Gleichungen mit getrennten Variablen Dies sind Differentialgleichungen der Form y ′ = g(x)h(y), wobei g und h auf offenen Intervallen I bzw. J definiert (und stetig) sind. dy und formte unter der Traditionell schrieb man y ′ als Differentialquotient dx Annahme, dass h nirgends verschwindet, die Differentialgleichung formal um in dy = g(x) dx. (3) h(y) Dann setzte man vor beide Seiten ein Integralzeichen und berechnete (falls möglich) die unbestimmten Integrale. Schließlich löste man noch nach y auf. Um den obigen Ausdrücken einen Sinn zu geben, muss man Differentialformen und Wegintegrale einführen. Man kann das Vorgehen aber auch auf elementare Weise rechtfertigen: 78 Satz 46. Es seien g und h stetige Funktionen auf offenen Intervallen I bzw. J, (x0 , y0 ) ∈ I × J, und h verschwinde nirgends auf J. Wir definieren Z x Z y du G(x) = g(t) dt, H(y) = . x0 y0 h(u) Ist G(I) ⊆ H(J), so existiert genau eine Lösung f : I → J mit der Eigenschaft f (x0 ) = y0 , und diese ist durch die Gleichung H(f (x)) = G(x) für x ∈ I (4) bestimmt. Sind die Voraussetzungen des Satzes zunächst nicht erfüllt, so kann man sie u. U. durch Verkleinerung von J bzw. I erzwingen. Beweis. Zunächst zeigen wir, dass jede Lösung von (3), die der Anfangsbedingung f (x0 ) = y0 genügt, die Gleichung (4) erfüllt. Aus (3) folgt nämlich f ′ (x) = g(x), h(f (x)) also Z x f ′ (t) dt = g(t) dt. x0 x0 h(f (t)) Mit der Substitution u = f (t) erhält man Z x Z f (x) du du = g(t) dt, x0 f (x0 ) h(u) Z x und wegen f (x0 ) = y0 ist dies gerade die Gleichung (4). 1 Wegen H ′ (y) = h(y) 6= 0 ist H streng monoton und besitzt eine stetig differenzierbare Umkehrfunktion H −1 : H(J) → R. Aus (4) folgt daher f (x) = H −1 (G(x)). (5) Wenn es also überhaupt eine Lösung von (3) mit f (x0 ) = y0 gibt, so ist sie eindeutig bestimmt. Um die Existenz zu beweisen, definieren wir f : I → R durch Gleichung (5), was wegen G(I) ⊆ H(J) möglich ist. Dann ist f stetig differenzierbar, und wegen G(x0 ) = H(x0 ) = 0 gilt f (x0 ) = H −1 (G(x0 )) = H −1 (0) = y0 . Aus (5) folgt (4) und, nach Differentiation, H ′ (f (x))f ′ (x) = G′ (x), was wegen H ′ = 1 h und G′ = g gleichbedeutend mit (3) ist. 79 5.2.2 Variation der Konstanten Hier geht es um lineare Differentialgleichungen erster Ordnung, also Differentialgleichungen der Form y ′ = a(x)y + b(x), (6) wobei a und b stetige Funktionen auf einem offenen Intervall I, die für den Anfang Werte in R haben mögen. Wir betrachten zunächst den Fall einer homogenen linearen Gleichung, d. h. dass b konstant gleich Null ist. Dann liegen getrennte Variablen vor, und mit der obigen Methode erhalten wir G(y) = log yy0 , wobei J die positive oder negative Halbgerade ist, je nachdem ob y0 positiv oder negativ ist. Es folgt Z x F (x) f (x) = ce mit F (x) = a(t) dt x0 und c = y0 . Unsere Methode ist zwar im Fall y0 = 0 nicht anwendbar, aber die letzte Formel ergibt offenbar auch dann eine Lösung der Differentialgleichung. Dies ist auch in diesem Fall die einzige Lösung, denn wenn eine Lösung irgendwo einen von Null verschiedenen Wert annimmt, so ist sie nach dem Bewiesenen überall von Null verschieden. Nun betrachten wir den inhomogenen Fall, in dem b nicht konstant gleich Null ist. Die Methode der Variation der Konstanten besteht darin, die Lösung in der Form f (x) = c(x)eF (x) zu suchen, wobei diesmal c keine Konstante, sondern eine differenzierbare Funktion ist. Dieser Ansatz schränkt die Allgemeinheit nicht ein, denn jede differenzierbare Funktion f lässt sich so schreiben, nämlich mit c(x) = f (x)e−F (x) . Setzt man den Ausdruck für f in die Differentialgleichung (6) ein, so ergibt sich c′ (x)eF (x) + c(x)eF (x) F ′ (x) = a(x)c(x)eF (x) + b(x). Unter Berücksichtigung von F ′ = a können wir dies umschreiben zu c′ (x) = b(x)e−F (x) , und die Anfangsbedingung wird zu c(x0 ) = y0 . Die Funktion c lässt sich nun durch Integration bestimmen und in die Formel für f einsetzen. Anstatt sich eine geschlossene Formel für die Lösung f einzuprägen, fällt es den meisten Menschen leichter, die Herleitung im konkreten Fall zu wiederholen. 80 5.3 Existenz und Eindeutigkeit von Lösungen Wir betrachten explizite gewöhnliche Differentialgleichungen erster Ordnung y ′ = F (x, y), (7) Eine Lösung ist eine stetig differenzierbare Funktion f : I → V , wobei I ein Intervall und V ein endlichdimensionaler K-Vektorraum ist, und F ist auf einer offenen Teilmenge D von R × V definiert. Im Fall V = Rn kann man diese Differentialgleichung als System ′ y1 = F1 (x, y1 , . . . , yn ), .. . ′ yn = Fn (x, y1 , . . . , yn ). schreiben. Um die Existenz und Eindeutigkeit von Lösungen zu zeigen, setzen wir gewisse Eigenschaften von F voraus. Definition 33. Es seien (X, b), (Y, d) und (Z, e) metrische Räume, D ⊆ X × Y und F : D → Z. Die Abbildung F heißt lokal Lipschitz-stetig bezüglich y, wenn es für jeden Punkt (a, b) ∈ D eine Umgebung U ⊆ D und eine Konstante c gibt, so dass für alle (x, u) und (x, v) ∈ U gilt e(F (x, u), F (x, v)) ≤ cd(u, v). Dies ist nach Satz 26 und 27 z. B. dann der Fall, wenn X, Y und Z endlichdimensionale reelle Vektorräume sind und F auf einer offenen Teilmenge D stetig nach y differenzierbar ist. Satz 47 (Picard, Lindelöf). Es sei V ein endlichdimensionaler Vektorraum und D ⊆ R × V offen, F : D → V stetig und bezüglich y Lipschitz-stetig. Weiter sei x0 ∈ R und B ⊆ V kompakt, so dass {x0 } × B ⊆ D. (i) Es gibt ein offenes Intervall I, das x0 enthält, so dass für jedes y0 ∈ B eine Lösung f : I → V der Differentialgleichung (7) existiert, die der Anfangsbedingung f (x0 ) = y0 genügt. (ii) Sind f und g Lösungen mit der Eigenschaft f (x0 ) = g(x0 ) ∈ B, so gibt es ein offenes Intervall J, das x0 enthält, so dass f |J = g|J . Beweis. Wir verwenden auf R × V die Norm k(x, y)k = max{|x|, kyk}. Ist (x0 , b) ∈ D, so gibt es ein ε > 0, so dass der Abschluss der ε-Umgebung von (x0 , b) in D enthalten ist. Es sei U die ε/2-Umgebung von (x0 , b), B ′ der Abschluss der ε-Umgebung von (x0 , b) und I = ]x0 − δ, x0 + δ[, wobei 81 wir δ ∈ ]0, ε] später festlegen. Dann ist I¯ × B ′ ⊆ D. Wir können ε so klein wählen, dass die Einschränkung von F auf I¯ × B ′ Lipschitz-stetig ist. Es sei c eine Lipschitz-Konstante. Wir beweisen den Satz zunächst für B = Ū . Es sei X die Menge der stetigen Funktionen I¯ → B ′ . Für f ∈ X ist F (x, f (x)) als Funktion von x ∈ I¯ stetig. Nach Satz 27 ist f ∈ X genau dann Lösung von (7) und erfüllt die Anfangsbedingung f (x0 ) = y0 , wenn für x ∈ I¯ gilt Z x f (x) = y0 + F (t, f (t)) dt. (8) x0 Für jedes y0 ∈ B setzen wir Hy0 f (x) = y0 + Z x F (t, f (t)) dt. x0 ¯ V ), und eine Funktion f ∈ X ist genau dann eine Dann ist Hy0 f ∈ C 1 (I, Lösung der Integralgleichung (8), wenn sie ein Fixpunkt von Hy0 ist. Da F stetig ist, gibt es nach Folgerung 5 eine Konstante c′ , so dass für (x, y) ∈ I¯ × B ′ gilt kF (x, y)k ≤ c′ . Nun folgt für f ∈ X und x ∈ I¯ Z x Z x kHy0 f (x) − y0 k = F (t, f (t)) dt ≤ kF (t, f (t))k dt ≤ δc′ . x0 x0 Wir wählen δ so, dass δc′ ≤ ε/2. Dann wird X von Hy0 in sich selbst abgebildet. Wegen der Lipschitz-Stetigkeit gilt für alle x ∈ I¯ und u, v ∈ B ′ kF (x, u) − F (x, v)k ≤ cku − vk. Für f , g ∈ X und x ∈ I¯ folgt Z x kHy0 f (x)−Hy0 g(x)k ≤ kF (t, f (t)) − F (t, g(t))k dt ≤ δc sup kf (t)−g(t)k. t∈I¯ x0 Wir verkleinern δ weiter, so dass δc < 1 ist. Dann ist Hy0 eine Kontraktion. ¯ V ) ist nach Folgerung 4 vollständig. Seine TeilDer metrische Raum C(I, menge X ist abgeschlossen, also nach Folgerung 3 ein vollständiger Teilraum. Nach Satz 11 hat Hy0 für jedes y0 ∈ B genau einen Fixpunkt in X. Dies beweist Aussage (i) im Fall B = Ū . Ist g eine weitere Lösung von (7) mit g(x0 ) = y0 , so ist g stetig, also gibt es ein offenes Teilintervall J von I, das x0 enthält, so dass für x ∈ J gilt g(x) ∈ B ′ . Wenden wir das Bewiesene auf J statt I an, so folgt, dass g auf J mit der Lösung von (8) übereinstimmt. Dies beweist Aussage (ii). 82 Ist nun B beliebig kompakt, so gibt es endlich viele Punkte bk ∈ B, so dass B von den zugehörigen Umgebungen Uk überdeckt wird. Für jedes k gibt es ein offenes Intervall Ik , so dass für Anfangswerte in Uk Lösungen auf Ik existieren. Bezeichnen wir den Durchschnitt der Ik mit I, so folgt Aussage (i). Aus dem Beweis ergibt sich, dass durch f0 (x) = y0 und die PicardIteration Z x fk+1 (x) = y0 + F (t, fk (t)) dt x0 eine Funktionenfolge fk definiert wird, die in einer Umgebung von x0 gleichmäßig gegen die Lösung der Differentialgleichung (7) mit der Anfangsbedingung f (x0 ) = y0 konvergiert. Der Existenz- und Eindeutigkeitssatz lässt sich noch etwas verbessern. Satz 48. Es seien D und F wie in Satz 47 und B ⊆ D eine kompakte Teilmenge. Dann gibt es ein δ > 0, so dass für jedes (x0 , y0 ) ∈ B eine Lösung f : ]x0 − δ, x0 + δ[ → V der Differentialgleichung (7) existiert, die der Anfangsbedingung f (x0 ) = y0 genügt. Zwei Lösungen mit derselben Anfangsbedingung stimmen auf dem Durchschnitt ihrer Definitionsbereiche überein. Beweis. Die erste Aussage ist sicher dann richtig, wenn die Funktion F nicht von x abhängt, denn für jede Lösung g mit g(0) = y0 ist dann f (x) = g(x−x0 ) eine Lösung mit f (x0 ) = y0 . Für (x0 , y0 ) ∈ B liegt y0 in der Projektion von B auf V , die ebenfalls kompakt ist, so dass g nach Satz 47 auf einem Intervall ]−δ, δ[ existiert, das nicht von y0 abhängt. Den allgemeinen Fall können wir wie folgt darauf zurückführen. Ist f : I → V eine Lösung der Differentialgleichung (7) mit f (x0 ) = y0 , so genügt die Funktion f˜ : I → R × V , die durch f˜(x) = (x, f (x)) gegeben ist, der Differentialgleichung ỹ ′ = (1, F (ỹ)), deren rechte Seite nicht von x abhängt, und der Anfangsbedingung f˜(x0 ) = (x0 , y0 ). Ist umgekehrt f˜ = (f0 , f ) eine Lösung der letzteren Differentialgleichung und Anfangsbedingung, so ist f0 (x) = x, also f˜(x) = (x, f (x)), wobei f eine Lösung der ursprünglichen Differentialgleichung ist. 83 Nun zur Eindeutigkeit. Sind f1 : I1 → V und f2 : I2 → V zwei Lösungen von (7) und ist sowohl f1 (x0 ) = y0 als auch f2 (x0 ) = y0 , so enthält A = {x ∈ I1 ∩ I2 | f1 (x) = f2 (x)} den Punkt x0 und ist wegen der Stetigkeit von f1 − f2 eine abgeschlossene Teilmenge von I1 ∩ I2 . Nach der Eindeutigkeitsaussage von Satz 47 ist A aber auch eine offene Teilmenge. Da I1 ∩ I2 als Intervall zusammenhängend ist, gilt A = I1 ∩ I2 . Eine Lösung heißt maximal, wenn sie sich nicht zu einer Lösung auf einem größeren Intervall fortsetzen lässt. Aufgrund der Existenzaussage von Satz 47 ist klar, dass der Definitionsbereich einer maximalen Lösung ein offenes Intervall sein muss. Folgerung 11. Ist f lokal Lipschitz-stetig bezüglich y, so gibt es zu jedem (x0 , y0 ) ∈ D eine maximale Lösung f : Ix0 ,y0 → V , die der Anfangsbedingung f (x0 ) = y0 genügt. Setzt man nämlich Ix0 ,y0 gleich der Vereinigung sämtlicher Intervalle I, auf denen Lösungen fI existieren, die der gegebenen Anfangsbedingung genügen, so gehört jedes x ∈ Ix0 ,y0 zu wenigstens einem dieser Intervalle I. Wir können dann f (x) = fI (x) setzen, was nach Satz 48 nicht von der Wahl von I abhängt, und f ist offensichtlich eine Lösung unserer Differentialgleichung. Wir beweisen nun den globalen Existenzsatz. Satz 49. Es sei D ⊆ R×V offen, F : D → V stetig und bezüglich y Lipschitzstetig. Ist f : I → V eine maximale Lösung der Differentialgleichung y ′ = F (x, y), dann ist ihr Graph {(x, y) ∈ I × V | y = f (x)} abgeschlossen in D. Beweis. Angenommen, der Punkt (a, b) ∈ D liegt im Abschluss des Graphen von f , d. h. es gibt eine Folge (xn , yn ) mit xn ∈ I und yn = f (xn ), so dass (xn , yn ) → (a, b) (n → ∞). Dann ist die Menge B = {(xn , yn ) | n ∈ N} ∪ {(a, b)} kompakt, also gibt es nach Satz 48 ein δ > 0, so dass für jedes n ∈ N eine Lösung fn : ]xn − δ, xn + δ[ → V existiert, die der Anfangsbedingung 84 fn (xn ) = yn genügt. Da auch f dieser Bedingung genügt, stimmen aufgrund der Eindeutigkeitsaussage von Satz 48 die Lösungen f und fn auf dem Intervall I ∩ ]xn − δ, xn + δ[ überein, und wegen der Maximalität von I ist ]xn − δ, xn + δ[ ⊆ I. Da dies für alle n gilt, folgt aus xn → a (n → ∞) nun a ∈ I. Aus f (xn ) = yn folgt wegen der Stetigkeit von f , dass f (a) = b. Also liegt (a, b) im Graphen von f . Folgerung 12. Ist f : I → V eine maximale Lösung und B eine kompakte Teilmenge von D, so gibt es x+ , x− ∈ I, so dass für alle x ∈ I mit x > x+ oder x < x− gilt (x, f (x)) ∈ / B. Der Durchschnitt von B mit dem Graphen von f ist nach Satz 18 kompakt, und nach Satz 22 ist auch die Projektion B ′ dieses Durchschnitts auf die x-Achse kompakt. Ist B ′ = ∅, so kann man x± beliebig wählen. Anderenfalls hat B ′ ein größtes Element x+ und ein kleinstes Element x− , und nach Definition des Graphen ist B ′ ⊆ I. 5.4 Lineare Differentialgleichungssysteme Es sei K = R oder K = C und V ein endlichdimensionaler K-Vektorraum. Auf einem offenen Intervall I seien Funktionen A : I → End(V ) und b : I → V gegeben. Im Fall V = K n können wir diese als matrix- bzw. vektorwertige Funktionen b1 a11 . . . a1n .. . .. , b = ... A= . an1 . . . bn ann schreiben. Das Gleichungssystem y ′ = Ay + b (9) heißt lineares Differentialgleichungssystem erster Ordnung. Es heißt homogen, wenn b identisch gleich Null ist. Hier ist für y eine V -wertige Funktion einzusetzen. Zunächst betrachten wir den Fall eines homogenen Systems. Satz 50. Ist A : I → End(V ) stetig und g : J → Rn eine Lösung des Differentialgleichungssystems y ′ = Ay (10) auf einem Teilintervall J ⊆ I, so gilt für alle x0 und x in J Z x kA(x)k dx . kg(x)k ≤ kg(x0 )k exp x0 85 Beweis. Verschwindet die Funktion g an einer Stelle, so ist sie aufgrund von Satz 48 überall gleich Null, und die Behauptung folgt. Es genügt also den Fall zu betrachten, dass g nirgends verschwindet. Nach Satz 27 gilt Z x kg(x)k hg(t), g(t)i′ 2 ln = lnhg(x), g(x)i − lnhg(x0 ), g(x0 )i = dx. kg(x0 )k x0 hg(t), g(t)i Da g eine Lösung von (10) ist, gilt laut Satz 34 hg, gi′ = hg ′ , gi + hg, g ′ i = 2hAg, gi, wobei wir das Argument x der Kürze halber weggelassen haben. Mit der Cauchy-Schwarz-Ungleichung folgt |hg, gi′ | ≤ 2kAkhg, gi. Somit erhalten wir Z x kg(x)k ≤ kA(t)k dt . ln kg(x0 )k x0 Wegen der Monotonie der Exponentialfunktion folgt die Behauptung. Folgerung 13. Jede maximale Lösung des homogenen Differentialgleichungssystems (10) ist auf ganz I definiert. Angenommen, g : J → Rn ist eine maximale Lösung und x1 = sup J liegt in I. Es sei c = supx∈[x0 ,x1 ] kA(x)k. Dann liegt der Graph von g|[x0 ,x1 [ in der kompakten Menge B = [x0 , x1 ] × {y ∈ V | kyk ≤ ec(x1 −x0 ) kg(x0 )k}. Aus Folgerung 12 erhalten wir ein x ∈ J mit x > x1 (Widerspruch). Es folgt sup J ∈ / I, und analog inf J ∈ / I, so dass J = I. Folgerung 14. Die Menge aller maximalen Lösungen von (10) ist ein linearer Unterraum L von C 1 (I, V ), und für jedes x0 ∈ I ist die Abbildung g 7→ g(x0 ) ein Isomorphismus L → V . Die erste Aussage ist offensichtlich. Die Surjektivität ergibt sich aus Folgerung 13 und die Injektivität aus Satz 48. Eine Basis g1 , . . . , gn von L heißt Lösungs-Fundamentalsystem von (10). Man kann sie z. B. gewinnen, indem man eine Basis y1 , . . . , yn von V wählt und maximale Lösungen findet, die den Anfangsbedingungen g1 (x0 ) = y1 , 86 . . . , gn (x0 ) = yn genügen. Wir erhalten für jedes x ∈ I eine lineare Abbildung G(x) : K n → V durch G(x)c = c1 g1 (x) + . . . cn gn (x). Offensichtlich ist jede Lösung von dieser Form, und es gilt die Gleichheit von linearen Abbildungen G′ (x) = A(x)G(x), weil beide Seiten bei Anwendung auf ein beliebiges c ∈ K n das selbe Ergebnis liefern. Im Fall V = K n erhalten wir eine Matrixdastellung von G, genannt Fundamentalmatrix des Systems (10), indem wir die vektorwertigen Funktionen g11 . . . g1n g1i .. zu G = ... gi = ... . gn1 . . . gni gnn vereinigen. Während G praktisch schwer zu bestimmen ist, können wir det G als Lösung einer skalaren Differentialgleichung finden, denn mit Hilfe des Beispiels auf S. 47 erhalten wir (det G(x))′ = tr A(x) det G(x). Beispiel. Wir betrachten das System y1 − 2xy2 , x y2 y2′ = 2xy1 + . x y1′ = Die Matrix dieses Systems ist also A(x) = 1 x 2x −2x 1 x . Ein Lösungs-Fundamentalsystem ist gegeben durch −x sin x2 x cos x2 , , g2 = g1 = x cos x2 x sin x2 und die entsprechende Fundamentalmatrix ist cos x2 − sin x2 . G(x) = x sin x2 cos x2 Nun betrachten wir das inhomogene System (9). 87 ⊳ Satz 51. Sind A : I → End(V ) und b : I → V stetig, so gibt es zu jedem (x0 , y0 ) ∈ I × V eine eindeutig bestimmte Lösung f : I → V des Differentialgleichungssystems (9), die der Anfangsbedingung f (x0 ) = y0 genügt. Beweis. Wir benutzen wieder die Methode der Variation der Konstanten, d. h. wir suchen die Lösung in der Form f = c1 g 1 + · · · + cn g n , wobei g1 , . . . , gn ein Lösungs-Fundamentalsystem des homogenen Systems (10) ist und die ci jetzt Funktionen sind. Dies schreiben wir übersichtlicher in der Form f (x) = G(x)c(x). Durch diesen Ansatz wird die Allgemeinheit der gesuchten Funktion f nicht eingeschränkt, weil G(x) für alle x ∈ I invertierbar ist. Nun gilt f ′ (x) = G′ (x)c(x) + G(x)c′ (x), also ist f genau dann Lösung der Differentialgleichung (9), wenn G′ (x)c(x) + G(x)c′ (x) = A(x)G(x)c(x) + b(x). Nach Kürzen der vorderen Terme wird dies zu G(x)c′ (x) = b(x), und die Lösung ist von der Form Z x c(x) = G(t)−1 b(t) dt + C x0 mit einem Vektor C ∈ V . Die Anfangsbedingung f (x0 ) = y0 ergibt schließlich C = G(x0 )−1 y0 . Beispiel. Das inhomogene System y1 − 2xy2 + 2x2 , y1′ = x y2 y2′ = 2xy1 + x 2 hat dieselbe Matrix A wie im obigen Beispiel und b = 2x0 . Die Methode aus dem Beweis liefert 2 Z Z 2x 1 cos x2 sin x2 −1 dx c(x) = G(x) b(x) = 2 2 0 x − sin x cos x Z sin x2 + C1 cos x2 2x dx = . = cos x2 + C2 − sin x2 88 Somit ergibt sich die allgemeine Lösung als − sin x2 0 cos x2 . + C2 x f (x) = + C1 x cos x2 x sin x2 Folgerung 15. Die Menge der maximalen Lösungen des Differentialgleichungssystems (9) ist ein affiner Unterraum von C 1 (I, V ) der Form A = f0 + L, wobei L den Raum der Lösungen des zugehörigen homogenen Systems (10) bezeichnet. Für jedes Lösung f0 von (9) und jede Lösung g von (10) ist nämlich f0 + g eine Lösung von (9), und für beliebige Lösungen f0 und f von (9) ist f − f0 eine Lösung von (10). Wenn A konstant ist, kann eine Fundamentalmatrix explizit berechnet werden. Dazu müssen wir zunächst etwas Versäumtes nachholen. Satz 52. Es seien V und W Vektorräume über K, D eine wegzusammenhängende offenen Teilmenge von V und fl : D → W eine Folge stetig Kdifferenzierbarer Funktionen. Gilt fl (a) → c (l → ∞) für einen Punkt a ∈ D und konvergiert die Folge fl′ lokal gleichmäßig gegen eine Funktion h, so konvergiert die Folge fl lokal gleichmäßig gegen eine stetig K-differenzierbare Funktion f mit der Ableitung f ′ = h. Übrigens ist jede zusammenhängende offene Teilmenge von V wegzusammenhängend. Beweis. Ist b ∈ D, so gibt es einen Weg g : [0, 1] → V von a nach b. Man kann zeigen (Übungsaufgabe), dass man g ∈ C 1 ([0, 1], V ) wählen kann. Nach Satz 27 ist Z 1 fl (b) = fl (a) + fl′ (g(t))g ′ (t) dt. 0 Jeder Punkt g(t) hat eine Umgebung, in der die Folge fl′ gleichmäßig konvergent ist. Nach Satz 22 ist das Bild von g kompakt, also genügen endlich viele Umgebungen, und somit ist fl ◦ g gleichmäßig konvergent. Mit Satz 32 folgt Z 1 fl (b) → c + h(g(t))g ′ (t) dt 0 (l → ∞). Die rechte Seite ist also f (b). Für einen beliebigen Punkt b ∈ D gibt es ein η > 0, so dass fl′ auf Uη (b) gleichmäßig gegen h konvergiert, und für kvk < η haben wir als Spezialfall der obigen Formel für einen geradlinigen Weg Z 1 f (b + v) = f (b) + h(b + tv)v dt, 0 89 Nach Satz 27 gilt auch fl (b + v) = fl (b) + Z 1 0 fl′ (b + tv)v dt. Ziehen wir die vorletzte Gleichung von der letzten ab, so erhalten wir mit der Dreiecksungleichung und Satz 26(iv) Z 1 kfl (b + v) − f (b + v)k ≤ kfl (b) − f (b)k + η kfl′ (b + tv) − h(b + tv)kdt. 0 Damit folgt die gleichmäßige Konvergenz von fl auf Uη (b). Außerdem gilt f (b + v) = f (b) + h(b)v + r(v), Nach Satz 10 ist h stetig, also gilt h(b). r(v) = r(v) kvk Z 1 0 (h(b + tv) − h(b))v dt. → 0 (v → 0) und somit f ′ (b) = (j) Folgerung 16. Ist fl ∈ C k (D, W ) und ist für jedes j ≤ k die Folge fl lokal gleichmäßig konvergent, so gibt es eine Funktion f ∈ C k (D, W ), so dass für (j) j ≤ k gilt fl → f (j) (l → ∞). Beweis. Für k = 0 ist nichts zu beweisen. Angenommen, die Behauptung gilt für eine Zahl k. Sind nun die Funktionen fl in C k+1 (D, W ) und ist für jedes (j) j ≤ k die Folge fl lokal gleichmäßig konvergent, so erfüllen die Funktionen fl′ die Bedingungen der Induktionsvoraussetzung, also gibt es eine Funkti(j+1) on h ∈ C k (D, W ), so dass für j ≤ k die Folge fl lokal gleichmäßig gegen (j) h konvergiert. Aus dieser Aussage im Fall j = 0 folgt nach Satz 52, dass die Folge fl lokal gleichmäßig gegen eine Funktion f ∈ C1(D, W ) mit der Ableitung f ′ = h konvergiert. Folgerung 17. Der Raum der beschränkten k Mal stetig differenzierbaren Funktionen D → W ist bezüglich der Norm kf k(k) = kf k + kf ′ k + . . . + kf (k) k vollständig (vgl. Präsenzübung 40 auf Blatt 10). Nun kommen wir zu unserem Thema zurück. Satz 53. Es sei V ein endlichdimensionaler K-Vektorraum. 90 (i) Für jedes A ∈ End(V ) ist die Reihe exp A = ∞ X 1 j A j! j=0 absolut konvergent, und die Partialsummen als Funktionen von A konvergieren lokal gleichmäßig. (ii) Für A, B ∈ End(V ) mit der Eigenschaft AB = BA gilt exp(A + B) = exp A exp B. (iii) Die Abbildung exp ist unendlich oft K-differenzierbar, und für jede natürliche Zahl k und alle A0 , A1 , . . . , Ak ∈ End(V ) gilt ∞ X X 1 exp (A0 )(A1 , . . . , Ak ) = Aπ(1) . . . Aπ(j) , j! j=k π∈P (k) jk wobei Pjk die Menge aller Abbildungen π : {1, . . . , j} → {0, . . . , k} mit der Eigenschaft |π −1 (i)| = 1 für jedes i ∈ {1, . . . , k} bezeichnet. Beweis. Wir wählen eine Norm auf V und erhalten eine Norm auf End(V ). j Wegen |Pjk | = k k! gilt für alle m ∈ N l l X X X 1 1 kAπ(1) . . . Aπ(j) k = kA1 k · · · kAk k kA0 kj−k j! (j − k)! j=k j=k π∈P jk ≤ kA1 k · · · kAk k exp kA0 k. Somit ist die Reihe in (iii) für alle A absolut konvergent, also nach Präsenzübung 38 konvergent. Wir bezeichnen ihren Grenzwert mit gk (A0 )(A1 , . . . , Ak ). Im Fall k = 0 erhalten wir die Reihe aus (i) mit A = A0 , deren Partialsummen wir mit fl (A) bezeichnen, und es folgt g0 (A) = exp A. (k) Nach Satz 34 ist die l-te Partialsumme der Reihe in (iii) gleich fl (A), und es gilt für l ≥ k (k) kfl (A) − gk (A)k ≤ ∞ X 1 kAkj−k , (j − k)! j=l+1 wobei links die Norm einer multilinearen Abbildung steht. Für jedes x ≥ 0 ∞ P xj−k folgt wegen → 0 (l → ∞), dass die Einschränkung der Folge (j−k)! j=l+1 91 (k) fl auf die Menge {A ∈ End(V ) | kAk ≤ x} gleichmäßig gegen die Einschränkung von gk konvergent, und da wir x beliebig wählen können, ist die Konvergenz auf End(V ) lokal gleichmäßig. Dies gilt insbesondere für k = 0, und (i) ist bewiesen. Außerdem können wir Satz 52 mit einem beliebigen k anwenden, somit ist exp unendlich oft differenzierbar und exp(k) = gk . Damit ist (iii) bewiesen. Der Beweis von (ii) ist eine wörtliche Kopie des Beweises von Satz I.51, weil für vertauschbare A und B die binomische Formel j (A + B) = j X j i=0 i Ai B j−i gilt. Die Formel in Aussage (iii) lautet für k = 1 exp′ (A0 )(A) = A + 1 1 (AA0 + A0 A) + (AA20 + A0 AA0 + A20 A) + . . . 2! 3! Im Fall A0 = xA mit x ∈ R vereinfacht sich die rechte Seite, und wir erhalten mit Satz 34(iii): Folgerung 18. Setzen wir G(x) = exp(xA), so gilt G′ (x) = AG(x). Im Fall V = K n ist G(x) also eine Fundamentalmatrix für das Differentialgleichungssystem y ′ = Ay mit konstanter Marix A. Den Teilnehmern an der Veranstaltung Lineare Algebra II“ ist klar, dass man exp(A) leicht berech” nen kann, wenn man eine Basis findet, in der A die Jordansche Normalform hat. 5.5 Systeme höherer Ordnung Differentialgleichungen mit höheren Ableitungen treten u. a. in der Physik auf. So lautet die Grundgleichung der Newtonschen Mechanik F = ma, wobei m die Masse eines Massenpunktes, F die auf ihn wirkende Kraft und a die resultierende Beschleunigung ist. Dies lässt sich als Differentialgleichung zweiter Ordnung s′′ = F/m schreiben. Betrachten wir aber den Ort s und die Geschwindigkeit v = s′ gleichzeitig, so erhalten wir ein System erster Ordnung s′ = v, v ′ = F/m, das wir mit den bekannten Methoden behandeln können. Diese Idee lässt sich verallgemeinern. 92 Wir betrachten eine explizite gewöhnliche Differentialgleichung k-ter Ordnung y (k) = F (x, y, y ′ , . . . , y (k−1) ) (11) und suchen nach Lösungen f auf einem Intervall I mit Werten in einem K-Vektorraum V . Die Funktion F ist auf einer offenen Teilmenge D von R × V × · · · × V = R × V k definiert. Ist V = K n , so handelt es sich um eine Gleichung zwischen vektorwertigen Funktionen, die sich auch als Gleichungssystem schreiben lässt. Ein solches System lässt sich auf einfache Weise auf ein System erster Ordnung zurückführen, wobei sich allerdings die Anzahl der Gleichungen erhöht. Mit den Bezeichnungen y ỹ1 ỹ0 ỹ1 y ′ ỹ2 ˜ und f (x, ỹ) = = .. .. .. . . . (k−1) f (x, ỹ0 , ỹ1 , . . . , ỹk−1 ) ỹk−1 y können wir das System in der Form ỹ ′ = f˜(x, ỹ) (12) schreiben. Im Fall V = K n stapeln wir also k Spaltenvektoren der Höhe n zu einem Spaltenvektor der Höhe kn. Satz 54. Ist D wie oben und F : D → V stetig und nach den y-Variablen lokal Lipschitz-stetig, so gibt es für einen beliebigen Punkt (x0 , y0 , . . . , yk−1 ) in D genau eine maximale Lösung f : I → V des Differentialgleichungssystems (11), die den Anfangsbedingungen f (x0 ) = y0 , f ′ (x0 ) = y1 , ..., f (k−1) (x0 ) = yk−1 (13) genügt. Beweis. Dies folgt unmittelbar aus den bisherigen Resultaten über Systeme erster Ordnung. Ist f eine Lösung von (11) mit den Anfangsbedingungen (13), so definieren wir eine Funktion f˜ : I → V k , indem wir f˜i = f (i) setzen, und diese ist dann eine Lösung von (12) mit der Anfangsbedingung y0 y1 f˜(x0 ) = .. . . yk−1 Umgekehrt erhalten wir aus einer solchen Lösung f˜ eine Lösung f des ursprünglichen Systems (11), indem wir f = f˜0 setzen. 93 Ein lineares gewöhnliches Differentialgleichungssystem k-ter Ordnung ist ein System der Form y (k) + Ak−1 (x)y (k−1) + · · · + A1 (x)y ′ + A0 (x)y = b(x), (14) wobei A0 , . . . , Ak−1 : I → End(V ) und b : I → V stetige Funktionen sind. Satz 55. Die Differentialgleichung (14) hat für beliebige Anfangsbedingungen (13) genau eine Lösung f : I → V . Ist dim V = n, so ist die Menge der maximalen Lösungen der zugehörigen homogenen Gleichung (bei dem b durch Null ersetzt ist) ein kn-dimensionaler linearer Unterraum L von C k (I, V ). Die Menge der Lösungen von (14) ist ein affiner Unterraum der Form A = f0 + L. Eine Menge {g1 , . . . , gkn } ⊆ L ist genau dann linear unabhängig, wenn die sog. Wronski-Matrix g1 ... gkn ′ g1′ ... gkn W = .. .. ∈ Hom(K kn , V k ) . . (k−1) (k−1) g1 . . . gkn an einer Stelle x ∈ I (und dann auch an allen Stellen) umkehrbar ist. Beweis. Die Differentialgleichung (14) lässt sich auf ein lineares System erster Ordnung mit der Matrix 0V IV 0V IV . . Ã = . 0V . .. IV −A0 −A1 −A2 . . . −Ak−1 0 0 zurückführen, wobei 0V , IV ∈ End(V ) die Nullabbildung und die identische Abbildung bezeichnen. Die Spalten der Wronski-Matrix sind gerade die zu den Lösungen g1 , . . . , gkn des homogenen Systems k-ter Ordnung gehörigen Lösungen g̃1 , . . . , g̃kn des homogenen Systems erster Ordnung. Nun ergeben sich die Behauptungen aus Satz 54 und seiner Folgerung. 5.6 Lineare Differentialgleichungen mit konstanten Koeffizienten Wir betrachten nun den Fall, dass die Koeffizienten Aj in der Differentialgleichung (14) nicht von x abhängen. Man könnte diese Gleichung auf ein System erster Ordnung zurückführen und dann Folgerung 18 anwenden. Im skalaren Fall V = K gibt es aber eine einfachere Möglichkeit. 94 Satz 56. Es sei p(λ) = λk + ak−1 λk−1 + . . . + a1 λ + a0 ein Polynom mit Koeffizienten in K. Gibt es paarweise verschiedene λ1 , . . . , λr ∈ K und natürliche Zahlen k1 , . . . , kr , so dass für alle λ ∈ K gilt p(λ) = (λ − λ1 )k1 · · · (λ − λr )kr , so bilden die K-wertigen Funktionen gij (x) = xj exp(λi x) mit i ∈ {1, . . . , n} und 0 ≤ j < ki ein Lösungs-Fundamentalsystem der homogenen Differentialgleichung y (k) + ak−1 y (k−1) + . . . + a1 y ′ + a0 y = 0. (15) Nach dem Hauptsatz der Algebra hat im Fall K = C übrigens jedes Polynom eine Zerlegung in Linearfaktoren, wie sie im Satz gefordert ist. Man sagt, dass λi eine ki -fache Nullstelle von p ist. Wir ordnen jedem Polynom q(λ) = bl λl + bl−1 λl−1 + . . . + b1 λ + b0 eine Abbildung Dq : C l (R, K) → C(R, K) zu, indem wir festlegen Dq f = bl f (l) + bl−1 f (l−1) + . . . + b1 f ′ + b0 f. Abbildungen dieser Form nennt man gewöhnliche Differentialoperatoren mit konstanten Koeffizienten. Offensichtlich ist f genau dann eine Lösung der homogenen Differentialgleichung (15), wenn Dp f = 0 ist. Der Grad des obigen Polynoms q ist definiert als deg q = sup{j ∈ N | bj 6= 0}, also insbesondere deg 0 = −∞. Lemma 10. (i) Haben die Polynome p und q die Grade k bzw. l, so gilt auf C m (R, K) Dp+q = Dp + Dq , Dp·q = Dp ◦ Dq , 95 falls m ≥ k, m ≥ l, falls m ≥ k + l. (ii) Sind p und h Polynome, g(x) = exp(xλ0 ) und setzen wir p0 (λ) = p(λ + λ0 ), so ist Dp (hg) = Dp0 (h)g. Ist p(λ0 ) 6= 0, so hat Dp0 h den selben Grad wie h. Beweis. (i) Man rechnet leicht die erste Formel und die zweite im Fall der Polynome q(λ) = c ∈ K oder q(λ) = λ nach. Durch vollständige Induktion folgt dann die zweite Formel für q(λ) = cλj , und mit der ersten Formel folgt die zweite Formel für beliebige q. (ii) Im Fall p(λ) = c ist p0 (λ) = c und Dp (hg) = chg, Dp0 h = ch, und im Fall p(λ) = λ ist p0 (λ) = λ + λ0 und Dp (hg) = (hg)′ = h′ g + hg ′ = (h′ + λ0 h)g, Dp0 (h) = h′ + λ0 h, also gilt die Behauptung in diesen Fällen. Für beliebige Polynome p und q gilt (p + q)0 (λ) = (p + q)(λ + λ0 ) = p(λ + λ0 ) + q(λ + λ0 ) = p0 (λ) + q0 (λ), also (p + q)0 = p0 + q0 , und analog sieht man, dass (pq)0 = p0 q0 . Gilt die Aussage (ii) für p und für q, so zeigt man sie unter Verwendung von Teil (i) für p + q und für pq. Aus den bewiesenen Spezialfällen folgt nun die Behauptung im allgemeinen Fall. Aus der Aussage (ii) folgt im Fall h = 1, dass Dp g = p0 (0)g = p(λ0 )g. Da man λ0 beliebig wählen kann, gewinnen wir so aus dem Differentialoperator Dp das Polynom p zurück. Man nennt es das Symbol von Dp , da man mit Hilfe von Aussage (i) Identitäten zwischen Differentialoperatoren durch Rechnung mit Symbolen nachprüfen kann. Beweis von Satz 56. Mit der Bezeichnung pi (λ) = λ−λi und gi (x) = exp(λi x) gilt Dpi gi = gi′ − λi gi = 0 und für j > 0 Dpi gij = gij′ − λi gij = jgi,j−1 . Mit Lemma 10(ii) folgt für 0 ≤ j < ki Dpki gij = Dpkii gij = 0 i und schließlich Dp gij = 0. 96 Somit sind die angegebenen Funktionen Lösungen der Differentialgleichung. Die Anzahl der Funktionen gi,j ist k1 + . . . + kr = k, also gleich der Dimension des Lösungsraumes L, und eine beliebige Linearkombination hat die Gestalt h1 g1 + . . . + hr gr mit Polynomen h1 , . . . , hr , wobei deg hi < ki . Wir zeigen durch vollständige Induktion nach r, dass diese Linearkombination nur dann gleich Null ist, wenn alle hi gleich Null sind. Im Fall r = 1 folgt die Behauptung, weil g1 nirgends verschwindet. Angenommen, die Behauptung gilt für r − 1 Summanden. Wenden wir kr Dpr auf die obige Linearkombination an, so erhalten wir m1 g1 + . . . + mr−1 gr−1 = 0 mit Polynomen mi von dem selben Grad wie hi . Nach Induktionsvoraussetzung verschwinden die mi , also auch die hi für i < r, und wir sind wieder im Fall eines Summanden. Bemerkung. Ist D ∈ End(L) durch Df = f ′ definiert, so ist p das charakteristische Polynom von D, und D hat bezüglich der Basis j!1 gij die Jordansche Normalform. Wir betrachten nun die inhomogene Differentialgleichung y (k) + ak−1 y (k−1) + . . . + a1 y ′ + a0 y = b(x), (16) die wir in der Form Dp y = b schreiben können. Man kann eine Lösung durch Variation der Konstanten finden. Für spezielle Funktionen b kommt man mit einem geeigneten Ansatz schneller zum Ziel. Satz 57. Es sei b = m0 g0 , wobei m0 ein Polynom mit Koeffizienten in K vom Grad l und g0 (x) = exp(λ0 x) mit λ0 ∈ K ist. Ist λ0 eine k0 -fache Nullstelle des Symbols p der linken Seite von (16), so gibt es eine Lösung der Differentialgleichung in der Form f = h0 g0 mit einem Polynom h0 vom Grad l + k0 . Man beachte, dass k0 auch Null sein kann. Beweis. Wir beweisen die Behauptung durch vollständige Induktion nach l. Für l < 0, also m0 = 0, können wir h0 = 0 setzen. Angenommen, die Behauptung gilt für Polynome von kleinerem Grad als l an Stelle von m0 . Es gibt ein Polynom q mit der Eigenschaft q(λ0 ) 6= 0, so dass p(λ) = (λ − λ0 )k0 q(λ), 97 und es gilt p0 (λ) = λk0 q0 (λ). Für ein beliebiges Polynom h vom Grad l + k0 ist also nach Lemma 10 Dp (hg0 ) = Dq0 (h(k0 ) )g0 = mg0 mit einem Polynom m vom Grad l, wobei wir h so wählen können, dass die höchsten Koeffizienten von m und m0 übereinstimmen. Nach Induktionsvoraussetzung gibt es ein Polynom h1 von kleinerem Grad als l, so dass Dp (h1 g0 ) = (m0 − m)g0 , und es folgt Dp ((h + h1 )g0 ) = m0 g0 . Wir können also h0 = h + h1 setzen. Aus dem Beweis sieht man, dass wir im Fall l = 0, also für konstantes m0 , h0 (x) = m0 x k0 k0 !q(λ0 ) setzen können. Ist eine homogene lineare Differentialgleichung der Form (15) mit reellen Koeffizienten gegeben, so können wir natürlich auch komplexwertige Lösungen g suchen, und dann sind Re g und Im g ebenfalls Lösungen. In diesem Fall hat p reelle Koeffizienten, also ist mit jeder Nullstelle λ auch λ̄ eine Wurzel. Mit den Bezeichnungen µ = Re λ, ω = Im λ gilt Re eλx = eµx cos ωx, Im eλx = eµx sin ωx. Wenn solche Funktionen auf der rechten Seite einer inhomogenen linearen Differentialgleichung der Form (16) auftreten, so kann man sie durch Exponentialfunktionen ausdrücken, also eµx cos ωx = eλx + e−λx , 2 eµx sin ωx = eλx − e−λx , 2i und dann Satz 57 anwenden. 5.7 Abhängigkeit der Lösungen von Anfangsbedingungen und Parametern I Es sei V ein K-Vektorraum, D ⊆ R × V offen und F : D → V stetig. Wir betrachten das Differentialgleichungsystem y ′ = F (x, y). 98 (17) Nehmen wir an, dass F bezüglich y lokal Lipschitz-stetig ist. Dann wissen wir aus Satz 48 und seiner Folgerung, dass für jedes (x0 , y0 ) ∈ D genau eine maximale Lösung f existiert, die der Anfangsbedingung f (x0 ) = y0 genügt. Wir wollen die Abhängigkeit dieser Lösung vom Anfangswert y0 zu untersuchen und schreiben fy0 : Iy0 → V . Dabei beschränken wir uns zunächst auf eine Umgebung von x0 . Satz 58. Unter den obigen Bedingungen sei x0 ∈ R und B ⊆ V kompakt, so dass {x0 } × B ⊆ D. Dann gibt es ein abgeschlossenes Intervall I, das x0 im Inneren enthält, so dass die Funktion f (x, y0 ) := fy0 (x) auf I × B definiert und stetig ist. Die Lösung hängt also (zumindest für x in der Umgebung von x0 ) stetig von den Anfangsbedingungen ab. Beweis. Wir verfeinern den Beweis von Satz 47. Wegen der Kompaktheit von {x0 } × B können wir δ > 0, ε > 0 wählen, so dass das Intervall I = [x0 − δ, x0 + δ] und der Abschluss B ′ der ε-Umgebung von B der Bedingung I × B ′ ⊆ D genügen. Es sei X die Menge der stetigen Abbildungen I × B → B ′ . Eine Funktion f ∈ X erfüllt genau dann die Bedingungen fy′ 0 (x) = F (x, fy0 (x)), fy0 (x0 ) = y0 , wenn für alle (x, y0 ) ∈ I × B gilt f (x, y0 ) = y0 + Z x F (t, f (t, y0 )) dt, x0 d. h. wenn sie ein Fixpunkt der Abbildung H : X → C(I × B, V ) ist, wobei Hf : I × B → V gegeben ist durch Z x Hf (x, y0 ) = y0 + F (t, f (t, y0 )) dt. x0 Ist c′ = sup{kf (x, y)k | x ∈ I, y ∈ B ′ }, so gilt für (x, y0 ) ∈ I × B Z x kHf (x, y0 ) − y0 k ≤ kF (t, f (t, y0 ))kdt ≤ δc′ . x0 Wir können δ durch eine kleinere positive Zahl ersetzen, so dass δc′ ≤ ε gilt; dann ist Hf (x, y0 ) ∈ B ′ , also wird X von H in sich selbst abgebildet. 99 Aufgrund der lokalen Lipschitz-Stetigkeit von F bezüglich y existiert ein c > 0, so dass für alle x ∈ I und u, v ∈ B ′ gilt kF (x, u) − F (x, v)k ≤ cku − vk. Daraus folgt für f1 , f2 ∈ X, dass Z kHf1 (x, y0 ) − Hf2 (x, y0 )k ≤ x x0 ≤ δc kF f (t, f1 (t, y0 )) − F (t, f2 (t, y0 ))k dt sup (t,y0 )∈I×B kf1 (t, y0 ) − f2 (t, y0 )k. Wiederum können wir δ durch eine kleinere Zahl ersetzen, um zu erreichen, dass δc < 1 ist. Dann ist die Abbildung H eine Kontraktion der abgeschlossenen Teilmenge X des vollständigen metrischen Raumes C(I × B, V ), und nach dem Satz 11 hat H genau einen Fixpunkt. Also ist die Lösung f ein Element von C(I × B, V ). Den bewiesenen Satz kann man auf Differentialgleichungsysteme höherer Ordnung übertragen, indem man sie auf Systeme erster Ordnung zurückführt. So hängt z. B. die Position eines Massenpunktes zum Zeitpunkt t, der sich entsprechend den Gesetzen der Newtonschen Mechanik in einem Kraftfeld bewegt, stetig von seiner Anfangsposition und seiner Anfangsgeschwindigkeit zum Zeitpunkt t0 ab. Es interessiert aber auch die Frage, wie sich die Endposition verändert, wenn man das Kraftfeld abändert. Dies führt auf Differentialgleichungen, deren rechte Seiten f (x, y, z) von Parametern (z1 , . . . , zm ) = z abhängen. Satz 59. Es seien V und W K-Vektorräume, D ⊆ R × V × W offen, F : D → V stetig und bezüglich (y, z) ∈ V × W lokal Lipschitz-stetig, und es sei x0 ∈ R. Für jedes (y0 , z) ∈ V × W mit (x0 , y0 , z) ∈ D sei fy0 ,z : Iy0 ,z → V die maximale Lösung von y ′ = F (x, y, z), (18) die der Anfangsbedingung fy0 ,z (x0 ) = y0 genügt. Dann ist U = {(x, y0 , z) | (x0 , y0 , z) ∈ D, x ∈ Iy0 ,z } offen in R × V × W , und durch f (x, y0 , z) = fy0 ,z (x) wird eine stetige Abbildung f : U → V definiert. Beweis. Wir betrachten zunächst den Fall, dass f nicht von z abhängt. Wir schreiben fy0 (x) = Gxx0 (y0 ), 100 Dann ist der Lösungsoperator Gxx0 definiert auf der Menge Vxx0 = {y0 ∈ V | x ∈ Iy0 } und hat Werte in V . Man kann den Lösungsoperator auch für Anfangswerte an anderen Stellen als x0 definieren. Auf Grund der Eindeutigkeitsaussage von Satz 48 gilt auf der Menge (Gxx10 )−1 (Vxx12 ) ⊆ Vxx02 Gxx21 ◦ Gxx10 = Gxx20 . Nun halten wir ein beliebiges (x∗ , y ∗ ) ∈ U fest, also x∗ ∈ Iy∗ , und schreiben f ∗ = fy∗ . Nach dem vorigen Satz gibt es für jedes x̃ ∈ Iy∗ ein δ̃ > 0 und eine Umgebung Ũ von f ∗ (x̃), so dass Gxx̃ (y0 ) auf [x̃ − δ̃, x̃ + δ̃] × Ũ stetig ist. O. B. d. A. sei x∗ > x0 . Das kompakte Intervall [x0 , x∗ ] wird von den Intervallen (x̃, x̃ + δ̃) überdeckt, und wir können eine endliche Teilüberdeckung wählen. Deshalb finden wir x0 < x1 < · · · < xN = x∗ mit entsprechenden δj > 0 und Umgebungen Uj von f ∗ (xj ), so dass xj + δj > xj+1 und dass Gxxj (y0 ) auf Ij × Uj stetig ist, wobei Ij = [xj − δj , xj + δj ]. Durch absteigende Induktion beginnend mit j = N zeigt man (y0 ) = Gxxj (y0 ) GxxN ◦ · · · ◦ Gxxj+1 j für x ∈ IN und y0 ∈ Uj′ , wobei Uj′ = (GxxNj )−1 (UN ) ⊆ Uj . Man beachte, dass alle auf der linken Seite vorkommenden Lösungsoperatoren stetig sind. Wegen GxxNj (f ∗ (xj )) = f ∗ (xN ) ist Uj′ eine Umgebung von f ∗ (xj ). Im Fall j = 0 erhalten wir, dass Gxx0 (y0 ) = fy0 (x) stetig von (x, y0 ) ∈ IN × U0′ abhängt, wobei xN = x∗ ein innerer Punkt von IN und U0′ eine Umgebung von f ∗ (x0 ) = y ∗ ist. Wegen IN × UN′ ⊆ U ist (x∗ , y ∗ ) ein innerer Punkt von U . Schließlich betrachten wir den allgemeinen Fall, dass f von einem Parameter z abhängt. Fassen wir die Variablen (y, z) zu ỹ zusammen und definieren wir F̃ : D → V × W durch F̃ (x, ỹ) = (F (x, ỹ), 0), so erhalten wir aus jeder Lösung fy0 ,z des angegebenen Differentialgleichungsystems eine Lösung f˜y0 ,z (x) = (fy0 ,z (x), z) des Systems ỹ ′ = F̃ (x, ỹ), die der Anfangsbedingung f˜y0 ,z (x0 ) = (y0 , z) genügt, und umgekehrt. Die rechte Seite des letzteren Systems hängt aber von keinem Parameter ab, also ist das Bewiesene anwendbar. Man hätte die Abhängigkeit von z auch gleich in Satz 58 mit erfassen und Parameter z in einem beliebigen metrischen Raum Z an Stelle des Vektorraumes W zulassen können. 101 5.8 Abhängigkeit der Lösungen von Anfangsbedingungen und Parametern II Nun kommen wir zur differenzierbaren Abhängigkeit von Anfangsbedingungen und Parametern. Satz 60. In der Situation von Satz 59 sei F stetig differenzierbar nach (y, z). Dann ist die Lösung f auf U stetig differenzierbar. Hier ist gemeint, dass die partiell totale Ableitung ∂(y,z) F stetig auf D sein soll. Daraus folgt natürlich die in Satz 59 geforderte lokale LipschitzStetigkeit von F bezüglich (y, z). Für den Beweis benötigen wir eine parameterabhängige Version des Lemmas von Hadamard. Lemma 11. Es seien U , V und W endlichdimensionale Vektorräume und D eine offene Teilmenge von U ×V . Die Funktion F ∈ C(D, W ) sei (k +1) Mal stetig differenzierbar nach y, und es sei D̃ = {(x, y1 , y2 ) ∈ U × V × V | [(x, y1 ), (x, y2 )] ⊆ D}. Dann gibt es eine Funktion F̃ ∈ C k (D̃, Hom(V, W )), so dass für (x, y1 , y2 ) ∈ D̃ gilt F (x, y1 ) − F (x, y2 ) = F̃ (x, y1 , y2 )(y1 − y2 ). Der Beweis ist analog zu dem von Lemma 8, wobei das Integral nun zusätzlich vom Parameter x abhängt, was aber der Anwendbarkeit von Folgerung 10 keinen Abbruch tut. Beweis von Satz 60 – Schritt 1. Zunächst möge wieder F nicht von z abhängen. Lemma 11 mit k = 0 und W = V liefert uns es eine stetige Funktion F̃ : D̃ → End(V ). Wir halten y ∗ ∈ V mit der Eigenschaft (x0 , y ∗ ) ∈ D fest und haben die maximale Lösung f ∗ = fy∗ : I ∗ → V der Differentialgleichung (18). Die Teilmenge Ũ = {(x, y0 ) ∈ R × V | (x, fy0 (x), f ∗ (x)) ∈ D̃} von U enthält die Menge I ∗ × {y ∗ } und ist nach Satz 8 offen. Durch A(x, y0 ) = F̃ (x, fy0 (x), f ∗ (x)) wird eine stetige Abbildung A : Ũ → End(V ) definiert. Wir betrachten die lineare Differentialgleichung ỹ ′ = A(x, y0 ) · ỹ 102 mit dem Parameter y0 und suchen nach Lösungen f˜ : I → End(V ), die der Anfangsbedingung f˜(x0 ) = idV genügen. Für jedes kompakte Intervall I ⊂ I ∗ existiert eine Umgebung ŨI von y ∗ in V , so dass I × ŨI ⊆ Ũ . Nach Folgerung 13 existiert für jeden Parameter y0 ∈ ŨI eine Lösung f˜y0 : I → End(V ), und nach Satz 59 ist die resultierende Funktion f˜ : I × ŨI → End(V ) stetig. Es gilt einerseits f˜y′ 0 (x)(y0 − y ∗ ) = F̃ (x, fy0 (x), f ∗ (x))f˜y0 (x)(y0 − y ∗ ) und andererseits fy′ 0 (x) − f ∗ ′ (x) = F (x, fy0 (x)) − F (x, f ∗ (x)) = F̃ (x, fy0 (x), f ∗ (x))(fy0 (x) − f ∗ (x)). Mit der Eindeutigkeitsaussage von Satz 48 folgt fy0 (x) − f ∗ (x) = f˜y0 (x)(y0 − y ∗ ), weil beide Seiten an der Stelle x0 den selben Wert y0 − y ∗ haben. Dies zeigt, dass f an jeder Stelle von I×{y ∗ } nach y0 stetig differenzierbar ist und dass an dieser Stelle gilt ∂y0 f = f˜. Letzteres bedeutet wegen F̃ (x, y, y) = ∂y F (x, y), dass ∂x ∂y0 f (x, y ∗ ) = ∂y F (x, f (x, y ∗ ))∂y0 f (x, y ∗ ). Da y ∗ und I ⊂ I ∗ beliebig waren, folgt dies an jeder Stelle von U . Schritt 2. Diesmal sei A(x, y0 ) = ∂y F (x, fy0 (x)), was eine stetige Abbildung A : U → End(V ) definiert. Wir betrachten die lineare Differentialgleichung (genannt Variationsgleichung) ỹ ′ = A(x, y0 ) · ỹ mit dem Parameter y0 und suchen nach Lösungen f˜ : I → End(V ), die der Anfangsbedingung f˜(x0 ) = idV genügen. Für festes y ∗ und jedes kompakte Teilintervall I ⊆ I ∗ gibt es eine Umgebung UI von y ∗ in V , so dass I × UI ⊆ U . Nach Folgerung 13 existiert für jeden Parameter y0 ∈ UI eine Lösung f˜y0 : I → End(V ), und nach Satz 59 ist die resultierende Abbildung f˜ : I ×UI → End(V ) stetig. Wie wir am Ende 103 von Schritt 1 gesehen haben, ist auch ∂y0 f eine Lösung, die an der Stelle x0 den Wert idV hat. Mit der Eindeutigkeitsaussage von Satz 48 folgt ∂y0 f = f˜, also ist f auf I × UI nach y ∗ stetig differenzierbar. Da y ∗ und I beliebig waren, folgt dies auf ganz U . Schritt 3. Wie im Beweis von Satz 59 führt man den Fall, dass F zusätzlich von Parametern z abhängt, auf den bereits behandelten Fall zurück. Damit folgt die stetige Differenzierbarkeit der Lösung f nach (y0 , z). Da F (x, fy0 ,z (x), z) stetig von (x, y, z) ∈ U abhängt, folgt aus der Differentialgleichung (18) die stetige Differenzierbarkeit von f nach x und mit Folgerung 7 die stetige Differenzierbarkeit nach der Gesamtheit der Variablen. Es gibt auch eine Version für höhere Ableitungen. Satz 61. Die Funktion F in der Situation von Satz 59 sei (k − 1) Mal nach x und k Mal nach (y, z) stetig differenzierbar, wobei k ≥ 1. Dann ist f ∈ C k (U ). Beweis. Wir benutzen vollständige Induktion nach k. Der Induktionsanfang wurde in Satz 60 erledigt. Angenommen, die Behauptung gilt für die Zahl k, und F sei nun k Mal stetig differenzierbar nach x und (k +1) Mal stetig differenzierbar nach (y, z). Wir betrachten wieder zunächst den Fall, dass F nicht von z abhängt. Erst einmal ist laut Induktionsvoraussetzung f ∈ C k (U ). Die Funktion F (x, fy0 (x)) ist also nach Satz 35 k Mal stetig differenzierbar, und f ist als Lösung der Differentialgleichung (18) (k + 1) Mal stetig differenzierbar nach x. Wie wir im Beweis von Satz 60 gesehen haben, ist die Ableitung ∂y0 f eine Lösung der Differentialgleichung y ′ = A(x, y0 ) · y, wobei A(x, y0 ) = ∂y F (x, f (x, y0 )) laut Satz 35 nun k Mal stetig differenzierbar auf U ist. Die Lösung ∂y0 f ist laut Induktionsvoraussetzung k Mal stetig differenzierbar, also ist f selbst (k + 1) Mal stetig differenzierbar nach y0 . Mit Satz 7 folgt die k-malige Differenzierbarkeit nach (x, y0 ). Den Fall der Abhängigkeit von Parametern z führt man wie im Beweis von Satz 59 auf den bereits behandelten Fall zurück. Im Beweis von Satz 59 haben wir für eine Differentialgleichung ohne Parameter den Lösungsoperator Gxx0 : Vxx0 → V durch die Festlegung Gxx0 (y0 ) = fy0 (x) definiert, wobei die Menge Vxx0 = {y0 ∈ V | x ∈ Iy0 } 104 als Bild von U ∩ {x1 } × V unter der Projektion {x1 } × V → V offen ist. Man kann Anfangsbedingungen an einer beliebigen Stelle x1 stellen und erhält analog Gxx1 . Dann ist Gxx00 = id, und auf (Gxx10 )−1 (Vxx12 ) ⊆ Vxx02 gilt Gxx21 ◦ Gxx10 = Gxx20 . Folgerung 19. In der Situation von Satz 61 ist der Lösungsoperator Gxx10 ein Diffeomorphismus der Klasse C k von Vxx01 auf Vxx10 . Aus Satz 61 folgt nämlich Gxx10 ∈ C k (Vxx01 , V ), und aus der Eindeutigkeitsaussage von Satz 48 folgt Gxx10 (Vxx01 ) = Vxx10 , so dass Gxx01 die Umkehrabbildung von Gxx10 ist. 6 Untermannigfaltigkeiten affiner Räume 6.1 Untermannigfaltigkeiten und Tangentialvektoren Wir wollen nun die Struktur der Lösungen nichtlinearer Gleichungen näher untersuchen. Dieses Thema schließt direkt an Kapitel 4 an. Den natürlichen Rahmen für unsere Betrachtungen bieten die in Definition 27 eingeführten affine Räume. Wir erinnern daran, dass zu jedem affinen Raum A ein Vektorraum U von Translationen gehört. Unter der Dimension von A verstehen wir die Dimension von U . Indem man Translationen auf einen festen Punkt a anwendet, erhält man eine bijektive Abbildung U → A, wobei die Umkehrabbildung einem Punkt x seinen Ortsvektor − → zuordnet. Aus diesem Grund werden affine Räume oft etwas stiefmütterlich behandelt. ax Wir gehen einen Kompromiss ein und schreiben das Ergebnis der Anwendung einer Trans→ als x − a. Wer will, kann dann den lation u auf einen Punkt a als a + u und den Vektor − ax Begriff des affinen Raumes ignorieren und einfach A = U setzen. Man kann affine Räume über jedem Körper K definieren. Für uns wird K = R oder K = C sein. In diesem Fall haben wir in Definition 27 auch den Begriff der Differenzierbarkeit von Abbildungen f : D → B definiert, wobei A und B affine Räume sind und D eine offene Teilmenge von A ist. Die Ableitung an einer Stelle a ist dann eine lineare Abbildung f ′ (a) : U → V , wobei V der Vektorraum der Translationen von B ist. Definition 34. Es seien A, B und C affine Räume und U , V bzw. W die zugehörigen Vektorräume von Translationen, und es seien D ⊆ A und E ⊆ B offene Teilmengen. (i) Eine differenzierbare Abbildung f : D → B heißt Immersion, wenn an jeder Stelle x ∈ D die Ableitung f ′ (x) : U → V injektiv ist. (ii) Eine differenzierbare Abbildung g : E → C heißt Submersion, wenn an jeder Stelle x ∈ E die Ableitung g ′ (x) : V → W surjektiv ist. Beispiel. Wir betrachten die durch f (t) = 1 − t2 (1 + t, 1 − t), 1 + 3t2 105 g(x, y) = x3 + y 3 − 2xy definierten differenzierbaren Abbildungen f : R → R2 und g : R2 → R. Die Abbildung f ist eine Immersion. Die Abbildung g ist zwar keine Submersion, aber ihre Einschränkung auf E = R2 \ {(0, 0)} schon. Man kann nachrechnen, dass für alle t gilt g(f (t)) = 0. Mehr noch, setzen wir u(x, y) = x−y x+y für x + y 6= 0, so ist u die Umkehrabbildung der Einschränkung von f auf R \ {−1}. Bezeichnen wir also die Lösungsmenge der Gleichung g(x, y) = 0 mit M , so gilt f (R) = M . Dies war bereits René Decartes bekannt, und man bezeichnet die Kurve“ M als ” Kartesisches Blatt. Sie überschneidet sich im Koordinatenursprung selbst. √ Man kan übrigens auch K = C zulassen, dann ist allerdings f an den Stellen ±i/ 3 nicht definiert. ⊳ Beispiel. Die durch ( (t2 , 0) wenn t ≥ 0, f (t) = (0, t2 ) wenn t ≤ 0. definierte differenzierbare Abbildung f : R → R2 ist keine Immersion, aber ihre Einschränkung auf D = R \ {0} schon. Das Bild (der Wertebereich) hat an der Stelle f (0) einen Knick“. ⊳ ” Wir wollen exakt definieren, was Kurven“ und Flächen“ ohne Selbstüberschneidun” ” ” gen“ und Knicke“ sind. ” Satz 62. Es sei M eine Teilmenge eines affinen Raumes B, k ≥ 1 eine natürliche Zahl und b ∈ M . Folgende Bedingungen sind äquivalent: (i) Es gibt eine offene Teilmenge D eines affinen Raumes A und eine Immersion f ∈ C k (D, B), so dass f (D) eine Umgebung von b in M ist und die Beschränkung von f auf f (D) ein Homöomorphismus D → f (D) ist. (ii) Es gibt eine Umgebung E von b in B, eine Submersion g ∈ C k (E, C) und einen Punkt c ∈ C, so dass M ∩ E = g −1 (c). (iii) Es gibt eine Zerlegung V = V1 + V2 in eine direkte Summe und Umgebungen E1 und E von b in B1 = b + V1 bzw. E, so dass M ∩ E der Graph einer Abbildung h ∈ C k (E1 , V2 ) ist. Ist eines der drei Objekte f , g, h gegeben, dann kann man die anderen so wählen, dass dim A = dim B − dim C = dim B1 . Beweis. In der Situation von Aussage (iii) benutzen wir die Bezeichnungen p1 : B → B1 und p2 : B → V2 für die natürlichen Projektionen. (i)⇒(iii): Es sei {a} = f −1 (b) und V1 = f ′ (a)V . Dann gibt es einen Unterraum V2 von V , so dass die lineare Abbildung V1 × V2 → V , (v1 , v2 ) 7→ v1 + v2 , ein Isomorphismus ist. Es sei B1 = b + V1 und p1 : B → B1 die Projektion längs V2 . Dann ist p′1 (x) : V → V1 für alle x ∈ B die Projektion längs V2 , und (p1 ◦ f )′ (a) = p′1 (b)f ′ (a) ist invertierbar. Nach Satz 42 gibt es eine Umgebung D′ von a in D und eine Umgebung E1 von b in B1 , so dass p1 ◦ f |D′ eine Umkehrabbildung u ∈ C k (E1 , V ) besitzt. Da f (D) |f ein Homöomorphismus ist, ist f (D′ ) offen in M , und nach Satz 5 gibt es eine offene Teilmenge E von B, so dass f (D′ ) = M ∩ E. Wir setzen h(y1 ) = f (u(y1 )) − y1 für y1 ∈ E1 . Dann ist p1 (h(y1 )) = y1 − y1 = 0, und wir erhalten eine Abbildung h ∈ C k (E1 , V2 ). 106 Ist y ∈ M ∩ E, so ist y = f (x) für ein x ∈ D′ , und setzen wir y1 = p1 (y) ∈ E1 , so folgt u(y1 ) = u(p1 (f (x))) = x, y1 + h(y1 ) = f (x), also y im Graphen von h. Ist umgekehrt y1 ∈ E1 und y = y1 + h(y1 ), so liegt x = u(y1 ) in D′ , und y = f (u(y1 )) = f (x), also y ∈ M ∩ E. (iii)⇒(i): Man setze A = V1 , D = E1 und f (v1 ) = v1 + h(v1 ). Für x ∈ D und v1 ∈ V1 gilt p′1 (f (x))f ′ (x)v1 = (p1 ◦ f )′ (x)v1 = v1 , also ist f ′ (x) injektiv. Die Abbildung p1 schränkt sich zu einer stetigen Umkehrabbildung von M ∩E |f ein. (ii)⇒(iii)15 : Es sei V1 = Ker g ′ (b) und V2 wie oben ein komplementärer Unterraum. Dann ist g ′ (b)|V2 umkehrbar, und nach Satz 43 gibt es Umgebungen E1 von b in B1 = b+V1 und E2 von 0 in V2 , so dass M ∩ (E1 + E2 ) der Graph einer Funktion h ∈ C k (E1 , V2 ) ist. Man setze E = E1 + E2 . (iii)⇒(ii): Durch g(y) = h(p1 (y)) − p2 (y) wird eine Abbildung g ∈ C k (E, V2 ) definiert. Offensichtlich ist genau dann g(y) = 0, wenn y im Graphen von h liegt. Für v2 ∈ V2 ist h′ (y)v2 = v2 , also ist h′ (y) surjektiv. Definition 35. Eine Teilmenge M eines affinen Raumes B heißt Untermannigfaltigkeit der Klasse C k , wenn für jeden Punkt b ∈ M die drei äquivalenten Bedingungen aus Satz 62 erfüllt sind. Die Abbildungen f in (i) heißen Karten von M . Eine Familie von Karten f : D → M , für die die Mengen f (D) eine Überdeckung von M bilden, heißt Atlas von M . Beispiel. Ist M das Kartesische Blatt, so ist M \{(0, 0)} eine Untermannigfaltigkeit von R2 der Klasse C ∞ , weil jeder Punkt die Eigenschaft (iii) hat. ⊳ Beispiel. Auf E = Rn \ {0} wird durch g(x) = x21 + . . . + x2n eine Submersion g ∈ C ∞ (E, R) definiert, also ist S = g −1 (0) eine Untermannigfaltigkeit von Rn der Klasse C ∞ , genannt Einheitssphäre. Eine Funktion wie in (ii) ist durch q h(x1 , . . . , xn−1 ) = x21 + . . . + x2n−1 gegeben. Es gibt auch andere Karten, z. B. im Fall n = 3 f (s, t) = (cos s cos t, sin s cos t, sin s), wobei die offene Teilmenge D ⊂ R × − π2 , π2 so zu wählen ist, dass f injektiv ist. (Die Werte von s und t entsprechen der geographischen Länge bzw. Breite.) ⊳ Beispiel. Sind M und N Untermannigfaltikeiten von B bzw. C der Klasse C k , so ist M × N eine Untermannigfaltigkeit von B × C der Klasse C k . Sind nämlich f1 : D1 → M und f2 : D2 → N Karten von M bzw. N , so wird durch f (x1 , x2 ) = (f1 (x1 ), f2 (x2 )) eine Karte f : D1 × D2 → M × N definiert. ⊳ Beispiel. Ist M eine Untermannigfaltigkeit von B der Klasse C k und N eine offene Teilmenge von M , so ist auch N eine Untermannigfaltigkeit von B der Klasse C k . Für jede Karte f : D → M von M ist nämlich die Einschränkung von f auf f −1 (N ) eine Karte von N . ⊳ 15 Dieser Teil ist im Wesentlichen bereits im Beweis von Satz 44 enthalten. 107 Folgerung 20. Sind f und g wie in Satz 62, wobei f (a) = b, so gilt f ′ (a)U = Ker g ′ (b). Beweis. Für alle x ∈ D ist g(f (x)) = c, also g ′ (b)f ′ (a) = 0 und somit f ′ (a)U ⊆ Ker g ′ (b). Insbesondere ist dim f ′ (a)U ≤ dim Ker g ′ (b). Wegen der Injektivität von f ′ (a) ist dim f ′ (a)U = dim A, und wegen der Surjektivität von g ′ (b) ist dim Ker g ′ (b) = dim B − dim C. Die letzte Aussage von Satz 62 bedeutet also, dass wir eine Submersion g̃ wie in Aussage (ii) mit der Eigenschaft dim f ′ (a)U = dim Ker g̃ ′ (b) und eine Immersion f˜ wie in (i) mit der Eigenschaft dim f˜′ (a)U = dim Ker g ′ (b) wählen können. Wenden wir das Bewiesene auf f˜ und g̃ an, so folgt dim f˜′ (a)U ≤ dim Ker g̃ ′ (b), also gilt überall Gleichheit. Definition 36. Der Vektorraum aus Folgerung 20 heißt Tangentialraum an M im Punkt b, abgekürzt Tb (M ), und seine Dimension heißt Dimension von M an der Stelle b, abgekürzt dimb M . Die Elemente von Tb (M ) heißen Tangentialvektoren an M im Punkt b. Sind f1 : D1 → M und f2 : D2 → M Karten von M , so dass f1 (a1 ) = f2 (a2 ) = b, so zeigt Folgerung 20, dass f1′ (a1 )U1 = f2′ (a2 )U2 . Analog sieht man, dass Ker g ′ (b) nicht von der Wahl von g abhängt. Folgerung 21. Ist M eine zusammenhängende Untermannigfaltigkeit von B, so hängt dimb M nicht von b ab (und wird mit dim M bezeichnet). Die Dimension ist ja auf jeder Karte konstant, so dass die Menge Mn = {y ∈ M | dimy M = n} offen im metrischen Raum M ist. Ihr Komplement ist die Vereinigung der Mengen Ml mit l 6= n, also ebenfalls offen. Definition 37. Es sei M eine Untermannigfaltigkeit der Klasse C k des affinen Raumes B und C ein weiterer affiner Raum. Wir sagen, dass eine Abbildung g : M → C von der Klasse C k ist, abgekürzt g ∈ C k (M, C), wenn für jede Karte f : D → M gilt g ◦ f ∈ C k (D, C). Im Fall k ≥ 1 definieren wir g ′ (b) ∈ Hom(Tb (M ), W ) durch g ′ (b)v = (g ◦ f )′ (a)u, falls b = f (a) und v = f ′ (a)u. Es ist natürlich nicht praktikabel, eine Bedingung für alle Karten nachzuprüfen. Der folgende Satz zeigt, dass es genügt, dies für die Karten eines Atlasses zu tun. Satz 63. Es sei M eine Untermannigfaltigkeit von B der Klasse C k mit Karten f1 ∈ C k (D1 , B) und f2 ∈ C k (D2 , B). Wir definieren eine Abbildung f1,2 : f1−1 (f2 (D2 )) → f2−1 (f1 (D1 )) durch f1,2 (x1 ) = f2−1 (f1 (x1 )). Dann ist f1,2 ein Diffeomorphismus der Klasse C k . Beweis. Es genügt, zu zeigen, dass f1,2 von der Klasse C k ist, weil das Selbe dann analog für die Umkehrabbildung f2,1 gilt. Die Differenzierbarkeit braucht nur in einer Umgebung eines beliebigen Punktes a1 geprüft zu werden. Gilt sie für f1,2 in einer Umgebung von a1 und für f2,3 in einer Umgebung von a2 , wobei f1 (a1 ) = f2 (a2 ) = b ∈ f3 (D3 ), so gilt sie nach Satz 35 auch für f1,3 in einer Umgebung von a1 . Wir können also weiter annehmen, dass eine der beiden Karten von der Form f2 (y1 ) = y1 + h(y1 ) ist, wobei h : B1 → V2 wie in Aussage (iii) von Satz 62 ist. In diesem Fall ist f1,2 als Einschränkung von p1 ◦ f1 offensichtlich von der Klasse C k . 108 Wir sehen jetzt auch, dass die Definition der Ableitung einer Abbildung g : M → C korrekt ist, weil sie nicht von der Wahl der Karte abhängt. Sind nämlich f1 und f2 Karten, wobei f1 (a1 ) = f2 (a2 ) = b, und sind u1 ∈ U1 und u2 ∈ U2 Vektoren, so dass f1′ (a1 )u1 = f2′ (a2 )u2 = v, so gilt nach Satz 34 ′ f2′ (a2 )f1,2 (a1 )u1 = f1′ (a1 )u1 = v, ′ also u2 = f1,2 (a1 )u1 und somit (g ◦ f2 )′ (a2 )u2 = (g ◦ f2 ◦ f1,2 )′ (a1 )u1 = (g ◦ f1 )′ (a1 )u1 . Man kann übrigens nachprüfen, dass Definition 25 auch für Abbildungen M → C sinngemäß gilt. Nun werden wir ein Kriterium für lokale Extrema von differenzierbaren Funktionen g auf einer Untermannigfaltigkeit M angeben, bei dem im Unterschied zu Satz 44 die Funktion g nicht in einer Umgebung von M definiert sein muss. Satz 64. Es sei M eine Untermannigfaltigkeit eines affinen Raumes und g ∈ C 1 (M, R). Hat g an der Stelle b ∈ M ein lokales Extremum, so ist b ein stationärer Punkt von g, d. h. g ′ (b) = 0. Dazu wählt man einfach eine Karte f : D → M , so dass b = f (a) für einen Punkt a ∈ D, und wendet Satz 39 auf die Funktion g ◦ f an, die an der Stelle a ein lokales Extremum hat. Wir können nun einen Begriff einführen, den wir im nächsten Abschnitt benötigen. Definition 38. Es seien M und N Umtermannigfaltigkeiten der Klasse C k von affinen Räumen B bzw. C. Eine Abbildung g : M → N heißt Diffeomorphismus der Klasse C k , wenn g eine Umkehrabbildung h : N → M hat und wenn g ∈ C k (M, C) und h ∈ C k (N, B) gilt. Beispiel. Ist S eine Kreislinie vom Radius R im dreidimensionalen Raum und N die Oberfläche der r-Umgebung von S, wobei r < R ist, so nennt man N einen Torus. Eine definierende Gleichung wäre z. B. p ( x2 + y 2 − R)2 + z 2 = r2 . oder (x2 + y 2 + z 2 + R2 − r2 )2 = 4R2 (x2 + y 2 ). Dies ist eine Mannigfaltigkeit, die zu S × S diffeomorph ist. 6.2 ⊳ Vektorfelder und Flüsse In der Physik kommen verschiedenartige Felder vor. Eines der einfachsten ist das Vektorfeld. Ist z. B. B ein affiner Raum und V der zugehörige Vektorraum der Translationen, so ist ein Vektorfeld auf einer offenen Teilmenge E von B einfach eine stetige Abbildung X : E → V . Wir können dann die Differentialgleichung y ′ = X(y) betrachten, deren Lösungen g : I → B man Integralkurven des Vektorfeldes nennt, wobei man I als Zeitintervall interpretiert. Wir wollen diesen Begriff verallgemeinern. 109 Definition 39. Es sei M eine Untermannigfaltigkeit der Klasse C k des affinen Raumes B mit dem Raum der Translationen V und l < k. (i) Ein Vektorfeld der Klasse C l auf M ist eine Abbildung X ∈ C l (M, V ), so dass für alle Punkte y von M gilt X(y) ∈ Ty (M ). (ii) Eine Abbildung g von einem Intervall I in M heißt Integralkurve des Vektorfeldes X, wenn g ∈ C 1 (I, B) ist und für alle t ∈ I gilt g ′ (t) = X(g(t)). Man beachte, dass die rechte Seite nicht von t abhängt, so dass für eine Integralkurve g auch g(t − t0 ) eine Integralkurve ist. Es bedeutet also keine Einschränkung, wenn wir Anfangsbedingungen nur an der Stelle t = 0 stellen. Wir können nun unsere Sätze über gewöhnliche Differentialgleichungen erster Ordnung auf Vektorfelder übertragen. Satz 65. Es sei X ein lokal Lipschitz-stetiges Vektorfeld auf der Untermannigfaltigkeit M des affinen Raumes B. (i) Für jeden Punkt y0 ∈ M gibt es eine Integralkurve g : I → M , die der Anfangsbedingung g(0) = y0 genügt. (ii) Zwei Integralkurven mit dem selben Anfangswert stimmen auf dem Durchschnitt ihrer Definitionsbereiche überein. (iii) Ist gy0 : Iy0 → M eine maximale Integralkurve, so ist ihr Graph abgeschlossen in R × M . (iv) Die Menge U = {(t, y0 ) ∈ R × M | t ∈ Iy0 } ist offen, und durch g(t, y0 ) = gy0 (t) wird eine stetige Abbildung g : U → R × M definiert. (v) Ist X von der Klasse C l , so ist g ∈ C l (U, B). Beweis. Es sei f : D → M eine Karte der Klasse C k mit f (x0 ) = y0 . Wir wählen eine Zerlegung V = V1 + V2 von V wie in Satz 62(iii), wobei V1 = Ty0 (M ), und betrachten wieder die Projektion p1 : B → B1 = b+V1 . Laut damaligem Beweis gibt es eine Umgebung E1 von y0 in B1 und eine Umgebung D′ von x0 in D, so dass die Einschränkung von p1 ◦ f auf D′ eine Umkehrabbildung u ∈ C k (E1 , U ) hat. Es folgt, dass f ′ (x)−1 = u′ (p1 (f (x))) ◦ p′1 (y0 ) ∈ Hom(Tf (x) , U ), wobei die rechte Seite in C k−1 (D′ , Hom(V, U )) ist. Wir setzen F (x) = f ′ (x)−1 X(f (x)). Da wir x0 beliebig wählen konnten, ist F lokal Lipschitz-stetig auf D. Ist h : I → D eine Lösung der Differentialgleichung x′ = F (x) mit dem Anfangswert h(0) = x0 und setzen wir g(t) = f (h(t)), so gilt g ′ (t) = f ′ (h(t))h′ (t) = f ′ (h(t))F (h(t)) = X(g(t)), 110 (19) also ist g : I → M eine Integralkurve von X, und es gilt g(0) = y0 . Ist umgekehrt g : I → f (D) eine Integralkurve mit dem Anfangswert g(0) = y0 und setzen wir h(t) = f −1 (g(t)), so gilt h(t) = u(p1 (g(t))) für t ∈ h−1 (f (D′ )), so dass g differenzierbar ist, und f ′ (h(t))h′ (t) = g ′ (t) = X(g(t)) = f ′ (t)F (h(t)). Wegen der Injektivität von f ′ (x) für x ∈ D folgt, dass h eine Lösung der Differentialgleichung (19) mit dem Anfangswert h(0) = x0 ist. Aus Satz 47 folgt nun Aussage (i) sowie eine Vorstufe von Aussage (ii): Zwei Integralkurven mit dem selben Anfangswert für t = 0 stimmen in einer Umgebung von 0 überein. Den Beweis von Satz 48 liefert einen Beweis von Aussage (ii), wenn wir überall V durch M ersetzen. Damit sind maximale Lösungen definiert, und aus Satz 58 erhalten wir als lokale Version von Aussage (iv), dass g in einer Umgebung von (0, y0 ) definiert und stetig ist. Aus Satz 60 und 61 folgt ebenso eine lokale Version von Aussage (v). Für Aussage (iii) bzw. für die globalen Versionen der übrigen Aussagen übertragen wir die Beweise von Satz 49 bzw. 59, indem wir überall V durch M ersetzen. Definition 40. Ein Vektorfeld auf einer Untermannigfaltigkeit eines affinene Raumes heißt vollständig, wenn jede maximale Lösung auf ganz R definiert ist. Dies bedeutet also in den Bezeichnungen des Satzes, dass U = R × M . Folgerung 22. Ist M kompakt, so ist jedes Vektorfeld auf M vollständig. Für jedes beschränkte Intervall I ist nämlich B × M abgeschlossen und beschränkt in R × V , also kompakt, und die Behauptung folgt aus Satz 65(iii) wie im Beweis von Folgerung 12. Definition 41. Ein Fluss der Klasse C l auf einer Untermannigfaltigkeit M der Klasse C l eines affinen Raumes B ist eine Abbildung G : R×M → M , so dass G, ∂x G ∈ C l (R×M, B) ist und mit der Bezeichnung Gt (y) = G(t, y) für alle s, t ∈ R gilt G0 = idM , Gs ◦ Gt = Gs+t . Natürlich ist dann Gt ∈ C l (M, B). Da dies auch für die Umkehrabbildung G−t gilt, ist Gt für jedes t ein Diffeomorphismus der Klasse C l . Folgerung 23. Es sei M eine Untermannigfaltigkeit der Klasse C k eines affinen Raumes und l < k. (i) Ist G ein Fluss der Klasse C l auf M und setzen wir X(y0 ) = ∂t G(0, y0 ), so ist X ein Vektorfeld der Klasse C l . (ii) Ist X ein vollständiges Vektorfeld der Klasse C l und setzen wir G(t, y0 ) = gy0 (t), so ist G ein Fluss der Klasse C l . Die Zuordnungen in (i) und (ii) sind zueinander invers. 111 Aussage (i) ist offensichtlich. Die Differenzierbarkeitsaussage in (ii) folgt aus Satz 65(v), und die Flusseigenschaft ergibt sich aus der Tatsache, dass wegen Satz 65(ii) gilt gy0 (s) = y1 , gy1 (t) = y2 =⇒ gy0 (s + t) = y2 . Die letzte Aussage folgt aus der Definition von Integralkurven. Man könnte auch zeitabhängige Vektorfelder X betrachten, die auf einer offenen Teilmenge E von R × M definiert sind. Dies lässt sich allerdings auf den bereits behandelten Fall zurückführen. Ist nämlich g eine Integralkurve von X, d. h. g ′ (t) = X(t, g(t)), so ist g̃(t) = (t, g(t)) eine Integralkurve des zeitunabhängigen Vektorfeldes X̃(t, y) = (1, X(t, y)) auf der Mannigfaltigkeit E. 112