Skript zur Vorlesung Analysis 2 Sommersemester 2013 Prof. Dr. Benjamin Schlein Inhaltsverzeichnis 1 Fourier-Reihen 2 2 Gewöhnliche Differentialgleichungen 2.1 Differentialgleichungen erster Ordnung, elementare Lösungsmethoden . 2.2 Existenz und Eindeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Differentialgleichungen höherer Ordnung . . . . . . . . . . . . . . . . . 2.4 Lineare Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . 2.5 Lineare Differentialgleichungen mit konstanten Koeffizienten . . . . . . 2.6 Grundlagen der Stabilitätstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 11 15 21 22 26 34 3 Differentialrechnung in mehreren Veränderlichen 3.1 Definition der Ableitung für Funktionen auf Rn . . . . . . 3.2 Mittelwertsatz . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Höhere Ableitungen, Taylor Entwicklung, lokale Extrema 3.4 Umkehrabbildung und Satz über implizite Funktionen . . 3.5 Mannigfaltigkeiten in Rn . . . . . . . . . . . . . . . . . . . 3.6 Extrema mit Nebenbedingungen . . . . . . . . . . . . . . 3.7 Integrale, die von einem Parameter abhängen. . . . . . . . 3.8 Konservative Vektorfelder . . . . . . . . . . . . . . . . . . 3.9 Holomorphe Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 38 49 51 59 66 72 77 81 91 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Fourier-Reihen Wir betrachten in diesem Kapitel periodische Funktionen. Eine Funktion f : R → C heisst periodisch, mit Periode T > 0, falls f (t + T ) = f (t) für alle t ∈ [0; T ). Jede auf [0; T ) definierte Funktion f kann durch die Definition f (t + kT ) := f (t) für alle k ∈ Z, und alle t ∈ [0; T ) periodisch fortgesetzt werden. eit . Ein wichtiges Beispiel einer periodischen Funktion ist die Exponentialfunktion f (t) = f hat die Periode T = 2π, weil ei(t+2π) = eit e2πi = eit für alle t ∈ [0; 2π). T = 2π ist die Fundamentalperiode der Funktion f , d.h. es existiert keine Periode Te > 0 mit Te < T . Für j ∈ Z ist die Funktion f (t) = eijt auch periodisch. Die Fundamentalperiode von f (t) = eijt ist 2π/|j|. T = 2π ist auch eine Periode von f (t) = eijt , für alle j ∈ Z. In der Tat eij(t+2π) = eijt e2πij = eijt für alle j ∈ Z. {eijt }j∈Z ist damit eine unendliche Familie von 2π-periodischen Funktionen. Analog, für ein beliebiges L > 0, ist {eijt/L }j∈Z eine unendliche Familie von Funktionen mit Periode T = 2π/L. Lemma 1.1. Seien j, k ∈ Z. Dann gilt Z 2π 2π falls j = k eikx e−ijx dx = 0 sonst 0 Bemerkung (aus Analysis 1): eine C-wertige Funktion f : [a; b] → C ist integrierbar, falls Re f und Im f integrierbar sind. In diesem Fall definieren wir Z b b Z f dx = a Z b Re f (x)dx + a Im f (x)dx a Beweis: Wir haben eikx e−ijx = ei(k−j)x = cos((k − j)x) + i sin((k − j)x). Für k 6= j gilt Z 2π cos((k − j)x) dx = 0 1 (sin(2π(k − j)) − sin(0)) = 0 k−j und analog, Z 2π sin((k − j)x) dx = 0 0 Dagegen, für k = j ist ei(k−j)x = 1 und Z 2π ei(k−j)x dx = 2π 0 2 Definition 1.2. Sei f : R → C eine 2π-periodische Funktion, auf [0; 2π] integrierbar. Für ein beliebiges j ∈ Z ist dann die Funktion e−ijx f (x) auch 2π-periodisch und auf [0; 2π] integrierbar. Wir definieren den j-ten Fourierkoeffizienten von f durch Z 2π 1 b f (j) = f (x)e−ijx dx 2π 0 Weiter, für N ∈ N, definieren wir die N -te Fourier Partialsumme (FN f )(x) = N X fb(j) eijx j=−N Konvergiert die Folge (FN f )(x) für N → ∞, dann wird der Grenzwert durch (Ff )(x) = ∞ X fb(j)eijx = lim (FN f )(x) N →∞ j=−∞ bezeichnet. (Ff ) wird die Fourier-Reihe von f genannt. Wir werden sehen, dass unter geeigneter Annahme der Funktion f , die Fourier-Reihe von f mit f übereinstimmt; die Fourier-Reihe gibt also eine nützliche Darstellung von periodischen Funktionen als Limes von Linearkombinationen von den Funktionen eijx (ähnlich wie die Taylorreihe eine nützliche Darstellung von analytischen Funktionen gibt). Um zu zeigen, dass Ff = f gilt, brauchen wir das folgende Lemma. Lemma 1.3 (Lemma von Riemann-Lebesgue). Sei f : [a; b] → C integrierbar. Dann gilt Z b lim e±ikx f (x)dx = 0 k→∞ a Bemerkung: Die Idee hinter dem Lemma von Riemann-Lebesgue Rist die folgende: Die Funktion eikx hat (Fundamental-) Periode 2π/k. Deswegen gilt I eikx dx = 0 für jedes Intervall der Länge 2π/k. Wenn wir annehmen können, R dass f auf diesen kleinen Intervallen näherungsweise konstant ist, dann muss auch I f (x)eikx dx näherungsweise verschwinden. Da wir [a; b] in kleine Intervalle der Länge (2π)/k zerlegen können, muss Rb auch das Integral a f (x)eikx dx klein sein. Wenn man eine reguläre Funktion f betrachtet, dann kann man die Aussage des Riemann-Lebesgue Lemmas verfeinern. Ist f m-Mal differenzierbar, dann existiert eine Konstante Cm mit Z b ikx f (x)e dx ≤ Cm |k|−m a Wir werden zurück zur Beziehung zwischen Regularität und Abfall von oszillierenden Integralen in den Übungen kommen. Beweis: O.B.d.A. betrachten wir eine reelwertige Funktion f : [a; b] → R. Sei ε > 0 fest gewählt. Aus Analysis 1 (Proposition 9.3) existiert eine Teilung T = {a = x0 < x1 < · · · < xn = b} von [a; b], mit Z b ε S(T ) − ≤ f (x)dx ≤ S(T ) 2 a 3 D.h. es existieren hj = supx∈[xj−1 ;xj ] f (xj ), mit n X j=1 ε hj (xj − xj−1 ) − ≤ 2 b Z f (x)dx ≤ a n X hj (xj − xj−1 ) j=1 Mit anderen Worten, für beliebige ε > 0 existiert eine Treppenfunktion g(x) := n X hj 1[xj−1 ;xj ) (x) j=1 auf [a; b] mit g(x) ≥ f (x) für alle x ∈ [a; b] und Z b Z b (g(x) − f (x)) ≤ ε/2 |g(x) − f (x)|dx = (1) a a Hier benutzen wir die Notation 1I (x) für die charakteristische Funktion des Intervalls I, definiert durch 1I (x) = 1, falls x ∈ I und 1I (x) = 0, falls x 6∈ I. Nun bemerken wir, dass Z b g(x)eikx dx = a n X j=1 und damit Z hj a b 1[xj−1 ;xj ] (x)eikx = n X Z xj hj eikx dx = xj−1 j=1 n X hj j=1 eikxj − eikxj−1 ik Z b n X ikx ≤ 2 g(x)e dx |hj | → 0 |k| a j=1 für k → ∞ (oder k → −∞). Also existiert K > 0 gross genug, mit Z b ε ikx g(x)e dx ≤ 2 a für alle k > K. Aus (1) bekommen wir Z b Z b Z b ikx ikx ikx f (x)e dx ≤ (f (x) − g(x))e dx + g(x)e dx a a a Z b Z b ikx ≤ |f (x) − g(x)|dx + g(x)e dx a a ≤ε Satz 1.4. Sei f : R → C (2π)-periodisch und differenzierbar. Dann gilt lim (FN f ) (x) = f (x) N →∞ für alle x ∈ [0; 2π]. 4 Beweis: Es gilt FN f (x) = N X k=−N 1 fb(k)eikx = 2π Z 2π dtf (t) 0 N X eik(x−t) k=−N Aus Lemma 1.1 gilt 2π Z 1 f (x) = 2π dtf (x) 0 N X eik(x−t) k=−N Damit 1 FN f (x) − f (x) = 2π Z 1 = 2π Z 1 2π Z = 2π dt (f (t) − f (x)) 0 N X e−ik(t−x) k=−N 2π−x ds (f (x + s) − f (x)) −x N X e−iks k=−N π ds (f (x + s) − f (x)) −π N X e−iks k=−N wobei wir die Periodizität von f und eiks im letzten Schritt benutzt haben. Wir berechnen nun N X k=−N eis(2N +1) − 1 sin(s(N + 1/2)) e−iks = e−iN s 1 + eis + · · · + e2iN s = e−iN s = is e −1 sin s/2 Damit gilt 1 FN f (x) − f (x) = 2π Wir definieren ( g(s) := Z π ds −π f (x + s) − f (x) sin((N + 1/2)s) sin s/2 f (x+s)−f (x) sin(s/2) 2f 0 (x) falls s 6= 0 falls s = 0 Da f differenzierbar ist, ist g stetig bei s = 0,weil f (x + s) − f (x) f (x + s) − f (x) s/2 = 2 lim · = 2f 0 (x) s→0 s→0 sin(s/2) s sin(s/2) lim f differenzierbar impliziert insbesondere, dass f stetig ist. Damit ist g auf [−π; π] stetig, und deswegen sicher integrierbar. Lemma 1.3 impliziert also, dass Z π Z π Z π 1 is(N +1/2) −is(N +1/2) ds g(s) sin((N + 1/2)s) = dsg(s)e − dsg(s)e →0 2i −π −π −π für N → ∞. Wir haben in Satz 1.4 die punktweise Konvergenz der Fourier-Reihe gegen f . Unter der Annahme, dass f differenzierbar ist, ist die Konvergenz eigentlich gleichmässig. Um das zu zeigen, werden wir die zwei folgenden Lemmata brauchen. 5 Lemma 1.5. Sei f ∈ C 1 (R; C) 2π-periodisch. Wie üblich bezeichnen wir mit fb(j) die Fourier Koeffizienten von f . Weiter bezeichnen wir mit fb0 (j) die Fourier Koeffizienten von f 0 . Es gilt fb0 (j) = ij fb(j) Proof. Durch partielle Integration bekommen wir Z 2π Z ij 2π 1 f (2π) − f (0) 0 −ijx 0 b f (j) = f (x)e dx = dxf (x)e−ijx = ij fb(j) + 2π 0 2π 2π 0 Lemma 1.6. Sei f : R → C 2π-periodisch. Dann gilt 2π Z |f (x) − FN f (x)|2 dx = |f (x)|2 dx − 2π 0 0 und Z 2 |FN f (x)| = 2π 0 |fb(k)|2 (2) k=−N N X 2π N X 2π Z |fb(k)|2 ≤ 2π Z |f (x)|2 (3) 0 k=−N Beweis: Wir berechnen Z 2π |f (x) − FN f (x)|2 dx = 0 N X 2π Z dx f (x) − 0 N X |f (x)|2 dx + = 0 − N X 0 dxeix(j−k) 0 − N X 0 N X 2π Z fb(k) f (x)e−ikx dx 0 k=−N |f (x)|2 dx − 2π fb(j)eijx 2π fb(j)fb(k) f (x)e−ijx 2π = j=−N Z 2π fb(j) N X f (x) − j,k=−N Z j=−N Z fb(k)e−ikx k=−N 2π Z ! |fb(j)|2 j=−N Das zeigt (2). Analog finden wir Z 2π 2 |FN f (x)| = 0 N X Z dxeix(j−k) = 2π 0 j=−N N X 2π fb(k) fb(j) |fb(j)|2 j=−N Aus (2) folgt nun (3). Satz 1.7. Sei f ∈ C 1 (R; C) 2π-periodisch. Dann konvergiert die Funktionenfolge FN f → f gleichmässig, für N → ∞. Beweis: Wir haben schon punktweise Konvergenz gezeigt, d.h. f (x) = lim FN f (x) = lim N →∞ N →∞ N X j=−N 6 fb(j)eijx = ∞ X j=−∞ fb(j)eijx . Es gilt N X N X |k fb(k)|2 = k=−N k=−N 1 |fb0 (k)|2 ≤ 2π Z 2π |f 0 (x)|2 . 0 P∞ Damit konvergiert die Summe k=−∞ |k|2 |fb(k)|2 absolut. Wir erhalten ∞ X |FN f (x) − f (x)| = fb(k)eikx + fb(−k)e−ikx ≤ ≤ k=N +1 ∞ X k=N +1 ∞ X |fb(k)| + |fb(−k)| 2 |k| ∞ X 2 2 b b |f (k)| + |f (−k)| + k=N +1 k=N +1 1 →0 |k|2 für N → ∞. Hier haben wir die Ungleichung 2 |fb(k)| ≤ |k|−2 + |k|2 |fb(k)|2 benutzt. Was können wir nun sagen über die Fourier-Reihe, falls die periodische Funktion f nicht differenzierbar ist? Im nächsten Satz zeigen wir, dass wir immer noch Konvergenz von FN f gegen f haben, aber in einem schwächeren Sinn; wir erhalten nämlich Konvergenz im Sinn von quadratischem Mittel. Satz 1.8. Sei f : R → C 2π periodisch und über [0; 2π] integrierbar. Dann gilt Z 2π lim N →∞ 0 dx |f (x) − FN f (x)|2 = 0 (4) und die Parsevalsche Identität N X lim N →∞ 1 |fb(k)|2 = 2π k=−N Z 2π |f (x)|2 dx 0 Ist f differenzierbar, so folgt (4) aus der gleichmässigen Konvergenz FN f → f . Im Allgemeinen zeigen wir (4) indem wir zunächst f durch eine differenzierbare Funktion approximieren. Dazu benutzen wir das folgende Lemma. Lemma 1.9. Sei f : R → C 2π-periodisch und auf [0; 2π] integrierbar. Sei ε > 0. Dann existiert g ∈ C 1 (R; C), 2π-periodisch, so dass Z 2π |f − g|2 dx ≤ ε 0 Beweis: Sei K := supx∈[0;2π) |f (x)| < ∞. Wie im Beweis von Lemma 1.3, finden wir zunächst eine Teilung 0 = x0 < x1 < · · · < xn = 2π, und eine Treppenfunktion h(x) = Pn j=1 hj 1[xj ;xj−1 ) (x) mit |hj | ≤ K für alle j = 1, . . . , n, so dass Z 2π |f (x) − h(x)|dx ≤ 0 7 ε . 8K Dann gilt |f (x) − h(x)| ≤ |f (x)| + |h(x)| ≤ 2K und damit Z 2π 2π Z 2 |f (x) − h(x)|dx ≤ |f (x) − h(x)| dx ≤ 2K 0 0 ε . 4 Nun approximieren wir für ein beliebiges j ∈ {1, . . . , n} die charakteristische Pn Funktion 1[xj−1 ;xj ) durch eine differenzierbare Funktion. Wir setzen δ = ε/4 j=1 h2j . Ist |xj − xj−1 | < δ dann setzen wir einfach θj (x) = 0. Sonst setzen wir falls x ∈ [0; xj−1 ] 0 2 falls x ∈ [xj−1 ; xj−1 + δ/2] sin ((x − xj−1 )π/δ) 1 falls x ∈ [xj−1 + δ/2; xj − δ/2] θj (x) = falls x ∈ [xj − δ/2; xj ] sin2 ((x − xj )π/δ) 0 falls x ∈ [xj , 2π] Wir setzen θj durch Periodizität auf R fort. Nach einfacher Rechnungen ist θj ∈ C 1 (R), 2π-periodisch, mit Z 2π 2 ε θj (x) − 1[xj−1 ;xj ) (x) ≤ δ = Pn 4 j=1 h2j 0 Wir definieren nun g(x) = Weiter Pn j=1 hj θj (x). n X h(x) − g(x) = Offenbar gilt g ∈ C 1 (R), 2π-periodisch. hj 1[xj−1 ;xj ) (x) − θj (x) . j=1 Da die verschiedenen Summanden auf disjukten Intervallen getragen werden, gilt auch n X 2 |h(x) − g(x)| = h2j 1[xj−1 ;xj ) (x) 2 − θj (x) j=1 und damit Z 2π 2 |h(x) − g(x)| dx = 0 Das gibt Z 2π n X 2 Z Z 0 j=1 |f (x) − g(x)| dx ≤ 2 0 h2j 2π n 2 X ε h2j ≤ 1[xj−1 ;xj ) (x) − θj (x) dx ≤ δ 4 j=1 2π 2 Z |f (x) − h(x)| dx + 2 0 2π |h(x) − g(x)|2 dx ≤ ε 0 Hier haben wir benutzt, dass |f (x) − g(x)| ≤ |f (x) − h(x)| + |h(x) − g(x)| und also, dass |f (x) − g(x)|2 ≤ (|f (x) − g(x)| + |g(x) − h(x)|)2 ≤ 2|f (x) − g(x)|2 + 2|g(x) − h(x)|2 . 8 Beweis von Satz 1.8: Sei ε > 0 festgewählt. Dann finden wir g ∈ C 1 (R; C) mit Z ε |f (x) − g(x)|2 dx < 9 Das impliziert auch, dass Z Z Z ε 2 2 |FN f (x) − FN g(x)| = |FN (f − g)(x)| ≤ |f (x) − g(x)|2 ≤ 9 Weiter, da g differenzierbar ist, gilt FN g → g gleichmässig. Aus Analysis 1 (Satz 9.13) folgt, dass Z |FN g(x) − g(x)|2 dx → 0 für N → ∞. Für N gross genug ist also Z ε |FN g(x) − g(x)|2 dx ≤ 9 Insgesamt, Z |FN f (x) − f (x)|2 dx Z ≤ (|f (x) − g(x)| + |g(x) − FN g(x)| + |FN g(x) − FN f (x)|)2 dx Z Z Z 2 2 ≤ 3 |f (x) − g(x)| dx + 3 |g(x) − FN g(x)| dx + 3 |FN g(x) − FN f (x)|2 dx ≤ε falls N gross genug ist. Bemerkungen: • 2π-periodische Funktionen können als Funktionen auf dem Einheitskreis S 1 = {eiϕ : ϕ ∈ R} gedacht werden. • Ganz ähnlich kann man auch periodische Funktionen mit einer beliebigen Periode L > 0 betrachten (solche Funktionen werden mit Funktionen auf dem Kreis von Radius L/2π identifiziert werden). In diesem Fall wird die Fourier-Reihe durch die Funktionen {e2πijx/L }j∈Z definiert. • Sei V := {f : R → C : f 2π-periodisch und auf [0; 2π] stetig} Es ist einfach zu sehen, dass V ein unendlich dimensionaler Vektorraum ist. Für f, g ∈ V definieren wir das Skalarprodukt Z 2π hf, gi = f (x)g(x) 0 9 Die Funktionen {eijx }j∈Z sind wegen Lemma 1.1 ein Orthonormalsystem auf V bezüglich dem Skalarprodukt h., .i. Satz 1.8 besagt dann, dass {eijx }j∈Z eine Orthonormalbasis von V ist, d.h., dass jedes Element von V beliebig gut durch endliche lineare Kombinationen von den orthonormal Funktionen {eijx }j∈Z approxiP ijx gibt dann einfach b miert werden kann. Die Fourier-Reihe f (x) = ∞ j=−∞ f (j)e die Darstellung von f als Grenzwert von endlichen linearen Kombinationen der Basis-Funktionen. Die Fourierkoeffizienten werden deswegen durch die Produkte fb(j) = heijx , f i gegeben. Bemerke, dass V bezüglich der vom Skalarprodukt induzierten Metrik nicht vollständig ist. Um dieses Problem zu lösen, kann man die Vervollsändigung Ve von V betrachten (jeder Skalarproduktraum kann vervollständigt werden). Ve ist ein Vektorraum, mit einem Skalarprodukt [., .] so, dass: 1) Ve vollständig, bezüglich der von [.; .] induzierten Metrik ist, 2) V kann mit einem dichten Unterraum von Ve identifiziert werden, 3) Für f, g ∈ V gilt [f ; g] = hf ; gi. Ve ist ein sogenannter Hilbertraum (ein Skalarproduktraum, der vollständig ist, bezüglich der aus dem Skalarprodukt induzierten Metrik); es wird mit L2 ([0; 2π]) bezeichnet. Mehr zu diesem Thema in der Vorlesung Funktionalanalysis. • Ein Grund, warum Fourier-Reihen sehr nützlich sind, ist die Tatsache, dass Ableitungen auf Fourierkoeffizienten sehr einfach wirken. Aus Lemma 1.5 folgt, dass die Fourierkoeffizienten von f (m) (x) einfach durch (ij)m fˆ(j) gegeben sind. Differentialoperatoren sind, in diesem Sinn, diagonal im Fourierraum (wo die Funktion f durch ihre Fourierkoeffizienten {fˆ(j)}j∈Z parametrisiert wird). 2 Gewöhnliche Differentialgleichungen Differentialgleichungen sind Gleichungen, bei denen die Unbekannten Funktionen sind. Die Differentialgleichung definiert eine Beziehung zwischen den gesuchten Funktionen und ihren Ableitungen. Gewöhnliche Differentialgleichugen (auf Englisch “ordinary differential equations” oder einfach ODEs) sind Differentialgleichungen, wo die unbekannten Funktionen einer einzelnen reellen Variablen sind. Bei partiellen Differentialgleichungen sind dagegen die unbekannten Funktionen von mehreren Variablen. Hier werden wir nur gewöhnliche Differentialgleichungen betrachten (partielle Differentialgleichungen werden erst im vierten Semester untersucht). Differentialgleichungen haben sehr viele Anwendungen. Die ganze Physik wird z.B. durch Differentialgleichungen formuliert: Die Newtonsche Gleichung der klassischen Mechanik, die Maxwell Gleichungen der Elektrodynamik, die Schrödingergleichung der Quantenmechanik, die Einsteingleichung der allgemeinen Relativitätstheorie sind alle Beispiele von Differentialgleichungen. Dabei ist nur die Newtonsche Gleichung eine gewöhnliche Differentialgleichung, die anderen sind partielle Differentialgleichungen. Die Newtonsche Gleichung beschreibt die Bewegung von Teilchen und Körpern unter der Wirkung von Kräften. Seien x(t) = (x1 (t), x2 (t), x3 (t)) ∈ R3 die Koordinaten eines Teilchens mit Masse m zur Zeit t. Sei F (x) = (F1 (x), F2 (x), F3 (x)) ein Kraftfeld. D.h. F (x) ist die Kraft, die im Punkt x auf das Teilchen wirkt. Dann besagt die Newtonsche Gleichung, dass die Beschleunigung des Teilchens, die aus der zweiten Ableitung x00 (t) gegeben ist, proportional zur wirkenden Kraft ist. Genauer, mx00 (t) = F (x(t)) 10 (5) Die Ableitung der vektorwertigen Funktion x(t) ist komponentenweise zu verstehen; d.h. x00 (t) = (x001 (t), x002 (t), x003 (t)). Um die Trajektorie der Teilchen zu bestimmen, muss man also eine Funktion x(t) finden, so dass für alle t erfüllt ist. Z.B., die Erde bewegt sich unter der Wirkung des Gravitationsfelds der Sonne. In einem Koordinatensystem, wo die Sonne an der Stelle x = 0 liegt, ist die Gravitationkraft, die die Sonne auf einem Körper der Masse m ausübt aus x F (x) = −Gm 3 |x| gegeben, für eine geeignete Konstante G. Bezeichnet also x(t) die Position der Erde zur Zeit t, so muss x(t) die Gleichung mx00 (t) = −Gm x |x|3 ⇒ x00 (t) = −G x |x|3 (6) erfüllen. Diese Differentialgleichung hat mehrere Lösungen. Die Lösung kann eindeutig festgestellt werden, falls man geeignete Anfangsbedingungen spezifiziert. Schon Kepler hat herausgefunden, dass Lösungen von (6) immer auf einer Ebene bleiben und Ellypsen, Hyperbeln oder Parabeln beschreiben (für die Erde ist die Lösung eine Ellypse). Gewöhnliche Differentialgleichungen werden nach ihrer Ordnung klassifiziert; die Ordnung der Differentialgleichung ist die Ordnung der höchsten Ableitung in der Gleichung. Eine Differentialgleichung erster Ordnung ist eine Differentialgleichung der Form y 0 (x) = f (x, y(x)) für die n unbekannten Funktionen y(x) = (y1 (x), . . . , yn (x)) einer reellen Variable x ∈ R. Eine Differentialgleichung m-ter Ordnung hat die Form y (m) (x) = f (x, y(x), y 0 (x), . . . , y (m−1) (x)). Die Lösung einer Differentialgleichung ist normalerweise nicht eindeutig. Sie wird aber oft eindeutig durch Spezifizierung von geeigneten Anfangsbedingungen. Z.B. eine Gleichung erster Ordnung für die n unbekannten Funktionen y(x) = (y1 (x), . . . , yn (x)) wird oft eindeutig, falls wir die Bedingung (0) (0) (0) (0) y(x0 ) = (y1 , . . . , yn ) für ein x0 ∈ R und für einen Vektor (y1 , . . . , yn ) ∈ Rn verlangen. Gleichungen höherer Ordnung brauchen natürlich mehr Anfangsbedingungen. Eine Gleichung m-ter Ordnung wird oft eindeutig, falls wir Anfangsbedingungen für y, y 0 , . . . , y (m−1) verlangen. Eine Differentialgleichung mit Anfangsbedingungen wird als ein Anfangswertproblem oder ein Cauchy-Problem bezeichnet. Bei der Untersuchung von gewöhnlichen Differentialgleichungen werden für uns die folgenden Fragen eine wichtige Rolle spielen: Existiert eine Lösung der Differentialgleichung? Ist die Lösung unter Berücksichtigung von geeigneten Anfangsbedingungen eindeutig (d.h. ist die Lösung des Anfangswertproblems eindeutig)? Ist es möglich die Lösung explizit zu finden? Welche Methoden können verwendet werden, um die Lösung einer Differentialgleichung zu finden? Wie hängt die Lösung von den Anfangsbedingungen ab (Stabilitätstheorie für Differentialgleichungen)? Wir werden sehen, es ist nur selten möglich die Lösung einer Differentialgleichung explizit zu schreiben. Dagegen können Existenz und Eindeutigkeit der Lösungen unter allgemeinen Voraussetzungen gezeigt werden. 2.1 Differentialgleichungen erster Ordnung, elementare Lösungsmethoden Wir betrachten hier gewöhnliche Differentialgleichungen erster Ordnung. 11 Definition 2.1. Sei n ≥ 1, U ⊂ Rn+1 , f ∈ C(U ; Rn ). Dann ist y 0 (x) = f (x, y(x)) (7) eine gewöhnliche Differentialgleichung erster Ordnung. Eine Lösung dieser Differentialgleichung auf einem Intervall I ⊂ R ist eine Funktion y ∈ C 1 (I; Rn ) so, dass (x, y(x)) ∈ U und (7) erfüllt für alle x ∈ I ist. Für x0 ∈ R, y0 ∈ Rn mit (x0 , y0 ) ∈ U heisst 0 y (x) = f (x, y(x)) (8) y(x0 ) = y0 ein Anfangswertproblem oder ein Cauchy-Problem. Eine Lösung des Anfangswertproblems (8) ist eine Lösung der Differentialgleichung (7), die auch die Anfangsbedingung y(x0 ) = y0 erfüllt (insbesondere muss x0 ∈ I sein). Ist n = 1, so heisst die Differentialgleichung skalar (die gesuchte Funktion hat Werten in R). Ist dagegen n > 1, so heisst die Differentialgleichung vektoriell (man spricht in diesem Fall von einem System von Diferentialgleichungen). Wir betrachten ein paar Beispiele von Differentialgleichungen, wo die Lösungen explizit berechnet werden können (der Einfachheit halber betrachten wir hier Beispiele von skalaren Gleichungen; wir werden einige Beispiele von vektoriellen Gleichungen später betrachten, wenn wir lineare Differentialgleichungen untersuchen werden). Beispiele: • Sei n = 1, I ⊂ R ein offenes Intervall, U = I × R, und f (x, y) = g(x) (unabhängig von y), für ein g ∈ C(I). Wir betrachten die Differentialgleichung ϕ0 (x) = g(x) Sei G ∈ C 1 (I) eine Stammfunktion von g, mit G0 = g. Dann ist G eine Lösung der Differentialgleichung. Sei ϕ eine andere Lösung der Differentialgleichung. Dann gilt (ϕ−G)0 (x) = 0 für alle x ∈ I. Das zeigt, dass jede Lösung die Form ϕ(x) = G(x)+c hat, für eine Konstante c ∈ R. Betrachten wir nun das Anfangswertproblem 0 ϕ (x) = g(x) ϕ(x0 ) = y0 für ein x0 ∈ I und ein y0 ∈ R. Die Lösung des Anfangswertproblems ist insbesondere die Lösung der Differentialgleichung und hat deswegen die Form ϕ(x) = G(x) + c Die Bedingung y0 = ϕ(x0 ) = G(x0 ) + c ⇒ c = y0 − G(x0 ) bestimmt die Konstante c eindeutig. Die einzige Lösung des Anfangswertproblems ist aus ϕ(x) = G(x) − G(x0 ) + y0 12 gegeben. Bemerke, dass die eindeutige Lösung auch als Z x g(t)dt ϕ(x) = y0 + x0 geschrieben werden kann. • Sei wieder n = 1, U = R2 , und f (x, y) = −y. Die Differentialgleichung (7) nimmt dann die Form ϕ0 (x) = −ϕ(x) (9) Die Funktion ϕ(x) = ce−x erfüllt diese Differentialgleichung auf R, für beliebige c ∈ R. Wir behaupten jede Lösung auf R hat diese Form. Sei in der Tat ϕ eine Lösung von (9) auf R. Dann gilt d x (e ϕ(x)) = ex (ϕ(x) + ϕ0 (x)) = 0 dx für alle x ∈ R. Es existiert also eine Konstante c ∈ R mit ex ϕ(x) = c für alle x ∈ R, d.h. mit ϕ(x) = ce−x für alle x ∈ R. Betrachten wir nun das Anfangswertproblem 0 ϕ (x) = −ϕ(x) ϕ(x0 ) = y0 für x0 , y0 ∈ R. Die Lösung des Anfangswertproblem hat die Form y(x) = ce−x . Die Anfangsbedingung y(x0 ) = y0 bestimmt die Konstante c ∈ R durch y0 = y(x0 ) = ce−x0 ⇒ c = y 0 e x0 Die eindeutige Lösung des Anfangswertproblems ist also y(x) = y0 exp(−(x − x0 )). • Wir betrachten das Anfangswertproblem 0 ϕ (x) = a(ϕ(x) − bϕ2 (x)) ϕ(0) = y0 (10) für a, b, y0 > 0. Die Differentialgleichung in (10) heisst die logistische Gleichung oder die Differentialgleichung des beschränkten exponentiellen Wachstums, und hat z.B. Anwendungen in der Biologie (die Lösung beschreibt das Wachstum einer idealen Bakterienpopulation). Um die Gleichung zu lösen bemerken wir, dass 1 ϕ0 (x) = a ϕ(x) − bϕ2 (x) Integration über x gibt Z x 0 1 ϕ0 (t)dt = a ϕ(t) − bϕ2 (t) Z x dt = ax 0 Wir substituieren y = ϕ(t) und bekommen Z ϕ(x) 1 dy = ax 2 ϕ(0) y − by 13 Aus 1 1 1 b = = + 2 y − by y(1 − by) y 1 − by finden wir log ϕ(x)(1 − by0 ) = ax y0 (1 − bϕ(x)) Nach leichter algebraischer Manipulationen bekommen wir die eindeutige Lösung des Anfangswertsproblems ϕ(x) = y0 eax 1 + by0 (eax − 1) Im letzten Beispiel haben wir die Methode der Trennung der Variablen benutzt. Wir zeigen im nächsten Satz, dass diese Methode immer angewandt werden kann, falls die Funktion f (x, y) auf der rechten Seite von (7) das Produkt einer Funktion von x mit einer Funktion von y ist. Satz 2.2. Seien I, J ⊂ R offene Intervalle, g ∈ C(I), h ∈ C(J), mit 0 6∈ h(J). Sei (x0 , y0 ) ∈ I × J. Seien Z x Z y 1 G(x) = g(t)dt, und H(y) = dt x0 y0 h(t) Weiter, sei I 0 ⊂ I ein offenes Intervall mit G(I 0 ) ⊂ H(J) und x0 ∈ I 0 . Dann existiert genau eine Lösung ϕ ∈ C 1 (I 0 ) des Anfangswertproblems 0 ϕ (x) = g(x)h(ϕ(x)) (11) ϕ(x0 ) = y0 Ferner ist ϕ : I 0 → J die einzige Funktion mit H(ϕ(x)) = G(x) für alle x ∈ I 0 . (12) Bemerkung: Die Aussage impliziert, dass Differentialgleichungen der Form (11) durch Trennung der Variablen gelöst werden können. Das bedeutet, dass (11) zunächst als 1 ϕ0 (x) = g(x) h(ϕ(x)) umgeschrieben werden kann. Integration über x ergibt dann Z x Z x 1 0 ϕ (t)dt = g(t)dt x0 h(ϕ(t)) x0 und damit Z ϕ(x) ϕ(x0 ) 1 dy = h(y) Z x g(t)dt x0 und H(ϕ(x)) = G(x) Die eindeutige Lösung des Anfangswertproblems kann dann durch Umkehrung der Funktion H bestimmt werden. 14 Beweis: Da H ∈ C 1 (J) mit H 0 (y) = 1/h(y) 6= 0 für alle y ∈ J ist H injektiv. Damit ist H : J → H(J) bijektiv und also invertierbar. Sei T : H(J) → J die Umkehrfunktion. Dann ist T ∈ C 1 (H(J)) mit T 0 (z) = 1/H 0 (T (z)) = h(T (z)), für alle z ∈ H(J). Die Gleichung (12) definiert eindeutig eine Funktion ϕ = T ◦ G ∈ C 1 (I 0 ). Diese Funktion erfüllt ϕ0 (x) = h(T ◦ G(x))G0 (x) = h(ϕ(x))g(x) und ϕ(x0 ) = T ◦ G(x0 ) = T (0) = y0 . D.h. ϕ ist eine Lösung des Anfangswertsproblems. Das zeigt die Existenz der Lösung. Es bleibt die Eindeutigkeit zu zeigen. Sei dazu ϕ e ∈ C 1 (I 0 ) eine andere Lösung des Anfangswertproblems. Es folgt, dass ϕ(I e 0 ) ⊂ J. Sei ψ = H ◦ ϕ e − G. Dann gilt ψ 0 = (H 0 ◦ ϕ) eϕ e0 − G0 = 1 ϕ e0 − g = 0 h◦ϕ e auf I 0 , Damit muss ψ konstant auf I 0 sein. Da aber ψ(x0 ) = H(ϕ(x e 0 )) − G(x0 ) = 0, muss ψ(x) = 0 für alle x ∈ I 0 . D.h. H ◦ ϕ e = G auf I 0 , und deswegen, ϕ e = ϕ. Das zeigt die Eindeutigkeit der Lösung. 2.2 Existenz und Eindeutigkeit In diesem Abschnitt möchten wir zeigen, dass unter geeigneten Voraussetzungen an der Funktion f , das Anfangswertproblem (8) eine eindeutige Lösung besitzt. Dazu werden wir den Banachschen Fixpunktsatz anwenden. Erinnere aus Analysis 1, dass ein metrischer Raum vollständig heisst, wenn jede Cauchy-Folge in M konvergiert. Wir haben in Analysis 1 gezeigt, dass Rn , versehen mit der Standardmetrik vollständig für alle n ∈ N ist. Satz 2.3 (Banachscher Fixpunktsatz). Sei M , versehen mit der Metrik d, ein vollständiger metrischer Raum. T : M → M eine Abbildung mit der Eigenschaft, dass es eine Konstante 0 < c < 1 existiert, mit d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 ) für alle x1 , x2 ∈ M (eine solche Abbildung heisst eine Kontraktion; Kontraktionen sind insbesondere stetig). Dann gibt es genau ein x ∈ M mit T (x) = x (ein solches x heisst ein Fixpunkt der Abbildung T ; der Satz besagt, dass jede Kontraktion auf einem vollständigen metrischen Raum genau einen Fixpunkt besitzt). Beweis: Wir zeigen zunächst die Eindeutigkeit. Nehme an, dass x1 , x2 zwei Fixpunkte der Abbildung T sind. Dann gilt d(x1 , x2 ) = d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 ) Da aber c < 1 ist diese Ungleichung nur möglich, falls d(x1 , x2 ) = 0. Also x1 = x2 . Nun zeigen wir die Existenz eines Fixpunktes. Sei x0 ∈ M beliebig. Dann definieren wir rekursiv eine Folge xn in M durch x1 = T (x0 ) und xn+1 = T (xn ). Für n ≥ 1 gilt dann d(xn+1 , xn ) = d(T (xn ), T (xn−1 )) ≤ cd(xn , xn−1 ) ≤ · · · ≤ cn d(x1 , x0 ) 15 Es folgt, dass, für beliebige n > m, d(xn , xm ) ≤ d(xn , xn−1 ) + d(xn−1 , xn−2 ) + · · · + d(xm+1 , xm ) n X = d(xj , xj−1 ) j=m+1 ≤ d(x1 , x0 ) ≤ d(x1 , x0 ) n X cj j=m+1 ∞ X cj = j=m+1 d(x1 , x0 ) m+1 c →0 1−c für m → ∞. D.h. xn ist eine Cauchy-Folge auf M . Da M vollständig ist, muss xn konvergieren. Sei x = limn→∞ xn . Da aber T stetig ist, muss T (x) = lim T (xn ) = lim xn+1 = x n→∞ n→∞ Also, x ist ein Fixpunkt von T . Bemerkung: Der Beweis besagt, dass für jede x0 ∈ M , die Folge T ◦ T ◦ · · · ◦ T (x0 ) gegen dem Fixpunkt konvergiert. In praktischen Situationen, ergibt dies ein Verfahren, um den Fixpunkt von T zu approximieren. Um die Existenz und Eindeutigkeit der Lösung von Anfangswertprobleme zu beweisen, werden wir den Banach’schen Fixpunktsatz auf dem Raum C(I, Rn ) = {f : I → Rn stetig } anwenden. Hier ist I ⊂ R ein kompaktes Intervall. Dieser Raum ist mit der Metrik d(f, g) = sup |f (x) − g(x)| x∈I versehen. Wir haben in Analysis 1 gezeigt, dass C(I, Rn ) vollständig ist (siehe Proposition 6.25 und die Diskussion danach; bemerke, dass die Kompaktheit von I impliziert, wegen dem Satz von Maximum, dass jede stetige Funktion auf I auch beschränkt ist. Deswegen ist C(I; Rn ) = Cb (I; Rn )). Das nächsten Lemma impliziert dann, dass jede abgeschlossene Teilmenge von C(I; Rn ) vollständig ist. Lemma 2.4. Sei M ein vollständiger metrischer Raum, und A ⊂ M abgeschlossen. Dann ist A vollständig (bezüglich der von M induzierten Metrik). Beweis: Sei xn eine Cauchy-Folge in A. Dann ist xn auch eine Cauchy-Folge in M . Die Vollständigkeit von M impliziert, dass xn in M konvergent. Sei x ∈ M der Grenzwert von xn , als Folge in M . Da A abgeschlossen ist und xn ∈ A für alle n ist, muss dann aber x ∈ A sein. Damit ist xn auch in A konvergent. Ein anderer Begriff spielt bei der Untersuchung der Existenz und Eindeutigkeit von Lösungen von Anfangswertproblemen eine wichtige Rolle. Das ist der Begriff der Lipschitz-Stetigkeit. 16 Definition 2.5. Seien (M1 , d1 ), (M2 , d2 ) zwei metrische Räume, A ⊂ M1 . Eine Funktion f : A → M2 heisst Lipschitz-stetig falls eine Konstante L > 0 existiert, mit dM2 (f (x), f (y)) ≤ LdM1 (x, y) für alle x, y ∈ A. Bemerkungen: • Jede Lipschitz-stetige Funktion ist gleichmässig stetig und damit auch stetig. √ • Nicht alle gleichmässig stetigen Funktionen sind Lipschitz-stetig. Z.B. f (x) = x auf [0; 1] ist gleichmässig stetig, aber nicht Lipschitz-stetig. Tatsache (Übung): Eine differenzierbare Funktion f : (a; b) → R ist genau dann Lipschitz-stetig, falls die Ableitung beschränkt ist. Wir sind nun bereit, um Existenz und Eindeutigkeit von Lösungen von Anfangswertprobleme der Form (8) zu zeigen. bezeichnen im Folgenden mit k.k die euklidische PWir n n 2 Norm auf R , die durch kak = j=1 |aj |2 für a = (a1 , . . . , an ) ∈ Rn definiert ist. Satz 2.6 (Picard-Lindelöf). Sei Ω ⊂ R×Rn offen, (x0 , y0 ) ∈ Ω, f ∈ C(Ω; Rn ) Lipschitzstetig in der zweiten Variablen. Das bedeutet, dass L > 0 mit kf (x, y) − f (x, y 0 )k ≤ Lky − y 0 k für alle x ∈ R, y ∈ Rn , y 0 ∈ Rn mit (x, y), (x, y 0 ) ∈ Ω existiert. Dann gibt es ein ε > 0, so dass das Anfangswertproblem 0 ϕ (x) = f (x, ϕ(x)) (13) ϕ(x0 ) = y0 eine eindeutige Lösung ϕ ∈ C 1 ([x0 − ε; x0 + ε]; Rn ) besitzt. Bemerkung: Satz 2.6 zeigt nur die Existenz und Eindeutigkeit einer lokalen Lösung, in der Nähe vom Punkt x0 , wo die Anfangsbedingung gegeben ist. Wir werden später sehen, unter welchen Bedingungen die Existenz und Eindeutigkeit einer globalen Lösung gezeigt werden kann. Der Beweis benutzt die Tatsache, dass eine Funktion ϕ ∈ C([x0 − ε; x0 + ε], Rn ) genau dann eine Lösung des Anfangswertproblem (13) ist, wenn Z x ϕ(x) = y0 + f (t, ϕ(t))dt (14) x0 Aus (14) folgt in der Tat sofort, dass ϕ(x0 ) = y0 ist. Ferner, aus der Stetigkeit von ϕ und von f , und aus dem Hauptsatz der Integralrechnung folgt auch, dass ϕ ∈ C 1 ([x0 − ε; x0 + ε]; Rn ) mit ϕ0 (x) = f (x, ϕ(x)) gilt. Anderseits, falls ϕ ∈ C 1 ([x0 − ε; x0 + ε], Rn ) eine Lösung von (13) ist, dann folgt Z x Z x 0 ϕ(x) = ϕ(x0 ) + ϕ (t)dt = y0 + f (t, ϕ(t))dt . x0 x0 17 Beweis: Sei δ > 0 so klein, dass K = [x0 − δ; x0 + δ] × Bδ (y0 ) ⊂ Ω. Da K ∈ Rn+1 kompakt und f stetig ist, folgt, dass M := sup{kf (x, y)k : (x, y) ∈ K} < ∞ Wir wählen nun δ δ 0 < ε ≤ min δ, , 2L 2M (15) und wir setzen I = [x0 − ε; x0 + ε]. Wir definieren A = {g ∈ C(I; Rn ) : kg(x) − y0 k ≤ δ für alle x ∈ I} A ist dann eine abgeschlossene Teilmenge von C(I; Rn ), versehen mit der Metrik d(f, g) = supx∈I |f (x) − g(x)| (Beweis: Übung). Es folgt aus Lemma 2.4, dass A ein vollständiger metrischer Raum ist. Wir definieren nun die Abbildung T : A → C(I; Rn ) durch Z x (T φ)(x) = y0 + f (t, φ(t))dt . x0 Offenbar ist T φ ∈ C(I; Rn ), für alle φ ∈ A (d.h. die Abbildung ist wohldefiniert). Weiter gilt, für alle x ∈ I und alle φ ∈ A, Z k(T φ)(x) − y0 k = x x0 f (t, φ(t))dt ≤ ε sup{kf (t, φ(t))k : t ∈ I} ≤ ε sup{kf (x, y)k : x ∈ I, y ∈ Bδ (y0 )} ≤ ε sup{kf (x, y)k : (x, y) ∈ K} = εM ≤ δ/2 aus der Wahl (15). Damit gilt T φ ∈ A, für alle φ ∈ A. Weiter, für φ, ψ ∈ A, finden wir Z d(T φ, T ψ) = sup k(T φ)(x) − (T ψ)(x)k = sup x∈I x∈I x x0 (f (t, φ(t)) − f (t, ψ(t))) dt 1 ≤ ε sup kf (t, φ(t)) − f (t, ψ(t))k ≤ Lε sup kφ(t) − ψ(t)k = εLd(φ, ψ) ≤ d(φ, ψ) 2 t∈I t∈I Damit ist T : A → A eine Kontraktion. Es folgt aus Satz 2.3, dass ϕ ∈ A mit T (ϕ) = ϕ. Da ϕ ∈ C(I; Rn ) ist t → f (t, ϕ(t)) stetig, und damit ϕ = T ϕ ∈ C 1 ([x0 − ε; x0 + ε]; Rn ) existiert. Ferner gilt ϕ(x0 ) = (T ϕ)(x0 ) = y0 und, aus dem Hauptsatz der Integralrechnung, ϕ0 (x) = f (x, ϕ(x)) Damit ist ϕ eine Lösung des Anfangswertproblems (13) auf I (wir haben hier das Argument unten (14) wiederholt). Das zeigt die Existenz einer Lösung. Wir zeigen nun die Eindeutigkeit. Sei dazu ψ ∈ C 1 ([x0 − ε; x0 + ε]; Rn ) eine andere Lösung von (13). Ist ψ ∈ A, so muss T ψ = ψ, weil ψ eine Lösung von (13) ist. Dann muss aber ψ = ϕ, weil ϕ der einzelne Fixpunkt von T ist. Ist ψ 6∈ A, dann muss es ein x ∈ I geben, mit kψ(x)−y0 k > δ. O.B.d.A. nehmen wir an, es existiert x ∈ I, x > x0 mit kψ(x)−y0 k > δ. Wir setzen dann x1 = inf{x ∈ I, x > x0 : kψ(x) − y0 k > δ} 18 Aus Stetigkeit von ψ muss dann kψ(x1 ) − y0 k = δ sein. Also Z x1 δ = kψ(x1 ) − y0 k = f (t, ψ(t))dt ≤ ε sup{kf (x, y)k : (x, y) ∈ K} ≤ δ/2 x0 was ein Widerspruch ist. Bemerkungen: • Die Lipschitz-Bedingung ist tatsächlich für die Existenz der Lösung nicht notwendig (Stetigkeit von f ist für die Existenz hinreichend). Dagegen ist die LipschitzBedingung für die Eindeutigkeit der Lösung wichtig. Betrachte in der Tat das Anfangswertproblem p 0 ϕ (x) = |ϕ(x)| ϕ(0) = 0 p In diesem Fall ist f (x, y) = |y| stetig, aber nicht Lipschitz-stetig in der Nähe von y = 0. Für ein beliebiges a ≥ 0 ist dann die Funktion 0 falls x < a ϕ(x) = 1 2 (x − a) falls x≥a 4 eine Lösung. Ferner ist auch ϕ(x) = 0 eine Lösung. Es existieren also unendlich viele Lösungen dieses Anfangswertproblems. • Satz 2.6 besagt die Existenz und Eindeutigkeit einer Lösung auf einem genügend kleinen Intervall um x0 . Im Allgemeinen existieren keine globalen Lösungen. Betrachte in der Tat das Anfangswertproblem 0 ϕ (x) = 2xϕ2 (x) (16) ϕ(0) = 1 Durch Trennung der Variablen finden wir die eindeutige Lösung ϕ(x) = 1 1 − x2 auf dem Intervall (−1; 1). Auf dem Intervall [a; b] existiert also keine Lösung, falls a ≤ −1 oder b ≥ 1 (insbesondere existiert keine Lösung auf R. Aus der letzten Bemerkung stellt sich die Frage, ob es möglich ist, unter stärkeren Annahmen an f , die Existenz und Eindeutigkeit einer globalen Lösung zu zeigen. Die Antwort ist ja: Eine Lösung auf einem vorgegebenen Intervall [a; b] existiert immer (und ist eindeutig), falls die Funktion f (x, y) in der Variablen y auf ganz Rn die LipschitzBedingung erfüllt (die Funktion f (x, y) = xy 2 , die in (16) vorkommt, ist nur für y in einem kompakten Intervall Lipschitz-stetig). Das ist der Inhalt des nächsten Satzes. Satz 2.7 (Picard-Lindelöf, globale Version). Sei I = [a; b] ⊂ R ein nicht-leeres kompaktes Intervall, x0 ∈ I, f ∈ C(I × Rn , Rn ) Lipschitz-stetig in der zweiten Variablen. D.h. es existiere L > 0 mit kf (x, y) − f (x, y 0 )k ≤ Lky − y 0 k 19 für alle x ∈ I, y, y 0 ∈ Rn . Dann hat für jede y0 ∈ Rn das Anfangswertproblem 0 ϕ (x) = f (x, ϕ(x)) ϕ(x0 ) = y0 (17) eine eindeutige Lösung ϕ ∈ C 1 (I; Rn ). Bemerkung: Satz 2.7 kann auch benutzt werden, um die Existenz und Eindeutigkeit von Lösungen auf R zu zeigen. In der Tat eine Lösung auf R existiert und genau dann eindeutig ist, wenn sie auf dem Intervall [−m; m] existiert und ist eindeutig, für alle m ∈ N. Beweis: Für ϕ ∈ C(I; Rn ), definieren wir kϕkL = sup e−2L|x−x0 | kϕ(x)k x∈[a;b] Es ist einfach zu überprüfen, dass k.kL eine Norm ist. Ferner, es gilt e−2L(b−a) kϕk∞ ≤ kϕkL ≤ kϕk∞ (18) wobei kϕk∞ = supx∈[a;b] kϕ(x)k. Sei ϕn eine Folge in C(I; Rn ). Dann impliziert (18): ϕn konvergiert bezüglich k.kL ⇐⇒ ϕn konvergiert bezüglich k.k∞ , und ϕn ist Cauchy-Folge bezüglich k.kL ⇐⇒ ϕn ist Cauchy-Folge bezüglich k.k∞ . (Man sagt, die zwei Normen k.k∞ und k.kL sind äquivalent). Es folgt insbesondere, dass (C(I; Rn ), k.kL ) ein vollständiger metrischer Raum ist. Auf C(I; Rn ) definieren wir nun die Abbildung Z x (T φ)(x) = y0 + f (t, φ(t))dt x0 Dann gilt, für beliebige x ∈ [a; b], x > x0 , Z x Z x kf (t, φ(t)) − f (t, ψ(t))kdt k(T φ)(x) − (T ψ)(x)k = (f (t, φ(t)) − f (t, ψ(t)))dt ≤ x0 Zx0x Z x ≤L kφ(t) − ψ(t)kdt = L e2L|t−x0 | e−2L|t−x0 | kφ(t) − ψ(t)kdt x0 x0 Z x 1 2L(t−x0 ) ≤ Lkφ − ψkL e dt ≤ e2L|x−x0 | kφ − ψkL 2 x0 Analog gilt auch für x ∈ [a; b] mit x < x0 , 1 k(T φ)(x) − (T ψ)(x)k ≤ e2L|x−x0 | kφ − ψkL 2 Damit gilt 1 e−2L|x−x0 | k(T φ)(x) − (T ψ)(x)k ≤ kφ − ψkL 2 für alle x ∈ [a; b] und also 1 kT φ − T ψkL ≤ kφ − ψkL 2 20 Es folgt, dass T eine Kontraktion ist. Das impliziert, dass es einen eindeutigen Fixpunkt ϕ ∈ C(I; Rn ), mit T ϕ = ϕ gibt. Es ist dann einfach zu sehen, dass ϕ ∈ C 1 (I; Rn ) eine Lösung von (17) ist. Zur Eindeutigkeit: Ist ψ ∈ C 1 (I; Rn ) eine Lösung von (17), so ist insbesondere ψ ∈ C(I; Rn ). Damit kann man T auf ψ anwenden. Da ψ eine Lösung des Anfangswertproblem ist, muss aber T ψ = ψ. Damit ist ψ = ϕ, weil T nur einen Fixpunkt haben kann. 2.3 Differentialgleichungen höherer Ordnung Differentialgleichungen höherer Ordnung hängen auch von den höheren Ableitungen der gesuchten Funktion y(x) ab. Definition 2.8. Seien n, k ∈ N\{0} fest, Ω ⊂ R × Rn×k offen, f ∈ C(Ω, Rn ). Dann ist y (k) (x) = f (x, y(x), y 0 (x), . . . , y (k−1) (x)) (19) eine Differentialgleichung k-ter Ordnung. Eine Lösung von (19) auf einem Intervall I ⊂ R ist eine Funktion y ∈ C k (I; Rn ) so, dass x, y(x), y 0 (x), . . . , y (k) (x) ∈ Ω und (19) gilt, für alle x ∈ I. Für gegebene (x0 , y0 , y1 , . . . , yk ) ∈ Ω ist (k) y = f (x, y(x), . . . , y (k−1) (x)) y (j) (x0 ) = yj , für j = 1, 2, . . . , (k − 1) (20) ein Anfangswertproblem oder ein Cauchy-Problem k-ter Ordnung. Man kann Resultate über die Existenz und Eindeutigkeit der Lösung von Anfangswertproblemen k-ter Ordnung aus den entsprechenden Resultaten für Gleichungen erster Ordnung herleiten, indem man bemerkt, dass eine Gleichung k-ter Ordnung zu einer Gleichung erster Ordnung in mehreren Variablen äquivalent ist. In der Tat, das Anfangswertproblem (20) kann wie folgt umgeschrieben werden. Wir definieren die neue Funktion ψ(x) = (y(x), y 0 (x), . . . , y (k−1) (x)). Dann ist ψ eine Funktion mit Werten in Rn×k . Wir definieren ferner fe(x, z0 , z1 , . . . , zk−1 ) := (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 )) für alle (x, z0 , z1 , . . . , zk−1 ) ∈ Ω. Auch fe hat Werte in Rn×k . Es ist dann leicht zu sehen, dass (20) zu dem Anfangswertproblem ψ 0 (x) = fe(x, ψ(x)) mit der Anfangsbedingung ψ(x0 ) = (y0 , y1 , . . . , yk−1 ) ∈ Rn×k äquivalent ist. Damit haben wir ein Problem k-ter Ordnung in Dimension n in einem Problem erster Ordnung in Dimension nk umgeschrieben. Wir erhalten deswegen das folgende Existenz- und Eindeutigkeitsresultat. 21 Satz 2.9. Seien n, k ∈ N\{0} fest, Ω ⊂ R × Rn×k offen, f ∈ C(Ω, Rn ) Lipschitz-stetig in alle Argumenten nach dem ersten. D.h. es existiere L > 0 mit f (x, z0 , z1 , . . . , zk−1 ) − f (x, z00 , z10 , . . . , z 0 ) ≤ Lkz − z 0 k k−1 0 für alle x ∈ R, z = (z0 , . . . , zk−1 ), z 0 = (z00 , . . . zk−1 ) ∈ Rn×k mit (x, z), (x, z 0 ) ∈ Ω. Sei (x0 , y0 , . . . , yk−1 ) ∈ Ω. Dann existiert ein ε > 0 so, dass das Anfangswertproblem (20) eine eindeutige Lösung ϕ ∈ C k ([x0 − ε; x0 + ε], Rn ) hat. Beweis: Es genügt zu zeigen, dass die Funktion fe(x, z0 , z1 , . . . , zk−1 ) = (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 )) Lipshitz-stetig in z = (z0 , z1 , . . . , zk−1 ) ist. Dazu bemerken wir, dass e 0 , f (x, z) − f (x, z 0 )) f (x, z) − fe(x, z 0 ) = (z1 − z10 , z2 − z20 , . . . , zk−1 − zk−1 ≤ kz − z 0 k + kf (x, z) − f (x, z 0 )k ≤ (L + 1)kz − z 0 k . 2.4 Lineare Differentialgleichungen Die Differentialgleichung erster Ordnung y 0 (x) = f (x, y(x)) (21) heisst linear, falls die Funktion f (x, y) affin in der Variable y ∈ Rn ist, d.h. falls eine offene Teilmenge A ⊂ R, eine matrixwertige Funktion a ∈ C(A; Rn×n ) und eine vektorwertige Funktion b ∈ C(A; Rn ) existieren mit f (x, y) = a(x)y + b(x) (22) Für ein beliebiges x ∈ A bezeichnet hier a(x)y die Anwendung der n × n Matrix a(x) auf dem Vektor y ∈ Rn . Die Differentialgleichung (21) heisst linear und homogen, falls f (x, y) linear in y ist, d.h. falls f die Form (22) hat, mit b = 0. Skalare lineare Differentialgleichungen: Wir betrachten zunächst den skalaren Fall, mit n = 1. Sei I ⊂ R ein Intervall und a ∈ C(I). Für x0 ∈ I und y0 ∈ R beliebig, untersuchen wir das skalare, lineare und homogene Anfangswertproblem ( y 0 (x) = a(x)y(x) y(x0 ) = y0 Das Anfangswertproblem hat eine eindeutige Lösung (aus Satz 2.7). Durch Trennung der Variablen finden wir, dass die eindeutige Lösung aus Z x ϕ(x) = y0 exp a(t)dt x0 gegeben ist. 22 Sei nun, wie vorher, I ⊂ R ein Intervall und a ∈ C(I). Weiter, sei b ∈ C(I). Für beliebige x0 ∈ I und y0 ∈ R, untersuchen wir das skalare, lineare (aber inhomogene) Anfangswertproblem ( y 0 (x) = a(x)y(x) + b(x) y(x0 ) = y0 Aus Sazt 2.7, hat dieses Anfangswertproblem eine eindeutige Lösung. Die Lösung kann durch die Methode der Variation der Konstante gefunden werden. Man findet zunächst die allgemeine Lösung der homogenen Differentialgleichung y 0 (x) = a(x)y(x), die aus Z x y(x) = c exp a(t)dt x0 für eine beliebige Konstante c ∈ R gegeben ist. Um die inhomogene Gleichung zu lösen, betrachtet man den Ansatz Z x y(x) = c(x) exp a(t)dt x0 bei welchem die Konstante c aus der Lösung der homogenen Gleichung nun von x abhängt. Dann ist Z x Z x 0 0 y (x) = c (x) exp a(t)dt + c(x)a(x) exp a(t)dt x0 x0 Z x 0 = c (x) exp a(t)dt + a(x)y(x) x0 Wir sehen also, dass y(x) eine Lösung des inhomogenen Anfangswertproblems ist, g.d.w. Z x Z x 0 0 a(t)dt = b(x) ⇐⇒ c (x) = b(x) exp − a(t)dt c (x) exp x0 x0 Wir finden also, dass die eindeutige Lösung des inhomogenen Anfangswertproblems aus Z t Z x Z x ϕ(x) = y0 + b(t) exp − a(s)ds dt exp a(t)dt x0 x0 x0 gegeben ist. Vektorielle lineare Differentialgleichungen: Wir kommen nun zum allgemeinen Fall n ≥ 1. Sei I ⊂ R ein Intervall, x0 ∈ I, a ∈ C(I, Rn×n ) eine matrix-wertige stetige Funktion auf I. Wir untersuchen das lineare, homogene Anfangswertproblem 0 y (x) = a(x)y(x) (23) y(x0 ) = y0 für ein beliebiges y0 ∈ Rn . Es lohnt sich in diesem Fall zunächst eine matrix-wertige Differentialgleichung zu lösen. Aus Satz 2.7 folgt nämlich, dass eine eindeutige Lösung ϕ ∈ C 1 (I, Rn×n ) des Anfangswertproblems 0 ϕ (x) = a(x)ϕ(x) (24) ϕ(x0 ) = 1 23 existiert, wobei 1 die Identitätsmatrix auf Rn ist. Bemerke, dass, für alle x ∈ I, ϕ(x) hier eine n × n Matrix bezeichnet. Die Ableitung ϕ0 (x) ist wieder eine Matrix, mit Einträgen (ϕ0 (x))ij = ϕ0ij (x), wobei ϕij (x) die Einträge von ϕ(x) sind (d.h. die Matrix wird Einträge-weise differenziert). Das Produkt a(x)ϕ(x) soll dann als Produkt von zwei Matrizen verstanden werden. Die Matrixgleichung (24) ist einfach ein System von n2 Differentialgleichungen, oder äquivalent, eine vektorielle Differentialgleichung für eine Unbekannte ϕ(x) mit n2 Komponenten (deswegen kann man Satz 2.7 anwenden). Analog existiert eine eindeutige Lösung ψ ∈ C 1 (I; Rn×n ) des Anfangswertproblems 0 ψ (x) = −ψ(x)a(x) (25) ψ(x0 ) = 1 Wir behaupten nun, dass ψ(x)ϕ(x) = 1 für alle x ∈ I. In der Tat, die Anfangsbedingung impliziert, dass ψ(x0 )ϕ(x0 ) = 1. Anderseits d [ψ(x)ϕ(x)] = ψ 0 (x)ϕ(x) + ψ(x)ϕ0 (x) = −ψ(x)a(x)ϕ(x) + ψ(x)a(x)ϕ(x) = 0 dx D.h. ψ(x)ϕ(x) ist konstant auf I und deswegen ψ(x)ϕ(x) = 1, für alle x ∈ I. Das impliziert insbesondere, dass die Lösungen ϕ(x) und ψ(x) invertierbar sind, für alle x ∈ I. Wir können nun die Lösung ϕ(x) des Anfangswertproblems (24) benutzen, um die Lösung von (23) zu konstruieren. Aus Satz 2.7 wissen wir nämlich schon, dass (23) eine eindeutige Lösung besitzt. Wir behaupten nun, dass die eindeutige Lösung von (23) aus y(x) = ϕ(x)y0 gegeben ist. In der Tat, y(x0 ) = ϕ(x0 )y0 = 1y0 = y0 und y 0 (x) = ϕ0 (x)y0 = a(x)ϕ(x)y0 = a(x)y(x) (26) Mit anderen Worten, die eindeutige Lösung von (23) bekommt man einfach durch Anwendung der Matrix ϕ(x) auf die Anfangsbedingung y0 ∈ Rn . Aus der Darstellung der Lösung von (23) als y(x) = ϕ(x)y0 folgt einfach, dass der Lösungsraum der linearen Differentialgleichung in (23) eine lineare Struktur hat. Für gegebene a ∈ C(I; Rn×n ) definieren wir nämlich den Lösungsraum der Differentialgleichung y 0 (x) = a(x)y(x) als Lh := y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x) (d.h. Lh ist die Menge aller Lösungen der Differentialgleichung, unabhängig von der Anfangsbedingung). Wir haben schon bewiesen, dass ein beliebiges y ∈ L die Form y(x) = ϕ(x)y(x0 ) hat. Das impliziert offenbar, dass Lh ein Vektorraum ist. Da die Matrix ϕ(x) invertierbar ist, folgt auch, dass y (1) , . . . , y (m) ∈ Lh genau dann linear unabhängig sind, wenn y (1) (x0 ), . . . , y (m) (x0 ) ∈ Rn linear unabhängig sind. Das impliziert, dass dim Lh = dim Rn = n (mit anderen Worten, die Formel y(x) = ϕ(x)y(x0 ) erlaubt uns Lh mit Rn zu identifizieren). 24 Die Lösung der Matrix-Gleichung (24) erlaubt uns auch inhomogene lineare Differentialgleichungen zu berechnen. Sei nämlich I ⊂ R ein Intervall, x0 ∈ I, y0 ∈ Rn , a ∈ C(I; Rn×n ) und b ∈ C(I; Rn ). Dann hat das Anfangswertproblem 0 y (x) = a(x)y(x) + b(x) (27) y(x0 ) = y0 die eindeutige Lösung Z y(x) = ϕ(x) y0 + x ϕ−1 (t)b(t)dt (28) x0 wobei ϕ ∈ C 1 (I; Rn×n ) die eindeutige Lösung von (24) ist. In der Tat, aus ϕ(x0 ) = 1 folgt sofort, dass (28) die Bedingung y(x0 ) = y0 erfüllt. Weiter gilt Z x 0 0 −1 y (x) = ϕ (x) y0 + ϕ (t)b(t) + ϕ(x)ϕ−1 (x)b(x) = a(x)y(x) + b(x) x0 Wir haben in (28) benutzt, dass ϕ(x) für alle x ∈ I invertierbar ist. Es folgt aus diesem Ausdruck für die Lösung des Anfangswertproblems (27), dass der Lösungsraum der inhomogenen linearen Differentialgleichung y 0 (x) = a(x)y(x) + b(x), definiert durch Li = y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x) + b(x), für alle x ∈ I aus Z x Li = Lh + ϕ(x) −1 ϕ (t)b(t) = Z x y(x) = yh (x) + ϕ(x) x0 −1 ϕ (t)b(t) : yh ∈ Lh x0 gegeben ist. Allgeiner, für eine beliebige Lösung z ∈ Li , gilt Li = z + Lh . D.h. Li ist ein affiner Raum. Lineare Differentialgleichungen höherer Ordnung: Lineare homogene und inhomogene Differentialgleichungen höherer Ordnung können als lineare homogene und inhomogene Differentialgleichungen erster Ordnung mit höherer Dimension geschrieben werden, ähnlich wie in Sektion 2.3 erklärt wird. Sei zum Beispiel I ⊂ R ein Intervall, x0 ∈ I, a0 , . . . , an−1 ∈ C(I) und b ∈ C(I) reelwertig. Der Lösungsraum Lh der linearen homogenen Differentialgleichung y (n) (x) + an−1 (x)y (n−1) (x) + · · · + a0 y(x) = 0 der Ordnung n ist ein linearer Vektorraum mit Dimension n. Zu jeder (y0 , y1 , . . . , yn−1 ) gibt es genau eine Lösung y ∈ Lh , mit y(x0 ) = y0 , y 0 (x) = y1 , . . . , y (n−1) (x0 ) = yn−1 . Der Lösungsraum Li der linearen inhomogenen Gleichung y (n) (x) + an−1 (x)y (n−1) (x) + · · · + a0 y(x) + b(x) = 0 ist so, dass Li = z + Lh , für ein beliebiges z ∈ Li . Bemerke, dass es im Gegensatz zum skalaren Fall n = 1, wo die Lösung von homogenen und inhomogenen Problemen mit Trennung der Variablen und Variationen der 25 Konstanten immer gefunden werden kann, bei vektoriellen linearen Problemen (und also bei Probleme höheren Ordnung) kein allgemeines Rezept gibt, um Lösungen zu finden. Wir haben nur gezeigt, dass die Lösung jeder vektoriellen linearen Gleichung zur Berechnung der Lösung ϕ ∈ C 1 (I; Rn×n ) der Matrix-Gleichung (24) reduziert werden kann (und wir haben die Darstellung der Lösung durch die Matrix ϕ(x) benutzt, um allgemeine Eigenschaften der Lösungen zu diskutieren). Im Allgemeinen kann man aber ϕ nicht explizit berechnen. Eine Ausnahme, wo die Berechnung von ϕ auf die Lösung von linearen Gleichungsystemen reduziert werden kann, ist der Fall von linearen Gleichungen mit konstanten Koeffizienten, die durch Konstanten a ∈ Rn×n und b ∈ Rn charakterisiert ist. 2.5 Lineare Differentialgleichungen mit konstanten Koeffizienten Sei n ∈ N und A ∈ Rn×n eine festgewählte n × n Matrix. In (23) setzen wir dann a(x) = A für alle x ∈ Rn . Wir bekommen die lineare homogene Differentialgleichung mit konstanten Koeffizienten y 0 (x) = Ay(x) (29) für eine unbekannte Funktion y ∈ C 1 (R; Rn ). Sei Lh = y ∈ C 1 (R; Rn ) : y 0 (x) = Ay(x) der Lösungsraum der Differentialgleichung (29). Wir wissen schon, dass Lh ein Vektorraum der Dimension n ist. Ist eine Basis y (1) , . . . , y (n) des Lösungsraums Lh gegeben, so kann man die eindeutige Lösung des Anfangswertproblems 0 y (x) = Ay(x) (30) y(x0 ) = y0 bestimmen, indem man den Vektor y0 als eine lineare Kombination der Basisvektoren ausdruckt: n X y0 = cj y (j) (x0 ) j=1 Das ist möglich, weil {y (j) (x0 )}nj=1 eine Basis von Rn ist. Dann ist die eindeutige Lösung von (30) aus n X y(x) = cj y (j) (x) j=1 gegeben. Wie können wir nun eine Basis von Lh finden? Sei v ∈ Rn ein Eigenvektor von A mit Eigenwert λ, d.h. Av = λv. Dann ist y(x) = veλx ∈ Lh , weil y 0 (x) = λveλx = Aveλx = Ay(x) . Nehmen wir nun an, dass die Matrix A n linear unabhängige Eigenvektoren v1 , . . . , vn ∈ Rn , mit Eigenwerten λ1 , . . . , λn ∈ R (nicht notwendigerweise verschiedenen), besitzt. Dann sind die Funktionen yj (x) = vj eλj x , für j = 1, . . . , n, linear unabhängig und damit eine Basis von Lh . 26 Es passiert oft, dass eine Matrix A ∈ Rn×n auf C, aber nicht auf R diagonalisierbar ist. Sei λ = γ + iω ∈ C\R ein komplexer Eigenwert von A, mit Eigenvektor v ∈ Cn \{0}; wir zerlegen v = u + iw, mit u, w ∈ Rn . Da A reelle Einträge hat, ist auch λ = γ − iω ein Eigenwert von A, mit Eigenvektor v = u − iw. Die zwei Funktionen ye1 (x) = veλx = (u + iw)eiωx eγx = [(u cos ωx − w sin ωx) + i (u sin ωx + w cos ωx)] eγx ye2 (x) = (u − iw)e−iωx eγx = [(u cos ωx − w sin ωx) − i (u sin ωx + w cos ωx)] eγx sind dann komplexe Lösungen der Differentialgleichung (29). Weil wir uns vor allem für reelle Lösungen interessieren, möchten wir ye1 und ye2 durch die reellen linearen Kombinationen ye1 (x) + ye2 (x) = (u cos ωx − w sin ωx) eγx 2 ye1 (x) − ye2 (x) = (u sin ωx + w cos ωx) eγx y2 (x) = 2i y1 (x) = (31) ersetzen. Seien also ve1 , . . . , ven ∈ Cn linear unabhängige Eigenvektoren von A, zu den Eigenwerten λ1 , . . . , λn ∈ C. Für jedes j = 1, . . . , n unterscheiden wir zwei Fälle. Sei zunächst λj ∈ R. Dann ist mit vej auch vej ein Eigenvektor von A zum Eigenwert λ. Mindestens einer der zwei Vektoren Re vej = (e vj + vej )/2 und Im vej = (e vj − vej )/2i ist nicht Null und n deswegen ein reeller Eigenvektor v ∈ R von A zum Eigenwert λ. Wir setzen, dann yj (x) = veλx Sei nun λj ∈ C\R. Dann ist mit λj auch λj ein Eigenwert von A. D.h. es existiert i 6= j mit λi = λj . Dann setzen wir, gemäss (31), yj (x) = (Re vj cos(Im λj ) − Im vj sin(Im λj ) eRe λj yi (x) = (Re vj sin(Im λj ) − Im vj cos(Im λj ) eRe λj Damit konstruieren wir n linear unabhängige und reelle Lösungen yj der Differentialgleichung y 0 (x) = Ay(x); das gibt eine Basis vom Lösungsraum Lh . Es gibt natürlich auch den Fall, dass die Matrix A nicht diagonalisierbar ist. D.h., dass keine n linearen unabhängigen Eigenvektoren von a existieren. In diesem Fall ist die Suche nach einer Basis des Lösungsraums Lh komplizierter. Es hilft, die Lösung der Differentialgleichung y 0 (x) = Ay(x) durch Exponenzierung von A zu konstruieren. Lösung durch Exponentialabbildung: Die Matrix A = (aij ) ist ein Element von Rn×n . Auf diesem Raum ist die euklidische Norm aus kAk2 = N X |aij |2 = Tr A∗ A i,j=1 gegeben. Es gibt eine andere natürliche Norm für Matrixen, nämlich die Operator-Norm. Wir definieren die Operatornorm von A durch kAkop = sup v∈Rn 27 kAvk kvk wobei kAvk und kvk die euklidischen Normen von Av und v, als Elemente von Rn , sind. Es ist einfach zu zeigen, dass k.kop wirklich eine Norm ist. Die Operatornorm hat die Eigenschaft, dass kAvk ≤ kAkop kvk, für einen beliebigen Vektor v ∈ Rn (das folgt direkt aus der Definition). Sind also A, B ∈ Rn×n zwei Matrizen, dann gilt (AB bezeichnet die Multiplikation der zwei Matrizen A und B; das entspricht der Verknüpfung der zwei Abbildungen) kABvk ≤ kAkkBvk ≤ kAkkBkkvk für alle v ∈ Rn . Es folgt, dass kABkop ≤ kAkop kBkop Es gilt 1 √ kAk ≤ kAkop ≤ kAk n (32) für jede A ∈ Rn×n . D.h. die zwei Normen k.k und k.kop auf Rn×n sind äquivalent (das gilt übrigens für jede zwei Normen auf einem beliebigen endlich dimensionalen Vektorraum). Man kann (32) wie folgt beweisen. Es gilt 2 n X n n X n X n X X kAvk = aji vi = aji1 aji2 vi1 v i2 2 ≤ j=1 i=1 n X n X 1 2 j=1 i1 =1 i2 =1 n X |aji1 |2 |vi2 |2 + |aji2 |2 |vj |2 = kvk2 kAk2 j=1 i1 =1 i2 =1 Das impliziert, dass kAvk/kvk ≤ kAk für alle v ∈ Rn , und damit, dass kAkop ≤ kAk. Anderseits, kAk2 = Tr A∗ A = n X hej , A∗ Aej i = j=1 n X kAej k2 ≤ j=1 n X kAk2op kej k2 ≤ nkAk2op j=1 wobei die Vektoren ej = (0, . . . , 0, 1, 0, . . . , 0) die Standardbasis von Rn sind. Wir betrachten nun für A ∈ Rn×n die Folge BN := N X Aj j=0 Wir bemerken, dass, für N > M , X N Aj kBN − BM kop = j=M +1 j! j! N N X X kAj kop kAkj ≤ ≤ j! j! op j=M +1 j=M +1 P j Aus der Konvergenz der Reihe ∞ j=0 kAk /j! auf R folgt, dass kBN − BM kop → 0, da N, M → ∞. Das impliziert auch, dass kBN − BM k → 0 bezüglich der euklidischen Norm 28 auf Rn×n . Also ist BN eine Cauchy-Folge auf Rn×n , bzg. der euklidischen Norm, und damit konvergiert BN . Wir definieren exp(A) := lim N X Aj N →∞ j=0 j! ≡ ∞ X Aj j=0 j! Wir bemerken nun, dass die matrixwertige Funktion ϕ(x) = exp(A(x − x0 )) definiert für beliebige x ∈ R, das Anfangswertproblem 0 ϕ (x) = Aϕ(x) ϕ(x0 ) = 1 (33) löst. Die Anfangsbedingung ϕ(x0 ) = 1 ist offenbar erfüllt. Wir zeigen nun, dass ϕ(x) die Differentialgleichung erfüllt. Sei dazu R > 0 fest. Auf x ∈ [x0 − R; x0 + R] konvergiert die matrixwertige Potenzreihe BN (x) = N X Aj j=0 j! (x − x0 )j gleichmässig gegen exp(A(x − x0 )). Die Ableitung 0 BN (x) = N X Aj j=0 j! j(x − x0 )j−1 = A N N −1 j X X Aj−1 A (x − x0 )j−1 = A (x − x0 )j (j − 1)! j! j=1 j=0 konvergiert auch gleichmässig gegen A exp(A(x−x0 )). Aus Analysis 1 (Proposition 8.29) folgt, dass ϕ ∈ C 1 ([−R; R]; Rn×n ), mit ϕ0 (x) = Aϕ(x) für alle x ∈ [−R; R] (bemerke, dass Proposition 8.29 in Analysis 1 nur für R-wertige Funktionenfolgen formuliert ist. Das Resultat lässt sich aber trivial auf matrixwertige Funktionen erweitern, indem man die n2 Komponenten der Matrix separat untersucht). Da R > 0 beliebig ist, folgt dass ϕ ∈ C 1 (R; Rn×n ) das Anfangswertproblem (33) auf ganz R löst. Wie in (26), ist nun die eindeutige Lösung des Anfangswertproblems (30) durch Anwendung der Matrix ϕ(x) auf die Anfangsbedingung, d.h. y(x) = ϕ(x)y0 = exp(A(x − x0 ))y0 Ferner, das inhomogene Anfangswertpbroblem mit konstanten Koeffizienten y 0 (x) = ay(x) + b, mit der Anfangsbedingung y(x0 ) = y0 , hat, gemäss (28) die eindeutige Lösung Z x y(x) = ea(x−x0 ) y0 + e−a(x−x0 ) bdt . x0 Aus einem praktischen Sichtpunkt ist die Berechnung der Exponenitalabbildung exp(a(x − x0 )) durch die Diagonalisierung von A möglich. Ist nämlich A = U −1 DU , 29 für eine diagonale Matrix D = diag(d1 , . . . , dn ), so gilt Am = (U −1 DU )m = U −1 Dm U . Es folgt exp(A(x − x0 )) = ∞ X A m (x m=0 = U −1 ∞ X m=0 ∞ X − x0 )m (x − x0 )m = U −1 Dm U m! m! Dm (x − x0 m! m=0 m ) U ∞ ∞ m m X X dm dm n (x − x0 ) −1 1 (x − x0 ) = U diag ,..., m! m! m=0 m=0 = U −1 diag e(x−x0 )d1 , . . . , e(x−x0 )dn U. ! U Ist die Matrix a nicht diagonalisierbar, so ist die Berechnung von exp((x − x0 )a) schwieriger. In diesem Fall kann die jordansche Normalform der Matrix A verwendet werden. Für beliebige A ∈ Rn×n kann man nämlich eine invertierbare Matrix U und eine blockdiagonal Matrix J1 0 0 ... 0 0 J2 0 ... 0 J = ... ... ... ... ... 0 0 0 . . . Jk finden, so dass A = U −1 JU . J heisst die Jordan Normalform von A. Die Blöcke Ji haben die Form λi 1 0 ... 0 0 λi 1 ... 0 Ji = . . . . . . . . . . . . . . . (34) 0 ... 0 λi 1 0 ... 0 0 λi Die Einträge λi auf der Diagonalen der Matrixen Ji sind die Eigenwerte von A. Die Anzahl der Blöcke mit Eigenwert λi ist aus der geometrischen Vielfachheit von λi gegeben (d.h. die Dimension des Eigenraumes mit Eigenwert λj ). Die Gesamtdimension der Jordanblöcke mit Eigenwert λi ist dagegen die algebraische Vielfachheit von λi (die Vielfachheit von λi als Nullstelle des charakteristischen Polynoms). Sind algebraische und geometrische Vielfachheit gleich, so ist jeder Jordanblock mit Eigenwert λi eine 1 × 1 Matrix mit Eintrag λi (ist das der Fall für alle Eigenwerte von A, dann ist J diagonal und A diagonalisierbar). Der Ausdruck A = U −1 JU erlaubt uns, die Exponentialabbildung exp(tA) zu berechnen, für ein beliebiges t ∈ R (t = x − x0 in unserer Anwendung). In der Tat exp(tA) = exp(U −1 tJU ) = U −1 exp(tJ)U Die Anwendung der Exponentialabbildung an der Blockdiagonale Matrix tJ ist wieder blockdiagonal, mit Blöcken exp(tJi ), wobei die Ji die Form (34) haben. Sei Ji eine ` × ` 30 Matrix. Dann liefert die Berechnung von exp(tJi ) (Beweis: Übung) t2 1 t ... tλi t 0 ... 0 2! 0 tλi t ... 0 0 1 t ... = etλi . . . . . . . . . . . . . . . exp ... ... ... ... 0 ... 0 tλi t 0 ... 0 1 0 ... 0 0 tλi 0 ... 0 0 t`−1 (`−1)! t`−2 (`−2)! ... t 1 Damit kann man in Prinzip die Exponentialabbildung ϕ(x) = exp(A(x − x0 )) für jede Matrix A ∈ Rn×n berechnen. Mit dieser Methode kann man also immer die eindeutige Lösung des Anfangswertproblems (30) finden. Skalare, lineare, homogene Differentialgleichungen höherer Ordnung mit konstanten Koeffizienten: Eine skalare, lineare, homogene Differentialgleichung der Ordnung n ∈ N mit konstanten Koeffizienten hat die Form an ϕ(n) (x) + an−1 ϕ(n−1) (x) + · · · + a1 ϕ0 (x) + a0 ϕ(x) = 0 (35) für eine Funktion ϕ ∈ C n (R), und für Konstanten a0 , . . . , an ∈ R. Definieren wir y = (ϕ, ϕ0 , . . . , ϕ(n−1) ) ∈ C 1 (R; Rn ), dann nimmt (35) die Form 0 1 0 ... 0 0 0 1 ... 0 0 y(x) =: Ay(x) ... ... ... y (x) = 0 0 0 0 1 an−1 a0 a1 a2 − an − an − an . . . − an Es ist einfach zu sehen, dass die Matrix A genau dann (in C) diagonalisierbar ist, wenn sie n verschiedene Eigenwerten hat (Übung: Gilt Av1 = λv1 und Av2 = λv2 für ein λ ∈ C, dann existiert κ ∈ C mit v1 = κv2 ). Obwohl die Matrix A nicht immer diagonalisierbar ist, ist es hier trotzdem einfach, eine Basis für den n dimensionalen Lösungsraum n X Lh = y ∈ C n (R) : aj ϕ(j) (x) = 0 j=0 zu bestimmen, ohne explizit die jordansche Normalform von A zu berechnen. Wir definieren dazu das Polynom p(s) = an sn + an−1 sn−1 + · · · + a1 s + a0 Dann nimmt (35) die Form p d dx ϕ=0 (36) Aus dem Fundamentalsatz der Algebra (Satz 2.33 in Analysis 1) existieren k ∈ N, P λ1 , . . . , λk ∈ C voneinander unterschiedliche, n1 , . . . , nk ∈ N\{0} mit kj=1 nj = n so, dass k Y p(s) = an (s − λj )nj (37) j=1 31 Wir können also (36) als p d dx nj k Y d ϕ = an − λj ϕ=0 dx (38) j=1 schreiben. Bemerke hier, dass die Ordnung der Operatoren (d/dx − λj )nj keine Rolle spielt (die verschiedenen Monomen kommutieren miteinander). Wir bemerken ferner, dass k d − λ [f (x)eλx ] = f (k) (x)eλx (39) dx In der Tat d − λ [f (x)eλx ] = f 0 (x)eλx + λf (x)eλx − λf (x)eλx = f 0 (x)eλx dx Wenden wir diese Formel k Mal an, so finden wir (39). Aus (36) erhalten wir also nj nm Yd d d ` λm x [x e ] = an − λj − λm [x` eλm x ] p dx dx dx j6=m nj nm Yd d − λj = an x ` e λm x = 0 dx dxnm j6=m für alle ` = 0, 1, 2, . . . , nm − 1. Die n Funktionen {ym,` (x) = x` eλm x : m = 1, . . . , k, und ` = 0, 1, . . . , nm − 1} sind also Lösungen der Differentialgleichung p(d/dx)ϕ = 0. Diese Funktionen sind linear unabhängig (Beweis: Übung), und definieren also eine Basis des Lösungsraums Lh , wenn wir Lh als einen Vektorraum über C betrachten. Mit anderen Worten, jede Lösung von (35) kann als eine endliche lineare Kombination der Funktionen ym,` geschrieben werden. Für gegebene Anfangsbedingungen y(x0 ) = y0 , y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) = yn−1 kann man also die eindeutige Lösung des Anfangswertproblems bestimmen, indem man Konstanten αm,` findet, so dass y(x) = k nX m −1 X αm,` x` eλm x (40) m=1 `=1 alle Anfangsbedingungen an der Stelle x = x0 erfüllt. Die resultierende Lösung (40) ist, für reelle Anfansbedingungen y0 , . . . , yn−1 ∈ R automatisch reell. Falls man aber eine Basis für Lh betrachtet als R-Vektorraum, sucht, so muss man wie oben die Lösungen x` eλj x , x` eλj x mit λj ∈ C\R durch die reellen linearen Kombinationen x` cos((Im λj )x)e(Re λj )x und x` sin((Im λj )x)e(Re λj )x ersetzen (das ist immer möglich, wenn die Koeffizienten a0 , . . . , an ∈ R, weil für jede Nullstelle λ von p auch λ eine Nullstelle ist). 32 Skalare, lineare, inhomogene Differentialgleichungen höherer Ordnung mit konstanten Koeffizienten: Auch inhomogene, skalare, lineare Differentialgleichungen von höherer Ordnung mit konstanten Koeffizienten kann man mit dieser Methode lösen. Aus der Untersuchung von allgemeinen linearen Differentialgleichungen wissen wir schon, dass der Lösungsraum der inhomogenen Gleichung an y (n) (x) + an−1 y (n−1) (x) + · · · + a0 y(x) + b = 0 (41) aus Li = z + Lh gegeben ist, wobei z eine beliebige Lösung der inhomogenen Gleichung ist. Also braucht man, um den Lösungsraum von (41) zu finden, einfach eine einzige Lösung von (41) zu finden. Das ist aber einfach. Ist z.B. a0 6= 0, dann kann man einfach z als die konstante Funktion z(x) = −b/a0 wählen. Allgemeiner, sei j ∈ {0, 1, . . . , n} der kleinste Index mit aj 6= 0. Dann ist z(x) = −(b/aj )xj /j! eine Lösung von (41). Der Lösungsraum von (41) ist also aus Li = {−(b/aj )xj /j!} + Lh gegeben. Die eindeutige Lösung von (41), unter den Anfangsbedingungen y(x0 ) = y0 , y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) = yn−1 , kann man also bestimmen, indem man Konstanten αm,` findet, so dass k nX m −1 X b xj y(x0 ) = − + αm,` x` eλm x aj j! m=1 `=0 die Anfangsbedingungen erfüllt. Beispiel: Sei y 00 + 2γy + ω02 y = 0 Die Gleichung kann als p(d/dx)y = 0 geschrieben werden, mit dem Polynom p(s) = s2 + 2γs + ω02 Das Polynom p hat die Nullstellen s = −γ ± q γ 2 − ω02 Ist |γ| > |ω|, dann sind die zwei Nullstellen verschiedenen und reell. Damit sind √ √ −γ− γ 2 −ω02 x −γ+ γ 2 −ω02 x und y2 (x) = e y1 (x) = e eine Basis für den Lösungsraum. Ist dagegen |γ| = |ω0 |, dann hat p die einzige reelle Nullstelle s0 = −γ. Damit sind y1 (x) = e−γx und y2 (x) = xe−γx eine Basis für den Lösungsraum. Ist dagegen |γ| < |ω0 |, dann sind die zwei Nullstellen von p komplex. In diesem Fall sind q q −γx 2 2 y1 (x) = cos( ω0 − γ x)e und y2 (x) = sin( ω02 − γ 2 x)e−γx eine Basis des Lösungsraums. 33 2.6 Grundlagen der Stabilitätstheorie In diesem Abschnitt untersuchen wir die Abhängigkeit der Lösung einer Differentialgleichung von der Anfangsbedingung und der Form der Gleichung. In vielen Situationen erwartet man, dass eine kleine Änderung der Anfangsbedingungen nur eine kleine änderung der Lösung erzeugen kann. Analog, falls wir das Anfangswertproblem y 0 (x) = f (x, y(x)), y(x0 ) = y0 untersuchen, dann erwarten wir, dass eine kleine Änderung der Funktion f nur eine kleine Änderung der Lösung produziert. Mit anderen Worten, wir untersuchen die Stabilität der Lösung von Anfangswertproblemen. Da Differentialgleichugen nur selten explizit gelöst werden können, ist ihre Stabilität sehr wichtig in praktischen Anwendungen. In der Physik passiert es zum Beispiel sehr oft, dass man eine komplizierte Differentialgleichung y 0 (x) = f (x, y(x)) durch eine einfachere Differentialgleichung y 0 (x) = f0 (x, y(x)) ersetzt, wobei die Differenz f − f0 in geeignetem Sinne klein ist. Damit diese Approximation nützlich sein kann, muss aber die Differenz der zwei Lösungen y(x) und y0 (x) (unter geeigneten Anfangsbedingungen) klein sein. Wir brauchen also die Stabilität der Gleichung ohne, dass wir die Gleichung explizit lösen können. Ein wichtiges Hilfmittel um Stabilität zu beweisen ist das Lemma von Gronwall. Lemma 2.10 (Gronwall Lemma). Sei I = [x0 ; x1 ] mit x1 > x0 , a, b ∈ R mit b ≥ 0, y ∈ C(I), so dass Z x y(x) ≤ a + b y(t)dt x0 für alle x ∈ I. Dann gilt y(x) ≤ a exp(b(x − x0 )) für alle x ∈ I. Bemerkung: • Das Lemma von Gronwall zeigt insbesondere, dass jede Lösung der DifferentialUngleichung y 0 (x) ≤ by(x), mit der Anfangsbedingung y(x0 ) = y0 , aus der Lösung der Differentialgleichung y 0 (x) = by(x), mit der selben Anfangsbedingung, nach oben beschränkt wird. Sei in der Tat y ∈ C 1 ([x0 ; x1 ]) so, dass y 0 (x) ≤ by(x) und y(x0 ) = y0 . Dann gilt Z x Z x y(x) = y(x0 ) + y 0 (t)dt ≤ y0 + b y(t)dt x0 x0 Lemma 2.10 zeigt dann, dass y(x) ≤ y0 eb(x−x0 ) was genau die eindeutige Lösung der Gleichung y 0 (x) = by(x) mit der Anfangsbedingung y(x0 ) = y0 ist. • Die differentielle Form von dem Gronwall-Lemma, die wir in der ersten Bemerkung diskutiert haben, gilt (im Gegensatz zur Integralform im Lemma 2.10) auch für b < 0. In diesem Fall zeigt das Lemma von Gronwall, dass jede y ∈ C 1 ([x0 ; x1 ]), mit y 0 (x) ≤ by(x) und y(x0 ) = y0 exponentiell abfällt, für x > x0 . 34 Beweis: Sei ϕ : I → R durch ϕ(x) = y(x)e−b(x−x0 ) definiert. Dann muss Z x −b(x−x0 ) −b(x−x0 ) y(t)dt =: ψ(x) ϕ(x) ≤ ae + be x0 Es gilt 0 −b(x−x0 ) ψ (x) = −bae 2 Z x −b ϕ(t)eb(t−x) + bϕ(x) = −b [ψ(x) − ϕ(x)] ≤ 0 x0 für alle x ∈ I. Damit gilt ϕ(x) ≤ ψ(x) ≤ ψ(x0 ) = a für alle x ∈ I. Im nächsten Satz benutzen wir Gronwall-Lemma, um die Stabilität von gewöhnlichen Differentialgleichungen bzg. Variationen der Anfangsbedingungen zu beweisen. Satz 2.11. Sei Ω ⊂ R × Rn offen, f ∈ C(Ω; Rn ) Lipschitz-stetig im zweiten Argument. D.h. es existiere L > 0 mit kf (x, y1 ) − f (x, y2 )k ≤ Lky1 − y2 k für alle x ∈ R, y1 , y2 ∈ Rn mit (x, y1 ), (x, y2 ) ∈ Ω. Seien ϕ, ψ ∈ C 1 (I; Rn ) zwei Lösungen der Differentialgleichung y 0 (x) = f (x, y(x)) auf einem Intervall I ⊂ R. Dann gilt, für beliebige x0 , x1 ∈ I, kϕ(x1 ) − ψ(x1 )k ≤ kϕ(x0 ) − ψ(x0 )k eL|x1 −x0 | Bemerkung: Insbesondere folgt aus Satz 2.11, dass die Lösung ϕ(x) des Anfangswertproblems 0 ϕ (x) = f (x, ϕ(x)) ϕ(x0 ) = y0 stetig (sogar Lipschitz-stetig) von der Anfangsbedingung y0 abhängt. Beweis: Sei, o.B.d.A, x > x0 . Wir setzen y(x) = ϕ(x) − ψ(x). Aus y 0 (x) = ϕ0 (x) − ψ 0 (x) = f (x, ϕ(x)) − f (x, ψ(x)) folgt Z x (f (t, ϕ(t)) − f (t, ψ(t))) dt y(x) = y(x0 ) + x0 und damit Z x ky(x)k ≤ ky(x0 )k + kf (t, ϕ(t)) − f (t, ψ(t))k dt x0 Z x ≤ ky(x0 )k + L ky(t)k dt x0 Anwendung von Lemma 2.10 auf die Funktion g(x) = ky(x)k impliziert, dass ky(x)k ≤ ky(x0 )keL(x−x0 ) 35 Analog kann man auch die Stabilität von Differentialgleichungen bzg. Änderungen (Störungen) der Gleichung zeigen. Wir betrachten die Differentialgleichung y 0 (x) = f (x, ϕ(x), z), die von einem zusätzlichen Parameter z ∈ Rm abhängt. Für jede z ∈ Rm haben wir eine andere Differentialgleichung. Die Frage, die wir im nächsten Satz untersuchen, ist, wie ändert sich die Lösung der Differentialgleichung, falls wir den Parameter z (und eventuell auch die Anfangsbedingung) ein bisschen variieren. Satz 2.12. Sei I = [x0 ; x1 ] ⊂ R, f ∈ C(I × Rn × Rm ; Rn ). Es existieren M, L > 0 mit kf (x, y1 , z1 ) − f (x, y2 , z2 )k ≤ Lky1 − y2 k + M kz1 − z2 k für alle x ∈ I, y1 , y2 ∈ Rn , z1 , z2 ∈ Rm . Seien y1 , y2 ∈ Rn und z1 , z2 ∈ Rm beliebig gewählt und seien ϕ1 , ϕ2 ∈ C 1 (I; Rn ) die eindeutigen Lösungen von den Anfangswertproblemen 0 0 ϕ1 (x) = f (x, ϕ1 (x), z1 ) ϕ2 (x) = f (x, ϕ2 (x), z2 ) und ϕ1 (x0 ) = y1 ϕ2 (x0 ) = y2 Dann gilt kϕ1 (x) − ϕ2 (x)k ≤ (ky1 − y2 k + M |x1 − x0 |kz1 − z2 k) eL|x−x0 | für alle x ∈ I. Bemerkung: Wählen wir z1 = z2 , dann sind wir zurück bei Satz 2.11. Beweis: Sei y(x) = ϕ1 (x) − ϕ2 (x). Aus Z x ϕ1 (x) = y1 + f (t, ϕ1 (t), z1 )dt Zx0x f (t, ϕ2 (t), z2 )dt ϕ2 (x) = y2 + x0 finden wir x Z (f (t, ϕ1 (t), z1 ) − f (t, ϕ2 (t), z2 )) y(x) = (y1 − y2 ) + x0 und damit Z x ky(x)k ≤ ky1 − y2 k + kf (t, ϕ1 (t), z1 ) − f (t, ϕ2 (t), z2 )k Zx0x ≤ ky1 − y2 k + (Lky(t)k + M kz1 − z2 k) Z ≤ (ky1 − y2 k + M kz1 − z2 k|x1 − x0 |) + L x0 x ky(t)k x0 für alle x ∈ I. Lemma 2.10 impliziert also, dass ky(x)k ≤ (ky1 − y2 k + kz1 − z2 k|x1 − x0 |) eL(x−x0 ) für alle x > x0 . 36 Satz 2.11 zeigt die orbitale Stabilität der Differentialgleichung y 0 (x) = f (x, y(x)), unter geeigneter Annahme an f . Orbitale Stabilität bedeutet, dass falls wir zwei Anfangsbedingungen y1 , y2 betrachten, mit ky1 −y2 k klein, dann bleibt der Abstand ky1 (x)−y2 (x)k klein, für alle festen x ∈ R. Der Fehler kann aber im Limes x → ∞ gross werden. Eine stärkere Form von Stabilität ist die sogenannte asymptotische Stabilität. In diesem Fall bleibt der Fehler klein, gleichmässig in x und verschwindet, da x → ∞. Ein besonderes Beispiel von asymptotischer Stabilität hat man bei Attraktoren. Definition 2.13. Sei Ω ⊂ Rn offen, f ∈ C(Ω; Rn ). Ein Punkt y ∗ ∈ Ω heisst ein Attraktor, falls eine offene Umgebung V von y ∗ existiert, so dass für alle y0 ∈ V , das Anfangswertproblem 0 y (x) = f (y(x)) y(x0 ) = y0 eine eindeutige Lösung y ∈ C 1 ([x0 ; ∞); Rn ) hat, mit der Eigenschaft lim y(x) = y ∗ . x→∞ Ist y ∗ ∈ Rn ein Attraktor, dann kann man sich einfach überzeugen, dass f (y ∗ ) = 0 (sonst würde y 0 (x) → f (y ∗ ) 6= 0 und y(x) könnte nicht konvergieren. Beweis: Übung). Anderseits, jede y ∗ ∈ Rn mit f (y ∗ ) = 0 definiert eine stationäre (d.h. konstante) Lösung y(x) = y ∗ von der Gleichung y 0 (x) = f (y). Die Frage, ob ein solcher Punkt ein Attraktor ist, ist gerade die Frage, ob die stationäre Lösung y(x) = y ∗ asymptotisch stabil ist. Man findet, dass die Stabilität von stationären Lösungen mit der Ableitung von f an der Stelle y ∗ zu tun hat. Das diskutieren wir im nächsten Satz, für den skalaren Fall n = 1 (eine analoge Aussage gilt auch für n > 1; in diesem Fall braucht man aber Kenntnisse aus der Differentialrechnung in mehreren Veränderlichen, die wir noch nicht haben). Satz 2.14. Sei f ∈ C 1 (R), mit supx∈R |f 0 (x)| < ∞, und y ∗ ∈ R mit f (y ∗ ) = 0 und f 0 (y ∗ ) < 0. Dann ist y ∗ ein Attraktor für die Differentialgleichung y 0 (x) = f (y(x)). Beweis: O.B.d.A. können wir annehmen, dass y ∗ = 0. Sei f 0 (0) = −λ, für ein λ > 0. Wir schreiben (da f (0) = 0) Z 1 Z 1 d f (y) = f (0) + f (ty)dt = y f 0 (ty)dt dt 0 0 Z 1 = f 0 (0)y + y f 0 (ty) − f 0 (0) dt = f 0 (0)y + yR(y) 0 mit Z 1 R(y) = f 0 (ty) − f 0 (0) dt 0 Die Stetigkeit von mit f0 impliziert, dass |R(y)| → 0 für y → 0. Wir finden also ein ε > 0 sup |R(y)| ≤ λ/2. y∈[−ε;ε] Für ein beliebiges x0 ∈ R, sei nun y ∈ C 1 ([x0 ; ∞)) die Lösung der Differentialgleichung y 0 (x) = f (y(x)) mit der Anfangsbedingung y(x0 ) = y0 für ein y0 ∈ [−ε/2; ε/2] (bemerke, dass Satz 2.7 die Existenz einer globalen Lösung für dieses Anfangswertproblem garantiert). 37 Wir behaupten, dass |y(x)| ≤ ε für alle x ∈ [x0 ; ∞). Ist das nicht der Fall, so setzen wir x1 = inf{x ∈ [x0 ; ∞) : |y(x)| > ε} Aus der Stetigkeit von y(x) gilt dann |y(x)| ≤ ε für alle x ∈ [x0 ; x1 ]. Wir setzen nun ϕ(x) = y(x) exp(−f 0 (0)(x − x0 )), für alle x > x0 . Es gilt dann ϕ(x0 ) = y0 und ϕ0 (x) = y 0 (x) − f 0 (0)y(x) exp(−f 0 (0)(x − x0 )) = f (y(x)) − f 0 (0)y(x) exp(−f 0 (0)(x − x0 )) (42) = y(x)R(y(x)) exp(−f 0 (0)(x − x0 )) = R(y(x))ϕ(x) Da |y(x)| ≤ ε für alle x ∈ [x0 ; x1 ], ist |R(y(x))| ≤ λ/2 für alle x ∈ [x0 ; x1 ]. Damit ist |ϕ0 (x)| ≤ (λ/2)|ϕ(x)| für alle x ∈ [x0 ; x1 ]. Die Identität Z x ϕ(x) = ϕ(x0 ) + ϕ0 (t)dt x0 zeigt also, dass Z x |ϕ(x)| ≤ |y0 | + |ϕ0 (t)|dt ≤ |y0 | + (λ/2) x0 Z x |ϕ(t)|dt x0 Aus Lemma 2.10 folgt, dass |ϕ(x)| ≤ |y0 |e(λ/2)(x−x0 ) Das ergibt |y(x)| ≤ |y0 |e−(λ/2)(x−x0 ) für alle x ∈ [x0 ; x1 ]. Damit ist |y(x1 )| ≤ |y0 | ≤ ε/2. Aus Stetigkeit von y existiert also ein δ > 0 mit |y(x)| ≤ ε für alle x ∈ [x1 − δ; x1 + δ], im Widerspruch zur Definition von x1 . Das zeigt, dass |y(x)| ≤ ε für alle x ∈ R. Aus (42) folgt also, dass |ϕ0 (x)| ≤ (λ/2)|ϕ(x)| für alle x > x0 . Das ergibt |ϕ(x)| ≤ |y0 | exp((λ/2)(x − x0 )) für alle x > x0 und |y(x)| ≤ |y0 |e−(λ/2)(x−x0 ) für alle x > x0 . Das zeigt, dass y(x) → 0, für x → ∞, für alle Anfangsbedingungen y0 mit |y0 | ≤ ε/2. 3 3.1 Differentialrechnung in mehreren Veränderlichen Definition der Ableitung für Funktionen auf Rn Wiederholung von Begriffen aus der linearen Algebra und Analysis 1. In Analysis 1 (siehe Definition 2.34) haben wir den Begriff vom Vektorraum definiert. Ein Vektorraum über R ist nämlich eine Menge V , versehen mit einer Addition + : V × V → V und einer skalaren Multiplikation · : R × V → V , die eine Reihe von Axiomen erfüllen. Ein normierter Vektorraum ist ein Vektorraum V , auf dem eine Abbildung k.k : V → R definiert ist, mit den Eigenschaften: i) kxk ≥ 0 für alle x ∈ V , kxk = 0 genau dann, 38 wenn x = 0; ii) kαxk = |α|kxk für alle x ∈ V und α ∈ R; iii) kx + yk ≤ kxk + kyk. Eine Norm k.k auf einem Vektorraum V erzeugt immer eine Metrik auf V , die durch d(x, y) = kx − yk definiert wird. Also ist jeder normierte Vektorraum ein metrischer Raum. Wir sagen der normierte Vektorraum V ist vollständig, falls V , versehen mit der aus der Norm induzierten Metrik, ein vollständiger metrischer Raum ist. Seien nun V und W zwei Vektorräume über R. Eine Abbildung L : V → W heisst linear, falls L(x + λy) = L(x) + λL(y) für alle x, y ∈ V und λ ∈ R. Wir bezeichnen die e W ). Seien L, M ∈ L(V, e W ) und Menge aller linearen Abbildungen L : V → W mit L(V, λ ∈ R. Wir definieren dann die Abbildungen L + M, λL : V → W durch (L + M )(x) = L(x) + M (x), und (λL)(x) = λL(x) e W ). Damit hat L(V, e W ) die Struktur für alle x ∈ V . Offenbar gilt L + M, λL ∈ L(V, eines Vektorraumes über R (es ist leicht zu überprüfen, dass Summe und skalare Multiplikation alle notwendigen Axiome erfüllen). Nehmen wir nun an, V, W seien normierte e W ) definieren wir dann Vektorräume. Für L ∈ L(V, kLkop := kLvk = sup kLvk = sup kLvk v∈V \{0} kvk v∈V,kvk≤1 v∈V,kvk=1 sup (43) e W ) heisst beschränkt, falls kLkop < ∞. Das ist leicht Eine lineare Abbildung L ∈ L(V, e W ) ist genau dann beschränkt, falls sie auf V stetig zu zeigen: Eine Abbildung L ∈ L(V, e W ) ist genau dann auf V stetig, falls sie in v = 0 ist. Ferner, eine Abbildung L ∈ L(V, stetig ist. Wir bezeichnen e W ) : L stetig ist} e W ) : L beschränkt ist} = {L ∈ L(V, L(V, W ) := {L ∈ L(V, e W ) die aus beschränkten Abbildungen besteht. Es ist einfach zu die Teilmenge von L(V, e W ) ist. Also ist L(V, W ) selbst ein zeigen, dass L(V, W ) ein linearer Unterraum von L(V, Vektorraum. Man kann dann leicht beweisen, dass (43) eine Norm auf L(V, W ) definiert. Man nennt kLkop die Operatornorm von L. L(V, W ), versehen mit der Norm k.kop ist also ein normierter Vektorraum. Tatsache: Ist W vollständig, so ist auch L(V, W ) ein vollständig normierter Vektorraum, unabhängig davon, ob V vollständig ist oder nicht (ein vollständiger normierter Vektorraum heisst ein Banach-Raum). e W ) und M ∈ L(W, e Sind V, W, X drei Vektorräume, und L ∈ L(V, X) zwei lineare Abbildungen, so können wir die Verknüpfung L ◦ M : V → X durch (L ◦ M )(v) := L(M (v)) definieren. Wir bezeichnen oft die Verknüpfung L ◦ M als L · M oder einfach e X) eine lineare Abbildung ist. Sind ferner als LM . Es ist leicht zu sehen, dass LM ∈ L(V, e W ) und M ∈ L(W, e V, W, X drei normierte Vektorräume und L ∈ L(V, X) beschränkt, dann ist auch LM beschränkt und kLM kop ≤ kLkop kM kop Also, für jede L ∈ L(V, W ) und M ∈ L(W, X), ist LM ∈ L(V, X). Insbesondere, für jede L, M ∈ L(V, V ) ist LM ∈ L(V, V ). Das definiert ein Produkt auf dem Vektorraum L(V, V ). 39 e R) heisst ein lineares FunkSei V ein Vektorraum. Eine lineare Abbildung L ∈ L(V, tional auf V . Sei V ein normierter Vektorraum. Der Raum L(V, R) aller stetigen linearen Funktionalen auf V heisst der Dualraum von V und wird oft mit V ∗ bezeichnet. Versehen mit der Operatornorm kLvk = sup |Lv| v∈V,kvk≤1 ist V ∗ ein normierter Vektorraum. Da R vollständig ist, ist V ∗ immer vollständig. Wir werden in dieser Vorlesung nur endlich dimensionale Vektorräume betrachten. Jeder Vektorraum V mit dim V = n < ∞ ist isomorph zu Rn (ein Isomorphismus ist nach Wahl einer Basis von V gegeben). Auf Rn ist die standard euklidische Norm durch k(x1 , . . . , xn )k2 = n X |xj |2 j=1 definiert. Auf Rn ist auch ein Skalarprodukt definiert. Für x = (x1 , . . . , xn ) und y = (y1 , ,̇yn ) setzen wir n X x·y = x j yj j=1 Dann gilt kxk2 = x · x. Wir haben in Analysis 1 bewiesen, dass Rn , versehen mit der euklidischen Norm k.k, ein vollständiger normierter Vektorraum ist. Tatsache: Auf einem endlich dimensionalen Vektorraum sind alle zwei Normen äquivalent. D.h., falls k.k1 , k.k2 zwei Normen auf Rn sind, dann es gibt eine Konstante c > 0 mit 1 kxk1 ≤ kxk2 ≤ ckxk1 c für alle x ∈ Rn . Die Äquivalenz der zwei Normen impliziert, dass eine Folge xn auf Rn genau dann bzg. k.k1 konvergiert, wenn sie bzg. k.k2 konvergiert und dass eine Folge xn auf Rn genau dann bzg. k.k1 eine Cauchy-Folge ist, wenn sie bzg. k.k2 eine Cauchy-Folge ist. Da Rn versehen mit der Standardnorm vollständig ist, ist Rn bzg. einer beliebigen Norm ein vollständiger Vektorraum (es ist natürlich möglich, auf Rn eine Metrik d zu finden, so dass (Rn , d) nicht vollständig ist; eine solche Metrik d kann dann aber nicht von einer Norm induziert werden). e = (`ij ), Sei L : Rn → Rm eine lineare Abbildung. Dann existiert eine m × n Matrix L e wobei das Produkt Lx e durch so dass L(x) = Lx, e i= (Lx) n X `ij xj j=1 definiert ist. Wir identifizieren deswegen die lineare Abbildung L mit der entsprechenden e Jede lineare Abbildung L : Rn → Rm ist beschränkt. In der Tat, falls wir Matrix L. auch mit L = (`ij ) die Matrix bezeichnen, die der Abbildung L zugeordnet ist, so gilt kLkop ≤ kLk, wobei m X n X ∗ kLk = Tr L L = |`ij |2 < ∞ i=1 j=1 40 die Standardnorm von L ist, falls wir L als ein Element von Rm×n betrachten. Es folgt, dass jede lineare Abbildung zwischen Rn und Rm automatisch stetig ist, d.h. e n , Rm ) = L(Rn , Rm ). L(R Der Dualraum zu Rn ist der Vektorraum (Rn )∗ = L(Rn , R) aller linearen Funktionalen auf Rn (weil jedes lineare Funktional auf Rn stetig ist). Ein beliebiges lineares Funktional L auf Rn kann also mit einer 1 × n Matrix identifiziert werden. Mit anderen Worten, jedes lineare Funktional L auf Rn kann mit einem Vektor a ∈ Rn identifiziert werden, so dass n X L(x) = a · x = aj xj j=1 Rn wobei a·x das Skalarprodukt auf bezeichnet. Man kann sich leicht davon überzeugen, dass für ein solches lineares Funktional, kLkop = sup |L(x)| = x∈Rn ,kxk≤1 sup |a · x| = kak x∈Rn ,kxk≤1 wobei kak die Standardnorm auf Rn bezeichnet. Es folgt, dass (Rn )∗ ' Rn als normierte Vektorräume identifiziert werden können. Partielle Ableitungen. Nach dieser kurzen Wiederholung aus der linearen Algebra, sind wir bereit, den Begriff von Ableitung auf mehrdimensionale Vektorräume zu definieren. Wir werden der Einfachkeit halber Funktionen betrachten, die auf einer Teilmenge von Rn definiert sind, mit Werten auf Rm . Die Definitionen können aber einfach auf Funktionen zwischen zwei beliebigen (endlich dimensionalen) Vektorräumen verallgemeinert werden (weil jeder endlich dimensionale Vektorraum isomorph zu Rn ist). Auf Rn werden wir immer die euklidische Standardnorm betrachten. Es ist aber einfach, die Definitionen auf beliebige andere Normen zu erweitern (weil jede Norm zur Standardnorm äquivalent ist). Also, obwohl wir nur Funktionen f : Rn ⊃ U → Rm betrachten werden, kann man den Begriff von Ableitung für beliebige Funktionen zwischen zwei normierten endlich dimensionalen Vektorräumen definieren. Definition 3.1. Sei U ⊂ Rn offen, x0 ∈ U , i ∈ {1, . . . , n}. Eine Funktion f : U → R heisst im Punkt x0 partiell differenzierbar in der i-ten Koordinate, falls der Limes ∂f f (x0 + hei ) − f (x0 ) (x0 ) := lim h→0 ∂xi h existiert. Hier sind die Vektoren e1 , . . . , en die Standardbasis von Rn , d.h. wir haben ei = (0, . . . 0, 1, 0, . . . , 0). In diesem Fall heisst die Zahl ∂f /∂xi (x0 ) die i-te partielle Ableitung von f an der Stelle x0 . Die Funktion f heisst an der Stelle x0 ∈ U partiell differenzierbar, falls f in jeder Koordinate an der Stelle x partiell differenzierbar ist. Die Funktion f heisst auf U partiell differenzierbar, falls f an der Stelle x partiell differenezierbar ist, für jede x ∈ U . Bemerkung: Die partielle Ableitung in der i-ten Koordinate ist die gewöhnliche Ableitung bezüglich der i-ten Variablen von f , wenn die anderen (n−1) Koordinaten konstant gehalten werden. D.h. die i-te partielle Ableitung von f an der Stelle x∗ = (x∗1 , . . . , x∗n ) ∈ 41 Rn ist die Ableitung der Funktion einer Variablen t → f (x∗1 , x∗2 , . . . , x∗i + t, x∗i+1 , . . . , x∗n ) an der Stelle t = 0. Bemerkung: Analog kann man die partielle Ableitungen einer vektorwertigen Funktion definieren. Sei wie oben U ⊂ Rn offen und f : U → Rm . Für j = 1, . . . , m, sei fm : U → R die m-te Komponente von f ; d.h. es gelte f (x) = (f1 (x), . . . , fm (x)). Dann sagen wir, dass f im Punkt x0 in der i-ten Koordinate partiell differenzierbar ist, falls fj an der Stelle x0 in der i-ten Koordinate partiell differenzierbar ist, für alle j = 1, . . . , m. In diesem Fall ist die i-te partielle Ableitung von f aus dem Vektor ∂f1 ∂fm ∂f (x0 ) = (x0 ), . . . , (x0 ) ∈ Rm ∂xi ∂xi ∂xi gegeben. Es stellt sich heraus, dass der Begriff von partieller Differenzierbarkeit ein bisschen zu schwach ist. Viele Resultate, die wir für differenzierbare Funktionen auf R kennen, gelten für eine auf einer offenen Teilmenge U ⊂ Rn definierte, partiell differenzierbare Funktion f nicht. Z.B. zeigt das folgende Beispiel, dass partielle Differenzierbarkeit einer Funktion nicht ihre Stetigkeit impliziert. Beispiel: Auf R2 definieren wir die Funktion xy falls (x, y) 6= (0, 0) x2 +y 2 f (x, y) = 0 falls (x, y) = (0, 0) Wir behaupten, dass f auf R2 partiell differenzierbar ist. In der Tat ist f offenbar an der Stelle (x, y) in der ersten Koordinate partiell differenzierbar für alle (x, y) 6= (0, 0). Wir behaupten, f auch an der Stelle (0, 0) in der ersten Koordinate partiell differenzierbar ist. In der Tat f (h, 0) − f (0, 0) 0 lim = lim = 0 h→0 h→0 h h Analog kann man zeigen, dass f überall in der zweiten Koordinate partiell differenzierbar ist. Also ist f auf R2 partiell differenzierbar. Wir behaupten nun, dass f an der Stelle (0, 0) nicht stetig ist. In der Tat haben wir 1/k 2 1 = 6= 0 2 2 k→∞ 1/k + 1/k 2 lim f (1/k, 1/k) = lim k→∞ Also, obwohl die Folge (1/k, 1/k) → (0, 0) konvergiert, ist f (1/k, 1/k) 6→ f (0, 0). Ableitung auf Rn . Wir brauchen also einen stärkeren Begriff von Differenzierbarkeit für Funktionen, die auf Teilmengen von Rn definiert sind. Um den richtigen Begriff zu finden, möchten wir zunächst den Begriff von Differenzierbarkeit für Funktionen einer Variablen umschreiben. Sei U ⊂ R offen, und x0 ∈ U . Eine Funktion f : U → R ist an der Stelle x0 falls der Grenzwert f (x0 + h) − f (x0 ) lim h→0 h existiert. Es folgt: f ist in x0 differenzierbar, falls ein Zahl L ∈ R existiert s.d. |f (x0 + h) − f (x0 ) − Lh| = o(|h|) 42 im Limes h → 0. Das bedeutet, f ist an der Stelle x0 differenzierbar, falls sich f in der Nähe von x0 durch eine lineare Funktion approximieren lässt. Ist das der Fall, so ist L eindeutig bestimmt und aus L = f 0 (x0 ) gegeben. Dieser Begriff lässt sich nun auf Funktionen verallgemeinern, die auf einer offenen Teilmenge von Rn definiert sind. Definition 3.2. Sei U ⊂ Rn offen, f : U → Rm und x0 ∈ U . Die Funktion f heisst an der Stelle x0 differenzierbar, wenn eine lineare Abbildung L : Rn → Rm existiert, so dass f (x0 + h) − f (x0 ) − L(h) lim =0 h→0 khk In diesem Fall heisst die Abbildung L die Ableitung oder das Differential von f an der Stelle x0 und wird mit L = Df (x0 ) bezeichnet. f heisst auf U differenzierbar, falls f an der Stelle x differenzierbar ist, für alle x ∈ U . Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) eindeutig bestimmt. Gilt in der Tat f (x0 + h) − f (x0 ) − L(h) = 0, h→0 khk lim so muss lim h→0 Da f (x0 + h) − f (x0 ) − M (h) =0 h→0 khk und lim kL(h) − M (h)k =0 khk kLx − M xk kL(x/K) − M (x/K)k = kxk kx/Kk für alle K > 0, erhalten wir kLx − M xk kL(x/K) − M (x/K)k kL(h) − M (h)k = lim = lim =0 K→∞ h→0 kxk kx/Kk khk für alle x ∈ Rn . Das bedeutet kL − M kop = kLx − M xk =0 kxk x∈Rn \{0} sup und deswegen L = M . Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) : Rn → Rm eine lineare Abbildung. Man kann also Df (x0 ) mit einer n × m Matrix identifizieren. Wie für jede lineare Abbildung zwischen endlich dimensionale Vektorräume, ist Df (x0 ) beschränkt, kDf (x0 )kop < ∞, und damit auch stetig. Bemerkung: Es folgt, dass eine Funktion f ist an der Stelle x0 differenzierbar, falls sie sich lokal durch eine lineare Abbildung approximieren lässt, d.h. falls L ∈ L(Rn , Rm ) existiert, s.d. kf (x0 + h) − f (x0 ) − Lhk = o(khk) Bemerkung: Sei U ⊂ Rn offen. Sei f : U → Rm mit Komponenten f1 , . . . , fm : U → R. D.h. es gelte f (x1 , . . . , xn ) = (f1 (x1 , . . . , xn ), . . . , fm (x1 , . . . , xn )) für alle (x1 , . . . , xn ) ∈ 43 U . Dann ist f an der Stelle x0 ∈ U genau dann differenzierbar, wenn fj an der Stelle x0 differenzierbar ist, für alle j = 1, . . . , m. Das folgt aus der Tatsache, dass eine Folge (n) (n) x(n) = (x1 , . . . , xm ) ∈ Rm genau dann gegen x = (x1 , . . . , xm ) ∈ Rm konvergiert, wenn (n) xj → xj für alle j = 1, . . . , m. Satz 3.3. Sei U ⊂ Rn offen, x0 ∈ U , und f : U → Rm an der Stelle x0 differenzierbar. Dann ist f an der Stelle x0 stetig. Beweis: Sei L die Ableitung von f an der Stelle x0 . Wir schreiben f (x0 + h) − f (x0 ) = [f (x0 + h) − f (x0 ) − L(h)] + L(h) Da f differenzierbar an der Stelle x0 ist, gilt kf (x0 + h) − f (x0 ) − L(h)k → 0 für h → 0. Anderseits, kL(h)k ≤ kLkop khk → 0 für h → 0. Also kf (x0 + h) − f (x0 )k ≤ kf (x0 + h) − f (x0 ) − L(h)k + kL(h)k → 0 für h → 0. Das zeigt, dass f an der Stelle x0 stetig ist. Richtungsableitungen. Ist f an der Stelle x0 differenzierbar, so existieren alle partiellen Ableitungen von f an der Stelle x0 . Ferner existieren alle Richtungsableitungen. Proposition 3.4. Sei U ⊂ Rn offen, x0 ∈ U und f : U → Rm an der Stelle x0 differenzierbar. Dann lim t→0 f (x0 + tv) − f (x0 ) = Df (x0 )(v) t für alle v ∈ Rn (hier ist t ∈ R) und insbesondere existiert der Grenzwert auf der linken Seite. Man nennt den Grenzwert auf der linken Seite die Richtungsableitung von f in der Richtung v. Beweis: Aus Differenzierbarkeit folgt, dass lim h→0 kf (x0 + h) − f (x0 ) − L(h)k =0 khk Insbesondere, falls h = tv für ein festes v ∈ Rn und t ∈ R, gilt (weil, wegen Linearität, L(tv) = tL(v)) f (x0 + tv) − f (x0 ) kf (x0 + tv) − f (x0 ) − L(tv)k −1 = kvk lim − L(v) 0 = lim t→0 t→0 ktvk t und damit lim t→0 f (x0 + tv) − f (x0 ) = L(v) t 44 Wählen wir v = ej , dann impliziert Proposition 3.4, dass alle partiellen Ableitungen (∂f /∂xj )(x0 ) für j = 1, . . . , n existieren. Es folgt auch, dass die partielle Ableitung (∂f /∂xj )(x0 ) die j-te Kolumne der Matrix Df (x0 ) ist. Mit anderen Worten, sei f : U → Rm , mit Komponenten f1 , . . . , fm : U → R, so dass f (x) = (f1 (x), f2 (x), . . . , fm (x)) für alle x ∈ U . Sei f an der Stelle x0 differenzierbar. Dann kann die lineare Abbildung Df (x0 ) : Rn → Rm durch die m × n Matrix mit Einträge (Df (x0 ))i,j = ∂fi (x0 ) ∂xj für i = 1, . . . , m und j = 1, . . . , n (44) dargestellt werden. Diese Matrix heisst die Funktionalmatrix, oder die Jacobi-Matrix von f an der Stelle x0 . Wie wir schon gemerkt haben, impliziert die Existenz der Jacobi-Matrix nicht, dass f an der Stelle x0 differenzierbar ist. Man findet aber, dass Existenz und Stetigkeit der partiellen Ableitungen die Differenzierbarkeit von f implizieren. Dieses Kriterium ist wichtig, weil es uns erlaubt, die Differenzierbarkeit von Funktionen, einfach durch Untersuchung der partiellen Ableitungen, zu beweisen. Proposition 3.5. Sei U ⊂ Rn offen, f : U → Rm . Ferner, nehmen wir an, dass die partiellen Ableitungen ∂f /∂xj (x) auf U existieren und stetig sind. Dann ist f auf U differenzierbar. Beweis: O.B.d.A. betrachten wir den Fall m = 1 (die Differenzierbarkeit von f (x) = (f1 (x), . . . , fm (x)) ist mit der Differenzierbarkeit von f1 , . . . , fm äquivalent). Der Einfachkeit halber untersuchen wir zunächst den Fall n = 2. Wir nehmen an 0 = (0, 0) ∈ U , und wir zeigen die Differenzierbarkeit in diesem Punkt. Sei h = (h1 , h2 ) so klein, dass Bkhk (0) ⊂ U . Wir schreiben f (h1 , h2 ) − f (0, 0) = f (h1 , h2 ) − f (h1 , 0) + f (h1 , 0) − f (0, 0) Da die Abbildung y → f (h1 , y) stetig differenzierbar ist (aus Existenz und Stetigkeit der partiellen Ableitung in der y-Richtung), können wir schreiben Z h2 ∂f f (h1 , h2 ) − f (h1 , 0) = dy (h1 , y) ∂y 0 Z h2 ∂f ∂f ∂f = (0, 0)h2 + dy (h1 , y) − (0, 0) ∂y ∂y ∂y 0 Analog ist x → f (x, 0) stetig differenzierbar. Deswegen Z h1 ∂f f (h1 , 0) − f (0, 0) = dx (x, 0) ∂x 0 Z h1 ∂f ∂f ∂f = (0, 0) + dx (x, 0) − (0, 0) ∂x ∂x ∂x 0 Also haben wir ∂f ∂f (0, 0)h1 − (0, 0)h2 ∂x ∂y Z h2 Z h1 ∂f ∂f ∂f ∂f = dx (x, 0) − (0, 0) + dy (h1 , y) − (0, 0) ∂x ∂x ∂y ∂y 0 0 f (h1 , h2 ) − f (0, 0)− 45 Die Differenzierbarkeit von f an der Stelle (0, 0) folgt, falls wir zeigen können, dass Z h2 Z h1 ∂f ∂f ∂f ∂f dx dy (x, 0) − (0, 0) + (h1 , y) − (h1 , y) = o(k(h1 , h2 )k) ∂x ∂x ∂y ∂y 0 0 da (h1 , h2 ) → 0. Sei also ε > 0 fest. Da die partiellen Ableitungen stetig sind, finden wir δ > 0 so dass ∂f (x, y) − ∂f (0, 0) ≤ ε und 2 ∂x ∂x ∂f (x, y) − ∂f (0, 0) ≤ ε ∂y 2 ∂y für alle (x, y) ∈ R2 mit k(x, y)k ≤ δ. Sei nun k(h1 , h2 )k ≤ δ. Dann gilt auch k(h1 , y)k ≤ δ, für alle 0 ≤ y ≤ h2 (angenommen h2 > 0, sonst ist die Aussage war für alle h2 ≤ y ≤ 0). Damit gilt ε ∂f ∂f (h1 , y) − (0, 0) ≤ ∂y ∂y 2 für alle 0 ≤ y ≤ h2 und also Z h2 ε|h2 | ∂f ∂f εkhk dy (h1 , y) − (0, 0) ≤ ≤ ∂y ∂y 2 2 0 Ähnlich gilt k(x, 0)k ≤ δ für alle 0 ≤ x ≤ h1 (oder h1 ≤ x ≤ 0, falls h1 < 0). Deswegen ∂f (x, 0) − ∂f (0, 0) ≤ ε ∂x 2 ∂x für alle 0 ≤ x ≤ h1 und also Z h1 ε|h1 | ∂f ∂f εkhk ≤ dx (x, 0) − (0, 0) ≤ ∂x ∂x 2 2 0 Es folgt, dass für alle ε > 0 ein δ > 0 existiert, so dass Z h1 Z h2 ∂f ∂f ∂f ∂f 1 ≤ε dx (x, 0) − (0, 0) + dy (h , y) − (0, 0) 1 k(h1 , h2 )k 0 ∂x ∂x ∂y ∂y 0 für alle k(h1 , h2 )k ≤ δ. Das zeigt die Behauptung. Die Verallgemeinerung zu n ≥ 3 lassen wir als Übung. Der Gradient. Sei U ⊂ Rn , offen und f : U → R eine reel-wertige Abildung, differenzierbar an der Stelle a ∈ U . Das Differential von f an der Stelle a ist dann eine lineare Abbildung Df (a) : Rn → R und kann mit einer 1 × n Matrix identifiziert werden. Mit anderen Worten, Df (a) ist ein lineares Funktional auf Rn . Wie jedes lineare Funktional auf Rn kann Df (a) mit einem Vektor v = (v1 , . . . vn ) ∈ Rn , mit der Eigenschaft, dass Df (a)(y) = v · y = n X j=1 46 vj yj für alle y = (y1 , . . . , yn ) ∈ Rn identifiziert werden. Man nennt den Vektor v den Gradienten von f an der Stelle a und man benutzt die Notation v = ∇f (a). Nach (44) sind die Komponenten vom Gradient aus ∂f ∂f ∇f (a) = (a), . . . , (a) ∂x1 ∂xn gegeben. Für einen beliebigen Einheitsvektor e ∈ Rn gilt, nach Proposition 3.4, d f (a + te)|t=0 = Df (a)(e) = ∇f (a) · e dt D.h. die Zuwachsrate der Funktion f in der Richtung e ist aus dem Skalarprodukt ∇f (a)· e gegeben. Nehmen wir an ∇f (a) 6= 0. Das Skalarprodukt ∇f (a) · e ist dann maximal über allen möglichen Einheitsvektoren e ∈ Rn , mit kek = 1, falls e = ∇f (a)/k∇f (a)k. Für e = ∇f (a)/k∇f (a)k gilt dann d ∇f (a) f (a + te) = ∇f (a) · = k∇f (a)k dt k∇f (a)k Wir haben bewiesen, dass der Vektor ∇f (a) in die Richtung der grössten Zuwachsrate der Funktion f an der Stelle a zeigt. Die Länge von ∇f (a) ist dann genau die grösste Zuwachsrate von f an der Stelle a (das gilt auch, falls ∇f (a) = 0). Stetige Differenzierbarkeit. Sei U ⊂ Rn offen. Eine Funktion f : U → Rm heisst auf U stetig differenzierbar, falls die Ableitung Df (x) existiert, für alle x ∈ U , und falls die Abbildung Df : U → L(Rn ; Rm ) stetig ist. Aus Proposition 3.5 folgt, dass f auf U genau dann stetig differenzierbar ist, wenn die partielle Ableitung ∂fi /∂xj (x) für alle i = 1, . . . , m und alle j = 1, . . . , n auf U existiert und stetig ist. Wir setzen C 1 (U ; Rm ) := {f : U → Rm : f auf U stetig differenzierbar ist} . Rechenregeln. Wir sammeln in der nächsten Proposition ein paar nützliche elementare Regeln für die Berechnung von Ableitungen von Funktionen mit mehreren Veränderlichen. Proposition 3.6. Sei U ⊂ Rn offen, a ∈ U . a) Seien f, g : U → Rm differenzierbar an der Stelle a und λ ∈ R. Dann ist auch f + λg : U → Rm differenzierbar an der Stelle a und D(f + λg)(a) = Df (a) + λDg(a). b) Ist f konstant auf U , so gilt Df (x) = 0 für alle x ∈ U . c) Ist f : Rn → Rm linear, dann gilt Df (x) = f , für alle x ∈ Rn . Beweis: Teil (a) und (b) sind offenbar, nach Definition der Ableitung und linearität des Limes. Zu Teil (c) bemerken wir, dass f (x + h) = f (x) + f (h). Das impliziert, dass kf (x + h) − f (a) − f (h)k = 0 = o(khk) Damit ist die lineare Abbildung L = f die Ableitung von f an der Stelle x. 47 Kettenregel. Die Ableitung der Verknüpfung zweier Funktionen kann durch die Kettenregel berechnet werden. Satz 3.7. Sei U ⊂ Rn und G ⊂ Rp offen. f : U → Rp , g : G → Rm , mit f (U ) ⊂ G. Sei a ∈ U , f differenzierbar an der Stelle a, g differenzierbar an der Stelle f (a). Dann ist die Funktion g ◦ f : U → Rm differenzierbar an der Stelle a ∈ U , und D(g ◦ f )(a) = Dg(f (a)) · Df (a) wobei das Produkt auf der rechten Seite die Komposition der zwei linearen Abbildungen Df (a) : Rn → Rp und Dg(f (a)) : Rp → Rm ist. Mit anderen Worten, die m × n Matrix D(g ◦ f )(a) ist aus dem Produkt der m × p Matrix Dg(f (a)) mit der p × n Matrix Df (a) gegeben. Beweis: Sei b = f (a), L = Df (a), M = Dg(b). Für h ∈ Rn , e h ∈ Rp setzen wir η1 (h) = f (a + h) − f (a) − L(h), und η2 (e h) = g(b + e h) − g(b) − M (e h) Nach Differenzierbarkeit von f an der Stelle a und von g an der Stelle b, gilt kη1 (h)k = o(khk), und kη2 (e h)k = o(ke hk) für h, e h → 0. Sei nun h ∈ Rn beliebig und e h = L(h) + η1 (h). Dann gilt b+e h = f (a) + L(h) + η1 (h) = f (a + h) Also (g ◦ f )(a + h) = g(f (a + h)) = g(b + e h) = g(b) + M (e h) + η2 (e h) = g(f (a)) + M (L(h)) + M (η1 (h)) + η2 (e h) Die Behauptung folgt, falls wir zeigen können, dass i) kM (η1 (h))k = o(khk) und ii) kη2 (e h))k = o(khk) für h → 0. Um i) zu zeigen, bemerken wir einfach, dass kM (η1 (h))k kη1 (h)k ≤ kM kop →0 khk khk für h → 0, weil η1 (h) = o(khk). Anderseits, um ii) zu beweisen, benutzen wir, dass kη1 (h)k ≤ khk für khk klein genug (weil η1 (h) = o(khk)). Deswegen gilt ke hk = kL(h) + η1 (h)k ≤ kL(h)k + kη1 (h)k ≤ (kLk + 1)khk für khk klein genug. Da η2 (e h) = o(ke hk) existiert, für ein beliebiges ε > 0 ein δ > 0 mit kη2 (e h)k ≤ εke hk ≤ (kLk + 1)εkhk für alle h ∈ Rn mit khk ≤ δ. Das bedeutet, dass η2 (e h) = o(khk) und zeigt ii). 48 Beispiel. Sei q : R → R3 die Bahn eines Teilchens als Funktion der Zeit. Sei T : R×R3 → R die Temperatur als Funktion von der Zeit und von der Position im Raum. Die vom Teilchen zur Zeit t gespürte Temperatur ist aus der Funktion t → T (t, q(t)) gegeben. Sind q und T differenzierbar, so ist auch t → T (t, q(t)) differenzierbar, mit 3 X ∂T d ∂T (t, q(t))qj0 (t) T (t, q(t)) = (t, q(t)) + dt ∂t ∂xj j=1 Das Resultat folgt mit der Definition f : R → R4 durch f (t) = (t, q1 (t), q2 (t), q3 (t)). Nach Differenzierbarkeit von q ist auch f differenzierbar, mit f 0 (t) = (1, q10 (t), q20 (t), q30 (t)) Da T (t, q(t)) = (T ◦ f )(t) folgt, dass 3 (T ◦ f )0 (t) = DT (f (t)) · f 0 (t) = (∇T )(f (t)) · f 0 (t) = X ∂T ∂T (t, q(t)) + (t, q(t))qj0 (t) ∂t ∂xj j=1 3.2 Mittelwertsatz Für eine auf [a; b] stetige und auf (a; b) differenzierbare Funktion f : [a; b] → R besagt der Mittelwertsatz, dass ein ξ ∈ (a; b) existiert, mit f (b) − f (a) = f 0 (ξ)(b − a). Wir zeigen hier eine analoge Aussage für Funktionen mit mehreren Veränderlichen. Satz 3.8 (Mittelwertsatz). Sei U ⊂ Rn offen, f : U → R differenzierbar. Seien a, b ∈ U mit [a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U Dann gibt es ein ξ ∈ [a; b] (ξ 6= a, b) mit f (b) − f (a) = ∇f (ξ) · (b − a) Beweis: Sei φ : [0, 1] → Rn durch φ(t) = (1 − t)a + tb definiert. Sei ψ : [0; 1] → R durch ψ(t) = f (φ(t)) definiert. Nach der Kettenregel ist ψ ist dann auf [0; 1] stetig und auf (0; 1) differenzierbar, mit ψ 0 (t) = ∇f (φ(t)) · φ0 (t) = ∇f ((1 − t)a + tb) · (b − a) Aus dem Mittelwertsatz für Funktionen einer Variablen existiert t0 ∈ (0; 1) mit f (b) − f (a) = ψ(1) − ψ(0) = ψ 0 (t0 )(1 − 0) = ∇f ((1 − t0 )a + t0 b) · (b − a) Die Behauptung folgt, mit ξ = (1 − t0 )a + t0 b. Für Funktionen mit Werten auf Rm , m > 1, gilt i.A. der Mittelwertsatz nicht (unabhängig davon, ob die Funktion eine oder mehrere Veränderliche hat; siehe Bemerkung unter Satz 8.9 in Analysis 1). Man kann aber eine Mittelwertabschätzung zeigen (siehe Proposition 8.10 in Analysis 1 für die Mittelwertabschätzung für Funktionen einer Variablen). 49 Satz 3.9 (Mittelwertabschätzung). Sei U ⊂ Rn offen, f : U → Rm differenzierbar, a, b ∈ U mit [a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U Sei kDf (x)kop ≤ M für alle x ∈ [a; b]. Dann gilt kf (b) − f (a)k ≤ M kb − ak Beweis: O.B.d.A. können wir annehmen, dass f (b) 6= f (a). Wir setzen e= f (b) − f (a) ∈ Rm . kf (b) − f (a)k Wir definieren die lineare Funktion φ : Rm → R durch φ(x) = x · e. Wir bemerken, dass, wegen Linearität, φ auf Rm differenzierbar ist, mit Dφ = φ. Ferner, da kek = 1, gilt kφkop ≤ 1 (eigentlich kφkop = 1). Wir definieren auch die Funktion g : Rn → R durch g(x) = φ(f (x) − f (a)) Es gilt g(a) = 0 und g(b) = kf (b)−f (a)k. Aus der Kettenregel ist g auf U differenzierbar, mit Dg(x) = Dφ(f (x) − f (a)) · Df (x) = φ · Df (x) Für x ∈ [a; b] gilt also kDg(x)kop ≤ kφkop kDf (x)kop ≤ M Der Mittelwertsatz 3.8 für die Funktion g impliziert, dass ein ξ ∈ [a; b] mit kf (b) − f (a)k = g(b) − g(a) = Dg(ξ) · (b − a) ≤ kDg(ξ)kop kb − ak ≤ M kb − ak existiert. Eine Anwendung der Mittelwertabschätzung ist der Beweis der Tatsache, dass eine auf einem offenen und zusammenhängenden Gebiet U ⊂ Rn definierte Funktion f mit Df = 0 auf U konstant sein muss. Definition 3.10. Ein Streckenzug auf Rn ist eine Menge der Form [a1 ; a2 ] ∪ [a2 ; a3 ] ∪ · · · ∪ [ap−1 ; ap ] für ein p ∈ N, und für Punkten a1 , . . . , an ∈ Rn (hier bezeichnet [a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} der Segment zwischen a und b). a0 heisst Anfangspunkt und an heisst Endpunkt des Streckenzuges. Wir sagen dann der Streckenzug verbindet die Punkten a0 und ap . Eine offene Teilmenge U ⊂ Rn heisst zusammenhängend falls je zwei Punkten in U durch einen Streckenzug in U verbinden werden können. Proposition 3.11. Sei U ⊂ Rn offen und zusammenhängend, f : U → Rm differenzierbar, mit Df (x) = 0 für alle x ∈ U . Dann ist f konstant auf U . 50 Beweis: Ist [a; b] ⊂ U dann gilt, aus Satz 3.9 mit M = 0, f (b) = f (a). Seien nun x, y ∈ U beliebig. Da U zusammenhängend ist gibt es ein Streckenzug [a0 ; a1 ] ∪ · · · ∪ [ap−1 ; ap ] in U , mit a0 = x und ap = y. Also f (x) = f (a1 ) = f (a2 ) = · · · = f (ap−1 ) = f (y) . Bemerkung: die Annahme, dass U zusammenhängend ist, ist notwendig. Sei U = {x ∈ R2 : |x| < 1 oder |x − 3| < 1} und f : U → R durch f (x) = 0 falls |x| < 1 und f (x) = 1 falls |x − 3| < 1 definiert. Dann ist U offen, und Df (x) = 0 für alle x ∈ U , aber f ist auf U nicht konstant. 3.3 Höhere Ableitungen, Taylor Entwicklung, lokale Extrema Sei U ⊂ Rn offen, und f : U → Rm differenzierbar. Die Ableitung von f ist dann eine Funktion Df : U → L(Rn ; Rm ) mit Werten in den linearen Abbildungen zwischen Rn und Rm . Man kann L(Rn ; Rm ) mit dem Vektorraum Rmn identifizieren (weil jede lineare Abbildung in L(Rn ; Rm ) mit einer m × n Matrix identifiziert werden kann). Man kann sich also fragen, ob die Abbildung Df differenzierbar ist. Ist Df an der Stelle a ∈ U differenzierbar, dann heisst f an der Stelle a zweimal differenzierbar. Die zweite Ableitung ist eine lineare Abbildung D2 f (a) : Rn → Rmn , d.h. D2 f (a) ∈ 2 L(Rn ; Rn×m ) ' Rmn . Iterativ kann man höhere Ableitungen definieren. Ist f auf U k k-mal differenzierbar, und ist die k-te Ableitung Dk f : U → Rmn an der Stelle a differenzierbar, dann sagt man, dass f an der Stelle a (k + 1)-mal differenzierbar ist, k k+1 und man bezeichnet die (k + 1)-te Ableitung mit Dk+1 f (a) ∈ L(Rn ; Rmn ) ' Rmn . Man bemerke, dass die Abbildung D2 f (a) : Rn → L(Rn ; Rm ) ' Rn×m mit der bilinearen Abbildung D2 f (a) : Rn × Rn → Rm , definiert durch (D2 f (a))(v, v 0 ) = (D2 f (a)(v))(v 0 ) , identifiziert werden kann (wir benutzen die selbe Notation D2 f (a) für die lineare Abbildung Rn → L(Rn ; Rm ) und für die bilineare Abbildung Rn × Rn → Rm ). Wir erinnern hier, dass eine Abbildung b : Rn × Rn → Rm bilinear heisst, falls die zwei Bedingungen b(v1 + λv2 , v) = b(v1 , v) + λb(v2 , v) (Linearität im ersten Argument) b(v, v1 + λv2 ) = b(v, v1 ) + λb(v, v2 ) (Linearität im zweiten Argument) (45) für alle v, v1 , v2 ∈ Rn , λ ∈ R erfüllt sind. Analog kann D3 f (a) mit einer trilinearen Form identifiziert werden und Dk f (a) mit einer k-linearen Abbildung auf Rn , mit Werten in Rm . Höhere partielle Ableitungen. Sei nun f : U → R partiell differenzierbar. Dann ist ∂f /∂xj wieder eine Funktion auf U mit Werten in R. Ist diese neue Funktion partiell differenzierbar, so können wir die partiellen Ableitungen zweiter Ordnung ∂2f ∂ ∂f = ∂xj ∂xi ∂xj ∂xi 51 definieren. Iterativ kann man partielle Ableitungen höherer Ordnung definieren (die Ordnung einer partiellen Ableitung ist die gesamte Anzahl von partiellen Ableitungen). Um die Notation ein bisschen zu vereinfachen, schreiben wir, für eine partielle Ableitung der Ordnung k, ∂kf ∂ ∂f ∂ ∂ = ∂i1 ∂i2 . . . ∂ik f = . ... ∂xi1 ∂xi2 . . . ∂xik ∂xi1 ∂xi2 ∂xik−1 ∂xik Wir sagen, die Funktion f : U → R ist k-mal partiell differenzierbar, falls alle partiellen Ableitungen der Ordnung kleiner oder gleich k existieren. Wir sagen, dass eine Funktion f : U → Rm k-mal partiell differenzierbar ist, falls f (x) = (f1 (x), . . . , fm (x)) und jede Komponente f1 , . . . , fm : U → R k-mal partiell differenzierbar ist. Für k ∈ N, k ≥ 1, bezeichnen wir mit C k (U ; Rm ) die Menge der Funktionen f : U → Rm , die auf U k-mal differenzierbar sind, so dass Dk f stetig ist. Nach Proposition 3.5 ist C k (U ; Rm ) genau die Menge der Funktionen f : U → Rm , für die alle partiellen Ableitungen der Ordnung kleiner oder gleich k existieren und stetig sind. Zur Berechnung von höheren partiellen Ableitungen ist es sehr nützlich zu bemerken, dass (unter geeigneten Annahmen an f ) sich partielle Ableitungen miteinander vertauschen, d.h. ∂i ∂j f = ∂j ∂i f . Das wird in dem nächsten Satz bewiesen. Satz 3.12 (Schwarz). Sei U ⊂ R2 offen, (x0 , y0 ) ∈ U , und f : U → R in U partiell differenzierbar. Falls ∂y ∂x f auf U existiert und an der Stelle (x0 , y0 ) stetig ist, dann existiert auch ∂x ∂y f an der Stelle (x0 , y0 ) und ∂x ∂y f (x0 , y0 ) = ∂y ∂x f (x0 , y0 ) . Bemerkung. O.B.d.A. können wir (x0 , y0 ) = (0, 0) betrachten. Da ∂y f (x, 0) = lim y→0 f (x, y) − f (x, 0) y erhalten wir f (x,y)−f (x,0) ∂y f (x, 0) − ∂y f (0, 0) y ∂x ∂y f (0; 0) = lim = lim lim x→0 x→0 y→0 x f (x, y) − f (x, 0) − f (0, y) + f (0, 0) = lim lim x→0 y→0 xy − f (0,y)−f (0,0) y x (46) Analog gilt ∂y ∂x f (0; 0) = lim lim y→0 x→0 f (x, y) − f (0, y) − f (x, 0) + f (0, 0) xy Das Problem ist also zu zeigen, dass die zwei Grenzwerte vertauscht werden können. Beweis: O.B.d.A. nehmen wir an, dass (x0 , y0 ) = (0, 0) und dass ∂y ∂x f (0, 0) = 0 (sonst ersetze f (x, y) durch f (x, y) − ∂y ∂x f (0, 0)xy). Wir definieren die Funktion φ(x, y) = f (x, y) − f (x, 0). Gemäss (46) sind wir an f (x, y) − f (0, y) − f (x, 0) + f (0, 0) φ(x, y) − φ(0, y) = xy xy 52 interessiert. Für festgehaltene y ist φ differenzierbar nach x und es gilt ∂x φ(x, y) = ∂x f (x, y) − ∂x f (x, 0) Der Mittelwertsatz (für Funktionen einer Variablen) zeigt, es existiert 0 < θ < 1 mit φ(x, y) − φ(0, y) = x∂x φ(θx, y) = x[∂x f (θx, y) − ∂x f (θx, 0)] (47) Nun ist die Funktion y → ∂x f (θx, y), für festgehaltene x und θ nach y differenzierbar, mit Ableitung ∂y ∂x f (θx, y) (wir benutzen hier die Existenz der zweiten partiellen Ableitung ∂y ∂x f auf U ). Der Mittelwertsatz (für eine Variable) impliziert also, dass ein 0 < θ0 < 1 existiert, mit ∂x f (θx, y) − ∂x f (θx, 0) = y∂y ∂x f (θx, θ0 y) Aus (47) folgt, dass φ(x, y) − φ(0, y) = xy∂y ∂x f (θx, θ0 y) und damit f (x, y) − f (0, y) − f (x, 0) + f (0, 0) = ∂y ∂x f (θx, θ0 y) xy Sei nun ε > 0 beliebig fest gewählt. Da ∂y ∂x f an der Stelle (0, 0) stetig ist, und da ∂y ∂x f (0, 0) = 0, existiert ein δ > 0 mit |∂y ∂x f (w, z)| ≤ ε für alle (w, z) ∈ R2 mit k(w, z)k ≤ δ. Seien also (x, y) ∈ R2 , mit k(x, y)k ≤ δ. Dann gilt auch k(θx, θ0 y)k ≤ δ, für alle θ, θ0 ∈ (0, 1). Deswegen gilt |∂y ∂x f (θx, θ0 y)| ≤ ε und f (x,y)−f (x,0) − y x f (0,y)−f (0,0) y f (x, y) − f (0, y) − f (x, 0) + f (0, 0) ≤ε = xy Das gilt für alle k(x, y)k ≤ δ, und also insbesondere für feste x ∈ (−δ, δ) und y → 0. Da f (x, y) − f (x, 0) = ∂y f (x, 0), y→0 y lim erhalten wir und f (0, y) − f (0, 0) = ∂y f (0, 0) y→0 y lim ∂y f (x, 0) − ∂y f (0, 0) ≤ε x für alle x ∈ (−δ, δ). Da ε > 0 beliebig ist, es folgt, dass ∂y f (x, 0) − ∂y f (0, 0) =0 x→0 x lim (und insbesondere, dass der Grenzwert existiert). Das zeigt, dass ∂x ∂y f (0, 0) = 0. Durch wiederholte Anwendung von Satz 3.12 bekommen wir das folgende Korollar für partielle Ableitungen beliebiger Ordnung. 53 Korollar 3.13. Sei U ⊂ Rn offen. Sei k ∈ N und f ∈ C k (U ). Dann gilt für alle i1 , . . . , ik ∈ {1, . . . , n} und alle Permutationen π der Zahlen {1, . . . , k}, ∂i1 . . . ∂ik f = ∂iπ1 . . . ∂iπk f . Bespiel: Sei f ∈ C 4 (U ). Dann ∂x1 ∂x1 ∂x2 ∂x2 f = ∂x1 ∂x2 ∂x1 ∂x2 f = ∂x1 ∂x2 ∂x2 ∂x1 f = . . . . Bemerkung: Nicht nur die verschiedenen partiellen Ableitungen, sondern auch beliebige Richtungsableitungen vertauschen sich miteinander. Differentialoperatoren. Man kann partielle Ableitungen als Operatoren interpretieren, die auf differenzierbare Funktionen wirken. Sei X p(ξ1 , . . . , ξn ) = pi1 ,...,in ξ1i1 . . . ξnin i1 ,...,in ≥0:i1 +···+in ≤k ein Polynom in den n Variablen ξ1 , . . . , ξn . Dann definieren wir den entsprechenden Differentialoperator X p (∂1 , . . . , ∂n ) = pi1 ,...,in ∂1i1 . . . ∂nin i1 ,...,in ≥0:i1 +···+in ≤k Der Operator p(∂1 , . . . , ∂n ) ist linear und bildet Funktionen in C k (U ) nach Funktionen in C(U ). Der Operator ist wohldefiniert aus Satz 3.12, weil die verschiedenen partiellen Ableitungen sich miteinander vertauschen (wäre das nicht der Fall, so würden zwei verschiedene Operatoren dem selben Polynom entsprechen). Eine weitere Folgerung von Satz 3.12 ist die folgende Bemerkung: Seien p1 , p2 zwei Polynome in n Variablen der Ordnung k1 und k2 , sei p1 · p2 das Produkt der zwei Polynome (ein Polynom in n Variablen der Ordnung k1 + k2 ). Dann gilt p1 (∂1 , . . . , ∂n ) · p2 (∂1 , . . . , ∂n ) = (p1 · p2 )(∂1 , . . . , ∂n ) als Identität zweier Operatoren auf C (k1 +k2 ) (U ). Das Produkt auf der linken Seite ist die Komposition von zwei (linearen) Abbildungen. P Beispiel: Sei p(ξ1 , . . . , ξn ) = nj=1 ξj2 . Der Laplace-Operator auf Rn ist aus ∆ := p (∂1 , . . . , ∂n ) = n X ∂j2 = j=1 n X ∂2 ∂x2j j=1 gegeben. Der Laplace-Operator wirkt auf C 2 (Rn ). Taylor Entwicklung. Wir erinnern uns an den Begriff der Taylor-Entwicklung für Funktionen einer Variablen (siehe Kapitel 8.6 im Skript zu Analysis 1). Sei f ∈ C m+1 ([a; x]). Dann existiert ξ ∈ (a; x), so dass f (x) = f (a) + f 0 (a)(x − a) + · · · + f (m) (a) f (m+1) (ξ) (x − a)m + (x − a)m+1 . m! (m + 1)! 54 Sei nun U ⊂ Rn offen, a ∈ U und h ∈ Rn mit a + h ∈ U . Sei weiter f ∈ C m+1 (U ) R-wertig. Wir setzen φ(t) = f (a + th). Dann ist φ ∈ C m+1 ([0, 1]), mit φ(1) = f (a + h) und φ(0) = f (a). Das impliziert, dass f (a + h) = f (a) + m X φ(j) (0) j=1 j! + φ(m+1) (θ) (m + 1)! für ein θ ∈ (0; 1). Wir müssen die Ableitungen von φ berechnen. Es gilt φ0 (t) = Df (a + th)(h) = h · ∇f (a + th) und deswegen φ0 (0) = h · ∇f (a). Induktiv bekommen wir φ(j) (t) = (h · ∇)j f (a + th) Der Operator (h · ∇)j ist ein Differentialoperator der Ordnung j. Man findet !j n X X (h · ∇)j hi11 . . . hinn i1 = ∂ . . . ∂nin hi ∂i = j! i1 !i2 ! . . . in ! 1 i1 ,...,in ≥0:i1 +···+in =j i=1 und also die Taylor-Entwicklung f (a + h) = f (a) + + m X 1 ∂1i1 . . . ∂nin f (a) hi11 . . . hinn i !i ! . . . in ! j=1 i1 ,...,in ≥0:i1 +···+in =j 1 2 (48) X 1 i1 i1 in in ∂ . . . ∂n f (a + θh) h1 . . . hn i1 !i2 ! . . . in ! 1 X i1 ,...,in :i1 +···+in =m+1 Es ist nützlich, eine kompaktere Notation für die höheren partiellen Ableitungen einzuführen. Ein Multiindex ist eine n-Tupel i = (i1 , . . . , in ) mit ij ∈ N für alle j = 1, . . . , n. Der Betrag des Multiindexes i = (i1 , . . . , in ) wird als |i| = i1 + i2 + · · · + in definiert. Für den Multiindex i definieren wir weiter die partielle Ableitung der Ordnung |i| ∂ i := ∂1i1 ∂2i2 . . . ∂nin und hi := hi11 . . . hinn für alle h = (h1 , . . . , hn ) ∈ Rn . Wir setzen auch i! := i1 !i2 ! . . . in !. Dann lässt sich (48) als f (a + h) = m X X (∂ i f )(a) i h + i! j=0 i:|i|=j X i:|i|=m+1 (∂ i f )(a + θh) i h i! (49) schreiben, für ein beliebiges f ∈ C m+1 (U ), U ⊂ Rn offen, a ∈ U und h klein genug. In (49) bilden die ersten m Termen das m-te Taylor-Polynom von f an der Stelle a: m X X (∂ i f )(a) i h pm (h) = i! j=0 i:|i|=j 55 Der letzte Term auf der rechten Seite von (49) heisst das Restglied. Das Restglied ist offenbar O(khkm+1 ), für h → 0. In den Übungen wird ferner bewiesen, dass m+1 i X X 1 (∂ f )(a) i f (a + h) − lim h = 0. m+1 h→0 khk i! j=0 i:|i|=j Wir haben in (45) bemerkt, dass die r-te Ableitung Dr f (a) als die r-lineare Form Dr f (a) :Rn × · · · × Rn → R (v1 , v2 , . . . , vr ) → Dr f (a)(v1 , . . . , vr ) = (((Dr f (a)(v1 ))(v2 )) . . . )(vr ) interpretiert werden kann. Man kann dann überprüfen, dass X (∂ i f )(a) X 1 r 1 D f (a)(h, h, . . . , h) = hi = (∂ i1 . . . ∂nin f )(a)hi11 . . . hinn r! i! i1 !i2 ! . . . in ! 1 i:|i|=r i:|i|=r Damit können wir die Taylor-Entwicklung (49) als f (a + h) = m X Dr f (a)(h, . . . , h) r=0 r! + Dm+1 f (a + θh)(h, . . . , h) (m + 1)! (50) umschreiben. Man bemerke, dass, für feste a, Dr f (a)(h, . . . , h) ein homogenes Polynom von Grad r in h ist. D.h. g(h) := Dr f (a)(h, . . . , h) ist ein Polynom in h, mit der Eigenschaft g(th) = tr g(h) für alle t ∈ R. Lokale Extrema und kritische Punkte. Sei U ⊂ Rn offen und f : U → R. Ein Punkt a ∈ U heisst ein lokales Minimum von f , falls eine offene Umgebung A ⊂ U von a existiert, mit f (a) = min{f (x) : x ∈ A}. a heisst ein lokales Maximum von f , falls eine offene Umgebung A ⊂ U von a existiert, so dass f (a) = max{f (x) : x ∈ A}. a ∈ U heisst ein lokales Extremum, falls a entweder ein lokales Minimum oder ein lokales Maximum ist. Für eine Funktion φ einer Variablen haben wir in Analysis 1 bewiesen, dass, falls φ an der Stelle t ∈ R differenzierbar ist, mit φ0 (t) 6= 0, t kein Extremum sein kann. Im nächsten Satz zeigen wir die analoge Aussage für Funktionen mehrerer Veränderlichen. Satz 3.14. Sei U ⊂ Rn offen, a ∈ U und f : U → R differenzierbar an der Stelle a. Es gelte ∇f (a) 6= 0. Dann ist a kein Extremum von f . Beweis: Sei e ∈ Rn ein Einheitsvektor mit e · ∇f (a) 6= 0. Wir setzen φ(t) = f (a + te) für t ∈ R, mit |t| klein genug (damit a+te ∈ U ). φ ist an der Stelle t = 0 differenzierbar, mit φ0 (0) = e · ∇f (a) 6= 0. Also ist 0 ∈ R keine Extremalstelle von φ. D.h. φ nimmt in jeder Umgebung von 0 Werten grösser als φ(0) = f (a) und Werten kleiner als φ(0) = f (a) an. Das zeigt, dass a keine Extremalstelle von f ist. Seien U , f wie oben. Wir sagen a ∈ U ist ein kritischer Punkt von f , falls f in a differenzierbar ist und ∇f (a) = 0. Ist a ∈ U ein Extremum von f , so muss entweder f an der Stelle a nicht differenzierbar sein, oder a muss ein kritischer Punkt sein. 56 Sei nun f ∈ C p (U ) und a eine kritische Stelle von f . Es existiere 1 < r < p mit 6= 0. Sei r die kleinste ganze Zahl mit dieser Eigenschaft. Dann gilt, aus (50), Dr f (a) f (a + h) = f (a) + 1 r D f (a)(h, . . . , h) + O(khkr+1 ) r! (51) für h → 0. Die Frage, ob a ein Maximum, ein Minimum oder keine Extremalstelle ist, wird vom Verhalten von Dr f (a)(h, . . . , h) bestimmt. Definition 3.15. Sei p : Rn → R ein homogenes Polynom. Wir sagen p ist positiv definit, wenn p(h) > 0 für alle h 6= 0 p ist positiv semidefinit, wenn p(h) ≥ 0 für alle h p ist negativ definit, wenn p(h) < 0 für alle h 6= 0 p ist negativ semidefinit, wenn p(h) ≤ 0 für alle h p ist indefinit, wenn p weder positiv noch negativ semidefinit ist Ist p indefinit, so nimmt p Werte mit beiden Vorzeichen. Bemerkung. Ist p : Rn → R ein homogenes Polynom von ungeradem Grad r, so ist entweder p ≡ 0 oder p indefinit. In der Tat p(−h) = (−1)r p(h) = −p(h) D.h. entweder ist p ≡ 0 oder p nimmt positive und negative Werte an. Beispiele: Sei n = 2, r = 2. Dann ist p(h1 , h2 ) = h21 + h22 positiv definit 2 p(h1 , h2 ) = (h1 + h2 ) positiv semidefinit p(h1 , h2 ) = −h21 − h22 negativ definit 2 p(h1 , h2 ) = −(h1 + h2 ) p(h1 , h2 ) = h1 h2 seminegativ definit indefinit Aus (51) folgt einfach, falls a ein lokales Minimum ist, so muss Dr f (a) positiv semidefinit sein, und falls a ein lokales Maximum ist, so muss Dr f (a) negativ semidefinit sein. Die umgekehrten Aussagen gelten i.A. nur, wenn Dr f (a) positiv bzw. negativ definit sind (statt nur semidefinit). Das ist der Inhalt der nächsten Proposition. Proposition 3.16. Sei U ⊂ Rn offen, f ∈ C p (U ), a ∈ U eine kritische Stelle von f , und r < p so, dass (wie in (51)) f (a + h) = f (a) + 1 r D f (a)(h, . . . , h) + O(khkr+1 ) r! für h → 0. Dann gilt a) Ist Dr f (a)(h, . . . , h) positiv definit, so ist a ein lokales Minimum. b) Ist Dr f (a)(h, . . . , h) negativ definit, so ist a ein lokales Maximum. 57 c) Ist Dr f (a)(h, . . . , h) indefinit, so ist a kein Extremum. Bemerkung: Ist Dr f (a)(h, . . . , h) positiv semidefinit (aber nicht positiv definit) oder negativ semidefinit (aber nicht negativ definit), so wird in Proposition 3.16 keine Aussage über die kritische Stelle a gemacht. In diesem Fall ist eine tiefere Untersuchung notwendig. Beweis: a) Das Polynom h → Dr f (a)(h, . . . , h) ist stetig und Dr f (a)(h, . . . , h) > 0 für alle h ∈ S = {h ∈ Rn : khk = 1} (S n−1 ist die Einheitssphäre in Rn ). Da S ⊂ Rn kompakt ist, folgt aus dem Sazt vom Maximum, dass α = inf h∈S Dr f (a)(h, . . . , h) > 0. Für ein beliebiges h ∈ Rn , h 6= 0 schreiben wir h = khke für ein e ∈ S. Dann gilt Dr f (a)(h, . . . , h) = khkr Dr f (a)(e, . . . , e) ≥ αkhkr . Das gibt 1 r α D f (a)(h, . . . , h) + O(khkr+1 ) ≥ f (a) + khkr + O(khkr+1 ) r! r! α r = f (a) + khk (1 + O(khk)) ≥ f (a) r! f (a + h) = f (a) + für alle h ∈ Rn klein genug. Das zeigt, dass a ein lokales Minimum ist. Analog zeigt man die Aussage b). Um c) zu zeigen, finden wir e1 , e2 ∈ S mit Dr f (a)(e1 , . . . , e1 ) > 0 und Dr f (a)(e2 , . . . , e2 ) < 0. Für λ > 0 beliebig finden wir f (a + λe1 ) = f (a) + λr r D f (a)(e1 , . . . , e1 )(1 + O(λ)) > f (a) r! und λr r D f (a)(e2 , . . . , e2 )(1 + O(λ)) < f (a) r! für alle λ > 0 klein genug. Damit ist a kein Extremum. f (a + λe2 ) = f (a) + Besonders wichtig ist der Fall, dass an einem kritischen Punkt a einer Funktion f ∈ C 3 (U ), die zweite Ableitung nicht verschwindet. In diesem Fall hängt die Frage, ob a ein Minimum, ein Maximum oder keine Extremalstelle ist, mit dem Verhalten der quadratischen Form D2 f (a)(h, h) zusammen. Wir bemerken, dass, falls h = (h1 , . . . , hn ), 2 D f (a)(h, h) = n X i,j=1 ∂2f (a)hi hj . ∂xi ∂xj Wir definieren die n × n Matrix Hij = ∂i ∂j f (a) = ∂2f (a) . ∂xi ∂xj Die Matrix Hij heisst P die Hesse’sche Matrix von f an der Stelle a, die quadratische n Form D2 f (a)(h, h) = i,j=1 Hij hi hj die Hesse’sche Form. Aus Satz 3.12 folgt, dass die Matrix Hij symmetrisch ist (d.h. Hij = Hji ). Die Hesse’sche Form heisst nicht entartet, falls det(Hij ) 6= 0. Tatsache: Ist die Hesse’sche Form nicht entartet, dann ist sie entweder positiv definit, negativ definit oder indefinit (der Fall, dass D2 f (a) positiv 58 semidefinit, aber nicht positiv definit, und der Fall, dass D2 f (a) negativ semidefinit, aber nicht negativ definit ist, sind ausgeschlossen). Diese Aussage folgt aus der Bemerkung, dass eine symmetrische n × n Matrix immer durch eine unitäre Matrix diagonalisierbar ist. Seien λ1 , . . . , λn die (nicht notwendigerweise verschiedenen) Eigenwerte von Hij . Ist D2 f (a) nicht entartet, so gilt λi 6= 0 für alle i = 1, . . . , n. Es gibt also nur drei Möglichkeiten: 1) alle Eigenwerte sind positiv, 2) alle Eigenwerte sind negativ, 3) es gibt positive und negative Eigenwerte. Im Fall 1) ist D2 f (a) positiv definit, im Fall 2) ist D2 f (a) negativ definit und im Fall 3) ist D2 f (a) indefinit. Es folgt aus dieser Bemerkung, dass, falls die Hesse’sche Form nicht entartet ist, man immer durch Untersuchung von D2 f (a) entscheiden kann, ob der kritische Punkt a ein Maximum, ein Minimum oder kein Extremum ist. 3.4 Umkehrabbildung und Satz über implizite Funktionen Für differenzierbare Funktionen einer Variablen f : R ⊃ Ω → R haben wir in Analysis 1 gezeigt, dass, unter der Bedingung f 0 (a) 6= 0, die Umkehrabbildung lokal wohldefiniert und an der Stelle f (a) differenzierbar, mit (f −1 )0 (f (a)) = 1/f 0 (a), ist. Wir möchten nun eine analoge Aussage für Funktionen mehrerer Variablen beweisen. Die Bedingung f 0 (a) 6= 0 wird hier durch die Bedingung ersetzt, dass Df (a) invertierbar ist. Satz 3.17 (Satz über die Umkehrabbildung). Sei U ⊂ Rn offen, f : U → Rn stetig differenzierbar, a ∈ U und Df (a) ∈ L(Rn ; Rn ) invertierbar. Dann existieren offene Umgebungen V von a und W von f (a) so, dass f : V → W bijektiv und f −1 : W → V stetig differenzierbar. Ferner gilt Df −1 (f (a)) = (Df (a))−1 . Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , d.h. es gelte f (x) = (f1 (x), . . . , fn (x)) für alle x ∈ U . Die Invertierbarkeit von Df (a) ist dann äquivalent zur Bedingung, dass ∂fi (a) det 6= 0 . ∂xj i,j≤n Im Beweis des Satzes (genauer gesagt, um die Stetigkeit der Ableitung von f −1 zu zeigen) werden wir die folgende Proposition benutzen. Proposition 3.18. Sei GL(Rn ) = {L ∈ L(Rn ; Rn ) : L ist invertierbar} Die Menge GL(Rn ) ist in L(Rn ; Rn ) offen (bezüglich der aus der Operatornorm (oder aus jeder anderen Norm) induzierten Topologie). Die Abbildung i : GL(Rn ) → GL(Rn ), definiert durch i(L) = L−1 ist stetig. Beweis: Sei L ∈ L(Rn ; Rn ) invertierbar. Dann gilt kL−1 kop = sup y6=0 kxk 1 kL−1 yk = sup = kyk x6=0 kLxk inf x6=0 59 kLxk kxk und deswegen kLxk 1 = −1 x6=0 kxk kL kop inf Das impliziert, dass kLxk ≥ 1 kxk kL−1 kop (52) für alle x ∈ Rn . −1 Sei nun L0 ∈ GL(Rn ) invertierbar und L ∈ L(Rn ; Rn ) mit kL − L0 kop < kL−1 0 k . Dann gilt, für ein beliebiges x ∈ Rn , −1 kLxk ≥ kL0 xk − k(L − L0 )xk ≥ kL−1 (53) 0 kop − kL − L0 kop kxk ≥ ckxk für ein c > 0. Das zeigt, dass L injektiv und deswegen auch invertierbar ist (eine lineare Abbildung L ∈ L(Rn ; Rn ) ist genau dann bijektiv, wenn sie injektiv ist). Das impliziert, dass −1 n {L ∈ L(Rn ; Rn ) : kL − L0 kop < kL−1 0 kop } ⊂ GL(R ) und also, dass GL(Rn ) offen ist. Aus (53) finden wir auch kL−1 kop = 1 inf x6=0 kLxk kxk ≤ 1 kL−1 0 kop kL−1 1 0 kop = −1 − kL − L0 kop 1 − kL0 kop kL − L0 kop −1 −1 Da L−1 − L−1 0 = L (L0 − L)L0 erhalten wir −1 −1 kL−1 − L−1 0 kop ≤ kL kop kL0 kop kL − L0 kop ≤ 2 kL−1 0 k kL − L0 kop 1 − kL−1 0 kop kL − L0 kop Das zeigt, dass die Abbildung i(L) = L−1 stetig an der Stelle L0 ist, für jede L0 ∈ GL(Rn ). Beweis von Satz 3.17. O.B.d.A können wir annehmen, dass a = 0 und f (0) = 0 (sonst ersetzen wir f durch die Funktion fe(x) = f (x + a) − f (a)). Wir definieren φ : U → Rn durch φ(x) = f (x)−Df (0)(x). Dann gilt f (x) = Df (0)(x)+φ(x) und Df (x) = Df (0)+ Dφ(x) für alle x ∈ U . Insbesondere gilt φ(0) = f (0) = 0 und Dφ(0) = 0. Da f stetig differenzierbar ist, ist die Abbildung x → Dφ(x) stetig. Also existiert r0 > 0 mit kDφ(x)kop ≤ 1 2kDf (0)−1 kop für alle x ∈ B r0 := {x ∈ Rn : kxk ≤ r0 }. Aus der Mittelwertabschätzung gilt dann kφ(x1 ) − φ(x2 )k ≤ 1 kx1 − x2 k 2kDf (0)−1 kop (54) für alle x1 , x2 ∈ B r0 . Insbesondere, mit x2 = 0, finden wir kφ(x)k ≤ (2kDf (0)−1 kop )−1 kxk für alle x ∈ B r0 (weil φ(0) = 0). 60 Schritt 1. Für alle r ≤ r0 gilt f (B r ) ⊃ B r/2kDf (0)−1 kop . D.h. für jede y ∈ Rn mit kyk ≤ r/(2kDf (0)−1 kop ) existiert ein x ∈ B r mit f (x) = y. Beweis. Für beliebige y ∈ B r/2kDf (0)−1 kop definieren wir ψy : B r → Rn durch ψy (x) = Df (0)−1 (y − φ(x)). Es gilt f (x) = y genau dann, wenn ψy (x) = x, d.h. wenn x ein Fixpunkt von ψy ist. Wir möchten den Banachschen Fixpunktsatz anwenden, um zu zeigen, dass ψy einen Fixpunkt in B r besitzt. Dazu bemerken wir zunächst, dass kψy (x)k = kDf (0)−1 kop ky − φ(x)k ≤ kDf (0)−1 kop (kyk + kφ(x)k) ≤ r für alle y ∈ B r/2kDf (0)−1 kop und x ∈ B r (wir haben hier (54) gebraucht). Das zeigt, dass für alle y ∈ B r/2kDf (0)−1 kop , ψy : B r → B r . Ferner haben wir ψy (x1 ) − ψy (x2 ) = Df (0)−1 (φ(x1 ) − φ(x2 )) und deswegen 1 kψy (x1 ) − ψy (x2 )k = kDf (0)−1 kop kφ(x1 ) − φ(x2 )k ≤ kx1 − x2 k 2 für alle x ∈ B r (wieder wegen (54)). Es folgt, dass für alle y ∈ B r/2kDf (0)−1 kop , ψy eine Kontraktion auf B r ist. Da B r ein vollständiger metrischer Raum ist, folgt aus Satz 2.3, dass für alle y ∈ B r/2kDf (0)−1 kop ein x ∈ B r mit f (x) = y existiert. Schritt 2. Es gilt 3kDf (0)kop 1 kx1 − x2 k kx1 − x2 k ≤ kf (x1 ) − f (x2 )k ≤ −1 2kDf (0) kop 2 für alle x1 , x2 ∈ B r0 . Insbesondere ist f auf B r0 injektiv. Beweis: Wir haben f (x) = φ(x) + Df (0)(x). Aus (54) gilt kf (x1 ) − f (x2 )k ≤ kDf (0)kkx1 − x2 k + kφ(x1 ) − φ(x2 )k 1 ≤ kDf (0)kop + kx1 − x2 k 2kDf (0)−1 kop Aus 1 = Df (0)Df (0)−1 folgt, dass 1 ≤ kDf (0)kop kDf (0)−1 kop und damit kDf (0)−1 k−1 op ≤ kDf (0)kop . Das ergibt kf (x1 ) − f (x2 )k ≤ 3kDf (0)kop kx1 − x2 k 2 für alle x1 , x2 ∈ B r0 . Anderseits gilt aus (52) und wieder aus (54), kf (x1 ) − f (x2 )k ≥ kDf (0)(x1 − x2 )k − kφ(x1 ) − φ(x2 )k 1 1 ≥ − kx1 − x2 k kDf (0)−1 kop 2kDf (0)−1 kop 1 = kx1 − x2 k . 2kDf (0)−1 kop 61 Sei nun r < r0 fest. Wir setzen W0 = Br/(2kDf (0)−1 kop ) = {x ∈ Rn : kxk < r/2kDf (0)−1 kop }, und V0 = f −1 (W0 ) ∩ Br0 = {x ∈ Br0 : kf (x)k < r}. W0 ist offen. Da f stetig, ist auch V0 offen. Es folgt aus Schritten 1 und 2, dass f : V0 → W0 bijektiv ist. Die Injektivität folgt aus Schritt 2, weil V0 ⊂ Br0 . Die Surjektivität folgt dagegen aus Schritt 1, weil für jede y ∈ Br/(2kDf (0)−1 kop , x ∈ B r ⊂ Br0 mit f (x) = y existiert. Wir bezeichnen die Inverse mit g : W0 → V0 . Für y1 , y2 ∈ W0 setze x1 = g(y1 ) und x2 = g(y2 ). Aus Schritt 2 haben wir kg(y1 ) − g(y2 )k = kx1 − x2 k ≤ 2kDf (0)−1 kop kf (x1 ) − f (x2 )k = 2kDf (0)−1 kop ky1 − y2 k Also ist g auf W0 stetig (sogar Lipschitz-stetig). Schritt 3. g ist an der Stelle 0 differenzierbar. Es gilt Dg(0) = Df (0)−1 . Beweis. Da g(0) = 0 müssen wir zeigen, dass g(y) − Df (0)−1 (y) = o(kyk) für y → 0. Sei 0 < ε < 1 festgewählt. Da x → φ(x) stetig, existiert δ > 0 so, dass kDφ(x)k ≤ ε/(2kDf (0)−1 kop ) für alle kxk ≤ δ. Nach Definition von r0 > 0 gilt δ ≤ r0 . Für y ∈ Rn mit kyk < δ/(2kDf (0)−1 kop , sei x = g(y). Dann gilt kxk ≤ δ. Ferner f (x) = y = Df (0)(x) + φ(x) Wir multiplizieren rechts und links mit der Matrix Df (0)−1 und erhalten g(y) − Df (0)−1 (y) = −Df (0)−1 (φ(x)) Aus der Mittelwertabschätzung für φ, kg(y) − Df (0)−1 (y)k = kDf (0)−1 φ(x)k = kDf (0)−1 (φ(x) − φ(0))k ε ≤ kDf (0)−1 kop kφ(x) − φ(0)k ≤ kxk 2 ε −1 ≤ kg(y)k ≤ εkDf (0) kop kyk 2 Da ε > 0 beliebig ist, folgt die Behauptung. Wir haben somit folgendes bewiesen: Für jede a ∈ U mit Df (a) invertierbar, existieren offene Umgebungen V0 von a und W0 von f (a), so dass f : V0 → W0 bijektiv ist, und so, dass f −1 : W0 → V0 stetig und an der Stelle a differenzierbar ist, mit Df −1 (f (a)) = (Df (a))−1 . Da x → Df (x) stetig, und da die Menge der invertierbaren linearen Abbildungen GL(Rn ) in L(Rn , Rn ) offen ist, finden wir eine offene Umgebung V ⊂ V0 von a so, dass Df (x) invertierbar ist, für alle x ∈ V . Wir setzen W = f (V ); da f −1 stetig ist, ist auch W offen. f −1 ist dann in jedem Punkt von W differenzierbar und Df −1 (f (x)) = (Df (x))−1 = Df (x)−1 . Da die Abbildung i : GL(Rn ) → GL(Rn ) stetig ist, ist Df (x)−1 = i(Df (x)) als Komposition zweier stetiger Abbildungen wieder stetig. Damit ist f −1 : W → V stetig differenzierbar. 62 Definition 3.19. Seien X, Y zwei metrische Räume. Ein Homöomorphismus von X nach Y ist eine Bijektion f : X → Y , so dass f und f −1 stetig sind. Ist f : X → Y ein Homöomorphismus, so ist auch f −1 ein Homöomorphismus. Eine stetige Bijektion f : X → Y ist genau dann ein Homöomorphismus, wenn f (U ) offen in Y für jede U offen in X ist (weil eine Abbildung genau dann stetig ist, wenn das Urbild jeder offenen Menge wieder offen ist; siehe Analysis 1, Prop. 6.18). Zwei metrische Räume X, Y heissen homöomorph, wenn ein Homöomorphismus f : X → Y existiert. Seien nun U ⊂ Rn und V ⊂ Rm offen. Ein Homöomorphismus f : U → V heisst ein Diffeomorphismus, falls f und f −1 stetig differenzierbar sind. Zwei offene Mengen U ⊂ Rn und V ⊂ Rm heissen diffeomorph, wenn ein Diffeomorphismus f : U → V existiert. Eine Bijektion f : U → V ist genau dann ein Diffeomorphismus, wenn f −1 ein Diffeomorphismus ist. Bemerkung: Ist U ⊂ Rn , V ⊂ Rm und f : U → V ein Diffeomorphismus, dann gilt f −1 ◦ f (x) = x für alle x ∈ U . Die Kettenregel impliziert, dass Df −1 (f (x)) ◦ Df (x) = 1, wobei Df −1 (f (x)) ∈ L(Rm ; Rn ) und Df (x) ∈ L(Rn ; Rm ). Das ist nur möglich, falls m ≥ n. Analog impliziert f ◦ f −1 (x) = x, dass Df (f −1 (x)) ◦ Df −1 (x) = 1 und also, dass n ≥ m. Es folgt, dass n = m. Mit anderen Worten können nur Mengen der gleichen Dimension zueinader diffeomorph sein. Tatsache: Sind U ⊂ Rn und V ⊂ Rm nicht leer und offen, und f : U → V ein Homöomorphismus, dann muss n = m sein. Bemerkung: Der Satz der Umkehrabbildung besagt, dass falls U ⊂ Rn offen ist, a ∈ U , f : U → Rn stetig differenzierbar, mit Df (a) invertierbar, dann ist f lokal in der Nähe von a ein Diffeomorphismus. D.h. es existieren offene Umgebungen V von a und W von f (a), so dass f : V → W ein Diffeomorphismus ist. Eine wichtige Anwendung des Satzes über die Umkehrabbildung ist der Satz über implizite Funktionen. Oft werden Teilmengen von Rn durch Gleichungen definiert. Z.B. ist {(x, y) ∈ R2 : y = x3 } eine Teilmenge von R2 . In diesem Fall ist die Teilmenge besonders einfach, weil sie als Graph einer Funktion geschrieben werden kann. Das ist i.A. nicht möglich. Z.B. für den Einheitskreis S = {(x, y) ∈ R2 : x2 + y 2 = 1} existiert keine Funktion g, definiert auf einer Teilmenge U ⊂ R, mit der Eigenschaft, dass S = {(x, g(x)) : x ∈ U }. Trotzdem ist es in diesem Fall möglich, S lokal als Graph zu schreiben. Betrachten wir z.B. den Punkt (0, 1) auf S. Es ist dann einfach zu sehen, dass offene Umgebungen U ⊂ R von 0 und V ⊂ R von 1 und eine differenzierbare Funktion g : U → V existiert, mit der Eigenschaft, dass S ∩ (U × V ) = {(x, g(x)) : x ∈ U } . √ In diesem Fall ist es sogar möglich, g(x) = 1 − x2 explizit zu schreiben. Ein anderes Beispiel ist das sogenannte kartesische Blatt T = {(x, y) ∈ R2 : x3 − 2xy + y 3 = 0} . 63 Wie S, kann auch T nicht global als Graph einer Funktion geschrieben werden. Ist es möglich, T lokal als Graph zu schreiben? Der Punkt (1, 1) ist z.B. in T . Es ist einfach zu sehen (vgl. Bild von T ), dass offene Umgebungen U, V ⊂ R von 1 und eine differenzierbare Funktion f : U → V existieren, so dass f (1) = 1 und T ∩ (U × V ) = {(x, f (x)) : x ∈ U } . Kann T in der Nähe von jedem seiner Punkte lokal als Graph einer Funktion geschrieben werden? Nein: Es ist einfach zu sehen, dass in der Nähe von (0, 0), T nicht als Graph geschrieben werden kann. Was unterscheidet also die Punkte (1, 1) und (0, 0) auf T ? Sei f (x, y) = x3 − 2xy + y 3 , so dass T Menge aller Nullstellen von f ist. Dann gilt ∂f (x, y) = −2x + 3y 2 ∂y Wir zeigen im nächsten Satz, dass der fundamentale Unterschied zwischen (1, 1) und (0, 0) die Tatsache ist, dass (∂f /∂y)(1, 1) = −2 6= 0 während (∂f /∂y)(0, 0) = 0. Satz 3.20 (Satz über implizite Funktionen). Seien m, n ∈ N\{0}, U ⊂ Rm × Rn offen und nicht leer. Sei f ∈ C 1 (U ; Rn ) und (x0 , y0 ) ∈ U mit f (x0 , y0 ) = 0. Es gelte ∂fi 6= 0 (55) (x0 , y0 ) det ∂yj 1≤i,j≤n Dann existieren offene Umgebungen V ⊂ Rm von x0 und W ⊂ Rn von y0 und eine stetig differenzierbare Funktion g : V → W , so dass {(x, y) ∈ V × W : f (x, y) = 0} = {(x, g(x)) : x ∈ V } Ferner gilt Dg(x0 ) = −(Dy f (x0 , y0 ))−1 · Dx f (x0 , y0 ) . (56) Bemerkung: Dy f (x0 , y0 ) und Dx f (x0 , y0 ) bezeichnen die Ableitung von f als Funktion von y bei festen x = x0 , bzw. die Ableitung von f als Funktion von x, bei festen y = y0 . Dy f (x0 , y0 ) ist eine n × n Matrix und Dx f (x0 , y0 ) eine n × m Matrix. Die Bedingung (55) bedeutet genau, dass die Matrix Dy f (x0 , y0 ) invertierbar ist. In diesem Fall ist die Inverse Dy f (x0 , y0 )−1 wieder eine n × n Matrix und Dy f (x0 , y0 )−1 · Dx f (x0 , y0 ) eine n × m Matrix. Damit ist (56) konsistent mit der Tatsache, dass g eine Teilmenge von Rm auf einer Teilmenge von Rn abbildet. Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , s.d. f (x, y) = (f1 (x, y), . . . , fn (x, y)) für alle (x, y) ∈ U gelte. Dann ist die vektorielle Gleichung f (x, y) = 0 das System von n Gleichungen f1 (x1 , . . . , xm , y1 , . . . , yn ) = 0 f2 (x1 , . . . , xm , y1 , . . . , yn ) = 0 ... fn (x1 , . . . , xm , y1 , . . . , yn ) = 0 Der Satz besagt, dass, falls Dy f (x0 , y0 ) invertierbar ist, kann man das Gleichungssystem lokal für (y1 , . . . , yn ) lösen. Sind die Funktionen f1 , . . . , fn linear oder affin, dann ist die Behauptung schon aus der linearen Algebra bekannt (in diesem Fall ist die Ableitung Dy f (x0 , y0 ) unabhängig von (x0 , y0 ) und die Behauptung gilt natürlich global). 64 Beweis: Wir definieren die Hilfsfunktion F : U → Rm × Rn durch F (x, y) = (x, f (x, y)). Da f ∈ C 1 (U ; Rn ), ist F stetig differenzierbar. Die Ableitung von F an der Stelle (x0 , y0 ) ist aus der Blockmatrix 0 1Rm DF (x0 , y0 ) = Dx f (x0 , y0 ) Dy f (x0 , y0 ) mit der n × m Matrix Dx f (x0 , y0 ) = ((∂fi /∂xj )(x0 , y0 )) und mit der n × n Matrix Dy f (x0 , y0 ) = ((∂fi /∂yj )(x0 , y0 )) gegeben (1Rm ist die Identität auf Rm ). Nach Annahme ist Dy f (x0 , y0 ) invertierbar; sei Dy f (x0 , y0 )−1 die Inverse. Wir behaupten, dass auch DF (x0 , y0 ) invertierbar ist. In der Tat, explizite Berechnung zeigt, dass 0 0 1Rm 1Rm · −Dy f (x0 , y0 )−1 Dx f (x0 , y0 ) Dy f (x0 , y0 )−1 Dx f (x0 , y0 ) Dy f (x0 , y0 ) 1Rm 0 = . 0 1Rn Deswegen ist DF (x0 , y0 ) invertierbar. Aus dem Satz über die Umkehrabbildung (Satz 3.17) folgt, dass offene Umgebungen U1 ⊂ Rm × Rn von (x0 , y0 ) und U2 ⊂ Rm × Rn von F (x0 , y0 ) = (x0 , 0) existieren, so dass F : U1 → U2 ein Diffeomorphismus ist. Da U1 eine offene Umgebung von (x0 , y0 ) ist, kann man offene Umgebungen Ve ⊂ Rm von x0 und W ⊂ Rn von y0 , mit Ve × W ⊂ U1 . Dann ist F (Ve × W ) ⊂ U2 eine offene Umgebung von (x0 , 0) (weil F ein Homöomorphismus ist), und F : Ve × W → F (Ve × W ) wieder ein Diffeomorphismus. Sei G : F (Ve × W ) → Ve × W die Inverse dieses e : F (Ve × W ) → Diffeomorphismus’. Da F (x, y) = (x, f (x, y)), existiert eine Funktion G e e W mit G(x, y) = (x, G(x, y)) für alle (x, y) ∈ F (V × W ). Da G differenzierbar ist, ist e differenzierbar. Da F (Ve × W ) eine offene Umgebung von (x0 , 0) ist, finden wir auch G eine offene Umgebung V ⊂ Ve von x0 mit {(x, 0) : x ∈ V } ⊂ F (Ve × W ). Dann können e 0) definieren (d.h. durch G(x, 0) = (x, φ(x)) für alle wir φ : V → W durch φ(x) = G(x, e x ∈ V ). Da G differenzierbar ist, ist auch φ differenzierbar. Für (x, y) ∈ V × W ⊂ Ve × W gilt dann f (x, y) = 0 ⇐⇒ F (x, y) = (x, 0) ⇐⇒ G(x, 0) = (x, y) e 0) ⇐⇒ y = φ(x) ⇐⇒ y = G(x, D.h. {(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V } Aus f (x, φ(x)) = 0 für alle x ∈ V folgt, mit der Kettenregel, dass 0 = Df (x0 , φ(x0 )) · Dg(x0 ) = Dx f (x0 , φ(x0 )) · 1Rm + Dy f (x0 , φ(x0 )) · Dφ(x0 ) Das gibt (56). Beispiel. Sei f (x, y) = x3 − 2xy + y 3 und, wie oben, T = {(x, y) ∈ R2 : f (x, y) = 0} das kartesische Blatt. Es gilt ∂f (x, y) = −2x + 3y 2 , ∂y und 65 ∂f (x, y) = 3x2 − 2y ∂x Ist (x0 , y0 ) ∈ T mit −2x0 + 3y02 6= 0, dann kann man, in der Nähe von (x0 , y0 ), T als Graph einer Funktion von x schreiben. Wir bemerken, (x0 , y0 ) ∈ T mit −2x0 + 3y02 = 0 impliziert, dass 27 6 3 3 27 3 y − 2y0 = 0 ⇒ 2y0 y −1 =0 8 0 16 0 √ Das ist nur bei y0 = 0 oder y0 = 2 2/3 möglich. Also existieren für jede (x0 , y0 ) ∈ T , √ mit der Ausnahmen (x0 , y0 ) = (0, 0) und (x0 , y0 ) = (4/3, 2 2/3), offene Umgebungen V ⊂ R von x0 und W ⊂ R von y0 und eine C 1 -Funktion φ : V → W , so dass T ∩ (V × W ) = {(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V } und φ0 (x0 ) = − 3x2 − 2y0 (∂f /∂x)(x0 , y0 ) . = − 20 (∂f /∂y)(x0 , y0 ) 3y0 − 2x0 Analog finden wir,√dass für alle (x0 , y0 ) ∈ T mit den Ausnahmen von (x0 , y0 ) = (0, 0) und (x0 , y0 ) = (2 2/3, 4/3) offene Umgebungen V von y0 und W von x0 und eine C 1 -Funktion ψ : V → W existieren, so dass T ∩ (W × V ) = {(x, y) ∈ W × V : f (x, y) = 0} = {(ψ(y), y) : y ∈ V } und ψ 0 (y0 ) = − 3.5 3x20 − 2x0 . 3y02 − 2y0 Mannigfaltigkeiten in Rn Wir untersuchen in diesem Abschnitt besondere Teilmengen von Rn , genannt Mannigfaltigkeiten oder Untermannigfaltigkeiten des Rn , die lokal wie Rk aussehen, für ein k ≤ n. Bevor wir zur genaueren Definition von Mannigfaltigkeit kommen, betrachten wir einige Beispiele von Teilmengen von Rn , die lokal wie Rk für k = 1 oder k = 2 aussehen. Im Fall k = 1 spricht man von Kurven. Das Begriff von Kurven kann verschiedene Bedeutungen haben. Eine parametrisierte Kurve ist eine Abbildung φ : I → Rn , für ein Intervall I ⊂ R. Eine parametrisierte Kurve kann zum Beispiel die Bewegung eines Teilchens im Raum beschreiben, als Funktion der Zeit t ∈ I. Eine parametrisierte Kurve ist also nicht nur durch die Bahn des Teilchens charakteriziert, sondern auch von dem Zeitplan (die parametriesierte Kurve bestimmt die Position des Teilchens zu jeder Zeit, nicht nur seine Trajektorie). Sind wir nur an der Bahn interessiert, und nicht am Zeitplan, so können wir die folgende Äquivalenzrelation im Raum der parametrisierten Kurven definieren. Wir sagen zwei parametrisierte Kurve ϕ1 : I1 → Rn , ϕ2 : I2 → Rn , für zwei Intervalle I1 , I2 ⊂ R sind äquivalent, falls eine monoton wachsende stetige und surjektive Funktion ψ : I1 → I2 existiert, so dass φ1 = φ2 ◦ ψ. In diesem Fall heisst ψ eine Parametertransformation. Man kann sich leicht davon überzeugen, dass das wirklich eine Äquivalenzrelation definiert. Man kann dann eine Kurve als eine Äquivalenzklasse von parametrisierten Kurven definieren. Mit anderen Worten, eine Kurve wird somit als die Bildmenge einer parametrisierten Kurve definiert. 66 Man könnte auch Kurven als Graph von Funktionen definieren. Das ist aber zu restriktiv; z.B. der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} kann nicht als Graph {(x, y) ∈ R2 : y = f (x)} einer Funktion von x geschrieben werden. Es ist auch unmöglich, S 1 als Graph {(x, y) ∈ R2 : x = f (y)} einer Funktion von y zu schreiben. Immerhin, der Kreis S 1 ist die Vereinigung der Graphen von zwei Funktionen, nämlich f1 (x) = (1 − x2 )1/2 und f2 (x) = −(1 − x2 )1/2 . Wenn wir nur Funktionen auf offene Teilmengen von R betrachten möchten, so können √ wir S 1 als die Vereinigung der Graphen p von vier 2 Funktionen schreiben, nämlich y = ± 1 − x auf x ∈ (−1; 1) und x = ± 1 − y 2 auf y ∈ (−1; 1). Zwei dieser Abbildungen definieren y als Funktion von x, die anderen zwei geben x als Funktion von y. Ausgehend aus diesem Beispiel kann man also berlegen, Kurven als Vereinigungen von Graphen zu definieren. Gemäss dieser Definition kann man sich auch vorstellen, eine Kurve differenzierbar zu nennen, wenn sie als Vereinigung von Graphen von differenzierbaren Funktionen geschrieben werden kann (wir werden von C 1 Kurven sprechen, unter der Annahme, dass die Funktionen stetig differenzierbar sind). Man muss hier ein bisschen aufpassen. Es gibt einen Unterschied zwischen der gegebenen Definition von differenzierbarer Kurve und differenzierbarer parametrisierte Kurve. Z.B. die parametrisierte Kurve φ(t) = (t3 , t2 ) ∈ R2 ist differenzierbar. Die Bildmenge T = {φ(t) : t ∈ R} kann aber neben (0, 0) nicht als Graph einer differenzierbaren Funktion geschrieben werden. Deswegen ist T keine differenzierbare Kurve im obigen Sinne. Wir werden sehen, die Bildmenge der parametrisierten Kurve φ(t) ist keine differenzierbare Kurve, weil φ0 (0) = 0. Analog kann man Teilmengen von Rn , die lokal wie R2 aussehen, betrachten. In diesem Fall spricht man von Flächen. Auch hier muss man zwischen parametrisierten Flächen und Fläche als Bildmenge von parametrisierten Flächen unterscheiden. Wie für Kurven, kann man Flächen als Vereinigung von Graphen beschreiben. Die Sphäre S 2 = {(x, y, z) : x2 +y 2 +z 2 = 1} ⊂ R3 ist nicht der Graph einer einzelne Funktion, kann aber als Vereinigung der folgenden sechsp Graphen betrachtet werden, die auf offenen 2 definiert sind: z = ± 1 − x2 − y 2 , definiert auf k(x, y)k < 1, y = Teilmengen von R p √ ± 1 − x2 − z 2 auf k(x, z)k < 1 und x = ± 1 − y 2 − z 2 definiert auf k(y, z)k < 1. Weil die Funktionen, aus dessen Graphen S 2 besteht, stetig differenzierbar sind, sagt man S 2 ist eine differenzierbare Fläche, oder eine C 1 -Fläche. Wir erweitern diese Definitionen, um differenzierbare Mannigfaltigkeiten M ⊂ Rn der Dimensin k einzuführen. Definition 3.21. Seien n, k ∈ N, mit k < n. Ein C 1 -Mannigfaltigkeitstück der Dimension k in Rn ist eine Teilmenge von Rn die, nach allfälliger Unnumerierung der Koordinaten, die Form {(x1 , . . . , xn ) ∈ Rn : (xk+1 , . . . , xn ) = φ(x1 , . . . , xk ) und (x1 , . . . , xk ) ∈ G} hat, wobei G ⊂ Rk offen und zusammenhängend ist und φ ∈ C 1 (G; Rn−k ). Eine Menge M ⊂ Rn heisst eine C 1 -Mannigfaltigkeit der Dimension k, falls für jede a ∈ M eine offene Umgebung U ⊂ Rn von a existiert, so dass U ∩ M ein C 1 -Mannigfaltigkeitstück der Dimension k ist. Eine C 1 -Mannigfaltigkeit der Dimension k = 1 heisst eine C 1 Kurve. Eine C 1 -Mannigfaltigkeit der Dimension k = 2 heisst eine C 1 -Fläche. Eine C 1 -Mannigfaltigkeit M der Dimension n − 1 in Rn heisst eine Hyperfläche. 67 Bemerkung: Kurz gesagt, eine C 1 -Mannigfaltigkeit der Dimension k ist eine Teilmenge von Rn , die lokal aus dem Graph einer stetig differenzierbaren Abbildung φ : Rk ⊃ G → Rn−k gegeben ist. Beispiele: Der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} ist eine C 1 -Kurve. Die Sphäre S n−1 = {(x1 , . . . , xn ) ∈ Rn : k(x1 , . . . , xn )k = 1} ⊂ Rn ist eine C 1 -Mannigfaltigkeit der Dimension (n−1) (d.h. S n−1 ist eine Hyperfláche). Die Bildmenge {(t3 , t2 ) ∈ R2 : t ∈ R} der parametrisierten Kurve φ(t) = (t3 , t2 ) ist keine C 1 -Mannigfaltigkeit, weil sie in der Nähe von (0, 0) nicht als Graph einer stetig differenzierbare Funktion geschrieben werden kann. Die Bildmenge der parametrisierten Kurve φ(t) = (cos t, sin(2t)) ist keine C 1 -Kurve, weil sie in der Nähe von φ(π/2) = (0, 0) nicht als Graph einer Funktion geschrieben werden kann (nach Definition dürfen Mannigfaltigkeiten keine “SelbstDurchschnitte” haben). Statt Teilmengen von Rn durch Vereinigung von Graphen zu definieren, kann man sie als Lösungsmengen von Gleichungen definieren. Z.B. definiert die Gleichung x2 + y 2 = 1 den Kreis S 1 , also eine Mannigfaltigkeit der Dimension eins. Man kann sich analog vorstellen, dass die Gleichung f (x1 , . . . , xn ) = 0, für eine Funktion f : Rn ⊃ U → R, eine Teilmenge von Rn definiert, die lokal wie Rn−1 aussieht. Im nächsten Satz zeigen wir, dass, falls a ∈ U die Gleichung f (a) = 0 erfüllt, und falls ∇f (a) 6= 0, dann ist die Menge {x ∈ U : f (x) = 0} in der Nähe von a ein Mannigfaltigkeitstück. Proposition 3.22. Sei U ⊂ Rn offen, f ∈ C 1 (U ), und a ∈ U mit f (a) = 0 und ∇f (a) 6= 0. Dann es existiert eine offene Umgebung G ⊂ Rn von a so, dass G∩{x ∈ U : f (x) = 0} ein C 1 -Mannigfaltigkeitstück der Dimension (n − 1) ist. D.h. die Lösungsmenge der Gleichung f (x) = 0 ist, in der Nähe von a eine Mannigfaltigkeit. Gilt ferner ∇f (x) 6= 0 für alle x ∈ U mit f (x) = 0, dann ist {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der Dimension n − 1. Beweis: Die Bedingung ∇f (a) 6= 0 impliziert, dass j ∈ {1, . . . , n} mit ∂f /∂xj (a) 6= 0 existiert. O.B.d.A nehmen wir an ∂f /∂xn (a) 6= 0. Nach dem Satz über implizite Funktionen, existieren eine Umgebung V ⊂ Rn−1 von (a1 , . . . , an−1 ), eine Umgebung W ⊂ R von an und eine Funktion φ ∈ C 1 (V ) mit Werten in W , so dass V × W ∩ {(x1 , . . . ,xn ) ∈ U : f (x1 , . . . , xn−1 , xn ) = 0} = {(x1 , . . . , xn−1 , φ(x1 , . . . , xn−1 )) ∈ Rn : (x1 , . . . , xn−1 ) ∈ V } . Die Behauptung folgt, mit G = V × W . Allgemeiner, sei f : Rn ⊂ U → Rm , für ein m < n. Die Gleichung f (x) = 0 ist dann ein System von m Gleichungen f1 (x1 , . . . , xn ) = 0 f2 (x1 , . . . , xn ) = 0 ... fm (x1 , . . . , xn ) = 0 Sind die m Gleichungen in geeignetem Sinne unabhängig, so kann man sich vorstellen, dass f (x) = 0 eine Mannigfaltigkeit der Dimension k = n − m definiert. Wir müssen verstehen, in welchen Sinne die Gleichungen unabhängig sein müssen. Dazu definieren wir den Begriff vom Rang einer linearen Abbildung. 68 Definition 3.23. Sei L ∈ L(Rn ; Rm ). Der Rang der Matrix L ist Rg L = dim Ran (L) = dim L(Rn ) = n − dim ker(L) . Mit anderen Worten, der Rang von L ist die maximale Anzahl von linear unabhängige Spalten in der Matrix L. Aus der linearen Algebra, RgL ist auch die maximale Anzahl von linear unabhängigen Zeilen in L. Definition 3.24. Sei U ⊂ Rn offen und f ∈ C 1 (U ; Rm ), mit m ≤ n. Wir sagen, f ist regulär an der Stelle a ∈ U , falls Df (a) Rang m hat. Ist m = n, so ist f genau dann an der Stelle a regulär, wenn Df (a) invertierbar ist. Satz 3.25. Sei U ⊂ Rn offen, f ∈ C 1 (U ; Rm ). Sei a ∈ U mit f (a) = 0 und so, dass f regulär an der Stelle a ist. Dann existiert eine offene Umgebung G ⊂ U von a in Rn , so dass G ∩ {x ∈ U : f (x) = 0} ein Mannigfaltigkeitstück in Rn der Dimension k = n − m ist. Ist f an der Stelle x regulär, für alle x ∈ U mit f (x) = 0, dann ist {x ∈ U : f (x) = 0} eine Mannigfaltigkeit in Rn der Dimension k = n − m. Beweis: Nach Unnumerierung der Koordinaten können wir annehmen, dass die m Spalten ∂f ∂f ∂f (a), (a), . . . , (a) (57) ∂xk+1 ∂xk+2 ∂xn linear unabhängig sind (wir haben hier k = n − m gesetzt). Wir schreiben Df (a) = (D1 f (a), D2 f (a)), wobei D1 f (a) die m × k Matrix ist, die aus allen partiellen Ableitungen nach x1 , . . . , xk besteht und D2 f (a) die m × m Matrix ist, die aus allen partielle Ableitungen nach xk+1 , . . . , xn besteht. Die Matrix D2 f (a) ist nach (57) invertierbar. Der Satz über implizite Funktionen impliziert, dass eine offene Umgebung V von (a1 , . . . , ak ) in Rk , eine offene Umgebung W von (ak+1 , . . . , an ) in Rm und eine stetig differenzierbare Funktion φ : V → W existieren, so dass V × W ∩ {x ∈ U : f (x) = 0} = {(x1 , . . . , xk , φ(x1 , . . . , xk )) : (x1 , . . . , xk ) ∈ V } Die Behauptung folgt, mit G = V × W . Bemerkung: Der Satz zeigt, dass die richtige Verallgemeinerung der Bedingung ∇f (a) 6= 0 in Proposition 3.22 aus der Bedingung RgDf (a) = m gegeben ist. Statt C 1 -Mannigfaltigkeiten durch Graphen von stetig differenzierbaren Funktionen zu definieren, kann man auch lokale reguläre Parametrisierungen (genannt Karten) benutzen. Wir geben hier die alternative Definition, obwohl wir im Folgenden weiter mit der ursprünglichen Definition arbeiten. Alternative Definition von Mannigfaltigkeiten: Seien n, k ∈ N,mit 1 ≤ k < n. Eine kdimensionale C 1 -Mannigfaltigkeit in Rn (oder eine C 1 -Untermannigfaltigkeit des Rn ) ist eine nicht-leere Menge M ⊂ Rn , so dass für alle a ∈ M eine offene Umgebung U ⊂ Rn von a, eine offene Menge G ⊂ Rk und eine reguläre Abbildung ϕ ∈ C 1 (G; Rn ) so, dass ϕ(G) = M ∩ U und ϕ : G → M ∩ U ein Homöomorphismus ist. Das Paar (G, ϕ) heisst eine Karte von M in der Nähe vom Punkt a. Übung: Zeigen Sie, dass diese Definition mit der ursprünglichen Definition übereinstimmt. 69 Bemerkung: Die alternative Definition von Mannigfaltigkeiten durch Karten lässt sich auch zum Fall k = n erweitern. Dann gilt: Eine Teilmenge M ⊂ Rn ist genau dann eine Mannigfaltigkeit der Dimension n, wenn M offen ist. Bemerkung: Statt von C 1 -Mannigfaltigkeit in Rn spricht man in der Literatur oft von C 1 -Untermannigfaltigkeit des Rn . Man benutzt das Wort Untermannigfaltigkeit, weil die Mengen, die wir betrachten, immer Teilmengen von Rn sind. Das Wort Mannigfaltigkeit der Dimension k wird dann für allgemeinere Mengen benutzt, die lokal das Bild einer regulären Funktion auf einer offenen Teilmenge von Rk sind. Ein wichtiges Resultat der Differentialgeometrie besagt dann, dass jede C 1 -Mannigfaltigkeit der Dimension n in R2n eingebettet werden kann (Einbettungsatz von Whitney). Bemerke, dass die Dimension (mindestens) 2n sein muss; die Klein’sche Flasche ist ein berühmtes Beispiel einer zwei dimensionale C 1 -Mannigfaltigkeit, die nicht in R3 eingebettet werden kann. In dieser Vorlesung werden wir immer C 1 -Untermannigfaltigkeiten des Rn betrachten; wir werden aber das Wort C 1 -Mannigfaltigkeiten in Rn benutzen. Sei nun M ⊂ Rn eine Mannigfaltigkeit der Dimension k < n und a ∈ M ein Punkt auf der Mannigfaltigkeit. Wir möchten den Begriff von Tangentialraum zu M an a ∈ M einführen. Dazu betrachten wir parametrisierte Kurven auf M , die durch a gehen. Sei I ein offenes Intervall in R. Eine differenzierbare parametrisierte Kurve auf M ist eine differenzierbare Abbildung ϕ : I → Rn , mit ϕ(t) ∈ M für alle t ∈ I. Es gelte ϕ(t0 ) = a. Der Vektor ϕ0 (t0 ) = (ϕ01 (t0 ), . . . , ϕ0n (t0 )) heisst der Tangentialvektor zu der Kurve ϕ im Punkt ϕ(t0 ) = a. Definition 3.26. Der Tangentialraum Ta (M ) zu M an der Stelle a ∈ M besteht aus allen Tangentialvektoren zu differenzierbaren Kurven auf M , die durch a gehen. Mit anderen Worten, ξ ∈ Rn ist genau dann Element von Ta (M ), wenn ein Intervall I ⊂ R, ein t0 ∈ I und eine Kurve ϕ ∈ C 1 (I; Rn ) mit ϕ(t) ∈ M für alle t ∈ I, ϕ(t0 ) = a und ϕ0 (t0 ) = ξ existieren. Proposition 3.27. Sei M eine Mannigfaltigkeit in Rn der Dimension k < n und a ∈ M . Ta (M ) ist ein linearer Unterraum von Rn , mit dim Ta (M ) = k. Beweis: Die Definition von Ta (M ) hängt nur von M in der Nähe von a ab. D.h. Ta (M ) = Ta (M ∩ U ) für jede, beliebig kleine Umgebung U ⊂ Rn von a. Aus diesem Grund können wir annehmen, dass eine offene Menge V ⊂ Rk und ein ψ ∈ C 1 (V ; Rn ) existieren, so dass M = {(x, ψ(x)) : x ∈ V } Wir führen die Notation x(1) = (x1 , . . . , xk ) und x(2) = (xk+1 , . . . , xn ) ein. Dann a = (a(1) , a(2) ), wobei a(2) = ψ(a(1) ). Sei nun t → ϕ(t) eine differenzierbare Kurve auf M , mit ϕ(t0 ) = a. Wir bezeichnen φ1 (t) = (ϕ1 (t), . . . , ϕk (t)) und φ2 (t) = (ϕk+1 (t), . . . , ϕn (t)), wobei ϕ1 , . . . , ϕn die Komponenten von ϕ sind. Da ϕ(t) ∈ M für alle t, muss gelten φ2 (t) = ψ(φ1 (t)) für alle t genügend nahe zu t0 . Also ϕ(t) = (φ1 (t), ψ(φ1 (t))) und ϕ0 (t0 ) = (φ01 (t0 ), Dψ(a(1) )(φ01 (t0 ))) Wir setzen v = φ01 (t0 ) ∈ Rk . Dann ist ϕ0 (t0 ) = (v, Dψ(a(1) )v) ∈ Rn . 70 Anderseits, für gegebene v ∈ Rk , können wir die Kurve ϕ(t) = (a(1) +tv, ψ(a(1) +tv)) definieren. Dann ist ϕ offenbar eine differenzierbare Kurve auf M , mit ϕ(0) = a und φ0 (0) = (v, Dψ(a(1) )(v)). Wir haben also gezeigt, dass Ta (M ) = {(v, Dψ(a(1) )v) : v ∈ Rk } Ta (M ) ist also ein linearer Raum, mit Dimension k (die Vektoren (ei , Dψ(a(1) )(ei )), für i = 1, . . . , k sind eine Basis von Ta (M ), falls ei , i = 1, . . . , k, die Standard-Basis von Rk bezeichnet). Falls die Mannigfaltigkeit M als Lösungsmenge einer Gleichung f (x) = 0 gegeben ist, so kann man eine andere Charakterisierung von Ta (M ) angeben. Sei zunächst U ⊂ Rn und f ∈ C 1 (U ) reelwertig. Es gelte ∇f (x) 6= 0 für alle x ∈ U mit f (x) = 0. Dann ist M = {x ∈ U : f (x) = 0} eine Mannigfaltigkeit der Dimenison n − 1. Wir sind im Tangentialraum Ta (M ) interessiert, für ein a ∈ M . Wir wissen schon Ta (M ) ist ein linearen Raum mit dim Ta (M ) = n − 1. Sei ϕ(t) eine parametrisierten Kurve auf M , mit ϕ(t0 ) = a. Dann gilt f (ϕ(t)) = 0 für alle t. Wir erhalten: 0= d f (ϕ(t))|t=t0 = ∇f (ϕ(t0 )) · ϕ0 (t0 ) dt und deswegen Ta (M ) ⊂ {ξ ∈ Rn : ξ · ∇f (a) = 0} Da der Raum {ξ ∈ Rn : ξ · ∇f (a) = 0} auch Dimension n − 1 hat, gilt Ta (M ) = {ξ ∈ Rn : ξ · ∇f (a) = 0} Wir haben bewiesen, dass der Gradient ∇f (a) senkrecht zum Tangentialraum Ta (M ) steht. Sei nun f ∈ C 1 (U ; Rm ) regulär an der Stelle x, für alle x ∈ U mit f (x) = 0. Dann ist M = {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der Dimension k = n − m. Seien f1 , . . . , fm die Komponenten von f . Ähnlich wie oben, gilt Ta (M ) = {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0} Da die m Zeilen ∇fj (a), j = 1, . . . , m, von Df (a) linear unabhängig sind (weil f regulär ist), ist es klar, dass der Raum {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0} die Dimension k = n − m hat. Es ist manchmal auch nützlich, neben dem Begriff vom Tangentialraum Ta (M ) auch den Begriff der Tangelntialebene einzuführen. Die Tangentialebene an der Mannigfaltigkeit M im Punkt a ist die Teilmenge von Rn , die aus allen Tangentialvektoren zu M in a besteht, die aber vom Punkt a ausgehen. Mit anderen Worten, Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ ∈ Ta (M )} Falls M = {x ∈ U : f (x) = 0} für eine Funktion f ∈ C 1 (U ; Rm ) regulär im Punkt a, dann gilt Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ · ∇fj (a) = 0 für alle j = 1, . . . , m} = {ξ ∈ Rn : (ξ − a) · ∇fj (a) = 0 für alle j = 1, . . . , m} Bemerke, dass im Gegensatz zum Tangentialraum Ta (M ), die Tangentialebene kein linearer Raum ist. 71 3.6 Extrema mit Nebenbedingungen Wir betrachten eine reelwertige Funktion f , definiert auf einer offenen Teilmenge Ω ⊂ Rn . In diesem Abschnitt möchten wir Extrema von f (x) finden, unter der zusätzlichen Nebenbedingung x ∈ M , wobei M ⊂ Rn eine Mannigfaltigkeit mit Dimension k < n, enthalten in Ω, ist. Wir sagen a ∈ Ω ist ein lokales bedingtes Minimum von f mit der Nebenbedingung x ∈ M , falls eine offene Umgebung A ⊂ Ω in Rn existiert, so dass f (a) = min{f (x) : x ∈ A ∩ M }. Analog definiert man den Begriff vom lokalen bedingten Maximum. a ∈ Ω heisst ein lokales bedingtes Extremum von f , falls a entweder ein lokales bedingtes Minimum oder ein lokales bedingtes Maximum ist. Nehmen wir an f ∈ C 1 (Ω). Wegen der Nebenbedinungen können bedingte Extrema a ∈ M existieren, für die ∇f (a) 6= 0. Wir suchen also andere Kriteria, um Extrema mit Nebenbedingungen zu charakterisieren. Manchmal kann man dieses Problem einfach lösen, indem man eine Parametrisierung von M benutzt. Sei z.B. f ∈ C 1 (R2 ) und nehmen wir an, wir suchen s := sup{f (x1 , x2 ) : x21 + x22 = 1} Dann können wir einen Parameter t ∈ [0, 2π) einführen und x1 = cos t, x2 = sin t schreiben. Damit ist das gesuchte Supremum s durch s = sup g(t) t∈[0,2π) , wobei g(t) = f (cos t, sin t), gegeben. Das Problem mit Nebenbedingungen wurde damit zu einem Problem (in einer Dimension, statt zwei) ohne Nebenbedingungen reduziert. Extrema sind nun durch g 0 (t) = 0 charakterisiert. Analog kann man die Nebenbedingung entfernen, falls M explizit als Graph einer differenzierbaren Funktion geschrieben werden kann. Nehmen wir an, wir suchen s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0} Das Maximum wird angenommen, weil die Funktion f (x, y, z) = x2 yz stetig und die Menge {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z ≥ 0} kompakt ist. Das Maximum hat offenbar x, y, z > 0. Wir haben p {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z > 0} = {( 1 − y 2 − z 2 , y, z) : (y, z) ∈ G} mit der offenen Menge G = {(y, z) ∈ R2 : y 2 + z 2 < 1, y, z > 0}. Wir haben also s = sup{g(y, z) : (y, z) ∈ G}, wobei g(y, z) = f (1 − y 2 − z 2 , y, z) = (1 − y 2 − z 2 )yz. Um s zu finden, berechnen wir also ∇g(y, z) = (z − 3y 2 z − z 3 , y − 3z 2 y − y 3 ) Die Bedingung ∇g(y, z) = 0 gibt, nach kurzer Rechnung, y = z = 1/2. Das Maximum √ 2, 1/2, 1/2) angenommen und beträgt der Funktion f wird also im Punkt (x, y, z) = (1/ √ f (1/ 2, 1/2, 1/2) = 1/8. 72 Das letzte Beispiel war einfach, weil wir die Mannigfaltigkeit explizit als Graph schreiben konnten. Das ist natürlich nicht immer möglich. Deswegen ist der folgende Satz nützlich, um Extrema einer differenzierbaren Funktion f unter der Nebenbedingung g(x) = 0 zu finden. Proposition 3.28 (Lagrange-Multiplikatoren, eine Nebenbedingung). Sei U ⊂ Rn offen, g ∈ C 1 (U ) reelwertig, und M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass ∇g(a) 6= 0. Dann ist M in der Nähe von a eine Mannigfaltigkeit der Dimension n − 1 (eine Hyperfläche). Sei nun f eine reelwertige Funktion, definiert und differenzierbar in der Nähe von a. Sei a eine bedingte lokale Extremalstelle von f auf M . Dann existiert λ ∈ R mit ∇f (a) = λ∇g(a) Der Parameter λ heisst ein Lagrange-Multiplikator. Proof. Nehmen wir an ∇f (a) ist nicht proportional zu ∇g(a). Dann existiert ξ ∈ Rn mit ξ · ∇g(a) = 0 aber ξ · ∇f (a) 6= 0. Die Bedingung ξ · ∇g(a) = 0 impliziert, dass ξ ∈ Ta (M ). Also existiert eine parametrisierte Kurve ϕ : I → M , mit ϕ(t0 ) = a und ϕ0 (t0 ) = ξ für ein t0 ∈ I. Betrachte nun die Funktion h(t) = f (ϕ(t)). Es gilt h0 (t0 ) = ∇f (ϕ(t0 )) · ϕ0 (t0 ) = ∇f (a) · ξ 6= 0 Das heisst, in jeder Umgebung von t0 nimmt h(t) Werte kleiner und grösser als h(t0 ) = f (a) an. Das zeigt, dass f auf U ∩ M Werte kleiner und grösser als f (a) annimmt, für jede offene Umgebung U von a. Deswegen ist a keine bedingte Extremalstelle von f . Die Proposition gibt uns eine Rezept, um Extrema einer differenzierbaren Funktion f mit der Nebenbedingung g(x) = 0 zu finden. Die Gleichungen ( ∇f (x) = λ∇g(x) g(x) = 0 bilden ein System von (n + 1)-Gleichungen für die (n + 1) Unbekannten x1 , . . . , xn , λ. Lösungen dieses Gleichungsystemes, zusammen mit Punkten x ∈ Rn mit g(x) = 0, wo f nicht differenzierbar ist, sind dann die einzigen möglichen Kandidaten für bedingte lokale Extremalstellen. Beispiel: Betrachten wir noch einmal das Beispiel von oben. Wir suchen s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0} Wir setzen f (x, y, z) = x2 yz und g(x, y, z) = x2 + y 2 + z 2 − 1. Bei bedingten Extrema muss gelten: ∇f (x, y, z) = λ∇g(x, y, z) für ein λ ∈ R. Das ergibt die vier Gleichungen 2xyz = 2λx 2 x z = 2λy 2y x = 2λz 2 2 2 x +y +z =1 73 Da x, y, z > 0 gelten muss, implizieren die zweite und dritte Gleichung, dass y = z. Die erste Gleichung gibt dann λ = y 2 , und damit liefert die dritte Gleichung x2 =√ 2y 2 . Einsetzen im letzten Gleichung ergibt 4y 2 = 1, und damit y = z = 1/2 und x = 1/ 2. Bis jetzt haben wir Probleme mit einer Nebenbedingung der Form g(x) = 0 untersucht, für eine reelwertige Funktion g. Im Folgenden untersuchen wir den Fall, dass g Werte in Rm hat, für ein m < n. In diesem Fall ist die vektorielle Gleichung g(x) = 0 eigentlich ein System mit m Gleichungen. Man spricht dann von m Nebenbedingungen. Auch in diesem Fall kann man Extrema finden, indem man Lagrange-Multiplikatoren einführt. Proposition 3.29 (Lagrange Multiplikatoren, m Nebenbedingungen). Sei U ⊂ Rn offen, g ∈ C 1 (U ; Rm ) für ein m < n. Sei M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass g regulär an der Stelle a ist (d.h. Rg (Dg(a)) = m; in diesem Fall ist M in der Nähe von a ein Mannigfaltigkeitstück der Dimension k = n−m). Sei f eine reelwertige C 1 -Funktion, definiert in einer Umgebung von a in Rn . Sei a eine lokale bedingte Extremalstelle von f auf M . Dann ist ∇f (a) eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a). D.h. es existieren λ1 , . . . , λm ∈ R mit ∇f (a) = m X λj ∇gj (a) j=1 wobei g1 , . . . , gm : U → R die Komponenten von g sind. Beweis: Nehmen wir an, dass ∇f (a) nicht eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a) ist. Dann existiert ξ ∈ Rn , so dass ξ · ∇gi (a) = 0 für alle i = 1, . . . , m und ξ · ∇f (a) 6= 0. Das impliziert, dass ξ ∈ Ta (M ). Damit existiert eine differenzierbare parametrisierte Kurve ϕ : I → M , so dass ϕ(t0 ) = a und ϕ0 (t0 ) = ξ. Sei nun h(t) = f (ϕ(t)). Dann ist h0 (t0 ) = ∇f (a) · ξ 6= 0 Damit ist t0 keine Extremalstelle von f (ϕ(t)). Das zeigt, dass a keine bedingte lokale Extremalstelle von f sein kann. Um bedingte Extremalstellen einer Funktion f auf Rn mit m Nebenbedingungen g(x) = 0 zu finden, muss man also die n + m Gleichungen m X ∇f (x) = λj ∇gj (x) j=1 g(x) = 0 für die (n + m) Unbekannten x1 , . . . , xn , λ1 , . . . , λm lösen. Die einzigen Kandidaten für Extremalstellen sind Lösungen dieser Gleichungen und Punkte auf M , wo f nicht differenzierbar ist. Beispiel (aus der statistischen Mechanik): Ein Molekül habe n mögliche Zustände, mit Energien E1 , . . . , En . In der statistischen Mechanik wird ein System von vielen Molekülen durch die Wahrscheinlichkeiten p1 , . . . , pn ∈ [0; 1] beschrieben, dass ein Molekül im jten Zustand gefunden wird (die Wahrscheinlichkeit pj gibt die Fraktion zwischen den 74 Molekülen im j-ten Zustand und der gesamten Anzahl von Molekülen). Der Zustand des Vielteilchensystems wird durch Maximierung der Entropie H(p1 , . . . , pn ) = − n X pj log pj j=1 unter den Nebenbedingungen p1 + · · · + pn = 1 und Ē = n X pj Ej j=1 bestimmt (wir möchten also die Entropie bei feste mittlerer Energie Ē maximieren). P Sei p = (p1 , . . . , pn ). Wir setzen g1 (p) = p1 + · · · + pn − 1 und g2 (p) = nj=1 pj Ej . Es gilt ∇g1 (p) = (1, 1, . . . , 1) und ∇g2 (p) = (E1 , . . . , En ). Da ∇H(p) = (− log p1 − 1, . . . , − log pn − 1) finden wir aus der Gleichung ∇H(p) = λ1 ∇g1 (p) + λ2 ∇g2 (p), dass −1 − log pj = λ1 + λ2 Ej für alle j = 1, . . . , n. Das ergibt log pj = −1 − λ1 − λ2 Ej und also pj = e−(λ1 +1) · e−λ2 Ej =: ke−λ2 Ej Die Bedingung g1 (p) = 0 bestimmt die Konstante k. Wir finden e−λ2 Ej pj = Pn −λ2 Ej j=1 e Die Bedingung g2 (p) = 0 ergibt die Gleichung E= n X j=1 Ej e−λ2 Ej Pn −λ2 Ej j=1 e Diese Gleichung erlaubt uns im Prinzip, λ2 zu bestimmen. In der statistischen Mechanik setzte man λ2 = kB /T , wobei kB die sogenannte Boltzmann-Konstante ist, und T die absolute Temperatur des Systems ist. Die Temperatur wird von der mittleren Energie bestimmt. Der Zustand vom System zur Temperatur T (d.h. zur mittleren Energie E) ist der sogenannte Gibbs-Zustand, charakterisiert durch die Wahrscheinlichkeiten e−kB Ej /T pj = Pn −k E /T . B i i=1 e Lagrange-Multiplikatoren und die oben erklärten Strategien, um bedingte Extrema zu finden, sind auch nützlich, um (globale) Extrema von Funktionen auf Teilmengen von Rn zu suchen, die einen Rand haben. Wir betrachten ein Beispiel, um die Situation zu erklären. 75 Beispiel: Wir suchen das globale Maximum und das globale Minimum von f (x, y, z) = x2 + y + z 2 auf D := {(x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ 1 und x2 + y 2 ≤ 1/2}. Wir zerlegen D in verschiedenen Teile. Wir setzten: D1 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 < 1 und x2 + y 2 < 1/2}, √ D2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1 und z > 1/ 2}, D3 = −D2 √ √ D4 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z ∈ (−1/ 2; 1/ 2)}, √ D5 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z = 1/ 2}, D6 = −D5 . Wir suchen separate lokale Extrema in den Mengen D1 , . . . , D5 . Das globale Maximum von f in D ist das grösste lokale Maximum, das wir in D1 , . . . , D6 finden werden, und analog für das globale Minimum von f . 1) Extrema auf D1 werden durch die Bedingung ∇f (x) = 0 charakterisiert. Da ∇f (x) = (2x, 1, 2z), existiert kein Punkt x ∈ D1 mit ∇f (x) = 0. Also gibt es kein lokales Extremum in D1 . 2) Lokale Extrema auf D2 werden durch die Nebenbedingung g(x, y, z) = x2 + y 2 + z 2 = 1 charakterisiert. Ist x ∈ D2 ein lokales bedingtes Extremum, dann muss λ ∈ R existieren mit ∇f (x) = λ∇g(x). Mit ∇g(x) = 2(x, y, z) wir finden 2x = 2λx 1 = 2λy 2z = 2λz 2 x + y2 + z2 = 1 Da z 6= 0 in D2 , folgt λ = 1. Das ergibt y = 1/2 und√x2 + z 2 = 3/4. Der Kreis {(x, 1/2, z) : x2 + z 2 = 3/4} schneidet D2 wenn z > 1/ 2. Auf diesem Kreis ist f konstant, gegeben aus f (x, 1/2, z) = 5/4, für alle (x, z) ∈ R2 mit x2 + z 2 = 3/4. 3) Aus Symmetrie, kann die Funktion f auf D3 nur auf dem Kreis {(x, 1/2, z) : x2 + z 2 = 3/4} extremal sein, wo f = 5/4 ist. 4) Wir betrachten nun die Teilmenge D4 , wo Extrema von f mit der Nebenbedingung g(x, y, z) = x2 +y 2 −1/2 = 0 gesucht werden sollen. Die Gleichung ∇f (x) = λ∇g(x) wird zu 2x = 2λx 1 = 2λy =0 2z 2 x + y 2 = 1/2 √ Wir finden die Lösungen (x, y, z) = (0, ±1/ 2, 0) und (x, y, z) = (±1/2, 1/2, 0). Es gilt √ √ f (0, ±1/ 2, 0) = ±1/ 2 f (±1/2, 1/2, 0) = 3/4. 76 5) Auf D5 haben wir√die Nebenbedingungen g1 (x, y, z) = x2 + y 2 − 1/2 = 0 und g2 (x, y, z) = z − 1/ 2 = 0. Die Gleichung ∇f (x) = λ1 ∇g1 (x) + λ2 ∇g2 (x) gibt 2x = 2λ1 x = 2λ1 y 1 2z = λ2 x2 + y 2 = 1/2 √ z = 1/ 2 √ √ √ Es gibt die Lösungen (±1/2, 1/2, 1/ 2) und (0, ±1/ 2, 1/ 2). Es gilt √ f (±1/2, 1/2, 1/ 2) = 5/4 √ √ √ f (0, ±1/ 2, 1/ 2) = ±1/ 2 + 1/2. √ 2) 6) Aus Symmetrie können Extrema in D nur an den Stellen (±1/2, 1/2, −1/ 6 √ √ √ und (0, ±1/ 2, −1/ 2) gefunden werden. Wie in D finden wir f (±1/2, 1/2, −1/ 2) = 5 √ √ √ 5/4 und f (0, ±1/ 2, −1/ 2) = ±1/ 2 + 1/2. Durch Vergleich der Werte von f in den gefundenen Kandidaten für Maxima und Minima, finden wir max f (x) = 5/4, x∈D und 1 min f (x) = − √ x∈D 2 √ Das Maximum wird auf dem Kreisbogen y√= 1/2, x2 + z 2 = 3/4, mit |z| ≥ 1/ 2 angenommen. Das Minimum wird in (0, −1/ 2, 0) angenommen. 3.7 Integrale, die von einem Parameter abhängen. Sei f (x, y) eine stetige Funktion von zwei Variablen, definiert auf einer Produktmenge I × U , wobei I ⊂ R ein Intervall ist und U ⊂ Rn . Für feste y ∈ U können wir dann f über x integrieren (weil f (x, y) für feste y als Funktion von x stetig und deswegen auch integrierbar ist). Das Resultat ist eine Funktion auf U . Wir möchten in diesem Abschnitt einige Eigenschaften von dieser Funktion diskutieren. Satz 3.30. Seien a, b ∈ R, a < b, U ⊂ Rn und f ∈ C([a; b] × U ). Dann ist die Funktion ϕ : U → R, definiert durch Z b ϕ(y) = f (x, y) dx (58) a stetig. Beweis: Sei y ∈ U und yn eine Folge in U , mit yn → y. O.B.d.A. können wir r > 0 finden, mit yn ∈ B r (y) = {z ∈ Rn : kz−yk ≤ r} ⊂ U für alle n ∈ N (sonst betrachten wir nur yn für n gross genug). Wir setzen dann Fn (x) := f (x, yn ) und F (x) := f (x, y). Aus Stetigkeit von f gilt offenbar Fn (x) → F (x) punktweise. Wir behaupten nun Fn → F gleichmässig auf [a; b]. Da [a; b] × B r (y) kompakt ist, ist f auf [a; b] × B r (y) gleichmässig stetig. Für ε > 0 fest gewählt existiert also δ > 0, so dass |f (x, y) − f (z, w)| < ε für alle (x, y), (z, w) ∈ [a; b] × B r (y) mit k(x, y) − (z, w)k < δ. Wir finden nun N ∈ N mit 77 kyn − yk < δ für alle n > N . Dann gilt auch k(x, yn ) − (x, y)k < δ für alle n > N . Deswegen muss |Fn (x) − F (x)| = |f (x, yn ) − f (x, y)| < ε für alle n > N und alle x ∈ [a; b]. Das zeigt die gleichmässige Konvergenz von Fn → F . Aus Analysis 1 (Satz 9.13) folgt, dass Z b Z b F (x)dx Fn (x)dx = lim n→∞ a a und also, dass ϕ(yn ) → ϕ(y). Damit ist ϕ stetig. Ist f nach y differenzierbar, so ist auch ϕ, definiert wie in (58), differenzierbar. Das ist der Inhalt vom nächsten Satz. Satz 3.31. Seien a, b ∈ R, a < b, n, m ∈ N, U ⊂ Rn offen und f : [a; b]×U → Rm stetig. Wir nehmen an, ∂f /∂yj (x, y) existiert und ist stetig auf [a; b] × U für ein j ∈ {1, . . . , n}. Dann hat auch die Funktion Z b ϕ(y) = f (x, y) dx a eine stetige partielle Ableitung ∂ϕ/∂yj (y) auf U , gegeben aus Z b ∂ϕ ∂f (y) = dx (x, y) . ∂yj ∂yj a Ist ferner f nach y1 , . . . , yn partiell differenzierbar und sind alle partiellen Ableitungen ∂f /∂yj (x, y) stetig auf [a, b] × U , dann ist ϕ ∈ C 1 (U ; Rm ) mit Z b dx Dy f (x, y) Dϕ(y) = a wobei Dy f (x, y) die m × n Matrix ist, deren Einträge aus ∂fi /∂yj (x, y) gegeben sind. Beweis: O.B.d.A. betrachten wir den Fall m = 1 (sonst wiederholen wir das Argument für die m Komponenten von f = (f1 , . . . , fm )). Sei y ∈ U festgewählt. Wir finden ρ > 0, so dass y + tej ∈ U für alle t ∈ [−ρ, ρ]. Für beliebige |t| ≤ ρ haben wir Z b ϕ(y + tej ) − ϕ(y) f (x, y + tej ) − f (x, y) = dx (59) t t a Aus dem Mittelwertsatz existiert für jede t ∈ [−ρ; ρ] und x ∈ [a; b] ein s(t, x) mit |s(t, x)| ≤ |t|, so dass f (x, y + tej ) − f (x, y) ∂f = (x, y + s(t, x)ej ) t ∂yj Die Abbildung (x, λ) → (∂f /∂yj )(x, y + λej ) ist stetig und damit auf der kompakten Menge [a; b] × [−ρ, ρ] gleichmässig stetig. Für ein beliebiges ε > 0 gibt es also ein 0 < δ < ρ, so dass ∂f ∂f ∂yj (x, y + λej ) − ∂yj (x, y) ≤ ε 78 für alle |λ| ≤ δ und alle x ∈ [a; b]. Damit gilt ∂f f (x, y + tej ) − f (x, y) ∂f ∂f ≤ε (x, y) = (x, y + s(t, x)e ) − (x, y) − j ∂yj t ∂yj ∂yj für alle |t| ≤ δ und x ∈ [a; b] (weil dann |s(t, x)| ≤ |t| ≤ δ) ist. Damit gilt f (x, y + tej ) − f (x, y) ∂f (x, y) → t ∂yj für t → 0, gleichmässig in x. Aus Analysis 1 (Satz 9.13) folgt, dass Z lim t→0 a b f (x, y + tej ) − f (x, y) dx → t Z b dx a ∂f (x, y) . ∂yj Aus (59) folgt, dass ϕ nach yj partiell differenzierbar ist, und dass ∂ϕ (y) = ∂yj b Z dx a ∂f (x, y) . ∂yj Da ∂f /∂yj stetig ist, folgt die Stetigkeit von ∂ϕ/∂yj aus Satz 3.30. Die andere Behauptung folgt aus Proposition 3.5. Wir untersuchen nun Funktionen f (x, y) auf der Produktmenge [a; b] × [c; d] ⊂ R2 . Wir definieren das Doppelintegral von f . Definition 3.32. Seien a < b ∈ R, c < d ∈ R. Sei f : [a; b] × [c; d] → R. Das Doppelintegral Z bZ d f (x, y)dydx a c existiert, wenn folgendes gilt i) Für jedes x ∈ [a; b] ist die Funktion y → f (x, y) auf [c; d] integrierbar. ii) Die Funktion F : [a; b] → R definiert durch Z d f (x, y)dy F (x) = c ist integrierbar. In diesem Fall setzt man Z bZ d Z b Z b Z f (x, y)dydx = F (x)dx = a c a a Das Doppelintegral Z dZ b f (x, y)dxdy c a wird analog definiert. 79 c d f (x, y)dy dx Ist f ∈ C([a; b] × [c; d]) stetig, so spielt es keine Rolle, ob wir zunächst über x oder über y integrieren. Satz 3.33 (Fubini). Seien a, b, c, d ∈ R, mit a < b und c < d. Sei f ∈ C([a; b] × [c; d]). Dann existieren beide Doppelintegrale Z bZ d Z dZ b f (x, y)dydx, a f (x, y)dxdy c c a und sind gleich. Beweis: Aus der Stetigkeit von f folgt die Existenz von d Z F (x) = f (x, y)dy c für alle x ∈ [a; b]. Aus Satz 3.30 folgt, dass F stetig und deswegen auf [a; b] integrierbar ist. Das zeigt die Existenz vom Doppelintegral Z bZ d f (x, y)dydx . a c Analog zeigt man die Existenz vom Doppelintegral Z dZ b f (x, y)dxdy . c a Um zu zeigen, dass die zwei Integrale gleich sind, definieren wir A : [a; b] × [c; d] → R durch Z y A(x; y) = f (x, t)dt c Aus Analysis 1 folgt, dass A partiell nach y differenzierbar ist, mit ∂A (x, y) = f (x, y) ∂y Wir behaupten nun, dass A stetig ist. Sei (xk ; yk ) eine Folge in R2 mit (xk ; yk ) → (x; y). Dann gilt |A(xk ; yk ) − A(x; y)| ≤ |A(xk ; yk ) − A(xk ; y)| + |A(xk ; y) − A(x; y)| Wir haben Z |A(xk ; yk ) − A(xk ; y)| = y yk f (xk ; t)dt ≤ C|yk − y| → 0 als k → ∞, weil sup{f (x; y) : x ∈ [a; b], y ∈ [c; d]} < ∞ aus der Stetigkeit von f und aus der Kompaktheit von [a; b] × [c; d]. Anderseits |A(xk , y) − A(x, y)| → 0, für k → ∞, weil aus Satz 3.30 die Funktion A(x, y) stetig in x ist, für beliebig y ∈ [c; d]. Wir setzen also Z ϕ(y) = b Z bZ A(x, y)dx = a f (x, t)dtdx a 80 y c Insbesondere ϕ(d) = ist, mit RbRd a c 0 f (x, y)dydx. Nach Satz 3.31 finden wir, dass ϕ differenzierbar b Z Z ∂A (x, y)dx = ∂y ϕ (y) = a b f (x, y)dx a Das gibt d Z Z 0 dZ b f (x, y)dxdy ϕ (y)dy = ϕ(d) = ϕ(c) + c c a und zeigt die Behauptung. 3.8 Konservative Vektorfelder Wir führen den Begriff vom Vektorfeld ein. Definition 3.34. Ein Vektorfeld mit Definitionsbereich U ⊂ Rn ist eine Abbildung K : U → Rn . Ist U ⊂ Rn offen, so sagen wir die Abbildung K : U → Rn ist ein C k -Vektorfeld, falls K ∈ C k (U ; Rn ). Wir haben schon oft Abbildungen betrachtet, die eine Teilmenge von Rn auf Rn abbilden (zB. Diffeomorphismen). Die Interpretation von Vektorfeldern ist aber anders. Ein Vektorfeld wird interpretiert als eine Abbildung, die zu jedem Punkt im Raum einen Vektor in Rn zuordnet. Typische Beispiele von Vektorfeldern sind Kraftfelder. Eine elektrische Ladung im Punkt x = 0 erzeugt an der Stelle x ∈ R3 die Kraft K(x) = −c x kxk3 für eine Konstante c ∈ R. K(x) ist ein Beispiel eines Vektorfelds. Ein anderes Beispiel von Vektorfeldern sind Geschwindigkeitsfelder. Die Strömung einer Flüssigkeit kann durch das Geschwindigkeitsfeld v(x) beschrieben werden, das die momentane Geschwindigkeit der Flüssigkeit an der Stelle x ∈ Rn spezifiziert. Aus diesen Beispielen ist klar, dass Vektorfelder eine sehr wichtige Rolle in der Physik spielen (natürlich spielen in der Physik auch skalare Felder, wie zum Beispiel die Temperatur T (x) als Funktion vom Ort, eine wichtige Rolle, und manchmal ist es auch nützlich, Matrix-wertige Felder zu betrachten; hier untersuchen wir aber nur Vektorfelder). Feldlinien. Sei nun K : U → Rn ein Vektorfeld. Eine parametrisierte Kurve γ : I → Rn (wobei I ⊂ R ein Intervall ist) heisst eine Feldlinie vom Vektorfeld K, falls der Tangentialvektor γ 0 (t) für alle t ∈ I proportional zum Vektor K(γ(t)) ist. Man bemerke, der Begriff von Feldlinie ist von der Parametrisierung der Kurve γ unabhängig. In der Tat, falls ψ : Ie → I eine monotone differenzierbare Funktion ist, so gilt d γ(ψ(t)) = γ 0 (ψ(t))ψ 0 (t) dt und deswegen ist (γ ◦ ψ)0 (t) immer proportional zu γ 0 (ψ(t)). Eine natürliche Parametrisierung einer Feldlinie ist also durch die Gleichung γ 0 (t) = K(γ(t)) 81 bestimmt. Diese Differentialgleichung für γ(t) gibt uns die Möglichkeit, Feldlinien eines Kraftfelds zu finden. Ist K ein C 1 -Vektorfeld auf U und ist x0 ∈ U , dann folgt aus der Theorie der gewöhnlichen Differentialgleichungen, siehe z.B. Satz 2.6, dass man immer mindestens ein Stück Feldlinie von K durch x0 finden kann, und dass diese lokale Feldlinie eindeutig bestimmt ist. Zentralfelder. Ein Vektorfeld K : U → Rn heisst ein Zentralfeld, falls K die Form K(x) = f (kxk)x hat, für eine Funktion f (kxk) die nur von der Länge kxk von x abhängt. Das elektrische Feld K(x) = −constx/kxk3 , erzeugt auf R3 \{0} aus einer Ladung im Ursprung, ist ein Beispiel eines Zentralfelds. Gradientenfelder. Ein Vektorfeld K : U → Rn definiert auf U ⊂ Rn heisst ein Gradientenfeld, falls eine reel-wertige Funktion ϕ ∈ C 1 (U ) existiert, mit K(x) = ∇ϕ(x). Die Länge einer parametrisierten Kurve. Sei I = [a; b] ⊂ R und γ ∈ C 1 (I; Rn ) eine differenzierbare parametrisierte Kurve in Rn . Wir möchten die Länge von γ definieren. Ist γ eine Gerade, so ist die Länge von γ durch kγ(b) − γ(a)k gegeben. Falls γ keine Gerade ist, so können wir versuchen, die Länge zu definieren, indem wir γ in viele kleine Teile zerlegen. Für n ∈ N finden wir a = t0 < t1 < t2 < · · · < tn = b. Eine erste Näherung für die Länge von γ ist aus n X n X kγ(tj ) − γ(tj−1 )k ' (tj − tj−1 )kγ 0 (tj−1 )k j=1 j=1 gegeben. Wir können nun die Länge von γ berechenen, indem wir den Limes dieses Ausdrucks für n → ∞ betrachten (angenommen, die Folge der Teilungen ist so, dass supj |tj −tj−1 | → 0). Wir definieren also die Länge der parametrisierten differenzierbaren Kurve γ durch Z b L(γ) = dt kγ 0 (t)k (60) a Aus der Annahme γ ∈ folgt, dass kγ 0 (t)k stetig von t abhängt. Deswegen ist die rechte Seite von (60) wohldefiniert und endlich. Man bemerke auch, dass die Definition (60) unabhängig von der Parametrisierung der Kurve ist. Sei nämlich ψ : [c; d] → [a; b] eine monoton steigende injektive und differenzierbare Funktion. Wir definieren die parametrisierte Kurve γ e : [c; d] → Rn durch γ e(t) = γ(ψ(t)). Dann gilt C 1 ([a; b]; Rn ) γ e0 (t) = γ 0 (ψ(t))ψ 0 (t) Deswegen Z d Z 0 dt ke γ (t)k = L(e γ) = c d dt ψ 0 (t)kγ 0 (ψ(t))k c wobei wir benutzt haben, dass ψ 0 (t) ≥ 0 (aus der Monotonie). Mit der Variablentransformation s = ψ(t) finden wir L(e γ ) = L(γ). D.h., wie behauptet, die Länge ist von der Parametrisierung unabhängig. Allgemeiner kann man die Länge einer stückweise stetig differenzierbaren parametrisierten Kurve definieren. 82 Definition 3.35. Eine parametrisierte Kurve γ : [a; b] → Rn heisst stückweise stetig differenzierbar, falls sie stetig auf [a; b] ist, und falls eine endliche Teilung a = t0 < t1 < · · · < tn−1 < tn = b mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n existiert (erinnere, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) genau dann, wenn γ ∈ C 1 ((tj−1 ; tj ); Rn ) und γ und γ 0 können auf dem abgeschlossenen Intervall [tj−1 ; tj ] stetig fortgesetzt werden). Für eine stückweise stetig differenzierbare Kurve γ : [a; b] → Rn , können wir dann die Länge durch n Z tj X L(γ) = dt kγ 0 (t)k (61) tj−1 j=1 definieren, wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wird, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n. Linienintegrale. Sei nun γ : [a; b] → Rn eine parametrisierte Kurve und K : U → Rn ein Vektorfeld, mit γ(I) ⊂ U . Wir interpretieren γ als die Bahn eines Teilchen und K(x) als die auf dem Teilchen im Punkt x wirkende Kraft. Ein wichtiger Begriff in der Physik ist die Arbeit, die das Teilchen leisten muss, um sich durch das Kraftfeld zu bewegen (oder die Arbeit, die das Kraftfeld auf dem Teilchen leistet). Ist γ eine Gerade und K(x) = K konstant auf der Geraden, so ist die Arbeit aus K · (γ(b) − γ(a)) gegeben. Allgemeiner können wir die Arbeit berechnen, indem wir das Intervall [a; b] in kleine Teilintervalle zerlegen. Seien a = t0 < t1 < · · · < tn = b. Dann können wir die Arbeit durch n X K(γ(tj−1 )) · (γ(tj ) − γ(tj−1) ) ' j=1 n X K(γ(tj−1 ))γ 0 (tj−1 )(tj − tj−1 ) j=1 approximieren. Nehmen wir das Limes n → ∞ (mit supj (tj − tj−1 ) → 0), so konvergiert die linke Seite (angenommen z.B. das Vektorfeld K ist stetig) zum Integral Z b K(γ(t)) · γ 0 (t) dt a Das motiviert die folgende Definition. Definition 3.36. Sei U ⊂ Rn offen, K : U → Rn ein stetiges Vektorfeld. Sei γ : [a; b] → U eine stückweise stetig differenzierbare Kurve in U . Wir definieren dann das Linienintegral (oder Wegintegral) von K entlang γ durch Z K · dx := γ n Z X j=1 tj K(γ(t)) · γ 0 (t) dt tj−1 wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wurde, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n. In der folgenden Proposition sammeln wir einige wichtige Eigenschaften von Linienintegralen. 83 Proposition 3.37. Sei U ⊂ Rn offen, K ein stetiges Vektorfeld in U , γ : [a; b] → U eine stückweise stetig differenzierbare Kurve in U . i) Sei M = sup{kK(x)k : x ∈ γ([a; b])} (bemerke, dass M < ∞ wegen Stetigkeit von K und Kompaktheit von γ([a; b]). Dann gilt Z K · dx ≤ M L(γ) γ wobei L(γ) die Länge von γ ist, wie in (61) definiert. ii) Sei ψ : [c; d] → [a0 b] monoton steigend, mit ψ(c) = a und ψ(d) = b, und stückweise stetig differenzierbar (ψ is eine Parametertransformation). Wir definieren γ e : [c; d] → U durch γ e(t) = γ(ψ(t)). Dann gilt Z Z K · dx = K · dx γ e γ D.h. der Wert des Linienintegrales ist von der Parametrisierung der Kurve unabhängig. Beweis: i) Sei a = t0 < t1 < · · · < tn = b eine Teilung, so dass γ ∈ C 1 ([tj−1 , tj ]; U ) für alle j = 1, . . . , n. Dann gilt Z Z tj tj 0 K(γ(t)) · γ 0 (t) dt K(γ(t)) · γ (t)dt ≤ tj−1 tj−1 Z tj Z tj 0 kγ 0 (t)k dt kK(γ(t))kkγ (t)k dt ≤ M ≤ tj−1 tj−1 Also n Z tj Z n Z tj X X 0 K · dx = K(γ(t)) · γ (t)dtdt ≤ M kγ 0 (t)k dt = M L(γ) γ t t j=1 j−1 j=1 j−1 ii) Sei c = t0 < t1 < · · · < tn = d eine Teilung von [c; d] mit der Eigenschaft, dass ψ ∈ C 1 ([tj−1 ; tj ]) und γ ∈ C 1 ([ψ(tj−1 ); ψ(tj )]; U ) für alle j = 1, . . . , n. Dann gilt Z tj Z tj 0 K(e γ (t)) · γ e (t)dt = K(γ(ψ(t))) · γ 0 (ψ(t))ψ 0 (t)dt tj−1 tj−1 Z ψ(tj ) = K(γ(s)) · γ 0 (s)ds ψ(tj−1 ) mit der Variablentransformation s = ψ(t). Also, da ψ monoton wachsend ist, finden wir Z n Z tj X K · dx = K(e γ (t))e γ 0 (t)dt γ e = j=1 tj−1 n Z ψ(tj ) X j=1 K(γ(s)) · γ 0 (s)ds = ψ(tj−1 ) Z K · dx γ 84 Operationen mit Kurven. Für eine stückweise stetig differenzierbare Kurve γ : [a; b] → Rn , kann man die stückweise stetig differenzierbare Kurve −γ : [a; b] → Rn durch −γ(t) = γ(b + a − t) definieren. Es ist einfach zu sehen, dass −γ die selbe Kurve wie γ beschreibt, aber in umgekehrte Richtung parametriseirt. Sind γ1 : [a; b] → Rn und γ2 : [c; d] → Rn zwei stückweise stetig differenzierbare Kurven, so dass γ1 (b) = γ2 (c), so kann man die Kurve γ3 = γ1 + γ2 : [a; b + d − c] durch γ1 (t) falls t ∈ [a; b] γ3 (t) = γ2 (t + c − b) falls t ∈ [b; b + d − c] definieren. Anschaulich, γ3 ist die “Vereinigung” der zwei Kurven γ1 und γ2 . Es ist einfach zu sehen, dass L(−γ) = L(γ), und L(γ1 +γ2 ) = L(γ1 )+L(γ2 ). Für Linienintegrale finden wir Z Z (62) K · dx = − K · dx −γ und γ Z Z Z K · dx . K · dx + K · dx = (63) γ2 γ1 γ1 +γ2 Um Gleichung 62 zu zeigen, sei γ : [a; b] → Rn und a = t0 < t1 < · · · < tn = b eine Teilung mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Wir setzen e tj = a + b − tn−j . Dann ist a = e t0 < e t1 < · · · < e tn = b eine Teilung mit der Eigenschaft, 1 e e dass −γ ∈ C ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Erinnere hier, dass −γ(t) = γ(a + b − t). Wir finden Z n Z e tj X K · dx = K(−γ(t)) · (−γ)0 (t)dt −γ j=1 =− = e tj−1 n Z X a+b−tn−j K(γ(a + b − t)) · γ 0 (a + b − t)dt j=1 a+b−tn−j+1 n X Z tn−j K(γ(s)) · γ 0 (s)ds j=1 =− tn−j+1 n Z X j=1 tn−j+1 0 Z K · dx K(γ(s)) · γ (s)ds = − tn−j γ Die Gleichung (63) kann ähnlich bewiesen werden. Konservative Vektorfelder. Falls das Vektorfeld K ein Gradientenfeld ist, dann ist die Berechnung seiner Linienintegralen besonders einfach. Satz 3.38. Sei U ⊂ Rn offen, ϕ ∈ C 1 (U ) und K = ∇ϕ (dann ist K ein stetiges Vektorfeld auf U ). Sei γ ∈ C 1 ([a; b]; U ) eine stetig differenzierbare Kurve auf U . Dann gilt Z K · dx = ϕ(γ(a)) − ϕ(γ(b)) γ γ(a) heisst der Anfangspunkt der Kurve γ und γ(b) der Endpunkt. 85 Beweis: Wir bemerken, dass d ϕ(γ(t)) = ∇ϕ(γ(t)) · γ 0 (t) dt Deswegen finden wir b Z Z K · dx = ∇ϕ(γ(t)) · γ 0 (t)dt a γ b Z = a d ϕ(γ(t))dt = ϕ(γ(a)) − ϕ(γ(b)) dt Bemerkung: Die Aussage von Satz 3.38 gilt auch, falls die Kurve γ stückweise stetig differenzierbar ist. In diesem Fall finden wir eine Teilung a = t0 < t1 < . . . tn = b mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Dann gilt, ähnlich wie im Beweis des Satzes, Z tj ∇ϕ(γ(t)) · γ 0 (t)dt = ϕ(γ(tj )) − ϕ(γ(tj−1 )) tj−1 für alle j = 1, . . . , n. Damit Z K · dx = γ n X (ϕ(γ(tj )) − ϕ(γ(tj−1 ))) = ϕ(γ(b)) − ϕ(γ(a)) j=1 Bemerkung: Es folgt aus dem Satz, dass Linienintegrale von Gradientenfeldern entlang einer Kurve γ nur vom Anfangspunkt und Endpunkt von γ abhängen, nicht von dem Weg dazwischen. Bemerkung: Eine parametrisierte Kurve γ : [a; b] → Rn heisst geschlossen, wenn γ(a) = γ(b), d.h. falls Anfangspunkt und Endpunkt der Kurve übereinstimmen. Es folgt aus Satz 3.38, dass das Linienintegral von einem Gradientenfeld entlang einer geschlossenen Kurve verschwindet. Definition 3.39. Sei U ⊂ Rn . Ein Vektorfeld K : U → Rn heisst konservativ (oder manchmal exakt), falls das Linienintegral Z K · dx γ nur vom Anfangs- und Endpunkt von γ abhängt, für jede Kurve γ in U . Mit anderen Worten, K ist konservativ, falls für alle zwei stückweise stetig differenzierbaren Kurven γ1 , γ2 mit übereinstimmenden Anfangs- und Endpunkten, gilt Z Z K · dx = K · dx γ1 γ2 86 Es folgt aus Satz 3.38, dass Gradientenfelder konservativ sind. In der Physik spielen konservative Kraftfelder eine besonders wichtige Rolle. Ist K konservativ, dann ist die Arbeit, die ein Teilchen leistet, wenn es sich auf einer Bahn γ bewegt, nur vom Anfangsund Endpunkt der Bahn abhängig. Das impliziert, wie wir bald sehen werden, dass man für konservative Kraftfelder ein Potential einführen kann, so dass die geleistete Arbeit einfach die Differenz vom Potential im End- und im Anfangspunkt ist. D.h. man kann ein Potential einführen, so dass Energieerhaltung gilt. Proposition 3.40. Sei U ⊂ Rn offen und K : U → Rn ein stetiges Vektorfeld. Dann ist K genau dann konservativ, wenn Z K · dx = 0 γ für alle geschlossenen stückweise stetig differenzierbaren Kurve γ in U . Beweis: Sei zunächst K konservativ und γ : [a; b] → U eine geschlossene stückweise stetig differenzierbare Kurve mit γ(a) = γ(b) =: x0 . Es bezeichne γ e : [a; b] → Rn die konstante Kurve γ(t) = x0 für alle t ∈ [a; b]. Weil γ und γ e die selben Anfangs- und Endpunkte haben, finden wir (siehe Prop. 3.37) Z Z K · dx = K · dx = 0 . γ γ e Nehmen wir nun an, dass Z K · dx = 0 γ für alle geschlossenen stückweise stetig differenzierbaren Kurven γ auf U . Seien γ1 und γ2 zwei beliebige stückweise stetig differenzierbare Kurven auf U , mit übereinstimmenden Anfangs- und Endpunkten. Wie oben bezeichnen wir mit −γ2 die Kurve γ2 , mit umgekehrter Richtung. Der Anfangspunkt von −γ2 ist dann der Endpunkt von γ1 und analog der Anfangspunkt von γ1 ist der Endpunkt von −γ2 . Wir definieren auch die Kurve γ = γ1 + (−γ2 ), die parametrisierte Kurve gegeben aus der “Vereinigung” von γ1 und −γ2 . Genauer gesagt, falls γ1 : [a; b] → U und −γ2 : [c; d] → U , so definieren wir γ : [a; b + d − c] → U durch γ(t) = γ1 (t) falls t ∈ [a; b] und γ(t) = −γ2 (t − b + c) falls t ∈ [b; b + d − c]. Die Kurve γ ist dann offenbar eine geschlossene stückweise stetig differenzierbare Kurve, und deswegen Z Z Z Z Z 0 = K · dx = K · dx + K · dx = K · dx − K · dx γ −γ2 γ1 γ1 γ2 Das zeigt, dass Z Z K · dx = γ1 K · dx . γ2 Also ist K konservativ. Wir haben schon bemerkt, dass jedes Gradientfeld konservativ ist. Wir zeigen nun die Umkehrung dieser Aussage: Jedes konservative Vektorfeld ist ein Gradientenfeld. Dazu werden wir das folgende Hilfslemma anwenden. 87 Lemma 3.41. Jede offene Teilmenge U ⊂ Rn lässt sich als Vereinigung einer disjukten Familie offener zusammenhängender Mengen darstellen (die Vereinigung braucht nicht endlich zu sein). Bemerkung. Diese Zerlegung ist eigentlich eindeutig; die offenen zusammenhängenden Teilmengen werden als Zusammenhangskomponenten bezeichnet. Beweis: Wir definieren eine Relation zwischen Punkten in U . Für x, y ∈ U schreiben wir x ∼ y genau dann, wenn x und y sich durch einen Streckenzug in U verbinden lassen. Offenbar definiert ∼ eine Äquivalenzrelation. Die Äquivalenzklassen sind offen. Sei nämlich x ∈ U beliebig. Wir zeigen die Äquivalenzklasse [x] ist offen. Dazu finden wir r > 0, so dass die offene Kugel Br (x) von Radius r um x in U enthalten ist. Dann ist x ∼ y, für alle y ∈ Br (x). Damit ist Br (x) ⊂ [x], und [x] ist offen. Die Äquivalenzklassen sind offenbar zusammenhängend und paarweise disjukt. Wir können nun zeigen, dass jedes konservative Feld ein Gradientenfeld ist. Satz 3.42. Sei U ⊂ Rn offen, K ein konservatives stetiges Vektorfeld auf U . Dann existiert ϕ : U → R stetig differenzierbar, mit K = ∇ϕ. Beweis: Wir betrachten zunächst den Fall, dass U zusammenhängend ist. Wir wählen x0 ∈ U fest. Für ein beliebiges x ∈ U finden wir eine stückweise stetig differenzierbare Kurve γx in U mit Anfangspunkt x0 und Endpunkt x. Wir setzen Z ϕ(x) = K · dx γx Da K konservativ ist, ist die Definition unabhängig von der Wahl der Kurve γx , natürlich unter der Annahme, dass der Endpunkt von γx gerade x ist. Wir bemerken, dass ϕ(x0 ) = 0. Wir behaupten, dass ∇ϕ(x) = K(x). Das würde den Satz für den Fall U zusammenhängend beweisen, weil K aus Annahme stetig ist. Um die Behauptung zu zeigen, bemerken wir, dass ∂ϕ d (x) = ϕ(x + tei )|t=0 ∂xi dt und dass Z Z K · dx = ϕ(x + tei ) = γx+tei K · dx γx +[x;x+tei ] Z Z K · dx + = γx K · dx [x;x+tei ] wobei [x; x + tei ] das Segment zwischen x und x + tei bezeichnet. Hier wählen wir t so klein, dass das Segment [x; x + tei ] in U enthalten ist (das ist natürlich möglich, weil U offen ist). Wir parametrisieren das Segment [x; x + tei ] durch die Kurve γ : [0; t] → U , definiert durch γ(s) = x + sei . Dann ist γ 0 (s) = ei , und damit Z Z t Z t K · dx = K(x + sei ) · ei ds = Ki (x + sei )ds [x;x+tei ] 0 0 88 wobei Ki die i-te Komponente vom Vektorfeld K bezeichnet. Nach dem Hauptsatz der Integralrechnung, finden wir Z d d t Ki (x + sei )ds = Ki (x + tei )|t=0 = Ki (x) ϕ(x + tei )|t=0 = dt dt 0 t=0 Damit ist ∇ϕ(x) = K(x), wie behauptet. Sei nun U nicht zusammenhängend. Aus Lemma 3.41 finden wir eine Familie Ui von disjunkten zusammenhängenden offenen Mengen in Rn , mit U = ∪i Ui . Für jede i können wir dann wie oben eine stetig differenzierbare Funktion ϕi : Ui → R konstruieren, mit ∇ϕi (x) = K(x) für alle x ∈ Ui . Da die Teilmengen disjunkt sind, könenn wir ϕ : U → R durch ϕ(x) := ϕi (x) für alle x ∈ Ui definieren. Dann ist ϕ wohldefiniert, stetig differenzierbar, mit ∇ϕ(x) = K(x) für alle x ∈ U . Satz 3.42 zeigt, zusammen mit Satz 3.38, dass für jedes konservative Vektorfeld K : U → Rn , eine Potentialfunktion ϕ : U → R gefunden werden kann, mit K = ∇ϕ und deswegen, mit Z K · dx = ϕ(Endpunkt) − ϕ(Anfangspunkt) γ Das bedeutet, für jedes konservative Vektorfeld kann man ein Potential einführen, so dass geleistete Arbeit = Unterschied im Potential (die Energie ist erhalten). Bemerke, dass die Potentialfunktion immer nur bis auf eine additive Konstante bestimmt ist. Charakterisierung von konservativen Vektorfeldern. Wir haben bis jetzt bewiesen, dass jedes konservative Vektorfeld ein Gradientenfeld ist. Die nächste natürliche Frage ist, wie könenn wir entscheiden, ob ein gegebenes Vektorfeld ein Gradientenfeld ist oder nicht. Es ist sehr einfach, notwendige Bedingungen zu finden. Ist K = ∇ϕ, so muss gelten ∂Kj ∂Ki ∂2ϕ ∂2ϕ (x) = (x) = (x) = (x) (64) ∂xj ∂xj ∂xi ∂xi ∂xj ∂xi für alle 1 ≤ i < j ≤ n (die Bedingungen sind symmetrisch bzg. Änderung i → j, j → i). Hier bezeichnet Ki die i-te Komponente vom Vektorfeld K. Ein Vektorfeld K mit der Eigenschaft (64) heisst rotationfrei (manchmal geschlossen). Im nächsten Satz beweisen wir, dass diese Bedingungen nicht nur notwendig, sondern auch hinreichend sind, falls das Vektorfeld auf einer konvexen offenen Menge definiert und differenzierbar ist. Satz 3.43. Sei U ⊂ Rn offen und konvex (d.h. es gelte λx + (1 − λ)y ∈ U , für alle x, y ∈ U und λ ∈ [0; 1]). Sei K ∈ C 1 (U ; Rn ). Dann existiert ϕ ∈ C 1 (U ) mit K = ∇ϕ genau dann, wenn ∂Kj ∂Ki (x) = (x) (65) ∂xj ∂xi für alle 1 ≤ i < j ≤ n und alle x ∈ U . Das impliziert, K ist genau dann konservativ, wenn (65) erfüllt ist. 89 Beweis: O.B.d.A. nehmen wir an, 0 ∈ U . Für jede x ∈ U ist dann das Segment [0; x] = {tx : t ∈ [0; 1]} in U enthalten (weil U konvex ist). Deswegen können wir eine Funktion ϕ : U → R durch Z 1 K(tx) · xdt ϕ(x) = 0 definieren. Da K ∈ C 1 (U ; Rn ), folgt aus Satz 3.31, dass ϕ ∈ C 1 (U ; R), mit ! ! Z 1 Z 1 n n X X ∂ϕ ∂ ∂Ki Kj (tx) + (x) = txi dt Ki (tx)xi dt = ∂xj ∂xj 0 ∂xj 0 (66) i=1 i=1 Anderseits, bemerken wir, dass n n i=1 i=1 X ∂Ki X ∂Kj d (tx)txi = Kj (tx) + (tx)txi (tKj (tx)) = Kj (tx) + dt ∂xi ∂xj In der letzten Gleichung haben wir die Bedingung ∂Kj /∂xi = ∂Ki /∂xj benutzt. Vergleich mit (66) gibt Z 1 ∂ϕ d (x) = (tKj (tx)) dt = Kj (x) . ∂xj dt 0 Beispiel: Sei K(x, y) = (y 2 , 2xy + y 2 ). Wir suchen eine Funktion ϕ : R2 → R mit ∇ϕ = K. Wir bemerken zunächst, dass ∂K1 ∂K2 = 2y = ∂y ∂x Das heisst, es existiert eine Potentialfunktion ϕ mit ∇ϕ = K. Sie muss erfüllen, dass ∂ϕ = y2, ∂x ∂ϕ = 2xy + y 2 ∂y und Die erste Gleichung impliziert, dass ϕ(x, y) − xy 2 unabhängig von x sein soll. Damit können wir ϕ(x, y) = xy 2 + ψ(y) schreiben, für eine geeignete Funktion ψ. Durch Einsetzen in die Gleichung für ∂ϕ/∂y finden wir 2xy + ψ 0 (y) = 2xy + y 2 Das ergibt ψ 0 (y) = y 2 und damit ψ(y) = y 3 /3 + c für eine Konstante c ∈ R. Potentialfunktionen von K haben die Form ϕ(x, y) = xy 2 + y3 + c. 3 Man bemerke, dass die Bedingung (65) nicht auf beliebigen Gebieten hinreichend ist (sie ist immer notwendig). Das zeigen wir mit dem folgenden Beispiel. Beispiel: Sei −x2 x1 K(x1 , x2 ) = ; x21 + x22 x21 + x22 90 definiert auf der offenen Menge R2 \{0}. Dann gilt ∂K2 ∂K1 −x2 + x2 (x) = 2 1 2 22 = (x) ∂x2 ∂x1 (x1 + x2 ) für alle x ∈ R2 \{0}. Sei aber γ : [0.2π] → R2 definiert durch γ(t) = (cos t, sin t) der Einheitskreis (eine geschlossene Kurve auf R2 \{0}. Dann ist Z Z K · dx = γ 2π K(cos t, sin t) · (− sin t, cos t)dt = 2π 6= 0 0 Also, K ist sicher nicht konservativ. Tatsächlich gilt die Äquivalenz K Gradientfeld ⇐⇒ ∂Kj ∂Ki = ∂xj ∂xi nicht nur auf konvexen, sondern allgemeiner auf sogenannten einfach zusammenhängenden Gebieten. Ein Gebiet G ⊂ Rn heisst einfach zusammenhängend, wenn jede geschlossene Kurve in G stetig zu einem Punkt deformiert werden kann (wir verzichten hier auf die genaue Definition dieses Begriffes). Das Gebiet R2 \{0} ist nicht einfach zusammenhängend, weil jede Kurve um den Ursprung nicht stetig innerhalb R2 \{0} zu einem Punkt deformiert werden kann (bemerke dagegen, dass R3 \{0} einfach zusammenhängend ist). 3.9 Holomorphe Funktionen In diesem Abschnitt betrachten wir Funktionen einer komplexen Variablen, mit Werten in C. Bemerke, dass diese Funktionen das Thema der Vorlesung “Einführung in der komplexen Analysis” sind (oft wird diese Vorlesung auch als “Funktionentheorie” genannt); hier geben wir nur eine kurze Einführung in dieses wichtige Gebiet der Analysis. Wir wissen, dass C mit R2 identifiziert werden kann. Eine Funktion f : C → C kann deswegen mit einer Funktion fe : R2 → R2 identifiziert werden, die durch fe(x, y) = (Re f (x + iy), Im f (x + iy)) definiert wird. Wir werden aber sehen, der Begriff von Differenzierbarkeit einer Funktion auf C mit Werten auf C, ist nicht mit dem Begriff von Differenzierbarkeit von Funktionen auf R2 , mit Werten auf R2 äquivalent. Definition 3.44. Sei Ω ⊂ C offen. Eine Funktion f : Ω → C heisst komplex differenzierbar an der Stelle z0 ∈ Ω, wenn der Grenzwert f 0 (z0 ) = lim z→z0 f (z) − f (z0 ) z − z0 existiert. In diesem Fall heisst die Zahl f 0 (z0 ) ∈ C die Ableitung von f an der Stelle z0 . Die Funktion f heisst auf Ω komplex differenzierbar, falls f an der Stelle z differenzierbar ist, für alle z ∈ Ω. Die Funktion f heisst holomorph in Ω, wenn sie auf Ω differenzierbar ist, und falls die Ableitung f 0 (z) auf Ω stetig ist. Die Menge der holomorphen Funktionen auf Ω wird mit H(Ω) bezeichnet. 91 Bemerkung: Die Funktion f : Ω → C ist genau dann an der Stelle z0 ∈ Ω komplex differenzierbar, wenn ein a ∈ C existiert, so dass lim z→z0 f (z) − f (z0 ) − a(z − z0 ) =0 |z − z0 | Mit anderen Worten, f ist an der Stelle z0 komplex differenzierbar, falls f (z0 + h) − f (z0 ) − ah = o(|h|) für h → 0 (hier ist h ∈ C). Die Abbildung L : C → C definiert durch L(h) = ah ist ein Beispiel einer komplex linearen Abbildung auf C (weil L(h1 + h2 ) = L(h1 ) + L(h2 ) für alle h1 , h2 ∈ C und L(αh) = αL(h) für alle α, h ∈ C. Es ist eigentlich einfach zu sehen, dass jede komplex lineare Abbildung auf C die Form L(h) = ah für ein a ∈ C hat. D.h. die Funktion f ist genau dann differenzierbar, wenn eine komplex lineare Abbildung L : C → C existiert, mit der Eigenschaft, dass f (z0 + h) − f (z0 ) − L(h) = o(|h|) für h → 0. Das erklärt den Unterschied zum Begriff von Differenzierbarkeit in R2 . Versehen wir f als die Abbildung fe(x, y) = (Re f (x + iy), Im f (x + iy)), definiert auf einer offenen Teilmenge von R2 mit Werten in R2 , so ist fe an der Stelle z0 = (x0 , y0 ) genau dann differenzierbar, wenn eine reell lineare Abbildung L : R2 → R2 existiert, so dass fe(z0 + h) − fe(z0 ) − L(h) = o(khk) für h → 0 (hier ist h ∈ R2 ). Während jede komplex lineare Abbildung reel linear ist, ist nicht jede reel lineare Abbildung komplex linear. Deswegen impliziert die komplexe Differenzierbarkeit einer Funktion f : Ω → C immer die reelle Differenzierbarkeit von fe(x, y) = (Re f (x + iy), Im f (x + iy)), aber die Umkehrung ist nicht wahr. Satz 3.45. Sei Ω ⊂ C offen. Die Funktion f : Ω → C ist genau dann holomorph, wenn Re f, Im f als Funktionen zweier reeller Variablen auf Ω stetig differenzierbar sind, und ∂ ∂ Re f (x + iy) = Im f (x + iy) ∂x ∂y und ∂ ∂ Re f (x + iy) = − Im f (x + iy) (67) ∂y ∂x In diesem Fall gilt f 0 (z) = ∂x Re f (z) + i∂x Im f (z) = ∂y Im f (z) − i∂y Re f (z) für alle z ∈ Ω. Diese zwei Bedingungen werden Cauchy-Riemann-Gleichungen genannt. Beweis: Die stetige Differenzierbarkeit von Re f, Im f impliziert, dass für alle z ∈ Ω, f (z + h) − f (z) − L(h) = o(khk) für h → 0, mit der reel linearen Abbildung L(h1 + ih2 ) = (∂x Re f (z)h1 + ∂y Re f (z)h2 ) + i(∂x Im f (z)h1 + ∂y Im f (z)h2 ) 92 Damit f komplex differenzierbar an der Stelle z0 ist, muss L komplex linear sein, d.h. es muss ein a = (a1 + ia2 ) ∈ C existieren, mit L(h1 + ih2 ) = (a1 + ia2 )(h1 + ih2 ) = (a1 h1 − a2 h2 ) + i(a1 h2 + a2 h1 ) Koeffizientenvergleich ergibt a1 = ∂x Re f (z) = ∂y Im f (z) a2 = −∂y Re f (z) = ∂x Im f (z) Sind die Cauchy-Riemann-Gleichungen erfüllt, so ist f an der Stelle z komplex differenzierbar, mit Ableitung f 0 (z) = ∂x Re f (z) + i∂x Im f (z) = ∂y Im f (z) − i∂y Re f (z) Die Stetigkeit von Re f (z) und Im f (z) impliziert dann, dass f ∈ H(Ω). Die umgekehrte Implikation folgt einfach aus der Bemerkung, dass jede komplex lineare Abbildung auch reell linear ist. Damit ist jede komplex differenzierbare Funktion auch reell differenzierbar. Beispiel: Jedes Polynom f (z) = an z n + · · · + a1 z + a0 in einer komplexen Variablen ist auf C holomorph. Wie bei Polynomen einer reellen Variablen findet man f 0 (z) = nan z n−1 + (n − 1)an−1 z n−2 + · · · + a1 Jede rationale Funktion P (z)/Q(z), wobei P, Q Polynome sind, ist holomorph auf C\{z ∈ C : Q(z) = 0}. Die Exponentialfunktion f (z) = exp(z) ist auf C holomorph, mit P∞ 0 z f (z) = e . Jede Potenzreihe f (z) = n=0 an (z − z0 )n ist innerhalb ihres Konvergenzradius komplex differenzierbar. Das folgt, weil die Potenzreihe gleichmässig innerhalb des Konvergenzradius konvergiert. Das impliziert, aus Prop. 8.29 in Analysis 1, dass man die Ableitung und den Grenzwert vertauschen kann. Genauer gesagt, gilt Prop. 8.29 nur für die Ableitung nach einer reellen Variablen. Trotzdem, kann man Prop. 8.29 benutzten, um die partiellen Ableitungen von Re f, Im f nach x = Re z und y = Im z zu berechnen. Dann kann man leicht sehen, dass die partiellen Ableitungen stetig sind und dass sie die Cauchy-Riemann-Gleichungen erfüllen. Damit folgt auch, dass f komplex differenzierbar ist. Die Funktion f (z) = |z|2 ist a.d.S. z0 ∈ C nicht differenzierbar, für alle z0 ∈ C\{0}. In der Tat f (x + iy) = x2 + y 2 = Re f (x + iy). Deswegen ist ∂x Im f = ∂y Im f ≡ 0 während ∂x Re f (x + iy) = 2x, und ∂y Im f (x + iy) = 2y Die Cauchy-Riemann-Gleichungen sind nur an der Stelle x = y = 0 erfüllt. Die Eigenschaften der komplexen Ableitung sind ähnlich denen der entsprechenden Eigenschaften der Ableitung auf R. Proposition 3.46. Sei Ω ⊂ C offen, f, g : Ω → C an der Stelle z ∈ Ω komplex differenzierbar. Dann i) f + g und f g sind ebenfalls an der Stelle z komplex differenzierbar, mit (f + g)0 (z) = f 0 (z) + g 0 (z), und 93 (f g)0 (z) = f 0 (z)g(z) + f (z)g 0 (z) ii) Ist g(z) 6= 0, so ist auch f /g an der Stelle z komplex differenzierbar, mit (f /g)0 (z) = f 0 (z)g(z) − f (z)g 0 (z) g 2 (z) iii) Sei U ⊂ C offen und h : U → C an der Stelle f (z) ∈ U komplex differenzierbar. Dann ist h ◦ f an der Stelle z komplex differenzierbar und (h ◦ f )0 (z) = h0 (f (z))f 0 (z) Die Beweise sind den entsprechenden Beweisen in Analysis 1 sehr ähnlich. Wir definieren nun den Begriff von Linienintegralen einer Funktion f : C ⊃ Ω → C entlang einer stückweise stetig differenzierbaren Kurve γ. Definition 3.47. Sei Ω ⊂ C offen, f : Ω → C stetig und γ eine stückweise stetig differenzierbare Kurve auf Ω (d.h. γ : [a; b] → Ω ist stetig und es existiert eine endliche Teilung a = t0 < t1 < · · · < tn = b mit γ ∈ C 1 ([tj−1 ; tj ]; Ω) für alle j = 1, . . . , n). Dann definieren wir das Linien- oder Wegintegral von f entlang γ durch Z f (z)dz = γ n Z X j=1 tj f (γ(t))γ 0 (t)dt tj−1 Bemerkung: Das Linienintegral einer stetigen komplexen Funktion f : C ⊃ Ω → C entlang einer stückweise stetig differenzierbaren Kurve γ : [a; b] → Ω ist unabhängig von der Parametrisierung von γ. Sei nämlich ψ : [c; d] → [a; b] stückweise stetig differenzierbar und γ e : [c; d] → Ω definiert durch γ e(t) = γ(ψ(t)). Dann gilt Z Z f (z)dz = f (z)dz γ e γ Das kann man ähnlich wie in Proposition 3.37 zeigen, weil Z tj 0 Z 0 ψ(tj ) f (γ(ψ(t)))γ (ψ(t))ψ (t)dt = tj−1 f (γ(s))γ 0 (s)ds ψ(tj−1 ) mit der Variablentransformation s = ψ(t). Das Linienintegral von f entlang γ ist eine komplexe Zahl. Ausgedruckt durch Realund Imaginärteil von f und γ, ist es durch Z b Re f (γ(t))Re γ 0 (t) − Im f (γ(t))Im γ 0 (t) a +i Re f (γ(t))Im γ 0 (t) + Im f (γ(t))Re γ 0 (t) dt gegeben (unter der Annahme, dass γ ∈ C 1 ([a; b]; Ω), sonst muss man das Intervall in eine geeignete Teilung zerlegen). Wir können f : C ⊃ Ω → C auch als Funktion fe(x, y) = (Re f (x + iy), Im f(x + iy)) interpretieren. fe ist ein Vektorfeld, definiert auf 94 einer Teilmenge von R2 . Wir haben das Linienintegral eines Vektorfeldes schon in Sektion 3.8 definiert. Das Linienintegral von fe, versehen als Vektorfeld auf R2 , entlang γ ist aus Z Z b Z b 0 e e Re f (γ(t))Re γ 0 (t) + Im f (γ(t))Im γ 0 (t)dt f · dx = f (γ(t)) · γ (t)dt = γ a a unter der Annahme, dass γ ∈ C 1 ([a; b]; Ω) ist, gegeben. Das Linienintegral vom Vektorfeld fe ist also nicht dasselbe, wie das Linienintegral der komplexen Funktion f . Dagegen gilt Z Z Re f (z)dz = (Re f, −Im f ) · dx γ γ Z Z f (z)dz = (Im f, Re f ) · dx Im γ γ Man bemerke, dass die Cauchy-Riemann-Gleichungen äquivalent mit der Tatsache sind, dass die zwei Vektorfelder (Re f, −Im f ) und (Im f, Re f ) rotationsfrei sind. Aus dieser Bemerkung folgt: Ist f holomorph auf einem konvexen Ω ⊂R C, und ist γ eine geschlossene stückweise stetig differenzierbare Kurve auf Ω, dann gilt γ f (z)dz = 0. Satz 3.48. Sei Ω ⊂ C offen, f ∈ H(Ω), a < b, γ, γ e : [a; b] → Ω geschlossene und stückweise stetig differenzierbare Kurven auf Ω, so dass se γ (t) + (1 − s)γ(t) ∈ Ω für alle s ∈ [0; 1] und t ∈ [a; b] (das ist sicher der Fall, wenn Ω konvex ist). Dann gilt Z Z f (z)dz = f (z)dz γ γ e Beweis: Um den Beweis zu vereinfachen nehmen wir an γ, γ e ∈ C 1 ([a; b]) (sonst muss man das Intervall [a; b] mit einer geeigneten Teilung zerlegen). Sei φ : [0, 1] × [a; b] → Ω, definiert durch φ(s; t) = se γ (t) + (1 − s)γ(t) Wir setzen Z g(s) := Z b f (z)dz = φ(s,.) Z b f (φ(s, t))∂t φ(s, t)dt = a ψ(s, t)dt a mit ψ : [0, 1] × [a; b] → C definiert durch ψ(s, t) = f (φ(s, t))∂t φ(s, t) Dann gilt Z g(0) = Z f (z)dz, und γ g(1) = f (z)dz γ e Wir möchten zeigen, dass g(0) = g(1). Wir bemerken, dass ψ stetig ist und dass ∂s ψ(s, t) = f 0 (φ(s, t))(e γ (t) − γ(t))∂t φ(s, t) + f (φ(s, t))∂t (e γ (t) − γ(t)) = ∂t [f (φ(s, t))(e γ (t) − γ(t))] 95 auch stetig ist. Deswegen können wir Satz 3.31 anwenden. Wir erhalten Z b Z b ∂t [f (φ(s, t))(e γ (t) − γ(t))] ∂s ψ(s, t)dt = g 0 (s) = a a = f (φ(s, b))(e γ (b) − γ(b)) − f (φ(s, a))(e γ (a) − γ(a)) = 0 weil γ(a) = γ(b) und γ e(a) = γ e(b) und also auch φ(s, a) = φ(s, b) für alle s ∈ [0, 1]. Falls im letzten Satz Ω ⊂ C auch konvex ist, so wissen wir schon, dass Z Z f (z)dz = f (z)dz = 0 γ γ e Satz 3.48 ist aber wichtig, weil er auch für nicht konvexe Ω gilt. Als Anwendung dieses Satzes sei Ω ⊂ C eine offene konvexe Menge und w ∈ Ω. Sei weiter f holomorph auf der nicht konvexen (und nicht einfach zusammenhängenden) Menge Ω\{w}. f kann aber in w eine Singularität haben. Deswegen ist das Linienintegral von f entlang einem geschlossenen Kreis um w im Allgemeinen nicht Null. Der Satz besagt aber, dass das Linienintegral entlang jedem Kreis (oder jede einfache gesclossene Kurve) um w (mit genügend kleinem Radius) immer denselben Wert hat. Diese Bemerkung benutzen wir im nächsten wichtigen Satz. Satz 3.49. Sei Ω ⊂ C offen, f ∈ H(Ω), x ∈ Ω und r ∈ (0, ∞) so klein, dass B r (x) = {z ∈ C : |z − x| ≤ r} ⊂ Ω. Dann gilt, für alle w ∈ Br (x) = {z ∈ C : |z − x| < r}, Z 1 f (z) f (w) = dz . 2πi γx,r z − w Hier bezeichnet γx,r : [0, 2π] → C die parametrisierte Kurve γx,r (t) = x + reit (das ist der Kreis mit Radius r um x, parametrisiert im Gegenuhrzeigersinn). Beweis: Sei 0 < ρ < r − |w − x|. Dann gilt B ρ (w) ⊂ Br (x) Ähnlich wie für γx,r , betrachten wir den Kreis γw,ρ (t) = w + ρeit mit Radius ρ um w. Dann gilt, für alle s ∈ [0; 1] und alle t ∈ [0; 2π], φ(s, t) = sγx,r (t) + (1 − s)γw,ρ (t) ∈ B x,r \Bw,ρ ⊂ Ω\{w} Das folgt, weil Bx,r konvex ist und weil |φ(s, t) − w| = |s(x + reit ) + (1 − s)(w + ρeit ) − w| = |s(x − w + (r − ρ)eit ) + ρeit | = |ρ + s((x − w)e−it + (r − ρ))| ≥ ρ + s(Re (x − w)e−it + (r − ρ)) > ρ Satz 3.48 impliziert also, dass Z Z f (z) f (z) dz = dz γw,ρ z − w γx,r z − w Z 2π Z 2π f (w + ρeit ) it = iρe dt = i f (w + ρeit ) it ρe 0 0 96 Deswegen 1 2πi Z γx,t f (z) 1 dz = z−w 2π Z 2π f (w + ρeit )dt 0 Da diese Formel für beliebige ρ > 0 klein genug gilt, gilt sie auch im Limes ρ → 0. Wir finden Z Z 2π 1 f (z) 1 f (w + ρeit )dt = f (w) dz = lim ρ→0 2π 0 2πi γx,t z − w weil f (w + ρeit ) → f (w) für ρ → 0, gleichmässig in t ∈ [0; 2π] (das kann z.B. durch Verwendung der Mittelwertabschätzung gezeigt werden). Satz 3.49 gibt eine Darstellung von f (w) durch ein Integral einer Funktion, die auf dem Kreis γx,r stetig und differenzierbar ist. Das erlaubt uns, die Ableitung von f an der Stelle w zu berechnen, indem wir das Integrand nach w differenzieren. Satz 3.50. Sei Ω ⊂ C offen, f ∈ H(Ω). Dann ist f auf Ω beliebig oft komplex differenzierbar. Falls w ∈ Br (x) und B r (x) ⊂ Ω gilt Z n! f (z) (n) f (w) = dz 2πi γx,r (z − w)n+1 wobei γx,r (t) = x + reit der Kreis mit Radius r um x, parametrisiert im Gegenuhrzeigersinn, ist. Beweis: Aus Satz 3.49 finden wir Z Z 2π 1 f (z) 1 f (x + reit ) f (w) = dz = dt 2πi γx,r z − w 2πi 0 x − w + reit Das Integrand ist nach w differenzierbar. Aus Satz 3.31 können wir Ableitung und Integral vertauschen. Wir bekommen Z 1 f (z) f 0 (w) = (68) 2πi γx,r (z − w)2 Genauer gesagt, kann man Satz 3.31 nur für reelle Ableitungen anwenden. Man kann aber Satz 3.31 anwenden, um die partiellen Ableitungen ∂w1 Re f (w1 + iw2 ), ∂w2 Re f (w1 + iw2 ), ∂w1 Im f (w1 + iw2 ) und ∂w2 Im f (w1 + iw2 ) zu berechnen. Es ist dann einfach zu sehen, dass die Cauchy-Riemann-Gleichungen erfüllt sind, und dass f 0 (w) in der Tat aus (68) gegeben ist (einfach weil die Funktion (w −z)−1 auf γx,r komplex differenzierbar ist, und Cauchy-Riemann-Gleichungen erfüllt). Aus (68) kann man dann analog die zweite Ableitung f 00 (z) berechnen. Induktiv, findet man Z f (z) n! (n) dz . f (w) = 2πi γx,r (z − w)n Es folgt aus dem letzten Satz, dass eine holomorphe Funktion automatisch beliebig oft komplex differenzierbar ist. Wir sehen, dass komplexe Differenzierbarkeit ein viel stärkerer Begriff, als reelle Differenzierbarkeit ist. Das hat viele wichtige Folgerungen und Anwendungen. 97 Proposition 3.51. Sei Ω ⊂ C offen und f : Ω → C holomorph. Dann sind Re f, Im f harmonische Funktionen auf Ω, d.h. ∆Re f (z) = 0, ∆Im f (z) = 0 für alle z ∈ Ω. Beweis: Es folgt aus Satz 3.50, dass Re f, Im f beliebig oft differenzierbar sind. Aus den Cauchy-Riemann-Gleichungen (67) folgt, dass ∂x2 Re f (z) = ∂x ∂y Im f (z) = ∂y ∂x Imf (z) = −∂y2 Re f (z) Deswegen gilt ∆Re f (z) = ∂x2 Re f (z) + ∂y2 Im f (z) = 0 Analog zeigt man, dass ∆Im f = 0. Die letzte Proposition zeigt, dass Real- und Imaginärteil einer holomorphen Funktion immer harmonisch sind. Anderseits kann man zeigen, dass jede harmonische Funktion auf einer konvexen Teilmenge von R2 der Realteil (oder der Imaginärteil) einer holomorphen Funktion ist. Proposition 3.52. Sei Ω ⊂ C offen und konvex, u ∈ C 2 (Ω) (hier wird Ω als Teilmenge von R2 versehen) mit ∆u = 0. Dann existiert v ∈ C 2 (Ω), so dass u + iv ∈ H(Ω). Beweis: Wir definieren das Vektorfeld g : Ω → R2 durch g(x, y) = (−∂y u(x, y), ∂x u(x, y)). Dann gilt ∂y g1 (x, y) = −∂y2 u(x, y) = ∂x2 u(x, y) = ∂x g2 (x, y) weil ∆u = 0. Damit ist g auf Ω rotationsfrei. Es folgt aus Satz 3.43, dass eine Potentialfunktion für g existiert. D.h. es existiert v ∈ C 1 (Ω) mit g(x, y) = (∂x v(x, y), ∂y v(x, y)). Dann ist es leicht zu sehen, dass f = u + iv die Cauchy-Riemann-Gleichungen erfüllt. Damit ist f holomorph und v harmonisch. Eine wichtige Folgerung dieser Charakterisierung von harmonischen Funktionen ist das folgende Korollar. Korollar 3.53. Sei Ω ⊂ R2 offen und konvex (einfach zusammenhängend ist genug) und u ∈ C 2 (Ω) harmonisch (d.h. ∆u = 0). Dann ist u beliebig oft differenzierbar. Eine andere wichtige Anwendung von Satz 3.50 ist der Satz von Liouville Satz 3.54 (Liouville). Sei f ∈ H(C) beschränkt. Dann ist f konstant. Beweis: Sei M = supz∈C |f (z)|. Aus Satz 3.49 folgt, dass Z Z 2π 1 f (z) 1 f (reit ) it 0 f (w) = = re dt 2πi γ0,r (z − w)2 2π 0 reit − w für alle r > |w|. Deswegen |f 0 (w)| ≤ M 2π Z 0 2π |reit 98 r Mr ≤ 2 − w| (r − |w|)2 Da r > |w| beliebig ist, finden wir Mr =0 r→∞ (r − |w|)2 |f 0 (w)| ≤ lim Also f 0 (w) = 0 für alle w ∈ C. Das impliziert, dass f konstant ist. Der Fundamentalsatz der Algebra folgt einfach aus dem Satz von Liouville. Satz 3.55 (Fundamentalsatz der Algebra). Jedes Polynom von Grad p ≥ 1 besitzt mindestens eine Nullstelle in C. Beweis: Sei P ein Polynom von Grad p ≥ 1, mit P (z) 6= 0 für alle z ∈ C. Dann ist 1/P (z) eine holomorphe Funktion auf C (man spricht von einer ganzen Funktion). Ferner, da für jede M > 0, R mit |P (z)| > M für alle z ∈ C mit |z| > R, existiert, schliessen wir, dass 1/P (z) beschränkt auf C ist. Aus Satz 3.54 folgt, dass 1/P (z) eine konstante Funktion ist. Das impliziert auch, dass P (z) konstant ist, in Wiederspruch zu der Annahme, dass P (z) ein Polynom von Grad p ≥ 1 ist. Tatsächlich sind holomorphe Funktionen auf einem offenen Gebiet Ω ⊂ C nicht nur beliebig oft komplex differenzierbar, sondern sogar analytisch auf Ω. Der Begriff von analytischer Funktion ist hier genau wie für Funktionen auf R definiert. Definition 3.56. Sei Ω ⊂ C offen, f : Ω → C. Die Funktion f ist an der Stelle z0 ∈ Ω analytisch, falls ein r > 0 und eine Folge an existieren, so dass f (z) = ∞ X an (z − z0 )n n=0 für alle z ∈ Br (z0 ) = {w ∈ C : |z0 − w| < r}. f heisst analytisch auf Ω, wenn f analytisch an der Stelle z0 ist, für alle z0 ∈ Ω. Wie für reelle Funktionen zeigt man, dass analytische Funktionen P beliebig oft differenzierbar sind. Das folgt aus der Tatsache, dass eine Potenzreihe n≥0 an (z − z0 )n mit Konvergenzradius r, für alle r0 < r, auf B r0 (z0 ) = {z ∈ C : |z − z0 | ≤ r0 } gleichmässig konvergent ist. Deswegen kann man Summe und Ableitung vertauschen; siehe Analysis 1, Proposition 8.29 (siehe auch das Argument in den Beispielen unter Satz 3.45 um Prop. 8.29 aus Analysis 1 für komplexe Ableitungen zu benuzten). Induktiv zeigt man, dass f beliebig oft differenzierbar ist. Die Umkehrung gilt für reelwertige Funktionen auf U ⊂ R i.A. nicht. D.h. es existieren Funktionen f : R → R, die unendlich oft differenzierbar sind, aber nicht analytisch. Das ist bei komplex differenzierbaren Funktionen nicht möglich. Jede holomorphe Funktion ist automatisch analytisch. Satz 3.57. Sei Ω ⊂ C, f ∈ H(Ω), z0 ∈ Ω. Sei r > 0 so klein, dass B r (z0 ) = {z ∈ C : |z − z0 | ≤ r} ⊂ Ω. Dann gilt, für alle z ∈ Br (z0 ) = {z ∈ C : |z − z0 | < r}, f (z) = ∞ X f (n) (z0 ) n=0 n! Insbesondere ist f analytisch auf Ω. 99 (z − z0 )n Beweis: Für z ∈ Br (z0 ) schreiben wir f (z) = 1 2πi Z γz0 ,r f (w) dw w−z wobei γz0 ,r (t) = z0 + reit , t ∈ [0; 2π], der Kreis von Radius r um z0 ist, parametrisiert im Gegenuhrzeigersinne. Weiter, für w ∈ γz0 ,r ([0; 2π]) gilt 1 1 1 1 = = z−z0 w−z w − z0 + z0 − z w − z0 1 − w−z 0 Da |z − z0 | < |w − z0 | = r, finden wir ∞ ∞ X 1 1 X (z − z0 )n (z − z0 )n = = w−z w − z0 (w − z0 )n (w − z0 )n+1 n=0 n=0 wobei die Summe für w ∈ γz0 ,r gleichmässig konvergiert. Deswegen können wir Integral und Summe vertauschen und bekommen Z Z ∞ X 1 f (w) 1 f (w) f (z) = dw = (z − z0 )n 2πi γz0 ,r w − z 2πi γz0 ,r (w − z0 )n+1 n=0 Aus Satz 3.50 erhalten wir f (z) = ∞ X f (n) (z0 ) n=0 n! (z − z0 )n . Wie wir schon bei der Untersuchung von analytischen Funktionen auf R diskutiert haben, hat die Analytizität wichtige Folgerungen. Z.B. gilt der folgende Identitätssatz. Satz 3.58 (Identitätssatz). Sei U ⊂ C eine nichtleere offene und zusammenhängende Teilmenge von C und seien f, g holomorph auf U . Dann sind die folgenden Aussagen äquivalent. i) f (z) = g(z) für alle z ∈ U . ii) Die Menge {z ∈ U : f (z) = g(z)} enthält unendlich viele Punkte und besitzt einen Häufungspunkt in U . iii) Es gibt ein z0 ∈ U , so dass f (n) (z0 ) = g (n) (z0 ) für alle n ≥ 0. Beweis: Die Implikationen i)⇒ ii) und i)⇒ iii) sind trivial. Wir zeigen ii)⇒ iii) und iii)⇒i). ii) ⇒ iii): Sei h = f − g und z0 ∈ U ein Häufungspunkt der Menge M = {z ∈ U : h(z) = 0}. Wir behaupten, dass h(n) (z0 ) = 0 für alle n ∈ N. Nehmen wir an, es existiert m ∈ N mit h(m) (z0 ) 6= 0. Sei m der kleinste Index mit dieser Eigenschaft. Dann, aus Satz 3.57, gibt es eine Umgebung G von z0 und eine auf G holomorphe Funktion ϕ mit ϕ(z0 ) 6= 0 und h(z) = (z − z0 )m ϕ(z) 100 für alle z ∈ G. Aus Stetigkeit von ϕ gilt also ϕ(z) 6= 0 in einer Umgebung von z0 . Damit ist auch h(z) 6= 0 für alle z 6= z0 in einer Umgebung von z0 . D.h. z0 ist kein Häufungspunkt von M , in Widerspruch zur Annahme. iii)⇒ i): Sei h = f − g und Sk = {z ∈ U : h(k) (z) = 0}. Da h(k) stetig ist, ist Sk geschlossen, für alle k ∈ N. Damit ist auch S := ∩k≥0 Sk abgeschlossen. Wir behaupten nun, S ist auch offen, als Teilmenge von U . Für z0 ∈ S beliebig, können wir die holomorphe Funktion h in einer Potenzreihe um z0 entwicklen. Das zeigt, dass h(z) = 0 in einer offenen Umgebung von z0 . Für jede z0 ∈ S existiert also ε > 0, so dass Bε (z0 ) ⊂ S. Da U zusammenhängend ist, muss entweder S = U oder S = ∅ gelten. Die Annahme iii) impliziert, dass S = U . Bemerkung: Sei U ⊂ C und I ⊂ R ein Intervall mit I ⊂ U . Sei f eine beliebige Funktion auf I. Dann gibt es höchstens eine auf U holomorphe Funktion, die auf I mit f übereinstimmt. Die komplexe Analysis ist manchmal nützlich, um gewisse bestimmte Integrale von Funktionen auf R zu berechnen. Wir betrachten zwei Beispiele. Besipiel: wir möchten das uneigentliche Integral Z ∞ sin x dx x 0 berechnen. Wir wissen aus Analysis 1, dass das Integral konvergiert. Um den Wert des Integrales zu berechnen, betrachten wir die Funktion f (z) = eiz /z, die auf C\{0} holomorph ist. Wir definieren weiter die stückweise stetig differenzierbare Kurve γ : [0; 4] → C durch r + (R − r)t, falls t ∈ [0; 1] iπ(t−1) Re , falls t ∈ [1; 2] γ(t) = −R + (R − r)(t − 2), falls t ∈ [2; 3] iπ(4−t) re , falls t ∈ [3; 4] Dann gilt, mit Satz 3.48, Z f (z)dz = 0 γ weil wir γ e(t) = i für alle t können, Rund dann φ(s, t) = sγ(t) + (1 − s)e γ (t) ∈ C\{0}, wo f holomorph ist (und natürlich ist γe f (z)dz = 0). Es folgt, dass Z R Z −r f (x)dx = − f (x)dx + r Z −R π it it Z f (Re )iRe dt + 0 π f (reit )ieit dt 0 Auf der linke Seite, haben wir Z R Z ∞ Z R ix e − e−ix sin x sin x dx = 2i dx → 2i dx x x x r r 0 für r → 0 und R → ∞. Auf der rechten Seiten von (69) haben wir dagegen Z π Z π it f (reit )ireit dt = i eire dt → iπ 0 0 101 (69) für r → 0, weil exp(ir exp(it)) → 1 gleichmässig, da r → 0 (und deswegen dürfen wir Limes und Integral vertauschen). Anderseits betrachten wir Z π Z π it it it eiRe dt f (Re )iRe dt = i 0 0 Also Z π 0 it e−R sin t dt 0 Für ein beliebiges ε > 0, gilt Z π Z ε Z it it −R sin t ≤ f (Re )iRe dt e dt + 0 π Z f (Re )iRe dt ≤ it 0 π−ε e−R sin t + ε Deswegen π Z lim R→∞ π Z e−R sin t ≤ 2ε + πe−R sin ε π−ε f (Re )iRe dt ≤ 2ε it 0 it für beliebiges ε > 0. Es folgt, dass π Z lim R→∞ f (Re )iRe dt = 0 it 0 it und deswegen, aus (69), bekommen wir im Limes R → ∞, r → 0, Z ∞ sin x 2i dx = iπ x 0 Das ergibt Z ∞ 0 sin x π = . x 2 Beispiel: das Gausssche Integral. Wir möchten das Integral Z ∞ 2 e−x dx −∞ berechnen. Wir setzen a = p π/2(1 + i) und betrachten das komplexe Linienintegral Z γR 2 e−z dz 1 + e−2az wobei, für R > 0, γR das Parallelogramm ist, mit den Eckpunkten −R, R, R + a, −R + a. Wir zerlegen γR = γ1,R + γ2,R + γ3,R + γ4,R , wobei γ1,R = [−R; R], γ2,R = [R; R + a], γ3,R = [R + a; −R + a] und γ4,R = [−R + a; −R] ist. Sei γ2,R (t) = R + ta, t ∈ [0; 1] eine Parametrisierung des Segmentes γ2,R . Dann gilt Z γ2,R 2 e−z dz = 1 + e−2az Bemerke, dass Re (R + ta)2 = R2 + 1 Z 0 √ 2 e−(R+ta) adt 1 + e−2a(R+ta) 2πtR ≥ R2 − 102 √ 2πR (70) weil a2 = iπ, und t ∈ [0; 1]. Deswegen ist 2 2 |e−(R+ta) | = e−Re (R+ta) ≤ e−(R 2− √ 2πR) ≤ e−R 2 /2 falls R gross genug ist. Anderseits √ 1 + e−2a(R+ta) = 1 + e−2aR e−2πit = 1 + e− √ 2πR −i(2πt+ 2πR) e und damit √ √ √ 2πR))2 + e−2 2πR sin2 (2πt − √ √ √ = 1 + e−2 2πR + 2e− 2πR cos(2πt − 2πR) |1 + e−2a(R+ta) |2 = (1 + e− ≥ (1 − e− √ 2πR cos(2πt − √ 2πR) 2πR 2 ) ≥ 1/2 für R gross genug. Aus (70) finden wir also, dass Z 2 e−z 2 dz ≤ Ce−R /2 → 0 −2az γ2,R 1 + e für R → ∞. Analog kann man zeigen, dass Z 2 e−z dz →0 γ4,R 1 + e−2az für R → ∞. Anderseits, Z γ1,R 2 e−z dz + 1 + e−2az 2 Z γ3,R Z R 2 2 e−t e−(t+a) dt − dt −2at −2a(t+a) −R 1 + e −R 1 + e # Z R" 2 2 e−t e−t −2at = + −2at 1 + e−2at −R 1 + e Z R 2 = e−t dt e−z dz = 1 + e−2az Z R −R Wir erhalten, dass Z ∞ e −t2 Z dt = lim R→∞ γR −∞ 2 e−z dz 1 + e−2az 2 Die Funktion f (z) = e−z /(1 + e−2az ) ist überall holomorph, ausser in den Punkten z ∈ C mit e−2az = −1. Man findet, f ist auf C\{a(n + 1/2) : n ∈ Z} holomorph. Die einzige Singularität von f innerhalb der von γR berandeten Menge ist im Punkt z0 = a/2. Deswegen, für r > 0 klein genug, Z γR 2 e−z dz = 1 + e−2az Z γa/2,r 103 2 e−z dz 1 + e−2az wobei γa/2,r der Kreis von Radius r um a/2, parametrisiert im Gegenuhrzeigersinn, ist. Für r klein genug, können wir den Nenner in einer Taylorreihe um den Punkt a/2 entwickeln. Wir finden 1 + e−2az = 1 − e−2a(z−a/2) X (−2a)n = (z − a/2)n n! n≥1 X (−2a)n−1 (z − a/2)n−1 = −2a(z − a/2) 1 + n! n≥2 =: −2a(z − a/2)g(z) für eine analytische Funktion g, definiert in einer Umgebung von a/2, mit g(a/2) = 1. 2 Da g(a/2) 6= 0 ist, ist auch h(z) = e−z /g(z) eine analytische Funktion, mit h(a/2) = √ e−iπ/4 = (1 − i)/ 2. Also, aus Satz 3.49, finden wir, nach einer kleinen Rechnung, Z γR 2 e−z dz = 1 + e−2az 2 e−z dz 1 + e−2az Z γa/2,r 1 =− 2a =− Z γa/2,r (2πi)h(a/2) √ = π 2a Wir haben damit bewiesen, dass Z ∞ h(z) dz z − a/2 2 e−x dx = −∞ 104 √ π.