Skript zur Vorlesung Analysis 2

Werbung
Skript zur Vorlesung Analysis 2
Sommersemester 2013
Prof. Dr. Benjamin Schlein
Inhaltsverzeichnis
1 Fourier-Reihen
2
2 Gewöhnliche Differentialgleichungen
2.1 Differentialgleichungen erster Ordnung, elementare Lösungsmethoden .
2.2 Existenz und Eindeutigkeit . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Differentialgleichungen höherer Ordnung . . . . . . . . . . . . . . . . .
2.4 Lineare Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . .
2.5 Lineare Differentialgleichungen mit konstanten Koeffizienten . . . . . .
2.6 Grundlagen der Stabilitätstheorie . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
10
11
15
21
22
26
34
3 Differentialrechnung in mehreren Veränderlichen
3.1 Definition der Ableitung für Funktionen auf Rn . . . . . .
3.2 Mittelwertsatz . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Höhere Ableitungen, Taylor Entwicklung, lokale Extrema
3.4 Umkehrabbildung und Satz über implizite Funktionen . .
3.5 Mannigfaltigkeiten in Rn . . . . . . . . . . . . . . . . . . .
3.6 Extrema mit Nebenbedingungen . . . . . . . . . . . . . .
3.7 Integrale, die von einem Parameter abhängen. . . . . . . .
3.8 Konservative Vektorfelder . . . . . . . . . . . . . . . . . .
3.9 Holomorphe Funktionen . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
38
38
49
51
59
66
72
77
81
91
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Fourier-Reihen
Wir betrachten in diesem Kapitel periodische Funktionen. Eine Funktion f : R → C
heisst periodisch, mit Periode T > 0, falls f (t + T ) = f (t) für alle t ∈ [0; T ). Jede auf
[0; T ) definierte Funktion f kann durch die Definition f (t + kT ) := f (t) für alle k ∈ Z,
und alle t ∈ [0; T ) periodisch fortgesetzt werden.
eit .
Ein wichtiges Beispiel einer periodischen Funktion ist die Exponentialfunktion f (t) =
f hat die Periode T = 2π, weil
ei(t+2π) = eit e2πi = eit
für alle t ∈ [0; 2π). T = 2π ist die Fundamentalperiode der Funktion f , d.h. es existiert
keine Periode Te > 0 mit Te < T . Für j ∈ Z ist die Funktion f (t) = eijt auch periodisch.
Die Fundamentalperiode von f (t) = eijt ist 2π/|j|. T = 2π ist auch eine Periode von
f (t) = eijt , für alle j ∈ Z. In der Tat
eij(t+2π) = eijt e2πij = eijt
für alle j ∈ Z. {eijt }j∈Z ist damit eine unendliche Familie von 2π-periodischen Funktionen. Analog, für ein beliebiges L > 0, ist {eijt/L }j∈Z eine unendliche Familie von
Funktionen mit Periode T = 2π/L.
Lemma 1.1. Seien j, k ∈ Z. Dann gilt
Z 2π
2π falls j = k
eikx e−ijx dx =
0
sonst
0
Bemerkung (aus Analysis 1): eine C-wertige Funktion f : [a; b] → C ist integrierbar,
falls Re f und Im f integrierbar sind. In diesem Fall definieren wir
Z
b
b
Z
f dx =
a
Z
b
Re f (x)dx +
a
Im f (x)dx
a
Beweis: Wir haben eikx e−ijx = ei(k−j)x = cos((k − j)x) + i sin((k − j)x). Für k 6= j gilt
Z
2π
cos((k − j)x) dx =
0
1
(sin(2π(k − j)) − sin(0)) = 0
k−j
und analog,
Z
2π
sin((k − j)x) dx = 0
0
Dagegen, für k = j ist ei(k−j)x = 1 und
Z 2π
ei(k−j)x dx = 2π
0
2
Definition 1.2. Sei f : R → C eine 2π-periodische Funktion, auf [0; 2π] integrierbar.
Für ein beliebiges j ∈ Z ist dann die Funktion e−ijx f (x) auch 2π-periodisch und auf
[0; 2π] integrierbar. Wir definieren den j-ten Fourierkoeffizienten von f durch
Z 2π
1
b
f (j) =
f (x)e−ijx dx
2π 0
Weiter, für N ∈ N, definieren wir die N -te Fourier Partialsumme
(FN f )(x) =
N
X
fb(j) eijx
j=−N
Konvergiert die Folge (FN f )(x) für N → ∞, dann wird der Grenzwert durch
(Ff )(x) =
∞
X
fb(j)eijx = lim (FN f )(x)
N →∞
j=−∞
bezeichnet. (Ff ) wird die Fourier-Reihe von f genannt.
Wir werden sehen, dass unter geeigneter Annahme der Funktion f , die Fourier-Reihe
von f mit f übereinstimmt; die Fourier-Reihe gibt also eine nützliche Darstellung von
periodischen Funktionen als Limes von Linearkombinationen von den Funktionen eijx
(ähnlich wie die Taylorreihe eine nützliche Darstellung von analytischen Funktionen
gibt). Um zu zeigen, dass Ff = f gilt, brauchen wir das folgende Lemma.
Lemma 1.3 (Lemma von Riemann-Lebesgue). Sei f : [a; b] → C integrierbar. Dann
gilt
Z b
lim
e±ikx f (x)dx = 0
k→∞ a
Bemerkung: Die Idee hinter dem Lemma von Riemann-Lebesgue Rist die folgende: Die
Funktion eikx hat (Fundamental-) Periode 2π/k. Deswegen gilt I eikx dx = 0 für jedes Intervall der Länge 2π/k. Wenn wir annehmen können,
R dass f auf diesen kleinen
Intervallen näherungsweise konstant ist, dann muss auch I f (x)eikx dx näherungsweise
verschwinden. Da wir [a; b] in kleine Intervalle der Länge (2π)/k zerlegen können, muss
Rb
auch das Integral a f (x)eikx dx klein sein. Wenn man eine reguläre Funktion f betrachtet, dann kann man die Aussage des Riemann-Lebesgue Lemmas verfeinern. Ist f m-Mal
differenzierbar, dann existiert eine Konstante Cm mit
Z b
ikx
f (x)e dx ≤ Cm |k|−m
a
Wir werden zurück zur Beziehung zwischen Regularität und Abfall von oszillierenden
Integralen in den Übungen kommen.
Beweis: O.B.d.A. betrachten wir eine reelwertige Funktion f : [a; b] → R. Sei ε > 0 fest
gewählt. Aus Analysis 1 (Proposition 9.3) existiert eine Teilung T = {a = x0 < x1 <
· · · < xn = b} von [a; b], mit
Z b
ε
S(T ) − ≤
f (x)dx ≤ S(T )
2
a
3
D.h. es existieren hj = supx∈[xj−1 ;xj ] f (xj ), mit
n
X
j=1
ε
hj (xj − xj−1 ) − ≤
2
b
Z
f (x)dx ≤
a
n
X
hj (xj − xj−1 )
j=1
Mit anderen Worten, für beliebige ε > 0 existiert eine Treppenfunktion
g(x) :=
n
X
hj 1[xj−1 ;xj ) (x)
j=1
auf [a; b] mit g(x) ≥ f (x) für alle x ∈ [a; b] und
Z
b
Z
b
(g(x) − f (x)) ≤ ε/2
|g(x) − f (x)|dx =
(1)
a
a
Hier benutzen wir die Notation 1I (x) für die charakteristische Funktion des Intervalls
I, definiert durch 1I (x) = 1, falls x ∈ I und 1I (x) = 0, falls x 6∈ I.
Nun bemerken wir, dass
Z
b
g(x)eikx dx =
a
n
X
j=1
und damit
Z
hj
a
b
1[xj−1 ;xj ] (x)eikx =
n
X
Z
xj
hj
eikx dx =
xj−1
j=1
n
X
hj
j=1
eikxj − eikxj−1
ik
Z b
n
X
ikx
≤ 2
g(x)e
dx
|hj | → 0
|k|
a
j=1
für k → ∞ (oder k → −∞). Also existiert K > 0 gross genug, mit
Z b
ε
ikx
g(x)e dx ≤
2
a
für alle k > K. Aus (1) bekommen wir
Z b
Z b
Z b
ikx
ikx
ikx
f (x)e dx ≤ (f (x) − g(x))e dx + g(x)e dx
a
a
a
Z b
Z b
ikx
≤
|f (x) − g(x)|dx + g(x)e dx
a
a
≤ε
Satz 1.4. Sei f : R → C (2π)-periodisch und differenzierbar. Dann gilt
lim (FN f ) (x) = f (x)
N →∞
für alle x ∈ [0; 2π].
4
Beweis: Es gilt
FN f (x) =
N
X
k=−N
1
fb(k)eikx =
2π
Z
2π
dtf (t)
0
N
X
eik(x−t)
k=−N
Aus Lemma 1.1 gilt
2π
Z
1
f (x) =
2π
dtf (x)
0
N
X
eik(x−t)
k=−N
Damit
1
FN f (x) − f (x) =
2π
Z
1
=
2π
Z
1
2π
Z
=
2π
dt (f (t) − f (x))
0
N
X
e−ik(t−x)
k=−N
2π−x
ds (f (x + s) − f (x))
−x
N
X
e−iks
k=−N
π
ds (f (x + s) − f (x))
−π
N
X
e−iks
k=−N
wobei wir die Periodizität von f und eiks im letzten Schritt benutzt haben. Wir berechnen nun
N
X
k=−N
eis(2N +1) − 1
sin(s(N + 1/2))
e−iks = e−iN s 1 + eis + · · · + e2iN s = e−iN s
=
is
e −1
sin s/2
Damit gilt
1
FN f (x) − f (x) =
2π
Wir definieren
(
g(s) :=
Z
π
ds
−π
f (x + s) − f (x)
sin((N + 1/2)s)
sin s/2
f (x+s)−f (x)
sin(s/2)
2f 0 (x)
falls s 6= 0
falls s = 0
Da f differenzierbar ist, ist g stetig bei s = 0,weil
f (x + s) − f (x)
f (x + s) − f (x)
s/2
= 2 lim
·
= 2f 0 (x)
s→0
s→0
sin(s/2)
s
sin(s/2)
lim
f differenzierbar impliziert insbesondere, dass f stetig ist. Damit ist g auf [−π; π] stetig,
und deswegen sicher integrierbar. Lemma 1.3 impliziert also, dass
Z π
Z π
Z π
1
is(N +1/2)
−is(N +1/2)
ds g(s) sin((N + 1/2)s) =
dsg(s)e
−
dsg(s)e
→0
2i −π
−π
−π
für N → ∞.
Wir haben in Satz 1.4 die punktweise Konvergenz der Fourier-Reihe gegen f . Unter
der Annahme, dass f differenzierbar ist, ist die Konvergenz eigentlich gleichmässig. Um
das zu zeigen, werden wir die zwei folgenden Lemmata brauchen.
5
Lemma 1.5. Sei f ∈ C 1 (R; C) 2π-periodisch. Wie üblich bezeichnen wir mit fb(j) die
Fourier Koeffizienten von f . Weiter bezeichnen wir mit fb0 (j) die Fourier Koeffizienten
von f 0 . Es gilt
fb0 (j) = ij fb(j)
Proof. Durch partielle Integration bekommen wir
Z 2π
Z
ij 2π
1
f (2π) − f (0)
0
−ijx
0
b
f (j) =
f (x)e
dx =
dxf (x)e−ijx = ij fb(j)
+
2π 0
2π
2π 0
Lemma 1.6. Sei f : R → C 2π-periodisch. Dann gilt
2π
Z
|f (x) − FN f (x)|2 dx =
|f (x)|2 dx − 2π
0
0
und
Z
2
|FN f (x)| = 2π
0
|fb(k)|2
(2)
k=−N
N
X
2π
N
X
2π
Z
|fb(k)|2 ≤
2π
Z
|f (x)|2
(3)
0
k=−N
Beweis: Wir berechnen
Z
2π
|f (x) − FN f (x)|2 dx =
0
N
X
2π
Z
dx f (x) −
0
N
X
|f (x)|2 dx +
=
0
−
N
X
0
dxeix(j−k)
0
−
N
X
0
N
X
2π
Z
fb(k)
f (x)e−ikx dx
0
k=−N
|f (x)|2 dx − 2π
fb(j)eijx 
2π
fb(j)fb(k)
f (x)e−ijx
2π
=

j=−N
Z
2π
fb(j)
N
X
f (x) −
j,k=−N
Z
j=−N
Z
fb(k)e−ikx
k=−N
2π
Z
!
|fb(j)|2
j=−N
Das zeigt (2). Analog finden wir
Z
2π
2
|FN f (x)| =
0
N
X
Z
dxeix(j−k) = 2π
0
j=−N
N
X
2π
fb(k) fb(j)
|fb(j)|2
j=−N
Aus (2) folgt nun (3).
Satz 1.7. Sei f ∈ C 1 (R; C) 2π-periodisch. Dann konvergiert die Funktionenfolge FN f →
f gleichmässig, für N → ∞.
Beweis: Wir haben schon punktweise Konvergenz gezeigt, d.h.
f (x) = lim FN f (x) = lim
N →∞
N →∞
N
X
j=−N
6
fb(j)eijx =
∞
X
j=−∞
fb(j)eijx .
Es gilt
N
X
N
X
|k fb(k)|2 =
k=−N
k=−N
1
|fb0 (k)|2 ≤
2π
Z
2π
|f 0 (x)|2 .
0
P∞
Damit konvergiert die Summe k=−∞ |k|2 |fb(k)|2 absolut. Wir erhalten
∞
X
|FN f (x) − f (x)| = fb(k)eikx + fb(−k)e−ikx ≤
≤
k=N +1
∞
X
k=N +1
∞
X
|fb(k)| + |fb(−k)|
2
|k|
∞
X
2
2
b
b
|f (k)| + |f (−k)| +
k=N +1
k=N +1
1
→0
|k|2
für N → ∞. Hier haben wir die Ungleichung 2 |fb(k)| ≤ |k|−2 + |k|2 |fb(k)|2 benutzt.
Was können wir nun sagen über die Fourier-Reihe, falls die periodische Funktion
f nicht differenzierbar ist? Im nächsten Satz zeigen wir, dass wir immer noch Konvergenz von FN f gegen f haben, aber in einem schwächeren Sinn; wir erhalten nämlich
Konvergenz im Sinn von quadratischem Mittel.
Satz 1.8. Sei f : R → C 2π periodisch und über [0; 2π] integrierbar. Dann gilt
Z
2π
lim
N →∞ 0
dx |f (x) − FN f (x)|2 = 0
(4)
und die Parsevalsche Identität
N
X
lim
N →∞
1
|fb(k)|2 =
2π
k=−N
Z
2π
|f (x)|2 dx
0
Ist f differenzierbar, so folgt (4) aus der gleichmässigen Konvergenz FN f → f . Im
Allgemeinen zeigen wir (4) indem wir zunächst f durch eine differenzierbare Funktion
approximieren. Dazu benutzen wir das folgende Lemma.
Lemma 1.9. Sei f : R → C 2π-periodisch und auf [0; 2π] integrierbar. Sei ε > 0. Dann
existiert g ∈ C 1 (R; C), 2π-periodisch, so dass
Z
2π
|f − g|2 dx ≤ ε
0
Beweis: Sei K := supx∈[0;2π) |f (x)| < ∞. Wie im Beweis von Lemma 1.3, finden wir
zunächst
eine Teilung 0 = x0 < x1 < · · · < xn = 2π, und eine Treppenfunktion h(x) =
Pn
j=1 hj 1[xj ;xj−1 ) (x) mit |hj | ≤ K für alle j = 1, . . . , n, so dass
Z
2π
|f (x) − h(x)|dx ≤
0
7
ε
.
8K
Dann gilt |f (x) − h(x)| ≤ |f (x)| + |h(x)| ≤ 2K und damit
Z
2π
2π
Z
2
|f (x) − h(x)|dx ≤
|f (x) − h(x)| dx ≤ 2K
0
0
ε
.
4
Nun approximieren wir für ein beliebiges j ∈ {1, . . . , n} die charakteristische
Pn Funktion 1[xj−1 ;xj ) durch eine differenzierbare Funktion. Wir setzen δ = ε/4 j=1 h2j . Ist
|xj − xj−1 | < δ dann setzen wir einfach θj (x) = 0. Sonst setzen wir

falls x ∈ [0; xj−1 ]

 0 2


falls x ∈ [xj−1 ; xj−1 + δ/2]
 sin ((x − xj−1 )π/δ)
1
falls x ∈ [xj−1 + δ/2; xj − δ/2]
θj (x) =


falls x ∈ [xj − δ/2; xj ]
 sin2 ((x − xj )π/δ)


0
falls x ∈ [xj , 2π]
Wir setzen θj durch Periodizität auf R fort. Nach einfacher Rechnungen ist θj ∈ C 1 (R),
2π-periodisch, mit
Z 2π 2
ε
θj (x) − 1[xj−1 ;xj ) (x) ≤ δ = Pn
4 j=1 h2j
0
Wir definieren nun g(x) =
Weiter
Pn
j=1 hj θj (x).
n
X
h(x) − g(x) =
Offenbar gilt g ∈ C 1 (R), 2π-periodisch.
hj 1[xj−1 ;xj ) (x) − θj (x) .
j=1
Da die verschiedenen Summanden auf disjukten Intervallen getragen werden, gilt auch
n
X
2
|h(x) − g(x)| =
h2j 1[xj−1 ;xj ) (x)
2
− θj (x)
j=1
und damit
Z 2π
2
|h(x) − g(x)| dx =
0
Das gibt
Z 2π
n
X
2
Z
Z
0
j=1
|f (x) − g(x)| dx ≤ 2
0
h2j
2π
n
2
X
ε
h2j ≤
1[xj−1 ;xj ) (x) − θj (x) dx ≤ δ
4
j=1
2π
2
Z
|f (x) − h(x)| dx + 2
0
2π
|h(x) − g(x)|2 dx ≤ ε
0
Hier haben wir benutzt, dass |f (x) − g(x)| ≤ |f (x) − h(x)| + |h(x) − g(x)| und also, dass
|f (x) − g(x)|2 ≤ (|f (x) − g(x)| + |g(x) − h(x)|)2 ≤ 2|f (x) − g(x)|2 + 2|g(x) − h(x)|2 .
8
Beweis von Satz 1.8: Sei ε > 0 festgewählt. Dann finden wir g ∈ C 1 (R; C) mit
Z
ε
|f (x) − g(x)|2 dx <
9
Das impliziert auch, dass
Z
Z
Z
ε
2
2
|FN f (x) − FN g(x)| = |FN (f − g)(x)| ≤ |f (x) − g(x)|2 ≤
9
Weiter, da g differenzierbar ist, gilt FN g → g gleichmässig. Aus Analysis 1 (Satz 9.13)
folgt, dass
Z
|FN g(x) − g(x)|2 dx → 0
für N → ∞. Für N gross genug ist also
Z
ε
|FN g(x) − g(x)|2 dx ≤
9
Insgesamt,
Z
|FN f (x) − f (x)|2 dx
Z
≤ (|f (x) − g(x)| + |g(x) − FN g(x)| + |FN g(x) − FN f (x)|)2 dx
Z
Z
Z
2
2
≤ 3 |f (x) − g(x)| dx + 3 |g(x) − FN g(x)| dx + 3 |FN g(x) − FN f (x)|2 dx
≤ε
falls N gross genug ist.
Bemerkungen:
• 2π-periodische Funktionen können als Funktionen auf dem Einheitskreis S 1 =
{eiϕ : ϕ ∈ R} gedacht werden.
• Ganz ähnlich kann man auch periodische Funktionen mit einer beliebigen Periode
L > 0 betrachten (solche Funktionen werden mit Funktionen auf dem Kreis von
Radius L/2π identifiziert werden). In diesem Fall wird die Fourier-Reihe durch die
Funktionen {e2πijx/L }j∈Z definiert.
• Sei
V := {f : R → C : f 2π-periodisch und auf [0; 2π] stetig}
Es ist einfach zu sehen, dass V ein unendlich dimensionaler Vektorraum ist. Für
f, g ∈ V definieren wir das Skalarprodukt
Z 2π
hf, gi =
f (x)g(x)
0
9
Die Funktionen {eijx }j∈Z sind wegen Lemma 1.1 ein Orthonormalsystem auf V
bezüglich dem Skalarprodukt h., .i. Satz 1.8 besagt dann, dass {eijx }j∈Z eine Orthonormalbasis von V ist, d.h., dass jedes Element von V beliebig gut durch endliche lineare Kombinationen von den orthonormal Funktionen {eijx }j∈Z approxiP
ijx gibt dann einfach
b
miert werden kann. Die Fourier-Reihe f (x) = ∞
j=−∞ f (j)e
die Darstellung von f als Grenzwert von endlichen linearen Kombinationen der
Basis-Funktionen. Die Fourierkoeffizienten werden deswegen durch die Produkte
fb(j) = heijx , f i gegeben. Bemerke, dass V bezüglich der vom Skalarprodukt induzierten Metrik nicht vollständig ist. Um dieses Problem zu lösen, kann man
die Vervollsändigung Ve von V betrachten (jeder Skalarproduktraum kann vervollständigt werden). Ve ist ein Vektorraum, mit einem Skalarprodukt [., .] so, dass:
1) Ve vollständig, bezüglich der von [.; .] induzierten Metrik ist, 2) V kann mit einem
dichten Unterraum von Ve identifiziert werden, 3) Für f, g ∈ V gilt [f ; g] = hf ; gi.
Ve ist ein sogenannter Hilbertraum (ein Skalarproduktraum, der vollständig ist,
bezüglich der aus dem Skalarprodukt induzierten Metrik); es wird mit L2 ([0; 2π])
bezeichnet. Mehr zu diesem Thema in der Vorlesung Funktionalanalysis.
• Ein Grund, warum Fourier-Reihen sehr nützlich sind, ist die Tatsache, dass Ableitungen auf Fourierkoeffizienten sehr einfach wirken. Aus Lemma 1.5 folgt, dass
die Fourierkoeffizienten von f (m) (x) einfach durch (ij)m fˆ(j) gegeben sind. Differentialoperatoren sind, in diesem Sinn, diagonal im Fourierraum (wo die Funktion
f durch ihre Fourierkoeffizienten {fˆ(j)}j∈Z parametrisiert wird).
2
Gewöhnliche Differentialgleichungen
Differentialgleichungen sind Gleichungen, bei denen die Unbekannten Funktionen sind.
Die Differentialgleichung definiert eine Beziehung zwischen den gesuchten Funktionen
und ihren Ableitungen. Gewöhnliche Differentialgleichugen (auf Englisch “ordinary differential equations” oder einfach ODEs) sind Differentialgleichungen, wo die unbekannten
Funktionen einer einzelnen reellen Variablen sind. Bei partiellen Differentialgleichungen
sind dagegen die unbekannten Funktionen von mehreren Variablen. Hier werden wir nur
gewöhnliche Differentialgleichungen betrachten (partielle Differentialgleichungen werden
erst im vierten Semester untersucht).
Differentialgleichungen haben sehr viele Anwendungen. Die ganze Physik wird z.B.
durch Differentialgleichungen formuliert: Die Newtonsche Gleichung der klassischen Mechanik, die Maxwell Gleichungen der Elektrodynamik, die Schrödingergleichung der
Quantenmechanik, die Einsteingleichung der allgemeinen Relativitätstheorie sind alle Beispiele von Differentialgleichungen. Dabei ist nur die Newtonsche Gleichung eine gewöhnliche Differentialgleichung, die anderen sind partielle Differentialgleichungen.
Die Newtonsche Gleichung beschreibt die Bewegung von Teilchen und Körpern unter
der Wirkung von Kräften. Seien x(t) = (x1 (t), x2 (t), x3 (t)) ∈ R3 die Koordinaten eines
Teilchens mit Masse m zur Zeit t. Sei F (x) = (F1 (x), F2 (x), F3 (x)) ein Kraftfeld. D.h.
F (x) ist die Kraft, die im Punkt x auf das Teilchen wirkt. Dann besagt die Newtonsche
Gleichung, dass die Beschleunigung des Teilchens, die aus der zweiten Ableitung x00 (t)
gegeben ist, proportional zur wirkenden Kraft ist. Genauer,
mx00 (t) = F (x(t))
10
(5)
Die Ableitung der vektorwertigen Funktion x(t) ist komponentenweise zu verstehen; d.h.
x00 (t) = (x001 (t), x002 (t), x003 (t)). Um die Trajektorie der Teilchen zu bestimmen, muss man
also eine Funktion x(t) finden, so dass für alle t erfüllt ist. Z.B., die Erde bewegt sich
unter der Wirkung des Gravitationsfelds der Sonne. In einem Koordinatensystem, wo
die Sonne an der Stelle x = 0 liegt, ist die Gravitationkraft, die die Sonne auf einem
Körper der Masse m ausübt aus
x
F (x) = −Gm 3
|x|
gegeben, für eine geeignete Konstante G. Bezeichnet also x(t) die Position der Erde zur
Zeit t, so muss x(t) die Gleichung
mx00 (t) = −Gm
x
|x|3
⇒
x00 (t) = −G
x
|x|3
(6)
erfüllen. Diese Differentialgleichung hat mehrere Lösungen. Die Lösung kann eindeutig
festgestellt werden, falls man geeignete Anfangsbedingungen spezifiziert. Schon Kepler
hat herausgefunden, dass Lösungen von (6) immer auf einer Ebene bleiben und Ellypsen,
Hyperbeln oder Parabeln beschreiben (für die Erde ist die Lösung eine Ellypse).
Gewöhnliche Differentialgleichungen werden nach ihrer Ordnung klassifiziert; die
Ordnung der Differentialgleichung ist die Ordnung der höchsten Ableitung in der Gleichung. Eine Differentialgleichung erster Ordnung ist eine Differentialgleichung der Form
y 0 (x) = f (x, y(x)) für die n unbekannten Funktionen y(x) = (y1 (x), . . . , yn (x)) einer reellen Variable x ∈ R. Eine Differentialgleichung m-ter Ordnung hat die Form
y (m) (x) = f (x, y(x), y 0 (x), . . . , y (m−1) (x)). Die Lösung einer Differentialgleichung ist normalerweise nicht eindeutig. Sie wird aber oft eindeutig durch Spezifizierung von geeigneten Anfangsbedingungen. Z.B. eine Gleichung erster Ordnung für die n unbekannten Funktionen y(x) = (y1 (x), . . . , yn (x)) wird oft eindeutig, falls wir die Bedingung
(0)
(0)
(0)
(0)
y(x0 ) = (y1 , . . . , yn ) für ein x0 ∈ R und für einen Vektor (y1 , . . . , yn ) ∈ Rn verlangen. Gleichungen höherer Ordnung brauchen natürlich mehr Anfangsbedingungen.
Eine Gleichung m-ter Ordnung wird oft eindeutig, falls wir Anfangsbedingungen für
y, y 0 , . . . , y (m−1) verlangen. Eine Differentialgleichung mit Anfangsbedingungen wird als
ein Anfangswertproblem oder ein Cauchy-Problem bezeichnet.
Bei der Untersuchung von gewöhnlichen Differentialgleichungen werden für uns die
folgenden Fragen eine wichtige Rolle spielen: Existiert eine Lösung der Differentialgleichung? Ist die Lösung unter Berücksichtigung von geeigneten Anfangsbedingungen
eindeutig (d.h. ist die Lösung des Anfangswertproblems eindeutig)? Ist es möglich die
Lösung explizit zu finden? Welche Methoden können verwendet werden, um die Lösung
einer Differentialgleichung zu finden? Wie hängt die Lösung von den Anfangsbedingungen ab (Stabilitätstheorie für Differentialgleichungen)? Wir werden sehen, es ist nur
selten möglich die Lösung einer Differentialgleichung explizit zu schreiben. Dagegen
können Existenz und Eindeutigkeit der Lösungen unter allgemeinen Voraussetzungen
gezeigt werden.
2.1
Differentialgleichungen erster Ordnung, elementare Lösungsmethoden
Wir betrachten hier gewöhnliche Differentialgleichungen erster Ordnung.
11
Definition 2.1. Sei n ≥ 1, U ⊂ Rn+1 , f ∈ C(U ; Rn ). Dann ist
y 0 (x) = f (x, y(x))
(7)
eine gewöhnliche Differentialgleichung erster Ordnung. Eine Lösung dieser Differentialgleichung auf einem Intervall I ⊂ R ist eine Funktion y ∈ C 1 (I; Rn ) so, dass
(x, y(x)) ∈ U und (7) erfüllt für alle x ∈ I ist. Für x0 ∈ R, y0 ∈ Rn mit (x0 , y0 ) ∈ U
heisst
0
y (x) = f (x, y(x))
(8)
y(x0 ) = y0
ein Anfangswertproblem oder ein Cauchy-Problem. Eine Lösung des Anfangswertproblems (8) ist eine Lösung der Differentialgleichung (7), die auch die Anfangsbedingung
y(x0 ) = y0 erfüllt (insbesondere muss x0 ∈ I sein). Ist n = 1, so heisst die Differentialgleichung skalar (die gesuchte Funktion hat Werten in R). Ist dagegen n > 1, so heisst
die Differentialgleichung vektoriell (man spricht in diesem Fall von einem System von
Diferentialgleichungen).
Wir betrachten ein paar Beispiele von Differentialgleichungen, wo die Lösungen explizit berechnet werden können (der Einfachheit halber betrachten wir hier Beispiele von
skalaren Gleichungen; wir werden einige Beispiele von vektoriellen Gleichungen später
betrachten, wenn wir lineare Differentialgleichungen untersuchen werden).
Beispiele:
• Sei n = 1, I ⊂ R ein offenes Intervall, U = I × R, und f (x, y) = g(x) (unabhängig
von y), für ein g ∈ C(I). Wir betrachten die Differentialgleichung
ϕ0 (x) = g(x)
Sei G ∈ C 1 (I) eine Stammfunktion von g, mit G0 = g. Dann ist G eine Lösung der
Differentialgleichung. Sei ϕ eine andere Lösung der Differentialgleichung. Dann gilt
(ϕ−G)0 (x) = 0 für alle x ∈ I. Das zeigt, dass jede Lösung die Form ϕ(x) = G(x)+c
hat, für eine Konstante c ∈ R. Betrachten wir nun das Anfangswertproblem
0
ϕ (x) = g(x)
ϕ(x0 ) = y0
für ein x0 ∈ I und ein y0 ∈ R. Die Lösung des Anfangswertproblems ist insbesondere die Lösung der Differentialgleichung und hat deswegen die Form
ϕ(x) = G(x) + c
Die Bedingung
y0 = ϕ(x0 ) = G(x0 ) + c
⇒
c = y0 − G(x0 )
bestimmt die Konstante c eindeutig. Die einzige Lösung des Anfangswertproblems
ist aus
ϕ(x) = G(x) − G(x0 ) + y0
12
gegeben. Bemerke, dass die eindeutige Lösung auch als
Z x
g(t)dt
ϕ(x) = y0 +
x0
geschrieben werden kann.
• Sei wieder n = 1, U = R2 , und f (x, y) = −y. Die Differentialgleichung (7) nimmt
dann die Form
ϕ0 (x) = −ϕ(x)
(9)
Die Funktion ϕ(x) = ce−x erfüllt diese Differentialgleichung auf R, für beliebige
c ∈ R. Wir behaupten jede Lösung auf R hat diese Form. Sei in der Tat ϕ eine
Lösung von (9) auf R. Dann gilt
d x
(e ϕ(x)) = ex (ϕ(x) + ϕ0 (x)) = 0
dx
für alle x ∈ R. Es existiert also eine Konstante c ∈ R mit ex ϕ(x) = c für alle x ∈ R,
d.h. mit ϕ(x) = ce−x für alle x ∈ R. Betrachten wir nun das Anfangswertproblem
0
ϕ (x) = −ϕ(x)
ϕ(x0 ) = y0
für x0 , y0 ∈ R. Die Lösung des Anfangswertproblem hat die Form y(x) = ce−x .
Die Anfangsbedingung y(x0 ) = y0 bestimmt die Konstante c ∈ R durch
y0 = y(x0 ) = ce−x0
⇒
c = y 0 e x0
Die eindeutige Lösung des Anfangswertproblems ist also y(x) = y0 exp(−(x − x0 )).
• Wir betrachten das Anfangswertproblem
0
ϕ (x) = a(ϕ(x) − bϕ2 (x))
ϕ(0) = y0
(10)
für a, b, y0 > 0. Die Differentialgleichung in (10) heisst die logistische Gleichung
oder die Differentialgleichung des beschränkten exponentiellen Wachstums, und
hat z.B. Anwendungen in der Biologie (die Lösung beschreibt das Wachstum einer
idealen Bakterienpopulation). Um die Gleichung zu lösen bemerken wir, dass
1
ϕ0 (x) = a
ϕ(x) − bϕ2 (x)
Integration über x gibt
Z x
0
1
ϕ0 (t)dt = a
ϕ(t) − bϕ2 (t)
Z
x
dt = ax
0
Wir substituieren y = ϕ(t) und bekommen
Z ϕ(x)
1
dy = ax
2
ϕ(0) y − by
13
Aus
1
1
1
b
=
= +
2
y − by
y(1 − by)
y 1 − by
finden wir
log
ϕ(x)(1 − by0 )
= ax
y0 (1 − bϕ(x))
Nach leichter algebraischer Manipulationen bekommen wir die eindeutige Lösung
des Anfangswertsproblems
ϕ(x) =
y0 eax
1 + by0 (eax − 1)
Im letzten Beispiel haben wir die Methode der Trennung der Variablen benutzt. Wir
zeigen im nächsten Satz, dass diese Methode immer angewandt werden kann, falls die
Funktion f (x, y) auf der rechten Seite von (7) das Produkt einer Funktion von x mit
einer Funktion von y ist.
Satz 2.2. Seien I, J ⊂ R offene Intervalle, g ∈ C(I), h ∈ C(J), mit 0 6∈ h(J). Sei
(x0 , y0 ) ∈ I × J. Seien
Z x
Z y
1
G(x) =
g(t)dt, und H(y) =
dt
x0
y0 h(t)
Weiter, sei I 0 ⊂ I ein offenes Intervall mit G(I 0 ) ⊂ H(J) und x0 ∈ I 0 . Dann existiert
genau eine Lösung ϕ ∈ C 1 (I 0 ) des Anfangswertproblems
0
ϕ (x) = g(x)h(ϕ(x))
(11)
ϕ(x0 ) = y0
Ferner ist ϕ : I 0 → J die einzige Funktion mit
H(ϕ(x)) = G(x)
für alle x ∈ I 0 .
(12)
Bemerkung: Die Aussage impliziert, dass Differentialgleichungen der Form (11) durch
Trennung der Variablen gelöst werden können. Das bedeutet, dass (11) zunächst als
1
ϕ0 (x) = g(x)
h(ϕ(x))
umgeschrieben werden kann. Integration über x ergibt dann
Z x
Z x
1
0
ϕ (t)dt =
g(t)dt
x0 h(ϕ(t))
x0
und damit
Z
ϕ(x)
ϕ(x0 )
1
dy =
h(y)
Z
x
g(t)dt
x0
und
H(ϕ(x)) = G(x)
Die eindeutige Lösung des Anfangswertproblems kann dann durch Umkehrung der Funktion H bestimmt werden.
14
Beweis: Da H ∈ C 1 (J) mit H 0 (y) = 1/h(y) 6= 0 für alle y ∈ J ist H injektiv. Damit ist
H : J → H(J) bijektiv und also invertierbar. Sei T : H(J) → J die Umkehrfunktion.
Dann ist T ∈ C 1 (H(J)) mit T 0 (z) = 1/H 0 (T (z)) = h(T (z)), für alle z ∈ H(J). Die
Gleichung (12) definiert eindeutig eine Funktion ϕ = T ◦ G ∈ C 1 (I 0 ). Diese Funktion
erfüllt ϕ0 (x) = h(T ◦ G(x))G0 (x) = h(ϕ(x))g(x) und ϕ(x0 ) = T ◦ G(x0 ) = T (0) = y0 .
D.h. ϕ ist eine Lösung des Anfangswertsproblems. Das zeigt die Existenz der Lösung.
Es bleibt die Eindeutigkeit zu zeigen. Sei dazu ϕ
e ∈ C 1 (I 0 ) eine andere Lösung des
Anfangswertproblems. Es folgt, dass ϕ(I
e 0 ) ⊂ J. Sei ψ = H ◦ ϕ
e − G. Dann gilt
ψ 0 = (H 0 ◦ ϕ)
eϕ
e0 − G0 =
1
ϕ
e0 − g = 0
h◦ϕ
e
auf I 0 , Damit muss ψ konstant auf I 0 sein. Da aber ψ(x0 ) = H(ϕ(x
e 0 )) − G(x0 ) = 0,
muss ψ(x) = 0 für alle x ∈ I 0 . D.h. H ◦ ϕ
e = G auf I 0 , und deswegen, ϕ
e = ϕ. Das zeigt
die Eindeutigkeit der Lösung.
2.2
Existenz und Eindeutigkeit
In diesem Abschnitt möchten wir zeigen, dass unter geeigneten Voraussetzungen an der
Funktion f , das Anfangswertproblem (8) eine eindeutige Lösung besitzt. Dazu werden
wir den Banachschen Fixpunktsatz anwenden. Erinnere aus Analysis 1, dass ein metrischer Raum vollständig heisst, wenn jede Cauchy-Folge in M konvergiert. Wir haben in
Analysis 1 gezeigt, dass Rn , versehen mit der Standardmetrik vollständig für alle n ∈ N
ist.
Satz 2.3 (Banachscher Fixpunktsatz). Sei M , versehen mit der Metrik d, ein vollständiger metrischer Raum. T : M → M eine Abbildung mit der Eigenschaft, dass es eine
Konstante 0 < c < 1 existiert, mit
d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 )
für alle x1 , x2 ∈ M (eine solche Abbildung heisst eine Kontraktion; Kontraktionen sind
insbesondere stetig). Dann gibt es genau ein x ∈ M mit T (x) = x (ein solches x
heisst ein Fixpunkt der Abbildung T ; der Satz besagt, dass jede Kontraktion auf einem
vollständigen metrischen Raum genau einen Fixpunkt besitzt).
Beweis: Wir zeigen zunächst die Eindeutigkeit. Nehme an, dass x1 , x2 zwei Fixpunkte
der Abbildung T sind. Dann gilt
d(x1 , x2 ) = d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 )
Da aber c < 1 ist diese Ungleichung nur möglich, falls d(x1 , x2 ) = 0. Also x1 = x2 .
Nun zeigen wir die Existenz eines Fixpunktes. Sei x0 ∈ M beliebig. Dann definieren wir
rekursiv eine Folge xn in M durch x1 = T (x0 ) und xn+1 = T (xn ). Für n ≥ 1 gilt dann
d(xn+1 , xn ) = d(T (xn ), T (xn−1 )) ≤ cd(xn , xn−1 ) ≤ · · · ≤ cn d(x1 , x0 )
15
Es folgt, dass, für beliebige n > m,
d(xn , xm ) ≤ d(xn , xn−1 ) + d(xn−1 , xn−2 ) + · · · + d(xm+1 , xm )
n
X
=
d(xj , xj−1 )
j=m+1
≤ d(x1 , x0 )
≤ d(x1 , x0 )
n
X
cj
j=m+1
∞
X
cj =
j=m+1
d(x1 , x0 ) m+1
c
→0
1−c
für m → ∞. D.h. xn ist eine Cauchy-Folge auf M . Da M vollständig ist, muss xn
konvergieren. Sei x = limn→∞ xn . Da aber T stetig ist, muss
T (x) = lim T (xn ) = lim xn+1 = x
n→∞
n→∞
Also, x ist ein Fixpunkt von T .
Bemerkung: Der Beweis besagt, dass für jede x0 ∈ M , die Folge T ◦ T ◦ · · · ◦ T (x0 ) gegen
dem Fixpunkt konvergiert. In praktischen Situationen, ergibt dies ein Verfahren, um
den Fixpunkt von T zu approximieren.
Um die Existenz und Eindeutigkeit der Lösung von Anfangswertprobleme zu beweisen, werden wir den Banach’schen Fixpunktsatz auf dem Raum
C(I, Rn ) = {f : I → Rn stetig }
anwenden. Hier ist I ⊂ R ein kompaktes Intervall. Dieser Raum ist mit der Metrik
d(f, g) = sup |f (x) − g(x)|
x∈I
versehen. Wir haben in Analysis 1 gezeigt, dass C(I, Rn ) vollständig ist (siehe Proposition 6.25 und die Diskussion danach; bemerke, dass die Kompaktheit von I impliziert,
wegen dem Satz von Maximum, dass jede stetige Funktion auf I auch beschränkt ist.
Deswegen ist C(I; Rn ) = Cb (I; Rn )). Das nächsten Lemma impliziert dann, dass jede
abgeschlossene Teilmenge von C(I; Rn ) vollständig ist.
Lemma 2.4. Sei M ein vollständiger metrischer Raum, und A ⊂ M abgeschlossen.
Dann ist A vollständig (bezüglich der von M induzierten Metrik).
Beweis: Sei xn eine Cauchy-Folge in A. Dann ist xn auch eine Cauchy-Folge in M . Die
Vollständigkeit von M impliziert, dass xn in M konvergent. Sei x ∈ M der Grenzwert
von xn , als Folge in M . Da A abgeschlossen ist und xn ∈ A für alle n ist, muss dann
aber x ∈ A sein. Damit ist xn auch in A konvergent.
Ein anderer Begriff spielt bei der Untersuchung der Existenz und Eindeutigkeit
von Lösungen von Anfangswertproblemen eine wichtige Rolle. Das ist der Begriff der
Lipschitz-Stetigkeit.
16
Definition 2.5. Seien (M1 , d1 ), (M2 , d2 ) zwei metrische Räume, A ⊂ M1 . Eine Funktion f : A → M2 heisst Lipschitz-stetig falls eine Konstante L > 0 existiert, mit
dM2 (f (x), f (y)) ≤ LdM1 (x, y)
für alle x, y ∈ A.
Bemerkungen:
• Jede Lipschitz-stetige Funktion ist gleichmässig stetig und damit auch stetig.
√
• Nicht alle gleichmässig stetigen Funktionen sind Lipschitz-stetig. Z.B. f (x) = x
auf [0; 1] ist gleichmässig stetig, aber nicht Lipschitz-stetig. Tatsache (Übung):
Eine differenzierbare Funktion f : (a; b) → R ist genau dann Lipschitz-stetig, falls
die Ableitung beschränkt ist.
Wir sind nun bereit, um Existenz und Eindeutigkeit von Lösungen von Anfangswertprobleme der Form (8) zu zeigen.
bezeichnen im Folgenden mit k.k die euklidische
PWir
n
n
2
Norm auf R , die durch kak = j=1 |aj |2 für a = (a1 , . . . , an ) ∈ Rn definiert ist.
Satz 2.6 (Picard-Lindelöf). Sei Ω ⊂ R×Rn offen, (x0 , y0 ) ∈ Ω, f ∈ C(Ω; Rn ) Lipschitzstetig in der zweiten Variablen. Das bedeutet, dass L > 0 mit
kf (x, y) − f (x, y 0 )k ≤ Lky − y 0 k
für alle x ∈ R, y ∈ Rn , y 0 ∈ Rn mit (x, y), (x, y 0 ) ∈ Ω existiert. Dann gibt es ein ε > 0,
so dass das Anfangswertproblem
0
ϕ (x) = f (x, ϕ(x))
(13)
ϕ(x0 ) = y0
eine eindeutige Lösung ϕ ∈ C 1 ([x0 − ε; x0 + ε]; Rn ) besitzt.
Bemerkung: Satz 2.6 zeigt nur die Existenz und Eindeutigkeit einer lokalen Lösung,
in der Nähe vom Punkt x0 , wo die Anfangsbedingung gegeben ist. Wir werden später
sehen, unter welchen Bedingungen die Existenz und Eindeutigkeit einer globalen Lösung
gezeigt werden kann.
Der Beweis benutzt die Tatsache, dass eine Funktion ϕ ∈ C([x0 − ε; x0 + ε], Rn )
genau dann eine Lösung des Anfangswertproblem (13) ist, wenn
Z x
ϕ(x) = y0 +
f (t, ϕ(t))dt
(14)
x0
Aus (14) folgt in der Tat sofort, dass ϕ(x0 ) = y0 ist. Ferner, aus der Stetigkeit von ϕ
und von f , und aus dem Hauptsatz der Integralrechnung folgt auch, dass ϕ ∈ C 1 ([x0 −
ε; x0 + ε]; Rn ) mit ϕ0 (x) = f (x, ϕ(x)) gilt. Anderseits, falls ϕ ∈ C 1 ([x0 − ε; x0 + ε], Rn )
eine Lösung von (13) ist, dann folgt
Z x
Z x
0
ϕ(x) = ϕ(x0 ) +
ϕ (t)dt = y0 +
f (t, ϕ(t))dt .
x0
x0
17
Beweis: Sei δ > 0 so klein, dass K = [x0 − δ; x0 + δ] × Bδ (y0 ) ⊂ Ω. Da K ∈ Rn+1
kompakt und f stetig ist, folgt, dass
M := sup{kf (x, y)k : (x, y) ∈ K} < ∞
Wir wählen nun
δ
δ
0 < ε ≤ min δ,
,
2L 2M
(15)
und wir setzen I = [x0 − ε; x0 + ε]. Wir definieren
A = {g ∈ C(I; Rn ) : kg(x) − y0 k ≤ δ für alle x ∈ I}
A ist dann eine abgeschlossene Teilmenge von C(I; Rn ), versehen mit der Metrik d(f, g) =
supx∈I |f (x) − g(x)| (Beweis: Übung). Es folgt aus Lemma 2.4, dass A ein vollständiger
metrischer Raum ist. Wir definieren nun die Abbildung T : A → C(I; Rn ) durch
Z x
(T φ)(x) = y0 +
f (t, φ(t))dt .
x0
Offenbar ist T φ ∈ C(I; Rn ), für alle φ ∈ A (d.h. die Abbildung ist wohldefiniert). Weiter
gilt, für alle x ∈ I und alle φ ∈ A,
Z
k(T φ)(x) − y0 k = x
x0
f (t, φ(t))dt
≤ ε sup{kf (t, φ(t))k : t ∈ I}
≤ ε sup{kf (x, y)k : x ∈ I, y ∈ Bδ (y0 )} ≤ ε sup{kf (x, y)k : (x, y) ∈ K} = εM ≤ δ/2
aus der Wahl (15). Damit gilt T φ ∈ A, für alle φ ∈ A. Weiter, für φ, ψ ∈ A, finden wir
Z
d(T φ, T ψ) = sup k(T φ)(x) − (T ψ)(x)k = sup x∈I
x∈I
x
x0
(f (t, φ(t)) − f (t, ψ(t))) dt
1
≤ ε sup kf (t, φ(t)) − f (t, ψ(t))k ≤ Lε sup kφ(t) − ψ(t)k = εLd(φ, ψ) ≤ d(φ, ψ)
2
t∈I
t∈I
Damit ist T : A → A eine Kontraktion. Es folgt aus Satz 2.3, dass ϕ ∈ A mit T (ϕ) = ϕ.
Da ϕ ∈ C(I; Rn ) ist t → f (t, ϕ(t)) stetig, und damit ϕ = T ϕ ∈ C 1 ([x0 − ε; x0 + ε]; Rn )
existiert. Ferner gilt ϕ(x0 ) = (T ϕ)(x0 ) = y0 und, aus dem Hauptsatz der Integralrechnung,
ϕ0 (x) = f (x, ϕ(x))
Damit ist ϕ eine Lösung des Anfangswertproblems (13) auf I (wir haben hier das Argument unten (14) wiederholt). Das zeigt die Existenz einer Lösung. Wir zeigen nun
die Eindeutigkeit. Sei dazu ψ ∈ C 1 ([x0 − ε; x0 + ε]; Rn ) eine andere Lösung von (13).
Ist ψ ∈ A, so muss T ψ = ψ, weil ψ eine Lösung von (13) ist. Dann muss aber ψ = ϕ,
weil ϕ der einzelne Fixpunkt von T ist. Ist ψ 6∈ A, dann muss es ein x ∈ I geben, mit
kψ(x)−y0 k > δ. O.B.d.A. nehmen wir an, es existiert x ∈ I, x > x0 mit kψ(x)−y0 k > δ.
Wir setzen dann
x1 = inf{x ∈ I, x > x0 : kψ(x) − y0 k > δ}
18
Aus Stetigkeit von ψ muss dann kψ(x1 ) − y0 k = δ sein. Also
Z x1
δ = kψ(x1 ) − y0 k = f (t, ψ(t))dt
≤ ε sup{kf (x, y)k : (x, y) ∈ K} ≤ δ/2
x0
was ein Widerspruch ist.
Bemerkungen:
• Die Lipschitz-Bedingung ist tatsächlich für die Existenz der Lösung nicht notwendig (Stetigkeit von f ist für die Existenz hinreichend). Dagegen ist die LipschitzBedingung für die Eindeutigkeit der Lösung wichtig. Betrachte in der Tat das
Anfangswertproblem
p
0
ϕ (x) = |ϕ(x)|
ϕ(0) = 0
p
In diesem Fall ist f (x, y) = |y| stetig, aber nicht Lipschitz-stetig in der Nähe
von y = 0. Für ein beliebiges a ≥ 0 ist dann die Funktion
0
falls x < a
ϕ(x) =
1
2
(x
−
a)
falls
x≥a
4
eine Lösung. Ferner ist auch ϕ(x) = 0 eine Lösung. Es existieren also unendlich
viele Lösungen dieses Anfangswertproblems.
• Satz 2.6 besagt die Existenz und Eindeutigkeit einer Lösung auf einem genügend
kleinen Intervall um x0 . Im Allgemeinen existieren keine globalen Lösungen. Betrachte in der Tat das Anfangswertproblem
0
ϕ (x) = 2xϕ2 (x)
(16)
ϕ(0) = 1
Durch Trennung der Variablen finden wir die eindeutige Lösung
ϕ(x) =
1
1 − x2
auf dem Intervall (−1; 1). Auf dem Intervall [a; b] existiert also keine Lösung, falls
a ≤ −1 oder b ≥ 1 (insbesondere existiert keine Lösung auf R.
Aus der letzten Bemerkung stellt sich die Frage, ob es möglich ist, unter stärkeren
Annahmen an f , die Existenz und Eindeutigkeit einer globalen Lösung zu zeigen. Die
Antwort ist ja: Eine Lösung auf einem vorgegebenen Intervall [a; b] existiert immer (und
ist eindeutig), falls die Funktion f (x, y) in der Variablen y auf ganz Rn die LipschitzBedingung erfüllt (die Funktion f (x, y) = xy 2 , die in (16) vorkommt, ist nur für y in
einem kompakten Intervall Lipschitz-stetig). Das ist der Inhalt des nächsten Satzes.
Satz 2.7 (Picard-Lindelöf, globale Version). Sei I = [a; b] ⊂ R ein nicht-leeres kompaktes Intervall, x0 ∈ I, f ∈ C(I × Rn , Rn ) Lipschitz-stetig in der zweiten Variablen. D.h.
es existiere L > 0 mit
kf (x, y) − f (x, y 0 )k ≤ Lky − y 0 k
19
für alle x ∈ I, y, y 0 ∈ Rn . Dann hat für jede y0 ∈ Rn das Anfangswertproblem
0
ϕ (x) = f (x, ϕ(x))
ϕ(x0 ) = y0
(17)
eine eindeutige Lösung ϕ ∈ C 1 (I; Rn ).
Bemerkung: Satz 2.7 kann auch benutzt werden, um die Existenz und Eindeutigkeit
von Lösungen auf R zu zeigen. In der Tat eine Lösung auf R existiert und genau dann
eindeutig ist, wenn sie auf dem Intervall [−m; m] existiert und ist eindeutig, für alle
m ∈ N.
Beweis: Für ϕ ∈ C(I; Rn ), definieren wir
kϕkL = sup e−2L|x−x0 | kϕ(x)k
x∈[a;b]
Es ist einfach zu überprüfen, dass k.kL eine Norm ist. Ferner, es gilt
e−2L(b−a) kϕk∞ ≤ kϕkL ≤ kϕk∞
(18)
wobei kϕk∞ = supx∈[a;b] kϕ(x)k. Sei ϕn eine Folge in C(I; Rn ). Dann impliziert (18):
ϕn konvergiert bezüglich k.kL ⇐⇒ ϕn konvergiert bezüglich k.k∞ , und
ϕn ist Cauchy-Folge bezüglich k.kL ⇐⇒ ϕn ist Cauchy-Folge bezüglich k.k∞ .
(Man sagt, die zwei Normen k.k∞ und k.kL sind äquivalent). Es folgt insbesondere, dass
(C(I; Rn ), k.kL ) ein vollständiger metrischer Raum ist. Auf C(I; Rn ) definieren wir nun
die Abbildung
Z
x
(T φ)(x) = y0 +
f (t, φ(t))dt
x0
Dann gilt, für beliebige x ∈ [a; b], x > x0 ,
Z x
Z x
kf (t, φ(t)) − f (t, ψ(t))kdt
k(T φ)(x) − (T ψ)(x)k = (f (t, φ(t)) − f (t, ψ(t)))dt
≤
x0
Zx0x
Z x
≤L
kφ(t) − ψ(t)kdt = L
e2L|t−x0 | e−2L|t−x0 | kφ(t) − ψ(t)kdt
x0
x0
Z x
1
2L(t−x0 )
≤ Lkφ − ψkL
e
dt ≤ e2L|x−x0 | kφ − ψkL
2
x0
Analog gilt auch für x ∈ [a; b] mit x < x0 ,
1
k(T φ)(x) − (T ψ)(x)k ≤ e2L|x−x0 | kφ − ψkL
2
Damit gilt
1
e−2L|x−x0 | k(T φ)(x) − (T ψ)(x)k ≤ kφ − ψkL
2
für alle x ∈ [a; b] und also
1
kT φ − T ψkL ≤ kφ − ψkL
2
20
Es folgt, dass T eine Kontraktion ist. Das impliziert, dass es einen eindeutigen Fixpunkt
ϕ ∈ C(I; Rn ), mit T ϕ = ϕ gibt. Es ist dann einfach zu sehen, dass ϕ ∈ C 1 (I; Rn ) eine
Lösung von (17) ist. Zur Eindeutigkeit: Ist ψ ∈ C 1 (I; Rn ) eine Lösung von (17), so ist
insbesondere ψ ∈ C(I; Rn ). Damit kann man T auf ψ anwenden. Da ψ eine Lösung
des Anfangswertproblem ist, muss aber T ψ = ψ. Damit ist ψ = ϕ, weil T nur einen
Fixpunkt haben kann.
2.3
Differentialgleichungen höherer Ordnung
Differentialgleichungen höherer Ordnung hängen auch von den höheren Ableitungen der
gesuchten Funktion y(x) ab.
Definition 2.8. Seien n, k ∈ N\{0} fest, Ω ⊂ R × Rn×k offen, f ∈ C(Ω, Rn ). Dann ist
y (k) (x) = f (x, y(x), y 0 (x), . . . , y (k−1) (x))
(19)
eine Differentialgleichung k-ter Ordnung. Eine Lösung von (19) auf einem Intervall
I ⊂ R ist eine Funktion y ∈ C k (I; Rn ) so, dass
x, y(x), y 0 (x), . . . , y (k) (x) ∈ Ω
und (19) gilt, für alle x ∈ I. Für gegebene (x0 , y0 , y1 , . . . , yk ) ∈ Ω ist
(k)
y = f (x, y(x), . . . , y (k−1) (x))
y (j) (x0 ) = yj ,
für j = 1, 2, . . . , (k − 1)
(20)
ein Anfangswertproblem oder ein Cauchy-Problem k-ter Ordnung.
Man kann Resultate über die Existenz und Eindeutigkeit der Lösung von Anfangswertproblemen k-ter Ordnung aus den entsprechenden Resultaten für Gleichungen erster Ordnung herleiten, indem man bemerkt, dass eine Gleichung k-ter Ordnung zu
einer Gleichung erster Ordnung in mehreren Variablen äquivalent ist. In der Tat, das
Anfangswertproblem (20) kann wie folgt umgeschrieben werden. Wir definieren die neue
Funktion ψ(x) = (y(x), y 0 (x), . . . , y (k−1) (x)). Dann ist ψ eine Funktion mit Werten in
Rn×k . Wir definieren ferner
fe(x, z0 , z1 , . . . , zk−1 ) := (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 ))
für alle (x, z0 , z1 , . . . , zk−1 ) ∈ Ω. Auch fe hat Werte in Rn×k . Es ist dann leicht zu sehen,
dass (20) zu dem Anfangswertproblem
ψ 0 (x) = fe(x, ψ(x))
mit der Anfangsbedingung ψ(x0 ) = (y0 , y1 , . . . , yk−1 ) ∈ Rn×k äquivalent ist. Damit
haben wir ein Problem k-ter Ordnung in Dimension n in einem Problem erster Ordnung
in Dimension nk umgeschrieben. Wir erhalten deswegen das folgende Existenz- und
Eindeutigkeitsresultat.
21
Satz 2.9. Seien n, k ∈ N\{0} fest, Ω ⊂ R × Rn×k offen, f ∈ C(Ω, Rn ) Lipschitz-stetig
in alle Argumenten nach dem ersten. D.h. es existiere L > 0 mit
f (x, z0 , z1 , . . . , zk−1 ) − f (x, z00 , z10 , . . . , z 0 ) ≤ Lkz − z 0 k
k−1
0
für alle x ∈ R, z = (z0 , . . . , zk−1 ), z 0 = (z00 , . . . zk−1
) ∈ Rn×k mit (x, z), (x, z 0 ) ∈ Ω. Sei
(x0 , y0 , . . . , yk−1 ) ∈ Ω. Dann existiert ein ε > 0 so, dass das Anfangswertproblem (20)
eine eindeutige Lösung ϕ ∈ C k ([x0 − ε; x0 + ε], Rn ) hat.
Beweis: Es genügt zu zeigen, dass die Funktion
fe(x, z0 , z1 , . . . , zk−1 ) = (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 ))
Lipshitz-stetig in z = (z0 , z1 , . . . , zk−1 ) ist. Dazu bemerken wir, dass
e
0
, f (x, z) − f (x, z 0 ))
f (x, z) − fe(x, z 0 ) = (z1 − z10 , z2 − z20 , . . . , zk−1 − zk−1
≤ kz − z 0 k + kf (x, z) − f (x, z 0 )k ≤ (L + 1)kz − z 0 k .
2.4
Lineare Differentialgleichungen
Die Differentialgleichung erster Ordnung
y 0 (x) = f (x, y(x))
(21)
heisst linear, falls die Funktion f (x, y) affin in der Variable y ∈ Rn ist, d.h. falls eine offene Teilmenge A ⊂ R, eine matrixwertige Funktion a ∈ C(A; Rn×n ) und eine
vektorwertige Funktion b ∈ C(A; Rn ) existieren mit
f (x, y) = a(x)y + b(x)
(22)
Für ein beliebiges x ∈ A bezeichnet hier a(x)y die Anwendung der n × n Matrix a(x)
auf dem Vektor y ∈ Rn . Die Differentialgleichung (21) heisst linear und homogen, falls
f (x, y) linear in y ist, d.h. falls f die Form (22) hat, mit b = 0.
Skalare lineare Differentialgleichungen: Wir betrachten zunächst den skalaren Fall, mit
n = 1. Sei I ⊂ R ein Intervall und a ∈ C(I). Für x0 ∈ I und y0 ∈ R beliebig, untersuchen
wir das skalare, lineare und homogene Anfangswertproblem
(
y 0 (x) = a(x)y(x)
y(x0 ) = y0
Das Anfangswertproblem hat eine eindeutige Lösung (aus Satz 2.7). Durch Trennung
der Variablen finden wir, dass die eindeutige Lösung aus
Z x
ϕ(x) = y0 exp
a(t)dt
x0
gegeben ist.
22
Sei nun, wie vorher, I ⊂ R ein Intervall und a ∈ C(I). Weiter, sei b ∈ C(I). Für
beliebige x0 ∈ I und y0 ∈ R, untersuchen wir das skalare, lineare (aber inhomogene)
Anfangswertproblem
(
y 0 (x) = a(x)y(x) + b(x)
y(x0 ) = y0
Aus Sazt 2.7, hat dieses Anfangswertproblem eine eindeutige Lösung. Die Lösung kann
durch die Methode der Variation der Konstante gefunden werden. Man findet zunächst
die allgemeine Lösung der homogenen Differentialgleichung y 0 (x) = a(x)y(x), die aus
Z x
y(x) = c exp
a(t)dt
x0
für eine beliebige Konstante c ∈ R gegeben ist. Um die inhomogene Gleichung zu lösen,
betrachtet man den Ansatz
Z x
y(x) = c(x) exp
a(t)dt
x0
bei welchem die Konstante c aus der Lösung der homogenen Gleichung nun von x
abhängt. Dann ist
Z x
Z x
0
0
y (x) = c (x) exp
a(t)dt + c(x)a(x) exp
a(t)dt
x0
x0
Z x
0
= c (x) exp
a(t)dt + a(x)y(x)
x0
Wir sehen also, dass y(x) eine Lösung des inhomogenen Anfangswertproblems ist, g.d.w.
Z x
Z x
0
0
a(t)dt = b(x)
⇐⇒
c (x) = b(x) exp −
a(t)dt
c (x) exp
x0
x0
Wir finden also, dass die eindeutige Lösung des inhomogenen Anfangswertproblems aus
Z t
Z x
Z x
ϕ(x) = y0 +
b(t) exp −
a(s)ds dt exp
a(t)dt
x0
x0
x0
gegeben ist.
Vektorielle lineare Differentialgleichungen: Wir kommen nun zum allgemeinen Fall n ≥
1. Sei I ⊂ R ein Intervall, x0 ∈ I, a ∈ C(I, Rn×n ) eine matrix-wertige stetige Funktion
auf I. Wir untersuchen das lineare, homogene Anfangswertproblem
0
y (x) = a(x)y(x)
(23)
y(x0 ) = y0
für ein beliebiges y0 ∈ Rn .
Es lohnt sich in diesem Fall zunächst eine matrix-wertige Differentialgleichung zu
lösen. Aus Satz 2.7 folgt nämlich, dass eine eindeutige Lösung ϕ ∈ C 1 (I, Rn×n ) des
Anfangswertproblems
0
ϕ (x) = a(x)ϕ(x)
(24)
ϕ(x0 ) = 1
23
existiert, wobei 1 die Identitätsmatrix auf Rn ist. Bemerke, dass, für alle x ∈ I, ϕ(x)
hier eine n × n Matrix bezeichnet. Die Ableitung ϕ0 (x) ist wieder eine Matrix, mit
Einträgen (ϕ0 (x))ij = ϕ0ij (x), wobei ϕij (x) die Einträge von ϕ(x) sind (d.h. die Matrix
wird Einträge-weise differenziert). Das Produkt a(x)ϕ(x) soll dann als Produkt von
zwei Matrizen verstanden werden. Die Matrixgleichung (24) ist einfach ein System von
n2 Differentialgleichungen, oder äquivalent, eine vektorielle Differentialgleichung für eine
Unbekannte ϕ(x) mit n2 Komponenten (deswegen kann man Satz 2.7 anwenden). Analog
existiert eine eindeutige Lösung ψ ∈ C 1 (I; Rn×n ) des Anfangswertproblems
0
ψ (x) = −ψ(x)a(x)
(25)
ψ(x0 ) = 1
Wir behaupten nun, dass
ψ(x)ϕ(x) = 1
für alle x ∈ I. In der Tat, die Anfangsbedingung impliziert, dass ψ(x0 )ϕ(x0 ) = 1.
Anderseits
d
[ψ(x)ϕ(x)] = ψ 0 (x)ϕ(x) + ψ(x)ϕ0 (x) = −ψ(x)a(x)ϕ(x) + ψ(x)a(x)ϕ(x) = 0
dx
D.h. ψ(x)ϕ(x) ist konstant auf I und deswegen ψ(x)ϕ(x) = 1, für alle x ∈ I. Das
impliziert insbesondere, dass die Lösungen ϕ(x) und ψ(x) invertierbar sind, für alle
x ∈ I.
Wir können nun die Lösung ϕ(x) des Anfangswertproblems (24) benutzen, um die
Lösung von (23) zu konstruieren. Aus Satz 2.7 wissen wir nämlich schon, dass (23) eine
eindeutige Lösung besitzt. Wir behaupten nun, dass die eindeutige Lösung von (23) aus
y(x) = ϕ(x)y0 gegeben ist. In der Tat, y(x0 ) = ϕ(x0 )y0 = 1y0 = y0 und
y 0 (x) = ϕ0 (x)y0 = a(x)ϕ(x)y0 = a(x)y(x)
(26)
Mit anderen Worten, die eindeutige Lösung von (23) bekommt man einfach durch Anwendung der Matrix ϕ(x) auf die Anfangsbedingung y0 ∈ Rn .
Aus der Darstellung der Lösung von (23) als y(x) = ϕ(x)y0 folgt einfach, dass der
Lösungsraum der linearen Differentialgleichung in (23) eine lineare Struktur hat. Für
gegebene a ∈ C(I; Rn×n ) definieren wir nämlich den Lösungsraum der Differentialgleichung y 0 (x) = a(x)y(x) als
Lh := y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x)
(d.h. Lh ist die Menge aller Lösungen der Differentialgleichung, unabhängig von der
Anfangsbedingung). Wir haben schon bewiesen, dass ein beliebiges y ∈ L die Form
y(x) = ϕ(x)y(x0 ) hat. Das impliziert offenbar, dass Lh ein Vektorraum ist. Da die
Matrix ϕ(x) invertierbar ist, folgt auch, dass y (1) , . . . , y (m) ∈ Lh genau dann linear unabhängig sind, wenn y (1) (x0 ), . . . , y (m) (x0 ) ∈ Rn linear unabhängig sind. Das impliziert,
dass dim Lh = dim Rn = n (mit anderen Worten, die Formel y(x) = ϕ(x)y(x0 ) erlaubt
uns Lh mit Rn zu identifizieren).
24
Die Lösung der Matrix-Gleichung (24) erlaubt uns auch inhomogene lineare Differentialgleichungen zu berechnen. Sei nämlich I ⊂ R ein Intervall, x0 ∈ I, y0 ∈ Rn ,
a ∈ C(I; Rn×n ) und b ∈ C(I; Rn ). Dann hat das Anfangswertproblem
0
y (x) = a(x)y(x) + b(x)
(27)
y(x0 ) = y0
die eindeutige Lösung
Z
y(x) = ϕ(x) y0 +
x
ϕ−1 (t)b(t)dt
(28)
x0
wobei ϕ ∈ C 1 (I; Rn×n ) die eindeutige Lösung von (24) ist. In der Tat, aus ϕ(x0 ) = 1
folgt sofort, dass (28) die Bedingung y(x0 ) = y0 erfüllt. Weiter gilt
Z x
0
0
−1
y (x) = ϕ (x) y0 +
ϕ (t)b(t) + ϕ(x)ϕ−1 (x)b(x) = a(x)y(x) + b(x)
x0
Wir haben in (28) benutzt, dass ϕ(x) für alle x ∈ I invertierbar ist. Es folgt aus diesem
Ausdruck für die Lösung des Anfangswertproblems (27), dass der Lösungsraum der
inhomogenen linearen Differentialgleichung y 0 (x) = a(x)y(x) + b(x), definiert durch
Li = y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x) + b(x), für alle x ∈ I
aus
Z
x
Li = Lh + ϕ(x)
−1
ϕ
(t)b(t) =
Z
x
y(x) = yh (x) + ϕ(x)
x0
−1
ϕ
(t)b(t) : yh ∈ Lh
x0
gegeben ist. Allgeiner, für eine beliebige Lösung z ∈ Li , gilt Li = z + Lh . D.h. Li ist ein
affiner Raum.
Lineare Differentialgleichungen höherer Ordnung: Lineare homogene und inhomogene
Differentialgleichungen höherer Ordnung können als lineare homogene und inhomogene Differentialgleichungen erster Ordnung mit höherer Dimension geschrieben werden,
ähnlich wie in Sektion 2.3 erklärt wird. Sei zum Beispiel I ⊂ R ein Intervall, x0 ∈ I,
a0 , . . . , an−1 ∈ C(I) und b ∈ C(I) reelwertig. Der Lösungsraum Lh der linearen homogenen Differentialgleichung
y (n) (x) + an−1 (x)y (n−1) (x) + · · · + a0 y(x) = 0
der Ordnung n ist ein linearer Vektorraum mit Dimension n. Zu jeder (y0 , y1 , . . . , yn−1 )
gibt es genau eine Lösung y ∈ Lh , mit y(x0 ) = y0 , y 0 (x) = y1 , . . . , y (n−1) (x0 ) = yn−1 .
Der Lösungsraum Li der linearen inhomogenen Gleichung
y (n) (x) + an−1 (x)y (n−1) (x) + · · · + a0 y(x) + b(x) = 0
ist so, dass Li = z + Lh , für ein beliebiges z ∈ Li .
Bemerke, dass es im Gegensatz zum skalaren Fall n = 1, wo die Lösung von homogenen und inhomogenen Problemen mit Trennung der Variablen und Variationen der
25
Konstanten immer gefunden werden kann, bei vektoriellen linearen Problemen (und also
bei Probleme höheren Ordnung) kein allgemeines Rezept gibt, um Lösungen zu finden.
Wir haben nur gezeigt, dass die Lösung jeder vektoriellen linearen Gleichung zur Berechnung der Lösung ϕ ∈ C 1 (I; Rn×n ) der Matrix-Gleichung (24) reduziert werden kann
(und wir haben die Darstellung der Lösung durch die Matrix ϕ(x) benutzt, um allgemeine Eigenschaften der Lösungen zu diskutieren). Im Allgemeinen kann man aber ϕ nicht
explizit berechnen. Eine Ausnahme, wo die Berechnung von ϕ auf die Lösung von linearen Gleichungsystemen reduziert werden kann, ist der Fall von linearen Gleichungen mit
konstanten Koeffizienten, die durch Konstanten a ∈ Rn×n und b ∈ Rn charakterisiert
ist.
2.5
Lineare Differentialgleichungen mit konstanten Koeffizienten
Sei n ∈ N und A ∈ Rn×n eine festgewählte n × n Matrix. In (23) setzen wir dann
a(x) = A für alle x ∈ Rn . Wir bekommen die lineare homogene Differentialgleichung
mit konstanten Koeffizienten
y 0 (x) = Ay(x)
(29)
für eine unbekannte Funktion y ∈ C 1 (R; Rn ). Sei
Lh = y ∈ C 1 (R; Rn ) : y 0 (x) = Ay(x)
der Lösungsraum der Differentialgleichung (29). Wir wissen schon, dass Lh ein Vektorraum der Dimension n ist. Ist eine Basis y (1) , . . . , y (n) des Lösungsraums Lh gegeben, so
kann man die eindeutige Lösung des Anfangswertproblems
0
y (x) = Ay(x)
(30)
y(x0 ) = y0
bestimmen, indem man den Vektor y0 als eine lineare Kombination der Basisvektoren
ausdruckt:
n
X
y0 =
cj y (j) (x0 )
j=1
Das ist möglich, weil {y (j) (x0 )}nj=1 eine Basis von Rn ist. Dann ist die eindeutige Lösung
von (30) aus
n
X
y(x) =
cj y (j) (x)
j=1
gegeben.
Wie können wir nun eine Basis von Lh finden? Sei v ∈ Rn ein Eigenvektor von A
mit Eigenwert λ, d.h. Av = λv. Dann ist y(x) = veλx ∈ Lh , weil
y 0 (x) = λveλx = Aveλx = Ay(x) .
Nehmen wir nun an, dass die Matrix A n linear unabhängige Eigenvektoren v1 , . . . , vn ∈
Rn , mit Eigenwerten λ1 , . . . , λn ∈ R (nicht notwendigerweise verschiedenen), besitzt.
Dann sind die Funktionen yj (x) = vj eλj x , für j = 1, . . . , n, linear unabhängig und damit
eine Basis von Lh .
26
Es passiert oft, dass eine Matrix A ∈ Rn×n auf C, aber nicht auf R diagonalisierbar
ist. Sei λ = γ + iω ∈ C\R ein komplexer Eigenwert von A, mit Eigenvektor v ∈ Cn \{0};
wir zerlegen v = u + iw, mit u, w ∈ Rn . Da A reelle Einträge hat, ist auch λ = γ − iω
ein Eigenwert von A, mit Eigenvektor v = u − iw. Die zwei Funktionen
ye1 (x) = veλx = (u + iw)eiωx eγx = [(u cos ωx − w sin ωx) + i (u sin ωx + w cos ωx)] eγx
ye2 (x) = (u − iw)e−iωx eγx = [(u cos ωx − w sin ωx) − i (u sin ωx + w cos ωx)] eγx
sind dann komplexe Lösungen der Differentialgleichung (29). Weil wir uns vor allem für
reelle Lösungen interessieren, möchten wir ye1 und ye2 durch die reellen linearen Kombinationen
ye1 (x) + ye2 (x)
= (u cos ωx − w sin ωx) eγx
2
ye1 (x) − ye2 (x)
= (u sin ωx + w cos ωx) eγx
y2 (x) =
2i
y1 (x) =
(31)
ersetzen.
Seien also ve1 , . . . , ven ∈ Cn linear unabhängige Eigenvektoren von A, zu den Eigenwerten λ1 , . . . , λn ∈ C. Für jedes j = 1, . . . , n unterscheiden wir zwei Fälle. Sei zunächst
λj ∈ R. Dann ist mit vej auch vej ein Eigenvektor von A zum Eigenwert λ. Mindestens
einer der zwei Vektoren Re vej = (e
vj + vej )/2 und Im vej = (e
vj − vej )/2i ist nicht Null und
n
deswegen ein reeller Eigenvektor v ∈ R von A zum Eigenwert λ. Wir setzen, dann
yj (x) = veλx
Sei nun λj ∈ C\R. Dann ist mit λj auch λj ein Eigenwert von A. D.h. es existiert i 6= j
mit λi = λj . Dann setzen wir, gemäss (31),
yj (x) = (Re vj cos(Im λj ) − Im vj sin(Im λj ) eRe λj
yi (x) = (Re vj sin(Im λj ) − Im vj cos(Im λj ) eRe λj
Damit konstruieren wir n linear unabhängige und reelle Lösungen yj der Differentialgleichung y 0 (x) = Ay(x); das gibt eine Basis vom Lösungsraum Lh .
Es gibt natürlich auch den Fall, dass die Matrix A nicht diagonalisierbar ist. D.h.,
dass keine n linearen unabhängigen Eigenvektoren von a existieren. In diesem Fall ist
die Suche nach einer Basis des Lösungsraums Lh komplizierter. Es hilft, die Lösung der
Differentialgleichung y 0 (x) = Ay(x) durch Exponenzierung von A zu konstruieren.
Lösung durch Exponentialabbildung: Die Matrix A = (aij ) ist ein Element von Rn×n .
Auf diesem Raum ist die euklidische Norm aus
kAk2 =
N
X
|aij |2 = Tr A∗ A
i,j=1
gegeben. Es gibt eine andere natürliche Norm für Matrixen, nämlich die Operator-Norm.
Wir definieren die Operatornorm von A durch
kAkop = sup
v∈Rn
27
kAvk
kvk
wobei kAvk und kvk die euklidischen Normen von Av und v, als Elemente von Rn , sind.
Es ist einfach zu zeigen, dass k.kop wirklich eine Norm ist. Die Operatornorm hat die
Eigenschaft, dass kAvk ≤ kAkop kvk, für einen beliebigen Vektor v ∈ Rn (das folgt direkt
aus der Definition). Sind also A, B ∈ Rn×n zwei Matrizen, dann gilt (AB bezeichnet die
Multiplikation der zwei Matrizen A und B; das entspricht der Verknüpfung der zwei
Abbildungen)
kABvk ≤ kAkkBvk ≤ kAkkBkkvk
für alle v ∈ Rn . Es folgt, dass
kABkop ≤ kAkop kBkop
Es gilt
1
√ kAk ≤ kAkop ≤ kAk
n
(32)
für jede A ∈ Rn×n . D.h. die zwei Normen k.k und k.kop auf Rn×n sind äquivalent (das gilt
übrigens für jede zwei Normen auf einem beliebigen endlich dimensionalen Vektorraum).
Man kann (32) wie folgt beweisen. Es gilt
2
n X
n
n X
n X
n
X
X
kAvk =
aji vi =
aji1 aji2 vi1 v i2
2
≤
j=1 i=1
n X
n
X
1
2
j=1 i1 =1 i2 =1
n
X
|aji1 |2 |vi2 |2 + |aji2 |2 |vj |2 = kvk2 kAk2
j=1 i1 =1 i2 =1
Das impliziert, dass kAvk/kvk ≤ kAk für alle v ∈ Rn , und damit, dass kAkop ≤ kAk.
Anderseits,
kAk2 = Tr A∗ A =
n
X
hej , A∗ Aej i =
j=1
n
X
kAej k2 ≤
j=1
n
X
kAk2op kej k2 ≤ nkAk2op
j=1
wobei die Vektoren ej = (0, . . . , 0, 1, 0, . . . , 0) die Standardbasis von Rn sind.
Wir betrachten nun für A ∈ Rn×n die Folge
BN :=
N
X
Aj
j=0
Wir bemerken, dass, für N > M ,
X
N Aj kBN − BM kop = j=M +1 j! j!
N
N
X
X
kAj kop
kAkj
≤
≤
j!
j!
op
j=M +1
j=M +1
P
j
Aus der Konvergenz der Reihe ∞
j=0 kAk /j! auf R folgt, dass kBN − BM kop → 0, da
N, M → ∞. Das impliziert auch, dass kBN − BM k → 0 bezüglich der euklidischen Norm
28
auf Rn×n . Also ist BN eine Cauchy-Folge auf Rn×n , bzg. der euklidischen Norm, und
damit konvergiert BN . Wir definieren
exp(A) := lim
N
X
Aj
N →∞
j=0
j!
≡
∞
X
Aj
j=0
j!
Wir bemerken nun, dass die matrixwertige Funktion
ϕ(x) = exp(A(x − x0 ))
definiert für beliebige x ∈ R, das Anfangswertproblem
0
ϕ (x) = Aϕ(x)
ϕ(x0 ) = 1
(33)
löst. Die Anfangsbedingung ϕ(x0 ) = 1 ist offenbar erfüllt. Wir zeigen nun, dass ϕ(x) die
Differentialgleichung erfüllt. Sei dazu R > 0 fest. Auf x ∈ [x0 − R; x0 + R] konvergiert
die matrixwertige Potenzreihe
BN (x) =
N
X
Aj
j=0
j!
(x − x0 )j
gleichmässig gegen exp(A(x − x0 )). Die Ableitung
0
BN
(x) =
N
X
Aj
j=0
j!
j(x − x0 )j−1 = A
N
N
−1 j
X
X
Aj−1
A
(x − x0 )j−1 = A
(x − x0 )j
(j − 1)!
j!
j=1
j=0
konvergiert auch gleichmässig gegen A exp(A(x−x0 )). Aus Analysis 1 (Proposition 8.29)
folgt, dass ϕ ∈ C 1 ([−R; R]; Rn×n ), mit ϕ0 (x) = Aϕ(x) für alle x ∈ [−R; R] (bemerke,
dass Proposition 8.29 in Analysis 1 nur für R-wertige Funktionenfolgen formuliert ist.
Das Resultat lässt sich aber trivial auf matrixwertige Funktionen erweitern, indem man
die n2 Komponenten der Matrix separat untersucht). Da R > 0 beliebig ist, folgt dass
ϕ ∈ C 1 (R; Rn×n ) das Anfangswertproblem (33) auf ganz R löst.
Wie in (26), ist nun die eindeutige Lösung des Anfangswertproblems (30) durch
Anwendung der Matrix ϕ(x) auf die Anfangsbedingung, d.h.
y(x) = ϕ(x)y0 = exp(A(x − x0 ))y0
Ferner, das inhomogene Anfangswertpbroblem mit konstanten Koeffizienten y 0 (x) =
ay(x) + b, mit der Anfangsbedingung y(x0 ) = y0 , hat, gemäss (28) die eindeutige Lösung
Z x
y(x) = ea(x−x0 ) y0 +
e−a(x−x0 ) bdt .
x0
Aus einem praktischen Sichtpunkt ist die Berechnung der Exponenitalabbildung
exp(a(x − x0 )) durch die Diagonalisierung von A möglich. Ist nämlich A = U −1 DU ,
29
für eine diagonale Matrix D = diag(d1 , . . . , dn ), so gilt Am = (U −1 DU )m = U −1 Dm U .
Es folgt
exp(A(x − x0 )) =
∞
X
A
m (x
m=0
= U −1
∞
X
m=0
∞
X
− x0 )m
(x − x0 )m
=
U −1 Dm U
m!
m!
Dm
(x − x0
m!
m=0
m
)
U
∞
∞
m
m
X
X
dm
dm
n (x − x0 )
−1
1 (x − x0 )
= U diag
,...,
m!
m!
m=0
m=0
= U −1 diag e(x−x0 )d1 , . . . , e(x−x0 )dn U.
!
U
Ist die Matrix a nicht diagonalisierbar, so ist die Berechnung von exp((x − x0 )a) schwieriger. In diesem Fall kann die jordansche Normalform der Matrix A verwendet werden.
Für beliebige A ∈ Rn×n kann man nämlich eine invertierbare Matrix U und eine blockdiagonal Matrix


J1 0
0
... 0
 0
J2 0
... 0 

J =
 ... ... ... ... ... 
0
0
0
. . . Jk
finden, so dass A = U −1 JU . J heisst die Jordan Normalform von A. Die Blöcke Ji haben
die Form


λi 1
0
... 0
 0
λi 1
... 0 



Ji =  . . . . . . . . . . . . . . . 
(34)

 0
... 0
λi 1 
0
... 0
0
λi
Die Einträge λi auf der Diagonalen der Matrixen Ji sind die Eigenwerte von A. Die
Anzahl der Blöcke mit Eigenwert λi ist aus der geometrischen Vielfachheit von λi gegeben (d.h. die Dimension des Eigenraumes mit Eigenwert λj ). Die Gesamtdimension der
Jordanblöcke mit Eigenwert λi ist dagegen die algebraische Vielfachheit von λi (die Vielfachheit von λi als Nullstelle des charakteristischen Polynoms). Sind algebraische und
geometrische Vielfachheit gleich, so ist jeder Jordanblock mit Eigenwert λi eine 1 × 1
Matrix mit Eintrag λi (ist das der Fall für alle Eigenwerte von A, dann ist J diagonal
und A diagonalisierbar).
Der Ausdruck A = U −1 JU erlaubt uns, die Exponentialabbildung exp(tA) zu berechnen, für ein beliebiges t ∈ R (t = x − x0 in unserer Anwendung). In der Tat
exp(tA) = exp(U −1 tJU ) = U −1 exp(tJ)U
Die Anwendung der Exponentialabbildung an der Blockdiagonale Matrix tJ ist wieder
blockdiagonal, mit Blöcken exp(tJi ), wobei die Ji die Form (34) haben. Sei Ji eine ` × `
30
Matrix. Dann liefert die Berechnung von exp(tJi ) (Beweis: Übung)



t2
1
t
...
tλi t
0
... 0
2!

 0

tλi t
... 0 
 0
1
t
...

 = etλi 
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
exp 



 ... ... ... ...
 0
... 0
tλi t 
 0
... 0
1
0
... 0
0
tλi
0
... 0
0
t`−1
(`−1)!
t`−2
(`−2)!
...
t
1







Damit kann man in Prinzip die Exponentialabbildung ϕ(x) = exp(A(x − x0 )) für jede
Matrix A ∈ Rn×n berechnen. Mit dieser Methode kann man also immer die eindeutige
Lösung des Anfangswertproblems (30) finden.
Skalare, lineare, homogene Differentialgleichungen höherer Ordnung mit konstanten Koeffizienten: Eine skalare, lineare, homogene Differentialgleichung der Ordnung n ∈ N mit
konstanten Koeffizienten hat die Form
an ϕ(n) (x) + an−1 ϕ(n−1) (x) + · · · + a1 ϕ0 (x) + a0 ϕ(x) = 0
(35)
für eine Funktion ϕ ∈ C n (R), und für Konstanten a0 , . . . , an ∈ R. Definieren wir y =
(ϕ, ϕ0 , . . . , ϕ(n−1) ) ∈ C 1 (R; Rn ), dann nimmt (35) die Form


0
1
0
... 0
 0

0
1
... 0


0
 y(x) =: Ay(x)
...
...
...
y (x) = 


 0

0
0
0
1
an−1
a0
a1
a2
− an − an − an . . . − an
Es ist einfach zu sehen, dass die Matrix A genau dann (in C) diagonalisierbar ist, wenn
sie n verschiedene Eigenwerten hat (Übung: Gilt Av1 = λv1 und Av2 = λv2 für ein
λ ∈ C, dann existiert κ ∈ C mit v1 = κv2 ).
Obwohl die Matrix A nicht immer diagonalisierbar ist, ist es hier trotzdem einfach,
eine Basis für den n dimensionalen Lösungsraum


n


X
Lh = y ∈ C n (R) :
aj ϕ(j) (x) = 0


j=0
zu bestimmen, ohne explizit die jordansche Normalform von A zu berechnen. Wir definieren dazu das Polynom
p(s) = an sn + an−1 sn−1 + · · · + a1 s + a0
Dann nimmt (35) die Form
p
d
dx
ϕ=0
(36)
Aus dem Fundamentalsatz der Algebra (Satz 2.33 in Analysis 1) existieren
k ∈ N,
P
λ1 , . . . , λk ∈ C voneinander unterschiedliche, n1 , . . . , nk ∈ N\{0} mit kj=1 nj = n so,
dass
k
Y
p(s) = an
(s − λj )nj
(37)
j=1
31
Wir können also (36) als
p
d
dx
nj
k Y
d
ϕ = an
− λj
ϕ=0
dx
(38)
j=1
schreiben. Bemerke hier, dass die Ordnung der Operatoren (d/dx − λj )nj keine Rolle
spielt (die verschiedenen Monomen kommutieren miteinander). Wir bemerken ferner,
dass
k
d
− λ [f (x)eλx ] = f (k) (x)eλx
(39)
dx
In der Tat
d
− λ [f (x)eλx ] = f 0 (x)eλx + λf (x)eλx − λf (x)eλx = f 0 (x)eλx
dx
Wenden wir diese Formel k Mal an, so finden wir (39). Aus (36) erhalten wir also
nj nm
Yd
d
d
` λm x
[x e
] = an
− λj
− λm
[x` eλm x ]
p
dx
dx
dx
j6=m
nj nm Yd
d
− λj
= an
x ` e λm x = 0
dx
dxnm
j6=m
für alle ` = 0, 1, 2, . . . , nm − 1. Die n Funktionen
{ym,` (x) = x` eλm x : m = 1, . . . , k, und ` = 0, 1, . . . , nm − 1}
sind also Lösungen der Differentialgleichung p(d/dx)ϕ = 0. Diese Funktionen sind linear
unabhängig (Beweis: Übung), und definieren also eine Basis des Lösungsraums Lh , wenn
wir Lh als einen Vektorraum über C betrachten. Mit anderen Worten, jede Lösung
von (35) kann als eine endliche lineare Kombination der Funktionen ym,` geschrieben
werden. Für gegebene Anfangsbedingungen y(x0 ) = y0 , y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) =
yn−1 kann man also die eindeutige Lösung des Anfangswertproblems bestimmen, indem
man Konstanten αm,` findet, so dass
y(x) =
k nX
m −1
X
αm,` x` eλm x
(40)
m=1 `=1
alle Anfangsbedingungen an der Stelle x = x0 erfüllt. Die resultierende Lösung (40) ist,
für reelle Anfansbedingungen y0 , . . . , yn−1 ∈ R automatisch reell. Falls man aber eine
Basis für Lh betrachtet als R-Vektorraum, sucht, so muss man wie oben die Lösungen
x` eλj x , x` eλj x mit λj ∈ C\R durch die reellen linearen Kombinationen
x` cos((Im λj )x)e(Re λj )x
und
x` sin((Im λj )x)e(Re λj )x
ersetzen (das ist immer möglich, wenn die Koeffizienten a0 , . . . , an ∈ R, weil für jede
Nullstelle λ von p auch λ eine Nullstelle ist).
32
Skalare, lineare, inhomogene Differentialgleichungen höherer Ordnung mit konstanten
Koeffizienten: Auch inhomogene, skalare, lineare Differentialgleichungen von höherer
Ordnung mit konstanten Koeffizienten kann man mit dieser Methode lösen. Aus der
Untersuchung von allgemeinen linearen Differentialgleichungen wissen wir schon, dass
der Lösungsraum der inhomogenen Gleichung
an y (n) (x) + an−1 y (n−1) (x) + · · · + a0 y(x) + b = 0
(41)
aus Li = z + Lh gegeben ist, wobei z eine beliebige Lösung der inhomogenen Gleichung
ist. Also braucht man, um den Lösungsraum von (41) zu finden, einfach eine einzige
Lösung von (41) zu finden. Das ist aber einfach. Ist z.B. a0 6= 0, dann kann man einfach
z als die konstante Funktion z(x) = −b/a0 wählen. Allgemeiner, sei j ∈ {0, 1, . . . , n}
der kleinste Index mit aj 6= 0. Dann ist z(x) = −(b/aj )xj /j! eine Lösung von (41). Der
Lösungsraum von (41) ist also aus
Li = {−(b/aj )xj /j!} + Lh
gegeben. Die eindeutige Lösung von (41), unter den Anfangsbedingungen y(x0 ) = y0 ,
y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) = yn−1 , kann man also bestimmen, indem man Konstanten
αm,` findet, so dass
k nX
m −1
X
b xj
y(x0 ) = −
+
αm,` x` eλm x
aj j!
m=1 `=0
die Anfangsbedingungen erfüllt.
Beispiel: Sei
y 00 + 2γy + ω02 y = 0
Die Gleichung kann als p(d/dx)y = 0 geschrieben werden, mit dem Polynom
p(s) = s2 + 2γs + ω02
Das Polynom p hat die Nullstellen
s = −γ ±
q
γ 2 − ω02
Ist |γ| > |ω|, dann sind die zwei Nullstellen verschiedenen und reell. Damit sind
√
√
−γ− γ 2 −ω02 x
−γ+ γ 2 −ω02 x
und y2 (x) = e
y1 (x) = e
eine Basis für den Lösungsraum. Ist dagegen |γ| = |ω0 |, dann hat p die einzige reelle
Nullstelle s0 = −γ. Damit sind
y1 (x) = e−γx
und
y2 (x) = xe−γx
eine Basis für den Lösungsraum. Ist dagegen |γ| < |ω0 |, dann sind die zwei Nullstellen
von p komplex. In diesem Fall sind
q
q
−γx
2
2
y1 (x) = cos( ω0 − γ x)e
und y2 (x) = sin( ω02 − γ 2 x)e−γx
eine Basis des Lösungsraums.
33
2.6
Grundlagen der Stabilitätstheorie
In diesem Abschnitt untersuchen wir die Abhängigkeit der Lösung einer Differentialgleichung von der Anfangsbedingung und der Form der Gleichung. In vielen Situationen erwartet man, dass eine kleine Änderung der Anfangsbedingungen nur eine kleine änderung der Lösung erzeugen kann. Analog, falls wir das Anfangswertproblem
y 0 (x) = f (x, y(x)), y(x0 ) = y0 untersuchen, dann erwarten wir, dass eine kleine Änderung der Funktion f nur eine kleine Änderung der Lösung produziert. Mit anderen
Worten, wir untersuchen die Stabilität der Lösung von Anfangswertproblemen. Da Differentialgleichugen nur selten explizit gelöst werden können, ist ihre Stabilität sehr wichtig
in praktischen Anwendungen. In der Physik passiert es zum Beispiel sehr oft, dass man
eine komplizierte Differentialgleichung y 0 (x) = f (x, y(x)) durch eine einfachere Differentialgleichung y 0 (x) = f0 (x, y(x)) ersetzt, wobei die Differenz f − f0 in geeignetem Sinne
klein ist. Damit diese Approximation nützlich sein kann, muss aber die Differenz der
zwei Lösungen y(x) und y0 (x) (unter geeigneten Anfangsbedingungen) klein sein. Wir
brauchen also die Stabilität der Gleichung ohne, dass wir die Gleichung explizit lösen
können.
Ein wichtiges Hilfmittel um Stabilität zu beweisen ist das Lemma von Gronwall.
Lemma 2.10 (Gronwall Lemma). Sei I = [x0 ; x1 ] mit x1 > x0 , a, b ∈ R mit b ≥ 0,
y ∈ C(I), so dass
Z x
y(x) ≤ a + b
y(t)dt
x0
für alle x ∈ I. Dann gilt
y(x) ≤ a exp(b(x − x0 ))
für alle x ∈ I.
Bemerkung:
• Das Lemma von Gronwall zeigt insbesondere, dass jede Lösung der DifferentialUngleichung y 0 (x) ≤ by(x), mit der Anfangsbedingung y(x0 ) = y0 , aus der Lösung
der Differentialgleichung y 0 (x) = by(x), mit der selben Anfangsbedingung, nach
oben beschränkt wird. Sei in der Tat y ∈ C 1 ([x0 ; x1 ]) so, dass y 0 (x) ≤ by(x) und
y(x0 ) = y0 . Dann gilt
Z x
Z x
y(x) = y(x0 ) +
y 0 (t)dt ≤ y0 + b
y(t)dt
x0
x0
Lemma 2.10 zeigt dann, dass
y(x) ≤ y0 eb(x−x0 )
was genau die eindeutige Lösung der Gleichung y 0 (x) = by(x) mit der Anfangsbedingung y(x0 ) = y0 ist.
• Die differentielle Form von dem Gronwall-Lemma, die wir in der ersten Bemerkung
diskutiert haben, gilt (im Gegensatz zur Integralform im Lemma 2.10) auch für
b < 0. In diesem Fall zeigt das Lemma von Gronwall, dass jede y ∈ C 1 ([x0 ; x1 ]),
mit y 0 (x) ≤ by(x) und y(x0 ) = y0 exponentiell abfällt, für x > x0 .
34
Beweis: Sei ϕ : I → R durch ϕ(x) = y(x)e−b(x−x0 ) definiert. Dann muss
Z x
−b(x−x0 )
−b(x−x0 )
y(t)dt =: ψ(x)
ϕ(x) ≤ ae
+ be
x0
Es gilt
0
−b(x−x0 )
ψ (x) = −bae
2
Z
x
−b
ϕ(t)eb(t−x) + bϕ(x) = −b [ψ(x) − ϕ(x)] ≤ 0
x0
für alle x ∈ I. Damit gilt ϕ(x) ≤ ψ(x) ≤ ψ(x0 ) = a für alle x ∈ I.
Im nächsten Satz benutzen wir Gronwall-Lemma, um die Stabilität von gewöhnlichen
Differentialgleichungen bzg. Variationen der Anfangsbedingungen zu beweisen.
Satz 2.11. Sei Ω ⊂ R × Rn offen, f ∈ C(Ω; Rn ) Lipschitz-stetig im zweiten Argument.
D.h. es existiere L > 0 mit
kf (x, y1 ) − f (x, y2 )k ≤ Lky1 − y2 k
für alle x ∈ R, y1 , y2 ∈ Rn mit (x, y1 ), (x, y2 ) ∈ Ω. Seien ϕ, ψ ∈ C 1 (I; Rn ) zwei Lösungen
der Differentialgleichung
y 0 (x) = f (x, y(x))
auf einem Intervall I ⊂ R. Dann gilt, für beliebige x0 , x1 ∈ I,
kϕ(x1 ) − ψ(x1 )k ≤ kϕ(x0 ) − ψ(x0 )k eL|x1 −x0 |
Bemerkung: Insbesondere folgt aus Satz 2.11, dass die Lösung ϕ(x) des Anfangswertproblems
0
ϕ (x) = f (x, ϕ(x))
ϕ(x0 ) = y0
stetig (sogar Lipschitz-stetig) von der Anfangsbedingung y0 abhängt.
Beweis: Sei, o.B.d.A, x > x0 . Wir setzen y(x) = ϕ(x) − ψ(x). Aus
y 0 (x) = ϕ0 (x) − ψ 0 (x) = f (x, ϕ(x)) − f (x, ψ(x))
folgt
Z
x
(f (t, ϕ(t)) − f (t, ψ(t))) dt
y(x) = y(x0 ) +
x0
und damit
Z
x
ky(x)k ≤ ky(x0 )k +
kf (t, ϕ(t)) − f (t, ψ(t))k dt
x0
Z
x
≤ ky(x0 )k + L
ky(t)k dt
x0
Anwendung von Lemma 2.10 auf die Funktion g(x) = ky(x)k impliziert, dass
ky(x)k ≤ ky(x0 )keL(x−x0 )
35
Analog kann man auch die Stabilität von Differentialgleichungen bzg. Änderungen
(Störungen) der Gleichung zeigen. Wir betrachten die Differentialgleichung y 0 (x) =
f (x, ϕ(x), z), die von einem zusätzlichen Parameter z ∈ Rm abhängt. Für jede z ∈ Rm
haben wir eine andere Differentialgleichung. Die Frage, die wir im nächsten Satz untersuchen, ist, wie ändert sich die Lösung der Differentialgleichung, falls wir den Parameter
z (und eventuell auch die Anfangsbedingung) ein bisschen variieren.
Satz 2.12. Sei I = [x0 ; x1 ] ⊂ R, f ∈ C(I × Rn × Rm ; Rn ). Es existieren M, L > 0 mit
kf (x, y1 , z1 ) − f (x, y2 , z2 )k ≤ Lky1 − y2 k + M kz1 − z2 k
für alle x ∈ I, y1 , y2 ∈ Rn , z1 , z2 ∈ Rm . Seien y1 , y2 ∈ Rn und z1 , z2 ∈ Rm beliebig
gewählt und seien ϕ1 , ϕ2 ∈ C 1 (I; Rn ) die eindeutigen Lösungen von den Anfangswertproblemen
0
0
ϕ1 (x) = f (x, ϕ1 (x), z1 )
ϕ2 (x) = f (x, ϕ2 (x), z2 )
und
ϕ1 (x0 ) = y1
ϕ2 (x0 ) = y2
Dann gilt
kϕ1 (x) − ϕ2 (x)k ≤ (ky1 − y2 k + M |x1 − x0 |kz1 − z2 k) eL|x−x0 |
für alle x ∈ I.
Bemerkung: Wählen wir z1 = z2 , dann sind wir zurück bei Satz 2.11.
Beweis: Sei y(x) = ϕ1 (x) − ϕ2 (x). Aus
Z
x
ϕ1 (x) = y1 +
f (t, ϕ1 (t), z1 )dt
Zx0x
f (t, ϕ2 (t), z2 )dt
ϕ2 (x) = y2 +
x0
finden wir
x
Z
(f (t, ϕ1 (t), z1 ) − f (t, ϕ2 (t), z2 ))
y(x) = (y1 − y2 ) +
x0
und damit
Z
x
ky(x)k ≤ ky1 − y2 k +
kf (t, ϕ1 (t), z1 ) − f (t, ϕ2 (t), z2 )k
Zx0x
≤ ky1 − y2 k +
(Lky(t)k + M kz1 − z2 k)
Z
≤ (ky1 − y2 k + M kz1 − z2 k|x1 − x0 |) + L
x0
x
ky(t)k
x0
für alle x ∈ I. Lemma 2.10 impliziert also, dass
ky(x)k ≤ (ky1 − y2 k + kz1 − z2 k|x1 − x0 |) eL(x−x0 )
für alle x > x0 .
36
Satz 2.11 zeigt die orbitale Stabilität der Differentialgleichung y 0 (x) = f (x, y(x)), unter geeigneter Annahme an f . Orbitale Stabilität bedeutet, dass falls wir zwei Anfangsbedingungen y1 , y2 betrachten, mit ky1 −y2 k klein, dann bleibt der Abstand ky1 (x)−y2 (x)k
klein, für alle festen x ∈ R. Der Fehler kann aber im Limes x → ∞ gross werden. Eine
stärkere Form von Stabilität ist die sogenannte asymptotische Stabilität. In diesem Fall
bleibt der Fehler klein, gleichmässig in x und verschwindet, da x → ∞. Ein besonderes
Beispiel von asymptotischer Stabilität hat man bei Attraktoren.
Definition 2.13. Sei Ω ⊂ Rn offen, f ∈ C(Ω; Rn ). Ein Punkt y ∗ ∈ Ω heisst ein
Attraktor, falls eine offene Umgebung V von y ∗ existiert, so dass für alle y0 ∈ V , das
Anfangswertproblem
0
y (x) = f (y(x))
y(x0 ) = y0
eine eindeutige Lösung y ∈ C 1 ([x0 ; ∞); Rn ) hat, mit der Eigenschaft
lim y(x) = y ∗ .
x→∞
Ist y ∗ ∈ Rn ein Attraktor, dann kann man sich einfach überzeugen, dass f (y ∗ ) = 0
(sonst würde y 0 (x) → f (y ∗ ) 6= 0 und y(x) könnte nicht konvergieren. Beweis: Übung).
Anderseits, jede y ∗ ∈ Rn mit f (y ∗ ) = 0 definiert eine stationäre (d.h. konstante) Lösung
y(x) = y ∗ von der Gleichung y 0 (x) = f (y). Die Frage, ob ein solcher Punkt ein Attraktor
ist, ist gerade die Frage, ob die stationäre Lösung y(x) = y ∗ asymptotisch stabil ist. Man
findet, dass die Stabilität von stationären Lösungen mit der Ableitung von f an der Stelle
y ∗ zu tun hat. Das diskutieren wir im nächsten Satz, für den skalaren Fall n = 1 (eine
analoge Aussage gilt auch für n > 1; in diesem Fall braucht man aber Kenntnisse aus
der Differentialrechnung in mehreren Veränderlichen, die wir noch nicht haben).
Satz 2.14. Sei f ∈ C 1 (R), mit supx∈R |f 0 (x)| < ∞, und y ∗ ∈ R mit f (y ∗ ) = 0 und
f 0 (y ∗ ) < 0. Dann ist y ∗ ein Attraktor für die Differentialgleichung y 0 (x) = f (y(x)).
Beweis: O.B.d.A. können wir annehmen, dass y ∗ = 0. Sei f 0 (0) = −λ, für ein λ > 0.
Wir schreiben (da f (0) = 0)
Z 1
Z 1
d
f (y) = f (0) +
f (ty)dt = y
f 0 (ty)dt
dt
0
0
Z 1
= f 0 (0)y + y
f 0 (ty) − f 0 (0) dt = f 0 (0)y + yR(y)
0
mit
Z
1
R(y) =
f 0 (ty) − f 0 (0) dt
0
Die Stetigkeit von
mit
f0
impliziert, dass |R(y)| → 0 für y → 0. Wir finden also ein ε > 0
sup |R(y)| ≤ λ/2.
y∈[−ε;ε]
Für ein beliebiges x0 ∈ R, sei nun y ∈ C 1 ([x0 ; ∞)) die Lösung der Differentialgleichung
y 0 (x) = f (y(x)) mit der Anfangsbedingung y(x0 ) = y0 für ein y0 ∈ [−ε/2; ε/2] (bemerke, dass Satz 2.7 die Existenz einer globalen Lösung für dieses Anfangswertproblem
garantiert).
37
Wir behaupten, dass |y(x)| ≤ ε für alle x ∈ [x0 ; ∞). Ist das nicht der Fall, so setzen
wir
x1 = inf{x ∈ [x0 ; ∞) : |y(x)| > ε}
Aus der Stetigkeit von y(x) gilt dann |y(x)| ≤ ε für alle x ∈ [x0 ; x1 ]. Wir setzen nun
ϕ(x) = y(x) exp(−f 0 (0)(x − x0 )), für alle x > x0 . Es gilt dann ϕ(x0 ) = y0 und
ϕ0 (x) = y 0 (x) − f 0 (0)y(x) exp(−f 0 (0)(x − x0 ))
= f (y(x)) − f 0 (0)y(x) exp(−f 0 (0)(x − x0 ))
(42)
= y(x)R(y(x)) exp(−f 0 (0)(x − x0 )) = R(y(x))ϕ(x)
Da |y(x)| ≤ ε für alle x ∈ [x0 ; x1 ], ist |R(y(x))| ≤ λ/2 für alle x ∈ [x0 ; x1 ]. Damit ist
|ϕ0 (x)| ≤ (λ/2)|ϕ(x)| für alle x ∈ [x0 ; x1 ]. Die Identität
Z x
ϕ(x) = ϕ(x0 ) +
ϕ0 (t)dt
x0
zeigt also, dass
Z
x
|ϕ(x)| ≤ |y0 | +
|ϕ0 (t)|dt ≤ |y0 | + (λ/2)
x0
Z
x
|ϕ(t)|dt
x0
Aus Lemma 2.10 folgt, dass
|ϕ(x)| ≤ |y0 |e(λ/2)(x−x0 )
Das ergibt
|y(x)| ≤ |y0 |e−(λ/2)(x−x0 )
für alle x ∈ [x0 ; x1 ]. Damit ist |y(x1 )| ≤ |y0 | ≤ ε/2. Aus Stetigkeit von y existiert also
ein δ > 0 mit |y(x)| ≤ ε für alle x ∈ [x1 − δ; x1 + δ], im Widerspruch zur Definition von
x1 . Das zeigt, dass |y(x)| ≤ ε für alle x ∈ R.
Aus (42) folgt also, dass |ϕ0 (x)| ≤ (λ/2)|ϕ(x)| für alle x > x0 . Das ergibt |ϕ(x)| ≤
|y0 | exp((λ/2)(x − x0 )) für alle x > x0 und
|y(x)| ≤ |y0 |e−(λ/2)(x−x0 )
für alle x > x0 . Das zeigt, dass y(x) → 0, für x → ∞, für alle Anfangsbedingungen y0
mit |y0 | ≤ ε/2.
3
3.1
Differentialrechnung in mehreren Veränderlichen
Definition der Ableitung für Funktionen auf Rn
Wiederholung von Begriffen aus der linearen Algebra und Analysis 1. In Analysis 1
(siehe Definition 2.34) haben wir den Begriff vom Vektorraum definiert. Ein Vektorraum
über R ist nämlich eine Menge V , versehen mit einer Addition + : V × V → V und
einer skalaren Multiplikation · : R × V → V , die eine Reihe von Axiomen erfüllen. Ein
normierter Vektorraum ist ein Vektorraum V , auf dem eine Abbildung k.k : V → R
definiert ist, mit den Eigenschaften: i) kxk ≥ 0 für alle x ∈ V , kxk = 0 genau dann,
38
wenn x = 0; ii) kαxk = |α|kxk für alle x ∈ V und α ∈ R; iii) kx + yk ≤ kxk + kyk.
Eine Norm k.k auf einem Vektorraum V erzeugt immer eine Metrik auf V , die durch
d(x, y) = kx − yk definiert wird. Also ist jeder normierte Vektorraum ein metrischer
Raum. Wir sagen der normierte Vektorraum V ist vollständig, falls V , versehen mit der
aus der Norm induzierten Metrik, ein vollständiger metrischer Raum ist.
Seien nun V und W zwei Vektorräume über R. Eine Abbildung L : V → W heisst
linear, falls L(x + λy) = L(x) + λL(y) für alle x, y ∈ V und λ ∈ R. Wir bezeichnen die
e W ). Seien L, M ∈ L(V,
e W ) und
Menge aller linearen Abbildungen L : V → W mit L(V,
λ ∈ R. Wir definieren dann die Abbildungen L + M, λL : V → W durch
(L + M )(x) = L(x) + M (x),
und
(λL)(x) = λL(x)
e W ). Damit hat L(V,
e W ) die Struktur
für alle x ∈ V . Offenbar gilt L + M, λL ∈ L(V,
eines Vektorraumes über R (es ist leicht zu überprüfen, dass Summe und skalare Multiplikation alle notwendigen Axiome erfüllen). Nehmen wir nun an, V, W seien normierte
e W ) definieren wir dann
Vektorräume. Für L ∈ L(V,
kLkop :=
kLvk
= sup kLvk = sup kLvk
v∈V \{0} kvk
v∈V,kvk≤1
v∈V,kvk=1
sup
(43)
e W ) heisst beschränkt, falls kLkop < ∞. Das ist leicht
Eine lineare Abbildung L ∈ L(V,
e W ) ist genau dann beschränkt, falls sie auf V stetig
zu zeigen: Eine Abbildung L ∈ L(V,
e W ) ist genau dann auf V stetig, falls sie in v = 0
ist. Ferner, eine Abbildung L ∈ L(V,
stetig ist. Wir bezeichnen
e W ) : L stetig ist}
e W ) : L beschränkt ist} = {L ∈ L(V,
L(V, W ) := {L ∈ L(V,
e W ) die aus beschränkten Abbildungen besteht. Es ist einfach zu
die Teilmenge von L(V,
e W ) ist. Also ist L(V, W ) selbst ein
zeigen, dass L(V, W ) ein linearer Unterraum von L(V,
Vektorraum. Man kann dann leicht beweisen, dass (43) eine Norm auf L(V, W ) definiert.
Man nennt kLkop die Operatornorm von L. L(V, W ), versehen mit der Norm k.kop ist
also ein normierter Vektorraum. Tatsache: Ist W vollständig, so ist auch L(V, W ) ein
vollständig normierter Vektorraum, unabhängig davon, ob V vollständig ist oder nicht
(ein vollständiger normierter Vektorraum heisst ein Banach-Raum).
e W ) und M ∈ L(W,
e
Sind V, W, X drei Vektorräume, und L ∈ L(V,
X) zwei lineare
Abbildungen, so können wir die Verknüpfung L ◦ M : V → X durch (L ◦ M )(v) :=
L(M (v)) definieren. Wir bezeichnen oft die Verknüpfung L ◦ M als L · M oder einfach
e X) eine lineare Abbildung ist. Sind ferner
als LM . Es ist leicht zu sehen, dass LM ∈ L(V,
e W ) und M ∈ L(W,
e
V, W, X drei normierte Vektorräume und L ∈ L(V,
X) beschränkt,
dann ist auch LM beschränkt und
kLM kop ≤ kLkop kM kop
Also, für jede L ∈ L(V, W ) und M ∈ L(W, X), ist LM ∈ L(V, X). Insbesondere, für
jede L, M ∈ L(V, V ) ist LM ∈ L(V, V ). Das definiert ein Produkt auf dem Vektorraum
L(V, V ).
39
e R) heisst ein lineares FunkSei V ein Vektorraum. Eine lineare Abbildung L ∈ L(V,
tional auf V . Sei V ein normierter Vektorraum. Der Raum L(V, R) aller stetigen linearen
Funktionalen auf V heisst der Dualraum von V und wird oft mit V ∗ bezeichnet. Versehen
mit der Operatornorm
kLvk = sup |Lv|
v∈V,kvk≤1
ist V ∗ ein normierter Vektorraum. Da R vollständig ist, ist V ∗ immer vollständig.
Wir werden in dieser Vorlesung nur endlich dimensionale Vektorräume betrachten.
Jeder Vektorraum V mit dim V = n < ∞ ist isomorph zu Rn (ein Isomorphismus ist
nach Wahl einer Basis von V gegeben). Auf Rn ist die standard euklidische Norm durch
k(x1 , . . . , xn )k2 =
n
X
|xj |2
j=1
definiert. Auf Rn ist auch ein Skalarprodukt definiert. Für x = (x1 , . . . , xn ) und y =
(y1 , ,̇yn ) setzen wir
n
X
x·y =
x j yj
j=1
Dann gilt kxk2 = x · x. Wir haben in Analysis 1 bewiesen, dass Rn , versehen mit der
euklidischen Norm k.k, ein vollständiger normierter Vektorraum ist. Tatsache: Auf einem
endlich dimensionalen Vektorraum sind alle zwei Normen äquivalent. D.h., falls k.k1 , k.k2
zwei Normen auf Rn sind, dann es gibt eine Konstante c > 0 mit
1
kxk1 ≤ kxk2 ≤ ckxk1
c
für alle x ∈ Rn . Die Äquivalenz der zwei Normen impliziert, dass eine Folge xn auf Rn
genau dann bzg. k.k1 konvergiert, wenn sie bzg. k.k2 konvergiert und dass eine Folge xn
auf Rn genau dann bzg. k.k1 eine Cauchy-Folge ist, wenn sie bzg. k.k2 eine Cauchy-Folge
ist. Da Rn versehen mit der Standardnorm vollständig ist, ist Rn bzg. einer beliebigen
Norm ein vollständiger Vektorraum (es ist natürlich möglich, auf Rn eine Metrik d zu
finden, so dass (Rn , d) nicht vollständig ist; eine solche Metrik d kann dann aber nicht
von einer Norm induziert werden).
e = (`ij ),
Sei L : Rn → Rm eine lineare Abbildung. Dann existiert eine m × n Matrix L
e wobei das Produkt Lx
e durch
so dass L(x) = Lx,
e i=
(Lx)
n
X
`ij xj
j=1
definiert ist. Wir identifizieren deswegen die lineare Abbildung L mit der entsprechenden
e Jede lineare Abbildung L : Rn → Rm ist beschränkt. In der Tat, falls wir
Matrix L.
auch mit L = (`ij ) die Matrix bezeichnen, die der Abbildung L zugeordnet ist, so gilt
kLkop ≤ kLk, wobei
m X
n
X
∗
kLk = Tr L L =
|`ij |2 < ∞
i=1 j=1
40
die Standardnorm von L ist, falls wir L als ein Element von Rm×n betrachten. Es
folgt, dass jede lineare Abbildung zwischen Rn und Rm automatisch stetig ist, d.h.
e n , Rm ) = L(Rn , Rm ).
L(R
Der Dualraum zu Rn ist der Vektorraum (Rn )∗ = L(Rn , R) aller linearen Funktionalen auf Rn (weil jedes lineare Funktional auf Rn stetig ist). Ein beliebiges lineares
Funktional L auf Rn kann also mit einer 1 × n Matrix identifiziert werden. Mit anderen
Worten, jedes lineare Funktional L auf Rn kann mit einem Vektor a ∈ Rn identifiziert
werden, so dass
n
X
L(x) = a · x =
aj xj
j=1
Rn
wobei a·x das Skalarprodukt auf
bezeichnet. Man kann sich leicht davon überzeugen,
dass für ein solches lineares Funktional,
kLkop =
sup
|L(x)| =
x∈Rn ,kxk≤1
sup
|a · x| = kak
x∈Rn ,kxk≤1
wobei kak die Standardnorm auf Rn bezeichnet. Es folgt, dass (Rn )∗ ' Rn als normierte
Vektorräume identifiziert werden können.
Partielle Ableitungen. Nach dieser kurzen Wiederholung aus der linearen Algebra, sind
wir bereit, den Begriff von Ableitung auf mehrdimensionale Vektorräume zu definieren.
Wir werden der Einfachkeit halber Funktionen betrachten, die auf einer Teilmenge von
Rn definiert sind, mit Werten auf Rm . Die Definitionen können aber einfach auf Funktionen zwischen zwei beliebigen (endlich dimensionalen) Vektorräumen verallgemeinert
werden (weil jeder endlich dimensionale Vektorraum isomorph zu Rn ist). Auf Rn werden
wir immer die euklidische Standardnorm betrachten. Es ist aber einfach, die Definitionen
auf beliebige andere Normen zu erweitern (weil jede Norm zur Standardnorm äquivalent
ist). Also, obwohl wir nur Funktionen f : Rn ⊃ U → Rm betrachten werden, kann man
den Begriff von Ableitung für beliebige Funktionen zwischen zwei normierten endlich
dimensionalen Vektorräumen definieren.
Definition 3.1. Sei U ⊂ Rn offen, x0 ∈ U , i ∈ {1, . . . , n}. Eine Funktion f : U → R
heisst im Punkt x0 partiell differenzierbar in der i-ten Koordinate, falls der Limes
∂f
f (x0 + hei ) − f (x0 )
(x0 ) := lim
h→0
∂xi
h
existiert. Hier sind die Vektoren e1 , . . . , en die Standardbasis von Rn , d.h. wir haben
ei = (0, . . . 0, 1, 0, . . . , 0). In diesem Fall heisst die Zahl ∂f /∂xi (x0 ) die i-te partielle
Ableitung von f an der Stelle x0 . Die Funktion f heisst an der Stelle x0 ∈ U partiell
differenzierbar, falls f in jeder Koordinate an der Stelle x partiell differenzierbar ist.
Die Funktion f heisst auf U partiell differenzierbar, falls f an der Stelle x partiell
differenezierbar ist, für jede x ∈ U .
Bemerkung: Die partielle Ableitung in der i-ten Koordinate ist die gewöhnliche Ableitung bezüglich der i-ten Variablen von f , wenn die anderen (n−1) Koordinaten konstant
gehalten werden. D.h. die i-te partielle Ableitung von f an der Stelle x∗ = (x∗1 , . . . , x∗n ) ∈
41
Rn ist die Ableitung der Funktion einer Variablen t → f (x∗1 , x∗2 , . . . , x∗i + t, x∗i+1 , . . . , x∗n )
an der Stelle t = 0.
Bemerkung: Analog kann man die partielle Ableitungen einer vektorwertigen Funktion
definieren. Sei wie oben U ⊂ Rn offen und f : U → Rm . Für j = 1, . . . , m, sei fm : U → R
die m-te Komponente von f ; d.h. es gelte f (x) = (f1 (x), . . . , fm (x)). Dann sagen wir,
dass f im Punkt x0 in der i-ten Koordinate partiell differenzierbar ist, falls fj an der
Stelle x0 in der i-ten Koordinate partiell differenzierbar ist, für alle j = 1, . . . , m. In
diesem Fall ist die i-te partielle Ableitung von f aus dem Vektor
∂f1
∂fm
∂f
(x0 ) =
(x0 ), . . . ,
(x0 ) ∈ Rm
∂xi
∂xi
∂xi
gegeben.
Es stellt sich heraus, dass der Begriff von partieller Differenzierbarkeit ein bisschen
zu schwach ist. Viele Resultate, die wir für differenzierbare Funktionen auf R kennen,
gelten für eine auf einer offenen Teilmenge U ⊂ Rn definierte, partiell differenzierbare
Funktion f nicht. Z.B. zeigt das folgende Beispiel, dass partielle Differenzierbarkeit einer
Funktion nicht ihre Stetigkeit impliziert.
Beispiel: Auf R2 definieren wir die Funktion
xy
falls (x, y) 6= (0, 0)
x2 +y 2
f (x, y) =
0
falls (x, y) = (0, 0)
Wir behaupten, dass f auf R2 partiell differenzierbar ist. In der Tat ist f offenbar an der
Stelle (x, y) in der ersten Koordinate partiell differenzierbar für alle (x, y) 6= (0, 0). Wir
behaupten, f auch an der Stelle (0, 0) in der ersten Koordinate partiell differenzierbar
ist. In der Tat
f (h, 0) − f (0, 0)
0
lim
= lim = 0
h→0
h→0 h
h
Analog kann man zeigen, dass f überall in der zweiten Koordinate partiell differenzierbar
ist. Also ist f auf R2 partiell differenzierbar. Wir behaupten nun, dass f an der Stelle
(0, 0) nicht stetig ist. In der Tat haben wir
1/k 2
1
= 6= 0
2
2
k→∞ 1/k + 1/k
2
lim f (1/k, 1/k) = lim
k→∞
Also, obwohl die Folge (1/k, 1/k) → (0, 0) konvergiert, ist f (1/k, 1/k) 6→ f (0, 0).
Ableitung auf Rn . Wir brauchen also einen stärkeren Begriff von Differenzierbarkeit für
Funktionen, die auf Teilmengen von Rn definiert sind. Um den richtigen Begriff zu finden,
möchten wir zunächst den Begriff von Differenzierbarkeit für Funktionen einer Variablen
umschreiben. Sei U ⊂ R offen, und x0 ∈ U . Eine Funktion f : U → R ist an der Stelle
x0 falls der Grenzwert
f (x0 + h) − f (x0 )
lim
h→0
h
existiert. Es folgt: f ist in x0 differenzierbar, falls ein Zahl L ∈ R existiert s.d.
|f (x0 + h) − f (x0 ) − Lh| = o(|h|)
42
im Limes h → 0. Das bedeutet, f ist an der Stelle x0 differenzierbar, falls sich f in
der Nähe von x0 durch eine lineare Funktion approximieren lässt. Ist das der Fall, so
ist L eindeutig bestimmt und aus L = f 0 (x0 ) gegeben. Dieser Begriff lässt sich nun auf
Funktionen verallgemeinern, die auf einer offenen Teilmenge von Rn definiert sind.
Definition 3.2. Sei U ⊂ Rn offen, f : U → Rm und x0 ∈ U . Die Funktion f heisst
an der Stelle x0 differenzierbar, wenn eine lineare Abbildung L : Rn → Rm existiert, so
dass
f (x0 + h) − f (x0 ) − L(h)
lim
=0
h→0
khk
In diesem Fall heisst die Abbildung L die Ableitung oder das Differential von f an der
Stelle x0 und wird mit L = Df (x0 ) bezeichnet. f heisst auf U differenzierbar, falls f an
der Stelle x differenzierbar ist, für alle x ∈ U .
Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) eindeutig
bestimmt. Gilt in der Tat
f (x0 + h) − f (x0 ) − L(h)
= 0,
h→0
khk
lim
so muss
lim
h→0
Da
f (x0 + h) − f (x0 ) − M (h)
=0
h→0
khk
und lim
kL(h) − M (h)k
=0
khk
kLx − M xk
kL(x/K) − M (x/K)k
=
kxk
kx/Kk
für alle K > 0, erhalten wir
kLx − M xk
kL(x/K) − M (x/K)k
kL(h) − M (h)k
= lim
= lim
=0
K→∞
h→0
kxk
kx/Kk
khk
für alle x ∈ Rn . Das bedeutet
kL − M kop =
kLx − M xk
=0
kxk
x∈Rn \{0}
sup
und deswegen L = M .
Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) : Rn → Rm
eine lineare Abbildung. Man kann also Df (x0 ) mit einer n × m Matrix identifizieren.
Wie für jede lineare Abbildung zwischen endlich dimensionale Vektorräume, ist Df (x0 )
beschränkt, kDf (x0 )kop < ∞, und damit auch stetig.
Bemerkung: Es folgt, dass eine Funktion f ist an der Stelle x0 differenzierbar, falls sie
sich lokal durch eine lineare Abbildung approximieren lässt, d.h. falls L ∈ L(Rn , Rm )
existiert, s.d.
kf (x0 + h) − f (x0 ) − Lhk = o(khk)
Bemerkung: Sei U ⊂ Rn offen. Sei f : U → Rm mit Komponenten f1 , . . . , fm : U → R.
D.h. es gelte f (x1 , . . . , xn ) = (f1 (x1 , . . . , xn ), . . . , fm (x1 , . . . , xn )) für alle (x1 , . . . , xn ) ∈
43
U . Dann ist f an der Stelle x0 ∈ U genau dann differenzierbar, wenn fj an der Stelle
x0 differenzierbar ist, für alle j = 1, . . . , m. Das folgt aus der Tatsache, dass eine Folge
(n)
(n)
x(n) = (x1 , . . . , xm ) ∈ Rm genau dann gegen x = (x1 , . . . , xm ) ∈ Rm konvergiert, wenn
(n)
xj → xj für alle j = 1, . . . , m.
Satz 3.3. Sei U ⊂ Rn offen, x0 ∈ U , und f : U → Rm an der Stelle x0 differenzierbar.
Dann ist f an der Stelle x0 stetig.
Beweis: Sei L die Ableitung von f an der Stelle x0 . Wir schreiben
f (x0 + h) − f (x0 ) = [f (x0 + h) − f (x0 ) − L(h)] + L(h)
Da f differenzierbar an der Stelle x0 ist, gilt kf (x0 + h) − f (x0 ) − L(h)k → 0 für h → 0.
Anderseits, kL(h)k ≤ kLkop khk → 0 für h → 0. Also
kf (x0 + h) − f (x0 )k ≤ kf (x0 + h) − f (x0 ) − L(h)k + kL(h)k → 0
für h → 0. Das zeigt, dass f an der Stelle x0 stetig ist.
Richtungsableitungen. Ist f an der Stelle x0 differenzierbar, so existieren alle partiellen
Ableitungen von f an der Stelle x0 . Ferner existieren alle Richtungsableitungen.
Proposition 3.4. Sei U ⊂ Rn offen, x0 ∈ U und f : U → Rm an der Stelle x0
differenzierbar. Dann
lim
t→0
f (x0 + tv) − f (x0 )
= Df (x0 )(v)
t
für alle v ∈ Rn (hier ist t ∈ R) und insbesondere existiert der Grenzwert auf der linken
Seite. Man nennt den Grenzwert auf der linken Seite die Richtungsableitung von f in
der Richtung v.
Beweis: Aus Differenzierbarkeit folgt, dass
lim
h→0
kf (x0 + h) − f (x0 ) − L(h)k
=0
khk
Insbesondere, falls h = tv für ein festes v ∈ Rn und t ∈ R, gilt (weil, wegen Linearität,
L(tv) = tL(v))
f (x0 + tv) − f (x0 )
kf (x0 + tv) − f (x0 ) − L(tv)k
−1
= kvk lim − L(v)
0 = lim
t→0
t→0
ktvk
t
und damit
lim
t→0
f (x0 + tv) − f (x0 )
= L(v)
t
44
Wählen wir v = ej , dann impliziert Proposition 3.4, dass alle partiellen Ableitungen
(∂f /∂xj )(x0 ) für j = 1, . . . , n existieren. Es folgt auch, dass die partielle Ableitung
(∂f /∂xj )(x0 ) die j-te Kolumne der Matrix Df (x0 ) ist. Mit anderen Worten, sei f : U →
Rm , mit Komponenten f1 , . . . , fm : U → R, so dass f (x) = (f1 (x), f2 (x), . . . , fm (x)) für
alle x ∈ U . Sei f an der Stelle x0 differenzierbar. Dann kann die lineare Abbildung
Df (x0 ) : Rn → Rm durch die m × n Matrix mit Einträge
(Df (x0 ))i,j =
∂fi
(x0 )
∂xj
für i = 1, . . . , m und j = 1, . . . , n
(44)
dargestellt werden. Diese Matrix heisst die Funktionalmatrix, oder die Jacobi-Matrix
von f an der Stelle x0 .
Wie wir schon gemerkt haben, impliziert die Existenz der Jacobi-Matrix nicht, dass
f an der Stelle x0 differenzierbar ist. Man findet aber, dass Existenz und Stetigkeit
der partiellen Ableitungen die Differenzierbarkeit von f implizieren. Dieses Kriterium
ist wichtig, weil es uns erlaubt, die Differenzierbarkeit von Funktionen, einfach durch
Untersuchung der partiellen Ableitungen, zu beweisen.
Proposition 3.5. Sei U ⊂ Rn offen, f : U → Rm . Ferner, nehmen wir an, dass die
partiellen Ableitungen ∂f /∂xj (x) auf U existieren und stetig sind. Dann ist f auf U
differenzierbar.
Beweis: O.B.d.A. betrachten wir den Fall m = 1 (die Differenzierbarkeit von f (x) =
(f1 (x), . . . , fm (x)) ist mit der Differenzierbarkeit von f1 , . . . , fm äquivalent). Der Einfachkeit halber untersuchen wir zunächst den Fall n = 2. Wir nehmen an 0 = (0, 0) ∈ U ,
und wir zeigen die Differenzierbarkeit in diesem Punkt. Sei h = (h1 , h2 ) so klein, dass
Bkhk (0) ⊂ U . Wir schreiben
f (h1 , h2 ) − f (0, 0) = f (h1 , h2 ) − f (h1 , 0) + f (h1 , 0) − f (0, 0)
Da die Abbildung y → f (h1 , y) stetig differenzierbar ist (aus Existenz und Stetigkeit
der partiellen Ableitung in der y-Richtung), können wir schreiben
Z h2
∂f
f (h1 , h2 ) − f (h1 , 0) =
dy (h1 , y)
∂y
0
Z h2 ∂f
∂f
∂f
=
(0, 0)h2 +
dy
(h1 , y) −
(0, 0)
∂y
∂y
∂y
0
Analog ist x → f (x, 0) stetig differenzierbar. Deswegen
Z h1
∂f
f (h1 , 0) − f (0, 0) =
dx
(x, 0)
∂x
0
Z h1
∂f
∂f
∂f
=
(0, 0) +
dx
(x, 0) −
(0, 0)
∂x
∂x
∂x
0
Also haben wir
∂f
∂f
(0, 0)h1 −
(0, 0)h2
∂x
∂y
Z h2
Z h1
∂f
∂f
∂f
∂f
=
dx
(x, 0) −
(0, 0) +
dy
(h1 , y) −
(0, 0)
∂x
∂x
∂y
∂y
0
0
f (h1 , h2 ) − f (0, 0)−
45
Die Differenzierbarkeit von f an der Stelle (0, 0) folgt, falls wir zeigen können, dass
Z h2
Z h1
∂f
∂f
∂f
∂f
dx
dy
(x, 0) −
(0, 0) +
(h1 , y) −
(h1 , y) = o(k(h1 , h2 )k)
∂x
∂x
∂y
∂y
0
0
da (h1 , h2 ) → 0. Sei also ε > 0 fest. Da die partiellen Ableitungen stetig sind, finden wir
δ > 0 so dass
∂f
(x, y) − ∂f (0, 0) ≤ ε und
2
∂x
∂x
∂f
(x, y) − ∂f (0, 0) ≤ ε
∂y
2
∂y
für alle (x, y) ∈ R2 mit k(x, y)k ≤ δ. Sei nun k(h1 , h2 )k ≤ δ. Dann gilt auch k(h1 , y)k ≤ δ,
für alle 0 ≤ y ≤ h2 (angenommen h2 > 0, sonst ist die Aussage war für alle h2 ≤ y ≤ 0).
Damit gilt
ε
∂f
∂f
(h1 , y) −
(0, 0) ≤
∂y
∂y
2
für alle 0 ≤ y ≤ h2 und also
Z h2
ε|h2 |
∂f
∂f
εkhk
dy
(h1 , y) −
(0, 0) ≤
≤
∂y
∂y
2
2
0
Ähnlich gilt k(x, 0)k ≤ δ für alle 0 ≤ x ≤ h1 (oder h1 ≤ x ≤ 0, falls h1 < 0). Deswegen
∂f
(x, 0) − ∂f (0, 0) ≤ ε
∂x
2
∂x
für alle 0 ≤ x ≤ h1 und also
Z h1
ε|h1 |
∂f
∂f
εkhk
≤
dx
(x,
0)
−
(0,
0)
≤
∂x
∂x
2
2
0
Es folgt, dass für alle ε > 0 ein δ > 0 existiert, so dass
Z h1
Z h2
∂f
∂f
∂f
∂f
1
≤ε
dx
(x,
0)
−
(0,
0)
+
dy
(h
,
y)
−
(0,
0)
1
k(h1 , h2 )k 0
∂x
∂x
∂y
∂y
0
für alle k(h1 , h2 )k ≤ δ. Das zeigt die Behauptung. Die Verallgemeinerung zu n ≥ 3 lassen
wir als Übung.
Der Gradient. Sei U ⊂ Rn , offen und f : U → R eine reel-wertige Abildung, differenzierbar an der Stelle a ∈ U . Das Differential von f an der Stelle a ist dann eine lineare
Abbildung Df (a) : Rn → R und kann mit einer 1 × n Matrix identifiziert werden. Mit
anderen Worten, Df (a) ist ein lineares Funktional auf Rn . Wie jedes lineare Funktional
auf Rn kann Df (a) mit einem Vektor v = (v1 , . . . vn ) ∈ Rn , mit der Eigenschaft, dass
Df (a)(y) = v · y =
n
X
j=1
46
vj yj
für alle y = (y1 , . . . , yn ) ∈ Rn identifiziert werden. Man nennt den Vektor v den Gradienten von f an der Stelle a und man benutzt die Notation v = ∇f (a). Nach (44) sind
die Komponenten vom Gradient aus
∂f
∂f
∇f (a) =
(a), . . . ,
(a)
∂x1
∂xn
gegeben. Für einen beliebigen Einheitsvektor e ∈ Rn gilt, nach Proposition 3.4,
d
f (a + te)|t=0 = Df (a)(e) = ∇f (a) · e
dt
D.h. die Zuwachsrate der Funktion f in der Richtung e ist aus dem Skalarprodukt ∇f (a)·
e gegeben. Nehmen wir an ∇f (a) 6= 0. Das Skalarprodukt ∇f (a) · e ist dann maximal
über allen möglichen Einheitsvektoren e ∈ Rn , mit kek = 1, falls e = ∇f (a)/k∇f (a)k.
Für e = ∇f (a)/k∇f (a)k gilt dann
d
∇f (a)
f (a + te) = ∇f (a) ·
= k∇f (a)k
dt
k∇f (a)k
Wir haben bewiesen, dass der Vektor ∇f (a) in die Richtung der grössten Zuwachsrate
der Funktion f an der Stelle a zeigt. Die Länge von ∇f (a) ist dann genau die grösste
Zuwachsrate von f an der Stelle a (das gilt auch, falls ∇f (a) = 0).
Stetige Differenzierbarkeit. Sei U ⊂ Rn offen. Eine Funktion f : U → Rm heisst auf
U stetig differenzierbar, falls die Ableitung Df (x) existiert, für alle x ∈ U , und falls
die Abbildung Df : U → L(Rn ; Rm ) stetig ist. Aus Proposition 3.5 folgt, dass f auf U
genau dann stetig differenzierbar ist, wenn die partielle Ableitung ∂fi /∂xj (x) für alle
i = 1, . . . , m und alle j = 1, . . . , n auf U existiert und stetig ist. Wir setzen
C 1 (U ; Rm ) := {f : U → Rm : f auf U stetig differenzierbar ist} .
Rechenregeln. Wir sammeln in der nächsten Proposition ein paar nützliche elementare
Regeln für die Berechnung von Ableitungen von Funktionen mit mehreren Veränderlichen.
Proposition 3.6. Sei U ⊂ Rn offen, a ∈ U .
a) Seien f, g : U → Rm differenzierbar an der Stelle a und λ ∈ R. Dann ist auch f +
λg : U → Rm differenzierbar an der Stelle a und D(f + λg)(a) = Df (a) + λDg(a).
b) Ist f konstant auf U , so gilt Df (x) = 0 für alle x ∈ U .
c) Ist f : Rn → Rm linear, dann gilt Df (x) = f , für alle x ∈ Rn .
Beweis: Teil (a) und (b) sind offenbar, nach Definition der Ableitung und linearität des
Limes. Zu Teil (c) bemerken wir, dass f (x + h) = f (x) + f (h). Das impliziert, dass
kf (x + h) − f (a) − f (h)k = 0 = o(khk)
Damit ist die lineare Abbildung L = f die Ableitung von f an der Stelle x.
47
Kettenregel. Die Ableitung der Verknüpfung zweier Funktionen kann durch die Kettenregel berechnet werden.
Satz 3.7. Sei U ⊂ Rn und G ⊂ Rp offen. f : U → Rp , g : G → Rm , mit f (U ) ⊂ G. Sei
a ∈ U , f differenzierbar an der Stelle a, g differenzierbar an der Stelle f (a). Dann ist
die Funktion g ◦ f : U → Rm differenzierbar an der Stelle a ∈ U , und
D(g ◦ f )(a) = Dg(f (a)) · Df (a)
wobei das Produkt auf der rechten Seite die Komposition der zwei linearen Abbildungen
Df (a) : Rn → Rp und Dg(f (a)) : Rp → Rm ist. Mit anderen Worten, die m × n Matrix
D(g ◦ f )(a) ist aus dem Produkt der m × p Matrix Dg(f (a)) mit der p × n Matrix Df (a)
gegeben.
Beweis: Sei b = f (a), L = Df (a), M = Dg(b). Für h ∈ Rn , e
h ∈ Rp setzen wir
η1 (h) = f (a + h) − f (a) − L(h),
und
η2 (e
h) = g(b + e
h) − g(b) − M (e
h)
Nach Differenzierbarkeit von f an der Stelle a und von g an der Stelle b, gilt
kη1 (h)k = o(khk),
und
kη2 (e
h)k = o(ke
hk)
für h, e
h → 0. Sei nun h ∈ Rn beliebig und e
h = L(h) + η1 (h). Dann gilt
b+e
h = f (a) + L(h) + η1 (h) = f (a + h)
Also
(g ◦ f )(a + h) = g(f (a + h)) = g(b + e
h) = g(b) + M (e
h) + η2 (e
h)
= g(f (a)) + M (L(h)) + M (η1 (h)) + η2 (e
h)
Die Behauptung folgt, falls wir zeigen können, dass i) kM (η1 (h))k = o(khk) und ii)
kη2 (e
h))k = o(khk) für h → 0. Um i) zu zeigen, bemerken wir einfach, dass
kM (η1 (h))k
kη1 (h)k
≤ kM kop
→0
khk
khk
für h → 0, weil η1 (h) = o(khk). Anderseits, um ii) zu beweisen, benutzen wir, dass
kη1 (h)k ≤ khk für khk klein genug (weil η1 (h) = o(khk)). Deswegen gilt
ke
hk = kL(h) + η1 (h)k ≤ kL(h)k + kη1 (h)k ≤ (kLk + 1)khk
für khk klein genug. Da η2 (e
h) = o(ke
hk) existiert, für ein beliebiges ε > 0 ein δ > 0 mit
kη2 (e
h)k ≤ εke
hk ≤ (kLk + 1)εkhk
für alle h ∈ Rn mit khk ≤ δ. Das bedeutet, dass η2 (e
h) = o(khk) und zeigt ii).
48
Beispiel. Sei q : R → R3 die Bahn eines Teilchens als Funktion der Zeit. Sei T : R×R3 →
R die Temperatur als Funktion von der Zeit und von der Position im Raum. Die vom
Teilchen zur Zeit t gespürte Temperatur ist aus der Funktion t → T (t, q(t)) gegeben.
Sind q und T differenzierbar, so ist auch t → T (t, q(t)) differenzierbar, mit
3
X ∂T
d
∂T
(t, q(t))qj0 (t)
T (t, q(t)) =
(t, q(t)) +
dt
∂t
∂xj
j=1
Das Resultat folgt mit der Definition f : R → R4 durch f (t) = (t, q1 (t), q2 (t), q3 (t)).
Nach Differenzierbarkeit von q ist auch f differenzierbar, mit
f 0 (t) = (1, q10 (t), q20 (t), q30 (t))
Da T (t, q(t)) = (T ◦ f )(t) folgt, dass
3
(T ◦ f )0 (t) = DT (f (t)) · f 0 (t) = (∇T )(f (t)) · f 0 (t) =
X ∂T
∂T
(t, q(t)) +
(t, q(t))qj0 (t)
∂t
∂xj
j=1
3.2
Mittelwertsatz
Für eine auf [a; b] stetige und auf (a; b) differenzierbare Funktion f : [a; b] → R besagt
der Mittelwertsatz, dass ein ξ ∈ (a; b) existiert, mit f (b) − f (a) = f 0 (ξ)(b − a). Wir
zeigen hier eine analoge Aussage für Funktionen mit mehreren Veränderlichen.
Satz 3.8 (Mittelwertsatz). Sei U ⊂ Rn offen, f : U → R differenzierbar. Seien a, b ∈ U
mit
[a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U
Dann gibt es ein ξ ∈ [a; b] (ξ 6= a, b) mit
f (b) − f (a) = ∇f (ξ) · (b − a)
Beweis: Sei φ : [0, 1] → Rn durch φ(t) = (1 − t)a + tb definiert. Sei ψ : [0; 1] → R durch
ψ(t) = f (φ(t)) definiert. Nach der Kettenregel ist ψ ist dann auf [0; 1] stetig und auf
(0; 1) differenzierbar, mit
ψ 0 (t) = ∇f (φ(t)) · φ0 (t) = ∇f ((1 − t)a + tb) · (b − a)
Aus dem Mittelwertsatz für Funktionen einer Variablen existiert t0 ∈ (0; 1) mit
f (b) − f (a) = ψ(1) − ψ(0) = ψ 0 (t0 )(1 − 0) = ∇f ((1 − t0 )a + t0 b) · (b − a)
Die Behauptung folgt, mit ξ = (1 − t0 )a + t0 b.
Für Funktionen mit Werten auf Rm , m > 1, gilt i.A. der Mittelwertsatz nicht (unabhängig davon, ob die Funktion eine oder mehrere Veränderliche hat; siehe Bemerkung
unter Satz 8.9 in Analysis 1). Man kann aber eine Mittelwertabschätzung zeigen (siehe Proposition 8.10 in Analysis 1 für die Mittelwertabschätzung für Funktionen einer
Variablen).
49
Satz 3.9 (Mittelwertabschätzung). Sei U ⊂ Rn offen, f : U → Rm differenzierbar,
a, b ∈ U mit
[a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U
Sei kDf (x)kop ≤ M für alle x ∈ [a; b]. Dann gilt
kf (b) − f (a)k ≤ M kb − ak
Beweis: O.B.d.A. können wir annehmen, dass f (b) 6= f (a). Wir setzen
e=
f (b) − f (a)
∈ Rm .
kf (b) − f (a)k
Wir definieren die lineare Funktion φ : Rm → R durch φ(x) = x · e. Wir bemerken, dass,
wegen Linearität, φ auf Rm differenzierbar ist, mit Dφ = φ. Ferner, da kek = 1, gilt
kφkop ≤ 1 (eigentlich kφkop = 1). Wir definieren auch die Funktion g : Rn → R durch
g(x) = φ(f (x) − f (a))
Es gilt g(a) = 0 und g(b) = kf (b)−f (a)k. Aus der Kettenregel ist g auf U differenzierbar,
mit
Dg(x) = Dφ(f (x) − f (a)) · Df (x) = φ · Df (x)
Für x ∈ [a; b] gilt also
kDg(x)kop ≤ kφkop kDf (x)kop ≤ M
Der Mittelwertsatz 3.8 für die Funktion g impliziert, dass ein ξ ∈ [a; b] mit
kf (b) − f (a)k = g(b) − g(a) = Dg(ξ) · (b − a) ≤ kDg(ξ)kop kb − ak ≤ M kb − ak
existiert.
Eine Anwendung der Mittelwertabschätzung ist der Beweis der Tatsache, dass eine
auf einem offenen und zusammenhängenden Gebiet U ⊂ Rn definierte Funktion f mit
Df = 0 auf U konstant sein muss.
Definition 3.10. Ein Streckenzug auf Rn ist eine Menge der Form
[a1 ; a2 ] ∪ [a2 ; a3 ] ∪ · · · ∪ [ap−1 ; ap ]
für ein p ∈ N, und für Punkten a1 , . . . , an ∈ Rn (hier bezeichnet [a; b] = {(1 − λ)a +
λb : λ ∈ [0; 1]} der Segment zwischen a und b). a0 heisst Anfangspunkt und an heisst
Endpunkt des Streckenzuges. Wir sagen dann der Streckenzug verbindet die Punkten a0
und ap . Eine offene Teilmenge U ⊂ Rn heisst zusammenhängend falls je zwei Punkten
in U durch einen Streckenzug in U verbinden werden können.
Proposition 3.11. Sei U ⊂ Rn offen und zusammenhängend, f : U → Rm differenzierbar, mit Df (x) = 0 für alle x ∈ U . Dann ist f konstant auf U .
50
Beweis: Ist [a; b] ⊂ U dann gilt, aus Satz 3.9 mit M = 0, f (b) = f (a). Seien nun x, y ∈ U
beliebig. Da U zusammenhängend ist gibt es ein Streckenzug [a0 ; a1 ] ∪ · · · ∪ [ap−1 ; ap ] in
U , mit a0 = x und ap = y. Also
f (x) = f (a1 ) = f (a2 ) = · · · = f (ap−1 ) = f (y) .
Bemerkung: die Annahme, dass U zusammenhängend ist, ist notwendig. Sei
U = {x ∈ R2 : |x| < 1
oder |x − 3| < 1}
und f : U → R durch f (x) = 0 falls |x| < 1 und f (x) = 1 falls |x − 3| < 1 definiert.
Dann ist U offen, und Df (x) = 0 für alle x ∈ U , aber f ist auf U nicht konstant.
3.3
Höhere Ableitungen, Taylor Entwicklung, lokale Extrema
Sei U ⊂ Rn offen, und f : U → Rm differenzierbar. Die Ableitung von f ist dann
eine Funktion Df : U → L(Rn ; Rm ) mit Werten in den linearen Abbildungen zwischen
Rn und Rm . Man kann L(Rn ; Rm ) mit dem Vektorraum Rmn identifizieren (weil jede
lineare Abbildung in L(Rn ; Rm ) mit einer m × n Matrix identifiziert werden kann).
Man kann sich also fragen, ob die Abbildung Df differenzierbar ist. Ist Df an der
Stelle a ∈ U differenzierbar, dann heisst f an der Stelle a zweimal differenzierbar.
Die zweite Ableitung ist eine lineare Abbildung D2 f (a) : Rn → Rmn , d.h. D2 f (a) ∈
2
L(Rn ; Rn×m ) ' Rmn . Iterativ kann man höhere Ableitungen definieren. Ist f auf U
k
k-mal differenzierbar, und ist die k-te Ableitung Dk f : U → Rmn an der Stelle a
differenzierbar, dann sagt man, dass f an der Stelle a (k + 1)-mal differenzierbar ist,
k
k+1
und man bezeichnet die (k + 1)-te Ableitung mit Dk+1 f (a) ∈ L(Rn ; Rmn ) ' Rmn .
Man bemerke, dass die Abbildung D2 f (a) : Rn → L(Rn ; Rm ) ' Rn×m mit der
bilinearen Abbildung D2 f (a) : Rn × Rn → Rm , definiert durch
(D2 f (a))(v, v 0 ) = (D2 f (a)(v))(v 0 ) ,
identifiziert werden kann (wir benutzen die selbe Notation D2 f (a) für die lineare Abbildung Rn → L(Rn ; Rm ) und für die bilineare Abbildung Rn × Rn → Rm ). Wir erinnern
hier, dass eine Abbildung b : Rn × Rn → Rm bilinear heisst, falls die zwei Bedingungen
b(v1 + λv2 , v) = b(v1 , v) + λb(v2 , v)
(Linearität im ersten Argument)
b(v, v1 + λv2 ) = b(v, v1 ) + λb(v, v2 )
(Linearität im zweiten Argument)
(45)
für alle v, v1 , v2 ∈ Rn , λ ∈ R erfüllt sind. Analog kann D3 f (a) mit einer trilinearen Form
identifiziert werden und Dk f (a) mit einer k-linearen Abbildung auf Rn , mit Werten in
Rm .
Höhere partielle Ableitungen. Sei nun f : U → R partiell differenzierbar. Dann ist
∂f /∂xj wieder eine Funktion auf U mit Werten in R. Ist diese neue Funktion partiell
differenzierbar, so können wir die partiellen Ableitungen zweiter Ordnung
∂2f
∂
∂f
=
∂xj ∂xi
∂xj ∂xi
51
definieren. Iterativ kann man partielle Ableitungen höherer Ordnung definieren (die
Ordnung einer partiellen Ableitung ist die gesamte Anzahl von partiellen Ableitungen).
Um die Notation ein bisschen zu vereinfachen, schreiben wir, für eine partielle Ableitung
der Ordnung k,
∂kf
∂
∂f
∂
∂
=
∂i1 ∂i2 . . . ∂ik f =
.
...
∂xi1 ∂xi2 . . . ∂xik
∂xi1 ∂xi2
∂xik−1 ∂xik
Wir sagen, die Funktion f : U → R ist k-mal partiell differenzierbar, falls alle partiellen
Ableitungen der Ordnung kleiner oder gleich k existieren. Wir sagen, dass eine Funktion
f : U → Rm k-mal partiell differenzierbar ist, falls f (x) = (f1 (x), . . . , fm (x)) und jede
Komponente f1 , . . . , fm : U → R k-mal partiell differenzierbar ist.
Für k ∈ N, k ≥ 1, bezeichnen wir mit C k (U ; Rm ) die Menge der Funktionen f :
U → Rm , die auf U k-mal differenzierbar sind, so dass Dk f stetig ist. Nach Proposition
3.5 ist C k (U ; Rm ) genau die Menge der Funktionen f : U → Rm , für die alle partiellen
Ableitungen der Ordnung kleiner oder gleich k existieren und stetig sind.
Zur Berechnung von höheren partiellen Ableitungen ist es sehr nützlich zu bemerken, dass (unter geeigneten Annahmen an f ) sich partielle Ableitungen miteinander
vertauschen, d.h. ∂i ∂j f = ∂j ∂i f . Das wird in dem nächsten Satz bewiesen.
Satz 3.12 (Schwarz). Sei U ⊂ R2 offen, (x0 , y0 ) ∈ U , und f : U → R in U partiell
differenzierbar. Falls ∂y ∂x f auf U existiert und an der Stelle (x0 , y0 ) stetig ist, dann
existiert auch ∂x ∂y f an der Stelle (x0 , y0 ) und
∂x ∂y f (x0 , y0 ) = ∂y ∂x f (x0 , y0 ) .
Bemerkung. O.B.d.A. können wir (x0 , y0 ) = (0, 0) betrachten. Da
∂y f (x, 0) = lim
y→0
f (x, y) − f (x, 0)
y
erhalten wir
f (x,y)−f (x,0)
∂y f (x, 0) − ∂y f (0, 0)
y
∂x ∂y f (0; 0) = lim
= lim lim
x→0
x→0 y→0
x
f (x, y) − f (x, 0) − f (0, y) + f (0, 0)
= lim lim
x→0 y→0
xy
−
f (0,y)−f (0,0)
y
x
(46)
Analog gilt
∂y ∂x f (0; 0) = lim lim
y→0 x→0
f (x, y) − f (0, y) − f (x, 0) + f (0, 0)
xy
Das Problem ist also zu zeigen, dass die zwei Grenzwerte vertauscht werden können.
Beweis: O.B.d.A. nehmen wir an, dass (x0 , y0 ) = (0, 0) und dass ∂y ∂x f (0, 0) = 0 (sonst
ersetze f (x, y) durch f (x, y) − ∂y ∂x f (0, 0)xy). Wir definieren die Funktion φ(x, y) =
f (x, y) − f (x, 0). Gemäss (46) sind wir an
f (x, y) − f (0, y) − f (x, 0) + f (0, 0)
φ(x, y) − φ(0, y)
=
xy
xy
52
interessiert. Für festgehaltene y ist φ differenzierbar nach x und es gilt
∂x φ(x, y) = ∂x f (x, y) − ∂x f (x, 0)
Der Mittelwertsatz (für Funktionen einer Variablen) zeigt, es existiert 0 < θ < 1 mit
φ(x, y) − φ(0, y) = x∂x φ(θx, y) = x[∂x f (θx, y) − ∂x f (θx, 0)]
(47)
Nun ist die Funktion y → ∂x f (θx, y), für festgehaltene x und θ nach y differenzierbar, mit
Ableitung ∂y ∂x f (θx, y) (wir benutzen hier die Existenz der zweiten partiellen Ableitung
∂y ∂x f auf U ). Der Mittelwertsatz (für eine Variable) impliziert also, dass ein 0 < θ0 < 1
existiert, mit
∂x f (θx, y) − ∂x f (θx, 0) = y∂y ∂x f (θx, θ0 y)
Aus (47) folgt, dass
φ(x, y) − φ(0, y) = xy∂y ∂x f (θx, θ0 y)
und damit
f (x, y) − f (0, y) − f (x, 0) + f (0, 0)
= ∂y ∂x f (θx, θ0 y)
xy
Sei nun ε > 0 beliebig fest gewählt. Da ∂y ∂x f an der Stelle (0, 0) stetig ist, und da
∂y ∂x f (0, 0) = 0, existiert ein δ > 0 mit |∂y ∂x f (w, z)| ≤ ε für alle (w, z) ∈ R2 mit
k(w, z)k ≤ δ. Seien also (x, y) ∈ R2 , mit k(x, y)k ≤ δ. Dann gilt auch k(θx, θ0 y)k ≤ δ,
für alle θ, θ0 ∈ (0, 1). Deswegen gilt
|∂y ∂x f (θx, θ0 y)| ≤ ε
und
f (x,y)−f (x,0)
−
y
x
f (0,y)−f (0,0) y
f (x, y) − f (0, y) − f (x, 0) + f (0, 0) ≤ε
=
xy
Das gilt für alle k(x, y)k ≤ δ, und also insbesondere für feste x ∈ (−δ, δ) und y → 0. Da
f (x, y) − f (x, 0)
= ∂y f (x, 0),
y→0
y
lim
erhalten wir
und
f (0, y) − f (0, 0)
= ∂y f (0, 0)
y→0
y
lim
∂y f (x, 0) − ∂y f (0, 0) ≤ε
x
für alle x ∈ (−δ, δ). Da ε > 0 beliebig ist, es folgt, dass
∂y f (x, 0) − ∂y f (0, 0)
=0
x→0
x
lim
(und insbesondere, dass der Grenzwert existiert). Das zeigt, dass ∂x ∂y f (0, 0) = 0.
Durch wiederholte Anwendung von Satz 3.12 bekommen wir das folgende Korollar
für partielle Ableitungen beliebiger Ordnung.
53
Korollar 3.13. Sei U ⊂ Rn offen. Sei k ∈ N und f ∈ C k (U ). Dann gilt für alle
i1 , . . . , ik ∈ {1, . . . , n} und alle Permutationen π der Zahlen {1, . . . , k},
∂i1 . . . ∂ik f = ∂iπ1 . . . ∂iπk f .
Bespiel: Sei f ∈ C 4 (U ). Dann ∂x1 ∂x1 ∂x2 ∂x2 f = ∂x1 ∂x2 ∂x1 ∂x2 f = ∂x1 ∂x2 ∂x2 ∂x1 f = . . . .
Bemerkung: Nicht nur die verschiedenen partiellen Ableitungen, sondern auch beliebige
Richtungsableitungen vertauschen sich miteinander.
Differentialoperatoren. Man kann partielle Ableitungen als Operatoren interpretieren,
die auf differenzierbare Funktionen wirken. Sei
X
p(ξ1 , . . . , ξn ) =
pi1 ,...,in ξ1i1 . . . ξnin
i1 ,...,in ≥0:i1 +···+in ≤k
ein Polynom in den n Variablen ξ1 , . . . , ξn . Dann definieren wir den entsprechenden
Differentialoperator
X
p (∂1 , . . . , ∂n ) =
pi1 ,...,in ∂1i1 . . . ∂nin
i1 ,...,in ≥0:i1 +···+in ≤k
Der Operator p(∂1 , . . . , ∂n ) ist linear und bildet Funktionen in C k (U ) nach Funktionen
in C(U ). Der Operator ist wohldefiniert aus Satz 3.12, weil die verschiedenen partiellen
Ableitungen sich miteinander vertauschen (wäre das nicht der Fall, so würden zwei
verschiedene Operatoren dem selben Polynom entsprechen). Eine weitere Folgerung von
Satz 3.12 ist die folgende Bemerkung: Seien p1 , p2 zwei Polynome in n Variablen der
Ordnung k1 und k2 , sei p1 · p2 das Produkt der zwei Polynome (ein Polynom in n
Variablen der Ordnung k1 + k2 ). Dann gilt
p1 (∂1 , . . . , ∂n ) · p2 (∂1 , . . . , ∂n ) = (p1 · p2 )(∂1 , . . . , ∂n )
als Identität zweier Operatoren auf C (k1 +k2 ) (U ). Das Produkt auf der linken Seite ist
die Komposition von zwei (linearen) Abbildungen.
P
Beispiel: Sei p(ξ1 , . . . , ξn ) = nj=1 ξj2 . Der Laplace-Operator auf Rn ist aus
∆ := p (∂1 , . . . , ∂n ) =
n
X
∂j2 =
j=1
n
X
∂2
∂x2j
j=1
gegeben. Der Laplace-Operator wirkt auf C 2 (Rn ).
Taylor Entwicklung. Wir erinnern uns an den Begriff der Taylor-Entwicklung für Funktionen einer Variablen (siehe Kapitel 8.6 im Skript zu Analysis 1). Sei f ∈ C m+1 ([a; x]).
Dann existiert ξ ∈ (a; x), so dass
f (x) = f (a) + f 0 (a)(x − a) + · · · +
f (m) (a)
f (m+1) (ξ)
(x − a)m +
(x − a)m+1 .
m!
(m + 1)!
54
Sei nun U ⊂ Rn offen, a ∈ U und h ∈ Rn mit a + h ∈ U . Sei weiter f ∈ C m+1 (U )
R-wertig. Wir setzen φ(t) = f (a + th). Dann ist φ ∈ C m+1 ([0, 1]), mit φ(1) = f (a + h)
und φ(0) = f (a). Das impliziert, dass
f (a + h) = f (a) +
m
X
φ(j) (0)
j=1
j!
+
φ(m+1) (θ)
(m + 1)!
für ein θ ∈ (0; 1). Wir müssen die Ableitungen von φ berechnen. Es gilt
φ0 (t) = Df (a + th)(h) = h · ∇f (a + th)
und deswegen φ0 (0) = h · ∇f (a). Induktiv bekommen wir
φ(j) (t) = (h · ∇)j f (a + th)
Der Operator (h · ∇)j ist ein Differentialoperator der Ordnung j. Man findet
!j
n
X
X
(h · ∇)j
hi11 . . . hinn i1
=
∂ . . . ∂nin
hi ∂i
=
j!
i1 !i2 ! . . . in ! 1
i1 ,...,in ≥0:i1 +···+in =j
i=1
und also die Taylor-Entwicklung
f (a + h) = f (a) +
+
m
X
1
∂1i1 . . . ∂nin f (a) hi11 . . . hinn
i !i ! . . . in !
j=1 i1 ,...,in ≥0:i1 +···+in =j 1 2
(48)
X
1
i1
i1
in
in
∂ . . . ∂n f (a + θh) h1 . . . hn
i1 !i2 ! . . . in ! 1
X
i1 ,...,in :i1 +···+in =m+1
Es ist nützlich, eine kompaktere Notation für die höheren partiellen Ableitungen einzuführen. Ein Multiindex ist eine n-Tupel i = (i1 , . . . , in ) mit ij ∈ N für alle j = 1, . . . , n.
Der Betrag des Multiindexes i = (i1 , . . . , in ) wird als
|i| = i1 + i2 + · · · + in
definiert. Für den Multiindex i definieren wir weiter die partielle Ableitung der Ordnung
|i|
∂ i := ∂1i1 ∂2i2 . . . ∂nin
und hi := hi11 . . . hinn für alle h = (h1 , . . . , hn ) ∈ Rn . Wir setzen auch i! := i1 !i2 ! . . . in !.
Dann lässt sich (48) als
f (a + h) =
m X
X
(∂ i f )(a) i
h +
i!
j=0 i:|i|=j
X
i:|i|=m+1
(∂ i f )(a + θh) i
h
i!
(49)
schreiben, für ein beliebiges f ∈ C m+1 (U ), U ⊂ Rn offen, a ∈ U und h klein genug. In
(49) bilden die ersten m Termen das m-te Taylor-Polynom von f an der Stelle a:
m X
X
(∂ i f )(a) i
h
pm (h) =
i!
j=0 i:|i|=j
55
Der letzte Term auf der rechten Seite von (49) heisst das Restglied. Das Restglied ist
offenbar O(khkm+1 ), für h → 0. In den Übungen wird ferner bewiesen, dass


m+1
i
X
X
1
(∂ f )(a) i 
f (a + h) −
lim
h = 0.
m+1
h→0 khk
i!
j=0 i:|i|=j
Wir haben in (45) bemerkt, dass die r-te Ableitung Dr f (a) als die r-lineare Form
Dr f (a) :Rn × · · · × Rn → R
(v1 , v2 , . . . , vr ) → Dr f (a)(v1 , . . . , vr ) = (((Dr f (a)(v1 ))(v2 )) . . . )(vr )
interpretiert werden kann. Man kann dann überprüfen, dass
X (∂ i f )(a)
X
1 r
1
D f (a)(h, h, . . . , h) =
hi =
(∂ i1 . . . ∂nin f )(a)hi11 . . . hinn
r!
i!
i1 !i2 ! . . . in ! 1
i:|i|=r
i:|i|=r
Damit können wir die Taylor-Entwicklung (49) als
f (a + h) =
m
X
Dr f (a)(h, . . . , h)
r=0
r!
+
Dm+1 f (a + θh)(h, . . . , h)
(m + 1)!
(50)
umschreiben. Man bemerke, dass, für feste a, Dr f (a)(h, . . . , h) ein homogenes Polynom von Grad r in h ist. D.h. g(h) := Dr f (a)(h, . . . , h) ist ein Polynom in h, mit der
Eigenschaft g(th) = tr g(h) für alle t ∈ R.
Lokale Extrema und kritische Punkte. Sei U ⊂ Rn offen und f : U → R. Ein Punkt a ∈ U
heisst ein lokales Minimum von f , falls eine offene Umgebung A ⊂ U von a existiert,
mit f (a) = min{f (x) : x ∈ A}. a heisst ein lokales Maximum von f , falls eine offene
Umgebung A ⊂ U von a existiert, so dass f (a) = max{f (x) : x ∈ A}. a ∈ U heisst
ein lokales Extremum, falls a entweder ein lokales Minimum oder ein lokales Maximum
ist. Für eine Funktion φ einer Variablen haben wir in Analysis 1 bewiesen, dass, falls
φ an der Stelle t ∈ R differenzierbar ist, mit φ0 (t) 6= 0, t kein Extremum sein kann. Im
nächsten Satz zeigen wir die analoge Aussage für Funktionen mehrerer Veränderlichen.
Satz 3.14. Sei U ⊂ Rn offen, a ∈ U und f : U → R differenzierbar an der Stelle a. Es
gelte ∇f (a) 6= 0. Dann ist a kein Extremum von f .
Beweis: Sei e ∈ Rn ein Einheitsvektor mit e · ∇f (a) 6= 0. Wir setzen φ(t) = f (a + te) für
t ∈ R, mit |t| klein genug (damit a+te ∈ U ). φ ist an der Stelle t = 0 differenzierbar, mit
φ0 (0) = e · ∇f (a) 6= 0. Also ist 0 ∈ R keine Extremalstelle von φ. D.h. φ nimmt in jeder
Umgebung von 0 Werten grösser als φ(0) = f (a) und Werten kleiner als φ(0) = f (a) an.
Das zeigt, dass a keine Extremalstelle von f ist.
Seien U , f wie oben. Wir sagen a ∈ U ist ein kritischer Punkt von f , falls f in a
differenzierbar ist und ∇f (a) = 0. Ist a ∈ U ein Extremum von f , so muss entweder f
an der Stelle a nicht differenzierbar sein, oder a muss ein kritischer Punkt sein.
56
Sei nun f ∈ C p (U ) und a eine kritische Stelle von f . Es existiere 1 < r < p mit
6= 0. Sei r die kleinste ganze Zahl mit dieser Eigenschaft. Dann gilt, aus (50),
Dr f (a)
f (a + h) = f (a) +
1 r
D f (a)(h, . . . , h) + O(khkr+1 )
r!
(51)
für h → 0. Die Frage, ob a ein Maximum, ein Minimum oder keine Extremalstelle ist,
wird vom Verhalten von Dr f (a)(h, . . . , h) bestimmt.
Definition 3.15. Sei p : Rn → R ein homogenes Polynom. Wir sagen
p ist positiv definit, wenn p(h) > 0 für alle h 6= 0
p ist positiv semidefinit, wenn p(h) ≥ 0 für alle h
p ist negativ definit, wenn p(h) < 0 für alle h 6= 0
p ist negativ semidefinit, wenn p(h) ≤ 0 für alle h
p ist indefinit, wenn p weder positiv noch negativ semidefinit ist
Ist p indefinit, so nimmt p Werte mit beiden Vorzeichen.
Bemerkung. Ist p : Rn → R ein homogenes Polynom von ungeradem Grad r, so ist
entweder p ≡ 0 oder p indefinit. In der Tat
p(−h) = (−1)r p(h) = −p(h)
D.h. entweder ist p ≡ 0 oder p nimmt positive und negative Werte an.
Beispiele: Sei n = 2, r = 2. Dann ist
p(h1 , h2 ) = h21 + h22
positiv definit
2
p(h1 , h2 ) = (h1 + h2 )
positiv semidefinit
p(h1 , h2 ) = −h21 − h22
negativ definit
2
p(h1 , h2 ) = −(h1 + h2 )
p(h1 , h2 ) = h1 h2
seminegativ definit
indefinit
Aus (51) folgt einfach, falls a ein lokales Minimum ist, so muss Dr f (a) positiv semidefinit sein, und falls a ein lokales Maximum ist, so muss Dr f (a) negativ semidefinit sein.
Die umgekehrten Aussagen gelten i.A. nur, wenn Dr f (a) positiv bzw. negativ definit
sind (statt nur semidefinit). Das ist der Inhalt der nächsten Proposition.
Proposition 3.16. Sei U ⊂ Rn offen, f ∈ C p (U ), a ∈ U eine kritische Stelle von f ,
und r < p so, dass (wie in (51))
f (a + h) = f (a) +
1 r
D f (a)(h, . . . , h) + O(khkr+1 )
r!
für h → 0. Dann gilt
a) Ist Dr f (a)(h, . . . , h) positiv definit, so ist a ein lokales Minimum.
b) Ist Dr f (a)(h, . . . , h) negativ definit, so ist a ein lokales Maximum.
57
c) Ist Dr f (a)(h, . . . , h) indefinit, so ist a kein Extremum.
Bemerkung: Ist Dr f (a)(h, . . . , h) positiv semidefinit (aber nicht positiv definit) oder
negativ semidefinit (aber nicht negativ definit), so wird in Proposition 3.16 keine Aussage über die kritische Stelle a gemacht. In diesem Fall ist eine tiefere Untersuchung
notwendig.
Beweis: a) Das Polynom h → Dr f (a)(h, . . . , h) ist stetig und Dr f (a)(h, . . . , h) > 0 für
alle h ∈ S = {h ∈ Rn : khk = 1} (S n−1 ist die Einheitssphäre in Rn ). Da S ⊂ Rn
kompakt ist, folgt aus dem Sazt vom Maximum, dass α = inf h∈S Dr f (a)(h, . . . , h) > 0.
Für ein beliebiges h ∈ Rn , h 6= 0 schreiben wir h = khke für ein e ∈ S. Dann gilt
Dr f (a)(h, . . . , h) = khkr Dr f (a)(e, . . . , e) ≥ αkhkr .
Das gibt
1 r
α
D f (a)(h, . . . , h) + O(khkr+1 ) ≥ f (a) + khkr + O(khkr+1 )
r!
r!
α
r
= f (a) + khk (1 + O(khk)) ≥ f (a)
r!
f (a + h) = f (a) +
für alle h ∈ Rn klein genug. Das zeigt, dass a ein lokales Minimum ist. Analog zeigt man
die Aussage b). Um c) zu zeigen, finden wir e1 , e2 ∈ S mit Dr f (a)(e1 , . . . , e1 ) > 0 und
Dr f (a)(e2 , . . . , e2 ) < 0. Für λ > 0 beliebig finden wir
f (a + λe1 ) = f (a) +
λr r
D f (a)(e1 , . . . , e1 )(1 + O(λ)) > f (a)
r!
und
λr r
D f (a)(e2 , . . . , e2 )(1 + O(λ)) < f (a)
r!
für alle λ > 0 klein genug. Damit ist a kein Extremum.
f (a + λe2 ) = f (a) +
Besonders wichtig ist der Fall, dass an einem kritischen Punkt a einer Funktion
f ∈ C 3 (U ), die zweite Ableitung nicht verschwindet. In diesem Fall hängt die Frage,
ob a ein Minimum, ein Maximum oder keine Extremalstelle ist, mit dem Verhalten der
quadratischen Form D2 f (a)(h, h) zusammen. Wir bemerken, dass, falls h = (h1 , . . . , hn ),
2
D f (a)(h, h) =
n
X
i,j=1
∂2f
(a)hi hj .
∂xi ∂xj
Wir definieren die n × n Matrix
Hij = ∂i ∂j f (a) =
∂2f
(a) .
∂xi ∂xj
Die Matrix Hij heisst P
die Hesse’sche Matrix von f an der Stelle a, die quadratische
n
Form D2 f (a)(h, h) =
i,j=1 Hij hi hj die Hesse’sche Form. Aus Satz 3.12 folgt, dass
die Matrix Hij symmetrisch ist (d.h. Hij = Hji ). Die Hesse’sche Form heisst nicht
entartet, falls det(Hij ) 6= 0. Tatsache: Ist die Hesse’sche Form nicht entartet, dann ist
sie entweder positiv definit, negativ definit oder indefinit (der Fall, dass D2 f (a) positiv
58
semidefinit, aber nicht positiv definit, und der Fall, dass D2 f (a) negativ semidefinit, aber
nicht negativ definit ist, sind ausgeschlossen). Diese Aussage folgt aus der Bemerkung,
dass eine symmetrische n × n Matrix immer durch eine unitäre Matrix diagonalisierbar
ist. Seien λ1 , . . . , λn die (nicht notwendigerweise verschiedenen) Eigenwerte von Hij .
Ist D2 f (a) nicht entartet, so gilt λi 6= 0 für alle i = 1, . . . , n. Es gibt also nur drei
Möglichkeiten: 1) alle Eigenwerte sind positiv, 2) alle Eigenwerte sind negativ, 3) es gibt
positive und negative Eigenwerte. Im Fall 1) ist D2 f (a) positiv definit, im Fall 2) ist
D2 f (a) negativ definit und im Fall 3) ist D2 f (a) indefinit. Es folgt aus dieser Bemerkung,
dass, falls die Hesse’sche Form nicht entartet ist, man immer durch Untersuchung von
D2 f (a) entscheiden kann, ob der kritische Punkt a ein Maximum, ein Minimum oder
kein Extremum ist.
3.4
Umkehrabbildung und Satz über implizite Funktionen
Für differenzierbare Funktionen einer Variablen f : R ⊃ Ω → R haben wir in Analysis 1
gezeigt, dass, unter der Bedingung f 0 (a) 6= 0, die Umkehrabbildung lokal wohldefiniert
und an der Stelle f (a) differenzierbar, mit (f −1 )0 (f (a)) = 1/f 0 (a), ist. Wir möchten
nun eine analoge Aussage für Funktionen mehrerer Variablen beweisen. Die Bedingung
f 0 (a) 6= 0 wird hier durch die Bedingung ersetzt, dass Df (a) invertierbar ist.
Satz 3.17 (Satz über die Umkehrabbildung). Sei U ⊂ Rn offen, f : U → Rn stetig
differenzierbar, a ∈ U und Df (a) ∈ L(Rn ; Rn ) invertierbar. Dann existieren offene
Umgebungen V von a und W von f (a) so, dass f : V → W bijektiv und f −1 : W → V
stetig differenzierbar. Ferner gilt
Df −1 (f (a)) = (Df (a))−1 .
Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , d.h. es gelte f (x) =
(f1 (x), . . . , fn (x)) für alle x ∈ U . Die Invertierbarkeit von Df (a) ist dann äquivalent zur
Bedingung, dass
∂fi (a)
det
6= 0 .
∂xj i,j≤n
Im Beweis des Satzes (genauer gesagt, um die Stetigkeit der Ableitung von f −1 zu
zeigen) werden wir die folgende Proposition benutzen.
Proposition 3.18. Sei
GL(Rn ) = {L ∈ L(Rn ; Rn ) : L ist invertierbar}
Die Menge GL(Rn ) ist in L(Rn ; Rn ) offen (bezüglich der aus der Operatornorm (oder
aus jeder anderen Norm) induzierten Topologie). Die Abbildung i : GL(Rn ) → GL(Rn ),
definiert durch i(L) = L−1 ist stetig.
Beweis: Sei L ∈ L(Rn ; Rn ) invertierbar. Dann gilt
kL−1 kop = sup
y6=0
kxk
1
kL−1 yk
= sup
=
kyk
x6=0 kLxk
inf x6=0
59
kLxk
kxk
und deswegen
kLxk
1
=
−1
x6=0 kxk
kL kop
inf
Das impliziert, dass
kLxk ≥
1
kxk
kL−1 kop
(52)
für alle x ∈ Rn .
−1
Sei nun L0 ∈ GL(Rn ) invertierbar und L ∈ L(Rn ; Rn ) mit kL − L0 kop < kL−1
0 k .
Dann gilt, für ein beliebiges x ∈ Rn ,
−1
kLxk ≥ kL0 xk − k(L − L0 )xk ≥ kL−1
(53)
0 kop − kL − L0 kop kxk ≥ ckxk
für ein c > 0. Das zeigt, dass L injektiv und deswegen auch invertierbar ist (eine lineare
Abbildung L ∈ L(Rn ; Rn ) ist genau dann bijektiv, wenn sie injektiv ist). Das impliziert,
dass
−1
n
{L ∈ L(Rn ; Rn ) : kL − L0 kop < kL−1
0 kop } ⊂ GL(R )
und also, dass GL(Rn ) offen ist.
Aus (53) finden wir auch
kL−1 kop =
1
inf x6=0
kLxk
kxk
≤
1
kL−1
0 kop
kL−1
1
0 kop
=
−1
− kL − L0 kop
1 − kL0 kop kL − L0 kop
−1
−1
Da L−1 − L−1
0 = L (L0 − L)L0 erhalten wir
−1
−1
kL−1 − L−1
0 kop ≤ kL kop kL0 kop kL − L0 kop ≤
2
kL−1
0 k
kL − L0 kop
1 − kL−1
0 kop kL − L0 kop
Das zeigt, dass die Abbildung i(L) = L−1 stetig an der Stelle L0 ist, für jede L0 ∈
GL(Rn ).
Beweis von Satz 3.17. O.B.d.A können wir annehmen, dass a = 0 und f (0) = 0 (sonst
ersetzen wir f durch die Funktion fe(x) = f (x + a) − f (a)). Wir definieren φ : U → Rn
durch φ(x) = f (x)−Df (0)(x). Dann gilt f (x) = Df (0)(x)+φ(x) und Df (x) = Df (0)+
Dφ(x) für alle x ∈ U . Insbesondere gilt φ(0) = f (0) = 0 und Dφ(0) = 0. Da f stetig
differenzierbar ist, ist die Abbildung x → Dφ(x) stetig. Also existiert r0 > 0 mit
kDφ(x)kop ≤
1
2kDf (0)−1 kop
für alle x ∈ B r0 := {x ∈ Rn : kxk ≤ r0 }. Aus der Mittelwertabschätzung gilt dann
kφ(x1 ) − φ(x2 )k ≤
1
kx1 − x2 k
2kDf (0)−1 kop
(54)
für alle x1 , x2 ∈ B r0 . Insbesondere, mit x2 = 0, finden wir kφ(x)k ≤ (2kDf (0)−1 kop )−1 kxk
für alle x ∈ B r0 (weil φ(0) = 0).
60
Schritt 1. Für alle r ≤ r0 gilt f (B r ) ⊃ B r/2kDf (0)−1 kop . D.h. für jede y ∈ Rn mit
kyk ≤ r/(2kDf (0)−1 kop ) existiert ein x ∈ B r mit f (x) = y.
Beweis. Für beliebige y ∈ B r/2kDf (0)−1 kop definieren wir ψy : B r → Rn durch ψy (x) =
Df (0)−1 (y − φ(x)). Es gilt f (x) = y genau dann, wenn ψy (x) = x, d.h. wenn x ein
Fixpunkt von ψy ist. Wir möchten den Banachschen Fixpunktsatz anwenden, um zu
zeigen, dass ψy einen Fixpunkt in B r besitzt. Dazu bemerken wir zunächst, dass
kψy (x)k = kDf (0)−1 kop ky − φ(x)k ≤ kDf (0)−1 kop (kyk + kφ(x)k) ≤ r
für alle y ∈ B r/2kDf (0)−1 kop und x ∈ B r (wir haben hier (54) gebraucht). Das zeigt, dass
für alle y ∈ B r/2kDf (0)−1 kop , ψy : B r → B r . Ferner haben wir
ψy (x1 ) − ψy (x2 ) = Df (0)−1 (φ(x1 ) − φ(x2 ))
und deswegen
1
kψy (x1 ) − ψy (x2 )k = kDf (0)−1 kop kφ(x1 ) − φ(x2 )k ≤ kx1 − x2 k
2
für alle x ∈ B r (wieder wegen (54)). Es folgt, dass für alle y ∈ B r/2kDf (0)−1 kop , ψy eine
Kontraktion auf B r ist. Da B r ein vollständiger metrischer Raum ist, folgt aus Satz 2.3,
dass für alle y ∈ B r/2kDf (0)−1 kop ein x ∈ B r mit f (x) = y existiert.
Schritt 2. Es gilt
3kDf (0)kop
1
kx1 − x2 k
kx1 − x2 k ≤ kf (x1 ) − f (x2 )k ≤
−1
2kDf (0) kop
2
für alle x1 , x2 ∈ B r0 . Insbesondere ist f auf B r0 injektiv.
Beweis: Wir haben f (x) = φ(x) + Df (0)(x). Aus (54) gilt
kf (x1 ) − f (x2 )k ≤ kDf (0)kkx1 − x2 k + kφ(x1 ) − φ(x2 )k
1
≤ kDf (0)kop +
kx1 − x2 k
2kDf (0)−1 kop
Aus 1 = Df (0)Df (0)−1 folgt, dass 1 ≤ kDf (0)kop kDf (0)−1 kop und damit
kDf (0)−1 k−1
op ≤ kDf (0)kop .
Das ergibt
kf (x1 ) − f (x2 )k ≤
3kDf (0)kop
kx1 − x2 k
2
für alle x1 , x2 ∈ B r0 . Anderseits gilt aus (52) und wieder aus (54),
kf (x1 ) − f (x2 )k ≥ kDf (0)(x1 − x2 )k − kφ(x1 ) − φ(x2 )k
1
1
≥
−
kx1 − x2 k
kDf (0)−1 kop 2kDf (0)−1 kop
1
=
kx1 − x2 k .
2kDf (0)−1 kop
61
Sei nun r < r0 fest. Wir setzen W0 = Br/(2kDf (0)−1 kop ) = {x ∈ Rn : kxk <
r/2kDf (0)−1 kop }, und V0 = f −1 (W0 ) ∩ Br0 = {x ∈ Br0 : kf (x)k < r}. W0 ist offen. Da f stetig, ist auch V0 offen. Es folgt aus Schritten 1 und 2, dass f : V0 → W0
bijektiv ist. Die Injektivität folgt aus Schritt 2, weil V0 ⊂ Br0 . Die Surjektivität folgt
dagegen aus Schritt 1, weil für jede y ∈ Br/(2kDf (0)−1 kop , x ∈ B r ⊂ Br0 mit f (x) = y
existiert. Wir bezeichnen die Inverse mit g : W0 → V0 . Für y1 , y2 ∈ W0 setze x1 = g(y1 )
und x2 = g(y2 ). Aus Schritt 2 haben wir
kg(y1 ) − g(y2 )k = kx1 − x2 k ≤ 2kDf (0)−1 kop kf (x1 ) − f (x2 )k = 2kDf (0)−1 kop ky1 − y2 k
Also ist g auf W0 stetig (sogar Lipschitz-stetig).
Schritt 3. g ist an der Stelle 0 differenzierbar. Es gilt Dg(0) = Df (0)−1 .
Beweis. Da g(0) = 0 müssen wir zeigen, dass
g(y) − Df (0)−1 (y) = o(kyk)
für y → 0. Sei 0 < ε < 1 festgewählt. Da x → φ(x) stetig, existiert δ > 0 so, dass
kDφ(x)k ≤ ε/(2kDf (0)−1 kop ) für alle kxk ≤ δ. Nach Definition von r0 > 0 gilt δ ≤ r0 .
Für y ∈ Rn mit kyk < δ/(2kDf (0)−1 kop , sei x = g(y). Dann gilt kxk ≤ δ. Ferner
f (x) = y = Df (0)(x) + φ(x)
Wir multiplizieren rechts und links mit der Matrix Df (0)−1 und erhalten
g(y) − Df (0)−1 (y) = −Df (0)−1 (φ(x))
Aus der Mittelwertabschätzung für φ,
kg(y) − Df (0)−1 (y)k = kDf (0)−1 φ(x)k = kDf (0)−1 (φ(x) − φ(0))k
ε
≤ kDf (0)−1 kop kφ(x) − φ(0)k ≤ kxk
2
ε
−1
≤ kg(y)k ≤ εkDf (0) kop kyk
2
Da ε > 0 beliebig ist, folgt die Behauptung.
Wir haben somit folgendes bewiesen: Für jede a ∈ U mit Df (a) invertierbar, existieren offene Umgebungen V0 von a und W0 von f (a), so dass f : V0 → W0 bijektiv
ist, und so, dass f −1 : W0 → V0 stetig und an der Stelle a differenzierbar ist, mit
Df −1 (f (a)) = (Df (a))−1 . Da x → Df (x) stetig, und da die Menge der invertierbaren
linearen Abbildungen GL(Rn ) in L(Rn , Rn ) offen ist, finden wir eine offene Umgebung
V ⊂ V0 von a so, dass Df (x) invertierbar ist, für alle x ∈ V . Wir setzen W = f (V ); da
f −1 stetig ist, ist auch W offen. f −1 ist dann in jedem Punkt von W differenzierbar und
Df −1 (f (x)) = (Df (x))−1 = Df (x)−1 . Da die Abbildung i : GL(Rn ) → GL(Rn ) stetig
ist, ist Df (x)−1 = i(Df (x)) als Komposition zweier stetiger Abbildungen wieder stetig.
Damit ist f −1 : W → V stetig differenzierbar.
62
Definition 3.19. Seien X, Y zwei metrische Räume. Ein Homöomorphismus von X
nach Y ist eine Bijektion f : X → Y , so dass f und f −1 stetig sind. Ist f : X → Y
ein Homöomorphismus, so ist auch f −1 ein Homöomorphismus. Eine stetige Bijektion
f : X → Y ist genau dann ein Homöomorphismus, wenn f (U ) offen in Y für jede
U offen in X ist (weil eine Abbildung genau dann stetig ist, wenn das Urbild jeder
offenen Menge wieder offen ist; siehe Analysis 1, Prop. 6.18). Zwei metrische Räume
X, Y heissen homöomorph, wenn ein Homöomorphismus f : X → Y existiert.
Seien nun U ⊂ Rn und V ⊂ Rm offen. Ein Homöomorphismus f : U → V heisst
ein Diffeomorphismus, falls f und f −1 stetig differenzierbar sind. Zwei offene Mengen
U ⊂ Rn und V ⊂ Rm heissen diffeomorph, wenn ein Diffeomorphismus f : U → V
existiert. Eine Bijektion f : U → V ist genau dann ein Diffeomorphismus, wenn f −1
ein Diffeomorphismus ist.
Bemerkung: Ist U ⊂ Rn , V ⊂ Rm und f : U → V ein Diffeomorphismus, dann gilt
f −1 ◦ f (x) = x für alle x ∈ U . Die Kettenregel impliziert, dass
Df −1 (f (x)) ◦ Df (x) = 1,
wobei Df −1 (f (x)) ∈ L(Rm ; Rn ) und Df (x) ∈ L(Rn ; Rm ). Das ist nur möglich, falls
m ≥ n. Analog impliziert f ◦ f −1 (x) = x, dass Df (f −1 (x)) ◦ Df −1 (x) = 1 und also,
dass n ≥ m. Es folgt, dass n = m. Mit anderen Worten können nur Mengen der gleichen
Dimension zueinader diffeomorph sein.
Tatsache: Sind U ⊂ Rn und V ⊂ Rm nicht leer und offen, und f : U → V ein Homöomorphismus, dann muss n = m sein.
Bemerkung: Der Satz der Umkehrabbildung besagt, dass falls U ⊂ Rn offen ist, a ∈ U ,
f : U → Rn stetig differenzierbar, mit Df (a) invertierbar, dann ist f lokal in der Nähe
von a ein Diffeomorphismus. D.h. es existieren offene Umgebungen V von a und W von
f (a), so dass f : V → W ein Diffeomorphismus ist.
Eine wichtige Anwendung des Satzes über die Umkehrabbildung ist der Satz über
implizite Funktionen. Oft werden Teilmengen von Rn durch Gleichungen definiert. Z.B.
ist {(x, y) ∈ R2 : y = x3 } eine Teilmenge von R2 . In diesem Fall ist die Teilmenge
besonders einfach, weil sie als Graph einer Funktion geschrieben werden kann. Das ist
i.A. nicht möglich. Z.B. für den Einheitskreis S = {(x, y) ∈ R2 : x2 + y 2 = 1} existiert
keine Funktion g, definiert auf einer Teilmenge U ⊂ R, mit der Eigenschaft, dass S =
{(x, g(x)) : x ∈ U }. Trotzdem ist es in diesem Fall möglich, S lokal als Graph zu
schreiben. Betrachten wir z.B. den Punkt (0, 1) auf S. Es ist dann einfach zu sehen, dass
offene Umgebungen U ⊂ R von 0 und V ⊂ R von 1 und eine differenzierbare Funktion
g : U → V existiert, mit der Eigenschaft, dass
S ∩ (U × V ) = {(x, g(x)) : x ∈ U } .
√
In diesem Fall ist es sogar möglich, g(x) = 1 − x2 explizit zu schreiben.
Ein anderes Beispiel ist das sogenannte kartesische Blatt
T = {(x, y) ∈ R2 : x3 − 2xy + y 3 = 0} .
63
Wie S, kann auch T nicht global als Graph einer Funktion geschrieben werden. Ist es
möglich, T lokal als Graph zu schreiben? Der Punkt (1, 1) ist z.B. in T . Es ist einfach zu sehen (vgl. Bild von T ), dass offene Umgebungen U, V ⊂ R von 1 und eine
differenzierbare Funktion f : U → V existieren, so dass f (1) = 1 und
T ∩ (U × V ) = {(x, f (x)) : x ∈ U } .
Kann T in der Nähe von jedem seiner Punkte lokal als Graph einer Funktion geschrieben
werden? Nein: Es ist einfach zu sehen, dass in der Nähe von (0, 0), T nicht als Graph
geschrieben werden kann. Was unterscheidet also die Punkte (1, 1) und (0, 0) auf T ? Sei
f (x, y) = x3 − 2xy + y 3 , so dass T Menge aller Nullstellen von f ist. Dann gilt
∂f
(x, y) = −2x + 3y 2
∂y
Wir zeigen im nächsten Satz, dass der fundamentale Unterschied zwischen (1, 1) und
(0, 0) die Tatsache ist, dass (∂f /∂y)(1, 1) = −2 6= 0 während (∂f /∂y)(0, 0) = 0.
Satz 3.20 (Satz über implizite Funktionen). Seien m, n ∈ N\{0}, U ⊂ Rm × Rn offen
und nicht leer. Sei f ∈ C 1 (U ; Rn ) und (x0 , y0 ) ∈ U mit f (x0 , y0 ) = 0. Es gelte
∂fi
6= 0
(55)
(x0 , y0 )
det
∂yj
1≤i,j≤n
Dann existieren offene Umgebungen V ⊂ Rm von x0 und W ⊂ Rn von y0 und eine stetig
differenzierbare Funktion g : V → W , so dass
{(x, y) ∈ V × W : f (x, y) = 0} = {(x, g(x)) : x ∈ V }
Ferner gilt
Dg(x0 ) = −(Dy f (x0 , y0 ))−1 · Dx f (x0 , y0 ) .
(56)
Bemerkung: Dy f (x0 , y0 ) und Dx f (x0 , y0 ) bezeichnen die Ableitung von f als Funktion
von y bei festen x = x0 , bzw. die Ableitung von f als Funktion von x, bei festen y = y0 .
Dy f (x0 , y0 ) ist eine n × n Matrix und Dx f (x0 , y0 ) eine n × m Matrix. Die Bedingung
(55) bedeutet genau, dass die Matrix Dy f (x0 , y0 ) invertierbar ist. In diesem Fall ist die
Inverse Dy f (x0 , y0 )−1 wieder eine n × n Matrix und Dy f (x0 , y0 )−1 · Dx f (x0 , y0 ) eine
n × m Matrix. Damit ist (56) konsistent mit der Tatsache, dass g eine Teilmenge von
Rm auf einer Teilmenge von Rn abbildet.
Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , s.d. f (x, y) = (f1 (x, y), . . . , fn (x, y))
für alle (x, y) ∈ U gelte. Dann ist die vektorielle Gleichung f (x, y) = 0 das System von
n Gleichungen

f1 (x1 , . . . , xm , y1 , . . . , yn ) = 0



f2 (x1 , . . . , xm , y1 , . . . , yn ) = 0
...



fn (x1 , . . . , xm , y1 , . . . , yn ) = 0
Der Satz besagt, dass, falls Dy f (x0 , y0 ) invertierbar ist, kann man das Gleichungssystem
lokal für (y1 , . . . , yn ) lösen. Sind die Funktionen f1 , . . . , fn linear oder affin, dann ist die
Behauptung schon aus der linearen Algebra bekannt (in diesem Fall ist die Ableitung
Dy f (x0 , y0 ) unabhängig von (x0 , y0 ) und die Behauptung gilt natürlich global).
64
Beweis: Wir definieren die Hilfsfunktion F : U → Rm × Rn durch F (x, y) = (x, f (x, y)).
Da f ∈ C 1 (U ; Rn ), ist F stetig differenzierbar. Die Ableitung von F an der Stelle (x0 , y0 )
ist aus der Blockmatrix
0
1Rm
DF (x0 , y0 ) =
Dx f (x0 , y0 ) Dy f (x0 , y0 )
mit der n × m Matrix Dx f (x0 , y0 ) = ((∂fi /∂xj )(x0 , y0 )) und mit der n × n Matrix
Dy f (x0 , y0 ) = ((∂fi /∂yj )(x0 , y0 )) gegeben (1Rm ist die Identität auf Rm ). Nach Annahme ist Dy f (x0 , y0 ) invertierbar; sei Dy f (x0 , y0 )−1 die Inverse. Wir behaupten, dass auch
DF (x0 , y0 ) invertierbar ist. In der Tat, explizite Berechnung zeigt, dass
0
0
1Rm
1Rm
·
−Dy f (x0 , y0 )−1 Dx f (x0 , y0 ) Dy f (x0 , y0 )−1
Dx f (x0 , y0 ) Dy f (x0 , y0 )
1Rm 0
=
.
0
1Rn
Deswegen ist DF (x0 , y0 ) invertierbar. Aus dem Satz über die Umkehrabbildung (Satz
3.17) folgt, dass offene Umgebungen U1 ⊂ Rm × Rn von (x0 , y0 ) und U2 ⊂ Rm × Rn
von F (x0 , y0 ) = (x0 , 0) existieren, so dass F : U1 → U2 ein Diffeomorphismus ist. Da
U1 eine offene Umgebung von (x0 , y0 ) ist, kann man offene Umgebungen Ve ⊂ Rm von
x0 und W ⊂ Rn von y0 , mit Ve × W ⊂ U1 . Dann ist F (Ve × W ) ⊂ U2 eine offene
Umgebung von (x0 , 0) (weil F ein Homöomorphismus ist), und F : Ve × W → F (Ve ×
W ) wieder ein Diffeomorphismus. Sei G : F (Ve × W ) → Ve × W die Inverse dieses
e : F (Ve × W ) →
Diffeomorphismus’. Da F (x, y) = (x, f (x, y)), existiert eine Funktion G
e
e
W mit G(x, y) = (x, G(x, y)) für alle (x, y) ∈ F (V × W ). Da G differenzierbar ist, ist
e differenzierbar. Da F (Ve × W ) eine offene Umgebung von (x0 , 0) ist, finden wir
auch G
eine offene Umgebung V ⊂ Ve von x0 mit {(x, 0) : x ∈ V } ⊂ F (Ve × W ). Dann können
e 0) definieren (d.h. durch G(x, 0) = (x, φ(x)) für alle
wir φ : V → W durch φ(x) = G(x,
e
x ∈ V ). Da G differenzierbar ist, ist auch φ differenzierbar. Für (x, y) ∈ V × W ⊂ Ve × W
gilt dann
f (x, y) = 0 ⇐⇒ F (x, y) = (x, 0) ⇐⇒ G(x, 0) = (x, y)
e 0) ⇐⇒ y = φ(x)
⇐⇒ y = G(x,
D.h.
{(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V }
Aus f (x, φ(x)) = 0 für alle x ∈ V folgt, mit der Kettenregel, dass
0 = Df (x0 , φ(x0 )) · Dg(x0 ) = Dx f (x0 , φ(x0 )) · 1Rm + Dy f (x0 , φ(x0 )) · Dφ(x0 )
Das gibt (56).
Beispiel. Sei f (x, y) = x3 − 2xy + y 3 und, wie oben, T = {(x, y) ∈ R2 : f (x, y) = 0} das
kartesische Blatt. Es gilt
∂f
(x, y) = −2x + 3y 2 ,
∂y
und
65
∂f
(x, y) = 3x2 − 2y
∂x
Ist (x0 , y0 ) ∈ T mit −2x0 + 3y02 6= 0, dann kann man, in der Nähe von (x0 , y0 ), T als
Graph einer Funktion von x schreiben. Wir bemerken, (x0 , y0 ) ∈ T mit −2x0 + 3y02 = 0
impliziert, dass
27 6
3
3 27 3
y − 2y0 = 0 ⇒ 2y0
y −1 =0
8 0
16 0
√
Das ist nur bei y0 = 0 oder y0 = 2 2/3 möglich. Also existieren
für jede (x0 , y0 ) ∈ T ,
√
mit der Ausnahmen (x0 , y0 ) = (0, 0) und (x0 , y0 ) = (4/3, 2 2/3), offene Umgebungen
V ⊂ R von x0 und W ⊂ R von y0 und eine C 1 -Funktion φ : V → W , so dass
T ∩ (V × W ) = {(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V }
und
φ0 (x0 ) = −
3x2 − 2y0
(∂f /∂x)(x0 , y0 )
.
= − 20
(∂f /∂y)(x0 , y0 )
3y0 − 2x0
Analog finden wir,√dass für alle (x0 , y0 ) ∈ T mit den Ausnahmen von (x0 , y0 ) = (0, 0)
und (x0 , y0 ) = (2 2/3, 4/3) offene Umgebungen V von y0 und W von x0 und eine
C 1 -Funktion ψ : V → W existieren, so dass
T ∩ (W × V ) = {(x, y) ∈ W × V : f (x, y) = 0} = {(ψ(y), y) : y ∈ V }
und
ψ 0 (y0 ) = −
3.5
3x20 − 2x0
.
3y02 − 2y0
Mannigfaltigkeiten in Rn
Wir untersuchen in diesem Abschnitt besondere Teilmengen von Rn , genannt Mannigfaltigkeiten oder Untermannigfaltigkeiten des Rn , die lokal wie Rk aussehen, für ein
k ≤ n.
Bevor wir zur genaueren Definition von Mannigfaltigkeit kommen, betrachten wir
einige Beispiele von Teilmengen von Rn , die lokal wie Rk für k = 1 oder k = 2 aussehen. Im Fall k = 1 spricht man von Kurven. Das Begriff von Kurven kann verschiedene
Bedeutungen haben. Eine parametrisierte Kurve ist eine Abbildung φ : I → Rn , für
ein Intervall I ⊂ R. Eine parametrisierte Kurve kann zum Beispiel die Bewegung eines Teilchens im Raum beschreiben, als Funktion der Zeit t ∈ I. Eine parametrisierte
Kurve ist also nicht nur durch die Bahn des Teilchens charakteriziert, sondern auch von
dem Zeitplan (die parametriesierte Kurve bestimmt die Position des Teilchens zu jeder
Zeit, nicht nur seine Trajektorie). Sind wir nur an der Bahn interessiert, und nicht am
Zeitplan, so können wir die folgende Äquivalenzrelation im Raum der parametrisierten
Kurven definieren. Wir sagen zwei parametrisierte Kurve ϕ1 : I1 → Rn , ϕ2 : I2 → Rn ,
für zwei Intervalle I1 , I2 ⊂ R sind äquivalent, falls eine monoton wachsende stetige und
surjektive Funktion ψ : I1 → I2 existiert, so dass φ1 = φ2 ◦ ψ. In diesem Fall heisst ψ eine Parametertransformation. Man kann sich leicht davon überzeugen, dass das wirklich
eine Äquivalenzrelation definiert. Man kann dann eine Kurve als eine Äquivalenzklasse
von parametrisierten Kurven definieren. Mit anderen Worten, eine Kurve wird somit als
die Bildmenge einer parametrisierten Kurve definiert.
66
Man könnte auch Kurven als Graph von Funktionen definieren. Das ist aber zu
restriktiv; z.B. der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} kann nicht als Graph
{(x, y) ∈ R2 : y = f (x)} einer Funktion von x geschrieben werden. Es ist auch unmöglich,
S 1 als Graph {(x, y) ∈ R2 : x = f (y)} einer Funktion von y zu schreiben. Immerhin,
der Kreis S 1 ist die Vereinigung der Graphen von zwei Funktionen, nämlich f1 (x) =
(1 − x2 )1/2 und f2 (x) = −(1 − x2 )1/2 . Wenn wir nur Funktionen auf offene Teilmengen
von R betrachten möchten, so können √
wir S 1 als die Vereinigung der Graphen
p von vier
2
Funktionen schreiben, nämlich y = ± 1 − x auf x ∈ (−1; 1) und x = ± 1 − y 2 auf
y ∈ (−1; 1). Zwei dieser Abbildungen definieren y als Funktion von x, die anderen zwei
geben x als Funktion von y. Ausgehend aus diesem Beispiel kann man also berlegen,
Kurven als Vereinigungen von Graphen zu definieren. Gemäss dieser Definition kann man
sich auch vorstellen, eine Kurve differenzierbar zu nennen, wenn sie als Vereinigung von
Graphen von differenzierbaren Funktionen geschrieben werden kann (wir werden von C 1 Kurven sprechen, unter der Annahme, dass die Funktionen stetig differenzierbar sind).
Man muss hier ein bisschen aufpassen. Es gibt einen Unterschied zwischen der gegebenen
Definition von differenzierbarer Kurve und differenzierbarer parametrisierte Kurve. Z.B.
die parametrisierte Kurve φ(t) = (t3 , t2 ) ∈ R2 ist differenzierbar. Die Bildmenge T =
{φ(t) : t ∈ R} kann aber neben (0, 0) nicht als Graph einer differenzierbaren Funktion
geschrieben werden. Deswegen ist T keine differenzierbare Kurve im obigen Sinne. Wir
werden sehen, die Bildmenge der parametrisierten Kurve φ(t) ist keine differenzierbare
Kurve, weil φ0 (0) = 0.
Analog kann man Teilmengen von Rn , die lokal wie R2 aussehen, betrachten. In
diesem Fall spricht man von Flächen. Auch hier muss man zwischen parametrisierten
Flächen und Fläche als Bildmenge von parametrisierten Flächen unterscheiden. Wie
für Kurven, kann man Flächen als Vereinigung von Graphen beschreiben. Die Sphäre
S 2 = {(x, y, z) : x2 +y 2 +z 2 = 1} ⊂ R3 ist nicht der Graph einer einzelne Funktion, kann
aber als Vereinigung der folgenden sechsp
Graphen betrachtet werden, die auf offenen
2 definiert sind: z = ± 1 − x2 − y 2 , definiert auf k(x, y)k < 1, y =
Teilmengen
von
R
p
√
± 1 − x2 − z 2 auf k(x, z)k < 1 und x = ± 1 − y 2 − z 2 definiert auf k(y, z)k < 1. Weil
die Funktionen, aus dessen Graphen S 2 besteht, stetig differenzierbar sind, sagt man S 2
ist eine differenzierbare Fläche, oder eine C 1 -Fläche. Wir erweitern diese Definitionen,
um differenzierbare Mannigfaltigkeiten M ⊂ Rn der Dimensin k einzuführen.
Definition 3.21. Seien n, k ∈ N, mit k < n. Ein C 1 -Mannigfaltigkeitstück der Dimension k in Rn ist eine Teilmenge von Rn die, nach allfälliger Unnumerierung der
Koordinaten, die Form
{(x1 , . . . , xn ) ∈ Rn : (xk+1 , . . . , xn ) = φ(x1 , . . . , xk ) und (x1 , . . . , xk ) ∈ G}
hat, wobei G ⊂ Rk offen und zusammenhängend ist und φ ∈ C 1 (G; Rn−k ). Eine Menge
M ⊂ Rn heisst eine C 1 -Mannigfaltigkeit der Dimension k, falls für jede a ∈ M eine
offene Umgebung U ⊂ Rn von a existiert, so dass U ∩ M ein C 1 -Mannigfaltigkeitstück
der Dimension k ist. Eine C 1 -Mannigfaltigkeit der Dimension k = 1 heisst eine C 1 Kurve. Eine C 1 -Mannigfaltigkeit der Dimension k = 2 heisst eine C 1 -Fläche. Eine
C 1 -Mannigfaltigkeit M der Dimension n − 1 in Rn heisst eine Hyperfläche.
67
Bemerkung: Kurz gesagt, eine C 1 -Mannigfaltigkeit der Dimension k ist eine Teilmenge
von Rn , die lokal aus dem Graph einer stetig differenzierbaren Abbildung φ : Rk ⊃ G →
Rn−k gegeben ist.
Beispiele: Der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} ist eine C 1 -Kurve. Die Sphäre
S n−1 = {(x1 , . . . , xn ) ∈ Rn : k(x1 , . . . , xn )k = 1} ⊂ Rn ist eine C 1 -Mannigfaltigkeit der
Dimension (n−1) (d.h. S n−1 ist eine Hyperfláche). Die Bildmenge {(t3 , t2 ) ∈ R2 : t ∈ R}
der parametrisierten Kurve φ(t) = (t3 , t2 ) ist keine C 1 -Mannigfaltigkeit, weil sie in der
Nähe von (0, 0) nicht als Graph einer stetig differenzierbare Funktion geschrieben werden kann. Die Bildmenge der parametrisierten Kurve φ(t) = (cos t, sin(2t)) ist keine
C 1 -Kurve, weil sie in der Nähe von φ(π/2) = (0, 0) nicht als Graph einer Funktion geschrieben werden kann (nach Definition dürfen Mannigfaltigkeiten keine “SelbstDurchschnitte” haben).
Statt Teilmengen von Rn durch Vereinigung von Graphen zu definieren, kann man sie
als Lösungsmengen von Gleichungen definieren. Z.B. definiert die Gleichung x2 + y 2 = 1
den Kreis S 1 , also eine Mannigfaltigkeit der Dimension eins. Man kann sich analog
vorstellen, dass die Gleichung f (x1 , . . . , xn ) = 0, für eine Funktion f : Rn ⊃ U → R,
eine Teilmenge von Rn definiert, die lokal wie Rn−1 aussieht. Im nächsten Satz zeigen
wir, dass, falls a ∈ U die Gleichung f (a) = 0 erfüllt, und falls ∇f (a) 6= 0, dann ist die
Menge {x ∈ U : f (x) = 0} in der Nähe von a ein Mannigfaltigkeitstück.
Proposition 3.22. Sei U ⊂ Rn offen, f ∈ C 1 (U ), und a ∈ U mit f (a) = 0 und ∇f (a) 6=
0. Dann es existiert eine offene Umgebung G ⊂ Rn von a so, dass G∩{x ∈ U : f (x) = 0}
ein C 1 -Mannigfaltigkeitstück der Dimension (n − 1) ist. D.h. die Lösungsmenge der
Gleichung f (x) = 0 ist, in der Nähe von a eine Mannigfaltigkeit. Gilt ferner ∇f (x) 6= 0
für alle x ∈ U mit f (x) = 0, dann ist {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der
Dimension n − 1.
Beweis: Die Bedingung ∇f (a) 6= 0 impliziert, dass j ∈ {1, . . . , n} mit ∂f /∂xj (a) 6=
0 existiert. O.B.d.A nehmen wir an ∂f /∂xn (a) 6= 0. Nach dem Satz über implizite
Funktionen, existieren eine Umgebung V ⊂ Rn−1 von (a1 , . . . , an−1 ), eine Umgebung
W ⊂ R von an und eine Funktion φ ∈ C 1 (V ) mit Werten in W , so dass
V × W ∩ {(x1 , . . . ,xn ) ∈ U : f (x1 , . . . , xn−1 , xn ) = 0}
= {(x1 , . . . , xn−1 , φ(x1 , . . . , xn−1 )) ∈ Rn : (x1 , . . . , xn−1 ) ∈ V } .
Die Behauptung folgt, mit G = V × W .
Allgemeiner, sei f : Rn ⊂ U → Rm , für ein m < n. Die Gleichung f (x) = 0 ist dann
ein System von m Gleichungen

f1 (x1 , . . . , xn ) = 0



f2 (x1 , . . . , xn ) = 0
...



fm (x1 , . . . , xn ) = 0
Sind die m Gleichungen in geeignetem Sinne unabhängig, so kann man sich vorstellen,
dass f (x) = 0 eine Mannigfaltigkeit der Dimension k = n − m definiert. Wir müssen
verstehen, in welchen Sinne die Gleichungen unabhängig sein müssen. Dazu definieren
wir den Begriff vom Rang einer linearen Abbildung.
68
Definition 3.23. Sei L ∈ L(Rn ; Rm ). Der Rang der Matrix L ist
Rg L = dim Ran (L) = dim L(Rn ) = n − dim ker(L) .
Mit anderen Worten, der Rang von L ist die maximale Anzahl von linear unabhängige
Spalten in der Matrix L. Aus der linearen Algebra, RgL ist auch die maximale Anzahl
von linear unabhängigen Zeilen in L.
Definition 3.24. Sei U ⊂ Rn offen und f ∈ C 1 (U ; Rm ), mit m ≤ n. Wir sagen, f ist
regulär an der Stelle a ∈ U , falls Df (a) Rang m hat. Ist m = n, so ist f genau dann
an der Stelle a regulär, wenn Df (a) invertierbar ist.
Satz 3.25. Sei U ⊂ Rn offen, f ∈ C 1 (U ; Rm ). Sei a ∈ U mit f (a) = 0 und so, dass
f regulär an der Stelle a ist. Dann existiert eine offene Umgebung G ⊂ U von a in
Rn , so dass G ∩ {x ∈ U : f (x) = 0} ein Mannigfaltigkeitstück in Rn der Dimension
k = n − m ist. Ist f an der Stelle x regulär, für alle x ∈ U mit f (x) = 0, dann ist
{x ∈ U : f (x) = 0} eine Mannigfaltigkeit in Rn der Dimension k = n − m.
Beweis: Nach Unnumerierung der Koordinaten können wir annehmen, dass die m Spalten
∂f
∂f
∂f
(a),
(a), . . . ,
(a)
(57)
∂xk+1
∂xk+2
∂xn
linear unabhängig sind (wir haben hier k = n − m gesetzt). Wir schreiben Df (a) =
(D1 f (a), D2 f (a)), wobei D1 f (a) die m × k Matrix ist, die aus allen partiellen Ableitungen nach x1 , . . . , xk besteht und D2 f (a) die m × m Matrix ist, die aus allen partielle
Ableitungen nach xk+1 , . . . , xn besteht. Die Matrix D2 f (a) ist nach (57) invertierbar. Der
Satz über implizite Funktionen impliziert, dass eine offene Umgebung V von (a1 , . . . , ak )
in Rk , eine offene Umgebung W von (ak+1 , . . . , an ) in Rm und eine stetig differenzierbare
Funktion φ : V → W existieren, so dass
V × W ∩ {x ∈ U : f (x) = 0} = {(x1 , . . . , xk , φ(x1 , . . . , xk )) : (x1 , . . . , xk ) ∈ V }
Die Behauptung folgt, mit G = V × W .
Bemerkung: Der Satz zeigt, dass die richtige Verallgemeinerung der Bedingung ∇f (a) 6=
0 in Proposition 3.22 aus der Bedingung RgDf (a) = m gegeben ist.
Statt C 1 -Mannigfaltigkeiten durch Graphen von stetig differenzierbaren Funktionen
zu definieren, kann man auch lokale reguläre Parametrisierungen (genannt Karten) benutzen. Wir geben hier die alternative Definition, obwohl wir im Folgenden weiter mit
der ursprünglichen Definition arbeiten.
Alternative Definition von Mannigfaltigkeiten: Seien n, k ∈ N,mit 1 ≤ k < n. Eine kdimensionale C 1 -Mannigfaltigkeit in Rn (oder eine C 1 -Untermannigfaltigkeit des Rn ) ist
eine nicht-leere Menge M ⊂ Rn , so dass für alle a ∈ M eine offene Umgebung U ⊂ Rn
von a, eine offene Menge G ⊂ Rk und eine reguläre Abbildung ϕ ∈ C 1 (G; Rn ) so, dass
ϕ(G) = M ∩ U und ϕ : G → M ∩ U ein Homöomorphismus ist. Das Paar (G, ϕ) heisst
eine Karte von M in der Nähe vom Punkt a. Übung: Zeigen Sie, dass diese Definition
mit der ursprünglichen Definition übereinstimmt.
69
Bemerkung: Die alternative Definition von Mannigfaltigkeiten durch Karten lässt sich
auch zum Fall k = n erweitern. Dann gilt: Eine Teilmenge M ⊂ Rn ist genau dann eine
Mannigfaltigkeit der Dimension n, wenn M offen ist.
Bemerkung: Statt von C 1 -Mannigfaltigkeit in Rn spricht man in der Literatur oft von
C 1 -Untermannigfaltigkeit des Rn . Man benutzt das Wort Untermannigfaltigkeit, weil die
Mengen, die wir betrachten, immer Teilmengen von Rn sind. Das Wort Mannigfaltigkeit
der Dimension k wird dann für allgemeinere Mengen benutzt, die lokal das Bild einer
regulären Funktion auf einer offenen Teilmenge von Rk sind. Ein wichtiges Resultat der
Differentialgeometrie besagt dann, dass jede C 1 -Mannigfaltigkeit der Dimension n in R2n
eingebettet werden kann (Einbettungsatz von Whitney). Bemerke, dass die Dimension
(mindestens) 2n sein muss; die Klein’sche Flasche ist ein berühmtes Beispiel einer zwei
dimensionale C 1 -Mannigfaltigkeit, die nicht in R3 eingebettet werden kann. In dieser
Vorlesung werden wir immer C 1 -Untermannigfaltigkeiten des Rn betrachten; wir werden
aber das Wort C 1 -Mannigfaltigkeiten in Rn benutzen.
Sei nun M ⊂ Rn eine Mannigfaltigkeit der Dimension k < n und a ∈ M ein Punkt
auf der Mannigfaltigkeit. Wir möchten den Begriff von Tangentialraum zu M an a ∈ M
einführen. Dazu betrachten wir parametrisierte Kurven auf M , die durch a gehen. Sei
I ein offenes Intervall in R. Eine differenzierbare parametrisierte Kurve auf M ist eine
differenzierbare Abbildung ϕ : I → Rn , mit ϕ(t) ∈ M für alle t ∈ I. Es gelte ϕ(t0 ) = a.
Der Vektor
ϕ0 (t0 ) = (ϕ01 (t0 ), . . . , ϕ0n (t0 ))
heisst der Tangentialvektor zu der Kurve ϕ im Punkt ϕ(t0 ) = a.
Definition 3.26. Der Tangentialraum Ta (M ) zu M an der Stelle a ∈ M besteht aus
allen Tangentialvektoren zu differenzierbaren Kurven auf M , die durch a gehen. Mit
anderen Worten, ξ ∈ Rn ist genau dann Element von Ta (M ), wenn ein Intervall I ⊂ R,
ein t0 ∈ I und eine Kurve ϕ ∈ C 1 (I; Rn ) mit ϕ(t) ∈ M für alle t ∈ I, ϕ(t0 ) = a und
ϕ0 (t0 ) = ξ existieren.
Proposition 3.27. Sei M eine Mannigfaltigkeit in Rn der Dimension k < n und a ∈ M .
Ta (M ) ist ein linearer Unterraum von Rn , mit dim Ta (M ) = k.
Beweis: Die Definition von Ta (M ) hängt nur von M in der Nähe von a ab. D.h. Ta (M ) =
Ta (M ∩ U ) für jede, beliebig kleine Umgebung U ⊂ Rn von a. Aus diesem Grund können
wir annehmen, dass eine offene Menge V ⊂ Rk und ein ψ ∈ C 1 (V ; Rn ) existieren, so
dass
M = {(x, ψ(x)) : x ∈ V }
Wir führen die Notation x(1) = (x1 , . . . , xk ) und x(2) = (xk+1 , . . . , xn ) ein. Dann a =
(a(1) , a(2) ), wobei a(2) = ψ(a(1) ). Sei nun t → ϕ(t) eine differenzierbare Kurve auf M , mit
ϕ(t0 ) = a. Wir bezeichnen φ1 (t) = (ϕ1 (t), . . . , ϕk (t)) und φ2 (t) = (ϕk+1 (t), . . . , ϕn (t)),
wobei ϕ1 , . . . , ϕn die Komponenten von ϕ sind. Da ϕ(t) ∈ M für alle t, muss gelten
φ2 (t) = ψ(φ1 (t)) für alle t genügend nahe zu t0 . Also ϕ(t) = (φ1 (t), ψ(φ1 (t))) und
ϕ0 (t0 ) = (φ01 (t0 ), Dψ(a(1) )(φ01 (t0 )))
Wir setzen v = φ01 (t0 ) ∈ Rk . Dann ist ϕ0 (t0 ) = (v, Dψ(a(1) )v) ∈ Rn .
70
Anderseits, für gegebene v ∈ Rk , können wir die Kurve ϕ(t) = (a(1) +tv, ψ(a(1) +tv))
definieren. Dann ist ϕ offenbar eine differenzierbare Kurve auf M , mit ϕ(0) = a und
φ0 (0) = (v, Dψ(a(1) )(v)). Wir haben also gezeigt, dass
Ta (M ) = {(v, Dψ(a(1) )v) : v ∈ Rk }
Ta (M ) ist also ein linearer Raum, mit Dimension k (die Vektoren (ei , Dψ(a(1) )(ei )), für
i = 1, . . . , k sind eine Basis von Ta (M ), falls ei , i = 1, . . . , k, die Standard-Basis von Rk
bezeichnet).
Falls die Mannigfaltigkeit M als Lösungsmenge einer Gleichung f (x) = 0 gegeben ist,
so kann man eine andere Charakterisierung von Ta (M ) angeben. Sei zunächst U ⊂ Rn
und f ∈ C 1 (U ) reelwertig. Es gelte ∇f (x) 6= 0 für alle x ∈ U mit f (x) = 0. Dann
ist M = {x ∈ U : f (x) = 0} eine Mannigfaltigkeit der Dimenison n − 1. Wir sind
im Tangentialraum Ta (M ) interessiert, für ein a ∈ M . Wir wissen schon Ta (M ) ist ein
linearen Raum mit dim Ta (M ) = n − 1. Sei ϕ(t) eine parametrisierten Kurve auf M ,
mit ϕ(t0 ) = a. Dann gilt f (ϕ(t)) = 0 für alle t. Wir erhalten:
0=
d
f (ϕ(t))|t=t0 = ∇f (ϕ(t0 )) · ϕ0 (t0 )
dt
und deswegen
Ta (M ) ⊂ {ξ ∈ Rn : ξ · ∇f (a) = 0}
Da der Raum {ξ ∈ Rn : ξ · ∇f (a) = 0} auch Dimension n − 1 hat, gilt
Ta (M ) = {ξ ∈ Rn : ξ · ∇f (a) = 0}
Wir haben bewiesen, dass der Gradient ∇f (a) senkrecht zum Tangentialraum Ta (M )
steht.
Sei nun f ∈ C 1 (U ; Rm ) regulär an der Stelle x, für alle x ∈ U mit f (x) = 0. Dann
ist M = {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der Dimension k = n − m. Seien
f1 , . . . , fm die Komponenten von f . Ähnlich wie oben, gilt
Ta (M ) = {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0}
Da die m Zeilen ∇fj (a), j = 1, . . . , m, von Df (a) linear unabhängig sind (weil f regulär
ist), ist es klar, dass der Raum {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0} die
Dimension k = n − m hat.
Es ist manchmal auch nützlich, neben dem Begriff vom Tangentialraum Ta (M ) auch
den Begriff der Tangelntialebene einzuführen. Die Tangentialebene an der Mannigfaltigkeit M im Punkt a ist die Teilmenge von Rn , die aus allen Tangentialvektoren zu M in
a besteht, die aber vom Punkt a ausgehen. Mit anderen Worten,
Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ ∈ Ta (M )}
Falls M = {x ∈ U : f (x) = 0} für eine Funktion f ∈ C 1 (U ; Rm ) regulär im Punkt a,
dann gilt
Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ · ∇fj (a) = 0 für alle j = 1, . . . , m}
= {ξ ∈ Rn : (ξ − a) · ∇fj (a) = 0 für alle j = 1, . . . , m}
Bemerke, dass im Gegensatz zum Tangentialraum Ta (M ), die Tangentialebene kein linearer Raum ist.
71
3.6
Extrema mit Nebenbedingungen
Wir betrachten eine reelwertige Funktion f , definiert auf einer offenen Teilmenge Ω ⊂
Rn . In diesem Abschnitt möchten wir Extrema von f (x) finden, unter der zusätzlichen
Nebenbedingung x ∈ M , wobei M ⊂ Rn eine Mannigfaltigkeit mit Dimension k < n,
enthalten in Ω, ist.
Wir sagen a ∈ Ω ist ein lokales bedingtes Minimum von f mit der Nebenbedingung
x ∈ M , falls eine offene Umgebung A ⊂ Ω in Rn existiert, so dass f (a) = min{f (x) :
x ∈ A ∩ M }. Analog definiert man den Begriff vom lokalen bedingten Maximum. a ∈ Ω
heisst ein lokales bedingtes Extremum von f , falls a entweder ein lokales bedingtes
Minimum oder ein lokales bedingtes Maximum ist. Nehmen wir an f ∈ C 1 (Ω). Wegen der
Nebenbedinungen können bedingte Extrema a ∈ M existieren, für die ∇f (a) 6= 0. Wir
suchen also andere Kriteria, um Extrema mit Nebenbedingungen zu charakterisieren.
Manchmal kann man dieses Problem einfach lösen, indem man eine Parametrisierung
von M benutzt. Sei z.B. f ∈ C 1 (R2 ) und nehmen wir an, wir suchen
s := sup{f (x1 , x2 ) : x21 + x22 = 1}
Dann können wir einen Parameter t ∈ [0, 2π) einführen und x1 = cos t, x2 = sin t
schreiben. Damit ist das gesuchte Supremum s durch
s = sup g(t)
t∈[0,2π)
, wobei g(t) = f (cos t, sin t), gegeben. Das Problem mit Nebenbedingungen wurde damit
zu einem Problem (in einer Dimension, statt zwei) ohne Nebenbedingungen reduziert.
Extrema sind nun durch g 0 (t) = 0 charakterisiert.
Analog kann man die Nebenbedingung entfernen, falls M explizit als Graph einer
differenzierbaren Funktion geschrieben werden kann. Nehmen wir an, wir suchen
s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0}
Das Maximum wird angenommen, weil die Funktion f (x, y, z) = x2 yz stetig und die
Menge {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z ≥ 0} kompakt ist. Das Maximum hat
offenbar x, y, z > 0. Wir haben
p
{(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z > 0} = {( 1 − y 2 − z 2 , y, z) : (y, z) ∈ G}
mit der offenen Menge G = {(y, z) ∈ R2 : y 2 + z 2 < 1, y, z > 0}. Wir haben also
s = sup{g(y, z) : (y, z) ∈ G},
wobei g(y, z) = f (1 − y 2 − z 2 , y, z) = (1 − y 2 − z 2 )yz. Um s zu finden, berechnen wir also
∇g(y, z) = (z − 3y 2 z − z 3 , y − 3z 2 y − y 3 )
Die Bedingung ∇g(y, z) = 0 gibt, nach kurzer Rechnung,
y = z = 1/2. Das Maximum
√
2,
1/2,
1/2)
angenommen und beträgt
der Funktion
f
wird
also
im
Punkt
(x,
y,
z)
=
(1/
√
f (1/ 2, 1/2, 1/2) = 1/8.
72
Das letzte Beispiel war einfach, weil wir die Mannigfaltigkeit explizit als Graph
schreiben konnten. Das ist natürlich nicht immer möglich. Deswegen ist der folgende
Satz nützlich, um Extrema einer differenzierbaren Funktion f unter der Nebenbedingung
g(x) = 0 zu finden.
Proposition 3.28 (Lagrange-Multiplikatoren, eine Nebenbedingung). Sei U ⊂ Rn offen, g ∈ C 1 (U ) reelwertig, und M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass ∇g(a) 6= 0.
Dann ist M in der Nähe von a eine Mannigfaltigkeit der Dimension n − 1 (eine Hyperfläche). Sei nun f eine reelwertige Funktion, definiert und differenzierbar in der Nähe
von a. Sei a eine bedingte lokale Extremalstelle von f auf M . Dann existiert λ ∈ R mit
∇f (a) = λ∇g(a)
Der Parameter λ heisst ein Lagrange-Multiplikator.
Proof. Nehmen wir an ∇f (a) ist nicht proportional zu ∇g(a). Dann existiert ξ ∈ Rn
mit ξ · ∇g(a) = 0 aber ξ · ∇f (a) 6= 0. Die Bedingung ξ · ∇g(a) = 0 impliziert, dass
ξ ∈ Ta (M ). Also existiert eine parametrisierte Kurve ϕ : I → M , mit ϕ(t0 ) = a und
ϕ0 (t0 ) = ξ für ein t0 ∈ I. Betrachte nun die Funktion h(t) = f (ϕ(t)). Es gilt
h0 (t0 ) = ∇f (ϕ(t0 )) · ϕ0 (t0 ) = ∇f (a) · ξ 6= 0
Das heisst, in jeder Umgebung von t0 nimmt h(t) Werte kleiner und grösser als h(t0 ) =
f (a) an. Das zeigt, dass f auf U ∩ M Werte kleiner und grösser als f (a) annimmt, für
jede offene Umgebung U von a. Deswegen ist a keine bedingte Extremalstelle von f .
Die Proposition gibt uns eine Rezept, um Extrema einer differenzierbaren Funktion
f mit der Nebenbedingung g(x) = 0 zu finden. Die Gleichungen
(
∇f (x) = λ∇g(x)
g(x) = 0
bilden ein System von (n + 1)-Gleichungen für die (n + 1) Unbekannten x1 , . . . , xn , λ.
Lösungen dieses Gleichungsystemes, zusammen mit Punkten x ∈ Rn mit g(x) = 0, wo
f nicht differenzierbar ist, sind dann die einzigen möglichen Kandidaten für bedingte
lokale Extremalstellen.
Beispiel: Betrachten wir noch einmal das Beispiel von oben. Wir suchen
s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0}
Wir setzen f (x, y, z) = x2 yz und g(x, y, z) = x2 + y 2 + z 2 − 1. Bei bedingten Extrema
muss gelten: ∇f (x, y, z) = λ∇g(x, y, z) für ein λ ∈ R. Das ergibt die vier Gleichungen

2xyz
= 2λx


 2
x z
= 2λy
2y
x
= 2λz


 2
2
2
x +y +z =1
73
Da x, y, z > 0 gelten muss, implizieren die zweite und dritte Gleichung, dass y = z.
Die erste Gleichung gibt dann λ = y 2 , und damit liefert die dritte Gleichung x2 =√
2y 2 .
Einsetzen im letzten Gleichung ergibt 4y 2 = 1, und damit y = z = 1/2 und x = 1/ 2.
Bis jetzt haben wir Probleme mit einer Nebenbedingung der Form g(x) = 0 untersucht, für eine reelwertige Funktion g. Im Folgenden untersuchen wir den Fall, dass g
Werte in Rm hat, für ein m < n. In diesem Fall ist die vektorielle Gleichung g(x) = 0
eigentlich ein System mit m Gleichungen. Man spricht dann von m Nebenbedingungen.
Auch in diesem Fall kann man Extrema finden, indem man Lagrange-Multiplikatoren
einführt.
Proposition 3.29 (Lagrange Multiplikatoren, m Nebenbedingungen). Sei U ⊂ Rn
offen, g ∈ C 1 (U ; Rm ) für ein m < n. Sei M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass g
regulär an der Stelle a ist (d.h. Rg (Dg(a)) = m; in diesem Fall ist M in der Nähe von a
ein Mannigfaltigkeitstück der Dimension k = n−m). Sei f eine reelwertige C 1 -Funktion,
definiert in einer Umgebung von a in Rn . Sei a eine lokale bedingte Extremalstelle von
f auf M . Dann ist ∇f (a) eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a). D.h. es
existieren λ1 , . . . , λm ∈ R mit
∇f (a) =
m
X
λj ∇gj (a)
j=1
wobei g1 , . . . , gm : U → R die Komponenten von g sind.
Beweis: Nehmen wir an, dass ∇f (a) nicht eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a)
ist. Dann existiert ξ ∈ Rn , so dass ξ · ∇gi (a) = 0 für alle i = 1, . . . , m und ξ · ∇f (a) 6= 0.
Das impliziert, dass ξ ∈ Ta (M ). Damit existiert eine differenzierbare parametrisierte
Kurve ϕ : I → M , so dass ϕ(t0 ) = a und ϕ0 (t0 ) = ξ. Sei nun h(t) = f (ϕ(t)). Dann ist
h0 (t0 ) = ∇f (a) · ξ 6= 0
Damit ist t0 keine Extremalstelle von f (ϕ(t)). Das zeigt, dass a keine bedingte lokale
Extremalstelle von f sein kann.
Um bedingte Extremalstellen einer Funktion f auf Rn mit m Nebenbedingungen
g(x) = 0 zu finden, muss man also die n + m Gleichungen

m
X


 ∇f (x) =
λj ∇gj (x)
j=1



g(x) = 0
für die (n + m) Unbekannten x1 , . . . , xn , λ1 , . . . , λm lösen. Die einzigen Kandidaten für
Extremalstellen sind Lösungen dieser Gleichungen und Punkte auf M , wo f nicht differenzierbar ist.
Beispiel (aus der statistischen Mechanik): Ein Molekül habe n mögliche Zustände, mit
Energien E1 , . . . , En . In der statistischen Mechanik wird ein System von vielen Molekülen
durch die Wahrscheinlichkeiten p1 , . . . , pn ∈ [0; 1] beschrieben, dass ein Molekül im jten Zustand gefunden wird (die Wahrscheinlichkeit pj gibt die Fraktion zwischen den
74
Molekülen im j-ten Zustand und der gesamten Anzahl von Molekülen). Der Zustand
des Vielteilchensystems wird durch Maximierung der Entropie
H(p1 , . . . , pn ) = −
n
X
pj log pj
j=1
unter den Nebenbedingungen p1 + · · · + pn = 1 und
Ē =
n
X
pj Ej
j=1
bestimmt (wir möchten also die Entropie bei feste mittlerer Energie Ē maximieren).
P
Sei p = (p1 , . . . , pn ). Wir setzen g1 (p) = p1 + · · · + pn − 1 und g2 (p) = nj=1 pj Ej . Es
gilt ∇g1 (p) = (1, 1, . . . , 1) und ∇g2 (p) = (E1 , . . . , En ). Da
∇H(p) = (− log p1 − 1, . . . , − log pn − 1)
finden wir aus der Gleichung ∇H(p) = λ1 ∇g1 (p) + λ2 ∇g2 (p), dass
−1 − log pj = λ1 + λ2 Ej
für alle j = 1, . . . , n. Das ergibt log pj = −1 − λ1 − λ2 Ej und also
pj = e−(λ1 +1) · e−λ2 Ej =: ke−λ2 Ej
Die Bedingung g1 (p) = 0 bestimmt die Konstante k. Wir finden
e−λ2 Ej
pj = Pn
−λ2 Ej
j=1 e
Die Bedingung g2 (p) = 0 ergibt die Gleichung
E=
n
X
j=1
Ej e−λ2 Ej
Pn
−λ2 Ej
j=1 e
Diese Gleichung erlaubt uns im Prinzip, λ2 zu bestimmen. In der statistischen Mechanik
setzte man λ2 = kB /T , wobei kB die sogenannte Boltzmann-Konstante ist, und T die
absolute Temperatur des Systems ist. Die Temperatur wird von der mittleren Energie
bestimmt. Der Zustand vom System zur Temperatur T (d.h. zur mittleren Energie E)
ist der sogenannte Gibbs-Zustand, charakterisiert durch die Wahrscheinlichkeiten
e−kB Ej /T
pj = Pn −k E /T .
B i
i=1 e
Lagrange-Multiplikatoren und die oben erklärten Strategien, um bedingte Extrema
zu finden, sind auch nützlich, um (globale) Extrema von Funktionen auf Teilmengen von
Rn zu suchen, die einen Rand haben. Wir betrachten ein Beispiel, um die Situation zu
erklären.
75
Beispiel: Wir suchen das globale Maximum und das globale Minimum von f (x, y, z) =
x2 + y + z 2 auf D := {(x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ 1 und x2 + y 2 ≤ 1/2}.
Wir zerlegen D in verschiedenen Teile. Wir setzten:
D1 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 < 1 und x2 + y 2 < 1/2},
√
D2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1 und z > 1/ 2}, D3 = −D2
√
√
D4 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z ∈ (−1/ 2; 1/ 2)},
√
D5 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z = 1/ 2}, D6 = −D5 .
Wir suchen separate lokale Extrema in den Mengen D1 , . . . , D5 . Das globale Maximum
von f in D ist das grösste lokale Maximum, das wir in D1 , . . . , D6 finden werden, und
analog für das globale Minimum von f .
1) Extrema auf D1 werden durch die Bedingung ∇f (x) = 0 charakterisiert. Da
∇f (x) = (2x, 1, 2z), existiert kein Punkt x ∈ D1 mit ∇f (x) = 0. Also gibt es
kein lokales Extremum in D1 .
2) Lokale Extrema auf D2 werden durch die Nebenbedingung g(x, y, z) = x2 + y 2 +
z 2 = 1 charakterisiert. Ist x ∈ D2 ein lokales bedingtes Extremum, dann muss
λ ∈ R existieren mit ∇f (x) = λ∇g(x). Mit ∇g(x) = 2(x, y, z) wir finden

2x
= 2λx



1
= 2λy
2z
= 2λz


 2
x + y2 + z2 = 1
Da z 6= 0 in D2 , folgt λ = 1. Das ergibt y = 1/2 und√x2 + z 2 = 3/4. Der Kreis
{(x, 1/2, z) : x2 + z 2 = 3/4} schneidet D2 wenn z > 1/ 2. Auf diesem Kreis ist f
konstant, gegeben aus
f (x, 1/2, z) = 5/4, für alle (x, z) ∈ R2 mit x2 + z 2 = 3/4.
3) Aus Symmetrie, kann die Funktion f auf D3 nur auf dem Kreis {(x, 1/2, z) :
x2 + z 2 = 3/4} extremal sein, wo f = 5/4 ist.
4) Wir betrachten nun die Teilmenge D4 , wo Extrema von f mit der Nebenbedingung
g(x, y, z) = x2 +y 2 −1/2 = 0 gesucht werden sollen. Die Gleichung ∇f (x) = λ∇g(x)
wird zu

2x
= 2λx



1
= 2λy
=0
 2z

 2
x + y 2 = 1/2
√
Wir finden die Lösungen (x, y, z) = (0, ±1/ 2, 0) und (x, y, z) = (±1/2, 1/2, 0).
Es gilt
√
√
f (0, ±1/ 2, 0) = ±1/ 2
f (±1/2, 1/2, 0) = 3/4.
76
5) Auf D5 haben wir√die Nebenbedingungen g1 (x, y, z) = x2 + y 2 − 1/2 = 0 und
g2 (x, y, z) = z − 1/ 2 = 0. Die Gleichung ∇f (x) = λ1 ∇g1 (x) + λ2 ∇g2 (x) gibt

2x
= 2λ1 x




= 2λ1 y
 1
2z
= λ2


 x2 + y 2 = 1/2

√

z
= 1/ 2
√
√
√
Es gibt die Lösungen (±1/2, 1/2, 1/ 2) und (0, ±1/ 2, 1/ 2). Es gilt
√
f (±1/2, 1/2, 1/ 2) = 5/4
√
√
√
f (0, ±1/ 2, 1/ 2) = ±1/ 2 + 1/2.
√
2)
6) Aus Symmetrie
können
Extrema
in
D
nur
an
den
Stellen
(±1/2,
1/2,
−1/
6
√
√
√ und
(0, ±1/ 2, −1/ 2)
gefunden
werden.
Wie
in
D
finden
wir
f
(±1/2,
1/2,
−1/
2) =
5
√
√
√
5/4 und f (0, ±1/ 2, −1/ 2) = ±1/ 2 + 1/2.
Durch Vergleich der Werte von f in den gefundenen Kandidaten für Maxima und
Minima, finden wir
max f (x) = 5/4,
x∈D
und
1
min f (x) = − √
x∈D
2
√
Das Maximum wird auf dem Kreisbogen y√= 1/2, x2 + z 2 = 3/4, mit |z| ≥ 1/ 2
angenommen. Das Minimum wird in (0, −1/ 2, 0) angenommen.
3.7
Integrale, die von einem Parameter abhängen.
Sei f (x, y) eine stetige Funktion von zwei Variablen, definiert auf einer Produktmenge
I × U , wobei I ⊂ R ein Intervall ist und U ⊂ Rn . Für feste y ∈ U können wir dann
f über x integrieren (weil f (x, y) für feste y als Funktion von x stetig und deswegen
auch integrierbar ist). Das Resultat ist eine Funktion auf U . Wir möchten in diesem
Abschnitt einige Eigenschaften von dieser Funktion diskutieren.
Satz 3.30. Seien a, b ∈ R, a < b, U ⊂ Rn und f ∈ C([a; b] × U ). Dann ist die Funktion
ϕ : U → R, definiert durch
Z b
ϕ(y) =
f (x, y) dx
(58)
a
stetig.
Beweis: Sei y ∈ U und yn eine Folge in U , mit yn → y. O.B.d.A. können wir r > 0
finden, mit yn ∈ B r (y) = {z ∈ Rn : kz−yk ≤ r} ⊂ U für alle n ∈ N (sonst betrachten wir
nur yn für n gross genug). Wir setzen dann Fn (x) := f (x, yn ) und F (x) := f (x, y). Aus
Stetigkeit von f gilt offenbar Fn (x) → F (x) punktweise. Wir behaupten nun Fn → F
gleichmässig auf [a; b]. Da [a; b] × B r (y) kompakt ist, ist f auf [a; b] × B r (y) gleichmässig
stetig. Für ε > 0 fest gewählt existiert also δ > 0, so dass |f (x, y) − f (z, w)| < ε für
alle (x, y), (z, w) ∈ [a; b] × B r (y) mit k(x, y) − (z, w)k < δ. Wir finden nun N ∈ N mit
77
kyn − yk < δ für alle n > N . Dann gilt auch k(x, yn ) − (x, y)k < δ für alle n > N .
Deswegen muss
|Fn (x) − F (x)| = |f (x, yn ) − f (x, y)| < ε
für alle n > N und alle x ∈ [a; b]. Das zeigt die gleichmässige Konvergenz von Fn → F .
Aus Analysis 1 (Satz 9.13) folgt, dass
Z b
Z b
F (x)dx
Fn (x)dx =
lim
n→∞ a
a
und also, dass ϕ(yn ) → ϕ(y). Damit ist ϕ stetig.
Ist f nach y differenzierbar, so ist auch ϕ, definiert wie in (58), differenzierbar. Das
ist der Inhalt vom nächsten Satz.
Satz 3.31. Seien a, b ∈ R, a < b, n, m ∈ N, U ⊂ Rn offen und f : [a; b]×U → Rm stetig.
Wir nehmen an, ∂f /∂yj (x, y) existiert und ist stetig auf [a; b] × U für ein j ∈ {1, . . . , n}.
Dann hat auch die Funktion
Z
b
ϕ(y) =
f (x, y) dx
a
eine stetige partielle Ableitung ∂ϕ/∂yj (y) auf U , gegeben aus
Z b
∂ϕ
∂f
(y) =
dx
(x, y) .
∂yj
∂yj
a
Ist ferner f nach y1 , . . . , yn partiell differenzierbar und sind alle partiellen Ableitungen
∂f /∂yj (x, y) stetig auf [a, b] × U , dann ist ϕ ∈ C 1 (U ; Rm ) mit
Z b
dx Dy f (x, y)
Dϕ(y) =
a
wobei Dy f (x, y) die m × n Matrix ist, deren Einträge aus ∂fi /∂yj (x, y) gegeben sind.
Beweis: O.B.d.A. betrachten wir den Fall m = 1 (sonst wiederholen wir das Argument
für die m Komponenten von f = (f1 , . . . , fm )). Sei y ∈ U festgewählt. Wir finden ρ > 0,
so dass y + tej ∈ U für alle t ∈ [−ρ, ρ]. Für beliebige |t| ≤ ρ haben wir
Z b
ϕ(y + tej ) − ϕ(y)
f (x, y + tej ) − f (x, y)
=
dx
(59)
t
t
a
Aus dem Mittelwertsatz existiert für jede t ∈ [−ρ; ρ] und x ∈ [a; b] ein s(t, x) mit
|s(t, x)| ≤ |t|, so dass
f (x, y + tej ) − f (x, y)
∂f
=
(x, y + s(t, x)ej )
t
∂yj
Die Abbildung (x, λ) → (∂f /∂yj )(x, y + λej ) ist stetig und damit auf der kompakten
Menge [a; b] × [−ρ, ρ] gleichmässig stetig. Für ein beliebiges ε > 0 gibt es also ein 0 <
δ < ρ, so dass
∂f
∂f
∂yj (x, y + λej ) − ∂yj (x, y) ≤ ε
78
für alle |λ| ≤ δ und alle x ∈ [a; b]. Damit gilt
∂f
f (x, y + tej ) − f (x, y)
∂f
∂f
≤ε
(x,
y)
=
(x,
y
+
s(t,
x)e
)
−
(x,
y)
−
j
∂yj
t
∂yj
∂yj
für alle |t| ≤ δ und x ∈ [a; b] (weil dann |s(t, x)| ≤ |t| ≤ δ) ist. Damit gilt
f (x, y + tej ) − f (x, y)
∂f
(x, y)
→
t
∂yj
für t → 0, gleichmässig in x. Aus Analysis 1 (Satz 9.13) folgt, dass
Z
lim
t→0 a
b
f (x, y + tej ) − f (x, y)
dx
→
t
Z
b
dx
a
∂f
(x, y) .
∂yj
Aus (59) folgt, dass ϕ nach yj partiell differenzierbar ist, und dass
∂ϕ
(y) =
∂yj
b
Z
dx
a
∂f
(x, y) .
∂yj
Da ∂f /∂yj stetig ist, folgt die Stetigkeit von ∂ϕ/∂yj aus Satz 3.30. Die andere Behauptung folgt aus Proposition 3.5.
Wir untersuchen nun Funktionen f (x, y) auf der Produktmenge [a; b] × [c; d] ⊂ R2 .
Wir definieren das Doppelintegral von f .
Definition 3.32. Seien a < b ∈ R, c < d ∈ R. Sei f : [a; b] × [c; d] → R. Das
Doppelintegral
Z bZ d
f (x, y)dydx
a
c
existiert, wenn folgendes gilt
i) Für jedes x ∈ [a; b] ist die Funktion y → f (x, y) auf [c; d] integrierbar.
ii) Die Funktion F : [a; b] → R definiert durch
Z
d
f (x, y)dy
F (x) =
c
ist integrierbar.
In diesem Fall setzt man
Z bZ d
Z b
Z b Z
f (x, y)dydx =
F (x)dx =
a
c
a
a
Das Doppelintegral
Z
dZ b
f (x, y)dxdy
c
a
wird analog definiert.
79
c
d
f (x, y)dy dx
Ist f ∈ C([a; b] × [c; d]) stetig, so spielt es keine Rolle, ob wir zunächst über x oder
über y integrieren.
Satz 3.33 (Fubini). Seien a, b, c, d ∈ R, mit a < b und c < d. Sei f ∈ C([a; b] × [c; d]).
Dann existieren beide Doppelintegrale
Z bZ
d
Z
dZ b
f (x, y)dydx,
a
f (x, y)dxdy
c
c
a
und sind gleich.
Beweis: Aus der Stetigkeit von f folgt die Existenz von
d
Z
F (x) =
f (x, y)dy
c
für alle x ∈ [a; b]. Aus Satz 3.30 folgt, dass F stetig und deswegen auf [a; b] integrierbar
ist. Das zeigt die Existenz vom Doppelintegral
Z bZ
d
f (x, y)dydx .
a
c
Analog zeigt man die Existenz vom Doppelintegral
Z
dZ b
f (x, y)dxdy .
c
a
Um zu zeigen, dass die zwei Integrale gleich sind, definieren wir A : [a; b] × [c; d] → R
durch
Z y
A(x; y) =
f (x, t)dt
c
Aus Analysis 1 folgt, dass A partiell nach y differenzierbar ist, mit
∂A
(x, y) = f (x, y)
∂y
Wir behaupten nun, dass A stetig ist. Sei (xk ; yk ) eine Folge in R2 mit (xk ; yk ) → (x; y).
Dann gilt
|A(xk ; yk ) − A(x; y)| ≤ |A(xk ; yk ) − A(xk ; y)| + |A(xk ; y) − A(x; y)|
Wir haben
Z
|A(xk ; yk ) − A(xk ; y)| = y
yk
f (xk ; t)dt ≤ C|yk − y| → 0
als k → ∞, weil sup{f (x; y) : x ∈ [a; b], y ∈ [c; d]} < ∞ aus der Stetigkeit von f und aus
der Kompaktheit von [a; b] × [c; d]. Anderseits |A(xk , y) − A(x, y)| → 0, für k → ∞, weil
aus Satz 3.30 die Funktion A(x, y) stetig in x ist, für beliebig y ∈ [c; d]. Wir setzen also
Z
ϕ(y) =
b
Z bZ
A(x, y)dx =
a
f (x, t)dtdx
a
80
y
c
Insbesondere ϕ(d) =
ist, mit
RbRd
a
c
0
f (x, y)dydx. Nach Satz 3.31 finden wir, dass ϕ differenzierbar
b
Z
Z
∂A
(x, y)dx =
∂y
ϕ (y) =
a
b
f (x, y)dx
a
Das gibt
d
Z
Z
0
dZ b
f (x, y)dxdy
ϕ (y)dy =
ϕ(d) = ϕ(c) +
c
c
a
und zeigt die Behauptung.
3.8
Konservative Vektorfelder
Wir führen den Begriff vom Vektorfeld ein.
Definition 3.34. Ein Vektorfeld mit Definitionsbereich U ⊂ Rn ist eine Abbildung
K : U → Rn . Ist U ⊂ Rn offen, so sagen wir die Abbildung K : U → Rn ist ein
C k -Vektorfeld, falls K ∈ C k (U ; Rn ).
Wir haben schon oft Abbildungen betrachtet, die eine Teilmenge von Rn auf Rn
abbilden (zB. Diffeomorphismen). Die Interpretation von Vektorfeldern ist aber anders.
Ein Vektorfeld wird interpretiert als eine Abbildung, die zu jedem Punkt im Raum
einen Vektor in Rn zuordnet. Typische Beispiele von Vektorfeldern sind Kraftfelder.
Eine elektrische Ladung im Punkt x = 0 erzeugt an der Stelle x ∈ R3 die Kraft
K(x) = −c
x
kxk3
für eine Konstante c ∈ R. K(x) ist ein Beispiel eines Vektorfelds. Ein anderes Beispiel von
Vektorfeldern sind Geschwindigkeitsfelder. Die Strömung einer Flüssigkeit kann durch
das Geschwindigkeitsfeld v(x) beschrieben werden, das die momentane Geschwindigkeit
der Flüssigkeit an der Stelle x ∈ Rn spezifiziert. Aus diesen Beispielen ist klar, dass
Vektorfelder eine sehr wichtige Rolle in der Physik spielen (natürlich spielen in der
Physik auch skalare Felder, wie zum Beispiel die Temperatur T (x) als Funktion vom
Ort, eine wichtige Rolle, und manchmal ist es auch nützlich, Matrix-wertige Felder zu
betrachten; hier untersuchen wir aber nur Vektorfelder).
Feldlinien. Sei nun K : U → Rn ein Vektorfeld. Eine parametrisierte Kurve γ :
I → Rn (wobei I ⊂ R ein Intervall ist) heisst eine Feldlinie vom Vektorfeld K, falls der
Tangentialvektor γ 0 (t) für alle t ∈ I proportional zum Vektor K(γ(t)) ist. Man bemerke,
der Begriff von Feldlinie ist von der Parametrisierung der Kurve γ unabhängig. In der
Tat, falls ψ : Ie → I eine monotone differenzierbare Funktion ist, so gilt
d
γ(ψ(t)) = γ 0 (ψ(t))ψ 0 (t)
dt
und deswegen ist (γ ◦ ψ)0 (t) immer proportional zu γ 0 (ψ(t)). Eine natürliche Parametrisierung einer Feldlinie ist also durch die Gleichung
γ 0 (t) = K(γ(t))
81
bestimmt. Diese Differentialgleichung für γ(t) gibt uns die Möglichkeit, Feldlinien eines
Kraftfelds zu finden. Ist K ein C 1 -Vektorfeld auf U und ist x0 ∈ U , dann folgt aus
der Theorie der gewöhnlichen Differentialgleichungen, siehe z.B. Satz 2.6, dass man
immer mindestens ein Stück Feldlinie von K durch x0 finden kann, und dass diese lokale
Feldlinie eindeutig bestimmt ist.
Zentralfelder. Ein Vektorfeld K : U → Rn heisst ein Zentralfeld, falls K die Form
K(x) = f (kxk)x hat, für eine Funktion f (kxk) die nur von der Länge kxk von x abhängt.
Das elektrische Feld K(x) = −constx/kxk3 , erzeugt auf R3 \{0} aus einer Ladung im
Ursprung, ist ein Beispiel eines Zentralfelds.
Gradientenfelder. Ein Vektorfeld K : U → Rn definiert auf U ⊂ Rn heisst ein
Gradientenfeld, falls eine reel-wertige Funktion ϕ ∈ C 1 (U ) existiert, mit K(x) = ∇ϕ(x).
Die Länge einer parametrisierten Kurve. Sei I = [a; b] ⊂ R und γ ∈ C 1 (I; Rn ) eine
differenzierbare parametrisierte Kurve in Rn . Wir möchten die Länge von γ definieren.
Ist γ eine Gerade, so ist die Länge von γ durch kγ(b) − γ(a)k gegeben. Falls γ keine
Gerade ist, so können wir versuchen, die Länge zu definieren, indem wir γ in viele kleine
Teile zerlegen. Für n ∈ N finden wir a = t0 < t1 < t2 < · · · < tn = b. Eine erste
Näherung für die Länge von γ ist aus
n
X
n
X
kγ(tj ) − γ(tj−1 )k '
(tj − tj−1 )kγ 0 (tj−1 )k
j=1
j=1
gegeben. Wir können nun die Länge von γ berechenen, indem wir den Limes dieses
Ausdrucks für n → ∞ betrachten (angenommen, die Folge der Teilungen ist so, dass
supj |tj −tj−1 | → 0). Wir definieren also die Länge der parametrisierten differenzierbaren
Kurve γ durch
Z b
L(γ) =
dt kγ 0 (t)k
(60)
a
Aus der Annahme γ ∈
folgt, dass kγ 0 (t)k stetig von t abhängt. Deswegen
ist die rechte Seite von (60) wohldefiniert und endlich.
Man bemerke auch, dass die Definition (60) unabhängig von der Parametrisierung
der Kurve ist. Sei nämlich ψ : [c; d] → [a; b] eine monoton steigende injektive und
differenzierbare Funktion. Wir definieren die parametrisierte Kurve γ
e : [c; d] → Rn
durch γ
e(t) = γ(ψ(t)). Dann gilt
C 1 ([a; b]; Rn )
γ
e0 (t) = γ 0 (ψ(t))ψ 0 (t)
Deswegen
Z
d
Z
0
dt ke
γ (t)k =
L(e
γ) =
c
d
dt ψ 0 (t)kγ 0 (ψ(t))k
c
wobei wir benutzt haben, dass ψ 0 (t) ≥ 0 (aus der Monotonie). Mit der Variablentransformation s = ψ(t) finden wir L(e
γ ) = L(γ). D.h., wie behauptet, die Länge ist von der
Parametrisierung unabhängig.
Allgemeiner kann man die Länge einer stückweise stetig differenzierbaren parametrisierten Kurve definieren.
82
Definition 3.35. Eine parametrisierte Kurve γ : [a; b] → Rn heisst stückweise stetig
differenzierbar, falls sie stetig auf [a; b] ist, und falls eine endliche Teilung a = t0 < t1 <
· · · < tn−1 < tn = b mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n
existiert (erinnere, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) genau dann, wenn γ ∈ C 1 ((tj−1 ; tj ); Rn )
und γ und γ 0 können auf dem abgeschlossenen Intervall [tj−1 ; tj ] stetig fortgesetzt werden).
Für eine stückweise stetig differenzierbare Kurve γ : [a; b] → Rn , können wir dann
die Länge durch
n Z tj
X
L(γ) =
dt kγ 0 (t)k
(61)
tj−1
j=1
definieren, wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wird, dass γ ∈
C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n.
Linienintegrale. Sei nun γ : [a; b] → Rn eine parametrisierte Kurve und K : U → Rn
ein Vektorfeld, mit γ(I) ⊂ U . Wir interpretieren γ als die Bahn eines Teilchen und K(x)
als die auf dem Teilchen im Punkt x wirkende Kraft. Ein wichtiger Begriff in der Physik
ist die Arbeit, die das Teilchen leisten muss, um sich durch das Kraftfeld zu bewegen
(oder die Arbeit, die das Kraftfeld auf dem Teilchen leistet). Ist γ eine Gerade und
K(x) = K konstant auf der Geraden, so ist die Arbeit aus K · (γ(b) − γ(a)) gegeben.
Allgemeiner können wir die Arbeit berechnen, indem wir das Intervall [a; b] in kleine
Teilintervalle zerlegen. Seien a = t0 < t1 < · · · < tn = b. Dann können wir die Arbeit
durch
n
X
K(γ(tj−1 )) · (γ(tj ) − γ(tj−1) ) '
j=1
n
X
K(γ(tj−1 ))γ 0 (tj−1 )(tj − tj−1 )
j=1
approximieren. Nehmen wir das Limes n → ∞ (mit supj (tj − tj−1 ) → 0), so konvergiert
die linke Seite (angenommen z.B. das Vektorfeld K ist stetig) zum Integral
Z
b
K(γ(t)) · γ 0 (t) dt
a
Das motiviert die folgende Definition.
Definition 3.36. Sei U ⊂ Rn offen, K : U → Rn ein stetiges Vektorfeld. Sei γ :
[a; b] → U eine stückweise stetig differenzierbare Kurve in U . Wir definieren dann das
Linienintegral (oder Wegintegral) von K entlang γ durch
Z
K · dx :=
γ
n Z
X
j=1
tj
K(γ(t)) · γ 0 (t) dt
tj−1
wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wurde, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn )
für alle j = 1, . . . , n.
In der folgenden Proposition sammeln wir einige wichtige Eigenschaften von Linienintegralen.
83
Proposition 3.37. Sei U ⊂ Rn offen, K ein stetiges Vektorfeld in U , γ : [a; b] → U
eine stückweise stetig differenzierbare Kurve in U .
i) Sei M = sup{kK(x)k : x ∈ γ([a; b])} (bemerke, dass M < ∞ wegen Stetigkeit von
K und Kompaktheit von γ([a; b]). Dann gilt
Z
K · dx ≤ M L(γ)
γ
wobei L(γ) die Länge von γ ist, wie in (61) definiert.
ii) Sei ψ : [c; d] → [a0 b] monoton steigend, mit ψ(c) = a und ψ(d) = b, und stückweise stetig differenzierbar (ψ is eine Parametertransformation). Wir definieren
γ
e : [c; d] → U durch γ
e(t) = γ(ψ(t)). Dann gilt
Z
Z
K · dx = K · dx
γ
e
γ
D.h. der Wert des Linienintegrales ist von der Parametrisierung der Kurve unabhängig.
Beweis: i) Sei a = t0 < t1 < · · · < tn = b eine Teilung, so dass γ ∈ C 1 ([tj−1 , tj ]; U ) für
alle j = 1, . . . , n. Dann gilt
Z
Z
tj
tj 0
K(γ(t)) · γ 0 (t) dt
K(γ(t))
·
γ
(t)dt
≤
tj−1
tj−1
Z tj
Z tj
0
kγ 0 (t)k dt
kK(γ(t))kkγ (t)k dt ≤ M
≤
tj−1
tj−1
Also
n Z tj
Z
n Z tj
X
X
0
K · dx = K(γ(t)) · γ (t)dtdt ≤ M
kγ 0 (t)k dt = M L(γ)
γ
t
t
j=1 j−1
j=1 j−1
ii) Sei c = t0 < t1 < · · · < tn = d eine Teilung von [c; d] mit der Eigenschaft, dass
ψ ∈ C 1 ([tj−1 ; tj ]) und γ ∈ C 1 ([ψ(tj−1 ); ψ(tj )]; U ) für alle j = 1, . . . , n. Dann gilt
Z tj
Z tj
0
K(e
γ (t)) · γ
e (t)dt =
K(γ(ψ(t))) · γ 0 (ψ(t))ψ 0 (t)dt
tj−1
tj−1
Z
ψ(tj )
=
K(γ(s)) · γ 0 (s)ds
ψ(tj−1 )
mit der Variablentransformation s = ψ(t). Also, da ψ monoton wachsend ist, finden wir
Z
n Z tj
X
K · dx =
K(e
γ (t))e
γ 0 (t)dt
γ
e
=
j=1 tj−1
n Z ψ(tj )
X
j=1
K(γ(s)) · γ 0 (s)ds =
ψ(tj−1 )
Z
K · dx
γ
84
Operationen mit Kurven. Für eine stückweise stetig differenzierbare Kurve γ : [a; b] →
Rn , kann man die stückweise stetig differenzierbare Kurve −γ : [a; b] → Rn durch
−γ(t) = γ(b + a − t) definieren. Es ist einfach zu sehen, dass −γ die selbe Kurve wie γ
beschreibt, aber in umgekehrte Richtung parametriseirt.
Sind γ1 : [a; b] → Rn und γ2 : [c; d] → Rn zwei stückweise stetig differenzierbare
Kurven, so dass γ1 (b) = γ2 (c), so kann man die Kurve γ3 = γ1 + γ2 : [a; b + d − c] durch
γ1 (t)
falls t ∈ [a; b]
γ3 (t) =
γ2 (t + c − b)
falls t ∈ [b; b + d − c]
definieren. Anschaulich, γ3 ist die “Vereinigung” der zwei Kurven γ1 und γ2 . Es ist
einfach zu sehen, dass L(−γ) = L(γ), und L(γ1 +γ2 ) = L(γ1 )+L(γ2 ). Für Linienintegrale
finden wir
Z
Z
(62)
K · dx = − K · dx
−γ
und
γ
Z
Z
Z
K · dx .
K · dx +
K · dx =
(63)
γ2
γ1
γ1 +γ2
Um Gleichung 62 zu zeigen, sei γ : [a; b] → Rn und a = t0 < t1 < · · · < tn = b eine
Teilung mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Wir setzen
e
tj = a + b − tn−j . Dann ist a = e
t0 < e
t1 < · · · < e
tn = b eine Teilung mit der Eigenschaft,
1
e
e
dass −γ ∈ C ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Erinnere hier, dass −γ(t) = γ(a + b − t).
Wir finden
Z
n Z e
tj
X
K · dx =
K(−γ(t)) · (−γ)0 (t)dt
−γ
j=1
=−
=
e
tj−1
n Z
X
a+b−tn−j
K(γ(a + b − t)) · γ 0 (a + b − t)dt
j=1 a+b−tn−j+1
n
X Z tn−j
K(γ(s)) · γ 0 (s)ds
j=1
=−
tn−j+1
n Z
X
j=1
tn−j+1
0
Z
K · dx
K(γ(s)) · γ (s)ds = −
tn−j
γ
Die Gleichung (63) kann ähnlich bewiesen werden.
Konservative Vektorfelder. Falls das Vektorfeld K ein Gradientenfeld ist, dann ist
die Berechnung seiner Linienintegralen besonders einfach.
Satz 3.38. Sei U ⊂ Rn offen, ϕ ∈ C 1 (U ) und K = ∇ϕ (dann ist K ein stetiges
Vektorfeld auf U ). Sei γ ∈ C 1 ([a; b]; U ) eine stetig differenzierbare Kurve auf U . Dann
gilt
Z
K · dx = ϕ(γ(a)) − ϕ(γ(b))
γ
γ(a) heisst der Anfangspunkt der Kurve γ und γ(b) der Endpunkt.
85
Beweis: Wir bemerken, dass
d
ϕ(γ(t)) = ∇ϕ(γ(t)) · γ 0 (t)
dt
Deswegen finden wir
b
Z
Z
K · dx =
∇ϕ(γ(t)) · γ 0 (t)dt
a
γ
b
Z
=
a
d
ϕ(γ(t))dt = ϕ(γ(a)) − ϕ(γ(b))
dt
Bemerkung: Die Aussage von Satz 3.38 gilt auch, falls die Kurve γ stückweise stetig
differenzierbar ist. In diesem Fall finden wir eine Teilung a = t0 < t1 < . . . tn = b mit
der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Dann gilt, ähnlich wie
im Beweis des Satzes,
Z tj
∇ϕ(γ(t)) · γ 0 (t)dt = ϕ(γ(tj )) − ϕ(γ(tj−1 ))
tj−1
für alle j = 1, . . . , n. Damit
Z
K · dx =
γ
n
X
(ϕ(γ(tj )) − ϕ(γ(tj−1 ))) = ϕ(γ(b)) − ϕ(γ(a))
j=1
Bemerkung: Es folgt aus dem Satz, dass Linienintegrale von Gradientenfeldern entlang
einer Kurve γ nur vom Anfangspunkt und Endpunkt von γ abhängen, nicht von dem
Weg dazwischen.
Bemerkung: Eine parametrisierte Kurve γ : [a; b] → Rn heisst geschlossen, wenn γ(a) =
γ(b), d.h. falls Anfangspunkt und Endpunkt der Kurve übereinstimmen. Es folgt aus
Satz 3.38, dass das Linienintegral von einem Gradientenfeld entlang einer geschlossenen
Kurve verschwindet.
Definition 3.39. Sei U ⊂ Rn . Ein Vektorfeld K : U → Rn heisst konservativ (oder
manchmal exakt), falls das Linienintegral
Z
K · dx
γ
nur vom Anfangs- und Endpunkt von γ abhängt, für jede Kurve γ in U . Mit anderen
Worten, K ist konservativ, falls für alle zwei stückweise stetig differenzierbaren Kurven
γ1 , γ2 mit übereinstimmenden Anfangs- und Endpunkten, gilt
Z
Z
K · dx =
K · dx
γ1
γ2
86
Es folgt aus Satz 3.38, dass Gradientenfelder konservativ sind. In der Physik spielen
konservative Kraftfelder eine besonders wichtige Rolle. Ist K konservativ, dann ist die
Arbeit, die ein Teilchen leistet, wenn es sich auf einer Bahn γ bewegt, nur vom Anfangsund Endpunkt der Bahn abhängig. Das impliziert, wie wir bald sehen werden, dass man
für konservative Kraftfelder ein Potential einführen kann, so dass die geleistete Arbeit
einfach die Differenz vom Potential im End- und im Anfangspunkt ist. D.h. man kann
ein Potential einführen, so dass Energieerhaltung gilt.
Proposition 3.40. Sei U ⊂ Rn offen und K : U → Rn ein stetiges Vektorfeld. Dann
ist K genau dann konservativ, wenn
Z
K · dx = 0
γ
für alle geschlossenen stückweise stetig differenzierbaren Kurve γ in U .
Beweis: Sei zunächst K konservativ und γ : [a; b] → U eine geschlossene stückweise
stetig differenzierbare Kurve mit γ(a) = γ(b) =: x0 . Es bezeichne γ
e : [a; b] → Rn die
konstante Kurve γ(t) = x0 für alle t ∈ [a; b]. Weil γ und γ
e die selben Anfangs- und
Endpunkte haben, finden wir (siehe Prop. 3.37)
Z
Z
K · dx = K · dx = 0 .
γ
γ
e
Nehmen wir nun an, dass
Z
K · dx = 0
γ
für alle geschlossenen stückweise stetig differenzierbaren Kurven γ auf U . Seien γ1 und
γ2 zwei beliebige stückweise stetig differenzierbare Kurven auf U , mit übereinstimmenden Anfangs- und Endpunkten. Wie oben bezeichnen wir mit −γ2 die Kurve γ2 , mit
umgekehrter Richtung. Der Anfangspunkt von −γ2 ist dann der Endpunkt von γ1 und
analog der Anfangspunkt von γ1 ist der Endpunkt von −γ2 . Wir definieren auch die
Kurve γ = γ1 + (−γ2 ), die parametrisierte Kurve gegeben aus der “Vereinigung” von
γ1 und −γ2 . Genauer gesagt, falls γ1 : [a; b] → U und −γ2 : [c; d] → U , so definieren
wir γ : [a; b + d − c] → U durch γ(t) = γ1 (t) falls t ∈ [a; b] und γ(t) = −γ2 (t − b + c)
falls t ∈ [b; b + d − c]. Die Kurve γ ist dann offenbar eine geschlossene stückweise stetig
differenzierbare Kurve, und deswegen
Z
Z
Z
Z
Z
0 = K · dx =
K · dx +
K · dx =
K · dx −
K · dx
γ
−γ2
γ1
γ1
γ2
Das zeigt, dass
Z
Z
K · dx =
γ1
K · dx .
γ2
Also ist K konservativ.
Wir haben schon bemerkt, dass jedes Gradientfeld konservativ ist. Wir zeigen nun
die Umkehrung dieser Aussage: Jedes konservative Vektorfeld ist ein Gradientenfeld.
Dazu werden wir das folgende Hilfslemma anwenden.
87
Lemma 3.41. Jede offene Teilmenge U ⊂ Rn lässt sich als Vereinigung einer disjukten
Familie offener zusammenhängender Mengen darstellen (die Vereinigung braucht nicht
endlich zu sein).
Bemerkung. Diese Zerlegung ist eigentlich eindeutig; die offenen zusammenhängenden Teilmengen werden als Zusammenhangskomponenten bezeichnet.
Beweis: Wir definieren eine Relation zwischen Punkten in U . Für x, y ∈ U schreiben
wir x ∼ y genau dann, wenn x und y sich durch einen Streckenzug in U verbinden
lassen. Offenbar definiert ∼ eine Äquivalenzrelation. Die Äquivalenzklassen sind offen.
Sei nämlich x ∈ U beliebig. Wir zeigen die Äquivalenzklasse [x] ist offen. Dazu finden
wir r > 0, so dass die offene Kugel Br (x) von Radius r um x in U enthalten ist. Dann ist
x ∼ y, für alle y ∈ Br (x). Damit ist Br (x) ⊂ [x], und [x] ist offen. Die Äquivalenzklassen
sind offenbar zusammenhängend und paarweise disjukt.
Wir können nun zeigen, dass jedes konservative Feld ein Gradientenfeld ist.
Satz 3.42. Sei U ⊂ Rn offen, K ein konservatives stetiges Vektorfeld auf U . Dann
existiert ϕ : U → R stetig differenzierbar, mit K = ∇ϕ.
Beweis: Wir betrachten zunächst den Fall, dass U zusammenhängend ist. Wir wählen
x0 ∈ U fest. Für ein beliebiges x ∈ U finden wir eine stückweise stetig differenzierbare
Kurve γx in U mit Anfangspunkt x0 und Endpunkt x. Wir setzen
Z
ϕ(x) =
K · dx
γx
Da K konservativ ist, ist die Definition unabhängig von der Wahl der Kurve γx , natürlich
unter der Annahme, dass der Endpunkt von γx gerade x ist. Wir bemerken, dass
ϕ(x0 ) = 0. Wir behaupten, dass ∇ϕ(x) = K(x). Das würde den Satz für den Fall
U zusammenhängend beweisen, weil K aus Annahme stetig ist. Um die Behauptung zu
zeigen, bemerken wir, dass
∂ϕ
d
(x) = ϕ(x + tei )|t=0
∂xi
dt
und dass
Z
Z
K · dx =
ϕ(x + tei ) =
γx+tei
K · dx
γx +[x;x+tei ]
Z
Z
K · dx +
=
γx
K · dx
[x;x+tei ]
wobei [x; x + tei ] das Segment zwischen x und x + tei bezeichnet. Hier wählen wir t so
klein, dass das Segment [x; x + tei ] in U enthalten ist (das ist natürlich möglich, weil U
offen ist). Wir parametrisieren das Segment [x; x + tei ] durch die Kurve γ : [0; t] → U ,
definiert durch γ(s) = x + sei . Dann ist γ 0 (s) = ei , und damit
Z
Z t
Z t
K · dx =
K(x + sei ) · ei ds =
Ki (x + sei )ds
[x;x+tei ]
0
0
88
wobei Ki die i-te Komponente vom Vektorfeld K bezeichnet. Nach dem Hauptsatz der
Integralrechnung, finden wir
Z
d
d t
Ki (x + sei )ds = Ki (x + tei )|t=0 = Ki (x)
ϕ(x + tei )|t=0 =
dt
dt 0
t=0
Damit ist ∇ϕ(x) = K(x), wie behauptet.
Sei nun U nicht zusammenhängend. Aus Lemma 3.41 finden wir eine Familie Ui
von disjunkten zusammenhängenden offenen Mengen in Rn , mit U = ∪i Ui . Für jede i
können wir dann wie oben eine stetig differenzierbare Funktion ϕi : Ui → R konstruieren,
mit ∇ϕi (x) = K(x) für alle x ∈ Ui . Da die Teilmengen disjunkt sind, könenn wir
ϕ : U → R durch ϕ(x) := ϕi (x) für alle x ∈ Ui definieren. Dann ist ϕ wohldefiniert,
stetig differenzierbar, mit ∇ϕ(x) = K(x) für alle x ∈ U .
Satz 3.42 zeigt, zusammen mit Satz 3.38, dass für jedes konservative Vektorfeld
K : U → Rn , eine Potentialfunktion ϕ : U → R gefunden werden kann, mit K = ∇ϕ
und deswegen, mit
Z
K · dx = ϕ(Endpunkt) − ϕ(Anfangspunkt)
γ
Das bedeutet, für jedes konservative Vektorfeld kann man ein Potential einführen, so
dass geleistete Arbeit = Unterschied im Potential (die Energie ist erhalten). Bemerke,
dass die Potentialfunktion immer nur bis auf eine additive Konstante bestimmt ist.
Charakterisierung von konservativen Vektorfeldern. Wir haben bis jetzt bewiesen,
dass jedes konservative Vektorfeld ein Gradientenfeld ist. Die nächste natürliche Frage
ist, wie könenn wir entscheiden, ob ein gegebenes Vektorfeld ein Gradientenfeld ist oder
nicht. Es ist sehr einfach, notwendige Bedingungen zu finden. Ist K = ∇ϕ, so muss
gelten
∂Kj
∂Ki
∂2ϕ
∂2ϕ
(x) =
(x) =
(x) =
(x)
(64)
∂xj
∂xj ∂xi
∂xi ∂xj
∂xi
für alle 1 ≤ i < j ≤ n (die Bedingungen sind symmetrisch bzg. Änderung i → j, j → i).
Hier bezeichnet Ki die i-te Komponente vom Vektorfeld K. Ein Vektorfeld K mit der
Eigenschaft (64) heisst rotationfrei (manchmal geschlossen). Im nächsten Satz beweisen
wir, dass diese Bedingungen nicht nur notwendig, sondern auch hinreichend sind, falls
das Vektorfeld auf einer konvexen offenen Menge definiert und differenzierbar ist.
Satz 3.43. Sei U ⊂ Rn offen und konvex (d.h. es gelte λx + (1 − λ)y ∈ U , für alle
x, y ∈ U und λ ∈ [0; 1]). Sei K ∈ C 1 (U ; Rn ). Dann existiert ϕ ∈ C 1 (U ) mit K = ∇ϕ
genau dann, wenn
∂Kj
∂Ki
(x) =
(x)
(65)
∂xj
∂xi
für alle 1 ≤ i < j ≤ n und alle x ∈ U . Das impliziert, K ist genau dann konservativ,
wenn (65) erfüllt ist.
89
Beweis: O.B.d.A. nehmen wir an, 0 ∈ U . Für jede x ∈ U ist dann das Segment [0; x] =
{tx : t ∈ [0; 1]} in U enthalten (weil U konvex ist). Deswegen können wir eine Funktion
ϕ : U → R durch
Z
1
K(tx) · xdt
ϕ(x) =
0
definieren. Da K ∈ C 1 (U ; Rn ), folgt aus Satz 3.31, dass ϕ ∈ C 1 (U ; R), mit
!
!
Z 1
Z 1
n
n
X
X
∂ϕ
∂
∂Ki
Kj (tx) +
(x) =
txi dt
Ki (tx)xi dt =
∂xj
∂xj
0 ∂xj
0
(66)
i=1
i=1
Anderseits, bemerken wir, dass
n
n
i=1
i=1
X ∂Ki
X ∂Kj
d
(tx)txi = Kj (tx) +
(tx)txi
(tKj (tx)) = Kj (tx) +
dt
∂xi
∂xj
In der letzten Gleichung haben wir die Bedingung ∂Kj /∂xi = ∂Ki /∂xj benutzt. Vergleich mit (66) gibt
Z 1
∂ϕ
d
(x) =
(tKj (tx)) dt = Kj (x) .
∂xj
dt
0
Beispiel: Sei K(x, y) = (y 2 , 2xy + y 2 ). Wir suchen eine Funktion ϕ : R2 → R mit
∇ϕ = K. Wir bemerken zunächst, dass
∂K1
∂K2
= 2y =
∂y
∂x
Das heisst, es existiert eine Potentialfunktion ϕ mit ∇ϕ = K. Sie muss erfüllen, dass
∂ϕ
= y2,
∂x
∂ϕ
= 2xy + y 2
∂y
und
Die erste Gleichung impliziert, dass ϕ(x, y) − xy 2 unabhängig von x sein soll. Damit
können wir ϕ(x, y) = xy 2 + ψ(y) schreiben, für eine geeignete Funktion ψ. Durch Einsetzen in die Gleichung für ∂ϕ/∂y finden wir
2xy + ψ 0 (y) = 2xy + y 2
Das ergibt ψ 0 (y) = y 2 und damit ψ(y) = y 3 /3 + c für eine Konstante c ∈ R. Potentialfunktionen von K haben die Form
ϕ(x, y) = xy 2 +
y3
+ c.
3
Man bemerke, dass die Bedingung (65) nicht auf beliebigen Gebieten hinreichend ist
(sie ist immer notwendig). Das zeigen wir mit dem folgenden Beispiel.
Beispiel: Sei
−x2
x1
K(x1 , x2 ) =
;
x21 + x22 x21 + x22
90
definiert auf der offenen Menge R2 \{0}. Dann gilt
∂K2
∂K1
−x2 + x2
(x) = 2 1 2 22 =
(x)
∂x2
∂x1
(x1 + x2 )
für alle x ∈ R2 \{0}. Sei aber γ : [0.2π] → R2 definiert durch γ(t) = (cos t, sin t) der
Einheitskreis (eine geschlossene Kurve auf R2 \{0}. Dann ist
Z
Z
K · dx =
γ
2π
K(cos t, sin t) · (− sin t, cos t)dt = 2π 6= 0
0
Also, K ist sicher nicht konservativ.
Tatsächlich gilt die Äquivalenz
K Gradientfeld ⇐⇒
∂Kj
∂Ki
=
∂xj
∂xi
nicht nur auf konvexen, sondern allgemeiner auf sogenannten einfach zusammenhängenden Gebieten. Ein Gebiet G ⊂ Rn heisst einfach zusammenhängend, wenn jede geschlossene Kurve in G stetig zu einem Punkt deformiert werden kann (wir verzichten
hier auf die genaue Definition dieses Begriffes). Das Gebiet R2 \{0} ist nicht einfach zusammenhängend, weil jede Kurve um den Ursprung nicht stetig innerhalb R2 \{0} zu
einem Punkt deformiert werden kann (bemerke dagegen, dass R3 \{0} einfach zusammenhängend ist).
3.9
Holomorphe Funktionen
In diesem Abschnitt betrachten wir Funktionen einer komplexen Variablen, mit Werten
in C. Bemerke, dass diese Funktionen das Thema der Vorlesung “Einführung in der komplexen Analysis” sind (oft wird diese Vorlesung auch als “Funktionentheorie” genannt);
hier geben wir nur eine kurze Einführung in dieses wichtige Gebiet der Analysis.
Wir wissen, dass C mit R2 identifiziert werden kann. Eine Funktion f : C → C
kann deswegen mit einer Funktion fe : R2 → R2 identifiziert werden, die durch fe(x, y) =
(Re f (x + iy), Im f (x + iy)) definiert wird. Wir werden aber sehen, der Begriff von
Differenzierbarkeit einer Funktion auf C mit Werten auf C, ist nicht mit dem Begriff
von Differenzierbarkeit von Funktionen auf R2 , mit Werten auf R2 äquivalent.
Definition 3.44. Sei Ω ⊂ C offen. Eine Funktion f : Ω → C heisst komplex differenzierbar an der Stelle z0 ∈ Ω, wenn der Grenzwert
f 0 (z0 ) = lim
z→z0
f (z) − f (z0 )
z − z0
existiert. In diesem Fall heisst die Zahl f 0 (z0 ) ∈ C die Ableitung von f an der Stelle z0 .
Die Funktion f heisst auf Ω komplex differenzierbar, falls f an der Stelle z differenzierbar
ist, für alle z ∈ Ω. Die Funktion f heisst holomorph in Ω, wenn sie auf Ω differenzierbar
ist, und falls die Ableitung f 0 (z) auf Ω stetig ist. Die Menge der holomorphen Funktionen
auf Ω wird mit H(Ω) bezeichnet.
91
Bemerkung: Die Funktion f : Ω → C ist genau dann an der Stelle z0 ∈ Ω komplex
differenzierbar, wenn ein a ∈ C existiert, so dass
lim
z→z0
f (z) − f (z0 ) − a(z − z0 )
=0
|z − z0 |
Mit anderen Worten, f ist an der Stelle z0 komplex differenzierbar, falls
f (z0 + h) − f (z0 ) − ah = o(|h|)
für h → 0 (hier ist h ∈ C). Die Abbildung L : C → C definiert durch L(h) = ah ist ein
Beispiel einer komplex linearen Abbildung auf C (weil L(h1 + h2 ) = L(h1 ) + L(h2 ) für
alle h1 , h2 ∈ C und L(αh) = αL(h) für alle α, h ∈ C. Es ist eigentlich einfach zu sehen,
dass jede komplex lineare Abbildung auf C die Form L(h) = ah für ein a ∈ C hat. D.h.
die Funktion f ist genau dann differenzierbar, wenn eine komplex lineare Abbildung
L : C → C existiert, mit der Eigenschaft, dass
f (z0 + h) − f (z0 ) − L(h) = o(|h|)
für h → 0. Das erklärt den Unterschied zum Begriff von Differenzierbarkeit in R2 .
Versehen wir f als die Abbildung fe(x, y) = (Re f (x + iy), Im f (x + iy)), definiert auf
einer offenen Teilmenge von R2 mit Werten in R2 , so ist fe an der Stelle z0 = (x0 , y0 )
genau dann differenzierbar, wenn eine reell lineare Abbildung L : R2 → R2 existiert, so
dass
fe(z0 + h) − fe(z0 ) − L(h) = o(khk)
für h → 0 (hier ist h ∈ R2 ). Während jede komplex lineare Abbildung reel linear ist,
ist nicht jede reel lineare Abbildung komplex linear. Deswegen impliziert die komplexe
Differenzierbarkeit einer Funktion f : Ω → C immer die reelle Differenzierbarkeit von
fe(x, y) = (Re f (x + iy), Im f (x + iy)), aber die Umkehrung ist nicht wahr.
Satz 3.45. Sei Ω ⊂ C offen. Die Funktion f : Ω → C ist genau dann holomorph, wenn
Re f, Im f als Funktionen zweier reeller Variablen auf Ω stetig differenzierbar sind, und
∂
∂
Re f (x + iy) =
Im f (x + iy)
∂x
∂y
und
∂
∂
Re f (x + iy) = −
Im f (x + iy) (67)
∂y
∂x
In diesem Fall gilt
f 0 (z) = ∂x Re f (z) + i∂x Im f (z) = ∂y Im f (z) − i∂y Re f (z)
für alle z ∈ Ω. Diese zwei Bedingungen werden Cauchy-Riemann-Gleichungen genannt.
Beweis: Die stetige Differenzierbarkeit von Re f, Im f impliziert, dass für alle z ∈ Ω,
f (z + h) − f (z) − L(h) = o(khk)
für h → 0, mit der reel linearen Abbildung
L(h1 + ih2 ) = (∂x Re f (z)h1 + ∂y Re f (z)h2 ) + i(∂x Im f (z)h1 + ∂y Im f (z)h2 )
92
Damit f komplex differenzierbar an der Stelle z0 ist, muss L komplex linear sein, d.h.
es muss ein a = (a1 + ia2 ) ∈ C existieren, mit
L(h1 + ih2 ) = (a1 + ia2 )(h1 + ih2 ) = (a1 h1 − a2 h2 ) + i(a1 h2 + a2 h1 )
Koeffizientenvergleich ergibt
a1 = ∂x Re f (z) = ∂y Im f (z)
a2 = −∂y Re f (z) = ∂x Im f (z)
Sind die Cauchy-Riemann-Gleichungen erfüllt, so ist f an der Stelle z komplex differenzierbar, mit Ableitung
f 0 (z) = ∂x Re f (z) + i∂x Im f (z) = ∂y Im f (z) − i∂y Re f (z)
Die Stetigkeit von Re f (z) und Im f (z) impliziert dann, dass f ∈ H(Ω). Die umgekehrte
Implikation folgt einfach aus der Bemerkung, dass jede komplex lineare Abbildung auch
reell linear ist. Damit ist jede komplex differenzierbare Funktion auch reell differenzierbar.
Beispiel: Jedes Polynom f (z) = an z n + · · · + a1 z + a0 in einer komplexen Variablen
ist auf C holomorph. Wie bei Polynomen einer reellen Variablen findet man
f 0 (z) = nan z n−1 + (n − 1)an−1 z n−2 + · · · + a1
Jede rationale Funktion P (z)/Q(z), wobei P, Q Polynome sind, ist holomorph auf C\{z ∈
C : Q(z) = 0}. Die Exponentialfunktion
f (z) = exp(z) ist auf C holomorph, mit
P∞
0
z
f (z) = e . Jede Potenzreihe f (z) = n=0 an (z − z0 )n ist innerhalb ihres Konvergenzradius komplex differenzierbar. Das folgt, weil die Potenzreihe gleichmässig innerhalb des
Konvergenzradius konvergiert. Das impliziert, aus Prop. 8.29 in Analysis 1, dass man
die Ableitung und den Grenzwert vertauschen kann. Genauer gesagt, gilt Prop. 8.29
nur für die Ableitung nach einer reellen Variablen. Trotzdem, kann man Prop. 8.29 benutzten, um die partiellen Ableitungen von Re f, Im f nach x = Re z und y = Im z zu
berechnen. Dann kann man leicht sehen, dass die partiellen Ableitungen stetig sind und
dass sie die Cauchy-Riemann-Gleichungen erfüllen. Damit folgt auch, dass f komplex
differenzierbar ist.
Die Funktion f (z) = |z|2 ist a.d.S. z0 ∈ C nicht differenzierbar, für alle z0 ∈ C\{0}.
In der Tat f (x + iy) = x2 + y 2 = Re f (x + iy). Deswegen ist ∂x Im f = ∂y Im f ≡ 0
während
∂x Re f (x + iy) = 2x, und ∂y Im f (x + iy) = 2y
Die Cauchy-Riemann-Gleichungen sind nur an der Stelle x = y = 0 erfüllt.
Die Eigenschaften der komplexen Ableitung sind ähnlich denen der entsprechenden
Eigenschaften der Ableitung auf R.
Proposition 3.46. Sei Ω ⊂ C offen, f, g : Ω → C an der Stelle z ∈ Ω komplex
differenzierbar. Dann
i) f + g und f g sind ebenfalls an der Stelle z komplex differenzierbar, mit
(f + g)0 (z) = f 0 (z) + g 0 (z),
und
93
(f g)0 (z) = f 0 (z)g(z) + f (z)g 0 (z)
ii) Ist g(z) 6= 0, so ist auch f /g an der Stelle z komplex differenzierbar, mit
(f /g)0 (z) =
f 0 (z)g(z) − f (z)g 0 (z)
g 2 (z)
iii) Sei U ⊂ C offen und h : U → C an der Stelle f (z) ∈ U komplex differenzierbar.
Dann ist h ◦ f an der Stelle z komplex differenzierbar und
(h ◦ f )0 (z) = h0 (f (z))f 0 (z)
Die Beweise sind den entsprechenden Beweisen in Analysis 1 sehr ähnlich.
Wir definieren nun den Begriff von Linienintegralen einer Funktion f : C ⊃ Ω → C
entlang einer stückweise stetig differenzierbaren Kurve γ.
Definition 3.47. Sei Ω ⊂ C offen, f : Ω → C stetig und γ eine stückweise stetig
differenzierbare Kurve auf Ω (d.h. γ : [a; b] → Ω ist stetig und es existiert eine endliche
Teilung a = t0 < t1 < · · · < tn = b mit γ ∈ C 1 ([tj−1 ; tj ]; Ω) für alle j = 1, . . . , n). Dann
definieren wir das Linien- oder Wegintegral von f entlang γ durch
Z
f (z)dz =
γ
n Z
X
j=1
tj
f (γ(t))γ 0 (t)dt
tj−1
Bemerkung: Das Linienintegral einer stetigen komplexen Funktion f : C ⊃ Ω → C entlang einer stückweise stetig differenzierbaren Kurve γ : [a; b] → Ω ist unabhängig von der
Parametrisierung von γ. Sei nämlich ψ : [c; d] → [a; b] stückweise stetig differenzierbar
und γ
e : [c; d] → Ω definiert durch γ
e(t) = γ(ψ(t)). Dann gilt
Z
Z
f (z)dz = f (z)dz
γ
e
γ
Das kann man ähnlich wie in Proposition 3.37 zeigen, weil
Z
tj
0
Z
0
ψ(tj )
f (γ(ψ(t)))γ (ψ(t))ψ (t)dt =
tj−1
f (γ(s))γ 0 (s)ds
ψ(tj−1 )
mit der Variablentransformation s = ψ(t).
Das Linienintegral von f entlang γ ist eine komplexe Zahl. Ausgedruckt durch Realund Imaginärteil von f und γ, ist es durch
Z
b
Re f (γ(t))Re γ 0 (t) − Im f (γ(t))Im γ 0 (t)
a
+i Re f (γ(t))Im γ 0 (t) + Im f (γ(t))Re γ 0 (t) dt
gegeben (unter der Annahme, dass γ ∈ C 1 ([a; b]; Ω), sonst muss man das Intervall
in eine geeignete Teilung zerlegen). Wir können f : C ⊃ Ω → C auch als Funktion
fe(x, y) = (Re f (x + iy), Im f(x + iy)) interpretieren. fe ist ein Vektorfeld, definiert auf
94
einer Teilmenge von R2 . Wir haben das Linienintegral eines Vektorfeldes schon in Sektion 3.8 definiert. Das Linienintegral von fe, versehen als Vektorfeld auf R2 , entlang γ
ist aus
Z
Z b
Z b
0
e
e
Re f (γ(t))Re γ 0 (t) + Im f (γ(t))Im γ 0 (t)dt
f · dx =
f (γ(t)) · γ (t)dt =
γ
a
a
unter der Annahme, dass γ ∈ C 1 ([a; b]; Ω) ist, gegeben. Das Linienintegral vom Vektorfeld fe ist also nicht dasselbe, wie das Linienintegral der komplexen Funktion f . Dagegen
gilt
Z
Z
Re
f (z)dz = (Re f, −Im f ) · dx
γ
γ
Z
Z
f (z)dz = (Im f, Re f ) · dx
Im
γ
γ
Man bemerke, dass die Cauchy-Riemann-Gleichungen äquivalent mit der Tatsache sind,
dass die zwei Vektorfelder (Re f, −Im f ) und (Im f, Re f ) rotationsfrei sind. Aus dieser
Bemerkung folgt: Ist f holomorph auf einem konvexen Ω ⊂R C, und ist γ eine geschlossene
stückweise stetig differenzierbare Kurve auf Ω, dann gilt γ f (z)dz = 0.
Satz 3.48. Sei Ω ⊂ C offen, f ∈ H(Ω), a < b, γ, γ
e : [a; b] → Ω geschlossene und
stückweise stetig differenzierbare Kurven auf Ω, so dass se
γ (t) + (1 − s)γ(t) ∈ Ω für alle
s ∈ [0; 1] und t ∈ [a; b] (das ist sicher der Fall, wenn Ω konvex ist). Dann gilt
Z
Z
f (z)dz = f (z)dz
γ
γ
e
Beweis: Um den Beweis zu vereinfachen nehmen wir an γ, γ
e ∈ C 1 ([a; b]) (sonst muss
man das Intervall [a; b] mit einer geeigneten Teilung zerlegen). Sei φ : [0, 1] × [a; b] → Ω,
definiert durch
φ(s; t) = se
γ (t) + (1 − s)γ(t)
Wir setzen
Z
g(s) :=
Z
b
f (z)dz =
φ(s,.)
Z
b
f (φ(s, t))∂t φ(s, t)dt =
a
ψ(s, t)dt
a
mit ψ : [0, 1] × [a; b] → C definiert durch
ψ(s, t) = f (φ(s, t))∂t φ(s, t)
Dann gilt
Z
g(0) =
Z
f (z)dz,
und
γ
g(1) =
f (z)dz
γ
e
Wir möchten zeigen, dass g(0) = g(1). Wir bemerken, dass ψ stetig ist und dass
∂s ψ(s, t) = f 0 (φ(s, t))(e
γ (t) − γ(t))∂t φ(s, t) + f (φ(s, t))∂t (e
γ (t) − γ(t))
= ∂t [f (φ(s, t))(e
γ (t) − γ(t))]
95
auch stetig ist. Deswegen können wir Satz 3.31 anwenden. Wir erhalten
Z b
Z b
∂t [f (φ(s, t))(e
γ (t) − γ(t))]
∂s ψ(s, t)dt =
g 0 (s) =
a
a
= f (φ(s, b))(e
γ (b) − γ(b)) − f (φ(s, a))(e
γ (a) − γ(a)) = 0
weil γ(a) = γ(b) und γ
e(a) = γ
e(b) und also auch φ(s, a) = φ(s, b) für alle s ∈ [0, 1].
Falls im letzten Satz Ω ⊂ C auch konvex ist, so wissen wir schon, dass
Z
Z
f (z)dz = f (z)dz = 0
γ
γ
e
Satz 3.48 ist aber wichtig, weil er auch für nicht konvexe Ω gilt. Als Anwendung dieses
Satzes sei Ω ⊂ C eine offene konvexe Menge und w ∈ Ω. Sei weiter f holomorph auf
der nicht konvexen (und nicht einfach zusammenhängenden) Menge Ω\{w}. f kann
aber in w eine Singularität haben. Deswegen ist das Linienintegral von f entlang einem
geschlossenen Kreis um w im Allgemeinen nicht Null. Der Satz besagt aber, dass das
Linienintegral entlang jedem Kreis (oder jede einfache gesclossene Kurve) um w (mit
genügend kleinem Radius) immer denselben Wert hat. Diese Bemerkung benutzen wir
im nächsten wichtigen Satz.
Satz 3.49. Sei Ω ⊂ C offen, f ∈ H(Ω), x ∈ Ω und r ∈ (0, ∞) so klein, dass B r (x) =
{z ∈ C : |z − x| ≤ r} ⊂ Ω. Dann gilt, für alle w ∈ Br (x) = {z ∈ C : |z − x| < r},
Z
1
f (z)
f (w) =
dz .
2πi γx,r z − w
Hier bezeichnet γx,r : [0, 2π] → C die parametrisierte Kurve γx,r (t) = x + reit (das ist
der Kreis mit Radius r um x, parametrisiert im Gegenuhrzeigersinn).
Beweis: Sei 0 < ρ < r − |w − x|. Dann gilt B ρ (w) ⊂ Br (x) Ähnlich wie für γx,r ,
betrachten wir den Kreis γw,ρ (t) = w + ρeit mit Radius ρ um w. Dann gilt, für alle
s ∈ [0; 1] und alle t ∈ [0; 2π],
φ(s, t) = sγx,r (t) + (1 − s)γw,ρ (t) ∈ B x,r \Bw,ρ ⊂ Ω\{w}
Das folgt, weil Bx,r konvex ist und weil
|φ(s, t) − w| = |s(x + reit ) + (1 − s)(w + ρeit ) − w|
= |s(x − w + (r − ρ)eit ) + ρeit |
= |ρ + s((x − w)e−it + (r − ρ))|
≥ ρ + s(Re (x − w)e−it + (r − ρ)) > ρ
Satz 3.48 impliziert also, dass
Z
Z
f (z)
f (z)
dz =
dz
γw,ρ z − w
γx,r z − w
Z 2π
Z 2π
f (w + ρeit ) it
=
iρe
dt
=
i
f (w + ρeit )
it
ρe
0
0
96
Deswegen
1
2πi
Z
γx,t
f (z)
1
dz =
z−w
2π
Z
2π
f (w + ρeit )dt
0
Da diese Formel für beliebige ρ > 0 klein genug gilt, gilt sie auch im Limes ρ → 0. Wir
finden
Z
Z 2π
1
f (z)
1
f (w + ρeit )dt = f (w)
dz = lim
ρ→0 2π 0
2πi γx,t z − w
weil f (w + ρeit ) → f (w) für ρ → 0, gleichmässig in t ∈ [0; 2π] (das kann z.B. durch
Verwendung der Mittelwertabschätzung gezeigt werden).
Satz 3.49 gibt eine Darstellung von f (w) durch ein Integral einer Funktion, die auf
dem Kreis γx,r stetig und differenzierbar ist. Das erlaubt uns, die Ableitung von f an
der Stelle w zu berechnen, indem wir das Integrand nach w differenzieren.
Satz 3.50. Sei Ω ⊂ C offen, f ∈ H(Ω). Dann ist f auf Ω beliebig oft komplex differenzierbar. Falls w ∈ Br (x) und B r (x) ⊂ Ω gilt
Z
n!
f (z)
(n)
f (w) =
dz
2πi γx,r (z − w)n+1
wobei γx,r (t) = x + reit der Kreis mit Radius r um x, parametrisiert im Gegenuhrzeigersinn, ist.
Beweis: Aus Satz 3.49 finden wir
Z
Z 2π
1
f (z)
1
f (x + reit )
f (w) =
dz =
dt
2πi γx,r z − w
2πi 0 x − w + reit
Das Integrand ist nach w differenzierbar. Aus Satz 3.31 können wir Ableitung und
Integral vertauschen. Wir bekommen
Z
1
f (z)
f 0 (w) =
(68)
2πi γx,r (z − w)2
Genauer gesagt, kann man Satz 3.31 nur für reelle Ableitungen anwenden. Man kann aber
Satz 3.31 anwenden, um die partiellen Ableitungen ∂w1 Re f (w1 + iw2 ), ∂w2 Re f (w1 +
iw2 ), ∂w1 Im f (w1 + iw2 ) und ∂w2 Im f (w1 + iw2 ) zu berechnen. Es ist dann einfach zu
sehen, dass die Cauchy-Riemann-Gleichungen erfüllt sind, und dass f 0 (w) in der Tat aus
(68) gegeben ist (einfach weil die Funktion (w −z)−1 auf γx,r komplex differenzierbar ist,
und Cauchy-Riemann-Gleichungen erfüllt). Aus (68) kann man dann analog die zweite
Ableitung f 00 (z) berechnen. Induktiv, findet man
Z
f (z)
n!
(n)
dz .
f (w) =
2πi γx,r (z − w)n
Es folgt aus dem letzten Satz, dass eine holomorphe Funktion automatisch beliebig
oft komplex differenzierbar ist. Wir sehen, dass komplexe Differenzierbarkeit ein viel
stärkerer Begriff, als reelle Differenzierbarkeit ist. Das hat viele wichtige Folgerungen
und Anwendungen.
97
Proposition 3.51. Sei Ω ⊂ C offen und f : Ω → C holomorph. Dann sind Re f, Im f
harmonische Funktionen auf Ω, d.h.
∆Re f (z) = 0,
∆Im f (z) = 0
für alle z ∈ Ω.
Beweis: Es folgt aus Satz 3.50, dass Re f, Im f beliebig oft differenzierbar sind. Aus den
Cauchy-Riemann-Gleichungen (67) folgt, dass
∂x2 Re f (z) = ∂x ∂y Im f (z) = ∂y ∂x Imf (z) = −∂y2 Re f (z)
Deswegen gilt
∆Re f (z) = ∂x2 Re f (z) + ∂y2 Im f (z) = 0
Analog zeigt man, dass ∆Im f = 0.
Die letzte Proposition zeigt, dass Real- und Imaginärteil einer holomorphen Funktion
immer harmonisch sind. Anderseits kann man zeigen, dass jede harmonische Funktion
auf einer konvexen Teilmenge von R2 der Realteil (oder der Imaginärteil) einer holomorphen Funktion ist.
Proposition 3.52. Sei Ω ⊂ C offen und konvex, u ∈ C 2 (Ω) (hier wird Ω als Teilmenge
von R2 versehen) mit ∆u = 0. Dann existiert v ∈ C 2 (Ω), so dass u + iv ∈ H(Ω).
Beweis: Wir definieren das Vektorfeld g : Ω → R2 durch g(x, y) = (−∂y u(x, y), ∂x u(x, y)).
Dann gilt
∂y g1 (x, y) = −∂y2 u(x, y) = ∂x2 u(x, y) = ∂x g2 (x, y)
weil ∆u = 0. Damit ist g auf Ω rotationsfrei. Es folgt aus Satz 3.43, dass eine Potentialfunktion für g existiert. D.h. es existiert v ∈ C 1 (Ω) mit g(x, y) = (∂x v(x, y), ∂y v(x, y)).
Dann ist es leicht zu sehen, dass f = u + iv die Cauchy-Riemann-Gleichungen erfüllt.
Damit ist f holomorph und v harmonisch.
Eine wichtige Folgerung dieser Charakterisierung von harmonischen Funktionen ist
das folgende Korollar.
Korollar 3.53. Sei Ω ⊂ R2 offen und konvex (einfach zusammenhängend ist genug)
und u ∈ C 2 (Ω) harmonisch (d.h. ∆u = 0). Dann ist u beliebig oft differenzierbar.
Eine andere wichtige Anwendung von Satz 3.50 ist der Satz von Liouville
Satz 3.54 (Liouville). Sei f ∈ H(C) beschränkt. Dann ist f konstant.
Beweis: Sei M = supz∈C |f (z)|. Aus Satz 3.49 folgt, dass
Z
Z 2π
1
f (z)
1
f (reit ) it
0
f (w) =
=
re dt
2πi γ0,r (z − w)2
2π 0 reit − w
für alle r > |w|. Deswegen
|f 0 (w)| ≤
M
2π
Z
0
2π
|reit
98
r
Mr
≤
2
− w|
(r − |w|)2
Da r > |w| beliebig ist, finden wir
Mr
=0
r→∞ (r − |w|)2
|f 0 (w)| ≤ lim
Also f 0 (w) = 0 für alle w ∈ C. Das impliziert, dass f konstant ist.
Der Fundamentalsatz der Algebra folgt einfach aus dem Satz von Liouville.
Satz 3.55 (Fundamentalsatz der Algebra). Jedes Polynom von Grad p ≥ 1 besitzt
mindestens eine Nullstelle in C.
Beweis: Sei P ein Polynom von Grad p ≥ 1, mit P (z) 6= 0 für alle z ∈ C. Dann ist 1/P (z)
eine holomorphe Funktion auf C (man spricht von einer ganzen Funktion). Ferner, da für
jede M > 0, R mit |P (z)| > M für alle z ∈ C mit |z| > R, existiert, schliessen wir, dass
1/P (z) beschränkt auf C ist. Aus Satz 3.54 folgt, dass 1/P (z) eine konstante Funktion
ist. Das impliziert auch, dass P (z) konstant ist, in Wiederspruch zu der Annahme, dass
P (z) ein Polynom von Grad p ≥ 1 ist.
Tatsächlich sind holomorphe Funktionen auf einem offenen Gebiet Ω ⊂ C nicht nur
beliebig oft komplex differenzierbar, sondern sogar analytisch auf Ω. Der Begriff von
analytischer Funktion ist hier genau wie für Funktionen auf R definiert.
Definition 3.56. Sei Ω ⊂ C offen, f : Ω → C. Die Funktion f ist an der Stelle z0 ∈ Ω
analytisch, falls ein r > 0 und eine Folge an existieren, so dass
f (z) =
∞
X
an (z − z0 )n
n=0
für alle z ∈ Br (z0 ) = {w ∈ C : |z0 − w| < r}. f heisst analytisch auf Ω, wenn f
analytisch an der Stelle z0 ist, für alle z0 ∈ Ω.
Wie für reelle Funktionen zeigt man, dass analytische Funktionen
P beliebig oft differenzierbar sind. Das folgt aus der Tatsache, dass eine Potenzreihe n≥0 an (z − z0 )n mit
Konvergenzradius r, für alle r0 < r, auf B r0 (z0 ) = {z ∈ C : |z − z0 | ≤ r0 } gleichmässig
konvergent ist. Deswegen kann man Summe und Ableitung vertauschen; siehe Analysis
1, Proposition 8.29 (siehe auch das Argument in den Beispielen unter Satz 3.45 um
Prop. 8.29 aus Analysis 1 für komplexe Ableitungen zu benuzten). Induktiv zeigt man,
dass f beliebig oft differenzierbar ist. Die Umkehrung gilt für reelwertige Funktionen
auf U ⊂ R i.A. nicht. D.h. es existieren Funktionen f : R → R, die unendlich oft differenzierbar sind, aber nicht analytisch. Das ist bei komplex differenzierbaren Funktionen
nicht möglich. Jede holomorphe Funktion ist automatisch analytisch.
Satz 3.57. Sei Ω ⊂ C, f ∈ H(Ω), z0 ∈ Ω. Sei r > 0 so klein, dass B r (z0 ) = {z ∈ C :
|z − z0 | ≤ r} ⊂ Ω. Dann gilt, für alle z ∈ Br (z0 ) = {z ∈ C : |z − z0 | < r},
f (z) =
∞
X
f (n) (z0 )
n=0
n!
Insbesondere ist f analytisch auf Ω.
99
(z − z0 )n
Beweis: Für z ∈ Br (z0 ) schreiben wir
f (z) =
1
2πi
Z
γz0 ,r
f (w)
dw
w−z
wobei γz0 ,r (t) = z0 + reit , t ∈ [0; 2π], der Kreis von Radius r um z0 ist, parametrisiert
im Gegenuhrzeigersinne. Weiter, für w ∈ γz0 ,r ([0; 2π]) gilt
1
1
1
1
=
=
z−z0
w−z
w − z0 + z0 − z
w − z0 1 − w−z
0
Da |z − z0 | < |w − z0 | = r, finden wir
∞
∞
X
1
1 X (z − z0 )n
(z − z0 )n
=
=
w−z
w − z0
(w − z0 )n
(w − z0 )n+1
n=0
n=0
wobei die Summe für w ∈ γz0 ,r gleichmässig konvergiert. Deswegen können wir Integral
und Summe vertauschen und bekommen
Z
Z
∞
X
1
f (w)
1
f (w)
f (z) =
dw =
(z − z0 )n
2πi γz0 ,r w − z
2πi γz0 ,r (w − z0 )n+1
n=0
Aus Satz 3.50 erhalten wir
f (z) =
∞
X
f (n) (z0 )
n=0
n!
(z − z0 )n .
Wie wir schon bei der Untersuchung von analytischen Funktionen auf R diskutiert
haben, hat die Analytizität wichtige Folgerungen. Z.B. gilt der folgende Identitätssatz.
Satz 3.58 (Identitätssatz). Sei U ⊂ C eine nichtleere offene und zusammenhängende
Teilmenge von C und seien f, g holomorph auf U . Dann sind die folgenden Aussagen
äquivalent.
i) f (z) = g(z) für alle z ∈ U .
ii) Die Menge {z ∈ U : f (z) = g(z)} enthält unendlich viele Punkte und besitzt einen
Häufungspunkt in U .
iii) Es gibt ein z0 ∈ U , so dass f (n) (z0 ) = g (n) (z0 ) für alle n ≥ 0.
Beweis: Die Implikationen i)⇒ ii) und i)⇒ iii) sind trivial. Wir zeigen ii)⇒ iii) und
iii)⇒i).
ii) ⇒ iii): Sei h = f − g und z0 ∈ U ein Häufungspunkt der Menge M = {z ∈ U :
h(z) = 0}. Wir behaupten, dass h(n) (z0 ) = 0 für alle n ∈ N. Nehmen wir an, es existiert
m ∈ N mit h(m) (z0 ) 6= 0. Sei m der kleinste Index mit dieser Eigenschaft. Dann, aus
Satz 3.57, gibt es eine Umgebung G von z0 und eine auf G holomorphe Funktion ϕ mit
ϕ(z0 ) 6= 0 und
h(z) = (z − z0 )m ϕ(z)
100
für alle z ∈ G. Aus Stetigkeit von ϕ gilt also ϕ(z) 6= 0 in einer Umgebung von z0 .
Damit ist auch h(z) 6= 0 für alle z 6= z0 in einer Umgebung von z0 . D.h. z0 ist kein
Häufungspunkt von M , in Widerspruch zur Annahme.
iii)⇒ i): Sei h = f − g und Sk = {z ∈ U : h(k) (z) = 0}. Da h(k) stetig ist, ist Sk
geschlossen, für alle k ∈ N. Damit ist auch S := ∩k≥0 Sk abgeschlossen. Wir behaupten
nun, S ist auch offen, als Teilmenge von U . Für z0 ∈ S beliebig, können wir die holomorphe Funktion h in einer Potenzreihe um z0 entwicklen. Das zeigt, dass h(z) = 0 in
einer offenen Umgebung von z0 . Für jede z0 ∈ S existiert also ε > 0, so dass Bε (z0 ) ⊂ S.
Da U zusammenhängend ist, muss entweder S = U oder S = ∅ gelten. Die Annahme
iii) impliziert, dass S = U .
Bemerkung: Sei U ⊂ C und I ⊂ R ein Intervall mit I ⊂ U . Sei f eine beliebige
Funktion auf I. Dann gibt es höchstens eine auf U holomorphe Funktion, die auf I mit
f übereinstimmt.
Die komplexe Analysis ist manchmal nützlich, um gewisse bestimmte Integrale von
Funktionen auf R zu berechnen. Wir betrachten zwei Beispiele.
Besipiel: wir möchten das uneigentliche Integral
Z ∞
sin x
dx
x
0
berechnen. Wir wissen aus Analysis 1, dass das Integral konvergiert. Um den Wert
des Integrales zu berechnen, betrachten wir die Funktion f (z) = eiz /z, die auf C\{0}
holomorph ist. Wir definieren weiter die stückweise stetig differenzierbare Kurve γ :
[0; 4] → C durch

r + (R − r)t,
falls t ∈ [0; 1]



iπ(t−1)
Re
,
falls t ∈ [1; 2]
γ(t) =
−R
+
(R
−
r)(t
−
2),
falls t ∈ [2; 3]


 iπ(4−t)
re
,
falls t ∈ [3; 4]
Dann gilt, mit Satz 3.48,
Z
f (z)dz = 0
γ
weil wir γ
e(t) = i für alle t können, Rund dann φ(s, t) = sγ(t) + (1 − s)e
γ (t) ∈ C\{0}, wo
f holomorph ist (und natürlich ist γe f (z)dz = 0). Es folgt, dass
Z
R
Z
−r
f (x)dx = −
f (x)dx +
r
Z
−R
π
it
it
Z
f (Re )iRe dt +
0
π
f (reit )ieit dt
0
Auf der linke Seite, haben wir
Z R
Z ∞
Z R ix
e − e−ix
sin x
sin x
dx = 2i
dx → 2i
dx
x
x
x
r
r
0
für r → 0 und R → ∞. Auf der rechten Seiten von (69) haben wir dagegen
Z π
Z π
it
f (reit )ireit dt = i
eire dt → iπ
0
0
101
(69)
für r → 0, weil exp(ir exp(it)) → 1 gleichmässig, da r → 0 (und deswegen dürfen wir
Limes und Integral vertauschen). Anderseits betrachten wir
Z π
Z π
it
it
it
eiRe dt
f (Re )iRe dt = i
0
0
Also
Z
π
0
it
e−R sin t dt
0
Für ein beliebiges ε > 0, gilt
Z π
Z ε
Z
it
it
−R sin t
≤
f
(Re
)iRe
dt
e
dt
+
0
π
Z
f (Re )iRe dt ≤
it
0
π−ε
e−R sin t +
ε
Deswegen
π
Z
lim R→∞
π
Z
e−R sin t ≤ 2ε + πe−R sin ε
π−ε
f (Re )iRe dt ≤ 2ε
it
0
it
für beliebiges ε > 0. Es folgt, dass
π
Z
lim R→∞
f (Re )iRe dt = 0
it
0
it
und deswegen, aus (69), bekommen wir im Limes R → ∞, r → 0,
Z ∞
sin x
2i
dx = iπ
x
0
Das ergibt
Z
∞
0
sin x
π
= .
x
2
Beispiel: das Gausssche Integral. Wir möchten das Integral
Z ∞
2
e−x dx
−∞
berechnen. Wir setzen a =
p
π/2(1 + i) und betrachten das komplexe Linienintegral
Z
γR
2
e−z
dz
1 + e−2az
wobei, für R > 0, γR das Parallelogramm ist, mit den Eckpunkten −R, R, R + a, −R + a.
Wir zerlegen γR = γ1,R + γ2,R + γ3,R + γ4,R , wobei γ1,R = [−R; R], γ2,R = [R; R + a],
γ3,R = [R + a; −R + a] und γ4,R = [−R + a; −R] ist. Sei γ2,R (t) = R + ta, t ∈ [0; 1] eine
Parametrisierung des Segmentes γ2,R . Dann gilt
Z
γ2,R
2
e−z
dz =
1 + e−2az
Bemerke, dass
Re (R + ta)2 = R2 +
1
Z
0
√
2
e−(R+ta)
adt
1 + e−2a(R+ta)
2πtR ≥ R2 −
102
√
2πR
(70)
weil a2 = iπ, und t ∈ [0; 1]. Deswegen ist
2
2
|e−(R+ta) | = e−Re (R+ta) ≤ e−(R
2−
√
2πR)
≤ e−R
2 /2
falls R gross genug ist. Anderseits
√
1 + e−2a(R+ta) = 1 + e−2aR e−2πit = 1 + e−
√
2πR −i(2πt+ 2πR)
e
und damit
√
√
√
2πR))2 + e−2 2πR sin2 (2πt −
√
√
√
= 1 + e−2 2πR + 2e− 2πR cos(2πt − 2πR)
|1 + e−2a(R+ta) |2 = (1 + e−
≥ (1 − e−
√
2πR
cos(2πt −
√
2πR)
2πR 2
) ≥ 1/2
für R gross genug. Aus (70) finden wir also, dass
Z
2
e−z
2
dz
≤ Ce−R /2 → 0
−2az
γ2,R 1 + e
für R → ∞. Analog kann man zeigen, dass
Z
2
e−z
dz
→0
γ4,R 1 + e−2az für R → ∞. Anderseits,
Z
γ1,R
2
e−z
dz +
1 + e−2az
2
Z
γ3,R
Z R
2
2
e−t
e−(t+a)
dt −
dt
−2at
−2a(t+a)
−R 1 + e
−R 1 + e
#
Z R"
2
2
e−t
e−t −2at
=
+
−2at
1 + e−2at
−R 1 + e
Z R
2
=
e−t dt
e−z
dz =
1 + e−2az
Z
R
−R
Wir erhalten, dass
Z
∞
e
−t2
Z
dt = lim
R→∞ γR
−∞
2
e−z
dz
1 + e−2az
2
Die Funktion f (z) = e−z /(1 + e−2az ) ist überall holomorph, ausser in den Punkten
z ∈ C mit e−2az = −1. Man findet, f ist auf C\{a(n + 1/2) : n ∈ Z} holomorph.
Die einzige Singularität von f innerhalb der von γR berandeten Menge ist im Punkt
z0 = a/2. Deswegen, für r > 0 klein genug,
Z
γR
2
e−z
dz =
1 + e−2az
Z
γa/2,r
103
2
e−z
dz
1 + e−2az
wobei γa/2,r der Kreis von Radius r um a/2, parametrisiert im Gegenuhrzeigersinn,
ist. Für r klein genug, können wir den Nenner in einer Taylorreihe um den Punkt a/2
entwickeln. Wir finden
1 + e−2az = 1 − e−2a(z−a/2)
X (−2a)n
=
(z − a/2)n
n!
n≥1


X (−2a)n−1
(z − a/2)n−1 
= −2a(z − a/2) 1 +
n!
n≥2
=: −2a(z − a/2)g(z)
für eine analytische Funktion g, definiert in einer Umgebung von a/2, mit g(a/2) = 1.
2
Da g(a/2) 6= 0 ist,
ist auch h(z) = e−z /g(z) eine analytische Funktion, mit h(a/2) =
√
e−iπ/4 = (1 − i)/ 2. Also, aus Satz 3.49, finden wir, nach einer kleinen Rechnung,
Z
γR
2
e−z
dz =
1 + e−2az
2
e−z
dz
1 + e−2az
Z
γa/2,r
1
=−
2a
=−
Z
γa/2,r
(2πi)h(a/2) √
= π
2a
Wir haben damit bewiesen, dass
Z
∞
h(z)
dz
z − a/2
2
e−x dx =
−∞
104
√
π.
Herunterladen