Skript zur Vorlesung Analysis 2

Skript zur Vorlesung Analysis 2
Sommersemester 2013
Prof. Dr. Benjamin Schlein
Inhaltsverzeichnis
1 Fourier-Reihen
2
2 Gewöhnliche Differentialgleichungen
2.1 Differentialgleichungen erster Ordnung, elementare Lösungsmethoden .
2.2 Existenz und Eindeutigkeit . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Differentialgleichungen höherer Ordnung . . . . . . . . . . . . . . . . .
2.4 Lineare Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . .
2.5 Lineare Differentialgleichungen mit konstanten Koeffizienten . . . . . .
2.6 Grundlagen der Stabilitätstheorie . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
10
11
15
21
22
26
34
3 Differentialrechnung in mehreren Veränderlichen
3.1 Definition der Ableitung für Funktionen auf Rn . . . . . .
3.2 Mittelwertsatz . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Höhere Ableitungen, Taylor Entwicklung, lokale Extrema
3.4 Umkehrabbildung und Satz über implizite Funktionen . .
3.5 Mannigfaltigkeiten in Rn . . . . . . . . . . . . . . . . . . .
3.6 Extrema mit Nebenbedingungen . . . . . . . . . . . . . .
3.7 Integrale, die von einem Parameter abhängen. . . . . . . .
3.8 Konservative Vektorfelder . . . . . . . . . . . . . . . . . .
3.9 Holomorphe Funktionen . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
38
38
49
51
59
66
72
77
81
91
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Fourier-Reihen
Wir betrachten in diesem Kapitel periodische Funktionen. Eine Funktion f : R → C
heisst periodisch, mit Periode T > 0, falls f (t + T ) = f (t) für alle t ∈ [0; T ). Jede auf
[0; T ) definierte Funktion f kann durch die Definition f (t + kT ) := f (t) für alle k ∈ Z,
und alle t ∈ [0; T ) periodisch fortgesetzt werden.
eit .
Ein wichtiges Beispiel einer periodischen Funktion ist die Exponentialfunktion f (t) =
f hat die Periode T = 2π, weil
ei(t+2π) = eit e2πi = eit
für alle t ∈ [0; 2π). T = 2π ist die Fundamentalperiode der Funktion f , d.h. es existiert
keine Periode Te > 0 mit Te < T . Für j ∈ Z ist die Funktion f (t) = eijt auch periodisch.
Die Fundamentalperiode von f (t) = eijt ist 2π/|j|. T = 2π ist auch eine Periode von
f (t) = eijt , für alle j ∈ Z. In der Tat
eij(t+2π) = eijt e2πij = eijt
für alle j ∈ Z. {eijt }j∈Z ist damit eine unendliche Familie von 2π-periodischen Funktionen. Analog, für ein beliebiges L > 0, ist {eijt/L }j∈Z eine unendliche Familie von
Funktionen mit Periode T = 2π/L.
Lemma 1.1. Seien j, k ∈ Z. Dann gilt
Z 2π
2π falls j = k
eikx e−ijx dx =
0
sonst
0
Bemerkung (aus Analysis 1): eine C-wertige Funktion f : [a; b] → C ist integrierbar,
falls Re f und Im f integrierbar sind. In diesem Fall definieren wir
Z
b
b
Z
f dx =
a
Z
b
Re f (x)dx +
a
Im f (x)dx
a
Beweis: Wir haben eikx e−ijx = ei(k−j)x = cos((k − j)x) + i sin((k − j)x). Für k 6= j gilt
Z
2π
cos((k − j)x) dx =
0
1
(sin(2π(k − j)) − sin(0)) = 0
k−j
und analog,
Z
2π
sin((k − j)x) dx = 0
0
Dagegen, für k = j ist ei(k−j)x = 1 und
Z 2π
ei(k−j)x dx = 2π
0
2
Definition 1.2. Sei f : R → C eine 2π-periodische Funktion, auf [0; 2π] integrierbar.
Für ein beliebiges j ∈ Z ist dann die Funktion e−ijx f (x) auch 2π-periodisch und auf
[0; 2π] integrierbar. Wir definieren den j-ten Fourierkoeffizienten von f durch
Z 2π
1
b
f (j) =
f (x)e−ijx dx
2π 0
Weiter, für N ∈ N, definieren wir die N -te Fourier Partialsumme
(FN f )(x) =
N
X
fb(j) eijx
j=−N
Konvergiert die Folge (FN f )(x) für N → ∞, dann wird der Grenzwert durch
(Ff )(x) =
∞
X
fb(j)eijx = lim (FN f )(x)
N →∞
j=−∞
bezeichnet. (Ff ) wird die Fourier-Reihe von f genannt.
Wir werden sehen, dass unter geeigneter Annahme der Funktion f , die Fourier-Reihe
von f mit f übereinstimmt; die Fourier-Reihe gibt also eine nützliche Darstellung von
periodischen Funktionen als Limes von Linearkombinationen von den Funktionen eijx
(ähnlich wie die Taylorreihe eine nützliche Darstellung von analytischen Funktionen
gibt). Um zu zeigen, dass Ff = f gilt, brauchen wir das folgende Lemma.
Lemma 1.3 (Lemma von Riemann-Lebesgue). Sei f : [a; b] → C integrierbar. Dann
gilt
Z b
lim
e±ikx f (x)dx = 0
k→∞ a
Bemerkung: Die Idee hinter dem Lemma von Riemann-Lebesgue Rist die folgende: Die
Funktion eikx hat (Fundamental-) Periode 2π/k. Deswegen gilt I eikx dx = 0 für jedes Intervall der Länge 2π/k. Wenn wir annehmen können,
R dass f auf diesen kleinen
Intervallen näherungsweise konstant ist, dann muss auch I f (x)eikx dx näherungsweise
verschwinden. Da wir [a; b] in kleine Intervalle der Länge (2π)/k zerlegen können, muss
Rb
auch das Integral a f (x)eikx dx klein sein. Wenn man eine reguläre Funktion f betrachtet, dann kann man die Aussage des Riemann-Lebesgue Lemmas verfeinern. Ist f m-Mal
differenzierbar, dann existiert eine Konstante Cm mit
Z b
ikx
f (x)e dx ≤ Cm |k|−m
a
Wir werden zurück zur Beziehung zwischen Regularität und Abfall von oszillierenden
Integralen in den Übungen kommen.
Beweis: O.B.d.A. betrachten wir eine reelwertige Funktion f : [a; b] → R. Sei ε > 0 fest
gewählt. Aus Analysis 1 (Proposition 9.3) existiert eine Teilung T = {a = x0 < x1 <
· · · < xn = b} von [a; b], mit
Z b
ε
S(T ) − ≤
f (x)dx ≤ S(T )
2
a
3
D.h. es existieren hj = supx∈[xj−1 ;xj ] f (xj ), mit
n
X
j=1
ε
hj (xj − xj−1 ) − ≤
2
b
Z
f (x)dx ≤
a
n
X
hj (xj − xj−1 )
j=1
Mit anderen Worten, für beliebige ε > 0 existiert eine Treppenfunktion
g(x) :=
n
X
hj 1[xj−1 ;xj ) (x)
j=1
auf [a; b] mit g(x) ≥ f (x) für alle x ∈ [a; b] und
Z
b
Z
b
(g(x) − f (x)) ≤ ε/2
|g(x) − f (x)|dx =
(1)
a
a
Hier benutzen wir die Notation 1I (x) für die charakteristische Funktion des Intervalls
I, definiert durch 1I (x) = 1, falls x ∈ I und 1I (x) = 0, falls x 6∈ I.
Nun bemerken wir, dass
Z
b
g(x)eikx dx =
a
n
X
j=1
und damit
Z
hj
a
b
1[xj−1 ;xj ] (x)eikx =
n
X
Z
xj
hj
eikx dx =
xj−1
j=1
n
X
hj
j=1
eikxj − eikxj−1
ik
Z b
n
X
ikx
≤ 2
g(x)e
dx
|hj | → 0
|k|
a
j=1
für k → ∞ (oder k → −∞). Also existiert K > 0 gross genug, mit
Z b
ε
ikx
g(x)e dx ≤
2
a
für alle k > K. Aus (1) bekommen wir
Z b
Z b
Z b
ikx
ikx
ikx
f (x)e dx ≤ (f (x) − g(x))e dx + g(x)e dx
a
a
a
Z b
Z b
ikx
≤
|f (x) − g(x)|dx + g(x)e dx
a
a
≤ε
Satz 1.4. Sei f : R → C (2π)-periodisch und differenzierbar. Dann gilt
lim (FN f ) (x) = f (x)
N →∞
für alle x ∈ [0; 2π].
4
Beweis: Es gilt
FN f (x) =
N
X
k=−N
1
fb(k)eikx =
2π
Z
2π
dtf (t)
0
N
X
eik(x−t)
k=−N
Aus Lemma 1.1 gilt
2π
Z
1
f (x) =
2π
dtf (x)
0
N
X
eik(x−t)
k=−N
Damit
1
FN f (x) − f (x) =
2π
Z
1
=
2π
Z
1
2π
Z
=
2π
dt (f (t) − f (x))
0
N
X
e−ik(t−x)
k=−N
2π−x
ds (f (x + s) − f (x))
−x
N
X
e−iks
k=−N
π
ds (f (x + s) − f (x))
−π
N
X
e−iks
k=−N
wobei wir die Periodizität von f und eiks im letzten Schritt benutzt haben. Wir berechnen nun
N
X
k=−N
eis(2N +1) − 1
sin(s(N + 1/2))
e−iks = e−iN s 1 + eis + · · · + e2iN s = e−iN s
=
is
e −1
sin s/2
Damit gilt
1
FN f (x) − f (x) =
2π
Wir definieren
(
g(s) :=
Z
π
ds
−π
f (x + s) − f (x)
sin((N + 1/2)s)
sin s/2
f (x+s)−f (x)
sin(s/2)
2f 0 (x)
falls s 6= 0
falls s = 0
Da f differenzierbar ist, ist g stetig bei s = 0,weil
f (x + s) − f (x)
f (x + s) − f (x)
s/2
= 2 lim
·
= 2f 0 (x)
s→0
s→0
sin(s/2)
s
sin(s/2)
lim
f differenzierbar impliziert insbesondere, dass f stetig ist. Damit ist g auf [−π; π] stetig,
und deswegen sicher integrierbar. Lemma 1.3 impliziert also, dass
Z π
Z π
Z π
1
is(N +1/2)
−is(N +1/2)
ds g(s) sin((N + 1/2)s) =
dsg(s)e
−
dsg(s)e
→0
2i −π
−π
−π
für N → ∞.
Wir haben in Satz 1.4 die punktweise Konvergenz der Fourier-Reihe gegen f . Unter
der Annahme, dass f differenzierbar ist, ist die Konvergenz eigentlich gleichmässig. Um
das zu zeigen, werden wir die zwei folgenden Lemmata brauchen.
5
Lemma 1.5. Sei f ∈ C 1 (R; C) 2π-periodisch. Wie üblich bezeichnen wir mit fb(j) die
Fourier Koeffizienten von f . Weiter bezeichnen wir mit fb0 (j) die Fourier Koeffizienten
von f 0 . Es gilt
fb0 (j) = ij fb(j)
Proof. Durch partielle Integration bekommen wir
Z 2π
Z
ij 2π
1
f (2π) − f (0)
0
−ijx
0
b
f (j) =
f (x)e
dx =
dxf (x)e−ijx = ij fb(j)
+
2π 0
2π
2π 0
Lemma 1.6. Sei f : R → C 2π-periodisch. Dann gilt
2π
Z
|f (x) − FN f (x)|2 dx =
|f (x)|2 dx − 2π
0
0
und
Z
2
|FN f (x)| = 2π
0
|fb(k)|2
(2)
k=−N
N
X
2π
N
X
2π
Z
|fb(k)|2 ≤
2π
Z
|f (x)|2
(3)
0
k=−N
Beweis: Wir berechnen
Z
2π
|f (x) − FN f (x)|2 dx =
0
N
X
2π
Z
dx f (x) −
0
N
X
|f (x)|2 dx +
=
0
−
N
X
0
dxeix(j−k)
0
−
N
X
0
N
X
2π
Z
fb(k)
f (x)e−ikx dx
0
k=−N
|f (x)|2 dx − 2π
fb(j)eijx 
2π
fb(j)fb(k)
f (x)e−ijx
2π
=

j=−N
Z
2π
fb(j)
N
X
f (x) −
j,k=−N
Z
j=−N
Z
fb(k)e−ikx
k=−N
2π
Z
!
|fb(j)|2
j=−N
Das zeigt (2). Analog finden wir
Z
2π
2
|FN f (x)| =
0
N
X
Z
dxeix(j−k) = 2π
0
j=−N
N
X
2π
fb(k) fb(j)
|fb(j)|2
j=−N
Aus (2) folgt nun (3).
Satz 1.7. Sei f ∈ C 1 (R; C) 2π-periodisch. Dann konvergiert die Funktionenfolge FN f →
f gleichmässig, für N → ∞.
Beweis: Wir haben schon punktweise Konvergenz gezeigt, d.h.
f (x) = lim FN f (x) = lim
N →∞
N →∞
N
X
j=−N
6
fb(j)eijx =
∞
X
j=−∞
fb(j)eijx .
Es gilt
N
X
N
X
|k fb(k)|2 =
k=−N
k=−N
1
|fb0 (k)|2 ≤
2π
Z
2π
|f 0 (x)|2 .
0
P∞
Damit konvergiert die Summe k=−∞ |k|2 |fb(k)|2 absolut. Wir erhalten
∞
X
|FN f (x) − f (x)| = fb(k)eikx + fb(−k)e−ikx ≤
≤
k=N +1
∞
X
k=N +1
∞
X
|fb(k)| + |fb(−k)|
2
|k|
∞
X
2
2
b
b
|f (k)| + |f (−k)| +
k=N +1
k=N +1
1
→0
|k|2
für N → ∞. Hier haben wir die Ungleichung 2 |fb(k)| ≤ |k|−2 + |k|2 |fb(k)|2 benutzt.
Was können wir nun sagen über die Fourier-Reihe, falls die periodische Funktion
f nicht differenzierbar ist? Im nächsten Satz zeigen wir, dass wir immer noch Konvergenz von FN f gegen f haben, aber in einem schwächeren Sinn; wir erhalten nämlich
Konvergenz im Sinn von quadratischem Mittel.
Satz 1.8. Sei f : R → C 2π periodisch und über [0; 2π] integrierbar. Dann gilt
Z
2π
lim
N →∞ 0
dx |f (x) − FN f (x)|2 = 0
(4)
und die Parsevalsche Identität
N
X
lim
N →∞
1
|fb(k)|2 =
2π
k=−N
Z
2π
|f (x)|2 dx
0
Ist f differenzierbar, so folgt (4) aus der gleichmässigen Konvergenz FN f → f . Im
Allgemeinen zeigen wir (4) indem wir zunächst f durch eine differenzierbare Funktion
approximieren. Dazu benutzen wir das folgende Lemma.
Lemma 1.9. Sei f : R → C 2π-periodisch und auf [0; 2π] integrierbar. Sei ε > 0. Dann
existiert g ∈ C 1 (R; C), 2π-periodisch, so dass
Z
2π
|f − g|2 dx ≤ ε
0
Beweis: Sei K := supx∈[0;2π) |f (x)| < ∞. Wie im Beweis von Lemma 1.3, finden wir
zunächst
eine Teilung 0 = x0 < x1 < · · · < xn = 2π, und eine Treppenfunktion h(x) =
Pn
j=1 hj 1[xj ;xj−1 ) (x) mit |hj | ≤ K für alle j = 1, . . . , n, so dass
Z
2π
|f (x) − h(x)|dx ≤
0
7
ε
.
8K
Dann gilt |f (x) − h(x)| ≤ |f (x)| + |h(x)| ≤ 2K und damit
Z
2π
2π
Z
2
|f (x) − h(x)|dx ≤
|f (x) − h(x)| dx ≤ 2K
0
0
ε
.
4
Nun approximieren wir für ein beliebiges j ∈ {1, . . . , n} die charakteristische
Pn Funktion 1[xj−1 ;xj ) durch eine differenzierbare Funktion. Wir setzen δ = ε/4 j=1 h2j . Ist
|xj − xj−1 | < δ dann setzen wir einfach θj (x) = 0. Sonst setzen wir

falls x ∈ [0; xj−1 ]

 0 2


falls x ∈ [xj−1 ; xj−1 + δ/2]
 sin ((x − xj−1 )π/δ)
1
falls x ∈ [xj−1 + δ/2; xj − δ/2]
θj (x) =


falls x ∈ [xj − δ/2; xj ]
 sin2 ((x − xj )π/δ)


0
falls x ∈ [xj , 2π]
Wir setzen θj durch Periodizität auf R fort. Nach einfacher Rechnungen ist θj ∈ C 1 (R),
2π-periodisch, mit
Z 2π 2
ε
θj (x) − 1[xj−1 ;xj ) (x) ≤ δ = Pn
4 j=1 h2j
0
Wir definieren nun g(x) =
Weiter
Pn
j=1 hj θj (x).
n
X
h(x) − g(x) =
Offenbar gilt g ∈ C 1 (R), 2π-periodisch.
hj 1[xj−1 ;xj ) (x) − θj (x) .
j=1
Da die verschiedenen Summanden auf disjukten Intervallen getragen werden, gilt auch
n
X
2
|h(x) − g(x)| =
h2j 1[xj−1 ;xj ) (x)
2
− θj (x)
j=1
und damit
Z 2π
2
|h(x) − g(x)| dx =
0
Das gibt
Z 2π
n
X
2
Z
Z
0
j=1
|f (x) − g(x)| dx ≤ 2
0
h2j
2π
n
2
X
ε
h2j ≤
1[xj−1 ;xj ) (x) − θj (x) dx ≤ δ
4
j=1
2π
2
Z
|f (x) − h(x)| dx + 2
0
2π
|h(x) − g(x)|2 dx ≤ ε
0
Hier haben wir benutzt, dass |f (x) − g(x)| ≤ |f (x) − h(x)| + |h(x) − g(x)| und also, dass
|f (x) − g(x)|2 ≤ (|f (x) − g(x)| + |g(x) − h(x)|)2 ≤ 2|f (x) − g(x)|2 + 2|g(x) − h(x)|2 .
8
Beweis von Satz 1.8: Sei ε > 0 festgewählt. Dann finden wir g ∈ C 1 (R; C) mit
Z
ε
|f (x) − g(x)|2 dx <
9
Das impliziert auch, dass
Z
Z
Z
ε
2
2
|FN f (x) − FN g(x)| = |FN (f − g)(x)| ≤ |f (x) − g(x)|2 ≤
9
Weiter, da g differenzierbar ist, gilt FN g → g gleichmässig. Aus Analysis 1 (Satz 9.13)
folgt, dass
Z
|FN g(x) − g(x)|2 dx → 0
für N → ∞. Für N gross genug ist also
Z
ε
|FN g(x) − g(x)|2 dx ≤
9
Insgesamt,
Z
|FN f (x) − f (x)|2 dx
Z
≤ (|f (x) − g(x)| + |g(x) − FN g(x)| + |FN g(x) − FN f (x)|)2 dx
Z
Z
Z
2
2
≤ 3 |f (x) − g(x)| dx + 3 |g(x) − FN g(x)| dx + 3 |FN g(x) − FN f (x)|2 dx
≤ε
falls N gross genug ist.
Bemerkungen:
• 2π-periodische Funktionen können als Funktionen auf dem Einheitskreis S 1 =
{eiϕ : ϕ ∈ R} gedacht werden.
• Ganz ähnlich kann man auch periodische Funktionen mit einer beliebigen Periode
L > 0 betrachten (solche Funktionen werden mit Funktionen auf dem Kreis von
Radius L/2π identifiziert werden). In diesem Fall wird die Fourier-Reihe durch die
Funktionen {e2πijx/L }j∈Z definiert.
• Sei
V := {f : R → C : f 2π-periodisch und auf [0; 2π] stetig}
Es ist einfach zu sehen, dass V ein unendlich dimensionaler Vektorraum ist. Für
f, g ∈ V definieren wir das Skalarprodukt
Z 2π
hf, gi =
f (x)g(x)
0
9
Die Funktionen {eijx }j∈Z sind wegen Lemma 1.1 ein Orthonormalsystem auf V
bezüglich dem Skalarprodukt h., .i. Satz 1.8 besagt dann, dass {eijx }j∈Z eine Orthonormalbasis von V ist, d.h., dass jedes Element von V beliebig gut durch endliche lineare Kombinationen von den orthonormal Funktionen {eijx }j∈Z approxiP
ijx gibt dann einfach
b
miert werden kann. Die Fourier-Reihe f (x) = ∞
j=−∞ f (j)e
die Darstellung von f als Grenzwert von endlichen linearen Kombinationen der
Basis-Funktionen. Die Fourierkoeffizienten werden deswegen durch die Produkte
fb(j) = heijx , f i gegeben. Bemerke, dass V bezüglich der vom Skalarprodukt induzierten Metrik nicht vollständig ist. Um dieses Problem zu lösen, kann man
die Vervollsändigung Ve von V betrachten (jeder Skalarproduktraum kann vervollständigt werden). Ve ist ein Vektorraum, mit einem Skalarprodukt [., .] so, dass:
1) Ve vollständig, bezüglich der von [.; .] induzierten Metrik ist, 2) V kann mit einem
dichten Unterraum von Ve identifiziert werden, 3) Für f, g ∈ V gilt [f ; g] = hf ; gi.
Ve ist ein sogenannter Hilbertraum (ein Skalarproduktraum, der vollständig ist,
bezüglich der aus dem Skalarprodukt induzierten Metrik); es wird mit L2 ([0; 2π])
bezeichnet. Mehr zu diesem Thema in der Vorlesung Funktionalanalysis.
• Ein Grund, warum Fourier-Reihen sehr nützlich sind, ist die Tatsache, dass Ableitungen auf Fourierkoeffizienten sehr einfach wirken. Aus Lemma 1.5 folgt, dass
die Fourierkoeffizienten von f (m) (x) einfach durch (ij)m fˆ(j) gegeben sind. Differentialoperatoren sind, in diesem Sinn, diagonal im Fourierraum (wo die Funktion
f durch ihre Fourierkoeffizienten {fˆ(j)}j∈Z parametrisiert wird).
2
Gewöhnliche Differentialgleichungen
Differentialgleichungen sind Gleichungen, bei denen die Unbekannten Funktionen sind.
Die Differentialgleichung definiert eine Beziehung zwischen den gesuchten Funktionen
und ihren Ableitungen. Gewöhnliche Differentialgleichugen (auf Englisch “ordinary differential equations” oder einfach ODEs) sind Differentialgleichungen, wo die unbekannten
Funktionen einer einzelnen reellen Variablen sind. Bei partiellen Differentialgleichungen
sind dagegen die unbekannten Funktionen von mehreren Variablen. Hier werden wir nur
gewöhnliche Differentialgleichungen betrachten (partielle Differentialgleichungen werden
erst im vierten Semester untersucht).
Differentialgleichungen haben sehr viele Anwendungen. Die ganze Physik wird z.B.
durch Differentialgleichungen formuliert: Die Newtonsche Gleichung der klassischen Mechanik, die Maxwell Gleichungen der Elektrodynamik, die Schrödingergleichung der
Quantenmechanik, die Einsteingleichung der allgemeinen Relativitätstheorie sind alle Beispiele von Differentialgleichungen. Dabei ist nur die Newtonsche Gleichung eine gewöhnliche Differentialgleichung, die anderen sind partielle Differentialgleichungen.
Die Newtonsche Gleichung beschreibt die Bewegung von Teilchen und Körpern unter
der Wirkung von Kräften. Seien x(t) = (x1 (t), x2 (t), x3 (t)) ∈ R3 die Koordinaten eines
Teilchens mit Masse m zur Zeit t. Sei F (x) = (F1 (x), F2 (x), F3 (x)) ein Kraftfeld. D.h.
F (x) ist die Kraft, die im Punkt x auf das Teilchen wirkt. Dann besagt die Newtonsche
Gleichung, dass die Beschleunigung des Teilchens, die aus der zweiten Ableitung x00 (t)
gegeben ist, proportional zur wirkenden Kraft ist. Genauer,
mx00 (t) = F (x(t))
10
(5)
Die Ableitung der vektorwertigen Funktion x(t) ist komponentenweise zu verstehen; d.h.
x00 (t) = (x001 (t), x002 (t), x003 (t)). Um die Trajektorie der Teilchen zu bestimmen, muss man
also eine Funktion x(t) finden, so dass für alle t erfüllt ist. Z.B., die Erde bewegt sich
unter der Wirkung des Gravitationsfelds der Sonne. In einem Koordinatensystem, wo
die Sonne an der Stelle x = 0 liegt, ist die Gravitationkraft, die die Sonne auf einem
Körper der Masse m ausübt aus
x
F (x) = −Gm 3
|x|
gegeben, für eine geeignete Konstante G. Bezeichnet also x(t) die Position der Erde zur
Zeit t, so muss x(t) die Gleichung
mx00 (t) = −Gm
x
|x|3
⇒
x00 (t) = −G
x
|x|3
(6)
erfüllen. Diese Differentialgleichung hat mehrere Lösungen. Die Lösung kann eindeutig
festgestellt werden, falls man geeignete Anfangsbedingungen spezifiziert. Schon Kepler
hat herausgefunden, dass Lösungen von (6) immer auf einer Ebene bleiben und Ellypsen,
Hyperbeln oder Parabeln beschreiben (für die Erde ist die Lösung eine Ellypse).
Gewöhnliche Differentialgleichungen werden nach ihrer Ordnung klassifiziert; die
Ordnung der Differentialgleichung ist die Ordnung der höchsten Ableitung in der Gleichung. Eine Differentialgleichung erster Ordnung ist eine Differentialgleichung der Form
y 0 (x) = f (x, y(x)) für die n unbekannten Funktionen y(x) = (y1 (x), . . . , yn (x)) einer reellen Variable x ∈ R. Eine Differentialgleichung m-ter Ordnung hat die Form
y (m) (x) = f (x, y(x), y 0 (x), . . . , y (m−1) (x)). Die Lösung einer Differentialgleichung ist normalerweise nicht eindeutig. Sie wird aber oft eindeutig durch Spezifizierung von geeigneten Anfangsbedingungen. Z.B. eine Gleichung erster Ordnung für die n unbekannten Funktionen y(x) = (y1 (x), . . . , yn (x)) wird oft eindeutig, falls wir die Bedingung
(0)
(0)
(0)
(0)
y(x0 ) = (y1 , . . . , yn ) für ein x0 ∈ R und für einen Vektor (y1 , . . . , yn ) ∈ Rn verlangen. Gleichungen höherer Ordnung brauchen natürlich mehr Anfangsbedingungen.
Eine Gleichung m-ter Ordnung wird oft eindeutig, falls wir Anfangsbedingungen für
y, y 0 , . . . , y (m−1) verlangen. Eine Differentialgleichung mit Anfangsbedingungen wird als
ein Anfangswertproblem oder ein Cauchy-Problem bezeichnet.
Bei der Untersuchung von gewöhnlichen Differentialgleichungen werden für uns die
folgenden Fragen eine wichtige Rolle spielen: Existiert eine Lösung der Differentialgleichung? Ist die Lösung unter Berücksichtigung von geeigneten Anfangsbedingungen
eindeutig (d.h. ist die Lösung des Anfangswertproblems eindeutig)? Ist es möglich die
Lösung explizit zu finden? Welche Methoden können verwendet werden, um die Lösung
einer Differentialgleichung zu finden? Wie hängt die Lösung von den Anfangsbedingungen ab (Stabilitätstheorie für Differentialgleichungen)? Wir werden sehen, es ist nur
selten möglich die Lösung einer Differentialgleichung explizit zu schreiben. Dagegen
können Existenz und Eindeutigkeit der Lösungen unter allgemeinen Voraussetzungen
gezeigt werden.
2.1
Differentialgleichungen erster Ordnung, elementare Lösungsmethoden
Wir betrachten hier gewöhnliche Differentialgleichungen erster Ordnung.
11
Definition 2.1. Sei n ≥ 1, U ⊂ Rn+1 , f ∈ C(U ; Rn ). Dann ist
y 0 (x) = f (x, y(x))
(7)
eine gewöhnliche Differentialgleichung erster Ordnung. Eine Lösung dieser Differentialgleichung auf einem Intervall I ⊂ R ist eine Funktion y ∈ C 1 (I; Rn ) so, dass
(x, y(x)) ∈ U und (7) erfüllt für alle x ∈ I ist. Für x0 ∈ R, y0 ∈ Rn mit (x0 , y0 ) ∈ U
heisst
0
y (x) = f (x, y(x))
(8)
y(x0 ) = y0
ein Anfangswertproblem oder ein Cauchy-Problem. Eine Lösung des Anfangswertproblems (8) ist eine Lösung der Differentialgleichung (7), die auch die Anfangsbedingung
y(x0 ) = y0 erfüllt (insbesondere muss x0 ∈ I sein). Ist n = 1, so heisst die Differentialgleichung skalar (die gesuchte Funktion hat Werten in R). Ist dagegen n > 1, so heisst
die Differentialgleichung vektoriell (man spricht in diesem Fall von einem System von
Diferentialgleichungen).
Wir betrachten ein paar Beispiele von Differentialgleichungen, wo die Lösungen explizit berechnet werden können (der Einfachheit halber betrachten wir hier Beispiele von
skalaren Gleichungen; wir werden einige Beispiele von vektoriellen Gleichungen später
betrachten, wenn wir lineare Differentialgleichungen untersuchen werden).
Beispiele:
• Sei n = 1, I ⊂ R ein offenes Intervall, U = I × R, und f (x, y) = g(x) (unabhängig
von y), für ein g ∈ C(I). Wir betrachten die Differentialgleichung
ϕ0 (x) = g(x)
Sei G ∈ C 1 (I) eine Stammfunktion von g, mit G0 = g. Dann ist G eine Lösung der
Differentialgleichung. Sei ϕ eine andere Lösung der Differentialgleichung. Dann gilt
(ϕ−G)0 (x) = 0 für alle x ∈ I. Das zeigt, dass jede Lösung die Form ϕ(x) = G(x)+c
hat, für eine Konstante c ∈ R. Betrachten wir nun das Anfangswertproblem
0
ϕ (x) = g(x)
ϕ(x0 ) = y0
für ein x0 ∈ I und ein y0 ∈ R. Die Lösung des Anfangswertproblems ist insbesondere die Lösung der Differentialgleichung und hat deswegen die Form
ϕ(x) = G(x) + c
Die Bedingung
y0 = ϕ(x0 ) = G(x0 ) + c
⇒
c = y0 − G(x0 )
bestimmt die Konstante c eindeutig. Die einzige Lösung des Anfangswertproblems
ist aus
ϕ(x) = G(x) − G(x0 ) + y0
12
gegeben. Bemerke, dass die eindeutige Lösung auch als
Z x
g(t)dt
ϕ(x) = y0 +
x0
geschrieben werden kann.
• Sei wieder n = 1, U = R2 , und f (x, y) = −y. Die Differentialgleichung (7) nimmt
dann die Form
ϕ0 (x) = −ϕ(x)
(9)
Die Funktion ϕ(x) = ce−x erfüllt diese Differentialgleichung auf R, für beliebige
c ∈ R. Wir behaupten jede Lösung auf R hat diese Form. Sei in der Tat ϕ eine
Lösung von (9) auf R. Dann gilt
d x
(e ϕ(x)) = ex (ϕ(x) + ϕ0 (x)) = 0
dx
für alle x ∈ R. Es existiert also eine Konstante c ∈ R mit ex ϕ(x) = c für alle x ∈ R,
d.h. mit ϕ(x) = ce−x für alle x ∈ R. Betrachten wir nun das Anfangswertproblem
0
ϕ (x) = −ϕ(x)
ϕ(x0 ) = y0
für x0 , y0 ∈ R. Die Lösung des Anfangswertproblem hat die Form y(x) = ce−x .
Die Anfangsbedingung y(x0 ) = y0 bestimmt die Konstante c ∈ R durch
y0 = y(x0 ) = ce−x0
⇒
c = y 0 e x0
Die eindeutige Lösung des Anfangswertproblems ist also y(x) = y0 exp(−(x − x0 )).
• Wir betrachten das Anfangswertproblem
0
ϕ (x) = a(ϕ(x) − bϕ2 (x))
ϕ(0) = y0
(10)
für a, b, y0 > 0. Die Differentialgleichung in (10) heisst die logistische Gleichung
oder die Differentialgleichung des beschränkten exponentiellen Wachstums, und
hat z.B. Anwendungen in der Biologie (die Lösung beschreibt das Wachstum einer
idealen Bakterienpopulation). Um die Gleichung zu lösen bemerken wir, dass
1
ϕ0 (x) = a
ϕ(x) − bϕ2 (x)
Integration über x gibt
Z x
0
1
ϕ0 (t)dt = a
ϕ(t) − bϕ2 (t)
Z
x
dt = ax
0
Wir substituieren y = ϕ(t) und bekommen
Z ϕ(x)
1
dy = ax
2
ϕ(0) y − by
13
Aus
1
1
1
b
=
= +
2
y − by
y(1 − by)
y 1 − by
finden wir
log
ϕ(x)(1 − by0 )
= ax
y0 (1 − bϕ(x))
Nach leichter algebraischer Manipulationen bekommen wir die eindeutige Lösung
des Anfangswertsproblems
ϕ(x) =
y0 eax
1 + by0 (eax − 1)
Im letzten Beispiel haben wir die Methode der Trennung der Variablen benutzt. Wir
zeigen im nächsten Satz, dass diese Methode immer angewandt werden kann, falls die
Funktion f (x, y) auf der rechten Seite von (7) das Produkt einer Funktion von x mit
einer Funktion von y ist.
Satz 2.2. Seien I, J ⊂ R offene Intervalle, g ∈ C(I), h ∈ C(J), mit 0 6∈ h(J). Sei
(x0 , y0 ) ∈ I × J. Seien
Z x
Z y
1
G(x) =
g(t)dt, und H(y) =
dt
x0
y0 h(t)
Weiter, sei I 0 ⊂ I ein offenes Intervall mit G(I 0 ) ⊂ H(J) und x0 ∈ I 0 . Dann existiert
genau eine Lösung ϕ ∈ C 1 (I 0 ) des Anfangswertproblems
0
ϕ (x) = g(x)h(ϕ(x))
(11)
ϕ(x0 ) = y0
Ferner ist ϕ : I 0 → J die einzige Funktion mit
H(ϕ(x)) = G(x)
für alle x ∈ I 0 .
(12)
Bemerkung: Die Aussage impliziert, dass Differentialgleichungen der Form (11) durch
Trennung der Variablen gelöst werden können. Das bedeutet, dass (11) zunächst als
1
ϕ0 (x) = g(x)
h(ϕ(x))
umgeschrieben werden kann. Integration über x ergibt dann
Z x
Z x
1
0
ϕ (t)dt =
g(t)dt
x0 h(ϕ(t))
x0
und damit
Z
ϕ(x)
ϕ(x0 )
1
dy =
h(y)
Z
x
g(t)dt
x0
und
H(ϕ(x)) = G(x)
Die eindeutige Lösung des Anfangswertproblems kann dann durch Umkehrung der Funktion H bestimmt werden.
14
Beweis: Da H ∈ C 1 (J) mit H 0 (y) = 1/h(y) 6= 0 für alle y ∈ J ist H injektiv. Damit ist
H : J → H(J) bijektiv und also invertierbar. Sei T : H(J) → J die Umkehrfunktion.
Dann ist T ∈ C 1 (H(J)) mit T 0 (z) = 1/H 0 (T (z)) = h(T (z)), für alle z ∈ H(J). Die
Gleichung (12) definiert eindeutig eine Funktion ϕ = T ◦ G ∈ C 1 (I 0 ). Diese Funktion
erfüllt ϕ0 (x) = h(T ◦ G(x))G0 (x) = h(ϕ(x))g(x) und ϕ(x0 ) = T ◦ G(x0 ) = T (0) = y0 .
D.h. ϕ ist eine Lösung des Anfangswertsproblems. Das zeigt die Existenz der Lösung.
Es bleibt die Eindeutigkeit zu zeigen. Sei dazu ϕ
e ∈ C 1 (I 0 ) eine andere Lösung des
Anfangswertproblems. Es folgt, dass ϕ(I
e 0 ) ⊂ J. Sei ψ = H ◦ ϕ
e − G. Dann gilt
ψ 0 = (H 0 ◦ ϕ)
eϕ
e0 − G0 =
1
ϕ
e0 − g = 0
h◦ϕ
e
auf I 0 , Damit muss ψ konstant auf I 0 sein. Da aber ψ(x0 ) = H(ϕ(x
e 0 )) − G(x0 ) = 0,
muss ψ(x) = 0 für alle x ∈ I 0 . D.h. H ◦ ϕ
e = G auf I 0 , und deswegen, ϕ
e = ϕ. Das zeigt
die Eindeutigkeit der Lösung.
2.2
Existenz und Eindeutigkeit
In diesem Abschnitt möchten wir zeigen, dass unter geeigneten Voraussetzungen an der
Funktion f , das Anfangswertproblem (8) eine eindeutige Lösung besitzt. Dazu werden
wir den Banachschen Fixpunktsatz anwenden. Erinnere aus Analysis 1, dass ein metrischer Raum vollständig heisst, wenn jede Cauchy-Folge in M konvergiert. Wir haben in
Analysis 1 gezeigt, dass Rn , versehen mit der Standardmetrik vollständig für alle n ∈ N
ist.
Satz 2.3 (Banachscher Fixpunktsatz). Sei M , versehen mit der Metrik d, ein vollständiger metrischer Raum. T : M → M eine Abbildung mit der Eigenschaft, dass es eine
Konstante 0 < c < 1 existiert, mit
d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 )
für alle x1 , x2 ∈ M (eine solche Abbildung heisst eine Kontraktion; Kontraktionen sind
insbesondere stetig). Dann gibt es genau ein x ∈ M mit T (x) = x (ein solches x
heisst ein Fixpunkt der Abbildung T ; der Satz besagt, dass jede Kontraktion auf einem
vollständigen metrischen Raum genau einen Fixpunkt besitzt).
Beweis: Wir zeigen zunächst die Eindeutigkeit. Nehme an, dass x1 , x2 zwei Fixpunkte
der Abbildung T sind. Dann gilt
d(x1 , x2 ) = d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 )
Da aber c < 1 ist diese Ungleichung nur möglich, falls d(x1 , x2 ) = 0. Also x1 = x2 .
Nun zeigen wir die Existenz eines Fixpunktes. Sei x0 ∈ M beliebig. Dann definieren wir
rekursiv eine Folge xn in M durch x1 = T (x0 ) und xn+1 = T (xn ). Für n ≥ 1 gilt dann
d(xn+1 , xn ) = d(T (xn ), T (xn−1 )) ≤ cd(xn , xn−1 ) ≤ · · · ≤ cn d(x1 , x0 )
15
Es folgt, dass, für beliebige n > m,
d(xn , xm ) ≤ d(xn , xn−1 ) + d(xn−1 , xn−2 ) + · · · + d(xm+1 , xm )
n
X
=
d(xj , xj−1 )
j=m+1
≤ d(x1 , x0 )
≤ d(x1 , x0 )
n
X
cj
j=m+1
∞
X
cj =
j=m+1
d(x1 , x0 ) m+1
c
→0
1−c
für m → ∞. D.h. xn ist eine Cauchy-Folge auf M . Da M vollständig ist, muss xn
konvergieren. Sei x = limn→∞ xn . Da aber T stetig ist, muss
T (x) = lim T (xn ) = lim xn+1 = x
n→∞
n→∞
Also, x ist ein Fixpunkt von T .
Bemerkung: Der Beweis besagt, dass für jede x0 ∈ M , die Folge T ◦ T ◦ · · · ◦ T (x0 ) gegen
dem Fixpunkt konvergiert. In praktischen Situationen, ergibt dies ein Verfahren, um
den Fixpunkt von T zu approximieren.
Um die Existenz und Eindeutigkeit der Lösung von Anfangswertprobleme zu beweisen, werden wir den Banach’schen Fixpunktsatz auf dem Raum
C(I, Rn ) = {f : I → Rn stetig }
anwenden. Hier ist I ⊂ R ein kompaktes Intervall. Dieser Raum ist mit der Metrik
d(f, g) = sup |f (x) − g(x)|
x∈I
versehen. Wir haben in Analysis 1 gezeigt, dass C(I, Rn ) vollständig ist (siehe Proposition 6.25 und die Diskussion danach; bemerke, dass die Kompaktheit von I impliziert,
wegen dem Satz von Maximum, dass jede stetige Funktion auf I auch beschränkt ist.
Deswegen ist C(I; Rn ) = Cb (I; Rn )). Das nächsten Lemma impliziert dann, dass jede
abgeschlossene Teilmenge von C(I; Rn ) vollständig ist.
Lemma 2.4. Sei M ein vollständiger metrischer Raum, und A ⊂ M abgeschlossen.
Dann ist A vollständig (bezüglich der von M induzierten Metrik).
Beweis: Sei xn eine Cauchy-Folge in A. Dann ist xn auch eine Cauchy-Folge in M . Die
Vollständigkeit von M impliziert, dass xn in M konvergent. Sei x ∈ M der Grenzwert
von xn , als Folge in M . Da A abgeschlossen ist und xn ∈ A für alle n ist, muss dann
aber x ∈ A sein. Damit ist xn auch in A konvergent.
Ein anderer Begriff spielt bei der Untersuchung der Existenz und Eindeutigkeit
von Lösungen von Anfangswertproblemen eine wichtige Rolle. Das ist der Begriff der
Lipschitz-Stetigkeit.
16
Definition 2.5. Seien (M1 , d1 ), (M2 , d2 ) zwei metrische Räume, A ⊂ M1 . Eine Funktion f : A → M2 heisst Lipschitz-stetig falls eine Konstante L > 0 existiert, mit
dM2 (f (x), f (y)) ≤ LdM1 (x, y)
für alle x, y ∈ A.
Bemerkungen:
• Jede Lipschitz-stetige Funktion ist gleichmässig stetig und damit auch stetig.
√
• Nicht alle gleichmässig stetigen Funktionen sind Lipschitz-stetig. Z.B. f (x) = x
auf [0; 1] ist gleichmässig stetig, aber nicht Lipschitz-stetig. Tatsache (Übung):
Eine differenzierbare Funktion f : (a; b) → R ist genau dann Lipschitz-stetig, falls
die Ableitung beschränkt ist.
Wir sind nun bereit, um Existenz und Eindeutigkeit von Lösungen von Anfangswertprobleme der Form (8) zu zeigen.
bezeichnen im Folgenden mit k.k die euklidische
PWir
n
n
2
Norm auf R , die durch kak = j=1 |aj |2 für a = (a1 , . . . , an ) ∈ Rn definiert ist.
Satz 2.6 (Picard-Lindelöf). Sei Ω ⊂ R×Rn offen, (x0 , y0 ) ∈ Ω, f ∈ C(Ω; Rn ) Lipschitzstetig in der zweiten Variablen. Das bedeutet, dass L > 0 mit
kf (x, y) − f (x, y 0 )k ≤ Lky − y 0 k
für alle x ∈ R, y ∈ Rn , y 0 ∈ Rn mit (x, y), (x, y 0 ) ∈ Ω existiert. Dann gibt es ein ε > 0,
so dass das Anfangswertproblem
0
ϕ (x) = f (x, ϕ(x))
(13)
ϕ(x0 ) = y0
eine eindeutige Lösung ϕ ∈ C 1 ([x0 − ε; x0 + ε]; Rn ) besitzt.
Bemerkung: Satz 2.6 zeigt nur die Existenz und Eindeutigkeit einer lokalen Lösung,
in der Nähe vom Punkt x0 , wo die Anfangsbedingung gegeben ist. Wir werden später
sehen, unter welchen Bedingungen die Existenz und Eindeutigkeit einer globalen Lösung
gezeigt werden kann.
Der Beweis benutzt die Tatsache, dass eine Funktion ϕ ∈ C([x0 − ε; x0 + ε], Rn )
genau dann eine Lösung des Anfangswertproblem (13) ist, wenn
Z x
ϕ(x) = y0 +
f (t, ϕ(t))dt
(14)
x0
Aus (14) folgt in der Tat sofort, dass ϕ(x0 ) = y0 ist. Ferner, aus der Stetigkeit von ϕ
und von f , und aus dem Hauptsatz der Integralrechnung folgt auch, dass ϕ ∈ C 1 ([x0 −
ε; x0 + ε]; Rn ) mit ϕ0 (x) = f (x, ϕ(x)) gilt. Anderseits, falls ϕ ∈ C 1 ([x0 − ε; x0 + ε], Rn )
eine Lösung von (13) ist, dann folgt
Z x
Z x
0
ϕ(x) = ϕ(x0 ) +
ϕ (t)dt = y0 +
f (t, ϕ(t))dt .
x0
x0
17
Beweis: Sei δ > 0 so klein, dass K = [x0 − δ; x0 + δ] × Bδ (y0 ) ⊂ Ω. Da K ∈ Rn+1
kompakt und f stetig ist, folgt, dass
M := sup{kf (x, y)k : (x, y) ∈ K} < ∞
Wir wählen nun
δ
δ
0 < ε ≤ min δ,
,
2L 2M
(15)
und wir setzen I = [x0 − ε; x0 + ε]. Wir definieren
A = {g ∈ C(I; Rn ) : kg(x) − y0 k ≤ δ für alle x ∈ I}
A ist dann eine abgeschlossene Teilmenge von C(I; Rn ), versehen mit der Metrik d(f, g) =
supx∈I |f (x) − g(x)| (Beweis: Übung). Es folgt aus Lemma 2.4, dass A ein vollständiger
metrischer Raum ist. Wir definieren nun die Abbildung T : A → C(I; Rn ) durch
Z x
(T φ)(x) = y0 +
f (t, φ(t))dt .
x0
Offenbar ist T φ ∈ C(I; Rn ), für alle φ ∈ A (d.h. die Abbildung ist wohldefiniert). Weiter
gilt, für alle x ∈ I und alle φ ∈ A,
Z
k(T φ)(x) − y0 k = x
x0
f (t, φ(t))dt
≤ ε sup{kf (t, φ(t))k : t ∈ I}
≤ ε sup{kf (x, y)k : x ∈ I, y ∈ Bδ (y0 )} ≤ ε sup{kf (x, y)k : (x, y) ∈ K} = εM ≤ δ/2
aus der Wahl (15). Damit gilt T φ ∈ A, für alle φ ∈ A. Weiter, für φ, ψ ∈ A, finden wir
Z
d(T φ, T ψ) = sup k(T φ)(x) − (T ψ)(x)k = sup x∈I
x∈I
x
x0
(f (t, φ(t)) − f (t, ψ(t))) dt
1
≤ ε sup kf (t, φ(t)) − f (t, ψ(t))k ≤ Lε sup kφ(t) − ψ(t)k = εLd(φ, ψ) ≤ d(φ, ψ)
2
t∈I
t∈I
Damit ist T : A → A eine Kontraktion. Es folgt aus Satz 2.3, dass ϕ ∈ A mit T (ϕ) = ϕ.
Da ϕ ∈ C(I; Rn ) ist t → f (t, ϕ(t)) stetig, und damit ϕ = T ϕ ∈ C 1 ([x0 − ε; x0 + ε]; Rn )
existiert. Ferner gilt ϕ(x0 ) = (T ϕ)(x0 ) = y0 und, aus dem Hauptsatz der Integralrechnung,
ϕ0 (x) = f (x, ϕ(x))
Damit ist ϕ eine Lösung des Anfangswertproblems (13) auf I (wir haben hier das Argument unten (14) wiederholt). Das zeigt die Existenz einer Lösung. Wir zeigen nun
die Eindeutigkeit. Sei dazu ψ ∈ C 1 ([x0 − ε; x0 + ε]; Rn ) eine andere Lösung von (13).
Ist ψ ∈ A, so muss T ψ = ψ, weil ψ eine Lösung von (13) ist. Dann muss aber ψ = ϕ,
weil ϕ der einzelne Fixpunkt von T ist. Ist ψ 6∈ A, dann muss es ein x ∈ I geben, mit
kψ(x)−y0 k > δ. O.B.d.A. nehmen wir an, es existiert x ∈ I, x > x0 mit kψ(x)−y0 k > δ.
Wir setzen dann
x1 = inf{x ∈ I, x > x0 : kψ(x) − y0 k > δ}
18
Aus Stetigkeit von ψ muss dann kψ(x1 ) − y0 k = δ sein. Also
Z x1
δ = kψ(x1 ) − y0 k = f (t, ψ(t))dt
≤ ε sup{kf (x, y)k : (x, y) ∈ K} ≤ δ/2
x0
was ein Widerspruch ist.
Bemerkungen:
• Die Lipschitz-Bedingung ist tatsächlich für die Existenz der Lösung nicht notwendig (Stetigkeit von f ist für die Existenz hinreichend). Dagegen ist die LipschitzBedingung für die Eindeutigkeit der Lösung wichtig. Betrachte in der Tat das
Anfangswertproblem
p
0
ϕ (x) = |ϕ(x)|
ϕ(0) = 0
p
In diesem Fall ist f (x, y) = |y| stetig, aber nicht Lipschitz-stetig in der Nähe
von y = 0. Für ein beliebiges a ≥ 0 ist dann die Funktion
0
falls x < a
ϕ(x) =
1
2
(x
−
a)
falls
x≥a
4
eine Lösung. Ferner ist auch ϕ(x) = 0 eine Lösung. Es existieren also unendlich
viele Lösungen dieses Anfangswertproblems.
• Satz 2.6 besagt die Existenz und Eindeutigkeit einer Lösung auf einem genügend
kleinen Intervall um x0 . Im Allgemeinen existieren keine globalen Lösungen. Betrachte in der Tat das Anfangswertproblem
0
ϕ (x) = 2xϕ2 (x)
(16)
ϕ(0) = 1
Durch Trennung der Variablen finden wir die eindeutige Lösung
ϕ(x) =
1
1 − x2
auf dem Intervall (−1; 1). Auf dem Intervall [a; b] existiert also keine Lösung, falls
a ≤ −1 oder b ≥ 1 (insbesondere existiert keine Lösung auf R.
Aus der letzten Bemerkung stellt sich die Frage, ob es möglich ist, unter stärkeren
Annahmen an f , die Existenz und Eindeutigkeit einer globalen Lösung zu zeigen. Die
Antwort ist ja: Eine Lösung auf einem vorgegebenen Intervall [a; b] existiert immer (und
ist eindeutig), falls die Funktion f (x, y) in der Variablen y auf ganz Rn die LipschitzBedingung erfüllt (die Funktion f (x, y) = xy 2 , die in (16) vorkommt, ist nur für y in
einem kompakten Intervall Lipschitz-stetig). Das ist der Inhalt des nächsten Satzes.
Satz 2.7 (Picard-Lindelöf, globale Version). Sei I = [a; b] ⊂ R ein nicht-leeres kompaktes Intervall, x0 ∈ I, f ∈ C(I × Rn , Rn ) Lipschitz-stetig in der zweiten Variablen. D.h.
es existiere L > 0 mit
kf (x, y) − f (x, y 0 )k ≤ Lky − y 0 k
19
für alle x ∈ I, y, y 0 ∈ Rn . Dann hat für jede y0 ∈ Rn das Anfangswertproblem
0
ϕ (x) = f (x, ϕ(x))
ϕ(x0 ) = y0
(17)
eine eindeutige Lösung ϕ ∈ C 1 (I; Rn ).
Bemerkung: Satz 2.7 kann auch benutzt werden, um die Existenz und Eindeutigkeit
von Lösungen auf R zu zeigen. In der Tat eine Lösung auf R existiert und genau dann
eindeutig ist, wenn sie auf dem Intervall [−m; m] existiert und ist eindeutig, für alle
m ∈ N.
Beweis: Für ϕ ∈ C(I; Rn ), definieren wir
kϕkL = sup e−2L|x−x0 | kϕ(x)k
x∈[a;b]
Es ist einfach zu überprüfen, dass k.kL eine Norm ist. Ferner, es gilt
e−2L(b−a) kϕk∞ ≤ kϕkL ≤ kϕk∞
(18)
wobei kϕk∞ = supx∈[a;b] kϕ(x)k. Sei ϕn eine Folge in C(I; Rn ). Dann impliziert (18):
ϕn konvergiert bezüglich k.kL ⇐⇒ ϕn konvergiert bezüglich k.k∞ , und
ϕn ist Cauchy-Folge bezüglich k.kL ⇐⇒ ϕn ist Cauchy-Folge bezüglich k.k∞ .
(Man sagt, die zwei Normen k.k∞ und k.kL sind äquivalent). Es folgt insbesondere, dass
(C(I; Rn ), k.kL ) ein vollständiger metrischer Raum ist. Auf C(I; Rn ) definieren wir nun
die Abbildung
Z
x
(T φ)(x) = y0 +
f (t, φ(t))dt
x0
Dann gilt, für beliebige x ∈ [a; b], x > x0 ,
Z x
Z x
kf (t, φ(t)) − f (t, ψ(t))kdt
k(T φ)(x) − (T ψ)(x)k = (f (t, φ(t)) − f (t, ψ(t)))dt
≤
x0
Zx0x
Z x
≤L
kφ(t) − ψ(t)kdt = L
e2L|t−x0 | e−2L|t−x0 | kφ(t) − ψ(t)kdt
x0
x0
Z x
1
2L(t−x0 )
≤ Lkφ − ψkL
e
dt ≤ e2L|x−x0 | kφ − ψkL
2
x0
Analog gilt auch für x ∈ [a; b] mit x < x0 ,
1
k(T φ)(x) − (T ψ)(x)k ≤ e2L|x−x0 | kφ − ψkL
2
Damit gilt
1
e−2L|x−x0 | k(T φ)(x) − (T ψ)(x)k ≤ kφ − ψkL
2
für alle x ∈ [a; b] und also
1
kT φ − T ψkL ≤ kφ − ψkL
2
20
Es folgt, dass T eine Kontraktion ist. Das impliziert, dass es einen eindeutigen Fixpunkt
ϕ ∈ C(I; Rn ), mit T ϕ = ϕ gibt. Es ist dann einfach zu sehen, dass ϕ ∈ C 1 (I; Rn ) eine
Lösung von (17) ist. Zur Eindeutigkeit: Ist ψ ∈ C 1 (I; Rn ) eine Lösung von (17), so ist
insbesondere ψ ∈ C(I; Rn ). Damit kann man T auf ψ anwenden. Da ψ eine Lösung
des Anfangswertproblem ist, muss aber T ψ = ψ. Damit ist ψ = ϕ, weil T nur einen
Fixpunkt haben kann.
2.3
Differentialgleichungen höherer Ordnung
Differentialgleichungen höherer Ordnung hängen auch von den höheren Ableitungen der
gesuchten Funktion y(x) ab.
Definition 2.8. Seien n, k ∈ N\{0} fest, Ω ⊂ R × Rn×k offen, f ∈ C(Ω, Rn ). Dann ist
y (k) (x) = f (x, y(x), y 0 (x), . . . , y (k−1) (x))
(19)
eine Differentialgleichung k-ter Ordnung. Eine Lösung von (19) auf einem Intervall
I ⊂ R ist eine Funktion y ∈ C k (I; Rn ) so, dass
x, y(x), y 0 (x), . . . , y (k) (x) ∈ Ω
und (19) gilt, für alle x ∈ I. Für gegebene (x0 , y0 , y1 , . . . , yk ) ∈ Ω ist
(k)
y = f (x, y(x), . . . , y (k−1) (x))
y (j) (x0 ) = yj ,
für j = 1, 2, . . . , (k − 1)
(20)
ein Anfangswertproblem oder ein Cauchy-Problem k-ter Ordnung.
Man kann Resultate über die Existenz und Eindeutigkeit der Lösung von Anfangswertproblemen k-ter Ordnung aus den entsprechenden Resultaten für Gleichungen erster Ordnung herleiten, indem man bemerkt, dass eine Gleichung k-ter Ordnung zu
einer Gleichung erster Ordnung in mehreren Variablen äquivalent ist. In der Tat, das
Anfangswertproblem (20) kann wie folgt umgeschrieben werden. Wir definieren die neue
Funktion ψ(x) = (y(x), y 0 (x), . . . , y (k−1) (x)). Dann ist ψ eine Funktion mit Werten in
Rn×k . Wir definieren ferner
fe(x, z0 , z1 , . . . , zk−1 ) := (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 ))
für alle (x, z0 , z1 , . . . , zk−1 ) ∈ Ω. Auch fe hat Werte in Rn×k . Es ist dann leicht zu sehen,
dass (20) zu dem Anfangswertproblem
ψ 0 (x) = fe(x, ψ(x))
mit der Anfangsbedingung ψ(x0 ) = (y0 , y1 , . . . , yk−1 ) ∈ Rn×k äquivalent ist. Damit
haben wir ein Problem k-ter Ordnung in Dimension n in einem Problem erster Ordnung
in Dimension nk umgeschrieben. Wir erhalten deswegen das folgende Existenz- und
Eindeutigkeitsresultat.
21
Satz 2.9. Seien n, k ∈ N\{0} fest, Ω ⊂ R × Rn×k offen, f ∈ C(Ω, Rn ) Lipschitz-stetig
in alle Argumenten nach dem ersten. D.h. es existiere L > 0 mit
f (x, z0 , z1 , . . . , zk−1 ) − f (x, z00 , z10 , . . . , z 0 ) ≤ Lkz − z 0 k
k−1
0
für alle x ∈ R, z = (z0 , . . . , zk−1 ), z 0 = (z00 , . . . zk−1
) ∈ Rn×k mit (x, z), (x, z 0 ) ∈ Ω. Sei
(x0 , y0 , . . . , yk−1 ) ∈ Ω. Dann existiert ein ε > 0 so, dass das Anfangswertproblem (20)
eine eindeutige Lösung ϕ ∈ C k ([x0 − ε; x0 + ε], Rn ) hat.
Beweis: Es genügt zu zeigen, dass die Funktion
fe(x, z0 , z1 , . . . , zk−1 ) = (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 ))
Lipshitz-stetig in z = (z0 , z1 , . . . , zk−1 ) ist. Dazu bemerken wir, dass
e
0
, f (x, z) − f (x, z 0 ))
f (x, z) − fe(x, z 0 ) = (z1 − z10 , z2 − z20 , . . . , zk−1 − zk−1
≤ kz − z 0 k + kf (x, z) − f (x, z 0 )k ≤ (L + 1)kz − z 0 k .
2.4
Lineare Differentialgleichungen
Die Differentialgleichung erster Ordnung
y 0 (x) = f (x, y(x))
(21)
heisst linear, falls die Funktion f (x, y) affin in der Variable y ∈ Rn ist, d.h. falls eine offene Teilmenge A ⊂ R, eine matrixwertige Funktion a ∈ C(A; Rn×n ) und eine
vektorwertige Funktion b ∈ C(A; Rn ) existieren mit
f (x, y) = a(x)y + b(x)
(22)
Für ein beliebiges x ∈ A bezeichnet hier a(x)y die Anwendung der n × n Matrix a(x)
auf dem Vektor y ∈ Rn . Die Differentialgleichung (21) heisst linear und homogen, falls
f (x, y) linear in y ist, d.h. falls f die Form (22) hat, mit b = 0.
Skalare lineare Differentialgleichungen: Wir betrachten zunächst den skalaren Fall, mit
n = 1. Sei I ⊂ R ein Intervall und a ∈ C(I). Für x0 ∈ I und y0 ∈ R beliebig, untersuchen
wir das skalare, lineare und homogene Anfangswertproblem
(
y 0 (x) = a(x)y(x)
y(x0 ) = y0
Das Anfangswertproblem hat eine eindeutige Lösung (aus Satz 2.7). Durch Trennung
der Variablen finden wir, dass die eindeutige Lösung aus
Z x
ϕ(x) = y0 exp
a(t)dt
x0
gegeben ist.
22
Sei nun, wie vorher, I ⊂ R ein Intervall und a ∈ C(I). Weiter, sei b ∈ C(I). Für
beliebige x0 ∈ I und y0 ∈ R, untersuchen wir das skalare, lineare (aber inhomogene)
Anfangswertproblem
(
y 0 (x) = a(x)y(x) + b(x)
y(x0 ) = y0
Aus Sazt 2.7, hat dieses Anfangswertproblem eine eindeutige Lösung. Die Lösung kann
durch die Methode der Variation der Konstante gefunden werden. Man findet zunächst
die allgemeine Lösung der homogenen Differentialgleichung y 0 (x) = a(x)y(x), die aus
Z x
y(x) = c exp
a(t)dt
x0
für eine beliebige Konstante c ∈ R gegeben ist. Um die inhomogene Gleichung zu lösen,
betrachtet man den Ansatz
Z x
y(x) = c(x) exp
a(t)dt
x0
bei welchem die Konstante c aus der Lösung der homogenen Gleichung nun von x
abhängt. Dann ist
Z x
Z x
0
0
y (x) = c (x) exp
a(t)dt + c(x)a(x) exp
a(t)dt
x0
x0
Z x
0
= c (x) exp
a(t)dt + a(x)y(x)
x0
Wir sehen also, dass y(x) eine Lösung des inhomogenen Anfangswertproblems ist, g.d.w.
Z x
Z x
0
0
a(t)dt = b(x)
⇐⇒
c (x) = b(x) exp −
a(t)dt
c (x) exp
x0
x0
Wir finden also, dass die eindeutige Lösung des inhomogenen Anfangswertproblems aus
Z t
Z x
Z x
ϕ(x) = y0 +
b(t) exp −
a(s)ds dt exp
a(t)dt
x0
x0
x0
gegeben ist.
Vektorielle lineare Differentialgleichungen: Wir kommen nun zum allgemeinen Fall n ≥
1. Sei I ⊂ R ein Intervall, x0 ∈ I, a ∈ C(I, Rn×n ) eine matrix-wertige stetige Funktion
auf I. Wir untersuchen das lineare, homogene Anfangswertproblem
0
y (x) = a(x)y(x)
(23)
y(x0 ) = y0
für ein beliebiges y0 ∈ Rn .
Es lohnt sich in diesem Fall zunächst eine matrix-wertige Differentialgleichung zu
lösen. Aus Satz 2.7 folgt nämlich, dass eine eindeutige Lösung ϕ ∈ C 1 (I, Rn×n ) des
Anfangswertproblems
0
ϕ (x) = a(x)ϕ(x)
(24)
ϕ(x0 ) = 1
23
existiert, wobei 1 die Identitätsmatrix auf Rn ist. Bemerke, dass, für alle x ∈ I, ϕ(x)
hier eine n × n Matrix bezeichnet. Die Ableitung ϕ0 (x) ist wieder eine Matrix, mit
Einträgen (ϕ0 (x))ij = ϕ0ij (x), wobei ϕij (x) die Einträge von ϕ(x) sind (d.h. die Matrix
wird Einträge-weise differenziert). Das Produkt a(x)ϕ(x) soll dann als Produkt von
zwei Matrizen verstanden werden. Die Matrixgleichung (24) ist einfach ein System von
n2 Differentialgleichungen, oder äquivalent, eine vektorielle Differentialgleichung für eine
Unbekannte ϕ(x) mit n2 Komponenten (deswegen kann man Satz 2.7 anwenden). Analog
existiert eine eindeutige Lösung ψ ∈ C 1 (I; Rn×n ) des Anfangswertproblems
0
ψ (x) = −ψ(x)a(x)
(25)
ψ(x0 ) = 1
Wir behaupten nun, dass
ψ(x)ϕ(x) = 1
für alle x ∈ I. In der Tat, die Anfangsbedingung impliziert, dass ψ(x0 )ϕ(x0 ) = 1.
Anderseits
d
[ψ(x)ϕ(x)] = ψ 0 (x)ϕ(x) + ψ(x)ϕ0 (x) = −ψ(x)a(x)ϕ(x) + ψ(x)a(x)ϕ(x) = 0
dx
D.h. ψ(x)ϕ(x) ist konstant auf I und deswegen ψ(x)ϕ(x) = 1, für alle x ∈ I. Das
impliziert insbesondere, dass die Lösungen ϕ(x) und ψ(x) invertierbar sind, für alle
x ∈ I.
Wir können nun die Lösung ϕ(x) des Anfangswertproblems (24) benutzen, um die
Lösung von (23) zu konstruieren. Aus Satz 2.7 wissen wir nämlich schon, dass (23) eine
eindeutige Lösung besitzt. Wir behaupten nun, dass die eindeutige Lösung von (23) aus
y(x) = ϕ(x)y0 gegeben ist. In der Tat, y(x0 ) = ϕ(x0 )y0 = 1y0 = y0 und
y 0 (x) = ϕ0 (x)y0 = a(x)ϕ(x)y0 = a(x)y(x)
(26)
Mit anderen Worten, die eindeutige Lösung von (23) bekommt man einfach durch Anwendung der Matrix ϕ(x) auf die Anfangsbedingung y0 ∈ Rn .
Aus der Darstellung der Lösung von (23) als y(x) = ϕ(x)y0 folgt einfach, dass der
Lösungsraum der linearen Differentialgleichung in (23) eine lineare Struktur hat. Für
gegebene a ∈ C(I; Rn×n ) definieren wir nämlich den Lösungsraum der Differentialgleichung y 0 (x) = a(x)y(x) als
Lh := y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x)
(d.h. Lh ist die Menge aller Lösungen der Differentialgleichung, unabhängig von der
Anfangsbedingung). Wir haben schon bewiesen, dass ein beliebiges y ∈ L die Form
y(x) = ϕ(x)y(x0 ) hat. Das impliziert offenbar, dass Lh ein Vektorraum ist. Da die
Matrix ϕ(x) invertierbar ist, folgt auch, dass y (1) , . . . , y (m) ∈ Lh genau dann linear unabhängig sind, wenn y (1) (x0 ), . . . , y (m) (x0 ) ∈ Rn linear unabhängig sind. Das impliziert,
dass dim Lh = dim Rn = n (mit anderen Worten, die Formel y(x) = ϕ(x)y(x0 ) erlaubt
uns Lh mit Rn zu identifizieren).
24
Die Lösung der Matrix-Gleichung (24) erlaubt uns auch inhomogene lineare Differentialgleichungen zu berechnen. Sei nämlich I ⊂ R ein Intervall, x0 ∈ I, y0 ∈ Rn ,
a ∈ C(I; Rn×n ) und b ∈ C(I; Rn ). Dann hat das Anfangswertproblem
0
y (x) = a(x)y(x) + b(x)
(27)
y(x0 ) = y0
die eindeutige Lösung
Z
y(x) = ϕ(x) y0 +
x
ϕ−1 (t)b(t)dt
(28)
x0
wobei ϕ ∈ C 1 (I; Rn×n ) die eindeutige Lösung von (24) ist. In der Tat, aus ϕ(x0 ) = 1
folgt sofort, dass (28) die Bedingung y(x0 ) = y0 erfüllt. Weiter gilt
Z x
0
0
−1
y (x) = ϕ (x) y0 +
ϕ (t)b(t) + ϕ(x)ϕ−1 (x)b(x) = a(x)y(x) + b(x)
x0
Wir haben in (28) benutzt, dass ϕ(x) für alle x ∈ I invertierbar ist. Es folgt aus diesem
Ausdruck für die Lösung des Anfangswertproblems (27), dass der Lösungsraum der
inhomogenen linearen Differentialgleichung y 0 (x) = a(x)y(x) + b(x), definiert durch
Li = y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x) + b(x), für alle x ∈ I
aus
Z
x
Li = Lh + ϕ(x)
−1
ϕ
(t)b(t) =
Z
x
y(x) = yh (x) + ϕ(x)
x0
−1
ϕ
(t)b(t) : yh ∈ Lh
x0
gegeben ist. Allgeiner, für eine beliebige Lösung z ∈ Li , gilt Li = z + Lh . D.h. Li ist ein
affiner Raum.
Lineare Differentialgleichungen höherer Ordnung: Lineare homogene und inhomogene
Differentialgleichungen höherer Ordnung können als lineare homogene und inhomogene Differentialgleichungen erster Ordnung mit höherer Dimension geschrieben werden,
ähnlich wie in Sektion 2.3 erklärt wird. Sei zum Beispiel I ⊂ R ein Intervall, x0 ∈ I,
a0 , . . . , an−1 ∈ C(I) und b ∈ C(I) reelwertig. Der Lösungsraum Lh der linearen homogenen Differentialgleichung
y (n) (x) + an−1 (x)y (n−1) (x) + · · · + a0 y(x) = 0
der Ordnung n ist ein linearer Vektorraum mit Dimension n. Zu jeder (y0 , y1 , . . . , yn−1 )
gibt es genau eine Lösung y ∈ Lh , mit y(x0 ) = y0 , y 0 (x) = y1 , . . . , y (n−1) (x0 ) = yn−1 .
Der Lösungsraum Li der linearen inhomogenen Gleichung
y (n) (x) + an−1 (x)y (n−1) (x) + · · · + a0 y(x) + b(x) = 0
ist so, dass Li = z + Lh , für ein beliebiges z ∈ Li .
Bemerke, dass es im Gegensatz zum skalaren Fall n = 1, wo die Lösung von homogenen und inhomogenen Problemen mit Trennung der Variablen und Variationen der
25
Konstanten immer gefunden werden kann, bei vektoriellen linearen Problemen (und also
bei Probleme höheren Ordnung) kein allgemeines Rezept gibt, um Lösungen zu finden.
Wir haben nur gezeigt, dass die Lösung jeder vektoriellen linearen Gleichung zur Berechnung der Lösung ϕ ∈ C 1 (I; Rn×n ) der Matrix-Gleichung (24) reduziert werden kann
(und wir haben die Darstellung der Lösung durch die Matrix ϕ(x) benutzt, um allgemeine Eigenschaften der Lösungen zu diskutieren). Im Allgemeinen kann man aber ϕ nicht
explizit berechnen. Eine Ausnahme, wo die Berechnung von ϕ auf die Lösung von linearen Gleichungsystemen reduziert werden kann, ist der Fall von linearen Gleichungen mit
konstanten Koeffizienten, die durch Konstanten a ∈ Rn×n und b ∈ Rn charakterisiert
ist.
2.5
Lineare Differentialgleichungen mit konstanten Koeffizienten
Sei n ∈ N und A ∈ Rn×n eine festgewählte n × n Matrix. In (23) setzen wir dann
a(x) = A für alle x ∈ Rn . Wir bekommen die lineare homogene Differentialgleichung
mit konstanten Koeffizienten
y 0 (x) = Ay(x)
(29)
für eine unbekannte Funktion y ∈ C 1 (R; Rn ). Sei
Lh = y ∈ C 1 (R; Rn ) : y 0 (x) = Ay(x)
der Lösungsraum der Differentialgleichung (29). Wir wissen schon, dass Lh ein Vektorraum der Dimension n ist. Ist eine Basis y (1) , . . . , y (n) des Lösungsraums Lh gegeben, so
kann man die eindeutige Lösung des Anfangswertproblems
0
y (x) = Ay(x)
(30)
y(x0 ) = y0
bestimmen, indem man den Vektor y0 als eine lineare Kombination der Basisvektoren
ausdruckt:
n
X
y0 =
cj y (j) (x0 )
j=1
Das ist möglich, weil {y (j) (x0 )}nj=1 eine Basis von Rn ist. Dann ist die eindeutige Lösung
von (30) aus
n
X
y(x) =
cj y (j) (x)
j=1
gegeben.
Wie können wir nun eine Basis von Lh finden? Sei v ∈ Rn ein Eigenvektor von A
mit Eigenwert λ, d.h. Av = λv. Dann ist y(x) = veλx ∈ Lh , weil
y 0 (x) = λveλx = Aveλx = Ay(x) .
Nehmen wir nun an, dass die Matrix A n linear unabhängige Eigenvektoren v1 , . . . , vn ∈
Rn , mit Eigenwerten λ1 , . . . , λn ∈ R (nicht notwendigerweise verschiedenen), besitzt.
Dann sind die Funktionen yj (x) = vj eλj x , für j = 1, . . . , n, linear unabhängig und damit
eine Basis von Lh .
26
Es passiert oft, dass eine Matrix A ∈ Rn×n auf C, aber nicht auf R diagonalisierbar
ist. Sei λ = γ + iω ∈ C\R ein komplexer Eigenwert von A, mit Eigenvektor v ∈ Cn \{0};
wir zerlegen v = u + iw, mit u, w ∈ Rn . Da A reelle Einträge hat, ist auch λ = γ − iω
ein Eigenwert von A, mit Eigenvektor v = u − iw. Die zwei Funktionen
ye1 (x) = veλx = (u + iw)eiωx eγx = [(u cos ωx − w sin ωx) + i (u sin ωx + w cos ωx)] eγx
ye2 (x) = (u − iw)e−iωx eγx = [(u cos ωx − w sin ωx) − i (u sin ωx + w cos ωx)] eγx
sind dann komplexe Lösungen der Differentialgleichung (29). Weil wir uns vor allem für
reelle Lösungen interessieren, möchten wir ye1 und ye2 durch die reellen linearen Kombinationen
ye1 (x) + ye2 (x)
= (u cos ωx − w sin ωx) eγx
2
ye1 (x) − ye2 (x)
= (u sin ωx + w cos ωx) eγx
y2 (x) =
2i
y1 (x) =
(31)
ersetzen.
Seien also ve1 , . . . , ven ∈ Cn linear unabhängige Eigenvektoren von A, zu den Eigenwerten λ1 , . . . , λn ∈ C. Für jedes j = 1, . . . , n unterscheiden wir zwei Fälle. Sei zunächst
λj ∈ R. Dann ist mit vej auch vej ein Eigenvektor von A zum Eigenwert λ. Mindestens
einer der zwei Vektoren Re vej = (e
vj + vej )/2 und Im vej = (e
vj − vej )/2i ist nicht Null und
n
deswegen ein reeller Eigenvektor v ∈ R von A zum Eigenwert λ. Wir setzen, dann
yj (x) = veλx
Sei nun λj ∈ C\R. Dann ist mit λj auch λj ein Eigenwert von A. D.h. es existiert i 6= j
mit λi = λj . Dann setzen wir, gemäss (31),
yj (x) = (Re vj cos(Im λj ) − Im vj sin(Im λj ) eRe λj
yi (x) = (Re vj sin(Im λj ) − Im vj cos(Im λj ) eRe λj
Damit konstruieren wir n linear unabhängige und reelle Lösungen yj der Differentialgleichung y 0 (x) = Ay(x); das gibt eine Basis vom Lösungsraum Lh .
Es gibt natürlich auch den Fall, dass die Matrix A nicht diagonalisierbar ist. D.h.,
dass keine n linearen unabhängigen Eigenvektoren von a existieren. In diesem Fall ist
die Suche nach einer Basis des Lösungsraums Lh komplizierter. Es hilft, die Lösung der
Differentialgleichung y 0 (x) = Ay(x) durch Exponenzierung von A zu konstruieren.
Lösung durch Exponentialabbildung: Die Matrix A = (aij ) ist ein Element von Rn×n .
Auf diesem Raum ist die euklidische Norm aus
kAk2 =
N
X
|aij |2 = Tr A∗ A
i,j=1
gegeben. Es gibt eine andere natürliche Norm für Matrixen, nämlich die Operator-Norm.
Wir definieren die Operatornorm von A durch
kAkop = sup
v∈Rn
27
kAvk
kvk
wobei kAvk und kvk die euklidischen Normen von Av und v, als Elemente von Rn , sind.
Es ist einfach zu zeigen, dass k.kop wirklich eine Norm ist. Die Operatornorm hat die
Eigenschaft, dass kAvk ≤ kAkop kvk, für einen beliebigen Vektor v ∈ Rn (das folgt direkt
aus der Definition). Sind also A, B ∈ Rn×n zwei Matrizen, dann gilt (AB bezeichnet die
Multiplikation der zwei Matrizen A und B; das entspricht der Verknüpfung der zwei
Abbildungen)
kABvk ≤ kAkkBvk ≤ kAkkBkkvk
für alle v ∈ Rn . Es folgt, dass
kABkop ≤ kAkop kBkop
Es gilt
1
√ kAk ≤ kAkop ≤ kAk
n
(32)
für jede A ∈ Rn×n . D.h. die zwei Normen k.k und k.kop auf Rn×n sind äquivalent (das gilt
übrigens für jede zwei Normen auf einem beliebigen endlich dimensionalen Vektorraum).
Man kann (32) wie folgt beweisen. Es gilt
2
n X
n
n X
n X
n
X
X
kAvk =
aji vi =
aji1 aji2 vi1 v i2
2
≤
j=1 i=1
n X
n
X
1
2
j=1 i1 =1 i2 =1
n
X
|aji1 |2 |vi2 |2 + |aji2 |2 |vj |2 = kvk2 kAk2
j=1 i1 =1 i2 =1
Das impliziert, dass kAvk/kvk ≤ kAk für alle v ∈ Rn , und damit, dass kAkop ≤ kAk.
Anderseits,
kAk2 = Tr A∗ A =
n
X
hej , A∗ Aej i =
j=1
n
X
kAej k2 ≤
j=1
n
X
kAk2op kej k2 ≤ nkAk2op
j=1
wobei die Vektoren ej = (0, . . . , 0, 1, 0, . . . , 0) die Standardbasis von Rn sind.
Wir betrachten nun für A ∈ Rn×n die Folge
BN :=
N
X
Aj
j=0
Wir bemerken, dass, für N > M ,
X
N Aj kBN − BM kop = j=M +1 j! j!
N
N
X
X
kAj kop
kAkj
≤
≤
j!
j!
op
j=M +1
j=M +1
P
j
Aus der Konvergenz der Reihe ∞
j=0 kAk /j! auf R folgt, dass kBN − BM kop → 0, da
N, M → ∞. Das impliziert auch, dass kBN − BM k → 0 bezüglich der euklidischen Norm
28
auf Rn×n . Also ist BN eine Cauchy-Folge auf Rn×n , bzg. der euklidischen Norm, und
damit konvergiert BN . Wir definieren
exp(A) := lim
N
X
Aj
N →∞
j=0
j!
≡
∞
X
Aj
j=0
j!
Wir bemerken nun, dass die matrixwertige Funktion
ϕ(x) = exp(A(x − x0 ))
definiert für beliebige x ∈ R, das Anfangswertproblem
0
ϕ (x) = Aϕ(x)
ϕ(x0 ) = 1
(33)
löst. Die Anfangsbedingung ϕ(x0 ) = 1 ist offenbar erfüllt. Wir zeigen nun, dass ϕ(x) die
Differentialgleichung erfüllt. Sei dazu R > 0 fest. Auf x ∈ [x0 − R; x0 + R] konvergiert
die matrixwertige Potenzreihe
BN (x) =
N
X
Aj
j=0
j!
(x − x0 )j
gleichmässig gegen exp(A(x − x0 )). Die Ableitung
0
BN
(x) =
N
X
Aj
j=0
j!
j(x − x0 )j−1 = A
N
N
−1 j
X
X
Aj−1
A
(x − x0 )j−1 = A
(x − x0 )j
(j − 1)!
j!
j=1
j=0
konvergiert auch gleichmässig gegen A exp(A(x−x0 )). Aus Analysis 1 (Proposition 8.29)
folgt, dass ϕ ∈ C 1 ([−R; R]; Rn×n ), mit ϕ0 (x) = Aϕ(x) für alle x ∈ [−R; R] (bemerke,
dass Proposition 8.29 in Analysis 1 nur für R-wertige Funktionenfolgen formuliert ist.
Das Resultat lässt sich aber trivial auf matrixwertige Funktionen erweitern, indem man
die n2 Komponenten der Matrix separat untersucht). Da R > 0 beliebig ist, folgt dass
ϕ ∈ C 1 (R; Rn×n ) das Anfangswertproblem (33) auf ganz R löst.
Wie in (26), ist nun die eindeutige Lösung des Anfangswertproblems (30) durch
Anwendung der Matrix ϕ(x) auf die Anfangsbedingung, d.h.
y(x) = ϕ(x)y0 = exp(A(x − x0 ))y0
Ferner, das inhomogene Anfangswertpbroblem mit konstanten Koeffizienten y 0 (x) =
ay(x) + b, mit der Anfangsbedingung y(x0 ) = y0 , hat, gemäss (28) die eindeutige Lösung
Z x
y(x) = ea(x−x0 ) y0 +
e−a(x−x0 ) bdt .
x0
Aus einem praktischen Sichtpunkt ist die Berechnung der Exponenitalabbildung
exp(a(x − x0 )) durch die Diagonalisierung von A möglich. Ist nämlich A = U −1 DU ,
29
für eine diagonale Matrix D = diag(d1 , . . . , dn ), so gilt Am = (U −1 DU )m = U −1 Dm U .
Es folgt
exp(A(x − x0 )) =
∞
X
A
m (x
m=0
= U −1
∞
X
m=0
∞
X
− x0 )m
(x − x0 )m
=
U −1 Dm U
m!
m!
Dm
(x − x0
m!
m=0
m
)
U
∞
∞
m
m
X
X
dm
dm
n (x − x0 )
−1
1 (x − x0 )
= U diag
,...,
m!
m!
m=0
m=0
= U −1 diag e(x−x0 )d1 , . . . , e(x−x0 )dn U.
!
U
Ist die Matrix a nicht diagonalisierbar, so ist die Berechnung von exp((x − x0 )a) schwieriger. In diesem Fall kann die jordansche Normalform der Matrix A verwendet werden.
Für beliebige A ∈ Rn×n kann man nämlich eine invertierbare Matrix U und eine blockdiagonal Matrix


J1 0
0
... 0
 0
J2 0
... 0 

J =
 ... ... ... ... ... 
0
0
0
. . . Jk
finden, so dass A = U −1 JU . J heisst die Jordan Normalform von A. Die Blöcke Ji haben
die Form


λi 1
0
... 0
 0
λi 1
... 0 



Ji =  . . . . . . . . . . . . . . . 
(34)

 0
... 0
λi 1 
0
... 0
0
λi
Die Einträge λi auf der Diagonalen der Matrixen Ji sind die Eigenwerte von A. Die
Anzahl der Blöcke mit Eigenwert λi ist aus der geometrischen Vielfachheit von λi gegeben (d.h. die Dimension des Eigenraumes mit Eigenwert λj ). Die Gesamtdimension der
Jordanblöcke mit Eigenwert λi ist dagegen die algebraische Vielfachheit von λi (die Vielfachheit von λi als Nullstelle des charakteristischen Polynoms). Sind algebraische und
geometrische Vielfachheit gleich, so ist jeder Jordanblock mit Eigenwert λi eine 1 × 1
Matrix mit Eintrag λi (ist das der Fall für alle Eigenwerte von A, dann ist J diagonal
und A diagonalisierbar).
Der Ausdruck A = U −1 JU erlaubt uns, die Exponentialabbildung exp(tA) zu berechnen, für ein beliebiges t ∈ R (t = x − x0 in unserer Anwendung). In der Tat
exp(tA) = exp(U −1 tJU ) = U −1 exp(tJ)U
Die Anwendung der Exponentialabbildung an der Blockdiagonale Matrix tJ ist wieder
blockdiagonal, mit Blöcken exp(tJi ), wobei die Ji die Form (34) haben. Sei Ji eine ` × `
30
Matrix. Dann liefert die Berechnung von exp(tJi ) (Beweis: Übung)



t2
1
t
...
tλi t
0
... 0
2!

 0

tλi t
... 0 
 0
1
t
...

 = etλi 
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
exp 



 ... ... ... ...
 0
... 0
tλi t 
 0
... 0
1
0
... 0
0
tλi
0
... 0
0
t`−1
(`−1)!
t`−2
(`−2)!
...
t
1







Damit kann man in Prinzip die Exponentialabbildung ϕ(x) = exp(A(x − x0 )) für jede
Matrix A ∈ Rn×n berechnen. Mit dieser Methode kann man also immer die eindeutige
Lösung des Anfangswertproblems (30) finden.
Skalare, lineare, homogene Differentialgleichungen höherer Ordnung mit konstanten Koeffizienten: Eine skalare, lineare, homogene Differentialgleichung der Ordnung n ∈ N mit
konstanten Koeffizienten hat die Form
an ϕ(n) (x) + an−1 ϕ(n−1) (x) + · · · + a1 ϕ0 (x) + a0 ϕ(x) = 0
(35)
für eine Funktion ϕ ∈ C n (R), und für Konstanten a0 , . . . , an ∈ R. Definieren wir y =
(ϕ, ϕ0 , . . . , ϕ(n−1) ) ∈ C 1 (R; Rn ), dann nimmt (35) die Form


0
1
0
... 0
 0

0
1
... 0


0
 y(x) =: Ay(x)
...
...
...
y (x) = 


 0

0
0
0
1
an−1
a0
a1
a2
− an − an − an . . . − an
Es ist einfach zu sehen, dass die Matrix A genau dann (in C) diagonalisierbar ist, wenn
sie n verschiedene Eigenwerten hat (Übung: Gilt Av1 = λv1 und Av2 = λv2 für ein
λ ∈ C, dann existiert κ ∈ C mit v1 = κv2 ).
Obwohl die Matrix A nicht immer diagonalisierbar ist, ist es hier trotzdem einfach,
eine Basis für den n dimensionalen Lösungsraum


n


X
Lh = y ∈ C n (R) :
aj ϕ(j) (x) = 0


j=0
zu bestimmen, ohne explizit die jordansche Normalform von A zu berechnen. Wir definieren dazu das Polynom
p(s) = an sn + an−1 sn−1 + · · · + a1 s + a0
Dann nimmt (35) die Form
p
d
dx
ϕ=0
(36)
Aus dem Fundamentalsatz der Algebra (Satz 2.33 in Analysis 1) existieren
k ∈ N,
P
λ1 , . . . , λk ∈ C voneinander unterschiedliche, n1 , . . . , nk ∈ N\{0} mit kj=1 nj = n so,
dass
k
Y
p(s) = an
(s − λj )nj
(37)
j=1
31
Wir können also (36) als
p
d
dx
nj
k Y
d
ϕ = an
− λj
ϕ=0
dx
(38)
j=1
schreiben. Bemerke hier, dass die Ordnung der Operatoren (d/dx − λj )nj keine Rolle
spielt (die verschiedenen Monomen kommutieren miteinander). Wir bemerken ferner,
dass
k
d
− λ [f (x)eλx ] = f (k) (x)eλx
(39)
dx
In der Tat
d
− λ [f (x)eλx ] = f 0 (x)eλx + λf (x)eλx − λf (x)eλx = f 0 (x)eλx
dx
Wenden wir diese Formel k Mal an, so finden wir (39). Aus (36) erhalten wir also
nj nm
Yd
d
d
` λm x
[x e
] = an
− λj
− λm
[x` eλm x ]
p
dx
dx
dx
j6=m
nj nm Yd
d
− λj
= an
x ` e λm x = 0
dx
dxnm
j6=m
für alle ` = 0, 1, 2, . . . , nm − 1. Die n Funktionen
{ym,` (x) = x` eλm x : m = 1, . . . , k, und ` = 0, 1, . . . , nm − 1}
sind also Lösungen der Differentialgleichung p(d/dx)ϕ = 0. Diese Funktionen sind linear
unabhängig (Beweis: Übung), und definieren also eine Basis des Lösungsraums Lh , wenn
wir Lh als einen Vektorraum über C betrachten. Mit anderen Worten, jede Lösung
von (35) kann als eine endliche lineare Kombination der Funktionen ym,` geschrieben
werden. Für gegebene Anfangsbedingungen y(x0 ) = y0 , y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) =
yn−1 kann man also die eindeutige Lösung des Anfangswertproblems bestimmen, indem
man Konstanten αm,` findet, so dass
y(x) =
k nX
m −1
X
αm,` x` eλm x
(40)
m=1 `=1
alle Anfangsbedingungen an der Stelle x = x0 erfüllt. Die resultierende Lösung (40) ist,
für reelle Anfansbedingungen y0 , . . . , yn−1 ∈ R automatisch reell. Falls man aber eine
Basis für Lh betrachtet als R-Vektorraum, sucht, so muss man wie oben die Lösungen
x` eλj x , x` eλj x mit λj ∈ C\R durch die reellen linearen Kombinationen
x` cos((Im λj )x)e(Re λj )x
und
x` sin((Im λj )x)e(Re λj )x
ersetzen (das ist immer möglich, wenn die Koeffizienten a0 , . . . , an ∈ R, weil für jede
Nullstelle λ von p auch λ eine Nullstelle ist).
32
Skalare, lineare, inhomogene Differentialgleichungen höherer Ordnung mit konstanten
Koeffizienten: Auch inhomogene, skalare, lineare Differentialgleichungen von höherer
Ordnung mit konstanten Koeffizienten kann man mit dieser Methode lösen. Aus der
Untersuchung von allgemeinen linearen Differentialgleichungen wissen wir schon, dass
der Lösungsraum der inhomogenen Gleichung
an y (n) (x) + an−1 y (n−1) (x) + · · · + a0 y(x) + b = 0
(41)
aus Li = z + Lh gegeben ist, wobei z eine beliebige Lösung der inhomogenen Gleichung
ist. Also braucht man, um den Lösungsraum von (41) zu finden, einfach eine einzige
Lösung von (41) zu finden. Das ist aber einfach. Ist z.B. a0 6= 0, dann kann man einfach
z als die konstante Funktion z(x) = −b/a0 wählen. Allgemeiner, sei j ∈ {0, 1, . . . , n}
der kleinste Index mit aj 6= 0. Dann ist z(x) = −(b/aj )xj /j! eine Lösung von (41). Der
Lösungsraum von (41) ist also aus
Li = {−(b/aj )xj /j!} + Lh
gegeben. Die eindeutige Lösung von (41), unter den Anfangsbedingungen y(x0 ) = y0 ,
y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) = yn−1 , kann man also bestimmen, indem man Konstanten
αm,` findet, so dass
k nX
m −1
X
b xj
y(x0 ) = −
+
αm,` x` eλm x
aj j!
m=1 `=0
die Anfangsbedingungen erfüllt.
Beispiel: Sei
y 00 + 2γy + ω02 y = 0
Die Gleichung kann als p(d/dx)y = 0 geschrieben werden, mit dem Polynom
p(s) = s2 + 2γs + ω02
Das Polynom p hat die Nullstellen
s = −γ ±
q
γ 2 − ω02
Ist |γ| > |ω|, dann sind die zwei Nullstellen verschiedenen und reell. Damit sind
√
√
−γ− γ 2 −ω02 x
−γ+ γ 2 −ω02 x
und y2 (x) = e
y1 (x) = e
eine Basis für den Lösungsraum. Ist dagegen |γ| = |ω0 |, dann hat p die einzige reelle
Nullstelle s0 = −γ. Damit sind
y1 (x) = e−γx
und
y2 (x) = xe−γx
eine Basis für den Lösungsraum. Ist dagegen |γ| < |ω0 |, dann sind die zwei Nullstellen
von p komplex. In diesem Fall sind
q
q
−γx
2
2
y1 (x) = cos( ω0 − γ x)e
und y2 (x) = sin( ω02 − γ 2 x)e−γx
eine Basis des Lösungsraums.
33
2.6
Grundlagen der Stabilitätstheorie
In diesem Abschnitt untersuchen wir die Abhängigkeit der Lösung einer Differentialgleichung von der Anfangsbedingung und der Form der Gleichung. In vielen Situationen erwartet man, dass eine kleine Änderung der Anfangsbedingungen nur eine kleine änderung der Lösung erzeugen kann. Analog, falls wir das Anfangswertproblem
y 0 (x) = f (x, y(x)), y(x0 ) = y0 untersuchen, dann erwarten wir, dass eine kleine Änderung der Funktion f nur eine kleine Änderung der Lösung produziert. Mit anderen
Worten, wir untersuchen die Stabilität der Lösung von Anfangswertproblemen. Da Differentialgleichugen nur selten explizit gelöst werden können, ist ihre Stabilität sehr wichtig
in praktischen Anwendungen. In der Physik passiert es zum Beispiel sehr oft, dass man
eine komplizierte Differentialgleichung y 0 (x) = f (x, y(x)) durch eine einfachere Differentialgleichung y 0 (x) = f0 (x, y(x)) ersetzt, wobei die Differenz f − f0 in geeignetem Sinne
klein ist. Damit diese Approximation nützlich sein kann, muss aber die Differenz der
zwei Lösungen y(x) und y0 (x) (unter geeigneten Anfangsbedingungen) klein sein. Wir
brauchen also die Stabilität der Gleichung ohne, dass wir die Gleichung explizit lösen
können.
Ein wichtiges Hilfmittel um Stabilität zu beweisen ist das Lemma von Gronwall.
Lemma 2.10 (Gronwall Lemma). Sei I = [x0 ; x1 ] mit x1 > x0 , a, b ∈ R mit b ≥ 0,
y ∈ C(I), so dass
Z x
y(x) ≤ a + b
y(t)dt
x0
für alle x ∈ I. Dann gilt
y(x) ≤ a exp(b(x − x0 ))
für alle x ∈ I.
Bemerkung:
• Das Lemma von Gronwall zeigt insbesondere, dass jede Lösung der DifferentialUngleichung y 0 (x) ≤ by(x), mit der Anfangsbedingung y(x0 ) = y0 , aus der Lösung
der Differentialgleichung y 0 (x) = by(x), mit der selben Anfangsbedingung, nach
oben beschränkt wird. Sei in der Tat y ∈ C 1 ([x0 ; x1 ]) so, dass y 0 (x) ≤ by(x) und
y(x0 ) = y0 . Dann gilt
Z x
Z x
y(x) = y(x0 ) +
y 0 (t)dt ≤ y0 + b
y(t)dt
x0
x0
Lemma 2.10 zeigt dann, dass
y(x) ≤ y0 eb(x−x0 )
was genau die eindeutige Lösung der Gleichung y 0 (x) = by(x) mit der Anfangsbedingung y(x0 ) = y0 ist.
• Die differentielle Form von dem Gronwall-Lemma, die wir in der ersten Bemerkung
diskutiert haben, gilt (im Gegensatz zur Integralform im Lemma 2.10) auch für
b < 0. In diesem Fall zeigt das Lemma von Gronwall, dass jede y ∈ C 1 ([x0 ; x1 ]),
mit y 0 (x) ≤ by(x) und y(x0 ) = y0 exponentiell abfällt, für x > x0 .
34
Beweis: Sei ϕ : I → R durch ϕ(x) = y(x)e−b(x−x0 ) definiert. Dann muss
Z x
−b(x−x0 )
−b(x−x0 )
y(t)dt =: ψ(x)
ϕ(x) ≤ ae
+ be
x0
Es gilt
0
−b(x−x0 )
ψ (x) = −bae
2
Z
x
−b
ϕ(t)eb(t−x) + bϕ(x) = −b [ψ(x) − ϕ(x)] ≤ 0
x0
für alle x ∈ I. Damit gilt ϕ(x) ≤ ψ(x) ≤ ψ(x0 ) = a für alle x ∈ I.
Im nächsten Satz benutzen wir Gronwall-Lemma, um die Stabilität von gewöhnlichen
Differentialgleichungen bzg. Variationen der Anfangsbedingungen zu beweisen.
Satz 2.11. Sei Ω ⊂ R × Rn offen, f ∈ C(Ω; Rn ) Lipschitz-stetig im zweiten Argument.
D.h. es existiere L > 0 mit
kf (x, y1 ) − f (x, y2 )k ≤ Lky1 − y2 k
für alle x ∈ R, y1 , y2 ∈ Rn mit (x, y1 ), (x, y2 ) ∈ Ω. Seien ϕ, ψ ∈ C 1 (I; Rn ) zwei Lösungen
der Differentialgleichung
y 0 (x) = f (x, y(x))
auf einem Intervall I ⊂ R. Dann gilt, für beliebige x0 , x1 ∈ I,
kϕ(x1 ) − ψ(x1 )k ≤ kϕ(x0 ) − ψ(x0 )k eL|x1 −x0 |
Bemerkung: Insbesondere folgt aus Satz 2.11, dass die Lösung ϕ(x) des Anfangswertproblems
0
ϕ (x) = f (x, ϕ(x))
ϕ(x0 ) = y0
stetig (sogar Lipschitz-stetig) von der Anfangsbedingung y0 abhängt.
Beweis: Sei, o.B.d.A, x > x0 . Wir setzen y(x) = ϕ(x) − ψ(x). Aus
y 0 (x) = ϕ0 (x) − ψ 0 (x) = f (x, ϕ(x)) − f (x, ψ(x))
folgt
Z
x
(f (t, ϕ(t)) − f (t, ψ(t))) dt
y(x) = y(x0 ) +
x0
und damit
Z
x
ky(x)k ≤ ky(x0 )k +
kf (t, ϕ(t)) − f (t, ψ(t))k dt
x0
Z
x
≤ ky(x0 )k + L
ky(t)k dt
x0
Anwendung von Lemma 2.10 auf die Funktion g(x) = ky(x)k impliziert, dass
ky(x)k ≤ ky(x0 )keL(x−x0 )
35
Analog kann man auch die Stabilität von Differentialgleichungen bzg. Änderungen
(Störungen) der Gleichung zeigen. Wir betrachten die Differentialgleichung y 0 (x) =
f (x, ϕ(x), z), die von einem zusätzlichen Parameter z ∈ Rm abhängt. Für jede z ∈ Rm
haben wir eine andere Differentialgleichung. Die Frage, die wir im nächsten Satz untersuchen, ist, wie ändert sich die Lösung der Differentialgleichung, falls wir den Parameter
z (und eventuell auch die Anfangsbedingung) ein bisschen variieren.
Satz 2.12. Sei I = [x0 ; x1 ] ⊂ R, f ∈ C(I × Rn × Rm ; Rn ). Es existieren M, L > 0 mit
kf (x, y1 , z1 ) − f (x, y2 , z2 )k ≤ Lky1 − y2 k + M kz1 − z2 k
für alle x ∈ I, y1 , y2 ∈ Rn , z1 , z2 ∈ Rm . Seien y1 , y2 ∈ Rn und z1 , z2 ∈ Rm beliebig
gewählt und seien ϕ1 , ϕ2 ∈ C 1 (I; Rn ) die eindeutigen Lösungen von den Anfangswertproblemen
0
0
ϕ1 (x) = f (x, ϕ1 (x), z1 )
ϕ2 (x) = f (x, ϕ2 (x), z2 )
und
ϕ1 (x0 ) = y1
ϕ2 (x0 ) = y2
Dann gilt
kϕ1 (x) − ϕ2 (x)k ≤ (ky1 − y2 k + M |x1 − x0 |kz1 − z2 k) eL|x−x0 |
für alle x ∈ I.
Bemerkung: Wählen wir z1 = z2 , dann sind wir zurück bei Satz 2.11.
Beweis: Sei y(x) = ϕ1 (x) − ϕ2 (x). Aus
Z
x
ϕ1 (x) = y1 +
f (t, ϕ1 (t), z1 )dt
Zx0x
f (t, ϕ2 (t), z2 )dt
ϕ2 (x) = y2 +
x0
finden wir
x
Z
(f (t, ϕ1 (t), z1 ) − f (t, ϕ2 (t), z2 ))
y(x) = (y1 − y2 ) +
x0
und damit
Z
x
ky(x)k ≤ ky1 − y2 k +
kf (t, ϕ1 (t), z1 ) − f (t, ϕ2 (t), z2 )k
Zx0x
≤ ky1 − y2 k +
(Lky(t)k + M kz1 − z2 k)
Z
≤ (ky1 − y2 k + M kz1 − z2 k|x1 − x0 |) + L
x0
x
ky(t)k
x0
für alle x ∈ I. Lemma 2.10 impliziert also, dass
ky(x)k ≤ (ky1 − y2 k + kz1 − z2 k|x1 − x0 |) eL(x−x0 )
für alle x > x0 .
36
Satz 2.11 zeigt die orbitale Stabilität der Differentialgleichung y 0 (x) = f (x, y(x)), unter geeigneter Annahme an f . Orbitale Stabilität bedeutet, dass falls wir zwei Anfangsbedingungen y1 , y2 betrachten, mit ky1 −y2 k klein, dann bleibt der Abstand ky1 (x)−y2 (x)k
klein, für alle festen x ∈ R. Der Fehler kann aber im Limes x → ∞ gross werden. Eine
stärkere Form von Stabilität ist die sogenannte asymptotische Stabilität. In diesem Fall
bleibt der Fehler klein, gleichmässig in x und verschwindet, da x → ∞. Ein besonderes
Beispiel von asymptotischer Stabilität hat man bei Attraktoren.
Definition 2.13. Sei Ω ⊂ Rn offen, f ∈ C(Ω; Rn ). Ein Punkt y ∗ ∈ Ω heisst ein
Attraktor, falls eine offene Umgebung V von y ∗ existiert, so dass für alle y0 ∈ V , das
Anfangswertproblem
0
y (x) = f (y(x))
y(x0 ) = y0
eine eindeutige Lösung y ∈ C 1 ([x0 ; ∞); Rn ) hat, mit der Eigenschaft
lim y(x) = y ∗ .
x→∞
Ist y ∗ ∈ Rn ein Attraktor, dann kann man sich einfach überzeugen, dass f (y ∗ ) = 0
(sonst würde y 0 (x) → f (y ∗ ) 6= 0 und y(x) könnte nicht konvergieren. Beweis: Übung).
Anderseits, jede y ∗ ∈ Rn mit f (y ∗ ) = 0 definiert eine stationäre (d.h. konstante) Lösung
y(x) = y ∗ von der Gleichung y 0 (x) = f (y). Die Frage, ob ein solcher Punkt ein Attraktor
ist, ist gerade die Frage, ob die stationäre Lösung y(x) = y ∗ asymptotisch stabil ist. Man
findet, dass die Stabilität von stationären Lösungen mit der Ableitung von f an der Stelle
y ∗ zu tun hat. Das diskutieren wir im nächsten Satz, für den skalaren Fall n = 1 (eine
analoge Aussage gilt auch für n > 1; in diesem Fall braucht man aber Kenntnisse aus
der Differentialrechnung in mehreren Veränderlichen, die wir noch nicht haben).
Satz 2.14. Sei f ∈ C 1 (R), mit supx∈R |f 0 (x)| < ∞, und y ∗ ∈ R mit f (y ∗ ) = 0 und
f 0 (y ∗ ) < 0. Dann ist y ∗ ein Attraktor für die Differentialgleichung y 0 (x) = f (y(x)).
Beweis: O.B.d.A. können wir annehmen, dass y ∗ = 0. Sei f 0 (0) = −λ, für ein λ > 0.
Wir schreiben (da f (0) = 0)
Z 1
Z 1
d
f (y) = f (0) +
f (ty)dt = y
f 0 (ty)dt
dt
0
0
Z 1
= f 0 (0)y + y
f 0 (ty) − f 0 (0) dt = f 0 (0)y + yR(y)
0
mit
Z
1
R(y) =
f 0 (ty) − f 0 (0) dt
0
Die Stetigkeit von
mit
f0
impliziert, dass |R(y)| → 0 für y → 0. Wir finden also ein ε > 0
sup |R(y)| ≤ λ/2.
y∈[−ε;ε]
Für ein beliebiges x0 ∈ R, sei nun y ∈ C 1 ([x0 ; ∞)) die Lösung der Differentialgleichung
y 0 (x) = f (y(x)) mit der Anfangsbedingung y(x0 ) = y0 für ein y0 ∈ [−ε/2; ε/2] (bemerke, dass Satz 2.7 die Existenz einer globalen Lösung für dieses Anfangswertproblem
garantiert).
37
Wir behaupten, dass |y(x)| ≤ ε für alle x ∈ [x0 ; ∞). Ist das nicht der Fall, so setzen
wir
x1 = inf{x ∈ [x0 ; ∞) : |y(x)| > ε}
Aus der Stetigkeit von y(x) gilt dann |y(x)| ≤ ε für alle x ∈ [x0 ; x1 ]. Wir setzen nun
ϕ(x) = y(x) exp(−f 0 (0)(x − x0 )), für alle x > x0 . Es gilt dann ϕ(x0 ) = y0 und
ϕ0 (x) = y 0 (x) − f 0 (0)y(x) exp(−f 0 (0)(x − x0 ))
= f (y(x)) − f 0 (0)y(x) exp(−f 0 (0)(x − x0 ))
(42)
= y(x)R(y(x)) exp(−f 0 (0)(x − x0 )) = R(y(x))ϕ(x)
Da |y(x)| ≤ ε für alle x ∈ [x0 ; x1 ], ist |R(y(x))| ≤ λ/2 für alle x ∈ [x0 ; x1 ]. Damit ist
|ϕ0 (x)| ≤ (λ/2)|ϕ(x)| für alle x ∈ [x0 ; x1 ]. Die Identität
Z x
ϕ(x) = ϕ(x0 ) +
ϕ0 (t)dt
x0
zeigt also, dass
Z
x
|ϕ(x)| ≤ |y0 | +
|ϕ0 (t)|dt ≤ |y0 | + (λ/2)
x0
Z
x
|ϕ(t)|dt
x0
Aus Lemma 2.10 folgt, dass
|ϕ(x)| ≤ |y0 |e(λ/2)(x−x0 )
Das ergibt
|y(x)| ≤ |y0 |e−(λ/2)(x−x0 )
für alle x ∈ [x0 ; x1 ]. Damit ist |y(x1 )| ≤ |y0 | ≤ ε/2. Aus Stetigkeit von y existiert also
ein δ > 0 mit |y(x)| ≤ ε für alle x ∈ [x1 − δ; x1 + δ], im Widerspruch zur Definition von
x1 . Das zeigt, dass |y(x)| ≤ ε für alle x ∈ R.
Aus (42) folgt also, dass |ϕ0 (x)| ≤ (λ/2)|ϕ(x)| für alle x > x0 . Das ergibt |ϕ(x)| ≤
|y0 | exp((λ/2)(x − x0 )) für alle x > x0 und
|y(x)| ≤ |y0 |e−(λ/2)(x−x0 )
für alle x > x0 . Das zeigt, dass y(x) → 0, für x → ∞, für alle Anfangsbedingungen y0
mit |y0 | ≤ ε/2.
3
3.1
Differentialrechnung in mehreren Veränderlichen
Definition der Ableitung für Funktionen auf Rn
Wiederholung von Begriffen aus der linearen Algebra und Analysis 1. In Analysis 1
(siehe Definition 2.34) haben wir den Begriff vom Vektorraum definiert. Ein Vektorraum
über R ist nämlich eine Menge V , versehen mit einer Addition + : V × V → V und
einer skalaren Multiplikation · : R × V → V , die eine Reihe von Axiomen erfüllen. Ein
normierter Vektorraum ist ein Vektorraum V , auf dem eine Abbildung k.k : V → R
definiert ist, mit den Eigenschaften: i) kxk ≥ 0 für alle x ∈ V , kxk = 0 genau dann,
38
wenn x = 0; ii) kαxk = |α|kxk für alle x ∈ V und α ∈ R; iii) kx + yk ≤ kxk + kyk.
Eine Norm k.k auf einem Vektorraum V erzeugt immer eine Metrik auf V , die durch
d(x, y) = kx − yk definiert wird. Also ist jeder normierte Vektorraum ein metrischer
Raum. Wir sagen der normierte Vektorraum V ist vollständig, falls V , versehen mit der
aus der Norm induzierten Metrik, ein vollständiger metrischer Raum ist.
Seien nun V und W zwei Vektorräume über R. Eine Abbildung L : V → W heisst
linear, falls L(x + λy) = L(x) + λL(y) für alle x, y ∈ V und λ ∈ R. Wir bezeichnen die
e W ). Seien L, M ∈ L(V,
e W ) und
Menge aller linearen Abbildungen L : V → W mit L(V,
λ ∈ R. Wir definieren dann die Abbildungen L + M, λL : V → W durch
(L + M )(x) = L(x) + M (x),
und
(λL)(x) = λL(x)
e W ). Damit hat L(V,
e W ) die Struktur
für alle x ∈ V . Offenbar gilt L + M, λL ∈ L(V,
eines Vektorraumes über R (es ist leicht zu überprüfen, dass Summe und skalare Multiplikation alle notwendigen Axiome erfüllen). Nehmen wir nun an, V, W seien normierte
e W ) definieren wir dann
Vektorräume. Für L ∈ L(V,
kLkop :=
kLvk
= sup kLvk = sup kLvk
v∈V \{0} kvk
v∈V,kvk≤1
v∈V,kvk=1
sup
(43)
e W ) heisst beschränkt, falls kLkop < ∞. Das ist leicht
Eine lineare Abbildung L ∈ L(V,
e W ) ist genau dann beschränkt, falls sie auf V stetig
zu zeigen: Eine Abbildung L ∈ L(V,
e W ) ist genau dann auf V stetig, falls sie in v = 0
ist. Ferner, eine Abbildung L ∈ L(V,
stetig ist. Wir bezeichnen
e W ) : L stetig ist}
e W ) : L beschränkt ist} = {L ∈ L(V,
L(V, W ) := {L ∈ L(V,
e W ) die aus beschränkten Abbildungen besteht. Es ist einfach zu
die Teilmenge von L(V,
e W ) ist. Also ist L(V, W ) selbst ein
zeigen, dass L(V, W ) ein linearer Unterraum von L(V,
Vektorraum. Man kann dann leicht beweisen, dass (43) eine Norm auf L(V, W ) definiert.
Man nennt kLkop die Operatornorm von L. L(V, W ), versehen mit der Norm k.kop ist
also ein normierter Vektorraum. Tatsache: Ist W vollständig, so ist auch L(V, W ) ein
vollständig normierter Vektorraum, unabhängig davon, ob V vollständig ist oder nicht
(ein vollständiger normierter Vektorraum heisst ein Banach-Raum).
e W ) und M ∈ L(W,
e
Sind V, W, X drei Vektorräume, und L ∈ L(V,
X) zwei lineare
Abbildungen, so können wir die Verknüpfung L ◦ M : V → X durch (L ◦ M )(v) :=
L(M (v)) definieren. Wir bezeichnen oft die Verknüpfung L ◦ M als L · M oder einfach
e X) eine lineare Abbildung ist. Sind ferner
als LM . Es ist leicht zu sehen, dass LM ∈ L(V,
e W ) und M ∈ L(W,
e
V, W, X drei normierte Vektorräume und L ∈ L(V,
X) beschränkt,
dann ist auch LM beschränkt und
kLM kop ≤ kLkop kM kop
Also, für jede L ∈ L(V, W ) und M ∈ L(W, X), ist LM ∈ L(V, X). Insbesondere, für
jede L, M ∈ L(V, V ) ist LM ∈ L(V, V ). Das definiert ein Produkt auf dem Vektorraum
L(V, V ).
39
e R) heisst ein lineares FunkSei V ein Vektorraum. Eine lineare Abbildung L ∈ L(V,
tional auf V . Sei V ein normierter Vektorraum. Der Raum L(V, R) aller stetigen linearen
Funktionalen auf V heisst der Dualraum von V und wird oft mit V ∗ bezeichnet. Versehen
mit der Operatornorm
kLvk = sup |Lv|
v∈V,kvk≤1
ist V ∗ ein normierter Vektorraum. Da R vollständig ist, ist V ∗ immer vollständig.
Wir werden in dieser Vorlesung nur endlich dimensionale Vektorräume betrachten.
Jeder Vektorraum V mit dim V = n < ∞ ist isomorph zu Rn (ein Isomorphismus ist
nach Wahl einer Basis von V gegeben). Auf Rn ist die standard euklidische Norm durch
k(x1 , . . . , xn )k2 =
n
X
|xj |2
j=1
definiert. Auf Rn ist auch ein Skalarprodukt definiert. Für x = (x1 , . . . , xn ) und y =
(y1 , ,̇yn ) setzen wir
n
X
x·y =
x j yj
j=1
Dann gilt kxk2 = x · x. Wir haben in Analysis 1 bewiesen, dass Rn , versehen mit der
euklidischen Norm k.k, ein vollständiger normierter Vektorraum ist. Tatsache: Auf einem
endlich dimensionalen Vektorraum sind alle zwei Normen äquivalent. D.h., falls k.k1 , k.k2
zwei Normen auf Rn sind, dann es gibt eine Konstante c > 0 mit
1
kxk1 ≤ kxk2 ≤ ckxk1
c
für alle x ∈ Rn . Die Äquivalenz der zwei Normen impliziert, dass eine Folge xn auf Rn
genau dann bzg. k.k1 konvergiert, wenn sie bzg. k.k2 konvergiert und dass eine Folge xn
auf Rn genau dann bzg. k.k1 eine Cauchy-Folge ist, wenn sie bzg. k.k2 eine Cauchy-Folge
ist. Da Rn versehen mit der Standardnorm vollständig ist, ist Rn bzg. einer beliebigen
Norm ein vollständiger Vektorraum (es ist natürlich möglich, auf Rn eine Metrik d zu
finden, so dass (Rn , d) nicht vollständig ist; eine solche Metrik d kann dann aber nicht
von einer Norm induziert werden).
e = (`ij ),
Sei L : Rn → Rm eine lineare Abbildung. Dann existiert eine m × n Matrix L
e wobei das Produkt Lx
e durch
so dass L(x) = Lx,
e i=
(Lx)
n
X
`ij xj
j=1
definiert ist. Wir identifizieren deswegen die lineare Abbildung L mit der entsprechenden
e Jede lineare Abbildung L : Rn → Rm ist beschränkt. In der Tat, falls wir
Matrix L.
auch mit L = (`ij ) die Matrix bezeichnen, die der Abbildung L zugeordnet ist, so gilt
kLkop ≤ kLk, wobei
m X
n
X
∗
kLk = Tr L L =
|`ij |2 < ∞
i=1 j=1
40
die Standardnorm von L ist, falls wir L als ein Element von Rm×n betrachten. Es
folgt, dass jede lineare Abbildung zwischen Rn und Rm automatisch stetig ist, d.h.
e n , Rm ) = L(Rn , Rm ).
L(R
Der Dualraum zu Rn ist der Vektorraum (Rn )∗ = L(Rn , R) aller linearen Funktionalen auf Rn (weil jedes lineare Funktional auf Rn stetig ist). Ein beliebiges lineares
Funktional L auf Rn kann also mit einer 1 × n Matrix identifiziert werden. Mit anderen
Worten, jedes lineare Funktional L auf Rn kann mit einem Vektor a ∈ Rn identifiziert
werden, so dass
n
X
L(x) = a · x =
aj xj
j=1
Rn
wobei a·x das Skalarprodukt auf
bezeichnet. Man kann sich leicht davon überzeugen,
dass für ein solches lineares Funktional,
kLkop =
sup
|L(x)| =
x∈Rn ,kxk≤1
sup
|a · x| = kak
x∈Rn ,kxk≤1
wobei kak die Standardnorm auf Rn bezeichnet. Es folgt, dass (Rn )∗ ' Rn als normierte
Vektorräume identifiziert werden können.
Partielle Ableitungen. Nach dieser kurzen Wiederholung aus der linearen Algebra, sind
wir bereit, den Begriff von Ableitung auf mehrdimensionale Vektorräume zu definieren.
Wir werden der Einfachkeit halber Funktionen betrachten, die auf einer Teilmenge von
Rn definiert sind, mit Werten auf Rm . Die Definitionen können aber einfach auf Funktionen zwischen zwei beliebigen (endlich dimensionalen) Vektorräumen verallgemeinert
werden (weil jeder endlich dimensionale Vektorraum isomorph zu Rn ist). Auf Rn werden
wir immer die euklidische Standardnorm betrachten. Es ist aber einfach, die Definitionen
auf beliebige andere Normen zu erweitern (weil jede Norm zur Standardnorm äquivalent
ist). Also, obwohl wir nur Funktionen f : Rn ⊃ U → Rm betrachten werden, kann man
den Begriff von Ableitung für beliebige Funktionen zwischen zwei normierten endlich
dimensionalen Vektorräumen definieren.
Definition 3.1. Sei U ⊂ Rn offen, x0 ∈ U , i ∈ {1, . . . , n}. Eine Funktion f : U → R
heisst im Punkt x0 partiell differenzierbar in der i-ten Koordinate, falls der Limes
∂f
f (x0 + hei ) − f (x0 )
(x0 ) := lim
h→0
∂xi
h
existiert. Hier sind die Vektoren e1 , . . . , en die Standardbasis von Rn , d.h. wir haben
ei = (0, . . . 0, 1, 0, . . . , 0). In diesem Fall heisst die Zahl ∂f /∂xi (x0 ) die i-te partielle
Ableitung von f an der Stelle x0 . Die Funktion f heisst an der Stelle x0 ∈ U partiell
differenzierbar, falls f in jeder Koordinate an der Stelle x partiell differenzierbar ist.
Die Funktion f heisst auf U partiell differenzierbar, falls f an der Stelle x partiell
differenezierbar ist, für jede x ∈ U .
Bemerkung: Die partielle Ableitung in der i-ten Koordinate ist die gewöhnliche Ableitung bezüglich der i-ten Variablen von f , wenn die anderen (n−1) Koordinaten konstant
gehalten werden. D.h. die i-te partielle Ableitung von f an der Stelle x∗ = (x∗1 , . . . , x∗n ) ∈
41
Rn ist die Ableitung der Funktion einer Variablen t → f (x∗1 , x∗2 , . . . , x∗i + t, x∗i+1 , . . . , x∗n )
an der Stelle t = 0.
Bemerkung: Analog kann man die partielle Ableitungen einer vektorwertigen Funktion
definieren. Sei wie oben U ⊂ Rn offen und f : U → Rm . Für j = 1, . . . , m, sei fm : U → R
die m-te Komponente von f ; d.h. es gelte f (x) = (f1 (x), . . . , fm (x)). Dann sagen wir,
dass f im Punkt x0 in der i-ten Koordinate partiell differenzierbar ist, falls fj an der
Stelle x0 in der i-ten Koordinate partiell differenzierbar ist, für alle j = 1, . . . , m. In
diesem Fall ist die i-te partielle Ableitung von f aus dem Vektor
∂f1
∂fm
∂f
(x0 ) =
(x0 ), . . . ,
(x0 ) ∈ Rm
∂xi
∂xi
∂xi
gegeben.
Es stellt sich heraus, dass der Begriff von partieller Differenzierbarkeit ein bisschen
zu schwach ist. Viele Resultate, die wir für differenzierbare Funktionen auf R kennen,
gelten für eine auf einer offenen Teilmenge U ⊂ Rn definierte, partiell differenzierbare
Funktion f nicht. Z.B. zeigt das folgende Beispiel, dass partielle Differenzierbarkeit einer
Funktion nicht ihre Stetigkeit impliziert.
Beispiel: Auf R2 definieren wir die Funktion
xy
falls (x, y) 6= (0, 0)
x2 +y 2
f (x, y) =
0
falls (x, y) = (0, 0)
Wir behaupten, dass f auf R2 partiell differenzierbar ist. In der Tat ist f offenbar an der
Stelle (x, y) in der ersten Koordinate partiell differenzierbar für alle (x, y) 6= (0, 0). Wir
behaupten, f auch an der Stelle (0, 0) in der ersten Koordinate partiell differenzierbar
ist. In der Tat
f (h, 0) − f (0, 0)
0
lim
= lim = 0
h→0
h→0 h
h
Analog kann man zeigen, dass f überall in der zweiten Koordinate partiell differenzierbar
ist. Also ist f auf R2 partiell differenzierbar. Wir behaupten nun, dass f an der Stelle
(0, 0) nicht stetig ist. In der Tat haben wir
1/k 2
1
= 6= 0
2
2
k→∞ 1/k + 1/k
2
lim f (1/k, 1/k) = lim
k→∞
Also, obwohl die Folge (1/k, 1/k) → (0, 0) konvergiert, ist f (1/k, 1/k) 6→ f (0, 0).
Ableitung auf Rn . Wir brauchen also einen stärkeren Begriff von Differenzierbarkeit für
Funktionen, die auf Teilmengen von Rn definiert sind. Um den richtigen Begriff zu finden,
möchten wir zunächst den Begriff von Differenzierbarkeit für Funktionen einer Variablen
umschreiben. Sei U ⊂ R offen, und x0 ∈ U . Eine Funktion f : U → R ist an der Stelle
x0 falls der Grenzwert
f (x0 + h) − f (x0 )
lim
h→0
h
existiert. Es folgt: f ist in x0 differenzierbar, falls ein Zahl L ∈ R existiert s.d.
|f (x0 + h) − f (x0 ) − Lh| = o(|h|)
42
im Limes h → 0. Das bedeutet, f ist an der Stelle x0 differenzierbar, falls sich f in
der Nähe von x0 durch eine lineare Funktion approximieren lässt. Ist das der Fall, so
ist L eindeutig bestimmt und aus L = f 0 (x0 ) gegeben. Dieser Begriff lässt sich nun auf
Funktionen verallgemeinern, die auf einer offenen Teilmenge von Rn definiert sind.
Definition 3.2. Sei U ⊂ Rn offen, f : U → Rm und x0 ∈ U . Die Funktion f heisst
an der Stelle x0 differenzierbar, wenn eine lineare Abbildung L : Rn → Rm existiert, so
dass
f (x0 + h) − f (x0 ) − L(h)
lim
=0
h→0
khk
In diesem Fall heisst die Abbildung L die Ableitung oder das Differential von f an der
Stelle x0 und wird mit L = Df (x0 ) bezeichnet. f heisst auf U differenzierbar, falls f an
der Stelle x differenzierbar ist, für alle x ∈ U .
Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) eindeutig
bestimmt. Gilt in der Tat
f (x0 + h) − f (x0 ) − L(h)
= 0,
h→0
khk
lim
so muss
lim
h→0
Da
f (x0 + h) − f (x0 ) − M (h)
=0
h→0
khk
und lim
kL(h) − M (h)k
=0
khk
kLx − M xk
kL(x/K) − M (x/K)k
=
kxk
kx/Kk
für alle K > 0, erhalten wir
kLx − M xk
kL(x/K) − M (x/K)k
kL(h) − M (h)k
= lim
= lim
=0
K→∞
h→0
kxk
kx/Kk
khk
für alle x ∈ Rn . Das bedeutet
kL − M kop =
kLx − M xk
=0
kxk
x∈Rn \{0}
sup
und deswegen L = M .
Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) : Rn → Rm
eine lineare Abbildung. Man kann also Df (x0 ) mit einer n × m Matrix identifizieren.
Wie für jede lineare Abbildung zwischen endlich dimensionale Vektorräume, ist Df (x0 )
beschränkt, kDf (x0 )kop < ∞, und damit auch stetig.
Bemerkung: Es folgt, dass eine Funktion f ist an der Stelle x0 differenzierbar, falls sie
sich lokal durch eine lineare Abbildung approximieren lässt, d.h. falls L ∈ L(Rn , Rm )
existiert, s.d.
kf (x0 + h) − f (x0 ) − Lhk = o(khk)
Bemerkung: Sei U ⊂ Rn offen. Sei f : U → Rm mit Komponenten f1 , . . . , fm : U → R.
D.h. es gelte f (x1 , . . . , xn ) = (f1 (x1 , . . . , xn ), . . . , fm (x1 , . . . , xn )) für alle (x1 , . . . , xn ) ∈
43
U . Dann ist f an der Stelle x0 ∈ U genau dann differenzierbar, wenn fj an der Stelle
x0 differenzierbar ist, für alle j = 1, . . . , m. Das folgt aus der Tatsache, dass eine Folge
(n)
(n)
x(n) = (x1 , . . . , xm ) ∈ Rm genau dann gegen x = (x1 , . . . , xm ) ∈ Rm konvergiert, wenn
(n)
xj → xj für alle j = 1, . . . , m.
Satz 3.3. Sei U ⊂ Rn offen, x0 ∈ U , und f : U → Rm an der Stelle x0 differenzierbar.
Dann ist f an der Stelle x0 stetig.
Beweis: Sei L die Ableitung von f an der Stelle x0 . Wir schreiben
f (x0 + h) − f (x0 ) = [f (x0 + h) − f (x0 ) − L(h)] + L(h)
Da f differenzierbar an der Stelle x0 ist, gilt kf (x0 + h) − f (x0 ) − L(h)k → 0 für h → 0.
Anderseits, kL(h)k ≤ kLkop khk → 0 für h → 0. Also
kf (x0 + h) − f (x0 )k ≤ kf (x0 + h) − f (x0 ) − L(h)k + kL(h)k → 0
für h → 0. Das zeigt, dass f an der Stelle x0 stetig ist.
Richtungsableitungen. Ist f an der Stelle x0 differenzierbar, so existieren alle partiellen
Ableitungen von f an der Stelle x0 . Ferner existieren alle Richtungsableitungen.
Proposition 3.4. Sei U ⊂ Rn offen, x0 ∈ U und f : U → Rm an der Stelle x0
differenzierbar. Dann
lim
t→0
f (x0 + tv) − f (x0 )
= Df (x0 )(v)
t
für alle v ∈ Rn (hier ist t ∈ R) und insbesondere existiert der Grenzwert auf der linken
Seite. Man nennt den Grenzwert auf der linken Seite die Richtungsableitung von f in
der Richtung v.
Beweis: Aus Differenzierbarkeit folgt, dass
lim
h→0
kf (x0 + h) − f (x0 ) − L(h)k
=0
khk
Insbesondere, falls h = tv für ein festes v ∈ Rn und t ∈ R, gilt (weil, wegen Linearität,
L(tv) = tL(v))
f (x0 + tv) − f (x0 )
kf (x0 + tv) − f (x0 ) − L(tv)k
−1
= kvk lim − L(v)
0 = lim
t→0
t→0
ktvk
t
und damit
lim
t→0
f (x0 + tv) − f (x0 )
= L(v)
t
44
Wählen wir v = ej , dann impliziert Proposition 3.4, dass alle partiellen Ableitungen
(∂f /∂xj )(x0 ) für j = 1, . . . , n existieren. Es folgt auch, dass die partielle Ableitung
(∂f /∂xj )(x0 ) die j-te Kolumne der Matrix Df (x0 ) ist. Mit anderen Worten, sei f : U →
Rm , mit Komponenten f1 , . . . , fm : U → R, so dass f (x) = (f1 (x), f2 (x), . . . , fm (x)) für
alle x ∈ U . Sei f an der Stelle x0 differenzierbar. Dann kann die lineare Abbildung
Df (x0 ) : Rn → Rm durch die m × n Matrix mit Einträge
(Df (x0 ))i,j =
∂fi
(x0 )
∂xj
für i = 1, . . . , m und j = 1, . . . , n
(44)
dargestellt werden. Diese Matrix heisst die Funktionalmatrix, oder die Jacobi-Matrix
von f an der Stelle x0 .
Wie wir schon gemerkt haben, impliziert die Existenz der Jacobi-Matrix nicht, dass
f an der Stelle x0 differenzierbar ist. Man findet aber, dass Existenz und Stetigkeit
der partiellen Ableitungen die Differenzierbarkeit von f implizieren. Dieses Kriterium
ist wichtig, weil es uns erlaubt, die Differenzierbarkeit von Funktionen, einfach durch
Untersuchung der partiellen Ableitungen, zu beweisen.
Proposition 3.5. Sei U ⊂ Rn offen, f : U → Rm . Ferner, nehmen wir an, dass die
partiellen Ableitungen ∂f /∂xj (x) auf U existieren und stetig sind. Dann ist f auf U
differenzierbar.
Beweis: O.B.d.A. betrachten wir den Fall m = 1 (die Differenzierbarkeit von f (x) =
(f1 (x), . . . , fm (x)) ist mit der Differenzierbarkeit von f1 , . . . , fm äquivalent). Der Einfachkeit halber untersuchen wir zunächst den Fall n = 2. Wir nehmen an 0 = (0, 0) ∈ U ,
und wir zeigen die Differenzierbarkeit in diesem Punkt. Sei h = (h1 , h2 ) so klein, dass
Bkhk (0) ⊂ U . Wir schreiben
f (h1 , h2 ) − f (0, 0) = f (h1 , h2 ) − f (h1 , 0) + f (h1 , 0) − f (0, 0)
Da die Abbildung y → f (h1 , y) stetig differenzierbar ist (aus Existenz und Stetigkeit
der partiellen Ableitung in der y-Richtung), können wir schreiben
Z h2
∂f
f (h1 , h2 ) − f (h1 , 0) =
dy (h1 , y)
∂y
0
Z h2 ∂f
∂f
∂f
=
(0, 0)h2 +
dy
(h1 , y) −
(0, 0)
∂y
∂y
∂y
0
Analog ist x → f (x, 0) stetig differenzierbar. Deswegen
Z h1
∂f
f (h1 , 0) − f (0, 0) =
dx
(x, 0)
∂x
0
Z h1
∂f
∂f
∂f
=
(0, 0) +
dx
(x, 0) −
(0, 0)
∂x
∂x
∂x
0
Also haben wir
∂f
∂f
(0, 0)h1 −
(0, 0)h2
∂x
∂y
Z h2
Z h1
∂f
∂f
∂f
∂f
=
dx
(x, 0) −
(0, 0) +
dy
(h1 , y) −
(0, 0)
∂x
∂x
∂y
∂y
0
0
f (h1 , h2 ) − f (0, 0)−
45
Die Differenzierbarkeit von f an der Stelle (0, 0) folgt, falls wir zeigen können, dass
Z h2
Z h1
∂f
∂f
∂f
∂f
dx
dy
(x, 0) −
(0, 0) +
(h1 , y) −
(h1 , y) = o(k(h1 , h2 )k)
∂x
∂x
∂y
∂y
0
0
da (h1 , h2 ) → 0. Sei also ε > 0 fest. Da die partiellen Ableitungen stetig sind, finden wir
δ > 0 so dass
∂f
(x, y) − ∂f (0, 0) ≤ ε und
2
∂x
∂x
∂f
(x, y) − ∂f (0, 0) ≤ ε
∂y
2
∂y
für alle (x, y) ∈ R2 mit k(x, y)k ≤ δ. Sei nun k(h1 , h2 )k ≤ δ. Dann gilt auch k(h1 , y)k ≤ δ,
für alle 0 ≤ y ≤ h2 (angenommen h2 > 0, sonst ist die Aussage war für alle h2 ≤ y ≤ 0).
Damit gilt
ε
∂f
∂f
(h1 , y) −
(0, 0) ≤
∂y
∂y
2
für alle 0 ≤ y ≤ h2 und also
Z h2
ε|h2 |
∂f
∂f
εkhk
dy
(h1 , y) −
(0, 0) ≤
≤
∂y
∂y
2
2
0
Ähnlich gilt k(x, 0)k ≤ δ für alle 0 ≤ x ≤ h1 (oder h1 ≤ x ≤ 0, falls h1 < 0). Deswegen
∂f
(x, 0) − ∂f (0, 0) ≤ ε
∂x
2
∂x
für alle 0 ≤ x ≤ h1 und also
Z h1
ε|h1 |
∂f
∂f
εkhk
≤
dx
(x,
0)
−
(0,
0)
≤
∂x
∂x
2
2
0
Es folgt, dass für alle ε > 0 ein δ > 0 existiert, so dass
Z h1
Z h2
∂f
∂f
∂f
∂f
1
≤ε
dx
(x,
0)
−
(0,
0)
+
dy
(h
,
y)
−
(0,
0)
1
k(h1 , h2 )k 0
∂x
∂x
∂y
∂y
0
für alle k(h1 , h2 )k ≤ δ. Das zeigt die Behauptung. Die Verallgemeinerung zu n ≥ 3 lassen
wir als Übung.
Der Gradient. Sei U ⊂ Rn , offen und f : U → R eine reel-wertige Abildung, differenzierbar an der Stelle a ∈ U . Das Differential von f an der Stelle a ist dann eine lineare
Abbildung Df (a) : Rn → R und kann mit einer 1 × n Matrix identifiziert werden. Mit
anderen Worten, Df (a) ist ein lineares Funktional auf Rn . Wie jedes lineare Funktional
auf Rn kann Df (a) mit einem Vektor v = (v1 , . . . vn ) ∈ Rn , mit der Eigenschaft, dass
Df (a)(y) = v · y =
n
X
j=1
46
vj yj
für alle y = (y1 , . . . , yn ) ∈ Rn identifiziert werden. Man nennt den Vektor v den Gradienten von f an der Stelle a und man benutzt die Notation v = ∇f (a). Nach (44) sind
die Komponenten vom Gradient aus
∂f
∂f
∇f (a) =
(a), . . . ,
(a)
∂x1
∂xn
gegeben. Für einen beliebigen Einheitsvektor e ∈ Rn gilt, nach Proposition 3.4,
d
f (a + te)|t=0 = Df (a)(e) = ∇f (a) · e
dt
D.h. die Zuwachsrate der Funktion f in der Richtung e ist aus dem Skalarprodukt ∇f (a)·
e gegeben. Nehmen wir an ∇f (a) 6= 0. Das Skalarprodukt ∇f (a) · e ist dann maximal
über allen möglichen Einheitsvektoren e ∈ Rn , mit kek = 1, falls e = ∇f (a)/k∇f (a)k.
Für e = ∇f (a)/k∇f (a)k gilt dann
d
∇f (a)
f (a + te) = ∇f (a) ·
= k∇f (a)k
dt
k∇f (a)k
Wir haben bewiesen, dass der Vektor ∇f (a) in die Richtung der grössten Zuwachsrate
der Funktion f an der Stelle a zeigt. Die Länge von ∇f (a) ist dann genau die grösste
Zuwachsrate von f an der Stelle a (das gilt auch, falls ∇f (a) = 0).
Stetige Differenzierbarkeit. Sei U ⊂ Rn offen. Eine Funktion f : U → Rm heisst auf
U stetig differenzierbar, falls die Ableitung Df (x) existiert, für alle x ∈ U , und falls
die Abbildung Df : U → L(Rn ; Rm ) stetig ist. Aus Proposition 3.5 folgt, dass f auf U
genau dann stetig differenzierbar ist, wenn die partielle Ableitung ∂fi /∂xj (x) für alle
i = 1, . . . , m und alle j = 1, . . . , n auf U existiert und stetig ist. Wir setzen
C 1 (U ; Rm ) := {f : U → Rm : f auf U stetig differenzierbar ist} .
Rechenregeln. Wir sammeln in der nächsten Proposition ein paar nützliche elementare
Regeln für die Berechnung von Ableitungen von Funktionen mit mehreren Veränderlichen.
Proposition 3.6. Sei U ⊂ Rn offen, a ∈ U .
a) Seien f, g : U → Rm differenzierbar an der Stelle a und λ ∈ R. Dann ist auch f +
λg : U → Rm differenzierbar an der Stelle a und D(f + λg)(a) = Df (a) + λDg(a).
b) Ist f konstant auf U , so gilt Df (x) = 0 für alle x ∈ U .
c) Ist f : Rn → Rm linear, dann gilt Df (x) = f , für alle x ∈ Rn .
Beweis: Teil (a) und (b) sind offenbar, nach Definition der Ableitung und linearität des
Limes. Zu Teil (c) bemerken wir, dass f (x + h) = f (x) + f (h). Das impliziert, dass
kf (x + h) − f (a) − f (h)k = 0 = o(khk)
Damit ist die lineare Abbildung L = f die Ableitung von f an der Stelle x.
47
Kettenregel. Die Ableitung der Verknüpfung zweier Funktionen kann durch die Kettenregel berechnet werden.
Satz 3.7. Sei U ⊂ Rn und G ⊂ Rp offen. f : U → Rp , g : G → Rm , mit f (U ) ⊂ G. Sei
a ∈ U , f differenzierbar an der Stelle a, g differenzierbar an der Stelle f (a). Dann ist
die Funktion g ◦ f : U → Rm differenzierbar an der Stelle a ∈ U , und
D(g ◦ f )(a) = Dg(f (a)) · Df (a)
wobei das Produkt auf der rechten Seite die Komposition der zwei linearen Abbildungen
Df (a) : Rn → Rp und Dg(f (a)) : Rp → Rm ist. Mit anderen Worten, die m × n Matrix
D(g ◦ f )(a) ist aus dem Produkt der m × p Matrix Dg(f (a)) mit der p × n Matrix Df (a)
gegeben.
Beweis: Sei b = f (a), L = Df (a), M = Dg(b). Für h ∈ Rn , e
h ∈ Rp setzen wir
η1 (h) = f (a + h) − f (a) − L(h),
und
η2 (e
h) = g(b + e
h) − g(b) − M (e
h)
Nach Differenzierbarkeit von f an der Stelle a und von g an der Stelle b, gilt
kη1 (h)k = o(khk),
und
kη2 (e
h)k = o(ke
hk)
für h, e
h → 0. Sei nun h ∈ Rn beliebig und e
h = L(h) + η1 (h). Dann gilt
b+e
h = f (a) + L(h) + η1 (h) = f (a + h)
Also
(g ◦ f )(a + h) = g(f (a + h)) = g(b + e
h) = g(b) + M (e
h) + η2 (e
h)
= g(f (a)) + M (L(h)) + M (η1 (h)) + η2 (e
h)
Die Behauptung folgt, falls wir zeigen können, dass i) kM (η1 (h))k = o(khk) und ii)
kη2 (e
h))k = o(khk) für h → 0. Um i) zu zeigen, bemerken wir einfach, dass
kM (η1 (h))k
kη1 (h)k
≤ kM kop
→0
khk
khk
für h → 0, weil η1 (h) = o(khk). Anderseits, um ii) zu beweisen, benutzen wir, dass
kη1 (h)k ≤ khk für khk klein genug (weil η1 (h) = o(khk)). Deswegen gilt
ke
hk = kL(h) + η1 (h)k ≤ kL(h)k + kη1 (h)k ≤ (kLk + 1)khk
für khk klein genug. Da η2 (e
h) = o(ke
hk) existiert, für ein beliebiges ε > 0 ein δ > 0 mit
kη2 (e
h)k ≤ εke
hk ≤ (kLk + 1)εkhk
für alle h ∈ Rn mit khk ≤ δ. Das bedeutet, dass η2 (e
h) = o(khk) und zeigt ii).
48
Beispiel. Sei q : R → R3 die Bahn eines Teilchens als Funktion der Zeit. Sei T : R×R3 →
R die Temperatur als Funktion von der Zeit und von der Position im Raum. Die vom
Teilchen zur Zeit t gespürte Temperatur ist aus der Funktion t → T (t, q(t)) gegeben.
Sind q und T differenzierbar, so ist auch t → T (t, q(t)) differenzierbar, mit
3
X ∂T
d
∂T
(t, q(t))qj0 (t)
T (t, q(t)) =
(t, q(t)) +
dt
∂t
∂xj
j=1
Das Resultat folgt mit der Definition f : R → R4 durch f (t) = (t, q1 (t), q2 (t), q3 (t)).
Nach Differenzierbarkeit von q ist auch f differenzierbar, mit
f 0 (t) = (1, q10 (t), q20 (t), q30 (t))
Da T (t, q(t)) = (T ◦ f )(t) folgt, dass
3
(T ◦ f )0 (t) = DT (f (t)) · f 0 (t) = (∇T )(f (t)) · f 0 (t) =
X ∂T
∂T
(t, q(t)) +
(t, q(t))qj0 (t)
∂t
∂xj
j=1
3.2
Mittelwertsatz
Für eine auf [a; b] stetige und auf (a; b) differenzierbare Funktion f : [a; b] → R besagt
der Mittelwertsatz, dass ein ξ ∈ (a; b) existiert, mit f (b) − f (a) = f 0 (ξ)(b − a). Wir
zeigen hier eine analoge Aussage für Funktionen mit mehreren Veränderlichen.
Satz 3.8 (Mittelwertsatz). Sei U ⊂ Rn offen, f : U → R differenzierbar. Seien a, b ∈ U
mit
[a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U
Dann gibt es ein ξ ∈ [a; b] (ξ 6= a, b) mit
f (b) − f (a) = ∇f (ξ) · (b − a)
Beweis: Sei φ : [0, 1] → Rn durch φ(t) = (1 − t)a + tb definiert. Sei ψ : [0; 1] → R durch
ψ(t) = f (φ(t)) definiert. Nach der Kettenregel ist ψ ist dann auf [0; 1] stetig und auf
(0; 1) differenzierbar, mit
ψ 0 (t) = ∇f (φ(t)) · φ0 (t) = ∇f ((1 − t)a + tb) · (b − a)
Aus dem Mittelwertsatz für Funktionen einer Variablen existiert t0 ∈ (0; 1) mit
f (b) − f (a) = ψ(1) − ψ(0) = ψ 0 (t0 )(1 − 0) = ∇f ((1 − t0 )a + t0 b) · (b − a)
Die Behauptung folgt, mit ξ = (1 − t0 )a + t0 b.
Für Funktionen mit Werten auf Rm , m > 1, gilt i.A. der Mittelwertsatz nicht (unabhängig davon, ob die Funktion eine oder mehrere Veränderliche hat; siehe Bemerkung
unter Satz 8.9 in Analysis 1). Man kann aber eine Mittelwertabschätzung zeigen (siehe Proposition 8.10 in Analysis 1 für die Mittelwertabschätzung für Funktionen einer
Variablen).
49
Satz 3.9 (Mittelwertabschätzung). Sei U ⊂ Rn offen, f : U → Rm differenzierbar,
a, b ∈ U mit
[a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U
Sei kDf (x)kop ≤ M für alle x ∈ [a; b]. Dann gilt
kf (b) − f (a)k ≤ M kb − ak
Beweis: O.B.d.A. können wir annehmen, dass f (b) 6= f (a). Wir setzen
e=
f (b) − f (a)
∈ Rm .
kf (b) − f (a)k
Wir definieren die lineare Funktion φ : Rm → R durch φ(x) = x · e. Wir bemerken, dass,
wegen Linearität, φ auf Rm differenzierbar ist, mit Dφ = φ. Ferner, da kek = 1, gilt
kφkop ≤ 1 (eigentlich kφkop = 1). Wir definieren auch die Funktion g : Rn → R durch
g(x) = φ(f (x) − f (a))
Es gilt g(a) = 0 und g(b) = kf (b)−f (a)k. Aus der Kettenregel ist g auf U differenzierbar,
mit
Dg(x) = Dφ(f (x) − f (a)) · Df (x) = φ · Df (x)
Für x ∈ [a; b] gilt also
kDg(x)kop ≤ kφkop kDf (x)kop ≤ M
Der Mittelwertsatz 3.8 für die Funktion g impliziert, dass ein ξ ∈ [a; b] mit
kf (b) − f (a)k = g(b) − g(a) = Dg(ξ) · (b − a) ≤ kDg(ξ)kop kb − ak ≤ M kb − ak
existiert.
Eine Anwendung der Mittelwertabschätzung ist der Beweis der Tatsache, dass eine
auf einem offenen und zusammenhängenden Gebiet U ⊂ Rn definierte Funktion f mit
Df = 0 auf U konstant sein muss.
Definition 3.10. Ein Streckenzug auf Rn ist eine Menge der Form
[a1 ; a2 ] ∪ [a2 ; a3 ] ∪ · · · ∪ [ap−1 ; ap ]
für ein p ∈ N, und für Punkten a1 , . . . , an ∈ Rn (hier bezeichnet [a; b] = {(1 − λ)a +
λb : λ ∈ [0; 1]} der Segment zwischen a und b). a0 heisst Anfangspunkt und an heisst
Endpunkt des Streckenzuges. Wir sagen dann der Streckenzug verbindet die Punkten a0
und ap . Eine offene Teilmenge U ⊂ Rn heisst zusammenhängend falls je zwei Punkten
in U durch einen Streckenzug in U verbinden werden können.
Proposition 3.11. Sei U ⊂ Rn offen und zusammenhängend, f : U → Rm differenzierbar, mit Df (x) = 0 für alle x ∈ U . Dann ist f konstant auf U .
50
Beweis: Ist [a; b] ⊂ U dann gilt, aus Satz 3.9 mit M = 0, f (b) = f (a). Seien nun x, y ∈ U
beliebig. Da U zusammenhängend ist gibt es ein Streckenzug [a0 ; a1 ] ∪ · · · ∪ [ap−1 ; ap ] in
U , mit a0 = x und ap = y. Also
f (x) = f (a1 ) = f (a2 ) = · · · = f (ap−1 ) = f (y) .
Bemerkung: die Annahme, dass U zusammenhängend ist, ist notwendig. Sei
U = {x ∈ R2 : |x| < 1
oder |x − 3| < 1}
und f : U → R durch f (x) = 0 falls |x| < 1 und f (x) = 1 falls |x − 3| < 1 definiert.
Dann ist U offen, und Df (x) = 0 für alle x ∈ U , aber f ist auf U nicht konstant.
3.3
Höhere Ableitungen, Taylor Entwicklung, lokale Extrema
Sei U ⊂ Rn offen, und f : U → Rm differenzierbar. Die Ableitung von f ist dann
eine Funktion Df : U → L(Rn ; Rm ) mit Werten in den linearen Abbildungen zwischen
Rn und Rm . Man kann L(Rn ; Rm ) mit dem Vektorraum Rmn identifizieren (weil jede
lineare Abbildung in L(Rn ; Rm ) mit einer m × n Matrix identifiziert werden kann).
Man kann sich also fragen, ob die Abbildung Df differenzierbar ist. Ist Df an der
Stelle a ∈ U differenzierbar, dann heisst f an der Stelle a zweimal differenzierbar.
Die zweite Ableitung ist eine lineare Abbildung D2 f (a) : Rn → Rmn , d.h. D2 f (a) ∈
2
L(Rn ; Rn×m ) ' Rmn . Iterativ kann man höhere Ableitungen definieren. Ist f auf U
k
k-mal differenzierbar, und ist die k-te Ableitung Dk f : U → Rmn an der Stelle a
differenzierbar, dann sagt man, dass f an der Stelle a (k + 1)-mal differenzierbar ist,
k
k+1
und man bezeichnet die (k + 1)-te Ableitung mit Dk+1 f (a) ∈ L(Rn ; Rmn ) ' Rmn .
Man bemerke, dass die Abbildung D2 f (a) : Rn → L(Rn ; Rm ) ' Rn×m mit der
bilinearen Abbildung D2 f (a) : Rn × Rn → Rm , definiert durch
(D2 f (a))(v, v 0 ) = (D2 f (a)(v))(v 0 ) ,
identifiziert werden kann (wir benutzen die selbe Notation D2 f (a) für die lineare Abbildung Rn → L(Rn ; Rm ) und für die bilineare Abbildung Rn × Rn → Rm ). Wir erinnern
hier, dass eine Abbildung b : Rn × Rn → Rm bilinear heisst, falls die zwei Bedingungen
b(v1 + λv2 , v) = b(v1 , v) + λb(v2 , v)
(Linearität im ersten Argument)
b(v, v1 + λv2 ) = b(v, v1 ) + λb(v, v2 )
(Linearität im zweiten Argument)
(45)
für alle v, v1 , v2 ∈ Rn , λ ∈ R erfüllt sind. Analog kann D3 f (a) mit einer trilinearen Form
identifiziert werden und Dk f (a) mit einer k-linearen Abbildung auf Rn , mit Werten in
Rm .
Höhere partielle Ableitungen. Sei nun f : U → R partiell differenzierbar. Dann ist
∂f /∂xj wieder eine Funktion auf U mit Werten in R. Ist diese neue Funktion partiell
differenzierbar, so können wir die partiellen Ableitungen zweiter Ordnung
∂2f
∂
∂f
=
∂xj ∂xi
∂xj ∂xi
51
definieren. Iterativ kann man partielle Ableitungen höherer Ordnung definieren (die
Ordnung einer partiellen Ableitung ist die gesamte Anzahl von partiellen Ableitungen).
Um die Notation ein bisschen zu vereinfachen, schreiben wir, für eine partielle Ableitung
der Ordnung k,
∂kf
∂
∂f
∂
∂
=
∂i1 ∂i2 . . . ∂ik f =
.
...
∂xi1 ∂xi2 . . . ∂xik
∂xi1 ∂xi2
∂xik−1 ∂xik
Wir sagen, die Funktion f : U → R ist k-mal partiell differenzierbar, falls alle partiellen
Ableitungen der Ordnung kleiner oder gleich k existieren. Wir sagen, dass eine Funktion
f : U → Rm k-mal partiell differenzierbar ist, falls f (x) = (f1 (x), . . . , fm (x)) und jede
Komponente f1 , . . . , fm : U → R k-mal partiell differenzierbar ist.
Für k ∈ N, k ≥ 1, bezeichnen wir mit C k (U ; Rm ) die Menge der Funktionen f :
U → Rm , die auf U k-mal differenzierbar sind, so dass Dk f stetig ist. Nach Proposition
3.5 ist C k (U ; Rm ) genau die Menge der Funktionen f : U → Rm , für die alle partiellen
Ableitungen der Ordnung kleiner oder gleich k existieren und stetig sind.
Zur Berechnung von höheren partiellen Ableitungen ist es sehr nützlich zu bemerken, dass (unter geeigneten Annahmen an f ) sich partielle Ableitungen miteinander
vertauschen, d.h. ∂i ∂j f = ∂j ∂i f . Das wird in dem nächsten Satz bewiesen.
Satz 3.12 (Schwarz). Sei U ⊂ R2 offen, (x0 , y0 ) ∈ U , und f : U → R in U partiell
differenzierbar. Falls ∂y ∂x f auf U existiert und an der Stelle (x0 , y0 ) stetig ist, dann
existiert auch ∂x ∂y f an der Stelle (x0 , y0 ) und
∂x ∂y f (x0 , y0 ) = ∂y ∂x f (x0 , y0 ) .
Bemerkung. O.B.d.A. können wir (x0 , y0 ) = (0, 0) betrachten. Da
∂y f (x, 0) = lim
y→0
f (x, y) − f (x, 0)
y
erhalten wir
f (x,y)−f (x,0)
∂y f (x, 0) − ∂y f (0, 0)
y
∂x ∂y f (0; 0) = lim
= lim lim
x→0
x→0 y→0
x
f (x, y) − f (x, 0) − f (0, y) + f (0, 0)
= lim lim
x→0 y→0
xy
−
f (0,y)−f (0,0)
y
x
(46)
Analog gilt
∂y ∂x f (0; 0) = lim lim
y→0 x→0
f (x, y) − f (0, y) − f (x, 0) + f (0, 0)
xy
Das Problem ist also zu zeigen, dass die zwei Grenzwerte vertauscht werden können.
Beweis: O.B.d.A. nehmen wir an, dass (x0 , y0 ) = (0, 0) und dass ∂y ∂x f (0, 0) = 0 (sonst
ersetze f (x, y) durch f (x, y) − ∂y ∂x f (0, 0)xy). Wir definieren die Funktion φ(x, y) =
f (x, y) − f (x, 0). Gemäss (46) sind wir an
f (x, y) − f (0, y) − f (x, 0) + f (0, 0)
φ(x, y) − φ(0, y)
=
xy
xy
52
interessiert. Für festgehaltene y ist φ differenzierbar nach x und es gilt
∂x φ(x, y) = ∂x f (x, y) − ∂x f (x, 0)
Der Mittelwertsatz (für Funktionen einer Variablen) zeigt, es existiert 0 < θ < 1 mit
φ(x, y) − φ(0, y) = x∂x φ(θx, y) = x[∂x f (θx, y) − ∂x f (θx, 0)]
(47)
Nun ist die Funktion y → ∂x f (θx, y), für festgehaltene x und θ nach y differenzierbar, mit
Ableitung ∂y ∂x f (θx, y) (wir benutzen hier die Existenz der zweiten partiellen Ableitung
∂y ∂x f auf U ). Der Mittelwertsatz (für eine Variable) impliziert also, dass ein 0 < θ0 < 1
existiert, mit
∂x f (θx, y) − ∂x f (θx, 0) = y∂y ∂x f (θx, θ0 y)
Aus (47) folgt, dass
φ(x, y) − φ(0, y) = xy∂y ∂x f (θx, θ0 y)
und damit
f (x, y) − f (0, y) − f (x, 0) + f (0, 0)
= ∂y ∂x f (θx, θ0 y)
xy
Sei nun ε > 0 beliebig fest gewählt. Da ∂y ∂x f an der Stelle (0, 0) stetig ist, und da
∂y ∂x f (0, 0) = 0, existiert ein δ > 0 mit |∂y ∂x f (w, z)| ≤ ε für alle (w, z) ∈ R2 mit
k(w, z)k ≤ δ. Seien also (x, y) ∈ R2 , mit k(x, y)k ≤ δ. Dann gilt auch k(θx, θ0 y)k ≤ δ,
für alle θ, θ0 ∈ (0, 1). Deswegen gilt
|∂y ∂x f (θx, θ0 y)| ≤ ε
und
f (x,y)−f (x,0)
−
y
x
f (0,y)−f (0,0) y
f (x, y) − f (0, y) − f (x, 0) + f (0, 0) ≤ε
=
xy
Das gilt für alle k(x, y)k ≤ δ, und also insbesondere für feste x ∈ (−δ, δ) und y → 0. Da
f (x, y) − f (x, 0)
= ∂y f (x, 0),
y→0
y
lim
erhalten wir
und
f (0, y) − f (0, 0)
= ∂y f (0, 0)
y→0
y
lim
∂y f (x, 0) − ∂y f (0, 0) ≤ε
x
für alle x ∈ (−δ, δ). Da ε > 0 beliebig ist, es folgt, dass
∂y f (x, 0) − ∂y f (0, 0)
=0
x→0
x
lim
(und insbesondere, dass der Grenzwert existiert). Das zeigt, dass ∂x ∂y f (0, 0) = 0.
Durch wiederholte Anwendung von Satz 3.12 bekommen wir das folgende Korollar
für partielle Ableitungen beliebiger Ordnung.
53
Korollar 3.13. Sei U ⊂ Rn offen. Sei k ∈ N und f ∈ C k (U ). Dann gilt für alle
i1 , . . . , ik ∈ {1, . . . , n} und alle Permutationen π der Zahlen {1, . . . , k},
∂i1 . . . ∂ik f = ∂iπ1 . . . ∂iπk f .
Bespiel: Sei f ∈ C 4 (U ). Dann ∂x1 ∂x1 ∂x2 ∂x2 f = ∂x1 ∂x2 ∂x1 ∂x2 f = ∂x1 ∂x2 ∂x2 ∂x1 f = . . . .
Bemerkung: Nicht nur die verschiedenen partiellen Ableitungen, sondern auch beliebige
Richtungsableitungen vertauschen sich miteinander.
Differentialoperatoren. Man kann partielle Ableitungen als Operatoren interpretieren,
die auf differenzierbare Funktionen wirken. Sei
X
p(ξ1 , . . . , ξn ) =
pi1 ,...,in ξ1i1 . . . ξnin
i1 ,...,in ≥0:i1 +···+in ≤k
ein Polynom in den n Variablen ξ1 , . . . , ξn . Dann definieren wir den entsprechenden
Differentialoperator
X
p (∂1 , . . . , ∂n ) =
pi1 ,...,in ∂1i1 . . . ∂nin
i1 ,...,in ≥0:i1 +···+in ≤k
Der Operator p(∂1 , . . . , ∂n ) ist linear und bildet Funktionen in C k (U ) nach Funktionen
in C(U ). Der Operator ist wohldefiniert aus Satz 3.12, weil die verschiedenen partiellen
Ableitungen sich miteinander vertauschen (wäre das nicht der Fall, so würden zwei
verschiedene Operatoren dem selben Polynom entsprechen). Eine weitere Folgerung von
Satz 3.12 ist die folgende Bemerkung: Seien p1 , p2 zwei Polynome in n Variablen der
Ordnung k1 und k2 , sei p1 · p2 das Produkt der zwei Polynome (ein Polynom in n
Variablen der Ordnung k1 + k2 ). Dann gilt
p1 (∂1 , . . . , ∂n ) · p2 (∂1 , . . . , ∂n ) = (p1 · p2 )(∂1 , . . . , ∂n )
als Identität zweier Operatoren auf C (k1 +k2 ) (U ). Das Produkt auf der linken Seite ist
die Komposition von zwei (linearen) Abbildungen.
P
Beispiel: Sei p(ξ1 , . . . , ξn ) = nj=1 ξj2 . Der Laplace-Operator auf Rn ist aus
∆ := p (∂1 , . . . , ∂n ) =
n
X
∂j2 =
j=1
n
X
∂2
∂x2j
j=1
gegeben. Der Laplace-Operator wirkt auf C 2 (Rn ).
Taylor Entwicklung. Wir erinnern uns an den Begriff der Taylor-Entwicklung für Funktionen einer Variablen (siehe Kapitel 8.6 im Skript zu Analysis 1). Sei f ∈ C m+1 ([a; x]).
Dann existiert ξ ∈ (a; x), so dass
f (x) = f (a) + f 0 (a)(x − a) + · · · +
f (m) (a)
f (m+1) (ξ)
(x − a)m +
(x − a)m+1 .
m!
(m + 1)!
54
Sei nun U ⊂ Rn offen, a ∈ U und h ∈ Rn mit a + h ∈ U . Sei weiter f ∈ C m+1 (U )
R-wertig. Wir setzen φ(t) = f (a + th). Dann ist φ ∈ C m+1 ([0, 1]), mit φ(1) = f (a + h)
und φ(0) = f (a). Das impliziert, dass
f (a + h) = f (a) +
m
X
φ(j) (0)
j=1
j!
+
φ(m+1) (θ)
(m + 1)!
für ein θ ∈ (0; 1). Wir müssen die Ableitungen von φ berechnen. Es gilt
φ0 (t) = Df (a + th)(h) = h · ∇f (a + th)
und deswegen φ0 (0) = h · ∇f (a). Induktiv bekommen wir
φ(j) (t) = (h · ∇)j f (a + th)
Der Operator (h · ∇)j ist ein Differentialoperator der Ordnung j. Man findet
!j
n
X
X
(h · ∇)j
hi11 . . . hinn i1
=
∂ . . . ∂nin
hi ∂i
=
j!
i1 !i2 ! . . . in ! 1
i1 ,...,in ≥0:i1 +···+in =j
i=1
und also die Taylor-Entwicklung
f (a + h) = f (a) +
+
m
X
1
∂1i1 . . . ∂nin f (a) hi11 . . . hinn
i !i ! . . . in !
j=1 i1 ,...,in ≥0:i1 +···+in =j 1 2
(48)
X
1
i1
i1
in
in
∂ . . . ∂n f (a + θh) h1 . . . hn
i1 !i2 ! . . . in ! 1
X
i1 ,...,in :i1 +···+in =m+1
Es ist nützlich, eine kompaktere Notation für die höheren partiellen Ableitungen einzuführen. Ein Multiindex ist eine n-Tupel i = (i1 , . . . , in ) mit ij ∈ N für alle j = 1, . . . , n.
Der Betrag des Multiindexes i = (i1 , . . . , in ) wird als
|i| = i1 + i2 + · · · + in
definiert. Für den Multiindex i definieren wir weiter die partielle Ableitung der Ordnung
|i|
∂ i := ∂1i1 ∂2i2 . . . ∂nin
und hi := hi11 . . . hinn für alle h = (h1 , . . . , hn ) ∈ Rn . Wir setzen auch i! := i1 !i2 ! . . . in !.
Dann lässt sich (48) als
f (a + h) =
m X
X
(∂ i f )(a) i
h +
i!
j=0 i:|i|=j
X
i:|i|=m+1
(∂ i f )(a + θh) i
h
i!
(49)
schreiben, für ein beliebiges f ∈ C m+1 (U ), U ⊂ Rn offen, a ∈ U und h klein genug. In
(49) bilden die ersten m Termen das m-te Taylor-Polynom von f an der Stelle a:
m X
X
(∂ i f )(a) i
h
pm (h) =
i!
j=0 i:|i|=j
55
Der letzte Term auf der rechten Seite von (49) heisst das Restglied. Das Restglied ist
offenbar O(khkm+1 ), für h → 0. In den Übungen wird ferner bewiesen, dass


m+1
i
X
X
1
(∂ f )(a) i 
f (a + h) −
lim
h = 0.
m+1
h→0 khk
i!
j=0 i:|i|=j
Wir haben in (45) bemerkt, dass die r-te Ableitung Dr f (a) als die r-lineare Form
Dr f (a) :Rn × · · · × Rn → R
(v1 , v2 , . . . , vr ) → Dr f (a)(v1 , . . . , vr ) = (((Dr f (a)(v1 ))(v2 )) . . . )(vr )
interpretiert werden kann. Man kann dann überprüfen, dass
X (∂ i f )(a)
X
1 r
1
D f (a)(h, h, . . . , h) =
hi =
(∂ i1 . . . ∂nin f )(a)hi11 . . . hinn
r!
i!
i1 !i2 ! . . . in ! 1
i:|i|=r
i:|i|=r
Damit können wir die Taylor-Entwicklung (49) als
f (a + h) =
m
X
Dr f (a)(h, . . . , h)
r=0
r!
+
Dm+1 f (a + θh)(h, . . . , h)
(m + 1)!
(50)
umschreiben. Man bemerke, dass, für feste a, Dr f (a)(h, . . . , h) ein homogenes Polynom von Grad r in h ist. D.h. g(h) := Dr f (a)(h, . . . , h) ist ein Polynom in h, mit der
Eigenschaft g(th) = tr g(h) für alle t ∈ R.
Lokale Extrema und kritische Punkte. Sei U ⊂ Rn offen und f : U → R. Ein Punkt a ∈ U
heisst ein lokales Minimum von f , falls eine offene Umgebung A ⊂ U von a existiert,
mit f (a) = min{f (x) : x ∈ A}. a heisst ein lokales Maximum von f , falls eine offene
Umgebung A ⊂ U von a existiert, so dass f (a) = max{f (x) : x ∈ A}. a ∈ U heisst
ein lokales Extremum, falls a entweder ein lokales Minimum oder ein lokales Maximum
ist. Für eine Funktion φ einer Variablen haben wir in Analysis 1 bewiesen, dass, falls
φ an der Stelle t ∈ R differenzierbar ist, mit φ0 (t) 6= 0, t kein Extremum sein kann. Im
nächsten Satz zeigen wir die analoge Aussage für Funktionen mehrerer Veränderlichen.
Satz 3.14. Sei U ⊂ Rn offen, a ∈ U und f : U → R differenzierbar an der Stelle a. Es
gelte ∇f (a) 6= 0. Dann ist a kein Extremum von f .
Beweis: Sei e ∈ Rn ein Einheitsvektor mit e · ∇f (a) 6= 0. Wir setzen φ(t) = f (a + te) für
t ∈ R, mit |t| klein genug (damit a+te ∈ U ). φ ist an der Stelle t = 0 differenzierbar, mit
φ0 (0) = e · ∇f (a) 6= 0. Also ist 0 ∈ R keine Extremalstelle von φ. D.h. φ nimmt in jeder
Umgebung von 0 Werten grösser als φ(0) = f (a) und Werten kleiner als φ(0) = f (a) an.
Das zeigt, dass a keine Extremalstelle von f ist.
Seien U , f wie oben. Wir sagen a ∈ U ist ein kritischer Punkt von f , falls f in a
differenzierbar ist und ∇f (a) = 0. Ist a ∈ U ein Extremum von f , so muss entweder f
an der Stelle a nicht differenzierbar sein, oder a muss ein kritischer Punkt sein.
56
Sei nun f ∈ C p (U ) und a eine kritische Stelle von f . Es existiere 1 < r < p mit
6= 0. Sei r die kleinste ganze Zahl mit dieser Eigenschaft. Dann gilt, aus (50),
Dr f (a)
f (a + h) = f (a) +
1 r
D f (a)(h, . . . , h) + O(khkr+1 )
r!
(51)
für h → 0. Die Frage, ob a ein Maximum, ein Minimum oder keine Extremalstelle ist,
wird vom Verhalten von Dr f (a)(h, . . . , h) bestimmt.
Definition 3.15. Sei p : Rn → R ein homogenes Polynom. Wir sagen
p ist positiv definit, wenn p(h) > 0 für alle h 6= 0
p ist positiv semidefinit, wenn p(h) ≥ 0 für alle h
p ist negativ definit, wenn p(h) < 0 für alle h 6= 0
p ist negativ semidefinit, wenn p(h) ≤ 0 für alle h
p ist indefinit, wenn p weder positiv noch negativ semidefinit ist
Ist p indefinit, so nimmt p Werte mit beiden Vorzeichen.
Bemerkung. Ist p : Rn → R ein homogenes Polynom von ungeradem Grad r, so ist
entweder p ≡ 0 oder p indefinit. In der Tat
p(−h) = (−1)r p(h) = −p(h)
D.h. entweder ist p ≡ 0 oder p nimmt positive und negative Werte an.
Beispiele: Sei n = 2, r = 2. Dann ist
p(h1 , h2 ) = h21 + h22
positiv definit
2
p(h1 , h2 ) = (h1 + h2 )
positiv semidefinit
p(h1 , h2 ) = −h21 − h22
negativ definit
2
p(h1 , h2 ) = −(h1 + h2 )
p(h1 , h2 ) = h1 h2
seminegativ definit
indefinit
Aus (51) folgt einfach, falls a ein lokales Minimum ist, so muss Dr f (a) positiv semidefinit sein, und falls a ein lokales Maximum ist, so muss Dr f (a) negativ semidefinit sein.
Die umgekehrten Aussagen gelten i.A. nur, wenn Dr f (a) positiv bzw. negativ definit
sind (statt nur semidefinit). Das ist der Inhalt der nächsten Proposition.
Proposition 3.16. Sei U ⊂ Rn offen, f ∈ C p (U ), a ∈ U eine kritische Stelle von f ,
und r < p so, dass (wie in (51))
f (a + h) = f (a) +
1 r
D f (a)(h, . . . , h) + O(khkr+1 )
r!
für h → 0. Dann gilt
a) Ist Dr f (a)(h, . . . , h) positiv definit, so ist a ein lokales Minimum.
b) Ist Dr f (a)(h, . . . , h) negativ definit, so ist a ein lokales Maximum.
57
c) Ist Dr f (a)(h, . . . , h) indefinit, so ist a kein Extremum.
Bemerkung: Ist Dr f (a)(h, . . . , h) positiv semidefinit (aber nicht positiv definit) oder
negativ semidefinit (aber nicht negativ definit), so wird in Proposition 3.16 keine Aussage über die kritische Stelle a gemacht. In diesem Fall ist eine tiefere Untersuchung
notwendig.
Beweis: a) Das Polynom h → Dr f (a)(h, . . . , h) ist stetig und Dr f (a)(h, . . . , h) > 0 für
alle h ∈ S = {h ∈ Rn : khk = 1} (S n−1 ist die Einheitssphäre in Rn ). Da S ⊂ Rn
kompakt ist, folgt aus dem Sazt vom Maximum, dass α = inf h∈S Dr f (a)(h, . . . , h) > 0.
Für ein beliebiges h ∈ Rn , h 6= 0 schreiben wir h = khke für ein e ∈ S. Dann gilt
Dr f (a)(h, . . . , h) = khkr Dr f (a)(e, . . . , e) ≥ αkhkr .
Das gibt
1 r
α
D f (a)(h, . . . , h) + O(khkr+1 ) ≥ f (a) + khkr + O(khkr+1 )
r!
r!
α
r
= f (a) + khk (1 + O(khk)) ≥ f (a)
r!
f (a + h) = f (a) +
für alle h ∈ Rn klein genug. Das zeigt, dass a ein lokales Minimum ist. Analog zeigt man
die Aussage b). Um c) zu zeigen, finden wir e1 , e2 ∈ S mit Dr f (a)(e1 , . . . , e1 ) > 0 und
Dr f (a)(e2 , . . . , e2 ) < 0. Für λ > 0 beliebig finden wir
f (a + λe1 ) = f (a) +
λr r
D f (a)(e1 , . . . , e1 )(1 + O(λ)) > f (a)
r!
und
λr r
D f (a)(e2 , . . . , e2 )(1 + O(λ)) < f (a)
r!
für alle λ > 0 klein genug. Damit ist a kein Extremum.
f (a + λe2 ) = f (a) +
Besonders wichtig ist der Fall, dass an einem kritischen Punkt a einer Funktion
f ∈ C 3 (U ), die zweite Ableitung nicht verschwindet. In diesem Fall hängt die Frage,
ob a ein Minimum, ein Maximum oder keine Extremalstelle ist, mit dem Verhalten der
quadratischen Form D2 f (a)(h, h) zusammen. Wir bemerken, dass, falls h = (h1 , . . . , hn ),
2
D f (a)(h, h) =
n
X
i,j=1
∂2f
(a)hi hj .
∂xi ∂xj
Wir definieren die n × n Matrix
Hij = ∂i ∂j f (a) =
∂2f
(a) .
∂xi ∂xj
Die Matrix Hij heisst P
die Hesse’sche Matrix von f an der Stelle a, die quadratische
n
Form D2 f (a)(h, h) =
i,j=1 Hij hi hj die Hesse’sche Form. Aus Satz 3.12 folgt, dass
die Matrix Hij symmetrisch ist (d.h. Hij = Hji ). Die Hesse’sche Form heisst nicht
entartet, falls det(Hij ) 6= 0. Tatsache: Ist die Hesse’sche Form nicht entartet, dann ist
sie entweder positiv definit, negativ definit oder indefinit (der Fall, dass D2 f (a) positiv
58
semidefinit, aber nicht positiv definit, und der Fall, dass D2 f (a) negativ semidefinit, aber
nicht negativ definit ist, sind ausgeschlossen). Diese Aussage folgt aus der Bemerkung,
dass eine symmetrische n × n Matrix immer durch eine unitäre Matrix diagonalisierbar
ist. Seien λ1 , . . . , λn die (nicht notwendigerweise verschiedenen) Eigenwerte von Hij .
Ist D2 f (a) nicht entartet, so gilt λi 6= 0 für alle i = 1, . . . , n. Es gibt also nur drei
Möglichkeiten: 1) alle Eigenwerte sind positiv, 2) alle Eigenwerte sind negativ, 3) es gibt
positive und negative Eigenwerte. Im Fall 1) ist D2 f (a) positiv definit, im Fall 2) ist
D2 f (a) negativ definit und im Fall 3) ist D2 f (a) indefinit. Es folgt aus dieser Bemerkung,
dass, falls die Hesse’sche Form nicht entartet ist, man immer durch Untersuchung von
D2 f (a) entscheiden kann, ob der kritische Punkt a ein Maximum, ein Minimum oder
kein Extremum ist.
3.4
Umkehrabbildung und Satz über implizite Funktionen
Für differenzierbare Funktionen einer Variablen f : R ⊃ Ω → R haben wir in Analysis 1
gezeigt, dass, unter der Bedingung f 0 (a) 6= 0, die Umkehrabbildung lokal wohldefiniert
und an der Stelle f (a) differenzierbar, mit (f −1 )0 (f (a)) = 1/f 0 (a), ist. Wir möchten
nun eine analoge Aussage für Funktionen mehrerer Variablen beweisen. Die Bedingung
f 0 (a) 6= 0 wird hier durch die Bedingung ersetzt, dass Df (a) invertierbar ist.
Satz 3.17 (Satz über die Umkehrabbildung). Sei U ⊂ Rn offen, f : U → Rn stetig
differenzierbar, a ∈ U und Df (a) ∈ L(Rn ; Rn ) invertierbar. Dann existieren offene
Umgebungen V von a und W von f (a) so, dass f : V → W bijektiv und f −1 : W → V
stetig differenzierbar. Ferner gilt
Df −1 (f (a)) = (Df (a))−1 .
Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , d.h. es gelte f (x) =
(f1 (x), . . . , fn (x)) für alle x ∈ U . Die Invertierbarkeit von Df (a) ist dann äquivalent zur
Bedingung, dass
∂fi (a)
det
6= 0 .
∂xj i,j≤n
Im Beweis des Satzes (genauer gesagt, um die Stetigkeit der Ableitung von f −1 zu
zeigen) werden wir die folgende Proposition benutzen.
Proposition 3.18. Sei
GL(Rn ) = {L ∈ L(Rn ; Rn ) : L ist invertierbar}
Die Menge GL(Rn ) ist in L(Rn ; Rn ) offen (bezüglich der aus der Operatornorm (oder
aus jeder anderen Norm) induzierten Topologie). Die Abbildung i : GL(Rn ) → GL(Rn ),
definiert durch i(L) = L−1 ist stetig.
Beweis: Sei L ∈ L(Rn ; Rn ) invertierbar. Dann gilt
kL−1 kop = sup
y6=0
kxk
1
kL−1 yk
= sup
=
kyk
x6=0 kLxk
inf x6=0
59
kLxk
kxk
und deswegen
kLxk
1
=
−1
x6=0 kxk
kL kop
inf
Das impliziert, dass
kLxk ≥
1
kxk
kL−1 kop
(52)
für alle x ∈ Rn .
−1
Sei nun L0 ∈ GL(Rn ) invertierbar und L ∈ L(Rn ; Rn ) mit kL − L0 kop < kL−1
0 k .
Dann gilt, für ein beliebiges x ∈ Rn ,
−1
kLxk ≥ kL0 xk − k(L − L0 )xk ≥ kL−1
(53)
0 kop − kL − L0 kop kxk ≥ ckxk
für ein c > 0. Das zeigt, dass L injektiv und deswegen auch invertierbar ist (eine lineare
Abbildung L ∈ L(Rn ; Rn ) ist genau dann bijektiv, wenn sie injektiv ist). Das impliziert,
dass
−1
n
{L ∈ L(Rn ; Rn ) : kL − L0 kop < kL−1
0 kop } ⊂ GL(R )
und also, dass GL(Rn ) offen ist.
Aus (53) finden wir auch
kL−1 kop =
1
inf x6=0
kLxk
kxk
≤
1
kL−1
0 kop
kL−1
1
0 kop
=
−1
− kL − L0 kop
1 − kL0 kop kL − L0 kop
−1
−1
Da L−1 − L−1
0 = L (L0 − L)L0 erhalten wir
−1
−1
kL−1 − L−1
0 kop ≤ kL kop kL0 kop kL − L0 kop ≤
2
kL−1
0 k
kL − L0 kop
1 − kL−1
0 kop kL − L0 kop
Das zeigt, dass die Abbildung i(L) = L−1 stetig an der Stelle L0 ist, für jede L0 ∈
GL(Rn ).
Beweis von Satz 3.17. O.B.d.A können wir annehmen, dass a = 0 und f (0) = 0 (sonst
ersetzen wir f durch die Funktion fe(x) = f (x + a) − f (a)). Wir definieren φ : U → Rn
durch φ(x) = f (x)−Df (0)(x). Dann gilt f (x) = Df (0)(x)+φ(x) und Df (x) = Df (0)+
Dφ(x) für alle x ∈ U . Insbesondere gilt φ(0) = f (0) = 0 und Dφ(0) = 0. Da f stetig
differenzierbar ist, ist die Abbildung x → Dφ(x) stetig. Also existiert r0 > 0 mit
kDφ(x)kop ≤
1
2kDf (0)−1 kop
für alle x ∈ B r0 := {x ∈ Rn : kxk ≤ r0 }. Aus der Mittelwertabschätzung gilt dann
kφ(x1 ) − φ(x2 )k ≤
1
kx1 − x2 k
2kDf (0)−1 kop
(54)
für alle x1 , x2 ∈ B r0 . Insbesondere, mit x2 = 0, finden wir kφ(x)k ≤ (2kDf (0)−1 kop )−1 kxk
für alle x ∈ B r0 (weil φ(0) = 0).
60
Schritt 1. Für alle r ≤ r0 gilt f (B r ) ⊃ B r/2kDf (0)−1 kop . D.h. für jede y ∈ Rn mit
kyk ≤ r/(2kDf (0)−1 kop ) existiert ein x ∈ B r mit f (x) = y.
Beweis. Für beliebige y ∈ B r/2kDf (0)−1 kop definieren wir ψy : B r → Rn durch ψy (x) =
Df (0)−1 (y − φ(x)). Es gilt f (x) = y genau dann, wenn ψy (x) = x, d.h. wenn x ein
Fixpunkt von ψy ist. Wir möchten den Banachschen Fixpunktsatz anwenden, um zu
zeigen, dass ψy einen Fixpunkt in B r besitzt. Dazu bemerken wir zunächst, dass
kψy (x)k = kDf (0)−1 kop ky − φ(x)k ≤ kDf (0)−1 kop (kyk + kφ(x)k) ≤ r
für alle y ∈ B r/2kDf (0)−1 kop und x ∈ B r (wir haben hier (54) gebraucht). Das zeigt, dass
für alle y ∈ B r/2kDf (0)−1 kop , ψy : B r → B r . Ferner haben wir
ψy (x1 ) − ψy (x2 ) = Df (0)−1 (φ(x1 ) − φ(x2 ))
und deswegen
1
kψy (x1 ) − ψy (x2 )k = kDf (0)−1 kop kφ(x1 ) − φ(x2 )k ≤ kx1 − x2 k
2
für alle x ∈ B r (wieder wegen (54)). Es folgt, dass für alle y ∈ B r/2kDf (0)−1 kop , ψy eine
Kontraktion auf B r ist. Da B r ein vollständiger metrischer Raum ist, folgt aus Satz 2.3,
dass für alle y ∈ B r/2kDf (0)−1 kop ein x ∈ B r mit f (x) = y existiert.
Schritt 2. Es gilt
3kDf (0)kop
1
kx1 − x2 k
kx1 − x2 k ≤ kf (x1 ) − f (x2 )k ≤
−1
2kDf (0) kop
2
für alle x1 , x2 ∈ B r0 . Insbesondere ist f auf B r0 injektiv.
Beweis: Wir haben f (x) = φ(x) + Df (0)(x). Aus (54) gilt
kf (x1 ) − f (x2 )k ≤ kDf (0)kkx1 − x2 k + kφ(x1 ) − φ(x2 )k
1
≤ kDf (0)kop +
kx1 − x2 k
2kDf (0)−1 kop
Aus 1 = Df (0)Df (0)−1 folgt, dass 1 ≤ kDf (0)kop kDf (0)−1 kop und damit
kDf (0)−1 k−1
op ≤ kDf (0)kop .
Das ergibt
kf (x1 ) − f (x2 )k ≤
3kDf (0)kop
kx1 − x2 k
2
für alle x1 , x2 ∈ B r0 . Anderseits gilt aus (52) und wieder aus (54),
kf (x1 ) − f (x2 )k ≥ kDf (0)(x1 − x2 )k − kφ(x1 ) − φ(x2 )k
1
1
≥
−
kx1 − x2 k
kDf (0)−1 kop 2kDf (0)−1 kop
1
=
kx1 − x2 k .
2kDf (0)−1 kop
61
Sei nun r < r0 fest. Wir setzen W0 = Br/(2kDf (0)−1 kop ) = {x ∈ Rn : kxk <
r/2kDf (0)−1 kop }, und V0 = f −1 (W0 ) ∩ Br0 = {x ∈ Br0 : kf (x)k < r}. W0 ist offen. Da f stetig, ist auch V0 offen. Es folgt aus Schritten 1 und 2, dass f : V0 → W0
bijektiv ist. Die Injektivität folgt aus Schritt 2, weil V0 ⊂ Br0 . Die Surjektivität folgt
dagegen aus Schritt 1, weil für jede y ∈ Br/(2kDf (0)−1 kop , x ∈ B r ⊂ Br0 mit f (x) = y
existiert. Wir bezeichnen die Inverse mit g : W0 → V0 . Für y1 , y2 ∈ W0 setze x1 = g(y1 )
und x2 = g(y2 ). Aus Schritt 2 haben wir
kg(y1 ) − g(y2 )k = kx1 − x2 k ≤ 2kDf (0)−1 kop kf (x1 ) − f (x2 )k = 2kDf (0)−1 kop ky1 − y2 k
Also ist g auf W0 stetig (sogar Lipschitz-stetig).
Schritt 3. g ist an der Stelle 0 differenzierbar. Es gilt Dg(0) = Df (0)−1 .
Beweis. Da g(0) = 0 müssen wir zeigen, dass
g(y) − Df (0)−1 (y) = o(kyk)
für y → 0. Sei 0 < ε < 1 festgewählt. Da x → φ(x) stetig, existiert δ > 0 so, dass
kDφ(x)k ≤ ε/(2kDf (0)−1 kop ) für alle kxk ≤ δ. Nach Definition von r0 > 0 gilt δ ≤ r0 .
Für y ∈ Rn mit kyk < δ/(2kDf (0)−1 kop , sei x = g(y). Dann gilt kxk ≤ δ. Ferner
f (x) = y = Df (0)(x) + φ(x)
Wir multiplizieren rechts und links mit der Matrix Df (0)−1 und erhalten
g(y) − Df (0)−1 (y) = −Df (0)−1 (φ(x))
Aus der Mittelwertabschätzung für φ,
kg(y) − Df (0)−1 (y)k = kDf (0)−1 φ(x)k = kDf (0)−1 (φ(x) − φ(0))k
ε
≤ kDf (0)−1 kop kφ(x) − φ(0)k ≤ kxk
2
ε
−1
≤ kg(y)k ≤ εkDf (0) kop kyk
2
Da ε > 0 beliebig ist, folgt die Behauptung.
Wir haben somit folgendes bewiesen: Für jede a ∈ U mit Df (a) invertierbar, existieren offene Umgebungen V0 von a und W0 von f (a), so dass f : V0 → W0 bijektiv
ist, und so, dass f −1 : W0 → V0 stetig und an der Stelle a differenzierbar ist, mit
Df −1 (f (a)) = (Df (a))−1 . Da x → Df (x) stetig, und da die Menge der invertierbaren
linearen Abbildungen GL(Rn ) in L(Rn , Rn ) offen ist, finden wir eine offene Umgebung
V ⊂ V0 von a so, dass Df (x) invertierbar ist, für alle x ∈ V . Wir setzen W = f (V ); da
f −1 stetig ist, ist auch W offen. f −1 ist dann in jedem Punkt von W differenzierbar und
Df −1 (f (x)) = (Df (x))−1 = Df (x)−1 . Da die Abbildung i : GL(Rn ) → GL(Rn ) stetig
ist, ist Df (x)−1 = i(Df (x)) als Komposition zweier stetiger Abbildungen wieder stetig.
Damit ist f −1 : W → V stetig differenzierbar.
62
Definition 3.19. Seien X, Y zwei metrische Räume. Ein Homöomorphismus von X
nach Y ist eine Bijektion f : X → Y , so dass f und f −1 stetig sind. Ist f : X → Y
ein Homöomorphismus, so ist auch f −1 ein Homöomorphismus. Eine stetige Bijektion
f : X → Y ist genau dann ein Homöomorphismus, wenn f (U ) offen in Y für jede
U offen in X ist (weil eine Abbildung genau dann stetig ist, wenn das Urbild jeder
offenen Menge wieder offen ist; siehe Analysis 1, Prop. 6.18). Zwei metrische Räume
X, Y heissen homöomorph, wenn ein Homöomorphismus f : X → Y existiert.
Seien nun U ⊂ Rn und V ⊂ Rm offen. Ein Homöomorphismus f : U → V heisst
ein Diffeomorphismus, falls f und f −1 stetig differenzierbar sind. Zwei offene Mengen
U ⊂ Rn und V ⊂ Rm heissen diffeomorph, wenn ein Diffeomorphismus f : U → V
existiert. Eine Bijektion f : U → V ist genau dann ein Diffeomorphismus, wenn f −1
ein Diffeomorphismus ist.
Bemerkung: Ist U ⊂ Rn , V ⊂ Rm und f : U → V ein Diffeomorphismus, dann gilt
f −1 ◦ f (x) = x für alle x ∈ U . Die Kettenregel impliziert, dass
Df −1 (f (x)) ◦ Df (x) = 1,
wobei Df −1 (f (x)) ∈ L(Rm ; Rn ) und Df (x) ∈ L(Rn ; Rm ). Das ist nur möglich, falls
m ≥ n. Analog impliziert f ◦ f −1 (x) = x, dass Df (f −1 (x)) ◦ Df −1 (x) = 1 und also,
dass n ≥ m. Es folgt, dass n = m. Mit anderen Worten können nur Mengen der gleichen
Dimension zueinader diffeomorph sein.
Tatsache: Sind U ⊂ Rn und V ⊂ Rm nicht leer und offen, und f : U → V ein Homöomorphismus, dann muss n = m sein.
Bemerkung: Der Satz der Umkehrabbildung besagt, dass falls U ⊂ Rn offen ist, a ∈ U ,
f : U → Rn stetig differenzierbar, mit Df (a) invertierbar, dann ist f lokal in der Nähe
von a ein Diffeomorphismus. D.h. es existieren offene Umgebungen V von a und W von
f (a), so dass f : V → W ein Diffeomorphismus ist.
Eine wichtige Anwendung des Satzes über die Umkehrabbildung ist der Satz über
implizite Funktionen. Oft werden Teilmengen von Rn durch Gleichungen definiert. Z.B.
ist {(x, y) ∈ R2 : y = x3 } eine Teilmenge von R2 . In diesem Fall ist die Teilmenge
besonders einfach, weil sie als Graph einer Funktion geschrieben werden kann. Das ist
i.A. nicht möglich. Z.B. für den Einheitskreis S = {(x, y) ∈ R2 : x2 + y 2 = 1} existiert
keine Funktion g, definiert auf einer Teilmenge U ⊂ R, mit der Eigenschaft, dass S =
{(x, g(x)) : x ∈ U }. Trotzdem ist es in diesem Fall möglich, S lokal als Graph zu
schreiben. Betrachten wir z.B. den Punkt (0, 1) auf S. Es ist dann einfach zu sehen, dass
offene Umgebungen U ⊂ R von 0 und V ⊂ R von 1 und eine differenzierbare Funktion
g : U → V existiert, mit der Eigenschaft, dass
S ∩ (U × V ) = {(x, g(x)) : x ∈ U } .
√
In diesem Fall ist es sogar möglich, g(x) = 1 − x2 explizit zu schreiben.
Ein anderes Beispiel ist das sogenannte kartesische Blatt
T = {(x, y) ∈ R2 : x3 − 2xy + y 3 = 0} .
63
Wie S, kann auch T nicht global als Graph einer Funktion geschrieben werden. Ist es
möglich, T lokal als Graph zu schreiben? Der Punkt (1, 1) ist z.B. in T . Es ist einfach zu sehen (vgl. Bild von T ), dass offene Umgebungen U, V ⊂ R von 1 und eine
differenzierbare Funktion f : U → V existieren, so dass f (1) = 1 und
T ∩ (U × V ) = {(x, f (x)) : x ∈ U } .
Kann T in der Nähe von jedem seiner Punkte lokal als Graph einer Funktion geschrieben
werden? Nein: Es ist einfach zu sehen, dass in der Nähe von (0, 0), T nicht als Graph
geschrieben werden kann. Was unterscheidet also die Punkte (1, 1) und (0, 0) auf T ? Sei
f (x, y) = x3 − 2xy + y 3 , so dass T Menge aller Nullstellen von f ist. Dann gilt
∂f
(x, y) = −2x + 3y 2
∂y
Wir zeigen im nächsten Satz, dass der fundamentale Unterschied zwischen (1, 1) und
(0, 0) die Tatsache ist, dass (∂f /∂y)(1, 1) = −2 6= 0 während (∂f /∂y)(0, 0) = 0.
Satz 3.20 (Satz über implizite Funktionen). Seien m, n ∈ N\{0}, U ⊂ Rm × Rn offen
und nicht leer. Sei f ∈ C 1 (U ; Rn ) und (x0 , y0 ) ∈ U mit f (x0 , y0 ) = 0. Es gelte
∂fi
6= 0
(55)
(x0 , y0 )
det
∂yj
1≤i,j≤n
Dann existieren offene Umgebungen V ⊂ Rm von x0 und W ⊂ Rn von y0 und eine stetig
differenzierbare Funktion g : V → W , so dass
{(x, y) ∈ V × W : f (x, y) = 0} = {(x, g(x)) : x ∈ V }
Ferner gilt
Dg(x0 ) = −(Dy f (x0 , y0 ))−1 · Dx f (x0 , y0 ) .
(56)
Bemerkung: Dy f (x0 , y0 ) und Dx f (x0 , y0 ) bezeichnen die Ableitung von f als Funktion
von y bei festen x = x0 , bzw. die Ableitung von f als Funktion von x, bei festen y = y0 .
Dy f (x0 , y0 ) ist eine n × n Matrix und Dx f (x0 , y0 ) eine n × m Matrix. Die Bedingung
(55) bedeutet genau, dass die Matrix Dy f (x0 , y0 ) invertierbar ist. In diesem Fall ist die
Inverse Dy f (x0 , y0 )−1 wieder eine n × n Matrix und Dy f (x0 , y0 )−1 · Dx f (x0 , y0 ) eine
n × m Matrix. Damit ist (56) konsistent mit der Tatsache, dass g eine Teilmenge von
Rm auf einer Teilmenge von Rn abbildet.
Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , s.d. f (x, y) = (f1 (x, y), . . . , fn (x, y))
für alle (x, y) ∈ U gelte. Dann ist die vektorielle Gleichung f (x, y) = 0 das System von
n Gleichungen

f1 (x1 , . . . , xm , y1 , . . . , yn ) = 0



f2 (x1 , . . . , xm , y1 , . . . , yn ) = 0
...



fn (x1 , . . . , xm , y1 , . . . , yn ) = 0
Der Satz besagt, dass, falls Dy f (x0 , y0 ) invertierbar ist, kann man das Gleichungssystem
lokal für (y1 , . . . , yn ) lösen. Sind die Funktionen f1 , . . . , fn linear oder affin, dann ist die
Behauptung schon aus der linearen Algebra bekannt (in diesem Fall ist die Ableitung
Dy f (x0 , y0 ) unabhängig von (x0 , y0 ) und die Behauptung gilt natürlich global).
64
Beweis: Wir definieren die Hilfsfunktion F : U → Rm × Rn durch F (x, y) = (x, f (x, y)).
Da f ∈ C 1 (U ; Rn ), ist F stetig differenzierbar. Die Ableitung von F an der Stelle (x0 , y0 )
ist aus der Blockmatrix
0
1Rm
DF (x0 , y0 ) =
Dx f (x0 , y0 ) Dy f (x0 , y0 )
mit der n × m Matrix Dx f (x0 , y0 ) = ((∂fi /∂xj )(x0 , y0 )) und mit der n × n Matrix
Dy f (x0 , y0 ) = ((∂fi /∂yj )(x0 , y0 )) gegeben (1Rm ist die Identität auf Rm ). Nach Annahme ist Dy f (x0 , y0 ) invertierbar; sei Dy f (x0 , y0 )−1 die Inverse. Wir behaupten, dass auch
DF (x0 , y0 ) invertierbar ist. In der Tat, explizite Berechnung zeigt, dass
0
0
1Rm
1Rm
·
−Dy f (x0 , y0 )−1 Dx f (x0 , y0 ) Dy f (x0 , y0 )−1
Dx f (x0 , y0 ) Dy f (x0 , y0 )
1Rm 0
=
.
0
1Rn
Deswegen ist DF (x0 , y0 ) invertierbar. Aus dem Satz über die Umkehrabbildung (Satz
3.17) folgt, dass offene Umgebungen U1 ⊂ Rm × Rn von (x0 , y0 ) und U2 ⊂ Rm × Rn
von F (x0 , y0 ) = (x0 , 0) existieren, so dass F : U1 → U2 ein Diffeomorphismus ist. Da
U1 eine offene Umgebung von (x0 , y0 ) ist, kann man offene Umgebungen Ve ⊂ Rm von
x0 und W ⊂ Rn von y0 , mit Ve × W ⊂ U1 . Dann ist F (Ve × W ) ⊂ U2 eine offene
Umgebung von (x0 , 0) (weil F ein Homöomorphismus ist), und F : Ve × W → F (Ve ×
W ) wieder ein Diffeomorphismus. Sei G : F (Ve × W ) → Ve × W die Inverse dieses
e : F (Ve × W ) →
Diffeomorphismus’. Da F (x, y) = (x, f (x, y)), existiert eine Funktion G
e
e
W mit G(x, y) = (x, G(x, y)) für alle (x, y) ∈ F (V × W ). Da G differenzierbar ist, ist
e differenzierbar. Da F (Ve × W ) eine offene Umgebung von (x0 , 0) ist, finden wir
auch G
eine offene Umgebung V ⊂ Ve von x0 mit {(x, 0) : x ∈ V } ⊂ F (Ve × W ). Dann können
e 0) definieren (d.h. durch G(x, 0) = (x, φ(x)) für alle
wir φ : V → W durch φ(x) = G(x,
e
x ∈ V ). Da G differenzierbar ist, ist auch φ differenzierbar. Für (x, y) ∈ V × W ⊂ Ve × W
gilt dann
f (x, y) = 0 ⇐⇒ F (x, y) = (x, 0) ⇐⇒ G(x, 0) = (x, y)
e 0) ⇐⇒ y = φ(x)
⇐⇒ y = G(x,
D.h.
{(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V }
Aus f (x, φ(x)) = 0 für alle x ∈ V folgt, mit der Kettenregel, dass
0 = Df (x0 , φ(x0 )) · Dg(x0 ) = Dx f (x0 , φ(x0 )) · 1Rm + Dy f (x0 , φ(x0 )) · Dφ(x0 )
Das gibt (56).
Beispiel. Sei f (x, y) = x3 − 2xy + y 3 und, wie oben, T = {(x, y) ∈ R2 : f (x, y) = 0} das
kartesische Blatt. Es gilt
∂f
(x, y) = −2x + 3y 2 ,
∂y
und
65
∂f
(x, y) = 3x2 − 2y
∂x
Ist (x0 , y0 ) ∈ T mit −2x0 + 3y02 6= 0, dann kann man, in der Nähe von (x0 , y0 ), T als
Graph einer Funktion von x schreiben. Wir bemerken, (x0 , y0 ) ∈ T mit −2x0 + 3y02 = 0
impliziert, dass
27 6
3
3 27 3
y − 2y0 = 0 ⇒ 2y0
y −1 =0
8 0
16 0
√
Das ist nur bei y0 = 0 oder y0 = 2 2/3 möglich. Also existieren
für jede (x0 , y0 ) ∈ T ,
√
mit der Ausnahmen (x0 , y0 ) = (0, 0) und (x0 , y0 ) = (4/3, 2 2/3), offene Umgebungen
V ⊂ R von x0 und W ⊂ R von y0 und eine C 1 -Funktion φ : V → W , so dass
T ∩ (V × W ) = {(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V }
und
φ0 (x0 ) = −
3x2 − 2y0
(∂f /∂x)(x0 , y0 )
.
= − 20
(∂f /∂y)(x0 , y0 )
3y0 − 2x0
Analog finden wir,√dass für alle (x0 , y0 ) ∈ T mit den Ausnahmen von (x0 , y0 ) = (0, 0)
und (x0 , y0 ) = (2 2/3, 4/3) offene Umgebungen V von y0 und W von x0 und eine
C 1 -Funktion ψ : V → W existieren, so dass
T ∩ (W × V ) = {(x, y) ∈ W × V : f (x, y) = 0} = {(ψ(y), y) : y ∈ V }
und
ψ 0 (y0 ) = −
3.5
3x20 − 2x0
.
3y02 − 2y0
Mannigfaltigkeiten in Rn
Wir untersuchen in diesem Abschnitt besondere Teilmengen von Rn , genannt Mannigfaltigkeiten oder Untermannigfaltigkeiten des Rn , die lokal wie Rk aussehen, für ein
k ≤ n.
Bevor wir zur genaueren Definition von Mannigfaltigkeit kommen, betrachten wir
einige Beispiele von Teilmengen von Rn , die lokal wie Rk für k = 1 oder k = 2 aussehen. Im Fall k = 1 spricht man von Kurven. Das Begriff von Kurven kann verschiedene
Bedeutungen haben. Eine parametrisierte Kurve ist eine Abbildung φ : I → Rn , für
ein Intervall I ⊂ R. Eine parametrisierte Kurve kann zum Beispiel die Bewegung eines Teilchens im Raum beschreiben, als Funktion der Zeit t ∈ I. Eine parametrisierte
Kurve ist also nicht nur durch die Bahn des Teilchens charakteriziert, sondern auch von
dem Zeitplan (die parametriesierte Kurve bestimmt die Position des Teilchens zu jeder
Zeit, nicht nur seine Trajektorie). Sind wir nur an der Bahn interessiert, und nicht am
Zeitplan, so können wir die folgende Äquivalenzrelation im Raum der parametrisierten
Kurven definieren. Wir sagen zwei parametrisierte Kurve ϕ1 : I1 → Rn , ϕ2 : I2 → Rn ,
für zwei Intervalle I1 , I2 ⊂ R sind äquivalent, falls eine monoton wachsende stetige und
surjektive Funktion ψ : I1 → I2 existiert, so dass φ1 = φ2 ◦ ψ. In diesem Fall heisst ψ eine Parametertransformation. Man kann sich leicht davon überzeugen, dass das wirklich
eine Äquivalenzrelation definiert. Man kann dann eine Kurve als eine Äquivalenzklasse
von parametrisierten Kurven definieren. Mit anderen Worten, eine Kurve wird somit als
die Bildmenge einer parametrisierten Kurve definiert.
66
Man könnte auch Kurven als Graph von Funktionen definieren. Das ist aber zu
restriktiv; z.B. der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} kann nicht als Graph
{(x, y) ∈ R2 : y = f (x)} einer Funktion von x geschrieben werden. Es ist auch unmöglich,
S 1 als Graph {(x, y) ∈ R2 : x = f (y)} einer Funktion von y zu schreiben. Immerhin,
der Kreis S 1 ist die Vereinigung der Graphen von zwei Funktionen, nämlich f1 (x) =
(1 − x2 )1/2 und f2 (x) = −(1 − x2 )1/2 . Wenn wir nur Funktionen auf offene Teilmengen
von R betrachten möchten, so können √
wir S 1 als die Vereinigung der Graphen
p von vier
2
Funktionen schreiben, nämlich y = ± 1 − x auf x ∈ (−1; 1) und x = ± 1 − y 2 auf
y ∈ (−1; 1). Zwei dieser Abbildungen definieren y als Funktion von x, die anderen zwei
geben x als Funktion von y. Ausgehend aus diesem Beispiel kann man also berlegen,
Kurven als Vereinigungen von Graphen zu definieren. Gemäss dieser Definition kann man
sich auch vorstellen, eine Kurve differenzierbar zu nennen, wenn sie als Vereinigung von
Graphen von differenzierbaren Funktionen geschrieben werden kann (wir werden von C 1 Kurven sprechen, unter der Annahme, dass die Funktionen stetig differenzierbar sind).
Man muss hier ein bisschen aufpassen. Es gibt einen Unterschied zwischen der gegebenen
Definition von differenzierbarer Kurve und differenzierbarer parametrisierte Kurve. Z.B.
die parametrisierte Kurve φ(t) = (t3 , t2 ) ∈ R2 ist differenzierbar. Die Bildmenge T =
{φ(t) : t ∈ R} kann aber neben (0, 0) nicht als Graph einer differenzierbaren Funktion
geschrieben werden. Deswegen ist T keine differenzierbare Kurve im obigen Sinne. Wir
werden sehen, die Bildmenge der parametrisierten Kurve φ(t) ist keine differenzierbare
Kurve, weil φ0 (0) = 0.
Analog kann man Teilmengen von Rn , die lokal wie R2 aussehen, betrachten. In
diesem Fall spricht man von Flächen. Auch hier muss man zwischen parametrisierten
Flächen und Fläche als Bildmenge von parametrisierten Flächen unterscheiden. Wie
für Kurven, kann man Flächen als Vereinigung von Graphen beschreiben. Die Sphäre
S 2 = {(x, y, z) : x2 +y 2 +z 2 = 1} ⊂ R3 ist nicht der Graph einer einzelne Funktion, kann
aber als Vereinigung der folgenden sechsp
Graphen betrachtet werden, die auf offenen
2 definiert sind: z = ± 1 − x2 − y 2 , definiert auf k(x, y)k < 1, y =
Teilmengen
von
R
p
√
± 1 − x2 − z 2 auf k(x, z)k < 1 und x = ± 1 − y 2 − z 2 definiert auf k(y, z)k < 1. Weil
die Funktionen, aus dessen Graphen S 2 besteht, stetig differenzierbar sind, sagt man S 2
ist eine differenzierbare Fläche, oder eine C 1 -Fläche. Wir erweitern diese Definitionen,
um differenzierbare Mannigfaltigkeiten M ⊂ Rn der Dimensin k einzuführen.
Definition 3.21. Seien n, k ∈ N, mit k < n. Ein C 1 -Mannigfaltigkeitstück der Dimension k in Rn ist eine Teilmenge von Rn die, nach allfälliger Unnumerierung der
Koordinaten, die Form
{(x1 , . . . , xn ) ∈ Rn : (xk+1 , . . . , xn ) = φ(x1 , . . . , xk ) und (x1 , . . . , xk ) ∈ G}
hat, wobei G ⊂ Rk offen und zusammenhängend ist und φ ∈ C 1 (G; Rn−k ). Eine Menge
M ⊂ Rn heisst eine C 1 -Mannigfaltigkeit der Dimension k, falls für jede a ∈ M eine
offene Umgebung U ⊂ Rn von a existiert, so dass U ∩ M ein C 1 -Mannigfaltigkeitstück
der Dimension k ist. Eine C 1 -Mannigfaltigkeit der Dimension k = 1 heisst eine C 1 Kurve. Eine C 1 -Mannigfaltigkeit der Dimension k = 2 heisst eine C 1 -Fläche. Eine
C 1 -Mannigfaltigkeit M der Dimension n − 1 in Rn heisst eine Hyperfläche.
67
Bemerkung: Kurz gesagt, eine C 1 -Mannigfaltigkeit der Dimension k ist eine Teilmenge
von Rn , die lokal aus dem Graph einer stetig differenzierbaren Abbildung φ : Rk ⊃ G →
Rn−k gegeben ist.
Beispiele: Der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} ist eine C 1 -Kurve. Die Sphäre
S n−1 = {(x1 , . . . , xn ) ∈ Rn : k(x1 , . . . , xn )k = 1} ⊂ Rn ist eine C 1 -Mannigfaltigkeit der
Dimension (n−1) (d.h. S n−1 ist eine Hyperfláche). Die Bildmenge {(t3 , t2 ) ∈ R2 : t ∈ R}
der parametrisierten Kurve φ(t) = (t3 , t2 ) ist keine C 1 -Mannigfaltigkeit, weil sie in der
Nähe von (0, 0) nicht als Graph einer stetig differenzierbare Funktion geschrieben werden kann. Die Bildmenge der parametrisierten Kurve φ(t) = (cos t, sin(2t)) ist keine
C 1 -Kurve, weil sie in der Nähe von φ(π/2) = (0, 0) nicht als Graph einer Funktion geschrieben werden kann (nach Definition dürfen Mannigfaltigkeiten keine “SelbstDurchschnitte” haben).
Statt Teilmengen von Rn durch Vereinigung von Graphen zu definieren, kann man sie
als Lösungsmengen von Gleichungen definieren. Z.B. definiert die Gleichung x2 + y 2 = 1
den Kreis S 1 , also eine Mannigfaltigkeit der Dimension eins. Man kann sich analog
vorstellen, dass die Gleichung f (x1 , . . . , xn ) = 0, für eine Funktion f : Rn ⊃ U → R,
eine Teilmenge von Rn definiert, die lokal wie Rn−1 aussieht. Im nächsten Satz zeigen
wir, dass, falls a ∈ U die Gleichung f (a) = 0 erfüllt, und falls ∇f (a) 6= 0, dann ist die
Menge {x ∈ U : f (x) = 0} in der Nähe von a ein Mannigfaltigkeitstück.
Proposition 3.22. Sei U ⊂ Rn offen, f ∈ C 1 (U ), und a ∈ U mit f (a) = 0 und ∇f (a) 6=
0. Dann es existiert eine offene Umgebung G ⊂ Rn von a so, dass G∩{x ∈ U : f (x) = 0}
ein C 1 -Mannigfaltigkeitstück der Dimension (n − 1) ist. D.h. die Lösungsmenge der
Gleichung f (x) = 0 ist, in der Nähe von a eine Mannigfaltigkeit. Gilt ferner ∇f (x) 6= 0
für alle x ∈ U mit f (x) = 0, dann ist {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der
Dimension n − 1.
Beweis: Die Bedingung ∇f (a) 6= 0 impliziert, dass j ∈ {1, . . . , n} mit ∂f /∂xj (a) 6=
0 existiert. O.B.d.A nehmen wir an ∂f /∂xn (a) 6= 0. Nach dem Satz über implizite
Funktionen, existieren eine Umgebung V ⊂ Rn−1 von (a1 , . . . , an−1 ), eine Umgebung
W ⊂ R von an und eine Funktion φ ∈ C 1 (V ) mit Werten in W , so dass
V × W ∩ {(x1 , . . . ,xn ) ∈ U : f (x1 , . . . , xn−1 , xn ) = 0}
= {(x1 , . . . , xn−1 , φ(x1 , . . . , xn−1 )) ∈ Rn : (x1 , . . . , xn−1 ) ∈ V } .
Die Behauptung folgt, mit G = V × W .
Allgemeiner, sei f : Rn ⊂ U → Rm , für ein m < n. Die Gleichung f (x) = 0 ist dann
ein System von m Gleichungen

f1 (x1 , . . . , xn ) = 0



f2 (x1 , . . . , xn ) = 0
...



fm (x1 , . . . , xn ) = 0
Sind die m Gleichungen in geeignetem Sinne unabhängig, so kann man sich vorstellen,
dass f (x) = 0 eine Mannigfaltigkeit der Dimension k = n − m definiert. Wir müssen
verstehen, in welchen Sinne die Gleichungen unabhängig sein müssen. Dazu definieren
wir den Begriff vom Rang einer linearen Abbildung.
68
Definition 3.23. Sei L ∈ L(Rn ; Rm ). Der Rang der Matrix L ist
Rg L = dim Ran (L) = dim L(Rn ) = n − dim ker(L) .
Mit anderen Worten, der Rang von L ist die maximale Anzahl von linear unabhängige
Spalten in der Matrix L. Aus der linearen Algebra, RgL ist auch die maximale Anzahl
von linear unabhängigen Zeilen in L.
Definition 3.24. Sei U ⊂ Rn offen und f ∈ C 1 (U ; Rm ), mit m ≤ n. Wir sagen, f ist
regulär an der Stelle a ∈ U , falls Df (a) Rang m hat. Ist m = n, so ist f genau dann
an der Stelle a regulär, wenn Df (a) invertierbar ist.
Satz 3.25. Sei U ⊂ Rn offen, f ∈ C 1 (U ; Rm ). Sei a ∈ U mit f (a) = 0 und so, dass
f regulär an der Stelle a ist. Dann existiert eine offene Umgebung G ⊂ U von a in
Rn , so dass G ∩ {x ∈ U : f (x) = 0} ein Mannigfaltigkeitstück in Rn der Dimension
k = n − m ist. Ist f an der Stelle x regulär, für alle x ∈ U mit f (x) = 0, dann ist
{x ∈ U : f (x) = 0} eine Mannigfaltigkeit in Rn der Dimension k = n − m.
Beweis: Nach Unnumerierung der Koordinaten können wir annehmen, dass die m Spalten
∂f
∂f
∂f
(a),
(a), . . . ,
(a)
(57)
∂xk+1
∂xk+2
∂xn
linear unabhängig sind (wir haben hier k = n − m gesetzt). Wir schreiben Df (a) =
(D1 f (a), D2 f (a)), wobei D1 f (a) die m × k Matrix ist, die aus allen partiellen Ableitungen nach x1 , . . . , xk besteht und D2 f (a) die m × m Matrix ist, die aus allen partielle
Ableitungen nach xk+1 , . . . , xn besteht. Die Matrix D2 f (a) ist nach (57) invertierbar. Der
Satz über implizite Funktionen impliziert, dass eine offene Umgebung V von (a1 , . . . , ak )
in Rk , eine offene Umgebung W von (ak+1 , . . . , an ) in Rm und eine stetig differenzierbare
Funktion φ : V → W existieren, so dass
V × W ∩ {x ∈ U : f (x) = 0} = {(x1 , . . . , xk , φ(x1 , . . . , xk )) : (x1 , . . . , xk ) ∈ V }
Die Behauptung folgt, mit G = V × W .
Bemerkung: Der Satz zeigt, dass die richtige Verallgemeinerung der Bedingung ∇f (a) 6=
0 in Proposition 3.22 aus der Bedingung RgDf (a) = m gegeben ist.
Statt C 1 -Mannigfaltigkeiten durch Graphen von stetig differenzierbaren Funktionen
zu definieren, kann man auch lokale reguläre Parametrisierungen (genannt Karten) benutzen. Wir geben hier die alternative Definition, obwohl wir im Folgenden weiter mit
der ursprünglichen Definition arbeiten.
Alternative Definition von Mannigfaltigkeiten: Seien n, k ∈ N,mit 1 ≤ k < n. Eine kdimensionale C 1 -Mannigfaltigkeit in Rn (oder eine C 1 -Untermannigfaltigkeit des Rn ) ist
eine nicht-leere Menge M ⊂ Rn , so dass für alle a ∈ M eine offene Umgebung U ⊂ Rn
von a, eine offene Menge G ⊂ Rk und eine reguläre Abbildung ϕ ∈ C 1 (G; Rn ) so, dass
ϕ(G) = M ∩ U und ϕ : G → M ∩ U ein Homöomorphismus ist. Das Paar (G, ϕ) heisst
eine Karte von M in der Nähe vom Punkt a. Übung: Zeigen Sie, dass diese Definition
mit der ursprünglichen Definition übereinstimmt.
69
Bemerkung: Die alternative Definition von Mannigfaltigkeiten durch Karten lässt sich
auch zum Fall k = n erweitern. Dann gilt: Eine Teilmenge M ⊂ Rn ist genau dann eine
Mannigfaltigkeit der Dimension n, wenn M offen ist.
Bemerkung: Statt von C 1 -Mannigfaltigkeit in Rn spricht man in der Literatur oft von
C 1 -Untermannigfaltigkeit des Rn . Man benutzt das Wort Untermannigfaltigkeit, weil die
Mengen, die wir betrachten, immer Teilmengen von Rn sind. Das Wort Mannigfaltigkeit
der Dimension k wird dann für allgemeinere Mengen benutzt, die lokal das Bild einer
regulären Funktion auf einer offenen Teilmenge von Rk sind. Ein wichtiges Resultat der
Differentialgeometrie besagt dann, dass jede C 1 -Mannigfaltigkeit der Dimension n in R2n
eingebettet werden kann (Einbettungsatz von Whitney). Bemerke, dass die Dimension
(mindestens) 2n sein muss; die Klein’sche Flasche ist ein berühmtes Beispiel einer zwei
dimensionale C 1 -Mannigfaltigkeit, die nicht in R3 eingebettet werden kann. In dieser
Vorlesung werden wir immer C 1 -Untermannigfaltigkeiten des Rn betrachten; wir werden
aber das Wort C 1 -Mannigfaltigkeiten in Rn benutzen.
Sei nun M ⊂ Rn eine Mannigfaltigkeit der Dimension k < n und a ∈ M ein Punkt
auf der Mannigfaltigkeit. Wir möchten den Begriff von Tangentialraum zu M an a ∈ M
einführen. Dazu betrachten wir parametrisierte Kurven auf M , die durch a gehen. Sei
I ein offenes Intervall in R. Eine differenzierbare parametrisierte Kurve auf M ist eine
differenzierbare Abbildung ϕ : I → Rn , mit ϕ(t) ∈ M für alle t ∈ I. Es gelte ϕ(t0 ) = a.
Der Vektor
ϕ0 (t0 ) = (ϕ01 (t0 ), . . . , ϕ0n (t0 ))
heisst der Tangentialvektor zu der Kurve ϕ im Punkt ϕ(t0 ) = a.
Definition 3.26. Der Tangentialraum Ta (M ) zu M an der Stelle a ∈ M besteht aus
allen Tangentialvektoren zu differenzierbaren Kurven auf M , die durch a gehen. Mit
anderen Worten, ξ ∈ Rn ist genau dann Element von Ta (M ), wenn ein Intervall I ⊂ R,
ein t0 ∈ I und eine Kurve ϕ ∈ C 1 (I; Rn ) mit ϕ(t) ∈ M für alle t ∈ I, ϕ(t0 ) = a und
ϕ0 (t0 ) = ξ existieren.
Proposition 3.27. Sei M eine Mannigfaltigkeit in Rn der Dimension k < n und a ∈ M .
Ta (M ) ist ein linearer Unterraum von Rn , mit dim Ta (M ) = k.
Beweis: Die Definition von Ta (M ) hängt nur von M in der Nähe von a ab. D.h. Ta (M ) =
Ta (M ∩ U ) für jede, beliebig kleine Umgebung U ⊂ Rn von a. Aus diesem Grund können
wir annehmen, dass eine offene Menge V ⊂ Rk und ein ψ ∈ C 1 (V ; Rn ) existieren, so
dass
M = {(x, ψ(x)) : x ∈ V }
Wir führen die Notation x(1) = (x1 , . . . , xk ) und x(2) = (xk+1 , . . . , xn ) ein. Dann a =
(a(1) , a(2) ), wobei a(2) = ψ(a(1) ). Sei nun t → ϕ(t) eine differenzierbare Kurve auf M , mit
ϕ(t0 ) = a. Wir bezeichnen φ1 (t) = (ϕ1 (t), . . . , ϕk (t)) und φ2 (t) = (ϕk+1 (t), . . . , ϕn (t)),
wobei ϕ1 , . . . , ϕn die Komponenten von ϕ sind. Da ϕ(t) ∈ M für alle t, muss gelten
φ2 (t) = ψ(φ1 (t)) für alle t genügend nahe zu t0 . Also ϕ(t) = (φ1 (t), ψ(φ1 (t))) und
ϕ0 (t0 ) = (φ01 (t0 ), Dψ(a(1) )(φ01 (t0 )))
Wir setzen v = φ01 (t0 ) ∈ Rk . Dann ist ϕ0 (t0 ) = (v, Dψ(a(1) )v) ∈ Rn .
70
Anderseits, für gegebene v ∈ Rk , können wir die Kurve ϕ(t) = (a(1) +tv, ψ(a(1) +tv))
definieren. Dann ist ϕ offenbar eine differenzierbare Kurve auf M , mit ϕ(0) = a und
φ0 (0) = (v, Dψ(a(1) )(v)). Wir haben also gezeigt, dass
Ta (M ) = {(v, Dψ(a(1) )v) : v ∈ Rk }
Ta (M ) ist also ein linearer Raum, mit Dimension k (die Vektoren (ei , Dψ(a(1) )(ei )), für
i = 1, . . . , k sind eine Basis von Ta (M ), falls ei , i = 1, . . . , k, die Standard-Basis von Rk
bezeichnet).
Falls die Mannigfaltigkeit M als Lösungsmenge einer Gleichung f (x) = 0 gegeben ist,
so kann man eine andere Charakterisierung von Ta (M ) angeben. Sei zunächst U ⊂ Rn
und f ∈ C 1 (U ) reelwertig. Es gelte ∇f (x) 6= 0 für alle x ∈ U mit f (x) = 0. Dann
ist M = {x ∈ U : f (x) = 0} eine Mannigfaltigkeit der Dimenison n − 1. Wir sind
im Tangentialraum Ta (M ) interessiert, für ein a ∈ M . Wir wissen schon Ta (M ) ist ein
linearen Raum mit dim Ta (M ) = n − 1. Sei ϕ(t) eine parametrisierten Kurve auf M ,
mit ϕ(t0 ) = a. Dann gilt f (ϕ(t)) = 0 für alle t. Wir erhalten:
0=
d
f (ϕ(t))|t=t0 = ∇f (ϕ(t0 )) · ϕ0 (t0 )
dt
und deswegen
Ta (M ) ⊂ {ξ ∈ Rn : ξ · ∇f (a) = 0}
Da der Raum {ξ ∈ Rn : ξ · ∇f (a) = 0} auch Dimension n − 1 hat, gilt
Ta (M ) = {ξ ∈ Rn : ξ · ∇f (a) = 0}
Wir haben bewiesen, dass der Gradient ∇f (a) senkrecht zum Tangentialraum Ta (M )
steht.
Sei nun f ∈ C 1 (U ; Rm ) regulär an der Stelle x, für alle x ∈ U mit f (x) = 0. Dann
ist M = {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der Dimension k = n − m. Seien
f1 , . . . , fm die Komponenten von f . Ähnlich wie oben, gilt
Ta (M ) = {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0}
Da die m Zeilen ∇fj (a), j = 1, . . . , m, von Df (a) linear unabhängig sind (weil f regulär
ist), ist es klar, dass der Raum {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0} die
Dimension k = n − m hat.
Es ist manchmal auch nützlich, neben dem Begriff vom Tangentialraum Ta (M ) auch
den Begriff der Tangelntialebene einzuführen. Die Tangentialebene an der Mannigfaltigkeit M im Punkt a ist die Teilmenge von Rn , die aus allen Tangentialvektoren zu M in
a besteht, die aber vom Punkt a ausgehen. Mit anderen Worten,
Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ ∈ Ta (M )}
Falls M = {x ∈ U : f (x) = 0} für eine Funktion f ∈ C 1 (U ; Rm ) regulär im Punkt a,
dann gilt
Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ · ∇fj (a) = 0 für alle j = 1, . . . , m}
= {ξ ∈ Rn : (ξ − a) · ∇fj (a) = 0 für alle j = 1, . . . , m}
Bemerke, dass im Gegensatz zum Tangentialraum Ta (M ), die Tangentialebene kein linearer Raum ist.
71
3.6
Extrema mit Nebenbedingungen
Wir betrachten eine reelwertige Funktion f , definiert auf einer offenen Teilmenge Ω ⊂
Rn . In diesem Abschnitt möchten wir Extrema von f (x) finden, unter der zusätzlichen
Nebenbedingung x ∈ M , wobei M ⊂ Rn eine Mannigfaltigkeit mit Dimension k < n,
enthalten in Ω, ist.
Wir sagen a ∈ Ω ist ein lokales bedingtes Minimum von f mit der Nebenbedingung
x ∈ M , falls eine offene Umgebung A ⊂ Ω in Rn existiert, so dass f (a) = min{f (x) :
x ∈ A ∩ M }. Analog definiert man den Begriff vom lokalen bedingten Maximum. a ∈ Ω
heisst ein lokales bedingtes Extremum von f , falls a entweder ein lokales bedingtes
Minimum oder ein lokales bedingtes Maximum ist. Nehmen wir an f ∈ C 1 (Ω). Wegen der
Nebenbedinungen können bedingte Extrema a ∈ M existieren, für die ∇f (a) 6= 0. Wir
suchen also andere Kriteria, um Extrema mit Nebenbedingungen zu charakterisieren.
Manchmal kann man dieses Problem einfach lösen, indem man eine Parametrisierung
von M benutzt. Sei z.B. f ∈ C 1 (R2 ) und nehmen wir an, wir suchen
s := sup{f (x1 , x2 ) : x21 + x22 = 1}
Dann können wir einen Parameter t ∈ [0, 2π) einführen und x1 = cos t, x2 = sin t
schreiben. Damit ist das gesuchte Supremum s durch
s = sup g(t)
t∈[0,2π)
, wobei g(t) = f (cos t, sin t), gegeben. Das Problem mit Nebenbedingungen wurde damit
zu einem Problem (in einer Dimension, statt zwei) ohne Nebenbedingungen reduziert.
Extrema sind nun durch g 0 (t) = 0 charakterisiert.
Analog kann man die Nebenbedingung entfernen, falls M explizit als Graph einer
differenzierbaren Funktion geschrieben werden kann. Nehmen wir an, wir suchen
s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0}
Das Maximum wird angenommen, weil die Funktion f (x, y, z) = x2 yz stetig und die
Menge {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z ≥ 0} kompakt ist. Das Maximum hat
offenbar x, y, z > 0. Wir haben
p
{(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z > 0} = {( 1 − y 2 − z 2 , y, z) : (y, z) ∈ G}
mit der offenen Menge G = {(y, z) ∈ R2 : y 2 + z 2 < 1, y, z > 0}. Wir haben also
s = sup{g(y, z) : (y, z) ∈ G},
wobei g(y, z) = f (1 − y 2 − z 2 , y, z) = (1 − y 2 − z 2 )yz. Um s zu finden, berechnen wir also
∇g(y, z) = (z − 3y 2 z − z 3 , y − 3z 2 y − y 3 )
Die Bedingung ∇g(y, z) = 0 gibt, nach kurzer Rechnung,
y = z = 1/2. Das Maximum
√
2,
1/2,
1/2)
angenommen und beträgt
der Funktion
f
wird
also
im
Punkt
(x,
y,
z)
=
(1/
√
f (1/ 2, 1/2, 1/2) = 1/8.
72
Das letzte Beispiel war einfach, weil wir die Mannigfaltigkeit explizit als Graph
schreiben konnten. Das ist natürlich nicht immer möglich. Deswegen ist der folgende
Satz nützlich, um Extrema einer differenzierbaren Funktion f unter der Nebenbedingung
g(x) = 0 zu finden.
Proposition 3.28 (Lagrange-Multiplikatoren, eine Nebenbedingung). Sei U ⊂ Rn offen, g ∈ C 1 (U ) reelwertig, und M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass ∇g(a) 6= 0.
Dann ist M in der Nähe von a eine Mannigfaltigkeit der Dimension n − 1 (eine Hyperfläche). Sei nun f eine reelwertige Funktion, definiert und differenzierbar in der Nähe
von a. Sei a eine bedingte lokale Extremalstelle von f auf M . Dann existiert λ ∈ R mit
∇f (a) = λ∇g(a)
Der Parameter λ heisst ein Lagrange-Multiplikator.
Proof. Nehmen wir an ∇f (a) ist nicht proportional zu ∇g(a). Dann existiert ξ ∈ Rn
mit ξ · ∇g(a) = 0 aber ξ · ∇f (a) 6= 0. Die Bedingung ξ · ∇g(a) = 0 impliziert, dass
ξ ∈ Ta (M ). Also existiert eine parametrisierte Kurve ϕ : I → M , mit ϕ(t0 ) = a und
ϕ0 (t0 ) = ξ für ein t0 ∈ I. Betrachte nun die Funktion h(t) = f (ϕ(t)). Es gilt
h0 (t0 ) = ∇f (ϕ(t0 )) · ϕ0 (t0 ) = ∇f (a) · ξ 6= 0
Das heisst, in jeder Umgebung von t0 nimmt h(t) Werte kleiner und grösser als h(t0 ) =
f (a) an. Das zeigt, dass f auf U ∩ M Werte kleiner und grösser als f (a) annimmt, für
jede offene Umgebung U von a. Deswegen ist a keine bedingte Extremalstelle von f .
Die Proposition gibt uns eine Rezept, um Extrema einer differenzierbaren Funktion
f mit der Nebenbedingung g(x) = 0 zu finden. Die Gleichungen
(
∇f (x) = λ∇g(x)
g(x) = 0
bilden ein System von (n + 1)-Gleichungen für die (n + 1) Unbekannten x1 , . . . , xn , λ.
Lösungen dieses Gleichungsystemes, zusammen mit Punkten x ∈ Rn mit g(x) = 0, wo
f nicht differenzierbar ist, sind dann die einzigen möglichen Kandidaten für bedingte
lokale Extremalstellen.
Beispiel: Betrachten wir noch einmal das Beispiel von oben. Wir suchen
s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0}
Wir setzen f (x, y, z) = x2 yz und g(x, y, z) = x2 + y 2 + z 2 − 1. Bei bedingten Extrema
muss gelten: ∇f (x, y, z) = λ∇g(x, y, z) für ein λ ∈ R. Das ergibt die vier Gleichungen

2xyz
= 2λx


 2
x z
= 2λy
2y
x
= 2λz


 2
2
2
x +y +z =1
73
Da x, y, z > 0 gelten muss, implizieren die zweite und dritte Gleichung, dass y = z.
Die erste Gleichung gibt dann λ = y 2 , und damit liefert die dritte Gleichung x2 =√
2y 2 .
Einsetzen im letzten Gleichung ergibt 4y 2 = 1, und damit y = z = 1/2 und x = 1/ 2.
Bis jetzt haben wir Probleme mit einer Nebenbedingung der Form g(x) = 0 untersucht, für eine reelwertige Funktion g. Im Folgenden untersuchen wir den Fall, dass g
Werte in Rm hat, für ein m < n. In diesem Fall ist die vektorielle Gleichung g(x) = 0
eigentlich ein System mit m Gleichungen. Man spricht dann von m Nebenbedingungen.
Auch in diesem Fall kann man Extrema finden, indem man Lagrange-Multiplikatoren
einführt.
Proposition 3.29 (Lagrange Multiplikatoren, m Nebenbedingungen). Sei U ⊂ Rn
offen, g ∈ C 1 (U ; Rm ) für ein m < n. Sei M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass g
regulär an der Stelle a ist (d.h. Rg (Dg(a)) = m; in diesem Fall ist M in der Nähe von a
ein Mannigfaltigkeitstück der Dimension k = n−m). Sei f eine reelwertige C 1 -Funktion,
definiert in einer Umgebung von a in Rn . Sei a eine lokale bedingte Extremalstelle von
f auf M . Dann ist ∇f (a) eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a). D.h. es
existieren λ1 , . . . , λm ∈ R mit
∇f (a) =
m
X
λj ∇gj (a)
j=1
wobei g1 , . . . , gm : U → R die Komponenten von g sind.
Beweis: Nehmen wir an, dass ∇f (a) nicht eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a)
ist. Dann existiert ξ ∈ Rn , so dass ξ · ∇gi (a) = 0 für alle i = 1, . . . , m und ξ · ∇f (a) 6= 0.
Das impliziert, dass ξ ∈ Ta (M ). Damit existiert eine differenzierbare parametrisierte
Kurve ϕ : I → M , so dass ϕ(t0 ) = a und ϕ0 (t0 ) = ξ. Sei nun h(t) = f (ϕ(t)). Dann ist
h0 (t0 ) = ∇f (a) · ξ 6= 0
Damit ist t0 keine Extremalstelle von f (ϕ(t)). Das zeigt, dass a keine bedingte lokale
Extremalstelle von f sein kann.
Um bedingte Extremalstellen einer Funktion f auf Rn mit m Nebenbedingungen
g(x) = 0 zu finden, muss man also die n + m Gleichungen

m
X


 ∇f (x) =
λj ∇gj (x)
j=1



g(x) = 0
für die (n + m) Unbekannten x1 , . . . , xn , λ1 , . . . , λm lösen. Die einzigen Kandidaten für
Extremalstellen sind Lösungen dieser Gleichungen und Punkte auf M , wo f nicht differenzierbar ist.
Beispiel (aus der statistischen Mechanik): Ein Molekül habe n mögliche Zustände, mit
Energien E1 , . . . , En . In der statistischen Mechanik wird ein System von vielen Molekülen
durch die Wahrscheinlichkeiten p1 , . . . , pn ∈ [0; 1] beschrieben, dass ein Molekül im jten Zustand gefunden wird (die Wahrscheinlichkeit pj gibt die Fraktion zwischen den
74
Molekülen im j-ten Zustand und der gesamten Anzahl von Molekülen). Der Zustand
des Vielteilchensystems wird durch Maximierung der Entropie
H(p1 , . . . , pn ) = −
n
X
pj log pj
j=1
unter den Nebenbedingungen p1 + · · · + pn = 1 und
Ē =
n
X
pj Ej
j=1
bestimmt (wir möchten also die Entropie bei feste mittlerer Energie Ē maximieren).
P
Sei p = (p1 , . . . , pn ). Wir setzen g1 (p) = p1 + · · · + pn − 1 und g2 (p) = nj=1 pj Ej . Es
gilt ∇g1 (p) = (1, 1, . . . , 1) und ∇g2 (p) = (E1 , . . . , En ). Da
∇H(p) = (− log p1 − 1, . . . , − log pn − 1)
finden wir aus der Gleichung ∇H(p) = λ1 ∇g1 (p) + λ2 ∇g2 (p), dass
−1 − log pj = λ1 + λ2 Ej
für alle j = 1, . . . , n. Das ergibt log pj = −1 − λ1 − λ2 Ej und also
pj = e−(λ1 +1) · e−λ2 Ej =: ke−λ2 Ej
Die Bedingung g1 (p) = 0 bestimmt die Konstante k. Wir finden
e−λ2 Ej
pj = Pn
−λ2 Ej
j=1 e
Die Bedingung g2 (p) = 0 ergibt die Gleichung
E=
n
X
j=1
Ej e−λ2 Ej
Pn
−λ2 Ej
j=1 e
Diese Gleichung erlaubt uns im Prinzip, λ2 zu bestimmen. In der statistischen Mechanik
setzte man λ2 = kB /T , wobei kB die sogenannte Boltzmann-Konstante ist, und T die
absolute Temperatur des Systems ist. Die Temperatur wird von der mittleren Energie
bestimmt. Der Zustand vom System zur Temperatur T (d.h. zur mittleren Energie E)
ist der sogenannte Gibbs-Zustand, charakterisiert durch die Wahrscheinlichkeiten
e−kB Ej /T
pj = Pn −k E /T .
B i
i=1 e
Lagrange-Multiplikatoren und die oben erklärten Strategien, um bedingte Extrema
zu finden, sind auch nützlich, um (globale) Extrema von Funktionen auf Teilmengen von
Rn zu suchen, die einen Rand haben. Wir betrachten ein Beispiel, um die Situation zu
erklären.
75
Beispiel: Wir suchen das globale Maximum und das globale Minimum von f (x, y, z) =
x2 + y + z 2 auf D := {(x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ 1 und x2 + y 2 ≤ 1/2}.
Wir zerlegen D in verschiedenen Teile. Wir setzten:
D1 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 < 1 und x2 + y 2 < 1/2},
√
D2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1 und z > 1/ 2}, D3 = −D2
√
√
D4 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z ∈ (−1/ 2; 1/ 2)},
√
D5 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z = 1/ 2}, D6 = −D5 .
Wir suchen separate lokale Extrema in den Mengen D1 , . . . , D5 . Das globale Maximum
von f in D ist das grösste lokale Maximum, das wir in D1 , . . . , D6 finden werden, und
analog für das globale Minimum von f .
1) Extrema auf D1 werden durch die Bedingung ∇f (x) = 0 charakterisiert. Da
∇f (x) = (2x, 1, 2z), existiert kein Punkt x ∈ D1 mit ∇f (x) = 0. Also gibt es
kein lokales Extremum in D1 .
2) Lokale Extrema auf D2 werden durch die Nebenbedingung g(x, y, z) = x2 + y 2 +
z 2 = 1 charakterisiert. Ist x ∈ D2 ein lokales bedingtes Extremum, dann muss
λ ∈ R existieren mit ∇f (x) = λ∇g(x). Mit ∇g(x) = 2(x, y, z) wir finden

2x
= 2λx



1
= 2λy
2z
= 2λz


 2
x + y2 + z2 = 1
Da z 6= 0 in D2 , folgt λ = 1. Das ergibt y = 1/2 und√x2 + z 2 = 3/4. Der Kreis
{(x, 1/2, z) : x2 + z 2 = 3/4} schneidet D2 wenn z > 1/ 2. Auf diesem Kreis ist f
konstant, gegeben aus
f (x, 1/2, z) = 5/4, für alle (x, z) ∈ R2 mit x2 + z 2 = 3/4.
3) Aus Symmetrie, kann die Funktion f auf D3 nur auf dem Kreis {(x, 1/2, z) :
x2 + z 2 = 3/4} extremal sein, wo f = 5/4 ist.
4) Wir betrachten nun die Teilmenge D4 , wo Extrema von f mit der Nebenbedingung
g(x, y, z) = x2 +y 2 −1/2 = 0 gesucht werden sollen. Die Gleichung ∇f (x) = λ∇g(x)
wird zu

2x
= 2λx



1
= 2λy
=0
 2z

 2
x + y 2 = 1/2
√
Wir finden die Lösungen (x, y, z) = (0, ±1/ 2, 0) und (x, y, z) = (±1/2, 1/2, 0).
Es gilt
√
√
f (0, ±1/ 2, 0) = ±1/ 2
f (±1/2, 1/2, 0) = 3/4.
76
5) Auf D5 haben wir√die Nebenbedingungen g1 (x, y, z) = x2 + y 2 − 1/2 = 0 und
g2 (x, y, z) = z − 1/ 2 = 0. Die Gleichung ∇f (x) = λ1 ∇g1 (x) + λ2 ∇g2 (x) gibt

2x
= 2λ1 x




= 2λ1 y
 1
2z
= λ2


 x2 + y 2 = 1/2

√

z
= 1/ 2
√
√
√
Es gibt die Lösungen (±1/2, 1/2, 1/ 2) und (0, ±1/ 2, 1/ 2). Es gilt
√
f (±1/2, 1/2, 1/ 2) = 5/4
√
√
√
f (0, ±1/ 2, 1/ 2) = ±1/ 2 + 1/2.
√
2)
6) Aus Symmetrie
können
Extrema
in
D
nur
an
den
Stellen
(±1/2,
1/2,
−1/
6
√
√
√ und
(0, ±1/ 2, −1/ 2)
gefunden
werden.
Wie
in
D
finden
wir
f
(±1/2,
1/2,
−1/
2) =
5
√
√
√
5/4 und f (0, ±1/ 2, −1/ 2) = ±1/ 2 + 1/2.
Durch Vergleich der Werte von f in den gefundenen Kandidaten für Maxima und
Minima, finden wir
max f (x) = 5/4,
x∈D
und
1
min f (x) = − √
x∈D
2
√
Das Maximum wird auf dem Kreisbogen y√= 1/2, x2 + z 2 = 3/4, mit |z| ≥ 1/ 2
angenommen. Das Minimum wird in (0, −1/ 2, 0) angenommen.
3.7
Integrale, die von einem Parameter abhängen.
Sei f (x, y) eine stetige Funktion von zwei Variablen, definiert auf einer Produktmenge
I × U , wobei I ⊂ R ein Intervall ist und U ⊂ Rn . Für feste y ∈ U können wir dann
f über x integrieren (weil f (x, y) für feste y als Funktion von x stetig und deswegen
auch integrierbar ist). Das Resultat ist eine Funktion auf U . Wir möchten in diesem
Abschnitt einige Eigenschaften von dieser Funktion diskutieren.
Satz 3.30. Seien a, b ∈ R, a < b, U ⊂ Rn und f ∈ C([a; b] × U ). Dann ist die Funktion
ϕ : U → R, definiert durch
Z b
ϕ(y) =
f (x, y) dx
(58)
a
stetig.
Beweis: Sei y ∈ U und yn eine Folge in U , mit yn → y. O.B.d.A. können wir r > 0
finden, mit yn ∈ B r (y) = {z ∈ Rn : kz−yk ≤ r} ⊂ U für alle n ∈ N (sonst betrachten wir
nur yn für n gross genug). Wir setzen dann Fn (x) := f (x, yn ) und F (x) := f (x, y). Aus
Stetigkeit von f gilt offenbar Fn (x) → F (x) punktweise. Wir behaupten nun Fn → F
gleichmässig auf [a; b]. Da [a; b] × B r (y) kompakt ist, ist f auf [a; b] × B r (y) gleichmässig
stetig. Für ε > 0 fest gewählt existiert also δ > 0, so dass |f (x, y) − f (z, w)| < ε für
alle (x, y), (z, w) ∈ [a; b] × B r (y) mit k(x, y) − (z, w)k < δ. Wir finden nun N ∈ N mit
77
kyn − yk < δ für alle n > N . Dann gilt auch k(x, yn ) − (x, y)k < δ für alle n > N .
Deswegen muss
|Fn (x) − F (x)| = |f (x, yn ) − f (x, y)| < ε
für alle n > N und alle x ∈ [a; b]. Das zeigt die gleichmässige Konvergenz von Fn → F .
Aus Analysis 1 (Satz 9.13) folgt, dass
Z b
Z b
F (x)dx
Fn (x)dx =
lim
n→∞ a
a
und also, dass ϕ(yn ) → ϕ(y). Damit ist ϕ stetig.
Ist f nach y differenzierbar, so ist auch ϕ, definiert wie in (58), differenzierbar. Das
ist der Inhalt vom nächsten Satz.
Satz 3.31. Seien a, b ∈ R, a < b, n, m ∈ N, U ⊂ Rn offen und f : [a; b]×U → Rm stetig.
Wir nehmen an, ∂f /∂yj (x, y) existiert und ist stetig auf [a; b] × U für ein j ∈ {1, . . . , n}.
Dann hat auch die Funktion
Z
b
ϕ(y) =
f (x, y) dx
a
eine stetige partielle Ableitung ∂ϕ/∂yj (y) auf U , gegeben aus
Z b
∂ϕ
∂f
(y) =
dx
(x, y) .
∂yj
∂yj
a
Ist ferner f nach y1 , . . . , yn partiell differenzierbar und sind alle partiellen Ableitungen
∂f /∂yj (x, y) stetig auf [a, b] × U , dann ist ϕ ∈ C 1 (U ; Rm ) mit
Z b
dx Dy f (x, y)
Dϕ(y) =
a
wobei Dy f (x, y) die m × n Matrix ist, deren Einträge aus ∂fi /∂yj (x, y) gegeben sind.
Beweis: O.B.d.A. betrachten wir den Fall m = 1 (sonst wiederholen wir das Argument
für die m Komponenten von f = (f1 , . . . , fm )). Sei y ∈ U festgewählt. Wir finden ρ > 0,
so dass y + tej ∈ U für alle t ∈ [−ρ, ρ]. Für beliebige |t| ≤ ρ haben wir
Z b
ϕ(y + tej ) − ϕ(y)
f (x, y + tej ) − f (x, y)
=
dx
(59)
t
t
a
Aus dem Mittelwertsatz existiert für jede t ∈ [−ρ; ρ] und x ∈ [a; b] ein s(t, x) mit
|s(t, x)| ≤ |t|, so dass
f (x, y + tej ) − f (x, y)
∂f
=
(x, y + s(t, x)ej )
t
∂yj
Die Abbildung (x, λ) → (∂f /∂yj )(x, y + λej ) ist stetig und damit auf der kompakten
Menge [a; b] × [−ρ, ρ] gleichmässig stetig. Für ein beliebiges ε > 0 gibt es also ein 0 <
δ < ρ, so dass
∂f
∂f
∂yj (x, y + λej ) − ∂yj (x, y) ≤ ε
78
für alle |λ| ≤ δ und alle x ∈ [a; b]. Damit gilt
∂f
f (x, y + tej ) − f (x, y)
∂f
∂f
≤ε
(x,
y)
=
(x,
y
+
s(t,
x)e
)
−
(x,
y)
−
j
∂yj
t
∂yj
∂yj
für alle |t| ≤ δ und x ∈ [a; b] (weil dann |s(t, x)| ≤ |t| ≤ δ) ist. Damit gilt
f (x, y + tej ) − f (x, y)
∂f
(x, y)
→
t
∂yj
für t → 0, gleichmässig in x. Aus Analysis 1 (Satz 9.13) folgt, dass
Z
lim
t→0 a
b
f (x, y + tej ) − f (x, y)
dx
→
t
Z
b
dx
a
∂f
(x, y) .
∂yj
Aus (59) folgt, dass ϕ nach yj partiell differenzierbar ist, und dass
∂ϕ
(y) =
∂yj
b
Z
dx
a
∂f
(x, y) .
∂yj
Da ∂f /∂yj stetig ist, folgt die Stetigkeit von ∂ϕ/∂yj aus Satz 3.30. Die andere Behauptung folgt aus Proposition 3.5.
Wir untersuchen nun Funktionen f (x, y) auf der Produktmenge [a; b] × [c; d] ⊂ R2 .
Wir definieren das Doppelintegral von f .
Definition 3.32. Seien a < b ∈ R, c < d ∈ R. Sei f : [a; b] × [c; d] → R. Das
Doppelintegral
Z bZ d
f (x, y)dydx
a
c
existiert, wenn folgendes gilt
i) Für jedes x ∈ [a; b] ist die Funktion y → f (x, y) auf [c; d] integrierbar.
ii) Die Funktion F : [a; b] → R definiert durch
Z
d
f (x, y)dy
F (x) =
c
ist integrierbar.
In diesem Fall setzt man
Z bZ d
Z b
Z b Z
f (x, y)dydx =
F (x)dx =
a
c
a
a
Das Doppelintegral
Z
dZ b
f (x, y)dxdy
c
a
wird analog definiert.
79
c
d
f (x, y)dy dx
Ist f ∈ C([a; b] × [c; d]) stetig, so spielt es keine Rolle, ob wir zunächst über x oder
über y integrieren.
Satz 3.33 (Fubini). Seien a, b, c, d ∈ R, mit a < b und c < d. Sei f ∈ C([a; b] × [c; d]).
Dann existieren beide Doppelintegrale
Z bZ
d
Z
dZ b
f (x, y)dydx,
a
f (x, y)dxdy
c
c
a
und sind gleich.
Beweis: Aus der Stetigkeit von f folgt die Existenz von
d
Z
F (x) =
f (x, y)dy
c
für alle x ∈ [a; b]. Aus Satz 3.30 folgt, dass F stetig und deswegen auf [a; b] integrierbar
ist. Das zeigt die Existenz vom Doppelintegral
Z bZ
d
f (x, y)dydx .
a
c
Analog zeigt man die Existenz vom Doppelintegral
Z
dZ b
f (x, y)dxdy .
c
a
Um zu zeigen, dass die zwei Integrale gleich sind, definieren wir A : [a; b] × [c; d] → R
durch
Z y
A(x; y) =
f (x, t)dt
c
Aus Analysis 1 folgt, dass A partiell nach y differenzierbar ist, mit
∂A
(x, y) = f (x, y)
∂y
Wir behaupten nun, dass A stetig ist. Sei (xk ; yk ) eine Folge in R2 mit (xk ; yk ) → (x; y).
Dann gilt
|A(xk ; yk ) − A(x; y)| ≤ |A(xk ; yk ) − A(xk ; y)| + |A(xk ; y) − A(x; y)|
Wir haben
Z
|A(xk ; yk ) − A(xk ; y)| = y
yk
f (xk ; t)dt ≤ C|yk − y| → 0
als k → ∞, weil sup{f (x; y) : x ∈ [a; b], y ∈ [c; d]} < ∞ aus der Stetigkeit von f und aus
der Kompaktheit von [a; b] × [c; d]. Anderseits |A(xk , y) − A(x, y)| → 0, für k → ∞, weil
aus Satz 3.30 die Funktion A(x, y) stetig in x ist, für beliebig y ∈ [c; d]. Wir setzen also
Z
ϕ(y) =
b
Z bZ
A(x, y)dx =
a
f (x, t)dtdx
a
80
y
c
Insbesondere ϕ(d) =
ist, mit
RbRd
a
c
0
f (x, y)dydx. Nach Satz 3.31 finden wir, dass ϕ differenzierbar
b
Z
Z
∂A
(x, y)dx =
∂y
ϕ (y) =
a
b
f (x, y)dx
a
Das gibt
d
Z
Z
0
dZ b
f (x, y)dxdy
ϕ (y)dy =
ϕ(d) = ϕ(c) +
c
c
a
und zeigt die Behauptung.
3.8
Konservative Vektorfelder
Wir führen den Begriff vom Vektorfeld ein.
Definition 3.34. Ein Vektorfeld mit Definitionsbereich U ⊂ Rn ist eine Abbildung
K : U → Rn . Ist U ⊂ Rn offen, so sagen wir die Abbildung K : U → Rn ist ein
C k -Vektorfeld, falls K ∈ C k (U ; Rn ).
Wir haben schon oft Abbildungen betrachtet, die eine Teilmenge von Rn auf Rn
abbilden (zB. Diffeomorphismen). Die Interpretation von Vektorfeldern ist aber anders.
Ein Vektorfeld wird interpretiert als eine Abbildung, die zu jedem Punkt im Raum
einen Vektor in Rn zuordnet. Typische Beispiele von Vektorfeldern sind Kraftfelder.
Eine elektrische Ladung im Punkt x = 0 erzeugt an der Stelle x ∈ R3 die Kraft
K(x) = −c
x
kxk3
für eine Konstante c ∈ R. K(x) ist ein Beispiel eines Vektorfelds. Ein anderes Beispiel von
Vektorfeldern sind Geschwindigkeitsfelder. Die Strömung einer Flüssigkeit kann durch
das Geschwindigkeitsfeld v(x) beschrieben werden, das die momentane Geschwindigkeit
der Flüssigkeit an der Stelle x ∈ Rn spezifiziert. Aus diesen Beispielen ist klar, dass
Vektorfelder eine sehr wichtige Rolle in der Physik spielen (natürlich spielen in der
Physik auch skalare Felder, wie zum Beispiel die Temperatur T (x) als Funktion vom
Ort, eine wichtige Rolle, und manchmal ist es auch nützlich, Matrix-wertige Felder zu
betrachten; hier untersuchen wir aber nur Vektorfelder).
Feldlinien. Sei nun K : U → Rn ein Vektorfeld. Eine parametrisierte Kurve γ :
I → Rn (wobei I ⊂ R ein Intervall ist) heisst eine Feldlinie vom Vektorfeld K, falls der
Tangentialvektor γ 0 (t) für alle t ∈ I proportional zum Vektor K(γ(t)) ist. Man bemerke,
der Begriff von Feldlinie ist von der Parametrisierung der Kurve γ unabhängig. In der
Tat, falls ψ : Ie → I eine monotone differenzierbare Funktion ist, so gilt
d
γ(ψ(t)) = γ 0 (ψ(t))ψ 0 (t)
dt
und deswegen ist (γ ◦ ψ)0 (t) immer proportional zu γ 0 (ψ(t)). Eine natürliche Parametrisierung einer Feldlinie ist also durch die Gleichung
γ 0 (t) = K(γ(t))
81
bestimmt. Diese Differentialgleichung für γ(t) gibt uns die Möglichkeit, Feldlinien eines
Kraftfelds zu finden. Ist K ein C 1 -Vektorfeld auf U und ist x0 ∈ U , dann folgt aus
der Theorie der gewöhnlichen Differentialgleichungen, siehe z.B. Satz 2.6, dass man
immer mindestens ein Stück Feldlinie von K durch x0 finden kann, und dass diese lokale
Feldlinie eindeutig bestimmt ist.
Zentralfelder. Ein Vektorfeld K : U → Rn heisst ein Zentralfeld, falls K die Form
K(x) = f (kxk)x hat, für eine Funktion f (kxk) die nur von der Länge kxk von x abhängt.
Das elektrische Feld K(x) = −constx/kxk3 , erzeugt auf R3 \{0} aus einer Ladung im
Ursprung, ist ein Beispiel eines Zentralfelds.
Gradientenfelder. Ein Vektorfeld K : U → Rn definiert auf U ⊂ Rn heisst ein
Gradientenfeld, falls eine reel-wertige Funktion ϕ ∈ C 1 (U ) existiert, mit K(x) = ∇ϕ(x).
Die Länge einer parametrisierten Kurve. Sei I = [a; b] ⊂ R und γ ∈ C 1 (I; Rn ) eine
differenzierbare parametrisierte Kurve in Rn . Wir möchten die Länge von γ definieren.
Ist γ eine Gerade, so ist die Länge von γ durch kγ(b) − γ(a)k gegeben. Falls γ keine
Gerade ist, so können wir versuchen, die Länge zu definieren, indem wir γ in viele kleine
Teile zerlegen. Für n ∈ N finden wir a = t0 < t1 < t2 < · · · < tn = b. Eine erste
Näherung für die Länge von γ ist aus
n
X
n
X
kγ(tj ) − γ(tj−1 )k '
(tj − tj−1 )kγ 0 (tj−1 )k
j=1
j=1
gegeben. Wir können nun die Länge von γ berechenen, indem wir den Limes dieses
Ausdrucks für n → ∞ betrachten (angenommen, die Folge der Teilungen ist so, dass
supj |tj −tj−1 | → 0). Wir definieren also die Länge der parametrisierten differenzierbaren
Kurve γ durch
Z b
L(γ) =
dt kγ 0 (t)k
(60)
a
Aus der Annahme γ ∈
folgt, dass kγ 0 (t)k stetig von t abhängt. Deswegen
ist die rechte Seite von (60) wohldefiniert und endlich.
Man bemerke auch, dass die Definition (60) unabhängig von der Parametrisierung
der Kurve ist. Sei nämlich ψ : [c; d] → [a; b] eine monoton steigende injektive und
differenzierbare Funktion. Wir definieren die parametrisierte Kurve γ
e : [c; d] → Rn
durch γ
e(t) = γ(ψ(t)). Dann gilt
C 1 ([a; b]; Rn )
γ
e0 (t) = γ 0 (ψ(t))ψ 0 (t)
Deswegen
Z
d
Z
0
dt ke
γ (t)k =
L(e
γ) =
c
d
dt ψ 0 (t)kγ 0 (ψ(t))k
c
wobei wir benutzt haben, dass ψ 0 (t) ≥ 0 (aus der Monotonie). Mit der Variablentransformation s = ψ(t) finden wir L(e
γ ) = L(γ). D.h., wie behauptet, die Länge ist von der
Parametrisierung unabhängig.
Allgemeiner kann man die Länge einer stückweise stetig differenzierbaren parametrisierten Kurve definieren.
82
Definition 3.35. Eine parametrisierte Kurve γ : [a; b] → Rn heisst stückweise stetig
differenzierbar, falls sie stetig auf [a; b] ist, und falls eine endliche Teilung a = t0 < t1 <
· · · < tn−1 < tn = b mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n
existiert (erinnere, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) genau dann, wenn γ ∈ C 1 ((tj−1 ; tj ); Rn )
und γ und γ 0 können auf dem abgeschlossenen Intervall [tj−1 ; tj ] stetig fortgesetzt werden).
Für eine stückweise stetig differenzierbare Kurve γ : [a; b] → Rn , können wir dann
die Länge durch
n Z tj
X
L(γ) =
dt kγ 0 (t)k
(61)
tj−1
j=1
definieren, wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wird, dass γ ∈
C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n.
Linienintegrale. Sei nun γ : [a; b] → Rn eine parametrisierte Kurve und K : U → Rn
ein Vektorfeld, mit γ(I) ⊂ U . Wir interpretieren γ als die Bahn eines Teilchen und K(x)
als die auf dem Teilchen im Punkt x wirkende Kraft. Ein wichtiger Begriff in der Physik
ist die Arbeit, die das Teilchen leisten muss, um sich durch das Kraftfeld zu bewegen
(oder die Arbeit, die das Kraftfeld auf dem Teilchen leistet). Ist γ eine Gerade und
K(x) = K konstant auf der Geraden, so ist die Arbeit aus K · (γ(b) − γ(a)) gegeben.
Allgemeiner können wir die Arbeit berechnen, indem wir das Intervall [a; b] in kleine
Teilintervalle zerlegen. Seien a = t0 < t1 < · · · < tn = b. Dann können wir die Arbeit
durch
n
X
K(γ(tj−1 )) · (γ(tj ) − γ(tj−1) ) '
j=1
n
X
K(γ(tj−1 ))γ 0 (tj−1 )(tj − tj−1 )
j=1
approximieren. Nehmen wir das Limes n → ∞ (mit supj (tj − tj−1 ) → 0), so konvergiert
die linke Seite (angenommen z.B. das Vektorfeld K ist stetig) zum Integral
Z
b
K(γ(t)) · γ 0 (t) dt
a
Das motiviert die folgende Definition.
Definition 3.36. Sei U ⊂ Rn offen, K : U → Rn ein stetiges Vektorfeld. Sei γ :
[a; b] → U eine stückweise stetig differenzierbare Kurve in U . Wir definieren dann das
Linienintegral (oder Wegintegral) von K entlang γ durch
Z
K · dx :=
γ
n Z
X
j=1
tj
K(γ(t)) · γ 0 (t) dt
tj−1
wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wurde, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn )
für alle j = 1, . . . , n.
In der folgenden Proposition sammeln wir einige wichtige Eigenschaften von Linienintegralen.
83
Proposition 3.37. Sei U ⊂ Rn offen, K ein stetiges Vektorfeld in U , γ : [a; b] → U
eine stückweise stetig differenzierbare Kurve in U .
i) Sei M = sup{kK(x)k : x ∈ γ([a; b])} (bemerke, dass M < ∞ wegen Stetigkeit von
K und Kompaktheit von γ([a; b]). Dann gilt
Z
K · dx ≤ M L(γ)
γ
wobei L(γ) die Länge von γ ist, wie in (61) definiert.
ii) Sei ψ : [c; d] → [a0 b] monoton steigend, mit ψ(c) = a und ψ(d) = b, und stückweise stetig differenzierbar (ψ is eine Parametertransformation). Wir definieren
γ
e : [c; d] → U durch γ
e(t) = γ(ψ(t)). Dann gilt
Z
Z
K · dx = K · dx
γ
e
γ
D.h. der Wert des Linienintegrales ist von der Parametrisierung der Kurve unabhängig.
Beweis: i) Sei a = t0 < t1 < · · · < tn = b eine Teilung, so dass γ ∈ C 1 ([tj−1 , tj ]; U ) für
alle j = 1, . . . , n. Dann gilt
Z
Z
tj
tj 0
K(γ(t)) · γ 0 (t) dt
K(γ(t))
·
γ
(t)dt
≤
tj−1
tj−1
Z tj
Z tj
0
kγ 0 (t)k dt
kK(γ(t))kkγ (t)k dt ≤ M
≤
tj−1
tj−1
Also
n Z tj
Z
n Z tj
X
X
0
K · dx = K(γ(t)) · γ (t)dtdt ≤ M
kγ 0 (t)k dt = M L(γ)
γ
t
t
j=1 j−1
j=1 j−1
ii) Sei c = t0 < t1 < · · · < tn = d eine Teilung von [c; d] mit der Eigenschaft, dass
ψ ∈ C 1 ([tj−1 ; tj ]) und γ ∈ C 1 ([ψ(tj−1 ); ψ(tj )]; U ) für alle j = 1, . . . , n. Dann gilt
Z tj
Z tj
0
K(e
γ (t)) · γ
e (t)dt =
K(γ(ψ(t))) · γ 0 (ψ(t))ψ 0 (t)dt
tj−1
tj−1
Z
ψ(tj )
=
K(γ(s)) · γ 0 (s)ds
ψ(tj−1 )
mit der Variablentransformation s = ψ(t). Also, da ψ monoton wachsend ist, finden wir
Z
n Z tj
X
K · dx =
K(e
γ (t))e
γ 0 (t)dt
γ
e
=
j=1 tj−1
n Z ψ(tj )
X
j=1
K(γ(s)) · γ 0 (s)ds =
ψ(tj−1 )
Z
K · dx
γ
84
Operationen mit Kurven. Für eine stückweise stetig differenzierbare Kurve γ : [a; b] →
Rn , kann man die stückweise stetig differenzierbare Kurve −γ : [a; b] → Rn durch
−γ(t) = γ(b + a − t) definieren. Es ist einfach zu sehen, dass −γ die selbe Kurve wie γ
beschreibt, aber in umgekehrte Richtung parametriseirt.
Sind γ1 : [a; b] → Rn und γ2 : [c; d] → Rn zwei stückweise stetig differenzierbare
Kurven, so dass γ1 (b) = γ2 (c), so kann man die Kurve γ3 = γ1 + γ2 : [a; b + d − c] durch
γ1 (t)
falls t ∈ [a; b]
γ3 (t) =
γ2 (t + c − b)
falls t ∈ [b; b + d − c]
definieren. Anschaulich, γ3 ist die “Vereinigung” der zwei Kurven γ1 und γ2 . Es ist
einfach zu sehen, dass L(−γ) = L(γ), und L(γ1 +γ2 ) = L(γ1 )+L(γ2 ). Für Linienintegrale
finden wir
Z
Z
(62)
K · dx = − K · dx
−γ
und
γ
Z
Z
Z
K · dx .
K · dx +
K · dx =
(63)
γ2
γ1
γ1 +γ2
Um Gleichung 62 zu zeigen, sei γ : [a; b] → Rn und a = t0 < t1 < · · · < tn = b eine
Teilung mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Wir setzen
e
tj = a + b − tn−j . Dann ist a = e
t0 < e
t1 < · · · < e
tn = b eine Teilung mit der Eigenschaft,
1
e
e
dass −γ ∈ C ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Erinnere hier, dass −γ(t) = γ(a + b − t).
Wir finden
Z
n Z e
tj
X
K · dx =
K(−γ(t)) · (−γ)0 (t)dt
−γ
j=1
=−
=
e
tj−1
n Z
X
a+b−tn−j
K(γ(a + b − t)) · γ 0 (a + b − t)dt
j=1 a+b−tn−j+1
n
X Z tn−j
K(γ(s)) · γ 0 (s)ds
j=1
=−
tn−j+1
n Z
X
j=1
tn−j+1
0
Z
K · dx
K(γ(s)) · γ (s)ds = −
tn−j
γ
Die Gleichung (63) kann ähnlich bewiesen werden.
Konservative Vektorfelder. Falls das Vektorfeld K ein Gradientenfeld ist, dann ist
die Berechnung seiner Linienintegralen besonders einfach.
Satz 3.38. Sei U ⊂ Rn offen, ϕ ∈ C 1 (U ) und K = ∇ϕ (dann ist K ein stetiges
Vektorfeld auf U ). Sei γ ∈ C 1 ([a; b]; U ) eine stetig differenzierbare Kurve auf U . Dann
gilt
Z
K · dx = ϕ(γ(a)) − ϕ(γ(b))
γ
γ(a) heisst der Anfangspunkt der Kurve γ und γ(b) der Endpunkt.
85
Beweis: Wir bemerken, dass
d
ϕ(γ(t)) = ∇ϕ(γ(t)) · γ 0 (t)
dt
Deswegen finden wir
b
Z
Z
K · dx =
∇ϕ(γ(t)) · γ 0 (t)dt
a
γ
b
Z
=
a
d
ϕ(γ(t))dt = ϕ(γ(a)) − ϕ(γ(b))
dt
Bemerkung: Die Aussage von Satz 3.38 gilt auch, falls die Kurve γ stückweise stetig
differenzierbar ist. In diesem Fall finden wir eine Teilung a = t0 < t1 < . . . tn = b mit
der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Dann gilt, ähnlich wie
im Beweis des Satzes,
Z tj
∇ϕ(γ(t)) · γ 0 (t)dt = ϕ(γ(tj )) − ϕ(γ(tj−1 ))
tj−1
für alle j = 1, . . . , n. Damit
Z
K · dx =
γ
n
X
(ϕ(γ(tj )) − ϕ(γ(tj−1 ))) = ϕ(γ(b)) − ϕ(γ(a))
j=1
Bemerkung: Es folgt aus dem Satz, dass Linienintegrale von Gradientenfeldern entlang
einer Kurve γ nur vom Anfangspunkt und Endpunkt von γ abhängen, nicht von dem
Weg dazwischen.
Bemerkung: Eine parametrisierte Kurve γ : [a; b] → Rn heisst geschlossen, wenn γ(a) =
γ(b), d.h. falls Anfangspunkt und Endpunkt der Kurve übereinstimmen. Es folgt aus
Satz 3.38, dass das Linienintegral von einem Gradientenfeld entlang einer geschlossenen
Kurve verschwindet.
Definition 3.39. Sei U ⊂ Rn . Ein Vektorfeld K : U → Rn heisst konservativ (oder
manchmal exakt), falls das Linienintegral
Z
K · dx
γ
nur vom Anfangs- und Endpunkt von γ abhängt, für jede Kurve γ in U . Mit anderen
Worten, K ist konservativ, falls für alle zwei stückweise stetig differenzierbaren Kurven
γ1 , γ2 mit übereinstimmenden Anfangs- und Endpunkten, gilt
Z
Z
K · dx =
K · dx
γ1
γ2
86
Es folgt aus Satz 3.38, dass Gradientenfelder konservativ sind. In der Physik spielen
konservative Kraftfelder eine besonders wichtige Rolle. Ist K konservativ, dann ist die
Arbeit, die ein Teilchen leistet, wenn es sich auf einer Bahn γ bewegt, nur vom Anfangsund Endpunkt der Bahn abhängig. Das impliziert, wie wir bald sehen werden, dass man
für konservative Kraftfelder ein Potential einführen kann, so dass die geleistete Arbeit
einfach die Differenz vom Potential im End- und im Anfangspunkt ist. D.h. man kann
ein Potential einführen, so dass Energieerhaltung gilt.
Proposition 3.40. Sei U ⊂ Rn offen und K : U → Rn ein stetiges Vektorfeld. Dann
ist K genau dann konservativ, wenn
Z
K · dx = 0
γ
für alle geschlossenen stückweise stetig differenzierbaren Kurve γ in U .
Beweis: Sei zunächst K konservativ und γ : [a; b] → U eine geschlossene stückweise
stetig differenzierbare Kurve mit γ(a) = γ(b) =: x0 . Es bezeichne γ
e : [a; b] → Rn die
konstante Kurve γ(t) = x0 für alle t ∈ [a; b]. Weil γ und γ
e die selben Anfangs- und
Endpunkte haben, finden wir (siehe Prop. 3.37)
Z
Z
K · dx = K · dx = 0 .
γ
γ
e
Nehmen wir nun an, dass
Z
K · dx = 0
γ
für alle geschlossenen stückweise stetig differenzierbaren Kurven γ auf U . Seien γ1 und
γ2 zwei beliebige stückweise stetig differenzierbare Kurven auf U , mit übereinstimmenden Anfangs- und Endpunkten. Wie oben bezeichnen wir mit −γ2 die Kurve γ2 , mit
umgekehrter Richtung. Der Anfangspunkt von −γ2 ist dann der Endpunkt von γ1 und
analog der Anfangspunkt von γ1 ist der Endpunkt von −γ2 . Wir definieren auch die
Kurve γ = γ1 + (−γ2 ), die parametrisierte Kurve gegeben aus der “Vereinigung” von
γ1 und −γ2 . Genauer gesagt, falls γ1 : [a; b] → U und −γ2 : [c; d] → U , so definieren
wir γ : [a; b + d − c] → U durch γ(t) = γ1 (t) falls t ∈ [a; b] und γ(t) = −γ2 (t − b + c)
falls t ∈ [b; b + d − c]. Die Kurve γ ist dann offenbar eine geschlossene stückweise stetig
differenzierbare Kurve, und deswegen
Z
Z
Z
Z
Z
0 = K · dx =
K · dx +
K · dx =
K · dx −
K · dx
γ
−γ2
γ1
γ1
γ2
Das zeigt, dass
Z
Z
K · dx =
γ1
K · dx .
γ2
Also ist K konservativ.
Wir haben schon bemerkt, dass jedes Gradientfeld konservativ ist. Wir zeigen nun
die Umkehrung dieser Aussage: Jedes konservative Vektorfeld ist ein Gradientenfeld.
Dazu werden wir das folgende Hilfslemma anwenden.
87
Lemma 3.41. Jede offene Teilmenge U ⊂ Rn lässt sich als Vereinigung einer disjukten
Familie offener zusammenhängender Mengen darstellen (die Vereinigung braucht nicht
endlich zu sein).
Bemerkung. Diese Zerlegung ist eigentlich eindeutig; die offenen zusammenhängenden Teilmengen werden als Zusammenhangskomponenten bezeichnet.
Beweis: Wir definieren eine Relation zwischen Punkten in U . Für x, y ∈ U schreiben
wir x ∼ y genau dann, wenn x und y sich durch einen Streckenzug in U verbinden
lassen. Offenbar definiert ∼ eine Äquivalenzrelation. Die Äquivalenzklassen sind offen.
Sei nämlich x ∈ U beliebig. Wir zeigen die Äquivalenzklasse [x] ist offen. Dazu finden
wir r > 0, so dass die offene Kugel Br (x) von Radius r um x in U enthalten ist. Dann ist
x ∼ y, für alle y ∈ Br (x). Damit ist Br (x) ⊂ [x], und [x] ist offen. Die Äquivalenzklassen
sind offenbar zusammenhängend und paarweise disjukt.
Wir können nun zeigen, dass jedes konservative Feld ein Gradientenfeld ist.
Satz 3.42. Sei U ⊂ Rn offen, K ein konservatives stetiges Vektorfeld auf U . Dann
existiert ϕ : U → R stetig differenzierbar, mit K = ∇ϕ.
Beweis: Wir betrachten zunächst den Fall, dass U zusammenhängend ist. Wir wählen
x0 ∈ U fest. Für ein beliebiges x ∈ U finden wir eine stückweise stetig differenzierbare
Kurve γx in U mit Anfangspunkt x0 und Endpunkt x. Wir setzen
Z
ϕ(x) =
K · dx
γx
Da K konservativ ist, ist die Definition unabhängig von der Wahl der Kurve γx , natürlich
unter der Annahme, dass der Endpunkt von γx gerade x ist. Wir bemerken, dass
ϕ(x0 ) = 0. Wir behaupten, dass ∇ϕ(x) = K(x). Das würde den Satz für den Fall
U zusammenhängend beweisen, weil K aus Annahme stetig ist. Um die Behauptung zu
zeigen, bemerken wir, dass
∂ϕ
d
(x) = ϕ(x + tei )|t=0
∂xi
dt
und dass
Z
Z
K · dx =
ϕ(x + tei ) =
γx+tei
K · dx
γx +[x;x+tei ]
Z
Z
K · dx +
=
γx
K · dx
[x;x+tei ]
wobei [x; x + tei ] das Segment zwischen x und x + tei bezeichnet. Hier wählen wir t so
klein, dass das Segment [x; x + tei ] in U enthalten ist (das ist natürlich möglich, weil U
offen ist). Wir parametrisieren das Segment [x; x + tei ] durch die Kurve γ : [0; t] → U ,
definiert durch γ(s) = x + sei . Dann ist γ 0 (s) = ei , und damit
Z
Z t
Z t
K · dx =
K(x + sei ) · ei ds =
Ki (x + sei )ds
[x;x+tei ]
0
0
88
wobei Ki die i-te Komponente vom Vektorfeld K bezeichnet. Nach dem Hauptsatz der
Integralrechnung, finden wir
Z
d
d t
Ki (x + sei )ds = Ki (x + tei )|t=0 = Ki (x)
ϕ(x + tei )|t=0 =
dt
dt 0
t=0
Damit ist ∇ϕ(x) = K(x), wie behauptet.
Sei nun U nicht zusammenhängend. Aus Lemma 3.41 finden wir eine Familie Ui
von disjunkten zusammenhängenden offenen Mengen in Rn , mit U = ∪i Ui . Für jede i
können wir dann wie oben eine stetig differenzierbare Funktion ϕi : Ui → R konstruieren,
mit ∇ϕi (x) = K(x) für alle x ∈ Ui . Da die Teilmengen disjunkt sind, könenn wir
ϕ : U → R durch ϕ(x) := ϕi (x) für alle x ∈ Ui definieren. Dann ist ϕ wohldefiniert,
stetig differenzierbar, mit ∇ϕ(x) = K(x) für alle x ∈ U .
Satz 3.42 zeigt, zusammen mit Satz 3.38, dass für jedes konservative Vektorfeld
K : U → Rn , eine Potentialfunktion ϕ : U → R gefunden werden kann, mit K = ∇ϕ
und deswegen, mit
Z
K · dx = ϕ(Endpunkt) − ϕ(Anfangspunkt)
γ
Das bedeutet, für jedes konservative Vektorfeld kann man ein Potential einführen, so
dass geleistete Arbeit = Unterschied im Potential (die Energie ist erhalten). Bemerke,
dass die Potentialfunktion immer nur bis auf eine additive Konstante bestimmt ist.
Charakterisierung von konservativen Vektorfeldern. Wir haben bis jetzt bewiesen,
dass jedes konservative Vektorfeld ein Gradientenfeld ist. Die nächste natürliche Frage
ist, wie könenn wir entscheiden, ob ein gegebenes Vektorfeld ein Gradientenfeld ist oder
nicht. Es ist sehr einfach, notwendige Bedingungen zu finden. Ist K = ∇ϕ, so muss
gelten
∂Kj
∂Ki
∂2ϕ
∂2ϕ
(x) =
(x) =
(x) =
(x)
(64)
∂xj
∂xj ∂xi
∂xi ∂xj
∂xi
für alle 1 ≤ i < j ≤ n (die Bedingungen sind symmetrisch bzg. Änderung i → j, j → i).
Hier bezeichnet Ki die i-te Komponente vom Vektorfeld K. Ein Vektorfeld K mit der
Eigenschaft (64) heisst rotationfrei (manchmal geschlossen). Im nächsten Satz beweisen
wir, dass diese Bedingungen nicht nur notwendig, sondern auch hinreichend sind, falls
das Vektorfeld auf einer konvexen offenen Menge definiert und differenzierbar ist.
Satz 3.43. Sei U ⊂ Rn offen und konvex (d.h. es gelte λx + (1 − λ)y ∈ U , für alle
x, y ∈ U und λ ∈ [0; 1]). Sei K ∈ C 1 (U ; Rn ). Dann existiert ϕ ∈ C 1 (U ) mit K = ∇ϕ
genau dann, wenn
∂Kj
∂Ki
(x) =
(x)
(65)
∂xj
∂xi
für alle 1 ≤ i < j ≤ n und alle x ∈ U . Das impliziert, K ist genau dann konservativ,
wenn (65) erfüllt ist.
89
Beweis: O.B.d.A. nehmen wir an, 0 ∈ U . Für jede x ∈ U ist dann das Segment [0; x] =
{tx : t ∈ [0; 1]} in U enthalten (weil U konvex ist). Deswegen können wir eine Funktion
ϕ : U → R durch
Z
1
K(tx) · xdt
ϕ(x) =
0
definieren. Da K ∈ C 1 (U ; Rn ), folgt aus Satz 3.31, dass ϕ ∈ C 1 (U ; R), mit
!
!
Z 1
Z 1
n
n
X
X
∂ϕ
∂
∂Ki
Kj (tx) +
(x) =
txi dt
Ki (tx)xi dt =
∂xj
∂xj
0 ∂xj
0
(66)
i=1
i=1
Anderseits, bemerken wir, dass
n
n
i=1
i=1
X ∂Ki
X ∂Kj
d
(tx)txi = Kj (tx) +
(tx)txi
(tKj (tx)) = Kj (tx) +
dt
∂xi
∂xj
In der letzten Gleichung haben wir die Bedingung ∂Kj /∂xi = ∂Ki /∂xj benutzt. Vergleich mit (66) gibt
Z 1
∂ϕ
d
(x) =
(tKj (tx)) dt = Kj (x) .
∂xj
dt
0
Beispiel: Sei K(x, y) = (y 2 , 2xy + y 2 ). Wir suchen eine Funktion ϕ : R2 → R mit
∇ϕ = K. Wir bemerken zunächst, dass
∂K1
∂K2
= 2y =
∂y
∂x
Das heisst, es existiert eine Potentialfunktion ϕ mit ∇ϕ = K. Sie muss erfüllen, dass
∂ϕ
= y2,
∂x
∂ϕ
= 2xy + y 2
∂y
und
Die erste Gleichung impliziert, dass ϕ(x, y) − xy 2 unabhängig von x sein soll. Damit
können wir ϕ(x, y) = xy 2 + ψ(y) schreiben, für eine geeignete Funktion ψ. Durch Einsetzen in die Gleichung für ∂ϕ/∂y finden wir
2xy + ψ 0 (y) = 2xy + y 2
Das ergibt ψ 0 (y) = y 2 und damit ψ(y) = y 3 /3 + c für eine Konstante c ∈ R. Potentialfunktionen von K haben die Form
ϕ(x, y) = xy 2 +
y3
+ c.
3
Man bemerke, dass die Bedingung (65) nicht auf beliebigen Gebieten hinreichend ist
(sie ist immer notwendig). Das zeigen wir mit dem folgenden Beispiel.
Beispiel: Sei
−x2
x1
K(x1 , x2 ) =
;
x21 + x22 x21 + x22
90
definiert auf der offenen Menge R2 \{0}. Dann gilt
∂K2
∂K1
−x2 + x2
(x) = 2 1 2 22 =
(x)
∂x2
∂x1
(x1 + x2 )
für alle x ∈ R2 \{0}. Sei aber γ : [0.2π] → R2 definiert durch γ(t) = (cos t, sin t) der
Einheitskreis (eine geschlossene Kurve auf R2 \{0}. Dann ist
Z
Z
K · dx =
γ
2π
K(cos t, sin t) · (− sin t, cos t)dt = 2π 6= 0
0
Also, K ist sicher nicht konservativ.
Tatsächlich gilt die Äquivalenz
K Gradientfeld ⇐⇒
∂Kj
∂Ki
=
∂xj
∂xi
nicht nur auf konvexen, sondern allgemeiner auf sogenannten einfach zusammenhängenden Gebieten. Ein Gebiet G ⊂ Rn heisst einfach zusammenhängend, wenn jede geschlossene Kurve in G stetig zu einem Punkt deformiert werden kann (wir verzichten
hier auf die genaue Definition dieses Begriffes). Das Gebiet R2 \{0} ist nicht einfach zusammenhängend, weil jede Kurve um den Ursprung nicht stetig innerhalb R2 \{0} zu
einem Punkt deformiert werden kann (bemerke dagegen, dass R3 \{0} einfach zusammenhängend ist).
3.9
Holomorphe Funktionen
In diesem Abschnitt betrachten wir Funktionen einer komplexen Variablen, mit Werten
in C. Bemerke, dass diese Funktionen das Thema der Vorlesung “Einführung in der komplexen Analysis” sind (oft wird diese Vorlesung auch als “Funktionentheorie” genannt);
hier geben wir nur eine kurze Einführung in dieses wichtige Gebiet der Analysis.
Wir wissen, dass C mit R2 identifiziert werden kann. Eine Funktion f : C → C
kann deswegen mit einer Funktion fe : R2 → R2 identifiziert werden, die durch fe(x, y) =
(Re f (x + iy), Im f (x + iy)) definiert wird. Wir werden aber sehen, der Begriff von
Differenzierbarkeit einer Funktion auf C mit Werten auf C, ist nicht mit dem Begriff
von Differenzierbarkeit von Funktionen auf R2 , mit Werten auf R2 äquivalent.
Definition 3.44. Sei Ω ⊂ C offen. Eine Funktion f : Ω → C heisst komplex differenzierbar an der Stelle z0 ∈ Ω, wenn der Grenzwert
f 0 (z0 ) = lim
z→z0
f (z) − f (z0 )
z − z0
existiert. In diesem Fall heisst die Zahl f 0 (z0 ) ∈ C die Ableitung von f an der Stelle z0 .
Die Funktion f heisst auf Ω komplex differenzierbar, falls f an der Stelle z differenzierbar
ist, für alle z ∈ Ω. Die Funktion f heisst holomorph in Ω, wenn sie auf Ω differenzierbar
ist, und falls die Ableitung f 0 (z) auf Ω stetig ist. Die Menge der holomorphen Funktionen
auf Ω wird mit H(Ω) bezeichnet.
91
Bemerkung: Die Funktion f : Ω → C ist genau dann an der Stelle z0 ∈ Ω komplex
differenzierbar, wenn ein a ∈ C existiert, so dass
lim
z→z0
f (z) − f (z0 ) − a(z − z0 )
=0
|z − z0 |
Mit anderen Worten, f ist an der Stelle z0 komplex differenzierbar, falls
f (z0 + h) − f (z0 ) − ah = o(|h|)
für h → 0 (hier ist h ∈ C). Die Abbildung L : C → C definiert durch L(h) = ah ist ein
Beispiel einer komplex linearen Abbildung auf C (weil L(h1 + h2 ) = L(h1 ) + L(h2 ) für
alle h1 , h2 ∈ C und L(αh) = αL(h) für alle α, h ∈ C. Es ist eigentlich einfach zu sehen,
dass jede komplex lineare Abbildung auf C die Form L(h) = ah für ein a ∈ C hat. D.h.
die Funktion f ist genau dann differenzierbar, wenn eine komplex lineare Abbildung
L : C → C existiert, mit der Eigenschaft, dass
f (z0 + h) − f (z0 ) − L(h) = o(|h|)
für h → 0. Das erklärt den Unterschied zum Begriff von Differenzierbarkeit in R2 .
Versehen wir f als die Abbildung fe(x, y) = (Re f (x + iy), Im f (x + iy)), definiert auf
einer offenen Teilmenge von R2 mit Werten in R2 , so ist fe an der Stelle z0 = (x0 , y0 )
genau dann differenzierbar, wenn eine reell lineare Abbildung L : R2 → R2 existiert, so
dass
fe(z0 + h) − fe(z0 ) − L(h) = o(khk)
für h → 0 (hier ist h ∈ R2 ). Während jede komplex lineare Abbildung reel linear ist,
ist nicht jede reel lineare Abbildung komplex linear. Deswegen impliziert die komplexe
Differenzierbarkeit einer Funktion f : Ω → C immer die reelle Differenzierbarkeit von
fe(x, y) = (Re f (x + iy), Im f (x + iy)), aber die Umkehrung ist nicht wahr.
Satz 3.45. Sei Ω ⊂ C offen. Die Funktion f : Ω → C ist genau dann holomorph, wenn
Re f, Im f als Funktionen zweier reeller Variablen auf Ω stetig differenzierbar sind, und
∂
∂
Re f (x + iy) =
Im f (x + iy)
∂x
∂y
und
∂
∂
Re f (x + iy) = −
Im f (x + iy) (67)
∂y
∂x
In diesem Fall gilt
f 0 (z) = ∂x Re f (z) + i∂x Im f (z) = ∂y Im f (z) − i∂y Re f (z)
für alle z ∈ Ω. Diese zwei Bedingungen werden Cauchy-Riemann-Gleichungen genannt.
Beweis: Die stetige Differenzierbarkeit von Re f, Im f impliziert, dass für alle z ∈ Ω,
f (z + h) − f (z) − L(h) = o(khk)
für h → 0, mit der reel linearen Abbildung
L(h1 + ih2 ) = (∂x Re f (z)h1 + ∂y Re f (z)h2 ) + i(∂x Im f (z)h1 + ∂y Im f (z)h2 )
92
Damit f komplex differenzierbar an der Stelle z0 ist, muss L komplex linear sein, d.h.
es muss ein a = (a1 + ia2 ) ∈ C existieren, mit
L(h1 + ih2 ) = (a1 + ia2 )(h1 + ih2 ) = (a1 h1 − a2 h2 ) + i(a1 h2 + a2 h1 )
Koeffizientenvergleich ergibt
a1 = ∂x Re f (z) = ∂y Im f (z)
a2 = −∂y Re f (z) = ∂x Im f (z)
Sind die Cauchy-Riemann-Gleichungen erfüllt, so ist f an der Stelle z komplex differenzierbar, mit Ableitung
f 0 (z) = ∂x Re f (z) + i∂x Im f (z) = ∂y Im f (z) − i∂y Re f (z)
Die Stetigkeit von Re f (z) und Im f (z) impliziert dann, dass f ∈ H(Ω). Die umgekehrte
Implikation folgt einfach aus der Bemerkung, dass jede komplex lineare Abbildung auch
reell linear ist. Damit ist jede komplex differenzierbare Funktion auch reell differenzierbar.
Beispiel: Jedes Polynom f (z) = an z n + · · · + a1 z + a0 in einer komplexen Variablen
ist auf C holomorph. Wie bei Polynomen einer reellen Variablen findet man
f 0 (z) = nan z n−1 + (n − 1)an−1 z n−2 + · · · + a1
Jede rationale Funktion P (z)/Q(z), wobei P, Q Polynome sind, ist holomorph auf C\{z ∈
C : Q(z) = 0}. Die Exponentialfunktion
f (z) = exp(z) ist auf C holomorph, mit
P∞
0
z
f (z) = e . Jede Potenzreihe f (z) = n=0 an (z − z0 )n ist innerhalb ihres Konvergenzradius komplex differenzierbar. Das folgt, weil die Potenzreihe gleichmässig innerhalb des
Konvergenzradius konvergiert. Das impliziert, aus Prop. 8.29 in Analysis 1, dass man
die Ableitung und den Grenzwert vertauschen kann. Genauer gesagt, gilt Prop. 8.29
nur für die Ableitung nach einer reellen Variablen. Trotzdem, kann man Prop. 8.29 benutzten, um die partiellen Ableitungen von Re f, Im f nach x = Re z und y = Im z zu
berechnen. Dann kann man leicht sehen, dass die partiellen Ableitungen stetig sind und
dass sie die Cauchy-Riemann-Gleichungen erfüllen. Damit folgt auch, dass f komplex
differenzierbar ist.
Die Funktion f (z) = |z|2 ist a.d.S. z0 ∈ C nicht differenzierbar, für alle z0 ∈ C\{0}.
In der Tat f (x + iy) = x2 + y 2 = Re f (x + iy). Deswegen ist ∂x Im f = ∂y Im f ≡ 0
während
∂x Re f (x + iy) = 2x, und ∂y Im f (x + iy) = 2y
Die Cauchy-Riemann-Gleichungen sind nur an der Stelle x = y = 0 erfüllt.
Die Eigenschaften der komplexen Ableitung sind ähnlich denen der entsprechenden
Eigenschaften der Ableitung auf R.
Proposition 3.46. Sei Ω ⊂ C offen, f, g : Ω → C an der Stelle z ∈ Ω komplex
differenzierbar. Dann
i) f + g und f g sind ebenfalls an der Stelle z komplex differenzierbar, mit
(f + g)0 (z) = f 0 (z) + g 0 (z),
und
93
(f g)0 (z) = f 0 (z)g(z) + f (z)g 0 (z)
ii) Ist g(z) 6= 0, so ist auch f /g an der Stelle z komplex differenzierbar, mit
(f /g)0 (z) =
f 0 (z)g(z) − f (z)g 0 (z)
g 2 (z)
iii) Sei U ⊂ C offen und h : U → C an der Stelle f (z) ∈ U komplex differenzierbar.
Dann ist h ◦ f an der Stelle z komplex differenzierbar und
(h ◦ f )0 (z) = h0 (f (z))f 0 (z)
Die Beweise sind den entsprechenden Beweisen in Analysis 1 sehr ähnlich.
Wir definieren nun den Begriff von Linienintegralen einer Funktion f : C ⊃ Ω → C
entlang einer stückweise stetig differenzierbaren Kurve γ.
Definition 3.47. Sei Ω ⊂ C offen, f : Ω → C stetig und γ eine stückweise stetig
differenzierbare Kurve auf Ω (d.h. γ : [a; b] → Ω ist stetig und es existiert eine endliche
Teilung a = t0 < t1 < · · · < tn = b mit γ ∈ C 1 ([tj−1 ; tj ]; Ω) für alle j = 1, . . . , n). Dann
definieren wir das Linien- oder Wegintegral von f entlang γ durch
Z
f (z)dz =
γ
n Z
X
j=1
tj
f (γ(t))γ 0 (t)dt
tj−1
Bemerkung: Das Linienintegral einer stetigen komplexen Funktion f : C ⊃ Ω → C entlang einer stückweise stetig differenzierbaren Kurve γ : [a; b] → Ω ist unabhängig von der
Parametrisierung von γ. Sei nämlich ψ : [c; d] → [a; b] stückweise stetig differenzierbar
und γ
e : [c; d] → Ω definiert durch γ
e(t) = γ(ψ(t)). Dann gilt
Z
Z
f (z)dz = f (z)dz
γ
e
γ
Das kann man ähnlich wie in Proposition 3.37 zeigen, weil
Z
tj
0
Z
0
ψ(tj )
f (γ(ψ(t)))γ (ψ(t))ψ (t)dt =
tj−1
f (γ(s))γ 0 (s)ds
ψ(tj−1 )
mit der Variablentransformation s = ψ(t).
Das Linienintegral von f entlang γ ist eine komplexe Zahl. Ausgedruckt durch Realund Imaginärteil von f und γ, ist es durch
Z
b
Re f (γ(t))Re γ 0 (t) − Im f (γ(t))Im γ 0 (t)
a
+i Re f (γ(t))Im γ 0 (t) + Im f (γ(t))Re γ 0 (t) dt
gegeben (unter der Annahme, dass γ ∈ C 1 ([a; b]; Ω), sonst muss man das Intervall
in eine geeignete Teilung zerlegen). Wir können f : C ⊃ Ω → C auch als Funktion
fe(x, y) = (Re f (x + iy), Im f(x + iy)) interpretieren. fe ist ein Vektorfeld, definiert auf
94
einer Teilmenge von R2 . Wir haben das Linienintegral eines Vektorfeldes schon in Sektion 3.8 definiert. Das Linienintegral von fe, versehen als Vektorfeld auf R2 , entlang γ
ist aus
Z
Z b
Z b
0
e
e
Re f (γ(t))Re γ 0 (t) + Im f (γ(t))Im γ 0 (t)dt
f · dx =
f (γ(t)) · γ (t)dt =
γ
a
a
unter der Annahme, dass γ ∈ C 1 ([a; b]; Ω) ist, gegeben. Das Linienintegral vom Vektorfeld fe ist also nicht dasselbe, wie das Linienintegral der komplexen Funktion f . Dagegen
gilt
Z
Z
Re
f (z)dz = (Re f, −Im f ) · dx
γ
γ
Z
Z
f (z)dz = (Im f, Re f ) · dx
Im
γ
γ
Man bemerke, dass die Cauchy-Riemann-Gleichungen äquivalent mit der Tatsache sind,
dass die zwei Vektorfelder (Re f, −Im f ) und (Im f, Re f ) rotationsfrei sind. Aus dieser
Bemerkung folgt: Ist f holomorph auf einem konvexen Ω ⊂R C, und ist γ eine geschlossene
stückweise stetig differenzierbare Kurve auf Ω, dann gilt γ f (z)dz = 0.
Satz 3.48. Sei Ω ⊂ C offen, f ∈ H(Ω), a < b, γ, γ
e : [a; b] → Ω geschlossene und
stückweise stetig differenzierbare Kurven auf Ω, so dass se
γ (t) + (1 − s)γ(t) ∈ Ω für alle
s ∈ [0; 1] und t ∈ [a; b] (das ist sicher der Fall, wenn Ω konvex ist). Dann gilt
Z
Z
f (z)dz = f (z)dz
γ
γ
e
Beweis: Um den Beweis zu vereinfachen nehmen wir an γ, γ
e ∈ C 1 ([a; b]) (sonst muss
man das Intervall [a; b] mit einer geeigneten Teilung zerlegen). Sei φ : [0, 1] × [a; b] → Ω,
definiert durch
φ(s; t) = se
γ (t) + (1 − s)γ(t)
Wir setzen
Z
g(s) :=
Z
b
f (z)dz =
φ(s,.)
Z
b
f (φ(s, t))∂t φ(s, t)dt =
a
ψ(s, t)dt
a
mit ψ : [0, 1] × [a; b] → C definiert durch
ψ(s, t) = f (φ(s, t))∂t φ(s, t)
Dann gilt
Z
g(0) =
Z
f (z)dz,
und
γ
g(1) =
f (z)dz
γ
e
Wir möchten zeigen, dass g(0) = g(1). Wir bemerken, dass ψ stetig ist und dass
∂s ψ(s, t) = f 0 (φ(s, t))(e
γ (t) − γ(t))∂t φ(s, t) + f (φ(s, t))∂t (e
γ (t) − γ(t))
= ∂t [f (φ(s, t))(e
γ (t) − γ(t))]
95
auch stetig ist. Deswegen können wir Satz 3.31 anwenden. Wir erhalten
Z b
Z b
∂t [f (φ(s, t))(e
γ (t) − γ(t))]
∂s ψ(s, t)dt =
g 0 (s) =
a
a
= f (φ(s, b))(e
γ (b) − γ(b)) − f (φ(s, a))(e
γ (a) − γ(a)) = 0
weil γ(a) = γ(b) und γ
e(a) = γ
e(b) und also auch φ(s, a) = φ(s, b) für alle s ∈ [0, 1].
Falls im letzten Satz Ω ⊂ C auch konvex ist, so wissen wir schon, dass
Z
Z
f (z)dz = f (z)dz = 0
γ
γ
e
Satz 3.48 ist aber wichtig, weil er auch für nicht konvexe Ω gilt. Als Anwendung dieses
Satzes sei Ω ⊂ C eine offene konvexe Menge und w ∈ Ω. Sei weiter f holomorph auf
der nicht konvexen (und nicht einfach zusammenhängenden) Menge Ω\{w}. f kann
aber in w eine Singularität haben. Deswegen ist das Linienintegral von f entlang einem
geschlossenen Kreis um w im Allgemeinen nicht Null. Der Satz besagt aber, dass das
Linienintegral entlang jedem Kreis (oder jede einfache gesclossene Kurve) um w (mit
genügend kleinem Radius) immer denselben Wert hat. Diese Bemerkung benutzen wir
im nächsten wichtigen Satz.
Satz 3.49. Sei Ω ⊂ C offen, f ∈ H(Ω), x ∈ Ω und r ∈ (0, ∞) so klein, dass B r (x) =
{z ∈ C : |z − x| ≤ r} ⊂ Ω. Dann gilt, für alle w ∈ Br (x) = {z ∈ C : |z − x| < r},
Z
1
f (z)
f (w) =
dz .
2πi γx,r z − w
Hier bezeichnet γx,r : [0, 2π] → C die parametrisierte Kurve γx,r (t) = x + reit (das ist
der Kreis mit Radius r um x, parametrisiert im Gegenuhrzeigersinn).
Beweis: Sei 0 < ρ < r − |w − x|. Dann gilt B ρ (w) ⊂ Br (x) Ähnlich wie für γx,r ,
betrachten wir den Kreis γw,ρ (t) = w + ρeit mit Radius ρ um w. Dann gilt, für alle
s ∈ [0; 1] und alle t ∈ [0; 2π],
φ(s, t) = sγx,r (t) + (1 − s)γw,ρ (t) ∈ B x,r \Bw,ρ ⊂ Ω\{w}
Das folgt, weil Bx,r konvex ist und weil
|φ(s, t) − w| = |s(x + reit ) + (1 − s)(w + ρeit ) − w|
= |s(x − w + (r − ρ)eit ) + ρeit |
= |ρ + s((x − w)e−it + (r − ρ))|
≥ ρ + s(Re (x − w)e−it + (r − ρ)) > ρ
Satz 3.48 impliziert also, dass
Z
Z
f (z)
f (z)
dz =
dz
γw,ρ z − w
γx,r z − w
Z 2π
Z 2π
f (w + ρeit ) it
=
iρe
dt
=
i
f (w + ρeit )
it
ρe
0
0
96
Deswegen
1
2πi
Z
γx,t
f (z)
1
dz =
z−w
2π
Z
2π
f (w + ρeit )dt
0
Da diese Formel für beliebige ρ > 0 klein genug gilt, gilt sie auch im Limes ρ → 0. Wir
finden
Z
Z 2π
1
f (z)
1
f (w + ρeit )dt = f (w)
dz = lim
ρ→0 2π 0
2πi γx,t z − w
weil f (w + ρeit ) → f (w) für ρ → 0, gleichmässig in t ∈ [0; 2π] (das kann z.B. durch
Verwendung der Mittelwertabschätzung gezeigt werden).
Satz 3.49 gibt eine Darstellung von f (w) durch ein Integral einer Funktion, die auf
dem Kreis γx,r stetig und differenzierbar ist. Das erlaubt uns, die Ableitung von f an
der Stelle w zu berechnen, indem wir das Integrand nach w differenzieren.
Satz 3.50. Sei Ω ⊂ C offen, f ∈ H(Ω). Dann ist f auf Ω beliebig oft komplex differenzierbar. Falls w ∈ Br (x) und B r (x) ⊂ Ω gilt
Z
n!
f (z)
(n)
f (w) =
dz
2πi γx,r (z − w)n+1
wobei γx,r (t) = x + reit der Kreis mit Radius r um x, parametrisiert im Gegenuhrzeigersinn, ist.
Beweis: Aus Satz 3.49 finden wir
Z
Z 2π
1
f (z)
1
f (x + reit )
f (w) =
dz =
dt
2πi γx,r z − w
2πi 0 x − w + reit
Das Integrand ist nach w differenzierbar. Aus Satz 3.31 können wir Ableitung und
Integral vertauschen. Wir bekommen
Z
1
f (z)
f 0 (w) =
(68)
2πi γx,r (z − w)2
Genauer gesagt, kann man Satz 3.31 nur für reelle Ableitungen anwenden. Man kann aber
Satz 3.31 anwenden, um die partiellen Ableitungen ∂w1 Re f (w1 + iw2 ), ∂w2 Re f (w1 +
iw2 ), ∂w1 Im f (w1 + iw2 ) und ∂w2 Im f (w1 + iw2 ) zu berechnen. Es ist dann einfach zu
sehen, dass die Cauchy-Riemann-Gleichungen erfüllt sind, und dass f 0 (w) in der Tat aus
(68) gegeben ist (einfach weil die Funktion (w −z)−1 auf γx,r komplex differenzierbar ist,
und Cauchy-Riemann-Gleichungen erfüllt). Aus (68) kann man dann analog die zweite
Ableitung f 00 (z) berechnen. Induktiv, findet man
Z
f (z)
n!
(n)
dz .
f (w) =
2πi γx,r (z − w)n
Es folgt aus dem letzten Satz, dass eine holomorphe Funktion automatisch beliebig
oft komplex differenzierbar ist. Wir sehen, dass komplexe Differenzierbarkeit ein viel
stärkerer Begriff, als reelle Differenzierbarkeit ist. Das hat viele wichtige Folgerungen
und Anwendungen.
97
Proposition 3.51. Sei Ω ⊂ C offen und f : Ω → C holomorph. Dann sind Re f, Im f
harmonische Funktionen auf Ω, d.h.
∆Re f (z) = 0,
∆Im f (z) = 0
für alle z ∈ Ω.
Beweis: Es folgt aus Satz 3.50, dass Re f, Im f beliebig oft differenzierbar sind. Aus den
Cauchy-Riemann-Gleichungen (67) folgt, dass
∂x2 Re f (z) = ∂x ∂y Im f (z) = ∂y ∂x Imf (z) = −∂y2 Re f (z)
Deswegen gilt
∆Re f (z) = ∂x2 Re f (z) + ∂y2 Im f (z) = 0
Analog zeigt man, dass ∆Im f = 0.
Die letzte Proposition zeigt, dass Real- und Imaginärteil einer holomorphen Funktion
immer harmonisch sind. Anderseits kann man zeigen, dass jede harmonische Funktion
auf einer konvexen Teilmenge von R2 der Realteil (oder der Imaginärteil) einer holomorphen Funktion ist.
Proposition 3.52. Sei Ω ⊂ C offen und konvex, u ∈ C 2 (Ω) (hier wird Ω als Teilmenge
von R2 versehen) mit ∆u = 0. Dann existiert v ∈ C 2 (Ω), so dass u + iv ∈ H(Ω).
Beweis: Wir definieren das Vektorfeld g : Ω → R2 durch g(x, y) = (−∂y u(x, y), ∂x u(x, y)).
Dann gilt
∂y g1 (x, y) = −∂y2 u(x, y) = ∂x2 u(x, y) = ∂x g2 (x, y)
weil ∆u = 0. Damit ist g auf Ω rotationsfrei. Es folgt aus Satz 3.43, dass eine Potentialfunktion für g existiert. D.h. es existiert v ∈ C 1 (Ω) mit g(x, y) = (∂x v(x, y), ∂y v(x, y)).
Dann ist es leicht zu sehen, dass f = u + iv die Cauchy-Riemann-Gleichungen erfüllt.
Damit ist f holomorph und v harmonisch.
Eine wichtige Folgerung dieser Charakterisierung von harmonischen Funktionen ist
das folgende Korollar.
Korollar 3.53. Sei Ω ⊂ R2 offen und konvex (einfach zusammenhängend ist genug)
und u ∈ C 2 (Ω) harmonisch (d.h. ∆u = 0). Dann ist u beliebig oft differenzierbar.
Eine andere wichtige Anwendung von Satz 3.50 ist der Satz von Liouville
Satz 3.54 (Liouville). Sei f ∈ H(C) beschränkt. Dann ist f konstant.
Beweis: Sei M = supz∈C |f (z)|. Aus Satz 3.49 folgt, dass
Z
Z 2π
1
f (z)
1
f (reit ) it
0
f (w) =
=
re dt
2πi γ0,r (z − w)2
2π 0 reit − w
für alle r > |w|. Deswegen
|f 0 (w)| ≤
M
2π
Z
0
2π
|reit
98
r
Mr
≤
2
− w|
(r − |w|)2
Da r > |w| beliebig ist, finden wir
Mr
=0
r→∞ (r − |w|)2
|f 0 (w)| ≤ lim
Also f 0 (w) = 0 für alle w ∈ C. Das impliziert, dass f konstant ist.
Der Fundamentalsatz der Algebra folgt einfach aus dem Satz von Liouville.
Satz 3.55 (Fundamentalsatz der Algebra). Jedes Polynom von Grad p ≥ 1 besitzt
mindestens eine Nullstelle in C.
Beweis: Sei P ein Polynom von Grad p ≥ 1, mit P (z) 6= 0 für alle z ∈ C. Dann ist 1/P (z)
eine holomorphe Funktion auf C (man spricht von einer ganzen Funktion). Ferner, da für
jede M > 0, R mit |P (z)| > M für alle z ∈ C mit |z| > R, existiert, schliessen wir, dass
1/P (z) beschränkt auf C ist. Aus Satz 3.54 folgt, dass 1/P (z) eine konstante Funktion
ist. Das impliziert auch, dass P (z) konstant ist, in Wiederspruch zu der Annahme, dass
P (z) ein Polynom von Grad p ≥ 1 ist.
Tatsächlich sind holomorphe Funktionen auf einem offenen Gebiet Ω ⊂ C nicht nur
beliebig oft komplex differenzierbar, sondern sogar analytisch auf Ω. Der Begriff von
analytischer Funktion ist hier genau wie für Funktionen auf R definiert.
Definition 3.56. Sei Ω ⊂ C offen, f : Ω → C. Die Funktion f ist an der Stelle z0 ∈ Ω
analytisch, falls ein r > 0 und eine Folge an existieren, so dass
f (z) =
∞
X
an (z − z0 )n
n=0
für alle z ∈ Br (z0 ) = {w ∈ C : |z0 − w| < r}. f heisst analytisch auf Ω, wenn f
analytisch an der Stelle z0 ist, für alle z0 ∈ Ω.
Wie für reelle Funktionen zeigt man, dass analytische Funktionen
P beliebig oft differenzierbar sind. Das folgt aus der Tatsache, dass eine Potenzreihe n≥0 an (z − z0 )n mit
Konvergenzradius r, für alle r0 < r, auf B r0 (z0 ) = {z ∈ C : |z − z0 | ≤ r0 } gleichmässig
konvergent ist. Deswegen kann man Summe und Ableitung vertauschen; siehe Analysis
1, Proposition 8.29 (siehe auch das Argument in den Beispielen unter Satz 3.45 um
Prop. 8.29 aus Analysis 1 für komplexe Ableitungen zu benuzten). Induktiv zeigt man,
dass f beliebig oft differenzierbar ist. Die Umkehrung gilt für reelwertige Funktionen
auf U ⊂ R i.A. nicht. D.h. es existieren Funktionen f : R → R, die unendlich oft differenzierbar sind, aber nicht analytisch. Das ist bei komplex differenzierbaren Funktionen
nicht möglich. Jede holomorphe Funktion ist automatisch analytisch.
Satz 3.57. Sei Ω ⊂ C, f ∈ H(Ω), z0 ∈ Ω. Sei r > 0 so klein, dass B r (z0 ) = {z ∈ C :
|z − z0 | ≤ r} ⊂ Ω. Dann gilt, für alle z ∈ Br (z0 ) = {z ∈ C : |z − z0 | < r},
f (z) =
∞
X
f (n) (z0 )
n=0
n!
Insbesondere ist f analytisch auf Ω.
99
(z − z0 )n
Beweis: Für z ∈ Br (z0 ) schreiben wir
f (z) =
1
2πi
Z
γz0 ,r
f (w)
dw
w−z
wobei γz0 ,r (t) = z0 + reit , t ∈ [0; 2π], der Kreis von Radius r um z0 ist, parametrisiert
im Gegenuhrzeigersinne. Weiter, für w ∈ γz0 ,r ([0; 2π]) gilt
1
1
1
1
=
=
z−z0
w−z
w − z0 + z0 − z
w − z0 1 − w−z
0
Da |z − z0 | < |w − z0 | = r, finden wir
∞
∞
X
1
1 X (z − z0 )n
(z − z0 )n
=
=
w−z
w − z0
(w − z0 )n
(w − z0 )n+1
n=0
n=0
wobei die Summe für w ∈ γz0 ,r gleichmässig konvergiert. Deswegen können wir Integral
und Summe vertauschen und bekommen
Z
Z
∞
X
1
f (w)
1
f (w)
f (z) =
dw =
(z − z0 )n
2πi γz0 ,r w − z
2πi γz0 ,r (w − z0 )n+1
n=0
Aus Satz 3.50 erhalten wir
f (z) =
∞
X
f (n) (z0 )
n=0
n!
(z − z0 )n .
Wie wir schon bei der Untersuchung von analytischen Funktionen auf R diskutiert
haben, hat die Analytizität wichtige Folgerungen. Z.B. gilt der folgende Identitätssatz.
Satz 3.58 (Identitätssatz). Sei U ⊂ C eine nichtleere offene und zusammenhängende
Teilmenge von C und seien f, g holomorph auf U . Dann sind die folgenden Aussagen
äquivalent.
i) f (z) = g(z) für alle z ∈ U .
ii) Die Menge {z ∈ U : f (z) = g(z)} enthält unendlich viele Punkte und besitzt einen
Häufungspunkt in U .
iii) Es gibt ein z0 ∈ U , so dass f (n) (z0 ) = g (n) (z0 ) für alle n ≥ 0.
Beweis: Die Implikationen i)⇒ ii) und i)⇒ iii) sind trivial. Wir zeigen ii)⇒ iii) und
iii)⇒i).
ii) ⇒ iii): Sei h = f − g und z0 ∈ U ein Häufungspunkt der Menge M = {z ∈ U :
h(z) = 0}. Wir behaupten, dass h(n) (z0 ) = 0 für alle n ∈ N. Nehmen wir an, es existiert
m ∈ N mit h(m) (z0 ) 6= 0. Sei m der kleinste Index mit dieser Eigenschaft. Dann, aus
Satz 3.57, gibt es eine Umgebung G von z0 und eine auf G holomorphe Funktion ϕ mit
ϕ(z0 ) 6= 0 und
h(z) = (z − z0 )m ϕ(z)
100
für alle z ∈ G. Aus Stetigkeit von ϕ gilt also ϕ(z) 6= 0 in einer Umgebung von z0 .
Damit ist auch h(z) 6= 0 für alle z 6= z0 in einer Umgebung von z0 . D.h. z0 ist kein
Häufungspunkt von M , in Widerspruch zur Annahme.
iii)⇒ i): Sei h = f − g und Sk = {z ∈ U : h(k) (z) = 0}. Da h(k) stetig ist, ist Sk
geschlossen, für alle k ∈ N. Damit ist auch S := ∩k≥0 Sk abgeschlossen. Wir behaupten
nun, S ist auch offen, als Teilmenge von U . Für z0 ∈ S beliebig, können wir die holomorphe Funktion h in einer Potenzreihe um z0 entwicklen. Das zeigt, dass h(z) = 0 in
einer offenen Umgebung von z0 . Für jede z0 ∈ S existiert also ε > 0, so dass Bε (z0 ) ⊂ S.
Da U zusammenhängend ist, muss entweder S = U oder S = ∅ gelten. Die Annahme
iii) impliziert, dass S = U .
Bemerkung: Sei U ⊂ C und I ⊂ R ein Intervall mit I ⊂ U . Sei f eine beliebige
Funktion auf I. Dann gibt es höchstens eine auf U holomorphe Funktion, die auf I mit
f übereinstimmt.
Die komplexe Analysis ist manchmal nützlich, um gewisse bestimmte Integrale von
Funktionen auf R zu berechnen. Wir betrachten zwei Beispiele.
Besipiel: wir möchten das uneigentliche Integral
Z ∞
sin x
dx
x
0
berechnen. Wir wissen aus Analysis 1, dass das Integral konvergiert. Um den Wert
des Integrales zu berechnen, betrachten wir die Funktion f (z) = eiz /z, die auf C\{0}
holomorph ist. Wir definieren weiter die stückweise stetig differenzierbare Kurve γ :
[0; 4] → C durch

r + (R − r)t,
falls t ∈ [0; 1]



iπ(t−1)
Re
,
falls t ∈ [1; 2]
γ(t) =
−R
+
(R
−
r)(t
−
2),
falls t ∈ [2; 3]


 iπ(4−t)
re
,
falls t ∈ [3; 4]
Dann gilt, mit Satz 3.48,
Z
f (z)dz = 0
γ
weil wir γ
e(t) = i für alle t können, Rund dann φ(s, t) = sγ(t) + (1 − s)e
γ (t) ∈ C\{0}, wo
f holomorph ist (und natürlich ist γe f (z)dz = 0). Es folgt, dass
Z
R
Z
−r
f (x)dx = −
f (x)dx +
r
Z
−R
π
it
it
Z
f (Re )iRe dt +
0
π
f (reit )ieit dt
0
Auf der linke Seite, haben wir
Z R
Z ∞
Z R ix
e − e−ix
sin x
sin x
dx = 2i
dx → 2i
dx
x
x
x
r
r
0
für r → 0 und R → ∞. Auf der rechten Seiten von (69) haben wir dagegen
Z π
Z π
it
f (reit )ireit dt = i
eire dt → iπ
0
0
101
(69)
für r → 0, weil exp(ir exp(it)) → 1 gleichmässig, da r → 0 (und deswegen dürfen wir
Limes und Integral vertauschen). Anderseits betrachten wir
Z π
Z π
it
it
it
eiRe dt
f (Re )iRe dt = i
0
0
Also
Z
π
0
it
e−R sin t dt
0
Für ein beliebiges ε > 0, gilt
Z π
Z ε
Z
it
it
−R sin t
≤
f
(Re
)iRe
dt
e
dt
+
0
π
Z
f (Re )iRe dt ≤
it
0
π−ε
e−R sin t +
ε
Deswegen
π
Z
lim R→∞
π
Z
e−R sin t ≤ 2ε + πe−R sin ε
π−ε
f (Re )iRe dt ≤ 2ε
it
0
it
für beliebiges ε > 0. Es folgt, dass
π
Z
lim R→∞
f (Re )iRe dt = 0
it
0
it
und deswegen, aus (69), bekommen wir im Limes R → ∞, r → 0,
Z ∞
sin x
2i
dx = iπ
x
0
Das ergibt
Z
∞
0
sin x
π
= .
x
2
Beispiel: das Gausssche Integral. Wir möchten das Integral
Z ∞
2
e−x dx
−∞
berechnen. Wir setzen a =
p
π/2(1 + i) und betrachten das komplexe Linienintegral
Z
γR
2
e−z
dz
1 + e−2az
wobei, für R > 0, γR das Parallelogramm ist, mit den Eckpunkten −R, R, R + a, −R + a.
Wir zerlegen γR = γ1,R + γ2,R + γ3,R + γ4,R , wobei γ1,R = [−R; R], γ2,R = [R; R + a],
γ3,R = [R + a; −R + a] und γ4,R = [−R + a; −R] ist. Sei γ2,R (t) = R + ta, t ∈ [0; 1] eine
Parametrisierung des Segmentes γ2,R . Dann gilt
Z
γ2,R
2
e−z
dz =
1 + e−2az
Bemerke, dass
Re (R + ta)2 = R2 +
1
Z
0
√
2
e−(R+ta)
adt
1 + e−2a(R+ta)
2πtR ≥ R2 −
102
√
2πR
(70)
weil a2 = iπ, und t ∈ [0; 1]. Deswegen ist
2
2
|e−(R+ta) | = e−Re (R+ta) ≤ e−(R
2−
√
2πR)
≤ e−R
2 /2
falls R gross genug ist. Anderseits
√
1 + e−2a(R+ta) = 1 + e−2aR e−2πit = 1 + e−
√
2πR −i(2πt+ 2πR)
e
und damit
√
√
√
2πR))2 + e−2 2πR sin2 (2πt −
√
√
√
= 1 + e−2 2πR + 2e− 2πR cos(2πt − 2πR)
|1 + e−2a(R+ta) |2 = (1 + e−
≥ (1 − e−
√
2πR
cos(2πt −
√
2πR)
2πR 2
) ≥ 1/2
für R gross genug. Aus (70) finden wir also, dass
Z
2
e−z
2
dz
≤ Ce−R /2 → 0
−2az
γ2,R 1 + e
für R → ∞. Analog kann man zeigen, dass
Z
2
e−z
dz
→0
γ4,R 1 + e−2az für R → ∞. Anderseits,
Z
γ1,R
2
e−z
dz +
1 + e−2az
2
Z
γ3,R
Z R
2
2
e−t
e−(t+a)
dt −
dt
−2at
−2a(t+a)
−R 1 + e
−R 1 + e
#
Z R"
2
2
e−t
e−t −2at
=
+
−2at
1 + e−2at
−R 1 + e
Z R
2
=
e−t dt
e−z
dz =
1 + e−2az
Z
R
−R
Wir erhalten, dass
Z
∞
e
−t2
Z
dt = lim
R→∞ γR
−∞
2
e−z
dz
1 + e−2az
2
Die Funktion f (z) = e−z /(1 + e−2az ) ist überall holomorph, ausser in den Punkten
z ∈ C mit e−2az = −1. Man findet, f ist auf C\{a(n + 1/2) : n ∈ Z} holomorph.
Die einzige Singularität von f innerhalb der von γR berandeten Menge ist im Punkt
z0 = a/2. Deswegen, für r > 0 klein genug,
Z
γR
2
e−z
dz =
1 + e−2az
Z
γa/2,r
103
2
e−z
dz
1 + e−2az
wobei γa/2,r der Kreis von Radius r um a/2, parametrisiert im Gegenuhrzeigersinn,
ist. Für r klein genug, können wir den Nenner in einer Taylorreihe um den Punkt a/2
entwickeln. Wir finden
1 + e−2az = 1 − e−2a(z−a/2)
X (−2a)n
=
(z − a/2)n
n!
n≥1


X (−2a)n−1
(z − a/2)n−1 
= −2a(z − a/2) 1 +
n!
n≥2
=: −2a(z − a/2)g(z)
für eine analytische Funktion g, definiert in einer Umgebung von a/2, mit g(a/2) = 1.
2
Da g(a/2) 6= 0 ist,
ist auch h(z) = e−z /g(z) eine analytische Funktion, mit h(a/2) =
√
e−iπ/4 = (1 − i)/ 2. Also, aus Satz 3.49, finden wir, nach einer kleinen Rechnung,
Z
γR
2
e−z
dz =
1 + e−2az
2
e−z
dz
1 + e−2az
Z
γa/2,r
1
=−
2a
=−
Z
γa/2,r
(2πi)h(a/2) √
= π
2a
Wir haben damit bewiesen, dass
Z
∞
h(z)
dz
z − a/2
2
e−x dx =
−∞
104
√
π.

Skript zur Vorlesung Analysis 2

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können