Scriptum zur Vorlesung Analysis II

Werbung
Scriptum zur Vorlesung
Analysis II
Prof. W. Hoffmann
Universität Bielefeld
WS 2011/12
Index
ε-Netz, 33
Überdeckung, 29
äquivalente Metriken, 38
äquivalente Normen, 6
Gradient, 56
Grenzwert einer Abbildung, 17
Grenzwert einer Folge, 8
Häufungspunkt, 8
höhere Ableitung, 63
Hölder-Ungleichung, 2
Hauptzweig, 88
Hessesche Form, 77
homöomorph, 23
Homöomorphismus, 23
homogene lineare Differentialgleichung,
102, 109
abgeschlossene Teilmenge, 8
Adjunkte, 61
affine Abbildung, 61
affiner Raum, 61
Anfangsbedingung, 99
Atlas, 138
Banachscher Fixpunktsatz, 24
bilinear, 58
Immersion, 135
Cauchy-Schwarz-Bunjakowski-Unglei- implizit, 90
chung, 3
implizite Differentiation, 92
indefinit, 75
Determinante, 61
Diffeomorphismus, 68
Differentialgleichung, 98
differenzierbar, 52
Divergenz, 56
Durchmesser einer Menge, 31
Jacobi-Matrix, 54
Karte, 138
Kartesisches Blatt, 136
Kern, 92
Kofaktor, 61
kompakt, 30
Kontraktion, 23
Kurve, 45
exp, 116
explizit, 89
explizite Differentialgleichung, 99
folgenkompakt, 28
Fundamentalmatrix, 111
Funktionalgleichung, 98
Funktionalmatrix, 54
Länge einer Kurve, 45
Lösung, 98
Lösungs-Fundamentalsystem, 111
Lagrange-Multiplikatoren, 95
Laplace-Operator, 67
getrennte Variablen, 100
gewichtetes arithmetisches Mittel, 3 lineare Differentialgleichung, 102, 109
Lipschitz-stetig, 16
gewichtetes geometrisches Mittel, 3
gewöhnliche Differentialgleichung, 99 logarithmische Ableitung, 61
lokales Extremum, 73
gleichmäßig konvergent, 14
lokales Maximum, 73
gleichmäßig stetig, 38
i
lokales Minimum, 73
Topologie, 12
topologischer Raum, 12
totale Ableitung, 52
trilinear, 62
Metrik, 6
metrischer Raum, 7
Minkowski-Ungleichung, 2
multilinear, 65
Untermannigfaltigkeit, 138
Nabla-Operator, 56
Nebenbedingung, 92
negativ definit, 74
Newtonverfahren, 84
Niveaufläche, 21
Norm, 1
Norm einer linearen Abbildung, 38
Variation, 43
Variation der Konstanten, 103, 112
Variationsgleichung, 132
Vektorprodukt, 57
vollständiger metrischer Raum, 12
Weg, 25
wegzusammenhängend, 25
Wronski-Matrix, 120
offene Teilmenge, 8
Parametrisierung, 45
partialle Differentialgleichung, 99
partielle Ableitung, 51
Picard-Iteration, 106
Polarkoordinaten, 89
positiv definit, 74
Punkt, 7
Young-Ungleichung, 4
zusammenhängend, 25
Zweig, 89
rektifizierbar, 45
Restglied, 69
Richtungsableitung, 51
Rotation, 56
Satz von Picard-Lindelöf, 104
Satz von Schwarz, 65
Skalarprodukt, 3
stationärer Punkt, 73
stetig, 16
Submersion, 136
Supremumsnorm, 14
symmetrisch, 67
Tangentialraum, 140
Tangentialvektor, 140
Taylor-Polynom, 68
Taylorsche Formel, 68
ii
1
Metrische Räume
Nachdem wir in der Vorlesung Analysis I Funktionen auf Teilmengen eines
Körpers K mit Absolutbetrag untersucht haben, wollen wir uns in der Vorlesung Analysis II mit Funktionen auf Teilmengen des Raumes
K n = |K × K ×
{z . . . × K}
n
der n-Tupel
x = (x1 , x2 , . . . , xn )
von Elementen xi aus K befassen. Diese lassen sich addieren und mit Elementen aus K multiplizieren:
x + y = (x1 + y1 , x2 + y2 , . . . , xn + yn ),
ax = (ax1 , ax2 , . . . , axn ).
Mitunter werden auch allgemeinere Räume auftreten.
1.1
Normen
Es sei K der Körper R der reellen Zahlen oder der Körper C der komplexen
Zahlen. Anstelle des Absolutbetrages benötigen wir im Fall einer beliebigen
Zahl von Variablen den folgenden Begriff.
Definition 1. Eine Norm auf einem K-Vektorraum1 V ist eine Abbildung
V → R (deren Wert an der Stelle x wir mit kxk bezeichnen), die folgenden
Eigenschaften für alle x, y ∈ V und a ∈ K hat:
(i) kaxk = |a| · kxk,
(ii) kx + yk ≤ kxk + kyk (Dreiecksungleichung),
(iii) wenn kxk = 0, dann x = 0.
Aus (i) folgt die Umkehrung von (iii), nämlich
k0k = k0 · 0k = |0| · k0k = 0,
wobei man zwischen 0 ∈ K und 0 ∈ K n unterscheiden muss, und daraus
sowie aus (ii) und (i) folgt
0 = kx − xk ≤ kxk + k − xk = 2kxk,
so dass eine Norm nur nichtnegative Werte annehmen kann.
Der folgende Satz liefert Beispiele von Normen auf K n .
1
Teilnehmer, die noch keine Vektorräume kennen, mögen sich unter V die Menge K n
vorstellen.
1
Satz 1. Für eine reelle Zahl p > 0 und x ∈ K n sei
1/p
kxkp = |x1 |p + . . . + |xn |p
,
kxk∞ = lim kxkp .
p→∞
Dies ist für alle p ∈ [1, ∞] eine Norm2 . Für alle p und q mit der Eigenschaft
1
+ 1q = 1 gilt die Hölder-Ungleichung
p
n
X
i=1
|xi yi | ≤ kxkp kykq .
Bemerkungen. Mit dem Einschließungskriterium erhält man
kxk∞ = max |xi | : i ∈ {1, 2, . . . , n} .
Die Bedingungen q > 0 und p1 + 1q = 1 erzwingen p > 1 für die HölderUngleichung, aber durch Grenzübergang erhält man auch
n
X
i=1
|xi yi | ≤ kxk1 kyk∞ ,
was sich auch leicht direkt nachprüfen lässt. Im Fall p < 1 ist die Eigenschaft (ii) einer Norm nicht erfüllt, wie man am Beispiel x = (1, 0), y = (0, 1)
sieht.
Für das Skalarprodukt
n
X
hx, yi =
xi ȳi
i=1
n
zweier Elemente x und y von K (wobei die komplexe Konjugation im Fall
K = R unnötig ist) gilt offensichtlich
hx, xi = kxk22 ,
und aus der Dreiecksungleichung für Summen sowie der Hölderungleichung
im Fall p = q = 2 folgt die Cauchy-Schwarz-Bunjakowski-Ungleichung
|hx, yi| ≤ kxk2 kyk2 .
Zum Beweis von Satz 1 benötigen wir weitere Ungleichungen. In Verallgemeinerung eines bekannten Begriffs nennen wir
m 1 x1 + . . . + m k xk
m
2
Die Dreiecksungleichung für diese Norm heißt auch Minkowski-Ungleichung.
2
das gewichtete arithmetische Mittel der Zahlen x1 , . . . , xk mit den positiven
Gewichten m1 , . . . , mk , wobei m = m1 + . . . + mk , und für positive xi nennen
wir
mk 1/m
1
xm
1 · · · xk
das gewichtete geometrische Mittel dieser Zahlen.
Lemma 1. Das gewichtete geometrische Mittel ist nicht größer als das gewichtete arithmetische Mittel mit den selben Gewichten, wobei Gleichheit genau dann eintritt, wenn die Zahlen xi gleich sind.
Beweis. Sind die Gewichte mi ganze Zahlen, so folgt die Behauptung aus der
Ungleichung zwischen dem gewöhnlichen geometrischen und arithmetischen
Mittel der Zahlen
x1 , . . . , x1 , x2 , . . . , x2 , . . . xk , . . . , xk .
| {z } | {z }
| {z }
m1
m2
mk
Da sich das gewichtete arithmetische bzw. geometrische Mittel nicht ändert,
wenn man alle mi durch die selbe positive Zahl dividiert, folgt die Behauptung auch für rationale Gewichte. Sind schließlich die Gewichte mi beliebige
positive reelle Zahlen, so wählen wir für jedes i eine Folge mij von positiven
rationalen Zahlen, so dass mij → mi für j → ∞. Die Ungleichung gilt bereits
für jedes j, und nach Satz3 I.26 bleibt sie gültig, wenn wir auf beiden Seiten
zum Grenzwert j → ∞ übergehen. Nach den Rechenregeln existieren diese
Grenzwerte und sind gleich dem geometrischen bzw. arithmetischen Mittel
mit den Gewichten mi .
Folgerung 1. Für beliebige positive relle Zahlen a1 , . . . , ak und p1 , . . . , pk
mit der Eigenschaft p11 + . . . + p1k = 1 gilt die Young-Ungleichung
ap11
apkk
a1 · · · ak ≤
+ ... +
.
p1
pk
Dazu setzen wir einfach xi = api i und mi =
1
.
pi
Beweis von Satz 1. Wir beginnen mit der Hölder-Ungleichung, wobei wir
zunächst annehmen, dass kxkp = kykq = 1. Nach dem Spezialfall k = 2 der
Young-Ungleichung gilt für jedes i
|xi |p |yi |q
|xi yi | ≤
+
,
p
q
3
Nummern, die mit I beginnen, beziehen sich auf das Skript Analysis I.
3
und durch Summation über i erhalten wir wegen p1 + 1q die Behauptung. Sind
x und y beliebig, aber von 0 verscheiden, so können wir das Bewiesene auf
die Vektoren
y
x
,
kxkp
kykq
anwenden und erhalten mit dem Distributivgesetz
n
X
1
|xi yi | ≤ 1.
kxkp kykq i=1
Ist schließlich x = 0 oder y = 0, so ist die Behauptung offensichtlich.
Nun beweisen wir die Eigenschaften einer Norm für 1 < p < ∞. Hierzu
gibt es ein eindeutig bestimmtes q, so dass p1 + 1q = 1, und mit der HölderUngleichung folgt
X
1q
n
n
X
p−1
(p−1)q
|xi ||xi + yi |
≤ kxkp
|xi + yi |
.
i=1
Wegen
1
q
=1−
1
p
i=1
p−1
p
=
n
X
|xi ||xi + yi |p−1 ≤ kxkp kx + ykp−1
p
n
X
|yi ||xi + yi |p−1 ≤ kykp kx + ykp−1
p .
i=1
und analog
bedeutet dies
i=1
Addieren wir beide Ungleichungen und benutzen wir die Dreiecksungleichung
für den Absolutbetrag, so folgt
kx +
ykpp
≤
n
X
i=1
(|xi | + |yi |)|xi + yi |p−1 ≤ (kxkp + kykp )kx + ykp−1
p .
Für kx + ykp = 0 ist nichts zu beweisen, und andernfalls können wir durch
kx + ykp−1
dividieren. Damit ist die Minkowski-Ungleichung (ii) bewiesen.
p
Behauptung (i) folgt aus der analogen Eigenschaft des Absolutbetrages
und dem Distributivgesetz. Zum Beweis von (iii) betrachten wir ein Element
x mit der Eigenschaft kxkp = 0. Durch Bilden der pten Potenz erhalten wir
|x1 |p + . . . + |xn |p = 0, und da alle Summanden nicht negativ sind, folgt
|xi |p = 0, also xi = 0, für alle i.
Der Beweis in den Fällen p = 1 und p = ∞ ist einfacher und wird
den Teilnehmern als Übungsaufgabe überlassen. Die Minkowski-Ungleichung
folgt natürlich auch durch Grenzübergang.
4
Definition 2. Zwei Normen k . k und k . k′ auf einem Vektorraum V heißen
äquivalent, wenn es Konstanten c und c′ gibt, so dass für alle x ∈ V gilt
kxk′ ≤ ckxk,
kxk ≤ c′ kxk′ .
Lemma 2. Für alle p ∈ ]1, ∞[ und x ∈ K n gilt
kxk∞ ≤ kxkp ≤ kxk1 ≤ nkxk∞ ,
die Normen k . kp für p ∈ [1, ∞] auf K n sind also sämtlich äquivalent.
Beweis. Ersetzen wir in x alle Koordinaten außer der betragsmäßig größten
durch Null, so verkleinert sich kxkp , und es folgt kxk∞ ≤ kxkp . Schreiben
wir hingegen x als Summe der Vektoren (0, . . . , 0, xi , 0, . . . , 0), so ergibt sich
aus der Minkowskiungleichung kxkp ≤ kxk1 . Ersetzen wir schließlich in x alle
Koordinaten durch die betragsmäßig größte, so ergibt sich kxk1 ≤ nkxk∞ .
Mit Hilfe der Jensen-Ungleichung kann man sogar zeigen, dass für beliebige p ≥ q gilt kxkp ≤ kxkq .
1.2
Metriken
Viele Objekte der realen Welt lassen sich nicht durch Vektorräume beschreiben. Trotzdem kann man Abstände zwischen Punkten betrachten.
Definition 3. Es sei X eine Menge. Eine Funktion d : X × X → R heißt
Metrik, wenn für alle x, y und z ∈ X gilt:
(i) d(x, y) = d(y, x),
(ii) d(x, z) ≤ d(x, y) + d(y, z) (Dreiecksungleichung),
(iii) genau dann d(x, y) = 0, wenn x = y.
Eine Menge, die mit einer Metrik versehen ist, nennt man metrischen Raum4 ,
ihre Elemente nennt man Punkte.
Durch Anwendung der Eigenschaften (iii), (ii) und (i) sehen wir, dass
0 = d(x, x) ≤ d(x, y) + d(y, x) = 2d(x, y),
d. h. dass eine Metrik nur nichtnegative Werte annimmt.
4
Strenggenommen ist ein metrischer Raum ein geordnetes Paar (X, d).
5
Beispiel. Ist V ein Vektorraum mit einer Norm, so ist
d(x, y) = kx − yk
eine Metrik auf V . Die Norm k . k2 auf Rn liefert die euklidische Metrik. ⊳
Beispiel. Ist d eine Metrik auf der Menge X und Y eine Teilmenge von X,
so ist die Einschränkung d|Y ×Y eine Metrik auf Y , genannt die von d induzierte Metrik. Die Menge Y , versehen mit dieser Metrik, nennt man einen
metrischen Teilraum von X. Betrachtet man z. B. die Erdoberfläche eine Teilmenge des euklidischen Raumes, so beschreibt d(x, y) die Länge der Sehne
durch das Erdinnere, die x und y verbindet. ⊳
Beispiel. Es sei A eine Menge und d : An × An → R gegeben durch
d(x, y) = i ∈ {1, 2, . . . , n} : xi 6= yi .
Dann ist d eine Metrik auf An . Man kann sich A als ein Alphabet und An
als Menge der Zeichenketten vorstellen. Dann gibt d(x, y) an, an wie vielen
Stellen sich die Zeichenketten x und y unterscheiden. In An kann man die
Teilmenge Y der sinnvollen Wörter betrachten. ⊳
Metrische Räume bilden einen passenden Rahmen für die Analysis.
Definition 4. Es sei X ein metrischer Raum.
(i) Ein Punkt a von X heißt Grenzwert der Folge von Punkten xk von X,
wenn es für jede positive reelle Zahl ε eine natürliche Zahl k0 gibt, so
dass für alle natürlichen Zahlen k mit der Eigenschaft k ≥ k0 gilt
d(xk , a) < ε.
(ii) Ein Punkt a von X heißt Häufungspunkt der Folge von Punkten xk
von X, wenn es für jede positive reelle Zahl ε und jede natürliche Zahl
k0 eine natürliche Zahl k gibt, so dass k ≥ k0 und
d(xk , a) < ε.
(ii) Eine Teilmenge A von X heißt abgeschlossen in X, wenn jeder Häufungspunkt einer Folge von Elementen von A ebenfalls in A liegt.
(iii) Eine Teilmenge U von X heißt offen in X, wenn es für jedes Element
a von U eine positive reelle Zahl ε gibt, so dass alle Elemente x von X
mit der Eigenschaft d(x, a) < ε in U liegen.
6
In dem Spezialfall, dass X ein Körper mit Absolutbetrag ist, stimmen
diese Begriffe mit den früher betrachteten überein. Die Sätze I.14, I.15, I.35
und I.38 übertragen sich einschließlich ihrer Beweise. Wir fassen die Versionen
für metrische Räume hier zusammen:
Satz 2. (i) Konvergiert eine Folge sowohl gegen a als auch gegen b, so ist
a = b.
(ii) Jede konvergente Folge ist beschränkt, d. h. es gibt eine Zahl c > 0, so
dass für alle k und l gilt d(xk , xl ) ≤ c.
(ii) Ein Punkt a ist genau dann Häufungspunkt einer Folge, wenn er Grenzwert einer ihrer Teilfolgen ist.
(iv) Eine Menge A ist genau dann abgeschlossen in X, wenn ihr Komplement X \ A offen in X ist.
Eine offene Menge in X, die den Punkt a enthält, nennt man eine Umgebung von a in X. Damit kann man die Definitionen von Grenzwert und
Häufungspunkt anschaulicher formulieren.
Satz 3.
(i) Für jedes ε > 0 ist die Menge
Uε (a) = {x ∈ X | d(x, a) < ε}
eine Umgebung von a, genannt ε-Umgebung von a.
(ii) Der Punkt a ist genau dann Grenzwert der Folge xk , wenn es für jede
Umgebung U von a ein k0 gibt, so dass für alle k mit der Eigenschaft
k ≥ k0 gilt xk ∈ U .
(iii) Der Punkt a ist genau dann Häufungspunkt der Folge xk , wenn es für
jede Umgebung U von a und jedes k0 ein k gibt, so dass k ≥ k0 und
xk ∈ U .
Beweis. (i) Es sei b ∈ Uε (a), also d(b, a) < ε. Setzen wir δ = ε − d(b, a),
so ist δ > 0, und es gilt für jedes x ∈ X mit d(x, b) < δ, dass d(x, a) ≤
d(x, b) + d(b, a) < δ + d(b, a) = ε, also x ∈ Uε (a).
(ii) Angenommen, die Folge xk konvergiert gegen a. Ist U eine Umgebung
von a, so gibt es nach Definition der Offenheit ein ε > 0, so dass alle x ∈ X
mit d(x, a) < ε in U liegen. Wegen der Konvergenz gibt es dann ein k0 , so dass
für alle k ≥ k0 gilt d(xk , a) < ε. Für diese k ist somit xk ∈ U . Die Umkehrung
ist offensichtlich, denn wenn eine Eigenschaft für alle Umgebungen gilt, so
gilt sie insbesondere für alle ε-Umgebungen.
Der Beweis von (iii) ist ähnlich.
7
Bemerkungen.
(i) Metriken auf einem Vektorraum, die von äquivalenten Normen induziert werden, definieren den selben Begriff der Konvergenz sowie der
Offenheit und Abgeschlossenheit.
(ii) In Analogie zu Satz I.32(i) gilt: Eine Folge von Elementen
xk = (x1k , . . . , xnk )
von K n konvergiert (bezüglich einer der in Satz 1 betrachteten Normen) genau dann gegen einen Punkt a = (a1 , . . . , an ), wenn jede der
Koordinatenfolgen xik gegen die jeweilige Koordinate ai von a konvergiert. Ist nämlich kxk − ak∞ eine Nullfolge, so sind offensichtlich die
|xik − ai | Nullfolgen, und sind umgekehrt die |xik − ai | Nullfolgen, so
ist offensichtlich kxk − ak1 eine Nullfolge.
Satz 4. Es sei X ein metrischer Raum.
(i) Die Mengen X und ∅ sind offen in X.
(ii) Sind U und V offen in X, so ist auch der Durchschnitt U ∩ V offen
in X.
(iii) Ist für jeden Index i aus einer Menge I eine offene Teilmenge Ui von
X gegeben, so ist die Vereinigung
[
U=
Ui
i∈I
offen in X.
Beweis. (i) Der gesamte Raum X ist offen, da für jeden Punkt x gilt U1 (x) ⊆
X, und ∅ ist offen, da es keinen Punkt gibt, für den eine Bedingung zu
erfüllen wäre.
(ii) Ist x ∈ U ∩ V , so gibt es wegen der Offenheit von U und V Zahlen ε > 0
und δ > 0, so dass Uε (x) ⊆ U und Uδ (x) ⊆ V . Setzen wir η = min{ε, δ}, so
gilt Uη (x) ⊆ U ∩ V .
(iii) Ist x Element der Vereinigung, so gibt es einen Index i ∈ I, so dass x ∈
Ui . Da Ui offen ist, gibt es ein ε > 0, so dass Uε (x) ⊆ Ui , also Uε (x) ⊆ U .
Bemerkung. Für das Komplement5 B c = X \ B gelten die de Morganschen
Regeln
!c
!c
[
\
\
[
Bic .
Bi =
Bic ,
Bi =
i∈I
5
i∈I
i∈I
i∈I
Bei dieser Schreibweise muss X aus dem Zusammenhang erkennbar sein.
8
Angesichts von Satz 2(iv) kann man also Satz 4 auch durch abgeschlossene
Mengen ausdrücken.
Ist Y ein metrischer Teilraum von X, so braucht eine offene Teilmenge
U von Y nicht offen in X und eine abgeschlossene Teilmenge A von Y nicht
abgeschlossen in X zu sein. Man betrachte z. B. X = R, Y = U = A = [0, 1[.
Satz 5. Es sei Y ein metrischer Teilraum von X.
(i) Die in Y offenen Mengen sind genau die Mengen der Form U ∩ Y ,
wobei U eine offene Menge in X ist.
(ii) Die in Y abgeschlossenen Mengen sind genau die Mengen der Form
A ∩ Y , wobei A eine abgeschlossene Menge in X ist.
Beweis. Wegen Y \(A∩Y ) = Y ∩(X \A) genügt es angesichts von Satz 2(iv),
die Aussage (i) zu beweisen. Zuvor bemerken wir: Sind UεX (b) und UεY (b)
die ε-Umgebung eines Punktes b ∈ Y in den Räumen X bzw. Y , so ist
UεX (b) ∩ Y = UεY (b).
Ist U offen in X und b ∈ U ∩ Y , so gibt es ein ε > 0, so dass UεX (b) ∈ U ,
und dann ist UεY (b) ∈ U ∩ Y . Also ist U ∩ Y offen in Y .
Nun sei V eine offene Teilmenge von Y . Für jedes b ∈ V gibt es ein εb > 0,
so dass UεYb (b) ⊆ V . Nach Satz 3(i) und 4(iii) ist die Menge
U=
[
UεXb (b)
b∈V
offen in X. Es gilt U ∩ Y ⊆ V , und für jedes b ∈ V ist b ∈ Uεb (b) ∩ Y ⊆ U ∩ Y ,
also V ⊆ U ∩ Y .
Eine Familie von Teilmengen einer beliebigen Menge X, die die Eigenschaften der
Familie der offenen Mengen aus Satz 4 hat, nennt man übrigens eine Topologie auf X.
Eine Menge X, die mit einer Topologie versehen ist, nennt man topologischen Raum. Für
solche Räume betrachtet man die Aussagen (ii) und (iii) von Satz 3 und den Satz 5 als
Definitionen.
1.3
Vollständigkeit
Wie schon im Fall von Körpern spielt der Begriff der Vollständigkeit auch
für metrische Räume eine wichtige Rolle.
Definition 5. Eine Folge von Elementen xk eines metrischen Raumes X
heißt Cauchy-Folge, wenn es für jede positive Zahl ε eine natürliche Zahl k0
9
gibt, so dass für alle natürlichen Zahlen k und l mit der Eigenschaft k ≥ k0
und l ≥ k0 gilt
d(xk , xl ) < ε.
Ein metrischer Raum heißt vollständig, wenn jede Cauchy-Folge in diesem
Raum konvergent ist.
Wegen d(xk , xl ) ≤ d(xk , a) + d(a, xl ) ist jede konvergente Folge eine
Cauchy-Folge.
In Analogie zu Satz I.32(ii) gilt: Eine Folge von Elementen
xk = (x1k , . . . , xnk )
von K n ist eine Cauchy-Folge (bezüglich einer der in Satz 1 betrachteten
Normen) genau dann, wenn jede der Koordinatenfolgen xik eine CauchyFolge ist. Da die Körper R und C nach Satz I.23 und Satz I.32(iii) vollständig
sind, erhalten wir
Folgerung 2. Die Vektorräume Rn und Cn sind bezüglich jeder der Normen
k . kp vollständig.
Lemma 3. Ein abgeschlossener Teilraum Y eines vollständigen metrischen
Raumes X ist vollständig. Ein vollständiger Teilraum von X ist abgeschlossen
in X.
Beweis. Angenommen, Y ist abgeschlossen in X. Ist yk eine Cauchyfolge
in Y , so ist sie auch eine Cauchyfolge in X, hat dort also einen Grenzwert a.
Da Y abgeschlossen ist, gilt a ∈ Y , also ist die Folge konvergent in Y .
Angenommen, Y ist vollständig. Ist yk eine Folge in Y , die gegen einen
Punkt a von X konvergiert, so ist sie eine Cauchy-Folge in X, also auch eine
Cauchy-Folge in Y . Wegen der Vollständigkeit von Y hat sie einen Grenzwert
b in Y , und nach Satz 2(i) ist a = b.
Beispiel. Wir definieren
kf k1 =
Z
b
a
|f (x)| dx
für jede integrierbare Funktion f auf dem beschränkten Intervall [a, b]. Dies
ist keine Norm auf dem Vektorraum solcher Funktionen, weil z. B. für die
Funktion
(
1, wenn x = a,
f (x) =
0 sonst
10
gilt kf k1 = 0. (Dem kann man abhelfen, in dem man den Raum der Äquivalenzklassen von Funktionen betrachtet, wobei f ∼ g, wenn kf − gk1 = 0.)
Die Einschränkung von k . k1 auf den Unterraum der stetigen Funktionen ist
nach den Sätzen I.86 und I.87 eine Norm.
Betrachten wir nun auf [−1, 1] die Funktionen
fk (x) =
kx
.
|kx| + 1
Weil die Funktionen ungerade sind, ist
Z 1
kfk − sgn k1 = 2
(sgn x − fk (x)) dx,
0
und durch die Substitution u = kx + 1 erhalten wir
Z
u−1
ln(k + 1)
2 k+1
.
1−
du = 2
kfk − sgn k1 =
k 1
u
k
Die Folge konvergiert also im Raum der Äquivalenzklassen gegen die Signumfunktion. Der Unterraum der stetigen Funktionen ist somit nicht abgeschlossen und folglich auch nicht vollständig bezüglich der Norm k . k1 .
Der Raum der Äquivalenzklassen integrierbarer Funktionen ist übrigens auch
nicht vollständig. ⊳
Definition 6. Es sei X eine Menge und K = R oder K = C. Für jede
beschränkte Funktion f : X → K nennen wir
kf k = sup |f |
die Supremumsnorm von f . Eine Folge, die bezüglich der Supremumsnorm
konvergiert, nennen wir gleichmäßig konvergent.
Lemma 4. Der Raum der beschränkten Funktionen auf einer beliebigen Menge ist bezüglich der Supremumsnorm vollständig.
Beweis. Es sei fn eine Cauchy-Folge. Für jedes Element x von X gilt
|fk (x) − fl (x)| ≤ kfk − fl k,
also ist fk (x) eine Cauchyfolge. Wegen der Vollständigkeit von K hat diese
einen Grenzwert, den wir mit f (x) bezeichnen. So erhalten wir eine Funktion
f : X → K.
11
Nun sei ε > 0. Dann gibt es ein k0 , so dass für k ≥ k0 und l ≥ k0 gilt
kfk − fl k < ε, also für jedes x ∈ X
|fk (x) − fl (x)| < ε.
Durch Grenzübergang l → ∞ folgt
|fk (x) − f (x)| ≤ ε,
und mit der Dreiecksungleichung
|f (x)| ≤ |f (x) − fk (x)| + |fk (x)| ≤ ε + kfk k.
Da x beliebig war, ist f beschränkt und
kfk (x) − f (x)k ≤ ε.
Da ε beliebig war, konvergiert die Folge fk gleichmäßig gegen f .
Man kann die Supremumsnorm auch für Funktionen mit Werten in einem
Vektorraum V definieren, wenn auf diesem eine Norm definiert ist. Ist V
vollständig, so gilt das Lemma auch hier.
Noch allgemeiner kann man Abbildungen mit Werten in einem metrischen Raum Y
mit einer Metrik e betrachten. Eine solche Abbildung heißt beschränkt, wenn ihr Bild
(Wertevorrat) beschränkt ist, d. h. wenn es eine Zahl c gibt, so dass für alle u, v ∈ X gilt
e(f (u), f (v)) ≤ c. Auf dem Raum aller beschränkten Abbildungen X → Y definiert man
die Supremumsmetrik
d(f, g) = sup{e(f (x), g(x)) | x ∈ X}.
Die allgemeine Version des Lemmas besagt, dass d vollständig ist, wenn e vollständig
ist. Lässt man für Metriken den Wert ∞ zu, dann kann man sogar die Bedingung der
Beschränktheit fallen lassen.
1.4
Stetigkeit
Der Begriff der Stetigkeit von Abbildungen ist eine offensichtliche Verallgemeinerung des Begriffs der Stetigkeit von Funktionen.
Definition 7. Es seien X und Y metrische Räume mit Metriken d bzw. e,
es sei a ∈ X und f eine Abbildung von X in Y .
(i) Die Funktion f heißt stetig an der Stelle a, wenn es für jedes ε > 0
ein δ > 0 gibt, so dass für alle x ∈ X mit der Eigenschaft d(x, a) < δ
gilt e(f (x), f (a)) < ε.
12
(ii) Die Abbildung f heißt stetig, wenn sie an jeder Stelle stetig ist.
(iii) Die Abbildung f heißt Lipschitz-stetig, wenn es eine Zahl c gibt, so
dass für alle Punkte u und v von X gilt
e(f (u), f (v)) ≤ c d(u, v).
Bemerkungen.
(i) Wird die Metrik d oder e von einer Norm induziert, so ändert sich
der Begriff der Stetigkeit nicht, wenn man zu einer äquivalenten Norm
übergeht.
(ii) Jede Lipschitz-stetige Funktion ist stetig. Für jeden Punkt a ist die
Funktion
f (x) = d(x, a)
Lipschitz-stetig, denn aus der Dreiecksungleichung folgt
|d(u, a) − d(v, a)| ≤ d(u, v).
(iii) Ist f eine Abbildung von einer Menge X in den Raum K n , so ist für
jedes x ∈ X das Element f (x) ein n-Tupel, das wir mit
(f1 (x), . . . , fn (x))
bezeichnen. Auf diese Weise erhalten wir aus einer Abbildung f : X →
K n Koordinatenfunktionen fi : X → K und umgekehrt.
(iv) Eine Abbildung f von einem metrischen Raum X in den Raum K n ist
genau dann stetig, wenn ihre Koordinatenfunktionen stetig sind, denn
es gilt für jedes i ∈ {1, . . . , n}
|fi (x) − fi (a)| ≤ kf (x) − f (a)k∞ ≤ kf (x) − f (a)k1 ≤
n
X
j=1
|fj (x) − fj (a)|.
Der Begriff der Stetigkeit hängt eng mit dem des Grenzwertes zusammen.
Definition 8. Es seien X und Y metrische Räume mit Metriken d bzw. e.
(i) Der Punkt a heißt Häufungspunkt der Teilmenge D von X, wenn in
jeder Umgebung von a ein Punkt von D \ {a} liegt.
13
(ii) Es sei a ein Häufungspunkt der Menge D und f : D → Y . Der Punkt
b von Y heißt Grenzwert der Abbildung f an der Stelle a, abgekürzt
f (x) → b (x → a), wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für
alle x ∈ D \ {a} mit der Eigenschaft d(x, a) < δ gilt e(f (x), b) < ε.
Bemerkungen.
(i) Weil a Häufungspunkt von D ist, kann in Analogie zu Satz 2(i) eine Abbildung f an einer Stelle a nur einen Grenzwert haben. Wir bezeichnen
ihn mit lim f (x).
x→a
(ii) Ein Punkt von D, der kein Häufungspunkt von D ist, hießt isolierter
Punkt von D. Er ist trotzdem Häufungspunkt einer Folge in D, z. B.
a, a, a, . . .
(iii) Die Begriffe Grenzwert und Stetigkeit hängen wie folgt zusammen. Ist
a∈
/ D, so gilt für eine Abbildung f : D → Y genau dann
f (x) → b (x → a),
wenn die durch
g(x) =
(
f (x), wenn x 6= a,
b,
wenn x = a
definiere Abbildung g : D ∪ {a} → Y an der Stelle a stetig ist. Dabei
wird D ∪ {a} als metrischer Teilraum von X betrachtet.
Beispiel. Es sei f : R2 \ {(0, 0)} → R definiert durch
x1 x2
f (x1 , x2 ) = 2
.
x1 + x22
Für festes x2 gilt
lim f (x1 , x2 ) = 0,
x1 →0
und für festes x1 gilt
lim f (x1 , x2 ) = 0.
x2 →0
Würde der Grenzwert
lim f (x) = b
x→(0,0)
existieren, dann müsste es für jedes ε > 0 ein δ > 0 geben, so dass für
k(t, 0)k < δ und k(t, t)k < δ gilt |f (t, 0) − b| < ε und |f (t, t) − b| < ε. Wir
haben aber
1
f (t, 0) = 0,
f (t, t) = ,
2
1
und für ε = 4 ergibt sich ein Widerspruch. Der besagte Grenzwert existiert
also nicht. ⊳
14
Satz 6. Die Abbildungen K × K → K, die durch
(x1 , x2 ) 7→ x1 + x2 ,
bzw.
(x1 , x2 ) 7→ x1 · x2
gegeben sind, sind stetig.
Beweis. Die erste Abbildung ist sogar Lipschitz-stetig, denn nach der Dreiecksungleichung gilt
|(u1 + u2 ) − (v1 + v2 )| = |(u1 − v1 ) + (u2 − v2 )| ≤ ku − vk1 .
Bei der zweiten Abbildung haben wir
|x1 x2 − a1 a2 | = |(x1 − a1 )x2 + a1 (x2 − a2 )| ≤ |x1 − a1 ||x2 | + |a1 ||x2 − a2 |.
n
o
ε
ε
2
Zu gegebenem a ∈ K und ε > 0 wählen wir δ = min 1, 2|a1 | , 2(1+|a2 |) .
Dann gilt für kx − ak∞ < δ
|x2 | ≤ |x2 − a2 | + |a2 | ≤ δ + |a2 | ≤ 1 + |a2 |
und somit
|x1 x2 − a1 a2 | ≤ δ(|a2 | + 1) + |a1 |δ ≤
ε ε
+ = ε.
2 2
Also ist die Abbildung stetig an der Stelle a = (a1 , a2 ).
In Analogie zu Satz I.61 gilt das Folgenkriterium:
Satz 7. Eine Abbildung f : X → Y ist genau dann stetig an der Stelle a,
wenn für jede Folge xk in X mit dem Grenzwert a die Folge f (xk ) in Y gegen
f (a) konvergiert.
Beweis. Angenommen, f ist nicht stetig an der Stelle a. Dann gibt es ein
ε > 0, so dass für jedes δ > 0 ein x ∈ X existiert, so dass d(x, a) < δ, aber
e(f (x), f (a)) ≥ ε.
Insbesondere gibt es also für jedes k ∈ N ein xk , so dass d(xk , a) < k1 ,
aber e(f (xk ), f (a)) ≥ ε. Dies bedeutet, dass xk gegen a, aber f (xk ) nicht
gegen f (a) konvergiert. Das Folgenkriterium ist also nicht erfüllt.
Die Umkehrung ist einfach.
Man kann die Stetigkeit einer Abbildung f : X → Y zwischen metrischen
Räumen auch mit Hilfe von Umgebungen in Analogie zu Satz 3 ausdrücken.
Dazu definieren wir das Bild einer Teilmenge A von X und das Urbild einer
Teilmenge B von Y durch
f (A) = {f (x) | x ∈ a},
f −1 (B) = {x ∈ X | f (x) ∈ B}.
15
Satz 8. (i) f ist genau dann stetig an der Stelle a, wenn es für jede Umgebung V von f (a) eine Umgebung U von a gibt, so dass f (U ) ⊆ V .
(ii) f ist genau dann stetig, wenn für jede offene Menge V in Y das Urbild
f −1 (V ) offen in X ist.
Beweis. (i) Es sei V eine Umgebung von f (a). Dann gibt es ein ε > 0, so
dass UεY (f (a)) ⊆ V . Ist f stetig an der Stelle a, so gibt es ein δ > 0, so dass
f (UδX (a)) ⊆ UεY (f (a)). Also ist das Kriterium mit U = UδX (a) erfüllt.
Ist umgekehrt das Kriterium erfüllt und ε > 0 gegeben, so wenden wir
es auf V = UεY (f (a)) an und erhalten eine Umgebung U von a, so dass
f (U ) ⊆ UεY (f (a)). Wegen der Offenheit von U gibt es ein δ > 0, so dass
UδX (a) ⊆ U . Somit gilt f (UδX (a)) ⊆ UεY (f (a)), d. h. f ist stetig an der
Stelle a.
(ii) Angenommen, f ist stetig. Für eine offene Menge V von Y wollen wir
zeigen, dass f −1 (V ) offen ist. Ist a in diesem Urbild, so ist f (a) ∈ V , und nach
Teil (i) gibt es eine Umgebung U von a, so dass f (U ) ⊆ V . Das bedeutet
U ⊂ f −1 (V ), und da a in der Menge f −1 (V ) beliebig gewählt war, ist sie
offen.
Umgekehrt sei das Kriterium erfüllt. Ist nun a ∈ X, so ist für jede Umgebung V von f (a) die Menge U = f −1 (V ) eine Umgebung von a mit der
Eigenschaft f (U ) ⊆ V . Somit ist f nach Teil (i) an der Stelle a stetig.
Bemerkung. Wegen f −1 (Y \ V ) = X \ f −1 (V ) sehen wir unter Verwendung
von Satz 2(iv), dass eine Abbildung genau dann stetig ist, wenn die Urbilder
aller abgeschlossenen Mengen abgeschlossen sind.
Beispiel. Ist f : X → R eine stetige Funktion, so ist für jedes c ∈ R die
Menge
{x ∈ X | f (x) < c} = f −1 ]−∞, c[
offen und die sogenannte Niveaufläche
{x ∈ X | f (x) = c} = f −1 ({c})
abgeschlossen. Wenden wir dies auf eine Norm auf einem Vektorraum an, so
erhalten wir eine offene Einheitskugel {x ∈ V | kxk < 1} und eine abgeschlossene Einheitssphäre {x ∈ V | kxk = 1}. ⊳
Für die Verkettung gilt in Analogie zu Satz I.56:
Satz 9. Ist die Abbildung f : X → Y stetig an der Stelle a und die Abbildung
g : Y → Z stetig an der Stelle b = f (a), so ist die Abbildung g ◦ f : X → Z
stetig an der Stelle a.
16
Beweis. Ist W eine Umgebung von g(f (a)) = g(b) in Z, so gibt es wegen
der Stetigkeit von g an der Stelle b eine Umgebung V von b in Y , so dass
g(V ) ⊆ W , und wegen der Stetigkeit von f an der Stelle a gibt es eine
Umgebung U von a in X, so dass f (U ) ⊆ V . Es folgt g ◦ f (U ) ⊆ W , und
weil W beliebig war, ist g ◦ f an der Stelle a stetig.
Alternativ hätte man den Beweis von Satz I.56 kopieren oder Satz 7
benutzen können. Aus den Sätzen I.55, 6 und 9 ergibt sich:
Folgerung 3. Jede Abbildung D → K n , deren Koordinatenfunktionen auf
D durch Terme gegeben sind, in denen nur arithmetische Operationen und
stetige Funktionen vorkommen, ist stetig.
Nun kommen wir auf die Frage nach der Vollständigkeit von Funktionenräumen zurück.
Satz 10. Ist fk : X → K n eine Folge stetiger Abbildungen, die gleichmäßig
gegen eine Abbildung f : X → K n konvergiert, so ist f stetig.
Beweis. Ist ε > 0, so gibt es wegen der gleichmäßigen Konvergenz eine
natürliche Zahl k0 , so dass für k ≥ k0 gilt
ε
sup kfk (x) − f (x)k < .
3
x∈X
Nun sei a ∈ X. Wegen der Stetigkeit von fk0 gibt es ein δ > 0, so dass für
x ∈ Uδ (a) gilt
ε
kfk0 (x) − fk0 (a)k < .
3
Für x ∈ Uδ (a) folgt nun mit der Dreiecksungleichung
kf (x) − f (a)k ≤ kf (x) − fk0 (x)k + kfk0 (x) − fk0 (a)k + kfk0 (a) − f (a)k ≤ ε.
Es folgt die Stetigkeit von f an der Stelle a.
Der selbe Beweis liefert, dass für eine Folge stetiger Abbildungen fk :
X → Y zwischen metrischen Räumen, die bezüglich der Supremumsmetrik
gleichmäßig gegen eine Abbildung f : X → Y konvergiert, die Abbildung f
stetig ist.
Nach dem Satz ist der Raum der stetigen beschränkten Funktionen X →
n
K abgeschlossen im Raum aller beschränkten Funktionen X → K n . In
Verbindung mit Lemma 3 und Lemma 4 erhalten wir:
Folgerung 4. Der Raum der beschränkten stetigen Funktionen auf einem
metrischen Raum mit Werten in Rn oder Cn ist vollständig.
17
Die Umkehrabbildung einer bijektiven stetigen Abbildung braucht natürlich nicht stetig zu sein.
Definition 9. Eine Abbildung f : X → Y zwischen metrischen Räumen heißt Homöomorphismus, wenn sie eine stetige Umkehrabbildung besitzt.
Zwei metrische Räume heißen homöomorph, wenn es zwischen ihnen einen
Homöomorphismus gibt.
Beispiel. Es sei k . k eine Norm auf einem endlichdimensionalen Vektorraum
V und
x
f (x) =
.
1 + kxk
für x ∈ V . Dann ist
kf (x)k =
kxk
< 1,
1 + kxk
wir erhalten also eine Abbildung f : V → B = {x ∈ V | kxk < 1}. Außerdem
folgt
1
1 − kf (x)k =
.
1 + kxk
Wir können nun die Definition von f nach x auflösen. Setzen wir für y ∈ B
g(y) =
y
,
1 − kyk
so ist g die Umkehrabbildung von f . Da die Norm Lipschitz-stetig ist, sind
f und g stetig, und somit sind V und B homöomorph. ⊳
1.5
Kontraktionen
Folgender Begriff hängt mit dem der Lipschitz-Stetigkeit zusammen.
Definition 10. Eine Abbildung f : X → Y zwischen metrischen Räumen
heißt Kontraktion, wenn es eine Zahl c ∈ [0, 1[ gibt, so dass für alle u, v ∈ X
gilt
e(f (u), f (v)) ≤ c d(u, v).
Der folgende Satz zeigt die Nützlichkeit des Begriffs der Vollständigkeit.
Satz 11 (Banachscher Fixpunktsatz). Ist f : X → X eine Kontraktion von
einem nichtleeren vollständigen metrischen Raum X in sich selbst, so hat f
einen Fixpunkt, d. h. einen Punkt a ∈ X, so dass f (a) = a.
18
Ist b ebenfalls ein Fixpunkt, so gilt d(a, b) = d(f (a), f (b)) ≤ c d(a, b), also
d(a, b) = 0 und somit a = b. Es kann also nur einen Fixpunkt geben.
Die Beweisidee kennen wir schon vom Konvergenzbeweis des Heronverfahrens (vgl. Satz I.13).
Beweis. Wegen X 6= ∅ gibt es einen Punkt x0 ∈ X. Wir definieren eine Folge
xk rekursiv durch
xk+1 = f (xk ).
Wir beweisen durch vollständige Induktion nach k, dass
d(xk+1 , xk ) ≤ ck d(x1 , x0 ).
Dies gilt offenbar für k = 0, und gilt es für eine Zahl k, so folgt
d(xk+2 , xk+1 ) = d(f (xk+1 ), f (xk )) ≤ c d(xk+1 , xk ) ≤ ck+1 d(x1 , x0 ).
Für l ≥ k folgt mit der Dreiecksungleichung
d(xl , xk ) ≤
l−1
X
i=k
d(xi+1 , xi ) ≤
l−1
X
i=k
ci d(x1 , x0 ) ≤
ck
d(x1 , x0 ).
1−c
Wegen |c| < 1 konvergiert die rechte Seite für k → ∞ gegen Null, und somit
ist xk eine Cauchyfolge. Da X vollständig ist, konvergiert sie gegen einen
Punkt a. Wegen der Lipschitz-Stetigkeit von f folgt aus der Rekursionsformel
durch Grenzübergang, dass a = f (a).
1.6
Zusammenhang
Wir wollen nun den Zwischenwertsatz verallgemeinern.
Definition 11. Es sei X ein metrischer Raum und a, b Punkte von X. Ein
Weg von a nach b in X ist eine stetige Abbildung g : [0, 1] → X, so dass
g(0) = a und g(1) = b. Der Raum X heißt wegzusammenhängend6 , wenn es
für beliebige Punkte a und b einen Weg von a nach b in X gibt.
Ist ein Raum nicht wegzusammenhängend, so ist das schwer unmittelbar
nachzuweisen. Einfacher geht das mit folgendem Begriff.
Definition 12. Ein metrischer Raum X heißt unzusammenhängend, wenn
er zwei offene nichtleere Teilmengen A und B besitzt, so dass A ∪ B = X
und A ∩ B = ∅. Andernfalls heißt er zusammenhängend7 .
6
7
auch bogenzusammenhängend oder linear zusammenhängend genannt
auch Hausdorff-zusammenhängend genannt
19
Wegen Satz 2(iv) hätte man genauso gut verlangen können, dass A und
B abgeschlossen sind oder dass A offen und abgeschlossen ist.
Lemma 5. Ein metrischer Teilraum von R ist genau dann zusammenhängend, wenn er ein Intervall ist.
Beweis. Ist X ⊆ R kein Intervall, so gibt es a, b ∈ X und c ∈ R \ X, so dass
a < c < b. Die Mengen
A = ]−∞, c[ ∩ X,
B = ]c, ∞[ ∩ X
sind nach Satz 5 offen in X, es gilt a ∈ A, b ∈ B, und man sieht, dass X
unzusammenhängend ist.
Nun sei I ein Intervall. Angenommen, I = A∪B, wobei A und B disjunkt,
nicht leer und abgeschlossen im Teilraum I sind. Es sei b ein innerer Punkt
von I. Nach eventueller Umbenennung können wir annehmen, dass b ∈ B
ist, und nach eventueller Multiplikation mit −1 können wir annehmen, dass
A ∩ ]−∞, b] nicht leer ist und folglich ein Supremum a besitzt. Für jedes
ε > 0 gibt es ein Element x ∈ A mit a − ε < x ≤ a, und da A abgeschlossen
ist, folgt a ∈ A. Insbesondere folgt a < b, und für jedes ε > 0 gibt es ein
y ∈ B mit a < y < a + ε. Da B abgeschlossen ist, folgt a ∈ B, und wir haben
einen Widerspruch zur Disjunktheit von A und B.
Satz 12. Jeder wegzusammenhängende metrische Raum ist zusammenhängend.
Beweis. Angenommen, wir haben eine Zerlegung X = A ∪ B in disjunkte
nichtleere abgeschlossene Teilmengen. Dann wählen wir a ∈ A und b ∈ B.
Ist X wegzusammenhängend, so gibt es einen Weg g von a nach b, und
die Mengen g −1 (A) und g −1 (B) sind offensichtlich disjunkt und nach Satz 8
offen. Wegen 0 ∈ g −1 (A) und 1 ∈ g −1 (B) sind sie nicht leer, was Lemma 5
widerspricht.
Es gibt zusammenhängende metrische Räume, die nicht wegzusammenhängend sind.
Beispiel. Die Teilräume
n
1o
Y = (x, y) ∈ R2 x > 0, y = sin
,
x
Z = {(0, 0)}
von R2 sind offensichtlich wegzusammenhängend und somit zusammenhängend.
Wir behaupten, dass der Teilraum X = Y ∪ Z zusammenhängend ist.
Hätten wir nämlich eine Zerlegung X = A ∪ B in nichtleere disjunkte offene
20
Teilmengen, so wäre Y = (Y ∩A)∪(Y ∩B) eine Zerlegung in disjunkte offene
Teilmengen. Da Y zusammenhängend ist, muss dann einer der beiden Teile
leer sein, also Y ⊆ A oder Y ⊆ B. Das Gleiche gilt für Z, so dass nur A = Y ,
B = Z oder umgekehrt in Frage kommt. Die Menge Y ist zwar offen in X,
die Menge
Z jedoch nicht, denn der Punkt (0, 0) ist z. B. Grenzwert der Folge
1
, 0 in Y . Damit ist bewiesen, dass der Raum X zusammenhängend ist.
kπ
Er ist aber nicht wegzusammenhängend (Aufgabe 20). ⊳
Der Zwischenwertsatz verallgemeinert sich wie folgt.
Satz 13. Es sei f : X → Y eine stetige Abbildung.
(i) Ist X wegzusammenhängend, so auch f (X).
(ii) Ist X zusammenhängend, so auch f (X).
Hier betrachten wir f (X) als Teilraum von Y .
Beweis. (i) Für a, b ∈ f (X) gibt es u, v ∈ X, so dass f (u) = a und f (v) = b.
Ist X wegzusammenhängend, so gibt es einen Weg g von u nach v, und dann
ist f ◦ g nach Satz 9 ein Weg von a nach b.
(ii) Ist f (X) nicht zusammenhängend, so gibt es eine Zerlegung Y = A ∪ B
wie in der Definition. Nach Satz 5 ist A = U ∩ f (X) und B = V ∩ f (X) mit
offenen Mengen U und V von Y . Nun sind die Mengen f −1 (A) = f −1 (U )
und f −1 (B) = f −1 (V ) nach Satz 8 offen und bilden eine Zerlegung von X,
die zeigt, dass auch X nicht zusammenhängend ist.
Als Anwendung beweisen wir die Starrheit von K-analytischen Funktionen, wobei K = R oder K = C.
Satz 14. Es sei f eine K-analytische Funktion auf einer zusammenhängenden offenen Teilmenge U von K. Hat die Nullstellenmenge von f einen
Häufungspunkt in U , so ist f (x) = 0 für alle x ∈ U .
Beweis. Es sei N die Nullstellenmenge von f und A die Menge der Häufungspunkte von N . Dann ist A abgeschlossen (vgl. die Lösung von Aufgabe 9b).
Nach Voraussetzung ist A nicht leer. Laut Satz I.48 ist jeder Punkt von A
ein innerer Punkt von N und somit auch von A. Also ist A offen. Da U
zusammenhängend ist, muss A = U sein, also auch N = U .
21
1.7
Kompaktheit
Definition 13. Eine Teilmenge A eines metrischen Raumes heißt folgenkompakt, wenn jede Folge in A einen Häufungspunkt in A besitzt.
Offensichtlich ist A genau dann folgenkompakt in X, wenn A in dem
metrischen Teilraum A von X folgenkompakt ist. Im Unterschied zur Offenheit und Abgeschlossenheit hätte es also genügt, die Folgenkompaktheit als
Eigenschaft eines metrischen Raumes zu definieren. Aus Analysis I kennen
wir:
Satz 15 (Bolzano-Weierstraß). Jedes beschränkte abgeschlossene Intervall
ist folgenkompakt.
Wir wollen hier den klassischen Beweis angeben.
Beweis. Es sei eine Folge xk in dem Intervall I0 = [a, b] gegeben. Es sei m =
a+b
. Dann muss wenigstens eines der Teilintervalle [a, m] und [m, b] unendlich
2
viele Glieder der Folge enthalten. Wir bezeichnen dieses Teilintervall mit I1 .
Durch fortgesetzte Halbierung und Auswahl erhalten wir Intervalle
I0 ⊃ I1 ⊃ I2 ⊃ . . . ,
hat und unendlich viele Folgeglieder enthält. Für
so dass Il die Länge b−a
2l
jedes l können wir also ein Glied xkl ∈ Il wählen. Für l ≤ m ist xkl , xkm ∈ Il ,
also
b−a
|xkl − xkm | ≤
,
2l
und xkl ist eine Cauchyfolge. Wegen der Vollständigkeit von R hat sie einen
Grenzwert, der in der abgeschlossenen Menge I0 liegen muss.
Hier sind einige Eigenschaften folgenkompakter Mengen:
Satz 16.
(i) Jeder folgenkompakte metrische Raum ist vollständig.
(ii) Jede folgenkompakte Teilmenge in einem metrischen Raum X ist abgeschlossen in X.
Beweis. (i) Es sei xk eine Cauchy-Folge in X. Ist ε > 0 gegeben, so gibt es
ein k0 , so dass für k, l ≥ k0 gilt d(xk , xl ) < 2ε . Ist X folgenkompakt, so hat
xk einen Häufungspunkt a. Also kann man l so wählen, dass d(xl , a) < 2ε .
Mit der Dreiecksungleichung folgt d(xk , a) < ε. Da ε beliebig war, ist xk →
a (k → ∞).
(ii) Ist A folgenkompakt, so ist A nach (i) vollständig und nach Lemma 3
abgeschlossen in X.
22
Man bevorzugt einen anderen Begriff der Kompaktheit, der durch folgende Frage motiviert wird, die bei der Grundlegung der Maßtheorie auftauchte:
Frage. Kann man ein Intervall der Länge l durch Teilintervalle der Längen
l1 , l2 , . . . überdecken, so dass
l1 + l2 + . . . < l?
Definition 14. Eine Überdeckung der Menge A ist eine Menge8 U von
Mengen, deren Vereinigung A enthält, d. h. für jedes x ∈ A existiert ein
U ∈ U, so dass x ∈ U .
Beispiel. Es gilt
[−1, 1] = [−1, 0] ∪
1
2
, 1 ∪ 31 , 12 ∪ 41 , 31 ∪ . . . ,
die Intervalle auf der rechten Seite bilden also eine Überdeckung des Intervalls
auf der Linken. ⊳
Beispiel. Es gilt
]0, 1[ = 12 , 1 ∪ 31 , 1 ∪ 41 , 1 ∪ . . . ,
und wir erhalten eine Überdeckung von ]0, 1[ durch offene Intervalle. ⊳
Beispiel. Wir nummerieren die Elemente der abzählbaren Menge A = Q ∩
[0, 1] als r1 , r2 , . . . und wählen für jedes k ein offenes Intervall Ik der Länge
2−k−1 , so dass rk ∈ Ik . Dann bilden die Ik eine Überdeckung von A, und
die Summe ihrer Längen ist 21 . Sollten sie auch eine Überdeckung von [0, 1]
bilden, so hätten wir die verwirrende Antwort Ja“ auf die obige Frage. ⊳
”
Wenn man aus jeder Überdeckung eine endliche Teilüberdeckung auswählen könnte, so könnte man leicht zeigen, dass die Antwort Nein“ lautet. Das
”
ist aber bei beliebigen Überdeckungen nicht zu erwarten, wie das erste Beispiel zeigt. Wir betrachten daher offene Überdeckungen, d. h. Überdeckungen
durch offene Mengen.
Definition 15. Eine Teilmenge A eines metrischen Raumes X heißt kompakt, wenn man aus jeder offenen Überdeckung von A eine Teilfamilie auswählen kann, die immer noch eine Überdeckung von A ist.
Wegen Satz 5 ist A genau dann kompakt im metrischen Raum X, wenn
A kompakt im metrischen Teilraum A von X ist. Es hätte also genügt, den
Begriff der Kompaktheit nur für metrische Räume einzuführen.
Hier ist der erste Hinweis, dass die beiden Kompaktheitsbegriffe zusammenhängen:
8
Zur Vermeidung der Phrase Menge von Mengen sagt man oft Familie von Mengen.
23
Satz 17. Ist A kompakt, so ist A beschränkt und folgenkompakt.
Beweis. Ist a ∈ A, so bilden die Mengen Ur (a) mit r > 0 eine offene Überdeckung von A. Da A kompakt ist, gibt es r1 , . . . , rs , so dass
Ur1 (a) ∪ . . . ∪ Urs (a) ⊇ A,
und ist r = max{r1 , . . . , rs }, so folgt d(x, a) < r für alle x ∈ A.
Angenommen, es gibt eine Folge xk in A ohne Häufungspunkt in A. Jeder
Punkt a von A hat also eine Umgebung Ua , die nur endlich viele Glieder der
Folge enthält. Die Mengen Ua bilden eine offene Überdeckung von A, und
wegen der Kompaktheit von A können wir endlich viele Punkte a1 , . . . , as
wählen, so dass
Ua1 ∪ . . . ∪ Uas ⊇ A.
Dann enthält A nur endlich viele Folgeglieder – Widerspruch.
Der Beweis von (ii) hätte nicht funktioniert, wenn wir in der Kompaktheitsdefinition nur abzählbare Überdeckungen betrachtet hätten.
Eine Menge A in X ist offenbar genau dann beschränkt, wenn ihr Durchmesser
diam A = sup{d(x, y) | x, y ∈ A}
endlich ist.
Das dritte Beispiel oben zeigt, dass offene Intervalle nicht kompakt sind.
Satz 18. (i) Eine kompakte Teilmenge eines metrischen Raumes ist abgeschlossen.
(ii) Eine abgeschlossene Teilmenge eines kompakten metrischen Raumes X
ist kompakt.
Beweis. Ist die Teilmenge A kompakt, so ist A nach Satz 17 folgenkompakt
und nach Satz 16(ii) abgeschlossen in X.
Nun sei A abgeschlossen und U eine offene Überdeckung von A. Dann
ist U ∪ {Ac } eine offene Überdeckung von X. Wegen der Kompaktheit von
X gibt es davon eine Teilmenge {U1 , . . . , Us , Ac }, die X überdeckt, wobei
Ui 6= Ac . Die Familie {U1 , . . . , Us } ist dann eine Teilfamilie von U, die A
überdeckt.
Bisher kennen wir noch keine kompakte Menge.
Satz 19 (Heine-Borel). Eine Teilmenge von Rn ist genau dann kompakt
bezüglich einer der Normen k . kp , wenn sie abgeschlossen und beschränkt ist.
24
Der Beweis ähnelt dem des Satzes von Bolzano-Weierstraß.
Beweis. Jede kompakte Teilmenge von Rn ist nach Satz 17 beschränkt und
nach Satz 18 abgeschlossen.
Umgekehrt sei A eine beschränkte abgeschlossene Teilmenge von Rn .
Dann gibt es eine Zahl r > 0, so dass A ⊆ [−r, r]n . Wegen Satz 18 genügt es
zu zeigen, dass A0 = [−r, r]n kompakt ist.
Angenommen, es gibt eine Überdeckung U von A0 , so dass A0 von keiner endlichen Teilfamilie von U überdeckt wird. Wir werden abgeschlossene
Teilmengen A0 ⊃ A1 ⊃ A2 ⊃ . . . finden, von denen keine durch eine endliche
Teilfamilie von U überdeckt wird, wobei diam Ak = 22rk bezüglich k .k∞ . n
Die Menge A0 ist die Vereinigung von 2n Translaten der Menge − 2r , 2r .
Wenn jede dieser Mengen durch eine endliche Teilfamilie von U überdeckt
würde, wäre das auch bei A0 der Fall im Widerspruch zur Annahme. Also
wird wenigstens eine dieser Teilmengen nicht von einer Teilfamilie von U
überdeckt. Wir nennen diese Teilmenge A1 . Verfahren wir mit A1 ebenso,
erhalten wir eine Teilmenge A2 usw., und es ist diam Ak = 22rk .
Wählen wir Punkte ak ∈ Ak , so gilt für k ≤ l
d(ak , al ) ≤ diam Ak =
2r
,
2k
also ist ak eine Cauchy-Folge und hat nach Folerung 2 einen Grenzwert a.
Für jedes k liegen alle al mit l ≥ k in der abgeschlossenen Menge Ak , also
ist a ∈ Ak . Insbesondere ist a ∈ A0 , also gibt es ein U ∈ U, so dass a ∈ U .
Wegen der Offenheit von U gibt es ein ε > 0, so dass Uε (a) ⊆ U , und für
2r
< ε folgt Ak ⊆ U . Damit wird Ak von der endlichen Teilfamilie {U } von
2k
U überdeckt – Widerspruch.
In Verallgemeinerung des Satzes von Heine-Borel gilt folgendes Kompaktheitskriterium.
Satz 20. Ein metrischer Raum X ist genau dann kompakt, wenn er folgende
Eigenschaften hat:
(i) X ist vollständig.
(ii) Für jedes ε > 0 gibt es ein endliches ε-Netz in X, d. h. eine endliche
Teilmenge {x1 , . . . , xs } ⊆ X, so dass
Uε (x1 ) ∪ . . . ∪ Uε (xs ) = X.
Der Beweis folgt dem Schema des vorigen Beweises:
25
Beweis. Angenommen, X ist kompakt. Dann folgt (i) aus Folgerung 16 und (ii) aus der
Definition, angewendet auf die offene Überdeckung durch die Mengen Uε (a).
Umgekehrt seien (i) und (ii) erfüllt. Da es in X ein 1-Netz gibt, ist X beschränkt.
Es sei diam X = 2r. Angenommen, U ist eine offene Überdeckung von X, aber X wird
durch keine endliche Teilfamilie von U überdeckt. Wir werden abgeschlossene Teilmengen
A1 ⊇ A2 ⊇ . . . mit der Eigenschaft diam Ak ≤ 2r
k konstruieren, von denen keine durch
eine endliche Teilfamilie von U überdeckt wird.
Wir setzen A1 = X. Dies hat die geforderten Eigenschaften. Haben wir A1 , . . . , Ak−1
bereits gefunden, so wählen wir ein kr -Netz {x1 , . . . , xs }. Die Vereinigung der Mengen
Ur/k (xi ) ∩ Ak−1 = x ∈ Ak−1 | d(x, xi ) ≤ kr
mit i von 1 bis s ist Ak−1 . Ließe sich jede von ihnen durch eine endliche Teilfamilie
von U überdecken, so wäre dies auch für Ak−1 der Fall im Widerspruch zur Induktionsvoraussetzung. Also lässt sich eine von ihnen nicht durch eine endliche Teilfamilie
überdecken, und diese nennen wir Ak . Nach Konstruktion ist Ak abgeschlossen, und
diam Ak ≤ diam Ur/k (xi ) ≤ 2r
k .
Nun wählen wir Punkte ak ∈ Ak . Für k ≤ l gilt
d(ak , al ) ≤ diam Ak ≤
2r
,
k
also bilden die ak eine Cauchyfolge, die wegen (i) einen Grenzwert a besitzt. Da alle al
mit l ≥ k in der abgeschlossenen Menge Ak liegen, ist a ∈ Ak , wobei k beleibig ist.
Da U eine Überdeckung ist, gibt es eine Menge U ∈ U , so dass a ∈ U , und da U offen
ist, gibt es ein ε > 0, so dass Uε (a) ⊆ U . Für 2d
k < ε ist Ak ⊂ U , d. h. Ak lässt sich durch
die endliche Teilfamilie {U } überdecken – Widerspruch.
Der Satz gilt nicht für unendlichdimensionale Vektorräume. So hat z. B.
im Raum der beschränkten Zahlenfolgen x = (x0 , x1 , x2 , . . . ) die Folge der
Punkte
(1, 0, 0, 0, . . . ),
(0, 1, 0, 0, . . . ),
(0, 0, 1, 0, . . . ),
...
keinen Häufungspunkt, obwohl sie bezüglich der Supremumsnorm beschränkt
ist.
Für metrische Räume sind Kompaktheit und Folgenkompaktheit äquivalent:
Satz 21. Jeder folgenkompakte metrische Raum ist kompakt.
Beweis. Ist X folgenkompakt, so ist X nach Satz 16(i) vollständig. Angenommen, X hat für ein gewisses ε > 0 kein ε-Netz. Wir konstruieren eine
Folge von Punkten xk , so dass für alle k und l gilt d(xk , xl ) ≥ ε.
Dazu wählen wir x1 beliebig. Sind bereits x1 , . . . , xk mit der angegebenen
Eigenschaft gefunden, so können sie kein ε-Netz bilden, also ist
Uε (x1 ) ∪ · · · ∪ Uε (xk )
26
eine echte Teilmenge von X, und wir können xk+1 in ihrem Komplement
wählen.
In der 2ε -Umgebung eines beliebigen Punktes a kann höchstens ein Glied
der Folge liegen, also ist a kein Häufungspunkt. Dies widerspricht der Folgenkompaktheit. Somit war unsere Annahme falsch, und X ist nach Satz 20
kompakt.
Nun kommen wir zu den Anwendungen der Kompaktheit.
Satz 22. Ist X ein metrischer Raum, A eine kompakte Teilmenge von X
und f : X → Y eine stetige Abbildung, so ist f (A) kompakt.
Beweis. Es sei U eine Überdeckung von f (A) durch offene Mengen in Y .
Nach Satz 8(ii) ist {f −1 (U ) | U ∈ U} eine offene Überdeckung von A. Wegen
der Kompaktheit von A gibt es eine endliche Teilfamilie {U1 , . . . , Us } ⊆ U,
so dass
A ⊆ f −1 (U1 ) ∪ f −1 (Us ).
Es folgt f (A) ⊆ U1 ∪ · · · ∪ Us .
Folgerung 5. Ist X ein kompakter metrischer Raum und f : X → R eine
stetige Funktion, so besitzt f ein Maximum und ein Minimum, d. h. es gibt
a, b ∈ X, so dass f (a) ≤ f (x) ≤ f (b) für alle x ∈ X.
Beweis. Nach Satz 22 und Satz 19 ist f (X) beschränkt und abgeschlossen
in R. Also existieren sup f = sup f (X) und inf f = inf f (X), und weil diese
Zahlen Häufungspunkte von f (X) sind (vgl. Aufgabe 1 der ersten Klausur),
gehören sie zu f (X).
Folgerung 6. Ist f : X → Y eine bijektive stetige Abbildung und X kompakt,
so ist f ein Homöomorphismus.
Beweis. Ist A eine offene Teilmenge von X, so ist A nach Satz 18 kompakt,
und nach Satz 22 ist f (A) kompakt. Mit Satz 2(iv) folgt, dass jede offene
Teilmenge von X ein offenes Bild unter f , also ein offenes Urbild unter f −1
hat. Somit ist f −1 stetig.
Definition 16. Es sei X ein metrischer Raum. Für Punkte x und Teilmengen A und B von X definieren wir
d(x, B) = d(B, x) = inf{d(x, y) | y ∈ B},
d(A, B) = inf{d(x, y) | x ∈ A, y ∈ B}.
Beispiel. Für die Teilmengen A = N \ {0} und B = {k − k1 | k ∈ A} von R
gilt d(A, B) = 0, obwohl sie abgeschlossen und disjunkt sind. ⊳
27
Satz 23. Es sei X ein metrischer Raum.
(i) Für jede Teilmenge B ist die durch f (x) = d(x, B) definierte Funktion
f : X → R Lipschitz-stetig.
(ii) Ist A abgeschlossen, B kompakt und A ∩ B = ∅, so ist d(A, B) > 0.
Beweis. (i) Für alle x, y, z ∈ X gilt nach der Dreiecksungleichung
d(x, z) ≤ d(x, y) + d(y, z).
Bilden wir das Infimum über alle z ∈ B, so folgt
d(x, B) ≤ d(x, y) + d(y, B).
Durch Vertauschung von x und y ergibt sich eine weitere Ungleichung. Fassen
wir beide zusammen, so erhalten wir
|d(x, B) − d(y, B)| ≤ d(x, y).
(ii) Wegen
{d(x, y) | x ∈ A, y ∈ B} =
[
y∈B
{d(x, y) | x ∈ A}
gilt d(A, B) = inf{d(A, y) | y ∈ B}. Ist B kompakt, so gibt es nach Folgerung 5 ein b ∈ B, so dass d(A, B) = d(A, b). Ist A abgeschlossen, so gibt es
wegen b ∈
/ A ein ε > 0, so dass Uε (b) ∩ A = ∅. Also gilt d(A, b) ≥ ε und
somit d(A, B) ≥ ε.
Satz 24. Es sei K = R oder K = C.
(i) Alle Normen auf einem K-Vektorraum sind äquivalent.
(ii) Jede K-lineare Abbildung zwischen K-Vektorräumen ist Lipschitz-stetig.
Beweis. (i) Die Menge S = {x ∈ Rn | kxk∞ = 1} ist als Urbild einer abgeschlossenen Menge abgeschlossen und offensichtlich beschränkt, also nach
Satz 19 kompakt. Ist k . k′ eine beliebige Norm auf Rn , so finden wir wie in
Lemma 2 ein c, so dass für alle x ∈ V gilt
kxk′ ≤ ckxk∞ .
Die Norm k . k′ ist also bezüglich k . k∞ Lipschitz-stetig, und ihre Einschränkung auf S hat nach Satz 5 ein Minimum ε, welches nach Eigenschaft (iii)
der Norm positiv ist. Ist x 6= 0 und t = kxk∞ , so ist t−1 x ∈ S, also
kxk′ = tkt−1 xk′ ≥ tε,
28
und mit c′ =
1
ε
folgt
kxk∞ ≤ c′ kxk′ .
Dies gilt offensichtlich auch für x = 0, also ist jede Norm auf Rn äquivalent
zu k . k∞ . Da jeder endlichdimensionale R-Vektorraum V isomorph zu Rn ist,
sind somit sind alle Normen auf V äquivalent. Das Selbe gilt auch für einen
beliebigen C-Vektorraum W , denn jede Norm auf W ist auch eine Norm
bezüglich der unterliegenden Struktur9 eines R-Vektorraums.
(ii) Es sei f : K n → K m K-linear. Dann gibt es Elemente aij ∈ K, so dass
die Koordinatenfunktionen von f gegeben sind durch
fi (x) =
n
X
aij xj .
j=1
Nun gilt
kf (x)k1 ≤ kxk∞
m X
n
X
i=1 j=1
|aij |,
also ist f Lipschitz-stetig bezüglich gewisser Normen. Mit Teil (i) folgt die
Behauptung für beliebige Normen auf beliebigen endlichdimensionalen KVektorräumen.
Definition 17. Man nennt die Lipschitz-Konstante
kf (x)k′
kxk
x∈V \{0}
kf k = sup
die Norm der linearen Abbildung f : V → V ′ bezüglich der gegebenen Normen auf V und V ′ .
Auch der Begriff der gleichmäßigen Stetigkeit verallgemeinert sich auf
metrische Räume.
Definition 18. Eine Abbildung f : X → Y zwischen metrischen Räumen
heißt gleichmäßig stetig, wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für
alle u, v ∈ X gilt
d(u, v) < δ
=⇒
e(f (u), f (v)) < ε.
Zwei Metriken d und d∗ auf einer Menge heißen äquivalent, wenn die identischen Abbildungen (X, d) → (X, d∗ ) und (X, d∗ ) → (X, d) gleichmäßig stetig
sind.
9
Diese Struktur besteht aus der selben Addition und aus der Skalarmultiplikation lediglich mit Elementen des Teilkörpers R.
29
Offensichtlich bildet eine gleichmäßig stetige Abbildung konvergente Folgen auf konvergente Folgen und Cauchy-Folgen auf Cauchy-Folgen ab. Diese
Begriffe ändern sich also nicht, wenn man zu einer äquivalenten Metrik übergeht. Aufgabe 7 liefert ein Beispiel äquivalenter Metriken.
Beispiel. Sind X1 , . . . , Xn metrische Räume, so wird eine Metrik auf X1 ×
. . . × Xn durch
d(u, v) = d1 (u1 , v1 ), . . . , dn (un , vn ) gegeben, wobei k . k eine beliebige Norm auf Rn ist. Äquivalente Normen
ergeben äquivalente Metriken. ⊳
Auch Satz I.65 verallgemeinert sich.
Satz 25. Ist X kompakt und f : X → Y stetig, so ist f gleichmäßig stetig.
Beweis. Es sei ε > 0 gegeben. Wegen der Stetigkeit gibt es für jedes a ∈ X
ein δa > 0, so dass für x ∈ U2δa (a) gilt d(f (x), f (a)) < 2ε . Da X kompakt ist,
gibt es a1 , . . . , as ∈ X, so dass
Uδa1 (a1 ) ∪ · · · ∪ Uδas (as ) = X.
Wir setzen δ = min{δa1 , . . . , δas }. Sind nun u, v ∈ X mit d(u, v) < δ, so gibt
es ein i mit u ∈ Uδai (ai ), also v ∈ U2δai (ai ), und somit
e(f (u), f (v)) ≤ e(f (u), f (ai )) + e(f (ai ), f (v)) <
2
2.1
ε ε
+ = ε.
2 2
Differentiation und Integration vektorwertiger Funktionen
Definition und Eigenschaften
Der Begriff der Ableitung verallgemeinert sich auf Funktionen mit Werten in
einem K Vektorraum V , wobei K = R oder K = C.
Definition 19. Es sei D ⊂ K und a ∈ D ein Häufungspunkt von D. Eine
Funktion f : D → V heißt differenzierbar an der Stelle a, wenn der Grenzwert
1
f ′ (a) = lim
(f (x) − f (a))
x→a x − a
existiert.
30
Bisher kennen wir nur das Integral von Funktionen f : [a, b] → K. Dort
haben wir für Teilungen T = {x0 , . . . , xm } von [a, b] und zugehörige Mengen
Z = {z1 , . . . , zm } von Stützstellen für T betrachtet, d. h.
a = x0 ≤ z1 ≤ x1 ≤ z2 ≤ x2 ≤ . . . ≤ zm ≤ xm = b.
Unter der Feinheit von T verstehen wir max xk − xk−1 | k ∈ {1, . . . , m} .
Die Riemannsche Summe
m
X
S(f, T, Z) =
(xk − xk−1 )f (zk )
k=1
ergibt auch für vektorwertige Funktionen einen Sinn, und in Anlehnung an
Definition I.58 setzen wir fest:
Definition 20. Es sei V ein endlichdimensionaler Vektorraum über K und
f : [a, b] → V . Ein Element I ∈ V heißt Integral der Funktion f über das
Intervall [a, b], wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für jede
Teilung T von [a, b] mit einer Feinheit kleiner als δ und für jede Menge von
Stützstellen Z für T gilt
kS(f, T, Z) − Ik < ε.
Die Funktion f heißt integrierbar, wenn ein Integral existiert.
Wenn f integrierbar
R b ist, so gibt es offenbar nur ein Integral I, und wir
bezeichnen es mit a f (x) dx. Am einfachsten, wenn auch nicht besonders
elegant, ist es, alles auf den skalaren Fall zurückzuführen.
Lemma 6. (i) Eine Funktion f : D → K n ist genau dann differenzierbar
an der Stelle a, wenn ihre Koordinatenfunktionen f1 , . . . , fn : D → K
an der Stelle a differenzierbar sind, und dann ist
f ′ (a) = f1′ (a), . . . , fn′ (a) .
(ii) Eine Funktion f : [a, b] → K n ist genau dann integrierbar, wenn ihre
Koordinatenfunktionen integrierbar sind, und dann ist
Z b
Z b
Z b
f (x) dx =
f1 (x) dx .
f1 (x) dx, . . . ,
a
a
a
Beweis. Nach den Definitionen gilt
1
fn (x) − fn (a)
f1 (x) − f1 (a)
(f (x) − f (a)) =
,...,
,
x−a
x−a
x−a
S(f, T, Z) = S(f1 , T, Z), . . . , S(fn , T, Z) ,
und die Behauptungen folgen aus den früheren Bemerkungen über Grenzwerte vektorwertiger Funktionen.
31
Die Sätze I.67, I.82, I.84 und I.86 verallgemeinern sich ohne Schwierigkeiten.
Satz 26. (i) Sind f , g : D → V an der Stelle a differenzierbar und ist
c ∈ K, so sind f + g und c · f an der Stelle a differenzierbar, und
(f + g)′ (a) = f ′ (a) + g ′ (a),
(cf )′ (a) = cf ′ (a).
(ii) Jede stetige Funktion auf einem kompakten Intervall ist integrierbar.
(iii) Ist a ≤ b ≤ c, so ist eine Funktion f : [a, c] → V genau dann integrierbar, wenn f |[a,b] und f |[b,c] integrierbar sind, und dann gilt
Z c
Z b
Z c
f (x) dx.
f (x) dx +
f (x) dx =
b
a
a
(iv) Sind f , g : [a, b] → V integrierbar und l : V → W eine lineare Abbildung, so sind auch f + g, l ◦ f und kf k integrierbar, und es gilt
Z b
Z b
Z b
g(x) dx,
f (x) dx +
(f (x) + g(x)) dx =
a
a
a
Z b
Z b
l(f (x)) dx = l
f (x) dx ,
a
a
Z b
Z b
≤
kf (x)k dx.
f
(x)
dx
a
a
(v) Ist f ′ (x) = 0 für alle x ∈ [a, b], so ist f konstant auf [a, b].
Beweis. Teil (ii) folgt mit Lemma 6 aus der Tatsache, dass die Koordinatenfunktionen einer gleichmäßig stetigen Funktion gleichmäßig stetig sind. Beim
Beweis der Integrierbarkeit von kf k in Teil (iii) benutzt man, dass
sup kf k1 − inf kf k1 ≤ (sup f1 − inf f1 ) + . . . + (sup fn − inf fn ),
wobei die Funktionen jeweils auf die Teilintervalle von T eingeschränkt werden, so dass
S(kf k1 , T ) − S(kf k1 , T ) ≤
n
X
j=1
S(fj , T ) − S(fj , Z) .
Aussage (v) folgt mit Lemma 6 aus Folgerung I.34, obwohl der Mittelwertsatz
für n > 1 nicht gilt. Ansonsten sind die Beweise identisch mit den früheren.
32
Rb
Auf Grund von Satz 26(iii) können wir a f (x) dx auch wieder ohne die
Voraussetzung a ≤ b definieren. Der Hauptsatz der Infinitesimalrechnung hat
ebenfalls eine vektorwertige Version:
Satz 27. Ist f : [a, b] → V stetig differenzierbar, so gilt
Z b
f ′ (x) dx = f (b) − f (a).
a
Der Beweis der Sätze I.89, I.90 überträgt sich wortwörtlich.
2.2
Variation
Die Bewegung eines Punktes in einem Raum X während eines Zeitintervalls
I kann man durch eine Abbildung f : I → X beschreiben. Wir interessieren
uns für die Länge des zurückgelegten Weges.
Definition 21. Ist I ein Intervall, X ein metrischer Raum und f : I → X,
so setzen wir für jede Teilung T = {t0 , . . . , tm } eines Teilintervalls [a, b] ⊆ I
V (f, T ) =
m
X
d(f (xk−1 ), f (xk )).
k=1
Wir nennen
Varba (f ) = sup{V (f, T ) | T ist Teilung von [a, b].}
die Variation von f über [a, b]. Wir sagen, dass f von beschränkter Variation
ist, wenn Varba (f ) < ∞ für alle a ≤ b in I.
Beispiel. Die Abbildung f : [0, ∞[ → C sei durch
(
t · ei/t , wenn t 6= 0,
f (t) =
0
wenn t = 0
gegeben. Nach dem Einschließungskriterium ist lim f (t) = 0, also ist f stetig.
t→0
Es gilt
k−1 (−1)k
1
(−1)
1
2
1
f
=
= 1 +
−f
−
>
,
kπ
(k − 1)π
kπ
(k − 1)π
kπ (k − 1)π
kπ
also
m
1
1
2X1
1
,
,..., ,1
>
,
V f, 0,
mπ (m − 1)π
π
π k=2 k
und wegen der Divergenz der harmonischen Reihe ist Var10 (f ) = ∞.
33
⊳
Satz 28. Es sei X ein metrischer Raum, I ein Intervall und f : I → X.
(i) Sind I und I ′ kompakte Intervalle und g : I ′ → I monoton und bijektiv,
so ist
g(b)
Varba (f ◦ g) = Varg(a) f.
(ii) Für alle a, b, c ∈ I, wobei a ≤ b ≤ c ist, gilt
Varba f + Varcb f = Varca f.
(iii) Ist X = V ein K-Vektorraum, so gilt für f , g : I → V und c ∈ K
Varba (f + g) ≤ Varba (f ) + Varba (g),
Varba (c · f ) = |c| Varba (f ).
(iv) Ist X = K n , so ist f genau dann von beschränkter Variation, wenn
alle Koordinatenfunktionen fj von beschränkter Variation sind.
Beweis. (i) Ist T eine Teilung von [g(a), g(b)], so ist T ′ = g −1 (T ) eine Teilung von [a, b], und ist T ′ eine Teilung von [a, b], so ist T = g(T ′ ) eine
von [g(a), g(b)]. In beiden Fällen gilt
V (f ◦ g, T ′ ) = V (f, T ).
Wir haben also das Supremum der selben Menge zu bilden.
(ii) Sind T1 und T2 Teilungen von [a, b] bzw. [b, c], so ist T = T1 ∪ T2 eine
Teilung von [a, c], und
V (f, T1 ) + V (f, T2 ) = V (f, T ).
Nun folgt die Behauptung ähnlich wie bei Satz I.84.
(iii) Laut Dreiecksungleichung und Eigenschaft (i) der Norm gilt
V (f + g, T ) ≤ V (f, T ) + V (g, T ),
V (cf, T ) = |c|V (f, T ).
(iv) Ist f bezüglich einer Norm auf K n von beschränkter Variation, so auch
bezüglich jeder äquivalenten Norm. Im Falle k . k1 ist
V (f, T ) = V (f1 , T ) + . . . + V (fn , T ),
und die linke Seite ist genau dann unabhängig von T beschränkt, wenn es
jeder Summand auf der rechten Seite ist.
Wie schon bei Satz I.84 bleibt die Behauptung von Satz 28(ii) ohne die
Voraussetzung a ≤ b ≤ c gültig, wenn wir für a ≥ b definieren Varba (f ) =
− Varab (f ).
34
Definition 22. Es sei X ein metrischer Raum.
(i) Zwei auf Intervallen definierte stetige Abbildungen f1 : I1 → X und f2 :
I2 → X heißen äquivalent, wenn es eine monotone bijektive Abbildung
g : I1 → I2 gibt, so dass f1 = f2 ◦ g.
(ii) Unter einer Kurve C in X verstehen wir eine Äquivalenzklasse von
solchen Abbildungen, und jeden Repräsentanten nennen wir eine Parametrisierung der Kurve.
(iii) Wird eine Kurve C durch eine Abbildung f : [a, b] → X parametrisiert,
so nennen wir Varba (f ) die Länge von C. Eine Kurve von endlicher
Länge nennt man rektifizierbar.
Die beschriebene Relation ist tatsächlich eine Äquivalenzrelation. Man
beachte, dass Abbildungen g wie in (i) nach Satz I.57 stetig sind. Ist eine
Parametrisierung von C auf einem kompakten Intervall definiert, so nach
Satz 22 auch jede andere Parametrisierung. Satz 28(i) zeigt, dass die Länge
einer Kurve nicht von der Parametrisierung abhängt.
Satz 29. Ist V ein endlichdimensionaler Vektorraum und f : [a, b] → V
stetig differenzierbar, so gilt
Z b
b
kf ′ (t)k dt,
Vara (f ) =
a
wobei auf beiden Seiten die selbe Norm zu benutzen ist.
Beweis. Es sei ε > 0. Da f ′ nach Satz 25 gleichmäßig stetig ist, gibt es ein
ε
δ1 > 0, so dass für u, v ∈ [a, b] mit |u − v| < δ1 gilt kf ′ (u) − f ′ (v)k < 2(b−a)
.
Nun sei T = {t0 , . . . , tm } eine Teilung von [a, b] mit einer Feinheit kleiner
als δ1 und dazu Z = {z1 , . . . , zm } eine Menge von Stützpunkten. Nach Satz 27
gilt
Z
′
f (tk ) − f (tk−1 ) − (tk − tk−1 )f (zk ) =
tk
tk−1
(f ′ (t) − f ′ (zk )) dt.
Mit der Dreiecksungleichung und Satz 26(iv) folgt
kf (tk ) − f (tk−1 )k − (tk − tk−1 )kf ′ (zk )k
≤ kf (tk ) − f (tk−1 ) − (tk − tk−1 )f ′ (zk )k
Z tk
tk − tk−1
kf ′ (t) − f ′ (zk )k dt ≤ ε ·
≤
.
2(b − a)
tk−1
35
Durch Summation ergibt sich
V (f, T ) − S(kf ′ k, T, Z) ≤ ε .
2
Nach Definition des Integrals gibt es ein δ2 > 0, so dass
Z b
ε
′
< ,
S(kf ′ k, T, Z) −
kf
(x)k
dx
2
a
wenn die Feinheit von T kleiner als δ2 ist. Ist sie kleiner als δ = min{δ1 , δ2 },
so folgt mit der Dreiecksungleichung
Z b
′
< ε.
V (f, T ) −
kf
(x)k
dx
a
Ist T ′ eine beliebige Teilung, so gibt es eine Verfeinerung T ⊇ T ′ mit einer
Feinheit kleiner als δ, und V (f, T ) ≥ V (f, T ′ ). Also ist Varba (f ) gleich dem
Supremum über alle Teilungen mit einer Feinheit kleiner als δ, und es folgt
Z b
b
′
Vara (f ) −
≤ ε.
kf
(x)k
dx
a
Da ε beliebig war, folgt die Behauptung.
Man beachte, dass eine Funktion von beschränkter Variation nicht stetig
zu sein braucht.
Satz 30. Es sei I ein Intervall. Eine Funktion f : I → R ist genau dann
von beschränkter Variation, wenn es eine monoton wachsende Funktion g
und eine monoton fallende Funktion h auf I gibt, so dass f = g + h.
Beweis. Ist g monoton wachsend und h monoton fallend, so gilt offenbar
Varba (g) = g(b) − g(a),
Varba (h) = h(a) − h(b),
und nach Satz 28(iii) ist g + h von beschränkter Variation.
Ist umgekehrt f von beschränkter Variation und a ∈ I, so ist
g(t) = Varta (f )
monoton wachsend, denn für s ≤ t in I gilt nach Satz 28(ii)
g(t) − g(s) = Varts (f ) ≥ 0.
Genauer gilt
Varts (f ) ≥ V (f, {s, t}) = |f (t) − f (s)| ≥ f (t) − f (s).
Setzen wir also h = f − g, so folgt h(s) ≥ h(t).
36
Diese Idee ist auch für rektifizierbare Kurven C in beliebigen metrischen Räumen
X von Nutzen. Ist f : I → X eine Parametrisierung und a ∈ I, so ist g(t) = Varta (f )
monoton wachsend. Gilt für zwei Zahlen u, v ∈ I die Gleichheit g(u) = g(v), so gilt
auch f (u) = f (v). Somit gibt es eine Abbildung h : J → X, so dass h ◦ g = f , wobei
J = g(I). Man nennt h eine natürliche Parametrisierung von C, weil für beliebige s, t ∈ J
gilt Varts (h) = t − s. Ist h̃ : J˜ eine weitere natürliche Parametrisierung, so gibt es Zahlen
˜
c ∈ {1, −1} und d ∈ R, so dass h̃(s) = h(cs + d) für alle s ∈ J.
2.3
Parameterabhängige Integrale I
Wenn eine Funktion f von vielen Variablen abhängt, so hält man oft einige
Variablen fest und betrachtet f nur als Funktion der übrigen Variablen. Die
festgehaltenen Variablen, im Folgenden mit t bezeichnet, nennt man Parameter.
Im Folgenden sei T ein metrischer Raum, [a, b] ein kompaktes Intervall
und V ein endlichdimensionaler Vektorraum über R oder C. Wir wollen wissen, welche Bedingungen wir an eine Funktion f : [a, b] × T → V stellen
müssen, damit durch
Z
b
f (x, t) dx
I(t) =
a
eine stetige Funktion I auf T definiert wird. Wir setzen
F (t)(x) = f (x, t),
d. h. der Wert F (t) der Funktion F an der Stelle t ist seinerseits eine Funktion10 auf [a, b] mit Werten in V . Natürlich muss letztere Funktion auf [a, b]
integrierbar sein.
Satz 31. Es sei F eine Abbildung von T in den Raum der integrierbaren
Funktionen [a, b] → V . Ist F an einer Stelle u ∈ T stetig bezüglich der
Supremumsnorm, so ist die oben definierte Funktion I stetig an der Stelle u.
Beweis. Aus der Stetigkeit von F an der Stelle u folgt, dass es für jedes
ε > 0 ein δ > 0 gibt, so dass für alle t ∈ T mit der Eigenschaft d(t, u) < δ
ε
gilt kF (t) − F (u)k < b−a
, d. h.
|f (x, t) − f (x, u)| <
ε
b−a
für alle x ∈ [a, b]. Nach Satz 26(iv) ist
Z b
(f (x, t) − f (x, u)) dx,
I(t) − I(u) =
a
10
Dies hängt mit der Gleichmächtigkeit V X×T ∼
= (V X )T aus Aufgabe I.10* zusammen.
37
und für d(t, u) < δ folgt
kI(t) − I(u)k ≤
Z
b
a
kf (x, t) − f (x, u)k dx < ε.
Man kann die Stetigkeit von I an der Stelle u auch durch
I(t) → I(u) (t → u)
ausdrücken. Wir fragen nun nach der Existenz dieses Grenzwertes, wenn
I(u) noch gar nicht definiert ist. Statt des Parameters t betrachten wir der
Einfachheit halber einen Parameter k ∈ N.
Satz 32. Konvergiert die Folge von integrierbaren Funktionen fk : [a, b] → V
gleichmäßig gegen eine Funktion f : [a, b] → V , so ist auch f integrierbar,
und
Z b
Z b
lim
fk (x) dx =
f (x) dx.
k→∞
a
a
Beweis. Wir bezeichnen das Integral auf der linken Seite mit Ik . Da die
Folge fk eine Cauchy-Folge bezüglich der Supremumsnorm ist, gibt es für
jedes ε > 0 ein k0 , so dass für k ≥ k0 und l ≥ k0 und alle x ∈ [a, b] gilt
kfk (x) − fl (x)k <
ε
,
b−a
und wie im vorigen Beweis folgt kIk − Il k < ε. Die Folge Ik ist also auch eine
Cauchy-Folge und hat wegen der Vollständigkeit von V einen Grenzwert I.
Außerdem konvergiert nach Voraussetzung fk gleichmäßig gegen f . Es gibt
also für jedes ε > 0 ein k, so dass
ε
ε
kfk (x) − f (x)k <
kIk − Ik < ,
3
3(b − a)
für alle x ∈ [a, b]. Daraus folgt, dass für alle Teilungen T von [a, b] und alle
zugehörigen Mengen Z von Stützstellen gilt
ε
kS(fk , T, Z) − S(f, T, Z)k < .
3
Laut Definition von Ik gibt es schließlich ein δ > 0, so dass
ε
kS(fk , T, Z) − Ik k < ,
3
falls T eine Feinheit kleiner als δ hat. Mit der Dreiecksungleichung erhalten
wir für solche Teilungen T
ε ε ε
kS(f, T, Z) − Ik < + + = ε.
3 3 3
38
Da ε beliebig war, folgt die Integrierbarkeit von f und
Z b
f (x) dx = I.
a
Damit ist alles bewiesen.
Beispiel. Die durch
(
g(x) =
1
,
q
0
falls x = pq mit teilerfremden p, q ∈ Z, q > 0,
falls x ∈
/Q
definierte Funktion g : R → R ist auf jedem kompakten Intervall [a, b] integrierbar, weil es für jedes ε > 0 nur endlich viele x ∈ [a, b] gibt, so dass
√
g(x) > ε. Das Gleiche gilt für die Funktionen fk = k g mit k ∈ N \ {0}. Die
Folge konvergiert für k → ∞ punktweise gegen die Funktion
(
1, falls x ∈ Q,
f (x) =
0 andernfalls,
die nicht integrierbar ist.
3
3.1
⊳
Differentiation von Funktionen von mehreren Variablen
Definition der Ableitung
Es sei wieder K = R oder K = C. Wir betrachten Funktionen, deren Definitionsbereich D eine Teilmenge von K n ist. Durch Einschränkung erhält man
Funktionen von einer Variablen und kann die bekannten Begriffe übertragen.
Definition 23. Es sei D eine Teilmenge von K n und a ∈ D. Die partielle
Ableitung einer Funktion f : D → K m nach dem jten Argument ist die
Ableitung der Funktion von einer Variablen
xj 7→ f (a1 , . . . , aj−1 , xj , aj+1 , . . . , an )
an der Stelle aj . Wir bezeichnen sie mit ∂j f (a). Wenn sie existiert, heißt f
an der Stelle a partiell differenzierbar nach dem jten Argument.
39
Schreiben wir xj = aj + h, so erhalten wir
f (a + hej ) − f (a)
,
h→0
h
∂j f (a) = lim
wobei ej ∈ K n den jten Vektor der Standardbasis bezeichnet. Damit ∂j f (a)
definiert ist, muss insbesondere a ein Häufungspunkt der Menge {a + hej ∈
D | h ∈ K} sein.
∂f
, wobei die Stelle a nicht vermerkt
Die traditionelle Bezeichnung ist ∂x
j
wurde und das jte Argument immer mit der selben Variablen bezeichnet
werden musste.11
p
Beispiel. Es sei K = R und f (x) = x21 + . . . + x2n . Dann ist für x ∈ Rn \{0}
1
1
xj
.
∂j f (x) = (x21 + . . . + x2n )− 2 · 2xj =
2
f (x)
⊳
In einem K-Vektorraum V ist im Allgemeinen keine Standardbasis ausgezeichnet.
Definition 24. Es sei D eine Teilmenge eines K-Vektorraumes V und W ein
weiterer K-Vektorraum. Die Richtungsableitung einer Funktion f : D → W
bezüglich eines Vektors v ∈ V an der Stelle a ∈ D ist
f (a + hv) − f (a)
.
h→0
h
∂v f (a) = lim
Offensichtlich gilt ∂tv f (a) = t∂v f (a) für t ∈ K. Damit ∂v f (a) definiert
ist, muss insbesondere a ein Häufungspunkt der Menge {a+hv ∈ D | h ∈ K}
sein.
Beispiel. Es sei f wie oben und v = (v1 , . . . , vn ). Dann ist ∂v f (x) die Ableitung von
p
(x1 + hv1 )2 + . . . + (xn + hvn )2
als Funktion von h an der Stelle 0, also gilt für x 6= 0
1
hx, vi
1
.
∂v f (x) = (x21 + . . . + x2n )− 2 (2x1 v1 + . . . + 2xn vn ) =
2
f (x)
⊳
Erinnert man sich, dass die Ableitung einer Funktion von einer Variablen
die Steigung der Tangente an den Graphen angibt, so sollte die Ableitung
einer Funktionen von mehreren Variablen etwas mit der Tangentialebene an
den Graphen zu tun haben.
11
Der Buchstabe ∂ ist übrigens ein kursives kyrillisches d.
40
Definition 25. Es seien V und W endlichdimensionale K-Vektorräume, D
eine Teilmenge von V und a ein innerer Punkt von D. Eine lineare Abbildung
l : V → W heißt (totale) Ableitung einer Funktion f : D → W an der
Stelle a, wenn
f (a + v) − f (a) − l(v)
→ 0 (v → 0).
kvk
Die Funktion f heißt K-differenzierbar an der Stelle a, wenn eine Ableitung
l existiert.
Bemerkung. Wenn wir den Zähler mit r(v) bezeichnen, so können wir die
Bedingung auch in der Form kr(v)k
→ 0 (v → 0) schreiben. Wegen
kvk
f (a + v) = f (a) + l(v) + r(v)
gibt das Restglied r(v) an, wie gut f (a+v) durch f (a)+l(v) angenähert wird.
Da alle Normen auf V äquivalent sind, hängt die Differenzierbarkeit nicht von
der Wahl einer Norm ab. Eine an der Stelle a differenzierbare Funktion ist
dort offenbar auch stetig.
Bemerkung. Ist f an der Stelle a differenzierbar, so existieren dort die Richtungsableitungen bezüglich aller Vektoren v ∈ V , denn f (a + hv) ist für h in
einer Umgebung der Null definiert, und
l(hv) + r(hv)
r(hv)
= l(v) + lim
= l(v),
h→0
h→0
h
h
∂v f (a) = lim
was für v = 0 offensichtlich ist, während für v 6= 0 nach Definition gilt
r(hv) kr(hv)k
h = kvk khvk → 0 (h → 0).
Somit ist die Ableitung l von f an einer Stelle a eindeutig bestimmt, und
wir bezeichnen sie mit f ′ (a). Für eine lineare Abbildung l : V → W schreibt
man oft lv an Stelle von l(v), und die Menge solcher Abbildungen bezeichnet
man mit Hom(V, W ). Die Formel für die Richtungsableitungen lautet also
∂v f (a) = f ′ (a)v.
Bemerkung. Eine Abbildung f : D → K m ist genau dann differenzierbar an
der Stelle a, wenn alle ihre Koordinatenfunktionen an dieser Stelle differenzierbar sind.
Sind nämlich die Koordinatenfunktionen fj differenzierbar, so gibt es lineare Abbildungen lj : D → K, so dass
fj (a + v) − fj (a) − lj (v)
→ 0 (v → 0).
kvk
41
Setzen wir l(v) = (l1 (v), . . . , lm (v)), so folgt die Existenz des Grenzwertes in
der Definition. Die Umkehrung zeigt man analog.
Bemerkung. Im Falle V = K n ist
l(v) = l(v1 e1 + . . . + vn en ) = l(e1 )v1 + . . . + l(en )vn ,
also mit den obigen Bezeichnungen
f ′ (a)v = ∂1 f (a)v1 + . . . + ∂n f (a)vn .
Eine traditionalle Schreibweise hierfür ist
df =
∂f
∂f
dx1 + . . . +
dxn ,
∂x1
∂xn
wobei man die linke Seite als totales Differential bezeichnet.
Ist außerdem W = K m und schreiben wir die Elemente von V und W als
Spaltenvektoren, so erhalten wir
 



v1
∂1 f1 (a) . . . ∂n f1 (a)
f1 (x)



 .. 
.
.
.
′
..
..
f (a)v = 
f (x) =  .  ,
  ..  .
vn
∂1 fm (a) . . . ∂n fm (a)
fm (x)
Die Matrix auf der rechten Seite nennt man Funktionalmatrix oder JacobiMatrix ; wir werden sie ebenfalls mit f ′ (a) bezeichnen.
Satz 33. Ist D ⊆ Rn und hat f : D → W in ganz D partielle Ableitungen
bezüglich aller Argumente, die in einem inneren Punkt a von D stetig sind,
so ist f an der Stelle a differenzierbar.
Beweis. Es genügt, den Fall W = R zu betrachten. Wir müssen zeigen, dass
die lineare Abbildung
n
X
l(v) =
∂j f (a)vj
j=1
die Ableitung von f an der Stelle a ist. Wegen a ∈ D̊ gibt es ein η > 0, so
dass Uη (a) ⊂ D. Für v ∈ Rn mit kvk < η liegen die Punkte
a0 = a,
a1 = a0 + v 1 e 1 ,
a2 = a1 + v 2 e 2 ,
...,
an = an−1 + vn en
in D, ebenso die Verbindungsstrecken [aj−1 , aj ]. Wenden wir den Mittelwertsatz der Differentialrechnung auf f (aj−1 + hej ) als Funktion von h ∈ [0, vj ]
an, so erhalten wir ein bj ∈ [aj−1 , aj ], so dass
f (aj ) − f (aj−1 ) = ∂j f (bj )vj .
42
Durch Summation erhalten wir
f (a + v) − f (a) =
n
X
∂j f (bj )vj ,
(1)
j=1
wobei die Punkte bj von v abhängen, aber immer gilt kbj − ak < kvk. Wegen
der Stetigkeit der partiellen Ableitungen gibt es für jedes ε > 0 ein δ > 0, so
dass für kx − ak < δ gilt
|∂j f (x) − ∂j f (a)| < ε.
Ist kvk < δ, so gilt dies insbesondere für x = bj , also ist nach der Dreiecksungleichung
n
X
∂j f (bj ) − ∂j f (a) vj < εkvk1 .
|f (a + v) − f (a) − l(v)| ≤
j=1
Wir können annehmen, dass k . k = k . k1 . Da ε beliebig war, folgt
|f (a + v) − f (a) − l(v)|
→0
kvk
(v → 0).
Man kann den Satz auch im Fall K = C beweisen, indem man an Stelle
des Mittelwertsatzes die Sätze 27 und 26 benutzt.
Definition 26. Es seien V und W Vektorräme über K und U eine offene Teilmenge von V . Eine Abbildung f : U → W heißt K-differenzierbar,
wenn sie an jeder Stelle von U K-differenzierbar ist, und sie heißt stetig
K-differenzierbar, wenn sie differenzierbar ist und die Funktion f ′ : U →
Hom(V, W ) stetig ist.
Aus Satz 33 und dem vorher erwähnten Zusammenhang zwischen totaler
Ableitung und partiellen Ableitungen erhalten wir:
Folgerung 7. Sind alle partiellen Ableitungen von f auf der offenen Teilmenge U ⊆ Rn stetig, so ist f auf U stetig differenzierbar.
In der Physik sind folgende Differentialoperatoren von Bedeutung. Beispiel. Ist auf dem Vektorraum V ein Skalarprodukt gegeben und die Kwertige Funktion f auf D ⊆ V an der Stelle a ∈ D̊ differenzeirbar, so ist der
Gradient grad f (a) ∈ V charakterisiert durch
hgrad f (a), vi = f ′ (a)v
43
für alle v ∈ V . Im Fall V = Rn mit dem Standardskalarprodukt erhalten wir


∂1 f (a)


grad f (a) =  ...  .
∂n f (a)
Mit Hilfe des Nabla-Operators
 
∂1
 .. 
∇=.
∂n
schreibt man dies symbolisch in der Form grad f = ∇f . ⊳
Beispiel. Ist X ein Vektorfeld auf D ⊆ Rn , also X : D → Rn , das an der
Stelle a ∈ D̊ differenzierbar ist, so definiert man die Divergenz div X(a) ∈ R
durch
div X(a) = ∂1 X1 (a) + . . . + ∂n Xn (a).
Dies drückt man auch symbolisch durch div X = h∇, Xi aus. ⊳
Beispiel. Ist X ein Vektorfeld auf D ⊆ R3 an der Stelle a ∈ D̊ differenzierbar,
so definiert man die Rotation rot X(a) ∈ R3 durch


∂2 X3 (a) − ∂3 X2 (a)
rot X(a) = ∂3 X1 (a) − ∂1 X3 (a) .
∂1 X2 (a) − ∂2 X1 (a)
Dies drückt man symbolisch durch rot X = ∇ × X aus, wobei × das Vektorprodukt bezeichnet. ⊳
Bezeichnen wir die rechte Seite der Gleichung (1) im Beweis von Satz 33
mit f˜(a + v)v, so gilt
f (x) − f (a) = f˜(x)(x − a),
und im Fall n = 1 ist f˜(x) nichts anderes als der Differenzenquotient. Ein
solcher verallgemeinerter Differenzenquotient existiert immer, ist aber im Allgemeinen nicht eindeutig bestimmt.
Lemma 7. Es sei a ein innerer Punkt einer Teilmenge D ⊆ V . Eine Abbildung f : D → W ist genau dann differenzierbar an der Stelle a, wenn eine
Abbildung
f˜ : D → Hom(V, W )
existiert, die an der Stelle a stetig ist, so dass
f (x) = f (a) + f˜(x)(x − a).
44
Beweis. Angenommen, f˜ existiert. Setzen wir l = f˜(a), so gilt
r(v) = (f˜(a + v) − f˜(a))v,
kr(v)k ≤ kf˜(a + v) − f˜(a)kkvk
im Sinne von Definition 17, und aus der Stetigkeit von f˜ an der Stelle a folgt
kr(v)k
→0
kvk
(v → 0),
also ist f an der Stelle a differenzierbar.
Nun sei umgekehrt f an der Stelle a differenzierbar mit Ableitung l. Wir
können annehmen, dass kvk2 = hv, vi für ein Skalarprodukt auf V . Für u,
v ∈ V mit der Eigenschaft a + v ∈ D setzen wir
(
l(u) + hu,vi
r(v), wenn v 6= 0,
kvk2
f˜(a + v)u =
l(u),
wenn v = 0.
Dann ist f˜(a + v) ∈ Hom(V, W ) und
f˜(a + v)v = l(v) + r(v) = f (a + v) − f (a).
Außerdem gilt
hu, vi
(f˜(a + v) − f˜(a))u =
r(v),
kvk2
also nach der Cauchy-Schwarz-Ungleichung
kr(v)k
kuk.
k(f˜(a + v) − f˜(a))uk ≤
kvk
Laut Definition der Norm einer linearen Abbildung folgt
kr(v)k
,
kf˜(a + v) − f˜(a)k ≤
kvk
also ist f˜ an der Stelle a stetig.
Genau wie im eindimensionalen Fall gelten Rechenregeln. Dazu werden
wir die Beweise der Sätze I.67 und I.68 verallgemeinern.
Satz 34. Es seien T , U , V und W Vektorräume über K.
(i) Ist D ⊆ V und sind f , g : D → W an der Stelle a ∈ D̊ differenzierbar,
so ist auch f + g an der Stelle a differenzierbar, und es gilt
(f + g)′ (a) = f ′ (a) + g ′ (a).
45
(ii) Ist b : U × V → W eine K-bilineare Abbildung, ist D ⊆ T und sind
f : D → U , g : D → V an der Stelle a ∈ D̊ differenzierbar, so ist auch
b(f, g) an der Stelle a differenzierbar, und es gilt
b(f, g)′ (a) = b(f ′ (a), g(a)) + b(f (a), g ′ (a)).
(iii) Es sei D ⊆ U , E ⊆ V . Ist f : D → E an der Stelle a ∈ D̊ und
g : E → W an der Stelle f (a) ∈ E̊ differenzierbar, so ist g ◦ f an der
Stelle a differenzierbar, und es gilt
(g ◦ f )′ (a) = g ′ (f (a))f ′ (a).
Beweis. (i) Nach Lemma 7 existieren Abbildungen f˜, g̃ : D → Hom(V, W ),
die an der Stelle a stetig sind, so dass für v ∈ V mit der Eigenschaft a+v ∈ D
gilt
f (a + v) = f (a) + f˜(a + v)v,
g(a + v) = g(a) + g̃(a + v)v,
also
f (a + v) + g(a + v) = f (a) + g(a) + (f˜(a + v) + g̃(a + v))v.
Eine Abbildung D → Hom(V, W ) × Hom(V, W ) ist genau dann stetig, wenn
ihre Komponenten D → Hom(V, W ) stetig sind, und wie in Satz 6 sieht
man, dass die Addition Hom(V, W ) × Hom(V, W ) → Hom(V, W ) nach der
Dreiecksungleichung Lipschitz-stetig ist. Die Abbildung f]
+ g = f˜+ g̃ ist also
an der Stelle a stetig, und sie hat dort den Wert f ′ (a) + g ′ (a). Nun folgt die
Behauptung nach Lemma 7.
(ii) Diesmal haben wir f˜ : D → Hom(T, U ), g̃ : D → Hom(T, V ), und wegen
der Bilinearität von b folgt
^
b(f (a + t), g(a + t)) = b(f (a), g(a)) + b(f,
g)(a + t)t,
wobei für alle s ∈ T gilt
^
b(f,
g)(a + t)s = b(f˜(a + t)s, g(a)) + b(f (a) + f˜(a + t)t, g̃(a + t)s).
Die Abbildung b kann man als Element von Hom(U, Hom(V, W )) auffassen,
und durch zweimalige Anwendung von Satz 24 finden wir ein c > 0, so dass
kb(u, v)k ≤ ckukkvk. Laut Definition der Norm von linearen Abbildungen
folgt, dass für l ∈ Hom(T, U ) und m ∈ Hom(U, V ) gilt kb(l, m)k ≤ cklkkmk.
46
Wie in Satz 6 sieht man nun, dass die Abbildung (l, m) 7→ b(l, m) stetig ist.
^
Die Abbildung b(f,
g) ist also an der Stelle a stetig, und
^
b(f,
g)(a)s = b(f˜(a)s, g(a)) + b(f (a), g̃(a)s).
Die Behauptung folgt wieder mit Lemma 7.
(iii) Diesmal ist f˜ : D → Hom(U, V ), g̃ : E → Hom(V, W ), und
wobei
g(f (a + u)) = g f (a) + f˜(a + u)u = g(f (a)) + g]
◦ f (a + u)u,
g]
◦ f (a + u) = g̃ f (a) + f˜(a + u)u f˜(a + u).
Da für lineare Abbildungen l : U → V und m : V → W gilt km ◦ lk ≤
kmkklk, sieht man wie in Satz 6, dass die Verkettung eine stetige Abbildung
Hom(V, W ) × Hom(U, V ) → Hom(U, W ) ist. Außerdem ist v 7→ g̃(f (a) +
f˜(a + u)u) nach Satz 9 an der Stelle 0 stetig. Es folgt, dass g]
◦ f an der Stelle
˜
a stetig ist und den Wert g̃(f (a))f (a) hat. Die Behauptung folgt wieder mit
Lemma 7.
Wir benötigen keine neue Quotientenregel, weil 1/f nur für skalarwertige
Funktionen f definiert ist und als Verkettung von f mit der Kehrwertfunktion
angesehen werden kann.
Folgerung 8. Für eine offene Menge D von K n ist jede Abbildung D → K m
differenzierbar, deren Koordinatenfunktionen auf D durch Terme gegeben
sind, in denen nur arithmetische Operationen und differenzierbare Funktionen vorkommen.
Beispiel. Es sei F : D → Hom(K n , K n ) = End(K n ) eine matrixwertige
Funktion, deren Einträge fij : D → K differenzierbar sind. Dann ist auch die
Verkettung det F differenzierbar. Bei der Berechnung ihrer Ableitung hilft
Satz 34 wenig, da wir die Ableitung der Determinante noch nicht kennen.
Statt dessen erinnern wir uns, dass man die inverse Matrix darstellen kann
als
F −1 = (det F )−1 F̃ ,
wobei F̃ (x) die Adjunkte von F (x) bezeichnet. (Man erhält den Kofaktor
(−1)i+j f˜ji (x) als Determinante der Untermatrix von F (x), die nach Streichung der iten Zeile und jten Spalte zurückbleibt.) Aus der Leibniz-Formel
X
det F =
sgn(σ)f1,σ(1) · · · fn,σ(n)
σ
47
folgt
(det F )′ =
n
X
fij′ f˜ji = tr(F ′ F̃ ) = tr(F̃ F ′ ),
i,j=1
und wir erhalten für die logarithmische Ableitung der Determinante auf der
offenen Teilmenge {x ∈ D | det F 6= 0} von D
(det F )′
= tr(F −1 F ′ ) = tr(F ′ F −1 ).
det F
⊳
Die Differentialrechnung entstand aus den Bedürfnissen der Newtonschen Mechanik.
Diese findet allerdings nicht in einem Vektorraum statt.
Definition 27. Ein affiner Raum ist eine Menge A zusammen mit einem Vektorraum V
und einer Abbildung A × V → A, geschrieben (a, v) 7→ a + v, mit folgenden Eigenschaften:
(a) Für alle a ∈ A und u, v ∈ V gilt a + (u + v) = (a + u) + v.
(b) Für beliebige Punkte a, b ∈ A gibt es genau einen Vektor v ∈ V , so dass a + v = b.
→
−
(Man bezeichnet v mit ab.)
Die Dimension des affinen Raumes A ist die Dimension des zugehörigen Vektorraumes V ,
dessen Elemente man Translationen von A nennt.
Sind A und B affine Räume mit den Vektorräumen von Translationen V bzw. W , so
heißt g : A → B affine Abbildung, wenn es eine lineare Abbildung g ′ : V → W gibt, so
dass für alle a ∈ A und v ∈ V gilt
g(a + v) = g(a) + g ′ v.
In dieser Situation werden durch Normen auf V und W Metriken d bzw. e auf A und
B definiert. Ist D ⊆ A, so kann man die Richtungsableitung einer Funktion f : D → B
bezüglich v ∈ V an einer Stelle a ∈ D̊ als Element von W definieren:
1 −−−−−−−−−−→
f (a)f (a + hv).
h→0 h
∂v f (a) = lim
Die totale Ableitung f ′ (a) ∈ Hom(V, W ) ist charakterisiert durch
−−−−−−−−−→
f (a)f (a + v) = f ′ (a)v + r(v),
wobei
r(v)
kvk
→ 0 (v → 0). Betrachtet man die durch
g(a + v) = f (a) + f ′ (a)v
gegebene affine Abbildung g : D → W , so kann man dies auch durch
e(f (x), g(x))
→0
d(x, a)
(x → a)
ausdrücken, d. h. f wird in der Umgebung von a durch die affine Abbildung g angenähert.
48
3.2
Höhere Ableitungen
Ist f auf einer offenen Teilmenge D eines Vektorraums V differenzierbar, so
erhalten wir eine Abbildung f ′ : D → Hom(V, W ). Ist diese wiederum an
einer Stelle a differenzierbar, so bezeichnen wir ihre ihre Ableitung mit
f ′′ (a) ∈ Hom(V, Hom(V, W )).
Anstelle von f ′ (x) kann man auch die Abbildung f ′ (x)u = ∂u f (x) für festes
u nach Satz 34(ii) ableiten und erhält f ′′ (a)u. Somit ergibt sich
(f ′′ (a)u)v = ∂v ∂u f (a).
Statt (f ′′ (a)u)v schreiben wir f ′′ (a)(u, v), was bilinear von u, v ∈ V abhängt.
Ist z. B. V = K n , so gilt
f ′′ (a)(u, v) =
n
X
∂j ∂i f (a)ui vj .
i,j=1
Analog ist f ′′′ (a) eine trilineare Abbildung V 3 → W usw.
Die traditionelle Schreibweise ist
∂j ∂i f =
∂2f
,
∂xj ∂xi
∂i ∂i f =
∂2f
,
∂x2i
∂i2 ∂j f =
∂3f
,
∂x2i ∂xj
...
In Analogie zu Definition I.52 legen wir fest:
Definition 28. Es seien V und W Vektorräume über K und D eine offene Teilmenge von V . Wir bezeichnen mit F (D, W ) die Menge aller Abbildung D → W und mit C(D, W ) die Teilmenge der stetigen Abbildungen.
Für jede natürliche Zahl k definieren wir die Menge F k (D, W ) aller k Mal
differenzierbaren Abbildungen und die Menge C k (D, W ) aller k Mal stetig
differenzierbaren Abbildungen rekursiv:
F 0 (D, W ) = F (D, W ),
C 0 (D, W ) = C(D, W ),
F k+1 (D, W ) = {f : D → W | f ist differenzierbar, f ′ ∈ F k (D, Hom(V, W ))},
C k+1 (D, W ) = {f : D → W | f ist differenzierbar, f ′ ∈ C k (D, Hom(V, W ))}.
Wir definieren die kte Ableitung einer Abbildung f ∈ F k (D, W ) rekursiv
durch
f (0) = f,
f (k+1) = (f ′ )(k) .
Schließlich nennen wir die Elemente von
∞
C (D, W ) =
∞
\
k=0
49
C k (D, W )
unendlich oft12 differenzierbare Abbildungen.
Da jede differenzierbare Abbildung stetig ist, erhalten wir in Analogie zu
Folgerung I.39 durch vollständige Induktion
F k+1 (D, W ) ⊆ C k (D, W ) ⊆ F k (D, W ).
Würden wir also die Menge F ∞ (D, W ) analog definieren, so wäre sie gleich
C ∞ (D, W ). Auch Satz I.75 und Satz I.76(i) übertragen sich problemlos.
Satz 35. Es seien T , U , V und W Vektorräume über K.
(i) Ist D offen in V und sind f , g ∈ C k (D, W ), so auch f + g, und
(f + g)(k) = f (k) + g (k) .
(ii) Ist b : U × V eine bilineare Abbildung, ist D offen in T und ist f ∈
C k (D, U ), g ∈ C k (D, V ), so ist b(f, g) ∈ C k (D, W ).
(iii) Es sei D offen in U und E offen in V . Ist f ∈ C k (D, V ), f (D) ⊆ E
und g ∈ C k (E, W ), so ist g ◦ f ∈ C k (D, W ).
Analoge Aussagen gelten für F k an Stelle von C k .
Beweis. Wir führen nur den Induktionsbeweis von Aussage (ii) vor. Im Laufe
des Beweises von Satz 34(ii) wurde gezeigt, dass b stetig ist. Damit folgt die
Behauptung imr Fall k = 0. Angenommen, sie gilt für eine gewisse natürliche
Zahl k. Nun sei f ∈ C k+1 (D, U ) und g ∈ C k+1 (D, V ). Nach Satz 34(ii) ist
b(f, g)′ = b(f ′ , g) + b(f, g ′ ).
Nach Induktionsvoraussetzung und Teil (i) ist die rechte Seite in C k (D, W ),
also laut Definition b(f, g) ∈ C k+1 (D, W ).
Auch die anderen Behauptungen werden wie bei den Sätzen I.75 und I.76(i)
beweisen.
Da die Skalarmultiplikation K × W → W bilinear ist, sind die Mengen
F (D, W ) und C k (D, W ) nach Satz 35(i), (ii) Unterräume des K-Vektorraumes F (D, W ). Man kann auch für einen einzelnen inneren Punkt a einer
beliebigen Teilmenge D ⊆ V rekursiv definieren, wann eine Abbildung f an
dieser Stelle k + 1 Mal differenzierbar ist. Dazu muss f in einer Umgebung
U ⊆ D von a differenzierbar sein und die Funktion f ′ : U → Hom(V, W ) an
der Stelle a k mal differenzierbar sein. Auch Satz 35 überträgt sich sinngemäß,
aber wir verzichten auf weitere Einzelheiten.
k
12
Richtiger wäre beliebig oft“.
”
50
Für f ∈ F k (D, W ) und a ∈ D ist f (k) (a) eine multilineare Abbildung,
und es gilt
f (k) (a)(v1 , . . . , vk ) = ∂vk · · · ∂v1 f (a).
Im Fall V = K n erhalten wir für Vektoren vj = (vj,1 , . . . , vj,n ) ∈ K n
f
(k)
(a)(v1 , . . . , vk ) =
n
X
i1 ,...,ik =1
∂ik . . . ∂i1 f (a)v1,i1 · · · vk,ik .
(2)
Bezeichnen wir den Vektorraum der multilinearen Abbildungen V k → W
mit Multk (V, W ) (was allerdings keine Standardbezeichnung ist) und setzt
Mult0 (V, W ) = W , so zeigt man wie in Präsenzaufgabe I.48 durch vollständige
Induktion nach k, dass
F k+l (D, W ) = {f ∈ F k (D, W ) | f (k) ∈ F l (D, Multk (V, W ))},
C k+l (D, W ) = {f ∈ C k (D, W ) | f (k) ∈ C l (D, Multk (V, W ))}
und dass für Elemente dieser Mengen gilt
f (k+l) = (f (k) )(l) .
Satz 36 (Schwarz). Angenommen, D ist offen in Rn und alle partiellen
Ableitungen von f : D → W bis zur zweiten Ordnung existieren und sind
stetig auf D. Dann gilt
∂i ∂j f = ∂j ∂i f.
Beweis. Wir können annehmen, dass W = Rm ist. Die Koordinaten der partiellen Ableitung sind die partiellen Ableitungen der Koordinatenfunktionen,
also genügt es, den Fall W = R zu betrachten. Es genügt auch, die Gleichheit
in einem festen Punkt a zu zeigen, wobei wir a = 0 annehmen können. Da in
der Definition von ∂i ∂j f (0) nur Werte von f an Stellen x mit der Eigenschaft
xk = 0 für alle k ∈
/ {i, j} vorkommen, können wir annehmen, dass n = 2,
i = 1, j = 2. Da D offen ist, gibt es ein η > 0, so dass die η-Umgebung von
0 bezüglich k . k∞ in D enthalten ist.
Wenden wir für x ∈ Uη (0) den Mittelwertsatz auf
F (h) = f (h, x2 ) − f (h, 0)
an, so erhalten wir ein b1 ∈ ]0, x1 [, so dass F (x1 ) − F (0) = F ′ (b1 )x1 , d. h.
f (x1 , x2 ) − f (x1 , 0) − f (0, x2 ) + f (0, 0) = ∂1 f (b1 , x2 ) − ∂1 f (b1 , 0) x1 .
51
Dabei hängt b1 von x ab. Wenden wir den Mittelwertsatz auf die Funktion
∂1 f (b1 , h) an, so erhalten wir ein b2 ∈ ]0, x2 [, so dass
∂1 f (b1 , x2 ) − ∂1 f (b1 , 0) = ∂2 ∂1 f (b1 , b2 )x2 ,
wobei b2 von b1 und x1 , also letztlich von x abhängt. Wir erhalten also für
jedes x ∈ Uη (0) ein b ∈ V , so dass kbk < kxk und
f (x1 , x2 ) − f (x1 , 0) − f (0, x2 ) + f (0, 0) = ∂2 ∂1 f (b1 , b2 )x1 x2 .
Vertauschen wir die Rollen von x1 und x2 , so erhalten wir für jedes x ∈ Uη (0)
ein c ∈ V , so dass kck < kxk und
f (x1 , x2 ) − f (0, x2 ) − f (x1 , 0) + f (0, 0) = ∂1 ∂2 f (c1 , c2 )x1 x2 .
Für x1 6= 0 und x2 6= 0 folgt
∂2 ∂1 f (b) = ∂1 ∂2 f (c),
wobei b und c von x abhängen und nach dem Einschließungskriterium gilt
b → 0,
c→0
(x → 0).
Wegen der Stetigkeit der partiellen Ableitung folgt
∂2 ∂1 f (0) = ∂1 ∂2 f (0).
Folgerung 9. Ist f ∈ C k (D, W ) mit D ⊆ Rn , so gilt für jede Permutation
σ von {1, . . . , k} und alle i1 , . . . , ik ∈ {1, . . . , n}
∂i1 · · · ∂ik f = ∂iσ(1) · · · ∂iσ(k) f.
Für D in einem abstrakten R-Vektorraum V und v1 , . . . , vk ∈ V gilt analog
∂v1 · · · ∂vk f = ∂vσ(1) · · · ∂vσ(k) f,
d. h. f (k) (a) ist eine symmetrische Multilinearform V k → W .
Für l < k ist nämlich ∂il+2 · · · ∂ik f ∈ C l+1 (D, Multk−l−1 (V, W )), und wir
können ∂il und ∂il+1 vertauschen. Jede Permutation σ lässt sich aus Transpositionen zusammensetzen. Die zweite Behauptung folgt aus der ersten, indem
man in Gleichung (2) ij durch iσ(j) substituiert.
Satz 36 folgt natürlich umgekehrt aus der Aussage der Folgerung 9. Beides gilt übrigens
auch für komplexe Ableitungen. Jede C-lineare Abbildung zwischen C-Vektorräumen ist
auch eine R-lineare Abbildung bezüglich der unterliegenden Struktur von R-Vektorräumen,
52
also ist die C-Ableitung, wenn sie existiert, gleich der R-Ableitung. Durch Iteration folgt
das auch für höhere Ableitungen.
Beispiel. Ist D offen in R3 und f ∈ C 2 (D), so gilt


∂2 ∂3 f − ∂3 ∂2 f
rot grad f = ∂3 ∂1 f − ∂1 ∂3 f  = 0.
∂1 ∂2 f − ∂2 ∂1 f
Ist X ∈ C 2 (D, R3 ), so gilt
div rot X = ∂1 (∂2 X3 − ∂2 X2 ) + ∂2 (∂3 X1 − ∂1 X3 ) + ∂3 (∂1 X2 − ∂2 X1 ) = 0.
Ein Gradientenfeld ist also rotationsfrei und die Rotation eines Vektorfeldes
ist divergenzfrei. ⊳
Man definiert den Laplace-Operator auf einer offenen Teilmenge D von
n
R durch
∆f = div grad f
für f ∈ C 2 (D). Dann gilt also
∆f = ∂12 f + . . . + ∂n2 f.
Zum Abschluss führen wir noch eine Verallgemeinerung des Begriffs des
Homöomorphismus ein.
Definition 29. Eine bijektive Abbildung f zwischen offenen Teilmengen von
endlichdimensionalen Vektorräumen heißt Diffeomorphismus der Klasse C k ,
wenn die Abbildung f und ihre Umkehrabbildung k Mal stetig differenzierbar
sind.
Aufgabe 32 liefert ein Beispiel für einen Diffeomorphismus der Klasse C ∞ .
3.3
Die Taylorsche Formel
Wir wollen Satz I.78 auf vektorwertige Funktionen von mehreren Variablen
verallgemeinern.
Satz 37. Es seien V und W Vektorräume über K sowie D eine offene Teilmenge von V . Weiter sei k ∈ N, f ∈ C k+1 (D, W ), a ∈ D und v ∈ V , so dass
die Strecke [a, a + v] in D enthalten ist. Dann gilt
Z 1
k
X
1 j
(1 − h)k k+1
f (a + v) =
∂v f (a) +
∂v f (a + hv) dh.
j!
k!
0
j=0
53
Dies ist eine Version der Taylorschen Formel. Für festes a nennt man die
Summe auf der rechten Seite das Taylor-Polynom der Ordnung k von f an
der Stelle a. Bezeichnen wir es mit pk (v), so hat die Formel die Gestalt
f (a + v) = pk (v) + rk (v),
Beide Seiten hängen nur von den Werten von f auf der Strecke
[a, a + v] = {a + hv | h ∈ [0, 1]}
ab, insofern lässt sich dieser Satz auf eine Taylorsche Formel für Funktionen von einer Variablen zurückführen. Da wir aber vektorwertige Funktionen betrachten, kann das Restglied rk (v) nicht mehr durch einen Mittelwert
ausgedrückt werden, sondern erscheint in Integralform.
Beweis. Wir halten a, k und v fest und betrachten die durch
g(h) =
k
X
(1 − h)j
j=0
j!
∂vj f (a + hv)
definierte Hilfsfunktion g : [0, 1] → W . Dann ist g stetig differenzierbar,
g(0) = pk (v),
g(1) = f (a + v)
und
′
g (h) =
k
X
(1 − h)j
j=0
j!
∂vj+1 f (a
+ hv) −
k
X
(1 − h)j−1
j=1
(j − 1)!
∂vj f (a + hv).
Wenn wir in der zweiten Summe eine Substitution vornehmen, so kürzen sich
alle Terme bis auf einen, und wir erhalten
g ′ (h) =
(1 − h)k k+1
∂v f (a + hv).
k!
Nach Satz 27 gilt
g(1) − g(0) =
und die Behauptung folgt.
Z
1
g ′ (h) dh,
0
Die Form des Restgliedes scheint vom Himmel zu fallen. Es gibt auch
einen Beweis durch vollständige Induktion, bei dem sich das Restglied von
selbst ergibt, aber dazu benötigt man die Vertauschbarkeit von Mehrfachintegralen.
54
Wie wir wissen, lässt sich die im Satz auftretende mehrfache Richtungsableitung durch die totale Ableitung ausdrücken, nämlich
∂vk f (a) = f (k) (a)(v, . . . , v ).
| {z }
k
Das Restglied r1 stimmt mit dem Restglied in der Definition 25 überein.
1 (v)
Ist also f an der Stelle a differenzierbar, so gilt rkvk
→ 0 (v → 0). Wir
wollen eine analoge Aussage für beliebige k beweisen.
Satz 38. Es seien V und W Vektorräume über K, D ⊆ V , und f : D → W
sei k Mal differenzierbar in dem inneren Punkt a von D, wobei k ≥ 1. Dann
gilt für v in einer Umgebung von 0 in V
rk (v)
→0
kvkk
f (a + v) = pk (v) + rk (v),
(v → 0).
Beweis. Da die Behauptung für k = 1 nach Definition bereits gilt, sei nun
k > 1. Laut Definition muss f (k−1) in einer Umgebung U von a existieren
und an der Stelle a differenzierbar sein. Es gibt ein η > 0, so dass für kvk < η
gilt a + v ∈ U , also auch [a, a + v] ⊆ U . Da f (k−2) auf U stetig ist, können
wir Satz 37 mit k − 2 an Stelle von k anwenden und erhalten
Z 1
(1 − h)k−2 k−1
∂ f (a + hv) dh.
f (a + v) = pk−2 (v) +
(k − 2)! v
0
Wegen der Differenzierbarkeit von f (k−1) : U → Multk−1 (V, W ) an der Stelle a gilt für kuk < η
f (k−1) (a + u) = f (k−1) (a) + f (k) (a)u + r(u),
r(u)
→0
kuk
(u → 0),
wobei f (k) (a) ∈ Hom(V, Multk−1 (V, W )) = Multk (V, W ). Setzen wir u = hv,
so folgt
∂vk−1 f (a + hv) = ∂vk−1 f (a) + h∂vk f (a) + r(hv)(v, . . . , v ).
| {z }
k−1
Beim Einsetzen ergeben angesichts von Satz 26(iv) und
Z 1
Z 1
(1 − h)k−2
1
1
h(1 − h)k−2
dh =
,
dh =
(k − 2)!
(k − 1)!
(k − 2)!
k!
0
0
55
(vgl. Aufgabe 3) die ersten beiden Terme gerade die beiden restlichen Glieder
von pk (v), und es folgt
Z 1
(1 − h)k−2
rk (v) =
r(hv)(v, . . . , v) dh.
(k − 2)!
0
Nach Satz 26 ist
krk (v)k ≤
Z
1
0
(1 − h)k−2
kr(hv)(v, . . . , v)k dh.
(k − 2)!
Verallgemeinern wir die Ungleichung aus dem Beweis von Satz 34(ii) (vgl.
Präsenzübung 21) durch vollständige Induktion, so folgt für v1 , . . . , vk−1 ∈ V
kr(u)(v1 , . . . , vk−1 )k ≤ kr(u)kkv1 k · · · kvk−1 k.
Somit ist
krk (v)k
≤
kvkk
Z
1
0
(1 − h)k−2 kr(hv)k
·
dh.
(k − 2)!
kvk
Für jedes ε > 0 gibt es ein δ > 0, so dass für kuk < δ gilt
kr(u)k
< k!ε.
kuk
Setzen wir u = hv mit kvk < δ und h ∈ [0, 1], so ist dies erfüllt, und es folgt
Z 1
h(1 − h)k−2
krk (v)k
<
k!ε
dh = ε.
kvkk
(k − 2)!
0
Ist V = Rn , so können wir die in der Taylorschen Formel vorkommenden
mehrfachen Richtungsableitungen bezüglich eines Vektors v = (v1 , . . . , vn )
durch partielle Ableitungen ausdrücken. Gleichung (2) spezialisiert sich nämlich zu
n
X
k
∂v f (a) =
∂ik · · · ∂i1 f (a)vi1 · · · vik .
i1 ,...,ik =1
Ist f eine k Mal stetig differenzierbare Funktion in einer Umgebung von a,
so können wir die partiellen Ableitungen nach Satz 36 umordnen und gleiche
Ableitungen zusammenfassen. Ist αi die Anzahl, wie oft die Zahl i unter den
Zahlen i1 , . . . , ik vorkommt, so ist jedem k-Tupel (i1 , . . . , ik ) ein n-Tupel
(α1 , . . . , αn ) mit der Eigenschaft
α1 + . . . + αn = k
56
zugeordnet. Ein n-Tupel (α1 , . . . , αn ) entsteht aus
k!
α1 ! · · · αn !
verschiedenen k-Tupeln (i1 , . . . , ik ), und es folgt
X
1 k
∂v f (a) =
k!
α +...+α
1
n
∂1α1 · · · ∂nαn f (a) α1
v1 · · · vnαn .
α
!
·
·
·
α
!
1
n
=k
Im Spezialfall n = 1 erhalten wir den selben Ausdruck für das Taylorpolynom
wie in Satz I.78.
3.4
Lokale Extrema
Wir wollen die Kriterien für lokale Extrema auf den Fall von Funktionen von
mehreren Variablen verallgemeinern.
Definition 30. Es sei f eine reellwertige Funktion auf einem metrischen
Raum X und a ein Punkt von X.
(i) Die Funktion f hat an der Stelle a ein lokales Minimum, wenn es eine
Umgebung U von a in X gibt, so dass für alle x ∈ U gilt f (x) ≥ f (a).
(ii) Die Funktion f hat an der Stelle a ein striktes lokales Minimum, wenn
es eine Umgebung U von a gibt, so dass für x ∈ U \{a} gilt f (x) > f (a).
(iii) Analog definiert man ein (striktes) lokales Maximum.
(iv) Wir sagen, dass f an der Stelle a ein lokales Extremum hat, wenn f
dort ein lokales Minimum oder ein lokales Maximum hat.
Im Folgenden sei D eine Teilmenge eines reellen Vektorraums V . Wir
formulieren nun ein notwendiges Kriterium.
Satz 39. Die Funktion f : D → R habe an der Stelle a ∈ D̊ ein lokales
Extremum. Existiert die Richtungsableitung bezüglich eines Vektors v, so ist
∂v f (a) = 0. Ist f an der Stelle a differenzierbar, so gilt f ′ (a) = 0.
Beweis. Es sei g(h) = f (a + hv). Da die Abbildung h 7→ a + hv stetig
ist, ist g in einer Umgebung der Stelle 0 definiert und hat dort ein lokales
Extremum. Nach Satz I.70 gilt g ′ (0) = 0, und die erste Behauptung folgt.
Wegen f ′ (a)v = ∂v f (a) folgt die zweite.
57
Einen Punkt a, in dem die Richtungsableitungen von f bezüglich aller
Vektoren verschwinden, nennt man stationären Punkt von f . Im Fall V = Rn
müssen dazu notwendigerweise alle partiellen Ableitungen verschwinden. Ist
f an der Stelle a differenzierbar, so ist das auch hinreichend für das Vorliegen
eines stationären Punktes.
Beispiel. Die Funktion f : R2 → R sei gegeben durch
f (x, y) = ey cos x + ex cos y.
Die ersten partiellen Ableitungen sind
∂f
= −ey sin x + ex cos y,
∂x
∂f
∂y f (x, y) =
= ey cos x − ex sin y.
∂y
∂x f (x, y) =
Ist (a, b) ein stationärer Punkt von f , so gilt also
ea cos b = eb sin a,
ea sin b = eb cos a.
Zur Lösung dieses nichtlinearen Gleichungssystems könnte man z. B. eb mit
Hilfe einer Gleichung aus der anderen eliminieren und dann ea kürzen. Da
man nicht durch 0 dividieren kann, wäre dazu eine Fallunterscheidung nötig.
Eleganter ist es, beide Gleichungen zu quadrieren:
e2a cos2 b = e2b sin2 a,
e2a sin2 b = e2b cos2 a.
Addieren wir beide Gleichungen, so folgt e2a = e2b , also wegen der Injektivität
der Exponentialfunktion a = b. Weiter folgt sin a = cos a und somit a =
π
+ kπ, k ∈ Z. Eine Probe zeigt, dass die stationären Punkte von f genau
4
die Punkte
π
+ kπ, π4 + kπ
4
mit k ∈ Z sind. ⊳
Wir wollen nun ein hinreichendes Kriterium für lokale Extrema formulieren.
Definition 31. Eine Multilinearform m ∈ Multk (V, R) heißt positiv definit13 , wenn für alle v ∈ V \ {0} gilt m(v, . . . , v) > 0.
Analog definiert man, wann eine Multilinearform negativ definit ist.
Eine Multilinearform m heißt indefinit, wenn es sowohl Vektoren v ∈ V
mit der Eigenschaft m(v, . . . , v) > 0 als auch solche mit der Eigenschaft
m(v, . . . , v) < 0 gibt.
13
Dies ist das lateinische Partizip von definire (bestimmen).
58
Wegen
m(tv, . . . , tv) = tk m(v, . . . , v)
für t ∈ R kann es definite Multilinearformen vom Grad k nur geben, wenn k
gerade ist.
Satz 40. Die Funktion f : D → R sei an der Stelle a ∈ D̊ k Mal differenzierbar, wobei k ≥ 2, und es sei
f ′ (a) = 0,
...,
f (k−1) (a) = 0.
(i) Ist f (k) (a) positiv (bzw. negativ) definit, so hat f an der Stelle a ein
lokales Minimum (bzw. Maximum).
(ii) Ist f (k) (a) indefinit, so hat f an der Stelle a kein lokales Extremum.
Beweis. Nach Satz 38 gilt für a + v ∈ D
f (a + v) = f (a) + m(v, . . . , v) + rk (v),
rk (v)
→ 0 (v → 0),
kvkk
wobei m = k!1 f (k) (a) ist und die Terme der Ordnung 1 bis k − 1 nach Voraussetzung verschwinden. Nun sei z. B. m positiv definit. Wir setzen
c = inf{m(v, . . . , v) | v ∈ V, kvk = 1}.
Da m(v, . . . , v) stetig von v abhängt und die Menge {v ∈ V | kvk = 1} nach
Satz 19 kompakt ist, wird der Wert c auf dieser Menge angenommen, so dass
c > 0. Es gibt also ein δ > 0, so dass für a + v ∈ D und kvk < δ gilt
c
|rk (v)| < kvkk .
2
Für v mit diesen Eigenschaften folgt
v
v
f (a + v) − f (a) = m
kvkk + rk (v) ≥ ckvkk − |rk (v)|,
,...,
kvk
kvk
also
c
f (a + v) ≥ f (a) + kvkk ,
2
und für v 6= 0 ist die rechte Seite größer als f (a).
Nun sei m indefinit. Dann gibt es Vektoren u und v, so dass m(u, . . . , u) <
0 und m(v, . . . , v) > 0. Definieren wir g(t) = f (a + tu) und h(t) = f (a + tv),
so gilt
g ′ (0) = h′ (0) = · · · = g (k−1) (0) = h(k−1) (0) = 0,
g (k) (0) < 0,
h(k) (0) > 0.
Nach Satz I.80 bzw. dem bereits bewiesenen Teil (i) hat g an der Stelle 0 ein
lokales Maximum und h an der Stelle 0 ein lokales Minimum. Folglich hat f
an der Stelle a kein lokales Extremum.
59
Beispiel. Es sei f wie oben. Die zweiten partiellen Ableitungen sind
∂ 2f
= −ey cos x + ex cos y,
∂x2
∂ 2f
∂x ∂y f (x, y) =
= −ey sin x − ex sin y,
∂x∂y
∂ 2f
= ey cos x − ex cos y.
∂y2 f (x, y) =
∂y 2
∂x2 f (x, y) =
Die totale zweite Ableitung in einem Punkt (a, b) ∈ R2 ist
f (2) (a, b) (( uv ) , ( uv )) = ∂x2 f (a, b)u2 +∂x ∂y f (a, b)uv+∂y ∂x f (a, b)vu+∂y2 f (a, b)v 2 ,
wobei ∂x ∂y f = ∂y ∂x f nach Satz 36. Die Bilinearform m = 21 f (2) (a, a) im
stationären Punkt (a, a) mit a = π4 + kπ ergibt beim Einsetzen des selben
Vektors ( uv ) in beiden Argumenten die quadratische Form
√ π
m (( uv ) , ( uv )) = (−1)k 2e 4 +kπ uv.
Diese ist indefinit, denn
1
1
m (( −1
) , ( −1
)) = −m (( 11 ) , ( 11 )) 6= 0,
und somit liegt kein lokales Extremum vor. ⊳
In den Anwendungen ist f meist in einer Umgebung des stationären Punktes k Mal stetig differenzierbar, so dass f (k) nach Folgerung 9 eine symmetrische Multilinearform ist. Die Bilinearform f ′′ (a) nennt man übrigens die
Hessesche Form von f an der Stelle a.
Bei symmetrischen Multilinearformen m von beliebigem Grad k ist die
Definitheit schwer zu entscheiden, aber im Fall k = 2 (wenn also m = b
eine symmetrische Bilinearform ist) gibt es einen einfachen Algorithmus. Es
genügt, die zugehörige quadratische Form q(v) = b(v, v) zu betrachten, aus
der sich die Bilinearform durch sogenannte Polarisierung
2b(u, v) = q(u + v) − q(u) − q(v)
zurückgewinnen lässt. Die Methode von Gram-Schmidt liefert eine Basis e1 ,
. . . , en von V , so dass
b(ei , ej ) = 0 für i 6= j,
b(ei , ei ) ∈ {1, −1, 0}.
Daran lässt sich die Definitheit leicht ablesen.
60
An Stelle dieser Methode beschreiben wir die analoge Methode der quadratischen Ergänzung. Ist V durch Wahl einer Basis bereits mit Rn identifiziert, so ist b in Matrizenschreibweise durch


a11 a12 . . . a1n  
 v1

 a21 a22 . . . a2n   .. 
b(u, v) = u1 . . . un  ..
..
..   . 
 .
.
. 
vn
an1 an2 . . . ann
und q in der Form
q(v) = a11 v12 + a12 v1 v2 + · · · + a1n v1 vn
+a21 v2 v1 + a22 v22 + · · · + a2n v2 vn
...
+an1 vn v1 + an2 vn v2 + · · · + a2n vn2
gegeben, wobei aij = aji . Man kann aij vi vj und aji vj vi für i 6= j zu 2aij vi vj
zusammenfassen.
Ist a11 6= 0, so gehen wir zu den Koordinaten u1 , v2 , . . . , vn über, wobei
a1n
a12
v2 + . . . +
vn .
u1 = v 1 +
a11
a11
Ist hingegen a11 = 0, so vertauschen wir die Nummerierung der Variablen,
um in die obige Situation zu kommen. Verschwinden alle aii (wie in unserem
Beispiel), so hilft das nichts. In diesem Fall wählen wir Indizes i 6= j, so dass
aij 6= 0, und ersetzen die Koordinaten vi und vj durch
vi′ = vi + vj ,
vj′ = vi − vj .
2vi = vi′ + vj′ ,
2vj = vi′ − vj′ ,
Dann ist
also
aij ′2
(v − vj′2 ).
2 i
Nun können wir die obige Substitution vornehmen.
Im Ergebnis kommt u1 nur in dem einen Term a11 u21 vor, und die übrigen
Terme bilden eine quadratische Form in den restlichen Variablen, auf die
man die selbe Methode rekursiv anwenden kann. Schließlich erhält man eine
quadratische Form
b1 u21 + . . . + bn u2n .
p
Substituieren wir schließlich wi = |bi |ui für bi 6= 0 und wi = ui für bi = 0,
so erhalten wir eine quadratische Form
2aij vi vj =
sgn(b1 )w12 + . . . + sgn(bn )wn2 .
61
3.5
Parameterabhängige Integrale II
Wir untersuchen jetzt, wann die durch ein parameterabhängiges Integral definierte Funktion
Z
b
f (x, t) dx
I(t) =
a
für feste reelle Zahlen a ≤ b differenzierbar vom Parameter t abhängt. Dabei sei K = R oder K = C, alle Vektorräume seien K-Vektorräume, und
Differenzierbarkeit bedeute K-Differenzierbarkeit.
Satz 41. Es sei W ein endlichdimensionaler Vektorraum und U eine offene
Teilmenge von K. Die Funktion f : [a, b] × U → W sei nach der Variablen t
partiell differenzierbar, und ∂t f : [a, b] × U → W sei stetig. Dann ist I stetig
differenzierbar, und
Z
b
I ′ (t) =
∂t f (x, t) dx.
a
Beweis. Wir halten eine Stelle u ∈ U fest und definieren g : [a, b] × U → W
durch

 f (x, t) − f (x, u)
, falls t 6= u,
g(x, t) =
t−u
∂ f (x, u),
falls t = u.
t
Nach den Rechenregeln ist g für t 6= u stetig, und laut Definition der partiellen Ableitung ist g(c, t) für festes c ∈ [a, b] als Funktion von t stetig.
Wir benötigen aber die Stetigkeit von g als Funktion aller Variablen an den
Stellen der Form (c, u).
Offensichtlich ist die Ableitung von f (x, u + h(t − u)) als Funktion von h
gleich
∂t f (x, u + h(t − u))(t − u).
Mit Satz 27 folgt für t in einer Umgebung von u, aber verschieden von u,
dass
Z 1
g(x, t) =
∂t f (x, u + h(t − u)) dh,
0
und dies gilt offensichtlich auch für h = 0. Ist nun ε > 0, so gibt es wegen
der Stetigkeit von ∂t f ein δ > 0, so dass für (x, t) ∈ [a, b] × U mit den
Eigenschaften |x − c| < δ und |t − u| < δ gilt
k∂t f (x, t) − ∂t f (c, u)k < ε.
Für diese (x, t) folgt dann nach Satz 26
Z 1
kg(x, t) − g(c, u)k ≤
k∂t f (x, u + h(t − u)) − ∂t f (c, u)k dh < ε.
0
62
Da ε beleibig war, ist g an der Stelle (c, u) stetig.
Wenden wir Aufgabe 26 und Satz 31 auf g an, so folgt
Z b
Z b
lim
g(x, u) dx.
g(x, t) dx =
t→u
a
a
Setzen wir die Definition von g ein, so ergibt sich
Z b
I(t) − I(u)
lim
∂t f (x, u) dx,
=
t→u
t−u
a
also ist I an der Stelle u differenzierbar, und die behauptete Formel gilt. Aus
dieser folgt die Stetigkeit von I mit Satz 31.
Beispiel. Die Funktion
ln(x + t)
x
2
ist stetig auf {(x, t) ∈ R | x 6= 0, x + t > 0}. Für feste a ≤ b ist die Funktion
Z b
ln(x + t)
dx
I(t) =
x
a
f (x, t) =
für t > −a definiert. Man kann beweisen, dass I keine elementare Funktion
ist. Mit Satz 41 folgt
Z a
dx
′
I (t) =
.
1 x(x + t)
Für t 6= 0 ist
x=b
Z 1
ln x − ln(x + t) 1 a(t + b)
1 a 1
′
−
,
dx =
= ln
I (t) =
t 1
x x+t
t
t b(t + a)
x=a
während
′
I (0) =
′
Z
b
a
x=b
1 1
1 dx
= − .
=− 2
x
x x=a a b
Nach dem Satz ist I stetig, was sich natürlich auch aus den Rechenregeln
für Grenzwerte ergibt. ⊳
Ein Integral kann auch von mehreren Parametern abhängen.
Folgerung 10. Es seien V und W endlichdimensionale Vektorräume und U
eine offene Teilmenge von V . Für alle x ∈ [a, b] existiere die kte Ableitung
von f nach der Variablen t ∈ U , und die entstehende Funktion ∂tk f : [a, b] ×
U → Multk (V, W ) sei stetig. Dann ist I ∈ C k (U, W ), und es gilt
Z b
(k)
∂tk f (x, t) dx.
I (t) =
a
63
Beweis. Für k = 0 folgt dies aus Satz 31. Nun sei k = 1. Für festes u ∈ U
und v ∈ V können wir Satz 41 auf f (u + hv) als Funktion von h anwenden
und erhalten
Z
b
∂v f (x, u) dx.
∂v I(u) =
a
Dies gilt für alle u ∈ U , und da ∂v f stetig ist, folgt mit Satz 31 die Stetigkeit
von ∂v I. Dies gilt für alle v, und mit Satz 33 folgt die Stetigkeit von I ′ sowie
die Formel für k = 1.
Den Beweis für beliebige k führen wir durch vollständige Induktion. Angenommen, die Behauptung gilt für eine Zahl k. Wenn f nun k + 1 Mal
bezüglich t differenzierbar und ∂tk+1 f stetig ist, so ist nach dem Bewiesenen
zunächst
Z
b
I ′ (t) =
∂t f (x, t) dx.
a
Da die Funktion ∂t f nun k Man stetig nach t differenzierbar ist, können wir
die Induktionsvoraussetzung darauf anwenden. Die Funktion I ′ ist also k Mal
stetig differenzierbar, und
Z b
′ (k)
∂tk ∂t f (x, t) dx.
(I ) (t) =
a
Damit gilt die Behauptung auch für k + 1.
Beispiel. Durch das Eulersche Integral
Z 1
xp−1 (1 − x)q−1 dx
B(p, q) =
0
wird die Betafunktion14 definiert. Nach Aufgabe 3 (auf komplexwertige Funktionen verallgemeinert) ist B auf der offenen Teilmenge
{(p, q) ∈ C2 | Re p > 0, Re q > 0}
von C2 definiert, und nach Folgerung 10 ist B unendlich oft C-differenzierbar.
In der Lösung von Aufgabe 3 wurde durch partielle Integration gezeigt, dass
pB(p, q + 1) = qB(p + 1, q),
und durch Substitution sieht man, dass B(p, q) = B(q, p). ⊳
In Lemma 7 haben wir den verallgemeinerten Differenzenquotienten an
einer festen Stelle a betrachtet, der bekanntlich nicht eindeutig bestimmt
ist. In späteren Anwendungen benötigen wir eine Version, die differenzierbar
von a abhängt.
14
Der Buchstabe B ist ein großes Beta.
64
Lemma 8 (Hadamard). Es seien V und W endlichdimensionale Vektorräume
und U eine offene Teilmenge von V . Weiter sei f ∈ C k+1 (U, W ) und
Ũ = {(x, y) ∈ U × U | [x, y] ⊆ U }.
Dann gibt es eine Funktion f˜ ∈ C k (Ũ , Hom(V, W )), so dass für (x, y) ∈ Ũ
gilt
f (x) − f (y) = f˜(x, y)(x − y).
Beweis. Wir definieren für (x, y) ∈ Ũ und v ∈ V
Z 1
˜
∂v f (y + h(x − y)) dh.
f (x, y)v =
0
Nach Satz 35 ist der Integrand in C k (Ũ , W ), und die Differenzierbarkeit von
f˜ ergibt sich aus Folgerung 10. Im Fall v = x − y ist der Integrand gleich
der Ableitung von f (y + h(x − y)) als Funktion von h, und die behauptete
Formel folgt aus Satz 27.
Die Identität aus dem Lemma mit der expliziten Form von f˜ aus dem
Beweis ist nichts anderes als die Taylorsche Formel aus Satz 37 im Fall k = 0.
4
4.1
Nichtlineare Gleichungen
Das Newtonverfahren
Eine nichtlineare Gleichung mit n Unbekannten kann man in der Form
f (x1 , . . . , xn ) = 0
schreiben, wobei f eine Funktion von n Variablen ist. Ihre Lösungen zu finden
bedeutet, das Urbild der Null zu bestimmen. Wir fassen die Variablen zu
einem Punkt x ∈ K n zusammen. Fragt man nach den Lösungen von
f (x) = y
für gegebenes y, so ist dies zwar nicht allgemeiner, aber man kann die Abhängigkeit von y untersuchen. Auch ein System von nichtlinearen Gleichungen kann
man in der selben Weise verstehen, wenn man vektorwertige Funktionen f
zulässt. Wir wollen zunächst Bedingungen finden, unter denen die Lösung in
einer Teilmenge des Definitionsbereichs von f eindeutig ist.
Systeme von linearen Gleichungen kann man in der Form
l(x) = y
65
schreiben, wobei l : V → W eine lineare Abbildung ist. In diesem Fall ist aus
der linearen Algebra bekannt, dass die Lösung nur eindeutig sein kann, wenn
l invertierbar ist, und dazu müssen V und W die selbe Dimension haben.
Wir wollen den Fall differenzierbarer Abbildungen f : D → W betrachten, wobei D eine offene Teilmenge von V ist. Für einen Punkt a ∈ D, in dem
f ′ (a) ∈ Hom(V, W ) invertierbar ist, ersetzen wir f durch die affine Abbildung
f (a) + f ′ (a)(x − a).
Die Lösung der linearisierten Gleichung
f (a) + f ′ (a)(x − a) = y
ist dann
x1 = a + f ′ (a)−1 (y − f (a)).
Dies ist zwar im allgemeinen keine Lösung der Ausgangsgleichung, aber wir
hoffen, dass wir der Lösung näherkommen. Durch Iteration erhält man das
Newtonverfahren: Man definiert rekursiv eine Folge xk durch
x0 = a,
xk+1 = xk + f ′ (xk )−1 (y − f (xk ))
(solange xk ∈ D ist).
Beispiel. Wir suchen eine Lösung der Gleichung
x2 = y.
Hier ist f ′ (a) = 2a, also
x1 = a +
y − a2
1
y
=
a+
.
2a
2
a
Das Newtonverfahren ist also in diesem Fall nichts anderes als das Heronverfahren. ⊳
In der Praxis ist das Invertieren einer linearen Abbildung sehr aufwendig.
Darum benutzt man manchmal das modifizierte Newtonverfahren
xk+1 = xk + f ′ (a)−1 (y − f (xk )).
Lemma 9. Die Funktion f : D → W sei auf der offenen Teilmenge D
von V stetig differenzierbar, und f ′ (a) sei invertierbar. Dann gibt es eine
Umgebung U von b = f (a) und eine Teilmenge X von D, so dass für alle
y ∈ U genau eine Lösung der Gleichung f (x) = y in X̊ existiert und das
modifizierte Newtonverfahren mit Anfangswert x0 ∈ X gegen diese Lösung
konvergiert.
66
Beweis. Zur Abkürzung sei f ′ (a)−1 = l ∈ Hom(W, V ). Wir schreiben die
Rekursionsformel im modifizierten Newtonverfahren in der Form
xk+1 = hy (xk ),
wobei die Abbildung hy : D → V für jedes y ∈ W durch
hy (x) = x + l(y − f (x))
gegeben ist. Ein Punkt x ∈ D ist genau dann Fixpunkt von hy , wenn f (x) = y
ist. Nach Satz 34 ist hy stetig differenzierbar, und
h′y (x) = id − f ′ (a)−1 f ′ (x).
Offensichtlich ist h′y (a) = 0. Wegen der Offenheit von D und der Stetigkeit
von h′y existiert ein δ > 0, so dass für x ∈ V mit der Eigenschaft kx − ak ≤ δ
gilt
1
x ∈ D,
kh′y (x)k ≤ .
2
Es sei X = {x ∈ V | kx − ak ≤ δ}. Für x1 , x2 ∈ X können wir Satz 27 und
Satz 26(iv) auf hy (x1 + t(x2 − x1 )) anwenden und erhalten
1
khy (x1 ) − hy (x2 )k ≤ kx1 − x2 k.
2
Um zu sehen, ob hy die Menge X in sich selbst abbildet, schreiben wir
hy (x) − a = (hy (x) − hy (a)) + l(y − b).
Setzen wir U = {y ∈ W | ky − bk <
δ
},
2klk
so folgt für x ∈ X und y ∈ U
1
khy (x) − ak ≤ kx − ak + klkky − bk < δ,
2
also hy (x) ∈ X̊. Somit ist hy für y ∈ U eine Kontraktion von X. Da X
nach Satz 19 kompakt und nach den Sätzen 17 und 16 vollständig ist, hat
hy nach Satz 11 genau einen Fixpunkt in X, der offenbar in X̊ liegt. Nach
dem Beweis von Satz 11 konvergiert das modifizierte Newtonverfahren gegen
diesen Fixpunkt.
Wir können nun endlich Satz I.69 auf Funktionen von mehreren Variablen
verallgemeinern.
67
Satz 42. Es seien V und W Vektorräume, D eine offene Teilmenge von V
und k ≥ 1. Weiter sei f ∈ C k (D, W ) und a ∈ D, wobei f ′ (a) invertierbar
ist. Dann gibt es Umgebungen U1 von a in V und U von b = f (a) in W ,
so dass U1 von f bijektiv auf U abgebildet wird und die Umkehrabbildung in
C k (U, V ) ist.
Beweis. Es seien U und X wie in Lemma 9. Da es für jedes y ∈ U genau
eine Lösung von f (x) = y in X̊ gibt, wird U1 = f −1 (U ) ∩ X̊ bijektiv auf U
abgebildet. Es sei g : U → U1 die Umkehrabbildung.
Für x1 , x2 ∈ X gilt laut Definition von hy
x1 − x2 = hy (x1 ) − hy (x2 ) + l(f (x1 ) − f (x2 )),
also
1
kx1 − x2 k ≤ kx1 − x2 k + klkkf (x1 ) − f (x2 )k
2
und schließlich
kx1 − x2 k ≤ 2klkkf (x1 ) − f (x2 )k.
Sind y1 , y2 ∈ U und setzen wir xi = g(yi ), so folgt
kg(y1 ) − g(y2 )k ≤ 2klkky1 − y2 k.
Somit ist g auf U Lipschitz-stetig.
Wegen der Differenzierbarkeit von f an einer beliebigen Stelle c ∈ X gibt
es nach Lemma 7 eine Funktion f˜ : D → Hom(V, W ), die an der Stelle c
stetig ist, so dass
f (x) − f (c) = f˜(x)(x − c).
Sind nun d, y ∈ U , so folgt durch Anwendung auf c = g(d) und x = g(y)
y − d = f˜(g(y))(g(y) − g(d)).
Die Teilmenge der invertierbaren Elemente von Hom(V, W ) ist offen (Übungsaufgabe), also eine Umgebung von f˜(c) = f ′ (c). Nach Satz 8 gibt es eine
Umgebung Uc von c in D, so dass f˜(x) für x ∈ Uc invertierbar ist. Für y in
der Umgebung g −1 (Uc ) von d folgt
g(y) − g(d) = f˜(g(y))−1 (y − d),
und f˜ ◦ g ist nach Satz 9 an der Stelle d stetig. Nach Lemma 7 ist g also an
der Stelle d differenzierbar. Wegen f˜(c) = f ′ (c) folgt
g ′ (d) = f ′ (g(d))−1 .
68
Da die Abbildung, die jeder invertierbaren linearen Abbildung V → W ihr
Inverses zuordnet, stetig ist (Übungsaufgabe), folgt mit Satz 34(iii), dass
g ∈ C 1 (U, V ).
Wir beweisen nun durch vollständige Induktion, dass aus f ∈ C k (D, W )
folgt g ∈ C k (U, V ). Der Induktionsanfang k = 1 ist bereits erledigt. Angenommen, die Aussage gilt für eine Zahl k. Ist nun f ∈ C k+1 (D, W ), so ist
nach Definition f ′ ∈ C k (D, Hom(V, W )) und nach Induktionsvoraussetzung
g ∈ C k (U, V ). Da die Abbildung, die jeder invertierbaren Abbildung V → W
ihr Inverses zuordnet, beliebig oft differenzierbar ist, folgt aus der obigen
Formel mit Satz 35, dass g ′ ∈ C k (U, Hom(W, V ), also g ∈ C k+1 (U, V ).
Man kann die Aussage des Satzes auch so ausdrücken, dass f ein Diffeomorphismus der Klasse C k von U1 auf U ist. Differenzieren wir die Funktion
g ◦ f = id, so folgt mit Satz 34
g ′ (b)f ′ (a) = id.
Daraus ergibt sich
g ′ (b) = f ′ (g(b))−1
wie schon in Analysis I.
Beispiel. Die durch f (x) = x2 gegebene Funktion f : K → K hat die Ableitung f ′ (x) = 2x, die für x 6= 0 invertierbar ist. Also hat jeder Punkt
a ∈ K \ {0} eine Umgebung U1 , so dass die Einschränkung von f auf U1
invertierbar ist. Die Lösung der Gleichung x2 = y ist bis auf das Vorzeichen
bestimmt. Während man im Fall K = R üblicherweise U1 = ]0, ∞[ wählt, so
dass nur ein Zweig der Parabel den Graphen der Wurzelfunktion darstellt,
gibt es im Fall K = C mehrere naheliegende Möglichkeiten. Wählt man die
offene rechte Halbebene als U1 , so erhält man den sogenannten Hauptzweig
der Wurzel. ⊳
Beispiel. Die Funktion exp : K → K hat die Ableitung exp, die in jedem
Punkt invertierbar ist. Während die Exponentialfunktion im Fall K = R
injektiv ist, ist die Lösung der Gleichung exp z = w für gegebenes w ∈ C\{0}
nach Satz I.60 nur bis auf Addition von Vielfachen von 2πi bestimmt. Ist
die Einschränkung von exp auf eine offene Teilmenge U1 ⊆ C injektiv und
stetig, so nennt man ihre Umkehrfunktion einen Zweig des
Logarithmus. Den
Hauptzweig erhält man bei der Wahl von U1 = {z ∈ C | Im z| < π}. ⊳
Beispiel. Jede C-differenzierbare Abbildung ist ja auch R-differenzierbar.
Schreiben wir im vorigen Beispiel w = x + iy und z = s + it, so erhalten wir
x = es cos t,
y = es sin t.
69
Bezeichnet man noch es = r, so erhält man eine unendlich oft differenzierbare Abbildung ]0, ∞[ × R → R2 \ {(0, 0)}. Durch Einschränkung auf eine
Teilmenge U1 erhält man einen Diffeomorphismus auf eine Teilmenge U . Man
nennt (r, t) dann die Polarkoordinaten des Punktes (x, y) ∈ U . ⊳
4.2
Implizite Funktionen
Wir wollen nun Gleichungen betrachten, die sich nicht einmal lokal eindeutig
lösen lassen. Dieses Phänomen tritt schon bei linearen Gleichungssystemen
auf. Dort stellt sich heraus, dass man einen Teil der Variablen frei wählen
kann und dann die restlichen Variablen eindeutig bestimmt sind. Wir wollen
dieses Ergebnis auf nichtlineare Gleichungen verallgemeinern.
Beispiel. Betrachten wir die Gleichung
x2 + y 2 = 1,
√
so gibt es für gegebenes x ∈ ]−1, 1[ genau zwei Lösungen y = ± 1 − x2 .
Wählt man ein Vorzeichen aus, so erhält man y als stetige Funktion von x.
Für diese Funktion haben wir eine explizite Formel. ⊳
Beispiel. Bei der Gleichung
exy = x2 + y
können wir die Lösung (0, 1) erraten, aber es ist unmöglich, die Gleichung
explizit nach y aufzulösen. ⊳
Allgemein betrachten wir Gleichungen der Form G(x, y) = 0. Finden wir
für jedes x in einer Menge D1 (beispielsweise mit Hilfe des (modifizierten)
Newtonverfahrens) ein y, so dass (x, y) eine Lösung ist, dann erhalten wir eine
Funktion auf D1 . Man sagt, dass diese Funktion implizit durch die Gleichung
G(x, y) = 0 gegeben ist. Wir fragen uns, ob man die Lösungen y jeweils so
wählen kann, dass diese Funktion stetig oder sogar differenzierbar ist.
Satz 43. Es seien U , V und W Vektorräume, D eine offene Teilmenge
von U × V und k ≥ 1. Weiter sei G ∈ C k (D, W ) und (a, b) ∈ D, so dass
G(a, b) = 0 und ∂y G(a, b) ∈ Hom(V, W ) invertierbar ist. Dann gibt es Umgebungen D1 von a und D2 von b und eine Abbildung f ∈ C k (D1 , V ), so dass
D1 × D2 ⊆ D und
{(x, y) ∈ D1 × D2 | G(x, y) = 0} = {(x, f (x)) | x ∈ D1 }.
Hier bezeichnet ∂y G wie schon in Folgerung 10 die partiell totale Ableitung bezüglich der V -Komponente y des Argumentes (x, y) ∈ U × V .
Ist eine Funktion g : V → U gegeben und wenden wir den Satz auf die
Funktion
G(x, y) = g(y) − x
70
an, so erhalten wir Satz 42 (mit vertauschten Bezeichnungen f (x) und g(y))
als Spezialfall. Man könnte den damaligen Beweis auf die jetzige Situation
verallgemeinern, aber durch einen Kunstgriff können wir uns diese Arbeit
ersparen.
Beweis. Wir definieren eine Abbildung F : D → U × W durch
F (x, y) = (x, G(x, y)).
Nach Satz 35 ist F ∈ C k (D, U × W ), und nach Satz 34 gilt
F ′ (a, b)(u, v) = (u, ∂x G(a, b)u + ∂y G(a, b)v).
Ist dieser Wert vorgegeben, so bestimmt man aus der ersten Komponente
zunächst u, und wegen der Invertierbarkeit von ∂y G(a, b) ist auch v bestimmt.
Die Abbildung F ′ (a, b) ist also invertierbar.
Nach Satz 42 ist die Einschränkung von F auf eine geeignete Umgebung
von (a, b) in D ein Diffeomorphismus der Klasse C k . Wählen wir die Norm
k(x, y)k = max{kxk, kyk} auf U × V , so sieht man, dass diese Umgebung
von (a, b) eine Menge der Form E1 × D2 enthält, wobei E1 eine Umgebung
von a und D2 eine Umgebung von b ist. Die Umkehrabbildung von F |E1 ×D2
bezeichnen wir mit H. Nach Satz 35 ist H ∈ C k (F (E1 × D2 ), U × V ).
Es sei D1 = {x ∈ E1 | (x, 0) ∈ F (E1 × D2 )}. Dies ist eine Umgebung
von a, denn (a, 0) = F (a, b). Für x ∈ D1 bezeichnen wir die V -Komponente
von H(x, 0) ∈ D1 × D2 ⊆ U × V mit f (x). Dann ist f ∈ C k (D1 , V ) und
f (D1 ) ⊆ D2 .
Ist (x, y) ∈ D1 × D2 derart, dass G(x, y) = 0 ist, so ist F (x, y) = (x, 0),
also (x, y) = H(x, 0) und f (x) = y. Ist umgekehrt x ∈ D1 und y = f (x), so
ist H(x, 0) = (x, y), also F (x, y) = (x, 0) und G(x, y) = 0.
Bemerkung. Bilden wir in den Bezeichnungen des Satzes die Ableitung von
G(x, f (x)) = 0 als Funktion von x, so ergibt sich nach Satz 34
∂x G(a, b) + ∂y G(a, b)f ′ (a) = 0.
Man kann also
f ′ (a) = −∂y G(a, b)−1 ∂x G(a, b)
bestimmen, auch wenn man keine explizite Formel für f hat. Dieses Verfahren, das sich auf höhere Ableitungen verallgemeinern lässt, nennt man
implizite Differentiation.
Beispiel. Für die durch
G(x, y) = exy − x2 − y
71
gegebene Funktion G : R2 → R ist
∂x G(x, y) = yexy − 2x,
∂y G(x, y) = xexy − 1.
Insbesondere ist ∂y G(0, 1) = −1 invertierbar, also gibt es Zahlen δ1 > 0,
δ2 > 0 und eine Funktion f : ]−δ1 , δ1 [ → R, so dass für |x| < δ1 genau dann
f (x) = y gilt, wenn
exy = x2 + y,
|y − 1| < δ2 .
Außerdem ist
f ′ (0) = −∂y G(0, 1)−1 ∂x G(0, 1) = 1.
4.3
⊳
Stationäre Punkte unter Nebenbedingungen
Wir suchen nach lokalen Extrema der Einschränkung einer Funktion f auf
die Lösungsmenge eines Gleichungssystems der Form g(x) = 0. Hierfür ist
das Kriterium aus Satz 39 nicht anwendbar.
Bevor wir den geeigneten Begriff einführen, erinnern wir daran, dass man
das Urbild des Nullvektors unter einer linearen Abbildung l den Kern von l
nennt und mit Ker l abkürzt. Dies ist ein linearer Unterraum. Es gilt genau
dann Ker l = {0}, wenn l injektiv ist.
Definition 32. Es seien V und W Vektorräume über K und D eine offene
Teilmenge von V . Weiter seien Abbildungen f : D → K und g : D → W
gegeben, die an einer Stelle a ∈ D differenzierbar sind. Ein Punkt a ∈ D
heißt stationärer Punkt von f unter der Nebenbedingung g, wenn
g(a) = 0,
Ker g ′ (a) ⊆ Ker f ′ (a).
Wir werden diesen Begriff nur im Fall K = R benötigen.
Satz 44. Es seien V und W reelle Vektorräume und D eine offene Teilmenge
von V . Weiter seien Abbildungen f : D → R und g ∈ C 1 (D, W ) gegeben.
Hat die Einschränkung von f auf die Menge X = {x ∈ D | g(x) = 0} an
der Stelle a ein lokales Extremum und ist f an dieser Stelle differenzierbar
sowie g ′ (a) : V → W surjektiv, so ist a ein stationärer Punkt von f unter
der Nebenbedingung g.
Beweis. Es sei a wie im Satz und V1 = Ker g ′ (a). Dann gibt es einen Unterraum V2 von V , so dass die lineare Abbildung V1 ×V2 → V , (v1 , v2 ) 7→ v1 +v2 ,
ein Isomorphismus ist. Indem wir f und g mit diesem Isomorphismus verketten, erhalten wir Abbildungen mit den selben Differenzierbarkeitseigenschaften. Wir können also annehmen, dass V selbst die Form V1 × V2 hat und
72
g ′ (a)(v1 , v2 ) = ∂2 g(a)v2 ist, wobei die partiell totale Ableitung ∂2 g(a) : V2 →
W den Kern {0} hat und somit injektiv ist. Da sie ebenso wie g ′ (a) nach
Voraussetzung surjektiv ist, ist sie umkehrbar. Schreiben wir a = (a1 , a2 ), so
existiert nach Satz 43 eine Umgebung D1 von a1 sowie eine stetig differenzierbare Abbildung h : D1 → V2 , so dass h(a1 ) = a2 und
{(x1 , h(x1 )) | x1 ∈ D1 } ⊆ X.
Außerdem ist
h′ (a1 ) = −∂2 g(a)−1 ∂1 g(a) = 0.
Nun sei v ∈ Ker g ′ (a). Dann ist v = (v1 , 0), und die Menge
Uv = {t ∈ R | a1 + tv1 ∈ D1 }
ist nach Satz 8 eine Umgebung der Null. Setzen wir
fv (t) = f (a1 + tv1 , h(a1 + tv1 )),
so erhalten wir eine Abbildung fv : Uv → X. Nach Satz 34 ist sie an der
Stelle t = 0 differenzierbar, und
fv′ (0) = ∂1 f (a)v1 + ∂2 f (a)h′ (a1 )v1 = ∂1 f (a)v1 .
Außerdem hat fv an der Stelle t = 0 ein lokales Extremum, und laut Satz I.70
ist fv′ (0) = 0. Es folgt f ′ (a)v = ∂1 f (a)v1 = 0. Da v ∈ Ker g ′ (a) beliebig war,
haben wir bewiesen, dass Ker g ′ (a) ⊆ Ker f ′ (a).
Um stationäre Punkte unter Nebenbedingungen zu finden, benutzt man
folgende Aussage aus der linearen Algebra.
Satz 45. Es seien V und W Vektorräume über K sowie l : V → K und
m : V → W lineare Abbildungen, wobei m surjektiv ist. Es ist genau dann
Ker m ⊆ Ker l, wenn es eine lineare Abbildung λ : W → K mit der Eigenschaft l = λ ◦ m gibt.
Beweis. Es sei Ker m ⊆ Ker l. Für jedes w ∈ W gibt es wegen der Surjektivität von m ein v ∈ V , so dass m(v) = w. Wir behaupten, dass l(v) nur von w
abhängt. Gilt nämlich für v ′ ∈ V ebenfalls m(v ′ ) = w, so ist m(v − v ′ ) = 0,
also l(v − v ′ ) = 0 und schließlich l(v) = l(v ′ ). Wir setzen λ(w) = l(v). Verfahren wir so für alle w, erhalten wir eine Abbildung λ mit der Eigenschaft
l = λ ◦ m.
Sind w1 , w2 ∈ W gegeben, so können wir v1 , v2 ∈ V mit der Eigenschaft
m(v1 ) = w1 , m(v2 ) = w2 wählen, und dann gilt m(v1 + v2 ) = w1 + w2 , also
λ(w1 + w2 ) = l(v1 + v2 ) = l(v1 ) + l(v2 ) = λ(w1 ) + λ(w2 ).
73
Analog beweist man, dass für w ∈ W und c ∈ K gilt λ(cw) = cλ(w), und
somit ist λ linear.
Die Umkehrung ist offensichtlich.
Ist f ∈ F 1 (D, K), g ∈ C 1 (D, W ) und g ′ (x) für alle x ∈ D surjektiv, so
findet man die stationären Punkte von f unter der Nebenbedingung g, indem
man das Gleichungssystem
λg ′ (x) = f ′ (a),
g(x) = 0
mit den Unbekannten x ∈ D und λ ∈ Hom(V, K) löst.
Im Spezialfall V = Rn und W = Rm gibt es für jedes λ Zahlen λ1 , . . . ,
λm , so dass für jeden Vektor w = (w1 , . . . , wm ) gilt
λ(w) = λ1 w1 + . . . + λm wm .
Wenn wir die Koordinaten von x mit xi und die Koordinatenfunktionen von
g mit gj bezeichnen, so erscheint unser Gleichungssystem in der Form
λ1 ∂1 g1 (x1 , . . . , xn ) + . . . + λm ∂1 gm (x1 , . . . , xn ) = ∂1 f (x1 , . . . , xn ),
..
.
λ1 ∂n g1 (x1 , . . . , xn ) + . . . + λm ∂n gm (x1 , . . . , xn ) = ∂n f (x1 , . . . , xn ),
g1 (x1 , . . . , xn ) = 0,
..
.
gm (x1 , . . . , xn ) = 0
mit m + n Unbekannten und ebenso vielen Gleichungen. Für jede Lösung
(x1 , . . . , xn , λ1 , . . . , λm ) ist (x1 , . . . , xn ) ein stationärer Punkt unter den Nebenbedingungen g1 (x1 , . . . , xn ) = 0, . . . , gn (x1 , . . . , xn ) = 0. Die Hilfsgrößen
λ1 , . . . , λm nennt man Lagrange-Multiplikatoren.
Beispiel. Wir suchen die Punkte in
X = {(x, y) ∈ R2 | x4 + y 4 = 4xy + 8},
die den größten bzw. kleinsten Abstand vom Koordinatenursprung haben
(vgl. T. Bröcker, Analysis II, Aufgabe II.15). Dazu setzen wir
f (x, y) = x2 + y 2 ,
g(x, y) = x4 + y 4 − 4xy − 8.
Es gilt
∂x f = 2x,
∂y f = 2y,
∂x g = 4x3 − 4y,
∂y g = 4y 3 − 4x,
74
und g ′ (x, y) ist nur dann nicht invertierbar, wenn
x3 = y,
y 3 = x.
Dies impliziert x9 = x, also (x, y) = (0, 0) oder (x, y) = ±(1, 1). Diese Punkte
liegen aber nicht in X. Wir erhalten das Gleichungssystem
λ(4x3 − 4y) = 2x,
λ(4y 3 − 4x) = 2y,
x4 + y 4 = 4xy + 8.
Ist λ = 0, so ist (x, y) = (0, 0), und die dritte Gleichung ist nicht erfüllt.
Multiplizieren wir die erste Gleichung mit y und die zweite mit x, so erhalten
wir nach Subtraktion und Kürzen von 4λ
(x3 − y)y − (y 3 − x)x = 0,
also
(x + y)(x − y)(xy + 1) = 0.
Ist x + y = 0, so erhalten wir aus der dritten Gleichung
2(x2 )2 + 4x2 − 8 = 0,
also
x2 =
√
5 − 1.
Ist x − y = 0, so folgt hingegen
2(x2 )2 − 4x2 − 8 = 0,
also
x2 =
√
5 + 1.
Ist schließlich xy + 1 = 0, so folgt
x4 + x−4 − 4 = 0,
also
(x4 )2 − 4x4 + 1 = 0
und somit
x4 = 2 ±
75
√
3.
Die stationären Punkte unter der Nebenbedingung g(x, y) = 0 sind also
p√
p√
p√
p√
±
5 + 1,
5+1 ,
±
5 − 1,
5−1 ,
p
p
p
p
√
√ √
√ 4
4
4
4
± 2 − 3, ∓ 2 + 3 .
± 2 + 3, ∓ 2 − 3 ,
Wir behaupten, dass X beschränkt ist. Für (x, y) ∈ X gilt nämlich
8 = x4 + y 4 − 4xy ≥ x4 + y 4 − 2x2 − 2y 2 ,
und wegen y 4 − 2y 2 = (y 2 − 1)2 − 1 ≥ −1 folgt x4 − 2x2 ≤ 9. Für x ≥ 2 ist
also
2
x4
4
9≥x 1− 2 ≥ ,
x
2
√
√
d. h. |x| ≤ 3 2 und analog |y| ≤ 3 2. Außerdem ist X abgeschlossen, also
kompakt, und somit besitzt die Einschränkung von f auf X ein Maximum
und ein Minimum. Die Werte von f in den stationären Punkten sind
p
p
√
√
√
√
2( 5 + 1),
2( 5 − 1),
2 + 3 + 2 − 3,
und ihre Quadrate sind
√
5
5.1
5),
4(6 −
√
5),
6.
√
√
√
√
Wegen p20 < 81, d. h. 2 5 < 9, ist 6 < 4(6 − 5). Der größte Abstand
√
√
ist also 2 + 2 5, der kleinste ist 4 6. ⊳
4(6 +
Gewöhnliche Differentialgleichungen
Der Begriff der Differentialgleichung
Im vorigen Kapitel haben wir uns mit der Lösung von Gleichungen befasst,
in denen die unbekannten Größen Zahlen waren. Nun wenden wir uns Gleichungen zu, in denen unbekannte Funktionen vorkommen. Da wir mehrere
Funktionen zu einer vektorwertigen Funktion zusammenfassen können, bedeutet es keine Einschränkung, wenn wir nur von einer unbekannten Funktion f sprechen. Auch könnnen wir Gleichungssysteme durch eine einzige
Gleichung zwischen Vektoren ausdrücken.
Am naheliegendsten ist der Begriff der Funktionalgleichung, in der die
Werte der gesuchten Funktion an mehreren Stellen vorkommen können. So
hat z. B. das System von Funktionalgleichungen
f (x + y) = f (x) + f (y),
f (cx) = cf (x),
76
die für alle x, y und c erfüllt sein sollen, als Lösung gerade die linearen
Abbildungen. Wir wollen uns hier mit Differentialgleichungen befassen, in
denen der Wert der gesuchten Funktion f und ihrer Ableitungen an ein und
der selben Stelle x vorkommen. Da wir alle Terme auf die linke Seite bringen
können, hat eine Differentialgleichung der Ordnung k die Form
G(x, f (x), f ′ (x), . . . , f (k) (x)) = 0
mit einer gegebenen Funktion G auf einer offenen Teilmenge von
V × W × Hom(V, W ) × . . . × Multk (V, W ),
wobei V und W Vektorräume sind. Eine Lösung ist eine k mal stetig differenzierbare Funktion f : E → W , für die die Gleichung an allen Stellen
der offenen Teilmenge E von V gilt. Insbesondere muss für alle x ∈ E dann
(x, f (x), f ′ (x), . . . , f (k) (x)) im Definitionsbereich von G liegen. Hat eine Differentialgleichung mehrere Lösungen, so kann man nicht alle mit f bezeichnen.
Darum schreibt man die Gleichung in der traditionellen Form
G(x, y, y ′ , . . . , y (k) ) = 0.
Ist E = A ∪ B für disjunkte offene Mengen A und B, so setzen sich Lösungen
auf A und B zu einer Lösung auf E zusammensetzen. Wir brauchen also nur
den Fall zu betrachten, dass E zusammenhängend ist.
Wir werden nur explizite Differentialgleichungen betrachten, d. h. solche
der Form
y (k) = F (x, y, y ′ , . . . , y (k−1) )
mit einer gegebenen Funktion F . (Satz 43 zeigt, dass viele implizite Differentialgleichungen äquivalent zu expliziten Differentialgleichungen sind.) Oft
gibt man einen Punkt
(x0 , y0 , y1 , . . . , yk−1 )
im Definitionsbereich D von F vor und sucht nach Lösungen, die den sogenannten Anfangsbedingungen
f (x0 ) = y0 ,
f ′ (x0 ) = y1 ,
...,
f (k−1) (x0 ) = yk−1
genügen. Da der Graph von (f, f ′ , . . . , f k−1 ) zusammenhängend ist, genügt
es, den Fall zu betrachten, dass die offene Menge D zusammenhängend ist.
Differentialgleichungen, in denen die gesuchte Funktion f von mehreren
Variablen abhängt, nennt man partielle Differentialgleichungen, weil man
hier die totalen Ableitungen f (j) meist durch partielle Ableitungen ausdrückt.
77
Ein Beispiel ist die Wellengleichung aus Aufgabe 34. Wir werden im Folgenden nur gewöhnliche Differentialgleichungen betrachten, d. h. solche, in
denen f von nur einer reellen Variablen abhängt. Dann ist E = I ein offenes
Intervall.
Beispiel. Wir betrachten eine explizite Differentialgleichung erster Ordnung,
in der F nicht von y abhängt, also
y ′ = F (x),
wobei die Werte von F und der gesuchten Funktion in einem Vektorraum
W liegen. Dann kann man annehmen, dass der Definitionsbereich von F ein
Intervall I ist. Die Lösungen sind nun gerade die Stammfunktionen von F .
Ist also F integrierbar und W 6= {0}, so gibt es nach Satz 27 unendlich viele
Lösungen, aber für jedes x0 ∈ I und jedes y0 ∈ W gibt es nur eine Lösung,
die der Anfangsbedingung
f (x0 ) = y0
genügt, nämlich
f (x) = y0 +
5.2
Z
x
F (t) dt.
⊳
x0
Elementare Lösungsmethoden
Wir behandeln nun spezielle Typen von Differentialgleichungen erster Ordnung, deren Lösung sich durch Integration gewinnen lässt.
5.2.1
Gleichungen mit getrennten Variablen
Dies sind Differentialgleichungen der Form
y ′ = g(x)h(y),
wobei g und h auf offenen Intervallen I bzw. J definiert (und stetig) sind.
dy
und formte unter der
Traditionell schrieb man y ′ als Differentialquotient dx
Annahme, dass h nirgends verschwindet, die Differentialgleichung formal um
in
dy
= g(x) dx.
(3)
h(y)
Dann setzte man vor beide Seiten ein Integralzeichen und berechnete (falls
möglich) die unbestimmten Integrale. Schließlich löste man noch nach y auf.
Um den obigen Ausdrücken einen Sinn zu geben, muss man Differentialformen und Wegintegrale einführen. Man kann das Vorgehen aber auch auf
elementare Weise rechtfertigen:
78
Satz 46. Es seien g und h stetige Funktionen auf offenen Intervallen I
bzw. J, (x0 , y0 ) ∈ I × J, und h verschwinde nirgends auf J. Wir definieren
Z x
Z y
du
G(x) =
g(t) dt,
H(y) =
.
x0
y0 h(u)
Ist G(I) ⊆ H(J), so existiert genau eine Lösung f : I → J mit der Eigenschaft f (x0 ) = y0 , und diese ist durch die Gleichung
H(f (x)) = G(x)
für x ∈ I
(4)
bestimmt.
Sind die Voraussetzungen des Satzes zunächst nicht erfüllt, so kann man
sie u. U. durch Verkleinerung von J bzw. I erzwingen.
Beweis. Zunächst zeigen wir, dass jede Lösung von (3), die der Anfangsbedingung f (x0 ) = y0 genügt, die Gleichung (4) erfüllt. Aus (3) folgt nämlich
f ′ (x)
= g(x),
h(f (x))
also
Z x
f ′ (t)
dt =
g(t) dt.
x0
x0 h(f (t))
Mit der Substitution u = f (t) erhält man
Z x
Z f (x)
du
du =
g(t) dt,
x0
f (x0 ) h(u)
Z
x
und wegen f (x0 ) = y0 ist dies gerade die Gleichung (4).
1
Wegen H ′ (y) = h(y)
6= 0 ist H streng monoton und besitzt eine stetig
differenzierbare Umkehrfunktion H −1 : H(J) → R. Aus (4) folgt daher
f (x) = H −1 (G(x)).
(5)
Wenn es also überhaupt eine Lösung von (3) mit f (x0 ) = y0 gibt, so ist sie
eindeutig bestimmt.
Um die Existenz zu beweisen, definieren wir f : I → R durch Gleichung (5), was wegen G(I) ⊆ H(J) möglich ist. Dann ist f stetig differenzierbar, und wegen G(x0 ) = H(x0 ) = 0 gilt
f (x0 ) = H −1 (G(x0 )) = H −1 (0) = y0 .
Aus (5) folgt (4) und, nach Differentiation,
H ′ (f (x))f ′ (x) = G′ (x),
was wegen H ′ =
1
h
und G′ = g gleichbedeutend mit (3) ist.
79
5.2.2
Variation der Konstanten
Hier geht es um lineare Differentialgleichungen erster Ordnung, also Differentialgleichungen der Form
y ′ = a(x)y + b(x),
(6)
wobei a und b stetige Funktionen auf einem offenen Intervall I, die für den
Anfang Werte in R haben mögen. Wir betrachten zunächst den Fall einer
homogenen linearen Gleichung, d. h. dass b konstant gleich Null ist. Dann
liegen getrennte Variablen vor, und mit der obigen Methode erhalten wir
G(y) = log yy0 , wobei J die positive oder negative Halbgerade ist, je nachdem
ob y0 positiv oder negativ ist. Es folgt
Z x
F (x)
f (x) = ce
mit
F (x) =
a(t) dt
x0
und c = y0 . Unsere Methode ist zwar im Fall y0 = 0 nicht anwendbar, aber die
letzte Formel ergibt offenbar auch dann eine Lösung der Differentialgleichung.
Dies ist auch in diesem Fall die einzige Lösung, denn wenn eine Lösung
irgendwo einen von Null verschiedenen Wert annimmt, so ist sie nach dem
Bewiesenen überall von Null verschieden.
Nun betrachten wir den inhomogenen Fall, in dem b nicht konstant gleich
Null ist. Die Methode der Variation der Konstanten besteht darin, die Lösung
in der Form
f (x) = c(x)eF (x)
zu suchen, wobei diesmal c keine Konstante, sondern eine differenzierbare
Funktion ist. Dieser Ansatz schränkt die Allgemeinheit nicht ein, denn jede differenzierbare Funktion f lässt sich so schreiben, nämlich mit c(x) =
f (x)e−F (x) . Setzt man den Ausdruck für f in die Differentialgleichung (6)
ein, so ergibt sich
c′ (x)eF (x) + c(x)eF (x) F ′ (x) = a(x)c(x)eF (x) + b(x).
Unter Berücksichtigung von F ′ = a können wir dies umschreiben zu
c′ (x) = b(x)e−F (x) ,
und die Anfangsbedingung wird zu c(x0 ) = y0 . Die Funktion c lässt sich nun
durch Integration bestimmen und in die Formel für f einsetzen. Anstatt sich
eine geschlossene Formel für die Lösung f einzuprägen, fällt es den meisten
Menschen leichter, die Herleitung im konkreten Fall zu wiederholen.
80
5.3
Existenz und Eindeutigkeit von Lösungen
Wir betrachten explizite gewöhnliche Differentialgleichungen erster Ordnung
y ′ = F (x, y),
(7)
Eine Lösung ist eine stetig differenzierbare Funktion f : I → V , wobei I ein
Intervall und V ein endlichdimensionaler K-Vektorraum ist, und F ist auf
einer offenen Teilmenge D von R × V definiert. Im Fall V = Rn kann man
diese Differentialgleichung als System
 ′

y1 = F1 (x, y1 , . . . , yn ),
..
.

 ′
yn = Fn (x, y1 , . . . , yn ).
schreiben. Um die Existenz und Eindeutigkeit von Lösungen zu zeigen, setzen
wir gewisse Eigenschaften von F voraus.
Definition 33. Es seien (X, b), (Y, d) und (Z, e) metrische Räume, D ⊆ X ×
Y und F : D → Z. Die Abbildung F heißt lokal Lipschitz-stetig bezüglich y,
wenn es für jeden Punkt (a, b) ∈ D eine Umgebung U ⊆ D und eine Konstante c gibt, so dass für alle (x, u) und (x, v) ∈ U gilt
e(F (x, u), F (x, v)) ≤ cd(u, v).
Dies ist nach Satz 26 und 27 z. B. dann der Fall, wenn X, Y und Z endlichdimensionale reelle Vektorräume sind und F auf einer offenen Teilmenge
D stetig nach y differenzierbar ist.
Satz 47 (Picard, Lindelöf). Es sei V ein endlichdimensionaler Vektorraum
und D ⊆ R × V offen, F : D → V stetig und bezüglich y Lipschitz-stetig.
Weiter sei x0 ∈ R und B ⊆ V kompakt, so dass {x0 } × B ⊆ D.
(i) Es gibt ein offenes Intervall I, das x0 enthält, so dass für jedes y0 ∈ B
eine Lösung f : I → V der Differentialgleichung (7) existiert, die der
Anfangsbedingung f (x0 ) = y0 genügt.
(ii) Sind f und g Lösungen mit der Eigenschaft f (x0 ) = g(x0 ) ∈ B, so gibt
es ein offenes Intervall J, das x0 enthält, so dass f |J = g|J .
Beweis. Wir verwenden auf R × V die Norm k(x, y)k = max{|x|, kyk}. Ist
(x0 , b) ∈ D, so gibt es ein ε > 0, so dass der Abschluss der ε-Umgebung
von (x0 , b) in D enthalten ist. Es sei U die ε/2-Umgebung von (x0 , b), B ′
der Abschluss der ε-Umgebung von (x0 , b) und I = ]x0 − δ, x0 + δ[, wobei
81
wir δ ∈ ]0, ε] später festlegen. Dann ist I¯ × B ′ ⊆ D. Wir können ε so klein
wählen, dass die Einschränkung von F auf I¯ × B ′ Lipschitz-stetig ist. Es sei
c eine Lipschitz-Konstante. Wir beweisen den Satz zunächst für B = Ū .
Es sei X die Menge der stetigen Funktionen I¯ → B ′ . Für f ∈ X ist
F (x, f (x)) als Funktion von x ∈ I¯ stetig. Nach Satz 27 ist f ∈ X genau dann
Lösung von (7) und erfüllt die Anfangsbedingung f (x0 ) = y0 , wenn für x ∈ I¯
gilt
Z
x
f (x) = y0 +
F (t, f (t)) dt.
(8)
x0
Für jedes y0 ∈ B setzen wir
Hy0 f (x) = y0 +
Z
x
F (t, f (t)) dt.
x0
¯ V ), und eine Funktion f ∈ X ist genau dann eine
Dann ist Hy0 f ∈ C 1 (I,
Lösung der Integralgleichung (8), wenn sie ein Fixpunkt von Hy0 ist.
Da F stetig ist, gibt es nach Folgerung 5 eine Konstante c′ , so dass für
(x, y) ∈ I¯ × B ′ gilt kF (x, y)k ≤ c′ . Nun folgt für f ∈ X und x ∈ I¯
Z x
Z x
kHy0 f (x) − y0 k = F (t, f (t)) dt ≤ kF (t, f (t))k dt ≤ δc′ .
x0
x0
Wir wählen δ so, dass δc′ ≤ ε/2. Dann wird X von Hy0 in sich selbst abgebildet.
Wegen der Lipschitz-Stetigkeit gilt für alle x ∈ I¯ und u, v ∈ B ′
kF (x, u) − F (x, v)k ≤ cku − vk.
Für f , g ∈ X und x ∈ I¯ folgt
Z x
kHy0 f (x)−Hy0 g(x)k ≤ kF (t, f (t)) − F (t, g(t))k dt ≤ δc sup kf (t)−g(t)k.
t∈I¯
x0
Wir verkleinern δ weiter, so dass δc < 1 ist. Dann ist Hy0 eine Kontraktion.
¯ V ) ist nach Folgerung 4 vollständig. Seine TeilDer metrische Raum C(I,
menge X ist abgeschlossen, also nach Folgerung 3 ein vollständiger Teilraum.
Nach Satz 11 hat Hy0 für jedes y0 ∈ B genau einen Fixpunkt in X. Dies beweist Aussage (i) im Fall B = Ū .
Ist g eine weitere Lösung von (7) mit g(x0 ) = y0 , so ist g stetig, also gibt
es ein offenes Teilintervall J von I, das x0 enthält, so dass für x ∈ J gilt
g(x) ∈ B ′ . Wenden wir das Bewiesene auf J statt I an, so folgt, dass g auf
J mit der Lösung von (8) übereinstimmt. Dies beweist Aussage (ii).
82
Ist nun B beliebig kompakt, so gibt es endlich viele Punkte bk ∈ B, so
dass B von den zugehörigen Umgebungen Uk überdeckt wird. Für jedes k
gibt es ein offenes Intervall Ik , so dass für Anfangswerte in Uk Lösungen
auf Ik existieren. Bezeichnen wir den Durchschnitt der Ik mit I, so folgt
Aussage (i).
Aus dem Beweis ergibt sich, dass durch f0 (x) = y0 und die PicardIteration
Z x
fk+1 (x) = y0 +
F (t, fk (t)) dt
x0
eine Funktionenfolge fk definiert wird, die in einer Umgebung von x0 gleichmäßig gegen die Lösung der Differentialgleichung (7) mit der Anfangsbedingung f (x0 ) = y0 konvergiert.
Der Existenz- und Eindeutigkeitssatz lässt sich noch etwas verbessern.
Satz 48. Es seien D und F wie in Satz 47 und B ⊆ D eine kompakte Teilmenge. Dann gibt es ein δ > 0, so dass für jedes (x0 , y0 ) ∈ B eine Lösung
f : ]x0 − δ, x0 + δ[ → V der Differentialgleichung (7) existiert, die der Anfangsbedingung f (x0 ) = y0 genügt. Zwei Lösungen mit derselben Anfangsbedingung stimmen auf dem Durchschnitt ihrer Definitionsbereiche überein.
Beweis. Die erste Aussage ist sicher dann richtig, wenn die Funktion F nicht
von x abhängt, denn für jede Lösung g mit g(0) = y0 ist dann f (x) = g(x−x0 )
eine Lösung mit f (x0 ) = y0 . Für (x0 , y0 ) ∈ B liegt y0 in der Projektion von B
auf V , die ebenfalls kompakt ist, so dass g nach Satz 47 auf einem Intervall
]−δ, δ[ existiert, das nicht von y0 abhängt.
Den allgemeinen Fall können wir wie folgt darauf zurückführen. Ist f :
I → V eine Lösung der Differentialgleichung (7) mit f (x0 ) = y0 , so genügt
die Funktion f˜ : I → R × V , die durch
f˜(x) = (x, f (x))
gegeben ist, der Differentialgleichung
ỹ ′ = (1, F (ỹ)),
deren rechte Seite nicht von x abhängt, und der Anfangsbedingung
f˜(x0 ) = (x0 , y0 ).
Ist umgekehrt f˜ = (f0 , f ) eine Lösung der letzteren Differentialgleichung
und Anfangsbedingung, so ist f0 (x) = x, also f˜(x) = (x, f (x)), wobei f eine
Lösung der ursprünglichen Differentialgleichung ist.
83
Nun zur Eindeutigkeit. Sind f1 : I1 → V und f2 : I2 → V zwei Lösungen
von (7) und ist sowohl f1 (x0 ) = y0 als auch f2 (x0 ) = y0 , so enthält
A = {x ∈ I1 ∩ I2 | f1 (x) = f2 (x)}
den Punkt x0 und ist wegen der Stetigkeit von f1 − f2 eine abgeschlossene
Teilmenge von I1 ∩ I2 . Nach der Eindeutigkeitsaussage von Satz 47 ist A aber
auch eine offene Teilmenge. Da I1 ∩ I2 als Intervall zusammenhängend ist,
gilt A = I1 ∩ I2 .
Eine Lösung heißt maximal, wenn sie sich nicht zu einer Lösung auf einem größeren Intervall fortsetzen lässt. Aufgrund der Existenzaussage von
Satz 47 ist klar, dass der Definitionsbereich einer maximalen Lösung ein offenes Intervall sein muss.
Folgerung 11. Ist f lokal Lipschitz-stetig bezüglich y, so gibt es zu jedem
(x0 , y0 ) ∈ D eine maximale Lösung f : Ix0 ,y0 → V , die der Anfangsbedingung
f (x0 ) = y0 genügt.
Setzt man nämlich Ix0 ,y0 gleich der Vereinigung sämtlicher Intervalle I, auf
denen Lösungen fI existieren, die der gegebenen Anfangsbedingung genügen,
so gehört jedes x ∈ Ix0 ,y0 zu wenigstens einem dieser Intervalle I. Wir können
dann f (x) = fI (x) setzen, was nach Satz 48 nicht von der Wahl von I
abhängt, und f ist offensichtlich eine Lösung unserer Differentialgleichung.
Wir beweisen nun den globalen Existenzsatz.
Satz 49. Es sei D ⊆ R×V offen, F : D → V stetig und bezüglich y Lipschitzstetig. Ist f : I → V eine maximale Lösung der Differentialgleichung y ′ =
F (x, y), dann ist ihr Graph
{(x, y) ∈ I × V | y = f (x)}
abgeschlossen in D.
Beweis. Angenommen, der Punkt (a, b) ∈ D liegt im Abschluss des Graphen
von f , d. h. es gibt eine Folge (xn , yn ) mit xn ∈ I und yn = f (xn ), so dass
(xn , yn ) → (a, b)
(n → ∞).
Dann ist die Menge
B = {(xn , yn ) | n ∈ N} ∪ {(a, b)}
kompakt, also gibt es nach Satz 48 ein δ > 0, so dass für jedes n ∈ N eine Lösung fn : ]xn − δ, xn + δ[ → V existiert, die der Anfangsbedingung
84
fn (xn ) = yn genügt. Da auch f dieser Bedingung genügt, stimmen aufgrund
der Eindeutigkeitsaussage von Satz 48 die Lösungen f und fn auf dem Intervall I ∩ ]xn − δ, xn + δ[ überein, und wegen der Maximalität von I ist
]xn − δ, xn + δ[ ⊆ I. Da dies für alle n gilt, folgt aus xn → a (n → ∞) nun
a ∈ I. Aus f (xn ) = yn folgt wegen der Stetigkeit von f , dass f (a) = b. Also
liegt (a, b) im Graphen von f .
Folgerung 12. Ist f : I → V eine maximale Lösung und B eine kompakte
Teilmenge von D, so gibt es x+ , x− ∈ I, so dass für alle x ∈ I mit x > x+
oder x < x− gilt (x, f (x)) ∈
/ B.
Der Durchschnitt von B mit dem Graphen von f ist nach Satz 18 kompakt, und nach Satz 22 ist auch die Projektion B ′ dieses Durchschnitts auf
die x-Achse kompakt. Ist B ′ = ∅, so kann man x± beliebig wählen. Anderenfalls hat B ′ ein größtes Element x+ und ein kleinstes Element x− , und
nach Definition des Graphen ist B ′ ⊆ I.
5.4
Lineare Differentialgleichungssysteme
Es sei K = R oder K = C und V ein endlichdimensionaler K-Vektorraum.
Auf einem offenen Intervall I seien Funktionen A : I → End(V ) und b : I →
V gegeben. Im Fall V = K n können wir diese als matrix- bzw. vektorwertige
Funktionen

 

b1
a11 . . . a1n



 ..
.
..  ,
b =  ... 
A= .
an1 . . .
bn
ann
schreiben. Das Gleichungssystem
y ′ = Ay + b
(9)
heißt lineares Differentialgleichungssystem erster Ordnung. Es heißt homogen, wenn b identisch gleich Null ist. Hier ist für y eine V -wertige Funktion
einzusetzen.
Zunächst betrachten wir den Fall eines homogenen Systems.
Satz 50. Ist A : I → End(V ) stetig und g : J → Rn eine Lösung des
Differentialgleichungssystems
y ′ = Ay
(10)
auf einem Teilintervall J ⊆ I, so gilt für alle x0 und x in J
Z x
kA(x)k dx .
kg(x)k ≤ kg(x0 )k exp x0
85
Beweis. Verschwindet die Funktion g an einer Stelle, so ist sie aufgrund von
Satz 48 überall gleich Null, und die Behauptung folgt. Es genügt also den
Fall zu betrachten, dass g nirgends verschwindet.
Nach Satz 27 gilt
Z x
kg(x)k
hg(t), g(t)i′
2 ln
= lnhg(x), g(x)i − lnhg(x0 ), g(x0 )i =
dx.
kg(x0 )k
x0 hg(t), g(t)i
Da g eine Lösung von (10) ist, gilt laut Satz 34
hg, gi′ = hg ′ , gi + hg, g ′ i = 2hAg, gi,
wobei wir das Argument x der Kürze halber weggelassen haben. Mit der
Cauchy-Schwarz-Ungleichung folgt
|hg, gi′ | ≤ 2kAkhg, gi.
Somit erhalten wir
Z x
kg(x)k
≤ kA(t)k dt .
ln
kg(x0 )k
x0
Wegen der Monotonie der Exponentialfunktion folgt die Behauptung.
Folgerung 13. Jede maximale Lösung des homogenen Differentialgleichungssystems (10) ist auf ganz I definiert.
Angenommen, g : J → Rn ist eine maximale Lösung und x1 = sup J liegt
in I. Es sei c = supx∈[x0 ,x1 ] kA(x)k. Dann liegt der Graph von g|[x0 ,x1 [ in der
kompakten Menge
B = [x0 , x1 ] × {y ∈ V | kyk ≤ ec(x1 −x0 ) kg(x0 )k}.
Aus Folgerung 12 erhalten wir ein x ∈ J mit x > x1 (Widerspruch). Es folgt
sup J ∈
/ I, und analog inf J ∈
/ I, so dass J = I.
Folgerung 14. Die Menge aller maximalen Lösungen von (10) ist ein linearer Unterraum L von C 1 (I, V ), und für jedes x0 ∈ I ist die Abbildung
g 7→ g(x0 ) ein Isomorphismus L → V .
Die erste Aussage ist offensichtlich. Die Surjektivität ergibt sich aus Folgerung 13 und die Injektivität aus Satz 48.
Eine Basis g1 , . . . , gn von L heißt Lösungs-Fundamentalsystem von (10).
Man kann sie z. B. gewinnen, indem man eine Basis y1 , . . . , yn von V wählt
und maximale Lösungen findet, die den Anfangsbedingungen g1 (x0 ) = y1 ,
86
. . . , gn (x0 ) = yn genügen. Wir erhalten für jedes x ∈ I eine lineare Abbildung
G(x) : K n → V durch
G(x)c = c1 g1 (x) + . . . cn gn (x).
Offensichtlich ist jede Lösung von dieser Form, und es gilt die Gleichheit von
linearen Abbildungen
G′ (x) = A(x)G(x),
weil beide Seiten bei Anwendung auf ein beliebiges c ∈ K n das selbe Ergebnis liefern. Im Fall V = K n erhalten wir eine Matrixdastellung von G,
genannt Fundamentalmatrix des Systems (10), indem wir die vektorwertigen
Funktionen


 
g11 . . . g1n
g1i

 
.. 
zu
G =  ...
gi =  ... 
. 
gn1 . . .
gni
gnn
vereinigen. Während G praktisch schwer zu bestimmen ist, können wir det G
als Lösung einer skalaren Differentialgleichung finden, denn mit Hilfe des
Beispiels auf S. 47 erhalten wir
(det G(x))′ = tr A(x) det G(x).
Beispiel. Wir betrachten das System
y1
− 2xy2 ,
x
y2
y2′ = 2xy1 + .
x
y1′ =
Die Matrix dieses Systems ist also
A(x) =
1
x
2x
−2x
1
x
.
Ein Lösungs-Fundamentalsystem ist gegeben durch
−x sin x2
x cos x2
,
,
g2 =
g1 =
x cos x2
x sin x2
und die entsprechende Fundamentalmatrix ist
cos x2 − sin x2
.
G(x) = x
sin x2 cos x2
Nun betrachten wir das inhomogene System (9).
87
⊳
Satz 51. Sind A : I → End(V ) und b : I → V stetig, so gibt es zu jedem
(x0 , y0 ) ∈ I × V eine eindeutig bestimmte Lösung f : I → V des Differentialgleichungssystems (9), die der Anfangsbedingung f (x0 ) = y0 genügt.
Beweis. Wir benutzen wieder die Methode der Variation der Konstanten,
d. h. wir suchen die Lösung in der Form
f = c1 g 1 + · · · + cn g n ,
wobei g1 , . . . , gn ein Lösungs-Fundamentalsystem des homogenen Systems (10)
ist und die ci jetzt Funktionen sind. Dies schreiben wir übersichtlicher in der
Form
f (x) = G(x)c(x).
Durch diesen Ansatz wird die Allgemeinheit der gesuchten Funktion f nicht
eingeschränkt, weil G(x) für alle x ∈ I invertierbar ist. Nun gilt
f ′ (x) = G′ (x)c(x) + G(x)c′ (x),
also ist f genau dann Lösung der Differentialgleichung (9), wenn
G′ (x)c(x) + G(x)c′ (x) = A(x)G(x)c(x) + b(x).
Nach Kürzen der vorderen Terme wird dies zu
G(x)c′ (x) = b(x),
und die Lösung ist von der Form
Z x
c(x) =
G(t)−1 b(t) dt + C
x0
mit einem Vektor C ∈ V . Die Anfangsbedingung f (x0 ) = y0 ergibt schließlich
C = G(x0 )−1 y0 .
Beispiel. Das inhomogene System
y1
− 2xy2 + 2x2 ,
y1′ =
x
y2
y2′ = 2xy1 +
x
2
hat dieselbe Matrix A wie im obigen Beispiel und b = 2x0 . Die Methode
aus dem Beweis liefert
2
Z
Z
2x
1 cos x2 sin x2
−1
dx
c(x) = G(x) b(x) =
2
2
0
x − sin x cos x
Z sin x2 + C1
cos x2
2x dx =
.
=
cos x2 + C2
− sin x2
88
Somit ergibt sich die allgemeine Lösung als
− sin x2
0
cos x2
.
+ C2 x
f (x) =
+ C1 x
cos x2
x
sin x2
Folgerung 15. Die Menge der maximalen Lösungen des Differentialgleichungssystems (9) ist ein affiner Unterraum von C 1 (I, V ) der Form A =
f0 + L, wobei L den Raum der Lösungen des zugehörigen homogenen Systems (10) bezeichnet.
Für jedes Lösung f0 von (9) und jede Lösung g von (10) ist nämlich f0 + g
eine Lösung von (9), und für beliebige Lösungen f0 und f von (9) ist f − f0
eine Lösung von (10).
Wenn A konstant ist, kann eine Fundamentalmatrix explizit berechnet
werden. Dazu müssen wir zunächst etwas Versäumtes nachholen.
Satz 52. Es seien V und W Vektorräume über K, D eine wegzusammenhängende offenen Teilmenge von V und fl : D → W eine Folge stetig Kdifferenzierbarer Funktionen. Gilt fl (a) → c (l → ∞) für einen Punkt a ∈ D
und konvergiert die Folge fl′ lokal gleichmäßig gegen eine Funktion h, so konvergiert die Folge fl lokal gleichmäßig gegen eine stetig K-differenzierbare
Funktion f mit der Ableitung f ′ = h.
Übrigens ist jede zusammenhängende offene Teilmenge von V wegzusammenhängend.
Beweis. Ist b ∈ D, so gibt es einen Weg g : [0, 1] → V von a nach b. Man
kann zeigen (Übungsaufgabe), dass man g ∈ C 1 ([0, 1], V ) wählen kann. Nach
Satz 27 ist
Z 1
fl (b) = fl (a) +
fl′ (g(t))g ′ (t) dt.
0
Jeder Punkt g(t) hat eine Umgebung, in der die Folge fl′ gleichmäßig konvergent ist. Nach Satz 22 ist das Bild von g kompakt, also genügen endlich
viele Umgebungen, und somit ist fl ◦ g gleichmäßig konvergent. Mit Satz 32
folgt
Z
1
fl (b) → c +
h(g(t))g ′ (t) dt
0
(l → ∞).
Die rechte Seite ist also f (b).
Für einen beliebigen Punkt b ∈ D gibt es ein η > 0, so dass fl′ auf Uη (b)
gleichmäßig gegen h konvergiert, und für kvk < η haben wir als Spezialfall
der obigen Formel für einen geradlinigen Weg
Z 1
f (b + v) = f (b) +
h(b + tv)v dt,
0
89
Nach Satz 27 gilt auch
fl (b + v) = fl (b) +
Z
1
0
fl′ (b + tv)v dt.
Ziehen wir die vorletzte Gleichung von der letzten ab, so erhalten wir mit
der Dreiecksungleichung und Satz 26(iv)
Z 1
kfl (b + v) − f (b + v)k ≤ kfl (b) − f (b)k + η
kfl′ (b + tv) − h(b + tv)kdt.
0
Damit folgt die gleichmäßige Konvergenz von fl auf Uη (b). Außerdem gilt
f (b + v) = f (b) + h(b)v + r(v),
Nach Satz 10 ist h stetig, also gilt
h(b).
r(v) =
r(v)
kvk
Z
1
0
(h(b + tv) − h(b))v dt.
→ 0 (v → 0) und somit f ′ (b) =
(j)
Folgerung 16. Ist fl ∈ C k (D, W ) und ist für jedes j ≤ k die Folge fl lokal
gleichmäßig konvergent, so gibt es eine Funktion f ∈ C k (D, W ), so dass für
(j)
j ≤ k gilt fl → f (j) (l → ∞).
Beweis. Für k = 0 ist nichts zu beweisen. Angenommen, die Behauptung gilt
für eine Zahl k. Sind nun die Funktionen fl in C k+1 (D, W ) und ist für jedes
(j)
j ≤ k die Folge fl lokal gleichmäßig konvergent, so erfüllen die Funktionen
fl′ die Bedingungen der Induktionsvoraussetzung, also gibt es eine Funkti(j+1)
on h ∈ C k (D, W ), so dass für j ≤ k die Folge fl
lokal gleichmäßig gegen
(j)
h konvergiert. Aus dieser Aussage im Fall j = 0 folgt nach Satz 52, dass
die Folge fl lokal gleichmäßig gegen eine Funktion f ∈ C1(D, W ) mit der
Ableitung f ′ = h konvergiert.
Folgerung 17. Der Raum der beschränkten k Mal stetig differenzierbaren
Funktionen D → W ist bezüglich der Norm
kf k(k) = kf k + kf ′ k + . . . + kf (k) k
vollständig (vgl. Präsenzübung 40 auf Blatt 10).
Nun kommen wir zu unserem Thema zurück.
Satz 53. Es sei V ein endlichdimensionaler K-Vektorraum.
90
(i) Für jedes A ∈ End(V ) ist die Reihe
exp A =
∞
X
1 j
A
j!
j=0
absolut konvergent, und die Partialsummen als Funktionen von A konvergieren lokal gleichmäßig.
(ii) Für A, B ∈ End(V ) mit der Eigenschaft AB = BA gilt
exp(A + B) = exp A exp B.
(iii) Die Abbildung exp ist unendlich oft K-differenzierbar, und für jede
natürliche Zahl k und alle A0 , A1 , . . . , Ak ∈ End(V ) gilt
∞ X
X
1
exp (A0 )(A1 , . . . , Ak ) =
Aπ(1) . . . Aπ(j) ,
j!
j=k π∈P
(k)
jk
wobei Pjk die Menge aller Abbildungen π : {1, . . . , j} → {0, . . . , k} mit
der Eigenschaft |π −1 (i)| = 1 für jedes i ∈ {1, . . . , k} bezeichnet.
Beweis. Wir wählen
eine Norm auf V und erhalten eine Norm auf End(V ).
j
Wegen |Pjk | = k k! gilt für alle m ∈ N
l
l
X
X
X 1
1
kAπ(1) . . . Aπ(j) k = kA1 k · · · kAk k
kA0 kj−k
j!
(j − k)!
j=k
j=k π∈P
jk
≤ kA1 k · · · kAk k exp kA0 k.
Somit ist die Reihe in (iii) für alle A absolut konvergent, also nach Präsenzübung 38 konvergent. Wir bezeichnen ihren Grenzwert mit gk (A0 )(A1 , . . . , Ak ).
Im Fall k = 0 erhalten wir die Reihe aus (i) mit A = A0 , deren Partialsummen
wir mit fl (A) bezeichnen, und es folgt g0 (A) = exp A.
(k)
Nach Satz 34 ist die l-te Partialsumme der Reihe in (iii) gleich fl (A),
und es gilt für l ≥ k
(k)
kfl (A)
− gk (A)k ≤
∞
X
1
kAkj−k ,
(j
−
k)!
j=l+1
wobei links die Norm einer multilinearen Abbildung steht. Für jedes x ≥ 0
∞
P
xj−k
folgt wegen
→ 0 (l → ∞), dass die Einschränkung der Folge
(j−k)!
j=l+1
91
(k)
fl auf die Menge {A ∈ End(V ) | kAk ≤ x} gleichmäßig gegen die Einschränkung von gk konvergent, und da wir x beliebig wählen können, ist die
Konvergenz auf End(V ) lokal gleichmäßig. Dies gilt insbesondere für k = 0,
und (i) ist bewiesen. Außerdem können wir Satz 52 mit einem beliebigen k
anwenden, somit ist exp unendlich oft differenzierbar und exp(k) = gk . Damit
ist (iii) bewiesen. Der Beweis von (ii) ist eine wörtliche Kopie des Beweises
von Satz I.51, weil für vertauschbare A und B die binomische Formel
j
(A + B) =
j X
j
i=0
i
Ai B j−i
gilt.
Die Formel in Aussage (iii) lautet für k = 1
exp′ (A0 )(A) = A +
1
1
(AA0 + A0 A) + (AA20 + A0 AA0 + A20 A) + . . .
2!
3!
Im Fall A0 = xA mit x ∈ R vereinfacht sich die rechte Seite, und wir erhalten
mit Satz 34(iii):
Folgerung 18. Setzen wir G(x) = exp(xA), so gilt G′ (x) = AG(x).
Im Fall V = K n ist G(x) also eine Fundamentalmatrix für das Differentialgleichungssystem y ′ = Ay mit konstanter Marix A. Den Teilnehmern an der
Veranstaltung Lineare Algebra II“ ist klar, dass man exp(A) leicht berech”
nen kann, wenn man eine Basis findet, in der A die Jordansche Normalform
hat.
5.5
Systeme höherer Ordnung
Differentialgleichungen mit höheren Ableitungen treten u. a. in der Physik
auf. So lautet die Grundgleichung der Newtonschen Mechanik F = ma, wobei m die Masse eines Massenpunktes, F die auf ihn wirkende Kraft und a
die resultierende Beschleunigung ist. Dies lässt sich als Differentialgleichung
zweiter Ordnung s′′ = F/m schreiben. Betrachten wir aber den Ort s und
die Geschwindigkeit v = s′ gleichzeitig, so erhalten wir ein System erster
Ordnung
s′ = v,
v ′ = F/m,
das wir mit den bekannten Methoden behandeln können. Diese Idee lässt
sich verallgemeinern.
92
Wir betrachten eine explizite gewöhnliche Differentialgleichung k-ter Ordnung
y (k) = F (x, y, y ′ , . . . , y (k−1) )
(11)
und suchen nach Lösungen f auf einem Intervall I mit Werten in einem
K-Vektorraum V . Die Funktion F ist auf einer offenen Teilmenge D von
R × V × · · · × V = R × V k definiert. Ist V = K n , so handelt es sich um eine
Gleichung zwischen vektorwertigen Funktionen, die sich auch als Gleichungssystem schreiben lässt.
Ein solches System lässt sich auf einfache Weise auf ein System erster
Ordnung zurückführen, wobei sich allerdings die Anzahl der Gleichungen
erhöht. Mit den Bezeichnungen



 

y
ỹ1
ỹ0


 ỹ1   y ′ 
ỹ2



 

˜
und
f
(x,
ỹ)
=
=


 ..   .. 
..


 .   . 
.
(k−1)
f (x, ỹ0 , ỹ1 , . . . , ỹk−1 )
ỹk−1
y
können wir das System in der Form
ỹ ′ = f˜(x, ỹ)
(12)
schreiben. Im Fall V = K n stapeln wir also k Spaltenvektoren der Höhe n
zu einem Spaltenvektor der Höhe kn.
Satz 54. Ist D wie oben und F : D → V stetig und nach den y-Variablen
lokal Lipschitz-stetig, so gibt es für einen beliebigen Punkt (x0 , y0 , . . . , yk−1 )
in D genau eine maximale Lösung f : I → V des Differentialgleichungssystems (11), die den Anfangsbedingungen
f (x0 ) = y0 ,
f ′ (x0 ) = y1 ,
...,
f (k−1) (x0 ) = yk−1
(13)
genügt.
Beweis. Dies folgt unmittelbar aus den bisherigen Resultaten über Systeme
erster Ordnung. Ist f eine Lösung von (11) mit den Anfangsbedingungen (13),
so definieren wir eine Funktion f˜ : I → V k , indem wir f˜i = f (i) setzen, und
diese ist dann eine Lösung von (12) mit der Anfangsbedingung


y0
 y1 


f˜(x0 ) =  ..  .
 . 
yk−1
Umgekehrt erhalten wir aus einer solchen Lösung f˜ eine Lösung f des ursprünglichen Systems (11), indem wir f = f˜0 setzen.
93
Ein lineares gewöhnliches Differentialgleichungssystem k-ter Ordnung ist
ein System der Form
y (k) + Ak−1 (x)y (k−1) + · · · + A1 (x)y ′ + A0 (x)y = b(x),
(14)
wobei A0 , . . . , Ak−1 : I → End(V ) und b : I → V stetige Funktionen sind.
Satz 55. Die Differentialgleichung (14) hat für beliebige Anfangsbedingungen (13) genau eine Lösung f : I → V . Ist dim V = n, so ist die Menge
der maximalen Lösungen der zugehörigen homogenen Gleichung (bei dem
b durch Null ersetzt ist) ein kn-dimensionaler linearer Unterraum L von
C k (I, V ). Die Menge der Lösungen von (14) ist ein affiner Unterraum der
Form A = f0 + L. Eine Menge {g1 , . . . , gkn } ⊆ L ist genau dann linear
unabhängig, wenn die sog. Wronski-Matrix


g1
...
gkn
′
 g1′

...
gkn


W =  ..
..  ∈ Hom(K kn , V k )
 .
. 
(k−1)
(k−1)
g1
. . . gkn
an einer Stelle x ∈ I (und dann auch an allen Stellen) umkehrbar ist.
Beweis. Die Differentialgleichung (14) lässt sich auf ein lineares System erster
Ordnung mit der Matrix


0V
IV


0V
IV




.


.
à = 
.
0V



.
..

IV 
−A0 −A1 −A2 . . . −Ak−1
0
0
zurückführen, wobei 0V , IV ∈ End(V ) die Nullabbildung und die identische
Abbildung bezeichnen. Die Spalten der Wronski-Matrix sind gerade die zu
den Lösungen g1 , . . . , gkn des homogenen Systems k-ter Ordnung gehörigen
Lösungen g̃1 , . . . , g̃kn des homogenen Systems erster Ordnung. Nun ergeben
sich die Behauptungen aus Satz 54 und seiner Folgerung.
5.6
Lineare Differentialgleichungen mit konstanten Koeffizienten
Wir betrachten nun den Fall, dass die Koeffizienten Aj in der Differentialgleichung (14) nicht von x abhängen. Man könnte diese Gleichung auf ein
System erster Ordnung zurückführen und dann Folgerung 18 anwenden. Im
skalaren Fall V = K gibt es aber eine einfachere Möglichkeit.
94
Satz 56. Es sei
p(λ) = λk + ak−1 λk−1 + . . . + a1 λ + a0
ein Polynom mit Koeffizienten in K. Gibt es paarweise verschiedene λ1 , . . . ,
λr ∈ K und natürliche Zahlen k1 , . . . , kr , so dass für alle λ ∈ K gilt
p(λ) = (λ − λ1 )k1 · · · (λ − λr )kr ,
so bilden die K-wertigen Funktionen
gij (x) = xj exp(λi x)
mit i ∈ {1, . . . , n} und 0 ≤ j < ki ein Lösungs-Fundamentalsystem der
homogenen Differentialgleichung
y (k) + ak−1 y (k−1) + . . . + a1 y ′ + a0 y = 0.
(15)
Nach dem Hauptsatz der Algebra hat im Fall K = C übrigens jedes
Polynom eine Zerlegung in Linearfaktoren, wie sie im Satz gefordert ist. Man
sagt, dass λi eine ki -fache Nullstelle von p ist.
Wir ordnen jedem Polynom
q(λ) = bl λl + bl−1 λl−1 + . . . + b1 λ + b0
eine Abbildung Dq : C l (R, K) → C(R, K) zu, indem wir festlegen
Dq f = bl f (l) + bl−1 f (l−1) + . . . + b1 f ′ + b0 f.
Abbildungen dieser Form nennt man gewöhnliche Differentialoperatoren mit
konstanten Koeffizienten. Offensichtlich ist f genau dann eine Lösung der
homogenen Differentialgleichung (15), wenn Dp f = 0 ist.
Der Grad des obigen Polynoms q ist definiert als
deg q = sup{j ∈ N | bj 6= 0},
also insbesondere deg 0 = −∞.
Lemma 10. (i) Haben die Polynome p und q die Grade k bzw. l, so gilt
auf C m (R, K)
Dp+q = Dp + Dq ,
Dp·q = Dp ◦ Dq ,
95
falls m ≥ k, m ≥ l,
falls m ≥ k + l.
(ii) Sind p und h Polynome, g(x) = exp(xλ0 ) und setzen wir p0 (λ) =
p(λ + λ0 ), so ist
Dp (hg) = Dp0 (h)g.
Ist p(λ0 ) 6= 0, so hat Dp0 h den selben Grad wie h.
Beweis. (i) Man rechnet leicht die erste Formel und die zweite im Fall der
Polynome q(λ) = c ∈ K oder q(λ) = λ nach. Durch vollständige Induktion
folgt dann die zweite Formel für q(λ) = cλj , und mit der ersten Formel folgt
die zweite Formel für beliebige q.
(ii) Im Fall p(λ) = c ist p0 (λ) = c und
Dp (hg) = chg,
Dp0 h = ch,
und im Fall p(λ) = λ ist p0 (λ) = λ + λ0 und
Dp (hg) = (hg)′ = h′ g + hg ′ = (h′ + λ0 h)g,
Dp0 (h) = h′ + λ0 h,
also gilt die Behauptung in diesen Fällen. Für beliebige Polynome p und q
gilt
(p + q)0 (λ) = (p + q)(λ + λ0 ) = p(λ + λ0 ) + q(λ + λ0 ) = p0 (λ) + q0 (λ),
also (p + q)0 = p0 + q0 , und analog sieht man, dass (pq)0 = p0 q0 . Gilt die
Aussage (ii) für p und für q, so zeigt man sie unter Verwendung von Teil (i) für
p + q und für pq. Aus den bewiesenen Spezialfällen folgt nun die Behauptung
im allgemeinen Fall.
Aus der Aussage (ii) folgt im Fall h = 1, dass Dp g = p0 (0)g = p(λ0 )g. Da
man λ0 beliebig wählen kann, gewinnen wir so aus dem Differentialoperator
Dp das Polynom p zurück. Man nennt es das Symbol von Dp , da man mit Hilfe
von Aussage (i) Identitäten zwischen Differentialoperatoren durch Rechnung
mit Symbolen nachprüfen kann.
Beweis von Satz 56. Mit der Bezeichnung pi (λ) = λ−λi und gi (x) = exp(λi x)
gilt
Dpi gi = gi′ − λi gi = 0
und für j > 0
Dpi gij = gij′ − λi gij = jgi,j−1 .
Mit Lemma 10(ii) folgt für 0 ≤ j < ki
Dpki gij = Dpkii gij = 0
i
und schließlich
Dp gij = 0.
96
Somit sind die angegebenen Funktionen Lösungen der Differentialgleichung.
Die Anzahl der Funktionen gi,j ist k1 + . . . + kr = k, also gleich der
Dimension des Lösungsraumes L, und eine beliebige Linearkombination hat
die Gestalt
h1 g1 + . . . + hr gr
mit Polynomen h1 , . . . , hr , wobei deg hi < ki . Wir zeigen durch vollständige
Induktion nach r, dass diese Linearkombination nur dann gleich Null ist,
wenn alle hi gleich Null sind.
Im Fall r = 1 folgt die Behauptung, weil g1 nirgends verschwindet.
Angenommen, die Behauptung gilt für r − 1 Summanden. Wenden wir
kr
Dpr auf die obige Linearkombination an, so erhalten wir
m1 g1 + . . . + mr−1 gr−1 = 0
mit Polynomen mi von dem selben Grad wie hi . Nach Induktionsvoraussetzung verschwinden die mi , also auch die hi für i < r, und wir sind wieder im
Fall eines Summanden.
Bemerkung. Ist D ∈ End(L) durch Df = f ′ definiert, so ist p das charakteristische Polynom von D, und D hat bezüglich der Basis j!1 gij die Jordansche Normalform.
Wir betrachten nun die inhomogene Differentialgleichung
y (k) + ak−1 y (k−1) + . . . + a1 y ′ + a0 y = b(x),
(16)
die wir in der Form Dp y = b schreiben können. Man kann eine Lösung durch
Variation der Konstanten finden. Für spezielle Funktionen b kommt man mit
einem geeigneten Ansatz schneller zum Ziel.
Satz 57. Es sei b = m0 g0 , wobei m0 ein Polynom mit Koeffizienten in K
vom Grad l und g0 (x) = exp(λ0 x) mit λ0 ∈ K ist. Ist λ0 eine k0 -fache
Nullstelle des Symbols p der linken Seite von (16), so gibt es eine Lösung der
Differentialgleichung in der Form
f = h0 g0
mit einem Polynom h0 vom Grad l + k0 .
Man beachte, dass k0 auch Null sein kann.
Beweis. Wir beweisen die Behauptung durch vollständige Induktion nach l.
Für l < 0, also m0 = 0, können wir h0 = 0 setzen.
Angenommen, die Behauptung gilt für Polynome von kleinerem Grad als l
an Stelle von m0 . Es gibt ein Polynom q mit der Eigenschaft q(λ0 ) 6= 0, so
dass
p(λ) = (λ − λ0 )k0 q(λ),
97
und es gilt p0 (λ) = λk0 q0 (λ). Für ein beliebiges Polynom h vom Grad l + k0
ist also nach Lemma 10
Dp (hg0 ) = Dq0 (h(k0 ) )g0 = mg0
mit einem Polynom m vom Grad l, wobei wir h so wählen können, dass die
höchsten Koeffizienten von m und m0 übereinstimmen. Nach Induktionsvoraussetzung gibt es ein Polynom h1 von kleinerem Grad als l, so dass
Dp (h1 g0 ) = (m0 − m)g0 ,
und es folgt
Dp ((h + h1 )g0 ) = m0 g0 .
Wir können also h0 = h + h1 setzen.
Aus dem Beweis sieht man, dass wir im Fall l = 0, also für konstantes m0 ,
h0 (x) =
m0
x k0
k0 !q(λ0 )
setzen können.
Ist eine homogene lineare Differentialgleichung der Form (15) mit reellen Koeffizienten gegeben, so können wir natürlich auch komplexwertige
Lösungen g suchen, und dann sind Re g und Im g ebenfalls Lösungen. In diesem Fall hat p reelle Koeffizienten, also ist mit jeder Nullstelle λ auch λ̄ eine
Wurzel. Mit den Bezeichnungen µ = Re λ, ω = Im λ gilt
Re eλx = eµx cos ωx,
Im eλx = eµx sin ωx.
Wenn solche Funktionen auf der rechten Seite einer inhomogenen linearen
Differentialgleichung der Form (16) auftreten, so kann man sie durch Exponentialfunktionen ausdrücken, also
eµx cos ωx =
eλx + e−λx
,
2
eµx sin ωx =
eλx − e−λx
,
2i
und dann Satz 57 anwenden.
5.7
Abhängigkeit der Lösungen von Anfangsbedingungen und Parametern I
Es sei V ein K-Vektorraum, D ⊆ R × V offen und F : D → V stetig. Wir
betrachten das Differentialgleichungsystem
y ′ = F (x, y).
98
(17)
Nehmen wir an, dass F bezüglich y lokal Lipschitz-stetig ist. Dann wissen
wir aus Satz 48 und seiner Folgerung, dass für jedes (x0 , y0 ) ∈ D genau eine
maximale Lösung f existiert, die der Anfangsbedingung f (x0 ) = y0 genügt.
Wir wollen die Abhängigkeit dieser Lösung vom Anfangswert y0 zu untersuchen und schreiben fy0 : Iy0 → V . Dabei beschränken wir uns zunächst auf
eine Umgebung von x0 .
Satz 58. Unter den obigen Bedingungen sei x0 ∈ R und B ⊆ V kompakt, so
dass {x0 } × B ⊆ D. Dann gibt es ein abgeschlossenes Intervall I, das x0 im
Inneren enthält, so dass die Funktion f (x, y0 ) := fy0 (x) auf I × B definiert
und stetig ist.
Die Lösung hängt also (zumindest für x in der Umgebung von x0 ) stetig
von den Anfangsbedingungen ab.
Beweis. Wir verfeinern den Beweis von Satz 47. Wegen der Kompaktheit
von {x0 } × B können wir δ > 0, ε > 0 wählen, so dass das Intervall I =
[x0 − δ, x0 + δ] und der Abschluss B ′ der ε-Umgebung von B der Bedingung
I × B ′ ⊆ D genügen.
Es sei X die Menge der stetigen Abbildungen I × B → B ′ . Eine Funktion
f ∈ X erfüllt genau dann die Bedingungen
fy′ 0 (x) = F (x, fy0 (x)),
fy0 (x0 ) = y0 ,
wenn für alle (x, y0 ) ∈ I × B gilt
f (x, y0 ) = y0 +
Z
x
F (t, f (t, y0 )) dt,
x0
d. h. wenn sie ein Fixpunkt der Abbildung H : X → C(I × B, V ) ist, wobei
Hf : I × B → V gegeben ist durch
Z x
Hf (x, y0 ) = y0 +
F (t, f (t, y0 )) dt.
x0
Ist c′ = sup{kf (x, y)k | x ∈ I, y ∈ B ′ }, so gilt für (x, y0 ) ∈ I × B
Z x
kHf (x, y0 ) − y0 k ≤ kF (t, f (t, y0 ))kdt ≤ δc′ .
x0
Wir können δ durch eine kleinere positive Zahl ersetzen, so dass δc′ ≤ ε gilt;
dann ist Hf (x, y0 ) ∈ B ′ , also wird X von H in sich selbst abgebildet.
99
Aufgrund der lokalen Lipschitz-Stetigkeit von F bezüglich y existiert ein
c > 0, so dass für alle x ∈ I und u, v ∈ B ′ gilt
kF (x, u) − F (x, v)k ≤ cku − vk.
Daraus folgt für f1 , f2 ∈ X, dass
Z
kHf1 (x, y0 ) − Hf2 (x, y0 )k ≤ x
x0
≤ δc
kF f (t, f1 (t, y0 )) − F (t, f2 (t, y0 ))k dt
sup
(t,y0 )∈I×B
kf1 (t, y0 ) − f2 (t, y0 )k.
Wiederum können wir δ durch eine kleinere Zahl ersetzen, um zu erreichen,
dass δc < 1 ist. Dann ist die Abbildung H eine Kontraktion der abgeschlossenen Teilmenge X des vollständigen metrischen Raumes C(I × B, V ), und
nach dem Satz 11 hat H genau einen Fixpunkt. Also ist die Lösung f ein
Element von C(I × B, V ).
Den bewiesenen Satz kann man auf Differentialgleichungsysteme höherer
Ordnung übertragen, indem man sie auf Systeme erster Ordnung zurückführt.
So hängt z. B. die Position eines Massenpunktes zum Zeitpunkt t, der sich
entsprechend den Gesetzen der Newtonschen Mechanik in einem Kraftfeld bewegt, stetig von seiner Anfangsposition und seiner Anfangsgeschwindigkeit
zum Zeitpunkt t0 ab. Es interessiert aber auch die Frage, wie sich die Endposition verändert, wenn man das Kraftfeld abändert. Dies führt auf Differentialgleichungen, deren rechte Seiten f (x, y, z) von Parametern (z1 , . . . , zm ) = z
abhängen.
Satz 59. Es seien V und W K-Vektorräume, D ⊆ R × V × W offen, F :
D → V stetig und bezüglich (y, z) ∈ V × W lokal Lipschitz-stetig, und es sei
x0 ∈ R. Für jedes (y0 , z) ∈ V × W mit (x0 , y0 , z) ∈ D sei fy0 ,z : Iy0 ,z → V
die maximale Lösung von
y ′ = F (x, y, z),
(18)
die der Anfangsbedingung fy0 ,z (x0 ) = y0 genügt. Dann ist
U = {(x, y0 , z) | (x0 , y0 , z) ∈ D, x ∈ Iy0 ,z }
offen in R × V × W , und durch f (x, y0 , z) = fy0 ,z (x) wird eine stetige Abbildung f : U → V definiert.
Beweis. Wir betrachten zunächst den Fall, dass f nicht von z abhängt. Wir
schreiben
fy0 (x) = Gxx0 (y0 ),
100
Dann ist der Lösungsoperator Gxx0 definiert auf der Menge Vxx0 = {y0 ∈ V |
x ∈ Iy0 } und hat Werte in V . Man kann den Lösungsoperator auch für
Anfangswerte an anderen Stellen als x0 definieren. Auf Grund der Eindeutigkeitsaussage von Satz 48 gilt auf der Menge (Gxx10 )−1 (Vxx12 ) ⊆ Vxx02
Gxx21 ◦ Gxx10 = Gxx20 .
Nun halten wir ein beliebiges (x∗ , y ∗ ) ∈ U fest, also x∗ ∈ Iy∗ , und schreiben f ∗ = fy∗ . Nach dem vorigen Satz gibt es für jedes x̃ ∈ Iy∗ ein δ̃ > 0 und
eine Umgebung Ũ von f ∗ (x̃), so dass Gxx̃ (y0 ) auf [x̃ − δ̃, x̃ + δ̃] × Ũ stetig ist.
O. B. d. A. sei x∗ > x0 . Das kompakte Intervall [x0 , x∗ ] wird von den Intervallen (x̃, x̃ + δ̃) überdeckt, und wir können eine endliche Teilüberdeckung
wählen. Deshalb finden wir x0 < x1 < · · · < xN = x∗ mit entsprechenden
δj > 0 und Umgebungen Uj von f ∗ (xj ), so dass xj + δj > xj+1 und dass
Gxxj (y0 ) auf Ij × Uj stetig ist, wobei Ij = [xj − δj , xj + δj ]. Durch absteigende
Induktion beginnend mit j = N zeigt man
(y0 ) = Gxxj (y0 )
GxxN ◦ · · · ◦ Gxxj+1
j
für x ∈ IN und y0 ∈ Uj′ , wobei Uj′ = (GxxNj )−1 (UN ) ⊆ Uj . Man beachte,
dass alle auf der linken Seite vorkommenden Lösungsoperatoren stetig sind.
Wegen GxxNj (f ∗ (xj )) = f ∗ (xN ) ist Uj′ eine Umgebung von f ∗ (xj ).
Im Fall j = 0 erhalten wir, dass Gxx0 (y0 ) = fy0 (x) stetig von (x, y0 ) ∈
IN × U0′ abhängt, wobei xN = x∗ ein innerer Punkt von IN und U0′ eine
Umgebung von f ∗ (x0 ) = y ∗ ist. Wegen IN × UN′ ⊆ U ist (x∗ , y ∗ ) ein innerer
Punkt von U .
Schließlich betrachten wir den allgemeinen Fall, dass f von einem Parameter z abhängt. Fassen wir die Variablen (y, z) zu ỹ zusammen und definieren
wir F̃ : D → V × W durch
F̃ (x, ỹ) = (F (x, ỹ), 0),
so erhalten wir aus jeder Lösung fy0 ,z des angegebenen Differentialgleichungsystems eine Lösung
f˜y0 ,z (x) = (fy0 ,z (x), z)
des Systems
ỹ ′ = F̃ (x, ỹ),
die der Anfangsbedingung f˜y0 ,z (x0 ) = (y0 , z) genügt, und umgekehrt. Die
rechte Seite des letzteren Systems hängt aber von keinem Parameter ab, also
ist das Bewiesene anwendbar.
Man hätte die Abhängigkeit von z auch gleich in Satz 58 mit erfassen
und Parameter z in einem beliebigen metrischen Raum Z an Stelle des Vektorraumes W zulassen können.
101
5.8
Abhängigkeit der Lösungen von Anfangsbedingungen und Parametern II
Nun kommen wir zur differenzierbaren Abhängigkeit von Anfangsbedingungen und Parametern.
Satz 60. In der Situation von Satz 59 sei F stetig differenzierbar nach (y, z).
Dann ist die Lösung f auf U stetig differenzierbar.
Hier ist gemeint, dass die partiell totale Ableitung ∂(y,z) F stetig auf D
sein soll. Daraus folgt natürlich die in Satz 59 geforderte lokale LipschitzStetigkeit von F bezüglich (y, z).
Für den Beweis benötigen wir eine parameterabhängige Version des Lemmas von Hadamard.
Lemma 11. Es seien U , V und W endlichdimensionale Vektorräume und D
eine offene Teilmenge von U ×V . Die Funktion F ∈ C(D, W ) sei (k +1) Mal
stetig differenzierbar nach y, und es sei
D̃ = {(x, y1 , y2 ) ∈ U × V × V | [(x, y1 ), (x, y2 )] ⊆ D}.
Dann gibt es eine Funktion F̃ ∈ C k (D̃, Hom(V, W )), so dass für (x, y1 , y2 ) ∈
D̃ gilt
F (x, y1 ) − F (x, y2 ) = F̃ (x, y1 , y2 )(y1 − y2 ).
Der Beweis ist analog zu dem von Lemma 8, wobei das Integral nun
zusätzlich vom Parameter x abhängt, was aber der Anwendbarkeit von Folgerung 10 keinen Abbruch tut.
Beweis von Satz 60 – Schritt 1. Zunächst möge wieder F nicht von z abhängen.
Lemma 11 mit k = 0 und W = V liefert uns es eine stetige Funktion
F̃ : D̃ → End(V ). Wir halten y ∗ ∈ V mit der Eigenschaft (x0 , y ∗ ) ∈ D
fest und haben die maximale Lösung f ∗ = fy∗ : I ∗ → V der Differentialgleichung (18). Die Teilmenge
Ũ = {(x, y0 ) ∈ R × V | (x, fy0 (x), f ∗ (x)) ∈ D̃}
von U enthält die Menge I ∗ × {y ∗ } und ist nach Satz 8 offen. Durch
A(x, y0 ) = F̃ (x, fy0 (x), f ∗ (x))
wird eine stetige Abbildung A : Ũ → End(V ) definiert. Wir betrachten die
lineare Differentialgleichung
ỹ ′ = A(x, y0 ) · ỹ
102
mit dem Parameter y0 und suchen nach Lösungen f˜ : I → End(V ), die der
Anfangsbedingung
f˜(x0 ) = idV
genügen. Für jedes kompakte Intervall I ⊂ I ∗ existiert eine Umgebung ŨI
von y ∗ in V , so dass I × ŨI ⊆ Ũ . Nach Folgerung 13 existiert für jeden
Parameter y0 ∈ ŨI eine Lösung f˜y0 : I → End(V ), und nach Satz 59 ist die
resultierende Funktion f˜ : I × ŨI → End(V ) stetig. Es gilt einerseits
f˜y′ 0 (x)(y0 − y ∗ ) = F̃ (x, fy0 (x), f ∗ (x))f˜y0 (x)(y0 − y ∗ )
und andererseits
fy′ 0 (x) − f ∗ ′ (x) = F (x, fy0 (x)) − F (x, f ∗ (x))
= F̃ (x, fy0 (x), f ∗ (x))(fy0 (x) − f ∗ (x)).
Mit der Eindeutigkeitsaussage von Satz 48 folgt
fy0 (x) − f ∗ (x) = f˜y0 (x)(y0 − y ∗ ),
weil beide Seiten an der Stelle x0 den selben Wert y0 − y ∗ haben. Dies zeigt,
dass f an jeder Stelle von I×{y ∗ } nach y0 stetig differenzierbar ist und dass an
dieser Stelle gilt ∂y0 f = f˜. Letzteres bedeutet wegen F̃ (x, y, y) = ∂y F (x, y),
dass
∂x ∂y0 f (x, y ∗ ) = ∂y F (x, f (x, y ∗ ))∂y0 f (x, y ∗ ).
Da y ∗ und I ⊂ I ∗ beliebig waren, folgt dies an jeder Stelle von U .
Schritt 2. Diesmal sei
A(x, y0 ) = ∂y F (x, fy0 (x)),
was eine stetige Abbildung A : U → End(V ) definiert. Wir betrachten die
lineare Differentialgleichung (genannt Variationsgleichung)
ỹ ′ = A(x, y0 ) · ỹ
mit dem Parameter y0 und suchen nach Lösungen f˜ : I → End(V ), die der
Anfangsbedingung
f˜(x0 ) = idV
genügen. Für festes y ∗ und jedes kompakte Teilintervall I ⊆ I ∗ gibt es eine
Umgebung UI von y ∗ in V , so dass I × UI ⊆ U . Nach Folgerung 13 existiert
für jeden Parameter y0 ∈ UI eine Lösung f˜y0 : I → End(V ), und nach Satz 59
ist die resultierende Abbildung f˜ : I ×UI → End(V ) stetig. Wie wir am Ende
103
von Schritt 1 gesehen haben, ist auch ∂y0 f eine Lösung, die an der Stelle x0
den Wert idV hat. Mit der Eindeutigkeitsaussage von Satz 48 folgt ∂y0 f = f˜,
also ist f auf I × UI nach y ∗ stetig differenzierbar. Da y ∗ und I beliebig
waren, folgt dies auf ganz U .
Schritt 3. Wie im Beweis von Satz 59 führt man den Fall, dass F zusätzlich von Parametern z abhängt, auf den bereits behandelten Fall zurück.
Damit folgt die stetige Differenzierbarkeit der Lösung f nach (y0 , z). Da
F (x, fy0 ,z (x), z) stetig von (x, y, z) ∈ U abhängt, folgt aus der Differentialgleichung (18) die stetige Differenzierbarkeit von f nach x und mit Folgerung 7
die stetige Differenzierbarkeit nach der Gesamtheit der Variablen.
Es gibt auch eine Version für höhere Ableitungen.
Satz 61. Die Funktion F in der Situation von Satz 59 sei (k − 1) Mal
nach x und k Mal nach (y, z) stetig differenzierbar, wobei k ≥ 1. Dann ist
f ∈ C k (U ).
Beweis. Wir benutzen vollständige Induktion nach k. Der Induktionsanfang
wurde in Satz 60 erledigt. Angenommen, die Behauptung gilt für die Zahl k,
und F sei nun k Mal stetig differenzierbar nach x und (k +1) Mal stetig differenzierbar nach (y, z). Wir betrachten wieder zunächst den Fall, dass F nicht
von z abhängt. Erst einmal ist laut Induktionsvoraussetzung f ∈ C k (U ). Die
Funktion F (x, fy0 (x)) ist also nach Satz 35 k Mal stetig differenzierbar, und
f ist als Lösung der Differentialgleichung (18) (k + 1) Mal stetig differenzierbar nach x. Wie wir im Beweis von Satz 60 gesehen haben, ist die Ableitung
∂y0 f eine Lösung der Differentialgleichung
y ′ = A(x, y0 ) · y,
wobei A(x, y0 ) = ∂y F (x, f (x, y0 )) laut Satz 35 nun k Mal stetig differenzierbar auf U ist. Die Lösung ∂y0 f ist laut Induktionsvoraussetzung k Mal stetig
differenzierbar, also ist f selbst (k + 1) Mal stetig differenzierbar nach y0 .
Mit Satz 7 folgt die k-malige Differenzierbarkeit nach (x, y0 ). Den Fall der
Abhängigkeit von Parametern z führt man wie im Beweis von Satz 59 auf
den bereits behandelten Fall zurück.
Im Beweis von Satz 59 haben wir für eine Differentialgleichung ohne Parameter den Lösungsoperator Gxx0 : Vxx0 → V durch die Festlegung
Gxx0 (y0 ) = fy0 (x)
definiert, wobei die Menge
Vxx0 = {y0 ∈ V | x ∈ Iy0 }
104
als Bild von U ∩ {x1 } × V unter der Projektion {x1 } × V → V offen ist. Man
kann Anfangsbedingungen an einer beliebigen Stelle x1 stellen und erhält
analog Gxx1 . Dann ist Gxx00 = id, und auf (Gxx10 )−1 (Vxx12 ) ⊆ Vxx02 gilt
Gxx21 ◦ Gxx10 = Gxx20 .
Folgerung 19. In der Situation von Satz 61 ist der Lösungsoperator Gxx10
ein Diffeomorphismus der Klasse C k von Vxx01 auf Vxx10 .
Aus Satz 61 folgt nämlich Gxx10 ∈ C k (Vxx01 , V ), und aus der Eindeutigkeitsaussage von Satz 48 folgt Gxx10 (Vxx01 ) = Vxx10 , so dass Gxx01 die Umkehrabbildung
von Gxx10 ist.
6
Untermannigfaltigkeiten affiner Räume
6.1
Untermannigfaltigkeiten und Tangentialvektoren
Wir wollen nun die Struktur der Lösungen nichtlinearer Gleichungen näher untersuchen.
Dieses Thema schließt direkt an Kapitel 4 an.
Den natürlichen Rahmen für unsere Betrachtungen bieten die in Definition 27 eingeführten affine Räume. Wir erinnern daran, dass zu jedem affinen Raum A ein Vektorraum U von Translationen gehört. Unter der Dimension von A verstehen wir die Dimension
von U . Indem man Translationen auf einen festen Punkt a anwendet, erhält man eine bijektive Abbildung U → A, wobei die Umkehrabbildung einem Punkt x seinen Ortsvektor
−
→ zuordnet. Aus diesem Grund werden affine Räume oft etwas stiefmütterlich behandelt.
ax
Wir gehen einen Kompromiss ein und schreiben das Ergebnis der Anwendung einer Trans→ als x − a. Wer will, kann dann den
lation u auf einen Punkt a als a + u und den Vektor −
ax
Begriff des affinen Raumes ignorieren und einfach A = U setzen.
Man kann affine Räume über jedem Körper K definieren. Für uns wird K = R oder
K = C sein. In diesem Fall haben wir in Definition 27 auch den Begriff der Differenzierbarkeit von Abbildungen f : D → B definiert, wobei A und B affine Räume sind und
D eine offene Teilmenge von A ist. Die Ableitung an einer Stelle a ist dann eine lineare
Abbildung f ′ (a) : U → V , wobei V der Vektorraum der Translationen von B ist.
Definition 34. Es seien A, B und C affine Räume und U , V bzw. W die zugehörigen
Vektorräume von Translationen, und es seien D ⊆ A und E ⊆ B offene Teilmengen.
(i) Eine differenzierbare Abbildung f : D → B heißt Immersion, wenn an jeder Stelle
x ∈ D die Ableitung f ′ (x) : U → V injektiv ist.
(ii) Eine differenzierbare Abbildung g : E → C heißt Submersion, wenn an jeder Stelle
x ∈ E die Ableitung g ′ (x) : V → W surjektiv ist.
Beispiel. Wir betrachten die durch
f (t) =
1 − t2
(1 + t, 1 − t),
1 + 3t2
105
g(x, y) = x3 + y 3 − 2xy
definierten differenzierbaren Abbildungen f : R → R2 und g : R2 → R. Die Abbildung f
ist eine Immersion. Die Abbildung g ist zwar keine Submersion, aber ihre Einschränkung
auf E = R2 \ {(0, 0)} schon.
Man kann nachrechnen, dass für alle t gilt g(f (t)) = 0. Mehr noch, setzen wir u(x, y) =
x−y
x+y für x + y 6= 0, so ist u die Umkehrabbildung der Einschränkung von f auf R \ {−1}.
Bezeichnen wir also die Lösungsmenge der Gleichung g(x, y) = 0 mit M , so gilt f (R) =
M . Dies war bereits René Decartes bekannt, und man bezeichnet die Kurve“ M als
”
Kartesisches Blatt. Sie überschneidet sich im Koordinatenursprung selbst.
√
Man kan übrigens auch K = C zulassen, dann ist allerdings f an den Stellen ±i/ 3
nicht definiert. ⊳
Beispiel. Die durch
(
(t2 , 0) wenn t ≥ 0,
f (t) =
(0, t2 ) wenn t ≤ 0.
definierte differenzierbare Abbildung f : R → R2 ist keine Immersion, aber ihre Einschränkung auf D = R \ {0} schon. Das Bild (der Wertebereich) hat an der Stelle f (0)
einen Knick“. ⊳
”
Wir wollen exakt definieren, was Kurven“ und Flächen“ ohne Selbstüberschneidun”
”
”
gen“ und Knicke“ sind.
”
Satz 62. Es sei M eine Teilmenge eines affinen Raumes B, k ≥ 1 eine natürliche Zahl
und b ∈ M . Folgende Bedingungen sind äquivalent:
(i) Es gibt eine offene Teilmenge D eines affinen Raumes A und eine Immersion f ∈
C k (D, B), so dass f (D) eine Umgebung von b in M ist und die Beschränkung von
f auf f (D) ein Homöomorphismus D → f (D) ist.
(ii) Es gibt eine Umgebung E von b in B, eine Submersion g ∈ C k (E, C) und einen
Punkt c ∈ C, so dass M ∩ E = g −1 (c).
(iii) Es gibt eine Zerlegung V = V1 + V2 in eine direkte Summe und Umgebungen E1
und E von b in B1 = b + V1 bzw. E, so dass M ∩ E der Graph einer Abbildung
h ∈ C k (E1 , V2 ) ist.
Ist eines der drei Objekte f , g, h gegeben, dann kann man die anderen so wählen, dass
dim A = dim B − dim C = dim B1 .
Beweis. In der Situation von Aussage (iii) benutzen wir die Bezeichnungen p1 : B → B1
und p2 : B → V2 für die natürlichen Projektionen.
(i)⇒(iii): Es sei {a} = f −1 (b) und V1 = f ′ (a)V . Dann gibt es einen Unterraum V2
von V , so dass die lineare Abbildung V1 × V2 → V , (v1 , v2 ) 7→ v1 + v2 , ein Isomorphismus
ist. Es sei B1 = b + V1 und p1 : B → B1 die Projektion längs V2 . Dann ist p′1 (x) : V → V1
für alle x ∈ B die Projektion längs V2 , und (p1 ◦ f )′ (a) = p′1 (b)f ′ (a) ist invertierbar. Nach
Satz 42 gibt es eine Umgebung D′ von a in D und eine Umgebung E1 von b in B1 , so dass
p1 ◦ f |D′ eine Umkehrabbildung u ∈ C k (E1 , V ) besitzt. Da f (D) |f ein Homöomorphismus
ist, ist f (D′ ) offen in M , und nach Satz 5 gibt es eine offene Teilmenge E von B, so dass
f (D′ ) = M ∩ E. Wir setzen
h(y1 ) = f (u(y1 )) − y1
für y1 ∈ E1 . Dann ist p1 (h(y1 )) = y1 − y1 = 0, und wir erhalten eine Abbildung h ∈
C k (E1 , V2 ).
106
Ist y ∈ M ∩ E, so ist y = f (x) für ein x ∈ D′ , und setzen wir y1 = p1 (y) ∈ E1 , so folgt
u(y1 ) = u(p1 (f (x))) = x,
y1 + h(y1 ) = f (x),
also y im Graphen von h. Ist umgekehrt y1 ∈ E1 und y = y1 + h(y1 ), so liegt x = u(y1 )
in D′ , und
y = f (u(y1 )) = f (x),
also y ∈ M ∩ E.
(iii)⇒(i): Man setze A = V1 , D = E1 und f (v1 ) = v1 + h(v1 ). Für x ∈ D und
v1 ∈ V1 gilt p′1 (f (x))f ′ (x)v1 = (p1 ◦ f )′ (x)v1 = v1 , also ist f ′ (x) injektiv. Die Abbildung
p1 schränkt sich zu einer stetigen Umkehrabbildung von M ∩E |f ein.
(ii)⇒(iii)15 : Es sei V1 = Ker g ′ (b) und V2 wie oben ein komplementärer Unterraum.
Dann ist g ′ (b)|V2 umkehrbar, und nach Satz 43 gibt es Umgebungen E1 von b in B1 = b+V1
und E2 von 0 in V2 , so dass M ∩ (E1 + E2 ) der Graph einer Funktion h ∈ C k (E1 , V2 ) ist.
Man setze E = E1 + E2 .
(iii)⇒(ii): Durch g(y) = h(p1 (y)) − p2 (y) wird eine Abbildung g ∈ C k (E, V2 ) definiert.
Offensichtlich ist genau dann g(y) = 0, wenn y im Graphen von h liegt. Für v2 ∈ V2 ist
h′ (y)v2 = v2 , also ist h′ (y) surjektiv.
Definition 35. Eine Teilmenge M eines affinen Raumes B heißt Untermannigfaltigkeit
der Klasse C k , wenn für jeden Punkt b ∈ M die drei äquivalenten Bedingungen aus Satz 62
erfüllt sind. Die Abbildungen f in (i) heißen Karten von M . Eine Familie von Karten
f : D → M , für die die Mengen f (D) eine Überdeckung von M bilden, heißt Atlas
von M .
Beispiel. Ist M das Kartesische Blatt, so ist M \{(0, 0)} eine Untermannigfaltigkeit von R2
der Klasse C ∞ , weil jeder Punkt die Eigenschaft (iii) hat. ⊳
Beispiel. Auf E = Rn \ {0} wird durch
g(x) = x21 + . . . + x2n
eine Submersion g ∈ C ∞ (E, R) definiert, also ist S = g −1 (0) eine Untermannigfaltigkeit
von Rn der Klasse C ∞ , genannt Einheitssphäre. Eine Funktion wie in (ii) ist durch
q
h(x1 , . . . , xn−1 ) = x21 + . . . + x2n−1
gegeben. Es gibt auch andere Karten, z. B. im Fall n = 3
f (s, t) = (cos s cos t, sin s cos t, sin s),
wobei die offene Teilmenge D ⊂ R × − π2 , π2 so zu wählen ist, dass f injektiv ist. (Die
Werte von s und t entsprechen der geographischen Länge bzw. Breite.) ⊳
Beispiel. Sind M und N Untermannigfaltikeiten von B bzw. C der Klasse C k , so ist
M × N eine Untermannigfaltigkeit von B × C der Klasse C k . Sind nämlich f1 : D1 → M
und f2 : D2 → N Karten von M bzw. N , so wird durch f (x1 , x2 ) = (f1 (x1 ), f2 (x2 )) eine
Karte f : D1 × D2 → M × N definiert. ⊳
Beispiel. Ist M eine Untermannigfaltigkeit von B der Klasse C k und N eine offene Teilmenge von M , so ist auch N eine Untermannigfaltigkeit von B der Klasse C k . Für jede
Karte f : D → M von M ist nämlich die Einschränkung von f auf f −1 (N ) eine Karte
von N . ⊳
15
Dieser Teil ist im Wesentlichen bereits im Beweis von Satz 44 enthalten.
107
Folgerung 20. Sind f und g wie in Satz 62, wobei f (a) = b, so gilt
f ′ (a)U = Ker g ′ (b).
Beweis. Für alle x ∈ D ist g(f (x)) = c, also g ′ (b)f ′ (a) = 0 und somit f ′ (a)U ⊆ Ker g ′ (b).
Insbesondere ist dim f ′ (a)U ≤ dim Ker g ′ (b).
Wegen der Injektivität von f ′ (a) ist dim f ′ (a)U = dim A, und wegen der Surjektivität
von g ′ (b) ist dim Ker g ′ (b) = dim B − dim C. Die letzte Aussage von Satz 62 bedeutet
also, dass wir eine Submersion g̃ wie in Aussage (ii) mit der Eigenschaft dim f ′ (a)U =
dim Ker g̃ ′ (b) und eine Immersion f˜ wie in (i) mit der Eigenschaft dim f˜′ (a)U = dim Ker g ′ (b)
wählen können. Wenden wir das Bewiesene auf f˜ und g̃ an, so folgt dim f˜′ (a)U ≤ dim Ker g̃ ′ (b),
also gilt überall Gleichheit.
Definition 36. Der Vektorraum aus Folgerung 20 heißt Tangentialraum an M im Punkt b,
abgekürzt Tb (M ), und seine Dimension heißt Dimension von M an der Stelle b, abgekürzt
dimb M . Die Elemente von Tb (M ) heißen Tangentialvektoren an M im Punkt b.
Sind f1 : D1 → M und f2 : D2 → M Karten von M , so dass f1 (a1 ) = f2 (a2 ) = b, so
zeigt Folgerung 20, dass f1′ (a1 )U1 = f2′ (a2 )U2 . Analog sieht man, dass Ker g ′ (b) nicht von
der Wahl von g abhängt.
Folgerung 21. Ist M eine zusammenhängende Untermannigfaltigkeit von B, so hängt
dimb M nicht von b ab (und wird mit dim M bezeichnet).
Die Dimension ist ja auf jeder Karte konstant, so dass die Menge
Mn = {y ∈ M | dimy M = n}
offen im metrischen Raum M ist. Ihr Komplement ist die Vereinigung der Mengen Ml mit
l 6= n, also ebenfalls offen.
Definition 37. Es sei M eine Untermannigfaltigkeit der Klasse C k des affinen Raumes B
und C ein weiterer affiner Raum. Wir sagen, dass eine Abbildung g : M → C von der
Klasse C k ist, abgekürzt g ∈ C k (M, C), wenn für jede Karte f : D → M gilt g ◦ f ∈
C k (D, C). Im Fall k ≥ 1 definieren wir g ′ (b) ∈ Hom(Tb (M ), W ) durch
g ′ (b)v = (g ◦ f )′ (a)u,
falls b = f (a) und v = f ′ (a)u.
Es ist natürlich nicht praktikabel, eine Bedingung für alle Karten nachzuprüfen. Der
folgende Satz zeigt, dass es genügt, dies für die Karten eines Atlasses zu tun.
Satz 63. Es sei M eine Untermannigfaltigkeit von B der Klasse C k mit Karten f1 ∈
C k (D1 , B) und f2 ∈ C k (D2 , B). Wir definieren eine Abbildung f1,2 : f1−1 (f2 (D2 )) →
f2−1 (f1 (D1 )) durch f1,2 (x1 ) = f2−1 (f1 (x1 )). Dann ist f1,2 ein Diffeomorphismus der Klasse C k .
Beweis. Es genügt, zu zeigen, dass f1,2 von der Klasse C k ist, weil das Selbe dann analog
für die Umkehrabbildung f2,1 gilt. Die Differenzierbarkeit braucht nur in einer Umgebung
eines beliebigen Punktes a1 geprüft zu werden. Gilt sie für f1,2 in einer Umgebung von a1
und für f2,3 in einer Umgebung von a2 , wobei f1 (a1 ) = f2 (a2 ) = b ∈ f3 (D3 ), so gilt sie
nach Satz 35 auch für f1,3 in einer Umgebung von a1 . Wir können also weiter annehmen,
dass eine der beiden Karten von der Form f2 (y1 ) = y1 + h(y1 ) ist, wobei h : B1 → V2
wie in Aussage (iii) von Satz 62 ist. In diesem Fall ist f1,2 als Einschränkung von p1 ◦ f1
offensichtlich von der Klasse C k .
108
Wir sehen jetzt auch, dass die Definition der Ableitung einer Abbildung g : M → C
korrekt ist, weil sie nicht von der Wahl der Karte abhängt. Sind nämlich f1 und f2 Karten,
wobei f1 (a1 ) = f2 (a2 ) = b, und sind u1 ∈ U1 und u2 ∈ U2 Vektoren, so dass f1′ (a1 )u1 =
f2′ (a2 )u2 = v, so gilt nach Satz 34
′
f2′ (a2 )f1,2
(a1 )u1 = f1′ (a1 )u1 = v,
′
also u2 = f1,2
(a1 )u1 und somit
(g ◦ f2 )′ (a2 )u2 = (g ◦ f2 ◦ f1,2 )′ (a1 )u1 = (g ◦ f1 )′ (a1 )u1 .
Man kann übrigens nachprüfen, dass Definition 25 auch für Abbildungen M → C sinngemäß gilt.
Nun werden wir ein Kriterium für lokale Extrema von differenzierbaren Funktionen
g auf einer Untermannigfaltigkeit M angeben, bei dem im Unterschied zu Satz 44 die
Funktion g nicht in einer Umgebung von M definiert sein muss.
Satz 64. Es sei M eine Untermannigfaltigkeit eines affinen Raumes und g ∈ C 1 (M, R).
Hat g an der Stelle b ∈ M ein lokales Extremum, so ist b ein stationärer Punkt von g,
d. h. g ′ (b) = 0.
Dazu wählt man einfach eine Karte f : D → M , so dass b = f (a) für einen Punkt
a ∈ D, und wendet Satz 39 auf die Funktion g ◦ f an, die an der Stelle a ein lokales
Extremum hat.
Wir können nun einen Begriff einführen, den wir im nächsten Abschnitt benötigen.
Definition 38. Es seien M und N Umtermannigfaltigkeiten der Klasse C k von affinen
Räumen B bzw. C. Eine Abbildung g : M → N heißt Diffeomorphismus der Klasse C k ,
wenn g eine Umkehrabbildung h : N → M hat und wenn g ∈ C k (M, C) und h ∈ C k (N, B)
gilt.
Beispiel. Ist S eine Kreislinie vom Radius R im dreidimensionalen Raum und N die Oberfläche der r-Umgebung von S, wobei r < R ist, so nennt man N einen Torus. Eine
definierende Gleichung wäre z. B.
p
( x2 + y 2 − R)2 + z 2 = r2 .
oder
(x2 + y 2 + z 2 + R2 − r2 )2 = 4R2 (x2 + y 2 ).
Dies ist eine Mannigfaltigkeit, die zu S × S diffeomorph ist.
6.2
⊳
Vektorfelder und Flüsse
In der Physik kommen verschiedenartige Felder vor. Eines der einfachsten ist das Vektorfeld. Ist z. B. B ein affiner Raum und V der zugehörige Vektorraum der Translationen,
so ist ein Vektorfeld auf einer offenen Teilmenge E von B einfach eine stetige Abbildung
X : E → V . Wir können dann die Differentialgleichung
y ′ = X(y)
betrachten, deren Lösungen g : I → B man Integralkurven des Vektorfeldes nennt, wobei
man I als Zeitintervall interpretiert. Wir wollen diesen Begriff verallgemeinern.
109
Definition 39. Es sei M eine Untermannigfaltigkeit der Klasse C k des affinen Raumes B
mit dem Raum der Translationen V und l < k.
(i) Ein Vektorfeld der Klasse C l auf M ist eine Abbildung X ∈ C l (M, V ), so dass für
alle Punkte y von M gilt X(y) ∈ Ty (M ).
(ii) Eine Abbildung g von einem Intervall I in M heißt Integralkurve des Vektorfeldes X,
wenn g ∈ C 1 (I, B) ist und für alle t ∈ I gilt
g ′ (t) = X(g(t)).
Man beachte, dass die rechte Seite nicht von t abhängt, so dass für eine Integralkurve
g auch g(t − t0 ) eine Integralkurve ist. Es bedeutet also keine Einschränkung, wenn wir
Anfangsbedingungen nur an der Stelle t = 0 stellen.
Wir können nun unsere Sätze über gewöhnliche Differentialgleichungen erster Ordnung
auf Vektorfelder übertragen.
Satz 65. Es sei X ein lokal Lipschitz-stetiges Vektorfeld auf der Untermannigfaltigkeit M
des affinen Raumes B.
(i) Für jeden Punkt y0 ∈ M gibt es eine Integralkurve g : I → M , die der Anfangsbedingung g(0) = y0 genügt.
(ii) Zwei Integralkurven mit dem selben Anfangswert stimmen auf dem Durchschnitt
ihrer Definitionsbereiche überein.
(iii) Ist gy0 : Iy0 → M eine maximale Integralkurve, so ist ihr Graph abgeschlossen
in R × M .
(iv) Die Menge U = {(t, y0 ) ∈ R × M | t ∈ Iy0 } ist offen, und durch g(t, y0 ) = gy0 (t)
wird eine stetige Abbildung g : U → R × M definiert.
(v) Ist X von der Klasse C l , so ist g ∈ C l (U, B).
Beweis. Es sei f : D → M eine Karte der Klasse C k mit f (x0 ) = y0 . Wir wählen eine
Zerlegung V = V1 + V2 von V wie in Satz 62(iii), wobei V1 = Ty0 (M ), und betrachten
wieder die Projektion p1 : B → B1 = b+V1 . Laut damaligem Beweis gibt es eine Umgebung
E1 von y0 in B1 und eine Umgebung D′ von x0 in D, so dass die Einschränkung von p1 ◦ f
auf D′ eine Umkehrabbildung u ∈ C k (E1 , U ) hat. Es folgt, dass
f ′ (x)−1 = u′ (p1 (f (x))) ◦ p′1 (y0 ) ∈ Hom(Tf (x) , U ),
wobei die rechte Seite in C k−1 (D′ , Hom(V, U )) ist. Wir setzen
F (x) = f ′ (x)−1 X(f (x)).
Da wir x0 beliebig wählen konnten, ist F lokal Lipschitz-stetig auf D.
Ist h : I → D eine Lösung der Differentialgleichung
x′ = F (x)
mit dem Anfangswert h(0) = x0 und setzen wir g(t) = f (h(t)), so gilt
g ′ (t) = f ′ (h(t))h′ (t) = f ′ (h(t))F (h(t)) = X(g(t)),
110
(19)
also ist g : I → M eine Integralkurve von X, und es gilt g(0) = y0 . Ist umgekehrt g : I →
f (D) eine Integralkurve mit dem Anfangswert g(0) = y0 und setzen wir h(t) = f −1 (g(t)),
so gilt h(t) = u(p1 (g(t))) für t ∈ h−1 (f (D′ )), so dass g differenzierbar ist, und
f ′ (h(t))h′ (t) = g ′ (t) = X(g(t)) = f ′ (t)F (h(t)).
Wegen der Injektivität von f ′ (x) für x ∈ D folgt, dass h eine Lösung der Differentialgleichung (19) mit dem Anfangswert h(0) = x0 ist.
Aus Satz 47 folgt nun Aussage (i) sowie eine Vorstufe von Aussage (ii): Zwei Integralkurven mit dem selben Anfangswert für t = 0 stimmen in einer Umgebung von 0 überein.
Den Beweis von Satz 48 liefert einen Beweis von Aussage (ii), wenn wir überall V durch M
ersetzen. Damit sind maximale Lösungen definiert, und aus Satz 58 erhalten wir als lokale
Version von Aussage (iv), dass g in einer Umgebung von (0, y0 ) definiert und stetig ist. Aus
Satz 60 und 61 folgt ebenso eine lokale Version von Aussage (v). Für Aussage (iii) bzw.
für die globalen Versionen der übrigen Aussagen übertragen wir die Beweise von Satz 49
bzw. 59, indem wir überall V durch M ersetzen.
Definition 40. Ein Vektorfeld auf einer Untermannigfaltigkeit eines affinene Raumes
heißt vollständig, wenn jede maximale Lösung auf ganz R definiert ist.
Dies bedeutet also in den Bezeichnungen des Satzes, dass U = R × M .
Folgerung 22. Ist M kompakt, so ist jedes Vektorfeld auf M vollständig.
Für jedes beschränkte Intervall I ist nämlich B × M abgeschlossen und beschränkt
in R × V , also kompakt, und die Behauptung folgt aus Satz 65(iii) wie im Beweis von
Folgerung 12.
Definition 41. Ein Fluss der Klasse C l auf einer Untermannigfaltigkeit M der Klasse C l
eines affinen Raumes B ist eine Abbildung G : R×M → M , so dass G, ∂x G ∈ C l (R×M, B)
ist und mit der Bezeichnung Gt (y) = G(t, y) für alle s, t ∈ R gilt
G0 = idM ,
Gs ◦ Gt = Gs+t .
Natürlich ist dann Gt ∈ C l (M, B). Da dies auch für die Umkehrabbildung G−t gilt,
ist Gt für jedes t ein Diffeomorphismus der Klasse C l .
Folgerung 23. Es sei M eine Untermannigfaltigkeit der Klasse C k eines affinen Raumes
und l < k.
(i) Ist G ein Fluss der Klasse C l auf M und setzen wir
X(y0 ) = ∂t G(0, y0 ),
so ist X ein Vektorfeld der Klasse C l .
(ii) Ist X ein vollständiges Vektorfeld der Klasse C l und setzen wir
G(t, y0 ) = gy0 (t),
so ist G ein Fluss der Klasse C l .
Die Zuordnungen in (i) und (ii) sind zueinander invers.
111
Aussage (i) ist offensichtlich. Die Differenzierbarkeitsaussage in (ii) folgt aus Satz 65(v),
und die Flusseigenschaft ergibt sich aus der Tatsache, dass wegen Satz 65(ii) gilt
gy0 (s) = y1 ,
gy1 (t) = y2
=⇒
gy0 (s + t) = y2 .
Die letzte Aussage folgt aus der Definition von Integralkurven.
Man könnte auch zeitabhängige Vektorfelder X betrachten, die auf einer offenen Teilmenge E von R × M definiert sind. Dies lässt sich allerdings auf den bereits behandelten
Fall zurückführen. Ist nämlich g eine Integralkurve von X, d. h. g ′ (t) = X(t, g(t)), so ist
g̃(t) = (t, g(t)) eine Integralkurve des zeitunabhängigen Vektorfeldes X̃(t, y) = (1, X(t, y))
auf der Mannigfaltigkeit E.
112
Herunterladen