Scriptum zur Vorlesung Analysis II

Scriptum zur Vorlesung
Analysis II
Prof. W. Hoffmann
Universität Bielefeld
WS 2011/12
Index
ε-Netz, 33
Überdeckung, 29
äquivalente Metriken, 38
äquivalente Normen, 6
Gradient, 56
Grenzwert einer Abbildung, 17
Grenzwert einer Folge, 8
Häufungspunkt, 8
höhere Ableitung, 63
Hölder-Ungleichung, 2
Hauptzweig, 88
Hessesche Form, 77
homöomorph, 23
Homöomorphismus, 23
homogene lineare Differentialgleichung,
102, 109
abgeschlossene Teilmenge, 8
Adjunkte, 61
affine Abbildung, 61
affiner Raum, 61
Anfangsbedingung, 99
Atlas, 138
Banachscher Fixpunktsatz, 24
bilinear, 58
Immersion, 135
Cauchy-Schwarz-Bunjakowski-Unglei- implizit, 90
chung, 3
implizite Differentiation, 92
indefinit, 75
Determinante, 61
Diffeomorphismus, 68
Differentialgleichung, 98
differenzierbar, 52
Divergenz, 56
Durchmesser einer Menge, 31
Jacobi-Matrix, 54
Karte, 138
Kartesisches Blatt, 136
Kern, 92
Kofaktor, 61
kompakt, 30
Kontraktion, 23
Kurve, 45
exp, 116
explizit, 89
explizite Differentialgleichung, 99
folgenkompakt, 28
Fundamentalmatrix, 111
Funktionalgleichung, 98
Funktionalmatrix, 54
Länge einer Kurve, 45
Lösung, 98
Lösungs-Fundamentalsystem, 111
Lagrange-Multiplikatoren, 95
Laplace-Operator, 67
getrennte Variablen, 100
gewichtetes arithmetisches Mittel, 3 lineare Differentialgleichung, 102, 109
Lipschitz-stetig, 16
gewichtetes geometrisches Mittel, 3
gewöhnliche Differentialgleichung, 99 logarithmische Ableitung, 61
lokales Extremum, 73
gleichmäßig konvergent, 14
lokales Maximum, 73
gleichmäßig stetig, 38
i
lokales Minimum, 73
Topologie, 12
topologischer Raum, 12
totale Ableitung, 52
trilinear, 62
Metrik, 6
metrischer Raum, 7
Minkowski-Ungleichung, 2
multilinear, 65
Untermannigfaltigkeit, 138
Nabla-Operator, 56
Nebenbedingung, 92
negativ definit, 74
Newtonverfahren, 84
Niveaufläche, 21
Norm, 1
Norm einer linearen Abbildung, 38
Variation, 43
Variation der Konstanten, 103, 112
Variationsgleichung, 132
Vektorprodukt, 57
vollständiger metrischer Raum, 12
Weg, 25
wegzusammenhängend, 25
Wronski-Matrix, 120
offene Teilmenge, 8
Parametrisierung, 45
partialle Differentialgleichung, 99
partielle Ableitung, 51
Picard-Iteration, 106
Polarkoordinaten, 89
positiv definit, 74
Punkt, 7
Young-Ungleichung, 4
zusammenhängend, 25
Zweig, 89
rektifizierbar, 45
Restglied, 69
Richtungsableitung, 51
Rotation, 56
Satz von Picard-Lindelöf, 104
Satz von Schwarz, 65
Skalarprodukt, 3
stationärer Punkt, 73
stetig, 16
Submersion, 136
Supremumsnorm, 14
symmetrisch, 67
Tangentialraum, 140
Tangentialvektor, 140
Taylor-Polynom, 68
Taylorsche Formel, 68
ii
1
Metrische Räume
Nachdem wir in der Vorlesung Analysis I Funktionen auf Teilmengen eines
Körpers K mit Absolutbetrag untersucht haben, wollen wir uns in der Vorlesung Analysis II mit Funktionen auf Teilmengen des Raumes
K n = |K × K ×
{z . . . × K}
n
der n-Tupel
x = (x1 , x2 , . . . , xn )
von Elementen xi aus K befassen. Diese lassen sich addieren und mit Elementen aus K multiplizieren:
x + y = (x1 + y1 , x2 + y2 , . . . , xn + yn ),
ax = (ax1 , ax2 , . . . , axn ).
Mitunter werden auch allgemeinere Räume auftreten.
1.1
Normen
Es sei K der Körper R der reellen Zahlen oder der Körper C der komplexen
Zahlen. Anstelle des Absolutbetrages benötigen wir im Fall einer beliebigen
Zahl von Variablen den folgenden Begriff.
Definition 1. Eine Norm auf einem K-Vektorraum1 V ist eine Abbildung
V → R (deren Wert an der Stelle x wir mit kxk bezeichnen), die folgenden
Eigenschaften für alle x, y ∈ V und a ∈ K hat:
(i) kaxk = |a| · kxk,
(ii) kx + yk ≤ kxk + kyk (Dreiecksungleichung),
(iii) wenn kxk = 0, dann x = 0.
Aus (i) folgt die Umkehrung von (iii), nämlich
k0k = k0 · 0k = |0| · k0k = 0,
wobei man zwischen 0 ∈ K und 0 ∈ K n unterscheiden muss, und daraus
sowie aus (ii) und (i) folgt
0 = kx − xk ≤ kxk + k − xk = 2kxk,
so dass eine Norm nur nichtnegative Werte annehmen kann.
Der folgende Satz liefert Beispiele von Normen auf K n .
1
Teilnehmer, die noch keine Vektorräume kennen, mögen sich unter V die Menge K n
vorstellen.
1
Satz 1. Für eine reelle Zahl p > 0 und x ∈ K n sei
1/p
kxkp = |x1 |p + . . . + |xn |p
,
kxk∞ = lim kxkp .
p→∞
Dies ist für alle p ∈ [1, ∞] eine Norm2 . Für alle p und q mit der Eigenschaft
1
+ 1q = 1 gilt die Hölder-Ungleichung
p
n
X
i=1
|xi yi | ≤ kxkp kykq .
Bemerkungen. Mit dem Einschließungskriterium erhält man
kxk∞ = max |xi | : i ∈ {1, 2, . . . , n} .
Die Bedingungen q > 0 und p1 + 1q = 1 erzwingen p > 1 für die HölderUngleichung, aber durch Grenzübergang erhält man auch
n
X
i=1
|xi yi | ≤ kxk1 kyk∞ ,
was sich auch leicht direkt nachprüfen lässt. Im Fall p < 1 ist die Eigenschaft (ii) einer Norm nicht erfüllt, wie man am Beispiel x = (1, 0), y = (0, 1)
sieht.
Für das Skalarprodukt
n
X
hx, yi =
xi ȳi
i=1
n
zweier Elemente x und y von K (wobei die komplexe Konjugation im Fall
K = R unnötig ist) gilt offensichtlich
hx, xi = kxk22 ,
und aus der Dreiecksungleichung für Summen sowie der Hölderungleichung
im Fall p = q = 2 folgt die Cauchy-Schwarz-Bunjakowski-Ungleichung
|hx, yi| ≤ kxk2 kyk2 .
Zum Beweis von Satz 1 benötigen wir weitere Ungleichungen. In Verallgemeinerung eines bekannten Begriffs nennen wir
m 1 x1 + . . . + m k xk
m
2
Die Dreiecksungleichung für diese Norm heißt auch Minkowski-Ungleichung.
2
das gewichtete arithmetische Mittel der Zahlen x1 , . . . , xk mit den positiven
Gewichten m1 , . . . , mk , wobei m = m1 + . . . + mk , und für positive xi nennen
wir
mk 1/m
1
xm
1 · · · xk
das gewichtete geometrische Mittel dieser Zahlen.
Lemma 1. Das gewichtete geometrische Mittel ist nicht größer als das gewichtete arithmetische Mittel mit den selben Gewichten, wobei Gleichheit genau dann eintritt, wenn die Zahlen xi gleich sind.
Beweis. Sind die Gewichte mi ganze Zahlen, so folgt die Behauptung aus der
Ungleichung zwischen dem gewöhnlichen geometrischen und arithmetischen
Mittel der Zahlen
x1 , . . . , x1 , x2 , . . . , x2 , . . . xk , . . . , xk .
| {z } | {z }
| {z }
m1
m2
mk
Da sich das gewichtete arithmetische bzw. geometrische Mittel nicht ändert,
wenn man alle mi durch die selbe positive Zahl dividiert, folgt die Behauptung auch für rationale Gewichte. Sind schließlich die Gewichte mi beliebige
positive reelle Zahlen, so wählen wir für jedes i eine Folge mij von positiven
rationalen Zahlen, so dass mij → mi für j → ∞. Die Ungleichung gilt bereits
für jedes j, und nach Satz3 I.26 bleibt sie gültig, wenn wir auf beiden Seiten
zum Grenzwert j → ∞ übergehen. Nach den Rechenregeln existieren diese
Grenzwerte und sind gleich dem geometrischen bzw. arithmetischen Mittel
mit den Gewichten mi .
Folgerung 1. Für beliebige positive relle Zahlen a1 , . . . , ak und p1 , . . . , pk
mit der Eigenschaft p11 + . . . + p1k = 1 gilt die Young-Ungleichung
ap11
apkk
a1 · · · ak ≤
+ ... +
.
p1
pk
Dazu setzen wir einfach xi = api i und mi =
1
.
pi
Beweis von Satz 1. Wir beginnen mit der Hölder-Ungleichung, wobei wir
zunächst annehmen, dass kxkp = kykq = 1. Nach dem Spezialfall k = 2 der
Young-Ungleichung gilt für jedes i
|xi |p |yi |q
|xi yi | ≤
+
,
p
q
3
Nummern, die mit I beginnen, beziehen sich auf das Skript Analysis I.
3
und durch Summation über i erhalten wir wegen p1 + 1q die Behauptung. Sind
x und y beliebig, aber von 0 verscheiden, so können wir das Bewiesene auf
die Vektoren
y
x
,
kxkp
kykq
anwenden und erhalten mit dem Distributivgesetz
n
X
1
|xi yi | ≤ 1.
kxkp kykq i=1
Ist schließlich x = 0 oder y = 0, so ist die Behauptung offensichtlich.
Nun beweisen wir die Eigenschaften einer Norm für 1 < p < ∞. Hierzu
gibt es ein eindeutig bestimmtes q, so dass p1 + 1q = 1, und mit der HölderUngleichung folgt
X
1q
n
n
X
p−1
(p−1)q
|xi ||xi + yi |
≤ kxkp
|xi + yi |
.
i=1
Wegen
1
q
=1−
1
p
i=1
p−1
p
=
n
X
|xi ||xi + yi |p−1 ≤ kxkp kx + ykp−1
p
n
X
|yi ||xi + yi |p−1 ≤ kykp kx + ykp−1
p .
i=1
und analog
bedeutet dies
i=1
Addieren wir beide Ungleichungen und benutzen wir die Dreiecksungleichung
für den Absolutbetrag, so folgt
kx +
ykpp
≤
n
X
i=1
(|xi | + |yi |)|xi + yi |p−1 ≤ (kxkp + kykp )kx + ykp−1
p .
Für kx + ykp = 0 ist nichts zu beweisen, und andernfalls können wir durch
kx + ykp−1
dividieren. Damit ist die Minkowski-Ungleichung (ii) bewiesen.
p
Behauptung (i) folgt aus der analogen Eigenschaft des Absolutbetrages
und dem Distributivgesetz. Zum Beweis von (iii) betrachten wir ein Element
x mit der Eigenschaft kxkp = 0. Durch Bilden der pten Potenz erhalten wir
|x1 |p + . . . + |xn |p = 0, und da alle Summanden nicht negativ sind, folgt
|xi |p = 0, also xi = 0, für alle i.
Der Beweis in den Fällen p = 1 und p = ∞ ist einfacher und wird
den Teilnehmern als Übungsaufgabe überlassen. Die Minkowski-Ungleichung
folgt natürlich auch durch Grenzübergang.
4
Definition 2. Zwei Normen k . k und k . k′ auf einem Vektorraum V heißen
äquivalent, wenn es Konstanten c und c′ gibt, so dass für alle x ∈ V gilt
kxk′ ≤ ckxk,
kxk ≤ c′ kxk′ .
Lemma 2. Für alle p ∈ ]1, ∞[ und x ∈ K n gilt
kxk∞ ≤ kxkp ≤ kxk1 ≤ nkxk∞ ,
die Normen k . kp für p ∈ [1, ∞] auf K n sind also sämtlich äquivalent.
Beweis. Ersetzen wir in x alle Koordinaten außer der betragsmäßig größten
durch Null, so verkleinert sich kxkp , und es folgt kxk∞ ≤ kxkp . Schreiben
wir hingegen x als Summe der Vektoren (0, . . . , 0, xi , 0, . . . , 0), so ergibt sich
aus der Minkowskiungleichung kxkp ≤ kxk1 . Ersetzen wir schließlich in x alle
Koordinaten durch die betragsmäßig größte, so ergibt sich kxk1 ≤ nkxk∞ .
Mit Hilfe der Jensen-Ungleichung kann man sogar zeigen, dass für beliebige p ≥ q gilt kxkp ≤ kxkq .
1.2
Metriken
Viele Objekte der realen Welt lassen sich nicht durch Vektorräume beschreiben. Trotzdem kann man Abstände zwischen Punkten betrachten.
Definition 3. Es sei X eine Menge. Eine Funktion d : X × X → R heißt
Metrik, wenn für alle x, y und z ∈ X gilt:
(i) d(x, y) = d(y, x),
(ii) d(x, z) ≤ d(x, y) + d(y, z) (Dreiecksungleichung),
(iii) genau dann d(x, y) = 0, wenn x = y.
Eine Menge, die mit einer Metrik versehen ist, nennt man metrischen Raum4 ,
ihre Elemente nennt man Punkte.
Durch Anwendung der Eigenschaften (iii), (ii) und (i) sehen wir, dass
0 = d(x, x) ≤ d(x, y) + d(y, x) = 2d(x, y),
d. h. dass eine Metrik nur nichtnegative Werte annimmt.
4
Strenggenommen ist ein metrischer Raum ein geordnetes Paar (X, d).
5
Beispiel. Ist V ein Vektorraum mit einer Norm, so ist
d(x, y) = kx − yk
eine Metrik auf V . Die Norm k . k2 auf Rn liefert die euklidische Metrik. ⊳
Beispiel. Ist d eine Metrik auf der Menge X und Y eine Teilmenge von X,
so ist die Einschränkung d|Y ×Y eine Metrik auf Y , genannt die von d induzierte Metrik. Die Menge Y , versehen mit dieser Metrik, nennt man einen
metrischen Teilraum von X. Betrachtet man z. B. die Erdoberfläche eine Teilmenge des euklidischen Raumes, so beschreibt d(x, y) die Länge der Sehne
durch das Erdinnere, die x und y verbindet. ⊳
Beispiel. Es sei A eine Menge und d : An × An → R gegeben durch
d(x, y) = i ∈ {1, 2, . . . , n} : xi 6= yi .
Dann ist d eine Metrik auf An . Man kann sich A als ein Alphabet und An
als Menge der Zeichenketten vorstellen. Dann gibt d(x, y) an, an wie vielen
Stellen sich die Zeichenketten x und y unterscheiden. In An kann man die
Teilmenge Y der sinnvollen Wörter betrachten. ⊳
Metrische Räume bilden einen passenden Rahmen für die Analysis.
Definition 4. Es sei X ein metrischer Raum.
(i) Ein Punkt a von X heißt Grenzwert der Folge von Punkten xk von X,
wenn es für jede positive reelle Zahl ε eine natürliche Zahl k0 gibt, so
dass für alle natürlichen Zahlen k mit der Eigenschaft k ≥ k0 gilt
d(xk , a) < ε.
(ii) Ein Punkt a von X heißt Häufungspunkt der Folge von Punkten xk
von X, wenn es für jede positive reelle Zahl ε und jede natürliche Zahl
k0 eine natürliche Zahl k gibt, so dass k ≥ k0 und
d(xk , a) < ε.
(ii) Eine Teilmenge A von X heißt abgeschlossen in X, wenn jeder Häufungspunkt einer Folge von Elementen von A ebenfalls in A liegt.
(iii) Eine Teilmenge U von X heißt offen in X, wenn es für jedes Element
a von U eine positive reelle Zahl ε gibt, so dass alle Elemente x von X
mit der Eigenschaft d(x, a) < ε in U liegen.
6
In dem Spezialfall, dass X ein Körper mit Absolutbetrag ist, stimmen
diese Begriffe mit den früher betrachteten überein. Die Sätze I.14, I.15, I.35
und I.38 übertragen sich einschließlich ihrer Beweise. Wir fassen die Versionen
für metrische Räume hier zusammen:
Satz 2. (i) Konvergiert eine Folge sowohl gegen a als auch gegen b, so ist
a = b.
(ii) Jede konvergente Folge ist beschränkt, d. h. es gibt eine Zahl c > 0, so
dass für alle k und l gilt d(xk , xl ) ≤ c.
(ii) Ein Punkt a ist genau dann Häufungspunkt einer Folge, wenn er Grenzwert einer ihrer Teilfolgen ist.
(iv) Eine Menge A ist genau dann abgeschlossen in X, wenn ihr Komplement X \ A offen in X ist.
Eine offene Menge in X, die den Punkt a enthält, nennt man eine Umgebung von a in X. Damit kann man die Definitionen von Grenzwert und
Häufungspunkt anschaulicher formulieren.
Satz 3.
(i) Für jedes ε > 0 ist die Menge
Uε (a) = {x ∈ X | d(x, a) < ε}
eine Umgebung von a, genannt ε-Umgebung von a.
(ii) Der Punkt a ist genau dann Grenzwert der Folge xk , wenn es für jede
Umgebung U von a ein k0 gibt, so dass für alle k mit der Eigenschaft
k ≥ k0 gilt xk ∈ U .
(iii) Der Punkt a ist genau dann Häufungspunkt der Folge xk , wenn es für
jede Umgebung U von a und jedes k0 ein k gibt, so dass k ≥ k0 und
xk ∈ U .
Beweis. (i) Es sei b ∈ Uε (a), also d(b, a) < ε. Setzen wir δ = ε − d(b, a),
so ist δ > 0, und es gilt für jedes x ∈ X mit d(x, b) < δ, dass d(x, a) ≤
d(x, b) + d(b, a) < δ + d(b, a) = ε, also x ∈ Uε (a).
(ii) Angenommen, die Folge xk konvergiert gegen a. Ist U eine Umgebung
von a, so gibt es nach Definition der Offenheit ein ε > 0, so dass alle x ∈ X
mit d(x, a) < ε in U liegen. Wegen der Konvergenz gibt es dann ein k0 , so dass
für alle k ≥ k0 gilt d(xk , a) < ε. Für diese k ist somit xk ∈ U . Die Umkehrung
ist offensichtlich, denn wenn eine Eigenschaft für alle Umgebungen gilt, so
gilt sie insbesondere für alle ε-Umgebungen.
Der Beweis von (iii) ist ähnlich.
7
Bemerkungen.
(i) Metriken auf einem Vektorraum, die von äquivalenten Normen induziert werden, definieren den selben Begriff der Konvergenz sowie der
Offenheit und Abgeschlossenheit.
(ii) In Analogie zu Satz I.32(i) gilt: Eine Folge von Elementen
xk = (x1k , . . . , xnk )
von K n konvergiert (bezüglich einer der in Satz 1 betrachteten Normen) genau dann gegen einen Punkt a = (a1 , . . . , an ), wenn jede der
Koordinatenfolgen xik gegen die jeweilige Koordinate ai von a konvergiert. Ist nämlich kxk − ak∞ eine Nullfolge, so sind offensichtlich die
|xik − ai | Nullfolgen, und sind umgekehrt die |xik − ai | Nullfolgen, so
ist offensichtlich kxk − ak1 eine Nullfolge.
Satz 4. Es sei X ein metrischer Raum.
(i) Die Mengen X und ∅ sind offen in X.
(ii) Sind U und V offen in X, so ist auch der Durchschnitt U ∩ V offen
in X.
(iii) Ist für jeden Index i aus einer Menge I eine offene Teilmenge Ui von
X gegeben, so ist die Vereinigung
[
U=
Ui
i∈I
offen in X.
Beweis. (i) Der gesamte Raum X ist offen, da für jeden Punkt x gilt U1 (x) ⊆
X, und ∅ ist offen, da es keinen Punkt gibt, für den eine Bedingung zu
erfüllen wäre.
(ii) Ist x ∈ U ∩ V , so gibt es wegen der Offenheit von U und V Zahlen ε > 0
und δ > 0, so dass Uε (x) ⊆ U und Uδ (x) ⊆ V . Setzen wir η = min{ε, δ}, so
gilt Uη (x) ⊆ U ∩ V .
(iii) Ist x Element der Vereinigung, so gibt es einen Index i ∈ I, so dass x ∈
Ui . Da Ui offen ist, gibt es ein ε > 0, so dass Uε (x) ⊆ Ui , also Uε (x) ⊆ U .
Bemerkung. Für das Komplement5 B c = X \ B gelten die de Morganschen
Regeln
!c
!c
[
\
\
[
Bic .
Bi =
Bic ,
Bi =
i∈I
5
i∈I
i∈I
i∈I
Bei dieser Schreibweise muss X aus dem Zusammenhang erkennbar sein.
8
Angesichts von Satz 2(iv) kann man also Satz 4 auch durch abgeschlossene
Mengen ausdrücken.
Ist Y ein metrischer Teilraum von X, so braucht eine offene Teilmenge
U von Y nicht offen in X und eine abgeschlossene Teilmenge A von Y nicht
abgeschlossen in X zu sein. Man betrachte z. B. X = R, Y = U = A = [0, 1[.
Satz 5. Es sei Y ein metrischer Teilraum von X.
(i) Die in Y offenen Mengen sind genau die Mengen der Form U ∩ Y ,
wobei U eine offene Menge in X ist.
(ii) Die in Y abgeschlossenen Mengen sind genau die Mengen der Form
A ∩ Y , wobei A eine abgeschlossene Menge in X ist.
Beweis. Wegen Y \(A∩Y ) = Y ∩(X \A) genügt es angesichts von Satz 2(iv),
die Aussage (i) zu beweisen. Zuvor bemerken wir: Sind UεX (b) und UεY (b)
die ε-Umgebung eines Punktes b ∈ Y in den Räumen X bzw. Y , so ist
UεX (b) ∩ Y = UεY (b).
Ist U offen in X und b ∈ U ∩ Y , so gibt es ein ε > 0, so dass UεX (b) ∈ U ,
und dann ist UεY (b) ∈ U ∩ Y . Also ist U ∩ Y offen in Y .
Nun sei V eine offene Teilmenge von Y . Für jedes b ∈ V gibt es ein εb > 0,
so dass UεYb (b) ⊆ V . Nach Satz 3(i) und 4(iii) ist die Menge
U=
[
UεXb (b)
b∈V
offen in X. Es gilt U ∩ Y ⊆ V , und für jedes b ∈ V ist b ∈ Uεb (b) ∩ Y ⊆ U ∩ Y ,
also V ⊆ U ∩ Y .
Eine Familie von Teilmengen einer beliebigen Menge X, die die Eigenschaften der
Familie der offenen Mengen aus Satz 4 hat, nennt man übrigens eine Topologie auf X.
Eine Menge X, die mit einer Topologie versehen ist, nennt man topologischen Raum. Für
solche Räume betrachtet man die Aussagen (ii) und (iii) von Satz 3 und den Satz 5 als
Definitionen.
1.3
Vollständigkeit
Wie schon im Fall von Körpern spielt der Begriff der Vollständigkeit auch
für metrische Räume eine wichtige Rolle.
Definition 5. Eine Folge von Elementen xk eines metrischen Raumes X
heißt Cauchy-Folge, wenn es für jede positive Zahl ε eine natürliche Zahl k0
9
gibt, so dass für alle natürlichen Zahlen k und l mit der Eigenschaft k ≥ k0
und l ≥ k0 gilt
d(xk , xl ) < ε.
Ein metrischer Raum heißt vollständig, wenn jede Cauchy-Folge in diesem
Raum konvergent ist.
Wegen d(xk , xl ) ≤ d(xk , a) + d(a, xl ) ist jede konvergente Folge eine
Cauchy-Folge.
In Analogie zu Satz I.32(ii) gilt: Eine Folge von Elementen
xk = (x1k , . . . , xnk )
von K n ist eine Cauchy-Folge (bezüglich einer der in Satz 1 betrachteten
Normen) genau dann, wenn jede der Koordinatenfolgen xik eine CauchyFolge ist. Da die Körper R und C nach Satz I.23 und Satz I.32(iii) vollständig
sind, erhalten wir
Folgerung 2. Die Vektorräume Rn und Cn sind bezüglich jeder der Normen
k . kp vollständig.
Lemma 3. Ein abgeschlossener Teilraum Y eines vollständigen metrischen
Raumes X ist vollständig. Ein vollständiger Teilraum von X ist abgeschlossen
in X.
Beweis. Angenommen, Y ist abgeschlossen in X. Ist yk eine Cauchyfolge
in Y , so ist sie auch eine Cauchyfolge in X, hat dort also einen Grenzwert a.
Da Y abgeschlossen ist, gilt a ∈ Y , also ist die Folge konvergent in Y .
Angenommen, Y ist vollständig. Ist yk eine Folge in Y , die gegen einen
Punkt a von X konvergiert, so ist sie eine Cauchy-Folge in X, also auch eine
Cauchy-Folge in Y . Wegen der Vollständigkeit von Y hat sie einen Grenzwert
b in Y , und nach Satz 2(i) ist a = b.
Beispiel. Wir definieren
kf k1 =
Z
b
a
|f (x)| dx
für jede integrierbare Funktion f auf dem beschränkten Intervall [a, b]. Dies
ist keine Norm auf dem Vektorraum solcher Funktionen, weil z. B. für die
Funktion
(
1, wenn x = a,
f (x) =
0 sonst
10
gilt kf k1 = 0. (Dem kann man abhelfen, in dem man den Raum der Äquivalenzklassen von Funktionen betrachtet, wobei f ∼ g, wenn kf − gk1 = 0.)
Die Einschränkung von k . k1 auf den Unterraum der stetigen Funktionen ist
nach den Sätzen I.86 und I.87 eine Norm.
Betrachten wir nun auf [−1, 1] die Funktionen
fk (x) =
kx
.
|kx| + 1
Weil die Funktionen ungerade sind, ist
Z 1
kfk − sgn k1 = 2
(sgn x − fk (x)) dx,
0
und durch die Substitution u = kx + 1 erhalten wir
Z
u−1
ln(k + 1)
2 k+1
.
1−
du = 2
kfk − sgn k1 =
k 1
u
k
Die Folge konvergiert also im Raum der Äquivalenzklassen gegen die Signumfunktion. Der Unterraum der stetigen Funktionen ist somit nicht abgeschlossen und folglich auch nicht vollständig bezüglich der Norm k . k1 .
Der Raum der Äquivalenzklassen integrierbarer Funktionen ist übrigens auch
nicht vollständig. ⊳
Definition 6. Es sei X eine Menge und K = R oder K = C. Für jede
beschränkte Funktion f : X → K nennen wir
kf k = sup |f |
die Supremumsnorm von f . Eine Folge, die bezüglich der Supremumsnorm
konvergiert, nennen wir gleichmäßig konvergent.
Lemma 4. Der Raum der beschränkten Funktionen auf einer beliebigen Menge ist bezüglich der Supremumsnorm vollständig.
Beweis. Es sei fn eine Cauchy-Folge. Für jedes Element x von X gilt
|fk (x) − fl (x)| ≤ kfk − fl k,
also ist fk (x) eine Cauchyfolge. Wegen der Vollständigkeit von K hat diese
einen Grenzwert, den wir mit f (x) bezeichnen. So erhalten wir eine Funktion
f : X → K.
11
Nun sei ε > 0. Dann gibt es ein k0 , so dass für k ≥ k0 und l ≥ k0 gilt
kfk − fl k < ε, also für jedes x ∈ X
|fk (x) − fl (x)| < ε.
Durch Grenzübergang l → ∞ folgt
|fk (x) − f (x)| ≤ ε,
und mit der Dreiecksungleichung
|f (x)| ≤ |f (x) − fk (x)| + |fk (x)| ≤ ε + kfk k.
Da x beliebig war, ist f beschränkt und
kfk (x) − f (x)k ≤ ε.
Da ε beliebig war, konvergiert die Folge fk gleichmäßig gegen f .
Man kann die Supremumsnorm auch für Funktionen mit Werten in einem
Vektorraum V definieren, wenn auf diesem eine Norm definiert ist. Ist V
vollständig, so gilt das Lemma auch hier.
Noch allgemeiner kann man Abbildungen mit Werten in einem metrischen Raum Y
mit einer Metrik e betrachten. Eine solche Abbildung heißt beschränkt, wenn ihr Bild
(Wertevorrat) beschränkt ist, d. h. wenn es eine Zahl c gibt, so dass für alle u, v ∈ X gilt
e(f (u), f (v)) ≤ c. Auf dem Raum aller beschränkten Abbildungen X → Y definiert man
die Supremumsmetrik
d(f, g) = sup{e(f (x), g(x)) | x ∈ X}.
Die allgemeine Version des Lemmas besagt, dass d vollständig ist, wenn e vollständig
ist. Lässt man für Metriken den Wert ∞ zu, dann kann man sogar die Bedingung der
Beschränktheit fallen lassen.
1.4
Stetigkeit
Der Begriff der Stetigkeit von Abbildungen ist eine offensichtliche Verallgemeinerung des Begriffs der Stetigkeit von Funktionen.
Definition 7. Es seien X und Y metrische Räume mit Metriken d bzw. e,
es sei a ∈ X und f eine Abbildung von X in Y .
(i) Die Funktion f heißt stetig an der Stelle a, wenn es für jedes ε > 0
ein δ > 0 gibt, so dass für alle x ∈ X mit der Eigenschaft d(x, a) < δ
gilt e(f (x), f (a)) < ε.
12
(ii) Die Abbildung f heißt stetig, wenn sie an jeder Stelle stetig ist.
(iii) Die Abbildung f heißt Lipschitz-stetig, wenn es eine Zahl c gibt, so
dass für alle Punkte u und v von X gilt
e(f (u), f (v)) ≤ c d(u, v).
Bemerkungen.
(i) Wird die Metrik d oder e von einer Norm induziert, so ändert sich
der Begriff der Stetigkeit nicht, wenn man zu einer äquivalenten Norm
übergeht.
(ii) Jede Lipschitz-stetige Funktion ist stetig. Für jeden Punkt a ist die
Funktion
f (x) = d(x, a)
Lipschitz-stetig, denn aus der Dreiecksungleichung folgt
|d(u, a) − d(v, a)| ≤ d(u, v).
(iii) Ist f eine Abbildung von einer Menge X in den Raum K n , so ist für
jedes x ∈ X das Element f (x) ein n-Tupel, das wir mit
(f1 (x), . . . , fn (x))
bezeichnen. Auf diese Weise erhalten wir aus einer Abbildung f : X →
K n Koordinatenfunktionen fi : X → K und umgekehrt.
(iv) Eine Abbildung f von einem metrischen Raum X in den Raum K n ist
genau dann stetig, wenn ihre Koordinatenfunktionen stetig sind, denn
es gilt für jedes i ∈ {1, . . . , n}
|fi (x) − fi (a)| ≤ kf (x) − f (a)k∞ ≤ kf (x) − f (a)k1 ≤
n
X
j=1
|fj (x) − fj (a)|.
Der Begriff der Stetigkeit hängt eng mit dem des Grenzwertes zusammen.
Definition 8. Es seien X und Y metrische Räume mit Metriken d bzw. e.
(i) Der Punkt a heißt Häufungspunkt der Teilmenge D von X, wenn in
jeder Umgebung von a ein Punkt von D \ {a} liegt.
13
(ii) Es sei a ein Häufungspunkt der Menge D und f : D → Y . Der Punkt
b von Y heißt Grenzwert der Abbildung f an der Stelle a, abgekürzt
f (x) → b (x → a), wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für
alle x ∈ D \ {a} mit der Eigenschaft d(x, a) < δ gilt e(f (x), b) < ε.
Bemerkungen.
(i) Weil a Häufungspunkt von D ist, kann in Analogie zu Satz 2(i) eine Abbildung f an einer Stelle a nur einen Grenzwert haben. Wir bezeichnen
ihn mit lim f (x).
x→a
(ii) Ein Punkt von D, der kein Häufungspunkt von D ist, hießt isolierter
Punkt von D. Er ist trotzdem Häufungspunkt einer Folge in D, z. B.
a, a, a, . . .
(iii) Die Begriffe Grenzwert und Stetigkeit hängen wie folgt zusammen. Ist
a∈
/ D, so gilt für eine Abbildung f : D → Y genau dann
f (x) → b (x → a),
wenn die durch
g(x) =
(
f (x), wenn x 6= a,
b,
wenn x = a
definiere Abbildung g : D ∪ {a} → Y an der Stelle a stetig ist. Dabei
wird D ∪ {a} als metrischer Teilraum von X betrachtet.
Beispiel. Es sei f : R2 \ {(0, 0)} → R definiert durch
x1 x2
f (x1 , x2 ) = 2
.
x1 + x22
Für festes x2 gilt
lim f (x1 , x2 ) = 0,
x1 →0
und für festes x1 gilt
lim f (x1 , x2 ) = 0.
x2 →0
Würde der Grenzwert
lim f (x) = b
x→(0,0)
existieren, dann müsste es für jedes ε > 0 ein δ > 0 geben, so dass für
k(t, 0)k < δ und k(t, t)k < δ gilt |f (t, 0) − b| < ε und |f (t, t) − b| < ε. Wir
haben aber
1
f (t, 0) = 0,
f (t, t) = ,
2
1
und für ε = 4 ergibt sich ein Widerspruch. Der besagte Grenzwert existiert
also nicht. ⊳
14
Satz 6. Die Abbildungen K × K → K, die durch
(x1 , x2 ) 7→ x1 + x2 ,
bzw.
(x1 , x2 ) 7→ x1 · x2
gegeben sind, sind stetig.
Beweis. Die erste Abbildung ist sogar Lipschitz-stetig, denn nach der Dreiecksungleichung gilt
|(u1 + u2 ) − (v1 + v2 )| = |(u1 − v1 ) + (u2 − v2 )| ≤ ku − vk1 .
Bei der zweiten Abbildung haben wir
|x1 x2 − a1 a2 | = |(x1 − a1 )x2 + a1 (x2 − a2 )| ≤ |x1 − a1 ||x2 | + |a1 ||x2 − a2 |.
n
o
ε
ε
2
Zu gegebenem a ∈ K und ε > 0 wählen wir δ = min 1, 2|a1 | , 2(1+|a2 |) .
Dann gilt für kx − ak∞ < δ
|x2 | ≤ |x2 − a2 | + |a2 | ≤ δ + |a2 | ≤ 1 + |a2 |
und somit
|x1 x2 − a1 a2 | ≤ δ(|a2 | + 1) + |a1 |δ ≤
ε ε
+ = ε.
2 2
Also ist die Abbildung stetig an der Stelle a = (a1 , a2 ).
In Analogie zu Satz I.61 gilt das Folgenkriterium:
Satz 7. Eine Abbildung f : X → Y ist genau dann stetig an der Stelle a,
wenn für jede Folge xk in X mit dem Grenzwert a die Folge f (xk ) in Y gegen
f (a) konvergiert.
Beweis. Angenommen, f ist nicht stetig an der Stelle a. Dann gibt es ein
ε > 0, so dass für jedes δ > 0 ein x ∈ X existiert, so dass d(x, a) < δ, aber
e(f (x), f (a)) ≥ ε.
Insbesondere gibt es also für jedes k ∈ N ein xk , so dass d(xk , a) < k1 ,
aber e(f (xk ), f (a)) ≥ ε. Dies bedeutet, dass xk gegen a, aber f (xk ) nicht
gegen f (a) konvergiert. Das Folgenkriterium ist also nicht erfüllt.
Die Umkehrung ist einfach.
Man kann die Stetigkeit einer Abbildung f : X → Y zwischen metrischen
Räumen auch mit Hilfe von Umgebungen in Analogie zu Satz 3 ausdrücken.
Dazu definieren wir das Bild einer Teilmenge A von X und das Urbild einer
Teilmenge B von Y durch
f (A) = {f (x) | x ∈ a},
f −1 (B) = {x ∈ X | f (x) ∈ B}.
15
Satz 8. (i) f ist genau dann stetig an der Stelle a, wenn es für jede Umgebung V von f (a) eine Umgebung U von a gibt, so dass f (U ) ⊆ V .
(ii) f ist genau dann stetig, wenn für jede offene Menge V in Y das Urbild
f −1 (V ) offen in X ist.
Beweis. (i) Es sei V eine Umgebung von f (a). Dann gibt es ein ε > 0, so
dass UεY (f (a)) ⊆ V . Ist f stetig an der Stelle a, so gibt es ein δ > 0, so dass
f (UδX (a)) ⊆ UεY (f (a)). Also ist das Kriterium mit U = UδX (a) erfüllt.
Ist umgekehrt das Kriterium erfüllt und ε > 0 gegeben, so wenden wir
es auf V = UεY (f (a)) an und erhalten eine Umgebung U von a, so dass
f (U ) ⊆ UεY (f (a)). Wegen der Offenheit von U gibt es ein δ > 0, so dass
UδX (a) ⊆ U . Somit gilt f (UδX (a)) ⊆ UεY (f (a)), d. h. f ist stetig an der
Stelle a.
(ii) Angenommen, f ist stetig. Für eine offene Menge V von Y wollen wir
zeigen, dass f −1 (V ) offen ist. Ist a in diesem Urbild, so ist f (a) ∈ V , und nach
Teil (i) gibt es eine Umgebung U von a, so dass f (U ) ⊆ V . Das bedeutet
U ⊂ f −1 (V ), und da a in der Menge f −1 (V ) beliebig gewählt war, ist sie
offen.
Umgekehrt sei das Kriterium erfüllt. Ist nun a ∈ X, so ist für jede Umgebung V von f (a) die Menge U = f −1 (V ) eine Umgebung von a mit der
Eigenschaft f (U ) ⊆ V . Somit ist f nach Teil (i) an der Stelle a stetig.
Bemerkung. Wegen f −1 (Y \ V ) = X \ f −1 (V ) sehen wir unter Verwendung
von Satz 2(iv), dass eine Abbildung genau dann stetig ist, wenn die Urbilder
aller abgeschlossenen Mengen abgeschlossen sind.
Beispiel. Ist f : X → R eine stetige Funktion, so ist für jedes c ∈ R die
Menge
{x ∈ X | f (x) < c} = f −1 ]−∞, c[
offen und die sogenannte Niveaufläche
{x ∈ X | f (x) = c} = f −1 ({c})
abgeschlossen. Wenden wir dies auf eine Norm auf einem Vektorraum an, so
erhalten wir eine offene Einheitskugel {x ∈ V | kxk < 1} und eine abgeschlossene Einheitssphäre {x ∈ V | kxk = 1}. ⊳
Für die Verkettung gilt in Analogie zu Satz I.56:
Satz 9. Ist die Abbildung f : X → Y stetig an der Stelle a und die Abbildung
g : Y → Z stetig an der Stelle b = f (a), so ist die Abbildung g ◦ f : X → Z
stetig an der Stelle a.
16
Beweis. Ist W eine Umgebung von g(f (a)) = g(b) in Z, so gibt es wegen
der Stetigkeit von g an der Stelle b eine Umgebung V von b in Y , so dass
g(V ) ⊆ W , und wegen der Stetigkeit von f an der Stelle a gibt es eine
Umgebung U von a in X, so dass f (U ) ⊆ V . Es folgt g ◦ f (U ) ⊆ W , und
weil W beliebig war, ist g ◦ f an der Stelle a stetig.
Alternativ hätte man den Beweis von Satz I.56 kopieren oder Satz 7
benutzen können. Aus den Sätzen I.55, 6 und 9 ergibt sich:
Folgerung 3. Jede Abbildung D → K n , deren Koordinatenfunktionen auf
D durch Terme gegeben sind, in denen nur arithmetische Operationen und
stetige Funktionen vorkommen, ist stetig.
Nun kommen wir auf die Frage nach der Vollständigkeit von Funktionenräumen zurück.
Satz 10. Ist fk : X → K n eine Folge stetiger Abbildungen, die gleichmäßig
gegen eine Abbildung f : X → K n konvergiert, so ist f stetig.
Beweis. Ist ε > 0, so gibt es wegen der gleichmäßigen Konvergenz eine
natürliche Zahl k0 , so dass für k ≥ k0 gilt
ε
sup kfk (x) − f (x)k < .
3
x∈X
Nun sei a ∈ X. Wegen der Stetigkeit von fk0 gibt es ein δ > 0, so dass für
x ∈ Uδ (a) gilt
ε
kfk0 (x) − fk0 (a)k < .
3
Für x ∈ Uδ (a) folgt nun mit der Dreiecksungleichung
kf (x) − f (a)k ≤ kf (x) − fk0 (x)k + kfk0 (x) − fk0 (a)k + kfk0 (a) − f (a)k ≤ ε.
Es folgt die Stetigkeit von f an der Stelle a.
Der selbe Beweis liefert, dass für eine Folge stetiger Abbildungen fk :
X → Y zwischen metrischen Räumen, die bezüglich der Supremumsmetrik
gleichmäßig gegen eine Abbildung f : X → Y konvergiert, die Abbildung f
stetig ist.
Nach dem Satz ist der Raum der stetigen beschränkten Funktionen X →
n
K abgeschlossen im Raum aller beschränkten Funktionen X → K n . In
Verbindung mit Lemma 3 und Lemma 4 erhalten wir:
Folgerung 4. Der Raum der beschränkten stetigen Funktionen auf einem
metrischen Raum mit Werten in Rn oder Cn ist vollständig.
17
Die Umkehrabbildung einer bijektiven stetigen Abbildung braucht natürlich nicht stetig zu sein.
Definition 9. Eine Abbildung f : X → Y zwischen metrischen Räumen heißt Homöomorphismus, wenn sie eine stetige Umkehrabbildung besitzt.
Zwei metrische Räume heißen homöomorph, wenn es zwischen ihnen einen
Homöomorphismus gibt.
Beispiel. Es sei k . k eine Norm auf einem endlichdimensionalen Vektorraum
V und
x
f (x) =
.
1 + kxk
für x ∈ V . Dann ist
kf (x)k =
kxk
< 1,
1 + kxk
wir erhalten also eine Abbildung f : V → B = {x ∈ V | kxk < 1}. Außerdem
folgt
1
1 − kf (x)k =
.
1 + kxk
Wir können nun die Definition von f nach x auflösen. Setzen wir für y ∈ B
g(y) =
y
,
1 − kyk
so ist g die Umkehrabbildung von f . Da die Norm Lipschitz-stetig ist, sind
f und g stetig, und somit sind V und B homöomorph. ⊳
1.5
Kontraktionen
Folgender Begriff hängt mit dem der Lipschitz-Stetigkeit zusammen.
Definition 10. Eine Abbildung f : X → Y zwischen metrischen Räumen
heißt Kontraktion, wenn es eine Zahl c ∈ [0, 1[ gibt, so dass für alle u, v ∈ X
gilt
e(f (u), f (v)) ≤ c d(u, v).
Der folgende Satz zeigt die Nützlichkeit des Begriffs der Vollständigkeit.
Satz 11 (Banachscher Fixpunktsatz). Ist f : X → X eine Kontraktion von
einem nichtleeren vollständigen metrischen Raum X in sich selbst, so hat f
einen Fixpunkt, d. h. einen Punkt a ∈ X, so dass f (a) = a.
18
Ist b ebenfalls ein Fixpunkt, so gilt d(a, b) = d(f (a), f (b)) ≤ c d(a, b), also
d(a, b) = 0 und somit a = b. Es kann also nur einen Fixpunkt geben.
Die Beweisidee kennen wir schon vom Konvergenzbeweis des Heronverfahrens (vgl. Satz I.13).
Beweis. Wegen X 6= ∅ gibt es einen Punkt x0 ∈ X. Wir definieren eine Folge
xk rekursiv durch
xk+1 = f (xk ).
Wir beweisen durch vollständige Induktion nach k, dass
d(xk+1 , xk ) ≤ ck d(x1 , x0 ).
Dies gilt offenbar für k = 0, und gilt es für eine Zahl k, so folgt
d(xk+2 , xk+1 ) = d(f (xk+1 ), f (xk )) ≤ c d(xk+1 , xk ) ≤ ck+1 d(x1 , x0 ).
Für l ≥ k folgt mit der Dreiecksungleichung
d(xl , xk ) ≤
l−1
X
i=k
d(xi+1 , xi ) ≤
l−1
X
i=k
ci d(x1 , x0 ) ≤
ck
d(x1 , x0 ).
1−c
Wegen |c| < 1 konvergiert die rechte Seite für k → ∞ gegen Null, und somit
ist xk eine Cauchyfolge. Da X vollständig ist, konvergiert sie gegen einen
Punkt a. Wegen der Lipschitz-Stetigkeit von f folgt aus der Rekursionsformel
durch Grenzübergang, dass a = f (a).
1.6
Zusammenhang
Wir wollen nun den Zwischenwertsatz verallgemeinern.
Definition 11. Es sei X ein metrischer Raum und a, b Punkte von X. Ein
Weg von a nach b in X ist eine stetige Abbildung g : [0, 1] → X, so dass
g(0) = a und g(1) = b. Der Raum X heißt wegzusammenhängend6 , wenn es
für beliebige Punkte a und b einen Weg von a nach b in X gibt.
Ist ein Raum nicht wegzusammenhängend, so ist das schwer unmittelbar
nachzuweisen. Einfacher geht das mit folgendem Begriff.
Definition 12. Ein metrischer Raum X heißt unzusammenhängend, wenn
er zwei offene nichtleere Teilmengen A und B besitzt, so dass A ∪ B = X
und A ∩ B = ∅. Andernfalls heißt er zusammenhängend7 .
6
7
auch bogenzusammenhängend oder linear zusammenhängend genannt
auch Hausdorff-zusammenhängend genannt
19
Wegen Satz 2(iv) hätte man genauso gut verlangen können, dass A und
B abgeschlossen sind oder dass A offen und abgeschlossen ist.
Lemma 5. Ein metrischer Teilraum von R ist genau dann zusammenhängend, wenn er ein Intervall ist.
Beweis. Ist X ⊆ R kein Intervall, so gibt es a, b ∈ X und c ∈ R \ X, so dass
a < c < b. Die Mengen
A = ]−∞, c[ ∩ X,
B = ]c, ∞[ ∩ X
sind nach Satz 5 offen in X, es gilt a ∈ A, b ∈ B, und man sieht, dass X
unzusammenhängend ist.
Nun sei I ein Intervall. Angenommen, I = A∪B, wobei A und B disjunkt,
nicht leer und abgeschlossen im Teilraum I sind. Es sei b ein innerer Punkt
von I. Nach eventueller Umbenennung können wir annehmen, dass b ∈ B
ist, und nach eventueller Multiplikation mit −1 können wir annehmen, dass
A ∩ ]−∞, b] nicht leer ist und folglich ein Supremum a besitzt. Für jedes
ε > 0 gibt es ein Element x ∈ A mit a − ε < x ≤ a, und da A abgeschlossen
ist, folgt a ∈ A. Insbesondere folgt a < b, und für jedes ε > 0 gibt es ein
y ∈ B mit a < y < a + ε. Da B abgeschlossen ist, folgt a ∈ B, und wir haben
einen Widerspruch zur Disjunktheit von A und B.
Satz 12. Jeder wegzusammenhängende metrische Raum ist zusammenhängend.
Beweis. Angenommen, wir haben eine Zerlegung X = A ∪ B in disjunkte
nichtleere abgeschlossene Teilmengen. Dann wählen wir a ∈ A und b ∈ B.
Ist X wegzusammenhängend, so gibt es einen Weg g von a nach b, und
die Mengen g −1 (A) und g −1 (B) sind offensichtlich disjunkt und nach Satz 8
offen. Wegen 0 ∈ g −1 (A) und 1 ∈ g −1 (B) sind sie nicht leer, was Lemma 5
widerspricht.
Es gibt zusammenhängende metrische Räume, die nicht wegzusammenhängend sind.
Beispiel. Die Teilräume
n
1o
Y = (x, y) ∈ R2 x > 0, y = sin
,
x
Z = {(0, 0)}
von R2 sind offensichtlich wegzusammenhängend und somit zusammenhängend.
Wir behaupten, dass der Teilraum X = Y ∪ Z zusammenhängend ist.
Hätten wir nämlich eine Zerlegung X = A ∪ B in nichtleere disjunkte offene
20
Teilmengen, so wäre Y = (Y ∩A)∪(Y ∩B) eine Zerlegung in disjunkte offene
Teilmengen. Da Y zusammenhängend ist, muss dann einer der beiden Teile
leer sein, also Y ⊆ A oder Y ⊆ B. Das Gleiche gilt für Z, so dass nur A = Y ,
B = Z oder umgekehrt in Frage kommt. Die Menge Y ist zwar offen in X,
die Menge
Z jedoch nicht, denn der Punkt (0, 0) ist z. B. Grenzwert der Folge
1
, 0 in Y . Damit ist bewiesen, dass der Raum X zusammenhängend ist.
kπ
Er ist aber nicht wegzusammenhängend (Aufgabe 20). ⊳
Der Zwischenwertsatz verallgemeinert sich wie folgt.
Satz 13. Es sei f : X → Y eine stetige Abbildung.
(i) Ist X wegzusammenhängend, so auch f (X).
(ii) Ist X zusammenhängend, so auch f (X).
Hier betrachten wir f (X) als Teilraum von Y .
Beweis. (i) Für a, b ∈ f (X) gibt es u, v ∈ X, so dass f (u) = a und f (v) = b.
Ist X wegzusammenhängend, so gibt es einen Weg g von u nach v, und dann
ist f ◦ g nach Satz 9 ein Weg von a nach b.
(ii) Ist f (X) nicht zusammenhängend, so gibt es eine Zerlegung Y = A ∪ B
wie in der Definition. Nach Satz 5 ist A = U ∩ f (X) und B = V ∩ f (X) mit
offenen Mengen U und V von Y . Nun sind die Mengen f −1 (A) = f −1 (U )
und f −1 (B) = f −1 (V ) nach Satz 8 offen und bilden eine Zerlegung von X,
die zeigt, dass auch X nicht zusammenhängend ist.
Als Anwendung beweisen wir die Starrheit von K-analytischen Funktionen, wobei K = R oder K = C.
Satz 14. Es sei f eine K-analytische Funktion auf einer zusammenhängenden offenen Teilmenge U von K. Hat die Nullstellenmenge von f einen
Häufungspunkt in U , so ist f (x) = 0 für alle x ∈ U .
Beweis. Es sei N die Nullstellenmenge von f und A die Menge der Häufungspunkte von N . Dann ist A abgeschlossen (vgl. die Lösung von Aufgabe 9b).
Nach Voraussetzung ist A nicht leer. Laut Satz I.48 ist jeder Punkt von A
ein innerer Punkt von N und somit auch von A. Also ist A offen. Da U
zusammenhängend ist, muss A = U sein, also auch N = U .
21
1.7
Kompaktheit
Definition 13. Eine Teilmenge A eines metrischen Raumes heißt folgenkompakt, wenn jede Folge in A einen Häufungspunkt in A besitzt.
Offensichtlich ist A genau dann folgenkompakt in X, wenn A in dem
metrischen Teilraum A von X folgenkompakt ist. Im Unterschied zur Offenheit und Abgeschlossenheit hätte es also genügt, die Folgenkompaktheit als
Eigenschaft eines metrischen Raumes zu definieren. Aus Analysis I kennen
wir:
Satz 15 (Bolzano-Weierstraß). Jedes beschränkte abgeschlossene Intervall
ist folgenkompakt.
Wir wollen hier den klassischen Beweis angeben.
Beweis. Es sei eine Folge xk in dem Intervall I0 = [a, b] gegeben. Es sei m =
a+b
. Dann muss wenigstens eines der Teilintervalle [a, m] und [m, b] unendlich
2
viele Glieder der Folge enthalten. Wir bezeichnen dieses Teilintervall mit I1 .
Durch fortgesetzte Halbierung und Auswahl erhalten wir Intervalle
I0 ⊃ I1 ⊃ I2 ⊃ . . . ,
hat und unendlich viele Folgeglieder enthält. Für
so dass Il die Länge b−a
2l
jedes l können wir also ein Glied xkl ∈ Il wählen. Für l ≤ m ist xkl , xkm ∈ Il ,
also
b−a
|xkl − xkm | ≤
,
2l
und xkl ist eine Cauchyfolge. Wegen der Vollständigkeit von R hat sie einen
Grenzwert, der in der abgeschlossenen Menge I0 liegen muss.
Hier sind einige Eigenschaften folgenkompakter Mengen:
Satz 16.
(i) Jeder folgenkompakte metrische Raum ist vollständig.
(ii) Jede folgenkompakte Teilmenge in einem metrischen Raum X ist abgeschlossen in X.
Beweis. (i) Es sei xk eine Cauchy-Folge in X. Ist ε > 0 gegeben, so gibt es
ein k0 , so dass für k, l ≥ k0 gilt d(xk , xl ) < 2ε . Ist X folgenkompakt, so hat
xk einen Häufungspunkt a. Also kann man l so wählen, dass d(xl , a) < 2ε .
Mit der Dreiecksungleichung folgt d(xk , a) < ε. Da ε beliebig war, ist xk →
a (k → ∞).
(ii) Ist A folgenkompakt, so ist A nach (i) vollständig und nach Lemma 3
abgeschlossen in X.
22
Man bevorzugt einen anderen Begriff der Kompaktheit, der durch folgende Frage motiviert wird, die bei der Grundlegung der Maßtheorie auftauchte:
Frage. Kann man ein Intervall der Länge l durch Teilintervalle der Längen
l1 , l2 , . . . überdecken, so dass
l1 + l2 + . . . < l?
Definition 14. Eine Überdeckung der Menge A ist eine Menge8 U von
Mengen, deren Vereinigung A enthält, d. h. für jedes x ∈ A existiert ein
U ∈ U, so dass x ∈ U .
Beispiel. Es gilt
[−1, 1] = [−1, 0] ∪
1
2
, 1 ∪ 31 , 12 ∪ 41 , 31 ∪ . . . ,
die Intervalle auf der rechten Seite bilden also eine Überdeckung des Intervalls
auf der Linken. ⊳
Beispiel. Es gilt
]0, 1[ = 12 , 1 ∪ 31 , 1 ∪ 41 , 1 ∪ . . . ,
und wir erhalten eine Überdeckung von ]0, 1[ durch offene Intervalle. ⊳
Beispiel. Wir nummerieren die Elemente der abzählbaren Menge A = Q ∩
[0, 1] als r1 , r2 , . . . und wählen für jedes k ein offenes Intervall Ik der Länge
2−k−1 , so dass rk ∈ Ik . Dann bilden die Ik eine Überdeckung von A, und
die Summe ihrer Längen ist 21 . Sollten sie auch eine Überdeckung von [0, 1]
bilden, so hätten wir die verwirrende Antwort Ja“ auf die obige Frage. ⊳
”
Wenn man aus jeder Überdeckung eine endliche Teilüberdeckung auswählen könnte, so könnte man leicht zeigen, dass die Antwort Nein“ lautet. Das
”
ist aber bei beliebigen Überdeckungen nicht zu erwarten, wie das erste Beispiel zeigt. Wir betrachten daher offene Überdeckungen, d. h. Überdeckungen
durch offene Mengen.
Definition 15. Eine Teilmenge A eines metrischen Raumes X heißt kompakt, wenn man aus jeder offenen Überdeckung von A eine Teilfamilie auswählen kann, die immer noch eine Überdeckung von A ist.
Wegen Satz 5 ist A genau dann kompakt im metrischen Raum X, wenn
A kompakt im metrischen Teilraum A von X ist. Es hätte also genügt, den
Begriff der Kompaktheit nur für metrische Räume einzuführen.
Hier ist der erste Hinweis, dass die beiden Kompaktheitsbegriffe zusammenhängen:
8
Zur Vermeidung der Phrase Menge von Mengen sagt man oft Familie von Mengen.
23
Satz 17. Ist A kompakt, so ist A beschränkt und folgenkompakt.
Beweis. Ist a ∈ A, so bilden die Mengen Ur (a) mit r > 0 eine offene Überdeckung von A. Da A kompakt ist, gibt es r1 , . . . , rs , so dass
Ur1 (a) ∪ . . . ∪ Urs (a) ⊇ A,
und ist r = max{r1 , . . . , rs }, so folgt d(x, a) < r für alle x ∈ A.
Angenommen, es gibt eine Folge xk in A ohne Häufungspunkt in A. Jeder
Punkt a von A hat also eine Umgebung Ua , die nur endlich viele Glieder der
Folge enthält. Die Mengen Ua bilden eine offene Überdeckung von A, und
wegen der Kompaktheit von A können wir endlich viele Punkte a1 , . . . , as
wählen, so dass
Ua1 ∪ . . . ∪ Uas ⊇ A.
Dann enthält A nur endlich viele Folgeglieder – Widerspruch.
Der Beweis von (ii) hätte nicht funktioniert, wenn wir in der Kompaktheitsdefinition nur abzählbare Überdeckungen betrachtet hätten.
Eine Menge A in X ist offenbar genau dann beschränkt, wenn ihr Durchmesser
diam A = sup{d(x, y) | x, y ∈ A}
endlich ist.
Das dritte Beispiel oben zeigt, dass offene Intervalle nicht kompakt sind.
Satz 18. (i) Eine kompakte Teilmenge eines metrischen Raumes ist abgeschlossen.
(ii) Eine abgeschlossene Teilmenge eines kompakten metrischen Raumes X
ist kompakt.
Beweis. Ist die Teilmenge A kompakt, so ist A nach Satz 17 folgenkompakt
und nach Satz 16(ii) abgeschlossen in X.
Nun sei A abgeschlossen und U eine offene Überdeckung von A. Dann
ist U ∪ {Ac } eine offene Überdeckung von X. Wegen der Kompaktheit von
X gibt es davon eine Teilmenge {U1 , . . . , Us , Ac }, die X überdeckt, wobei
Ui 6= Ac . Die Familie {U1 , . . . , Us } ist dann eine Teilfamilie von U, die A
überdeckt.
Bisher kennen wir noch keine kompakte Menge.
Satz 19 (Heine-Borel). Eine Teilmenge von Rn ist genau dann kompakt
bezüglich einer der Normen k . kp , wenn sie abgeschlossen und beschränkt ist.
24
Der Beweis ähnelt dem des Satzes von Bolzano-Weierstraß.
Beweis. Jede kompakte Teilmenge von Rn ist nach Satz 17 beschränkt und
nach Satz 18 abgeschlossen.
Umgekehrt sei A eine beschränkte abgeschlossene Teilmenge von Rn .
Dann gibt es eine Zahl r > 0, so dass A ⊆ [−r, r]n . Wegen Satz 18 genügt es
zu zeigen, dass A0 = [−r, r]n kompakt ist.
Angenommen, es gibt eine Überdeckung U von A0 , so dass A0 von keiner endlichen Teilfamilie von U überdeckt wird. Wir werden abgeschlossene
Teilmengen A0 ⊃ A1 ⊃ A2 ⊃ . . . finden, von denen keine durch eine endliche
Teilfamilie von U überdeckt wird, wobei diam Ak = 22rk bezüglich k .k∞ . n
Die Menge A0 ist die Vereinigung von 2n Translaten der Menge − 2r , 2r .
Wenn jede dieser Mengen durch eine endliche Teilfamilie von U überdeckt
würde, wäre das auch bei A0 der Fall im Widerspruch zur Annahme. Also
wird wenigstens eine dieser Teilmengen nicht von einer Teilfamilie von U
überdeckt. Wir nennen diese Teilmenge A1 . Verfahren wir mit A1 ebenso,
erhalten wir eine Teilmenge A2 usw., und es ist diam Ak = 22rk .
Wählen wir Punkte ak ∈ Ak , so gilt für k ≤ l
d(ak , al ) ≤ diam Ak =
2r
,
2k
also ist ak eine Cauchy-Folge und hat nach Folerung 2 einen Grenzwert a.
Für jedes k liegen alle al mit l ≥ k in der abgeschlossenen Menge Ak , also
ist a ∈ Ak . Insbesondere ist a ∈ A0 , also gibt es ein U ∈ U, so dass a ∈ U .
Wegen der Offenheit von U gibt es ein ε > 0, so dass Uε (a) ⊆ U , und für
2r
< ε folgt Ak ⊆ U . Damit wird Ak von der endlichen Teilfamilie {U } von
2k
U überdeckt – Widerspruch.
In Verallgemeinerung des Satzes von Heine-Borel gilt folgendes Kompaktheitskriterium.
Satz 20. Ein metrischer Raum X ist genau dann kompakt, wenn er folgende
Eigenschaften hat:
(i) X ist vollständig.
(ii) Für jedes ε > 0 gibt es ein endliches ε-Netz in X, d. h. eine endliche
Teilmenge {x1 , . . . , xs } ⊆ X, so dass
Uε (x1 ) ∪ . . . ∪ Uε (xs ) = X.
Der Beweis folgt dem Schema des vorigen Beweises:
25
Beweis. Angenommen, X ist kompakt. Dann folgt (i) aus Folgerung 16 und (ii) aus der
Definition, angewendet auf die offene Überdeckung durch die Mengen Uε (a).
Umgekehrt seien (i) und (ii) erfüllt. Da es in X ein 1-Netz gibt, ist X beschränkt.
Es sei diam X = 2r. Angenommen, U ist eine offene Überdeckung von X, aber X wird
durch keine endliche Teilfamilie von U überdeckt. Wir werden abgeschlossene Teilmengen
A1 ⊇ A2 ⊇ . . . mit der Eigenschaft diam Ak ≤ 2r
k konstruieren, von denen keine durch
eine endliche Teilfamilie von U überdeckt wird.
Wir setzen A1 = X. Dies hat die geforderten Eigenschaften. Haben wir A1 , . . . , Ak−1
bereits gefunden, so wählen wir ein kr -Netz {x1 , . . . , xs }. Die Vereinigung der Mengen
Ur/k (xi ) ∩ Ak−1 = x ∈ Ak−1 | d(x, xi ) ≤ kr
mit i von 1 bis s ist Ak−1 . Ließe sich jede von ihnen durch eine endliche Teilfamilie
von U überdecken, so wäre dies auch für Ak−1 der Fall im Widerspruch zur Induktionsvoraussetzung. Also lässt sich eine von ihnen nicht durch eine endliche Teilfamilie
überdecken, und diese nennen wir Ak . Nach Konstruktion ist Ak abgeschlossen, und
diam Ak ≤ diam Ur/k (xi ) ≤ 2r
k .
Nun wählen wir Punkte ak ∈ Ak . Für k ≤ l gilt
d(ak , al ) ≤ diam Ak ≤
2r
,
k
also bilden die ak eine Cauchyfolge, die wegen (i) einen Grenzwert a besitzt. Da alle al
mit l ≥ k in der abgeschlossenen Menge Ak liegen, ist a ∈ Ak , wobei k beleibig ist.
Da U eine Überdeckung ist, gibt es eine Menge U ∈ U , so dass a ∈ U , und da U offen
ist, gibt es ein ε > 0, so dass Uε (a) ⊆ U . Für 2d
k < ε ist Ak ⊂ U , d. h. Ak lässt sich durch
die endliche Teilfamilie {U } überdecken – Widerspruch.
Der Satz gilt nicht für unendlichdimensionale Vektorräume. So hat z. B.
im Raum der beschränkten Zahlenfolgen x = (x0 , x1 , x2 , . . . ) die Folge der
Punkte
(1, 0, 0, 0, . . . ),
(0, 1, 0, 0, . . . ),
(0, 0, 1, 0, . . . ),
...
keinen Häufungspunkt, obwohl sie bezüglich der Supremumsnorm beschränkt
ist.
Für metrische Räume sind Kompaktheit und Folgenkompaktheit äquivalent:
Satz 21. Jeder folgenkompakte metrische Raum ist kompakt.
Beweis. Ist X folgenkompakt, so ist X nach Satz 16(i) vollständig. Angenommen, X hat für ein gewisses ε > 0 kein ε-Netz. Wir konstruieren eine
Folge von Punkten xk , so dass für alle k und l gilt d(xk , xl ) ≥ ε.
Dazu wählen wir x1 beliebig. Sind bereits x1 , . . . , xk mit der angegebenen
Eigenschaft gefunden, so können sie kein ε-Netz bilden, also ist
Uε (x1 ) ∪ · · · ∪ Uε (xk )
26
eine echte Teilmenge von X, und wir können xk+1 in ihrem Komplement
wählen.
In der 2ε -Umgebung eines beliebigen Punktes a kann höchstens ein Glied
der Folge liegen, also ist a kein Häufungspunkt. Dies widerspricht der Folgenkompaktheit. Somit war unsere Annahme falsch, und X ist nach Satz 20
kompakt.
Nun kommen wir zu den Anwendungen der Kompaktheit.
Satz 22. Ist X ein metrischer Raum, A eine kompakte Teilmenge von X
und f : X → Y eine stetige Abbildung, so ist f (A) kompakt.
Beweis. Es sei U eine Überdeckung von f (A) durch offene Mengen in Y .
Nach Satz 8(ii) ist {f −1 (U ) | U ∈ U} eine offene Überdeckung von A. Wegen
der Kompaktheit von A gibt es eine endliche Teilfamilie {U1 , . . . , Us } ⊆ U,
so dass
A ⊆ f −1 (U1 ) ∪ f −1 (Us ).
Es folgt f (A) ⊆ U1 ∪ · · · ∪ Us .
Folgerung 5. Ist X ein kompakter metrischer Raum und f : X → R eine
stetige Funktion, so besitzt f ein Maximum und ein Minimum, d. h. es gibt
a, b ∈ X, so dass f (a) ≤ f (x) ≤ f (b) für alle x ∈ X.
Beweis. Nach Satz 22 und Satz 19 ist f (X) beschränkt und abgeschlossen
in R. Also existieren sup f = sup f (X) und inf f = inf f (X), und weil diese
Zahlen Häufungspunkte von f (X) sind (vgl. Aufgabe 1 der ersten Klausur),
gehören sie zu f (X).
Folgerung 6. Ist f : X → Y eine bijektive stetige Abbildung und X kompakt,
so ist f ein Homöomorphismus.
Beweis. Ist A eine offene Teilmenge von X, so ist A nach Satz 18 kompakt,
und nach Satz 22 ist f (A) kompakt. Mit Satz 2(iv) folgt, dass jede offene
Teilmenge von X ein offenes Bild unter f , also ein offenes Urbild unter f −1
hat. Somit ist f −1 stetig.
Definition 16. Es sei X ein metrischer Raum. Für Punkte x und Teilmengen A und B von X definieren wir
d(x, B) = d(B, x) = inf{d(x, y) | y ∈ B},
d(A, B) = inf{d(x, y) | x ∈ A, y ∈ B}.
Beispiel. Für die Teilmengen A = N \ {0} und B = {k − k1 | k ∈ A} von R
gilt d(A, B) = 0, obwohl sie abgeschlossen und disjunkt sind. ⊳
27
Satz 23. Es sei X ein metrischer Raum.
(i) Für jede Teilmenge B ist die durch f (x) = d(x, B) definierte Funktion
f : X → R Lipschitz-stetig.
(ii) Ist A abgeschlossen, B kompakt und A ∩ B = ∅, so ist d(A, B) > 0.
Beweis. (i) Für alle x, y, z ∈ X gilt nach der Dreiecksungleichung
d(x, z) ≤ d(x, y) + d(y, z).
Bilden wir das Infimum über alle z ∈ B, so folgt
d(x, B) ≤ d(x, y) + d(y, B).
Durch Vertauschung von x und y ergibt sich eine weitere Ungleichung. Fassen
wir beide zusammen, so erhalten wir
|d(x, B) − d(y, B)| ≤ d(x, y).
(ii) Wegen
{d(x, y) | x ∈ A, y ∈ B} =
[
y∈B
{d(x, y) | x ∈ A}
gilt d(A, B) = inf{d(A, y) | y ∈ B}. Ist B kompakt, so gibt es nach Folgerung 5 ein b ∈ B, so dass d(A, B) = d(A, b). Ist A abgeschlossen, so gibt es
wegen b ∈
/ A ein ε > 0, so dass Uε (b) ∩ A = ∅. Also gilt d(A, b) ≥ ε und
somit d(A, B) ≥ ε.
Satz 24. Es sei K = R oder K = C.
(i) Alle Normen auf einem K-Vektorraum sind äquivalent.
(ii) Jede K-lineare Abbildung zwischen K-Vektorräumen ist Lipschitz-stetig.
Beweis. (i) Die Menge S = {x ∈ Rn | kxk∞ = 1} ist als Urbild einer abgeschlossenen Menge abgeschlossen und offensichtlich beschränkt, also nach
Satz 19 kompakt. Ist k . k′ eine beliebige Norm auf Rn , so finden wir wie in
Lemma 2 ein c, so dass für alle x ∈ V gilt
kxk′ ≤ ckxk∞ .
Die Norm k . k′ ist also bezüglich k . k∞ Lipschitz-stetig, und ihre Einschränkung auf S hat nach Satz 5 ein Minimum ε, welches nach Eigenschaft (iii)
der Norm positiv ist. Ist x 6= 0 und t = kxk∞ , so ist t−1 x ∈ S, also
kxk′ = tkt−1 xk′ ≥ tε,
28
und mit c′ =
1
ε
folgt
kxk∞ ≤ c′ kxk′ .
Dies gilt offensichtlich auch für x = 0, also ist jede Norm auf Rn äquivalent
zu k . k∞ . Da jeder endlichdimensionale R-Vektorraum V isomorph zu Rn ist,
sind somit sind alle Normen auf V äquivalent. Das Selbe gilt auch für einen
beliebigen C-Vektorraum W , denn jede Norm auf W ist auch eine Norm
bezüglich der unterliegenden Struktur9 eines R-Vektorraums.
(ii) Es sei f : K n → K m K-linear. Dann gibt es Elemente aij ∈ K, so dass
die Koordinatenfunktionen von f gegeben sind durch
fi (x) =
n
X
aij xj .
j=1
Nun gilt
kf (x)k1 ≤ kxk∞
m X
n
X
i=1 j=1
|aij |,
also ist f Lipschitz-stetig bezüglich gewisser Normen. Mit Teil (i) folgt die
Behauptung für beliebige Normen auf beliebigen endlichdimensionalen KVektorräumen.
Definition 17. Man nennt die Lipschitz-Konstante
kf (x)k′
kxk
x∈V \{0}
kf k = sup
die Norm der linearen Abbildung f : V → V ′ bezüglich der gegebenen Normen auf V und V ′ .
Auch der Begriff der gleichmäßigen Stetigkeit verallgemeinert sich auf
metrische Räume.
Definition 18. Eine Abbildung f : X → Y zwischen metrischen Räumen
heißt gleichmäßig stetig, wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für
alle u, v ∈ X gilt
d(u, v) < δ
=⇒
e(f (u), f (v)) < ε.
Zwei Metriken d und d∗ auf einer Menge heißen äquivalent, wenn die identischen Abbildungen (X, d) → (X, d∗ ) und (X, d∗ ) → (X, d) gleichmäßig stetig
sind.
9
Diese Struktur besteht aus der selben Addition und aus der Skalarmultiplikation lediglich mit Elementen des Teilkörpers R.
29
Offensichtlich bildet eine gleichmäßig stetige Abbildung konvergente Folgen auf konvergente Folgen und Cauchy-Folgen auf Cauchy-Folgen ab. Diese
Begriffe ändern sich also nicht, wenn man zu einer äquivalenten Metrik übergeht. Aufgabe 7 liefert ein Beispiel äquivalenter Metriken.
Beispiel. Sind X1 , . . . , Xn metrische Räume, so wird eine Metrik auf X1 ×
. . . × Xn durch
d(u, v) = d1 (u1 , v1 ), . . . , dn (un , vn ) gegeben, wobei k . k eine beliebige Norm auf Rn ist. Äquivalente Normen
ergeben äquivalente Metriken. ⊳
Auch Satz I.65 verallgemeinert sich.
Satz 25. Ist X kompakt und f : X → Y stetig, so ist f gleichmäßig stetig.
Beweis. Es sei ε > 0 gegeben. Wegen der Stetigkeit gibt es für jedes a ∈ X
ein δa > 0, so dass für x ∈ U2δa (a) gilt d(f (x), f (a)) < 2ε . Da X kompakt ist,
gibt es a1 , . . . , as ∈ X, so dass
Uδa1 (a1 ) ∪ · · · ∪ Uδas (as ) = X.
Wir setzen δ = min{δa1 , . . . , δas }. Sind nun u, v ∈ X mit d(u, v) < δ, so gibt
es ein i mit u ∈ Uδai (ai ), also v ∈ U2δai (ai ), und somit
e(f (u), f (v)) ≤ e(f (u), f (ai )) + e(f (ai ), f (v)) <
2
2.1
ε ε
+ = ε.
2 2
Differentiation und Integration vektorwertiger Funktionen
Definition und Eigenschaften
Der Begriff der Ableitung verallgemeinert sich auf Funktionen mit Werten in
einem K Vektorraum V , wobei K = R oder K = C.
Definition 19. Es sei D ⊂ K und a ∈ D ein Häufungspunkt von D. Eine
Funktion f : D → V heißt differenzierbar an der Stelle a, wenn der Grenzwert
1
f ′ (a) = lim
(f (x) − f (a))
x→a x − a
existiert.
30
Bisher kennen wir nur das Integral von Funktionen f : [a, b] → K. Dort
haben wir für Teilungen T = {x0 , . . . , xm } von [a, b] und zugehörige Mengen
Z = {z1 , . . . , zm } von Stützstellen für T betrachtet, d. h.
a = x0 ≤ z1 ≤ x1 ≤ z2 ≤ x2 ≤ . . . ≤ zm ≤ xm = b.
Unter der Feinheit von T verstehen wir max xk − xk−1 | k ∈ {1, . . . , m} .
Die Riemannsche Summe
m
X
S(f, T, Z) =
(xk − xk−1 )f (zk )
k=1
ergibt auch für vektorwertige Funktionen einen Sinn, und in Anlehnung an
Definition I.58 setzen wir fest:
Definition 20. Es sei V ein endlichdimensionaler Vektorraum über K und
f : [a, b] → V . Ein Element I ∈ V heißt Integral der Funktion f über das
Intervall [a, b], wenn es für jedes ε > 0 ein δ > 0 gibt, so dass für jede
Teilung T von [a, b] mit einer Feinheit kleiner als δ und für jede Menge von
Stützstellen Z für T gilt
kS(f, T, Z) − Ik < ε.
Die Funktion f heißt integrierbar, wenn ein Integral existiert.
Wenn f integrierbar
R b ist, so gibt es offenbar nur ein Integral I, und wir
bezeichnen es mit a f (x) dx. Am einfachsten, wenn auch nicht besonders
elegant, ist es, alles auf den skalaren Fall zurückzuführen.
Lemma 6. (i) Eine Funktion f : D → K n ist genau dann differenzierbar
an der Stelle a, wenn ihre Koordinatenfunktionen f1 , . . . , fn : D → K
an der Stelle a differenzierbar sind, und dann ist
f ′ (a) = f1′ (a), . . . , fn′ (a) .
(ii) Eine Funktion f : [a, b] → K n ist genau dann integrierbar, wenn ihre
Koordinatenfunktionen integrierbar sind, und dann ist
Z b
Z b
Z b
f (x) dx =
f1 (x) dx .
f1 (x) dx, . . . ,
a
a
a
Beweis. Nach den Definitionen gilt
1
fn (x) − fn (a)
f1 (x) − f1 (a)
(f (x) − f (a)) =
,...,
,
x−a
x−a
x−a
S(f, T, Z) = S(f1 , T, Z), . . . , S(fn , T, Z) ,
und die Behauptungen folgen aus den früheren Bemerkungen über Grenzwerte vektorwertiger Funktionen.
31
Die Sätze I.67, I.82, I.84 und I.86 verallgemeinern sich ohne Schwierigkeiten.
Satz 26. (i) Sind f , g : D → V an der Stelle a differenzierbar und ist
c ∈ K, so sind f + g und c · f an der Stelle a differenzierbar, und
(f + g)′ (a) = f ′ (a) + g ′ (a),
(cf )′ (a) = cf ′ (a).
(ii) Jede stetige Funktion auf einem kompakten Intervall ist integrierbar.
(iii) Ist a ≤ b ≤ c, so ist eine Funktion f : [a, c] → V genau dann integrierbar, wenn f |[a,b] und f |[b,c] integrierbar sind, und dann gilt
Z c
Z b
Z c
f (x) dx.
f (x) dx +
f (x) dx =
b
a
a
(iv) Sind f , g : [a, b] → V integrierbar und l : V → W eine lineare Abbildung, so sind auch f + g, l ◦ f und kf k integrierbar, und es gilt
Z b
Z b
Z b
g(x) dx,
f (x) dx +
(f (x) + g(x)) dx =
a
a
a
Z b
Z b
l(f (x)) dx = l
f (x) dx ,
a
a
Z b
Z b
≤
kf (x)k dx.
f
(x)
dx
a
a
(v) Ist f ′ (x) = 0 für alle x ∈ [a, b], so ist f konstant auf [a, b].
Beweis. Teil (ii) folgt mit Lemma 6 aus der Tatsache, dass die Koordinatenfunktionen einer gleichmäßig stetigen Funktion gleichmäßig stetig sind. Beim
Beweis der Integrierbarkeit von kf k in Teil (iii) benutzt man, dass
sup kf k1 − inf kf k1 ≤ (sup f1 − inf f1 ) + . . . + (sup fn − inf fn ),
wobei die Funktionen jeweils auf die Teilintervalle von T eingeschränkt werden, so dass
S(kf k1 , T ) − S(kf k1 , T ) ≤
n
X
j=1
S(fj , T ) − S(fj , Z) .
Aussage (v) folgt mit Lemma 6 aus Folgerung I.34, obwohl der Mittelwertsatz
für n > 1 nicht gilt. Ansonsten sind die Beweise identisch mit den früheren.
32
Rb
Auf Grund von Satz 26(iii) können wir a f (x) dx auch wieder ohne die
Voraussetzung a ≤ b definieren. Der Hauptsatz der Infinitesimalrechnung hat
ebenfalls eine vektorwertige Version:
Satz 27. Ist f : [a, b] → V stetig differenzierbar, so gilt
Z b
f ′ (x) dx = f (b) − f (a).
a
Der Beweis der Sätze I.89, I.90 überträgt sich wortwörtlich.
2.2
Variation
Die Bewegung eines Punktes in einem Raum X während eines Zeitintervalls
I kann man durch eine Abbildung f : I → X beschreiben. Wir interessieren
uns für die Länge des zurückgelegten Weges.
Definition 21. Ist I ein Intervall, X ein metrischer Raum und f : I → X,
so setzen wir für jede Teilung T = {t0 , . . . , tm } eines Teilintervalls [a, b] ⊆ I
V (f, T ) =
m
X
d(f (xk−1 ), f (xk )).
k=1
Wir nennen
Varba (f ) = sup{V (f, T ) | T ist Teilung von [a, b].}
die Variation von f über [a, b]. Wir sagen, dass f von beschränkter Variation
ist, wenn Varba (f ) < ∞ für alle a ≤ b in I.
Beispiel. Die Abbildung f : [0, ∞[ → C sei durch
(
t · ei/t , wenn t 6= 0,
f (t) =
0
wenn t = 0
gegeben. Nach dem Einschließungskriterium ist lim f (t) = 0, also ist f stetig.
t→0
Es gilt
k−1 (−1)k
1
(−1)
1
2
1
f
=
= 1 +
−f
−
>
,
kπ
(k − 1)π
kπ
(k − 1)π
kπ (k − 1)π
kπ
also
m
1
1
2X1
1
,
,..., ,1
>
,
V f, 0,
mπ (m − 1)π
π
π k=2 k
und wegen der Divergenz der harmonischen Reihe ist Var10 (f ) = ∞.
33
⊳
Satz 28. Es sei X ein metrischer Raum, I ein Intervall und f : I → X.
(i) Sind I und I ′ kompakte Intervalle und g : I ′ → I monoton und bijektiv,
so ist
g(b)
Varba (f ◦ g) = Varg(a) f.
(ii) Für alle a, b, c ∈ I, wobei a ≤ b ≤ c ist, gilt
Varba f + Varcb f = Varca f.
(iii) Ist X = V ein K-Vektorraum, so gilt für f , g : I → V und c ∈ K
Varba (f + g) ≤ Varba (f ) + Varba (g),
Varba (c · f ) = |c| Varba (f ).
(iv) Ist X = K n , so ist f genau dann von beschränkter Variation, wenn
alle Koordinatenfunktionen fj von beschränkter Variation sind.
Beweis. (i) Ist T eine Teilung von [g(a), g(b)], so ist T ′ = g −1 (T ) eine Teilung von [a, b], und ist T ′ eine Teilung von [a, b], so ist T = g(T ′ ) eine
von [g(a), g(b)]. In beiden Fällen gilt
V (f ◦ g, T ′ ) = V (f, T ).
Wir haben also das Supremum der selben Menge zu bilden.
(ii) Sind T1 und T2 Teilungen von [a, b] bzw. [b, c], so ist T = T1 ∪ T2 eine
Teilung von [a, c], und
V (f, T1 ) + V (f, T2 ) = V (f, T ).
Nun folgt die Behauptung ähnlich wie bei Satz I.84.
(iii) Laut Dreiecksungleichung und Eigenschaft (i) der Norm gilt
V (f + g, T ) ≤ V (f, T ) + V (g, T ),
V (cf, T ) = |c|V (f, T ).
(iv) Ist f bezüglich einer Norm auf K n von beschränkter Variation, so auch
bezüglich jeder äquivalenten Norm. Im Falle k . k1 ist
V (f, T ) = V (f1 , T ) + . . . + V (fn , T ),
und die linke Seite ist genau dann unabhängig von T beschränkt, wenn es
jeder Summand auf der rechten Seite ist.
Wie schon bei Satz I.84 bleibt die Behauptung von Satz 28(ii) ohne die
Voraussetzung a ≤ b ≤ c gültig, wenn wir für a ≥ b definieren Varba (f ) =
− Varab (f ).
34
Definition 22. Es sei X ein metrischer Raum.
(i) Zwei auf Intervallen definierte stetige Abbildungen f1 : I1 → X und f2 :
I2 → X heißen äquivalent, wenn es eine monotone bijektive Abbildung
g : I1 → I2 gibt, so dass f1 = f2 ◦ g.
(ii) Unter einer Kurve C in X verstehen wir eine Äquivalenzklasse von
solchen Abbildungen, und jeden Repräsentanten nennen wir eine Parametrisierung der Kurve.
(iii) Wird eine Kurve C durch eine Abbildung f : [a, b] → X parametrisiert,
so nennen wir Varba (f ) die Länge von C. Eine Kurve von endlicher
Länge nennt man rektifizierbar.
Die beschriebene Relation ist tatsächlich eine Äquivalenzrelation. Man
beachte, dass Abbildungen g wie in (i) nach Satz I.57 stetig sind. Ist eine
Parametrisierung von C auf einem kompakten Intervall definiert, so nach
Satz 22 auch jede andere Parametrisierung. Satz 28(i) zeigt, dass die Länge
einer Kurve nicht von der Parametrisierung abhängt.
Satz 29. Ist V ein endlichdimensionaler Vektorraum und f : [a, b] → V
stetig differenzierbar, so gilt
Z b
b
kf ′ (t)k dt,
Vara (f ) =
a
wobei auf beiden Seiten die selbe Norm zu benutzen ist.
Beweis. Es sei ε > 0. Da f ′ nach Satz 25 gleichmäßig stetig ist, gibt es ein
ε
δ1 > 0, so dass für u, v ∈ [a, b] mit |u − v| < δ1 gilt kf ′ (u) − f ′ (v)k < 2(b−a)
.
Nun sei T = {t0 , . . . , tm } eine Teilung von [a, b] mit einer Feinheit kleiner
als δ1 und dazu Z = {z1 , . . . , zm } eine Menge von Stützpunkten. Nach Satz 27
gilt
Z
′
f (tk ) − f (tk−1 ) − (tk − tk−1 )f (zk ) =
tk
tk−1
(f ′ (t) − f ′ (zk )) dt.
Mit der Dreiecksungleichung und Satz 26(iv) folgt
kf (tk ) − f (tk−1 )k − (tk − tk−1 )kf ′ (zk )k
≤ kf (tk ) − f (tk−1 ) − (tk − tk−1 )f ′ (zk )k
Z tk
tk − tk−1
kf ′ (t) − f ′ (zk )k dt ≤ ε ·
≤
.
2(b − a)
tk−1
35
Durch Summation ergibt sich
V (f, T ) − S(kf ′ k, T, Z) ≤ ε .
2
Nach Definition des Integrals gibt es ein δ2 > 0, so dass
Z b
ε
′
< ,
S(kf ′ k, T, Z) −
kf
(x)k
dx
2
a
wenn die Feinheit von T kleiner als δ2 ist. Ist sie kleiner als δ = min{δ1 , δ2 },
so folgt mit der Dreiecksungleichung
Z b
′
< ε.
V (f, T ) −
kf
(x)k
dx
a
Ist T ′ eine beliebige Teilung, so gibt es eine Verfeinerung T ⊇ T ′ mit einer
Feinheit kleiner als δ, und V (f, T ) ≥ V (f, T ′ ). Also ist Varba (f ) gleich dem
Supremum über alle Teilungen mit einer Feinheit kleiner als δ, und es folgt
Z b
b
′
Vara (f ) −
≤ ε.
kf
(x)k
dx
a
Da ε beliebig war, folgt die Behauptung.
Man beachte, dass eine Funktion von beschränkter Variation nicht stetig
zu sein braucht.
Satz 30. Es sei I ein Intervall. Eine Funktion f : I → R ist genau dann
von beschränkter Variation, wenn es eine monoton wachsende Funktion g
und eine monoton fallende Funktion h auf I gibt, so dass f = g + h.
Beweis. Ist g monoton wachsend und h monoton fallend, so gilt offenbar
Varba (g) = g(b) − g(a),
Varba (h) = h(a) − h(b),
und nach Satz 28(iii) ist g + h von beschränkter Variation.
Ist umgekehrt f von beschränkter Variation und a ∈ I, so ist
g(t) = Varta (f )
monoton wachsend, denn für s ≤ t in I gilt nach Satz 28(ii)
g(t) − g(s) = Varts (f ) ≥ 0.
Genauer gilt
Varts (f ) ≥ V (f, {s, t}) = |f (t) − f (s)| ≥ f (t) − f (s).
Setzen wir also h = f − g, so folgt h(s) ≥ h(t).
36
Diese Idee ist auch für rektifizierbare Kurven C in beliebigen metrischen Räumen
X von Nutzen. Ist f : I → X eine Parametrisierung und a ∈ I, so ist g(t) = Varta (f )
monoton wachsend. Gilt für zwei Zahlen u, v ∈ I die Gleichheit g(u) = g(v), so gilt
auch f (u) = f (v). Somit gibt es eine Abbildung h : J → X, so dass h ◦ g = f , wobei
J = g(I). Man nennt h eine natürliche Parametrisierung von C, weil für beliebige s, t ∈ J
gilt Varts (h) = t − s. Ist h̃ : J˜ eine weitere natürliche Parametrisierung, so gibt es Zahlen
˜
c ∈ {1, −1} und d ∈ R, so dass h̃(s) = h(cs + d) für alle s ∈ J.
2.3
Parameterabhängige Integrale I
Wenn eine Funktion f von vielen Variablen abhängt, so hält man oft einige
Variablen fest und betrachtet f nur als Funktion der übrigen Variablen. Die
festgehaltenen Variablen, im Folgenden mit t bezeichnet, nennt man Parameter.
Im Folgenden sei T ein metrischer Raum, [a, b] ein kompaktes Intervall
und V ein endlichdimensionaler Vektorraum über R oder C. Wir wollen wissen, welche Bedingungen wir an eine Funktion f : [a, b] × T → V stellen
müssen, damit durch
Z
b
f (x, t) dx
I(t) =
a
eine stetige Funktion I auf T definiert wird. Wir setzen
F (t)(x) = f (x, t),
d. h. der Wert F (t) der Funktion F an der Stelle t ist seinerseits eine Funktion10 auf [a, b] mit Werten in V . Natürlich muss letztere Funktion auf [a, b]
integrierbar sein.
Satz 31. Es sei F eine Abbildung von T in den Raum der integrierbaren
Funktionen [a, b] → V . Ist F an einer Stelle u ∈ T stetig bezüglich der
Supremumsnorm, so ist die oben definierte Funktion I stetig an der Stelle u.
Beweis. Aus der Stetigkeit von F an der Stelle u folgt, dass es für jedes
ε > 0 ein δ > 0 gibt, so dass für alle t ∈ T mit der Eigenschaft d(t, u) < δ
ε
gilt kF (t) − F (u)k < b−a
, d. h.
|f (x, t) − f (x, u)| <
ε
b−a
für alle x ∈ [a, b]. Nach Satz 26(iv) ist
Z b
(f (x, t) − f (x, u)) dx,
I(t) − I(u) =
a
10
Dies hängt mit der Gleichmächtigkeit V X×T ∼
= (V X )T aus Aufgabe I.10* zusammen.
37
und für d(t, u) < δ folgt
kI(t) − I(u)k ≤
Z
b
a
kf (x, t) − f (x, u)k dx < ε.
Man kann die Stetigkeit von I an der Stelle u auch durch
I(t) → I(u) (t → u)
ausdrücken. Wir fragen nun nach der Existenz dieses Grenzwertes, wenn
I(u) noch gar nicht definiert ist. Statt des Parameters t betrachten wir der
Einfachheit halber einen Parameter k ∈ N.
Satz 32. Konvergiert die Folge von integrierbaren Funktionen fk : [a, b] → V
gleichmäßig gegen eine Funktion f : [a, b] → V , so ist auch f integrierbar,
und
Z b
Z b
lim
fk (x) dx =
f (x) dx.
k→∞
a
a
Beweis. Wir bezeichnen das Integral auf der linken Seite mit Ik . Da die
Folge fk eine Cauchy-Folge bezüglich der Supremumsnorm ist, gibt es für
jedes ε > 0 ein k0 , so dass für k ≥ k0 und l ≥ k0 und alle x ∈ [a, b] gilt
kfk (x) − fl (x)k <
ε
,
b−a
und wie im vorigen Beweis folgt kIk − Il k < ε. Die Folge Ik ist also auch eine
Cauchy-Folge und hat wegen der Vollständigkeit von V einen Grenzwert I.
Außerdem konvergiert nach Voraussetzung fk gleichmäßig gegen f . Es gibt
also für jedes ε > 0 ein k, so dass
ε
ε
kfk (x) − f (x)k <
kIk − Ik < ,
3
3(b − a)
für alle x ∈ [a, b]. Daraus folgt, dass für alle Teilungen T von [a, b] und alle
zugehörigen Mengen Z von Stützstellen gilt
ε
kS(fk , T, Z) − S(f, T, Z)k < .
3
Laut Definition von Ik gibt es schließlich ein δ > 0, so dass
ε
kS(fk , T, Z) − Ik k < ,
3
falls T eine Feinheit kleiner als δ hat. Mit der Dreiecksungleichung erhalten
wir für solche Teilungen T
ε ε ε
kS(f, T, Z) − Ik < + + = ε.
3 3 3
38
Da ε beliebig war, folgt die Integrierbarkeit von f und
Z b
f (x) dx = I.
a
Damit ist alles bewiesen.
Beispiel. Die durch
(
g(x) =
1
,
q
0
falls x = pq mit teilerfremden p, q ∈ Z, q > 0,
falls x ∈
/Q
definierte Funktion g : R → R ist auf jedem kompakten Intervall [a, b] integrierbar, weil es für jedes ε > 0 nur endlich viele x ∈ [a, b] gibt, so dass
√
g(x) > ε. Das Gleiche gilt für die Funktionen fk = k g mit k ∈ N \ {0}. Die
Folge konvergiert für k → ∞ punktweise gegen die Funktion
(
1, falls x ∈ Q,
f (x) =
0 andernfalls,
die nicht integrierbar ist.
3
3.1
⊳
Differentiation von Funktionen von mehreren Variablen
Definition der Ableitung
Es sei wieder K = R oder K = C. Wir betrachten Funktionen, deren Definitionsbereich D eine Teilmenge von K n ist. Durch Einschränkung erhält man
Funktionen von einer Variablen und kann die bekannten Begriffe übertragen.
Definition 23. Es sei D eine Teilmenge von K n und a ∈ D. Die partielle
Ableitung einer Funktion f : D → K m nach dem jten Argument ist die
Ableitung der Funktion von einer Variablen
xj 7→ f (a1 , . . . , aj−1 , xj , aj+1 , . . . , an )
an der Stelle aj . Wir bezeichnen sie mit ∂j f (a). Wenn sie existiert, heißt f
an der Stelle a partiell differenzierbar nach dem jten Argument.
39
Schreiben wir xj = aj + h, so erhalten wir
f (a + hej ) − f (a)
,
h→0
h
∂j f (a) = lim
wobei ej ∈ K n den jten Vektor der Standardbasis bezeichnet. Damit ∂j f (a)
definiert ist, muss insbesondere a ein Häufungspunkt der Menge {a + hej ∈
D | h ∈ K} sein.
∂f
, wobei die Stelle a nicht vermerkt
Die traditionelle Bezeichnung ist ∂x
j
wurde und das jte Argument immer mit der selben Variablen bezeichnet
werden musste.11
p
Beispiel. Es sei K = R und f (x) = x21 + . . . + x2n . Dann ist für x ∈ Rn \{0}
1
1
xj
.
∂j f (x) = (x21 + . . . + x2n )− 2 · 2xj =
2
f (x)
⊳
In einem K-Vektorraum V ist im Allgemeinen keine Standardbasis ausgezeichnet.
Definition 24. Es sei D eine Teilmenge eines K-Vektorraumes V und W ein
weiterer K-Vektorraum. Die Richtungsableitung einer Funktion f : D → W
bezüglich eines Vektors v ∈ V an der Stelle a ∈ D ist
f (a + hv) − f (a)
.
h→0
h
∂v f (a) = lim
Offensichtlich gilt ∂tv f (a) = t∂v f (a) für t ∈ K. Damit ∂v f (a) definiert
ist, muss insbesondere a ein Häufungspunkt der Menge {a+hv ∈ D | h ∈ K}
sein.
Beispiel. Es sei f wie oben und v = (v1 , . . . , vn ). Dann ist ∂v f (x) die Ableitung von
p
(x1 + hv1 )2 + . . . + (xn + hvn )2
als Funktion von h an der Stelle 0, also gilt für x 6= 0
1
hx, vi
1
.
∂v f (x) = (x21 + . . . + x2n )− 2 (2x1 v1 + . . . + 2xn vn ) =
2
f (x)
⊳
Erinnert man sich, dass die Ableitung einer Funktion von einer Variablen
die Steigung der Tangente an den Graphen angibt, so sollte die Ableitung
einer Funktionen von mehreren Variablen etwas mit der Tangentialebene an
den Graphen zu tun haben.
11
Der Buchstabe ∂ ist übrigens ein kursives kyrillisches d.
40
Definition 25. Es seien V und W endlichdimensionale K-Vektorräume, D
eine Teilmenge von V und a ein innerer Punkt von D. Eine lineare Abbildung
l : V → W heißt (totale) Ableitung einer Funktion f : D → W an der
Stelle a, wenn
f (a + v) − f (a) − l(v)
→ 0 (v → 0).
kvk
Die Funktion f heißt K-differenzierbar an der Stelle a, wenn eine Ableitung
l existiert.
Bemerkung. Wenn wir den Zähler mit r(v) bezeichnen, so können wir die
Bedingung auch in der Form kr(v)k
→ 0 (v → 0) schreiben. Wegen
kvk
f (a + v) = f (a) + l(v) + r(v)
gibt das Restglied r(v) an, wie gut f (a+v) durch f (a)+l(v) angenähert wird.
Da alle Normen auf V äquivalent sind, hängt die Differenzierbarkeit nicht von
der Wahl einer Norm ab. Eine an der Stelle a differenzierbare Funktion ist
dort offenbar auch stetig.
Bemerkung. Ist f an der Stelle a differenzierbar, so existieren dort die Richtungsableitungen bezüglich aller Vektoren v ∈ V , denn f (a + hv) ist für h in
einer Umgebung der Null definiert, und
l(hv) + r(hv)
r(hv)
= l(v) + lim
= l(v),
h→0
h→0
h
h
∂v f (a) = lim
was für v = 0 offensichtlich ist, während für v 6= 0 nach Definition gilt
r(hv) kr(hv)k
h = kvk khvk → 0 (h → 0).
Somit ist die Ableitung l von f an einer Stelle a eindeutig bestimmt, und
wir bezeichnen sie mit f ′ (a). Für eine lineare Abbildung l : V → W schreibt
man oft lv an Stelle von l(v), und die Menge solcher Abbildungen bezeichnet
man mit Hom(V, W ). Die Formel für die Richtungsableitungen lautet also
∂v f (a) = f ′ (a)v.
Bemerkung. Eine Abbildung f : D → K m ist genau dann differenzierbar an
der Stelle a, wenn alle ihre Koordinatenfunktionen an dieser Stelle differenzierbar sind.
Sind nämlich die Koordinatenfunktionen fj differenzierbar, so gibt es lineare Abbildungen lj : D → K, so dass
fj (a + v) − fj (a) − lj (v)
→ 0 (v → 0).
kvk
41
Setzen wir l(v) = (l1 (v), . . . , lm (v)), so folgt die Existenz des Grenzwertes in
der Definition. Die Umkehrung zeigt man analog.
Bemerkung. Im Falle V = K n ist
l(v) = l(v1 e1 + . . . + vn en ) = l(e1 )v1 + . . . + l(en )vn ,
also mit den obigen Bezeichnungen
f ′ (a)v = ∂1 f (a)v1 + . . . + ∂n f (a)vn .
Eine traditionalle Schreibweise hierfür ist
df =
∂f
∂f
dx1 + . . . +
dxn ,
∂x1
∂xn
wobei man die linke Seite als totales Differential bezeichnet.
Ist außerdem W = K m und schreiben wir die Elemente von V und W als
Spaltenvektoren, so erhalten wir
 



v1
∂1 f1 (a) . . . ∂n f1 (a)
f1 (x)



 .. 
.
.
.
′
..
..
f (a)v = 
f (x) =  .  ,
  ..  .
vn
∂1 fm (a) . . . ∂n fm (a)
fm (x)
Die Matrix auf der rechten Seite nennt man Funktionalmatrix oder JacobiMatrix ; wir werden sie ebenfalls mit f ′ (a) bezeichnen.
Satz 33. Ist D ⊆ Rn und hat f : D → W in ganz D partielle Ableitungen
bezüglich aller Argumente, die in einem inneren Punkt a von D stetig sind,
so ist f an der Stelle a differenzierbar.
Beweis. Es genügt, den Fall W = R zu betrachten. Wir müssen zeigen, dass
die lineare Abbildung
n
X
l(v) =
∂j f (a)vj
j=1
die Ableitung von f an der Stelle a ist. Wegen a ∈ D̊ gibt es ein η > 0, so
dass Uη (a) ⊂ D. Für v ∈ Rn mit kvk < η liegen die Punkte
a0 = a,
a1 = a0 + v 1 e 1 ,
a2 = a1 + v 2 e 2 ,
...,
an = an−1 + vn en
in D, ebenso die Verbindungsstrecken [aj−1 , aj ]. Wenden wir den Mittelwertsatz der Differentialrechnung auf f (aj−1 + hej ) als Funktion von h ∈ [0, vj ]
an, so erhalten wir ein bj ∈ [aj−1 , aj ], so dass
f (aj ) − f (aj−1 ) = ∂j f (bj )vj .
42
Durch Summation erhalten wir
f (a + v) − f (a) =
n
X
∂j f (bj )vj ,
(1)
j=1
wobei die Punkte bj von v abhängen, aber immer gilt kbj − ak < kvk. Wegen
der Stetigkeit der partiellen Ableitungen gibt es für jedes ε > 0 ein δ > 0, so
dass für kx − ak < δ gilt
|∂j f (x) − ∂j f (a)| < ε.
Ist kvk < δ, so gilt dies insbesondere für x = bj , also ist nach der Dreiecksungleichung
n
X
∂j f (bj ) − ∂j f (a) vj < εkvk1 .
|f (a + v) − f (a) − l(v)| ≤
j=1
Wir können annehmen, dass k . k = k . k1 . Da ε beliebig war, folgt
|f (a + v) − f (a) − l(v)|
→0
kvk
(v → 0).
Man kann den Satz auch im Fall K = C beweisen, indem man an Stelle
des Mittelwertsatzes die Sätze 27 und 26 benutzt.
Definition 26. Es seien V und W Vektorräme über K und U eine offene Teilmenge von V . Eine Abbildung f : U → W heißt K-differenzierbar,
wenn sie an jeder Stelle von U K-differenzierbar ist, und sie heißt stetig
K-differenzierbar, wenn sie differenzierbar ist und die Funktion f ′ : U →
Hom(V, W ) stetig ist.
Aus Satz 33 und dem vorher erwähnten Zusammenhang zwischen totaler
Ableitung und partiellen Ableitungen erhalten wir:
Folgerung 7. Sind alle partiellen Ableitungen von f auf der offenen Teilmenge U ⊆ Rn stetig, so ist f auf U stetig differenzierbar.
In der Physik sind folgende Differentialoperatoren von Bedeutung. Beispiel. Ist auf dem Vektorraum V ein Skalarprodukt gegeben und die Kwertige Funktion f auf D ⊆ V an der Stelle a ∈ D̊ differenzeirbar, so ist der
Gradient grad f (a) ∈ V charakterisiert durch
hgrad f (a), vi = f ′ (a)v
43
für alle v ∈ V . Im Fall V = Rn mit dem Standardskalarprodukt erhalten wir


∂1 f (a)


grad f (a) =  ...  .
∂n f (a)
Mit Hilfe des Nabla-Operators
 
∂1
 .. 
∇=.
∂n
schreibt man dies symbolisch in der Form grad f = ∇f . ⊳
Beispiel. Ist X ein Vektorfeld auf D ⊆ Rn , also X : D → Rn , das an der
Stelle a ∈ D̊ differenzierbar ist, so definiert man die Divergenz div X(a) ∈ R
durch
div X(a) = ∂1 X1 (a) + . . . + ∂n Xn (a).
Dies drückt man auch symbolisch durch div X = h∇, Xi aus. ⊳
Beispiel. Ist X ein Vektorfeld auf D ⊆ R3 an der Stelle a ∈ D̊ differenzierbar,
so definiert man die Rotation rot X(a) ∈ R3 durch


∂2 X3 (a) − ∂3 X2 (a)
rot X(a) = ∂3 X1 (a) − ∂1 X3 (a) .
∂1 X2 (a) − ∂2 X1 (a)
Dies drückt man symbolisch durch rot X = ∇ × X aus, wobei × das Vektorprodukt bezeichnet. ⊳
Bezeichnen wir die rechte Seite der Gleichung (1) im Beweis von Satz 33
mit f˜(a + v)v, so gilt
f (x) − f (a) = f˜(x)(x − a),
und im Fall n = 1 ist f˜(x) nichts anderes als der Differenzenquotient. Ein
solcher verallgemeinerter Differenzenquotient existiert immer, ist aber im Allgemeinen nicht eindeutig bestimmt.
Lemma 7. Es sei a ein innerer Punkt einer Teilmenge D ⊆ V . Eine Abbildung f : D → W ist genau dann differenzierbar an der Stelle a, wenn eine
Abbildung
f˜ : D → Hom(V, W )
existiert, die an der Stelle a stetig ist, so dass
f (x) = f (a) + f˜(x)(x − a).
44
Beweis. Angenommen, f˜ existiert. Setzen wir l = f˜(a), so gilt
r(v) = (f˜(a + v) − f˜(a))v,
kr(v)k ≤ kf˜(a + v) − f˜(a)kkvk
im Sinne von Definition 17, und aus der Stetigkeit von f˜ an der Stelle a folgt
kr(v)k
→0
kvk
(v → 0),
also ist f an der Stelle a differenzierbar.
Nun sei umgekehrt f an der Stelle a differenzierbar mit Ableitung l. Wir
können annehmen, dass kvk2 = hv, vi für ein Skalarprodukt auf V . Für u,
v ∈ V mit der Eigenschaft a + v ∈ D setzen wir
(
l(u) + hu,vi
r(v), wenn v 6= 0,
kvk2
f˜(a + v)u =
l(u),
wenn v = 0.
Dann ist f˜(a + v) ∈ Hom(V, W ) und
f˜(a + v)v = l(v) + r(v) = f (a + v) − f (a).
Außerdem gilt
hu, vi
(f˜(a + v) − f˜(a))u =
r(v),
kvk2
also nach der Cauchy-Schwarz-Ungleichung
kr(v)k
kuk.
k(f˜(a + v) − f˜(a))uk ≤
kvk
Laut Definition der Norm einer linearen Abbildung folgt
kr(v)k
,
kf˜(a + v) − f˜(a)k ≤
kvk
also ist f˜ an der Stelle a stetig.
Genau wie im eindimensionalen Fall gelten Rechenregeln. Dazu werden
wir die Beweise der Sätze I.67 und I.68 verallgemeinern.
Satz 34. Es seien T , U , V und W Vektorräume über K.
(i) Ist D ⊆ V und sind f , g : D → W an der Stelle a ∈ D̊ differenzierbar,
so ist auch f + g an der Stelle a differenzierbar, und es gilt
(f + g)′ (a) = f ′ (a) + g ′ (a).
45
(ii) Ist b : U × V → W eine K-bilineare Abbildung, ist D ⊆ T und sind
f : D → U , g : D → V an der Stelle a ∈ D̊ differenzierbar, so ist auch
b(f, g) an der Stelle a differenzierbar, und es gilt
b(f, g)′ (a) = b(f ′ (a), g(a)) + b(f (a), g ′ (a)).
(iii) Es sei D ⊆ U , E ⊆ V . Ist f : D → E an der Stelle a ∈ D̊ und
g : E → W an der Stelle f (a) ∈ E̊ differenzierbar, so ist g ◦ f an der
Stelle a differenzierbar, und es gilt
(g ◦ f )′ (a) = g ′ (f (a))f ′ (a).
Beweis. (i) Nach Lemma 7 existieren Abbildungen f˜, g̃ : D → Hom(V, W ),
die an der Stelle a stetig sind, so dass für v ∈ V mit der Eigenschaft a+v ∈ D
gilt
f (a + v) = f (a) + f˜(a + v)v,
g(a + v) = g(a) + g̃(a + v)v,
also
f (a + v) + g(a + v) = f (a) + g(a) + (f˜(a + v) + g̃(a + v))v.
Eine Abbildung D → Hom(V, W ) × Hom(V, W ) ist genau dann stetig, wenn
ihre Komponenten D → Hom(V, W ) stetig sind, und wie in Satz 6 sieht
man, dass die Addition Hom(V, W ) × Hom(V, W ) → Hom(V, W ) nach der
Dreiecksungleichung Lipschitz-stetig ist. Die Abbildung f]
+ g = f˜+ g̃ ist also
an der Stelle a stetig, und sie hat dort den Wert f ′ (a) + g ′ (a). Nun folgt die
Behauptung nach Lemma 7.
(ii) Diesmal haben wir f˜ : D → Hom(T, U ), g̃ : D → Hom(T, V ), und wegen
der Bilinearität von b folgt
^
b(f (a + t), g(a + t)) = b(f (a), g(a)) + b(f,
g)(a + t)t,
wobei für alle s ∈ T gilt
^
b(f,
g)(a + t)s = b(f˜(a + t)s, g(a)) + b(f (a) + f˜(a + t)t, g̃(a + t)s).
Die Abbildung b kann man als Element von Hom(U, Hom(V, W )) auffassen,
und durch zweimalige Anwendung von Satz 24 finden wir ein c > 0, so dass
kb(u, v)k ≤ ckukkvk. Laut Definition der Norm von linearen Abbildungen
folgt, dass für l ∈ Hom(T, U ) und m ∈ Hom(U, V ) gilt kb(l, m)k ≤ cklkkmk.
46
Wie in Satz 6 sieht man nun, dass die Abbildung (l, m) 7→ b(l, m) stetig ist.
^
Die Abbildung b(f,
g) ist also an der Stelle a stetig, und
^
b(f,
g)(a)s = b(f˜(a)s, g(a)) + b(f (a), g̃(a)s).
Die Behauptung folgt wieder mit Lemma 7.
(iii) Diesmal ist f˜ : D → Hom(U, V ), g̃ : E → Hom(V, W ), und
wobei
g(f (a + u)) = g f (a) + f˜(a + u)u = g(f (a)) + g]
◦ f (a + u)u,
g]
◦ f (a + u) = g̃ f (a) + f˜(a + u)u f˜(a + u).
Da für lineare Abbildungen l : U → V und m : V → W gilt km ◦ lk ≤
kmkklk, sieht man wie in Satz 6, dass die Verkettung eine stetige Abbildung
Hom(V, W ) × Hom(U, V ) → Hom(U, W ) ist. Außerdem ist v 7→ g̃(f (a) +
f˜(a + u)u) nach Satz 9 an der Stelle 0 stetig. Es folgt, dass g]
◦ f an der Stelle
˜
a stetig ist und den Wert g̃(f (a))f (a) hat. Die Behauptung folgt wieder mit
Lemma 7.
Wir benötigen keine neue Quotientenregel, weil 1/f nur für skalarwertige
Funktionen f definiert ist und als Verkettung von f mit der Kehrwertfunktion
angesehen werden kann.
Folgerung 8. Für eine offene Menge D von K n ist jede Abbildung D → K m
differenzierbar, deren Koordinatenfunktionen auf D durch Terme gegeben
sind, in denen nur arithmetische Operationen und differenzierbare Funktionen vorkommen.
Beispiel. Es sei F : D → Hom(K n , K n ) = End(K n ) eine matrixwertige
Funktion, deren Einträge fij : D → K differenzierbar sind. Dann ist auch die
Verkettung det F differenzierbar. Bei der Berechnung ihrer Ableitung hilft
Satz 34 wenig, da wir die Ableitung der Determinante noch nicht kennen.
Statt dessen erinnern wir uns, dass man die inverse Matrix darstellen kann
als
F −1 = (det F )−1 F̃ ,
wobei F̃ (x) die Adjunkte von F (x) bezeichnet. (Man erhält den Kofaktor
(−1)i+j f˜ji (x) als Determinante der Untermatrix von F (x), die nach Streichung der iten Zeile und jten Spalte zurückbleibt.) Aus der Leibniz-Formel
X
det F =
sgn(σ)f1,σ(1) · · · fn,σ(n)
σ
47
folgt
(det F )′ =
n
X
fij′ f˜ji = tr(F ′ F̃ ) = tr(F̃ F ′ ),
i,j=1
und wir erhalten für die logarithmische Ableitung der Determinante auf der
offenen Teilmenge {x ∈ D | det F 6= 0} von D
(det F )′
= tr(F −1 F ′ ) = tr(F ′ F −1 ).
det F
⊳
Die Differentialrechnung entstand aus den Bedürfnissen der Newtonschen Mechanik.
Diese findet allerdings nicht in einem Vektorraum statt.
Definition 27. Ein affiner Raum ist eine Menge A zusammen mit einem Vektorraum V
und einer Abbildung A × V → A, geschrieben (a, v) 7→ a + v, mit folgenden Eigenschaften:
(a) Für alle a ∈ A und u, v ∈ V gilt a + (u + v) = (a + u) + v.
(b) Für beliebige Punkte a, b ∈ A gibt es genau einen Vektor v ∈ V , so dass a + v = b.
→
−
(Man bezeichnet v mit ab.)
Die Dimension des affinen Raumes A ist die Dimension des zugehörigen Vektorraumes V ,
dessen Elemente man Translationen von A nennt.
Sind A und B affine Räume mit den Vektorräumen von Translationen V bzw. W , so
heißt g : A → B affine Abbildung, wenn es eine lineare Abbildung g ′ : V → W gibt, so
dass für alle a ∈ A und v ∈ V gilt
g(a + v) = g(a) + g ′ v.
In dieser Situation werden durch Normen auf V und W Metriken d bzw. e auf A und
B definiert. Ist D ⊆ A, so kann man die Richtungsableitung einer Funktion f : D → B
bezüglich v ∈ V an einer Stelle a ∈ D̊ als Element von W definieren:
1 −−−−−−−−−−→
f (a)f (a + hv).
h→0 h
∂v f (a) = lim
Die totale Ableitung f ′ (a) ∈ Hom(V, W ) ist charakterisiert durch
−−−−−−−−−→
f (a)f (a + v) = f ′ (a)v + r(v),
wobei
r(v)
kvk
→ 0 (v → 0). Betrachtet man die durch
g(a + v) = f (a) + f ′ (a)v
gegebene affine Abbildung g : D → W , so kann man dies auch durch
e(f (x), g(x))
→0
d(x, a)
(x → a)
ausdrücken, d. h. f wird in der Umgebung von a durch die affine Abbildung g angenähert.
48
3.2
Höhere Ableitungen
Ist f auf einer offenen Teilmenge D eines Vektorraums V differenzierbar, so
erhalten wir eine Abbildung f ′ : D → Hom(V, W ). Ist diese wiederum an
einer Stelle a differenzierbar, so bezeichnen wir ihre ihre Ableitung mit
f ′′ (a) ∈ Hom(V, Hom(V, W )).
Anstelle von f ′ (x) kann man auch die Abbildung f ′ (x)u = ∂u f (x) für festes
u nach Satz 34(ii) ableiten und erhält f ′′ (a)u. Somit ergibt sich
(f ′′ (a)u)v = ∂v ∂u f (a).
Statt (f ′′ (a)u)v schreiben wir f ′′ (a)(u, v), was bilinear von u, v ∈ V abhängt.
Ist z. B. V = K n , so gilt
f ′′ (a)(u, v) =
n
X
∂j ∂i f (a)ui vj .
i,j=1
Analog ist f ′′′ (a) eine trilineare Abbildung V 3 → W usw.
Die traditionelle Schreibweise ist
∂j ∂i f =
∂2f
,
∂xj ∂xi
∂i ∂i f =
∂2f
,
∂x2i
∂i2 ∂j f =
∂3f
,
∂x2i ∂xj
...
In Analogie zu Definition I.52 legen wir fest:
Definition 28. Es seien V und W Vektorräume über K und D eine offene Teilmenge von V . Wir bezeichnen mit F (D, W ) die Menge aller Abbildung D → W und mit C(D, W ) die Teilmenge der stetigen Abbildungen.
Für jede natürliche Zahl k definieren wir die Menge F k (D, W ) aller k Mal
differenzierbaren Abbildungen und die Menge C k (D, W ) aller k Mal stetig
differenzierbaren Abbildungen rekursiv:
F 0 (D, W ) = F (D, W ),
C 0 (D, W ) = C(D, W ),
F k+1 (D, W ) = {f : D → W | f ist differenzierbar, f ′ ∈ F k (D, Hom(V, W ))},
C k+1 (D, W ) = {f : D → W | f ist differenzierbar, f ′ ∈ C k (D, Hom(V, W ))}.
Wir definieren die kte Ableitung einer Abbildung f ∈ F k (D, W ) rekursiv
durch
f (0) = f,
f (k+1) = (f ′ )(k) .
Schließlich nennen wir die Elemente von
∞
C (D, W ) =
∞
\
k=0
49
C k (D, W )
unendlich oft12 differenzierbare Abbildungen.
Da jede differenzierbare Abbildung stetig ist, erhalten wir in Analogie zu
Folgerung I.39 durch vollständige Induktion
F k+1 (D, W ) ⊆ C k (D, W ) ⊆ F k (D, W ).
Würden wir also die Menge F ∞ (D, W ) analog definieren, so wäre sie gleich
C ∞ (D, W ). Auch Satz I.75 und Satz I.76(i) übertragen sich problemlos.
Satz 35. Es seien T , U , V und W Vektorräume über K.
(i) Ist D offen in V und sind f , g ∈ C k (D, W ), so auch f + g, und
(f + g)(k) = f (k) + g (k) .
(ii) Ist b : U × V eine bilineare Abbildung, ist D offen in T und ist f ∈
C k (D, U ), g ∈ C k (D, V ), so ist b(f, g) ∈ C k (D, W ).
(iii) Es sei D offen in U und E offen in V . Ist f ∈ C k (D, V ), f (D) ⊆ E
und g ∈ C k (E, W ), so ist g ◦ f ∈ C k (D, W ).
Analoge Aussagen gelten für F k an Stelle von C k .
Beweis. Wir führen nur den Induktionsbeweis von Aussage (ii) vor. Im Laufe
des Beweises von Satz 34(ii) wurde gezeigt, dass b stetig ist. Damit folgt die
Behauptung imr Fall k = 0. Angenommen, sie gilt für eine gewisse natürliche
Zahl k. Nun sei f ∈ C k+1 (D, U ) und g ∈ C k+1 (D, V ). Nach Satz 34(ii) ist
b(f, g)′ = b(f ′ , g) + b(f, g ′ ).
Nach Induktionsvoraussetzung und Teil (i) ist die rechte Seite in C k (D, W ),
also laut Definition b(f, g) ∈ C k+1 (D, W ).
Auch die anderen Behauptungen werden wie bei den Sätzen I.75 und I.76(i)
beweisen.
Da die Skalarmultiplikation K × W → W bilinear ist, sind die Mengen
F (D, W ) und C k (D, W ) nach Satz 35(i), (ii) Unterräume des K-Vektorraumes F (D, W ). Man kann auch für einen einzelnen inneren Punkt a einer
beliebigen Teilmenge D ⊆ V rekursiv definieren, wann eine Abbildung f an
dieser Stelle k + 1 Mal differenzierbar ist. Dazu muss f in einer Umgebung
U ⊆ D von a differenzierbar sein und die Funktion f ′ : U → Hom(V, W ) an
der Stelle a k mal differenzierbar sein. Auch Satz 35 überträgt sich sinngemäß,
aber wir verzichten auf weitere Einzelheiten.
k
12
Richtiger wäre beliebig oft“.
”
50
Für f ∈ F k (D, W ) und a ∈ D ist f (k) (a) eine multilineare Abbildung,
und es gilt
f (k) (a)(v1 , . . . , vk ) = ∂vk · · · ∂v1 f (a).
Im Fall V = K n erhalten wir für Vektoren vj = (vj,1 , . . . , vj,n ) ∈ K n
f
(k)
(a)(v1 , . . . , vk ) =
n
X
i1 ,...,ik =1
∂ik . . . ∂i1 f (a)v1,i1 · · · vk,ik .
(2)
Bezeichnen wir den Vektorraum der multilinearen Abbildungen V k → W
mit Multk (V, W ) (was allerdings keine Standardbezeichnung ist) und setzt
Mult0 (V, W ) = W , so zeigt man wie in Präsenzaufgabe I.48 durch vollständige
Induktion nach k, dass
F k+l (D, W ) = {f ∈ F k (D, W ) | f (k) ∈ F l (D, Multk (V, W ))},
C k+l (D, W ) = {f ∈ C k (D, W ) | f (k) ∈ C l (D, Multk (V, W ))}
und dass für Elemente dieser Mengen gilt
f (k+l) = (f (k) )(l) .
Satz 36 (Schwarz). Angenommen, D ist offen in Rn und alle partiellen
Ableitungen von f : D → W bis zur zweiten Ordnung existieren und sind
stetig auf D. Dann gilt
∂i ∂j f = ∂j ∂i f.
Beweis. Wir können annehmen, dass W = Rm ist. Die Koordinaten der partiellen Ableitung sind die partiellen Ableitungen der Koordinatenfunktionen,
also genügt es, den Fall W = R zu betrachten. Es genügt auch, die Gleichheit
in einem festen Punkt a zu zeigen, wobei wir a = 0 annehmen können. Da in
der Definition von ∂i ∂j f (0) nur Werte von f an Stellen x mit der Eigenschaft
xk = 0 für alle k ∈
/ {i, j} vorkommen, können wir annehmen, dass n = 2,
i = 1, j = 2. Da D offen ist, gibt es ein η > 0, so dass die η-Umgebung von
0 bezüglich k . k∞ in D enthalten ist.
Wenden wir für x ∈ Uη (0) den Mittelwertsatz auf
F (h) = f (h, x2 ) − f (h, 0)
an, so erhalten wir ein b1 ∈ ]0, x1 [, so dass F (x1 ) − F (0) = F ′ (b1 )x1 , d. h.
f (x1 , x2 ) − f (x1 , 0) − f (0, x2 ) + f (0, 0) = ∂1 f (b1 , x2 ) − ∂1 f (b1 , 0) x1 .
51
Dabei hängt b1 von x ab. Wenden wir den Mittelwertsatz auf die Funktion
∂1 f (b1 , h) an, so erhalten wir ein b2 ∈ ]0, x2 [, so dass
∂1 f (b1 , x2 ) − ∂1 f (b1 , 0) = ∂2 ∂1 f (b1 , b2 )x2 ,
wobei b2 von b1 und x1 , also letztlich von x abhängt. Wir erhalten also für
jedes x ∈ Uη (0) ein b ∈ V , so dass kbk < kxk und
f (x1 , x2 ) − f (x1 , 0) − f (0, x2 ) + f (0, 0) = ∂2 ∂1 f (b1 , b2 )x1 x2 .
Vertauschen wir die Rollen von x1 und x2 , so erhalten wir für jedes x ∈ Uη (0)
ein c ∈ V , so dass kck < kxk und
f (x1 , x2 ) − f (0, x2 ) − f (x1 , 0) + f (0, 0) = ∂1 ∂2 f (c1 , c2 )x1 x2 .
Für x1 6= 0 und x2 6= 0 folgt
∂2 ∂1 f (b) = ∂1 ∂2 f (c),
wobei b und c von x abhängen und nach dem Einschließungskriterium gilt
b → 0,
c→0
(x → 0).
Wegen der Stetigkeit der partiellen Ableitung folgt
∂2 ∂1 f (0) = ∂1 ∂2 f (0).
Folgerung 9. Ist f ∈ C k (D, W ) mit D ⊆ Rn , so gilt für jede Permutation
σ von {1, . . . , k} und alle i1 , . . . , ik ∈ {1, . . . , n}
∂i1 · · · ∂ik f = ∂iσ(1) · · · ∂iσ(k) f.
Für D in einem abstrakten R-Vektorraum V und v1 , . . . , vk ∈ V gilt analog
∂v1 · · · ∂vk f = ∂vσ(1) · · · ∂vσ(k) f,
d. h. f (k) (a) ist eine symmetrische Multilinearform V k → W .
Für l < k ist nämlich ∂il+2 · · · ∂ik f ∈ C l+1 (D, Multk−l−1 (V, W )), und wir
können ∂il und ∂il+1 vertauschen. Jede Permutation σ lässt sich aus Transpositionen zusammensetzen. Die zweite Behauptung folgt aus der ersten, indem
man in Gleichung (2) ij durch iσ(j) substituiert.
Satz 36 folgt natürlich umgekehrt aus der Aussage der Folgerung 9. Beides gilt übrigens
auch für komplexe Ableitungen. Jede C-lineare Abbildung zwischen C-Vektorräumen ist
auch eine R-lineare Abbildung bezüglich der unterliegenden Struktur von R-Vektorräumen,
52
also ist die C-Ableitung, wenn sie existiert, gleich der R-Ableitung. Durch Iteration folgt
das auch für höhere Ableitungen.
Beispiel. Ist D offen in R3 und f ∈ C 2 (D), so gilt


∂2 ∂3 f − ∂3 ∂2 f
rot grad f = ∂3 ∂1 f − ∂1 ∂3 f  = 0.
∂1 ∂2 f − ∂2 ∂1 f
Ist X ∈ C 2 (D, R3 ), so gilt
div rot X = ∂1 (∂2 X3 − ∂2 X2 ) + ∂2 (∂3 X1 − ∂1 X3 ) + ∂3 (∂1 X2 − ∂2 X1 ) = 0.
Ein Gradientenfeld ist also rotationsfrei und die Rotation eines Vektorfeldes
ist divergenzfrei. ⊳
Man definiert den Laplace-Operator auf einer offenen Teilmenge D von
n
R durch
∆f = div grad f
für f ∈ C 2 (D). Dann gilt also
∆f = ∂12 f + . . . + ∂n2 f.
Zum Abschluss führen wir noch eine Verallgemeinerung des Begriffs des
Homöomorphismus ein.
Definition 29. Eine bijektive Abbildung f zwischen offenen Teilmengen von
endlichdimensionalen Vektorräumen heißt Diffeomorphismus der Klasse C k ,
wenn die Abbildung f und ihre Umkehrabbildung k Mal stetig differenzierbar
sind.
Aufgabe 32 liefert ein Beispiel für einen Diffeomorphismus der Klasse C ∞ .
3.3
Die Taylorsche Formel
Wir wollen Satz I.78 auf vektorwertige Funktionen von mehreren Variablen
verallgemeinern.
Satz 37. Es seien V und W Vektorräume über K sowie D eine offene Teilmenge von V . Weiter sei k ∈ N, f ∈ C k+1 (D, W ), a ∈ D und v ∈ V , so dass
die Strecke [a, a + v] in D enthalten ist. Dann gilt
Z 1
k
X
1 j
(1 − h)k k+1
f (a + v) =
∂v f (a) +
∂v f (a + hv) dh.
j!
k!
0
j=0
53
Dies ist eine Version der Taylorschen Formel. Für festes a nennt man die
Summe auf der rechten Seite das Taylor-Polynom der Ordnung k von f an
der Stelle a. Bezeichnen wir es mit pk (v), so hat die Formel die Gestalt
f (a + v) = pk (v) + rk (v),
Beide Seiten hängen nur von den Werten von f auf der Strecke
[a, a + v] = {a + hv | h ∈ [0, 1]}
ab, insofern lässt sich dieser Satz auf eine Taylorsche Formel für Funktionen von einer Variablen zurückführen. Da wir aber vektorwertige Funktionen betrachten, kann das Restglied rk (v) nicht mehr durch einen Mittelwert
ausgedrückt werden, sondern erscheint in Integralform.
Beweis. Wir halten a, k und v fest und betrachten die durch
g(h) =
k
X
(1 − h)j
j=0
j!
∂vj f (a + hv)
definierte Hilfsfunktion g : [0, 1] → W . Dann ist g stetig differenzierbar,
g(0) = pk (v),
g(1) = f (a + v)
und
′
g (h) =
k
X
(1 − h)j
j=0
j!
∂vj+1 f (a
+ hv) −
k
X
(1 − h)j−1
j=1
(j − 1)!
∂vj f (a + hv).
Wenn wir in der zweiten Summe eine Substitution vornehmen, so kürzen sich
alle Terme bis auf einen, und wir erhalten
g ′ (h) =
(1 − h)k k+1
∂v f (a + hv).
k!
Nach Satz 27 gilt
g(1) − g(0) =
und die Behauptung folgt.
Z
1
g ′ (h) dh,
0
Die Form des Restgliedes scheint vom Himmel zu fallen. Es gibt auch
einen Beweis durch vollständige Induktion, bei dem sich das Restglied von
selbst ergibt, aber dazu benötigt man die Vertauschbarkeit von Mehrfachintegralen.
54
Wie wir wissen, lässt sich die im Satz auftretende mehrfache Richtungsableitung durch die totale Ableitung ausdrücken, nämlich
∂vk f (a) = f (k) (a)(v, . . . , v ).
| {z }
k
Das Restglied r1 stimmt mit dem Restglied in der Definition 25 überein.
1 (v)
Ist also f an der Stelle a differenzierbar, so gilt rkvk
→ 0 (v → 0). Wir
wollen eine analoge Aussage für beliebige k beweisen.
Satz 38. Es seien V und W Vektorräume über K, D ⊆ V , und f : D → W
sei k Mal differenzierbar in dem inneren Punkt a von D, wobei k ≥ 1. Dann
gilt für v in einer Umgebung von 0 in V
rk (v)
→0
kvkk
f (a + v) = pk (v) + rk (v),
(v → 0).
Beweis. Da die Behauptung für k = 1 nach Definition bereits gilt, sei nun
k > 1. Laut Definition muss f (k−1) in einer Umgebung U von a existieren
und an der Stelle a differenzierbar sein. Es gibt ein η > 0, so dass für kvk < η
gilt a + v ∈ U , also auch [a, a + v] ⊆ U . Da f (k−2) auf U stetig ist, können
wir Satz 37 mit k − 2 an Stelle von k anwenden und erhalten
Z 1
(1 − h)k−2 k−1
∂ f (a + hv) dh.
f (a + v) = pk−2 (v) +
(k − 2)! v
0
Wegen der Differenzierbarkeit von f (k−1) : U → Multk−1 (V, W ) an der Stelle a gilt für kuk < η
f (k−1) (a + u) = f (k−1) (a) + f (k) (a)u + r(u),
r(u)
→0
kuk
(u → 0),
wobei f (k) (a) ∈ Hom(V, Multk−1 (V, W )) = Multk (V, W ). Setzen wir u = hv,
so folgt
∂vk−1 f (a + hv) = ∂vk−1 f (a) + h∂vk f (a) + r(hv)(v, . . . , v ).
| {z }
k−1
Beim Einsetzen ergeben angesichts von Satz 26(iv) und
Z 1
Z 1
(1 − h)k−2
1
1
h(1 − h)k−2
dh =
,
dh =
(k − 2)!
(k − 1)!
(k − 2)!
k!
0
0
55
(vgl. Aufgabe 3) die ersten beiden Terme gerade die beiden restlichen Glieder
von pk (v), und es folgt
Z 1
(1 − h)k−2
rk (v) =
r(hv)(v, . . . , v) dh.
(k − 2)!
0
Nach Satz 26 ist
krk (v)k ≤
Z
1
0
(1 − h)k−2
kr(hv)(v, . . . , v)k dh.
(k − 2)!
Verallgemeinern wir die Ungleichung aus dem Beweis von Satz 34(ii) (vgl.
Präsenzübung 21) durch vollständige Induktion, so folgt für v1 , . . . , vk−1 ∈ V
kr(u)(v1 , . . . , vk−1 )k ≤ kr(u)kkv1 k · · · kvk−1 k.
Somit ist
krk (v)k
≤
kvkk
Z
1
0
(1 − h)k−2 kr(hv)k
·
dh.
(k − 2)!
kvk
Für jedes ε > 0 gibt es ein δ > 0, so dass für kuk < δ gilt
kr(u)k
< k!ε.
kuk
Setzen wir u = hv mit kvk < δ und h ∈ [0, 1], so ist dies erfüllt, und es folgt
Z 1
h(1 − h)k−2
krk (v)k
<
k!ε
dh = ε.
kvkk
(k − 2)!
0
Ist V = Rn , so können wir die in der Taylorschen Formel vorkommenden
mehrfachen Richtungsableitungen bezüglich eines Vektors v = (v1 , . . . , vn )
durch partielle Ableitungen ausdrücken. Gleichung (2) spezialisiert sich nämlich zu
n
X
k
∂v f (a) =
∂ik · · · ∂i1 f (a)vi1 · · · vik .
i1 ,...,ik =1
Ist f eine k Mal stetig differenzierbare Funktion in einer Umgebung von a,
so können wir die partiellen Ableitungen nach Satz 36 umordnen und gleiche
Ableitungen zusammenfassen. Ist αi die Anzahl, wie oft die Zahl i unter den
Zahlen i1 , . . . , ik vorkommt, so ist jedem k-Tupel (i1 , . . . , ik ) ein n-Tupel
(α1 , . . . , αn ) mit der Eigenschaft
α1 + . . . + αn = k
56
zugeordnet. Ein n-Tupel (α1 , . . . , αn ) entsteht aus
k!
α1 ! · · · αn !
verschiedenen k-Tupeln (i1 , . . . , ik ), und es folgt
X
1 k
∂v f (a) =
k!
α +...+α
1
n
∂1α1 · · · ∂nαn f (a) α1
v1 · · · vnαn .
α
!
·
·
·
α
!
1
n
=k
Im Spezialfall n = 1 erhalten wir den selben Ausdruck für das Taylorpolynom
wie in Satz I.78.
3.4
Lokale Extrema
Wir wollen die Kriterien für lokale Extrema auf den Fall von Funktionen von
mehreren Variablen verallgemeinern.
Definition 30. Es sei f eine reellwertige Funktion auf einem metrischen
Raum X und a ein Punkt von X.
(i) Die Funktion f hat an der Stelle a ein lokales Minimum, wenn es eine
Umgebung U von a in X gibt, so dass für alle x ∈ U gilt f (x) ≥ f (a).
(ii) Die Funktion f hat an der Stelle a ein striktes lokales Minimum, wenn
es eine Umgebung U von a gibt, so dass für x ∈ U \{a} gilt f (x) > f (a).
(iii) Analog definiert man ein (striktes) lokales Maximum.
(iv) Wir sagen, dass f an der Stelle a ein lokales Extremum hat, wenn f
dort ein lokales Minimum oder ein lokales Maximum hat.
Im Folgenden sei D eine Teilmenge eines reellen Vektorraums V . Wir
formulieren nun ein notwendiges Kriterium.
Satz 39. Die Funktion f : D → R habe an der Stelle a ∈ D̊ ein lokales
Extremum. Existiert die Richtungsableitung bezüglich eines Vektors v, so ist
∂v f (a) = 0. Ist f an der Stelle a differenzierbar, so gilt f ′ (a) = 0.
Beweis. Es sei g(h) = f (a + hv). Da die Abbildung h 7→ a + hv stetig
ist, ist g in einer Umgebung der Stelle 0 definiert und hat dort ein lokales
Extremum. Nach Satz I.70 gilt g ′ (0) = 0, und die erste Behauptung folgt.
Wegen f ′ (a)v = ∂v f (a) folgt die zweite.
57
Einen Punkt a, in dem die Richtungsableitungen von f bezüglich aller
Vektoren verschwinden, nennt man stationären Punkt von f . Im Fall V = Rn
müssen dazu notwendigerweise alle partiellen Ableitungen verschwinden. Ist
f an der Stelle a differenzierbar, so ist das auch hinreichend für das Vorliegen
eines stationären Punktes.
Beispiel. Die Funktion f : R2 → R sei gegeben durch
f (x, y) = ey cos x + ex cos y.
Die ersten partiellen Ableitungen sind
∂f
= −ey sin x + ex cos y,
∂x
∂f
∂y f (x, y) =
= ey cos x − ex sin y.
∂y
∂x f (x, y) =
Ist (a, b) ein stationärer Punkt von f , so gilt also
ea cos b = eb sin a,
ea sin b = eb cos a.
Zur Lösung dieses nichtlinearen Gleichungssystems könnte man z. B. eb mit
Hilfe einer Gleichung aus der anderen eliminieren und dann ea kürzen. Da
man nicht durch 0 dividieren kann, wäre dazu eine Fallunterscheidung nötig.
Eleganter ist es, beide Gleichungen zu quadrieren:
e2a cos2 b = e2b sin2 a,
e2a sin2 b = e2b cos2 a.
Addieren wir beide Gleichungen, so folgt e2a = e2b , also wegen der Injektivität
der Exponentialfunktion a = b. Weiter folgt sin a = cos a und somit a =
π
+ kπ, k ∈ Z. Eine Probe zeigt, dass die stationären Punkte von f genau
4
die Punkte
π
+ kπ, π4 + kπ
4
mit k ∈ Z sind. ⊳
Wir wollen nun ein hinreichendes Kriterium für lokale Extrema formulieren.
Definition 31. Eine Multilinearform m ∈ Multk (V, R) heißt positiv definit13 , wenn für alle v ∈ V \ {0} gilt m(v, . . . , v) > 0.
Analog definiert man, wann eine Multilinearform negativ definit ist.
Eine Multilinearform m heißt indefinit, wenn es sowohl Vektoren v ∈ V
mit der Eigenschaft m(v, . . . , v) > 0 als auch solche mit der Eigenschaft
m(v, . . . , v) < 0 gibt.
13
Dies ist das lateinische Partizip von definire (bestimmen).
58
Wegen
m(tv, . . . , tv) = tk m(v, . . . , v)
für t ∈ R kann es definite Multilinearformen vom Grad k nur geben, wenn k
gerade ist.
Satz 40. Die Funktion f : D → R sei an der Stelle a ∈ D̊ k Mal differenzierbar, wobei k ≥ 2, und es sei
f ′ (a) = 0,
...,
f (k−1) (a) = 0.
(i) Ist f (k) (a) positiv (bzw. negativ) definit, so hat f an der Stelle a ein
lokales Minimum (bzw. Maximum).
(ii) Ist f (k) (a) indefinit, so hat f an der Stelle a kein lokales Extremum.
Beweis. Nach Satz 38 gilt für a + v ∈ D
f (a + v) = f (a) + m(v, . . . , v) + rk (v),
rk (v)
→ 0 (v → 0),
kvkk
wobei m = k!1 f (k) (a) ist und die Terme der Ordnung 1 bis k − 1 nach Voraussetzung verschwinden. Nun sei z. B. m positiv definit. Wir setzen
c = inf{m(v, . . . , v) | v ∈ V, kvk = 1}.
Da m(v, . . . , v) stetig von v abhängt und die Menge {v ∈ V | kvk = 1} nach
Satz 19 kompakt ist, wird der Wert c auf dieser Menge angenommen, so dass
c > 0. Es gibt also ein δ > 0, so dass für a + v ∈ D und kvk < δ gilt
c
|rk (v)| < kvkk .
2
Für v mit diesen Eigenschaften folgt
v
v
f (a + v) − f (a) = m
kvkk + rk (v) ≥ ckvkk − |rk (v)|,
,...,
kvk
kvk
also
c
f (a + v) ≥ f (a) + kvkk ,
2
und für v 6= 0 ist die rechte Seite größer als f (a).
Nun sei m indefinit. Dann gibt es Vektoren u und v, so dass m(u, . . . , u) <
0 und m(v, . . . , v) > 0. Definieren wir g(t) = f (a + tu) und h(t) = f (a + tv),
so gilt
g ′ (0) = h′ (0) = · · · = g (k−1) (0) = h(k−1) (0) = 0,
g (k) (0) < 0,
h(k) (0) > 0.
Nach Satz I.80 bzw. dem bereits bewiesenen Teil (i) hat g an der Stelle 0 ein
lokales Maximum und h an der Stelle 0 ein lokales Minimum. Folglich hat f
an der Stelle a kein lokales Extremum.
59
Beispiel. Es sei f wie oben. Die zweiten partiellen Ableitungen sind
∂ 2f
= −ey cos x + ex cos y,
∂x2
∂ 2f
∂x ∂y f (x, y) =
= −ey sin x − ex sin y,
∂x∂y
∂ 2f
= ey cos x − ex cos y.
∂y2 f (x, y) =
∂y 2
∂x2 f (x, y) =
Die totale zweite Ableitung in einem Punkt (a, b) ∈ R2 ist
f (2) (a, b) (( uv ) , ( uv )) = ∂x2 f (a, b)u2 +∂x ∂y f (a, b)uv+∂y ∂x f (a, b)vu+∂y2 f (a, b)v 2 ,
wobei ∂x ∂y f = ∂y ∂x f nach Satz 36. Die Bilinearform m = 21 f (2) (a, a) im
stationären Punkt (a, a) mit a = π4 + kπ ergibt beim Einsetzen des selben
Vektors ( uv ) in beiden Argumenten die quadratische Form
√ π
m (( uv ) , ( uv )) = (−1)k 2e 4 +kπ uv.
Diese ist indefinit, denn
1
1
m (( −1
) , ( −1
)) = −m (( 11 ) , ( 11 )) 6= 0,
und somit liegt kein lokales Extremum vor. ⊳
In den Anwendungen ist f meist in einer Umgebung des stationären Punktes k Mal stetig differenzierbar, so dass f (k) nach Folgerung 9 eine symmetrische Multilinearform ist. Die Bilinearform f ′′ (a) nennt man übrigens die
Hessesche Form von f an der Stelle a.
Bei symmetrischen Multilinearformen m von beliebigem Grad k ist die
Definitheit schwer zu entscheiden, aber im Fall k = 2 (wenn also m = b
eine symmetrische Bilinearform ist) gibt es einen einfachen Algorithmus. Es
genügt, die zugehörige quadratische Form q(v) = b(v, v) zu betrachten, aus
der sich die Bilinearform durch sogenannte Polarisierung
2b(u, v) = q(u + v) − q(u) − q(v)
zurückgewinnen lässt. Die Methode von Gram-Schmidt liefert eine Basis e1 ,
. . . , en von V , so dass
b(ei , ej ) = 0 für i 6= j,
b(ei , ei ) ∈ {1, −1, 0}.
Daran lässt sich die Definitheit leicht ablesen.
60
An Stelle dieser Methode beschreiben wir die analoge Methode der quadratischen Ergänzung. Ist V durch Wahl einer Basis bereits mit Rn identifiziert, so ist b in Matrizenschreibweise durch


a11 a12 . . . a1n  
 v1

 a21 a22 . . . a2n   .. 
b(u, v) = u1 . . . un  ..
..
..   . 
 .
.
. 
vn
an1 an2 . . . ann
und q in der Form
q(v) = a11 v12 + a12 v1 v2 + · · · + a1n v1 vn
+a21 v2 v1 + a22 v22 + · · · + a2n v2 vn
...
+an1 vn v1 + an2 vn v2 + · · · + a2n vn2
gegeben, wobei aij = aji . Man kann aij vi vj und aji vj vi für i 6= j zu 2aij vi vj
zusammenfassen.
Ist a11 6= 0, so gehen wir zu den Koordinaten u1 , v2 , . . . , vn über, wobei
a1n
a12
v2 + . . . +
vn .
u1 = v 1 +
a11
a11
Ist hingegen a11 = 0, so vertauschen wir die Nummerierung der Variablen,
um in die obige Situation zu kommen. Verschwinden alle aii (wie in unserem
Beispiel), so hilft das nichts. In diesem Fall wählen wir Indizes i 6= j, so dass
aij 6= 0, und ersetzen die Koordinaten vi und vj durch
vi′ = vi + vj ,
vj′ = vi − vj .
2vi = vi′ + vj′ ,
2vj = vi′ − vj′ ,
Dann ist
also
aij ′2
(v − vj′2 ).
2 i
Nun können wir die obige Substitution vornehmen.
Im Ergebnis kommt u1 nur in dem einen Term a11 u21 vor, und die übrigen
Terme bilden eine quadratische Form in den restlichen Variablen, auf die
man die selbe Methode rekursiv anwenden kann. Schließlich erhält man eine
quadratische Form
b1 u21 + . . . + bn u2n .
p
Substituieren wir schließlich wi = |bi |ui für bi 6= 0 und wi = ui für bi = 0,
so erhalten wir eine quadratische Form
2aij vi vj =
sgn(b1 )w12 + . . . + sgn(bn )wn2 .
61
3.5
Parameterabhängige Integrale II
Wir untersuchen jetzt, wann die durch ein parameterabhängiges Integral definierte Funktion
Z
b
f (x, t) dx
I(t) =
a
für feste reelle Zahlen a ≤ b differenzierbar vom Parameter t abhängt. Dabei sei K = R oder K = C, alle Vektorräume seien K-Vektorräume, und
Differenzierbarkeit bedeute K-Differenzierbarkeit.
Satz 41. Es sei W ein endlichdimensionaler Vektorraum und U eine offene
Teilmenge von K. Die Funktion f : [a, b] × U → W sei nach der Variablen t
partiell differenzierbar, und ∂t f : [a, b] × U → W sei stetig. Dann ist I stetig
differenzierbar, und
Z
b
I ′ (t) =
∂t f (x, t) dx.
a
Beweis. Wir halten eine Stelle u ∈ U fest und definieren g : [a, b] × U → W
durch

 f (x, t) − f (x, u)
, falls t 6= u,
g(x, t) =
t−u
∂ f (x, u),
falls t = u.
t
Nach den Rechenregeln ist g für t 6= u stetig, und laut Definition der partiellen Ableitung ist g(c, t) für festes c ∈ [a, b] als Funktion von t stetig.
Wir benötigen aber die Stetigkeit von g als Funktion aller Variablen an den
Stellen der Form (c, u).
Offensichtlich ist die Ableitung von f (x, u + h(t − u)) als Funktion von h
gleich
∂t f (x, u + h(t − u))(t − u).
Mit Satz 27 folgt für t in einer Umgebung von u, aber verschieden von u,
dass
Z 1
g(x, t) =
∂t f (x, u + h(t − u)) dh,
0
und dies gilt offensichtlich auch für h = 0. Ist nun ε > 0, so gibt es wegen
der Stetigkeit von ∂t f ein δ > 0, so dass für (x, t) ∈ [a, b] × U mit den
Eigenschaften |x − c| < δ und |t − u| < δ gilt
k∂t f (x, t) − ∂t f (c, u)k < ε.
Für diese (x, t) folgt dann nach Satz 26
Z 1
kg(x, t) − g(c, u)k ≤
k∂t f (x, u + h(t − u)) − ∂t f (c, u)k dh < ε.
0
62
Da ε beleibig war, ist g an der Stelle (c, u) stetig.
Wenden wir Aufgabe 26 und Satz 31 auf g an, so folgt
Z b
Z b
lim
g(x, u) dx.
g(x, t) dx =
t→u
a
a
Setzen wir die Definition von g ein, so ergibt sich
Z b
I(t) − I(u)
lim
∂t f (x, u) dx,
=
t→u
t−u
a
also ist I an der Stelle u differenzierbar, und die behauptete Formel gilt. Aus
dieser folgt die Stetigkeit von I mit Satz 31.
Beispiel. Die Funktion
ln(x + t)
x
2
ist stetig auf {(x, t) ∈ R | x 6= 0, x + t > 0}. Für feste a ≤ b ist die Funktion
Z b
ln(x + t)
dx
I(t) =
x
a
f (x, t) =
für t > −a definiert. Man kann beweisen, dass I keine elementare Funktion
ist. Mit Satz 41 folgt
Z a
dx
′
I (t) =
.
1 x(x + t)
Für t 6= 0 ist
x=b
Z 1
ln x − ln(x + t) 1 a(t + b)
1 a 1
′
−
,
dx =
= ln
I (t) =
t 1
x x+t
t
t b(t + a)
x=a
während
′
I (0) =
′
Z
b
a
x=b
1 1
1 dx
= − .
=− 2
x
x x=a a b
Nach dem Satz ist I stetig, was sich natürlich auch aus den Rechenregeln
für Grenzwerte ergibt. ⊳
Ein Integral kann auch von mehreren Parametern abhängen.
Folgerung 10. Es seien V und W endlichdimensionale Vektorräume und U
eine offene Teilmenge von V . Für alle x ∈ [a, b] existiere die kte Ableitung
von f nach der Variablen t ∈ U , und die entstehende Funktion ∂tk f : [a, b] ×
U → Multk (V, W ) sei stetig. Dann ist I ∈ C k (U, W ), und es gilt
Z b
(k)
∂tk f (x, t) dx.
I (t) =
a
63
Beweis. Für k = 0 folgt dies aus Satz 31. Nun sei k = 1. Für festes u ∈ U
und v ∈ V können wir Satz 41 auf f (u + hv) als Funktion von h anwenden
und erhalten
Z
b
∂v f (x, u) dx.
∂v I(u) =
a
Dies gilt für alle u ∈ U , und da ∂v f stetig ist, folgt mit Satz 31 die Stetigkeit
von ∂v I. Dies gilt für alle v, und mit Satz 33 folgt die Stetigkeit von I ′ sowie
die Formel für k = 1.
Den Beweis für beliebige k führen wir durch vollständige Induktion. Angenommen, die Behauptung gilt für eine Zahl k. Wenn f nun k + 1 Mal
bezüglich t differenzierbar und ∂tk+1 f stetig ist, so ist nach dem Bewiesenen
zunächst
Z
b
I ′ (t) =
∂t f (x, t) dx.
a
Da die Funktion ∂t f nun k Man stetig nach t differenzierbar ist, können wir
die Induktionsvoraussetzung darauf anwenden. Die Funktion I ′ ist also k Mal
stetig differenzierbar, und
Z b
′ (k)
∂tk ∂t f (x, t) dx.
(I ) (t) =
a
Damit gilt die Behauptung auch für k + 1.
Beispiel. Durch das Eulersche Integral
Z 1
xp−1 (1 − x)q−1 dx
B(p, q) =
0
wird die Betafunktion14 definiert. Nach Aufgabe 3 (auf komplexwertige Funktionen verallgemeinert) ist B auf der offenen Teilmenge
{(p, q) ∈ C2 | Re p > 0, Re q > 0}
von C2 definiert, und nach Folgerung 10 ist B unendlich oft C-differenzierbar.
In der Lösung von Aufgabe 3 wurde durch partielle Integration gezeigt, dass
pB(p, q + 1) = qB(p + 1, q),
und durch Substitution sieht man, dass B(p, q) = B(q, p). ⊳
In Lemma 7 haben wir den verallgemeinerten Differenzenquotienten an
einer festen Stelle a betrachtet, der bekanntlich nicht eindeutig bestimmt
ist. In späteren Anwendungen benötigen wir eine Version, die differenzierbar
von a abhängt.
14
Der Buchstabe B ist ein großes Beta.
64
Lemma 8 (Hadamard). Es seien V und W endlichdimensionale Vektorräume
und U eine offene Teilmenge von V . Weiter sei f ∈ C k+1 (U, W ) und
Ũ = {(x, y) ∈ U × U | [x, y] ⊆ U }.
Dann gibt es eine Funktion f˜ ∈ C k (Ũ , Hom(V, W )), so dass für (x, y) ∈ Ũ
gilt
f (x) − f (y) = f˜(x, y)(x − y).
Beweis. Wir definieren für (x, y) ∈ Ũ und v ∈ V
Z 1
˜
∂v f (y + h(x − y)) dh.
f (x, y)v =
0
Nach Satz 35 ist der Integrand in C k (Ũ , W ), und die Differenzierbarkeit von
f˜ ergibt sich aus Folgerung 10. Im Fall v = x − y ist der Integrand gleich
der Ableitung von f (y + h(x − y)) als Funktion von h, und die behauptete
Formel folgt aus Satz 27.
Die Identität aus dem Lemma mit der expliziten Form von f˜ aus dem
Beweis ist nichts anderes als die Taylorsche Formel aus Satz 37 im Fall k = 0.
4
4.1
Nichtlineare Gleichungen
Das Newtonverfahren
Eine nichtlineare Gleichung mit n Unbekannten kann man in der Form
f (x1 , . . . , xn ) = 0
schreiben, wobei f eine Funktion von n Variablen ist. Ihre Lösungen zu finden
bedeutet, das Urbild der Null zu bestimmen. Wir fassen die Variablen zu
einem Punkt x ∈ K n zusammen. Fragt man nach den Lösungen von
f (x) = y
für gegebenes y, so ist dies zwar nicht allgemeiner, aber man kann die Abhängigkeit von y untersuchen. Auch ein System von nichtlinearen Gleichungen kann
man in der selben Weise verstehen, wenn man vektorwertige Funktionen f
zulässt. Wir wollen zunächst Bedingungen finden, unter denen die Lösung in
einer Teilmenge des Definitionsbereichs von f eindeutig ist.
Systeme von linearen Gleichungen kann man in der Form
l(x) = y
65
schreiben, wobei l : V → W eine lineare Abbildung ist. In diesem Fall ist aus
der linearen Algebra bekannt, dass die Lösung nur eindeutig sein kann, wenn
l invertierbar ist, und dazu müssen V und W die selbe Dimension haben.
Wir wollen den Fall differenzierbarer Abbildungen f : D → W betrachten, wobei D eine offene Teilmenge von V ist. Für einen Punkt a ∈ D, in dem
f ′ (a) ∈ Hom(V, W ) invertierbar ist, ersetzen wir f durch die affine Abbildung
f (a) + f ′ (a)(x − a).
Die Lösung der linearisierten Gleichung
f (a) + f ′ (a)(x − a) = y
ist dann
x1 = a + f ′ (a)−1 (y − f (a)).
Dies ist zwar im allgemeinen keine Lösung der Ausgangsgleichung, aber wir
hoffen, dass wir der Lösung näherkommen. Durch Iteration erhält man das
Newtonverfahren: Man definiert rekursiv eine Folge xk durch
x0 = a,
xk+1 = xk + f ′ (xk )−1 (y − f (xk ))
(solange xk ∈ D ist).
Beispiel. Wir suchen eine Lösung der Gleichung
x2 = y.
Hier ist f ′ (a) = 2a, also
x1 = a +
y − a2
1
y
=
a+
.
2a
2
a
Das Newtonverfahren ist also in diesem Fall nichts anderes als das Heronverfahren. ⊳
In der Praxis ist das Invertieren einer linearen Abbildung sehr aufwendig.
Darum benutzt man manchmal das modifizierte Newtonverfahren
xk+1 = xk + f ′ (a)−1 (y − f (xk )).
Lemma 9. Die Funktion f : D → W sei auf der offenen Teilmenge D
von V stetig differenzierbar, und f ′ (a) sei invertierbar. Dann gibt es eine
Umgebung U von b = f (a) und eine Teilmenge X von D, so dass für alle
y ∈ U genau eine Lösung der Gleichung f (x) = y in X̊ existiert und das
modifizierte Newtonverfahren mit Anfangswert x0 ∈ X gegen diese Lösung
konvergiert.
66
Beweis. Zur Abkürzung sei f ′ (a)−1 = l ∈ Hom(W, V ). Wir schreiben die
Rekursionsformel im modifizierten Newtonverfahren in der Form
xk+1 = hy (xk ),
wobei die Abbildung hy : D → V für jedes y ∈ W durch
hy (x) = x + l(y − f (x))
gegeben ist. Ein Punkt x ∈ D ist genau dann Fixpunkt von hy , wenn f (x) = y
ist. Nach Satz 34 ist hy stetig differenzierbar, und
h′y (x) = id − f ′ (a)−1 f ′ (x).
Offensichtlich ist h′y (a) = 0. Wegen der Offenheit von D und der Stetigkeit
von h′y existiert ein δ > 0, so dass für x ∈ V mit der Eigenschaft kx − ak ≤ δ
gilt
1
x ∈ D,
kh′y (x)k ≤ .
2
Es sei X = {x ∈ V | kx − ak ≤ δ}. Für x1 , x2 ∈ X können wir Satz 27 und
Satz 26(iv) auf hy (x1 + t(x2 − x1 )) anwenden und erhalten
1
khy (x1 ) − hy (x2 )k ≤ kx1 − x2 k.
2
Um zu sehen, ob hy die Menge X in sich selbst abbildet, schreiben wir
hy (x) − a = (hy (x) − hy (a)) + l(y − b).
Setzen wir U = {y ∈ W | ky − bk <
δ
},
2klk
so folgt für x ∈ X und y ∈ U
1
khy (x) − ak ≤ kx − ak + klkky − bk < δ,
2
also hy (x) ∈ X̊. Somit ist hy für y ∈ U eine Kontraktion von X. Da X
nach Satz 19 kompakt und nach den Sätzen 17 und 16 vollständig ist, hat
hy nach Satz 11 genau einen Fixpunkt in X, der offenbar in X̊ liegt. Nach
dem Beweis von Satz 11 konvergiert das modifizierte Newtonverfahren gegen
diesen Fixpunkt.
Wir können nun endlich Satz I.69 auf Funktionen von mehreren Variablen
verallgemeinern.
67
Satz 42. Es seien V und W Vektorräume, D eine offene Teilmenge von V
und k ≥ 1. Weiter sei f ∈ C k (D, W ) und a ∈ D, wobei f ′ (a) invertierbar
ist. Dann gibt es Umgebungen U1 von a in V und U von b = f (a) in W ,
so dass U1 von f bijektiv auf U abgebildet wird und die Umkehrabbildung in
C k (U, V ) ist.
Beweis. Es seien U und X wie in Lemma 9. Da es für jedes y ∈ U genau
eine Lösung von f (x) = y in X̊ gibt, wird U1 = f −1 (U ) ∩ X̊ bijektiv auf U
abgebildet. Es sei g : U → U1 die Umkehrabbildung.
Für x1 , x2 ∈ X gilt laut Definition von hy
x1 − x2 = hy (x1 ) − hy (x2 ) + l(f (x1 ) − f (x2 )),
also
1
kx1 − x2 k ≤ kx1 − x2 k + klkkf (x1 ) − f (x2 )k
2
und schließlich
kx1 − x2 k ≤ 2klkkf (x1 ) − f (x2 )k.
Sind y1 , y2 ∈ U und setzen wir xi = g(yi ), so folgt
kg(y1 ) − g(y2 )k ≤ 2klkky1 − y2 k.
Somit ist g auf U Lipschitz-stetig.
Wegen der Differenzierbarkeit von f an einer beliebigen Stelle c ∈ X gibt
es nach Lemma 7 eine Funktion f˜ : D → Hom(V, W ), die an der Stelle c
stetig ist, so dass
f (x) − f (c) = f˜(x)(x − c).
Sind nun d, y ∈ U , so folgt durch Anwendung auf c = g(d) und x = g(y)
y − d = f˜(g(y))(g(y) − g(d)).
Die Teilmenge der invertierbaren Elemente von Hom(V, W ) ist offen (Übungsaufgabe), also eine Umgebung von f˜(c) = f ′ (c). Nach Satz 8 gibt es eine
Umgebung Uc von c in D, so dass f˜(x) für x ∈ Uc invertierbar ist. Für y in
der Umgebung g −1 (Uc ) von d folgt
g(y) − g(d) = f˜(g(y))−1 (y − d),
und f˜ ◦ g ist nach Satz 9 an der Stelle d stetig. Nach Lemma 7 ist g also an
der Stelle d differenzierbar. Wegen f˜(c) = f ′ (c) folgt
g ′ (d) = f ′ (g(d))−1 .
68
Da die Abbildung, die jeder invertierbaren linearen Abbildung V → W ihr
Inverses zuordnet, stetig ist (Übungsaufgabe), folgt mit Satz 34(iii), dass
g ∈ C 1 (U, V ).
Wir beweisen nun durch vollständige Induktion, dass aus f ∈ C k (D, W )
folgt g ∈ C k (U, V ). Der Induktionsanfang k = 1 ist bereits erledigt. Angenommen, die Aussage gilt für eine Zahl k. Ist nun f ∈ C k+1 (D, W ), so ist
nach Definition f ′ ∈ C k (D, Hom(V, W )) und nach Induktionsvoraussetzung
g ∈ C k (U, V ). Da die Abbildung, die jeder invertierbaren Abbildung V → W
ihr Inverses zuordnet, beliebig oft differenzierbar ist, folgt aus der obigen
Formel mit Satz 35, dass g ′ ∈ C k (U, Hom(W, V ), also g ∈ C k+1 (U, V ).
Man kann die Aussage des Satzes auch so ausdrücken, dass f ein Diffeomorphismus der Klasse C k von U1 auf U ist. Differenzieren wir die Funktion
g ◦ f = id, so folgt mit Satz 34
g ′ (b)f ′ (a) = id.
Daraus ergibt sich
g ′ (b) = f ′ (g(b))−1
wie schon in Analysis I.
Beispiel. Die durch f (x) = x2 gegebene Funktion f : K → K hat die Ableitung f ′ (x) = 2x, die für x 6= 0 invertierbar ist. Also hat jeder Punkt
a ∈ K \ {0} eine Umgebung U1 , so dass die Einschränkung von f auf U1
invertierbar ist. Die Lösung der Gleichung x2 = y ist bis auf das Vorzeichen
bestimmt. Während man im Fall K = R üblicherweise U1 = ]0, ∞[ wählt, so
dass nur ein Zweig der Parabel den Graphen der Wurzelfunktion darstellt,
gibt es im Fall K = C mehrere naheliegende Möglichkeiten. Wählt man die
offene rechte Halbebene als U1 , so erhält man den sogenannten Hauptzweig
der Wurzel. ⊳
Beispiel. Die Funktion exp : K → K hat die Ableitung exp, die in jedem
Punkt invertierbar ist. Während die Exponentialfunktion im Fall K = R
injektiv ist, ist die Lösung der Gleichung exp z = w für gegebenes w ∈ C\{0}
nach Satz I.60 nur bis auf Addition von Vielfachen von 2πi bestimmt. Ist
die Einschränkung von exp auf eine offene Teilmenge U1 ⊆ C injektiv und
stetig, so nennt man ihre Umkehrfunktion einen Zweig des
Logarithmus. Den
Hauptzweig erhält man bei der Wahl von U1 = {z ∈ C | Im z| < π}. ⊳
Beispiel. Jede C-differenzierbare Abbildung ist ja auch R-differenzierbar.
Schreiben wir im vorigen Beispiel w = x + iy und z = s + it, so erhalten wir
x = es cos t,
y = es sin t.
69
Bezeichnet man noch es = r, so erhält man eine unendlich oft differenzierbare Abbildung ]0, ∞[ × R → R2 \ {(0, 0)}. Durch Einschränkung auf eine
Teilmenge U1 erhält man einen Diffeomorphismus auf eine Teilmenge U . Man
nennt (r, t) dann die Polarkoordinaten des Punktes (x, y) ∈ U . ⊳
4.2
Implizite Funktionen
Wir wollen nun Gleichungen betrachten, die sich nicht einmal lokal eindeutig
lösen lassen. Dieses Phänomen tritt schon bei linearen Gleichungssystemen
auf. Dort stellt sich heraus, dass man einen Teil der Variablen frei wählen
kann und dann die restlichen Variablen eindeutig bestimmt sind. Wir wollen
dieses Ergebnis auf nichtlineare Gleichungen verallgemeinern.
Beispiel. Betrachten wir die Gleichung
x2 + y 2 = 1,
√
so gibt es für gegebenes x ∈ ]−1, 1[ genau zwei Lösungen y = ± 1 − x2 .
Wählt man ein Vorzeichen aus, so erhält man y als stetige Funktion von x.
Für diese Funktion haben wir eine explizite Formel. ⊳
Beispiel. Bei der Gleichung
exy = x2 + y
können wir die Lösung (0, 1) erraten, aber es ist unmöglich, die Gleichung
explizit nach y aufzulösen. ⊳
Allgemein betrachten wir Gleichungen der Form G(x, y) = 0. Finden wir
für jedes x in einer Menge D1 (beispielsweise mit Hilfe des (modifizierten)
Newtonverfahrens) ein y, so dass (x, y) eine Lösung ist, dann erhalten wir eine
Funktion auf D1 . Man sagt, dass diese Funktion implizit durch die Gleichung
G(x, y) = 0 gegeben ist. Wir fragen uns, ob man die Lösungen y jeweils so
wählen kann, dass diese Funktion stetig oder sogar differenzierbar ist.
Satz 43. Es seien U , V und W Vektorräume, D eine offene Teilmenge
von U × V und k ≥ 1. Weiter sei G ∈ C k (D, W ) und (a, b) ∈ D, so dass
G(a, b) = 0 und ∂y G(a, b) ∈ Hom(V, W ) invertierbar ist. Dann gibt es Umgebungen D1 von a und D2 von b und eine Abbildung f ∈ C k (D1 , V ), so dass
D1 × D2 ⊆ D und
{(x, y) ∈ D1 × D2 | G(x, y) = 0} = {(x, f (x)) | x ∈ D1 }.
Hier bezeichnet ∂y G wie schon in Folgerung 10 die partiell totale Ableitung bezüglich der V -Komponente y des Argumentes (x, y) ∈ U × V .
Ist eine Funktion g : V → U gegeben und wenden wir den Satz auf die
Funktion
G(x, y) = g(y) − x
70
an, so erhalten wir Satz 42 (mit vertauschten Bezeichnungen f (x) und g(y))
als Spezialfall. Man könnte den damaligen Beweis auf die jetzige Situation
verallgemeinern, aber durch einen Kunstgriff können wir uns diese Arbeit
ersparen.
Beweis. Wir definieren eine Abbildung F : D → U × W durch
F (x, y) = (x, G(x, y)).
Nach Satz 35 ist F ∈ C k (D, U × W ), und nach Satz 34 gilt
F ′ (a, b)(u, v) = (u, ∂x G(a, b)u + ∂y G(a, b)v).
Ist dieser Wert vorgegeben, so bestimmt man aus der ersten Komponente
zunächst u, und wegen der Invertierbarkeit von ∂y G(a, b) ist auch v bestimmt.
Die Abbildung F ′ (a, b) ist also invertierbar.
Nach Satz 42 ist die Einschränkung von F auf eine geeignete Umgebung
von (a, b) in D ein Diffeomorphismus der Klasse C k . Wählen wir die Norm
k(x, y)k = max{kxk, kyk} auf U × V , so sieht man, dass diese Umgebung
von (a, b) eine Menge der Form E1 × D2 enthält, wobei E1 eine Umgebung
von a und D2 eine Umgebung von b ist. Die Umkehrabbildung von F |E1 ×D2
bezeichnen wir mit H. Nach Satz 35 ist H ∈ C k (F (E1 × D2 ), U × V ).
Es sei D1 = {x ∈ E1 | (x, 0) ∈ F (E1 × D2 )}. Dies ist eine Umgebung
von a, denn (a, 0) = F (a, b). Für x ∈ D1 bezeichnen wir die V -Komponente
von H(x, 0) ∈ D1 × D2 ⊆ U × V mit f (x). Dann ist f ∈ C k (D1 , V ) und
f (D1 ) ⊆ D2 .
Ist (x, y) ∈ D1 × D2 derart, dass G(x, y) = 0 ist, so ist F (x, y) = (x, 0),
also (x, y) = H(x, 0) und f (x) = y. Ist umgekehrt x ∈ D1 und y = f (x), so
ist H(x, 0) = (x, y), also F (x, y) = (x, 0) und G(x, y) = 0.
Bemerkung. Bilden wir in den Bezeichnungen des Satzes die Ableitung von
G(x, f (x)) = 0 als Funktion von x, so ergibt sich nach Satz 34
∂x G(a, b) + ∂y G(a, b)f ′ (a) = 0.
Man kann also
f ′ (a) = −∂y G(a, b)−1 ∂x G(a, b)
bestimmen, auch wenn man keine explizite Formel für f hat. Dieses Verfahren, das sich auf höhere Ableitungen verallgemeinern lässt, nennt man
implizite Differentiation.
Beispiel. Für die durch
G(x, y) = exy − x2 − y
71
gegebene Funktion G : R2 → R ist
∂x G(x, y) = yexy − 2x,
∂y G(x, y) = xexy − 1.
Insbesondere ist ∂y G(0, 1) = −1 invertierbar, also gibt es Zahlen δ1 > 0,
δ2 > 0 und eine Funktion f : ]−δ1 , δ1 [ → R, so dass für |x| < δ1 genau dann
f (x) = y gilt, wenn
exy = x2 + y,
|y − 1| < δ2 .
Außerdem ist
f ′ (0) = −∂y G(0, 1)−1 ∂x G(0, 1) = 1.
4.3
⊳
Stationäre Punkte unter Nebenbedingungen
Wir suchen nach lokalen Extrema der Einschränkung einer Funktion f auf
die Lösungsmenge eines Gleichungssystems der Form g(x) = 0. Hierfür ist
das Kriterium aus Satz 39 nicht anwendbar.
Bevor wir den geeigneten Begriff einführen, erinnern wir daran, dass man
das Urbild des Nullvektors unter einer linearen Abbildung l den Kern von l
nennt und mit Ker l abkürzt. Dies ist ein linearer Unterraum. Es gilt genau
dann Ker l = {0}, wenn l injektiv ist.
Definition 32. Es seien V und W Vektorräume über K und D eine offene
Teilmenge von V . Weiter seien Abbildungen f : D → K und g : D → W
gegeben, die an einer Stelle a ∈ D differenzierbar sind. Ein Punkt a ∈ D
heißt stationärer Punkt von f unter der Nebenbedingung g, wenn
g(a) = 0,
Ker g ′ (a) ⊆ Ker f ′ (a).
Wir werden diesen Begriff nur im Fall K = R benötigen.
Satz 44. Es seien V und W reelle Vektorräume und D eine offene Teilmenge
von V . Weiter seien Abbildungen f : D → R und g ∈ C 1 (D, W ) gegeben.
Hat die Einschränkung von f auf die Menge X = {x ∈ D | g(x) = 0} an
der Stelle a ein lokales Extremum und ist f an dieser Stelle differenzierbar
sowie g ′ (a) : V → W surjektiv, so ist a ein stationärer Punkt von f unter
der Nebenbedingung g.
Beweis. Es sei a wie im Satz und V1 = Ker g ′ (a). Dann gibt es einen Unterraum V2 von V , so dass die lineare Abbildung V1 ×V2 → V , (v1 , v2 ) 7→ v1 +v2 ,
ein Isomorphismus ist. Indem wir f und g mit diesem Isomorphismus verketten, erhalten wir Abbildungen mit den selben Differenzierbarkeitseigenschaften. Wir können also annehmen, dass V selbst die Form V1 × V2 hat und
72
g ′ (a)(v1 , v2 ) = ∂2 g(a)v2 ist, wobei die partiell totale Ableitung ∂2 g(a) : V2 →
W den Kern {0} hat und somit injektiv ist. Da sie ebenso wie g ′ (a) nach
Voraussetzung surjektiv ist, ist sie umkehrbar. Schreiben wir a = (a1 , a2 ), so
existiert nach Satz 43 eine Umgebung D1 von a1 sowie eine stetig differenzierbare Abbildung h : D1 → V2 , so dass h(a1 ) = a2 und
{(x1 , h(x1 )) | x1 ∈ D1 } ⊆ X.
Außerdem ist
h′ (a1 ) = −∂2 g(a)−1 ∂1 g(a) = 0.
Nun sei v ∈ Ker g ′ (a). Dann ist v = (v1 , 0), und die Menge
Uv = {t ∈ R | a1 + tv1 ∈ D1 }
ist nach Satz 8 eine Umgebung der Null. Setzen wir
fv (t) = f (a1 + tv1 , h(a1 + tv1 )),
so erhalten wir eine Abbildung fv : Uv → X. Nach Satz 34 ist sie an der
Stelle t = 0 differenzierbar, und
fv′ (0) = ∂1 f (a)v1 + ∂2 f (a)h′ (a1 )v1 = ∂1 f (a)v1 .
Außerdem hat fv an der Stelle t = 0 ein lokales Extremum, und laut Satz I.70
ist fv′ (0) = 0. Es folgt f ′ (a)v = ∂1 f (a)v1 = 0. Da v ∈ Ker g ′ (a) beliebig war,
haben wir bewiesen, dass Ker g ′ (a) ⊆ Ker f ′ (a).
Um stationäre Punkte unter Nebenbedingungen zu finden, benutzt man
folgende Aussage aus der linearen Algebra.
Satz 45. Es seien V und W Vektorräume über K sowie l : V → K und
m : V → W lineare Abbildungen, wobei m surjektiv ist. Es ist genau dann
Ker m ⊆ Ker l, wenn es eine lineare Abbildung λ : W → K mit der Eigenschaft l = λ ◦ m gibt.
Beweis. Es sei Ker m ⊆ Ker l. Für jedes w ∈ W gibt es wegen der Surjektivität von m ein v ∈ V , so dass m(v) = w. Wir behaupten, dass l(v) nur von w
abhängt. Gilt nämlich für v ′ ∈ V ebenfalls m(v ′ ) = w, so ist m(v − v ′ ) = 0,
also l(v − v ′ ) = 0 und schließlich l(v) = l(v ′ ). Wir setzen λ(w) = l(v). Verfahren wir so für alle w, erhalten wir eine Abbildung λ mit der Eigenschaft
l = λ ◦ m.
Sind w1 , w2 ∈ W gegeben, so können wir v1 , v2 ∈ V mit der Eigenschaft
m(v1 ) = w1 , m(v2 ) = w2 wählen, und dann gilt m(v1 + v2 ) = w1 + w2 , also
λ(w1 + w2 ) = l(v1 + v2 ) = l(v1 ) + l(v2 ) = λ(w1 ) + λ(w2 ).
73
Analog beweist man, dass für w ∈ W und c ∈ K gilt λ(cw) = cλ(w), und
somit ist λ linear.
Die Umkehrung ist offensichtlich.
Ist f ∈ F 1 (D, K), g ∈ C 1 (D, W ) und g ′ (x) für alle x ∈ D surjektiv, so
findet man die stationären Punkte von f unter der Nebenbedingung g, indem
man das Gleichungssystem
λg ′ (x) = f ′ (a),
g(x) = 0
mit den Unbekannten x ∈ D und λ ∈ Hom(V, K) löst.
Im Spezialfall V = Rn und W = Rm gibt es für jedes λ Zahlen λ1 , . . . ,
λm , so dass für jeden Vektor w = (w1 , . . . , wm ) gilt
λ(w) = λ1 w1 + . . . + λm wm .
Wenn wir die Koordinaten von x mit xi und die Koordinatenfunktionen von
g mit gj bezeichnen, so erscheint unser Gleichungssystem in der Form
λ1 ∂1 g1 (x1 , . . . , xn ) + . . . + λm ∂1 gm (x1 , . . . , xn ) = ∂1 f (x1 , . . . , xn ),
..
.
λ1 ∂n g1 (x1 , . . . , xn ) + . . . + λm ∂n gm (x1 , . . . , xn ) = ∂n f (x1 , . . . , xn ),
g1 (x1 , . . . , xn ) = 0,
..
.
gm (x1 , . . . , xn ) = 0
mit m + n Unbekannten und ebenso vielen Gleichungen. Für jede Lösung
(x1 , . . . , xn , λ1 , . . . , λm ) ist (x1 , . . . , xn ) ein stationärer Punkt unter den Nebenbedingungen g1 (x1 , . . . , xn ) = 0, . . . , gn (x1 , . . . , xn ) = 0. Die Hilfsgrößen
λ1 , . . . , λm nennt man Lagrange-Multiplikatoren.
Beispiel. Wir suchen die Punkte in
X = {(x, y) ∈ R2 | x4 + y 4 = 4xy + 8},
die den größten bzw. kleinsten Abstand vom Koordinatenursprung haben
(vgl. T. Bröcker, Analysis II, Aufgabe II.15). Dazu setzen wir
f (x, y) = x2 + y 2 ,
g(x, y) = x4 + y 4 − 4xy − 8.
Es gilt
∂x f = 2x,
∂y f = 2y,
∂x g = 4x3 − 4y,
∂y g = 4y 3 − 4x,
74
und g ′ (x, y) ist nur dann nicht invertierbar, wenn
x3 = y,
y 3 = x.
Dies impliziert x9 = x, also (x, y) = (0, 0) oder (x, y) = ±(1, 1). Diese Punkte
liegen aber nicht in X. Wir erhalten das Gleichungssystem
λ(4x3 − 4y) = 2x,
λ(4y 3 − 4x) = 2y,
x4 + y 4 = 4xy + 8.
Ist λ = 0, so ist (x, y) = (0, 0), und die dritte Gleichung ist nicht erfüllt.
Multiplizieren wir die erste Gleichung mit y und die zweite mit x, so erhalten
wir nach Subtraktion und Kürzen von 4λ
(x3 − y)y − (y 3 − x)x = 0,
also
(x + y)(x − y)(xy + 1) = 0.
Ist x + y = 0, so erhalten wir aus der dritten Gleichung
2(x2 )2 + 4x2 − 8 = 0,
also
x2 =
√
5 − 1.
Ist x − y = 0, so folgt hingegen
2(x2 )2 − 4x2 − 8 = 0,
also
x2 =
√
5 + 1.
Ist schließlich xy + 1 = 0, so folgt
x4 + x−4 − 4 = 0,
also
(x4 )2 − 4x4 + 1 = 0
und somit
x4 = 2 ±
75
√
3.
Die stationären Punkte unter der Nebenbedingung g(x, y) = 0 sind also
p√
p√
p√
p√
±
5 + 1,
5+1 ,
±
5 − 1,
5−1 ,
p
p
p
p
√
√ √
√ 4
4
4
4
± 2 − 3, ∓ 2 + 3 .
± 2 + 3, ∓ 2 − 3 ,
Wir behaupten, dass X beschränkt ist. Für (x, y) ∈ X gilt nämlich
8 = x4 + y 4 − 4xy ≥ x4 + y 4 − 2x2 − 2y 2 ,
und wegen y 4 − 2y 2 = (y 2 − 1)2 − 1 ≥ −1 folgt x4 − 2x2 ≤ 9. Für x ≥ 2 ist
also
2
x4
4
9≥x 1− 2 ≥ ,
x
2
√
√
d. h. |x| ≤ 3 2 und analog |y| ≤ 3 2. Außerdem ist X abgeschlossen, also
kompakt, und somit besitzt die Einschränkung von f auf X ein Maximum
und ein Minimum. Die Werte von f in den stationären Punkten sind
p
p
√
√
√
√
2( 5 + 1),
2( 5 − 1),
2 + 3 + 2 − 3,
und ihre Quadrate sind
√
5
5.1
5),
4(6 −
√
5),
6.
√
√
√
√
Wegen p20 < 81, d. h. 2 5 < 9, ist 6 < 4(6 − 5). Der größte Abstand
√
√
ist also 2 + 2 5, der kleinste ist 4 6. ⊳
4(6 +
Gewöhnliche Differentialgleichungen
Der Begriff der Differentialgleichung
Im vorigen Kapitel haben wir uns mit der Lösung von Gleichungen befasst,
in denen die unbekannten Größen Zahlen waren. Nun wenden wir uns Gleichungen zu, in denen unbekannte Funktionen vorkommen. Da wir mehrere
Funktionen zu einer vektorwertigen Funktion zusammenfassen können, bedeutet es keine Einschränkung, wenn wir nur von einer unbekannten Funktion f sprechen. Auch könnnen wir Gleichungssysteme durch eine einzige
Gleichung zwischen Vektoren ausdrücken.
Am naheliegendsten ist der Begriff der Funktionalgleichung, in der die
Werte der gesuchten Funktion an mehreren Stellen vorkommen können. So
hat z. B. das System von Funktionalgleichungen
f (x + y) = f (x) + f (y),
f (cx) = cf (x),
76
die für alle x, y und c erfüllt sein sollen, als Lösung gerade die linearen
Abbildungen. Wir wollen uns hier mit Differentialgleichungen befassen, in
denen der Wert der gesuchten Funktion f und ihrer Ableitungen an ein und
der selben Stelle x vorkommen. Da wir alle Terme auf die linke Seite bringen
können, hat eine Differentialgleichung der Ordnung k die Form
G(x, f (x), f ′ (x), . . . , f (k) (x)) = 0
mit einer gegebenen Funktion G auf einer offenen Teilmenge von
V × W × Hom(V, W ) × . . . × Multk (V, W ),
wobei V und W Vektorräume sind. Eine Lösung ist eine k mal stetig differenzierbare Funktion f : E → W , für die die Gleichung an allen Stellen
der offenen Teilmenge E von V gilt. Insbesondere muss für alle x ∈ E dann
(x, f (x), f ′ (x), . . . , f (k) (x)) im Definitionsbereich von G liegen. Hat eine Differentialgleichung mehrere Lösungen, so kann man nicht alle mit f bezeichnen.
Darum schreibt man die Gleichung in der traditionellen Form
G(x, y, y ′ , . . . , y (k) ) = 0.
Ist E = A ∪ B für disjunkte offene Mengen A und B, so setzen sich Lösungen
auf A und B zu einer Lösung auf E zusammensetzen. Wir brauchen also nur
den Fall zu betrachten, dass E zusammenhängend ist.
Wir werden nur explizite Differentialgleichungen betrachten, d. h. solche
der Form
y (k) = F (x, y, y ′ , . . . , y (k−1) )
mit einer gegebenen Funktion F . (Satz 43 zeigt, dass viele implizite Differentialgleichungen äquivalent zu expliziten Differentialgleichungen sind.) Oft
gibt man einen Punkt
(x0 , y0 , y1 , . . . , yk−1 )
im Definitionsbereich D von F vor und sucht nach Lösungen, die den sogenannten Anfangsbedingungen
f (x0 ) = y0 ,
f ′ (x0 ) = y1 ,
...,
f (k−1) (x0 ) = yk−1
genügen. Da der Graph von (f, f ′ , . . . , f k−1 ) zusammenhängend ist, genügt
es, den Fall zu betrachten, dass die offene Menge D zusammenhängend ist.
Differentialgleichungen, in denen die gesuchte Funktion f von mehreren
Variablen abhängt, nennt man partielle Differentialgleichungen, weil man
hier die totalen Ableitungen f (j) meist durch partielle Ableitungen ausdrückt.
77
Ein Beispiel ist die Wellengleichung aus Aufgabe 34. Wir werden im Folgenden nur gewöhnliche Differentialgleichungen betrachten, d. h. solche, in
denen f von nur einer reellen Variablen abhängt. Dann ist E = I ein offenes
Intervall.
Beispiel. Wir betrachten eine explizite Differentialgleichung erster Ordnung,
in der F nicht von y abhängt, also
y ′ = F (x),
wobei die Werte von F und der gesuchten Funktion in einem Vektorraum
W liegen. Dann kann man annehmen, dass der Definitionsbereich von F ein
Intervall I ist. Die Lösungen sind nun gerade die Stammfunktionen von F .
Ist also F integrierbar und W 6= {0}, so gibt es nach Satz 27 unendlich viele
Lösungen, aber für jedes x0 ∈ I und jedes y0 ∈ W gibt es nur eine Lösung,
die der Anfangsbedingung
f (x0 ) = y0
genügt, nämlich
f (x) = y0 +
5.2
Z
x
F (t) dt.
⊳
x0
Elementare Lösungsmethoden
Wir behandeln nun spezielle Typen von Differentialgleichungen erster Ordnung, deren Lösung sich durch Integration gewinnen lässt.
5.2.1
Gleichungen mit getrennten Variablen
Dies sind Differentialgleichungen der Form
y ′ = g(x)h(y),
wobei g und h auf offenen Intervallen I bzw. J definiert (und stetig) sind.
dy
und formte unter der
Traditionell schrieb man y ′ als Differentialquotient dx
Annahme, dass h nirgends verschwindet, die Differentialgleichung formal um
in
dy
= g(x) dx.
(3)
h(y)
Dann setzte man vor beide Seiten ein Integralzeichen und berechnete (falls
möglich) die unbestimmten Integrale. Schließlich löste man noch nach y auf.
Um den obigen Ausdrücken einen Sinn zu geben, muss man Differentialformen und Wegintegrale einführen. Man kann das Vorgehen aber auch auf
elementare Weise rechtfertigen:
78
Satz 46. Es seien g und h stetige Funktionen auf offenen Intervallen I
bzw. J, (x0 , y0 ) ∈ I × J, und h verschwinde nirgends auf J. Wir definieren
Z x
Z y
du
G(x) =
g(t) dt,
H(y) =
.
x0
y0 h(u)
Ist G(I) ⊆ H(J), so existiert genau eine Lösung f : I → J mit der Eigenschaft f (x0 ) = y0 , und diese ist durch die Gleichung
H(f (x)) = G(x)
für x ∈ I
(4)
bestimmt.
Sind die Voraussetzungen des Satzes zunächst nicht erfüllt, so kann man
sie u. U. durch Verkleinerung von J bzw. I erzwingen.
Beweis. Zunächst zeigen wir, dass jede Lösung von (3), die der Anfangsbedingung f (x0 ) = y0 genügt, die Gleichung (4) erfüllt. Aus (3) folgt nämlich
f ′ (x)
= g(x),
h(f (x))
also
Z x
f ′ (t)
dt =
g(t) dt.
x0
x0 h(f (t))
Mit der Substitution u = f (t) erhält man
Z x
Z f (x)
du
du =
g(t) dt,
x0
f (x0 ) h(u)
Z
x
und wegen f (x0 ) = y0 ist dies gerade die Gleichung (4).
1
Wegen H ′ (y) = h(y)
6= 0 ist H streng monoton und besitzt eine stetig
differenzierbare Umkehrfunktion H −1 : H(J) → R. Aus (4) folgt daher
f (x) = H −1 (G(x)).
(5)
Wenn es also überhaupt eine Lösung von (3) mit f (x0 ) = y0 gibt, so ist sie
eindeutig bestimmt.
Um die Existenz zu beweisen, definieren wir f : I → R durch Gleichung (5), was wegen G(I) ⊆ H(J) möglich ist. Dann ist f stetig differenzierbar, und wegen G(x0 ) = H(x0 ) = 0 gilt
f (x0 ) = H −1 (G(x0 )) = H −1 (0) = y0 .
Aus (5) folgt (4) und, nach Differentiation,
H ′ (f (x))f ′ (x) = G′ (x),
was wegen H ′ =
1
h
und G′ = g gleichbedeutend mit (3) ist.
79
5.2.2
Variation der Konstanten
Hier geht es um lineare Differentialgleichungen erster Ordnung, also Differentialgleichungen der Form
y ′ = a(x)y + b(x),
(6)
wobei a und b stetige Funktionen auf einem offenen Intervall I, die für den
Anfang Werte in R haben mögen. Wir betrachten zunächst den Fall einer
homogenen linearen Gleichung, d. h. dass b konstant gleich Null ist. Dann
liegen getrennte Variablen vor, und mit der obigen Methode erhalten wir
G(y) = log yy0 , wobei J die positive oder negative Halbgerade ist, je nachdem
ob y0 positiv oder negativ ist. Es folgt
Z x
F (x)
f (x) = ce
mit
F (x) =
a(t) dt
x0
und c = y0 . Unsere Methode ist zwar im Fall y0 = 0 nicht anwendbar, aber die
letzte Formel ergibt offenbar auch dann eine Lösung der Differentialgleichung.
Dies ist auch in diesem Fall die einzige Lösung, denn wenn eine Lösung
irgendwo einen von Null verschiedenen Wert annimmt, so ist sie nach dem
Bewiesenen überall von Null verschieden.
Nun betrachten wir den inhomogenen Fall, in dem b nicht konstant gleich
Null ist. Die Methode der Variation der Konstanten besteht darin, die Lösung
in der Form
f (x) = c(x)eF (x)
zu suchen, wobei diesmal c keine Konstante, sondern eine differenzierbare
Funktion ist. Dieser Ansatz schränkt die Allgemeinheit nicht ein, denn jede differenzierbare Funktion f lässt sich so schreiben, nämlich mit c(x) =
f (x)e−F (x) . Setzt man den Ausdruck für f in die Differentialgleichung (6)
ein, so ergibt sich
c′ (x)eF (x) + c(x)eF (x) F ′ (x) = a(x)c(x)eF (x) + b(x).
Unter Berücksichtigung von F ′ = a können wir dies umschreiben zu
c′ (x) = b(x)e−F (x) ,
und die Anfangsbedingung wird zu c(x0 ) = y0 . Die Funktion c lässt sich nun
durch Integration bestimmen und in die Formel für f einsetzen. Anstatt sich
eine geschlossene Formel für die Lösung f einzuprägen, fällt es den meisten
Menschen leichter, die Herleitung im konkreten Fall zu wiederholen.
80
5.3
Existenz und Eindeutigkeit von Lösungen
Wir betrachten explizite gewöhnliche Differentialgleichungen erster Ordnung
y ′ = F (x, y),
(7)
Eine Lösung ist eine stetig differenzierbare Funktion f : I → V , wobei I ein
Intervall und V ein endlichdimensionaler K-Vektorraum ist, und F ist auf
einer offenen Teilmenge D von R × V definiert. Im Fall V = Rn kann man
diese Differentialgleichung als System
 ′

y1 = F1 (x, y1 , . . . , yn ),
..
.

 ′
yn = Fn (x, y1 , . . . , yn ).
schreiben. Um die Existenz und Eindeutigkeit von Lösungen zu zeigen, setzen
wir gewisse Eigenschaften von F voraus.
Definition 33. Es seien (X, b), (Y, d) und (Z, e) metrische Räume, D ⊆ X ×
Y und F : D → Z. Die Abbildung F heißt lokal Lipschitz-stetig bezüglich y,
wenn es für jeden Punkt (a, b) ∈ D eine Umgebung U ⊆ D und eine Konstante c gibt, so dass für alle (x, u) und (x, v) ∈ U gilt
e(F (x, u), F (x, v)) ≤ cd(u, v).
Dies ist nach Satz 26 und 27 z. B. dann der Fall, wenn X, Y und Z endlichdimensionale reelle Vektorräume sind und F auf einer offenen Teilmenge
D stetig nach y differenzierbar ist.
Satz 47 (Picard, Lindelöf). Es sei V ein endlichdimensionaler Vektorraum
und D ⊆ R × V offen, F : D → V stetig und bezüglich y Lipschitz-stetig.
Weiter sei x0 ∈ R und B ⊆ V kompakt, so dass {x0 } × B ⊆ D.
(i) Es gibt ein offenes Intervall I, das x0 enthält, so dass für jedes y0 ∈ B
eine Lösung f : I → V der Differentialgleichung (7) existiert, die der
Anfangsbedingung f (x0 ) = y0 genügt.
(ii) Sind f und g Lösungen mit der Eigenschaft f (x0 ) = g(x0 ) ∈ B, so gibt
es ein offenes Intervall J, das x0 enthält, so dass f |J = g|J .
Beweis. Wir verwenden auf R × V die Norm k(x, y)k = max{|x|, kyk}. Ist
(x0 , b) ∈ D, so gibt es ein ε > 0, so dass der Abschluss der ε-Umgebung
von (x0 , b) in D enthalten ist. Es sei U die ε/2-Umgebung von (x0 , b), B ′
der Abschluss der ε-Umgebung von (x0 , b) und I = ]x0 − δ, x0 + δ[, wobei
81
wir δ ∈ ]0, ε] später festlegen. Dann ist I¯ × B ′ ⊆ D. Wir können ε so klein
wählen, dass die Einschränkung von F auf I¯ × B ′ Lipschitz-stetig ist. Es sei
c eine Lipschitz-Konstante. Wir beweisen den Satz zunächst für B = Ū .
Es sei X die Menge der stetigen Funktionen I¯ → B ′ . Für f ∈ X ist
F (x, f (x)) als Funktion von x ∈ I¯ stetig. Nach Satz 27 ist f ∈ X genau dann
Lösung von (7) und erfüllt die Anfangsbedingung f (x0 ) = y0 , wenn für x ∈ I¯
gilt
Z
x
f (x) = y0 +
F (t, f (t)) dt.
(8)
x0
Für jedes y0 ∈ B setzen wir
Hy0 f (x) = y0 +
Z
x
F (t, f (t)) dt.
x0
¯ V ), und eine Funktion f ∈ X ist genau dann eine
Dann ist Hy0 f ∈ C 1 (I,
Lösung der Integralgleichung (8), wenn sie ein Fixpunkt von Hy0 ist.
Da F stetig ist, gibt es nach Folgerung 5 eine Konstante c′ , so dass für
(x, y) ∈ I¯ × B ′ gilt kF (x, y)k ≤ c′ . Nun folgt für f ∈ X und x ∈ I¯
Z x
Z x
kHy0 f (x) − y0 k = F (t, f (t)) dt ≤ kF (t, f (t))k dt ≤ δc′ .
x0
x0
Wir wählen δ so, dass δc′ ≤ ε/2. Dann wird X von Hy0 in sich selbst abgebildet.
Wegen der Lipschitz-Stetigkeit gilt für alle x ∈ I¯ und u, v ∈ B ′
kF (x, u) − F (x, v)k ≤ cku − vk.
Für f , g ∈ X und x ∈ I¯ folgt
Z x
kHy0 f (x)−Hy0 g(x)k ≤ kF (t, f (t)) − F (t, g(t))k dt ≤ δc sup kf (t)−g(t)k.
t∈I¯
x0
Wir verkleinern δ weiter, so dass δc < 1 ist. Dann ist Hy0 eine Kontraktion.
¯ V ) ist nach Folgerung 4 vollständig. Seine TeilDer metrische Raum C(I,
menge X ist abgeschlossen, also nach Folgerung 3 ein vollständiger Teilraum.
Nach Satz 11 hat Hy0 für jedes y0 ∈ B genau einen Fixpunkt in X. Dies beweist Aussage (i) im Fall B = Ū .
Ist g eine weitere Lösung von (7) mit g(x0 ) = y0 , so ist g stetig, also gibt
es ein offenes Teilintervall J von I, das x0 enthält, so dass für x ∈ J gilt
g(x) ∈ B ′ . Wenden wir das Bewiesene auf J statt I an, so folgt, dass g auf
J mit der Lösung von (8) übereinstimmt. Dies beweist Aussage (ii).
82
Ist nun B beliebig kompakt, so gibt es endlich viele Punkte bk ∈ B, so
dass B von den zugehörigen Umgebungen Uk überdeckt wird. Für jedes k
gibt es ein offenes Intervall Ik , so dass für Anfangswerte in Uk Lösungen
auf Ik existieren. Bezeichnen wir den Durchschnitt der Ik mit I, so folgt
Aussage (i).
Aus dem Beweis ergibt sich, dass durch f0 (x) = y0 und die PicardIteration
Z x
fk+1 (x) = y0 +
F (t, fk (t)) dt
x0
eine Funktionenfolge fk definiert wird, die in einer Umgebung von x0 gleichmäßig gegen die Lösung der Differentialgleichung (7) mit der Anfangsbedingung f (x0 ) = y0 konvergiert.
Der Existenz- und Eindeutigkeitssatz lässt sich noch etwas verbessern.
Satz 48. Es seien D und F wie in Satz 47 und B ⊆ D eine kompakte Teilmenge. Dann gibt es ein δ > 0, so dass für jedes (x0 , y0 ) ∈ B eine Lösung
f : ]x0 − δ, x0 + δ[ → V der Differentialgleichung (7) existiert, die der Anfangsbedingung f (x0 ) = y0 genügt. Zwei Lösungen mit derselben Anfangsbedingung stimmen auf dem Durchschnitt ihrer Definitionsbereiche überein.
Beweis. Die erste Aussage ist sicher dann richtig, wenn die Funktion F nicht
von x abhängt, denn für jede Lösung g mit g(0) = y0 ist dann f (x) = g(x−x0 )
eine Lösung mit f (x0 ) = y0 . Für (x0 , y0 ) ∈ B liegt y0 in der Projektion von B
auf V , die ebenfalls kompakt ist, so dass g nach Satz 47 auf einem Intervall
]−δ, δ[ existiert, das nicht von y0 abhängt.
Den allgemeinen Fall können wir wie folgt darauf zurückführen. Ist f :
I → V eine Lösung der Differentialgleichung (7) mit f (x0 ) = y0 , so genügt
die Funktion f˜ : I → R × V , die durch
f˜(x) = (x, f (x))
gegeben ist, der Differentialgleichung
ỹ ′ = (1, F (ỹ)),
deren rechte Seite nicht von x abhängt, und der Anfangsbedingung
f˜(x0 ) = (x0 , y0 ).
Ist umgekehrt f˜ = (f0 , f ) eine Lösung der letzteren Differentialgleichung
und Anfangsbedingung, so ist f0 (x) = x, also f˜(x) = (x, f (x)), wobei f eine
Lösung der ursprünglichen Differentialgleichung ist.
83
Nun zur Eindeutigkeit. Sind f1 : I1 → V und f2 : I2 → V zwei Lösungen
von (7) und ist sowohl f1 (x0 ) = y0 als auch f2 (x0 ) = y0 , so enthält
A = {x ∈ I1 ∩ I2 | f1 (x) = f2 (x)}
den Punkt x0 und ist wegen der Stetigkeit von f1 − f2 eine abgeschlossene
Teilmenge von I1 ∩ I2 . Nach der Eindeutigkeitsaussage von Satz 47 ist A aber
auch eine offene Teilmenge. Da I1 ∩ I2 als Intervall zusammenhängend ist,
gilt A = I1 ∩ I2 .
Eine Lösung heißt maximal, wenn sie sich nicht zu einer Lösung auf einem größeren Intervall fortsetzen lässt. Aufgrund der Existenzaussage von
Satz 47 ist klar, dass der Definitionsbereich einer maximalen Lösung ein offenes Intervall sein muss.
Folgerung 11. Ist f lokal Lipschitz-stetig bezüglich y, so gibt es zu jedem
(x0 , y0 ) ∈ D eine maximale Lösung f : Ix0 ,y0 → V , die der Anfangsbedingung
f (x0 ) = y0 genügt.
Setzt man nämlich Ix0 ,y0 gleich der Vereinigung sämtlicher Intervalle I, auf
denen Lösungen fI existieren, die der gegebenen Anfangsbedingung genügen,
so gehört jedes x ∈ Ix0 ,y0 zu wenigstens einem dieser Intervalle I. Wir können
dann f (x) = fI (x) setzen, was nach Satz 48 nicht von der Wahl von I
abhängt, und f ist offensichtlich eine Lösung unserer Differentialgleichung.
Wir beweisen nun den globalen Existenzsatz.
Satz 49. Es sei D ⊆ R×V offen, F : D → V stetig und bezüglich y Lipschitzstetig. Ist f : I → V eine maximale Lösung der Differentialgleichung y ′ =
F (x, y), dann ist ihr Graph
{(x, y) ∈ I × V | y = f (x)}
abgeschlossen in D.
Beweis. Angenommen, der Punkt (a, b) ∈ D liegt im Abschluss des Graphen
von f , d. h. es gibt eine Folge (xn , yn ) mit xn ∈ I und yn = f (xn ), so dass
(xn , yn ) → (a, b)
(n → ∞).
Dann ist die Menge
B = {(xn , yn ) | n ∈ N} ∪ {(a, b)}
kompakt, also gibt es nach Satz 48 ein δ > 0, so dass für jedes n ∈ N eine Lösung fn : ]xn − δ, xn + δ[ → V existiert, die der Anfangsbedingung
84
fn (xn ) = yn genügt. Da auch f dieser Bedingung genügt, stimmen aufgrund
der Eindeutigkeitsaussage von Satz 48 die Lösungen f und fn auf dem Intervall I ∩ ]xn − δ, xn + δ[ überein, und wegen der Maximalität von I ist
]xn − δ, xn + δ[ ⊆ I. Da dies für alle n gilt, folgt aus xn → a (n → ∞) nun
a ∈ I. Aus f (xn ) = yn folgt wegen der Stetigkeit von f , dass f (a) = b. Also
liegt (a, b) im Graphen von f .
Folgerung 12. Ist f : I → V eine maximale Lösung und B eine kompakte
Teilmenge von D, so gibt es x+ , x− ∈ I, so dass für alle x ∈ I mit x > x+
oder x < x− gilt (x, f (x)) ∈
/ B.
Der Durchschnitt von B mit dem Graphen von f ist nach Satz 18 kompakt, und nach Satz 22 ist auch die Projektion B ′ dieses Durchschnitts auf
die x-Achse kompakt. Ist B ′ = ∅, so kann man x± beliebig wählen. Anderenfalls hat B ′ ein größtes Element x+ und ein kleinstes Element x− , und
nach Definition des Graphen ist B ′ ⊆ I.
5.4
Lineare Differentialgleichungssysteme
Es sei K = R oder K = C und V ein endlichdimensionaler K-Vektorraum.
Auf einem offenen Intervall I seien Funktionen A : I → End(V ) und b : I →
V gegeben. Im Fall V = K n können wir diese als matrix- bzw. vektorwertige
Funktionen

 

b1
a11 . . . a1n



 ..
.
..  ,
b =  ... 
A= .
an1 . . .
bn
ann
schreiben. Das Gleichungssystem
y ′ = Ay + b
(9)
heißt lineares Differentialgleichungssystem erster Ordnung. Es heißt homogen, wenn b identisch gleich Null ist. Hier ist für y eine V -wertige Funktion
einzusetzen.
Zunächst betrachten wir den Fall eines homogenen Systems.
Satz 50. Ist A : I → End(V ) stetig und g : J → Rn eine Lösung des
Differentialgleichungssystems
y ′ = Ay
(10)
auf einem Teilintervall J ⊆ I, so gilt für alle x0 und x in J
Z x
kA(x)k dx .
kg(x)k ≤ kg(x0 )k exp x0
85
Beweis. Verschwindet die Funktion g an einer Stelle, so ist sie aufgrund von
Satz 48 überall gleich Null, und die Behauptung folgt. Es genügt also den
Fall zu betrachten, dass g nirgends verschwindet.
Nach Satz 27 gilt
Z x
kg(x)k
hg(t), g(t)i′
2 ln
= lnhg(x), g(x)i − lnhg(x0 ), g(x0 )i =
dx.
kg(x0 )k
x0 hg(t), g(t)i
Da g eine Lösung von (10) ist, gilt laut Satz 34
hg, gi′ = hg ′ , gi + hg, g ′ i = 2hAg, gi,
wobei wir das Argument x der Kürze halber weggelassen haben. Mit der
Cauchy-Schwarz-Ungleichung folgt
|hg, gi′ | ≤ 2kAkhg, gi.
Somit erhalten wir
Z x
kg(x)k
≤ kA(t)k dt .
ln
kg(x0 )k
x0
Wegen der Monotonie der Exponentialfunktion folgt die Behauptung.
Folgerung 13. Jede maximale Lösung des homogenen Differentialgleichungssystems (10) ist auf ganz I definiert.
Angenommen, g : J → Rn ist eine maximale Lösung und x1 = sup J liegt
in I. Es sei c = supx∈[x0 ,x1 ] kA(x)k. Dann liegt der Graph von g|[x0 ,x1 [ in der
kompakten Menge
B = [x0 , x1 ] × {y ∈ V | kyk ≤ ec(x1 −x0 ) kg(x0 )k}.
Aus Folgerung 12 erhalten wir ein x ∈ J mit x > x1 (Widerspruch). Es folgt
sup J ∈
/ I, und analog inf J ∈
/ I, so dass J = I.
Folgerung 14. Die Menge aller maximalen Lösungen von (10) ist ein linearer Unterraum L von C 1 (I, V ), und für jedes x0 ∈ I ist die Abbildung
g 7→ g(x0 ) ein Isomorphismus L → V .
Die erste Aussage ist offensichtlich. Die Surjektivität ergibt sich aus Folgerung 13 und die Injektivität aus Satz 48.
Eine Basis g1 , . . . , gn von L heißt Lösungs-Fundamentalsystem von (10).
Man kann sie z. B. gewinnen, indem man eine Basis y1 , . . . , yn von V wählt
und maximale Lösungen findet, die den Anfangsbedingungen g1 (x0 ) = y1 ,
86
. . . , gn (x0 ) = yn genügen. Wir erhalten für jedes x ∈ I eine lineare Abbildung
G(x) : K n → V durch
G(x)c = c1 g1 (x) + . . . cn gn (x).
Offensichtlich ist jede Lösung von dieser Form, und es gilt die Gleichheit von
linearen Abbildungen
G′ (x) = A(x)G(x),
weil beide Seiten bei Anwendung auf ein beliebiges c ∈ K n das selbe Ergebnis liefern. Im Fall V = K n erhalten wir eine Matrixdastellung von G,
genannt Fundamentalmatrix des Systems (10), indem wir die vektorwertigen
Funktionen


 
g11 . . . g1n
g1i

 
.. 
zu
G =  ...
gi =  ... 
. 
gn1 . . .
gni
gnn
vereinigen. Während G praktisch schwer zu bestimmen ist, können wir det G
als Lösung einer skalaren Differentialgleichung finden, denn mit Hilfe des
Beispiels auf S. 47 erhalten wir
(det G(x))′ = tr A(x) det G(x).
Beispiel. Wir betrachten das System
y1
− 2xy2 ,
x
y2
y2′ = 2xy1 + .
x
y1′ =
Die Matrix dieses Systems ist also
A(x) =
1
x
2x
−2x
1
x
.
Ein Lösungs-Fundamentalsystem ist gegeben durch
−x sin x2
x cos x2
,
,
g2 =
g1 =
x cos x2
x sin x2
und die entsprechende Fundamentalmatrix ist
cos x2 − sin x2
.
G(x) = x
sin x2 cos x2
Nun betrachten wir das inhomogene System (9).
87
⊳
Satz 51. Sind A : I → End(V ) und b : I → V stetig, so gibt es zu jedem
(x0 , y0 ) ∈ I × V eine eindeutig bestimmte Lösung f : I → V des Differentialgleichungssystems (9), die der Anfangsbedingung f (x0 ) = y0 genügt.
Beweis. Wir benutzen wieder die Methode der Variation der Konstanten,
d. h. wir suchen die Lösung in der Form
f = c1 g 1 + · · · + cn g n ,
wobei g1 , . . . , gn ein Lösungs-Fundamentalsystem des homogenen Systems (10)
ist und die ci jetzt Funktionen sind. Dies schreiben wir übersichtlicher in der
Form
f (x) = G(x)c(x).
Durch diesen Ansatz wird die Allgemeinheit der gesuchten Funktion f nicht
eingeschränkt, weil G(x) für alle x ∈ I invertierbar ist. Nun gilt
f ′ (x) = G′ (x)c(x) + G(x)c′ (x),
also ist f genau dann Lösung der Differentialgleichung (9), wenn
G′ (x)c(x) + G(x)c′ (x) = A(x)G(x)c(x) + b(x).
Nach Kürzen der vorderen Terme wird dies zu
G(x)c′ (x) = b(x),
und die Lösung ist von der Form
Z x
c(x) =
G(t)−1 b(t) dt + C
x0
mit einem Vektor C ∈ V . Die Anfangsbedingung f (x0 ) = y0 ergibt schließlich
C = G(x0 )−1 y0 .
Beispiel. Das inhomogene System
y1
− 2xy2 + 2x2 ,
y1′ =
x
y2
y2′ = 2xy1 +
x
2
hat dieselbe Matrix A wie im obigen Beispiel und b = 2x0 . Die Methode
aus dem Beweis liefert
2
Z
Z
2x
1 cos x2 sin x2
−1
dx
c(x) = G(x) b(x) =
2
2
0
x − sin x cos x
Z sin x2 + C1
cos x2
2x dx =
.
=
cos x2 + C2
− sin x2
88
Somit ergibt sich die allgemeine Lösung als
− sin x2
0
cos x2
.
+ C2 x
f (x) =
+ C1 x
cos x2
x
sin x2
Folgerung 15. Die Menge der maximalen Lösungen des Differentialgleichungssystems (9) ist ein affiner Unterraum von C 1 (I, V ) der Form A =
f0 + L, wobei L den Raum der Lösungen des zugehörigen homogenen Systems (10) bezeichnet.
Für jedes Lösung f0 von (9) und jede Lösung g von (10) ist nämlich f0 + g
eine Lösung von (9), und für beliebige Lösungen f0 und f von (9) ist f − f0
eine Lösung von (10).
Wenn A konstant ist, kann eine Fundamentalmatrix explizit berechnet
werden. Dazu müssen wir zunächst etwas Versäumtes nachholen.
Satz 52. Es seien V und W Vektorräume über K, D eine wegzusammenhängende offenen Teilmenge von V und fl : D → W eine Folge stetig Kdifferenzierbarer Funktionen. Gilt fl (a) → c (l → ∞) für einen Punkt a ∈ D
und konvergiert die Folge fl′ lokal gleichmäßig gegen eine Funktion h, so konvergiert die Folge fl lokal gleichmäßig gegen eine stetig K-differenzierbare
Funktion f mit der Ableitung f ′ = h.
Übrigens ist jede zusammenhängende offene Teilmenge von V wegzusammenhängend.
Beweis. Ist b ∈ D, so gibt es einen Weg g : [0, 1] → V von a nach b. Man
kann zeigen (Übungsaufgabe), dass man g ∈ C 1 ([0, 1], V ) wählen kann. Nach
Satz 27 ist
Z 1
fl (b) = fl (a) +
fl′ (g(t))g ′ (t) dt.
0
Jeder Punkt g(t) hat eine Umgebung, in der die Folge fl′ gleichmäßig konvergent ist. Nach Satz 22 ist das Bild von g kompakt, also genügen endlich
viele Umgebungen, und somit ist fl ◦ g gleichmäßig konvergent. Mit Satz 32
folgt
Z
1
fl (b) → c +
h(g(t))g ′ (t) dt
0
(l → ∞).
Die rechte Seite ist also f (b).
Für einen beliebigen Punkt b ∈ D gibt es ein η > 0, so dass fl′ auf Uη (b)
gleichmäßig gegen h konvergiert, und für kvk < η haben wir als Spezialfall
der obigen Formel für einen geradlinigen Weg
Z 1
f (b + v) = f (b) +
h(b + tv)v dt,
0
89
Nach Satz 27 gilt auch
fl (b + v) = fl (b) +
Z
1
0
fl′ (b + tv)v dt.
Ziehen wir die vorletzte Gleichung von der letzten ab, so erhalten wir mit
der Dreiecksungleichung und Satz 26(iv)
Z 1
kfl (b + v) − f (b + v)k ≤ kfl (b) − f (b)k + η
kfl′ (b + tv) − h(b + tv)kdt.
0
Damit folgt die gleichmäßige Konvergenz von fl auf Uη (b). Außerdem gilt
f (b + v) = f (b) + h(b)v + r(v),
Nach Satz 10 ist h stetig, also gilt
h(b).
r(v) =
r(v)
kvk
Z
1
0
(h(b + tv) − h(b))v dt.
→ 0 (v → 0) und somit f ′ (b) =
(j)
Folgerung 16. Ist fl ∈ C k (D, W ) und ist für jedes j ≤ k die Folge fl lokal
gleichmäßig konvergent, so gibt es eine Funktion f ∈ C k (D, W ), so dass für
(j)
j ≤ k gilt fl → f (j) (l → ∞).
Beweis. Für k = 0 ist nichts zu beweisen. Angenommen, die Behauptung gilt
für eine Zahl k. Sind nun die Funktionen fl in C k+1 (D, W ) und ist für jedes
(j)
j ≤ k die Folge fl lokal gleichmäßig konvergent, so erfüllen die Funktionen
fl′ die Bedingungen der Induktionsvoraussetzung, also gibt es eine Funkti(j+1)
on h ∈ C k (D, W ), so dass für j ≤ k die Folge fl
lokal gleichmäßig gegen
(j)
h konvergiert. Aus dieser Aussage im Fall j = 0 folgt nach Satz 52, dass
die Folge fl lokal gleichmäßig gegen eine Funktion f ∈ C1(D, W ) mit der
Ableitung f ′ = h konvergiert.
Folgerung 17. Der Raum der beschränkten k Mal stetig differenzierbaren
Funktionen D → W ist bezüglich der Norm
kf k(k) = kf k + kf ′ k + . . . + kf (k) k
vollständig (vgl. Präsenzübung 40 auf Blatt 10).
Nun kommen wir zu unserem Thema zurück.
Satz 53. Es sei V ein endlichdimensionaler K-Vektorraum.
90
(i) Für jedes A ∈ End(V ) ist die Reihe
exp A =
∞
X
1 j
A
j!
j=0
absolut konvergent, und die Partialsummen als Funktionen von A konvergieren lokal gleichmäßig.
(ii) Für A, B ∈ End(V ) mit der Eigenschaft AB = BA gilt
exp(A + B) = exp A exp B.
(iii) Die Abbildung exp ist unendlich oft K-differenzierbar, und für jede
natürliche Zahl k und alle A0 , A1 , . . . , Ak ∈ End(V ) gilt
∞ X
X
1
exp (A0 )(A1 , . . . , Ak ) =
Aπ(1) . . . Aπ(j) ,
j!
j=k π∈P
(k)
jk
wobei Pjk die Menge aller Abbildungen π : {1, . . . , j} → {0, . . . , k} mit
der Eigenschaft |π −1 (i)| = 1 für jedes i ∈ {1, . . . , k} bezeichnet.
Beweis. Wir wählen
eine Norm auf V und erhalten eine Norm auf End(V ).
j
Wegen |Pjk | = k k! gilt für alle m ∈ N
l
l
X
X
X 1
1
kAπ(1) . . . Aπ(j) k = kA1 k · · · kAk k
kA0 kj−k
j!
(j − k)!
j=k
j=k π∈P
jk
≤ kA1 k · · · kAk k exp kA0 k.
Somit ist die Reihe in (iii) für alle A absolut konvergent, also nach Präsenzübung 38 konvergent. Wir bezeichnen ihren Grenzwert mit gk (A0 )(A1 , . . . , Ak ).
Im Fall k = 0 erhalten wir die Reihe aus (i) mit A = A0 , deren Partialsummen
wir mit fl (A) bezeichnen, und es folgt g0 (A) = exp A.
(k)
Nach Satz 34 ist die l-te Partialsumme der Reihe in (iii) gleich fl (A),
und es gilt für l ≥ k
(k)
kfl (A)
− gk (A)k ≤
∞
X
1
kAkj−k ,
(j
−
k)!
j=l+1
wobei links die Norm einer multilinearen Abbildung steht. Für jedes x ≥ 0
∞
P
xj−k
folgt wegen
→ 0 (l → ∞), dass die Einschränkung der Folge
(j−k)!
j=l+1
91
(k)
fl auf die Menge {A ∈ End(V ) | kAk ≤ x} gleichmäßig gegen die Einschränkung von gk konvergent, und da wir x beliebig wählen können, ist die
Konvergenz auf End(V ) lokal gleichmäßig. Dies gilt insbesondere für k = 0,
und (i) ist bewiesen. Außerdem können wir Satz 52 mit einem beliebigen k
anwenden, somit ist exp unendlich oft differenzierbar und exp(k) = gk . Damit
ist (iii) bewiesen. Der Beweis von (ii) ist eine wörtliche Kopie des Beweises
von Satz I.51, weil für vertauschbare A und B die binomische Formel
j
(A + B) =
j X
j
i=0
i
Ai B j−i
gilt.
Die Formel in Aussage (iii) lautet für k = 1
exp′ (A0 )(A) = A +
1
1
(AA0 + A0 A) + (AA20 + A0 AA0 + A20 A) + . . .
2!
3!
Im Fall A0 = xA mit x ∈ R vereinfacht sich die rechte Seite, und wir erhalten
mit Satz 34(iii):
Folgerung 18. Setzen wir G(x) = exp(xA), so gilt G′ (x) = AG(x).
Im Fall V = K n ist G(x) also eine Fundamentalmatrix für das Differentialgleichungssystem y ′ = Ay mit konstanter Marix A. Den Teilnehmern an der
Veranstaltung Lineare Algebra II“ ist klar, dass man exp(A) leicht berech”
nen kann, wenn man eine Basis findet, in der A die Jordansche Normalform
hat.
5.5
Systeme höherer Ordnung
Differentialgleichungen mit höheren Ableitungen treten u. a. in der Physik
auf. So lautet die Grundgleichung der Newtonschen Mechanik F = ma, wobei m die Masse eines Massenpunktes, F die auf ihn wirkende Kraft und a
die resultierende Beschleunigung ist. Dies lässt sich als Differentialgleichung
zweiter Ordnung s′′ = F/m schreiben. Betrachten wir aber den Ort s und
die Geschwindigkeit v = s′ gleichzeitig, so erhalten wir ein System erster
Ordnung
s′ = v,
v ′ = F/m,
das wir mit den bekannten Methoden behandeln können. Diese Idee lässt
sich verallgemeinern.
92
Wir betrachten eine explizite gewöhnliche Differentialgleichung k-ter Ordnung
y (k) = F (x, y, y ′ , . . . , y (k−1) )
(11)
und suchen nach Lösungen f auf einem Intervall I mit Werten in einem
K-Vektorraum V . Die Funktion F ist auf einer offenen Teilmenge D von
R × V × · · · × V = R × V k definiert. Ist V = K n , so handelt es sich um eine
Gleichung zwischen vektorwertigen Funktionen, die sich auch als Gleichungssystem schreiben lässt.
Ein solches System lässt sich auf einfache Weise auf ein System erster
Ordnung zurückführen, wobei sich allerdings die Anzahl der Gleichungen
erhöht. Mit den Bezeichnungen



 

y
ỹ1
ỹ0


 ỹ1   y ′ 
ỹ2



 

˜
und
f
(x,
ỹ)
=
=


 ..   .. 
..


 .   . 
.
(k−1)
f (x, ỹ0 , ỹ1 , . . . , ỹk−1 )
ỹk−1
y
können wir das System in der Form
ỹ ′ = f˜(x, ỹ)
(12)
schreiben. Im Fall V = K n stapeln wir also k Spaltenvektoren der Höhe n
zu einem Spaltenvektor der Höhe kn.
Satz 54. Ist D wie oben und F : D → V stetig und nach den y-Variablen
lokal Lipschitz-stetig, so gibt es für einen beliebigen Punkt (x0 , y0 , . . . , yk−1 )
in D genau eine maximale Lösung f : I → V des Differentialgleichungssystems (11), die den Anfangsbedingungen
f (x0 ) = y0 ,
f ′ (x0 ) = y1 ,
...,
f (k−1) (x0 ) = yk−1
(13)
genügt.
Beweis. Dies folgt unmittelbar aus den bisherigen Resultaten über Systeme
erster Ordnung. Ist f eine Lösung von (11) mit den Anfangsbedingungen (13),
so definieren wir eine Funktion f˜ : I → V k , indem wir f˜i = f (i) setzen, und
diese ist dann eine Lösung von (12) mit der Anfangsbedingung


y0
 y1 


f˜(x0 ) =  ..  .
 . 
yk−1
Umgekehrt erhalten wir aus einer solchen Lösung f˜ eine Lösung f des ursprünglichen Systems (11), indem wir f = f˜0 setzen.
93
Ein lineares gewöhnliches Differentialgleichungssystem k-ter Ordnung ist
ein System der Form
y (k) + Ak−1 (x)y (k−1) + · · · + A1 (x)y ′ + A0 (x)y = b(x),
(14)
wobei A0 , . . . , Ak−1 : I → End(V ) und b : I → V stetige Funktionen sind.
Satz 55. Die Differentialgleichung (14) hat für beliebige Anfangsbedingungen (13) genau eine Lösung f : I → V . Ist dim V = n, so ist die Menge
der maximalen Lösungen der zugehörigen homogenen Gleichung (bei dem
b durch Null ersetzt ist) ein kn-dimensionaler linearer Unterraum L von
C k (I, V ). Die Menge der Lösungen von (14) ist ein affiner Unterraum der
Form A = f0 + L. Eine Menge {g1 , . . . , gkn } ⊆ L ist genau dann linear
unabhängig, wenn die sog. Wronski-Matrix


g1
...
gkn
′
 g1′

...
gkn


W =  ..
..  ∈ Hom(K kn , V k )
 .
. 
(k−1)
(k−1)
g1
. . . gkn
an einer Stelle x ∈ I (und dann auch an allen Stellen) umkehrbar ist.
Beweis. Die Differentialgleichung (14) lässt sich auf ein lineares System erster
Ordnung mit der Matrix


0V
IV


0V
IV




.


.
Ã = 
.
0V



.
..

IV 
−A0 −A1 −A2 . . . −Ak−1
0
0
zurückführen, wobei 0V , IV ∈ End(V ) die Nullabbildung und die identische
Abbildung bezeichnen. Die Spalten der Wronski-Matrix sind gerade die zu
den Lösungen g1 , . . . , gkn des homogenen Systems k-ter Ordnung gehörigen
Lösungen g̃1 , . . . , g̃kn des homogenen Systems erster Ordnung. Nun ergeben
sich die Behauptungen aus Satz 54 und seiner Folgerung.
5.6
Lineare Differentialgleichungen mit konstanten Koeffizienten
Wir betrachten nun den Fall, dass die Koeffizienten Aj in der Differentialgleichung (14) nicht von x abhängen. Man könnte diese Gleichung auf ein
System erster Ordnung zurückführen und dann Folgerung 18 anwenden. Im
skalaren Fall V = K gibt es aber eine einfachere Möglichkeit.
94
Satz 56. Es sei
p(λ) = λk + ak−1 λk−1 + . . . + a1 λ + a0
ein Polynom mit Koeffizienten in K. Gibt es paarweise verschiedene λ1 , . . . ,
λr ∈ K und natürliche Zahlen k1 , . . . , kr , so dass für alle λ ∈ K gilt
p(λ) = (λ − λ1 )k1 · · · (λ − λr )kr ,
so bilden die K-wertigen Funktionen
gij (x) = xj exp(λi x)
mit i ∈ {1, . . . , n} und 0 ≤ j < ki ein Lösungs-Fundamentalsystem der
homogenen Differentialgleichung
y (k) + ak−1 y (k−1) + . . . + a1 y ′ + a0 y = 0.
(15)
Nach dem Hauptsatz der Algebra hat im Fall K = C übrigens jedes
Polynom eine Zerlegung in Linearfaktoren, wie sie im Satz gefordert ist. Man
sagt, dass λi eine ki -fache Nullstelle von p ist.
Wir ordnen jedem Polynom
q(λ) = bl λl + bl−1 λl−1 + . . . + b1 λ + b0
eine Abbildung Dq : C l (R, K) → C(R, K) zu, indem wir festlegen
Dq f = bl f (l) + bl−1 f (l−1) + . . . + b1 f ′ + b0 f.
Abbildungen dieser Form nennt man gewöhnliche Differentialoperatoren mit
konstanten Koeffizienten. Offensichtlich ist f genau dann eine Lösung der
homogenen Differentialgleichung (15), wenn Dp f = 0 ist.
Der Grad des obigen Polynoms q ist definiert als
deg q = sup{j ∈ N | bj 6= 0},
also insbesondere deg 0 = −∞.
Lemma 10. (i) Haben die Polynome p und q die Grade k bzw. l, so gilt
auf C m (R, K)
Dp+q = Dp + Dq ,
Dp·q = Dp ◦ Dq ,
95
falls m ≥ k, m ≥ l,
falls m ≥ k + l.
(ii) Sind p und h Polynome, g(x) = exp(xλ0 ) und setzen wir p0 (λ) =
p(λ + λ0 ), so ist
Dp (hg) = Dp0 (h)g.
Ist p(λ0 ) 6= 0, so hat Dp0 h den selben Grad wie h.
Beweis. (i) Man rechnet leicht die erste Formel und die zweite im Fall der
Polynome q(λ) = c ∈ K oder q(λ) = λ nach. Durch vollständige Induktion
folgt dann die zweite Formel für q(λ) = cλj , und mit der ersten Formel folgt
die zweite Formel für beliebige q.
(ii) Im Fall p(λ) = c ist p0 (λ) = c und
Dp (hg) = chg,
Dp0 h = ch,
und im Fall p(λ) = λ ist p0 (λ) = λ + λ0 und
Dp (hg) = (hg)′ = h′ g + hg ′ = (h′ + λ0 h)g,
Dp0 (h) = h′ + λ0 h,
also gilt die Behauptung in diesen Fällen. Für beliebige Polynome p und q
gilt
(p + q)0 (λ) = (p + q)(λ + λ0 ) = p(λ + λ0 ) + q(λ + λ0 ) = p0 (λ) + q0 (λ),
also (p + q)0 = p0 + q0 , und analog sieht man, dass (pq)0 = p0 q0 . Gilt die
Aussage (ii) für p und für q, so zeigt man sie unter Verwendung von Teil (i) für
p + q und für pq. Aus den bewiesenen Spezialfällen folgt nun die Behauptung
im allgemeinen Fall.
Aus der Aussage (ii) folgt im Fall h = 1, dass Dp g = p0 (0)g = p(λ0 )g. Da
man λ0 beliebig wählen kann, gewinnen wir so aus dem Differentialoperator
Dp das Polynom p zurück. Man nennt es das Symbol von Dp , da man mit Hilfe
von Aussage (i) Identitäten zwischen Differentialoperatoren durch Rechnung
mit Symbolen nachprüfen kann.
Beweis von Satz 56. Mit der Bezeichnung pi (λ) = λ−λi und gi (x) = exp(λi x)
gilt
Dpi gi = gi′ − λi gi = 0
und für j > 0
Dpi gij = gij′ − λi gij = jgi,j−1 .
Mit Lemma 10(ii) folgt für 0 ≤ j < ki
Dpki gij = Dpkii gij = 0
i
und schließlich
Dp gij = 0.
96
Somit sind die angegebenen Funktionen Lösungen der Differentialgleichung.
Die Anzahl der Funktionen gi,j ist k1 + . . . + kr = k, also gleich der
Dimension des Lösungsraumes L, und eine beliebige Linearkombination hat
die Gestalt
h1 g1 + . . . + hr gr
mit Polynomen h1 , . . . , hr , wobei deg hi < ki . Wir zeigen durch vollständige
Induktion nach r, dass diese Linearkombination nur dann gleich Null ist,
wenn alle hi gleich Null sind.
Im Fall r = 1 folgt die Behauptung, weil g1 nirgends verschwindet.
Angenommen, die Behauptung gilt für r − 1 Summanden. Wenden wir
kr
Dpr auf die obige Linearkombination an, so erhalten wir
m1 g1 + . . . + mr−1 gr−1 = 0
mit Polynomen mi von dem selben Grad wie hi . Nach Induktionsvoraussetzung verschwinden die mi , also auch die hi für i < r, und wir sind wieder im
Fall eines Summanden.
Bemerkung. Ist D ∈ End(L) durch Df = f ′ definiert, so ist p das charakteristische Polynom von D, und D hat bezüglich der Basis j!1 gij die Jordansche Normalform.
Wir betrachten nun die inhomogene Differentialgleichung
y (k) + ak−1 y (k−1) + . . . + a1 y ′ + a0 y = b(x),
(16)
die wir in der Form Dp y = b schreiben können. Man kann eine Lösung durch
Variation der Konstanten finden. Für spezielle Funktionen b kommt man mit
einem geeigneten Ansatz schneller zum Ziel.
Satz 57. Es sei b = m0 g0 , wobei m0 ein Polynom mit Koeffizienten in K
vom Grad l und g0 (x) = exp(λ0 x) mit λ0 ∈ K ist. Ist λ0 eine k0 -fache
Nullstelle des Symbols p der linken Seite von (16), so gibt es eine Lösung der
Differentialgleichung in der Form
f = h0 g0
mit einem Polynom h0 vom Grad l + k0 .
Man beachte, dass k0 auch Null sein kann.
Beweis. Wir beweisen die Behauptung durch vollständige Induktion nach l.
Für l < 0, also m0 = 0, können wir h0 = 0 setzen.
Angenommen, die Behauptung gilt für Polynome von kleinerem Grad als l
an Stelle von m0 . Es gibt ein Polynom q mit der Eigenschaft q(λ0 ) 6= 0, so
dass
p(λ) = (λ − λ0 )k0 q(λ),
97
und es gilt p0 (λ) = λk0 q0 (λ). Für ein beliebiges Polynom h vom Grad l + k0
ist also nach Lemma 10
Dp (hg0 ) = Dq0 (h(k0 ) )g0 = mg0
mit einem Polynom m vom Grad l, wobei wir h so wählen können, dass die
höchsten Koeffizienten von m und m0 übereinstimmen. Nach Induktionsvoraussetzung gibt es ein Polynom h1 von kleinerem Grad als l, so dass
Dp (h1 g0 ) = (m0 − m)g0 ,
und es folgt
Dp ((h + h1 )g0 ) = m0 g0 .
Wir können also h0 = h + h1 setzen.
Aus dem Beweis sieht man, dass wir im Fall l = 0, also für konstantes m0 ,
h0 (x) =
m0
x k0
k0 !q(λ0 )
setzen können.
Ist eine homogene lineare Differentialgleichung der Form (15) mit reellen Koeffizienten gegeben, so können wir natürlich auch komplexwertige
Lösungen g suchen, und dann sind Re g und Im g ebenfalls Lösungen. In diesem Fall hat p reelle Koeffizienten, also ist mit jeder Nullstelle λ auch λ̄ eine
Wurzel. Mit den Bezeichnungen µ = Re λ, ω = Im λ gilt
Re eλx = eµx cos ωx,
Im eλx = eµx sin ωx.
Wenn solche Funktionen auf der rechten Seite einer inhomogenen linearen
Differentialgleichung der Form (16) auftreten, so kann man sie durch Exponentialfunktionen ausdrücken, also
eµx cos ωx =
eλx + e−λx
,
2
eµx sin ωx =
eλx − e−λx
,
2i
und dann Satz 57 anwenden.
5.7
Abhängigkeit der Lösungen von Anfangsbedingungen und Parametern I
Es sei V ein K-Vektorraum, D ⊆ R × V offen und F : D → V stetig. Wir
betrachten das Differentialgleichungsystem
y ′ = F (x, y).
98
(17)
Nehmen wir an, dass F bezüglich y lokal Lipschitz-stetig ist. Dann wissen
wir aus Satz 48 und seiner Folgerung, dass für jedes (x0 , y0 ) ∈ D genau eine
maximale Lösung f existiert, die der Anfangsbedingung f (x0 ) = y0 genügt.
Wir wollen die Abhängigkeit dieser Lösung vom Anfangswert y0 zu untersuchen und schreiben fy0 : Iy0 → V . Dabei beschränken wir uns zunächst auf
eine Umgebung von x0 .
Satz 58. Unter den obigen Bedingungen sei x0 ∈ R und B ⊆ V kompakt, so
dass {x0 } × B ⊆ D. Dann gibt es ein abgeschlossenes Intervall I, das x0 im
Inneren enthält, so dass die Funktion f (x, y0 ) := fy0 (x) auf I × B definiert
und stetig ist.
Die Lösung hängt also (zumindest für x in der Umgebung von x0 ) stetig
von den Anfangsbedingungen ab.
Beweis. Wir verfeinern den Beweis von Satz 47. Wegen der Kompaktheit
von {x0 } × B können wir δ > 0, ε > 0 wählen, so dass das Intervall I =
[x0 − δ, x0 + δ] und der Abschluss B ′ der ε-Umgebung von B der Bedingung
I × B ′ ⊆ D genügen.
Es sei X die Menge der stetigen Abbildungen I × B → B ′ . Eine Funktion
f ∈ X erfüllt genau dann die Bedingungen
fy′ 0 (x) = F (x, fy0 (x)),
fy0 (x0 ) = y0 ,
wenn für alle (x, y0 ) ∈ I × B gilt
f (x, y0 ) = y0 +
Z
x
F (t, f (t, y0 )) dt,
x0
d. h. wenn sie ein Fixpunkt der Abbildung H : X → C(I × B, V ) ist, wobei
Hf : I × B → V gegeben ist durch
Z x
Hf (x, y0 ) = y0 +
F (t, f (t, y0 )) dt.
x0
Ist c′ = sup{kf (x, y)k | x ∈ I, y ∈ B ′ }, so gilt für (x, y0 ) ∈ I × B
Z x
kHf (x, y0 ) − y0 k ≤ kF (t, f (t, y0 ))kdt ≤ δc′ .
x0
Wir können δ durch eine kleinere positive Zahl ersetzen, so dass δc′ ≤ ε gilt;
dann ist Hf (x, y0 ) ∈ B ′ , also wird X von H in sich selbst abgebildet.
99
Aufgrund der lokalen Lipschitz-Stetigkeit von F bezüglich y existiert ein
c > 0, so dass für alle x ∈ I und u, v ∈ B ′ gilt
kF (x, u) − F (x, v)k ≤ cku − vk.
Daraus folgt für f1 , f2 ∈ X, dass
Z
kHf1 (x, y0 ) − Hf2 (x, y0 )k ≤ x
x0
≤ δc
kF f (t, f1 (t, y0 )) − F (t, f2 (t, y0 ))k dt
sup
(t,y0 )∈I×B
kf1 (t, y0 ) − f2 (t, y0 )k.
Wiederum können wir δ durch eine kleinere Zahl ersetzen, um zu erreichen,
dass δc < 1 ist. Dann ist die Abbildung H eine Kontraktion der abgeschlossenen Teilmenge X des vollständigen metrischen Raumes C(I × B, V ), und
nach dem Satz 11 hat H genau einen Fixpunkt. Also ist die Lösung f ein
Element von C(I × B, V ).
Den bewiesenen Satz kann man auf Differentialgleichungsysteme höherer
Ordnung übertragen, indem man sie auf Systeme erster Ordnung zurückführt.
So hängt z. B. die Position eines Massenpunktes zum Zeitpunkt t, der sich
entsprechend den Gesetzen der Newtonschen Mechanik in einem Kraftfeld bewegt, stetig von seiner Anfangsposition und seiner Anfangsgeschwindigkeit
zum Zeitpunkt t0 ab. Es interessiert aber auch die Frage, wie sich die Endposition verändert, wenn man das Kraftfeld abändert. Dies führt auf Differentialgleichungen, deren rechte Seiten f (x, y, z) von Parametern (z1 , . . . , zm ) = z
abhängen.
Satz 59. Es seien V und W K-Vektorräume, D ⊆ R × V × W offen, F :
D → V stetig und bezüglich (y, z) ∈ V × W lokal Lipschitz-stetig, und es sei
x0 ∈ R. Für jedes (y0 , z) ∈ V × W mit (x0 , y0 , z) ∈ D sei fy0 ,z : Iy0 ,z → V
die maximale Lösung von
y ′ = F (x, y, z),
(18)
die der Anfangsbedingung fy0 ,z (x0 ) = y0 genügt. Dann ist
U = {(x, y0 , z) | (x0 , y0 , z) ∈ D, x ∈ Iy0 ,z }
offen in R × V × W , und durch f (x, y0 , z) = fy0 ,z (x) wird eine stetige Abbildung f : U → V definiert.
Beweis. Wir betrachten zunächst den Fall, dass f nicht von z abhängt. Wir
schreiben
fy0 (x) = Gxx0 (y0 ),
100
Dann ist der Lösungsoperator Gxx0 definiert auf der Menge Vxx0 = {y0 ∈ V |
x ∈ Iy0 } und hat Werte in V . Man kann den Lösungsoperator auch für
Anfangswerte an anderen Stellen als x0 definieren. Auf Grund der Eindeutigkeitsaussage von Satz 48 gilt auf der Menge (Gxx10 )−1 (Vxx12 ) ⊆ Vxx02
Gxx21 ◦ Gxx10 = Gxx20 .
Nun halten wir ein beliebiges (x∗ , y ∗ ) ∈ U fest, also x∗ ∈ Iy∗ , und schreiben f ∗ = fy∗ . Nach dem vorigen Satz gibt es für jedes x̃ ∈ Iy∗ ein δ̃ > 0 und
eine Umgebung Ũ von f ∗ (x̃), so dass Gxx̃ (y0 ) auf [x̃ − δ̃, x̃ + δ̃] × Ũ stetig ist.
O. B. d. A. sei x∗ > x0 . Das kompakte Intervall [x0 , x∗ ] wird von den Intervallen (x̃, x̃ + δ̃) überdeckt, und wir können eine endliche Teilüberdeckung
wählen. Deshalb finden wir x0 < x1 < · · · < xN = x∗ mit entsprechenden
δj > 0 und Umgebungen Uj von f ∗ (xj ), so dass xj + δj > xj+1 und dass
Gxxj (y0 ) auf Ij × Uj stetig ist, wobei Ij = [xj − δj , xj + δj ]. Durch absteigende
Induktion beginnend mit j = N zeigt man
(y0 ) = Gxxj (y0 )
GxxN ◦ · · · ◦ Gxxj+1
j
für x ∈ IN und y0 ∈ Uj′ , wobei Uj′ = (GxxNj )−1 (UN ) ⊆ Uj . Man beachte,
dass alle auf der linken Seite vorkommenden Lösungsoperatoren stetig sind.
Wegen GxxNj (f ∗ (xj )) = f ∗ (xN ) ist Uj′ eine Umgebung von f ∗ (xj ).
Im Fall j = 0 erhalten wir, dass Gxx0 (y0 ) = fy0 (x) stetig von (x, y0 ) ∈
IN × U0′ abhängt, wobei xN = x∗ ein innerer Punkt von IN und U0′ eine
Umgebung von f ∗ (x0 ) = y ∗ ist. Wegen IN × UN′ ⊆ U ist (x∗ , y ∗ ) ein innerer
Punkt von U .
Schließlich betrachten wir den allgemeinen Fall, dass f von einem Parameter z abhängt. Fassen wir die Variablen (y, z) zu ỹ zusammen und definieren
wir F̃ : D → V × W durch
F̃ (x, ỹ) = (F (x, ỹ), 0),
so erhalten wir aus jeder Lösung fy0 ,z des angegebenen Differentialgleichungsystems eine Lösung
f˜y0 ,z (x) = (fy0 ,z (x), z)
des Systems
ỹ ′ = F̃ (x, ỹ),
die der Anfangsbedingung f˜y0 ,z (x0 ) = (y0 , z) genügt, und umgekehrt. Die
rechte Seite des letzteren Systems hängt aber von keinem Parameter ab, also
ist das Bewiesene anwendbar.
Man hätte die Abhängigkeit von z auch gleich in Satz 58 mit erfassen
und Parameter z in einem beliebigen metrischen Raum Z an Stelle des Vektorraumes W zulassen können.
101
5.8
Abhängigkeit der Lösungen von Anfangsbedingungen und Parametern II
Nun kommen wir zur differenzierbaren Abhängigkeit von Anfangsbedingungen und Parametern.
Satz 60. In der Situation von Satz 59 sei F stetig differenzierbar nach (y, z).
Dann ist die Lösung f auf U stetig differenzierbar.
Hier ist gemeint, dass die partiell totale Ableitung ∂(y,z) F stetig auf D
sein soll. Daraus folgt natürlich die in Satz 59 geforderte lokale LipschitzStetigkeit von F bezüglich (y, z).
Für den Beweis benötigen wir eine parameterabhängige Version des Lemmas von Hadamard.
Lemma 11. Es seien U , V und W endlichdimensionale Vektorräume und D
eine offene Teilmenge von U ×V . Die Funktion F ∈ C(D, W ) sei (k +1) Mal
stetig differenzierbar nach y, und es sei
D̃ = {(x, y1 , y2 ) ∈ U × V × V | [(x, y1 ), (x, y2 )] ⊆ D}.
Dann gibt es eine Funktion F̃ ∈ C k (D̃, Hom(V, W )), so dass für (x, y1 , y2 ) ∈
D̃ gilt
F (x, y1 ) − F (x, y2 ) = F̃ (x, y1 , y2 )(y1 − y2 ).
Der Beweis ist analog zu dem von Lemma 8, wobei das Integral nun
zusätzlich vom Parameter x abhängt, was aber der Anwendbarkeit von Folgerung 10 keinen Abbruch tut.
Beweis von Satz 60 – Schritt 1. Zunächst möge wieder F nicht von z abhängen.
Lemma 11 mit k = 0 und W = V liefert uns es eine stetige Funktion
F̃ : D̃ → End(V ). Wir halten y ∗ ∈ V mit der Eigenschaft (x0 , y ∗ ) ∈ D
fest und haben die maximale Lösung f ∗ = fy∗ : I ∗ → V der Differentialgleichung (18). Die Teilmenge
Ũ = {(x, y0 ) ∈ R × V | (x, fy0 (x), f ∗ (x)) ∈ D̃}
von U enthält die Menge I ∗ × {y ∗ } und ist nach Satz 8 offen. Durch
A(x, y0 ) = F̃ (x, fy0 (x), f ∗ (x))
wird eine stetige Abbildung A : Ũ → End(V ) definiert. Wir betrachten die
lineare Differentialgleichung
ỹ ′ = A(x, y0 ) · ỹ
102
mit dem Parameter y0 und suchen nach Lösungen f˜ : I → End(V ), die der
Anfangsbedingung
f˜(x0 ) = idV
genügen. Für jedes kompakte Intervall I ⊂ I ∗ existiert eine Umgebung ŨI
von y ∗ in V , so dass I × ŨI ⊆ Ũ . Nach Folgerung 13 existiert für jeden
Parameter y0 ∈ ŨI eine Lösung f˜y0 : I → End(V ), und nach Satz 59 ist die
resultierende Funktion f˜ : I × ŨI → End(V ) stetig. Es gilt einerseits
f˜y′ 0 (x)(y0 − y ∗ ) = F̃ (x, fy0 (x), f ∗ (x))f˜y0 (x)(y0 − y ∗ )
und andererseits
fy′ 0 (x) − f ∗ ′ (x) = F (x, fy0 (x)) − F (x, f ∗ (x))
= F̃ (x, fy0 (x), f ∗ (x))(fy0 (x) − f ∗ (x)).
Mit der Eindeutigkeitsaussage von Satz 48 folgt
fy0 (x) − f ∗ (x) = f˜y0 (x)(y0 − y ∗ ),
weil beide Seiten an der Stelle x0 den selben Wert y0 − y ∗ haben. Dies zeigt,
dass f an jeder Stelle von I×{y ∗ } nach y0 stetig differenzierbar ist und dass an
dieser Stelle gilt ∂y0 f = f˜. Letzteres bedeutet wegen F̃ (x, y, y) = ∂y F (x, y),
dass
∂x ∂y0 f (x, y ∗ ) = ∂y F (x, f (x, y ∗ ))∂y0 f (x, y ∗ ).
Da y ∗ und I ⊂ I ∗ beliebig waren, folgt dies an jeder Stelle von U .
Schritt 2. Diesmal sei
A(x, y0 ) = ∂y F (x, fy0 (x)),
was eine stetige Abbildung A : U → End(V ) definiert. Wir betrachten die
lineare Differentialgleichung (genannt Variationsgleichung)
ỹ ′ = A(x, y0 ) · ỹ
mit dem Parameter y0 und suchen nach Lösungen f˜ : I → End(V ), die der
Anfangsbedingung
f˜(x0 ) = idV
genügen. Für festes y ∗ und jedes kompakte Teilintervall I ⊆ I ∗ gibt es eine
Umgebung UI von y ∗ in V , so dass I × UI ⊆ U . Nach Folgerung 13 existiert
für jeden Parameter y0 ∈ UI eine Lösung f˜y0 : I → End(V ), und nach Satz 59
ist die resultierende Abbildung f˜ : I ×UI → End(V ) stetig. Wie wir am Ende
103
von Schritt 1 gesehen haben, ist auch ∂y0 f eine Lösung, die an der Stelle x0
den Wert idV hat. Mit der Eindeutigkeitsaussage von Satz 48 folgt ∂y0 f = f˜,
also ist f auf I × UI nach y ∗ stetig differenzierbar. Da y ∗ und I beliebig
waren, folgt dies auf ganz U .
Schritt 3. Wie im Beweis von Satz 59 führt man den Fall, dass F zusätzlich von Parametern z abhängt, auf den bereits behandelten Fall zurück.
Damit folgt die stetige Differenzierbarkeit der Lösung f nach (y0 , z). Da
F (x, fy0 ,z (x), z) stetig von (x, y, z) ∈ U abhängt, folgt aus der Differentialgleichung (18) die stetige Differenzierbarkeit von f nach x und mit Folgerung 7
die stetige Differenzierbarkeit nach der Gesamtheit der Variablen.
Es gibt auch eine Version für höhere Ableitungen.
Satz 61. Die Funktion F in der Situation von Satz 59 sei (k − 1) Mal
nach x und k Mal nach (y, z) stetig differenzierbar, wobei k ≥ 1. Dann ist
f ∈ C k (U ).
Beweis. Wir benutzen vollständige Induktion nach k. Der Induktionsanfang
wurde in Satz 60 erledigt. Angenommen, die Behauptung gilt für die Zahl k,
und F sei nun k Mal stetig differenzierbar nach x und (k +1) Mal stetig differenzierbar nach (y, z). Wir betrachten wieder zunächst den Fall, dass F nicht
von z abhängt. Erst einmal ist laut Induktionsvoraussetzung f ∈ C k (U ). Die
Funktion F (x, fy0 (x)) ist also nach Satz 35 k Mal stetig differenzierbar, und
f ist als Lösung der Differentialgleichung (18) (k + 1) Mal stetig differenzierbar nach x. Wie wir im Beweis von Satz 60 gesehen haben, ist die Ableitung
∂y0 f eine Lösung der Differentialgleichung
y ′ = A(x, y0 ) · y,
wobei A(x, y0 ) = ∂y F (x, f (x, y0 )) laut Satz 35 nun k Mal stetig differenzierbar auf U ist. Die Lösung ∂y0 f ist laut Induktionsvoraussetzung k Mal stetig
differenzierbar, also ist f selbst (k + 1) Mal stetig differenzierbar nach y0 .
Mit Satz 7 folgt die k-malige Differenzierbarkeit nach (x, y0 ). Den Fall der
Abhängigkeit von Parametern z führt man wie im Beweis von Satz 59 auf
den bereits behandelten Fall zurück.
Im Beweis von Satz 59 haben wir für eine Differentialgleichung ohne Parameter den Lösungsoperator Gxx0 : Vxx0 → V durch die Festlegung
Gxx0 (y0 ) = fy0 (x)
definiert, wobei die Menge
Vxx0 = {y0 ∈ V | x ∈ Iy0 }
104
als Bild von U ∩ {x1 } × V unter der Projektion {x1 } × V → V offen ist. Man
kann Anfangsbedingungen an einer beliebigen Stelle x1 stellen und erhält
analog Gxx1 . Dann ist Gxx00 = id, und auf (Gxx10 )−1 (Vxx12 ) ⊆ Vxx02 gilt
Gxx21 ◦ Gxx10 = Gxx20 .
Folgerung 19. In der Situation von Satz 61 ist der Lösungsoperator Gxx10
ein Diffeomorphismus der Klasse C k von Vxx01 auf Vxx10 .
Aus Satz 61 folgt nämlich Gxx10 ∈ C k (Vxx01 , V ), und aus der Eindeutigkeitsaussage von Satz 48 folgt Gxx10 (Vxx01 ) = Vxx10 , so dass Gxx01 die Umkehrabbildung
von Gxx10 ist.
6
Untermannigfaltigkeiten affiner Räume
6.1
Untermannigfaltigkeiten und Tangentialvektoren
Wir wollen nun die Struktur der Lösungen nichtlinearer Gleichungen näher untersuchen.
Dieses Thema schließt direkt an Kapitel 4 an.
Den natürlichen Rahmen für unsere Betrachtungen bieten die in Definition 27 eingeführten affine Räume. Wir erinnern daran, dass zu jedem affinen Raum A ein Vektorraum U von Translationen gehört. Unter der Dimension von A verstehen wir die Dimension
von U . Indem man Translationen auf einen festen Punkt a anwendet, erhält man eine bijektive Abbildung U → A, wobei die Umkehrabbildung einem Punkt x seinen Ortsvektor
−
→ zuordnet. Aus diesem Grund werden affine Räume oft etwas stiefmütterlich behandelt.
ax
Wir gehen einen Kompromiss ein und schreiben das Ergebnis der Anwendung einer Trans→ als x − a. Wer will, kann dann den
lation u auf einen Punkt a als a + u und den Vektor −
ax
Begriff des affinen Raumes ignorieren und einfach A = U setzen.
Man kann affine Räume über jedem Körper K definieren. Für uns wird K = R oder
K = C sein. In diesem Fall haben wir in Definition 27 auch den Begriff der Differenzierbarkeit von Abbildungen f : D → B definiert, wobei A und B affine Räume sind und
D eine offene Teilmenge von A ist. Die Ableitung an einer Stelle a ist dann eine lineare
Abbildung f ′ (a) : U → V , wobei V der Vektorraum der Translationen von B ist.
Definition 34. Es seien A, B und C affine Räume und U , V bzw. W die zugehörigen
Vektorräume von Translationen, und es seien D ⊆ A und E ⊆ B offene Teilmengen.
(i) Eine differenzierbare Abbildung f : D → B heißt Immersion, wenn an jeder Stelle
x ∈ D die Ableitung f ′ (x) : U → V injektiv ist.
(ii) Eine differenzierbare Abbildung g : E → C heißt Submersion, wenn an jeder Stelle
x ∈ E die Ableitung g ′ (x) : V → W surjektiv ist.
Beispiel. Wir betrachten die durch
f (t) =
1 − t2
(1 + t, 1 − t),
1 + 3t2
105
g(x, y) = x3 + y 3 − 2xy
definierten differenzierbaren Abbildungen f : R → R2 und g : R2 → R. Die Abbildung f
ist eine Immersion. Die Abbildung g ist zwar keine Submersion, aber ihre Einschränkung
auf E = R2 \ {(0, 0)} schon.
Man kann nachrechnen, dass für alle t gilt g(f (t)) = 0. Mehr noch, setzen wir u(x, y) =
x−y
x+y für x + y 6= 0, so ist u die Umkehrabbildung der Einschränkung von f auf R \ {−1}.
Bezeichnen wir also die Lösungsmenge der Gleichung g(x, y) = 0 mit M , so gilt f (R) =
M . Dies war bereits René Decartes bekannt, und man bezeichnet die Kurve“ M als
”
Kartesisches Blatt. Sie überschneidet sich im Koordinatenursprung selbst.
√
Man kan übrigens auch K = C zulassen, dann ist allerdings f an den Stellen ±i/ 3
nicht definiert. ⊳
Beispiel. Die durch
(
(t2 , 0) wenn t ≥ 0,
f (t) =
(0, t2 ) wenn t ≤ 0.
definierte differenzierbare Abbildung f : R → R2 ist keine Immersion, aber ihre Einschränkung auf D = R \ {0} schon. Das Bild (der Wertebereich) hat an der Stelle f (0)
einen Knick“. ⊳
”
Wir wollen exakt definieren, was Kurven“ und Flächen“ ohne Selbstüberschneidun”
”
”
gen“ und Knicke“ sind.
”
Satz 62. Es sei M eine Teilmenge eines affinen Raumes B, k ≥ 1 eine natürliche Zahl
und b ∈ M . Folgende Bedingungen sind äquivalent:
(i) Es gibt eine offene Teilmenge D eines affinen Raumes A und eine Immersion f ∈
C k (D, B), so dass f (D) eine Umgebung von b in M ist und die Beschränkung von
f auf f (D) ein Homöomorphismus D → f (D) ist.
(ii) Es gibt eine Umgebung E von b in B, eine Submersion g ∈ C k (E, C) und einen
Punkt c ∈ C, so dass M ∩ E = g −1 (c).
(iii) Es gibt eine Zerlegung V = V1 + V2 in eine direkte Summe und Umgebungen E1
und E von b in B1 = b + V1 bzw. E, so dass M ∩ E der Graph einer Abbildung
h ∈ C k (E1 , V2 ) ist.
Ist eines der drei Objekte f , g, h gegeben, dann kann man die anderen so wählen, dass
dim A = dim B − dim C = dim B1 .
Beweis. In der Situation von Aussage (iii) benutzen wir die Bezeichnungen p1 : B → B1
und p2 : B → V2 für die natürlichen Projektionen.
(i)⇒(iii): Es sei {a} = f −1 (b) und V1 = f ′ (a)V . Dann gibt es einen Unterraum V2
von V , so dass die lineare Abbildung V1 × V2 → V , (v1 , v2 ) 7→ v1 + v2 , ein Isomorphismus
ist. Es sei B1 = b + V1 und p1 : B → B1 die Projektion längs V2 . Dann ist p′1 (x) : V → V1
für alle x ∈ B die Projektion längs V2 , und (p1 ◦ f )′ (a) = p′1 (b)f ′ (a) ist invertierbar. Nach
Satz 42 gibt es eine Umgebung D′ von a in D und eine Umgebung E1 von b in B1 , so dass
p1 ◦ f |D′ eine Umkehrabbildung u ∈ C k (E1 , V ) besitzt. Da f (D) |f ein Homöomorphismus
ist, ist f (D′ ) offen in M , und nach Satz 5 gibt es eine offene Teilmenge E von B, so dass
f (D′ ) = M ∩ E. Wir setzen
h(y1 ) = f (u(y1 )) − y1
für y1 ∈ E1 . Dann ist p1 (h(y1 )) = y1 − y1 = 0, und wir erhalten eine Abbildung h ∈
C k (E1 , V2 ).
106
Ist y ∈ M ∩ E, so ist y = f (x) für ein x ∈ D′ , und setzen wir y1 = p1 (y) ∈ E1 , so folgt
u(y1 ) = u(p1 (f (x))) = x,
y1 + h(y1 ) = f (x),
also y im Graphen von h. Ist umgekehrt y1 ∈ E1 und y = y1 + h(y1 ), so liegt x = u(y1 )
in D′ , und
y = f (u(y1 )) = f (x),
also y ∈ M ∩ E.
(iii)⇒(i): Man setze A = V1 , D = E1 und f (v1 ) = v1 + h(v1 ). Für x ∈ D und
v1 ∈ V1 gilt p′1 (f (x))f ′ (x)v1 = (p1 ◦ f )′ (x)v1 = v1 , also ist f ′ (x) injektiv. Die Abbildung
p1 schränkt sich zu einer stetigen Umkehrabbildung von M ∩E |f ein.
(ii)⇒(iii)15 : Es sei V1 = Ker g ′ (b) und V2 wie oben ein komplementärer Unterraum.
Dann ist g ′ (b)|V2 umkehrbar, und nach Satz 43 gibt es Umgebungen E1 von b in B1 = b+V1
und E2 von 0 in V2 , so dass M ∩ (E1 + E2 ) der Graph einer Funktion h ∈ C k (E1 , V2 ) ist.
Man setze E = E1 + E2 .
(iii)⇒(ii): Durch g(y) = h(p1 (y)) − p2 (y) wird eine Abbildung g ∈ C k (E, V2 ) definiert.
Offensichtlich ist genau dann g(y) = 0, wenn y im Graphen von h liegt. Für v2 ∈ V2 ist
h′ (y)v2 = v2 , also ist h′ (y) surjektiv.
Definition 35. Eine Teilmenge M eines affinen Raumes B heißt Untermannigfaltigkeit
der Klasse C k , wenn für jeden Punkt b ∈ M die drei äquivalenten Bedingungen aus Satz 62
erfüllt sind. Die Abbildungen f in (i) heißen Karten von M . Eine Familie von Karten
f : D → M , für die die Mengen f (D) eine Überdeckung von M bilden, heißt Atlas
von M .
Beispiel. Ist M das Kartesische Blatt, so ist M \{(0, 0)} eine Untermannigfaltigkeit von R2
der Klasse C ∞ , weil jeder Punkt die Eigenschaft (iii) hat. ⊳
Beispiel. Auf E = Rn \ {0} wird durch
g(x) = x21 + . . . + x2n
eine Submersion g ∈ C ∞ (E, R) definiert, also ist S = g −1 (0) eine Untermannigfaltigkeit
von Rn der Klasse C ∞ , genannt Einheitssphäre. Eine Funktion wie in (ii) ist durch
q
h(x1 , . . . , xn−1 ) = x21 + . . . + x2n−1
gegeben. Es gibt auch andere Karten, z. B. im Fall n = 3
f (s, t) = (cos s cos t, sin s cos t, sin s),
wobei die offene Teilmenge D ⊂ R × − π2 , π2 so zu wählen ist, dass f injektiv ist. (Die
Werte von s und t entsprechen der geographischen Länge bzw. Breite.) ⊳
Beispiel. Sind M und N Untermannigfaltikeiten von B bzw. C der Klasse C k , so ist
M × N eine Untermannigfaltigkeit von B × C der Klasse C k . Sind nämlich f1 : D1 → M
und f2 : D2 → N Karten von M bzw. N , so wird durch f (x1 , x2 ) = (f1 (x1 ), f2 (x2 )) eine
Karte f : D1 × D2 → M × N definiert. ⊳
Beispiel. Ist M eine Untermannigfaltigkeit von B der Klasse C k und N eine offene Teilmenge von M , so ist auch N eine Untermannigfaltigkeit von B der Klasse C k . Für jede
Karte f : D → M von M ist nämlich die Einschränkung von f auf f −1 (N ) eine Karte
von N . ⊳
15
Dieser Teil ist im Wesentlichen bereits im Beweis von Satz 44 enthalten.
107
Folgerung 20. Sind f und g wie in Satz 62, wobei f (a) = b, so gilt
f ′ (a)U = Ker g ′ (b).
Beweis. Für alle x ∈ D ist g(f (x)) = c, also g ′ (b)f ′ (a) = 0 und somit f ′ (a)U ⊆ Ker g ′ (b).
Insbesondere ist dim f ′ (a)U ≤ dim Ker g ′ (b).
Wegen der Injektivität von f ′ (a) ist dim f ′ (a)U = dim A, und wegen der Surjektivität
von g ′ (b) ist dim Ker g ′ (b) = dim B − dim C. Die letzte Aussage von Satz 62 bedeutet
also, dass wir eine Submersion g̃ wie in Aussage (ii) mit der Eigenschaft dim f ′ (a)U =
dim Ker g̃ ′ (b) und eine Immersion f˜ wie in (i) mit der Eigenschaft dim f˜′ (a)U = dim Ker g ′ (b)
wählen können. Wenden wir das Bewiesene auf f˜ und g̃ an, so folgt dim f˜′ (a)U ≤ dim Ker g̃ ′ (b),
also gilt überall Gleichheit.
Definition 36. Der Vektorraum aus Folgerung 20 heißt Tangentialraum an M im Punkt b,
abgekürzt Tb (M ), und seine Dimension heißt Dimension von M an der Stelle b, abgekürzt
dimb M . Die Elemente von Tb (M ) heißen Tangentialvektoren an M im Punkt b.
Sind f1 : D1 → M und f2 : D2 → M Karten von M , so dass f1 (a1 ) = f2 (a2 ) = b, so
zeigt Folgerung 20, dass f1′ (a1 )U1 = f2′ (a2 )U2 . Analog sieht man, dass Ker g ′ (b) nicht von
der Wahl von g abhängt.
Folgerung 21. Ist M eine zusammenhängende Untermannigfaltigkeit von B, so hängt
dimb M nicht von b ab (und wird mit dim M bezeichnet).
Die Dimension ist ja auf jeder Karte konstant, so dass die Menge
Mn = {y ∈ M | dimy M = n}
offen im metrischen Raum M ist. Ihr Komplement ist die Vereinigung der Mengen Ml mit
l 6= n, also ebenfalls offen.
Definition 37. Es sei M eine Untermannigfaltigkeit der Klasse C k des affinen Raumes B
und C ein weiterer affiner Raum. Wir sagen, dass eine Abbildung g : M → C von der
Klasse C k ist, abgekürzt g ∈ C k (M, C), wenn für jede Karte f : D → M gilt g ◦ f ∈
C k (D, C). Im Fall k ≥ 1 definieren wir g ′ (b) ∈ Hom(Tb (M ), W ) durch
g ′ (b)v = (g ◦ f )′ (a)u,
falls b = f (a) und v = f ′ (a)u.
Es ist natürlich nicht praktikabel, eine Bedingung für alle Karten nachzuprüfen. Der
folgende Satz zeigt, dass es genügt, dies für die Karten eines Atlasses zu tun.
Satz 63. Es sei M eine Untermannigfaltigkeit von B der Klasse C k mit Karten f1 ∈
C k (D1 , B) und f2 ∈ C k (D2 , B). Wir definieren eine Abbildung f1,2 : f1−1 (f2 (D2 )) →
f2−1 (f1 (D1 )) durch f1,2 (x1 ) = f2−1 (f1 (x1 )). Dann ist f1,2 ein Diffeomorphismus der Klasse C k .
Beweis. Es genügt, zu zeigen, dass f1,2 von der Klasse C k ist, weil das Selbe dann analog
für die Umkehrabbildung f2,1 gilt. Die Differenzierbarkeit braucht nur in einer Umgebung
eines beliebigen Punktes a1 geprüft zu werden. Gilt sie für f1,2 in einer Umgebung von a1
und für f2,3 in einer Umgebung von a2 , wobei f1 (a1 ) = f2 (a2 ) = b ∈ f3 (D3 ), so gilt sie
nach Satz 35 auch für f1,3 in einer Umgebung von a1 . Wir können also weiter annehmen,
dass eine der beiden Karten von der Form f2 (y1 ) = y1 + h(y1 ) ist, wobei h : B1 → V2
wie in Aussage (iii) von Satz 62 ist. In diesem Fall ist f1,2 als Einschränkung von p1 ◦ f1
offensichtlich von der Klasse C k .
108
Wir sehen jetzt auch, dass die Definition der Ableitung einer Abbildung g : M → C
korrekt ist, weil sie nicht von der Wahl der Karte abhängt. Sind nämlich f1 und f2 Karten,
wobei f1 (a1 ) = f2 (a2 ) = b, und sind u1 ∈ U1 und u2 ∈ U2 Vektoren, so dass f1′ (a1 )u1 =
f2′ (a2 )u2 = v, so gilt nach Satz 34
′
f2′ (a2 )f1,2
(a1 )u1 = f1′ (a1 )u1 = v,
′
also u2 = f1,2
(a1 )u1 und somit
(g ◦ f2 )′ (a2 )u2 = (g ◦ f2 ◦ f1,2 )′ (a1 )u1 = (g ◦ f1 )′ (a1 )u1 .
Man kann übrigens nachprüfen, dass Definition 25 auch für Abbildungen M → C sinngemäß gilt.
Nun werden wir ein Kriterium für lokale Extrema von differenzierbaren Funktionen
g auf einer Untermannigfaltigkeit M angeben, bei dem im Unterschied zu Satz 44 die
Funktion g nicht in einer Umgebung von M definiert sein muss.
Satz 64. Es sei M eine Untermannigfaltigkeit eines affinen Raumes und g ∈ C 1 (M, R).
Hat g an der Stelle b ∈ M ein lokales Extremum, so ist b ein stationärer Punkt von g,
d. h. g ′ (b) = 0.
Dazu wählt man einfach eine Karte f : D → M , so dass b = f (a) für einen Punkt
a ∈ D, und wendet Satz 39 auf die Funktion g ◦ f an, die an der Stelle a ein lokales
Extremum hat.
Wir können nun einen Begriff einführen, den wir im nächsten Abschnitt benötigen.
Definition 38. Es seien M und N Umtermannigfaltigkeiten der Klasse C k von affinen
Räumen B bzw. C. Eine Abbildung g : M → N heißt Diffeomorphismus der Klasse C k ,
wenn g eine Umkehrabbildung h : N → M hat und wenn g ∈ C k (M, C) und h ∈ C k (N, B)
gilt.
Beispiel. Ist S eine Kreislinie vom Radius R im dreidimensionalen Raum und N die Oberfläche der r-Umgebung von S, wobei r < R ist, so nennt man N einen Torus. Eine
definierende Gleichung wäre z. B.
p
( x2 + y 2 − R)2 + z 2 = r2 .
oder
(x2 + y 2 + z 2 + R2 − r2 )2 = 4R2 (x2 + y 2 ).
Dies ist eine Mannigfaltigkeit, die zu S × S diffeomorph ist.
6.2
⊳
Vektorfelder und Flüsse
In der Physik kommen verschiedenartige Felder vor. Eines der einfachsten ist das Vektorfeld. Ist z. B. B ein affiner Raum und V der zugehörige Vektorraum der Translationen,
so ist ein Vektorfeld auf einer offenen Teilmenge E von B einfach eine stetige Abbildung
X : E → V . Wir können dann die Differentialgleichung
y ′ = X(y)
betrachten, deren Lösungen g : I → B man Integralkurven des Vektorfeldes nennt, wobei
man I als Zeitintervall interpretiert. Wir wollen diesen Begriff verallgemeinern.
109
Definition 39. Es sei M eine Untermannigfaltigkeit der Klasse C k des affinen Raumes B
mit dem Raum der Translationen V und l < k.
(i) Ein Vektorfeld der Klasse C l auf M ist eine Abbildung X ∈ C l (M, V ), so dass für
alle Punkte y von M gilt X(y) ∈ Ty (M ).
(ii) Eine Abbildung g von einem Intervall I in M heißt Integralkurve des Vektorfeldes X,
wenn g ∈ C 1 (I, B) ist und für alle t ∈ I gilt
g ′ (t) = X(g(t)).
Man beachte, dass die rechte Seite nicht von t abhängt, so dass für eine Integralkurve
g auch g(t − t0 ) eine Integralkurve ist. Es bedeutet also keine Einschränkung, wenn wir
Anfangsbedingungen nur an der Stelle t = 0 stellen.
Wir können nun unsere Sätze über gewöhnliche Differentialgleichungen erster Ordnung
auf Vektorfelder übertragen.
Satz 65. Es sei X ein lokal Lipschitz-stetiges Vektorfeld auf der Untermannigfaltigkeit M
des affinen Raumes B.
(i) Für jeden Punkt y0 ∈ M gibt es eine Integralkurve g : I → M , die der Anfangsbedingung g(0) = y0 genügt.
(ii) Zwei Integralkurven mit dem selben Anfangswert stimmen auf dem Durchschnitt
ihrer Definitionsbereiche überein.
(iii) Ist gy0 : Iy0 → M eine maximale Integralkurve, so ist ihr Graph abgeschlossen
in R × M .
(iv) Die Menge U = {(t, y0 ) ∈ R × M | t ∈ Iy0 } ist offen, und durch g(t, y0 ) = gy0 (t)
wird eine stetige Abbildung g : U → R × M definiert.
(v) Ist X von der Klasse C l , so ist g ∈ C l (U, B).
Beweis. Es sei f : D → M eine Karte der Klasse C k mit f (x0 ) = y0 . Wir wählen eine
Zerlegung V = V1 + V2 von V wie in Satz 62(iii), wobei V1 = Ty0 (M ), und betrachten
wieder die Projektion p1 : B → B1 = b+V1 . Laut damaligem Beweis gibt es eine Umgebung
E1 von y0 in B1 und eine Umgebung D′ von x0 in D, so dass die Einschränkung von p1 ◦ f
auf D′ eine Umkehrabbildung u ∈ C k (E1 , U ) hat. Es folgt, dass
f ′ (x)−1 = u′ (p1 (f (x))) ◦ p′1 (y0 ) ∈ Hom(Tf (x) , U ),
wobei die rechte Seite in C k−1 (D′ , Hom(V, U )) ist. Wir setzen
F (x) = f ′ (x)−1 X(f (x)).
Da wir x0 beliebig wählen konnten, ist F lokal Lipschitz-stetig auf D.
Ist h : I → D eine Lösung der Differentialgleichung
x′ = F (x)
mit dem Anfangswert h(0) = x0 und setzen wir g(t) = f (h(t)), so gilt
g ′ (t) = f ′ (h(t))h′ (t) = f ′ (h(t))F (h(t)) = X(g(t)),
110
(19)
also ist g : I → M eine Integralkurve von X, und es gilt g(0) = y0 . Ist umgekehrt g : I →
f (D) eine Integralkurve mit dem Anfangswert g(0) = y0 und setzen wir h(t) = f −1 (g(t)),
so gilt h(t) = u(p1 (g(t))) für t ∈ h−1 (f (D′ )), so dass g differenzierbar ist, und
f ′ (h(t))h′ (t) = g ′ (t) = X(g(t)) = f ′ (t)F (h(t)).
Wegen der Injektivität von f ′ (x) für x ∈ D folgt, dass h eine Lösung der Differentialgleichung (19) mit dem Anfangswert h(0) = x0 ist.
Aus Satz 47 folgt nun Aussage (i) sowie eine Vorstufe von Aussage (ii): Zwei Integralkurven mit dem selben Anfangswert für t = 0 stimmen in einer Umgebung von 0 überein.
Den Beweis von Satz 48 liefert einen Beweis von Aussage (ii), wenn wir überall V durch M
ersetzen. Damit sind maximale Lösungen definiert, und aus Satz 58 erhalten wir als lokale
Version von Aussage (iv), dass g in einer Umgebung von (0, y0 ) definiert und stetig ist. Aus
Satz 60 und 61 folgt ebenso eine lokale Version von Aussage (v). Für Aussage (iii) bzw.
für die globalen Versionen der übrigen Aussagen übertragen wir die Beweise von Satz 49
bzw. 59, indem wir überall V durch M ersetzen.
Definition 40. Ein Vektorfeld auf einer Untermannigfaltigkeit eines affinene Raumes
heißt vollständig, wenn jede maximale Lösung auf ganz R definiert ist.
Dies bedeutet also in den Bezeichnungen des Satzes, dass U = R × M .
Folgerung 22. Ist M kompakt, so ist jedes Vektorfeld auf M vollständig.
Für jedes beschränkte Intervall I ist nämlich B × M abgeschlossen und beschränkt
in R × V , also kompakt, und die Behauptung folgt aus Satz 65(iii) wie im Beweis von
Folgerung 12.
Definition 41. Ein Fluss der Klasse C l auf einer Untermannigfaltigkeit M der Klasse C l
eines affinen Raumes B ist eine Abbildung G : R×M → M , so dass G, ∂x G ∈ C l (R×M, B)
ist und mit der Bezeichnung Gt (y) = G(t, y) für alle s, t ∈ R gilt
G0 = idM ,
Gs ◦ Gt = Gs+t .
Natürlich ist dann Gt ∈ C l (M, B). Da dies auch für die Umkehrabbildung G−t gilt,
ist Gt für jedes t ein Diffeomorphismus der Klasse C l .
Folgerung 23. Es sei M eine Untermannigfaltigkeit der Klasse C k eines affinen Raumes
und l < k.
(i) Ist G ein Fluss der Klasse C l auf M und setzen wir
X(y0 ) = ∂t G(0, y0 ),
so ist X ein Vektorfeld der Klasse C l .
(ii) Ist X ein vollständiges Vektorfeld der Klasse C l und setzen wir
G(t, y0 ) = gy0 (t),
so ist G ein Fluss der Klasse C l .
Die Zuordnungen in (i) und (ii) sind zueinander invers.
111
Aussage (i) ist offensichtlich. Die Differenzierbarkeitsaussage in (ii) folgt aus Satz 65(v),
und die Flusseigenschaft ergibt sich aus der Tatsache, dass wegen Satz 65(ii) gilt
gy0 (s) = y1 ,
gy1 (t) = y2
=⇒
gy0 (s + t) = y2 .
Die letzte Aussage folgt aus der Definition von Integralkurven.
Man könnte auch zeitabhängige Vektorfelder X betrachten, die auf einer offenen Teilmenge E von R × M definiert sind. Dies lässt sich allerdings auf den bereits behandelten
Fall zurückführen. Ist nämlich g eine Integralkurve von X, d. h. g ′ (t) = X(t, g(t)), so ist
g̃(t) = (t, g(t)) eine Integralkurve des zeitunabhängigen Vektorfeldes X̃(t, y) = (1, X(t, y))
auf der Mannigfaltigkeit E.
112

Zugehörige Unterlagen

10. ¨Ubungsblatt zur ” Höheren Analysis“ Gruppenübungen

Klausurvorbereitung - Mathematisches Institut Heidelberg

Scriptum zur Vorlesung Analysis II

Zugehörige Unterlagen

Produkte

Unterstützung

Scriptum zur Vorlesung Analysis II

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können