Skript zur Vorlesung Analysis 2

Werbung
Skript zur Vorlesung Analysis 2
Sommersemester 2013
Prof. Dr. Benjamin Schlein
Inhaltsverzeichnis
1 Riemann’sches Integral
1.1 Definition und elementare Eigenschaften . . . . . . . . . . . .
1.2 Hauptsatz der Integralrechnung . . . . . . . . . . . . . . . . .
1.3 Integrationsmethoden . . . . . . . . . . . . . . . . . . . . . .
1.4 Integration von rationalen Funktionen: Partialbruchzerlegung
1.5 Vertausch von Grenzübergang und Integral . . . . . . . . . .
1.6 Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
2
2
12
14
16
20
22
2 Gewöhnliche Differentialgleichungen
2.1 Differentialgleichungen erster Ordnung, elementare Lösungsmethoden .
2.2 Differentialgleichungen höherer Ordnung . . . . . . . . . . . . . . . . .
2.3 Lineare Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . .
2.4 Lineare Differentialgleichungen mit konstanten Koeffizienten . . . . . .
.
.
.
.
26
26
30
31
35
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Differentialrechnung in mehreren Veränderlichen
3.1 Definition der Ableitung für Funktionen auf Rn . . . . . .
3.2 Mittelwertsatz . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Höhere Ableitungen, Taylor Entwicklung, lokale Extrema
3.4 Umkehrabbildung und Satz über implizite Funktionen . .
3.5 Mannigfaltigkeiten in Rn . . . . . . . . . . . . . . . . . . .
3.6 Extrema mit Nebenbedingungen . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
42
53
55
63
71
77
4 Riemann’sche Integrale in Rn
4.1 Definition und allgemeine Eigenschaften .
4.2 Iterierte Integrale und der Satz von Fubini
4.3 Variablentransformationen . . . . . . . . .
4.4 Länge und Flächeninhalt . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
82
82
92
95
100
.
.
.
.
.
.
.
103
103
104
107
111
114
118
123
5 Vektoranalysis
5.1 Vektorfelder und Feldlinien . . . . .
5.2 Linienintegrale . . . . . . . . . . . .
5.3 Konservative Vektorfelder . . . . . .
5.4 Rotation . . . . . . . . . . . . . . . .
5.5 Green’sche Formel in 2 Dimensionen
5.6 Fluss, Divergenz und Satz von Gauss
5.7 Satz von Stokes . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1.1
Riemann’sches Integral
Definition und elementare Eigenschaften
Ziel: für eine Funktion f : [a; b] → [0; ∞) möchten wir den Flächeninhalt von {(x, y) :
a ≤ x ≤ b, 0 ≤ y ≤ f (x)} berechnen (und definieren).
Intuitive Konstruktion. Wir wählen Punkte x0 , x1 , . . . , xn ∈ R, mit a = x0 < x1 <
· · · < xn−1 < xn = b. Das zerlegt [a; b] in n Intervalle [x0 ; x1 ], [x1 ; x2 ], . . . , [xn−1 ; xn ].
Für jede j = 1, . . . , n, wählen wir einen Repräsentanten ξj ∈ [xj−1 ; xj ]. Die Fläche von
{(x, y) : xj−1 ≤ x ≤ xj , 0 ≤ y ≤ f (ξj )} ist ungefähr f (ξj )(xj −xj−1 ). Die gesamte Fläche
von {(x, y) : a ≤ x ≤ b, 0 ≤ y ≤ f (x)} ist ungefähr aus der Riemann’sche Summe
n
X
f (ξj )(xj − xj−1 )
j=1
gegeben. Die Hoffnung ist dann, dass die Riemann’sche Summe konvergiert, als die
Teilung unendlich fein wird. Das Integral ist dann als der Grenzwert der Riemann’sche
Summe definiert.
Genaue Konstruktion. Wir betrachten ein kompaktes Intervall I = [a; b] und eine beschränkte R-wertige Funktion f auf I. Eine Teilung von [a; b] ist eine endliche Teilmenge
T = {x0 < x1 < · · · < xn−1 < xn } von [a; b], mit x0 = a und xn = b. Zu einer gegebenen
Teilung T , definieren wir die Intervalle Ij = [xj−1 , xj ], für j = 1, 2, . . . , n. Es gilt
I = I1 ∪ I2 ∪ · · · ∪ In
Die Intervalle Ij sind fast disjunkt, mit
Ij ∩ Ij+1 = {xj } und Ii ∩ Ij = ∅, falls i 6= j, j ± 1
Sei T eine Teilung von [a; b]. Eine zu T entsprechende Familie von Repräsentanten ist
ein n-Tupel ξ = (ξ1 , ξ2 , . . . , ξn } mit ξj ∈ Ij für alle j = 1, . . . , n. Für gegebene Teilung
T und Familie von Representanten ξ definieren wir die Riemann’sche Summe
S(T, ξ) =
n
X
f (ξj )(xj − xj−1 )
j=1
wobei (xj − xj−1 ) = |Ij | die Länge von Ij ist. Wir definieren nun die obere Riemann’sche
Summe zur Teilung T :
S(T ) = sup S(T, ξ) =
ξ
n
X
sup{f (x) : x ∈ Ij } |Ij |
j=1
Die untere Riemann’sche Summe zur Teilung T ist
S(T ) = inf S(T, ξ) =
ξ
n
X
inf{f (x) : x ∈ Ij }|Ij |
j=1
Offenbar gilt S(T ) ≥ S(T ) für alle Teilungen T von [a; b]. Intuitiv sollte es gelten S(T ) ≤
Flächeninhalt ≤ S(T ).
Wir sagen, eine Teilung T 0 ist eine Verfeinerung von T falls T 0 ⊃ T (eine feinere
Teilung ist eine grössere Menge).
2
Lemma 1.1. Wir haben die folgenden Eigenschaften:
a) Sei T 0 ⊃ T eine Verfeinerung von T . Dann gilt S(T 0 ) ≤ S(T ) und S(T 0 ) ≥ S(T ).
b) Es gilt
sup S(T ) ≤ inf S(T )
T
T
Beweis. a) Es genügt, den Fall |T 0 | = |T |+1 zu betrachten. Wir haben also T 0 = T ∪{x̂},
für ein x̂ ∈ [a; b]. Ist T = {x0 < x1 < · · · < xn−1 < xn }, dann gibt es ein k ∈ {1, 2, . . . , n}
mit xk−1 < x̂ < xk . Also T 0 = {x0 < x1 < · · · < xk−1 < x̂ < xk < · · · < xn }. Es gilt
0
0
Ij0 = Ij für 1 ≤ j ≤ k − 1, Ij+1
= Ij für k + 1 ≤ j ≤ n, und Ik = Ik0 ∪ Ik+1
. Da
sup f ≤ sup f
sup f ≤ sup f,
Ik0
0
Ik+1
Ik
Ik
finden wir
0
0
|Ik0 | sup f + |Ik+1
| sup f ≤ (|Ik0 | + |Ik+1
|) sup f = |Ik | sup f
Ik0
0
Ik+1
Ik
Ik
Also
S(T ) = |I1 | sup f + · · · + |Ik | sup f + · · · + |In | sup f
I1
≥
|I10 |
Ik
sup f + · · · +
I10
|Ik0 |
In
sup f +
Ik0
0
|
|Ik+1
sup f + · · · + |In | sup f
0
Ik+1
In
= S(T 0 )
Ähnlich kann man zeigen, dass S(T ) ≤ S(T 0 ).
b) Seien T1 , T2 zwei Teilungen von [a; b]. Wir setzen T3 = T1 ∪ T2 . T3 ist eine Verfeinerung von T1 und von T2 . Aus a), und weil offenbar S(T ) ≤ S(T ) für jede Teilung T ,
bekommen wir
S(T1 ) ≤ S(T3 ) ≤ S(T3 ) ≤ S(T2 )
Also S(T1 ) ≤ S(T2 ) für jede zwei Teilungen T1 , T2 . Das impliziert, dass supT S(T ) ≤
inf T S(T ).
Definition 1.2. Die reelwertige beschränkte Funktion f auf [a; b] heisst Riemann integrierbar, falls
sup S(T ) = inf S(T ) .
T
T
In diesem Fall definieren wir das (Riemann’sche) Integral von f auf [a; b] durch
Z b
f (x)dx := sup S(T ) = inf S(T )
a
T
T
Rb
Rb
Bemerkungen. Wir benutzen auch die Notation a f dx oder einfach a f für das Integral
von f auf [a; b]. Das Differntial dx erinnert an der ∆x = xj − xj−1 in der Riemann’schen
Summe; es hat aber keine Bedeutung im Integral. In Analysis 3 werden wir sehen, dass
eine andere alternative Konstruktion des Integrals existiert, das Lebesgue-Integral. Der
Hauptvorteil des Lebesgue-Integrals ist, dass es für allgemeinere Funktionen existiert
(und dass es bessere Eigenschaften bezüglich Vertausch von Grenzwert und Integral hat).
Wann das Riemann Integral existiert, stimmt es mit dem Lebesgue Integral überein.
3
Proposition 1.3.
a) f ist genau dann integrierbar, wenn inf T S(T ) − S(T ) = 0.
b) Sei Tn eine Familie von Teilungen mit S(Tn ) − S(Tn ) → 0, als n → ∞. Dann ist
f integrierbar und
Z b
Z b
f (x)dx, und S(Tn ) →
f (x)dx
S(Tn ) →
a
a
Weiter, falls ξ (n) eine beliebige Familie von Representanten zur Teilung Tn ist,
haben wir
Z b
(n)
f (x)dx
S(Tn , ξ ) →
a
Bemerkung: Da S(T
) ≥ S(T ) für alle T , die Bedingung inf S(T ) − S(T ) = 0 ist mit
inf S(T ) − S(T ) ≤ 0 äquivalent.
Beweis. a) Nehmen wir an, die Bedingung inf S(T ) − S(T ) = 0 ist erfüllt. Dann
0 = inf S(T ) − S(T ) ≥ inf S(T ) − sup S(T )
und sup S(T ) ≥ inf S(T ). Da die umgekehrte Ungleichung immer gilt, ist sup S(T ) =
inf S(T ). Das bedeutet, dass f integrierbar ist.
Nehmen wir nun an, f ist integrierbar. Sei nun ε > 0, T1 , T2 zwei Teilungen mit
S(T1 ) − inf S(T ) ≤ ε/2
T
und
sup S(T ) − S(T2 ) ≤ ε/2
T
Da f integriebar ist, ist inf S = sup S. Also
S(T1 ) − S(T2 ) ≤ ε
Sei nun T3 = T1 ∪ T2 . Da T3 eine Verfeinerung von T1 , T2 ist, gilt S(T3 ) ≤ S(T1 ) und
S(T3 ) ≥ S(T2 ). Deswegen
S(T3 ) − S(T3 ) ≤ S(T1 ) − S(T2 ) ≤ ε
Da ε > 0 beliebig, gilt
inf S(T ) − S(T ) ≤ 0
T
b) Aus S(Tn ) − S(Tn ) → 0 folgt, dass inf(S(T ) − S(T )) = 0. Aus a) folgt, dass f
integrierbar ist. Da
Z b
S(Tn ) ≤
f (x)dx ≤ S(Tn )
a
wir finden, dass S(Tn ) →
Rb
a
f (x)dx und auch S(Tn ) →
Rb
a
S(Tn ) ≤ S(Tn , ξ (n) ) ≤ S(Tn )
muss auch S(Tn , ξ (n) ) →
Rb
a
f (x)dx.
4
f (x)dx. Weiter, da
Es folgt aus der Proposition, dass um Integrale zu berechnen (und Integrierbarkeit zu
prüfen) es genügt, eine spezielle Folge von Teilungen zu betrachten, nämlich eine Folge
mit der Eigenschaft S(Tn ) − S(Tn ) → 0. Ist die Funktion integrierbar, so konvergieren
obere und untere Summe gegen das Integral von f , für beliebige Folgen von Teilungen
Tn , falls die Länge jedes Intervalls von Tn gegen Null strebt. Für eine Teilung T von [a; b]
setzen wir kT k = maxj=1,...,n |xj −xj−1 |. D.h. kT k ist die Länge des grössten Intervalls in
der Teilung. Für eine beliebige Menge J und eine R-wertige Funktion f auf J definieren
wir auch die Oszillation von f auf J durch
σ(f, J) = sup{f (x) : x ∈ J} − inf{f (x) : x ∈ J} = sup{|f (x) − f (y)| : x, y ∈ J}
Dann ist, für eine beliebige Teilung T ,
S(T ) − S(T ) =
n
X
σ(f, Ij )|Ij |
j=1
Proposition 1.4. Sei f auf [a; b] integrierbar, und Tn eine Folge von Teilungen, mit
kTn k → 0. Dann gilt
Z
a
b
f dx = lim S(Tn ) = lim S(Tn ) = lim S(Tn , ξ (n) )
n→∞
n→∞
n→∞
wobei, für alle n ∈ N, ξ (n) eine Familie von Repräsentanten zur Teilung Tn ist.
Beweis. Es genügt, die folgende Tatsache zu überprüfen: Ist T eine Teilung von [a; b],
mit δ = minj=1,...,n |Ij |. Dann gilt
S(T 0 ) − S(T 0 ) ≤ 3 S(T ) − S(T )
(1)
für alle Teilungen T 0 von [a; b] mit kT 0 k = max |Ij | < δ. In der Tat, nehmen wir an (1)
ist korrekt. Dann können wir wie folgt argumentieren. Da f integrierbar ist, finden wir,
für alle ε > 0, eine Teilung Te mit
S(Te) − S(Te) <
ε
3
Wir setzen dann δ = min |Iej |, wobei Iej die zur Teilung Te entsprechenden Intervalle sind.
Da kTn k → 0, für n → ∞, finden wir N mit kTn k ≤ δ, für alle n > N . Gleichung (1)
impliziert dann, dass
S(Tn ) − S(Tn ) < ε
für alle n > N . Also S(Tn ) − S(Tn ) → 0, für n → ∞. Proposition 1.3 zeigt dann die
Behauptung.
Es bleibt (1) zu zeigen. Wir bezeichnen mit Ij und Ij0 die zu T und zu T 0 entsprechenden Intervalle. Es gilt maxj |Ij0 | < mink |Ik |. Deswegen schneidet jedes Intervall Ij0
höchstens zwei I-Intervalle. Wir definieren εij = 1 falls Ii Ij0 schneidet(für jedes j gibt
es höchstens zwei Indizien i, mit εij 6= 0). Wir bemerken, dass
X
σ(f, Ij0 ) ≤
εij σ(f, Ii )
i
5
Deswegen finden wir
!
S(T 0 ) − S(T 0 ) =
X
σ(f, Ij0 )|Ij0 | ≤
j
X X
j
εij σ(f, Ii ) |Ij0 |
i


X
X
X
=
σ(f, Ii ) 
εij |Ij0 | ≤ 3
σ(f, Ii )|Ii | = 3(S(T ) − S(T ))
i
j
i
P
weil j εij |Ij0 | die gesamte Länge aller I 0 -Intervalle ist, die Ii schneiden, was höchstens
3|Ii | sein kann (weil die I 0 -Intevalle alle kürzer als Ii sind).
Um die letzte Proposition anzuwenden, und Integrale mit Hilfe beliebige Folge von
Teilungen Tn , mit kTn k → 0 zu berechnen, müssen wir zunächst wissen, ob f auf [a; b]
integrierbar ist. Die folgende Proposition gibt eine erste wichtige hinreichende Bedingung
für Integrierbarkeit.
Proposition 1.5. Ist f stetig auf [a; b], so ist f integrierbar auf [a; b].
Beweis. Eine stetige Funktion auf [a; b] ist gleichmässig stetig. Sei ε > 0 fest. Dann
existiert δ > 0 mit
ε
|x − y| ≤ δ ⇒ |f (x) − f (y)| ≤
b−a
Sei nun T = {x0 < x1 < · · · < xn } eine Teilung mit |xj+1 − xj | < δ für alle 1 ≤ j ≤ n.
Dann gilt σ(f, Ij ) ≤ ε/(b − a) für alle j = 1, . . . , n und also
S(T ) − S(T ) =
n
X
j=1
n
ε X
σ(f, Ij )|Ij | ≤
|Ij | = ε
b−a
j=1
Das impliziert, dass
inf S(T ) − S(T ) ≤ 0
und damit, dass f integrierbar ist.
Beispiel: Die Funktion f (x) = 1/x ist stetig auf [1; a]. Wir möchten das Integral
Z a
1
dx
1 x
berechnen. Wir wählen die Teilung Tn = {aj/n : 0 ≤ j ≤ n}. Dann Ij = [a(j−1)/n , aj/n ],
j = 1, . . . , n. Da 1/x monoton fallend ist, gilt
sup{f (x) : x ∈ Ij } = a−(j−1)/n
Also
S(Tn ) =
n
X
−j/n
a
j/n
(a
(j−1)/n
−a
n
X
)=
(1 − a−1/n ) = n(1 − a−1/n )
j=1
und
S(Tn ) =
inf{f (x) : x ∈ Ij } = a−j/n
und
j=1
n
X
a−(j−1)/n aj/n − a(j−1)/n = a1/n S(Tn )
j=1
6
Sei f (t) = at . Dann gilt
S(Tn ) = n(1 − a−1/n ) =
f (0) − f (−1/n)
→ f 0 (0) = log a
1/n
für n → ∞. Da S(Tn ) = a1/n S(Tn ) → log a, folgt, dass
Z a
1
dx = log a
1 x
Beispiel: Sei
f (x) =
falls x ∈ Q
falls x ∈ R\Q
1
0
und [a; b] ⊂ R ein beliebiges Intervall. Es gilt σ(f, I) = 1 für jedes Intervall I ⊂ R. Also
gilt, für eine beliebige Teilung T von [a; b],
S(T ) − S(T ) =
n
X
σ(f, Ij )|Ij | =
j=1
n
X
|Ij | = (b − a)
j=1
Die Funktion f ist deswegen nicht integrierbar.
Proposition 1.6. Sei a < b < c, und f eine beschränkte Funktion auf [a; c]. Dann ist
f integrierbar auf [a; c] g.d.w. f integrierbar auf [a; b] und auf [b; c] ist. In diesem Fall
gilt
Z b
Z c
Z c
f dx =
f dx +
f dx
a
a
b
Beweis. Sei f integrierbar auf [a; b] und auf [b; c]. Wir finden Folgen T1,n und T2,n ,
Teilungen von [a; b] und, bzw. von [b; c], mit
S [a;b] (T1,n ) − S [a;b] (T1,n ) → 0
und
S [b;c] (T2,n ) − S [b;c] (T2,n ) → 0
für n → ∞. Wir setzen T3,n = T1,n ∪ T2,n . Tn ist dann eine Folge von Teilungen von [a; c]
mit
S [a;c] (T3,n ) = S [a;b] (T1,n ) + S [b;c] (T2,n )
S [a;c] (T3,n ) = S [a;b] (T1,n ) + S [b;c] (T2,n )
für alle n. Das impliziert, dass f auf [a; c] integrierbar ist, weil
S [a;c] (T3,n ) − S [a;c] (T3,n ) = S [a;b] (T1,n ) − S [a;b] (T1,n ) + S [b;c] (T2,n ) − S [b;c] (T2,n ) → 0
für n → ∞, und, dass
Z c
f dx = lim S [a;c] (T3,n ) = lim S [a;b] (T1,n ) + lim S [b;c] (T2,n )
a
n→∞
n→∞
n→∞
Übung: Zeige, dass f integrierbar auf [a; c] impliziert, dass f integrierbar auf [a; b] und
auf [b; c] ist.
7
Als Anwendung der letzten Proposition zeigen wir, dass jede auf [a; b] beschränkte
Funktion, mit endlich vielen Unstetigkeitstellen, integrierbar ist.
Proposition 1.7. Sei f auf [a; b] beschränkt, mit endlich vielen Unstetigkeitstellen.
Dann ist f auf [a; b] integrierbar.
Beweis. Seien y1 < y2 < · · · < ym−1 die Unstetigkeitstellen von f in (a; b). Wir setzten
auch y0 = a und ym = b. Ist f integrierbar auf [yj−1 ; yj ] für alle j = 1, . . . m, so ist f
integrierbar auf [a; b] (aus Proposition 1.6). Es genügt also zu zeigen, dass f stetig auf
(a; b) und beschränkt auf [a; b] impliziert, dass f integrierbar auf [a; b] ist. Sei dazu M > 0
s.d. |f (x)| ≤ M auf [a; b]. Für ein beliebiges ε > 0, ist f auf Iε := [a+(ε/8M ); b−(ε/8M )]
integrierbar, weil f stetig auf diesem Intervall ist. Es existiert also eine Teilung T von
Iε mit
S Iε (T ) − S Iε (T ) ≤ ε/2
Wir betrachten nun die Teilung T 0 = T ∪ {a; b} von [a; b]. Es gilt
S [a;b] (T 0 ) − S [a;b] (T 0 )
= (σ(f, [a; a + (ε/8M )]) + σ(f, [b − (ε/8M ); b]))
ε
+ S Iε (T ) − S Iε (T ) ≤ ε
8M
weil σ(J; f ) ≤ 2M für jede Menge J ⊂ [a; b]. Da ε > 0 beliebig ist, ist f auf [a; b]
integrierbar.
Bemerkung: Die Bedingung für Integrierbarkeit in der letzten Proposition ist hinreichend, aber nicht notwendig. Eine Menge N ⊂ R heisst eine Lebesgue Nullmenge, falls
für alle ε > 0 eine endlich oder abzählbare Familie {Ji } von offenen Intervallen existiert,
mit
[
X
N⊂
Ji und
|Ji | ≤ ε
i
i
Jede abzählbare Menge ist offenbar eine Lebesgue Nullmenge, aber es existieren auch
überabzählbare Nullmengen. Tatsache: Eine beschränkte Funktion f auf [a; b] ist genau
dann auf [a; b] integrierbar, falls {x ∈ [a; b]; f unstetig an der Stelle x} eine Lebesgue
Nullmenge ist (Beweis: Analysis 3).
Wir untersuchen nun elementare Eigenschaften vom Integral.
Proposition 1.8. Seien f, g integrierbar über [a; b].
a) Für alle α, β ∈ R ist αf + βg integrierbar auf [a; b] und
Z b
Z b
Z b
(αf + βg) dx = α
f dx + β
gdx
a
a
(Das Integral ist linear).
b) Gilt f (x) ≥ g(x) für alle x ∈ [a; b], so ist
Z b
Z b
f dx ≥
gdx
a
a
(Das Integral ist monoton).
8
a
c) |f | ist integrierbar auf [a; b] und
Z b
Z b
|f |dx
f dx ≤
a
a
(Dreiecksungleichung für Integrale). Es folgt, dass max(f, g), min(f, g) integrierbar
auf [a; b] sind.
Beweis: c) Aus der gewöhnlichen Dreiecksungleichung gilt
||f (x)| − |f (y)|| ≤ |f (x) − f (y)|
D.h. die Oszillationen von |f | auf jedem Intervall J ⊂ R sind durch die Oszillationen
von f beschränkt:
σ(|f |, J) ≤ σ(f, J) for all J ⊂ R
Also
S(|f |, T ) − S(|f |, T ) ≤ S(f, T ) − S(f, T )
für alle Teilungen T . Das impliziert, dass
inf S(|f |, T ) − S(|f |, T ) ≤ inf S(f, T ) − S(f, T ) = 0
T
T
und deswegen, dass |f | integrierbar ist. Die Dreiecksungleichung für Integrale folgt aus
−|f (x)| ≤ f (x) ≤ |f (x)| und aus der Monotonie des Integrals (Teil b), Beweis unten). Die
Integrierbarkeit von max(f, g) und min(f, g) folgt aus der Bemerkung, dass max(f, g) =
(f + g)/2 + |f − g|/2 und min(f, g) = (f + g)/2 − |f − g|/2, aus der Linearität (Teil a),
Beweis unten), und aus der Integrierbarkeit des Absolutbetrags.
a) Es genügt zu zeigen, dass
Z
Z
Z
i) (f + g)dx = f dx + gdx
Z
Z
ii) (αf )dx = α f dx für alle α > 0
Z
Z
iii) (−f )dx = − f dx
Wir zeigen zunächst i). Für eine beliebige Teilung T von [a; b] gilt
sup{f (x) + g(x) : x ∈ Ij } ≤ sup{f (x) : x ∈ Ij } + sup{g(x) : x ∈ Ij }
Also
S(f + g, T ) ≤ S(f, T ) + S(g, T )
Ähnlicherweise
S(f + g, T ) ≥ S(f, T ) + S(g, T )
Seien nun Tnf und Tng Folgen von Teilungen mit der Eigenschaften
S(f, Tnf ) − S(f, Tnf ) → 0
9
und
S(g, Tng ) − S(g, Tng ) → 0
für n → ∞. Sei nun Tn = Tnf ∪ Tng . Dann gilt (da Tn eine Verfeinerung von Tnf ist)
S(f, Tn ) − S(f, Tn ) ≤ S(f, Tnf ) − S(f, Tnf )
und also S(f, Tn ) − S(f, Tn ) → 0, für n → ∞. Ähnlicherweise S(g, Tn ) − S(g, Tn ) → 0,
für n → ∞. Damit
S(f + g, Tn ) − S(f + g, Tn ) ≤ S(f, Tn ) + S(g, Tn ) − S(f, Tn ) − S(g, Tn )
= S(f, Tn ) − S(f, Tn ) + S(g, Tn ) − S(g, Tn ) → 0
Das zeigt, dass f + g integrierbar ist. Es gilt
Z b
S(f, Tn ) + S(g, Tn ) ≤ S(f + g, Tn ) ≤
(f + g)dxS(f + g, Tn ) ≤ S(f, Tn ) + S(g, Tn )
a
Da
b
Z b
f dx +
gdx und
a
a
Z b
Z b
S(f, Tn ) + S(g, Tn ) →
f dx +
gdx
Z
S(f, Tn ) + S(g, Tn ) →
a
a
für n → ∞, folgt, dass
Z
b
Z
b
(f + g)dx =
a
Z
f dx +
a
b
gdx
a
Wir beweisen nun ii). Offenbar gilt
S(αf, T ) = αS(f, T ),
und
S(αf, T ) = αS(f, T )
für jede Teilung T . Ist Tn eine Folge von Teilungen, mit S(f, Tn ) − S(f, Tn ) → 0, so gilt
auch
S(αf, Tn ) − S(αf, Tn ) = α S(f, Tn ) − S(f, Tn ) → 0
Damit ist αf integrierbar, und
Z b
Z b
αf dx = lim S(αf, Tn ) = α lim S(f, Tn ) = α
f dx
a
n→∞
n→∞
a
Um iii) zu zeigen, bemerken wir, dass
S(−f, T ) = −S(f, T )
und S(−f, T ) = −S(f, T )
für jede Teilung T , weil sup(−f ) = − inf f . Ist Tn eine Teilung mit S(f, Tn )−S(f, Tn ) →
0, so gilt auch
S(−f, Tn ) − S(−f, Tn ) = −S(f, Tn ) + S(f, Tn ) → 0
10
für n → ∞. Damit ist −f integrierbar, und
Z b
Z b
(−f )dx = lim S(−f, Tn ) = − lim S(f, Tn ) = −
f dx
n→∞
a
n→∞
a
Damit ist Teil a) bewiesen.
b) Ist f ≥ g, so ist f − g ≥ 0 auf [a; b]. Da aus a) f − g integrierbar ist, muss
Z b
(f − g)dx ≥ 0
a
(weil jede Riemannsche Summe positiv ist). Wieder aus a) folgt, dass
Z b
Z b
Z b
Z b
Z b
gdx
f dx ≥
(f − g)dx ≥ 0 ⇒
gdx =
f dx −
a
a
a
a
a
Damit ist auch Teil b) gezeigt.
Die elementare Eigenschaften des Integrals aus der letzten Proposition haben einige
einfache aber wichtige Folgerungen.
Satz 1.9.
a) Konstante Funktionen sind integrierbar,
Z b
cdx = c(b − a)
a
b) Sei f integrierbar auf [a; b], und
m = inf{f (x) : x ∈ [a; b]},
M = sup{f (x) : x ∈ [a; b]}
Dann gilt
b
Z
f dx ≤ M (b − a)
m(b − a) ≤
a
c) (Mittelwertsatz für Integrale). Ist f stetig auf [a; b], dann existiert ξ ∈ (a; b) mit
Z b
f dx = f (ξ)(b − a)
a
Beweis. a) f (x) = c impliziert, dass S(f, T ) = S(f, T ) = c(b − a) für alle Teilungen T .
Damit ist
Z b
cdx = c(b − a)
a
b) Es gilt m ≤ f (x) ≤ M für alle x ∈ [a; b]. Die Monotonie des Integrals impliziert, dass
Z b
Z b
Z b
m(b − a) =
mdx ≤
f dx ≤
M dx = M (b − a)
a
a
a
c) Aus b) folgt, dass
m≤
1
b−a
Z
b
f dx ≤ M
a
11
Aus dem Satz von Maximum folgt, dass x0 , x1 ∈ [a; b] mit f (x0 ) = m und f (x1 ) = M
existiert. Aus dem Zwischenwertsatz, existiert ξ zwischen x0 und x1 mit
f (ξ) =
1.2
1
b−a
b
Z
f dx
a
Hauptsatz der Integralrechnung
Satz 1.10 (Hauptsatz). Sei f stetig auf [a; b],
Z x
F (x) =
f (t)dt
a
für x ∈ (a; b].
a) F ist differenzierbar auf (a; b) mit F 0 (x) = f (x).
b) Sei G stetig auf [a; b], differenzierbar auf (a; b) mit G0 (x) = f (x). Dann gilt
F (x) = G(x) − G(a)
für alle a < x ≤ b.
Beweis. a) Sei x0 ∈ (a; b) fest. Wir berechnen F 0 (x0 ). Sei zunächst h > 0. Dann
x0 +h
Z
F (x0 + h) =
Z
f dt =
a
x0
Z
x0 +h
f dt +
a
f dt = F (x0 ) + f (ξ)h
x0
für ein ξ ∈ (x0 ; x0 + h). Also
F (x0 + h) − F (x0 )
= f (ξ) → f (x0 )
h
für h ↓ 0, aus Stetigkeit von f . Für h < 0 haben wir ähnlich
Z x0
F (x0 + h) − F (x0 )
F (x0 ) − F (x0 − |h|)
1
=
=
f dt = f (ξ)
h
|h|
|h| x0 −|h|
für ein x0 − |h| < ξ < x0 . Die Stetigkeit von f zeigt, dass
lim
h↑0
F (x0 + h) − F (x0 )
= f (x0 )
h
Damit ist F differenzierbar an der Stelle x0 , mit F 0 (x0 ) = f (x0 ).
b) Es gilt G0 (x) = f (x) = F 0 (x). Also (F − G)0 = 0, und deswegen, G(x) = F (x) + c
für eine Konstante c ∈ R, und alle x ∈ (a; b). Da limx↓a F (x) = 0, und (aus Stetigkeit
von G), limx↓a G(x) = G(a), gilt c = G(a). Damit ist F (x) = G(x) − G(a), für alle
x ∈ (a; b).
12
Man nennt eine Funktion G, stetig auf [a; b], differenzierbar auf (a; b), mit G0 (x) =
f (x) für alle x ∈ (a; b), eine Stammfunktion von f auf [a; b]. Ist G eine Stammfunktion
einer stetigen Funktion f , so gilt
b
Z
f dt = G(b) − G(a)
a
Beachte: Nicht stetige integrierbare Funktionen brauchen keine Stammfunktion zu haben
(z.B. hat die integrierbare Funktion f , definiert durch f (x) = 0 für x < 0 und f (x) = 1
für x ≥ 0, keine Stammfunktion auf [−1; 1]). Anderseits impliziert die Existenz einer
Stammfunktion von f nicht, dass f integrierbar ist.
Bemerkung: Ist G eine Stammfunktion von f , dann ist auch G + c, für irgendeine Konstante c ∈ R, eine Stammfunktion von f . Alle Stammfunktionen von f haben diese Form.
Wir definieren das unbestimmtes Integral von f , als die Familie aller Stammfunktionen
von f :
Z
f dx = G(x) + c
falls G0 (x) = f (x). Manchmal ist es wichtig, das Intervall zu schreiben, wo die Relation
Rb
G0 = f gilt. Zusammenfassend: Das bestimmte Integral a Rf dx ist eine Zahl (Grenzwert
von Riemann’schen Summen). Das unbestimmte Integral f dx ist dagegen die Familie
aller Stammfunktionen von f . Gemäss Hauptsatz ist die Berechnung des unbestimmten
Integrals von grosser Hilfe in der Berechnung des bestimmten Integrals.
Notation: Für b < a setzen wir
Z b
Z a
f dx := −
f dx
a
b
Für b = a, dagegen,
Z
a
f dx := 0
a
Damit gilt
Z
b
f dx = G(b) − G(a)
a
falls f stetig ist, und falls G eine Stammfunktion von f ist, unabhängig von der Ordnung
von a, b.
Die Berechnung von unbestimmten Integralen ist nicht immer einfach. Unbestimmte
Integrale sind nicht immer durch die bekannten Elementarfunktionen darstellbar (die
Ableitung jeder durch Elementarfunktionen darstellbaren Funktion ist dagegen wieder
durch elementare Funktionen darstellbar). Ein wichtiges Beispiel einer Funktion, deren
2
Stammfunktion (die “error-function”) nicht elementar darstellbar ist, ist f (x) = e−x .
Hier sind dagegen einige einfache Beispiele, für welche die Stammfunktion elementar
13
darstellbar ist.
•
•
•
•
•
•
•
•
•
•
1.3
Z
d α
xα+1
α−1
x = αx
⇒
xα dx =
+ c,
dx
α+1
für alle α 6= −1 und, falls α < 0, für alle x 6= 0
Z
d
1
1
log |x| =
⇒
dx = log |x| + c, für alle x 6= 0
dx
x
x
Z
d λx
1
e = λeλx ⇒
eλx dx = eλx + c
dx
λ
Z
d
sin x = cos x ⇒
cos x dx = sin x + c
dx
Z
d
cos x = − sin x ⇒
sin xdx = − cos x + c
dx
Z
d
sinh x = cosh x ⇒
cosh x dx = sinh x + c
dx
Z
d
cosh x = sinh x ⇒
sinh x dx = cosh x + c
dx
Z
d
1
1
arctan x =
⇒
dx = arctan x + c
2
2
dx
1+x
x +1
Z
1
d
1
√
⇒
dx = arcsin x + c, für x ∈ (−1; 1)
arcsin x = √
2
dx
1 − x2
1
−
x
Z
d
1
1
√
arcsinh x = √
⇒
dx = arcsinh x + c
2
dx
1+x
1 + x2
Integrationsmethoden
Es gibt zwei allgemeine Bemerkungen, die bei der Berechnung von Integralen nützlich
sein können; die Substitutionsformel und partielle Integration.
Satz 1.11 (Substitutionsformel). Sei f stetig und g stetig differenzierbar auf geeigneten
Intervallen. Ist
Z
f (x)dx = F (x) + c
so ist
Z
f (g(t))g 0 (t)dt = F (g(t)) + c
(2)
Mit anderen Worten, falls f stetig auf [g(a); g(b)] ist, und g stetig differenzierbar auf
[a; b], haben wir
Z b
Z g(b)
0
f (g(x))g (x)dx =
f (t)dt
a
g(a)
(Es ist hier nicht nötig, dass g(b) > g(a)).
Beweis. Da F eine Stammfunktion von f ist, gilt F 0 (x) = f (x). Aus der Kettenregel
folgt, dass
d
F (g(x)) = f (g(x))g 0 (x)
dx
14
D.h., F (g(x)) ist eine Stammfunktion von f (g(x))g 0 (x). Also
Z b
Z g(b)
f (g(x))g 0 (x)dx = F (g(b)) − F (g(a)) =
f (t)dt
a
g(a)
Man kann den Faktor g 0 (t) in der Substitutionsformel (2) als die Transformation des
Differentials dt betrachten. Sei F eine Stammfunktion für f . Um das Integral
Z
f (g(t))g 0 (t)dt
zu berechnen, setzen wir x = g(t). Dann ist f (g(t)) = f (x), und dx = g 0 (t)dt. Damit
Z
Z
0
f (g(t))g (t)dt = f (x)dx = F (x) + c = F (g(t)) + c
Beispiele: Mit Hilfe der Substitutionsformel berechnen wir die folgenden unbestimmten
Integrale.
1) Für a ∈ R fest, gilt
Z
1
1
1 + (x/a)2
dx
=
x
x2 + a2
a2
d
Sei y = x/a. Dann ist dx = (1/a)dx, und
Z
Z
1
1
1
1
1
dx =
dy = arctan y + c = arctan(x/a) + c
2
2
2
x +a
a
1+y
a
a
Z
2) Wir untersuchen nun
Z
Z
tan x dx =
sin x
dx
cos x
Sei y = cos x. Dann ist dy = − sin xdx und
Z
Z
1
tan x dx = −
dy = − log y + c = − log cos x + c
y
3) Wir berechnen
Z
x
p
1 + x2 dx
indem wir t = 1 + x2 setzen. Dann ist dt = 2xdx und
Z p
Z
1
1
1
2
t1/2 dt = t3/2 + c = (1 + x2 )3/2 + c
x 1 + x dx =
2
3
3
Proposition 1.12 (Partielle Integration). Seien u, v ∈ C 1 ([a; b]). Dann gilt auf diesem
Intervall
Z
Z
0
u(x)v (x)dx = u(x)v(x) − u0 (x)v(x)dx
Es folgt
Z
b
Z
0
u(x)v (x)dx = u(b)v(b) − u(a)v(a) −
a
a
15
b
u0 (x)v(x)dx
Beweis. Wir bemerken, dass
d
(u(x)v(x)) = u0 (x)v(x) + u(x)v 0 (x)
dx
Damit
Z
u0 (x)v(x)dx +
Z
u(x)v 0 (x)dx = u(x)v(x) + c
Beispiele: Wir untersuchen das Integral von xex . Wir setzen u = x und v 0 = ex . Dann
ist u0 = 1 und v = ex . Damit
Z
Z
x
x
xe dx = xe − ex dx = xex − ex + c = ex (x − 1) + c
Ein anderes Beispiel ist das Integral von x2 sin x. Auch hier setzen wir u = x2 und
v 0 = sin x. Dann ist u0 = 2x und v = − cos x, und
Z
Z
2
2
x sin xdx = −x cos x + 2 x cos xdx
Wir wenden noch ein Mal die partielle Integration an. Sei nun u = x und v 0 = cos x.
Dann gilt u0 = 1 und v = sin x, und
Z
Z
x cos xdx = x sin x − sin xdx = x sin x + cos x + c
Also
Z
x2 sin xdx = −x2 cos x + 2x sin x + 2 cos x + c = (2 − x2 ) cos x + 2x sin x + c .
Auch mit Substitution und partieller Integration Stammfunktionen zu finden ist i.A.
eine schwierige Aufgabe. Es gibt aber einige spezielle Methoden, die die Berechnung von
Integralen von besonderen Klassen von Funktionen erlauben. Die wichtigste Klasse von
Funktionen, für die man immer eine elementare Stammfunktion finden kann, besteht
aus allen rationalen Funktionen.
1.4
Integration von rationalen Funktionen: Partialbruchzerlegung
Das Integral einer rationalen Funktion kann immer mit der Methode der Partialbruchzerlegung berechnet werden. Eine rationale Funktion hat die Form p/q, wobei p, q Polynome
sind. Es bezeichne degp und degq den Grad der Polynome p, q. Ist degp ≥ degq, so kann
man p durch q teilen. Man findet Polynome r, s mit degs < degq und mit p = rq + s.
Damit ist p/q = r +s/q. Das Integral von r kann sehr einfach berechnet werden; es bleibt
das Integral von s/q zu berechnen. Mit anderen Worten, es genügt, rationale Funktionen
p/q zu betrachten, mit deg p < deg q.
Es lohnt sich, komplexe Zahlen zu benutzen, um die Polynome q und p zu faktorisieren. Es existieren immer paarweise unterschiedliche z1 , . . . , zn ∈ C, eine Konstante a
und α1 , . . . , αn ∈ N, mit
n
Y
q(x) = a
(x − zj )αj
j=1
16
Die Zahlen z1 , . . . , zn sind die Nullstellen von q; sie heissen die Pole der rationalen
Funktion
Pn p/q. Der Exponent αj ist die Vielfachkeit oder die Ordnung, der Pol zj . Es
gilt j=1 αj = degq. O.B.d.A können wir annehmen, dass p und q keine gemeinsame
Nullstelle haben (sonst kann man die zwei Faktoren kürzen). Unter dieser Annahme
finden wir, dass
p(x)
lim (x − zj )αj
=: A 6= 0
x→zj
q(x)
Dann hat
p(x)
A
−
q(x) (x − zj )αj
höchstens einen Pol der Ordnung (m − 1) an der Stelle zj . In der Tat, sei das Polynom
q̂ so definiert, dass q(x) = (x − zj )αj q̂(x). Es gilt q̂(zj ) 6= 0, und A = p(zj )/q̂(zj ). Damit
A
p(x) − Aq̂(x)
p(x)
−
=
q(x) (x − zj )αj
q(x)
Da der Numerator p(zj ) − Aq̂(zj ) = 0, hat p/q − A/(x − zj )αj höchstens einen Pol der
Vielfachkeit αj − 1 in zj . Durch Wiederholung dieses Arguments, finden wir Konstanten
A1 , . . . , Aαj , s.d.
αj
A`
p(x) X
−
q(x)
(x − zj )`
`=1
keinen Pol an der Stelle zj hat. Wiederholen wir das Argument für alle Pole, erhalten
wir: es existieren (eindeutig bestimmte) Konstanten A1,1 , . . . , A1,α1 , . . . , An,1 , An,αn mit
n
αj
p(x) X X Aj,`
=
q(x)
(x − zj )`
j=1 `=1
Diese Darstellung der rationalen Funktion p/q heisst eine Partialbruchzerlegung. Integration einer beliebigen rationalen Funktion wird somit auf das Problem der Berechnung
der Integralen 1/(x−zj )k reduziert. Bemerke, dass auch für reellen rationale Funktionen
(d.h. rationale Funktionen mit reellen Keoffizienten), die Nullstellen zj des Polynoms q
sind i.A. komplex. Nur auf C kann ein Polynom mit Sicherheit so einfach zerlegt werden. Wir müssen also komplex-wertige Funktionen integrieren. Wir definieren hier das
(unbestimmte) Integral einer C-wertige Funktion f durch
Z
Z
Z
f dx = Re f dx + i Im f dx
R
R
(mit dieser Definition ist der Realteil von f dx gleich zu Re f dx, und analog für den
Imaginärteil). Für k > 1 gilt, ähnlich wie im Fall zj ∈ R,
Z
1
−1
1
dx =
+c
(3)
k − 1 (x − zj )k−1
(x − zj )k
17
Für k = 1 schreiben wir zj = aj + ibj und wir berechnen
Z
Z
1
1
dx =
dx
x − zj
(x − aj ) − ibj
Z
(x − aj ) + ibj
=
dx
(x − aj )2 + b2j
Z
Z
(x − aj )
1
dx
+
ib
dx
=
j
2
2
(x − aj ) + bj
(x − aj )2 + b2j
x − aj
1
= log (x − aj )2 + b2j + i arctan
2
bj
x − Re zj
= log |x − zj | + i arctan
Im zj
(4)
Damit können wir das Integral (bestimmt oder unbestimmt) jeder rationalen Funktion
berechnen. Zusammenfassend ist die Strategie um das Integral einer rationale Funktion
zu bestimmen die folgende: Zunächst wird durch geeignete Division und Kürzung, das
Problem auf die Berechnung des Integrals von p/q reduziert, wobei deg p < deg q und
p, q keine gemeinsamen Faktoren haben. Dann findet man alle PoleQz1 , . . . , zn von p/q,
mit der entsprechenden Vielfachkeit αj . Angenommen q(x) = a nj=1 (x − zj )αj , wir
berechnen dann die Partialbruchzerlegung
α
j
n
p(x) X X Aj,`j
=
.
q(x)
(x − zj )`
j=1 `j =1
von p/q. Die Berechnung der Koeffizienten Aj,`j reduziert sich nach Koeffizientenvergleich zur Lösung eines linearen Systems. Schlussendlich benutzen wir (3) und (4), um
das Integral jeder Term auszurechnen.
Als Beispiel betrachten wir die rationale Funktion
R(x) =
(x2
1
+ 1)2
Der Nenner hat die zwei Nullstellen x = ±i, beide mit Multiplizität zwei. Es existieren
also Konstanten A, B, C, D ∈ C mit
R(x)
B
C
D
A
+
+
+
2
x + i (x + i)
x − i (x − i)2
2
A(x + i)(x − i) + B(x − i)2 + C(x + i)2 (x − i) + D(x + i)2
=
(x2 + 1)2
A(x3 − ix2 + x − i) + B(x2 − 2ix − 1) + C(x3 + ix2 + x + i) + D(x2 + 2ix − 1)
=
(x2 + 1)2
x3 (A + C) + x2 (−iA + B + iC + D) + x(A − 2iB + C + 2iD) − (iA + B − iC + D)
=
(x2 + 1)2
=
Wir bekommen also die 4 Gleichungen
A + C = 0, −iA + B + iC + D = 0, A − 2iB + C + 2iD = 0, −iA − B + iC − D = 1
18
für die vier Unbekannten A, B, C, D. Die erste Gleichung gibt C = −A, die dritte also
B = D. Die zweite Gleichung wird iA = B, und die vierte A = −1/4i = i/4. Also:
1
1
1
i 1
1
i 1
1
=
−
−
−
(x2 + 1)2
4 x + i 4 (x + i)2 4 x − i 4 (x − i)2
und damit
Z
1
1
i
1
1
= (log |x + i| + i arctan x − log |x − i| + i arctan x) +
+
(x2 + 1)2
4
4 x+i x−i
1
1 x
= − arctan x +
2
2 x2 + 1
weil |x − i| = |x + i|. Wie erwartet, ist das Endresultat reell (alle imaginären Beiträge
kürzen sich weg).
Eine andere Klasse von Integralen, die man immer in geschlossene Form ausrechnen
kann, sind Integrale der Form
Z
R(cos x; sin x)dx
wobei R(s; t) eine rationale Funktion von den zwei Variablen s, t ist (d.h. R(s; t) =
p(s; t)/q(s; t) für p, q Polynome in den Variablen s, t). Der Trick in diesem Fall ist die
Substitution u = tan(x/2) durchzuführen. Dann ist x = 2 arctan(u), und
dx =
2
du
1 + u2
Weiter gilt
cos2 (x/2) =
1
1
=
2
1 + u2
1 + tan (x/2)
und aus
cos2 (x/2) =
1 − cos x
2
findet man
cos x = 1 − 2 cos2 (x/2) = 1 −
2
u2 − 1
=
1 + u2
u2 + 1
und
sin x = 2 sin(x/2) cos(x/2) = 2 tan(x/2) cos2 (x/2) =
Also, nach Substitution, wird
Z
2u
1 + u2
Z
R(cos x; sin x)dx =
e
R(u)du
e Das Integral von R
e kann man dann durch die Mefür eine neue rationale Funktion R.
thode der Partialbruchzerlegung berechnen.
Beispiel: Wir möchten das Integral
Z
1
dx
cos x
19
berechnen. Wir setzen u = tan(x/2), und finden
Z
Z 2
Z
1
u +1 2
1
dx =
du = 2
du
2
2
2
cos x
u −11+u
u −1
Z 1
1
du
=
−
u−1 u+1
| tan2 (x/2) − 1|
= log |u − 1| − log |u + 1| + c = log
+c
| tan2 (x/2) + 1|
Bemerke, dass trigonometrische Funktionen oft einfacher integriert werden können,
ohne den Trick mit u = tan(x/2) zu benutzen.
Integrale der Form
Z
R(x;
p
1 − x2 )dx,
für eine rationale Funktion R, können mit der Substitution √
x = sin t berechnet werden.
In der Tat, mit dieser Substitution finden wir dx = cos t dt, 1 − x2 = cos t, und damit
Z
Z
p
2
e
R(x; 1 − x )dx = R(sin
t; cos t)dt
e Das Integral auf der rechten Seite kann dann, wie
für eine neue rationale Funktion R.
oben erklärt, mit der Substitution u = tan(t/2) berechnet werden.
Integrale der Form
Z
R(x;
Z
p
p
x2 − 1)dx, oder
R(x; 1 + x2 )dx ,
für eine rationale Funktion R, können mit der Substitution x = cosh t, bzw. x = sinh t
berechnet werden Mit dieser Substitution reduziert sich das Problem auf der Berechnung
von Integralen der Form
Z
e
R(cosh
t; sinh t)dt
e Die Substitution u = et , reduziert dann das Problem
für eine neue rationale Funktion R.
auf die Berechnung vom Integral von rationalen Funktionen in u. Da sich jeder quadratische Ausdruck ax2 + bx + c durch quadratische Ergänzung und lineare Substitution y
in der Form 1 − y 2 , 1 + y 2 oder y 2 − 1 schreiben lässt, folgt, dass man jedes Integral der
Form
Z
p
R(x; ax2 + bx + c)dx
explizit berechnen kann.
1.5
Vertausch von Grenzübergang und Integral
In dieser Sektion untersuchen wir die folgende Frage: Sei fn eine Folge von auf [a; b]
integrierbare Funktionen, mit fn → f . Ist dann f auf [a; b] integrierbar? Falls ja, ist das
20
Integral von f aus dem Grenzwert der Integrale von fn gegeben? Mit anderen Worten,
unter welchen Bedingungen gilt
b
Z
lim
n→∞ a
fn dx =
Z b
lim fn dx
n→∞
a
Beispiel: Sei fn die Folge von Funktionen auf [−1; 1], definiert durch

 n + n2 x für − 1/n ≤ x < 0
n − n2 x für 0 < x < 1/n
fn (x) =

0
sonst
Es gilt fn → 0 punktweise. Jede fn ist auf [−1; 1] integrierbar, mit
Z
fn dx = 1
für alle n (der Graph von f beschreibt ein Dreieck, mit Basis 2/n und Höhe n). Also,
in diesem Fall
Z 1
Z 1
1 = lim
fn dx 6=
lim fn dx = 0
n→∞ −1
n→∞
−1
Das Beispiel zeigt, dass punktweise Konvergenz von fn nach f nicht genügt, um
Grenzwert mit Integral zu vertauschen. Der nächste Satz zeigt, dass gleichmässige Konvergenz hinreichend ist.
Satz 1.13. Sei fn eine Folge von auf [a; b] integrierbaren Funktionen, mit fn → f
gleichmässig auf [a; b]. Dann ist f auf [a; b] integrierbar und
b
Z
Z
b
f dx = lim
a
n→∞ a
fn dx
Beweis. Sei ε > 0 fest. Wir finden dann n ∈ N mit
|fn (x) − f (x)| <
ε
4(b − a)
für alle x ∈ [a; b]. Da fn integrierbar ist, finden wir auch eine Teilung T von [a; b] mit
S(fn , T ) − S(fn , T ) <
ε
2
Dann gilt
S(f, T ) =
≤
m
X
j=1
=
sup{f (x) : x ∈ Ij } |Ij |
j=1
m X
ε
+ sup{fn (x) : x ∈ Ij } |Ij |
4(b − a)
ε
+ S(fn , T )
4
21
Analog
S(f, t) ≥ S(fn , T ) −
und damit
ε
4
ε
+ S(fn , T ) − S(fn , T ) ≤ ε
2
S(f, T ) − S(f, T ) ≤
Also, ist f integrierbar. Weiter gilt
Z b
Z b
Z b
|f − fn |dx ≤ (b − a) sup |f − fn |
fn dx ≤
f dx −
a
x
a
a
Da die rechte Seite gegen Null konvergiert, muss
Z
b
Z
fn dx →
b
f dx
a
a
für n → ∞.
Bemerkung: Gleichmässige Konvergenz ist zwar hinreichend, aber nicht notwendig für
Konvergenz der Integrale. Mit der alternativen (und modernen) Definition des Integrals
(das Lebesgue Integral, wird in der Vorlesung Analysis III diskutiert) ist es relativ einfach
Bedingungen für Konvergenz von Integrale von Funktionenfolge die viel schwächer, und
damit viel nützelicher sind, als gleichmässige Konvergenz der Folge.
1.6
Uneigentliche Integrale
Bis jetzt haben wir Integrale von beschränkten Funktionen auf kompakte Intervalle
untersucht. Die Definition mit Riemann’schen Summen funktioniert für Integrale der
Form
Z ∞
Z 1
1
1
√ dx
dx oder
2
1+x
x
0
0
nicht. Diese Integrale, die man als uneigentliche Integrale bezeichnet, kann man trotzdem
als Grenzwerte von “eigentlichen Integrale” definieren. Für beliebige y > 0, gilt
Z y
1
dx = arctan(y) − arctan(0) = arctan(y)
2
0 1+x
Also können wir
Z
0
∞
1
dx := lim
y→∞
1 + x2
Z
0
y
1
π
dx = lim arctan(y) =
2
y→∞
1+x
2
definieren. Ähnlich können wir
Z 1
Z 1
1
1
√
√ dx = lim
√ dx = lim (2 − 2 y) = 2
y↓0 y
y↓0
x
x
0
definieren. Die allgemeinere Definition ist die folgende.
22
Definition 1.14. Sei f auf [a; b) definiert (b = +∞ ist zugelassen), und auf [a; y]
integrierbar, für alle y ∈ (a; b). Existiert der Limes
Z y
f dx
lim
y↑b
a
dann sagen wir, f sei auf [a; b) uneigentlich integrierbar, und wir definieren das uneigentliche Integral von f auf [a; b) durch
b
Z
y
Z
f dx
f dx := lim
y↑b
a
a
Ähnlich, falls f auf (a; b] (a = −∞ zugelassen) definiert ist, auf [y; b] integrierbar ist,
für alle y ∈ (a; b), und falls der Limes
b
Z
f dx
lim
y↓a
y
existiert, so definieren wir
b
Z
Z
b
f dx := lim
y↓a
a
f dx
y
Ist f auf (a; b) definiert (a = −∞ und/oder b = +∞ sind zugelassen) und falls die
uneigentlichen Integrale
Z c
Z b
f dx und
f dx
a
c
für ein c ∈ [a; b] existieren, so definieren wir
b
Z
c
Z
f dx =
Z
f dx +
a
a
b
f dx
c
Bemerkung: Ist das Integral auf beiden Seiten uneigentlich, so müssen die zwei Grenzwerte y ↓ a und y ↑ b unabhängig voneinander genommen werden. Z.B. das Integral
Z ∞
xdx
−∞
existiert nicht, obwohl
y
Z
xdx = 0
−y
für alle y > 0.
Beispiel: Es gilt
Z ∞
1
1
dx = lim
y→∞
xα
Z
1
y
1
−1
1
1
1
dx = lim
+
=
α
α−1
y→∞ α − 1 y
x
α−1
α−1
für alle α > 1. Das Integral
Z
1
∞
1
dx
xα
23
existiert dagegen nicht, für α < 1. Es gilt weiter
Z 1
Z 1
1
1
y 1−α
1
1
dx
=
lim
= lim
−
=
α
α
y→0
y→0
x
x
1
−
α
1
−
α
1
−
α
y
0
für alle α < 1. Das Integral
1
Z
0
1
dx
xα
existiert nicht, für α > 1. Die Integrale
Z ∞
1
dx = lim log y = +∞
y→∞
x
1
und
Z
0
1
1
dx = lim − log y = +∞
y→0
x
existieren nicht.
Proposition 1.15 (Vergleichskriterium). Seien a ∈ R ∪ {−∞}, b ∈ R ∪ {+∞}, mit
a < b. Seien f, g integrierbar auf (α; β), für alle a < α < β < b. Es gelte g(x) ≥ 0 und
|f (x)| ≤ g(x) für alle x ∈ (a; b) und es existiere das (uneigentliche) Integral
Z b
gdx
a
Dann existiert auch das (uneigentliche) Integral
Z b
f dx
a
Beweis. Wir betrachten den Fall, dass f integrierbar auf [a; y], für alle y ∈ (a; b), ist.
Wir möchten zeigen, dass
Z y
lim
f dx
y↑b
a
existiert. Sei yn eine beliebige Folge, mit yn < b für alle n ∈ N und yn → b als n → ∞.
Wir zeigen, dass
Z yn
f dx
a
eine Cauchy-Folge ist. Dazu bemerken wir, dass (unter Annahme, dass, zB., ym < yn )
Z yn
Z yn
Z yn
Z ym
Z yn
Z yn
Z ym
=
≤
f
dx
−
f
dx
f
dx
|f
|dx
≤
gdx
≤=
gdx
−
gdx
a
a
ym
ym
ym
a
R yn
a
Die Existenz des IntegralsR von g auf [a; b] impliziert, dass die Folge a gdx eine RCauchyy
y
Folge ist. Damit ist auch a n f dx eine Cauchy-Folge. Also konvergiert die Folge a n f dx.
Es ist weiter einfach zu sehen, dass der Limes unabhängig von der Wahl der Folge yn
ist; man nimmt dazu an, es existieren zwei Folgen y1,n → b und y2,n → b, so dass
Z y1,n
Z y2,n
f dx 6= lim
f dx
lim
n→∞ a
n→∞ a
24
Dann man definiert die Folge y3,n , die, alternierend, Werte aus y1,n und y2,n annimmt.
Die Folge
Z y3,n
f dx
lim
n→∞ a
sollte dann zwei Häufungspunkten haben; da aber y3,n → b, muss die Folge
konvergieren.
Anwendung: das Integral
∞
Z
1
R y3,n
a
f dx
(log x)m
dx
xα
existiert, für alle α > 1, und alle m > 0. Das folgt aus der Tatsache, dass, für alle ε > 0
es existiert eine Konstante Cε mit
(log x) ≤ Cε xε
Für 0 < ε < α − 1 gilt also
(log x)m
1
(log x)m
Cε
≤
sup
≤ 1+ε
xα
x1+ε x≥1 xα−1−ε
x
Die Existenz des Integrals von 1/x1+ε auf [1; ∞) impliziert also die Existenz des Integrals
von (log x)m /xα .
Uneigentliche Integrale können auch benutzt werden, um die Konvergenz von Reihen
zu prüfen.
Proposition 1.16 (Integralkriterium
für Reihen). Sei f positiv, monoton
fallend auf
R∞
P
f
dx
existiert.
f
(n)
konvergent,
genau
dann
wenn
[1; ∞). Dann ist die Reihe ∞
n=1
1
P
Beweis. Da f positiv ist die Reihe n f (n)
konvergent, genau dann wenn sie beschränkt
R∞
ist.
Aus
dem
selben
Grund,
das
Integral
1 f dx existiert, genau dann wenn die Folge
Rm
1 f dx beschränkt ist. Aus der Monotonie von f gilt
Z
n+1
Z
n
f dx ≤ f (n) ≤
n
für alle n ∈ N. Also
Z m+1
m Z
X
f dx =
2
n+1
n=2 n
f dx
n−1
f dx ≤
m
X
f (n) ≤
n=2
m Z
X
n
n=2 n−1
Z
f dx =
m−1
f dx
1
für alle m ∈ N, m > 2. Also die Reihe ist beschränkt, genau dann wenn das Integral
beschränkt ist.
Beispiel: konvergiert die Reihe
∞
X
n=2
1
?
n log n
25
Die Funktion f (x) = (x log x)−1 ist positiv und monoton fallend auf x > 1. D.h. die
Reihe konvergiert g.d.w. das uneigentliche Integral von f auf [2; ∞) existiert. Da (mit
der Substitution u = log x)
Z
2
y
Z
1
dx =
x log x
log y
log 2
du
= log log y − log log 2
u
divergiert, als y → ∞, es folgt, dass
X
n≥2
1
=∞
n log n
Ähnlicherweise kann man zeigen, dass
X
n≥2
1
n(log n)α
konvergiert, g.d.w. α > 1.
2
Gewöhnliche Differentialgleichungen
Differentialgleichungen sind Gleichungen, bei denen die Unbekannten Funktionen sind.
Die Differentialgleichung definiert eine Beziehung zwischen den gesuchten Funktionen
und ihren Ableitungen. Gewöhnliche Differentialgleichugen (auf Englisch “ordinary differential equations” oder einfach ODEs) sind Differentialgleichungen, wo die unbekannten
Funktionen einer einzelnen reellen Variablen sind. Bei partiellen Differentialgleichungen
sind dagegen die unbekannten Funktionen von mehreren Variablen.
Differentialgleichungen haben sehr viele Anwendungen. Die ganze Physik wird z.B.
durch Differentialgleichungen formuliert: Die Newtonsche Gleichung der klassischen Mechanik, die Maxwell Gleichungen der Elektrodynamik, die Schrödingergleichung der
Quantenmechanik, die Einsteingleichung der allgemeinen Relativitätstheorie sind alle Beispiele von Differentialgleichungen. Dabei ist nur die Newtonsche Gleichung eine
gewöhnliche Differentialgleichung, die anderen sind partielle Differentialgleichungen.
In dieser Vorlesung werden wir nur eine kurze Einführung in der Analysis von
gewöhnliche Differentialgleichungen geben. Eine vollständiger Diskussion von gewöhliche Differentialgleichungen wird dann in der Vorlesung Analysis 3 im nächsten Semester stattfinden (insbesondere das wichtige Kriterium für Existenz und Eindeutigkeit
von Lösungen von gewöhnliche Differentialgleichungen, das sogenannte Picard-Lindelöf
Theorem, wird erst in Analysis 3 bewiesen).
2.1
Differentialgleichungen erster Ordnung, elementare Lösungsmethoden
Wir betrachten hier gewöhnliche Differentialgleichungen erster Ordnung.
Definition 2.1. Sei n ≥ 1, U ⊂ Rn+1 , f ∈ C(U ; Rn ). Dann ist
y 0 (x) = f (x, y(x))
26
(5)
eine gewöhnliche Differentialgleichung erster Ordnung. Eine Lösung dieser Differentialgleichung auf einem Intervall I ⊂ R ist eine Funktion y ∈ C 1 (I; Rn ) so, dass
(x, y(x)) ∈ U und (5) erfüllt für alle x ∈ I ist. Für x0 ∈ R, y0 ∈ Rn mit (x0 , y0 ) ∈ U
heisst
0
y (x) = f (x, y(x))
(6)
y(x0 ) = y0
ein Anfangswertproblem oder ein Cauchy-Problem. Eine Lösung des Anfangswertproblems (6) ist eine Lösung der Differentialgleichung (5), die auch die Anfangsbedingung
y(x0 ) = y0 erfüllt (insbesondere muss x0 ∈ I sein). Ist n = 1, so heisst die Differentialgleichung skalar (die gesuchte Funktion hat Werten in R). Ist dagegen n > 1, so heisst
die Differentialgleichung vektoriell (man spricht in diesem Fall von einem System von
Diferentialgleichungen).
Wir betrachten ein paar Beispiele von Differentialgleichungen, wo die Lösungen explizit berechnet werden können (der Einfachheit halber betrachten wir hier Beispiele von
skalaren Gleichungen; wir werden einige Beispiele von vektoriellen Gleichungen später
betrachten, wenn wir lineare Differentialgleichungen untersuchen werden).
Beispiele:
• Sei n = 1, I ⊂ R ein offenes Intervall, U = I × R, und f (x, y) = g(x) (unabhängig
von y), für ein g ∈ C(I). Wir betrachten die Differentialgleichung
ϕ0 (x) = g(x)
Sei G ∈ C 1 (I) eine Stammfunktion von g, mit G0 = g. Dann ist G eine Lösung der
Differentialgleichung. Sei ϕ eine andere Lösung der Differentialgleichung. Dann gilt
(ϕ−G)0 (x) = 0 für alle x ∈ I. Das zeigt, dass jede Lösung die Form ϕ(x) = G(x)+c
hat, für eine Konstante c ∈ R. Betrachten wir nun das Anfangswertproblem
0
ϕ (x) = g(x)
ϕ(x0 ) = y0
für ein x0 ∈ I und ein y0 ∈ R. Die Lösung des Anfangswertproblems ist insbesondere die Lösung der Differentialgleichung und hat deswegen die Form
ϕ(x) = G(x) + c
Die Bedingung
y0 = ϕ(x0 ) = G(x0 ) + c
⇒
c = y0 − G(x0 )
bestimmt die Konstante c eindeutig. Die einzige Lösung des Anfangswertproblems
ist aus
ϕ(x) = G(x) − G(x0 ) + y0
gegeben. Bemerke, dass die eindeutige Lösung auch als
Z x
ϕ(x) = y0 +
g(t)dt
x0
geschrieben werden kann.
27
• Sei wieder n = 1, U = R2 , und f (x, y) = −y. Die Differentialgleichung (5) nimmt
dann die Form
ϕ0 (x) = −ϕ(x)
(7)
Die Funktion ϕ(x) = ce−x erfüllt diese Differentialgleichung auf R, für beliebige
c ∈ R. Wir behaupten jede Lösung auf R hat diese Form. Sei in der Tat ϕ eine
Lösung von (7) auf R. Dann gilt
d x
(e ϕ(x)) = ex (ϕ(x) + ϕ0 (x)) = 0
dx
für alle x ∈ R. Es existiert also eine Konstante c ∈ R mit ex ϕ(x) = c für alle x ∈ R,
d.h. mit ϕ(x) = ce−x für alle x ∈ R. Betrachten wir nun das Anfangswertproblem
0
ϕ (x) = −ϕ(x)
ϕ(x0 ) = y0
für x0 , y0 ∈ R. Die Lösung des Anfangswertproblem hat die Form y(x) = ce−x .
Die Anfangsbedingung y(x0 ) = y0 bestimmt die Konstante c ∈ R durch
y0 = y(x0 ) = ce−x0
⇒
c = y 0 e x0
Die eindeutige Lösung des Anfangswertproblems ist also y(x) = y0 exp(−(x − x0 )).
• Wir betrachten das Anfangswertproblem
0
ϕ (x) = a(ϕ(x) − bϕ2 (x))
ϕ(0) = y0
(8)
für a, b, y0 > 0. Die Differentialgleichung in (8) heisst die logistische Gleichung
oder die Differentialgleichung des beschränkten exponentiellen Wachstums, und
hat z.B. Anwendungen in der Biologie (die Lösung beschreibt das Wachstum einer
idealen Bakterienpopulation). Um die Gleichung zu lösen bemerken wir, dass
1
ϕ0 (x) = a
ϕ(x) − bϕ2 (x)
Integration über x gibt
Z x
0
1
ϕ0 (t)dt = a
ϕ(t) − bϕ2 (t)
Z
x
dt = ax
0
Wir substituieren y = ϕ(t) und bekommen
Z ϕ(x)
1
dy = ax
y
−
by 2
ϕ(0)
Aus
1
1
b
1
=
= +
2
y − by
y(1 − by)
y 1 − by
finden wir
log
ϕ(x)(1 − by0 )
= ax
y0 (1 − bϕ(x))
28
Nach leichter algebraischer Manipulationen bekommen wir die eindeutige Lösung
des Anfangswertsproblems
ϕ(x) =
y0 eax
1 + by0 (eax − 1)
Im letzten Beispiel haben wir die Methode der Trennung der Variablen benutzt. Wir
zeigen im nächsten Satz, dass diese Methode immer angewandt werden kann, falls die
Funktion f (x, y) auf der rechten Seite von (5) das Produkt einer Funktion von x mit
einer Funktion von y ist.
Satz 2.2. Seien I, J ⊂ R offene Intervalle, g ∈ C(I), h ∈ C(J), mit 0 6∈ h(J). Sei
(x0 , y0 ) ∈ I × J. Seien
Z x
Z y
1
G(x) =
g(t)dt, und H(y) =
dt
x0
y0 h(t)
Weiter, sei I 0 ⊂ I ein offenes Intervall mit G(I 0 ) ⊂ H(J) und x0 ∈ I 0 . Dann existiert
genau eine Lösung ϕ ∈ C 1 (I 0 ) des Anfangswertproblems
0
ϕ (x) = g(x)h(ϕ(x))
(9)
ϕ(x0 ) = y0
Ferner ist ϕ : I 0 → J die einzige Funktion mit
H(ϕ(x)) = G(x)
für alle x ∈ I 0 .
(10)
Bemerkung: Die Aussage impliziert, dass Differentialgleichungen der Form (9) durch
Trennung der Variablen gelöst werden können. Das bedeutet, dass (9) zunächst als
1
ϕ0 (x) = g(x)
h(ϕ(x))
umgeschrieben werden kann. Integration über x ergibt dann
Z x
Z x
1
ϕ0 (t)dt =
g(t)dt
x0 h(ϕ(t))
x0
und damit
Z
ϕ(x)
ϕ(x0 )
1
dy =
h(y)
Z
x
g(t)dt
x0
und
H(ϕ(x)) = G(x)
Die eindeutige Lösung des Anfangswertproblems kann dann durch Umkehrung der Funktion H bestimmt werden.
Beweis: Da H ∈ C 1 (J) mit H 0 (y) = 1/h(y) 6= 0 für alle y ∈ J ist H injektiv. Damit ist
H : J → H(J) bijektiv und also invertierbar. Sei T : H(J) → J die Umkehrfunktion.
Dann ist T ∈ C 1 (H(J)) mit T 0 (z) = 1/H 0 (T (z)) = h(T (z)), für alle z ∈ H(J). Die
Gleichung (10) definiert eindeutig eine Funktion ϕ = T ◦ G ∈ C 1 (I 0 ). Diese Funktion
29
erfüllt ϕ0 (x) = h(T ◦ G(x))G0 (x) = h(ϕ(x))g(x) und ϕ(x0 ) = T ◦ G(x0 ) = T (0) = y0 .
D.h. ϕ ist eine Lösung des Anfangswertsproblems. Das zeigt die Existenz der Lösung.
Es bleibt die Eindeutigkeit zu zeigen. Sei dazu ϕ
e ∈ C 1 (I 0 ) eine andere Lösung des
0
Anfangswertproblems. Es folgt, dass ϕ(I
e ) ⊂ J. Sei ψ = H ◦ ϕ
e − G. Dann gilt
ψ 0 = (H 0 ◦ ϕ)
eϕ
e0 − G0 =
1
ϕ
e0 − g = 0
h◦ϕ
e
auf I 0 , Damit muss ψ konstant auf I 0 sein. Da aber ψ(x0 ) = H(ϕ(x
e 0 )) − G(x0 ) = 0,
muss ψ(x) = 0 für alle x ∈ I 0 . D.h. H ◦ ϕ
e = G auf I 0 , und deswegen, ϕ
e = ϕ. Das zeigt
die Eindeutigkeit der Lösung.
Differentialgleichungen der Form (9) können durch Trennung der Variable gelöst werden. In diesem Fall kann die Lösung auf der Berechnung eines Integrales zurückgeführt
werden. In allgemein ist das nicht möglich. Nur die wenigstens Differentialgleichungen
können explizit gelöst werden. Numerische Methoden müssen dann angewandt werden,
um Approximationen für die Lösung von Differentialgleichungen zu finden. Bevor man
numerische Methoden benutzt ist aber wichtig zu wissen, ob eine Lösung existiert, und
ob sie eindeutig ist. Der folgende Satz gibt ein hinreichendes Kriterium für die Existenz und die Eindeutigkeit der Lösung einer Differentialgleichung. Der Beweis wird in
Analysis 3 kommen.
Satz 2.3 (Picard-Lindelöf). Sei I = [a; b] ⊂ R ein nicht-leeres kompaktes Intervall,
x0 ∈ I, f ∈ C(I × Rn , Rn ) Lipschitz-stetig in der zweiten Variablen. D.h. es existiere
L > 0 mit
kf (x, y) − f (x, y 0 )k ≤ Lky − y 0 k
für alle x ∈ I, y, y 0 ∈ Rn . Dann hat für jede y0 ∈ Rn das Anfangswertproblem
0
ϕ (x) = f (x, ϕ(x))
ϕ(x0 ) = y0
(11)
eine eindeutige Lösung ϕ ∈ C 1 (I; Rn ).
2.2
Differentialgleichungen höherer Ordnung
Differentialgleichungen höherer Ordnung hängen auch von den höheren Ableitungen der
gesuchten Funktion y(x) ab.
Definition 2.4. Seien n, k ∈ N\{0} fest, Ω ⊂ R × Rn×k offen, f ∈ C(Ω, Rn ). Dann ist
y (k) (x) = f (x, y(x), y 0 (x), . . . , y (k−1) (x))
(12)
eine Differentialgleichung k-ter Ordnung. Eine Lösung von (12) auf einem Intervall
I ⊂ R ist eine Funktion y ∈ C k (I; Rn ) so, dass
x, y(x), y 0 (x), . . . , y (k) (x) ∈ Ω
und (12) gilt, für alle x ∈ I. Für gegebene (x0 , y0 , y1 , . . . , yk ) ∈ Ω ist
(k)
y = f (x, y(x), . . . , y (k−1) (x))
y (j) (x0 ) = yj ,
für j = 0, 1, . . . , (k − 1)
ein Anfangswertproblem oder ein Cauchy-Problem k-ter Ordnung.
30
(13)
Man kann Resultate über die Existenz und Eindeutigkeit der Lösung von Anfangswertproblemen k-ter Ordnung aus den entsprechenden Resultaten für Gleichungen erster Ordnung herleiten, indem man bemerkt, dass eine Gleichung k-ter Ordnung zu
einer Gleichung erster Ordnung in mehreren Variablen äquivalent ist. In der Tat, das
Anfangswertproblem (13) kann wie folgt umgeschrieben werden. Wir definieren die neue
Funktion ψ(x) = (y(x), y 0 (x), . . . , y (k−1) (x)). Dann ist ψ eine Funktion mit Werten in
Rn×k . Wir definieren ferner
fe(x, z0 , z1 , . . . , zk−1 ) := (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 ))
für alle (x, z0 , z1 , . . . , zk−1 ) ∈ Ω. Auch fe hat Werte in Rn×k . Es ist dann leicht zu sehen,
dass (13) zu dem Anfangswertproblem
ψ 0 (x) = fe(x, ψ(x))
mit der Anfangsbedingung ψ(x0 ) = (y0 , y1 , . . . , yk−1 ) ∈ Rn×k äquivalent ist. Damit
haben wir ein Problem k-ter Ordnung in Dimension n in einem Problem erster Ordnung
in Dimension nk umgeschrieben. Wir erhalten deswegen das folgende Existenz- und
Eindeutigkeitsresultat.
Satz 2.5. Seien n, k ∈ N\{0} fest, I = [a; b] ⊂ R ein nicht-leeres kompaktes Intervall,
x0 ∈ I, f ∈ C(I × Rnk ) , Lipschitz-stetig in Lipschitz-stetig in alle Argumenten nach
dem ersten. D.h. es existiere L > 0 mit
f (x, z0 , z1 , . . . , zk−1 ) − f (x, z00 , z10 , . . . , z 0 ) ≤ Lkz − z 0 k
k−1
0
) ∈ Rnk . Dann existiert für
für alle x ∈ I, z = (z0 , z1 , . . . , zk−1 ), z 0 = (z00 , z10 , . . . , zk−1
jede (y0 , y1 , . . . , yk−1 ) ∈ Rnk eine eindeutige Lösung des Anfangswertproblem (13).
Beweis: Gemäss Satz 2.3, genügt es zu zeigen, dass die Funktion
fe(x, z0 , z1 , . . . , zk−1 ) = (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 ))
Lipshitz-stetig in z = (z0 , z1 , . . . , zk−1 ) ist. Dazu bemerken wir, dass
e
0
, f (x, z) − f (x, z 0 ))
f (x, z) − fe(x, z 0 ) = (z1 − z10 , z2 − z20 , . . . , zk−1 − zk−1
≤ kz − z 0 k + kf (x, z) − f (x, z 0 )k ≤ (L + 1)kz − z 0 k .
2.3
Lineare Differentialgleichungen
Die Differentialgleichung erster Ordnung
y 0 (x) = f (x, y(x))
(14)
heisst linear, falls die Funktion f (x, y) affin in der Variable y ∈ Rn ist, d.h. falls eine offene Teilmenge A ⊂ R, eine matrixwertige Funktion a ∈ C(A; Rn×n ) und eine
vektorwertige Funktion b ∈ C(A; Rn ) existieren mit
f (x, y) = a(x)y + b(x)
31
(15)
Für ein beliebiges x ∈ A bezeichnet hier a(x)y die Anwendung der n × n Matrix a(x)
auf dem Vektor y ∈ Rn . Die Differentialgleichung (14) heisst linear und homogen, falls
f (x, y) linear in y ist, d.h. falls f die Form (15) hat, mit b = 0.
Skalare lineare Differentialgleichungen: Wir betrachten zunächst den skalaren Fall, mit
n = 1. Sei I ⊂ R ein Intervall und a ∈ C(I). Für x0 ∈ I und y0 ∈ R beliebig, untersuchen
wir das skalare, lineare und homogene Anfangswertproblem
(
y 0 (x) = a(x)y(x)
y(x0 ) = y0
Das Anfangswertproblem hat eine eindeutige Lösung (aus Satz 2.3). Durch Trennung
der Variablen finden wir, dass die eindeutige Lösung aus
Z x
ϕ(x) = y0 exp
a(t)dt
x0
gegeben ist.
Sei nun, wie vorher, I ⊂ R ein Intervall und a ∈ C(I). Weiter, sei b ∈ C(I). Für
beliebige x0 ∈ I und y0 ∈ R, untersuchen wir das skalare, lineare (aber inhomogene)
Anfangswertproblem
(
y 0 (x) = a(x)y(x) + b(x)
y(x0 ) = y0
Aus Sazt 2.3, hat dieses Anfangswertproblem eine eindeutige Lösung. Die Lösung kann
durch die Methode der Variation der Konstante gefunden werden. Man findet zunächst
die allgemeine Lösung der homogenen Differentialgleichung y 0 (x) = a(x)y(x), die aus
Z x
y(x) = c exp
a(t)dt
x0
für eine beliebige Konstante c ∈ R gegeben ist. Um die inhomogene Gleichung zu lösen,
betrachtet man den Ansatz
Z x
y(x) = c(x) exp
a(t)dt
x0
bei welchem die Konstante c aus der Lösung der homogenen Gleichung nun von x
abhängt. Dann ist
Z x
Z x
0
0
y (x) = c (x) exp
a(t)dt + c(x)a(x) exp
a(t)dt
x0
x0
Z x
0
= c (x) exp
a(t)dt + a(x)y(x)
x0
Wir sehen also, dass y(x) eine Lösung des inhomogenen Anfangswertproblems ist, g.d.w.
Z x
Z x
0
0
c (x) exp
a(t)dt = b(x)
⇐⇒
c (x) = b(x) exp −
a(t)dt
x0
x0
32
Wir finden also, dass die eindeutige Lösung des inhomogenen Anfangswertproblems aus
Z x
Z t
Z x
a(s)ds dt exp
a(t)dt
b(t) exp −
ϕ(x) = y0 +
x0
x0
x0
gegeben ist.
Vektorielle lineare Differentialgleichungen: Wir kommen nun zum allgemeinen Fall n ≥
1. Sei I ⊂ R ein Intervall, x0 ∈ I, a ∈ C(I, Rn×n ) eine matrix-wertige stetige Funktion
auf I. Wir untersuchen das lineare, homogene Anfangswertproblem
0
y (x) = a(x)y(x)
(16)
y(x0 ) = y0
für ein beliebiges y0 ∈ Rn .
Es lohnt sich in diesem Fall zunächst eine matrix-wertige Differentialgleichung zu
lösen. Aus Satz 2.3 folgt nämlich, dass eine eindeutige Lösung ϕ ∈ C 1 (I, Rn×n ) des
Anfangswertproblems
0
ϕ (x) = a(x)ϕ(x)
(17)
ϕ(x0 ) = 1
existiert, wobei 1 die Identitätsmatrix auf Rn ist. Bemerke, dass, für alle x ∈ I, ϕ(x)
hier eine n × n Matrix bezeichnet. Die Ableitung ϕ0 (x) ist wieder eine Matrix, mit
Einträgen (ϕ0 (x))ij = ϕ0ij (x), wobei ϕij (x) die Einträge von ϕ(x) sind (d.h. die Matrix
wird Einträge-weise differenziert). Das Produkt a(x)ϕ(x) soll dann als Produkt von
zwei Matrizen verstanden werden. Die Matrixgleichung (17) ist einfach ein System von
n2 Differentialgleichungen, oder äquivalent, eine vektorielle Differentialgleichung für eine
Unbekannte ϕ(x) mit n2 Komponenten (deswegen kann man Satz 2.3 anwenden). Analog
existiert eine eindeutige Lösung ψ ∈ C 1 (I; Rn×n ) des Anfangswertproblems
0
ψ (x) = −ψ(x)a(x)
(18)
ψ(x0 ) = 1
Wir behaupten nun, dass
ψ(x)ϕ(x) = 1
für alle x ∈ I. In der Tat, die Anfangsbedingung impliziert, dass ψ(x0 )ϕ(x0 ) = 1.
Anderseits
d
[ψ(x)ϕ(x)] = ψ 0 (x)ϕ(x) + ψ(x)ϕ0 (x) = −ψ(x)a(x)ϕ(x) + ψ(x)a(x)ϕ(x) = 0
dx
D.h. ψ(x)ϕ(x) ist konstant auf I und deswegen ψ(x)ϕ(x) = 1, für alle x ∈ I. Das
impliziert insbesondere, dass die Lösungen ϕ(x) und ψ(x) invertierbar sind, für alle
x ∈ I.
Wir können nun die Lösung ϕ(x) des Anfangswertproblems (17) benutzen, um die
Lösung von (16) zu konstruieren. Aus Satz 2.3 wissen wir nämlich schon, dass (16) eine
eindeutige Lösung besitzt. Wir behaupten nun, dass die eindeutige Lösung von (16) aus
y(x) = ϕ(x)y0 gegeben ist. In der Tat, y(x0 ) = ϕ(x0 )y0 = 1y0 = y0 und
y 0 (x) = ϕ0 (x)y0 = a(x)ϕ(x)y0 = a(x)y(x)
33
(19)
Mit anderen Worten, die eindeutige Lösung von (16) bekommt man einfach durch Anwendung der Matrix ϕ(x) auf die Anfangsbedingung y0 ∈ Rn .
Aus der Darstellung der Lösung von (16) als y(x) = ϕ(x)y0 folgt einfach, dass der
Lösungsraum der linearen Differentialgleichung in (16) eine lineare Struktur hat. Für
gegebene a ∈ C(I; Rn×n ) definieren wir nämlich den Lösungsraum der Differentialgleichung y 0 (x) = a(x)y(x) als
Lh := y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x)
(d.h. Lh ist die Menge aller Lösungen der Differentialgleichung, unabhängig von der
Anfangsbedingung). Wir haben schon bewiesen, dass ein beliebiges y ∈ L die Form
y(x) = ϕ(x)y(x0 ) hat. Das impliziert offenbar, dass Lh ein Vektorraum ist. Da die
Matrix ϕ(x) invertierbar ist, folgt auch, dass y (1) , . . . , y (m) ∈ Lh genau dann linear unabhängig sind, wenn y (1) (x0 ), . . . , y (m) (x0 ) ∈ Rn linear unabhängig sind. Das impliziert,
dass dim Lh = dim Rn = n (mit anderen Worten, die Formel y(x) = ϕ(x)y(x0 ) erlaubt
uns Lh mit Rn zu identifizieren).
Die Lösung der Matrix-Gleichung (17) erlaubt uns auch inhomogene lineare Differentialgleichungen zu berechnen. Sei nämlich I ⊂ R ein Intervall, x0 ∈ I, y0 ∈ Rn ,
a ∈ C(I; Rn×n ) und b ∈ C(I; Rn ). Dann hat das Anfangswertproblem
0
y (x) = a(x)y(x) + b(x)
(20)
y(x0 ) = y0
die eindeutige Lösung
Z
y(x) = ϕ(x) y0 +
x
−1
ϕ
(t)b(t)dt
(21)
x0
wobei ϕ ∈ C 1 (I; Rn×n ) die eindeutige Lösung von (17) ist. In der Tat, aus ϕ(x0 ) = 1
folgt sofort, dass (21) die Bedingung y(x0 ) = y0 erfüllt. Weiter gilt
Z x
0
0
−1
y (x) = ϕ (x) y0 +
ϕ (t)b(t) + ϕ(x)ϕ−1 (x)b(x) = a(x)y(x) + b(x)
x0
Wir haben in (21) benutzt, dass ϕ(x) für alle x ∈ I invertierbar ist. Es folgt aus diesem
Ausdruck für die Lösung des Anfangswertproblems (20), dass der Lösungsraum der
inhomogenen linearen Differentialgleichung y 0 (x) = a(x)y(x) + b(x), definiert durch
Li = y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x) + b(x), für alle x ∈ I
aus
Z
x
Li = Lh + ϕ(x)
ϕ−1 (t)b(t) =
Z
x
y(x) = yh (x) + ϕ(x)
x0
ϕ−1 (t)b(t) : yh ∈ Lh
x0
gegeben ist. Allgeiner, für eine beliebige Lösung z ∈ Li , gilt Li = z + Lh . D.h. Li ist ein
affiner Raum.
Bemerke, dass es im Gegensatz zum skalaren Fall n = 1, wo die Lösung von homogenen und inhomogenen Problemen mit Trennung der Variablen und Variationen der
Konstanten immer gefunden werden kann, bei vektoriellen linearen Problemen (und also
bei Probleme höheren Ordnung) kein allgemeines Rezept gibt, um Lösungen zu finden.
Eine Ausnahme ist der Fall von linearen Gleichungen mit konstanten Koeffizienten, die
durch Konstanten a ∈ Rn×n und b ∈ Rn charakterisiert ist.
34
2.4
Lineare Differentialgleichungen mit konstanten Koeffizienten
Sei n ∈ N und A ∈ Rn×n eine festgewählte n × n Matrix. Wir betrachten die lineare
homogene Differentialgleichung mit konstanten Koeffizienten
y 0 (x) = Ay(x)
(22)
für eine unbekannte Funktion y ∈ C 1 (R; Rn ). Sei
Lh = y ∈ C 1 (R; Rn ) : y 0 (x) = Ay(x)
der Lösungsraum der Differentialgleichung (22). Wir wissen schon, dass Lh ein Vektorraum der Dimension n ist. Ist eine Basis y (1) , . . . , y (n) des Lösungsraums Lh gegeben, so
kann man die eindeutige Lösung des Anfangswertproblems
0
y (x) = Ay(x)
(23)
y(x0 ) = y0
bestimmen, indem man den Vektor y0 als eine lineare Kombination der Basisvektoren
ausdruckt:
n
X
y0 =
cj y (j) (x0 )
j=1
Das ist möglich, weil {y (j) (x0 )}nj=1 eine Basis von Rn ist. Dann ist die eindeutige Lösung
von (23) aus
n
X
y(x) =
cj y (j) (x)
j=1
gegeben.
Wie können wir nun eine Basis von Lh finden? Sei v ∈ Rn ein Eigenvektor von A
mit Eigenwert λ, d.h. Av = λv. Dann ist y(x) = veλx ∈ Lh , weil
y 0 (x) = λveλx = Aveλx = Ay(x) .
Nehmen wir nun an, dass die Matrix A n linear unabhängige Eigenvektoren v1 , . . . , vn ∈
Rn , mit Eigenwerten λ1 , . . . , λn ∈ R (nicht notwendigerweise verschiedenen), besitzt.
Dann sind die Funktionen yj (x) = vj eλj x , für j = 1, . . . , n, linear unabhängig und damit
eine Basis von Lh .
Es passiert oft, dass eine Matrix A ∈ Rn×n auf C, aber nicht auf R diagonalisierbar
ist. Sei λ = γ + iω ∈ C\R ein komplexer Eigenwert von A, mit Eigenvektor v ∈ Cn \{0};
wir zerlegen v = u + iw, mit u, w ∈ Rn . Da A reelle Einträge hat, ist auch λ = γ − iω
ein Eigenwert von A, mit Eigenvektor v = u − iw. Die zwei Funktionen
ye1 (x) = veλx = (u + iw)eiωx eγx = [(u cos ωx − w sin ωx) + i (u sin ωx + w cos ωx)] eγx
ye2 (x) = (u − iw)e−iωx eγx = [(u cos ωx − w sin ωx) − i (u sin ωx + w cos ωx)] eγx
35
sind dann komplexe Lösungen der Differentialgleichung (22). Weil wir uns vor allem für
reelle Lösungen interessieren, möchten wir ye1 und ye2 durch die reellen linearen Kombinationen
ye1 (x) + ye2 (x)
= (u cos ωx − w sin ωx) eγx
2
ye1 (x) − ye2 (x)
y2 (x) =
= (u sin ωx + w cos ωx) eγx
2i
y1 (x) =
(24)
ersetzen.
Seien also ve1 , . . . , ven ∈ Cn linear unabhängige Eigenvektoren von A, zu den Eigenwerten λ1 , . . . , λn ∈ C. Für jedes j = 1, . . . , n unterscheiden wir zwei Fälle. Sei zunächst
λj ∈ R. Dann ist mit vej auch vej ein Eigenvektor von A zum Eigenwert λ. Mindestens
einer der zwei Vektoren Re vej = (e
vj + vej )/2 und Im vej = (e
vj − vej )/2i ist nicht Null und
deswegen ein reeller Eigenvektor v ∈ Rn von A zum Eigenwert λ. Wir setzen, dann
yj (x) = veλx
Sei nun λj ∈ C\R. Dann ist mit λj auch λj ein Eigenwert von A. D.h. es existiert i 6= j
mit λi = λj . Dann setzen wir, gemäss (24),
yj (x) = (Re vj cos(Im λj ) − Im vj sin(Im λj ) eRe λj
yi (x) = (Re vj sin(Im λj ) − Im vj cos(Im λj ) eRe λj
Damit konstruieren wir n linear unabhängige und reelle Lösungen yj der Differentialgleichung y 0 (x) = Ay(x); das gibt eine Basis vom Lösungsraum Lh .
Es gibt natürlich auch den Fall, dass die Matrix A nicht diagonalisierbar ist. D.h.,
dass keine n linearen unabhängigen Eigenvektoren von a existieren. In diesem Fall ist
die Suche nach einer Basis des Lösungsraums Lh komplizierter. Es hilft, die Lösung der
Differentialgleichung y 0 (x) = Ay(x) durch Exponenzierung von A zu konstruieren.
Lösung durch Exponentialabbildung: Die Matrix A = (aij ) ist ein Element von Rn×n .
Auf diesem Raum ist die euklidische Norm aus
kAk2 =
N
X
|aij |2 = Tr A∗ A
i,j=1
gegeben. Es gibt eine andere natürliche Norm für Matrixen, nämlich die Operator-Norm.
Wir definieren die Operatornorm von A durch
kAkop = sup
v∈Rn
kAvk
kvk
wobei kAvk und kvk die euklidischen Normen von Av und v, als Elemente von Rn , sind.
Es ist einfach zu zeigen, dass k.kop wirklich eine Norm ist. Die Operatornorm hat die
Eigenschaft, dass kAvk ≤ kAkop kvk, für einen beliebigen Vektor v ∈ Rn (das folgt direkt
aus der Definition). Sind also A, B ∈ Rn×n zwei Matrizen, dann gilt (AB bezeichnet die
Multiplikation der zwei Matrizen A und B; das entspricht der Verknüpfung der zwei
Abbildungen)
kABvk ≤ kAkkBvk ≤ kAkkBkkvk
36
für alle v ∈ Rn . Es folgt, dass
kABkop ≤ kAkop kBkop
Es gilt
1
√ kAk ≤ kAkop ≤ kAk
n
(25)
für jede A ∈ Rn×n . D.h. die zwei Normen k.k und k.kop auf Rn×n sind äquivalent (das gilt
übrigens für jede zwei Normen auf einem beliebigen endlich dimensionalen Vektorraum).
Man kann (25) wie folgt beweisen. Es gilt
n
2
n X
n X
n X
n
X
X
2
kAvk =
aji vi =
aji1 aji2 vi1 v i2
≤
j=1 i=1
n X
n
X
1
2
j=1 i1 =1 i2 =1
n
X
|aji1 |2 |vi2 |2 + |aji2 |2 |vj |2 = kvk2 kAk2
j=1 i1 =1 i2 =1
Das impliziert, dass kAvk/kvk ≤ kAk für alle v ∈ Rn , und damit, dass kAkop ≤ kAk.
Anderseits,
kAk2 = Tr A∗ A =
n
X
hej , A∗ Aej i =
j=1
n
X
kAej k2 ≤
j=1
n
X
kAk2op kej k2 ≤ nkAk2op
j=1
wobei die Vektoren ej = (0, . . . , 0, 1, 0, . . . , 0) die Standardbasis von Rn sind.
Wir betrachten nun für A ∈ Rn×n die Folge
BN :=
N
X
Aj
j=0
Wir bemerken, dass, für N > M ,
N
X Aj kBN − BM kop = j=M +1 j! j!
N
N
X
X
kAj kop
kAkj
≤
≤
j!
j!
j=M +1
op
j=M +1
P
j
Aus der Konvergenz der Reihe ∞
j=0 kAk /j! auf R folgt, dass kBN − BM kop → 0, da
N, M → ∞. Das impliziert auch, dass kBN − BM k → 0 bezüglich der euklidischen Norm
auf Rn×n . Also ist BN eine Cauchy-Folge auf Rn×n , bzg. der euklidischen Norm, und
damit konvergiert BN . Wir definieren
exp(A) := lim
N
X
Aj
N →∞
j=0
j!
≡
∞
X
Aj
j=0
Wir bemerken nun, dass die matrixwertige Funktion
ϕ(x) = exp(A(x − x0 ))
37
j!
definiert für beliebige x ∈ R, das Anfangswertproblem
0
ϕ (x) = Aϕ(x)
ϕ(x0 ) = 1
(26)
löst. Die Anfangsbedingung ϕ(x0 ) = 1 ist offenbar erfüllt. Wir zeigen nun, dass ϕ(x) die
Differentialgleichung erfüllt. Sei dazu R > 0 fest. Auf x ∈ [x0 − R; x0 + R] konvergiert
die matrixwertige Potenzreihe
BN (x) =
N
X
Aj
j=0
j!
(x − x0 )j
gleichmässig gegen exp(A(x − x0 )). Die Ableitung
0
BN
(x)
=
N
X
Aj
j=0
j!
j(x − x0 )
N
N
−1 j
X
X
Aj−1
A
j−1
=A
(x − x0 )
=A
(x − x0 )j
(j − 1)!
j!
j−1
j=1
j=0
konvergiert auch gleichmässig gegen A exp(A(x−x0 )). Aus Analysis 1 (Proposition 8.29)
folgt, dass ϕ ∈ C 1 ([−R; R]; Rn×n ), mit ϕ0 (x) = Aϕ(x) für alle x ∈ [−R; R] (bemerke,
dass Proposition 8.29 in Analysis 1 nur für R-wertige Funktionenfolgen formuliert ist.
Das Resultat lässt sich aber trivial auf matrixwertige Funktionen erweitern, indem man
die n2 Komponenten der Matrix separat untersucht). Da R > 0 beliebig ist, folgt dass
ϕ ∈ C 1 (R; Rn×n ) das Anfangswertproblem (26) auf ganz R löst.
Die eindeutige Lösung des Anfangswertproblems (23) ist durch Anwendung der Matrix ϕ(x) auf die Anfangsbedingung, d.h.
y(x) = ϕ(x)y0 = exp(A(x − x0 ))y0
gegeben. Ferner, das inhomogene Anfangswertpbroblem mit konstanten Koeffizienten
y 0 (x) = ay(x) + b, mit der Anfangsbedingung y(x0 ) = y0 , hat die eindeutige Lösung
Z x
a(x−x0 )
−a(x−x0 )
y(x) = e
y0 +
e
bdt .
x0
Aus einem praktischen Sichtpunkt ist die Berechnung der Exponenitalabbildung
exp(a(x − x0 )) durch die Diagonalisierung von A möglich. Ist nämlich A = U −1 DU ,
für eine diagonale Matrix D = diag(d1 , . . . , dn ), so gilt Am = (U −1 DU )m = U −1 Dm U .
Es folgt
exp(A(x − x0 )) =
∞
X
m=0
= U −1
Am
∞
X
(x − x0 )m
(x − x0 )m
=
U −1 Dm U
m!
m!
∞
X
m=0
Dm
(x − x0
m!
m=0
m
)
U
∞
∞
m
m
X
X
dm
dm
n (x − x0 )
1 (x − x0 )
= U diag
,...,
m!
m!
m=0
m=0
= U −1 diag e(x−x0 )d1 , . . . , e(x−x0 )dn U.
−1
38
!
U
Ist die Matrix a nicht diagonalisierbar, so ist die Berechnung von exp((x − x0 )a) schwieriger. In diesem Fall kann die jordansche Normalform der Matrix A verwendet werden.
Für beliebige A ∈ Rn×n kann man nämlich eine invertierbare Matrix U und eine blockdiagonal Matrix


J1 0
0
... 0
 0
J2 0
... 0 

J =
 ... ... ... ... ... 
0
0
0
. . . Jk
finden, so dass A = U −1 JU . J heisst die Jordan Normalform von A. Die Blöcke Ji haben
die Form


λi 1
0
... 0
 0
λi 1
... 0 



(27)
Ji = 
 ... ... ... ... ... 

 0
... 0
λi 1
0
... 0
0
λi
Die Einträge λi auf der Diagonalen der Matrixen Ji sind die Eigenwerte von A. Die
Anzahl der Blöcke mit Eigenwert λi ist aus der geometrischen Vielfachheit von λi gegeben (d.h. die Dimension des Eigenraumes mit Eigenwert λj ). Die Gesamtdimension der
Jordanblöcke mit Eigenwert λi ist dagegen die algebraische Vielfachheit von λi (die Vielfachheit von λi als Nullstelle des charakteristischen Polynoms). Sind algebraische und
geometrische Vielfachheit gleich, so ist jeder Jordanblock mit Eigenwert λi eine 1 × 1
Matrix mit Eintrag λi (ist das der Fall für alle Eigenwerte von A, dann ist J diagonal
und A diagonalisierbar).
Der Ausdruck A = U −1 JU erlaubt uns, die Exponentialabbildung exp(tA) zu berechnen, für ein beliebiges t ∈ R (t = x − x0 in unserer Anwendung). In der Tat
exp(tA) = exp(U −1 tJU ) = U −1 exp(tJ)U
Die Anwendung der Exponentialabbildung an der Blockdiagonale Matrix tJ ist wieder
blockdiagonal, mit Blöcken exp(tJi ), wobei die Ji die Form (27) haben. Sei Ji eine ` × `
Matrix. Dann liefert die Berechnung von exp(tJi ) (Beweis: Übung)




t2
t`−1
1
t
.
.
.
tλi t
0
... 0
2!
(`−1)!

t`−2 
 0

tλ
t
.
.
.
0


i
0
1
t
.
.
.


(`−2)!

 = etλi 
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
exp 


... ... ... ... ...




 0
... 0
tλi t 
 0

... 0
1
t
0
... 0
0
tλi
0
... 0
0
1
Damit kann man in Prinzip die Exponentialabbildung ϕ(x) = exp(A(x − x0 )) für jede
Matrix A ∈ Rn×n berechnen. Mit dieser Methode kann man also immer die eindeutige
Lösung des Anfangswertproblems (23) finden.
Skalare, lineare, homogene Differentialgleichungen höherer Ordnung mit konstanten Koeffizienten: Eine skalare, lineare, homogene Differentialgleichung der Ordnung n ∈ N mit
konstanten Koeffizienten hat die Form
an ϕ(n) (x) + an−1 ϕ(n−1) (x) + · · · + a1 ϕ0 (x) + a0 ϕ(x) = 0
39
(28)
für eine Funktion ϕ ∈ C n (R), und für Konstanten a0 , . . . , an ∈ R. Definieren wir y =
(ϕ, ϕ0 , . . . , ϕ(n−1) ) ∈ C 1 (R; Rn ), dann nimmt (28) die Form

0
 0

y 0 (x) = 

 0
− aan0
1
0
...
0
− aan1
0
1
...
0
− aan2
...
...
...
0
...
0
0
1
− an−1
an



 y(x) =: Ay(x)


Es ist einfach zu sehen, dass die Matrix A genau dann (in C) diagonalisierbar ist, wenn
sie n verschiedene Eigenwerten hat (Übung: Gilt Av1 = λv1 und Av2 = λv2 für ein
λ ∈ C, dann existiert κ ∈ C mit v1 = κv2 ).
Obwohl die Matrix A nicht immer diagonalisierbar ist, ist es hier trotzdem einfach,
eine Basis für den n dimensionalen Lösungsraum


n


X
Lh = y ∈ C n (R) :
aj ϕ(j) (x) = 0


j=0
zu bestimmen, ohne explizit die jordansche Normalform von A zu berechnen. Wir definieren dazu das Polynom
p(s) = an sn + an−1 sn−1 + · · · + a1 s + a0
Dann nimmt (28) die Form
p
d
dx
ϕ=0
(29)
Aus dem Fundamentalsatz der Algebra (Satz 2.33 in Analysis 1) existieren
k ∈ N,
P
λ1 , . . . , λk ∈ C voneinander unterschiedliche, n1 , . . . , nk ∈ N\{0} mit kj=1 nj = n so,
dass
k
Y
p(s) = an
(30)
(s − λj )nj
j=1
Wir können also (29) als
p
d
dx
nj
k Y
d
ϕ=0
ϕ = an
− λj
dx
(31)
j=1
schreiben. Bemerke hier, dass die Ordnung der Operatoren (d/dx − λj )nj keine Rolle
spielt (die verschiedenen Monomen kommutieren miteinander). Wir bemerken ferner,
dass
k
d
− λ [f (x)eλx ] = f (k) (x)eλx
(32)
dx
In der Tat
d
− λ [f (x)eλx ] = f 0 (x)eλx + λf (x)eλx − λf (x)eλx = f 0 (x)eλx
dx
40
Wenden wir diese Formel k Mal an, so finden wir (32). Aus (29) erhalten wir also
nj nm
Yd
d
d
` λm x
[x e
] = an
[x` eλm x ]
p
− λj
− λm
dx
dx
dx
j6=m
nj nm Yd
d
= an
− λj
x ` e λm x = 0
dx
dxnm
j6=m
für alle ` = 0, 1, 2, . . . , nm − 1. Die n Funktionen
{ym,` (x) = x` eλm x : m = 1, . . . , k, und ` = 0, 1, . . . , nm − 1}
sind also Lösungen der Differentialgleichung p(d/dx)ϕ = 0. Diese Funktionen sind linear
unabhängig (Beweis: Übung), und definieren also eine Basis des Lösungsraums Lh , wenn
wir Lh als einen Vektorraum über C betrachten. Mit anderen Worten, jede Lösung
von (28) kann als eine endliche lineare Kombination der Funktionen ym,` geschrieben
werden. Für gegebene Anfangsbedingungen y(x0 ) = y0 , y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) =
yn−1 kann man also die eindeutige Lösung des Anfangswertproblems bestimmen, indem
man Konstanten αm,` findet, so dass
y(x) =
k nX
m −1
X
αm,` x` eλm x
(33)
m=1 `=1
alle Anfangsbedingungen an der Stelle x = x0 erfüllt. Die resultierende Lösung (33) ist,
für reelle Anfansbedingungen y0 , . . . , yn−1 ∈ R automatisch reell. Falls man aber eine
Basis für Lh betrachtet als R-Vektorraum, sucht, so muss man wie oben die Lösungen
x` eλj x , x` eλj x mit λj ∈ C\R durch die reellen linearen Kombinationen
x` cos((Im λj )x)e(Re λj )x
und
x` sin((Im λj )x)e(Re λj )x
ersetzen (das ist immer möglich, wenn die Koeffizienten a0 , . . . , an ∈ R, weil für jede
Nullstelle λ von p auch λ eine Nullstelle ist).
Skalare, lineare, inhomogene Differentialgleichungen höherer Ordnung mit konstanten
Koeffizienten: Auch inhomogene, skalare, lineare Differentialgleichungen von höherer
Ordnung mit konstanten Koeffizienten kann man mit dieser Methode lösen. Aus der
Untersuchung von allgemeinen linearen Differentialgleichungen wissen wir schon, dass
der Lösungsraum der inhomogenen Gleichung
an y (n) (x) + an−1 y (n−1) (x) + · · · + a0 y(x) + b = 0
(34)
aus Li = z + Lh gegeben ist, wobei z eine beliebige Lösung der inhomogenen Gleichung
ist. Also braucht man, um den Lösungsraum von (34) zu finden, einfach eine einzige
Lösung von (34) zu finden. Das ist aber einfach. Ist z.B. a0 6= 0, dann kann man einfach
z als die konstante Funktion z(x) = −b/a0 wählen. Allgemeiner, sei j ∈ {0, 1, . . . , n}
der kleinste Index mit aj 6= 0. Dann ist z(x) = −(b/aj )xj /j! eine Lösung von (34). Der
Lösungsraum von (34) ist also aus
Li = {−(b/aj )xj /j!} + Lh
41
gegeben. Die eindeutige Lösung von (34), unter den Anfangsbedingungen y(x0 ) = y0 ,
y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) = yn−1 , kann man also bestimmen, indem man Konstanten
αm,` findet, so dass
k nX
m −1
X
b xj
y(x0 ) = −
+
αm,` x` eλm x
aj j!
m=1 `=0
die Anfangsbedingungen erfüllt.
Beispiel: Sei
y 00 + 2γy + ω02 y = 0
Die Gleichung kann als p(d/dx)y = 0 geschrieben werden, mit dem Polynom
p(s) = s2 + 2γs + ω02
Das Polynom p hat die Nullstellen
s = −γ ±
q
γ 2 − ω02
Ist |γ| > |ω|, dann sind die zwei Nullstellen verschiedenen und reell. Damit sind
√
√
−γ+ γ 2 −ω02 x
−γ− γ 2 −ω02 x
y1 (x) = e
und y2 (x) = e
eine Basis für den Lösungsraum. Ist dagegen |γ| = |ω0 |, dann hat p die einzige reelle
Nullstelle s0 = −γ. Damit sind
y1 (x) = e−γx
und
y2 (x) = xe−γx
eine Basis für den Lösungsraum. Ist dagegen |γ| < |ω0 |, dann sind die zwei Nullstellen
von p komplex. In diesem Fall sind
q
q
y1 (x) = cos( ω02 − γ 2 x)e−γx und y2 (x) = sin( ω02 − γ 2 x)e−γx
eine Basis des Lösungsraums.
3
3.1
Differentialrechnung in mehreren Veränderlichen
Definition der Ableitung für Funktionen auf Rn
Wiederholung von Begriffen aus der linearen Algebra und Analysis 1. In Analysis 1
(siehe Definition 2.34) haben wir den Begriff vom Vektorraum definiert. Ein Vektorraum
über R ist nämlich eine Menge V , versehen mit einer Addition + : V × V → V und
einer skalaren Multiplikation · : R × V → V , die eine Reihe von Axiomen erfüllen. Ein
normierter Vektorraum ist ein Vektorraum V , auf dem eine Abbildung k.k : V → R
definiert ist, mit den Eigenschaften: i) kxk ≥ 0 für alle x ∈ V , kxk = 0 genau dann,
wenn x = 0; ii) kαxk = |α|kxk für alle x ∈ V und α ∈ R; iii) kx + yk ≤ kxk + kyk.
Eine Norm k.k auf einem Vektorraum V erzeugt immer eine Metrik auf V , die durch
d(x, y) = kx − yk definiert wird. Also ist jeder normierte Vektorraum ein metrischer
42
Raum. Wir sagen der normierte Vektorraum V ist vollständig, falls V , versehen mit der
aus der Norm induzierten Metrik, ein vollständiger metrischer Raum ist.
Seien nun V und W zwei Vektorräume über R. Eine Abbildung L : V → W heisst
linear, falls L(x + λy) = L(x) + λL(y) für alle x, y ∈ V und λ ∈ R. Wir bezeichnen die
e W ). Seien L, M ∈ L(V,
e W ) und
Menge aller linearen Abbildungen L : V → W mit L(V,
λ ∈ R. Wir definieren dann die Abbildungen L + M, λL : V → W durch
(L + M )(x) = L(x) + M (x),
und
(λL)(x) = λL(x)
e W ). Damit hat L(V,
e W ) die Struktur
für alle x ∈ V . Offenbar gilt L + M, λL ∈ L(V,
eines Vektorraumes über R (es ist leicht zu überprüfen, dass Summe und skalare Multiplikation alle notwendigen Axiome erfüllen). Nehmen wir nun an, V, W seien normierte
e W ) definieren wir dann
Vektorräume. Für L ∈ L(V,
kLkop :=
kLvk
= sup kLvk = sup kLvk
v∈V \{0} kvk
v∈V,kvk≤1
v∈V,kvk=1
sup
(35)
e W ) heisst beschränkt, falls kLkop < ∞. Das ist leicht
Eine lineare Abbildung L ∈ L(V,
e W ) ist genau dann beschränkt, falls sie auf V stetig
zu zeigen: Eine Abbildung L ∈ L(V,
e W ) ist genau dann auf V stetig, falls sie in v = 0
ist. Ferner, eine Abbildung L ∈ L(V,
stetig ist. Wir bezeichnen
e W ) : L beschränkt ist} = {L ∈ L(V,
e W ) : L stetig ist}
L(V, W ) := {L ∈ L(V,
e W ) die aus beschränkten Abbildungen besteht. Es ist einfach zu
die Teilmenge von L(V,
e W ) ist. Also ist L(V, W ) selbst ein
zeigen, dass L(V, W ) ein linearer Unterraum von L(V,
Vektorraum. Man kann dann leicht beweisen, dass (35) eine Norm auf L(V, W ) definiert.
Man nennt kLkop die Operatornorm von L. L(V, W ), versehen mit der Norm k.kop ist
also ein normierter Vektorraum. Tatsache: Ist W vollständig, so ist auch L(V, W ) ein
vollständig normierter Vektorraum, unabhängig davon, ob V vollständig ist oder nicht
(ein vollständiger normierter Vektorraum heisst ein Banach-Raum).
e W ) und M ∈ L(W,
e
Sind V, W, X drei Vektorräume, und L ∈ L(V,
X) zwei lineare
Abbildungen, so können wir die Verknüpfung L ◦ M : V → X durch (L ◦ M )(v) :=
L(M (v)) definieren. Wir bezeichnen oft die Verknüpfung L ◦ M als L · M oder einfach
e X) eine lineare Abbildung ist. Sind ferner
als LM . Es ist leicht zu sehen, dass LM ∈ L(V,
e W ) und M ∈ L(W,
e
V, W, X drei normierte Vektorräume und L ∈ L(V,
X) beschränkt,
dann ist auch LM beschränkt und
kLM kop ≤ kLkop kM kop
Also, für jede L ∈ L(V, W ) und M ∈ L(W, X), ist LM ∈ L(V, X). Insbesondere, für
jede L, M ∈ L(V, V ) ist LM ∈ L(V, V ). Das definiert ein Produkt auf dem Vektorraum
L(V, V ).
e R) heisst ein lineares FunkSei V ein Vektorraum. Eine lineare Abbildung L ∈ L(V,
tional auf V . Sei V ein normierter Vektorraum. Der Raum L(V, R) aller stetigen linearen
43
Funktionalen auf V heisst der Dualraum von V und wird oft mit V ∗ bezeichnet. Versehen
mit der Operatornorm
kLvk = sup |Lv|
v∈V,kvk≤1
ist V ∗ ein normierter Vektorraum. Da R vollständig ist, ist V ∗ immer vollständig.
Wir werden in dieser Vorlesung nur endlich dimensionale Vektorräume betrachten.
Jeder Vektorraum V mit dim V = n < ∞ ist isomorph zu Rn (ein Isomorphismus ist
nach Wahl einer Basis von V gegeben). Auf Rn ist die standard euklidische Norm durch
2
k(x1 , . . . , xn )k =
n
X
|xj |2
j=1
definiert. Auf Rn ist auch ein Skalarprodukt definiert. Für x = (x1 , . . . , xn ) und y =
(y1 , ,̇yn ) setzen wir
n
X
x·y =
x j yj
j=1
Dann gilt kxk2 = x · x. Wir haben in Analysis 1 bewiesen, dass Rn , versehen mit der
euklidischen Norm k.k, ein vollständiger normierter Vektorraum ist. Tatsache: Auf einem
endlich dimensionalen Vektorraum sind alle zwei Normen äquivalent. D.h., falls k.k1 , k.k2
zwei Normen auf Rn sind, dann es gibt eine Konstante c > 0 mit
1
kxk1 ≤ kxk2 ≤ ckxk1
c
für alle x ∈ Rn . Die Äquivalenz der zwei Normen impliziert, dass eine Folge xn auf Rn
genau dann bzg. k.k1 konvergiert, wenn sie bzg. k.k2 konvergiert und dass eine Folge xn
auf Rn genau dann bzg. k.k1 eine Cauchy-Folge ist, wenn sie bzg. k.k2 eine Cauchy-Folge
ist. Da Rn versehen mit der Standardnorm vollständig ist, ist Rn bzg. einer beliebigen
Norm ein vollständiger Vektorraum (es ist natürlich möglich, auf Rn eine Metrik d zu
finden, so dass (Rn , d) nicht vollständig ist; eine solche Metrik d kann dann aber nicht
von einer Norm induziert werden).
e = (`ij ),
Sei L : Rn → Rm eine lineare Abbildung. Dann existiert eine m × n Matrix L
e
e
so dass L(x) = Lx, wobei das Produkt Lx durch
e i=
(Lx)
n
X
`ij xj
j=1
definiert ist. Wir identifizieren deswegen die lineare Abbildung L mit der entsprechenden
e Jede lineare Abbildung L : Rn → Rm ist beschränkt. In der Tat, falls wir
Matrix L.
auch mit L = (`ij ) die Matrix bezeichnen, die der Abbildung L zugeordnet ist, so gilt
kLkop ≤ kLk, wobei
m X
n
X
∗
kLk = Tr L L =
|`ij |2 < ∞
i=1 j=1
44
die Standardnorm von L ist, falls wir L als ein Element von Rm×n betrachten. Es
folgt, dass jede lineare Abbildung zwischen Rn und Rm automatisch stetig ist, d.h.
e n , Rm ) = L(Rn , Rm ).
L(R
Der Dualraum zu Rn ist der Vektorraum (Rn )∗ = L(Rn , R) aller linearen Funktionalen auf Rn (weil jedes lineare Funktional auf Rn stetig ist). Ein beliebiges lineares
Funktional L auf Rn kann also mit einer 1 × n Matrix identifiziert werden. Mit anderen
Worten, jedes lineare Funktional L auf Rn kann mit einem Vektor a ∈ Rn identifiziert
werden, so dass
n
X
L(x) = a · x =
aj xj
j=1
Rn
wobei a·x das Skalarprodukt auf
bezeichnet. Man kann sich leicht davon überzeugen,
dass für ein solches lineares Funktional,
kLkop =
sup
|L(x)| =
x∈Rn ,kxk≤1
sup
|a · x| = kak
x∈Rn ,kxk≤1
wobei kak die Standardnorm auf Rn bezeichnet. Es folgt, dass (Rn )∗ ' Rn als normierte
Vektorräume identifiziert werden können.
Partielle Ableitungen. Nach dieser kurzen Wiederholung aus der linearen Algebra, sind
wir bereit, den Begriff von Ableitung auf mehrdimensionale Vektorräume zu definieren.
Wir werden der Einfachkeit halber Funktionen betrachten, die auf einer Teilmenge von
Rn definiert sind, mit Werten auf Rm . Die Definitionen können aber einfach auf Funktionen zwischen zwei beliebigen (endlich dimensionalen) Vektorräumen verallgemeinert
werden (weil jeder endlich dimensionale Vektorraum isomorph zu Rn ist). Auf Rn werden
wir immer die euklidische Standardnorm betrachten. Es ist aber einfach, die Definitionen
auf beliebige andere Normen zu erweitern (weil jede Norm zur Standardnorm äquivalent
ist). Also, obwohl wir nur Funktionen f : Rn ⊃ U → Rm betrachten werden, kann man
den Begriff von Ableitung für beliebige Funktionen zwischen zwei normierten endlich
dimensionalen Vektorräumen definieren.
Definition 3.1. Sei U ⊂ Rn offen, x0 ∈ U , i ∈ {1, . . . , n}. Eine Funktion f : U → R
heisst im Punkt x0 partiell differenzierbar in der i-ten Koordinate, falls der Limes
∂f
f (x0 + hei ) − f (x0 )
(x0 ) := lim
h→0
∂xi
h
existiert. Hier sind die Vektoren e1 , . . . , en die Standardbasis von Rn , d.h. wir haben
ei = (0, . . . 0, 1, 0, . . . , 0). In diesem Fall heisst die Zahl ∂f /∂xi (x0 ) die i-te partielle
Ableitung von f an der Stelle x0 . Die Funktion f heisst an der Stelle x0 ∈ U partiell
differenzierbar, falls f in jeder Koordinate an der Stelle x partiell differenzierbar ist.
Die Funktion f heisst auf U partiell differenzierbar, falls f an der Stelle x partiell
differenezierbar ist, für jede x ∈ U .
Bemerkung: Die partielle Ableitung in der i-ten Koordinate ist die gewöhnliche Ableitung bezüglich der i-ten Variablen von f , wenn die anderen (n−1) Koordinaten konstant
gehalten werden. D.h. die i-te partielle Ableitung von f an der Stelle x∗ = (x∗1 , . . . , x∗n ) ∈
45
Rn ist die Ableitung der Funktion einer Variablen t → f (x∗1 , x∗2 , . . . , x∗i + t, x∗i+1 , . . . , x∗n )
an der Stelle t = 0.
Bemerkung: Analog kann man die partielle Ableitungen einer vektorwertigen Funktion
definieren. Sei wie oben U ⊂ Rn offen und f : U → Rm . Für j = 1, . . . , m, sei fm : U → R
die m-te Komponente von f ; d.h. es gelte f (x) = (f1 (x), . . . , fm (x)). Dann sagen wir,
dass f im Punkt x0 in der i-ten Koordinate partiell differenzierbar ist, falls fj an der
Stelle x0 in der i-ten Koordinate partiell differenzierbar ist, für alle j = 1, . . . , m. In
diesem Fall ist die i-te partielle Ableitung von f aus dem Vektor
∂f1
∂fm
∂f
(x0 ) =
(x0 ), . . . ,
(x0 ) ∈ Rm
∂xi
∂xi
∂xi
gegeben.
Es stellt sich heraus, dass der Begriff von partieller Differenzierbarkeit ein bisschen
zu schwach ist. Viele Resultate, die wir für differenzierbare Funktionen auf R kennen,
gelten für eine auf einer offenen Teilmenge U ⊂ Rn definierte, partiell differenzierbare
Funktion f nicht. Z.B. zeigt das folgende Beispiel, dass partielle Differenzierbarkeit einer
Funktion nicht ihre Stetigkeit impliziert.
Beispiel: Auf R2 definieren wir die Funktion
xy
falls (x, y) 6= (0, 0)
x2 +y 2
f (x, y) =
0
falls (x, y) = (0, 0)
Wir behaupten, dass f auf R2 partiell differenzierbar ist. In der Tat ist f offenbar an der
Stelle (x, y) in der ersten Koordinate partiell differenzierbar für alle (x, y) 6= (0, 0). Wir
behaupten, f auch an der Stelle (0, 0) in der ersten Koordinate partiell differenzierbar
ist. In der Tat
f (h, 0) − f (0, 0)
0
lim
= lim = 0
h→0
h→0 h
h
Analog kann man zeigen, dass f überall in der zweiten Koordinate partiell differenzierbar
ist. Also ist f auf R2 partiell differenzierbar. Wir behaupten nun, dass f an der Stelle
(0, 0) nicht stetig ist. In der Tat haben wir
1/k 2
1
= 6= 0
2
2
k→∞ 1/k + 1/k
2
lim f (1/k, 1/k) = lim
k→∞
Also, obwohl die Folge (1/k, 1/k) → (0, 0) konvergiert, ist f (1/k, 1/k) 6→ f (0, 0).
Ableitung auf Rn . Wir brauchen also einen stärkeren Begriff von Differenzierbarkeit für
Funktionen, die auf Teilmengen von Rn definiert sind. Um den richtigen Begriff zu finden,
möchten wir zunächst den Begriff von Differenzierbarkeit für Funktionen einer Variablen
umschreiben. Sei U ⊂ R offen, und x0 ∈ U . Eine Funktion f : U → R ist an der Stelle
x0 falls der Grenzwert
f (x0 + h) − f (x0 )
lim
h→0
h
existiert. Es folgt: f ist in x0 differenzierbar, falls ein Zahl L ∈ R existiert s.d.
|f (x0 + h) − f (x0 ) − Lh| = o(|h|)
46
im Limes h → 0. Das bedeutet, f ist an der Stelle x0 differenzierbar, falls sich f in
der Nähe von x0 durch eine lineare Funktion approximieren lässt. Ist das der Fall, so
ist L eindeutig bestimmt und aus L = f 0 (x0 ) gegeben. Dieser Begriff lässt sich nun auf
Funktionen verallgemeinern, die auf einer offenen Teilmenge von Rn definiert sind.
Definition 3.2. Sei U ⊂ Rn offen, f : U → Rm und x0 ∈ U . Die Funktion f heisst
an der Stelle x0 differenzierbar, wenn eine lineare Abbildung L : Rn → Rm existiert, so
dass
f (x0 + h) − f (x0 ) − L(h)
lim
=0
h→0
khk
In diesem Fall heisst die Abbildung L die Ableitung oder das Differential von f an der
Stelle x0 und wird mit L = Df (x0 ) bezeichnet. f heisst auf U differenzierbar, falls f an
der Stelle x differenzierbar ist, für alle x ∈ U .
Bemerkung: Es folgt, dass eine Funktion f ist an der Stelle x0 differenzierbar, falls sie
sich lokal durch eine lineare Abbildung approximieren lässt, d.h. falls L ∈ L(Rn , Rm )
existiert, s.d.
kf (x0 + h) − f (x0 ) − Lhk = o(khk)
Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) eindeutig
bestimmt. Gilt in der Tat
f (x0 + h) − f (x0 ) − L(h)
= 0,
h→0
khk
lim
so muss
f (x0 + h) − f (x0 ) − M (h)
=0
h→0
khk
und lim
kL(h) − M (h)k
=0
h→0
khk
lim
Da
kL(x/K) − M (x/K)k
kLx − M xk
=
kxk
kx/Kk
für alle K > 0, erhalten wir
kLx − M xk
kL(x/K) − M (x/K)k
kL(h) − M (h)k
= lim
= lim
=0
K→∞
h→0
kxk
kx/Kk
khk
für alle x ∈ Rn . Das bedeutet
kL − M kop =
kLx − M xk
=0
kxk
x∈Rn \{0}
sup
und deswegen L = M .
Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) : Rn → Rm
eine lineare Abbildung. Man kann also Df (x0 ) mit einer n × m Matrix identifizieren.
Wie für jede lineare Abbildung zwischen endlich dimensionale Vektorräume, ist Df (x0 )
beschränkt, kDf (x0 )kop < ∞, und damit auch stetig.
Bemerkung: Sei U ⊂ Rn offen. Sei f : U → Rm mit Komponenten f1 , . . . , fm : U → R.
D.h. es gelte f (x1 , . . . , xn ) = (f1 (x1 , . . . , xn ), . . . , fm (x1 , . . . , xn )) für alle (x1 , . . . , xn ) ∈
U . Dann ist f an der Stelle x0 ∈ U genau dann differenzierbar, wenn fj an der Stelle
47
x0 differenzierbar ist, für alle j = 1, . . . , m. Das folgt aus der Tatsache, dass eine Folge
(n)
(n)
x(n) = (x1 , . . . , xm ) ∈ Rm genau dann gegen x = (x1 , . . . , xm ) ∈ Rm konvergiert, wenn
(n)
xj → xj für alle j = 1, . . . , m.
Satz 3.3. Sei U ⊂ Rn offen, x0 ∈ U , und f : U → Rm an der Stelle x0 differenzierbar.
Dann ist f an der Stelle x0 stetig.
Beweis: Sei L die Ableitung von f an der Stelle x0 . Wir schreiben
f (x0 + h) − f (x0 ) = [f (x0 + h) − f (x0 ) − L(h)] + L(h)
Da f differenzierbar an der Stelle x0 ist, gilt kf (x0 + h) − f (x0 ) − L(h)k → 0 für h → 0.
Anderseits, kL(h)k ≤ kLkop khk → 0 für h → 0. Also
kf (x0 + h) − f (x0 )k ≤ kf (x0 + h) − f (x0 ) − L(h)k + kL(h)k → 0
für h → 0. Das zeigt, dass f an der Stelle x0 stetig ist.
Richtungsableitungen. Ist f an der Stelle x0 differenzierbar, so existieren alle partiellen
Ableitungen von f an der Stelle x0 . Ferner existieren alle Richtungsableitungen.
Proposition 3.4. Sei U ⊂ Rn offen, x0 ∈ U und f : U → Rm an der Stelle x0
differenzierbar. Dann
f (x0 + tv) − f (x0 )
= Df (x0 )(v)
t→0
t
lim
für alle v ∈ Rn (hier ist t ∈ R) und insbesondere existiert der Grenzwert auf der linken
Seite. Man nennt den Grenzwert auf der linken Seite die Richtungsableitung von f in
der Richtung v.
Beweis: Aus Differenzierbarkeit folgt, dass
kf (x0 + h) − f (x0 ) − L(h)k
=0
h→0
khk
lim
Insbesondere, falls h = tv für ein festes v ∈ Rn und t ∈ R, gilt (weil, wegen Linearität,
L(tv) = tL(v))
f (x0 + tv) − f (x0 )
kf (x0 + tv) − f (x0 ) − L(tv)k
−1
0 = lim
= kvk lim − L(v)
t→0
t→0
ktvk
t
und damit
f (x0 + tv) − f (x0 )
= L(v)
t→0
t
lim
Wählen wir v = ej , dann impliziert Proposition 3.4, dass alle partiellen Ableitungen
(∂f /∂xj )(x0 ) für j = 1, . . . , n existieren. Es folgt auch, dass die partielle Ableitung
(∂f /∂xj )(x0 ) die j-te Kolumne der Matrix Df (x0 ) ist. Mit anderen Worten, sei f : U →
Rm , mit Komponenten f1 , . . . , fm : U → R, so dass f (x) = (f1 (x), f2 (x), . . . , fm (x)) für
48
alle x ∈ U . Sei f an der Stelle x0 differenzierbar. Dann kann die lineare Abbildung
Df (x0 ) : Rn → Rm durch die m × n Matrix mit Einträge
(Df (x0 ))i,j =
∂fi
(x0 )
∂xj
für i = 1, . . . , m und j = 1, . . . , n
(36)
dargestellt werden. Diese Matrix heisst die Funktionalmatrix, oder die Jacobi-Matrix
von f an der Stelle x0 .
Wie wir schon gemerkt haben, impliziert die Existenz der Jacobi-Matrix nicht, dass
f an der Stelle x0 differenzierbar ist. Man findet aber, dass Existenz und Stetigkeit
der partiellen Ableitungen die Differenzierbarkeit von f implizieren. Dieses Kriterium
ist wichtig, weil es uns erlaubt, die Differenzierbarkeit von Funktionen, einfach durch
Untersuchung der partiellen Ableitungen, zu beweisen.
Proposition 3.5. Sei U ⊂ Rn offen, f : U → Rm . Ferner, nehmen wir an, dass die
partiellen Ableitungen ∂f /∂xj (x) auf U existieren und stetig sind. Dann ist f auf U
differenzierbar.
Beweis: O.B.d.A. betrachten wir den Fall m = 1 (die Differenzierbarkeit von f (x) =
(f1 (x), . . . , fm (x)) ist mit der Differenzierbarkeit von f1 , . . . , fm äquivalent). Der Einfachkeit halber untersuchen wir zunächst den Fall n = 2. Wir nehmen an 0 = (0, 0) ∈ U ,
und wir zeigen die Differenzierbarkeit in diesem Punkt. Sei h = (h1 , h2 ) so klein, dass
Bkhk (0) ⊂ U . Wir schreiben
f (h1 , h2 ) − f (0, 0) = f (h1 , h2 ) − f (h1 , 0) + f (h1 , 0) − f (0, 0)
Da die Abbildung y → f (h1 , y) stetig differenzierbar ist (aus Existenz und Stetigkeit
der partiellen Ableitung in der y-Richtung), können wir schreiben
Z
h2
∂f
(h1 , y)
∂y
0
Z h2 ∂f
∂f
∂f
(0, 0)h2 +
dy
(h1 , y) −
(0, 0)
=
∂y
∂y
∂y
0
f (h1 , h2 ) − f (h1 , 0) =
dy
Analog ist x → f (x, 0) stetig differenzierbar. Deswegen
Z
h1
∂f
(x, 0)
∂x
0
Z h1
∂f
∂f
∂f
=
(0, 0) +
dx
(x, 0) −
(0, 0)
∂x
∂x
∂x
0
f (h1 , 0) − f (0, 0) =
dx
Also haben wir
∂f
∂f
(0, 0)h1 −
(0, 0)h2
∂x
∂y
Z h2
Z h1
∂f
∂f
∂f
∂f
=
dx
(x, 0) −
(0, 0) +
dy
(h1 , y) −
(0, 0)
∂x
∂x
∂y
∂y
0
0
f (h1 , h2 ) − f (0, 0)−
49
Die Differenzierbarkeit von f an der Stelle (0, 0) folgt, falls wir zeigen können, dass
Z h2
Z h1
∂f
∂f
∂f
∂f
dy
dx
(x, 0) −
(0, 0) +
(h1 , y) −
(h1 , y) = o(k(h1 , h2 )k)
∂x
∂x
∂y
∂y
0
0
als (h1 , h2 ) → 0. Sei also ε > 0 fest. Da die partiellen Ableitungen stetig sind, finden wir
δ > 0 so dass
∂f
(x, y) − ∂f (0, 0) ≤ ε und
∂x
2
∂x
∂f
(x, y) − ∂f (0, 0) ≤ ε
∂y
2
∂y
für alle (x, y) ∈ R2 mit k(x, y)k ≤ δ. Sei nun k(h1 , h2 )k ≤ δ. Dann gilt auch k(h1 , y)k ≤ δ,
für alle 0 ≤ y ≤ h2 (angenommen h2 > 0, sonst ist die Aussage war für alle h2 ≤ y ≤ 0).
Damit gilt
∂f
ε
∂f
(h1 , y) −
(0, 0) ≤
∂y
∂y
2
für alle 0 ≤ y ≤ h2 und also
Z h2
ε|h2 |
∂f
∂f
εkhk
dy
(h1 , y) −
(0, 0) ≤
≤
∂y
∂y
2
2
0
Ähnlich gilt k(x, 0)k ≤ δ für alle 0 ≤ x ≤ h1 (oder h1 ≤ x ≤ 0, falls h1 < 0). Deswegen
∂f
(x, 0) − ∂f (0, 0) ≤ ε
2
∂x
∂x
für alle 0 ≤ x ≤ h1 und also
Z h1
ε|h1 |
∂f
εkhk
∂f
≤
(x,
0)
−
(0,
0)
≤
dx
∂x
∂x
2
2
0
Es folgt, dass für alle ε > 0 ein δ > 0 existiert, so dass
Z h1
Z h2
1
∂f
∂f
∂f
∂f
≤ε
dx
(x,
0)
−
(0,
0)
+
dy
(h
,
y)
−
(0,
0)
1
k(h1 , h2 )k 0
∂x
∂x
∂y
∂y
0
für alle k(h1 , h2 )k ≤ δ. Das zeigt die Behauptung. Die Verallgemeinerung zu n ≥ 3 lassen
wir als Übung.
Der Gradient. Sei U ⊂ Rn , offen und f : U → R eine reel-wertige Abildung, differenzierbar an der Stelle a ∈ U . Das Differential von f an der Stelle a ist dann eine lineare
Abbildung Df (a) : Rn → R und kann mit einer 1 × n Matrix identifiziert werden. Mit
anderen Worten, Df (a) ist ein lineares Funktional auf Rn . Wie jedes lineare Funktional
auf Rn kann Df (a) mit einem Vektor v = (v1 , . . . vn ) ∈ Rn , mit der Eigenschaft, dass
Df (a)(y) = v · y =
n
X
j=1
50
vj yj
für alle y = (y1 , . . . , yn ) ∈ Rn identifiziert werden. Man nennt den Vektor v den Gradienten von f an der Stelle a und man benutzt die Notation v = ∇f (a). Nach (36) sind
die Komponenten vom Gradient aus
∂f
∂f
(a), . . . ,
(a)
∇f (a) =
∂x1
∂xn
gegeben. Für einen beliebigen Einheitsvektor e ∈ Rn gilt, nach Proposition 3.4,
d
f (a + te)|t=0 = Df (a)(e) = ∇f (a) · e
dt
D.h. die Zuwachsrate der Funktion f in der Richtung e ist aus dem Skalarprodukt ∇f (a)·
e gegeben. Nehmen wir an ∇f (a) 6= 0. Das Skalarprodukt ∇f (a) · e ist dann maximal
über allen möglichen Einheitsvektoren e ∈ Rn , mit kek = 1, falls e = ∇f (a)/k∇f (a)k.
Für e = ∇f (a)/k∇f (a)k gilt dann
d
∇f (a)
f (a + te) = ∇f (a) ·
= k∇f (a)k
dt
k∇f (a)k
Wir haben bewiesen, dass der Vektor ∇f (a) in die Richtung der grössten Zuwachsrate
der Funktion f an der Stelle a zeigt. Die Länge von ∇f (a) ist dann genau die grösste
Zuwachsrate von f an der Stelle a (das gilt auch, falls ∇f (a) = 0).
Stetige Differenzierbarkeit. Sei U ⊂ Rn offen. Eine Funktion f : U → Rm heisst auf
U stetig differenzierbar, falls die Ableitung Df (x) existiert, für alle x ∈ U , und falls
die Abbildung Df : U → L(Rn ; Rm ) stetig ist. Aus Proposition 3.5 folgt, dass f auf U
genau dann stetig differenzierbar ist, wenn die partielle Ableitung ∂fi /∂xj (x) für alle
i = 1, . . . , m und alle j = 1, . . . , n auf U existiert und stetig ist. Wir setzen
C 1 (U ; Rm ) := {f : U → Rm : f auf U stetig differenzierbar ist} .
Rechenregeln. Wir sammeln in der nächsten Proposition ein paar nützliche elementare
Regeln für die Berechnung von Ableitungen von Funktionen mit mehreren Veränderlichen.
Proposition 3.6. Sei U ⊂ Rn offen, a ∈ U .
a) Seien f, g : U → Rm differenzierbar an der Stelle a und λ ∈ R. Dann ist auch f +
λg : U → Rm differenzierbar an der Stelle a und D(f + λg)(a) = Df (a) + λDg(a).
b) Ist f konstant auf U , so gilt Df (x) = 0 für alle x ∈ U .
c) Ist f : Rn → Rm linear, dann gilt Df (x) = f , für alle x ∈ Rn .
Beweis: Teil (a) und (b) sind offenbar, nach Definition der Ableitung und linearität des
Limes. Zu Teil (c) bemerken wir, dass f (x + h) = f (x) + f (h). Das impliziert, dass
kf (x + h) − f (a) − f (h)k = 0 = o(khk)
Damit ist die lineare Abbildung L = f die Ableitung von f an der Stelle x.
51
Kettenregel. Die Ableitung der Verknüpfung zweier Funktionen kann durch die Kettenregel berechnet werden.
Satz 3.7. Sei U ⊂ Rn und G ⊂ Rp offen. f : U → Rp , g : G → Rm , mit f (U ) ⊂ G. Sei
a ∈ U , f differenzierbar an der Stelle a, g differenzierbar an der Stelle f (a). Dann ist
die Funktion g ◦ f : U → Rm differenzierbar an der Stelle a ∈ U , und
D(g ◦ f )(a) = Dg(f (a)) · Df (a)
wobei das Produkt auf der rechten Seite die Komposition der zwei linearen Abbildungen
Df (a) : Rn → Rp und Dg(f (a)) : Rp → Rm ist. Mit anderen Worten, die m × n Matrix
D(g ◦ f )(a) ist aus dem Produkt der m × p Matrix Dg(f (a)) mit der p × n Matrix Df (a)
gegeben.
Beweis: Sei b = f (a), L = Df (a), M = Dg(b). Für h ∈ Rn , e
h ∈ Rp setzen wir
η1 (h) = f (a + h) − f (a) − L(h),
und
η2 (e
h) = g(b + e
h) − g(b) − M (e
h)
Nach Differenzierbarkeit von f an der Stelle a und von g an der Stelle b, gilt
kη1 (h)k = o(khk),
und
kη2 (e
h)k = o(ke
hk)
für h, e
h → 0. Sei nun h ∈ Rn beliebig und e
h = L(h) + η1 (h). Dann gilt
b+e
h = f (a) + L(h) + η1 (h) = f (a + h)
Also
(g ◦ f )(a + h) = g(f (a + h)) = g(b + e
h) = g(b) + M (e
h) + η2 (e
h)
= g(f (a)) + M (L(h)) + M (η1 (h)) + η2 (e
h)
Die Behauptung folgt, falls wir zeigen können, dass i) kM (η1 (h))k = o(khk) und ii)
kη2 (e
h))k = o(khk) für h → 0. Um i) zu zeigen, bemerken wir einfach, dass
kM (η1 (h))k
kη1 (h)k
≤ kM kop
→0
khk
khk
für h → 0, weil η1 (h) = o(khk). Anderseits, um ii) zu beweisen, benutzen wir, dass
kη1 (h)k ≤ khk für khk klein genug (weil η1 (h) = o(khk)). Deswegen gilt
ke
hk = kL(h) + η1 (h)k ≤ kL(h)k + kη1 (h)k ≤ (kLk + 1)khk
für khk klein genug. Da η2 (e
h) = o(ke
hk) existiert, für ein beliebiges ε > 0 ein δ > 0 mit
kη2 (e
h)k ≤ εke
hk ≤ (kLk + 1)εkhk
für alle h ∈ Rn mit khk ≤ δ. Das bedeutet, dass η2 (e
h) = o(khk) und zeigt ii).
52
Beispiel. Sei q : R → R3 die Bahn eines Teilchens als Funktion der Zeit. Sei T : R×R3 →
R die Temperatur als Funktion von der Zeit und von der Position im Raum. Die vom
Teilchen zur Zeit t gespürte Temperatur ist aus der Funktion t → T (t, q(t)) gegeben.
Sind q und T differenzierbar, so ist auch t → T (t, q(t)) differenzierbar, mit
3
X ∂T
d
∂T
(t, q(t))qj0 (t)
T (t, q(t)) =
(t, q(t)) +
dt
∂t
∂xj
j=1
Das Resultat folgt mit der Definition f : R → R4 durch f (t) = (t, q1 (t), q2 (t), q3 (t)).
Nach Differenzierbarkeit von q ist auch f differenzierbar, mit
f 0 (t) = (1, q10 (t), q20 (t), q30 (t))
Da T (t, q(t)) = (T ◦ f )(t) folgt, dass
3
(T ◦ f )0 (t) = DT (f (t)) · f 0 (t) = (∇T )(f (t)) · f 0 (t) =
X ∂T
∂T
(t, q(t))qj0 (t)
(t, q(t)) +
∂t
∂xj
j=1
3.2
Mittelwertsatz
Für eine auf [a; b] stetige und auf (a; b) differenzierbare Funktion f : [a; b] → R besagt
der Mittelwertsatz, dass ein ξ ∈ (a; b) existiert, mit f (b) − f (a) = f 0 (ξ)(b − a). Wir
zeigen hier eine analoge Aussage für Funktionen mit mehreren Veränderlichen.
Satz 3.8 (Mittelwertsatz). Sei U ⊂ Rn offen, f : U → R differenzierbar. Seien a, b ∈ U
mit
[a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U
Dann gibt es ein ξ ∈ [a; b] (ξ 6= a, b) mit
f (b) − f (a) = ∇f (ξ) · (b − a)
Beweis: Sei φ : [0, 1] → Rn durch φ(t) = (1 − t)a + tb definiert. Sei ψ : [0; 1] → R durch
ψ(t) = f (φ(t)) definiert. Nach der Kettenregel ist ψ ist dann auf [0; 1] stetig und auf
(0; 1) differenzierbar, mit
ψ 0 (t) = ∇f (φ(t)) · φ0 (t) = ∇f ((1 − t)a + tb) · (b − a)
Aus dem Mittelwertsatz für Funktionen einer Variablen existiert t0 ∈ (0; 1) mit
f (b) − f (a) = ψ(1) − ψ(0) = ψ 0 (t0 )(1 − 0) = ∇f ((1 − t0 )a + t0 b) · (b − a)
Die Behauptung folgt, mit ξ = (1 − t0 )a + t0 b.
Für Funktionen mit Werten auf Rm , m > 1, gilt i.A. der Mittelwertsatz nicht (unabhängig davon, ob die Funktion eine oder mehrere Veränderliche hat; siehe Bemerkung
unter Satz 8.9 in Analysis 1). Man kann aber eine Mittelwertabschätzung zeigen (siehe Proposition 8.10 in Analysis 1 für die Mittelwertabschätzung für Funktionen einer
Variablen).
53
Satz 3.9 (Mittelwertabschätzung). Sei U ⊂ Rn offen, f : U → Rm differenzierbar,
a, b ∈ U mit
[a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U
Sei kDf (x)kop ≤ M für alle x ∈ [a; b]. Dann gilt
kf (b) − f (a)k ≤ M kb − ak
Beweis: O.B.d.A. können wir annehmen, dass f (b) 6= f (a). Wir setzen
e=
f (b) − f (a)
∈ Rm .
kf (b) − f (a)k
Wir definieren die lineare Funktion φ : Rm → R durch φ(x) = x · e. Wir bemerken, dass,
wegen Linearität, φ auf Rm differenzierbar ist, mit Dφ = φ. Ferner, da kek = 1, gilt
kφkop ≤ 1 (eigentlich kφkop = 1). Wir definieren auch die Funktion g : Rn → R durch
g(x) = φ(f (x) − f (a))
Es gilt g(a) = 0 und g(b) = kf (b)−f (a)k. Aus der Kettenregel ist g auf U differenzierbar,
mit
Dg(x) = Dφ(f (x) − f (a)) · Df (x) = φ · Df (x)
Für x ∈ [a; b] gilt also
kDg(x)kop ≤ kφkop kDf (x)kop ≤ M
Der Mittelwertsatz 3.8 für die Funktion g impliziert, dass ein ξ ∈ [a; b] mit
kf (b) − f (a)k = g(b) − g(a) = Dg(ξ) · (b − a) ≤ kDg(ξ)kop kb − ak ≤ M kb − ak
existiert.
Eine Anwendung der Mittelwertabschätzung ist der Beweis der Tatsache, dass eine
auf einem offenen und zusammenhängenden Gebiet U ⊂ Rn definierte Funktion f mit
Df = 0 auf U konstant sein muss.
Definition 3.10. Ein Streckenzug auf Rn ist eine Menge der Form
[a1 ; a2 ] ∪ [a2 ; a3 ] ∪ · · · ∪ [ap−1 ; ap ]
für ein p ∈ N, und für Punkten a1 , . . . , an ∈ Rn (hier bezeichnet [a; b] = {(1 − λ)a +
λb : λ ∈ [0; 1]} der Segment zwischen a und b). a0 heisst Anfangspunkt und an heisst
Endpunkt des Streckenzuges. Wir sagen dann der Streckenzug verbindet die Punkten a0
und ap . Eine offene Teilmenge U ⊂ Rn heisst zusammenhängend falls je zwei Punkten
in U durch einen Streckenzug in U verbinden werden können.
Proposition 3.11. Sei U ⊂ Rn offen und zusammenhängend, f : U → Rm differenzierbar, mit Df (x) = 0 für alle x ∈ U . Dann ist f konstant auf U .
54
Beweis: Ist [a; b] ⊂ U dann gilt, aus Satz 3.9 mit M = 0, f (b) = f (a). Seien nun x, y ∈ U
beliebig. Da U zusammenhängend ist gibt es ein Streckenzug [a0 ; a1 ] ∪ · · · ∪ [ap−1 ; ap ] in
U , mit a0 = x und ap = y. Also
f (x) = f (a1 ) = f (a2 ) = · · · = f (ap−1 ) = f (y) .
Bemerkung: die Annahme, dass U zusammenhängend ist, ist notwendig. Sei
U = {x ∈ R2 : |x| < 1
oder |x − 3| < 1}
und f : U → R durch f (x) = 0 falls |x| < 1 und f (x) = 1 falls |x − 3| < 1 definiert.
Dann ist U offen, und Df (x) = 0 für alle x ∈ U , aber f ist auf U nicht konstant.
3.3
Höhere Ableitungen, Taylor Entwicklung, lokale Extrema
Sei U ⊂ Rn offen, und f : U → Rm differenzierbar. Die Ableitung von f ist dann
eine Funktion Df : U → L(Rn ; Rm ) mit Werten in den linearen Abbildungen zwischen
Rn und Rm . Man kann L(Rn ; Rm ) mit dem Vektorraum Rmn identifizieren (weil jede
lineare Abbildung in L(Rn ; Rm ) mit einer m × n Matrix identifiziert werden kann).
Man kann sich also fragen, ob die Abbildung Df differenzierbar ist. Ist Df an der
Stelle a ∈ U differenzierbar, dann heisst f an der Stelle a zweimal differenzierbar.
Die zweite Ableitung ist eine lineare Abbildung D2 f (a) : Rn → Rmn , d.h. D2 f (a) ∈
2
L(Rn ; Rn×m ) ' Rmn . Iterativ kann man höhere Ableitungen definieren. Ist f auf U
k
k-mal differenzierbar, und ist die k-te Ableitung Dk f : U → Rmn an der Stelle a
differenzierbar, dann sagt man, dass f an der Stelle a (k + 1)-mal differenzierbar ist,
k
k+1
und man bezeichnet die (k + 1)-te Ableitung mit Dk+1 f (a) ∈ L(Rn ; Rmn ) ' Rmn .
Man bemerke, dass die Abbildung D2 f (a) : Rn → L(Rn ; Rm ) ' Rn×m mit der
bilinearen Abbildung D2 f (a) : Rn × Rn → Rm , definiert durch
(D2 f (a))(v, v 0 ) = (D2 f (a)(v))(v 0 ) ,
identifiziert werden kann (wir benutzen die selbe Notation D2 f (a) für die lineare Abbildung Rn → L(Rn ; Rm ) und für die bilineare Abbildung Rn × Rn → Rm ). Wir erinnern
hier, dass eine Abbildung b : Rn × Rn → Rm bilinear heisst, falls die zwei Bedingungen
b(v1 + λv2 , v) = b(v1 , v) + λb(v2 , v)
(Linearität im ersten Argument)
b(v, v1 + λv2 ) = b(v, v1 ) + λb(v, v2 )
(Linearität im zweiten Argument)
(37)
für alle v, v1 , v2 ∈ Rn , λ ∈ R erfüllt sind. Analog kann D3 f (a) mit einer trilinearen Form
identifiziert werden und Dk f (a) mit einer k-linearen Abbildung auf Rn , mit Werten in
Rm .
Höhere partielle Ableitungen. Sei nun f : U → R partiell differenzierbar. Dann ist
∂f /∂xj wieder eine Funktion auf U mit Werten in R. Ist diese neue Funktion partiell
differenzierbar, so können wir die partiellen Ableitungen zweiter Ordnung
∂2f
∂
∂f
=
∂xj ∂xi
∂xj ∂xi
55
definieren. Iterativ kann man partielle Ableitungen höherer Ordnung definieren (die
Ordnung einer partiellen Ableitung ist die gesamte Anzahl von partiellen Ableitungen).
Um die Notation ein bisschen zu vereinfachen, schreiben wir, für eine partielle Ableitung
der Ordnung k,
∂kf
∂
∂f
∂
∂
=
.
...
∂i1 ∂i2 . . . ∂ik f =
∂xi1 ∂xi2 . . . ∂xik
∂xi1 ∂xi2
∂xik−1 ∂xik
Wir sagen, die Funktion f : U → R ist k-mal partiell differenzierbar, falls alle partiellen
Ableitungen der Ordnung kleiner oder gleich k existieren. Wir sagen, dass eine Funktion
f : U → Rm k-mal partiell differenzierbar ist, falls f (x) = (f1 (x), . . . , fm (x)) und jede
Komponente f1 , . . . , fm : U → R k-mal partiell differenzierbar ist.
Für k ∈ N, k ≥ 1, bezeichnen wir mit C k (U ; Rm ) die Menge der Funktionen f :
U → Rm , die auf U k-mal differenzierbar sind, so dass Dk f stetig ist. Nach Proposition
3.5 ist C k (U ; Rm ) genau die Menge der Funktionen f : U → Rm , für die alle partiellen
Ableitungen der Ordnung kleiner oder gleich k existieren und stetig sind.
Zur Berechnung von höheren partiellen Ableitungen ist es sehr nützlich zu bemerken, dass (unter geeigneten Annahmen an f ) sich partielle Ableitungen miteinander
vertauschen, d.h. ∂i ∂j f = ∂j ∂i f . Das wird in dem nächsten Satz bewiesen.
Satz 3.12 (Schwarz). Sei U ⊂ R2 offen, (x0 , y0 ) ∈ U , und f : U → R in U partiell
differenzierbar. Falls ∂y ∂x f auf U existiert und an der Stelle (x0 , y0 ) stetig ist, dann
existiert auch ∂x ∂y f an der Stelle (x0 , y0 ) und
∂x ∂y f (x0 , y0 ) = ∂y ∂x f (x0 , y0 ) .
Bemerkung. O.B.d.A. können wir (x0 , y0 ) = (0, 0) betrachten. Da
∂y f (x, 0) = lim
y→0
f (x, y) − f (x, 0)
y
erhalten wir
f (x,y)−f (x,0)
∂y f (x, 0) − ∂y f (0, 0)
y
∂x ∂y f (0; 0) = lim
= lim lim
x→0
x→0 y→0
x
f (x, y) − f (x, 0) − f (0, y) + f (0, 0)
= lim lim
x→0 y→0
xy
−
f (0,y)−f (0,0)
y
x
(38)
Analog gilt
∂y ∂x f (0; 0) = lim lim
y→0 x→0
f (x, y) − f (0, y) − f (x, 0) + f (0, 0)
xy
Das Problem ist also zu zeigen, dass die zwei Grenzwerte vertauscht werden können.
Beweis: O.B.d.A. nehmen wir an, dass (x0 , y0 ) = (0, 0) und dass ∂y ∂x f (0, 0) = 0 (sonst
ersetze f (x, y) durch f (x, y) − ∂y ∂x f (0, 0)xy). Wir definieren die Funktion φ(x, y) =
f (x, y) − f (x, 0). Gemäss (38) sind wir an
f (x, y) − f (0, y) − f (x, 0) + f (0, 0)
φ(x, y) − φ(0, y)
=
xy
xy
56
interessiert. Für festgehaltene y ist φ differenzierbar nach x und es gilt
∂x φ(x, y) = ∂x f (x, y) − ∂x f (x, 0)
Der Mittelwertsatz (für Funktionen einer Variablen) zeigt, es existiert 0 < θ < 1 mit
φ(x, y) − φ(0, y) = x∂x φ(θx, y) = x[∂x f (θx, y) − ∂x f (θx, 0)]
(39)
Nun ist die Funktion y → ∂x f (θx, y), für festgehaltene x und θ nach y differenzierbar, mit
Ableitung ∂y ∂x f (θx, y) (wir benutzen hier die Existenz der zweiten partiellen Ableitung
∂y ∂x f auf U ). Der Mittelwertsatz (für eine Variable) impliziert also, dass ein 0 < θ0 < 1
existiert, mit
∂x f (θx, y) − ∂x f (θx, 0) = y∂y ∂x f (θx, θ0 y)
Aus (39) folgt, dass
φ(x, y) − φ(0, y) = xy∂y ∂x f (θx, θ0 y)
und damit
f (x, y) − f (0, y) − f (x, 0) + f (0, 0)
= ∂y ∂x f (θx, θ0 y)
xy
Sei nun ε > 0 beliebig fest gewählt. Da ∂y ∂x f an der Stelle (0, 0) stetig ist, und da
∂y ∂x f (0, 0) = 0, existiert ein δ > 0 mit |∂y ∂x f (w, z)| ≤ ε für alle (w, z) ∈ R2 mit
k(w, z)k ≤ δ. Seien also (x, y) ∈ R2 , mit k(x, y)k ≤ δ. Dann gilt auch k(θx, θ0 y)k ≤ δ,
für alle θ, θ0 ∈ (0, 1). Deswegen gilt
|∂y ∂x f (θx, θ0 y)| ≤ ε
und
f (x,y)−f (x,0)
−
y
x
f (0,y)−f (0,0) y
f (x, y) − f (0, y) − f (x, 0) + f (0, 0) ≤ε
=
xy
Das gilt für alle k(x, y)k ≤ δ, und also insbesondere für feste x ∈ (−δ, δ) und y → 0. Da
f (x, y) − f (x, 0)
= ∂y f (x, 0),
y→0
y
lim
erhalten wir
und
f (0, y) − f (0, 0)
= ∂y f (0, 0)
y→0
y
lim
∂y f (x, 0) − ∂y f (0, 0) ≤ε
x
für alle x ∈ (−δ, δ). Da ε > 0 beliebig ist, es folgt, dass
∂y f (x, 0) − ∂y f (0, 0)
=0
x→0
x
lim
(und insbesondere, dass der Grenzwert existiert). Das zeigt, dass ∂x ∂y f (0, 0) = 0.
Durch wiederholte Anwendung von Satz 3.12 bekommen wir das folgende Korollar
für partielle Ableitungen beliebiger Ordnung.
57
Korollar 3.13. Sei U ⊂ Rn offen. Sei k ∈ N und f ∈ C k (U ). Dann gilt für alle
i1 , . . . , ik ∈ {1, . . . , n} und alle Permutationen π der Zahlen {1, . . . , k},
∂i1 . . . ∂ik f = ∂iπ1 . . . ∂iπk f .
Bespiel: Sei f ∈ C 4 (U ). Dann ∂x1 ∂x1 ∂x2 ∂x2 f = ∂x1 ∂x2 ∂x1 ∂x2 f = ∂x1 ∂x2 ∂x2 ∂x1 f = . . . .
Bemerkung: Nicht nur die verschiedenen partiellen Ableitungen, sondern auch beliebige
Richtungsableitungen vertauschen sich miteinander.
Differentialoperatoren. Man kann partielle Ableitungen als Operatoren interpretieren,
die auf differenzierbare Funktionen wirken. Sei
X
p(ξ1 , . . . , ξn ) =
pi1 ,...,in ξ1i1 . . . ξnin
i1 ,...,in ≥0:i1 +···+in ≤k
ein Polynom in den n Variablen ξ1 , . . . , ξn . Dann definieren wir den entsprechenden
Differentialoperator
X
p (∂1 , . . . , ∂n ) =
pi1 ,...,in ∂1i1 . . . ∂nin
i1 ,...,in ≥0:i1 +···+in ≤k
Der Operator p(∂1 , . . . , ∂n ) ist linear und bildet Funktionen in C k (U ) nach Funktionen
in C(U ). Der Operator ist wohldefiniert aus Satz 3.12, weil die verschiedenen partiellen
Ableitungen sich miteinander vertauschen (wäre das nicht der Fall, so würden zwei
verschiedene Operatoren dem selben Polynom entsprechen). Eine weitere Folgerung von
Satz 3.12 ist die folgende Bemerkung: Seien p1 , p2 zwei Polynome in n Variablen der
Ordnung k1 und k2 , sei p1 · p2 das Produkt der zwei Polynome (ein Polynom in n
Variablen der Ordnung k1 + k2 ). Dann gilt
p1 (∂1 , . . . , ∂n ) · p2 (∂1 , . . . , ∂n ) = (p1 · p2 )(∂1 , . . . , ∂n )
als Identität zweier Operatoren auf C (k1 +k2 ) (U ). Das Produkt auf der linken Seite ist
die Komposition von zwei (linearen) Abbildungen.
P
Beispiel: Sei p(ξ1 , . . . , ξn ) = nj=1 ξj2 . Der Laplace-Operator auf Rn ist aus
∆ := p (∂1 , . . . , ∂n ) =
n
X
∂j2 =
j=1
n
X
∂2
∂x2j
j=1
gegeben. Der Laplace-Operator wirkt auf C 2 (Rn ).
Taylor Entwicklung. Wir erinnern uns an den Begriff der Taylor-Entwicklung für Funktionen einer Variablen (siehe Kapitel 8.6 im Skript zu Analysis 1). Sei f ∈ C m+1 ([a; x]).
Dann existiert ξ ∈ (a; x), so dass
f (x) = f (a) + f 0 (a)(x − a) + · · · +
f (m) (a)
f (m+1) (ξ)
(x − a)m +
(x − a)m+1 .
m!
(m + 1)!
58
Sei nun U ⊂ Rn offen, a ∈ U und h ∈ Rn mit a + h ∈ U . Sei weiter f ∈ C m+1 (U )
R-wertig. Wir setzen φ(t) = f (a + th). Dann ist φ ∈ C m+1 ([0, 1]), mit φ(1) = f (a + h)
und φ(0) = f (a). Das impliziert, dass
f (a + h) = f (a) +
m
X
φ(j) (0)
j=1
j!
+
φ(m+1) (θ)
(m + 1)!
für ein θ ∈ (0; 1). Wir müssen die Ableitungen von φ berechnen. Es gilt
φ0 (t) = Df (a + th)(h) = h · ∇f (a + th)
und deswegen φ0 (0) = h · ∇f (a). Induktiv bekommen wir
φ(j) (t) = (h · ∇)j f (a + th)
Der Operator (h · ∇)j ist ein Differentialoperator der Ordnung j. Man findet
!j
n
X
X
(h · ∇)j
hi11 . . . hinn i1
=
=
∂ . . . ∂nin
hi ∂i
j!
i1 !i2 ! . . . in ! 1
i1 ,...,in ≥0:i1 +···+in =j
i=1
und also die Taylor-Entwicklung
f (a + h) = f (a) +
+
m
X
1
∂1i1 . . . ∂nin f (a) hi11 . . . hinn
i !i ! . . . in !
j=1 i1 ,...,in ≥0:i1 +···+in =j 1 2
(40)
X
1
i1
i1
in
in
∂ . . . ∂n f (a + θh) h1 . . . hn
i1 !i2 ! . . . in ! 1
X
i1 ,...,in :i1 +···+in =m+1
Es ist nützlich, eine kompaktere Notation für die höheren partiellen Ableitungen einzuführen. Ein Multiindex ist eine n-Tupel i = (i1 , . . . , in ) mit ij ∈ N für alle j = 1, . . . , n.
Der Betrag des Multiindexes i = (i1 , . . . , in ) wird als
|i| = i1 + i2 + · · · + in
definiert. Für den Multiindex i definieren wir weiter die partielle Ableitung der Ordnung
|i|
∂ i := ∂1i1 ∂2i2 . . . ∂nin
und hi := hi11 . . . hinn für alle h = (h1 , . . . , hn ) ∈ Rn . Wir setzen auch i! := i1 !i2 ! . . . in !.
Dann lässt sich (40) als
f (a + h) =
m X
X
(∂ i f )(a) i
h +
i!
j=0 i:|i|=j
X
i:|i|=m+1
(∂ i f )(a + θh) i
h
i!
(41)
schreiben, für ein beliebiges f ∈ C m+1 (U ), U ⊂ Rn offen, a ∈ U und h klein genug. In
(41) bilden die ersten m Termen das m-te Taylor-Polynom von f an der Stelle a:
m X
X
(∂ i f )(a) i
pm (h) =
h
i!
j=0 i:|i|=j
59
Der letzte Term auf der rechten Seite von (41) heisst das Restglied. Das Restglied ist
offenbar O(khkm+1 ), für h → 0. In den Übungen wird ferner bewiesen, dass


m+1
i
X
X
(∂ f )(a) i 
1
f (a + h) −
h = 0.
lim
m+1
h→0 khk
i!
j=0 i:|i|=j
Wir haben in (37) bemerkt, dass die r-te Ableitung Dr f (a) als die r-lineare Form
Dr f (a) :Rn × · · · × Rn → R
(v1 , v2 , . . . , vr ) → Dr f (a)(v1 , . . . , vr ) = (((Dr f (a)(v1 ))(v2 )) . . . )(vr )
interpretiert werden kann. Man kann dann überprüfen, dass
X (∂ i f )(a)
X
1
1 r
D f (a)(h, h, . . . , h) =
hi =
(∂ i1 . . . ∂nin f )(a)hi11 . . . hinn
r!
i!
i1 !i2 ! . . . in ! 1
i:|i|=r
i:|i|=r
Damit können wir die Taylor-Entwicklung (41) als
f (a + h) =
m
X
Dr f (a)(h, . . . , h)
r=0
r!
+
Dm+1 f (a + θh)(h, . . . , h)
(m + 1)!
(42)
umschreiben. Man bemerke, dass, für feste a, Dr f (a)(h, . . . , h) ein homogenes Polynom von Grad r in h ist. D.h. g(h) := Dr f (a)(h, . . . , h) ist ein Polynom in h, mit der
Eigenschaft g(th) = tr g(h) für alle t ∈ R.
Lokale Extrema und kritische Punkte. Sei U ⊂ Rn offen und f : U → R. Ein Punkt a ∈ U
heisst ein lokales Minimum von f , falls eine offene Umgebung A ⊂ U von a existiert,
mit f (a) = min{f (x) : x ∈ A}. a heisst ein lokales Maximum von f , falls eine offene
Umgebung A ⊂ U von a existiert, so dass f (a) = max{f (x) : x ∈ A}. a ∈ U heisst
ein lokales Extremum, falls a entweder ein lokales Minimum oder ein lokales Maximum
ist. Für eine Funktion φ einer Variablen haben wir in Analysis 1 bewiesen, dass, falls
φ an der Stelle t ∈ R differenzierbar ist, mit φ0 (t) 6= 0, t kein Extremum sein kann. Im
nächsten Satz zeigen wir die analoge Aussage für Funktionen mehrerer Veränderlichen.
Satz 3.14. Sei U ⊂ Rn offen, a ∈ U und f : U → R differenzierbar an der Stelle a. Es
gelte ∇f (a) 6= 0. Dann ist a kein Extremum von f .
Beweis: Sei e ∈ Rn ein Einheitsvektor mit e · ∇f (a) 6= 0. Wir setzen φ(t) = f (a + te) für
t ∈ R, mit |t| klein genug (damit a+te ∈ U ). φ ist an der Stelle t = 0 differenzierbar, mit
φ0 (0) = e · ∇f (a) 6= 0. Also ist 0 ∈ R keine Extremalstelle von φ. D.h. φ nimmt in jeder
Umgebung von 0 Werten grösser als φ(0) = f (a) und Werten kleiner als φ(0) = f (a) an.
Das zeigt, dass a keine Extremalstelle von f ist.
Seien U , f wie oben. Wir sagen a ∈ U ist ein kritischer Punkt von f , falls f in a
differenzierbar ist und ∇f (a) = 0. Ist a ∈ U ein Extremum von f , so muss entweder f
an der Stelle a nicht differenzierbar sein, oder a muss ein kritischer Punkt sein.
60
Sei nun f ∈ C p (U ) und a eine kritische Stelle von f . Es existiere 1 < r < p mit
6= 0. Sei r die kleinste ganze Zahl mit dieser Eigenschaft. Dann gilt, aus (42),
Dr f (a)
f (a + h) = f (a) +
1 r
D f (a)(h, . . . , h) + O(khkr+1 )
r!
(43)
für h → 0. Die Frage, ob a ein Maximum, ein Minimum oder keine Extremalstelle ist,
wird vom Verhalten von Dr f (a)(h, . . . , h) bestimmt.
Definition 3.15. Sei p : Rn → R ein homogenes Polynom. Wir sagen
p ist positiv definit, wenn p(h) > 0 für alle h 6= 0
p ist positiv semidefinit, wenn p(h) ≥ 0 für alle h
p ist negativ definit, wenn p(h) < 0 für alle h 6= 0
p ist negativ semidefinit, wenn p(h) ≤ 0 für alle h
p ist indefinit, wenn p weder positiv noch negativ semidefinit ist
Ist p indefinit, so nimmt p Werte mit beiden Vorzeichen.
Bemerkung. Ist p : Rn → R ein homogenes Polynom von ungeradem Grad r, so ist
entweder p ≡ 0 oder p indefinit. In der Tat
p(−h) = (−1)r p(h) = −p(h)
D.h. entweder ist p ≡ 0 oder p nimmt positive und negative Werte an.
Beispiele: Sei n = 2, r = 2. Dann ist
p(h1 , h2 ) = h21 + h22
positiv definit
2
p(h1 , h2 ) = (h1 + h2 )
positiv semidefinit
p(h1 , h2 ) = −h21 − h22
negativ definit
2
p(h1 , h2 ) = −(h1 + h2 )
p(h1 , h2 ) = h1 h2
seminegativ definit
indefinit
Aus (43) folgt einfach, falls a ein lokales Minimum ist, so muss Dr f (a) positiv semidefinit sein, und falls a ein lokales Maximum ist, so muss Dr f (a) negativ semidefinit sein.
Die umgekehrten Aussagen gelten i.A. nur, wenn Dr f (a) positiv bzw. negativ definit
sind (statt nur semidefinit). Das ist der Inhalt der nächsten Proposition.
Proposition 3.16. Sei U ⊂ Rn offen, f ∈ C p (U ), a ∈ U eine kritische Stelle von f ,
und r < p so, dass (wie in (43))
f (a + h) = f (a) +
1 r
D f (a)(h, . . . , h) + O(khkr+1 )
r!
für h → 0. Dann gilt
a) Ist Dr f (a)(h, . . . , h) positiv definit, so ist a ein lokales Minimum.
b) Ist Dr f (a)(h, . . . , h) negativ definit, so ist a ein lokales Maximum.
61
c) Ist Dr f (a)(h, . . . , h) indefinit, so ist a kein Extremum.
Bemerkung: Ist Dr f (a)(h, . . . , h) positiv semidefinit (aber nicht positiv definit) oder
negativ semidefinit (aber nicht negativ definit), so wird in Proposition 3.16 keine Aussage über die kritische Stelle a gemacht. In diesem Fall ist eine tiefere Untersuchung
notwendig.
Beweis: a) Das Polynom h → Dr f (a)(h, . . . , h) ist stetig und Dr f (a)(h, . . . , h) > 0 für
alle h ∈ S = {h ∈ Rn : khk = 1} (S n−1 ist die Einheitssphäre in Rn ). Da S ⊂ Rn
kompakt ist, folgt aus dem Sazt vom Maximum, dass α = inf h∈S Dr f (a)(h, . . . , h) > 0.
Für ein beliebiges h ∈ Rn , h 6= 0 schreiben wir h = khke für ein e ∈ S. Dann gilt
Dr f (a)(h, . . . , h) = khkr Dr f (a)(e, . . . , e) ≥ αkhkr .
Das gibt
1 r
α
D f (a)(h, . . . , h) + O(khkr+1 ) ≥ f (a) + khkr + O(khkr+1 )
r!
r!
α
r
= f (a) + khk (1 + O(khk)) ≥ f (a)
r!
f (a + h) = f (a) +
für alle h ∈ Rn klein genug. Das zeigt, dass a ein lokales Minimum ist. Analog zeigt man
die Aussage b). Um c) zu zeigen, finden wir e1 , e2 ∈ S mit Dr f (a)(e1 , . . . , e1 ) > 0 und
Dr f (a)(e2 , . . . , e2 ) < 0. Für λ > 0 beliebig finden wir
f (a + λe1 ) = f (a) +
λr r
D f (a)(e1 , . . . , e1 )(1 + O(λ)) > f (a)
r!
und
λr r
D f (a)(e2 , . . . , e2 )(1 + O(λ)) < f (a)
r!
für alle λ > 0 klein genug. Damit ist a kein Extremum.
f (a + λe2 ) = f (a) +
Besonders wichtig ist der Fall, dass an einem kritischen Punkt a einer Funktion
f ∈ C 3 (U ), die zweite Ableitung nicht verschwindet. In diesem Fall hängt die Frage,
ob a ein Minimum, ein Maximum oder keine Extremalstelle ist, mit dem Verhalten der
quadratischen Form D2 f (a)(h, h) zusammen. Wir bemerken, dass, falls h = (h1 , . . . , hn ),
2
D f (a)(h, h) =
n
X
i,j=1
∂2f
(a)hi hj .
∂xi ∂xj
Wir definieren die n × n Matrix
Hij = ∂i ∂j f (a) =
∂2f
(a) .
∂xi ∂xj
Die Matrix Hij heisst P
die Hesse’sche Matrix von f an der Stelle a, die quadratische
n
Form D2 f (a)(h, h) =
i,j=1 Hij hi hj die Hesse’sche Form. Aus Satz 3.12 folgt, dass
die Matrix Hij symmetrisch ist (d.h. Hij = Hji ). Die Hesse’sche Form heisst nicht
entartet, falls det(Hij ) 6= 0. Tatsache: Ist die Hesse’sche Form nicht entartet, dann ist
sie entweder positiv definit, negativ definit oder indefinit (der Fall, dass D2 f (a) positiv
62
semidefinit, aber nicht positiv definit, und der Fall, dass D2 f (a) negativ semidefinit, aber
nicht negativ definit ist, sind ausgeschlossen). Diese Aussage folgt aus der Bemerkung,
dass eine symmetrische n × n Matrix immer durch eine unitäre Matrix diagonalisierbar
ist. Seien λ1 , . . . , λn die (nicht notwendigerweise verschiedenen) Eigenwerte von Hij .
Ist D2 f (a) nicht entartet, so gilt λi 6= 0 für alle i = 1, . . . , n. Es gibt also nur drei
Möglichkeiten: 1) alle Eigenwerte sind positiv, 2) alle Eigenwerte sind negativ, 3) es gibt
positive und negative Eigenwerte. Im Fall 1) ist D2 f (a) positiv definit, im Fall 2) ist
D2 f (a) negativ definit und im Fall 3) ist D2 f (a) indefinit. Es folgt aus dieser Bemerkung,
dass, falls die Hesse’sche Form nicht entartet ist, man immer durch Untersuchung von
D2 f (a) entscheiden kann, ob der kritische Punkt a ein Maximum, ein Minimum oder
kein Extremum ist.
3.4
Umkehrabbildung und Satz über implizite Funktionen
Für differenzierbare Funktionen einer Variablen f : R ⊃ Ω → R haben wir in Analysis 1
gezeigt, dass, unter der Bedingung f 0 (a) 6= 0, die Umkehrabbildung lokal wohldefiniert
und an der Stelle f (a) differenzierbar, mit (f −1 )0 (f (a)) = 1/f 0 (a), ist. Wir möchten
nun eine analoge Aussage für Funktionen mehrerer Variablen beweisen. Die Bedingung
f 0 (a) 6= 0 wird hier durch die Bedingung ersetzt, dass Df (a) invertierbar ist.
Satz 3.17 (Satz über die Umkehrabbildung). Sei U ⊂ Rn offen, f : U → Rn stetig
differenzierbar, a ∈ U und Df (a) ∈ L(Rn ; Rn ) invertierbar. Dann existieren offene
Umgebungen V von a und W von f (a) so, dass f : V → W bijektiv und f −1 : W → V
stetig differenzierbar. Ferner gilt
Df −1 (f (a)) = (Df (a))−1 .
Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , d.h. es gelte f (x) =
(f1 (x), . . . , fn (x)) für alle x ∈ U . Die Invertierbarkeit von Df (a) ist dann äquivalent zur
Bedingung, dass
∂fi (a)
det
6= 0 .
∂xj i,j≤n
Für den Beweis von diesem Satz brauchen wir den Banach’sche Fixpunktsatz. Erinnere aus Analysis 1, dass ein metrischer Raum vollständig heisst, wenn jede CauchyFolge in M konvergiert. Wir haben in Analysis 1 gezeigt, dass Rn , versehen mit der
Standardmetrik vollständig für alle n ∈ N ist.
Satz 3.18 (Banachscher Fixpunktsatz). Sei M , versehen mit der Metrik d, ein vollständiger metrischer Raum. T : M → M eine Abbildung mit der Eigenschaft, dass es eine
Konstante 0 < c < 1 existiert, mit
d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 )
für alle x1 , x2 ∈ M (eine solche Abbildung heisst eine Kontraktion; Kontraktionen sind
insbesondere stetig). Dann gibt es genau ein x ∈ M mit T (x) = x (ein solches x
heisst ein Fixpunkt der Abbildung T ; der Satz besagt, dass jede Kontraktion auf einem
vollständigen metrischen Raum genau einen Fixpunkt besitzt).
63
Beweis: Wir zeigen zunächst die Eindeutigkeit. Nehme an, dass x1 , x2 zwei Fixpunkte
der Abbildung T sind. Dann gilt
d(x1 , x2 ) = d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 )
Da aber c < 1 ist diese Ungleichung nur möglich, falls d(x1 , x2 ) = 0. Also x1 = x2 .
Nun zeigen wir die Existenz eines Fixpunktes. Sei x0 ∈ M beliebig. Dann definieren wir
rekursiv eine Folge xn in M durch x1 = T (x0 ) und xn+1 = T (xn ). Für n ≥ 1 gilt dann
d(xn+1 , xn ) = d(T (xn ), T (xn−1 )) ≤ cd(xn , xn−1 ) ≤ · · · ≤ cn d(x1 , x0 )
Es folgt, dass, für beliebige n > m,
d(xn , xm ) ≤ d(xn , xn−1 ) + d(xn−1 , xn−2 ) + · · · + d(xm+1 , xm )
n
X
=
d(xj , xj−1 )
j=m+1
≤ d(x1 , x0 )
≤ d(x1 , x0 )
n
X
j=m+1
∞
X
cj
cj =
j=m+1
d(x1 , x0 ) m+1
c
→0
1−c
für m → ∞. D.h. xn ist eine Cauchy-Folge auf M . Da M vollständig ist, muss xn
konvergieren. Sei x = limn→∞ xn . Da aber T stetig ist, muss
T (x) = lim T (xn ) = lim xn+1 = x
n→∞
n→∞
Also, x ist ein Fixpunkt von T .
Bemerkung: Der Beweis besagt, dass für jede x0 ∈ M , die Folge T ◦ T ◦ · · · ◦ T (x0 ) gegen
dem Fixpunkt konvergiert. In praktischen Situationen, ergibt dies ein Verfahren, um
den Fixpunkt von T zu approximieren.
Zum Beweis von Satz 3.17 (genauer gesagt, um die Stetigkeit der Ableitung von f −1
zu zeigen) werden wir auch die folgende Proposition benutzen.
Proposition 3.19. Sei
GL(Rn ) = {L ∈ L(Rn ; Rn ) : L ist invertierbar}
Die Menge GL(Rn ) ist in L(Rn ; Rn ) offen (bezüglich der aus der Operatornorm (oder
aus jeder anderen Norm) induzierten Topologie). Die Abbildung i : GL(Rn ) → GL(Rn ),
definiert durch i(L) = L−1 ist stetig.
Beweis: Sei L ∈ L(Rn ; Rn ) invertierbar. Dann gilt
kL−1 kop = sup
y6=0
kL−1 yk
kxk
1
= sup
=
kyk
kLxk
x6=0
inf x6=0
64
kLxk
kxk
und deswegen
kLxk
1
=
−1
x6=0 kxk
kL kop
inf
Das impliziert, dass
kLxk ≥
1
kxk
kL−1 kop
(44)
für alle x ∈ Rn .
−1
Sei nun L0 ∈ GL(Rn ) invertierbar und L ∈ L(Rn ; Rn ) mit kL − L0 kop < kL−1
0 k .
Dann gilt, für ein beliebiges x ∈ Rn ,
−1
kLxk ≥ kL0 xk − k(L − L0 )xk ≥ kL−1
(45)
0 kop − kL − L0 kop kxk ≥ ckxk
für ein c > 0. Das zeigt, dass L injektiv und deswegen auch invertierbar ist (eine lineare
Abbildung L ∈ L(Rn ; Rn ) ist genau dann bijektiv, wenn sie injektiv ist). Das impliziert,
dass
−1
n
{L ∈ L(Rn ; Rn ) : kL − L0 kop < kL−1
0 kop } ⊂ GL(R )
und also, dass GL(Rn ) offen ist.
Aus (45) finden wir auch
kL−1 kop =
1
inf x6=0
kLxk
kxk
≤
1
kL−1
0 kop
kL−1
1
0 kop
=
−1
− kL − L0 kop
1 − kL0 kop kL − L0 kop
−1
−1
Da L−1 − L−1
0 = L (L0 − L)L0 erhalten wir
−1
−1
kL−1 − L−1
0 kop ≤ kL kop kL0 kop kL − L0 kop ≤
2
kL−1
0 k
kL − L0 kop
1 − kL−1
0 kop kL − L0 kop
Das zeigt, dass die Abbildung i(L) = L−1 stetig an der Stelle L0 ist, für jede L0 ∈
GL(Rn ).
Beweis von Satz 3.17. O.B.d.A können wir annehmen, dass a = 0 und f (0) = 0 (sonst
ersetzen wir f durch die Funktion fe(x) = f (x + a) − f (a)). Wir definieren φ : U → Rn
durch φ(x) = f (x)−Df (0)(x). Dann gilt f (x) = Df (0)(x)+φ(x) und Df (x) = Df (0)+
Dφ(x) für alle x ∈ U . Insbesondere gilt φ(0) = f (0) = 0 und Dφ(0) = 0. Da f stetig
differenzierbar ist, ist die Abbildung x → Dφ(x) stetig. Also existiert r0 > 0 mit
kDφ(x)kop ≤
1
2kDf (0)−1 kop
für alle x ∈ B r0 := {x ∈ Rn : kxk ≤ r0 }. Aus der Mittelwertabschätzung gilt dann
kφ(x1 ) − φ(x2 )k ≤
1
kx1 − x2 k
2kDf (0)−1 kop
(46)
für alle x1 , x2 ∈ B r0 . Insbesondere, mit x2 = 0, finden wir kφ(x)k ≤ (2kDf (0)−1 kop )−1 kxk
für alle x ∈ B r0 (weil φ(0) = 0).
65
Schritt 1. Für alle r ≤ r0 gilt f (B r ) ⊃ B r/2kDf (0)−1 kop . D.h. für jede y ∈ Rn mit
kyk ≤ r/(2kDf (0)−1 kop ) existiert ein x ∈ B r mit f (x) = y.
Beweis. Für beliebige y ∈ B r/2kDf (0)−1 kop definieren wir ψy : B r → Rn durch ψy (x) =
Df (0)−1 (y − φ(x)). Es gilt f (x) = y genau dann, wenn ψy (x) = x, d.h. wenn x ein
Fixpunkt von ψy ist. Wir möchten den Banachschen Fixpunktsatz anwenden, um zu
zeigen, dass ψy einen Fixpunkt in B r besitzt. Dazu bemerken wir zunächst, dass
kψy (x)k = kDf (0)−1 kop ky − φ(x)k ≤ kDf (0)−1 kop (kyk + kφ(x)k) ≤ r
für alle y ∈ B r/2kDf (0)−1 kop und x ∈ B r (wir haben hier (46) gebraucht). Das zeigt, dass
für alle y ∈ B r/2kDf (0)−1 kop , ψy : B r → B r . Ferner haben wir
ψy (x1 ) − ψy (x2 ) = Df (0)−1 (φ(x1 ) − φ(x2 ))
und deswegen
1
kψy (x1 ) − ψy (x2 )k = kDf (0)−1 kop kφ(x1 ) − φ(x2 )k ≤ kx1 − x2 k
2
für alle x ∈ B r (wieder wegen (46)). Es folgt, dass für alle y ∈ B r/2kDf (0)−1 kop , ψy eine
Kontraktion auf B r ist. Da B r ein vollständiger metrischer Raum ist, folgt aus Satz
3.18, dass für alle y ∈ B r/2kDf (0)−1 kop ein x ∈ B r mit f (x) = y existiert.
Schritt 2. Es gilt
3kDf (0)kop
1
kx1 − x2 k
kx1 − x2 k ≤ kf (x1 ) − f (x2 )k ≤
−1
2kDf (0) kop
2
für alle x1 , x2 ∈ B r0 . Insbesondere ist f auf B r0 injektiv.
Beweis: Wir haben f (x) = φ(x) + Df (0)(x). Aus (46) gilt
kf (x1 ) − f (x2 )k ≤ kDf (0)kkx1 − x2 k + kφ(x1 ) − φ(x2 )k
1
kx1 − x2 k
≤ kDf (0)kop +
2kDf (0)−1 kop
Aus 1 = Df (0)Df (0)−1 folgt, dass 1 ≤ kDf (0)kop kDf (0)−1 kop und damit
kDf (0)−1 k−1
op ≤ kDf (0)kop .
Das ergibt
kf (x1 ) − f (x2 )k ≤
3kDf (0)kop
kx1 − x2 k
2
für alle x1 , x2 ∈ B r0 . Anderseits gilt aus (44) und wieder aus (46),
kf (x1 ) − f (x2 )k ≥ kDf (0)(x1 − x2 )k − kφ(x1 ) − φ(x2 )k
1
1
≥
−
kx1 − x2 k
kDf (0)−1 kop 2kDf (0)−1 kop
1
=
kx1 − x2 k .
2kDf (0)−1 kop
66
Sei nun r < r0 fest. Wir setzen W0 = Br/(2kDf (0)−1 kop ) = {x ∈ Rn : kxk <
r/2kDf (0)−1 kop }, und V0 = f −1 (W0 ) ∩ Br0 = {x ∈ Br0 : kf (x)k < r}. W0 ist offen. Da f stetig, ist auch V0 offen. Es folgt aus Schritten 1 und 2, dass f : V0 → W0
bijektiv ist. Die Injektivität folgt aus Schritt 2, weil V0 ⊂ Br0 . Die Surjektivität folgt
dagegen aus Schritt 1, weil für jede y ∈ Br/(2kDf (0)−1 kop , x ∈ B r ⊂ Br0 mit f (x) = y
existiert. Wir bezeichnen die Inverse mit g : W0 → V0 . Für y1 , y2 ∈ W0 setze x1 = g(y1 )
und x2 = g(y2 ). Aus Schritt 2 haben wir
kg(y1 ) − g(y2 )k = kx1 − x2 k ≤ 2kDf (0)−1 kop kf (x1 ) − f (x2 )k = 2kDf (0)−1 kop ky1 − y2 k
Also ist g auf W0 stetig (sogar Lipschitz-stetig).
Schritt 3. g ist an der Stelle 0 differenzierbar. Es gilt Dg(0) = Df (0)−1 .
Beweis. Da g(0) = 0 müssen wir zeigen, dass
g(y) − Df (0)−1 (y) = o(kyk)
für y → 0. Sei 0 < ε < 1 festgewählt. Da x → φ(x) stetig, existiert δ > 0 so, dass
kDφ(x)k ≤ ε/(2kDf (0)−1 kop ) für alle kxk ≤ δ. Nach Definition von r0 > 0 gilt δ ≤ r0 .
Für y ∈ Rn mit kyk < δ/(2kDf (0)−1 kop , sei x = g(y). Dann gilt kxk ≤ δ. Ferner
f (x) = y = Df (0)(x) + φ(x)
Wir multiplizieren rechts und links mit der Matrix Df (0)−1 und erhalten
g(y) − Df (0)−1 (y) = −Df (0)−1 (φ(x))
Aus der Mittelwertabschätzung für φ,
kg(y) − Df (0)−1 (y)k = kDf (0)−1 φ(x)k = kDf (0)−1 (φ(x) − φ(0))k
ε
≤ kDf (0)−1 kop kφ(x) − φ(0)k ≤ kxk
2
ε
−1
≤ kg(y)k ≤ εkDf (0) kop kyk
2
Da ε > 0 beliebig ist, folgt die Behauptung.
Wir haben somit folgendes bewiesen: Für jede a ∈ U mit Df (a) invertierbar, existieren offene Umgebungen V0 von a und W0 von f (a), so dass f : V0 → W0 bijektiv
ist, und so, dass f −1 : W0 → V0 stetig und an der Stelle a differenzierbar ist, mit
Df −1 (f (a)) = (Df (a))−1 . Da x → Df (x) stetig, und da die Menge der invertierbaren
linearen Abbildungen GL(Rn ) in L(Rn , Rn ) offen ist, finden wir eine offene Umgebung
V ⊂ V0 von a so, dass Df (x) invertierbar ist, für alle x ∈ V . Wir setzen W = f (V ); da
f −1 stetig ist, ist auch W offen. f −1 ist dann in jedem Punkt von W differenzierbar und
Df −1 (f (x)) = (Df (x))−1 = Df (x)−1 . Da die Abbildung i : GL(Rn ) → GL(Rn ) stetig
ist, ist Df (x)−1 = i(Df (x)) als Komposition zweier stetiger Abbildungen wieder stetig.
Damit ist f −1 : W → V stetig differenzierbar.
67
Definition 3.20. Seien X, Y zwei metrische Räume. Ein Homöomorphismus von X
nach Y ist eine Bijektion f : X → Y , so dass f und f −1 stetig sind. Ist f : X → Y
ein Homöomorphismus, so ist auch f −1 ein Homöomorphismus. Eine stetige Bijektion
f : X → Y ist genau dann ein Homöomorphismus, wenn f (U ) offen in Y für jede
U offen in X ist (weil eine Abbildung genau dann stetig ist, wenn das Urbild jeder
offenen Menge wieder offen ist; siehe Analysis 1, Prop. 6.18). Zwei metrische Räume
X, Y heissen homöomorph, wenn ein Homöomorphismus f : X → Y existiert.
Seien nun U ⊂ Rn und V ⊂ Rm offen. Ein Homöomorphismus f : U → V heisst
ein Diffeomorphismus, falls f und f −1 stetig differenzierbar sind. Zwei offene Mengen
U ⊂ Rn und V ⊂ Rm heissen diffeomorph, wenn ein Diffeomorphismus f : U → V
existiert. Eine Bijektion f : U → V ist genau dann ein Diffeomorphismus, wenn f −1
ein Diffeomorphismus ist.
Bemerkung: Ist U ⊂ Rn , V ⊂ Rm und f : U → V ein Diffeomorphismus, dann gilt
f −1 ◦ f (x) = x für alle x ∈ U . Die Kettenregel impliziert, dass
Df −1 (f (x)) ◦ Df (x) = 1,
wobei Df −1 (f (x)) ∈ L(Rm ; Rn ) und Df (x) ∈ L(Rn ; Rm ). Das ist nur möglich, falls
m ≥ n. Analog impliziert f ◦ f −1 (x) = x, dass Df (f −1 (x)) ◦ Df −1 (x) = 1 und also,
dass n ≥ m. Es folgt, dass n = m. Mit anderen Worten können nur Mengen der gleichen
Dimension zueinader diffeomorph sein.
Tatsache: Sind U ⊂ Rn und V ⊂ Rm nicht leer und offen, und f : U → V ein Homöomorphismus, dann muss n = m sein.
Bemerkung: Der Satz der Umkehrabbildung besagt, dass falls U ⊂ Rn offen ist, a ∈ U ,
f : U → Rn stetig differenzierbar, mit Df (a) invertierbar, dann ist f lokal in der Nähe
von a ein Diffeomorphismus. D.h. es existieren offene Umgebungen V von a und W von
f (a), so dass f : V → W ein Diffeomorphismus ist.
Eine wichtige Anwendung des Satzes über die Umkehrabbildung ist der Satz über
implizite Funktionen. Oft werden Teilmengen von Rn durch Gleichungen definiert. Z.B.
ist {(x, y) ∈ R2 : y = x3 } eine Teilmenge von R2 . In diesem Fall ist die Teilmenge
besonders einfach, weil sie als Graph einer Funktion geschrieben werden kann. Das ist
i.A. nicht möglich. Z.B. für den Einheitskreis S = {(x, y) ∈ R2 : x2 + y 2 = 1} existiert
keine Funktion g, definiert auf einer Teilmenge U ⊂ R, mit der Eigenschaft, dass S =
{(x, g(x)) : x ∈ U }. Trotzdem ist es in diesem Fall möglich, S lokal als Graph zu
schreiben. Betrachten wir z.B. den Punkt (0, 1) auf S. Es ist dann einfach zu sehen, dass
offene Umgebungen U ⊂ R von 0 und V ⊂ R von 1 und eine differenzierbare Funktion
g : U → V existiert, mit der Eigenschaft, dass
S ∩ (U × V ) = {(x, g(x)) : x ∈ U } .
√
In diesem Fall ist es sogar möglich, g(x) = 1 − x2 explizit zu schreiben.
Ein anderes Beispiel ist das sogenannte kartesische Blatt
T = {(x, y) ∈ R2 : x3 − 2xy + y 3 = 0} .
68
Wie S, kann auch T nicht global als Graph einer Funktion geschrieben werden. Ist es
möglich, T lokal als Graph zu schreiben? Der Punkt (1, 1) ist z.B. in T . Es ist einfach zu sehen (vgl. Bild von T ), dass offene Umgebungen U, V ⊂ R von 1 und eine
differenzierbare Funktion f : U → V existieren, so dass f (1) = 1 und
T ∩ (U × V ) = {(x, f (x)) : x ∈ U } .
Kann T in der Nähe von jedem seiner Punkte lokal als Graph einer Funktion geschrieben
werden? Nein: Es ist einfach zu sehen, dass in der Nähe von (0, 0), T nicht als Graph
geschrieben werden kann. Was unterscheidet also die Punkte (1, 1) und (0, 0) auf T ? Sei
f (x, y) = x3 − 2xy + y 3 , so dass T Menge aller Nullstellen von f ist. Dann gilt
∂f
(x, y) = −2x + 3y 2
∂y
Wir zeigen im nächsten Satz, dass der fundamentale Unterschied zwischen (1, 1) und
(0, 0) die Tatsache ist, dass (∂f /∂y)(1, 1) = −2 6= 0 während (∂f /∂y)(0, 0) = 0.
Satz 3.21 (Satz über implizite Funktionen). Seien m, n ∈ N\{0}, U ⊂ Rm × Rn offen
und nicht leer. Sei f ∈ C 1 (U ; Rn ) und (x0 , y0 ) ∈ U mit f (x0 , y0 ) = 0. Es gelte
∂fi
(x0 , y0 )
6= 0
(47)
det
∂yj
1≤i,j≤n
Dann existieren offene Umgebungen V ⊂ Rm von x0 und W ⊂ Rn von y0 und eine stetig
differenzierbare Funktion g : V → W , so dass
{(x, y) ∈ V × W : f (x, y) = 0} = {(x, g(x)) : x ∈ V }
Ferner gilt
Dg(x0 ) = −(Dy f (x0 , y0 ))−1 · Dx f (x0 , y0 ) .
(48)
Bemerkung: Dy f (x0 , y0 ) und Dx f (x0 , y0 ) bezeichnen die Ableitung von f als Funktion
von y bei festen x = x0 , bzw. die Ableitung von f als Funktion von x, bei festen y = y0 .
Dy f (x0 , y0 ) ist eine n × n Matrix und Dx f (x0 , y0 ) eine n × m Matrix. Die Bedingung
(47) bedeutet genau, dass die Matrix Dy f (x0 , y0 ) invertierbar ist. In diesem Fall ist die
Inverse Dy f (x0 , y0 )−1 wieder eine n × n Matrix und Dy f (x0 , y0 )−1 · Dx f (x0 , y0 ) eine
n × m Matrix. Damit ist (48) konsistent mit der Tatsache, dass g eine Teilmenge von
Rm auf einer Teilmenge von Rn abbildet.
Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , s.d. f (x, y) = (f1 (x, y), . . . , fn (x, y))
für alle (x, y) ∈ U gelte. Dann ist die vektorielle Gleichung f (x, y) = 0 das System von
n Gleichungen

f1 (x1 , . . . , xm , y1 , . . . , yn ) = 0



f2 (x1 , . . . , xm , y1 , . . . , yn ) = 0
...



fn (x1 , . . . , xm , y1 , . . . , yn ) = 0
Der Satz besagt, dass, falls Dy f (x0 , y0 ) invertierbar ist, kann man das Gleichungssystem
lokal für (y1 , . . . , yn ) lösen. Sind die Funktionen f1 , . . . , fn linear oder affin, dann ist die
Behauptung schon aus der linearen Algebra bekannt (in diesem Fall ist die Ableitung
Dy f (x0 , y0 ) unabhängig von (x0 , y0 ) und die Behauptung gilt natürlich global).
69
Beweis: Wir definieren die Hilfsfunktion F : U → Rm × Rn durch F (x, y) = (x, f (x, y)).
Da f ∈ C 1 (U ; Rn ), ist F stetig differenzierbar. Die Ableitung von F an der Stelle (x0 , y0 )
ist aus der Blockmatrix
0
1Rm
DF (x0 , y0 ) =
Dx f (x0 , y0 ) Dy f (x0 , y0 )
mit der n × m Matrix Dx f (x0 , y0 ) = ((∂fi /∂xj )(x0 , y0 )) und mit der n × n Matrix
Dy f (x0 , y0 ) = ((∂fi /∂yj )(x0 , y0 )) gegeben (1Rm ist die Identität auf Rm ). Nach Annahme ist Dy f (x0 , y0 ) invertierbar; sei Dy f (x0 , y0 )−1 die Inverse. Wir behaupten, dass auch
DF (x0 , y0 ) invertierbar ist. In der Tat, explizite Berechnung zeigt, dass
0
0
1Rm
1Rm
·
−Dy f (x0 , y0 )−1 Dx f (x0 , y0 ) Dy f (x0 , y0 )−1
Dx f (x0 , y0 ) Dy f (x0 , y0 )
1Rm 0
.
=
0
1Rn
Deswegen ist DF (x0 , y0 ) invertierbar. Aus dem Satz über die Umkehrabbildung (Satz
3.17) folgt, dass offene Umgebungen U1 ⊂ Rm × Rn von (x0 , y0 ) und U2 ⊂ Rm × Rn
von F (x0 , y0 ) = (x0 , 0) existieren, so dass F : U1 → U2 ein Diffeomorphismus ist. Da
U1 eine offene Umgebung von (x0 , y0 ) ist, kann man offene Umgebungen Ve ⊂ Rm von
x0 und W ⊂ Rn von y0 , mit Ve × W ⊂ U1 . Dann ist F (Ve × W ) ⊂ U2 eine offene
Umgebung von (x0 , 0) (weil F ein Homöomorphismus ist), und F : Ve × W → F (Ve ×
W ) wieder ein Diffeomorphismus. Sei G : F (Ve × W ) → Ve × W die Inverse dieses
e : F (Ve × W ) →
Diffeomorphismus’. Da F (x, y) = (x, f (x, y)), existiert eine Funktion G
e
e
W mit G(x, y) = (x, G(x, y)) für alle (x, y) ∈ F (V × W ). Da G differenzierbar ist, ist
e differenzierbar. Da F (Ve × W ) eine offene Umgebung von (x0 , 0) ist, finden wir
auch G
eine offene Umgebung V ⊂ Ve von x0 mit {(x, 0) : x ∈ V } ⊂ F (Ve × W ). Dann können
e 0) definieren (d.h. durch G(x, 0) = (x, φ(x)) für alle
wir φ : V → W durch φ(x) = G(x,
e
x ∈ V ). Da G differenzierbar ist, ist auch φ differenzierbar. Für (x, y) ∈ V × W ⊂ Ve × W
gilt dann
f (x, y) = 0 ⇐⇒ F (x, y) = (x, 0) ⇐⇒ G(x, 0) = (x, y)
e 0) ⇐⇒ y = φ(x)
⇐⇒ y = G(x,
D.h.
{(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V }
Aus f (x, φ(x)) = 0 für alle x ∈ V folgt, mit der Kettenregel, dass
0 = Df (x0 , φ(x0 )) · Dg(x0 ) = Dx f (x0 , φ(x0 )) · 1Rm + Dy f (x0 , φ(x0 )) · Dφ(x0 )
Das gibt (48).
Beispiel. Sei f (x, y) = x3 − 2xy + y 3 und, wie oben, T = {(x, y) ∈ R2 : f (x, y) = 0} das
kartesische Blatt. Es gilt
∂f
(x, y) = −2x + 3y 2 ,
∂y
und
70
∂f
(x, y) = 3x2 − 2y
∂x
Ist (x0 , y0 ) ∈ T mit −2x0 + 3y02 6= 0, dann kann man, in der Nähe von (x0 , y0 ), T als
Graph einer Funktion von x schreiben. Wir bemerken, (x0 , y0 ) ∈ T mit −2x0 + 3y02 = 0
impliziert, dass
27 6
3
3 27 3
y − 2y0 = 0 ⇒ 2y0
y −1 =0
8 0
16 0
√
Das ist nur bei y0 = 0 oder y0 = 2 2/3 möglich. Also existieren
für jede (x0 , y0 ) ∈ T ,
√
mit der Ausnahmen (x0 , y0 ) = (0, 0) und (x0 , y0 ) = (4/3, 2 2/3), offene Umgebungen
V ⊂ R von x0 und W ⊂ R von y0 und eine C 1 -Funktion φ : V → W , so dass
T ∩ (V × W ) = {(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V }
und
φ0 (x0 ) = −
(∂f /∂x)(x0 , y0 )
3x2 − 2y0
.
= − 20
(∂f /∂y)(x0 , y0 )
3y0 − 2x0
Analog finden wir,√dass für alle (x0 , y0 ) ∈ T mit den Ausnahmen von (x0 , y0 ) = (0, 0)
und (x0 , y0 ) = (2 2/3, 4/3) offene Umgebungen V von y0 und W von x0 und eine
C 1 -Funktion ψ : V → W existieren, so dass
T ∩ (W × V ) = {(x, y) ∈ W × V : f (x, y) = 0} = {(ψ(y), y) : y ∈ V }
und
ψ 0 (y0 ) = −
3.5
3x20 − 2x0
.
3y02 − 2y0
Mannigfaltigkeiten in Rn
Wir untersuchen in diesem Abschnitt besondere Teilmengen von Rn , genannt Mannigfaltigkeiten oder Untermannigfaltigkeiten des Rn , die lokal wie Rk aussehen, für ein
k ≤ n.
Bevor wir zur genaueren Definition von Mannigfaltigkeit kommen, betrachten wir
einige Beispiele von Teilmengen von Rn , die lokal wie Rk für k = 1 oder k = 2 aussehen. Im Fall k = 1 spricht man von Kurven. Das Begriff von Kurven kann verschiedene
Bedeutungen haben. Eine parametrisierte Kurve ist eine Abbildung φ : I → Rn , für
ein Intervall I ⊂ R. Eine parametrisierte Kurve kann zum Beispiel die Bewegung eines Teilchens im Raum beschreiben, als Funktion der Zeit t ∈ I. Eine parametrisierte
Kurve ist also nicht nur durch die Bahn des Teilchens charakteriziert, sondern auch von
dem Zeitplan (die parametriesierte Kurve bestimmt die Position des Teilchens zu jeder
Zeit, nicht nur seine Trajektorie). Sind wir nur an der Bahn interessiert, und nicht am
Zeitplan, so können wir die folgende Äquivalenzrelation im Raum der parametrisierten
Kurven definieren. Wir sagen zwei parametrisierte Kurve ϕ1 : I1 → Rn , ϕ2 : I2 → Rn ,
für zwei Intervalle I1 , I2 ⊂ R sind äquivalent, falls eine monoton wachsende stetige und
surjektive Funktion ψ : I1 → I2 existiert, so dass φ1 = φ2 ◦ ψ. In diesem Fall heisst ψ eine Parametertransformation. Man kann sich leicht davon überzeugen, dass das wirklich
eine Äquivalenzrelation definiert. Man kann dann eine Kurve als eine Äquivalenzklasse
von parametrisierten Kurven definieren. Mit anderen Worten, eine Kurve wird somit als
die Bildmenge einer parametrisierten Kurve definiert.
71
Man könnte auch Kurven als Graph von Funktionen definieren. Das ist aber zu
restriktiv; z.B. der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} kann nicht als Graph
{(x, y) ∈ R2 : y = f (x)} einer Funktion von x geschrieben werden. Es ist auch unmöglich,
S 1 als Graph {(x, y) ∈ R2 : x = f (y)} einer Funktion von y zu schreiben. Immerhin,
der Kreis S 1 ist die Vereinigung der Graphen von zwei Funktionen, nämlich f1 (x) =
(1 − x2 )1/2 und f2 (x) = −(1 − x2 )1/2 . Wenn wir nur Funktionen auf offene Teilmengen
von R betrachten möchten, so können √
wir S 1 als die Vereinigung der Graphen
p von vier
2
Funktionen schreiben, nämlich y = ± 1 − x auf x ∈ (−1; 1) und x = ± 1 − y 2 auf
y ∈ (−1; 1). Zwei dieser Abbildungen definieren y als Funktion von x, die anderen zwei
geben x als Funktion von y. Ausgehend aus diesem Beispiel kann man also berlegen,
Kurven als Vereinigungen von Graphen zu definieren. Gemäss dieser Definition kann man
sich auch vorstellen, eine Kurve differenzierbar zu nennen, wenn sie als Vereinigung von
Graphen von differenzierbaren Funktionen geschrieben werden kann (wir werden von C 1 Kurven sprechen, unter der Annahme, dass die Funktionen stetig differenzierbar sind).
Man muss hier ein bisschen aufpassen. Es gibt einen Unterschied zwischen der gegebenen
Definition von differenzierbarer Kurve und differenzierbarer parametrisierte Kurve. Z.B.
die parametrisierte Kurve φ(t) = (t3 , t2 ) ∈ R2 ist differenzierbar. Die Bildmenge T =
{φ(t) : t ∈ R} kann aber neben (0, 0) nicht als Graph einer differenzierbaren Funktion
geschrieben werden. Deswegen ist T keine differenzierbare Kurve im obigen Sinne. Wir
werden sehen, die Bildmenge der parametrisierten Kurve φ(t) ist keine differenzierbare
Kurve, weil φ0 (0) = 0.
Analog kann man Teilmengen von Rn , die lokal wie R2 aussehen, betrachten. In
diesem Fall spricht man von Flächen. Auch hier muss man zwischen parametrisierten
Flächen und Fläche als Bildmenge von parametrisierten Flächen unterscheiden. Wie
für Kurven, kann man Flächen als Vereinigung von Graphen beschreiben. Die Sphäre
S 2 = {(x, y, z) : x2 +y 2 +z 2 = 1} ⊂ R3 ist nicht der Graph einer einzelne Funktion, kann
aber als Vereinigung der folgenden sechsp
Graphen betrachtet werden, die auf offenen
2 definiert sind: z = ± 1 − x2 − y 2 , definiert auf k(x, y)k < 1, y =
Teilmengen
von
R
p
√
± 1 − x2 − z 2 auf k(x, z)k < 1 und x = ± 1 − y 2 − z 2 definiert auf k(y, z)k < 1. Weil
die Funktionen, aus dessen Graphen S 2 besteht, stetig differenzierbar sind, sagt man S 2
ist eine differenzierbare Fläche, oder eine C 1 -Fläche. Wir erweitern diese Definitionen,
um differenzierbare Mannigfaltigkeiten M ⊂ Rn der Dimensin k einzuführen.
Definition 3.22. Seien n, k ∈ N, mit k < n. Ein C 1 -Mannigfaltigkeitstück der Dimension k in Rn ist eine Teilmenge von Rn die, nach allfälliger Unnumerierung der
Koordinaten, die Form
{(x1 , . . . , xn ) ∈ Rn : (xk+1 , . . . , xn ) = φ(x1 , . . . , xk ) und (x1 , . . . , xk ) ∈ G}
hat, wobei G ⊂ Rk offen und zusammenhängend ist und φ ∈ C 1 (G; Rn−k ). Eine Menge
M ⊂ Rn heisst eine C 1 -Mannigfaltigkeit der Dimension k, falls für jede a ∈ M eine
offene Umgebung U ⊂ Rn von a existiert, so dass U ∩ M ein C 1 -Mannigfaltigkeitstück
der Dimension k ist. Eine C 1 -Mannigfaltigkeit der Dimension k = 1 heisst eine C 1 Kurve. Eine C 1 -Mannigfaltigkeit der Dimension k = 2 heisst eine C 1 -Fläche. Eine
C 1 -Mannigfaltigkeit M der Dimension n − 1 in Rn heisst eine Hyperfläche.
72
Bemerkung: Kurz gesagt, eine C 1 -Mannigfaltigkeit der Dimension k ist eine Teilmenge
von Rn , die lokal aus dem Graph einer stetig differenzierbaren Abbildung φ : Rk ⊃ G →
Rn−k gegeben ist.
Beispiele: Der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} ist eine C 1 -Kurve. Die Sphäre
S n−1 = {(x1 , . . . , xn ) ∈ Rn : k(x1 , . . . , xn )k = 1} ⊂ Rn ist eine C 1 -Mannigfaltigkeit der
Dimension (n−1) (d.h. S n−1 ist eine Hyperfláche). Die Bildmenge {(t3 , t2 ) ∈ R2 : t ∈ R}
der parametrisierten Kurve φ(t) = (t3 , t2 ) ist keine C 1 -Mannigfaltigkeit, weil sie in der
Nähe von (0, 0) nicht als Graph einer stetig differenzierbare Funktion geschrieben werden kann. Die Bildmenge der parametrisierten Kurve φ(t) = (cos t, sin(2t)) ist keine
C 1 -Kurve, weil sie in der Nähe von φ(π/2) = (0, 0) nicht als Graph einer Funktion geschrieben werden kann (nach Definition dürfen Mannigfaltigkeiten keine “SelbstDurchschnitte” haben).
Statt Teilmengen von Rn durch Vereinigung von Graphen zu definieren, kann man sie
als Lösungsmengen von Gleichungen definieren. Z.B. definiert die Gleichung x2 + y 2 = 1
den Kreis S 1 , also eine Mannigfaltigkeit der Dimension eins. Man kann sich analog
vorstellen, dass die Gleichung f (x1 , . . . , xn ) = 0, für eine Funktion f : Rn ⊃ U → R,
eine Teilmenge von Rn definiert, die lokal wie Rn−1 aussieht. Im nächsten Satz zeigen
wir, dass, falls a ∈ U die Gleichung f (a) = 0 erfüllt, und falls ∇f (a) 6= 0, dann ist die
Menge {x ∈ U : f (x) = 0} in der Nähe von a ein Mannigfaltigkeitstück.
Proposition 3.23. Sei U ⊂ Rn offen, f ∈ C 1 (U ), und a ∈ U mit f (a) = 0 und ∇f (a) 6=
0. Dann es existiert eine offene Umgebung G ⊂ Rn von a so, dass G∩{x ∈ U : f (x) = 0}
ein C 1 -Mannigfaltigkeitstück der Dimension (n − 1) ist. D.h. die Lösungsmenge der
Gleichung f (x) = 0 ist, in der Nähe von a eine Mannigfaltigkeit. Gilt ferner ∇f (x) 6= 0
für alle x ∈ U mit f (x) = 0, dann ist {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der
Dimension n − 1.
Beweis: Die Bedingung ∇f (a) 6= 0 impliziert, dass j ∈ {1, . . . , n} mit ∂f /∂xj (a) 6=
0 existiert. O.B.d.A nehmen wir an ∂f /∂xn (a) 6= 0. Nach dem Satz über implizite
Funktionen, existieren eine Umgebung V ⊂ Rn−1 von (a1 , . . . , an−1 ), eine Umgebung
W ⊂ R von an und eine Funktion φ ∈ C 1 (V ) mit Werten in W , so dass
V × W ∩ {(x1 , . . . ,xn ) ∈ U : f (x1 , . . . , xn−1 , xn ) = 0}
= {(x1 , . . . , xn−1 , φ(x1 , . . . , xn−1 )) ∈ Rn : (x1 , . . . , xn−1 ) ∈ V } .
Die Behauptung folgt, mit G = V × W .
Allgemeiner, sei f : Rn ⊂ U → Rm , für ein m < n. Die Gleichung f (x) = 0 ist dann
ein System von m Gleichungen

f1 (x1 , . . . , xn ) = 0



f2 (x1 , . . . , xn ) = 0
...



fm (x1 , . . . , xn ) = 0
Sind die m Gleichungen in geeignetem Sinne unabhängig, so kann man sich vorstellen,
dass f (x) = 0 eine Mannigfaltigkeit der Dimension k = n − m definiert. Wir müssen
verstehen, in welchen Sinne die Gleichungen unabhängig sein müssen. Dazu definieren
wir den Begriff vom Rang einer linearen Abbildung.
73
Definition 3.24. Sei L ∈ L(Rn ; Rm ). Der Rang der Matrix L ist
Rg L = dim Ran (L) = dim L(Rn ) = n − dim ker(L) .
Mit anderen Worten, der Rang von L ist die maximale Anzahl von linear unabhängige
Spalten in der Matrix L. Aus der linearen Algebra, RgL ist auch die maximale Anzahl
von linear unabhängigen Zeilen in L.
Definition 3.25. Sei U ⊂ Rn offen und f ∈ C 1 (U ; Rm ), mit m ≤ n. Wir sagen, f ist
regulär an der Stelle a ∈ U , falls Df (a) Rang m hat. Ist m = n, so ist f genau dann
an der Stelle a regulär, wenn Df (a) invertierbar ist.
Satz 3.26. Sei U ⊂ Rn offen, f ∈ C 1 (U ; Rm ). Sei a ∈ U mit f (a) = 0 und so, dass
f regulär an der Stelle a ist. Dann existiert eine offene Umgebung G ⊂ U von a in
Rn , so dass G ∩ {x ∈ U : f (x) = 0} ein Mannigfaltigkeitstück in Rn der Dimension
k = n − m ist. Ist f an der Stelle x regulär, für alle x ∈ U mit f (x) = 0, dann ist
{x ∈ U : f (x) = 0} eine Mannigfaltigkeit in Rn der Dimension k = n − m.
Beweis: Nach Unnumerierung der Koordinaten können wir annehmen, dass die m Spalten
∂f
∂f
∂f
(a),
(a), . . . ,
(a)
(49)
∂xk+1
∂xk+2
∂xn
linear unabhängig sind (wir haben hier k = n − m gesetzt). Wir schreiben Df (a) =
(D1 f (a), D2 f (a)), wobei D1 f (a) die m × k Matrix ist, die aus allen partiellen Ableitungen nach x1 , . . . , xk besteht und D2 f (a) die m × m Matrix ist, die aus allen partielle
Ableitungen nach xk+1 , . . . , xn besteht. Die Matrix D2 f (a) ist nach (49) invertierbar. Der
Satz über implizite Funktionen impliziert, dass eine offene Umgebung V von (a1 , . . . , ak )
in Rk , eine offene Umgebung W von (ak+1 , . . . , an ) in Rm und eine stetig differenzierbare
Funktion φ : V → W existieren, so dass
V × W ∩ {x ∈ U : f (x) = 0} = {(x1 , . . . , xk , φ(x1 , . . . , xk )) : (x1 , . . . , xk ) ∈ V }
Die Behauptung folgt, mit G = V × W .
Bemerkung: Der Satz zeigt, dass die richtige Verallgemeinerung der Bedingung ∇f (a) 6=
0 in Proposition 3.23 aus der Bedingung RgDf (a) = m gegeben ist.
Statt C 1 -Mannigfaltigkeiten durch Graphen von stetig differenzierbaren Funktionen
zu definieren, kann man auch lokale reguläre Parametrisierungen (genannt Karten) benutzen. Wir geben hier die alternative Definition, obwohl wir im Folgenden weiter mit
der ursprünglichen Definition arbeiten.
Alternative Definition von Mannigfaltigkeiten: Seien n, k ∈ N,mit 1 ≤ k < n. Eine kdimensionale C 1 -Mannigfaltigkeit in Rn (oder eine C 1 -Untermannigfaltigkeit des Rn ) ist
eine nicht-leere Menge M ⊂ Rn , so dass für alle a ∈ M eine offene Umgebung U ⊂ Rn
von a, eine offene Menge G ⊂ Rk und eine reguläre Abbildung ϕ ∈ C 1 (G; Rn ) so, dass
ϕ(G) = M ∩ U und ϕ : G → M ∩ U ein Homöomorphismus ist. Das Paar (G, ϕ) heisst
eine Karte von M in der Nähe vom Punkt a. Übung: Zeigen Sie, dass diese Definition
mit der ursprünglichen Definition übereinstimmt.
74
Bemerkung: Die alternative Definition von Mannigfaltigkeiten durch Karten lässt sich
auch zum Fall k = n erweitern. Dann gilt: Eine Teilmenge M ⊂ Rn ist genau dann eine
Mannigfaltigkeit der Dimension n, wenn M offen ist.
Bemerkung: Statt von C 1 -Mannigfaltigkeit in Rn spricht man in der Literatur oft von
C 1 -Untermannigfaltigkeit des Rn . Man benutzt das Wort Untermannigfaltigkeit, weil die
Mengen, die wir betrachten, immer Teilmengen von Rn sind. Das Wort Mannigfaltigkeit
der Dimension k wird dann für allgemeinere Mengen benutzt, die lokal das Bild einer
regulären Funktion auf einer offenen Teilmenge von Rk sind. Ein wichtiges Resultat der
Differentialgeometrie besagt dann, dass jede C 1 -Mannigfaltigkeit der Dimension n in R2n
eingebettet werden kann (Einbettungsatz von Whitney). Bemerke, dass die Dimension
(mindestens) 2n sein muss; die Klein’sche Flasche ist ein berühmtes Beispiel einer zwei
dimensionale C 1 -Mannigfaltigkeit, die nicht in R3 eingebettet werden kann. In dieser
Vorlesung werden wir immer C 1 -Untermannigfaltigkeiten des Rn betrachten; wir werden
aber das Wort C 1 -Mannigfaltigkeiten in Rn benutzen.
Sei nun M ⊂ Rn eine Mannigfaltigkeit der Dimension k < n und a ∈ M ein Punkt
auf der Mannigfaltigkeit. Wir möchten den Begriff von Tangentialraum zu M an a ∈ M
einführen. Dazu betrachten wir parametrisierte Kurven auf M , die durch a gehen. Sei
I ein offenes Intervall in R. Eine differenzierbare parametrisierte Kurve auf M ist eine
differenzierbare Abbildung ϕ : I → Rn , mit ϕ(t) ∈ M für alle t ∈ I. Es gelte ϕ(t0 ) = a.
Der Vektor
ϕ0 (t0 ) = (ϕ01 (t0 ), . . . , ϕ0n (t0 ))
heisst der Tangentialvektor zu der Kurve ϕ im Punkt ϕ(t0 ) = a.
Definition 3.27. Der Tangentialraum Ta (M ) zu M an der Stelle a ∈ M besteht aus
allen Tangentialvektoren zu differenzierbaren Kurven auf M , die durch a gehen. Mit
anderen Worten, ξ ∈ Rn ist genau dann Element von Ta (M ), wenn ein Intervall I ⊂ R,
ein t0 ∈ I und eine Kurve ϕ ∈ C 1 (I; Rn ) mit ϕ(t) ∈ M für alle t ∈ I, ϕ(t0 ) = a und
ϕ0 (t0 ) = ξ existieren.
Proposition 3.28. Sei M eine Mannigfaltigkeit in Rn der Dimension k < n und a ∈ M .
Ta (M ) ist ein linearer Unterraum von Rn , mit dim Ta (M ) = k.
Beweis: Die Definition von Ta (M ) hängt nur von M in der Nähe von a ab. D.h. Ta (M ) =
Ta (M ∩ U ) für jede, beliebig kleine Umgebung U ⊂ Rn von a. Aus diesem Grund können
wir annehmen, dass eine offene Menge V ⊂ Rk und ein ψ ∈ C 1 (V ; Rn ) existieren, so
dass
M = {(x, ψ(x)) : x ∈ V }
Wir führen die Notation x(1) = (x1 , . . . , xk ) und x(2) = (xk+1 , . . . , xn ) ein. Dann a =
(a(1) , a(2) ), wobei a(2) = ψ(a(1) ). Sei nun t → ϕ(t) eine differenzierbare Kurve auf M , mit
ϕ(t0 ) = a. Wir bezeichnen φ1 (t) = (ϕ1 (t), . . . , ϕk (t)) und φ2 (t) = (ϕk+1 (t), . . . , ϕn (t)),
wobei ϕ1 , . . . , ϕn die Komponenten von ϕ sind. Da ϕ(t) ∈ M für alle t, muss gelten
φ2 (t) = ψ(φ1 (t)) für alle t genügend nahe zu t0 . Also ϕ(t) = (φ1 (t), ψ(φ1 (t))) und
ϕ0 (t0 ) = (φ01 (t0 ), Dψ(a(1) )(φ01 (t0 )))
Wir setzen v = φ01 (t0 ) ∈ Rk . Dann ist ϕ0 (t0 ) = (v, Dψ(a(1) )v) ∈ Rn .
75
Anderseits, für gegebene v ∈ Rk , können wir die Kurve ϕ(t) = (a(1) +tv, ψ(a(1) +tv))
definieren. Dann ist ϕ offenbar eine differenzierbare Kurve auf M , mit ϕ(0) = a und
φ0 (0) = (v, Dψ(a(1) )(v)). Wir haben also gezeigt, dass
Ta (M ) = {(v, Dψ(a(1) )v) : v ∈ Rk }
Ta (M ) ist also ein linearer Raum, mit Dimension k (die Vektoren (ei , Dψ(a(1) )(ei )), für
i = 1, . . . , k sind eine Basis von Ta (M ), falls ei , i = 1, . . . , k, die Standard-Basis von Rk
bezeichnet).
Falls die Mannigfaltigkeit M als Lösungsmenge einer Gleichung f (x) = 0 gegeben ist,
so kann man eine andere Charakterisierung von Ta (M ) angeben. Sei zunächst U ⊂ Rn
und f ∈ C 1 (U ) reelwertig. Es gelte ∇f (x) 6= 0 für alle x ∈ U mit f (x) = 0. Dann
ist M = {x ∈ U : f (x) = 0} eine Mannigfaltigkeit der Dimenison n − 1. Wir sind
im Tangentialraum Ta (M ) interessiert, für ein a ∈ M . Wir wissen schon Ta (M ) ist ein
linearen Raum mit dim Ta (M ) = n − 1. Sei ϕ(t) eine parametrisierten Kurve auf M ,
mit ϕ(t0 ) = a. Dann gilt f (ϕ(t)) = 0 für alle t. Wir erhalten:
0=
d
f (ϕ(t))|t=t0 = ∇f (ϕ(t0 )) · ϕ0 (t0 )
dt
und deswegen
Ta (M ) ⊂ {ξ ∈ Rn : ξ · ∇f (a) = 0}
Da der Raum {ξ ∈ Rn : ξ · ∇f (a) = 0} auch Dimension n − 1 hat, gilt
Ta (M ) = {ξ ∈ Rn : ξ · ∇f (a) = 0}
Wir haben bewiesen, dass der Gradient ∇f (a) senkrecht zum Tangentialraum Ta (M )
steht.
Sei nun f ∈ C 1 (U ; Rm ) regulär an der Stelle x, für alle x ∈ U mit f (x) = 0. Dann
ist M = {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der Dimension k = n − m. Seien
f1 , . . . , fm die Komponenten von f . Ähnlich wie oben, gilt
Ta (M ) = {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0}
Da die m Zeilen ∇fj (a), j = 1, . . . , m, von Df (a) linear unabhängig sind (weil f regulär
ist), ist es klar, dass der Raum {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0} die
Dimension k = n − m hat.
Es ist manchmal auch nützlich, neben dem Begriff vom Tangentialraum Ta (M ) auch
den Begriff der Tangelntialebene einzuführen. Die Tangentialebene an der Mannigfaltigkeit M im Punkt a ist die Teilmenge von Rn , die aus allen Tangentialvektoren zu M in
a besteht, die aber vom Punkt a ausgehen. Mit anderen Worten,
Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ ∈ Ta (M )}
Falls M = {x ∈ U : f (x) = 0} für eine Funktion f ∈ C 1 (U ; Rm ) regulär im Punkt a,
dann gilt
Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ · ∇fj (a) = 0 für alle j = 1, . . . , m}
= {ξ ∈ Rn : (ξ − a) · ∇fj (a) = 0 für alle j = 1, . . . , m}
Bemerke, dass im Gegensatz zum Tangentialraum Ta (M ), die Tangentialebene kein linearer Raum ist.
76
3.6
Extrema mit Nebenbedingungen
Wir betrachten eine reelwertige Funktion f , definiert auf einer offenen Teilmenge Ω ⊂
Rn . In diesem Abschnitt möchten wir Extrema von f (x) finden, unter der zusätzlichen
Nebenbedingung x ∈ M , wobei M ⊂ Rn eine Mannigfaltigkeit mit Dimension k < n,
enthalten in Ω, ist.
Wir sagen a ∈ Ω ist ein lokales bedingtes Minimum von f mit der Nebenbedingung
x ∈ M , falls eine offene Umgebung A ⊂ Ω in Rn existiert, so dass f (a) = min{f (x) :
x ∈ A ∩ M }. Analog definiert man den Begriff vom lokalen bedingten Maximum. a ∈ Ω
heisst ein lokales bedingtes Extremum von f , falls a entweder ein lokales bedingtes
Minimum oder ein lokales bedingtes Maximum ist. Nehmen wir an f ∈ C 1 (Ω). Wegen der
Nebenbedinungen können bedingte Extrema a ∈ M existieren, für die ∇f (a) 6= 0. Wir
suchen also andere Kriteria, um Extrema mit Nebenbedingungen zu charakterisieren.
Manchmal kann man dieses Problem einfach lösen, indem man eine Parametrisierung
von M benutzt. Sei z.B. f ∈ C 1 (R2 ) und nehmen wir an, wir suchen
s := sup{f (x1 , x2 ) : x21 + x22 = 1}
Dann können wir einen Parameter t ∈ [0, 2π) einführen und x1 = cos t, x2 = sin t
schreiben. Damit ist das gesuchte Supremum s durch
s = sup g(t)
t∈[0,2π)
, wobei g(t) = f (cos t, sin t), gegeben. Das Problem mit Nebenbedingungen wurde damit
zu einem Problem (in einer Dimension, statt zwei) ohne Nebenbedingungen reduziert.
Extrema sind nun durch g 0 (t) = 0 charakterisiert.
Analog kann man die Nebenbedingung entfernen, falls M explizit als Graph einer
differenzierbaren Funktion geschrieben werden kann. Nehmen wir an, wir suchen
s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0}
Das Maximum wird angenommen, weil die Funktion f (x, y, z) = x2 yz stetig und die
Menge {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z ≥ 0} kompakt ist. Das Maximum hat
offenbar x, y, z > 0. Wir haben
p
{(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z > 0} = {( 1 − y 2 − z 2 , y, z) : (y, z) ∈ G}
mit der offenen Menge G = {(y, z) ∈ R2 : y 2 + z 2 < 1, y, z > 0}. Wir haben also
s = sup{g(y, z) : (y, z) ∈ G},
wobei g(y, z) = f (1 − y 2 − z 2 , y, z) = (1 − y 2 − z 2 )yz. Um s zu finden, berechnen wir also
∇g(y, z) = (z − 3y 2 z − z 3 , y − 3z 2 y − y 3 )
Die Bedingung ∇g(y, z) = 0 gibt, nach kurzer Rechnung,
y = z = 1/2. Das Maximum
√
2,
1/2,
1/2)
angenommen und beträgt
der Funktion
f
wird
also
im
Punkt
(x,
y,
z)
=
(1/
√
f (1/ 2, 1/2, 1/2) = 1/8.
77
Das letzte Beispiel war einfach, weil wir die Mannigfaltigkeit explizit als Graph
schreiben konnten. Das ist natürlich nicht immer möglich. Deswegen ist der folgende
Satz nützlich, um Extrema einer differenzierbaren Funktion f unter der Nebenbedingung
g(x) = 0 zu finden.
Proposition 3.29 (Lagrange-Multiplikatoren, eine Nebenbedingung). Sei U ⊂ Rn offen, g ∈ C 1 (U ) reelwertig, und M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass ∇g(a) 6= 0.
Dann ist M in der Nähe von a eine Mannigfaltigkeit der Dimension n − 1 (eine Hyperfläche). Sei nun f eine reelwertige Funktion, definiert und differenzierbar in der Nähe
von a. Sei a eine bedingte lokale Extremalstelle von f auf M . Dann existiert λ ∈ R mit
∇f (a) = λ∇g(a)
Der Parameter λ heisst ein Lagrange-Multiplikator.
Proof. Nehmen wir an ∇f (a) ist nicht proportional zu ∇g(a). Dann existiert ξ ∈ Rn
mit ξ · ∇g(a) = 0 aber ξ · ∇f (a) 6= 0. Die Bedingung ξ · ∇g(a) = 0 impliziert, dass
ξ ∈ Ta (M ). Also existiert eine parametrisierte Kurve ϕ : I → M , mit ϕ(t0 ) = a und
ϕ0 (t0 ) = ξ für ein t0 ∈ I. Betrachte nun die Funktion h(t) = f (ϕ(t)). Es gilt
h0 (t0 ) = ∇f (ϕ(t0 )) · ϕ0 (t0 ) = ∇f (a) · ξ 6= 0
Das heisst, in jeder Umgebung von t0 nimmt h(t) Werte kleiner und grösser als h(t0 ) =
f (a) an. Das zeigt, dass f auf U ∩ M Werte kleiner und grösser als f (a) annimmt, für
jede offene Umgebung U von a. Deswegen ist a keine bedingte Extremalstelle von f .
Die Proposition gibt uns eine Rezept, um Extrema einer differenzierbaren Funktion
f mit der Nebenbedingung g(x) = 0 zu finden. Die Gleichungen
(
∇f (x) = λ∇g(x)
g(x) = 0
bilden ein System von (n + 1)-Gleichungen für die (n + 1) Unbekannten x1 , . . . , xn , λ.
Lösungen dieses Gleichungsystemes, zusammen mit Punkten x ∈ Rn mit g(x) = 0, wo
f nicht differenzierbar ist, sind dann die einzigen möglichen Kandidaten für bedingte
lokale Extremalstellen.
Beispiel: Betrachten wir noch einmal das Beispiel von oben. Wir suchen
s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0}
Wir setzen f (x, y, z) = x2 yz und g(x, y, z) = x2 + y 2 + z 2 − 1. Bei bedingten Extrema
muss gelten: ∇f (x, y, z) = λ∇g(x, y, z) für ein λ ∈ R. Das ergibt die vier Gleichungen

2xyz
= 2λx


 2
x z
= 2λy
2y
x
= 2λz


 2
2
2
x +y +z =1
78
Da x, y, z > 0 gelten muss, implizieren die zweite und dritte Gleichung, dass y = z.
Die erste Gleichung gibt dann λ = y 2 , und damit liefert die dritte Gleichung x2 =√
2y 2 .
Einsetzen im letzten Gleichung ergibt 4y 2 = 1, und damit y = z = 1/2 und x = 1/ 2.
Bis jetzt haben wir Probleme mit einer Nebenbedingung der Form g(x) = 0 untersucht, für eine reelwertige Funktion g. Im Folgenden untersuchen wir den Fall, dass g
Werte in Rm hat, für ein m < n. In diesem Fall ist die vektorielle Gleichung g(x) = 0
eigentlich ein System mit m Gleichungen. Man spricht dann von m Nebenbedingungen.
Auch in diesem Fall kann man Extrema finden, indem man Lagrange-Multiplikatoren
einführt.
Proposition 3.30 (Lagrange Multiplikatoren, m Nebenbedingungen). Sei U ⊂ Rn
offen, g ∈ C 1 (U ; Rm ) für ein m < n. Sei M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass g
regulär an der Stelle a ist (d.h. Rg (Dg(a)) = m; in diesem Fall ist M in der Nähe von a
ein Mannigfaltigkeitstück der Dimension k = n−m). Sei f eine reelwertige C 1 -Funktion,
definiert in einer Umgebung von a in Rn . Sei a eine lokale bedingte Extremalstelle von
f auf M . Dann ist ∇f (a) eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a). D.h. es
existieren λ1 , . . . , λm ∈ R mit
∇f (a) =
m
X
λj ∇gj (a)
j=1
wobei g1 , . . . , gm : U → R die Komponenten von g sind.
Beweis: Nehmen wir an, dass ∇f (a) nicht eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a)
ist. Dann existiert ξ ∈ Rn , so dass ξ · ∇gi (a) = 0 für alle i = 1, . . . , m und ξ · ∇f (a) 6= 0.
Das impliziert, dass ξ ∈ Ta (M ). Damit existiert eine differenzierbare parametrisierte
Kurve ϕ : I → M , so dass ϕ(t0 ) = a und ϕ0 (t0 ) = ξ. Sei nun h(t) = f (ϕ(t)). Dann ist
h0 (t0 ) = ∇f (a) · ξ 6= 0
Damit ist t0 keine Extremalstelle von f (ϕ(t)). Das zeigt, dass a keine bedingte lokale
Extremalstelle von f sein kann.
Um bedingte Extremalstellen einer Funktion f auf Rn mit m Nebenbedingungen
g(x) = 0 zu finden, muss man also die n + m Gleichungen

m
X


 ∇f (x) =
λj ∇gj (x)
j=1



g(x) = 0
für die (n + m) Unbekannten x1 , . . . , xn , λ1 , . . . , λm lösen. Die einzigen Kandidaten für
Extremalstellen sind Lösungen dieser Gleichungen und Punkte auf M , wo f nicht differenzierbar ist.
Beispiel (aus der statistischen Mechanik): Ein Molekül habe n mögliche Zustände, mit
Energien E1 , . . . , En . In der statistischen Mechanik wird ein System von vielen Molekülen
durch die Wahrscheinlichkeiten p1 , . . . , pn ∈ [0; 1] beschrieben, dass ein Molekül im jten Zustand gefunden wird (die Wahrscheinlichkeit pj gibt die Fraktion zwischen den
79
Molekülen im j-ten Zustand und der gesamten Anzahl von Molekülen). Der Zustand
des Vielteilchensystems wird durch Maximierung der Entropie
H(p1 , . . . , pn ) = −
n
X
pj log pj
j=1
unter den Nebenbedingungen p1 + · · · + pn = 1 und
Ē =
n
X
pj Ej
j=1
bestimmt (wir möchten also die Entropie bei feste mittlerer Energie Ē maximieren).
P
Sei p = (p1 , . . . , pn ). Wir setzen g1 (p) = p1 + · · · + pn − 1 und g2 (p) = nj=1 pj Ej . Es
gilt ∇g1 (p) = (1, 1, . . . , 1) und ∇g2 (p) = (E1 , . . . , En ). Da
∇H(p) = (− log p1 − 1, . . . , − log pn − 1)
finden wir aus der Gleichung ∇H(p) = λ1 ∇g1 (p) + λ2 ∇g2 (p), dass
−1 − log pj = λ1 + λ2 Ej
für alle j = 1, . . . , n. Das ergibt log pj = −1 − λ1 − λ2 Ej und also
pj = e−(λ1 +1) · e−λ2 Ej =: ke−λ2 Ej
Die Bedingung g1 (p) = 0 bestimmt die Konstante k. Wir finden
e−λ2 Ej
pj = Pn
−λ2 Ej
j=1 e
Die Bedingung g2 (p) = 0 ergibt die Gleichung
E=
n
X
j=1
Ej e−λ2 Ej
Pn
−λ2 Ej
j=1 e
Diese Gleichung erlaubt uns im Prinzip, λ2 zu bestimmen. In der statistischen Mechanik
setzte man λ2 = kB /T , wobei kB die sogenannte Boltzmann-Konstante ist, und T die
absolute Temperatur des Systems ist. Die Temperatur wird von der mittleren Energie
bestimmt. Der Zustand vom System zur Temperatur T (d.h. zur mittleren Energie E)
ist der sogenannte Gibbs-Zustand, charakterisiert durch die Wahrscheinlichkeiten
e−kB Ej /T
pj = Pn −k E /T .
B i
i=1 e
Lagrange-Multiplikatoren und die oben erklärten Strategien, um bedingte Extrema
zu finden, sind auch nützlich, um (globale) Extrema von Funktionen auf Teilmengen von
Rn zu suchen, die einen Rand haben. Wir betrachten ein Beispiel, um die Situation zu
erklären.
80
Beispiel: Wir suchen das globale Maximum und das globale Minimum von f (x, y, z) =
x2 + y + z 2 auf D := {(x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ 1 und x2 + y 2 ≤ 1/2}.
Wir zerlegen D in verschiedenen Teile. Wir setzten:
D1 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 < 1 und x2 + y 2 < 1/2},
√
D2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1 und z > 1/ 2}, D3 = −D2
√
√
D4 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z ∈ (−1/ 2; 1/ 2)},
√
D5 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z = 1/ 2}, D6 = −D5 .
Wir suchen separate lokale Extrema in den Mengen D1 , . . . , D5 . Das globale Maximum
von f in D ist das grösste lokale Maximum, das wir in D1 , . . . , D6 finden werden, und
analog für das globale Minimum von f .
1) Extrema auf D1 werden durch die Bedingung ∇f (x) = 0 charakterisiert. Da
∇f (x) = (2x, 1, 2z), existiert kein Punkt x ∈ D1 mit ∇f (x) = 0. Also gibt es
kein lokales Extremum in D1 .
2) Lokale Extrema auf D2 werden durch die Nebenbedingung g(x, y, z) = x2 + y 2 +
z 2 = 1 charakterisiert. Ist x ∈ D2 ein lokales bedingtes Extremum, dann muss
λ ∈ R existieren mit ∇f (x) = λ∇g(x). Mit ∇g(x) = 2(x, y, z) wir finden

2x
= 2λx



1
= 2λy
2z
= 2λz


 2
x + y2 + z2 = 1
Da z 6= 0 in D2 , folgt λ = 1. Das ergibt y = 1/2 und√x2 + z 2 = 3/4. Der Kreis
{(x, 1/2, z) : x2 + z 2 = 3/4} schneidet D2 wenn z > 1/ 2. Auf diesem Kreis ist f
konstant, gegeben aus
f (x, 1/2, z) = 5/4, für alle (x, z) ∈ R2 mit x2 + z 2 = 3/4.
3) Aus Symmetrie, kann die Funktion f auf D3 nur auf dem Kreis {(x, 1/2, z) :
x2 + z 2 = 3/4} extremal sein, wo f = 5/4 ist.
4) Wir betrachten nun die Teilmenge D4 , wo Extrema von f mit der Nebenbedingung
g(x, y, z) = x2 +y 2 −1/2 = 0 gesucht werden sollen. Die Gleichung ∇f (x) = λ∇g(x)
wird zu

2x
= 2λx



1
= 2λy
=0
 2z

 2
x + y 2 = 1/2
√
Wir finden die Lösungen (x, y, z) = (0, ±1/ 2, 0) und (x, y, z) = (±1/2, 1/2, 0).
Es gilt
√
√
f (0, ±1/ 2, 0) = ±1/ 2
f (±1/2, 1/2, 0) = 3/4.
81
5) Auf D5 haben wir√die Nebenbedingungen g1 (x, y, z) = x2 + y 2 − 1/2 = 0 und
g2 (x, y, z) = z − 1/ 2 = 0. Die Gleichung ∇f (x) = λ1 ∇g1 (x) + λ2 ∇g2 (x) gibt

2x
= 2λ1 x




= 2λ1 y
 1
2z
= λ2


x2 + y 2 = 1/2


√

z
= 1/ 2
√
√
√
Es gibt die Lösungen (±1/2, 1/2, 1/ 2) und (0, ±1/ 2, 1/ 2). Es gilt
√
f (±1/2, 1/2, 1/ 2) = 5/4
√
√
√
f (0, ±1/ 2, 1/ 2) = ±1/ 2 + 1/2.
√
6) Aus Symmetrie
können
Extrema
in
D
nur
an
den
Stellen
(±1/2,
1/2,
−1/
2)
6
√
√
√ und
(0, ±1/ 2, −1/ 2)
gefunden
werden.
Wie
in
D
finden
wir
f
(±1/2,
1/2,
−1/
2) =
5
√
√
√
5/4 und f (0, ±1/ 2, −1/ 2) = ±1/ 2 + 1/2.
Durch Vergleich der Werte von f in den gefundenen Kandidaten für Maxima und
Minima, finden wir
max f (x) = 5/4,
x∈D
und
1
min f (x) = − √
x∈D
2
√
Das Maximum wird auf dem Kreisbogen y√= 1/2, x2 + z 2 = 3/4, mit |z| ≥ 1/ 2
angenommen. Das Minimum wird in (0, −1/ 2, 0) angenommen.
4
4.1
Riemann’sche Integrale in Rn
Definition und allgemeine Eigenschaften
Die Definitionen und die allgemeine Eigenscahften vom Riemann’sche Integral in Rn ,
n > 1, sind hauptsächlich einfache Verallgemeinerungen von den entsprechenden Begriffe
im Fall n = 1. Nur die Notation ist ein bisschen komplizierter.
Die Rolle von Intervalle im 1-dimensionalen Fall wird allgemein durch Quader gespielt. Die Länge des Intervall entspricht nun zum Mass des Quader.
Definition 4.1. Ein abgeschlossenen Quader in Rn ist eine Menge Q der Form
Q = [a1 ; b1 ] × [a2 ; b2 ] × · · · × [an ; bn ]
für reellen Zahlen a1 , . . . , an , b1 , . . . , bn mit aj < bj für alle j = 1, . . . , n. Das Mass vom
Quader Q ist dann definiert als
µ(Q) = (b1 − a1 ) · (b2 − a2 ) . . . (bn − an ) =
n
Y
(bj − aj )
j=1
Für n = 1 sind Quader Intervalle, und das Mass eines Quader ist einfach die Länge des
Intervalls.
82
Wir erinnern nun, dass eine Teilung vom Intervall [a; b] ⊂ R eine Menge T = {a =
a(0) < a(1) < a(2) < · · · < a(m) = b} ist. Die Teilung definiert eine Zerlegung vom Intervall [a; b] in den Teilintervalle I1 = [a(0) ; a(1) ], I2 = [a(1) ; a(2) ], . . . , Im = [a(m−1) ; a(m) ].
Wir benutzten den Begriff von Teilung eines Intervall in R um den allgemeineren Begriff
von Teilung eines Quaders.
Definition 4.2. Eine Teilung vom Quader
Q = [a1 ; b1 ] × [a2 ; b2 ] × · · · × [an ; bn ]
(0)
in Rn ist eine n-Tupel von 1-dimensionale Teilungen T1 , . . . , Tn , wobei Tj = {aj = aj
(m −1)
aj j
(1)
aj
<
(m )
aj j
< ··· <
<
= bj } eine Teilung von [aj ; bj ] ist, für alle j = 1, . . . , n. Eine
Teilung vom Quader Q definiert eine Zerlegung vom Quader in kleineren Teilquader,
gemäss
Q=
m2
m1 [
[
j1 =1 j2 =1
···
m
[n
(j −1)
[a1 1
(j −1)
(j )
; a1 1 ] × [a2 2
(j )
n −1)
n)
; a2 2 ] × · · · × [a(j
; a(j
n
n ]
jn =1
Wir bezeichnen mit Qj (T ) irgendeine Numerierung von diesen Teilquader. Dann gilt
Sn(T )
Q = j=1 Qj (T ), wobei n(T ) die gesamte Anzahl von Teilquadern ist, die zur Teilung
T entsprechen. Bemerke, dass Qi (T ) ∩ Qj (T ) nicht immer leer ist; es ist aber immer
ein Objekt mit kleinere Dimension, falls i 6= j (z.B. im Fall n = 1, berühren sich
Teilintervalle in ein Punkt). Es ist deswegen leicht zu überprüfen, dass
n(T )
µ(Q) =
X
µ(Qj (T ))
j=1
Sei nun Q ein Quader, T eine Teilung von Q und f eine beschränkte R-wertige Funktion auf Q.Wir definieren die zur Teilung T entsprechenden obere und untere Summe
von f auf Q durch
n(T )
S(f, Q, T ) =
X
sup{f (x) : x ∈ Qj (T )}µ(Qj (T ))
j=1
n(T )
S(f, Q, T ) =
X
inf{f (x) : xinQj (T )}µ(Qj (T ))
j=1
Es gilt immer:
S(f, Q, T ) ≤ S(f, Q, T )
Sei nun Q ein Quader und T eine Teilung von Q. Eine Verfeinerung von T ist eine
Teilung T 0 von Q so, dass jede Teilquader Qj (T 0 ) in einem Teilquader Qi (T ) enthalten
ist. Wie im Fall n = 1, es gilt:
• Sind T1 , T2 zwei Teilungen vom Quader Q, so existiert eine Teilung T3 so, dass T3
eine Verfeinerung von T1 und eine Verfeinerung von T2 ist.
83
• Ist T 0 eine Verfeinerung von T , dann ist
S(f, Q, T 0 ) ≤ S(f, Q, T ),
und
S(f, Q, T 0 ) ≥ S(f, Q, T )
• Für zwei beliebige Teilungen T1 , T2 gilt
S(T1 ) ≤ S(T2 ).
(50)
Um diese Behauptung zu zeigen, wählen wir einfach eine Teilung T3 , die gleichzeitig
eine Verfeinerung von T1 und von T2 ist. Dann bemerken wir einfach, dass S(T1 ) ≤
S(T3 ) ≤ S(T3 ) ≤ S(T2 ).
Wir sind nun bereits, das Riemann’sche Integral zu definieren.
Definition 4.3. Sei Q ⊂ Rn , und f eine beschränkte Funktion auf Q. Wir sagen, f ist
auf Q Riemann integrierbar, falls
sup S(f, Q, T ) = inf S(f, Q, T )
T
T
In diesem Fall definieren wir das Riemann’sche Integral von f auf Q durch
Z
f dx = sup S(f, Q, T ) = inf S(f, Q, T )
T
T
Q
Bemerkungen: 1) Aus (50) folgt immer, dass supT S(f, Q, T ) ≤ inf T S(f, Q, T ). So,
f ist genau dann integrierbar, wenn
sup S(f, Q, T ) ≥ inf S(f, Q, T )
T
T
Das impliziert, wie im Fall n = 1, dass f genau dann integrierbar ist, wenn eine Folge
von Teilungen Tk von Q existiert, mit
S(f, Q, Tk ) − S(f, Q, Tk ) → 0
(51)
2) eine Vektorwertige Funktion f : Q → Rp , gegeben in Komponenten durch f (x) =
(f1 (x), . . . , fp (x)) heisst auf Q integrierbar, falls jede Komponenten fj : Q → R Riemann
integrierbar ist. Das Riemann’sche Integral von f ist, in diesem Fall, das Vektor
Z
Z
Z
f dx =
f1 dx, . . . ,
fp dx
Q
Q
Q
3) Gemäss Definition, eine integrierbare Funktion ist immer beschränkt.
4) Wie in Fall n = 1 man kann Riemann Integrale mit Hilfe von Familien von
Representanten berechnen.
Beispiel: die konstante Funktion f (x) = 1 für alle x ∈ Q, so ist f über Q integrierbar
und
Z
1dx = µ(Q)
Q
Die folgenden Grundeigenschaften vom Riemann’sche Integral auf Rn sind eine einfache Verallgemeinerung der entsprechenden Begriffe für den Fall n = 1.
84
Proposition 4.4. Sei Q ⊂ Rn ein Quader. Es gilt:
a) Linearität: seien f, g integrierbar über Q, α, β ∈ R. Dann ist auch αf + βg über
Q integrierbar, und
Z
Z
Z
gdx
f dx + β
(αf + βg)dx = α
Q
Q
Q
b) Monotonie: seien f, g integrierbar über Q, f (x) ≤ g(x) für all x ∈ Q. Dann gilt
Z
Z
gdx
f dx ≤
Q
Q
c) Dreiecksungleichung: sei f integrierbar über Q. Dann ist auch |f | integrierbar über
Q und
Z
Z
f dx ≤
|f |dx
Q
Q
d) Sei f stetig auf Q. Dann ist f auch integrierbar über Q.
Bemerkung: Wie im Fall n = 1, gilt das folgende Kriterium für die Integrierbarkeit
eine beschränkte Funktion f : Q → R. A ⊂ Rn heisst eine Lebesgue Nullmenge, falls für
alle ε > 0 eine höchstens abzählbare Familie (Qj ) von abgeschlossener Quader existiert,
mit
[
X
A⊂
Qj und
µ(Qj ) < ε
j
j
Ein beschränkte Funktion f : Q → R ist genau dann auf Q integrierbar, wenn die Menge
{x ∈ Q : f ist unstetig a.d.S. x}
eine Lebesgue Nullmenge ist. Wir werden dieses Kriterium in dieser Vorlesung nicht
beweisen (ein Beweis kommt nächstes Semester in der Vorlesung Analysis 3).
Bemerkung: Mit dieser Definition kann man einfach zeigen, dass, wenn f und g
integrierbar über ein Quader Q sind, so ist auch das Produkt f · g integrierbar über Q.
Wie im Fall n = 1 ist das Integral des gleichmässigen Limes einer Folge integrierbarer Funktionen der Grenzwert der Integrale. Der Beweis der folgenden Proposition ist
ähnlich wie im Fall n = 1.
Proposition 4.5. Sei fn eine Folge von integrierbaren Funktionen über ein Quader
Q ⊂ Rn . Die Folge fn konvergiere gleichmässig auf Q gegen eine Funktion f . Dann
a) f ist über Q integrierbar.
b) Es gilt
Z
lim
Z
n→∞ Q
fn dx =
f dx
Q
Neben dem Begriff von Lebesgue Nullmenge, es gibt einen zweiten Begriff von Nullmenge, der eine wichtige Rolle spielt. Das ist der Begriff von Jordan Nullmenge.
85
Definition 4.6. Eine Menge A ⊂ Rn heisst eine Jordan Nullmenge falls, für alle ε > 0
eine endliche Familie (Qj ) existiert, mit
[
X
A⊂
Qj , und
µ(Qj ) < ε
j
j
Bemerkungen: 1) Jede Jordan Nullmenge ist auch eine Lebesgue Nullemenge. Die
Umkehrung gilt nicht, d.h. es existieren Lebesgue Nullmengen die nicht Jordan Nullmengen sind. Z.B. ist Q, die Menge der rationale Zahlen, gesehen als Teilmenge von R,
eine Lebesgue Nullmenge, aber keine Jordan Nullmenge.
2) Jede Teilmenge einer Jordan Nullmenge ist eine Jordan Nullmenge.
3) Eine endliche Vereinigung von Jordan Nullmengen ist wieder eine Jordan Nullmenge.
4) Jede endliche Menge ist eine Jordan Nullmenge.
5) Eine kompakte Lebesgue Nullmenge ist auch eine Jordan Nullmenge. Beweis:
Übung.
Proposition 4.7. Sei Q ⊂ Rn ein Quader.
a) Sei f : Q → R beschränkt, so dass
{x ∈ Q : f (x) 6= 0}
eine Jordan Nullmenge ist. Dann ist f Riemann integrierbar über Q und
Z
f dx = 0
Q
b) Seien f1 : Q → R integrierbar über Q und f2 : Q → R beschränkt, mit {x ∈ Q :
f1 (x) 6= f2 (x)} eine Jordan Nullmenge. Dann ist f2 auch integrierbar über Q und
Z
Z
f1 dx =
f2 dx
Q
Q
Mit anderer Wörter, Veränderung einer integrierbare Funktion auf einem Jordan
Nullmenge ändert weder die Integrierbarkeit der Funktion, noch den Wert des Integrals.
Um Prop. 4.7 zu beweisen, werden wir das folgende Lemma brauchen.
Lemma 4.8. Seien A, Q ⊂ Rn Quader, mit A ⊂ Q. Sei ϕA : Q → R, die charakteristische Funktion von A, definiert durch ϕA (x) = 1 falls x ∈ A und ϕA (x) = 0 sonst. Dann
ist ϕA integrierbar über Q und
Z
ϕA dx = µ(A)
Q
Beweis. Betrachte den Fall n = 2, Q = [a1 ; b1 ] × [a2 ; b2 ], A = [c1 ; d1 ] × [c2 ; d2 ], mit
a1 < c1 < d1 < b1 und a2 < c2 < d2 < b2 . Für ε > 0 klein genug, wir betrachten die
Teilung Tε,1 = {a1 < c1 − ε < c1 < d1 < d1 + ε < b1 } von [a1 ; b1 ] und die Teilung
Tε,2 = {a2 < c2 − ε < c2 < d2 < d2 + ε < b2 } von [a2 ; b2 ]. Tε,1 , Tε,2 induzieren eine
Teilung Tε vom Quader Q. Es gibt 8 Teilquader Qi , nämlich [c1 − ε; c1 ] × [c2 − ε; c2 ], [c1 −
86
ε; c1 ] × [c2 ; d2 ], [c1 − ε; c1 ] × [d2 ; d2 + ε], [c1 ; d1 ] × [c2 − ε; c2 ], [c1 ; d1 ] × [d2 ; d2 + ε], [d1 ; d1 +
ε] × [c2 − ε; c2 ], [d1 ; d1 + ε] × [c2 ; d2 ], [d1 ; d1 + ε] × [d2 ; d2 + ε], wo
sup{ϕA (x) : x ∈ Qi } = 1,
inf{ϕA (x) : x ∈ Qi } = 0
und
Das gesamte Mass dieser 8 Teilquader ist
8
X
µ(Qi ) = 2ε(d2 − c2 + 2ε) + 2ε(d1 − c1 ) = 2ε(d2 − c2 + d1 − c1 + 2ε)
i=1
In alle andere Teilquader ist sup{ϕA (x) : x ∈ Qi } = inf{ϕA (x) : x ∈ Qi }. Also
S(ϕA , Q, Tε ) − S(ϕA , Q, Tε ) = 2ε(d2 − c2 + 2ε) + 2ε(d1 − c1 ) = 2ε(d2 − c2 + d1 − c1 + 2ε)
und also
lim S(ϕA , Q, Tε ) − S(ϕA , Q, Tε ) = 0
ε→0
Das bedeutet, dass ϕA integrierbar ist, und, dass
Z
ϕA dx = lim S(ϕA , Q, Tε ) = µ(A)
ε→0
A
Beweis von Prop. 4.7. Wir nehmen zunächst an, dass 0 ≤ f (x) ≤ 1 for all x ∈ Q. Sei
ε > 0 und R1 , . . . , Rk Quadern, mit
k
[
{x ∈ Q : f (x) 6= 0} ⊂
Rj ,
und
j=1
k
X
µ(Rj ) < ε
j=1
P
Wir setzen g(x) = kj=1 ϕRj (x), wo ϕRj ist die charakteristische Funktion vom Quader
Rj . Wir behaupten nun, dass 0 ≤ f (x) ≤ g(x) für alle x ∈ Q. Gilt f (x) = 0, dann ist die
Ungleichung 0 ≤ f (x) ≤ g(x) klar. Ist dagegen f (x) 6= 0, dann existiert j ∈ {1, . . . , k}
so, dass x ∈ Rj . Damit ist g(x) ≥ ϕRj (x) = 1 ≥ f (x). Anderseits, es folgt aus Lemma
4.8, dass g integrierbar ist, und, dass
Z
gdx =
Q
k Z
X
j=1
ϕRj dx =
Q
k
X
µ(Rj ) < ε
j=1
Das bedeutet, es existiert eine Teilung T mit S(g, Q, T ) < ε. Aus 0 ≤ f (x) ≤ g(x), muss
auch S(f, Q, T ) < ε. Da S(f, Q, T ) ≥ 0, und da ε > 0 beliebig ist, ist f integrierbar und
Z
f dx = 0
Q
Nun, wir nehmen an, f ist eine beschränkte Funktion mit {x ∈ Q : f (x) 6= 0} eine
Jordan Nullmenge und mit f (x) ≥ 0 für alle x ∈ Q. Dann existiert auch ein M > 0 mit
0 ≤ f (x) ≤ M , für ein M > 0. Dann 0 ≤ f (x)/M ≤ 1 und {x ∈ Q : f (x)/M 6= 0} ist
87
eine Jordan Nullmenge. Wir haben oben bewiesen, dass f (x)/M ist integrierbar und,
dass
Z
f (x)
dx = 0
Q M
R
Das impliziert auch, dass Q f dx = 0.
Schlussendlich, nehmen wir an, f ist eine beschränkte Funktion auf Q mit {x ∈ Q :
f (x) 6= 0} eine Jordan Nullmenge. Wir zerlegen dann f = f+ − f− , mit
f (x), falls f (x) ≥ 0
f+ (x) =
0, sonst
−f (x), falls f (x) ≤ 0
f− (x) =
0, sonst
Dann gilt f+ , f− ≥ 0,
{x ∈ Q : f+ (x) 6= 0}, {x ∈ Q : f− (x) 6= 0}
sind beide Jordan Nullmenge. Wir haben oben gezeigt, dass f+ , f− integrierbar sind,
mit
Z
Z
f+ dx =
f− dx = 0
Q
Q
Aus Linearität ist auch f = f+ − f− integrierbar und
R
Q f dx
= 0.
Proposition 4.9. Sei Q ⊂ Rn ein Quader, A ⊂ Q. Dann ist A eine Jordan Nullmenge
genau dann, wenn die charakteristische Funktion ϕA von A integrierbar ist, mit
R
Q ϕA dx = 0.
Beweis. Prop.
R ist ϕA inteR 4.7 impliziert, dass, wenn A eine Jordan Nullmenge ist, so
griebar und Q ϕA dx = 0. Nehmen wir nun an ϕA ist integrierbar, mit Q ϕA dx = 0.
Wir möchten zeigen, dass A eine Jordan Nullmenge ist. Dazu wählen wir ε > 0 und wir
finden eine Teilung T von Q mit Teilquader {Q1 , . . . , Qk } so, dass
S(ϕA , Q, T ) =
k
X
sup{ϕA (x) : x ∈ Qj }µ(Qj ) ≤ ε
j=1
Wir bemerken, dass
sup{ϕA (x) : x ∈ Qj } =
1,
0,
falls A ∩ Qj =
6 ∅
falls A ∩ Qj = ∅
Also
X
µ(Qj ) ≤ ε
j:A∩Qj 6=∅
Damit ist {Qj : A ∩ Qj 6= ∅} eine endliche Familie von Quader, die A überdeckt und
mit gesamten Mass kleiner oder gleich zu ε. Da ε > 0 beliebig ist, ist A eine Jordan
Nullmenge.
88
Im nächsten Satz zeigen wir, dass das Bild einer Nullmenge, bezüglich eine Lipschitz
stetige Abbildung wieder eine Nullmenge ist. Wir erinnern hier, dass eine Funktion
f : M1 → M2 zwischen zwei metrischen Räume M1 , M2 Lipschitz stetig heisst, falls eine
Konstante λ > 0 existiert, mit dM1 (f (x), f (y)) ≤ λdM2 (x, y) für alle x, y ∈ M1 .
Satz 4.10.
a) Sei X ⊂ Rn eine Jordan Nullmenge und f : X → Rn Lipschitz stetig.
Dann ist f (X) ebenfalls eine Jordan Nullmenge.
b) Sei d < n, X ⊂ Rd beschränkt und f : X → Rn Lipschitz stetig. Dann ist f (X) ⊂
Rn eine Jordan Nullmenge.
c) Sei d < n und G ⊂ Rd offen. f : G → Rn stetig differenzierbar, X ⊂ G kompakt.
Dann ist f (X) eine Jordan Nullmenge.
Um den Satz zu beweisen, brauchen wir das folgende Lemma.
Lemma 4.11. Sei Q ⊂ Rn ein Quader, mit µ(Q)
P< κ. Dann existiert eine endliche
Überdeckung von Q durch Würfel W1 , . . . , Wk mit kj=1 µ(Wj ) < κ.
Beweis. Sei ε > 0 fest. Wir teilen Rn in einem regelmässigen Gitter von kleinen Würfel
mit Kantenlänge ε. Seien W1 , . . . , Wk die Würfel, die Q schneiden. Ist Q = [a1 ; b1 ] ×
[a2 ; b2 ] × · · · × [an ; bn ], dann gilt
k
X
j=1
µ(Wj ) ≤
n
Y
(bj − aj + 2ε) < κ
j=1
falls ε > 0 klein genug ist.
Wir können nun Satz 4.10 beweisen.
Beweis von Satz 4.10. a) Sei X ⊂ Rn eine Jordan Nullmenge und ε > 0 fest. Aus
Lemma
4.11 folgt,
Pk dass eine endliche Familie von Würfel W1 , . . . , Wk existiert, mit X ⊂
Sk
W
und
j
j=1 µ(Wj ) < ε. O.B.d.A. können wir annehmen, dass Wi ∩X 6= ∅ für alle
j=1
i = 1, . . . , k; also für alle i = 1, . . . , k finden wir xi ∈ Wi ∩ X. Sei nun λ eine Lipschitz
Konstante für f : X → Rn , d.h. es gelte kf (x) − f (y)k ≤ λkx − yk für alle x, y ∈ X.
Wir behaupten nun, dass, für alle i = 1, . . . , k, f (Wi ∩X) ⊂ Ŵi , wobei Ŵi der Würfel
√
mit Mittelpunkt f (xi ) und Kantenlänge 2λ n`i , mit `i die Kantenlänge von Wi . Um
√
diese Behauptung zu zeigen, bemerken wir, dass für alle x ∈ Wi ist kx − xi k ≤ n`i .
√
Ist x ∈ Wi ∩ X, dann impliziert die Lipschitz Bedingung, dass kf (x) − f (xi )k ≤ λ n`i .
Das bedeutet, dass f (x) ∈ Ŵi .
Nun abschätzen wir
√
√
µ(Ŵi ) = (2λ n`i )n = (2λ n)n µ(Wi )
S
S
Da f (X) ⊂ kj=1 f (Wi ∩ X) ⊂ kj=1 Ŵj und da
k
X
j=1
k
X
√
√
µ(Wj ) ≤ (2λ n)n ε
µ(Ŵj ) = (2λ n)n
j=1
89
Das zeigt, dass f (X) eine Jordan’sche Nullmenge ist.
b) X ⊂ Rd beschränkt, mit d < m. O.B.d.A. können wir annehmen, dass X ⊂ [0; 1]d .
Wir identifizieren [0; 1]d mit der Teilmenge [0; 1]d × {0, 0, . . . , 0} ⊂ Rn (die Abbildung
ist aus (x1 , . . . , xd ) → (x1 , . . . , xd , 0, 0, . . . , 0) gegeben). Nach dieser Identifizierung ist
X ⊂ Rn eine Nullmenge (weil {(x1 , . . . , xn ) : xd+1 = xd+2 = · · · = xn = 0} eine Jordan
Nullmenge ist). Die Behauptung folgt also aus a).
c) Sei G ⊂ Rd offen und Q ⊂ G ein Quader. Wir behaupten, dass f auf Q Lipschitz
stetig ist. Das folgt weil x → kDf (x)k stetig ist und deswegen auf Q beschränkt, d.h.
es existiert M > 0 mit kDf (x)k ≤ M für alle x ∈ Q. Die Mittelwertabschätzung (und
die Tatsache, dass Q konvex ist) impliziert, dass kf (x) − f (y)k ≤ M kx − yk für alle
x, y ∈ Q, wie behauptet.
Für x ∈ X sei nun Qx ein Quader mit Mittelpunkt x und mit Qx ⊂ G. {Q◦x : x ∈ X}
ist eine offene Überdeckung von X. Da X kompakt ist, existieren endlich viele Punkten
x1 , . . . , xm ∈ X mit
X ⊂ Q◦x1 ∪ Q◦x2 ∪ · · · ∪ Q◦xm
Dann ist
m
[
X⊂
(X ∩ Qxj )
j=1
und
f (X) ⊂
m
[
f (X ∩ Qj )
j=1
Da f auf Qj Lipschitz stetig ist, folgt aus b), dass f (X ∩ Qj ) eine Nullmenge ist. Dann
ist auch
m
[
f (X ∩ Qj )
j=1
als endliche Vereinigung von Jordan Nullmengen wieder eine Nullmenge. Also, f (X) ist
auch eine Nullmenge.
Sei f : Rn → R eine Funktion. Wir bezeichnen mit
supp(f ) := {x ∈ Rn : f (x) 6= 0}
der Träger von f (bemerke, der Träger ist der Abschluss von der Menge aller Punkten
wo f nicht verschwindet; der Träger ist also immer eine abgeschlossene Menge).
Proposition 4.12. Sei f : Rn → R eine beschränkte Funktion mit kompakten Träger
(d.h. der Träger ist beschränkt). Seien Q1 , Q2 Quader mit supp f ⊂ Q1 ∩ Q2 . Dann ist
f über Q1 integrierbar genau dann wenn f ist über Q2 integrierbar. Ist das der Fall, so
gilt
Z
Z
f dx =
Q1
f dx
Q2
Der Beweis lassen wir als Übung. Die letzte Proposition gibt uns die Möglichkeit das
Integral einer beschränkten Funktion mit kompakten Träger unabhängig vom Quader
zu definieren, wo integriert wird. Sei nämlich f : Rn → R eine beschränkte Funktion mit
90
kompakten Träger. Wir sagen f ist über Rn integrierbar, wenn f über Q integrierbar
ist, für ein Quader Q mit supp f ⊂ Q. In diesem Fall definieren wir
Z
Z
Z
f dx
f dx :=
f dx ≡
Rn
Q
Die Definition ist wegen Proposition 4.12 unabhängig von der Wahl vom Quader Q
(natürlich unter der Annahme, dass supp f ⊂ Q). Dieser Definition kann auch benutzt
werden, um das Integral von f auf einem beliebigen Gebiet in Rn zu definieren. Sei
A ⊂ Rn und sei ϕA die charakteristische Funktion von A (d.h. ϕA (x) = 1, falls x ∈ A,
und ϕA (x) = 0 sonst). Sei weiter f eine Funktion definiert mindestens auf A und mit
kompakten Träger (die Annahme von kompakten Träger ist nicht notwendig, falls die
Menge A beschränkt ist). Wir sagen, dass f über A integrierbar ist, falls ϕA · f auf Rn
integrierbar ist. In diesem Fall setzen wir
Z
Z
ϕA · f dx
f dx :=
A
Rn
Definition 4.13. Eine Menge A ⊂ Rn heisst Jordan messbar, falls die charakteristische
Funktion ϕA von der Menge A (definiert durch ϕA (x) = 1 falls x ∈ A und ϕA (x) = 0
sonst) auf Rn integrierbar ist. In diesem Fall definieren wir das Jordan Mass von A
durch
Z
µ(A) = ϕA dx
Das Jordan Mass µ, das ursprünglich nur für Quader definiert war, wird somit auf
viel mehr Mengen verallgemeinert. In 2 und 3 Dimensionen, das Jordan Mass wird als
Flächeninhalt, bzw. Volumen, interpretiert.
Das Jordan Mass hat die folgende Eigenschaften.
Proposition 4.14. Seien A1 , A2 Jordan messbar.
a) Dann sind auch A1 ∪ A2 , A1 ∩ A2 , A1 \A2 Jordan messbar.
b) Gilt µ(A1 ∩ A2 ) = 0 so gilt µ(A1 ∪ A2 ) = µ(A1 ) + µ(A2 ).
c) Ist A1 ⊂ A2 so gilt µ(A1 ) ≤ µ(A2 ).
d) Ist f integrierbar über B und A ⊂ B Jordan messbar, so ist f auch integrierbar
über A.
Die Beweise folgen aus einfache Eigenschaften der charakteristische Funktionen.
Es gibt zwei Kriterien, die wichtig sind, um zu entscheiden, ob eine Menge A Jordan
messbar ist oder nicht.
Satz 4.15. Eine beschränkte Menge A ist Jordan messbar genau dann, wenn ∂A eine
Jordan Nullmenge ist.
Beweis. Die charakteristische Funktion ϕA ist unstetig genau auf ∂A. ϕA ist also genau
dann integrierbar, falls ∂A eine Lebesgue Nullmenge ist. Da aber ∂A kompakt ist (nach
Definition, ∂A = A\A◦ ist immer abgeschlossen; da wir angenommen haben, dass A
beschränkt ist, ist ∂A auch kompakt), ist ∂A eine Lebesgue Nullmenge genau dann,
wenn ∂A eine Jordan Nullmenge ist.
91
Das zweite Kriterium für Messbarkeit einer Menge A ⊂ Rn werden wir nicht beweisen. Das Kriterium ist oft nützlich, weil es erlaubt uns messbare Mengen durch Familien
von fast disjunkten Quader zu approximieren.
Proposition 4.16. Sei A ⊂ Rn beschränkt. Dann ist A genau dann Jordan messbar
wenn für alle ε > 0 zwei endliche Familie von fast disjunkten Quader (d.h. disjunkt, bis
auf Nullmengen) Q1 , . . . , Qk und Q01 , . . . , Q0` existieren, mit
Q1 ∪ Q2 ∪ · · · ∪ Qk ⊂ A ⊂ Q01 ∪ Q02 ∪ · · · ∪ Q0`
und mit
`
X
µ(Q0i )
−
i=1
k
X
µ(Qj ) ≤ ε
j=1
Ist A Jordan messbar, so gilt auch


k
X

µ(A) = sup
µ(Qj ) : Q1 ∪ · · · ∪ Qk ⊂ A und


j=1
( `
)
X
µ(A) = inf
µ(Q0i ) : Q01 ∪ · · · ∪ Q0` ⊃ A
i=1
4.2
Iterierte Integrale und der Satz von Fubini
Das Haupttheorem der Integralrechnung erlaubt uns Integrale von Funktionen einer
Variablen zu berechnen. Im Fall mehrere Variablen, kann man oft Integrale berechnen,
indem man sie als iterierte ein-dimensionale Integrale schreibt. Dazu braucht man den
folgenden Satz.
Satz 4.17 (Satz von Fubini). Seien p, q ∈ N, und m = p + q. Seien P ⊂ Rp und Q ⊂ Rq
Quader. Sei M = P × Q das entsprechende Quader in Rm = Rp × Rq . Sei f integrierbar
über M und sei f (x, y), als Funktion von y mit festgehaltene x, integrierbar über Q, für
alle feste x ∈ P . Dann ist die Funktion
Z
F (x) =
f (x, y)dy
Q
wohldefiniert, für alle x ∈ P , und es gilt:
a) F ist auf P integrierbar.
b)
Z
f (x, y)dxdy =
M
Z Z
Z
F (x)dx =
P
f (x, y)dy dx
P
Q
Beweis. Eine Teilung TM vom Quader M = P × Q entspricht zu zwei Teilungen TP vom
Quader P und TQ vom Quader Q. Wir bezeichnen mit P1 , . . . , Pnp die Teilquader von P
und mit Q1 , . . . , Qnq die Teilquader von Q, definiert aus der Teilung TQ . Die Teilquader
92
von M , definiert aus der Teilung T , haben dann die Form Pi × Qj , mit i = 1, . . . , np ,
j = 1, . . . , nq . Wir setzen
fij = sup{f (x, y) : x ∈ Pi , y ∈ Qj }
Die zur Teilung TM entsprechende Obersumme ist
S(f, M, TM ) =
X
fij µ(Pi × Qj ) =
i,j
X


np
nq
X
X

fij µ(Pi )µ(Qj ) =
fij µ(Qj ) µ(Pi )
i,j
i=1
j=1
Nun bemerken wir, dass, für alle feste x ∈ Pi ist
fij ≥ f (x, y)
für alle y ∈ Qj
Das impliziert, dass, für alle feste x ∈ Pi ,
fij ≥ sup{f (x, y) : y ∈ Qj }
Deswegen
nq
X
fij µ(Qj ) ≥
j=1
nq
X
Z
sup{f (x, y) : y ∈ Qj }µ(Qj ) = S(f (x, .), Q, TQ ) ≥
f (x, y)dy = F (x)
Q
j=1
für alle x ∈ Pi . Also
nq
X
fij µ(Qj ) ≥ sup{F (x) : x ∈ Pi }
j=1
Damit gilt


np
nq
np
X
X
X


fij µ(Qj ) µ(Pi ) ≥
sup{F (x) : x ∈ Pi }µ(Pi ) = S(F, P, TP )
i=1
j=1
i=1
Wir haben gezeigt, dass
S(f, M, TM ) ≥ S(F, P, TP )
Analog gilt
S(f, M, TM ) ≤ S(F, P, TP )
Also:
S(f, M, TM ) ≤ S(F, P, TP ) ≤ S(F, P, TP ) ≤ S(f, M, TM )
Aus Annahme ist f auf M integrierbar. Deswegen muss
Z
sup S(f, M, TM ) = inf S(f, M, TM ) =
TM
TM
f dxdy
M
Die Ungleichungen (52) implizieren also, dass
sup S(F, P, TP ) = inf S(F, P, TP )
TP
TP
Das zeigt, dass F über P integrierbar ist, und, dass
Z
Z
F dx =
f dxdy
P
M
93
(52)
Beispiel: zum Beispiel, falls g : P → R integrierbar über den Quader P ⊂ Rp , und
h : Q → R integrierbar über den Quader Q ⊂ Rq , dann ist die Funktion P × Q → R,
definiert durch (x, y) → g(x)h(y) integrierbar über M = P × Q (das Produkt von zwei
Riemann integrierbare Funktionen ist integrierbar, siehe Bemerkung nach Prop. 4.4).
Der Satz von Fubini impliziert dann, dass
Z
Z
Z
g(x)h(y)dxdy =
gdx
hdy
P ×Q
P
Q
Als Anwendung können wir das Volumen der drei-dimensionale Kugel berechnen.
Sei
B = Br = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ r2 }
Das Volume der Kugel Br ist gegeben aus
Z
Z r Z
ϕB dxdydz =
x2 +y 2 ≤r2 −z 2
"Z √ 2 2 "Z
r
r −z
−r
Z
=
√
− r2 −z 2
"Z √ 2 2
r
r −z
−r
Z
=
√
− r2 −z 2
−r
Z
=π
1dxdy dz
√
−
r2 −z 2 −y 2
√
#
#
dx dy dz
r2 −z 2 −y 2
#
p
2 r2 − z 2 − y 2 dy dz
r
4
(r2 − z 2 )dz = πr3
3
−r
Als weitere Anwendung berechnen wir das Volumen von Rotationskörper. Sei B die
Teilmenge von R3 erzeugt durch Rotation von {(0, y, z) : a ≤ z ≤ b, 0 ≤ y ≤ f (z)} um
die z-Achse. Wir nehmen an, f sei stetig. Dann ist B sicher messbar. Das Volumen von
B ist gegeben aus
Z
Z b Z
µ(B) = ϕB dxdydz =
ϕBz dxdy dz
a
wo wir Bz = {(x, y) : x2 + y 2 ≤ f (z)2 } gesetzt haben. Es gilt µ(Bz ) = πf 2 (z). Deswegen
Z
b
µ(B) =
πf 2 (z)dz
a
√
Mit f (z) = r2 − z 2 , a = −r und b = r finden wir wieder die Formel für das Volumen
der Kugel mit Radius r.
Als letzte Anwendung vom Satz von Fubini zeigen wir, wie man Integrale mit Hilfe
von Polarkoordinaten berechnen kann. Wir betrachten eine Funktion g definiert auf R2 .
Wir nehmen aber an, g sei rotationsinvariant, d.h. g(x, y) ist nur eine Funktion von
x2 + y 2 . Mit anderer Wörter, wir nehmen
p an es existiert eine Funktion f , definiert auf
R+ = {x ∈ R : x ≥ 0}, mit g(x, y) = f ( x2 + y 2 ). Wir behaupten, dass, falls f stetig
auf [0; a], dann
Z
Z
a
f (kxk)dx = 2π
{x∈R2 :kxk≤a}
rf (r)dr
0
94
(53)
Um (53) zu zeigen, setzen wir
Z
f (kxk)dx
F (r) =
{x:kxk≤r}
und wir beweisen, dass F 0 (r) = 2πrf (r). Da F (0) = 0, das impliziert (53). Sei h > 0
klein genug, dann haben wir
Z
f (kxk)dx = πf (r) (r + h)2 − r2
F (r + h) − F (r) =
{r<kxk≤r+h}
Z
[f (kxk) − f (r)] = 2πrf (r)h + o(h)
+
{r<kxk≤r+h}
Also
lim
h→0+
F (r + h) − F (r)
= 2πrf (r)
h
Der Fall h < 0 kann analog behandelt werden. Damit gilt F 0 (r) = 2πrf (r).
4.3
Variablentransformationen
Eine wichtige Hilfsmittel zur Berechnung von Integrale in einer Dimension ist die Substitutionsformel. Das Analog in höheren Dimensionen wird in diesem Abschnitt diskutiert.
Die erste Bemerkung ist, dass das Riemann’sche Integral translationsinvariant ist.
Proposition 4.18.
a) Sei f Riemann integrierbar über Rn und a ∈ Rn . Dann ist
die Funktion fa , definiert durch fa (x) := f (x − a) auch integrierbar und
Z
Z
fa dx = f dx
b) Sei A ⊂ Rn Jordan messbar, a ∈ Rn . Dann ist auch die Menge A + a = {x + a :
x ∈ A} ⊂ Rn Jordan messbar und es gilt µ(A + a) = µ(A).
Der Beweis dieser Proposition ist eine Folgerung der Tatsache, dass das Mass von
Quader translationsinvariant ist. Wir lassen die Details als Übung.
Proposition 4.18 besagt insbesondere, dass Volumen bei Translationen unverändert
bleiben. Die nächste Frage ist was passiert zu Volumen, wenn man eine allgemeine lineare
Transformation anwendet (eine Translation ist ein Beispiel).
Satz 4.19. Sei L : Rn → Rn eine lineare Abbildung, A ⊂ Rn Jordan messbar. Dann ist
L(A) = {L(x) : x ∈ A} Jordan messbar und
µ(L(A)) = |det L| µ(A)
(54)
Beweis. Ist L nicht invertierbar, so gilt, einerseits, det L = 0. Anderseits ist L(Rn ) ein
Unterraum von Rn mit Dimension kleiner als n; deswegen ist L(A) eine Nullmenge und
µ(L(A)) = 0. Damit ist die Formel (54) sicher erfüllt, im Fall L nicht invertierbar.
O.B.d.A. können wir also annehmen, dass L invertierbar ist.
95
Durch elementare Operationen auf Zeilen (Vertauschung von Zeilen oder Addition von Vielfachen von Zeilen) kann die Matrix L in der Form einer oberen Dreiecksmatrix gebracht werden. Durch elementare Spalten Operation kann die ober Dreiecksmatrix dann zu einer Diagonalmatrix gebracht werden. Mit anderen Wörter kann
L = M1 M2 . . . Mk als endliches Produkt von Matrixen Mj geschrieben werden. Jede Mj
ist entweder eine Permutationsmatrix der Form (diese Matrix vertauscht die i-te und
die j-te Zeile oder Spalte)


1
0 ... 0
... 0 ... 0
 0
1 ... 0
... 0 ... 0 


 ...
... ...
... 


 0
0 ... 0
... 1 ... 0 


Pij = 

.
.
.
.
.
.
.
.
.
.
.
.


 0
0 ... 1
... 0 ... 0 


 ...
... ...
... 
0
0 ...
0
...
0 ...
1
oder die Matrix



S(α) = 


1
α
0
...
0
0 0
1 0
0 1
...
0 0
...
...
...
...
0
0
0
...
1






oder eine diagonale Matrix. Um den Satz zu beweisen, genügt es zu zeigen, dass
µ(M (A)) = |det M |µ(A)
(55)
für M eine Permutationsmatrix, M = S(α) und für M eine Diagonalmatrix.
A Jordan messbar impliziert, dass, für alle ε > 0 existieren Quader-gebäude, d.h.
Vereinigungen von endlich viele paarweise fast disjunkten Quader, B− , B+ mit B− ⊂
A ⊂ B+ und µ(B+ ) − µ(B− ) ≤ ε. Aus diesem Grund, es genügt (55) für Quader zu
zeigen.
Sei also A ein Quader und


d1 0
... 0
 0 d2 . . . 0 

M =


... ...
0 0
. . . dn
eine diagonale Matrix, mit d1 , d2 , . . . , dn ∈ R\{0} (wir haben angenommen, L sei invertierbar; der Eigenwert 0 ist also nicht erlaubt). Wenn A ein Quader mit Kantenlängen
`1 , `2 , . . . , `n ist, so ist M (A) wieder ein Quader mit Kantenlänge |d1 |`1 , |d2 |`2 , . . . , |dn |`n .
Das Volumen von M (A) ist also
µ(M (A)) =
n
Y
|dj |`j = |det M | µ(A)
j=1
und (55) ist erfüllt.
96
Sei nun A ein Quader und M die Permutationsmatrix Pij . Einerseits ist det Pij = 1.
Anderseits, falls A ein Quader mit Kantenlängen `1 , . . . , `i , . . . , `j , . . . , `n so ist M (A)
ein Quader mit Kantenlängen `1 , . . . , `j , . . . , `i , . . . , `n . Also µ(M (A)) = µ(A) und (55)
ist auch in diesem Fall erfüllt.
Schlussendlich betrachten wir den Fall M = S(α). Da S(α) nur auf den ersten zwei
Koordinaten wirkt, können wir o.B.d.A. annehmen, dass n = 2. Dann ist
x
x
S(α)
=
y
y + αx
O.B.d.A. können wir auch annehmen, dass A = [0; a] × [0; b]. Dann ist
Z
µ(M (A)) =
Z
a Z αx+b
dy dx = ab = µ(A)
ϕM (A) dxdy =
0
αx
Da det S(α) = 1, das Resultat ist, auch in diesem Fall, mit (55) kompatibel.
Jetzt untersuchen wir, wie das Volumen ändert, bei einem allgemeinen Diffeomorphismus (lineare invertierbare Abbildung sind ein Beispiel).
Proposition 4.20. Seien U, V ⊂ Rn offene Teilmengen, f : U → V ein C 1 Diffeomorphismus. W ein abgeschlossenen Würfel in U . Dann ist f (W ) ⊂ V Jordan messbar
und
Z
µ(f (W )) =
|det(Df (x))| dx
W
Die letzte Proposition ist ein speziall Fall vom nächsten wichtigen Satz.
Satz 4.21 (Variablentransformation Formel). Seien U, V ⊂ Rn offen, f : U → V ein
C 1 -Diffeomorphismus. Sei ψ : V → R Riemann integrierbar, mit supp(ψ) ⊂ V kompakt.
Dann ist ψ ◦ f : U → R integrierbar über U und
Z
Z
ψ(f (x))| det(Df (x))|dx =
ψ(y)dy
(56)
U
V
Bemerkung: die Formel (56) besagt, dass bei Variablentransformationen, das Differential gemäss dy = | det(Df (x))|dx geändert werden muss. Die Funktion J(x) =
| det(Df (x))| heisst das Jacobian der Variablentransformation f und beschreibt die lokale Änderung des Volumen bei der Transformation. Die Formel (56) ist das Analog vom
Substitutionsformel im Fall n = 1 (in diesem Fall ist det(Df (x)) = f 0 (x)). Die Formel
ist sehr nützlich falls die Funktion, die wir integrieren wollen, Symmetrien ausweist;
dann ist oft einfacher das Integral in verschiedenen Koordinaten zu berechnen.
Wir werden weder Satz 4.21 noch sein Spezialfall, Proposition 4.20, hier beweisen.
Die Idee ist das Integrationvolumen in so kleinen Teilen zu zerlegen, dass in jedem
kleinen Volumenteil, die Transformation f durch die lineare Transformation f (x) '
f (x0 ) + Df (x0 )(x − x0 ) approximiert werden kann. Dann kann man Satz 4.19 anwenden.
Satz 4.19 erklärt die Erscheinung vom Determinant in (56). Die Details lassen wir weg
(im nächsten Semester, in der Vorlesung Analysis 3, wird ein ähnliches Resultat bewiesen
für das Lebesgue Integral, eine Verallgemeinerung des Riemann’sche Integral).
97
Als erste Anwendung von Variablentransformationsformel diskutieren wir Polarkoordinaten in R2 . Wir definieren f : (0; ∞) × (−π; π) → R2 \(−∞; 0] × {0} durch
f (r, θ) = (r cos θ, r sin θ). Mit dieser Definition ist einfach zu sehen, dass f ein Diffeomorphismus ist (im Range von f wird die negative x-Achse weggelassen, die zur Wahl
θ = π entsprechen würde; das ist notwendig damit f ein Diffeomorphismus ist). Wir
berechnen das Jacobian dieser Variablentransformation. Wir haben
cos θ −r sin θ
Df (r, θ) =
sin θ r cos θ
Wir finden
det(Df (r, θ)) = r
Satz 4.21 impliziert, dass, falls ψ : R2 → R integrierbar ist, mit supp(ψ) ⊂ R2 \(−∞, 0]×
{0}, dann gilt
Z
Z
Z
ψ(r cos θ, r sin θ)rdrdθ (57)
ψ(f (r, θ))rdrdθ =
ψdxdy =
(0;∞)×(−π;π)
(0;∞)×(−π;π)
Tatsächlich kann man (57) auch anwenden, falls die Bedingung supp(ψ) ⊂ R2 \(−∞; 0]
nicht erfüllt ist. Die Gleichung (57) gilt also für alle ψ integrierbar (der Beweis benutzt
ein Approximationsargument).
p
Insbesondere, falls ψ(x, y) = ϕ( x2 + y 2 ) nur vom Abstanz vom Punkt (x, y) zur
Ursprung abhängt, dann impliziert (57), dass
Z
Z
Z ∞
ψdxdy =
ϕ(r)rdrdθ = 2π
ϕ(r)rdr
(0;∞)×(−π;π)
0
Beispiel: Wir möchten berechnen
Z
∞
I=
e−x
2 /2
dx
−∞
Wir bemerken, dass
Z
2
I =
∞
e
−x2 /2
Z
dx
−∞
∞
−y 2 /2
e
Z
dy =
e−(x
2 +y 2 )/2
dxdy
R2
−∞
Mit Hilfe von Polarkoordinaten finden wir
Z ∞
Z
2
I 2 = 2π
e−r /2 rdr = 2π
0
∞
e−z dz = 2π
0
√
Also I = 2π.
In 3 Dimensionen kann man Zylinderkoordinaten einführen. Wir definieren hier f :
(0; ∞) × (−π; π) × R → R3 \(−∞; 0] × {0} × R durch
f (r, θ, z) = (r cos θ, r sin θ, z)
Das Jacobian ist, wie bei Polarkoordinaten in zwei Dimensionen,
det(Df (r, θ, z)) = r
98
Also, für eine integrierbare Funktion ψ, mit supp(ψ) ⊂ R3 \(−∞; 0] × {0} × R, es folgt
aus (56), dass
Z
Z
ψ(r cos θ, r sin θ, z)rdrdθdz
(58)
ψ(x, y, z)dxdydz =
R3
(0;∞)×(−π;π)×R
Wie im Fall von Polarkoordinaten, mit Hilfe eines Approximationsargument kann man
auch hier zeigen, dass (58) für allgemeine integrierbare Funktionen ψ gilt; die Bedingung
supp(ψ) ⊂ R3 \(−∞, 0] × {0} × R ist nicht notwendig.
Andere wichtige Koordinaten in 3 Dimensionen sind Kugelkoordinaten, oder sphärische Koordinaten. Wir definieren f : (0∞) × (0; π) × (−π; π) → R3 \(−∞; 0] × {0} × R
durch
f (r, θ, ϕ) = (r sin θ cos ϕ, r sin θ sin ϕ, r cos θ)
f ist dann ein Diffeomorphismus, und


sin θ cos ϕ r cos θ cos ϕ −r sin θ sin ϕ
Df (r, θ, ϕ) =  sin θ sin ϕ r cos θ sin ϕ r sin θ cos ϕ 
cos θ
−r sin θ
0
Damit ist
det(Df (r, θ, ϕ)) = r2 sin θ
Für eine integrierbare Funktion ψ, mit supp(ψ) ⊂ R3 \(−∞; 0] × {0} × R finden wir also
Z
ψ(x, y, z)dxdydz
R3
Z
=
(ψ ◦ f )(r, θ, ϕ) r2 sin θ drdθdϕ
(0;∞)×(0;π)×(−π;π)
Z
=
ψ(r sin θ cos ϕ, r sin θ sin ϕ, r cos θ)r2 sin θdrdθdϕ
(0;∞)×(0;π)×(−π;π)
Beispiel: wir berechnen noch einmal das Volumen BR der drei-dimensionale Kugel
von Radius R. Es gilt
Z
p
Br =
χ
x2 + y 2 + z 2 dxdydz
R3
wobei χ(s) = 1 falls s ≤ R und χ(s) = 0 falls s > R. Mit Kugelkoordinaten finden wir
Z
Br =
Z
2
χ(r)r sin θdrdθdϕ = 2π
(0;∞)×(0;π)×(−π;π)
π
Z
sin θdθ
0
R
2
r dr = 4π
0
R3
3
Die Berechnung mit Kugelkoordinaten ist viel einfacher, weil wir die Symmetrien vom
Problem ausnützen.
99
4.4
Länge und Flächeninhalt
Betrachte eine parametrisierte Kurve γ : [a; b] → Rn , definiert auf einem Intervall [a; b].
Nehmen wir zunächst an, dass γ stetig differenzierbar ist. Um die Länge von der Kurve
γ zu berechnen, kann man eine Teilung T = {a = t0 < t1 < · · · < tm = b} vom Intervall
betrachten, und die Länge der gerade Strecke zwischen x(ti ) und x(ti+1 ) aufsummieren.
D.h. eine Approximation der Länge ist durch
n
X
kx(ti ) − x(ti−1 )k
i=1
gegeben. Wenn man eine Verfeinerung von T betrachtet, die entsprechende Approximation für die Länge der Kurve wird, wegen der Dreiecksungleichung, immer grösser. Wir
definieren also die Länge der Kurve als
L = sup
T
n
X
kx(ti−1 ) − x(ti )k
(59)
i=1
Es ist dann einfach zu überprüfen, dass (unter den Annahmen, dass γ stetig differenzierbar ist), dass die Länge L immer endlich ist, und durch das Integral
Z b
L=
kγ 0 (t)kdt
(60)
a
dargestellt werden kann. Hier ist γ 0 (t) die Ableitung vom Vektor γ(t) (berechnet komponentenweise). Man bemerke, dass das Integral auf der rechten Seite von (60) ein
eindimensionales Integral ist.
Man bemerke auch, dass die Definition (60) unabhängig von der Parametrisierung
der Kurve ist. Sei nämlich ψ : [c; d] → [a; b] eine monoton steigende injektive und
differenzierbare Funktion. Wir definieren die parametrisierte Kurve γ
e : [c; d] → Rn
durch γ
e(t) = γ(ψ(t)). Dann gilt
γ
e0 (t) = γ 0 (ψ(t))ψ 0 (t)
Deswegen
Z
d
0
Z
dt ke
γ (t)k =
L(e
γ) =
c
d
dt ψ 0 (t)kγ 0 (ψ(t))k
c
ψ 0 (t)
wobei wir benutzt haben, dass
≥ 0 (aus der Monotonie). Mit der Variablentransformation s = ψ(t) finden wir L(e
γ ) = L(γ). D.h., wie behauptet, die Länge ist von der
Parametrisierung unabhängig.
Es ist einfach die Definition (60) auf dem Fall zu verallgemeinern, dass γ nur stückweise stetig differenzierbar ist (das erlaubt zum Beispiel die Anwesenheit von Ecken in
der Bahn von γ).
Definition 4.22. Eine parametrisierte Kurve γ : [a; b] → Rn heisst stückweise stetig
differenzierbar, falls sie stetig auf [a; b] ist, und falls eine endliche Teilung a = t0 < t1 <
· · · < tn−1 < tn = b existiert mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) für alle j =
1, . . . , n (erinnere, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) genau dann, wenn γ ∈ C 1 ((tj−1 ; tj ); Rn )
und γ und γ 0 können auf dem abgeschlossenen Intervall [tj−1 ; tj ] stetig fortgesetzt werden).
100
Für eine stückweise stetig differenzierbare Kurve γ : [a; b] → Rn definieren wir die
Länge durch
n Z tj
X
L(γ) =
dt kγ 0 (t)k
(61)
j=1
tj−1
wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wird, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn )
für alle j = 1, . . . , n.
Bemerkung: auch für stückweise stetig differenierbare Kurve gilt (59), und L < ∞.
Man kann die Länge noch allgemeiner definieren, für alle Kurven mit der Eigenschaft,
dass (59) endlich ist (in diesem Fall heisst die Kurve rektifizierbar; ein Beispiel einer
nicht rektifizierbare Kurve ist aus γ(t) = (t; ϕ(t)) ∈ R gegeben, mit ϕ(0) = 0 und
ϕ(t) = t sin(1/t) für t ∈ (0; 1]) gegeben.
Die nächste Frage ist, wie berechnet man das Flächeninhalt einer parametrisierten
Fläche. Für (s, t) ∈ B ⊂ R2 sei x(s, t) ∈ R3 eine parametrisierte Fläche. Wir nehmen
an, die Abbildung x sei überall in B regulär, d.h. die zwei Ableitungen ∂x/∂s(s; t)
und ∂x/∂t(s; t) sind für alle (s; t) ∈ B linear unabhängig (∂x/∂s und ∂x/∂t sind zwei
Vektoren in R3 ).
Wir suchen ein Formel für das Flächeninhalt von dieser parametrisierte Fläche. Dazu
betrachten wir ein kleines Rechteck
Q0 = {(s0 + h, t0 + k) : 0 ≤ h ≤ ∆s, 0 ≤ k ≤ ∆t} ⊂ B
im Parameterbereich. Das Bild von Q0 ist ein kleines Flächenstück in R3 , der durch ein
Parallelogramm approximiert werden kann. In linearen Näherung gilt
x(s0 + h; t0 + k) = x0 + hvs + kvt
mit x0 = x(s0 ; t0 ), vs = ∂x/∂s(s0 ; t0 ) und vt = ∂x/∂t(s0 ; t0 ). Also, das Bild von Q0 wird
durch den Parallelogramm genähert, definiert durch die zwei Vektoren ∆svs und ∆tvt .
Das Flächeninhalt von diesem Parallelogramm ist durch
∆s|vs |∆t|vt | sin θ = ∆s∆tkvs × vt k
gegeben, wo θ der Winkel zwischen vs und vt und vs × vt das Vektorprodukt der zwei
Vektoren ist. Damit finden wir für das Flächeninhalt der parametrisierte Fläche x : R2 ⊃
B → R3 die Formel
Z ∂x ∂x dsdt
F =
×
∂t B ∂s
Die slebe Formel kann auch umgeschrieben werden, mit Hilfe vom Gramm’sche Determinant. Das Gramm’sche Determinant der zwei Vektoren vs und vt ist durch
vs · vs vs · vt
kvs k2
kvs kkvt k cos θ
gram(vs , vt ) = det
=
vt · vs vt · vt
kvt kkvs k cos θ kvt k2
= kvs k2 kvt k2 (1 − cos2 θ) = kvs k2 kvt k2 sin2 θ = kvs × vt k2
definiert. Also, das Flächeninhalt der parametrisierte Fläche x : B → R3 kann auch
durch
Z s
∂x ∂x
F =
gram
,
dsdt
(62)
∂s ∂t
B
101
berechnet werden.
Eine Fläche kann auch als Graphen einer Funktion ϕ definiert werden, z.B. als
{(x, y, z) ∈ R3 : z = ϕ(x, y), (x, y) ∈ B}. Dieselbe Fläche kann man auch in parametrischen Form schreiben, als x : B 3 (s, t) → (s, t, ϕ(s, t)). Also
∂x
∂ϕ
(s, t) = 1, 0,
∂s
∂s
∂x
∂ϕ
(s, t) = 0, 1,
∂t
∂t
Eine einfache Berechnung gibt
gram
∂x ∂x
,
∂s ∂t
= 1 + k∇ϕ(s; t)k2
Das Flächeninhalt ist also aus
Z p
F =
1 + k∇ϕ(s, t)k2 dsdt
B
gegeben.
Beispiel: wir berechnen das Flächeninhalt einer Hemisphäre mit Radius R > 0. Diese
Fläche kann als Graphen geschrieben werden,
i.e. als {(x, y, z) ∈ R3 : z = ϕ(x, y), x2 +
p
y 2 ≤ R2 }, mit der Funktion ϕ(x, y) = R2 − x2 − y 2 . Es gilt
−x
∂ϕ
=p
,
∂x
R 2 − x2 − y 2
Also
k∇ϕk2 =
und das Flächeninhalt ist
s
Z
F =
1+
x2 +y 2 ≤1
−y
∂ϕ
=p
∂y
R 2 − x2 − y 2
x2 + y 2
R 2 − x2 − y 2
x2 + y 2
dxdy = R
R 2 − x2 − y 2
Z
x2 +y 2 ≤1
1
p
dxdy
R 2 − x2 − y 2
Mit Hilfe von Polarkoordinaten finden wir
Z R
Z R
1
√
F = 2πR
rdr = 2πR
dt = 2πR2
R2 − r 2
0
0
√
mit der Substitution t = R2 − r2 . Das Flächeninhalt der gesamte Sphäre mit Radius
R ist also 4πR2 .
Man kann die Formel (62) für das Flächeninhalt einer zwei-dimensionale Fläche in
R3 auf allgemeineren Mannigfaltigkeit verallgemeinern. Sei d < n und, B ⊂ Rd , und
für (t1 , . . . , td ) ∈ B sei x(t1 , . . . , td ) ∈ Rn eine parametrisierte Mannigfaltigkeit in Rn .
Wir nehmen an, x sei eine reguläre Abbildung, d.h. die d Vektoren ∂x/∂t1 , . . . , ∂x/∂td
in Rn seien linear unabhängig. Dann definieren wir das Volumen der parametrisierte
Mannigfaltigkeit durch
Z s
∂x
∂x
gram
,...,
dt1 . . . dtd
∂t1
∂td
B
102
wobei das Gramm’sche Determinant gram (∂x/∂t1 , . . . , ∂x/∂td ) das Determinante der
d × d Matrix ist, mit Matrixelementen gegeben aus den Skalarprodukten ∂x/∂ti · ∂x/∂tj .
Man kann zeigen, dass die Definition des Volumens einer parametrisierte Mannigfaltige→B
keit unabhängig aus der Wahl der Parameter ist. Mit anderer Wörter, falls f : B
n
e
ein Diffeomorphismus ist, dann hat die parametrisierte Fläche x
e : B → R , definiert
durch x
e(s1 , . . . , sd ) = x(f (s1 , . . . , sd )) dasselbe Volumen wie die parametrisierte Fläche
x : B → Rn (das gilt insbesondere für parametrisierten Flächen in R3 ). Beweis: Übung.
5
5.1
Vektoranalysis
Vektorfelder und Feldlinien
Wir führen den Begriff vom Vektorfeld ein.
Definition 5.1. Ein Vektorfeld mit Definitionsbereich U ⊂ Rn ist eine Abbildung K :
U → Rn . Ist U ⊂ Rn offen, so sagen wir die Abbildung K : U → Rn ist ein C k Vektorfeld, falls K ∈ C k (U ; Rn ).
Wir haben schon oft Abbildungen betrachtet, die eine Teilmenge von Rn auf Rn
abbilden (zB. Diffeomorphismen). Die Interpretation von Vektorfeldern ist aber anders.
Ein Vektorfeld wird interpretiert als eine Abbildung, die zu jedem Punkt im Raum
einen Vektor in Rn zuordnet. Typische Beispiele von Vektorfeldern sind Kraftfelder.
Eine elektrische Ladung im Punkt x = 0 erzeugt an der Stelle x ∈ R3 die Kraft
K(x) = −c
x
kxk3
für eine Konstante c ∈ R. K(x) ist ein Beispiel eines Vektorfelds. Ein anderes Beispiel von
Vektorfeldern sind Geschwindigkeitsfelder. Die Strömung einer Flüssigkeit kann durch
das Geschwindigkeitsfeld v(x) beschrieben werden, das die momentane Geschwindigkeit
der Flüssigkeit an der Stelle x ∈ Rn spezifiziert. Aus diesen Beispielen ist klar, dass
Vektorfelder eine sehr wichtige Rolle in der Physik spielen (natürlich spielen in der
Physik auch skalare Felder, wie zum Beispiel die Temperatur T (x) als Funktion vom
Ort, eine wichtige Rolle, und manchmal ist es auch nützlich, Matrix-wertige Felder zu
betrachten; hier untersuchen wir aber nur Vektorfelder).
Feldlinien. Sei nun K : U → Rn ein Vektorfeld. Eine parametrisierte Kurve γ :
I → Rn (wobei I ⊂ R ein Intervall ist) heisst eine Feldlinie vom Vektorfeld K, falls der
Tangentialvektor γ 0 (t) für alle t ∈ I proportional zum Vektor K(γ(t)) ist. Man bemerke,
der Begriff von Feldlinie ist von der Parametrisierung der Kurve γ unabhängig. In der
Tat, falls ψ : Ie → I eine monotone differenzierbare Funktion ist, so gilt
d
γ(ψ(t)) = γ 0 (ψ(t))ψ 0 (t)
dt
und deswegen ist (γ ◦ ψ)0 (t) immer proportional zu γ 0 (ψ(t)). Eine natürliche Parametrisierung einer Feldlinie ist also durch die Gleichung
γ 0 (t) = K(γ(t))
103
bestimmt. Diese Differentialgleichung für γ(t) gibt uns die Möglichkeit, Feldlinien eines
Kraftfelds zu finden. Ist K ein C 1 -Vektorfeld auf U und ist x0 ∈ U , dann folgt aus der
Theorie der gewöhnlichen Differentialgleichungen, dass man immer mindestens ein Stück
Feldlinie von K durch x0 finden kann, und dass diese lokale Feldlinie eindeutig bestimmt
ist (das folgt aus einem Theorem, das Existenz und Eindeutigkeit von Lösungen von
Differentialgleichungen zeigt; das Theorem wird in der Vorlesung Analysis 3 bewiesen).
Zentralfelder. Ein Vektorfeld K : U → Rn heisst ein Zentralfeld, falls K die Form
K(x) = f (kxk)x hat, für eine Funktion f (kxk) die nur von der Länge kxk von x abhängt.
Das elektrische Feld K(x) = −constx/kxk3 , erzeugt auf R3 \{0} aus einer Ladung im
Ursprung, ist ein Beispiel eines Zentralfelds.
Gradientenfelder. Ein Vektorfeld K : U → Rn definiert auf U ⊂ Rn heisst ein
Gradientenfeld, falls eine reel-wertige Funktion ϕ ∈ C 1 (U ) existiert, mit K(x) = ∇ϕ(x).
Gradientenfelder spielen eine besonder wichtige Rolle in der Physik.
5.2
Linienintegrale
Sei γ : [a; b] → Rn eine stetig differenzierbare Kurve. Die Länge von γ ist dann durch
die Formel
Z b
L(γ) =
kγ 0 (t)k dt
a
gegeben.
Sei nun K : U → Rn ein Vektorfeld, definiert mindestens auf einer Umgebung der
Kurve γ, d.h. mit der Eigenschaft γ(I) ⊂ U . Wir interpretieren γ als die Bahn eines
Teilchen und K(x) als die auf dem Teilchen im Punkt x wirkende Kraft. Ein wichtiger
Begriff in der Physik ist die Arbeit, die das Teilchen leisten muss, um sich durch das
Kraftfeld zu bewegen (oder die Arbeit, die das Kraftfeld auf dem Teilchen leistet).
Ist γ eine Gerade und K(x) = K konstant auf der Geraden, so ist die Arbeit aus
K · (γ(b) − γ(a)) gegeben. Allgemeiner können wir die Arbeit berechnen, indem wir das
Intervall [a; b] in kleine Teilintervalle zerlegen. Seien a = t0 < t1 < · · · < tn = b. Dann
können wir die Arbeit durch
n
X
K(γ(tj−1 )) · (γ(tj ) − γ(tj−1) ) '
j=1
n
X
K(γ(tj−1 ))γ 0 (tj−1 )(tj − tj−1 )
j=1
approximieren. Nehmen wir das Limes n → ∞ (mit supj (tj − tj−1 ) → 0), so konvergiert
die linke Seite (angenommen z.B. das Vektorfeld K ist stetig) zum Integral
Z
b
K(γ(t)) · γ 0 (t) dt
a
Das motiviert die folgende Definition, wobei wir den allgemeineren Fall einer stückweise
stetig differenzierbare Kurve betrachten.
Definition 5.2. Sei U ⊂ Rn offen, K : U → Rn ein stetiges Vektorfeld. Sei γ :
[a; b] → U eine stückweise stetig differenzierbare Kurve in U . Wir definieren dann das
104
Linienintegral (oder Wegintegral) von K entlang γ durch
Z
n Z tj
X
K · dx :=
K(γ(t)) · γ 0 (t) dt
γ
tj−1
j=1
wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wurde, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn )
für alle j = 1, . . . , n.
In der folgenden Proposition sammeln wir einige wichtige Eigenschaften von Linienintegralen.
Proposition 5.3. Sei U ⊂ Rn offen, K ein stetiges Vektorfeld in U , γ : [a; b] → U eine
stückweise stetig differenzierbare Kurve in U .
i) Sei M = sup{kK(x)k : x ∈ γ([a; b])} (bemerke, dass M < ∞ wegen Stetigkeit von
K und Kompaktheit von γ([a; b]). Dann gilt
Z
K · dx ≤ M L(γ)
γ
wobei L(γ) die Länge von γ ist, wie in (61) definiert.
ii) Sei ψ : [c; d] → [a0 b] monoton steigend, mit ψ(c) = a und ψ(d) = b, und stückweise stetig differenzierbar (ψ is eine Parametertransformation). Wir definieren
γ
e : [c; d] → U durch γ
e(t) = γ(ψ(t)). Dann gilt
Z
Z
K · dx = K · dx
γ
e
γ
D.h. der Wert des Linienintegrales ist von der Parametrisierung der Kurve unabhängig.
Beweis: i) Sei a = t0 < t1 < · · · < tn = b eine Teilung, so dass γ ∈ C 1 ([tj−1 , tj ]; U ) für
alle j = 1, . . . , n. Dann gilt
Z
Z
tj
tj 0
K(γ(t)) · γ 0 (t) dt
K(γ(t))
·
γ
(t)dt
≤
tj−1
tj−1
Z tj
Z tj
0
kγ 0 (t)k dt
kK(γ(t))kkγ (t)k dt ≤ M
≤
tj−1
tj−1
Also
Z
X
Z tj
n Z tj
X
n
0
K · dx = kγ 0 (t)k dt = M L(γ)
K(γ(t)) · γ (t)dtdt ≤ M
γ
j=1 tj−1
j=1 tj−1
ii) Sei c = t0 < t1 < · · · < tn = d eine Teilung von [c; d] mit der Eigenschaft, dass
ψ ∈ C 1 ([tj−1 ; tj ]) und γ ∈ C 1 ([ψ(tj−1 ); ψ(tj )]; U ) für alle j = 1, . . . , n. Dann gilt
Z tj
Z tj
K(e
γ (t)) · γ
e0 (t)dt =
K(γ(ψ(t))) · γ 0 (ψ(t))ψ 0 (t)dt
tj−1
tj−1
Z
ψ(tj )
=
ψ(tj−1 )
105
K(γ(s)) · γ 0 (s)ds
mit der Variablentransformation s = ψ(t). Also, da ψ monoton wachsend ist, finden wir
Z
K · dx =
γ
e
=
n Z
X
tj
K(e
γ (t))e
γ 0 (t)dt
j=1 tj−1
n Z ψ(tj )
X
Z
0
K · dx
K(γ(s)) · γ (s)ds =
γ
ψ(tj−1 )
j=1
Operationen mit Kurven. Für eine stückweise stetig differenzierbare Kurve γ : [a; b] →
kann man die stückweise stetig differenzierbare Kurve −γ : [a; b] → Rn durch
−γ(t) = γ(b + a − t) definieren. Es ist einfach zu sehen, dass −γ die selbe Kurve wie γ
beschreibt, aber in umgekehrte Richtung parametriseirt.
Sind γ1 : [a; b] → Rn und γ2 : [c; d] → Rn zwei stückweise stetig differenzierbare
Kurven, so dass γ1 (b) = γ2 (c), so kann man die Kurve γ3 = γ1 + γ2 : [a; b + d − c] durch
γ1 (t)
falls t ∈ [a; b]
γ3 (t) =
γ2 (t + c − b)
falls t ∈ [b; b + d − c]
Rn ,
definieren. Anschaulich, γ3 ist die “Vereinigung” der zwei Kurven γ1 und γ2 . Es ist
einfach zu sehen, dass L(−γ) = L(γ), und L(γ1 +γ2 ) = L(γ1 )+L(γ2 ). Für Linienintegrale
finden wir
Z
Z
K · dx = − K · dx
(63)
−γ
und
γ
Z
Z
Z
K · dx =
γ1 +γ2
K · dx +
γ1
K · dx .
(64)
γ2
Um Gleichung (63) zu zeigen, sei γ : [a; b] → Rn und a = t0 < t1 < · · · < tn = b eine
Teilung mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Wir setzen
e
tj = a + b − tn−j . Dann ist a = e
t0 < e
t1 < · · · < e
tn = b eine Teilung mit der Eigenschaft,
1
e
e
dass −γ ∈ C ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Erinnere hier, dass −γ(t) = γ(a + b − t).
Wir finden
Z
n Z e
tj
X
K · dx =
K(−γ(t)) · (−γ)0 (t)dt
−γ
j=1
=−
=
e
tj−1
n Z
X
a+b−tn−j
K(γ(a + b − t)) · γ 0 (a + b − t)dt
j=1 a+b−tn−j+1
n
X Z tn−j
K(γ(s)) · γ 0 (s)ds
j=1
=−
tn−j+1
n Z
X
j=1
tn−j+1
0
Z
K · dx
K(γ(s)) · γ (s)ds = −
tn−j
γ
Die Gleichung (64) kann ähnlich bewiesen werden.
106
5.3
Konservative Vektorfelder
Falls das Vektorfeld K ein Gradientenfeld ist, dann ist die Berechnung seiner Linienintegralen besonders einfach.
Satz 5.4. Sei U ⊂ Rn offen, ϕ ∈ C 1 (U ) und K = ∇ϕ (dann ist K ein stetiges Vektorfeld
auf U ). Sei γ ∈ C 1 ([a; b]; U ) eine stetig differenzierbare Kurve auf U . Dann gilt
Z
K · dx = ϕ(γ(b)) − ϕ(γ(a))
γ
γ(a) heisst der Anfangspunkt der Kurve γ und γ(b) der Endpunkt.
Beweis: Wir bemerken, dass
d
ϕ(γ(t)) = ∇ϕ(γ(t)) · γ 0 (t)
dt
Deswegen finden wir
Z
Z
b
K · dx =
γ
∇ϕ(γ(t)) · γ 0 (t)dt
a
Z
=
a
b
d
ϕ(γ(t))dt = ϕ(γ(a)) − ϕ(γ(b))
dt
Bemerkung: Die Aussage von Satz 5.4 gilt auch, falls die Kurve γ stückweise stetig
differenzierbar ist. In diesem Fall finden wir eine Teilung a = t0 < t1 < . . . tn = b mit
der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Dann gilt, ähnlich wie
im Beweis des Satzes,
Z tj
∇ϕ(γ(t)) · γ 0 (t)dt = ϕ(γ(tj )) − ϕ(γ(tj−1 ))
tj−1
für alle j = 1, . . . , n. Damit
Z
K · dx =
γ
n
X
(ϕ(γ(tj )) − ϕ(γ(tj−1 ))) = ϕ(γ(b)) − ϕ(γ(a))
j=1
Bemerkung: Es folgt aus dem Satz, dass Linienintegrale von Gradientenfeldern entlang
einer Kurve γ nur vom Anfangspunkt und Endpunkt von γ abhängen, nicht von dem
Weg dazwischen.
Bemerkung: Eine parametrisierte Kurve γ : [a; b] → Rn heisst geschlossen, wenn γ(a) =
γ(b), d.h. falls Anfangspunkt und Endpunkt der Kurve übereinstimmen. Es folgt aus
Satz 5.4, dass das Linienintegral von einem Gradientenfeld entlang einer geschlossenen
Kurve verschwindet.
107
Definition 5.5. Sei U ⊂ Rn . Ein Vektorfeld K : U → Rn heisst konservativ (oder
manchmal exakt), falls das Linienintegral
Z
K · dx
γ
nur vom Anfangs- und Endpunkt von γ abhängt, für jede Kurve γ in U . Mit anderen
Worten, K ist konservativ, falls für alle zwei stückweise stetig differenzierbaren Kurven
γ1 , γ2 mit übereinstimmenden Anfangs- und Endpunkten, gilt
Z
Z
K · dx =
K · dx
γ1
γ2
Es folgt aus Satz 5.4, dass Gradientenfelder konservativ sind. In der Physik spielen
konservative Kraftfelder eine besonders wichtige Rolle. Ist K konservativ, dann ist die
Arbeit, die ein Teilchen leistet, wenn es sich auf einer Bahn γ bewegt, nur vom Anfangsund Endpunkt der Bahn abhängig. Das impliziert, wie wir bald sehen werden, dass man
für konservative Kraftfelder ein Potential einführen kann, so dass die geleistete Arbeit
einfach die Differenz vom Potential im End- und im Anfangspunkt ist. D.h. man kann
ein Potential einführen, so dass Energieerhaltung gilt.
Proposition 5.6. Sei U ⊂ Rn offen und K : U → Rn ein stetiges Vektorfeld. Dann ist
K genau dann konservativ, wenn
Z
K · dx = 0
γ
für alle geschlossenen stückweise stetig differenzierbaren Kurve γ in U .
Beweis: Sei zunächst K konservativ und γ : [a; b] → U eine geschlossene stückweise
stetig differenzierbare Kurve mit γ(a) = γ(b) =: x0 . Es bezeichne γ
e : [a; b] → Rn die
konstante Kurve γ(t) = x0 für alle t ∈ [a; b]. Weil γ und γ
e die selben Anfangs- und
Endpunkte haben, finden wir (siehe Prop. 5.3)
Z
Z
K · dx = K · dx = 0 .
γ
γ
e
Nehmen wir nun an, dass
Z
K · dx = 0
γ
für alle geschlossenen stückweise stetig differenzierbaren Kurven γ auf U . Seien γ1 und
γ2 zwei beliebige stückweise stetig differenzierbare Kurven auf U , mit übereinstimmenden Anfangs- und Endpunkten. Wie oben bezeichnen wir mit −γ2 die Kurve γ2 , mit
umgekehrter Richtung. Der Anfangspunkt von −γ2 ist dann der Endpunkt von γ1 und
analog der Anfangspunkt von γ1 ist der Endpunkt von −γ2 . Wir definieren auch die
Kurve γ = γ1 + (−γ2 ), die parametrisierte Kurve gegeben aus der “Vereinigung” von
γ1 und −γ2 . Genauer gesagt, falls γ1 : [a; b] → U und −γ2 : [c; d] → U , so definieren
wir γ : [a; b + d − c] → U durch γ(t) = γ1 (t) falls t ∈ [a; b] und γ(t) = −γ2 (t − b + c)
108
falls t ∈ [b; b + d − c]. Die Kurve γ ist dann offenbar eine geschlossene stückweise stetig
differenzierbare Kurve, und deswegen
Z
Z
Z
Z
Z
K · dx
K · dx −
K · dx =
K · dx +
0 = K · dx =
γ
−γ2
γ1
γ1
γ2
Das zeigt, dass
Z
Z
K · dx .
K · dx =
γ2
γ1
Also ist K konservativ.
Wir haben schon bemerkt, dass jedes Gradientfeld konservativ ist. Wir zeigen nun
die Umkehrung dieser Aussage: Jedes konservative Vektorfeld ist ein Gradientenfeld.
Dazu werden wir das folgende Hilfslemma anwenden.
Lemma 5.7. Jede offene Teilmenge U ⊂ Rn lässt sich als Vereinigung einer disjukten
Familie offener zusammenhängender Mengen darstellen (die Vereinigung braucht nicht
endlich zu sein).
Bemerkung. Diese Zerlegung ist eigentlich eindeutig; die offenen zusammenhängenden Teilmengen werden als Zusammenhangskomponenten bezeichnet.
Beweis: Wir definieren eine Relation zwischen Punkten in U . Für x, y ∈ U schreiben
wir x ∼ y genau dann, wenn x und y sich durch einen Streckenzug in U verbinden
lassen. Offenbar definiert ∼ eine Äquivalenzrelation. Die Äquivalenzklassen sind offen.
Sei nämlich x ∈ U beliebig. Wir zeigen die Äquivalenzklasse [x] ist offen. Dazu finden
wir r > 0, so dass die offene Kugel Br (x) von Radius r um x in U enthalten ist. Dann ist
x ∼ y, für alle y ∈ Br (x). Damit ist Br (x) ⊂ [x], und [x] ist offen. Die Äquivalenzklassen
sind offenbar zusammenhängend und paarweise disjukt.
Wir können nun zeigen, dass jedes konservative Feld ein Gradientenfeld ist.
Satz 5.8. Sei U ⊂ Rn offen, K ein konservatives stetiges Vektorfeld auf U . Dann
existiert ϕ : U → R stetig differenzierbar, mit K = ∇ϕ.
Beweis: Wir betrachten zunächst den Fall, dass U zusammenhängend ist. Wir wählen
x0 ∈ U fest. Für ein beliebiges x ∈ U finden wir eine stückweise stetig differenzierbare
Kurve γx in U mit Anfangspunkt x0 und Endpunkt x. Wir setzen
Z
ϕ(x) =
K · dx
γx
Da K konservativ ist, ist die Definition unabhängig von der Wahl der Kurve γx , natürlich
unter der Annahme, dass der Endpunkt von γx gerade x ist. Wir bemerken, dass
ϕ(x0 ) = 0. Wir behaupten, dass ∇ϕ(x) = K(x). Das würde den Satz für den Fall
U zusammenhängend beweisen, weil K aus Annahme stetig ist. Um die Behauptung zu
zeigen, bemerken wir, dass
∂ϕ
d
(x) = ϕ(x + tei )|t=0
∂xi
dt
109
und dass
Z
Z
K · dx
K · dx =
ϕ(x + tei ) =
γx +[x;x+tei ]
γx+tei
Z
Z
K · dx
K · dx +
=
[x;x+tei ]
γx
wobei [x; x + tei ] das Segment zwischen x und x + tei bezeichnet. Hier wählen wir t so
klein, dass das Segment [x; x + tei ] in U enthalten ist (das ist natürlich möglich, weil U
offen ist). Wir parametrisieren das Segment [x; x + tei ] durch die Kurve γ : [0; t] → U ,
definiert durch γ(s) = x + sei . Dann ist γ 0 (s) = ei , und damit
Z
t
Z
K · dx =
[x;x+tei ]
Z
K(x + sei ) · ei ds =
0
t
Ki (x + sei )ds
0
wobei Ki die i-te Komponente vom Vektorfeld K bezeichnet. Nach dem Hauptsatz der
Integralrechnung, finden wir
Z
d
d t
Ki (x + sei )ds = Ki (x + tei )|t=0 = Ki (x)
ϕ(x + tei )|t=0 =
dt
dt 0
t=0
Damit ist ∇ϕ(x) = K(x), wie behauptet.
Sei nun U nicht zusammenhängend. Aus Lemma 5.7 finden wir eine Familie Ui von
disjunkten zusammenhängenden offenen Mengen in Rn , mit U = ∪i Ui . Für jede i können
wir dann wie oben eine stetig differenzierbare Funktion ϕi : Ui → R konstruieren,
mit ∇ϕi (x) = K(x) für alle x ∈ Ui . Da die Teilmengen disjunkt sind, könenn wir
ϕ : U → R durch ϕ(x) := ϕi (x) für alle x ∈ Ui definieren. Dann ist ϕ wohldefiniert,
stetig differenzierbar, mit ∇ϕ(x) = K(x) für alle x ∈ U .
Satz 5.8 zeigt, zusammen mit Satz 5.4, dass für jedes konservative Vektorfeld K :
U → Rn , eine Potentialfunktion ϕ : U → R gefunden werden kann, mit K = ∇ϕ und
deswegen, mit
Z
K · dx = ϕ(Endpunkt) − ϕ(Anfangspunkt)
γ
Das bedeutet, für jedes konservative Vektorfeld kann man ein Potential einführen, so
dass geleistete Arbeit = Unterschied im Potential (die Energie ist erhalten). Bemerke,
dass die Potentialfunktion immer nur bis auf eine additive Konstante bestimmt ist.
Wie kann man eine Potentialfunktion finden? Zunächst bemerken wir, dass wenn
eine Potentialfunktion ϕ existiert, dann muss K = ∇ϕ und deswegen
∂Kj
∂Ki
∂2ϕ
∂2ϕ
(x) =
(x) =
(x) =
(x)
∂xj
∂xi ∂xj
∂xj ∂xi
∂xi
D.h. damit K ein Gradientenfeld ist, man braucht sicher die n(n − 1)/2 Bedingungen
∂Kj
∂Ki
(x) =
(x)
∂xj
∂xi
110
(65)
für alle i, j = 1, . . . , n. Wenn diese Bedingungen erfüllt sind, kann man versuchen eine
Potentialfunktion zu finden, durch iterative Integration der Gleichungen ∂ϕ/∂xi = Ki .
Beispiel: wir suchen eine Potentialfunktion für den Vektorfeld K(x, y) = (y 2 , 2xy +
y 2 ). Zunächst bemerken wir, dass
∂K1
∂K2
= 2y =
∂y
∂x
Damit ist mindestens möglich, dass ein Potential existiert. Aus der Gleichung
∂ϕ
= y2
∂x
finden wir, dass ∂x (ϕ(x, y)−y 2 x) = 0, d.h. ϕ(x, y)−y 2 x = ψ(y) darf nur von y abhängen.
Aus ϕ(x, y) = y 2 x + ψ(y) finden wir weiter, dass
∂ϕ
(x, y) = 2yx + ψ 0 (y)
∂y
Aus ∂y ϕ = 2xy + y 2 folgt, dass ψ 0 (y) = y 2 , und deswegen, dass ψ(y) = y 3 /3 + C. Das
zeigt, dass die Potentialfunktion für das Vektorfeld K die Form ϕ(x, y) = y 2 x+y 3 /3+C,
für eine Konstante C ∈ R hat. Jede solche Funktion ist eine Potentialfunktion für K.
5.4
Rotation
Nehmen wir an, γ ist eine stetige und geschlossene Kurve in R2 . Was ist die Bedeutung
vom Linienintegral
Z
K · dx?
γ
Es ist intutitv klar, dass wenn K dreht in der Richtung von γ, dann ist das Linienintegral
positiv. Falls K dreht in der Gegenrichtung wird dagegen das Integral negativ. Wenn K
keine Rotation aufweist (zB. falls γ ein Kreis ist, und K ein zentrales Vektorfeld), dann
ist das Linienintegral 0. Das Linienintegral auf der geschlossenen Kurve misst wie das
Vektorfeld K dreht, bezüglich die Kurve γ. Es ist also natürlich eine Wirbeldichte zu
suchen so, dass das Linienintegral von K auf γ das Integral der Wirbeldichte im Inneren
von γ gleicht.
Lemma 5.9. Sei R eine Rechteck in R2 , und ∂R der positiv orientierte Rand von R.
Sei K = (K1 , K2 ) ein C 1 -Vektorfeld auf R. Dann gilt
Z
Z ∂K2 ∂K1
K · dx =
−
dxdy
∂x
∂y
∂R
R
Beweis. Sei
R = {(x, y) : a1 ≤ x ≤ a2 ; b1 ≤ y ≤ b2 }
Der Rand ∂R besteht aus 4 Teilen. Wir bezeichnen mit v1 die gerade Strecke zwischen
(a1 ; b1 ) und (a2 ; b1 ), mit v2 die Strecke zwischen (a2 ; b1 ) und (a2 ; b2 ), mit v3 die Strecke
111
zwischen (a2 ; b2 ) und (a1 ; b2 ) und mit v4 die Strecke zwischen (a1 ; b2 ) und (a1 ; b1 ). Es
gilt
Z a2
Z
K1 (x, b1 )dx
K · dx =
a1
b2
v1
Z
Z
K · dx =
K2 (a2 ; y)dy
b1
v2
Z
Z
a2
K · dx = −
v3
K1 (x; b2 )dx
a1
Z b2
Z
K · dx = −
K2 (a1 ; y)dy
b1
v4
Also
Z
Z
Z
b2
[K2 (a2 , y) − K2 (a1 , y)] dy
K · dx =
K · dx +
b1
Z b2
v4
v2
a2
Z
=
b1
Analog
Z
Z
K · dx +
v1
Wir erhalten
Z
a2
K · dx =
v3
a1
Z
∂K2
∂K2
(x, y)dx dy =
(x, y)dxdy
∂x
R ∂x
Z
[K1 (x, b1 ) − K1 (x, b2 )] = −
a1
R
Z Z
K · dx =
∂R
R
∂K1
(x, y)dxdy
∂y
∂K2 ∂K1
−
dxdy
∂x
∂y
wie behauptet.
Lemma 5.9 motiviert die folgende Definition.
Definition 5.10. Sei n ≥ 2, U ⊂ Rn offen, und K : U → Rn ein differenzierbares
Vektorfeld. Wir definieren die Rotation von K als die n × n antisymmetrische Matrix
rot (K) mit Einträge
[rot K(x, y)]ij =
∂Kj
∂Ki
(x, y) −
(x, y)
∂xj
∂xi
Wegen antisymmetrie hat rot K tatsächlich nur n(n − 1)/2 unabhängige Einträge.
Für n = 2 hat also die Matrix rot K nur einen unabhängigen Eintrag. In diesem Fall
lohnt sich die Rotation des Vektorfelder K = (K1 , K2 ) als eine skalare Grösse durch
rot K(x, y) =
∂K2
∂K1
(x, y) −
(x, y)
∂x
∂y
zu definieren.
112
Bemerkung: es folgt von Lemma 5.9, dass
Z
Z
rot Kdxdy
K · dx =
R
∂R
für alle Rechtecke R ⊂ R2 .
Im letzten Abschnitt haben wir bemerkt, dass ein Vektorfeld K definiert auf einer
Teilmenge von Rn nur dann konservativ sein kann, falls die Bedingungen (65) erfüllt
sind. Mit der Definition 5.10 folgt: ein Vektorfeld definiert auf einer Teilmenge von Rn
kann nur dann konservativ sein, falls es wirbelfrei ist.
Es ist dann natürlich zu fragen, ob wirbelfrei zu sein auch eine hinreichende Bedingung ist. Die Antwort hn̈agt vom Gebiet U , wo das Vektorfeld definiert ist. Im nächsten
Satz zeigen wir, dass die Antwort positiv ist (d.h. rot K = 0 impliziert, dass K konservativ ist) für differenzierbare Vektorfelder, die auf konvexe Gebiete definiert sind.
Satz 5.11. Sei U ⊂ Rn offen und konvex (d.h. es gelte λx + (1 − λ)y ∈ U , für alle
x, y ∈ U und λ ∈ [0; 1]). Sei K ∈ C 1 (U ; Rn ). Dann existiert ϕ ∈ C 1 (U ) mit K = ∇ϕ
genau dann, wenn
∂Kj
∂Ki
(x) =
(x)
(66)
∂xj
∂xi
für alle 1 ≤ i < j ≤ n und alle x ∈ U . Das impliziert, K ist genau dann konservativ,
wenn (66) erfüllt ist.
Beweis: O.B.d.A. nehmen wir an, 0 ∈ U . Für jede x ∈ U ist dann das Segment [0; x] =
{tx : t ∈ [0; 1]} in U enthalten (weil U konvex ist). Deswegen können wir eine Funktion
ϕ : U → R durch
Z
1
K(tx) · xdt
ϕ(x) =
0
definieren. Da K ∈ C 1 (U ; Rn ) kann man zeigen, dass auch ϕ ∈ C 1 (U ; R), mit
!
!
Z 1
Z 1
n
n
X
X
∂ϕ
∂
∂Ki
(x) =
txi dt
Ki (tx)xi dt =
Kj (tx) +
∂xj
∂xj
0 ∂xj
0
i=1
(67)
i=1
Um (67) zu beweisen, muss man die Ableitung mit dem Integral vertauschen. Das bedeutet, man muss ein Limes (der Limes, der die Ableitung definiert), mit dem Integral
vertauschen. Das ist möglich mit Hilfe von Satz 1.13, weil (Ki (t(x + hej )) − Ki (tx))/h →
∂Ki /∂xj (tx) gleichmässig in t konvergiert. Anderseits, bemerken wir, dass
n
n
i=1
i=1
X ∂Kj
X ∂Ki
d
(tKj (tx)) = Kj (tx) +
(tx)txi = Kj (tx) +
(tx)txi
dt
∂xi
∂xj
In der letzten Gleichung haben wir die Bedingung ∂Kj /∂xi = ∂Ki /∂xj benutzt. Vergleich mit (67) gibt
Z 1
∂ϕ
d
(x) =
(tKj (tx)) dt = Kj (x) .
∂xj
0 dt
113
Man bemerke, dass die Bedingung (66) nicht auf beliebigen Gebieten hinreichend ist
(sie ist immer notwendig). Das zeigen wir mit dem folgenden Beispiel.
Beispiel: Sei
x1
−x2
;
K(x1 , x2 ) =
x21 + x22 x21 + x22
definiert auf der offenen Menge R2 \{0}. Dann gilt
∂K1
−x2 + x2
∂K2
(x) = 2 1 2 22 =
(x)
∂x2
∂x1
(x1 + x2 )
für alle x ∈ R2 \{0}. Sei aber γ : [0, 2π] → R2 definiert durch γ(t) = (cos t, sin t) der
Einheitskreis (eine geschlossene Kurve auf R2 \{0}. Dann ist
Z
Z 2π
K · dx =
K(cos t, sin t) · (− sin t, cos t)dt = 2π 6= 0
γ
0
Also, K ist sicher nicht konservativ.
Tatsächlich gilt die Äquivalenz
K Gradientfeld ⇐⇒
∂Kj
∂Ki
=
∂xj
∂xi
nicht nur auf konvexen, sondern allgemeiner auf sogenannten einfach zusammenhängenden Gebieten. Ein Gebiet G ⊂ Rn heisst einfach zusammenhängend, wenn jede geschlossene Kurve in G stetig zu einem Punkt deformiert werden kann (wir verzichten
hier auf die genaue Definition dieses Begriffes). Das Gebiet R2 \{0} ist nicht einfach zusammenhängend, weil jede Kurve um den Ursprung nicht stetig innerhalb R2 \{0} zu
einem Punkt deformiert werden kann (bemerke dagegen, dass R3 \{0} einfach zusammenhängend ist).
5.5
Green’sche Formel in 2 Dimensionen
Die Rotation eines Vektorfeld ist nützlich weil, wie wir im letzten Abschnitt gezeigt
haben, auf einfach zusammenhängenden Gebiete sie gibt eine notwendige und hinreichende Bedingung dafür, dass ein Vektorfeld konservativ ist (K ist konservativ g.d.w.
rot K = 0). Im Fall d = 2 gibt aber Lemma 5.9 eine weitere Anwendung. rot K erlaubt uns das Linienintegral von K entlang beliebige Rechtecken zu berechnen, mit der
Formel:
Z
Z
K · dx =
rot Kdxdy
(68)
∂R
R
Die Green’sche Formel ist die Verallgemeinerung von (68) auf allgemeineren Gebiete.
Wir betrachten hier glatt berandeten Gebieten, definiert wie folgt.
Definition 5.12. Eine beschränkte offene Teilmenge B ⊂ R2 heisst ein glatt berandete
Bereich, falls für jeden Punkt (x0 ; y0 ) ∈ ∂B mindestens eine der folgenden vier Bedingungen erfüllt ist. a) Es existieren a1 < x0 < a2 , b1 < y0 < b2 und eine C 1 -Funktion
ϕ : [a1 ; a2 ] → [b1 ; b2 ] so, dass
B ∩ [a1 ; a2 ] × [b1 ; b2 ] = (x, y) ∈ R2 : a1 ≤ x ≤ a2 , b1 ≤ y < ϕ(x)
114
b) Analog zu a), aber mit ϕ(x) < y ≤ b2 statt b1 ≤ y < ϕ(x) (in diesem Fall ist der Rand
lokal unter der Menge B). c),d) Analog zu a),b) aber in diesem Fall ist ϕ : [b1 ; b2 ] →
[a1 ; a2 ], und B ∩ [a1 ; a2 ] ∩ [b1 ; b2 ] ist die Menge der Punkten {(x, y) : b1 ≤ y ≤ b2 , a1 ≤
x < ϕ(x)} oder {(x, y) : b1 ≤ y ≤ b2 , ϕ(x) < x ≤ b2 }.
Die Idee ist, dass der Rand lokal das Graphen einer C 1 Abbildung ist.
Satz 5.13. Sei B ⊂ R2 ein glatt berandete Bereich, K ein C 1 -Vektorfeld definiert auf
einer offenen Umgebung von B. Dann gilt
Z
Z
rot Bdxdy
(69)
K · dx =
B
∂B
Hier ist die Orientierung des Randes so gewählt, dass das Inneres des Bereichs immer
links vom Rand ist.
Um Satz 5.13 zu beweisen, kann man versuchen, der Bereich B mit Rechtecken
zu überdecken, und (68) auf jedem Rechteck zu benutzen. Eine bessere Strategie ist
das Vektorfeld K in eine endliche Summe von Vektorfeldern zu zerlgen, so, dass jedem
Vektorfeld auf einem Rechteck getragen wird. Dazu benutzen wir eine mathematische
Konstruktion, die zunächst von Dieudonne in den 30’er Jahren benutzt wurde, und die
als Zerlegung der Einheit bezeichnet wird.
Satz 5.14. Sei V ⊂ Rn eine kompakte Menge. Sei (Ui )i∈I eine offene Überdeckung
von V . Es existieren dann endlich viele C ∞ -Funktionen ϕ1 , . . . , ϕk mit den folgenden
Eigenschaften.
a) 0 ≤ ϕj (x) ≤ 1, für alle j = 1, . . . , n und alle x ∈ Rn .
b) Für alle j = 1, . . . , n es existiert ein ij ∈ I mit supp ϕj ⊂ Uij .
Pk
c)
j=1 ϕj (x) = 1 für alle x in einem offenen Umgebung von V .
Beweis. Wir behaupten zunächst, dass es eine Funktion ϕ ∈ C ∞ (R) existiert, mit den
drei Eigenschaften: ϕ monoton fallend, ϕ(t) = 1 für alle t ≤ 4/3, ϕ(t) = 0 für alle
t ≥ 5/3.
Um diese Behauptung zu beweisen, definieren wir zunächst eine monoton wachsende
Funktion ϕ0 ∈ C ∞ (R) durch ϕ0 (t) = e−1/t für t > 0 und ϕ0 (t) = 0 für t ≤ 0. Wir
setzen dann ϕ1 (t) = ϕ0 (ϕ0 (1) − ϕ0 (t)). Als Verknüpfung von C ∞ -Funktionen ist auch
ϕ1 ∈ C ∞ (R). Da ϕ0 monoton wachsend ist, ist ϕ1 monoton fallend. Ferner, für t ≥ 1
haben wir ϕ0 (1) − ϕ0 (t) ≤ 0 und deswegen ϕ1 (t) = 0. Für t ≤ 0 haben wir ϕ0 (t) = 0;
ϕ1 (t) = ϕ0 (ϕ0 (1)) > 0 ist also konstant. Mit ϕ(t) = ϕ1 (3(t − 4/3))/ϕ1 (0) finden wir:
ϕ ∈ C ∞ (R), ϕ ist monoton fallend, ϕ(t) = 1 für t ≤ 4/3 und ϕ(t) = 0 für t ≥ 5/3. Also
hat ϕ alle gewünschten Eigenschaften.
Nun, für ein z ∈ K, wählen wir iz ∈ I mit z ∈ Uiz (möglich, weil Ui eine Überdeckung sind). Da Uiz offen ist, finden wir auch rz > 0 mit B2rz (z) ⊂ Uiz . Die Mengen
{Brz (z)}z∈V definieren eine offene Überdeckung von V . Da V kompakt ist, existieren
z1 , . . . , zn ∈ V mit
n
[
V ⊂
Brzj (zj ).
j=1
115
Für j = 1, . . . , n definieren wir also ϕj (z) = ϕ(|z − zj |/rzj ), mit ϕ ∈ C ∞ (R) monoton
fallend und so, dass ϕ(t) = 1 für alle t ≤ 4/3, ϕ(t) = 0 für alle t ≥ 5/3 (so eine Funktion
ϕ wurde oben konstruiert). Die Funktionen ϕj haben die folgenden Eigenschaften.
• ϕj ∈ C ∞ (Rn ). Klar, weil ϕ ∈ C ∞ (R).
• 0 ≤ ϕj (z) ≤ 1 für alle z ∈ Rn . Klar, weil ϕ dieselbe Eigenschaft hat.
• ϕj (z) = 1 für alle z ∈ Brzj (zj ) (weil |z − zj | ≤ rzj impliziert, dass |z − zj |/rzj ≤
1 < 4/3 und ϕ(t) = 1 für alle t ≤ 4/3).
• ϕj (z) = 0 für alle z ∈ Rn mit |z − zj | ≥ (5/3)rzj (weil |z − zj |/rzj ≥ 5/3 impliziert,
dass ϕ(|z − zj |/rzj ) = 0). Das zeigt, dass supp ϕj ⊂ B2rzj (zj ) ⊂ Uizj .
Wir müssen noch die ϕj ein bisschen modifizieren, damit die Summe gleich 1 auf V
ist. Dazu definieren wir ϕ∗ (z) = (1 − ϕ1 (z))(1 − ϕ2 (z)) . . . (1 − ϕn (z)). Dann gilt ϕ∗ ∈
C ∞ (Rn ), mit 0 ≤ ϕ∗ (z) ≤ 1 für alle z ∈ Rn und mit ϕ∗ (z) = 0 auf ∪nj=1 Brzj (zj ) ⊃ V
(weil auf Brzj (zj ) ist ϕj (z) = 1, und deswegen ϕ∗ (z) = 0). Ist ϕj (z) = 0 für alle
P
j = 1, . . . , n dann ist ϕ∗ (z) = 1. Deswegen ist nj=1 ϕj (z) + ϕ∗ (z) > 0 für alle z ∈ Rn .
Für j = 1, . . . , n definieren wir also
ϕj (z)
∗
i=1 ϕi (z) + ϕ (z)
ψj (z) = Pn
Dann gilt: ψj ∈ C ∞ (Rn ), 0 ≤ ψj (z) ≤ 1 für alle z ∈ Rn , supp ψj = supp ϕj ⊂ Uizj .
P
Ferner, für alle z ∈ ∪nj=1 Brzj (zj ) gilt ϕ∗ (z) = 0 und deswegen ψj (z) = ϕj (z)/ ni=1 ϕi (z).
Das gibt
n
X
ψj (z) = 1
j=1
für alle z ∈
∪nj=1 Brzj (zj ).
D.h.
Pn
j=1 ψ) j(z)
= 1 in einer offenen Umgebung von V .
Wir können nun Satz 5.14 benutzen, um die Formel (69) zu beweisen.
Beweis von Satz 5.13. Wir wählen eine offene Überdeckung von B wie folgt. Für z ∈ B
wir wählen Uz als ein offenes Rechteck (a1 ; a2 ) × (b1 ; b2 ) mit U z ⊂ B.Für z ∈ ∂B,
wählen wir dagegen Uz als ein offenes Rechteck so, dass eine der vier Möglichkeiten bei
der Definition von glatt berandeten Bereich erfüllt ist. Ferner muss das Rechteck Uz so
klein gewählt werden, dass K stetig differenzierbar auf U z bleibt.
∞
Nun {Uz }z∈B ist eine offenen Überdeckung von B. Nach Satz 5.14
Pm finden wir C Funktionen ϕ1 , . . . , ϕm so, dass 0 ≤ ϕj (x) ≤ 1 für alle j = 1, . . . , m, j=1 ϕj (x) = 1 auf
B und so, dass für alle j = 1, . . . , m ein zj ∈ B existiert, mit supp ϕj ⊂ Uzj .
Für j = 1, . . . , m setzen wir K (j) (x) = ϕj (x)K(x) (bemerke, dass K (j) ist wieder
ein Vektorfeld,Pmit zwei Komponenten). Dann ist K (j) stetig differenzierbar für alle
(j) = K auf B und supp K (j) ⊂ U
j = 1, . . . , m, m
zj für alle j = 1, . . . , m. Wir
j=1 K
haben
Z
m Z
X
rot Kdxdy =
rot K (j) dxdy
B
j=1
116
B
und
Z
K · dx =
∂B
m Z
X
K (j) · dx
∂B
j=1
Also, um die Behauptung zu beweisen, es genügt zu zeigen, dass, für alle j = 1, . . . , m,
Z
Z
(j)
K (j) · dx
K dxdy =
∂B
B
Mit andere Wörter, es genügt (69) unter der zusätzliche Annahme zu zeigen, dass
supp K ⊂ Uz , für ein z ∈ B. Wir unterscheiden zwei Fällen.
Nehmen wir zunächst an, z ∈ B. Dann ist Uz ein offenes Rechteck voll in der offene
Menge B enthalten. Da supp K ⊂ Uz , verschwindet K auf ∂R und auf ∂B. Ferner, rot K
verschwindet auf B\Uz . Mit Hilfe der Green’sche Formel für Rechtecken, bewiesen in
Lemma 5.9, erhalten wir
Z
Z
Z
Z
rot Kdxdy
rot Kdxdy =
K · dx =
K · dx = 0 =
B
Uz
∂Uz
∂B
Nehmen wir nun an, z ∈ ∂B. Dann ist Uz ein Rechteck so, dass eine der vier Möglichkeiten in der Definition von glatt berandeten Bereichen. Wir nehmen zum Beispiel an,
Uz habe die Form eines Rechteckes, wie im Fall a) in der Definition von glatt berandeten
Bereichen. Mit andere Wörter, wir nehmen an Uz = {(x, y) : a1 < x < a2 , b1 < y < b2 }
und es existiert eine C 1 Funktion ϕ : (a1 ; a2 ) → (b1 ; b2 ) so, dass
R := B ∩ [a1 ; a2 ] × [b1 ; b2 ] = {(x, y) ∈ R2 : a1 < x < a2 , b1 < y < ϕ(x)}
Wir haben
Z
Z Z
rot K dxdy =
B
rot K dxdy =
R
R
∂K2
∂K1
(x, y) −
(x, y) dxdy
∂x
∂y
weil supp K ⊂ Uz , und B ∩ Uz = R. Anderseits
Z
Z
K · dx = K · dx
∂B
(70)
(71)
γ
wobei γ der Graphen von ϕ ist (d.h. [0; a2 − a1 ] 3 t → γ(t) = (a2 − t, ϕ(a2 − t))). Hier
haben wir die Tatsache benutzt, dass ∂B ∩ Uz = γ.
Nun berechnen wir
#
Z
Z a2 "Z ϕ(x)
∂K1
∂K1
(x, y)dxdy =
(x, y)dy dx
∂y
R ∂y
a1
b1
Z a2
(72)
=
[K1 (x, ϕ(x)) − K1 (x, b1 )] dx
a1
Z a2
=
K1 (x, ϕ(x))
a1
und, dass
Z
R
∂K2
(x, y)dxdy =
∂x
Z
a2
"Z
a1
117
ϕ(x)
b1
#
∂K2
(x, y)dy dx
∂x
Wir bemerken, dass
d
dx
Z
ϕ(x)
Z
0
ϕ(x)
∂K2
(x, y)
∂x
K2 (x, y)dy = K2 (x, ϕ(x))ϕ (x) +
b1
b1
Also,
Z
R
∂K2
(x, y)dxdy =
∂x
Z
a2
Z
d
dx
ϕ(x)
Z
a1
ϕ(a2 )
b1
K2 (x, ϕ(x))ϕ0 (x)dx
a1
Z
Z
ϕ(a1 )
Z
Z
a2
= −
K2 (x, ϕ(x))ϕ0 (x)dx
a1
b1
b1
a2
K2 (a1 , y) −
K2 (a2 , y) −
=
a2
K2 (x, y)dy −
K2 (x, ϕ(x))ϕ0 (x)dx
a1
(73)
weil K verschwindet auf dem Rand von Uz (d.h. für x = a1 und x = a2 ). Aus (70), (72)
und (73) finden wir
Z a2
Z
Z
Z a2
0
rot Kdxdy = −
K1 (x, ϕ(x)) +
K2 (x, ϕ(x))ϕ (x)dx = K · dx
B
a1
a1
γ
Aus (71) folgt, dass
Z
Z
K · dx
rot Kdxdy =
B
∂B
Bemerkung: Die Formel von Green gilt tatsächlich auf allgemeineren Bereichen. Sie
gilt insbesondere auf zulässige Bereichen. Ein zulässiger Bereich in R2 ist eine beschränkte offene Menge B ⊂ R2 so, dass ∂B eine endliche oder abzählbare Vereinigung von stetig
differenzierbare Kurven ist und so, dass eine Folge B1 ⊂ B2 ⊂ B3 ⊂ · · · ⊂ B existiert,
mit µ(B\Bn ) → 0 und so, dass die totale Länge der symmetrischen Differenz ∂B∆∂Bn
gegen Null strebt (hier ist A∆B = (A\B) ∪ (B\A)). Gebiete mit endlich viele Ecken sid
zB. nicht glatt berandete aber zulässig.
5.6
Fluss, Divergenz und Satz von Gauss
Wir führen den Begriff von Fluss eines Vektorfeldes. Wir betrachten ein Vektorfeld
K(x) in zwei Dimensionen. Wir interpretieren K(x) als das Geschwindigkeitsfeld einer
Flüssigkeit. Der Fluss von K durch eine Kurve γ ist die Menge Flüssigkeit, die γ pro
Zeiteinheit überquert. Ist K konstant und γ ein Geradenstück , so kann man sich leicht
überzeugen, dass der Fluss von K durch γ durch (K · n)`(γ) gegeben ist. Hier ist n das
normale Einheitsvektor zu γ und `(γ) die Länge von γ. In allgemein (also falls K nicht
konstant ist und/oder γ keine Gerade ist) kann man versuchen den Fluss zu berechnen,
indem man γ in kleinen Stücken zerlegt. Sei also [a; b] 3 t → γ(t) ∈ R2 eine Kurve.
Für t ∈ [a; b] sei weiter n̂(t) den normale Einheitsvektor zu der Kurve γ im Punkt γ(t).
Die Orientirung der normale Einheitsvektor wird so gewählt, dass n̂(t) nach rechts zeigt
118
(bezüglich der Orientierung der Kurve γ). Der Fluss von K durch γ ist dann definiert
durch
Z b
Z
K(γ(t)) · n̂(t)|γ̇(t)|dt
(74)
F = K · n̂ds =
a
γ
Hier haben wir die Notation ds = |γ̇(t)|dt eingeführt.
Insbesondere ist der Fall einer geschlossenen Kurve γ interessant. Nehmen wir nämlich
an, dass γ = ∂B (mit mathematisch positive Orientierung), für eine Menge B ⊂ R2 . In
diesem Fall misst der F die Menge Flüssigkeit produziert (falls F > 0) oder vernichtet
(falls F < 0) in der Menge B pro Zeiteinheit. Ist γ = ∂B geschlossen, so kann man den
e
Fluss F wie folgt berechnen. Wir definieren ein neues Vektorfeld K(x)
indem wir K(x)
um π/2 nach links drehen. Mit andere Wörter, falls K = (K1 , K2 ), so definieren wir
e
e
K(−K
2 , K1 ). Dann ist K · n̂ = K · t, mit t der Einheitsvektor tangential zu γ (t zeigt
im Sinne der Orientierung der Kurve). Also
Z b
Z
e
e · dx
F =
K(γ(t)) · t(t)|γ̇(t)|dt = K
a
γ
Aus der Satz von Green folgt, dass
Z
e
F =
rot Kdxdy
B
#
Z " e
e1
∂ K2 ∂ K
=
−
dxdy
∂x
∂y
B
Z ∂K1 ∂K2
=
+
dxdy
∂x
∂y
B
Diese Berechnung motiviert die folgende Definition.
Definition 5.15. Sei U ⊂ Rn offen, und K : U → Rn ein C 1 -Vektorfeld. Wir bezeichnen
mit K = (K1 , . . . , Kn ) die Komponenten von K. Wir definieren die Divergenz von K
als
n
X
∂Kj
div K(x) =
(x)
∂xj
j=1
Die Divergenz eines Vektorfeld ist eine skalare Grösse.
Wir haben also bewiesen, dass für alle glatt berandeten Bereichen B ⊂ R2 und alle
Vektorfelder K definiert mindestens auf einer Umgebung von B, es gilt
Z
Z
K · n̂ds =
div Kdxdy
(75)
C 1-
∂B
B
Diese Formel ist equivalent zur Green’sche Formel; die Interpretation ist aber verschieden.
Bis hier haben wir den Fluss von 2-dimensionalen Vektorfelder untersucht. Jetzt
möchten wir den Fluss von Vektorfelder in 3 Dimensionen betrachten. Analog zum zweidimensionalen Fall definieren wir den Fluss vom Vektorfeld K durch die Fläche Σ als
Z
F =
K · n̂ dσ
Σ
119
wobei n̂ ein normaler Einheitvektor zur Fläche Σ ist und dσ das Oberflächenelement ist.
Um den Fluss von K durch Σ zu berechnen brauchen wir eine Parametrisierung von
Σ. Sei U ⊂ R2 offen und U 3 (s, t) → x(s, t) ∈ R3 eine Parametrisierung einer Fläche
Σ. Dann gilt
s
Z
∂x ∂x
K(x(s, t)) · n̂(s, t) gram
F =
dsdt
,
∂s ∂t
U
wobei n̂(s, t) den normale Einheitsvektor zur Fläche x im Punkt x(s, t) bezeichnet.
Eine einfache Berechnung zeigt, dass
∂x ∂x
×
∂s
∂t
ein Vektor orthogonal zu der Fläche ist, mit der Länge
s
∂x ∂x ∂x ∂x
∂s × ∂t = gram ∂s , ∂t
Das bedeutet, dass
Z
K(x(s, t)) ·
F =
U
∂x ∂x
×
(s, t) dsdt
∂s
∂t
(76)
(das definiert auch die Richtung vom normalen Einheitsvektor eindeutig).
Man bemerke, die Formel auf der rechten Seite von (76) ist invariant bezüglich
Änderungen der Parametrisierung (das gilt bis auf Wahl einer Orientierung der Fläche
Σ).
Insbesonderes wollen wir den Fluss von K durch Randflächen berechnen. Wie im zwei
dimensionalen Fall lässt sich der Fluss durch die Oberfläche eines Bereiches B ⊂ R3 als
das Integral der Divergenz von K über B ausdrucken. Das ist der Inhalt vom Satz von
Gauss (auch Divergenzsatz genannt). Um die Aussage genau zu formulieren brauchen
wir hier, ähnlich wie beim Satz von Green in zwei Dimensionen, den Begriff von glatt
berandeten Bereichen in R3 zu definieren.
Definition 5.16. Eine beschränkte, nicht-leere offene Teilmenge B ⊂ R3 heisst ein
glatt berandeten Bereich falls, für alle Punkten (x0 , y0 , z0 ) ∈ ∂B mindestens eine der
folgenden 6 Bedingungen erfüllt ist. a) Es existiert ein offenes Quader Q = (a1 ; a2 ) ×
(b1 ; b2 )×(c1 ; c2 ), mit (x0 , y0 , z0 ) ∈ Q und eine C 1 -Abbildung ϕ : [a1 ; a2 ]×[b1 ; b2 ] → [c1 ; c2 ]
mit
B ∩ Q = {(x, y, z) ∈ R3 : a1 ≤ x ≤ a2 , b1 ≤ y ≤ b2 und c1 ≤ z < ϕ(x, y)}
Mit anderer Wörter, im Quader Q um den Punkt (x0 , y0 , z0 ) ist ∂B das Graphen von
ϕ. b) Ähnlich wie a), aber
B ∩ Q = {(x, y, z) ∈ R3 : a1 ≤ x ≤ a2 , b1 ≤ y ≤ b2 und ϕ(x, y) < z ≤ c2 }
Die Fälle c),d),e),f ) sind alle ähnlich wie a),b), aber im kleinen Quader hat der Rand
die Form {x = ϕ(y, z)} oder {y = ϕ(x, z)} statt {z = ϕ(x, y)}.
120
Satz 5.17 (Satz von Gauss, Divergenzsatz). Sei B ein glatt berandeten Bereich, K ein
C 1 -Vektorfeld, definiert mindestens in einem Umgebung von B. Dann ist
Z
Z
div K dxdydz
(77)
K · n̂ dσ =
B
∂B
Hier ist n̂ der nach aussen gerichteten normale Einheitsvektor zur Fläche ∂B.
Beweis. Wie im Beweis vom Satz von Green genügt es, mit Hilfe einer Zerlegung der
Einheit, (77) für den Fall zu zeigen, dass supp K ⊂ Q, wobei Q ist entweder ein offenes Quader, enthalten in B, oder sonst Q ist ein offenes Quader, wie in einer der 6
Möglickeiten bei der Definition von glatt berandeten Bereich.
Nehmen wir zunächst an, Q = [a1 ; a2 ] × [b1 ; b2 ] × [c1 ; c2 ] ist ein Quader mit Q ⊂ B.
Dann gilt offenbar
Z
K · n̂dσ = 0
∂B
(weil supp K ⊂ Q verschwindet auf ∂B). Anderseits
Z
Z ∂K
∂K
∂K
div Kdxdydz =
+
+
dxdydz
∂y
∂z
B
Q ∂x
(78)
Betrachte z.B. den Term
Z a2
Z
Z
∂K
∂K
(x, y, z)dxdydz =
(x, y, z)dx dydz
Q ∂x
[b1 ;b2 ]×[c1 ;c2 ]
a1 ∂x
Z
=
[K(a2 , y, z) − K2 (a1 , y, z)] dydz = 0
[b1 ;b2 ]×[c1 ;c2 ]
weil K verschwindet auf dem Rand von Q. Analog verschwinden auch die andere zwei
Termen in (78). Damit ist
Z
Z
div Kdxdydz = 0 =
K · n̂dσ .
B
∂B
Wir nehmen nun an, supp K ⊂ Q, mit Q = (a1 ; a2 ) × (b1 ; b2 ) × (c1 ; c2 ) so, dass es
existiert eine C 1 -Funktion ϕ : [a1 ; a2 ] × [b1 ; b2 ] → [c1 ; c2 ] mit
B ∩ Q = {(x, y, z) ∈ R3 : a1 ≤ x ≤ a2 , b1 ≤ y ≤ b2 , c1 ≤ y < ϕ(x, y)}
Sei Σ die Fläche parametrisiert durch [a1 ; a2 ] × [b1 ; b2 ] 3 (x, y) → (x, y, ϕ(x, y)) =:
p(x, y). Dann gilt
Z
Z
Z
∂p ∂p
K · n̂dσ =
K · n̂dσ =
K(p(x, y)) ·
×
dxdy
∂x ∂y
∂B
Σ
[a1 ;a2 ]×[b1 ;b2 ]
Wir berechnen
Damit ist
∂p
= (1, 0, ∂x ϕ),
∂x
und
∂p
= (0, 1, ∂y ϕ)
∂y
∂p ∂p
×
= (−∂x ϕ, −∂y ϕ, 1)
∂x ∂y
121
Man bemerke, dass die z-Komponente dieses Vektor positiv ist; d.h. der normale Vektor
zeigt in der äussere Richtung, wie gewünscht. Also
Z
Z
h
K · n̂dσ =
− K1 (x, y, ϕ(x, y))∂x ϕ(x, y) − K2 (x, y, ϕ(x, y))∂y ϕ(x, y)
∂B
[a1 ;a2 ]×[b1 ;b2 ]
i
+ K3 (x, y, ϕ(x, y)) dxdy
(79)
Betrachten wir zunächst den ersten Integrand auf der rechten Seite. Wir haben
Z
K1 (x, y, ϕ(x, y))∂x ϕ(x, y)dxdy
−
[a1 ;a2 ]×[b1 ;b2 ]
Z
b2
=
Z
−
a2
(80)
K1 (x, y, ϕ(x, y))∂x ϕ(x, y)dx dy
a1
b1
Für y fest, wenden wir nun die Formel von Gauss in 2-Dimensionen mit dem Bereich
e
By = {(x, z) : a1 ≤ x ≤ a2 , c1 ≤ z ≤ ϕ(x, y)} und mit dem Vektorfeld K(x,
z) =
(K1 (x, y, z), 0). Wir finden
#
Z a2 "Z ϕ(x,y)
Z
Z
∂K1
e
e · n̂ds
K
(x, y, z)dz dx =
div kdxdz =
∂x
a1
c1
By
∂By
Z a2
=−
K1 (x, y, ϕ(x, y))∂x ϕ(x, y)dx
a1
Hier haben wir benutzt, dass K(x, y, z) verschwindet, falls x = a1 oder x = a2 (deswegen
reduziert sich das Integral über ∂By zu einem Integral auf der parametrisierte Kurve
[a1 ; a2 ] 3 x → (x, y, ϕ(x, y)), mit der Normale (−∂x ϕ(x, y), 0, 1)). Einsetzen in (80)
ergibt
Z
−
K1 (x, y, ϕ(x, y))∂x ϕ(x, y)dxdy
[a1 ;a2 ]×[b1 ;b2 ]
Z
a2
Z
b2
Z
ϕ(x,y)
=
a1
b1
c1
∂K1
(x, y, z)dxdydz =
∂x
Z
B
∂K1
(x, y, z)dxdydz
∂x
Analog können wir die andere zwei Integranden auf der rechten Seite von (79) betrachten.
Wir schliessen, dass
Z
Z
K · n̂dσ =
∂B
div K dxdydz
B
Alle andere Möglichkeiten, die wegen der Definition von glatt berandeten Bereichen
eintreten können, lassen sich ähnlich behandeln.
Bemerkung: wie im Fall der Satz von Green lässt sich der Satz von Gauss auf zulässiger Bereichen in R3 verallgemeinern. Ein zulässiger Bereich in R3 ist eine offene beschränkte Teilmenge B ⊂ R3 mit ∂B eine endliche Vereinigung von glatten Flächen so,
dass eine Folge von glatt berandeten Teilbereiche B1 ⊂ B2 ⊂ B3 ⊂ . . . existiert, mit
µ(B\Bn ) → 0 und so, dass die Oberfläche von der symmetrischen Differenz ∂B∆∂Bn
gegen Null strebt (A∆B = (A\B) ∪ (B\A)).
122
5.7
Satz von Stokes
Wir haben im Abschnitt 5.4 gesehen, dass die Rotation eines differenzierbaren Vektorfeldes K : U → Rn , definiert auf U ⊂ Rn eine schiefsymmetrische n × n Matrix ist, mit
Einträgen
∂Ki ∂Kj
[rot K(x)]ij =
−
∂xj
∂xi
Im Fall n = 3, rot K ist deswegen die schiefsymmetrische Matrix


0
a3
a2
a1 
M =  −a3 0
−a2 −a1 0
mit a1 = ∂Kz /∂y − ∂Ky /∂z , a2 = ∂Kx /∂z − ∂Kz /∂x und a3 = ∂Ky /∂x − ∂Kx /∂y. Die
schiefsymmetrische Matrix M kann, in drei Dimensionen, in einer natürliche Weise mit
dem Vektor a = (a1 , a2 , a3 ) identifiziert werden (natürlich in der Sinne, dass die zwei
Objekten gleich transformieren, bezüglich Rotationen, d.h. falls R eine Rotation-Matrix
ist, es gilt M (Ra) = RM (a)R−1 ). D.h. in drei Dimensionen können wir die Rotation
von einem Vektorfeld K als das neue Vektorfeld
∂Ky ∂Kx ∂Kz ∂Ky
∂Kz
∂Kx
rot K =
−
,
−
,
−
∂y
∂z
∂z
∂x ∂x
∂y
definieren. Wir schreiben auch rot K = ∇ × K, weil, wie für das Vektorprodukt zwei
Vektoren,
X
[rot K]i =
εij` ∂xj K`
j,`
mit dem antisymmetrischen Tensor εij` = 1 falls (i, j, `) = (1, 2, 3) oder eine zyklische Permutation, εij` = −1 falls (i, j, `) = (3, 2, 1) oder eine zyklische Permutation,
und εij` = 0 sonst (man bemerke, dass wir wechseln zwischen den Notationen (x, y, z)
und (x1 , x2 , x3 ) für die Koordinaten, und zwischen den Notationen (Kx , Ky , Kz ) und
(K1 , K2 , K3 ) für die drei Komponenten des Vektorfeldes K).
Ist K das Geschwindigkeitsfeld einer Flüssigkeit, so misst der Vektor rot K die rotationelle Komponente der Bewegung der Flüssigkeit, d.h. die Anwesenheit von Wirbeln. Ein Vektorfeld heisst wirbelfrei, falls rot K = 0. Wir haben schon bewiesen, dass
rot ∇ϕ = 0, d.h. die Rotation von Gradientenfelder ist immer Null (wir haben auch
bewiesen, dass rot K = 0 ist auf konvexe Bereiche eine hinreichende Bedingung dafür,
dass K konservativ ist).
Der Satz von Stokes besagt, dass der Fluss von rot K durch eine Fläche Σ in R3
dasselbe ist, wie das Linienintegral von K entlang der Randkurve von Σ. Diese Formel
spiel eine sehr wichtige Rolle in der Elektrodynamik. Um die Aussage genau zu schreiben
brauchen wir zunächst ein Paar Definitionen.
Eine Fläche Σ ⊂ R3 heisst orientierbar, falls es eine stetige Wahl von einem normale
Einheitsvektor n̂ in jedem Punkt von Σ existiert. Nicht alle Fläche sind orientierbar;
zB. ist das Möbiusband eine nicht orientirbare Fläche. Im folgenden werden wir nur
orientierbare Fläche betrachten (der Satz von Stokes gilt nur für solche Fläche).
Man muss ein bisschen aufpassen, was wir mit Randkurve einer Fläche Σ meinen. Als
Teilmenge von R3 ist ∂Σ = Σ (weil jede drei-dimensionale Umgebung eines Punktes auf
123
der Fläche Σ ein nicht leeres Durchschnitt mit Σ und mit Σc hat). Wir betrachten hier
die Randkurve von Σ, definiert als Σ\Σ; wir werden hier die nicht so genaue Notation
∂Σ := Σ\Σ benutzten.
Die Wahl einer Orientierung von Σ bestimmt auch eine Orientierung von der Randkurve ∂Σ. Die Regel ist hier, dass gesehen vom Rand her (mit Kopf in der Richtung der
gewählte Normale n̂) die Fläche Σ sollte auf linke Seite sein.
Wir sagen eine Fläche sei glatt berandete, falls für jedem Punkt (x0 , y0 , z0 ) ∈ Σ\Σ
es existieren eine offene Umgebung U von (x0 , y0 , z0 ) und eine reguläre C 1 -Abbildung
ψ : R2 ⊃ B1 (0) → R3 mit ψ(0, 0) = (x0 , y0 , z0 ) und
Σ ∩ U = ψ {(s, t) : s2 + t2 < 1 und t > 0}
Wir können hier annehmen, dass die lokale Parametrisierung ψ die gewählte Orientirung
der Fläche Σ respektiert, in der Sinne, dass der Vektor ∂s ψ × ∂t ψ überall in der selben
Richtung wie n̂ zeigt.
Man bemerke, dass die lokale Parametrisierung ψ von der Fläche Σ auch eine Parametrisierung der Randkürve ∂Σ = Σ\Σ definiert, durch seine Einschränkung auf
{(s, t) ∈ B1 (0) : t = 0}.
Satz 5.18 (Satz von Stokes). Seien Σ eine glatt berandete orientierte Fläche, K ein
C 1 -Vektorfeld definiert auf einer offenen Umgebung von Σ. Dann ist
Z
Z
rot K · n̂ dσ =
K · dx
(81)
Σ
∂Σ
Bemerkung: 1) Insbesondere es folgt aus Satz 5.18, dass, wenn die Fläche Σ geschlossen ist (ohne Randkurve), so muss
Z
rot K · n̂ dσ = 0
Σ
gelten. Das ist keine Überraschung, weil in diesem Fall ist Σ = ∂B, für ein offene
beschränkter Bereich B ⊂ R3 . Deswegen kann man der Fluss von rot K mit dem Satz
von Gauss berechnen. Eine einfache Rechnung zeigt aber, dass
div rot K = 0
für alle (zwei Mal differenzierbare) Vektorfelder K gilt (mit rot K = ∇×K und div K =
∇ · K, finden wir, wie für Vektoren, ∇ · (∇ × K) = 0). Tatsächlich kann man zeigen,
dass falls ein Vektorfeld K die Eigenschaft
Z
K · n̂ dσ = 0
Σ
für alle geschlossenen Flächen Σ hat, so muss ein Vektorfeld v existieren, mit K = rot v
(das ist ähnlich wie die Tatsache, dass nur Gradientenfelder haben verschwindenden
Linienintegrale auf jeder geschlossenen Kurve).
2) In einem einfachen Fall, haben wir den Satz von Stokes schon bewiesen. Ist nämlich
Σ flach, eine Teilmenge vom Ebene {(x, y, z) : z = 0}, dann ist n̂ = (0, 0, 1) und
rotK · n̂ =
∂Ky
∂Kx
−
∂x
∂y
124
In diesem Fall ist (81) völlig equivalent zur 2-dimensionale Formel von Green, bewiesen
in Satz 69. Im Beweis von Satz 5.18 werden wir diese Bemekrung benutzen.
Beweis von Satz 5.18. Mit Hilfe einer Zerlegung der Einheits, können wir annehmen,
dass
1) Die Fläche Σ hat eine globale parametrisierung. D.h. es existieren eine offene
Menge B ⊂ R2 und eine reguläre C 1 -Abbildung ψ : B → R3 mit Σ = ψ(B).
Wir nehmen an, die Orientirung von Σ ist so, dass ∂t1 ψ × ∂t2 ψ in der selben
Richtung wie n̂ zeigt.
2) Der Rand von B besteht aus einer einzigen glatten Kurve β : [0; 2π] 3 θ → t(θ) =
(t1 (θ), t2 (θ)) ∈ R2 .
Unter diesen Annahmen, berechnen wir
Z
Z
∂ψ
∂ψ
rot K(ψ(t1 , t2 )) ·
rot K · n̂ dσ =
×
(t1 , t2 ) dt1 dt2
∂t1 ∂t2
B
Σ
Eine einfache Berechnung zeigt, dass
3 X
∂Kj
∂ψ
∂ψ
∂Ki ∂ψi ∂ψj
rot K ·
×
=
−
∂t1 ∂t2
∂xi
∂xj ∂t1 ∂t2
(82)
i,j=1
e 1 , t2 ) := K(ψ(t1 , t2 )). Dann ist
Sei K(t
3
X ∂Kj ∂ψi
ej
∂K
=
∂t1
∂xi ∂t1
3
und
j=1
e i X ∂Ki ∂ψj
∂K
=
∂t2
∂xj ∂t2
(83)
j=1
Aus (82) wir finden
X
3
3
e j ∂ψj X
e i ∂ψi
∂K
∂ψ
∂K
∂ψ
×
=
−
rot K ·
∂t1 ∂t2
∂t1 ∂t2
∂t2 ∂t1
j=1
i=1
∂ e ∂ψ
∂ e ∂ψ
=
K·
−
K·
∂t1
∂t2
∂t2
∂t1
Hier haben wir die Tatsache benutzt, dass der Beitrag
2
e · ∂ ψ (t1 , t2 )
K
∂t1 ∂t2
von den zwei Summanden kürzt sich genau weg. Wir definieren nun auf B das zweidimensionale Vektorfeld
∂ψ
∂ψ
e
e
ω(t1 , t2 ) = K ·
(t1 , t2 ), K ·
(t1 , t2 )
∂t1
∂t2
und wir bemerken, dass
∂ω2 ∂ω1
∂ e ∂ψ
∂ e ∂ψ
−
=
(t1 , t2 ) −
(t1 , t2 )
rot ω =
K·
K·
∂t1
∂t2
∂t1
∂t2
∂t2
∂t1
125
Aus (83) bekommen wir
Z
Z
Z
ω · dt
rot ω dt1 dt2 =
rot K · n̂ dσ =
∂B
B
Σ
Z 2π
∂ψ
dt1 (θ)
dt2 (θ)
∂ψ
e
e
=
K(t(θ)) ·
(t(θ))
(t(θ))
dθ
+ K(t(θ)) ·
∂t1
dθ
∂t2
dθ
0
Z 2π
Z
d
K(ψ(t(θ))) ψ(t(θ)) =
=
K · dx
dθ
0
∂Σ
126
Herunterladen