Mehrere reelle Veränderliche

Werbung
Kapitel 7
Mehrere reelle Veränderliche
Einleitung
Bisher wurden nur Funktionen betrachtet, bei denen sowohl das
Argument x als auch der Funktionswert f (x) reelle Zahlen waren,
die also von Teilmengen von R nach R gingen.
Im Folgenden sollen jedoch Funktionen untersucht werden, die
nicht nur von einer, sondern von mehreren reellen Veränderlichen
abhängen, zum Beispiel
I
Funktionen, die nicht mehr auf einer Zahlengeraden, sondern
auf einer Zahlenebene bzw. einem Stück davon definiert sind,
oder
I
Funktionen, die in Abhängigkeit von Punkten des Raumes
definiert sind, oder
I
Funktionen, die von noch mehr Variablen abhängen, weil diese
als Parameter in ihrer Definition auftreten.
Zudem sollen auch kompliziertere Werte angenommen werden
dürfen als nur reelle Zahlen.
Abschnitt 7.1
Der Rn und Operationen mit seinen
Elementen
Der Rn als Menge, 1
Sei n ∈ N× eine feste natürliche Zahl.
Unter dem Rn als Menge wird das n-fache kartesische Produkt von
R mit sich selbst verstanden, also
Rn := |R × R × ·{z
· · × R × R} .
n Mal
Speziell gilt
I
R2 = R × R, was man sich mittels Festlegung von
Koordinatenachsen als kartesische Zahlenebene geometrisch
veranschaulichen kann,
I
R3 = R × R × R, was man sich mittels Festlegung von
Koordinatenachsen als Umgebungsraum geometrisch
veranschaulichen kann,
I
R1 = R, was man geometrisch als Zahlengerade interpretieren
kann.
Der Rn als Menge, 2
Die Elemente des Rn werden in dieser Vorlesung in Form von Zeilen
notiert:
Rn = {(x1 , x2 , . . . , xn−1 , xn ) : x1 , x2 , . . . , xn−1 , xn ∈ R} .
Im Prinzip gleichwertig ist die Schreibweise als Spalten:



x1










x


 2 

 .. 
R =  .  : x1 , x2 , . . . , xn−1 , xn ∈ R .








 xn−1 






xn
Der Rn als Menge, 3
Mittels des Transponierens – welches durch ein „τ “ als Exponent
gekennzeichnet wird – kann man aus Zeilen Spalten machen und
umgekehrt:


x1
 x2 




τ
(x1 , x2 , . . . , xn−1 , xn ) :=  ... 


 xn−1 
xn
und

x1
x2
..
.





 xn−1
xn
τ



 := (x1 , x2 , . . . , xn−1 , xn ).


Vorläufige Reduktion auf die Wertemenge R, 1
Letztlich sollen im Folgenden Funktionen F betrachtet werden, die
auf einer Teilmenge D des Rn definiert sind und deren
Funktionswerte in einem Rm liegen mit m ∈ N× , wobei die Zahlen
n und m nicht in einer Beziehung zu einander stehen müssen.
Einen Großteil der Überlegungen kann man sich jedoch wie folgt
vereinfachen: Für eine Funktion
F : D → Rm
mit D ⊂ Rn ist für jedes x ∈ D der Wert F (x) ein Element des
Rm , also von der Gestalt
F (x) = (y1 , y2 , . . . , ym−1 , ym )
mit y1 , y2 , . . . , ym−1 , ym ∈ R.
Für µ = 1, . . . , m definiere man nun eine Funktion
fµ : D → R
durch fµ (x) := yµ .
Vorläufige Reduktion auf die Wertemenge R, 2
Dann gilt
F (x) = (f1 (x), f2 (x), . . . , fm−1 (x), fm (x))
für x ∈ D,
und die Funktion
F : D → Rm
(hier spricht man manchmal auch von einer Abbildung) wird
beschrieben durch die m Funktionen
fµ : D → R
für µ = 1, . . . , m
(hier spricht man manchmal auch von Funktionen im engeren
Sinne).
Daher werden im Folgenden zunächst nur Funktionen f : D → R
betrachtet.
Addition von n-Tupeln, 1
Definition. Für zwei n-Tupel x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn und
y = (y1 , y2 , . . . , yn−1 , yn ) ∈ Rn definiert man die Summe x + y
von x und y durch
x + y := (x1 + y1 , x2 + y2 , . . . , xn−1 + yn−1 , xn + yn )
(Addition zweier Elemente des Rn ).
Interpretation dieser Addition in der Zahlenebene. Zwei Paare reeller
Zahlen x = (x1 , x2 ) und y = (y1 , y2 ) reeller Zahlen werden addiert,
indem man die gerichtete Strecke vom Koordinatenursprung nach y
parallel so verschiebt, dass ihr Anfangspunkt in x zu liegen kommt.
Der Endpunkt liegt dann an der Stelle x + y .
Addition von n-Tupeln, 2
x + yr = (x1 + y1 , x2 + y2 )
Y
H
y = (y1 , y2 )
rH
Y
HH
H
HH
Hr x = (x1 , x2 )
>
Der Rn als additive Gruppe
Definiert man
0 := (0, 0, . . . , 0, 0)
und
−x := (−x1 , −x2 , . . . , −xn−1 , −xn ),
so erfüllt Rn mit der oben definierten Addition die Eigenschaften
A 1 bis A 4 aus der Definition eines Körpers in Abschnitt 1.2.
(Man fasst dies zusammen, indem man sagt, dass der Rn eine
abelsche Gruppe bezüglich der Addition ist, vgl. die Veranstaltung
„Lineare Algebra“.)
Insbesondere wird die Subtraktion zweier n-Tupel
x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn und y = (y1 , y2 , . . . , yn−1 , yn ) ∈ Rn
definiert durch
x − y := (x1 − y1 , x2 − y2 , . . . , xn−1 − yn−1 , xn − yn ).
Warnung
Im Allgemeinen lässt sich keine Multiplikation auf dem Rn
definieren, durch die dieser zu einem Körper wird.
Ausnahmen sind die Fälle
I
n = 1: Dies ist der Körper R der reellen Zahlen selbst.
I
n = 2: Dies ist der Körper C der komplexen Zahlen (siehe
später).
Im Falle n = 4 gibt es noch den „Schiefkörper“ Q der Quaternionen,
von dem man das Vektorprodukt ableiten kann und der in der
Computervisualistik Verwendung findet bei der Parametrisierung
von räumlichen Drehungen. Allerdings ist in Q die Multiplikation
nicht mehr kommutativ.
Skalare Multiplikation von n-Tupeln, 1
Definition. Für x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn ein Element des Rn
und r ∈ R eine reelle Zahl definiert man das skalare Vielfache
von x mit r als
rx := (rx1 , rx2 , . . . , rxn−1 , rxn )
(Multiplikation eines Elements des Rn mit einer reellen Zahl).
Geometrisch wirkt eine skalare Multiplikation mit einem festen
Faktor r auf den Rn als eine zentrische Streckung mit dem
(orientierten!) Faktor r und dem Streckungszentrum 0 = (0, . . . , 0).
Aufgrund der Definition der skalaren Multiplikation gelten
offensichtlich folgende
Skalare Multiplikation von n-Tupeln, 2
Rechenregeln für die skalare Multiplikation. Seien
x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Rn und r , s ∈ R beliebig.
Dann gilt
I
(rs)x = r (sx), d. h.
(rs)(x1 , . . . , xn ) = r (sx1 , . . . , sxn )
(Assoziativgesetz der skalaren Multiplikation),
I
1x = x, d. h.
1(x1 , . . . , xn ) = (x1 , . . . , xn ),
I
(r + s)x = rx + sx, d. h.
(r + s)(x1 , . . . , xn ) = r (x1 , . . . , xn ) + s(x1 , . . . , xn ) und
r (x + y ) = rx + ry , d. h.
r (x1 + y1 , . . . , xn + yn ) = r (x1 , . . . , xn ) + r (y1 , . . . , yn )
(Distributivgesetze).
Skalare Multiplikation von n-Tupeln, 3
Diese Rechenregeln fasst man mit den Regeln A 1 bis A 4 für die
Addition von n-Tupeln in der Veranstaltung „Lineare Algebra“ so
zusammen, dass man sagt, dass der Rn mit der oben definierten
Addition und der skalaren Multiplikation zu einem Vektorraum
wird, genauer: zu einem R-Vektorraum.
Definition / Sprachgebrauch. Die Elemente x = (x1 , . . . , xn ) des
Rn werden auch als Vektoren bezeichnet, die Zahlen r aus R als
Skalare.
Die kanonische Basis des Rn , 1
Definition. Sei
e1 :=
(1, 0, 0, . . . , 0, 0, 0),
e2 :=
..
.
(0, 1, 0, . . . , 0, 0, 0),
..
.
en−1 :=
(0, 0, 0, . . . , 0, 1, 0),
en :=
(0, 0, 0, . . . , 0, 0, 1).
Dann heißt
e1 , e2 , . . . , en−1 , en
die kanonische Basis des Rn .
Die kanonische Basis des Rn , 2
Bemerkung. Jedes x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn lässt sich
schreiben als
x
=
(x1 , x2 , . . . , xn−1 , xn )
=
(x1 , 0, 0, . . . , 0, 0, 0) + (0, x2 , 0, . . . , 0, 0, 0)
+ · · · (0, 0, 0, . . . , 0, xn−1 , 0) + (0, 0, 0, . . . , 0, 0, xn )
=
x1 (1, 0, 0, . . . , 0, 0, 0) + x2 (0, 1, 0, . . . , 0, 0, 0)
+ · · · xn−1 (0, 0, 0, . . . , 0, 1, 0) + xn (0, 0, 0, . . . , 0, 0, 1)
=
x1 e1 + x2 e2 + · · · + xn−1 en−1 + xn en .
Die kanonische Basis des Rn , 3
Solch eine Darstellung ist eindeutig:
Gilt für x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn auch
x = y1 e1 + y2 e2 + · · · + yn−1 en−1 + yn en
mit y1 , y2 , . . . , yn−1 , yn ∈ R, so folgt wegen
y1 e1 + y2 e2 + · · · + yn−1 en−1 + yn en = (y1 , y2 , . . . , yn−1 , yn ),
dass gilt
y1 = x1 ,
y2 = x2 ,
...,
yn−1 = xn−1 ,
yn = xn .
Das Skalarprodukt, 1
Durch die skalare Multiplikation werden ein Skalar und ein Vektor
mit einander verknüpft; das Ergebnis ist ein Vektor.
Durch das Skalarprodukt hingegen werden zwei Vektoren mit
einander verknüpft; das Ergebnis ist ein Skalar.
Definition. Für x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Rn definiert
man das Skalarprodukt hx, y i von x und y durch
hx, y i := x1 y1 + · · · + xn yn .
Das Skalarprodukt, 2
Eigenschaften des Skalarproduktes. Für
x = (x1 , . . . , xn ), y = (y1 , . . . , yn ), z = (z1 , . . . , zn ) ∈ Rn und r ∈ R
gilt:
I
hx + z, y i = hx, y i + hz, y i,
I
hx, y + zi = hx, y i + hx, zi,
I
hrx, y i = r hx, y i = hx, ry i,
I
hx, y i = hy , xi,
I
hx, xi = 0.
I
Es ist hx, xi = 0 genau dann, wenn x = 0 gilt.
Cauchy-Schwarz-Bunjakowskische Ungleichung, 1
Cauchy-Schwarz-Bunjakowskische Ungleichung. Seien x, y ∈ Rn .
Dann gilt
p
p
hx + y , x + y i 5 hx, xi + 2 hx, xi hy , y i + hy , y i.
Beweis. Für y = 0 ist nichts zu zeigen. Sei also im Folgenden y 6= 0
und daher hy , y i =
6 0.
Für jedes λ ∈ R gilt
0 5
hx − λy , x − λy i
=
hx − λy , xi − λhx − λy , y i
=
hx, xi − 2λhx, y i + λ2 hy , y i.
Cauchy-Schwarz-Bunjakowskische Ungleichung, 2
Wählt man nun speziell
λ :=
hx, y i
,
hy , y i
so ergibt sich
hx, y i 2
hx, y i
1
·hy , y i = hx, xi−hx, y i2 ·
·hx, y i+
,
0 5 hx, xi−2
hy , y i
hy , y i
hy , y i
also
hx, y i2 5 hx, xi · hy , y i.
Damit folgt
hx + y , x + y i =
5
hx, xi + 2hx, y i + hy , y i
p
p
hx, xi + 2 hx, xi hy , y i + hy , y i.
Lineare Abbildungen, 1
Definition. Eine Abbildung L : Rn → Rm heißt linear, genauer:
R-linear, wenn für alle x, y ∈ Rn und alle r ∈ R gilt:
L(x + y ) = L(x) + L(y )
und
L(rx) = rL(x).
Hilfssatz. Sei ` : Rn → R eine lineare Funktion.
Dann gibt es ein a = (a1 , . . . , an ) ∈ Rn , so dass für alle x ∈ Rn gilt
`(x) = ha, xi.
Dieses a ist zudem eindeutig bestimmt.
Insbesondere sind die linearen Funktionen ` : R → R genau die
Funktionen der Gestalt x 7→ d · x mit d ∈ R beliebig, aber fest.
Lineare Abbildungen, 2
Beweis. Bezeichnet e1 , . . . , en die kanonische Basis des Rn , so gilt
für jedes x = (x1 , . . . , xn ) ∈ Rn , dass
x = x1 e1 + · · · + xn en .
Da ` linear ist, folgt daraus
`(x) =
`(x1 e1 + · · · + xn en ) = `(x1 e1 ) + · · · + `(xn en )
=
x1 `(e1 ) + · · · + xn `(en )
=
h((x1 , . . . , xn ), `(e1 ), . . . , `(en ))i
=
h(`(e1 ), . . . , `(en )) , xi.
Setzt man
a := (`(e1 ), . . . , `(en )) ,
so gilt also für alle x ∈ Rn , dass
`(x) = ha, xi.
Lineare Abbildungen, 3
Ist umgekehrt b = (b1 , . . . , bn ) ∈ Rn gegeben mit der Eigenschaft,
dass für alle x ∈ Rn gilt
`(x) = hb, xi,
so gilt für alle ν ∈ {1, . . . , n} speziell
`(eν ) =
hb, eν i
=
b1 · 0 + · · · + bν−1 · 0 + bν · 1 + bν+1 · 0 + · · · + bn · 0
=
bν ,
so dass folgt
b = (`(e1 ), . . . , `(en )) = a.
Abschnitt 7.2
Topologische Grundbegriffe
für den Rn
Folgen und Reihen von Vektoren und deren Konvergenz, 1
Um für Vektoren aus dem Rn über Konvergenz, . . . zu reden oder
für Funktionen f : Rn ⊃ D → R oder gar Abbildungen
F : Rn ⊃ D → Rm über Stetigkeit, . . . , definiert man so viel wie
eben möglich genau so wie in der bereits behandelten Situation
einer Veränderlichen oder führt die Definition auf diese Situation
zurück:
Definition. Eine Abbildung
c : N0 → Rn
mit
j 7→ c (j) := c(j) für j ∈ N0
nennt man Folge mit Werten im Rn , entsprechend, wenn der
Definitionsbereich von c gleich N× ist.
Für j ∈ N0 gilt c (j) ∈ Rn ; dieses Folgenglied hat also die Gestalt
(j)
(j)
(j)
(j)
c (j) = c1 , . . . , cn
mit c1 , . . . , cn ∈ R.
Folgen und Reihen von Vektoren und deren Konvergenz, 2
Die Folge
c (j)
j
heißt konvergent gegen ein c = (c1 , . . . , cn ) ∈ Rn , wenn für jedes
ν ∈ {1, . . . , n} die Folge reeller Zahlen
cν(j)
j
gegen die reelle Zahl cν konvergiert.
Wie in der Situation von Folgen reeller Zahlen schreibt man dann
c = lim c (j) .
j→∞
Folgen und Reihen von Vektoren und deren Konvergenz, 3
Definition. Sei c (j) j eine Folge mit Werten im Rn mit
(j)
(j)
c (j) = c1 , . . . , cn
für j ∈ N0 . Zu dieser Folge definiert man die
zugehörige Reihe
∞
X
c (j)
j=0
als Folge der Partialsummen


k
X

c (j) 
j=0
k
mit dem k-te Folgenglied gleich


k
k
X
X
(j)
(j)

c1 , . . . ,
cn  .
j=0
j=0
Folgen und Reihen von Vektoren und deren Konvergenz, 4
Demgemäß heißt die Reihe
∞
X
c (j)
j=0
konvergent gegen ein d = (d1 , . . . , dn ) ∈ Rn , wenn für jedes
ν ∈ {1, . . . , n} die Reihe reeller Zahlen
∞
X
cν(j)
j=0
gegen die reelle Zahl dν konvergiert.
Wie in der Situation von Reihen reeller Zahlen schreibt man dann
d=
∞
X
j=0
c (j) .
Folgen und Reihen von Vektoren und deren Konvergenz, 5
Rechenregeln. Aufgrund der obigen Definition der Konvergenz für
Folgen und Reihen von Elementen des Rn übertragen sich
Rechenregeln wie:
I
Sind (aj )j und (bj )j konvergente Folgen, so ist auch die Folge
(aj + bj )j konvergent, und es gilt
lim (aj + bj ) = lim aj + lim bj .
j→∞
I
j→∞
j→∞
...
wörtlich von der Situation von Folgen von reellen Zahlen auf Folgen
von Elementen des Rn .
Stetigkeit von Funktionen von mehreren Veränderlichen, 1
Dadurch, dass man die Konvergenz von Folgen im Rn bzw. Rm
definiert hat, kann man die gesamte in Abschnitt 4.1 für eine reelle
Veränderliche entwickelte Theorie der Funktionsgrenzwerte auf die
Situation mehrerer Veränderlicher übertragen, insbesondere den
Begriff der Stetigkeit:
Definition. Sei D ⊂ Rn und F : D → Rm eine Abbildung.
Dann heißt F stetig im Punkt c ∈ D, wenn für jede Folge c (j) j
von Elementen des Rn mit
lim c (j) = c ∈ Rn
j→∞
gilt
lim F c (j) = F (c) ∈ Rm .
j→∞
Die Abbildung F heißt stetig auf D, wenn sie in jedem c ∈ D
stetig ist.
Stetigkeit von Funktionen von mehreren Veränderlichen, 2
Aufgrund der Definition der Konvergenz von Folgen von Elementen
des Rm ergibt sich folgender
Hilfssatz. Sei D ⊂ Rn und F : D → Rm eine Abbildung. Man
schreibe F in der Gestalt
F (x) = (f1 (x), . . . , fm (x))
für x ∈ Rn
mit Funktionen fµ : D → R für µ ∈ {1, . . . , m}.
Dann ist F genau dann stetig im Punkt c ∈ D, wenn jede der
Funktionen fµ mit µ ∈ {1, . . . , m} stetig in c ist.
Stetigkeit von Funktionen von mehreren Veränderlichen, 3
Aus diesem Hilfssatz und dem Hilfssatz aus Abschnitt 7.1 ergibt
sich folgendes
Beispiel. Jede lineare Abbildung vom Rn zum Rm ist stetig auf
ganz Rn .
Warnung! Die Zurückführung auf den Fall einer reellen
Veränderlichen funktioniert so einfach nur für die Werte der
Funktion, nicht für deren Argumente:
Man definiere die Funktion f : R2 → R durch

x1 x2

falls (x1 , x2 ) 6= (0, 0) ist,
 2
2
x
+
x
1
2
f (x1 , x2 ) :=


0
falls (x1 , x2 ) = (0, 0) ist.
Stetigkeit von Funktionen von mehreren Veränderlichen, 4
Beschränkt
dann auf solche Folgen
man sich
(j) (j)
(j)
6= (0, 0), die sich (0, 0) nur entlang der
c j = c1 , c2
j
(j)
x1 -Achse nähern, für die also stets c2 = 0 ist, so gilt
(j)
c ·0
f c (j) = 12
= 0,
(j)
c1
+ 02
also auch
lim f c
j→∞
(j)
= 0 = f (0, 0).
Entsprechendes gilt für Folgen, die sich (0, 0) nur entlang der
x2 -Achse nähern.
Stetigkeit von Funktionen von mehreren Veränderlichen, 5
Hingegen gilt zwar
lim
j→∞
1
1
j+1 , j+1
aber
f
1
1
j+1 , j+1
=
1
j+1
= (0, 0),
1
j+1
2
·
+
1
j+1
1
j+1
2 =
1
2
für alle j ∈ N0 und daher
lim f
j→∞
1
1
j+1 , j+1
=
1
6= 0 = f (0, 0).
2
Somit ist f doch nicht stetig in (0, 0) (wohl aber auf dem ganzen
R2 − {(0, 0)}).
Verallgemeinerung des Absolutbetrags, 1
Bei der Definition der Konvergenz von Folgen bzw. Reihen reeller
Zahlen wird der Absolutbetrag |.| verwendet, um durch |cj − c|
den Abstand von Folgenglied cj und (möglichem) Grenzwert c
auszudrücken. Ebenso – und sogar doppelt – wird der
Absolutbetrag beim ε-δ-Kriterium für die Stetigkeit verwendet.
Angesichts der Definition der Konvergenz von Folgen von
Elementen des Rn kann man auf die Idee kommen, den
Absolutbetrag zu verallgemeinern zu
k(x1 , . . . , xn )k∞ := max {|x1 |, . . . , |xn |}
für (x1 , . . . , xn ) ∈ Rn .
Verallgemeinerung des Absolutbetrags, 2
Eine weitere offensichtliche Möglichkeit ist, den von der
Zeichenebene her bekannten üblichen (euklidischen) Abstand
q
k(x1 , . . . , xn )k2 := x12 + · · · + xn2
zu verwenden, der zudem mit dem Skalarprodukt zusammenhängt
vermittels
k(x1 , . . . , xn )k2 = h(x1 , . . . , xn ), (x1 , . . . , xn )i bzw. kxk2 = hx, xi.
Gewissermaßen ein Kompromiss zwischen diesen beiden ist es,
k(x1 , . . . , xn )k1 := |x1 | + · · · + |xn |
zu setzen.
Der Begriff der Norm, 1
In Übertragung der Eigenschaften des Absolutbetrags gibt man
folgende
Definition. Eine Abbildung k.k : Rn → R heißt Norm auf dem
Rn , falls gilt:
1. Für alle x ∈ Rn gilt kxk = 0.
Es gilt kxk = 0 genau dann, wenn x = 0 ist.
2. Für alle x, y ∈ Rn gilt
kx + y k 5 kxk + ky k.
(Dreiecksungleichung)
3. Für alle x ∈ Rn und alle r ∈ R gilt
krxk = |r | kxk.
Der Begriff der Norm, 2
Die Eigenschaften 1. und 2. sind wörtlich so vom Absolutbetrag
übernommen; bei Eigenschaft 3. hat man die Produktregel auf die
skalare Multiplikation übertragen, da im Allgemeinen kein sinnvolles
Produkt von Vektoren zu definieren ist.
Der Name „Dreiecksungleichung“ wird jetzt verständlich: Die Seite
von 0 nach x + y des von 0, x und x + y gebildeten Dreiecks ist
höchstens so lang wie die Summe der Längen der beiden anderen
Seiten (von 0 nach x bzw. x nach x + y ).
Beispiele für Normen, 1
Alle drei genannten Beispiele sind Normen im Sinne dieser
Definition:
Für k.k∞ und k.k1 sieht man dies sofort oder rechnet es einfach
nach.
Für k.k2 folgt dies aus den in Abschnitt 7.1 bewiesenen
Eigenschaften des Skalarproduktes, insbesondere die
Dreiecksungleichung 2. aus der Cauchy-Schwarz-Bunjiakowskischen
Ungleichung
p
p
hx + y , x + y i 5 hx, xi + 2 hx, xi hy , y i + hy , y i
für x, y ∈ Rn beliebig, also
kx + y k22 5 kxk22 + 2kxk2 ky k2 + ky k22 = (kxk2 + ky k2 )2 .
Beispiele für Normen, 2
Im Konkreten unterscheiden sich die Normen aber erheblich:
Betrachtet man nur die Situation im R2 , so liefern zwar alle drei
Normen für die Punkte (1, 0), (−1, 0), (0, 1) und (0, −1) den
Wert 1. Die Menge aller Punkte x ∈ R2 mit der Norm 1 ist aber
I
für k.k∞ der Rand des achsenparallelen Quadrats, welches die
vier genannten Punkte als Seitenmittelpunkte hat,
I
für k.k2 die Kreislinie um 0 mit Radius 1 und
I
für k.k1 der Rand eines Quadrates mit den vier genannten
Punkten als Ecken.
Weiterhin gilt für (1, 1, . . . , 1, 1) ∈ Rn , dass:
I
k(1, 1, . . . , 1, 1)k∞ = 1,
√
k(1, 1, . . . , 1, 1)k2 = n und
I
k(1, 1, . . . , 1, 1)k1 = n.
I
Beispiele für Normen, 3
Dabei handelt es sich aber sozusagen um den „schlimmstmöglichen
Fall“:
Lemma 1. Für alle x ∈ Rn gilt
kxk∞ 5 kxk2 5 kxk1 5 n · kxk∞ .
Beweis. Sei x = (x1 , . . . , xn ) ∈ Rn beliebig. Man setze
M := max {|x1 |, . . . , |xn |} .
Dann gilt
kxk∞ =
kxk2 =
=
kxk1 =
5
M,
q
x12 + · · · + xn2
p
0 + · · · + 0 + M 2 + 0 + · · · + 0 = M = kxk∞ ,
|x1 | + · · · + |xn |
M + · · · + M = n · M = n · kxk∞
Beispiele für Normen, 4
und
kxk21 =
=
(|x1 | + · · · + |xn |) · (|x1 | + · · · + |xn |)
|x1 |2 + · · · + |xn |2 = kxk22
Konsequenz. Will man Grenzprozesse für mehrere Veränderliche
definieren, sind alle drei Normen (in Wirklichkeit sogar: alle
möglichen Normen auf dem Rn im Sinne der obigen Definition)
gleich gut geeignet als Verallgemeinerung des Betrages aus der
Situation einer Veränderlichen.
Daher kann im Folgenden häufig k.k statt k.k∞ bzw. k.k2 bzw.
k.k1 geschrieben werden.
Topologische Grundbegriffe für den Rn , 1
Insbesondere gilt:
Lemma 2. Eine Folge c (j) j von Elementen c (j) ∈ Rn ist
konvergent gegen c ∈ Rn , wenn es zu jedem ε > 0 ein
k = k(ε) ∈ N0 gibt, so dass für alle j = k gilt
kc (j) − ck < ε.
Diese Aussage ist dabei unabhängig von der Wahl der Norm.
Lemma 3. Sei F : D → Rm eine Abbildung mit D ⊂ Rn .
Dann ist f genau stetig in c ∈ D, wenn es zu jedem ε > 0 ein
δ > 0 gibt, so dass
für alle x ∈ D mit
kx − ck < δ
gilt
kf (x) − f (c)k < ε.
Diese Aussage ist dabei unabhängig von der Wahl der Norm.
Topologische Grundbegriffe für den Rn , 2
Definition. Für c ∈ Rn und r > 0 heißt
Ur (c) := {x ∈ Rn : kx − ck < r }
die offene r -Umgebung von c bezüglich der Norm k.k.
Diese Definition hängt von der Wahl der Norm k.k ab.
Definition. Eine Teilmenge D des Rn heißt offen, wenn es zu
jedem c ∈ D ein r = r (c) > 0 gibt mit
Ur (c) ⊂ D.
Diese Definition wiederum ist von der Wahl der Norm k.k
unabhängig.
Abschnitt 7.3
Partielle Differenzierbarkeit
Partielle Differenzierbarkeit von Funktionen, 1
Bei der „partiellen Differenzierbarkeit“ handelt es sich um den
ersten von zwei Ansätzen, wie man Differenzierbarkeit für mehrere
Veränderliche definieren kann:
Man betrachte zunächst Funktionen
f : D → R,
x = (x1 , . . . , xn ) 7→ f (x) = f (x1 , . . . , xn )
mit D ⊂ Rn offen.
Die Idee bei der partiellen Differentiation ist, immer nur eine der
Komponenten von x = (x1 , . . . , xn ) zu variieren und die anderen
fest zu lassen:
Definition. Sei D ⊂ Rn offen und f : D → R eine Funktion. Es sei
c = (c1 , . . . , cn ) ∈ D
und ν ∈ {1, . . . , n}.
Partielle Differenzierbarkeit von Funktionen, 2
Dann heißt f partiell differenzierbar nach xν in c, wenn die
Funktion
t 7→ f (c1 , . . . , cν−1 , t, cν+1 , . . . , cn )
der einen reellen Veränderlichen t differenzierbar in cν ist.
Im Falle der Existenz nennt man den Wert der Ableitung der
genannten Funktion die partielle Ableitung von f nach xν an
der Stelle c und bezeichnet ihn mit dem Symbol
∂f
(c).
∂xν
Partielle Differenzierbarkeit von Funktionen, 3
Falls die Funktion f an der Stelle c nach jedem xν , ν = 1, . . . , n
partiell differenzierbar ist, nennt man sie (ohne Zusatz) partiell
differenzierbar an der Stelle c. In dieser Situation fasst man die
partiellen Ableitungen von f nach den n Veränderlichen zu einem
Zeilenvektor zusammen
∂f
∂f
(c), . . . ,
(c) ;
∂x1
∂xn
diesen bezeichnet man als den Gradienten von f an der Stelle c,
Symbol: grad f (c). Bisweilen wird stattdessen auch ∇f (c)
geschrieben (wobei das Symbol „∇“ als „Nabla“ gesprochen wird).
Aufgrund der Definition ist unmittelbar klar, dass Summe, Differenz
und skalare Vielfache partiell differenzierbarer Funktionen wieder
partiell differenzierbar sind und dass sich die Werte der partiellen
Ableitungen entsprechend aus denen der partiellen Ableitungen der
Ausgangsfunktionen berechnen lassen.
Beispiele, 1
Beispiel 1. Man betrachte
b : Rn → R,
x 7→ kxk2 .
Sei ν ∈ {1, . . . , n} beliebig, im Folgenden aber fest.
Um b auf partielle Differenzierbarkeit nach xν in einem Punkt
c = (c1 , . . . , cn ) zu untersuchen, muss man definitionsgemäß
überprüfen, ob die Funktion
t 7→
=
k(c1 , . . . , cν−1 , t, cν+1 , . . . , cn )k2
q
2
2
c12 + · · · + cν−1
+ t 2 + cν+1
+ · · · cn2
an der Stelle cν differenzierbar ist.
Falls es (mindestens) ein µ ∈ {1, . . . , n} gibt mit µ 6= ν und
cµ 6= 0, ist
2
2
+ cν+1
+ · · · cn2 6= 0
C := c12 + · · · + cν−1
Beispiele, 2
und daher nach den bekannten Regeln für das Differenzieren von
Funktionen einer reellen Veränderlichen die Funktion
q
2
2
c12 + · · · + cν−1
+ t 2 + cν+1
+ · · · cn2
t 7→
p
1
=
t2 + C = t2 + C 2
differenzierbar auf ganz R mit der Ableitung
− 1
t
1
,
· t 2 + C 2 · 2t = √
2
2
t +C
deren Wert an der Stelle cν gleich
c
cν
cν
p ν
=
=q
2
kck2
2
2
cν + C
+ cν2 + cν+1
+ · · · cn2
c12 + · · · + cν−1
ist.
Beispiele, 3
Falls hingegen cµ = 0 für alle µ ∈ {1, . . . , n} mit µ 6= ν ist, gilt
q
√
2
2
c12 + · · · + cν−1
+ t 2 + cν+1
+ · · · cn2 = t 2 = |t|
für alle t ∈ R. Dann ist die Funktion
q
2
2
t 7→ c12 + · · · + cν−1
+ t 2 + cν+1
+ · · · cn2
nicht differenzierbar an der Stelle cν = 0, aber differenzierbar an
jeder Stelle cν 6= 0 mit der Ableitung
t
√ ,
t2
welche an der Stelle cν den Wert hat
cν
cν
c
pν = q
=
.
2
kck2
2
2
cν
c12 + · · · + cν−1
+ cν2 + cν+1
+ · · · cn2
Beispiele, 4
Somit ist B im Punkt (0, . . . , 0) ∈ Rn nicht nach xν partiell
differenzierbar, aber in allen Punkten c = (c1 , . . . , cn ) 6= (0, . . . , 0),
wobei gilt
cν
∂f
(c) =
.
xν
kck2
Für c ∈ Rn mit c 6= (0, . . . , 0) gilt daher
gradb(c) =
c
.
kck2
Beispiele, 5
Beispiel 2. Man betrachte die schon in Abschnitt 7.2 untersuchte
Funktion

x1 x2
x1 x2

=
falls (x1 , x2 ) 6= (0, 0) ist,
 2
2
x1 + x2
k(x1 , x2 )k22
f (x1 , x2 ) :=


0
falls (x1 , x2 ) = (0, 0) ist.
Diese ist zwar auf ganz R2 − {(0, 0)} stetig, aber in (0, 0) nicht
stetig.
Aufgrund von Beispiel 1, der Produktregel und der Quotientenregel
für differenzierbare Funktionen einer Veränderlichen ist f dann
partiell differenzierbar auf R2 − {(0, 0)}.
Beispiele, 6
Diese Funktion ist aber sogar in (0, 0) partiell differenzierbar:
Dazu muss man die Funktionen
t 7→ f (t, 0)
und
t 7→ f (0, t)
jeweils auf Differenzierbarkeit an der Stelle t = 0 untersuchen.
Für t 6= 0 gilt aber
f (t, 0) =
t ·0
=0
+ 02
t2
und
f (t, 0) =
t ·0
= 0;
+ 02
t2
ebenso ist f (0, 0) = 0.
Somit sind beide Funktionen t 7→ f (t, 0) und t 7→ f (0, t) an der
Stelle t = 0 differenzierbar, so dass f auch in (0, 0) partiell
differenzierbar ist.
Insgesamt ist die Funktion f also auf ganz R2 partiell
differenzierbar – auch wenn sie in (0, 0) nicht stetig ist!!!
Richtungsableitungen, 1
Bezeichnet eν den ν-ten kanonischen Einheitsvektor im Rn für
ν ∈ {1, . . . , n}, so gilt nach der Definition der partiellen Ableitung
einer Funktion f an einer Stelle c = (c1 , . . . , cn ), an der diese nach
xν partiell differenzierbar ist:
d
∂f
f (c1 , . . . , cν−1 , t, cν+1 , . . . , cn )(cν )
(c) =
dt
∂xi
=
=
=
lim
t→cν
t6=cν
f (c1 ,...,cν−1 ,t,cν+1 ,...,cn )−f (c1 ,...,cν−1 ,cν ,cν+1 ,...,cn )
t−cν
lim
f (c1 ,...,cν−1 ,cν +h,cν+1 ,...,cn )−f (c1 ,...,cν−1 ,cν ,cν+1 ,...,cn )
h
lim
f (c + h · eν ) − f (c)
.
h
h→0
h6=0
h→0
h6=0
Richtungsableitungen, 2
Allgemeiner kann man für jedes e ∈ Rn mit e 6= (0, . . . , 0) die
Ableitung in Richtung e an der Stelle c definieren durch
lim
h→0
h6=0
∂f
f (c + h · e) − f (c)
=:
(c).
h
∂e
Stetige partielle Differenzierbarkeit von Funktionen
Definition. Sei D ⊂ Rn offen, c ∈ D und f : D → R eine Funktion.
Dann heißt die Funktion f stetig partiell differenzierbar in c,
wenn es eine offene Menge U ⊂ D mit c ∈ U gibt, so dass f in
jedem Punkt von U partiell differenzierbar ist und die partiellen
Ableitungen
∂f
∂f
(c), . . . ,
(c)
∂x1
∂xn
stetig in c sind.
Die Funktion f heißt (stetig) partiell differenzierbar auf D,
wenn sie in jedem Punkt c ∈ D diese Eigenschaft besitzt.
Höhere Ableitungen von Funktionen
Entsprechend werden die höheren partiellen Ableitungen
∂2f
∂ ∂f
(c) :=
(c),
∂xµ ∂xν
∂xµ ∂xν
...
definiert.
Satz. (H. A. Schwarz) Sei D ⊂ Rn offen und f : D → R zweimal
stetig partiell differenzierbar in c ∈ D.
Dann gilt
∂2f
∂2f
(c) =
(c)
∂xµ ∂xν
∂xν ∂xµ
für alle µ, ν ∈ {1, . . . , n}.
Einen Beweis findet man in Otto Forster: Analysis 2, Kapitel 1, § 5,
Satz 1. Er wird hier ausgelassen, obwohl die Aussage des Satzes
von H. A. Scnwarz bei der Diskussion der lokalen Extrema von
Funktionen von mehreren Veränderlichen benötigt wird.
Übertragung der partiellen Differenzierbarkeit von
Funktionen auf Abbildungen
Sei D ⊂ Rn offen, jetzt aber
F : D → Rm
eine Abbildung der Form
x 7→ F (x) = (f1 (x), . . . , fm (x))
mit Funktionen fµ : D → R, µ = 1, . . . , m, der n Veränderlichen
x1 , . . . , xn .
Man überträgt die eben eingeführten Begriffe auf die
Situation eines solchen F , indem man sie für jede der
Funktionen fµ verlangt, j = 1, . . . , m.
So heißt F partiell differenzierbar in c ∈ D, wenn diese
Eigenschaft auf jede der Funktionen fµ zutrifft, µ = 1, . . . , m.
Abschnitt 7.4
Totale Differenzierbarkeit
Totale Differenzierbarkeit von Funktionen, 1
Partielle Ableitungen haben den Vorteil, dass man sie mit Hilfe der
Methoden berechnen kann, die man aus der Analysis einer reellen
Veränderlichen her kennt.
Allerdings ist es von Nachteil, dass der Begriff der partiellen
Differenzierbarkeit so schwach ist, dass aus ihm nicht die Stetigkeit
folgt.
Daher ist noch ein weiterer Differenzierbarkeitsbegriff entwickelt
worden, der der „totalen Differenzierbarkeit“. Dieser lässt sich
interpretieren als eine Verallgemeinerung der äquivalenten
Charakterisierung der Differenzierbarkeit in einer reellen
Veränderlichen in Abschnitt 5.1 (aus welcher ja in dieser Situation
die Stetigkeit differenzierbarer Funktionen folgt):
Totale Differenzierbarkeit von Funktionen, 2
Eine Funktion f : ]a, b[→ R einer reellen Veränderlichen x ist genau
dann differenzierbar in c ∈]a, b[, wenn es eine reelle Zahl d und
eine Funktion ϕ : ]a, b[→ R gibt mit
f (x) = f (c) + d · (x − c) + (x − c) · ϕ(x)
für alle x ∈]a, b[
und
lim ϕ(x) = 0.
x→c
In dieser Situation gilt f 0 (c) = d .
Beide in der ersten Formel auftretenden Multiplikationspunkte „·“
machen Schwierigkeiten, falls x nicht mehr eine reelle Zahl, sondern
ein Vektor aus dem Rn ist.
Totale Differenzierbarkeit von Funktionen, 3
Dabei ist es noch am einfachsten, den Ausdruck
(x − c) · ϕ(x)
zu übertragen, da man bereits im Eindimensionalen stattdessen
schreiben kann
|x − c| · ψ(x)
mit
ψ(x) :=
x −c
· ϕ(x)
|x − c|
für x ∈]a, b[ mit x 6= c.
Ist also D ⊂ Rn offen, f : D → R eine Funktion und c ∈ D ⊂ Rn ,
so wird man verlangen, dass der Restterm die Gestalt
kx − ck · Ψ(x)
hat, wobei Ψ : D → R eine Funktion ist mit
lim Ψ(x) = 0.
x→c
(Hierbei kann man für k.k jede beliebige Norm auf dem Rn wählen.)
Totale Differenzierbarkeit von Funktionen, 4
Um jedoch den Ausdruck
d · (x − c)
in die Situation mehrerer Veränderlichen zu übertragen, muss man
am besten auf den Hilfssatz in Abschnitt 7.1 zurückgreifen, der die
linearen Funktionen ` : Rn → R charakterisiert:
Die Funktionen
h →d ·h
mit d ∈ R fest
sind genau die linearen Funktionen von R nach R. Soll das
Argument h = x − c jetzt aus dem Rn stammen, so verlange man
stattdessen, dass eine lineare Abbildung ` von Rn nach R vorliegt.
Diese wird aber aufgrund des Hilfssatzes aus Abschnitt 7.1 dadurch
gegeben, dass es einen festen Vektor a ∈ Rn gibt, so dass für alle
h ∈ Rn gilt
`(h) = ha, hi.
Totale Differenzierbarkeit von Funktionen, 5
Definition. Sei f : D → R eine Funktion mit D ⊂ Rn offen und
c ∈ D.
Dann heißt f total differenzierbar in c, wenn es ein a ∈ Rn und
eine Funktion ψ : D → R gibt mit
f (x) = f (c) + ha, x − ci + kx − ck · ψ(x)
für alle x ∈ D
und
lim ψ(x) = 0.
x→c
(Hierbei kann man für k.k jede beliebige Norm auf dem Rn wählen.)
Totale Differenzierbarkeit von Funktionen, 6
Aus der Vorüberlegung, die zu der obigen Definition geführt hat,
ergibt sich folgende Umformulierung dieser, die zwar abstrakter,
aber gerade deshalb manchmal sehr hilfreich ist:
Bemerkung 1. Sei f : D → R eine Funktion mit D ⊂ Rn offen und
c ∈ D.
Dann ist f total differenzierbar in c, wenn es eine lineare Abbildung
` : Rn → R und eine Funktion ψ : D → R gibt mit
f (x) = f (c) + `(x − c) + kx − ck · ψ(x)
für alle x ∈ D
und
lim ψ(x) = 0.
x→c
(Hierbei kann man für k.k jede beliebige Norm auf dem Rn wählen.)
Totale Differenzierbarkeit von Funktionen, 7
Bemerkung 2. Ist die Funktion f total differenzierbar in c, so ist
sie dort auch stetig.
Dies sieht man genau so ein wie in Abschnitt 5.1 im Falle einer
Veränderlichen.
Totale Differenzierbarkeit von Funktionen, 8
Satz. Sei f : D → R mit D ⊂ Rn offen und c ∈ D. Dann folgt aus
der Aussage
a) f ist in c stetig partiell differenzierbar.
die Aussage
b) f ist in c total differenzierbar.
und hieraus wiederum die Aussage
c) f ist in c partiell differenzierbar.
Im Falle der totalen Differenzierbarkeit gilt für den Vektor a ∈ Rn
in der Definition, dass
a = gradf (c).
Totale Differenzierbarkeit von Funktionen, 9
Einen Beweis von „a) ⇒ b)“ findet man in Otto Forster: Analysis 2,
Kapitel 1, § 6, Satz 2; er basiert auf der Anwendung des
Mittelwertsatzes der Differentialrechnung für eine reelle
Veränderliche.
Beweis von „b) ⇒ c)“ und des Zusatzes.
Da f in c total differenzierbar ist, gibt es ein a = (a1 , . . . , an ) ∈ Rn
und eine Funktion ψ : D → R mit
f (x) = f (c) + ha, x − ci + kx − ck · ψ(x)
und
lim ψ(x) = 0.
x→c
für alle x ∈ D
Totale Differenzierbarkeit von Funktionen, 10
Sei ν ∈ {1, . . . , n} beliebig, im Folgenden aber fest.
Dann gibt es ein r > 0, so dass für alle t ∈ R mit |t| < r gilt
x(t) := c + teν ∈ D.
Somit gilt
f (x(t)) − f (c)
t
=
=
=
1
(ha, c + teν − ci + kc + teν − ck · ψ (c + teν ))
t
1
(tha, eν i + |t|keν k · ψ (c + teν ))
t
aν + |t|
t · ψ (c + teν )
für alle t ∈ R mit 0 < |t| < r .
Totale Differenzierbarkeit von Funktionen, 11
Wegen lim x(t) = c und lim ψ(x) = 0 folgt daraus, dass
t→0
x→c
lim
t→0
t6=0
f (x(t)) − f (c)
t
existiert, also
∂f
(c)
∂xν
und gleich aν ist.
Da ν ∈ {1, . . . , n} beliebig war, ist damit sowohl c) als auch der
Zusatz bewiesen.
Totale Differenzierbarkeit von Funktionen, 12
Bemerkung 3. Aufgrund des Satzes sind die Begriffe „stetig
partiell differenzierbar“ und „stetig total differenzierbar“ äquivalent.
Definition. Man spricht daher zumeist einfach von stetig
differenzierbaren Funktionen und setzt für D ⊂ Rn offen
C k (D) := {D → R : f ist k-mal stetig differenzierbar.}
für k ∈ N0 .
Totale Differenzierbarkeit von Abbildungen, 1
Sei wieder D ⊂ Rn offen, jetzt aber
F : D → Rm
eine Abbildung der Form
x 7→ F (x) = (f1 (x), . . . , fm (x))
mit Funktionen fµ : D → R, µ = 1, . . . , m, der n Veränderlichen
x1 , . . . , xn .
Wie bei der partiellen Differenzierbarkeit überträgt man die
eben eingeführten Begriffe auf die Situation eines solchen F ,
indem man sie für jede der Funktionen fµ verlangt,
µ = 1, . . . , m.
So heißt F total differenzierbar in c ∈ D, wenn diese Eigenschaft
auf jede der Funktionen fµ zutrifft, µ = 1, . . . , m.
Totale Differenzierbarkeit von Abbildungen, 2
Wegen Bemerkung 1 kann man diese Definition wie folgt
umformulieren:
Bemerkung 4. Sei F : D → Rm eine Abbildung mit D ⊂ Rn offen
und c ∈ D.
Dann ist F total differenzierbar in c, wenn es eine lineare Abbildung
L : Rn → Rm und eine Funktion Ψ : D → Rm gibt mit
F (x) = F (c) + L(x − c) + kx − ck · Ψ(x)
für alle x ∈ D
und
lim Ψ(x) = 0 ∈ Rm .
x→c
(Hierbei kann man für k.k jede beliebige Norm auf dem Rn wählen.)
Totale Differenzierbarkeit von Abbildungen, 3
Die lineare Abbildung L in der obigen Definition erscheint recht
abstrakt. In der Veranstaltung „Lineare Algebra“ erfährt man, wie
sich derartige Abbildungen generell konkreter beschreiben lassen
mittels Matrizen.In der hier vorliegenden Situation kann man dies
direkt einsehen:
Sei F = (f1 , . . . , fm ) : D → Rn eine in c ∈ D total differenzierbare
Abbildung, wobei D ⊂ Rn offen ist. Für µ ∈ {1, . . . , m} beliebig
gibt es dann nach Definition bzw. Bemerkung 1 eine lineare
Abbildung `µ : Rn → R bzw. einen Vektor a(µ) ∈ Rn und eine
Funktion ψµ : D → R mit
fµ (x) =
=
f (c) + `µ (x − c) + kx − ck · ψµ (x)
f (c) + ha(µ) , x − ci + kx − ck · ψµ (x)
für alle x ∈ D und
lim ψµ (x) = 0.
x→c
Totale Differenzierbarkeit von Abbildungen, 4
In den Bezeichunungen von Bemerkung 4 ist dabei
L = (`1 , . . . , `m )
und
Ψ = (ψ1 , . . . , ψm ).
Weiterhin gilt aufgrund des Satzes
∂fµ
∂fµ
(µ)
(c), . . . ,
(c) .
a = gradfµ (c) =
∂x1
∂xn
Somit ergibt sich für y ∈ D beliebig:
L(y ) =
=
(`1 (y ), . . . , `m (y ))
ha(1) , y i, . . . , ha(m) , y i
=
(hgradf1 (c), y i, . . . , hgradfm (c), y i) .
Totale Differenzierbarkeit von Abbildungen, 5
Daher kann man L(y ) für y ∈ D beliebig berechnen, wenn man nur
sämtliche Gradienten gradf1 (c), . . . , gradfm (c) kennt, also
sämtliche partiellen Ableitungen
∂fµ
(c)
∂xν
für µ ∈ {1, . . . , m}, ν ∈ {1, . . . , n}.
Diese fasst man zu einer Matrix zusammen, also einem
rechteckigen Schema

 ∂f1
∂f1
∂x1 (c) . . . ∂xn (c)
∂fµ


..
..
.
(c)
 =:

.
.
15µ5m
∂xν
∂fm
∂fm
15ν5n
∂x1 (c) . . . ∂xn (c)
Die Gradienten der einzelnen Komponenten fµ von F werden also
zeilenweise übereinander gestapelt.
Totale Differenzierbarkeit von Abbildungen, 6
Definition. Diese Matrix heißt die Jacobi-Matrix oder auch
Funktionalmatrix von F in c, Formelsymbol: F 0 (c).
Bemerkung 5. In der „Linearen Algebra“ wird definiert, wie man
zwei Matrizen, welche das passende Format haben, mit einander
multiplizieren kann.
Dies kann man dazu nutzen, um den Ausdruck L(x − c) für x ∈ D
explizit zu berechnen:
I
Man macht aus dem Zeilenvektor x − c der Länge n durch
Transponieren einen Spaltenvektor (x − c)τ der Höhe n.
I
Man bildet das Produkt F 0 (c) · (x − c)τ und erhält so einen
Spaltenvektor der Höhe m.
I
Aus diesem macht man durch Transponieren einen Zeilenvektor
τ
F 0 (c) · (x − c)τ = (x − c) · F 0 (c)τ
der Länge m.
Die Kettenregel
Kettenregel für differenzierbare Abbildungen. Seien D ⊂ Rn
und U ⊂ Rm offen, F : D → Rm in c ∈ D differenzierbar,
F (D) ⊂ U und G : U → Rk in F (c) differenzierbar.
Dann ist G ◦ F in c differenzierbar, und es gilt
(G ◦ F )0 (c) = G 0 F (c) · F 0 (c),
wobei · das Matrizenprodukt bezeichnet.
Der Beweis erfolgt fast wörtlich wie in Abschnitt 5.2 für die
Situation einer reellen Veränderlichen.
Die zweite Ableitung einer Funktion, 1
Sei D ⊂ Rn offen und f : D → R eine auf ganz D partiell
differenzierbare Funktion.
Dann kann man die Abbildung
∂f
∂f
(c), . . . ,
(c) ∈ Rn
f 0 : D → Rn , c 7→ f 0 (c) = gradf (c) =
∂x1
∂xn
betrachten.
Falls diese Abbildung in c partiell differenzierbar ist, erhält man den
Wert von deren Ableitung, also die zweite Ableitung von f in c,
als die Jacobi-Matrix
∂fµ
(c)
15µ5n
∂xν
15ν5n
mit fµ =
∂f
∂xµ
und daher als Matrix
∂ ∂f
(c)
∂xν ∂xµ
=
15µ,ν5n
∂2f
(c)
.
∂xν ∂xµ
15µ,ν5n
Die zweite Ableitung einer Funktion, 2
Definition. Sei D ⊂ Rn offen, c ∈ D und f : D → R eine in c
zweimal partiell differenzierbare Funktion.
Dann heißt die Matrix
Hf (c) :=
∂2f
(c)
∂xν ∂xµ
15µ,ν5n
die Hesse-Matrix von f in c.
Bemerkung 6. Falls f sogar zweimal stetig (partiell)
differenzierbar ist, so ist die Hesse-Matrix symmetrisch aufgrund
des Satzes von H. A. Schwarz:
Hf (c) = Hf (c)τ .
Abschnitt 7.5
Taylor-Entwicklung der Ordnung 1
Taylor-Entwicklung der Ordnung 1, 1
Satz (Taylor-Entwicklung der Ordnung 1). Sei D ⊂ Rn offen
und f : D → R eine 2-mal stetig differenzierbare Funktion. Es seien
c, x ∈ D derart, dass auch die Verbindungsstrecke
L := {(1 − t)c + tx : t ∈ [0, 1]}
in D liegt.
Dann gibt es ein y ∈ L, so dass gilt
f (x) = f (c) + hgradf (c), x − ci + 21 (x − c)Hf (y )(x − c)τ .
Taylor-Entwicklung der Ordnung 1, 2
Beweis. Für t ∈ [0, 1] setze man y (t) := (1 − t)c + tx ∈ L und
definiere g : [0, 1] → R durch
g (t) := f (y (t)) .
Als Hintereinanderausführung differenzierbarer Abbildungen ist g
dann aufgrund der Kettenregel wiederum differenzierbar, und für
alle t ∈ [0, 1] gilt
g 0 (t) =
=
f 0 (y (t)) · y 0 (t) = hgradf (y (t)) , y 0 (t)i
hgradf (y (t)) , x − ci = gradf (y (t)) · (x − c)τ .
Da f zweimal stetig differenzierbar ist, also gradf einmal stetig
differenzierbar, liest man aus der letzten Formelzeile mittels der
Kettenregel auch ab, dass g 0 (t) einmal stetig differenzierbar, g
selbst also zweimal stetig differenzierbar ist.
Taylor-Entwicklung der Ordnung 1, 3
Für t ∈ [0, 1] beliebig errechnet man aufgrund des weiter oben
Gezeigten und der Kettenregel
=
d
d
hgradf (y (t)) , x − ci = h gradf (y (t)) , x − ci
dt
dt
hHf (y (t)) · (x − c)τ , x − ci
=
(x − c)Hf (y (t)) (x − c)τ .
g 00 (t) =
Aufgrund des Satzes für die Taylor-Entwicklung der Ordnung 1 für
eine Veränderliche aus Abschnitt 5.4 gibt es nun ein δ ∈ [0, 1] mit
f (x) = g (1) = g (0) + g 0 (0) · 1 + 12 g 00 (δ) · 12
=
g (c) + hgradf (y (0)) , x − ci + 12 (x − c)Hf (y (δ)) (x − c)τ
=
g (c) + hgradf (c), x − ci + 12 (x − c)Hf (y (δ)) (x − c)τ .
Setzt man y := y (δ), so hat man damit die Behauptung bewiesen.
Taylor-Entwicklung der Ordnung 1, 4
Korollar. Sei D ⊂ Rn offen und f : D → R eine 2-mal stetig
differenzierbare Funktion und c ∈ D.
Dann gibt es eine Funktion R : D → R mit lim R(x) = 0 und
x→c
f (x) =
f (c) + hgradf (c), x − ci + 12 (x − c)Hf (c)(x − c)τ
+ ||x − c||2 · R(x).
Beweis. Man setze R(c) := 0 und
1
R(x) :=
f (x) − f (c) + hgradf (c), x − ci
||x − c||2
+ 12 (x − c)Hf (c)(x − c)τ
für x ∈ D − {c}. Aufgrund des obigen Satzes über die
Taylor-Entwicklung der Ordnung 1 und aufgrund der Stetigkeit der
zweiten Ableitung von f , also von Hf (y ), folgt dann die
Behauptung.
Abschnitt 7.6
Lokale Extrema für mehrere reelle
Veränderliche
Definitionen
Sei D ⊂ Rn , f : D → R und c ∈ D.
Dann heißt c ein lokales (auch: relatives)
Maximum
bzw.
Minimum
von f , wenn es ein r > 0 gibt, so dass für alle x ∈ D mit
kx − ck < r gilt
f (x) 5 f (c)
bzw.
f (x) = f (c).
Das lokale Maximum bzw. Minimum c heißt isoliert, wenn für alle
x ∈ D mit kx − ck < r und x 6= c sogar gilt
f (x) < f (c)
bzw.
f (x) > f (c).
Die Stelle c heißt ein lokales Extremum von f , wenn sie ein
lokales Maximum oder ein lokales Minimum von f ist.
Die Stelle c heißt stationärer Punkt von f , wenn f in c partiell
differenzierbar ist und gilt
gradf (c) = 0.
Notwendige Bedingungen für ein lokales Extremum, 1
Notwendige Bedingung für ein lokales Extremum. Sei D ⊂ Rn
offen, f : D → Rn partiell differenzierbar und c ∈ D ein lokales
Extremum von f . Dann gilt
gradf (c) = 0,
d. h., jedes lokale Extremum von f ist ein stationärer Punkt von f .
Beweis. Falls c ein lokales Extremum von f ist, ist es auch ein
lokales Extremum von f |G , wenn G eine Gerade ist, die durch c
verläuft (genauer: die Teilstrecke von G innerhalb von D). Solch
eine Gerade wird gegeben durch eine Abbildung des Typs
R → Rn ,
mit v ∈ Rn − {0}.
t 7→ c + t · v
Notwendige Bedingungen für ein lokales Extremum, 2
Insbesondere ist c ein lokales Extremum von f |Gν , ν = 1, . . . , n,
wenn Gν die Parallele zur ν-ten Koordinatenachse bezeichnet, die
durch c verläuft. Diese erhält man, indem man v gleich dem ν-ten
Einheitsvektor eν setzt.
Wendet man auf die Funktion
R ⊃ I → R,
t 7→ f (c + t · eν )
(mit I ein geeignet kleines offenes Intervall mit 0 ∈ I ) die
notwendige Bedingung für lokale Extrema für eine Veränderliche an,
so erhält man
d
∂f
0=
f (c + t · eν ) (0) =
(c)
dt
∂xν
für ν = 1, . . . , n.
Insgesamt folgt damit gradf (c) = 0.
Notwendige Bedingungen für ein lokales Extremum, 3
Notwendige Bedingung für ein lokales Extremum an die
Hesse-Matrix. Sei D ⊂ Rn offen, f : D → Rn zweimal stetig
differenzierbar und c ∈ D ein lokales Extremum von f . Es
bezeichne Hf (c) die Hesse-Matrix von f an der Stelle c.
Dann gilt
gradf (c) = 0
und
I
vHf (c)v τ 5 0 für jedes v ∈ Rn ,
falls in c ein lokales Maximum von f vorliegt,
bzw.
I
vHf (c)v τ = 0 für jedes v ∈ Rn ,
falls in c ein lokales Minimum von f vorliegt.
Notwendige Bedingungen für ein lokales Extremum, 4
Beweis. Sei c ein lokales Extremum von f . Aufgrund des bereits
Bewiesenen gilt dann gradf (c) = 0.
Somit vereinfacht sich die Taylor-Entwicklung der Ordnung 1 von f
an der Stelle c zu
f (x) = f (c) + 12 (x − c)Hf (c)(x − c)τ + ||x − c||22 · R(x)
mit einer Funktion R : D → R mit lim R(x) = 0.
x→c
Man betrachte nun den Fall, dass c ein lokales Maximum von f ist,
und wähle v ∈ Rn beliebig.
Notwendige Bedingungen für ein lokales Extremum, 5
Sei t ∈ R mit t 6= 0 so nahe an 0, dass x := c + tv ∈ D und
f (x) 5 f (c) gilt. Dann gilt x − c = tv und daher
f (x) =
=
also
0=
f (c) + 12 (tv )Hf (c)(tv )τ + ||tv ||22 · R(x)
f (c) + t 2 12 vHf (c)v τ + ||v ||22 · R(x) ,
f (x) − f (c)
= 12 vHf (c)v τ + ||v ||22 · R(x).
t2
Da für t → 0 gilt x = c + tv → c, also R(x) → 0, folgt hieraus
0 = 12 vHf (c)v τ
und damit vHf (c)v τ 5 0.
Der Fall, dass c ein lokales Minimum von f ist, wird analog
behandelt.
Definitionen aus der Linearen Algebra
Definition. Sei A ∈ Rn×n symmetrisch (also Aτ = A). Dann heißt
A
I
positiv semi-definit, wenn für jedes v ∈ Rn gilt vAv τ = 0,
I
negativ semi-definit, wenn für jedes v ∈ Rn gilt vAv τ 5 0,
I
positiv definit, wenn für jedes v ∈ Rn − {0} gilt vAv τ > 0,
I
negativ definit, wenn für jedes v ∈ Rn − {0} gilt vAv τ < 0,
und
I
indefinit, wenn es ein v + ∈ Rn gibt mit v + A(v + )τ > 0 und
ein v − ∈ Rn mit v − A(v − )τ < 0.
Bemerkung. Eine Matrix ist genau dann indefinit, wenn sie weder
positiv semi-definit ist noch negativ semi-definit.
Notwendige Bedingungen für ein lokales Extremum, 6
Mit diesen Definitionen zur (Semi-)Definitheit lautet das
notwendige Kriterium an die Hesse-Matrix wie folgt:
Notwendige Bedingung für ein lokales Extremum an die
Hesse-Matrix. Sei D ⊂ Rn offen, f : D → Rn zweimal stetig
differenzierbar und c ∈ D ein lokales Extremum von f . Dann ist
gradf (c) = 0,
und es gilt:
I
Falls in c ein lokales Maximum von f vorliegt, ist die
Hesse-Matrix Hf (c) negativ semi-definit.
bzw.
I
Falls in c ein lokales Minimum von f vorliegt, ist die
Hesse-Matrix Hf (c) positiv semi-definit.
Hinreichende Bedingung für ein lokales Extremum
Hinreichende Bedingung für ein isoliertes lokales Extremum
an die Hesse-Matrix. Sei D ⊂ Rn offen, f : D → Rn zweimal
stetig differenzierbar und gradf (c) = 0. Dann gilt:
I
Falls die Hesse-Matrix Hf (c) negativ definit ist, liegt in c ein
isoliertes lokales Maximum von f vor.
und
I
Falls die Hesse-Matrix Hf (c) positiv definit ist, liegt in c ein
isoliertes lokales Minimum von f vor.
Der Beweis verwendet wieder die Taylor-Entwicklung der Ordnung
1. Allerdings wird aus der Linearen Algebra auch noch der Satz
über die Hauptachsentransformation benötigt.
Der Fall einer indefiniten Hesse-Matrix
Satz. Sei D ⊂ Rn offen, f : D → Rn zweimal stetig differenzierbar
und gradf (c) = 0. Die Hesse-Matrix Hf (c) von f in c sei indefinit.
Dann gibt es
I
eine Gerade G + durch c, so dass f |G + in c ein isoliertes
lokales Minimum hat,
und
I
eine Gerade G − durch c, so dass f |G − in c ein isoliertes
lokales Maximum hat.
Insbesondere hat f in c kein lokales Extremum.
Der Beweis des Satzes erfolgt ähnlich wie der der hinreichenden
Bedingung für ein isoliertes lokales Extremum.
Definition. In der Situation dieses Satzes heißt c ein Sattelpunkt
von f .
Beispiele, 1
Folgende Funktionen f : R2 → R werden jeweils in (0, 0)
untersucht, wo ihr Gradient verschwindet:
I
x12 + x22
I
−x12 − x22
I
x12
I
−x12
I
x12 − x22
Beispiele, 2
I
Die Hesse-Matrix von
x12 + x22
in (0, 0) ist gleich
2 0
0 2
,
also positiv definit.
In der Tat liegt in (0, 0) ein isoliertes lokales Minimum der
Funktion vor: Für alle (x1 , x2 ) 6= (0, 0) ist der Funktionswert
positiv, also größer als der an der Stelle (0, 0).
Beispiele, 3
I
Die Hesse-Matrix von
−x12 − x22
in (0, 0) ist gleich
−2 0
0 −2
,
also negativ definit.
In der Tat liegt in (0, 0) ein isoliertes lokales Maximum der
Funktion vor: Für alle (x1 , x2 ) 6= (0, 0) ist der Funktionswert
negativ, also kleiner als der an der Stelle (0, 0).
Beispiele, 4
I
Die Hesse-Matrix von
x12
in (0, 0) ist gleich
2 0
0 0
,
also positiv semi-definit.
In (0, 0) ein lokales Minimum der Funktion vor: Für alle
(x1 , x2 ) 6= (0, 0) ist der Funktionswert nichtnegativ, also
größergleich dem an der Stelle (0, 0).
Allerdings ist die Funktion auf der Geraden x1 = 0 konstant
gleich 0.
Beispiele, 5
I
Die Hesse-Matrix von
−x12
in (0, 0) ist gleich
−2 0
0 0
,
also negativ semi-definit.
In (0, 0) ein lokales Maximum der Funktion vor: Für alle
(x1 , x2 ) 6= (0, 0) ist der Funktionswert nichtpositiv, also
kleinergleich dem an der Stelle (0, 0).
Allerdings ist die Funktion auf der Geraden x1 = 0 konstant
gleich 0.
Beispiele, 6
I
Die Hesse-Matrix von
x12 − x22
in (0, 0) ist gleich
2 0
0 −2
,
also indefinit.
In der Tat liegt in (0, 0) ein isoliertes lokales Minimum der
Funktion vor, wenn man sie auf die Gerade x2 = 0 beschränkt,
und ein isoliertes lokales Maximum der Funktion vor, wenn
man sie auf die Gerade x1 = 0 beschränkt.
Insbesondere liegt in (0, 0) ein Sattelpunkt der Funktion vor.
Herunterladen