Extremalprobleme mit Nebenbedingungen

Werbung
Extremalprobleme mit Nebenbedingungen
In diesem Abschnitt untersuchen wir Probleme der folgenden Form:
g(x0 ) = inf{g(x) : x ∈ Ω, f (x) = 0},
(x0 ∈ Ω, f (x0 ) = 0).
(1)
Hierbei sind Ω eine offene Menge des Rn , g ∈ C 1 (Ω), f ∈ C 1 (Ω, Rm ) und
1 ≤ m ≤ n − 1. In (1) werden Extrema von g(x) unter der Nebenbedingung
f (x) = 0 gesucht. Zunächst studieren wir die dabei auftretenden Mengen
{f = 0}.
1. Mannigfaltigkeiten
Definition 1: Für eine Abbildung f : Ω → Rm , (f = (f1 , . . . , fm , Ω: offene
Menge des Rn , n, m ∈ N), heisst die Menge
{(x, f (x)) : x ∈ Ω}
der Graph von f .
Definition 2: Eine nichtleere Teilmenge M des Rn heisst p–dimensionale
(gleichungsdefinierte) Mannigfaltigkeit der Klasse C r , (r ≥ 1, 1 ≤ p ≤ n − 1),
wenn es eine offene Menge Ω ⊂ Rn und eine Abbildung f ∈ C r (Ω, Rm ), (m =
n − p), mit
Rang df (x) = m ∀x ∈ Ω
(2)
gibt, so dass
M = {x ∈ Ω : f (x) = 0}
ist.
Bemerkung 1:
(a) Aus der Rangbedingung (2) folgt, dass die Menge {∇f1 (x), . . . , ∇fm (x)}
linear unabhängig ist für jedes x ∈ Ω. Grob gesprochen bedeutet (2), dass
keine der Nebenbedingungen f1 (x) = 0, . . . , fm (x) = 0 in der Definition von
M überflüssig ist. Wir merken an, dass (2) äquivalent ist zu
Rang df (x) = m ∀x ∈ M.
(3)
(b) Die Zahl m := n − p heisst auch Kodimension der Mannigfaltigkeit.
(c) Der Satz über implizite Funktionen sagt aus, dass sich jede p–dimensionale
1
Mannigfaltigkeit der Klasse C r lokal als Graph einer Abbildung φ ∈ C r (U, Rm ),
(U : offene Teilmenge des Rp ), darstellen lässt:
In der Tat, sei x0 ∈ M . Wegen der Rangbedingung (2) besitzt df (x0 ) eine
reguläre m × m–Teilmatrix. Nötigenfalls durch Umbenennung der Variablen
können wir erreichen, dass die Matrix
∂(f1 , . . . , fm )
(x0 )
∂(xp+1 , . . . , xn )
regulär ist. Wir schreiben
x = (x0 , y), x0 = (x1 , . . . , xp ), y = (xp+1 , . . . , xn )
für Punkte des Rn , und analog x0 = (x00 , y0 ). Nach dem Satz über implizite
Funktionen gibt es offene Mengen U ⊂ Rp , V ⊂ Rm , mit x00 ∈ U , y0 ∈ V , und
eine Abbildung ϕ ∈ C r (U, V ), so dass y0 = ϕ(x00 ) und (x0 , ϕ(x0 )) ∈ M , also
f (x0 , ϕ(x0 )) = 0 für alle x0 ∈ U gilt. D.h., es gibt eine Umgebung W ⊂ Rn
von x0 , so dass sich auf W ∩ M genau m der Variablen als C r –Funktionen der
restlichen p Variablen ausdrücken lassen.
Definition 3: Es seien M wie in Definition 2 und x0 ∈ M .
1. v ∈ Rn heisst Tangentialvektor von M in x0 , wenn es einen Weg c ∈
C 1 ([0, δ], M ), (δ > 0), gibt mit c(0) = x0 , c0 (0) = v. Die Menge der Tangentialvektoren von M in x0 heisst Tangentialraum von M in x0 und wird mit
Tx0 M bezeichnet.
2. Das orthogonale Komplement von Tx0 M ,
(Tx0 M )⊥ = {u ∈ Rn : hu, vi = 0, v ∈ Tx0 M }
heisst Normalraum von M in x0 und wird mit Tx⊥0 M bezeichnet. Seine Elemente heissen Normalvektoren von M in x0 .
Satz 1: Es seien M eine p–dimensionale Mannigfaltigkeit der Klasse C r und
x0 ∈ M . Dann ist Tx0 M ein Unterraum von Rn , und es sind
dim Tx0 M = p, dim Tx⊥0 M = m,
(4)
Tx⊥0 M = span {∇f1 (x0 ), . . . , ∇fm (x0 )}.
(5)
Beweis: Es seien e1 , . . . , ep die Standardbasisvektoren des Rp . Mit den Bezeichnungen von Bemerkung 1.(c), setzen wir
ci (t) := (x00 + tei , ϕ(x00 + tei )),
2
(t ∈ [0, δ], i = 1, . . . , p).
Für kleine δ > 0 ist dann ci ∈ C r ([0, δ], M ) mit ci (0) = (x00 , y0 ) = x0 und
c0i (0) = (ei , ϕxi (x00 )) =: vi . Folglich sind vi ∈ Tx0 M , (i = 1, . . . , p). Es ist leicht
zu sehen, dass die Menge {v1 , . . . , vp } linear unabhängig ist, und eine analoge
Argumentation zeigt, dass auch
A := span {v1 , . . . , vp } ⊂ Tx0 M
(6)
gilt. Andererseits: ist v ∈ Tx0 M , so gibt es einen Weg c ∈ C r ([0, δ], M ),
(δ > 0), mit c(0) = x0 und c0 (0) = v. Differenziert man nun die Gleichungen
fj (c(t)) = 0, (t ∈ [0, δ]), nach t, so ergibt sich nach Anwendung der Kettenregel
für t = 0,
h∇fj (x0 ), vi = 0, (j = 1, . . . , m).
(7)
Weil die Menge {∇f1 (x0 ), . . . , ∇fm (x0 )} linear unabhängig ist, hat der Unterraum B := span {∇f1 (x0 ), . . . , ∇fm (x0 )} die Dimension m. Wegen der Dimensionsformel ist dann dimB ⊥ = n − m = p, und aus (7) folgt, dass Tx0 M ⊂ B ⊥
ist. Zusammen mit (6) erhalten wir, dass A eine Teilmenge von B ⊥ ist, wobei
beide Unterräume dieselbe Dimension p besitzen. Also ist A = B ⊥ , und somit
sind A = Tx0 M = B ⊥ , und B = Tx⊥0 M . Daraus ergeben sich die Behauptungen.
Beispiel: Seien Ω = Rn und f (x) := kxk2 − 1. Dann ist M die (n − 1)–
dimensionale Sphäre des Rn ,
S n−1 := {x ∈ Rn : kxk = 1}.
Weil ∇f (x) = 2x ist, (x ∈ Rn ), erhält man
Tx S n−1 = {v ∈ Rn : hx, vi = 0},
(kxk = 1).
Definition 4: Die p–dimensionale affine Ebene
Ex0 := x0 + Tx0 M = {x0 + v : v ∈ Tx0 M }
zu einer p–dimensionalen Mannigfaltigkeit M der Klasse C r in einem Punkt
x0 ∈ M heisst Tangentialebene an M in x0 .
3
Bemerkung 2.
(a) Hat M die Kodimension m = 1, so heisst Ex0 auch Tangentialhyperebene.
Es gilt dann:
Ex0 = {ξ ∈ Rn : h∇f (x0 ), ξ − x0 i = 0}.
(b) Ist p
dim Tx0 M
(c) Ist p
dim Tx0 M
= 1, so ist M lokal eine C 1 –Kurve, und für jedes x0 ∈ M sind
= 1 und dim Tx⊥0 M = n − 1.
= n − 1, so heisst M auch (n − 1)–Hyperfläche. Es sind dann
= n − 1 und dim Tx⊥0 M = 1 für jedes x0 ∈ M .
Wir wollen den Fall der Kodimension m = 1 nun gesondert betrachten.
Für f ∈ C 1 (Ω) heisst
Mc := {x ∈ Ω : f (x) = c}
Niveaumenge von f . Ist Mc 6= ∅ und ∇f (x) 6= 0 für alle x ∈ Mc , so ist
Mc eine (n − 1)-dimensionale C 1 –Mannigfaltigkeit. Im Falle n = 2 heisst
Mc auch Niveaulinie, im Falle n = 3 Niveaufläche und im Falle n ≥ 3 auch
Niveauhyperfläche.
Ist ψ : I → Ω, (I: offenes Intervall), ein C 1 –Weg dessen Gradientenvektor an
jeder Stelle in Richtung des Gradienten von f zeigt, d.h.
ψ 0 (t) = λ(t)∇f (ψ(t)), (t ∈ I),
mit einer positiven Funktion λ, so heisst ψ Gradientenlinie von f .
Bemerkung 3.
(a) Gradientenlinien und Niveaumengen sind zueinander orthogonal.
Beweis: Für x ∈ Mc ist Tx⊥ Mc = span {∇f (x)}.
(b) Im Falle n = 2 entspricht jeder Niveaulinie eine Höhenlinie des Graphen
von f . Der Gradient von f , und mit ihm die Gradientenlinien, verlaufen in
Richtung des stärksten Anstiegs von f .
Beispiel: n = 2, Ω = R2 und f (x, y) = 1 − (x2 − 1)2 − y 2 .
Für c < 0 ist Mc = {f = c} eine geschlossene Kurve um den Koordinatenursprung (0, 0). M0 ist keine Niveaulinie, wird aber nach Entfernung des kritischen Punktes (0, 0) zu einer solchen. Für 0 < c < 1 besteht Mc aus
zwei geschlossenen Kurven um die Punkte (−1, 0) bzw. (1, 0). Ferner ist
M1 = {(−1, 0), (1, 0)}, und deshalb keine Niveaulinie. Schliesslich sind die
Mengen Mc leer für c > 1.
4
2. Lokale Extrema mit Nebenbedingungen
In diesem Abschnitt geben wir Kriterien für die Lösungen des Problems (1)
an. Die Abbildung f und die Mannigfaltigkeit M seien wie in Definition 2
gegeben, und es sei g ∈ C r (Ω).
Definition 5: Ein Punkt x0 ∈ M heisst lokaler Minimierer (bzw. Maximierer)
von g auf M , wenn es eine Kugel Bs (x0 ) des Rn gibt, so dass g(x0 ) ≤ g(x)
(bzw. g(x0 ≥ g(x)) für alle x ∈ M ∩ Bs (x0 ) gilt.
Alternativ sagen wir, g|M (= Einschränkung von g auf M ) habe in x0 ein
lokales Minimum (bzw. Maximum), wenn x0 ein lokaler Minimierer (bzw.
Maximierer) von g ist, und g|M habe in x0 ∈ M ein lokales Extremum, wenn
x0 ein lokaler Minimierer oder Maximierer von g auf M ist.
Satz 2: (Lagrangesche Multiplikatorenregel) Es sei r = 1, und g|M habe in x0
ein lokales Extremum. Dann gibt es Zahlen λ1 , . . . , λm ∈ R, so dass
∇g(x0 ) +
m
X
λi ∇fi (x0 ) = 0
(8)
i=1
gilt. (M.a.W., die Funktion
G(x) := g(x) +
m
X
λi fi (x),
(x ∈ Ω),
(9)
i=1
hat den stationären Punkt x0 ∈ M .)
Beweis: O.B.d.A. sei g(x0 ) ≤ g(x) für alle x ∈ M ∩Bs (x0 ). Ist dann v ∈ Tx0 M ,
so können wir einen Weg c ∈ C 1 ([−δ, δ], M ∩ Bs (x0 )) mit c(0) = x0 und
c0 (x0 ) = v wählen. Dann gilt g(c(0)) ≤ g(c(t)) für t ∈ [−δ, δ], und somit
d
0 = g(c(t)) = h∇g(x0 ), vi,
dt
t=0
d.h. es ist ∇g(x0 ) ∈ Tx⊥0 M . Weil Tx⊥0 M = span {∇f1 (x0 ), . . . , ∇fm (x0 } ist,
gibt es dann Zahlen λ1 , . . . , λm ∈ R, so dass (8) gilt.
Bemerkung 4: Die Bedingungen (8) sowie f (x) = 0 sind n + m Gleichungen
für die n + m Unbekannten x01 , . . . , x0n , λ1 , . . . , λm .
Unter der Annahme, dass f und g zweimal stetig differenzierbar sind,
kann man notwendige und hinreichende Bedingungen für lokale Minimierer
5
(bzw. Maximierer) angeben.
Satz 3: (Notwendige Bedingung für ein Extremum) Es sei r = 2, und g|M
habe in x0 ein lokales Minimum (bzw. Maximum). Ist dann G die Funktion
aus (9) und ∇G(x0 ) = 0, so gilt
hv, d2 G(x0 )vi ≥ 0 (bzw. ≤ 0)
∀v ∈ Tx0 M.
(10)
Beweisidee: Wir betrachten nur den Fall eines lokalen Minimums. Sei c ∈
C 2 ([−δ, δ], M ) mit c(0) = x0 und c0 (0) = v = (v1 , . . . , vn ) ∈ Tx0 M . Dann sind
0=
d2
d
g(c(t)) ≤ 2 g(c(t)) .
dt
dt
t=0
t=0
(11)
Eine Auswertung von (11) liefert, zusammen mit Satz 2:
n
X
Gxi xj (x0 )vi vj ≥ 0,
(12)
i,j=1
also (10).
Satz 4: (Hinreichende Bedingung für ein Extremum) Es sei r = 2, x0 ∈ M ,
und mit der Funktion G aus (9) gelte ∇G(x0 ) = 0. Ferner sei
hv, d2 G(x0 )vi > 0 (bzw. < 0)
∀v ∈ Tx0 M \ {0}.
(13)
Dann hat g|M in x0 ein lokales Minimum (bzw. Maximum).
Eine Beweisskizze von Satz 3 findet man in Fischer/Kaul I, S. 440.
Beispiele :
1. Es seien p, q > 1, p1 + 1q = 1. Dann gilt für alle positiven Zahlen x und y
die Youngsche Ungleichung :
xy ≤
xp y q
+ ,
p
q
(14)
und Gleichheit tritt genau dann ein, wenn xp = y q ist.
Beweis: Wir setzen Ω := {(x, y) ∈ R2 : x > 0, y > 0}, f (x, y) := xp /p + y q /q,
g(x, y) := xy, und für beliebiges c > 0 sei Mc := {(x, y) ∈ Ω : f (x, y) = c}.
Wir maximieren g auf Mc . Weil g(x, y) = 0 auf ∂Mc ist, folgt, dass der
Maximierer (x0 , y0 ) in Mc liegt. Wegen Satz 2 gibt es also ein λ ∈ R, so dass
y0 + λxp−1
= 0, x0 + λy0q−1 = 0
0
6
gelten. Damit erhalten wir −λxp0 = x0 y0 = −λy0q , also xp0 = y0q , und wegen
f (x0 , y0 ) = c folgt xp0 = c = y0q , also
g(x0 , y0 ) = c1/p c1/q = c1/p+1/q = c = f (x0 , y0 ).
Lässt man nun c alle positiven reellen Zahlen durchlaufen, so ergibt sich
g(x, y) ≤ f (x, y) ∀x, y > 0,
wobei das Gleichheitszeichen nur für xp = y q eintritt. Damit ist (14) bewiesen.
2. Im Kurs BMA1 wurde bewiesen, dass jede reelle symmetrische n × n–
Matrix n reelle Eigenwerte λ1 ≤ . . . ≤ λn hat, und es eine Orthonormalbasis {u1 , . . . , un } des Rn gibt, die aus zugehörigen Eigenvektoren besteht.
Wir zeigen, dass sich die Eigenwerte als Lagrangesche Multiplikatoren deuten
lassen:
Es seien Ω := Rn \ {0}, g(x) := hAx, xi, f1 (x) := kxk2 − 1 und
M1 := {x ∈ Ω : f1 (x) = 0}. Weil M1 kompakt ist, nimmt g auf M1 sein Infimum in einem Punkt u1 ∈ M1 an. Wegen Satz 2 ist ∇g(u1 ) + µ1 ∇f (u1 ) = 0,
für ein µ1 ∈ R. Setzt man λ1 := −µ1 , so folgt Au1 = λ1 u1 . Es seien nun
f2 (x) := hx, u1 i und M2 := {x ∈ Ω : f1 (x) = f2 (x) = 0}. Weil M2 kompakt ist, nimmt g auf M2 sein Minimum in einem Punkt u2 an, und wegen
Satz 2 gilt ∇g(u2 ) + µ1 ∇f1 (u2 ) + µ2 ∇f2 (u2 ) = 0 für Zahlen µ1 , µ2 ∈ R, also
2Au2 + 2µ1 u2 + µ2 u1 = 0. Weil hAu2 , u1 i = hu2 , Au1 i = λ1 hu2 , u1 i ist und
ku1 k = 1 sowie hu2 , u1 i = 0 sind, folgt dann µ2 = 0. Setzt man λ2 := −µ1 , so
ergibt sich Au2 = λ2 u2 .
Man kann nun induktiv fortfahren: Bezeichnet Mj , (2 ≤ j ≤ n), die kompakte
Mannigfaltigkeit
Mj := {x ∈ Ω : f1 (x) = . . . = fj (x) = 0},
wobei fk (x) := hx, uk−1 i, (2 ≤ k ≤ j), und g(uj ) = min{g(x) : x ∈ Mj }, so
gibt es nach Satz 2 Zahlen µ1 , . . . , µj ∈ R mit
∇g(uj ) +
j
X
µk ∇fk (uj ) = 0
k=1
7
gilt. M.a.W., es ist
2Auj + 2µ1 uj +
j
X
µk uk−1 = 0.
k=2
Weil kuj−1 k = 1, huj , uj−1 i = . . . = huj , u1 i = 0 und hAuj , uk i = huj , Auk i =
λk huj , uk i, (1 ≤ k ≤ j − 1), gelten, folgt µ2 = . . . = µj = 0, und somit
Auj = λj uj für λj := −µj . Das Verfahren bricht an der Stelle j = n ab, da es
genau n linear unabhängige Eigenvektoren gibt.
8
Herunterladen