Extremalprobleme mit Nebenbedingungen In diesem Abschnitt untersuchen wir Probleme der folgenden Form: g(x0 ) = inf{g(x) : x ∈ Ω, f (x) = 0}, (x0 ∈ Ω, f (x0 ) = 0). (1) Hierbei sind Ω eine offene Menge des Rn , g ∈ C 1 (Ω), f ∈ C 1 (Ω, Rm ) und 1 ≤ m ≤ n − 1. In (1) werden Extrema von g(x) unter der Nebenbedingung f (x) = 0 gesucht. Zunächst studieren wir die dabei auftretenden Mengen {f = 0}. 1. Mannigfaltigkeiten Definition 1: Für eine Abbildung f : Ω → Rm , (f = (f1 , . . . , fm , Ω: offene Menge des Rn , n, m ∈ N), heisst die Menge {(x, f (x)) : x ∈ Ω} der Graph von f . Definition 2: Eine nichtleere Teilmenge M des Rn heisst p–dimensionale (gleichungsdefinierte) Mannigfaltigkeit der Klasse C r , (r ≥ 1, 1 ≤ p ≤ n − 1), wenn es eine offene Menge Ω ⊂ Rn und eine Abbildung f ∈ C r (Ω, Rm ), (m = n − p), mit Rang df (x) = m ∀x ∈ Ω (2) gibt, so dass M = {x ∈ Ω : f (x) = 0} ist. Bemerkung 1: (a) Aus der Rangbedingung (2) folgt, dass die Menge {∇f1 (x), . . . , ∇fm (x)} linear unabhängig ist für jedes x ∈ Ω. Grob gesprochen bedeutet (2), dass keine der Nebenbedingungen f1 (x) = 0, . . . , fm (x) = 0 in der Definition von M überflüssig ist. Wir merken an, dass (2) äquivalent ist zu Rang df (x) = m ∀x ∈ M. (3) (b) Die Zahl m := n − p heisst auch Kodimension der Mannigfaltigkeit. (c) Der Satz über implizite Funktionen sagt aus, dass sich jede p–dimensionale 1 Mannigfaltigkeit der Klasse C r lokal als Graph einer Abbildung φ ∈ C r (U, Rm ), (U : offene Teilmenge des Rp ), darstellen lässt: In der Tat, sei x0 ∈ M . Wegen der Rangbedingung (2) besitzt df (x0 ) eine reguläre m × m–Teilmatrix. Nötigenfalls durch Umbenennung der Variablen können wir erreichen, dass die Matrix ∂(f1 , . . . , fm ) (x0 ) ∂(xp+1 , . . . , xn ) regulär ist. Wir schreiben x = (x0 , y), x0 = (x1 , . . . , xp ), y = (xp+1 , . . . , xn ) für Punkte des Rn , und analog x0 = (x00 , y0 ). Nach dem Satz über implizite Funktionen gibt es offene Mengen U ⊂ Rp , V ⊂ Rm , mit x00 ∈ U , y0 ∈ V , und eine Abbildung ϕ ∈ C r (U, V ), so dass y0 = ϕ(x00 ) und (x0 , ϕ(x0 )) ∈ M , also f (x0 , ϕ(x0 )) = 0 für alle x0 ∈ U gilt. D.h., es gibt eine Umgebung W ⊂ Rn von x0 , so dass sich auf W ∩ M genau m der Variablen als C r –Funktionen der restlichen p Variablen ausdrücken lassen. Definition 3: Es seien M wie in Definition 2 und x0 ∈ M . 1. v ∈ Rn heisst Tangentialvektor von M in x0 , wenn es einen Weg c ∈ C 1 ([0, δ], M ), (δ > 0), gibt mit c(0) = x0 , c0 (0) = v. Die Menge der Tangentialvektoren von M in x0 heisst Tangentialraum von M in x0 und wird mit Tx0 M bezeichnet. 2. Das orthogonale Komplement von Tx0 M , (Tx0 M )⊥ = {u ∈ Rn : hu, vi = 0, v ∈ Tx0 M } heisst Normalraum von M in x0 und wird mit Tx⊥0 M bezeichnet. Seine Elemente heissen Normalvektoren von M in x0 . Satz 1: Es seien M eine p–dimensionale Mannigfaltigkeit der Klasse C r und x0 ∈ M . Dann ist Tx0 M ein Unterraum von Rn , und es sind dim Tx0 M = p, dim Tx⊥0 M = m, (4) Tx⊥0 M = span {∇f1 (x0 ), . . . , ∇fm (x0 )}. (5) Beweis: Es seien e1 , . . . , ep die Standardbasisvektoren des Rp . Mit den Bezeichnungen von Bemerkung 1.(c), setzen wir ci (t) := (x00 + tei , ϕ(x00 + tei )), 2 (t ∈ [0, δ], i = 1, . . . , p). Für kleine δ > 0 ist dann ci ∈ C r ([0, δ], M ) mit ci (0) = (x00 , y0 ) = x0 und c0i (0) = (ei , ϕxi (x00 )) =: vi . Folglich sind vi ∈ Tx0 M , (i = 1, . . . , p). Es ist leicht zu sehen, dass die Menge {v1 , . . . , vp } linear unabhängig ist, und eine analoge Argumentation zeigt, dass auch A := span {v1 , . . . , vp } ⊂ Tx0 M (6) gilt. Andererseits: ist v ∈ Tx0 M , so gibt es einen Weg c ∈ C r ([0, δ], M ), (δ > 0), mit c(0) = x0 und c0 (0) = v. Differenziert man nun die Gleichungen fj (c(t)) = 0, (t ∈ [0, δ]), nach t, so ergibt sich nach Anwendung der Kettenregel für t = 0, h∇fj (x0 ), vi = 0, (j = 1, . . . , m). (7) Weil die Menge {∇f1 (x0 ), . . . , ∇fm (x0 )} linear unabhängig ist, hat der Unterraum B := span {∇f1 (x0 ), . . . , ∇fm (x0 )} die Dimension m. Wegen der Dimensionsformel ist dann dimB ⊥ = n − m = p, und aus (7) folgt, dass Tx0 M ⊂ B ⊥ ist. Zusammen mit (6) erhalten wir, dass A eine Teilmenge von B ⊥ ist, wobei beide Unterräume dieselbe Dimension p besitzen. Also ist A = B ⊥ , und somit sind A = Tx0 M = B ⊥ , und B = Tx⊥0 M . Daraus ergeben sich die Behauptungen. Beispiel: Seien Ω = Rn und f (x) := kxk2 − 1. Dann ist M die (n − 1)– dimensionale Sphäre des Rn , S n−1 := {x ∈ Rn : kxk = 1}. Weil ∇f (x) = 2x ist, (x ∈ Rn ), erhält man Tx S n−1 = {v ∈ Rn : hx, vi = 0}, (kxk = 1). Definition 4: Die p–dimensionale affine Ebene Ex0 := x0 + Tx0 M = {x0 + v : v ∈ Tx0 M } zu einer p–dimensionalen Mannigfaltigkeit M der Klasse C r in einem Punkt x0 ∈ M heisst Tangentialebene an M in x0 . 3 Bemerkung 2. (a) Hat M die Kodimension m = 1, so heisst Ex0 auch Tangentialhyperebene. Es gilt dann: Ex0 = {ξ ∈ Rn : h∇f (x0 ), ξ − x0 i = 0}. (b) Ist p dim Tx0 M (c) Ist p dim Tx0 M = 1, so ist M lokal eine C 1 –Kurve, und für jedes x0 ∈ M sind = 1 und dim Tx⊥0 M = n − 1. = n − 1, so heisst M auch (n − 1)–Hyperfläche. Es sind dann = n − 1 und dim Tx⊥0 M = 1 für jedes x0 ∈ M . Wir wollen den Fall der Kodimension m = 1 nun gesondert betrachten. Für f ∈ C 1 (Ω) heisst Mc := {x ∈ Ω : f (x) = c} Niveaumenge von f . Ist Mc 6= ∅ und ∇f (x) 6= 0 für alle x ∈ Mc , so ist Mc eine (n − 1)-dimensionale C 1 –Mannigfaltigkeit. Im Falle n = 2 heisst Mc auch Niveaulinie, im Falle n = 3 Niveaufläche und im Falle n ≥ 3 auch Niveauhyperfläche. Ist ψ : I → Ω, (I: offenes Intervall), ein C 1 –Weg dessen Gradientenvektor an jeder Stelle in Richtung des Gradienten von f zeigt, d.h. ψ 0 (t) = λ(t)∇f (ψ(t)), (t ∈ I), mit einer positiven Funktion λ, so heisst ψ Gradientenlinie von f . Bemerkung 3. (a) Gradientenlinien und Niveaumengen sind zueinander orthogonal. Beweis: Für x ∈ Mc ist Tx⊥ Mc = span {∇f (x)}. (b) Im Falle n = 2 entspricht jeder Niveaulinie eine Höhenlinie des Graphen von f . Der Gradient von f , und mit ihm die Gradientenlinien, verlaufen in Richtung des stärksten Anstiegs von f . Beispiel: n = 2, Ω = R2 und f (x, y) = 1 − (x2 − 1)2 − y 2 . Für c < 0 ist Mc = {f = c} eine geschlossene Kurve um den Koordinatenursprung (0, 0). M0 ist keine Niveaulinie, wird aber nach Entfernung des kritischen Punktes (0, 0) zu einer solchen. Für 0 < c < 1 besteht Mc aus zwei geschlossenen Kurven um die Punkte (−1, 0) bzw. (1, 0). Ferner ist M1 = {(−1, 0), (1, 0)}, und deshalb keine Niveaulinie. Schliesslich sind die Mengen Mc leer für c > 1. 4 2. Lokale Extrema mit Nebenbedingungen In diesem Abschnitt geben wir Kriterien für die Lösungen des Problems (1) an. Die Abbildung f und die Mannigfaltigkeit M seien wie in Definition 2 gegeben, und es sei g ∈ C r (Ω). Definition 5: Ein Punkt x0 ∈ M heisst lokaler Minimierer (bzw. Maximierer) von g auf M , wenn es eine Kugel Bs (x0 ) des Rn gibt, so dass g(x0 ) ≤ g(x) (bzw. g(x0 ≥ g(x)) für alle x ∈ M ∩ Bs (x0 ) gilt. Alternativ sagen wir, g|M (= Einschränkung von g auf M ) habe in x0 ein lokales Minimum (bzw. Maximum), wenn x0 ein lokaler Minimierer (bzw. Maximierer) von g ist, und g|M habe in x0 ∈ M ein lokales Extremum, wenn x0 ein lokaler Minimierer oder Maximierer von g auf M ist. Satz 2: (Lagrangesche Multiplikatorenregel) Es sei r = 1, und g|M habe in x0 ein lokales Extremum. Dann gibt es Zahlen λ1 , . . . , λm ∈ R, so dass ∇g(x0 ) + m X λi ∇fi (x0 ) = 0 (8) i=1 gilt. (M.a.W., die Funktion G(x) := g(x) + m X λi fi (x), (x ∈ Ω), (9) i=1 hat den stationären Punkt x0 ∈ M .) Beweis: O.B.d.A. sei g(x0 ) ≤ g(x) für alle x ∈ M ∩Bs (x0 ). Ist dann v ∈ Tx0 M , so können wir einen Weg c ∈ C 1 ([−δ, δ], M ∩ Bs (x0 )) mit c(0) = x0 und c0 (x0 ) = v wählen. Dann gilt g(c(0)) ≤ g(c(t)) für t ∈ [−δ, δ], und somit d 0 = g(c(t)) = h∇g(x0 ), vi, dt t=0 d.h. es ist ∇g(x0 ) ∈ Tx⊥0 M . Weil Tx⊥0 M = span {∇f1 (x0 ), . . . , ∇fm (x0 } ist, gibt es dann Zahlen λ1 , . . . , λm ∈ R, so dass (8) gilt. Bemerkung 4: Die Bedingungen (8) sowie f (x) = 0 sind n + m Gleichungen für die n + m Unbekannten x01 , . . . , x0n , λ1 , . . . , λm . Unter der Annahme, dass f und g zweimal stetig differenzierbar sind, kann man notwendige und hinreichende Bedingungen für lokale Minimierer 5 (bzw. Maximierer) angeben. Satz 3: (Notwendige Bedingung für ein Extremum) Es sei r = 2, und g|M habe in x0 ein lokales Minimum (bzw. Maximum). Ist dann G die Funktion aus (9) und ∇G(x0 ) = 0, so gilt hv, d2 G(x0 )vi ≥ 0 (bzw. ≤ 0) ∀v ∈ Tx0 M. (10) Beweisidee: Wir betrachten nur den Fall eines lokalen Minimums. Sei c ∈ C 2 ([−δ, δ], M ) mit c(0) = x0 und c0 (0) = v = (v1 , . . . , vn ) ∈ Tx0 M . Dann sind 0= d2 d g(c(t)) ≤ 2 g(c(t)) . dt dt t=0 t=0 (11) Eine Auswertung von (11) liefert, zusammen mit Satz 2: n X Gxi xj (x0 )vi vj ≥ 0, (12) i,j=1 also (10). Satz 4: (Hinreichende Bedingung für ein Extremum) Es sei r = 2, x0 ∈ M , und mit der Funktion G aus (9) gelte ∇G(x0 ) = 0. Ferner sei hv, d2 G(x0 )vi > 0 (bzw. < 0) ∀v ∈ Tx0 M \ {0}. (13) Dann hat g|M in x0 ein lokales Minimum (bzw. Maximum). Eine Beweisskizze von Satz 3 findet man in Fischer/Kaul I, S. 440. Beispiele : 1. Es seien p, q > 1, p1 + 1q = 1. Dann gilt für alle positiven Zahlen x und y die Youngsche Ungleichung : xy ≤ xp y q + , p q (14) und Gleichheit tritt genau dann ein, wenn xp = y q ist. Beweis: Wir setzen Ω := {(x, y) ∈ R2 : x > 0, y > 0}, f (x, y) := xp /p + y q /q, g(x, y) := xy, und für beliebiges c > 0 sei Mc := {(x, y) ∈ Ω : f (x, y) = c}. Wir maximieren g auf Mc . Weil g(x, y) = 0 auf ∂Mc ist, folgt, dass der Maximierer (x0 , y0 ) in Mc liegt. Wegen Satz 2 gibt es also ein λ ∈ R, so dass y0 + λxp−1 = 0, x0 + λy0q−1 = 0 0 6 gelten. Damit erhalten wir −λxp0 = x0 y0 = −λy0q , also xp0 = y0q , und wegen f (x0 , y0 ) = c folgt xp0 = c = y0q , also g(x0 , y0 ) = c1/p c1/q = c1/p+1/q = c = f (x0 , y0 ). Lässt man nun c alle positiven reellen Zahlen durchlaufen, so ergibt sich g(x, y) ≤ f (x, y) ∀x, y > 0, wobei das Gleichheitszeichen nur für xp = y q eintritt. Damit ist (14) bewiesen. 2. Im Kurs BMA1 wurde bewiesen, dass jede reelle symmetrische n × n– Matrix n reelle Eigenwerte λ1 ≤ . . . ≤ λn hat, und es eine Orthonormalbasis {u1 , . . . , un } des Rn gibt, die aus zugehörigen Eigenvektoren besteht. Wir zeigen, dass sich die Eigenwerte als Lagrangesche Multiplikatoren deuten lassen: Es seien Ω := Rn \ {0}, g(x) := hAx, xi, f1 (x) := kxk2 − 1 und M1 := {x ∈ Ω : f1 (x) = 0}. Weil M1 kompakt ist, nimmt g auf M1 sein Infimum in einem Punkt u1 ∈ M1 an. Wegen Satz 2 ist ∇g(u1 ) + µ1 ∇f (u1 ) = 0, für ein µ1 ∈ R. Setzt man λ1 := −µ1 , so folgt Au1 = λ1 u1 . Es seien nun f2 (x) := hx, u1 i und M2 := {x ∈ Ω : f1 (x) = f2 (x) = 0}. Weil M2 kompakt ist, nimmt g auf M2 sein Minimum in einem Punkt u2 an, und wegen Satz 2 gilt ∇g(u2 ) + µ1 ∇f1 (u2 ) + µ2 ∇f2 (u2 ) = 0 für Zahlen µ1 , µ2 ∈ R, also 2Au2 + 2µ1 u2 + µ2 u1 = 0. Weil hAu2 , u1 i = hu2 , Au1 i = λ1 hu2 , u1 i ist und ku1 k = 1 sowie hu2 , u1 i = 0 sind, folgt dann µ2 = 0. Setzt man λ2 := −µ1 , so ergibt sich Au2 = λ2 u2 . Man kann nun induktiv fortfahren: Bezeichnet Mj , (2 ≤ j ≤ n), die kompakte Mannigfaltigkeit Mj := {x ∈ Ω : f1 (x) = . . . = fj (x) = 0}, wobei fk (x) := hx, uk−1 i, (2 ≤ k ≤ j), und g(uj ) = min{g(x) : x ∈ Mj }, so gibt es nach Satz 2 Zahlen µ1 , . . . , µj ∈ R mit ∇g(uj ) + j X µk ∇fk (uj ) = 0 k=1 7 gilt. M.a.W., es ist 2Auj + 2µ1 uj + j X µk uk−1 = 0. k=2 Weil kuj−1 k = 1, huj , uj−1 i = . . . = huj , u1 i = 0 und hAuj , uk i = huj , Auk i = λk huj , uk i, (1 ≤ k ≤ j − 1), gelten, folgt µ2 = . . . = µj = 0, und somit Auj = λj uj für λj := −µj . Das Verfahren bricht an der Stelle j = n ab, da es genau n linear unabhängige Eigenvektoren gibt. 8