Skript zur Vorlesung im SS 2013+SS 2014 Konvexe Optimierung Thorsten Raasch 14. August 2014 Inhaltsverzeichnis I. Konvexe Optimierung I 5 1. Einführung 7 2. Konvexe Mengen 11 3. Konvexe Funktionen 13 4. Numerische Verfahren für unrestringierte Optimierungsaufgaben 15 5. Numerische Verfahren für lineare Optimierungsaufgaben 17 II. Konvexe Optimierung II 19 6. Numerische Verfahren für restringierte Optimierungsaufgaben 21 6.1. Lösungstheorie und Optimalitätskriterien . . . . . . . . . . . . . . . . . . 21 6.1.1. Optimalitätskriterien 1. Ordnung . . . . . . . . . . . . . . . . . . . 22 7. Dualität 35 7.1. Lagrange-Dualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 7.2. Dualitätssätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 8. Nichtglatte konvexe Optimierung 8.1. Konvexes Subdifferential . . . . . . . . 8.2. Konvexes Subdifferential für erweiterte 8.3. Proximal-Punkt-Verfahren . . . . . . . 8.4. Subgradienten-Verfahren . . . . . . . . . . . . . . . Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 41 53 57 63 3 Teil I. Konvexe Optimierung I 5 1. Einführung Wir befassen uns mit Minimierungsaufgaben der Form min f (x), x∈X (1.1) d.h. wir minimieren eine Zielfunktion f : X → R unter der Nebenbedingung x ∈ X ⊆ Rn . X heißt auch zulässiger Bereich. x ∈ Rn heißt zulässig, wenn x ∈ X. Ist X = Rn , so heißt das Minimierungsproblem (1.1) unbeschränkt/unrestringiert, andernfalls beschränkt/restringiert. Maximierungsaufgaben max f (x) x∈X können auf (1.1) zurückgeführt werden mit fe(x) := −f (x), min fe(x). x∈X In beiden Fällen sprechen wir von einem Optimierungsproblem Definition 1.1. Sei x∗ ∈ Rn zulässig, d.h. x∗ ∈ X. (i) x∗ heißt globales Minimum von (1.1), wenn f (x∗ ) ≤ f (x) für alle x ∈ X. (1.2) (ii) x∗ heißt lokales Minimum von (1.1), wenn es ein > 0 gibt mit f (x∗ ) ≤ f (x) für alle x ∈ X mit kx − x∗ k < . (1.3) (iii) x∗ heißt striktes globales Minimum von (1.1), wenn f (x∗ ) < f (x) für alle x ∈ X \ {x∗ }. (1.4) (iv) x∗ heißt striktes lokales Minimum von (1.1), wenn es ein > 0 gibt mit f (x∗ ) < f (x) für alle x ∈ X \ {x∗ } mit kx − x∗ k < . (1.5) Dabei bedeutet k · k durchgängig die Euklidnorm auf Rn . 7 1. Einführung Bemerkung 1.2. Der zulässige Bereich X ⊆ Rn hat häufig die Form X = x ∈ Rn : g(x) ≤ 0, h(x) = 0 (1.6) mit g : Rn → Rp und h : Rn → Rq . Die Nebenbedingung g(x) ≤ 0 ist dabei komponentenweise zu verstehen, g(x) ≤ 0 Beispiel 1.3. :⇔ gk (x) ≤ 0 für alle 1 ≤ k ≤ p. (1.7) (i) Ein nichtlineares Gleichungssystem F(x) = 0, F : Rn → Rm lässt sich als unbeschränktes Minimierungsproblem schreiben via minn f (x), x∈R n 2 X f (x) := F(x) = Fk (x)2 . (1.8) k=1 (1.8) heißt Ausgleichsproblem. (ii) Ein Beispiel aus der Produktionsplanung: In einem Unternehmen können Produkte P1 , . . . , Pn erzeugt werden unter der Nutzung der Ressourcen R1 , . . . , Rm (Zeit, Rohstoffe, Energie,. . . ). Bei der Produktion einer Einheit von Pk werden von Ressource Rj genau aj,k Einheiten verbraucht. Der Gewinn bei der Produktion einer Einheit von Pk sei ck , von der Ressource Rj seien bj Einheiten verfügbar. Ziel ist es, Produktionsmengen xk ≥ 0 von Pk derart zu bestimmen, dass unter den Ressourcenbeschränkungen der Gewinn maximiert wird. Die mathematische Formulierung als (lineares) Optimierungsproblem lautet n X max ck xk = hc, xi x∈X k=1 n n o, X n X := x ∈ R : a x ≤ b , 1 ≤ j ≤ m, x ≥ 0, 1 ≤ l ≤ n j j,k k l k=1 n = {x ∈ R : Ax ≤ b, x ≥ 0} (1.9) mit A = (aj,k )1≤j≤m,1≤k≤n . Insbesondere für n = 2 lassen sich Optimierungsprobleme der Form (1.8) auch graphisch visualisieren. Ein Beispiel mit n = 2 Produkten, Gewinnen c1 = 4, c2 = 3 und Einschränkungen für m = 3 Ressourcen: • Arbeitsaufwand R1 : x1 + x2 ≤ 16 (z.B. gleicher Arbeitsaufwand für beide Produkte) • Lagerkapazität R2 : x2 ≤ 12 (z.B. Rohstoffe müssen nur für P2 gelagert werden) • Energie R3 : 3x1 + x2 ≤ 36 (z.B. dreifacher Energiebedarf für P1 ) 8 Weitere Einschränkungen sind x1 , x2 ≥ 0 (Produktionsmengen sind nichtnegativ). Insgesamt haben wir nur Ungleichungsrestriktionen, und das Optimierungsproblem (1.8) lautet max ( 43 ), x 11 16 0 1 x≤ 12 31 36 x≥0 Der Gradient der Zielfunktion f (=Richtung des stärksten Anstiegs) ist c = ( 43 ), b = ( 10 das Maximum wird daher x 6 ) von X angenommen, mit Ziel 4 im10Randpunkt funktionswert f (b x) = ( 3 ), ( 6 ) = 58, vergleiche Abbildung 1.1. x2 R1 R3 R2 12 c b x 12 16 x1 Abbildung 1.1.: Graphische Visualisierung des Produktionsproblems aus Beispiel 1.3(ii) 9 2. Konvexe Mengen — Inhalt wird nachgereicht — 11 3. Konvexe Funktionen — Inhalt wird nachgereicht — 13 4. Numerische Verfahren für unrestringierte Optimierungsaufgaben — Inhalt wird nachgereicht — 15 5. Numerische Verfahren für lineare Optimierungsaufgaben — Inhalt wird nachgereicht — 17 Teil II. Konvexe Optimierung II 19 6. Numerische Verfahren für restringierte Optimierungsaufgaben In diesem Kapitel diskutieren wir Algorithmen für restringierte Optimierungsprobleme mit stetig differenzierbaren Zielfunktionen und Nebenbedingungen min f (x), f ∈ C 1 (Rn ), g(x)≤0 h(x)=0 g ∈ C 1 (Rn , Rp ), h ∈ C 1 (Rn , Rq ). (6.1) 6.1. Lösungstheorie und Optimalitätskriterien Wir studieren im Folgenden notwendige und hinreichende algebraische Optimalitätskriterien 1. und 2. Ordnung für (6.1). Die Bedingungen 1. Ordnung werden im Allgemeinen als KKT-Bedingungen bezeichnet, nach Karush1 , Kuhn2 und Tucker3 . Die logischen Zusammenhänge werden wie folgt aussehen. • Ein lokales Minimum x∗ von (6.1) erfüllt die zu (6.1) gehörenden KKT-Bedingungen, sofern der zulässige Bereich X := {x ∈ Rn : g(x) ≤ 0, h(x) = 0} gewissen Regularitätseigenschaften genügt, sogenannten constraint qualifications (CQ). Diese können entweder geometrisch oder algebraisch formuliert werden. • Umgekehrt ist ein zulässiger Punkt x ∈ X, der die KKT-Bedingungen erfüllt, unter zusätzlichen Annahmen wie etwa Konvexität von f , g und h, oder auch Optimalitätsbedingungen 2. Ordnung zumindest ein lokales Minimum von (6.1). Lokale Minima von (6.1) sind z.B. unter diesen Konvexitätsannahmen auch global. Wir vergleichen hierzu die Kernaussage von Satz 5.20 zu Optimalitätsbedingungen bei linearen Problemen: x∗ ∈ Rn optimal für min hc, xi Ax=b x≥0 m Ax∗ = b, x∗ ≥ 0 und ∃y∗ ∈ Rn mit A> y∗ ≤ c und hx∗ , c − A> y∗ i = 0. 1 William Karush (1917–1997) Harold W. Kuhn (*1925) 3 Albert W. Tucker (1905–1995) 2 21 6. Numerische Verfahren für restringierte Optimierungsaufgaben Die algebraischen Bedingungen x ≥ 0, Ax = b, A> y ≤ c, hx, c − A> yi = 0 sind genau die KKT-Bedingungen für den Fall eines linearen Optimierungsproblems. Der Nachweis der Äquivalenz zur globalen Optimalität benutzte die starken algebraischen Eigenschaften (Linearität und insbesondere Konvexität) der Zielfunktion und der die Nebenbedingung beschreibenden Funktionen. 6.1.1. Optimalitätskriterien 1. Ordnung Zur Herleitung von Optimalitätskriterien 1. Ordnung benutzen wir einen geometrischen Zugang über Tangentialkegel des zulässigen Bereichs X von (6.1). Definition 6.1 (Tangentialkegel). Sei ∅ 6= X ⊆ Rn . Dann heißt d ∈ Rn tangential zu X in x ∈ X, wenn Folgen (x(k) )k∈N ⊂ X und (tk )k∈N ⊂ (0, ∞) existieren mit x(k) → x, x(k) − x → d, tk tk & 0, k → ∞. (6.2) Die Menge aller solcher Richtungen heißt Tangentialkegel TX (x) von X in x, d.h. n o TX (x) = d ∈ Rn : ∃(x(k) )k∈N ⊂ X, (tk )k∈N ⊂ R mit (6.2) . (6.3) Bemerkung 6.2. (i) Der Tangentialkegel TX (x) ist auch wirklich ein Kegel: x(k) − x ∈ TX (x) k→∞ tk d = lim ⇒ x(k) − x ∈ TX (x), k→∞ tk /λ λd = lim λ > 0. (ii) Es ist TX (x) = Rn , falls x ∈ int(X); ansonsten ist TX (x) „nichttrivial“, d.h. im Allgemeinen eine echte Teilmenge von Rn . So erhalten wir zum Beispiel bei einem abgeschlossenen Halbraum X = H ⊕ (a, b) = {x ∈ Rn : ha, xi ≥ b} den Tangentialkegel ( Rn , TX (x) = H ⊕ (a, 0), ha, xi > b, . ha, xi = b Wir zeigen zunächst, dass Tangentialkegel immer abgeschlossen sind. Lemma 6.3. Seien ∅ = 6 X ⊆ Rn und x ∈ X. Dann ist TX (x) abgeschlossen. Beweis: Seien d(k) ∈ TX (x) mit d(k) → d ∈ Rn für k → ∞. Nach Definition existieren zu jedem k ∈ N Punkte x(k,l) ∈ X und tk,l ∈ R mit (6.2), d.h. x(k,l) → x, 22 tk,l & 0, x(k,l) − x → d(k) , tk,l l → ∞. 6.1. Lösungstheorie und Optimalitätskriterien Es existieren daher l(k) ∈ N mit kx(k,l(k)) − xk ≤ 1 k, tk,l(k) ≤ 1 k und k x (k,l(k)) −x tk,l(k) k≤ 1 k, e(k) := x(k,l(k)) die Tangentialbedingung (6.2) erfüllen, so dass mit k → ∞ die Vektoren x d.h. es gilt d ∈ TX (x). Wir kommen nun zum Zusammenhang zwischen den lokalen Minima x∗ einer Funktion f : Rn → R auf einer Teilmenge X ⊆ Rn und algebraischen Optimalitätsbedingungen. Das notwendige Kriterium im Fall X = Rn und stetig differenzierbarem f lautet ∇f (x∗ ) = 0, d.h. es darf keine Abstiegsrichtung existieren, vgl. Satz 4.1. Falls X 6= Rn und x∗ auf dem Rand von X liegt, sind nur solche Abstiegsrichtungen auszuschließen, die in X hinein zeigen, d.h. die in TX (x∗ ) liegen. Dies ist der Inhalt des folgenden Lemmas. Lemma 6.4. Seien ∅ = 6 X ⊆ Rn , f ∈ C 1 (Rn ) und x∗ ∈ X ein lokales Minimum von min f (x). x∈X (6.4) Dann gilt ∇f (x∗ ), d ≥ 0 für alle d ∈ TX (x∗ ). (6.5) Beweis: Sei d ∈ TX (x∗ ) beliebig. Dann existieren x(k) ∈ X und tk > 0 mit x(k) → x∗ , (k) ∗ tk & 0 und x tk−x → d für k → ∞. Da f ∈ C 1 (Rn ), existieren nach dem Mittelwertsatz ξ (k) ∈ conv{x(k) , x∗ } mit f (x(k) ) − f (x∗ ) = h∇f (ξ (k) ), x(k) − x∗ i, also insbesondere ξ (k) → x∗ für k → ∞. Da x∗ ein lokales Minimum von (6.4) ist, gibt es ein k0 ∈ N mit f (x(k) ) ≥ f (x∗ ) für alle k ≥ k0 , also h∇f (ξ (k) ), x(k) − x∗ i ≥ 0 für k ≥ k0 und damit D x(k) − x∗ E 1 → ∇f (x∗ ), d , k → ∞. ∇f (ξ (k) ), x(k) − x∗ = ∇f (ξ (k) ), 0≤ tk tk Definition 6.5. Ein zulässiger Punkt x∗ ∈ X mit (6.5) heißt stationär für das Minimierungsproblem (6.4). Die Stationaritätsbedingung (6.5) ist noch recht abstrakt und im Allgemeinen leider nur schwer zu handhaben, da TX (x∗ ) eine komplizierte Struktur haben kann. Für den Fall eines Minimierungsproblems der Form (6.1) mit stetig differenzierbarer Zielfunktion f und stetig differenzierbaren Nebenbedingungen g, h führen wir daher den sogenannten linearisierten Tangentialkegel ein. Definition 6.6 (linearisierter Tangentialkegel). Sei X := {x ∈ Rn : g(x) ≤ 0, h(x) = 0} der zulässige Bereich von (6.1), und sei x ∈ X ein zulässiger Punkt. Dann heißt TXlin (x) := d ∈ Rn : h∇gj (x), di ≤ 0 f.a. j ∈ I(x), h∇hk (x), di = 0 f.a. 1 ≤ k ≤ q (6.6) der linearisierte Tangentialkegel von X in x. Dabei bezeichnet I(x) := 1 ≤ j ≤ q : gj (x) = 0 (6.7) die Menge der aktiven Ungleichungsrestriktionen in x ∈ X. 23 6. Numerische Verfahren für restringierte Optimierungsaufgaben TXlin (x) ist algebraisch einfacher zu handhaben und stimmt in vielen Fällen mit TX (x) überein. Eine der beiden Inklusionen ist dabei trivialerweise erfüllt. Lemma 6.7. Sei X := {x ∈ Rn : g(x) ≤ 0, h(x) = 0} der zulässige Bereich von (6.1), und sei x ∈ X ein zulässiger Punkt. Dann gilt TX (x) ⊆ TXlin (x). Beweis: Sei d ∈ TX (x) beliebig. Nach Definition existieren x(k) ∈ X und tk > 0 mit (k) x(k) → x, tk & 0 und x tk−x → d für k → ∞. Sei zunächst j ∈ I(x) fest gewählt, also gj (x) = 0. Wegen x(k) ∈ X und nach dem Mittelwertsatz der Differentialrechnung existieren ξ (k) ∈ conv{x(k) , x} mit 0 ≥ gj (x(k) ) = gj (x) + ∇gj (ξ (k) ), x(k) − x = ∇gj (ξ (k) ), x(k) − x und somit D x(k) − x E ∇gj (x), d = lim ∇gj (ξ (k) ), ≤ 0. k→∞ tk Sei weiter 1 ≤ k ≤ q beliebig und somit hk (x) = 0. Mit x(l) ∈ X und dem Mittelwertsatz folgt ähnlich 0 = hk (x(l) ) = hk (x) + ∇hk (ξ (l) ), x(l) − x = ∇hk (ξ (l) ), x(l) − x und somit D x(l) − x E ∇hk (x), d = lim ∇hk (ξ (l) ), = 0. l→∞ tl Die umgekehrte Inklusion ist nicht immer erfüllt, wie folgendes Beispiel zeigt. Beispiel 6.8. Betrachte das Optimierungsproblem min (−x1 ) x31 +x2 ≤0 −x2 ≤0 Der zulässige Bereich X wird von der negativen Halbachse (−∞, 0] × {0} und dem Parabelstück {(x1 , −x31 ) : x1 ≤ 0} begrenzt. Das eindeutige Minimum liegt bei x∗ = (0, 0)> . Setzt man g1 (x) := x31 + x2 und g2 (x) := −x2 , so sind in x∗ beide Ungleichungsrestriktionen aktiv, also nach Definition für den linearisierten Tangentialkegel TXlin (x∗ ) = d ∈ R2 : h∇g1 (x∗ ), di ≤ 0, h∇g2 (x∗ ), di ≤ 0 0 ), di ≤ 0 = d ∈ R2 : h( 01 ), di ≤ 0, h( −1 = R × {0}. Für den Tangentialkegel selbst gilt aber TX (x∗ ) = (−∞, 0] × {0} 6= TXlin (x∗ ). Denn sei einerseits d ∈ TX (x∗ ). Dann existieren x(k) = ( uvkk ) ∈ X und tk > 0 mit uk → 0, vk → 0, 24 6.1. Lösungstheorie und Optimalitätskriterien u /t tk & 0 und d = limk→∞ ( vkk/tkk ). Aus x(k) folgt u3k + vk ≤ 0 ≤ vk , also uk ≤ 0 ≤ vk und damit uk vk d1 = lim ≤ 0 ≤ lim = d2 . k→∞ tk k→∞ tk Ferner gilt u3 u vk k d2 = lim ≤ lim − k = lim u2k − = 0, k→∞ tk k→∞ k→∞ tk tk also insgesamt d ∈ (−∞, 0]×{0}. Ist umgekehrt d ∈ (−∞, 0]×{0} vorgegeben, so erfüllen x(k) := k1 d = ( d10/k ) ∈ X und tk := k1 die Bedingung (6.2). Definition 6.9 (ACQ). Wir sagen, ein zulässiger Punkt x ∈ X des restringierten Optimierungsproblems (6.1) erfüllt die Regularitätsbedingung von Abadie4 (engl. Abadie constraint qualification) bzw. es ist ACQ(x) erfüllt, wenn TX (x) = TXlin (x) gilt. Ein wichtige Klasse von Minimierungsproblemen, bei denen ACQ(x) für alle zulässigen x erfüllt ist, sind solche mit linearen Nebenbedingungen. Lemma 6.10. Seien A ∈ Rp×n , C ∈ Rq×n , b ∈ Rp und d ∈ Rq . Dann erfüllt jeder Punkt des konvexen Polyeders X := {x ∈ Rn : Ax ≤ b, Cx = d} die Regularitätsbedingung von Abadie. Beweis: Sei x ∈ X beliebig. Wegen Lemma 6.7 genügt es, TXlin (x) ⊆ TX (x) zu zeigen. Sei also d ∈ TXlin (x), d.h. mit g(y) := Ay − b und h(y) := Cy − d wegen (6.6) und (6.7) ( ∇gj (x), d = hA> ej , di ≤ 0, falls j ∈ I(x) ⇔ gj (x) = (Ax − b)j = 0, ∇hk (x), d = hC> ek , di = 0, für alle 1 ≤ k ≤ q. Sind nun tl > 0 beliebig mit tl & 0 für l → ∞ und setzt man x(l) := x + tl d, so gilt für genügend große l ∈ N (Ax(l) − b)j = (Ax − b)j + tl (Ad)j = tj hA> ej , di ≤ 0, falls (Ax − b)j = 0, (Ax(l) − b)j = (Ax − b)j + tl (Ad)j ≤ 12 (Ax − b)j < 0, falls (Ax − b)j < 0, (Cx(l) − d) = (Cx − d) + t (Cd) = t hC> e , di = 0, für alle 1 ≤ k ≤ q, k k l k l k d.h. x(l) ∈ X für genügend großes l ∈ N sowie x(l) → x und also d ∈ TX (x). x(l) −x tl = d → d für l → ∞, Wir werden nun unter der Abadie-Regularitätsbedingung nachweisen, dass ein lokales Minimum x∗ von (6.1) die KKT-Optimalitätsbedingungen erfüllt. Zu deren Definition betrachten wir die sogenannte Lagrange-Funktion von (6.1). Definition 6.11 (Lagrange-Funktion). Die durch L(x, λ, µ) := f (x) + λ, g(x) + µ, h(x) für alle x ∈ Rn (6.8) festgelegte Funktion L : Rn × Rp × Rq → R heißt Lagrange-Funktion von (6.1). 4 Jean M. Abadie 25 6. Numerische Verfahren für restringierte Optimierungsaufgaben Definition 6.12 (KKT-Bedingungen). (i) Die Bedingungen ∇x L(x, λ, µ) = 0 λ ≥ 0, g(x) ≤ 0, h(x) = 0 λ, g(x) = 0 (6.9) heißen KKT-Bedingungen von (6.1), wobei ∇x L(x, λ, µ) = ∇f (x) + p X λj ∇gj (x) + j=1 q X µk ∇hk (x) k=1 den Gradienten der Lagrange-Funktion L nach x bezeichnet. (ii) Ein Punkt (x∗ , λ∗ , µ∗ ) ∈ Rn ×Rp ×Rq , der die KKT-Bedingungen (6.9) erfüllt, heißt KKT-Punkt von (6.1). Die Vektoren λ∗ und µ∗ bzw. ihre Komponenten werden als Lagrange-Multiplikatoren bezeichnet. Bemerkung 6.13. (i) Liegen keine Restriktionen vor (p = q = 0), so reduzieren sich die KKT-Bedingungen (6.9) auf ∇f (x) = 0. (ii) Die letzte Teilbedingung in (6.9) ist offenbar äquivalent zu λj ≥ 0, gj (x) ≤ 0, λj gj (x) = 0 für alle 1 ≤ j ≤ p, d.h. in einem KKT-Punkt (x∗ , λ∗ , µ∗ ) ist stets λ∗j = 0 oder gj (x∗ ) = 0. Wenn diese beiden Fälle nicht gleichzeitig auftreten können, also wenn λ∗j + gj (x∗ ) 6= 0 gilt für alle 1 ≤ j ≤ p, so sagt man, der KKT-Punkt (x∗ , λ∗ , µ∗ ) erfüllt strikte Komplementarität. (iii) Die KKT-Bedingungen (6.9) können geometrisch interpretiert werden. Liegen z.B. keine Gleichheitsrestriktionen vor (q = 0) und ist (x∗ , λ∗ ) ∈ Rn × Rp ein KKTPunkt mit aktiver Indexmenge I(x∗ ) = {1 ≤ j ≤ p : gj (x∗ ) = 0}, so bedeutet (6.9), dass −∇f (x∗ ) eine nichtnegative Linearkombination der Vektoren ∇gj (x) mit j ∈ I(x∗ ) ist, d.h. −∇f (x∗ ) ∈ cone ∇gj (x∗ ) : j ∈ I(x∗ ) . Denn die inaktiven Restriktionen erfüllen gj (x∗ ) < 0 und erzwingen wegen (6.9) λj = 0, so dass die entsprechende Richtung in der konischen Linearkombination −∇f (x∗ ) der Vektoren ∇gl (x∗ ) nicht auftaucht. Satz 6.14 (KKT-Bedingungen unter ACQ). Sei x∗ ein lokales Minimum von (6.1) mit ACQ(x∗ ). Dann existieren Lagrange-Multiplikatoren λ∗ ∈ Rp+ und µ∗ ∈ Rq derart, dass (x∗ , λ∗ , µ∗ ) ein KKT-Punkt von (6.1) ist. 26 6.1. Lösungstheorie und Optimalitätskriterien Beweis: Wegen Lemma 6.4 und der Bedingung ACQ(x∗ ) gilt h∇f (x∗ ), di ≥ 0, für alle d ∈ TX (x∗ ) = TXlin (x∗ ), d.h. nach (6.6) −h∇f (x∗ ), di ≤ 0, wobei A ∈ R(|I(x ∗ )|+2q)×n für alle d ∈ Rn mit Ad ≤ 0, als Blockmatrix gegeben ist durch ∇gj (x∗ ) j∈I(x∗ ) A := ∇hk (x∗ ) 1≤k≤q . − ∇hk (x∗ ) 1≤k≤q Nach dem Farkas-Lemma 5.5, siehe Äquivalenz (5.3), ist die Lösungsmenge y ∈ R|I(x ∗ )|+2q : A> y = −∇f (x∗ ), y ≥ 0 nicht leer (meistens enthält sie sogar unendlich viele Punkte). Zerlegt man einen solchen Vektor y analog zu A in die Blöcke ∗ (λj )j∈I(x∗ ) y = (µ+ j )1≤k≤q − (µj )1≤k≤q und setzt noch λ∗j := 0 für j ∈ {1, . . . , p} \ I(x∗ ) sowie µ∗ := µ+ − µ− , so erfüllt (x∗ , λ∗ , µ∗ ) offenbar die KKT-Bedingungen 6.9. Wir diskutieren zwei Beispiele zur Formulierung von KKT-Bedingungen und deren Lösbarkeit. Beispiel 6.15. (i) Betrachte das lineare Optimierungsproblem min hc, xi Ax≤b Cx=d zu Daten A ∈ Rp×n , C ∈ Rq×n , b ∈ Rp , d ∈ Rq und c ∈ Rn . Mit f (x) := hc, xi, g(x) := Ax − b und h(x) := Cx − d hat das Problem die Form (6.1). Da die Nebenbedingung linear ist, erfüllt wegen Lemma 6.10 jeder zulässige Punkt die Regularitätsbedingung von Abadie. Mit Satz 6.14, ∇f (x) = c, ∇gj (x) = A> ej und ∇hk (x) = C> ek gelten für ein lokales Minimum x also die KKT-Bedingungen Pp Pq > > > > c + j=1 λj A ej + k=1 µk C ek = c + A λ + C µ = 0 Cx − d = 0 λ ≥ 0, Ax − b ≤ 0, hλ, Ax − bi = 0 . 27 6. Numerische Verfahren für restringierte Optimierungsaufgaben Für ein Problem der Form min hc, xi Ax=b x≥0 erhalten wir analog die KKT-Bedingungen c − λ + A> µ = 0 Ax − b = 0 , λ ≥ 0, −x ≤ 0, hλ, −xi = 0 was der Aussage von Satz 5.20 entspricht, wenn man y := −µ und λ := c − A> y wählt. Jeder KKT-Punkt ist auch lokales Minimum (sogar global). Je nach Lage des Kostenvektors zu den niederdimensionalen Seitenflächen des Polyeders X sind Minima und damit KKT-Punkte eindeutig oder nicht. Als Lösungsverfahren zum Auffinden von KKT-Punkten bzw. globalen Minima haben wir in Kapitel 5 den Simplex-Algorithmus sowie Innere-Punkt-Verfahren diskutiert. (ii) Betrachte das unrestringierte Minimierungsproblem der `1 -Tikhonov-Regularisierung min 1 kAx x∈Rn 2 − bk22 + αkxk1 , mit A ∈ Rm×n , b ∈ Rm und einem Regularisierungsparameter α ≥ 0. Dieses Minimierungsproblem wird z.B. betrachtet, um schlecht konditionierte lineare Gleichungssystem Ax = bexakt auch bei gestörten Messdaten b ≈ bexakt stabil lösen zu können. Die ursprüngliche Zielfunktion x 7→ 21 kAx − bk22 + αkxk1 ist zwar konvex bezüglich x, d.h. lokale Minima sind global, aber sie ist nicht stetig differenzierbar. Spaltet man die Unbekannte Rn 3 x = x+ − x− in Positiv- und Negativteil x± ≥ 0 auf und erzwingt die Eindeutigkeit dieser Zerlegung via hx+ , x− i = 0, so kann das ursprüngliche Problem wegen kxk1 = h1, x+ + x− i als restringiertes Optimierungsproblem mit stetig differenzierbarer Zielfunktion beschrieben werden: Rn 3x± ≥0 hx+ ,x− i=0 ⇔ min 2 − x− ) − b2 + αh1, x+ + x− i x+ ∈R2n x− + −I 0 x ≤( 0 0) 0 −I x− + − hx ,x i=0 + 1 2 A(x min + 1 2 A(x 2 − x− ) − b2 + αh1, x+ + x− i. Man beachte, dass das transformierte Problem durch die eindeutige Zerlegung von x = x+ − x− mit hx+ , x− i = 0 die gleichen lokalen Minima besitzt wie das ur+ sprüngliche Problem. Jedes lokale Minimum ( xx− ) ∈ R2n erfüllt die folgenden KKT- 28 6.1. Lösungstheorie und Optimalitätskriterien Bedingungen mit Lagrange-Multiplikatoren λ ∈ R2n und µ ∈ R: − > A A(x+ − x− ) − b + α1 −I 0 x −A> A(x+ − x− ) − b + α1 + 0 −I λ + µ x+ = 0 hx+ , x− i = 0, . D −x+ E + − λ ≥ 0, x ≥ 0, x ≥ 0, λ, =0 −x− Also gilt z.B. beim naheliegenden Ansatz λ := ( uv ) mit u, v ∈ Rn u = A> A(x+ − x− ) − b + α1 + µx− , v = −A> A(x+ − x− ) − b + α1 + µx+ , 0 = hx+ , ui = hx− , vi = hx+ , x− i, sowie x± ≥ 0, u ≥ 0 und v ≥ 0, also u + v = 2α1 + µ(x+ + x− ), u − v = 2A> A(x+ − x− ) − b + 2α1. Die Anzahl der KKT-Punkte ist unendlich, denn µ ∈ R kann wegen x± ≥ 0 beliebig vergrößert werden, ohne die KKT-Eigenschaft zu verletzen. Für jeden KKT-Punkt kann man folgende Aussagen für die Komponenten von x = x+ − x− treffen: • Ist xj > 0, so folgt uj = 0 und damit wegen x− j =0 A> (Ax − b) j = uj − α − µx− j = −α = − sgn(xj )α. • Ist xj < 0, so folgt vj = 0 und damit wegen x+ j =0 A> (Ax − b) j = −vj − α + µx+ j = α = − sgn(xj )α. − • Ist xj = 0, so folgt x+ j = xj = 0 und damit wegen uj ≥ 0, vj ≥ 0 −α ≤ A> (Ax − b) j ≤ α. Es folgt für jeden KKT-Punkt A> (b − Ax) = sgn(xj )α, j > A (b − Ax) ≤ α, j xj 6= 0 xj = 0 . Umgekehrt kann man eine Lösung x = x+ − x− dieser Bedingungen mit x± ≥ 0 und hx+ , x− i = 0 zu einem KKT-Punkt auffüllen mit u := A> (Ax − b) + α1 ≥ 0, v := −A> (Ax − b) + α1 ≥ 0, µ := 0. 29 6. Numerische Verfahren für restringierte Optimierungsaufgaben Bei einem Optimierungsproblem mit nichtlinearen Nebenbedingungen ist zunächst unklar, ob die Regularitätsbedingung ACQ von Abadie überhaupt gilt. Wir geben zwei verschiedene praktikable, hinreichende Kriterien an, unter denen jeweils ACQ erfüllt ist. Zunächst diskutieren wir eine Bedingung, die auch bei nichtkonvexen zulässigen Bereichen einsetzbar ist. Definition 6.16 (LICQ). Wir sagen, ein zulässiger Punkt x des restringierten Optimierungsproblems (6.1) erfüllt die Regularitätsbedingung der linearen Unabhängigkeit (engl.: linear inequality constraint qualification) bzw. es ist LICQ(x) erfüllt, wenn die Menge ∇gj (x) : j ∈ I(x) ∪ ∇hk (x) : 1 ≤ k ≤ q linear unabhängig ist, wobei I(x) die Menge der aktiven Ungleichungsrestriktionen von x aus (6.7) bezeichnet. Wir werden zeigen, dass aus der handlichen Bedingung LICQ(x) bereits ACQ(x) folgt und benutzen dazu den folgenden Hilfssatz. Lemma 6.17. Sei x zulässig für (6.1), und sei I(x) = {1 ≤ j ≤ p : gj (x) = 0} die Menge der aktiven Ungleichungsrestriktionen bei x. Die Gradienten {∇hk (x) : 1 ≤ k ≤ q} seien linear unabhängig, und d ∈ Rn sei ein Vektor mit ∇gj (x), d < 0, für alle j ∈ I(x), ∇hk (x), d = 0, für alle 1 ≤ k ≤ q. (6.10) Dann existieren ein > 0 und eine stetig differenzierbare Kurve ϕ : (−, ) → Rn mit ϕ(0) = x, ϕ0 (0) = d und ϕ(t) ∈ X für alle 0 ≤ t < . Beweis: Definiere eine Abbildung H : Rq+1 → Rq via H(t, y) := h x + td + h0 (x)> y , für alle t ∈ R, y ∈ Rq . Das nichtlineare Gleichungssystem H(t, y) = 0 besitzt wegen h(x) = 0 die Lösung (t∗ , y∗ ) = (0, 0). Die Jacobimatrix von H nach y in diesem Punkt lautet H0y (0, 0) = h0 (x)h0 (x)> ∈ Rq×q . Nach Voraussetzung hat h0 (x) ∈ Rq×n vollen Rang ≥ n, also gilt q ≤ n und H0y (0, 0) ist invertierbar. Nach dem Satz über implizite Funktionen existiert ein > 0 und eine stetig differenzierbare Kurve ψ : (−, ) → Rn mit ψ(0) = 0 und H t, ψ(t) = 0, für alle t ∈ (−, ). Es folgt mit der Kettenregel ψ 0 (t) = −H0y t, ψ(t) 30 −1 H0t t, ψ(t) , für alle t ∈ (−, ), 6.1. Lösungstheorie und Optimalitätskriterien also ψ 0 (0) = −H0y (0, 0)−1 Ht (0, 0) = −H0y (0, 0)−1 h0 (x)> d = 0. | {z } =0 Definiere dann eine Kurve ϕ : (−, ) → Rn durch ϕ(t) := x + td + h0 (x)> ψ(t), für alle t ∈ (−, ). Es gilt zunächst ϕ(0) = x und ϕ0 (0) = d sowie h(ϕ(t)) = 0 für alle t ∈ (−, ). Zu zeigen bleibt noch, dass ϕ(t) auch bezüglich der Ungleichungsrestriktionen zulässig bleibt, ggf. für ein verkleinertes . Aus Stetigkeitsgründen gilt gj (ϕ(t)) < 0 für alle j ∈ / I(x) und alle t hinreichend nahe bei 0. Für jeden Index j ∈ I(x) und ηj (t) := gj (ϕ(t)) gilt ηj0 (t) = h∇gj (ϕ(t)), ϕ0 (t)i, mit ηj0 (0) = h∇gj (ϕ(t)), di < 0. Also ist ηj in einer Umgebung von 0 streng monoton fallend, d.h. g(ϕ(t)) ≤ 0 für t ∈ [0, ) und ein > 0. Satz 6.18. Aus LICQ(x) folgt ACQ(x). Beweis: Sei x ∈ X. Wegen Lemma 6.7 reicht es, TXlin (x) ⊆ TX (x) zu zeigen. Sei also d ∈ TXlin (x) beliebig, d.h. ∇gj (x), d ≤ 0, für alle j ∈ I(x), hk (x), d = 0, für alle 1 ≤ k ≤ q. Wegen LICQ(x) gilt |I(x)|+q ≤ n, denn ≥ n+1 Vektoren im Rn wären ja linear abhängig. Sei A ∈ Rn×n eine reguläre Matrix, die in den ersten |I(x)| Zeilen aus den Vektoren ∇gj (x)> besteht, deren nächste q Zeilen die Vektoren ∇gk (x)> enthalten und deren restliche Zeilen passend ergänzt wurden (Basisergänzungssatz der Linearen Algebra). Definiere dann einen Vektor b ∈ Rn , dessen erste |I(x)| Einträge −1 sind, die nächsten p Einträge 0 sind und dessen restliche Einträge beliebig sind. Das lineare Gleichungssystem b=b Ad ist eindeutig lösbar und liefert einen Vektor b < 0, für alle j ∈ I(x), ∇gj (x), d b ∈ Rn mit d b = 0, ∇hj (x), d für alle 1 ≤ k ≤ q. Wir setzen b d(δ) := d + δ d, für alle δ > 0, und zeigen, dass d(δ) ∈ TX (x) für alle δ > 0, denn hieraus folgt d = limδ→0 d(δ) ∈ TX (x) mit Hilfe von Lemma 6.3. Für festes δ > 0 erfüllt der Vektor d(δ) die Bedingungen aus Lemma 6.17, die auch als Regularitätsbedingung von Mangasarian und Fromovitz (MFCQ) bezeichnet werden. Somit existiert ein > 0 und eine stetig differenzierbare Kurve ϕ : (−, ) → Rn mit ϕ(0) = x, ϕ0 (0) = d(δ) und ϕ(t) ∈ X für alle 0 ≤ t < . Ist nun tk & 0, so setzen wir x(k) := ϕ(tk ), und wir erhalten eine ab k ≥ k0 zulässige Folge (k) → ϕ0 (0) = d(δ), k → ∞, d.h. d(δ) ∈ TX (x). mit x(k) → x und x tk−x = ϕ(tk )−ϕ(0) tk Wie man in folgendem Beispiel sieht, folgt aus ACQ(x) nicht immer LICQ(x). 31 6. Numerische Verfahren für restringierte Optimierungsaufgaben Beispiel 6.19. Betrachte das Optimierungsproblem min −x21 +x2 ≤0 −x2 ≤0 x21 + (x2 + 1)2 . Das globale Minimum liegt bei x∗ = 0, denn für jeden zulässigen Punkt gilt x21 + (x2 + 1)2 = x21 +x22 + 2x2 +1 ≥ 1 = 02 + (0 + 1)2 . |{z} ≥x2 | {z ≥0 } Die zulässige Menge liegt zwischen der x1 -Achse und der Normalparabel x2 = x21 . Im Punkt x∗ = 0 gilt für den Tangentialkegel n o u /t TX (0) = d ∈ R2 : ∃uk → 0, vk → 0, tk & 0 mit 0 ≤ vk ≤ u2k , ( vkk/tkk ) → d, k → ∞ = R × {0}, denn aus vk , tk ≥ 0 folgt d2 ≥ 0, und 0 ≤ d2 ← vk /tk ≤ u2k /tk → 0 wie in Beispiel 6.8; ferner kann man zu beliebigem d = ( d01 ) und tk & 0 die Folge x(k) := x∗ + tk d ∈ X betrachten, die die Bedingung (6.2) erfüllt. Für den linearisierten Tangentialkegel in x∗ = 0 rechnen wir wegen I(0) = {1, 2} o n 0 ), d ≤ 0 = R × {0}, TXlin (0) = d ∈ R2 : ( 01 ), d ≤ 0, ( −1 0 ) also ist ACQ(0) erfüllt. Aber die beiden Gradienten ∇g1 (0) = ( 01 ) und ∇g2 (0) = ( −1 sind linear abhängig, so dass LICQ(0) nicht gilt. Für die zweite populäre hinreichende Bedingung im Fall nichtlinearer Nebenbedingungen in (6.1) nehmen wir an, dass das Minimierungsproblem (6.1) die folgende spezielle Form hat: minn f (x), (6.11) x∈R g(x)≤0 Ax=b wobei f : Rn → R und alle gj : Rn → R, 1 ≤ j ≤ p, stetig differenzierbare und konvexe Funktionen sind, sowie A ∈ Rq×n , b ∈ Rq . Wegen der Konvexität aller gj ist X := {x ∈ Rn : g(x) ≤ 0, Ax = b} konvex, und wegen der Konvexität von f sprechen wir von einem konvexen Optimierungsproblem. Definition 6.20 (Slater-Bedingung). Wir sagen, das Minimierungsproblem (6.11) mit b ∈ X existiert mit erfüllt die Slater-Bedingung, wenn ein x gj (b x) < 0, für alle 1 ≤ j ≤ p, Ab x = b, b ist strikt zulässig bzgl. der Ungleichungsrestriktionen. d.h. I(b x) = ∅, x 32 (6.12) 6.1. Lösungstheorie und Optimalitätskriterien Die Slater-Bedingung bedeutet geometrisch, dass der zulässige Bereich einen inneren Punkt bezüglich der Ungleichungsrestriktionen enthält. Dies erscheint zunächst als relativ schwache Bedingung, allerdings wurde ja auch zusätzlich die Konvexität des zulässigen Bereichs vorausgesetzt. Um zu zeigen, dass lokale Minima von (6.11) unter der SlaterBedingung auch die KKT-Bedingungen 6.9 erfüllen, benutzen wir folgenden Hilfssatz. Lemma 6.21. Sei X := {x ∈ Rn : g(x) ≤ 0, Ax = b} der zulässige Bereich von (6.11), Betrachte zu jedem x ∈ X die Menge TXstrict (x) := d ∈ Rn : h∇gj (x), di < 0 für alle j ∈ I(x), Ad = 0 ⊆ TXlin (x). (6.13) Dann gilt TXstrict (x) ⊆ TX (x). Beweis: Seien x ∈ X und d ∈ TXstrict (x). Setze x(k) := x + k1 d für alle k ∈ N, mit (k) x(k) → x und x 1/k−x = d → d für k → ∞. Es gilt x(k) ∈ X für genügend große k. Denn die Gleichungsrestriktion ist für alle k erfüllt, Ax(k) = |{z} Ax + k1 |{z} Ad = 0. =b =0 Für die Ungleichungsrestriktion überlegen wir uns zunächst, dass für jedes 1 ≤ j ≤ p und k ∈ N wegen des Mittelwertsatzes ξ (j,k) ∈ [x, x(k) ] existieren, so dass gj (x(k) ) = gj (x) + ∇g(ξ (j,k) ), x(k) − x = gj (x) + k1 ∇g(ξ (j,k) ), d . Falls j ∈ I(x), folgt gj (x) = 0 und ∇g(ξ (j,k) ), d < 0 für genügend große k wegen ∇gj (x), d < 0 und ξ (j,k) → x für k → ∞, also gj (x(k) ) ≤ 0 ab k ≥ k0 = k0 (j). Falls j∈ / I(x), folgt gj (x) < 0 und k1 ∇g(ξ (j,k) ), d → 0 für k → ∞, also wieder gj (x) ≤ 0 ab k ≥ k0 = k0 (j), und insgesamt d ∈ TX (x). Satz 6.22. Das Minimierungsproblem (6.11) erfülle die Slater-Bedingung. Dann folgt ACQ(x) für alle zulässigen x. Beweis: Zu X := {x ∈ Rn : g(x) ≤ 0, Ax = b} rechnen wir gemäß Lemma 6.7 nur b ∈ X ein strikt zulässiger Punkt aus der ⊆ TX (x) für alle x ∈ X nach. Sei dazu x lin b := x b − x. Aus der Konvexität Slater-Bedingung (6.12), und sei d ∈ TX (x). Wir setzen d der Funktionen gj folgt mit Satz 3.3 über die Charakterisierung der Konvexität stetig differenzierbarer Funktionen zunächst für alle j ∈ I(x) = {1 ≤ j ≤ p : gj (x) = 0} b ≤ gj (b ∇gj (x), d x) − gj (x) = gj (b x) < 0. | {z } TXlin (x) =0 Ferner gilt für alle 1 ≤ k ≤ q wegen ∇hk (y) = A> ek b = hA> ek , di b = hek , Ab ∇hk (x), d x i − hek , |{z} Ax i = 0, |{z} =b =b 33 6. Numerische Verfahren für restringierte Optimierungsaufgaben b ∈ T strict (x) mit dem strikten Tangentialkegel aus (6.13). Analog erfüllt auch der also d X Vektor b für alle δ > 0, d(δ) := d + δ d, für jedes feste δ > 0 die Ungleichungen ∇gj (x), d(δ) < 0, für alle j ∈ I(x), ∇hk (x), d(δ) = 0, für alle 1 ≤ k ≤ q, und damit d(δ) ∈ TXstrict (x) für alle δ > 0. Lemma 6.21 liefert daher d(δ) ∈ TX (x) für alle δ > 0 und wegen der Abgeschlossenheit des Tangentialkegels d = limδ→0 d(δ) ∈ TX (x). Die Minimalität von KKT-Punkten bei einem konvexen Minimierungsproblem der Form (6.11) folgt bereits, ohne die Slater-Bedingung zu benutzen. Satz 6.23. Sei (x∗ , λ∗ , µ∗ ) ∈ Rn × Rp+ × Rq ein KKT-Punkt von (6.11). Dann ist x∗ ein globales Minimum von f auf X := {x ∈ Rn : g(x) ≤ 0, Ax = b}. Beweis: Für einen KKT-Punkt (x∗ , λ∗ , µ∗ ) ∈ Rn × Rp+ × Rq von (6.11) gilt wegen der Konvexität von f und gj für alle x ∈ Rn f (x) ≥ f (x∗ ) + ∇f (x∗ ), x − x∗ p q D X E X = f (x∗ ) + − λ∗j ∇gj (x∗ ) − µ∗k ∇hk (x∗ ), x − x∗ | {z } j=1 = f (x∗ ) − p X k=1 λ∗j ∇gj (x∗ ), x − x∗ − j=1 = f (x∗ ) − X =A> ek q X µ∗k ek , A(x − | {z k=1 =0 x∗ ) } X λ∗j ∇gj (x∗ ), x − x∗ λ∗j ∇gj (x∗ ), x − x∗ + {z } |{z} |{z} | 1≤j≤p 1≤j≤p ∗ j∈I(x∗ ) ≥0 ≤gj (x)−gj (x )=gj (x)≤0 ∗ ) =0 j ∈I(x / ≥ f (x∗ ), d.h. x∗ ist ein globales Minimum von f auf X. Korollar 6.24. Bei einem Minimierungsproblem min f (x), Ax≤b Cx=d f ∈ C 1 (Rn ) konvex, A ∈ Rp×n , b ∈ Rp , C ∈ Rq×n , d ∈ Rq (6.14) ist ein zulässiger Punkt x∗ genau dann ein (lokales=globales) Minimum, wenn LagrangeMultiplikatoren λ∗ ∈ Rp+ und µ∗ ∈ Rq existieren, so dass (x∗ , λ∗ , µ∗ ) ein KKT-Punkt von (6.14) ist. Beweis: Wegen der polyedrischen Nebenbedingungen ist nach Lemma 6.10 die Regularitätsbedingung ACQ(x∗ ) erfüllt, so dass die Existenz von Lagrange-Multiplikatoren mit Satz 6.14 folgt. Satz 6.23 liefert umgekehrt die Minimalität von KKT-Punkten. 34 7. Dualität Wir betrachten in diesem Kapitel ein allgemeines Optimierungsproblem der Form min f (x), g(x)≤0 h(x)=0 x∈M f : Rn → R, g : Rn → Rp , h : Rn → Rq , ∅ = 6 M ⊆ Rn . (7.1) Dabei modelliert M ⊆ Rn Restriktionen, die sich nicht durch Gleichungen oder Ungleichungen ausdrücken lassen, z.B. strikte Ungleichungen oder Ganzzahligkeit. Ziel der Dualitätstheorie ist es, durch Zuordnung eines dualen Optimierungsproblems zum primalen Problem (7.1) untere Schranken für den Optimalwert der Zielfunktion f zu gewinnen, sowie Optimalitätskriterien zu entwickeln. Duale Optimierungsprobleme sind häufig leichter zu lösen als die entsprechenden primalen Probleme. 7.1. Lagrange-Dualität Wie üblich sei L(x, λ, µ) := f (x) + λ, g(x) + µ, h(x) , für alle (x, λ, µ) ∈ Rn × Rp+ × Rq , die Lagrange-Funktion von (7.1). Wir erinnern uns an die Sattelpunktbedingung für alle (x, λ, µ) ∈ Rn × Rp+ × Rq . (7.2) L(x∗ , λ, µ) ≤ L(x∗ , λ∗ , µ∗ ) ≤ L(x, λ∗ , µ∗ ), Bei konvexen Optimierungsproblemen mit stetig differenzierbarer Zielfunktion ist (7.2) äquivalent zu den KKT-Bedingungen und hinreichend für Optimalität von (x∗ , λ∗ , µ∗ ) (Sattelpunktsatz). Definition 7.1. Die Funktion ϕ(λ, µ) := inf L(x, λ, µ), x∈M für alle (λ, µ) ∈ Rp+ × Rq , (7.3) heißt duale Funktion von (7.1). Das Optimierungsproblem max (λ,µ)∈Rp+ ×Rq ϕ(λ, µ) (7.4) heißt (Lagrange-)duales Problem zum primalen Problem (7.1). Bemerkung 7.2. (i) Das duale Problem (7.4) hat sehr einfache Restriktionen, allerdings ist die duale Funktion ϕ im Allgemeinen nur schwer zu berechnen. 35 7. Dualität (ii) ϕ ist im Allgemeinen nicht differenzierbar und auch nicht für alle Argumente endlich. Wir setzen dom(ϕ) := (λ, µ) ∈ Rp+ × Rq : ϕ(λ, µ) > −∞}. (7.5) Beispiel 7.3. (i) Wir betrachten zunächst lineare Programme, z.B. in der Normalform A ∈ Rq×n , min hc, xi, Ax=b x≥0 b ∈ Rq , c ∈ Rn , M := Rn . (7.6) Die Lagrange-Funktion zu (7.6) lautet z.B. L(x, λ, µ) = hc, xi − hλ, xi + hµ, b − Axi, für alle (x, λ, µ) ∈ Rn × Rn+ × Rq , wobei man bei der Gleichheitsrestriktion auch das umgekehrte Vorzeichen wählen könnte, d.h. e λ, µ) = hc, xi − hλ, xi + hµ, Ax − bi, L(x, für alle (x, λ, µ) ∈ Rn × Rn+ × Rq . Beide Lagrange-Funktionen führen im Wesentlichen auf das gleiche duale Problem. Die duale Funktion ϕ zu L lautet ϕ(λ, µ) = infn L(x, λ, µ) x∈R = infn hc − λ − A> µ, xi + hµ, bi x∈R ( −∞ , c − λ − A> µ 6= 0 = , hµ, bi , c − λ − A> µ = 0 so dass dom(ϕ) = (λ, µ) : λ ≥ 0, λ = c − A> µ = (c − A> µ, µ) : A> µ ≤ c und das duale Problem hat die Form max q (λ,µ)∈Rn + ×R ϕ(λ, µ) = max λ=c−A> µ≥0,µ∈Rq ϕ(λ, µ) = max hµ, bi, A> µ≤c (7.7) was genau dem dualen linearen Programm aus Kapitel 5 entspricht. Wählt man e erhält man analog das duale Programm stattdessen die Lagrange-Funktion L, max A> µ≥−c −hµ, bi e :=−µ µ ⇔ max he µ, bi. e ≤c A> µ (ii) Beim Minimierungsproblem min x21 +x22 −1≤0 36 (x21 − x22 ), M := R2 , 7.1. Lagrange-Dualität ist die Zielfunktion f (x) := x21 − x22 nicht konvex, wohl aber die Nebenbedingungsfunktion g(x) := x21 + x22 − 1. Die duale Funktion lautet ϕ(λ) = inf x21 − x22 + λ(x21 + x22 − 1) x∈R2 = inf (1 + λ)x21 + (λ − 1)x22 − λ x∈R2 ( −∞ , 0 ≤ λ < 1 = , für alle λ ≥ 0, −λ , λ ≥ 1 also dom(ϕ) = [1, ∞) mit dualem Programm max ϕ(λ) = ϕ(1) = −1. λ≥0 Wir beachten, dass f (x) = x21 − x22 auf X = {x ∈ R2 : x21 + x22 − 1 ≤ 0} minimal wird bei x = (0, ±1)> mit f (0, ±1) = −1, denn f (x) = x21 − x22 ≥ x21 − (1 − x21 ) = 2x21 − 1 ≥ −1, für alle x ∈ X, und damit min f (x) = max ϕ(λ). x∈X λ≥0 (iii) Beim Minimierungsproblem min (−x1 ), x1 +x2 −3=0 x∈M M := ( 00 ), ( 21 ), ( 12 ), ( 40 ), ( 04 ) , ist die Zielfunktion f (x) = −x1 linear und damit konvex. Die Nebenbedingung ist konvex, allerdings nicht die diskrete Extra-Nebenbedingungsmenge M . Für die duale Funktion rechnen wir ϕ(µ) = min − x1 + µ(x1 + x2 − 3) x∈M = min{−3µ, −2, −1, −4 + µ, µ} ( −4 + µ , µ ≤ 1 = , für alle µ ∈ R, −3µ , µ>1 also dom(ϕ) = R mit dualem Programm max ϕ(µ) = −3. µ∈R Wegen min f (x) = x∈M min (−x1 ) = −2 > −3 x1 +x2 −3=0 x∈M liegt eine sogenannte Dualitätslücke vor, d.h. das duale Programm hat einen echt schlechteren Optimalwert als das primale Programm. 37 7. Dualität 7.2. Dualitätssätze Satz 7.4 (Schwache Dualität). Für alle x ∈ X := {x ∈ Rn : g(x) ≤ 0, h(x) = 0, x ∈ M } und (λ, µ) ∈ Rp+ × Rq gilt ϕ(λ, µ) ≤ f (x), (7.8) also auch sup D ≤ inf P, (7.9) wobei D := ϕ(λ, µ) : (λ, µ) ∈ Rp+ × Rq . P := f (x) : x ∈ X , Beweis: Für alle x ∈ X ⊆ M und (λ, µ) ∈ Rp+ (7.10) × Rq rechnen wir ϕ(λ, µ) = inf L(z, λ, µ) z∈M ≤ L(x, λ, µ) = f (x) + |{z} λ , g(x) + µ, h(x) |{z} | {z } ≥0 ≤0 =0 ≤ f (x), also gilt (7.8). (7.9) folgt direkt aus (7.8) durch Supremums- bzw. Infimumsbildung. Bevor wir versuchen, die Gleichheit in (7.9) unter Zusatzvoraussetzungen zu zeigen, notieren wir noch einfache Eigenschaften der dualen Funktion aus (7.3). Lemma 7.5. Es gilt für die duale Funktion ϕ aus (7.3): (i) Die Menge dom(ϕ) ist konvex. (ii) ϕ : dom(ϕ) → R ist konkav, d.h. −ϕ ist konvex. Beweis: Für (λ(j) , µ(j) ) ∈ dom(ϕ) j ∈ {1, 2} und α ∈ (0, 1) gilt αλ(1) +(1−α)λ(2) ≥ 0 sowie ϕ αλ(1) + (1 − α)λ(2) , αµ(1) + (1 − α)µ(2) = inf L x, αλ(1) + (1 − λ)λ(2) , αµ(1) + (1 − α)µ(2) x∈M = inf f (x) + αλ(1) + (1 − α)λ(2) , g(x) + αµ(1) + (1 − α)µ(2) , h(x) x∈M = inf αL(x, λ(1) , µ(1) ) + (1 − α)L(x, λ(2) , µ(2) ) x∈M ≥ α inf L(x, λ(1) , µ(1) ) + (1 − α) inf L(y, λ(2) , µ(2) ) x∈M = αϕ(λ (1) y∈M (1) ,µ ) + (1 − α)ϕ(λ (2) , µ(2) ) > −∞, also insbesondere α(λ(1) , µ(1) ) + (1 − α)(λ(2) , µ(2) ) ∈ dom(ϕ), d.h. (i), und ϕ ist konkav, d.h. (ii). 38 7.2. Dualitätssätze Satz 7.6 (Starke Dualität). Seien M ⊆ Rn nichtleer und konvex, f : Rn → R und gj : Rn → R konvex für 1 ≤ j ≤ p, und sei h(x) = Ax − b mit A ∈ Rq×n , b ∈ Rq . b ∈ M, Falls inf(P ) > −∞, d.h. ist das primale Problem beschränkt, und existiert ein x b mit das zum relativen Inneren von M gehört (d.h. es existiert eine offene Kugel U 3 x U ∩ aff(M ) ⊆ M ) sowie die Slater-Bedingung erfüllt, d.h. gj (b x) < 0, für alle 1 ≤ j ≤ m, h(b x) = 0, (7.11) so ist das duale Problem (7.4) lösbar, mit sup(D) = inf(P ). (7.12) Beweis: 1. Seien zunächst die Zeilen A> ej , 1 ≤ j ≤ 1, linear unabhängig, und es gelte int(M ) 6= ∅. Wir setzen Q := (y, z, w) ∈ Rp × Rq × R : ∃x ∈ M : g(x) ≤ y, h(x) = z, f (x) ≤ w . Dann ist Q konvex, da f und alle gj konvex sind und h affin-linear ist. Außerdem gilt Q 6= ∅, da M 6= ∅. Betrachte den Punkt (0, 0, inf(P )) ∈ Rp × Rq × R. Dies ist kein innerer Punkt von Q, da sonst auch (0, 0, inf(P ) − δ) ∈ Q gelten müsste für ein δ > 0, im Widerspruch zur Minimalität von inf(P ). Somit existiert eine Q und (0, 0, inf(P )) trennende Hyperebene, d.h. (λ∗ , µ∗ , γ ∗ ) ∈ (Rp × Rq × R) \ {0} mit R 3 γ ∗ inf(P ) ≤ hλ∗ , yi + hµ∗ , zi + γ ∗ w, für alle (y, z, w) ∈ Q. Da mit (y, z, w) ∈ Q und τ > 0 auch (y, z, w + τ ) ∈ Q gilt, muss γ ∗ ≥ 0 sein, ansonsten könnte man die rechte Seite der Trennungsungleichung gegen −∞ schicken, im Widerspruch zu γ ∗ inf(P ) ∈ R. Analoges gilt auch für die Komponenten von y: Mit (y, z, w) ∈ Q und τ > 0 ist auch (y + τ ej , z, w) ∈ Q für 1 ≤ j ≤ p, so dass λ∗j ≥ 0 gelten muss. Wir zeigen jetzt, dass γ ∗ > 0 gilt. Angenommen, dies sei nicht der Fall und es gelte γ ∗ = 0. Dann folgt aus der Trennungsungleichung für alle y = g(x), z = h(x) 0 ≤ hλ∗ , yi + hµ∗ , zi = λ∗ , g(x) + µ∗ , h(x) . b ∈ M aus (7.11) erhalten wir Speziell für x 0 ≤ λ∗ , g(b x) + µ∗ , h(b x) , |{z} | {z } <0 =0 also λ∗ = 0. Rückeinsetzen liefert wegen h(b x) = 0 0 ≤ µ∗ , h(x) = µ∗ , h(x) − h(b x) b) = µ∗ , A(x − x bi, = hA> µ∗ , x − x für alle x ∈ M. 39 7. Dualität b ist ein innerer Punkt von M . Für Wegen int(M ) 6= ∅ gilt aff(M ) = Rn , d.h. x b ± δj ej ∈ M für alle 1 ≤ j ≤ n und daher hinreichend kleine δj > 0 gilt somit x 0 ≤ hA> µ∗ , ±δj ej i = ±δj (A> µ∗ )j , für alle 1 ≤ j ≤ n, d.h. A> µ∗ = 0. Da die Zeilen von A linear unabhängig sind, folgt µ∗ = 0, also (λ∗ , µ∗ , γ ∗ ) = 0 im Widerspruch zum Trennungssatz. Also gilt doch γ ∗ > 0. Wir wählen o.B.d.A. γ ∗ = 1, nach Streckung des Normalenvektors (λ∗ , µ∗ , γ ∗ ). Aus der Trennungsungleichung erhalten wir für alle y = g(x), z = h(x) und w = f (x) mit x ∈ M ∗ inf(P ) ≤ hλ∗ , yi + hµ∗ , zi + w = |{z} λ , g(x) + µ∗ , h(x) + f (x), | {z } |{z} ≥0 ≤0 =0 also auch inf(P ) ≤ inf L(x, λ∗ , µ∗ ) = ϕ(λ∗ , µ∗ ) ≤ x∈M sup ϕ(λ, µ) = sup(D). (λ,µ)∈Rp+ ×Rq Der schwache Dualitätssatz 7.4 liefert somit (7.12). 2. Sind die Zeilen A> ej , 1 ≤ j ≤ p, von A linear abhängig, aber noch int(M ) 6= ∅, kann man das Problem durch Elimination redundanter Gleichheitsrestriktionen auf Fall 1 zurückführen, denn das lineare Gleichungssystem Ax = b besitzt nach (7.11) b. Ist J ⊆ {1, . . . , p} die Menge der Indizes redundanter, zumindest die Lösung x weggelassener Gleichungen (Ax)j = bj , so kann man durch Auffüllen des LagrangeMultiplikators µ∗ aus 1. mit µ∗j := 0 für alle j ∈ J in den letzten Beweisschritt von 1. einsteigen und ebenfalls inf(P ) ≤ sup(D) zeigen, woraus mit schwacher Dualität (7.12) folgt. 3. Sei schließlich int(M ) = ∅, d.h. aff(M ) sei ein affiner, echter Unterraum von Rn mit Dimension s. Dann existiert eine Matrix C ∈ Rn×s vom Rang s und ein Vektor d ∈ Rn mit der Parametrisierung aff(M ) = {ψ(u) := Cu + d : u ∈ Rs }. Betrachtet man das Urbild U := ψ −1 (M ) ⊆ Rs und definiert fe := f ◦ψ, gej := gj ◦ψ sowie e hk := hk ◦ ψ für 1 ≤ j ≤ p und 1 ≤ k ≤ q, so ist das Minimierungsproblem min fe(u) e(u)≤0 g e h(u)=0 u∈U äquivalent zum ursprünglichen Minimierungsproblem (7.1), und die Bedingungen b := ψ −1 (b b nach für Fall 1. sind erfüllt. Denn u x) ist ein innerer Punkt von U , da x Voraussetzung zum relativen Inneren von M gehört. 40 8. Nichtglatte konvexe Optimierung Wir diskutieren jetzt nichtglatte, konvexe Optimierungsprobleme X ⊆ Rn konvex , min f (x), x∈X f : X → R konvex. (8.1) Um Optimalitätsbedingungen im nichtglatten Fall herzuleiten, benötigen wir einen verallgemeinerten Ableitungsbegriff, da konvexe Funktionen nicht überall differenzierbar sind und daher die KKT-Bedingungen glatter Optimierungsbedingungen hier nicht ohne weiteres formulierbar sind. 8.1. Konvexes Subdifferential Wir beobachten zunächst, dass konvexe Funktionen auf offenen Mengen lokal Lipschitzstetig sind. Satz 8.1. Seien ∅ 6= X ⊆ Rn konvex und f : X → R konvex. Dann ist f auf int(X) lokal Lipschitz-stetig. Beweis: Sei x ∈ int(X). Dann existiert wegen der Offenheit von int(X) ein δ > 0, so dass S := {y ∈ Rn : kx − yk∞ ≤ 2δ} ⊆ X. Die Menge S ist ein konvexer, beschränkter Polyeder mit N := 2n Ecken v(1) , . . . , v(N ) , und es gilt S = conv{v(1) , . . . , v(N ) }. Jedes y ∈ S sieht also aus wie y= N X λj v (j) , N X λj ≥ 0, j=1 λj = 1. j=1 Es folgt mit Hilfe der Jensen-Ungleichung wegen der Konvexität von f f (y) = f N X λj v (j) j=1 ≤ N X j=1 λj f (v (j) ) ≤ max f (v 1≤k≤N {z | =:M (k) N X ) λj = M, } j=1 | {z } für alle y ∈ S, =1 d.h. f ist auf S nach oben durch M beschränkt. Definiert man zu y ∈ S den an x gespiegelten Vektor z := x − (y − x) = 2x − y ∈ S, so folgt wegen der Konvexität von f y + z 1 1 1 M f (x) = f ≤ f (y) + f (z) ≤ f (y) + , 2 2 2 2 2 also die untere Schranke f (y) ≥ 2f (x) − M =: m, für alle y ∈ S. 41 8. Nichtglatte konvexe Optimierung Wir erhalten also m ≤ f (y) ≤ M, für alle y ∈ S. Seien jetzt u, v ∈ Rn mit u 6= v sowie ku − xk2 ≤ δ und kv − xk2 ≤ δ. Setzt man y := v + δ so folgt v−u , kv − uk2 v−u ky − xk2 ≤ kv − xk2 +δ ≤ 2δ, | {z } kv − uk2 2 | {z } ≤δ =1 also y ∈ S wegen k · k∞ ≤ k · k2 . Mit der Beobachtung v= δ kv − uk2 y+ u δ + kv − uk2 δ + kv − uk2 erhalten wir wegen der Konvexität von f und den Schranken von f auf S kv − uk2 δ f (y) + f (u) − f (u) δ + kv − uk2 δ + kv − uk2 kv − uk2 = f (y) − f (u) δ + kv − uk2 | {z } f (v) − f (u) ≤ ≤M −m M −m ≤ kv − uk2 . δ Vertauscht man die Rollen von v und u, erhält man wie behauptet f (v) − f (u) ≤ M − m kv − uk2 , δ für alle u, v ∈ Rn , ku − xk2 ≤ δ, kv − xk2 ≤ δ. Bemerkung 8.2. Eine konvexe Funktion f : X → R auf einer konvexen Menge X ⊆ Rn ist im Allgemeinen nur auf dem Inneren von X stetig, was man an der konvexen Funktion f : [0, 1] → R, ( 0 , 0≤x<1 f (x) := 1 , x=1 sehen kann. Nach dem Satz von Rademacher ist jede lokal Lipschitz-stetige Funktion f : X → R bereits fast überall (klassisch) differenzierbar. Für unsere Zwecke wird allerdings der folgende Hilfssatz über die Richtungsdifferenzierbarkeit konvexer Funktionen entscheidender sein. 42 8.1. Konvexes Subdifferential Lemma 8.3. Seien X ⊆ Rn offen und konvex, f : X → R konvex, x ∈ X und d ∈ Rn . Dann gilt: (i) Der Differenzenquotient f (x + td) − f (x) t ist für alle 0 < t ≤ t0 = t0 (x, d) definiert und auf diesem Laufbereich monoton wachsend. q(t) := (ii) Die Richtungsableitung f 0 (x; d) := lim q(t) t&0 von f in x in Richtung d existiert, und es gilt mit t0 > 0 aus (i) f 0 (x; d) = inf q(t). (8.2) 0<t<t0 Beweis: (i) Ist x ∈ X, und d ∈ Rn beliebig, so ist x + td ∈ X für alle hinreichend kleinen 0 < t ≤ t0 (x, d), da X offen ist. Folglich ist der Differenzenquotient q(t) für alle 0 < t ≤ t0 wohldefiniert. Seien dann 0 < t1 < t2 ≤ t0 . Aus der Konvexität von f folgt f (x + t1 d) = f tt21 (x + t2 d) + (1 − tt12 )x ≤ tt12 f (x + t2 d) + (1 − tt12 )f (x), also nach Umstellen und Division durch t1 > 0 f (x + t1 d) − f (x) f (x + t2 d) − f (x) ≤ . t1 t2 | {z } | {z } =q(t1 ) =q(t2 ) (ii) Wegen der nach (i) geltenden Monotonie von q auf seinem Definitionsbereich (0, t0 ) reicht es für die Existenz der Richtungsableitung f 0 (x; d), die Beschränktheit von q nach unten zu zeigen. Seien dazu x ∈ X sowie s, t > 0 mit x − sd, x + td ∈ X gegeben. Wir rechnen mit der Konvexität von f t s t s f (x) = f s+t (x − sd) + s+t (x + td) ≤ s+t f (x − sd) + s+t f (x + td), also nach Umstellen und Multiplikation mit s+t st = 1 s + 1 t >0 f (x + td) − f (x) f (x) − f (x − sd) ≥ . t s | {z } =q(t) Da die rechte Seite nicht von t abhängt, gilt auch noch inf q(t) ≥ 0<t<t0 f (x) − f (x − sd) > −∞, s so dass f 0 (x; d) = limt&0 q(t) existiert. Die Monotonie von q liefert daher (8.2). 43 8. Nichtglatte konvexe Optimierung Definition 8.4 (konvexes Subdifferential/Subgradient). Seien X ⊆ Rn offen und konvex, f : X → Rn konvex und x ∈ X. Dann heißt s ∈ Rn Subgradient von f in x, falls f (y) ≥ f (x) + hs, y − xi, für alle y ∈ Rn , (8.3) d.h. wenn der Graph von f oberhalb der Hyperebene {(y, f (x) + hs, y − xi) : y ∈ Rn } liegt. Die Menge aller Subgradienten von f in x wird als (konvexes) Subdifferential ∂f (x) bezeichnet, d.h. ∂f (x) = s ∈ Rn : f (y) ≥ f (x) + hs, y − xi für alle y ∈ Rn . Bemerkung 8.5. Sei f : X → R konvex und differenzierbar in x ∈ X. Dann folgt ∇f (x) ∈ ∂f (x), denn die Gradienten konvexer Funktionen sind monoton. Gilt umgekehrt s ∈ ∂f (x), so folgt nach Definition eines Subgradienten (8.3), also für y := x + td mit beliebigen t > 0 und d ∈ Rn f (x + td) ≥ f (x) + ths, di ⇔ f (x + td) − f (x) ≥ hs, di, t also nach Grenzübergang t → 0 wegen der Differenzierbarkeit von f bei x ∇f (x), d ≥ hs, di, für alle d ∈ Rn . Wählt man d := s − ∇f (x), so erhält man ∇f (x), s − ∇f (x) ≥ s, s − ∇f (x) und damit ks − ∇f (x)k2 ≤ 0, d.h. s = ∇f (x). Beispiel 8.6. Wir berechnen das Subdifferential der Betragsfunktion f (x) = |x|. f ist x offenbar konvex. Für x 6= 0 ist f bei x differenzierbar mit f 0 (x) = sgn(x) = |x| , also gilt ∂f (x) = {sgn(x)}. Für x = 0 rechnen wir ∂f (0) = s ∈ R : |y| ≥ sy für alle y ∈ R = s ∈ R : |y| ≥ sy für alle y ∈ R \ {0} = s ∈ R : −1 ≤ s ≤ 1 = [−1, 1], also insgesamt {−1} ∂f (x) = [−1, 1] {1} 44 , x<0 , x=0. , x>0 8.1. Konvexes Subdifferential Den Zusammenhang zwischen Richtungsableitung und Subdifferential stellt der folgende Satz her. Satz 8.7. Seien ∅ = 6 X ⊆ Rn offen und konvex, f : X → R konvex und x ∈ X. Dann gilt: (i) ∂f (x) ist nichtleer, konvex und kompakt; (ii) ∂f (x) = {s ∈ Rn : hs, di ≤ f 0 (x; d) für alle d ∈ Rn }; (iii) f 0 (x; d) = max hs, di für alle d ∈ Rn . s∈∂f (x) Beweis: (ii) Die Richtungsableitung f 0 (x; d) existiert für alle x ∈ X und d ∈ Rn nach Lemma 8.3, da f konvex ist. Die behauptete Charakterisierung folgt aus der Äquivalenz s ∈ ∂f (x) ⇔ f (y) ≥ f (x) + hs, y − xi für alle y ∈ X ⇔ f (x + td) ≥ f (x) + hs, tdi für alle d ∈ Rn , t > 0, x + td(=: y) ∈ X f (x + td) − f (x) ⇔ ≥ hs, di für alle d ∈ Rn , t > 0, x + td(=: y) ∈ X, t so dass Lemma 8.3 die Behauptung liefert, s ∈ ∂f (x) ⇔ f 0 (x; d) = inf t>0 x+td∈X f (x + td) − f (x) ≥ hs, di für alle d ∈ Rn . t (i) Wegen (ii) gilt die Darstellung ∂f (x) = \ s ∈ Rn : hs, di ≤ f 0 (x; d) d∈Rn von ∂f (x) als unendlicher Schnitt abgeschlossener Halbräume s ∈ Rn : hs, di ≤ f 0 (x; d) mit Normalenvektoren d ∈ Rn . Also ist ∂f (x) abgeschlossen und konvex. Für die Beschränktheit von ∂f (x) beobachtet man, dass wegen (ii) für alls s ∈ ∂f (x) gilt ( sk = hs, ek i ≤ f 0 (x; ek ) , für alle 1 ≤ k ≤ n, −sk = hs, −ek i ≤ f 0 (x; −ek ) so dass ∂f (x) beschränkt ist mit ksk∞ ≤ max max f 0 (x; ek ), f 0 (x; −ek ) , 1≤k≤n für alle s ∈ ∂f (x). Nach dem Satz von Heine-Borel ist ∂f (x) kompakt. 45 8. Nichtglatte konvexe Optimierung Die Existenz von Subgradienten zeigt man mit Hilfe eines Trennungsarguments. Betrachte dazu zu beliebigem d ∈ Rn die Mengen K1 := (y, z) ∈ X × R : f (y) < z , K2 := (x + td, f (x) + tf 0 (x; d)) ∈ X × R : t > 0}. Dabei ist K1 der (offene) Epigraph von f , d.h. alle Punkte strikt oberhalb des Graphen von f . K2 ist ein von (x, f (x)) ausgehender Strahl in Richtung (d, f 0 (x; d)), wobei der Startpunkt (x, f (x)) ausgenommen ist. Beide Mengen K1 und K2 sind offensichtlich nichtleer (wegen X 6= ∅) und konvex. So gilt z.B. für (y, z), (e y , ze) ∈ K1 und 0 < λ < 1, dass λz + (1 − λ)e z > λf (y) + (1 − λ)f (e y) ≥ f λy + (1 − λ)e y , also λ(y, z) + (1 − λ)(e y, ze) ∈ K1 . Der Strahl K2 ist konvex als affines Bild der offenen, konvexen Halbgerade (0, ∞). Weiter sind die Mengen K1 und K2 disjunkt. Denn aus (y, z) ∈ K1 ∩ K2 folgt mit y = x + td für t > 0 und d ∈ Rn , dass f (x + td) = f (y) < z = f (x) + tf 0 (x; d) und somit f (x + td) − f (x) < f 0 (x; d), t im Widerspruch zu (8.2). Somit sind K1 , K2 nichtleer, konvex und disjunkt, d.h. es existiert ein Normalenvektor (s, γ) ∈ (Rn × R) \ {0}, so dass hs, yi+γz ≤ hs, x+tdi+γ f (x)+tf 0 (x; d) , für alle y ∈ X, z ∈ R, z > f (y), t > 0. Wir behaupten, dass hierin γ < 0 gilt. Denn gälte γ > 0, könnte man mit y := x folgern, dass γz ≤ hs, tdi + γ f (x) + tf 0 (x; d) , für alle z ∈ R, z > f (x), t > 0, also mit t & 0 γz ≤ γf (x), für alle z ∈ R, z > f (x), was wegen γ > 0 ein Widerspruch wäre. Gälte γ = 0, so folgt ähnlich hs, yi ≤ hs, x + tdi, für alle y ∈ X, t > 0, also mit t & 0 hs, yi ≤ hs, xi, für alle y ∈ X, also insbesondere für y := x + δs ∈ X mit hinreichend kleinem δ > 0 hs, x + δsi ≤ hs, xi 46 ⇔ δksk22 ≤ 0 8.1. Konvexes Subdifferential und somit der Widerspruch s = 0. Also gilt doch γ < 0 und daher o.B.d.A. γ = −1, durch Normierung des Normalenvektors (s, γ) der trennenden Hyperebene. Wir erhalten die Ungleichung hs, yi − z ≤ hs, x + tdi − f (x) + tf 0 (x; d) , für alle y ∈ X, z ∈ R, z > f (y), t > 0, also mit t & 0 und z & f (y) hs, yi − f (y) ≤ hs, xi − f (x), für alle y ∈ X, d.h. f (y) ≥ f (x) + hs, y − xi, für alle y ∈ X und damit s ∈ ∂f (x). (iii) Setzt man in der in Teil (i) auftauchenden Ungleichung für die trennende Hyperebene y := x, erhält man für das dort berechnete s ∈ ∂f (x) −z ≤ hs, tdi − f (x) + tf 0 (x; d) , für alle z > f (x), t > 0, also mit z & f (x) 0 ≤ hs, tdi − tf 0 (x; d), für alle t > 0, und somit f 0 (x; d) ≤ hs, di. Die Charakterisierung aus (ii) liefert wegen f 0 (x; d) ≥ hu, di für alle u ∈ ∂f (x) die Behauptung (iii). Mit diesen Hilfsmitteln kann man Optimalitätskriterien für (unrestringierte) konvexe Minimierungsprobleme angeben. Satz 8.8. Seien ∅ 6= X ⊆ Rn offen und konvex, f : X → R konvex und x∗ ∈ X. Dann sind äquivalent: (i) f nimmt in x∗ sein globales Minimum über X an, d.h. es gilt f (x∗ ) ≤ f (x) für alle x ∈ X; (ii) 0 ∈ ∂f (x∗ ); (iii) f 0 (x∗ , d) ≥ 0 für alle d ∈ Rn . Beweis: Es gelte zunächst (i), d.h. x∗ ∈ X sei ein globales Minimum von f auf X. Da X offen ist, gilt für festes d ∈ Rn , dass x∗ + td ∈ X und damit f (x∗ + td) ≥ f (x∗ ) für alle hinreichend kleinen t > 0. Es folgt f (x∗ + td) − f (x∗ ) ≥ 0, t&0 t f 0 (x∗ , d) = lim für alle d ∈ Rn , 47 8. Nichtglatte konvexe Optimierung und damit (iii). Es gelte (iii). Sei also x∗ ∈ X mit f 0 (x∗ , d) ≥ 0 = h0, di für alle d ∈ Rn . Nach der Charakterisierung von ∂f (x) aus Satz 8.7(ii) folgt, dass 0 ∈ ∂f (x∗ ), also (ii). Es gelte schließlich (ii), also 0 ∈ ∂f (x∗ ). Nach Definition des Subdifferentials erhalten wir f (x) ≥ f (x∗ ) + h0, x − x∗ i = f (x∗ ) für alle x ∈ X, d.h. x∗ ist ein globales Minimum von f auf X und (i) gilt. Folgender Hilfssatz ist bei der Behandlung konkreter konvexer Funktionale nützlich: Lemma 8.9. Seien ∅ = 6 X ⊆ Rn offen und konvex, f1 , . . . , fm : X → R konvex und α1 , . . . , αm > 0. Dann gilt ∂ m X m X αj fj (x) = αj ∂fj (x). j=1 (8.4) j=1 Wegen αj > 0 und der Konvexität von fj für alle 1 ≤ j ≤ m ist f := PBeweis: m α f j=1 j j : X → R konvex. Somit ist die linke Seite ∂f (x) in (8.4) für alle x ∈ X wohldefiniert. Wir definieren die rechte Seite in (8.4) als K(x) := m X αj ∂fj (x) ⊆ Rn , für alle x ∈ X. j=1 Nach Satz 8.7 sind die einzelnen Summanden in K(x) nichtleer, konvex und kompakt, also auch K(x) selbst. P (j) mit s(j) ∈ ∂f (x). Nach Sei dann s ∈ K(x), und es gelte die Zerlegung s = m j j=1 αj s Definition folgt, dass fj (y) ≥ fj (x) + hs(j) , y − xi, für alle 1 ≤ j ≤ n, y ∈ X, also nach Multiplikation mit αj > 0 und Summation über n n X αj fj (y) ≥ j=1 | n X n DX E αj fj (x) + αj s(j) , y − x , j=1 {z =f (y) } | für alle y ∈ X, j=1 {z =f (x) } | {z =s } und damit s ∈ ∂f (x), d.h. K(x) ⊆ ∂f (x). Zum Nachweis der umgekehrten Inklusion betrachte zunächst beliebige x ∈ X und 48 8.1. Konvexes Subdifferential d ∈ Rn . Nach Lemma 8.3 existiert die Richtungsableitung f 0 (x; d), und Satz 8.7 liefert f 0 (x; d) = m X αj fj0 (x; d) j=1 = m X αj j=1 = max hs(j) , di max s(j) ∈∂fj (x) m nX αj hs(j) , di : s(j) ∈ ∂fj (x), 1 ≤ j ≤ m o j=1 {z | } P (j) ,di =h m j=1 αj s = max hs, di s∈K(x) ≤ max hs, di s∈∂f (x) = f 0 (x; d). Also gilt auch max hs, di = max hs, di. s∈K(x) s∈∂f (x) Angenommen, es existiere ein b s ∈ ∂f (x)\K(x). Wegen der Konvexität und Kompaktheit von K(x) existiert somit eine Hyperebene, die {b s} und K(x) strikt trennt, d.h. ein d ∈ Rn \ {0} und ein γ ∈ R mit hs, di < γ < hb s, di, für alle s ∈ K(x). Daraus folgt max hs, di = max hs, di ≤ γ < hb s, di, s∈∂f (x) s∈K(x) im Widerspruch zu b s ∈ ∂f (x). Also gilt (8.4). Beispiel 8.10 (Soft Thresholding). Zu berechnen sei für y ∈ R und α > 0 1 min (x − y)2 + α|x|. x∈R 2 (8.5) Die Zielfunktion f (x) := 12 (x−y)2 +α|x| = f1 (x)+αf2 (x) ist eine positive Linearkombination der glatten Funktion f1 (x) := 21 (x − y)2 mit f 0 (x) = x − y, sowie der Betragsfunktion f2 (x) = |x|. Beide Funktionen f1 und f2 sind konvex, also auch f . Nach Satz 8.8 ist x∗ genau dann globales Minimum von f über die offene Menge X := R, wenn , x∗ < 0 {−1} 0 ∈ ∂f (x∗ ) = {x∗ − y} + α∂| · |(x∗ ) = {x∗ − y} + α [−1, 1] , x∗ = 0 , {1} , x∗ > 0 49 8. Nichtglatte konvexe Optimierung d.h. wenn ∗ {x − y − α} 0 ∈ [−y − α, −y + α] ∗ {x − y + α} Dies ist offensichtlich äquivalent y + α ∗ x = 0 y−α , x∗ < 0 , x∗ = 0 . , x∗ > 0 zu einer Fallunterscheidung in y, , y < −α , |y| ≤ α =: sα (y), , y>α für alle y ∈ R. (8.6) Die Funktion sα : R → R heißt Soft-Thresholding-Funktion und ist stückweise linear sowie global stetig. Es gilt die manchmal nützliche Darstellung sα (y) = y − P[−α,α] (y), für alle y ∈ R. Mit Hilfe der Funktion sα kann man auch das vektorwertige Minimierungsproblem zu y ∈ Rn lösen, 1 min kx − yk22 + αkxk1 . x∈Rn 2 Denn die Zielfunktion f zerfällt in eine Summe eindimensionaler Funktionen, f (x) = n X 1 k=1 2 (xk − yk )2 + α|xk | , die man mittels x∗ := (sα (yk ))1≤k≤n =: Sα (y) komponentenweise minimieren kann. Unser Ziel ist es nun, auch Minimierungsprobleme mit Zielfunktionen der Form f (x) = max fj (x) 1≤j≤m zu lösen, etwa mit f (x) = kxk∞ = max{x1 , . . . , xn , −x1 , . . . , −xm }. Hierfür brauchen wir folgende Rechenregel. Lemma 8.11. Die Funktion g : Rm → R, g(x) := max1≤j≤m xj ist konvex und richtungsdifferenzierbar mit g 0 (x; d) = max dj , I(x) := 1 ≤ j ≤ m : xj = g(x) . (8.7) j∈I(x) Beweis: Die Funktion g ist konvex. Denn zu u, v ∈ Rm und 0 ≤ λ ≤ 1 rechnet man g λu + (1 − λ)v = max λuj + (1 − λ)vj 1≤j≤m ≤ λ max uj + (1 − λ) max vk 1≤j≤m 1≤k≤m = λg(u) + (1 − λ)g(v). 50 8.1. Konvexes Subdifferential Nach Satz 8.1 ist g lokal Lipschitz-stetig und nach Lemma 8.3 auch richtungsdifferenzierbar, mit g(x + td) − g(x) g 0 (x; d) = inf , für alle x, d ∈ Rm . t>0 t Für jedes j ∈ / I(x) = {1 ≤ k ≤ m : xk = g(x)} gilt xj < g(x). Wegen der Stetigkeit von g und der Endlichkeit von {1, . . . , m} \ I(x) existiert ein t0 > 0 mit xj + tdj < g(x + td) für alle 0 < t ≤ t0 und alle j ∈ / I(x). Somit wird das Maximum g(x + td) von einem Index aus I(x) angenommen, d.h. für alle 0 < t ≤ t0 . g(x + td) = max (xj + tdj ), j∈I(x) Nach Definition folgt für die Richtungsableitung in x ∈ Rm in Richtung d ∈ Rm max (xj + tdj ) − g(x) j∈I(x) 0 g (x; d) = inf t 0<t≤t0 =xj z}|{ xj + tdj − g(x) = inf max 0<t≤t0 j∈I(x) t = inf max dj 0<t≤t0 j∈I(x) = max dj , j∈I(x) also (8.7). Satz 8.12. Seien ∅ = 6 X ⊆ Rn offen und konvex, f1 , . . . , fm : X → R konvex und stetig differenzierbar sowie f (x) := max fj (x), 1≤j≤m für alle x ∈ X. Dann gilt mit I(x) := {1 ≤ j ≤ m : fj (x) = f (x)} (i) f ist konvex und richtungsdifferenzierbar mit f 0 (x; d) = max ∇fj (x), d . (8.8) j∈I(x) (ii) ∂f (x) = conv ∇fj (x) : j ∈ I(x) Beweis: (i) f ist konvex als punktweises Maximum konvexer Funktionen, denn für x, y ∈ X und 0 ≤ λ ≤ 1 gilt f λx + (1 − λ)y = max fj λx + (1 − λ)y ≤ λf (x) + (1 − λ)f (y). 1≤j≤m | {z } ≤λfj (x)+(1−λ)fj (y) 51 8. Nichtglatte konvexe Optimierung Also ist f nach Lemma 8.3 richtungsdifferenzierbar. Wir benutzen die Kettenregel für richtungsdifferenzierbare Funktionen der Form f = g◦h, wobei g lokal Lipschitzstetig um h(x) sei, f 0 (x; d) = g 0 h(x), h0 (x; d) . Mit Lemma 8.11 rechnen wir f 0 (x; d) = max j:fj (x)=f (x) fj0 (x; d) = max ∇fj (x), d . j∈I(x) (ii) Nach Satz 8.7(ii) und Teil (i) gilt ∂f (x) = s ∈ Rn : hs, di ≤ f 0 (x; d) für alle d ∈ Rn = s ∈ Rn : hs, di ≤ max h∇fj (x), di für alle d ∈ Rn . j∈I(x) Dann liegt offenbar jeder Gradient ∇fj (x) in ∂f (x), sofern j ∈ I(x). Da ∂f (x) konvex ist, folgt G := conv ∇fj (x) : j ∈ I(x) ⊆ ∂f (x). Nehme umgekehrt an, es gebe ein b s ∈ ∂f (x) \ G. Nach Satz 8.7(iii) gilt hb s, di ≤ 0 n f (x, d) für alle d ∈ R . Da ∂f (x) nach Satz 8.7(i) abgeschlossen ist, existiert eine die Mengen G und {b s} strikt trennende Hyperebene, also ein d ∈ Rn \ {0} mit hb s, di > hs, di für alle s ∈ G. Insbesondere folgt hb s, di > ∇fj (x), d , für alle j ∈ I(x) und damit wegen Teil (i) hb s, di > max ∇fj (x), d = f 0 (x; d), j∈I(x) was offenbar b s ∈ ∂f (x) widerspricht. Also gilt ∂f (x) = G. Beispiel 8.13. (i) Für f (x) := max1≤j≤n xj gilt nach Satz 8.12 mit fj (x) := xj , dass ∂f (x) = conv ej : xj = f (x) . (ii) Für f (x) := kxk∞ = max{x1 , . . . , xn , −x1 , . . . , −xn } gilt nach Satz 8.12 mit ( xj , 1≤j≤n fj (x) := , −xj−n , n + 1 ≤ j ≤ 2n dass 52 ( conv{±ej : 1 ≤ j ≤ n} = [−1, 1]n ∂f (x) = conv sgn(xj )ej : |xj | = f (x) = kxk∞ , x=0 . , x= 6 0 8.2. Konvexes Subdifferential für erweiterte Funktionen (iii) Für f (x) := kAx − bk∞ mit A ∈ Rm×n und b ∈ Rm gilt nach Satz 8.12 mit der Abkürzung r := r(x) := Ax − b wegen ∇rj (x) = A> ej , dass ( conv ± A> ej : 1 ≤ j ≤ m = A> [−1, 1]n , r = 0 ∂f (x) = . conv sgn(rj )A> ej : |rj | = f (x) = krk∞ , r 6= 0 8.2. Konvexes Subdifferential für erweiterte Funktionen Um auch restringierte Minimierungsprobleme mit nichtglatten Zielfunktionen behandeln zu können, bei denen Minima auf dem Rand des zulässigen Bereichs liegen, benutzt man sogenannte erweiterte Funktionen, d.h. Abbildungen f : Rn → R ∪ {+∞}. Typische Beispiele hierfür sind die Indikatorfunktion einer Menge X ⊆ Rn ( 0 , x∈X χX (x) := , (8.9) +∞ , x ∈ Rn \ X die Trägerfunktion einer Menge X ⊆ Rn σX (d) := sup hx, di, für alle d ∈ Rn , (8.10) x∈X sowie die (Lagrange-)dualen Funktionen ϕ vieler konvexer Minimierungsprobleme, siehe Kapitel 7. Mit Hilfe der Indikatorfunktion χX kann man ein restringiertes Minimierungsproblem (8.1) für f : Rn → R mit zulässigem Bereich X auch wie folgt als unrestringiertes Minimierungsproblem mit Zielfunktion f + χX schreiben: min f (x) + χX (x), x∈Rn (8.11) denn die Zielfunktion lautet ( f (x) < ∞ , x ∈ X f (x) + χX (x) = , +∞ , x ∈ Rn \ X so dass globale Minima von f + χX höchstens in X liegen kann. Führt man geeignete Rechenregeln für erweiterte Funktionen ein, lassen sich so auch Optimalitätskriterien für restringierte, nichtglatte Minimierungsprobleme herleiten. Definition 8.14. Zu einer erweiterten Funktion f : Rn → R ∪ {+∞} heißt dom(f ) := x ∈ Rn : f (x) ∈ R (8.12) der wesentliche Definitionsbereich von f . Die erweiterte Funktion f heißt echt (englisch: proper), wenn dom(f ) 6= ∅. Definition 8.15. Wir nennen eine erweiterte Funktion f : Rn → R ∪ {+∞} konvex, wenn X := dom(f ) nichtleer und konvex und f |X : X → R konvex ist. 53 8. Nichtglatte konvexe Optimierung Eine konvexe erweiterte Funktion f : Rn → R∪{+∞} ist nach Satz 8.1 auf dem Inneren ihrem wesentlichen Definitionsbereichs dom(f ) lokal Lipschitz-stetig, also insbesondere dort stetig. Am Rand von dom(f ) besitzt f allerdings Sprünge. Daher benutzt man im Kontext erweiterter Funktionen meist folgende erweiterte Stetigkeitsbegriffe. Definition 8.16. Sei f : Rn → R ∪ {+∞} eine echte erweiterte Funktion. Dann heißt f (i) unterhalbstetig in x ∈ Rn , falls lim inf f (y) ≥ f (x); (8.13) lim sup f (y) ≤ f (x); (8.14) y→x (ii) oberhalbstetig in x ∈ Rn , falls y→x (iii) unter-/oberhalbstetig auf X ⊆ Rn , falls f in allen x ∈ X unter-/oberhalbstetig ist. Dabei sind die jeweils umgekehrten Ungleichungen in (8.13) und (8.14) trivialerweise für jede erweiterte Funktion erfüllt. Als wichtigste Beispiele halbstetiger Funktionen dienen Indikatorfunktionen abgeschlossener bzw. offener Mengen. Lemma 8.17. Sei X ⊆ Rn . Dann ist die Indikatorfunktion χX genau dann unter- bzw. oberhalbstetig auf ganz Rn , wenn X abgeschlossen bzw. offen ist. 6 X ( Rn . Wir zeigen nur die Äquivalenz zwischen UnterhalbBeweis: Sei o.B.d.A. ∅ = stetigkeit von χX und Abgeschlossenheit von X. Sei X abgeschlossen. Falls x ∈ X, gilt χX (x) = 0 ≤ χX (y) für alle y ∈ Rn , also insbesondere χX (x) ≤ lim inf y→x f (y), d.h. χX ist unterhalbstetig in x. Falls x ∈ / X, existiert wegen der Offenheit von Rn \X eine offene Umgebung U 3 x mit U ∩X = ∅. Also ist χX konstant +∞ entlang jeder Folge x(j) → x für j ≥ j0 , so dass lim inf y→x χX (y) = +∞ = χX (x), also χX unterhalbstetig in x. Seien umgekehrt χX unterhalbstetig und x(j) ∈ X konvergent gegen ein x ∈ Rn . Dann gilt x ∈ X, denn aus (8.13) folgt χX (x) ≤ lim inf χX (y) ≤ lim χX (x(j) ) = 0. y→x j→∞ Für die konvexe Minimierung spielt der Begriff der Unterhalbstetigkeit eine große Rolle. Dies liegt unter anderen an folgendem Resultat, das in gewisser Weise Lemma 8.17 verallgemeinert. Lemma 8.18. Sei f : Rn → R ∪ {+∞} eine echte erweiterte Funktion. Dann sind äquivalent: (i) f ist auf Rn unterhalbstetig. 54 8.2. Konvexes Subdifferential für erweiterte Funktionen (ii) Die Levelmengen L(c) := {x ∈ Rn : f (x) ≤ c} sind für alle c ∈ R abgeschlossen (ggf. leer). Beweis: Seien zunächst f : Rn → R ∪ {+∞} unterhalbstetig und c ∈ R beliebig mit L(c) 6= ∅. Betrachte x(j) ∈ L(c) mit x(j) → x ∈ Rn für j → ∞. Dann gilt wegen der Unterhalbstetigkeit von f bei x und f (x(j) ) ≤ c für alle j ∈ N f (x) ≤ lim inf f (y) ≤ lim f (x(j) ) ≤ c, y→x j→∞ also x ∈ L(c). Seien umgekehrt alle Levelmengen L(c) abgeschlossen, x ∈ Rn beliebig und x(j) ∈ Rn mit x(j) → x und f (x(j) ) → z ∈ R für j → ∞. Für jedes c > z gilt f (x(j) ) < c ab j ≥ j0 (c). Also gilt für jedes c > z wegen der Abgeschlossenheit von L(c), dass x ∈ L(c) = L(c) und damit f (x) ≤ c. Mit c & z folgt x ∈ L(z), also f (x) ≤ z = limj→∞ f (x(j) und damit auch f (x) ≤ lim inf y→x f (y), d.h. f ist in x unterhalbstetig. Definition 8.19 (konvexes Subdifferential/Subgradient für erweiterte Funktionen). Sei f : Rn → R ∪ {+∞} eine echte, konvexe, erweiterte Funktion. Dann heißt ∂f (x) := s ∈ Rn : f (y) ≥ f (x) + hs, y − xi für alle y ∈ Rn das Subdifferential von f bei x ∈ Rn . Die Elemente s ∈ ∂f (x) heißen Subgradienten. Bemerkung 8.20. Bei konvexen Funktionen f : Rn → R ist nach Satz 8.7 ∂f (x) für alle x ∈ Rn nichtleer, konvex und kompakt. Bei echten, konvexen, erweiterten Funktionen f : Rn → R ∪ {+∞} ist ∂f (x) zwar immer noch konvex und abgeschlossen wegen der Darstellung \ ∂f (x) = s ∈ Rn : f (y) ≥ f (x) + hs, y − xi , y∈Rn denn s ∈ Rn : f (y) ≥ f (x) + hs, y − xi ist ein abgeschlossener, konvexer Halbraum von Rn , und abzählbare Schnitte abgeschlossener und konvexer Mengen sind wieder abgeschlossen und konvex. Aber das Subdifferential einer erweiterten Funktion kann leer bzw. unbeschränkt sein. Wir betrachten dazu die konvexe Funktion f := χ(−∞,0] : 0 (f |(−∞,0] ) (0) = {0} ∂f (x) = s : f (y) ≥ sy für alle y ∈ R = [0, ∞) s : f (y) ≥ +∞ + s(y − x) für alle y ∈ R = ∅ , x<0 , x=0. , x>0 Mit Hilfe des Subdifferentials für erweiterte Funktionen erhalten wir automatisch ein Optimalitätskriterium für Minimierungsprobleme der Form (8.1). Lemma 8.21. Sei f : Rn → R ∪ {+∞} eine echte, konvexe, erweiterte Funktion. Dann ist x∗ genau dann ein globales Minimum von f , wenn 0 ∈ ∂f (x∗ ). 55 8. Nichtglatte konvexe Optimierung Beweis: Nach Definition gilt 0 ∈ ∂f (x∗ ) genau dann, wenn f (y) ≥ f (x∗ ) für alle y ∈ Rn , d.h. wenn x∗ ein globales Minimium von f ist. Der zentrale Satz zur Lösungstheorie konvexer Minimierungsprobleme mit erweiterten Zielfunktionen lautet: Satz 8.22. Sei f : Rn → R ∪ {+∞} eine echte, konvexe, erweiterte Funktion mit wesentlichem Definitionsbereich X := dom(f ). Dann gelten für das Minimierungsproblem min f (x) x∈Rn (8.15) die folgenden Aussagen: (i) Die Lösungsmenge von (8.15) ist konvex (eventuell leer). (ii) Ist f |X strikt konvex, so existiert höchstens eine Lösung von (8.15). (iii) Ist f unterhalbstetig auf Rn und f |X gleichmäßig konvex, so besitzt (8.15) genau eine Lösung. Beweis: (i) Für zwei Lösungen x, y ∈ Rn von (8.15) gilt f (x) = f (y) = minz∈Rn f (z). Für jedes λ ∈ (0, 1) folgt wegen der Konvexität von f f λx + (1 − λ)y ≤ λf (x) + (1 − λ)f (y) = f (x), also ist auch λx + (1 − λ)y eine Lösung. (ii) Seien x 6= y zwei verschiedene Lösungen von (8.15) und f |X strikt konvex. Da f eine echte erweiterte Funktion ist, gilt X = dom(f ) 6= ∅ und somit x, y ∈ X. Nach Definition ist X konvex, also λx + (1 − λ)y ∈ X für alle λ ∈ (0, 1). Aus der strikten Konvexität von f folgt aber für λ ∈ (0, 1) f λx + (1 − λ)y < λf (x) + (1 − λ)f (y) = f (x), im Widerspruch zur Minimalität von x. (iii) Wir diskutieren nur den Beweis im Fall int(X) 6= ∅, die Verallgemeinerung auf den Fall zulässiger Bereiche mit relativem Inneren funktioniert ähnlich wie im Beweis von Satz 7.5 durch Reparametrisierung von X mit einem niedrigdimensionalerem Parameterraum. Wir setzen f ∗ := inf x∈Rn f (x). Es gilt f ∗ < +∞ wegen X 6= ∅. Nach Definition von f ∗ sind alle Levelmengen L(c) := {x ∈ Rn : f (x) ≤ c} ⊆ X für c > f ∗ nichtleer, und abgeschlossen nach Lemma 8.18 wegen der Unterhalbstetigkeit von f . Wir zeigen die Beschränktheit von L(c) für c > f ∗ . Wir wählen dazu ein festes x ∈ int(X) 6= ∅, und wegen ∂f (x) 6= ∅ (Satz 8.7(i)) einen Subgradient s ∈ ∂f (x). Angenommen, L(c) sei unbeschränkt für ein c > f ∗ . Dann existieren 56 8.3. Proximal-Punkt-Verfahren x(k) ∈ L(c) ⊆ X mit kx(k) k2 → ∞ für k → ∞. Aus der gleichmäßigen Konvexität von f auf X, also f λu + (1 − λ)v + µλ(1 − λ)ku − vk22 ≤ λf (u) + (1 − λ)f (v), für alle u, v ∈ X, folgt mit λ := 1 2 c ≥ f (x(k) ) ≥ −f (x) + 2f 1 (k) 2x + 12 x + µ2 kx(k) − xk22 , für alle k ∈ N. Aus s ∈ ∂f (x) folgt mit der Cauchy-Schwarz-Ungleichung f 1 (k) 2x + 21 x ≥ f (x) + s, 12 x(k) − 12 x − x ≥ f (x) − 12 ksk2 kx(k) − xk2 , so dass c ≥ f (x) − 12 ksk2 kx(k) − xk2 + µ2 kx(k) − xk22 = f (x) + 12 µkx(k) − xk2 − ksk2 kx(k) − xk2 , für alle k ∈ N, was wegen kx(k) k2 → ∞ für k → ∞ und c ∈ R nicht sein kann. Also ist L(c) doch beschränkt und somit kompakt. Für jede monoton fallende Folge ck & f ∗ gilt L(c(k+1) ) ⊆ L(ck ). Nach einem der Intervallschachtelung ähnlichen Prinzip ist \ L := L(ck ) k∈N kompakt und nichtleer. Für jedes x∗ ∈ L gilt f (x∗ ≤ ck für alle k ∈ N, also f (x∗ ) ≤ f ∗ , d.h. x∗ ist ein Minimum von f . Wegen (ii) ist x∗ eindeutig. 8.3. Proximal-Punkt-Verfahren Für die Herleitung von Algorithmen zur Lösung eines nichtglatten Optimierungsproblems (8.15) kann man die Strategie der Regularisierungsverfahren verfolgen. Hierbei wird ein Ersatzproblem minn fR (x) (8.16) x∈R aufgestellt, mit einer stetig differenzierbaren Funktion fR : Rn → R, welches die gleichen Lösungen und optimalen Funktionswerte wie (8.15) besitzt. Ein wichtiger Vertreter solcher Verfahren ist das folgende. Satz 8.23 (Proximal-Punkte, Moreau-Hülle). Sei f : Rn → R ∪ {+∞} eine echte, konvexe, unterhalbstetige erweiterte Funktion. Dann gilt: 57 8. Nichtglatte konvexe Optimierung (i) Die Funktion y 7→ f (y) + 21 ky − xk22 besitzt für jedes x ∈ Rn ein eindeutiges Minimum y∗ =: proxf (x), den sogenannten Proximal-Punkt von x. Der Wert des Minimums heißt Moreau-Hülle fM , fM (x) := minn f (y) + 12 ky − xk22 , für alle x ∈ Rn . (8.17) y∈R (ii) proxf : Rn → R ist nicht-expansiv, d.h. proxf (x) − proxf (y) ≤ kx − yk2 , 2 für alle x, y ∈ Rn . (8.18) (iii) Satz von Danskin: fM : Rn → R ist Lipschitz-stetig differenzierbar mit Gradient ∇fM (x) = x − proxf (x), für alle x ∈ Rn . (8.19) (iv) fM ist konvex. (v) x∗ ∈ Rn ist genau dann ein Minimum von f , wenn x∗ ein Minimum von fM ist, und in diesem Fall gilt f (x∗ ) = fM (x∗ ). Beweis: (i) Die Funktion g(x, y) := f (y) + 12 ky − xk22 ist für festes x ∈ Rn bezüglich y konvex, unterhalbstetig sowie auf dom(f ) gleichmäßig konvex. Also existiert nach Satz 8.22 ein eindeutiges Minimum Rn ⊇ dom(f ) 3 y∗ =: proxf (x) von g(x, ·) auf Rn . (ii) Für die Nichtexpansivitität von proxf zeigen wir folgende Charakterisierung von Proximalpunkten (man vergleiche den Satz von Carathéodory): y = proxf (x) ⇔ ∀z ∈ Rn : hz − y, x − yi + f (y) ≤ f (z). (8.20) Seien dazu zunächst y = proxf (x) und z ∈ Rn beliebig. Für jedes λ ∈ (0, 1) setze yλ := λz + (1 − λ)y. Wegen der Proximaleigenschaft von y und der Konvexität von f gilt für alle λ ∈ (0, 1) f (y) ≤ f (yλ ) + 12 k yλ − x | {z } k22 − 21 ky − xk22 λ(z−y)−(x−y) ≤ λf (z) + (1 − λ)f (y) + 1 2γ λ2 kz − yk22 − 2λhz − y, x − yi , also nach Subtraktion von f (y) und Division durch λ > 0 hz − y, x − yi + f (y) ≤ f (z) + λ2 kz − yk22 , woraus (8.20) durch λ & 0 folgt. Ist umgekehrt y ∈ Rn mit hz − y, x − yi + f (y) ≤ f (z) für alle z ∈ Rn , dann gilt für alle z ∈ Rn f (y) + 21 ky − xk22 ≤ f (z) + 12 ky − xk22 + hy − z, x − yi ≤ f (z) + 12 ky − xk22 + hy − z, x − yi + 12 ky − zk22 = f (z) + 12 kz − xk22 , 58 8.3. Proximal-Punkt-Verfahren also y = proxf (x). Sind also u = proxf (x) und v = proxf (y) für x, y ∈ Rn , so erhalten wir aus (8.20) mit z = v bzw z = u die Ungleichungen (1 γ hv − u, x − ui + f (u) ≤ f (v), , 1 hu − v, y − vi + f (v) ≤ f (u) γ woraus durch Addition und anschließender Subtraktion von f (u) + f (v) auf beiden Seiten folgt v − u, x − u − (y − v) ≤ 0, d.h. durch Umstellen und Cauchy-Schwarz kv − uk22 ≤ hv − u, y − xi ≤ kv − uk2 ky − xk2 , also (8.18). (iii) Seien x, y ∈ Rn und u = proxf (x), v = proxf (y). Dann gilt wegen (8.20) mit z := v fM (y) − fM (x) = f (v) − f (u) + kv − yk22 − ku − xk22 2 1 2hv − u, x − ui + ky − vk22 − kx − uk22 2 1 = 2 hv − u − (x − u), x − ui +ky − vk22 + kx − uk22 {z } 2 | ≥ =hv−x,x−ui 1 = (2hy − x + (v − y), x − ui + ky − vk22 + kx − uk22 2 1 = ky − v − x + uk22 + 2hy − x, x − ui 2 ≥ hy − x, x − ui, und mit vertauschten Rollen auch fM (y) − fM (x) ≤ hy − x, y − vi. Es folgt mit Hilfe der Nicht-Expansivität (8.18) von proxf , dass 0 ≤ fM (y) − fM (x) − hy − x, x − ui ≤ hy − x, y − v − x + ui = ky − xk22 − hx − y, u − vi | {z } ≥ku−vk22 ≤ ≤ ky − xk22 ky − xk22 , − kv − uk22 59 8. Nichtglatte konvexe Optimierung d.h. lim y→x fM (y) − fM (x) − h(x − u), y − xi = 0, ky − xk2 woraus (8.19) folgt. Die Lipschitz-Stetigkeit von ∇fM mit Lipschitz-Konstante 1 folgt aus (ii). (iv) Die stetig differenzierbare Funktion fM ist konvex, da ∇fM monoton ist. Denn für x, y ∈ Rn mit u := proxf (x) und v := proxf (y) rechnen wir mit (8.19) und der Nichtexpansivität (8.18) von proxf x − y, ∇fM (x) − ∇fM (y) = x − y, x − u − (y − v) = kx − yk22 − hx − y, u − vi ≥ kx − yk22 − kx − yk2 ku − vk2 | {z } ≤kx−yk2 ≥ 0. (v) Sei x∗ ∈ Rn ein Minimum von f . Dann ist x∗ auch ein Minimum von 1 y 7→ f (y) + ky − x∗ k22 . 2 Diese Funktion besitzt aber nach (i) den eindeutigen Minimierer proxf (x∗ ), d.h. es gilt x∗ = proxf (x∗ ), so dass wegen (8.19) ∇fM (x∗ ) = x∗ − proxf (x∗ ) = 0. Nach (iv) ist fM konvex, so dass wegen ∇fM (x∗ ) = 0 bei x∗ ein globales Minimum von fM vorliegt. Ist umgekehrt x∗ ∈ Rn ein Minimum von fM , so folgt ∇f (x∗ ) = 0 und damit x∗ = proxf (x∗ ). Also ist x∗ ein Minimierer der konvexen erweiterten Funktion 1 y 7→ f (y) + ky − x∗ k22 2 und damit 0 ∈ ∂f (x∗ ), d.h. x∗ minimiert f wegen Lemma 8.21. In einem Minimum x∗ von f (bzw. fM ) stimmen die Zielfunktionswerte überein, da aus der in Minima geltenden Eigenschaft x∗ = proxf (x∗ ) folgt 2 1 fM (x∗ ) = f proxf (x∗ ) + proxf (x∗ ) − x∗ 2 = f (x∗ ). 2 | | {z } {z } =x∗ 60 =0 8.3. Proximal-Punkt-Verfahren Beispiel 8.24. Betrachte die erweiterte Funktion ( x , x≥0 f (x) := , für alle x ∈ R. +∞ , x < 0 Dann ist f echt wegen dom(f ) = [0, ∞) 6= ∅, konvex wegen f |dom(f ) ∈ Π1 und unterhalbstetig wegen abgeschlossener Levelmengen L(c) = {x ∈ R : f (x) ≤ c} = [0, c] für alle c ≥ 0. Wir berechnen die Moreau-Hülle fM : ( y + 12 (y − x)2 , y ≥ 0 1 2 g(x, y) := f (y) + (y − x) = 2 +∞ , y<0 hat für festes x ∈ R ihr (eindeutiges) Minimum bei ( x−1 , x≥1 ∗ proxf (x) =: y = , 0 , x<1 für alle x ∈ R, und für die Funktionalwerte rechnen wir 1 fM (x) = f (y ∗ ) + (y ∗ − x)2 = 2 ( x− 1 2 2x 1 2 , x≥1 , , x<1 für alle x ∈ R. Man beachte, dass fM Lipschitz-stetig differenzierbar ist mit ( 1 , x≥1 0 fM (x) = = x − proxf (x), für alle x ∈ R. x , x<1 fM ist konvex und besitzt das gleiche globale Minimum x∗ = 0 wie f . Das Ersatzproblem (8.16) mit fR = fM motiviert das Proximal-Punkt-Verfahren zur iterativen Lösung von (8.15). Algorithmus 8.25 Proximal-Punkt-Verfahren 1. Wähle x(0) ∈ dom(f ) beliebig und setze k := 0. 2. Falls x(k) ein Minimum von f ist, stoppe. 3. Wähle γk > 0 und bestimme x(k+1) als globales Minimum von fk (x) := f (x) + 1 kx − x(k) k22 , 2γk für alle x ∈ Rn .1 4. Setze k := k + 1 und gehe zu 2. Die neue Iterierte x(k+1) beim Proximal-Punkt-Verfahren ist also gerade die Auswertung von proxγk f (x(k) ). Dies ist natürlich teuer, da in jedem Iterationsschritt ein konvexes Minimierungsproblem zu lösen ist. Allerdings ist das proximale Ersatzproblem typischerweise leichter zu lösen als das Originalproblem, da fk gleichmäßig konvex ist. Für die Grundversion des Proximal-Punkt-Verfahrens kann man zeigen: 61 8. Nichtglatte konvexe Optimierung Satz 8.26. Seien {x(k) }k∈N und {γk }k∈N vom Proximal-Punkt-Verfahren 8.25 erzeugt. Die Lösungsmenge S := x∗ ∈ Rn : f (x∗ ) = infn f (x) x∈R sei nicht leer, und es gelte gegen ein Element aus S. Pk j=0 γj → ∞ für k → ∞. Dann konvergiert x(k) für k → ∞ Da die Proximal-Punkte für eine allgemeine Funktion f schwierig zu berechnen sind, für bestimmte Spezialfälle aber schon, werden Proximal-Punkt-Verfahren häufig in Kombination mit Operatorsplitting angewendet. Hierfür ist die folgende Beobachtung wichtig. Lemma 8.27. Sei f : Rn → R ∪ {+∞} eine echte, konvexe, erweiterte Funktion und proxf : Rn → Rn die Proximal-Punkt-Abbildung. Dann gilt proxγf = I + γ∂f −1 , für alle γ > 0, (8.21) d.h. der Proximal-Operator ist die Resolvente des Subdifferentials. Beweis: y ∈ Rn ist genau dann gleich proxγf (x), wenn y die konvexe Funktion 1 y 7→ γf (y) + ky − xk22 2 minimiert. Dies ist genau dann der Fall, wenn 0 ∈ γ∂f (y) + {y − x} ⇔ x ∈ (I + γ∂f )(y). Mit dieser Beobachtung kann man nichtglatte, konvexe Minimierungsprobleme mit additiv zusammengesetzter Zielfunktion lösen, z.B. min f (x) + g(x), x∈Rn (8.22) wobei f : Rn → R konvex und glatt, sowie g : Rn → R ∪ {+∞} echt, konvex und erweitert. Es gilt für beliebiges γ > 0 die Äquivalenz 0 ∈ ∂(f + g)(x) ⇔ −∇f (x) ∈ ∂g(x) ⇔ −γ∇f (x) ∈ γ∂g(x) ⇔ x − γ∇f (x) ∈ (I + γ∂g)(x) ⇔ (I + γ∂g)−1 x − γ∇f (x) = x x = proxγg x − γ∇f (x) . ⇔ Die dazugehörige kanonische Fixpunktiteration ist das folgende Proximal-GradientenVerfahren, mit analogen Konvergenzeigenschaften wie das Proximal-Punkt-Verfahren. 62 8.4. Subgradienten-Verfahren Algorithmus 8.28 Proximal-Gradienten-Verfahren 1. Wähle x(0) ∈ dom(f ) beliebig und setze k := 0. 2. Falls x(k) ein Minimum von f + g ist, stoppe. 3. Wähle γk > 0 und setze x(k+1) := proxγk g x(k) − γk ∇f (x(k) ) . 4. Setze k := k + 1 und gehe zu 2. Beispiel 8.29. Sei X ⊆ Rn abgeschlossen, konvex und nichtleer, und f : Rn → R konvex und stetig differenzierbar. Dann kann das restringierte Minimierungsproblem min f (x) x∈X als äquivalentes unrestringiertes Minimierungsproblem geschrieben werden mit Hilfe der Indikatorfunktion χX , minn f (x) + χX (x) . x∈R χX ist eine echte, konvexe und unterhalbstetige erweiterte Funktion, da X 6= ∅ konvex und abgeschlossen ist (Lemma 8.17). Wir berechnen proxγχX für γ > 0: Das Minimum von 1 y 7→ γχX (y) + ky − xk22 2 wird wegen χX (y) = +∞ für alle y ∈ / X offenbar genau bei der Euklidischen Projektion y∗ := PX (x) angenommen, also proxγχX = PX . Das Proximal-Gradienten-Verfahren für g := χX hat demnach die Form x(k+1) := PX x(k) − γk ∇f (x(k) ) , k = 0, 1, . . . (8.23) Dies ist das sogenannte projizierte Gradienten-Verfahren. 8.4. Subgradienten-Verfahren Das projizierte Gradienten-Verfahren ist nur für glatte Zielfunktionen f über einer konvexen Menge X ⊆ Rn durchführbar. Ist f in (8.1) nur konvex, aber nichtglatt, könnte man versuchen, statt in die Richtung −∇f (x(k) ) in die Richtung −s(k) zu laufen, mit s(k) ∈ ∂f (x(k) ). Dies führt auf sogenannte (projizierte) Subgradienten-Verfahren, x(k+1) := PX (x(k) − tk s(k) ), tk > 0, s(k) ∈ ∂f (x(k) ), k = 0, 1, . . . (8.24) Solche Verfahren sind relativ günstig durchführbar, sofern eine geeignete Parametrisierung von ∂f (x(k) ) vorliegt und die Projektion PX leicht berechenbar ist. Im Gegensatz zum projizierten Gradienten-Verfahren (8.23) liefert ein einzelner Iterationsschritt im projizierten Subgradientenverfahren auch bei speziell angepassten Schrittweiten tk > 0 nicht notwendigerweise einen Abstieg bezüglich f , d.h. die Folge {f (x(k) )}k≥0 ist nicht monoton. 63 8. Nichtglatte konvexe Optimierung Beispiel 8.30. Betrachte X := R2 und die Funktion f (x) := max{−x1 , x1 + 2x2 , x1 − 2x2 }, für alle x ∈ R2 . f ist konvex als Maximum konvexer Funktionen, global Lipschitz-stetig und stückweise linear bezüglich der durch die Geraden x2 = 0 und x1 = ±x2 begrenzten polyedrischen Teilmengen von R2 . Betrachte x := ( 10 ), welcher auf einer der Begrenzungsgeraden liegt. Die aktive Menge I(x) = {1 ≤ j ≤ 3 : fj (x) = f (x)} aus Satz 8.12(ii) beträgt I(x) = {2, 3}, also n 1 1 o , ∂f (x) = conv . 2 −2 Für s := ( 12 ) und jedes t > 0 rechnen wir 1 − t f (x − ts) = f −2t = max{−1 + t, 1 − 5t, 1 + 3t} = 1 + 3t >1 = max{−1, 1, 1} = f (x). Die mögliche Nichtmonotonie von {f (x(k) )}k≥0 ist bei einem Subgradienten-Verfahren zu berücksichtigen. Hierzu könnte man z.B. den kleinsten bisher erreichten Funktionswert in Form der monoton fallenden Hilfsfolge mk := min1≤j≤k f (x(j) ) speichern, k = 0, 1, . . . Algorithmus 8.31 Subgradienten-Verfahren 1. Wähle x(0) ∈ X beliebig, berechne m0 := f (x(0) ) und setze k := 0. 2. Falls x(k) ein geeignetes Abbruchkriterium erfüllt, stoppe. 3. Bestimme ein s(k) ∈ ∂f (x(k) ), wähle tk > 0 und setze x(k+1) := PX x(k) − tk s(k) . 4. Berechne mk+1 := min f (x(k+1) ), mk . 5. Setze k := k + 1 und gehe zu 2. Man beachte, dass wir im Schritt 3 von Algorithmus 8.31 davon ausgehen können, dass 6= 0 gilt, da sonst x(k) schon ein Minimum gewesen wäre. s(k) Satz 8.32. Das konvexe, restringierte Optimierungsproblem (8.1) mit f : Rn → R sei lösbar, und f ∗ := minx∈X f (x) ∈ R bezeichne den optimalen Funktionswert. Die Schrittweiten tk > 0 aus Algorithmus 8.31 seien so gewählt, dass tk ks(k) k2 & 0, k → ∞, ∞ X k=0 Dann konvergiert die Folge {mk }k≥0 gegen 64 f ∗. tk ks(k) k2 = +∞. (8.25) 8.4. Subgradienten-Verfahren Beweis: Wir gehen o.B.d.A. davon aus, dass Algorithmus 8.31 nicht nach endlich vielen Schritten mit einem Minimum x(k) terminiert. Die Folge {mk }k≥0 ist dann nach Konstruktion monoton fallend und nach unten durch f ∗ ∈ R nach unten beschränkt, konvergiert also gegen ein m∗ ≥ f ∗ . Angenommen, es gelte m∗ > f ∗ . Wir wählen ein f ∗ < c < m∗ und betrachten die Levelmenge L(c) = {x ∈ Rn : f (x) ≤ c} der Funktion b ∈ X mit f (b f auf ganz Rn . Dann existiert nach Definition von f ∗ ein x x) < c. Da f auf n b, d.h. es existiert ein ganz R konvex ist, ist f Lipschitz-stetig in einer Umgebung von x bk2 ≤ δ. Betrachte für 0 6= s(k) ∈ ∂f (x(k) ) δ > 0 mit x ∈ L(c) für alle x ∈ Rn mit kx − x die Vektoren s(k) b + δ (k) , k = 0, 1, . . . z(k) := x ks k2 Es folgt z(k) ∈ L(c) für alle k ≥ 0. Aus s(k) ∈ ∂f (x(k) folgt c ≥ f (z(k) ) ≥ f (x(k) ) +hs(k) , z(k) − x(k) i, | {z } ≥mk >c also nach Definition von z(k) b − x(k) i + δks(k) k2 , 0 > hs(k) , z(k) − x(k) i = hs(k) , x für alle k = 0, 1, . . . b ∈ X rechnen wir Wegen der Nicht-Expansivität von PX und x 2 bk22 = PX (x(k) − tk s(k) ) − PX (b x)2 kx(k+1) − x bk22 ≤ kx(k) − tk s(k) − x bk22 − 2hx(k) − x b, tk s(k) i + t2k ks(k) k22 = kx(k) − x bk22 − 2tk δks(k) k2 + t2k ks(k) k22 ≤ kx(k) − x bk22 + tk ks(k) k2 tk ks(k) k2 − 2δ), = kx(k) − x für alle k = 0, 1, . . . Wegen tk ks(k) k2 & 0 gibt es ein k0 ∈ N mit tk ks(k) k2 ≤ δ für alle k ≥ k0 . Wir erhalten bk22 ≤ kx(k) − x bk22 − δtk ks(k) k2 , kx(k+1) − x für alle k ≥ k0 Aufsummation von k = k0 bis K liefert δ K X bk22 − kx(K+1) − x bk22 ≤ kx(k0 ) − x bk22 , tk ks(k) k2 ≤ kx(k0 ) − x k=k0 d.h. P k tk ks (k) k 2 konvergiert, im Widerspruch zu (8.25). Also gilt doch m∗ = f ∗ . Wir diskutieren noch die konkrete Wahl der Schrittweiten tk . Erlaubt wäre nach (8.25) 1 die Wahl tk = (k+1)ks (k) k . Dies führt aber i.A. nur zu sehr langsamer Konvergenz. Besser 2 ist es, die Schrittweiten an den Verlauf von f anzupassen. Eine mögliche Schrittweitenstrategie zeigt der folgende Hilfssatz. 65 8. Nichtglatte konvexe Optimierung Lemma 8.33. Seien x∗ eine Lösung von (8.1), und seien die Schrittweiten tk des Subgradienten-Verfahrens 8.31 gewählt gemäß 0 < tk < 2 f (x(k) ) − f (x∗ ) , ks(k) k22 für alle k = 0, 1, . . . (8.26) Dann gilt kx(k+1) − x∗ k2 < kx(k) − x∗ k2 , für alle k = 0, 1, . . . (8.27) Beweis: Wir rechnen wegen s(k) ∈ ∂f (x(k) ) kx(k) − tk s(k) − x∗ k22 = kx(k) − x∗ k22 − 2hx(k) − x∗ , tk s(k) i + t2k ks(k) k22 ≤ kx(k) − x∗ k22 + 2tk f (x∗ ) − f (x(k) ) + t2k ks(k) k22 = kx(k) − x∗ k22 + tk tk ks(k) k22 − 2 f (x(k) ) − f (x∗ ) {z } | <0 wegen (8.26) < kx (k) − x∗ k22 , für alle k ∈ N, so dass aus der Nichtexpansivität von PX und x∗ ∈ X folgt kx(k+1) − xk2 = PX (x(k) − tk s(k) ) − PX (x∗ )2 ≤ kx(k) − tk s(k) ) − x∗ k2 < kx(k) − x∗ k2 , für alle k = 0, 1, . . . In der Praxis liefert eine Schrittweitenwahl gemäß (8.26), z.B. tk = f (x(k) ) − f (x∗ ) , ks(k) k22 für alle k = 0, 1, . . . 1 häufig eine im Vergleich zu tk = (k+1)ks überlegene Konvergenzgeschwindigkeit. Na(k) k 2 türlich ist (8.26) nur dann realisierbar, wenn der optimale Zielfunktionswert f ∗ = f (x∗ ) bekannt ist. Da das Subgradienten-Verfahren bei einer differenzierbaren Zielfunktion mit dem projizierten Gradientenverfahren, und im unrestringierten Fall mit dem Verfahren des steilsten Abstiegs zusammenfällt, ist die Konvergenzgeschwindigkeit nicht besser als linear, teilweise sogar nur sublinear. 66