Konvexe Optimierung

Werbung
Skript zur Vorlesung im SS 2013+SS 2014
Konvexe Optimierung
Thorsten Raasch
14. August 2014
Inhaltsverzeichnis
I.
Konvexe Optimierung I
5
1. Einführung
7
2. Konvexe Mengen
11
3. Konvexe Funktionen
13
4. Numerische Verfahren für unrestringierte Optimierungsaufgaben
15
5. Numerische Verfahren für lineare Optimierungsaufgaben
17
II. Konvexe Optimierung II
19
6. Numerische Verfahren für restringierte Optimierungsaufgaben
21
6.1. Lösungstheorie und Optimalitätskriterien . . . . . . . . . . . . . . . . . . 21
6.1.1. Optimalitätskriterien 1. Ordnung . . . . . . . . . . . . . . . . . . . 22
7. Dualität
35
7.1. Lagrange-Dualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.2. Dualitätssätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
8. Nichtglatte konvexe Optimierung
8.1. Konvexes Subdifferential . . . . . . . .
8.2. Konvexes Subdifferential für erweiterte
8.3. Proximal-Punkt-Verfahren . . . . . . .
8.4. Subgradienten-Verfahren . . . . . . . .
. . . . . . .
Funktionen
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
53
57
63
3
Teil I.
Konvexe Optimierung I
5
1. Einführung
Wir befassen uns mit Minimierungsaufgaben der Form
min f (x),
x∈X
(1.1)
d.h. wir minimieren eine Zielfunktion f : X → R unter der Nebenbedingung x ∈ X ⊆ Rn .
X heißt auch zulässiger Bereich. x ∈ Rn heißt zulässig, wenn x ∈ X.
Ist X = Rn , so heißt das Minimierungsproblem (1.1) unbeschränkt/unrestringiert,
andernfalls beschränkt/restringiert.
Maximierungsaufgaben
max f (x)
x∈X
können auf (1.1) zurückgeführt werden mit
fe(x) := −f (x),
min fe(x).
x∈X
In beiden Fällen sprechen wir von einem Optimierungsproblem
Definition 1.1. Sei x∗ ∈ Rn zulässig, d.h. x∗ ∈ X.
(i) x∗ heißt globales Minimum von (1.1), wenn
f (x∗ ) ≤ f (x)
für alle x ∈ X.
(1.2)
(ii) x∗ heißt lokales Minimum von (1.1), wenn es ein > 0 gibt mit
f (x∗ ) ≤ f (x)
für alle x ∈ X mit kx − x∗ k < .
(1.3)
(iii) x∗ heißt striktes globales Minimum von (1.1), wenn
f (x∗ ) < f (x)
für alle x ∈ X \ {x∗ }.
(1.4)
(iv) x∗ heißt striktes lokales Minimum von (1.1), wenn es ein > 0 gibt mit
f (x∗ ) < f (x)
für alle x ∈ X \ {x∗ } mit kx − x∗ k < .
(1.5)
Dabei bedeutet k · k durchgängig die Euklidnorm auf Rn .
7
1. Einführung
Bemerkung 1.2. Der zulässige Bereich X ⊆ Rn hat häufig die Form
X = x ∈ Rn : g(x) ≤ 0, h(x) = 0
(1.6)
mit g : Rn → Rp und h : Rn → Rq . Die Nebenbedingung g(x) ≤ 0 ist dabei komponentenweise zu verstehen,
g(x) ≤ 0
Beispiel 1.3.
:⇔
gk (x) ≤ 0
für alle 1 ≤ k ≤ p.
(1.7)
(i) Ein nichtlineares Gleichungssystem
F(x) = 0,
F : Rn → Rm
lässt sich als unbeschränktes Minimierungsproblem schreiben via
minn f (x),
x∈R
n
2 X
f (x) := F(x) =
Fk (x)2 .
(1.8)
k=1
(1.8) heißt Ausgleichsproblem.
(ii) Ein Beispiel aus der Produktionsplanung: In einem Unternehmen können Produkte P1 , . . . , Pn erzeugt werden unter der Nutzung der Ressourcen R1 , . . . , Rm (Zeit,
Rohstoffe, Energie,. . . ). Bei der Produktion einer Einheit von Pk werden von Ressource Rj genau aj,k Einheiten verbraucht. Der Gewinn bei der Produktion einer
Einheit von Pk sei ck , von der Ressource Rj seien bj Einheiten verfügbar. Ziel ist
es, Produktionsmengen xk ≥ 0 von Pk derart zu bestimmen, dass unter den Ressourcenbeschränkungen der Gewinn maximiert wird.
Die mathematische Formulierung als (lineares) Optimierungsproblem lautet

n
X



max
ck xk = hc, xi



 x∈X k=1

n
n
o,
X
n

X
:=
x
∈
R
:
a
x
≤
b
,
1
≤
j
≤
m,
x
≥
0,
1
≤
l
≤
n
j

j,k
k
l



k=1



n
= {x ∈ R : Ax ≤ b, x ≥ 0}
(1.9)
mit A = (aj,k )1≤j≤m,1≤k≤n .
Insbesondere für n = 2 lassen sich Optimierungsprobleme der Form (1.8) auch
graphisch visualisieren. Ein Beispiel mit n = 2 Produkten, Gewinnen c1 = 4, c2 = 3
und Einschränkungen für m = 3 Ressourcen:
• Arbeitsaufwand R1 : x1 + x2 ≤ 16 (z.B. gleicher Arbeitsaufwand für beide Produkte)
• Lagerkapazität R2 : x2 ≤ 12 (z.B. Rohstoffe müssen nur für P2 gelagert werden)
• Energie R3 : 3x1 + x2 ≤ 36 (z.B. dreifacher Energiebedarf für P1 )
8
Weitere Einschränkungen sind x1 , x2 ≥ 0 (Produktionsmengen sind nichtnegativ).
Insgesamt haben wir nur Ungleichungsrestriktionen, und das Optimierungsproblem
(1.8) lautet
max ( 43 ), x
11
16
0 1 x≤ 12
31
36
x≥0
Der Gradient der Zielfunktion f (=Richtung des stärksten Anstiegs) ist c = ( 43 ),
b = ( 10
das Maximum wird daher
x
6 ) von X angenommen, mit Ziel
4 im10Randpunkt
funktionswert f (b
x) = ( 3 ), ( 6 ) = 58, vergleiche Abbildung 1.1.
x2
R1
R3
R2
12
c
b
x
12
16
x1
Abbildung 1.1.: Graphische Visualisierung des Produktionsproblems aus Beispiel 1.3(ii)
9
2. Konvexe Mengen
— Inhalt wird nachgereicht —
11
3. Konvexe Funktionen
— Inhalt wird nachgereicht —
13
4. Numerische Verfahren für
unrestringierte Optimierungsaufgaben
— Inhalt wird nachgereicht —
15
5. Numerische Verfahren für lineare
Optimierungsaufgaben
— Inhalt wird nachgereicht —
17
Teil II.
Konvexe Optimierung II
19
6. Numerische Verfahren für restringierte
Optimierungsaufgaben
In diesem Kapitel diskutieren wir Algorithmen für restringierte Optimierungsprobleme
mit stetig differenzierbaren Zielfunktionen und Nebenbedingungen
min f (x),
f ∈ C 1 (Rn ),
g(x)≤0
h(x)=0
g ∈ C 1 (Rn , Rp ),
h ∈ C 1 (Rn , Rq ).
(6.1)
6.1. Lösungstheorie und Optimalitätskriterien
Wir studieren im Folgenden notwendige und hinreichende algebraische Optimalitätskriterien 1. und 2. Ordnung für (6.1). Die Bedingungen 1. Ordnung werden im Allgemeinen
als KKT-Bedingungen bezeichnet, nach Karush1 , Kuhn2 und Tucker3 . Die logischen Zusammenhänge werden wie folgt aussehen.
• Ein lokales Minimum x∗ von (6.1) erfüllt die zu (6.1) gehörenden KKT-Bedingungen,
sofern der zulässige Bereich
X := {x ∈ Rn : g(x) ≤ 0, h(x) = 0}
gewissen Regularitätseigenschaften genügt, sogenannten constraint qualifications
(CQ). Diese können entweder geometrisch oder algebraisch formuliert werden.
• Umgekehrt ist ein zulässiger Punkt x ∈ X, der die KKT-Bedingungen erfüllt,
unter zusätzlichen Annahmen wie etwa Konvexität von f , g und h, oder auch
Optimalitätsbedingungen 2. Ordnung zumindest ein lokales Minimum von (6.1).
Lokale Minima von (6.1) sind z.B. unter diesen Konvexitätsannahmen auch global.
Wir vergleichen hierzu die Kernaussage von Satz 5.20 zu Optimalitätsbedingungen bei
linearen Problemen:
x∗ ∈ Rn optimal für min hc, xi
Ax=b
x≥0
m
Ax∗
= b,
x∗
≥ 0 und
∃y∗
∈
Rn
mit A> y∗ ≤ c und hx∗ , c − A> y∗ i = 0.
1
William Karush (1917–1997)
Harold W. Kuhn (*1925)
3
Albert W. Tucker (1905–1995)
2
21
6. Numerische Verfahren für restringierte Optimierungsaufgaben
Die algebraischen Bedingungen
x ≥ 0,
Ax = b,
A> y ≤ c,
hx, c − A> yi = 0
sind genau die KKT-Bedingungen für den Fall eines linearen Optimierungsproblems. Der
Nachweis der Äquivalenz zur globalen Optimalität benutzte die starken algebraischen
Eigenschaften (Linearität und insbesondere Konvexität) der Zielfunktion und der die
Nebenbedingung beschreibenden Funktionen.
6.1.1. Optimalitätskriterien 1. Ordnung
Zur Herleitung von Optimalitätskriterien 1. Ordnung benutzen wir einen geometrischen
Zugang über Tangentialkegel des zulässigen Bereichs X von (6.1).
Definition 6.1 (Tangentialkegel). Sei ∅ 6= X ⊆ Rn . Dann heißt d ∈ Rn tangential zu
X in x ∈ X, wenn Folgen (x(k) )k∈N ⊂ X und (tk )k∈N ⊂ (0, ∞) existieren mit
x(k) → x,
x(k) − x
→ d,
tk
tk & 0,
k → ∞.
(6.2)
Die Menge aller solcher Richtungen heißt Tangentialkegel TX (x) von X in x, d.h.
n
o
TX (x) = d ∈ Rn : ∃(x(k) )k∈N ⊂ X, (tk )k∈N ⊂ R mit (6.2) .
(6.3)
Bemerkung 6.2.
(i) Der Tangentialkegel TX (x) ist auch wirklich ein Kegel:
x(k) − x
∈ TX (x)
k→∞
tk
d = lim
⇒
x(k) − x
∈ TX (x),
k→∞ tk /λ
λd = lim
λ > 0.
(ii) Es ist TX (x) = Rn , falls x ∈ int(X); ansonsten ist TX (x) „nichttrivial“, d.h. im
Allgemeinen eine echte Teilmenge von Rn . So erhalten wir zum Beispiel bei einem
abgeschlossenen Halbraum
X = H ⊕ (a, b) = {x ∈ Rn : ha, xi ≥ b}
den Tangentialkegel
(
Rn ,
TX (x) =
H ⊕ (a, 0),
ha, xi > b,
.
ha, xi = b
Wir zeigen zunächst, dass Tangentialkegel immer abgeschlossen sind.
Lemma 6.3. Seien ∅ =
6 X ⊆ Rn und x ∈ X. Dann ist TX (x) abgeschlossen.
Beweis: Seien d(k) ∈ TX (x) mit d(k) → d ∈ Rn für k → ∞. Nach Definition existieren
zu jedem k ∈ N Punkte x(k,l) ∈ X und tk,l ∈ R mit (6.2), d.h.
x(k,l) → x,
22
tk,l & 0,
x(k,l) − x
→ d(k) ,
tk,l
l → ∞.
6.1. Lösungstheorie und Optimalitätskriterien
Es existieren daher l(k) ∈ N mit kx(k,l(k)) − xk ≤
1
k,
tk,l(k) ≤
1
k
und k x
(k,l(k)) −x
tk,l(k)
k≤
1
k,
e(k) := x(k,l(k)) die Tangentialbedingung (6.2) erfüllen,
so dass mit k → ∞ die Vektoren x
d.h. es gilt d ∈ TX (x).
Wir kommen nun zum Zusammenhang zwischen den lokalen Minima x∗ einer Funktion f :
Rn → R auf einer Teilmenge X ⊆ Rn und algebraischen Optimalitätsbedingungen. Das
notwendige Kriterium im Fall X = Rn und stetig differenzierbarem f lautet ∇f (x∗ ) = 0,
d.h. es darf keine Abstiegsrichtung existieren, vgl. Satz 4.1. Falls X 6= Rn und x∗ auf dem
Rand von X liegt, sind nur solche Abstiegsrichtungen auszuschließen, die in X hinein
zeigen, d.h. die in TX (x∗ ) liegen. Dies ist der Inhalt des folgenden Lemmas.
Lemma 6.4. Seien ∅ =
6 X ⊆ Rn , f ∈ C 1 (Rn ) und x∗ ∈ X ein lokales Minimum von
min f (x).
x∈X
(6.4)
Dann gilt
∇f (x∗ ), d ≥ 0
für alle d ∈ TX (x∗ ).
(6.5)
Beweis: Sei d ∈ TX (x∗ ) beliebig. Dann existieren x(k) ∈ X und tk > 0 mit x(k) → x∗ ,
(k)
∗
tk & 0 und x tk−x → d für k → ∞. Da f ∈ C 1 (Rn ), existieren nach dem Mittelwertsatz
ξ (k) ∈ conv{x(k) , x∗ } mit f (x(k) ) − f (x∗ ) = h∇f (ξ (k) ), x(k) − x∗ i, also insbesondere
ξ (k) → x∗ für k → ∞. Da x∗ ein lokales Minimum von (6.4) ist, gibt es ein k0 ∈ N mit
f (x(k) ) ≥ f (x∗ ) für alle k ≥ k0 , also h∇f (ξ (k) ), x(k) − x∗ i ≥ 0 für k ≥ k0 und damit
D
x(k) − x∗ E
1
→ ∇f (x∗ ), d , k → ∞.
∇f (ξ (k) ), x(k) − x∗ = ∇f (ξ (k) ),
0≤
tk
tk
Definition 6.5. Ein zulässiger Punkt x∗ ∈ X mit (6.5) heißt stationär für das Minimierungsproblem (6.4).
Die Stationaritätsbedingung (6.5) ist noch recht abstrakt und im Allgemeinen leider
nur schwer zu handhaben, da TX (x∗ ) eine komplizierte Struktur haben kann. Für den
Fall eines Minimierungsproblems der Form (6.1) mit stetig differenzierbarer Zielfunktion
f und stetig differenzierbaren Nebenbedingungen g, h führen wir daher den sogenannten
linearisierten Tangentialkegel ein.
Definition 6.6 (linearisierter Tangentialkegel). Sei X := {x ∈ Rn : g(x) ≤ 0, h(x) = 0}
der zulässige Bereich von (6.1), und sei x ∈ X ein zulässiger Punkt. Dann heißt
TXlin (x) := d ∈ Rn : h∇gj (x), di ≤ 0 f.a. j ∈ I(x), h∇hk (x), di = 0 f.a. 1 ≤ k ≤ q
(6.6)
der linearisierte Tangentialkegel von X in x. Dabei bezeichnet
I(x) := 1 ≤ j ≤ q : gj (x) = 0
(6.7)
die Menge der aktiven Ungleichungsrestriktionen in x ∈ X.
23
6. Numerische Verfahren für restringierte Optimierungsaufgaben
TXlin (x) ist algebraisch einfacher zu handhaben und stimmt in vielen Fällen mit TX (x)
überein. Eine der beiden Inklusionen ist dabei trivialerweise erfüllt.
Lemma 6.7. Sei X := {x ∈ Rn : g(x) ≤ 0, h(x) = 0} der zulässige Bereich von (6.1),
und sei x ∈ X ein zulässiger Punkt. Dann gilt TX (x) ⊆ TXlin (x).
Beweis: Sei d ∈ TX (x) beliebig. Nach Definition existieren x(k) ∈ X und tk > 0 mit
(k)
x(k) → x, tk & 0 und x tk−x → d für k → ∞.
Sei zunächst j ∈ I(x) fest gewählt, also gj (x) = 0. Wegen x(k) ∈ X und nach dem
Mittelwertsatz der Differentialrechnung existieren ξ (k) ∈ conv{x(k) , x} mit
0 ≥ gj (x(k) ) = gj (x) + ∇gj (ξ (k) ), x(k) − x = ∇gj (ξ (k) ), x(k) − x
und somit
D
x(k) − x E
∇gj (x), d = lim ∇gj (ξ (k) ),
≤ 0.
k→∞
tk
Sei weiter 1 ≤ k ≤ q beliebig und somit hk (x) = 0. Mit x(l) ∈ X und dem Mittelwertsatz folgt ähnlich
0 = hk (x(l) ) = hk (x) + ∇hk (ξ (l) ), x(l) − x = ∇hk (ξ (l) ), x(l) − x
und somit
D
x(l) − x E
∇hk (x), d = lim ∇hk (ξ (l) ),
= 0.
l→∞
tl
Die umgekehrte Inklusion ist nicht immer erfüllt, wie folgendes Beispiel zeigt.
Beispiel 6.8. Betrachte das Optimierungsproblem
min (−x1 )
x31 +x2 ≤0
−x2 ≤0
Der zulässige Bereich X wird von der negativen Halbachse (−∞, 0] × {0} und dem Parabelstück {(x1 , −x31 ) : x1 ≤ 0} begrenzt. Das eindeutige Minimum liegt bei x∗ = (0, 0)> .
Setzt man g1 (x) := x31 + x2 und g2 (x) := −x2 , so sind in x∗ beide Ungleichungsrestriktionen aktiv, also nach Definition für den linearisierten Tangentialkegel
TXlin (x∗ ) = d ∈ R2 : h∇g1 (x∗ ), di ≤ 0, h∇g2 (x∗ ), di ≤ 0
0 ), di ≤ 0
= d ∈ R2 : h( 01 ), di ≤ 0, h( −1
= R × {0}.
Für den Tangentialkegel selbst gilt aber TX (x∗ ) = (−∞, 0] × {0} 6= TXlin (x∗ ). Denn sei
einerseits d ∈ TX (x∗ ). Dann existieren x(k) = ( uvkk ) ∈ X und tk > 0 mit uk → 0, vk → 0,
24
6.1. Lösungstheorie und Optimalitätskriterien
u /t
tk & 0 und d = limk→∞ ( vkk/tkk ). Aus x(k) folgt u3k + vk ≤ 0 ≤ vk , also uk ≤ 0 ≤ vk und
damit
uk
vk
d1 = lim
≤ 0 ≤ lim
= d2 .
k→∞ tk
k→∞ tk
Ferner gilt
u3 u vk
k
d2 = lim
≤ lim − k = lim u2k −
= 0,
k→∞ tk
k→∞
k→∞
tk
tk
also insgesamt d ∈ (−∞, 0]×{0}. Ist umgekehrt d ∈ (−∞, 0]×{0} vorgegeben, so erfüllen
x(k) := k1 d = ( d10/k ) ∈ X und tk := k1 die Bedingung (6.2).
Definition 6.9 (ACQ). Wir sagen, ein zulässiger Punkt x ∈ X des restringierten Optimierungsproblems (6.1) erfüllt die Regularitätsbedingung von Abadie4 (engl. Abadie
constraint qualification) bzw. es ist ACQ(x) erfüllt, wenn TX (x) = TXlin (x) gilt.
Ein wichtige Klasse von Minimierungsproblemen, bei denen ACQ(x) für alle zulässigen
x erfüllt ist, sind solche mit linearen Nebenbedingungen.
Lemma 6.10. Seien A ∈ Rp×n , C ∈ Rq×n , b ∈ Rp und d ∈ Rq . Dann erfüllt jeder Punkt
des konvexen Polyeders X := {x ∈ Rn : Ax ≤ b, Cx = d} die Regularitätsbedingung von
Abadie.
Beweis: Sei x ∈ X beliebig. Wegen Lemma 6.7 genügt es, TXlin (x) ⊆ TX (x) zu zeigen.
Sei also d ∈ TXlin (x), d.h. mit g(y) := Ay − b und h(y) := Cy − d wegen (6.6) und (6.7)
(
∇gj (x), d = hA> ej , di ≤ 0, falls j ∈ I(x) ⇔ gj (x) = (Ax − b)j = 0,
∇hk (x), d = hC> ek , di = 0, für alle 1 ≤ k ≤ q.
Sind nun tl > 0 beliebig mit tl & 0 für l → ∞ und setzt man x(l) := x + tl d, so gilt für
genügend große l ∈ N


(Ax(l) − b)j = (Ax − b)j + tl (Ad)j = tj hA> ej , di ≤ 0, falls (Ax − b)j = 0,


(Ax(l) − b)j = (Ax − b)j + tl (Ad)j ≤ 12 (Ax − b)j < 0, falls (Ax − b)j < 0,


 (Cx(l) − d) = (Cx − d) + t (Cd) = t hC> e , di = 0, für alle 1 ≤ k ≤ q,
k
k
l
k
l
k
d.h. x(l) ∈ X für genügend großes l ∈ N sowie x(l) → x und
also d ∈ TX (x).
x(l) −x
tl
= d → d für l → ∞,
Wir werden nun unter der Abadie-Regularitätsbedingung nachweisen, dass ein lokales
Minimum x∗ von (6.1) die KKT-Optimalitätsbedingungen erfüllt. Zu deren Definition
betrachten wir die sogenannte Lagrange-Funktion von (6.1).
Definition 6.11 (Lagrange-Funktion). Die durch
L(x, λ, µ) := f (x) + λ, g(x) + µ, h(x)
für alle x ∈ Rn
(6.8)
festgelegte Funktion L : Rn × Rp × Rq → R heißt Lagrange-Funktion von (6.1).
4
Jean M. Abadie
25
6. Numerische Verfahren für restringierte Optimierungsaufgaben
Definition 6.12 (KKT-Bedingungen).
(i) Die Bedingungen





∇x L(x, λ, µ) = 0
λ ≥ 0,
g(x) ≤ 0,
h(x) = 0
λ, g(x) = 0
(6.9)
heißen KKT-Bedingungen von (6.1), wobei
∇x L(x, λ, µ) = ∇f (x) +
p
X
λj ∇gj (x) +
j=1
q
X
µk ∇hk (x)
k=1
den Gradienten der Lagrange-Funktion L nach x bezeichnet.
(ii) Ein Punkt (x∗ , λ∗ , µ∗ ) ∈ Rn ×Rp ×Rq , der die KKT-Bedingungen (6.9) erfüllt, heißt
KKT-Punkt von (6.1). Die Vektoren λ∗ und µ∗ bzw. ihre Komponenten werden als
Lagrange-Multiplikatoren bezeichnet.
Bemerkung 6.13. (i) Liegen keine Restriktionen vor (p = q = 0), so reduzieren sich
die KKT-Bedingungen (6.9) auf ∇f (x) = 0.
(ii) Die letzte Teilbedingung in (6.9) ist offenbar äquivalent zu
λj ≥ 0,
gj (x) ≤ 0,
λj gj (x) = 0
für alle 1 ≤ j ≤ p,
d.h. in einem KKT-Punkt (x∗ , λ∗ , µ∗ ) ist stets λ∗j = 0 oder gj (x∗ ) = 0. Wenn
diese beiden Fälle nicht gleichzeitig auftreten können, also wenn λ∗j + gj (x∗ ) 6= 0
gilt für alle 1 ≤ j ≤ p, so sagt man, der KKT-Punkt (x∗ , λ∗ , µ∗ ) erfüllt strikte
Komplementarität.
(iii) Die KKT-Bedingungen (6.9) können geometrisch interpretiert werden. Liegen z.B.
keine Gleichheitsrestriktionen vor (q = 0) und ist (x∗ , λ∗ ) ∈ Rn × Rp ein KKTPunkt mit aktiver Indexmenge I(x∗ ) = {1 ≤ j ≤ p : gj (x∗ ) = 0}, so bedeutet
(6.9), dass −∇f (x∗ ) eine nichtnegative Linearkombination der Vektoren ∇gj (x)
mit j ∈ I(x∗ ) ist, d.h.
−∇f (x∗ ) ∈ cone ∇gj (x∗ ) : j ∈ I(x∗ ) .
Denn die inaktiven Restriktionen erfüllen gj (x∗ ) < 0 und erzwingen wegen (6.9)
λj = 0, so dass die entsprechende Richtung in der konischen Linearkombination
−∇f (x∗ ) der Vektoren ∇gl (x∗ ) nicht auftaucht.
Satz 6.14 (KKT-Bedingungen unter ACQ). Sei x∗ ein lokales Minimum von (6.1) mit
ACQ(x∗ ). Dann existieren Lagrange-Multiplikatoren λ∗ ∈ Rp+ und µ∗ ∈ Rq derart, dass
(x∗ , λ∗ , µ∗ ) ein KKT-Punkt von (6.1) ist.
26
6.1. Lösungstheorie und Optimalitätskriterien
Beweis: Wegen Lemma 6.4 und der Bedingung ACQ(x∗ ) gilt
h∇f (x∗ ), di ≥ 0,
für alle d ∈ TX (x∗ ) = TXlin (x∗ ),
d.h. nach (6.6)
−h∇f (x∗ ), di ≤ 0,
wobei A ∈ R(|I(x
∗ )|+2q)×n
für alle d ∈ Rn mit Ad ≤ 0,
als Blockmatrix gegeben ist durch


∇gj (x∗ ) j∈I(x∗ )


A :=  ∇hk (x∗ ) 1≤k≤q  .
− ∇hk (x∗ ) 1≤k≤q
Nach dem Farkas-Lemma 5.5, siehe Äquivalenz (5.3), ist die Lösungsmenge
y ∈ R|I(x
∗ )|+2q
: A> y = −∇f (x∗ ), y ≥ 0
nicht leer (meistens enthält sie sogar unendlich viele Punkte). Zerlegt man einen solchen
Vektor y analog zu A in die Blöcke
 ∗

(λj )j∈I(x∗ )

y =  (µ+
j )1≤k≤q
−
(µj )1≤k≤q
und setzt noch λ∗j := 0 für j ∈ {1, . . . , p} \ I(x∗ ) sowie µ∗ := µ+ − µ− , so erfüllt
(x∗ , λ∗ , µ∗ ) offenbar die KKT-Bedingungen 6.9.
Wir diskutieren zwei Beispiele zur Formulierung von KKT-Bedingungen und deren Lösbarkeit.
Beispiel 6.15.
(i) Betrachte das lineare Optimierungsproblem
min hc, xi
Ax≤b
Cx=d
zu Daten A ∈ Rp×n , C ∈ Rq×n , b ∈ Rp , d ∈ Rq und c ∈ Rn . Mit f (x) :=
hc, xi, g(x) := Ax − b und h(x) := Cx − d hat das Problem die Form (6.1). Da
die Nebenbedingung linear ist, erfüllt wegen Lemma 6.10 jeder zulässige Punkt die
Regularitätsbedingung von Abadie. Mit Satz 6.14, ∇f (x) = c, ∇gj (x) = A> ej und
∇hk (x) = C> ek gelten für ein lokales Minimum x also die KKT-Bedingungen

Pp
Pq
>
>
>
>

 c + j=1 λj A ej + k=1 µk C ek = c + A λ + C µ = 0
Cx − d = 0


λ ≥ 0, Ax − b ≤ 0, hλ, Ax − bi = 0
.
27
6. Numerische Verfahren für restringierte Optimierungsaufgaben
Für ein Problem der Form
min hc, xi
Ax=b
x≥0
erhalten wir analog die KKT-Bedingungen
c − λ + A> µ = 0





Ax − b = 0 ,
λ ≥ 0,
−x ≤ 0,
hλ, −xi = 0
was der Aussage von Satz 5.20 entspricht, wenn man y := −µ und λ := c − A> y
wählt. Jeder KKT-Punkt ist auch lokales Minimum (sogar global). Je nach Lage
des Kostenvektors zu den niederdimensionalen Seitenflächen des Polyeders X sind
Minima und damit KKT-Punkte eindeutig oder nicht. Als Lösungsverfahren zum
Auffinden von KKT-Punkten bzw. globalen Minima haben wir in Kapitel 5 den
Simplex-Algorithmus sowie Innere-Punkt-Verfahren diskutiert.
(ii) Betrachte das unrestringierte Minimierungsproblem der `1 -Tikhonov-Regularisierung
min 1 kAx
x∈Rn 2
− bk22 + αkxk1 ,
mit A ∈ Rm×n , b ∈ Rm und einem Regularisierungsparameter α ≥ 0. Dieses
Minimierungsproblem wird z.B. betrachtet, um schlecht konditionierte lineare Gleichungssystem Ax = bexakt auch bei gestörten Messdaten b ≈ bexakt stabil lösen zu
können. Die ursprüngliche Zielfunktion x 7→ 21 kAx − bk22 + αkxk1 ist zwar konvex
bezüglich x, d.h. lokale Minima sind global, aber sie ist nicht stetig differenzierbar.
Spaltet man die Unbekannte Rn 3 x = x+ − x− in Positiv- und Negativteil x± ≥ 0
auf und erzwingt die Eindeutigkeit dieser Zerlegung via hx+ , x− i = 0, so kann das
ursprüngliche Problem wegen kxk1 = h1, x+ + x− i als restringiertes Optimierungsproblem mit stetig differenzierbarer Zielfunktion beschrieben werden:
Rn 3x± ≥0
hx+ ,x− i=0
⇔
min
2
− x− ) − b2 + αh1, x+ + x− i
x+ ∈R2n
x−
+ −I 0
x
≤( 0
0)
0 −I
x−
+
−
hx ,x i=0
+
1
2 A(x
min
+
1
2 A(x
2
− x− ) − b2 + αh1, x+ + x− i.
Man beachte, dass das transformierte Problem durch die eindeutige Zerlegung von
x = x+ − x− mit hx+ , x− i = 0 die gleichen lokalen Minima besitzt wie das ur+
sprüngliche Problem. Jedes lokale Minimum ( xx− ) ∈ R2n erfüllt die folgenden KKT-
28
6.1. Lösungstheorie und Optimalitätskriterien
Bedingungen mit Lagrange-Multiplikatoren λ ∈ R2n und µ ∈ R:
−
 >
A A(x+ − x− ) − b + α1
−I 0
x


 −A> A(x+ − x− ) − b + α1 + 0 −I λ + µ x+ = 0



hx+ , x− i = 0, .


D


−x+ E
+
−


λ ≥ 0, x ≥ 0, x ≥ 0,
λ,
=0
−x−
Also gilt z.B. beim naheliegenden Ansatz λ := ( uv ) mit u, v ∈ Rn
u = A> A(x+ − x− ) − b + α1 + µx− ,
v = −A> A(x+ − x− ) − b + α1 + µx+ ,
0 = hx+ , ui = hx− , vi = hx+ , x− i,
sowie x± ≥ 0, u ≥ 0 und v ≥ 0, also
u + v = 2α1 + µ(x+ + x− ),
u − v = 2A> A(x+ − x− ) − b + 2α1.
Die Anzahl der KKT-Punkte ist unendlich, denn µ ∈ R kann wegen x± ≥ 0 beliebig
vergrößert werden, ohne die KKT-Eigenschaft zu verletzen. Für jeden KKT-Punkt
kann man folgende Aussagen für die Komponenten von x = x+ − x− treffen:
• Ist xj > 0, so folgt uj = 0 und damit wegen x−
j =0
A> (Ax − b) j = uj − α − µx−
j = −α = − sgn(xj )α.
• Ist xj < 0, so folgt vj = 0 und damit wegen x+
j =0
A> (Ax − b) j = −vj − α + µx+
j = α = − sgn(xj )α.
−
• Ist xj = 0, so folgt x+
j = xj = 0 und damit wegen uj ≥ 0, vj ≥ 0
−α ≤ A> (Ax − b) j ≤ α.
Es folgt für jeden KKT-Punkt

 A> (b − Ax) = sgn(xj )α,
j >
 A (b − Ax) ≤ α,
j
xj 6= 0
xj = 0
.
Umgekehrt kann man eine Lösung x = x+ − x− dieser Bedingungen mit x± ≥ 0
und hx+ , x− i = 0 zu einem KKT-Punkt auffüllen mit
u := A> (Ax − b) + α1 ≥ 0,
v := −A> (Ax − b) + α1 ≥ 0,
µ := 0.
29
6. Numerische Verfahren für restringierte Optimierungsaufgaben
Bei einem Optimierungsproblem mit nichtlinearen Nebenbedingungen ist zunächst unklar, ob die Regularitätsbedingung ACQ von Abadie überhaupt gilt. Wir geben zwei
verschiedene praktikable, hinreichende Kriterien an, unter denen jeweils ACQ erfüllt ist.
Zunächst diskutieren wir eine Bedingung, die auch bei nichtkonvexen zulässigen Bereichen einsetzbar ist.
Definition 6.16 (LICQ). Wir sagen, ein zulässiger Punkt x des restringierten Optimierungsproblems (6.1) erfüllt die Regularitätsbedingung der linearen Unabhängigkeit
(engl.: linear inequality constraint qualification) bzw. es ist LICQ(x) erfüllt, wenn die
Menge
∇gj (x) : j ∈ I(x) ∪ ∇hk (x) : 1 ≤ k ≤ q
linear unabhängig ist, wobei I(x) die Menge der aktiven Ungleichungsrestriktionen von x
aus (6.7) bezeichnet.
Wir werden zeigen, dass aus der handlichen Bedingung LICQ(x) bereits ACQ(x) folgt
und benutzen dazu den folgenden Hilfssatz.
Lemma 6.17. Sei x zulässig für (6.1), und sei I(x) = {1 ≤ j ≤ p : gj (x) = 0} die Menge
der aktiven Ungleichungsrestriktionen bei x. Die Gradienten {∇hk (x) : 1 ≤ k ≤ q} seien
linear unabhängig, und d ∈ Rn sei ein Vektor mit
∇gj (x), d < 0, für alle j ∈ I(x),
∇hk (x), d = 0, für alle 1 ≤ k ≤ q. (6.10)
Dann existieren ein > 0 und eine stetig differenzierbare Kurve ϕ : (−, ) → Rn mit
ϕ(0) = x, ϕ0 (0) = d und ϕ(t) ∈ X für alle 0 ≤ t < .
Beweis: Definiere eine Abbildung H : Rq+1 → Rq via
H(t, y) := h x + td + h0 (x)> y , für alle t ∈ R, y ∈ Rq .
Das nichtlineare Gleichungssystem
H(t, y) = 0
besitzt wegen h(x) = 0 die Lösung (t∗ , y∗ ) = (0, 0). Die Jacobimatrix von H nach y in
diesem Punkt lautet
H0y (0, 0) = h0 (x)h0 (x)> ∈ Rq×q .
Nach Voraussetzung hat h0 (x) ∈ Rq×n vollen Rang ≥ n, also gilt q ≤ n und H0y (0, 0) ist
invertierbar. Nach dem Satz über implizite Funktionen existiert ein > 0 und eine stetig
differenzierbare Kurve ψ : (−, ) → Rn mit ψ(0) = 0 und
H t, ψ(t) = 0, für alle t ∈ (−, ).
Es folgt mit der Kettenregel
ψ 0 (t) = −H0y t, ψ(t)
30
−1
H0t t, ψ(t) ,
für alle t ∈ (−, ),
6.1. Lösungstheorie und Optimalitätskriterien
also
ψ 0 (0) = −H0y (0, 0)−1 Ht (0, 0) = −H0y (0, 0)−1 h0 (x)> d = 0.
| {z }
=0
Definiere dann eine Kurve ϕ : (−, ) →
Rn
durch
ϕ(t) := x + td + h0 (x)> ψ(t),
für alle t ∈ (−, ).
Es gilt zunächst ϕ(0) = x und ϕ0 (0) = d sowie h(ϕ(t)) = 0 für alle t ∈ (−, ). Zu zeigen bleibt noch, dass ϕ(t) auch bezüglich der Ungleichungsrestriktionen zulässig bleibt,
ggf. für ein verkleinertes . Aus Stetigkeitsgründen gilt gj (ϕ(t)) < 0 für alle j ∈
/ I(x)
und alle t hinreichend nahe bei 0. Für jeden Index j ∈ I(x) und ηj (t) := gj (ϕ(t)) gilt
ηj0 (t) = h∇gj (ϕ(t)), ϕ0 (t)i, mit ηj0 (0) = h∇gj (ϕ(t)), di < 0. Also ist ηj in einer Umgebung
von 0 streng monoton fallend, d.h. g(ϕ(t)) ≤ 0 für t ∈ [0, ) und ein > 0.
Satz 6.18. Aus LICQ(x) folgt ACQ(x).
Beweis: Sei x ∈ X. Wegen Lemma 6.7 reicht es, TXlin (x) ⊆ TX (x) zu zeigen. Sei also
d ∈ TXlin (x) beliebig, d.h.
∇gj (x), d ≤ 0, für alle j ∈ I(x),
hk (x), d = 0, für alle 1 ≤ k ≤ q.
Wegen LICQ(x) gilt |I(x)|+q ≤ n, denn ≥ n+1 Vektoren im Rn wären ja linear abhängig.
Sei A ∈ Rn×n eine reguläre Matrix, die in den ersten |I(x)| Zeilen aus den Vektoren
∇gj (x)> besteht, deren nächste q Zeilen die Vektoren ∇gk (x)> enthalten und deren
restliche Zeilen passend ergänzt wurden (Basisergänzungssatz der Linearen Algebra).
Definiere dann einen Vektor b ∈ Rn , dessen erste |I(x)| Einträge −1 sind, die nächsten p
Einträge 0 sind und dessen restliche Einträge beliebig sind. Das lineare Gleichungssystem
b=b
Ad
ist eindeutig lösbar und liefert einen Vektor
b < 0, für alle j ∈ I(x),
∇gj (x), d
b ∈ Rn mit
d
b = 0,
∇hj (x), d
für alle 1 ≤ k ≤ q.
Wir setzen
b
d(δ) := d + δ d,
für alle δ > 0,
und zeigen, dass d(δ) ∈ TX (x) für alle δ > 0, denn hieraus folgt d = limδ→0 d(δ) ∈ TX (x)
mit Hilfe von Lemma 6.3. Für festes δ > 0 erfüllt der Vektor d(δ) die Bedingungen
aus Lemma 6.17, die auch als Regularitätsbedingung von Mangasarian und Fromovitz
(MFCQ) bezeichnet werden. Somit existiert ein > 0 und eine stetig differenzierbare
Kurve ϕ : (−, ) → Rn mit ϕ(0) = x, ϕ0 (0) = d(δ) und ϕ(t) ∈ X für alle 0 ≤ t < . Ist
nun tk & 0, so setzen wir x(k) := ϕ(tk ), und wir erhalten eine ab k ≥ k0 zulässige Folge
(k)
→ ϕ0 (0) = d(δ), k → ∞, d.h. d(δ) ∈ TX (x).
mit x(k) → x und x tk−x = ϕ(tk )−ϕ(0)
tk
Wie man in folgendem Beispiel sieht, folgt aus ACQ(x) nicht immer LICQ(x).
31
6. Numerische Verfahren für restringierte Optimierungsaufgaben
Beispiel 6.19. Betrachte das Optimierungsproblem
min
−x21 +x2 ≤0
−x2 ≤0
x21 + (x2 + 1)2 .
Das globale Minimum liegt bei x∗ = 0, denn für jeden zulässigen Punkt gilt
x21 + (x2 + 1)2 = x21 +x22 + 2x2 +1 ≥ 1 = 02 + (0 + 1)2 .
|{z}
≥x2
|
{z
≥0
}
Die zulässige Menge liegt zwischen der x1 -Achse und der Normalparabel x2 = x21 . Im
Punkt x∗ = 0 gilt für den Tangentialkegel
n
o
u /t
TX (0) = d ∈ R2 : ∃uk → 0, vk → 0, tk & 0 mit 0 ≤ vk ≤ u2k , ( vkk/tkk ) → d, k → ∞
= R × {0},
denn aus vk , tk ≥ 0 folgt d2 ≥ 0, und 0 ≤ d2 ← vk /tk ≤ u2k /tk → 0 wie in Beispiel
6.8; ferner kann man zu beliebigem d = ( d01 ) und tk & 0 die Folge x(k) := x∗ + tk d ∈
X betrachten, die die Bedingung (6.2) erfüllt. Für den linearisierten Tangentialkegel in
x∗ = 0 rechnen wir wegen I(0) = {1, 2}
o
n
0
), d ≤ 0 = R × {0},
TXlin (0) = d ∈ R2 : ( 01 ), d ≤ 0, ( −1
0 )
also ist ACQ(0) erfüllt. Aber die beiden Gradienten ∇g1 (0) = ( 01 ) und ∇g2 (0) = ( −1
sind linear abhängig, so dass LICQ(0) nicht gilt.
Für die zweite populäre hinreichende Bedingung im Fall nichtlinearer Nebenbedingungen in (6.1) nehmen wir an, dass das Minimierungsproblem (6.1) die folgende spezielle
Form hat:
minn f (x),
(6.11)
x∈R
g(x)≤0
Ax=b
wobei f : Rn → R und alle gj : Rn → R, 1 ≤ j ≤ p, stetig differenzierbare und
konvexe Funktionen sind, sowie A ∈ Rq×n , b ∈ Rq . Wegen der Konvexität aller gj ist
X := {x ∈ Rn : g(x) ≤ 0, Ax = b} konvex, und wegen der Konvexität von f sprechen
wir von einem konvexen Optimierungsproblem.
Definition 6.20 (Slater-Bedingung). Wir sagen, das Minimierungsproblem (6.11) mit
b ∈ X existiert mit
erfüllt die Slater-Bedingung, wenn ein x
gj (b
x) < 0,
für alle 1 ≤ j ≤ p,
Ab
x = b,
b ist strikt zulässig bzgl. der Ungleichungsrestriktionen.
d.h. I(b
x) = ∅, x
32
(6.12)
6.1. Lösungstheorie und Optimalitätskriterien
Die Slater-Bedingung bedeutet geometrisch, dass der zulässige Bereich einen inneren
Punkt bezüglich der Ungleichungsrestriktionen enthält. Dies erscheint zunächst als relativ
schwache Bedingung, allerdings wurde ja auch zusätzlich die Konvexität des zulässigen
Bereichs vorausgesetzt. Um zu zeigen, dass lokale Minima von (6.11) unter der SlaterBedingung auch die KKT-Bedingungen 6.9 erfüllen, benutzen wir folgenden Hilfssatz.
Lemma 6.21. Sei X := {x ∈ Rn : g(x) ≤ 0, Ax = b} der zulässige Bereich von (6.11),
Betrachte zu jedem x ∈ X die Menge
TXstrict (x) := d ∈ Rn : h∇gj (x), di < 0 für alle j ∈ I(x), Ad = 0 ⊆ TXlin (x). (6.13)
Dann gilt TXstrict (x) ⊆ TX (x).
Beweis: Seien x ∈ X und d ∈ TXstrict (x). Setze x(k) := x + k1 d für alle k ∈ N, mit
(k)
x(k) → x und x 1/k−x = d → d für k → ∞. Es gilt x(k) ∈ X für genügend große k. Denn
die Gleichungsrestriktion ist für alle k erfüllt,
Ax(k) = |{z}
Ax + k1 |{z}
Ad = 0.
=b
=0
Für die Ungleichungsrestriktion überlegen wir uns zunächst, dass für jedes 1 ≤ j ≤ p
und k ∈ N wegen des Mittelwertsatzes ξ (j,k) ∈ [x, x(k) ] existieren, so dass
gj (x(k) ) = gj (x) + ∇g(ξ (j,k) ), x(k) − x = gj (x) + k1 ∇g(ξ (j,k) ), d .
Falls j ∈ I(x), folgt gj (x) = 0 und ∇g(ξ (j,k) ), d < 0 für genügend große k wegen
∇gj (x), d < 0 und ξ (j,k) → x für k → ∞, also gj (x(k) ) ≤ 0 ab k ≥ k0 = k0 (j). Falls
j∈
/ I(x), folgt gj (x) < 0 und k1 ∇g(ξ (j,k) ), d → 0 für k → ∞, also wieder gj (x) ≤ 0 ab
k ≥ k0 = k0 (j), und insgesamt d ∈ TX (x).
Satz 6.22. Das Minimierungsproblem (6.11) erfülle die Slater-Bedingung. Dann folgt
ACQ(x) für alle zulässigen x.
Beweis: Zu X := {x ∈ Rn : g(x) ≤ 0, Ax = b} rechnen wir gemäß Lemma 6.7 nur
b ∈ X ein strikt zulässiger Punkt aus der
⊆ TX (x) für alle x ∈ X nach. Sei dazu x
lin
b := x
b − x. Aus der Konvexität
Slater-Bedingung (6.12), und sei d ∈ TX (x). Wir setzen d
der Funktionen gj folgt mit Satz 3.3 über die Charakterisierung der Konvexität stetig
differenzierbarer Funktionen zunächst für alle j ∈ I(x) = {1 ≤ j ≤ p : gj (x) = 0}
b ≤ gj (b
∇gj (x), d
x) − gj (x) = gj (b
x) < 0.
| {z }
TXlin (x)
=0
Ferner gilt für alle 1 ≤ k ≤ q wegen ∇hk (y) = A> ek
b = hA> ek , di
b = hek , Ab
∇hk (x), d
x i − hek , |{z}
Ax i = 0,
|{z}
=b
=b
33
6. Numerische Verfahren für restringierte Optimierungsaufgaben
b ∈ T strict (x) mit dem strikten Tangentialkegel aus (6.13). Analog erfüllt auch der
also d
X
Vektor
b für alle δ > 0,
d(δ) := d + δ d,
für jedes feste δ > 0 die Ungleichungen
∇gj (x), d(δ) < 0, für alle j ∈ I(x),
∇hk (x), d(δ) = 0,
für alle 1 ≤ k ≤ q,
und damit d(δ) ∈ TXstrict (x) für alle δ > 0. Lemma 6.21 liefert daher d(δ) ∈ TX (x) für alle
δ > 0 und wegen der Abgeschlossenheit des Tangentialkegels d = limδ→0 d(δ) ∈ TX (x).
Die Minimalität von KKT-Punkten bei einem konvexen Minimierungsproblem der Form
(6.11) folgt bereits, ohne die Slater-Bedingung zu benutzen.
Satz 6.23. Sei (x∗ , λ∗ , µ∗ ) ∈ Rn × Rp+ × Rq ein KKT-Punkt von (6.11). Dann ist x∗ ein
globales Minimum von f auf X := {x ∈ Rn : g(x) ≤ 0, Ax = b}.
Beweis: Für einen KKT-Punkt (x∗ , λ∗ , µ∗ ) ∈ Rn × Rp+ × Rq von (6.11) gilt wegen der
Konvexität von f und gj für alle x ∈ Rn
f (x) ≥ f (x∗ ) + ∇f (x∗ ), x − x∗
p
q
D X
E
X
= f (x∗ ) + −
λ∗j ∇gj (x∗ ) −
µ∗k ∇hk (x∗ ), x − x∗
| {z }
j=1
= f (x∗ ) −
p
X
k=1
λ∗j ∇gj (x∗ ), x − x∗ −
j=1
= f (x∗ ) −
X
=A> ek
q
X µ∗k ek , A(x −
| {z
k=1
=0
x∗ )
}
X
λ∗j ∇gj (x∗ ), x − x∗
λ∗j
∇gj (x∗ ), x − x∗ +
{z
}
|{z}
|{z} |
1≤j≤p
1≤j≤p
∗
j∈I(x∗ ) ≥0 ≤gj (x)−gj (x )=gj (x)≤0
∗ ) =0
j ∈I(x
/
≥ f (x∗ ),
d.h. x∗ ist ein globales Minimum von f auf X.
Korollar 6.24. Bei einem Minimierungsproblem
min f (x),
Ax≤b
Cx=d
f ∈ C 1 (Rn ) konvex, A ∈ Rp×n , b ∈ Rp , C ∈ Rq×n , d ∈ Rq
(6.14)
ist ein zulässiger Punkt x∗ genau dann ein (lokales=globales) Minimum, wenn LagrangeMultiplikatoren λ∗ ∈ Rp+ und µ∗ ∈ Rq existieren, so dass (x∗ , λ∗ , µ∗ ) ein KKT-Punkt
von (6.14) ist.
Beweis: Wegen der polyedrischen Nebenbedingungen ist nach Lemma 6.10 die Regularitätsbedingung ACQ(x∗ ) erfüllt, so dass die Existenz von Lagrange-Multiplikatoren
mit Satz 6.14 folgt. Satz 6.23 liefert umgekehrt die Minimalität von KKT-Punkten.
34
7. Dualität
Wir betrachten in diesem Kapitel ein allgemeines Optimierungsproblem der Form
min f (x),
g(x)≤0
h(x)=0
x∈M
f : Rn → R, g : Rn → Rp , h : Rn → Rq , ∅ =
6 M ⊆ Rn .
(7.1)
Dabei modelliert M ⊆ Rn Restriktionen, die sich nicht durch Gleichungen oder Ungleichungen ausdrücken lassen, z.B. strikte Ungleichungen oder Ganzzahligkeit. Ziel der
Dualitätstheorie ist es, durch Zuordnung eines dualen Optimierungsproblems zum primalen Problem (7.1) untere Schranken für den Optimalwert der Zielfunktion f zu gewinnen, sowie Optimalitätskriterien zu entwickeln. Duale Optimierungsprobleme sind häufig
leichter zu lösen als die entsprechenden primalen Probleme.
7.1. Lagrange-Dualität
Wie üblich sei
L(x, λ, µ) := f (x) + λ, g(x) + µ, h(x) ,
für alle (x, λ, µ) ∈ Rn × Rp+ × Rq ,
die Lagrange-Funktion von (7.1). Wir erinnern uns an die Sattelpunktbedingung
für alle (x, λ, µ) ∈ Rn × Rp+ × Rq . (7.2)
L(x∗ , λ, µ) ≤ L(x∗ , λ∗ , µ∗ ) ≤ L(x, λ∗ , µ∗ ),
Bei konvexen Optimierungsproblemen mit stetig differenzierbarer Zielfunktion ist (7.2)
äquivalent zu den KKT-Bedingungen und hinreichend für Optimalität von (x∗ , λ∗ , µ∗ )
(Sattelpunktsatz).
Definition 7.1. Die Funktion
ϕ(λ, µ) := inf L(x, λ, µ),
x∈M
für alle (λ, µ) ∈ Rp+ × Rq ,
(7.3)
heißt duale Funktion von (7.1). Das Optimierungsproblem
max
(λ,µ)∈Rp+ ×Rq
ϕ(λ, µ)
(7.4)
heißt (Lagrange-)duales Problem zum primalen Problem (7.1).
Bemerkung 7.2. (i) Das duale Problem (7.4) hat sehr einfache Restriktionen, allerdings ist die duale Funktion ϕ im Allgemeinen nur schwer zu berechnen.
35
7. Dualität
(ii) ϕ ist im Allgemeinen nicht differenzierbar und auch nicht für alle Argumente endlich. Wir setzen
dom(ϕ) := (λ, µ) ∈ Rp+ × Rq : ϕ(λ, µ) > −∞}.
(7.5)
Beispiel 7.3.
(i) Wir betrachten zunächst lineare Programme, z.B. in der Normalform
A ∈ Rq×n ,
min hc, xi,
Ax=b
x≥0
b ∈ Rq ,
c ∈ Rn ,
M := Rn .
(7.6)
Die Lagrange-Funktion zu (7.6) lautet z.B.
L(x, λ, µ) = hc, xi − hλ, xi + hµ, b − Axi,
für alle (x, λ, µ) ∈ Rn × Rn+ × Rq ,
wobei man bei der Gleichheitsrestriktion auch das umgekehrte Vorzeichen wählen
könnte, d.h.
e λ, µ) = hc, xi − hλ, xi + hµ, Ax − bi,
L(x,
für alle (x, λ, µ) ∈ Rn × Rn+ × Rq .
Beide Lagrange-Funktionen führen im Wesentlichen auf das gleiche duale Problem.
Die duale Funktion ϕ zu L lautet
ϕ(λ, µ) = infn L(x, λ, µ)
x∈R
= infn hc − λ − A> µ, xi + hµ, bi
x∈R
(
−∞
, c − λ − A> µ 6= 0
=
,
hµ, bi , c − λ − A> µ = 0
so dass
dom(ϕ) = (λ, µ) : λ ≥ 0, λ = c − A> µ
= (c − A> µ, µ) : A> µ ≤ c
und das duale Problem hat die Form
max
q
(λ,µ)∈Rn
+ ×R
ϕ(λ, µ) =
max
λ=c−A> µ≥0,µ∈Rq
ϕ(λ, µ) = max hµ, bi,
A> µ≤c
(7.7)
was genau dem dualen linearen Programm aus Kapitel 5 entspricht. Wählt man
e erhält man analog das duale Programm
stattdessen die Lagrange-Funktion L,
max
A> µ≥−c
−hµ, bi
e :=−µ
µ
⇔
max he
µ, bi.
e ≤c
A> µ
(ii) Beim Minimierungsproblem
min
x21 +x22 −1≤0
36
(x21 − x22 ),
M := R2 ,
7.1. Lagrange-Dualität
ist die Zielfunktion f (x) := x21 − x22 nicht konvex, wohl aber die Nebenbedingungsfunktion g(x) := x21 + x22 − 1. Die duale Funktion lautet
ϕ(λ) = inf x21 − x22 + λ(x21 + x22 − 1)
x∈R2
= inf (1 + λ)x21 + (λ − 1)x22 − λ
x∈R2
(
−∞ , 0 ≤ λ < 1
=
, für alle λ ≥ 0,
−λ , λ ≥ 1
also dom(ϕ) = [1, ∞) mit dualem Programm
max ϕ(λ) = ϕ(1) = −1.
λ≥0
Wir beachten, dass f (x) = x21 − x22 auf X = {x ∈ R2 : x21 + x22 − 1 ≤ 0} minimal
wird bei x = (0, ±1)> mit f (0, ±1) = −1, denn
f (x) = x21 − x22 ≥ x21 − (1 − x21 ) = 2x21 − 1 ≥ −1,
für alle x ∈ X,
und damit
min f (x) = max ϕ(λ).
x∈X
λ≥0
(iii) Beim Minimierungsproblem
min
(−x1 ),
x1 +x2 −3=0
x∈M
M := ( 00 ), ( 21 ), ( 12 ), ( 40 ), ( 04 ) ,
ist die Zielfunktion f (x) = −x1 linear und damit konvex. Die Nebenbedingung ist
konvex, allerdings nicht die diskrete Extra-Nebenbedingungsmenge M . Für die duale
Funktion rechnen wir
ϕ(µ) = min − x1 + µ(x1 + x2 − 3)
x∈M
= min{−3µ, −2, −1, −4 + µ, µ}
(
−4 + µ , µ ≤ 1
=
, für alle µ ∈ R,
−3µ
, µ>1
also dom(ϕ) = R mit dualem Programm
max ϕ(µ) = −3.
µ∈R
Wegen
min f (x) =
x∈M
min
(−x1 ) = −2 > −3
x1 +x2 −3=0
x∈M
liegt eine sogenannte Dualitätslücke vor, d.h. das duale Programm hat einen echt
schlechteren Optimalwert als das primale Programm.
37
7. Dualität
7.2. Dualitätssätze
Satz 7.4 (Schwache Dualität). Für alle x ∈ X := {x ∈ Rn : g(x) ≤ 0, h(x) = 0, x ∈ M }
und (λ, µ) ∈ Rp+ × Rq gilt
ϕ(λ, µ) ≤ f (x),
(7.8)
also auch
sup D ≤ inf P,
(7.9)
wobei
D := ϕ(λ, µ) : (λ, µ) ∈ Rp+ × Rq .
P := f (x) : x ∈ X ,
Beweis: Für alle x ∈ X ⊆ M und (λ, µ) ∈
Rp+
(7.10)
× Rq rechnen wir
ϕ(λ, µ) = inf L(z, λ, µ)
z∈M
≤ L(x, λ, µ)
= f (x) + |{z}
λ , g(x) + µ, h(x)
|{z}
| {z }
≥0
≤0
=0
≤ f (x),
also gilt (7.8). (7.9) folgt direkt aus (7.8) durch Supremums- bzw. Infimumsbildung.
Bevor wir versuchen, die Gleichheit in (7.9) unter Zusatzvoraussetzungen zu zeigen, notieren wir noch einfache Eigenschaften der dualen Funktion aus (7.3).
Lemma 7.5. Es gilt für die duale Funktion ϕ aus (7.3):
(i) Die Menge dom(ϕ) ist konvex.
(ii) ϕ : dom(ϕ) → R ist konkav, d.h. −ϕ ist konvex.
Beweis: Für (λ(j) , µ(j) ) ∈ dom(ϕ) j ∈ {1, 2} und α ∈ (0, 1) gilt αλ(1) +(1−α)λ(2) ≥ 0
sowie
ϕ αλ(1) + (1 − α)λ(2) , αµ(1) + (1 − α)µ(2)
= inf L x, αλ(1) + (1 − λ)λ(2) , αµ(1) + (1 − α)µ(2)
x∈M
= inf f (x) + αλ(1) + (1 − α)λ(2) , g(x) + αµ(1) + (1 − α)µ(2) , h(x)
x∈M
= inf αL(x, λ(1) , µ(1) ) + (1 − α)L(x, λ(2) , µ(2) )
x∈M
≥ α inf L(x, λ(1) , µ(1) ) + (1 − α) inf L(y, λ(2) , µ(2) )
x∈M
= αϕ(λ
(1)
y∈M
(1)
,µ
) + (1 − α)ϕ(λ
(2)
, µ(2) )
> −∞,
also insbesondere α(λ(1) , µ(1) ) + (1 − α)(λ(2) , µ(2) ) ∈ dom(ϕ), d.h. (i), und ϕ ist konkav,
d.h. (ii).
38
7.2. Dualitätssätze
Satz 7.6 (Starke Dualität). Seien M ⊆ Rn nichtleer und konvex, f : Rn → R und
gj : Rn → R konvex für 1 ≤ j ≤ p, und sei h(x) = Ax − b mit A ∈ Rq×n , b ∈ Rq .
b ∈ M,
Falls inf(P ) > −∞, d.h. ist das primale Problem beschränkt, und existiert ein x
b mit
das zum relativen Inneren von M gehört (d.h. es existiert eine offene Kugel U 3 x
U ∩ aff(M ) ⊆ M ) sowie die Slater-Bedingung erfüllt, d.h.
gj (b
x) < 0,
für alle 1 ≤ j ≤ m,
h(b
x) = 0,
(7.11)
so ist das duale Problem (7.4) lösbar, mit
sup(D) = inf(P ).
(7.12)
Beweis:
1. Seien zunächst die Zeilen A> ej , 1 ≤ j ≤ 1, linear unabhängig, und es gelte
int(M ) 6= ∅. Wir setzen
Q := (y, z, w) ∈ Rp × Rq × R : ∃x ∈ M : g(x) ≤ y, h(x) = z, f (x) ≤ w .
Dann ist Q konvex, da f und alle gj konvex sind und h affin-linear ist. Außerdem
gilt Q 6= ∅, da M 6= ∅. Betrachte den Punkt (0, 0, inf(P )) ∈ Rp × Rq × R. Dies ist
kein innerer Punkt von Q, da sonst auch (0, 0, inf(P ) − δ) ∈ Q gelten müsste für
ein δ > 0, im Widerspruch zur Minimalität von inf(P ). Somit existiert eine Q und
(0, 0, inf(P )) trennende Hyperebene, d.h. (λ∗ , µ∗ , γ ∗ ) ∈ (Rp × Rq × R) \ {0} mit
R 3 γ ∗ inf(P ) ≤ hλ∗ , yi + hµ∗ , zi + γ ∗ w,
für alle (y, z, w) ∈ Q.
Da mit (y, z, w) ∈ Q und τ > 0 auch (y, z, w + τ ) ∈ Q gilt, muss γ ∗ ≥ 0 sein,
ansonsten könnte man die rechte Seite der Trennungsungleichung gegen −∞ schicken, im Widerspruch zu γ ∗ inf(P ) ∈ R. Analoges gilt auch für die Komponenten
von y: Mit (y, z, w) ∈ Q und τ > 0 ist auch (y + τ ej , z, w) ∈ Q für 1 ≤ j ≤ p, so
dass λ∗j ≥ 0 gelten muss. Wir zeigen jetzt, dass γ ∗ > 0 gilt. Angenommen, dies sei
nicht der Fall und es gelte γ ∗ = 0. Dann folgt aus der Trennungsungleichung für
alle y = g(x), z = h(x)
0 ≤ hλ∗ , yi + hµ∗ , zi = λ∗ , g(x) + µ∗ , h(x) .
b ∈ M aus (7.11) erhalten wir
Speziell für x
0 ≤ λ∗ , g(b
x) + µ∗ , h(b
x) ,
|{z}
| {z }
<0
=0
also λ∗ = 0. Rückeinsetzen liefert wegen h(b
x) = 0
0 ≤ µ∗ , h(x) = µ∗ , h(x) − h(b
x)
b)
= µ∗ , A(x − x
bi,
= hA> µ∗ , x − x
für alle x ∈ M.
39
7. Dualität
b ist ein innerer Punkt von M . Für
Wegen int(M ) 6= ∅ gilt aff(M ) = Rn , d.h. x
b ± δj ej ∈ M für alle 1 ≤ j ≤ n und daher
hinreichend kleine δj > 0 gilt somit x
0 ≤ hA> µ∗ , ±δj ej i = ±δj (A> µ∗ )j ,
für alle 1 ≤ j ≤ n,
d.h. A> µ∗ = 0. Da die Zeilen von A linear unabhängig sind, folgt µ∗ = 0, also
(λ∗ , µ∗ , γ ∗ ) = 0 im Widerspruch zum Trennungssatz. Also gilt doch γ ∗ > 0.
Wir wählen o.B.d.A. γ ∗ = 1, nach Streckung des Normalenvektors (λ∗ , µ∗ , γ ∗ ). Aus
der Trennungsungleichung erhalten wir für alle y = g(x), z = h(x) und w = f (x)
mit x ∈ M
∗
inf(P ) ≤ hλ∗ , yi + hµ∗ , zi + w = |{z}
λ , g(x) + µ∗ , h(x) + f (x),
| {z }
|{z}
≥0
≤0
=0
also auch
inf(P ) ≤ inf L(x, λ∗ , µ∗ ) = ϕ(λ∗ , µ∗ ) ≤
x∈M
sup
ϕ(λ, µ) = sup(D).
(λ,µ)∈Rp+ ×Rq
Der schwache Dualitätssatz 7.4 liefert somit (7.12).
2. Sind die Zeilen A> ej , 1 ≤ j ≤ p, von A linear abhängig, aber noch int(M ) 6= ∅,
kann man das Problem durch Elimination redundanter Gleichheitsrestriktionen auf
Fall 1 zurückführen, denn das lineare Gleichungssystem Ax = b besitzt nach (7.11)
b. Ist J ⊆ {1, . . . , p} die Menge der Indizes redundanter,
zumindest die Lösung x
weggelassener Gleichungen (Ax)j = bj , so kann man durch Auffüllen des LagrangeMultiplikators µ∗ aus 1. mit µ∗j := 0 für alle j ∈ J in den letzten Beweisschritt von
1. einsteigen und ebenfalls inf(P ) ≤ sup(D) zeigen, woraus mit schwacher Dualität
(7.12) folgt.
3. Sei schließlich int(M ) = ∅, d.h. aff(M ) sei ein affiner, echter Unterraum von Rn
mit Dimension s. Dann existiert eine Matrix C ∈ Rn×s vom Rang s und ein Vektor
d ∈ Rn mit der Parametrisierung
aff(M ) = {ψ(u) := Cu + d : u ∈ Rs }.
Betrachtet man das Urbild U := ψ −1 (M ) ⊆ Rs und definiert fe := f ◦ψ, gej := gj ◦ψ
sowie e
hk := hk ◦ ψ für 1 ≤ j ≤ p und 1 ≤ k ≤ q, so ist das Minimierungsproblem
min fe(u)
e(u)≤0
g
e
h(u)=0
u∈U
äquivalent zum ursprünglichen Minimierungsproblem (7.1), und die Bedingungen
b := ψ −1 (b
b nach
für Fall 1. sind erfüllt. Denn u
x) ist ein innerer Punkt von U , da x
Voraussetzung zum relativen Inneren von M gehört.
40
8. Nichtglatte konvexe Optimierung
Wir diskutieren jetzt nichtglatte, konvexe Optimierungsprobleme
X ⊆ Rn konvex ,
min f (x),
x∈X
f : X → R konvex.
(8.1)
Um Optimalitätsbedingungen im nichtglatten Fall herzuleiten, benötigen wir einen verallgemeinerten Ableitungsbegriff, da konvexe Funktionen nicht überall differenzierbar
sind und daher die KKT-Bedingungen glatter Optimierungsbedingungen hier nicht ohne
weiteres formulierbar sind.
8.1. Konvexes Subdifferential
Wir beobachten zunächst, dass konvexe Funktionen auf offenen Mengen lokal Lipschitzstetig sind.
Satz 8.1. Seien ∅ 6= X ⊆ Rn konvex und f : X → R konvex. Dann ist f auf int(X)
lokal Lipschitz-stetig.
Beweis: Sei x ∈ int(X). Dann existiert wegen der Offenheit von int(X) ein δ > 0, so
dass S := {y ∈ Rn : kx − yk∞ ≤ 2δ} ⊆ X. Die Menge S ist ein konvexer, beschränkter
Polyeder mit N := 2n Ecken v(1) , . . . , v(N ) , und es gilt S = conv{v(1) , . . . , v(N ) }. Jedes
y ∈ S sieht also aus wie
y=
N
X
λj v
(j)
,
N
X
λj ≥ 0,
j=1
λj = 1.
j=1
Es folgt mit Hilfe der Jensen-Ungleichung wegen der Konvexität von f
f (y) = f
N
X
λj v
(j)
j=1
≤
N
X
j=1
λj f (v
(j)
) ≤ max f (v
1≤k≤N
{z
|
=:M
(k)
N
X
)
λj = M,
} j=1
| {z }
für alle y ∈ S,
=1
d.h. f ist auf S nach oben durch M beschränkt. Definiert man zu y ∈ S den an x
gespiegelten Vektor z := x − (y − x) = 2x − y ∈ S, so folgt wegen der Konvexität von f
y + z 1
1
1
M
f (x) = f
≤ f (y) + f (z) ≤ f (y) +
,
2
2
2
2
2
also die untere Schranke
f (y) ≥ 2f (x) − M =: m,
für alle y ∈ S.
41
8. Nichtglatte konvexe Optimierung
Wir erhalten also
m ≤ f (y) ≤ M,
für alle y ∈ S.
Seien jetzt u, v ∈ Rn mit u 6= v sowie ku − xk2 ≤ δ und kv − xk2 ≤ δ. Setzt man
y := v + δ
so folgt
v−u
,
kv − uk2
v−u ky − xk2 ≤ kv − xk2 +δ ≤ 2δ,
| {z }
kv − uk2 2
|
{z
}
≤δ
=1
also y ∈ S wegen k · k∞ ≤ k · k2 . Mit der Beobachtung
v=
δ
kv − uk2
y+
u
δ + kv − uk2
δ + kv − uk2
erhalten wir wegen der Konvexität von f und den Schranken von f auf S
kv − uk2
δ
f (y) +
f (u) − f (u)
δ + kv − uk2
δ + kv − uk2
kv − uk2
=
f (y) − f (u)
δ + kv − uk2 |
{z
}
f (v) − f (u) ≤
≤M −m
M −m
≤
kv − uk2 .
δ
Vertauscht man die Rollen von v und u, erhält man wie behauptet
f (v) − f (u) ≤ M − m kv − uk2 ,
δ
für alle u, v ∈ Rn , ku − xk2 ≤ δ, kv − xk2 ≤ δ.
Bemerkung 8.2. Eine konvexe Funktion f : X → R auf einer konvexen Menge X ⊆ Rn
ist im Allgemeinen nur auf dem Inneren von X stetig, was man an der konvexen Funktion
f : [0, 1] → R,
(
0 , 0≤x<1
f (x) :=
1 , x=1
sehen kann.
Nach dem Satz von Rademacher ist jede lokal Lipschitz-stetige Funktion f : X → R
bereits fast überall (klassisch) differenzierbar. Für unsere Zwecke wird allerdings der folgende Hilfssatz über die Richtungsdifferenzierbarkeit konvexer Funktionen entscheidender
sein.
42
8.1. Konvexes Subdifferential
Lemma 8.3. Seien X ⊆ Rn offen und konvex, f : X → R konvex, x ∈ X und d ∈ Rn .
Dann gilt:
(i) Der Differenzenquotient
f (x + td) − f (x)
t
ist für alle 0 < t ≤ t0 = t0 (x, d) definiert und auf diesem Laufbereich monoton
wachsend.
q(t) :=
(ii) Die Richtungsableitung
f 0 (x; d) := lim q(t)
t&0
von f in x in Richtung d existiert, und es gilt mit t0 > 0 aus (i)
f 0 (x; d) = inf q(t).
(8.2)
0<t<t0
Beweis:
(i) Ist x ∈ X, und d ∈ Rn beliebig, so ist x + td ∈ X für alle hinreichend kleinen
0 < t ≤ t0 (x, d), da X offen ist. Folglich ist der Differenzenquotient q(t) für alle
0 < t ≤ t0 wohldefiniert. Seien dann 0 < t1 < t2 ≤ t0 . Aus der Konvexität von f
folgt
f (x + t1 d) = f tt21 (x + t2 d) + (1 − tt12 )x ≤ tt12 f (x + t2 d) + (1 − tt12 )f (x),
also nach Umstellen und Division durch t1 > 0
f (x + t1 d) − f (x)
f (x + t2 d) − f (x)
≤
.
t1
t2
|
{z
} |
{z
}
=q(t1 )
=q(t2 )
(ii) Wegen der nach (i) geltenden Monotonie von q auf seinem Definitionsbereich (0, t0 )
reicht es für die Existenz der Richtungsableitung f 0 (x; d), die Beschränktheit von
q nach unten zu zeigen. Seien dazu x ∈ X sowie s, t > 0 mit x − sd, x + td ∈ X
gegeben. Wir rechnen mit der Konvexität von f
t
s
t
s
f (x) = f s+t
(x − sd) + s+t
(x + td) ≤ s+t
f (x − sd) + s+t
f (x + td),
also nach Umstellen und Multiplikation mit
s+t
st
=
1
s
+
1
t
>0
f (x + td) − f (x)
f (x) − f (x − sd)
≥
.
t
s
|
{z
}
=q(t)
Da die rechte Seite nicht von t abhängt, gilt auch noch
inf q(t) ≥
0<t<t0
f (x) − f (x − sd)
> −∞,
s
so dass f 0 (x; d) = limt&0 q(t) existiert. Die Monotonie von q liefert daher (8.2).
43
8. Nichtglatte konvexe Optimierung
Definition 8.4 (konvexes Subdifferential/Subgradient). Seien X ⊆ Rn offen und konvex, f : X → Rn konvex und x ∈ X. Dann heißt s ∈ Rn Subgradient von f in x,
falls
f (y) ≥ f (x) + hs, y − xi, für alle y ∈ Rn ,
(8.3)
d.h. wenn der Graph von f oberhalb der Hyperebene {(y, f (x) + hs, y − xi) : y ∈ Rn }
liegt. Die Menge aller Subgradienten von f in x wird als (konvexes) Subdifferential ∂f (x)
bezeichnet, d.h.
∂f (x) = s ∈ Rn : f (y) ≥ f (x) + hs, y − xi für alle y ∈ Rn .
Bemerkung 8.5. Sei f : X → R konvex und differenzierbar in x ∈ X. Dann folgt
∇f (x) ∈ ∂f (x), denn die Gradienten konvexer Funktionen sind monoton. Gilt umgekehrt
s ∈ ∂f (x), so folgt nach Definition eines Subgradienten (8.3), also für y := x + td mit
beliebigen t > 0 und d ∈ Rn
f (x + td) ≥ f (x) + ths, di
⇔
f (x + td) − f (x)
≥ hs, di,
t
also nach Grenzübergang t → 0 wegen der Differenzierbarkeit von f bei x
∇f (x), d ≥ hs, di, für alle d ∈ Rn .
Wählt man d := s − ∇f (x), so erhält man
∇f (x), s − ∇f (x) ≥ s, s − ∇f (x)
und damit ks − ∇f (x)k2 ≤ 0, d.h. s = ∇f (x).
Beispiel 8.6. Wir berechnen das Subdifferential der Betragsfunktion f (x) = |x|. f ist
x
offenbar konvex. Für x 6= 0 ist f bei x differenzierbar mit f 0 (x) = sgn(x) = |x|
, also gilt
∂f (x) = {sgn(x)}. Für x = 0 rechnen wir
∂f (0) = s ∈ R : |y| ≥ sy für alle y ∈ R
= s ∈ R : |y| ≥ sy für alle y ∈ R \ {0}
= s ∈ R : −1 ≤ s ≤ 1
= [−1, 1],
also insgesamt


{−1}
∂f (x) = [−1, 1]


{1}
44
, x<0
, x=0.
, x>0
8.1. Konvexes Subdifferential
Den Zusammenhang zwischen Richtungsableitung und Subdifferential stellt der folgende Satz her.
Satz 8.7. Seien ∅ =
6 X ⊆ Rn offen und konvex, f : X → R konvex und x ∈ X. Dann
gilt:
(i) ∂f (x) ist nichtleer, konvex und kompakt;
(ii) ∂f (x) = {s ∈ Rn : hs, di ≤ f 0 (x; d) für alle d ∈ Rn };
(iii) f 0 (x; d) = max hs, di für alle d ∈ Rn .
s∈∂f (x)
Beweis:
(ii) Die Richtungsableitung f 0 (x; d) existiert für alle x ∈ X und d ∈ Rn nach Lemma
8.3, da f konvex ist. Die behauptete Charakterisierung folgt aus der Äquivalenz
s ∈ ∂f (x) ⇔ f (y) ≥ f (x) + hs, y − xi für alle y ∈ X
⇔ f (x + td) ≥ f (x) + hs, tdi für alle d ∈ Rn , t > 0, x + td(=: y) ∈ X
f (x + td) − f (x)
⇔
≥ hs, di für alle d ∈ Rn , t > 0, x + td(=: y) ∈ X,
t
so dass Lemma 8.3 die Behauptung liefert,
s ∈ ∂f (x) ⇔ f 0 (x; d) =
inf
t>0
x+td∈X
f (x + td) − f (x)
≥ hs, di für alle d ∈ Rn .
t
(i) Wegen (ii) gilt die Darstellung
∂f (x) =
\ s ∈ Rn : hs, di ≤ f 0 (x; d)
d∈Rn
von ∂f (x) als unendlicher Schnitt abgeschlossener Halbräume
s ∈ Rn : hs, di ≤ f 0 (x; d)
mit Normalenvektoren d ∈ Rn . Also ist ∂f (x) abgeschlossen und konvex.
Für die Beschränktheit von ∂f (x) beobachtet man, dass wegen (ii) für alls s ∈ ∂f (x)
gilt
(
sk = hs, ek i ≤ f 0 (x; ek )
, für alle 1 ≤ k ≤ n,
−sk = hs, −ek i ≤ f 0 (x; −ek )
so dass ∂f (x) beschränkt ist mit
ksk∞ ≤ max max f 0 (x; ek ), f 0 (x; −ek ) ,
1≤k≤n
für alle s ∈ ∂f (x).
Nach dem Satz von Heine-Borel ist ∂f (x) kompakt.
45
8. Nichtglatte konvexe Optimierung
Die Existenz von Subgradienten zeigt man mit Hilfe eines Trennungsarguments.
Betrachte dazu zu beliebigem d ∈ Rn die Mengen
K1 := (y, z) ∈ X × R : f (y) < z ,
K2 := (x + td, f (x) + tf 0 (x; d)) ∈ X × R : t > 0}.
Dabei ist K1 der (offene) Epigraph von f , d.h. alle Punkte strikt oberhalb des Graphen von f . K2 ist ein von (x, f (x)) ausgehender Strahl in Richtung (d, f 0 (x; d)),
wobei der Startpunkt (x, f (x)) ausgenommen ist. Beide Mengen K1 und K2 sind
offensichtlich nichtleer (wegen X 6= ∅) und konvex. So gilt z.B. für (y, z), (e
y , ze) ∈ K1
und 0 < λ < 1, dass
λz + (1 − λ)e
z > λf (y) + (1 − λ)f (e
y) ≥ f λy + (1 − λ)e
y ,
also λ(y, z) + (1 − λ)(e
y, ze) ∈ K1 . Der Strahl K2 ist konvex als affines Bild der
offenen, konvexen Halbgerade (0, ∞). Weiter sind die Mengen K1 und K2 disjunkt.
Denn aus (y, z) ∈ K1 ∩ K2 folgt mit y = x + td für t > 0 und d ∈ Rn , dass
f (x + td) = f (y) < z = f (x) + tf 0 (x; d)
und somit
f (x + td) − f (x)
< f 0 (x; d),
t
im Widerspruch zu (8.2). Somit sind K1 , K2 nichtleer, konvex und disjunkt, d.h. es
existiert ein Normalenvektor (s, γ) ∈ (Rn × R) \ {0}, so dass
hs, yi+γz ≤ hs, x+tdi+γ f (x)+tf 0 (x; d) , für alle y ∈ X, z ∈ R, z > f (y), t > 0.
Wir behaupten, dass hierin γ < 0 gilt. Denn gälte γ > 0, könnte man mit y := x
folgern, dass
γz ≤ hs, tdi + γ f (x) + tf 0 (x; d) , für alle z ∈ R, z > f (x), t > 0,
also mit t & 0
γz ≤ γf (x), für alle z ∈ R, z > f (x),
was wegen γ > 0 ein Widerspruch wäre. Gälte γ = 0, so folgt ähnlich
hs, yi ≤ hs, x + tdi, für alle y ∈ X, t > 0,
also mit t & 0
hs, yi ≤ hs, xi, für alle y ∈ X,
also insbesondere für y := x + δs ∈ X mit hinreichend kleinem δ > 0
hs, x + δsi ≤ hs, xi
46
⇔
δksk22 ≤ 0
8.1. Konvexes Subdifferential
und somit der Widerspruch s = 0. Also gilt doch γ < 0 und daher o.B.d.A. γ = −1,
durch Normierung des Normalenvektors (s, γ) der trennenden Hyperebene. Wir
erhalten die Ungleichung
hs, yi − z ≤ hs, x + tdi − f (x) + tf 0 (x; d) , für alle y ∈ X, z ∈ R, z > f (y), t > 0,
also mit t & 0 und z & f (y)
hs, yi − f (y) ≤ hs, xi − f (x), für alle y ∈ X,
d.h.
f (y) ≥ f (x) + hs, y − xi, für alle y ∈ X
und damit s ∈ ∂f (x).
(iii) Setzt man in der in Teil (i) auftauchenden Ungleichung für die trennende Hyperebene y := x, erhält man für das dort berechnete s ∈ ∂f (x)
−z ≤ hs, tdi − f (x) + tf 0 (x; d) , für alle z > f (x), t > 0,
also mit z & f (x)
0 ≤ hs, tdi − tf 0 (x; d), für alle t > 0,
und somit
f 0 (x; d) ≤ hs, di.
Die Charakterisierung aus (ii) liefert wegen f 0 (x; d) ≥ hu, di für alle u ∈ ∂f (x) die
Behauptung (iii).
Mit diesen Hilfsmitteln kann man Optimalitätskriterien für (unrestringierte) konvexe
Minimierungsprobleme angeben.
Satz 8.8. Seien ∅ 6= X ⊆ Rn offen und konvex, f : X → R konvex und x∗ ∈ X. Dann
sind äquivalent:
(i) f nimmt in x∗ sein globales Minimum über X an, d.h. es gilt f (x∗ ) ≤ f (x) für alle
x ∈ X;
(ii) 0 ∈ ∂f (x∗ );
(iii) f 0 (x∗ , d) ≥ 0 für alle d ∈ Rn .
Beweis: Es gelte zunächst (i), d.h. x∗ ∈ X sei ein globales Minimum von f auf X. Da
X offen ist, gilt für festes d ∈ Rn , dass x∗ + td ∈ X und damit f (x∗ + td) ≥ f (x∗ ) für
alle hinreichend kleinen t > 0. Es folgt
f (x∗ + td) − f (x∗ )
≥ 0,
t&0
t
f 0 (x∗ , d) = lim
für alle d ∈ Rn ,
47
8. Nichtglatte konvexe Optimierung
und damit (iii).
Es gelte (iii). Sei also x∗ ∈ X mit f 0 (x∗ , d) ≥ 0 = h0, di für alle d ∈ Rn . Nach der
Charakterisierung von ∂f (x) aus Satz 8.7(ii) folgt, dass 0 ∈ ∂f (x∗ ), also (ii).
Es gelte schließlich (ii), also 0 ∈ ∂f (x∗ ). Nach Definition des Subdifferentials erhalten
wir f (x) ≥ f (x∗ ) + h0, x − x∗ i = f (x∗ ) für alle x ∈ X, d.h. x∗ ist ein globales Minimum
von f auf X und (i) gilt.
Folgender Hilfssatz ist bei der Behandlung konkreter konvexer Funktionale nützlich:
Lemma 8.9. Seien ∅ =
6 X ⊆ Rn offen und konvex, f1 , . . . , fm : X → R konvex und
α1 , . . . , αm > 0. Dann gilt
∂
m
X
m
X
αj fj (x) =
αj ∂fj (x).
j=1
(8.4)
j=1
Wegen αj > 0 und der Konvexität von fj für alle 1 ≤ j ≤ m ist f :=
PBeweis:
m
α
f
j=1 j j : X → R konvex. Somit ist die linke Seite ∂f (x) in (8.4) für alle x ∈ X
wohldefiniert. Wir definieren die rechte Seite in (8.4) als
K(x) :=
m
X
αj ∂fj (x) ⊆ Rn ,
für alle x ∈ X.
j=1
Nach Satz 8.7 sind die einzelnen Summanden in K(x) nichtleer, konvex und kompakt,
also auch K(x) selbst.
P
(j) mit s(j) ∈ ∂f (x). Nach
Sei dann s ∈ K(x), und es gelte die Zerlegung s = m
j
j=1 αj s
Definition folgt, dass
fj (y) ≥ fj (x) + hs(j) , y − xi,
für alle 1 ≤ j ≤ n, y ∈ X,
also nach Multiplikation mit αj > 0 und Summation über n
n
X
αj fj (y) ≥
j=1
|
n
X
n
DX
E
αj fj (x) +
αj s(j) , y − x ,
j=1
{z
=f (y)
}
|
für alle y ∈ X,
j=1
{z
=f (x)
}
|
{z
=s
}
und damit s ∈ ∂f (x), d.h. K(x) ⊆ ∂f (x).
Zum Nachweis der umgekehrten Inklusion betrachte zunächst beliebige x ∈ X und
48
8.1. Konvexes Subdifferential
d ∈ Rn . Nach Lemma 8.3 existiert die Richtungsableitung f 0 (x; d), und Satz 8.7 liefert
f 0 (x; d) =
m
X
αj fj0 (x; d)
j=1
=
m
X
αj
j=1
= max
hs(j) , di
max
s(j) ∈∂fj (x)
m
nX
αj hs(j) , di : s(j) ∈ ∂fj (x), 1 ≤ j ≤ m
o
j=1
{z
|
}
P
(j) ,di
=h m
j=1 αj s
= max hs, di
s∈K(x)
≤ max hs, di
s∈∂f (x)
= f 0 (x; d).
Also gilt auch
max hs, di = max hs, di.
s∈K(x)
s∈∂f (x)
Angenommen, es existiere ein b
s ∈ ∂f (x)\K(x). Wegen der Konvexität und Kompaktheit
von K(x) existiert somit eine Hyperebene, die {b
s} und K(x) strikt trennt, d.h. ein
d ∈ Rn \ {0} und ein γ ∈ R mit
hs, di < γ < hb
s, di,
für alle s ∈ K(x).
Daraus folgt
max hs, di = max hs, di ≤ γ < hb
s, di,
s∈∂f (x)
s∈K(x)
im Widerspruch zu b
s ∈ ∂f (x). Also gilt (8.4).
Beispiel 8.10 (Soft Thresholding). Zu berechnen sei für y ∈ R und α > 0
1
min (x − y)2 + α|x|.
x∈R 2
(8.5)
Die Zielfunktion f (x) := 12 (x−y)2 +α|x| = f1 (x)+αf2 (x) ist eine positive Linearkombination der glatten Funktion f1 (x) := 21 (x − y)2 mit f 0 (x) = x − y, sowie der Betragsfunktion
f2 (x) = |x|. Beide Funktionen f1 und f2 sind konvex, also auch f . Nach Satz 8.8 ist x∗
genau dann globales Minimum von f über die offene Menge X := R, wenn


, x∗ < 0
{−1}
0 ∈ ∂f (x∗ ) = {x∗ − y} + α∂| · |(x∗ ) = {x∗ − y} + α [−1, 1] , x∗ = 0 ,


{1}
, x∗ > 0
49
8. Nichtglatte konvexe Optimierung
d.h. wenn

∗

{x − y − α}
0 ∈ [−y − α, −y + α]

 ∗
{x − y + α}
Dies ist offensichtlich äquivalent


y + α
∗
x = 0


y−α
, x∗ < 0
, x∗ = 0 .
, x∗ > 0
zu einer Fallunterscheidung in y,
, y < −α
, |y| ≤ α =: sα (y),
, y>α
für alle y ∈ R.
(8.6)
Die Funktion sα : R → R heißt Soft-Thresholding-Funktion und ist stückweise linear
sowie global stetig. Es gilt die manchmal nützliche Darstellung
sα (y) = y − P[−α,α] (y),
für alle y ∈ R.
Mit Hilfe der Funktion sα kann man auch das vektorwertige Minimierungsproblem zu
y ∈ Rn lösen,
1
min kx − yk22 + αkxk1 .
x∈Rn 2
Denn die Zielfunktion f zerfällt in eine Summe eindimensionaler Funktionen,
f (x) =
n X
1
k=1
2
(xk − yk )2 + α|xk | ,
die man mittels x∗ := (sα (yk ))1≤k≤n =: Sα (y) komponentenweise minimieren kann.
Unser Ziel ist es nun, auch Minimierungsprobleme mit Zielfunktionen der Form
f (x) = max fj (x)
1≤j≤m
zu lösen, etwa mit
f (x) = kxk∞ = max{x1 , . . . , xn , −x1 , . . . , −xm }.
Hierfür brauchen wir folgende Rechenregel.
Lemma 8.11. Die Funktion g : Rm → R, g(x) := max1≤j≤m xj ist konvex und richtungsdifferenzierbar mit
g 0 (x; d) = max dj , I(x) := 1 ≤ j ≤ m : xj = g(x) .
(8.7)
j∈I(x)
Beweis: Die Funktion g ist konvex. Denn zu u, v ∈ Rm und 0 ≤ λ ≤ 1 rechnet man
g λu + (1 − λ)v = max λuj + (1 − λ)vj
1≤j≤m
≤ λ max uj + (1 − λ) max vk
1≤j≤m
1≤k≤m
= λg(u) + (1 − λ)g(v).
50
8.1. Konvexes Subdifferential
Nach Satz 8.1 ist g lokal Lipschitz-stetig und nach Lemma 8.3 auch richtungsdifferenzierbar, mit
g(x + td) − g(x)
g 0 (x; d) = inf
, für alle x, d ∈ Rm .
t>0
t
Für jedes j ∈
/ I(x) = {1 ≤ k ≤ m : xk = g(x)} gilt xj < g(x). Wegen der Stetigkeit von
g und der Endlichkeit von {1, . . . , m} \ I(x) existiert ein t0 > 0 mit xj + tdj < g(x + td)
für alle 0 < t ≤ t0 und alle j ∈
/ I(x). Somit wird das Maximum g(x + td) von einem
Index aus I(x) angenommen, d.h.
für alle 0 < t ≤ t0 .
g(x + td) = max (xj + tdj ),
j∈I(x)
Nach Definition folgt für die Richtungsableitung in x ∈ Rm in Richtung d ∈ Rm
max (xj + tdj ) − g(x)
j∈I(x)
0
g (x; d) = inf
t
0<t≤t0
=xj
z}|{
xj + tdj − g(x)
= inf max
0<t≤t0 j∈I(x)
t
= inf
max dj
0<t≤t0 j∈I(x)
= max dj ,
j∈I(x)
also (8.7).
Satz 8.12. Seien ∅ =
6 X ⊆ Rn offen und konvex, f1 , . . . , fm : X → R konvex und stetig
differenzierbar sowie
f (x) := max fj (x),
1≤j≤m
für alle x ∈ X.
Dann gilt mit I(x) := {1 ≤ j ≤ m : fj (x) = f (x)}
(i) f ist konvex und richtungsdifferenzierbar mit
f 0 (x; d) = max ∇fj (x), d .
(8.8)
j∈I(x)
(ii) ∂f (x) = conv ∇fj (x) : j ∈ I(x)
Beweis:
(i) f ist konvex als punktweises Maximum konvexer Funktionen, denn für x, y ∈ X
und 0 ≤ λ ≤ 1 gilt
f λx + (1 − λ)y = max fj λx + (1 − λ)y ≤ λf (x) + (1 − λ)f (y).
1≤j≤m |
{z
}
≤λfj (x)+(1−λ)fj (y)
51
8. Nichtglatte konvexe Optimierung
Also ist f nach Lemma 8.3 richtungsdifferenzierbar. Wir benutzen die Kettenregel
für richtungsdifferenzierbare Funktionen der Form f = g◦h, wobei g lokal Lipschitzstetig um h(x) sei,
f 0 (x; d) = g 0 h(x), h0 (x; d) .
Mit Lemma 8.11 rechnen wir
f 0 (x; d) =
max
j:fj (x)=f (x)
fj0 (x; d) = max ∇fj (x), d .
j∈I(x)
(ii) Nach Satz 8.7(ii) und Teil (i) gilt
∂f (x) = s ∈ Rn : hs, di ≤ f 0 (x; d) für alle d ∈ Rn
= s ∈ Rn : hs, di ≤ max h∇fj (x), di für alle d ∈ Rn .
j∈I(x)
Dann liegt offenbar jeder Gradient ∇fj (x) in ∂f (x), sofern j ∈ I(x). Da ∂f (x)
konvex ist, folgt
G := conv ∇fj (x) : j ∈ I(x) ⊆ ∂f (x).
Nehme umgekehrt an, es gebe ein b
s ∈ ∂f (x) \ G. Nach Satz 8.7(iii) gilt hb
s, di ≤
0
n
f (x, d) für alle d ∈ R . Da ∂f (x) nach Satz 8.7(i) abgeschlossen ist, existiert eine
die Mengen G und {b
s} strikt trennende Hyperebene, also ein d ∈ Rn \ {0} mit
hb
s, di > hs, di für alle s ∈ G. Insbesondere folgt
hb
s, di > ∇fj (x), d , für alle j ∈ I(x)
und damit wegen Teil (i)
hb
s, di > max ∇fj (x), d = f 0 (x; d),
j∈I(x)
was offenbar b
s ∈ ∂f (x) widerspricht. Also gilt ∂f (x) = G.
Beispiel 8.13.
(i) Für f (x) := max1≤j≤n xj gilt nach Satz 8.12 mit fj (x) := xj , dass
∂f (x) = conv ej : xj = f (x) .
(ii) Für f (x) := kxk∞ = max{x1 , . . . , xn , −x1 , . . . , −xn } gilt nach Satz 8.12 mit
(
xj
, 1≤j≤n
fj (x) :=
,
−xj−n , n + 1 ≤ j ≤ 2n
dass
52
(
conv{±ej : 1 ≤ j ≤ n} = [−1, 1]n
∂f (x) =
conv sgn(xj )ej : |xj | = f (x) = kxk∞
, x=0
.
, x=
6 0
8.2. Konvexes Subdifferential für erweiterte Funktionen
(iii) Für f (x) := kAx − bk∞ mit A ∈ Rm×n und b ∈ Rm gilt nach Satz 8.12 mit der
Abkürzung r := r(x) := Ax − b wegen ∇rj (x) = A> ej , dass
(
conv ± A> ej : 1 ≤ j ≤ m = A> [−1, 1]n , r = 0
∂f (x) =
.
conv sgn(rj )A> ej : |rj | = f (x) = krk∞
, r 6= 0
8.2. Konvexes Subdifferential für erweiterte Funktionen
Um auch restringierte Minimierungsprobleme mit nichtglatten Zielfunktionen behandeln
zu können, bei denen Minima auf dem Rand des zulässigen Bereichs liegen, benutzt man
sogenannte erweiterte Funktionen, d.h. Abbildungen f : Rn → R ∪ {+∞}. Typische
Beispiele hierfür sind die Indikatorfunktion einer Menge X ⊆ Rn
(
0
, x∈X
χX (x) :=
,
(8.9)
+∞ , x ∈ Rn \ X
die Trägerfunktion einer Menge X ⊆ Rn
σX (d) := sup hx, di,
für alle d ∈ Rn ,
(8.10)
x∈X
sowie die (Lagrange-)dualen Funktionen ϕ vieler konvexer Minimierungsprobleme, siehe
Kapitel 7.
Mit Hilfe der Indikatorfunktion χX kann man ein restringiertes Minimierungsproblem
(8.1) für f : Rn → R mit zulässigem Bereich X auch wie folgt als unrestringiertes
Minimierungsproblem mit Zielfunktion f + χX schreiben:
min f (x) + χX (x),
x∈Rn
(8.11)
denn die Zielfunktion lautet
(
f (x) < ∞ , x ∈ X
f (x) + χX (x) =
,
+∞
, x ∈ Rn \ X
so dass globale Minima von f + χX höchstens in X liegen kann. Führt man geeignete
Rechenregeln für erweiterte Funktionen ein, lassen sich so auch Optimalitätskriterien für
restringierte, nichtglatte Minimierungsprobleme herleiten.
Definition 8.14. Zu einer erweiterten Funktion f : Rn → R ∪ {+∞} heißt
dom(f ) := x ∈ Rn : f (x) ∈ R
(8.12)
der wesentliche Definitionsbereich von f . Die erweiterte Funktion f heißt echt (englisch:
proper), wenn dom(f ) 6= ∅.
Definition 8.15. Wir nennen eine erweiterte Funktion f : Rn → R ∪ {+∞} konvex,
wenn X := dom(f ) nichtleer und konvex und f |X : X → R konvex ist.
53
8. Nichtglatte konvexe Optimierung
Eine konvexe erweiterte Funktion f : Rn → R∪{+∞} ist nach Satz 8.1 auf dem Inneren
ihrem wesentlichen Definitionsbereichs dom(f ) lokal Lipschitz-stetig, also insbesondere
dort stetig. Am Rand von dom(f ) besitzt f allerdings Sprünge. Daher benutzt man im
Kontext erweiterter Funktionen meist folgende erweiterte Stetigkeitsbegriffe.
Definition 8.16. Sei f : Rn → R ∪ {+∞} eine echte erweiterte Funktion. Dann heißt f
(i) unterhalbstetig in x ∈ Rn , falls
lim inf f (y) ≥ f (x);
(8.13)
lim sup f (y) ≤ f (x);
(8.14)
y→x
(ii) oberhalbstetig in x ∈ Rn , falls
y→x
(iii) unter-/oberhalbstetig auf X ⊆ Rn , falls f in allen x ∈ X unter-/oberhalbstetig ist.
Dabei sind die jeweils umgekehrten Ungleichungen in (8.13) und (8.14) trivialerweise für jede erweiterte Funktion erfüllt. Als wichtigste Beispiele halbstetiger Funktionen
dienen Indikatorfunktionen abgeschlossener bzw. offener Mengen.
Lemma 8.17. Sei X ⊆ Rn . Dann ist die Indikatorfunktion χX genau dann unter- bzw.
oberhalbstetig auf ganz Rn , wenn X abgeschlossen bzw. offen ist.
6 X ( Rn . Wir zeigen nur die Äquivalenz zwischen UnterhalbBeweis: Sei o.B.d.A. ∅ =
stetigkeit von χX und Abgeschlossenheit von X.
Sei X abgeschlossen. Falls x ∈ X, gilt χX (x) = 0 ≤ χX (y) für alle y ∈ Rn , also
insbesondere χX (x) ≤ lim inf y→x f (y), d.h. χX ist unterhalbstetig in x. Falls x ∈
/ X,
existiert wegen der Offenheit von Rn \X eine offene Umgebung U 3 x mit U ∩X = ∅. Also
ist χX konstant +∞ entlang jeder Folge x(j) → x für j ≥ j0 , so dass lim inf y→x χX (y) =
+∞ = χX (x), also χX unterhalbstetig in x.
Seien umgekehrt χX unterhalbstetig und x(j) ∈ X konvergent gegen ein x ∈ Rn . Dann
gilt x ∈ X, denn aus (8.13) folgt
χX (x) ≤ lim inf χX (y) ≤ lim χX (x(j) ) = 0.
y→x
j→∞
Für die konvexe Minimierung spielt der Begriff der Unterhalbstetigkeit eine große Rolle. Dies liegt unter anderen an folgendem Resultat, das in gewisser Weise Lemma 8.17
verallgemeinert.
Lemma 8.18. Sei f : Rn → R ∪ {+∞} eine echte erweiterte Funktion. Dann sind
äquivalent:
(i) f ist auf Rn unterhalbstetig.
54
8.2. Konvexes Subdifferential für erweiterte Funktionen
(ii) Die Levelmengen L(c) := {x ∈ Rn : f (x) ≤ c} sind für alle c ∈ R abgeschlossen
(ggf. leer).
Beweis: Seien zunächst f : Rn → R ∪ {+∞} unterhalbstetig und c ∈ R beliebig mit
L(c) 6= ∅. Betrachte x(j) ∈ L(c) mit x(j) → x ∈ Rn für j → ∞. Dann gilt wegen der
Unterhalbstetigkeit von f bei x und f (x(j) ) ≤ c für alle j ∈ N
f (x) ≤ lim inf f (y) ≤ lim f (x(j) ) ≤ c,
y→x
j→∞
also x ∈ L(c).
Seien umgekehrt alle Levelmengen L(c) abgeschlossen, x ∈ Rn beliebig und x(j) ∈ Rn
mit x(j) → x und f (x(j) ) → z ∈ R für j → ∞. Für jedes c > z gilt f (x(j) ) < c
ab j ≥ j0 (c). Also gilt für jedes c > z wegen der Abgeschlossenheit von L(c), dass
x ∈ L(c) = L(c) und damit f (x) ≤ c. Mit c & z folgt x ∈ L(z), also f (x) ≤ z =
limj→∞ f (x(j) und damit auch f (x) ≤ lim inf y→x f (y), d.h. f ist in x unterhalbstetig.
Definition 8.19 (konvexes Subdifferential/Subgradient für erweiterte Funktionen). Sei
f : Rn → R ∪ {+∞} eine echte, konvexe, erweiterte Funktion. Dann heißt
∂f (x) := s ∈ Rn : f (y) ≥ f (x) + hs, y − xi für alle y ∈ Rn
das Subdifferential von f bei x ∈ Rn . Die Elemente s ∈ ∂f (x) heißen Subgradienten.
Bemerkung 8.20. Bei konvexen Funktionen f : Rn → R ist nach Satz 8.7 ∂f (x) für
alle x ∈ Rn nichtleer, konvex und kompakt. Bei echten, konvexen, erweiterten Funktionen
f : Rn → R ∪ {+∞} ist ∂f (x) zwar immer noch konvex und abgeschlossen wegen der
Darstellung
\ ∂f (x) =
s ∈ Rn : f (y) ≥ f (x) + hs, y − xi ,
y∈Rn
denn s ∈ Rn : f (y) ≥ f (x) + hs, y − xi ist ein abgeschlossener, konvexer Halbraum
von Rn , und abzählbare Schnitte abgeschlossener und konvexer Mengen sind wieder abgeschlossen und konvex. Aber das Subdifferential einer erweiterten Funktion kann leer bzw.
unbeschränkt sein. Wir betrachten dazu die konvexe Funktion f := χ(−∞,0] :

0

(f |(−∞,0] ) (0) = {0}
∂f (x) =
s : f (y) ≥ sy für alle y ∈ R = [0, ∞)


s : f (y) ≥ +∞ + s(y − x) für alle y ∈ R = ∅
, x<0
, x=0.
, x>0
Mit Hilfe des Subdifferentials für erweiterte Funktionen erhalten wir automatisch ein
Optimalitätskriterium für Minimierungsprobleme der Form (8.1).
Lemma 8.21. Sei f : Rn → R ∪ {+∞} eine echte, konvexe, erweiterte Funktion. Dann
ist x∗ genau dann ein globales Minimum von f , wenn 0 ∈ ∂f (x∗ ).
55
8. Nichtglatte konvexe Optimierung
Beweis: Nach Definition gilt 0 ∈ ∂f (x∗ ) genau dann, wenn f (y) ≥ f (x∗ ) für alle
y ∈ Rn , d.h. wenn x∗ ein globales Minimium von f ist.
Der zentrale Satz zur Lösungstheorie konvexer Minimierungsprobleme mit erweiterten
Zielfunktionen lautet:
Satz 8.22. Sei f : Rn → R ∪ {+∞} eine echte, konvexe, erweiterte Funktion mit wesentlichem Definitionsbereich X := dom(f ). Dann gelten für das Minimierungsproblem
min f (x)
x∈Rn
(8.15)
die folgenden Aussagen:
(i) Die Lösungsmenge von (8.15) ist konvex (eventuell leer).
(ii) Ist f |X strikt konvex, so existiert höchstens eine Lösung von (8.15).
(iii) Ist f unterhalbstetig auf Rn und f |X gleichmäßig konvex, so besitzt (8.15) genau
eine Lösung.
Beweis:
(i) Für zwei Lösungen x, y ∈ Rn von (8.15) gilt f (x) = f (y) = minz∈Rn f (z). Für
jedes λ ∈ (0, 1) folgt wegen der Konvexität von f
f λx + (1 − λ)y ≤ λf (x) + (1 − λ)f (y) = f (x),
also ist auch λx + (1 − λ)y eine Lösung.
(ii) Seien x 6= y zwei verschiedene Lösungen von (8.15) und f |X strikt konvex. Da f
eine echte erweiterte Funktion ist, gilt X = dom(f ) 6= ∅ und somit x, y ∈ X. Nach
Definition ist X konvex, also λx + (1 − λ)y ∈ X für alle λ ∈ (0, 1). Aus der strikten
Konvexität von f folgt aber für λ ∈ (0, 1)
f λx + (1 − λ)y < λf (x) + (1 − λ)f (y) = f (x),
im Widerspruch zur Minimalität von x.
(iii) Wir diskutieren nur den Beweis im Fall int(X) 6= ∅, die Verallgemeinerung auf den
Fall zulässiger Bereiche mit relativem Inneren funktioniert ähnlich wie im Beweis
von Satz 7.5 durch Reparametrisierung von X mit einem niedrigdimensionalerem
Parameterraum. Wir setzen f ∗ := inf x∈Rn f (x). Es gilt f ∗ < +∞ wegen X 6= ∅.
Nach Definition von f ∗ sind alle Levelmengen L(c) := {x ∈ Rn : f (x) ≤ c} ⊆ X für
c > f ∗ nichtleer, und abgeschlossen nach Lemma 8.18 wegen der Unterhalbstetigkeit
von f . Wir zeigen die Beschränktheit von L(c) für c > f ∗ . Wir wählen dazu ein
festes x ∈ int(X) 6= ∅, und wegen ∂f (x) 6= ∅ (Satz 8.7(i)) einen Subgradient
s ∈ ∂f (x). Angenommen, L(c) sei unbeschränkt für ein c > f ∗ . Dann existieren
56
8.3. Proximal-Punkt-Verfahren
x(k) ∈ L(c) ⊆ X mit kx(k) k2 → ∞ für k → ∞. Aus der gleichmäßigen Konvexität
von f auf X, also
f λu + (1 − λ)v + µλ(1 − λ)ku − vk22 ≤ λf (u) + (1 − λ)f (v), für alle u, v ∈ X,
folgt mit λ :=
1
2
c ≥ f (x(k) ) ≥ −f (x) + 2f
1 (k)
2x
+ 12 x + µ2 kx(k) − xk22 ,
für alle k ∈ N.
Aus s ∈ ∂f (x) folgt mit der Cauchy-Schwarz-Ungleichung
f
1 (k)
2x
+ 21 x ≥ f (x) + s, 12 x(k) − 12 x − x ≥ f (x) − 12 ksk2 kx(k) − xk2 ,
so dass
c ≥ f (x) − 12 ksk2 kx(k) − xk2 + µ2 kx(k) − xk22
= f (x) + 12 µkx(k) − xk2 − ksk2 kx(k) − xk2 ,
für alle k ∈ N,
was wegen kx(k) k2 → ∞ für k → ∞ und c ∈ R nicht sein kann.
Also ist L(c) doch beschränkt und somit kompakt. Für jede monoton fallende Folge
ck & f ∗ gilt L(c(k+1) ) ⊆ L(ck ). Nach einem der Intervallschachtelung ähnlichen
Prinzip ist
\
L :=
L(ck )
k∈N
kompakt und nichtleer. Für jedes x∗ ∈ L gilt f (x∗ ≤ ck für alle k ∈ N, also
f (x∗ ) ≤ f ∗ , d.h. x∗ ist ein Minimum von f . Wegen (ii) ist x∗ eindeutig.
8.3. Proximal-Punkt-Verfahren
Für die Herleitung von Algorithmen zur Lösung eines nichtglatten Optimierungsproblems
(8.15) kann man die Strategie der Regularisierungsverfahren verfolgen. Hierbei wird ein
Ersatzproblem
minn fR (x)
(8.16)
x∈R
aufgestellt, mit einer stetig differenzierbaren Funktion fR : Rn → R, welches die gleichen Lösungen und optimalen Funktionswerte wie (8.15) besitzt. Ein wichtiger Vertreter
solcher Verfahren ist das folgende.
Satz 8.23 (Proximal-Punkte, Moreau-Hülle). Sei f : Rn → R ∪ {+∞} eine echte,
konvexe, unterhalbstetige erweiterte Funktion. Dann gilt:
57
8. Nichtglatte konvexe Optimierung
(i) Die Funktion
y 7→ f (y) + 21 ky − xk22
besitzt für jedes x ∈ Rn ein eindeutiges Minimum y∗ =: proxf (x), den sogenannten
Proximal-Punkt von x. Der Wert des Minimums heißt Moreau-Hülle fM ,
fM (x) := minn f (y) + 12 ky − xk22 , für alle x ∈ Rn .
(8.17)
y∈R
(ii) proxf : Rn → R ist nicht-expansiv, d.h.
proxf (x) − proxf (y) ≤ kx − yk2 ,
2
für alle x, y ∈ Rn .
(8.18)
(iii) Satz von Danskin: fM : Rn → R ist Lipschitz-stetig differenzierbar mit Gradient
∇fM (x) = x − proxf (x),
für alle x ∈ Rn .
(8.19)
(iv) fM ist konvex.
(v) x∗ ∈ Rn ist genau dann ein Minimum von f , wenn x∗ ein Minimum von fM ist,
und in diesem Fall gilt f (x∗ ) = fM (x∗ ).
Beweis:
(i) Die Funktion g(x, y) := f (y) + 12 ky − xk22 ist für festes x ∈ Rn bezüglich y konvex,
unterhalbstetig sowie auf dom(f ) gleichmäßig konvex. Also existiert nach Satz 8.22
ein eindeutiges Minimum Rn ⊇ dom(f ) 3 y∗ =: proxf (x) von g(x, ·) auf Rn .
(ii) Für die Nichtexpansivitität von proxf zeigen wir folgende Charakterisierung von
Proximalpunkten (man vergleiche den Satz von Carathéodory):
y = proxf (x)
⇔
∀z ∈ Rn : hz − y, x − yi + f (y) ≤ f (z).
(8.20)
Seien dazu zunächst y = proxf (x) und z ∈ Rn beliebig. Für jedes λ ∈ (0, 1) setze
yλ := λz + (1 − λ)y. Wegen der Proximaleigenschaft von y und der Konvexität von
f gilt für alle λ ∈ (0, 1)
f (y) ≤ f (yλ ) + 12 k
yλ − x
| {z }
k22 − 21 ky − xk22
λ(z−y)−(x−y)
≤ λf (z) + (1 − λ)f (y) +
1
2γ
λ2 kz − yk22 − 2λhz − y, x − yi ,
also nach Subtraktion von f (y) und Division durch λ > 0
hz − y, x − yi + f (y) ≤ f (z) + λ2 kz − yk22 ,
woraus (8.20) durch λ & 0 folgt. Ist umgekehrt y ∈ Rn mit hz − y, x − yi + f (y) ≤
f (z) für alle z ∈ Rn , dann gilt für alle z ∈ Rn
f (y) + 21 ky − xk22 ≤ f (z) + 12 ky − xk22 + hy − z, x − yi
≤ f (z) + 12 ky − xk22 + hy − z, x − yi + 12 ky − zk22
= f (z) + 12 kz − xk22 ,
58
8.3. Proximal-Punkt-Verfahren
also y = proxf (x).
Sind also u = proxf (x) und v = proxf (y) für x, y ∈ Rn , so erhalten wir aus (8.20)
mit z = v bzw z = u die Ungleichungen
(1
γ hv − u, x − ui + f (u) ≤ f (v),
,
1
hu
−
v,
y
−
vi
+
f
(v)
≤
f
(u)
γ
woraus durch Addition und anschließender Subtraktion von f (u) + f (v) auf beiden
Seiten folgt
v − u, x − u − (y − v) ≤ 0,
d.h. durch Umstellen und Cauchy-Schwarz
kv − uk22 ≤ hv − u, y − xi ≤ kv − uk2 ky − xk2 ,
also (8.18).
(iii) Seien x, y ∈ Rn und u = proxf (x), v = proxf (y). Dann gilt wegen (8.20) mit
z := v
fM (y) − fM (x) = f (v) − f (u) +
kv − yk22 − ku − xk22
2
1
2hv − u, x − ui + ky − vk22 − kx − uk22
2
1
= 2 hv − u − (x − u), x − ui +ky − vk22 + kx − uk22
{z
}
2 |
≥
=hv−x,x−ui
1
= (2hy − x + (v − y), x − ui + ky − vk22 + kx − uk22
2
1
= ky − v − x + uk22 + 2hy − x, x − ui
2
≥ hy − x, x − ui,
und mit vertauschten Rollen auch
fM (y) − fM (x) ≤ hy − x, y − vi.
Es folgt mit Hilfe der Nicht-Expansivität (8.18) von proxf , dass
0 ≤ fM (y) − fM (x) − hy − x, x − ui
≤ hy − x, y − v − x + ui
= ky − xk22 − hx − y, u − vi
|
{z
}
≥ku−vk22
≤
≤
ky − xk22
ky − xk22 ,
− kv − uk22
59
8. Nichtglatte konvexe Optimierung
d.h.
lim
y→x
fM (y) − fM (x) − h(x − u), y − xi
= 0,
ky − xk2
woraus (8.19) folgt. Die Lipschitz-Stetigkeit von ∇fM mit Lipschitz-Konstante 1
folgt aus (ii).
(iv) Die stetig differenzierbare Funktion fM ist konvex, da ∇fM monoton ist. Denn für
x, y ∈ Rn mit u := proxf (x) und v := proxf (y) rechnen wir mit (8.19) und der
Nichtexpansivität (8.18) von proxf
x − y, ∇fM (x) − ∇fM (y) = x − y, x − u − (y − v)
= kx − yk22 − hx − y, u − vi
≥ kx − yk22 − kx − yk2 ku − vk2
| {z }
≤kx−yk2
≥ 0.
(v) Sei x∗ ∈ Rn ein Minimum von f . Dann ist x∗ auch ein Minimum von
1
y 7→ f (y) + ky − x∗ k22 .
2
Diese Funktion besitzt aber nach (i) den eindeutigen Minimierer proxf (x∗ ), d.h. es
gilt x∗ = proxf (x∗ ), so dass wegen (8.19)
∇fM (x∗ ) = x∗ − proxf (x∗ ) = 0.
Nach (iv) ist fM konvex, so dass wegen ∇fM (x∗ ) = 0 bei x∗ ein globales Minimum
von fM vorliegt.
Ist umgekehrt x∗ ∈ Rn ein Minimum von fM , so folgt ∇f (x∗ ) = 0 und damit
x∗ = proxf (x∗ ). Also ist x∗ ein Minimierer der konvexen erweiterten Funktion
1
y 7→ f (y) + ky − x∗ k22
2
und damit 0 ∈ ∂f (x∗ ), d.h. x∗ minimiert f wegen Lemma 8.21.
In einem Minimum x∗ von f (bzw. fM ) stimmen die Zielfunktionswerte überein,
da aus der in Minima geltenden Eigenschaft x∗ = proxf (x∗ ) folgt
2
1
fM (x∗ ) = f proxf (x∗ ) + proxf (x∗ ) − x∗ 2 = f (x∗ ).
2 |
| {z }
{z
}
=x∗
60
=0
8.3. Proximal-Punkt-Verfahren
Beispiel 8.24. Betrachte die erweiterte Funktion
(
x
, x≥0
f (x) :=
, für alle x ∈ R.
+∞ , x < 0
Dann ist f echt wegen dom(f ) = [0, ∞) 6= ∅, konvex wegen f |dom(f ) ∈ Π1 und unterhalbstetig wegen abgeschlossener Levelmengen L(c) = {x ∈ R : f (x) ≤ c} = [0, c] für alle
c ≥ 0. Wir berechnen die Moreau-Hülle fM :
(
y + 12 (y − x)2 , y ≥ 0
1
2
g(x, y) := f (y) + (y − x) =
2
+∞
, y<0
hat für festes x ∈ R ihr (eindeutiges) Minimum bei
(
x−1 , x≥1
∗
proxf (x) =: y =
,
0
, x<1
für alle x ∈ R,
und für die Funktionalwerte rechnen wir
1
fM (x) = f (y ∗ ) + (y ∗ − x)2 =
2
(
x−
1 2
2x
1
2
, x≥1
,
, x<1
für alle x ∈ R.
Man beachte, dass fM Lipschitz-stetig differenzierbar ist mit
(
1 , x≥1
0
fM (x) =
= x − proxf (x), für alle x ∈ R.
x , x<1
fM ist konvex und besitzt das gleiche globale Minimum x∗ = 0 wie f .
Das Ersatzproblem (8.16) mit fR = fM motiviert das Proximal-Punkt-Verfahren zur
iterativen Lösung von (8.15).
Algorithmus 8.25 Proximal-Punkt-Verfahren
1. Wähle x(0) ∈ dom(f ) beliebig und setze k := 0.
2. Falls x(k) ein Minimum von f ist, stoppe.
3. Wähle γk > 0 und bestimme x(k+1) als globales Minimum von
fk (x) := f (x) +
1
kx − x(k) k22 ,
2γk
für alle x ∈ Rn .1
4. Setze k := k + 1 und gehe zu 2.
Die neue Iterierte x(k+1) beim Proximal-Punkt-Verfahren ist also gerade die Auswertung von proxγk f (x(k) ). Dies ist natürlich teuer, da in jedem Iterationsschritt ein konvexes
Minimierungsproblem zu lösen ist. Allerdings ist das proximale Ersatzproblem typischerweise leichter zu lösen als das Originalproblem, da fk gleichmäßig konvex ist. Für die
Grundversion des Proximal-Punkt-Verfahrens kann man zeigen:
61
8. Nichtglatte konvexe Optimierung
Satz 8.26. Seien {x(k) }k∈N und {γk }k∈N vom Proximal-Punkt-Verfahren 8.25 erzeugt.
Die Lösungsmenge
S := x∗ ∈ Rn : f (x∗ ) = infn f (x)
x∈R
sei nicht leer, und es gelte
gegen ein Element aus S.
Pk
j=0 γj
→ ∞ für k → ∞. Dann konvergiert x(k) für k → ∞
Da die Proximal-Punkte für eine allgemeine Funktion f schwierig zu berechnen sind,
für bestimmte Spezialfälle aber schon, werden Proximal-Punkt-Verfahren häufig in Kombination mit Operatorsplitting angewendet. Hierfür ist die folgende Beobachtung wichtig.
Lemma 8.27. Sei f : Rn → R ∪ {+∞} eine echte, konvexe, erweiterte Funktion und
proxf : Rn → Rn die Proximal-Punkt-Abbildung. Dann gilt
proxγf = I + γ∂f
−1
,
für alle γ > 0,
(8.21)
d.h. der Proximal-Operator ist die Resolvente des Subdifferentials.
Beweis: y ∈ Rn ist genau dann gleich proxγf (x), wenn y die konvexe Funktion
1
y 7→ γf (y) + ky − xk22
2
minimiert. Dies ist genau dann der Fall, wenn
0 ∈ γ∂f (y) + {y − x}
⇔
x ∈ (I + γ∂f )(y).
Mit dieser Beobachtung kann man nichtglatte, konvexe Minimierungsprobleme mit additiv zusammengesetzter Zielfunktion lösen, z.B.
min f (x) + g(x),
x∈Rn
(8.22)
wobei f : Rn → R konvex und glatt, sowie g : Rn → R ∪ {+∞} echt, konvex und
erweitert. Es gilt für beliebiges γ > 0 die Äquivalenz
0 ∈ ∂(f + g)(x)
⇔
−∇f (x) ∈ ∂g(x)
⇔
−γ∇f (x) ∈ γ∂g(x)
⇔
x − γ∇f (x) ∈ (I + γ∂g)(x)
⇔
(I + γ∂g)−1 x − γ∇f (x) = x
x = proxγg x − γ∇f (x) .
⇔
Die dazugehörige kanonische Fixpunktiteration ist das folgende Proximal-GradientenVerfahren, mit analogen Konvergenzeigenschaften wie das Proximal-Punkt-Verfahren.
62
8.4. Subgradienten-Verfahren
Algorithmus 8.28 Proximal-Gradienten-Verfahren
1. Wähle x(0) ∈ dom(f ) beliebig und setze k := 0.
2. Falls x(k) ein Minimum von f + g ist, stoppe.
3. Wähle γk > 0 und setze
x(k+1) := proxγk g x(k) − γk ∇f (x(k) ) .
4. Setze k := k + 1 und gehe zu 2.
Beispiel 8.29. Sei X ⊆ Rn abgeschlossen, konvex und nichtleer, und f : Rn → R konvex
und stetig differenzierbar. Dann kann das restringierte Minimierungsproblem
min f (x)
x∈X
als äquivalentes unrestringiertes Minimierungsproblem geschrieben werden mit Hilfe der
Indikatorfunktion χX ,
minn f (x) + χX (x) .
x∈R
χX ist eine echte, konvexe und unterhalbstetige erweiterte Funktion, da X 6= ∅ konvex
und abgeschlossen ist (Lemma 8.17). Wir berechnen proxγχX für γ > 0: Das Minimum
von
1
y 7→ γχX (y) + ky − xk22
2
wird wegen χX (y) = +∞ für alle y ∈
/ X offenbar genau bei der Euklidischen Projektion
y∗ := PX (x) angenommen, also proxγχX = PX . Das Proximal-Gradienten-Verfahren für
g := χX hat demnach die Form
x(k+1) := PX x(k) − γk ∇f (x(k) ) , k = 0, 1, . . .
(8.23)
Dies ist das sogenannte projizierte Gradienten-Verfahren.
8.4. Subgradienten-Verfahren
Das projizierte Gradienten-Verfahren ist nur für glatte Zielfunktionen f über einer konvexen Menge X ⊆ Rn durchführbar. Ist f in (8.1) nur konvex, aber nichtglatt, könnte
man versuchen, statt in die Richtung −∇f (x(k) ) in die Richtung −s(k) zu laufen, mit
s(k) ∈ ∂f (x(k) ). Dies führt auf sogenannte (projizierte) Subgradienten-Verfahren,
x(k+1) := PX (x(k) − tk s(k) ),
tk > 0,
s(k) ∈ ∂f (x(k) ),
k = 0, 1, . . .
(8.24)
Solche Verfahren sind relativ günstig durchführbar, sofern eine geeignete Parametrisierung von ∂f (x(k) ) vorliegt und die Projektion PX leicht berechenbar ist. Im Gegensatz
zum projizierten Gradienten-Verfahren (8.23) liefert ein einzelner Iterationsschritt im
projizierten Subgradientenverfahren auch bei speziell angepassten Schrittweiten tk > 0
nicht notwendigerweise einen Abstieg bezüglich f , d.h. die Folge {f (x(k) )}k≥0 ist nicht
monoton.
63
8. Nichtglatte konvexe Optimierung
Beispiel 8.30. Betrachte X := R2 und die Funktion
f (x) := max{−x1 , x1 + 2x2 , x1 − 2x2 },
für alle x ∈ R2 .
f ist konvex als Maximum konvexer Funktionen, global Lipschitz-stetig und stückweise
linear bezüglich der durch die Geraden x2 = 0 und x1 = ±x2 begrenzten polyedrischen
Teilmengen von R2 . Betrachte x := ( 10 ), welcher auf einer der Begrenzungsgeraden liegt.
Die aktive Menge I(x) = {1 ≤ j ≤ 3 : fj (x) = f (x)} aus Satz 8.12(ii) beträgt I(x) =
{2, 3}, also
n 1 1 o
,
∂f (x) = conv
.
2
−2
Für s := ( 12 ) und jedes t > 0 rechnen wir
1 − t f (x − ts) = f
−2t
= max{−1 + t, 1 − 5t, 1 + 3t}
= 1 + 3t
>1
= max{−1, 1, 1}
= f (x).
Die mögliche Nichtmonotonie von {f (x(k) )}k≥0 ist bei einem Subgradienten-Verfahren
zu berücksichtigen. Hierzu könnte man z.B. den kleinsten bisher erreichten Funktionswert
in Form der monoton fallenden Hilfsfolge mk := min1≤j≤k f (x(j) ) speichern, k = 0, 1, . . .
Algorithmus 8.31 Subgradienten-Verfahren
1. Wähle x(0) ∈ X beliebig, berechne m0 := f (x(0) ) und setze k := 0.
2. Falls x(k) ein geeignetes Abbruchkriterium erfüllt, stoppe.
3. Bestimme ein s(k) ∈ ∂f (x(k) ), wähle tk > 0 und setze
x(k+1) := PX x(k) − tk s(k) .
4. Berechne mk+1 := min f (x(k+1) ), mk .
5. Setze k := k + 1 und gehe zu 2.
Man beachte, dass wir im Schritt 3 von Algorithmus 8.31 davon ausgehen können, dass
6= 0 gilt, da sonst x(k) schon ein Minimum gewesen wäre.
s(k)
Satz 8.32. Das konvexe, restringierte Optimierungsproblem (8.1) mit f : Rn → R sei
lösbar, und f ∗ := minx∈X f (x) ∈ R bezeichne den optimalen Funktionswert. Die Schrittweiten tk > 0 aus Algorithmus 8.31 seien so gewählt, dass
tk ks(k) k2 & 0,
k → ∞,
∞
X
k=0
Dann konvergiert die Folge {mk }k≥0 gegen
64
f ∗.
tk ks(k) k2 = +∞.
(8.25)
8.4. Subgradienten-Verfahren
Beweis: Wir gehen o.B.d.A. davon aus, dass Algorithmus 8.31 nicht nach endlich
vielen Schritten mit einem Minimum x(k) terminiert. Die Folge {mk }k≥0 ist dann nach
Konstruktion monoton fallend und nach unten durch f ∗ ∈ R nach unten beschränkt,
konvergiert also gegen ein m∗ ≥ f ∗ . Angenommen, es gelte m∗ > f ∗ . Wir wählen ein
f ∗ < c < m∗ und betrachten die Levelmenge L(c) = {x ∈ Rn : f (x) ≤ c} der Funktion
b ∈ X mit f (b
f auf ganz Rn . Dann existiert nach Definition von f ∗ ein x
x) < c. Da f auf
n
b, d.h. es existiert ein
ganz R konvex ist, ist f Lipschitz-stetig in einer Umgebung von x
bk2 ≤ δ. Betrachte für 0 6= s(k) ∈ ∂f (x(k) )
δ > 0 mit x ∈ L(c) für alle x ∈ Rn mit kx − x
die Vektoren
s(k)
b + δ (k) , k = 0, 1, . . .
z(k) := x
ks k2
Es folgt z(k) ∈ L(c) für alle k ≥ 0. Aus s(k) ∈ ∂f (x(k) folgt
c ≥ f (z(k) ) ≥ f (x(k) ) +hs(k) , z(k) − x(k) i,
| {z }
≥mk >c
also nach Definition von z(k)
b − x(k) i + δks(k) k2 ,
0 > hs(k) , z(k) − x(k) i = hs(k) , x
für alle k = 0, 1, . . .
b ∈ X rechnen wir
Wegen der Nicht-Expansivität von PX und x
2
bk22 = PX (x(k) − tk s(k) ) − PX (b
x)2
kx(k+1) − x
bk22
≤ kx(k) − tk s(k) − x
bk22 − 2hx(k) − x
b, tk s(k) i + t2k ks(k) k22
= kx(k) − x
bk22 − 2tk δks(k) k2 + t2k ks(k) k22
≤ kx(k) − x
bk22 + tk ks(k) k2 tk ks(k) k2 − 2δ),
= kx(k) − x
für alle k = 0, 1, . . .
Wegen tk ks(k) k2 & 0 gibt es ein k0 ∈ N mit tk ks(k) k2 ≤ δ für alle k ≥ k0 . Wir erhalten
bk22 ≤ kx(k) − x
bk22 − δtk ks(k) k2 ,
kx(k+1) − x
für alle k ≥ k0
Aufsummation von k = k0 bis K liefert
δ
K
X
bk22 − kx(K+1) − x
bk22 ≤ kx(k0 ) − x
bk22 ,
tk ks(k) k2 ≤ kx(k0 ) − x
k=k0
d.h.
P
k tk ks
(k) k
2
konvergiert, im Widerspruch zu (8.25). Also gilt doch m∗ = f ∗ .
Wir diskutieren noch die konkrete Wahl der Schrittweiten tk . Erlaubt wäre nach (8.25)
1
die Wahl tk = (k+1)ks
(k) k . Dies führt aber i.A. nur zu sehr langsamer Konvergenz. Besser
2
ist es, die Schrittweiten an den Verlauf von f anzupassen. Eine mögliche Schrittweitenstrategie zeigt der folgende Hilfssatz.
65
8. Nichtglatte konvexe Optimierung
Lemma 8.33. Seien x∗ eine Lösung von (8.1), und seien die Schrittweiten tk des
Subgradienten-Verfahrens 8.31 gewählt gemäß
0 < tk < 2
f (x(k) ) − f (x∗ )
,
ks(k) k22
für alle k = 0, 1, . . .
(8.26)
Dann gilt
kx(k+1) − x∗ k2 < kx(k) − x∗ k2 ,
für alle k = 0, 1, . . .
(8.27)
Beweis: Wir rechnen wegen s(k) ∈ ∂f (x(k) )
kx(k) − tk s(k) − x∗ k22 = kx(k) − x∗ k22 − 2hx(k) − x∗ , tk s(k) i + t2k ks(k) k22
≤ kx(k) − x∗ k22 + 2tk f (x∗ ) − f (x(k) ) + t2k ks(k) k22
= kx(k) − x∗ k22 + tk tk ks(k) k22 − 2 f (x(k) ) − f (x∗ )
{z
}
|
<0 wegen (8.26)
< kx
(k)
−
x∗ k22 ,
für alle k ∈ N,
so dass aus der Nichtexpansivität von PX und x∗ ∈ X folgt
kx(k+1) − xk2 = PX (x(k) − tk s(k) ) − PX (x∗ )2
≤ kx(k) − tk s(k) ) − x∗ k2
< kx(k) − x∗ k2 ,
für alle k = 0, 1, . . .
In der Praxis liefert eine Schrittweitenwahl gemäß (8.26), z.B.
tk =
f (x(k) ) − f (x∗ )
,
ks(k) k22
für alle k = 0, 1, . . .
1
häufig eine im Vergleich zu tk = (k+1)ks
überlegene Konvergenzgeschwindigkeit. Na(k) k
2
türlich ist (8.26) nur dann realisierbar, wenn der optimale Zielfunktionswert f ∗ = f (x∗ )
bekannt ist. Da das Subgradienten-Verfahren bei einer differenzierbaren Zielfunktion mit
dem projizierten Gradientenverfahren, und im unrestringierten Fall mit dem Verfahren
des steilsten Abstiegs zusammenfällt, ist die Konvergenzgeschwindigkeit nicht besser als
linear, teilweise sogar nur sublinear.
66
Herunterladen