Optimierung f¨ur Neuronale Netze

Werbung
Optimierung für Neuronale Netze
Frank Mächold
Oktober 2004 - Januar 2005
ii
Inhaltsverzeichnis
1
2
3
Grundlagen der Wahrscheinlichkeit
1.1 Raum der Elementarereignisse . . . . . .
1.1.1 Zusammengesetzte Ereignisse . .
1.2 Axiome der Wahrscheinlichkeit . . . . . .
1.3 Bedingte Wahrscheinlichkeit . . . . . . .
1.3.1 Bayes - Formel . . . . . . . . . .
1.4 Folgeräume . . . . . . . . . . . . . . . .
1.4.1 Spezialfälle . . . . . . . . . . . .
1.5 Zufallsgrößen . . . . . . . . . . . . . . .
1.5.1 Zwei Typen von Zufallsgrößen . .
1.5.2 Charakteristika von Zufallsgrößen
.
.
.
.
.
.
.
.
.
.
3
3
4
4
5
5
6
6
9
10
11
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
15
15
17
17
19
19
20
22
23
26
Diskrete Optimierung
3.1 Optimierung auf Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Dynamische Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
29
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Optimierung auf Euklidischen Räumen
2.1 Euklidische Räume und lineare Abbildungen . . . .
2.1.1 Offene, abgeschlossene und konvexe Menge .
2.1.2 Stetige und konvexe Funktionen . . . . . . .
2.2 Lineare Abbildungen . . . . . . . . . . . . . . . . .
2.3 Optimalitätsbedingungen . . . . . . . . . . . . . . .
2.3.1 Richtungsableitung und Gradient . . . . . .
2.4 Gradientenverfahren und ihre Beschleunigung . . . .
2.4.1 Abstiegsverfahren . . . . . . . . . . . . . .
2.4.2 Verfahren der konjugierten Gardienten . . . .
2.5 Optimierung unter Nebenbedingungen . . . . . . . .
2.6 Linerare Optimierung und Dualität . . . . . . . . . .
2.7 Die Neyman Pearson Aufgabe . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
INHALTSVERZEICHNIS
Kapitel 1
Grundlagen der Wahrscheinlichkeit
Sprachgebrauch: Zufall, Wahrscheinlichkeit, Ereignis
Bsp.1: Symmetrische Münze werfen
Relative Häufigkeit von W: ωn →
1
2
für n → ∞
Bsp.2: Münze 10 mal geworfen
10mal kam Wappen, was passiert beim 11.mal?
(hier ändert sich die Wahrscheinlichkeit für Wappen bzw. Zahl natürlich nicht, beides ist gleich
wahrscheinlich
Bsp.3: Ich weiß nicht ob es heute regnet oder nicht.
→ Wahrscheinlichkeit für Regen = 12 ?
(folgt natürlich nicht!)
Experimente unter gleichbleibenden Bedingungen sehr oft wiederholen → Relative Wahrscheinlichkeit strebt gegen P(A).
Wahrscheinlichkeit ist Funktion des zufälligen Ereignis.
1.1
Raum der Elementarereignisse
Ω - beliebige Menge =
ˆ Raum der Elementarereignisse ω ∈ Ω - mögliche einander außschließende
Ereignisse des Experiments
Bsp.1: Münze 1mal werfen Ω={z,w}
Bsp.2: Münze n-mal werfen Ω={z,w}n , z.B. ω=(z,w,w,z,. . . )
Bsp.3: Ein Punkt wird in die Ebene ”geworfen”
Koordinatensystem einführen
Ω = R2 d.h. Ω = {(x,y) | x,y ∈ R}
(hat Mächtigkeit des Kontinuums
3
4
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
Bsp.4: Ein Buchstabe wird gedruckt und eingescannt
Buchstaben k∈K, K={a,b,c,. . . }
Bild → binär
Definitionsbereich: R={(i,j), 1 ≤ i ≤ n, 1 ≤ j ≤ n, i,j ∈ Z}
(Farb)Wertebereich: F={0,1}
Bild: Abbildung X: R →F
Menge aller Bilder A(R,F)
Raum der Elementarereignisse:
Ω = {(k, x)|k ∈ K, x ∈ A(R, F )}
1.1.1
Zusammengesetzte Ereignisse
Zusammengesetzte Ereignisse sind alle Teilmengen A ⊂ Ω.
Bsp.5: Punkt aus Bsp.3 fällt in Kreis mit Zentrum in Koordinatenursprung und mit Radius r
A = {(x, y)|x2 + y 2 ≤ r2 }
Bsp.6: Buchstabe aus Bsp.4 war ein ’t’ und hat im Pixel (i0 , j0 ) den ”Farbwert” 1.
A = {(k, x)|k = ”t”; x(i0 , j0 ) = 1}
Menge der Ereignisse ist bezüglich folgender Operationen abgeschlossen:
A, B ⊂ Ω - Ereignisse
A ∪ B, A ∩ B, A \ B - Ereignisse
1.2
Axiome der Wahrscheinlichkeit
Sei Ω eine beliebige Menge und F ein System von Teilmengen der Menge Ω.
• F heißt Ergebnis - Algebra
1. Ω ∈ F
2. A,B∈F folgt A ∪ B, A ∩ B, A \ B ∈ F
Bsp.1: F - Menge aller Teilmengen von Ω
Bsp.2: Ω - {(x, y)|0 ≤ x, y ≤ 1}
F - Menge der quadrierbaren Teilmengen in Ω
• Wahrscheinlichkeit: P: F→ R
1. F - Ergebnisalgebra
2. P(A)≥0 ∀A∈F
3. P(Ω)=1
5
1.3. BEDINGTE WAHRSCHEINLICHKEIT
4. Falls A∩B=∅ dann P(A∪B)=P(A)+P(B)
∞
\
5. Für jede abnehmende Folge A1 ⊃A2 ⊃A3 ⊃. . . aus F mit
An = ∅ gilt lim P(An ) = 0
n=1
n→∞
Bsp.3: Ω - endlich, |Ω| = n, F - Potenzmenge
Seien pω , ω ∈ Ω n nichtnegative Zahlen mit
X
pω = 1
ω
,dann ist P(A) =
X
pω .
ω∈A
1.3
Bedingte Wahrscheinlichkeit
Bsp.1: Würfel. . . Die größte Zahl war 6.
Wie groß ist dabei die Wahrscheinlichkeit, dass der 1. Würfel eine 3 gewürfelt hat?
Def.: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, A, B ∈ F und P (B) > 0. Wahrscheinlichkeit des
Ereignisses A unter der Bedingung, dass B eintrat ist:
P (A ∩ B)
P (B)
P (A|B) =
Sei B ein fixiertes Ereignis (B ∈ F), mit P (B) > 0, dann erfüllt die Funktion PB : F → R
(A) = P (A|B)
alle Axiome einer Wahrscheinlichkeit. Zusätzlich gilt
PB (B) = 1
PB (A|C) = P (A|B ∩ C)
Aus P (A ∩ B) = P (A|B)P (B) folgt per Induktion
P (A1 ∩ A2 ∩ . . . ∩An ) = P (A1 )P (A2 |A1 ) . . . P (An |A1 ∩ · · · ∩ An−1 )
|
{z
}
B
(= P (A1 ∩ · · · ∩ An−1 )P (An |A1 ∩ · · · ∩ An−1 )
1.3.1
Bayes - Formel
Seien A, B1 , . . . , Bn ∈ F, Bi ∩ Bj = ∅ ∀i, j und A ⊂ B1 ∪ · · · ∪ Bn .
Dann gilt:
n
X
P (A) =
P (A|Bi )P (Bi )
{z
}
|
i=1
P (Bk |A) =
P (A∩Bi )
P (A ∩ Bk
P (A|Bk )P (Bk )
= n
X
P (A)
P (A|Bi )P (Bi )
i=1
Def.: Sei (Ω, F, P ) ein Wahrscheinlichkeitraum.
A,B ∈ F heißen unabhängig ⇐⇒ P (A ∩ B) = P (A)P (B).
6
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
1.4
Folgeräume
Ω = {(k1 , . . . , kn )|ki ∈ K, ∀i = 1, . . . , n}
F =ˆ alle Teilmengen von Ω
Die Zahlen p(k1 ), p(k2 |k1), . . . , p(kn |k1 , . . . , kn−1 )
|
{z
}
=p(kn |k1 ∩···∩kn−1 )
seien gegeben wird erfüllen:
X
1. p(k1 ) ≥ 0, (∀k1 ),
p(k1 ) = 1
k1 ∈K
2. p(k2 |k1 ) ≥ 0, (∀k1 , k2 ),
X
p(k2 |k1 ) = 1, (∀k1 ∈ K)
k2 ∈K
..
.
n. p(kn |k1 , . . . , kn−1 ) ≥ 0 (∀k1, . . . , kn ),
X
p(kn |k1, . . . , kn−1 ) = 1 (∀k1, . . . , kn−1 )
kn
1.4.1
Spezialfälle
a) p(ki |k1 , . . . , ki−1 ) hängt nicht von k1 , . . . , ki−1 ab ⇒ Folgen unabhängiger Tests
b) p(ki |k1 , . . . , ki−1 ) hängt von k1 , . . . , ki−2 ab ⇒ d.h. p(ki |k1 , . . . , ki−1 ) = p(ki |ki−1 )
⇒ Markow - Ketten
Bsp.1: p(k1 , . . . , kn ) = p(k1 ) · p(k2 ) . . . ·p(kn ) = pk1 · pk2 · . . . ·pkn mit pk ≥ 0,
X
pk = 1
k
Sei speziell |K| = 2 → p1 = p, p = 1 - p1 = q
Bezeichne µn - Anzahl der Zustände 1 in der Folge der Länge
n
P (µn = m) =
·
pm q n−m
| {z }
m
| {z }
W ahrscheinlichkeit
z.B.
einer
112
Anzahl
bestimmten
121 = c
der
Kombination
m
P ermutationen 211
z.B.112
..
.
Bsp.2: Seien (x1 , . . . , x10 ) - zehn Bilder, die jeweils eine (unbekannte) Ziffer ki ∈ {0, 1, 2, . . . , 9}
enthalten. Ein Erkennungsalgorithmus liefert die Zahlen (insgesamt 100)
pi (k) = p(ki = k|xi )
(Jedes Bild bekommt Wahrscheinlichkeit für jede der 10 Ziffern)
Wie groß ist die wahrscheinlichste Summe dieser Ziffern? (Ziffern werden unabhängig generiert)
gesucht ist also:
7
1.4. FOLGERÄUME
arg max p(s) = arg maxs
| {z s }
X
...
k1
X
p(k) =
X
...
X
k10 p1 (k1 ) · p2 (k2 )· . . . ·p10 (k10 )
k1
k10
1
Lösungsansatz: qi (s) für i=1, . . . ,10 ; s = 0, . . . ,90
qi (s)= Wahrscheinlichkeit dafür, dass die Summe der ersten i Ziffern s ist
(
p1 (s) f alls 0 ≤ s ≤ 9
q1 (s) =
0
sonst
qi (s) =
9
X
qi−1 (s − ki )pi (ki )
ki =0
Komplexität: n · 9 · n · 10 ∼ n2 · 100
Komplexität für die Berechnung jeder möglichen Summe ohne diesen iterativen Algorithmus: 10n · n
Bsp.2: Ein Tetraeder 2 mit unterschiedlich gefärbten Seitenflächen liegt mit der blauen Seite auf
einem Tisch. Es wird n-mal über eine zufällig gewählte Kante gekippt. Wie groß ist die Wahrscheinlichkeit, dass er danach wieder auf der blauen Kante liegt?
Die Farben des Tetraeders seien hier lila (l), grün (g), rot (r) und blau (b).
(
p(k |k ) =
| i{zi−1}
1
3
f alls ki 6= ki−1
f alls ki = ki−1
0
i−tes Kippen
ki ∈ {blau, rot, grün, lila}
(k0 , k1 , . . . , kn )
p(k0 , k1 , . . . , kn ) = p(k0 ) · p(k1 |k0 ) · · · · · p(kn |kn−1 )
(
1 f alls k0 = ”blau”
p(k0 ) =
0 sonst
XX
X
···
p(k0 )p(k1 |k0 ) . . . p(kn−1 |kn−2 )p(kn = ”blau”|kn−1 )
k0
=
X
k1
p(k0 )
k0
kn−1
X
p(k1 |k0 )
X
k1
=
X
p(k2 |k1 ) · · ·
k2
p(kn = ”blau”)
kn−1
X
p(kn−1 |kn−2 )p(kn = ”blau”|kn−1 )
kn−1
X
p(kn−1 |kn−2 ) · · ·
kn−2
X
p(k1 |k0 )p(k0 )
k0
⇒ Die einzelnen Wahrscheinlichkeiten für den i-ten Kippvorgang können basierend auf den
Wahrscheinlichkeiten des i-1-ten Kippvorgangs berechnet werden.
(
1 f alls k0 = ”blau”
ψ0 (k0 ) = p(k0 ) =
| {z }
0 sonst
0. Kippen
ψ1 (k1 ) =
X
p(k1 |k0 )ψ0 (k0 )
k0
1
2
welches Argument ergibt die größte Summe
Ein Tetraeder ist ein Körper, welcher aus 4 dreieckigen Grundflächen besteht.
8
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
ψ2 (k2 ) =
X
p(k2 |k1 )ψ1 (k1 )
k1
...
(siehe Tabelle 1.1)
Wie sich leicht sehen lässt, kann man diesen Sachverhalt auch als Matrixmultiplikation darstellen.

 

0 31 31 13
ψi−1 (lila)
 1 0 1 1  ψi−1 (grün)
3
3
3  

ψi = 
 1 1 0 1  •  ψi−1 (rot) 
3
3
3
1
1
1
0
ψi−1 (blau)
} |
{z
}
| 3 3 {z 3
=P
~i−1
ψ
~n = P · P · P . . . ·ψ
~
ψ
|
{z
} 0
n−mal
Farbe
lila
grün
rot
blau
ψ0
0
0
0
0
ψ1
ψ2
1
3
1
3
1
3
2
3
2
3
2
3
1
3
0
ψn
...
...
...
...
gesucht!
Tabelle 1.1: Iterative Berechnung der Wahrscheinlichkeiten der auf dem Tisch liegenden Tetraederfläche
Nun muss noch die Anzahl der Folgen (k0 , k1 , . . . , kn ) mit k0 = kn = ”blau” und k1 , k2 , . . . , kn−1 ∈
{lila, grün, rot, blau}:
Überlegen wir uns erst einmal für wenige Kippvorgänge die Anzahl der möglichen Kombinationen (siehe Tabelle 1.2)
Farbe
lila
grün
rot
blau
0. Kippen
0
0
0
1
1. Kippen
1
1
1
0
2. Kippen
2
2
2
3
3. Kippen
7
7
7
6
4. Kippen
20
20
20
21
5. Kippen
61
61
61
60
Tabelle 1.2: Anzahl der Folgen für Kippvorgang des Tetraeders
⇒
nb (i) - Anzahl der Folgen die zu blau führen
nb (i) - Anzahl der Folgen die zu einer anderen Farbe als blau führen
nb (i) = 3 · nb (i − 1)
nb (i) = 2 · nb (i − 1) + nb (i − 1)
nb (i) = 2 · nb (i − 1) + 3 · noverlineb (i − 2)
...
...
...
...
9
1.5. ZUFALLSGRÖSSEN
1.5
Zufallsgrößen
Def.: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Eine Funktion ξ:Ω → R heißt Zufallsgröße, wenn
für alle x ∈ R
{ω ∈ Ω|ξ(ω) ≤ x} ∈ F
gilt.
Da F - Ergebnisalgebra, folgt
{ω ∈ Ω|ξ(ω) ≥ x}=(ξ
ˆ ≥ x) = (ξ ≤ x) ∈ F
(x1 ≤ ξ ≤ x2 ) = (ξ ≤ x2 )|(ξ ≥ x1 ) ∈ F
(ξ = x) =
∞
\
1
(x ≤ ξ < x + ) ∈ F
2
i=1
Def.: Sei ξ : Ω → R eine Zufallsgröße (für den Wahrscheinlichkeitsraum (Ω, F, P ), dann heißt
Fξ : R → R+
Fxi (x) = P (ξ ≤ x)
Verteilungsfunktion von ξ.
Bsp.1: Ein Punkt wird zufällig in das Quadrat Ω = {(x1 , x2 )|0 ≤ xi ≤ 1}.
a) ξ(x1 , x2 ) = x1


0
Fξ (x) = x


1
f alls x ≤ 0
f alls 0 ≤ x ≤ 1
f alls x ≥ 1
b) ξ(x1 , x2 ) = x1 + x2


0



2


x
Fξ (x) = 2

1



2


1 − (1 − x)
2
f alls x ≤ 0
f alls 0 ≤ x ≤ 1
f alls x ≥ 2
f alls 1 ≤ x ≤ 2
Es gilt:
1. Fξ (x) ist monoton wachsend
2. P (x1 ≤ ξ ≤ x2 ) = Fξ (x2 ) − Fξ (x1 )
1
3. P (ξ = x) = lim [Fξ (x + ) − Fξ (x)] = Fξ (x + 0) − Fξ (x)
i→∞
2
10
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
1.5.1
Zwei Typen von Zufallsgrößen
a) Diskrete Zufallsgrößen: Funktion: ξ : Ω → R
nimmt diskrete Werte x1 ,. . . xn . . .
P (ξ = xn ) = pn ≥ 0,
X
pn = 1
n
b) absolut stetige Zufallsgröße: Funktion ξ : Ω → R
nimmt beliebige reelle Werte an und es exisitiert Funktion pξ : R → R (Verteilungsdichte) so,
dass
Z
x
Pξ (x0 )dx0
Fx i(x) = P (ξ < x) =
−∞
Pξ (x)dx=
ˆ Wahrscheinlichkeit, dass ξ ein Wert in entsprechenden Intervall hat.
Bsp.2:
• Normalverteilung (Gauss-Verteilung) (absolut stetig)
1
(x − a)2
Pξ (x) = √
exp −
2σ 2
2πσ
• Gleichverteilung (absolut stetig)
1
Pξ = (b − a)

0


f ür x ∈ [a, b]
sonst
• Bionomialverteilung (diskret)
n m
P (ξ = m) =
p (1 − p)n−m
m
m = 0, 1, 2, . . . , n; 0 ≤ p ≤ 1
• Possion-Verteilung (diskret)
P (ξ = m) =
λ − m −λ
e
m!
m = 0, 1, 2, . . .
Def.: Zwei Zufallsgrößen ξ1 , ξ2 : Ω → R sei unabhängig, wenn
Fξ1 ,ξ2 (x1 )(x2 ) = Fξ1 (x1 )Fξ2 (x2 )
(Fξ1 ,ξ2 (x1 , x2 ) = P ({ξ1 < x1 } ∩ {ξ2 < x2 }))
11
1.5. ZUFALLSGRÖSSEN
1.5.2
Charakteristika von Zufallsgrößen
1.5.2.1
Erwartungswert
a) Diskreter Wahrscheinlichkeitsraum, ξ → ξ(ωk )
n(∞)
Eξ =
X
p(ωk )ξ(ωk )
k=1
äquivalent: ξ nimmt Werte x1 , x2 ,. . . an
m(∞)
Eξ =
X
xi P (ξ = xi )
i=1
b) absolut stetiger Wahrscheinlichkeitsraum und Zufallsgröße
Z ∞
Eξ =
Pξ (x) · xdx
−∞
1.5.2.2
Eigenschaften
a) ξ(ω) ≡ c ⇒ Eξ = c
b) E(c · ξ) = cEξ
c) E(k ξ k) ≥ |Eξ |3
d) E(ξ1 + ξ2 ) = Eξ1 + Eξ2
1.5.2.3
Streuung / Kovananz
Dξ = E(ξ − Eξ )2 = Eξ2 − E(Eξ )2
p
Dξ - Streuung
cov(ξ1 , ξ2 ) = E [(ξ1 − Eξ1 )(ξ2 − Eξ2 )] - Kovananz
cov(ξ1 , ξ2 )
Korrelationskoeffizient: p
(Dξ1 , Dξ2 )
1.5.2.4
Gesetz der großen Zahlen un dzentrales Grenzwerttheorem
Zufallsgrößen (abzählbar unendlich viele) ξ1 , ξ2 , . . . , ξm , . . . (auf einem Wahrscheinlichkeitsraum)
seien unabhängig und haben alle dieselbe Verteilung mit dem Erwartungswert Eξn = a
Dann gilt
ξ1 + ξ2 + · · · + xin
lim P − a < = 1
n→∞
n
für jedes ¿ 0.
3
kxk=
ˆ Norm des Vektor x |x| - Betrag der Zahl x
12
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
• Haben sie zusätzlich eine Streuung Dξn = σ 2 , so gilt


Z x
ξ + · · · + ξ − n · a

n2
1
 1

n
√
Fη = P 
< x →n→∞
e− 2 dn
2π −∞


σ n
|
{z
}
η
(für n → ∞ Gauss verteilt)
1.5.2.5
Schätzung von (unbekannten) Parametern von Wahrscheinlichkeiten anhand von Lernstichproben
Bekannt: Ω, F, P ∈ P - Klasse von Wahrscheinlichkeitsfunktionen
Oft kann die Klasse P parametrisch beschrieben werden: P (ω; |{z}
α )
4
Ziel: α soll bestimmt werden. Dazu Lernstichprobe T = {ω1 , . . . , ωn } erzeigen (unabhängig mit
P (ω; α)) ⇒ daraus α schätzen
Maximum - Likelihood Prinzip:
Wahrscheinlichkeit die Stichprobe mit P(ω; α) zu generieren
P (T ; α) =
=
n
Y
Likelihood
p(ω; α)
i=1
Y
P nω (ω; α)
ω∈Ω
nω =
ˆ ω trat nω - mal in T auf
Y
P (ω; α) → max
α
ω∈R
α∗ = arg max ln
α
Y
| ln
P nω (ω; α) = arg max
ω∈Ω
α
X
ω
|{z}
5
4
5
kein stochastisches Element, unbekannte Größe
möglich, da hier nur arg max gesucht ist
α
nω ln P (ω; α)
Kapitel 2
Optimierung auf Euklidischen Räumen
2.1
Euklidische Räume und lineare Abbildungen
Linearer Raum (Vektorraum) der Dimension n Menge V 3 v =
ˆ Punkt, Vektor mit
1. V ist kommutative Gruppe bezüglich Addition
2. V ist Modul über R: x, y ∈ V λ, µ ∈ mathbbR
λ(x + y) = λx + λy ; (λ + µ)x = λx + µx
λ(µ)x = (λµ)x ; 1 · x = x ; |{z}
0 ·x = |{z}
0
∈R
∈Rn
3. Maximale Zahl von linear unabhängigen Elementen aus V ist n
Wie üblich: x1 , . . . , xk ∈ V heißen linear unabhängig, wenn aus
|
{z
}
1
λ1 x 1 + λ2 x 2 + · · · + λk x k ⇒ λ1 , . . . , λ k = 0
folgt.
Basis von V =
ˆ System von n linear unabhängigen Elementen e1 . . . en ∈ V
Kov - System: Für jedes x ∈ V
λx + λ1 e1 + · · · + λn en = 0 , λ 6= 0
x = x1 e1 + · · · + xn en
Euklidischer Raum: E - Vektorraum + Skalarprodukt < ., . >: E × E → R mit
1. Bilinearität: < λx + µx, z >= λ < x, z > +µ < x, z >
2. Symmetrie: < x, y >=< y, x >
3. Positivität: < x, x >≥ 0 , < x, x >= 0 ⇒ x = 0
13
14
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
In jedem Vektorraum kann Skalarprodukt eingeführt werden
Sei e1 , . . . , en Basis , < ei , ej >= δij
|{z}
2
Seien x =
n
X
i
xi e ; y =
i=1
n
X
i
yi e ⇒< x, y >=
i=1
n
X
xi yi
i=1
Umgekehrt: System heißt orthonormiert, falls < ei , ej >= δij gilt.
Konstruktion einer orthonormierten Basis aus einer Basis x1 , . . . , xn
1
1) e1 =< x1 , x1 >− 2 x1
..
.
k) Sei bereits e1 , . . . ek so konstruiert, dass < ei , ej >= δij , alle e1 , . . . , ek sind Linearkombinationen der x1 , . . . , xk3
k+1) y = xk+1 − (λ1 e1 + · · · + λk ek ) mit λi =< xk+1 , ei >⇒ ek+1 =< y, y >−f rac12 y
1
Es gilt ∀x, y, z und k x k=< x, x > 2 4
Dreiecksgleichung:
k x − y k≤k x − z k + k z − y k
| < x, y > | ≤k x kk y k
2.1.1
Offene, abgeschlossene und konvexe Menge
Ein Punkt x ∈ E ist Grenzwert einer Folge x1 , . . . , xn , · · · ∈ E
d.h. x = lim xi falls k xi − x k→ 0 für i → ∞ Sei D ⊂ E eine Teilmenge von E
i→∞
• x ∈ D heißt innerer Punkt von D falls
∀ > 0 so, dass U (x) = {y inE| k x − y k≤ { ⊂ D
| {z }
U mf ang
• D heißt offen , falls sie mit der Menge ihrer inneren Punkte überereinstimmt
• D heißt abgeschlossen , falls für jede konvergierende Folge aus D auch deren Grenzwert zu D
gehört:
x1 , x2 , · · · ∈ D , x = lim xi ⇒ x ∈ D
i→∞
abgeschlossene Mengen sind über Durchschnitt abgeschlossen,
offene gegenüber Vereinigung
• D heißt konvex , falls für jedes Paar x, y ∈ D auch die sie verbindene Strecke in D enthalten
ist
λx + (1 − λ)y ∈ D ∀0 ≤ λ ≤ 1
2
Kronecker Symbol
hier wir davon ausgegangen, dass man den k. Schritt schon durchgeführt hat
4
kxk=
ˆ Norm des Vektor x |x| - Betrag der Zahl x
3
15
2.2. LINEARE ABBILDUNGEN
• D heißte Kegel , falls für jedes x ∈ D
λx ∈ D , ∀λ ≥ 0
gilt.
→ Abschluss einer Menge D → cl(D)=
ˆ Menge aller Grenzwerte von konvergenten Folgen aus D.
→ Konvexe Hülle einer Menge D → conv(D)=
ˆ kleinste konvexe Menge, die D enthält
Bsp.1:
a) Jeder Unterraum von E ist konvex und abgeschlossen.
b) Rn+ = {x ∈ Rn |xi ≥ 0 , ∀i = 1, . . . , n}
konvexer abgeschlossener Kegel
c) U (x) = {y ∈ E| k x − y k≤ } ist konvex und abgeschlossen
d) Sei M ⊂ R die Menge der rationalen Zahlen, M hat keinen inneren Punkt, cl(M ) = R
2.1.2
Stetige und konvexe Funktionen
Sei D ⊂ E und f : D → R eine aud D definierte Funktion
• f heißt stetig auf D falls f (xi ) →i→∞ f (x) für jede konvrgente Folge xi →i→∞ x in D
• äquivalent: Urbilder offener Mengen sind offen
U ⊂ R sei offen, dann ist
{x ∈ D|f (x) ∈ U } offen in D
Sei C ⊂ E konvex und f : C → R
• f heißt konvex, falls
f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y) ; ∀x, y ∈ C
äquivalent: Die Mengen
{(x, α) ∈ E × R|λ ≥ f (x)}
sind konvex
Bsp.2:
a) Die Funktion f : E → R, f (x) =k x k ist stetig und konvex
b) Die Funktionen f, g, h : R → R
f (x) = x2 , g(x) = ax + b , h(x) = x2 + ax + b
2.2
Lineare Abbildungen
Seien E, Y Euklidische Räume. Eine Abbildung A: E → Y heißt linear, falls ∀x, y ∈ E, λ, µ ∈ R
A(λx + µy) = λAx + µAy
gilt.
16
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Speziell: jede lineare Abbildung E → R hat die Form Ax=ha, xi mit einem gewissen a ∈ E.
Beweis: Sei ei , i=1,. . . ,n orthonormierte Basis von E
a=
n
X
(Aei )ei
i=1
X
X
Ax = A(
xi ei ) =
xi (Aei )
i
ha, xi =
*
X
i
+
(Aei )ei , x
= ··· =
X
i
xi (Aei )
i
Def.: symmetrische Abbildung Eine Abbildung A: E → E heißt symmetrisch, falls ∀x, y ∈ E
hy, Axi = hAy, xi
gilt.
Sei A: E → Y linear und ej , j=1,. . . ,n bzw. y i , i=1,. . . ,m orthonormierte Basen von E bzw. Y
Aij = y i , Aej
Sei A: E → E linear und I: E → E die identische Abbildung. Die Lösung der Gleichung
det(A − λI) = 0
heißen Eigenwerte von A. Die (möglicherweise komplexen) Vektoren x, für die Ax = λx gilt, heißen
Eigenvektoren.
Satz:
a) Die Eigenwerte einer symmetrischen Abbildung sind reell
b) Die Eigenvektoren zu unterschiedlichen Eigenwerten sind orthogonal
Beweis:
a) Da A reell ⇒ Ax=λx ⇒ (Ax)=(λx) ⇒ Ax = λx, da A symmetrisch
hx, Axi = λ hx, xi
k
k
hAx, xi = λ hx, xi
b) Sei Ax1 = λ1 x1 , Ax2 = λ2 x2 , λ1 6= λ2
hx2 , Ax1 i = λ1 hx2 , x1 i
k
k
2
1
hAx , x i = λ2 hx2 , x1 i
Eine symmetrische Matrix A heißt positiv semidefinit , falls
hx, Axi ≥ 0 ∀x
(äquivalent: alle Eigenwerte von A sind nicht negativ)
17
2.3. OPTIMALITÄTSBEDINGUNGEN
2.3
Optimalitätsbedingungen
Typische Optimierungsaufgabe:
f : E → R gi : E → R i ∈ J = {J1 , J2 }
Suche min f (x)
x∈E
unter den Nebenbedingungen (NB):
gi (x) = 0i ∈ J1
gi (x) ≥ 0i ∈ J2
Bsp.: E = R2
(x1 − 2)2 + (x2 − 1)2 → min
x1 x2
x21
NB: − x2 ≤ 0
x1 − x2 ≤ 2
x2 ≥ −2 + x1
x2 ≥ x21
2.3.1
Richtungsableitung und Gradient
Sei f : E → R, Richtungsableitung von f im Punkt x ∈ E in Richtung d ∈ E
f (x + td) − f (x)
0
f (x; d) = lim
(t ≥ 0)
i→0
t
0
Ist die Richtungsableitung f (x; d) eine lineare Funktion der Richtung d:
0
f (x; d) = ha, di
dann: f ist differenzierbar in x mit dem Gradient (∇f )(x) = a
Bsp.:
a) Die Funktion f (x) = kxk; x ∈ E Richtungsableitung in x=0
f (td) − f (0)
kdk
= lim
= kdk
t→0
t→0 t
t
aber Fkt. in x = 0 nicht differenzierbar
( Gradient existiert nicht)
x
kx + tdk − kxk
=
,d
Sei x 6= ~0;
t
kXk
s
X
In Koordinaten: kxk =
x2i
0
f (0; d) = lim
i
1 2xi
x
δ
x
kxk = qP
=
; ∇f (x) =
δxi
2
kxk
kxk
2
j xj
b) f(x)=kxk2
C ⊂ E, konvex, x∗ ∈ C, Normalkegel in x∗






∗
∗
NC (x ) = d ∈ E| hd, x − x i ≤ 0, ∀x ∈ C
| {z } 
| {z }



5
6
18
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Bsp.: E = R2
C=
ˆ ⇒ NC (x∗ ) = {~0}
C=
ˆ ⇒ NC (x∗ )=
ˆ Strahl ⊥ zur Tangente
C=
ˆ ⇒ NC (x∗ )=
ˆ Schnitt zweier Halbräume
C=
ˆ ⇒ NC (x∗ )=
ˆ Gerade durch x∗ und ⊥ zu C
Satz 1: (Notwendige Optimalitätsbedingung 1. Ordnung)
Sei C ⊂ E konvex und x∗ ∈ C sei lokales Minimum von f : C → R. Dann gilt ∀x ∈ C
f 0 (x∗ , x−∗ ) ≥ 0
Ist f differenzierbar in x∗ , so gilt −∇f (x∗ ) ∈ NC (x∗ )
Beweis: ∃ x ∈ C mit f 0 (x∗ , x − x∗ ) < 0 ⇒
für kleine t gilt
f (x∗ + t(x − x∗ )) − f (x∗ ) < 0
|
{z
}
∈C
< f (x∗ )
Widerspruch
Satz 2: (Hinreichende Optimalitätsbedingung 1. Ordnung)
Sei C ∈ E konvex und f : C → R konvex
Dann ∃ f 0 (x∗ , x − x∗ ) ∀x∗ , x ∈ C (in [−∞, +∞))
gilt nun
f 0 (x∗ , x − x∗ ) ≥ 0 ∀x ∈ C bzw. − ∇f (x∗ ) ∈ NC (x∗ )
so ist x∗ globales Minimum von f in C.
(konvexe Funktion kann keine (mehrere) lokalen Minima besitzen)
Beweis: Man zeigt, dass wegen Konvexität von f die Funktion
t ∈ (0, 1] 7→
f (x∗ + t(x − x∗ )) − f (x∗ )
t
nicht fallend ist. ⇒ Oder:
Angenommen ∃ x1 ∈ C f (x1 ) < f (x∗ )
f (x∗ + t(x1 − x∗ )) − f (x∗ )
< 0 für t = 1
t
Widerspruch
6
6
Normalenkegel von x∗
Skalarprodukt
19
2.4. GRADIENTENVERFAHREN UND IHRE BESCHLEUNIGUNG
Satz 3: (Hinreichende Optimalitätsbedinung 2. Ordnung)
Sei f : Rn → R zweimal stetig differenzierbar und sei x∗ ∈ Rn kritischer Punkt von f (∇f (x∗ ) =
~0)
x∗ ist lokales Minimum von f g.d.w. der Hessian ∇2 f (x∗ ) positiv |semidefinit
{z } ist.
7
Sei e1 , . . . en - orthonormierte Basis in E und
x = x1 e1 + · · · + xn en d.h. (x1 , . . . , xn ) - Koordinaten
δf (x)
δf (x)
,...,
Komponenten von ∇f (x) sind:
δx1
δxn
 2

δ 2 f (x)
δ f (x)
 δx1 δx1 . . . δx1 δxn 


..
..

Komponenten von ∇2 f (x) : 
.
.


 δ 2 f (x)
δ 2 f (x) 
...
δxn δx1
δxn δxn
δ2f
n × n Matrix symmetrisch - Matrixelement i, j : ⇒
δxi δxj
Bsp.: f (x1 , x2 ) = x1 x2
1) x1 = x2 = x
f = x2
2) x1 = −x2 = x
2.4
2.4.1
f = −x2
Gradientenverfahren und ihre Beschleunigung
Abstiegsverfahren
Unrestringierte Ausgabe: Sei f : E → R stetig differnzierbar
f (x) → min, x ∈ E
Abstiegsverfahren:
1. xk+1 = xk + αpk und f (xk+1 ) < f (xk )
2. xk → x∗ und ∇f (x∗ ) = 0
k→∞
A. Verfahren des steilsten Abstiegs
pk = −∇f (xk ) = −∇fk
αk aus: Minimum von f auf dem Strahl xk + αpk
ϕ(α) = f (xk + αpk )
αk = arg min ϕ(α) ⇒ ∇f (xk + αk pk ), pk = 0 !
α
7
alle Eigenwerte sind 0
20
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Praktisch meist nicht möglich → αk heuristisch bestimmen. z.B. so dass (Wolfe)
f (xk + αk pk ) ≤ f (xk ) + c1 αk < ∇fk , pk >
"
#
dafür ist es aber notwendig, dass die Schrittweite αk nicht zu klein gewählt wird. Dort
können wir aus den Gradienten zu nutze machen. (Richtungswechsel des Gradienten als
Maß [bzw. wie weit dreht sich Gradient aus Strahl heraus])
| ∇f (xk + αk pk ), pk ≤ c2 | ∇fk , pk
mit 0 < c1 < c2 < 0, 5
B. Newton Verfahren
Bei ’guten’ Funktionen ([beliebig]oft differnzierbar, oder sogar unendlich oft) kann man
Funktion auch als Taylor - Reihe aufschreiben:
1
p, ∇2 fk p
f (xk + p) ≈ f (xk ) + hp, ∇fk i +
|
{z 2
}
h(p)
min h(p) → Gradient bezüglich p : ∇fk + ∇2 fk p = 0
−1
pk+1 = − ∇2 fk
· ∇fk
• Falls Matrix ∇2 fk positiv definit8 → ∇2 fk ist invertierbar und pk+1 ist neue Abstiegsrichtung
• ’Natürliche’ Schrittweite ist 1
2.4.2
Verfahren der konjugierten Gardienten
2.4.2.1
Lineare Gleichungen und konjugierte Richtungen
Sei A eine symmetrische und positiv definite n × n Matrix und b ∈ Rn . Gesucht:
Ax = b
(Prinzipiell wäre das leicht durch invertieren der Matrix möglich [muss laut Vorraussetzung möglich
sein], was aber bei einer größeren Matrix eher ineffektiv ist.
wir benötigen effektiveres Verfahren)
Äquivalent:
1
ϕ(x) = hx, Axi − hb, xi
2
ϕ(x) → minx∈Rn
Def.: Die Richtungen p0 , p1 ,. . . , pl ∈ Rn sind konjugiert bezüglich A falls:
i
p , Apj = 0
∀i 6= j
Konjugierte Richtungen sind linear unabhängig.
8
alle ihre Eigenwerte sind streng nicht negativ
21
2.4. GRADIENTENVERFAHREN UND IHRE BESCHLEUNIGUNG
Bezeichnung: r(x) = ∇ϕ(x) = Ax − b
Satz: Seien p0 , p1 ,. . . , pn−1 bezüglich A konjugiert. Das Verfahren
xk+1 = xk + αk pk
mit
k k
p ,r
αk = arg min ϕ(xk + αpk = − k
hp , Apk i
terminiert nach n Schritten im Minimum von ϕ.
Beweis:
a)
1
k
x + αpk , A(xk + αpk ) − b, xk + αpk
2
1
= α2 pk , Apk + α pk , Axk − α b, pk
2
1 = α2 pk , Apk + α < pk , rk > + const
2
k k
p ,r
⇒ αk = − k
hp , Apk i
X
b) Sei x∗ =
σk pk Lösung. Aus Ax∗ − b, pk = 0 folgt
ϕ(xk − αpk ) =
*
+
X
0
A(
σk0 pk
=
k0
*
X
+
k0
σk0 Ap − b, pk
=0
k0
k k
r ,p
b, pk
=! k
⇒ σk = k
k
hp , Ap i
hp , Apk i
2.4.2.2
Verfahren der konjugierten Gradienten (linear)
pk kann aus pl−1 bestimmt werden
pk = −∇ϕ(xk ) + βk pk−1 = −r + βk pk−1
rk , Apk−1
Mit βk = k−1
hp , Apk−1 i
2.4.2.3
Verfahren der konjugierten Gradienten (nicht linear) (von Polak, Ribiere)
f : Rn → R, f -stetig differenzierbar, X 0 ∈ Rn
Algorithmus
Start: f (x0 ) = f0 , ∇f0 = ∇f (x0 ), p0 = −∇f0 , k = 0
Solange ∇fk 6= 0
• Minimiere f auf dem Strahl xk + αpk und setze
xk+1 = xk + αk pk
22
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
• Berechne ∇fk+1 = ∇f (xk+1 )
βk+1 =
h∇fk+1 , ∇fk+1 − ∇fk i
||∇fk ||2
• Setze pk+1 = −∇fk+1 + βk · pk
Praxis: Minimierung auf Strahl ersetzen durch heuritische Bestimmung von αk
Sind dabei Wolfe - Bedingungen erfüllt
∇fk , pk = −||∇fk ||2 + βk ∇fk , pk−1 < 0
2.5
Optimierung unter Nebenbedingungen
Seien f, gi : Rn → R differnzierbar; i ∈ I(beliebig unendliche Indexmenge)
Betrachten wir:


minn f (x)

x∈R
(1) gi (x) = 0 ∀ ∈ I1
I1 ∪ I2 = I


g (x) ≥ 0 ∀ ∈ I
I ∩I =∅
i
2
1
2
Bsp.1: (Eine Gleichungsbedingung)
• Die Gleichung g(x) = 0 definiert eine Fläche mit dim = n − 1 im Rn . z.B. g(x) =
||x||2 − r2 definiert eine Sphäre mit Zentrum in ~0 und Radius r.
• Sei x∗ ein Punkt dieser Fläche ⇒ Tangentialebene definiert durch alle Richtungen d ∈ Rn
h∇g(x∗ ), di = 0
• Abstiegsrichtungen von f in x∗ :
h∇f (x∗ ), di < 0
- offener Halbraum
Ist x∗ lokales Minimum von f auf g(x) = 0, so darf es keine Richtung d geben, die beides erfüllt.
⇒ ∇f (x∗ ) parallel zu ∇g(x∗ )
⇒ ∇f (x∗ ) = λ∇g(x∗ )
z.B. f (x) = − ha, xi2 ∇f (x) = −2 ha, xi a
ha, xi a = λx
∇g(x) = 2x
Bsp.2: (Eine Ungleichungsbedingung
• Die Umgebung g(x) ≥ 0 definiert ein abgeschlossenes Gebiet
z.B. x ∈ R2 , g(x) = g(x1 , x2 ) = x2 − x21
• Fallunterscheidung
a) Minimalpunkt x∗ von f liegt im Inneren
⇒ f (x∗ ) = 0
23
2.6. LINERARE OPTIMIERUNG UND DUALITÄT
b) Minimalpunkt x∗ liegt auf dem Rand
– zulässige Richtungen bezüglich Nebenbedingungen
h∇g(x∗ ), di ≥ 0
- abgeschlossener Halbraum
– Abstiegsrichtung von f
h∇f (x∗ ), di < 0
- offener Halbraum
⇒ ∇f (x∗ )und∇g(x∗ ) zeigen in dieselbe Richtung
d.h. ∇f (x∗ ) = λg(x∗ )
,λ > 0
a) + b) (
∇f (x∗ ) = λ∇g(x∗ )
λg(x∗ ) = 0
,λ ≥ 0
Satz 1: Sei x∗ Lösung von
Zahlen (notwendige Bedinngung) λ0 , λi , i ∈ I mit λi ≥
 (1). Dann ∃X
∗
λ0 ∇f (x ) =
λi ∇gi (x∗ )
0, ∀i ∈ I2 , so dass
i∈I

λi gi (x∗ ) = 0
Bemerkung: Lagrange - Koeffizienten → λi
Lagrange Funktion:
X
L(x, λ) = λ0 f (x) −
λi gi (x)
i∈I
Satz 2: (Karnish, Kuhn, Tucher)
(hinreichende Bedingung)
Seien in (1) die Funktionen f, gi , ∀i ∈ I2 9 konvex, und die Funktionen gi (x), ∀i ∈ I1 10 linear.
Existiere weiterhin ein x mit
gi (x) = 0 ∀i ∈ I1 , gi (x) > 0 ∀i ∈ I2 .
Gelte für eien zulässigen Punkt x∗ (erfüllt (1)) und λi , λi ≥ 0∀i ∈ I2
X
∇f (x∗ ) =
λi ∇gi (x∗ )
i∈I
λi gi (x∗ ) = 0 ∀i ∈ I
so ist x∗ Lösung von (1).
2.6
Linerare Optimierung und Dualität
Hinweis: Lösungsverfahren wie das Simplexverfahren oder das Ellipsiodverfahren sollen hier nicht
näher betrachtet werden, da diese in der Literatur wie z.B. Bronstein gefunden werden können.
Seien c ∈ Rn , b ∈ Rm und A eine m × n Matrix
⇒
( Lineare Optimierungsaufgabe
hc, Xi → min x ∈ Rn
Ax ≥ b
(1)
9
10
Ungleichungen
Gleichungen
24
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Bemerkungen:
• x ≥ x0 ⇐⇒ xi ≥ x0i
∀i
• Die Aufgabe (1) ist konvex ⇒ jedes Minimum ist global
• Geometrische Interpretation: Seien ai ∈ Rn , i = 1, . . . , m die Zeilen von A. Die Bedingungen hai , xi ≥ bi , ∀i = 1, . . . , m definieren Halbräume des Rn
Die Lagrange Funktion der Aufgabe ist
L(x; y) = hc, xi − hy, Ax − bi
x ∈ Rn , y ∈ R m
+
Sie enthält die gesamte
Information über (1)
(
hc, xi fallsAx ≥ b
max
L(x;
y)
=
y∈Rm
+∞ sonst
+
Bezeichne p ∈ [−∞, +∞) den Optimalwert von (1)
p = minn max
L(x; y)
x inR y∈Rm
+
|
{z
}
(2)
p = max
minn L(x; y)
m
(3)
11
Assoziiertes Problem
y∈R+ x inR
Dieses duale Problem habe den Optimalwert d. Es gilt d ≤ p.
Betrachten wir
ψ(y) = minn L(x; y) = minn [hc, xi − hy, Ax − bi]
x∈R
x∈R
T
= minn c − A y, x + hy, bi
x∈R
(
hy, bi fallsAT y = c
ψ(y) =
−∞ sonst
D.h. das duale Problem (3) kann äquivalent geschrieben werden:
(
hy, bi → max
AT y = c
y ∈ R+
m (4)
(4)
Sein Optimalwert sei d und es gilt d ≤ p.
Frage: Gilt d = p? Wann? (
11
Ist es egal welches Problem man löst?)
⇒ ist äquivalent zur Formulierung von (1)
2.6. LINERARE OPTIMIERUNG UND DUALITÄT
25
Ein Schritt zur Seite
Lemma (Farkas) ohne Beweis: Seien ai ∈ E, i = 1, . . . , m und c ∈ E. Dann besitzt
genau eines der folgenden Systeme eine Lösung
a)
m
X
λi ai = c, λi ≥ 0, ∀i = 1, . . . , m
i=1
b) hai , xi ≥ 0, ∀i = 1, . . . , m, hc, xi < 0, x ∈ E
Anschaulich debeutet dass: entweder der Vektor c liegt in dem Kegel, welcher durch
alle möglichen positiven Linearkombinationen von ai aufgespannt wird oder es
existiert eine Ebene, wodurch der Kegel auf der einen Seite und c auf der anderen Seite liegt.
Angenommen
p ist endlich. Betrachten wir das ’homogenisierte’ System von Ungleichungen in Rn+1 :


x ∈ Rn
Ax − zb ≥ 0
z≥0
z ∈ Rn
(5)


hc, xi − pz < 0
Dieses System hat keine Lösung. Denn:
a) Sei z > 0.
Bezeichne x0 = 12 x
0
Ax ≥ b
hc, x0 i < p → Widerspruch
b) Sei z = 0.
Ax ≥ 0 hc, xi < 0
∗
Gelte für x
Ax∗ ≥ b
Betrachte Strahl x∗ + tx → Widerspruch (da der Strahl immer weiter ins negative gehen würde,
−∞ ist aber keine Lösung)
Wendet man das Lemma von Farkas an ⇒
∃y ∈ Rm
+ , β ∈ R+ mit
AT y = c, hb, yi = p + β
Es folgt d ≥ p und wegen d ≤ p schließlich d = p .
Satz 1: (Erster Dualitätssatz) Ist der Optimalwert des primalen Problems (1) endlich, so stimmt er
mit dem Optimalwert der dualen Aufgabe (4) überein.
Bemerkung: Falls in (1) lineare Gleichungen als Nebenbedingungen auftreten, so kann man sie
durch Paare von Ungleichungen ersetzen.
Dualität in allgemeiner Form:
primales Problem

0
0

x ∈ Rn+1
x0 ∈ Rn2
hc, xi + hc , x i → min
A1,1 x + A1,2 x0 ≥ b


A2,1 x + A2,2 x0 = b0
A.,. sind Matrizen mit folgenden Dimensionen
26
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
A1,1 - m1 × n1 ; A1,2 - m1 × n2 ; A2,1 - m2 × n1 ; A2,2 - m2 × n2
duales Problem

0 0

hb, yi + hb , y i → max
AT1,1 y + AT2,1 y 0 ≥ c

 T
A1,2 y + AT2,2 y 0 = c0
1
y ∈ Rm
+
y 0 ∈ Rm2
⇒ Beide Probleme sind also äquivalent.
Satz 2: Sei (x̃, x̃0 ) Lösung des primalen Problems und (ỹ, ỹ 0 ) Lösung des dualen Problems. Dann
gilt:
hỹ, (A1,1 x̃ + A1,2 x̃0 )i = 0
x̃, (AT1,1 y + AT2,1 ỹ 0 ) = 0
Bemerkung: Da oben alle Komponenten aller Vektoren in den Skalarprodukten nicht negativ sind,
gelten die entsprechenden Gleichungen auch komponentenweise.
2.7
Die Neyman Pearson Aufgabe
(Ein Beispiel für Nicht-Bayesche Strategien in der Mustererkennung)
Objekt:
Merkmal x ∈ X
Zustände k = 1, 2 mit
(z.B. Kernkraftwerk)
k = 1 - Normalzustand
k = 2 - gefährlicher Zustand
Statistischer Zusammenhang p(x|k) bekannt (aber p(k) =?)
Ziel: Entscheidung über Zustand anhand von x
D.h. Partitionierung von X
X1 ∪ X2 = X
X1 ∩ X2 = ∅
Zwei nichtvergleichbare Fehlerarten:
X
w1 =
p(x|1)=Wahrscheinlichkeit
ˆ
des Fehlalarms
x∈X2
w2 =
X
p(x|2)=Wahrscheinlichkeit
ˆ
der übersehenen Gefahr
x∈X1
Gesuchte
 X Strategie:

p(x|1) → min


(X1 ,X2 )


x∈X2
(Wahrscheinlichkeit des Fehlalarms minimieren)
X1 ∩ X2 = ∅ X1 ∪ X2 = X
(unter der Nebenbedingung, dass Wahrscheinlichkeit eines übersehenen Fehlers maximal ist.)
x∈X1
X
Andere Darstellung: αX × K → 0, 1,
α(x, k) = 1 ∀x ∈ X

X



p(x|2) ≤ 

k
w1 =
X
x∈X
α(x, 2)p(x|1)
27
2.7. DIE NEYMAN PEARSON AUFGABE
w2 =
X
α(x, 1)p(x|2)
x∈X
Gesuchte
Strategie:
X

α(x, 2)p(x|1) → min α(x, k) = [0, 1]12


α


x∈X



m
X

α(x, 1)p(x|2) ≤ α(x, k) ≥ 0




x∈X


α(x, 1) + α(x, 2) = 1
∀x ∈ X
Duale
 X Aufgabe

t(x) − τ → max τ ≥ 0


t,τ
x∈X
t(x) − p(x|2)τ ≤ 0



t(x) ≤ p(x|1)
∀x
∀x
für duale τ ≥ 0
t(x) - duale Variable für jedes x
α(x, 1)
α(x, 2)
2. Dualitätssatz: Für die Lösung α∗ (x, k), τ ∗ , t∗ (x)
[t∗ (x) − p(x|2)τ ∗ ] α∗ (x, 1) = 0 ∀x
[t∗ (x) − p(x|)] α∗ (x, 2) = 0
∀x
Folglich ∀x muss ein der beiden Ungleichungen als Gleichung erfüllt sein ⇒
t∗ (x) = min [p(x|2)τ ∗ , p(x|1)]
a) p(x|1) < τ ∗ p(x|2) → t∗ (x) = p(x|1) ⇒ α∗ (x, 2) = 1
b) p(x|1) > τ ∗ p(x|2) → t∗ = τ ∗ p(x|2) → α∗ (x, 1) = 1
Die optimale Strategie
(
k=1
p(x|1) > ∗
τ =
p(x|2) <
k=2
12
Relaxation
28
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Kapitel 3
Diskrete Optimierung
3.1
Optimierung auf Graphen
Gewichteter Graph G(V, E, w) mit
V - Menge der Knoten, |V | = n
E - Menge aller Kanten
a) gerichteter Graph
b) ungerichteter Graph
R⊂V ×V
E ⊂ {M ⊂ v||M | = 2}
w - Kantengewichte, d.h. w : E → R
A) Kürzeste Pfade
Seien s, t zwei Knoten und pst = (v1 = s, v2 , . . . , vn = t) ein Pfad der s und t verbindet, d.h.
(vi , vi+1 ) ∈ E ∀i
n−1
X
Länge des Pfades l(pst ) =
w(vi , vi+1 )
i=1
Länge des kürzesten Pfades l(s, t) = min l(pst )
pst
Seien A, B ⊂ V , dann
’(A, B) - kürzeste Pfade Problem ’ =
ˆ Finde für jedes Paar s, t mit s ∈ A und t ∈ B die
Länge des kürzesten Pfades l(s, t).
Aufgabe ist korrekt gestellt, falls
(a) ∀s ∈ A, ∀t ∈ B∃ ein Pfad der s und t verbindet
(b) Kein Pfad von s nach t enthält Zyklen negativer Länge
(damit Länge nicht −∞ wird)
Wir betrachten ’({s}, V ) - kürzeste Pfade Problem’
( spannt einen Baum auf)
Bezeichne l(t) = l(s, t), l(s) = 0
Bellman: Die gesuchten l(t), t ∈ V sind Lösung des Systems von Gleichungen
(
a(s) = 0
u(t) = min [a(x) + w(x, t)] ∀t 6= s
x6=t
(Falls (x, t) ∈
/ E ⇒ w(x, t) = +∞ )
29
30
KAPITEL 3. DISKRETE OPTIMIERUNG
Algorithmus (Ford):
f (t) - pointer auf Knoten
Initialisiere: u(s) = 0 u(t) = ∞ ∀t = s, f (t) = nil ∀t ∈ V
Körper while nicht alle Gleichungen erfüllt do
begin
scan: Bestimme t 6= s für das ∃x 6= t mit
u(t) > u(x) + w(x, t)
label: u(t) = u(x) + w(x, t)
f (t) = x
end
(Klasse dieser Algorithmen unterscheiden sich nur im ’Scan - Teil’
z.B. wenn alle w(x, y) ≥ 0
Dijkstra)
Sei F ⊂ V Teilmenge für die der Algorithmus die l(t) bereits berechnet hat und I = V \ F .
Initialisiere:
Körper:
u(s) = 0, u(t) = w(s, t) ∀t 6= s, f (t) = s, F = {s} , I = V \ {s}
while I = ∅ do
begin
scan:
Finde t ∈ I mit minimalen u(t)
Fi = F ∪ {t} , I := I \ {t}
update: ∀ Nachbarn x von t , x ∈ I
u(x) = min [u(x), u(t) + w(t, x)]
f (x) = t falls u(t) + w(t, x) < u(x) war
end
Algorithmus benötigt (|E| = e, |V | = n)
O(e) updatet + Management der Prioritätsschlange
(a) Falls einfache Liste O(n) Iterationen, O(n2 ) insgesamt
(b) Falls Prioritätsschlange (Standard) O(deg(t) log n) pro Iteration → O(e log n) insgesamt
B) Maximal aufspannende Bäume
Sei G(V, E, w) ein gewichteter ungerichteter Graph
Def.: Aufspannender Baum: T ⊂ E mit G(V, T ) ist Baum. Seine Qualität ist
X
L(T ) =
w(e)
e∈T
Gesucht: Maximaler aufspannender Baum
Algorithmus (Boruvka 1926)
(a) Ordne E nach Längen: E = (e1 , e2 , . . . , en ) mit w(ei ) ≥ w(ej ) ∀i ≤ j
(b) for k = 1, k ≤ m, k + +
ek = {i, j} falls @ Weg zwischen i und j in T 0
dann T 0 := T 0 ∪ {ek }
Beweis: (Seien der Einfachheit halber alle w(e) unterschiedlich)
Behauptung 1: Sei e1 die längste Kante in E und T ∗ ein MST ⇒ e1 ∈ T ∗
31
3.2. DYNAMISCHE OPTIMIERUNG
Behauptung 2: Sei T ∗ ein MST und T 0 ⊂ T ∗
Sei e ∈ E, e = {i, j} die Kante für die gilt
(a) i und j sind in T 0 durch keinen Weg verbunden
(b) Unter allen solchen sei e die längste Kante. Dann folgt e ∈ T ∗ .
C) Traveling Salesman Problem
G(V, E, W ) - ungerichteter Graph mit Kantengewichten
Hamiltonscher Zyklus: Geordnete Liste (v1 , . . . , vn ) aller Knoten des Graphen mit {vi , vi+1 } ∈
E ∀i = 1, . . . , n und {v1 , vn } ∈ E.
Gesucht: kürzester Hamiltonscher Zyklus
→ ist NP - vollständig
D) Min-Cut Problem
G(V, E, W ) - gerichteter Graph mit Kantengewichten
s, t ∈ V , (s − t) - Schnitt - Partitionierung in 2 Teilmengen
S ∪ T = V, S ∩ T = ∅, s ∈ S, t ∈ T
Kosten eines (s − t) - Schnitts:
XX
G(S, T ) =
w(v, v 0 )
v∈S v 0 ∈T
Gesucht: (s − t) - Schnitt mit minimalen Kosten
E) Max Flow Problem
G(V, E, w) - gerichteter Graph mit Kantengewichten (Kapazitäten)
s, t ∈ V
(s − t) - Fluß =
ˆ f : E → R mit ∀v 6= s, t gilt
X
X
f (v 0 , v) =
f (v, v 0 )
v 0 :(v 0 ,v)∈E
v 0 :(v,v 0 )∈E
zulässiger Fluß: f (v, v 0 ) ≤ w(v, v 0 ) ∀v, v 0 ∈ E
Gesucht: Maximaler Fluß von s nach t


X
X
f (s, v) −
f (v, s) =
v:(s,v)∈E
3.2
{z
1
f (v, t) −
v:(v,t)∈E
v:(v,s)∈E
|

X
}
Dynamische Optimierung
• Sei k = (k1 , . . . , kn ) (Zustands)folge der Länge n mit ki ∈ K
• Bewertung der Folge:
G(k) = ϕ(k1 ) +
n−1
X
i=1
1
kann man normalerweise verhindern
gi (ki , ki+1 )

X
v:(t,v)∈E
f (t, v)
32
KAPITEL 3. DISKRETE OPTIMIERUNG
• Gesucht: Folge k ∗ mit maximaler Bewertung
k ∗ = arg max G(k)
k
Interpretation als Suche des besten Pfades
Sei fi (k) - Bewertung des besten Pfades von s zum Knoten (i, k)
f1 (k) = ϕ(k)
fi (k) = max
[fi−1 (k 0 ) + gi−1 (k 0 , k)]
0
k
zusätzlich Pointer indi (k) zeigt auf Vorgängerknoten im besten Weg
indi (k) = arg max
[fi−1 (k 0 ) + gi−1 (k 0 , k)]
0
k
Bisher:
X
Bewertung eines Pfades :
der Kantenbewertungen
Gesucht: (Pfad mit) max Bewertung
Was wenn:
Bewertung des Pfades
Gesuchte
L J
Sei (R, , ) Semiring
X
X
max
min
max min
min
max
Q
X
J2
L3
a ⊕ (b ⊕ c) = (a ⊕ b) ⊕ c = a ⊕ b ⊕ c
a (b c) = (a b) c
a⊕b=b⊕a
ab=ba
0⊕a=a
1a=a
a (b ⊕ c) = (a b) ⊕ (a c)
Nach wie vor k = (k1 , . . . , kn ) - Zustandsfolge und
G : k → R mit
"
G(k) = ϕ(k1 ) n−1
K
#
gi (ki , ki+1
i=1
gesucht
d=
M
k1
···
M
G(k)
kn
Dynamische Berechnung: fi : K → R
f1 (k) = ϕ(k)
M
fi (k) =
[fi−1 (k 0 ) gi−1 (k 0 , k)]
k0
3
3
verallgemeinerte Multiplikation
verallgemeinerte Summe
Index
NC , 17
ξ, 9
Kürzeste Pfade, 29
Karnish, 23
Karnish, Kuhn, Tucher, 23
Kegel, 15
konjugiert, 20
konvex, 14
konvexe Funktionen, 15
Korrelationskoeffizient, 11
Kovananz, 11
Kronecker Symbol, 14
Kuhn, 23
abgeschlossen, 14
abgeschlossene Menge, 14
abgeschlossener Kegel, 15
Abstiegsverfahren, 19
allgemeine Form der Dualität, 25
Axiome der Wahrscheinlichkeit, 4
Basis, 13, 14
Bayes - Formel, 5
Bedingte Wahrscheinlichkeit, 5
Bellman, 29
Bilinearität, 13
Lagrange, 24
Lagrange Funktion, 24
Lemma von Farkas, 25
Lineare Gleichungen und konjugierte Richtungen, 20
Lineare Optimierung, 23
Linearer Raum, 13
Linerare Optimierung und Dualität, 23
Diskrete Optimierung, 29
duale Problem, 24
duales Problem, 26
Dualität, 23, 25
Dynamische Optimierung, 31
Münze, 3
Matrixmultiplikation, 8
Max Flow Problem, 31
Maximal aufspannender Baum, 30
Menge, abgeschlossen, 14
Menge, offen, 14
Min-Cut Problem, 31
monoton wachsend, 9
Ereignis, 3
Ergebnis - Algebra, 4
Ergebnisalgebra, 4
Erster Dualitätssatz, 25
Farkas, 25
fixiertes Ereignis, 5
Folgeräume, 6
Ford, 30
Funktionen, konvex, 15
Funktionen, stetig, 15
gerichteter Graph, 29
Gewichteter Graph, 29
Gradient, 17
Gradientenverfahren, 19
hinreichende Bedingung, 23
Hinreichende Optimalitätsbedingung 1. Ordnung,
18
Hinreichende Optimalitätsbedinung 2. Ordnung,
19
33
NB, 17
Nebenbedingung, 17
Newton Verfahren, 20
Neyman Pearson Aufgabe, 26
Normalenkegel, 18
notwendige Bedinngung, 23
Notwendige Optimalitätsbedingung 1. Ordnung,
18
offen, 14
offene Menge, 14
Optimalitätsbedingungen, 17
Optimalwert, 24
34
Optimierung auf Graphen, 29
Optimierung unter Nebenbedingungen, 22
Optimierungsaufgabe, 17
orthonormiert, 14
orthonormierte Basis, 14
positiv semidefinit, 16
Positivität, 13
primales Problem, 25
Prioritätsschlange, 30
Richtungsableitung, 17
semidefinit, 16
semidefinit, positiv, 16
Skalarprodukt, 18
Sprachgebrauch, 3
stetige Funktionen, 15
Streuung, 11
Symmetrie, 13
symmetrisch, 16
symmetrische Abbildung, 16
Tangentialebene, 22
Tetraeder, 7
Traveling Salesman Problem, 31
Tucher, 23
Typische Optimierungsaufgabe, 17
unabhängige Zufallsgröße, 10
unabhängiges Ereigniss, 5
ungerichteter Graph, 29
Verfahren der konjugierten Gardienten, 20
Verfahren der konjugierten Gradienten (linear),
21
Verfahren der konjugierten Gradienten (nicht
linear) (von Polak, Ribiere), 21
Verfahren des steilsten Abstiegs, 19
Wahrscheinlichkeit, 3, 4
Wappen, 3
Zufall, 3
Zufallsgröße, 9
Zufallsgrößen, 9
Zusammengesetzte Ereignisse, 4
INDEX
Herunterladen
Explore flashcards