Optimierung f¨ur Neuronale Netze

Optimierung für Neuronale Netze
Frank Mächold
Oktober 2004 - Januar 2005
ii
Inhaltsverzeichnis
1
2
3
Grundlagen der Wahrscheinlichkeit
1.1 Raum der Elementarereignisse . . . . . .
1.1.1 Zusammengesetzte Ereignisse . .
1.2 Axiome der Wahrscheinlichkeit . . . . . .
1.3 Bedingte Wahrscheinlichkeit . . . . . . .
1.3.1 Bayes - Formel . . . . . . . . . .
1.4 Folgeräume . . . . . . . . . . . . . . . .
1.4.1 Spezialfälle . . . . . . . . . . . .
1.5 Zufallsgrößen . . . . . . . . . . . . . . .
1.5.1 Zwei Typen von Zufallsgrößen . .
1.5.2 Charakteristika von Zufallsgrößen
.
.
.
.
.
.
.
.
.
.
3
3
4
4
5
5
6
6
9
10
11
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
15
15
17
17
19
19
20
22
23
26
Diskrete Optimierung
3.1 Optimierung auf Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Dynamische Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
29
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Optimierung auf Euklidischen Räumen
2.1 Euklidische Räume und lineare Abbildungen . . . .
2.1.1 Offene, abgeschlossene und konvexe Menge .
2.1.2 Stetige und konvexe Funktionen . . . . . . .
2.2 Lineare Abbildungen . . . . . . . . . . . . . . . . .
2.3 Optimalitätsbedingungen . . . . . . . . . . . . . . .
2.3.1 Richtungsableitung und Gradient . . . . . .
2.4 Gradientenverfahren und ihre Beschleunigung . . . .
2.4.1 Abstiegsverfahren . . . . . . . . . . . . . .
2.4.2 Verfahren der konjugierten Gardienten . . . .
2.5 Optimierung unter Nebenbedingungen . . . . . . . .
2.6 Linerare Optimierung und Dualität . . . . . . . . . .
2.7 Die Neyman Pearson Aufgabe . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
INHALTSVERZEICHNIS
Kapitel 1
Grundlagen der Wahrscheinlichkeit
Sprachgebrauch: Zufall, Wahrscheinlichkeit, Ereignis
Bsp.1: Symmetrische Münze werfen
Relative Häufigkeit von W: ωn →
1
2
für n → ∞
Bsp.2: Münze 10 mal geworfen
10mal kam Wappen, was passiert beim 11.mal?
(hier ändert sich die Wahrscheinlichkeit für Wappen bzw. Zahl natürlich nicht, beides ist gleich
wahrscheinlich
Bsp.3: Ich weiß nicht ob es heute regnet oder nicht.
→ Wahrscheinlichkeit für Regen = 12 ?
(folgt natürlich nicht!)
Experimente unter gleichbleibenden Bedingungen sehr oft wiederholen → Relative Wahrscheinlichkeit strebt gegen P(A).
Wahrscheinlichkeit ist Funktion des zufälligen Ereignis.
1.1
Raum der Elementarereignisse
Ω - beliebige Menge =
ˆ Raum der Elementarereignisse ω ∈ Ω - mögliche einander außschließende
Ereignisse des Experiments
Bsp.1: Münze 1mal werfen Ω={z,w}
Bsp.2: Münze n-mal werfen Ω={z,w}n , z.B. ω=(z,w,w,z,. . . )
Bsp.3: Ein Punkt wird in die Ebene ”geworfen”
Koordinatensystem einführen
Ω = R2 d.h. Ω = {(x,y) | x,y ∈ R}
(hat Mächtigkeit des Kontinuums
3
4
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
Bsp.4: Ein Buchstabe wird gedruckt und eingescannt
Buchstaben k∈K, K={a,b,c,. . . }
Bild → binär
Definitionsbereich: R={(i,j), 1 ≤ i ≤ n, 1 ≤ j ≤ n, i,j ∈ Z}
(Farb)Wertebereich: F={0,1}
Bild: Abbildung X: R →F
Menge aller Bilder A(R,F)
Raum der Elementarereignisse:
Ω = {(k, x)|k ∈ K, x ∈ A(R, F )}
1.1.1
Zusammengesetzte Ereignisse
Zusammengesetzte Ereignisse sind alle Teilmengen A ⊂ Ω.
Bsp.5: Punkt aus Bsp.3 fällt in Kreis mit Zentrum in Koordinatenursprung und mit Radius r
A = {(x, y)|x2 + y 2 ≤ r2 }
Bsp.6: Buchstabe aus Bsp.4 war ein ’t’ und hat im Pixel (i0 , j0 ) den ”Farbwert” 1.
A = {(k, x)|k = ”t”; x(i0 , j0 ) = 1}
Menge der Ereignisse ist bezüglich folgender Operationen abgeschlossen:
A, B ⊂ Ω - Ereignisse
A ∪ B, A ∩ B, A \ B - Ereignisse
1.2
Axiome der Wahrscheinlichkeit
Sei Ω eine beliebige Menge und F ein System von Teilmengen der Menge Ω.
• F heißt Ergebnis - Algebra
1. Ω ∈ F
2. A,B∈F folgt A ∪ B, A ∩ B, A \ B ∈ F
Bsp.1: F - Menge aller Teilmengen von Ω
Bsp.2: Ω - {(x, y)|0 ≤ x, y ≤ 1}
F - Menge der quadrierbaren Teilmengen in Ω
• Wahrscheinlichkeit: P: F→ R
1. F - Ergebnisalgebra
2. P(A)≥0 ∀A∈F
3. P(Ω)=1
5
1.3. BEDINGTE WAHRSCHEINLICHKEIT
4. Falls A∩B=∅ dann P(A∪B)=P(A)+P(B)
∞
\
5. Für jede abnehmende Folge A1 ⊃A2 ⊃A3 ⊃. . . aus F mit
An = ∅ gilt lim P(An ) = 0
n=1
n→∞
Bsp.3: Ω - endlich, |Ω| = n, F - Potenzmenge
Seien pω , ω ∈ Ω n nichtnegative Zahlen mit
X
pω = 1
ω
,dann ist P(A) =
X
pω .
ω∈A
1.3
Bedingte Wahrscheinlichkeit
Bsp.1: Würfel. . . Die größte Zahl war 6.
Wie groß ist dabei die Wahrscheinlichkeit, dass der 1. Würfel eine 3 gewürfelt hat?
Def.: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, A, B ∈ F und P (B) > 0. Wahrscheinlichkeit des
Ereignisses A unter der Bedingung, dass B eintrat ist:
P (A ∩ B)
P (B)
P (A|B) =
Sei B ein fixiertes Ereignis (B ∈ F), mit P (B) > 0, dann erfüllt die Funktion PB : F → R
(A) = P (A|B)
alle Axiome einer Wahrscheinlichkeit. Zusätzlich gilt
PB (B) = 1
PB (A|C) = P (A|B ∩ C)
Aus P (A ∩ B) = P (A|B)P (B) folgt per Induktion
P (A1 ∩ A2 ∩ . . . ∩An ) = P (A1 )P (A2 |A1 ) . . . P (An |A1 ∩ · · · ∩ An−1 )
|
{z
}
B
(= P (A1 ∩ · · · ∩ An−1 )P (An |A1 ∩ · · · ∩ An−1 )
1.3.1
Bayes - Formel
Seien A, B1 , . . . , Bn ∈ F, Bi ∩ Bj = ∅ ∀i, j und A ⊂ B1 ∪ · · · ∪ Bn .
Dann gilt:
n
X
P (A) =
P (A|Bi )P (Bi )
{z
}
|
i=1
P (Bk |A) =
P (A∩Bi )
P (A ∩ Bk
P (A|Bk )P (Bk )
= n
X
P (A)
P (A|Bi )P (Bi )
i=1
Def.: Sei (Ω, F, P ) ein Wahrscheinlichkeitraum.
A,B ∈ F heißen unabhängig ⇐⇒ P (A ∩ B) = P (A)P (B).
6
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
1.4
Folgeräume
Ω = {(k1 , . . . , kn )|ki ∈ K, ∀i = 1, . . . , n}
F =ˆ alle Teilmengen von Ω
Die Zahlen p(k1 ), p(k2 |k1), . . . , p(kn |k1 , . . . , kn−1 )
|
{z
}
=p(kn |k1 ∩···∩kn−1 )
seien gegeben wird erfüllen:
X
1. p(k1 ) ≥ 0, (∀k1 ),
p(k1 ) = 1
k1 ∈K
2. p(k2 |k1 ) ≥ 0, (∀k1 , k2 ),
X
p(k2 |k1 ) = 1, (∀k1 ∈ K)
k2 ∈K
..
.
n. p(kn |k1 , . . . , kn−1 ) ≥ 0 (∀k1, . . . , kn ),
X
p(kn |k1, . . . , kn−1 ) = 1 (∀k1, . . . , kn−1 )
kn
1.4.1
Spezialfälle
a) p(ki |k1 , . . . , ki−1 ) hängt nicht von k1 , . . . , ki−1 ab ⇒ Folgen unabhängiger Tests
b) p(ki |k1 , . . . , ki−1 ) hängt von k1 , . . . , ki−2 ab ⇒ d.h. p(ki |k1 , . . . , ki−1 ) = p(ki |ki−1 )
⇒ Markow - Ketten
Bsp.1: p(k1 , . . . , kn ) = p(k1 ) · p(k2 ) . . . ·p(kn ) = pk1 · pk2 · . . . ·pkn mit pk ≥ 0,
X
pk = 1
k
Sei speziell |K| = 2 → p1 = p, p = 1 - p1 = q
Bezeichne µn - Anzahl der Zustände 1 in der Folge der Länge
n
P (µn = m) =
·
pm q n−m
| {z }
m
| {z }
W ahrscheinlichkeit
z.B.
einer
112
Anzahl
bestimmten
121 = c
der
Kombination
m
P ermutationen 211
z.B.112
..
.
Bsp.2: Seien (x1 , . . . , x10 ) - zehn Bilder, die jeweils eine (unbekannte) Ziffer ki ∈ {0, 1, 2, . . . , 9}
enthalten. Ein Erkennungsalgorithmus liefert die Zahlen (insgesamt 100)
pi (k) = p(ki = k|xi )
(Jedes Bild bekommt Wahrscheinlichkeit für jede der 10 Ziffern)
Wie groß ist die wahrscheinlichste Summe dieser Ziffern? (Ziffern werden unabhängig generiert)
gesucht ist also:
7
1.4. FOLGERÄUME
arg max p(s) = arg maxs
| {z s }
X
...
k1
X
p(k) =
X
...
X
k10 p1 (k1 ) · p2 (k2 )· . . . ·p10 (k10 )
k1
k10
1
Lösungsansatz: qi (s) für i=1, . . . ,10 ; s = 0, . . . ,90
qi (s)= Wahrscheinlichkeit dafür, dass die Summe der ersten i Ziffern s ist
(
p1 (s) f alls 0 ≤ s ≤ 9
q1 (s) =
0
sonst
qi (s) =
9
X
qi−1 (s − ki )pi (ki )
ki =0
Komplexität: n · 9 · n · 10 ∼ n2 · 100
Komplexität für die Berechnung jeder möglichen Summe ohne diesen iterativen Algorithmus: 10n · n
Bsp.2: Ein Tetraeder 2 mit unterschiedlich gefärbten Seitenflächen liegt mit der blauen Seite auf
einem Tisch. Es wird n-mal über eine zufällig gewählte Kante gekippt. Wie groß ist die Wahrscheinlichkeit, dass er danach wieder auf der blauen Kante liegt?
Die Farben des Tetraeders seien hier lila (l), grün (g), rot (r) und blau (b).
(
p(k |k ) =
| i{zi−1}
1
3
f alls ki 6= ki−1
f alls ki = ki−1
0
i−tes Kippen
ki ∈ {blau, rot, grün, lila}
(k0 , k1 , . . . , kn )
p(k0 , k1 , . . . , kn ) = p(k0 ) · p(k1 |k0 ) · · · · · p(kn |kn−1 )
(
1 f alls k0 = ”blau”
p(k0 ) =
0 sonst
XX
X
···
p(k0 )p(k1 |k0 ) . . . p(kn−1 |kn−2 )p(kn = ”blau”|kn−1 )
k0
=
X
k1
p(k0 )
k0
kn−1
X
p(k1 |k0 )
X
k1
=
X
p(k2 |k1 ) · · ·
k2
p(kn = ”blau”)
kn−1
X
p(kn−1 |kn−2 )p(kn = ”blau”|kn−1 )
kn−1
X
p(kn−1 |kn−2 ) · · ·
kn−2
X
p(k1 |k0 )p(k0 )
k0
⇒ Die einzelnen Wahrscheinlichkeiten für den i-ten Kippvorgang können basierend auf den
Wahrscheinlichkeiten des i-1-ten Kippvorgangs berechnet werden.
(
1 f alls k0 = ”blau”
ψ0 (k0 ) = p(k0 ) =
| {z }
0 sonst
0. Kippen
ψ1 (k1 ) =
X
p(k1 |k0 )ψ0 (k0 )
k0
1
2
welches Argument ergibt die größte Summe
Ein Tetraeder ist ein Körper, welcher aus 4 dreieckigen Grundflächen besteht.
8
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
ψ2 (k2 ) =
X
p(k2 |k1 )ψ1 (k1 )
k1
...
(siehe Tabelle 1.1)
Wie sich leicht sehen lässt, kann man diesen Sachverhalt auch als Matrixmultiplikation darstellen.

 

0 31 31 13
ψi−1 (lila)
 1 0 1 1  ψi−1 (grün)
3
3
3  

ψi = 
 1 1 0 1  •  ψi−1 (rot) 
3
3
3
1
1
1
0
ψi−1 (blau)
} |
{z
}
| 3 3 {z 3
=P
~i−1
ψ
~n = P · P · P . . . ·ψ
~
ψ
|
{z
} 0
n−mal
Farbe
lila
grün
rot
blau
ψ0
0
0
0
0
ψ1
ψ2
1
3
1
3
1
3
2
3
2
3
2
3
1
3
0
ψn
...
...
...
...
gesucht!
Tabelle 1.1: Iterative Berechnung der Wahrscheinlichkeiten der auf dem Tisch liegenden Tetraederfläche
Nun muss noch die Anzahl der Folgen (k0 , k1 , . . . , kn ) mit k0 = kn = ”blau” und k1 , k2 , . . . , kn−1 ∈
{lila, grün, rot, blau}:
Überlegen wir uns erst einmal für wenige Kippvorgänge die Anzahl der möglichen Kombinationen (siehe Tabelle 1.2)
Farbe
lila
grün
rot
blau
0. Kippen
0
0
0
1
1. Kippen
1
1
1
0
2. Kippen
2
2
2
3
3. Kippen
7
7
7
6
4. Kippen
20
20
20
21
5. Kippen
61
61
61
60
Tabelle 1.2: Anzahl der Folgen für Kippvorgang des Tetraeders
⇒
nb (i) - Anzahl der Folgen die zu blau führen
nb (i) - Anzahl der Folgen die zu einer anderen Farbe als blau führen
nb (i) = 3 · nb (i − 1)
nb (i) = 2 · nb (i − 1) + nb (i − 1)
nb (i) = 2 · nb (i − 1) + 3 · noverlineb (i − 2)
...
...
...
...
9
1.5. ZUFALLSGRÖSSEN
1.5
Zufallsgrößen
Def.: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Eine Funktion ξ:Ω → R heißt Zufallsgröße, wenn
für alle x ∈ R
{ω ∈ Ω|ξ(ω) ≤ x} ∈ F
gilt.
Da F - Ergebnisalgebra, folgt
{ω ∈ Ω|ξ(ω) ≥ x}=(ξ
ˆ ≥ x) = (ξ ≤ x) ∈ F
(x1 ≤ ξ ≤ x2 ) = (ξ ≤ x2 )|(ξ ≥ x1 ) ∈ F
(ξ = x) =
∞
\
1
(x ≤ ξ < x + ) ∈ F
2
i=1
Def.: Sei ξ : Ω → R eine Zufallsgröße (für den Wahrscheinlichkeitsraum (Ω, F, P ), dann heißt
Fξ : R → R+
Fxi (x) = P (ξ ≤ x)
Verteilungsfunktion von ξ.
Bsp.1: Ein Punkt wird zufällig in das Quadrat Ω = {(x1 , x2 )|0 ≤ xi ≤ 1}.
a) ξ(x1 , x2 ) = x1


0
Fξ (x) = x


1
f alls x ≤ 0
f alls 0 ≤ x ≤ 1
f alls x ≥ 1
b) ξ(x1 , x2 ) = x1 + x2


0



2


x
Fξ (x) = 2

1



2


1 − (1 − x)
2
f alls x ≤ 0
f alls 0 ≤ x ≤ 1
f alls x ≥ 2
f alls 1 ≤ x ≤ 2
Es gilt:
1. Fξ (x) ist monoton wachsend
2. P (x1 ≤ ξ ≤ x2 ) = Fξ (x2 ) − Fξ (x1 )
1
3. P (ξ = x) = lim [Fξ (x + ) − Fξ (x)] = Fξ (x + 0) − Fξ (x)
i→∞
2
10
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
1.5.1
Zwei Typen von Zufallsgrößen
a) Diskrete Zufallsgrößen: Funktion: ξ : Ω → R
nimmt diskrete Werte x1 ,. . . xn . . .
P (ξ = xn ) = pn ≥ 0,
X
pn = 1
n
b) absolut stetige Zufallsgröße: Funktion ξ : Ω → R
nimmt beliebige reelle Werte an und es exisitiert Funktion pξ : R → R (Verteilungsdichte) so,
dass
Z
x
Pξ (x0 )dx0
Fx i(x) = P (ξ < x) =
−∞
Pξ (x)dx=
ˆ Wahrscheinlichkeit, dass ξ ein Wert in entsprechenden Intervall hat.
Bsp.2:
• Normalverteilung (Gauss-Verteilung) (absolut stetig)
1
(x − a)2
Pξ (x) = √
exp −
2σ 2
2πσ
• Gleichverteilung (absolut stetig)
1
Pξ = (b − a)

0


f ür x ∈ [a, b]
sonst
• Bionomialverteilung (diskret)
n m
P (ξ = m) =
p (1 − p)n−m
m
m = 0, 1, 2, . . . , n; 0 ≤ p ≤ 1
• Possion-Verteilung (diskret)
P (ξ = m) =
λ − m −λ
e
m!
m = 0, 1, 2, . . .
Def.: Zwei Zufallsgrößen ξ1 , ξ2 : Ω → R sei unabhängig, wenn
Fξ1 ,ξ2 (x1 )(x2 ) = Fξ1 (x1 )Fξ2 (x2 )
(Fξ1 ,ξ2 (x1 , x2 ) = P ({ξ1 < x1 } ∩ {ξ2 < x2 }))
11
1.5. ZUFALLSGRÖSSEN
1.5.2
Charakteristika von Zufallsgrößen
1.5.2.1
Erwartungswert
a) Diskreter Wahrscheinlichkeitsraum, ξ → ξ(ωk )
n(∞)
Eξ =
X
p(ωk )ξ(ωk )
k=1
äquivalent: ξ nimmt Werte x1 , x2 ,. . . an
m(∞)
Eξ =
X
xi P (ξ = xi )
i=1
b) absolut stetiger Wahrscheinlichkeitsraum und Zufallsgröße
Z ∞
Eξ =
Pξ (x) · xdx
−∞
1.5.2.2
Eigenschaften
a) ξ(ω) ≡ c ⇒ Eξ = c
b) E(c · ξ) = cEξ
c) E(k ξ k) ≥ |Eξ |3
d) E(ξ1 + ξ2 ) = Eξ1 + Eξ2
1.5.2.3
Streuung / Kovananz
Dξ = E(ξ − Eξ )2 = Eξ2 − E(Eξ )2
p
Dξ - Streuung
cov(ξ1 , ξ2 ) = E [(ξ1 − Eξ1 )(ξ2 − Eξ2 )] - Kovananz
cov(ξ1 , ξ2 )
Korrelationskoeffizient: p
(Dξ1 , Dξ2 )
1.5.2.4
Gesetz der großen Zahlen un dzentrales Grenzwerttheorem
Zufallsgrößen (abzählbar unendlich viele) ξ1 , ξ2 , . . . , ξm , . . . (auf einem Wahrscheinlichkeitsraum)
seien unabhängig und haben alle dieselbe Verteilung mit dem Erwartungswert Eξn = a
Dann gilt
ξ1 + ξ2 + · · · + xin
lim P − a < = 1
n→∞
n
für jedes ¿ 0.
3
kxk=
ˆ Norm des Vektor x |x| - Betrag der Zahl x
12
KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT
• Haben sie zusätzlich eine Streuung Dξn = σ 2 , so gilt


Z x
ξ + · · · + ξ − n · a

n2
1
 1

n
√
Fη = P 
< x →n→∞
e− 2 dn
2π −∞


σ n
|
{z
}
η
(für n → ∞ Gauss verteilt)
1.5.2.5
Schätzung von (unbekannten) Parametern von Wahrscheinlichkeiten anhand von Lernstichproben
Bekannt: Ω, F, P ∈ P - Klasse von Wahrscheinlichkeitsfunktionen
Oft kann die Klasse P parametrisch beschrieben werden: P (ω; |{z}
α )
4
Ziel: α soll bestimmt werden. Dazu Lernstichprobe T = {ω1 , . . . , ωn } erzeigen (unabhängig mit
P (ω; α)) ⇒ daraus α schätzen
Maximum - Likelihood Prinzip:
Wahrscheinlichkeit die Stichprobe mit P(ω; α) zu generieren
P (T ; α) =
=
n
Y
Likelihood
p(ω; α)
i=1
Y
P nω (ω; α)
ω∈Ω
nω =
ˆ ω trat nω - mal in T auf
Y
P (ω; α) → max
α
ω∈R
α∗ = arg max ln
α
Y
| ln
P nω (ω; α) = arg max
ω∈Ω
α
X
ω
|{z}
5
4
5
kein stochastisches Element, unbekannte Größe
möglich, da hier nur arg max gesucht ist
α
nω ln P (ω; α)
Kapitel 2
Optimierung auf Euklidischen Räumen
2.1
Euklidische Räume und lineare Abbildungen
Linearer Raum (Vektorraum) der Dimension n Menge V 3 v =
ˆ Punkt, Vektor mit
1. V ist kommutative Gruppe bezüglich Addition
2. V ist Modul über R: x, y ∈ V λ, µ ∈ mathbbR
λ(x + y) = λx + λy ; (λ + µ)x = λx + µx
λ(µ)x = (λµ)x ; 1 · x = x ; |{z}
0 ·x = |{z}
0
∈R
∈Rn
3. Maximale Zahl von linear unabhängigen Elementen aus V ist n
Wie üblich: x1 , . . . , xk ∈ V heißen linear unabhängig, wenn aus
|
{z
}
1
λ1 x 1 + λ2 x 2 + · · · + λk x k ⇒ λ1 , . . . , λ k = 0
folgt.
Basis von V =
ˆ System von n linear unabhängigen Elementen e1 . . . en ∈ V
Kov - System: Für jedes x ∈ V
λx + λ1 e1 + · · · + λn en = 0 , λ 6= 0
x = x1 e1 + · · · + xn en
Euklidischer Raum: E - Vektorraum + Skalarprodukt < ., . >: E × E → R mit
1. Bilinearität: < λx + µx, z >= λ < x, z > +µ < x, z >
2. Symmetrie: < x, y >=< y, x >
3. Positivität: < x, x >≥ 0 , < x, x >= 0 ⇒ x = 0
13
14
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
In jedem Vektorraum kann Skalarprodukt eingeführt werden
Sei e1 , . . . , en Basis , < ei , ej >= δij
|{z}
2
Seien x =
n
X
i
xi e ; y =
i=1
n
X
i
yi e ⇒< x, y >=
i=1
n
X
xi yi
i=1
Umgekehrt: System heißt orthonormiert, falls < ei , ej >= δij gilt.
Konstruktion einer orthonormierten Basis aus einer Basis x1 , . . . , xn
1
1) e1 =< x1 , x1 >− 2 x1
..
.
k) Sei bereits e1 , . . . ek so konstruiert, dass < ei , ej >= δij , alle e1 , . . . , ek sind Linearkombinationen der x1 , . . . , xk3
k+1) y = xk+1 − (λ1 e1 + · · · + λk ek ) mit λi =< xk+1 , ei >⇒ ek+1 =< y, y >−f rac12 y
1
Es gilt ∀x, y, z und k x k=< x, x > 2 4
Dreiecksgleichung:
k x − y k≤k x − z k + k z − y k
| < x, y > | ≤k x kk y k
2.1.1
Offene, abgeschlossene und konvexe Menge
Ein Punkt x ∈ E ist Grenzwert einer Folge x1 , . . . , xn , · · · ∈ E
d.h. x = lim xi falls k xi − x k→ 0 für i → ∞ Sei D ⊂ E eine Teilmenge von E
i→∞
• x ∈ D heißt innerer Punkt von D falls
∀ > 0 so, dass U (x) = {y inE| k x − y k≤ { ⊂ D
| {z }
U mf ang
• D heißt offen , falls sie mit der Menge ihrer inneren Punkte überereinstimmt
• D heißt abgeschlossen , falls für jede konvergierende Folge aus D auch deren Grenzwert zu D
gehört:
x1 , x2 , · · · ∈ D , x = lim xi ⇒ x ∈ D
i→∞
abgeschlossene Mengen sind über Durchschnitt abgeschlossen,
offene gegenüber Vereinigung
• D heißt konvex , falls für jedes Paar x, y ∈ D auch die sie verbindene Strecke in D enthalten
ist
λx + (1 − λ)y ∈ D ∀0 ≤ λ ≤ 1
2
Kronecker Symbol
hier wir davon ausgegangen, dass man den k. Schritt schon durchgeführt hat
4
kxk=
ˆ Norm des Vektor x |x| - Betrag der Zahl x
3
15
2.2. LINEARE ABBILDUNGEN
• D heißte Kegel , falls für jedes x ∈ D
λx ∈ D , ∀λ ≥ 0
gilt.
→ Abschluss einer Menge D → cl(D)=
ˆ Menge aller Grenzwerte von konvergenten Folgen aus D.
→ Konvexe Hülle einer Menge D → conv(D)=
ˆ kleinste konvexe Menge, die D enthält
Bsp.1:
a) Jeder Unterraum von E ist konvex und abgeschlossen.
b) Rn+ = {x ∈ Rn |xi ≥ 0 , ∀i = 1, . . . , n}
konvexer abgeschlossener Kegel
c) U (x) = {y ∈ E| k x − y k≤ } ist konvex und abgeschlossen
d) Sei M ⊂ R die Menge der rationalen Zahlen, M hat keinen inneren Punkt, cl(M ) = R
2.1.2
Stetige und konvexe Funktionen
Sei D ⊂ E und f : D → R eine aud D definierte Funktion
• f heißt stetig auf D falls f (xi ) →i→∞ f (x) für jede konvrgente Folge xi →i→∞ x in D
• äquivalent: Urbilder offener Mengen sind offen
U ⊂ R sei offen, dann ist
{x ∈ D|f (x) ∈ U } offen in D
Sei C ⊂ E konvex und f : C → R
• f heißt konvex, falls
f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y) ; ∀x, y ∈ C
äquivalent: Die Mengen
{(x, α) ∈ E × R|λ ≥ f (x)}
sind konvex
Bsp.2:
a) Die Funktion f : E → R, f (x) =k x k ist stetig und konvex
b) Die Funktionen f, g, h : R → R
f (x) = x2 , g(x) = ax + b , h(x) = x2 + ax + b
2.2
Lineare Abbildungen
Seien E, Y Euklidische Räume. Eine Abbildung A: E → Y heißt linear, falls ∀x, y ∈ E, λ, µ ∈ R
A(λx + µy) = λAx + µAy
gilt.
16
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Speziell: jede lineare Abbildung E → R hat die Form Ax=ha, xi mit einem gewissen a ∈ E.
Beweis: Sei ei , i=1,. . . ,n orthonormierte Basis von E
a=
n
X
(Aei )ei
i=1
X
X
Ax = A(
xi ei ) =
xi (Aei )
i
ha, xi =
*
X
i
+
(Aei )ei , x
= ··· =
X
i
xi (Aei )
i
Def.: symmetrische Abbildung Eine Abbildung A: E → E heißt symmetrisch, falls ∀x, y ∈ E
hy, Axi = hAy, xi
gilt.
Sei A: E → Y linear und ej , j=1,. . . ,n bzw. y i , i=1,. . . ,m orthonormierte Basen von E bzw. Y
Aij = y i , Aej
Sei A: E → E linear und I: E → E die identische Abbildung. Die Lösung der Gleichung
det(A − λI) = 0
heißen Eigenwerte von A. Die (möglicherweise komplexen) Vektoren x, für die Ax = λx gilt, heißen
Eigenvektoren.
Satz:
a) Die Eigenwerte einer symmetrischen Abbildung sind reell
b) Die Eigenvektoren zu unterschiedlichen Eigenwerten sind orthogonal
Beweis:
a) Da A reell ⇒ Ax=λx ⇒ (Ax)=(λx) ⇒ Ax = λx, da A symmetrisch
hx, Axi = λ hx, xi
k
k
hAx, xi = λ hx, xi
b) Sei Ax1 = λ1 x1 , Ax2 = λ2 x2 , λ1 6= λ2
hx2 , Ax1 i = λ1 hx2 , x1 i
k
k
2
1
hAx , x i = λ2 hx2 , x1 i
Eine symmetrische Matrix A heißt positiv semidefinit , falls
hx, Axi ≥ 0 ∀x
(äquivalent: alle Eigenwerte von A sind nicht negativ)
17
2.3. OPTIMALITÄTSBEDINGUNGEN
2.3
Optimalitätsbedingungen
Typische Optimierungsaufgabe:
f : E → R gi : E → R i ∈ J = {J1 , J2 }
Suche min f (x)
x∈E
unter den Nebenbedingungen (NB):
gi (x) = 0i ∈ J1
gi (x) ≥ 0i ∈ J2
Bsp.: E = R2
(x1 − 2)2 + (x2 − 1)2 → min
x1 x2
x21
NB: − x2 ≤ 0
x1 − x2 ≤ 2
x2 ≥ −2 + x1
x2 ≥ x21
2.3.1
Richtungsableitung und Gradient
Sei f : E → R, Richtungsableitung von f im Punkt x ∈ E in Richtung d ∈ E
f (x + td) − f (x)
0
f (x; d) = lim
(t ≥ 0)
i→0
t
0
Ist die Richtungsableitung f (x; d) eine lineare Funktion der Richtung d:
0
f (x; d) = ha, di
dann: f ist differenzierbar in x mit dem Gradient (∇f )(x) = a
Bsp.:
a) Die Funktion f (x) = kxk; x ∈ E Richtungsableitung in x=0
f (td) − f (0)
kdk
= lim
= kdk
t→0
t→0 t
t
aber Fkt. in x = 0 nicht differenzierbar
( Gradient existiert nicht)
x
kx + tdk − kxk
=
,d
Sei x 6= ~0;
t
kXk
s
X
In Koordinaten: kxk =
x2i
0
f (0; d) = lim
i
1 2xi
x
δ
x
kxk = qP
=
; ∇f (x) =
δxi
2
kxk
kxk
2
j xj
b) f(x)=kxk2
C ⊂ E, konvex, x∗ ∈ C, Normalkegel in x∗






∗
∗
NC (x ) = d ∈ E| hd, x − x i ≤ 0, ∀x ∈ C
| {z } 
| {z }



5
6
18
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Bsp.: E = R2
C=
ˆ ⇒ NC (x∗ ) = {~0}
C=
ˆ ⇒ NC (x∗ )=
ˆ Strahl ⊥ zur Tangente
C=
ˆ ⇒ NC (x∗ )=
ˆ Schnitt zweier Halbräume
C=
ˆ ⇒ NC (x∗ )=
ˆ Gerade durch x∗ und ⊥ zu C
Satz 1: (Notwendige Optimalitätsbedingung 1. Ordnung)
Sei C ⊂ E konvex und x∗ ∈ C sei lokales Minimum von f : C → R. Dann gilt ∀x ∈ C
f 0 (x∗ , x−∗ ) ≥ 0
Ist f differenzierbar in x∗ , so gilt −∇f (x∗ ) ∈ NC (x∗ )
Beweis: ∃ x ∈ C mit f 0 (x∗ , x − x∗ ) < 0 ⇒
für kleine t gilt
f (x∗ + t(x − x∗ )) − f (x∗ ) < 0
|
{z
}
∈C
< f (x∗ )
Widerspruch
Satz 2: (Hinreichende Optimalitätsbedingung 1. Ordnung)
Sei C ∈ E konvex und f : C → R konvex
Dann ∃ f 0 (x∗ , x − x∗ ) ∀x∗ , x ∈ C (in [−∞, +∞))
gilt nun
f 0 (x∗ , x − x∗ ) ≥ 0 ∀x ∈ C bzw. − ∇f (x∗ ) ∈ NC (x∗ )
so ist x∗ globales Minimum von f in C.
(konvexe Funktion kann keine (mehrere) lokalen Minima besitzen)
Beweis: Man zeigt, dass wegen Konvexität von f die Funktion
t ∈ (0, 1] 7→
f (x∗ + t(x − x∗ )) − f (x∗ )
t
nicht fallend ist. ⇒ Oder:
Angenommen ∃ x1 ∈ C f (x1 ) < f (x∗ )
f (x∗ + t(x1 − x∗ )) − f (x∗ )
< 0 für t = 1
t
Widerspruch
6
6
Normalenkegel von x∗
Skalarprodukt
19
2.4. GRADIENTENVERFAHREN UND IHRE BESCHLEUNIGUNG
Satz 3: (Hinreichende Optimalitätsbedinung 2. Ordnung)
Sei f : Rn → R zweimal stetig differenzierbar und sei x∗ ∈ Rn kritischer Punkt von f (∇f (x∗ ) =
~0)
x∗ ist lokales Minimum von f g.d.w. der Hessian ∇2 f (x∗ ) positiv |semidefinit
{z } ist.
7
Sei e1 , . . . en - orthonormierte Basis in E und
x = x1 e1 + · · · + xn en d.h. (x1 , . . . , xn ) - Koordinaten
δf (x)
δf (x)
,...,
Komponenten von ∇f (x) sind:
δx1
δxn
 2

δ 2 f (x)
δ f (x)
 δx1 δx1 . . . δx1 δxn 


..
..

Komponenten von ∇2 f (x) : 
.
.


 δ 2 f (x)
δ 2 f (x) 
...
δxn δx1
δxn δxn
δ2f
n × n Matrix symmetrisch - Matrixelement i, j : ⇒
δxi δxj
Bsp.: f (x1 , x2 ) = x1 x2
1) x1 = x2 = x
f = x2
2) x1 = −x2 = x
2.4
2.4.1
f = −x2
Gradientenverfahren und ihre Beschleunigung
Abstiegsverfahren
Unrestringierte Ausgabe: Sei f : E → R stetig differnzierbar
f (x) → min, x ∈ E
Abstiegsverfahren:
1. xk+1 = xk + αpk und f (xk+1 ) < f (xk )
2. xk → x∗ und ∇f (x∗ ) = 0
k→∞
A. Verfahren des steilsten Abstiegs
pk = −∇f (xk ) = −∇fk
αk aus: Minimum von f auf dem Strahl xk + αpk
ϕ(α) = f (xk + αpk )
αk = arg min ϕ(α) ⇒ ∇f (xk + αk pk ), pk = 0 !
α
7
alle Eigenwerte sind 0
20
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Praktisch meist nicht möglich → αk heuristisch bestimmen. z.B. so dass (Wolfe)
f (xk + αk pk ) ≤ f (xk ) + c1 αk < ∇fk , pk >
"
#
dafür ist es aber notwendig, dass die Schrittweite αk nicht zu klein gewählt wird. Dort
können wir aus den Gradienten zu nutze machen. (Richtungswechsel des Gradienten als
Maß [bzw. wie weit dreht sich Gradient aus Strahl heraus])
| ∇f (xk + αk pk ), pk ≤ c2 | ∇fk , pk
mit 0 < c1 < c2 < 0, 5
B. Newton Verfahren
Bei ’guten’ Funktionen ([beliebig]oft differnzierbar, oder sogar unendlich oft) kann man
Funktion auch als Taylor - Reihe aufschreiben:
1
p, ∇2 fk p
f (xk + p) ≈ f (xk ) + hp, ∇fk i +
|
{z 2
}
h(p)
min h(p) → Gradient bezüglich p : ∇fk + ∇2 fk p = 0
−1
pk+1 = − ∇2 fk
· ∇fk
• Falls Matrix ∇2 fk positiv definit8 → ∇2 fk ist invertierbar und pk+1 ist neue Abstiegsrichtung
• ’Natürliche’ Schrittweite ist 1
2.4.2
Verfahren der konjugierten Gardienten
2.4.2.1
Lineare Gleichungen und konjugierte Richtungen
Sei A eine symmetrische und positiv definite n × n Matrix und b ∈ Rn . Gesucht:
Ax = b
(Prinzipiell wäre das leicht durch invertieren der Matrix möglich [muss laut Vorraussetzung möglich
sein], was aber bei einer größeren Matrix eher ineffektiv ist.
wir benötigen effektiveres Verfahren)
Äquivalent:
1
ϕ(x) = hx, Axi − hb, xi
2
ϕ(x) → minx∈Rn
Def.: Die Richtungen p0 , p1 ,. . . , pl ∈ Rn sind konjugiert bezüglich A falls:
i
p , Apj = 0
∀i 6= j
Konjugierte Richtungen sind linear unabhängig.
8
alle ihre Eigenwerte sind streng nicht negativ
21
2.4. GRADIENTENVERFAHREN UND IHRE BESCHLEUNIGUNG
Bezeichnung: r(x) = ∇ϕ(x) = Ax − b
Satz: Seien p0 , p1 ,. . . , pn−1 bezüglich A konjugiert. Das Verfahren
xk+1 = xk + αk pk
mit
k k
p ,r
αk = arg min ϕ(xk + αpk = − k
hp , Apk i
terminiert nach n Schritten im Minimum von ϕ.
Beweis:
a)
1
k
x + αpk , A(xk + αpk ) − b, xk + αpk
2
1
= α2 pk , Apk + α pk , Axk − α b, pk
2
1 = α2 pk , Apk + α < pk , rk > + const
2
k k
p ,r
⇒ αk = − k
hp , Apk i
X
b) Sei x∗ =
σk pk Lösung. Aus Ax∗ − b, pk = 0 folgt
ϕ(xk − αpk ) =
*
+
X
0
A(
σk0 pk
=
k0
*
X
+
k0
σk0 Ap − b, pk
=0
k0
k k
r ,p
b, pk
=! k
⇒ σk = k
k
hp , Ap i
hp , Apk i
2.4.2.2
Verfahren der konjugierten Gradienten (linear)
pk kann aus pl−1 bestimmt werden
pk = −∇ϕ(xk ) + βk pk−1 = −r + βk pk−1
rk , Apk−1
Mit βk = k−1
hp , Apk−1 i
2.4.2.3
Verfahren der konjugierten Gradienten (nicht linear) (von Polak, Ribiere)
f : Rn → R, f -stetig differenzierbar, X 0 ∈ Rn
Algorithmus
Start: f (x0 ) = f0 , ∇f0 = ∇f (x0 ), p0 = −∇f0 , k = 0
Solange ∇fk 6= 0
• Minimiere f auf dem Strahl xk + αpk und setze
xk+1 = xk + αk pk
22
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
• Berechne ∇fk+1 = ∇f (xk+1 )
βk+1 =
h∇fk+1 , ∇fk+1 − ∇fk i
||∇fk ||2
• Setze pk+1 = −∇fk+1 + βk · pk
Praxis: Minimierung auf Strahl ersetzen durch heuritische Bestimmung von αk
Sind dabei Wolfe - Bedingungen erfüllt
∇fk , pk = −||∇fk ||2 + βk ∇fk , pk−1 < 0
2.5
Optimierung unter Nebenbedingungen
Seien f, gi : Rn → R differnzierbar; i ∈ I(beliebig unendliche Indexmenge)
Betrachten wir:


minn f (x)

x∈R
(1) gi (x) = 0 ∀ ∈ I1
I1 ∪ I2 = I


g (x) ≥ 0 ∀ ∈ I
I ∩I =∅
i
2
1
2
Bsp.1: (Eine Gleichungsbedingung)
• Die Gleichung g(x) = 0 definiert eine Fläche mit dim = n − 1 im Rn . z.B. g(x) =
||x||2 − r2 definiert eine Sphäre mit Zentrum in ~0 und Radius r.
• Sei x∗ ein Punkt dieser Fläche ⇒ Tangentialebene definiert durch alle Richtungen d ∈ Rn
h∇g(x∗ ), di = 0
• Abstiegsrichtungen von f in x∗ :
h∇f (x∗ ), di < 0
- offener Halbraum
Ist x∗ lokales Minimum von f auf g(x) = 0, so darf es keine Richtung d geben, die beides erfüllt.
⇒ ∇f (x∗ ) parallel zu ∇g(x∗ )
⇒ ∇f (x∗ ) = λ∇g(x∗ )
z.B. f (x) = − ha, xi2 ∇f (x) = −2 ha, xi a
ha, xi a = λx
∇g(x) = 2x
Bsp.2: (Eine Ungleichungsbedingung
• Die Umgebung g(x) ≥ 0 definiert ein abgeschlossenes Gebiet
z.B. x ∈ R2 , g(x) = g(x1 , x2 ) = x2 − x21
• Fallunterscheidung
a) Minimalpunkt x∗ von f liegt im Inneren
⇒ f (x∗ ) = 0
23
2.6. LINERARE OPTIMIERUNG UND DUALITÄT
b) Minimalpunkt x∗ liegt auf dem Rand
– zulässige Richtungen bezüglich Nebenbedingungen
h∇g(x∗ ), di ≥ 0
- abgeschlossener Halbraum
– Abstiegsrichtung von f
h∇f (x∗ ), di < 0
- offener Halbraum
⇒ ∇f (x∗ )und∇g(x∗ ) zeigen in dieselbe Richtung
d.h. ∇f (x∗ ) = λg(x∗ )
,λ > 0
a) + b) (
∇f (x∗ ) = λ∇g(x∗ )
λg(x∗ ) = 0
,λ ≥ 0
Satz 1: Sei x∗ Lösung von
Zahlen (notwendige Bedinngung) λ0 , λi , i ∈ I mit λi ≥
 (1). Dann ∃X
∗
λ0 ∇f (x ) =
λi ∇gi (x∗ )
0, ∀i ∈ I2 , so dass
i∈I

λi gi (x∗ ) = 0
Bemerkung: Lagrange - Koeffizienten → λi
Lagrange Funktion:
X
L(x, λ) = λ0 f (x) −
λi gi (x)
i∈I
Satz 2: (Karnish, Kuhn, Tucher)
(hinreichende Bedingung)
Seien in (1) die Funktionen f, gi , ∀i ∈ I2 9 konvex, und die Funktionen gi (x), ∀i ∈ I1 10 linear.
Existiere weiterhin ein x mit
gi (x) = 0 ∀i ∈ I1 , gi (x) > 0 ∀i ∈ I2 .
Gelte für eien zulässigen Punkt x∗ (erfüllt (1)) und λi , λi ≥ 0∀i ∈ I2
X
∇f (x∗ ) =
λi ∇gi (x∗ )
i∈I
λi gi (x∗ ) = 0 ∀i ∈ I
so ist x∗ Lösung von (1).
2.6
Linerare Optimierung und Dualität
Hinweis: Lösungsverfahren wie das Simplexverfahren oder das Ellipsiodverfahren sollen hier nicht
näher betrachtet werden, da diese in der Literatur wie z.B. Bronstein gefunden werden können.
Seien c ∈ Rn , b ∈ Rm und A eine m × n Matrix
⇒
( Lineare Optimierungsaufgabe
hc, Xi → min x ∈ Rn
Ax ≥ b
(1)
9
10
Ungleichungen
Gleichungen
24
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Bemerkungen:
• x ≥ x0 ⇐⇒ xi ≥ x0i
∀i
• Die Aufgabe (1) ist konvex ⇒ jedes Minimum ist global
• Geometrische Interpretation: Seien ai ∈ Rn , i = 1, . . . , m die Zeilen von A. Die Bedingungen hai , xi ≥ bi , ∀i = 1, . . . , m definieren Halbräume des Rn
Die Lagrange Funktion der Aufgabe ist
L(x; y) = hc, xi − hy, Ax − bi
x ∈ Rn , y ∈ R m
+
Sie enthält die gesamte
Information über (1)
(
hc, xi fallsAx ≥ b
max
L(x;
y)
=
y∈Rm
+∞ sonst
+
Bezeichne p ∈ [−∞, +∞) den Optimalwert von (1)
p = minn max
L(x; y)
x inR y∈Rm
+
|
{z
}
(2)
p = max
minn L(x; y)
m
(3)
11
Assoziiertes Problem
y∈R+ x inR
Dieses duale Problem habe den Optimalwert d. Es gilt d ≤ p.
Betrachten wir
ψ(y) = minn L(x; y) = minn [hc, xi − hy, Ax − bi]
x∈R
x∈R
T
= minn c − A y, x + hy, bi
x∈R
(
hy, bi fallsAT y = c
ψ(y) =
−∞ sonst
D.h. das duale Problem (3) kann äquivalent geschrieben werden:
(
hy, bi → max
AT y = c
y ∈ R+
m (4)
(4)
Sein Optimalwert sei d und es gilt d ≤ p.
Frage: Gilt d = p? Wann? (
11
Ist es egal welches Problem man löst?)
⇒ ist äquivalent zur Formulierung von (1)
2.6. LINERARE OPTIMIERUNG UND DUALITÄT
25
Ein Schritt zur Seite
Lemma (Farkas) ohne Beweis: Seien ai ∈ E, i = 1, . . . , m und c ∈ E. Dann besitzt
genau eines der folgenden Systeme eine Lösung
a)
m
X
λi ai = c, λi ≥ 0, ∀i = 1, . . . , m
i=1
b) hai , xi ≥ 0, ∀i = 1, . . . , m, hc, xi < 0, x ∈ E
Anschaulich debeutet dass: entweder der Vektor c liegt in dem Kegel, welcher durch
alle möglichen positiven Linearkombinationen von ai aufgespannt wird oder es
existiert eine Ebene, wodurch der Kegel auf der einen Seite und c auf der anderen Seite liegt.
Angenommen
p ist endlich. Betrachten wir das ’homogenisierte’ System von Ungleichungen in Rn+1 :


x ∈ Rn
Ax − zb ≥ 0
z≥0
z ∈ Rn
(5)


hc, xi − pz < 0
Dieses System hat keine Lösung. Denn:
a) Sei z > 0.
Bezeichne x0 = 12 x
0
Ax ≥ b
hc, x0 i < p → Widerspruch
b) Sei z = 0.
Ax ≥ 0 hc, xi < 0
∗
Gelte für x
Ax∗ ≥ b
Betrachte Strahl x∗ + tx → Widerspruch (da der Strahl immer weiter ins negative gehen würde,
−∞ ist aber keine Lösung)
Wendet man das Lemma von Farkas an ⇒
∃y ∈ Rm
+ , β ∈ R+ mit
AT y = c, hb, yi = p + β
Es folgt d ≥ p und wegen d ≤ p schließlich d = p .
Satz 1: (Erster Dualitätssatz) Ist der Optimalwert des primalen Problems (1) endlich, so stimmt er
mit dem Optimalwert der dualen Aufgabe (4) überein.
Bemerkung: Falls in (1) lineare Gleichungen als Nebenbedingungen auftreten, so kann man sie
durch Paare von Ungleichungen ersetzen.
Dualität in allgemeiner Form:
primales Problem

0
0

x ∈ Rn+1
x0 ∈ Rn2
hc, xi + hc , x i → min
A1,1 x + A1,2 x0 ≥ b


A2,1 x + A2,2 x0 = b0
A.,. sind Matrizen mit folgenden Dimensionen
26
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
A1,1 - m1 × n1 ; A1,2 - m1 × n2 ; A2,1 - m2 × n1 ; A2,2 - m2 × n2
duales Problem

0 0

hb, yi + hb , y i → max
AT1,1 y + AT2,1 y 0 ≥ c

 T
A1,2 y + AT2,2 y 0 = c0
1
y ∈ Rm
+
y 0 ∈ Rm2
⇒ Beide Probleme sind also äquivalent.
Satz 2: Sei (x̃, x̃0 ) Lösung des primalen Problems und (ỹ, ỹ 0 ) Lösung des dualen Problems. Dann
gilt:
hỹ, (A1,1 x̃ + A1,2 x̃0 )i = 0
x̃, (AT1,1 y + AT2,1 ỹ 0 ) = 0
Bemerkung: Da oben alle Komponenten aller Vektoren in den Skalarprodukten nicht negativ sind,
gelten die entsprechenden Gleichungen auch komponentenweise.
2.7
Die Neyman Pearson Aufgabe
(Ein Beispiel für Nicht-Bayesche Strategien in der Mustererkennung)
Objekt:
Merkmal x ∈ X
Zustände k = 1, 2 mit
(z.B. Kernkraftwerk)
k = 1 - Normalzustand
k = 2 - gefährlicher Zustand
Statistischer Zusammenhang p(x|k) bekannt (aber p(k) =?)
Ziel: Entscheidung über Zustand anhand von x
D.h. Partitionierung von X
X1 ∪ X2 = X
X1 ∩ X2 = ∅
Zwei nichtvergleichbare Fehlerarten:
X
w1 =
p(x|1)=Wahrscheinlichkeit
ˆ
des Fehlalarms
x∈X2
w2 =
X
p(x|2)=Wahrscheinlichkeit
ˆ
der übersehenen Gefahr
x∈X1
Gesuchte
 X Strategie:

p(x|1) → min


(X1 ,X2 )


x∈X2
(Wahrscheinlichkeit des Fehlalarms minimieren)
X1 ∩ X2 = ∅ X1 ∪ X2 = X
(unter der Nebenbedingung, dass Wahrscheinlichkeit eines übersehenen Fehlers maximal ist.)
x∈X1
X
Andere Darstellung: αX × K → 0, 1,
α(x, k) = 1 ∀x ∈ X

X



p(x|2) ≤ 

k
w1 =
X
x∈X
α(x, 2)p(x|1)
27
2.7. DIE NEYMAN PEARSON AUFGABE
w2 =
X
α(x, 1)p(x|2)
x∈X
Gesuchte
Strategie:
X

α(x, 2)p(x|1) → min α(x, k) = [0, 1]12


α


x∈X



m
X

α(x, 1)p(x|2) ≤ α(x, k) ≥ 0




x∈X


α(x, 1) + α(x, 2) = 1
∀x ∈ X
Duale
 X Aufgabe

t(x) − τ → max τ ≥ 0


t,τ
x∈X
t(x) − p(x|2)τ ≤ 0



t(x) ≤ p(x|1)
∀x
∀x
für duale τ ≥ 0
t(x) - duale Variable für jedes x
α(x, 1)
α(x, 2)
2. Dualitätssatz: Für die Lösung α∗ (x, k), τ ∗ , t∗ (x)
[t∗ (x) − p(x|2)τ ∗ ] α∗ (x, 1) = 0 ∀x
[t∗ (x) − p(x|)] α∗ (x, 2) = 0
∀x
Folglich ∀x muss ein der beiden Ungleichungen als Gleichung erfüllt sein ⇒
t∗ (x) = min [p(x|2)τ ∗ , p(x|1)]
a) p(x|1) < τ ∗ p(x|2) → t∗ (x) = p(x|1) ⇒ α∗ (x, 2) = 1
b) p(x|1) > τ ∗ p(x|2) → t∗ = τ ∗ p(x|2) → α∗ (x, 1) = 1
Die optimale Strategie
(
k=1
p(x|1) > ∗
τ =
p(x|2) <
k=2
12
Relaxation
28
KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN
Kapitel 3
Diskrete Optimierung
3.1
Optimierung auf Graphen
Gewichteter Graph G(V, E, w) mit
V - Menge der Knoten, |V | = n
E - Menge aller Kanten
a) gerichteter Graph
b) ungerichteter Graph
R⊂V ×V
E ⊂ {M ⊂ v||M | = 2}
w - Kantengewichte, d.h. w : E → R
A) Kürzeste Pfade
Seien s, t zwei Knoten und pst = (v1 = s, v2 , . . . , vn = t) ein Pfad der s und t verbindet, d.h.
(vi , vi+1 ) ∈ E ∀i
n−1
X
Länge des Pfades l(pst ) =
w(vi , vi+1 )
i=1
Länge des kürzesten Pfades l(s, t) = min l(pst )
pst
Seien A, B ⊂ V , dann
’(A, B) - kürzeste Pfade Problem ’ =
ˆ Finde für jedes Paar s, t mit s ∈ A und t ∈ B die
Länge des kürzesten Pfades l(s, t).
Aufgabe ist korrekt gestellt, falls
(a) ∀s ∈ A, ∀t ∈ B∃ ein Pfad der s und t verbindet
(b) Kein Pfad von s nach t enthält Zyklen negativer Länge
(damit Länge nicht −∞ wird)
Wir betrachten ’({s}, V ) - kürzeste Pfade Problem’
( spannt einen Baum auf)
Bezeichne l(t) = l(s, t), l(s) = 0
Bellman: Die gesuchten l(t), t ∈ V sind Lösung des Systems von Gleichungen
(
a(s) = 0
u(t) = min [a(x) + w(x, t)] ∀t 6= s
x6=t
(Falls (x, t) ∈
/ E ⇒ w(x, t) = +∞ )
29
30
KAPITEL 3. DISKRETE OPTIMIERUNG
Algorithmus (Ford):
f (t) - pointer auf Knoten
Initialisiere: u(s) = 0 u(t) = ∞ ∀t = s, f (t) = nil ∀t ∈ V
Körper while nicht alle Gleichungen erfüllt do
begin
scan: Bestimme t 6= s für das ∃x 6= t mit
u(t) > u(x) + w(x, t)
label: u(t) = u(x) + w(x, t)
f (t) = x
end
(Klasse dieser Algorithmen unterscheiden sich nur im ’Scan - Teil’
z.B. wenn alle w(x, y) ≥ 0
Dijkstra)
Sei F ⊂ V Teilmenge für die der Algorithmus die l(t) bereits berechnet hat und I = V \ F .
Initialisiere:
Körper:
u(s) = 0, u(t) = w(s, t) ∀t 6= s, f (t) = s, F = {s} , I = V \ {s}
while I = ∅ do
begin
scan:
Finde t ∈ I mit minimalen u(t)
Fi = F ∪ {t} , I := I \ {t}
update: ∀ Nachbarn x von t , x ∈ I
u(x) = min [u(x), u(t) + w(t, x)]
f (x) = t falls u(t) + w(t, x) < u(x) war
end
Algorithmus benötigt (|E| = e, |V | = n)
O(e) updatet + Management der Prioritätsschlange
(a) Falls einfache Liste O(n) Iterationen, O(n2 ) insgesamt
(b) Falls Prioritätsschlange (Standard) O(deg(t) log n) pro Iteration → O(e log n) insgesamt
B) Maximal aufspannende Bäume
Sei G(V, E, w) ein gewichteter ungerichteter Graph
Def.: Aufspannender Baum: T ⊂ E mit G(V, T ) ist Baum. Seine Qualität ist
X
L(T ) =
w(e)
e∈T
Gesucht: Maximaler aufspannender Baum
Algorithmus (Boruvka 1926)
(a) Ordne E nach Längen: E = (e1 , e2 , . . . , en ) mit w(ei ) ≥ w(ej ) ∀i ≤ j
(b) for k = 1, k ≤ m, k + +
ek = {i, j} falls @ Weg zwischen i und j in T 0
dann T 0 := T 0 ∪ {ek }
Beweis: (Seien der Einfachheit halber alle w(e) unterschiedlich)
Behauptung 1: Sei e1 die längste Kante in E und T ∗ ein MST ⇒ e1 ∈ T ∗
31
3.2. DYNAMISCHE OPTIMIERUNG
Behauptung 2: Sei T ∗ ein MST und T 0 ⊂ T ∗
Sei e ∈ E, e = {i, j} die Kante für die gilt
(a) i und j sind in T 0 durch keinen Weg verbunden
(b) Unter allen solchen sei e die längste Kante. Dann folgt e ∈ T ∗ .
C) Traveling Salesman Problem
G(V, E, W ) - ungerichteter Graph mit Kantengewichten
Hamiltonscher Zyklus: Geordnete Liste (v1 , . . . , vn ) aller Knoten des Graphen mit {vi , vi+1 } ∈
E ∀i = 1, . . . , n und {v1 , vn } ∈ E.
Gesucht: kürzester Hamiltonscher Zyklus
→ ist NP - vollständig
D) Min-Cut Problem
G(V, E, W ) - gerichteter Graph mit Kantengewichten
s, t ∈ V , (s − t) - Schnitt - Partitionierung in 2 Teilmengen
S ∪ T = V, S ∩ T = ∅, s ∈ S, t ∈ T
Kosten eines (s − t) - Schnitts:
XX
G(S, T ) =
w(v, v 0 )
v∈S v 0 ∈T
Gesucht: (s − t) - Schnitt mit minimalen Kosten
E) Max Flow Problem
G(V, E, w) - gerichteter Graph mit Kantengewichten (Kapazitäten)
s, t ∈ V
(s − t) - Fluß =
ˆ f : E → R mit ∀v 6= s, t gilt
X
X
f (v 0 , v) =
f (v, v 0 )
v 0 :(v 0 ,v)∈E
v 0 :(v,v 0 )∈E
zulässiger Fluß: f (v, v 0 ) ≤ w(v, v 0 ) ∀v, v 0 ∈ E
Gesucht: Maximaler Fluß von s nach t


X
X
f (s, v) −
f (v, s) =
v:(s,v)∈E
3.2
{z
1
f (v, t) −
v:(v,t)∈E
v:(v,s)∈E
|

X
}
Dynamische Optimierung
• Sei k = (k1 , . . . , kn ) (Zustands)folge der Länge n mit ki ∈ K
• Bewertung der Folge:
G(k) = ϕ(k1 ) +
n−1
X
i=1
1
kann man normalerweise verhindern
gi (ki , ki+1 )

X
v:(t,v)∈E
f (t, v)
32
KAPITEL 3. DISKRETE OPTIMIERUNG
• Gesucht: Folge k ∗ mit maximaler Bewertung
k ∗ = arg max G(k)
k
Interpretation als Suche des besten Pfades
Sei fi (k) - Bewertung des besten Pfades von s zum Knoten (i, k)
f1 (k) = ϕ(k)
fi (k) = max
[fi−1 (k 0 ) + gi−1 (k 0 , k)]
0
k
zusätzlich Pointer indi (k) zeigt auf Vorgängerknoten im besten Weg
indi (k) = arg max
[fi−1 (k 0 ) + gi−1 (k 0 , k)]
0
k
Bisher:
X
Bewertung eines Pfades :
der Kantenbewertungen
Gesucht: (Pfad mit) max Bewertung
Was wenn:
Bewertung des Pfades
Gesuchte
L J
Sei (R, , ) Semiring
X
X
max
min
max min
min
max
Q
X
J2
L3
a ⊕ (b ⊕ c) = (a ⊕ b) ⊕ c = a ⊕ b ⊕ c
a (b c) = (a b) c
a⊕b=b⊕a
ab=ba
0⊕a=a
1a=a
a (b ⊕ c) = (a b) ⊕ (a c)
Nach wie vor k = (k1 , . . . , kn ) - Zustandsfolge und
G : k → R mit
"
G(k) = ϕ(k1 ) n−1
K
#
gi (ki , ki+1
i=1
gesucht
d=
M
k1
···
M
G(k)
kn
Dynamische Berechnung: fi : K → R
f1 (k) = ϕ(k)
M
fi (k) =
[fi−1 (k 0 ) gi−1 (k 0 , k)]
k0
3
3
verallgemeinerte Multiplikation
verallgemeinerte Summe
Index
NC , 17
ξ, 9
Kürzeste Pfade, 29
Karnish, 23
Karnish, Kuhn, Tucher, 23
Kegel, 15
konjugiert, 20
konvex, 14
konvexe Funktionen, 15
Korrelationskoeffizient, 11
Kovananz, 11
Kronecker Symbol, 14
Kuhn, 23
abgeschlossen, 14
abgeschlossene Menge, 14
abgeschlossener Kegel, 15
Abstiegsverfahren, 19
allgemeine Form der Dualität, 25
Axiome der Wahrscheinlichkeit, 4
Basis, 13, 14
Bayes - Formel, 5
Bedingte Wahrscheinlichkeit, 5
Bellman, 29
Bilinearität, 13
Lagrange, 24
Lagrange Funktion, 24
Lemma von Farkas, 25
Lineare Gleichungen und konjugierte Richtungen, 20
Lineare Optimierung, 23
Linearer Raum, 13
Linerare Optimierung und Dualität, 23
Diskrete Optimierung, 29
duale Problem, 24
duales Problem, 26
Dualität, 23, 25
Dynamische Optimierung, 31
Münze, 3
Matrixmultiplikation, 8
Max Flow Problem, 31
Maximal aufspannender Baum, 30
Menge, abgeschlossen, 14
Menge, offen, 14
Min-Cut Problem, 31
monoton wachsend, 9
Ereignis, 3
Ergebnis - Algebra, 4
Ergebnisalgebra, 4
Erster Dualitätssatz, 25
Farkas, 25
fixiertes Ereignis, 5
Folgeräume, 6
Ford, 30
Funktionen, konvex, 15
Funktionen, stetig, 15
gerichteter Graph, 29
Gewichteter Graph, 29
Gradient, 17
Gradientenverfahren, 19
hinreichende Bedingung, 23
Hinreichende Optimalitätsbedingung 1. Ordnung,
18
Hinreichende Optimalitätsbedinung 2. Ordnung,
19
33
NB, 17
Nebenbedingung, 17
Newton Verfahren, 20
Neyman Pearson Aufgabe, 26
Normalenkegel, 18
notwendige Bedinngung, 23
Notwendige Optimalitätsbedingung 1. Ordnung,
18
offen, 14
offene Menge, 14
Optimalitätsbedingungen, 17
Optimalwert, 24
34
Optimierung auf Graphen, 29
Optimierung unter Nebenbedingungen, 22
Optimierungsaufgabe, 17
orthonormiert, 14
orthonormierte Basis, 14
positiv semidefinit, 16
Positivität, 13
primales Problem, 25
Prioritätsschlange, 30
Richtungsableitung, 17
semidefinit, 16
semidefinit, positiv, 16
Skalarprodukt, 18
Sprachgebrauch, 3
stetige Funktionen, 15
Streuung, 11
Symmetrie, 13
symmetrisch, 16
symmetrische Abbildung, 16
Tangentialebene, 22
Tetraeder, 7
Traveling Salesman Problem, 31
Tucher, 23
Typische Optimierungsaufgabe, 17
unabhängige Zufallsgröße, 10
unabhängiges Ereigniss, 5
ungerichteter Graph, 29
Verfahren der konjugierten Gardienten, 20
Verfahren der konjugierten Gradienten (linear),
21
Verfahren der konjugierten Gradienten (nicht
linear) (von Polak, Ribiere), 21
Verfahren des steilsten Abstiegs, 19
Wahrscheinlichkeit, 3, 4
Wappen, 3
Zufall, 3
Zufallsgröße, 9
Zufallsgrößen, 9
Zusammengesetzte Ereignisse, 4
INDEX

Zugehörige Unterlagen

Einführung in die Stochastik ¨Ubungsblatt Nr. 3 7. November 2007 9

Optimierung f¨ur Neuronale Netze

Zugehörige Unterlagen

Produkte

Unterstützung

Optimierung f¨ur Neuronale Netze

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können